论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>毕业论文>范文阅读
快捷分类: 计算机应用技术论文 电脑知识和技术杂志 农村新技术杂志 现造技术论文 计算机科学和技术专业导论论文 电脑知识和技术期刊 电子技术投稿 软件开发论文开题报告技术指标 电气工程技术论文 物联网工程技术论文 步进电机的细分驱动技术开题报告 信息技术德育论文

技术研究类有关自考开题报告范文 与异构数据文本挖掘技术相关硕士学位毕业论文范文

分类:毕业论文 原创主题:技术研究论文 发表时间: 2024-02-01

异构数据文本挖掘技术,本文是技术研究方面论文参考文献范文与异构和文本和挖掘类硕士学位毕业论文范文.

[摘 要]本文主要研究基于自然语言处理技术和数据挖掘技术,面向出版行业,对海量、异构的数字出版文本内容进行智能分析与挖掘,研究与实现命名实体识别与语义关系抽取、自动摘 要提取、自动关键词提取、自动分类、自动过滤、自动消重、话题检测与追踪、情感分析等关键技术,为资源的编辑、加工、整理提供帮助,为知识标引和素材推荐等提供技术支撑.

[关键词]出版;文本挖掘;异构数据

doi:10.3969/j.issn.1673-0194.2017.21.070

[中图分类号]TP311.13[文献标识码]A[文章编号]1673-0194(2017)21-0164-02

1背景

数字出版已经成为出版行业的一种趋势,将逐渐取代传统出版方式.数字出版所产生的大量数字内容需要进行智能管理和自动加工,而其中文本数字内容数量最多,包括报纸、期刊、图书等出版类型,对文本数字内容的智能加工与挖掘技术是数字出版领域的关键基础技术,对数字出版多个子系统起到平台支撑作用.例如,文本分类技术可以将数字内容按照行业分类体系自动归类,文档自动摘 要技术可以将数字内容进行提炼和标引.这些技术能帮助出版行业单位对数字资源进行明晰化、系统化、智能化的管理,自动发掘潜在的知识规律,替代人工劳动,提高了生产效率.

目前,文本挖掘技术已经被广泛应用于互联网搜索与服务行业.主要采用的技术包括网页信息抽取技术、网页聚类技术、日志挖掘技术等,其目的是通过对互联网网页、用户日志等数据进行分析,改善搜索效果和提高用户体验.然而,与互联网搜索领域不同,数字出版领域的数字出版物形式多样,包括期刊、报纸、书籍等等,不同类型的出版物具有不同的篇幅与结构.传统的文本挖掘技术已不能满足对数字出版领域数字内容的智能化处理与分析需求,因此亟需研发面向数字出版领域的文本挖掘技术.

2大数据文本挖掘技术研究现状

基于自然语言处理技术和数据挖掘技术,面向数字出版领域的文本挖掘技术,对异构出版内容资源内包含的知识体系进行抽取和挖掘,为资源的编辑、加工、整理提供帮助,为知识标引和素材推荐等提供技术支撑.一方面,对已有文本挖掘技术(例如基于条件随机场的序列标注技术、基于支持向量机的分类技术等)进行升级改造,以满足数字出版行业的技术要求;另一方面,针对新的技术需求,研发文本挖掘创新技术(例如开放式实体关系抽取技术、基于图学习模型的摘 要和关键词统一抽取技术、非规范文本的情感分析技术等).

文本挖掘成果的处理对象主要针对新闻文本类型,无法处理数字出版行业所产生的异构数字内容,例如对科技文献和书籍进行自动摘 要的难度要远大于对新闻文档的自动摘 要,因此这些已有的文本挖掘技术已经打下了一个坚实的基础.

3异构数据文本挖掘技术目标

基于自然语言处理技术和数据挖掘技术,面向出版行业,对海量、异构的数字出版文本内容进行智能分析与挖掘,研究与实现命名实体识别与语义关系抽取、自动摘 要提取、自动关键词提取、自动分类、自动过滤、自动消重、话题检测与追踪、情感分析等关键技术,为资源的编辑、加工、整理提供帮助,为知识标引和素材推荐等提供技术支撑.本课题研发的技术将作为数字出版行业的关键支撑技术,为多个相关子系统提供服务.

面向新闻的命名实体识别技术、传统的文档摘 要与关键词抽取技术、面向简单分类体系的文本分类技术、基于高维索引的文本相似搜索技术、基于规则的文本过滤技术、基于聚类的主题检测技术、基于查询的主题追踪技术、新闻规范文本的情感分类技术.

4异构数据文本挖掘技术路线

异构数据文本内容文本挖掘技术划分为三个层次:引擎层、服务层以及应用与管理层.

4.1引擎层

引擎层包括各项文本挖掘的基础功能,实现文本挖掘的核心算法.

(1)命名实体识别,识别出文本中出现的专有名称和有意义的数量短语并加以归类.

(2)实体关系抽取,识别一个文档集内存在联系的实体,并抽取适当的短语描述它们之间的关系.

(3)自动关键词与摘 要提取,为给定的一篇或多篇文档自动提取若干反映文档主要内容的关键词;在符合长度要求的限制下,抽取若干反映文档主要内容的若干句子组成摘 要;以及针对用户特定查询的相关文档集,生成描述这些文档与用户查询相关的摘 要.

(4)自动分类,依据文档内容,按照预先指定和训练的分类体系进行自动分类.

(5)文本过滤,根据用户设置的敏感规则对文档进行过滤,并特别针对互联网中出现的各种隐藏的敏感内容的手段加以识别.

(6)文本消重,提供海量文档的快速相似判断功能,为版权保护、学术不端行为检测等系统提供支撑.

(7)话题检测与追踪,在没有话题的先验知识的情况下从信息流中实时自动检测出各个话题及其相关的文档;以及通过若干篇相关报道学习话题内容并在信息流中跟踪其后续相关报道.

(8)情感分析,以自然语言处理技术和文本挖掘技术为基础,重点研究对用户评论文本的情感语义计算核心技术,提供文本情感倾向分析、情感要素抽取功能.

4.2服务层

服务层包括功能接口和数据接口及并发控制模块.功能接口对引擎层提供的各项文本挖掘功能进行封装,与出版企业服务总线相连,为工程其他系统提供服务,同时还开放配置接口以便管理工具和其他系统能够根据需要调节文本挖掘系统参数.数据接口封装数据库、本地文件、网络数据流相关输入输出操作,为文本挖掘模块提供统一的数据处理接口.数据监视器根据定时计划任务扫描数据源,发现变化的数据,主动将数据推送给相应的文本挖掘模块进行处理.并发控制模块在采用集群部署时负责分配挖掘任务并汇聚挖掘结果.

4.3应用与管理层

应用系统根据应用需求,通过出版系统总线服务调用文本挖掘系统的一个或几个功能.例如,选题优化系统可以调用主题检测功能获得热点话题信息;出版舆情分析系统可以调用情感分析功能获得出版舆论的情感倾向,调用文本过滤功能检查有无针对敏感内容的用户评论等.

5结语

异构数据文本挖掘技术利用基于规则的敏感信息识别技术和基于样例文档的话题追踪技术分析文本信息流的话题,并利用话题检测技术分析挖掘当前的热点话题,为出版选题、效果评估等决策提供科学的依据,应用前景非常广阔.

主要参考文献

[1]杨建武,陈晓鸥.XML文档集的聚类研究[C]//全国数据库学术会议,2001.

[2]李尚昊,朝乐门.文本挖掘在中文信息分析中的应用研究述评[J].情报科学,2016,34(8):153-159.

[3]谢秋华.Web文本挖掘的相关技术问题探讨[J].长春理工大学学报:自然科学版,2010(7):55-56.

[4]许高建.文本挖掘关键技术研究及实现[D].合肥:合肥工业大学,2007.

总结:该文是一篇关于异构和文本和挖掘方面的技术研究论文题目、论文提纲、技术研究论文开题报告、文献综述、参考文献的相关大学硕士和本科毕业论文.

参考文献:

1、 数据挖掘技术在高校教学评价中的应用分析 摘要本文阐述了数据挖掘的概念,介绍了Apriori算法 根据数据挖掘思想,收集历史数据并加以转换,使用Apriori算法对评教因素进行分析,得出了评教……级与其影响因素之间的关系,具有较好的吻合度,对.

2、 油田数字化的异构数据源整合和集成技术分析 油田数字化的异构数据源整合与集成技术分析解肖华1,张 彬2,赵 刚1(1 长庆油田分公司第五采油厂,西安 710000;2 长庆油田分公司油气工艺研究院,西安 710000)摘 要油田数字化是20世纪.

3、 我善养吾浩然之气同课异构教学谈 摘要从调动学生学习积极性的角度看,对于一篇具体课文,不同的教学设计,效果肯定有着优劣之分 追求专业成长的语文教师要勇于探索,勇于实践,在吃透文本、熟悉学情的前提下,可以兼顾“巧&rdquo.

4、 将关联进行到底和特级教师同课异构学到的 摘 要与北京市特级教师张海滨老师同课异构草船借箭,课后进行对比分析,发现张老师的课注重一课一得 他将“关联”做足,做透,让学生关联着看,关联着想,关联着找,关联着读,引领学生通.

5、 彰显新诗教学的魅力简评三堂《乡愁》同课异构课 贾龙弟(浙江省平湖市黄姑中学,314203)摘要三位教师执教乡愁,教“新”不忘“旧”,教“诗”不忘“言”.