大数据方面有关论文范文集跟基于新词识别的大数据聊天文本舆情热点挖掘有关论文范本-论文范文网

基于新词识别的大数据聊天文本舆情热点挖掘，该文是大数据方面有关论文怎么写与新词和舆情和聊天有关论文范本.

引言随着移动互联网的普及,各种社交APP应运而生.例如国内的微信在近年内受众用户逐渐增多,成为即时通信App的主流产品.随着社交APP的流行,聊天文本的爆炸式增长,文本中包含着大量值得挖掘的重要信息,其中涉及政治、经济、体育、娱乐等,都吸引着对聊天文本的不同方面进行研究的学者,给他们广阔的研究空间对文本进行处理,通过清洗、特征提取、主题分析等方法对文本进行处理,很好地应用于热点发现、舆情监控等场合.

从海量聊天文本中挖掘出时下社会上的热点话题,以便于帮助用户迅速地了解并参与到自己感兴趣的话题中.但是由于文本量过于庞大,仅仅依赖人工方法很难对海量的聊天文本数据进行及时且高效地分析,并找出当前文本中所包含的热点话题相关信息.因此,需要采用多种不同的内容挖掘算法和信息分析技术来精确定位当前聊天文本中的热点话题.聊天文本中的热点话题一般是指在一个时间跨度内,聊天文本中被人常常提及的,引起人们关注度较大的话题,并且可以与时下已经发生的热点事件相互对应,有时间跨度短和内容扩散度高的特点.由于聊天文本的内容、结构以及用语习惯都与传统正规文本不同,其具有的特点使文本话题的抽取变得非常具有挑战性[1].总的来说包括以下四个方面：

高纬性.需要处理的聊天文本数量巨大,且文本内的各种主题分布非常杂乱,很难聚焦,对聊天文本这样的短小文本可能产生为数众多的向量.稀疏性.聊天文本的长度通常较短,因此聊天文本中包含的信息量要远远小于传统文本,更少的关键词,更稀疏的特征,对此类文本抽取其有价值的信息更加复杂,而且不同特征之间的关联性也更加难以发现.

不规范性.在聊天文本中,经常出现用词、用语及语法使用不规范的情况,比如聊天表情符号,一些缩略用语或有暗示意义的词等.导致对这类文本的分析工作非常困难.其中中文文本的分词本身就是一个难点,而不规范的聊天文本又加剧了传统分词效果的负面影响.因此,也间接影响了分词后的文本研究,分词带来的负面影响会被持续放大.

主题分布不均.聊天文本中包含很多广告或者是人们每日生活状态相关的普通信息.如天气、心情、食物等.这些大量存在的话题其实并不是我们关心的热点话题,因此如果仅仅采用以词频或者关键词为特征的传统话题抽取模型难以过滤掉这类信息[2].

1、分词中文文本的处理都涉及到分词,分词就是将连续的字符串序列按照一定的语法规范重新组合成词序列的过程.在中文的句子是由许多词组成,而词与词之间是没有一个形式上的分界符,因此中文分词要比英文分词复杂很多.现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法.本文选取基于统计的分词方法——结巴分词,其中包括三种形式：1）精确模式,将句子以最精确地方式切开；

2）全模式,把句子中所有的可以组成词的词语尽可能的分出来,效率高,但无法解决歧义问题；3）搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,普遍适用于搜索引擎.由于聊天文本大多数为口语化用词且文本内容较短,选择结巴分词提供的自定义词典可以获得较好的分词效果.

2、热点挖掘作为热点词语有两个显著特性[3]：一是必然在一个时间窗口内有着比较高的出现频率；二是作为舆情热点,就必然有产生和消亡的阶段[4].有些词属于伪热点词,虽然出现频率较高,甚至有可能超过真正热点词的出现频率[5],但由于这些词语在每天的文本中都有非常高的出现频率,且每天的分布中保持得比较平均,故不能作为热点词.

本文获取文本热点的步骤如下：将N个词按照每日的词频进行统计,形成向量Ai等于(ai1,ai2,ai3,….aim),…..AN等于（an1,an2,an3,….anm）形式表示,其中aij表示第i个词语在第j天的文本里出现次数,m表示用来进行分析的文本时间跨度有m天[6].对N个词分别计算聊天文本中出现的平均数：mean(w) 等于 (ai1+ai2+ai3+….+aim) / m (1)并记录出现频次最大值max(w).

3）对所有词语使用下式进行得分计算,并去前L个词作为候选热点词：

Score 等于 √mean(w)×std(w) (2)式中使用根号值对词语词频进行降权,降低高频平凡词的影响,也可用log函数降权,即log(tf(w))+1,其中std(w)为向量标准差.4）对候选的L个词语使用下式进一步筛选[7],其中n取决于需要提取的热词的正确率和召回率.

max(w)>n×mean(w) (3)筛选后的热点词即为文本挖掘的最终热词.3、实验效果本文提取14天（8月1日～8月14日）的聊天文本数据,首先对每日的文本进行分词,以天为单位统计出现单词的词数,对每个词构造出一个14维的向量,并用(1)式计算每个词的均值、标准差,利用公式(2)计算每个词的最终得分；提取得分高的前2000个词作为候选词,然后利用公式(3)进行最后的筛选,实验发现取2时可以获得较好的效果,最终结果如下所示,top10关键词：

由实验结果看出,排在最前的是与“四川九寨沟地震”相关的词语,而九寨沟地震正是发生在8月8号的事件,其次当前热播的剧集“楚乔传”也是当前热点之一,另外8月1日建军节也同样作为热点词被挖掘出来.由此可以看出本文所提出的算法在聊天文本的挖掘中有着较好的效果.

4、结论与展望本文提出了一种针对大数据聊天文本的热点词挖掘算法,通过实验可以证明算法具有良好的挖掘效果,对文本中短时出现的热点词语能够较为准确的定位,并且对日常使用的高频非热点词有很好的过滤效果,能够从海量的词语中挖掘热点.本文提出的算法也具有一定的局限性,对时间窗口的选择依赖较大,如果时间窗口内的文本无较大变化,由于计算的标准差较小,会存在误判的可能,导致即使是热点词也会被判定为高频非热点词的情况出现.因此选择合适的时间窗口才能准确的判断相应时间窗口下出现的热点词.

后续工作可以从考虑弱化窗口的依赖,由于在大数据环境下文本的主题非常分散,有很多热点词的出现并不一定伴随着较大的词频变化,挖掘此类热点还需要更多的研究工作.

本文汇总,这篇文章为一篇大学硕士与大数据本科大数据毕业论文开题报告范文和相关优秀学术职称论文参考文献资料，关于免费教你怎么写新词和舆情和聊天方面论文范文.

参考文献：

1、基于用户行为和大数据分析的图书馆个性化服务探究 1 大数据背景下的图书馆个性化服务图书馆拥有海量的信息、文献和书籍,是人们获取知识的主要源泉之一如今,图书馆的资源数量呈现爆炸式增长,用户想要获得个性化资源逐渐成为一件困难的事情1 在大数据挖掘和分.

2、大数据环境下数字图书馆信息服务资源整合存储策略随着新兴的物联网技术、云计算技术以及社交软件的快速发展,衍生数据的增长速度惊人,网络中充斥着海量数据,这些都预示着大数据时代的来临人们的生产生活已经离不开数字化信息,而在海量数据中筛选出有效数据的相.

3、大数据时代高校图书馆信息素养教育模式的演进和比较关键词大数据；高职图书馆；信息素养教育；演进摘要文章阐述了大数据时代高校图书馆信息素养教育模式的演进过程,分析了当前大数据环境下高校图书馆信息素养教育三种模式的利弊,并对其进行比较研究,最后提出了大数.

4、大数据时代国内图书馆精准服务模式比较摘要图书馆精准服务模式是根据读者具体的需求实施准确的定位,借以高效率调动馆藏资源,直接提供给读者结合国内多家图书馆的精准服务案例,对比分析国内图书馆常见的精准服务模式,找到图书馆在精准服务方面存在的.

5、从多维视角看大数据时代的智慧图书馆向宏华,龙军（桂林理工大学图书馆,广西桂林541004）关键词大数据；智慧图书馆；智库；图书馆需求摘要文章从多维角度阐述了智慧图书馆的由来,深度分析了多维视角下智慧图书馆的新特点,概括了智慧图书馆的.

6、基于大数据时代的图书馆文献资源建设模式关键词大数据；图书馆；文献资源；建设模式摘要信息技术的迅猛发展及大数据时代的到来,使图书馆在转型发展中也实现了文献资源建设模式的创新基于大数据的时代背景,图书馆文献资源建设更侧重于大数据理念与技术的.

大数据方面有关论文范文集跟基于新词识别的大数据聊天文本舆情热点挖掘有关论文范本

关于大数据毕业论文范文

相关职称论文题目

关于大数据开题报告写作参考资料