论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>硕士论文>范文阅读
快捷分类: 信息系统项目管理论文 小学信息技术论文 生物信息学论文 电子信息工程毕业论文 电子信息工程专业论文 移动信息期刊 会计信息系统毕业论文 测绘和空间地理信息期刊 保险信息2000字小论文 会计信息系统参考文献 电子信息自考论文提纲 信息技术德育论文

信息有关学术论文怎么写 跟基于朴素贝叶斯的群信息分类方法有关学士学位论文范文

分类:硕士论文 原创主题:信息论文 发表时间: 2024-03-26

基于朴素贝叶斯的群信息分类方法,该文是关于信息方面论文范文和贝叶斯和朴素贝叶斯和*群相关学术论文怎么写.

【摘 要】 作为最流行的一种社交方式, 群降低了信息流通成本,但同时也助长了广告、闲聊等无用信息的传播.本文基于朴素贝叶斯理论,提出一种 群信息分类方法.首先通过Web API 建立与 软件的数据接口,利用JSON 实现数据交换, 获取实时的 群信息;然后构建语料库,提出贝叶斯分类算法,将 群信息分为若干已知类,辅助用户甄别有用信息和无用信息.在三个测试集上的实验结果表明,本文方法取得了较好的分类可信度.

【关键词】 朴素贝叶斯 群 分类

Native Bayesian based group information classification

Wang jiliang1,2

1. Department of Environmental Information, Changsha Environmental Protection College, Changsha, China2. College of Information Science and Engineering, Hunan University, Changsha, China

Abstract: chat group is one of the most popular social contact methods, which gives people a convenient communicationchannel. However, it encourages the dissemination of useless junk information, and thus wastes our valuable time. In this paper,a group data classification scheme based on native Bayesian theory is proposed. First, we construct a data interface with using Web API, and the real-time group information are obtained by JSON. Then, we formulate a corpus and proposea Bayesian classification scheme, in which the group information is classified into numerous predefined categories. Theexperimental tests on three test sets shows that our proposed scheme has desired classification accuracy.

Key words:Native Bayesian; group; classification

一、引言

随着互联网的发展,信息传播的速度不断加快.截至2016 年,月活跃的 用户数量已达8 亿, 同时在线人数超2 亿已成为常态.发布在每个 群中的信息可以分为对用户有用的信息和无用的信息.无用信息包括灌水闲聊、小广告、诈骗信息甚至信息.对此, 软件提供了群消息提醒功能,可以设置为提醒、不提醒和屏蔽群消息等几种方式.然而,若设置为不提醒或屏蔽,有可能错过重要的信息;设置为提醒则又会受到无用信息的骚扰[1].因此,研究 群信息分类,过滤对用户无用的信息,同时对有用信息进行分类保存,具有重要的实用价值.

针对Twitter、微博、网络新闻和手机短信息等社交文本的信息分类算法,目前已有初步研究.Alec Go 等人在2009年开始研究Twitter 消息分类方法,使用大量自动抓取的推文作为训练集,利用机器学习的方法实现Twitter 消息分类[2].Bharath Sriram 等人使用一部分摘取自作者的个人资料和文本中的关键词作为特征域,将Twitter 消息分类到一组预定义的通用类别,如新闻、事件、观点和私信中[3].AliakseiSeveryn 等人提出初始化卷积神经网络方法,使用无监督的神经语言模型分类文本信息.针对新浪微博,文献[4] 将联想集团和其产品设置为关键词来分类微博信息,但其设计的分类方法只针对联想集团,无法扩展应用到其他用户人群.文献[5] 以爬取的微博信息为对象,提出了一种基于特征拓展的短文本分类方法进行舆情分类.文献[6] 研究网络新闻的分类方法,针对新闻标题的特点,引入了新闻领域词典.文献[7,8] 针对手机的广告和诈骗短信,提出了基于语序的关联分类算法.这些分类算法基于贝叶斯、决策树和支持向量机等机器学习理论[9,10],取得了较好的分类性能.

然而,如何分类 群信息,目前国内外尚无可参考的研究成果.我们认为,这主要源于两个方面的原因:一方面,为保护个人数据的隐私性, 群信息不能随意直接读取.二是 群信息的信息密度小,当一位群成员提出问题,可能多条消息后才有对应的回复,因此现有的社交信息分类算法难以应用.这就使得一般的软件设计人员很难开发出群信息分类的程序.

本文研究 群信息分类方法,首先利用Web API和JSON,研究实时获取 群信息的方法;然后提出一种其于朴素贝叶斯的分类方法,实现 群的信息分类.

二、利用Web API 设计数据接口层

数据接口层使用轻量级数据交换格式JSON (JaScriptObject Notation, JS 对象标记),向web API 请求数据.同时,解析API 的响应,返回JSON 格式的数据,解析后得到所需的 群数据.

数据接口层登录web 包含如下五个步骤:

(1) 获取二维码

第一步,通过 软件授权,获取登录二维码.请求方式、内容和*如下:

请求方式:Get;

请求内容:二维码PNG 图片

请求url *如图1 所示:

(2) 获取二维码扫描状态

第二步,获取二维码扫描状态,确认二维码已被扫描.

(3) 获取鉴权参数ptweb

在第三步中,通过Get 向第二步扫描认证后获得的url*发送请求.请求成功后 Http 状态码为302,我们需要获取的是 Cookie 中的ptweb.

(4) 获取鉴权参数vfweb

在第四步中,通过Get 向图2 所示*发送请求.图2所示url 用到的ptweb 在上述第三步中获取.请求成功后会返回一个 JSON,其中包含我们需要的result.vfweb.

(5) 获取鉴权参数uin 和psessionid

第五步的请求方式是Post,表单数据是一个 JSON,内容如图3 所示.

其中有变化的参数只有ptweb.请求成功后会返回一个 JSON,包含我们需要的result.uin 和result. psessionid.

通过上述五步操作,我们完成了与 的数据接口操作,从而实同实时获取 群信息.我们也可以看到,登录时需要用户手机端扫描二维码,因而群信息分类是用户个人行为,保证了安全性.

三、基于朴素贝叶斯的群信息分类方法

3.1 文本预处理

在分类之前,先对群信息做预处理.文本预处理用于格式化 群信息的文本组织方式,去掉噪声特征.文本预处理包括文本分词、去除停用词、文本特征提取等三个步骤.本文使用的中文文本分词工具是IKAnalyzer[11].

IKAnalyzer 使用xml 文件配置扩展词典和停止词典.其中,扩展词典含有275711 个包括成语在内的常用词汇,停止词典含有42 个常见无意义词汇.在文本特征提取上,因为群信息具有短文本特性,所含词量远没有一篇文章的词量大.因此,我们将经过分词、停用词处理后得到的词全部作为文本特征.

3.2 朴素贝叶斯分类方法

本小节提出基于朴素贝叶斯的 群信息分类方法.采用的语料为经过分类的 群消息(只包含消息内容,不包含发送人和发送时间),全部来源于本文作者自己的 群.整理方式为人工从 群消息中建立语料库.语料库中的语料共605 条,其中110 条实习就业类、199 条课程学习类、112 条学校活动类,154 条闲聊类,30 条广告类.

为了得到 群信息中某个文本所属的类别,需要比较所有类别下,出现该文本的概率.Ci 类别下出现该文本的贝叶斯概率公式如(1) 所示:

其中a1,a2,...,an 是待分类文本的特征词.由于P(a1,a2,...,an)对于每个类别都是相同的,故在比较时只需比较式(1) 的分子

式(1) 中的P(Ci) 是先验概率,计算方法为:P(Ci)等于 类Ci的单词总数/ 整个训练样本的单词总数.P(aj|Ci) 的计算方法为:( 类Ci 下单词aj 在各个文档中出现过的次数之和)/( 类Ci下单词总数).为了满足待分类文本w 中的词aj 在训练集中未收录的情况,我们使用m- 估计,如公式(2) 所示:

其中,nc 为该类别中的样本数量,n 为样本总数,p 为将要确定的概率的先验估计,m 为等效样本大小的常量.在此处计算P(aj|Ci) 时,nc 为类Ci 下单词aj 在各个文档中出现过的次数之和,n 为类Ci 下单词总数.m 取|V|,p 取.其中,V 是训练样本的单词表,|V| 表示训练样本包含多少种单词.P(aj|Ci)等于( 类Ci 下单词aj 在各个文档中出现过的次数之和+1)/( 类Ci 下单词总数+|V|).这样,通过公式(1),就求出了待分类群信息属于各类的概率.概率最大的类就是待分类信息所属的类.

四、 性能测试

4.1 性能指标

对于分类算法的分类性能,需要进行具体的评估.评估指标为准确率、召回率和F-Measure.设属于第i 类的文本数有ci 个,经过算法分类后,有个数为Ti 的文本被分为第i 类,其中被正确归为第i 类的文本数为Ri.则准确率、召回率分别用公式(3) 和(4) 表示:

F-Measure 综合评价准确率和召回率[12],计算方法如公式(5) 所示.当参数α 取1 时,F-Measure 的值就是F1 值.

4.2 性能测试

本文使用的测试集来自本文作者 消息记录中不同时期的三个 群消息.其中,测试集一为2017 年最新的群消息,测试集二为2013 年9 月至2014 年3 月的群消息,测试集三为2014 年4 月至2014 年10 月的群消息.三次测试的评估准确率、召回率和F1 值分别如表1、表2 和表3 所示.

从表1- 表3 可以看出,本系统的分类结果在 群信息的获取和筛选上,具有一定的参考价值.用于测试的三个测试集属于2013-2017 年的不同时期,消息主题特点不同.2017 年的群消息集来源于学生的毕业季,消息内容大多和毕业有关.2013 年和2014 年的消息内容大多和课程学习、学校举办的各种活动有关,消息的特点更易于区分,因而取得了更好的分类效果.

结束语: 软件是网络时代人们进行交流沟通必不可少的社交工具之一.面对鱼龙混杂的 群消息,本文基于朴素贝叶斯理论提出了一种 群信息分类方法.通过web API 获取 登录权限和用户资料信息,利用webAPI 轮询群消息,同时给出朴素贝叶斯分类方法,实现了 群信息的在线自动分类.

参 考 文 献

[1]罗芳, 杨建梅, 李志宏, 群消息中的人类行为动力学研究, 华南理工大学学报( 社会科学版), 13(4): 14-19, 2011

[2] Go A, Bhayani R, Huang L. Twitter sentiment classification using distant supervision. Cs224n Project Report, 2009.

[3] Sriram B, Fuhry D, Demir E, et al. Short text classification in twitter to improve information filtering, In: Proc. International ACM SIGIRConference on Research and Development in Information Retrieval, SIGIR 2010, Geneva, Switzerland, July. DBLP, 2010:841-842.

[4] 鲁毅. 微博信息分类研究[D]. 山东: 山东大学,2014.

[5] 曾颖黎. 网络舆情文本分类系统研究与开发[D]. 成都: 电子科技大学,2014.

[6] 朱琥珀. 基于主题模型的新闻标题分类方法研究[D]. 安徽: 安徽大学,2015.

[7]晋月培. 基于关联分类的短信分类研究[D]. 北京: 北京工业大学,2015.

[8] 杨雷, 曹翠玲, 孙建国, 等. 改进的朴素贝叶斯算法在垃圾邮件过滤中的研究. 通信学报, 2017, 38(4): 140- 148

[9] Goel A, Gautam J, Kumar S. Real time sentiment analysis of tweets using Naive Bayes[C], In: Proc. ofIEEE Conference on NextGeneration Computing Technologies, 2017.

[10] Tang B, He H, Baggenstoss P M, et al. A Bayesian Classification Approach Using Class-Specific Features for Text Categorization[J].IEEE Transactions on Knowledge & Data Engineering, 2016, 28(6):1602-1606.

[11]奉国和, 郑伟. 国内中文自动分词技术研究综述. 图书情报工作, 2011, 55(2):41-45.

[12]C. J. van Rijsbergen. Information Retireval Butterworths, London, 1979

综上而言,此文是一篇关于贝叶斯和朴素贝叶斯和*群方面的相关大学硕士和信息本科毕业论文以及相关信息论文开题报告范文和职称论文写作参考文献资料.

参考文献:

1、 贝索斯:亚马逊王国的暴君 文尹洁他过分推崇优胜劣汰,让员工互相打分、揭发,以保持竞争性 美国亚马逊网站创始人杰夫·贝索斯有一双犀利而有神的大眼睛,当他抬起下巴,带着一丝轻蔑的笑意,斜着眼睛注视对手时,总传递出一种.

2、 知世故而不世故,处江湖而远江湖的商界大隐贝索斯 3月8日,杰夫·贝索斯在推特上发布消息法国卫星运营商Eutelsat Communications与蓝色起源(Blue Origin)签订火箭发射合同,它将成为新格伦号(New Glen.

3、 基于贝叶斯网分类器的互联网借贷风险评估 一、前言  “互联网”和大数据的时代背景下,信贷行业在数据挖掘和云计算的技术主题下呈现爆发式增长 它促进资金优化配置,缓解市场信息不对称……问题,满足中小微企业对融资服务的需求.

4、 贝索斯的时间账本 时间是相对的,爱因斯坦打过一个比方,当某个男人坐在火炉或美女旁边时,他心里对时间流逝的感受肯定不同 又如一个小孩子常问的经典问题——你眼里看到的蓝色和我看到的蓝色一样吗人与人对.

5、 贝叶斯公式的实际运用 【摘要】贝叶斯公式是基于先验信息的概率推理方法,在医学检验、风险管理、统计决策……领域均有广泛运用 本文以主观概率的修正和参数估计为切入点,利用实际案例阐述了贝叶斯方法的具体运用 揖关键词铱贝叶斯公式.

6、 哈贝马斯生活世界理论与其 摘要本文试图从生活世界理论的来源、含义以及理论得失和启示……方面进行论述,对我国构建和谐社会重要意义 关键词哈贝马斯生活世界交往理论理论得失哈贝马斯,德国著名的社会学家、哲学家之一,西方马克思主义者,.