论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>毕业论文>范文阅读
快捷分类: 论文算法伪代码 计算机算法分析论文 算法多样化开题报告 聚类算法文献外文翻译 论文算法重复不出来 遗传算法英文参考文献

关于算法类论文范文资料 和聚类算法概述和应用有关毕业论文的格式范文

分类:毕业论文 原创主题:算法论文 发表时间: 2024-02-18

聚类算法概述和应用,本文是算法类毕业论文的格式范文跟聚类算法和概述和应用相关毕业论文开题报告范文.

【摘 要】 聚类算法在数据挖掘技术中有着十分重要的应用,在数据分类操作中能够达到良好的效果.本文对划分聚类、层次聚类、密度聚类、网格聚类算法的主要思想及内容进行简单概述,并根据其各自特点分析每种聚类在处理不同类型数据的优劣,最后举例分析不同类型的算法在实际生活中的应用.

【关键词】 聚类 划分聚类 层次聚类 密度聚类 网格聚类

一、背景

现如今信息技术飞速发展,海量的信息及越来越多的不同种类的数据使划分和分析数据成为必要需求,数据挖掘技术也因此诞生,它可以挖掘出某些信息更深层次的联系,在经济、统计学、神经网络等领域起到了巨大作用.聚类算法是数据挖掘中应用的重要技术之一,能够在数据无标注的情况下完成对数据的分类工作.本文将对常用的聚类算法进行介绍,并简要概述聚类算法在实际生活中的应用.

二、常用聚类算法介绍

2.1 划分聚类

首先,划分聚类算法先对数据进行最基础的分组,并设定好聚类中心或聚类数目,之后通过反复迭代的方法对初分组进行加工,减小误差,从而使分组方案一次比一次好,即使同组的对象越来越近,不同组的越来越远,最后达到最优化的分类效果.

划分聚类算法的优点是较为简便快捷,缺点在于它善于识别密度且凸形分布大小相近的聚类, 但对于形状分布较复杂或差别很大的聚类就不能进行处理,且需要对类别数目k做出要求,最终结果也极易受到噪声和孤立数据的影响.常见的划分聚类算法有EM 算法,k-medoids 算法, k-means算法,CLARA 算法,CLARANS 算法等.

2.2 层次聚类

层次聚类先对待处理的数据进行分组,再将不同的组根据所设标准排列成树状结构.层次聚类又可按分层方式分为凝聚算法和分类算法两种.

2.2.1 凝聚算法

凝聚算法应用了自底向上的思路,先将每一个对象都单独分为一个原子聚类,再不断地根据不同的规则按层级进行合并,成为范围越来越大的聚类,直到最后囊括所有对象.凝聚算法具有三种计算类间相似度的犯法:单连接算法、全连接算法和平均连接算法.单链接算法的类间相似度以两个簇之间的最短距离定义,全连接以最大距离定义,平均连接以两两数据的平均距离为标准.

2.2.2 分类算法

分类算法采用自顶向下的思路.先将全部数据分到一个簇中,再按不同标准对与簇中关系不同的数据再进行分组.分类算法具有两种经过简化的算法:单元分裂法及多元分裂法.

单元分裂法每次在一个数据维度对组中数据进行分割操作,数据中相同的部分被分为一组,其余数据被分为另一组.

大多数分层聚类算法都属于聚结型算法, 它们之间的区别在于类间相似度的定义不同.

多元分裂法首先将与其它数据差别最大、距离最远的一个数据筛选出来,形成分离簇,再求出其余数据与分离簇的差距并相互进行比较,距离分离簇更近的则可划入其中,之后不断重复比较,直到没有符合要求的数据.

与凝聚算法相比,分类方法应用较少, 因为在最初进行拆分时很难保证其正确性,当层次较高的时候,划分的结果很难保证完全正确.同时,分层聚类算法的缺点在于,一旦进行合并或分裂之后, 就无法再改变聚类的结果,灵活性较差.

2.3 密度聚类

密度聚类算法选取一个数据作为中心,求出在单位体积内的数据样本的个数,即样本的密度,再选定一个阈值,作为高密度区域和低密度区域的筛选标准.样本空间中,密度高于阈值的区域被划分为高密度区域,被看作一组,符合该条件的继续聚类.该算法的关键就是对于阈值的选取,细微的设置差异便可能使聚类结果相差甚远.

密度聚类在应用时可以不先行预知聚类的数目,且因为是从样本的密度出发,不受样本形状的局限.同时,密度聚类能够有效的清除异常数据、去除噪声.密度聚类的主要缺点是可能在进行统计的时候不能得到均匀的密度图,不真实的极值会导致产生伪聚类.常见的基于密度的聚类算法有DBSCAN 算法,DBCLASD 算法,OPTICS 算法,DENCLUE算法等.

2.4 网格聚类

网络聚类先将待分类的数据划分为一定数量的单元,这些小单元构成网格状的结构.其中,数据储存在数组中,操作在该量化空间上进行.聚类的过程从最小的单元开始进行,再不断地按标准扩大单元,最终得到符合要求的聚类.网格聚类的最终结果与数据输入的过程无关,也与所处理的对象的数目和处理所耗费的时间无关,只与网格单元的数目有关,且单个网格单元的大小即为该网格聚类的精度.

由于算法处理的速度和数据的规模大小无关,网格聚类具有很快的处理速度,且可以处理多种类型的数据,但就此可能会因为效率的提升而降低精度.所以,在使用网格聚类时应注意选择最为合适的单元大小和数目的搭配,并考虑如何对单位单元内的信息进行汇总.网格聚类中的常见算法有 STING 算法,We Cluster 算法,CLIQUE 算法,MAFIA 算法,Opti Grid 算法等.

三、聚类算法的实例应用

3.1 系统聚类算法分析新疆绿洲生态经济类型

首先,算法需建立一个标准体系,然后分析主成分并对初始数据进行筛选,接着用各地理区域划分的系统聚类法对数据进行聚类(Q 型聚类) .其中,算法采用最长距离法作为聚类分析的方法,并采用欧氏距离衡量,确定计算距离的方法 , 得出初始距离矩阵D,并将距离最大的两个区域合并,然后不断重复该步骤,直到整体都被囊括其中,绘制图谱.采用系统聚类算法,最终将新疆的87 个市县划分为十大类型,有利于更加系统地分析各地区的生态经济.

3.2 密度聚类应用于排查交通事故

一般情况下,交通事故多发地可以理解为:在同等条件下,该地更易发生交通事故,发生事故的数量更多,即发生交通事故的密度更大.可采用密度聚类在排查交通事故时对交通黑点进行统计分析,其基本思想是不停地寻找临近的对象来使中心对象周边环境的密度增加,最终找到路段内的查找点.查找点即为交通事故多发地,算法中所涉及的a 邻近区域可理解为距离的千米数.还需设定一个阈值,该阈值之上则可被定义为“事故多发”.所以,智能排查可理解为,对于每一个交通事故而言,距其发生地点的a 千米内的其他所有交通事故之和必须不小于某值即临域的密度不小于规定阈值.

3.3 分层聚类在水文地球化学分类中的应用

为了解决马坑矿区排水的问题,必须先考虑地表水体与地下水体之间的联系,如其联通情况等.因此,需要对水质进行检测及分析来找出水岩联系,从而预测矿坑排水量,判断水化学类型,而水化学成分聚类分析与传统的三线图比较,更为全面合理.对收集到的数据进运用Q 型聚类算法来进行分析,比较相似系数的差异,选取Z-Score 方法,采用欧氏距离方法来分析水化学数据.经比较,为了更明显的体现出所调查范围内不同类型水的差异,可采取离差平方和的方法,离差平方和较小的为一类.在分层过程中每个样本先自成一类,接下来使离差平方和相差最小的样本合为一类 , 直到最终只剩一类,得到普系图.

3.4 聚类算法在击剑训练负荷分析系统中的应用

为了对诸如击剑等较为多变的体育竞技项目进行训练负荷的量化分析,训练师运用分析系统对运动员进行分析.该系统可以通过监测运动员的多项指标,结合教练医生的评价分析,建立BP 神经网络模型,及时对每个运动员的身体状况与训练情况进行分析.但该方法容易因检测的数据量过大而受到噪音数据的干扰,所以运用聚类算法提出了一种数据预处理算法,目的是平滑噪音数据.首先定义初始数据集T 及筛选数据的阈值,进行初步分类.随后对每类的相似数据进行算法中间结果的审查,并在每类中再次进行聚类.接下来舍弃分类后输入相近但输出与类似的数据相差较大的数据,把剩下的归入最终的结果中.实验表明,该方法能显著地提升处理数据的效率.

四、小结

聚类算法的应用前景十分广泛,随着数据种类的增多及其复杂性的增加,对不同类别数据的聚类算法的需求越来越大,新的聚类算法也应运而生.在今后的发展中,更多地需要考虑对不同的聚类思想进行融合,以达到综合各种算法优点的目的.融合的聚类算法能够提高大规模数据的处理能力,对聚类结果进行评判,并对数据进行合适的预处理操作.

参 考 文 献

[1] 邱飞飞, 魏振钢, 咸鹤群, 等. 基于聚类的数据预处理算法在击剑训练负荷分析系统中的应用[J]. 计算机应用,2006, 26(b06):108-109.

[2] 秦松柏, 欧阳正平, 程天舜. 分层聚类分析在水文地球化学分类中的应用[J]. 地下水, 2008, 30(1):21-24.

[3] 李秀萍, 杨德刚, 韩剑萍. 应用主成分分析、聚类分析划分新疆绿洲生态经济类型的初步研究[J]. 干旱区地理( 汉文版), 2002, 25(3):264-271.

[4] 冯少荣, 肖文俊. 基于密度的DBSCAN 聚类算法的研究及应用[J]. 计算机工程与应用, 2007, 43(20):216-221.

[5] 向培素. 聚类算法综述[J]. 西南民族大学学报( 自然科学版), 2011(s1):112-114.

[6] 贺玲, 吴玲达, 蔡益朝. 数据挖掘中的聚类算法综述[J]. 计算机应用研究, 2007, 24(1):10-13.

[7] 项冰冰, 钱光超. 聚类算法研究综述[J]. 电脑知识与技术: 学术交流, 2007, 2(12):30-31.

[8] 蔡元萃, 陈立潮. 聚类算法研究综述[J]. 图书情报导刊, 2007, 17(1):145-146.

[9] 周涛, 陆惠玲. 数据挖掘中聚类算法研究进展[J]. 计算机工程与应用, 2012, 48(12):100-111.

综上而言:上文是适合聚类算法和概述和应用论文写作的大学硕士及关于算法本科毕业论文,相关算法开题报告范文和学术职称论文参考文献.

参考文献:

1、 题以类聚,争分夺宝 ——高中语文习题课策略分析陕西省延安市洛川县中学 李丹丹子日温故而知新 学习的性质,不仅在于学习新的知识,还在于在习练的过程中巩固、运用所学知识,以达到“知新&r.

2、 基于形态学标记青贮玉米自交系的聚类分析 收稿日期20161119基金项目20132014黑龙江省财政厅自拟课题(XZNKT5);20132015齐齐哈尔市科学技术计划指导性项目 作者简介柴华(1985),男,汉族,黑龙江齐齐哈尔人,硕士,助.

3、 ISO15625:2019《丝类生丝疵点尧条干电子检测试验方法》国际标准发布与主要内容概述 周颖(全国丝绸标准化技术委员会,浙江 杭州310000)1 概况2014年5月1日由我国主导制定的国际标准ISO156252014丝类 生丝 疵点 条干电子检测试验方法正式发布实施 这不.

4、 云南省各州市旅游投融资分析基于SPSS聚类分析法 谢宗运,朱晓辉(云南财经大学旅游文化产业研究院,云南昆明650221)摘要利用云南“十二五”期间各州市不同的旅游项目类型中的投融资额,采用聚类分析法,分析各地州市的旅游投融资项.

5、 氟唑菌酰胺与琥珀酸脱氢酶抑制剂类杀菌剂市场概述与展望 一、产品总述SDH(琥珀酸脱氢酶)抑制剂型杀菌剂,也称SDHI杀菌剂 早在1969年Uniroyal公司首次推出SDHI型杀菌剂萎锈灵(caroxin)原药上市;之后义有麦锈灵( benodanil).