关于大数据相关开题报告范文和大数据分析技术与其在地震资料处理中的应用和效果方面专科毕业论文范文-论文范文网

大数据分析技术与其在地震资料处理中的应用和效果，本文是大数据类开题报告范文跟数据分析和地震和技术有关专科毕业论文范文.

陈翔马迅飞王学军张进铎张俊李华松

摘要：随着油气勘探高密度、高精度技术的不断应用,处理海量地震数据的运算压力也在增加.为了适应大规模地震勘探海量数据快速处理的需求,结合近年来迅猛发展的大数据分析技术,开发出了分布式地震资料处理系统,其中的分布式“秒级”数据处理技术,应用到了Hadoop平台中的分布式并行模型MapReduce.实际数据的测试表明,基于Hadoop技术的道集分选计算效率远高于常规处理模块,同时在大规模生产应用条件下,具有更高的稳定性、容错性和适应性.

关键词：大数据；地震资料处理；油气勘探；Hadoop；道集分选

一、前言

目前,油气勘探地震资料处理行业面临“运算能力不足”与“高密度、高精度处理”两个相互擎肘的需求与难题.高精度勘探产生高密度的海量数据,高精度处理技术需要海量运算能力；计算机能力不足造成难以使用高精度处理技术,而高密度勘探数据又进一步造成运算能力的不足.

高密度油气勘探产生惊人的海量数据,通常可达到20TB/100Km2甚至更大.以 100Km2的高密度三维勘探为例,其野外原始数据量就达到20TB, 仅逆时偏移（三维深度偏移）一个处理步骤,通过理论试算其运算量就有 30 万 PB.常规的软硬件架构下的处理系统,难以完成如此巨大的运算量,如果使用超大规模的 PC 机群,其投入的成本也非常惊人.

近几年,互联网领域的大数据分析与计算技术得到了迅猛发展,特别是大数据处理软件 Hadoop 平台达到了“秒级”完成运算任务的能力,运算效率优势极其明显.

二、大数据分析软件平台

（一）Hadoop 软件平台简介.Hadoop 是一个用 Ja 编写的 Apache 开源框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集.Hadoop 框架工作的应用程序在跨计算机集群提供分布式存储和计算的环境中工作.Hadoop旨在从单个服务器扩展到数千台机器,而每台机器都提供本地计算和存储.

早期的试验足以展示 Hadoop 快如“闪电”的“秒级”运算能力.在 2014 年 11 月,权威机构曾经利用大数据分析技术对 100TB 数据（1 万亿条无序的 100 字节记录）使用206个EC2节点, 仅耗时23分钟就完成了专用目的排序工作,其优势可见非同一般,又经过近几年的不断发展,目前的运算速度更是快的惊人. 最新报道, 腾讯利用其云计算, 可在9.8秒钟内完成上述测试.

资料表明 Hadoop 是处理 PB 级别数据运算速度最快的工具之一,同时,Hadoop 又有众多智能化的优势.

(二)Hadoop 软件平台的巨大优势

1. 高可靠性（稳定）：平台设计时就假定运算元素和存储有可能失败,处理过程维持多个工作数据副本,确保针对失败节点重新处理.因此,即使某台服务器非正常关机了,在其上运行的大数据分析进程也不会中断,从而保证整个系统具有高度稳定性.

2. 高效率性（快速）：将数据以分布的方式加载到集群各个节点的内存中,并采用分布式处理.因此,可在几秒的时间内完成 TB 级的数据处理,其运算效率极高.

3. 高伸缩性（弹性）：硬件系统的规模能简单从单台扩展到数以千计的服务器,或反向减小集群规模以适应用户的硬件与资源需求,整个系统具有高度可伸缩性.

4. 高可用性（廉价）：运算效率的大幅度提高,是通过软件架构来实现的,不依赖硬件规模的扩大.因此,可以充分利用不同配置和级别的服务器,其代码库自身能在应用层侦测并处理硬件故障,实现对集群“按能力分配工作”、 “故障节点由别的节点接着做或重做”等功能.

5. 高灵活性（灵活）：平台可实现应用软件模块化.能与其他软件工具混合使用,使得应用软件的架构异常灵活.

(三)分布式的存储与计算

1. 分布式存储：分布式存储就是将数据切块分散存储到不同存储节点的多块硬盘上.

在写数据时,将数据切成多个小块,然后并行传输到多个存储机群节点的磁盘上；

在读取数据时,从多块磁盘上同时读取数据不同部分,然后合成为一个数据,这样做的优势是显而易见的.

首先,突破了单块磁盘的物理读写速度,整个系统的读写速度是多块磁盘的聚合读写速度.其次,系统使用的磁盘越多,存储性能越强,且容量越大性能越强（图 1）.

2. 分布式计算：针对分布式数据进行分布式并行计算,就是数据在哪儿就在哪儿进行运算,变传统的移动数据运算为移动运算,运算效率获得大幅度提升.

（四）高效并行分析与计算.Hadoop 最基本的组成部分包括分布式文件系统 HDFS（Hadoop?Distributed?File?System）和分布式并行模型 MapReduce.

MapReduce 是一种以 HDFS 为基础海量数据分布式处理方法,适应于大规模计算机集群.

MapReduce 的基本思路是数据并行,实现方式是将复杂并行计算过程高度抽象到两个函数 Map 和 Reduce,通过对海量数据分割处理,将分割后的小数据集交给不同的计算机进行处理,从而实现并行化.

1.Map 把计算任务分解成小片,把每一片任务发送至一个“工作节点”进行下一步处理.

2.Reduce 将所有“工作节点”完成的计算结果返回,并组合生成最后的结果（图 2）[1-2] .

三、道集分选技术简介

油气勘探地震资料处理过程主要包括：解编及格式转换、预处理、去燥、地表一致性处理、CMP 道集分选、反褶积、速度分析、自动剩余静校正、动校正叠加、随机噪声衰减、偏移、成果显示.

地震数据是由地震道记录按一定的次序顺序存储而成.每个地震道包含道头和道体两部分,其中道头由若干关键字构成,而道体则是采样信号组成的一维数组.

在实际工作中,为快速定位地震道数据,往往需要按不同关键字组合（３～５个）为地震道建立多种索引,或者需要对地震道存储次序进行分选重排（抽道集）,以避免非连续访问效率低下的问题.但随着数据量快速增长（１PB 地震数据拥有大约 1000 亿条地震道记录）,常规的索引构建和数据分选方法的耗时越来越难以接受.

道集分选（抽道集）是地震处理过程中必不可少的步骤,一般针对一个阶段所有地震数据,可多达上百 TB 规模,是典型的 I/O 密集型作业.

道集分选主要有两个目的：一是对地震道进行排序,避免随机读取；二是把地震道组织成道集,每次输出给模块一个完整的地震道集.

CMP 道集又称共中心点道集,它是地震资料处理过程中最常用的道集类型之一.当地震数据置完道头以后,每个地震道的CMP号、线号、炮间距等各种信息就已经存在了. 因此,分选就是利用道头信息,按照要求将地震道排列到一起.即将共炮点道集 CSP 转换为共中心点道集 CMP（图 3）.

CMP 道集分选一般按 CMP 号从小到大,使用两级分选或分选：CMP、炮间距（站号）；CMP、线号、炮间距（站号）.

CMP 道集经过动校正后,就可以将道集内各道求和,形成叠加道.每个 CMP 都进行求和,就形成了叠加剖面[3-5] .

四、分布式地震资料处理系统

（一）系统基本技术组成.分布式地震资料处理系统共包括 8 项基本技术 :

1. 分布式“秒级”数据处理技术；

2.?GPU 协同并行计算技术；

3. 分布式海量存储技术；

4. 低成本高端网络通讯技术；

5. 提高分辨率处理技术；

6. 提高信噪比处理技术；

7. 高精度速度建模技术；

8. 高精度偏移成像技术.

（二）道集分选实现过程.在分布式地震资料处理系统中,地震道集分选的实现过程是通过分布式“秒级”数据处理技术来高效实现的.

1. 通过该模块的“运算环境资源定义及状态监控界面”,用户可查看：可用节点识别号、可用节点地址、可用节点状态、可用节点核数、可用节点内存、正在运行的作业、正在运行的中间过程、已完成运行的作业、已完成运行的中间过程等关键处理信息.

2. 在“道集分选作业的交互界面”中,用户可查看：输入数据文件名、关键道头字位置说明、分选方式说明如线号、CDP 号、偏移距分选、输出数据文件名定义等关键处理信息（图 4）.

3. 系统监控软件界面”中,用户可查看：磁盘 I/O 效率、网络利用率、CPU 利用率等处理系统关键信息（图 5）.

4. 在“运算时间统计界面”中,用户可查看：阶段运行时间、作业阶段状态、最终完成时间等处理系统关键信息.

5. 在“运算效率统计界面”中,用户可查看：任务执行代码、地址、任务时间、总任务数、失败任务数、成功任务数输出大小 / 记录等处理系统关键信息.

系统根据线程运行速度自动平衡,能力强的节点完成任务多,能力差的节点完成任务少.

依据 Hadoop 平台的 MapReduce 分布式并行模型,地震资料处理中的道集分选过程主要包括三个步骤：即任务划分、Map 执行与中间数据组织、以及 Reduce 过程.

在任务划分阶段, 主要是预先分析并确定几个关键参数,包括规约任务（进程）的数量、道集大小、道集与 Reduce的映射关系和数据分块大小.

在 Map 阶段,每个作业节点上部署１个或多个进程执行Map 任务,每一个 Map 任务执行完毕,向本地盘写入中间数据,拷贝线程将数据分发给 Reduce 进程.

在 Reduce 收到数据之后,将地震道存入本地盘.所有Map 执行完且 Reduce 收到所有中间数据后,对本地盘上的数据进行排序,然后输出至结果文件.、

五、应用效果分析

在道集分选处理测试中,使用 6 个节点参与处理运算,完成 214GB?SEG-Y 格式数据的道集分选处理,其运行时间仅为6.3分钟, 而采用常规商业软件运行同规模的数据处理,则处理过程需要高达 4 小时左右的时间（表 1）.

在 20 节点左右的小规模 PC 机群上,利用大数据分析技术修改应用软件架构,针对近 20TB 的海量地震数据,可在短时间内完成地震资料处理中需要海量运算的步骤,如各种道集分选、三维剩余静校正、三维叠前时间偏移、三维叠前深度偏移等.

在油气勘探地震资料处理过程中 , 由于处理方法的原因 ,经常需要进行道集分选处理.对于高密度的海量三维数据体而言 , 常规的数据分选处理是一个非常花时间的过程,而采用大数据分析技术实现的地震资料道集分选处理运算效率得到了大幅度提升.

六、结语

在油气勘探行业低成本投入的情况下,如何完成高密度勘探海量数据的高精度处理,行业内面临如下几方面亟待解决的难题.

1. 运算能力不足：特别是高密度采集的海量数据需要海量的运算能力.

2. 软硬件架构不合理：大多数地震资料处理中心依然采用传统的软件及硬件架构,而传统的软硬件架构难以满足目前对海量数据处理的需求.

3. 处理技术落后：目前,基于大数据分析技术的数据存储技术及计算技术在油气勘探地震资料处理行业还未得到广泛应用.

4. 需要更多的投入：大多数地震资料处理中心仍然采用扩大传统 PC 机群规模来增加处理能力.由于高密度采集海量数据的出现,造成对更大 PC 集群的需求,使得对资金投入的需求越来越大.

道集分选处理测试表明,将大数据分析等相关技术用于地震资料处理,形成分布式地震资料处理系统,能前所未有地大幅度提升现有处理系统的效率,是高密度地震勘探海量数据处理的理想应用技术.

总结,此文为一篇大学硕士与大数据本科大数据毕业论文开题报告范文和相关优秀学术职称论文参考文献资料，关于免费教你怎么写数据分析和地震和技术方面论文范文.

参考文献：

1、电力物资导期优化方法体系应用基于大数据分析技术摘要随着电力企业信息化建设的不断深化,电力大数据应用已具备了基本的数据条件为了更好地明确大数据在电力物资供应链中的应用方向,选取物资导期优化作为物资管理大数据的应用分析点,并通过收集分析点相关数据,.

2、大数据处理技术下的电力通信网检修工作分析方法【摘要】在互联网的快速发展中,电力通信网规模也持续扩大,结构日渐复杂化,电力通信网生产、管理……多个环节信息数据呈爆发式增长趋势,电力通信网安全风险系数明显提高在日常运行过程中,电力企业必须以大数.

3、大数据时代电力信息技术探析雒丽娟(国网山西省电力公司吕梁供电公司,山西吕梁033000)摘要伴随着计算机和互联网的发展,借助数据对电力信息结构进行优化,是时展的必然趋势,利用数据分析,建立有效的电力运行和生产流程,能保证信息化.

4、基于大数据背景的信息技术教学策略谈马小辉（浙江宁波市奉化区萧王庙中学）摘要初中信息技术教育, 其目的是适应社会发展的需要因此, 与时俱进, 利用现代的大数据环境显得尤为重要对此, 教师在教学中要针对学生的情况区别对待, 个.

5、大数据、云计算和物联网技术在高校计算机实验室开放建设中的应用摘要以大数据、云计算和物联网技术为核心,运用“互联网”的理念,拓展计算机实验室教学与管理的时间和空间,构建全新的实验室开放管理模式,把数据挖掘、网络实验和在线化管理有机结合起来.

6、大数据时代中学图书馆音像资料的数字化建设探析【摘要】大数据时代的到来,促使各行各业发生了深刻变革对于中学图书馆来说,在大数据时代进行音像资料的数字化建设已经成为必然选择基于此,文章分析了大数据时代中学图书馆音像资料数字化建设的必要性,并积极.

关于大数据相关开题报告范文和大数据分析技术与其在地震资料处理中的应用和效果方面专科毕业论文范文

关于大数据毕业论文范文

相关职称论文题目

关于大数据开题报告写作参考资料