智能磨削云平台(精选三篇)
智能磨削云平台 篇1
制造业是国民经济的支柱产业,而磨削加工技术是制造技术中的重要内容,是现代机械制造业实现精密加工、超精密加工中最有效、应用最广的工艺技术[1]。制造业服务化和信息化是当前制造业发展的两大趋势。制造业服务化是向产品产生过程和使用过程所提供的各种形式服务的总称,制造企业是服务的主体或客体之一[2]。制造业信息化的范畴涉及产品开发、生产和营销过程等价值链的各个方面,它经历了从低级到高级、从简单到复杂的发展过程;信息技术对制造业服务化的影响很大,信息技术的发展使服务越来越便利,并使过去许多不可能的服务成为可能。制造业服务化将信息化作为提供服务的平台和工具,并借助信息化手段把服务向业务链的前端和后端延伸,从而扩大了服务范围,拓展了服务群体,且能够快速地获得用户的反馈信息,不断地优化服务内容,持续改进服务质量[2]。
纵观国内外文献报道,虽然信息技术和制造技术的融合迄今已经取得了众多进展,在企业应用系统(如CAD、CAPP、CAM等)的研究开发与集成方面已经取得了很大成绩,但在信息化制造理论和方法方面进行系统的研究尚不多见,目前还存在以下几个方面的问题:(1)制造企业信息化发展不均衡,企业间差距较大,应用技术水平参差不齐,部分中小企业信息化建设能力较弱;(2)虽然个别制造企业信息化单元技术的应用已有一定的水平,但集成应用度不高,信息化的应用还有待深化;(3)企业对信息的安全性认识不够,信息安全系统建设欠缺,信息安全工作需进一步加强[3]。
近年来,一种新的服务化计算模式———云计算(cloud computing)正在兴起[4]。云计算的理念是,由专业计算机和网络公司搭建计算机存储和计算服务中心,把资源虚拟化为“云”后集中存储起来,为用户提供服务。云计算为解决当前信息化制造存在的问题提供了新的思路和契机。
本文介绍了工业云和云制造的特点,提出将云计算应用到磨削加工领域的思想,构建了智能磨削云平台,介绍了其关键技术,以及运用云计算技术开发的相关磨削云软件的应用情况,并展望了智能磨削云平台的发展趋势。
1 工业云和云制造
工业云是在云计算模式下对工业企业提供软件服务,使工业企业的社会资源实现共享化的一种新的概念。工业云有望成为我国中小型工业企业进行信息化建设的另外一个理想选择,因为工业云的出现将大大降低我国制造业信息建设的门槛[5]。
云制造,是在“制造即服务”理念的基础上,借鉴云计算思想发展起来的一个新概念[6]。云制造是先进的信息技术、制造技术以及新兴物联网技术等交叉融合的产品,是“制造即服务”理念的体现。云制造采取包括云计算在内的当代信息技术前沿理念,支持制造业在广泛的网络资源环境下,为产品提供高附加值、低成本和全球化制造的服务,实现制造资源的高度共享。云制造通过建立共享制造资源的公共服务平台,将巨大的社会制造资源池连接在一起,提供各种制造服务,以实现制造资源与服务的开放协作以及社会资源的高度共享。企业用户无需再投入高昂的成本来购买加工设备等资源,可以通过咨询公共平台来租赁制造资源。在理想情况下,云制造将实现对产品开发、生产、销售、使用等全生命周期的相关资源的整合,提供标准、规范、可共享的制造服务模式[7]。这种制造模式可以使制造业用户像用水、电、煤气一样便捷地使用各种制造服务。
制造资源包括制造全生命周期活动中的各类制造设备(如机床、加工中心、计算设备)及制造过程中的各种模型、数据、软件、领域知识等。为了实现制造资源的虚拟化、优化调度和协同互联,可融合语义Web、嵌入式系统技术、物联网、高效能计算等新技术[8]。另外,高性能计算机的应用和高性能计算技术的发展为求解复杂的制造问题和开展大规模协同制造提供了可能。云制造的运行原理如图1所示。
智能磨削云平台是工业云和云制造技术在磨削加工领域的应用,它结合云计算技术、云制造技术、磨削工艺智能化技术,以分布式高性能计算机系统、大容量数据存储设备和互联网环境等资源为基础,为各大磨床制造厂商提供基于各类磨削装备的磨削数据库系统,实现知识数据的积累,另外,该平台也给磨削加工企业提供各类加工制造方面的技术服务,实现磨削加工信息查询、工艺方案智能优选、工艺优化、误差分析与补偿、磨削加工过程仿真、自动编程等功能,充分发挥现有磨床的潜在性能。智能磨削云平台是联合国内各大磨床制造厂商和磨削加工企业共同开发而成的,网络终端用户能够方便快捷地连接上它而获得服务。
2 智能磨削云平台的构建
基于以上分析,本文在研究智能磨削的基础上,引入工业云及云制造技术,建立集成云制造与磨削工艺智能化的智能磨削云平台(图2),为各大磨床制造厂商提供基于各类磨削装备的磨削数据库系统,给磨削加工企业提供各类加工制造方面的技术服务。该智能磨削云平台可提供远程实时有效的加工指导,具有很强的开拓性和前瞻性。
智能磨削云平台的结构如图3所示,主要包括三个部分:基于云计算的磨削数据服务客户端、云计算服务管理平台、分布式磨削工艺数据库管理平台。
基于云计算的磨削数据服务客户端根据具体的需求对磨削云服务进行自主选择,如图4所示。磨削云服务的主要功能包括工艺实例智能推理决策、3D加工仿真、磨削工艺预报、误差分析与补偿、数控代码自动生成以及对数据库系统的扩充维护等。这些服务均是通过智能磨削云端服务来完成的。
数据库资源池通过数据仓库、数据挖掘等技术实现对磨削工艺数据库的检索、重用、修改、存储、删除、更新等操作,以此保证磨削工艺数据库知识的完备实时准确,从而正确地指导磨削云的服务工作。
云计算服务管理平台采用虚拟化技术将分散的制造资源和制造能力虚拟地接入到磨削云平台中,形成虚拟资源并聚集在虚拟资源池中,从而隐藏底层资源的复杂性和动态性,为智能磨削云平台实现面向服务的资源高效共享与协同支持。云计算服务管理平台运营商将智能磨削云平台的服务功能通过网络传递给远程用户,并将结果文件进行反馈以实现智能磨削云平台的更新。云计算服务管理平台涉及的主要技术包括资源虚拟和分布式并行计算架构两大核心技术,以及数据传输安全技术、认证与鉴权体系等。
分布式磨削工艺数据库的结构框图如图5所示。该数据库将磨削加工过程中的各生产要素、工艺参数(主要包括机床、冷却液、材质、磨料磨具、实例、规则、模型图表、工艺参数等)有机集成,并根据这些要素和参数之间内在的逻辑映射规则以及数学拓扑关系进行异构,最终形成一个有机结合的磨削工艺数据库系统。
3 智能磨削云平台的关键技术
智能磨削云平台的关键技术主要包括以下内容:
(1)磨削工艺数据库。该数据库集成了机床库、磨料磨具库、材料库、冷却液库、实例库、规则库、模型库、图表库、工艺参数库等,涵盖了磨削工艺领域的各重要环节,并存储了大量的工艺数据。
(2)磨削加工工艺方案智能决策技术。制订基于实例推理和规则推理的混合推理模式,以及遗传神经网络等智能优化算法的磨削加工工艺方案,发展磨料磨具设计制备与选用的智能决策技术,采用粗糙集理论、层次分析法、组合赋权法、分层过滤机制等实现基于实例推理技术,并建立不同方案的效用评价体系及自动评价实现技术。
(3)磨削加工工艺优化技术。针对磨削加工过程中零件轮廓复杂性,考虑其质量要求和工艺系统的加工能力,并结合磨削质量预报技术,进行加工轨迹与速度加速度的优化,实现加工精度和加工效率的同步提高。
(4)磨削加工误差分析与补偿技术。通过对加工后的实际轮廓表面测量来提取误差信息并进行科学分析,将其与理论轮廓线或(和)虚拟加工仿真轮廓线进行匹配,通过误差分析了解误差的变化情况,并根据误差变化进行预测,以调整整个磨削工艺系统的补偿误差。
(5)磨削加工过程几何仿真技术。建立数控磨削加工的虚拟环境,实现对复杂轮廓零件的虚拟数控磨削加工,在虚拟磨削加工过程中提取磨具、头架、尾架、中心架、工作台、夹具等模型之间的相对位置,检查碰撞、干涉及撞刀现象。
(6)磨削质量预报技术。对经智能优化的工艺方案的磨削结果进行预报,在优化工艺方案正式实施前了解其磨削加工结果。复杂轮廓零件的磨削几何形状通过几何仿真了解,加工表面质量(主要指轮廓精度、表面粗糙度等)主要采用遗传神经网络的方法来进行预报(预测)。
(7)磨削加工的自动编程技术。针对特定零件的结构特征,将测量数据通过模型转换为实际加工数据,并利用计算机技术实现数控代码的自动编制。
(8)云计算技术。该技术主要基于资源虚拟和分布式并行架构两大核心技术,同时也利用互联网上的大量开源软件为用户提供支撑。虚拟化技术主要分为两个层面:物理资源池化和资源池管理。其中,物理资源池化是把物理设备由大化小的过程,即将一个物理设备虚拟为多个性能可配的最小资源单位;资源池管理是对集群中虚拟化后的最小资源单位进行管理,即根据资源的使用情况和用户对资源的申请情况,按照一定的策略对资源进行灵活分配和调度,实现资源的按需分配。
4 基于智能磨削云平台已开发的软件应用产品
近来,笔者基于智能磨削云平台成功开发了凸轮轴数控磨削工艺智能专家数据库系统CSIDB、凸轮轴数控磨削工艺智能应用系统CSGIA、磨削工艺数据库系统GPDB、凸轮轴数控磨削加工辅助软件CGAS和典型零件高效精密磨削工艺数据库系统FCGDB。其中,CSIDB、GPDB和FCGDB是基于Interbase的三层分布式应用体系结构开发的,集成了机床库、磨料磨具库、材质库、冷却液库、实例库、规则库、模型库、图表库、工艺参数库等,涵盖了磨削工艺领域的各重要环节,存储了大量的相关工艺数据。CSGIA在CSIDB的基础之上,针对凸轮轴的磨削加工增加了工艺问题定义、专家系统推理、误差分析与补偿、工艺智能优化、工艺预报、自动数控编程、工艺系统3D运动仿真、工艺结果输出等8项重要功能。
CSGIA V1.0于2009年11月12日经湖南省软件评测中心进行全面测试,成功通过测评,可应用于指导实践加工。
该系统于2011年9月进行了网络化测试:利用计算机“远程桌面连接”功能,远程登录北京市云计算关键技术及应用重点实验室的虚拟机,对其进行操作控制,在虚拟机上进行软件安装和功能测试,各功能模块都能正常运行。
CSIDB、CSGIA成功应用于湖大海捷制造技术有限公司开发的CNC8312A型数控高速凸轮轴磨床上,结果发现,凸轮轴数控磨削工艺系统的操作时间缩短了20%以上,生产效率提高了25%,生产过程中凸轮轴的废品率显著降低。
基于无心磨床和轴承磨床的GPDB已经成功应用于无锡机床股份有限公司。该系统提高了无心磨削与轴承磨削的加工精度和加工效率,增强了磨削加工的柔性。该系统操作界面简洁,具有良好的人机交互性,为无锡机床股份有限公司进一步提高无心磨床和轴承磨床的质量指标提供了有力的技术支撑。
基于浙江玉环传动机械有限公司现有的凸轮轴磨床开发的CGAS,对30多种型号的凸轮轴进行加工,所获得产品的精度完全达到了客户的要求,而且人力资本、固定资本大幅降低,这些优势帮助该公司打开了中小凸轮轴生产企业的凸轮轴数控磨床市场。
FCGDB是针对国家高技术研究发展计划(863计划)资助重点项目中典型零件开发的处理其高效精密磨削复杂工艺的智能化工艺管理系统。
5 智能磨削云平台发展趋势
未来,智能磨削云平台将致力于以下领域的研究与应用:
(1)为各大磨床、磨料磨具制造厂商提供基于各类磨削装备及磨料磨具的磨削工艺智能专家数据库系统,实现磨削工艺知识数据的积累与重用。
(2)为磨削加工企业提供各类磨削加工制造方面的整体工艺方案技术服务,实现磨削加工信息查询、工艺方案智能优选(磨削加工和磨料磨具设计制备方案)、工艺优化、误差分析与补偿、磨削加工过程仿真、自动编程等功能。
(3)配套应用于中小型数控磨床制造企业或嵌入数控系统,提高数控磨床的智能化水平和加工柔性。
(4)深入研究并集成云制造与磨削工艺智能化技术,进一步实现磨削加工的服务化与信息化。
(5)将智能磨削云平台扩展应用到其他加工和信息化服务领域。
参考文献
[1]李伯民,赵波.现代磨削技术[M].北京:机械工业出版社,2003.
[2]顾新建,张栋,纪杨建,等.制造业服务化和信息化融合技术[J].计算机集成制造系统,2010,16(11):2530-2536.
[3]杨淇蘥,范勇,杨小兰.制造业信息化工程建设与应用研究[J].制造业自动化,2011,33(11):27-29,64.
[4]陈康,郑纬民.云计算:系统实例与研究现状[J].软件学报,2009,20(5):1337-1348.
[5]曾宇.工业云计算的实践和思考[N].科技日报,2010-03-01:05.
[6]李伯虎,张霖,柴旭东.云制造概论[J].中兴通讯技术,2010,16(4):5-8.
[7]李伯虎,张霖,王时龙,等.云制造———面向服务的网络化制造新模式[J].计算机集成制造系统,2010,16(1):1-7.
智能磨削云平台 篇2
将信息技术、人工智能和互联网思维与居家养老服务机制建设相融合,世纪晟以公司自主研发的3D人脸识别算法为人脸识别技术核心,结合对行业痛点的悉心研究,为人工智能养老智能赋能。
3D face云平台人工智能养老解决方案
社区人像布控系统
养老中心实时布控,提供动态轨迹分析的预测、预警和布控
智能语音机器人
通过智能语音创造“陪伴感”,提升幸福指数,提供更加无微不至的关怀与看护
人脸识别门锁
内置识别系统扫描用户脸部特征,人脸识别自动开门,保障老人的安全生活
轨迹分析系统
基于人体的视频智能分析自动统计记录分析,以保证及时了解老人的身体状况
危险预警
监测老人日常活动,提高养老院的安全看护水平,危险情况提前报警。
智能磨削云平台 篇3
关键词:云计算;Hadoop;性能指标;监控系统
中图分类号:TP3 文献标志码:A文章编号:1672-1098(2015)02-0000-00
Abstract:With the growing scale of cloud computing in modern data centers, the intelligent operation and maintenance management faces a great challenge, especially in real-time monitoring. After a thorough analysis and research of cloud computing monitoring technologies, this paper integrates two open-source monitoring software Ganglia and Nagois in a Hadoop open-source cloud computing platform, and use a mobile message software FeiXin to achieve real-time monitoring of the cloud computing platform. Experimental results shows that the proposed system realizes an all-round monitoring of performance indicators for hosts and service of operating environment in cloud computing platform and a real-time warning of faults, which help management personnel accurately locate and real-timely process abnormal situations. Therefore the system improves the quality of service of cloud computing platform and has a good practical value.
Key words:Cloud computing; Hadoop; Performance indicators; Monitoring system
随着云计算技术的不断成熟发展,云计算平台的规模以及资源也不断增加。现代数据中心的运维管理面临着重大挑战,传统的管理方法和管理模式已经无法满足要求。
为提高云计算平台的可靠性,保证服务质量,有必要在云计算平台中引入监控机制[1-3] [10],以便能准确定位性能异常或故障的节点,及时做出恢复和调整;掌握整个系统的运行状况,分析系统瓶颈,为整个系统负载均衡提供数据支持,在系统出现异常时能起到预警的作用。
Ganglia是加州大学伯克利分校发起的一个开源监控项目,主要用来监控大规模分布式系统的性能[1] [2] [4] [10]。Nagios也是功能强大的开源监控系统,能监控所指定(本地和远程)的主机以及服务,可利用故障状态实现故障报警[1] [2] [3] [5] [10]。Ganglia侧重于数据采集,没有内置网络服务的监控和故障状态级别,Nagios更侧重于告警功能,配置文件较多,配置步骤繁琐[1-2]。因此,本文采用两款软件结合,协同工作。
经过几年的迅速发展,Hadoop已经成为开源云计算平台的佼佼者,目前具有广泛的用户群体[2] [6]。因此,研究利用Ganglia和Nagios整合来监控Hadoop系统具有广阔的应用前景。
1相关技术原理
11Hadoop技术
云计算是并行计算、分布式计算和网格计算的发展。具有超大规模、虚拟化、按需服务、高可靠性和高扩展性等特点。
Hadoop是一个开源的分布式计算平台,由Apache软件基金会支持发布。整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持,通过MapReduce来实现对分布式并行任务处理的程序支持的。
Hadoop分布式文件系统(HDFS)采用了主/从(Master/Slave)结构模型,一个HDFS集群由一个名称节点(Namenode)和若干个数据节点(Datanode)组成。Namenode作为主控服务器,负责管理文件系统的元数据,Datanode存储实际的数据。Namenode执行文件系统的命名空间操作,如打开、关闭、重命名文件或目录,Datanode负责处理客户的读写请求,执行数据块的创建、删除和复制工作。Namenode使用事务日志来记录HDFS元数据的变化,使用映射文件存储文件系统的命名空间。采用冗余备份、副本存放、心跳检测、安全模式等策略使HDFS可靠性得到保证[2] [6]。
MapReduce是一种并行编程框架,它将分布式运算任务分解成多份细粒度的子任务,发到由上千台机器组成的集群上,这些子任务在各处理节点之上并行处理,最终通过某些特定的规则进行合并生成最终的结果。MapReduce任务是由一个JobTracker和多个TaskTracker节点控制完成,JobTracker单独运行在主节点上,负责调度管理TaskTracker,调度一个作业分解的所有子任务。主节点监控子任务的执行情况,从节点仅负责完成由主节点指派的子任务。MapReduce将分布式运算抽象成Map和Reduce两个步骤,最终完成Hadoop的并行处理任务[2] [6]。
12云计算监控技术
1) Ganglia监控技术
Ganglia在结构上由gmond 、gmetad和gweb三个守护进程组成,三者相互协调[1] [2] [4] [10]。具体如图1所示。
gmond是数据采集器,运行在所有被监控主机上的一个守护进程。用于收集被监控主机上的基本指标,或者收集用户自定义的指标,在同一个组播或单播通道上的传递。gmond 所产生的系统负载非常小,这使得在各被监控主机上运行gmond时,不会影响到各主机的性能。Ganglia的收集数据可以分为单播和组播两种工作模式。
gmetad是数据混合收集器,运行在监控主机上的一个守护进程,gmetad通过轮询收集各主机上gmond 的数据, 并聚合集群的各类信息,然后保存在本地RRD存储引擎中。
gweb是Web可视化工具,采用PHP脚本语言实现,运行在Ganglia的监控主机上。可以通过浏览器从RRDTool数据库中抓取信息,将数据可视化,动态的生成各类图表。
Ganglia集群是主机和度量数据的逻辑分组,一般每个集群运行一个gmetad,可以构成层次结构,正因为有这种层次结构模式,才使得Ganglia可以实现良好的扩展。
2) Nagios监控技术
Nagios监控系统分为核心和插件两大部分。Nagios的核心部分只提供了很少的监控功能,其它大部分监控功能需要安装相应的Nagios插件完成 [1-3] [5]。
Nagios可实现如下功能:监视本地或者远程主机资源;监视网络服务资源;允许自定义插件来监控特定的服务;出现异常时,可以通过邮件、短信等方式通知管理人员;可以事先定义事件处理程序,当主机或者服务出现故障时自动调用指定的处理程序;可以通过Web界面来监控各个主机或服务的运行状态。
Nagios必须运行在Linux/Unix服务器上,这台服务器称为监控中心,每一台需要监视的主机或者服务都运行一个与监控中心服务器进行通信的Nagios软件后台程序。监控中心服务器根据读取配置文件中的指令与远程的守护程序进行通信,并且指示远程的守护程序进行必要的检查。
远程被监控的机器可以是任何能够与其进行通信的主机。根据远程主机返回的应答,Nagios将根据配置以合适的行动进行回应,通过一种或者多种方式报警。
NRPE是Nagios的一个功能扩展,它可在远程Linux/Unix主机上执行插件程序,通过在远程主机上安装NRPE构件以及Nagios插件程序,向监控中心提供该主机的一些本地的情况。
2云计算平台智能监控体系
本文在开源云计算平台Hadoop环境下,将Ganglia和Nagois两种开源监控软件进行整合,配合移动飞信来实现对云计算平台的实时监控。形成了如图2所示的一整套云计算平台的智能监控体系。
该模块通过整合Ganglia和Hadoop平台来采集监控主机的基本指标或者用户自定义的指标。然后进行数据处理,包括信息聚合,分类,可视化,生成报表等。具体过程如下:
Ganglia的监控进程(gmond)发送的指标格式是有明确定义的。用户可配置Hadoop指标子系统,按照Ganglia的要求,直接向Ganglia发送指标数据。用户可以根据需要,用Ganglia对Hadoop的一个或全部上下文进行监控,需要监控的Hadoop上下文包括Java虚拟机(JVM)上下文,远程调用(RPC)上下文,分布式文件系统(DFS)上下文,Mapreduce(mapred)上下文等配置项。每个上下文对应一个Hadoop指标子系统,每个子系统包括多项Hadoop指标。
Hadoop的配置见文件hadoop-metrics2.properties,配置项的前缀是上下文名称,每个上下文配置项都有如下三个属性。
在本系统中,由于只有少数主机需要处理,为简化启用和配置,Ganglia只使用单个集群。
在组播模式下,当节点规模过大,组播会对系统性能会产生一定的影响。在本系统中,尽管只有三个节点,仍采用单播传输模式。
22监控模块
该模块通过整合Nagios与Ganglia来完成相关资源的监控,包括主机资源,网络资源等。
在后台,Nagios实际上只是单一进行调度和通告的引擎。Nagios本身并不能监控任何内容,只能调度插件程序的执行,并处理输出结果。
本系统采用Nagios来监控Ganglia指标。Ganglia项目在gweb模块中包含了一系列官方Nagios插件。这些插件使得Nagios用户可以创建一些服务,将存储在Ganglia中的指标和Nagios中定义的告警阈值进行比较。
在实际应用中,使用Ganglia插件来监控系统,如:Ganglia内部使用心跳计数器来确定某台主机是否在运转;将给定主机的单个指标与预定义的Nagios的门限值进行比较来检查特定主机的某种指标;检查特定主机上多种指标;检查使用正则表达式所定义范围内主机的多种指标;验证一套主机上的一个和多个指标值是否相同。
在图3中,这些插件和一系列专门为此创建的gweb PHP脚本进行交互。毎个PHP脚本从插件接收参数,解析从gmetad获取的有关状态缓存,提取被监控实体当前的指标值,并返回。Nagios插件和PHP脚本成对出现。
实际应用中,在hosts.cfg中定义hostgroup,格式如下:
其中,check-heartbeat.sh是Nagios插件。
此外,可以使用Nagios监控Ganglia主机的运行情况,如使用check-nrpe守护进程,监控Ganglia的所有故障,如监控汇聚主机上的gmetad和rrdcached以及所有主机上的gmond,监控TCP端口(如gmetad和gmond的监听端口)的连通性等。
23报警模块
为了减轻工作负担,使管理人员能实时获取云计算平台运行异常或故障信息,本文使用整合了Nagios与移动飞信的报警模块将报警信息直接送到管理人员手中。
Nagios利用插件使用Ganglia采集的信息,在运行指标超过阈值的情况下通知管理人员,通知方式采用移动飞信。
Nagios下飞信的配置主要包括:
飞信命令定义
配置commands.cfg文件,定义一个服务故障时发送报警短信的指令,如下
3云计算平台智能监控系统的实现
31系统总体架构及实现环境
本系统使用三台VMware虚拟机,根据需要组建Hadoop集群,Hadoop集群各主机参数列表如表1所示。
表1Hadoop集群各主机参数列表
主机名IP地址CPU(个)内存(G)硬盘(G) host110100981281010200 host6101009812488100 host7101009812688100
在三台主机中安装CentOS 65系统,开发环境安装JDK17,安装Hadoop 112[7],配置host1作为NameNode、SecondaryNameNode, 三台主机均配置为DataNode, 在host1上运行JobTracker,在三台主机上均运行TaskTracker。
在host1上安装Ganglia-gmetad 317,Ganglia-gweb 342[8],Web服务器Apache22,脚本语言php-533,在三台主机均安装Ganglia-gmond 317。
在host6主机上安装Nagios Core 344[9], nagios-plugins-15, nrpe-214,Web服务器Apache22,脚本语言php-533,安装移动飞信fetion。系统总体架构如图4所示。
Ganglia和Nagios均具有丰富的Web展示功能。实现环境中,Ganglia能监控hadoop集群及各主机性能指标众多,大约有几百个,下面只展示其中的几个,图5至
图5host6节点一月内平均负荷图6host1节点一天内jobtracker.heartbeats指标图7host1节点一天内namenode.blockReport_num_ops指标
Nagios监控效果只选取一张图,Nagios所有主机服务状态详述(局部)如图8所示,上面十五项是hadoop集群中host1、host6、host7三台主机上五个服务项的状态信息,这五个服务项分别是:GMOND、check-ganglia-heartbeat、check-ganglia-metric disk-free、check-ganglia-metric load-one、check-value-same-everywhere,下面八项是Nagois主机上服务的状态信息,本系统中Nagois主机即为host6。从这些效果图可以看出,Ganglia和Nagios协调工作,实现了对Hadoop系统性能的监控。图8Nagios所有主机服务状态详述(局部)本系统一般只需设定Nagios插件返回Critical和Unknown二种状态发出报警,且一小时间隔循环发送即可。在系统主机和服务出现异常情况时,管理员接收飞信的手机会收到报警短信,格式如下:发信人为“12520139xxxxxxx”,短信内容为“XXX:1010098126host7/GMOND is CRITICAL”,最后是接收短信日期时间,“XXX”为接收飞信手机机主的姓名。此时,管理员可在本地或远程实时维护host7主机上的GMOND服务。
在实际应用中,可以根据具体需求调整要监控的服务项。利用Hadoop、Ganglia和Nagios良好的可扩展性,动态增加节点,以便加入更多的Hadoop应用。通过改变Hadoop集群的负载,或通过调整VMware虚拟主机的部分参数,使系统负载达到均衡。由于系统中使用的端口众多,因此应特别注意iptables防火墙的设置。
4结 语
在开源云计算平台Hadoop环境下,利用Hadoop系统提供的监控接口,将Ganglia和Nagios整合,通过Web可视化工具,强大的图表展示功能,直观地了解每个节点以及整个Hadoop系统的工作状态,并利用移动飞信进行故障报警,对调整Hadoop系统的运行参数、提高系统整体资源效率起到重要作用。
参考文献:
[1]袁凯.云计算环境下的监控系统设计与实现[D].武汉:华中科技大学,2012.
[2]张仲妹.云计算环境下的资源监控应用研究[D].北京:北方工业大学,2013.
[3]沈青,董波,肖德宝.基于服务器集群的云监控系统设计与实现[J].计算机工程与科学,2012,34(10):73-77.
[4]Matt M.,Bernard L.,Brad N..陈学鑫,张诚诚译.Ganglia系统监控[M].北京:机械工业出版社,2013:12-15,133-135.
[5]陶利军.掌控:构建Linux系统Nagios监控服务器[M].北京:清华大学出版社,2013.
[6]刘鹏,黄宜华,陈卫卫.实战Hadoop:开启通向云计算的捷径[M].北京:电子工业出版社,2011:37-38,60,62.
[7]Apache Software Foundation. Hadoop官方网站[EB/OL].
[8]http://ganglia.info/. Ganglia发布网站[EB/OL].
[9]http://www.nagios.org/. Nagios官方网站[EB/OL].
[10]李超,梁阿磊,管海兵.海量存储系统的性能管理与监测方法研究[J].计算机应用与软件,2012,29(7):78-80.