用于实时大数据处理的Lambda架构(通用8篇)
篇1:用于实时大数据处理的Lambda架构
3.1.1.数据的特性:When & What
我们先从“数据”的特性谈起。数据是一个不可分割的单位,数据有两个关键的性质:When和What。
When是指数据是与时间相关的,数据一定是在某个时间点产生的。比如Log日志就隐含着按照时间先后顺序产生的数据,Log前面的日志数据一定先于Log后面的日志数据产生;消息系统中消息的接受者一定是在消息的发送者发送消息后接收到的消息。相比于数据库,数据库中表的记录就丢失了时间先后顺序的信息,中间某条记录可能是在最后一条记录产生后发生更新的。对于分布式系统,数据的时间特性尤其重要。分布式系统中数据可能产生于不同的系统中,时间决定了数据发生的全局先后顺序。比如对一个值做算术运算,先+2,后*3,与先*3,后+2,得到的结果完全不同。数据的时间性质决定了数据的全局发生先后,也就决定了数据的结果。
What是指数据的本身。由于数据跟某个时间点相关,所以数据的本身是不可变的(immutable),过往的数据已经成为事实(Fact),你不可能回到过去的某个时间点去改变数据事实。这也就意味着对数据的操作其实只有两种:读取已存在的数据和添加更多的新数据。采用数据库的记法,CRUD就变成了CR,Update和Delete本质上其实是新产生的数据信息,用C来记录。
3.1.2.数据的存储:Store Everything Rawly and Immutably
根据上述对数据本质特性的分析,Lamba架构中对数据的存储采用的方式是:数据不可变,存储所有数据。
通过采用不可变方式存储所有的数据,可以有如下好处:
简单。采用不可变的数据模型,存储数据时只需要简单的往主数据集后追加数据即可。相比于采用可变的数据模型,为了Update操作,数据通常需要被索引,从而能快速找到要更新的数据去做更新操作。
应对人为和机器的错误。前述中提到人和机器每天都可能会出错,如何应对人和机器的错误,让系统能够从错误中快速恢复极其重要。不可变性(Immutability)和重新计算(Recomputation)则是应对人为和机器错误的常用方法。采用可变数据模型,引发错误的数据有可能被覆盖而丢失。相比于采用不可变的数据模型,因为所有的数据都在,引发错误的数据也在。修复的方法就可以简单的是遍历数据集上存储的所有的数据,丢弃错误的数据,重新计算得到Views(View的概念参考4.1.2)。重新计算的关键点在于利用数据的时间特性决定的全局次序,依次顺序重新执行,必然能得到正确的结果。
当前业界有很多采用不可变数据模型来存储所有数据的例子。比如分布式数据库Datomic,基于不可变数据模型来存储数据,从而简化了设计。分布式消息中间件Kafka,基于Log日志,以追加append-only的方式来存储消息。
篇2:用于实时大数据处理的Lambda架构
Query = Function(All Data)
该等式的含义是:查询是应用于数据集上的函数。该定义看似简单,却几乎囊括了数据库和数据系统的所有领域:RDBMS、索引、OLAP、OLTP、MapReduce、EFL、分布式文件系统、NoSQL等都可以用这个等式来表示。
让我们进一步深入看一下函数的特性,从而挖掘函数自身的特点来执行查询。
有一类称为Monoid特性的函数应用非常广泛。Monoid的概念来源于范畴学(Category Theory),其一个重要特性是满足结合律。如整数的加法就满足Monoid特性:
(a+b)+c=a+(b+c)
不满足Monoid特性的函数很多时候可以转化成多个满足Monoid特性的函数的运算。如多个数的平均值Avg函数,多个平均值没法直接通过结合来得到最终的平均值,但是可以拆成分母除以分子,分母和分子都是整数的加法,从而满足Monoid特性。
Monoid的结合律特性在分布式计算中极其重要,满足Monoid特性意味着我们可以将计算分解到多台机器并行运算,然后再结合各自的部分运算结果得到最终结果。同时也意味着部分运算结果可以储存下来被别的运算共享利用(如果该运算也包含相同的部分子运算),从而减少重复运算的工作量。
4.Lambda架构
有了上面对数据系统本质的探讨,下面我们来讨论大数据系统的关键问题:如何实时地在任意大数据集上进行查询?大数据再加上实时计算,问题的难度比较大。
最简单的方法是,根据前述的查询等式Query = Function(All Data),在全体数据集上在线运行查询函数得到结果。但如果数据量比较大,该方法的计算代价太大了,所以不现实。
篇3:用于实时大数据处理的Lambda架构
目前国内多个新媒体企业通过引入成熟的Hadoop框架处理海量数据[3], 对数据进行层层分析、挖掘, 已在业务运营层面上产生巨大价值[4]。而目前Lambda是Hadoop框架中主流的实时大数据处理分布式架构之一, Lambda架构具备低延迟、数据不可变、复杂隔离和可扩展性等特点, 恰好是新媒体企业处理海量高并发数据所必须具有的特性[5]。在央视网对里约奥运会独播中, 利用Lambda架构原理构建完整的大数据处理系统, 成功支撑了海量用户实时并发在线用户行为分析, 作为央视网在大规模在线实时运营的典型案例, 对整个新媒体运营具有重要的实践指导意义。
一Lambda架构介绍
Lambda架构是一种可以实时处理海量高并发数据的架构, 它的主要思想是将传统的大数据系统架构分为批处理层 (batch layer) 、实时处理层 (speed layer) 和服务层 (serving layer) 三个层次, 然后分别对这三个层次进行操作, 以便缓解数据库的读写压力和隔离实时数据处理的复杂性。
批处理层除了存储持续增长的批量数据集Master Dataset外, 还会定期对该数据集进行简单的预运算, 并将结果存入Batch View, 以便缩小数据量, 从而提升实时查询的性能 (但这里有一个前提, 就是我们需要预先知道查询需要的数据, 如此才能在Batch Layer中安排执行计划) , 该层可以很好地处理离线不可变数据, 通过可靠存储这些数据, 并且预先计算, 提供可对外服务的查询视图。
在实际场景中, 有大量数据不断实时生成, 并且需要实时查询处理, 实时处理层正是用来处理增量的实时数据, 而非重新运算所有的数据, 并将处理后的数据不断更新到realtime view中, 一般采用内存型数据库存储。由于实时处理实现较为复杂, 因此lambda架构将批处理层和速度层隔离, 减少系统实现复杂度。
服务层主要响应用户的查询请求, 合并Batch View和Realtime View中的结果到最终的数据集。一般采用内存型数据库对上述离线计算预运算和实时增量计算的结果合并到Batch View中, 通过批处理层和实时计算层计算出的结果视图, 最终为查询提供查询服务支撑。Lambad架构给出了一个在实际情况下去实现海量数据流实时分析的框架指南, 其系统架构如图1所示。
Lambda架构整合了离线计算框架和实时计算框架, 在离线计算框架中, 采用不可变模型来存储数据, 使得M-R工作变得有迹可循, 便于在不同时间阶段独立分析媒体数据。在大量流媒体数据处理中, 重新计算是影响系统性能的主要因素, 比如当代码发生变动时, 只能重新计算所有数据, 而Lambda架构的增量计算可以很好避免大量流数据重新计算, 以提高系统性能。此外, Lambda架构采用读写分离的基础原则, 将读取和写入功能进行分离, 以隔离系统设计的复杂性, 从而简化系统。并集成HDFS, M-R, Kafka, Spark, Hbase等各类大数据组件, 快速构建大数据实时处理的数据系统, 这点具有理论指导意义。
二Lambda架构在央视网奥运中的大数据应用
1. 业务需求
央视网作为中央电视台在互联网上的最大门户入口, 2016年成为里约奥运会中国大陆地区的持权转播商, 独家全程直播了里约奥运会全部的赛事, 令央视网各终端网络播放量屡创新高, 同时积累了庞大稳定的用户群, 这些用户在使用各类服务过程中产生了大量数据, 对这些海量数据进行分析与挖掘, 将会对节目的传播及商业模式变现起到重要的作用。
里约奥运期间需要对增量数据在当日概览和赛事回顾两个层面上进行分析。其中, 当日概览模块需要秒级刷新直播在线人数、网站的综合浏览量、页面停留时间、视频的播放次数和平均播放时间等千万级数据量的实时信息, 而传统的分布式架构采用重新计算的方式分析实时数据, 在不扩充以往集群规模的情况下, 无法在几秒内分析出需要的信息。Lambda架构实时处理层采用增量计算实时数据的方式, 可以在集群规模不变的前提下, 秒级分析出当日概览所需要的信息。赛事回顾模块需要展现自定义时间段内的历史最高在线人数、逐日播放走势、直播最高在线人数和点播视频排行等海量数据的统计信息, 由于奥运期间产生的数据通常不需要被经常索引、更新, 因此要求采用不可变方式存储所有的历史数据, 以保证历史数据的准确性。Lambda架构的批处理层采用不可变存储模型, 不断地往主数据集后追加新的数据, 恰好可以满足对奥运数据的大规模统计分析要求。
2. 架构设计
央视网采用以Lambda架构搭建的大数据平台处理里约奥运会大规模视频网络观看数据, 具体平台架构设计如图2。
该平台基于Lambda架构, 由数据集成层、数据存储层、数据计算层和数据应用层构成。
数据集成层支持将PC端、APP端和TV端采集到的用户行为数据进行整理, 数据集成层分为离线数据集成和实时数据集成两部分。实时数据集成集群采用Nginx和Flume服务器对实时流数据聚合并传输至Kafka队列中, 由Kafka将实时流数据分发至实时流计算引擎中分析。离线数据集成集群使用开源组件sqoop将数据不断追加存储到主数据集中, 采用分布式列数据库Hbase存储主数据集。两个集群之间通过Kafka的Mirror功能实现同步。
本文利用云存储技术构建平台的存储系统, 该存储系统不仅集成了分布式列数据Hbase、内存关系型数据库Mem SQL, 而且还增加了统一的监控管理功能和开放更多的访问接口。数据存储将结构化数据、半结构化数据以及非结构化数据储存于分布式文件系统中, 且数据以三重副本的形式分布在文件系统, 支持自动存储容错、系统错误监控、故障自动迁移等技术, 确保数据的安全性和接近100%的数据可用性。
数据计算层为了实现IO的负载分离, 通过对实际业务解析, 将数据计算层分为离线计算、实时计算和合并计算三部分。①离线计算部分除了存储持续增长的批量离线数据外, 还会定期使用Spark和M-R对离线数据进行简单的预运算, 将大数据变小, 从而降低资源损耗, 提升实时查询的性能, 并最终将预运算结果更新到Batch View。离线计算通过使用最新的Hadoop节点驱动调度算法来保证数据量大的任务能得到较公平的获取计算资源, 同时使用Impala或者Hive建立数据仓库, 将离线计算的结果写入HDFS中。②时效性是大型活动难以解决却不得不面对的问题, 在大型活动中的很多场景, 数据会不断实时生成并累计数据, 需要系统实时查询处理, 实时计算部分正是用来处理这类增量的实时数据。为保证时效性, 实时计算采用Spark Streaming仅处理最近的数据, 并将处理后的数据更新到realtime view, 它做的是一种增量的计算, 而非重新运算。③合并计算部分用于响应用户的查询请求, 合并Batch View和Realtime View中的结果到最终的数据集。合并计算将内存关系型数据库Mem SQL内的数据与离线预运算后的数据合并, 写入分布式列数据库Hbase中, 从而为最终的查询提供支撑。
在数据展现层用户可以通过调用数据计算层的相应接口, 简单快速进行算法编程, 从而呈现出当日概览、赛事回顾等模块的信息。当日概览模块通过实时计算引擎中的Spark Streaming, 计算直播实时在线人数、地域和频道分布等信息, 并实时呈现到前端界面中。在合并计算中查询网站的综合浏览量、页面停留时间、视频的播放次数和平均播放时间等增量数据。而对赛事回顾模块需要呈现的自定义时间段内的历史最高在线人数、逐日播放走势、直播最高在线人数和点播视频排行等数据的统计信息, 可以使用离线计算模块查询这种不断追加的离线数据。
三总结
本文通过研究新媒体行业在大型独播活动中对海量高并发数据的分析需求, 提出应用Lambda架构原理搭建大数据平台处理独播节目的海量高并发数据的方案。根据Lambda架构的三块数据处理系统, 融合增量计算、数据不可变和复杂性隔离等原则设计大数据处理平台, 以满足央视网在奥运期间的数据分析业务, 该平台为今后深入分析海量高并发数据提供了新的启示, 具有一定的理论和实际意义。
参考文献
[1]杨斌.大数据驱动媒体融合[J].中国报业, 2014 (23) :78-79.
[2]Sobolevsky S, Bojic I, Belyi A, et al.Scaling of City Attractiveness for Foreign Visitors through Big Data of Human Economical and Social Media Activity[C]//IEEE International Congress on Big Data.IEEE, 2015:600-607.
[3]王相飞, 张巧玲.大数据背景下大型体育赛事新媒体的传播研究[J].武汉体育学院学报, 2015, 49 (11) :24-29.
[4]Lansdall-Welfare T, Sudhahar S, Veltri G A, et al.On the coverage of science in the media:A big data study on the impact of the Fukushima disaster[C]//IEEEInternational Conference on Big Data.IEEE Computer Society, 2014:60-66.
[5]苏树鹏.基于Lambda架构的移动互联大数据平台架构的设计与应用[J].企业科技与发展, 2016 (6) .
篇4:用于实时大数据处理的Lambda架构
关键词:实时线损;大数据;采集系统
引言
近年来随着科技的进步、電力技术的不断升级,以及智能电网的建设与运用,实现了高质量、高效能的数据通信。目前公司的居民用户智能电表已基本达到全覆盖,使得公司拥有了强大的用电数据采集能力,为公司实现线损的实时管理奠定了基础。
1 配电网线损面临的难题
1.1 人为统计线损数据量大、效率低
近几年,随着社会经济的高速发展和人民生活水平的逐步提高,电力客户增长迅猛,配电网线损统计工作的工作量也是日益增大。加上,线损本身就是一个涉及部门比较广泛的工作,它反映了电力企业从规划设计阶段到经营运行阶段的全过程管理,三集五大体系改革使得各个部门之前的配合协作还需要一段时间去适应,在相关流程、工作方法等方面还存在很多不足。在这种情况下,配电网线损工作开展有一定的困难、且效率不高。
1.2 供售电量的抄表时间不同期
供电量的抄表时段和售电量的抄表时段不一致,是造成统计线损率与实际线损率偏大的主要原因,它会造成统计线损率在不同月份的虚增或虚降,在遇季节性负荷、节假日等特殊情况时比较显著。这是公司普遍存在的现象。
部分县公司还存在单双月抄表现象。单双月抄表存在单双月抄表户数不均的情况,这也会造成统计线损与实际线损的偏差。
1.3 配网运行方式的多变性
为提高供电可靠性,配网线路设计了分段和联络线路,线路末端进行手拉手形式的联络[1]。因此,配网的运行方式的改变,将影响10kV分线线损的真实统计。如果配网运行方式变化频繁,而又无法获得实时变化的供电量,线损统计时就会出现一条线路线损率明显偏高,而另一条线路线损率偏低甚至出现负损的现象。
1.4 营销业务系统与现场的线台户挂接关系不一致
目前线路的售电量是根据营销业务系统内的线-台-户拓扑关系进行统计的,如果现场和营销业务系统中的拓扑关系不一致,就会造成供售电量的统计范围不一致,那么统计出来的线损明显是与实际不符的。
2、实现实时线损统计分析
电能量采集系统的建设与应用,实现了实时线损的统计分析,解决了传统线损分析以月为周期,线损分析周期较长,且受供售抄表时间不一致和季节性因素影响的难题,从而减少了人为因素引起的线损波动。
电能量信息采集系统主要由多功能电能表、采集终端和采集主站构成,采用通讯和安全加密等技术实现用电信息和控制命令的采集和传输[2]。随着电能量信息采集系统的不断建设,将逐步实现对10kV线路、专变、公变、电力客户进行采集终端或集抄系统的安装,公司正在朝着全采集、全覆盖的目标前进,以尽早实现市公司范围内每日准确计算10kV分线和400V台区的线损率。
当然,在采集系统的逐步推进、线损功能实用化的过程中,也遇到了一些问题,如营销业务系统中未建立变电站10kV出线关口档案、线台挂接关系与现场不一致、变电站10kV出线关口、台区关口CT变比与实际有出入、营销业务系统台区关口档案不规范等等。
3、以电能量采集系统为技术支撑、稳推配电网实时线损管理
为了更好的运用电能量采集系统,解决在采集系统推进过程中遇到的问题,更加科学的管理配电网线损,还需继续做好以下两个方面的工作。
第一方面要尽快实现营销与配网信息共享、完善营销基础档案。随着城市建设的步伐,配网建设也在不断跟进,新建、改接线路相应较多,但营销系统内用户档案没有及时按实际运行情况进行变更,以至用户档案与现场实际运行不一致,造成分线售电量统计不准确,从而出现高损及负损情况。在日常工作中,应加强配网与营销的沟通联系,避免营配数据信息更新不一致而导致分线线损异常。
另外,借营配数据清理机会,清理存量数据,确保“站-线-公变(专变)-客户”数据统一、准确[3];规范新增数据,特别要对营销业务系统中的变电站、线路、台区命名规则进行规范要求,以利于变-线-台关系管理。
总之,营销基础资料的准确性是一切工作的基础,一定要尽可能的提高营销数据质量。当然,工作方式应多样化,也可以根据采集系统中的10kV分线线损监测情况,来指导一些具体的工作。
第二方面要尽快实现全采集、全覆盖,保持较高采集成功率。采取多种渠道获得未装终端台区、需更换智能表才能安装终端的台区、客户等,确保终端全覆盖;并经常对采集系统中不在线、在线抄不起数据的终端进行维护,力争采集成功率100%。
全采集、全覆盖及保持较高采集成功率是实现实时线损的基本条件,实现了实时线损统计,才可以对配电网的线损做出准确的分析判断,保证掌握到及时的、正确有效的数据,才能确保配电网系统的高效运行。
4、结束语
随着社会的不断发展进步,电力客户越来越多,也就意味着电力企业掌握的数据量越来越大,如果线损专责还不能从填报线损报表中解脱出来,那就不能与时俱进了。我们要将科技的力量和人的智慧充分融合,建设好电能量信息采集系统,稳步推进实时线损管理工作,为将来面临更大的挑战做好充足准备。
参考文献:
[1]陈国锋.配电网线损分析及降损技术管理措施[J].机电信息,2010,(09):23-24
[2]赵岩,郭锐,郑建华.基于用电信息采集的配网在线监控预警系统[J].电工文摘,2014,(05):41-43
篇5:用于实时大数据处理的Lambda架构
Lambda架构是个通用框架,各个层选型时不要局限时上面给出的组件,特别是对于View的选型。从我对Lambda架构的实践来看,因为View是个和业务关联性非常大的概念,View选择组件时关键是要根据业务的需求,来选择最适合查询的组件。不同的View组件的选择要深入挖掘数据和计算自身的特点,从而选择出最适合数据和计算自身特点的组件,同时不同的View可以选择不同的组件。
6.Lambda架构 vs. Event Sourcing vs. CQRS
在Lambda架构身上可以看到很多现有设计思想和架构的影子,如Event Sourcing和CQRS,这儿我们把它们和Lambda架构做一结合对比,从而去更深入的理解Lambda架构。
篇6:大数据推动IT基础架构的创新
大数据考验底层架构
现实的市场环境是竞争激烈的,更是多变的,以Hadoop为代表的非结构化数据技术的诞生更是加剧了这种竞争。商业行为中每一个细小的变化对应的都是一次数据的补充、一次算法的调整,结果造成了一次数据流的加速,而提升数据的利用率也是提升商业价值最有效的方法。而从另一个角度来说,很多商业企业更热衷于用增加有创造性的大数据应用来强调自己的竞争优势,众所周知的亚马逊产品推荐就是相当典型的一个例子。
面对大数据时代,大数据的使用者通常会选择在追求数据的多样性的同时,采用有创造性的算法,来实现对于多来源、多格式数据的价值提取。这种以“数据为核心”的思考方式,决定了将运算推到数据方的产业技术趋势。
大数据基础架构必须学会“海纳百川”。在大数据的来源上,大多使用的是广泛存在于我们周围的数据,比如来自互联网、社交网络等移动应用的数据,或是企业在商业活动过程中积累下来的业务数据,就连抽样数据痛恨不已的错误数据,大数据也照单全收!这个并不难理解,从唯物主义角度讲,数据没有绝对的完整,更没有绝对的完美,错误数据也是数据的一部分。所以对于一个大数据基础架构来说,必须保证各种数据都能够存储下来,并且随时以供调用,而在很多有创意的应用中,这一点甚至会比架构的数据存储量更重要,因为在大多数情况下,考虑的因素越多,结果就会更加“准确”。
同时大数据基础架构应该是性能卓越、身手敏捷的,无论多么有想法的应用都需要通过算法实现,都需要有一个能令自己大展身手的平台,在复杂数据融合复用的前提下,更加强调了大数据基础架构对于数据的适应能力和数据利用的效率。
合适才是最好
对于我们来说,大数据的应用可以说“只有想不到,没有做不到”,再加上复杂多样的数据,注定大数据年代没有通用的底层平台产品,而只有符合创新应用需求和“全数据”处理的大数据基础架构。
且不说应用算法,就在Hadoop族群本身也有很挑剔的角色:如果和Hive配合的计算密度不够,会造成集群大面积宕机;Hbase能轻而易举地拿下任何格式的数据,存再多都没问题,但面对表单交互运算却无能为力;而storm\Spark、内存数据库,种种大数据处理技术层出不穷,从基础平台、分析、存储到事实运算等不同层面发挥着自己的优势,在大数据这个大话题里,平台与应用之间没有对错,只有是否合适、是否相得益彰,每一个大数据的使用者都需要视自己应用的需求,选择适合自己的基础架构。
另外,由于以Hadoop为代表的大数据处理技术,大多来自互联网,在对技术优化的同时,却在一定程度上欠缺了企业用户必不可少的安全、稳定和可管理性,在一方面我们还有很长的路要走。
面对数据的不断增长、应用的不断翻新,大数据不断挑战我们创造力的极限,在这个产业生态系统中,底层基础平台如何不断刷新创新应用和海量数据的价值,也一定将会是相当重要的环节之一。
篇7:大学云架构与大数据处理建模研究
关键词:云计算;大数据;学生成长;教师发展;智慧校园
中图分类号:TP393 文献标志码:A 文章编号:1673-8454(2015)01-0016-04
一、引言
大学云(Universities Cloud)是一种采用云计算技术,对教学、科研、行政、后勤等各种业务流程办理和职能服务的园区云,也是学校各级部门可靠的基础信息化服务平台。大学云服务将产生大量的各种数据,云计算目前是大数据处理的基础技术[1],采用云计算处理海量数据,提高管理与决策水平,是大学云架构的重点工作。
显然,云计算、大数据等技术已成为高校生存与发展的基础。大学云架构采用统一标准[2],不仅利于各种业务网络与应用系统互连互通,避免产生“信息孤岛”,也利于避免计算、存储及网络资源重复建设[3],节约资金及提高收益,还利于大数据处理,改善办学绩效及增强高校创新能力。
因此,大学云架构的关键问题是全面整合资源,优化云计算模型。也就是构建一种支持资源集约、信息共享、应用协同,以及大数据存储管理及检索使用的大学云。最优架构的大学云,是云计算、大数据与教育信息化的融合。这种融合,一方面规定了智慧校园高层划分及各部分间的交互[4],另一方面决定了智慧校园应用系统的实施能力和发展空间。本文以山西师大园区云建设为背景,重点讨论大学云架构与大数据处理建模等问题的解决方法。
二、大学云计算体系结构与功能
大学云是智慧校园建设的核心部分,是一个复杂的系统工程。该工程侧重六个方面:第一,优化整合学校各种管理信息系统和协同办公系统,建立统一基础数据库、数据交换系统、统一信息门户及统一身份认证等[5],消除信息孤岛。第二,完善高校决策支持系统的模型库、数据库和知识库建设,通过大数据分析,实现学校发展的智能决策。第三,优化整合网络课程、精品资源共享课和视频公开课及微课等资源,构建网上网下有机协同的智慧学习环境。第四,优化整合饭卡、洗浴卡、水卡、门禁卡、借阅证、上机卡等校园各类卡片,实现校园一卡通。第五,完善图书馆资源数字化管理,支持师生泛在数字化阅读与在线讨论。第六,优化整合多媒体视听教学与微格教学设施,支持MOOC的开发与应用。按照以上要求,大学云计算体系结构与功能,如图1所示。
从图1可以看出,大学云主要由基础设施、资源平台、应用平台和服务门户构成。基础设施包括了各种服务器、存储器、网络设备(交换、路由、安全等)和操作系统及工具软件等设施。采用虚拟化软件(如VMware vSphere 5.5),对云基础设施进行集群架构与管理[6];按照业务所需资源量,将虚拟服务器与虚拟存储器弹性适配与调度[7],由此形成大学云资源平台。在资源平台部署校园应用软件,包括教务管理系统、学生管理系统、科研管理系统、教工管理系统、资产设备管理系统、财务管理系统、后勤服务管理系统、图书文献管理系统、教学信息化与网络学习系统、协同办公系统、平安校园监管系统、校园一卡通系统、统一身份认证系统、上网行为管理系统、网络运维支持系统等。这些校园应用系统,构成了大学云应用平台。
大学云应用平台,通过数据交换系统(多个虚拟主机)接口,将各种数据库与各种应用系统适配连接,实现了资源集约、信息共享及应用协同。云应用,一方面通过面向师生信息服务接口,建立了一站式校园信息服务门户。师生可通过该门户,依据本人权限进行各种功能操作。另一方面,通过面向大数据分析与智能决策服务接口,建立了一站式校园决策支持门户。学校各级领导(或相关责任人),依据本人权限进行各种大数据分析操作。通过大数据分析,实施教学、科研与后勤服务等事务处理的决策支持。
三、校园大数据特征与处理方法
随着大学云建设与应用,大量数据来源于管理信息系统数据库与日志库、图书文献库与日志库、校园一卡通数据库与日志库、网络行为与管理日志库、平安校园视频库与日志库、多媒体及微格教学视频库与日志库、网络学习资源库与日志库、办学决策知识库和模型库及决策支持日志库等。数据类型繁多,主要有文本、数值、图形、图像、标签等。数据处理速度快,如管理信息系统数据库、一卡通数据库等,数据处理均有较高时效性。很多数据表现出低价值密度,如各种视频库、日志库等。这些数据完全符合大数据的4V(Volume,Variety,Velocity和Value)特征[8]。
校园大数据可分为结构化数据与非结构化数据两类。结构化数据主要包括各种管理信息系统数据库(关系数据模型)、能够变换为关系数据表单的各种日志库。非结构化数据主要包括图形图像、音视频(微格教学视频、精品资源共享视频课、微课程视频、校园监控视频等)、Web文档(HTML与XML网页)、课件文档(浏览器可打开的Word、PPT、PDF等)、工作文档(如年度计划、工作总结、项目研究、成果报告等电子文档)。结构化数据处理,常用数理统计模型与算法(如回归分析,最小显著差数法、最小显著极差法等)。非结构数据处理,常用文档语义表示与索引、文本处理与分析[9]、内容摘要等工具。校园大数据处理建模,直接影响着学校发展决策的水平。
四、支持学生成长的大数据分析
在校园云的环境中,如数字化迎新、数字化学习(网上选课、学籍管理、网络学习、在线讨论等)、数字化生活(校园刷卡吃饭、洗浴、用水、进门、借书、上机、体育运动,以及社团与学术活动等)的每一个过程中,均有大量的数据记录了学生成长。如图2所示。对这些数据进行深入分析,对学生成长及改善学校决策绩效[10],具有以下作用。
(1)学生入学与学习数据分析。整合学生入学情况和在校学习情况等数据,深入分析与了解不同生源地、不同单科成绩、不同专业、不同个性特征的学生在校期间学习表现,为招生部门优化招生措施提供决策支持。
(2)学生专业学习数据分析。整合能够反映学生在校的学习、研究和参加活动(如课程学习、校园学术活动等)等多种数据,持续、系统地分析每个学生的专业学习行为、课程测验与作业完成、课程考试成绩、项目申请与结题、学习兴趣与意见等数据,深入了解学生专业学习中的问题,为学习绩效改善提供个性化服务,为优化人才培养方案提供决策支持。
(3)学生在线学习与图书借阅数据分析。完善“在线学习管理系统”的学习轨迹记忆功能,能够跟踪学生的学习轨迹。深入分析学生在观看课程视频、网络课程学习、网络资源浏览、在线讨论发言、完成电子作业等项目上花费的时间差异。为优化网络学习资源开发与购置提供决策依据。统计学生访问图书馆、借阅图书与文献等数据,分析学生网上、网下学习时间分配情况,分析网络学习资源与馆藏图书文献资源配置情况,为优化电子与纸质资源最佳互补提供决策依据。
(4)学生就业与深造数据分析。整合专业教育、教育实习、校园招聘、社会招考、考取研究生、用人单位反馈意见等各类数据,深入剖析专业人才培养方案、学生就业或考研意图及市场对人才需求等数据,优化人才与市场对接机制、完善专业课程学习与考研对接机制,与为学生考研提供个性化指导服务,为毕业生提供个性化就业指导服务。
五、支持教师发展的大数据分析
教师是学校发展的中坚力量,教师的教学、科研能力高低,直接关系到专业人才培养质量与水平。在校园云的环境中,教师的教学、科研活动密切与数字化关联,如人事档案管理、综合教务管理、科研管理等系统,这些系统均记录了教师发展的大量数据。建立支持教师发展的大数据处理模型,是提升教师能力、促进教师发展的有效途径。如图3所示。
(1)教师基本数据分析。建立健全教师入职与从业档案数据库。深入分析教师的学历教育背景、学习专业与学缘状况(学士、硕士、博士的毕业院校,以及专业衔接与研究方向等),教师从事专业与学习专业的关系(一致、相近、跨专业等),以及教师专业职称与学习专业、从事专业及兴趣爱好之间的相关性等,优化教师招聘策略与措施,为学校人力资源部门招聘教师提供决策支持。
(2)教学信息化数据分析。按照教师信息化教学情况,整合综合教务管理系统、课堂教学日志(学生填写)、听课日志(领导和专家填写)等相关数据。深入分析教师制定课程教学计划、编写教案、课堂教学、实验教学、编写教材、制作课程资源、承担校本研究课题、获得教学成果与奖励等数据,了解教师教学能力发展中的优势与不足,为提升教师教学能力提供个性化服务。优化教师教学考核机制,为学校修订教师及课程组教学能力提升措施提供决策支持。
(3)科研与服务社会数据分析。深入分析教师承担科研项目(题目,级别、主要研究问题、方法措施,结题、结论等)、发表论文(题目、刊物级别、检索、社会反响等)、出版著作(名称、出版级别、发行量、社会反响等)、获得科技成果奖励、学术荣誉,以及进行的学术报告和外出学术会议等数据。深入分析教师科研能力、技术专长与社会兼职、承担横向课题、服务领域及业绩等之间的相关性,了解教师科研与社会接轨,促进生产力发展的情况。优化教师科研考核机制,为提升教师科研能力提供个性化服务,为学校修订教师及团队科研能力提升措施提供决策支持。
通过以上三方面数据分析,优化高校个人与团体的教学、科研绩效考评机制。为教师职称评聘提供考评依据,为学校修订师资队伍建设的政策与措施提供决策支持。
六、支持提升服务能力的大数据分析
校园后勤服务、资产设备使用,图书文献使用,以及网络使用等领域,均与学校服务师生的能力密切相关。而服务能力提升直接与领导干部执行力相关。如图3所示。因此,在这些领域开展大数据的分析,可助推学校服务能力提升。
(1)领导干部管理数据分析。完善党政干部管理系统功能,深入分析干部任职时间、职务变动、年度计划、工作总结、工作业绩、取得成果与奖励等数据。优化干部考核机制,为学校选拔、培养青年干部提供决策支持。
(2)校园后勤服务数据分析。后勤服务是智慧校园的重要组成部分,动态采集校园生活、安防、环保、资源与能耗等各个方面的数据,建立后勤服务保障系统。通过该系统,深入分析校园日常水电计量数据与水电节约数据,挖掘节能空间,完善节能管理措施。深入分析楼宇、房屋、设备、道路等日常修缮维护资源消耗与费用开支等数据,参考经验,完善修缮管理措施。深入分析学生刷卡吃饭与餐饮管理数据,普查学生餐饮问题,如饭量持续减少是否身体不适、每日三餐与每周营养搭配是否符合科学饮食,饭菜价格波动是否合理等问题,及时优化健康餐饮管理措施。深入分析师生在校体检与医疗数据,普查师生身体不适,及时提供进一步医疗建议。深入分析平安校园(所有楼宇内外、公共场所、道路、校园进出通道等)视频数据与操作日志数据,依据事件发生,普查电子眼密度与位置是否符合平安校园的需求,及时提供电子眼维护与增补建议。
(3)资产设备使用数据分析。建构资产设备管理系统,完善仪器设备台帐与使用日志管理,深入分析教学、科研仪器设备(含材料)用于学生实验、师生科研和协同创新攻关实验中,仪器设备使用完好与损害数据、够用与缺少数据。深入分析专业课验证、设计和综合实验项目实施与仪器设备使用率数据。深入分析实验室占地面积与配套设施使用率数据。综合以上三类数据分析结果,优化实验室建设、仪器设备维修与更新管理机制,为资产与设备科学、合理使用提供决策依据。
(4)图书文献使用数据分析。整合校图书馆和学院、所资料室的图书文献资源,构建图书文献阅读管理系统。通过学科资源服务系统,聚合与分享海量学科信息资源,精细化筛选适合读者需要的资源。采用RFID装置、红外感应器和激光扫描器等技术构建智能书架与书桌,智能抓取数据,进行读者行为学分析,获取其阅读喜好,为读者推荐感兴趣的资源。综合以上两类数据分析结果,优化图书文献流通管理机制,提高图书文献有效使用率,为满足读者需求购置图书、期刊等资源提供决策依据。
(5)网络行为数据分析。整合校园网流量控制、网络管理、安全管理、用户管理、上网行为管理及Web服务器等日志数据,建立网络综合日志管理系统。深入分析各类行为数据,包括用户访问外网的各种协议占用带宽、持续时长数据,用户连接与断开网络数据,用户访问网址、内容与持续时间数据,网络交换、路由设备工作正常、故障及恢复时间数据,网络交换与路由设备、服务器与主机系统等安全服务、遭受攻击及修复时间数据,以及服务器运行的行为数据。综合以上多种数据分析结果,优化网络运维管理机制,优化网络协议带宽分配策略,优化网络安全管控措施,优化节能管理措施,为校园网技术升级、增强网络可用性提供决策依据。
七、结束语
我们在大学云架构与大数据处理方面进行了有益的初步尝试。但仍有很多问题需要研究,如数据安全保护、个人隐私保护,挖掘关联规则[11]、构建预测模型等,我们要从深层次推进智慧校园可持续发展,使师生能够如影随形地感知与体验教育信息化的魅力。
参考文献:
[1][8]窦万春,江澄.大数据应用的技术体系及潜在问题[EB/OL].http://www.cnki.net/kcms/detail/34.1228.TN. 20130627.1215.002.html.2013.06.
[2]何京翔.为云计算和大数据重塑数据中心[EB/OL].http://www.chinacloud.cn/upload/2014-06/14060211 339145.pdf. 2014.06.
[3][4]杨威,刘彦宏.高校智慧校园建设中的关键问题与对策[J].中国教育信息化,2013(23).
[5]湖南青果软件有限公司.山西师大数字校园建设方案[D].2011.11.
[6][7]杨陟卓,杨威,王赛.网络工程设计与系统集成(第3版)[M].北京:人民邮电出版社,2014.9.
[9]Zhizhuo Yang, Heyan Huang. Chinese Word Sense Disambiguation based on Context Expansion[C].Proceedings of COLING-2012.
[10]沈富可.高校智慧校园的核心价值探索[EB/OL].http://free.eol.cn/edu_net/edudown/eduedu/shenfuke.pdf.2014.6.
[11]杨陟卓,黄河燕.基于异构关系网络图的词义消歧研究[J].计算机研究与发展,2013(2).
篇8:用于实时大数据处理的Lambda架构
关键词 数字图书馆 大数据 海量数据存储 分布式存储架构 非结构化数据 半结构化数据
分类号 G250.76
Study on the Big Data Distributed Storage Architecture Model and Policies of
the Digital Library
Ma Xiaoting
Abstract Storing and processing big data by using ordinary relational database comes across some problems in the digital library. To solve the bottleneck problems of the traditional relationship database in big data storage and access efficiency, this paper presents a secure and efficient big data distributed storage architecture for the digital library, which has better scalability, fault tolerance and enhanced storage performance. Especially for the mass unstructured and semi-structured data, the performance advantage is more obvious.
Keywords Digital library. Big data. Mass data storage. Distributed storage architecture. Unstructured data. Semi-structured data.
随着信息技术的发展与读者阅读需求转变,云计算、大数据、物联网和传感器网络等技术,已成为数字图书馆构建与用户服务保障的关键技术。新技术的应用与服务模式的变革,大幅提高了图书馆服务系统的结构科学性、保障力和用户满意度。但是,图书馆在用户服务与系统管理、读者阅读活动保障、自动传感器数据采集和移动阅读终端阅读等过程中,产生了海量和级数递增的大数据资源,图书馆数据环境呈现数据体量巨大(Volume)、类型繁多(Variety)、价值密度低(Value)、处理速度快(Velocity)的4V大数据特征。此外,非结构化数据占据图书馆总量的85%以上,并且读者对大数据资源的价值密度和可用性要求较高。因此,加强大数据存储系统架构的科学性、安全性、可用性和可扩展性,确保大数据资源可以安全、高效、灵活和经济地被存储、访问、查询和分析,是关系图书馆数据存储与管理效率,保证大数据资源挖掘和数据价值发现有效的关键[1]。
1 图书馆大数据存储面临的问题与挑战
1.1 图书馆大数据资源具有海量、多源的特点
图书馆大数据资源通常由读者个体特征数据、社会关系数据、系统运营与管理数据、视频监控数据、物联网传感器数据、阅读终端日志、读者阅读行为数据(主要由用户博客、微博、论坛和读者反馈信息)等组成,具有数据海量、多源、非结构化和数据总量级数增长的特点。随着用户阅读模式和需求的转变,传统的存储体系已不能满足海量激增的大数据资源存储需求,要求大数据资源库具备PB级的数据存储规模,并可根据未来服务需求进行存储性能升级和扩展。此外,要求大数据存储平台应完成对结构化数据、非结构化数据和对象数据的统一存储与管理,并保证存储系统具有高效、简单、经济和高资源整合的优点。存储系统应支持核心大数据的安全、即时备份,且备份空间应占据总系统总存储空间的30%以上[2]。
1.2 存储架构应实现从传统IT环境向大数据环境的平衡过渡
首先,大数据时代,图书馆传统IT环境下的集中式存储架构,已不能满足用户对大数据存储服务海量、高效的需求,管理员难以通过对存储设备容量、性能的扩展,满足图书馆大数据服务对存储系统的功能需求。其次,传统IT环境下,图书馆通常会通过增加存储系统模块的方式来扩展数据存储能力,导致存储系统结构复杂、管理难度大、存储负载不均衡和易产生数据孤岛。因此,存储架构必须实现由传统IT环境下的集中式存储向大数据环境下的分布式存储架构转变。第三,随着读者大数据服务需求的发展,图书馆应将存储系统转变为以读者大数据服务保障能力建设为中心,提高大数据存储、管理、部署和迁移的安全性、效率、可用性与可控性。第四,大数据存储架构必须增强软、硬件平台的开放性,消除传统存储平台不同系统与功能模块之间的层次化、封闭性和隔离性,实现大数据资源的最优化存储与部署[3]。
1.3 大数据存储的可用性与成本控制问题
大数据存储的可用性与成本控制问题,关系图书馆大数据资源挖掘、价值发现和分析决策的有效性。首先,大数据存储系统应具备多核并行处理和快速闪存的功能,可满足大数据应用对存储系统IOPs(每秒进行读写操作次数)的需求。其次,大数据存储平台应具备较高的存储效率和资源利用率,可通过监控系统对存储工作负载、系统存储效率、动态资源配置与分配、存储资源的优化水平进行实时监控。第三,大数据存储平台应具备较强的兼容性和可扩展性,可满足传统存储架构向大数据存储演进的系统硬件功能需求。第四,大数据存储管理算法应适应新的存储系统架构与存储介质运营需求,坚持以读者需求和大数据服务驱动原则,大幅降低大数据存储的能量损耗和成本投入。
nlc202309040929
1.4 大数据存储系统应构建新型的指标参数体系
根据图书馆大数据存储系统的结构科学性、系统功能性、存储可用性和可控性需求,存储平台系统指标体系应重点关注系统的结构复杂性、可扩展性、运行效率、灵活性、数据库弱一致性和建设经济性等。涉及大数据存储系统功能性和可控性的指标体系,主要应包括数据的安全性、长期可存储性、数据可访问性、数据定位与查询的效率、存储系统的数据吞吐量与延迟、大数据存储节点的部署科学性等参数指标。此外,还应根据指标参数对图书馆大数据存储系统的结构科学性与功能影响力,以及读者大数据服务的内容与模式转变程度,及时对指标的内容、参数和影响因子进行动态调整[4]。
1.5 云计算技术在大数据存储服务中具有局限性
对于云存储图书馆可通过购买云服务商公共云存储服务、自建私有云平台、构建混合云存储平台(公有云与私有云相结合)三种方式,实现大数据资源的存储、管理和应用。
公共云存储服务由图书馆交付云服务商来保障完成,具有服务部署快捷、存储成本低廉、按需分配资源和服务连续性的优点。但也存在着图书馆将所有大数据资源传输至公有云端,图书馆和其他用户共享云服务商的存储空间和管理服务,具有安全性低、数据可控性差和QOS(用户服务质量)无保证的缺点。图书馆自建私有云存储平台的方式,虽然具备较高的安全性、存储效率和数据可控性,但也存在着私有云平台的建设、运营成本高昂,对用户技术水平和管理员素质要求高的问题。混合云虽然有效解决了公共云和私有云在大数据存储中存在的问题,但也存在着跨公共云和私有云分配应用复杂,大数据资源存储安全需求评估和迁移管理难度大的问题[5]。
2 图书馆大数据分布式存储架构模式与策略设计
2.1 图书馆大数据分布式存储架构设计
图书馆大数据环境由于具有数据海量、级数递增、数据结构多样和价值密度低,存储平台用户服务过程呈现数据一次写入和多次读出的特点,因而存储平台应具备系统存储容量可依据大数据服务需求横向扩展,可支持不同数据接口的数据采集设备和阅读终端、多种数据访问协议、全局命名空间和支持面向对象的数据管理。此外,图书馆在大数据存储平台部署过程中,应具备系统快速部署、高速存储与读取、大宽带网络连接、PB级海量存储、多级数据冗余备份、智能的数据检索和查询能力。同时,存储系统应具备较高安全性和7×24小时运行不中断的能力,并支持系统的在线容量扩展和数据迁移。
结合图书馆大数据资源存储和读者服务需求,本文设计的图书馆大数据存储平台系统结构如图1所示。
图1 图书馆大数据分布式存储平台系统结构图
大数据存储系统由现有数据存储平台、分布式数据存储层、分布式数据处理层和大数据服务接口层4部分组成。现有数据存储平台主要完成所采集数据的初选和过滤,通过减少原始大数据资源的数据总量和增加其价值密度,降低大数据的存储负载和缩短大数据应用时间。分布式数据存储层主要由闪存和直连存储(DAS)系统组成。闪存作为DAS系统的二级缓存,具有平均无故障运营时间长、安全性高、数据读写速度快、能耗低和无噪音的特点。DAS基于闪存的二级存储服务支持,可安全、高效地通过存储系统感知器件端、中间层和应用层的服务,安全、高效、均衡、经济地实现大数据的分布式协同存储。分布式数据处理层主要由分布式并行计算框架和大数据管理、挖掘、处理、分析系统组成,基于分布式数据存储层支持而完成大数据的价值提取和知识发现。大数据服务接口层是图书馆大数据服务的数据接口,可为不同的大数据应用系统提供安全、高效、经济、可靠的数据传输服务[6]。
2.2 图书馆大数据分布式存储平台构建与管理策略
2.2.1 存储平台构建应以大数据应用保障为核心
图书馆大数据应用呈现“4V”的特性。因此,在大数据存储平台构建中,应以大数据应用保障能力建设和发挥大数据“4V”价值为核心,构建安全、高效、经济和低碳的图书馆大数据资源存储平台。
首先,管理员应仔细分析图书馆读者大数据服务的内容、模式和方法,将构建符合用户大数据服务需求的存储与管理架构放在首要位置,再依据大数据服务对存储平台的安全性、功能性、容量、I/O吞吐能力和硬件设施投资收益等要求,保障存储平台硬件设施在设备参数、接口协议标准和管理方式上满足大数据服务的需求。其次,大数据存储平台构建应注重系统的可扩展性建设,应采用Scale-Out(横向扩展)的系统架构,实现多存储节点的全冗余部署,并依据图书馆大数据业务的需求变化和数据存储量增长实际,对存储空间、带宽和处理能力进行实时的动态扩展。第三,大数据存储平台构建应以大数据存储服务生命周期规律为依据,重点关注系统的海量并行存储能力、全局命名空间、接口标准、读写性能、可管理性、系统架构开放性、多级数据冗余和多级存储备份等,实现大数据资源存储、复制、重构、迁移、分析和归档一体化的全生命周期管理[7]。
2.2.2 存储系统构建应以读者服务需求为依据
图书馆大数据除呈现海量、级数增长、非结构化和价值密度低的特征外,还具有数据一致性强弱不同、访问冷热度不均匀、数据读写操作负载波峰与波谷差异大的特点。因此,读者大数据服务要求存储系统具有高效、安全、低延迟、高并发、快流量和可扩展的特点。
大数据时代,图书馆服务数据呈现多媒体表现、更新频繁、读写速度高和页面数据量庞大的特点。因此,管理员应采用可预测网页变化的增量式更新模型,通过将磁盘的随机写入转化为批量的顺序写入,来大幅缩短网页数据的更新周期和提高用户信息搜索的时效性。其次,应根据大数据存储系统的结构、热点数据特征和用户数据读写模式,对大数据存储访问、数据索引、热点数据缓存、I/O缓存等方面进行全局优化,并通过提高数据的读取速率和系统吞吐量来降低读者在线访问延迟。第三,对于关系读者服务质量、图书馆管理与运营效率的重要数据,应采取子数据中心备份和多副本存储的模式,提高数据的安全性和可用性。第四,在图书馆大数据存储平台构建中,应将大数据存储系统、存储分析系统、大数据挖掘与过滤系统、计算系统整合到一个大的系统平台之上,实现数据采集、数据过滤和挖掘、数据存储、数据分析与归档一体化,提高大数据存储的效率、安全性、可控性和可用性。
nlc202309040929
2.2.3 大数据存储平台应具备智慧管理功能
图书馆大数据存储系统应具备较强的智慧管理功能,可高效、自动地实现大数据融合存储、查询、分析和归档的全生命周期管理。同时,应支持对多种设备接口、通信协议和数据类型的结构化与非结构化数据,进行统一存储、归档与分析,避免数据孤岛现象发生。其次,管理系统应结构简单和易于控制,可对存储系统硬件设备、软件系统和存储区域网络进行统一的管理。通过对所采集的存储系统运营状态反馈数据进行性能统计和智能分析,实现系统的自动化精简配置和存储空间的动态分配。第三,图书馆应增强基于大数据存储管理算法的科学性,实现大数据资源存储的智能、虚拟化管理,解决大数据环境下图书馆大数据存储系统所存在的存储介质异构、数据分片和存储资源分配难度大的问题。第四,大数据存储平台建设和系统运营过程应加强能耗管理。图书馆在存储系统构建中应尽量使用闪存、PCM等低能耗的新型存储介质。同时,还应采用能耗查询优化、数据存储节点负载均衡、能耗均衡的集群存储分配、面向集群的高能效缓冲区置换算法等,实现大数据存储平台的低碳运营和绿色存储[8]。
2.2.4 存储平台应安全、可控和易于动态扩展
在大数据存储系统基础设施建设中,图书馆应采用分布式存储系统结构来保证系统架构的可扩展性。通过对存储节点的平均负载配置实现节点间的存储负荷均衡,保证系统整体具有较高的安全性、存储效率、可控性和可用性。其次,在大数据存储平台建设中,应利用图书馆原有存储系统平台资源,对所采集的大数据资源进行数据分析、数据过滤和降噪处理,在降低大数据平台建设成本前提下增强大数据资源的价值密度,减轻大数据存储平台的计算、存储和网络传输负荷。第三,系统管理员应仔细分析图书馆的大数据存储业务,并购买或者开发相应的存储系统监控、决策软件,实现对存储磁盘I/O、磁盘总容量、磁盘占用率、CPU使用量、内存占用和存储系统传输网络效率等,进行全面、实时的运营状态监控和性能分析,并依据监控结果对存储系统的参数与资源进行配置和动态分配。
2.2.5 大数据存储系统构建应坚持公有云与私有云相结合的原则
利用云存储技术,图书馆可以保障读者在任何时间、任何地点,通过任何可连网的装置连接到云上,方便地存取数据和进行云阅读活动。但是,不科学的云基础设施架构和云应用策略,会导致云系统的构建与云服务成本上升,以及云存储数据安全性和个人隐私受到侵犯,严重影响了图书馆大数据应用与用户服务决策的安全、有效性。图书馆大数据存储具有数据安全级别、读写频率、结构特征和价值密度不统一的特点。因此,应根据图书馆大数据存储和大数据阅读服务需求,构建安全、高效的云存储系统和管理策略。
结合图书馆大数据存储环境特点和服务需求,应采用混和云的方式对图书馆大数据资源进行存储和管理。读者对图书馆大数据服务具有安全、高效、经济、便捷的需求。因此,在对海量、多类型、低安全需求的服务数据进行数据模式统一转化后,应存储于公共云平台上,并与云服务商签署相应的云服务租赁协议,保证图书馆租赁的公共云资源和存储空间,可随大数据服务需求和数据量变化动态弹性调整。此外,云服务商还应依据读者所处地理位置分布实际,在世界不同地域构建若干个服务数据备份存储空间,保证读者可就近、实时、高效、经济和便捷地阅读访问。而对于高安全级别的读者个体特征数据、社会关系数据、阅读行为数据和图书馆系统运营监控数据等,应存放在图书馆的私有云上,并制定安全、高效的数据管理与保密措施,实现对保密数据的统一管理、扩展、升级和集中备份与容灾[9]。
3 结语
随着读者大数据服务的深入与发展,大数据环境的数据海量、级数递增、类型复杂和低价值密度的矛盾将更加突出,大数据存储与管理的安全性、效率、经济性和实时性,会直接影响图书馆读者大数据决策与服务的科学性和可用性。因此,在大数据存储平台建设中,图书馆必须以读者大数据服务和大数据存储需求为依据,坚持大数据存储技术与读者需求相结合的原则,依靠云计算和大数据技术构建基于分布式的大数据存储系统,才能保证图书馆大数据存储与应用安全、高效、经济和个性化,才能为读者提供基于用户需求感知和客户关系管理的大数据智慧服务。
参考文献:
[ 1 ] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013(1):146-149.
[ 2 ] 史英杰,孟小峰.云数据管理系统中查询技术研究综述[J].计算机学报,2013(2):209-225.
[ 3 ] 金培权,郝行军,岳丽华.面向新型存储的大数据存储架构与核心算法综述[J].计算机工程与科学,2013(10):12-24.
[ 4 ] 黄冬梅,杜艳玲,贺琪.混合云存储中海洋大数据迁移算法的研究[J].计算机研究与发展,2014(1):199-205.
[ 5 ] 张天宇,贺金鑫,王阳,等.基于NoSQL数据库的地学大数据高效存储方法[J].吉林大学学报,2013(6):604-608.
[ 6 ] 覃雄派,王会举.大数据分析:RDBMS与Map Reduce的竞争与共生[J].软件学报,2012(1):32-45.
[ 7 ] Wilkipedia. Big data[EB/OL].[2014-03-15].http://en.
wikipedia.org/wiki/Big_data.
[ 8 ] 李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域大数据的研究现状与科学思考[J].中国科学院院刊,2012(6):647-657.
[ 9 ] 王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013(6):1126-1136.
马晓亭 兰州商学院信息工程学院副教授。甘肃兰州,730020。
(收稿日期:2014-08-29 编校:刘 明)