关键词:
大数据推荐数据模型(精选十篇)
大数据推荐数据模型 篇1
1 大数据服务模型研究现状
目前针对大数据服务模型的研究,还存在如下的问题:
1) 目前的对大数据服务模型的研究,仍然沿用传统的Web服务模型,无法提供对非结构化数据的支持,不适用于大数据服务中对多种服务类型、多种数据源的支持[2]。
2) 对数据服务操作、数据源等特征的表达不足,导致使用传统的数据描述方式阻碍了服务的组合和发现。
2 大数据服务模型设计思路
针对目前对待大数据进行描述的Web服务模型所存在的不支持非结构化数据和特征表达不足的问题,大数据服务模型的设计必须要满足如下三个方面的条件:
1) 同时支持结构化和非结构化的数据模型、服务模型。
2) 能够对数据各个方面的特征属性进行形式化的定义,和完善的描述。
3) 支持可视化型数据服务和分析型数据服务的构建。
针对大数据服务模型设计所需要满足的要求,在进行大数据服务模型设计时,通过如下的方法来满足大数据服务模型的需求。
1) 采用非结构数据模型GDM将非结构化数据结构化,然后对GDM中的属性进行描述,从而将用户对数据服务的检索、可视化请求和分析都转换为对非结构化数据属性的操作。
2) 韩晶(2013)已经对数据服务应该包含的属性进行了全面分析[3],考虑到数据服务应该尽可能的体现数据特征,为此在文献三研究的基础上,增加数据隐私和数据质量部分的属性。并且设计大数据服务模型的相关操作函数,满足用户对输出结果进行筛选的需求。
3) 增加可视化型、分析型逻辑描述,从而支持用户对大数据服务的这两大数据服务需求。
3 大数据服务模型的具体设计
目前对数据服务进行描述的方法主要包括REST API和WSDL方法等,这些数据服务描述方法都由于缺乏相应的语义信息,导致数据服务在自动服务组合方面存在一定的不足。
OWL-S(Ontology Language for Web Service)通过一组语言标记对Web服务进行描述,是基于语义Web技术和Web服务的结合体,从而使得数据服务能够更好的被计算机所理解,有利于数据的分析,从而支持Web服务的发现、调用和组合。除此之外,OWLS还支持自定义类实现对OWL-S的扩展。为此,使用OWL-S设计大数据服务,可以使得大数据服务模型具备语义和数据特征双重优势。
由于大数据服务的基础数据源复杂,各数据源模式各异。为此,为了实现数据服务的匹配和组合,即必须要采用一种合适的方式来对数据服务进行统一表示,语义Web技术通过RDF将大数据服务的各个数据源的数据模型映射到一个全局共享语义本体上,从而方便用户对数据语义的理解,从而实现基于OWL-S的大数据服务建模。
在建立数据源与共享本体之间的映射之后,就可以在此基础上进行基于OWL-S大数据服务的建设。OWL-S使用OWL语义对Web服务本体进行定义,并且将其中每个具体的Web服务当成是Web服务本体的一个实例来对数据进行描述。
每一个大数据服务模型都需要用一个Service来对模型进行描述[4],在基于OWL-S的大数据模型中,使用由Service Grounding、Service Model和Service Profile三个属性子类构成的Service来对数据模型进行描述。其中,Service Grounding主要包含服务端口号、消息格式和服务访问协议等内容,描述用户怎样获取大数据服务;Service Model主要对大数据服务内部流程进行描述;Service Pro-file主要包含服务的Qo S信息、服务所属分类信息、服务功能和服务提供者信息等内容。
如图1所示,基于OWL-S的大数据服务模型通过对服务组合、服务操作和服务属性三个方面的描述来体现大数据服务的扩展,其中使用OWL-S的Service Model实现大数据服务模型的扩展,通过Service Profile来实现大数据服务模型中服务操作和服务属性的扩展。
1) 数据源基本属性描述
在Servcie Profile中添加Profile的Basic Attrs子类对数据源的数据隐私、质量等基本属性进行描述,添加Data Quality子类对数据源的清洗程度、精确性等数据质量相关内容进行描述。Data Source属性的描述如下所示:
2) 服务类型属性描述
服务类型属性描述Service Content是Profile的子类,服务类型刚属性主要包括service Type和service Items等数据类型属性,Ser-vice Content属性的描述如下:
3) 服务操作描述
在OWL-S的大数据模型中,将数据源的操作也作为数据源的一个属性进行描述,例如,在Process子类中的in Condition对create Time操作进行描述如下:
4) 服务组合描述
数据源的服务组合也通过属性来进行描述,例如大数据的“顺序组合”服务在基于OWL-S的大数据模型中的描述如下:
4 结束语
本文所研究的基于OWL-S的大数据服务模型增加了服务操作、服务质量、数据源等属性,从而使得数据服务的属性和操作描述更加完备;同时,使得大数据服务继承了语义Web的语义理解能力和自动服务组合能力,从而将服务组合运算融入大数据服务中。
摘要:通过对现有大数据服务研究现状的分析,分析大数据服务研究目前所存在的问题,并针对目前大数据服务对数据特征表达不足,所导致的数据服务发现和组合困难的问题,提出了基于OWL-S的大数据服务模型,通过利用OWL-S中的服务操作、服务类型和数据源等属性,实现大数据服务的可视化、分析和检索等服务的构建和动态组合,使得大数据服务在属性和操作方面的描述更加完备,具有较强的语义理解和自动服务组合能力。
大数据读后感(推荐) 篇2
在21世纪,大量的数据在我们身边无时无刻的产生着,每个人都是大数据的生产者和接收者,但不是每个人都能成为大数据的分析者和预测者。
维克托·尔耶·舍恩伯格在《大数据时代》中前瞻性地指出:“大数据带来的信息风暴正在变革着我们的生活、工作和思维。”大数据开启了一次重大的时代转型:思维变革、商业变革和管理变革。
正如作者在引言中的陈述:就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解社会的方式,成为新发明和新服务的源泉……
我认为,这两个比喻做得十分恰当。大数据就是一个看世界的工具,让我们更加全面,更加细致的去看世界。甚至预测世界。维克托认为,大数据的核心就是预测。这个核心代表着我们分析信息时的三个转变:更多,更杂,更好。
大数据承载的好处比比皆是:它可以预测机票价格的走势以及增长幅度,帮助消费者省下一大笔钱。它可以提示汽车需要更换的零件,不至于定期更换,而换掉了好的零件。它可以帮助警方预测那些投诉迫切需要调查,提高破案效率。它可以帮助艾滋病研究机构为患者提供定制的药物,及时有效地治病。它可以实现电信企业售后服务的质量提升,知道客户想要什么。它可以预测娱乐行业中歌手,歌曲,电影,电视剧的受欢迎程度……然而这些的前提是拥有大数据。
书中展示了谷歌、微软、亚马逊、IBM、苹果、facebook、Twitter、VISA等大数据先锋们最具价值的应用案例。
然而就像一张手,有正面也有发面。大数据,有利也有弊。据《华盛顿邮报》2010年的研究表明,美国国家安全局每天拦截并储存的电子邮件、电话和其他通信记录多达17亿条。不只是美国,“大数据”也监视了我们的个人隐私,成为了第三只眼。亚马逊监视着我们的购物习惯,Facebook似乎什么都知道。告知与许可、模糊化、匿名这三大隐私保护方法在大数据面前都弱不禁风。与此同时,人们对数据的依赖有时太夸张了:“最近,我们竟然争论边框是用3、4还是5被像素,我居然被要求证明我的选择的正确性。”这是谷歌首席设计师道格·鲍曼辞职后说的的话。其实,卓越的才华并不依赖于数据。但总的来说,大数据时代,是利大于弊的。
推荐芬雷布的《大数据云图》 篇3
与许多空泛的书不同,《大数据云图》作者的眼光很“独”,是那种赌石人的眼光,这跟作者在行内的“现役”身份有关。这本书谈了大数据的方方面面,并非在所有方面都权威,它在硅谷真正权威的地方就是这张“大数据云图”。所以我们就从这张图讲起。
看过《智取威虎山》的人,都听说过“联络图”。“联络图”把控制一个地区所需要的关键资源、关键人交代得清清楚楚,搞定了它,才能搞定各个山头,坐拥一方天下。“大数据云图”就好比这张“联络图”,当然不是要让你去当土匪,而是让你具备像投资人那样的火眼金睛,从“有钱没钱”这个专业角度,一眼看出大数据这条山脉里,哪里有矿,价值几何,该去搞定什么。
芬雷布来北京的时候,我还没有太理解他的思路。后来我为了搞清楚这张“联络图”的门道,专门跑了趟美国硅谷,与芬雷布当面交流。现在根据他给我的解答,我来谈谈对这张神秘的“联络图”的理解。大数据云图在网上是随时更新的,我们下面的介绍以2013年4月的版本为准。
从“大数据云图”这个视角看大数据,首先对大数据背景的看法就有自己鲜明的特色,从院士、学者或实验室角度看,Hadoop算什么东西?它不过是走向灵图解的一个过客。但这种看法需要至少15年以上的视野。而作为投资人,芬雷布坚持把Hadoop当作主脉这样一种简明的观点。因为正如当年温世仁跟李岚清说的,对商人来说,要改变世界,十年足够了。十年还不能改变世界的东西,商人根本不会理会。人工智能也许要搞一千年以上,但VC必须得把握十年以内改变世界的东西,Hadoop足够了。为此,芬雷布把投资目光主要聚焦在为开源技术提供商业支持的公司(如Cloudera、DataStax、LucidWork之类)身上。以改变世界的尺度来认识世界,这是实干家与理论家的不同。
其次,芬雷布建立了一个他称之为“基础设施”的基本板块,来把握大数据产业的“资产”层面的诸要素,包括四个展开环节——数据分析(Cloudera、EMC等)、数据操作(couchbase、10gen等)、数据服务(亚马逊、谷歌等)、结构化数据库(Oracle、IBM的DB2、SYBASE等)。在我看来,这是指为整个大数据产业分享固定成本的承重部分。
在这一部分,芬雷布的眼光非常“毒”,他与实验室看法不同,非常早看出服务潮流的转变,体现在对亚马逊将坐大的预见上。事实证明了他的预见。据Synergy报告显示,2013年第三季度,亚马逊获取了美国云计算市场总收入25亿中的多数份额,本身收入提升55%。Synergy估计,亚马逊第四季度云计算收入将达7亿美元,比微软、IBM、谷歌、Salesforce.com的总和还高出15%。芬雷布在几年前就预见到,亚马逊将主要赢在用WEB服务卡位(AWS)上,这与云的方向是一致的。中国搞大数据,许多还是IP时代的眼光,而非WEB时代的眼光,这点需要注意。阿里在往安卓的结构里面嵌入WEB框架,对谷歌搞“修正主义”,说明也看到了同样方向的问题。
芬雷布第二个跟实验室眼光不同的地方,表现在对商业的理解上。他很好解释了Cloudera将走强的原因。在芬雷布看来,Cloudera只集中解决了一个问题,就是实时问题。对科学家来说,大数据用多长时间出分析结果,不是主要问题,但对客户来说就不同,Cloudera Impala帮助其他公司运行Hadoop,关键是把灵敏作为一种结果,提交给客户。以Cloudera现在的规模,随便一个中国上市公司都可以收购它,但有没有这眼光是另一回事。
第三,“大数据云图”最出彩的部分是基础设施之上的“应用程序”板块。事实上,VC对基础设施部分,只投了很少的钱(5亿美元),而把重心全押在了应用上。这与中国大数据的做法形成鲜明对照。如果拿芬雷布的“联络图”对照中国,中国的大数据许多都在“不务正业”,将来可能骗到国家的钱、圈到国家的地,但长出什么来,不好说。让我们来看看真搞市场经济,让大数据落地,应该怎么搞。
芬雷布称之为“应用程序”的板块是指“人类和计算机系统通过使用这些程序,从数据中获知关键信息”。但实际上,它对应的是整个大数据产业的相当于边际成本的部分,在云计算背景下,它是指面向云端轻资产运作的部分,即按“使用”(“按需”是另一角度的说法)收费的部分。
“应用程序”板块的框架结构,由六部分组成,分别是垂直业务(BloomReach等),运营智能(New Relic、Splunk等),广告/媒体(Collective、DataXu、Metamarkets等),数据即服务,商业智能,数据分析和可视化。
让我们来看,是一些什么样的公司活跃在这些应用领域。
在垂直业务应用领域,像BloomReach这样的公司,帮助电子商务企业优化网站,进行大数据营销服务,以提高转化率。
在运营智能应用领域,New Relic将营销自动化,帮助商家分析哪些客户最有价值,特别是什么活动最有可能扭转不利局面,Splunk公司帮助IT工程师分析设备生成的日志数据。
在广告应用领域,应用服务企业帮助商家算出哪种广告最适合顾客,产生特定的广告印象需要花多少钱,近来为移动广告进行分析的公司,如Flurry,最具增长潜力。
在数据即服务应用领域,邓白氏公司在为各种数据提供网络编程接口,值得注意的是,与原有做法(例如阿里的某些作法)不同,这样的数据源允许他人在其基础上建立APP程序。
在商业智能应用领域,IBM的Watson是开拓和领导者(我们以前介绍过),MicroStregy和Domo的特点在把智能应用引向新的领域,前者是在移动产品上,后者是在云计算上。需要注意的是,与传统集中于企业首脑部门的BI不同,大数据的BI最终将武装到企业的神经末梢,特别是直接接触客户的部门。
在数据分析和可视化应用领域,Tableau Software提供了互动性强且易于使用的大数据可视化软件服务,QlikTech推出了用26000家企业使用的QlikView可视化产品。这一领域目前非常活跃,社交协作功能加入数据分析和可视化服务看来是一种趋势。
总的来说,芬雷布对大数据产业前景的展望,特别强调应用,“期待更多的大数据应用程序涌现,让消费者和企业将数据应用到工作当中”。而在基础设施方面,则会笼罩在亚马逊的阴影里,新手只能从不受它影响的领域中冒出。
与美国的情况相比,我认为中国发展大数据产业,有几个问题需要从芬雷布的判断中得到重要启示:第一,要深入认识大数据产业分工的规律。大数据的产业框架与云计算有内在联系,不能离开云计算发展大数据。中国当前大数据发展遇到落地难,这是表象,深层问题是没有理解基础设施与应用之间,是一种基于云计算的固定投入与边际投入大分工的关系。第二,在基础设施方面,中国一些主要企业数据不开放的做法,放在全球看,正在过时。之所以不开放,根子还在对第一个问题的理解上。适应云计算的做法,要求大数据基础设施的建设思路尽早从IP思路,转向WEB思路。WEB只能是开放的。亚马逊虽然强,但在移动大数据方向上,中国有充分的创新空间。第三,在应用服务方面,要特别向美国企业学习。适应云计算的做法,是使大数据应用面向轻资产服务。现在国内大数据应用有一个不好的苗头,就是企业做着做着,变成传统BI的大数据,进而走向封闭、集中,这没有把大数据应用的真正优势发挥出来。大数据应用一定要实现面向最终需求的全员智能,做不到都是假的。
大数据推荐数据模型 篇4
近年来,随着物联网、云计算、信息技术的发展推动了大数据新技术的迅速崛起,给智能交通系统( Intelligent Transport System,ITS) 的发展带来了更多的机遇和挑战。不仅需求智能交通系统的技术变革,而且对智能交通的设计理念和模式也有新的要求。在2013 年10 月第20 届世界智能交通大会上就提出了关于交通大数据的相关研究,研究表明大数据技术的研究已经在交通管理、交通安全、交通应急、出行智能化服务等方面开始占据市场。智能交通系统建设规模不断扩大,随之而来的系统数据、交通检测数据、交通监控数据、交通服务数据等不同类型的海量数据构成了大数据。以北京市为例,6 万余辆出租车一天产生的交通数据量级已从TB级升为PB级。显然,传统的交通数据处理方法已逐渐不能满足智能交通大数据的处理需求,而是需要大数据相关技术对智能交通数据进行深层次的挖掘和开发,实现数据共享和整合达到智能服务的目的。因此,如何有效地管理、分析、整合智能交通大数据,从数据中提取有效信息将成为智能交通系统发展研究的重点和难点。
目前研究者们已提出许多有关大数据处理技术,例如Google较早开发了GFS和MapReduce,微软的分布式计算平台Cosmos,Facebook,集群处理Dryad,并行处理Impala等都已成为研究热点。但有关智能交通大数据的共享技术研究尚存在空缺。如何将智能交通中分散、异构、海量的数据,如监控数据、交通路况、出行需求、应急服务数据、移动数据,有效整合实现不同地域不同部门不同数据的数据共享和处理,提高数据利用率,发挥数据价值。这将成为智能交通中需要解决的核心难题,也是文中主要的研究内容。
本文首先分析当前智能交通发展状况和大数据相关技术,总结适合数据共享的Linked Data技术、IOD思想、数据活化思想等数据处理技术,根据智能交通数据不同类型提出数据共享模型,对其中数据描述、数据转换进行详细叙述。此模型旨为智能交通系统建设提供数据共享框架模型参考,使分散数据从深度、广度发挥价值,达到提高大数据处理性能和数据利用率的目的。
1 大数据与智能交通
智能交通( Intelligent Transport System,ITS)[1]于1994 年被正式命名,是世界各国为提高交通基础设施运行效率、解决交通拥堵、避免交通事故以及改善与交通运输密切相关的能源和环境等问题而研究开发的新一代交通运输系统。智能交通综合运用先进的信息技术、数据通讯传输技术、电子控制技术以及计算机处理技术,使交通运输系统实现“智能化”,实现对人、车辆、道路的智能化控制与管理,使之更加高效、安全。1998 年,美国联邦政府拨款13亿美元经费用于研究和开发ITS技术,直到2011 年美国将投资2000 亿美元建造全国ITS系统。随即欧盟、日本、澳大利亚等发达国家对ITS的研究也非常重视,有10 多个国家投资50 多亿美元开始该项目研究。国内于1999 年也开始重点研发ITS,并在“十二五”期间明确指出重点推荐智能家居、智能城市、智能交通、智能电网的研发; 其中,在2008 年国内资产投资达8335. 42 亿人民币,预计未来几年年增长率将超过25% 。
目前国内的沿海地区和经济发达城市的智能交通已经初具规模。在陕西,智能交通建设也在有序开展并取得了一定成绩,初步形成了陕西省的智能交通系统,但大部分城市及城市内部的ITS建设有待继续与完善,相关研究还处于初级阶段,特别是大数据时代下智能交通数据处理、分析、存储技术的研究。因此,需要重点研究智能交通数据的大数据技术。
大数据( Big Data) 是继云计算、物联网之后的一个研究热点,且定义尚未统一。在信息技术中,大数据是一个数据集的集合,这个集合如此庞大无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合[2]。科学家Rauser将其简单定义为: 大数据是超过了任何一个计算机处理能力的庞大数据量。大数据技术是能够从不同类型数据中快速获取有用信息的能力,所涵盖的数据类型有结构化、非结构化、半结构化的数据。这些数据具有4V特点( volume,variety,velocity,value)[3],即海量、异构、快速、价值。IBM认为还应该具有第5 个V特点: 真实性( veracity)[4],有利于领导决策和信任。其关键技术主要包括大数据采集、存储、管理、数据挖掘、安全、检索等。在大数据采集存储方面,Google较早开发了GFS,随后基于Spanner服务器的F1( fault tolerant distributed RDBMS)[5]新型数据库。微软自行开发的分布式计算平台Cosmos[6],主要包括存储系统、执行环境、SCOPE ( structured computations optimized for parallel execution) ,能够存储和分析大数据集。Facebook也相继变革了自己的存储技术,先后推出了Haystack、Hadoop、Hive[7 - 9],简化数据采集、查询、分析等操作。在数据挖掘方面,有WEKA、Rapid Miner、Dryad、Pre-gel[1 0 - 1 3]技术,WEKA是开源的集合大量承担数据挖掘任务的机器学习算法,Rapid Miner可实现Ex-cel、Access、Oracle等数据库的访问,Dryad用于集群处理,与MPI、PVM等紧密联系,Pregel用于图处理及并行计算。在大数据搜索、查询方面,有Power-Drill、Impala、Caffeine、Nectar[1 4 - 1 7]技术,Power Drill属列存储,分析搜索时可跳过不必要分区提高搜索效率,Impala属并行处理,Caffeine属更新搜索结构技术,Nectar可减少搜索延迟,避免对旧数据的重复计算。
这些技术的出现势必会对智能交通系统的模式、理念产生巨大影响。目前,我省甚至我国对大数据研究处在起步阶段,特别是智能交通大数据收集、整合、共享技术。因此,该方向的研究将逐渐被人们关注,相信随着研究和应用的深入,大数据将在智能交通中的交通管理、交通应急、交通安全、面向车辆和出行者的智能化服务等方面发挥实际作用。
2 数据整合技术
数据整合( data fusion)[1 8]技术是指整合表示同一个现实世界对象的多个数据源和知识描述,形成统一的、准确的、有用的描述过程。已有的数据整合技术例如语义标注、Web API,适合用于企业内部异构数据的整合与共享,对于智能交通的海量、异构、分散数据的数据共享却束手无策。于是,Linked Data技术、数据活化、IOD思想被提出。Linked Da-ta[19]是数据描述和发布一种规范和标准,在相互联系的数据网络中每个数据都要使用这种规范。数据的发布者可以在数据网络中对数据进行访问、维护、控制,从而达到数据整合和共享的目的。但是,Linked Data技术还存在许多难题,有待进一步研究,例如: 数据网络中的数据连接方式和维护。数据活化[2 0]是数据集合分析思想,将数据集划分为一组智能活化单元且具有获取环境信息、分析信息、互相通讯等能力。但数据活化思想暂且是一种思想,还未发展研究成为一系列技术,有待解决。IOD( In-ternet of Data)[2 1]思想是将不同类型的数据比作实体,每个数据都使用了信息隐藏技术带有数据虚拟标签( Virtual Tag) ,通过标签可对数据进行认证、存储、管理,也可通过虚拟标签对数据进行标识、标注、互联,实现数据文件的语义标注、数据内容共享、数据管理等。但是数据虚拟标签加载方式,虚拟标签记录内容成为了IOD需解决的难题。
3 数据共享模型
3. 1 总体设计
为了智能交通大数据的数据共享,这里将Linked Data技术、数据活化和IOD思想进行结合,并根据国际标准化组织ISO于1981 年提出的OSI( Open System Interconnection) 开放性系统互连模型的7 层结构,提出解决智能交通系统大数据共享处理的模型和技术路线。将不同类型的数据从底向上的方式进行数据处理,由底层到高层逐渐实现数据共享。如图1 所示。
从图1 中可知智能交通大数据要依次经过数据存储层、数据转换层、数据互联层、数据共享层、数据应用层,最终面向公众服务和应用。
3. 2 数据存储层
数据存储层( Data Storage Layer) 针对大数据中结构化数据、半结构化数据、非结构化数据这三类数据进行存储。结构化数据主要指各类数据库中的数据。半结构化数据主要指无法直接使用数据库进行存储的数据,需要将其进行转化为结构化数据或图、树结构。非结构化数据主要指非结构化文档、音频、视频等,需要采用检测、识别、标注等技术将其结构化进行存储。由此可知,数据存储时数据最终形式都为结构化数据。
3. 3 数据转换层
根据海量、分散、多源、异构的不同类型数据要将其统一描述,对数据转换层来说任务艰巨。可采用的技术主要有两种: 一种针对结构化数据采用RDF映射技术,一种针对非结构化数据采用RDF标注方法[22]。RDF映射技术( RDB2RDF) 是关系型数据映射到图结构数据的方法。根据创建映射方式分为自动创建映射和领域语义驱动创建映射; 根据映射实现方式分为静态映射和动态映射。不同的映射方式会有不同的映射规则。在2012 年W2C推出了它的标准语言R2RML和RDB2RDF直接映射标准。RDF标注方法是将数据标签采用语义化描述,数据标签技术包括数字水印、多媒体标注、文档标注等。数据标签[22]按照数据存储形式可分为嵌入式数据标签、独立数据标签、自动数据语义标签。嵌入式数据标签将数据标签和数据自身都一起存储在数据文件中,标签中存储数据唯一标识符URI,通过URI进行数据间的互联实现数据共享。独立数据标签将数据标签和数据存储分离,通过数据标签中的关联信息实现与数据间的互联。数据标签可存储在数据库或文件中,若采用数据库存储则通过数据库管理系统进行管理,适用于数据转移较少的情况。若采用文件存储则数据结构化描述在文档中,易出现联系丢失现象。自动数据标签是近年来较新颖的语义标注技术,但主要针对特定领域,例如: 图像分割、图像提取等。
3. 4 数据互联层
数据互联层参照Linked Data技术使用HTTP URI来唯一标识数据,使用HTTP协议作为获取数据的协议,获取和发布数据采用如RDF/XML等格式,描述和查询数据可采用RDF,RDFS,OWL,SPAQL[22]。RDF描述对象间的关系,允许用户自定义连接类型( 本体) ,而RDFS和OWL是本体定义语言,SPAQL是RDF标准数据的查询语言。在定义本体时,既要定义标准本体映射也要兼容本地和其他标准本体,从而解决分散数据互联问题。在上传数据时上传者首先要注册,判断数据安全性,利用智能算法对数据进行排序依次处理,防止数据冲突。再采用智能活化思想使得每个数据集都能智能处理数据互联关系,使得数据真正达到互联。
3. 5 数据共享层
数据共享是智能交通系统的目标,为系统应用奠定基础。它的主要任务是利用数据互联层中的数据为用户提供数据应用、服务、共享接口。从用户角度分析,接口可分为管理类接口和应用类接口。管理类接口主要提供给注册授权的用户和开发者,为数据互联和数据转换、数据标注服务。应用类接口主要提供给公众日常所需及特殊领域。
3. 6 数据应用层
数据应用层主要形成智能交通系统中各个子系统,从用途分析可分为数据查询子系统、数据搜索子系统、特定领域子系统、特定服务子系统。数据查询子系统中可利用移动设备、终端等查询交通大数据;数据搜索子系统中可利用导航、监控等收集整理有用信息; 特定领域可对教育、GIS、医疗等提供地理数据、路况数据等; 特定服务子系统可为公众或特殊部门、机构提供交通数据、视频数据、出行方案等。
4 结束语
智能交通大数据中数据包括道路数据、交通数据、路况数据、视频数据、音频数据等,这些分散、异构、海量的数据共享是ITS需解决的难题。因此,本文在分析了当前Linked Data,数据活化和IOD技术基础上,以OSI为启发根据结构化、半结构化、非结构化的不同类型的数据提出将其数据进行分层处理,依次由底向上进行数据存储、数据转换、数据互联、数据共享、数据应用,提高数据利用率和数据处理能力,为解决智能交通大数据的数据共享难题提供参考,从而促进我省乃至我国大数据时代下的智能交通系统的研发。
摘要:智能交通是解决城市交通拥堵,改善城市出行条件的重要途径。大数据时代的到来及物联网、云计算、互联网等技术的发展给智能交通注入新的技术内涵,带来重大变革。交通数据成为了核心,如何有效地实现对智能交通中的异构、分散、海量数据的数据共享和处理成为城市智能交通要解决的核心问题。首先从大数据的角度进行研究,分析交通数据特点和已有数据共享技术,然后提出适合智能交通数据共享的数据处理模型,并详述其中关键技术路线。
大数据推荐数据模型 篇5
大振幅非定常实验数据表达与数学模型研究
本文采用一种新颖的.方法,对大振幅非定常实验数据进行处理,建立了气动导数数据库,在此基础上,运用Duhamel积分法,计算了模型迎角按任意规律变化时的非定常空气动力特性.计算结果与实验结果比较表明,两者符合很好.
作 者:黄达 李志强 吴根兴 Huang Da Li Zhiqiang Wu Genxing 作者单位:南京航空航天大学,南京,210016 刊 名:空气动力学学报 ISTIC EI PKU英文刊名:ACTA AERODYNAMICA SINICA 年,卷(期): “”(1) 分类号:V211.41 关键词:大振幅 非定常流 数据处理 数学模型大数据推荐数据模型 篇6
达观数据专注于提供技术服务,为企业提供像数据预测、个性化用户画像、精准数据营销推广等工作,核心是大数据智能推荐。
怎样才能用好大数据,实现自动化个性化营销?
我们获取商品、视频、工作机会、日常社交等方方面面的信息,主要有两种方式,一种是主动明确的需求,通过搜索引擎找,要获取客户可通过搜索引擎实现。另一种方式比较模糊被动,要在某个网站或应用上逛,要获得客户可以通过推荐引擎实现。给客户推荐商品信息,无非就是这两类。很多广告或营销就是植根于这两类需求,譬如谷歌和百度的搜索广告,根植于用户主动搜索的需求。
个性化推荐非常有价值。因为每个人的需求不一样,有时个人需求很难描述,但是如果数据记录了客户之前的历史行为数据,就可以知道客户偏好,做很多有针对性的工作。
那么,个性化推荐系统是怎么实现个性化营销的?
我们发现常见的需求非常多,以互联网媒体为例,现在有大量的内容,导致很多企业担心用户看不到自己喜欢的内容。用户看不到自己喜欢的内容就走,导致用户流失。很多企业为了获取用户,花了非常大的成本,其实用户很不容易吸引过来,但是吸引过来后又要用优质内容留住他们,这一点非常重要。
网站现在优质内容很多,可能每天都会生成很多优质内容,但是手机屏幕很小,通常只能展示4~5个结果。那么,怎样筛选,充分把用户有限的屏幕利用起来?电商网站经常遇到这种情况,几个爆款引来了浏览量,网站上只有一两个商品有人看,其他商品没人看,导致网站的生态不健康。我们希望网站所有的内容都有人看,各种品位的消费者能找到各自想要的内容。因此,通过个性化智能推荐系统实现个性化推荐,能有效提升网站体验,其重点是让个性化推荐系统把客户的喜好猜准。
洞察消费者不同场景的需求
在应用场景上,譬如说当用户产生一个消费记录,我们会实时把用户行为通过网络传到后台大数据引擎上,在大数据引擎里进行深度挖掘和分析,根据用户历史行为及正在浏览的行为,在0.1秒内把分析结果反馈出来,就是眨一下眼睛的时间,针对用户形成个性化推荐。这个推荐可以是一个商品或一个广告内容,我们猜得很准,这样用户愿意看,愿意点击,形成非常有效的个性化精准营销。现在我们还会基于用户每次的浏览点击、购买评论等,根据这些数据进行建模分析,形成用户画像,之后进行个性化推荐。一部分数据是用户行为数据,譬如点击观看情况,另一部分是用户文本数据,譬如对用户看的文章和写的文字做分析。
个性化推荐上线后对网站效果提升很明显。很多网站之前没有把用户潜力发挥出来,譬如用户原本只待4分钟,把用户的潜力发挥出来,现在用户可以再多待2分钟,这样网站的收益就会得到较大提升。以电商网站为例,传统的电商网站推荐看上去似乎很简单。但大部分电商网站的推荐有个问题,用户买了一部手机后,网站推荐的还是手机,这样的推荐没有效果,原因是没有精确把握用户需求。用户刚买了一部手机,不会再点另一部手机,即使你告诉用户,另一部手机型号相同但是比你刚才买的便宜,他也不会点,只会比较愤怒。这时候,要给用户推荐和买的手机相关联的配件手机壳、充电器、耳机等,这样的推荐才有效果,才能增加用户点击。
类似这样的细节都是网站应该完善的。要知道用户在什么场景需要什么,需要什么就推什么。买了手机的用户接下来通常搜什么词,不看哪些产品,关注什么,这些行为的先后顺序也很重要。以母婴产品为例,我们发现需要根据一个妈妈的历史行为有针对性地推荐,当一个妈妈开始买一种奶粉时,再推另外一个品牌的奶粉,她看也不看。
常见的推荐形式,包括媒体推荐、电商推荐,还有我们公司生成的阅读信息流。这是一种很有价值的展现形式,现在可以在信息流中插入广告文章推广内容,这是非常受欢迎的智能推荐方式。
之前提到了文本数据,文本数据是大数据的一部分,简单说就是用户看到的文字以及用户打出的文字,在互联网上,不管是阅读还是交流,大部分情况下是文字,视频和图片较少。对于文字的挖掘,今天的计算机技术可以做得比人更快、更好。
计算机技术可以实现文本自动标签提取功能。大家在描述商品或人时,很多时候要打标签,概括被描述物的核心要素。如今计算机可以通过文本挖掘的方法,自动给人、商品、内容等打标签,打标签是个性化需求的基础。我们公司的系统可以自动对所有内容生成标签,而且速度很快,所有内容0.1秒即可生成标签,精度也很高。另外,还有深度学习技术,深度学习不依赖简单的词库。根据文章上下文结构识别出一些专有名词,包括人名、地名、机构名、影视剧名等,通过计算机自动识别。像“papi酱”,计算机可以自动通过文法分析判断它其实是一个人名。
计算机还可以自动做审核,看文章中有没有非法、色情等违法内容,可以做得比人更快、更准,还可以自动识别互联网上大量存在的垃圾广告内容。
还有一个很有意思的例子,计算机还可以识别一段文本中的情感是正面还是负面,是褒是贬。譬如电商衣服做得怎样,看了几集《欢乐颂》感觉怎样,还有很多微博评论,可以把正面和负面情绪的强烈程度计算出来。如果让一个编辑去看,一个人一分钟的阅读数是300字,但计算机可以在0.1秒判断出正负面情感,把正面和负面的情感汇总起来,就可以还原一个人对一件事情的喜好程度。
大数据安全能力成熟度模型标准研究 篇7
当前数据呈现出爆炸式增长,组织越来越多地依赖数据来运行其业务。相较于传统信息时代相对静态且集中的处理方式,大数据的5V特性即大规模(Volume)、多样性(Veracity)、高时效(Velocity)、真实性(Veracity)和高价值(Value),驱动着数据处理方式的变革,比如组织内部以及组织之间大规模的数据不再是静态的离线处理,而是被嵌入在业务流中进行实时处理,实现了业务的智能化运作。这给数据安全管理带来了挑战,如:
●组织的安全边界逐渐模糊甚至消失;
●频繁的数据流转和交换使得数据泄露不再是一次性的事件,众多非敏感的数据可以通过二次组合形成敏感的数据;
●通过大数据的聚合分析能形成更有价值的衍生数据,如何更好地进行数据的敏感度管理等;
●数据跨组织的流动和交换日益增多,数据安全不再是一个组织内部的事情,需要整个生态、产业共同协作和管理。
传统的信息安全管理侧重在信息内容(信息资产)的管理,更多地将信息作为企业/机构的自有资产进行相对静态的管理,已无法适应业务上实时、动态、频繁的数据流转和大量用户个人数据处理的特点,组织急需一套适配大数据环境、以数据为核心、围绕数据全生命周期构建的成熟度模型来指导其建立、持续改进并依此评价其数据安全能力。
2 标准项目进展
与传统以“边界防护”思想为主的信息安全相比,数据安全的视角更加适用于边界逐渐模糊的大数据时代。数据更为频繁地在组织内部以及对外进行流动产生价值,边界的概念逐步模糊,以数据的维度来开展对数据的安全保护工作更加符合当前的时代需求。
为了应对数据安全风险,数据安全管理工作可以从数据的全生命周期(数据产生、数据存储、数据使用、数据传输、数据共享、数据销毁)出发,从组织和人员的能力建设、关键控制流程制度的建设和执行、技术工具支撑管理落地且强化风险管理三方面进行自身的数据安全管理能力的提升工作,并从产业实践中积累沉淀出大数据安全能力成熟度模型。
大数据安全能力成熟度评估模型旨在为大数据行业建立统一的数据安全能力术语,为大数据各参与组织自身以及产业链上下游、合作方的组织数据安全能力等级提供通用的评价标准,促进大数据行业的健康发展和公平竞争。同时,大数据安全能力成熟度评估模型旨在帮助大数据组织:
●构建数据安全管理框架;
●评估组织的数据安全能力水准;
●衡量数据安全能力提升的进展;
●建立自己的数据安全能力提升路线。
目前,基于大数据安全能力成熟度模型的标准项目《电子商务业务数据生命周期管理安全参考架构》在ITU-T SG17安全研究组已通过立项,正在标准制定过程中。
3 大数据安全能力成熟度模型
3.1 模型概述
大数据安全能力成熟度模型基于组织的数据生命周期,从组织和人员、流程和操作、技术和工具三个能力维度,针对组织的结构化数据的数据安全过程管理,提出规范性的成熟度模型及描述。
3.2 模型架构图
大数据安全能力成熟度模型的架构如图1所示。
模型包含以下三个维度:
●数据生命周期安全过程:组织在数据生命周期的各阶段针对性地开展的数据安全工作内容。
●数据安全能力:组织完成数据安全过程所需要具备的能力。
●能力成熟度等级:针对组织的数据安全能力进行成熟度评估的标准。
3.3 数据生命周期
数据生命周期由六个阶段组成,如图2所示。并非所有的数据都会经历生命周期的每一个阶段。
——数据产生:指新的数据产生或现有数据内容发生显著改变或更新的阶段;
——数据存储:指非动态数据以任何数字格式进行物理存储的阶段;
——数据使用:指组织在内部针对动态数据进行的一系列活动的组合;
——数据传输:指数据在组织内部从一个实体通过网络流动到另一个实体的过程;
——数据共享:指数据经由组织与外部组织及个人产生交互的阶段;
——数据销毁:指利用物理或者技术手段使数据永久或临时性的不可用的过程。
3.4 数据安全能力
组织的数据安全能力分为三个通用层面:
——组织及人员:承担数据安全工作的组织和人员执行数据安全工作的能力。
——流程及操作:将数据安全要求固化为制度流程以保证操作一致性的能力。
——技术及工具:通过系统应用支撑数据安全工作的能力。
3.5 成熟度等级
组织的数据安全能力成熟度模型具有五个成熟度等级,如表1所述:
4 结语
大数据推荐数据模型 篇8
近年来随着互联网行业的快速发展,全世界每年产生的数据规模也在剧烈增长。全球数据量从2010年起正式进入ZB(109TB)时代,2011年达到1.8ZB,2012年2.7ZB,而且这个数字正在以超过年平均50%的速度增长,2020年预计将达到35ZB[1]。与此同时,大数据技术包括数据采集、存储、管理、分析挖掘、可视化等也在迅速发展。这些现象表明,大数据时代已经到来。大数据迅速发展的同时,安全问题也逐渐显露出来,因为大数据具有数据体量巨大(Volume)、数据类型繁多(Variety)、价值密度低(Value)、处理速度快(Velocity)等4V[2]特性,其所面临的安全威胁也是非传统的。
目前,大数据资源安全主要面临着多种的风险:非法用户进入系统、合法用户访问权限外数据、敏感信息有泄漏风险[3]。针对以上安全风险,通常采用的安全措施:使用身份验证系统阻止非法用户接触数据;建立访问控制体系确保合法用户只能访问权限内数据;对敏感数据进行加密存储以确保其隐私性等等。以上安全措施中,身份认证技术主要针对用户群体,只需要应对用户群规模的增大作改进;加密存储技术主要针对数据资源,只需要应对数据的规模增大和实时性强而作出改进。这两项技术相对而言改进较少,较容易将传统技术移植入大数据资源系统。而访问控制系统需要同时应对用户群体和数据资源的规模增大和高实时性,访问权限管理变得相当复杂,很难在现有数据资源存储系统中常用的访问控制技术上作改进移植。因此,分析访问控制模型在大数据环境下的适用性,找出一种能很好使用大数据特性的访问控制模型,成为大数据安全方面的重要课题。
2 大数据体系结构分析
2.1 大数据技术体系结构
大数据的技术体系结构如图1所示。大数据的数据源包括结构化数据、非结构化数据和半结构化数据[4],其中结构化数据所占的比例较小,绝大多数为非结构化数据和半结构化数据,这正是大数据区别于传统数据应用的方面,而这种数据结构比例也决定了传统的数据存储、分析、安全技术需要作出较大改动才能使用于大数据。大数据的预处理过程包括数据清洗和元数据抽取[5],这一过程可以将大数据中的无效或低效数据筛除。大数据处理平台将筛选过的数据存入专门设计的高效分布式存储系统,并基于此存储系统实现并行计算框架和高性能数据库应用,目前最适用的大数据处理平台是Hadoop平台[6]。在大数据生态体系的上层,用户通过多种方式接入大数据,通过身份验证后可调用大数据提供的多种数据服务,包括高性能计算、数据查询、数据分析和数据挖掘等,用户调用的这些数据服务必须通过访问控制获得相应权限后,才能访问数据处理平台中其所需的数据。
2.2 大数据访问控制原则
通过以上对大数据体系结构的分析结合大数据的4V特点,可以得出大数据环境下访问控制的四项原则。
(1)自主授权。大数据环境下,资源分布式存储且规模巨大,如果采用管理员授权模式,授权效率低下,因此需要资源所有者能够自主授权,提高授权效率的同时增强授权的灵活性。
(2)动态授权。大数据环境下,资源与用户时刻都在动态变化中,静态的授权方式难以应对这种动态变化,无法保证授权的有效性。
(3)细粒度授权。非结构化和半结构化数据在大数据中占绝大部分,繁杂的数据类型导致传统的授权模式难以满足最小授权原则。
(4)跨域授权。大数据中采用分布式存储的方式,同时内部会形成多个逻辑上的安全域,会出现频繁的跨安全域访问,必须保证跨域访问的安全性。
3 经典访问控制模型适用性
3.1 自主访问控制模型DAC适用性
自主访问控制(Discretion Access Control,DAC)由客体拥有者规定主体对客体的访问权限,自主性体现在客体拥有者可以自主决定客体的授权。DAC模型的实现方法有三种:访问控制矩阵、访问控制列表、访问控制能力表。
由定义可知DAC模型灵活性高,可以满足自主、细粒度授权的需求。但在大数据环境下,若用户为O(m),资源为O(n),则访问控制矩阵空间代价为O(mn),访问控制矩阵的规模巨大导致管理困难,用户和资源动态性变化带来的矩阵维护同样非常困难,且DAC属于静态授权,没有考虑跨域访问时复杂的上下文环境带来的影响。同时,DAC存在安全性不高的缺陷:权限具有传递性,权限管理容易失控,无法阻止客体的非法访问。
3.2 强制访问控制模型MAC适用性
强制访问控制(Mandatory Access Control,MAC)的基本思想是通过给主体和客体标记安全等级,控制信息只能从安全级别低的实体向安全级别高的实体流动。
MAC安全性较强,但在大数据复杂的访问环境中难以为规模庞大的主客体制定恰当的安全等级,将千万上亿级别的数据仅仅划分为数个或数十个安全等级显然并不合适,同时其授权模式简单,对权限的控制力度也很粗放,难以满足自主、动态、细粒度授权的需求。MAC也属于静态授权,没有考虑上下文环境,在跨域访问时,不同安全域之间的安全等级可能有不同定义,安全性无法满足。
为适应大数据环境,可在MAC模型中加入基于行为的考虑,将行为定义为角色、时态和环境的综合体,既考虑了上下文时态对权限授予的影响,又继承了MAC的强安全性。
3.3基于角色访问控制模型RBAC适用性
基于角色的访问控制(Role-Based Access Control,RBAC),引入了角色的概念,作为主体和客体之间桥梁,将权限分配给角色,并将角色分配给系统中的用户来授予用户相应权限。
RBAC是传统的管理员授权模式,无法自主授权,管理员可能缺乏足够的专业知识,无法准确地为用户指定可访问的数据范围,而且由管理员集中定义用户所有授权规则的方式从效率角度考虑也不理想。传统数据服务中,RBAC中角色的划分基于精确、封闭的用户集和资源集,在大数据环境下,由于用户集和资源集的动态性,RBAC难以预先定义角色。当用户、资源动态变化时,与之相关的角色也可能失效需要重新定义,难以管理和维护。此外,RBAC同样属于静态授权,没有考虑跨域访问时复杂的上下文环境。
因此,若要改进RBAC模型使其适用于大数据环境,可以从两方面入手。
(1)大数据角色挖掘技术。设计角色挖掘算法,分析系统中的访问记录,自动提取角色并对其进行优化,在系统中生成最小角色集,为用户提供高效的个性化授权服务。
(2)基于工作流改进。从工作流中的任务角度建模,将工作流分解为一些相互依赖的任务,然后将任务分配给角色,角色通过执行任务节点动态获得权限。
4 基于属性模型适用性
基于属性的访问控制模型ABAC(Attribute Based Access Control)是一个四元组(S、O、P、E),其中S、O、P和E分别是由主体属性、客体属性、操作属性和环境属性确定的主体、客体、操作和环境集合。ABAC制定完善的属性策略集,用户的每一次访问都要通过策略集判定是否合法,若合法则授予相应的访问权限。
ABAC可以很好的适用于大数据场景,体现在四个方面。
(1)细粒度访问控制。ABAC模型将一次访问过程的所有元素使用属性描述,可以严格控制访问者取得权限的各种条件,并且将可访问范围精确到块级别的资源,满足最小权限原则。
(2)自主授权。在ABAC模型中,所有的访问控制策略都由资源所有者制定,而且模型可为用户提供策略管理接口,资源所有者可以根据自身实际应用需求新建、修改、删除策略,保证了资源能够按照其所有者的意愿被访问。
(3)动态访问控制。在ABAC模型中,属性的定义和设置有很大的灵活性,能够大规模动态扩展,可以满足各种规模的应用系统的需求。模型中可以设置监控模块,针对各类属性动态变化的情况,制定应对机制,可以及时中断访问,避免因属性动态变化造成的非法访问,保证了模型的安全性。
(4)较小的系统开销。传统访问控制在用户和资源数量大幅度增加的情形下,访问控制规则数目会呈现指数级增长,系统的维护量急剧增加,加大系统的开销。ABAC中,访问控制规则随用户和资源数量的增长呈现线性增加,系统开销小。
为使ABAC模型更好的应用于大数据场景,应选择一种标准、通用可扩展的策略描述语言。可扩展访问控制标记语言(Extensible Access Control Markup Language,XACML)是一种基于XML的平台无关的策略描述语言,XACML提供了多种策略合并算法,策略的合成灵活多变,有强大的访问控制策略表达能力,可做为ABAC的策略表达语言。
5 结束语
大数据快速发展的同时,也面临着安全挑战。本文通过分析大数据的特点及体系架构,得出大数据环境下访问控制的原则,即自主、动态、细粒度、跨域授权。根据上述原则,对比分析访问控制模型DAC、MAC、RBAC及ABAC,经分析ABAC模型最适合应用于大数据,此外还针对大数据特性对各模型提出改进建议。下一步的工作集中在将ABAC模型融入大数据应用系统。
摘要:论文分析大数据的特点及体系架构,得出大数据环境下访问控制应满足的原则,即自主、动态、细粒度、跨域授权。通过对比分析访问控制模型DAC、MAC、RBAC及ABAC在大数据环境下适用性,得出结论:ABAC模型最适合应用于大数据。同时,论文针对大数据特性对各模型提出改进建议。
关键词:大数据,访问控制
参考文献
[1]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6).
[2]冯登国,张敏,李昊.大数据安全与隐私保护[J].计算机学报,2014,37(1):246-258.
[3]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.
[4]Nandimath J,Banerjee E,Patil A,et al.Big data analysis using Apache Hadoop[C]//Information Reuse and Integration(IRI),2013 IEEE14th International Conference on.IEEE,2013:700-703.
[5]朱星烨,何泾沙.大数据安全现状及其保护对策[J].信息安全与通信保密,2014(10):33-35.
大数据推荐数据模型 篇9
1 P-DOT模型介绍
传统的BSP模型是P-DOT模型构建的思路来源, 其构成中包含多个迭代, 因此形成了p段的DOT模型。该模型在不同的阶段q内都包含3个层次:首先, 数据层。即D-layer, 应用于分布式系统内, 假设拥有n个数据节点, 由D1至Dn这一数据集都存在其上;其次, 计算层。即O-layer, 假设q为阶段, 独立并发计算在O1至Onq上的nq个工作节点中进行, Oi表示不同的节点, 在应用过程中只对与其相对应的数据进行处理, 其中包括对输入与中间2种数据的处理, 中间结果的显现有储存得到;最后, 通信层。即T-layer, 假设q与p不等, 在q阶段中, ti, j为不同的通信操作子, 消息传递以点对点的方式进行, Oi代表的是q阶段当中的不同工作节点, 其中i的取值为大于等于1并且小于等于nq, q+1阶段中的工作节点Oj得到q阶段内的中间结果, 其中j的取值为大于等于1并小于等于nq+1。值得注意的是, 如果在计算过程中ti, j的取值为0, 则充分说明通信不存在于Oi与Oj当中。同时针对任一阶段, 如果q不等于p, 则上一阶段的输出可以作为输入被下一阶段所用, 不然该输出将被作为最终结果进行储存。
2 模型证明
2.1 时间成本函数的限制性条件
机器内存空间:大数据背景下, 不同的机器节点是存储数据集的主要地点, 具有一定的分散性, 同时有限的内存存在于单个机器当中。在这种情况下, 如果拥有固定的机器数, 但是不断变大的数据规模被输入时, 会不断增大数据量, 促使不同阶段及不同机器承受更多的工作量, 其中涉及初始及中间多种数据。如果单独机器无法对数据量进行保存时, 这部分数据就会在磁盘中存放, 则处理过程中就需要将其从磁盘处向内存中移动, 并通过多次才能够实现有效的处理。如果应用了不同的磁盘组织手段, 数据与内存之间进行传递的过程中就应当拥有小于100MB/s的速度。如果只有1MB的数据集规模, 这一现象是可以顺利进行的, 一旦数据集规模较大时, 将会存在一定的访问问题。在这种情况下对时间成本函数进行构建就要对成分I/O在模型中的体现进行考虑。
机器数:大数据任务内, 输入数据规模常常大于机器数很多, 在这种情况下, 如果n3个机器在数据处理中被应用, 其中n的规模为web, 则该任务不可实现。本文在计算的过程中将n作为机器数, 将w作为输入数据规模。则二者之间的关系是二线性, 同时, O (w) 大于n。
2.2 扩展性证明
ISO-efficiency Function即等效率函数, 在并行计算过程中, 评测其扩展性的过程中对其进行了充分的应用, s作为加速比, E作为效率, 都与其拥有较大的关联性。例如, 如果大数据任务可以有效应用P-DOT并行计算模型进行表达, 则φn作为并行执行时间能够对n个机器节点的任务时间进行表达, 单个机器节点中的时间可以应用φ1表示, 此时为串行状态, 输入w这一数据规模, 则能够对串行状态下的工作量进行表达, 其中w等于φ1。同时, 如果一个大数据任务可以应用P-DOT并行计算模型进行表达, 同时S为记加速比, 它能够表达任务执行时间被并行性所改变的范围, 即S=φ1/φn=w/φn。E为效率, 机器节点被任务利用的状况可以用其显示, 即E=S/n=w/ (n×φn) 。在这种情况下, w=f (n) 这一等效率函数应当存在于E这一任务效率不变的状况下, 研究w这一数据输入规模在n的变化下而变化的状况。
同时, 如果一个大数据任务可以应用P-DOT并行计算模型进行表达, 等效率函数在该任务当中的表达形式为w=O (n2) , 其中输入函数规模为w, 机器数为n。
由以上定理可知, φ=O (w/n+n) ×p为时间成本函数, P-DOT并行计算模型的等效函数可以用以下公式进行表达:
3 P-DOT模型性能优化方法
3.1 数据层优化方法
容错性的基础是数据备份, 有效预防数据丢失产生于失误操作及故障当中, 因此可以复制文件系统内的相关数据。通常, 系统会制作3个以上的重要数据及其备份, 同时会将其放置于不同的位置, 这样一来, 在日后使用的过程中就能够有效的回存。例如, 开源项目Apache Hadoop, 3是其数据默认复本数, 同时其相关的复本布局默认策略为:首先, 一样的数据块产生的一个复本将被一个数据节点保存;其次, 充足的机架产生于集群当中时, 同一数据块的2个复本可以在逐个机架中保存。因此, 不同数据节点可以分散地对数据复本进行储存。
由上可知, 如果一个大数据任务可以应用P-DOT并行计算模型进行表达, n为该任务中的机器数, r为记数据复本数, 数据节点r个会对数据复本进行分散存储VDij, 其中i的取值为大于等于1同时小于等于n, j的取值为大于等于1同时小于等于mi, Dst=Dij为r-1个不同节点上的数据块, 其中s与i的取值不等, 同时t为大于等于1并小于等于ms。
由上可知, 在不同的作业当中, R为数据集, 其值属于D范围, n个数据节点中能够分散保持数据块, 则数据同步加载可在n个节点中以并行访问的方式进行, 其中n为I/O访存加速比的最大取值。然而在应用过程中, 同一数据块的唯一复本是不同节点保存的基础, 因此r个数据节点可以对R数据块进行分散保存, 由此可知, r为I/O访存加速比的最小取值。
3.2 计算层优化方法
在工业不断进步的过程中, 对P-DOT并行计算模型计算层的优化被广泛关注。不断发展的多核技术, 众核GPU在NVIDIA中的体现等, 都促使计算密度和并行处理功能提升。我国传统的并行计算过程中, 性能的提高通过纵向资源计算越来越重要, 这一过程中需要对多核硬件资源进行充分利用。在这种情况下, 单机计算性能需要通过多核间线程级并行来促使大数据任务得以加速。
如果一个大数据任务可以应用P-DOT并行计算模型进行表达, T为该任务在执行过程中的通信层, 将其以2个层次进行展现, 则进程级通信在不同机器节点中的体现应用Tprocess来表达, 不同核间的线程级通信可以应用同一机器节点中的Tthread进行表达, 由此可以得出Ttop=TthreadTprocess, 该公式在应用过程中能够对通信先后顺序进行展现, 及节点内通信应当首先进行, 同时节点间的通信应当后进行。因此, 由于进程间的通信要远远大于线程间的通信, 即O (c) <O (n) , 因此在重发应用多核技术的过程中, 不仅能够促使通信开销始终保持不变, 还能够促使计算性能在任务当中得以提升。
4 结语
在信息技术飞速发展并被广泛应用于各个领域的过程中, 各国在经济建设及社会发展中产生了海量数据, 大数据时代的到来及不断发展, 促使人们在日常工作过程中逐渐转变并行计算模型。现阶段, P-DOT并行计算模型的产生及有效应用, 提高了数据处理的质量和效率, 是科学和信息技术进步的一个重要标志。在这种情况下, 加强面向大数据处理的P-DOT并行计算模型及性能优化的研究具有重要意义。
参考文献
[1]杨靖宇.摄影测量数据GPU并行处理若干关键技术研究[D].郑州:中国人民解放军信息工程大学, 2011.
[2]吕海.多核处理器芯片计算平台中并行程序性能优化的研究[D].北京:北京工业大学, 2012.
[3]王强.异构环境下的航空遥感影像协同存储及处理关键技术研究[D].武汉:武汉大学, 2011.
[4]陈鹏.面向大数据应用的异构可重构平台关键技术研究[D].合肥:中国科学技术大学, 2015.
[5]徐金波.面向目标检测识别应用的算法加速器体系结构研究[D].长沙:国防科学技术大学, 2009.
[6]杨晓亮.Map Reduce并行计算应用案例及其执行框架性能优化研究[D].南京:南京大学, 2012.
大数据推荐数据模型 篇10
关键词:堡垒,分布式,入侵检测
随着互联网的普及应用,人民的工作、生活变得越来越方便,但安全问题日益突出,黑客攻击和网络犯罪层出不穷[1]。为了保护信息系统,人们已经提出了多种信息安全防御机制,比如数据加密、用户识别,数字签名、防火墙和虚拟专用网等[1]。在开放的网络环境下,科研人员总想构建完全理想的安全系统,通过掌握系统安全的核心问题建立系统安全模型,构建相对安全的网络系统。
入侵检测则是指在系统发生不安全情况时提前给予信号提示,但是如何在入侵攻击前就掌握入侵信息,这就应该采取积极主动的入侵检测和响应措施,并且需要进行大量的信息分析。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理[2]。基于大数据分析原理进行入侵检测,通过数据收集模块进行数据收集,然后由分析模块进行分析以判断是否入侵;由于分析模块存于中央节点中,这样导致中央节点负荷运转。层次化协同检测是把分析模块分散到异地节点,可以解决单点负荷过大的问题,但同时也出现过于分散的处理会对系统与主机性能造成严重影响[3]。
1 相关理论概念介绍
1.1 否定选择算法
Forrest等人于1994年提出了否定选择算法模型,该算法的思想模拟免疫系统以能识别自我各并且能进行免疫选择性,这种选择性非自我的,而且还可以应用到入侵检测领域中来[3]。否定选择算法包含两个阶段:检测器生成和检测两个阶段。其主要包括:
(1)系统正常状态定义为体集S;
(2)随机生成候选检测器;
(3)首先判断候检测器和自体集匹配,为真则删除该检测器,否则,该检测器加入成熟检测器集合;
(4)重复(2)和(3),直到成熟检测器集合的产生;
(5)通过检测对新数据进行匹配,当新数据与任何一个检测器匹配就认为是异常数据。
1.2 连续位匹配算法
定理1 M为符表集,设x,y为任意两个字符串集合,对于存在了串s,s⊆x且s⊆y,则认为两个字符串(x,y)是相互匹配的。
两个固定长度的二进制(x,d),x为抗原,d为抗体,m为匹配,则匹配算法为:
1.3 DMZ概述
DMZ是英文“demilitarized zone”的缩写,中文名称为“隔离区”,也称“非军事化区”。DMZ的主要功能是将向外提供服务的服务器设置在单独的网段,而此股务器是在内网中。
对于入侵者来说,入侵到主机的主要目的是控制重要资源,所以千方百计搜索目的主机里脆弱程序和系统漏洞以达到其入侵目的主机,从而获取未经授权的资源,从而导致系统的巨大损失或完全崩溃。对于防御者来说,在入侵者实施入侵前能发现其入侵行为是最理想方法,也就是说入侵者入侵时对于系统来说总有一些痕迹留下,防御者通过构建能识别这些微小痕迹从而发出警报,对于系统就是能松松建立了防御区,这样就有足够的时间把入侵者在入侵时被引导入侵区,在网络系统受到危害之前拦击和响应[4]。
利用DMZ思想来构建一个“脏”的边界区,可以把一些修改过的假资料或者一些加密资载入此区,构建一道安全防线[4]。当有入侵者入侵系统时,会首先入侵到“脏”的边界区,在这里就可以进入入侵检测并且响应了。
1.4 大数据分析
系统在运行过程中随时会产生或接收到一些实时数据,这些历史数据经过分析会包含一些规律。目前大数据分析含有五个方面网容:可视化分析、数据挖掘算法、预测性分析能力、语义引擎、数据质量和数据管理。入侵检测系统利用大数据经过分析含有规律的特征,可以利用这些特征据分析技术标准化的数据,根据提取的特征值完成高质量的分析结果。
某一入侵行为的发生y,必定有数据特征(x1,x2,…,xn)那么y与n个数据具有相关性。根据此相关性,安全系统在下一次检测是否有这些特征值,从而判断是否有入侵。所以通过大数据分析寻求不安全特征数据是入侵检测成功的重要因素。
设pt为保护时间,dt为检测时间,rt为响应时间,xt为大数据分析时间,如果要满足条件:
Xt<dt;
Pt<Dt+Rt;
则系统是安全的。
2 基于大数据分析的入侵检测模型
基于大数据分析的入侵检测系统,一方面要主动策略,入侵行为的特征值提前分析入侵行为,另一方面是被动防御策略,利用Dmz(非军事区)构建一个防御区,DMZ本是一种防火墙结构,但是如果按照传统构建技术部署,哪么对于个人利用来说几乎不可能,因为构建系统复杂成本高。如果利用软件技术构建一个DMZ这个区,当入侵行为发生时,尽可能让入侵行为发生在该区,利用大数据分析入侵行为特征,可以有足够时间发现有否违反安全策略的行为和被攻击的迹象,因为一旦“脏”区被入侵就可快速检测入侵行为,可以通过安全策略进行防御,这一思想弥补了防火墙等传统防御技术的不足。
2.1 系统模型框架
基于大数据分析的入侵检测系统模型是在通用入侵检测系统基础加上大数据分析构成,而且利用DMZ非军事区构建更安全的检测系统。模型框架如图1所示:
图1是在简单的IDS(入侵检测)图的基础上加入两个模块,事件数据库连接有大数据分析功能器,响应单元连接到DMZ区,通过这两个功能完成防御型的入侵检测。
图1包含通用的IDS(入侵检测)中心由事件发生器、事件分析器和响应单元组成。在简单的IDS(入侵检测)图的基础上加入两个模块,事件数据库连接有大数据分析功能器,响应单元连接到DMZ区。简单通用IDS能根据组件信息判断入侵行为,事件发生器指对发生过的入侵行为的数据进行接收,根据事件数据库对数据进行分析,对于那些怀疑的数据因为不能全匹配而加以检测,而且在当前云存储中的入侵行为要求共享入侵数据特征。系统工作区主要是存放经验数据,经过对经验数据进行分析作为下一次的检测引擎数据。DMZ区主要是对哪些可疑的访问做一次缓冲访问,在系统中构建一个脏的数据区,就算是入侵行为发生,那么危害也会大大降低。
2.2 入侵检测模型框架和功能模块功能
2.2.1 事件发生器
事件发生器指的是在收集到大量的网络数据后,能够根据固有的数据规则构建特有格式的数据,这种有固定格式的数据要进行大量分析,因为没有经过处理的数据是很难进行分析的。处理数据要遵循通用入侵规范语言,根据规范完成网络流量和粒度的转换工作,而且所有的数据都要进行格式转换。数据格式为:目的IP地址、源IP地址、目的端口号、持续时间、协议和源端口号。包中提取并转化为112比特的数据。
2.2.2 事件分析器
事件分析器在安全系统模型里很重要,通过事件分析器可以判断入侵行为的有无。总体上来说,事件分析器要完成的工作主要有:通过对数据的分析与处理过程达到数据审计;通过对运行系统的活动状态进行监视,在最短时间发现任何损害或企图损害系统保密性、完整性和可用性的非法行为。对于事件分析器,如果分析时间大于响应时间(Xt<dt,Pt<Dt+Rt),那么事件分析则是无意的。事件分析器包含检测器集和规则集两个子模块。
(1)检测器集
IDS传输的预警信号传入检测器,表示有某类入侵行为可能发生。如果检测器与接收数据包匹配,则生成相应消息并上报给主机处理,可以启动相应防御策略[5]。系统开始运行后,检测器中检测器生存时间开始计时,每当检测器成功与网络数据匹配时,检测器生存时间重置为初始值。当某一检测器在生存时间内没有有效检测入侵时,则由调度器将其删除。
(2)规则集
规则库主要是存放历史入侵后的数据组合,历史入侵是一种知识学习,比如互联网某主机受到攻击,那么就存在一起数据,以其解决思路的匹配算法。如果存在入侵行为,而这种入侵行的解决办法存在于规则集中,适时调用就可以解决了。
2.2.3 DMZ区域
为了能延长响应时间,设置一个DMZ区域就很重要,作为DMZ区域,故意设置成不安全性,但入侵者如果发现入侵没有达到目标,那么就有可能进行分析然后发动对主机的入侵,所以事件分析器要通过提取行为模式特征来分析判断该行为的性质,按照预定策略实施响应,这样就使主机行使防御策略。
2.2.4 事件数据库
由于真实网络环境中入侵数据所占比例很小,如果细分到不同的攻击类型,每一类的数量相对于正常数据量无疑是很小的,因此如果直接利用传统的“一步走”方法,用聚类算法将网络数据划分为正常数据和各种不同的攻击类型数据是很困难的,检测性能无法达到要求。针对这个问题,本文提出一种新的“两步走”分类方法:第一步:运用聚类算法将实验数据集划分为正常类型和入侵类型两类;第二步:将第一步中得到的入侵数据分离出来构成入侵数据集。
3 实验分析
根据提出的模型构建一个局域网络系统,系统模拟入侵环境进行针对性的实验,首先从基于大数据分析的堡垒思想入侵检测系统中取正常样本值2000,该样本进行随机选样,采用随机数指定方法进行测量。然后从基于传统思想的入侵检测系统的数据集抽样2000个进行比入侵检测比较。两个系统的样本值的先择基本根据统本规律进行,两种数据呈正态分布。两种算法在不同维度下的检测效果,检测率和误报率如图2所示。在图2中,评价检测率和误报率用ROC来衡量。目前国际上广泛采用接收机操作特性(Receiver operatin characteristic,ROC)曲线方法来评估IDS的检测率和误报率,在入侵检测评估中使用ROC曲线,能够客观反映出检测率和误报率之间的制约关系。
图2中给出的ROC曲线可以看出,当检测率低于0.9的情况,基于大数据分析的入侵检测模型(绿色)相对传统系统的检测系统没有什么优势,但当检测超过0.9时ROC曲线靠近坐标系的左上角,表示基于堡垒思想IDS的检测率和误报率好。
4 结语
本文将DMZ思想、大数据分析知识与入侵检测结合起来,提出了一种基于大数据分析的堡垒思想入侵检测模型,就是在系统中建立一个脆弱区,脆弱区里基本上没有任何有价值的数据,当入侵者入侵时也只是入侵这个区域。进而保护了主机。通过构建局域网对所提出的模型进行验证,基于大数据分析的堡垒思想入侵检测模型相对传统的系统模型有一定的优势。
参考文献
[1]雷利香.计算机数据库的入侵检测技术探析[J].科技传播,2011(14):202-203.
[2]秋瑜.计算机数据库入侵检测技术分析研究[J].硅谷,2012(6):79.
[3]白媛.分布式网络入侵检测防御关键技术研究[D].北京:北京邮电大学,2010.
[4]伍媛媛,曾爱国.基于人工免疫分类器的入侵检测方法[J].智能计算机与应用,2013,3(1):75-78.