数据挖掘数据存储

关键词: 数据挖掘 引言 数据 应用

数据挖掘数据存储(精选十篇)

数据挖掘数据存储 篇1

随着大数据时代的到来,移动互联网、社交网络,云计算等应用技术的发展越来越成熟,对数据中心的要求也越来越高,存储基础的架构也越来越重要。被誉为“大数据商业应用第一人”的维克托·迈尔·舍恩伯格指出:大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型。

在大数据时代,人们能随时随地记录和保存自己的历史,记录和保存的方式各式各样,产生的数据诸如文字、语音、照片、视频、消费记录、搜索记录等。个人拥有的数据量与日俱增,传统硬盘已经无法满足需求,云存储技术的出现,缓解了存储压力,符合大数据时代的发展需要。随着数据量的与日俱增,如何在大数据环境下方便、安全地存储信息就成了人们亟需解决的问题。

2 云存储概念

云存储是在云计算概念上延伸和衍生发展出来的一个新的概念。云计算是分布式处理、并行处理和网格计算的发展,是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经计算分析之后将处理结果回传给用户。通过云计算技术,网络服务提供者可以在数秒之内,处理数以千万计甚至亿计的信息,达到和“超级计算机”同样强大的网络服务功能。

云存储的概念与云计算类似, 它是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量的、不同类型的存储设备通过应用软件集合起来协同工作, 共同对外提供数据存储和业务访问功能的一个系统。云存储可分为三类。

2.1 公共云存储

像亚马逊公司和Nutanix公司提供的存储服务一样,它们可以低成本提供大量的文件存储。供应商可以保持每个客户的存储、应用都是独立的、私有的。其中以Dropbox为代表的个人云存储服务是公共云存储发展较为突出的代表,国内比较突出的代表的有搜狐企业网盘、百度云盘、乐视云盘、金山快盘、坚果云、酷盘、115网盘、华为网盘、360云盘、新浪微盘、腾讯微云等。公共云存储可以划出一部分用作私有云存储。一个公司可以拥有或控制基础架构,以及应用的部署,私有云存储可以部署在企业数据中心或相同地点的设施上。

2.2 内部云存储

这种云存储和私有云存储比较类似,唯一的不同点是它仍然位于企业防火墙内部,可以提供私有云的平台有Eucalyptus、3A Cloud、Minicloud安全办公私有云、联想网盘等。

2.3 混合云存储

这种云存储把公共云和私有云、内部云结合在一起,主要用于按客户要求的访问, 特别是需要临时配置容量的时候。从公共云上划出一部分容量配置一种私有或内部云可以帮助公司面对迅速增长的负载波动或高峰。

3 云存储系统结构模型及关键技术

3.1 云存储系统结构模型

(1)存储层。存储层是云存储最基础的部分。存储设备可以是FC光纤通道存储设备, 可以是NAS和iSCSI等IP存储设备, 也可以是SCSI或SAS等DAS存储设备。云存储中的存储设备往往数量庞大且分布多不同地域,彼此之间通过广域网、互联网或者FC光纤通道网络连接在一起。

(2)基础管理。基础管理层是云存储最核心的部分 ,也是云存储中最难以实现的部分。基础管理层通过集群、分布式文件系统和网格计算等技术,实现云存储中多个存储设备之间的协同工作,使多个的存储设备可以对外提供同一种服务,并提供更大更强更好的数据访问性能。

(3)应用接口。应用接口层是云存储最灵活多变的部分。不同的云存储运营单位可以根据实际业务类型,开发不同的应用服务接口,提供不同的应用服务。

(4)访问层。任何一个授权用户都可以通过标准的公用应用接口来登录云存储系统,享受云存储服务。云存储运营单位不同,云存储提供的访问类型和访问手段也不同。

3.2 云存储关键技术

(1)存储虚拟化技术。存储虚拟化技术是云存储的核心技术。通过存储虚拟化方法,把不同厂商、不同型号、不同通信技术、不同类型的存储设备的互联起来,将系统中各种异构的存储设备映射为一个统一的存储资源池。

(2)重复数据删除技术。随着数据中重复数据的数据量不断增加,会导致重复的数据占用更多的空间。重复数据删除技术一种非常高级的数据缩减技术,其目的是减少存储系统中使用的存储容量,增大可用的存储空间,增加网络传输中的有效数据量。

(3)分布式存储技术。分布式存储是通过网络使用服务商提供的各个存储设备上的存储空间,并将这些分散的存储资源构成一个虚拟的存储设备,数据分散的存储在各个存储设备上。它所涉及的主要技术有网络存储技术、分布式文件系统和网格存储技术等,利用这些技术实现云存储中不同存储设备、不同应用、不同服务的协同工作。

(4)数据备份技术。在以数据为中心的时代,数据的重要性无可置否,如何保护数据是一个永恒的话题,即便是现在的云存储发展时代,数据备份技术也非常重要。数据备份技术是将数据本身或者其中的部分在某一时间的状态以特定的格式保存下来,以备原数据出现错误、被误删除、恶意加密等各种原因不可用时,可快速准确的将数据进行恢复的技术。数据备份是容灾的基础,是为防止突发事故而采取的一种数据保护措施, 根本目的是数据资源重新利用和保护,核心的工作是数据恢复。

(5)内容分发网络技术。内容分发网络是一种新型网络构建模式,主要是针对现有的Internet进行改造。基本思想是尽量避开互联网上由于网络带宽小、网点分布不均、用户访问量大等影响数据传输速度和稳定性的弊端,使数据传输的更快、更稳定。

(6)存储加密技术。存储加密是指当数据从前端服务器输出, 或在写进存储设备之前通过系统为数据加密,以保证存放在存储设备上的数据只有授权用户才能读取。目前云存储中常用的存储加密技术有全盘加密、卷加密、文件目录加密等。

4 云存储数据安全状况分析

大数据环境下,随着云存储的日渐流行,各种云存储服务和产品层出不穷,服务商之间竞争激烈。大部分服务商通过存储容量、服务性能、服务价格等方面的优势来争取更多的用户, 而在数据保密性方面考虑较少。对用户来说,将数据存储在云中,最担心的一点便是失去对自己最私有、最保密数据的控制,SONY数据外漏事件影响到的用户高达1亿,业界对云存储的安全状况提出了很大的担忧。

云存储安全, 根本的目标是保证存储数据的安全,即数据的保密性、完整性和可用性;涉及的过程有数据生成、传输、保存、访问。这其中,既包括传统的信息安全、存储加密等技术,又包括云存储的特殊性带来的安全问题和技术。如何有效地分析云存储的安全性,怎样的模型,能够既覆盖云存储各方面的安全性问题,又不过多使用安全技术,而且使之有机结合,从而保证云存储的安全和完整统一,是我们面临的一个难题。

目前具有代表性的主流云存储平台,解决了大部分的安全性问题,只是在数据保密性方面关注较少。例如,亚马逊的云平台提供了一系列强大的云服务,但是文件存储服务和数据库存储服务并不提供对数据的加密;华为网盘提供了面向文件的数据存储服务,并有着强大的数据同步和数据共享功能, 但是不支持数据的加密 ;Hadoop中的HDFS和HBase提供了开源的云存储解决方案,但是不支持对数据的加密。云存储数据不加密会带来很大的安全隐患,一旦云存储平台被攻破,数以万计的用户和企业的数据将被泄露,云存储服务提供商和用户的利益都将遭受巨大的损失。

5 云存储数据安全策略

大数据环境下云存储所面临的数据安全问题,可以通过多种安全策略来提高云存储的数据安全。

5.1 多副本策略

多副本策略主要是为了保障不发生由于硬件故障而引起的数据丢失。通过利用物理存储资源对数据进行备份,在云环境下多副本管理主要是依托于现在新型的云存储技术。如果某一个硬件机器失效,那么存储在该台机器上的数据是无法访问的,为了防止数据的丢失和为保证数据安全性,就可以采取多副本策略。

5.2 密钥策略

为了避免敏感数据不被恶意用户轻易拿到,除了对数据的存取和访问做到严格的限制以外,还需要对其进行加密,加密提供了资源保护功能,同时密钥管理则提供了对受保护资源的访问控制,所以加密及密钥管理是一种保护数据的核心机制。

5.3 数据的差异性保存

云存储还未出来前,数据都是存储在自己私有的服务器中,为了数据的安全性,根据数据的重要性划分其保护级别,这样数据的保密等级就是必不可少的。同样这种策略也可以运用到云存储上面,将关键重要的数据由用户自己保存,剩下的通用型数据存放在云上,这样安全性和实用性都能得以实现。

5.4 数据传输安全

在数据传输安全上可以选择在数据传输物理链路上做好屏蔽保护,可采用光纤传输。在公网上数据传输,采用专线或VPN技术。对数据进行加密传输,如多模加密技术, 采用对称算法和非对称算法相结合的技术,在确保了数据本源得到高质量加密防护的同时,其多模的特性能让用户自主地选择加密模式,从而能更灵活地应对多重的安全威胁。

6 结束语

大数据环境下,云计算的数据存储和应用方式是跨地域甚至是跨国界的。在云存储方面,数据安全仍是要亟需解决的首要问题, 本文基于云存储的数据存储模型,通过关键技术的分析,提出了一种可行的数据存储安全策略。本文只是从技术角度对云存储所面临的一些问题进行了分析,在大数据环境下,要想真正的解决云存储的安全问题, 需要进一步研究云存储安全技术,真正做到数据在云中的存储安全。

摘要:随着大数据时代的到来,云存储所面临的数据安全问题日益凸显。文章首先介绍了云计算和云存储,从云存储系统的结构模型、关键技术进行分析,结合当前云存储数据安全所面临的问题,从技术角度提出了云存储数据安全的几点安全策略。

数据挖掘数据存储 篇2

我们在欧洲的一项主营业务是为企业客户提供数据汇总,清洗,分析,挖掘,最后生成报表呈现给客户。用的工具有Oracle ODI, SAP BO, Talend,etc.

通常情况下,会将客户的数据提炼汇总到一台数据库服务器上,数据库类型SQL Server 或是 Oracle视客户需求而定.问题是对客户而言,需要购买数据库,需要管理和维护数据库,这无形增加了很大的成本!尤其是在欧洲,需要人工来维护的部分,比如数据库备份恢复,数据库用户以及权限管理等,成本比较大!我们如何能够建立一个云,一次性安装一台数据库服务器,配发给足够多的licence,能够提供数据库存储备份服务,能够通过客户端远程链接数据库,快速上传和下载数据?首先是可行否?其次是有没有这方面的公司能够提供相应的产品和可靠的服务?

[如何结合云存储来做数据分析和数据挖掘?]

存储激活大数据 篇3

在当今的数字时代,IT技术的进步,完全改变了信息传播和保存的形式。同时,信息数据量的产生速度令人咋舌。来自IDC的数据显示,全球的数据产生量仅在2011就达到1.8ZB(或1.8万亿GB),相当于每个美国人每分钟写3条Twitter信息,总共写2.6976万年。而在未来10年中,用于存储数据的全球服务器总量还将增长10倍。IDC预计,到2020年,全球数据总量将比2011年增长50倍。在这其中,文件、电子邮件和视频等非结构化信息约占未来10年数据产生量的90%。

数据存储——信息的基石

数据爆炸,这是我们在近10年耳熟能详的词汇。如今,这种爆炸无时无刻不在发生着。在当前云计算技术和大数据应用的推动下,数据爆炸的威力之大可以说有过之而无不及。

其实,我们完全可以认为,在这个信息化时代,信息存储基本上已经取代了书籍、磁带、CD、日记本等传统信息载体。在一块手掌般大小的硬盘里,我们可以存放下任何信息。也正因此,人们对于数字信息存储的热情和关注与日俱增。

随着信息化应用的迅速普及和深入,数据变得举足轻重,企业的数据中心因此成为最为关键的IT基础设施,尤其是近年来,云计算和大数据潮流兴起和不断升温,IT基础架构在其中发挥的作用愈发显得重要。

计世传媒总裁万鹏远在12月4日举办的“创建云架构,魅力大数据”Storage Network World 2012中国大会(下文简称“SNW 2012中国大会”)上特别介绍了云计算与大数据对信息产业的推动作用。他认为,传统的IT基础架构已经很难适应新的需求和发展趋势,行业用户急需灵活、可扩展、高效以及可高用的IT系统。同时,由于IT预算带来的压力,降低成本也成为用户不得不面对的问题。

“正因为如此,新的技术和新的产品、解决方案不断地出现,使我们这一个市场充满了活力。”万鹏远在SNW 2012中国大会致辞中表示。

大数据,大价值

全球网络存储工业协会(SNIA)主席Wayne M. Adams在本次SNW 2012中国大会上认为,数字信息量每年都要增长一倍,因此,这对企业和组织都提出了挑战。他表示,云计算已经成为IT发展的趋势。无论是企业数据还是个人数据,我们都需要找到合适的服务商进行托管和存储。“从这个角度来看,存储服务已经贯穿了软件及服务平台,以及基础架构和服务,成为了信息化进程中的主要架构。如何增加我们的存储速度、增加存储的吞吐量,这都反映了人们对未来云架构的预期。”Wayne表示。

为了迎接云计算所带来的变化,SNIA开发推广了云数据管理接口(CDMI),并对非易失性存储器(NVM)、绿色存储等热点技术进行多年的持续跟踪。Wayne认为,信息存储的作用远远超过了其自身的价值:“如今,基于数据,我们已经可以看到整个业界的变化。”

大数据给世界带来的变化是什么?在EMC全球服务部/大中华区技术支持部总经理梁放题为“创新唯变,IT+业务+您”的主题演讲中,他举了很多相关的行业例子:

金融行业——消费者用信用卡在咖啡店买了一杯咖啡。随后,这位消费者就会收到一条短信,短信中会向消费者介绍附近有哪些电影院、图书馆。银行利用信息化技术实行的这种精准定向营销方式,可以为银行带来更多的客户、更多的营业额。

电信行业——利用大数据,移动运营商可以对用户进行精准的广告投放,鼓励用户更多地使用运营商的数据业务,使客户的忠诚度得到提高。

能源行业——能源公司可以通过大数据的方式准确定位能源在哪里、储量是多少。一些能源企业甚至可以给客户提供智能的账单。

保险行业——保险公司会在汽车上装置一个传感器,其可以记录驾驶员的驾驶习惯,比如驾驶者是否经常开快车、是否会在危险路段进行危险的驾驶方式。传感器所收集到的结果可能会影响到驾驶员下一年的保险额。

梁放认为,云计算已经完全改变了IT,大数据也改变了用户的业务模式。而业务模式的变化,又会影响到世界上每一个人。“所以,在云计算和大数据时代,最大的变化是人。”他表示。

存储的未来会怎样?

每一年,HDS(日立数据系统)首席技术官Hu Yoshida都会发表其对未来存储行业趋势的预测。这些具有绝对前瞻性的预测已经成为存储行业的风向标。

今年,Hu Yoshida原本预计会在SNW 2012中国大会上,全球首次发布其《2013年存储行业十大发展趋势预测》。不过,由于飞机航班临时取消,他没能亲临本次大会。作为同样在存储行业进行了多年研究工作的资深人士,HDS中国区解决方案与专业服务业务总监陈戈代表Hu Yoshida,在SNW 2012中国大会上对2013存储行业发展做出了展望,其中包括:OPEX和CAPEX显著变化;新型消费模式;管理数据复制的爆炸性增长;企业级闪存控制器将出现;入门级企业存储系统的新需求;基于对象的文件系统的必要性;促进数据归档和数据共享内容平台的使用;满足日益复杂工作负荷的硬件辅助控制器;为更多移动设备的接入创建一个安全的平台;更加紧密集成的融合解决方案。

ESG-Sino(中桥)总经理兼高级分析师王丛以“大数据分析和IT架构挑战”为题,对大数据与存储的关系进行了深入阐述。她表示,大数据为业务带来了三个挑战。首先,大数据拥有很大的数据子集,会导致传统数据库的处理能力出现问题;其次,大数据增加了业务的复杂性;第三,由于复杂度增加,因此拖延了报表提交的速度。因此,越来越多的企业开始关注数据进程和分析。

来自ESG的调查显示,在未来12到18个月内,有45%的受调查企业都会将改进数据进程和分析纳入到前5大IT举措中,甚至有18%的企业将其列为最重要的举措。对此,王丛认为,大数据将会继续成为2013年的热点话题之一。

在SNW 2012中国大会的日程中,最为引人注目的就是高峰对话环节。在这场题为“在大数据和云计算趋势下,存储面临的新挑战和新机遇”的观点争锋中,华为存储产品线营销总监杨传斌、戴尔中国有限公司企业解决方案高级经理要家宁、lmation(怡敏信)公司Vertical Solution Leader行业解决方案总监洪富生、北京科技大学网络中心主任杨扬以及惠普公司存储产品部销售经理于宗波,分别就未来存储行业的发展发表了自己的看法。

SNW与大数据一起成长

5年前,“大数据”对于我们还是一个陌生的词汇。而如今,这个词基本已经被所有IT从业人员挂在嘴边。是什么让其一夜之间风靡?SNIA技术专家、天云融创公司副总裁雷涛认为,存储介质价格下降、计算能力提高、带宽提升,以及各类消费设备的普及,构成了大数据现象。

“民主化大数据”,这是雷涛演讲的标题。从这个标题中我们就可以看出演讲者的思路。雷涛认为,大数据概念正在逐渐渗透到我们的生活中。“大数据不是做IT支撑,而更多的是面向业务驱动。其已经从IT的角色转向业务角色。”雷涛表示。无论是零售、证券,还是医疗行业,都在引入大数据概念。甚至于,收电费都同大数据脱不开干系。

这一概念如此深入人心,使得我们不禁要问:如何能够更加高效地对数据进行利用、再利用?Imation(怡敏信)公司Vertical Solution Leader行业解决方案总监洪福生在本次大会上带来了名为“激活大数据”的主题演讲。

洪福生表示,尽管目前还没有太多人在应用云计算服务,不过,其确实已经成为一个趋势。 如今,lmation所有产品都已经实现与云计算和云服务的绑定,不仅可以帮助用户将数据迁移到云服务上,而且可以进行安全的数据销毁。

“我们是以客户的角度去做我们产品的步骤和方案的规划。我们希望能够提供给客户最有效的方案,这是Imation要做的。”洪福生表示。

在下午的演讲中,来自EMC、惠普、CommVault以及Nutanix的演讲嘉宾,分别介绍了其对大数据、云计算以及数据存储的看法和市场观点。

同时,本届SNW 2012中国大会还将SNW大会在国外的特殊环节——存储课堂和动手实验室——引入国内。在存储课堂和动手实验室环节中,惠普企业服务事业部CTO 王纪奎、苏州捷泰科信息技术有限公司SSD产品部研发副总经理王旭光,以及天云融创公司的技术人员为现场听众进行了授课。

信息是IT发展的动力源泉。没有了信息和数据,人类社会的发展将会陷入停滞。而在今天,我们所做出的每一分努力,都是为了明天我们能够拥有更加美好的学习、工作和生活。“创建云架构,魅力大数据”,今年SNW 2012中国大会的这一主题,不仅带给了我们思考和启迪,同时也为我们展望了未来在信息技术支撑下的美好画卷。

浅谈大数据中心的数据存储问题 篇4

关键词:大数据存储,数据存储子系统,新型大数据存储技术

0前言

近年来, “大数据”产生速度越来越快, 其中隐藏着巨大的机会和价值, 使得它越来越为大众所熟知。毫无疑问, 大数据时代已经到来[1]。对于大数据的具体定义现在全世界还没有一个统一和确切的答案。不过一般认为比较权威和普遍的说法有三种, 从三个方面来进行定义:

(1) 属性定义:国际数据中心IDC在2011年的报告中定义了大数据[2]:大数据技术描述了一个技术和体系的新时代, 被设计于从大规模多样化的数据中通过高速捕获、发现和分析技术提取数据的价值。大数据有4个显著特点, 容量 (volume) 、多样性 (variety) 、速度 (velocity) 和价值 (value) , 简称为4Vs。

(2) 比较定义:2011年, Mc Kinsey公司的研究报告中将大数据定义为[3]:超过了典型数据库软件工具捕获、存储、管理和分析数据能力的数据集。

(3) 体系定义:美国国家标准和技术研究院NIST认为[4]:数据的容量、数据的获取速度或者数据的表示限制了使用传统关系方法对数据的分析处理能力, 需要使用水平扩展的机制以提高处理效率才称之为“大数据”。

总之, 不管是哪种定义, 大数据代表的是一种比现在所能储存数据量大得多的数据。这样巨量的数据如何存储是一个非常重要和核心的问题。

1 大数据中心数据类型

根据处理时间的需求不同, 大数据的分析处理可以分为两类:第一种为流式处理, 数据以流的方式到达, 大部分数据进行实时的处理, 只有小部分的流数据被保存在有限的内存中。第二种为批处理, 数据需要先存储后分析。而现在大部分的应用都是属于批处理的。流式处理所需的内存相对比较少, 所以这里我们只讨论批处理的数据储存问题。

大数据处理中心所储存的数据并不是关系数据库所存的结构型数据。而是前所未有的复杂异构数据。NIST认为它有五种属性[5]:容量、速度、多样性 (结构化、半结构化和无结构数据) 、水平扩展性 (合并能力) 和相关限制。

科学计算具有最小的属性值;商业数据源有较高的水平扩展性和相关限制需求;而网络领域的数据源具有较高的容量、速度和多样性特征[1]。

2 现有大数据存储技术

由于大数据异构的原因, 一般我们需要对数据进行预处理。比如:数据集成、数据清洗、消除冗余。进行这样的预处理后, 数据的集成度会更好, 数据出现错误的几率也会变低。不过由于数据的多样性, 我们没有办法对所有数据做统一的处理, 只能根据具体的数据性质来处理。这样也会造成有些数据预处理后效果很好, 但有些数据预处理却不能达到预想的效果。不管是能预处理好的数据还是不能处理好的数据, 我们都必须考虑如何存储这些数据。

我们把大数据中心的数据存储部分称为数据存储子系统, 这个子系统以适当的格式存放数据, 等待数据的分析和价值提取。存储子系统需要具备两个特征:硬件系统能持久、可靠的存储;有访问接口供用户查询和分析。

针对以上两个特征, 数据存储子系统应该分为两个主要部分, 一是硬件部分, 二是管理软件部分。现在存储硬件相对比较有限, 主要有RAM、磁盘阵列、非机械式存储媒体。这些硬件设备各自有自己的存储优势和劣势。RAM速度快, 但是断电数据就会丢失。磁盘阵列存储容量大, 但存储速度却较慢。非机械式存储运行延时小, 但成本相对高。人们也考虑将上述设备结合运用, 取各自优点。这样能够得到更大的空间和更快的存储速度。

由于存储介质的选择性比较少, 我们要扩大大数据中心存储的容量, 只能想办法构架更适合大数据存储的系统。

传统存储设备主要有三种系统:

第一种为DAS直联式存储, 显而易见这是不需要任何其他设备直接连接的方式。这种方式成本低、效率高;缺点而是容量小、不能共享。

第二种为NAS文件级的访问接口网络系统。这是可共享的网络多用户存储系统。

第三种为SAN块访问级的网络系统, 专门通过网络与大存储设备之间互连。

这三种系统基本都能提供TB级别的容量, 最多能达到几PB。不过对于大数据来说, 数据级别一般都是几PB或EB级。因此传统存储系统显然是不足以满足需要的。

现在的存储系统主流的有两种:分布式存储和云存储及其存储虚拟化。

分布式存储系统有一个著名的CAP理论:一个分布式系统不能同时达到一致性、可用性和分区容忍性。因此, 我们只能在这三者之间根据实际应用情况取舍。比较经典的是GFS (Google File System) 。GFS取了一致性和可用性, 弱化了分区容忍性。

云存储则云计算的思维的延伸, 通过运营商统一管理存储系统, 从而降低了成本, 解决了小企业存储大数据的问题。云存储通过一定的技术将网络中不同类型的存储设备协同工作, 共同对外提供数据存储和业务访问功能的一个系统。比较经典的有Dropbox提供商的基于AWS (Amazon Web Services) 的在线储存系统S3。

3 大数据存储新思路

大数据存储管理的主要问题有三个: (1) 大数据存储架构的选择问题:磁盘与主存速度的不匹配。 (2) 新型存储设备大数据管理算法的问题 (3) 大数据存储的硬件能耗大, 带来的沉重经济负担问题。

想要解决大数据中心存储我们必须从这么三个方面来考虑。

伴随新型存储介质的出现, 新型存储介质以多介质混合存储为主流。与此相应, 我们必须建立一种新的层次化的多介质存储体系。根据不同情况下、不同需求中, 数据的不同特性和不同存储介质的特性合理地分配存储空间, 从而实现海量存储、高性能以及低能耗的目标。当然要实现这一目标, 我们需要研究的问题还涉及多个方面的内容, 主要有多介质混合存储系统与一体化管理、存储器结构感知的数据管理技术以及大数据分布式协同存储技术等。

面向新型存储的大数据管理研究需要高效的系统核心算法。结合传统数据管理系统的现状, 我们还必须在索引、查询处理等方面集中进行研究。比如:基于新型存储的持久化算法、基于新型存储的可靠性保障方法、基于新型存储的索引算法、基于新型存储的查询执行算法、基于新型存储的查询优化算法等。

新型存储介质能耗相对更低, 设计能耗感知的大数据存储系统则能在此方面得到一定解决。这类技术主要考虑两个方面:一是进行DBMS能耗测试技术、能耗有效的查询处理;二是研究如何使存储大数据的设备和节点集群可以动态地切换电源状态, 以实现能耗与负载之间的匹配。比如:能耗查询优化技术、能耗节点体系结构、集群存储分配方法、面向集群的高能效缓冲区置换算法等。

4 结语

虽然大数据时代已经到来, 但大数据的很多应用尚未成熟。利用新型存储的独特性来解决大数据存储的关键问题是这一研究方向中的核心和要点。而对于大数据的数据存储问题还尚在初级阶段, 很多存储数据的方法还停留在理论阶段。而对于大数据来说, 存储问题是必须要解决的核心问题。大数据的非结构性特点有决定了它的存储面临的挑战。国外以及有大数据存储的提供运营商, 在我们中国才刚刚起步。如果能解决EB级数据甚至更大级别数据的存储, 就一定能大大促进大数据分析的发展。

参考文献

[1]李学龙, 龚海刚.大数据系统综述.中国科学:信息科学[J].2015.1:1-44.

[2]Gantz J, Reinsel D.Extracting value from chaos.IDC i View, 2011:1-12.

[3]Manyika J, Chui M, Brown B, et al.Big data:the next frontier for innovation, competition, and productivity.Mc Kinsey Global Institute, 2011.

[4]Laney D.3D Data Management:Controlling Data Volume, Velocity and Variety.Gartner, 2001.

iOS开发数据存储NSCoder 篇5

基础概念

NSCoding是一个protocol. 如果实现了NSCoding,需要实现其中的两个方法:

- (void)encodeWithCoder:(NSCoder *)aCoder;

- (id)initWithCoder:(NSCoder *)aDecoder; // NS_DESIGNATED_INITIALIZER

方法中的主要的参数就是NSCoder,它是archivie字节流的抽象类.可以将数据写入一个coder,也可以从coder中读取我们写入的数据. NSCoder是一个抽象类,不能直接使用它来创建对象. 但是可以通过其子类NSKeyedUnarchiver从字节流中读取数据,NSKeyedArchiver将对象写入到字节流。本文以书籍为例:

新建一个Book类,Book.h中的代码:

#import

#import

@interface Book : NSObject

@property (strong,nonatomic) UIImage *ConverPicture;

@property (strong,nonatomic) NSString *BookName;

@property (strong,nonatomic) NSString *Author;

@property (strong,nonatomic) NSNumber *Price;

@end

Book.m中实现NSCoding的两个方法,注意中UIImage的写法与其他有所不同:

@implementation Book

- (void)encodeWithCoder:(NSCoder *)aCoder{

//注意这里是存储的是JPG图片的调用

[aCoder encodeObject:UIImageJPEGRepresentation(self.ConverPicture,1.0)forKey:@“ConverPicture”];

[aCoder encodeObject:_BookName forKey:@“BookName”];

[aCoder encodeObject:_Author forKey:@“Author”];

[aCoder encodeObject:_Price forKey:@“Price”];

}

- (id)initWithCoder:(NSCoder *)aDecoder{

self.ConverPicture=[UIImage imageWithData:[aDecoder decodeObjectForKey:@“ConverPicture”]];

self.BookName=[aDecoder decodeObjectForKey:@“BookName”];

self.Author=[aDecoder decodeObjectForKey:@“Author”];

self.Price=[aDecoder decodeObjectForKey:@“Price”];

return self;

}

@end

Demo实现

正常的情况的不需要新建页面的,不过需要演示一下UIImage的效果,Main.storyboard中的布局:

稍微解释一下,前两个是存的单文件,后两个存的是多文件,UIImage展示存储的图片:

ViewController定义字段:

@property (strong,nonatomic) NSString *storagePath;

@property (strong,nonatomic) NSString *storageListPath;

@property (strong,nonatomic) NSMutableArray *bookList;

设置路径,如果不是很清晰,可参考本文之前的博客:

NSArray *codepath= NSSearchPathForDirectoriesInDomains(NSDocumentDirectory, NSUserDomainMask, YES);

_storagePath = [codepath[0] stringByAppendingPathComponent:@“book.plist”];

NSLog(@“%@”,NSHomeDirectory);

_storageListPath = [codepath[0] stringByAppendingPathComponent:@“booklist.plist”];

单个存档:

Book *book=[[Book alloc]init];

UIImage *image=[UIImage imageNamed:@“Code1.jpg”];

book.ConverPicture=image;

book.BookName=@“百年孤独”;

book.Author=@“加西亚.马尔克斯”;

book.Price=[[NSNumber alloc] initWithInteger:45];

if ([NSKeyedArchiver archiveRootObject:book toFile:_storagePath]) {

NSLog(@“数据存档成功”);

}

单个解压:

Book *decodeBook=[NSKeyedUnarchiver unarchiveObjectWithFile:_storagePath];

self.myImageView.image=decodeBook.ConverPicture;

NSLog(@“%@”,decodeBook.ConverPicture);

NSLog(@“%@”,decodeBook.BookName);

NSLog(@“解档成功”);

多个存档:

self.bookList=[NSMutableArray array];

for (NSInteger i=1; i<3; i++) {

Book *book=[[Book alloc]init];

NSString *imageName=[NSString stringWithFormat:@“Code%ld.jpg”,(long)i];

UIImage *image=[UIImage imageNamed:imageName];

book.ConverPicture=image;

book.BookName=[NSString stringWithFormat:@“百年孤独%ld”,(long)i];

book.Author=[NSString stringWithFormat:@“加西亚.马尔克斯%ld”,(long)i];

book.Price=[[NSNumber alloc] initWithInteger:45];

[self.bookList addObject:book];

}

if ([NSKeyedArchiver archiveRootObject:self.bookList toFile:_storageListPath]) {

NSLog(@“数据存档成功”);

}

多个解档:

self.bookList=[NSKeyedUnarchiver unarchiveObjectWithFile:_storageListPath];

Book *nextBook=self.bookList[1];

self.myImageView.image=nextBook.ConverPicture;

NSLog(@“解档成功”);

通过代码基本上发现其实存档和解压是非常简单的一个事情,不过事实这种方式缺点还是很明显的,以这种方式保存数据只能一次性归档保存以及一次性解压,

数据挖掘数据存储 篇6

目前,存储资源的使用方式正在发生新的变化——趋向网络化的存储和数据的地区性分散(这源于企业对业务连续性和数据共享的需要),要合并联网环境中的存储资源,原有的、基于某个层面的数据保护措施(像防火墙、网络防毒等)就难以应对了。怎么办呢?最近,我们采访了HDS公司首席安全官Art Edmonds,他指出,必须将存储与安全技术有机融合。

安全必备3利器

在过去,存储设备几乎无一例外地通过SCSI连接技术直接连接到服务器上。进入数据存储库只有一个途径:通过应用服务器。如果该服务器是安全的,那么数据也是安全的。但通过网络把存储资源连接起来改变了这种简单模式,它为访问共享资源上的数据提供了多条传输途径,进而带来多方面的安全隐患。用户应用时特别要小心。这里有3种方法可助您一臂之力。

利器1:慎重授权

为了方便管理,大多数网络单元(如交换机和阵列)都为用户提供了带外访问功能,管理员在更改网络配置及许可权时要分外小心,慎重授权,否则数据会丢失或被盗用。

利器2:专线传输

无论是为了数据共享、业务连续性,还是保护数据,用户应该考虑与数据地区分布有关的问题。出于客户支持和产品设计的目的,许多企业需要共享数据,于是通过网关连接SAN的概念日渐盛行。虽然某些安全措施内置在网关当中,但用户仍要注意:如果不使用专线,传输网络将不在自己保护范围之内。

由于提供相对廉价的数据复制功能,特别是美国9.11事件之后,远程复制技术开始流行。需要提醒用户的是,一定要保证传输期间所复制数据的安全。

利器3:加密数据

不管用哪种存储基础设施保护数据,因多半静态数据没有经过加密,故易受到攻击。虽然用户可以把数据备份到磁带上用于恢复,或者找个安全地方保管起来,但只要有人拿走了这盘磁带,或读取到磁带信息,他就等于拥有了数据。

有的备份方案提供了加密,但不是所有企业都在用这项功能。这归因于一系列问题:性能衰退、应用响应延时,还有数据备份、恢复和管理的高复杂度。

硬盘上的数据同样岌岌可危。许多用户认为:硬盘上的数据是安全的,因为应用程序在与客户机通信时会对数据进行加密,网络在传输期间也会对数据进行加密。但如果数据存放到网络应用的后端(存储端),这些几乎是相当原始的数据(除非企业像有些政府部门那样,采用程序对静态数据进行加密)很容易被别人获取(如撤走硬盘),并用合适工具就能读取硬盘上的数据。用户千万要注意静态数据问题,不管用哪种存储基础设施。

细数存储3隐患

1.SAN隐患

光纤通道SAN(Fabric SAN,又称FC SAN)主要部署在数据中心,在FC SAN上的存储资源往往是关键任务数据。也因此,安全一直是FC SAN关注的一个重要方面。通常,人们采用分区和LUN屏蔽技术,保护对存储资源的安全访问。问题是,这2种技术无法提供介质安全,也无法提供加密静态数据的功能。

(1)分区技术的安全漏洞

FC SAN结构包括磁盘阵列、交换机和主机总线适配器(HBA)等多个单元,这些单元允许主机通过光纤通道网络进行通信。分区能够把这些单元配置成几个逻辑组,确保只有该组成员才能通信及访问特定的存储资源。

常用的分区方法有2种:硬分区(Hard Zoning)和软分区(Soft Zoning)。硬分区能够按照端口级别来进行分组,譬如只有连接到某端口的主机适配器才能与连接到该端口的阵列进行通信。这种方法非常有效,但如果网络结构发生变化,需要重新配置时缺乏灵活性。

软分区通常叫做全局名(WWN)分区。光纤通道结构里面的每个单元都由WWN加以标识。WWN分区用交换机里面的简单名字服务器(SNS)来确定某个区中的哪个WWN可以进行通信。这种分区法比较灵活,因为如果重新配置网络,不必改变分区。不过,WWN容易被欺骗,所以安全性不如硬分区。

(2)LUN屏蔽的不足

光纤通道设备以逻辑单元号(LUN)的形式提供数据资源。LUN屏蔽是把某存储资源上的多个LUN分给特定服务器。当众多服务器共享同一存储资源(比如某磁盘阵列)、却因某种原因不允许用户访问该阵列上的同一磁盘时,需要用到屏蔽技术。举例说,网络上有一容量为1TB的磁盘阵列,由Unix和Windows NT服务器共享。因为Windows NT服务器会为它看到的任何LUN分配识别标号,所以就要屏蔽Unix LUN,让Windows NT服务器看不到。有了屏蔽机制,管理员就可以决定每台服务器可以访问哪些LUN。

屏蔽可通过主机、HBA、交换机或磁盘阵列来实现,具体取决于软件支持以及用户如何来管理屏蔽方法。HBA和基于控制器的屏蔽技术相结合,使用WWN和LUN信息,以确保安全访问(譬如说,只可以访问该阵列上带有该WWN名的某个LUN)。

从限定哪个节点可以访问哪些资源的角度来看,分区和LUN屏蔽技术确实提供了一层安全保护。然而,您应该看到:它们没有采用验证或授权措施。虽然许多交换机厂商提供有如口令控制、访问控制列表(ACL)及基于验证的公钥基础设施(PKI)的保护技术。但是,每家厂商的安全级别各不相同,如果同一结构里面的交换机来自多家厂商,实施安全的方法互不兼容,交换机设备的安全控制难以发挥作用。

2.iSCSI隐患

iSCSI的安全防范主要是通过利用IP网络安全技术来实现,尤其是IPSec。IPSec标准为IP网络上传输数据定义了多个级别的安全。iSCSI将会利用IPSec的重要标准,包括验证报头(AH),用来验证初始连接;因特网密钥交换(IKE),用于在连接期间可以不断进行相互验证;封装安全协议(ESP),用于对第4层及更高层的数据进行加密(iSCSI协议位于第4层)。但这一层保护只针对传输中的数据,加密功能并不作用于静态数据。

此外,IP网络上传输iSCSI数据包能够利用其他各种网络安全措施,譬如VPN和防火墙。不过,IP网络上传输的iSCSI数据包是重要信息,因为它里面有数据块的实际位置,所以应当考虑采用另外的安全措施。

3.NAS隐患

NAS方案和充当文件服务器的通用服务器之间有两大区别。首先,NAS设备是经过优化的文件服务器,性能高得多,数据存储容量也大得多,又不会带来任何传输瓶颈问题;其次,NAS能够实现不同文件的共享,这样Unix和Windows等就能共享同一数据。所以,虽然部署NAS根本不会改变网络基础设施,但大规模数据共享和各种访问机制更有可能将数据置于危险境地。

NAS方案的默认设置允许所有用户都可以访问各种资源。所以,管理员应当赶紧设置许可权、ACL及管理权限。管理员要注意一个重要方面:NAS服务器上的安全特性可能会由NAS设备上的操作系统来确定。譬如说,如果NAS方案使用基于Windows NT版本之一的软件,那么其安全类似于Windows NT服务器的安全。这些NAS设备允许Unix服务器访问数据。不过,管理员可能也需要使用本地Unix命令为Unix文件设置安全。另一方面,有些NAS方案能在本地同时支持NFS和CIFS文件许可权,所以要注意NAS方案将提供什么以及每台服务器上需要完成什么。

唾手可得3方案

在美国等市场,已经开始涌现相关存储安全技术,通过利用多种手段来保护数据。不过,这些方法有待改善,特别是在标准方面,只有产品标准化,用户应用才更方便。据悉,现在有多家标准组织和行业协会(如SNIA)在致力于加强存储安全。

近来,一些专注存储技术的公司开始推广存储安全解决方案,比如HDS,它的解决方案涉及从HBA到光纤交换机再到存储设备的端到端整体安全保护,并且作为SINA成员,其方案将率先遵循各种新推标准协议。另外,在存储安全市场,新增诸多新兴企业,并已开始交付各种存储安全方案,主要是加密方案。它们能够分析数据流量,加密数据,并把加密数据传送到存储资源上。由于其加密功能被集成在专用设备上,所以加密起来不会像基于软件的加密技术那样占用宝贵的CPU时间。此外,这类方案还提供了集中管理及实施保密策略的功能,可同时保护主/辅助存储资源上的数据(如下所示)。国内在这方面还没有成熟的方案推出。

方案1:NeoScale解决方案

NeoScale Systems公司提供面向磁盘主存储和磁带辅助存储2种加密方案:CryptoStor FC和CryptoStor for Tape。两者均符合FIPS 140-2(联邦信息保护标准)、基于加密/压缩、状态存储处理、智能卡验证实现基于角色的管理、密钥管理(密钥生成、保护、代管及恢复)及群集操作。与完全采用软件进行加密的方案不同,此2种方案不占用主机CPU资源。

(1)CryptoStor FC

基本功能:用于加密光纤存储设备(如图1所示),可以达到千兆位吞吐量,端口到端口的时延不超过100ms。

特色:基于策略的安全和数据通路透明。

部署位置:部署在主机端、光纤通道结构内部、磁盘阵列前面或者存储网关后面。

售价:3.5万美元以上

网址:http://www.cryptostor.com

(2)CryptoStor for Tape

基本功能:用于加密、验证和数据压缩磁带库和虚拟磁带系统中的数据,兼容主流备份应用软件,配备光纤通道和SCSI两种接口模式。如图2所示。

售价:1.5万美元以上

网址:http://www.neoscale.com

方案2:Decru解决方案

Decru公司的解决方案包括 DataFort E和DataFort FC两个系列,如图3所示。

基本功能:用于加密NAS、SAN、DAS和磁带备份等环境中的数据,速率达千兆位。

特色:(1)以透明方式加密及解密在网络存储设备来回传送的数据,主要是因为采用随机数生成器(TRNG)创建密钥,多密钥加密方法确保了密钥不会以明文形式传输。

(2)采用集成智能卡,提供另一层验证。智能卡确保只有授权的管理员才能配置及管理DataFort、授予数据访问权限。

(3)采用独特的分层方案,隔离开管理存储数据和读取存储数据。

部署:DataFort FC部署如图4所示。

特色:面向NAS环境的DataFort E440为3万美元;面向SAN环境的DataFort FC440售价为3.5万美元。

网址:http://www.decru.com

方案3:Vormetric解决方案

Vormetric的解决方案是CoreGuard Core Security。

基本功能:CoreGuard Core Security集成多种安全技术。首先,CoreGuard保护了主机的完整性,通过认证、授权技术,防止未经授权的应用、软件工具及操作/文件系统以及蠕虫、特洛伊木马、未授权补丁和被篡改代码运行及访问受保护数据;其次,使用行业标准算法AES和3DES,在文件—系统层面提供基于策略的高速数据加密功能。

部署:安装在被保护主机内。

售价:未知

网址:http://www.vormetric.com

上述方案都属于加密方案,由于它们主要针对网络存储中可能存在的众多安全漏洞,所以不需要等待标准机构批准。但是,性能、时延、透明度及与现有存储方法的集成度将是用户采用这类方案的决定性问题。

媒资存储新选择:海量光盘数据存储 篇7

海量光盘数据存储技术(Optical Disc Archive)基于成熟、稳定、可靠、安全、耐用的专业光盘技术,实现了海量光盘数据存储光盘与驱动器之间良好的代际兼容,而且在普通的环境中保存时间可以超过50年,其非接触式和非线性媒介的属性使文件检索的速度更快,为快速发展的电视台近线和离线海量数据存储提供了新的选择。

在展会期间,索尼中国专业系统集团节目制作市场部彭帅接受了本刊专访,详细为我们介绍了海量数据流光盘库存储系统的相关情况。

彭帅介绍说,目前电视台媒体资产管理系统使用的近线、离线存储介质主要是LTO数据流磁带,在实际使用中这些采用线性读写的LTO数据流磁带存在着一些固有的问题。

一是驱动器与磁带代际兼容性差。为增大数据存储密度LTO,驱动器和磁带每隔几年都会升级,但升级后的驱动器只能兼容上一代磁带的数据读写及前两代磁带的读出。因此,为了确保全部数据的可用性,用户必须不断地把早期磁带上的数据迁移拷贝到新一代磁带上,一般使用来说5~7年就必须要迁移一次,大大增加了近线/离线存储的工作量和成本,大量不断丢弃的磁带也在浪费资源和破环环境。

二是易老化不宜长期保存。LTO数据流磁带通过不断发展,其单盘容量大及产品的成熟度等优势非常明显,但其工艺特性采用"电-磁"的基本记录原理,"接触式"读写方式,长期存储后易产生掉磁,粘连等情况,因此也决定了其老化周期较短,难以做到长期有效的保存。

三是保存环境要求严格。LTO数据流磁带对存储条件非常敏感。磁带厂商引述的存储寿命年限是基于理想的存储条件。如:保存温度为16℃~35°C、湿度20%~50%、无尘和腐蚀性气体的环境。相对于理想条件,较小幅度偏移就会造成磁带寿命的大幅度减少。高温、高湿,强光环境会使磁带状况急速恶化。同时,灰尘是所有种类磁带的大敌,甚至很少量的灰尘进入磁带内都会让使用次数明显减少。

四是线性读写,数据定位时间长。根据数据存储在磁带的位置不同,所需磁头定位的时间也不同,一盘LTO数据流磁带完整倒带需要大约100秒时间。

现在的电视媒体资产管理应该采用能够适应时代发展的技术手段,既能够将以往的资料长期,安全地保存完好,还不会造成资源的损害与浪费。在这种需求背景下,海量光盘数据存储系统(Optical Disc Archive)应运而生。

面对展台上的产品,彭帅介绍到:海量光盘数据存储的存储媒体是便于操作的盘盒,外观与LTO磁带盒相仿,体积略大一些,每个盘盒内装12片裸盘,具有专业光盘的高可靠性和耐用性。目前海量光盘数据存储记录媒体共有4种容量.可重写的最大容量为1.2TB,一次写入多次读出的最大容量为1.5TB。

海量光盘数据存储盘盒进入驱动器后盘盒开放,盘片选择模块依据文件管理系统的指令选择取出相应的盘片,由移动加载模块放入光驱。存储文件较大需要跨盘读写时,盘片选择和移动加载模块根据文件管理系统的指令自动更换盘片。

海量光盘数据存储可以组成近线光盘库(Optical Disc Archive PetaSite海量数据流光盘库),该光盘库是模块化的,用户可以根据实际需求灵活配置。光盘库由基本单元与扩展单元构成。基本单元配有抓取海量光盘数据存储光盘的移动机械手,7U高,含30个槽位和2个驱动器。扩展单元同样7U高,分为两种规格,一种只含有101个槽位,另一种含有61个槽位和4个驱动器。单柜体最大配置42U,必须包含1个基本单元,最多可以加5个扩展单元,根据实际需求配置。单柜体42U最多可放置22个驱动器,335个光盘;或者最多535个光盘,2个驱动器。单柜体42U最大可以配置802TB的容量,通过第三方中间件,可以多机柜之间级联。根据中间件的指令,机械手从海量光盘数据存储槽位上自动抓取需要的海量光盘数据存储光盘并放置在相应的驱动器内进行数据读写操作(例:图1)。

近线存储系统需要使用中间件管理光盘库,中间件实际上是一个文件系统,它的作用是把光盘库内的全部光盘,驱动器和移动机械手虚拟成一个或几个巨大的存储卷。索尼公司可以向用户直接提供中间件软件产品,也可以向专业的中间件供应商提供单机版文件系统,包括驱动程序以及机械手控制协议。

当问及海量光盘数据存储的优势时,彭帅进行了一一盘点。

首先是高可靠性和高耐用性。海量光盘数据存储介质光盘可以适应各种工作环境,光盘外有抗静电的树脂保护外壳,其重复写入次数超过一千次,实际上一万次重写时误码率仍然低于纠错的容差范围,读出次数超过一百万次。盘片即使在高温、高湿、高腐蚀气体,高强光、液体浸泡侵蚀等恶劣环境中也同样安全(例:图2、图3、图4)。

第二是长寿命。存储寿命测试采用的是依据阿雷尼厄斯定律(Arrhenius Law)进行的模拟加速老化试验,即通过提高环境温度和湿度条件来模拟测试长时间保存后光盘读出数据的误码率。ISO标准的加速老化试验证明,海量光盘数据存储光盘的存储寿命超过50年(例:图5)。

第三是良好的代际兼容性。由于光盘采用的是非接触式数据读写技术,所以可以很容易实现良好的存储数据代际之间的兼容性,例如:现在最新的笔记本电脑上装配的光盘驱动器,不仅可以播放目前最新的民用蓝光的节目,也可以播放甚至是1982年诞生的CD音乐唱片。而数据流磁带采用的是机械的接触式线性扫描读写技术,为增大数据存储容量,其驱动器和磁带每隔几年都会升级,但升级后的驱动器只能兼容上一代磁带的数据读写及前两代磁带的读出。例如,在LTO-5的驱动器中,可以读写LTO-5和LTO-4磁带上的数据,或者读出LTO-3磁带上的数据,而不兼容以前LTO-1和LTO-2磁带上的数据。这样就使得用户不得不跟随着LTO驱动器和数据流磁带的升级,每隔5~7年必须进行定期的数据迁移,大大增加了近线/离线存储的工作量和成本。

第四是非接触随机读写。海量光盘数据存储光盘是"非接触性"数据读写,重复读写不会损伤盘体。而且海量光盘数据存储光盘为非线性随机读写,同时数据被分散在盘盒内的12个盘片上具有更快的文件检索和访问速度,而线性磁带需要更长的素材检索和定位时间(例:图6)。

第五,海量光盘数据存储系统在存储容量和存储成本,以及数据读取速度方面,基本上可以达到LTO数据流磁带的水平。由于海量光盘数据存储光盘巧妙地将12张裸盘集成在一个盘盒中,所以大大地超越了目前所有单片光盘存储介质的容量,目前海量光盘数据存储光盘的最大容量为1.5TB,和LTO-5数据流磁带相同。此外,还有4种容量和两种类型可选,可擦写的海量光盘数据存储光盘最大容量为1,2TB,每GB记录容量的成本大约0,1美元。

海量光盘数据存储驱动器(型号:ODS-D77U/F)目前读取速度最高1.1Gbps,与LT05磁带1,12Gbps的读取速度持平;但写入速度目前最高为730Mbps,低于LT05磁带的1.12Gbps,但随着新型号驱动器的推出,相信写入速度会继续提高。

此外彭帅告诉笔者,目前在全球范围开始应用的案例主要有:

TV Globe:巴西和葡萄牙语/西班牙语社区的主要电视台,选择海量光盘数据存储系列的ODS-D77F和ODA PetaSite可扩展光盘库产品(ODS-L30M,ODS-L60E/100E)作为归档和数字化工程的主要存储格式。系统将于2013年冬季开工,届时,TV Globe将在不改变现有工作流程的情况下,将素材存储到海量光盘数据存储系统中。

·IMAGICA株式会社:日本主要的节目制作公司,已经引进海量光盘数据存储系统,在节目制作过程中采用海量光盘数据存储作为备份介质。高可靠性、优良的代际兼容性和高效率,并且能够方便地将现有媒体资产迁移到海量光盘数据存储系统上是IMAGICA选择海量光盘数据存储系统的主要原因。

加强云存储数据安全 篇8

云存储服务属于基础架构即服务 (Iaa S) 的范畴, 是云计算服务的最基本服务形式之一。在云存储服务中, 云服务提供商 (CSP) 为用户提供无限量的空间供其存储海量数据, 并从中收取少量费用, 这就为用户省去了购买存储设备的费用。一项调查结果显示, 56%的云用户使用的是I a a S服务, 并且绝大部分I a a S用户使用的是云存储服务和虚拟机租借服务。由此可见, 云存储服务在所有云服务中占据着非常重要的地位, 可以为CSP带来可观的经济收益。

然而, 用户在使用云存储服务过程中也有很多担忧。一项国外调查结果[1]显示, 81%的云用户关注云数据的安全性和机密性, 其中数据“安全性”指的是数据可靠性和完整性。显然, 数据安全性和机密性是云服务中用户最关心的问题。

为了保证云端数据安全性, CSP (如Google, 使用GFS[2]系统) 会为每一份数据保存多份备份数据, 当发生数据损坏时就可以从完整的数据副本里恢复出正确数据。显然, 备份数据越多数据越安全, 但同时却也降低了云存储空间的有效利用率。此外, 就机密性来说, 一般情况下, 用户在存储数据的时候会先将数据进行加密, 然后将密文存于云端, 这就可以避免数据信息泄露。

我们提出了一个空间高效的、面向用户的、安全、可调节数据存储方案。本方案基于Shamir秘密分享方案[3], 可以在保证提供与GFS系统相同数据安全性的同时有效减少空间使用量。并且, 本方案使得用户可以估计自己数据安全性并以此为依据选择备份数据的数量。该机制的引入对于用户和C S P均有好处, 对用户来说, 用户可以租用适当的存储空间, 从而节约存储费用;而对CSP来说, 可以获得更多的空间服务更大量的用户。此外, 本方案还可以为备份数据提供一定程度上的数据机密性。最后, 在用户下载数据的时候本方案可以提供不同安全级别的数据传输模式。

2 相关工作和设计目标

G F S [ 2 ] 系统包括了两个部分:M a s t e r服务器和C h u n k服务器集群。其中, Master服务器负责与用户的交互和对Chunk服务器集群的管理。而C h u n k服务器集群负责存储用户的数据并接受M a s t e r服务器的调度和控制。当用户存储数据时, 数据会被分成固定大小的数据分块存储在Chunk服务器集群之中。为了保证数据的安全性, GFS为每一个数据分块备份三份数据副本。此模式下, GFS系统的有效空间利用率为25%。

从上述分析可以得知, 当前的云存储服务系统有效空间利用率非常低, 并且云系统并不为备份数据提供数据机密性。因此, 本文提出了一个空间高效的、面向用户的、安全、可调节数据存储方案。其具体设计目标包括:1.空间高效性, 方案空间利用率应比较高;2.方案应该是面向用户的, 用户可以自己估计数据的安全性, 并根据安全需求个性化设置备份数据的数量;3.方案是安全的, 方案能为备份数据提供一定程度上的数据机密性;4.方案是可调节的, 当用户下载数据时系统能为用户提供不同安全级别的传输模式。

3 方案

3.1 系统架构

图1 系统架构图

系统架构图如图1所示, 系统包括用户模块和CSP模块。用户模块即使用云存储服务的用户, CSP模块即云系统模块。如GFS一样, CSP模块也包括了两类服务器:Master服务器和Storage服务器。

在我们的系统中, 用户模块除了可以向CSP模块租用云服务以外还可以:1. 根据自己实际安全需求个性化定制自己备份数据副本的数量;2.下载数据时可以选择不同安全级别的传输模式。

在CSP模块中, Master服务器主要负责与用户进行请求交互、管理Storage服务器集群、根据用户设置的参数引导Storage服务器备份数据等。而Storage服务器则主要负责存储数据、在Master服务器的引导下备份数据等。

在我们的方案中, 当用户想要将数据存储至云端的时候, 他首先应该个性化定制他的数据备份方案 (即, 确定备份数据的数量) 。接着他向Master服务器提出存储请求, Master服务器根据用户的数据总量和备份方案选择是否向用户提供云存储服务。

3.2 数据备份方案

我们的存储方案与G F S系统一样, 存储数据时用户数据会首先被分成固定大小的数据分块, 然后再备份并存储。但我们的数据备份方案却与GFS完全不一样。我们的方案基于 (K, N) -Shamir秘密分享方案[3], 是一个空间高效性的、面向用户的备份过程。当用户拥有N中的任意K份数据就能恢复出原始数据, 具体过程如下所示。

当Storage服务器收到用户的数据之后, 它会以数据分块为单位对数据进行备份, 我们以一个数据分块 (记作D) 为例来讲解数据备份过程。服务器首先将数据分块D分成多份更小的单位数据块 (记作URP) , 于是我们就可以用有序对 (i, URPi) 来表示D, 即D={ (i, URPi) ┤0

然后我们可以从f (x) 上采集不同于之前K个点的其他N个点。这N个点即是Storage服务器备份完成的数据。使用N个中的任意K个点即能重构出多项式f (x) , 从f (x) 中抽取出原始的K个点就能恢复出原始数据。

显然, 只要保证N个点中的K个点正确我们即能轻易地恢复出原始数据, 因此我们的方案能保证很强的数据安全性。假设我们用ρ表示一个U R P的出错概率, P S表示D的备份数据所能提供的数据安全性, 于是我们可以用公式 (2) 来量化我们的数据安全性:

值得注意的是, 公式 (2) 中的K是由云服务商根据系统能力来确定, 备份数据的数量N是由用户根据自己的安全需求来确定。

3.3 数据存储过程

在我们的系统中, 当用户需要存储数据到云端时。他首先根据自己的安全需求和公式 (2) 确定备份数据的数量N, 即个性化定制备份方案。

当N确定之后, 用户会向Maste服务器发出请求并告知其数据存储需求, 即数据存储总量和备份方案。M a s t e r服务器收到请求之后会根据用户的存储需求确定所有数据 (包括原始数据和备份数据) 的存储位置。接着Master服务器会通知各Storage服务器准备接收数据并按照用户的备份方案来备份数据。当上述过程完成之后, Master服务器会告诉用户数据的存储位置。接着用户可以上传所有数据到指定的Storage服务器。各Storage服务器收到数据之后在Master服务器的指令引导下完成数据的备份和存储。

值得注意的是, 为了保证数据的安全性, 用户原始数据和备份数据所存储的位置不能相同。当Storage服务器备份完数据之后需要将备份数据发送到其他Storage服务器保存, 以提高数据的存储安全性。

3.4 数据下载过程

当用户需要从云端下载数据时, 它会向Master服务器发出下载请求, 请求中还应包含用户指定的数据传输模式:即传输备份数据或者传输原始数据。

如果用户选择传输备份数据, 它应该指定传输备份数据中的特定K个数据。在该传输模式下, 数据传输的总量并没有发生变化, 因为一个数据分块 (D) 所占空间等于K个单位数据块 (URP) 所占空间。然而, 由于传输的是K个备份数据, 这些数据是原始数据的映射, 相当于对原始数据的加密, 即便传输过程中被敌手窃取了这些备份数据, 只要敌手不知道各U R P的序列号敌手就无法恢复出原始数据。因此, 此模式下传输安全级别较高。

如果用户选择传输原始数据, 则敌手窃取到的内容即是原始数据。显然, 该传输模式安全级别较低。

4 方案分析

4.1 数据存储安全性

在这里, 我们将比较GFS系统备份方案和我们的备份方案所能提供的数据安全性。为了使得比较标准一致, 我们将GFS系统的数据分块分成NBlock个更小的单位数据块 (记作unitr e p l i c a) , 具体做法与我们的存储方案做法一样。同样的, 我们用ρ表示单位数据块出错概率, NG F S表示GFS系统中备份数据的数量, 于是GFS系统中备份数据所能提供的安全性可以用公式 (3) 表示:

其中, NB l o c k与公式 (2) 中的K的意义完全一样, 而公式 (2) 中的N=NGFS*NBlock。

如果我们令NBlock=10、ρ=0.01, 则根据公式 (2) 和公式 (3) 我们可以得出备份数据所提供的数据安全性, 结果如图2所示:

图2 数据安全性 (NBlock=10, ρ=0.01)

图2中, 横坐标是备份数据的数量, 纵坐标是备份数据所提供的安全性。需要注意的是, 在GFS系统中, 由于备份方案是复制整个数据分块, 所以, 单位数据块的数量的增长应该是按照NBlock的倍数增长方式进行的:即NBlock=10时, 当单位数据块数量为10时, 备份了一个数据, 为20时, 备份了两个数据, 以此类推。因此, 当NBlock处于10~20之间时, 由于GFS没有完整的备份完第二个数据副本, 因此其提供的安全性并没有增长。

从图2中我们可以看出, 在备份数据数量达到12时我们的方案即能提供99.98%的安全性。而在G F S系统中, 要达到同等级别的数据安全性则需要备份三份 (即NG F S=3) 完整数据, 即备份数据数量为30 (3*NB l o c k) 。此时, 我们的方案可以比GFS节约60% ( (30-12) /30*100%) 的存储空间。

同样的, 当NB l o c k和ρ的值发生变化时, 根据公式 (2) 和公式 (3) 我们依然能得出如图2所示的同等结论:我们的存储方案提供与GFS系统同等数据安全性的情况下能比后者节约大量的存储空间。因此, 我们的方案有着非常高的空间利用率。

4.2 数据机密性

从本文3.2节中我们知道, 我们的备份数据是从原始的K个单位数据中映射出来的N个单位数据, 这N个数据与原来的K个数据完全不同。敌手在不知道各单位数据的具体序列的情况下, 即便窃取了所有数据也无法重构出原始数据, 因此可以看作是对原始数据的一次加密。所以, 我们的方案能为备份数据提供一定程度的数据机密性。

4.3 传输安全级别

从本文3.4节的介绍可知, 用户在下载数据的时候有两种安全级别的传输模式:高安全传输模式和低安全传输模式。

然而, 高安全传输模式并不是完美无瑕的。在高安全传输模式中, 用户下载完数据之后还需要利用公式 (1) 恢复出原始数据, 与低安全传输模式相比, 此模式下计算开销相对较大、用户等待时间相对较长。因此, 高安全传输模式不适合对数据读取及时性要求比较高的场景。

4.4 备份过程计算开销

在我们的备份方案中, 备份时间TS可以用公式 (4) 表示:

TS=Tr (s) +Tb (s) +Tt (s) +Tw (s) (4)

其中, T r (s) 是读取大小为s的数据所需时间, Tb (s) 是备份数据所需时间, T t (s) 是传输备份数据到其他S t o r a g e服务器所需时间, T w (s) 是S t o r a g e服务器存储备份数据所需时间。由于, 数据读取和数据备份并发进行, 数据传输和数据存储并发进行 。因此 , 我们可以 认为TS≈Tb (s) +Tt (s) 。同时, 在公式 (1) 中的各系数li (x) 独立于用户数据U R Pi, 可以预先计算出来。于是, 我们在备份的过程中只需要计算公式:的计算开销, 该公式的计算时间为Tb (s) ≈N*K*T m u l (p) , 其中, T m u l (p) 表示计算 有限域Z p上的一次 乘法所需时间。再 者, 如果我们用Tu r表示服务 器传输单 位数据块 所需时间 , 则传输备 份数据所 需时间Tt (s) =N*Tu r=N*K*Tu r/K。于是, TS≈N*K* (Tm u l (p) +Tu r/K) 。又根据公式 (2) 可知, N和K大小相差不大, 因此, 备份方案的时间复杂度约为O (K2) 。

5 结论

云存储服务是云计算服务的基本服务形式之一, 用户对云服务的最大担忧是数据的安全性。我们调研了各大CSP, 如, Google、Amazon和Microsoft等, 发现在这些云系统中保证数据安全性的机制是简单的存储多份相同数据, 这极大降低了存储空间的利用率。因此, 我们设计了一个基于秘密分享方案的、空间高效的、面向用户的、安全、可调节数据存储方案。方案中利用拉格朗日插值公式和秘密分享技术备份用户数据, 从而达到了对数据加密和提高空间利用率双重目的。本文详细介绍了方案的架构, 并结合设计目标对方案做了详尽的分析, 完全达到了既定目标。最后, 我们通过分析可知备份过程的时间复杂度为O (K2) , 当K取值合理时, 备份时间开销是完全可接受的。

参考文献

[1]Wu J, Ping L, Ge X, et al.Cloud storage as the infrastructure of cloud computing[C]//Intelligent Computing and Cognitive Informatics (ICICCI) , 2010 International Conference on.IEEE, 2010:380-383.

[2]Ghemawat S, Gobioff H, Leung S T.The Google file system[C]//ACM SIGOPS Operating Systems Review.ACM, 2003, 37 (5) :29-43.

[3]Parakh A, Kak S.Space efficient secret sharing for implicit data security[J].Information Sciences, 2011, 181 (2) :335-341.

[4]Quadling D A.Lagrange's Interpolation Formula[J].The Mathematical Gazette, 1966, 50 (374) :372-375.

[5]Z.Zheng and M.R.Lyu.A qos-aware fault tolerant middleware fordependable service composition.In DSN, pages 239–248, 2009.

[6]S.Dustdar and L.Juszczyk.Dynamic replication and synchronizationof web services for high availability in mobile ad-hoc networks.ServiceOriented Computing and Applications (SOCA) , 1 (1) :19–33, 2007.

数据库大数据量存储结构的研究分析 篇9

1 大数据量常用恒数业务表存储方式

恒数业务表示最常用, 也是最容易入手的数据存储表设计类型, 对于恒数业务表的参数设计, 可以将其定义为四个类: (1) 将全部的恒数表放于单独的恒数空间中, 即tablespace, (2) initrans, 此定义可以保持缺省值; (3) 可以根据恒数表的大小, 设定存储, (4) next, 其设定大小与第三定义一致。

利用恒数业务表对数据存储, 常见的设计误区是设计参数过大, 这样就可能将恒数表所占空间大小扩大好几倍, 甚至好几十倍。这样不仅造成了空间的浪费, 还对恒数表的访问性能造成极其严重的影响。一般来说, 恒数表没有索引, 有些数据的扫描工作需要全表进行, 这样就会增加工作量, 造成很大的浪费。如果仅仅从恒数表查询方面来说, 实际差距还不太明显, 但如果与递增表一块查询, 进行全表扫描, 就会造成大量的浪费, 使电力企业遭受巨大的经济损失。

2 大数据量递增数据表存储方式

对于电力营销过程中国产生的大量数据, 需要将其进行分成核心数据以及过程数据, 而递增数据表在设计中, 设计的核心问题就是这两者的区分问题。所以, 需要在设计递增数据表存储方式过程中, 设计合理的分区字段以及方式, 并设计科学的索引字段以及索引数量。如果通过递增数据表进行关联查询, 会消耗大量的逻辑读以及物理读, 所以在设计递增数据表存储方式时, 需要结合递增关联关系, 对递增数据表的分区、索引等进行合理的设计。

3 大数据量状态数据表存储方式

状态数据表示四种存储设计类型中最难的一种, 其涉及面广, 涉及到数据的查询、修改、写回滚等。数据有三种状态, 分别是企业状态、居民状态以及冻结状态, 可以分别用I、P、D来表示这三种状态, 利用三种进程对状态表同时实施处理。进程一对处在I状态的数据处理, 处理后将其变成状态P;进程二对处理变成状态P的数据进行处理, 并在处理完成后将其变成状态D。一个进程可能同时对相邻位置的两个数据进行处理, 但并不是绝对的, 为了保证数据能及时的得到处理, 就需要三个进程不间断的轮流实施处理。

通过状态数据表可以反映数据生命周期是否终止, 所以就能对上述的状态数据表处理方式进行改进, 按照上面的不同状态数据建立分区, 即建立I、P、D三个分区, 而三个进程也是分别负责一个分区的数据处理, 不用进行轮询过程。这样就会减少由于轮询产生的代价, 并且能够对进程数量进行调整。这种模式下, 进程一只处理处在状态I的数据;进程二对处在状态P的数据进行处理;进程三处理处在状态D的数据, 但三个处理过程不会对彼此造成干扰。这种处理方式也存在一定的缺点, 那就是处理数据需要数据的物理位置进行挪动, 从而产生额外的开销。为了避免这种现象, 一般在没有特殊要求情况下, 不建立索引。

4 大数据量流水数据表存储方式

流水数据表存储设计过程中, 关键是设计分区与索引。进行设计过程中, 需要坚持一下几个原则: (1) 根据数据量的大小, 按照不同时间进行分区设计, 时间可以使按天、还可以按月。 (2) 可以按照业务的类型建立相应的分区, 但需要避免分区发生冲突; (3) 流水数据表按照时间插入, 所以一般不需要建立字段索引; (4) 遵循索引少建的原则, 避免插入冲突, 并确保流水表的插入速度。

一般来说, 流水数据表存储设计一般设计误区为忽视了子分区的建立, 这常常导致历史数据不被重视, 而新产生的数据又过于集中, 这就导致集中数据同时有很多进程插入。流水数据表属于过程数据的存储方式, 其中包含了具有明显生命周期终止字段, 这就使得分区设计与索引设计显得更为重要。

5 总结

本文对电力系统中大数据量存储方式进行了分析, 从恒数业务表、递增数据表、状态数据表、流水数据表四种数据存储表设计入手, 分析了各自设计的依据、原则等, 并介绍了设计中的常见误区。通过对数据生命周期、数据量、数据访问特点等数据特性的了解, 设计数据存储结构, 以满足高性能数据设计要求, 提高数据库系统的工作效率。

参考文献

[1]肖寒, 胡广平.数据库大数据量存储结构的设计研究[J].信息化技术, 2011, 36 (2) :36-38.

[2]曹玉香, 李蒙蒙, 周兆斌, 王琴.SCADA系统中大数据量处理的研究与开发[J].制造业自动化, 2009, 31 (12) :133-134.

数据挖掘数据存储 篇10

近年来,随着大数据处理技术的快速发展,对大数据的存储和调度成为大数据信息处理的关键。随着人们对分布式数据库的逐步关注、深入研究与常态化应用,采用分布式级联数据库进行大数据存储成为大数据处理应用的重要方向。研究大数据的分布式级联数据库优化设计,将在云存储和大数据智能信息处理等领域具有较高的应用价值[1]。

通过对数据库存储结构和数据访问技术的优化设计,提高数据库对大数据的存储和调度控制能力。传统的数据库存储采用堆栈列表控制方法进行大数据存储,随着存储量和干扰的增大,导致数据库的调度和访问准确性不高。在数据库访问中,目前主要有基于语义信息特征提取的数据库访问技术、基于词频特征分布的数据库访问技术和基于关键字的数据库访问技术等[2,3]。其中,文献[4]提出一种基于语义数据集特征提取的数据库优化设计方法,以实现数据库的优化存储和大数据处理。首先找出两个最不相关的语义数据集合,考查词频准确性和样本记录数量之间的关系,通过有向图模型设计方法,提高数据库的调度和访问指向性能力。但是该方法计算开销较大,收敛性不好[5]。针对上述问题,本文提出一种基于大数据存储区域自动筛选的数据库优化存储和访问技术,首先进行数据库中数据分布存储模型设计和数据结构分析,采用模糊C均值聚类算法进行大数据的存储区域优化聚类,提高数据聚敛能力。采用滤波算法进行数据库中的干扰滤波处理,对滤波输出的数据进行存储区域的自动筛选控制,实现数据库存储空间优化,提高数据库访问的指向性和配准性。最后通过仿真实验进行了性能测试,得出有效性结论,展示了较高的应用价值。

1 预备知识及数据库中大数据存储数据结构分析

1.1 数据库中数据分布存储模型设计

为了实现对大型网络级联数据库的优化设计和存储访问控制,首先采用分布式存储调度方法,对大型网络级联数据库的存储数据采集结构进行存储数据的数据结构分析,再用有向图表示云计算环境下大型网络级联数据库的数据分布存储模型,如图1所示,以此为基础进行数据的存储结构优化设计[6]。

1.2 数据结构分析与信息流时间序列分析

在上述构建了数据库中数据分布存储模型的基础上,为了实现对数据存储区域的自动筛选和访问控制,进行数据库结构和数据信息流时间序列分析及信号模型构建。求大型网络级联数据库存储数据每类样本的模糊神经网络控制的隶属度函数,先求得隶属度函数的特征采样均值,Kj为第j类样本符合K个分配因子的带宽,并抽取数据库访问特征序列的相空间模糊度点集作为数据库访问控制训练集的聚类中心S,取其最大值si作为资源带宽差值控制的第一个聚类中心,采用自适应波束形成进行特征采样和资源访问控制,假设访问控制函数为:

在数据库访问过程中,假设时间函数为一个非线性的时间序列,得到数据库访问过程的不确定干扰项为:

其中,U为数据库访问控制中的特征采样数据论域。这里采用粒子群算法进行数据库的访问时间序列分析,粒子群在搜索过程中经常会陷入局部最优解,采用混沌映射方法,带领粒子逃离局部最优解,混沌映射的状态空间更新迭代过程为:

依据混沌映射搜索的最小积分准则,当粒子群在搜索过程中簇的中心点收敛到数据库的资源聚类中心时,求得数据库的资源聚类训练集的功率谱密度函数作为特征,进行特征提取和时间序列分析,得到数据的特征向量为:

通过上述处理,实现对大型数据库数据结构和信息流时间序列的分析,为实现数据库的优化设计奠定基础。

2 大数据存储区域自动筛选及数据库优化

在上述进行了数据结构分析和信息流时间序列分析的基础上,进行数据库优化设计改进。提出一种基于大数据存储区域自动筛选的数据库优化存储和访问技术,采用模糊C均值聚类算法进行大数据的存储区域优化聚类,提高数据聚敛能力。模糊C均值聚类算法的实现过程如下,对大型网络级联数据库存储数据的结构特征优选的C均值聚类中心为:

式中hi(t)表示特征子集Si(i=1,2,…,L)的变异参数,计算数据库中作业运行队列的调度时长响应函数为:

式中,h′i(t)为S(t)数据库数据进行模糊C均值聚类的定期扫描算子,采用模糊C均值聚类得到输出的数据库聚类中心矢量为:

式中,对大数据特征调度的噪声干扰为:

为了实现对聚类输出大数据的干扰抑制,需要采用数据滤波算法进行数据滤波,采用滤波算法进行数据库中的干扰滤波处理,并采用IIR滤波器进行数据干扰滤波,滤波器的设计结构函数为:

对滤波输出的数据进行存储区域的自动筛选控制,采用模糊遗传算法,计算得到大型网络级联数据库的存储数据在云存储空间内的时域特征状态响应函数表达式为:

其中,数据库优化存储的大数据自动筛选控制的激活因子为:

通过上述算法改进设计,实现数据库优化存储的调度控制。

3 仿真实验与结果分析

为了测试本文算法在实现数据库优化存储中的性能,进行仿真实验。仿真的硬件CPU为Intel®CoreTM i7-2600,采用Matlab仿真工具进行数学仿真。大型网络级联数据库存储数据的云存储节点分布在均匀线列阵存储区域,存储数据的数据格式为vmdk、exe等。进行大型网络级联数据库存储数据的原始信息采集,大数据特征采样频率为21kHz,存储数据的频率范围为12~24kHz。根据上述仿真环境和参数设定,得到大数据存储区域的采样输出如图2所示,采用本文方法进行存储区域自动筛选后的输出如图3所示。

由图3可见,采用本文方法实现数据库存储空间优化,可提高数据库访问的指向性和配准性。仿真结果表明,利用该方法进行数据库优化设计,对大数据的存储和调度性能都有较大改善。

参考文献

[1]周涛.基于改进神经网络的电力系统中长期负荷预测研究[J].电气应用,2013,32(4):26-29.

[2]耿忠,刘三阳,齐小刚.基于非合作博弈的无线传感器网络功率控制研究[J].控制与决策,2011,26(7):1014-1018.

[3]张磊,王鹏,黄焱,等.基于相空间的云计算仿真系统研究与设计[J].计算机科学,2013,40(2):84-86.

[4]文天柱,许爱强,程恭.基于改进ENN2聚类算法的多故障诊断方法[J].控制与决策,2015,30(6):1021-1026.

[5]余晓东,雷英杰,岳韶华,等.基于粒子群优化的直觉模糊核聚类算法研究[J].通信学报,2015(5):74-80.

本文来自 古文书网(www.gwbook.cn),转载请保留网址和出处

相关文章:

大数据推荐数据模型01-10

论文数据库01-10

小儿清肺颗粒01-10

颗粒粒度01-10

颗粒材料01-10

领导意图01-10

浅析制造过程数据管理和数据库技术01-10

学校体育伤害01-10

秸秆颗粒01-10

小儿康颗粒01-10

注:本文为网友上传,旨在传播知识,不代表本站观点,与本站立场无关。若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:66553826@qq.com

上一篇:大数据推荐数据模型 下一篇:领导意图