数据库数据分析(精选十篇)
数据库数据分析 篇1
数据库系统中往往保存着大量重要数据, 但是因为种种原因, 如计算机硬件故障、软件故障、病毒、用户操作失误、自然灾害、盗窃等, 都有可能会造成数据的丢失或损坏。为了保证在发生这些意外的时候可以最大限度地挽救数据, 数据库管理员必须要经常备份数据库里的数据。关系型数据库提供了强大的备份的功能。如何根据具体的应用来选择合适的备份方法是很重要的。
1 数据库恢复模型
并不是所有数据库都需要记录每一次的数据操作。如果每个操作都要记录的话, 数据库不但要写数据文件, 而且还要写日志文件, 在操作大量数据时, 会降低数据库的性能。在数据库中可以使用“恢复模型”来设置事务日志的操作方法。关系型数据库的恢复模式分为以下三种:
(1) 完全恢复模型
①备份时要备份数据库的数据文件和日志文件。
②还原时使用数据库的备份的数据文件副本和全部日志信息来恢复数据库。
③能还原全部数据, 并可以将数据库恢复到任意指定的时刻。
④为保证实现即时点恢复, 对数据库的所有操作都将完整地记入日志, 这样, 日志占用空间较大, 对性能也有所影响。
(2) 大容量日志记录恢复模型
①备份时要备份数据库的数据文件和日志文件。
②还原时使用数据库的备份的数据文件副本和全部日志信息来恢复数据库。
③日志中不记录操作细节 (如select into, create index等) , 而只记录操作的最终结果, 因此占用日志空间小。
④只支持将数据库还原到事务日志备份的时刻, 而不支持即时点恢复, 因此可能产生数据丢失。
(3) 简单恢复模型
①备份时只备份数据文件, 还原时也用备份的数据文件恢复数据库。
②只能将数据恢复到数据文件备份的时刻, 可能产生最多的数据丢失。
③不适于生产系统和大规模操作环境下选用。
2 备份设备
(1) 物理设备
硬盘:是最常用的备份介质。支持本地磁盘或者网络备份。
磁带:支持磁带机备份, 仅用于备份本地文件。
命名管道:它是一种逻辑通道, 从而支持第三方备份软件。
(2) 逻辑设备
永久备份文件:可以重复使用, 应该在备份前创建。
临时备份文件:用于一次性备份, 在备份时创建。
3 使用多个备份文件存储备份
(1) SQL可同时向多个备份文件进行写操作。如果把这些文件放到多个磁带机或磁盘中, 则可提高备份速度。
(2) 该多个备份文件必须具有相同的介质类型, 并放到一个媒体集中。
(3) 媒体集中的文件必须同时使用, 而不能单独使用。
4 备份的方法
关系型数据库提供了四种备份数据库的方式:
(1) 完全备份
备份整个数据库的所有内容, 包括事务日志。该备份类型需要比较大的存储空间来存储备份文件, 备份时间也比较长, 在还原数据时, 也只要还原一个备份文件。
(2) 差异备份
差异备份是完整备份的补充, 只备份上次完整备份后更改的数据。相对完整备份来说, 差异备份的数据量比完整数据备份小, 备份的速度也比完整备份要快。因此, 差异备份通常作为经常用到的备份。在还原数据时, 要先还原前一次做的完整备份后再还原最后一次所做的差异备份, 这样才能让数据库里的数据恢复到与最后一次差异备份时的相同内容。
(3) 事务日志备份
事务日志备份只备份事务日志里的内容。事务日志记录了上一次完整备份或事务日志备份后数据库的所有变动过程。事务日志记录的是某一段时间内的数据库变动情况, 因此在做事务日志备份之前, 也必须要做完整备份。与差异备份类似, 事务日志备份的备份文件和时间都会比较小, 但是在还原数据时, 除了先要还原完整备份之外, 还要依次还原每个事务日志备份, 而不是只还原最近一个事务日志备份
(4) 文件/文件组备份
如果在创建数据库时, 为数据库创建了多个数据库文件或文件组, 可以使用该备份方式。使用文件和文件组备份方式可以只备份数据库中的某些文件, 该备份方式在数据库文件非常庞大的时候十分有效, 由于每次只备份一个或几个文件或文件组, 可以分多次来备份数据库, 避免大型数据库备份的时间过长。另外, 由于文件和文件组备份只备份其中一个或多个数据文件, 那么当数据库里的某个或某些文件损坏时, 可以只还原损坏的文件或文件组备份即可。
在数据库恢复的方法中, 有相当多用户采用附加的方式。然而, 在对数据库服务器有类似SHELL控制权的情况下, 用备份还原方式才是最好的、最具有效率、而且没有任何差错。备份还原也是微软推荐的移动数据库的方法。每周一次全面备份, 每天一次增量备份, 也是最合理的备份频率。
参考文献
[1]郑阿奇.SQL SERVER实用教程[M].电子工业出版社, 2003:230-250.
[2]刘智勇.SQLServer2005宝典[M].电子工业出版社, 2007:441-445.
数据库数据分析 篇2
下一页 1 2 3
在没有控制文件备份的情况下,重新创建控制文件也是其中一个选择。本文旨在帮助初学者学习之用,谢谢!!
如何恢复一个只有完好数据文件的数据库?
本文欲将此数据文件恢复成数据库TTI,实例名TTI
$ORACLE_HOME=d:oracleora92
1、创建相关目录
d:oracleoradatatti --拷贝数据文件到此目录下,如果没有redolog文件,需要手工创建
d:oracleadminttibdumpd:oracleadmintticdumpd:oracleadmintticreated:oracleadminttipfiled:oracleadminttiudump
2、创建初始化文件(本例的初始化文件D:oracleadminttipfileinit.ora)
可拷贝现有数据库的初始化文件进行修改,主要修改内容如下:
db_name=ttibackground_dump_dest=D:oracleadminttibdumpcore_dump_dest=D:oracleadmintticdumptimed_statistics=TRUEuser_dump_dest=D:oracleadminttiudumpcontrol_files=(“D:oracleoradatattiCONTROL01.CTL”, “D:oracleoradatattiCONTROL02.CTL”, “D:oracleoradatattiCONTROL03.CTL”)instance_name=ttidispatchers=“(PROTOCOL=TCP) (SERVICE=ttiXDB)”
3、创建实例及密码文件
开始-〉执行-〉cmdD:>oradim.exe -new -sid tti -startmode mD:>orapwd.exe file=d:oracleora92databasePWDtti.ora password=zlw001
4、添加监听和连接
1)在d:oracleora92networkadminlistener.ora中的SID_LIST_LISTENER下面添加如下内容:
(SID_DESC =(GLOBAL_DBNAME = tti)(ORACLE_HOME = D:oracleora92)(SID_NAME = tti))
2)在d:oracleora92networkadmintnsnames.ora中添加如下内容:
(这里注意:如果你的d:oracleora92networkadminsqlnet.ora中的参数
NAMES.DEFAULT_DOMAIN = ###,则你的tnsnames.ora中下面的title那里也要改为tti.###)
tti = #title(DESCRIPTION =(ADDRESS_LIST =(ADDRESS = (PROTOCOL = TCP)(HOST =MIS011)(PORT = 1521)))(CONNECT_DATA =(SERVER = DEDICATED)(SERVICE_NAME = tti)))
数据库数据分析 篇3
2.1 大数据数据库的特点
传统的关系数据库,从其创立至现在,长期占据数据库的绝对统治地位。但是,数据挖掘、商业智能和可视化技术的发展,特别是它们处理非结构化数据的能力,动摇了传统数据库的牢固地位。于是善于处理非结构化数据的种种数据库工具大量产生,这其中必须优先提及的便是NoSQL(意为Not Only SQL)及NewSQL(意为New SQL)两大数据库阵营。
现在随着大数据时代的到来,由Carlo Strozzi开创的NoSQL以其技术上的先进性、方便性得到了越来越多的认可。NoSQL改变了数据的定义范围,其“数据类型”可以是文本、图片、影像、网页,也可以是整个文件;NoSQL数据库是非关系式的、数据间的关系更加复杂、多样,类型和相互关系具有多种扩展可能、存储方式也多采用分布式结构。经过十多年的发展,NoSQL取得了成功,采用NoSQL技术的产品也不断增长,目前NoSQL网站上(NoSQL-database.org)已经收集了150余个相关产品,人们也把采用类似NoSQL结构和原理的数据库统称为NoSQL数据库。
最初NoSQL有意排斥关系数据库的ACID规则和SQL特性(后发现其弱点又在一定程度和一定范围内支持数据的一致性要求和SQL特性)。NoSQL坚持分布式领域的CAP理论,CAP的含义为:
Consistency,一致性。数据一致更新,所有节点访问同一份最新的数据副本;
Availability,可用性。对数据更新具备高可用性;
Partition tolerance,分区容错性。能容忍网络分区。
CAP理论主张任何基于网络的数据共享系统,都最多只能拥有以下三条中的两条。而这种“三取二”的法则以及具体理解与执行的争论就一直存在。想同时满足三者,或者过分强化割舍三者之间联系均会破坏数据系统的效率和效果。32岁便获得加州大学伯克利分校终身教授的Eric Brewer提出了BASE理论(Basically Available, Soft state, Eventually consistent;基本可用、软状态、最终一致性),它用一种更注重可用性、更便于理解的方式解释分布式系统的特点。
NewSQL注意到关系数据库的灵活性不足、数据库互锁机制效率低下的特点,同时也意识到NoSQL不支持SQL所带来的不便,它采用了一种近似折中的方案,既支持SQL并保证一定程度的数据一致性,同时也提供NoSQL数据库的非关系数据处理的扩展功能,因而从产生之初便受到业界的喜爱,相关产品不断涌现。NoSQL和NewSQL常见产品及其分类情况如图所示。
2.2 NoSQL及其发展趋势
在NoSQL潮流中,最重要的莫过于Apache基金会的Hadoop。它是一个领导者,是一个典型的分布式文件系统,是一个开源系统。用户可以在不了解分布式底层细节的情况下,借助Hadoop开发分布式程序,它取得了成功,成为分布式数据处理界的巨兽(Hadoop的Logo就是只大象)。 现在甚至出来了“无分布不Hadoop”——每个传统的数据库提供商都急切地声明支持Hadoop。关系数据库的传统霸主Oracle公司也将Hadoop集成到自己的NoSQL数据库中,Microsoft、Sybase、IBM也加入了收纳Hadoop功能的竞赛中。
第二位领导者,MongoDB,是一个成功的文档处理型数据库系统,它被称为“非关系式数据库中最像关系式数据库的产品”。MongoDB查询功能强大,特别适合高性能的Web数据处理。
Cassandra是这个领域中的一个另类产品,它兼有键值数据库和列值数据库两者的长处,它的查询功能很优秀。虽然运行Cassandra集群难度较高,但它升级后的分析能力使得很多人感到惊讶。
Redis也是相当好的一个产品。对故障恢复的良好支持以及使用Lua的服务器端脚本语言是明显区别于其他软件之处。使用Lua确实带来了一些震动,因为更多的人喜欢和习惯JavaScript服务器端语言。但是,Lua是一个整洁的语言,它并为Redis开启了潘多拉盒子。
CouchBase在可扩展性和其他潜在因素,使其看起来是一个很好的选择,尽管Facebook以及Zynga面临着关键开发者离开的风波。CouchDB会变得更好抑或相反?只要数据库做得好受众就会欢迎,现在看来,它确实做的很好。
还需要提及的是Riak,在功能性和监控方面它也有了巨大的提升。在稳定性方面,它继续得到大家的赞美:“像巨石一般稳定、可靠且不显眼……”。Riak 数据模块化方面做得很有特色。
在图中,涉及了多个维度:关系型的与非关系型的、分析型的或操作型的、NoSQL类型与NewSQL类型的。最后的两个分类中,对于NoSQL有著名的子分类“键值类数据库、文档数据库、图存数据库和列存数据库。对于NewSQL本已建立“存储引擎、簇享数据、云服务”等类别。
最初,NoSQL破坏并引以为荣的特点是它不满足ACID(原子性、一致性、隔离性和持久性),这是它的优点,也是其问题所在。据美国Forrester的统计数据,在企业中的业务数据将有25%是结构化数据。无论是传统企业,还是引领技术潮流的大型网络公司,其数据库体系中都不可避免的共存着传统的结构化数据(如用户的标准信息,数据库元数据信息等),也存在着图片、视频、文档或网页等非结构化数据,所以关系数据库与NoSQL数据库并存将是数据库技术发展的基本面。另一方面,关系数据库、NoSQL和NewSQL都充分认识到了对方的长处和客户需求,每一个新数据处理技术都在“拼命地集成”其他范围数据库中的特性。NewSQL系统实现NoSQL的核心特性,而NoSQL越来越多地试图实现“传统”数据库的功能如支持SQL或在一定范围内“有保留地支持ACID,至少是可配置的持久化机制”。
数据库数据分析 篇4
1 Web数据库及数据库挖掘技术
1.1 Web数据库
近些年来, 随着科学技术的不断发展, 各种先进的设备一应俱全, 网络技术的发展也越来越深入人心。数据库能够存储大量的资源以及信息, 而先进的Web可以借助于数据库的技术实行远端控制, 两者之间通过交流与沟通可以产生一个随时控制的静态页面, 这样对于信息的采集和搜集都有着很大的帮助。
1.2 数据库挖掘技术
数据库挖掘技术对于互联网时代来说具有十分重要的意义, 随着经济和社会的不断发展, 人们对于信息的需求量也在不断的增大。但是信息资源的搜索并不是每一个网站都可以的, 对于信息的过滤和挖掘都是具有一定关联性的。为了数据库当中的信息都是准确无误的, 需要对信息的传递和挖掘进行认证和进一步的了解, 从而实现数据库的挖掘技术。
2 Web数据库挖掘技术分析
2.1 数据的预处理
数据的预处理是保证数据库信息来源准确的先决条件, 因为在信息数据的搜集和采集过程当中经常会有一些虚假的信息或者是不完整的信息, 对于这些信息在处理的时候一定要有着提前的预处理, 这样不仅仅能够保证信息数据库的质量, 还能够促进数据库信息的准确性。
2.2 模式识别
模式识别主要是对于相关网络的访问量以及浏览时间进行计算, 这样做的目的是希望互联网各个页面之间能够达到和谐统一的目的, 有利于Web站点数据挖掘有着一定的分析和信息采集功能, 在统计数据方便的同时满足群众的需要。
2.3 模式分析
模式分析就是利用较为科学的方式和方法对信息技术进行挖掘处理, 在对模式选择的时候通常都是选择较为合理的一种模式进行分析, 对自身所要分析的信息做对比, 最终需要确保信息的准确性。在此环节当中, 有关人员可以利用Web工具对网站进行处理, 在保证数据库灵活运行的情况下, 使得信息技术有所保障。
3 Web数据库挖掘方法及应用
3.1 挖掘方法
3.1.1 粗集方法
粗集方法对于信息的处理一般是较为简单的, 这种表示方法虽然在数据的准确度上有着一些瑕疵, 但是这种数据库分析的方法对于未来互联网时代的发展也有着一定的促进的作用。所以即使这种方式方法对于数据库有着很大的改进, 也为现如今的信息挖掘技术奠定了一定的基础, 只有熟练的进行综上操作才会对信息行业未来的发展打下坚实的基础。
3.1.2 模糊集方法
模糊集方法是当今互联网系统当中的一种确切可行的方法, 之所以称之为模糊集方法, 是因为在对事物或者是信息进行处理的过程当中经常会涉及到一些分析, 如果数据库的信息越复杂, 那么在进行数据分析的过程当中存在的难度将会越大。近些年当中已经逐渐的出现了一些较为先进的数据存储形式, 其中云端模式就是较为先进的一种。
3.1.3 统计分析方法
统计分析法对于数据库的统计和分析是十分重要的, 一般情况下对于数据库的分析会分为两种类型, 一种是与函数相关的类型, 另外一种是统计的类型。面对着不同的分析方法所表现出来的形式, 在统计当中一定要对不同的信息数据做好统计工作, 进而分清楚其中的差异关系。
3.2 应用分析
3.2.1 电子商务应用
近些年当中随着经济和社会的不断发展, 电子商务的发展已经越来越广泛了, 但是也随着而来了一些问题, 比如在电子商务当中由于客户的量比较大造成了信息的堵塞, 很多信息不能够及时的得到解决, 以及信息的安全性等, 这些都是电子商务带来的一些问题, 但是电子商务为人们带来更多的还是一些利益。通过挖掘技术可以帮助人们得到更多的信息和资源。
3.2.2 网络教育应用
在当今的21世纪, 互联网技术的发展已经扩展到了教育行业当中, 在我国目前的教育界当中, 已经充分将网络化教育融入到了学生的日常学习和生活当中, 通过互联网和Web技术可以让学生学习到更多的知识和技术, 在原有学习的基础上对教学模式进行全方位的改进, 对于学生的未来发展将会起到很好的促进作用。
4 结束语
综上所述, 笔者简单的对Web数据库近些年的发展和数据库挖掘进行了简单的介绍, 笔者认为在当今这个信息化的时代当中, 互联网的发展是社会发展的必然形式, 也是我国形式的必然趋势, 以Web数据库为基础的数据库进行挖掘能够在很大程度上提升信息的准确度和质量, 为人们的需求奠定坚实的基础。
摘要:在当今社会下, 我国的经济已经取得了很大的进步和进展, 随着经济和社会的不断发展, 我国人民群众对于信息的需求量已经越来越大, 获取信息的渠道也变得越来越多, 进入21世纪之后, 人们已经进入了信息化的时代当中。Web数据库带来的信息资源也越来越多, 下面笔者首先将会对Web数据库及数据库挖掘技术进行简单的分析, 然后对Web数据库挖掘方法及应用进行具体的论述。
关键词:Web,数据库,挖掘分析,技术
参考文献
[1]艾孜海尔江·艾合买提.基于Web数据库的数据库挖掘技术分析[J].科技致富向导, 2012, 24 (27) :217——219.
[2]刘霞, 赵鑫, 吕翠丽.数据库挖掘技术在网络安全防范中的应用[J].动画世界, 2012, 20 (06) .
[3]尚世菊, 董祥军.多数据库中的副关联规则挖掘技术及发展趋势[J].计算机工程, 2009 (05) .
[4]吕安民, 林宗坚, 李成明.数据库挖掘和知识发现的技术方法[J].测绘科学, 2010 (04) :123——130.
Oracle数据库碎片数据库 篇5
我们知道, Oracle 作为一种大型数据库,广泛应用于金融、邮电、电力、民航等数据吞吐量巨大,计算机网络广泛普及的重要部门。对于系统管理员来讲,如何保证网络稳定运行,如何提高数据库性能,使其更加安全高效,就显得尤为重要。作为影响数据库性能的一大因素 -- 数据库碎片,应当引起 DBA 的足够重视,及时发现并整理碎片乃是 DBA 一项基本维护内容。
1 、碎片是如何产生的
---- 当生成一个数据库时,它会分成称为表空间( Tablespace )的多个逻辑段( Segment ),如系统( System )表空间 , 临时( Temporary )表空间等。一个表空间可以包含多个数据范围( Extent )和一个或多个自由范围块,即自由空间( Free Space )。
---- 表空间、段、范围、自由空间的逻辑关系如下:
---- 当表空间中生成一个段时,将从表空间有效自由空间中为这个段的初始范围分配空间。在这些初始范围充满数据时,段会请求增加另一个范围。这样的扩展过程会一直继续下去,直到达到最大的范围值,或者在表空间中已经没有自由空间用于下一个范围。最理想的状态就是一个段的数据可被存在单一的一个范围中。这样,所有的数据存储时靠近段内其它数据,并且寻找数据可少用一些指针。但是一个段包含多个范围的情况是大量存在的,没有任何措施可以保证这些范围是相邻存储的,如图〈 1 〉。当要满足一个空间要求时,数据库不再合并相邻的自由范围(除非别无选择),而是寻找表空间中最大的自由范围来使用。这样将逐渐形成越来越多的离散的、分隔的、较小的自由空间,即碎片。例如:
2 、碎片对系统的影响
---- 随着时间推移,基于数据库的应用系统的广泛使用,产生的碎片会越来越多,将对数据库有以下两点主要影响:
---- ( 1 )导致系统性能减弱
---- 如上所述,当要满足一个空间要求时,数据库将首先查找当前最大的自由范围,而 “ 最大 ” 自由范围逐渐变小,要找到一个足够大的自由范围已变得越来越困难,从而导致表空间中的速度障碍,使数据库的空间分配愈发远离理想状态;
---- ( 2 )浪费大量的表空间
---- 尽管有一部分自由范围(如表空间的 pctincrease 为非 0 )将会被 SMON (系统监控)后台进程周期性地合并,但始终有一部分自由范围无法得以自动合并,浪费了大量的表空间。
3 、自由范围的碎片计算
---- 由于自由空间碎片是由几部分组成,如范围数量、最大范围尺寸等,我们可用 FSFI--Free Space Fragmentation Index (自由空间碎片索引)值来直观体现:
FSFI=100*SQRT(max(extent)/sum(extents))*1/SQRT(SQRT(count(extents)))
---- 可以看出, FSFI 的最大可能值为 100 (一个理想的单文件表空间)。随着范围的增加, FSFI 值缓慢下降,而随着最大范围尺寸的减少, FSFI 值会迅速下降。
---- 下面的脚本可以用来计算 FSFI 值:
rem FSFI Value Compute
rem fsfi.sql
column FSFI format 999,99
select tablespace_name,sqrt(max(blocks)/sum(blocks))*
(100/sqrt(sqrt(count(blocks)))) FSFI
from dba_free_space
group by tablespace_name order by 1;
spool fsfi.rep;
/
spool off;
---- 比如,在某数据库运行脚本 fsfi.sql, 得到以下 FSFI 值:
TABLESPACE_NAME FSFI
------------------------------ -------
RBS 74.06
SYSTEM 100.00
TEMP 22.82
TOOLS 75.79
USERS 100.00
USER_TOOLS 100.00
YDCX_DATA 47.34
YDCX_IDX 57.19
YDJF_DATA 33.80
YDJF_IDX 75.55
---- 统计出了数据库的 FSFI 值,就可以把它作为一个可比参数,
在一个有着足够有效自由空间,且 FSFI 值超过 30 的表空间中,很少会遇见有效自由空间的问题。当一个空间将要接近可比参数时,就需要做碎片整理了。
4 、自由范围的碎片整理
---- ( 1 )表空间的 pctincrease 值为非 0
---- 可以将表空间的缺省存储参数 pctincrease 改为非 0 。一般将其设为 1 ,如:
alter tablespace temp
default storage(pctincrease 1);
---- 这样 SMON 便会将自由范围自动合并。也可以手工合并自由范围:
alter tablespace temp coalesce;
5 、段的碎片整理
---- 我们知道,段由范围组成。在有些情况下,有必要对段的碎片进行整理。要查看段的有关信息,可查看数据字典 dba_segments ,范围的信息可查看数据字典 dba_extents 。如果段的碎片过多,将其数据压缩到一个范围的最简单方法便是用正确的存储参数将这个段重建,然后将旧表中的数据插入到新表,同时删除旧表。这个过程可以用 Import/Export (输入 / 输出)工具来完成。
---- Export 命令有一个(压缩)标志,这个标志在读表时会引发 Export 确定该表所分配的物理空间量,它会向输出转储文件写入一个新的初始化存储参数 -- 等于全部所分配空间。若这个表关闭, 则使用 Import ()工具重新生成。这样,它的数据会放入一个新的、较大的初始段中。例如:
exp user/password file=exp.dmp compress=Y grants=Y indexes=Y
tables=(table1,table2);
---- 若输出成功,则从库中删除已输出的表,然后从输出转储文件中输入表:
imp user/password file=exp.dmp commit=Y buffer=64000 full=Y
---- 这种方法可用于整个数据库。
---- 以上简单分析了 Oracle 数据库碎片的产生、计算方法及整理,仅供参考。数据库的性能优化是一项技术含量高,同时又需要有足够耐心、认真细致的工作。
部署数据库,别忘了数据库选件 篇6
实际上,数据库厂商在数据库之外都提供了非常丰富的选件以响应各种各样的应用需求。以Oracle数据库为例,除了常规的数据库(比如标准版和企业版)之外,还有很多选件可以选配,比如大名鼎鼎的内存计算就是选件之一。
“数据库与数据库选件的关系类似于单反相机的机身与镜头之间的关系,一个好的相机除了机身之外,还必须配上合适的镜头,数据库也是如此。除了数据库本身之外,还需要搭配合适的选件来支持业务的运行。”甲骨文公司副总裁、中国区技术产品事业部总经理吴承杨告诉记者。
吴承杨介绍说,Oracle数据库选件根据其应用场景的不同大体可以分为三类,即高可用选件、高性能选件和高安全选件。具体而言,在高可用性方面,应用最为普及的选件非Oracle Real Application Cluster(即RAC)莫属。吴承杨说,几乎所有重要系统数据库都采用了RAC架构。因为RAC拥有可伸缩性、自动负载均衡和自动存储管理功能,使数据库可自由扩展。而GoldenGate选件是另一个应用得比较普遍的选件。GoldenGate通过将数据源和目标分离开来以提供异构支持,可在所有主要平台上的各种关系型数据库、开放系统/开源数据库与原有数据库之间捕获和交付数据,帮助企业消除数据延迟,同时降低数据灾难。
而在高性能方面,数据分区技术(Oracle Partitioning)、内存计算技术(Oracle Database In-Memory)以及数据库自动诊断和调优技术都应用得非常广泛。比如,Oracle Partitioning 可以按照时间、地域、状态等进行分区,将大型表分成多个单元,从而有效地帮助企业提高数据处理能力和管理能力,有效地管理数据的生命周期。而内存数据库选件则突破了行列限制,采用双格式数据库内存,能够帮助企业更快、更好地做出业务决策。
另外,在高安全性方面,Oracle数据库提供的Oracle Audit Vault and Database Firewall如同带有自动识别功能的监控探头,可监控Oracle和非Oracle数据库流量,并且能够检测和阻止威胁。此外,而针对企业的重要敏感信息,Oracle Advanced Security是最经济高效的全方位数据保护解决方案,它可以对信用卡号、社会保险号或个人身份信息等重要敏感信息加密。
有必要强调的是,选配数据库选件不一定都要多花钱,有时候还可以帮助省钱,也就是以较小的投入换取较大的回报。比如,低劣应用会对数据库的高效运行造成瓶颈,Oracle Enterprise Manager 选件可以实现故障的快速发现、自动诊断,并为数据库提供实例级解决方案,有效地帮助数据库提升管理效率、消除性能瓶颈、降低IT管理成本,交付高质量服务。
数据库数据分析 篇7
1 工具实现关键技术
工具实现关键技术如下。
1.1 ETL
即数据抽取、转换、装载的一系列过程。ETL包含以下三个方面。
1.1.1 抽取数据
抽取是捕获源数据的过程,即将数据从源数据库中读取出来,这是所有工作的前提。
1.1.2 转换数据
按照预先设计好的规则将抽取得到的数据进行转换、清洗,处理一些冗余、歧义、不完整、违反业务规则的数据,使数据符合目标数据库的存储格式。
1.1.3 加载数据
将转换后的数据按照计划增量或全部加载到目标数据库中。
1.2 元数据
按照传统的定义,元数据是关于数据的数据。当数据在程序中不是被加工的对象,而是被用来对程序的运行起控制作用,并且可以通过值的改变而改变程序的行为,这样的数据称为元数据。本文研究中的元数据既是程序行为,又是程序处理对象的抽象,核心是ETL处理过程、处理对象、处理规则的抽象。基于这种抽象,元数据仅在工具扩充、工具移植时可能发生修改。本文将元数据分为2类:
1.2.1 支撑元数据
支撑元数据的作用是支撑驱动元数据定制,主要包括:数据字典元数据、抽取规则元数据,转换规则元数据、加载策略元数据。
数据字典元数据:数据字典元数据描述的是源数据库和目标数据库的体系结构信息,如表名、字段名、字段数据类型、字段精度、主外键约束、索引等。
抽取规则元数据:抽取元数据描述的是数据抽取的方式信息,如单表抽取、多表抽取,自动生成抽取数据文件等描述信息。
转换规则元数据:转换规则元数据是源库与目标库之间的映射模式的抽象;映射模式[3]为源数据库数据表字段到目标数据库数据表字段之间的映射关系,每一类映射关系为一类映射模式。而每一类映射模式的实质是一类数据转换的规则,将每一类映射模式抽象为一个数据处理函数,其中函数的名称、位置、函数参数属性、参数值存储位置等信息构成了转换规则元数据;通过对油田A2数据库、勘探开发数据库、A1数据库数据模型的研究,确定了主键映射模式、外键映射模式、拼接映射模式等16种映射模式;抽象出16个数据转换函数。这些函数及参数信息构成了转换规则元数据。
加载策略元数据:加载策略元数据描述的是加载策略信息,如数据替换加载、增量加载、并行加载,是否生成回档数据文件等信息。
1.2.2 驱动元数据[4]是驱动工具行为的元数据
驱动元数据包括:映射模式元数据,ETL流程元数据。
映射模式元数据是由支撑元数据定制而成。映射模式元数据以对应数据库间对应字段的映射模式为核心,描述了抽取数据的数据表结构、抽取方式、数据转换调用函数名称、函数参数值,目标表结构等信息,这些信息集中存储在元模型。
ETL流程元数据主要包含ETL流程函数执行信息及函数执行过程中的异常信息处理规则信息。
1.3 元数据驱动
元数据驱动的ETL方法是指基于元数据进行的数据迁移过程设计和处理控制。本文提出的元数据驱动的ETL方法,是通过读取映射模式元数据、ETL流程元数据驱动ETL各功能模块实现功能,完成ETL流程,实现数据迁移。
2 工具设计及应用
2.1 工具框架结构
工具框架结构图如(见图1)。
工具架构主要模块功能如下:
(1) 数据源,可以是Oracle数据库、其他关系型数据库、纯文本数据等。
(2) 目标库,表示目标数据库或文件,用于存储从源数据库中抽取出来的、经过转换后的数据。
(3) 通用数据访问接口[5]:采用OLEDB和ODBC技术进行透明访问。
(4) 数据抽取模块,按照映射模式元数据提供的源表结构及抽取方式抽取源数据到数据处理区。
(5) 数据处理区,用于数据的转换处理,处理区能够临时保存数据处理过程中的异常数据,生成目标库加载配置文件。
(6) 数据转换模块,获取映射模式元数据,获取源字段、目标字段、映射模式对应的映射函数信息及参数值,调用函数对源数据以一条记录下的一个数据为单位调用函数进行转换处理,处理后的数据以目标表结构的记录形式写到指定数据文件中。
(7) 数据加载模块,按照映射模式元数据提供目标表结构及配置文件信息,负责配置数据加载环境,将数据文件中的数据加载到目标数据库。
(8) 元数据管理模块,该框架的核心是元数据库,元数据库存储了支撑元数据与驱动元数据,驱动元数据由支撑元数据定制而成,元数据定制模块为元数据库管理模块的核心。
2.2 工具元数据库设计
工具元数据库数据模型的设计分为二个部分:(1) 支撑元数据模型设计(见图2);(2) 驱动元数据模型设计(见图3)。
2.3 工具的优越性
工具与数据库自带迁移工具及迁移程序相比有如下优势:
(1) 实用性高,使用数据字典元数据,通过选择不同的数据字典定制映射模式元数据能够实现不同专业数据库到数据中心数据库的数据迁移,同时使工具具有一定的通用性。
(2) 良好扩展性,使用转换规则元数据,不同数据模型之间的数据迁移过程中,映射模式繁多,当出现一种新的映射模式只需要编写单独的转换函数,同时在转换函数元模型中添加函数及参数类型信息,定制之后确定使用函数及参数值即可实现新映射模式的数据迁移。
(3) 易维护,使用元数据驱动的方式实现ETL功能,维护工作大部分为修改元数据,使维护简化。
2.4 工具应用案例
工具在“大庆油田公司井下作业分公司数据中心建设项目”中得到了很好的应用,数据中心数据库数据模型构建完成以后,需从A2数据库、勘探开发数据库、压裂曲线数据库、计划统计数据库、经营管理数据库中迁移业务数据,以保证数据中心的正常启动运行,通过对迁移需求分析,使用本工具完成各个数据库的数据向数据中心数据库中迁移任务。
通过项目实例,说明数据迁移工具具有较好的可行性,工具的功能在应用中能够很好地实现,具有很高的实用价值。
3 结论
本文提出一个基于元数据驱动的数据迁移工具框架结构,构建了元数据模型,用元数据驱动实现数据的提取,转换,加载。该数据迁移工具具有良好的可移植性、可扩展性,能够对新的迁移需求做出快速的反应,很大程度上减轻用户的负担,工具在油田企业信息集成中得到应用,取得了满意成果。
参考文献
[1]宋杰,王大玲,鲍玉斌.一种元数据驱动的ETL方法研究.小型微型计算机系统,2007;28(12):2168—2173
[2]袁满,郭宝祥,孙永东.元数据驱动的个性化查询工具的设计与实现.计算机工程与应用,2007;43(11):185—187
[3]熊辉,刘彦峰,郭大庆.分布式异构数据库迁移系统的设计与实现.计算机工程,2008;34(4)57—59
[4] Christof Bornhovd,Alejandro P.Buchmann.A prototype for metadata-based integration of internet sources.LectureNotes in Computer Sci-ence,Springer Berlin,2005;1 626:439—445
数据库数据分析 篇8
关系数据库是20世纪70年代初提出来, 经过数据库专家几十年的努力, 理论和实践都取得了显著成果, 标志着数据库技术的日益成熟。但它仍然难以实现对关系数据库中数据的分析, 不能很好地支持决策, 因此在80年代, 产生了数据仓库的思想, 90年代, 数据仓库的基本原理、架构形式和使用原则都已确定。主要技术包括对数据库中数据访问、网络、C/S结构和图形界面, 一些大公司已经开始构建数据仓库。针对数据仓库中迅速增长的海量数据的收集、存放, 用人力已经不能解决, 那么数据仓库中有用的知识的提取就需要数据挖掘来实现。数据挖掘与统计学子领域“试探性数据分析”及人工智能子领域“知识发现”和机器学有关, 是一门综合性的技术学科。了解关系数据库、数据仓库与数据挖掘三者之间的区别与联系, 使之更好的使用这3种技术, 处理各种信息需求是非常必要和重要的。
1 关系数据库、数据仓库和数据挖掘之间的关系
1.1 关系数据库和数据仓库之间的联系与区别
关系数据库是面向事务的设计, 数据仓库是一个面向主题的设计;关系数据库存储在线事务数据, 数据仓库通常存储历史数据, 关系数据库的设计将尽量避免冗余, 但数据仓库是倾向于引入冗余;关系数据库设计用于捕获数据, 数据仓库设计用于分析数据。传统的关系数据库面向以事务处理为主的系统应用, 所以它无法满足决策支持系统的分析要求。事务处理和分析处理有非常不同的性质, 他们有不同的需求数据。
1.2 数据仓库与数据挖掘之间的联系与区别
数据挖掘是基于数据仓库和多维数据库中的数据, 找到数据的潜在模式进行预测, 它可以对数据进行复杂处理。大多数情况下, 数据挖掘是让数据从数据仓库到数据挖掘数据库中。从数据仓库中直接得到进行数据挖掘的数据有许多优点, 因为数据仓库中数据的清理和数据挖掘中几乎是相同的, 如果数据在数据仓库中已被清除, 数据挖掘中不再被清除, 并且数据不一致也得到了解决。数据仓库是数据挖掘的先期步骤, 通过数据仓库的构建, 提高了数据挖掘的效率和能力, 保证了数据挖掘中的数据的宽广性和完整性。
1.3 关系数据库与数据挖掘之间的联系与区别
数据挖掘的数据源不一定是数据仓库。也可以是一个关系数据库中的数据, 但要事先进行数据预处理, 才能用于数据挖掘。数据预处理是数据挖掘的关键步骤, 并且是数据挖掘过程中的主要工作部分。因此, 数据仓库和数据挖掘没有必然的联系, 有些人简单地认为, 数据仓库是数据挖掘的准备, 这种理解是不全面的, 也可以使用关系数据库中的数据作为数据挖掘的数据源。
2 三种技术的应用
2.1 应用价值
2.1.1 关系数据库
关系数据库的主要价值体现在事务处理。关系数据库已经渗透到各行各业的日常事务, 该事务管理离不开关系数据库的应用系统, 这是对传统事务管理的一个重大突破, 是社会甚至家庭不可或缺的工具, 它对社会的应用价值是100%。
2.1.2 数据仓库
数据仓库的主要价值体现在为决策分析提供数据源。一方面, 在一个事务中, 用户要求高效的访问系统和数据库, 操作时间应该短。在一个决策分析中, 决策问题的一些请求可能会导致系统的操作, 解决这一问题的决策分析需要遍历大多数数据库中的数据, 这对一般日常事务处理系统是困难的, 所以操作数据和决策分析数据应该分开。另一方面, 决策数据需求问题。在决策分析时, 由于不同的应用系统中, 实体、字段存在数据类型、名称和格式的不符, 需要在集成时进行转换, 这个转换必须在决策之前完成;一些决策数据需要动态更新, 需要经常进行汇总和总结, 这些需求用事务处理系统解决比较繁琐。三是数据的操作模式问题。决策分析人员要以专业用户身份, 使用各种工具以各种形式来操作数据, 对数据操作的结果以商业智能的方式表达出来。事务处理系统不能满足这一要求, 只有数据仓库系统能够满足数据挖掘技术对数据环境的要求, 所以使用数据仓库中的数据省去了对数据预处理的步骤。
2.1.3 数据挖掘
面对日益激烈的市场竞争, 客户对迅速应答各种业务问题的能力要求越来越高, 对过量数据的及时处理要求越来越高, 带来的挑战一方面大规模、复杂数据系统让用户感觉漫无头绪, 无法开始;另一方面, 这些大量数据背后隐藏很多有意义的有价值的决策信息。如计算机界都熟知的“啤酒与尿布”的故事, 就是零售业巨头“沃尔玛”从大量销售数据中分析出来的规律:美国的男士在下班要去超市买婴儿尿布, 同时他们还会买啤酒。“沃尔玛”就把这两种“毫不相干”的商品摆放在靠近的货架上, 并且还摆放一些下洒小菜, 使这些商品销量大增。所以应用数据挖掘从大量数据中发现规律, 具有具体的指导意义。
2.2 应用领域
2.2.1 关系数据库
关系数据库应用领域非常广泛, 如:证券行业、医院、银行、销售部门、公司或企业, 以及政府、国防工业, 科学和技术发展领域等等, 这些领域都需要使用数据库来存储数据。例如:人事管理系统、工资管理系统, xxx部门信息管理系统, 手机话费管理系统等, 都需要关系数据库作为后台提供数据源。
2.2.2 数据仓库
数据仓库应用领域主要有两个方面:一是全局应用。因为数据仓库获得来自多方面的数据, 所以在把数据向数据仓库输入时, 要进行转换、计算和综合等集成处理。通过处理把来自不同地方的数据源转换成统一的格式, 以促进全局应用。二是复杂系统。信息处理的要求越来越复杂, 除了数据处理操作, 如添加、删除、修改、和统计汇总, 高级管理层也希望对历史的和现在的数据进行各种复杂性分析, 以支持决策。数据仓库中就是存储了旧的历史数据, 方便复杂分析、应用, 为高层决策服务。
2.2.3 数据挖掘
数据挖掘的应用领域主要表现在特定应用问题和应用背景。数据挖掘技术已经应用于各行各业, 如电信, 保险, 交通, 学校、银行、超级市场等。例如:数据挖掘技术应用在大学。高校扩招, 学生增加到几万人, 但是学生的学习积极性不高, 成绩不好, 因此引入数据挖掘技术找出影响学生学习积极性和学习成绩的原因, 制定措施, 提高教育和教学质量。分析的数据源是考试成绩和成绩之外的影响因素, 分析的方法是采用关联规则、模型库、去“噪”处理、粗糙集等进行数据挖掘, 得出的结论是:传统的学习方法不能完全满足需要, 改进教学方法和教学模式, 从而调动学生学习的积极性, 提高教学质量。
3 关系数据库、数据仓库与数据挖掘的融合
日常事务处理需要关系数据库, 构建分析处理环境需要数据仓库, 帮助决策者寻找数据之间的潜在的关联需要数据挖掘。他们之间是相互联系又有区别的, 不能互相取代的, 又需要相互融合。数据仓库中的数据并不是最新的, 专有的, 而是来源于其他关系数据库, 它是建立在一个更全面和完善的信息应用的基础上, 用于支持高层决策分析的数据基地。数据仓库是数据库新技术, 到目前为止, 数据仓库仍用关系数据库管理系统管理数据。数据挖掘是从大量存储在数据库、数据仓库或其他信息库中发现有趣知识的过程。只有这三个数据库技术互相融合, 取长补短, 各尽其责, 才能更好的为广大用户所使用, 为社会各个领域所应用。
参考文献
[1]华冠萍.数据仓库、数据挖掘及OLAP之两两关系[J].福建电脑, 2007, 8.
[2]牛承珍.马季兰.浅谈数据挖掘应用[J].山西科, 2008.5.20.
数据库数据分析 篇9
随着人们参与互联网应用的程度越来越深, 网络将更加智能, 服务器要处理的数据量也呈爆炸式增长, 我们已经进入了大数据时代。来至电商的大交易和来至社交网络的大交互多样化数据, 让服务器上的数据规模变得庞大。高并发读写的需求 (High performance) 让服务器读写压力巨大, 关系数据库存储的硬盘无法承受输入输出要求;关系数据库存储记录数量有限和SQL查询效率低, 已无法满足海量数据的高效率存储和访问的需求 (Huge Storage) ;关系数据库扩展艰难, 无法通过快速增加服务器节点来满足高扩展性和高可用性 (High Scalability&&High Availability) 的需求。为了改变这种状况, No SQL数据库应运而生。
1 No SQL
No SQL (Not Only SQL) 是指非关系型的、分布式的、不保证遵循ACID原则的数据存储系统[1]。No SQL典型地遵循CAP理论[2]和BASE原则。CAP理论简单地讲就是:一个分布式系统不可能满足一致性、可用性和分区容错性三个要求, 最多同时满足两个需求。而BASE设计原则, 则强调读写效率、数据容量和系统的可扩展性。相对于传统数据库, No SQL简化了数据存储, 它把重点放在了分布式数据管理上。
对比传统数据库, No SQL具有四大优势, 分别是易扩展、高性能、灵活的数据模型、高可用性。No SQL数据库去掉了传统数据库的关系型特征, 使数据之间无关系, 因此扩展起来非常容易。No SQL数据库在大数据量下的读写性能非常好, 这是因为它数据库的结构简单。No SQL随时可以存储自定义的数据格式, 因此不需要为将要存储的数据建立字段。最后, 在不影响性能的前提下, No SQL可以方便地实现高可用的架构。因此, No SQL数据库更适合处理大数据。
2 系统架构
目前主流的No SQL数据库解决方案有很多, 但是主要分为master-slave和P2P两类结构。这两类结构有很大的不同, 维护运行的协议相差也很大。
2.1 Master-Slave结构
在采用master-slave结构设计的数据库存储系统中, master节点负责管理系统, 监控所有slave节点的状态, 给每个slave节点分配要存储的数据, 是数据存取的入口。master节点通常只有一个, 它的运行状态将影响整个数据存储系统的性能, 因此要设置多个master副本节点, 防止master节点不能正常工作时整个数据系统瘫痪, 来提高系统的容错性。slave节点是系统中真正存储数据的节点, 每个slave节点要维护一个本地数据的索引表。随着系统要存储数据量的增多, 系统通过增加slave节点的数量来实现水平扩展。在Master-Slave架构的系统中, master节点要一直处在监听状态, 同时slave节点避免相互间的通信来减少通信代价。每个slave节点要定期的向master节点报告自己的运行和负载状况, 让master节点统一调度数据存储任务的分配, 从而实现所有slave节点的负载均衡。Google的Big Table, Apache的Hbase都是非常有代表性的master-slave结构的大数据存储系统。
2.2 P2P结构
在采用P2P环形结构设计的数据存储系统中, 系统节点通过一致性哈希 (consistent hashing) 算法形成一个逻辑环形结构。每个node节点都要存储数据, 同时管理自己的数据区域。P2P结构没有master节点, 可以方便添加node节点来扩充系统。新的节点在加入时只需要与相邻的节点交换数据, 对整个系统的影响很小。P2P结构没有中心化节点, 所有节点是完全相同平等的, 每个节点必须向整个全局广播自己的状态信息。目前采用P2P结构架构的数据系统有Cassandra和Dynamo。
3 数据存储
No SQL数据库种类繁多, 主要有键值 (Key-Value) 、面向文档 (Document-Oriented) 、列 (Column-Family) 、图 (GraphOriented) 等类型的数据库, 因此它们采用的数据存储模型也不尽相同。
3.1 Key-Value存储
Key-Value存储是No SQL数据库采用最多的数据存储方式, 它的数据是以key-value的形式存储的。key-value数据模型就是一个映射, key是查找数据地址的唯一关键字, 而value则是数据实际存储的内容。它采用这个弱关系的数据模型, 使用哈希函数实现关键字到值的快速映射, 来提高数据的存储能力和并发读写能力。虽然它的数据处理速度非常快, 适合通过主键进行查询或遍历, 但是基本上只能通过key的完全一致查询获取数据。
3.2 文档存储
文档存储不需要定义表结构, 但可以像定义表结构一样使用。文档存储的存储格式可以多样化, 适合存储系统日志等非结构化数据。跟key-value存储的不同点是, 它可以通过复杂的查询的条件来获取数据。虽然它不具备关系数据库所具有的事务处理和JOIN的处理能力, 但基本上能实现除此之外的其它处理, 因此它是非常容易使用的No SQL数据库。Mongo DB和Couch DB是典型采用这种存储模型的系统。
3.3 列存储
列存储是以列为单位来存储数据的, 擅长以列为单位读入数据, 比较适合对某一列进行随机查询处理。采用列存储数据模型, 让数据库系统具有高扩展性, 即使数据增加也不会降低相应的处理速度, 因此列存储主要应用于需要处理大量数据的情况。由于列存储的数据库与现行以行为存储为单位的数据库的思想有很大不同, 因此它应用起来还十分困难。Cassandra、Hbase、Hyper Table就属于这种数据存储模型的数据库。
3.4 图存储
目前, 关于图存储模型的数据库相关研究还不多, 只有少数分布式图数据库。图存储数据库是基于图理论构建的, 使用节点、属性和边的概念。节点代表实体, 属性保存与节点相关的信息, 而边用来连接节点, 表示两者关系。图数据库存储某些数据集非常快, 可以把图直接映射到面向对象应用程序中。Neo4j[3]是典型采用这种存储模型的系统。
4 关键技术
4.1 客户端API
No SQL数据库提供了建立、更新、读取和删除数据的客户端API函数。API函数基本形式如下:get (key) :读取指定键对应值;delete (key) :删除指定键及其映射值;put (key) :新建或更新指定键的对应值。No SQL还支持很多特性, 让用户可以对数据进行更复杂的处理, 例如它允许不同类型的数据转换、基于任意表达式的数据过滤和使用操作符进行数据汇总。最后, No SQL可以和Map Reduce一起使用, Map Reduce是大规模并行计算框架。通过应用中间件, No SQL数据库可以作为Map Reduce框架的输入输出。
4.2 数据分区
随着No SQL数据库需要处理的数据不断增多, 系统要求有高扩展的性能, 节点的添加和移除是非常频繁的。因此, 如何将数据均匀的分散到集群中, 同时系统一直处于可用状态, 是要解决的关键问题。目前, No SQL通常采用是一致性哈希 (consistent hashing) [4]技术。
一致性哈希是一种hash算法, 在移除或添加一个节点时, 它能够尽可能小地改变已存在的key映射关系, 来满足单调性的要求。一致性哈希原理如图1所示。首先, 将哈希值空间组织成一个虚拟圆环 (顺时针分布) , 圆环空间大小为232;然后, 将系统所有节点的IP或主机名作为关键字, 计算hash后, 每个节点就能在哈希环上确定相应位置;最后, 当用key去获取value的时候, 也使用相同的hash算法映射到哈希值空间的一个值, 沿该值顺时针向后, 将遇到的第一节点作为处理节点。
当需要添加一个节点时, 只需要将该节点逆时针方向到达上一个节点之前的key对应的数据迁移到新添加的节点上。当要移除一个节点时, 只需要将该节点上的数据迁移到它顺时针的下一个节点上。因此, 系统中增加或移除服务节点, 只会影响与之相邻的某个节点, 其他节点不受影响。
4.3 数据复制
为了防止因为某个节点出问题而导致数据丢失, 使数据库系统具有高可用性, 需要通过复制将数据备份到多个节点。数据复制的实现机制是利用服务器节点和副本节点之间的TCP/IP通信, 按照一致性策略将数据分发到副本节点上。No S-QL数据库系统采用分布式服务框架来管理协调集群内的节点[5], 服务节点负责写请求, 而副本节点负责读请求。
5 结语
No SQL数据库具有更好的扩展性和可用性, 它弥补了传统数据库由于事务等机制而带来的对海量数据高并发请求处理性能上的欠缺。它采用一种非关系的方式来解决大数据存储和管理的问题, 想要在短时间内取代传统数据库是不现实的。大数据的应用和云计算的普及给No SQL数据库带来了机遇, 同时也出现了很多挑战性的问题亟待解决。No SQL数据库还需要去深入研究, 它的发展前景值得期待。
摘要:随着大数据的不断发展和web2.0的快速应用, 非关系型、分布式数据存储技术迅速发展, 而NoSQL数据库的出现就是为了解决当前计算机体系结构在存储大数据时要求快速、可扩展的问题。文章总结了NoSQL的优势, 分析了NoSQL数据库的系统架构、数据存储和关键技术。
关键词:大数据,NoSQL数据库,数据存储,一致性哈希
参考文献
[1]NOSQL[EB/OL].2011.http://nosql-database.org/
[2]JING H.2011.Survey on NoSQL database[C]
[3]Neo4j[EB/OL].2013.http://www.neo4j.org/
[4]杨磊.基于NoSQL数据库的结构化存储设计与应用[J].科技风, 2011 (8)
大数据数据库的特点与处理技术分析 篇10
当前IT行业发展迅速, 在物联网、云计算等技术备受关注时, 大数据掀起了新一轮的技术浪潮。随着信息化时代的进步, 人类活动会产生巨量信息资料, 传统数据库系统难以快速的对其进行获取、储存和处理。此时需要用到大数据数据库, 如谷歌浏览器利用搜索关键词对禽流感散布情况进行预测、美国利用大数据预测犯罪的发生等。大数据在企业管理、国家治理等诸多领域中应用越来越广泛, 而相应的数据挖掘、数据安全等也成了研究热点。
1 大数据及其特点
大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据只是一个现象, 要了解它, 必须从“大”入手。“大”表面指的是规模, 但又不仅仅限制于庞大数据信息储存, 其关键在于如何对数据展开专业化处理。与传统数据库相比, 大数据数据库的特点可概括为4V, 即:
(1) 大量 (Volume) 。数据储存量从TB级上升至PB级, 大数据的规模通常至少为10TB;
(2) 多样 (Variety) 。数据的类型较多, 既包括结构化数据, 还包括非结构化及半结构化数据。如位置信息、网络日志等;
(3) 高速 (Velocity) 。即数据处理速度快。1s定律, 这是大数据与传统的根本区别;
(4) 真实 (Veracity) 。数据来源的安全性和真实性有所保障, 提升了分析结果的精确度。
数据自身便是一种极为重要的资产, 当前的云计算等技术在数据的储存和访问方面颇具优势, 但在如何盘活数据资产上稍显不足, 大数据则可有效解决这一问题。所以当前的工作不仅在于对海量数据加以处理获取有用信息, 更在于其深入研究, 进而抢占时代发展的前沿。
2 大数据的处理技术
2.1 解构
大数据是互联网高度发展而形成的一种现象, 在未来的发展中, 无疑能够为人类创造更多的价值。在理解大数据时, 可从以下3个层面面理解:首先是理论层面, 包括大数据的定义、发展历史和趋势、重大意义等。只有通过理论知识研究, 才能加深对其了解;其次是技术层面。技术是大数据实现其价值的基础, 数据库技术、云计算、数据挖掘技术、遗传算法、关联规则学习等都是大数据的关键;此外是实践层面。大数据研究的最终目的是将其用到各个领域解决实际问题, 包括企业、学校、互联网、政府等都将对此有所应用。
2.2 处理流程
(1) 采集。数据采集是其处理技术的前提, 即通过多个数据库接收互联网或客户端发出传输的信息。且实现了资源共享和同步更新, 用户在登录后, 可在数据库内查询所需信息, 并进行其它较为简单的操作。如电商会使用传统的关系型数据My SQL以及Oracle等对所有数据加以储存。采集过程中, 高并发数是要解决的重点工作, 因为在同一个网站可能会出现众多用户同时点击访问的现象, 如淘宝网站等。若数据库不够, 极易导致网站瘫痪。所以常会在采集端部署大数据库作为支撑。
(2) 导入及预处理。数据采集时会用到许多数据库, 以保证信息的全面性。但在采集后分析处理时, 需将各个数据库的信息集中在一个大型数据库中。在具备导入功能的同时, 还能做一些简单的处理工作, 部分用户在导入数据时, 可能还会使用Storm等类的方法展开流式计算, 以满足计算要求。导入时的特点主要在于导入的数据量过大, 可能会高达每秒钟上百兆或上千兆。
(3) 统计分析。统计与分析主要利用分布式数据库, 或者分布式计算群来对储存的巨量信息进行分析处理, 以满足多数常见的分析需求。在此方面, 部分实时性需求会用到Oracle、Green Plum、列式储存Infobright等技术。而少数处理可能会用到Hadoop。此环节的特点也是数据量较大, 需占用较大内存。
(4) 挖掘。数据挖掘往往并没有预先设定好的主题, 而是在固有数据上开展各种算法, 以起到预测效果, 进而实现高级别数据分析的要求。典型算法包括聚类的Kmeans、用于分类的Naive Bayes, 以及用于统计学习的SVM, 工具则多为Mahout、Hadoop等。此环节的特点在于用于挖掘的算法较为复杂, 并计算涉及的数据量和计量才都很大, 常用数据挖掘算法都以单线程为主。
3 结语
随着计算机和互联网的进一步发展, 大数据这一概念被提出, 并迅速发展起来。与传统数据库相比, 大数据的信息储存量更大, 而且信息种类繁多, 其分析处理速度也更快。在今后, 应加大研究力度, 将其更好地应用于实践。
摘要:大数据在当前信息化时代的作用日益突出, 首先简单介绍了其定义和特点, 然后按照数据采集、导入、分析、挖掘的流程对其处理技术进行了分析。
关键词:大数据,互联网,数据挖掘
参考文献
[1]李建中, 刘显敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展, 2013, 24 (6) :109-110
[2]张引, 陈敏, 廖小飞.大数据应用的现状与展望[J].计算机研究与发展, 2013, 27 (z2) :142-144
相关文章:
市建委中心数据库企业数据信息填报要求01-10
网页数据库数据导入论文01-10
用脚本缩小数据库日志数据库教程01-10
数据大数据时代范文01-10
数据库总结01-10
头孢噻肟钠舒巴坦钠01-10
ACCESS数据库和SQLServer数据库的应用比较01-10
数据库01-10
视图在数据库中的应用分析数据库教程01-10
大数据,数据库创新的驱动力01-10