企业数据仓库

关键词: 路线 信息技术 企业 系统

企业数据仓库(精选十篇)

企业数据仓库 篇1

企业实施信息化的路线遵循信息技术发展的路线, 同时推动和完善着信息技术的发展。这在应用系统的发展上就可以明显地看出来。企业的应用系统最早会以部门为单位, 在其需求基础上设计和完成部门核心业务的数据库系统, 如财务、销售及库存等系统。当发现这些分散的业务数据库仍不能满足企业对信息获取的需求时, 会实施一个全企业范围内覆盖各业务部门的大应用系统, 即ERP系统。基于ERP (OLTP) 之上的数据仓库 (OLAP) 也随之诞生。本文围绕企业对数据利用的需求不断增强而衍生出的数据仓库技术进行了论述, 并提出了建立企业级数据仓库的实施方法, 在考虑采取何种方式建立企业级数据仓库时, 需要结合企业自身的特点和实际情况进行评定。

2. 企业建立数据仓库的意义

2.1 系统演变的历史证明建立数据仓库的重要性

数据仓库是从数据库演变而来的。“蜘蛛网”现象使得企业不同部门间的数据提取多次发生, 数据分析的结果缺乏可靠性, 数据处理的效率低, 数据难于转化为信息。这种问题必须从技术体系架构上进行变革, 从而使企业将操作型环境和分析型环境相分离, 将原先以数据库 (多个部门级MIS系统) 为中心的生产环境转变为以数据仓库为中心的生产环境。

2.2 事务型系统 (如ERP等系统) 的实施推动建立数据仓库

随着企业信息化的不断推进, 原有的数据库应用从部门级单一应用扩展到集团级的复杂应用, 涉及到多业务板块和多级单位, 这种大规模的事务型ERP应用, 为企业积累了海量的、经过标准化的、较高质量的、共享的核心数据, 如何利用这些有价值的数据进行分析以获得对决策有意义的信息?这就是数据仓库需要完成的任务。

3. 与数据仓库 (DW) 建设相关的内容说明

根据Gartner Group预测的09年十大策略科技中, 提到了商务智能BI, 那么BI与决策支持系统DSS、数据仓库又有什么关系呢?其实, DSS与BI都指的是一回事, 只不过BI更靠近最终用户, DSS面对的是整个企业, 数据仓库是实现DSS与BI的技术手段。

Eric Thomsen1认为, 数据仓库 (DW) 、决策支持 (DSS) 和商务智能 (BI) 都是近年来在商业软件市场上的术语, 他把这些术语称作“伪技术术语”, 这些术语掩盖了过去15年中现实技术的进展情况。不管称呼如何随商业目的而变迁, 它们的目标都是一样的, 即以最终用户为中心, 依据数据和信息的分析进行面向决策的处理。

3.1 ODS操作型数据存储 (介于DB数据库与DW数据仓库之间)

既然我们将事务型OLTP处理和分析型OLAP处理进行了划分, 那么是否不存在介于事务型与分析型之间的问题呢?答案是否定的。如高层领导想了解3年内企业的销售发展趋势, 可以通过OLAP来解决, 采购经理想知道需采购的生产材料的库存变化情况, 可以通过OLTP得到, 而如果采购经理想短时间“拟定进货清单”, 不仅需要知道近期销售情况、近期的仓储情况与货物最新价格、还需要知道财务的资金情况, 这些信息虽然可以通过数据仓库得到, 但是其信息量非常大, 不可能短时间内给出。像这种问题, 既不属于高层决策的问题, 也不属于具体的事务型问题, 我们采用ODS操作型数据存储来处理。ODS用于支持企业日常的全局应用的数据集合, 应按照主题来组织, 并具有集成性和实时性 (可联机修改) 。目前我所在公司采用的SAP BW中的ODS与此概念是基本一致, 进入ODS的数据是经过清洗和整理的, 在实时性方面, 新版本的ODS可以进行实时修改。不过, 因为预算对ODS的实时需求会多些, 而我们现在应用的ODS没有启用BW中的预算功能, 所以ODS的这个特点并不明显。

当前国内的数据仓库一般都是从数据库阶段发展而来的, 其初期建设的需求来源大多是介于长期战略型分析报表与日常管理类分析型报表的ODS类报表, 所以在数据仓库中80%被ODS操作型数据存储所占据。这种报表通过数据仓库工具设计出来后, 不仅开发成本较大, 其数据颗粒度、实时性和性能又无法与OLTP型报表相媲美, 使得数据仓库的真正功能不能很好地被高层领导所认识, 整体上降低了对数据仓库价值的正确评价。

3.2 数据仓库与外部数据 (结构化与非结构化)

一个良好的决策支持系统必须能使决策者既了解企业内部的情况, 也能参考外部的信息。所以数据仓库应该能集成外部的数据。外部的数据来源形式多样, 可能本身就以数据库形式 (结构化的) 存在的, 也可能其存储结构和管理都是无规则的 (非结构化的) , 如声音、图像和文本等。外部结构化的数据好处理, 文本也是可进行处理的, 那么, 其他不可预测形式的外部数据, 该以何种方式处理呢?答案就是采用元数据的方式来处理外部非结构化数据。所以, 为了满足业务需求, 数据仓库可以通过很好地规划和设计来有效地集成外部数据。

3.2 数据仓库的“间接使用”与数据挖掘

数据仓库的数据都是取自于事务型系统OLTP, 如ERP系统等。数据的流向一般是从ERP单方向流向数据仓库BW。但是, 在一些应用中, 数据仓库的分析结果会回流到ERP系统, 为业务系统提供有力的支持, 这种情况称为数据仓库的“间接使用”。

在SAP BW系统中有一个称为数据挖掘的工具, 它可以将BW系统的分析结果导入, 经过处理后, 生成新的分析结果, 此结果能作为其他分析的输入数据源。此项功能在整合不同来源的数据时起到很好的效果, 我们有将OLAP数据整合外部文本导入的数据的成功案例。

数据仓库的大量历史数据为数据挖掘提供了条件, 但是数据挖掘还是一个非常专业的领域, 我们不在此过多讨论。

4. 实施数据仓库系统

基于以上围绕数据仓库所讨论的内容, 我们谈如何实施数据仓库系统。在此不采用按照项目生命周期及项目管理的方式来谈, 而围绕数据仓库实施的关键点来展开:

(1) 数据仓库实施的时机;

(2) 分布式数据仓库对建立企业数据仓库的影响;

(3) 企业信息工厂 (CIF) 理论对建立企业数据仓库的影响;

(4) 企业数据仓库建设采用TOP-DOWN还是BOTTOM-UP。

4.1 同步实施OLAP数据仓库系统与OLTP事务处理系统

国内实施SAP ERP系统的公司, 90%都采用SAP BW作为其数据仓库工具。在进行蓝图规划时, 咨询公司都会采用ERP事务型系统与BW数据仓库同步实施的方案, 如我所在的公司。也有先上ERP, 系统运行稳定后在进行数据仓库建设的, 如五矿集团。

一般来说, 数据仓库系统应在信息化建设后期进行, 但是同步实施会具有一些优势:

1、在ERP系统上线后即可实现BI功能和全球BCS解决方案, 能马上为集团领导提供商业智能分析工具, 达到速赢目的;

2、数据仓库实施人员能同步参与流程系统设计, 更好地了解需求, 提升其数据仓库成果的适用性;

3、数据仓库成果的重用。如对于分多期实施的ERP, BW能在第二期展现第一期上线单位的数据分析价值, 对后期的推广实施有益。

但是, 其劣势也很明显, 由于数据质量不高, 其报表难以测试, 直接导致报表质量不高, 需求变更多。

4.2 建立分布式数据仓库系统

对于一个集团公司来说, 存在多个不同地域的分公司, 每个分公司的数据量就足以建立起一个数据仓库, 那么, 是建立一个分布式的数据仓库系统还是建立一个集中式的数据仓库系统?

大部分企业所建立和维护的是一个集中式数据仓库环境。主要考虑因素:

(1) 数据仓库中的数据是全企业范围内集成的, 仅在集团总部才会使用这些集成的数据;

(2) 企业以集中式管理模式运作;

(3) 数据仓库的数据量大, 信息安全性要求高, 数据集中存储在一个统一的地方较为妥当;

(4) 如果数据分布于多个局部站点, 那么存取这些多个站点中的数据将是很麻烦的。

综上所述, 从政策、经济和技术等诸多因素都更倾向于集中式数据仓库。但是, 在某些特定场合, 需要建立分布式数据仓库环境。有三种分布式数据仓库类型:

(1) 业务是在不同地域或不同生产线上进行的。这种情况, 出现局部数据仓库和全局数据仓库。如下图一:

这种分布式数据仓库局部的人员原则上只能查看局部数据, 为了其他目的而查看全局数据是要受到质疑。另一个问题就是需要考虑如何确保信息来源于正确的地方。

局部/全局数据仓库要解决的一个重要问题就是数据的传输。包括传输频率, 传输的合法性 (因为跨越了地区) , 传输的安全保护措施及安全性等, 如何解决数据传输中的负载问题?而这些问题是集中式数据仓库不会遇到的。

(2) 数据仓库分布在多个处理器上。物理上数据仓库的数据可以存放在多处理器上, 而逻辑上看只有一个数据仓库。这种方式大大节省硬件维护成本。可称为技术上分布的数据仓库。

(3) 演进型的数据仓库。先建立一个数据仓库, 然后再建立一个。不同数据仓库间难以建立协调性, 通常需要采取政策和机构上的制度来保证数据仓库间进行协调工作。

以上可以看出, 一般企业会选择建立集中式的数据仓库, 当集中式数据仓库不能解决业务上的问题时, 会采用第2种或第3种分布式数据仓库进行扩展, 但是在扩展时必然要考虑由此带来的性能、安全性及数据传输的问题。

4.3 企业信息工厂 (CIF) 的出现3

当出现了用于统计分析的探查型数据仓库时, 统计学家就可在此数据基础上进行数据挖掘分析, 在这个时期数据仓库演变成为企业信息工厂 (CIF) 。

2000年的网络大爆炸使得人们发现, 网络环境要成功必须与企业系统集成。数据通过ODS从企业环境进入网络环境。DSS应用软件的出现, 使得企业绩效管理成为现实。2004年, 信息工厂中出现了新的提炼方法, 增加2个特征, 一个是VODS (虚拟操作数据存储) , 另一个是非结构化数据。VODS使组织机构可访问流动状态的数据, 不必依赖其他的基础结构。

CIF是一个有机体, 它也随着数据仓库、商务智能和DSS不断成长和变化。美国911事件后, 政府信息工厂GIF就出现了。GIF的基本架构和CIF的架构类似。

CIF也经历过被视为异端到被看作高招的过程。但是, 是不是发展已经结束了?其实一切才刚刚开始。现今对CIF和数据仓库至少有四个方面已现曙光:

●分析

●ERP/SAP商务智能

●非结构化商务智能

●大量数据的捕获和管理

其中提一下SAP, CIF和数据仓库很自然地与ERP系统合并了, 这方面的领头羊是SAP公司3。SAP在扩展CIF的内涵方面也是一个先行者, 具体表现在SAP BW中的一些创新:

●支持大规模数据;

●服务包括从事务性数据的信息源包装, 到ETL抽取, 和前端的分析展示;

●在R/3领域对商务智能的扩展。建设一个SAP数据仓库意味着将非SAP事务处理数据包括到数据仓库中;

●提供ETL的替代品。

以上, H.Inmon认为, SAP从其遍布世界的客户, 以及对于赋予产品的能力和创新, 远远超过了它的竞争对手, 并且对CIF和数据仓库做出了实际的贡献。

4.4 企业数据仓库建设

CIF企业信息工厂的出现, 使得ERP与数据仓库紧密地联系在一起。根据已经实施的SAP BW经验, 也可以体会到基于ERP R/3系统之上的BW数据仓库实施的好处, 特别是其中已经经过SAP最佳实践产生的含有逻辑的BCT (业务内容) , 这些业务内容导入BW后, 能自动生成模型, 大大减少了从零开始建设数据仓库的时间和效率。

经过4年多的BW实施和应用, 越来越大的数据量如何能更高效地利用?梳理和建设企业数据仓库的问题提到了历史日程上来。那么, 应以哪种方式建立更快速高效呢?我们从两个方面来讲:自底向上和自顶向下。

4.4.1 BOTTOM-UP自底向上建立企业数据仓库

自底向上的方法指的是先建立部门级的数据集市, 再在此之上建立一个统一的集团层面的企业数据仓库。

部门级数据集市的建立可以很快的给业务部门有价值的反馈。业务部门的领导可以快速见到实施效果, 从而加快对企业数据仓库价值的认可, 对很多企业内部更加适合。

但是这种方法可能缺少以集团视角进行的总体设计而使数据有冗余, 且集成性不够。在实施数据集市的同时, 必须要兼顾到未来数据仓库实施的内容, 要有前瞻性, 才能避免走弯路。在企业数据仓库层, 为提高效率必须要集中维护和控制, 并向各个主题的数据集市分发, 从而保证数据质量、数据的整合、和数据的共享。数据集市的建立也要考虑到不同的数据抽取、转换和加载层次。当自底向上的逐步搭建企业数据仓库 (EDW) 时, 如果以前建立的数据集市无法有效的集成到一个企业数据仓库 (EDW/ODS) 层, 某些数据集市可能不得不停止使用, 重新建立。

4.4.2 T OP-DOWN自顶向下建立企业数据仓库

自顶向下的方法将先搭建统一的数据仓库, 最后建立部门级数据集市。这种方法实施时间长, 实施成本和资源较大。通常, 建立满足多个业务部门需求的大数据仓库难度较大。

建立TB级的大型企业数据仓库非常复杂, 备份和恢复需要专业的大型软件和硬件的支持。还需要对系统的效率有很好的优化工具, 才能提高最终用户的满意度。另一方面, 不同的业务部门和用户对于不同数据源的理解和需求往往有比较大的差异。最终的业务目标由于技术和政治上的困难很难在很短时间里建立大型的企业级的数据仓库。

因此从数据集市入手, 逐步建立, 在建立中学习, 可以有效地降低实施风险, 对于交付质量也可以有比较好的控制。

但是, 企业在建设自身的集团级数据仓库时须考虑自身的实际情况, 如果已经通过ERP系统的实施建立了一个较统一的数据仓库的话, 仍可以采用自顶向下的方式扩展数据仓库的应用范围, 这样也可避免数据冗余等问题。

5. 总结与结论

综上所述, 在建设企业数据仓库时, 要考虑企业自身实际情况。对于具有建设集中式数据仓库条件的企业来说, 选择自顶向下的方法可以避免走弯路, 同时也能减少后期维护成本。如果企业不具有建设集中式数据仓库的条件, 选择自底向下的方法不失为一个方便实用的方法。

参考文献

[1]Erik Thomsen.OLAP解决方案:创建多维信息系统[M].电子工业出版社, 2004.

[2]林宇, 等.数据仓库原理与实践[M].北京:人民邮电出版社, 2003.

企业数据仓库 篇2

电信企业参与竞争的利器-数据仓库和数据挖掘

基于Sybase的广东电信数据仓库解决方案

广东电信科学技术研究院

1 概述

随着电信市场的开放,竞争将越来越激烈,利润的降低使得必须从粗放的经营转变到集约的经营,同时经营决策需要尽可能多的定量的依据和尽可能快的速度。所有这些需要技术上的支持----数据仓库和数据挖掘广东省电信科学技术研究院是华南地区通信技术支持及科研开发的最高技术部门,围绕保障通信大网运行安全、高效和通信市场的需求而进行系统维护支持、网管系统开发、多媒体研究、网络技术与市场研究、计费系统研究与开发、人员培训和计量检测等七个方面的工作。研究院目前拥有一支900多人的年富力强、实力雄厚的研发队伍。

研究院开发的Thinker-BC多媒体网综合业务管理系统是一套统一的综合业务管理系统。它为电信运营商以及各级ISP提供一个稳定而灵活的业务支撑平台。该平台能够提供所有的多媒体数据通信基本业务及各种增值服务,该平台具备极强的可扩展性,具备快速的新业务生成、推广能力。系统能够灵活地定义各项服务的资费政策,及各项业务的捆绑销售优惠策略,并对各项服务提供准确、实时的计费功能。其中的数据仓库决策支持系统是基于Sybase的数据仓库解决方案开发的。业务经营决策者可以利用这个系统快速准确地了解到各项业务的发展情况、为进一步的决策支持工作提供坚实的基础。

2 需求主要特点

数据量庞大

目前,广东公众多媒体通信网拨号用户总数已达到70万。根据业务需求分析,广东省163/169网到底的用户总数将达到800万以上,其中拨号注册用户达400万,主叫用户300万,卡用户100万,专线用户也将达到1万户以上。在这些大量的数据背后隐藏着许多重要的信息。

业务结构复杂

系统的最终用户是电信内部的各个部门,因此最终用户的需求不尽相同。

经常变化

业务策略不断变化。表现为资费政策的不断变化。

3 方案介绍

Thinker-BC2000多媒体网综合业务管理系统的数据仓库系统模型如下图所示:

3.1 系统软件平台

数据仓库的实施是一个相当复杂的过程,主要包括五个部分的内容:数据仓库的设计建模、数据转换与集成、数据存储与管理、数据的分析和展现和数据仓库的维护和管理。

Sybase提供了覆盖整个数据仓库建立周期的一套完整的产品包:Warehouse Studio,它包括数据仓库的建模、数据集成和转换、数据存储和管理、元数据管理和数据可视化分析等产品。以下说明了我们是如何结合Sybase的产品来做数据仓库的设计与开发。

数据仓库的设计、建模

数据仓库的设计工作对于决策支持系统起着至关重要的作用,它需要根据决策需求确定主题,从数据源到数据提交,对数据仓库的数据组织进行逻辑结构的设计,还要按照业务用户最能理解的方式组织和提供信息。

在这个阶段,我们使用了PowerDesigner WarehouseArchitect。WarehouseArchitect是个高度优化的数据库工具,广泛用于数据源的逆向工程、建模、数据仓库方案设计,以适应每个业务需求。通过对逻辑设计、物理设计和应用建模进行集成,WarehouseArchitect方便了数据仓库的开发和实现。

数据转换与集成

在进行数据仓库的建立时,最大的挑战之一是如何将原始业务数据转化为一致的格式,使之更好地为决策支持服务。这包括对已有数据的准确性和一致性进行检验、净化,将数据进行转化、提取、转换、装载到数据集市或数据仓库以及对其进行定期更新和管理。PowerMart作为数据抽取工具,从各种异够的数据源中抽取数据,在数据抽取过程,用户可以根据不同的抽取阶段,灵活定制各种数据抽取流程,并定时地将数据加载到数据仓库中。

PowerMart是一个集成的软件产品套件,用于建造和管理数据集市和分析应用。PowerMart交付了一个开放的可伸缩的解决方案,主要定位于数据集市完整的生命周期和分析应用开发及产品化的管理,能够支持多种平台上快速变化的大量数据作为数据来源,进行复杂的转换处理以及支持高速的数据加载。其metadata repository 能够协调并驱动一系列的核心功能,包括抽取、转换、加载和管理等。

PowerMart的图形化用户接口帮助数据仓库管理人员很容易的设计复杂的source-to-target的映射,然后可以由PowerMart强大的服务器来自动地执行,

数据存储与管理

数据仓库的存储可以选用多维数据库,也可以选用关系型数据库或其它特殊的存储方式。数据的存储要保证数据的安全性、完整性、一致性,同时还要具有复杂的分析查询的高效性。

我们选用了Sybase的数据仓库产品Adaptive Server IQ。Adaptive Server IQ是一个关系型数据库,为高性能决策支持和数据仓库的建立而进行了优化。IQ中的关键技术是纵向数据存储(通过列而不是通过行来进行)、Bit-Wise查询索引和数据压缩。

数据分析和展现

联机分析处理(OLAP)是一个分析处理技术,它从企业的数据集合中收集信息,并运用数学运算和数据处理技术,灵活、交互式地提供统计、趋势分析和预测报告。通过多种OLAP工具对数据仓库中的数据进行多维分析、汇总,形成图表或报表的形式,使决策者可以清晰、直观地看到分析结果,这正是数据仓库系统所要达到的目的。

数据仓库的开发应用主要有结构设计、数据集中组织和管理、数据的快速高效访问等。其中数据的访问一般都是由较为成熟的业务智能工具完成,因此不同于OLTP系统,数据仓库系统的前端开发编程量是比较小的,但是其维护工作的时间跨度要大,因为决策支持应用的随意性较强,不可能再象业务系统那样固定一个统一的操作模式。

BusinessObjects作为较早进入中国市场的业务智能提供商,其产品操作精简、功能丰富,并且有直观易懂的前端展现元数据管理部分,在这个解决方案中与IQ的高速查询效率相得益彰。

数据仓库的维护和管理

元数据是关于数据的数据,能够表示、定义数据的意义及系统各组成部件之间的关系的数据,它包括关键字、属性、数据描述、物理数据结构、源数据结构、映射及转换规则、综合算法、代码、缺省值、安全要求及数据时限等。管理好元数据是管理数据仓库的关键。

Sybase的Warehouse Control Center通过对元数据仓库的集中管理,提供了数据仓库解决方案的保证技术。从设计和开发到实现到最终用户访问,由工具和数据库产生的对元数据的密集型集成和管理保证了真正企业级数据仓库的建立。Warehouse Control Center是基于Intellidex技术的为数据仓库开发人员提供的数据仓库元数据管理工具,能够在数据仓库环境下进行数据采集、捕捉、存储、管理和发布逻辑的、物理的以及上下文相关的信息,而不用去管它的物理存储位置是在联合数据仓库上、分布式数据仓库上还是二者兼有。业务用户可以浏览根据其需求而生成的元数据对象,甚至可以使用发布和登记性能请求或选择附加性能。

3.2 系统硬件平台

数据仓库服务器:

sunE5500 / 8 cpu/4G RAM/18G硬盘

运行Sybase IQ。 数据迁移服务器:

IBM Netfinity7600 intel PIII550/ 4 cpu/1G ram/ 36.4 G hd NT4

运行PowerMart Server 管理Web服务器两台:

IBM Netfinity7600 intel PIII550/ 4 cpu/1G ram/ 36.4 G hd NT4

分别运行BO Web Intelligence和Warehouse Control Center Server。 存储网络:

采用Veritas的SAN系统

3.3 系统主要功能

数据仓库与决策支持系统对在线事务处理应用和在线统计分析应用进行有效地隔离。保证了业务管理系统在线事物处理的安全、稳定、可靠、高效地运行,也确保了决策支持系统能够快速及时地获取统计数据。 省中心和地市业务管理人员能够每月按照要求生成预先定义好的标准统计报表。业务分析人员通过非常简单易用的图形界面,能够快速准确地进行语义层查询并把所需的业务数据、信息和分析结果以丰富的形式快速地展现出来,为领导的决策提供准确的依据。 提供数据挖掘功能,挖掘出潜在的影响业务发展的因素。

为客户管理系统提供服务,为客户提供快速的账单及各种服务清单查询。并提供挖掘大客户的手段。

4 结束语

我们已经在广东视聆通和福建163网上,使用Sybase的数据仓库解决方案,成功实施了数据仓库系统,并且基于BO(Business Object)开发了统计分析报表系统。

数据仓库提升钢铁企业成本管理路径 篇3

关键词 钢铁;成本;数据仓库;商业智能

中图分类号 F2 文献标识码 A 文章编号 1673-9671-(2010)112-0185-01

1 数据仓库技术特点

为了更好的使用数据仓库技术,我们首先要明确数据仓库能够做什么,与常规的ERP业务系统有何差别。广义的数据仓库技术又称商务智能,英文为Business Intelligence。从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、OLAP和数据挖掘等技术的综合运用。

1)数据库是面向事务的设计,数据仓库是面向主题设计的。

数据库是为捕获数据而设计,数据仓库是为分析数据而设计。ERP等数据库系统通常是一个联机业务系统,随着业务的发生在不断的创造业务数据。数据仓库等商业智能工具一般不会主动的创造数据,而是收集整理已有的业务数据进行分析、展现。数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。

2)OLAP委员会对联机分析处理的定义为:使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。

3)数据挖掘是通过归纳的方式,在海量数据中主动找寻模型,自动发掘隐藏在数据中的价值信息。

2 钢铁企业启动成本数据仓库开发的前提条件

1)较为完整稳定的成本相关数据来源。ERP等业务系统已经较为成熟,能够产出较为全面完整的业务数据,数据质量能够得到保证,否则数据仓库这样一个分析系统就会成为无源之水。在钢铁企业中主要体现在:①有一个完整稳定的计量管理体系,各生产工序的产耗等基本成本信息能够完整收集并有较高的可信度;②企业的成本管理系统及相关产副品存货、能源、销售等业务系统能够自动及时的收集成本相关业务数据。

2)明确的成本分析主题需求。ERP这类业务系统一般是先有业务,然后再构建系统,目标通常较比明确。而数据仓库作为一个分析系统是在已有的数据基础上进行提炼,从中获取有用的信息和知识,其目标往往是不明确的。这就需要在数据仓库开发前对成本数据甚至相关业务数据有一个整体的把握和认知,从中提炼分析主题。

3 成本数据仓库建设的一般路径

成本数据仓库建设的一般路径-整体规划,分步实施,由易到难,逐步深入。成本数据仓库建设不可能一步到位,它是随着企业的管理水平和业务人员的分析能力而逐步扩展,由基础的成本数据分析到成本专题分析,再到成本数据挖掘,成本分析层次逐步提高。

1)基础应用-综合成本分析平台。在成本数据仓库引入初期,可以考虑先将开发成本报表系统,它是BI的低端实现。①成本报表是需求通常比较明确,源头数据范围主要集中在成本管理数据,开发难度较低;②通过建立综合成本分析平台,满足财务管理部门日常成本分析的需要,提高财务人员工作效率,使财务人员从大量重复的常规手工成本分析报表中解脱出来,使数据仓库的效益尽快发挥出来;③将报表从ERP系统中转移到数据仓库,可以有效降低在线业务系统的运行负荷,使ERP和数据仓库做好各自善长的事情;④数据仓库报表系统并不是ERP报表的简单复制,它是对成本管理数据的重新审视,从中多维分析角度构建成本分析主题。

2)中级应用-成本专题分析。在数据仓库的运用比较成熟以后,可以针对成本管理领域的难点问题梳理出成本专题,建立专门成本分析数据集市。钢铁企业成本管理中常见专题分析如下:①针对质量成本损失建立质量成本数据集市;②针对钢铁产品品种决策问题,建立明细产品成本计算和盈利能力分析数据集市,为品种结构战略分析、接单生产组织和品种拓展以及公司用户管理和差异化定价提供决策支持;③为解决成本标准制定问题,建立成本指标分析数据集市,为基层生产与管理人员提供现场成本管理工具。

3)高级应用-自主分析、数据挖掘。在培养一批能够熟练运用系统分析工具的业务专家后,有一些企业已经开始进入高端BI,叫做数据挖掘。通过使用OLAP和数据挖掘工具,从业务数据中提炼知识。通过将先进的数据挖掘技术引入到钢铁生产成本管理领域,可以从大量的钢铁生产成本历史数据中获得潜在的规律和发展趋势,以指导钢铁生产,降低产品成本。数据挖掘的方法很多,目前比较常用的有关联法、聚类法、相关性分析和偏差分析等。常用的技术有数理统计分析、神经网络、专家系统、智能代理、决策树和遗传算法等。

4 成本数据仓库建设中应注意的问题

1)数据源质量风险:源头系统数据缺失,数据异常。①严格执行源头数据源头调整原则,系统逐级确认;②数据仓库系统采用合理的数据清洗规则,异常数据报警反馈机制,并提供异常数据修正机制。

2)需求确认风险:需求不明,需求无法按时定案,反复改动、调整,影响系统开发进度。①紧密围绕项目目标,进行必要的需求控制,避免需求泛滥;②建立跨部门的项目工作小组,各部门专人负责,明确责任;③细化需求分析节点,渐进式分阶段的实施与必要的项目总结机制保证。

3)系统平台风险:选型不当,性能无法满足。①系统平台选择注重成熟性和可扩展性,满足业务系统扩展、公司规模扩张和产品发展的需要;②设备采购与项目开发同步进行,需要保证项目过程中每个节点所需配套的设备采购情况按时到位。

参考文献

[1]数据仓库.(Building the Data Warehouse),W.H.Inmon 著,机械工业出版社出版.

[2]杨文灏.数据仓库、OLAP和数据挖掘的比较分析[J].金融电子化,2008,2.

数据仓库在发电企业的应用 篇4

数据仓库提出了30多年,但是在发电行业的应用不是很理想。主要原因是:数据仓库建设是个复杂的系统工程,主要应用于发电企业集团层面,用于决策分析处理;受到各个发电集团整体信息化建设水平制约,各发电集团所属电厂信息化建设参差不齐,有的信息化建设还停留在流程管理层面,为实施基于数据仓库的数据集成工作增加了很大难度。

国华公司自成立起就重视信息化建设,按照国华信息化建设的“统一领导、统一规划、统一标准、统一组织开发实施、统一建立长效运行和改进机制”的五统一原则,建设了分散布置的生产管理信息系统(BFS++)、生产实时系统(PI)、性能计算与耗差分析系统(OPTIPRO)、巡点检系统、电子图档系统、基建管理信息系统等,两级布置的技术监督系统和两级门户系统,集中布置的生产经营统计和Oracle ERP套件(人力资源、财务管理、物资管理、燃料管理)等。经过多年的信息系统标准化和深化应用工作,统一了应用系统选型,统一了各个应用系统的基础数据标准、管理流程、界面及功能,这为国华公司建立基于数据仓库技术的数据集成打下坚实的基础。

1 数据仓库简介

1.1 数据仓库

数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用于支持企业或组织的决策分析处理。

1.2 数据挖掘

数据挖掘,就是从大量数据中获取有效、新颖、潜在有用、最终可理解模式的过程。

1.3 商务智能

商务智能是一种解决方案。从许多来自不同的信息系统的数据中提取出有用的数据并进行清理,然后经过抽取、转换和装载过程,合并到数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理,最后呈现给管理者,为管理者的决策过程提供支持。

2 发电企业信息化建设面临的问题

2.1 数据孤岛

经过多年的信息化建设,各发电企业现在都运行着不同时期开发的生产和经营管理软件,由于历史的客观原因,多数系统之间相互独立,数据无法实现共享,从而形成了大大小小的“信息孤岛”。当数据库处于“割裂”状态时,不能进行综合交叉数据分析以及把数据转变成决策信息,是集团型发电企业信息系统不能发挥应用功能的关键所在。

2.2 数据源不统一

发电企业在进行信息化建设的早中期,由于历史的客观原因,没有很好地对企业资源和业务进行全面分析,也就没有对信息化进行统一规划和建设,实施的各软件系统之间存在功能重叠。同一业务类型数据可能要在不同的系统多次进行采集和录入。数据源的不一致,就有可能导致出现同一数据的相异现象。

2.3 国华信息化建设面临的问题

国华公司信息化建设也面临同样问题,国华公司生产门户系统为2004年建设的重点信息化项目,应用软件使用西门子公司的电力门户软件(包括西门子Cockpit和微软Sharepoint平台)。虽然国华生产门户通过Sharepoint平台实现了实时数据及关系型数据的同平台展示,但是对于应用系统的关系型数据只实现了查询和简单的统计分析;即使简单的统计分析也是通过编程来实现的,工作量很大,不易于维护,效果不好;较为复杂的查询和统计分析不能实现,更不用说跨应用系统的统计分析。最终的结果是领导决策需要的相关统计分析数据量很少,非相关数据量大增。

3 国华数据仓库的建设目标

随着厂网分开和煤价的不断上涨,国内发电企业都面临盈利问题,发电集团的决策层渴望能够实时、动态地掌控各发电公司的财务状态、生产状况、备品备件的库存状况、日常营运状况等,以帮助提高企业的整体效率和执行水平,减少执行成本,提高企业的健康、安全、环保标准,提高资产利用率,扬长避短,实现企业整体盈利水平的改善和提升。

根据发电企业的性质,即使做了很好的规划,信息系统建设也无法在一个信息平台完成。每个发电公司都建了很多的信息系统,决策层想了解企业的生产经营状况,需要登录不同的信息平台去查询,如果不能建立不同信息系统之间的数据关联,就无法实现对决策的支持。如何将这些信息系统的指标数据集成到一个数据库当中,按不同主题、不同纬度将来自不同信息系统相关联的指标数据组合到一起,实现指标数据跨平台展示,让决策层从一个表单中能够了解某一主题的相关指标数据,及时掌握企业的生产经营状况,辅助领导决策,是目前发电企业亟需解决的问题。

针对国华公司信息化建设过程存在的问题,确定了国华生产门户系统深化应用以“高度集中、高度集成、数据深度挖掘”为建设目标,并将国华生产门户系统改名为国华决策支持系统,利用商务智能工具对发电管理模块关系型数据的展示功能进行重新设计,强化发电管理的分析功能;通过数据仓库技术,将发电管理、物资燃料、经营管理等关系型数据库的分析数据集成到数据仓库当中,通过商务智能工具进行展现。逐步使门户成为动态监督和分析评价公司主要业务领域状态的主要平台。

4 国华数据仓库架构设计

随着各行各业对数据仓库的应用,涌现了很多数据仓库和BI商务智能工具。数据仓库产品包括CA、IBM、Oracle、Sybase、Informix、微软、NCR等,BI商务智能工具包括MSTR、BO、Oracle BIEE、Cognos等,价钱也差别很大,但是基本功能都具备,即通过数据仓库的数据提取、转换和加载,通过商务智能工具进行展现。

数据仓库的建设是个系统工程,需要统筹规划,要结合行业特点、业务范围、业务需求、历史数据、产品的技术特点及其成功案例选择产品供应商。结合国华公司信息化现状,首先选择的产品要能集成到Microsoft Sharepoint平台当中,其次要满足国华公司门户系统建设目标的需求。国华公司在2008年选择了基于SQL Server数据仓库、可以与Microsoft Sharepoint无缝集成的商务智能工具。具体技术过程为:确定数据源的数据表,建立与数据源的数据链接,建立维度表及数据事实表,把从数据源中取得的数据放到数据仓库已经设计好的表中,通过OLAP设计建立一个以维度表和事实表相关联为基础的模型,在这个模型的基础上形成报表,最后通过商务智能工具进行展现。

分析国华信息系统,根据数据的类型分别采用不同的方式进行抽取。(1)对于BFS++数据、技术监督数据、可靠性指标数据、生产经营指标数据等,通过ETL工具直接抽取到SQL Server数据仓库当中;(2)对于ERP数据,由于数据结构复杂,首先在ERP数据库中建立临时表,将所需要的数据抽取到临时表中,然后通过ETL工具抽取到SQL Server数据仓库当中;(3)对于生产实时数据,通过PITOPI接口程序,将需要的各电厂实时数据抽取到国华本部PI数据库当中。

根据抽取上来各种类型数据,建立各种主题、多维度分析,通过商务智能工具展示在Sharepoint平台当中,通过域用户分级管理将数据展示给决策层、各级管理人员和技术人员。数据仓库的技术架构如图1所示。

5 国华数据仓库功能设计

首先对国华公司信息系统进行了详细的梳理,总结出需要在门户系统展示的数据:经济性指标、可靠性指标、运行管理指标、安全环保指标、技术监督指标、缺陷管理指标、基建管理指标、物资燃料管理指标等数据。

1)缺陷、运行、安全指标数据。缺陷、运行和部分安全指标数据来自于布置在各发电公司的BFS++生产管理信息系统,通过国华系统专线,将BFS++的缺陷单、工单、工作票、风险预控单等数据提取到SQL Server数据库中,通过数据仓库及商务智能工具,对各发电公司的缺陷单、工单、工作票的完成情况进行对比和环比分析,为国华生产管理部门提供对各发电公司的检修管理水平评价提供数据依据;对于各发电公司的缺陷按设备的供应商情况进行归集,找出发生缺陷最多的设备供应商,为对设备供应商评价提供技术依据;对于高风险的检修作业,直接提取到门户系统当中,以便于及时掌握电厂高风险检修作业的风险预控情况,降低检修风险。

2)经济环保指标数据。经济环保指标数据来自集中布置的国华公司经营统计信息系统,将该系统中的各发电公司的生产日报指标数据、经营定报指标数据、经营快报指标数据提取到数据仓库中,然后按主题进行对比和环比分析,为领导和业务部门经营决策提供经营数据保障。经济环保指标数据分析包括:(1)日报分析包括燃料指标、锅炉指标、汽机指标、辅机指标、煤质指标、水耗指标、环保指标、电量指标对比和环比分析;(2)月报指标包括:10个定报报表指标、3个快报报表指标、4个中电联报表指标等指标数据的对比环比分析;(3)国华公司机组利用小时数、厂用电率、供电煤耗、发电煤耗、装机容量、供电量与其他主要发电集团公司的对比分析;(4)上报神华各种生产经营月报、国华调度日报等指标数据的统计分析。

3)技术监督指标数据。技术监督指标数据来自国华本部级技术监督系统,将该系统中的继电保护、电能、电测、环境保护、节能、金属、绝缘、励磁、汽机、热工、水工等11项技术监督指标数据提取上来,并按11项技术监督为主题,进行环比和对比分析,为对各发电公司技术监督评价提供数据支撑。同时通过将各节能减排数据综合到一起进行分析,可以客观地了解到各发电公司的节能减排管理情况。

4)生产实时数据。生产实时数据来自分散布置在各发电公司的生产实时系统,对于实时数据有以下3种处理方式:(1)通过PITOPI接口程序,将相关生产实时数据抽取到国华本部生产实时数据库中,生成SVG图,展示在国华决策支持系统当中;(2)将各发电公司的PI图转成SVG图(这部分实时数据不抽取),集成到国华决策支持系统当中;(3)将各发电公司的生产实时系统中的负荷数据集成到门户系统当中,计算出机组的负荷率,按每天96个实时点计算出各个实时点的平均负荷率,通过商务智能工具展示,可提供每天国华公司各个发电机组的日负荷的峰谷平情况。

5)可靠性指标。可靠性指标数据来源于各发电公司可靠性系统和国华本部可靠性系统。将电厂可靠性指标、机组可靠性指标、辅机可靠性指标提取到数据仓库中,并将各可靠性指标进行对比环比分析,形成机组可靠性排名。

6)物资燃料数据。将集中企业资源系统中需要的物资燃料指标数据,在ERP系统中生成临时表,再提取到数据仓库当中。包括物资收耗存指标数据、物资采购指标数据、物资库存帐龄分析、可调剂物资现有量分析、燃料的收耗存、燃料计量、燃料质量检验等指标数据对比环比分析,为国华公司的物资燃料指标分析提供数据依据。

7)设备报警分析数据。根据设备报警平台的报警情况,统计出日、周、年设备报警情况,包括按专业、按主附设备进行查询,为国华公司的生产运营周报提供技术支持。

8)跨平台指标数据分析。根据业务部门的需求,实现生产月报分析、安全生产总体情况分析、电厂生产指标分析、国华调度日报、神华调度日报等统计分析功能。

6 应用效果

经过2008年至2011年4年的建设及深化应用,国华决策支持系统实现了从业务系统的数据查询及简单的数据统计向决策支持系统的转变。集成了公司绝大部分生产和经营业务数据,实现用户的分层次个性化访问和功能定制,实现了关系型数据与实时数据同平台展示,实现了发电公司生产数据、生产状况的实时传递,实现数据及时、准确的共享,消除上下信息不对称的管理问题,实现了数据源唯一、数据完整、数据的准确性和可比性得到大幅度提升;实现了指标数据跨平台展示,建立了统一的商务智能平台(见图2)。

7 结语

国华公司决策支持系统已成为公司业务部门及领导了解各个发电公司及机组的安全、生产、经济运行的主要平台。

1)消灭信息孤岛,建立起了企业级数据仓库和统一的综合应用平台,实现了跨平台的系统集成与数据集成,消除了发电公司内各信息系统间、各发电公司间、发电公司与本部间的信息孤岛现象,充分实现了数据跨专业、跨部门、跨单位、跨系统的横向与纵向共享。

2)集中式环保数据监测和评价、生产实时数据画面的集中展示、设备报警参数报警情况的查询及统计分析等为技术研究单位了解各发电公司生产经营情况,了解机组运行的健康水平,为向发电公司技术支持提供了技术保障。

3)职能部门可以通过对生产、经营、环保、技术监督、物资燃料、人力资源、财务、管理等指标的专题分析等,通过机组间、电厂间的横向对比,指标数据的环比,实现对业务的长期趋势、异常感知等分析。

4)国华公司领导通过重要指标数据的环比和对比分析,可以动态掌握整个公司的生产经营情况,及时调整生产经营战略,提高公司的盈利水平。

参考文献

[1]张公让.商务智能与数据挖掘[M].北京:北京大学出版社,2010.

[2]李东,梁定澎.决策支持系统与商务智能[M].北京:中国人民大学出版社,2010.

[3]王丽珍.数据仓库与数据挖掘原理及应用[M].2版.北京:科学出版社,2009.

[4]刘承水.数据挖掘技术在发电企业的解决方案[J].电力信息化,2004,2(8):45–47.

数据仓库与数据挖掘结业论文 篇5

参考题目:

1.数据挖掘技术在数据仓库中的应用

2.关联规则在数据仓库中的应用

3.Aproior算法及其改进

4.决策树算法综述

5.聚类技术在XXX中的应用

6.XXX分类算法在XXX中的应用

7.分类算法的比较

8.聚类算法的比较

9.……

10.……

要求如下:

1.最上面内容为:姓名、学号、专业和成绩,见模板。

2.题目居中,宋体4号字加粗。

3.正文:首行缩进2个汉字,宋体小四号,行间距为1.25,页面设置为:左-2 右-1.5 上-2 下-2.左侧装订。

4.若包含图或表,则居中。

5.至少4页,并在每页下面的中间加上页码。

模板如下:

姓名___________ 学号____________ 专业______________ 成绩_____________

题目

1.引言

2.XXX

3.XXX

4.…

数据仓库与数据挖掘技术 篇6

关键词:数据仓库;数据挖掘

中图分类号:TP392文献标识码:A文章编号:1009-3044(2007)15-30631-02

On Data Warehouse and Data Mine

SHENG Wei-xiang1,LONG Jia-li2

(1.Department of Science & Law,Jiangxi Vocational College of Politics and Law,Nanchang 330013,China;2.College of Automation, Nanchang Hangkong University,Nanchang 330036,China)

Abstract:The Data Mine is a burgeoning technology,the research about it is developing flourishly.In this paper,it expatiates and analyses the concepts of Data Warehouse andData Mine.Together,discussing the connections of how to expand the two technologies,and combining the two technologies with prospect.

Key words:Data Warehouse;Data Mine

随着信息时代的不断进步,社会正处于数据技术飞速发展的良好状态。但是,在数据信息极度膨胀的同时,并非所有的数据都可被利用,大量的数据浪费,造成各种损失,所以有必要将这些数据转化为有用的信息。而传统的数据处理方法越来越不能满足使用要求,迫切需要一种从大量数据中搜索集中并去伪存真的技术。20世纪80年代后期至今,高级数据分析——数据挖掘(Data Mining,简称DM)发展起来,是开发信息资源的一套科学方法、算法以及软件工具和环境,是集统计学、人工智能、模式识别、并行运算、机器学习、数据库等技术为一体的一个交叉性的研究领域[1]。

1 数据挖掘

1.1数据挖掘定义及实现过程

数据挖掘就是用来发现隐含的、事先未知的、潜在的有用知识,提取的知识可以表示成概念、规律、模式等形式。其挖掘对象不仅可以是数据库,也可以是文件系统或组织在一起的数据集合,更主要的是数据仓库[2]。简单的说,数据挖掘是提取或“挖掘”知识。目前,数据挖掘是可以从统计学、数据库和机器学习等三个方面进行定义。从统计学的角度,数据挖掘是指分析所观察的数据集以发现可信的数据间的未知关系并提供给数据拥有者可理解的、新颖的和有用的归纳数据[1]。从数据库的角度来看,数据挖掘是指从存储在数据库、数据仓库或其他信息仓库中的大量数据中发现有趣的知识的过程[1]。从机器学习的角度,数据挖掘定义为从数据中抽取隐含的、明显未知的和潜在的有用的信息[1]。可以理解为,数据挖掘是一个从已知数据集合中发现各种模型、概要和导出值的过程。图1表示的是典型的数据挖掘系统的结构。

过程表述如下:从数据库或数据仓库等资源库中收集数据,并进行信息的初步筛选;根据用户对数据信息的要求,由服务器提取并传输有用的数据;为了对已经采集到的数据进行更有效的分配,数据挖掘引擎对数据进行特征化、关联、分类等操作;然后将精确划分的数据信息进行模式评估,从而使搜索仅限制在感兴趣的模式上,通过图形用户界面,用户可以方便的与数据挖掘系统之间通信,实现对数据的使用。

1.2数据挖掘分类

数据挖掘是一个交叉性的学科领域,涉及数据库技术、统计学理论、机器学习技术、模式识别技术、克视化理论和技术等。由于所用的数据挖掘方法不同、所挖掘的数据类型与知识类型不同、数据挖掘应用的不同,从而产生了大量的、各种不同类型的数据挖掘系统。掌握数据挖掘系统的不同非类,可以帮助用户确定最适合的数据挖掘系统[1]。

图1 典型的数据挖掘系统的结构

(1)根据所挖掘数据库类型的不同来分类:有关系型数据挖掘系统、对象型数据挖掘系统、对象-关系型数据挖掘系统、事务型数据挖掘系统、数据仓库的数据挖掘系统,等等。

(2)根据所挖掘的知识类型来分类:分为特征化、区分、关联、分类、聚类、孤立点分析(异常数据)和演变分析、偏差分析、相似性分析等分类。

(3)根据所采用技术的分类:有自动数据挖掘系统、证实驱动挖掘系统、发现挖掘系统和交互式数据挖掘系统。

(4)根据数据挖掘方法来分类:如面向数据库的方法、面向数据仓库的方法、机器学习方法、统计学方法、模式识别方法、神经网络方法等。

(5)根据数据挖掘应用的分类:有金融数据的数据挖掘系统、电信行业的数据挖掘系统、DNA序列数据挖掘系统、股票市场数据挖掘系统、WWW数据挖掘系统等等,不同的应用通常需要集成对于该应用特别有效果的方法。因此,普通的、全功能的数据挖掘系统并不一定适合特定领域的数据挖掘任务。

1.3数据挖掘任务

数据挖掘任务有6项:关联分析、时序模式、聚类、分类、偏差检测、预测[3]。

关联分析是从数据库中发现知识的一类重要方法。若两个或多个数据项的取值之间重复出现并且概率很高的时候,就存在某种管理,可以建立起这些数据项的关联准则。

通过时间序列搜索出重复发生概率较高的模式。这里强调时间序列的影响。

数据库中的数据可以划分为一系列有意义的子集,即类。在同一类别中,个体之间的距离较小,而不同类别的个体之间的距离偏大。聚类增强了人们对客观现实的认识,即通过聚类建立宏观概念。

分类是数据挖掘中应用最多的任务。分类是找出一个类别的概念描述,它代表了这类信息的整体,即该类的内涵描述。一般用规则或决策树模式表示。该模式能把数据库中的元组影射到给定类别中的某一个。

数据库中的数据存在很多异常情况。从数据分析中发现这些异常情况也是很重要的,应该引起足够的重视。偏差检测的基本方法是寻找观察结果与参照之间的差别。观察常常是某一个领域的值或多个域值的总汇。参照是给定模型的预测、外界提供的标准或另一个观察。

预测是利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类、特征等。近年来,发展起来的神经网络方法,如BP模型,实现了非线性样本的学习,能进行非线性函数的判别。分类也能进行预测,但是分类一般用于离散数值;回归预测用于连续数值;神经网络方法预测两者都可用。

2 数据仓库概述

数据仓库对不同的使用者、不同的操作范围,它有不同的意义。被誉为数据仓库之父的W.H.Inmom将数据仓库(Data Warehouse)定义为[4]:是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。对于数据仓库的概念可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

数据仓库具有以下特征:

(1)数据是面向主题的

传统的数据仓库只是单纯的数据的集中,在处理不同事务时执行不同的操作。而现今的数据仓库是有较强主题组织性的,高层次地将数据归类,去除无用的数据。

(2)数据的集成性

因为数据的来源是多方面的,必须根据一定的规则将所有的数据进行重新构造,即数据的集成。

(3)数据的相对稳定性

数据仓库中的数据是历史数据,具有一定的借鉴性,不会有大的变动。

(4)数据的不易失性(长期性)

数据仓库只是物理式的、筛选式的存放数据,不会改变数据本身的性质,那么其数据结构必定包含有时间效果,这样才能更好的体现历史数据的趋势预测性。

3 数据仓库与数据挖掘的关系

既然数据仓库的唯一功能是向终端用户提供信息以支持决策者,数据挖掘体现了数据仓库的一个最重要的应用。与其他查询工具和应用系统不同,数据挖掘过程向终端用户提供提取隐藏的、非同等常的信息的能力。这种信息虽然很难提取,但能提供更大的商业和科学利益,也能使对“数据仓库和数据挖掘”的投资产出更高的利润[5]。

从数据仓库的观点,数据挖掘可以看作是联机分析处理的高级阶段。但是作为更高级的数据分析技术,数据挖掘比数据仓库的汇总分析要详细和深入的多。数据仓库技术的发展与数据挖掘有着密切的关系。数据仓库的发展是促进数据挖掘越来越热门的原因之一。但是,数据挖掘并不一定要有数据仓库的支持,即数据仓库并不是数据挖掘的必要条件,因为有很多数据挖掘可直接从操作数据源中挖掘信息,同时,数据挖掘仍然经常被看做是数据仓库的后期市场产品,因为那些努力建立起来的数据仓库有最丰富的数据资源可供挖掘。显然,数据仓库被更为广泛地接受将使人们对数据挖掘更感兴趣。

从数据仓库中直接得到进行数据挖掘的数据有许多好处。数据仓库的数据清理和数据挖掘的数据清理差不多,如果数据在导入数据仓库时已经清理过,很可能在做数据挖掘时就没必要再清理一次了,而且所有的数据不一致的问题都已经得到解决了。

数据挖掘库可能是数据仓库的一个逻辑子集,而不一定非得是物理上单独的数据库。但如果数据仓库的集中资源已经很紧张,那最好还是建立一个单独的数据挖掘库。

为了数据挖掘库,也不是一定要建立一个数据库。因为建立一个巨大的数据仓库,要把各个不同资源的数据集中在一起,并解决所有的数据冲突问题,然后把所有的数据导入一个数据仓库内,是一项非常巨大的工程,比较麻烦,需要时间和金钱的花费。如果只是为了数据挖掘,可以把一个或几个数据库导到一个只读的数据库中,就把它当作数据集合,然后在这上面进行数据挖掘。其中如何抽取、集成、筛选并准备数据以解决其最为紧迫的业务问题,将是分析人员在进行数据挖掘时所面临的最大挑战。解决这些问题,不仅是数据挖掘过程中的一个艰巨任务,而且需要耗费大量的时间。尽管在数据挖掘中并非一定要有数据仓库的支持,但数据仓库的确为数据集成和准备提供了一个好办法。

4 总结

构造在数据仓库平台的数据挖掘具有很强的实用性,效率很高,节省资源。目前,数据仓库和数据挖掘技术在科学研究、市场流通、企业管理等应用方面已经达到了一定的水平。随着信息化的加强,数据仓库的多维化和数据挖掘的效率化将更有效的结合起来,促进整个信息产业的发展。

参考文献:

[1]焦李成.等.智能数据挖掘与知识发现[M].西安:西安电子科技大学出版社.2006.8:1-7.

[2]Dustin R Callaway.精通Servlets[M].北京:清华大学出版社.2002:20-45.

[3]陈文伟.等.数据挖掘技术[M].北京:北京工业大学出版社.2002.12:1-6.

[4]钟飙等.数据仓库与数据挖掘技术概述[J].计算机与网络.2003.2:11-15.

[5]夏火松.数据仓库与数据挖掘技术[M].北京:科学出版社.2004.:26-29.

热电企业经营管理数据仓库建设 篇7

数据仓库的建设是当前热电企业信息化的新热点, 许多企业开始尝试建设数据仓库, 试图通过这种信息技术的新手段, 解决企业信息化建设中的“信息孤岛”问题, 分析企业经营过程的问题, 改善热电企业经营运作效率。数据仓库平台的建设要求性能优越, 容易扩展, 以便于适应企业多变的、动态的数据环境。要达到这一要求, 重要的是要建立一个可扩展的系统结构。而对于数据仓库系统结构实施方案, 业界存在“自顶向下”和“自底向上”两种观点, “自顶向下”的实施方式是先建立一个覆盖所有业务流程的企业级数据仓库, 然后再根据不同的主题建立数据集市, 这种实施方案存在的不足是耗费时间多、费用比较高;而“自底向上”实施是先设计部门级的数据集市, 然后再在数据集市基础上构建企业级的数据仓库, 这种方案在实施过程中由于单独设计数据集市, 容易形成新的“信息孤岛”。

本文提出的解决方案是将“自顶向下”和“自底向上”二者结合起来, 弥补相互存在的不足。具体思路是:首先站在全局的基础上规划企业级数据仓库的数据模型;然后根据这些数据模型, 分步实施部门级的数据集市, 最终再将这些数据集市组装成一个企业级的数据仓库。

2 热电企业数据仓库体系化结构模型

根据热电企业信息化实际情况, 我们得出热电企业数据仓库的体系结构模型 (见图1) 。从模型中可看出, 整个体系结构共分4层:热电企业数据源层、数据转换层、数据仓库 (数据集市) 层以及终端用户层。

系统最左端为热电企业数据源层, 主要包括各种业务管理系统 (如计费、财务、物资、燃料、设备等) 和外部数据 (如市场数据、气象数据、人口统计数据等) 。

数据转换层主要包括各种数据抽取、转换工具, 如数据抽取 (ETL, extract, transform and load) 工具实现从数据源抽取、转换、加载数据;数据清洗工具实现数据的净化, 消除数据冗余和噪声等。正是通过数据转换层, 实现了从细节级、轻度综合、中度综合直至高度综合的企业级全局数据仓库。

终端用户通过联机分析 (OLAP) 和数据挖掘等的分析引擎, 可以围绕某个主题 (分析主题包括客户、经营分析、设备状态检修、服务质量等) 进行不同角度、不同层次的OLAP分析, 从而得到各类分析报告, 解决决策支持需要;还可以通过数据挖掘的各种功能实现包括热力需求预测、设备检修预测、客户关系分析等。

3 热电企业经营管理数据仓库建设过程

热电企业经营管理数据仓库的开发流程如下:

(1) 系统规划。根据企业管理的目标、内容、规模、性质等具体情况, 通过规划确定热电企业经营管理数据仓库建立的方向和目标, 制订实施计划, 合理分配和利用各种资源 (人、技术设备、资金、时间) 。

(2) 构建技术平台。根据热电企业特点, 选择实现数据仓库的开发平台、数据存储平台、开发工具。数据仓库的建设应该根据系统规划的方向和目标, 提出适合本企业的解决方案。不要一味追求大而全, 造成资金的浪费。

考虑到热电企业数据量每天的增量应该在百兆以内, 每年的数据量只是几个G左右, 因而PC服务器可以满足数据仓库建设需要。所以选择PC服务器+Windows 2000Advanced Server作为服务器平台, 数据库平台选用SQL Server 2005, 数据抽取工具选择DTS, 多维分析引擎选择SQL Server Analyses Service。

(3) 进行数据仓库维度模型的设计。根据企业具体情况, 确定数据仓库主题, 选择数据源, 设计领域模型、多维数据表模型, 设计物理模型即事实表和维表对应的物理表。

(4) 数据转换。选用特定的转换工具实现从不同的数据源抽取、转换、清洗数据, 进行数据一致性处理。建立起数据仓库。

(5) 开展数据分析、数据挖掘。利用O-LAP工具开展数据分析工作;使用Analysis Server工具进行维度、度量值以及多维数据集的创建, 运用维度浏览器进行多维数据的查询、编辑操作, 对多维数据集进行切片、切块、旋转、钻取操作, 开展各类数据挖掘工作, 从而实现决策支持。

4 热电企业经营管理数据仓库维度模型设计

数据仓库系统的维度建模得出的模型应该容易为数据仓库的使用者理解, 而基于星型连接的维度模型是比较易于理解的呈现方式。采用星型模式设计的数据仓库主要数据都存储在事实表中, 查询时只要扫描事实, 不必连接多个庞大的表, 访问效率较高。从国内外的数据仓库项目实践经验看, 数据仓库项目成败, 维度模型设计是其中的关键因素。

4.1 热电企业经营管理维度数据模型的设计

维度模型一般有两种不同性质的表:事实表和维度表。事实表是维度模型的基本表, 存放业务性能的度量值;维度表是进入事实表的入口, 提供观察度量值的角度。维度属性的丰富决定了数据仓库的分析和切割能力。基于热电企业数据仓库系统的响应速度、复杂性和系统的维护工作量等方面考虑, 在实施数据仓库系统的建设时, 采用星型模式。

按照数据仓库总线结构的实施方案, 必须首先设计好企业级数据仓库的数据模型, 然后才能按照该数据模型实施独立的数据集市。在设计数据仓库维度数据模型时必须彻底研究企业数据源, 并且充分调研用户需求。热电企业数据仓库维度模型的设计大致可以分为如下几个步骤:

(1) 业务流程调查。可将热电企业按照热电建设、热电生产、资产维护、热电营销以及热力交易市场等5个带有较强独立性的业务流, 全面细致地了解整个系统各方面的业务流程, 商流、物流和信息流的流通状况。

(2) 针对各个业务部门分别绘出一二级数据流程图, 弄清其输入、处理、存贮、输出、立即存取要求, 收集相应资料。理顺各个岗位、各个业务流程之间的关系。

(3) 选取维度。选定事实表的粒度后, 时间、缴费与供热等方面的维度就随之被确定下来。在确定了维度之后, 还需要对其加以细化。结合前面对数据流程图等的分析, 列出热电企业基本的数据集市以及相关维度。

(4) 对数据仓库系统维度模型进行优化, 避免多表连接、表的累计、数据排序、大表扫描, 提高系统响应速度。

通过上面的几个步骤可以基本实现企业级的概念数据模型和数据仓库总线结构的设计, 基于这种可扩展的数据模型就可以逐个建立独立的数据集市。

4.2 实例分析

通过维度模型可以实现数据仓库基于一致性维度和事实的总线结构, 从而把不同的数据集市通过维度表紧密关联起来, 实现主题间数据的集成, 消除企业信息孤岛, 解决多数据源问题, 并最终建成企业级的数据仓库。这里以热力营销业务为实例, 对数据仓库维度建模技术的实际应用进行说明。针对热电企业数据仓库系统的特点, 并通过对数据源的分析, 热电企业数据仓库采用星型模型维度建模, 热量计量和热费缴纳作为事实表, 对热力营销部门相关业务数据和业务流程的分析, 可以确定相应的决策主题, 列出各应用项目相对应的相关维度, 如表1所示;然后针对每个主题建立维度模型, 即建立单元数据集市, 图2是其中的热量计量和热费缴纳两个主题的维度模型实例。实际上, 通过一个主题维度模型即可以建立一个单元数据集市。从图2中可以看出, 这两个数据集市通过用户维、时间维紧密连接, 当继续建立新的数据集市并逐步扩展到整个热电企业, 就可以构建企业级数据仓库。

5 总结

数据仓库具有主要面向分析型应用、辅助企业进行分析决策的强大优势, 它可以应用于热电企业各个部门。热电企业经营管理数据仓库的建设是一项庞大复杂的系统工程, 必须严密组织、细致规划、逐步实施, 充分结合热电行业的特点, 有的放矢。同时它的建设不可能一蹴而就, 需要信息管理专家、业务专家、管理专家的共同参与, 在实践中不断调整, 积累经验。

当前数据仓库在热电企业中的应用还处于初期阶段, 许多功能仍在探索中。随着数据仓库技术的发展, 我们相信数据仓库技术在热电企业经营管理中的应用也将进一步完善。

摘要:数据仓库技术是当前企业信息化应用领域的热点话题。本文对热电企业经营管理过程中如何构建数据仓库提出了新的解决方案, 即将“自顶向下”和“自底向上”两种实施方式结合起来。首先分析了热电企业数据仓库体系化结构模型, 然后具体介绍了热电企业数据仓库建设步骤, 结合热力营销实例分析了数据仓库维度数据模型的设计方法。

关键词:热电企业,数据仓库,维度,数据集市

参考文献

[1]叶彬, 曾伟民, 肖治华.数据仓库在电力系统中的应用[J].电力系统及其自动化学报, 2005 (3) :10-14.

[2]Su Chao-ton, Hsu J H.Precision Parameter in the Variable Precision Rough Sets Model:An Application[J].The International Journal of Management Science, 2006, 34 (2) :149-157.

[3]谷海彤.地区电力调度数据仓库建模与数据处理[J].电力自动化设备, 2006 (10) .

[4]何晓峰.调度自动化系统增强型数据仓库平台构建及应用[J].电力系统自动化, 2008 (4) .

[5]吕海燕.数据仓库在银行客户关系管理中的应用[J].大连海事大学学报, 2007 (S1) .

[6]Du Timon C, Wong Jacqueline.Design Data Warehouse for Supply Chain Manage-ment[C]//Proceeding of the IEEE International Conference on E-Commerce Technology, 2004:170-177.

[7]杨峰, 孙莉, 汪湲.电力企业信息化新技术研究--数据仓库[J].山东电力技术, 2005 (6) .

[8]陆昌辉.基于多维数据建模的一体化平台[J].计算机工程, 2007 (21) .

[9]沈轶.基于数据仓库技术设计与实现的企业设备管理系统[J].华中科技大学学报:自然科学版, 2005 (12) .

浅议企业数据仓库的实现模式 篇8

那么企业如何才能管好自己的数据并让其有效地为自身服务呢?“数据仓库”是时下非常流行的一种概念。随之而来的解决方案平台和标准制定者也很多,如:Microsoft(微软)、Hyperion(海波龙)、SAS(塞仕)等等。诸多产品在给企业带来更大的选择空间的同时,也带来了更大的选型和实施的成本。对于企业而言,不论借助哪种软件产品,探索出一种适合自身的、行之有效的数据仓库实现模式,是必须由企业信息化自己完成的。该文将从数据的存储模式、数据的集成和数据的展现这三方面浅议一种数据仓库的实现模式。

1 数据的存储模式

多数企业都有自己的一套有效且稳定管理信息系统,如:ERP、PDM、OA等,这些是企业信息化工作的起点,也是其进一步开展以数据为主题的信息化工作的基础。然而,这些管理信息系统的开发商、设计架构、数据库系统通常都不尽相同,因此,我们首先要做的就是统一数据的存储模式。

1.1“数据仓库”数据库

“数据仓库”数据库是相对于业务数据库或管理信息系统数据库而言的,表现为独立的数据库服务器或数据库实例。如图1所示。

显然,“数据仓库”数据库并非将业务数据库或管理信息系统数据照搬堆砌而成,中间经过了“数据集成”过程的转换。这就意味着“数据仓库”数据库可以具有统一的数据模型和独立的用户权限控制。

1.2 数据模型

业务数据库或管理信息系统数据库的数据模型是最为错综复杂的。其不仅和软件的架构设计相关,而且跟具体的业务逻辑也紧密相连。因而,应当采用一种通用的、相对简单的数据模型来归纳各方面的数据。笔者研究认为,以统计台帐来作为统一数据模型的原型,是一种简单有效的方法。

统计台帐记录用表格记录明细信息,形式上与关系型数据库的数据表非常相似,易于相互转换;并且,统计台帐中的记录是以时间为顺序的,易于区别数据的时效性,是后期实现分析或预测的前提。

如果将企业中所有的统计台帐的各个数据项全部指标化,则进而可以用指标库的形式来统一数据模型。以企业中常见的KPI(关键绩效指标)为例,可以将其数据模型设计成“指标基本信息”、“指标应用信息”和“指标数据信息”三个相关联的层次。如图2所示。

可见这三个层次之间是逐级发散的关系,也就是“一对多”的关系。“指标基本信息”反映的是指标的业务特征,如:利润率、销售总额、资产负债率等;“指标应用信息”反映的是各项指标在不同环境下的个性特征,如:谁负责测量、谁是被测量对象、测量的频率是多少、目标值是多少;“指标数据信息”反映的则是某项指标在某种应用场景下,具体某一次的测量结果,是粒度最小的一层,也是直接描述“事实”或“历史”的一层。

2 数据的集成

确定了数据的存储模式,相当于为“仓库”中的数据设计好了存放的框架,下一步则是考虑如何自动地将数据按照原定的框架设计迁移到“仓库”中去,这就是数据集成须要解决的问题,即ETL(萃取、转置、加载)过程。笔者以Microsoft的SSIS(SQL Server Integration Service)为例,简要介绍数据集成过程的一般方法。

2.1 数据装载

需要集成的数据通常存在于多种数据库系统中,需要定期或不定期的将这些数据做异类合并处理并装入数据仓库,可将一系列的相关流程固化到SSIS的数据流中,如图3。

其中,“源”和“目标”是开放给各种异类数据源的统一接口。SSIS可集成多种数据源,包括平面文件数据源、ODBC数据源、OLEDB数据源和多维数据集。熟悉“源”和“目标”,即可了解基于SSIS的数据集成的数据范围。

“查找”主要用于处理数据字典的“ID”和“值”的相互转换。在设计数据模型时,为了符合数据库范式的标准,或提高多维数据集的访问效率,我们通常会为分类数据(或维度数据)建立数据字典,即将数据的“值”用其“ID”来表示。相反,针对一些特殊的展现要求,为了提高开发效率,又往往会将“ID”转换为“值”来直接调用。用“查找”来配置“ID”和“值”的相互转换,相对于繁杂的SQL语句,显得尤为清晰且高效。

2.2 数据清洗

数据清洗主要处理拼写错误、截断、空字段、缺少或插入的标记、意外的缩略语等数据不规则问题。数据清洗是ETL过程中最为复杂细致的一部分,在数据加载到数据仓库前都需要进行数据清洗。

“清洗”功能中常用的有三类机制:“转换”、“查找”和“相似”。

“转换”可将数据标准化、更改数据的大小写、数据类型转换、派生新列。例如,将部门的编码转换成Unicode字符型,在将编码和名称连接成新的部门全称。这个机制可以解决不同数据采集点的数据录入不一致问题。

“查找”机制包含了数据装载中提到的查找,是精确查找和模糊查找的统称,通过将列的值转换成引用表中的值来清理数据。例如,数据字典的应用经常需要“码”和“值”的相互转换。

“相似”机制将数据集中相似的值分组到一起来清理。例如,防止重复数据记录的插入,或者防止同一个用户的重复注册。

2.3 流程托管

有了完善的数据集成解决方案,需要有某个自动机制来启动解决方案的流程,而不是依赖人工控制流程的运行。因为,流入数据仓库的数据的来源很多,且种类不一,人工处理效率极为低下;另外,数据仓库中的数据源源不断地来自管理信息系统产生的大量新数据,造成流程完成的节点性非常强,人工难以维持。以SQLserver 2008为例,可利用“SQLServer代理”来定期自动完成流程,只需将解决方案生成的包作为“SQLServer代理”的作业部署即可。

3 数据展现

数据展现是解决方案最终直接面向用户的形式,是所有前期工作的驱动。为了能够从数据角度来充分说明某项业务中存在的问题,必须能够采用灵活多变数据展现方式。并且,数据展现的效果与数据仓库架构的完善程度是有必然联系的。数据仓库架构设计的初衷也是为了满足数据展现的有效性和灵活性。

在实际开发数据展现项目时,常用的数据展现形式分为三种模式:报表、钻取和多维数据集。以下我们将讨论上文所讲的以统计台帐为原型的数据模型是怎样分别适用于这三种模式的。

3.1 报表

不论在哪个行业中,报表都是企业向上级主管部门或企业内部管理层传递统计数据的必备工具,因而报表模式是必不可少的,也是最基本的。以较为通用的资产负债表为例,大家都知道,资产负债表上的数据都是会计科目分类汇总的结果。如果将会计科目与企业KPI中的财务维度的指标进行比较,那两者几乎是等同的。这样,我们就可以将资产负债表看作是指标库中若干指标的某次测量结果,在使用具体的报表开发工具时,只要从业务层面去配置计算公式就可以了,而无须面对多源、分片、复杂查询和计算等技术难题。

以润乾报表为例,可使用ds.select1()函数直接从指标库中取数,代码示意如下:

其中,“累计发生额”对应指标库中的指标类型,即指标的基本信息,而“会计科目”、“会计单位”和“会计日期”则对应指标库中的分类或维度,即指标的应用信息。

3.2 钻取

“钻取”顾名思义,是一种需要用户与程序互动来完成一组操作的展现形式。钻取操作的含义因数据而异,可将适用于钻取的数据分为定性数据和定量数据两大类。当钻取应用于定性数据时,其体现的是不同的数据实体之间的级联关系,从而反映不同事物之间相同属性的关联关系。当钻取用于定量数据时,其体现的是数值型数据由聚合状态向分散状态的分析过程,从而反映由“果”到“因”、由“现象”到“原理”的倒推、分析过程。

以IBM的Websphere dashboard framework为例,其已经将钻取模式封装成为专门用于展现的“层次结构向下钻取”构建器,只需绑定具体的数据服务并将关联属性作为钻取参数配置即可。并且,我们可以根据实际业务的需要,配置不限层次数的钻取效果,真正使用户能够从数据角度去发现问题、分析问题,有一种顺藤摸瓜的感觉。

3.3 多维数据集

多维数据集,又称数据立方(Cube),是针对数值型数据(即定量数据)的一种综合展现形式,既可以体现分析过程,又可以体现聚合过程。其特点是使用简便、应用面广、查询效率高。可能相当一部分开发人员都曾今有过这样的苦恼:无论怎样开发报表或综合查询,始终满足不了用户的需求,用户自己也给不出全面的查询条件和计算公式。笔者的建议是:如果需要处理的是数值型数据,不妨尝试使用多维数据集来处理,常常会有让业务人员意想不到的效果。

此外,多维数据集的数据模型也是数据仓库的一种典型,即“事实———维度”模型。把数据仓库中的数据表分为两种:事实表(Fact)和维度表(Dim)。事实表用来记录测量数据,维度表专门用来存储数据的分类信息,两种之间通过维度数据的ID关联起来,再使用专门软件工具制作成多维数据集,最常见的有微软的SSAS(SQLServer Analysis Service),其优势在于可直接使用Excel 2007作为在线浏览器,具有良好的用户基础。

4 结束语

现代企业对数据的重视程度已不言而喻,如果要做到真正将企业的数据管理得像企业的资产、资源一样,我们不仅要懂得概念,学会方法,掌握工具,更重要的是在探索的过程中做到融会贯通、系统思考和不断完善。希望本文能够为相关开发人员在实践中提供参考借鉴。

摘要:该文主要倡导数据对企业生产经营的重要性,并围绕数据仓库的概念,分别从数据的存储模式、数据的集成和数据的展现三个方面讨论如何实现适合企业自身的数据仓库,为读者提供一定的实践经验参考。

关键词:数据仓库,ETL,多维数据集

参考文献

[1](美)W.H.Inmon.数据仓库.3版.北京:机械工业出版社,2003.3.

[2](美)Efrem G.Mallach.决策支持和数据仓库系统.北京:清华大学出版社,2001.1.

[3](美)Len Silverstone.数据模型资源手册(修订版)卷2.北京:电子工业出版社,2004.8.

钢铁企业数据仓库解决方案的研究 篇9

现在,愈来愈多的企业认识到,企业要想在竞争中取胜,获得更大的收益,至关重要的是,必须利用计算机和网络技术、数据仓库技术,深层次地挖掘、分析当前和历史的生产业务数据,以及相关环境的相关数据,自动快速获取其中有用的决策信息,为企业提供快速、准确和方便的决策支持。通过对企业生产和计划的完成情况及相关环境数据进行多角度、多层次的分析,以使企业的决策者及时掌握企业的运行情况和发展趋势,并对制定生产计划和长远规划提供理论指导,提高企业的管理水平和竞争优势。

1 数据仓库简介

数据仓库之父W.H.Inmon在《Building The Data Warehouse》书中指出:“数据仓库是面向主题的、集成的、非易失的,随时间变化支持管理人员决策的数据集合”。这是目前公认的最为准确、全面的关于数据仓库的概念定义。这个简短而又全面的定义指出了数据仓库的主要特征。四个关键词,“面向主题”、“集成的”、“时变的”、“易失的”,将数据仓库与其他数据存储系统(如关系数据库系统、事务处理系统和文件系统)相区别。

随着数据仓库的出现,以及基于数据仓库的OLAP和数据挖掘的发展,从此基于数据仓库的DSS系统得到了很大的发展。当前的研究范围非常广,OLAP技术允许从不同抽象层提取数据,研究范围集中在如何更好、更有效率的进行多维分析。

建立数据仓库系统的目的,是把企业的内部数据和外部数据进行有效的集成,为企业的各层决策、分析人员使用。企业内部数据是指从各业务系统收集到的数据,这些数据可能分布在不同的硬件、数据库、网络环境中,为不同的业务部门服务。比如对一个制造业用户来说,可能有生产数据、销售数据、财务数据、市场数据、人事数据等等,所有这些数据从结构上看,是相对独立的,是不利于企业决策者进行全面分析和查询的。如果我们针对决策者的需求,对这引起数据进行结构上的重组,从更方便决策分析的角度去设计,并且充分考虑今后的扩展性与外部数据的接口,会对企业的宝贵资源-数据,实现真正的信息和知识价值。

2 梅钢企业数据仓库系统的规划

2.1 主要数据源

在线系统的数据:可以作为本系统数据源的系统包括:产销系统、设备系统、采购系统等。这些系统与数据仓库系统可以通过ETL工具,也可以采用DBlink进行数据交换。

手工数据:当相关在线系统的数据不能满足数据仓库系统需要,而这部分的数据与梅钢的生产流程和管理流程又联系不密切时,可以采用手工录入的方式把这部分数据直接输入数据仓库系统。

改造相关系统得来的数据:当现有的在线业务系统不能提供数据仓库所需数据,并且这部分数据与梅钢的生产流程或管理流程联系密切时,为了得到这部分数据就需要改造相关的在线系统,然后数据仓库系统从在线系统直接抽取这部分数据。

2.2 梅钢数据仓库系统的内容

数据集市也叫“小数据仓库”。如果说数据仓库是建立在企业级的数据模型之上的话,那么数据集市就是企业级数据仓库的一个子集,主要面向部门级业务。数据集市可以在一定程度上缓解访问数据仓库的瓶颈。

除了数据集市之外,还有基于数据仓库数据的应用系统,这些应用系统是为了支撑某些专业业务而设立的,例如生产管制系统、计划值系统等。

梅钢在企业级数据仓库上建设如下4个数据集市和5个应用系统:元数据管理系统、技术质量数据集市、生产管理数据集市、成本分析数据集市、明细产品标准成本计算系统、生产管制系统、计划值管理系统、设备管理数据集市、质量成本信息系统。

上述每个数据集市和应用系统中都包括多个主题数据集。

2.3 梅钢数据仓库的体系架构

如图1所示,梅钢数据仓库系统的数据源将主要来自产销系统、设备系统和运调系统等。

数据抽取是构建数据仓库的重要一环,为了保证抽取到的数据与数据源的数据一致,需要了解数据源数据增加的方式,然后根据数据源相应的增加方式确定数据抽取策略。一般数据的抽取策略主要包括两种:刷新方式和增量方式。

数据抽取是指将梅钢公司ERP系统和其它业务系统数据源的数据迁移至操作数据存储。数据抽取的初步方案建议如下:定时作业、事件触发、其它业务的数据抽取。其它业务数据抽取需要根据数据源的分布和数据源的格式制定方案,可能有以下几种情况:手工录入数据、文本文件、其它业务系统。

3 梅钢数据仓库的系统方案

梅钢数据仓库软件采用如图2架构安装。

说明:将数据仓库软件按照数据层与展示层进行切分;数据层相关软件以及数据文件放置在ODS服务器分区;展示层相关软件及数据文件放置在应用服务器分区;

数据仓库软件运行流程:由ODS数据库通过DBLink方式从各个应用系统抽取所需要的数据;ODS中原始数据通过数据仓库ETL软件清洗整理后根据不同数据集市的需要组合成分析所需要的数据;各个数据集市根据自身特点对收集到的数据进行汇总分析,形成各种静态、动态报表;数据集市中的数据使用数据仓库软件运算后生成OLAP分析所需要的Cube文件;在展示层将整理完毕的各种报表、Cube文件进行发布,供用户通过浏览器进行查询分析;用户通过DataMining软件对ODS以及数据集市中清理好的数据进行数据挖掘分析。

4 结束语

梅钢企业数据仓库系统是一个大型的项目,每个数据集市都可以自成一个独立的系统,每个数据集市上线后都会为梅钢带来一些较好的效果。总体上,数据仓库项目建成后达到了如下效果:及时获取生产管理综合信息,为决策者决策提供科学分析依据;改善管理能力,可以得到凭直觉无法得到的结论;使报表和业务数据分析更加有效、准确,对转瞬即逝的机会快速做出反应,提高企业竞争力和生存能力;使数据成为企业内共享的资产;既能够管理宏观信息也能够管理微观数据,可以追朔历史;建立及改善提高企业内部各部门之间的合作关系;提供面向主题的信息架构,使业务用户也能方便的取用这些数据;建立供进一步探索和研究的数据基础,通过数据挖掘及知识发现,以发现数据中所隐含的趋势、构成的模式及其间的关系,这可引导用户改进现行的业务处理过程或作出适时正确的决策。改善客户关系管理,让客户能获得更多的好处。

参考文献

[1]刘传波,陈琳.采用数据仓库技术建立招生信息管理系统[J].理工高教研究,2004(4).

[2]胡海员.基于数据仓库的招生辅助决策支持系统研究[J].西南民族大学学报:人文社科版,2005(7).

[3]王珊.数据仓库技术与联机分析处理[M].北京:科学出版社,1999:10-12.

[4]INMON W H_Building the data warehouse[M].3rd ed.New York:John Wiley,2002:31-145.

[5]Karsten M D.Technology Overview:A Report on Data Mining[R].Swiss Scientific Computing Center,1995.

[6]Han J.Data Mining Techniques[M].Database Systems Reseach Laboratory,School of Computing Science,Simon Fraser University,Cana-da,1996.

[7]王建新,刘东波.九大数据仓库方案特点比较[J].计算机世界,2001(19).

企业数据仓库 篇10

仓库建设进入第三阶段

在6月份表示, 奇美电子已

经成功完成Teradata企业二阶段搭建级数据仓库 (, 现在EDW) 第一正在进、

入第三阶段, 最终将彻底实现数据集中化, 从而达

到资源共享, 进而降低运 营成本。

奇美电子自2 0 0 5年

起开始部署Teradata企 业级数据仓库系统 (EDW) 及其相关解决方案, 经过近三年的时间, 目前已完 成第一、二阶段的搭建。在要是以这两个阶段的建设Teradata中ED, 主W为

基础推动运营企划系统 (G P C) 和质量信息系统 (QIS) 。Teradata解决方案协助奇美电子整合各厂独立的MES系统, 让ERP与各种前端交易系统连接, 提高信息质量, 大幅缩短收集数据的时间, 提高工作效率。

奇美电子运营企划及信息总处总处长郭国祥说, 在部署数据仓库之前, 奇美各厂各有一套报表系统, 总部只能掌握个别工厂情况, 但如果总部要了解整体情况, 例如质量, 光看一个厂是不够的。“奇美电子规模相当庞大, 不可能只看一个厂就知道企业运营情况及未来走向, 这个时候, 数据整合就有其必要及迫切性。”

在部署E D W前使用者在进行任何一项数据分析时, 必须花费一段相当长的时间到各厂搜集相关资料, 过程耗时且繁琐。在搭建E D W后, 通过EDW则可缩短数据收集和决策反应的时间, 提升竞争力。举例来说, 在部署EDW之后, 如果有订单需要改变出货总量, 即使牵涉到庞大库存数量和种类的核对查询, 回复客户出货情况的时间已大幅缩短至原来导入前的三分之一。

E D W不仅为奇美大幅节省了时间成本, 同时也大幅减少了人力成本。郭国祥说:“在部署EDW前, 由于数据量极为庞大, 我们处理质量异常的过程往往相当耗时。现在通过T e r a d a t a EDW, 在1至2小时内就可以完成对数据的收集, 这样就缩短了工程师查询数据的时间, 大幅缩减工程师人力成本, 非常划算。”在决策支持方面, 由于EDW整合来自不同系统的数据, 掌握采购、生产、运作与订单达成的流程信息, 可快速提供决策者所需信息, 郭国祥补充道。

Teradata大中华区总裁吴辅世表示:“大中华区为全球高科技制造业重镇, 在全球制造业市场中举足轻重。我们很高兴Teradata数据仓库解决方案能获得奇美与台积电等世界级大厂的采用, 未来我们将在大中华区成立制造业专家中心, 积极拓展制造业市场。”

Teradata台湾区总经理胡尊正说:“协助客户从数据仓库的投资中获取最大价值一直是Teradata努力的目标, 我们很高兴看到奇美电子的数据仓库解决方案实现具体可观的成效, 未来也将继续以最佳的软硬件与咨询服务来协助奇美进行第三阶段E D W的实施。”

未来第三阶段将以整合制造厂内 (包括TFT、CF、LCD、LCM) 所有相关分析工程问题的数据, 并提供整合性的分析工具, 以节省工程师分析问题时间及提升分析问题的质量为主要实施项目。

先进的Teradata数据仓库解决方案

2008年5月30日在北京召开的第八届Teradata数据仓库峰会上, 本刊对Teradata总裁兼首席执行官科勒进行了访问, 他指出:“在当今日趋复杂的商业环境中, 能够比对手更快地对发展趋势做出预测并采取行动的企业才能在竞争中胜出。为了赢得竞争优势, 领导企业越来越借助于商业智能及分析法来获得精确信息, 并据此做出日益棘手的决策。”

科勒补充道:“要‘以分析取胜’, 需要具备适当的能力, 即有适当IT基础架构支持的商业智能和决策速度。

通过Teradata的动态企业智能, 使企业能充分利用商业智能制定战略决策, 并将商业智能扩展到整个企业, 以提高运营决策的速度, 从而使企业比竞争者能更迅速地做出决策并采取行动。”

而Teradata首席技术官宝立明在接受访问时表示:“业界显然已经开始在传统的数据仓库的基础上, 进一步部署战术及事件驱动的决策支持。随着运营执行涉及到更多的决策制定, 动态数据仓库 (ADW) 不仅从后台扩展到一线, 更从企业内部用户延伸到了外部用户。领导企业正在部署普及化商业智能 (Pervasive Business Intelligence) , 为包括一线员工、供应商、客户和业务合作伙伴在内的所有用户提供整合的、适时的数据仓库 (D W) 信息。”

“根据Gartner的研究报告, 到2010年, 超过9 0%运行中的数据仓库将实现当日或更快速度的数据更新, 而超过50%将实现数据的连续更新。在实时企业环境中, 所有用户均能以接近实时的速度访问信息, 从而更快地制定出更智能的决策。”此外, 宝立明还阐释了包括实时可视化、业务活动监控和实时数据整合在内的几大A D W功能, 并介绍了基于这些功能成功实施的最佳实践。

Teradata在数据仓库市场继续保持领先地位

注:本文为网友上传,旨在传播知识,不代表本站观点,与本站立场无关。若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:66553826@qq.com

上一篇:企业数据论文 下一篇:孔桩施工