数据质量工程(精选十篇)
数据质量工程 篇1
1 公路工程试验检测管理现状分析
1.1 公路工程试验检测存在的问题
公路工程试验检测过程中,会产生海量的数据。特别是在高速公路建设过程中,由于周期较长、工序复杂、类型繁多,使得最后的质量评定报告十分复杂。试验检测有一系列数据釆集、整理、运算、归纳、分析等文案工作。大量的数据采集以及分析耗费检测试验单位大量的人力物力投入,部分试验检测单位部门为了减低人力成本,不惜编造假数据。
公路工程试验检测过程中,试验数据的准确性和实时性是确保检测结果客观真实的必要保证。随着互联网在各个领域的延伸运用,试验检测数据从人工采集到自动釆集、从分割保存到数据共享。大数据技术使得公路工程试验检测发生翻天覆地的发展和变革。因此,在试验检测过程中,利用云网络数据处理技术实现工程质量信息化、可视化、共享化管理是当前亟需坚决的一个难题。
1.2 试验人员流失
公路工程试验检测需要有经验的检测人员。但在实际检测过程中,部分检测单位试验检测人员缺乏科学系统整体管理,出现人证不符和无证上岗的情况,影响数据检测的客观真实性。日益增长的公路工程检测需求,常常面临试验检测人员人数缺乏的困境。公路工程试验检测人员经常性加班,长期出差,超负荷工作工作,加上待遇不高,出现了大量实验检测人员走失的情况。临时上岗的试验检测人员没有得到正规培训和资质认证。个别试验人员擅自大规模编造或修改试验数据,这样的试验检测结果对后续工程造成很大的安全隐患。
1.3 试验设备缺乏保养
公路工程试验检测过程中,仪器设备经常需要搬迁,极易导致损坏和精度下降等问题。由于试验检测人员日常试验检测工作繁重,容易忘记校准周期,使得试验检测设备超期使用现象比比皆是。对试验检测工作造成重大影响。
2 功能结构设计
2.1 建立试验检测数据中心
为保证检测数据的真实性,通过建设数据中心,运用互联网工具扩展数据通道,使用云网络服务器实现整个项目服务器物理资源抽象成数据资源,不再受限于物理界限,提高资源的利用率。数据中心将原本分散或无法采集的数据通过智能平板进行数据采集和试验控制,并且分析处理验检测数据。同时,设立统一的数据采集平台,实现不到施工现场也能对试验检测过程进行精细化管理。通过可视化的管理,严格规范每一个施工过程是否按试验检测的相关要求规范进行,实现试验检测结果能被人为干预。实现数据的共享化管理,建立集成档案管理系统,能保存试验检测相关资料数据,支持多种数据查询方式。
2.2 实现组织扁平化和工程数据交互
虚拟组织是由空间虚拟、时间虚拟和结构虚拟三维叠加而成。由于信息不对称,沟通不及时,容易造成信息延误,给公路工程试验检测可能影响结果的内容。通过架设一个云网络,将试验检测机构、工地试验检测室、施工单位、业主单位、相关质量管理部门原本金字塔线性组织结构通过系统转化为扁平化平行组织结构。所有的试验检测数据都通过数据中心完成。
2.3 可视化技术实现工程数据管理
公路工程试验检测过程中,试验检测人员需要奔波于各工程工地,查看各种试验检测数据。理解大数据,最重要的手段就是数据可视化。通过收集包括文字、颜色、大小或位置的抽象元素传达的信息等,搭建数据可视化标识导向系统。特别是在公路工程项目复杂、数据众多情况下,常规的查询方式难以查看整个公路数据,通过数据可视化,将数据的收集和存储,数据预处理,把数据转化成可以理解的形式,产生一个可视化的数据表示,从而对整个建设施工的工作进展进行全面反映。
3 结束语
在公路工程试验检测中,通过建立数据模型,将试验检测人员从繁琐复杂的规范表格解放出来,从而实现整个公路建设项目工程质量试验数据的数据自动采集、分析、发布,从而实现管理工作朝着科学化、现代化、网络化。
参考文献
[1]韩英.浅析大数据时代的数据挖掘与精细管理[J].成都航空职业技术学院学报,2013,(4):63-64+71.
[2]冯晓婷.工地试验室系统在高速公路质量监督中的应用[D].华南理工大学,2012.
[3]吴波.辽宁省交通工程质量检测与数据智能分析平台技术应用[J].北方交通,2011,(6):158-160.
数据质量工程 篇2
1:50000地形要素数据缩编更新工程质量检查
本文结合1:50000地形要素数据缩编更新工程质量检查工作实践,总结了质量检查的过程、技术方法、内容及要求,提出单位成果质量评定的计算方法.
作 者:陈晓婷 吴小燕 廖顺华 Chen Xiaoting Wu Xiaoyan Liao Shunhua 作者单位:广西地图院刊 名:广西城镇建设英文刊名:CITIES AND TOWNS CONSTRUCTION IN GUANGXI年,卷(期):2009“”(10)分类号:P283关键词:地形要素 数据缩编 工程质量
总量数据下行 经济质量改善 篇3
总量上看,5月份经济数据依然惯性下滑,但雾霾中露出一丝曙光。
固定资产投资累计增速11.4%,比上月下降0.6个百分点,再创15年新低。房地产投资累计增速仅为5.1%,比上月低0.9个百分点,成为投资增速下降的最主要因素,如图1所示。
除房地产投资之外,制造业投资的持续下行和基建投资的冲高回落也加剧了投资总量的回落速度。制造业投资增速10%,尽管比4月有小幅回升,但是与去年同期相比,还是回落4.2个百分点,环比下行的速度非常显著。基建投资增速18.66%,比4月回落1.66个百分点。客观地说,由于财政收入大幅回落,基建投资不可能持续高速增长,而制造业投资回落,则是出清过剩产能的必然结果,这两大部分占投资总额的比重超过60%,因而在可以预期的时期内,投资增速很难大幅度回升。
2、工业增速小幅度反弹
工业同比增速6.1%,连续两个月小幅反弹;环比速度0.52%,虽然比上月有所回落,但依然处于近12个月均值以上,短期看,工业增加值似有企稳迹象。
3、居民消费触底回升
5月份,商品零售额名义增速10.1%,比上月微升0.1个百分点,扣除物价因素实际增长10.2%,比上月提升0.3个百分点,显示消费下行的趋势得到了初步的缓解。如图4所示。
4、价格依然下行但通缩趋势缓解
价格形势比较复杂。仅从CPI总指数看,5月份为1.2%,比上月显著下行,这主要是食品和原油价格因素所致。考察消费食品价格,从今年1月以来,一直处于稳步上升过程,5月份还有加快迹象。从这个角度看,从2014年以来的通缩趋势似乎已经出现了转折,至少通缩压力已经显著减轻。
与CPI止跌相比,更为可喜的是PPI出现了止跌迹象。四年来,我国的PPI一直处于下行趋势,到5月份同比数据依然在-4.6%,但是环比数据仅为-0.1%,呈现明显的探底回升态势。
金融危机后,我国政府意识到经济结构的问题,从2010年开始强调改变发展模式,调整经济结构。今年来的数据显示,经过近五年的努力,结构调整确实出现了明显的效果。
1、投资与消费结构渐趋合理
从经济协调发展和商品价值实现的角度看,投资和消费的长期平均增速应该是大体一致的 ,否则必然出现产能过剩或者供给不足。就短期来看,投资过剩导致的产能过剩固然可以通过出口顺差和房地产库存等形式被吸收,但是长期而言投资和消费的比例还需大体相当,否则只能导致供需失衡,大规模财富损失和经济危机。1997年以前,我国投资与消费的增速虽然当年差距很大,但在10年左右的中周期内是大体平衡的。1998年后这种平衡被打破,随后出现了长达17年的投资高增长,投资的平均增速达到消费的2倍,使得我国经济结构严重失衡,债务杠杆高企,资金周转缓慢。
过剩的投资导致过剩的产能和经济体系的低效,银行资产状况日趋恶化,政府希望及早解决,2008年尝试采取适度从紧的货币政策。不幸的是遇到了国际金融危机,为了应对,我国反而加大了刺激投资的力度,并把这个惯性延续到2010年。
2011年后,我国政府逐步退出投资拉动经济的策略,投资增速逐月降低,投资与消费增速之比从1.72倍降到1.1倍,就今年5月当月数据看,二者的比值已经接近于1,达到接近均衡状态。
2、工业增速下降,企业利润改善
在传统发展模式下,工业增加值增速低于9%时,工业企业利润将出现负增长,而今年4月却出现了工业增速低于6%,企业利润增加2.6%的可喜局面。这可能是一个新旧模式转换的临界点。今年下半年将出现工业增加值低于8%,但企业利润增速持续上升的局面,在科学技术的武装下,我国工业的效率显著提升,产业层次逐步进入高端。
3、电子信息产业增速远远高于工业增速
战略性新兴产业的发展取得了长足的进步,其相对增长速度大幅度提升,达到工业平均增速的2倍左右。
4、现代服务业增速开始高于工业增速
现代服务业在统计指标中主要列示在“其他服务业”项下,2014年以后,现代服务业增速显著提升——不论工业增速如何下降,现代服务业都保持了很高的增速。
超出我们预料的是,房地产行业无论价格还是成交量都出现了企稳回升的迹象。如果说前几个月一线城市房价上升还仅仅是结构性的价格复苏,那么5月份二线城市房价的整体上涨,表明即使剔除投资性需求,我国目前的房屋刚性需求也维持了稳定增长的基础,而房价的下跌可能已经告一段落。尽管三线城市房价还在下降,但是环比降幅已经微乎其微了。
数据质量工程 篇4
在公路工程质量监督工作中,我们需要进行大量的数据处理工作。按照《公路工程质量监督检查办法》和《公路工程质量鉴定办法》的要求,监督人员要进行工程实体质量的检测工作。当工程项目比较大时,就需要进行大量的抽检工作。质量监督人员必须清楚所监督工程的工程数量、桩号、已抽检数量和桩号,才能避免错检和重复检测的情况发生。这些抽检工作是随着工程的进展有计划地按批次地进行的,有时要持续数年时间,这就要不断地查阅以往的记录和数据。
另外,质量监督部门经常要汇总统计所监督工程的抽检数量及合格率,上报给上级部门。2006年,我们大连质监站所监督的工程项目为高速公路项目两个共74.84km,普通公路项目38个,建设里程298.8km;农村公路网工程项目 260个,建设里程948km;乡道大修工程项目13个,建设里程38.7km;大、中桥65座,长度4014.33m。可见,以质量监督部门的人员和数量管理如此多的工程项目,如果每次需要查阅和统计以往的抽检数据时,都翻出以往的内业查看和统计的话,抽检数据的汇总统计将是一项非常繁重的工作。在现在普遍采用计算机办公的情况下,将抽检结果录入电脑,利用电脑的自动查找和自动统计的功能将会使数据的查找和统计工作大大简化。相对于通常使用的办公软件Word和Excel软件,用数据库软件来管理数据更方便,功能更强大。
2 使用数据库软件管理数据的可行性
在没有专门的商业软件的情况下,可以利用数据库软件根据自己的需要来编辑一个数据库,即灵活又实用。我们质量监督的抽检数据有几个特点非常适合用数据库软件来管理。
(1)数据的结构清晰、关系明确。
所有的工程项目都划分成合同段,合同段再一级一级划分成单位工程、分部工程直至分项工程。每级工程都有特定的名称或桩号,有特定上级或下级工程对应。新的《公路工程质量鉴定办法》要求我们质量监督部门以分部工程为工程实体检测基本单位,而省略了分项工程这一级,这更方便了数据的管理。
(2)数据类型比较固定。
工程的项目划分、抽检指标都是来自规范规定,《公路工程质量监督检查办法》和《公路工程质量鉴定办法》规定的质量监督的必检实测项目比《公路工程质量检验评定标准.》规定的施工自检项目还要少。所以虽然抽检数据多,但数据类型相对固定。
(3)有大量的数字需要进行计算和汇总统计。
抽检结果都是数字的各种实测值、代表值、合格率等等,当我们需要统计工作时,数据库软件能发挥强大的数据管理功能,帮我们按照需要的时间、项目、条件等罗列或计算出我们需要的结果。
3 建立数据库的基本步骤
笔者所使用的数据库软件是Access。Access是微软办公软件Office家族中的一员,与Word及Excel软件的界面相似,兼容性好,操作简单,安装普及。由于篇幅所限笔者只能对用Access软件建立一个质量监督数据库的主要步骤和应该注意的问题加以说明。主要步骤有:
(1)建立数据表和关系。
数据以表的形式储存在数据库里,通过关系把各个表里的数据联系起来。质量监督数据库里可以建立的数据表有建设项目情况表、合同段情况表、单位工程情况表、分部工程情况表、实测项目表以及日常抽检情况表、日常抽检材料情况表等。以建设项目情况表为例,其内容包括序号、名称、建设单位、工程地点、建设规模、工程概况、投资额、鉴定得分、开工日期等,如表1所示。
再如分部工程情况表内容包括:序号、所属单位工程序号、分部工程名称、实测得分、外观扣分、质量等级、评定日期等。有的表是用来为数据输入提供信息的而不是用来储存数据的。比如说实测项目表内存放所有实测项目的名称、允许偏差、权值等信息,以便为后面所讲的窗体里的下拉菜单提供可供选择的实测项目,简化数据输入。各个数据表利用某个字段之间的关系进行连接。例如分部工程情况表利用“所属单位工程序号”字段与单位工程情况表中“序号”字段进行连接,每个单位工程与其所属的分部工程相对应。在编辑关系窗口中可以很方便的编辑数据表之间的关系,如图1所示:
值得注意的是,应该给每个工程项目、合同段、单位工程等建立一个唯一的序号作为建立关系的标识,因为会有名称相同的不同记录存在,无法用名称加以区分。例如两个属于不同建设项目同名为“第一合同段”的合同段用不同的序号加以区分,其所属的单位工程用所属合同段的序号与其对应。
(2)建立所需的查询,通过不同的方法来查看、更改以及分析数据。
在数据表示图中使用数据时,虽然可以执行浏览、筛选、更新以及打印等多项操作。但更多的时候,需要对数据进行计算或者从多个表中检索相关的数据,这需要建立查询。例如,我们想查看某个建设项目的某个合同段所有的抽检过的项目及合格率时,我们必须建立一个查询包括建设项目情况表、合同段情况表、单位工程情况表、分部工程情况表、抽查项目情况表的建设项目名称、合同段名称、单位工程名称、分部工程名称、抽查项目名称、抽检点数、合格点数等字段。查询功能会从所有的数据中筛选出符合条件的数据,并可以统计合格率。查询中可以输入查询参数,也可以选中符合条件的数据,点右键进行筛选。
(3)建立窗体完善数据的操作功能。
窗体是Access用来和用户进行交互的主要数据库对象。通过窗体可以向表中输入数据,可以控制用户和系统的交互以及接收用户输入并执行相应的操作。窗体不仅具有可视化的设计风格,而且由于使用数据库引擎机制,自动将数据捆绑与窗体,从而使得前端对于窗体的操作与后端数据库中数据的维护同步进行。按照自己的需要设计窗体可以简化数据维护工作。利用按钮可以方便的切换需要的数据窗口,还可以执行打印报表、运行程序等命令。利用列表框功能可以使用下拉菜单选择需要输入的内容,免去键盘输入的麻烦。比如我们制作一个日常抽查数据输入窗体,把抽查项目的文本框做成一个列表框跟抽查项目表绑定,就可以用下拉菜单选择对应分部工程的抽检项目而不用键盘输入。窗体如图2所示:
除了这些,还有子窗体、宏等功能都能使数据的输入大大简化。
(4)如果需要的话还可以制作一些报表,形成数据的统计结果,也可以直接打印出分部工程直到建设项目的评分表。
笔者制作的数据库当分部工程的实测项目合格率和外观扣分输入后会自动计算出分部得分,点打印按钮可以直接打印出分部评分表;当所有的分部评分结束后会自动计算出单位工程评分,打印出单位工程评分表;以此类推,直到打印出建设项目评分表。笔者还常用的报表是日常抽查的项目列表,前面说过,质量监督人员必须清楚所监督工程的工程数量、桩号、已抽检数量和桩号,才能避免错检和重复检测的情况发生。打印一张这样的报表,已检的项目情况就一目了然了。报表如图3所示:
4 结束语
以上介绍了建立一个质量监督数据库的基本框架,具体的过程读者需要对Access软件操作熟练的前提下,根据个人情况实施。也许会有人担心因为建立数据库入增加了额外的工作,但笔者经过实践认为,数据的输入是在平常抽检抽验后一点一滴的时间中完成的,每次的工作量很小,但使日后的查阅统计这样繁琐的工作得到大大的简化,使我们的工作有零存整取的功效。另外,如果合理使用上面讲到的一些数据库软件的功能,会使数据输入的工作量大大减小。
参考文献
[1]杨继萍,郝军启,等.Access2003数据库原理与应用标准教程[M].清华大学出版社,2006,1.
[2]交通部.公路工程竣(交)工验收办法,2004,3.
数据质量自查报告 篇5
本月抽查数据中的主要问题归纳如下:
一、著录问题
1.著录方式不同造成数据大量重复。
例1:本例共二十余条数据重复
2001 @a电子仪器仪表装配工@9dian zi yi qi yi biao zhuang pei gong@f周明昌主编
2001 @a工人技术培训题集@9gong ren ji shu pei xun ti ji@i电子仪器仪表装配工@f周明昌主编
2001 @a管工@9guan gong@f李尚发编
2001 @a工人技术培训题集@9guan gong@i管工@f李尚发编
2001 @a有机合成工@9you ji he cheng gong@f李俊胜,冯玉萍等编
2001 @a工人技术培训题集@9you ji he cheng gong@i有机合成工@f李俊胜,冯玉萍等编
例2:本套数据著录混乱。
2001 @a刑法48讲@f袁登明编著
300 @a2007年国家司法考试教辅系列 国家司法考试专题讲座系列2 人民法院出版社 北京万国学校司法考试强化培训专用教材
2001 @a国家司法考试专题讲座——刑法45讲@f袁登明编著
300 @a2006年国家司法考试教辅系列 国家司法考试专题讲座系列 3
2001 @a国家司法考试专题讲座系列@h2@i刑法49讲@f袁登明编著
300 @a人民法院出版社 北京万国学校司法考试强化培训专用教材
2001 @a国家司法考试专题讲座@i刑法45讲@f袁登明编著
2252 @a2006年国家司法考试教辅系列@i2006年版国家司法考试专题讲座系列@v2 462 0@12001 @a2006年版国家司法考试专题讲座系列@v2
统一为:
2001 @a国家司法考试专题讲座系列@h2@i刑法49讲@f袁登明编著
300 @a北京万国学校司法考试强化培训专用教材
例3 2001 @a2008全国房地产估价师执业资格考试名师辅导用书@i房地产估价相关知识考试攻略$f估价师执业资格考试研究室组编
改为:
2001 @a房地产估价相关知识考试攻略$f全国房地产估价师执业资格考试研究室组编
300 @a2008全国房地产估价师执业资格考试名师辅导用书
2001 @a注册电气工程师执业资格考试基础考试@9zhu ce dian qi gong cheng shi zhi ye zi ge kao shi ji chu kao shi@h下@i复习教程@f张炳达主编
改为:
2001 @a注册电气工程师执业资格考试基础考试(下)复习教程@9zhu ce dian qi gong cheng shi zhi ye zi ge kao shi ji chu kao shi(xia)fu xi jiao cheng@f张炳达主编
2001 @a儒林外史@9ru lin wai shi@f(清)吴敬梓著
2252 @a六角丛书
2252 @a中外名著榜中榜
461 0@12001 @a六角丛书
461 0@12001 @a中外名著榜中榜
改为:
2250 @a六角丛书@i中外名著榜中榜
462 0@12001 @a中外名著榜中榜
2.其他著录问题
缺拼音:
2001 @a用人单位职业病防治实用指南@f李涛, 张敏, 缪剑影主编
701 0@a李涛o@4主编
701 0@a张敏@4主编
701 0@a缪剑影@4主编
题名错:
2001 @alllustrator CS3中文版从入门到精通@9lllustrator CS3 zhong wen ban cong ru men dao jing tong@f锐艺视觉编著
应为“Illustrator”
2001 @a美国欧洲政策之国内成因研究@9mei guo ou zhou zheng ce zhi guo nei cheng yin yan jiu@e以撒切尔时期为例@f梁晓君著
330 @a本书共七章,内容包括:英国欧洲政策的历史传统、英国欧洲政策的国内制度因素、影响英国欧洲政策的国内利益因素等。
6060 @a对外政策@y英国
应为“英国”。
2001 @a朱氏脉决@9zhu shi mai jue@f朱青林编著
应为“诀”。
出版地及代码错:
@aCN@b110000(13)
2001 @a让小学生学会感恩父母的100个故事@9rang xiao xue sheng xue hui gan en fu mu de 100 ge gu shi@f刘英俊主编
210 @a北京@c花山文艺出版社@d2007(石家庄)
2001 @a中国@9zhong guo@e传统与变迁@dChina@etradition & transformation@e插图本@f(美)费正清(John King Fair bank)著@g张沛, 张源, 顾思兼译@zeng 210 @a220000@c吉林出版集团有限责任公司@d20083(长春,2008)
出版地应为“长春”,出版年为:2008
@aCN@b310000(33)
2001 @a幽暗之地@9you an zhi di@f(南非)J.M.库切(J.M.Coetzee)著@g郑云译
210 @a杭州@c浙江文艺出版社@d2007
文献语种错:
1010 @achi(1011 @achi@ceng)
2001 @aEJB 3基础教程@9EJB 3 ji chu jiao cheng@dBeginning EJB 3 application development@f(美)Raghu R.Kodali,(美)Jonathan Wetherbee,(美)Peter Zadrozny著@g马朝晖, 杨艳等译@zeng
1010 @aeng(缺@gchi)
2001 @a雾都孤儿@9wu du gu er@dOliver twist@f(英)Charles Dickens原著@g(美)Marian Leighton改写@g(美)Ric Estrada插图@g刘春梅, 王红欣译注@zeng
1011 @achi@cgre(ger))
2001 @a伟人与大国@9wei ren yu da guo@dMenschen und machte@f(德)赫尔穆特·施密特著@g梅兆荣,罗国文, 王熙敬译@zeng(ger)5101 @aMenschen und machte@zeng(ger)语种代码应为“ger”
二、分类标引问题
2001 @a史记选@9shi ji xuan@dSelection From Records of the Historian@f(西汉)司马迁著@g安平秋校译@g杨宪益,戴乃迭英译@zeng
6060 @a英语@j语言读物@j对照读物@x英、汉
6060 @a中国历史@x古代史@x史籍@x纪传体@y中国@j对照读物@x英、汉
改为:
6060 @a英语@x汉语@j对照读物
607 @a中国@x古代史@j纪传体
2001 @a聊斋志异选@9liao zhai zhi yi xuan@dSelection From Strange Tales From the Liaozhai Studio@f(清)蒲松龄著@g张友鹤辑校@g黄友义[等]英译@zeng
6060 @a志怪小说@y中国@z清代@j对照读物@x英、汉
6060 @a英语@j语言读物@j对照读物@x英、汉
改为:
6060 @a英语@x汉语@j对照读物
6060 @a古典小说@x志怪小说@y中国@z清代@j选集 6060 $a短篇小说$y中国$z清代$j选集
2001 @a中国乞丐调查@9zhong guo qi gai diao cha@e我国城区乞讨群体现状与对策研究@f王保庆著
6060 @a乞丐@x社会问题@x研究@y中国@z现代
690 @aD669.6@v4 正确:
690 @aD669.9@v4
2001 @aInDesign CS3从入门到精通@9InDesign CS3 cong ru men dao jing tong@f清风书坊编著
6060 @a电子排版@x应用软件
610 @aInDesign CS
690 @aTP803.23@v4
正确:
690 @a TS803.23@v4
2001 @a双胞胎的困惑@9shuang bao tai de kun huo@dFollow your heart you decide what happens!@f(美)J.E.布赖特著@g费吟梅译@zeng 6060 @a长篇小说@y美国@z现代
690 @aI565.45@v4 正确:
690 @aI712.45@v4
2001 @a2007年青春文学@92007 nian qing chun wen xue@f郭艳主编
6060 @a文学@x综合作品集@y中国@z现代(作品综合集)
690 @aI217.1@v4(I217.61)
中文采编部联合编目组
数据质量工程 篇6
美国非营利性组织“数据质量行动”(Data Quality Campaign)近期发表报告,指出虽然美国各州教育大数据保持发展,但单纯的数据收集并不足以帮助教师和研究人员有效使用数据信息,以及帮助学生取得实质性进步。
基于各州教育大数据发展情况,报告呼吁突出四个政策优先方向:明确学生发展目标,通过有效利用相关数据,监测学生发展情况,确保相关教学活动围绕发展目标开展;在数据使用及基于数据制定对策方面,给予教师和学校领导者自主权,提供培训机会及支持措施;准确说明采集学生数据的原因和用途,保证公开透明;在保护学生隐私的同时,为家长和教师提供获知学生信息的渠道。
(来源:中国教育信息化网)
数据质量工程 篇7
关键词:数据质量控制,数据挖掘,关联规则,聚类
一、应用数据挖掘技术可以提升审计数据质量
数据挖掘, 也称为数据库中的知识发现, 它可以从大量冗余的、不完全的、模糊的和随机的数据中提取尽可能多的、事先不为人知的但又是潜在有用的隐藏信息和知识。数据挖掘是一种特定的数据分析过程, 它通过对数据进行统计、分析、综合和推理, 以发现更多的知识和信息, 既可以对已有的事实进行评估, 又可以对未来的活动进行预测, 从而为做出正确的判断提供基础。
数据质量具体表现在数据的真实性、完整性、一致性和有效性等几个方面。电子审计数据是以电子形式存在的可为审计使用的知识和信息。这种以电子形式存在的数据, 由于逻辑结构与信息本身相分离, 使得其在许多方面都有别于传统的审计数据, 如数据来源更加难以确定、信息的变化更加难以把握等。从数据质量方面来考量, 电子审计数据的无形性和易篡改性的确给审计工作带来了一些特定的风险。运用一定的技术来控制和提升审计数据质量变得异常迫切, 数据挖掘技术的应用恰好可以满足这一要求。
审计信息化的发展对我国电子审计技术方法和质量管理都提出了更高的要求。数据挖掘技术的应用适应审计对象信息化的发展形势, 它可以从庞大的数据库系统中提取更多有用的审计信息, 以控制和提高审计数据质量, 保证和提升审计数据的及时性、真实性、正确性和完整性, 增强电子审计证据的证明力, 从而提高电子审计的质量和效率。下面主要从数据挖掘的一般分析方法及其在审计数据质量控制中的应用展开分析。
二、数据挖掘的一般分析方法
数据挖掘涉及机器学习、模式识别、智能数据库、数据可视化、专家系统等技术, 在许多需要处理大量数据的领域得到了广泛应用, 有的领域应用得非常成功。数据挖掘技术的关键在于挖掘算法, 数据类型不同, 挖掘算法也各异, 发展相对成熟的挖掘算法主要有分类、聚类、估值、关联规则以及描述和可视化等几种。运用这几种算法, 数据挖掘系统可以发现和提供典型的知识和信息, 以帮助日常工作和决策。
1. 分类。
数据分类是指根据数据一定的特性建立相应的分类模型, 按照分类模型对数据库的各个对象进行分类。构建上述的分类模型, 需要运用一定的统计方法从数据库中选出已经分好类的样本数据库作为训练集, 在该训练集上运用数据挖掘分类的技术建立分类模型, 对于没有分类的数据进行分类。例如对银行的信贷业务进行审计时可将各种业务分类为低、中、高风险三类, 然后将各笔业务分配到预先定义的业务分片。分类就是要达到“物以类聚”的目的, 分类规则一旦确立, 各种数据都可自动通过数据挖掘系统来归类聚集。
2. 聚类。
聚类通常是数据挖掘的第一步。有别于分类分析的是, 聚类分析面对的是一组未明确分类的数据, 它的任务是把这些数据按相似特征归成若干类, 基本要求是属于同一个类别的数据之间的相似性尽可能大, 而不同类别数据之间的相似性尽可能小, 从而发现数据的分布模式和数据属性间的关系。聚类分析可以采用的技术方法有统计方法、人工神经网络方法、模糊技术等。例如, 企业财务数据的变化反映的是企业经营业务的变化状况, 如果财务数据的变动存在着偏离企业经营业务变化的异常情况, 表明这些数据很可能存在某些虚假成分, 其中很可能隐藏了审计需要的重要信息。以对应收账款、应付账款和摊销的实质性测试为例, 运用聚类技术可将具有相似性的会计数据进行聚类分组, 从中可以发现金额明显异于其他月份或其他时期的账目, 这些异常构成了审计的重点领域。从该例可以看出, 数据挖掘技术可以明显提升审计数据的真实性和一致性。
3. 关联规则。
各事件之间总存在着一定的相互联系, 关联规则分析总结了一组事件与其他事件之间的这种联系。通过关联规则分析能寻找到数据库中大量数据的相关性, 以概率形式描述甲事件和乙事件在多大程度上会同时出现或先后出现。关联规则分析常用的两种技术为关联规则和序列模式。关联规则是分析一个事件与其他事件之间的相互关联性, 序列模式重点分析事件之间的前后因果关系。我们知道, 会计科目之间具有很强的相关性, 存在着严格的数据勾稽关系。审计人员可通过关联规则挖掘技术对审计对象数据库中的数据进行分析, 找出数据库中各数据之间的相互联系, 发现某些数据之间的异常联系, 以此为基础, 寻找审计线索, 发现审计疑点。例如, 利用关联规则分析, 可以发现一个企业的原材料消耗量、职工工资总额、生产量、销售费用、销售额和应纳增值税额或消费税额的关联性, 通过查找相关企业这些数据的对应关系, 或许能发现该企业在缴纳增值税或消费税方面存在的问题。
4. 估值。
通过估值, 可以测算出一些连续性变量的值。例如, 根据个人或家庭的购买模式, 可以估计个人或家庭的收入水平;通过与个人或家庭的正常收入水平相比, 或许能找出个人或家庭收入方面的一些问题。对某个企业或单位, 也可以按此逻辑来分析其收入或支出等方面数据的正常性。一般情况下, 估值可以作为分类的前期工作, 输入一些特定的数据, 通过估值分析, 得到其他难以直接获取的变量的值, 然后根据预定的分类规则进行分类。例如, 对于银行的个人消费信贷业务, 就可以运用估值分析给各个客户打分, 然后根据一定的分类标准将客户按级别分类。
5. 描述和可视化。
描述和可视化是对数据挖掘的结果进行表示的方法, 它有利于人们更清晰地了解和进一步分析这些数据。描述是对分析对象的内涵进行表述并概括出它们的相关特性;可视化数据分析技术增强了传统图表的表述和分析功能, 可以更清晰地分析数据。
三、数据挖掘在审计数据质量控制中的应用
在会计信息化、电子商务和电子政务日益发展的今天, 审计工作的质量和效率在很大程度上取决于对电子审计数据的质量控制。电子审计中的数据挖掘可看做审计部门对审计数据进行准备、分析和评价等的过程, 此过程中各步骤的工作内容大体如下:
1. 明确审计的目标和内容要求, 确定业务对象。
数据挖掘是为一定的业务目的服务的, 贯穿于具体的业务工作之中, 因此认清数据挖掘的目的和要求是数据挖掘成功的第一步。在该环节, 必须根据审计分析需要, 明确定义审计问题, 并将其转化为数据挖掘问题。不同的审计目的和要求下所要准备的数据和选择的数据挖掘算法不一样, 因此其分析方法和分析模型也不一样。
2. 数据准备。
了解和确定数据的来源和形式, 从被审计数据库中选择适用于数据挖掘的知识和信息, 对有关数据进行清理和转换, 控制数据质量。数据准备包括数据选择、数据预处理和数据转换三方面的工作。数据选择就是在数据库中提取数据挖掘的目标数据项;数据预处理是对数据进行再加工, 以保证数据的完整性、一致性和有效性;数据转换的目的是将数据转换成适用于一定挖掘算法的分析模型, 这是数据挖掘成功的基础。
3. 数据挖掘。
按照审计的目的和任务要求, 根据数据的类型和特点选择合适而有效的数据挖掘分析方法, 对上一环节准备的数据进行数据挖掘操作, 该工作可由数据挖掘系统自动完成, 最终给出数据挖掘的结果。在该环节中, 根据不同的数据挖掘方法建立数学分析模型是数据挖掘的核心内容。如要预测企业的盈利能力, 由于其影响因素很多, 就可以运用人工神经网络方法建立分析模型。还要明确的一点是, 数据挖掘不仅是一项应用技术, 还要理解为一个技术应用的过程。例如, 我们可以利用一定的数据挖掘软件包对信用卡的使用进行持续不断的实时监测, 从而可以在大范围内侦察到信用卡持有者和商家在交易中的欺诈行为, 并且通过分析还可以获知每一个交易者进行欺诈的可能性。
4. 分析和评估结果。
对数据挖掘的结果进行分析和评估, 并将其转换成能够最终为被审计部门和被审计单位共同理解和接受的信息和知识。该环节通常会使用到描述和可视化技术。该过程还是一个反馈过程, 如对模型进行分析, 发现其结果并不令人满意, 就可以重新运用数据挖掘工具进行分析、建模, 直至结果令人满意为止。
5. 知识的组织和运用。
将数据挖掘分析得到的知识集成到审计业务信息系统的组织结构中去, 使审计人员能在随后的审计工作中组织和运用这些审计知识, 以提高其数据分析能力和业务水平。
参考文献
[1].李春宏.基于数据挖掘技术的财务管理信息系统模型.云南民族大学学报 (自然科学版) , 2006;10
[2].韩金红.应用数据挖掘技术提升财务分析质量.合作经济与科技, 2007;1
[3].闫建红.《数据库系统概论》的教学改革与探索.山西广播电视大学学报, 2006;15
数据质量工程 篇8
一、数据质量控制的工作内容
审计部门应针对具体的审计业务做好充足的准备, 以确保数据质量的有效性, 具体的工作内容如下:
1. 明确审计数据质量控制的目标。
由于数据挖掘技术是为审计业务服务的, 其在审计业务中应用的好坏对审计质量和审计效率具有很大的影响。因此, 明确数据挖掘技术的要求和目的是顺利开展质量控制的前提。在此环节中, 应根据审计业务中的具体目标, 明确要开展的工作内容, 并将审计目标转换成具体的工作目标。审计目标不同其要求的审计数据以及数据挖掘方法不同, 采用的数据模型以及分析方法也不同。
2. 数据准备。
在数据准备环节, 应对审计数据的来源以及类型做好充分调查, 并从数据库中选择与数据挖掘信息相匹配的审计信息, 并对数据进行处理和转换。确保数据质量的可靠性。数据准备具体内容有:数据选择、预处理、数据转换三部分内容。数据选择, 即是审计人员将所需的数据从数据库中提取出来以供使用;预处理是审计人员将选择出来的数据初加工, 使得数据一致、完整和有效;数据转换, 即是将预处理后的数据转换成具有一定算法的模型。
3. 数据挖掘。
在明确审计目标、数据类型和数据特点的基础上, 科学合理地选择数据挖掘方法, 对数据进行分析和整理。数据挖掘工作可由人工完成, 也可由数据系统来完成。在数据挖掘中, 数据模型的准确建立是核心内容。此外, 数据挖掘是一个应用过程并非仅仅是一项技术, 例如, 数据软件可以对信用卡进行跟踪监测, 记录信用卡的消费行为。
4. 结果分析与评估。
数据挖掘结果经分析与评估后, 将其转化为可供审计部门接受的数据信息。在数据结果的分析与评估过程中, 通常是一个反馈的过程, 即模型分析过程中如发现数据分析结果与预想结果存在偏差的情况, 要对数据进行重新挖掘, 对模型进行重新构建, 直到获得满意的数据结果为止。
5. 数据挖掘知识的集成和运用。
审计人员应将数据挖掘的结果进行再次整合和评估, 将整合后的数据统计到审计数据库中, 作为日后审计工作的参考数据。数据挖掘知识的集成不仅可以提高审计效率, 还有助于审计业务的完善, 对审计企业的长期发展大有益处。
二、提高审计数据质量控制的策略分析
硬件设施是数据挖掘的物质基础, 其质量的好坏直接影响数据的处理结果。因此, 在硬件设施的选择上, 要选择具有一定的内存空间和处理能力的计算机和信息共享畅通的网络。我国审计企业目前的数据处理硬件设施基本上可以满足审计的工作要求, 但处理技术参差不齐。审计机关应优化审计企业内部的硬件设施和服务配置, 并建立统一的设施标准, 以统一审计质量。
2. 树立新的审计理念。
近年来, 由于信息技术的广泛应用, 审计效率得到了很大提升, 审计数据得到了完善, 与此同时审计数据面临的问题也越来越隐藏, 一是由于审计环境发生了改变, 二是由于审计人员对审计目标缺乏整体的掌控, 随着信息技术的快速更新, 旧的模型已满足不了新形式的数据要求。因此, 要树立以数据挖掘技术为挖掘潜在问题方法的审计理念, 对审计的整体情况进行全面的掌控。
3. 重视人才的选拔和培养。
数据挖掘技术要求审计人员不仅要精通审计业务, 还要掌握数据挖掘方法、熟练应用数据软件, 对审计人员的职业素养提出了较高的要求。因此, 在审计人才的选拔上, 要选择具有一定计算机背景的审计人才, 在入岗前要对审计人员进行岗前的业务培训。在后期的人才育成上, 还要定期开展职业培训, 提升审计人员的业务能力。此外, 审计企业还要针对具体的审计项目, 科学合理地配备人员, 做到年龄阶梯化、业务能力均等化, 并设置结构合理的审计小组。
4. 数据处理知识的合理运用。
审计人员应将处理后得到的数据进行再分析、再整理, 并整合到审计业务系统中, 作为后续工作的参考数据, 方便日后审计工作的开展和运用, 从而使得审计人员的业务水平以及数据分析能力得到有效提升。
三、结论
当今时代的信息化进程不断加快, 促进了审计数据系统的完善, 如何全面了解企业数据中所蕴含的隐藏信息, 科学准确地分析审计企业的经济数据, 仅靠传统的审计方法是无法实现的, 寻求和创新新型的审计方法尤为重要。利用先进的数据挖掘技术实现对数据库中少量数据的分析和处理, 从而使审计风险得到有效控制、审计质量得到有效保证, 是信息时代对审计企业提出的新要求和新挑战。因此, 在审计数据的质量控制上, 审计行业还要加大对数据挖掘技术的研究力度, 推动审计行业走向更高效的发展道路。
摘要:近年来, 随着经济全球化的快速发展, 计算机网络技术的普及, 企业内部的审计工作逐渐朝着网络化、信息化的方向发展, 这在某种程度上进一步加快了审计工作信息化的进程, 同时也对审计数据的质量控制工作提出了新的要求。本文从数据挖掘技术的含义出发, 分析了数据质量控制的工作内容, 提出提高审计数据质量控制的策略, 旨在为推动我国审计工作的信息化发展提供意见。
关键词:数据挖掘,审计数据,质量控制
参考文献
[1]林国勇, 张莉.基于数据挖掘技术的审计数据质量控制探析[J].审计月刊, 2014, 3:004.
[2]张莉.基于数据挖掘技术的审计数据质量控制[J].中国审计, 2014 (004) :63-65.
[3]王会金.中观信息系统审计风险控制体系研究--以COBIT框架与数据挖掘技术相结合为视角[J].审计与经济研究, 2012 (1) :16-23.
[4]崔超.基于数据挖掘技术联网审计数据质量控制的研究[D].河南理工大学, 2010.
数据质量工程 篇9
关键词:数据仓库,数据质量,提升措施
在互联网快速发展的信息时代, 电信企业均建设起数据仓库系统以适应发展的需要, 该系统可以将各业务系统里分散的数据加以集中整理, 将企业的运行数据以数据图的方式清晰明了地展现出来, 为企业的绩效考核工作与运营分析提供强有力的支撑。与此同时, 电信企业的正常运转也离不开数据仓库系统的有力支撑, 因此, 必须要保证系统的数据质量。然而实际上, 人们常常只重视实现系统数据的应用功能而疏于管理数据质量, 导致一些无用数据冗余在数据库中, 很不利于准确实现数据应用。
1 常见数据质量问题机原因解析
常见的数据仓库问题可以归结为以下几类:数据错误、数据缺失、数据重复、不同系统中含义相同的数据的属性值不同。出现以上质量问题的原因多种多样, 一般说来可以归结为以下几种:系统差错、规则差错、管控差错、数据源差错。下面笔者将逐一予以分析。
1.1 系统性差错
如果系统在处理数据过程中发生异常, 而处理机制又不够完善, 很容易引起数据质量问题。比如在ETL系统在加载过程中崩溃, 一旦缺少有效而迅速的应对机制将不能够及时发现问题并处理, 若事后对异常数据不加以约束的入库, 就极易致使数据重复加载或者数据缺失。所以要对ETL的全过程建立起完善的排障与监控机制, 确保如启动异常、过程中崩溃等一些影响数据加载的故障可以被及时发现并处理。由于源系统数据常常随生产而改变, 故不同时间点提取的数据也不同, 所以在抽取数据时也就要求目标系统一定要以上次抽取的时间点为起点。如果对抽取时间点不严加控制, 很容易造成数据重复或者缺失。
1.2 数据源差错
目标系统常常很难发现在源系统中不完整的数据, 也很难对其进行完善。以一个常见问题为例, 在用户资料中, 如果姓名项完整但地址数据缺失, 这种类型的缺失在特定业务中对整个业务流程或许无关紧要, 在这种情形下, 源系统就缺乏保证数据完整性的动力。
数据源不一致是另一个不可忽视的原因。早些时候, 业务系统的设计大多是独立的, 数据实体同样独立维护, 有着相同含义的数据实体, 其属性值会因系统的不同而不一致。比如同一产品, 其编码在计费系统和CRM系统中却可能不相同。源系统在运行过程中发生故障将造成数据处理差错, 如果未及时发现并予以排除, 错误的数据就会输送到目标系统中去。此外, 如果人工输入数据, 细微的操作差错就会导致输入错误数据进入系统。
1.3 管控性差错
没有完善的管控机制做保障, 数据质量的管理就无法有序进行。一旦核心数据的传输点缺少有效、有力的检控机制, 就会导致错误的数据沉淀在系统中, 对最终分析结果造成极不好的影响。管理数据质量的工作要求思维缜密、深入细节, 即便是拥有完善的管控机制, 也要有相应的执行力才可以保证工作的顺利有序展开。如果管控人员责任心不强, 疏于管控工作, 那么数据质量的管理就会变的流于形式毫无意义。
1.4 规则差错
规则性差错可以从数据的整合规则、业务规则和统计口径三方面来分析。首先, 如果数据整合规则有漏洞会致使数据映射发生差错, 造成数据不一致。实际应用时常出现系统中数据粒度或者分类有差异的现象, 这是因为针对在分析处理数据时, 不同的部门间有不同的要求。由于对业务指标的解释、定义、计算方法不同, 导致在核查过程中一些数据出现重义性。在数据应用平台与生产系统中统一指标的定义不同, 导致一旦对数据指标进行统一, 业务部门并不认可数据质量。
2 数据质量的提升措施
2.1 组织及流程建设
要提升数据的质量就要求有一个完善的管理组织架构, 第一责任部门在总体上负责, 各下属相关部门间团结合作, 一同承担起数据质量的管理任务。组织构架内要分工明确, 优化、细化管理流程, 明确每个环节负责人的责任, 制定合理的考核指标。
2.2 制定标准
(1) 明确系统的主体数据。数据仓库的建设初期, 定义主数据的工作往往会被忽略, 但是若想提升数据质量, 这一工作又是十分必要的。系统主体数据明确之后不但有利于数据系统的界定和整合数据, 对各个建设IT系统的项目组从整体上考虑数据采集与访问也是很有利的。值得一提的是, 数据整合之后, 该系统即为此类数据的主要系统。
(2) 制定数据质量标准。没有一个明确的标准就无法判定数据质量的好坏, 一个合理的数据标准是十分必要的。数据标准的制定要求各业务部门间通力配合, 初期可以先制定比如账户、客户、营销活动、账单等重要数据的质量标准, 随后再不断完善丰富这一标准, 直至成熟。
(3) 制定合理数据整合策略。数据值策略直接关系到数据质量, 是ETL的重点。数据仓库中的数据大多来源于各个源系统, 因此数据很分散, 整合量也比较大。整合时可以把以下几个核心部分作为出发点:公众用户的合并;付费客户的归并;资产与账户间的关系;客户经理及其客户树状结构的关系;账户、客户、用户的整合。
2.3 建立核查机制
2.3.1 核查业务指标
从数据库中分析并整理出业务指标, 校验其度量值在不在
GSM系统对TD-SCDMA系统测量的一种方法
孙强
(上海交通大学, 上海200000)
摘要:通过研究3GPP协议规定的GSM系统向TD-SCDMA系统自动漫游的相关参数, 发现在GSM系统下对TD-SCDMA系统进行测量时, 考虑RSSI门限和相关参数结合的方式, 使用测量分级的方法, 能够在不影响性能的前提下, 有效地控制双模终端的功耗。
关键词:GSM;TD-SCDMA;测量分级
中图分类号:TN929.533文献标识码:A
随着移动通信的发展, 第三代移动通信系统正逐渐地被应用。TD-SCDMA系统是中国提出的第三代移动通信系统, 目前已经正式商用。虽然GSM系统是第二代通信系统, 但由于其在全世界范围的广泛应用, 因此, 一定时间内在中国将处于两种系统并存的情况。因此, 如何在使用GSM系统的同时, 能够自动漫游到TD-SCDMA系统, 将成为TD-SCDMA系统发展的一个重要组成部分。而要完成自动漫游过程, 在GSM系统下对TD-SCDMA系统进行有效的测量就是重中之重。
本文从测量策略的角度出发, 给出了一种在GSM系统下对TD-SCDMA系统进行测量的方法。
首先, 给出一些技术背景知识, 从3GPP协议原文中 (见参考文献) 我们可以获取如下信息:
(1) 对TD-SCDMA系统的进行下行同步需要对其DWPCH信道进行搜索;
(2) 对TD-SCDMA系统进行测量, 需要对其信标信道
设定的阀值内。制定业务度量的指标, 对数据处理前后指标的总值进行汇总, 检验二者是否相同。制定业务度量的指标与指标的维度, 对数据处理前后分维度进行汇总, 检验二者是否相同。
2.3.2 核查技术指标
核查文件数:查看文件数目与校对文件所显示的数目是否一致;核查文件的规范性:检查文件的创建、修改时间、文件大小、名称等信息;核查记录数据的分量, 主要是校对分类型的数目即查看记所录的文件分类型的数目和校对文件所显示的是否一致一致;核查记录总数:查看记录的文件总数和校对文件所显示的数目是否一致。实际上, 工作中需要平衡系统性能和数据核查, 所以在宽表、核心和接口三层中, 主要选取比较核心的数据 (如产品、商家、客户、账单等) 进行核查。接下来以业务数据为例予以阐明。
(1) 核查数据接口:以接口表方式储存到数据仓库中的文件, 要注意核查其业务和技术指标。核查业务指标主要指计算分业务类型总的时长、加工前后通话的总时长等是否在合理的阀值内。核查技术指标主要指校验记录的分业务类型数目与前后的记录总数是否相同。
(2) 核查输入数据:业务详单常以文件形式由源系统传送到接口服务器, 收集这些数据之前, ETL要先核查记录的文件数目与校对文件的数据是否一致。
(3) 核查核心数据:经过转换、整合后, 接口数据变为符合3NF、以统一的模型存储的数据, 也就是核心数据。加载完业务单的核心数据后, 记录核心表与接口表的数据的总量、分类、通话时长的分量与总量, 校验通话时长的阀值, 如果系统性能允许, 也可以校验计费时长与总时长的关系等指标。
文章编号:1673-1131 (2012) 01-0168-02
进行测量, 而其信标信道即TS0 (时隙0) 的码道1和码道2
(3) 搜索DWPCH信道即是对SYNC_DL码进行搜索, 而一旦确定了SYNC_DL码, 即可以确定唯一的一个MID-AMBLE码;
(4) 测量的过程即是对MIDAMBLE码进行解码并求功率;
(5) TD-SCDMA系统是一个码分系统, 小区是用码来标识的;
(6) 对于TD系统, 对于TD的TS0, 其RSSI (频点能量) 的能量一定是大于等于RSCP (码道能量) 。
除了以上背景外, 中移动在GSM系统下对于TD-SCDMA系统的小区是通过系统消息SI2QUATER来广播的, 但只是广播频点, 不广播扰码, 因此, 在GSM系统下对于TD-SCDMA系统的测量需要进行小区搜索的过程, 但此过程因在GSM系
(4) 核查宽表数据:宽表是由核心层的关键数据拼接而成, 其主要作用是增强数据汇总和查询的高效性, 降低数据开发的难度、减轻数据系统的负担。因此宽表数据的业务和技术指标核查十分必要, 其主要核查方法同数据接口。
校验任何一项数据时, 若出现数据超出阀值, 不符合逻辑或者与事实不一致时, 应暂停数据加工作业, 重新返回上一层, 寻找出错误原因, 及时和相关人员协调解决。
3 结语
数据仓库的质量关系到数据仓库是否建设成功。电信企业必须重视数据质量的把关, 借由完善的信息管理流程与科学严密的组织构架, 各部门之间紧密合作、协调有序, 严格按照执行标准和考核指标开展工作, 切实保证并提高数据质量。也唯有如此才能最大化开发和发挥数据的价值, 提升企业综合竞争力, 使企业走上可持续发展道路。
参考文献
[1]刘飏.电信数据仓库数据质量问题及提升方法探讨[J].电信科学, 2009 (9) :45-46
[2]周东山, 李喜英.数据仓库建设中数据质量问题的研究[J].华南金融电脑, 2007 (7) :53
油田开发数据质量分析 篇10
关键词:数据质量,质量控制,控制方法
1 引言
胜利油田开发数据库每天以约8万条新记录的速度加载, 横跨专业多, 数据采集密度大、频度高, 数据处理流程复杂, 不可避免存在数据质量问题, 典型的有记录不全、数据遗漏、数据错误、多义字段、矛盾值、违背业务规则、无法关联等, 使用户尤其是综合研究、领导决策不能用、不敢用、不愿用。为解决上述问题, 开展对数据错误的类型的分析并究其产生质量问题的原因势在必行。
2 数据库数据错误类型分析
2.1 各级对象在整个数据库中的要有逻辑一致性
各级对象在整个数据库中都有各自的逻辑完整性, 以单井为例, 实际检查出了在动态表中有的井号在单井基础表里没有, 这样造成数据的关联性低, 影响数据的完整性。不同表不同的数据项间所描述的对象属于同一范畴的概念时, 描述反映的情况必须一致。也就是同一对象的不同属性从逻辑关系上要一致。例如在新投产井中必须有投产日期, 采油日期、注水日期、目前井别、新老井标志等属性必须协调一致。
2.2 各级对象产量动态属性在整个数据库中要有连续性
2.2.1 累积产量连续
月度数据本月的年产量、累积产量应该在上月年产和累产的基础上加上本月的月产量, 保持和上月数据的连续累积。例如对于措施年增油应为=本月措施月增油+上月措施年增油 (一月年增油等于月增油) ;措施累积增油=本月措施月增油+上月措施累积增油。这类数据项包括内容较多:具体包括新井累积增油、年增油, 老井累积增油、年增油等, 数据项类包括产油量、产气量、产水量, 注水量等, 还有各类产油量的核实数据和井口数据等。
2.2.2 年月、测量值在一定范围内连续, 中间不能缺失
深度、温度、梯度、压力等静态字段的测量值在一定范围内连续, 例如要按照每100米压力梯度递增3.5的函数检验范围。年月在月度动态数据中, 生产井不应存在数据间断的情况。日产量、递减等不能定量对扣的数据, 它的变化须符合一定的渐变渐进的区间范围, 可以通过折线图, 或者值域预警来标示。
2.3 分项和总项之间要有值的闭合性
数据总项应该等于各分项之和, 例如在稠油热采数据表中, 稠油单元合计=常规水驱+吞吐+气驱, 符合该统计规则的数据项有:稠油单元井数、开井数、日产油、年产油、累产油、日产液、年产液、累产液等。
2.4 数据完整性
包括数据源是否完整、数据取值是否完整、实体类型、属性特征、维度取值是否完整等。例如要完成井筒的计算机屏幕再现, 它所包含的数据包括钻井数据、固井数据、套管数据、井径测井数据、井斜数据等等, 这里边存在多个数据源情况, 如果数据源不完整, 或者套管数据中缺失数据项下深或者壁厚, 井筒就不可能完整成像。
2.5 数据统计结果与地质认识不一致发现的数据质量问题
典型低渗透单元, 月度单元数据显示为一个高渗透单元, 前后矛盾。新油水井的概念在地质认识上的偏差, 造成数据量化统计的不一致性。这类错误的发现和更正都比较复杂, 只有在应用中才能发现和提出整改意见。
3 数据错误产生原因分析
通过对数据错误的类型进行分析, 我们发现目前数据在逻辑一致性、连续性、闭合性、完整性、与地质认识不一致等问题上存在错误, 如何才能避免这些错误那就需要再对产生这些错误的原因进行分析。
3.1 勘探数据与开发数据的标准和采集存在重复
开发单位的部分静态数据 (钻井地质设计、井斜数据、井身结构数据、第一次的单井小层数据等) 来源于专业施工单位提交的完工资料和处理解释成果, 开发单位获取后需再次组织人员进行校对和录入工作, 一方面造成了数据的重复采集, 另一方面产生了两套重复的数据。在标准上这些数据专业施工与开发单位间存在一定的重复, 需要进行整合;在应用流程上, 可以改由开发单位通过勘探直接获取, 从而解决重复录入的问题;在问题处理流程上应当建立开发单位反馈、施工单位负责修正并更新数据相关数据的工作流程, 以及根据二级单位校正的历史数据, 完善相关数据的历史数据校正流程。
3.2 综合研究的数据服务和成果回存缺乏有效机制
目前开发源头数据对综合研究的支持力度还不够, 尤其是开发静态、开发试验等相关专业的数据, 目前对综合研究的支持力度比较有限, 二级单位、科研单位开展综合研究工作还需经过独立的数据组织和分析处理过程。近年来, 油田加大了对注采平衡的管理, 各开发单位在确保注采平衡、实现注采科学调配方面开展大量分析研究工作, 对单井小层数据、地层联通关系数据、井组关系数据等进行了梳理和规范, 但是目前同时综合研究工作目前缺乏规范的成果回存机制, 研究成果尚未实现统一管理和授权共享。
3.3 井号的管理缺乏统一和规范
由于历史原因, 勘探、开发数据中井号的管理未建立统一规范的流程, 造成目前数据库中部分单井的井号存在错误, 影响不同专业的数据间的关联应用, 影响集成应用;同时单井的历史数据不能关联, 影响井史的查询和应用。
3.4 数据采集与应用结合不够紧密
随着采油工程、地理信息等数据应用的深化相关专业的数据质量有了明显的改善和提高, 说明数据的质量与应用程度密不可分, 但是目前源头数据对应用的支持力度还不够大, 尤其是对综合研究、开发监测、作业运行管理等重点工作的支持还需加强。从外部油田的建设经验来看, 长庆油田、江苏油田均对数据采集和应用进行了集成整合, 向采集应用一体化的方向建设, 既保证了数据的质量又较好的满足了应用的需求。
4 数据质量解决方案
究其产生数据质量问题的原因, 主要是目前数据质量检查局限在各专业内部的部分数据方面, 始终没有建立统一的专门数据质量控制研究机构, 没有进行系统的纠错方法专题研究, 缺乏方便的质量监控、反馈平台, 使得错误数据处于一个累加的状态, 导致问题数据在库中的长期滞留和累增。
5 结语
数据质量绝不是一朝一夕就能够解决的, 因为油田开发数据的产生过程本身就极其复杂, 单靠某个控制系统或单靠行政命令都不能很好的解决问题或只能解决其中一部分问题。因此, 必须在领导重视的条件下, 在生产管理上建立规章制度, 在数据流程中建立质量控制系统, 双管齐下才能真正提高数据质量。使数据库中的海量数据在生产管理、科学研究、企业决策中发挥应有作用, 使数据真正为企业服务。
参考文献
[1]方幼林, 杨冬青, 唐世渭, 等.数据仓库中数据质量控制研究[J].计算机工程与应用, 2003, 13:1-4
相关文章:
2025年会计实习报告 会计实习报告会计实习报告(汇总9篇)01-18
电气安全法规01-18
会计实习报告 会计专业实习报告会计实习报告(精选19篇)01-18
电气工作安全制度01-18
最新会计实习报告 会计实习报告会计实习报告(汇总13篇)01-18
会计实习报告 会计实习报告会计实习报告(汇总15篇)01-18
2025年会计实习报告 会计实习报告会计实习报告(优秀13篇)01-18
煤矿通风安全措施01-18
码头安全01-18
电气安全习题答案01-18