数据识别(精选十篇)
数据识别 篇1
一、网络数据包的抓取
抓取模块主要包括对图片、视频以及文本的抓取, 抓取的子模块在本质上是属于数据抓取模块, 数据抓取模块一般分为下面几个部分: (1) 数据识别部分, 主要对数据进行检查, 判断是否为要抓取的数据。 (2) 数据抓取部分, 该部分为最重要的部分。 (3) 数据分析部分, 这样是对数据包头的分析, 通过简单的数据分析后可以进入下一部分。 (4) 数据入库操作部分, 将抓取的数据以及分析得到的数据都放在数据库中, 对数据进行分类存放, 将这些数据进行分类存放, 通过分类存储对数据分析以及融合。
数据间数据通信时使用不同的数据通信包来进行通信的, 在数据包的抓取以及分析的基础上能够实现多个数据之间的数据通信以及数据共享。使用数据通信以及数据共享进行数据分析, 能够到到多种数据融合之后的数据, 通过各个数据集合进行数据的合成和转换。数据之间的不同要求进行数据存储, 在此过程中对数据进行分类操作, 将非结构以及结构化的数据进行分类存储, 通过数据观察和识别对数据模块进行处理。
项目中数据库的设计是按照确定表和确定实体的细化行为、关系以及制定规则、约定的技术流程的实施。数据库中使用SQL Server2008, 确定表的设计要遵循以文件类型作为分类的原则进行分类, 相同文件的要素放到一张表例, 例如TCP数据、数据要素表、视频数据表和图片要素表等等。
二、数据包的识别
现在比较流行的网络数据包一般是基于服务器/客户端模式, 依据网络的按原因是因为现在大家都经常使用Internet, 在网络层使用IP协议, 在传输层利用TCP作为为上一层提供面向连接的可靠服务, 通过对网络数据包以及抓包软件的抓包机制、网络数据包端口的特性以及数据包的包长的试验以及研究, 可以识别网络的数据包, 并且能够确定其是何种数据包是一种非常可行的方法。
当我们需要判别某个网络的接口是否有该种数据包时, 一般需要通过一下几步: (1) 按照该网络数据包的端口号来过滤数据。 (2) 将过滤到的数据按数据流分开, 这里所指的数据流是指IP五元组相同的一组数据, 也就是目的IP、源IP、目的端口号、源端口号以及传输层协议类型相同的一系列的数据包。 (3) 分析各个数据流的包场分布, 如果流的99%以上的包长都是40-159字节, 再将此流的各个数据包按照时间来排序, 测试每个包的时间间隔, 如果时间间隔小于1s, 在在第二步许多流中找与该流对应的反向流。 (4) 如果找到反向流按照时间进行排序然后观察各个数据包之间的时间间隔是否大于等于1s。 (5) 将反向流与正向流合并, 可判别正反向流对应的数据报是否是交替出现的。如果上面的条件都判断符合标准, 我们能够确定这两个正反向流是网络数据包的。
三、总结
通过研究发现, 网络数据包可以通过利用抓包软件的编辑接口, 从而能够开发出相对应的软件识别来通过各个网络的接口数据流有哪几种数据包, 我们能够将数据包的端口存储于一个链表中。依据以上方法依次验证所有的端口号。由于大型数据包开发成本较大, 现有数据包的数量有限, 搜集到所有的数据包的端口号是能够实现的, 这也解决了抓包软件中的数据包是别的空白。数据包已经被越来越多的人接受, 所以数据包市场规模也会继续扩大, 这需要有更多的人投入到数据包中, 而且能够解决数据包普遍存在的外挂问题、掉线问题、私服问题和提高数据包信息的交互性。
参考文献
[1]李培.网络数据包的监听与分析技术研究.煤炭技术, 2012, 31 (2) :456-457
[2]周维, 刘芳好, 罗宇, 谈子龙, 赵留涛, 刘东映.P2P应用特征检测与识别.计算机应用, 2009, 29 (5) :103-105
[3]鲁鹏俊, 钟亦平, 张世永.多模匹配问题在IDS中的解决.计算机工程, 2005, 31 (4) :74-78
[4]陈亮, 龚俭, 徐选.基于特征串的应用层协议识别.计算机工程与应用, 2006, 24 (7) :64-69
利用数据融合来解决目标识别问题 篇2
提出了一种用于目标识别与分类的改进算法,以模糊数学和D-S证据理论作为其数据融合的.工具,通过比较基于融合信息进行分类与单传感器分类的结果,说明多传感器数据融合的优越性.
作 者:周洁敏 韩静 肖纪立 作者单位:南京航空航天大学民航学院, 刊 名:吉林工业大学自然科学学报 ISTIC EI PKU英文刊名:MATURAL SCIENCE JOURNAL OF JILIN UNIVERSITY OF TECHNOLOGY 年,卷(期): 31(4) 分类号:V247.15 V249.121 关键词:D-S证据理论 模糊数学 目标识别与分类 数据融合
基于限速牌数据的识别算法研究 篇3
关键词:图像增强技术 归一化处理 canny、HOUGH变换
0 引言
车祸被誉为没有硝烟的战争,是当今世界上危害人们生命财产安全最严重的公害之一。造成车祸最主要的原因是违章超速行驶。超速行驶影响驾驶员的反应判断能力和认识空间的能力,易出现误判,基于机器视觉的限速牌自动识别算法有效、快速、准确的预警车载是否处于安全行驶状态。
1 系统设计
本系统首先是机器视觉的限速牌自动识别系统提出速度值与GPS导航系统定位的速度作逻辑比较运算,下达给上位机的执行器作出判断、预警。
■
2 限速牌识别算法研究
为了增强识别的准确度、稳定性,本文采用了图像增强、归一化处理、canny、HOUGH变换、提出限速牌的数据传送到导航系统。
2.1 直方图的图像增强技术 在应用中,图像增强技术没有固定和统一的标准,只要能把图像的质量和识别的精度提高。而系统在对限速牌数据摄取,变换、传输的时候,受到自然环境因素的影响,获得的图像失真较大,易造成误提取。直方图的增强技术可以根据图像实际情况,采用直方图增强技术,将速度值增强,滤掉杂质等无关紧要的信息,以便从整体或局部上起到改善图像质量的作用。
2.2 归一化处理技术 本文设定单位大小为:100*100像素的图像,当获取到120*150的图像时候,就需要将120*150的图像归一化到100*100,具体操作是它的宽和高都乘以一个缩放参数1/1.2、1/1.5。要想实现图像的标准化就要先将字符调到一致的尺寸,再将系统中的高度统一一致,最后根据高度的不同来调整字符。
2.3 边缘检测算法 所谓图像的边缘就是指图像中局部区域亮度变化剧烈的部分,它是图像分割的重要特征和依据,包含了图像的绝大部分信息。边缘检测作为图像处理技术研究的重要领域,其检测结果将作为重要参考,以得出最终的目标图像。
Canny算法是一种与边缘检测类似的方法,具体步骤包括:降噪、寻找图像中的亮度梯度、在图像中跟踪边缘。本文首先是将限速牌滤波,再利用双阈值算法检测和链接边缘。(如图2图3所示)
■
2.4 圆的检测Hough变换技术 Hough变换利用点-线的对偶性将图像内的空间线条转换为参数空间的聚集点,搜索给定性质的曲线是否存在,根据此原理便可检测限速牌的圆。
所谓圆形轮廓的去除,实质上就是掏空图像内部,若给定图像中有一点是黑的,并且其相邻的8个点也是黑色时,就要将该点去掉,以获得具有图像外部轮廓的特征点的像素,具体操作流程为:先进行限速标志图像的整体扫描,处理后的图像会呈现黑白色,若扫描时遇到白色像素点,则将函数值设定为0,直到扫描至出现黑色像素时,方停止扫描。使白色圆形轮廓和背景样色保持一致,即为黑色,然后去除。
3 模板匹配
受到集合变形、系统性强度变化及几何变形的因素的影响都会改变被测物的属性,影响匹配的准确性,增加伪相关概率。本文采用模板匹配识别限速标志,大大提高了匹配的正确率和适应性,不会出现因黏连笔画和断裂而产生误判的情况。
3.1 待测样品特征提取 在提取待测样品的特征时,先确定各个样品的起始位置,并在此范围内将样品的高度和宽度测算出来,再根据各样品的长度和宽度划分为等量的8份,构建出一个8×8的模板之后,统计各个小区域内的黑像素个数,计算其与该小区域的面积总数的比值。具体包括以下三个步骤:①搜索数据区,划分限速牌上下左右的边界范围。②构建一个8×8的模板区域。③计算各个小区域中黑像素的比例。
3.2 训练集特征库的建立 在监督学习(分类器设计方法)识别方法中,为了能够对未知事物进行分类,必须输入一定数量的样品,构成训练集,而且根据这些样品的类别已知,提取这些样品的特征,然后判别函数,构成一个分类器。再用该分类器判别未知类别的模式。
3.3 限速标志识别算法流程图 通过上文的一系列处理,限速标志识别算法的步骤如图4。
4 结论
本文采用了与市场广泛使用的GPS导航系统相结合与限速牌提取的数据进行逻辑比较,利用先进的识别算法排除了受到系统噪声、曝光不足(或过量)以及相对运动等因素影响,有效的提高了识别的精度,对后期的神经网络识别算法提供了基础。
参考文献:
[1]刘怀贤,姚晓东,常青.基于Canny算子的红外图像边缘检测研究[J].激光与红外,2007,37(5):474-477.
[2]李娅娅,李志洁等.图像边缘检测算法的比较与实现[J].计算机工程与设计,2010,31(9):19-21.
数据识别 篇4
数据是关于自然、社会现象和科学试验的定量或定性的记录,是科学研究以及科学决策的重要基础。数据作为研究依赖的基础资源,其质量好坏直接关系到以此为据的正确性和科学性。而日常生活工作中,产生的数据可能会出现异常情况。这些异常数据的产生,可能是网络入侵或传感器故障引起的;可能是数据产生的机制内在特性引起的;也可能是抽样调查技术问题;数据采集设备不完善;数据录入及传输错误;测量单位混乱;测量仪器不正常,样本达不到要求,或测量环境偏离正常值较大;虚报、瞒报使统计数据失真;输入错误或系统运行错误所致;看错、读错、抄错、算错、转移错误等人为因素所致。
异常数据的出现会极大程度地降低数据的质量,导致统计分析发生显著变异,使得样本对总体的推断、控制与预测等工作产生不准确或者出现错误,甚至造成宏观决策上的失误,带来不可挽回的损失。因此,及时有效的检测、追踪和防治异常具有重要的意义。
1 关于异常数据的基本概念
1.1 异常的定义
Hawkins的定义:异常是在数据集中偏离大部分数据的数据,使人怀疑这些数据的偏离并非由随机因素产生,而是产生于完全不同的机制。
1.2 异常数据的定义
异常数据就是数据集中与其它数据明显不一致的数据或远离数据集中其余部分的数据。异常数据具体表现在数据提取过程中,可能存在一些数据,它们与其它数据的一般行为或模型不一致。
1.3 数据存在的结构形式
异常是数据其中的一个外在表现形式,下面给出数据的结构形式。
大量的数据集合在一起形成样本矩阵。样本矩阵中每一行就是一个数据对象,这个不同的数据对象表示了不同的物质实体、方案、观测等,注意每个对象的样本数据是在同一次观测或同种方案下进行的。每一列代表某种属性特征,其属性值是指描述对象特征的数据值。设对象个数为m,属性的个数为n,这时样本数据构成了一个m×n的样本矩阵。第i个对象的第j个属性数据值为aij,则样本矩阵A为:
若n=1,样本数据是单属性,n>1时是多属性。本文只研究单属性的情况。
2 异常数据发现与识别的算法
2.1 基本思想
概率分布的方法是用于处理单属性数据的。目前,该方法一般处理过程是先设定属性数据服从正态分布,再给定一个置信概率,并确定一个置信门限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常数据剔除。但这种方法存在两个问题:
(1) 假设属性数据服从正态分布,然而现实生活中也大量存在不服从正态分布的数据,因此需要确定数据的分布特性;
(2) 置信门限作为一个恒定值是不合理的,因为小概率事件在大量抽样时,发生的概率也比较大,因此需要设定自适应门限阈值。
针对以上问题,本文先确定数据的分布形式,再使用可接受频率值p作为门限。另外,在构建算法模型前提出假设,假定样本矩阵中被认为正常的对象远远超过被认为异常的对象。
2.2 异常数据发现算法
这种方法一般处理的数据对象是单属性的,则n=1。样本矩阵变为简单的样本向量形式。其数据结构为:
A=(a11,a21,…,am1)T
基于统计的方法是最早并且最为成熟的异常数据检测方法。改进的算法思想是:首先假设被检测数据服从某种分布,给出分布模型(如:正态分布),然后根据已有观察数据来对未知参数(均值,方差)进行估计,最后使用假设检验的方法来计算出精确的或者近似的概率分布模型。然后根据该概率分布模型来计算某个特定值取值的概率,并根据一个自适应门限阈值来判断一个数据异常情况。
2.2.1 确定单属性数据的分布形式
现实生活中,某个属性值,在噪声的影响下或是由于人为工作上的疏忽存在着数据与理论上的误差。这个属性值可以看作是随机变量X,它服从某种分布f(x)。记为:
应用统计学,由该属性的样本数据可以统计求出属性的频率分布fp(x),并对均值和方差进行参数估计。
在统计学中,可以使用χ2拟合优度检验,科尔莫戈罗夫检验或斯米尔诺夫检验的方法,求出该属性的拟合分布函数或概率密度函数。这里采用概率分布结构相似的方法,确定属性值的概率分布f(x)。使用这种方法是因为在日常生活中的数据基本上服从以下的分布类型;另外,计算上简单易行。
日常生活实践中,大多数随机变量服从以下几种分布之一,设第k个概率密度函数或分布律分别为gk(x)和gk(n)。
(1) 连续型
正态分布:
γ分布:
其中,
把求得的样本估计参数带入到概率密度函数簇中,以确定具体的概率密度函数。
运用同样的方法可以确定均匀分布、指数分布、χ2分布、t分布、F分布、瑞利分布等的概率密度函数。
(2) 离散型
泊松分布:
而且,λ=μ或λ=σ2,这时分布参数同样由样本数据估计求得。
可见参数λ可以用多种方法求出,可以先验证参数是否满足该分布,即
各种分布的相似度计算:
连续型:
离散型:
其中sup、sub分别为上、下确界。由Cauchy Schwartz不等式,容易得出:
0≤Sk≤1 k∈(1,2,…,N)
N为概率密度函数或分布律的个数。当fp(x)=h·gk(x)或fp(n)=h·gk(n)时,Sk=1。其中,h为比例系数。
若最大的一个相似度
fp(x)∝gk0(x)⇒f(x)=gk0(x)
或f(n)=gk0(n)
2.2.2 发现对象异常的算法
由于属性值的分布函数f(x)已经确定,而且是单属性样本,异常值通常出现在极值处。因此从极值处判断是否异常。
最大值和最小值的异常判别公式为:
m·∫
m·∫
其中,p为可接受的频率值,这里取p=0.1。当上述不等式满足时,该属性值判断为异常,可以理解为,理论上该值出现不到0.1个,实际上出现了1个,相差一个数量级,认为是异常。删除该值,循环判断余下点是否异常,直到不等式的方向改变。为了更清晰地描述异常属性发现的算法,下面给出流程如图1所示。
2.3 异常数据的识别
由于是单属性情况,异常数据的识别比较简单,就是异常对象对应的数据值。如果是多属性的情况,异常数据的识别比较复杂,这里不再讨论。
3 结 语
通过算法计算提高了数据的合理性与有效性,也为进一步的数据挖掘处理做好了准备,这样获得的信息或知识更加可靠,为决策提供了有力的依据。
算法的优点:异常点检测的概率分布方法具有完善的数学理论基础,建立在标准的统计学技术(如分布参数的估计)之上,现实中有很多待检测数据确实服从某种分布。当数据样本充分以及所用的检验类型确定时,这些检验可能非常有效。
算法的缺点:大部分统计方法都是针对单个属性的,处理多元数据技术方法较少,对于高维数据很难估计真实的分布;在许多情况下,数据分布是未知的,而且现实数据也往往不符合任何一种理想状态的数学分布,只能做到近似分布的初步估计计算。因此,当没有特定的检验时,该方法不能确保发现所有的异常数据。另外,由于研究的是单属性数据,没有利用数据之间的关联信息,特别是对周期性数据不能够很好地工作。
参考文献
[1]师义民,徐伟,秦超英,等.数理统计[M].北京:科学出版社,2009.
[2]陈希孺.概率论与数理统计[M].合肥:中国科学技术大学出版社,2002.
[3]董尤心,张杰,唐宏,等.效能评估方法研究[M].北京:国防工业出版社,2009.
[4]周俊临.基于数据挖掘的分布式异常检测[D].成都:电子科技大学,2010.
[5]张葛祥.雷达辐射源信号智能识别方法研究[D].成都:西南交通大学,2005.
[6]应磊.农业搜索引擎中的异常数据检测[D].合肥:中国科学技术大学,2010.
数据识别 篇5
图1
我给他提供了下面三种方法,供其选择使用,文章末尾提供.xls文件供大家下载参考。
方法一、直接分列法
1、启动Excel(其他版本请仿照操作),打开相应的工作表,在B列右侧插入一个空白列,用于保存分列的结果。
2、选中B列,执行“数据→分列”命令,打开“文本分列向导-3步骤之1”对话框(如图2),选中其中的“分隔符号-……”选项(通常是默认选项)。
图2
3、按“下一步”按钮,进入“文本分列向导-3步骤之2”对话框(如图3),
图3
选中“其他”选项,并在后面的方框中输入间隔“-”号(因为B列数据中都有一个间隔“-”号,参见图1),单击“完成”按钮,分列完成(参见图4)。
图4
注意:大家可以通过图3中的“数据预览”窗口查看分列后的效果。
方法二、查找提取法
1、在B列右侧插入两列空白列,用于保存提出的字符。
2、选中C2单元格,输入公式:=LEFT(B2,FIND(“-”,B2)-1)。
注意:上述公式的含义是:先用“FIND”函数查找间隔“-”号在字符串中的位置,然后用“LEFT”函数从字符串左侧开始,提取至间隔“-”号的字符串(即英文字符串,其中“-1”,是为了去掉间隔“-”号)。
3、选中D2单元格,输入公式:=RIGHT(B2,LEN(B2)-FIND(“-”,B2))。
注意:也可以在D2中输入公式:=REPLACE(B14,1,FIND(“-”,B14),“”)。本公式的含义是,用空字符(“”)替换到原字符串中的英文字符。
4、同时选中C2和D2单元格,然后将鼠标移至D2单元格右下角,成“细十字线”状时(通常称之为“填充柄”),按住鼠标左键向下拖拉,将上述公式复制到C列和D列下面的单元格中,完成B列其他单元格中字符的分列(分列后的效果如图4),
方法三、统计提取法
上面两种方法,利用了原有字符串中的间隔“-”号。如果原有字符串中没有那个间隔“-”号,我们可以采取下面的方法来分列。
1、在B列右侧插入两列空白列,用于保存提出的字符。
2、选中C2单元格,输入公式:=LEFT(B2,2*LEN(B2)-LENB(B2)-1)。
注意:上述公式的含义是:先用LEN、LENB函数统计出字符串的字符数的(对于双字节字符,如“汉字”,LENB按数值“2”进行统计,LEN按数值“1”进行统计),然后用LEFT函数进行提取(“-1”同样是为了去掉间隔“-&
数据识别 篇6
关键词:数据挖掘;虚假财务报告;识别
一、引言
上市公司财务报告是上市公司各种经营信息的综合反映,也是各种机构及个人投资者判断上市公司运营状况,预测公司发展前景和投资回报的主要依据。正因为其重要,不少公司不惜编造虚假财务报告以图误导投资者。尽管监管机构多次出台各种政策,虚假财务报告仍屡禁不止。最有效的治理虚假财务报告的方法是提高各方的识别虚假财务报告的能力。但是,虚假财务报告的识别不仅要从大量的公司年报、中报等的财务数据中提取信息,还要从股市交易信息及其它相关信息中寻找线索,仅仅由会计师依据分析性程序方法,囿于各种主客观因素影响其识别效果和效率都不够理想。数据挖掘技术作为一种决策支持技术,能够高度自动化地分析海量信息,作出归纳性推理,从中挖掘出供决策使用的高层次知识,帮助财务报告的关注各方提高基于财务报告的决策质量和效率。在当今IT环境下,随着数据挖掘算法的改进和应用领域的不断拓展,将数据挖掘技术应用到虚假财务报告识别中既有可能也很有必要。
二、数据挖掘的概念和技术
数据挖掘是针对非常大的数据进行的研究和分析。它采用自动或半自动的程序,对数据中固有的先前未知的潜在有用信息进行抽取。数据挖掘的起源可追溯到20世纪50年代人工智能的早期发展。在此期间,模式识别和基于规则推理的发展提供了基础构建块,数据挖掘就建立在这些概念的基础之上。在最近10 年中,大型业务数据库(特别是数据仓库)使用量的增长以及对这些数据的理解和解释的需要,再加上相对廉价的计算机的供应,导致数据挖掘在各种业务应用中的使用急剧增长。这些应用从零售业务的顾客细分和市场购物篮分析,到银行业务和金融业务应用中的风险分析和欺骗侦查,涉及面非常广泛。
多年来各国学者已开发了多种数据挖掘技术,用于大量的数据集中探索和抽取信息。总的说来,数据挖掘技术分为两大类:探索型数据挖掘和预测型数据挖掘。探索型数据挖掘包括一系列在预先未知任何现有模式的情况下,在数据内查找模型的技术。探索型数据挖掘包括分群、关联分析、频度分析技术。预测型挖掘包括一系列在数据中查找特定变量(称为“目标变量”)与其它变量之间关系的技术。预测型挖掘常用的有分类和聚类、数值预测技术。数据挖掘使用的算法很多,主要包括统计分析、机器学习、决策树、粗糙集、人工神经网络和径向基函数(RBF)等。
三、数据挖掘在虚假财务报告识别中的应用
大量研究证实,与正常的财务报告相比,虚假财务报告常具有某种结构上的特征。Joseph T. Wells( 2001)认为,公司财务报告舞弊手法不外乎“虚构收入、滥用时间性差异科目、少计漏计费用、欺诈性资产评估”,这些舞弊行为通常会使得“企业的财务结构出现异常的状态”(Joseph T. Wells,2001)。Lee,Ingram和Howard对盈余与经营活动产生的现金流量之间的关系进行了研究,结果发现,在公司舞弊戳穿以前公司盈余要比之后高得多,但是经营活动产生的现金流量则相反,也就是说,在舞弊发现前盈余减去经营活动现金流量的值为正。表现在财务指标上,就是某些财务指标显著的异于同类公司。这些能够显著显示财务欺诈征兆的财务指标包括:应收款项比率、应收款项周转率、资产负债率、速动比率、主营业务税金及附加比率、资产质量、管理费用和销售费用率。Haw et al(1998)对我国上市公司盈余管理行为的研究发现,上市公司对帐面利润的操纵,很大部分集中于“线下部分”,即诸如投资收益、营业外收支等“非经常性盈余”部分,如果上市公司的主营业务利润率持续降低,或者远远低于同行业水平,说明该公司存在财务报告舞弊的可能。方军雄(2003)使用统计分析证实了这些差异并构造了基于某些财务比率的两类判别模型。
除了企业财务结构上的异常之外,上市公司对财务报告的操纵通常还具有可以分析的外部环境特征。Joseph T. Wells指出,财务报告舞弊“不是始于管理层的不诚实,而是发端于某种环境——这种环境中存在两个特征:激进的财务业绩目标;目标未实现将被视为不可宽恕的氛围。换言之,财务报告舞弊缘于压力。”我国的研究者通过大量的统计研究(陈信元、杜滨等2001),也总结出了极有可能采取会计造假的公司的特征。它们通常包括如下几个特征:(1)前两年连续亏损,今年经营业绩没有得到根本改善的公司(为了避免被ST处理);(2) 前两年平均净资产报酬率达到10%,今年公司行业不景气的公司(为了争取配股的资格);(3)资本运作和关联交易频繁的上市公司;(4)业绩和股价波动厉害的上市公司;(5)全行业亏损或行业过度竞争的上市公司。
美国Coopers & Lybrand会计师事务及知名学者对美国上市公司财务报告欺诈行为进行多年研究后曾经总结出29面红旗(即特征)。一旦出现这些红旗,就需要格外关注公司管理当局是否存在财务报告舞弊的可能。比较典型的情形有:(1)现金短缺、负的现金流量、营运资金及/或信用短缺,影响营运周转;(2) 融资能力(包括借款及增资)减低,营业扩充的资金来源只能依赖盈余;(3) 成本增长超过收入或遭受低价进口品的竞争;(4)发展中或竞争产业对新资金的大量需求;(5)对单一或少数产品、顾客或交易的依赖;(6)夕阳工业或濒临倒闭的产业;(7)因经济或其他情况导致的产能过剩;(8)现有借款合约对流动比率、额外借款及偿还时间的规定缺乏弹性;(9)迫切需要维持有利的盈余记录以维持股价。
上市公司财务造假具有复杂原因,也具有很多内外部表象特征,但是单从某一个表象分析很容易导出错误的结论。例如,财务欺诈公司与非财务欺诈公司在财务指标上的确存在较大差异,但是我们不能仅仅根据某些财务指标存在差异,就简单断定该公司存在财务欺诈。因为财务指标的异常可能来自于资产重组的影响、或市场的突发变化、或财务数据的调整等。更一般的情况是虚假财务报告的产生与表象特征之间很难用简单的确定函数关系来概括,而大多存在某种概率相关关系。
我们可以将所有影响虚假财务报告的因素概括成一个概率因果关系模型:
P(MI):虚假财务报告发生的概率;C:财务人员业务能力;M:企业负责人从事欺诈的外部动力;A:企业负责人的道德水准;D:监管力度,包括各种会计制度、处罚规则、投资者对虚假财务报告的识别能力等。
上述因果关系模型旨在说明虚假财务报告的发生与多个因素复杂相关,主要与企业的财务人员业务能力;企业负责人从事欺诈的外部动力;企业负责人的道德水准即诚信准则;监管力度,包括各种会计制度、处罚规则、投资者对虚假财务报告的识别能力等相关。由于数据挖掘技术可以处理大量的复杂关联数据,应用数据挖掘技术进行上市公司虚假财务报告识别研究的目的是确定数据挖掘的方法论,建立相应的规则和算法,并将其设计成能够实现的解决方案和相应程序。具体而言,需要做到以下几点:(1)运用数据挖掘技术整合上市公司财务数据、公司经营管理、证券市场交易及宏观经济环境等多方面的信息;(2)在上述信息的基础上,给出用于证券市场的各种数学模型的建立方法,并给出针对当前情况下适用的数学模型;(3)在大量数据模拟和试验的基础上,给出识别各种类型的财务造假模式的数据挖掘解决方案、规则、算法等;(4)将2、3中研究所得的模型及数据挖掘的方法、规则、算法等发展为能实现的计算机软件包,实现计算的自动化。
以基于模式识别和正交设计的RMST模型为例,其通常的计算模型如图1。
虚假财务数据挖掘技术除了有益于监管当局和投资者,对会计师审计上市公司的财务报告工作也很有帮助。使用经验方法的会计师在审计中,囿于方法的局限性和审计能力并不能识别所有的财务数据造假问题,他们也需要虚假财务报告数据挖掘技术的借鉴和相互印证。从方法论的角度来看,发展数据挖掘技术更具有理论方法创新的重要意义。企业会计人员使用传统的会计方法所编造的财务数据,其所遵循的原则不外乎会计惯例和会计准则,即使是注册会计师也概莫能外。与自然形成的财务数据相比,他们所编造的虚假数据很可能在数据结构上存在内在的缺陷。也就是说,两类财务报告可能存在模式上的内在差异,而这种差异在通常的会计人员眼中可能不显著,但通过数据挖掘技术可以将这种差异放大到存在某种数据结构和统计显著性差异。基于这种数据结构和统计显著性差异我们完全可以发展出虚假财务报告识别的数据挖掘技术。
参考文献:
1.刘姝威.上市公司虚假会计报表识别技术.经济管理出版社,2002.
2.张立民, 陈小林.虚假财务报告现状分析.中国注册会计师,2003,(5).
3.Joseph T.Wells ,And nothing but the truth: uncovering fraudulent disclosures.Journal of Accountancy,July,2001.
作者简介:韩之俊,南京理工大学经济管理学院教授、博士生导师,中国著名质量管理专家;薛跃、章亚南、王雪荣,南京理工大学经济管理学院博士生。
变电站非规整SVG图的数据识别 篇7
可伸缩矢量图(Scalable Vector Graphics,SVG)是电力系统约定的统一图形格式,在国内外有广泛的应用,尤其是中国[1,2]。由于应用太快,各类自动化和信息化系统的SVG格式十分不一致;工程中逐步通过升级或修改来达到一定程度的一致;SVG图形的统一标准既没有引起充分的重视,也没有得到充分的研究;在国内外均没有找到类似的研究。
SVG文本结构灵活,可以集模型、图形、数据于一体。若将其图形规范标准化,不仅可利用其进行图形显示,更可以作为模型、图形和数据的交换或校验的介质。一般称符合一定模型、图形、数据一致性标准规范的SVG图形为规整图形,而不符合的图形称为非规整SVG图形。
目前在生产实践中已大量存在着非规整的变电站单线SVG图形,其不规整的主要原因有:①绘制工具或方法不同;②图元标准不一致;③图元成组方式不一致,即间隔定义不规范;④图元之间的连线关系不准确,如未连接、过连接;连接点不采用焊点,跨接等。总之,没有统一的图形文档规范,各种SVG图形格式混乱。
然而重新制作统一规范的图形需要进行大量的信息录入,需要花费大量时间和精力。由于非规整图形遵循其自身的图形规范,依据模式识别的思想,可以对所需信息进行识别。一种比较符合实际需求的做法是:从现有的非规整的图形中识别出需要的信息,然后采用自动成图程序绘制出规整化图形。
本研究以某一地区的变电站SVG图形为例,介绍其识别和重新规整化的相关技术。
1 识别的内容
变电站单线图描述的是变电站一次设备及其连接关系。从SVG单线图需要完成以下识别:
(1)元件的识别:包括母线、出线、变压器、隔离开关、断路器、接地闸刀、小车、CT、PT等,作为这些主元件的连接,一种称为“连接线”的元件也在识别范围内,但它没有对应的电气设备档案;
(2)元件之间拓扑连接的识别;
(3)间隔的识别;
(4)母线接线方式的识别。
2 识别算法
2.1 元件识别
某地区局SVG图形中元件即电气设备的特性有:
(1)大部分的电气设备拥有规则的文档结构,用于定义其设备归类、电压等级、唯一标识码、端点及坐标。本研究将这类有规则文档结构定义的元件称为有定义的元件。
(2)所有接地设备、部分的开关、刀闸、地刀等设备没有相应文档结构,仅用SVG基本图元(如线条、圆圈等)直接组成。本研究将这类元件称为无定义元件。无定义元件除了组成它的基本图元的坐标信息外,无其他任何信息。
2.1.1 对于有定义的元件的识别
对于有定义元件,通过研究其规则的文档结构,结合XML解析技术构造出相应的解析模型,对文档进行解析,提取出元件信息,存入数据库中。
2.1.2 对于无图元定义的元件的识别
对于无定义元件,通过研究每类元件的几何特性,构造相应的识别模型,识别出元件的类型和端点坐标,并给识别出的元件添加元件唯一标识符。
以ground的识别为例:ground均以4个<line>元素直接渲染显示,图形如图1所示。
可以看出ground设备均为有规律的4个<line>元素渲染的三横一竖或者三竖一横组成,且4条线在空间的组成上有特有的特征。本研究根据模式识别的思想,通过选取特征量,构造出识别ground的算法进行识别。元件识别流程图如图2所示。
2.2 拓扑识别
本研究完成元件的识别后,得到元件的端点坐标,通过元件的端点坐标,可以对单线图进行原始拓扑分析,即元件间的连接性(Connectivity)分析。
2.2.1 单线图拓扑的数据结构
拓扑分析采用数据结构加算法实现。传统方法往往通过建立若干数据表[3,4]、关联矩阵或者邻接矩阵[5,6,7]来描述拓扑关系。然而对于接线图而言,元件数量非常多且连接关系复杂,这样会造成数据量十分庞大,从而导致其算法也变得非常复杂,拓扑分析将变得复杂、繁琐及低效。
通过对接线图中拓扑的分析,笔者发现可以通过元件连通性,将整个接线图看成一个或数个无自环的连通图的集合,即一棵或数棵树的集合[8],从而将整张图的拓扑分成数棵树拓扑的集合。这样可以有效地降低网络的维数,而且树形结构本身可以天然地反映出接线关系。本研究采用二叉树的数据结构,因为二叉树较一般树,在存储空间、运算效率上较一般树均有很大优势。以每棵二叉树为单位:根母线作为树根节点(Root),元件作为子叶。本研究以常见的单母线出线间隔这种接线方式为例(如图3(a)所示),以母线为根节点,可先将其转换成普通树形结构(如图3(b)所示),再将普通树转换成二叉树的树形结构(如图3(c)所示)。
2.2.2 拓扑算法
在每棵树中,可以采用深度搜索算法对其进行遍历搜索。同时引入阈值的概念,解决未连接和过连接的现象:即以连接点为圆心,确定某一阈值为半径,在这个圆内如果有其他连接点,则认为圆心连接点与圆内的其他连接点相连。
深度搜索算法为一种较成熟也较常见的算法,这里就不作具体的讲解。
2.3 间隔识别
间隔的识别是基于拓扑分析进行的。间隔是元件间常见的连接组合。在2.2节中的拓扑分析中,每棵树都可以归类成不同类型间隔。间隔对后续图形的自动生成十分有用,这里也将其作为识别的内容。间隔识别流程图如图4所示
间隔识别同样根据模式识别的思想。主要分为两步:第一步确定间隔的大类。首先识别出母线的接线方式(2.4节中会详细介绍其识别方法)。第二步通过遍历二叉树,找出间隔中的特征元件。根据母线接线方式和特征元件集可以确定间隔的类型。第三步,根据二叉树的一些特征量(如节点数、子叶树等)确定其间隔归属。
2.4 母线接线方式识别
一张单线图内会包含一个或多个不同的电压等级。不同的电压等级有不同的母线接线方式。2.3节间隔识别中母线接线方式也是识别的特征量之一。同时母线接线方式的识别对后续的自动成图中母线框架的绘制起着重要的作用。
2.4.1 常见的几种母线接线方式
常见的母线布线方式大致有如图5所示的几种。
2.4.2 母线接线方式的识别方法
本研究通过母线的数目及相互间距离这两个特征量构造识别模型,对母线布线方式进行一一匹配。以母线数目为2的模板为例,匹配规则如下:
若两根母线的纵坐标相同,则可确定为单母线分段接线;
若两根母线纵坐标不同,如果纵坐标小于设定好的阈值,则确定为不分段双母线;如果纵坐标大于设定好的阈值,则为一台半断路器接线。
本研究通过这个模板就能完成同电压等级母线数目为2的母线接线方式的识别。
3 识别成果分析
经过对浙江省某地区110/220变电站监控系统提供的SVG单线图的识别,结果表明其成功率为100%。以某幅元件较多、连接关系较复杂的变电站单线图(如图6(a)所示)为例,识别时间为1 min。图6(a)识别完成后,基于识别出来的数据通过自动成图程序输出的规则的SVG图如图6(b)所示。
4 结束语
本研究以浙江省某一地区的变电站监控系统的单线图为例,对其格式特征、图形特征进行了研究,并提出了对应的变电站元件、拓扑、间隔、母线接线方式等重要参数的识别算法,获取了全部数据,为下一步根据这些数据自动生成标准规范的SVG图形奠定了基础,为现有变电站的SVG图形提供了统一数据模型、统一数据格式、统一图形(即图数模一体化改造)的一种解决方案。
摘要:可伸缩矢量图(SVG)作为电力系统约定的统一图形格式,已在变电站监控等系统得到大量应用,但是这些图形存在着一定的非规整性,使得其集成应用受到了很大的限制。针对上述问题,以浙江省某一地区近百个变电站监控系统的单线图为例,对其格式特征进行了研究,提出了对应的变电站元件、拓扑连接、间隔及母线连接方式的识别算法,获取图形里的数据,为下一步根据这些数据自动生成标准规整的SVG图形奠定了基础。该研究成果同时也为现有变电站的SVG图形提供了统一数据模型、统一数据格式、统一图形(即图数模一体化改造)的一种解决方案。
关键词:可伸缩矢量图,图数识别,图形标准化
参考文献
[1]SUN Hong-bin,LI Peng,ZHANG Bo-ming,et al.Design of aHierarchical Network Remodeling System based onIEC61970 for Electrical Power Control Centers in China.[C].2008 IEEE Power and Energy Society General Meeting-Conversion and Delivery of Electrical Energy in the 21stCentury.Pittsburgh,PA:[s.n.],2008.
[2]章坚民,楼坚.基于CIM/SVG和面向对象的配电单线图自动生成[J].电力系统自动化,2008,32(22):61-65.
[3]杨光正,吴岷.模式识别[M].合肥:中国科技大学出版社,2001.
[4]于尔铿.电力系统状态估计[M].北京:水利水电出版社,1985.
[5]陈星莺,孙恕坚,钱锋.一种基于追踪技术的快速电力网络拓扑分析方法[J].电网技术,2003,28(5):22-24.
[6]周琰,周步祥,刑义.基于邻接矩阵的图形化网络拓扑分析方法[J].电力系统保护与控制2,0093,7(17):49-56.
[7]于红,朱永利,宋少群.图形数据库一体化的厂站接线拓扑分析[J].电力自动化设备,2005,25(11):79-82.
数据识别 篇8
道路瓶颈是指由交通事件或者通行能力限制导致道路服务水平下降的位置[1]。它限制了城市道路的通行能力,影响了道路乃至整个路网的运行效率。因此,对其进行定位,了解瓶颈引发的常发性拥挤的分布特点,对缓解城市交通拥挤、提高路网效率,改善人们出行条件具有重要意义。
目前道路瓶颈识别方法主要分为2种[2,3]①图形法,以Cassidy和Windover [4]提出的 “变形累计曲线法” 为代表,其优势在于能够详细分析瓶颈拥挤参数细节,由于人工参与判断,所以检测效率较高,但缺点在于工作量大,数据量大时操作困难;②自动识别算法,以Chen提出的基于相邻断面速度差进行判别的阈值法[5]和Kerner开发的基于3阶段交通流理论的自动跟踪(automatische stau dynamik analyse,ASDA)与交通对象预测(forecasting of traffic objects,FOTO)算法[6,7]为代表,该类方法能够自动进行信息提取,识别瓶颈拥挤,但全为针对国外高速公路的研究。实践表明,当进行城市道路瓶颈拥挤识别时,阈值法的参数较难标定,而ASDA/ FOTO本身理论基础在城市道路上是否成立有待进一步验证。鉴于此,需开发适用于城市道路瓶颈拥挤自动识别的有效算法。
本文的研究围绕存档数据环境下的道路瓶颈拥挤识别展开,意即进行拥挤发生后的系统辨识。主要目的有2个:①实现道路瓶颈定位,掌握瓶颈拥挤开始时间与结束时间;②实现道路瓶颈蔓延范围的识别,得到随时间变化的拥挤影响范围。
1 瓶颈拥挤自动识别算法
1.1 算法原理
1997年,Daganzo[8]指出瓶颈拥挤特征为:①当瓶颈拥挤发生时,上游路段出现拥挤排队且同时下游路段畅通;②当瓶颈处于“激发状态”时,从上游行驶过来的车辆排队数不断增加,导致拥挤不断向上游蔓延(见图1),当排队拥挤结束或下游拥挤蔓延至该瓶颈处时,瓶颈拥挤结束,此时瓶颈处于“非激发状态”。根据这一原理,找到拥挤发生最下游位置即可实现瓶颈位置定位。
Chen等人[3]于2004年指出,道路瓶颈的定位可通过分析速度(或密度)等高线图(contour plots)来实现。图2中深色表示拥堵状态,浅色表示畅通状态。在3.218 km范围内,假如满足以下条件:①检测线圈断面车速沿着交通运行方向逐渐增大;②研究路段下游边缘处断面车速大于上游边缘处断面车速,且两者偏差大于32.18 km/h;③研究路段上游边缘处断面车速小于拥挤阈值64.36 km/h,则该位置处于瓶颈拥挤状态。
Chen所设计的算法存在的不足之处在于:①速度偏差阈值32.18 km/h是根据经验针对美国(San Diego地区)高速公路给出的,不同道路条件下阈值校正比较困难;②拥挤阈值64.36 km/h对于不同检测线圈是固定的,这与实测情况不符(交通状态定性判别结果表明各个检测线圈断面速度划分阈值各不相同[9])。 针对上述不足,本文所设计的算法首先进行交通状态定性判别,在此基础上进行瓶颈拥挤辨识。该算法包括2大模块:①交通状态定性判别模块;②道路瓶颈定位及拥挤时间(拥挤持续时长)、空间(最大排队长度)影响识别模块。
1.2 交通状态定性判别模块
针对大规模历史数据,聚类分析方法已被证明是解决交通状态判别问题切实可行的一类方法,并被较多应用于以往的研究中 [10,11,12]。对检测线圈数据修正后,本文采用模糊C-均值聚类算法,将检测线圈断面交通状态根据流量-占有率关系分为畅通状态和拥挤状态(见图3)2种[9]。
在分别得到路段上下游检测线圈断面的“交通定性状态”后,可将“路段交通状态模式”划分为4种“模式”: G1模式,即上游畅通-下游畅通;G2模式,即上游拥挤-下游拥挤;G3模式,即上游拥挤-下游畅通;G4模式,即上游畅通-下游拥挤。根据断面交通状态得到“路段交通状态模式”后,即可获得道路某一观察时间内“交通定性状态矩阵” (下文统一用符号DS表示)。该矩阵行元素代表路段编号,列元素代表时间。矩阵元素sij与4种路段模式一一对应,如果j时间间隔内路段i交通模式属于G1,则令sij=1。类似地,sij=2表示交通状态模式属于G2;sij=3表示交通状态模式属于G3 ;sij=4表示交通状态模式属于G4。
1.3 道路瓶颈定位及拥挤时空识别模块
该模块实现在交通定性状态矩阵DS的基础上,利用瓶颈拥挤特征实现道路瓶颈定位,识别瓶颈拥挤的持续时长和影响范围。
具体方法为:首先找到DS中sij=3的路段,认为路段i处于瓶颈拥挤状态,令Aij=1;然后判断[t1,t2]内
1.4 步骤和流程图
设路段编号和线圈编号沿着交通流运行方向从上游到下游依次增大,瓶颈拥挤自动识别算法流程如下所述,流程图见图4。
第1步。初始化。按照交通定性状态生成模块中描述的方法利用定点线圈检测数据可得到N1×T(N1为路段总个数,T为统计时间间隔总个数)维矩阵DS。
第2步。瓶颈识别。判断DS内元素sij的取值,若等于3,则令Aij =1,否则令Aij =0,得到N1×T维矩阵A。
第3步。确定拥挤持续时长。初始化,i=N1,n=1,j=1。
①当Aij=0时,i和n保持不变,j=j+1,直至Aij=1时,令ti1(n) =j,t= ti1(n)。
②判断t+Nc-1≤T是否成立,若成立,则转到③,否则转到⑤。
③判断
立,则t继续加1,直到判断条件不成立,可找到拥挤结束时刻ti2(n)= t-1+Nc。
④n=n+1,j=ti2(n) +1,判断j+Nc-1<T是否成立,若判断成立则返回①,否则转到⑤。
⑤i=i-1,判断i>1是否成立,若判断成立则j=1,返回①,否则转到第四步。
第4步。判别瓶颈拥挤影响范围。初始化,i=N1,n=1,m=N1-1。
①j=ti1(n)。
②判断smj=4是否成立,若判断不成立则转到③,若判断成立则找到j时刻上游最大影响范围lij(n)=m,转到④。
③m=m-1,判断m>1是否成立,若是则返回②,否则可找到j时刻上游最大影响范围lij(n)=m。
④j=j+1,判断j≤ti2(n) 是否成立,若判断成立则返回②;否则转到⑤。
⑤n=n+1,查找ti1(n)是否存在,若存在则返回①,否则转到⑥。
⑥i=i-1,m=i-1,判断m≥1是否成立,若是则返回①;否则转到第五步。
第5步。输出结果。
2 实例验证
以上海南北高架东侧部分路段为例,实施城市道路瓶颈自动识别算法的实证分析。图5为路段划分示意图,线圈编号DXi(i=1,2,…,19)依照交通流运行方向依次增大。研究范围内,路段编号RSj(j=1,2,…,18)亦沿着交通流运行方向依次增大。数据来源于上海市中心区道路交通信息采集系统,选取2009年3月20日(周五),3月21日(周六),3月22日(周日),3月23日(周一),3月24日(周二),3月25日(周三),3月26日(周四),3月27日(周五),3月28日(周六),3月29日(周日)连续10 d内06:00~19:00时的数据。
2.1 路段交通定性状态判别
根据交通定性状态判别算法,获得了上海南北高架东侧DX01~DX19间10 d内06:00~19:00时的路段交通定性状态(见图6)。图6中横轴表示时间轴;纵轴表示空间轴,G1、G2、G3、G4模式分别对应定性状态判别的4种模式,即上游畅通-下游畅通、上游拥挤-下游拥挤、上游拥挤-下游畅通和上游畅通-下游拥挤。从图6中可以看到,10 d中研究路段上都发生了不同程度的拥挤,其中以3月27日(周五)拥挤最严重,周末拥挤情况较轻,工作日拥挤较严重,表明结果与实际情况一致;1d中,早晚高峰是拥挤发生的高发时段,尤其在个别路段每天都会出现不同程度的拥挤,表明研究路段上确实存在瓶颈位置。
2.2 瓶颈位置及拥挤次数
采用道路瓶颈拥挤识别算法,获得10 d内06:00~19:00时研究路段上各次瓶颈拥挤定位、发生时间、持续时长以及最下游影响位置。对各次瓶颈拥挤统计发现(见表1),该路段上多个位置重复表现出了瓶颈拥挤特性,也说明了瓶颈拥挤发生具有重复性和可再现性。
2.3 识别常发性拥挤路段
按路段对识别结果进行统计分析可发现常发性拥挤发生的位置,见表2。如果把高于平均拥挤频次的路段做为常发性拥挤发生路段,从表2中可见,在本实例中可将拥挤频率高于5.6%的路段判定为常发性拥挤路段。据此判断,路段RS7、RS8、RS10、RS13、RS16、RS17、RS18的频率均超过5.6%,表明这些路段为研究范围内易发生常发性拥挤的路段。这些路段与实际中道路对应关系为(见图5):RS7和RS8位于延东立交附近,属于立交瓶颈;RS10与淮海路上匝道和北京西下匝道对应,属于匝道瓶颈;RS13包含了新闸路上匝道和天目立交入口位置,属于交织干扰瓶颈,RS16、RS17和RS18位于共和立交上游,属于立交瓶颈。按照瓶颈拥挤发生的时间(分上午、下午)统计,结果表明:下午瓶颈拥挤发生频率高于上午的路段有RS10、RS13、RS16、RS17、RS18,结合流量潮汐现象分析,表明这些路段拥挤主要是由离开市区交通量引起的。
3 结 论
基于定点检测线圈数据,本文设计了道路瓶颈拥挤自动识别算法,旨在实现瓶颈定位、识别瓶颈拥挤的持续时长和影响范围。该算法能够自动实现根据历史检测线圈数据动态调整不同道路断面的交通拥挤阈值,识别交通定性状态,并识别历史上发生的各次瓶颈拥挤位置及其持续时长和影响范围。与以往算法相比,本文算法具有较强的可移植性和可扩展性。以上海南北高架东侧2009年3月20日至3月29日共10 d 06:00~19:00时时间段内数据为例,进行了算法的实例验证,结果为:①根据定性交通状态生成模块算法,获得了10 d的路段交通定性状态时空变化图;②自动识别出780起瓶颈拥挤现象,获得了各次瓶颈拥挤定位、发生时间、持续时长和最下游影响位置,依据拥挤频率识别得到了上海南北高架东侧常发性瓶颈路段位置。未来可将结果进一步应用于瓶颈拥挤严重性评价和瓶颈拥挤现象特征的进一步分析中。
注:图中横坐标表示时间,纵坐标表示线圈编号
注:*算术平均值为“总计/路段数(18)”后四舍五入的结果。
参考文献
[1]Michael J,Cassidy,Kitae Jang,et al.The smoot-hing effect of carpool lanes on freeway bottlenecks[J].Transportation Research Part A:Policy andPractice,2010,44(2):65-75.
[2]Li Huan,Bertini R L.Comparison of algorithms forsystematic tracking of patterns of traffic congestionon freeways in portland,oregon[J].TransportationResearch Record:Journal of the Transportation Re-search Board,2010(2178):101-110.
[3]Wieczorek J,Fernández-Moctezuma R J,Bertini R L.Techniques for validating an automatic bottleneck de-tection tool using archived freeway sensor data[J].Transportation Research Record:Journal of the Trans-portation Research Board.2010(2160):87-95.
[4]Cassidy M J,Windover J R.Methodology for as-sessing dynamics of freeway traffic flow[C]∥Transportation Research Record 1484,TRB,Washington,D.C:National Research Council,1995:73-79.
[5]Chen Chao,Alexander Skabardonis,Pravin Vara-iya.Systematic identification of freeway bottleneck[C]∥The 83rd Transportation Research Board An-nual Meeting,Washington,D.C:TransportationResearch Board of the national academies,2004,1867:46-52.
[6]Kerner B S,Rehborn H.Traffic surveillance meth-od and vehicle flow control in a road network UnitedStates Patent:Us 6587779[P].2003-7-1.
[7]Kerner B S,Rehborn H,Aleksic M,et al.Recog-nition and tracing of spatial-temporal congested traf-fic patterns on freeways[J].Transportation Re-search Part C.2004(12):369-400.
[8]Daganzo C F.Fundamentals of transportation andtraffic operations[M].New York:Elsevier ScienceInc,1997.
[9]弓晋丽,杨东援.基于检测线圈数据道路交通瓶颈分析[J].公路交通科技,2010,27(7):118-122.
[10]Pravin Varaiya.California performance measure-ment system[R].California:University of Cali-fornia,Berkeley,1999.
[11]杨祖元,徐姣,罗兵,等.基于SFLA-FCM聚类的城市交通状态判别研究[J].计算机应用研究,2010,27(5):1743-1745.
数据识别 篇9
随着电网的自动化水平不断提高,增强对电网监测的实时性,提高供电的安全性和可靠性的重要意义日渐突现,选择一种合适的方法进行PQD的在线识别,具有实际意义。数据流具有数据持续到达,且速度快、规模大的特点;处理结果能随着数据的不断到达而不断的更新。这些特点很好地适应了PQD在线快速发现的要求。因此,本文在基于数据挖掘的决策树算法PQD识别的基础上,利用数据流技术实现PQD的在线识别。
1 信号模型的建立
6种常见动态P Q D信号为电压凸起(s w e l l)、电压凹陷(sag)、电压间断(in terrup t)、谐波(harmo nic)、包括脉冲暂态(transient impulse)和振荡暂态(transient oscillation)的电压暂态,数学模型可由表1给出的理论公式建立[1]。表中:а为幅度;t1和t2分别为扰动开始时刻和结束时刻;T为信号周波。输入信号的分析时间长度取为10个周波即0.2s,电压频率为50 Hz。
2 数据流处理模型
滑动窗口模型描述的是数据流中最新的w(w也称为滑动窗口大小)个数据。一种计算框架是将滑动窗口划分成若干基本窗口(basic windows),每次更新一个基本窗口的数据序列。图1给出了滑动窗口与基本窗口的原理图。把大小为w的滑动窗口按照时间次序划分成k个等宽的子窗口,称为基本窗口。每个基本窗口包含b=w/k个元组。
滑动窗口模型的基本思想是在某个子集而不是在目前所见的所有数据上进行计算,从而可以在最新到达的部分数据的基础上进行处理,由于只存储一个数据子集,因此降低了内存的需求。
3 基于数据流的PQD识别
3.1仿真PQD数据模型
依据表1PQD模型建立连续信号模型:仿真80个连续周波时间为1.60s,加入信噪比为25dB的随机白噪声,在0.271~0.291s出现电压凸起扰动、在0.415~0.440s出现电压凹陷扰动、在0.578~0.635s出现电压中断扰动、在0.900~0.956s出现谐波扰动、在1.240s出现脉冲扰动、在1.400~1.410s出现振荡扰动,其余为纯正弦信号,信号波形如图2所示。每个周波为0.02s取128个样本点,取8个周波为一个滑窗,包含1024个样本点,取4个周波为一个基本窗,包含512个样本点。
3.2仿真结果及分析
以Harr小波变换8层能量为特征属性,应用决策树分类C4.5算法对P QD训练集进行训练生成分类规则(即训练过程);然后,以滑动窗口的形式对连续信号进行识别(即测试过程)。其工作过程如图3所示,识别结果如表2所示。
由表2可以得到连续信号识别的正确率为90%,其中电压中断扰动被误判成电压凹陷。
运算时间比较结果如表3所示,运用滑动窗口进行识别(包括特征提取和分类)每一个滑动窗口所消耗的时间0.009464s远远小于下次数据更新前所的用时间0.08s,因此,从运算时间方面证明了采用数据流技术的滑动窗口对PQD进行在线识别的可行性。
4 小结
本文建立了包含多种PQD的连续信号模型,采用数据流技术对识别准确性和运算时间进行了测试,证明了数据流技术非常适合在线PQD识别的要求。
参考文献
非平衡大数据下的保险欺诈识别研究 篇10
Ridit模型通过建立标准组, 将其他组的数据与之做对比来计算R值。我国学者叶明华1, 运用Logit回归分析对识别因子进行精炼, 将BP神经网络应用在车险欺诈识别中, 得到了更高的准确率。
然而, 在实际操作过程中, 可能会因两方面因素影响, 导致准确率偏差:一是数据样本小, 缺乏对于现实中包含微弱信息的大型数据库的数据分析。二是以理想的数据平衡状态作为研究背景, 脱离实际。
研究数据研究样本为美国车辆保险机构提供的车险索赔数据, 共包含11336项记录。其中94年的数据为训练集 (6141条) , 95年的数据为测试集 (5195条) 。共有包括“车辆品牌”、“事故发生地”等在内的31个自变量, 一个应变量“欺诈与否”, 诚实索赔为0, 欺诈索赔为1, 正类样本只占样本总量的6%, 为两分类非平衡大数据。
评价准则
目前分类算法常见的评价准则主要有:
(1) 准确率 (Precision) :Precision=TP/ (TP+F P) )
(2) 查全率 (Recall) :Recall=TP/ (TP+FN) )
此外, 人们从医疗分析领域引入了一种新的评判方法—ROC分析, 其横坐标是将负例错分为正例的概率 (FPR) , 纵坐标是将正例分对的概率 (TPR) , 通常采用ROC曲线下面积AUC来代替ROC曲线对分类器的性能进行定量评估。在众多现实分类任务中AUC已经替代准确率成为分类算法的性能评价指标。
本研究选取AUC作为分类器性能评价准则。保险欺诈识别中的随机森林 (Random Forest) 应用Leo Breiman2将统计学理论中的数据分析分为数据建模文化 (The Data Modeling Culture) , 例如线性回归, 逻辑回归, Cox模型等;算法建模文化 (The Algorithmic Modeling Culture) , 典型模型是Leo Breiman在决策树基础上建立的随机森林3。
相比数据建模文化, 算法建模文化可以得到更有效的预测模型。随机森林对缺失数据和非平衡的数据比较稳健, 可以很好地预测多达几千个解释变量的作用, 而不需要对解释变量进行交叉检验及精炼, 从而避免删除隐藏的有效信息。此外, 随机森林算法还不容易产生过拟合现象, 被誉为当前最好的算法之一。
研究采用R软件的random Forest程序包命令对数据进行分析。将训练集数据 (1994年数据) 全部输入, 设置参数, 500颗树 (ntree) , 每个节点选取5个特征值 (mtry) , 构建随机森林欺诈识别模型。将测试集 (1995年数据) 输入模型中, 得到欺诈预测输出结果。图为预测结果ROC曲线, 得到AUC面积为0.724。用ROC曲线的AUC评价诊断试验的准确性判断标准为:AUC在0.5~0.7之间表示诊断价值较低, 在0.7~0.9之间表示诊断价值中等, 大于0.9则表示诊断价值较高4。
结论与建议
本文针对现实生活中存在的多为非平衡数据这一事实, 对获得的车险索赔大数据进行欺诈识别研究。基于数据的不平衡特性, 选取AUC作为分类器性能的评价指标, 利用94年的数据对95年的车险欺诈进行预测, 很好的保证了研究样本的
时间连贯性。由于国内目前的车险欺诈识别研究没有针对非平衡数据的分析, 研究结果没有准确的比较标准, 从医疗领域利用AUC进行评价的分类器性能研究中可以看到, 大多数预测研究的AUC都在0.7~0.8之间, 且研究样本也并没有如此庞大。由此可以看出, 本文的研究结果在可接受范围内。在进一步的研究中, 我们将会进行国内保险数据的收集和整理, 规避人为的数据筛选, 保持数据的原始性, 通过进一步的研究分析, 构建符合国内行情的, 立足于现实的保险欺诈识别模型。
摘要:随着保险欺诈 (Insurance Fraud) 向全球蔓延, 研究方法开始由定性研究向实证研究过渡。然而现有分类器的设计都是基于类分布大致平衡这一假设的, 针对现实世界中广泛存在不平衡数据这一事实, 本研究对美国机动车保险机构提供的车险索赔非平衡大数据, 运用随机森林 (Random Forest) 对欺诈进行识别预测, 为构建我国保险欺诈识别模型提出建议。
关键词:保险欺诈,识别模型,随机森林
参考文献
[1]叶明华, 基于BP神经网络的保险欺诈识别研究[J].保险研究, 2011 (3) :79-86
[2]Leo Breiman, Statistical Modeling:The Two Cultures[J].Statistical Science, 2001, Vol.16, No.3:199–231
[3]Leo Breiman, Random Forests[J].Machine Learning, 2001, 45 (1) :5–32