决策树分析模型

关键词: 分析模型 检测 入侵 系统

决策树分析模型(精选八篇)

决策树分析模型 篇1

入侵检测技术是一种主动保护自己免受攻击的网络安全技术。作为防火墙的合理补充,入侵检测系统IDS(Intrusion Detection System)能够帮助系统应对网络攻击,扩展系统管理员的安全管理能力,提高信息安全基础结构的完整性。当前的入侵检测系统主要采用简单的数据包模式匹配的检测方法,该方法分析网络中数据包的特征,并将这些特征与入侵行为模式进行匹配来检测入侵活动。但是,简单数据包模式匹配方法所需计算量较大,检测效率相对较低。随着网络流量的不断激增,也进一步限制了这种方法的应用。

在这种背景下,提出了网络协议分析技术。该技术利用网络协议的高度规则性对数据包中的协议信息进行分析,只检测能够体现出入侵行为特征的字段。由于协议分析技术只搜索数据包特定的部分而不是整个数据包,所以能够减少搜索空间,有效地提高入侵检测效率。随着网络流量的增大和入侵种类的增多,数据挖掘技术被引入了入侵检测系统[1]。决策树[2]方法作为数据挖掘技术的一种,能够通过训练大量样本数据,生成简单有效的预测模型,使得检测的结果更加准确、高效。决策树方法可以用于对现有的入侵检测系统检测规则进行优化,从而有效减少手工分析入侵行为和入侵模型编码的工作量,提高了入侵检测的效率。

1 网络协议分析的入侵检测模型

1.1 数据流模型

文献[3]提出了Sketch模型用于描述数据流。该模型将数据流中的每个数据包概化为一个二元组(i,v),其中i为该数据包的索引,它的取值可以是数据包的源地址、目的地址、端口号等;v为需要保存的数据包的相关特征值,如数据包的字节数。经证明使用sketch方法能够快速高效地对数据流行进行分析,节省大量的存储空间,且更适用于数据流的分析与研究[4,5]。

本文采用sketch的方法对数据流进行分析。

定义1 sketch

sketch结构定义为:I=α1,α2,…,为逐项到达的数据包。每一项αi=(pi,ui),其中pi为代表数据包的协议类型,编码如表1所示,ui代表数据包的字节数。

针对上述sketch结构的定义,给出sketch的具体操作:

定义2 sketch操作

(1)Update(S,Snew):S(ps,us)=Snew(pnew,unew)

(2)Estimate1(S,Snew):对数据包S和Snew的索引项进行比对并返回值pest=ps-pnew

(3)Estimate2(S,Snew):对数据包S和Snew的数据项进行比对并返回值uest=us-unew

1.2 网络协议分析

协议分析就是通过分析网络上的数据包,确认数据包的网络层协议、传输层协议和应用层协议的类型,以便使用相应的入侵检测模块来检测数据包。若通过分析发现连续的两个数据包具有相同的协议,则数据包直接进入入侵检测模块,这样避免了重复的算法选择计算。若连续两个数据报的协议类型和大小都相同,则直接进入判定模块,给出相同的判定结果。协议分析有效地利用了网络协议的层次性和相关协议的知识,能快速、准确地判断攻击特征是否存在。

使用sketch对数据包进行概化后,p代表了该数据包的协议类型,这样有利于进行数据包协议分析。首先利用Estimate1函数来对比当前数据包与上一个到达的数据包,若返回pest值不为0,则数据包进入算法选择模块;若返回pest值为0,则利用Estimate2函数来对比两个数据包,若返回uest值为0,则数据包直接进入判定模块;若返回uest值不为0,则数据包进入入侵检测模块。当分析完成后,对协议分析器中保存的数据包sketch模型进行更新。网络协议分析算法如下:

1.3 入侵检测模型

本文给出了一种新型的网络协议分析的入侵检测模型,如图1所示。该模型主要由四个部件组成:(1)协议分析器:对网络传入的数据包进行协议分析,并将分析结果,即该数据包的协议类型,传递给算法选择器;(2)算法选择器:根据数据包的协议类型,确定出恰当的决策树入侵检测算法;(3)入侵检测引擎:利用算法选择器所确定的相应算法,对数据包进行检测分析,判断是否为入侵行为,并将检测结果传递给判定模块;(4)判定模块:给出数据包的判定结果。其中入侵检测模块和判定模块具有记忆功能,即在没有新的指令(“选择算法”,“检测结果”)传送到对应模块时,则默认执行上次的指令。

2 决策树挖掘算法研究

常用的决策树挖掘算法包括:分类回归树C&RT(Classification and regression tree),卡方自动交叉检验CHAID(Chi-squared automatic interaction detection)以及C5.0算法。

2.1 C&RT算法

C&RT算法是Breiman等人提出的一种基于二叉树的统计模型[6],它采用二分递归分割的方法,根据不同的预测变量重复地将当前样本集合划分为两个样本子集。然后通过Gini、二分法、顺序二分法(ordered towing)等评价方法,来选择最佳的预测变量。C&RT的目的是生成一个与目标变量尽可能相似的数据子集。

Gini不纯度评价:

在节点t上的Gini指数被定义为。其中,i和j代表目标变量的类别。Gini指数也可以定义为。因此,当节点上的样本均匀的分配到各分组时,Gini指数取最大值1-(1/k),其中k是目标变量分组的数量;当该节点上的所有样本都属于同一分组时,Gini指数为0。如果误分类的消耗是指定的,那么Gini指数为-,其中C(i|j)表示属于分组j中的样本属于分组i的误分类概率。节点t上拆分s的Gini判别函数为Φ(s,t)=g(t)-pLg(tL)-pRg(tR),其中pL、pR分别表示节点t的左右子节点的样本概率。拆分s选取Φ(s,t)的最大值。

2.2 卡方自动交叉检验算法

Kass于1980年提出了基于χ2交叉检验的决策树算法,称为CHAID算法[7]。该算法生成的CHAID树以整个数据集为原点,然后利用迭代的方法将空间子集划分为2以上的子节点[8]。

为了确定哪一个节点为最佳的分割,任意一对允许的预测变量分组可以相互结合,直到这对分组对于目标变量没有统计上的显著特征。CHAID方法一般用来处理独立变量之间的关联。

CHAID算法只接受离散的数据,对于连续型的数据,必须先对数据进行离散化处理。对于每一个预测变量X,合并不显著的分类。若X被用来分割节点,则X的每一个最终分类将出现在一个孩子节点上。具体方法如下:

(1)如果X只有1个分组,则停止,并将p值调整为1。

(2)如果X有2个分组,跳转到(8)。

(3)如果X的分组超过2个,那么,找到一对允许的X分组(一对允许的分类是指,如果是连续型变量,则为相邻的两个类别,如果是类别型变量,则为任意两个类别),这对分类至少具有显著性差异。最为相似的一对分类即这对分类的测试统计量赋予因变量Y的p值最大。

(4)对于具有最大p值的一对分组,检验p值是否大于用户定义的α值。如果大于α,则将这两个分组合并为新的分组,如果小于α,则跳转到(7)。

(5)如果新合并的分组中包含了3个以上的原始分组,那么,在该分组中找到p值最小的最佳二元拆分。若p值不大于α,则执行这个二元拆分。

(6)跳转到(2)。

(7)具有较少样本(相较于用户定义的最小段空间)的分组是否和与其最相似的其他分组合并取决于最大p值。

(8)应用Bonferroni校正系数来计算调整的p值,以进行分组的合并[9,10,11]。

2.3 C5.0算法

在决策树的各种算法中,最具影响是ID3(Iterative Dichotomic Version3)算法[12]。ID3算法是由Quinlan于1986年提出的,他将Shannon的信息论引入到了决策树算法中,把信息熵作为选择测试属性的标准,对训练实例集进行分类并构造决策树来进行预测。C5.0算法是在ID3算法的基础上对连续值、未知特征值、决策树剪枝及规则派生等处理方法进行了改进,并添加了Boosting迭代思想的新型决策树算法。

2.3.1 ID3算法

ID3算法中,决策属性信息增益的计算方法如下:设S是训练样本数据集,S中类别表示属性有m个独立的取值,即定义了m个类Ci,i=1,2,…,m;Ri为数据集S中属于Ci类的子集,用ri表示子集Ri中元组的数量。集合S在分类中的期望信息量如下:

式中pi是表示任意样本属于Ci类的概率,pi=ri/|S|。|S|为训练样本数据集中的元组数量。

假设属性A共有v个不同的取值{a1,a2,…,av},则通过属性A的取值可将数据集划分为v个子集,其中,sj表示在数据集S中属性A的取值为aj的子集,j=1,2,…,v。如果A被选为决策属性,则这些子集将对应该节点的不同分枝。如果用sij表示sj子集中Ci属于类的元组的数量,则属性A对于分类Ci(i=1,2,…,m)的熵为:

令,则wj为sj子集的权重,表示sj子集在数据集S中的比重,而属性A的每个取值对分类Ci的期望信息量I(s1j,…,smj)为:

式中,pij=sij/|sj|,它表示在sj子集中属于Ci的类的比重。通过上述计算准备,可得到对属性A作为决策分类属性的度量值(称为信息增益)为:

该算法需要计算每个决策属性的信息增益,具有最大信息增益的属性被选择为给定数据集S的决策属性节点。ID3是通过自顶向下构造决策树来进行学习的,搜索的每一步都使用当前的所有训练样本。

2.3.2 C5.0算法

C5.0算法[13]是应用增益率生成一棵决策树,而增益率是熵的一种度量。在C5.0算法中,应用上述公式(1)~(4)计算出信息增益Grain(S,v)。由于信息增益在把数据集划分为更小的子集时,对于变量的取值存在一定的偏差。为了减少这种偏差,利用以下公式计算得到:

从而可以得到熵的度量:

C5.0算法是通过分散的数据集来构建一棵决策树,并且使增益率最大化。

3 实证研究

本文的实证研究采用了KDD Cup 1999数据集中10%的数据。该数据集包括大约490000条数据记录,每条都是从军方网络环境中模拟攻击所得的原始网络数据中根据设定的41个特征提取出来的,它们都是描述网络连接统计信息的特征向量,其中包含有五类数据:Do S,Probe,R2L,U2R这4类攻击数据(共包含24种攻击类型)以及正常数据。本文随机将数据集分为二个部分,分别作为训练集和测试集。

试验平台使用Windows XP操作系统,1G内存,在协议分析的基础上,分别对每种协议检测器建立C5.0、CART、CHAID等三种决策树模型,对数据集进行训练、测试。测试结果如图2所示。

当网络数据的传输层协议为TCP时,使用CART算法检测ftp、SMTP应用层协议数据的准确率较高,使用CHAID检测telnet应用层协议的准确率较高,使用C5.0算法检测http及其他应用层协议的数据正确率较高;当传输层协议为UDP时,C5.0算法检测private类型的应用层协议数据正确率较高,CART检测其他应用层协议数据正确率较高;当应用层协议为ICMP时,使用C5.0算法的正确率较高。通过测试,可以选取最佳的决策树算法作为入侵检测的检测器。每种检测器都采用最佳算法时,总的错误数为103。

根据实证研究结果,可设计基于网络协议分析和决策树挖掘的入侵检测算法如下:

算法首先使用get Packet()函数来获取网络上的IP数据包,并使用sketch结构进行概化。通过数据包的索引来选择恰当的协议类型。

在不采用协议分析方法的情况下,分别使用三种算法进行建模,结果如图3所示。最佳算法为C5.0算法,正确率为99.95%,错误数为115个。

由此可见,网络协议分析和决策树挖掘的入侵检测模型,相较于传统的基于单一决策树算法的入侵检测模型,具有更高的准确率。

4 结束语

基于决策树的我国农业数据挖掘分析 篇2

基于决策树的我国农业数据挖掘分析

决策树是用于分类的常用建模方法.首先对分类的概念和决策树方法分别进行了总体介绍,在此基础上对我国30个省市自治区的乡村劳动力、耕地面积以及农业总产值信息数据进行了挖掘分析,在运用决策树对数据进行分类过程中对连续数据采用聚类分析的方法进行离散化处理,从而避免了原始经验分类方法的.主观性.最后,通过上述决策树分类方法,生成我国农业情况的决策树,获得相关空间分类规则,并对其进行分析说明.结果表明,决策树分类方法适合我国农业情况.

作 者:高懿洋 GAO Yi-yang 作者单位:华中科技大学,经济学院,湖北,武汉,470024刊 名:测绘科学技术学报 PKU英文刊名:JOURNAL OF ZHENGZHOU INSTITUTE OF SURVEYING AND MAPPING年,卷(期):25(5)分类号:P208关键词:分类规则 决策树 离散化 聚类分析 概念泛化 农业情况

决策树分析模型 篇3

在多元化竞争的服装市场上, 顾客对服装需求的多变性也使企业常常同时面临畅销产品短缺和滞销产品积压的问题。 服装销售除了受到销售渠道数量、 分布等企业自身营业状况的影响,还受到地域、气象、文化、经济等多种因素的影响,导致难以对市场需求加以准确预测,无法对运营决策提供有效支持。

目前对销售额预测的研究主要可以分成两类。 一类是基于个人判断法或德尔菲法的定性预测。 个人判断法即销售管理人员基于个人经验,对销售量进行预测。 此类方法往往以销售、管理人员对销售数据的主观判断为基础,受较多人为因素的影响, 缺乏客观性和可靠性。 另一类是基于现有数理模型的定量预测方法,有移动平均法、指数平滑法、季节性指数法、一元回归或多云回归法、时间序列模型预测、马尔科夫链预测模型等。

随着研究的深入, 研究者们开始采用不同的定量方法实现需求的预测, 如Haper提出的德尔菲法是一种专家预测方法; Richard B.Chase提出的移动平均法是利用移动平均数消除偶然性因素的影响来进行预测;R.G Brown提出的指数平滑法是根据更近的经验不断修正预测值的方法;John Neter提出的回归模型则运用回归方程式来进行预测等[1]。 此外,如在《基于时间序列和PERT的服装销售预测方法研究 》[2]一文中从服装销售的实际特点出发,通过引入PERT模型和时间序列模型,借鉴两模型的各自优势,实现了对销售必然性和偶然性预测的有机结合,用完全量化的时间序列模型克服了预测过程中对历史数据的主观性判断。 喻琳艳在《需求随机型服装产品的灰色预测模型》一文中将服装需求分为需求确定型、随机型和季节型,提出运用灰色控制理论有关预测的理论[3],针对需求确定型和随机型服装产品建立预测模型,避免了以往仅凭经验进行管理的盲目性,得到了较好的预测结果。 薛美君、沈剑剑、杨以雄在《服装销售定量预测方法新探》 一文中对受季节销售影响敏感且有较长销售周期的服装销量进行预测,采用季节因子处理数据,结合最小二乘法进行时间与销售量的统计分析[4],建立时间和销售量之间的函数关系, 此方法对预测服装企业未来销售需求有较好的准确度。 通过分析国内外服装销售预测的研究状况,不难发现目前关于预测方法方面的研究已经比较完善,但是预测方法的研究大多偏重于将多种预测方法综合运用得出最后的预测值。然而对于服装企业的管理者来说,关注的另一个焦点是哪些因素影响了销售额,而上述模型在销售影响因素上没有做相关分析。

针对此不足,本文首先结合服装业特点,从地域、文化、经济、 气象、企业发展等角度寻找影响销售的不同因素,然后用系统聚类法实现销售数据的聚类,即将企业的历史销售数据按照企业关注的类别进行相应的聚类,最后运用CART算法建立影响因素与目标销售额之间的分类规则,进而运用规则对销售进行预测。

此方法不仅可以有效预测服装销售需求,而且易于转化为关联规则,帮助管理者了解服装销售的主要影响要素,制定合理的生产、营销策略。

1系统聚类法和 CART 算法

系统聚类法是目前使用最多的一种聚类方法。决策树学习是以实例为基础的监督归纳学习算法,通过一组无次序、无规则的实例推理出决策树表示形式的分类规则,其中最著名的决策树算法有ID3、C415、CART等[5,6,7,8,9,10]。 考虑到本模型的输入数据集并不完全服从某类特定分布,而且不同指标体系对应的数据类型也不同,既有连续变量又有离散变量,因此采用CART算法[10]。

系统聚类算法能够对服装销售中的目标销售额进行聚类,并能得到较好的结果,将此结果作为CART决策树算法的输出。 然后寻找与目标销售额相关的外界影响因素与企业内部的影响因素,将这些因素作为决策树的输入。运用CART算法形成影响因素与目标销售额之间的分类规则,最后运用规则对销售进行预测。

2基于聚类和决策树的服装销售预测模型

2.1 整体 模型

为了更有效地配置现有资源,实现企业利润最大化,需要借助科学的方法分析不同销售网点所处的具体市场环境,针对不同的市场环境制定不同的销售额指标, 同时对各类市场环境下,不同网点的未来销售额进行预测。

决策树算法可以通过对输入数据的分析,在学习的基础上得到分类规则,因此,可以先寻找与目标销售额相关的外界影响因素与企业内部的影响因素,将这些因素作为决策树的输入,运用决策树算法形成影响因素与目标销售额之间的分类规则, 从而帮助管理者了解目前的销售受到了哪些外部因素的影响。 同时, 还可以运用已有规则对未来市场的销售进行预测。

基于上述分析, 本文提出了聚类分析与决策树算法相结合的销售预测模型。 该方法首先从服装的整体销售入手,通过聚类分析, 将历史记录中的人均销售额分组, 结合企业实际分析要求,划分成3大类区间,表示销售业绩的“可观,一般,较差”3个层级;然后建立包括地域因素、经济因素、文化因素以及企业自身因素等一系列可能对销售产生影响的属性集合, 决策树将这些属性和从聚类中得到的3大销售区间联系起来, 得出属性集合与人均销售额之间的关联规则; 最后通过决策树就可以将未来销售网点的人均销售额和用属性描述的销 售原型联 系在一起,预测出未来属性发生变化时所对应网点的人均销售额,以此指导管理者进行科学的决策。 整个模型主要包括聚类分析,建立指标体系和建立决策树模型3步,主要流程如图1所示。

(1)聚类分析 :运用系统聚类法对研究时期内对应的人均销售额进行聚类,形成若干类销售区间,作为决策树模型的分类目标;

(2)建立影响因素指标体系 :寻找影响服装销售的各类影响因素,即包括各类外部影响因素,也包括企业自身的影响因素, 建立完善的影响因素指标体系;

(3)建立决策树模型 :将影响因素对应的属性向量作为决策树模型的输入,人均销售额的聚类区间作为决策树的分类目标, 训练决策树模型, 挖掘出影响因素和人均销售额之间的关联规则,用建立的规则对新网点的人均销售额进行预测,同时通过对最终决策树的分析,指导企业分析市场环境。

2.2 基于聚类分析的销售数据聚类分析模型

本文使用系统聚类法实现销售需求的聚类。 聚类过程主要包括3个步骤:距离计算,合并聚类,决定类的个数和类,整个过程如图2所示。

2.2.1 距离 计算

计算N个销售数据任意两者间的距离 {dij}, 即销售额的差值,记为D={dij},构造N个类 ,每个类中只有1个样本 ,其中 :

xi表示第i个销售额,xj表示第j个销售额,i,j∈(1,2, …, N)。

2.2.2 类的 合并

对以上数据用平均距离法进行聚类分析。 平均距离法是将类与类之间的距离定义为两类中所有样品对之间的平均距离, 假设用G表示某一类, 即本项目中的销售区间。 G中有k个元素,i、j表示G中第i、j个因素; 令Gp和Gq中分别有p和q个样品,类与类之间平均距离D(p,q)定义为Gp和Gq中所有两个样品对之间距离的平均。 可以根据式(2)计算类之间的平均距离, 然后将平均距离最近的两类进行合并,得到新类,再计算新类与各类直接的平均距离,依次重复,直至所有样本聚类完毕。

式中,i、j表示G中第i、j个销售额; 令Gp和Gq中分别有p和q个销售额数据。

2.2.3 类个 数的确定

Milligan (1984) 和Cooper (1985) 提出了以下3个最好准则 : 1伪F统计量;2伪统计量;3立方聚类准则CCC。通过判断这3个值在聚类数为多少时达到峰值来选择类的个数。

2.2.4 聚 类 结果

通过上述方法, 企业的N个历史销售记录可以聚成K类 (K≤N),每一类代表一个销售区间 ,对应不同的销售情况 ,表示为 Ω∈{SCL1,SCL2,SCLK}。

2.3 基于决策树算法的销售需求预测模型

本文采用CART决策树模型实现影响因素和销售区间之间的映射,挖掘出两者之间的关联规则。 具体流程如图3所示。

2.3.1 训练和测试数据集的建立

对于经营品牌的企业,其直接销售的是产品商标,经过生产厂商和各级经销商最终售给消费者。 因此,企业当前的商标销售量反映的是后续时期的市场需求。 因此,本文将T时期的影响因素与T+1时期的销售区间配对, 形成数据集T={Ai,SCLi+1},i∈ [1,2,…,N]。 其中,Ai表示第i时期的属性向量,SCLi+1表示第i+ 1时期的销售情况,N表示历史数据的总时间长度 。 然后,选取其中的TRD个数据作为训练数据, 则剩余的N-TRD个为测试数据。

2.3.2 销售影响因素获取

本项目综合考虑影响销售的地域角度、气象角度、文化角度、经济角度和企业角度,确定了各类因素所对应的具体属性集合。 根据文献《地域性文化影响下的服装分析》《浅谈地域差异对服装设计的影响》《我国女装市场营销环境分析及评价 研究 》, 《女性品牌服装消费心理的实证研究 》《浅谈地域差异对服装设计的影响》以及企业自身关注的指标。 综上可得本文中所提出的44个影响因素属性集合(见表1),表示为Ai=(A1,A2,…,A44)。

2.3.3 决策树的训练

采用数据集T中的TRD个训练数据对决策树进行训练,以第i时期的销售 影响因素Ai为输入 , 以第i+1时期的销 售类SCLi+1为输出,得到一棵初始决策树。

其中,CART决策树的分支生成规则如下: 从众多的输入属性Ai中选择GINI系数最小的一个或多个属性,作为树节点的分裂变量,把测试变量分到各个分枝中,重复该过程建立一棵充分大的分类树,然后用剪枝算法剪枝,得到一系列嵌套的分类树, 最后用测试数据进行测试,选择最优分类树。其中GINI系数的计算公式如下:

A(j / h)是从训练样本集Ai中随机抽取一个样本 ,当某一测试变量值为h时属于第J类的概率;nj(h) 为训练样本中测试变量值为h时属于第J类的样本个数;n(h)为训练样本中该测试变量值为h的样本个数;J为类别个数。

2.3.4 冗余因素删选

如果初始决策树将所有的影响因素均筛选出来, 则说明不存在冗余因素;此时,需要分析预测精度是否理想,如果不理想, 则需要调整初始属性集合,可以通过增减属性,逐次进行实验,观察预测精度是否提高。

如果初始决策树未将全部的影响因素筛选出来, 说明原始属性集合中存在冗余因素, 此时需要进一步观察表1中对应的各个角度,如果整个角度内的所有因素均未被筛选出来,说明该角度内所有因素对规则的形成均不起作用,删除整个角度;如果所有角度内均有属性被筛选出来, 说明各个角度均对规则形成起作用,此时各个角度内未被筛选出来的属性即为冗余属性,继而按照各个角度逐次去掉冗余属性, 并观察每次改进后的预测精度是否提高,直至删除四大角度内的所有冗余因素。 然后观察预测精度是否理想,如果不理想,则通过增加属性或者增加其他角度,重复上述步骤进行实验,直至到达理想预测精度。

2.3.5 最终决策树的生成

使用所有的数据进行训练, 形成对样本解释度最高的决策树。 根据该决策树进行预测和相关分析。

3实证分析

本项目中针对某知名绒线厂家的销售情况进行分析, 运用系统聚类分析与CART决策树算法相结合的销售预测方法。该方法首先从绒线产品的人均销售入手,通过聚类分析,将历史记录中的人均销售额划分成“可观,一般,较差”3个层级;然后建立包括地域因素、经济因素、文化因素以及企业自身因素等一系列可能对销售产生影响的属性集合,CART决策树将这些属性和从聚类中得到的3大销售区间联系起来, 得出属性集合与人均销售额之间的关联规则,并用不同年份的销售数据进行测试,检验决策树的预测精度;最后用所有的数据进行训练和测试,得到一棵完全解释树(如图4),对企业目前的市场销售进行分析解释。

对最终决策树的分析如下:

(1)对企业销售起重要影响的因素包括是否属于江南区域 ( 上海 , 江苏 , 浙江 , 安徽 , 江西 , 湖南 , 湖北 ), 网点到达率 , 人均网点数,人均GDP等因素;

(2)运用这棵树进行人均销售额的预测 ,一方面 ,当获取第N年的影响因素的所有数据后, 将其做为这棵决策数的输入数据集,即可得出新的规则,从而帮助预测出新的不同规则下对应的销售区间;

(3)这棵树通过对影响因素与人均销售额的关联分析 ,挖掘出一系列的规则, 这些规则对企业更好地了解当前市场环境有重要的指导意义。

4结论

影响因素的多变使得服装销售的预测越来越复杂。 本文提出了一种基于聚类分析和决策树算法的服装销售预测模型。 聚类分析将销售额进行分类, 决策树找到了影响因素和销售额之间的关联规则,基于规则对未来的销售进行预测,构成了本文的销售预测模型。 通过实证分析,该模型的预测准确率与其他预测模型相比有了很大的提高。 然而,在决策树的分类中出现了一些错误, 这些错误的产生是由于对服装销售影响因素的掌握不充分造成的。 考虑服装销售市场的复杂性,可以将决策树算法与其他算法相结合,如遗传算法,神经网络等智能算法,这些算法有待于进一步的讨论。

摘要:服装生产企业需要了解市场需求的变化趋势,以做出正确的生产和销售决策。因此,对服装销售状况进行准确的预测,成为企业有效制定发展战略的重要依托。服装的销售受销售渠道、地域、文化、经济等众多因素的影响,呈现复杂的非线性特征,导致需求预测难度较大。本文综合考虑各种影响因素,结合聚类分析和CART决策树算法构建销售预测模型,既实现了较高的预测精度,又可转化为易于理解的规则。最后以某服装运营企业为例验证了方法的有效性和可解释性。

决策树分析模型 篇4

1 资料与方法

1.1 一般资料

采用整群抽样方法抽取2012年11月至2015年1月在新疆医科大学第六附属医院住院治疗且符合纳入排除标准的肝性脑病患者180例作为研究对象进行回顾性研究,所有患者均符合2009年《肝性脑病诊断治疗专家共识》中肝性脑病的诊断标准,其中男100例,女80例,年龄24~76岁,平均(52.20±11.01)岁;汉族102例,少数民族78例。其中慢性肝炎肝硬化引发者112例、酒精性肝硬化引发者42例、药物性者为13例、自身免疫性肝病引起者13例。纳入标准:(1)确诊为肝性脑病患者;(2)病例资料完整并接受完整治疗的患者。排除标准:(1)合并其他引起昏迷的疾病,如癫痫、精神疾病、颅脑疾病等;(2)合并代谢性疾病,如尿毒症、糖尿病等;(3)中途转院、放弃治疗的患者;(4)病例资料不完整者。根据以上标准纳入临床结局为好转的56例和恶化的124例。

1.2 研究方法

1.2.1 资料收集

采用回顾性方法对既往住院患者的病例资料进行收集整理,收集患者一般资料及临床资料,内容包括年龄、性别、民族、体重指数、病史、家族史、合并症等一般资料及临床结局、治疗方法、生化指标、并发症等临床资料,使用统计学方法分析患者的结局及其影响因素。

1.2.2 指标判定

(1)临床结局:临床结局是指患者入院到出院病情转归,包括好转和恶化两类。好转是指患者生命体征平稳,神智较以前清楚,相关神经症状减轻或消失,肝功能指标较前明显好转;恶化是指患者生命体征不平稳,神智未恢复甚至有加重趋势,神经症状未减轻甚至加重,患者随时会死亡。(2)肝性脑病分期:1期,又称昏迷前驱期,有轻微的性格和行为异常,可有扑翼(击)样震颤,一般无神经体征或仅有轻微的表现。2期,又称昏迷前期,以精神错乱、睡眠障碍、行为失常为主要表现,定向力和理解能力均降低,不能完成简单的计算和智力动作。3期,又称昏睡期,以整天昏睡和严重精神错乱为主,各种神经病理体征陆续出现并逐渐加重,呼之能醒,叫醒后数秒钟后又入睡,答话极不准。4期,又称昏迷期,患者完全丧失神志进入昏迷状态,浅昏迷时对疼痛刺激尚有反应,膝腱反射亢进,肌张力增高。深昏迷各种反射消失,肌张力降低,瞳孔散大,呼吸过度换气,对各种刺激无反应。(3)Child分级:A级5~6分,B级7~9分,C级为10~15分,具体赋分方法见表1。

1.3 统计学处理

所有数据使用SPSS 20.0进行处理,CHAID法建立决策树形模型,多因素分析使用二分类Logistic回归分析,检验水准α=0.05。

2 结果

2.1 两种临床结局的肝性脑病患者决策树模型分析

肝性脑病结局好转和恶化作为结果变量,纳入患者一般资料(包括年龄、性别、民族、体重指数、病史、家族史等)和临床资料[包括Child分级、肝性脑病分期、并发症数量、大量腹水、电解质紊乱、诱发因素数、Alb、丙氨酸氨基转移酶(ALT)、凝血酶原活动度(PTA)、肌酐(Cr)、肝肾综合征(HRS)、上消化道出血等]进行CHAID分析,结果显示影响肝性脑病患者结局因素显著性由高到低依次为Child分级、是否电解质紊乱、并发症数、诱发因素数、PTA、是否大量腹水、Alb、是否并发HRS、Cr、是否并发上消化道出血。详见图1。

图中的方框为节点,如果某节点不存在统计学意义,则在此节点停止分支成为叶节点。第1层为影响最为显著的因素,其余影响因素顺序依次为第2、3、4;如在同一层内,指标最高的节点即表示具有这个特征的群体是该层中影响最高的

2.2 影响临床结局的Logistic回归分析

以临床结局作为应变量,以图1中有统计学意义的指标作为自变量进行二分类的Logistic回归分析,采用向后逐步回归分析方法,α入=0.05,α出=0.10,具体赋值见表2。多因素分析结果显示,Child分级、是否大量放腹水、PTA、是否并发HRS及并发症个数是影响患者结局的独立因素,见表3。

3 讨论

肝性脑病患者所患的基础疾病一般不同,疾病常常多变,病情较为复杂,多数患者有性格改变、行为异常、智力和意识降低等一系列的神经和精神异常[2]。有研究[3,4]表明,在我国乙肝是引起肝性脑病常见原因之一,而新疆地区又是我国乙肝高发区域之一,因而对新疆地区肝性脑病患者临床结局的干预显得格外重要。

本研究共选取符合纳入排除标准的180例患者作为研究对象,临床结局好转者56例(31.11%),恶化者124例(68.89%),恶化患者比例较大。对造成肝性脑病患者不同结局原因进行初步筛选后发现有多种因素可能影响病情的变化,因而对两种不同临床结局的患者利用决策树模型具有可以有效消除变量之间共线性的影响,能够充分讨论影响因素的交互效应,结果简单明了、结构直观易懂等优点[5]进行分析,结果显示10种因素对肝性脑病患者的结局均有不同程度的影响,显著性由高到低依次为Child分级、是否电解质紊乱、并发症数、诱发因素数、PTA、是否大量放腹水、Alb、是否并发HRS、Cr、是否并发上消化道出血。提示多种因素独立或联合均对肝性脑病的发展起到了关键性的作用,国内外也有相似报道[6,7]。肝性脑病发病机制一般是由于假性神经递质和血氨升高,支链及芳香族氨基酸比例失衡引起,而本研究结果中电解质紊乱、上消化道出血等因素均是诱发肝性脑病,导致肝性脑病患者结局恶化的原因之一。本研究结果显示新疆地区患者结局影响因素中包括并发HRS和Cr水平,而其他地区报道较少。进一步对上述影响因素采用Logistic回归分析,结果显示,Child分级、是否大量放腹水、PTA、是否并发HRS及并发症个数均能独立影响肝性脑病患者临床结局变化。当患者出现腹水后均会发生不同程度的电解质紊乱,其中低钠血症在肝性脑病患者中很常见,研究[7]发现血钠水平越低,预后也会越差,病死率越高。在临床治疗中Child分级一直作为患者病情及治疗效果的评价标准,在临床指导中具有重要的价值,本研究结果中Child分级每增加一级,患者临床结局恶化的风险增加1.582倍,再次证明了该指标在临床应用中的价值。在5个独立因素中,并发症个数对临床结局恶化影响最为显著,并发症个数越多其临床恶化风险就会增加,相对少的并发症而言,多的并发症其恶化风险就会增加4.45倍。因此该因素可作为首要预防肝性脑病患者临床结局恶化的因素来制定措施,目前,可以采用一些已证实的有预防和治疗并发症作用的药物来降低结局恶化风险的概率[8,9]。

综上所述,多种合并症和诱发因素可影响肝性脑病患者病程,导致患者产生不同的临床结局。提示在临床治疗过程中可结合实际情况提前干预,在积极去除诱发因素的基础上改善患者肝脏、肾脏、凝血功能,治疗炎症、感染,纠正电解质紊乱等措施来改善患者临床结局。对于临床结局好转的患者也应在日常生活中合理安排膳食,避免感染、血氨升高的发生,并加以适量锻炼以降低肝性脑病复发的概率。通过早期预防减少肝性脑病结局的影响因素和科学有效的治疗措施来干预肝性脑病患者的临床结局,有利于减轻患者痛苦,提高患者生存质量,增加患者长期生存率。

摘要:目的:通过观察肝性脑病患者不同的临床结局,探讨造成肝性脑病患者结局差异的影响因素。方法:整群抽取2012年11月至2015年1月在新疆医科大学第六附属医院住院治疗且符合纳入排除标准的肝性脑病患者180例作为研究对象,回顾性收集患者一般资料及临床资料,并用统计学方法分析患者的结局及其影响因素。结果:影响肝性脑病患者临床结局因素显著性由高到低依次为Child分级、是否电解质紊乱、并发症数、诱发因素数、凝血酶原活动度(PTA)、是否大量腹水、Alb、是否并发肝肾综合征(HRS)、Cr、是否并发上消化道出血;进一步通过Logistic回归分析发现Child分级(P=0.002)、是否大量腹水(P=0.012)、PTA(P=0.043)、是否并发HRS(P=0.026)及并发症个数(P=0.000)是影响患者结局的独立危险因素。结论:对于肝性脑病患者,Child高等级、多腹水、伴有HRS、多并发症、高PTA均提示患者临床结局容易恶化,对该类肝性脑病患者应采取合适的干预措施来改善患者临床结局,延长患者寿命。

关键词:肝性脑病,结局,决策树模型,影响因素,Logistic回归

参考文献

[1]RAMA RAO K V,NORENBERG M D.Brain energy metabolism and mitochondrial dysfunction in acute and chronic hepatic encephalopathy[J].Neurochemistry International,2012,7(60):697-706.

[2]MULLEN K D,PRAKASH R K.New perspectives in hepatic encephalopathy[J].Clin Liver Dis,2012,16(1):1-5.

[3]夏红,刘荷蕾.特发性门脉高压患者临床特点分析[J].现代医学,2016,44(5):712-715.

[4]WANG J Y,Zh ANG N P,CI B R,et al.Prevalence of minimal hepatic encephalopathy and quality of life evaluations in hospitalized cirrhotic patients in China[J].World J Gastroenterol,2013,19(30):4984-4991.

[5]孙颖,杨君慧.Logistic回归与分类树模型的比较[J].西安工业大学学报,2014,34(9):689-692.

[6]CICHOZ-LACH H,MICHALAK A.Current pathogenetic aspects of hepatic encephalopathy and noncirrhotic hyperammonemic encephalopathy[J].World J Gastroenterol,2013,19(1):26-34.

[7]VISHWADEEP,AHIUWALIA,WADE J B,et al.Differential impact of hyponatremia and hepatic encephalopathy on healthrelated quality of life and brain metabolite abnormalities in cirrhosis[J].J Hepatol 2013,59(3):467-473.

[8]AMPUERO J,RANCHALL I,NUNEZ D.Metformin inhibits glutaminase activity and protects against hepatic encephalopathy[J].PLo S One,2012,7(11):1-6.

决策树分析模型 篇5

一、文献综述

国外学者运用计量模型对保险公司偿付能力进行预测的研究由来已久。Trieschmann and Pinches (1973) 、Pinches and Trieschmann (1974) 和Harmelink (1974) 运用MDA模型对保险公司的偿付能力进行了预测研究。Grace, Harrington and Klein (1998) 运用非线性的Logistic模型进行偿付能力的预测研究, 实证表明, 运用Logistic模型进行保险公司偿付能力预测效果良好, 同时有助于寻找对偿付能力预测有利的财务指标。Kim, Anderson, Amburgey and Hickman (1995) 基于保险精算的风险理论建立了动态的风险模型Hazard模型进行保险公司偿付能力预测。Brockett, Cooper, Golden and Pitaktong (1994) 则利用人工神经网络进行财险公司偿付能力预测, 并基于同一组数据分别使用人工神经网络与MDA模型进行检验, 发现人工神经网络在偿付能力预测方面明显优于MDA模型。

国内对保险公司偿付能力预测的研究起步较晚。吕长江、周县华、杨家树 (2006) 运用MDA模型和Logistic模型对我国保险公司偿付能力恶化进行了预测研究。结果表明, 两个模型对保险公司偿付能力进行提前1—2年预测时效果良好, 其中MDA模型要优于Logistic模型。

王艳、爱新觉罗艺文、颜静雅 (2011) 采用Logistic回归模型作为研究模型进行财险公司偿付能力的预测研究, 研究表明偿债能力、盈利能力、成长能力及准备金风险衡量指标对财险公司偿付能力异常有显著影响。尚颖、李浩然、贾士彬 (2011) 运用三元模型分析方法即有序响应模型进行我国财险公司偿付能力预警机制研究, 结果显示, 预测的准确率达到85%左右, 预警机制的建立是有效的。到目前为止, 我国学术界对财产保险公司偿付能力进行预测的研究还十分有限, 本文选用决策树模型作为研究模型进行我国财产保险公司偿付能力预测的实证研究, 以期获得深一步的研究结论。

二、指标选择、样本选取及数据来源

(一) 预测指标选择

本文根据财产保险公司的业务特点, 充分考虑了新会计准则出台后财产保险公司财务会计报告体系及内容的变化, 同时结合数据的可获得性, 选取了16项财务指标作为进行财产保险公司偿付能力预测的预测指标 (见表1) 。这些指标从偿债能力、资本机构、盈利能力、经营风险、成长能力和准备金充足性六大方面较全面地反映了财产保险公司的偿付能力状况。

(二) 样本选取

新的《保险公司偿付能力管理规定》由中国保监会于2008年7月10日颁布, 其中第三条规定, 保险公司应当具有与其风险和业务规模相适应的资本, 确保偿付能力充足率不低于100%。本文将偿付能力充足率大于等于100%的财产保险公司界定为偿付能力充足的保险公司, 将偿付能力充足率小于100%的财产保险公司界定为偿付能力不足的保险公司。

本文对财产保险公司进行提前两年的偿付能力预测。提前两年的样本中包括2010年39家财产保险公司, 2009年36家财产保险公司, 2008年29家财产保险公司, 共计104个样本数据。通过计算每一家财产保险公司的偿付能力充足率, 得出提前两年预测的104个样本中, 偿付能力充足类公司样本数为82个, 偿付能力不足类公司样本数为22个。

(三) 数据来源

本文的数据来源为2007—2011年《中国保险年鉴》。关于财产保险公司的认可资产及认可负债, 本文是根据中国保监会制定的保险公司偿付能力报告编报规则及有关规定来计算的, 进而得到财产保险公司的实际资本。关于财产保险公司的最低资本, 本文是根据中国保监会关于实施《保险公司偿付能力管理规定》有关事项的通知中给出的财产保险公司最低资本评估标准来计算的。其中, 对于从资产负债表中无法获知的情况, 给出了如下的假设:

1. 交易性金融资产、可供出售金融资产、持有至到期投资、长期股权投资为认可资产, 以账面价值的95%作为其认可价值。

2. 逾期3个月内的应收利息在总应收利息中的占比为99%, 为认可资产, 认可价值为账面价值, 其余的为非认可资产。

3. 应收保费的账龄均小于12个月, 认可价值为账面价值的50%。

4. 账龄小于9个月的应收分保账款在总应收分保账款中的占比为75%, 为认可资产, 认可价值为账面价值, 其余的为非认可资产。

5. 固定资产按90%确定为认可资产, 以账面价值与非寿险业务准备金的19%孰低的原则确定其认可价值。

6. 应付债款为资本性负债, 按50%的比例折算确认为认可负债, 并以折算后的账面余额作为其认可价值。

三、实证分析

(一) 实证步骤

1. 被解释变量

本文用Y表示虚拟的分类变量, 代表偿付能力充足率。如果偿付能力充足率低于100%, 则偿付能力不足, Y取“1”;如果偿付能力充足率等于或高于100%, 则偿付能力为充足, Y取“0”。

2. 解释变量

本文将对财产保险公司偿付能力情况具有预测作用的财务指标设为解释变量X。本文选取了16个财务指标作为预测变量, 分别记为X1—X16。分别代表资产负债率、负债经营率、营运杠杆、毛保费规模率、资产利润率、利润率、资金运用收益率、费用率、赔付率、应收保费率、再保险率、自留保费增长率、保费收入增长率、所有者权益率、准备金与所有者权益比率、未到期责任准备金提取率。

3. 样本选取方法

样本中解释变量取第t-2年的值, 而被解释变量取第t年的值, 这样建立的模型就可以提前两年预测财产保险公司是否会陷入偿付能力不足的困境。对财产保险公司进行提前两年的偿付能力预测, 所得到的样本中偿付能力充足的样本数据远多于偿付能力不足的样本数据。为避免出现挖掘过分追求总体预测准确率的现象, 提高对偿付能力不足的财产保险公司的预测准确率, 我们运行SAS程序, 将偿付能力不足的样本进行复制, 使偿付能力充足样本数量与偿付能力不足的样本数量相同。然后将数据随机的分成两组, 第一组称为训练样本组, 第二组称为检验样本组。

4. 模型选择与建立

本文选择数据挖掘中的分类预测的决策树模型进行我国财产保险公司偿付能力预测。决策树模型的基本的思路是反复地利用信息增量方法进行样本分割, 直到不能再分割, 或者达到事先的约定为止。然后, 沿着决策树的树系结构, 我们就可以写出决策树模型的预测规则。决策树的预测规则由一系列的预测结论组成。

5. 各指标预测偿付能力不足的信息含量排序

本文用信号-噪音比差方法作为预测指标的预测信息含量的分析方法, 可以得出各指标预测偿付能力的信息含量排序。通过决策树树状图, 可以获知指标的最佳分割点。对于正指标 (指标值越大越好) 来说, 指标小于最佳分割点, 即判定为偿付能力不足。对于负指标 (指标值越小越好) 来说, 指标大于最佳分割点, 即判定为偿付能力不足。指标的信号-噪音比差=指标的信号比率 (A1/A) -指标的噪音比率 (B1/B) , 其中A1表示通过该指标判定为偿付能力不足的公司在指定期限内的确偿付能力不足的样本数量 (信号数) , A表示偿付能力不足公司总的样本数量;B1表示通过该指标判定为偿付能力不足的公司在指定期限内偿付能力充足的样本数量 (噪音数) , B表示偿付能力充足公司总的样本数量。如果指标的预测能力强, 则信号-噪音比差值较大, 如果指标的预测能力弱, 则信号-噪音比差值较小。通过计算每个指标的信号-噪音比差, 可以得到各指标预测偿付能力的信息含量, 进而可以对各指标的预测能力进行排序。

(二) 预测结果

1. 提前两年偿付能力预测结果 (见表2)

2. 决策树树状图及判别规则

if X1<0.75641 and X5<-0.25909 then Y=1 (纯度66.7%) ;if X1<0.75641 and X5>-0.25909 then Y=0;if X1>0.75641 and X13<0.5308 and X6<0.002585 then Y=1;if X1>0.75641 and X13<0.5308 and X6>0.002585 then Y=1 (纯度69.2%) ;if X1>0.75641 and X13>0.5308 and X1<0.810195 then Y=1;if X1>0.75641 and X13>0.5308 and X1>0.810195 then Y=0. (Y=0代表偿付能力充足, Y=1代表偿付能力不足。)

3. 指标预测偿付能力的信息含量的定量表示及排序 (见表3)

四、研究结论

通过实证研究, 我们可以得到如下重要结论。

1.根据本文进行的实证研究, 使用决策树模型对财产保险公司的偿付能力进行预测, 提前两年预测的训练样本中, 准确率达到90.24%, 误判率为9.76%;对检验样本的预测准确率为84.15%, 误判率为15.85%。决策树模型对财产保险公司偿付能力预测的85%左右的准确性比例充分证明了此模型的有效性。本文中应用的数据均来源于《中国保险年鉴》, 数据的易获得性使预测模型具有更强的可执行性。

2.本文在应用决策树模型对偿付能力预测的同时, 采用了信号-噪音比差方法对保险公司各个财务指标的偿付能力预测有效性进行了定量分析。我们发现, 资产负债率对于偿付能力预测的有效性最高, 对于保险公司, 在资产规模一定的前提下, 负债越多保险公司的偿付能力风险越大;反之, 则保险公司经营状况越稳定, 后续出现风险的概率越低。资产负债率并不是唯一指标, 本文实证中发现应收保费率、毛保费规模率、保费收入增长率、营运杠杆等财务指标的信号-噪音比差都在0.46以上, 能够较好的预测保险公司的偿付能力风险。与此同时, 未到期责任准备金提取率、所有者权益率、资金运用收益率、资产利润率等财务指标的信号-噪音比差都在0.22以下, 这说明对于目前我国财产保险公司的偿付能力预测, 这些指标的预测能力有限。

3.受限于我国当前保险业的行业成熟度、保险公司经营验、保费收入和赔付支出的稳定性等方面, 目前我国所使用的借鉴于欧、美、日等成熟保险市场的偿付能力监管方法需要进行一定的改进。鉴于我国保险基金的使用限制以及经济环境波动对保险公司经营的影响, 为避免保险公司出现长期偿付能力不足的风险, 建议保监会对保险公司认可资产进行从严要求。

4.我国的宏观经济环境, 例如股指、利率、通胀等指标变化, 都会对保险公司经营风险产生影响。但本文仅从财产保险公司财务指标的微观方面进行了偿付能力的预测研究, 忽略了宏观因素对财产保险公司偿付能力的影响, 在后续分析中需要做进一步的研究。

参考文献

[1]Martin Grace, Scott E Harrington and Robert Klein, 1998“:Risk-Based Capital and Solvency Screening in Property-Liability Insurance:Hypotheses and Empirical Tests”, Journal of Risk and Insurance (2) :213-243.

[2]Yong-Duck Kim, Dan R Anderson, Terry L Amburgey and James C Hickman, 1995:“The Use of Event History Analysis to ExamineInsurer Insolvencies”, Journal of Risk and Insurance (1) :94-110.

[3]Patrick L Brockett, William W Cooper, Linda L Golden and Utai Pitaktong, 1994:“A Neural Network Method for Obtaining an EarlyWarning of Insurer Insolvency”, Journal of Risk and Insurance (3) :402-424.

[4]吕长江, 周县华, 杨家树.保险公司偿付能力恶化预测研究[J].财经研究, 2006, (10) .

[5]王艳, 颜静雅, 爱新觉罗艺文.我国财险公司偿付能力恶化预警研究[J].金融会计, 2011, (9) .

基于决策树的消防火灾等级模型研究 篇6

随着消防一体化信息化建设的高速发展,借助于先进的信息化手段,消防灭火救援业务更加科学高效,对于消防管理来说,防火灭火是核心,对于灭火救援来说,火灾等级是关键。火灾等级,是衡量火灾大小的一个标准,反映的是火灾的大小,以及火灾危险性的大小,火灾等级也影响了灭火救援过程以及灭火预案的制定。灭火救援中,由接警获取火灾发生的详细信息,决策者或者专家根据获取的火灾信息判断火灾发生的等级并且根据火灾发生的等级调派救援车辆。

国内对于火灾等级的划分,各地消防都有不同的方法,在公安部的火灾统计中也没有明确火灾等级的概念。根据2007 年6月26 日公安部下发的《关于调整火灾等级标准的通知》,新的火灾等级标准由原来的特大火灾、重大火灾、一般火灾三个等级调整为特别重大火灾、重大火灾、较大火灾和一般火灾四个等级。特别重大火灾:造成30 人以上死亡,或者100 人以上重伤,或者1 亿元以上直接财产损失的火灾。重大火灾:造成10 人以上30 人以下死亡,或者50 人以上100 人以下重伤,或者5000 万元以上1 亿元以下直接财产损失的火灾。较大火灾:造成3 人以上10 人以下死亡,或者10 人以上50 人以下重伤,或者1000 万元以上5000 万元以下直接财产损失的火灾。一般火灾:造成3 人以下死亡,或者10 人以下重伤,或者1000 万元以下直接财产损失的火灾。(注:“以上”包括本数,“以下”不包括本数。)

火灾等级的定量分析与决策,本质上是分类决策的问题,对于分类问题,国内外已经提出了一系列的分类模型,如决策树(Decision Tree)、贝叶斯网络(Bayes Network)、神经网络(Neural Network)、K-临近法(KNearest Neighbour)、支持向量机(Support Vector Machine)等分类算法。分类的目的是根据数据集的特点构造一个分类函数或者分类模型,运用此函数或模型能够把未知类别的样本映射到给定标号类别中的某一个。只有建立比较稳定合理的模型,才能高准确率的预测未知样本所属的类别。而如今,分类算法是一种重要的数据挖掘技术,在商业、医学、军事、体育等领域都有广泛的应用。尤其是在商业和医学这些需要大量运用统计知识的领域,分类算法的预测与智能决策作用得以体现。基于决策树的易用性等特征,本文引入决策树模型,实现基于决策树的消防火灾等级模型,以便更科学的做出火灾救援的决策和管理。

1 决策树算法

1.1 算法介绍

决策树算法包含许多种方法,最常见的是ID3、C4.5、CART等算法。ID3 算法是Quinlan于1979 年提出的,是最为典型的决策树学习方法,ID3 算法应用了信息论中熵的概念,并采用的是信息增益作为是否分支属性的度量。在ID3 的基础上,产生了其他的方法,这些方法在ID3 算法上有所改进。如C4.5 算法克服了对ID3 算法中信息增益选择属性时偏向选择取值多的属性的不足。大多数的决策树归纳算法都沿用自顶向下方法,从训练元组集和他们的相关关联的类标号开始构造决策树,随着树的构建,训练集递归地划分成较小的子集,直到根据约束条件树生长结束。

1.2 属性选择度量

通常某件事情发生的时候,从直觉上来看,我们认为小概率事件比大概率事件包含的信息量大。如果某一个事件是“百年一遇”,而另一件事情“习以为常”,前者包含的信息量肯定大。我们引进信息论中关于信息量的计算方法,用如下公式度量某事件的信息熵:

其中代表事件发生的概率。假设相互独立的属性,它们中仅有一个发生,则其熵计算如下:

且规定当时,。在决策树分类中,假设训练警情数据样本S,某个属性A可以划分为n个不同的类别是S中属性A的值。其信息熵为:

则属性A对样本集合S信息增益定义为:

由此可见熵值最小的,其信息增益最大,越大,说明其对分类提供的信息越多。我们选择信息增益最大的属性作为当前分支属性。极端情况下,由于属性A分类的子集的目标属性单一,则有:,肯定选择属性A。

ID3算法就是计算信息增益的大小并将其作为是否分支属性的度量标准。

1.3 C4.5算法

设有警情数据样本集S,样本个数s,A是S的某个属性,且有m个不同的取值,可见这些取值可以将S划分为m个子集(警情中分为四个等级),表示第i个子集,表示中的样本数量。定义数据集S关于属性A的熵为:

可用来衡量属性A分支数据集的广度和均匀性,样本子在属性A上的取值分布越均匀。

信息增益比定义为:

信息增益比克服了用信息增益来选择属性时偏向选择值多的属性的不足。C4.5 采用信息比作为度量标准。

2 基于C4.5 决策树的火灾等级模型研究

2.1 数据分析与预处理

本文选取某市消防灭火警情数据集,分析数据发现部分属性值采用业务编码,如起火场所、建筑类别、起火物、起火原因分类、建筑结构等,对于起火场所,编码值采用八位编码,对应相应的字符属性值,例如01000000 表示住宅,05000000 表示商业场所,08000000 表示餐饮场所等。为了适应本文的建模,对这部分数据进行规格化处理,并对不符合规范的数据集采用ETL(Extract-Transform-Load)技术对数据进行清洗。清洗后的部分火灾警情数据集如表1 所示。

该数据样本涉及到多张表,通过清洗后的数据样本包括如下属性:火灾序号、起火时间、起火地点、起火场所、建筑耐火等级、建筑结构、火灾从失火建筑蔓延到临近建筑、发生轰燃、失火建筑门窗在火灾过程中开启、自动报警系统是否安装、自动报警系统是否启动、自动灭火系统是否安装、自动灭火系统是否启动、防排烟系统是否安装、防排烟系统是否启动、起火物、直接财产损失、过火面积、受灾户数、受灾人数、死亡人数、受伤人数、火灾等级、轻伤人数、重伤人数、人身伤亡、直接经济损失等等。其中火灾从失火建筑蔓延到临近建筑、发生轰然、失火建筑门窗在火灾过程中开启、自动报警系统是否安装、自动报警系统是否启动、自动灭火系统是否安装、自动灭火系统是否启动、防排烟系统是否安装、防排烟系统是否启动等为布尔值属性,受灾人数、受灾人数、死亡人数等为整数值属性,直接财产损失、过火面积、直接经济损失等为数值型属性,起火场所是数值编号属性,分别对应相应的字符值,其余为字符属性。

火灾警情数据集各属性取值范围说明如下:建筑类别,高层、民用、小于50 米、大于等于50 米且小于等于100 米、大于100米、工业、多层、老式居民住宅楼、其他、单层、地下;建筑耐火等级:一级、二级、三级、四级、四级以下;建筑结构:木结构、砖木结构、砖混结构、钢砼结构,刚结构、其他;起火场所:住宅、村民住宅、居民住宅、宿舍、学生宿舍、职工宿舍、群租房等等(130 多个属性取值,不详细列出);起火物:建筑构件、吊顶、墙壁、家具、电器、易燃固体、易燃液体、易燃气体等等(40 多个属性取值,不详细列出);火灾原因分类:电气火灾、电气线路故障、短路、负荷、接触不良、断路、漏电、配电盘故障、电器设备故障、焊割设备故障、烘烤、化工火灾等等(90多个属性值,不详细列出);直接财产损失:浮点数;过火面积:浮点数;死亡人数:整数值;受伤人数:整数值;火灾等级取值范围:一级、二级、三级、四级。

2.2 建模步骤

结合火灾警情数据集, 定义消防警情数据样本集,根据数据样本集可知,警情定级为4个级别,定义火灾级别

数据属性筛选与预处理。火灾发生的因素很多,并不是所有的属性都可以用来建模分析,比如火灾起火原因分类,火灾起火原因分类包括电器火灾、电器线路故障、短路、负荷、接触不良、断路、漏电、配电盘故障、电器设备故障、焊割设备故障、烘烤、化工火灾等将近90 种起火原因,如果拿来构建决策树,生成的树会很庞大;对于某些数值类的属性,可以进行适当的离散化,适当减少分支的生成。比如火灾过火面积等属性;在众多火灾发生的相关属性中,各个相关属性并不具备同等的相关性,为了简化和加速树的生成,可以对属性进行约简处理,必要情况下采用权重算法,提取高权重属性。采用Relief F算法对属性进行选择,在采用Relief F算法对数据样本进行实验过程中,发现起火物、火灾原因分类等属性具有较低的影响权重,在树的构建中可以取消对这些属性的选取。

属性选择与树的生长。根据决策树算法,树的生成是通过根节点的选择开始的,数据集的属性名称构成了每一个子树的根节点。由C4.5 算法,通过公式(2)计算样本集T的熵,根据公式(6)计算每个属性的信息增益比值Gain Ratio(建筑耐火等级,T)、Gain Ratio(过火面积,T)、Gain Ratio(直接财产损失,T)等,选取其中信息增益比最大的属性作为树的当前结点,重复该步骤,直到满足以下条件之一停止生长:所选属性样本属于同一类;没有剩余的属性可供选择。

树的减枝。在生成决策树的过程中,每个属性都被详细的考虑,决策树的树节点所覆盖的训练样本都是“纯”的,对于训练样本而言,它可以完全对训练样本中的样本进行正确的分类。但是,如果训练样本中包含了一些错误或者异常值,按照生成决策树的算法,会出现过度拟合的问题。本文采用后剪枝算法(Post Pruning)中的悲观修剪法(Pessimistic Pruning)对生成的树进行剪枝,考虑文献的剪枝算法。

规则提取。修剪后的决策树生成的规则并不能直接用于实际系统中,考虑存储于规则库中,专门对规则进行维护,通过相应的技术手段集成到业务系统中。

2.3 模型的评估

为了验证模型的可靠性,选取某市近十年消防局火灾警情数据库数据集进行进一步测试,该测试样本包括5000 个数据样本,样本中一级火灾样本4974 例,二级样本16 例,三级样本6 例,四级样本4 例。实验生成的决策树如图1 所示。过火面积分支条件的取值单位为。

实验预测准确率为99.74%,预测结果如表2 所示。“预测为”属性为实验预测的结果。

3 结论

本文研究基于C4.5 决策树理论来建立消防火灾等级模型,并在该模型基础上,选用某市近十年消防警情数据进行试验。实验结果表明决策树理论可以较好的应用于消防火灾等级模型,该等级模型在实际救援中对火灾的定级可以起到科学决策的作用。

通过实验结果可以观察到,实验中生成的决策树包括13 的节点,7 个叶子节点。其中过火面积、死亡人数和直接经济损失三个属性在决定分级中起了决定性的作用,在警情信息采集的过程中对这些属性值的偏差将会直接影响最后火灾的分级。当然,实际情况中,全市全年火灾在三级及三级以上的警情是很少的,这也给模型在实际应用中带来不少挑战,因此,通过更多的历史数据进行实验和分析,实现对该模型进行优化,并应用于实际火灾救援过程将是下一步的研究方向。

参考文献

[1]小方.公安部调整火灾等级死亡30人属于特大火灾[J].消防技术与产品信息,2007.

[2]董丹.火灾统计改革以来我国较大以上火灾分析及预防对策[J].消防技术与产品信息,2013.

[3]Quinlan J R.Induction on decision tree[J].Machine Learning,1986.

[4]Quinlan J R.C4.5:Programs for Machine Learnin g[M].Morgan Kaufmann Publishers Inc.,1993.

[5]刘晓宇.C4.5算法的一种改进及其应用[D].中国海洋大学,2013.

决策树分析模型 篇7

弱视指眼部无明显器质性病变, 以功能性因素为主所引起的远视力≤0.8且矫正达不到正常水平的生理现象, 可以发生于一眼或两眼[1]。弱视是儿童常见的发育性眼病, 我国目前人口13亿, 弱视的检出率约为3.8%, 据保守估计弱视患者达4 000万, 其中约有一千多万为儿童患者[2]。弱视能否治愈及疗效的好坏与年龄有密切的关系, 因此重视小儿弱视的早期诊断、早期治疗显得至关重要。

临床的弱视诊断方法多为:依照上述弱视定义, 由眼科专业医生根据临床经验做出诊断[3]。由于太过于依赖专业知识和临床经验, 这种诊断方式缺乏系统性和规范性, 效率不高, 对于没有医学知识的患者来说, 难以做到弱视自查或预诊。并且由于弱视定义的不完备性, 单纯的人为诊断可能会产生很大的误诊率[4]。近年来对于图形视诱发电位 (P-VEP) 的研究表明, 相较于正常人, 弱视患者的P-VEP波形特征会有很明显的改变[5,6,7], 这为弱视的检查、诊断甚至治疗提供了一种有效手段。

基于P-VEP数据在弱视诊断和治疗方面的参考价值, 本研究收集弱视患者的实测P-VEP数据, 利用数据挖掘中的分类方法, 找出这些数据中潜在的关联和价值, 建立决策树模型, 以模式化的方法辅助弱视诊断, 以提高弱视的临床诊断效率和准确率, 也为计算机辅助的自助诊断奠定基础。

1研究背景

1.1P-VEP

视诱发电位 (VEP) 属于诱发电位 (EP) 范畴, 是大脑皮层对视觉刺激发生反应的一簇电信号。它是用光或图形刺激视网膜后, 通过视路传递, 用脑电图技术在头皮记录的电生理信号, 是对视路功能的客观检测方法。利用图形方式 (一般采用不同空间频率的黑白棋盘格) 刺激视网膜后产生的VEP信号, 称之为P-VEP[8]。

如图1所示, 典型的P-VEP波形呈NPN型, 这些成分通常是通过它们的极性和波峰来界定的, 主要由N75 (N) 、P100 (P) 、N135 (N) 等成分组成, 健康人的P-VEP波形以P100成分最为稳定, 振幅最大。相较于正常人, 弱视患者P-VEP波形的P100潜伏期延长, P100振幅降低。通过对P-VEP波各成分特征 (特别是P100延时/P100振幅的阈值) 进行分析, 可以对受测者是否患有弱视、弱视程度、弱视类型等做出一定的诊断。

1.2分类算法选择

在数据挖掘的各种方法中, 分类是一种主要的分析手段, 其目的是生成一个分类函数或分类模型, 由该模型把数据库中的数据项映射到某一给定类别中, 从而对新数据进行预测。目前许多分类方法已被提出, 如决策树、关联规则、贝叶斯等[9,10]。目前已形成了多种决策树算法, 其中最著名的算法是Quinlan提出的ID3算法[11]和其改进后的C4.5算法[12]。

决策树分类算法一个最大的优点就是它在训练过程中不需要使用者了解很多背景知识。本研究中涉及有关弱视的大量医学知识与数据, 采用决策树分类算法可以不必太过关注这些数据的含义, 而只需从数据间的关联性寻找有价值的信息, 以指导弱视诊断。另外, 研究中采集的弱视患者数据具有一定的不完整性, 且多为连续型数据, 因此本研究采用支持处理连续型数据和不完整数据的C4.5分类算法作为模型建立工具。

1.3C4.5算法

决策树的生成算法的关键性决策是对节点属性值的选择。通过选择不同的属性值会使划分出来的记录子集各不相同, 影响到决策树生长的快慢以及决策树结构的好坏, 从而导致找到的规则信息优劣互见。C4.5算法采用基于信息熵的方法递归后形成决策树。用信息增益比来描述属性对分类的贡献, 用以消除偏向具有大量属性值属性而产生的偏差[13]。C4.5算法简单描述如下:

Ss个数据样本的集合;假定分类目标属性具有m个不同值, 定义m个不同类Ci (i=1, 2, …, m) ;设si是类Ci中的样本数, 则样本空间的信息熵为:

Ι (s1, s2, , sm) =-i=1mpilb (pi) (1)

式中 pi—任意样本属于Ci的概率, 一般可用si/s来估计;lb—以2为底的对数。

设属性A具有v个不同值{a1, a2, …, av}。可以用属性AS划分v个子集{S1, S2, …, Sv}, 其中, Sj包含S中这样的一些样本, 它们在A上具有值aj。如果A作为测试属性 (即最好的分裂属性) , 则这些子集对应于由包含集合S的结点生长出来的分支, 设Sij是子集Sj中类Ci的样本数, 则测试属性的期望信息熵为:

则使用属性A作为分裂属性时, 可以获得的信息增益值为:

Gain (A) =I (s1, s2, …, sm) -E (A) (4)

在C4.5算法中使用信息增益决定分裂属性, 信息增益比定义为:

GainRatio (A) =Gain (A) SplitΙ (A) (5)

其中:

SplitΙ (A) =-j=1vpjlb (pj) (6)

每次依据所有属性的信息增益比分裂样本空间, 并递归得到决策树, 其中每个节点取具有最大信息增益比的属性。

2分类模型建立与验证

2.1数据采集

数据收集对象选择常人160例, 其中137例为弱视患者, 23例健康人, 年龄从4~70岁不等, 平均年龄为17岁;受试者均色觉正常, 裸眼视力和矫正视力在1.0以下;采集设备使用VISTON弱视诊断和治疗仪;采集环境为浙江省一家大型医院的眼科中心。使用氯化银盘状电极, 按国际常规方法进行P-VEP的记录, 电极位置采用国际电极配置法即“10~20法”[14], 安置电极前用75%乙醇擦洗鼻根上方5 cm~8 cm额头处皮肤、耳垂皮肤、枕外粗隆上方2 cm~3 cm处头皮。在放置电极前在电极和皮肤之间放置少量的导电膏。

数据采集过程记录患者的性别、年龄、裸眼及矫正视力等生理属性, 并记录P-VEP数据N75波、P100波和N135波的潜伏时间和振幅。本研究对同一个患者使用不同空间频率的黑白棋盘格图形刺激, 记录P-VEP数据, 最终通过160例患者产生1 132条样本数据, 数据不完整度小于5%。每条记录所含数据的各属性字段名、类型、取值范围如表1所示。

其中, “空间频率”属性取值以黑白棋盘格的大小表示, 共14种组合, 分别以1~14编号, 其本身属于离散型属性, 但为了控制生成的决策树模型大小, 本研究把“空间频率”当作连续型数据对待。

把通过数据收集得到的1 132条样本数据以6 ∶4的比例随机划分为两部分, 其中60%的数据用于决策树模型的训练, 40%的数据用于模型测试。

2.2分类模型设计

2.2.1 弱视诊断分类模型-1

弱视被定义为本身无器质性病变, 视力或矫正视力达不到正常水平。然而该定义不完备、不严谨、不完全正确, 其他一些疾病如神经性疾病、脑病等同样可能引起定义中所描述的症状, 临床中, 有很多符合该定义却并非弱视的患者。因此, 完全依照该定义进行弱视诊断可能会有较大的误诊率。

基于实测患者数据, 笔者选取患者“性别”、“年龄”、“裸眼视力左”、“裸眼视力右”、“矫正视力左”、“矫正视力右”5个属性作为训练属性, 以“弱视程度”作为目标属性, 使用C4.5算法生成决策树模型。该模型依据患者的性别、年龄、视力等生理属性, 诊断患者是否患有弱视以及弱视程度。所建模型如图2所示。

用于生成模型的初始数据量并不是很大, 为了充分获得分类正确率, 可以不断加入新的训练数据重新生成模型;另外, 从图中可以看出, 得到的决策树模型规模较小, 因此在决策树模型建立过程中不对其进行剪枝操作。

2.2.2 弱视诊断分类模型-2

不同类型的弱视患者在相同的图形刺激下产生的P-VEP波在特征上不尽相同, 其中以P100波最为显著。据此以“年龄”、“空间频率”、“P100幅值/P100延时”作为训练属性, 以“弱视类型”作为目标属性生成决策树模型。该模型依据患者的P-VEP检测数据诊断患者的弱视类型。所建模型如图3所示。

2.3模型验证

本研究使用总样本数据的40%作为测试数据, 即来自于约64例患者, 共452条样本, 每条样本包含患者的性别、年龄、P-VEP检测结果、弱视类型、弱视程度、治疗效果等数据。分别将诊断模型-1和诊断模型-2应用于测试数据, 将分类结果与实际情况进行统计对比, 如图4、图5所示。

从图中可看出, 使用诊断模型分类后, 各不同类别之间的比例关系与实际情况相符。

用诊断模型对测试数据进行分类的统计结果如表2所示, 可以得到诊断模型的平均诊断正确率达80%以上, 误判率小于20%。本研究使用来自于160例患者的1 132条P-VEP数据生成诊断模型, 数据量还不算很大, 但得到的模型已经可以以较大的正确率辅助弱视诊断。

另外, 从模型中可以看出年龄对于弱视诊断的重要性, 这与临床经验和统计数据均相一致。

模型误判主要由数据量较少引起, 通过使用更大的数据样本生成模型能够有效地提高分类的正确率。另外, 训练数据中患者信息的准确度也对模型分类的正确率有较大影响

3结束语

本研究基于P-VEP对于弱视的诊断和治疗价值, 利用实际采集得到的P-VEP数据, 并采用C4.5决策树算法进行分类, 建立了一组弱视诊断分类模型。实际检验结果数据表明, 使用模型分类能够有效地辅助临床弱视诊断, 并为计算机辅助治疗弱视提供依据。

在目前的研究中用于生成分类模型的数据量还不是很大, 但得到的诊断模型已经可以有效地辅助诊断, 在下一步的研究中可以在模型训练中使用更大的数据样本, 并考虑模型的自反馈优化, 即在模型的使用过程中, 把完成分类的未知数据加入到训练样本中重新生成模型, 以进一步提高诊断准确率。

摘要:针对目前的弱视诊断方法大多采用主观检查的方法, 存在效率低且依赖于医生专业知识和临床经验的问题, 使用VISTON基于图形视诱发电位 (P-VEP) 的弱视诊断和治疗仪, 在浙江省某家大型医院的眼科中心对137例弱视患者以及23例正常人进行了检测, 对记录的数据采用C4.5决策树算法进行了分类, 建立了弱视诊断模型。实际检测结果数据表明, 该模型能够以较高的准确率辅助医生进行弱视诊断和治疗, 提高了诊断效率, 并有助于患者自查。

决策树分析模型 篇8

目前许多定量技术和支持工具、软件已付诸商业应用, 继传统的比例分析之后, 统计方法得到了广泛的应用, 如判别分析和Logistic回归等。信用等级评估是通过对企业或个人的某些单一财务指标进行加权平均确定的。该方法的最大缺陷在于指标和加权值的确定带有很大的主观性, 使得评估结果和实际状况有很大的出入。因此需要引入科学方法来确定有效评估指标, 并建立准确的定量模型来解决信用等级评估的问题。近年来, 信息技术得到了迅速发展, 如数据挖掘技术等能从海量数据中智能发现有用的规则和知识, 再加上我国上市公司信息披露制度的不断完善, 使得我们的研究能够得到的数据资料也不断的增多, 这些有利条件的出现使得我们对基于数据挖掘的上市公司信用风险评估模型的研究具有了数据基础和技术基础。

一、模型简介

(一) 决策树算法

决策树是对已知类别的数据样本进行归纳学习获得的树形结构, 树内每个非叶节点代表对一个属性取值的测试, 每个叶节点代表一个类别。决策树方法利用信息理论的信息增益选择具有最大信息量的属性来建立决策树的一个节点, 再根据属性字段的不同取值来建立树的分枝, 如此对每个分枝重复递归建立整个决策树。产生决策树的基本算法如下:

输入:训练样本, 各属性均取离散数值, 可供归纳的备选属性集合为attribute_list。

输出:决策树

算法:G en_decision_tree

创建一个节点N ode;

IF该节点中的所有样本均为同一类别c TH EN返回N ode作为一个叶节点并标志为类别c;

IF attribute_list为空TH EN返回N ode作为一个叶节点并标记为该节点所含样本中类别个数最多的类别;

从attribute_list选择一个信息增益最大的属性test_attribute;

将节点N ode标记为test_attribute;

根据test_attribute=V i条件, 从节点N ode产生相应的一个分枝, 且设Si为根据该分枝条件所获得的样本集合;

IF Si为空TH EN将相应叶节点标志为该节点所含样本中类别个数最多的类别, ELSE, 将相应叶节点标志为由G en_decision_tree (Si, attribute_list, test_attribute) 返回的值。

其中, 信息增益的计算方法为:设S为一个包含S个数据样本的集合, 类别属性可以取N个不同的值, 对应于N个不同的类别Cj, j∈{1, 2, 3, …, N}, Sj为类别Cj中的样本个数。那么对一个给定数据对象进行分类所需的信息量为:

其中, pj是任意一个数据对象属于类别Cj的概率, 即pj=Sj/S。设属性V取v个不同的值{V1, V2…, Vv}, 则利用属性V可以将集合S划分为v个子集{S1, S2…, Sv}, 其中Si包含了集合S中属性V取Vi值的那些样本。设Sij为子集Si中属于Cj类别的样本个数。那么利用属性V划分当前样本集合所需要的信息熵可以计算如下

这样利用属性V对样本集合进行划分所获得的信息增益为:

(二) K最近邻法

K最近邻法简称K N N算法, 在理论上是比较成熟的方法, 最初于1968年由Cover和H art提出, 其思路非常简单直观。K N N方法是一种有监督学习的分类算法, 它并不需要产生额外的数据来描述规则, 它的规则就是数据 (样本) 本身, 并不要求数据的一致性问题, 也就是说K最近邻法在一定程度上减小了噪声样本对分类的干扰。K N N根据未知样本的K个最近邻样本来预测未知样本的类别, K个最近邻样本的选择是根据一定的距离公式判定的。

K N N分类算法的基本原理为:首先将待分类样本y表达成和训练样本库的样本一致的特征向量;然后根据距离函数计算待分类样本y和每个训练样本的距离, 选择与待分类样本距离最小的K个样本作为y的K个最近邻;最后根据y的K个最近邻判断y的类别。K N N算法必须明确两个基本的因素:最近邻样本的数目K和距离的尺度。K表示选择参考样本的数目, 距离尺度对应一个非负的函数, 用来刻画不同数据间的相似性程度。在K N N算法里对于模型的选择 (尤其是K值) 往往是通过对大量独立的测试数据、多个模型来验证最佳选择。

(三) Logistic回归模型

Logistic回归模型是一种非线性概率模型, 其因变量是分类变量只有0和1两个取值。回归模型可表述为

其中xk (k=1, 2..., m) 为上市公司信用风险评定中的影响变量, cj (j=1, 2..., m) 为回归系数, 通过回归或极大似然估计获得, Logistic回归值p∈ (0, 1) 为信用风险分析的判别结果。P是的连续增函数, S∈ (-∞, +∞) 。并且

对某上市公司i (i=1, 2..., n) 来说, 如果其Logistic回归值pi接近于0或 (pi≈0) , 则被判定为一类经营差的企业, 若其Logistic回归值pi接近于1或 (pi≈1) , 则被判定为经营好的企业。并且pi值越远离0, 表示该企业陷入财务困境的可能性越小;反之, 表示该企业陷入则务困境的可能性越大。

二、基于决策树的上市公司信用风险评估模型实证分析

(一) 指标体系建立

通过综合考虑信用风险的各种影响因素, 借鉴我国财政部统计评价司的企业效绩评价指标体系和国有商业银行企业资信评估指标体系以及国内外有关文献的相关指标, 在分类、汇总、整理的基础上, 同时兼顾数据的可获取性原则和可量化原则, 从企业盈利能力、偿债能力、营运能力和发展能力4个方面, 选取了10个财务指标。

(1) 盈利能力指标。企业获利能力是企业信用的基础, 企业只有盈利, 才有可能按时偿还债务。本文选取的反映企业赢利能力的指标有净资产收益率X 1、销售 (营业) 利润率X 2。

(2) 偿债能力指标。偿债能力是企业资信的保证, 企业偿债能力如何, 通常是评估企业资信评级最直接的依据, 偿债能力归根结底是企业自有资产的变现能力。本文选取的反映企业偿债能力的指标有流动比率X 3、速动比率X 4和资产负债率X 5。

(3) 营运能力指标。营运能力分析是对企业资金周转状况进行的分析, 资金周转得越快, 说明资金利用效率越高, 企业的经营管理水平越好。本文选取的反映企业营运能力的指标有总资产周转率X 6、存货周转率X 7和应收账款周转率X 8。

(4) 发展能力指标。发展能力反映企业未来发展前景及潜力。本文选取的反映企业发展能力的指标有资本积累率X 9和总资产增长率X 10。

将上市公司分为两组, 第1组包含ST公司, 认为该类企业具有较大的财务风险。非ST公司作为第2组, 认为该类企业财务状况正常。若模型将ST组样本判为非ST组, 则称为犯第一类错误;将非ST组样本判为ST组, 则称为犯第二类错误。

(二) 样本选取

样本的选取为两分类模式, 即违约和不违约。将ST上市公司作为财务状况异常一类, 也即会发生违约的一类;将非ST公司作为财务状况正常的一类, 即不会发生违约的一类。ST公司是指出现财务状况或其他状况异常, 导致投资者难于判断公司的前景, 权益可能受到损害的公司。

本文实证分析中的原始数据来自于色诺芬数据库, 随机选取我国深、沪两市交易所2009年公布的60家ST公司作为一类经营“差”的企业, 同时另随机选取75家不亏损公司作为一类经营“正常”的企业与之相匹配, 因此, 数据样本集由135家上市公司组成, 然后从中任选30家ST公司及38家非ST公司组成训练样本集, 余下的67家公司组成测试样本集。

(三) 模型构造与检验

构造决策树, 关键是找到样本空间的最优划分, ID 3算法的属性选择策略就是选择信息增益最大的属性作为测试属性, 从而确定样本空间的一个划分。但ID 3算法存在着输出分支多, 预测可靠性性差的问题。C4.5算法从ID 3算法演变而来, 提出用信息增益比来作为测试属性选择的依据, 通过大量的实验测试表明:用C4.5算法构造的决策树较ID 3算法的预测效果有更好的可靠性和健壮性。实验模型运用数据挖掘软件W EK A 3.6.3, 根据C4.5算法以信息增益比最大为原则选取节点生成决策树, 如图1所示。

最终选出了6个好的属性作为决策树节点, X 5为根节点, 也就是资产负债率对于违约和履约分类的贡献程度是最大的。括号中的数代表平均有几个样本数据根据条件被分到了相应的类中, 用10次迭代交叉验证法来验证模型的误差率, 验证结果如下:

正确分类的样本数5886.5671%

错误分类的样本数913.4328%

(四) 结果分析

本文运用决策树模型与Logistic和K最近邻模型进行了比较分析。从结果来看, 三种模型都具有较好的预警效果, 但相比之下, 决策树模型的总体判定准确率更高, 说明决策树模型对样本所包含的数据信息的学习比较充分。作为一种非线性映射, 数据之间的自相关性以及个别数据的缺失对模型的预测效果影响不大。因此, 决策树在分析和研究上市公司信用风险方面, 具有良好的应用前景。

从表中可以看出, 决策树在测试样本集中的整体准确率 (也即预测准确率) 达到了87%, 明显好于Logistic和K最近邻模型的78%。在本实验过程中, 在建立模型时考虑的是整体准确率, 从这一角度看, 决策树模型具有一定的优势。从三种模型的结果中比较, 训练样本第一类错误率明显高于测试样本的第一类错误率。对此问题目前还不能做机理上的解释, 但这种现象恰好是希望得到的。

通过表1, 还可以对模型的鲁棒性做一个比较。对于训练样本集, 决策树的整体准确率是最高的, 达到了75%, 其次是Logistic模型的74%, 效果最差的是K最近邻模型的66%。在测试样本集中, 准确率 (预测准确率) 都有了不同程度的上升。变化率最大的是决策树, 为12%;其次是K最近邻模型, 为8%;变化率最小的是Logistic, 仅为4%。可以看出, 在三种模型中, 决策树模型的鲁棒性最差, Logistic模型的鲁棒性最好。决策树模型的鲁棒性虽然不是最好的, 但也保持了一个较好的水平, 能够满足实际应用的要求。

综上所述, 本文以我国上市公司作为研究对象, 以因财务状况异常而被特别处理作为界定上市公司陷入财务困境的标志, 采用交叉验证技术建立决策树模型, 并与Logistic和K最近邻模型进行了比较分析。实证结果表明决策树模型能有效地预测上市公司的信用风险, 且适用性较好。当然, 在分析过程中, 存在以下有待改进之处, 如:以上市公司样本代替所有企业, 可能会造成典型性不强的问题;只考虑财务因素作为影响变量, 未对非财务因素 (如行业因素、其他宏观因素) 加以考虑

参考文献

[1]吴世农、卢贤义:《我国上市公司财务困境的预测模型研究》, 《经济研究》2001年第6期。

[2]张焱:《数据挖掘在金融领域中的应用研究》, 《计算机工程与应用》2004年第18期。

[3]张剑飞:《数据挖掘中决策树分类方法研究》, 《长春师范学院学报》2005年第1期。

[4]王娜等:《K-最近邻分类技术的新发展与技术改进》, 《河北省科学院学报》2009年第26期。

本文来自 古文书网(www.gwbook.cn),转载请保留网址和出处

相关文章:

通道设计02-19

多孔材料模型分析02-19

数据包络分析模型02-19

面板模型分析02-19

综合分析模型02-19

网络分析模型02-19

方差分析模型02-19

偏离-份额分析模型02-19

数学模型分析02-19

竞争分析模型02-19

注:本文为网友上传,旨在传播知识,不代表本站观点,与本站立场无关。若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:66553826@qq.com

上一篇:通道设计 下一篇:网络分析模型