贝叶斯结构模型

关键词: 信用风险 评估 阶段 模型

贝叶斯结构模型(精选九篇)

贝叶斯结构模型 篇1

信用风险是商业银行在业务中面临的最主要和最复杂的风险[1]。从20世纪90年代开始人工智能模型被引入信用风险评估领域, 信用风险评估从以定性分析和经验分析为主的阶段, 逐步进入以定量分析和数据分析为主的阶段。在现实情况下, 信用风险评估指标往往存在复杂的条件依赖, 通过构建贝叶斯网络模型, 对解决多个指标之间的因果关系相互依赖的情况非常有效, 且直观性强。贝叶斯网络模型的构建过程包括网络结构学习和参数学习过程, 其中完全的贝叶斯网络结构学习是NP难题[2]。目前贝叶斯网络结构学习存在多种算法, 本文使用基于CH评分的K2算法, 通过对商业银行的样本数据训练, 构建个人信用风险评估模型的贝叶斯网络结构。

1 贝叶斯网络模型及其结构学习

1.1 贝叶斯网络模型

贝叶斯网络模型基于贝叶斯定理。贝叶斯定理的原理是, 设E和H为两个随机变量, E看作是“证据”, E可包含多个属性, 即E={X1, X2, …, Xn}。H是某种事件的假设。在考虑证据E之前, H成立的概率P (H) 称为先验概率。在考虑证据E之后, 对H的概率估计P (H|E) 成为后验概率。贝叶斯定理用公式描述了先验概率和后验概率之间的关系[3]:

1986年Pearl提出使用有向图来表示多个属性之间的条件依赖关系, 方法是:把每个属性表示为一个节点Xi;对于每个Xi, 确定导致它发生的其它属性, 该属性确定为父节点Parents (Xi) , 即父节点是导致Xi的直接原因, 从Parents (Xi) 画一条有向边到Xi见图1。每个节点Xi都有一个条件概率表, 用来表示它与父节点的概率关系[4]。

1.2 贝叶斯网络结构学习

贝叶斯网络的构造可通过训练样本数据来获得。其结构学习方法包括基于评分的学习和基于约束的学习。基于评分的学习方法是首先定义一个评分函数, 然后寻找分值最高的结构;基于约束的学习从数据出发, 首先通过测试手段找出关于变量之间条件独立关系, 然后寻找与这些关系 (约束) 一致的网络结构[2]。基于评分的学习算法有K2算法、爬山法和SEM算法等。本文研究采用K2算法构造贝叶斯网络结构。

2 信用风险评估模型的贝叶斯网络结构学习

2.1 个人信用风险评估指标

个人信用风险评估模型实现的功能是:在给定的风险等级分类体系下, 根据客户的各项指标自动确定客户的信用风险等级类别。个人信用风险评估模型实质上是一种分类模型, 在已知客户各项指标数据的情况下, 区分客户的风险等级。现在以某商业银行数据进行样本训练, 风险等级划分为7个等级。根据我国商业银行的信贷业务经验, 个人信用风险评估指标归纳如表1。

2.2 评分函数

在属性指标X1, X2…Xn确定后, D= (D1, D2, …Dn) 是关于这些变量的一组数据, 设g是一个以X1, X2…Xn为节点的贝叶斯网络结构。贝叶斯网络结构学习就是如何找出一个相对于某样本数据D在某种意义下最优的网络结构g。这里我们使用最常用的评分函数Cooper-Herskovits对模型进行选择。

设Nijk是N个样本时, 满足子节点Xi=k, 父节点 (Xi) =j的样本个数, 在假设结构先验分布是均匀分布的前提下, 数据的边界正好等于每一个 (i, j) 对的边界似然的乘积, 即:

表示变量Xi、其父节点 (Xi) 之间的边所形成的局部结构, 把CH函数中Xi那一项所对应的局部结构记为CH, 称为Xi的家族CH评分[4], 函数可以改写为:

此函数表示各变量的家族CH评分之和, 简称CH评分。这是我们将要为下面的网络搜索算法选定的模型评分函数。

2.3 基于K2算法的网络结构学习

K2算法是最早的贝叶斯网络结构学习算法之一, 目的是要寻找CH评分最高的模型。K2算法的过程是, 首先定义g的一个拓扑序S, 然后定义一个包含所有指标节点的无边图, 在搜索过程中, 按S中的顺序逐个搜索节点, 考察其拓扑序S中的变量, 找出CH评分最高的变量, 确定其父节点, 然后为其父节点之间添加有向边。具体做法是:首先考虑哪些在S中排在Xj之前、但却还不是Xj的父节点的变量, 从这些变量中选出Xi, 它使得新家族CH评分Vnew=CH (|D) 达到最高;然后将Vnew与旧家族CH评分比较, 如果Vnew>Vold, 就把Xi添加为Xj的父节点[4], 其流程如图2。

3 仿真结果

构建个人信用风险评估模型, 其训练样本数据选用某商业银行已成功申请房贷的3 000条个人客户数据, 分别均匀分布在7个风险等级 (Level) 。Level作为响应变量或目标变量, 其余的变量为信用指标集, 即特征属性变量。19个探索性属性变量中3-12-13-14-15-16-17-18-19为连续变量, 其余的为离散变量。每个样本均具备模型中涉及的19个变量的完整数据。

通过处理, 在SAS中建立以19个指标和风险级别Level为变量的数据集, 通过编写K2算法, 导入样本数据, 获得的贝叶斯网络结构如图3。

现在我们尝试验证所有父子节点之间的相关性, 相关性正确与否是影响整个贝叶斯网络结构的关键。验证的原理是利用SAS中的线性相关分析, 通常用字母R来表示相关系数。R值的范围为-1<=R<=1。我们采用最常用的皮尔逊积差相关来计算R值。皮尔逊积差相关系数R的计算公式为:

其中Sx是变量x的标准差, Sy是y的标准差。

利用公式计算各父子结点的相关系数R, 结果显示:R的值均处于0.42~0.85之间, 表示各父子结点的相关性在中等强度至极强相关之间, 说明该贝叶斯网络结构是可靠的。

为了测试在增减样本的情况下所得的网络结构是否一致, 我们把样本量提升为5 000条记录, 结果获得同样的网络结构。当再次把样本量缩减为2 000时, 得到的网络结构开始与原结构存在差距, 当样本量继续缩减时, 差距越来越大。由此表明, 样本数据在3 000条左右时, 计算效率最高。

4 结语

本文针对商业银行个人信用风险评估指标的条件依赖问题, 构建个人信用风险评估的贝叶斯网络模型。该模型的贝叶斯网络结构学习方法采用数据样本训练方法, 采用基于CH评分的K2算法, 获得贝叶斯网络结构。通过测试, 其父子结点之间具有较强的相关性。如何基于此网络结构进行参数学习, 建立条件概率表, 并进行数据仿真测试, 与其它评估方法进行效果对比, 是我们下一步的研究内容。

摘要:研究了贝叶斯网络在商业银行信用风险评估方法中的应用, 在商业银行数据中选取了对信用风险评级具有影响力的19项指标及样本, 运用基于评分的算法对贝叶斯网络结构进行学习, 并通过验证父子节点之间的相关性, 对获得的贝叶斯网络结构进行了效果评价。

关键词:信用风险评估,贝叶斯网络,CH评分,K2算法

参考文献

[1]巴塞尔银行监管委员会.统一资本计量和资本标准协议:修订框架[M].中国银行业监督管理委员会, 译.北京:中国金融出版社, 2004.

[2]李显杰, 张佑生, 李剑飞.基于量子遗传算法的贝叶斯网络结构学习[J].计算机应用研究, 2008 (4) .

[3]JIAWEI HAN, MICHELINE KAMBER.数据挖掘概念与技术[M].北京:机械工业出版社, 2008.

[4]张连文, 郭海鹏.贝叶斯网引论[M].北京:科学出版社, 2006.

[5]薄纯林, 王宗军.基于贝叶斯网络的商业银行操作风险管理[J].金融理论与实践, 2008 (1) .

[6]BACSENS B, VERSTRACTEN G, POEL D V.Bayesian Network classifiers for identifying the slope of the customer lifecycle of long life customers[J].European Journal of Operational Research, 2004 (156) .

贝叶斯结构模型 篇2

基于贝叶斯动态模型的某器件性能预测

在导弹武器系统当中,及时准确的故障预报对提高导弹的安全性具有极其重要的意义.本文根据导弹惯性器件故障预报系统的.设计要求,利用贝叶斯动态线性模型对导弹某惯性器件的性能进行了预测研究.贝叶斯预测是利用历史信息和从样本获得的信息来获取后验分布的一种预测方法,该方法不需要平稳性的假设,而且充分利用了已有的信息,可以用来对电子设备的性能进行预测.实例研究表明,该方法具有比较好的预测效果.

作 者:樊红东 胡昌华 丁力 FAN Hong-dong HU Chang-hua DING Li  作者单位:第二炮兵工程学院,陕西,西安,710025 刊 名:电光与控制  ISTIC PKU英文刊名:ELECTRONICS OPTICS & CONTROL 年,卷(期): 13(1) 分类号:V271.4 TJ76 关键词:贝叶斯   动态线性模型   性能预测   惯性器件  

贝叶斯结构模型 篇3

摘要:采用聚类分析法将多专家的动态综合评价转换为静态综合评价;引入横向拉开档次法对各指标客观赋权,结合指标主观权重,运用数学规划法得到指标的集成权重;采用贝叶斯网络模型对24项科技成果进行分类评价,对每一项成果获得某一等级奖项的可能性给出测度,并对每一类内的项目排序。实证分析表明:我国科研成果大部分具有研究价值,且成果丰硕,但突破性、创造性的研究成果较少。

关键词:贝叶斯网络;集成权重;拉开档次法;聚类分析法

中图分类号:G311 文献标识码:A

与2013年、2012年相比,2014年度国家科学技术奖授奖项目明显减少。对此,国家科技部奖励办表示,优化奖励结构、减少奖励数量,是为了突出鼓励自主创新成果和重大的发明创造科技成果。科技成果的评价作为科技奖励的前期工作,对科技奖励的最终决策有着举足轻重的作用,也是保证真正的重大创新项目获得应有奖励、鼓励科研人员进一步有所突破的关键。

目前,学者们对科技奖励综合评价体系的研究做了大量工作,部分研究成果已经投入实际应用。张立军等构建了基于路径系数权重体系的科技奖励评价模型。王瑛等提出了基于模糊多属性投影法的科技奖励模型和E-BP神经网络的科技奖励评价模型。黄卫春等提出了一种基于云模型的科技奖励评审模型,利用云模型描述项目评分在各属性下的分布情况,通过计算云模型参数来确定云模型数字特征图或云滴分布情况,并以此确定评价等级。王瑛、蒋晓东等提出了改进CRITIC法和云模型的科技奖励评价模型,既考虑评价过程中专家评分的模糊性和随机性,又考虑了定性语言与定量语言之问的转换。王瑛、王娜等提出了基于随机森林赋权和改进的ELECTRE-Ⅲ方法的科技奖励评价方法,既提高了权重估计的精确度和可信度,又解决了难以给定门槛值和不能完全排序的问题。朱紫巍等针对国内外科技评价方法,进行比较分析,提出了改革我国科技评价方法的建议。

针对科技奖励评价涉及多专家、多项目、多指标的特点,此前,学界的研究主要集中在评价指标的客观赋权法与主观赋权法的单方面研究,没有将这两方面有机结合起来;在评价方法上主要集中在数理统计和人工智能等方面,但对于评价结果的可靠性没有给出科学的测度。对此,本文提出一种集成权重的方法对科技奖励的评价指标进行综合赋权;应用概率论中的贝叶斯网络模型进行科技奖励综合评价,该方法不仅可实现对科技成果的分类评价,而且可对每一项科技成果获得某一等级奖项的可能性给出概率测度,并在分类评价的基础上,对每一类内的项目进行排序。

1集成权重的理论

评价指标权重的确定可分为主观赋权法和客观赋权法,两者各有千秋。本文采用一種主、客观权重集成的方法,计算各评价指标的综合权重,该方法既能满足决策者的主观偏好,又能实现决策的客观性、真实性。

1.1基于聚类分析的专家权重理论

聚类分析方法是一种作为模式识别的分类方法,它常常被用来判断样品质量的好坏。把评审专家的个体排序向量看作是待识别的样品,对其进行聚类分析并判别其客观可信性,再根据聚类结果给专家赋权。

动态专家赋权坚持的是简单多数的基本原则,即一个评审结果体现的是整个专家群体的综合意见。因此,一个专家的个人评审意见和大多数专家的评审结果的吻合程度决定了该专家在整个综合评价中所占的分量。如果他的评价结果与大多数专家的结论基本一致,就可以给这一类专家赋以较大的权重;反之,其意见就值得怀疑,可以给这一类专家赋以较小的权重。

通过聚类分析,可以将个体排序向量划分成不同的类别,即将k个评审专家分成s类(s≤k),假设第l类(l≤s)内包含φl个个体排序向量,那么,第k位专家的权重ηk应该和他所在的类别中包含的专家人数φk成正比,其具体计算公式为:

(1)对ηk进行归一化处理,即可得到基于聚类分析的动态专家权重:

(2)

1.2拉开档次法的指标赋权理论

拉开档次法就是在使得各被评价对象之问的整体差异尽量拉大的条件下确定评价指标权重的方法。

对于静态综合评价问题,一般解决办法是取线性综合评价函数:

(3)式中:ωi为评价指标权重。

(4)式中:

当指标权重矩阵W为对称矩阵H的最大特征值对应的特征向量时,σ2取最大值。此时权重系数W最大可能地体现了各评价对象问的差异。

1.3基于数学规划法的集成权重理论

本文应用数学规划法在非线性约束条件下,求解线性目标函数的极值问题。该方法在科技奖励综合评价中的具体应用如下。

(5)

解得:

(6)

(7) (8)

(9)

(10)

由式(10)即可求得评价指标的集成权重。

2贝叶斯网络模型的理论

(11)式中:P(A|Bi)为条件概率;P(Bi)为事件Bi的概率。

结合科技奖励评价的特点,Bi为科技奖励的等级集,元素yji表示第j个指标在第i等级时的标准值;A表示科技奖励的指标集,元素xjk表示第k项科技成果的第j个指标的实际值;i为标准级别,i=1,2,…,s;j为指标,j=1,2,…,m;k为科技成果编号,k=1,2,…,n。据此式(11)可改写为:

(12)

算法步骤如下:

1)计算P(yji)。在没有任何信息的条件下,某项科技成果究竟属于哪一等级,这在许多应用中难以确定。结合科技奖励的特点,在没有获取科技成果相关信息的情况下,人们最能接受的是获得某等级奖励的概率相等,即取:P(yj1)P=(yj2)=…=P(yjs)=1/s。

2)计算P(xjk|yji)。现有研究成果表明,P(xjk|yji)的估计是贝叶斯网络模型的核心。本文从抽样误差角度估计P(xjk|yji)。根据统计理论,当科技成果属于i类时,由于抽样缘故获得的样本指标值和总体指标值总是存在一定的抽样误差,其分布可用正态分布表示。基于以上考虑,将抽样误差正态分布原理用于估计P(xjk|yji)。以科技成果评价指标j各等级标准值作为正态分布的均值aj,基于aj和标准差σj获得某一等级某一指标完整的正态分布。

(13)

(14)

(15)式中:aj,σj和Cj分别为指标j各等级的均值、标准差和变异系数。

由式(13)~(15)计算变异系数Cj,Cj表示指标j在各类之间相对变化情况。而某类指标j抽样值的相对变化亦与之类似,因此采用Cji=Cj,即以各类等级变异系数估计某一类指标抽样值的变异系数。

基于抽样误差正态分布原理估计P(xjk|yji)的计算步骤归纳如下:

①由式(13)~(15)估计Cji,并采用Cji=Cj

②将第i类指标j的标准值yjk作为该类指标均值;

③计算第i类的标准差σji=Cjiyji

④将抽样值(检测值)xjk标准化,

(16)

⑤以标准化正态分布计算

(17)

用标准正态分布函数求取,|tjk|为tjk坤的绝对值。

3)由式(12)计算P(yji|xjk)。

4)多指标下(ωj为指标权重)科技成果评价后验概率Pi的计算。

(18)

5)以最大概率原则决策最终的级别Ph

(19)

6)以分类结果为基础,在每一类内根据概率大小进行排序。

3实证分析

以国家科学技术进步奖(技术开放项目)评选中25位专家对24项科技成果的评分数据(资料来源:科技部国家科技奖励办公室,原始数据略)为例,该奖项的5个评价指标是:技术创新程度、技术经济指标的先进程度、技术创新对提高市场竞争能力的作用、已获经济效益、推动科技进步的作用。国家科技奖励办赋予5个评价指标的权重为:ω'=(0.2,0.2,0.2,0.25,0.15),将该权重作为评价指标的主观权重。具体步骤如下。

步骤1基于聚类分析法的专家权重的计算。

运用SPSS19.0对原始数据进行聚类分析,将25位专家分为5类,即:

第一类包含10,16号2位专家;

第二类包含1,2,4,12,15号5位专家;

第三类包含3,6,8,9,14,25号6位专家;

第四类包含5,7,11,13,18,19,20,21,22,23,24号11位专家;

第五类:含17号1位专家。由式(1)(2)计算专家权重,结果见表1。

由表1求得的专家动态权重,采用简单线性加权法,计算25位专家对每个项目的5个评价指标评分的加权平均值,计算结果见表2。

表2的数据组成的矩阵,即为式(4)中的矩阵X,应用Matlab7.0计算XTX的最大特征值及归一化的特征向量(即权重系数)分别为:

步骤3科技成果评价标准体系的构建。

根据国家科技奖励办公布的国家科技进步奖(技术开发项目)评价指标体系和奖励办法,建立国家科技进步奖(技术开发项目)评价标准。按照“从严把关,严肃评审,宁缺毋滥”的原则,在分类上设置5个等级,在各等级标准设定中采取5分制原则,采用随机生成数的办法,得到5个指标各等级的评价标准,见表3。

步骤4

基于贝叶斯网络模型的科技奖励评价。

3)由式(12)可知,求P(yji|xjk)的过程就相当于P(xik|yji)的归一化过程,计算结果略。

4)由式(18)计算该项目分属各等级的概率。

同理,计算24个项目分属各等级的概率,结果见表5。

5)由式(19)确定项目1所属类别,属于三等,抽样误差标准正态分布以0.366的概率保证其获得三等奖。

6)同理,可以得到所有项目的所属类别,并根据同一类内概率的大小,进行排序,结果见表6。

从分类评价结果看,大部分科技成果都属于二等和三等,一等和四等的项目较少,五等的项目完全没有;从评价结果的可靠性看,获得一等奖的项目分别以0.408,0.426,0.469的概率给予保障,获得二等、三等项目的可靠性测度维持在0.382,获得四等奖的可靠性则以0.320的概率给予保障;每一个等级内的排序可以為决策部门在授奖指标一定的情况下提供参考。通过实证分析可以得出:高等级获奖项目较少,大部分属于二等和三等,低等级获奖项目极少,这表明我国科研成果绝大部分具有研究价值且成果丰硕,但突破性、创造性的研究成果较少。

4结论

采用集成权重和贝叶斯模型相结合的方法进行科技成果综合评价,方法的特点表现在:

1)聚类分析将多专家的动态评价转化为静态评价。从一般线性函数的评价结果出发,用拉开档次法对评价指标客观赋权,该赋权过程科学、客观、透明,可操作性强。

2)数学规划法将主、客观权重相结合,构成评价指标的集成权重,使科技奖励综合评价结果同时反映了主、客观因素,弥补了单纯采用主观赋权法或客观赋权法的不足。

一种增量贝叶斯分类模型 篇4

在信息技术时代,各种信息以几何倍数的形式增长,如何对这些信息进行整理分类成为人们所关心的问题。传统的分类也就是我们常说的非增量学习分类算法如朴素贝叶斯,神经网络等。它们有一定的局限性,因为我们需要手动标注大量的训练文本,导致大量时间的浪费。增量学习分类算法可以有效的解决这个问题,它通过在已有的知识基础上边学习边分类,同时在新增加知识库的基础上分类可提高分类的准确度。贝叶斯分类是一种可靠的分类方法。本文将贝叶斯分类和增量学习分类算法结合提出了一款增量贝叶斯模型,对理论方面进行了详细的说明还给出了实验验证。结果发现这款模型具有较高的可靠性。

2增量学习的思想

增量学习是以前训练学习结果的基础上,对新增加的样本数据进行学习。它是在没有忘记以前学习的知识连续学习过程。

将增量学习的思想运用于分类中就得到增量学习分类算法。它是将新增的样本作为增量,随着分类过程的推进,这些新增样本被逐一加到训练集这些样本杯加入到原始训练器进行训练,并用更新的训练器来预测未来实类类别,直至增量集为空。采用这种分类算法,随着训练样本的持续增加和增量学习过程的不断进行,所得分类器的分类精度会不断提高,它无需浪费存储空间,从而减少了时间,节省了存储空间。

3贝叶斯增量学习模型

这里当有新的样本加入时,当前的后验信息变成下一次更新过程中的先验信息。

4增量贝叶斯分类器算法

4.1算法设计

4.2算法描述

基于以上叙述,将算法思想整理并描述如下:

输出:分类器CIncrent-Bayes过程:

Step1:利用分类器D,学习分类器Cbayes;

Step2.1:利用现有的分类器Si,获得最大后验概率Pmax

Step3:对于反馈集用遗传算法生成最优特征子集来更新反馈集;

5实验

本次实验建立增量贝叶斯的分类模型,对搜素引擎检索的问句进行分类,从而让系统快速的查询答案类别对提升搜索引擎系统具有重要意义。

本次问句分类体系包括询问描述类、人物类、地点、数字、实体、时间,每个大类又包含一些不重复的小类,如人物包括人物列举和特定人物等等。

5.1实验过程

在训练过程中,先将已经分类好的问句类别进行问句内容的分词预处理和特征提取,将其表示成向量形式,建立最初的问句分类器在问句的分类过程中,当新问句到来时,将其向量化表示,然后根据已经建立好的分类器对该问句进行分类处理分类。具体含以下三点:

5.1.1问句样本的预处理

5.1.2问句样本的特征提取

设问句的类变量C={C1,C2...Ci},其中i=1,2,3...问句的特征提取主要选取一些能代表问句类型的特征项,常用的特征提取方法主要有文档频数,信息增益,互信息等。我们可以通过问句中的词法、句法、语义三个角度提取特征。

5.1.3利用增量贝叶斯算法实现问句分类

在问句分类过程中,不断有新的实例的加入,可以充分利用这些问句中的有价值的信息来更新分类器中的参数,实现增量式的动态学习,实现边学习先分类。

5.2实验结果

在本次试验中,我们对所设的6大类和各小类通过建立三种分类器模型即传统朴素贝叶斯分类器、改进贝叶斯分类器以及增量贝叶斯分类器。这里对增量式贝叶斯分离器还进行具体划分,根据增量集的多少分为增量贝叶斯分类器A,增量贝叶斯分类器B,增量贝叶斯分类器C。图1为各分类器分类准确率的结果。

5.3实验分析

通过以上实验看出利用增量贝叶斯建立的分类器分类效果最好且随着增量集的增加,分类精度越来越高。

6结论

随着数据化时代的到来,各种信息纷涌而至,对各类信息有效分类成为当下研究热点。传统的分类耗时长,分类效果低。本文提出了一款增量式分类模型可实现对样本学习和分类并行工作的,具有分类准确率高耗时短等特点,可靠性较高。

摘要:在大数据时代,如何对数据信息进行合理的分类管理十分重要。传统的分类是采用批量分类,不过当数据规模较大时,这种方法效果就不是那么好了。本文提出的一种增量贝叶斯分类模型,具有耗时短分类精度高,通过实验验证,可以看出分类效果显著。

关键词:大数据,批量分类,增量贝叶斯分类

参考文献

[1]郝春风,王中民.一种用于大规模文本分类的特征表示方法[J].计算机工程与技术,2007,43(15):170-172.

[2]丁厉华,张小刚.一种基于类支持度的增量贝叶斯学习算法[J].计算机工程,2008.34(22):218-222.

人力资本投资价值的贝叶斯动态模型 篇5

经济学鼻祖亚当·斯密第一个将人力资本视作资本,他在《国富论》中明确地论述了知识作为投资结果的思想,并将所有社会成员“后天获得的有用才能”作为固定资本的一部分。随后,经济学家马歇尔指出:所有资本中最有价值的是对人本身的投资,但他认为在实际分析中把人当资本是不符合市场实情的。德国历史学派经济学家李斯特将资本划分为“物资资本”和“精神资本”,其中“精神资本”指的是之前人类的一切发现、发明、改进和努力等等累积的结果,这个意义上的“精神资本”与人力资本概念已经十分相近。

1906年,费雪发表了《资本的性质与收入》,首次将人力资本概念纳入到经济分析的理论框架中,但费雪的人力资本概念一度未得到主流经济学的认可,直到1960年,西奥多·W·舒尔茨在经济学年会上发表题为“人力资本投资”的演说后,人力资本理论才逐渐被主流经济学所接纳。舒尔茨[1]把人力资本引入经济增长模型中,指出人力、人们的知识和技能是资本的一种形态,并进一步指出人力资本的形成有教育、培训、医疗保健和迁移等方式。随后,贝克尔[2]将人力资本与时间因素联系起来,认为人力资本不仅意味着才干、知识和技能,而且还意味着时间、健康和寿命,人力资本投资是用于增加人的资源影响未来的货币和消费能力的投资。

国内学者宋培林[3]将人力资本定义为与物资资本相对称,凝结在人体内并能够满足社会特定需要的知识结构、能力结构、素质结构和经验经历等的价值总和。郝卫明[4]对人力资本的概念做了比较全面的阐述,认为人力资本指由通过投资形成凝结在人身体内的知识、能力、健康等所构成,能够物化于商品和服务,增加商品和服务的效应,并以此获得收益的价值。综上所述,人力资本是基于之前的投资形成的影响现在和未来的一种综合能力体现出来的价值之和,这种价值能够增加商品和服务效应,具体包括知识、技能、素质、经验等。

2 人力资本投资价值模型

舒尔茨[1]将具有经济价值的人类能力划分为五种,分别为:学习能力,完成有意义工作的能力,进行各类文艺体育的能力、创造力和应付非均衡的能力,以此把人力资本划分相对应的五类。周坤[5]将人力资本区分为初级和高级,初级人力资本指健康人的体力、经验、生产知识和技能,高级人力资本则指人的天赋、才能和不断被发掘出来的潜能的集中体现——智慧。宋培林[3]基于企业的角度将人力资本划分为技能型、技术型、管理型和经营型人力资本四类,其中企业家属于经营型人力资本,是一种具有边际报酬递增性质的异质型人力资本。

人力资本作为资本的一种形态,是一种商品,具有商品的基本属性:使用价值和价值。人力资本不但能创造价值,而且能创造比自身更大的价值。据此,人力资本的使用价值可分为两部分:①人力资本自身的价值;②价值增值部分。根据使用价值的高低来划分人力资本类型更具有科学性,因此,本文根据使用价值的高低把人力资本分为高价值型人力资本和低价值型人力资本,由组织成员i过去的历史数据(包括业绩等)可以得出i是低价值型人力资本还是高价值型人力资本,同时,根据i的历史数据也可推断出i在未来为企业创造价值之高低,如图一。由此,人力资本可分为四种类型:①低价值低成长型人力资本,即根据组织成员i过去的历史数据得出i属于低价值型人力资本,同时推断出i在未来为企业创造高价值的概率也很低;②低价值高成长型人力资本,即根据组织成员i过去的历史数据得出i属于低价值型人力资本,但推断出i是一种成长型人才,在未来为企业创造高价值的概率很大;③高价值低成长型人力资本,即根据组织成员i过去的历史数据得出i属于高价值型人力资本,但由于缺乏某一重要的品质(例如容易跳槽或者做出损害企业利益的行为)而推断i在未来为企业创造高价值的概率很低;④高价值高成长型人力资本,即根据组织成员i过去的历史数据得出i属于高价值型人力资本,同时推断出i在未来继续为企业创造高价值的概率也很高。例如企业家型人力资本就属于这一类型,对这类人才应加大投资。

3 人力资本投资价值的贝叶斯动态模型

由于过去的历史数据是已知的,因此组织成员i是属于高价值型人力资本还是低价值型人力资本一般是确定的,但在推断i在未来为企业创造价值的高低带有主观性,也即人力资本投资价值具有不确定性,必须根据组织成员i出现的新信息重新判断[6]。基于这个思想,本文采用贝叶斯学习法则修正组织成员i的先验概率,为人力资本投资战略决策的科学性提供一种思想。贝叶斯修正是根据新的信息从先验概率得到后验概率的基本方法,它的基本思想是战略依赖于后验概率,后验概率依赖于先验概率和先行动者的行动[7]。

假设:

1)组织成员i在未来的行动有三种可能,假设为ah(h=1,2,3),其中,a1表示i在未来的行动与现在一致,a2表示i在未来的行动优于现在,a3表示i在未来的行动劣于现在。

2)低价值低成长型人力资本为类型一,表示为θ1;低价值高成长型人力资本为类型二,表示为θ2;高价值低成长型人力资本为类型三,表示为θ3;高价值高成长型人力资本,表示为θ4。组织成员i要么是类型一或类型二,要么是类型三或类型四,即P(θ1)+P(θ2)=1,P(θ3)+P(θ4)=1。且先验概率为共轭先验,即人力资本类型后验概率的分布与先验概率的分布是一致的,以保证后验概率可以得到解析式。

3)组织成员i的第一阶段的后验概率为P1(θ1)、P1(θ2)、P1(θ3)、P1(θ4),第j阶段的后验概率为Pj(θ1)、Pj(θ2)、Pj(θ3)、Pj(θ4)(j=1,2,...n)。

决策规则:①企业只对θ2、θ4类型的人力资本投资,包括对其进行再教育、培训、高薪报酬等。②只有当Pj(θ2)>Pj(θ1)或Pj(θ4)>Pj(θ3)时才对i进行投资,若Pj(θ2)≤Pj(θ1)或Pj(θ4)≤Pj(θ3),则采取等待的策略。

动态模型:假设组织成员i的人力资本类型为状态变量S=(P(θ1),P(θ2),P(θ3),P(θ4)),即为类型一、类型二、类型三、类型四的概率分别为P(θ1)、P(θ2)、P(θ3)、P(θ4)。由假设2可知组织成员i只可能有两种情况,分别为s1 0 = (P0(θ1),P0(θ2),0,0)和s2 0 = (0,0,P0(θ3),P0(θ4)),其中P0(θ1)+P0(θ2)=1,P0(θ3)+P0(θ4)=1。

给定i∈θk(k=1,2,3,4),选ah的条件概率为P(ah/θk),undefined(总有一行动会选到)则i选ah的概率是undefined,下面计算如果观测到i选择了ah,i∈θk的后验概率是多少?

∵Prob{ah,θk}=P(ah/θk)P(θk)

undefined,P(θk/ah)即为观测到i选择了ah,i∈θk的后验概率。又假设行动矩阵为A,它是一个常数矩阵,其中pkh表示i为θk类型选ah的概率,(k=1,2,3,4;h=1,2,3)是一个条件概率矩阵。

undefined

∵Prob{ah,θk}=P(ah/θk)P(θk)∴当k=1,2

i∈θk并选ah行动的联合概率矩阵为

undefined

其中,P(a1)=p11p(θ1)+p21p(θ2),P(a2)=p12p(θ1)+p22p(θ2),P(a3)=p13p(θ1)+p23p(θ2)。因此,i选择了ah,i∈θk的后验概率矩阵为

undefined

同理可证,当k=3,4时,i选择了ah,i∈θk的后验概率矩阵为

undefined

4 实例分析

综上,给定i选择了ah,i∈θk(k=1,2,3,4)的第j+1阶段的后验概率为undefined,即undefined或undefined。其中

undefined。例如,假设行动矩阵

undefined表示θ1、θ3类型的人力资本(低价值低成长型人力资本或高价值低成长型人力资本)在未来行动只可能选择与现在行动一致或者劣于现在的行动,θ2、θ4类型的人力资本(低价值高成长型人力资本或高价值高成长型人力资本)在未来行动只可能有与现在行动一致或者优于现在的行动两种情况。现实生活中,由于组织成员i行为的不确定性,p12、p23、p32、p43概率很小,这里为了计算方便,简化为0。若i为状态一s1 0 = (P0(θ1),P0(θ2),0,0)其中,P0(θ1)、P0(θ2)为组织成员i的类型的初始概率。则i的联合概率矩阵为

undefined接着可算得i选择了ah,i∈θk的后验概率矩阵为

undefined

即若i在第二阶段选择了与现在行动一致,则暂时无法判别他到底是θ1还是θ2类型的人力资本,但由undefined(1)

可知,∵P0(θ1)+P0(θ2)=1,

∴若p21>p11,则undefined, 则(1)式小于1,也即若i选择了与现在行动一致,则此时i为θ1的后验概率减小了,相对应的为θ2类型的后验概率增大了,同理可推断若p21Pj(θ1)或Pj(θ4)>Pj(θ3)时才对i进行投资,若Pj(θ2)≤Pj(θ1)或Pj(θ4)≤Pj(θ3),则采取等待的策略。同理可分析i为状态二的情况。

5 结论与展望

本文在澄清人力资本概念的基础上,根据时间和价值两个维度对人力资本进行分类,据此构建了一个动态模型,在模型中引入时间和后续行动的影响因素,由于人力资本投资价值的不确定性,提出用贝叶斯学习法则不断修正投资者的先验概率,给出了后验概率矩阵,以便科学合理的评价人力资本投资价值,并提出具体的例子进行分析验证,为企业的人力资本投资决策提供了一种思维方式以及在理论研究领域存在一定的理论价值。

由于本文只关注i行为选择的结果,即i是选择了行动一、还是行动二或行动三,再根据新出现的行为来确定后验概率,而没涉及到如何让组织成员i朝好的行动方向去选择,后来研究者可从激励等管理问题进行研究。另外,行动矩阵中的条件概率确定有两种方式,第一种是由专家知识指定,但这种仅凭专家经验指定的方法具有一定的主观性,另外一种方法就是从数据中学习这些参数的概率分布,这种方法具有很强的适应性。行动矩阵中的条件概率的合理性影响到后验概率的准确性,在现实情况中它的确定会比较复杂,同时,计算起来也很复杂,后来研究者可借助MATLAB工具进行研究。

参考文献

[1]舒尔茨.论人力资本投资[M].北京:北京经济学院出版社,1990.

[2]贝克尔.人力资本[M].北京:北京大学出版社,1987.

[3]宋培林.论企业经营者成长的微观机制:筛选、激励与约束[D].厦门:厦门大学,2002.

[4]郝卫明.企业家人力资本特性及其价值的实现[D].成都:西南交通大学,2001.

[5]周坤.论人力资本的特征及其价值实现[J].中国科技论坛,1997(3):21-24.

[6]张维迎.博弈论与信息经济学[M].上海:上海人民出版社,2006.

基于贝叶斯推理的点击模型及其实现 篇6

搜索引擎及电子商务搜索平台逐渐成为了人们获取信息的主要工具,从而搜索引擎每天都获得海量的用户点击数据。如何有效地利用用户点击数据,分析出用户的偏好信息,进而改进搜索质量,这对搜索引擎来说越来越重要。一些搜索引擎有关公司通过进行眼球跟踪实验[1]验证了文档所处位置越靠前越容易引起用户的注意,即位置偏差问题。这一偏差的存在使得搜索引擎无法从日志数据中准确解释用户行为信息。如何利用日志数据准确解释用户行为也成为近几年检索技术的研究热点。目前研究人员已经提出了多种解释用户数据的点击模型[2,3,4,5,6,7,8,9,10,11,12,13],这些模型将用户的行为分为查看行为和点击行为,但都没有考虑一个文档的查看概率是否会受当前位置之后的点击过的文档的影响。本文通过分析真实的约927万条用户点击数据,发现有1/4的用户页面点击顺序是从下到上的,那么可以自然地推测一个文档的查看概率同样会受当前位置之后的点击过的文档的影响。基于这一推测,本文提出了一种新的考虑了上下文档点击信息的点击模型,并设计了一个精确的贝叶斯推理及算法实现。通过一个海量数据实验表明该模型优于现有的点击模型。

1 贝叶斯点击模型总体框架

如图1中的粗线框中所示,本文提出的贝叶斯点击模型大致上可以分为模型的设定、贝叶斯推导、参数估计三块。其中模型的设定主要是对模型进行数学表示,贝叶斯推导是通过利用模型的设定来数学推导文档相关性的后验概率,参数估计一般有两种,一种是通过极大似然估计的方法获得,另一种是EM算法迭代求出,本文是利用极大似然估计的方法获得。贝叶斯点击模型首先依据数据分析得出模型的基本设定,接着利用贝叶斯方法推导出文档相关性的后验概率与参数和用户点击信息的关系,最后利用极大似然估计推出参数的最优值,从而实现贝叶斯点击模型的总体架构。

2 基于贝叶斯推理的点击模型

2.1 利用点击数据分析用户行为

本文首先从一个商务搜索网站收集了2011年9月的真实广告点击日志数据。本文只分析多于一次点击的那些页面。表1展示了在多次点击页面上的不同点击顺序分布情况。我们发现,从上到下的点击顺序(正序)达到66.8%,另外从下到上的点击顺序(逆序)也占到25.8%,而其他是点击顺序既不完全是顺序,也不全是逆序的情况。

如果用户以从上到下的方式查看搜索结果,并且文档的查看概率只受之前位置文档影响,那么用户点击应该只存在正序情况。但从表1中发现还存在其他的点击顺序,并且逆序点击顺序占比多大1/4。该数据结果表明,用户在点击一个文档之前,其查看的概率是受到点击过的文档的影响的,无论点击文档是在当前文档之前或者之后。基于这一结论本文提出了一种新的贝叶斯点击模型。

2.2 模型设定

在介绍模型之前,先对后续要用到的符号作一说明。在搜索引擎中,一个提交一个查询q到搜索系统中,系统返回相应的查询session。然后用户在当前session查看相应文档并且选择相关的结果点击,这一过程叫一个查询实例。假设一个给定查询有K条查询实例表示为Ik(k∈[1,K]),N条文档表示为Un(n∈[1,U])。如果一个文档在Ik中的第p位置展示,则表示成δk(p)。对于给定的查询实例Ik,本文使用Epk表示p位置的文档的查看事件,Cpk表示相应的点击事件。

如图2所示,S表示文档的相关性变量,而R则是表示所有文档的相关变量,依据符号表示S1=Rδk(i);E表示文档的查看变量,C表示文档的点击变量。加粗黑线表示贝叶斯点击模型除了考虑当前位置以上的点击信息,也考虑当前位置以下的点击信息,这是贝叶斯点击模型与现有的点击模型的主要区别所在,这也使得该模型能够更好的解释日志数据。具体来说,本文提出的点击模型假定文档的查看概率依赖于:(1) 当前位置以上的最后一次点击文档的位置ps;(2) 当前位置与ps的距离d;(3) 当前位置以下的第一个点击文档的位置rps;(4) 当前位置与rps的距离rd。比如假设有一个包含4个文档的session{D1,D2,D3,D4}已知被点击过的文档是D3,那么D1的查看概率可以表示为β0,1,3,-2 。贝叶斯点击模型可以形式化表示为:

2.3 贝叶斯推理

应用贝叶斯公式,可以得到文档相关性R的后验概率:

P(R|C1…N)∝P(R)P(C1…N|R) (5)

P(C1…N|R) (6)

其中P(R)的概率已经知道,这样计算文档的后验概率就可以通过计算P(C|R)得到。接着进一步假设不同的查询实例之间是相互独立的,从而可以只计算P(Ck|R)。基于图2中所示,可以得出当给定查看概率之后,文档之间的点击概率是相互独立的。为简单起见,假设同样是相互独立,基于如上假设及式(1)-式(4),可以得到:

Ρ(Cik|Sk)=Ρ(Cik|Eik,Sik)=Eik=01Ρ(Cik|Eik,Sik)Ρ(Eik|C1k,,Ci-1k,Ci+1k,,CΜk)=(βikSik)Cik(1-βikSik)1-Cik(7)

上式表明,用户的点击文档概率由查看概率β与文档本身相关性S共同决定。前面提到Si=Rδk(i),将其带入上式可以得到:

Ρ(Ck|R)=i=1ΜΡ(Cik|Rδk(1),,Rδk(Μ))=i=1Μ(βikSik)Cik(1-βikSik)1-Cik(8)

将此公式应用于本节开始的贝叶斯公式,就可以得出R的后验概率:

Ρ(R|C1Ν)k=1Νi=1Μ(βik|Rδk(i))Cik(1-βikRδk(i))1-Cikk=1Νi=1Μ(Rδk(i))Cik(1-βikRδk(i))1-Cik(9)

2.4 模型的参数估计

为了能够估计模型参数β,首先假设文档的相关性之间是相互独立的。基于上述P(Ck|R)的推导,可以得到:

Ρ(Ck)=RkΡ((C)k|(R)k)Ρ(Rk)dRk=i=1Μ(βi/2)Cik(1-βi/2)1-Cik(10)

然后利用似然函数,可以推导出:

L(Ck;β)=k=1Νi=1Μ(βi/2)Cik(1-βi/2)(1-Cik)=mΤ(βm/2)Νm(1-βm/2)Ν˜m(11)

其中,T表示总的参数集合,m表示(ps,d,rps,rd),Nm表示出现m点击位置组合的点击次数,Ν˜m表示出现m点击位置组合的非点击次数。通过对L取对数求导,我们可以得到β的最优值:

3 模型的算法及MapReduce实现

由式(9)所示,文档的后验概率与该文档的在各个位置的点击信息及相应的β有关,而β也与各个位置的点击信息有关,如式(12)所示,因此贝叶斯点击模型首先统计位置的点击信息,然后将这些信息应用于该模型中,具体过程见3.1节。然后,为了能够将该点击模型应用于PB级别规模的日志数据分析,本文还给出了贝叶斯点击模型MapReduce的并行实现算法。

3.1 模型的算法实现

本部分给出了贝叶斯点击模型的伪代码描述,如算法1所示,其中用到了一个辅助函数getPara(),表示获取相关信息例如当前位置和点击信息。该算法的时间复杂度是O(MN)。

3.2 模型的MapReduce实现

在Map阶段,我们分别统计一个查询session的展示和点击信息,从而形成一组以query+ad为key,相关点击信息为value的数据,然后在Reduce阶段将上述信息以公共的query+ad统计求和,见算法2、算法3。

4 实验及分析

为了能全面系统地比较本文提出的模型与已有模型的优劣,本文首先利用三个模型在训练集合中得到各个文档的相关性概率,并在测试数据上统计并利用式(12)得出β参数,从而可以预测出各个文档在测试数据上的预测点击率,然后采用对数似然来比较不同模型预测点击率的效果,从而验证模型的优劣。

为了比较贝叶斯点击模型与现有的点击模型的优劣,选择了两个典型的已有点击模型Bayesian Browsing Model(BBM)[10]和Click Chain Model(CCM)[7]作为我们的基准模型, 并开发了包含BBM和CCM的点击模型算法库。本文从一个大型的电子商务搜索平台上抓取了一个月的日志数据。用搜索的第一个页面的结果作分析。对于所有的查询,按时间戳平均地将查询实例分为训练数据和测试数据。另外为了防止高频查询的点击概率趋近的情况,还对每个查询只保留10,000个查询实例。然后得到44,767,410条训练数据和44,767,385条测试数据。具体分布情况表2所示。

对数似然常用来验证模型的效果的评价指标,其计算公式如下:

LL=Clog2(p)+(1-C)log2(1-p)

其中C表示测试数据上给定文档的点击与否的0/1值,p是该文档在训练数据的预测值。因为p是(0,1)之间的概率值,所以,对数似然是取值范围是(-1,0),并且越接近0,表示预测效果越好。对于每个查询,分别用三种模型来计算文档的相关性和位置参数。在实验中,对于需要人工设定的参数都依据BBM和CCM论文中的建议来进行。

结果如图3所示,其中横坐标表示不同的查询频率,纵坐标表示对数似然值。该图表示在不同的查询频率的query上,贝叶斯点击模型与其他两个模型的效果对比。从图上可以看出,贝叶斯点击模型在任何频率的query中的预测效果都优于BBM和CCM。其整体预测效果与BBM相比提高了17.382%,与CCM相比提高了19.124%。

5 结 语

本文首先通过真实的海量数据发现用户的点击是受上下位置的点击过的文档共同影响的。然后基于该现象分析结论,提出了一种新的用户分析用户行为的点击模型。在此基础之上,对该模型做了准确的贝叶斯推导,接着给出了该模型的算法实现及Map-Reduce实现。最后基于开发的算法库使用电子商务平台的点击数据对该模型与现有模型对比发现,该模型明显优于现有模型,从而应用本模型算法可以更准确地分析海量的用户点击数据,为后续的机器学习算法提供数据支持。

摘要:为能更好地解释搜索引擎和商务搜索的点击日志中的用户行为,实现一种用于分析日志中包含的用户行为的贝叶斯点击模型。通过分析中国最大电子商务网站的约927万条用户搜索点击日志数据,发现一个的文档的点击是受其上下位置点击过的文档共同影响的,然后基于此发现提出并实现一种新的基于贝叶斯推理的点击模型,并给出并行版本的算法实现。最后通过利用来自用户搜索的一个月日志数据验证,结果表明该模型优于现有的点击模型。

贝叶斯结构模型 篇7

信用风险遍及所有的金融交易, 包括从信用等级的下降到无力偿还债务到最后清算等一系列事件, 是金融机构面临的最主要的风险之一。随着巴塞尔协议的逐步实施, 评估信用风险并对贷款定价, 以有效度量信用风险, 加强风险管理, 是当前国内外研究的焦点。

传统贷款定价模型多数以Black-Scholes (1973) 期权定价模型及Merton (1974) 拓展的风险债券定价模型为基础, 主要有结构模型和强度模型之分。结构模型给出公司资产价值变动的基本假设, 当公司资不抵债时发生违约;强度模型将公司的违约现象视为服从Poisson过程的随机事件, 通过特征参数强度描述违约事件发生的可能性。结构模型假设公司价值遵循随机微分方程, 服从几何布朗运动, 这是最早对公司债券定价的模型, 为信用衍生品定价模型的发展奠定了基础。在实际应用中, 单期静态形式及违约独立假设使得商业银行难以准确定价并估算贷款收益率 (Philosophov, 2009) 。本文基于贝叶斯方法构建的贷款定价模型, 相比传统模型具有较强的适应性和灵活性, 模型构建中既可以包括公司资产价值的变动也可以包括违约强度变量, 以期更加准确地描述信用风险并进行贷款定价。

二、贷款定价模型

贷款定价依赖于未来现金流的净现值, 如果存在风险, 则NPV是随机的, 进而根据NPV的期望均值设定贷款价格, 特殊情况下, 如果风险为0, 则就是通常使用的定价折现模型。假设银行在时间t0借出款项为U, 在M年后收回贷款, 借款人每年支付的利率为rb, 到期日tm是支付贷款面值U。如果贷款为无风险, 则净现值的计算公式为:

其中:rf表示无风险利率, 常用市场利率代替, 如果贷款利率rb=rf, 则V=U。而实际上, 银行发放的贷款受借款人违约概率的影响, 可能在贷款期间任何随机时间点tD发生。令PD (T1) 表示违约发生在区间{t0, t1}上, PD (T2) 表示违约发生在区间{t1, t2}上, 以此类推, PD (TM) 表示违约发生在区间{t M-1, tM}上, 而PD (TM+) 表示发生在贷款到期后。每个区间的长度依据贷款规定, 可能为一年或半年等。另外可以知道PD (T1) +PD (T2) +…+PD (TM) +PD (TM+) =1。

下面根据违约回收率的不同, 分别研究贷款的定价。

1. 违约回收率为0的定价。

首先考虑无回收率的情况。根据模型 (1) 可知:

P{V=V1=0}=PD (T1) 表示V=V1=0的概率为PD (T1) , 同理。而常用的形式为:

将模型 (2) 拓展就可以表示贷款价值的概率分布, 这是离散形式, 相应的连续时间模型可表示为:

其中:δ (·) 为符号函数, 可以看做方差极小 (几乎为0) 的正态概率密度函数, δ (V-Vm) 的分布集中于V=Vm附近。相应的累积分布函数为:

其中:I (·) 为示性函数, 当V-Vm<0, I (V-Vm) =0, 反之I (V-Vm) =1。依据模型 (3) 和 (4) 可以很容易地计算出贷款的期望价值为:

2. 违约回收率为常数的定价。

假设公司违约后, 银行可以回收贷款的一定比例为β, 则每期的贷款随机价值将变为:

V'm=Vm+β (VM+-Vm) =VM+β+Vm (1-β) , 将其代入模型 (3) 可得:

贷款价值的条件均值为:

3. 违约回收率为随机变量的定价。

如果违约回收率β为一随机变量, 则通过模型 (6) 求贷款期望均值的公式为:P (V) =∫P (V|β) Pr (β) dβ, 其中Pr (β) 为概率密度函数, 一般假设服从贝塔分布。进而贷款价值的非条件概率密度可表示为:

对应的累积分布函数为:

其中:B (·) 表示违约回收率β的累计分布, 可见累计分布函数为包含离散变量和连续变量的混合形式。

一般来说, 当rb=rf时, 除了VM+之外, 所有的Vm均小于净现值, 进而所有时间段的Vm的均值也会小于无风险贷款的净现值。

三、贷款收益率的计算

金融理论中风险溢价表示为δrb=rb-rf, 它不依赖于贷款评级, 仅根据相同到期日和风险的收益率进行经验分析得出。本文使用公平利率概念, 即对相同期限结构的风险贷款净现值与无风险贷款净现值的差, 在贷款发放时两者相等。从而公平利率rb*可依据下面方程求解:

其中Vm和VM+由模型 (2) 决定, 并依赖于rb=r*b, 即

现考虑处于任何时间段Tj= (tj-1, tj) 的贷款定价。这里NPV仍然是随机变量, 但是可能值的数量有所下降, 原因在于已有部分利率支付完成。

模型 (6) 、 (7) 、 (8) 也可以分别针对时间tj重新构建。研究贷款在特定时间的价值有助于以收益率进一步分析影响其价格的因素。而影响价差的因素可以使用至少一个因素的模型构建。下面给出公平价格和公平收益率的概念。

公平价格V*即为NPV均值, 而到期收益率Y由下式决定:

其中:V (mr) 为在时间t贷款的市场价值, rb (j) 、Y (j) 是在时间段重新计算的利率和收益率。对于风险贷款, 模型 (11) 意味着贷款至到期日获得的高于无风险利率的收益率是用来补偿违约可能的。

在未来任何时间段可能发生的违约事件使得贷款价值Vm (t) 表现出随机性, 且收益率也为随机变量。收益率的可能值由V (mr) =Vm (t) (Y) 决定, 将rf替换为Y, 显然最小收益率为-100%, 也就是全部贷款损失, 公司在没有支付任何利率且无贷款回收的情况下发生。

为了从理论上解释市场观测到的到期收益率, 可以直接推断公平收益率, 最简明的方法是假定公平收益率应位于无风险收益率的附近, 进一步根据经济理论将所有负的收益率等同于0, 从而:

该式简单明晰地说明收益率的计算方法, 同时由于风险收益率在一定程度上应大于无风险收益率, 其概率应为1-PD (t) (TM+) , 相反小于无风险利率的可能即为违约概率PD (t) (TM+) 。

四、结语

本文构建的贷款模型依据贷款现金流的期望现值估计贷款定价, 同时结合每期违约概率变量, 从而对价值、利率及收益率的预测更为精确, 且不必做出复杂的假设。它可以同时考虑同一个公司的无息和付息贷款, 联系实际引发违约的原因和征兆, 而不必预先设定后验违约概率测定模型或解释变量的动态变化。在默顿模型及巴塞尔协议中提倡使用的违约概率实际为贷款发放第一年内的概率, 而本文使用的是随时间不断变化的PD (Ti) 。一般来说, 不同等级的债券在第一年中违约概率的差异比较明显, 到期前的平均违约概率差异却很微小。等级较高的贷款或债券计算出来的违约概率往往不够准确, 原因是这类贷款的价差很低, 容易受误差或噪音的影响。

我国商业银行应继续加强客户信用的评估, 实施科学的贷款成本分析, 强化信贷资金跟踪监测机制、充分利用信息技术的发展成果, 合理地进行各种贷款风险的识别及增强客户关系管理功能, 这样才能有效地维持现有的贷款绩效。同时, 我国商业银行还需要深入实施市场细分战略, 科学地选择与银行运营环境相适应的贷款方式, 准确地判断国家宏观信贷政策的导向, 才能使现有的贷款绩效获得大幅度的提高。

参考文献

[1].程建, 连玉君, 刘奋军.信用风险模型的贝叶斯改进研究.国际金融研究, 2009;1

基于贝叶斯的多维数据分类模型 篇8

关键词:数据分类模型,关联性,贝叶斯

1 引言

随着我国城镇化水平不断提高, 燃气管道接入千家万户。随着用户逐步增长, 传统的燃气计费及用户管理方式需要消耗大量的人力物力, 已经无法满足现有状况的需求。信息技术的发展为燃气计费及用户管理提供了有效的解决方案。通过构建一个基于B/S分布式的燃气计费及用户管理系统能够提高燃气企业业务管理效率[1]。

然而, 随着用户数量以几何级数的方式增长, 燃气企业所收集到的海量用户信息及业务数据信息离散的分布在系统数据库中。传统的数据查询方法仅利用用户的查询请求从海量数据中提取信息, 不仅增加了查询匹配复杂度, 而且消耗大量的系统资源[2][3][4]。面对复杂的用户查询请求, 系统无法有效地分析用户请求信息, 以至于返回的低相关度结果不能满足用户需求[5][6]。此外, 企业的发展离不开业务统计信息, 数据以静态方式存储, 系统忽略了数据之间的关联性, 使得海量一维数据无法满足企业需求, 进而导致不能为企业决策提供支持。

本文设计了一个基于贝叶斯的多维数据分类模型, 利用数据之间的相关度, 将数据进行分类, 根据不同的数据查询维度, 将数据进行多维度组织。经过仿真实验, 该模型能够提高数据查询效率。

2 多维数据分类模型

在数据库中, 用户数据的存储方式依赖于关系数据库的结构化存储模型, 即。其中user表示一个用户信息的存储结构;ID为系统为该用户分配的ID号, ID作为主键通常用来唯一标识用户的信息;name作为结构化信息中的一个特征项被用来表示用户的名字;address代表用户的居住地址;cost, 表示用户的消费情况。

传统的分类方法通常采用一维的方式对数据进行分类。例如, 根据用户所在区域、用户消费状况、用户信誉度或用户入库时间等特征项进行分类。这种简单的分类方法无法满足用户多维的查询及统计需要。在数据分类之前, 需要定义一个分类维度库, 即D= (d1, d2, ..., dn) 。通过分层的方法将每个分类维度通过分类维度来表述, 也就是说, 将现有的分类维度进行抽象, 生成顶层分类维度集合, 若新生成的分类维度隶属于其中的某个, 则将其隶属于该分类维度下, 成为其子节点。从以上过程看出, 该分类模型是个不断学习变换的模型, 可通过树形结构进行表示。子类的创建需要通过评价函数来给出, 这里我们选用贝叶斯分类方法, 当一个新类别创建后, 将其与顶层类别进行匹配, 若属于其中某一类的概率较大, 则归属于该类别。当某一新类别隶属di或di的子孙后, 那么该类别可以被视为di或di子孙的一个特征, 即该新类别与其他类别可以表示di或di的子孙。那么一个类别可以表示为di= (unode, dnode, f) , 其中unode为该di的父类别, dnode为该di的子类别集合, f为di的特征。

贝叶斯分类模型是一个利用先验知识来构建分类树的模型。每个类别均有特征对其进行描述, 也就是f在创建该类别时需要进行初始化。本文采用基于训练模型的分类构建算法。首先定义分类特征F= (f1, f2, ..., fm) , F为当前所有分类D的特征集合, 一个分类di可以由一个或几个特征f来表示。设FB= (fb1, fb2, ..., fbk) 为特征训练库, 根据特征fi从文本或其他信息选择具有该特征较为明显的信息进行分解, 将含有或表示该特征的分解信息存储至FB中, 这些信息即可表示一个fbi, 也就是说, fbi中存储着表示该特征的离散的信息, 若某一数据需要进行分类识别, 那么可从该信息中提取若干特征与特征信息进行匹配, 首先获取该数据的特征, 再将其特征与fbi进行匹配, 以判断其是否属于该fbi, 再根据fbi所隶属的fi, 从而确定该数据隶属于某一类别di。当判断该数据属于某一顶层类别后, 还需进一步进行细化, 以判断该数据是否属于其子类, 若通过特征匹配后属于某一子类, 则循环此过程, 直到将该数据判定属于分类树中的叶子节点。反之, 若在分类判别过程中出现无法确定该数据分类后, 则可进行评估, 并判定是否生成一个新的类别。因此, 数据的分类判别过程也是分类树的一个不断学习进化的过程。在数据库中的任一数据均可能具有多个类别, 通过确定某一分类, 即可获得该类别下的数据, 分类过程如图2所示。

计算分类隶属度可通过贝叶斯分类模型来计算其隶属度的大小, 根据评估结果进行排序, 可分别列出所属分类。贝叶斯分类模型还可以被用来计算特征隶属度, 根据隶属度大小将特征进行排序。在特征计算过程中, 数据包含多个特征, 但由于用户分类查询的意图对查询特征具有较大影响, 因此, 需要在计算隶属度的过程中加入一个判定阈值来消除某些相关度低特征的影响, 还需要引入一个特征识别的机制, 即一旦认定该信息属于某个特征, 且该特征较为重要, 则该信息即使可被视为噪声也要作为一个特征信息, 也就是说, 可根据先验知识将某些重要的特征信息或标志性信息分配较高的权重, 在计算特征隶属度或分类隶属度的过程中, 将其作为重要信息而保留。

3 实验结果及分析

在仿真实验中, 数据库中存储的数据量为5000。通过运行分类算法, 数据库中的信息被划分为46个类别。本文与传统未分类查询算法进行比较, 并分别进行了1000次查询。图3表示查询时间对比结果, 图4表示查询相关度对比结果。

如图3所示, 随着请求数量的不断增加, 未分类查询算法始终拥有较高的查询响应时间, 基于贝叶斯分类的查询算法则保持较低的查询时间。对于两种算法之间存在的性能差异而言, 当一个查询进入到系统中, 对于未分类查询算法而言, 它需要从整个数据库中查询所需的信息, 因此, 它的查询空间较大。基于贝叶斯分类查询算法能够精确将数据内容分类, 通过确定所查询数据的特征, 能够将查询请求定位到某一类别, 根据查询数据特征不断的缩小分类粒度, 则可精确地定位所查询的数据, 从而降低了查询空间规模, 因此查询响应时间维持在较低的水平。

如图4所示, 基于贝叶斯分类的查询算法根据数据之间特征的关联性, 将数据进行分类, 当用户输入查询信息时, 快速精确地定位到分类节点上。因此, 本文提出的算法能够获得较高的信息检索结果相关度, 即所检索的相似信息集合中的信息被采纳的程度较高。从而验证了本文提出模型的有效性。

5 结语

本文提出了一个基于贝叶斯的多维数据分类模型, 利用数据之间的关联性, 构建一个自学习自调节的分类树, 降低了查询空间规模, 能够精确地将查询请求定位到所需的查询数据分类上, 使得用户所获得的查询结果与查询请求具有高度的相关性。

参考文献

[1]李锴, IC卡燃气表预付费系统的研究[J].山西电子技术.2006, 3:86-88.

[2]闭乐鹏, 徐伟, 宋瀚涛, 基于一类SVM的贝叶斯分类算法[J].北京理工大学学报.2006, 26 (2) :143-146.

[3]孙天昊, 陈飞, 朱庆生, 曹峰, 基于贝叶斯分类的增强学习协商策略[J].计算机科学.2011, 38 (9) :227-229.

[4]彭兴媛, 刘琼荪, 不同类变量下属性聚类的朴素贝叶斯分类算法[J].计算机应用.2011, 31 (11) :3072-3074.

[5]曹玲玲, 潘建寿, 基于Fisher判别分析的贝叶斯分类器[J].计算机工程.2011, 37 (10) :162-164.

贝叶斯结构模型 篇9

1 贝叶斯网络的描述

贝叶斯网络也被称为信念网络或者因果网络, 是描述数据变量之间依赖关系的一种图形模式。一个贝叶斯网络主要由两部分构成, 即贝叶斯网络结构和网络参数。

1.1 贝叶斯网络结构

贝叶斯网络结构即就是一个有向无环图 (DAG) , 由一个结点集合和一个有向边集合组成。结点集合的每个结点代表一个随机变量。有向边表示变量之间的依赖或因果关系, 结点之间若无连接边表示结点所对应的变量之间是条件独立的。

1.2 网络参数

贝叶斯网络的另一部分是反映变量之间关联性的局部概率分布集即网络参数 (概率参数) , 通常称之为条件概率表 (CPT) , 结点间的依赖关系是通过条件概率表 (CPT) 来量化的。

2 网络模型的构建

2.1 构建贝叶斯网络

首先, 按照贝叶斯方法, 定义一个离散变量表示我们对于网络结构的不确定性, 其状态对应于可能的网络结构假设Sh, 并赋予先验概率分布P (Sh) 。给定随机样本D, 然后计算后验概率分布P (Sh|D) 。

根据贝叶斯定理有:

结构学习就是选择使P (Sh|D) 最大的网络结构, P (D) 对结构学习没有影响, P (Sh) 称为先验结构概率, P (D|Sh) 称为边界似然。确定网络结构的后验分布只需要为每一个可能的结构计算数据的边界似然。在无约束多项分布, 参数独立, 采用Dirichlet先验分布和数据完整的前提下, 数据的边界似然正好等于每一个i-j对的边界似然的乘积。

其中:>0为Dirichlet分布的指系数 (或超级参数) ;Nij是当Xi=xik且Pai=Paij时D中的案例数, 且ri表示变量Xi有ri个可能值, 且

在加入先验知识ξ之后, 公式 (1) 变为:

其中, P (D|ξ) 是一个与结构无关的正规化常数, 因此我们只需考虑

为了完成网络结构的选择, 需要确定候选网络结构的先验概率P (Sh|ξ) 。本文采用对不同的网络结构赋予不同的先验结构概率, 常用的方法是

其中c是正规常数, 常可以忽略;k是网络公式的惩罚因子, 0

接下来讨论P (D, Sh|ξ) 的计算。这里介绍一种贪婪搜索方法:从一个没有连接的、各变量独立的空网络开始, 逐步为每一个变量添加上父结点, 这样添加的结果应该使后验结构概率增大, 当此概率趋于稳定时, 搜索结束。

由于这个思想是为每一个变量寻找父结点, 因此我们定义下式:

联系我们前面关于数据边界似然的讨论, 于是, 贝叶斯网络结构学习的基本公式便变为:

我们采用这一思想和K2算法来搜索最优网络, 通过上述方法可以得到一个贝叶斯的网络拓扑结构, 从而我们对其参数进行学习。

2.2 贝叶斯网络的局部概率学习

贝叶斯网络的局部概率学习, 又称为贝叶斯网络的参数学习。在贝叶斯参数学习中, 先验知识包括局部概率的先验分布的选取和分布参数的选取。

Raiffa和Schaifeer提出先验分布应选取共扼分布, 即要求后验分布与先验分布属于同一分布类型。本文采用的Dirichlet分布也是共轭分布。

对于一个来自随机样本的数据集, 我们根据局部分布函数快捷地计算出后验分布, 然后再估计先验参数aijk, 根据Dirichiet分布的性质, 后验概率可如下计算:

在完成了贝叶斯网络的模型和参数学习之后, 就得到了一个完整的贝叶斯网络。利用这个贝叶斯网络, 我们可以进行分类或预测。

3 基于Adventure Works Cycles公司实证研究

本文进行客户分类分析的数据来源于网络收集到得Adventure Works Cycles的公司数据, 我们选取Adventure Works Cycles公司与个人客户有关的数据进行分析。

3.1 贝叶斯网络的学习

我们通过对源数据的分析、数据预处理, 然后结合经验, 从原数据中选出可能与类标号相关的属性组。其结果下表:

然后, 我们利用前面介绍的贝叶斯网络构造方法, 再结合先验专家知识, 计算得到两种贝叶斯网络结构S1和S2待进一步筛选, 如图1和图2。

S1和S2惟一区别是, 婚姻状况是否对客户的年收入产生影响。

由式 (6) 可知, g (i, (47) i) 的计算, 只与Nijk’有关, 而各个g (i, (47) i) 的计算是独立的, 可以对整个网络结构进行计算, 并且选择出使g (i, (47) i) 最大的结构。然而在贝叶斯网络的实际计算中, 所面临的主要困难是对Nijk’的估计。由于估计式是非线性的, 在计算上有很大的困难。在文献[3]、[4]中, G.Cooper和E.Herskovits提出用Nijk’=1来估计时, 对网络的计算结果影响不大。在本文的实例中, 把Nijk’=1带入式 (6) 分别对上述两个网络进行计算, 并由公式3、4、7推得:

利用先前我们给出的Adventure Works Cycles公司的客户信息统计数据对网络结构进行训练, 最后计算得到:

由此, 我们可以看出, 网络结构S1是合适的网络结构, 更能够反应出变量之间的因果关系, 同时, 我们可以看到贝叶斯网络有很好的敏感性。

3.2 CPT的计算

经过数据的预处理, 训练数据库的属性包含了全部的变量, 并且每个元组的全部属性值都存在。我们结合所介绍的参数学习方法, 利用样本统计法对S1的CPT进行学习。计算变量在网络结构S1中的后验概率, 公式修改为:

通过计算我们可得到各节点的条件概率。

通过网络结构S1我们可以看出是否购买自行车 (Bike Buyers) 与年收入 (Yearly Income) 、是否用于汽车 (Cars Owned Flag) 、拥用孩子的总数 (Total Children) 及上班路程 (Commute Distance) 有直接关系。

3.3 实验结果分析

我们从Adventure Works Cycles数据库中得到有效信息18484。采用10-折分层交叉确认方法对模型进行评估, 首先分析初始数据的类分布。从样本数据中, 我们统计的结果是:购买自行车的客户记录数/没够买自行车的客户记录数=9132/9352≈0.98。然后我们把此样本为10个大小基本相等且互不相交S1, S2, …, S10, 其中每个子集的类分布与初始数据类分布大致相同, 即每个子集中购买自行车的客户记录数/没购买自行车的客户记录数≈0.98。测试结果见下表:

所以正确率= (7721+7993) /18484=0.8501。从实验结果来看, 我们应用贝叶斯网络建立的客户分类模型的准确是令人满意的。

我们同样用10-折分层交叉确认方法, 采用同样的数据分别对运用朴素贝叶斯、决策树 (C4.5) 和关联规则算法建立的分类模型的准确性进行测评, 测评结果如下:

综合上述, 贝叶斯网络分类的准确性要优于朴素贝叶斯的分类和C4.5的分类, 在数据量大的时候更加明显。总体看来, 贝叶斯网络在客户分类方面有很大的优势。

摘要:本文提出了基于贝叶斯网络的客户分类方法, 针对企业的历史客户数据进行分析来构造贝叶斯网络, 进行网络结构的学习, 建立有效的客户分类模型, 并结合Adventure Works Cycles公司客户数据, 采用10-折分层交叉确认方法对模型分类的正确性进行了验证, 得出贝叶斯网络分类方法较其他的分类方法有很大的优势。

关键词:贝叶斯网络,客户分类,参数学习

参考文献

[1]Neil M, Fenton N, Forey S, et al, Using Bayesian belief networks to predict the reliability of military vehicles.Computing and Control Engineering Journal, Vol.12, Jan, 2001.

[2]王辉.用于预测的贝叶斯网络[J].东北师大学报自然科学版, 2002.

[3]Heckman D, Geiger D, Chickering D, Learning Bayesiannetworks:the combination of knowledge and statisticaldata.Machine Learning, Vol.20, Mar, 1995.

注:本文为网友上传,旨在传播知识,不代表本站观点,与本站立场无关。若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:66553826@qq.com

上一篇:结构解析模型 下一篇:分层结构模型