主成分分析技术

关键词: 农村

主成分分析技术(精选十篇)

主成分分析技术 篇1

社会主义新农村建设是我国现代化进程中的重大历史任务,是中央统揽全局、着眼长远、与时俱进做出的重大决策,新农村建设“不仅要改变村貌、提高农民居住条件、更应该注意提高农民的素质”[1],使之不停地跟上信息时代的发展步伐。近些年来,我国农村整体水平的提升以及我们对几个不同地区农村的实地调研表明,我国农村现代信息技术的应用已经取得了长足的进展。多年的中央一号文件明确指出,要强化现代农业物质支撑和服务体系[2],其中包括加快农业科技创新步伐、加快推进农业机械化等内容,这为现代信息技术在农村的发展提供了广阔的舞台。

总结农村地区经济水平比较高的一些发达国家的经验可知,现代信息技术在该领域发挥了不可替代的作用[3]。为了更好地梳理我国农村信息技术应用的整体进程以及区域分布,有必要对国家和区域农村现代信息技术应用水平做出客观评价与分析。刘世洪研究员提出了我国农村信息化测度指标体系的建立原则[4],对我国农村现代信息技术应用指标体系的建立具有很强的指导意义,参考此原则以及对农村现代信息技术应用的研究与理解,针对多年来不大一致的统计类别,有些数据因太少,本身就未连续开始统计或前几年就不再统计的情况,确定使用如下4类1项的指标体系来作不同时期我国农村信息化阶段分析,评价农村现代信息技术的应用水平,主要内容如表1。

文章收集相关数据并分析整理了1995—2009年我国宏观以及区域的农村现代信息技术应用状况,从评价农村居民(简称为农民)家庭应用现代信息技术水平的指标评价体系入手,通过应用主成分聚类分析,得出我国农村整体应用现代信息技术的阶段性划分和地域特征及原因,希望能对我国农村现代信息技术应用的整体推进和区域农村均衡发展提供参考。

1 农民应用现代信息技术数据的主成分聚类分析

按分界线年份(1995,2004,2007和2009年)时间阶段顺序,对全国31个省、直辖市、自治区的农村农民家庭应用现代信息技术的状况进行主成分聚类分析,对表1中各指标项进行主成分分析,提炼出具有代表性的主成分解释所有指标项,并计算出各个区域农民家庭应用现代信息技术的最终得分,进而利用层次聚类方法进行聚类分析,绘出谱系图,得出我国农民现代信息技术的应用在地域方面的变化特征。(为了使各年的数据统一且更加贴近该年的实际情况,在收集数据时对不同年份的指标项做了一些微小修改。)

对表1中的指标项,本文用软件包SPSS13.0对这些指标的统计数据进行测算(样本数共30×9=270个)。由于各类指标的量纲和测度量级不同,如果直接使用原始指标,会使主成分过分偏重于具有较大方差或数量级的指标。为了消除量纲和测度量级带来的影响,对原始指标进行Z score标准化处理,并进行主成分分析(限于篇幅,不再叙述详细过程)。

(1)利用软件包SPSS的描述性统计分析过程将原始数据标准化,保存为新的变量。

(2)求解主成分的特征根和方差贡献率,提取主成分个数由特征根值大于1来控制。如对2009年统计结果表明,可以提取出三个主成分,其方差贡献率达到了81.684%。其中第一主成分的特征根值为6.355,方差贡献率为57.775%;第二主成分的特征根值为1.483,方差贡献率为13.485%;第三主成分的特征根值为1.147,方差贡献率为10.424。

(3)为了方便解释,将因子载荷矩阵进行正交旋转,分析主成分的含义。

可以看出:农村居民家庭人均纯收入、农村居民家庭交通和通讯支出构成、固定电话、移动电话、彩色电视机、照相机、家用计算机、农村劳动力文化状况在第一主成分上有较大的载荷;财政支农数额和农村居民家庭文教娱乐用品及服务支出构成在第二主成分上有较大的载荷;农村居民家庭设备及服务支出构成在第三主成分上有较大载荷。在2009年,农村居民家庭已经较为富裕,其交通通讯以及电话电视、相机电脑,劳动力文化状况都与农村居民家庭的人均纯收入有很大关系,故第一主成分可以表示为“农村微观投资能力因子”,第二主成分可以表示为“农村宏观投资规模因子”,第三主成分可以表示为“农村微观可控投资因子”。

(5)计算各省或直辖市的得分,并按照得分排序,结果如表2所示。

注:各得分值实际计算的有效数字为小数点后9位,考虑简洁和实际应用意义,本表只保留小数点后3位的有效数字。

2 我国农民应用现代信息技术的主成分聚类结果及其分析

经主成分分析之后计算出的各个省区域得分,反映了该区域农民家庭应用现代信息技术的水平,得分越高,相应的应用水平就越高。选择层次聚类分析(Hierarchical Cluster Analysis)中的聚类方法,样本间距离的计算采用均方欧氏距离(Squared Euclidean Distance)方法,根据得分使用SPSS对各个区域进行聚类,得到1995,2004,2007及2009年各个省、直辖市、自治区在地域上按4个区域聚类结果(见表3,限于篇幅,聚类的结果图省略)。

2.1 1995年数据的主成分聚类结果分析

对1995年的数据进行主成分聚类分析的结果显示:农民家庭人均纯收入、家庭设备及服务支出构成、交通和通讯支出构成、彩色电视机、收录机、照相机、农村劳动力文化状况在第一主成分上有较大的载荷;财政支农数额、农村居民家庭文教娱乐用品及服务支出构成、黑白电视机在第二主成分上有较大的载荷;收音机在第三主成分上有较大载荷。因为在1995年,农民家庭依经济条件会选择性地拥有彩色电视机、收音机、收录机和照相机,但黑白电视机在农民家庭的普及率就很高,故第一主成分可以表示为“农村家庭微观可调整的投资规模因子”,第二主成分可以表示为“农村宏观投入规模因子”,第三主成分可以表示为“农村家庭一般投入因子”。

由1995年的聚类结果可以看出(表3),1995年我国31个省和直辖市在地域上划分为4个区域的情况:区域1、2位于我国东部沿海,其中北京和上海作为我国最为发达的城市,得分明显高于其他地区,广东作为东南沿海的省份,发展速度较其他省份要快,其得分明显高于其他地区;区域4的宁夏、甘肃、西藏、贵州都位于我国的西部,其农民家庭应用现代信息技术的水平处于全国最底层;其余23个省区位于区域。对其它年份可以作类似分析。

2.2 2004年数据的主成分聚类分析

2004年数据经主成分分析表明,农民家庭人均纯收入、交通和通讯支出构成、文教娱乐用品及服务支出构成、固定电话、彩色电视机、照相机、农村劳动力文化状况在第一主成分上有较大的载荷;第一主成分可以表示为“农村家庭微观可调整的投资规模因子”。此外黑白电视机、电话状况在第二主成分上有较大的载荷,因为在2004年时,收录机在农村家庭已经更为普遍,黑白电视机已呈淡出趋势,教育在农村家庭越来越受重视,教育支出已是农村家庭必要而且重要的支出项之一,故第二主成分可以表示为“农民家庭必要的投入规模因子”,农村居民家庭设备及服务支出构成在第三主成分上有较大载荷,故第三主成分可以表示为“农村家庭混合调控投入因子”。

从表3的得分可以看出,北京和上海的发展速度明显要快于其他省市,天津和浙江位于区域2,天津自2000年起发展速度增快,从1995年的区域3晋级到区域2,其他省区的位置基本保持不变。

2.3 2007年数据的主成分聚类分析

到2007年时,农民家庭中现代信息技术相关的消费品较2004年及以前有了较大的变化,黑白电视机、收录机和录放像机已经淡出农民家庭,而和现代信息技术联系更为紧密的移动电话机和家用计算机正逐渐进入。因此,2007年的统计指标用移动电话机和家用计算机代替黑白电视机、收录机和录放像机。

主成分分析的结果表明,农民家庭人均纯收入、财政支农数额、交通和通讯支出构成、固定电话、移动电话、彩色电视机、照相机、家用计算机、农村家庭劳动力文化水平在第一主成分上有较大的载荷,第一主成分可以表示为“农村宏微观投资规模因子”。此外,农村居民家庭设备及服务支出构成在第二主成分上有较大的载荷,第二主成分可以表示为“农民家庭设备购置因子”。

2007年,上海的农民家庭应用现代信息技术水平超过了北京,浙江和江苏两地发展速度要快于天津,名列第3和第4,东部其他省区发展较为均衡,中部省区也趋于均衡状态,但是新疆、云南、贵州和西藏四个西部省区与其他省区的差距更大了。而且上海与西藏的分差超过了10分。

2.4 2009年数据的主成分聚类分析

农村居民家庭人均纯收入、交通和通讯支出构成、固定电话、移动电话、彩色电视机、照相机、家用计算机、农村劳动力文化状况在第一主成分上有较大的载荷;财政支农数额和农村居民家庭文教娱乐用品及服务支出构成在第二主成分上有较大的载荷;农村居民家庭设备及服务支出构成在第三主成分上有较大载荷。2009年,农村居民家庭已经较为富裕,其交通通讯以及电话电视、相机电脑,劳动力文化状况都与家庭的人均纯收入有很大关系,故第一主成分可以表示为“农村微观投资能力因子”,第二主成分可以表示为“农村宏观投资规模因子”,第三主成分可以表示为“农村微观可控投资因子”。

由表3可知,在2009年北京、上海位于第一梯队(即区域1),仍然处于领先地位,浙江位列北京和上海之后的第二梯队,仅西藏位于区域4,与其他地区的差距越来越大,这应引起相关部门的极大关注,政府在制定相关政策和进行资金分配时,都应把缩小东中西部数字鸿沟作为主要目标,相信不久的将来,我国定可以消除东中西部农村家庭应用现代信息技术的数字鸿沟。

3 各阶段农民应用现代信息技术地域特征的成因分析

从以上4年的聚类结果看出,我国农民家庭应用现代信息技术的地域特征与各区域的地理位置、经济发展水平以及相应的国家政策有很大关系。

3.1 地理位置和经济因素

1995,2004,2007和2009年农民家庭应用现代信息技术的水平位于前列的省市为北京、上海、天津和浙江等,属于我国东部沿海经济区。2007年以后,浙江、广东等东南沿海省区发展迅速,逐步超越天津,成为农民家庭应用现代信息技术最具发展潜力的省区。2007年分析结果与之前年份有很大不同,从聚类结果来看,2007年我国农民家庭应用现代信息技术的区域划分更加具有合理性。我国东南沿海的江苏、广东、福建、北部沿海的辽宁以及东部沿海的山东都缩小了与天津和浙江的差距,加入了区域2的队列,东北黑吉辽三省与东部及东南沿海省区的差距也明显减小,中部省区如山西、湖北、安徽、河南、江西等发展趋于均衡,而且与东部省区的差距有所减小,西部省区如宁夏、广西、甘肃、四川、青海等发展速度持平,但是贵州仍然处于低水平状态,而且新疆和西藏的发展明显落后于其他省区。

从2009年各省区聚类情况来看,首先浙江发展迅猛,继续保持位于第二梯队。浙江省农业厅的副厅长赵兴泉如此表示,浙江人民富是农民率先富。2009年浙江农村恩格尔系数为35.74%,浙江省农民已跨入富裕阶段;当年浙江农民人均纯收入达到10007.31元,紧随北京、上海之后,位居中国第三。农村经济的发展以及农民收入的增加,使得农民视野较之以前更加开阔,信息意识空前强烈,以农民作为驱动主体的农村信息技术应用水平自然就水涨船高。其次东中西部省区农村信息技术应用水平两极分化形势有所缓解,这与我国呼吁消除东中西部数字鸿沟的努力是密不可分的。但是某些省区的发展仍然比较落后。

为了配合区域协调发展的战略,“十一五”规划将我国区域划分为四大板块和八大经济区。其中第一层级为东部、中部、西部、东北四大板块;第二层级又将这四大板块划分为八大综合经济区,即东部板块可划分为北部沿海、东部沿海、南部沿海三个综合经济区,中部板块可划分为黄河中游和长江中游两个综合经济区,西部板块可划分为大西南和大西北两个综合经济区,东北板块即东北综合经济区[5]。从2007年的数据和聚类结果可以看出,我国东部板块中的东部沿海、北部沿海及南部沿海三个经济区较之以前年份,差距有明显缩小。中部板块中的黄河中游经济区(山西、河南、陕西、内蒙古)和长江中游经济区(安徽、江西、湖北、湖南)的农民家庭应用现代信息技术水平的发展速度虽无明显提高,但是此区域内部的差距有所减小;西部板块中大西南经济区(重庆、四川、西藏、广西、云南、贵州)的农村贫困人口比例较大,人均地区生产总值低于我国其他地区,所以在农民家庭应用现代信息技术水平上落后于我国其他地区,但是近年来的差距有明显增大的趋势。

3.2 国家政策因素

魏后凯将1978年改革开放以来中国区域经济发展战略与政策的转变大体划分为三个不同阶段,“即1979—1990年向东倾斜的不平衡发展阶段、1991—1998年开始关注中西部的区域协调发展战略启动阶段和1999年以后区域协调发展战略全面实施阶段”[6]。

2009年,我国大部分区域的农民家庭应用现代信息技术水平的分布更加趋于均衡化和合理化,东南沿海各省区的发展势头迅猛。因为从1978年改革开放党中央提出了“让一部分地区、一部分人先富起来,然后带动其他地区共同富裕”的大政策一直到上世纪末,国家政策都倾向于东南沿海地区,从1999年开始,国家提出西部大开发、振兴东北老工业基地和中部崛起的战略,经过近10年的发展,我国东部与其他地区之间经济增长率差距有了较为明显的减小,而且国家在推进区域均衡、协调发展的同时,加大了对农村的投入力度。从2004到2010年,中央连续7年将一号文件锁定“三农”,国家已经把新农村建设中的农村信息化基础设施建设以及现代信息技术的推广使用提升到了战略的高度。总之,国家政策对农村经济的支持以及对农村建设的规范和引导必将会把农民家庭应用现代信息技术的水平推向一个新的高度。

为保证我国信息化健康发展,国家制订并发布了《2006—2020年国家信息化发展战略》,《国民经济和社会发展信息化“十一五”规划》等一系列政策,信息化正在成为促进科学发展的重要手段。农村信息化建设成为其中的重要部分,也在逐渐成为农业和农村基础设施建设的重要内容。为了让信息技术与服务惠及亿万农民群众,落实2010年基本实现全国“村村通电话,乡乡能上网”目标,政府主管部门和电信运营企业正在积极推进自然村通电话和行政村通宽带工程[7]。

4结束语

文章所用的数据均来自《中国统计年鉴》、《中国农村统计年鉴》《中国互联网发展状况统计报告》等次级资料(次级资料是已经发表的汇编资料,政府机构所编辑出版的统计资料是宏微观数据的主要来源[5]),次级资料是为了某种目的收集并通过一定的方法整理汇编出来的,不是亲自收集的数据,有时难以满足特定研究的需要[8]。所以今后的工作就是进一步掌握各个区域的第一手资料,对分析结果补充和改进,从而使分析结果更好地服务于现代信息技术在农村推广和使用的进程。

参考文献

[1]赵世红.扎实推进社会主义新农村建设[N].光明日报, 2010-6-14(7).

[2]国务院办公厅.国务院关于当前稳定农业发展促进农民增收的意见[EB/OL].http://www.gov.cn/zwgk/2009 - 05/ 11/content_ 1310390.htm.[2009 - 05 - 11]/[2010 - 05 - 25].

[3]朱学芳,赵兰荣,朱鹏.加强现代信息技术促进农村经济发展的研究[J].科技与经济,2010,23(5):66-70.

[4]刘世洪.中国农村信息化测度指标体系研究[J].图书情报工作,2007,51(9):33-35.

[5]刘锋.关于“十一五”规划区域划分的思考[EB/OL]. http://www.drcnet.com.cn/DRCnet.common.web/[2005 - 5 - 26]/[2009 - 5 - 20].

[6]魏后凯.改革开放30年中国区域经济的变迁—从不平衡发展到相对均衡发展[J].经济学动态,2008,10(05): 9-16.

[7]中国互联网络信息中心(CNNIC).中国互联网络发展状况统计报告[EB/OL].2009,01.http://www.cnnic.net.cn/index/ 0E/00/11/index.htm,[2009 - 01]/[2010 - 04 - 11].

主成分分析及算法 篇2

主成分分析及算法

以主成分分析(PCA)特征结构的理论分析为基础,分别从神经网络和向量量化器两个不同的角度给出了最大主成分线的算法实现和比较,并由此讨论了HEBB算法对学习率的依赖和敏感度.

作 者:李玉珍 王宜怀 LI Yu-zhen WANG Yi-huai 作者单位:苏州大学,计算机科学与技术学院,江苏,苏州,215006刊 名:苏州大学学报(自然科学版) ISTIC英文刊名:JOURNAL OF SUZHOU UNIVERSITY NATURAL SCIENCE EDITION年,卷(期):21(1)分类号:O242.2关键词:主成分分析 神经网络 学习率 算法

利率期限结构主成分分析 篇3

关键词:国债收益率;主成分分析;固定收益证券;利率期限结构;套期保值

中图分类号:F830.8 文献标识码:A 文章编号:1006-8937(2014)29-0108-03

一个国家的国债收益率一向是重要的指标,从宏观经济上看,国债收益率高说明市场经济走势好,稳定增长,投资回报稳定,投向国债的资金少;利率低说明宏观经济开始波动,市场对经济前景不看好,大量资金涌向国债。

从货币政策上看,如果国家执行稳健的货币政策,国债利率稍高,如果因为刺激经济执行宽松的货币政策,降低利率,这样国债利率也会降低。

因此我们对我国国债收益率曲线的变动模式进行探究,找出其主要受到哪些因素的影响,以及其收益率曲线的主要波动方式。

同时,我们试图找出可以更加准确的衡量债券的利率风险的方法,以达到更好的套期保值效果。

1 理论基础

Nelson-Siegel模型是一种通过参数模型来描述曲线动态变化的方法,大量应用于利率期限结构的估计中,由Nelson和Siegel在1987年提出。瞬时远期利率可以用包含参数的如下模型来描述:

由于R(t,x)是f(t,x)的一种积分,因此两者的图形属性一定是一致的,为了研究?茁0、?茁1、?茁2的性质,我们可以对τ取一个假定值,得到R(t,x)相对?茁0、?茁1、?茁2的偏导数。

式中,?茁0是R(t,x)在期限t趋于无穷大时的渐进值,其变动整体改变利率期限结构的水平高度,可以理解为“水平因子”;?茁1参数可以理解为“斜率因子”;?茁2参数可以理解为“曲率因子”;τ参数,在其他参数固定不变的情况下,决定了收益率曲线第一次驼峰出现的时间。

2 系统设计与实现

2.1 求取最佳τ取值

由于Nelson-Siegel模型中?茁0、?茁1、?茁2、τ参数之间的关系,在对期限结构进行估计时,需要选取合适的τ的取值,这里采用试值法。

分别取τ=0.5,1,1.5,…,5,6,7,8,9,10,15,20,25,30对公式(2)进行最小二乘估计,选取综合来看残差平方和最大,R最小的值。

2.2 估计收益率

根据得到的τ值以及方程式,我们分别对2013年8月到2014年5月的收益率进行模拟,得到不同年限的N-S估计利率。

2.3 利率期限结构的主成分分析

将EVIEWS中所构建的N-S模型所估计得到的利率期限结构数据导入SPSS软件中,选取所有变量进行主成分分析,得到了各变量的方差贡献率,得到显著的变量并整理。记录主成分的方差贡献率以及累计方差贡献率,代表原始多维数据进行统计分析。此外,根据三个主成分的成分矩阵可以作出利率变动的主成分分析表,见表1。

3 实验结果

3.1 数据分析

以2014年2月28日得到的国债数据作为样本,制作下表,见表2,并且由表中我们知道最佳的τ取值是8。

我们对从2013年8月31日至2014年5月31日中每月末取得的国债数据进行计算,从而到不同τ下的?茁0、?茁1和?茁2,通过选取最大的残差平方和以及最小的R2,得到最佳的τ。

例如,2013年8月30日得到最佳的τ,τ=1,此时得到的方程为:

4.196166+7.229851×(1-exp(-t))/(t)-14.65054×((1-exp

(-t))/(t)-exp(-t)) (3)

2013年9月29日得到最佳的τ,τ=3,此时得到的方程为:

4.414798-1.352335×(1-exp(-t/3))/(t/3)-2.440788×((1-exp

(-t/3))/(t/3)-exp(-t/3))(4)

2013年10月30日得到最佳的τ,τ=3,此时得到的方程为:

4.450086-1.459816×(1-exp(-t/3))/(t/3)-2.294317×

((1-exp(-t/3))/(t/3)-exp(-t/3))(5)

3.2 估计收益率

每月末0.05年至30年N-S估计利率见表3。

3.3 利率期限结构的主成分分析

所得各变量的方差贡献率见表4。

4 结 语

从以上实验结果中可以看出,我国国债收益率曲线的变动模式也主要受到三个因素的影响,且收益率曲线的波动方式主要有三种形式:平行移动、斜率变动、曲率变动。

同时,通过主成分分析得到了影响利率期限结构变动的三个主成分,在一定程度上解释了利率非平行移动的原理,在此基础上构建的主成分久期相对于麦考利久期和修正久期而言,就可以更加准确的衡量债券的利率风险,达到更好的套期保值效果。

参考文献:

[1] 萨利赫N·内夫茨(美).金融工程:金融工程原理(第1版)[M].北京:人民邮电出版社,2009.

摘 要:文章通过Nelson-Siegel模型描述我国国债收益率曲线的变动模式,依据β0、β1、β2、τ取得的最佳值建立方程式,进行不同期限的N-S估计利率分析,以及利率期限结构的主成分分析,得出我国国债收益率进行主要受到三个因素的影响,且收益率曲线的波动方式主要有三种形式:平行移动、斜率变动、曲率变动。这三个主成分在一定程度上解释了利率非平行移动的原理,因此在此基础上构建的主成分久期相对于麦考利久期和修正久期而言,就可以更加准确的衡量债券的利率风险,达到更好的套期保值效果。

关键词:国债收益率;主成分分析;固定收益证券;利率期限结构;套期保值

中图分类号:F830.8 文献标识码:A 文章编号:1006-8937(2014)29-0108-03

一个国家的国债收益率一向是重要的指标,从宏观经济上看,国债收益率高说明市场经济走势好,稳定增长,投资回报稳定,投向国债的资金少;利率低说明宏观经济开始波动,市场对经济前景不看好,大量资金涌向国债。

从货币政策上看,如果国家执行稳健的货币政策,国债利率稍高,如果因为刺激经济执行宽松的货币政策,降低利率,这样国债利率也会降低。

因此我们对我国国债收益率曲线的变动模式进行探究,找出其主要受到哪些因素的影响,以及其收益率曲线的主要波动方式。

同时,我们试图找出可以更加准确的衡量债券的利率风险的方法,以达到更好的套期保值效果。

1 理论基础

Nelson-Siegel模型是一种通过参数模型来描述曲线动态变化的方法,大量应用于利率期限结构的估计中,由Nelson和Siegel在1987年提出。瞬时远期利率可以用包含参数的如下模型来描述:

由于R(t,x)是f(t,x)的一种积分,因此两者的图形属性一定是一致的,为了研究?茁0、?茁1、?茁2的性质,我们可以对τ取一个假定值,得到R(t,x)相对?茁0、?茁1、?茁2的偏导数。

式中,?茁0是R(t,x)在期限t趋于无穷大时的渐进值,其变动整体改变利率期限结构的水平高度,可以理解为“水平因子”;?茁1参数可以理解为“斜率因子”;?茁2参数可以理解为“曲率因子”;τ参数,在其他参数固定不变的情况下,决定了收益率曲线第一次驼峰出现的时间。

2 系统设计与实现

2.1 求取最佳τ取值

由于Nelson-Siegel模型中?茁0、?茁1、?茁2、τ参数之间的关系,在对期限结构进行估计时,需要选取合适的τ的取值,这里采用试值法。

分别取τ=0.5,1,1.5,…,5,6,7,8,9,10,15,20,25,30对公式(2)进行最小二乘估计,选取综合来看残差平方和最大,R最小的值。

2.2 估计收益率

根据得到的τ值以及方程式,我们分别对2013年8月到2014年5月的收益率进行模拟,得到不同年限的N-S估计利率。

2.3 利率期限结构的主成分分析

将EVIEWS中所构建的N-S模型所估计得到的利率期限结构数据导入SPSS软件中,选取所有变量进行主成分分析,得到了各变量的方差贡献率,得到显著的变量并整理。记录主成分的方差贡献率以及累计方差贡献率,代表原始多维数据进行统计分析。此外,根据三个主成分的成分矩阵可以作出利率变动的主成分分析表,见表1。

3 实验结果

3.1 数据分析

以2014年2月28日得到的国债数据作为样本,制作下表,见表2,并且由表中我们知道最佳的τ取值是8。

我们对从2013年8月31日至2014年5月31日中每月末取得的国债数据进行计算,从而到不同τ下的?茁0、?茁1和?茁2,通过选取最大的残差平方和以及最小的R2,得到最佳的τ。

例如,2013年8月30日得到最佳的τ,τ=1,此时得到的方程为:

4.196166+7.229851×(1-exp(-t))/(t)-14.65054×((1-exp

(-t))/(t)-exp(-t)) (3)

2013年9月29日得到最佳的τ,τ=3,此时得到的方程为:

4.414798-1.352335×(1-exp(-t/3))/(t/3)-2.440788×((1-exp

(-t/3))/(t/3)-exp(-t/3))(4)

2013年10月30日得到最佳的τ,τ=3,此时得到的方程为:

4.450086-1.459816×(1-exp(-t/3))/(t/3)-2.294317×

((1-exp(-t/3))/(t/3)-exp(-t/3))(5)

3.2 估计收益率

每月末0.05年至30年N-S估计利率见表3。

3.3 利率期限结构的主成分分析

所得各变量的方差贡献率见表4。

4 结 语

从以上实验结果中可以看出,我国国债收益率曲线的变动模式也主要受到三个因素的影响,且收益率曲线的波动方式主要有三种形式:平行移动、斜率变动、曲率变动。

同时,通过主成分分析得到了影响利率期限结构变动的三个主成分,在一定程度上解释了利率非平行移动的原理,在此基础上构建的主成分久期相对于麦考利久期和修正久期而言,就可以更加准确的衡量债券的利率风险,达到更好的套期保值效果。

参考文献:

[1] 萨利赫N·内夫茨(美).金融工程:金融工程原理(第1版)[M].北京:人民邮电出版社,2009.

摘 要:文章通过Nelson-Siegel模型描述我国国债收益率曲线的变动模式,依据β0、β1、β2、τ取得的最佳值建立方程式,进行不同期限的N-S估计利率分析,以及利率期限结构的主成分分析,得出我国国债收益率进行主要受到三个因素的影响,且收益率曲线的波动方式主要有三种形式:平行移动、斜率变动、曲率变动。这三个主成分在一定程度上解释了利率非平行移动的原理,因此在此基础上构建的主成分久期相对于麦考利久期和修正久期而言,就可以更加准确的衡量债券的利率风险,达到更好的套期保值效果。

关键词:国债收益率;主成分分析;固定收益证券;利率期限结构;套期保值

中图分类号:F830.8 文献标识码:A 文章编号:1006-8937(2014)29-0108-03

一个国家的国债收益率一向是重要的指标,从宏观经济上看,国债收益率高说明市场经济走势好,稳定增长,投资回报稳定,投向国债的资金少;利率低说明宏观经济开始波动,市场对经济前景不看好,大量资金涌向国债。

从货币政策上看,如果国家执行稳健的货币政策,国债利率稍高,如果因为刺激经济执行宽松的货币政策,降低利率,这样国债利率也会降低。

因此我们对我国国债收益率曲线的变动模式进行探究,找出其主要受到哪些因素的影响,以及其收益率曲线的主要波动方式。

同时,我们试图找出可以更加准确的衡量债券的利率风险的方法,以达到更好的套期保值效果。

1 理论基础

Nelson-Siegel模型是一种通过参数模型来描述曲线动态变化的方法,大量应用于利率期限结构的估计中,由Nelson和Siegel在1987年提出。瞬时远期利率可以用包含参数的如下模型来描述:

由于R(t,x)是f(t,x)的一种积分,因此两者的图形属性一定是一致的,为了研究?茁0、?茁1、?茁2的性质,我们可以对τ取一个假定值,得到R(t,x)相对?茁0、?茁1、?茁2的偏导数。

式中,?茁0是R(t,x)在期限t趋于无穷大时的渐进值,其变动整体改变利率期限结构的水平高度,可以理解为“水平因子”;?茁1参数可以理解为“斜率因子”;?茁2参数可以理解为“曲率因子”;τ参数,在其他参数固定不变的情况下,决定了收益率曲线第一次驼峰出现的时间。

2 系统设计与实现

2.1 求取最佳τ取值

由于Nelson-Siegel模型中?茁0、?茁1、?茁2、τ参数之间的关系,在对期限结构进行估计时,需要选取合适的τ的取值,这里采用试值法。

分别取τ=0.5,1,1.5,…,5,6,7,8,9,10,15,20,25,30对公式(2)进行最小二乘估计,选取综合来看残差平方和最大,R最小的值。

2.2 估计收益率

根据得到的τ值以及方程式,我们分别对2013年8月到2014年5月的收益率进行模拟,得到不同年限的N-S估计利率。

2.3 利率期限结构的主成分分析

将EVIEWS中所构建的N-S模型所估计得到的利率期限结构数据导入SPSS软件中,选取所有变量进行主成分分析,得到了各变量的方差贡献率,得到显著的变量并整理。记录主成分的方差贡献率以及累计方差贡献率,代表原始多维数据进行统计分析。此外,根据三个主成分的成分矩阵可以作出利率变动的主成分分析表,见表1。

3 实验结果

3.1 数据分析

以2014年2月28日得到的国债数据作为样本,制作下表,见表2,并且由表中我们知道最佳的τ取值是8。

我们对从2013年8月31日至2014年5月31日中每月末取得的国债数据进行计算,从而到不同τ下的?茁0、?茁1和?茁2,通过选取最大的残差平方和以及最小的R2,得到最佳的τ。

例如,2013年8月30日得到最佳的τ,τ=1,此时得到的方程为:

4.196166+7.229851×(1-exp(-t))/(t)-14.65054×((1-exp

(-t))/(t)-exp(-t)) (3)

2013年9月29日得到最佳的τ,τ=3,此时得到的方程为:

4.414798-1.352335×(1-exp(-t/3))/(t/3)-2.440788×((1-exp

(-t/3))/(t/3)-exp(-t/3))(4)

2013年10月30日得到最佳的τ,τ=3,此时得到的方程为:

4.450086-1.459816×(1-exp(-t/3))/(t/3)-2.294317×

((1-exp(-t/3))/(t/3)-exp(-t/3))(5)

3.2 估计收益率

每月末0.05年至30年N-S估计利率见表3。

3.3 利率期限结构的主成分分析

所得各变量的方差贡献率见表4。

4 结 语

从以上实验结果中可以看出,我国国债收益率曲线的变动模式也主要受到三个因素的影响,且收益率曲线的波动方式主要有三种形式:平行移动、斜率变动、曲率变动。

同时,通过主成分分析得到了影响利率期限结构变动的三个主成分,在一定程度上解释了利率非平行移动的原理,在此基础上构建的主成分久期相对于麦考利久期和修正久期而言,就可以更加准确的衡量债券的利率风险,达到更好的套期保值效果。

参考文献:

主成分分析技术 篇4

关键词:高技术产业,主成分分析,转型升级能力,政策建议

1概念内涵及研究方法

1. 1高技术产业的内涵

高技术产业是指依靠高技术研究开发成果进行高技术产品生产和服务的产业部门,主要是指研究开产投入高、研究开发人员比重大的产业。高技术产业在不同时期、不同地区其包含的产业各不相同。 高技术产业是按照技术集约程度划分出来的产业, 本文中所指的高技术产业,是根据2013年国家统计局印发的 《高技术产业 ( 制造业) 分类 ( 2013) 》, 将医药制造业 ( Pharmaceuticals Ps) 、航空航天器制造业 ( Aircraft and Spacecraft AS) 、电子及通信设备制造业 ( Electronic and Telecommunication Equipments ETE) 、电子计算机及办公设备制造业 ( Computers and Office Equipments COE) 和医疗设备及仪器仪表制造业 ( Medical equipments and Meters MEM) 界定为高技术产业。

高技术产业具有原材料消耗少、耗能低、附加值高,以及高投入、高风险、高回报、高渗透性等特点。高技术产业是国际经济和科技竞争的重要阵地。高技术产业作为知识密集、技术密集、资金密集的新兴产业,因其对经济增长的贡献越来越大, 已经成为发达国家和地区谋划新一轮国际竞争优势的重要着力点。随着经济发展和技术进步,高技术产业自身也处于不断的转型升级过程中,即高技术产业逐步高端化。高技术产业因具有的技术先进性、 人才高端化、资金密集型以及低能耗、低污染等特点,其转型升级对推动区域产业结构升级、提高劳动生产率和经济效益具有不可替代的作用。

1.2高技术产业转型升级能力及研究方法选择

高技术产业转型升级能力,是指高技术企业能够在引进先进技术的基础上消化吸收,并加以研究、 改进和创新,建立属于企业本身的技术体系并自主研发新产品的能力。产业转型升级能力是一个综合概念,任何一个单一的指标都不可能全面衡量一个产业的转型升级能力,因此要选取多个指标综合评价。鉴于评价指标较多,需从中筛选出主要影响因素作为促进高技术产业转型升级的着力点,从而达到牵一发而动全身的效果。为此,本文采用主成分分析法 ( Principal Component Analysis,PCA) 将众多评价指标加以聚焦和筛选。

主成分分析将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法,通过主成分分析,可用少数几个因子来描述许多指标或因素之间的联系,以较少几个成分反映原资料的大部分信息。主成分分析有两个核心问题: 一是如何构造因子变量; 二是如何对因子变量进行命名解释。 为此,我们通过 《我国高技术产业年鉴2013》收集2012年我国高技术产业公开统计数据,选取劳动生产率、主营业务收入、新产品开发经费支出、新产品销售份额、百名R&D人员申请专利数、R&D投入强度、三资与国有企业主营业务收入比、大型企业所占比重等8个与高技术产业转型升级有关的指标进行分析,构造因子变量,然后对主成分因子变量进行命名并解释和分析结果,确保数据的客观性和可比性。

2高技术产业转型升级能力分析

2.1高技术产业转型升级能力的评价指标选取

通过查阅2013年我国高技术产业年鉴资料,本文力求从多个方面、多个角度找出影响高技术产业转型能力的因素,然后进行数据验证,通过收集、 整理后得到中8个相关经济指标2012年的统计数据[1],如表1所示,定义指标为Xi( i = 1,2,3…8) 。

2.2高技术产业转型升级能力评价分析过程

我们采用SPSS19. 0进行主成分分析,首先对表1中的数据进行标准化处理,计算主成为因子的特征值、贡献率、累积贡献率 ( 见表2) 。由于主成分分析法就是选取尽量少的主成分进行综合评价[2], 实际应用中,选取的主成分个数一般由累计方差贡献率大于等于85% 确定。从表2可知,前3个成分因子特征值均大于1,累计方差贡献率已经达到92. 143% ,为此,我们从8个成分中选取F1、F2、 F3作为主成分因子,它们已能基本反映样本的大部分信息,可以用主成分分析法进一步分析问题。

%

2.3建立载荷矩阵和计算不同高技术产业的综合得分

对提取的3个主因子F1、F2、F3建立原始载荷矩阵 ( 略) ,但此时各因子的典型代表量不是很突出,不便于对因子解释,所以对原始因子载荷矩阵进行方差极大正交旋转,旋转后的矩阵,如表3所示。

由负荷矩阵可知,主因子F1在R&D投入强度、 主营业务收入上的载荷较大,可定位科技投入因子; F2在三资企业主营业务收入/国有及国有控股企业、 大型企业所占比重上的载荷较大,可定义为创新规模效益因子; F3在新产品销售份额、新产品开发经费支出上的载荷较大,可定义为创新产出因子。

考察不同高技术产业转型升级能力,必须建立多指标加权综合评价模型[3],即以3个主成分因子的方差贡献率为权重,由主成分分析中主因子的特征值为权重,即34. 808% 、31. 238% 和26. 096% , 对5个高技术产业的因子得分进行加权求和,计算各个产业的产业转型升级能力综合得分:

计算结果及其排名如表4所。

3分析和评论

从上述不同高技术产业转型升级能力的综合得分来看,电子计算机及办公设备制造业分数最高, 其他分数由高到低依次为: 电子及通信设备制造业、 航空航天器制造业、医药制造业和医疗设备及仪器仪表制造业。

( 1) 电子计算机及办公设备制造业分数最高, 其次是电子及通信设备制造业,说明这两个产业转型升级能力较强。首先,相对于其他产业而言,这两个产业中大企业所占比重最高,电子计算机及办公设备制造业大企业说占比重为90. 0% ,电子及通信设备制造业占65. 2% 。根据熊彼特的创新理论, 垄断与创新有密切联系[4]。高市场集中度更有助于激励企业从事研究和开发,因为创新属于不确定活动,大企业相对小企业而言更有实力承担创新风险, 同时垄断利润的期望给创新提供了激励。其次,计算机及办公设备制造业和电子及通信设备制造业对外开放度高,三资企业与国有及国有控股企业主营业务收入比分别为25. 33倍和6. 17倍,这两个产业抓住国际信息产业大发展的机会,充分利用三资企业的资金和技术,通过引进、消化吸收再创新等方式,逐步由传统的电子产业向高端电子信息产业过渡,实现产业转型升级。第三是电子及通信设备制造业和电子计算机及办公设备制造业百名R&D人员申请专利数分别排第一和第二位,电子及通信设备制造业的新产品开发经费支出在5个产业中排名第一,电子计算机及办公设备制造业的新产品开发经费支出也位于前列,一定程度上提升了这两个产业的转型升级能力。

( 2) 航空航天器制造业转型升级能力居中,显示了该产业也具备着一定的转型升级能力。航空航天器制造业由飞机制造业和其他航空航天器制造业组成,经过60年发展,我国已初步形成了运载火箭、宇宙飞船、人造卫星、飞机等的设计和制造能力。航空航天器制造业属于国家战略性产业,在世界军事变革浪潮的推动下,未来战争将是高科技的、 非接触的、高精度的战争,掌握制空权、制天权是打赢高技术条件下未来战争必不可少的条件,因而航空航天器制造业是国防工业的重要组成部分,在国防工业体系中的地位越来越重要。因此,该产业以国有和国有控股企业为主,三资企业主营业务收入只占0. 22% 。由少数国有企业垄断航空航天器制造业的所有制结构,使该产业能够利用国有企业资金雄厚的优势,加大研发投入。从前述统计数据可知,该产业研发投入强度在五个产业中最高,达到9. 6% ,较高的研发投入为企业自主研发、引进新技术和新设备创造了条件。这些特点导致该产业虽然整体规模最小 ( 主营业务收入只有2 330亿元) ,但产业转型升级能力居中,说明产业集中度以及研发投入的高低对产业转型升级能力具有显著影响。

( 3) 医药制造业和医疗设备及仪器仪表制造业得分较低,转型升级能力有待提升。医药制造业和医疗设备及仪器仪表制造业这两个产业的集中度相对较低,其中医药制造业大、中、小型企业主营业务收入所占的比重分别为33. 9 ︰ 29. 8 ︰ 36. 3,医疗设备及仪器仪表制造业大、中、小型企业主营业务收入所占的比重分别21. 0 ︰ 35. 5 ︰ 43. 5。由于中小型企业经济实力有限,制约了新产品开发经费投入,医药制造业和医疗设备及仪器仪表制造业新产品开发经费支出占营业收入的比重分别为1. 35% 和1. 76% ,远低于航空航天器制造业 ( 6. 56% ) 和电子及通信设备制造业 ( 2. 30% ) 。其次,新药、新医疗设备的研发周期长、研发费用高,研发成功后要进入市场实现产业化的审批过程也繁琐,也在一定程度上降低了这两个产业的企业转型升级积极性。 再者,目前医疗体制机制存在弊端,使得这两个行业的利润有一大部分被转移到流通领域,在一定程度上也影响了制造业企业对产品研发投入强度。例如,我国当前国产与进口医疗器械数量为3 ︰ 7,高端产品进口医疗器械甚至占据市场的90% 以上, CT、彩超、核磁检查设备、生化分析仪等,进口医疗器械在中国 “一统天下。2014年我国医疗器械进口额为157. 71亿美元,医院诊断与治疗设备的进口继续领跑,高端医疗器械市场仍然被几家着名的外资品牌所掌控,中高端医疗器械主要依靠进口,以高附加值 产品为主,进口金额 约占全部 市场的40% 。除了技术原因外 “洋品牌” 一统天下的背后, 是巨额回扣在作祟,除了院方能拿到回扣外,不少跨国公司还以出国考察、参加学术会议为名让医院负责人免费旅游,这也挤占了国产产品的市场空间, 给企业转型升级造成极大障碍。

4提高我国高技术产业转型升级能力的政策建议

根据主成分分析的结果,针对制约我国高技术产业转型升级能力的主要因素,提出如下政策建议。

4.1加大资金投入是提升产业转型升级能力的基础

各国发展高技术产业的实践证明,高技术产业转型升级能力需要R&D投入作支撑。虽然我国高技术产业R&D投入强度 有所加大,2012年达到1. 8% ,但同其他国家相比,尚存在较大的差距 ( 见表5) 。虽然企业是创新的主体,也是转型升级的主力军,研发对提升企业转型升级能力的作用毋庸置疑,但企业由于R&D投入直接效益不明显,且研发失败的风险较高,以盈利为目的的企业不愿意、也不一定有能力加大研发投入。国家和政府应该加大对国有科研单位和高校科研的经费投入,加大对关键领域核心技术攻关的集中投入,推动基础科学的发展,使基础科学成为企业技术创新、产业转型升级的源动力。大力发展科技金融[6]: 首先,要发挥政府功能吸引投资机构的集聚,积极扶持VCPE,培育更多的天使投资人完善股权融资; 其次,要构建多层次的科技信贷体系,提高信贷支持科技的有效性,解决高技术企业融资难的问题; 第三,推进政府金融公共服务,完善配套的金融担保体系,使金融担保回归公益性; 第四,以高新区为载体打造资本特区和人才特区,以点带面推动资源向生产力转变,依托创新链、产业链、金融链协同推进,实现官、产、学、研、金五位一体; 第五,深入研究我国高技术产业的现状和发展阶段,分层次、有目的地做好国家各财政专项的组织实施工作,重点支持产业核心关键技术研发和产业化,推动设立重点高技术产业投资基金。

%

4.2鼓励高技术产业的商业模式和产业组织形式创新,培育龙头企业

政府应该把握新兴产业发展规律,强化产业布局,规范地方政府招商引资行为,限制一些地方不具备技术条件和可持续发展能力的项目盲目上马, 防止各地一哄而上造成高技术产业的低水平竞争。 鼓励高技术产业的兼并重组。2014年国内外高技术产业并购活跃,显现出一系列新特点: 一是并购数量巨大,已公布的主要并购事件逾百起; 二是巨额交易频频发生,逾10亿元的巨额并购超过并购总数的30% ,并出现了千亿元超额并购; 三是跨界并购层出不穷,移动即时通讯、电子地图等入口竞争的关注加剧,网络安全技术、人工智能、云等新领域也成为并购重要对象。通过兼并重组,打造高技术产业参与国际竞争的龙头企业,利用大企业在创新方面的优势寻求关键技术突破,借助技术外溢效应带动整个产业的转型升级,尤其是高技术产业的跨国并购,外资的加入将会增加原来国有及国有控股企业研发投资所产生的技术溢出效应[7]。

支持高技术产业进行商业模式创新和产业组织形式创新,促进高技 术产品的 市场应用 和推广,创建产业技术创新联盟。通过在高技术产业构建一批产业技术创新战略联盟,由行业龙头骨干企业牵头、以高校和科研院所为支撑、行业内企业参与、以制定行业标准为途径、以共同研发为关键的产业技术战略创新联盟,突破单个企业的资金、人才、设备制约,实现优势互补,共同研究共性关键技术,并在联盟内共享研究成果, 从而带动整个产业发展。

4.3通过创新促进医药和医疗设备制造业转型升级

由于新药和医疗设备研发周期长、投入大、风险高,完全依靠单个企业自身力量进行研发难以取得显著成效。从整个产业发展来看,外资企业和合资企业已控制了我国药品的高端市场,外资企业的产品占据着60% ~65% 的市场份额,而国内制药企业对市场的控制力正逐步削弱,传统的低附加值、高能耗、劳动密集型的产业状态难以应对跨国药企高端原研药的大举进入。为此,建立政产学研联合研发机制有利于整合医药制造业和医疗设备及仪器仪表制造业的各方面资源[5],避免因企业规模较小而导致的研发资源分散、研发投入不足的弊端,分散技术创新风险。在化学药领域,发达国家的大批原研药专利到期,世界仿制药市场快速增长,应利用我国原料药优势,发展新的高附加值仿制药,推动制剂企业通过发达国家的GMP认证,扩大制剂出口。还需要深化医疗体制改革,减少新产品,特别是新药、医疗设备进入市场的审批环节,提高新产品进入市场效率,规范医疗机构医疗器械采购制度,降低由于现有体制的弊端给医药制造业和医疗设备及仪器仪表制造业转型升级的障碍,推动产业转型升级。

4.4军民融合共筑航空航天器制造业核心竞争力

据相关机构预测,未来20年我国对新飞机的需求将接近4 000架,支线飞机 + 干线飞机 + 大型运输机的市场容量约为7 000亿元。由于航空航天器制造业技术创新主要是由实力雄厚的大公司所实施或从国外引进,缺乏竞争氛围,缺少促进技术创新的原动力,而由于发达国家对先进技术的垄断以及保护壁垒,导致我国引进吸收先进计数成果的数量不多、难度较高[8]。同时,航空航天器制造业具有技术水平高、投资规模大、风险高,回报周期长等特点,使得多数有志进入航空产业的民营企业望而生畏。纵观国际航空业的发展,军民结合是发展的普遍规律,如世界航空巨头波音、GE、庞巴迪、柯林斯等都是典型的军民融合式企业,在其辉煌的军品主业后都有着强大的民品产业支撑,成为其核心竞争力的重要来源。为此,航空航天器制造业将军工优势转化为产业及市场优势,一方面需打破原有体制的限制,加速推进军工研发制造力量向民用航空领域转移,让资源与要素快速流动; 另一方面通过体制机制创新,推动民营资本和社会产业资本向航空产业投入,积极参与航空产业分工,通过坚持军品和民品兼顾、国内与国外兼顾、航空与非航空兼顾的方式,进一步延伸产业链条,创造更多价值。

4.5把握发展趋势,抢占电子信息产业技术制高点

海洋经济与环境发展的主成分分析 篇5

海洋经济与环境发展的主成分分析

摘要:应用主成分分析方法,对大连海洋经济和环境发展两者之间的关系进行探讨,选取具有代表性、数据齐全的10项指标,对近4年来大连海洋经济和环境发展的情况进行定量分析,筛选出具有良好代表性的2个主成分,并以这2个主成分的贡献率进行加权平均,构造出综合评价函数.以此对大连市在这两者关系的`协调方面进行综合评价.在此基础上,提出海洋经济和环境协调发展的具体建议.作 者:蔡静    张翠霞    侯磊    CAI Jing    ZHANG CUI-xia    HOU Lei  作者单位:蔡静,CAI Jing(大连水产学院,人文法律系,辽宁,大连,116023)

张翠霞,ZHANG CUI-xia(中国科学院海洋研究所,山东,青岛,266071)

侯磊,HOU Lei(沪东造船厂,上海,200129)

期 刊:海洋环境科学  ISTICPKU  Journal:MARINE ENVIRONMENTAL SCIENCE 年,卷(期):2007, 26(3) 分类号:X22 P74 关键词:主成分分析    海洋经济    环境发展    海洋产业   

主成分分析技术 篇6

关键词:商业银行;盈利模式;转变

2008年金融危机爆发后,国际大银行高杠杆、高资本回报、低股本的经营模式备受诟病,许多国家商业银行从自营业务转回传统存贷业务。相比之下,我国商业银行盈利受到冲击较小,据英国《银行家》杂志2011年全球前1000家银行排名,我国工商银行、建设银行和中国银行跻身前十位,我国银行占比也超越了去年。

我国商业银行虽然经过专业银行时期、市场化时期、股份制改革时期三个阶段的发展,盈利能力有了很大发展。但是这种发展模式的边际收益却在大幅下降,尤其随着危机的持续,经济形势的不明朗,我国商业银行“大而不强”的现状以及以利差收入为主的盈利模式必须变革,银行业务体系、风险管理能力、创新能力、流程再造仍需得到进一步强化。

自20世纪80年代以来,许多国外学者对银行的盈利模式进行了研究。Short认为银行规模与资本比率(股权与总资产的比率)之间存在正相关关系,因为大银行在规模效应下成本更低,盈利能力更强。Goddard通过研究发现中小银行规模的扩张也会带来盈利能力的提高。Muados通过分析西班牙银行业市场结构与绩效的关系,表明高效率的经营模式是影响银行利润率的主要因素,市场结构也同时影响利润率。Brown通过对1200家商业银行的研究发现,竞争性的市场结构能促进银行盈利模式的优化发展。关于我国银行盈利模式的从多角度研究也有很多:陆军、魏煜专门分析了1992-1997 年间商业银行内部因素与盈利能力之间的关系,发现银行资产规模与盈利能力负相关,而资本比率与资产利润率之间呈正相关关系。焦瑾璞通过对银行盈利指标的分析比较发现我国商业银行盈利模式方面的创新落后。

一、数据选取

本文基于2010年数据,在保证资料完整性的基础上,最大限度地选取样本银行共114家。它们包括四大国有商业银行,18家全国性商业银行银行,74家地方性商业银行和汇丰、花旗、渣打等在内的22家外资银行。全部数据来自毕马威中国银行业报告,其中部分数据通过Excel计算获得。

指标选取了较有代表性的10个指标,xl代表总资产占比,x2表示存款占比,x3表示贷款占比,x4表示非利息收入/经营收入,x5表示净利息收入/总资产,x6表示非利息费用/总资产,x7表示资产负债率,x8表示呆坏账拨备/客户贷款总额,x9资本充足率,xl0表示存款/總负债。

二、实证结果与分析

1.首先进行KMO检验。其中KMO值为0.5607,表明可以采用主成分分析。

2.确定公共因子解释主成分程度。由表1可知,第一个主成分的特征根为3.17785,解释了总变异的30.78%;第二个主成分的特征根为2.09801,解释了总变异的20.98%;第三个主成分的特征根为1.34957,解释了总变异的13.5%。第四个主成分的特征值为1.1315,解释了总变异的11.31%。4个因子解释了观测变量总变异的77.57%,可以接受。因此可以用4个公共因子代替原来的10个变量。

3.计算前四个主成分的得分。由表2可知,四个主成分可以表示成如下形式:

F1=0.5460x1+0.5436x2+0.5452x3+0.0089x4+0.0260x5-0.2073x6+0.1721x7-0.0724x8- 0.1632x9- 0.0622x10

F2=0.1087x1+0.1033x2+0.1086x3+0.5023x4-0.5541x5+0.0.4639x6-1267x7-0.2162x8+0.3366x9+0.1224x10

F3=0.0732x1+0.0788x2+0.0717x3-0.0807x4+0.04x5-0.1374x6-0.6488x7+0.1532x8-0.0988x9+0.7086x10

F4=0.1285x1+0.1370x2+0.1273x3-0.2493x4+0.2964x5+0.3350x6-0.1389x7+0.5111x8+0.6128x9-0.1738x10

在第一主成分表达式中第一、第二、第三项指标的系数较大,我们可以把第一主成分看成是由总资产占比、存款占比、贷款占比反映银行规模因素的指标;在第二主成分表达式中第四、第五、第六项指标的系数较大,我们可以把第二主成分看成是由非利息收入/经营收入、净利息收入/总资产、非利息费用/总资产反映银行盈利能力和效率的指标(非利息收入主要为佣金和手续费收入);在第三主成分表达式中第七、第十项指标的系数较大,我们可以把第三主成分看成是由资产负债率、存款/总负债反映银行流动性的指标;在第四主成分表达式中第八、第九项指标的系数较大,我们可以把第四主成分看成是由呆坏账拨备/客户贷款总额、资本充足率反映银行信用的指标。

通过实证分析可知,规模是影响我国商业银行盈利能力的关键因素,同时国内商业银行在发展规模的过程中,也要重视盈利能力和效率、流动性管理能力及资本质量和信用风险等因素,注重综合能力的提高。

三、当前我国商业银行面临的挑战

(一)宏观环境的挑战

由于我国养老医疗保险一直没有得到有效建立,居民安全感不高,形成了我国“高储蓄”的历史现状,也成为我国商业银行存款的大量来源,为银行放贷和以利差为主的盈利模式打下基础。加之投资的增长增加了对原材料、劳动力、资金等的需求,在当时我国股票债券市场并不发达的情况下,增加了对商业银行贷款的需求,形成了我国商业银行以存贷差为主的收入模式的历史原因。然而自“拨改贷”以来,我国资本市场一直尚未完善,资本筹资成本高,银行贷款成为企业尤其是高负债的国企的首选,国企由于政府的隐性担保也成为银行放贷的首选,使我国商业银行的信贷增长一直以高于GDP的2倍的速度进行着,多年以来的贷款快速扩张伴随着经济的高增长也使我国国有商业银行利息收入居高不下,成为银行盈利的主渠道。

金融危机后的全球经济刺激政策使通胀压力增加,自2010 年四季度以来,中央银行5 次提高存款准备金率、3 次加息 ,货币政策的收紧将大大加强企业的流动性风险, 从而也加大银行的呆坏账风险。利率市场化的推进也会进一步压缩商业银行的利差空间。此外,我国信贷资金主要投向了地方政府主导的一些“ 铁公基” 项目,对于带动民间投资作用不大。2011 年, 地方政府融资平台能够得到的信贷资金支持非常有限,部分已开始的项目面临缺乏后续支持资金而停工的危险;国家也加大了对房地产、“两高一剩”行业的调控,固定资产投资速度短期内的受到极大影响。

(二)自身能力的不足

一方面,“金融脱媒化”使商业银行传统的抓大客户大企业的营销模式受阻,大客户由于信誉、规模方面的优势,更偏好于发债和股票市场融资,以减轻自身利息压力,从而使我国商业银行在于大客户谈判时缺乏定价权;另一方面,我国大多商业银行的新型业务和新型产品同质化现象严重,吸纳型和模仿型产品较为多,导致所有产品千篇一律。此外,客户需求逐渐向高层次发展,综合性服务需求加强,好多商业银行无法满足高端客户个性化需求,在中间业务上仅通过销售压价恶性竞争。

(三)监管要求的提高

为全面应对全球银行业危机,巴塞尔协议Ⅲ重新定义了一级资本,提高了银行资本充足率;要求銀行设立的资本缓冲金不得低于银行风险资产的2.5%,此外银行还需保留最高2.5%的逆周期缓冲资本;并且监管方面也引入了杠杆率指标, 作为对资本充足率的补充指标。我国商业银行信贷规模受国家宏观金融政策和巴塞尔协议资本充足率的双重约束,我国核心商业银行资本充足率要求达到11.5%,中小商业银行要达到10%;动态拨备率不低于2.5%;4%的杠杆率标准(一级资本与表内外所有风险暴露的比率),这都将在一定程度上限制银行的规模扩张。

四、对我国商业银行盈利模式的政策建议

(一)改变银行盈利方式

巴塞尔协议Ⅲ对商业银行资本充足率的要求提高,很多商业银行需要再融资充实资本金。但近两年商业银行融资计划规模已近万亿元,资本市场危机后融资力脆弱,尤其是股市已经在2000点上挣扎,大大打击了股民投资的信心。在此背景下,商业银行应一方面增强自身的资本内生能力,提高自身经营效率和盈利水平,另一方面发展低资本消耗的中间业务实现节流。

(二)提高经营效率和风险管理能力

国内商业银行业具有垄断的性质,获取经济资源的非市场化使其提高经营效率的动力不足。经过30年的粗放式发展,土地、资本、劳动力、自然资源等要素的稀缺性越来越高;全球经济低迷增速放缓;市场对美国持续推出量化宽松政策为全球注入流动性;欧洲央行也注资购买欧元区国家的债券。这些都会加大通胀压力,提高银行的投入和运行成本。商业银行的传统息差收入的模式必将面临挑战,而改善服务质量、提高产品创新能力、优化经营要素的配置、实现经营效率的全面提升是商业银行转变增长模式的最好出路。

(三)资本补充方式的转变和加强银行内部治理

银行资本补充方式除了留存利润、一般准备金等内源性融资,还包括外源性融资, 主要有政府注资、可转换债券、发行股票、长期次级债和混合资本债券。对我国上市银行而言,目前其资本金补充方式大部分为外源性融资。虽然外源性融资有资金筹集规模较大、融资灵活的优点,但是近两年我国商业银行在资本市场的融资规模已近万亿元,且在危机后A股市场信心不足,银行股权融资受到制约。

(四)稳步推进混业经营

混业经营是一把双刃剑。虽然混业经营可以扩充银行经营范围的外延,给银行提供更多盈利的机会,涉足其他基金、保险、租赁、信托等领域。但却扩大了银行系统自身纵向风险传播和与信托基金等其他金融机构横向的风险蔓延,降低银行自身降低系统性风险的效率,在某种程度上更易产生多米诺骨效应。我国商业银行现在在进行初步混业化经营的一些尝试,主要集中在与信托基金等通道上的共享与信息共享,产生协调效应。

我国商业银行在综合化经营中,要强化风险防范意识,对不易隔离和传染性强的风险业务不能盲目推进,要选择对银行发展有推动作用的业务进行尝试。应在自身实际能力的范围内逐步推进综合化经营,对于现阶段交叉销售、共享资源进程中,着重加强人才的培养,能够带出一批综合性的人才,充实银行的人力资源储备。在将自身网点优势与保险信托业务相结合的过程中,提高细分资源、组合资源的能力。

参考文献:

1.Goddard, J.,Molyneux, P., Wilson, J.O.S. The profitability of European banks: a cross-sectional and dynamic panel analysis[J].Manchester School,2004(3).

2.Muados.Market Structure and Performance in Spanish Banking Using a Direct Measure of Efficience[J].Financial Economics Aug,1998.

3.Brown, K, Kleiner, B.H,Evidence on the Relationship between Construction and Profitability in Banking[J].Jounal of Money Credit and Banking,vol,2005(27).

4.陆军,魏煜.我国商业银行的盈利能力与资产负债结构分析[J].金融研究,1999(11).

主成分分析技术 篇7

关键词:主成分分析,高新技术企业,业绩评价,成长性

0 引言

高新技术企业通常比传统企业有更大风险性,探索一种客观地定量评价高新技术企业财务素质优劣的方法具有实际意义。对于极具发展潜力和高成长性的高新技术企业必须突破传统评估理论,既要分析企业利润贡献,更要着眼于企业成长性、发展潜力,所以必须突破现有评估方法束缚,采用新的先进评估方法来评估高新技术企业的价值。

1 样本的选择和指标体系的建立

(1)样本的选择。

本文选择样本有三个条件:一是必须是符合国家高新技术产业标准的上市公司;二是2009年4月前发布本企业2008年年报;三是在年报中披露“开发支出”科目具体情况。最终选取了35家高新技术上市公司。

(2)指标体系的建立。

周志丹(2007)对高新技术企业成长性进行实例分析认为,高新技术企业成长性评估有利于挖掘企业各类资源[1]。胡玉柱、张若如、许敏(2008)基于熵值法模型对高新技术上市公司实证研究提出了20项指标评价体系[2]。王会芳(2009)在研究中小科技企业成长性时,提出了技术性人力资源、技术创新能力、技术商品化能力、融资能力及企业家能力5个方面25项指标[3]。基于现有研究成果,本文试提出15项指标,对高新技术上市公司进行业绩评价,见下页表1。

2 实证分析

(1)研究方法。

现有价值评估方法包括平衡计分卡法、实物期权法、德尔菲法、层次分析法、熵值法等。其中:德尔菲法和层次分析法都是主观分析的方法;实物期权法假定高新技术为看涨期权,并需要估计未来现金流量,方法虽先进、科学,但评估结果具有不确定性;熵值法则无法消除变量相关性对综合评价影响。本文选用主成分分析法,主要因为:一是主成分分析法可以寻求数据的基本结构,从众多变量中找出公共因子,有助于对复杂经济问题进行分析和解释;二是通过主成分分析的得分值及权重值,可直观地对样本分类。

(2)主成分分析的数学模型。

对于一个样本,观测p个指标,n个样本的矩阵为,将p个观测指标综合为p个新变量:可简写为:F=AX;

F为X的主成分。要求模型满足:(1)Fi,Fj互不相关(i≠j;i,j=1,2,…,p);(2)F1的方差大于F2的方差大于F3的方差,依次类推;(3)ak12+ak22+…+akp2=1;k=1,2,…,p;矩阵为主成分系数矩阵。[4]

(3)因子分析的计算步骤。

第一步,数据标准化。

第二步,计算相关系数矩阵:

第三步,用雅可比方法求出相关系数矩阵R的特征值,特征向量。

第四步,选择重要的主成分,并写出主成分表达式。

(4)计算结果及分析。

(1)累计贡献率,见表2。正交方差旋转后因子载荷,见表3。

贡献率越大说明该主成分包含原始标量信息越强。由表2,前5个主因子累计贡献率达80.356%,说明前4个因子代表了原始数据绝大多数信息。由表3,主成分1与X3、X9、X10、X15相关系数大,因此可定义为“获利和成长质量因子”;主成分2与X4、X5、X8相关系数大,可定义为“成长速度因子”;主成分3与X11、X12、X14相关系数大,可定义为“成长驱动和科技人员投入因子”;主成分4与X2、X6、X13相关系数大,可定义为“资产管理和科技资金投入因子”;主成分5只与X1相关系数大,可定义为“财务管理因子”。

(2)各主成分的线性组合:

(3)计算综合因子得分:公式为F=W1F1+W2F2+W3F3+W4F4+W5F5,其中。由表2计算可知F=0.443F1+0.242F2+0.176F3+0.139F4+0.102F5,从而得到综合因子得分和排名,见表6。

3 讨论

(1)第一因子“获利和成长质量因子”、第二因子“成长速度因子”和第三因子“成长驱动和科技人员投入因子”累计贡献率达到62.739%,说明获利能力和成长性能力成为评价企高新技术业业绩重要指标。本文从实证角度判定高新技术企业成长能力最重要指标是获利能力指标和成长质量指标。

(2)设百分制之中85~100分为优,70~85分为良,45~70分为中,0~45分为差;因此,综合因子得分区间[-1.86,4.23]中,衡量标准为:[-1.86,0.89]为差,[0.89,2.41]为中,[2.41,3.32]为良,[3.32,4.23]为优。据表6可知,只有1家企业业绩评价为优,3家评价为中,31家评价为差。这说明,我国高新技术产业总体技术水平不高,低层次的企业较多,综合素质有待提高。

(3)通过对35家高新技术上市公司综合业绩评估,排名前三位是:中兵光电、双鹭药业、大立科技。中兵光电是中国兵器集团重点保军企业,2008年获国家级企业管理创新二等奖,2007年获高新技术武器装备发展建设工程突出贡献奖和国家科学技术进步二等奖,该企业无人机系列、无人车系列、低成本导引头系列和xx型环控系统具有世界领先地位,其净利润增长率、净资产增长率、近三年销售毛利率均在两位数以上,和其他样本比较具有绝对领先地位。双鹭药业于1997年、2000年和2002年先后四次作为企业独立申请并获国家“863”计划基金资助,两个项目获国家技术创新基金资助,2000年7月通过国家科技部和中国科学院组织的高新技术企业认定(双高认定),是4项国家“863”计划成果产业化基地。大立科技是国内规模最大、综合实力最强的民用红外热像仪、硬盘录像机生产企业之一,是红外和安防行业国内A股首家上市公司,先后有多个红外热像仪产品系列获“国家级重点新产品”。前三位业绩评价得分排名与各自实际情况比较相符。排名最后两位是ST高新和东风科技。ST高新持续可成长率、经营积累占净资产比率及近三年销售净利率均为负;东风科技2008年净利润增长率、净资产增长率及其近三年销售净利率、持续可能成长率、经营积累占净资产比例、每股收益均为负。末二位业绩评价得分排名也比较符合实际情况。可见,主成分分析评价模型比较客观合理地反映了高新技术上市公司业绩。———————————————————————

参考文献

[1]周志丹:《高新技术企业成长性评价的实证分析》[J];《工业技术经济》2007(11):38。

[2]胡玉柱、张若如、许敏:《基于熵值法模型的高新技术上市公司经营业绩评价实证研究》[J];《财会通讯》2008(10):76。

[3]王会芳:《研究报告——中小科技企业成长性评价问题研究》[R];深交所综合研究所,深证综研字第0130号,2009:41-42。

主成分分析技术 篇8

中国互联网络信息中心(CNNIC)2015 年7 月发布的《中国互联网发展状况统计报告》显示,我国搜索引擎用户规模达5.36 亿,使用率为80.3%[1]。搜索引擎已成为用户访问互联网资源,获取各类信息的主要工具。然而搜索引擎的广泛使用却使得垃圾网页愈加泛滥,这严重降低了搜索引擎的搜索质量,影响了互联网用户对搜索引擎的信任度[2]。垃圾网页通过各种作弊技术欺骗搜索引擎排名算法, 以获得更高的搜索结果排名, 从而获取更高的商业利益[3]。垃圾网页的有效检测可极大提高搜索引擎检索效率,提高搜索引擎的用户体验[4]。

当前, 垃圾网页主要采取以下技术手段干扰搜索引擎算法,进行排名作弊:(1)利用内容作弊,如关键词堆砌(在标题或网页文本中大量使用热门关键词,欺骗搜索引擎的TF/IDF算法)[5]。(2)利用链接作弊,如链接农场(在网页中建立大规模链接结构,欺骗搜索引擎的Page Rank等算法)[6]。(3)内容隐藏作弊,如Cloaking技术[7](也叫覆盖技术,欺骗网络爬虫,对用户和搜索引擎提供完全不同的两种网页)。针对垃圾网页的作弊技术,目前许多专家学者对垃圾网页检测的研究提出了许多有效的算法[8,9,10,11,12,13,14,15]。如Ntoulas A等人提出了基于内容分析的垃圾网页检测,通过链接文本比例,网页压缩率等内容特征建立决策树进行分类[16];Gyongyi Z等人提出了trustrank算法[17],根据网页的链接结构来对垃圾网页进行识别;Jun-Lin Lin等人针对使用Cloaking技术的垃圾网页,提出了基于标记的隐藏型垃圾网页检测算法[18]。

内容特征和链接特征相结合可识别不同种类的垃圾网页,但同时会导致数据集维数过高问题。特征属性间较大的冗余度对分类精度也有一定影响。因此,本文在综合考虑内容特征,链接特征的基础上,将数据集中相关联的特征属性进行分析并分组处理,并对每一组分别进行主成分分析,以保持数据集特征属性的结构及完整性,降低数据维度和冗余度,减少无关属性对分类结果的不良影响。

2 主成分分析

主成分分析将数据集中具有相关性的特征属性进行组合,形成相互无关的特征属性组[19,20]。设含n个样本的样本集中有p个特征属性x1, x2,···xp。

对X矩阵作正交变换,得到原属性的线性组合Fj:

Fj依次为第1,2,3, ……,p主成分,aij我们称为主成分系数。 每一主成分Fk的系数平方和

主成分之间相互独立,且主成分的方差依次递减。

对如上述具有高维度的样本集,可以依下列步骤对其进行主成分分析降维:

(1)对原始样本集标准化处理并计算原始系数矩阵

标准化:

标准化后的相关系数为

原始系数矩阵为:

(2) 计算矩阵R的协方差矩阵,然后用雅克比方法计算相关系数矩阵R的特征值和相应的特征向量,并将特征值由大到小进行排列。其中,协方差矩阵是对称矩阵,其对角线上的值为各个维度上的方差[21]。

(3) 根据贡献率,选出主成分。

主成分分析可得到p个主成分,主成分所含特征属性的信息随主成分方差递减。而在实验中对数据集进行主成分分析降维时,一般不选取所有主成分,而是根据各个主成分累积贡献率(某个主成分的特征值占全部特征值之和的比重)的大小选取前k个主成分。贡献率 β 计算公式为:

3 支持向量机

支持向量机(SVM)作为基于统计学习理论的机器学习算法,在处理小样本问题,非线性及高维数据方面具有较强的分类性能。目前已广泛应用到模式识别,回归问题等众多领域。支持向量机不仅能处理线性可分数据,而对线性不可分数据也有较强的分类能力[22]。对于线性不可分数据,SVM通过引入核函数将低维的输入向量变换为高维向量空间,在高维空间寻找最优分类超平面。SVM其本质为间隔最大线性分类器,即通过凸二次规划问题的求解来寻求间隔最大化,其具体计算原理为:

假设某数据集有n个m维样本即。SVM的分类超平面为

通过下面最优化问题的求解来获取最优分类超平面:

SVM将通过以下函数对测试样本分类:

li为拉格朗日系数。P为惩罚系数,用于调整SVM寻找最优分类面时的误差。引入核函数K处理线性不可分的情况。

4 关联属性主成分分析

4.1 关联属性分析

本节对Yahoo实验室公布的垃圾网站监测数据集WEBSPAM-UK2007 的特征属性进行了分析, 以发现不同特征属性间的内在规律及其关联性。该数据集共有96 个内容特征,41 个链接特征,共137 维[23]。

内容特征中, 共有四种类型的特征属性: 主页, 主机最大Page Rank值页面, 主机页面平均值, 主机页面标准差。每种类型属性对应网页单词数量, 标题单词数量, 平均单词长度, 固定文本比例, 可视文本比例, 网页压缩率, 语料库精确度属性组(包括前100 个语料库精确度, 前200 个语料库精确度, 前500 个语料库精确度, 前1000 个语料库精确度四个子属性), 语料库召回率属性组(包括前100 个语料库召回率, 前200 个语料库召回率,前500 个语料库召回率,前1000 个语料库召回率四个子属性), 查询精度属性组(包括前100个查询精度,前200个查询精度,前500个查询精度,前1000 个查询精度四个子属性), 查询召回率属性组(包括前100 个查询召回率, 前200 个查询召回率, 前500 个查询召回率, 前1000 个查询召回率四个子属性),n连词分布熵,n连词独立测度等24 个特征属性[5]。通过对每两个单个内容特征及特征组四个内容特征间进行统计及相关性计算可知,单个内容特征中n连词分布熵和n连词独立测度相关度较高,特征属性组的四个内容特征相关度较高,故称其为关联属性。本文将内容特征中关联属性的四种类型分为一组, 不相关的单个内容特征的四种类型分为一组,共分为11 组。

链接特征中, 除eq_hp_mp(判断主页是否为主机中最大Page Rank值页面, 是为1, 否为0)外, 其余特征属性共两种类型: 主页和主机最大Page Rank值页面。每种类型对应assortativity( 网页的同配系数), avgin_of_out(出链接指向网页的平均入链数), avgout_of_in(发出入链接网页的平均出链数), 网页入度, 网页出度, neighbors属性组(包括neighbors_2(具有2 个链接距离的邻居数),neighbors_3, neighbors_4 四个子属性),Page Rank值, 网页Page Rank值的标准差, 入链出链互惠比例,Trust Rank值, 主机前驱增长率( 包括siteneighbors_1( 主机1 级前驱增长率), siteneighbors_2,siteneighbors_3,siten eighbors_4 四个子属性), 截断Page Rank值属性组( 包括truncatedpagerank_1(截断1 次的Page Rank值),truncat edpagerank_2,truncatedpagerank_3, truncatedpagerank_4四个子属性)等共21 个属性。

对每两个单个链接特征及特征组四个链接特征间进行统计及相关性计算后发现,单个链接特征间相关度较低,特征属性组的四个链接特征相关度较高,为关联属性。本文将链接特征中关联属性的两种类型分为一组, 不相关的单个链接特征的两种种类型分为一组,共分为12 组。实验时对每一组特征属性分别进行主成分分析降维。

4.2 算法流程

本文提出的检测方法将样本集关联特征属性分组并分别进行主成分分析,选取贡献率较高的主成分特征训练SVM分类器,有效提升了垃圾网页的检测性能。其算法流程如下:

(1)对原始数据集WEBSPAM-UK2007 筛选整理,选取已标注为“spam”,“nonspam”的样本。对数据集内容、链接特征分别进行相关度分析,对相关度较高的关联特征属性合为一组,建立分组规则。

(2)对训练集特征属性根据(1)形成的分组规则分组,并对每组特征属性PCA处理,选取贡献率95% 以上的主成分作为训练特征。将每组PCA后所选取的主成分替换原特征组合并到新的特征训练集中。

(3)使用处理后的新训练集训练SVM分类器,生成垃圾网页分类模型。使用该分类模型对新测试集分类,检测样本是否为垃圾网页。

5 实验

5.1 实验数据集

本文使用WEBSPAM-UK2007 作为实验的样本集,样本集的部分页面被人工标注为“non-spam”,“spam”[22]。本文只选取标注为“non-spam”和“spam”的页面作为实验的样本训练集和测试集,共计页面5797 个。样本集的分布情况如表1。

5.2 评估准则

混淆矩阵是监督学习中用于衡量分类器分类结果的重要参考标准。混淆矩阵的定义如表2。TP是指垃圾网页被正确分类的数目;TN是指垃圾网页被错误分类的数目;FP是指正常网页被错误分类的数目;FN是指正常网页被正确分类的数目。

本文实验采用Precision,Recall,F1 值作为评估指标。 Precision(准确率)是指预测结果的垃圾网页中被正确分类的比例;Recall(召回率)是指真实的垃圾网页中被分类正确的比例。而F1 是一个综合指标,它是Precision和Recall的调和平均值。Precision,Recall,F1 计算公式分别为:

5.3 实验结果与分析

本文在怀卡托智能分析环境Weka下进行了对比实验,算法参数采用默认值。

首先对垃圾网页数据集进行了关联属性分析并分组PCA,选取每组累积贡献率95% 以上的主成分,对数据集进行降维把数据集维度从137 维降为60 维,极大缩小了数据集规模,可有效提升垃圾网页的分类效率。

再将传统的SVM,Naïve Bayes,J48 等单一分类器与关联属性分组PCA+SVM方法进行了比较,实验结果见表4。在单一分类器中,SVM以0.942 的高检测率表现出良好的检测性能;而对数据集关联属性分组PCA后,相比于SVM单一分类器,各项指标都得到了明显提升, Precision,Recall, F1 值分别提高了6.2,0.5,1.1 个百分点。同时,与Adaboost M1 集成方法相比,各项指标值得到了不同程度的提高,其中分类准确率Precision由94.3% 提升到了94.9%,提高了0.6 个百分点;与Bagging集成方法相比,分类准确率Precision由93.3% 提升到了94.9%,提高了1.6 个百分点。由此可以看出,对数据集关联属性分组PCA可以有效降低数据集的特征冗余,显著提高SVM分类器的分类性能。

6 结束语

主成分分析是多元数据分析方法之一。它在降低数据维度,提高分类器分类性能等方面得到了广泛应用。本文对关联属性分组主成分分析,选取每组最高贡献率的主成分作为SVM的输入特征集空间,减少了数据冗余,保持了原数据集特征属性的结构完整性。实验证明,本文提出的方法有效提高了SVM分类器对垃圾网页检测的速度与精度。

摘要:垃圾网页(Web Spam)的大量存在严重降低了搜索引擎的检索效率。针对垃圾网页内容特征、链接特征的高维性及特征属性间的冗余性,本研究先对垃圾网页数据集中具有较高相关度的关联属性进行分组主成分分析(PCA),并选取最高贡献率的第一主成分的主要属性,从而减少冗余。再使用支持向量机(SVM)分类模型对处理后的数据集进行分类实验。实验结果表明,本文提出的方法可有效提高SVM对垃圾网页的分类性能。

主成分分析技术 篇9

提高自主创新能力,建设创新型国家。这是国家发展战略的核心,是提高综合国力的关键。科技型中小企业是我国技术创新的生力军,因此也是建设创新型国家的基础力量。大量实践表明,科技型中小企业是各国发展高新技术产业和建立国家创新体系的重要主体,同时技术创新也是科技型中小企业生存与发展的原动力。加强科技型中小企业的技术创新能力,依靠科技进步有效实现经济发展方式的转型,从长期来看是推进创新型国家建设的重要途径。如何认识科技型中小企业的技术创新能力及其影响因素,就成为实现这一目标的前提。基于此,本文将在重新审视科技型中小企业和技术创新的内涵的基础上,通过实证研究,采用主成分分析法对科技型中小企业技术创新能力的影响因素进行分析,这对科技型中小企业在激烈的市场竞争环境中提高技术创新能力和增加企业竞争力具有重要的实际意义,对促进区域产业转型和经济发展具有重要的理论指导意义。

2 文献综述

2.1 科技型中小企业内涵研究

对科技型中小企业内涵的界定,国外通用的名称为高技术小企业(或公司),它通常被定义为“高技术在企业价值活动(即企业内部为了将投人的各种资源成功地转化为利润而进行的各种活动)中充分渗透和作用的企业”,这类企业是需要不断进行高水平创新的企业,其市场可能在一夜之间发生变化,因而呈现出明显的高增长率、高额的研究与开发费用、高附加值、高技能劳动力密集等特点,而其真正的生产力则主要体现在产品上。而在我国,尽管不同学者从不同角度界定了中小科技型企业,例如侯祥鹏(2009)认为“从理论研究的角度出发,应该着重从‘质’(科技型)和‘量’(中小规模)这两个维度把握其内涵”。但在研究和实践中,一般都依据科技部于1999年设立科技型中小企业技术创新基金时,首次定义的科技型中小企业的内涵。

2.2 技术创新研究

国内外学者对企业技术创新能力的研究主要集中在以下两个方面:

第一,诸多学者从不同的角度讨论了企业技术创新的影响因素。Nawaz Sharif(1994)认为企业要实现有效的技术创新,会受到技术所有者或供应者、政策法规、用户和社会、竞争者等四方面环境因素的制约。G.Scott Erickson(1996)研究了国家创新系统对管理行为的影响。Burgeman认为,企业的技术创新能力由可利用的资源、对竞争对手的理解、对环境的了解能力、公司的组织结构和文化、开放性战略等构成。安同良等(2006)研究了行业、企业规模和所有制特征对中国制造业企业创新活动的影响。张杰等(2007)研究了企业规模、出口、集聚效应等因素对企业创新活动的影响。

第二,技术创新能力的评价方法。较早对企业技术创新能力进行评价的是Steele(1988),他曾经用核对表(Checklist)的形式对R&D活动进行了评价。20世纪90年代中期以后,国内外对企业技术创新能力度量的研究开始活跃起来,使用的方法也日趋丰富。Vitorio认为技术创新能力是由组织能力、适应能力、创新能力和技术与信息获得能力组成的。魏江和许庆瑞等认为技术创新能力是人员能力、信息能力、设备能力、组织能力、技术储备能力、研发能力、市场营销能力、生产能力、资金能力的总和。傅家骥认为技术创新能力由创新资源投入能力、创新管理能力、创新倾向、研究开发能力、制造能力和营销能力等6个能力要素组成。

3 实证研究

3.1 科技型中小企业技术创新能力的影响因素模型

企业技术创新能力是一种通过对企业既有存量资源的整合,并且在一种新思想或新方法的指导下,为企业提供新产品、新工艺或新服务,同时最终能够为企业带来商业利润的能力。影响企业技术创新的因素是多元和复杂的,而科技型中小企业又有着自身的企业特点,受外部环境变化影响较大,因此科技型中小企业技术创新能力的影响因素模型既要考虑企业内部的因素,又要考虑外部的因素。科技型中小企业技术创新能力首先要有企业的内部资源作基础,企业有更多的资源,才有为技术创新增加投入的能力。内部资源是企业技术创新的前提条件和基本保障。此外,企业的创新条件也是内部主要影响因素。企业只有提供良好的创新条件,技术创新活动才能顺利地进行下去,才能推动科技型中小企业低成本、高效率地进行技术创新。另外,“科技创新,以人为本”,人才是企业完成技术创新的关键,因此人才基础是影响科技型中小企业技术创新能力的又一主要方面。外部影响因素既要考虑科技型中小企业所在产业的发展状况,同时也要考虑国家整体的环境因素,因为产业发展状况影响着企业技术创新的水平和未来发展的前景,而中小企业自身先天条件不足,使其受环境影响就较大。在总结和归纳以上各种因素的基础上,本文提出了分析模型,如图1所示。

3.2 问卷的设计和发放

基于所建立的科技型中小企业技术创新能力主要影响因素模型,从内部资源、创新条件、人才基础、产业状况、环境因素等方面设计量表(如表1),对科技型中小企业技术创新能力的影响因素进行分析。量表的指标均按5点李克特式量表法来量度,即分为“没有影响、影响不大、影响一般、影响较大、影响很大”。在进行问卷统计时,分别将这五个档次分别打分“1、2、3、4、5”,从而得到各个需求因素的重要程度得分。

3.3 样本的描述性统计

本文以科技部设立科技型中小企业技术创新基金时定义的科技型中小企业标准在广东省发放调查问卷100份。共回收问卷88份,其中有效问卷85份,占全部问卷的85%。样本的基本情况如下:

(1)从分布地区看,珠三角、粤东、粤西和粤北的企业数量占企业总数的比重分别是78.10%、8.87%、7.10%和5.92%,珠三角的企业数量占有绝对优势。

(2)从企业形式上看,民营(私营)企业占调查企业总数的69.82%,集体企业占10.65%,国有企业只占1.18%。此外,中外合资、中外合作以及外资企业所占比重分别为5.91%、8.87%和3.55%。

(3)从组织形式上看,有43家采用了有限责任公司组织形式,占调查企业的50.59%;有9家企业采用了股份有限公司的组织形式,占调查企业的10.58%;采用个人独资形式和合伙制形式的企业数量分别占调查企业总数的20.71%和18.12%。

(4)从产业分布面上看,化工企业占18.93%、电子企业占22.48%、机械企业占16.57%、建材企业占5.92%、轻工企业占7.11%、食品企业占3.55%、纺织企业占5.92%、通信企业占8.87%、服务业占10.65%。

3.4 因子分析

首先对数据进行信度和效度检验,随后运用主成分分析法对科技型中小企业技术创新的主要影响因素进行分析。

3.4.1 信度检验。

调查问卷的信度也就是问卷的可靠性,是评判量表是否稳定与一致的重要指标,也就是反映实际情况的程度。具体来说,是指检验量表内部各个项目间相符合的程度以及两次度量结果前后是否具有一致性。信度系数愈高即表示该测验的结果愈一致、稳定与可靠。

信度检验常用的方法包括:重测信度法、复本信度法、折半信度法以及Cronbach a信度系数法等。本文采用SPSS19.0中Scale的Reliability Analysis模块中测量Cronbach a的方法。当系数为1.00时,说明测试的可靠性达到最高程度;而系数是0.00时,则测试的可靠性降到最低程度。在一般情况下,系数不会高到1.00,也不会降到0.00,而是在两者之间。通常认为,被测量变量的Cronbach a值在[0.60,0.70]内具有较好的内部一致性,而如果其数值在[0.70,0.80]之间就达到相当好的水平。为此,将从内部资源、创新条件、人才基础、产业状况、环境因素等方面进行信度检验。

从表2可以看出,Cronbach a值都超过了0.7,说明测量的一致性水平非常高,且通过重复度量方差F—test结果的P值在0.01水平上具有显著性,因此本文中各变量具有较高的可信度。

3.4.2 KOM和Bartlett检验。

在进行因子分析之前,本文运用KMO和Bartlett检验方法对原有变量进行相关性检验,看原有变量之间是否适合因子分析。一般来说Bartlett检验与KMO检验中,KMO的标准是:>0.9,非常适合;0.8,适合;0.7,一般;0.6,不太适合;<0.5,极不适合。本文的样本数据的检验结果如表3所示。

从表3可以看到,样本数据检验的KMO系数为0.778,卡方值为76.890,Bartlett检验的自由度为10,显著性小于0.001,所以,原有变量之间存在相关性,相关矩阵不是单位阵,原变量适合进行因子分析。

3.4.3 主成分分析。

本文采用主成份方法,以特征根大于等于1为标准提出公因子,对提取的公因子采用方差最大法进行因子旋转。

从表4可以看出,内部资源因素中的生产设备水平、生产制造能力、资产比例、信息化程度、资金水平5个指标可以归结为2个因素,其累计方差贡献率达到了76.406%,信息丢失量较少。其中因素1与生产设备水平、生产制造能力密切相关;因素2与营销能力、资产比例、资金水平。因此本文将因素1称为生产能力,因素2称为赢利能力,并认为生产能力和为赢利能力是科技型中小企业技术创新能力的重要影响因素。

从表5中可以看出,研发经费投入强度、创新激励机制、创新氛围、创新技术转化能力创新战略5个指标可以归结为2个因素,其累计方差贡献率达到了74.381%,信息丢失量较少。其中因素1与研发经费投入强度和创新技术转化能力密切相关;因素2与创新激励机制、创新氛围和创新战略密切相关。本文将因素1称为技术创新绩效,因素2称为技术创新机制,并认为技术创新绩效和技术创新机制是科技型中小企业技术创新的重要影响因素。

从表6可以看出,人才基础中的研发人员比例、领导者素质、技术工人水平、技术培训强度和企业文化氛围5个指标可以归结为2个因素,其累计方差贡献率达到了78.623%。其中因素1与研发人员比例、领导者素质、技术工人水平相关;因素2与技术培训强度和企业文化氛围密切相关。将因素1称为技术创新管理能力,因素2称为企业的人力资源投入,并认为技术创新管理能力和企业的人力资源投入是科技型中小企业技术创新能力的重要影响因素。

从表7可以看出,产业状况中的产业发展阶段、产业创新水平、产业技术水平、产业发展趋势和产业发展规划5个指标可以归结为2个因素,其累计方差贡献率达到了77.256%。其中因素1与产业发展阶段、产业创新水平、产业技术水平相关;因素2与产业发展趋势和产业发展规划密切相关。将因素1称为产业技术创新水平,因素2称为产业的发展战略,并认为产业技术创新水平和产业的发展战略是影响科技型中小企业技术创新能力的重要影响因素。

从表8可以看出,环境因素中的经济环境、科技环境、金融环境、政策环境和法律环境5个指标可以归结为3个因素,其累计方差贡献率达到了82.472%,信息丢失量较少。其中因素1与经济环境和金融环境密切相关;因素2与科技环境密切相关;因素3与政策环境和法律环境密切相关。将因素1称为经济金融环境,因素2称为科技环境,因素3称为政策法律环境,并认为经济金融环境、科技环境和政策法律环境是科技型中小企业技术创新能力的重要影响因素。

4 结论

本文基于科技型中小企业技术创新能力的研究现状,通过运用主成分分析法对科技型中小企业技术创新能力的影响因素进行了分析,得出以下几点结论:

第一,科技型中小企业技术创新能力受一系列因素的影响,这些因素既有来自企业内部的,也有来自企业外部的,而且内外部因素往往是交织在一起相互影响的。影响科技型中小企业技术创新能力的内部因素包括内部资源、创新条件和人才基础等,外部因素包括产业状况和环境因素等。

第二,在内部影响因素中,生产能力和赢利能力、技术创新绩效和技术创新机制、技术创新管理能力和企业的人力资源投入分别是影响科技型中小企业创新能力的重要内部资源、创新条件和人才基础。在外部影响因素中,产业技术创新水平和产业的发展战略、经济金融环境、科技环境和政策法律环境是影响科技型中小企业创新能力的产业状况和环境因素。

第三,提高科技型中小企业的技术创新能力,首先中小企业要提高自身的各方面能力,比如生产能力和盈利能力,这样才能为企业的技术创新奠定良好的基础;同时企业也要改善创新条件,提高技术创新绩效,建立技术创新机制;此外,企业还要提高创新管理能力,提高企业家的创新意识,建立有效的人才激励机制,调动科技人才的创新积极性,挖掘他们的创新潜力,保证企业的创新活动不断进行下去。

第四,提高科技型中小企业的技术创新能力,也要有良好的创新环境。要营造鼓励从事创新活动和投资于创新活动的氛围,这些都会激励企业和有关机构加大对中小企业技术创新活动的投入,从而使科技型中小企业技术创新活动得到更好的保障。

参考文献

[1]侯祥鹏.科技型中小企业技术创新的影响因素[J].现代经济探讨,2009(11):48-52

[2]GOULD A.Small Business in America:Overview and Issues[M].Nova Science Publishers,Inc.,New York,2002

[3]安同良,施浩,ALCORTA.中国制造业企业R&D行为模式的观测与实证:基于江苏省制造业企业问卷调查的实证分析[J].经济研究,2006(2):45-48

[4]田依林.企业技术创新能力评价指标体系模型研究『J].科技管理研究,2009(7):173-175

[5]BURGELMAN R A.Strategic management of technology and innova-tion[M].2nd Edition.Mcgraw—Hill,1996:117-158

[6]CHIESA V.Technology development control styles in multi-nationalcorporations:a case study[J].Journal of Engineering and Technolo-gy Management,1999,16(2):312-320

[7]魏江.企业技术能力论——技术创新的一个新视角[M].北京:科学出版社,2002

[8]李琰.江苏省企业技术创新能力综合评价研究[D].东南大学硕士学位论文,2005

[9]魏江.企业技术创新能力的界定及其与核心能力的关联[J].科研管理,1998(6):42-45

主成分分析技术 篇10

在经济管理、工程技术等研究领域,多元线性回归是应用最为广泛的统计分析与预测技术之一,它一般采用最小二乘方法(Ordinary Least Squares,简称OLS)估计回归系数,以使残差平方和达到最小;但当数据观察次数n小于自变量个数p时,自变量之间存在多重相关性,此时OLS方法失效。而这种自变量之间多重相关性问题在多元线性回归分析中危害非常严重,但又普遍存在。为消除这种影响,目前学术界的解决方法主要有两种:(1)采用主成分回归(Principal Components Regression,简称PCR)方法,这种方法虽然能够消除自变量之间存在的多重相关性,但由于提取成分时没有考虑到与因变量的联系,因此经常出现主要成分对因变量的解释性不强的情况。(2)针对PCR的缺陷,文献[1]中提出了偏最小二乘回归(Partial Least Squares Regression,简称PLSR)方法。近年来的理论和实践研究都表明,PLSR的成分提取和参数估计依然会受到自变量严重多重相关性的影响[2]。此外,其迭代算法容易产生较大的累计计算误差。

本文从经典主成分回归的基本原理出发,分析了PCR的优点和不足,重点探讨了主成分个数m优化选择问题,并用我国沪指数据与所有的沪市A股交易波动数据进行PCR实证分析。

1主成分回归基本原理[4]

因变量Y与p个自变量X1,X2,…,Xp,做n次观察的多元线性回归模型为:

记Z=(Z1,…,Zr,…,Zp),则

Z=X·A,X=Z·AT,由主成分原理知,Z1,…,Zp即为X的所有主成分。

由高斯-马尔科夫定理可知,式(2)中,回归系数B的最小二乘线性无偏估计为:

主成分回归方程为:

2 PCR方法性能分析

评价线性回归模型的性能可从两方面进行:拟合的有效性和模型的稳定性。下面从式(4)中分析Y与X的回归性能(特别情况下,可从式(3)中取数分析)。

3主成分个数m与模型性能关系分析

4 PCR方法实证分析

设pij表示某j只股票第i周的收盘价,其对数收益为:xij=lnpij-lnp(i-1)j,现从2013年6月1日至2014年8月31日沪市A股65个交易周中,滤去有停牌的股票,共选取640只股票及相应的沪市A股大盘指数周收益数据Y=(y1,…,y65)T,得数据矩阵如表一所示。

图一前30个主成分的累计贡献率

图二主成分个数m与残差平方和、回归系数的均方误差

(4)当m=27时,由Matlab7.0编程,得主成分回归模型:

图三应变量Y与其估计值的拟合

后13周预测拟合图如图四所示。

图四应变量Y的预测与其观测值的拟合

5模型检验

6结束语

从本文的实证分析中可看出,对于自变量个数p较大,而样本数m较小的情况下,PCR是一种非常有效且适用的技术方法,其拟合和预测效果均比较理想。

摘要:针对多元线性回归模型中,自变量之间存在多重相关性问题,本文根据主成分回归原理建立模型,对主成分个数选择与模型的性能之间的关系进行了详细分析,并用沪市A股收益波动性数据进行了实证分析。结果表明:当主成分个数m增加时,模型的残差平方和SES会下降,而回归系数的均方误差MSE会上升,因此m的选择应以SES和MSE的变化趋势交点为宜。

关键词:多元线性回归,最小二乘法,主成分回归

参考文献

[1]Wold S,Albano C,Dunn M,et al.Pattern Regression Finding and Usingr Egularitiesin Multivariate Data[M].London:Analysis Applied Science Publication,1983.

[2]王惠文,王吉力,黄海军.主成分回归的建模策略研究[J].北京航空航天大学学报,2008,34(06):661-664.

[3]童恒庆.理论计量经济学[M].北京:科学出版社,2005.

[4]高慧璇.应用多元统计分析[M].北京:北京大学出版社,2005.

[5]曲双红,李华,李刚.基于主成分分析的几种常用改进方法[J].统计与决策,2011,(05):155-156.

[6]韩汉鹏.偏最小二乘法在回归设计多因变量建模中的应用及其优化[J].数理统计与管理,2007,26(02):303-307.

[7]熊幼林.病态线性回归模型系数的主成分——岭估计[J].数学学习与研究(教研版),2014,(09):121.

注:本文为网友上传,旨在传播知识,不代表本站观点,与本站立场无关。若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:66553826@qq.com

上一篇:白芷化学成分分析论文 下一篇:川芎化学成分分析论文