主成分分析与因子分析的优缺点

关键词: 竞争力 优缺点 引言 产业

主成分分析与因子分析的优缺点(共14篇)

篇1:主成分分析与因子分析的优缺点

主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差-协方差结构.综合指标即为主成分.所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关.因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法.聚类分析是依据实验数据本身所具有定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述过程.其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似.三种分析方法既有区别也有联系,本文力图将三者的异同进行比较,并举例说明三者在实际应用中的联系,以期为更好地利用这些高级统计方法为研究所用有所裨益.二、基本思想的异同(一)共同点

主成分分析法和因子分析法都是用少数的几个变量(因子)来综合反映原始变量(因子)的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题.并且新的变量彼此间互不相关,消除了多重共线性.这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量.在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,...,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到.在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱.因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分.公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子.对新产生的主成分变量及因子变量计算得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度.聚类分析的基本思想是: 采用多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏差异程度,归入不同的分类中一元,使分类更具客观实际并能反映事物的内在必然联系.也就是说,聚类分析是把研究对象视作多维空间中的许多点,并合理地分成若干类,因此它是一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系[3 ].聚类分析是通过一个大的对称矩阵来探索相关关系的一种数学分析方法,是多元统计分析方法,分析的结果为群集.对向量聚类后,我们对数据的处理难度也自然降低,所以从某种意义上说,聚类分析也起到了降维的作用.(二)不同之处

主成分分析是研究如何通过少数几个主成分来解释多变量的方差一协方差结构的分析方法,也就是求出少数几个主成分(变量),使它们尽可能多地保留原始变量的信息,且彼此不相关.它是一种数学变换方法,即把给定的一组变量通过线性变换,转换为一组不相关的变量(两两相关系数为0 ,或样本向量彼此相互垂直的随机变量),在这种变换中,保持变量的总方差(方差之和)不变,同时具有最大方差,称为第一主成分;具有次大方差,称为第二主成分.依次类推.若共有p 个变量,实际应用中一般不是找p 个主成分,而是找出m(m < p)个主成分就够了,只要这m 个主成分能反映原来所有变量的绝大部分的方差.主成分分析可以作为因子分析的一种方法出现.因子分析是寻找潜在的起支配作用的因子模型的方法.因子分析是根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同的组的变量相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子.对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量.通过因子分析得来的新变量是对每个原始变量进行内部剖析.因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子和特殊因子两部分.具体地说,就是要找出某个问题中可直接测量的具有一定相关性的诸指标,如何受少数几个在专业中有意义、又不可直接测量到、且相对独立的因子支配的规律,从而可用各指标的测定来间接确定各因子的状态.因子分析只能解释部分变异,主成分分析能解释所有变异.聚类分析算法是给定m 维空间R 中的n 个向量,把每个向量归属到k 个聚类中的某一个,使得每一个向量与其聚类中心的距离最小.聚类可以理解为: 类内的相关性尽量大,类间相关性尽量小.聚类问题作为一种无指导的学习问题,目的在于通过把原来的对象集合分成相似的组或簇,来获得某种内在的数据规律.从三类分析的基本思想可以看出,聚类分析中并没于产生新变量,但是主成分分析和因子分析都产生了新变量.三、数据标准化的比较

主成分分析中为了消除量纲和数量级,通常需要将原始数据进行标准化,将其转化为均值为0方差为1 的无量纲数据.而因子分析在这方面要求不是太高,因为在因子分析中可以通过主因子法、加权最小二乘法、不加权最小二乘法、重心法等很多解法来求因子变量,并且因子变量是每一个变量的内部影响变量,它的求解与原始变量是否同量纲关系并不太大,当然在采用主成分法求因子变量时,仍需标准化.不过在实际应用的过程中,为了尽量避免量纲或数量级的影响,建议在使用因子分析前还是要进行数据标准化.在构造因子变量时采用的是主成分分析方法,主要将指标值先进行标准化处理得到协方差矩阵,即相关矩阵和对应的特征值与特征向量,然后构造综合评价函数进行评价.聚类分析中如果参与聚类的变量的量纲不同会导致错误的聚类结果.因此在聚类过程进行之前必须对变量值进行标准化,即消除量纲的影响.不同方法进行标准化,会导致不同的聚类结果要注意变量的分布.如果是正态分布应该采用z 分数法.四、应用中的优缺点比较(一)主成分分析

1、优点

首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息.其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价.再次它在应用上侧重于信息贡献影响力综合评价.2、缺点

当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确.命名清晰性低.(二)因子分析

1、优点

第一它不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,找出影响变量的共同因子,化简数据;第二,它通过旋转使得因子变量更具有可解释性,命名清晰性高.2、缺点

计算因子得分时,采用的是最小二乘法,此法有时可能会失效.(三)聚类分析

1、优点

聚类分析模型的优点就是直观,结论形式简明.2、缺点

在样本量较大时,要获得聚类结论有一定困难.由于相似系数是根据被试的反映来建立反映被试间内在联系指标,而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误.

篇2:主成分分析与因子分析的优缺点

主成分分析:是把几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关的一种数学降维的方法。

全成分分析:是将送检样品中的原材料、填料、助剂等进行定性定量分析。塑料原材料种类,填料种类、粒径,助剂种类都能影响对产品的性能、寿命,通常是同一种原材料、同 一种填料,因为助剂种类的不同,造成产品性能大不相同。

主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。在实际问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太 多会增加计算量和增加分析问题的复杂性人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主要目的是希望用较少的变量去解释原来资料中的大部分变量,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少,能解释大部分资料中变量的几个新变量,即所谓主成分,并用以解释资料的综合性指标。由此可见,主成分分析实际上是一种降维方法。

分析步骤

数据标准化;

一、求相关系数矩阵;

二、一系列正交变换,使非对角线上的数置0,加到主对角上;

三、得特征根xi(即相应那个主成分引起变异的方差),并按照从大到小的顺序把特征根排列;

四、求各个特征根对应的特征向量;

五、用下式计算每个特征根的贡献率Vi;

Vi=xi/(x1+x2+........)

六、根据特征根及其特征向量解释主成分物理意义

主成分分析的基本思想

主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标

主成分分析,是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关.通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标

篇3:主成分分析与因子分析的优缺点

20世纪80年代初, 广东省新兴县簕竹镇榄根管理区的温北英等与温木辉、温树汉、古章汉先后以养鸡起家。90年代, 他们都成立了庞大的养鸡公司 (或集团) , 这些公司 (或集团) 均成为风云一时的龙头企业, “三温一古”一时传为谈。他们创立的“公司+农户模式更在全国推广。但是, 由于种种原因, 先后有温木辉养鸡公司、温树汉养鸡集团、古章汉的万益公司轰然倒下, 或被接管, 或走向破产, 现在仅有温氏集团以2007年117亿的销售额、17亿元的纯利润一枝独秀, 成为广东最大的农业畜牧龙头企业。广东温氏食品集团有限公司是以养鸡、养猪为主业, 辅之以食品加工、动物保健品的大型农牧企业集团, 下属有70多家分 (子) 公司, 现有员工13000多人。公司以“公司+基地+农户”的方式组织生产, 2007年直接带动农户30000多户增收10多亿元。集团公司坚持以畜牧业为主的发展方向, 稳步发展肉鸡业, 加速发展养猪业, 探索发展奶牛业、食品加工、动物保健品等, 养殖业有关的其他行业, 取得了较好的业绩。

温氏食品集团拥有自己的一套管理法则, 本文主要探索温氏食品集团企业精神和人本管理, 以及员工满意度评价。

二、温氏精神与人本管理

(一) 温氏精神

温氏企业文化最高层面的就是“温氏精神”。企业文化是温氏凝聚人心的支柱, 它起源于集团创始人温北英先生的“大同思想”和“造福员工、造福社会”的高尚思想。后在实践中不断提炼、高度概括而成。共44个字, 即“精诚合作, 各尽所能;用科学, 办实事, 争进步, 求效益;文明礼貌, 胸怀广阔, 磊落光明;同呼吸, 共命运, 齐创满生活。”

从“温氏精神”的表述中看, 起码包含五层含义:一是突出强调“合作”。二是把依靠科学摆在第一位。三是强调务实。四是对员工素质要求。五是展示温氏人共同憧憬的理想和目标, 即“齐创满生活”。看得见、摸得着、不虚幻, 令人信服。温氏精神, 被集团谱曲后编成《温氏之歌》, 经过经常地传唱, 使集团全体员工牢固树立起“温氏兴旺我光荣, 温氏衰落我耻辱”的思想, 使之成为温氏企业文化的核心和企业行为准则, 成为温氏人共同的精神支柱。

(二) 人本管理

温氏的人本管理主要表现在:一是科学的用人观。二是严格的考评制度。对公司技术人员和普通员工每月考评一次;对老总与企业主管每两年考评一次;对班组长每年考评一次。三是合理的授权。如总经理授权副总经理直接管理3个部门。四是优越的工资、福利待遇。公司为正式工购买相关保险, 员工每月享受伙食补贴180元, 还有住房、水电福利。五是和谐的上下级关系。公司领导与员工, 上班是领导与被领导关系, 下班后就是朋友关系。六是常规化的培训。为不断提高干部员工业务素质与思想品质, 公司定期组织培训:全员一年3次-4次;中层干部每年到总部集中培训一次;总经理每月培训1次。另外, 在温氏没有“开除”一词, 只有“放假”, 即给员工以充分的改正错误的机会。

为了了解企业内部员工对企业管理和企业满意情况的客观评价, 研究不同因素水平的员工的评分差别, 要加深数理研究。本文通过问卷调查的方式, 进行数据收集

三、问卷设计与数据来源

问卷调查采用10分制, 在问题的描述性统计中, 企业员工的归宿感、积极性和长期工作方面的得分都在8分以上, 属于优秀, 说明温氏食品集团能够给员工带来一个很好的工作和生活的环境, 员工拥有很强的归宿感, 员工工作的积极性很高, 并且愿意长期在温氏食品集团工作和生活。在企业工资福利满意度方面, 评分值为7.24分, 评分值属于良好, 说明员工对企业工资福利满意度较高。在人才结构满足未来发展能力、科研人才的科研能力、企业管理理念和手段方面的评分值分别为7.17分、7.26分和7.28分, 评分值属于良好, 说明温氏食品集团的人才结构基本跟能够满足未来发展需要, 科研人才的科研能力较强, 企业管理理念和能力够满足企业发展需要, 但这些方面还有待进一步加强

四、问卷质量检验

(一) 信度检验

为了评估调查问卷的内在信度, 采取学术上常用的Cionbach’a系数来度量.统计结果:a系数达0.8以上, 而且删除任何一个题目都不能使问题设计的a值得到有效改善, 所以认为其问题内部一致性、可靠性和稳定性很好。

(二) 结构效度

本文采用主成分分析法对问卷数据进行压缩提取得一个主成分, 所以要对数据的结构效度进行检验。进行KMO检验与巴雷特球形检验, 以测试问卷结果是否适合进行因素分析 (主成分分析法是因素分析法的一个特例) 。KMO检验结果中的KMO值达0.748, 而KMO值一般在0.7以上即适合进行因素分析。巴雷特球形检验结果为, 在自由度为6的条件下, 其卡方值为472.81, 可以认为相关系数矩阵显著不为单位阵, 原始变量之间相关, 适宜作因素分析。分析显示, 主成分对6个问题数据的信息提出都在50%以上, 两个主成分累积贡献率达62.27%可以认为主成分基本概括对4个问题的数据的信息, 有很强的代表性。

由主成分提取结果表明主成分1在人才结构、科研人才和理念手段的载荷较高, 称为企业管理因子, 它反映了这三个问题的综合信息;主成分2在其余的4个问题载荷较高, 成为员工满意度因子, 它反映了员工满意情况的综合信息。所以通过主成分提出能合理地把问题分成两类, 并由原来的7个问题可以综合成两个主成分进行方差分析比较。

五、多因子方差分析

本文采用主成分分析法, 本次分析将企业内部员工对四个问题的评分的主成分作为因变量, 而因素则包括年龄、学历、工龄、职务四项。又因为考虑到这四个因素之间可能会产生交互作用, 从而共同对内部员工的企业家创新能力评价产生影响。因此采用单变量多因素方差分析较为适宜。通过模型的改进, 最终确立模型为:Intercept+年龄+职务+学历+工龄+职务*工龄+年龄*职务+年龄*学历+年龄*工龄+职务*学历+学历*工龄, 其中*表示两个因素的交互效应

(一) 企业管理分析

对企业管理主成分进行多因素方差分析, 结果表明, 年龄、学历、工龄、职位四个因素影响均未达到显著水平 (sig>0.05) , 也即是说四个因素单独不太可能共同影响内部员工对企业管理的综合评价, 认为各因素水平的内部员工对企业管理评价没有差异。再观察年龄、学历、职位、工龄四个因素交互作用对企业家创新能力的综合评价影响, 发现职务与工龄的交互作用对企业创新能力综合评价影响明显。在一般员工中4种工龄的主成分得分都在零附近, 但在基层管理人员中1-2年工龄的员工主成分得分明显偏低接近-1.5, 农户中1年工龄以下员工主成分得分也明显偏低, 同样接近-1.5。可见构成员工对企业核心技术综合评价的影响因素不是单独, 而是互相联系。因为不存在学历、年龄影响, 究其原因可能是1-2工龄的基础管理人员和刚加入企业的农户对企业的管理方法认识不足。以至对综合评分较低, 会减低企业内部的运行效率。

(二) 员工满意度分析

员工满意情况上, 与企业管理有所不同, 其交互作用项均没有显著差异, 但职务、工龄差异显著, 说明职务和工龄是影响员工满意的主要因素。

通过LSD多重比较, 发现在职务农户满意情况显著偏低, 与其他职务员工有明显差别, 农户不算企业内部人员故对待遇满意评分低, 可见企业在管理中应加强团结农户, 以使其更热心服务与企业。其次一般员工与基层管理人员也有显著差别, 管理人员满意度普遍高于其他员工, 说明企业对管理人员有较好吸引力, 但同时要注意对一般员工的待遇。在工龄上工龄5年以上员工对待遇满意最高, 3-5年的员工最低, 两者有显著差异, 说明3-5年的员工的期望待遇与实际待遇存在一定差距, 会影响其工作积极性。

六、结论

在企业管理方面, 三个问题平均评分都低于7.3分, 只属于良好水平, 说明员工认为企业的管理水平还有很大的提升空间。从多因子方差分析看, 1-2工龄的基础管理人员和刚加入企业的农户对该评分显著较低, 说明存在员工对企业管理认识程度不同的情况, 应提高他们的企业管理文化认知水平。

员工满意度方面, 员工对工资福利评分较低, 其余题目评分均在8分以上, 属于优良水平, 可见工资福利员工满意度的主要问题。从多因子方差分析看, 农户满意度最低, 与其他水平的员工都有显著差异, 而基层管理人员满意度最高和一般员工有显著差别。而在工龄上3-5年工龄员工与5年工龄以上员工有明显差别。所以企业要注意基层管理员工和一般员工的待遇差别, 和3-5年工龄员工与5年工龄以上员工的待遇差别, 平衡员工间的满意水平, 企业才能有一个和谐的生产环境。

参考文献

[1]、牛刚.合作经营的一种新形式——温氏集团实证研究[J].西北农林科技大学学报 (社会科学版) , 2001 (6) .

[2]、牛宝俊, 李大胜, 熊启泉.“三温一古”养鸡产业化经营模式的实证分析[J].农业经济问题, 2000 (1) .

[3]、吕建秋, 毕英左, 徐思祖.从温氏集团看农业科技产业与农业企业制度创新[J].农业科研, 1998 (4) .

[4]、张建华.创新、激励与经济发展[M].华中理工大学出版社, 2000.

[5]、齐莲英.现代西方企业行为模式研究[J].经济学动态, 1998 (5) .

篇4:主成分分析与因子分析的优缺点

关键词】主成分分析;因子分析;新指标解释

一、引言

随着数理统计理论的发展,作为它的分支的“多元统计分析方法”在近20年越来越受到人们的重视。这不仅是因为很多事情都是带有随机因素,而且在具体分析问题的时候,人们需要考虑的因素不止有一个。比如在购物的时候,我们评价商品并不是仅仅看其价格,还要关注质量、保修期等多方面的因素。在学校里,评价一个学生也是至少需要“德、智、体”三方面的指标。多元统计分析就是用统计的方法分析这种带有多指标的随机性问题。上述的例子所涉及的指标其实并不多,但更多的时候会遇到很多指标,如考察一个企业,需要了解规模、产量、产值、税收、员工数、利润等,如果我们关注所有的指标就会大大增加分析的复杂性,而且也不宜抓住主要的因素。因此有必要对这些原始的指标数据进行降维,亦即用较少的新指标来代替原始指标,这就是主成分分析与因子分析在解决问题时所要体现的思想。可以说,出于数据降维的目的它们是没有区别。

二、具体实例分析

但是在新生成的指标的解释方面,它们还是有较大不同的。首先看一下两种方法的数学模型。主成分分析是考虑原来的指标的线性组合,把原始指标的线性组合叫做主成分。从这一点可以看出,主成分其实就是原来指标压缩综合。而因子分析模型则是把原始指标表示成因子的线性组合(如果姑且不去考虑随机扰动的因素),也就是说因子分析的目的是要找出影响所有原始指标的内在因素。因此尽管两种方法都是对原始数据进行降维,得到新的指标,但是在对新指标的解释是有不同的。下面分析一个具体例子。该例通常出现在统计教科书中因子分析一章,但本文从主成分分析和因子分析两方面同时对其进行剖析

考察某校学生的学习成绩状况。随机抽取了30个学生关注起数学、物理、化学、语文、历史、英语六门课程成绩。故形成了如下的30行、6列的原始数组。我们需要从中提炼出1,2个新指标

通过MATLAB软件中的主成分分析与因子分析程序,可以看到通过两种方法的数据降维处理后按照累计贡献率均提炼出了两个新的指标,它们都是从上述的原始二维数组出发,计算其协方差距阵的特征值与特征向量,因此很容易搞不清楚所得到的两个新变量到底是主成分变量,还是因子变量。其实,我们此时回顾一下前文中提到的数学模型就清楚了。主成分分析是原始变量的线性组合,结合此例,即为所获得的两个新指标是原始指标的综合。又注意到原始变量前的组合系数(也叫作载荷)大小,不难发现,在其中的一个新指标中数学、物理、化学、三科占的比重比较大,因此可以把该综合指标形象地称为“理科”主成分;而在另一个新指标中语文、历史、英语三科占的比重比较大,因此可以把该综合指标形象地称为“文科”主成分。此时再考虑因子分析的模型。如前文所讲,原始变量表示成了因子的线性组合。结合此例,即数学、物理、化学、语文、历史、英语这原六个指标表示成了两个新的指标的线性组合。考虑到因子的组合系数,发现在数学、物理、化学这三科的线性表示中一个因子的组合系数比较大,而另一个比较小,因此可以把所占分量较大的那个因子形象地理解成“理性思维”因子,同样的道理可以把另一个新指标理解为“文性思维”因子。

三、总结

从此例可以看出,虽然主成分分析与因子分析都是从原始数据的协方差矩阵(有时是相关系数阵)出发,计算特征值与特征向量,按照累计贡献率大于85%的原则确定新的指标个数。但是为了避免搞混两种方法,在解释新的指标时应回馈到各自的模型上面来。即:按照主成分分析理论,新指标仅仅是原始指标的简单汇总,如果想用较少的几个变量替代原来的变量则用主成分分析;而对于因子分析,新指标则是对所有原始指标皆有影响的那些公共因子,所以当需要寻找潜在的影响要因时,倾向于用因子分析。明白了这一点,对新指标的解释也就变得顺理成章了。

【参考文献】

[1]高惠璇 应用多元统计分析 2005

[2]李静萍 谢邦昌 多元统计分析方法与应用 2008

[3]李卫东 应用多元统计分析 2008

[4]陆恒芹 苏勤 陈丽荣 女性旅游行为特征分析及其动机研究—以西递、宏村为例 2006

[5]陆虹 用因子分析测量“护士工作满意度量表”的结构效度[期刊论文] 2007

[6]赵磊 李继海 朱大洲 籍保平 5种鹿茸营养成分的主成分分析[期刊论文] 2010

篇5:主成分分析及算法

主成分分析及算法

以主成分分析(PCA)特征结构的理论分析为基础,分别从神经网络和向量量化器两个不同的角度给出了最大主成分线的算法实现和比较,并由此讨论了HEBB算法对学习率的依赖和敏感度.

作 者:李玉珍 王宜怀 LI Yu-zhen WANG Yi-huai 作者单位苏州大学,计算机科学与技术学院,江苏,苏州,215006刊 名:苏州大学学报(自然科学版) ISTIC英文刊名:JOURNAL OF SUZHOU UNIVERSITY NATURAL SCIENCE EDITION年,卷(期):21(1)分类号:O242.2关键词:主成分分析 神经网络 学习率 算法

篇6:主成分分析与因子分析的优缺点

主成分分析在河流水质综合评价中的应用

采用主成分分析法(PCA),对大沽夹河流域水质进行了定量化综合评价.结果表明:流域水质具有明显的.区域差异,在14个典型监测断面中,福山水闸下和新夹河桥2个监测断面水质污染较为严重,宫家岛等4个断面水质较好,其余断面水质良好.就全流域而言,水质污染程度不是很严重,基本满足功能区的要求.

作 者:刘德林 刘贤赵 LIU De-lin LIU Xian-zhao 作者单位:烟台师范大学地理与资源管理学院,山东,烟台,264025刊 名:水土保持研究 ISTIC PKU英文刊名:RESEARCH OF SOIL AND WATER CONSERVATION年,卷(期):13(3)分类号:P343.1关键词:烟台市 水质 综合评价 PCA分析

篇7:主成分分析与因子分析的优缺点

主成分分析法在汶川地震预测中的应用

选择与地震强度有关的3级以上地震频次N(M1≥3.0)、6值、η,值、M1值、C值和Ac值等6个参量进行主成分分析,实现对上述参量的有效约简.这6个参量之间有一定的相关性,各参量在不同时段的变化各有所异,但是根据主成分分析可以得到映应地震强度特征的综合指标W,发现该指标W在汶川8.0级大地震前出现明显的异常变化.这表明综合指标W可以较好的`反映地震活动的异常特征.

作 者:李永振 LI Yong-zhen 作者单位:辽宁省地震局,辽宁沈阳,110034刊 名:四川地震英文刊名:EARTHQUAKE RESEARCH IN SICHUAN年,卷(期):2009“”(2)分类号:P315.71关键词:主成分分析 相关性 特征向量 贡献率

篇8:主成分分析与因子分析的优缺点

产业竞争力, 指某国或某一地区的某个特定产业相对于他国或地区其他产业在生产效率、满足市场需求、持续获利等方面所体现的竞争能力。竞争力实质上是一个比较的概念, 因此, 产业竞争力内涵涉及两个基本方面的问题:一个是比较的内容, 一个是比较的范围。具体来说:产业竞争力比较的内容就是产业竞争优势, 而产业竞争优势最终体现于产品、企业及产业的市场实现能力。因此, 产业竞争力的实质是产业的比较生产力。所谓比较生产力, 是指企业或产业能够以比其他竞争对手更有效的方式持续生产消费者愿意接受的产品, 并由此获得满意的经济收益的综合能力。为解决产业竞争力的评估, 重点要确定被评估产业的要素, 在确定要素的情况下需要建立一个合理的分析评价模型, 最后是收集各个受比较地区产业要素的数据。其中以数据模型的建立最为关键, 本文着重研究基于主成分分析评价模型的设计与实现。

2、主成分分析基本思想和评价模型

2.1 基本思想

主成分分析也称主分量分析, 旨在利用降维的思想, 把多指标转化为少数几个综合指标。在实证问题研究中, 为了全面、系统地分析问题, 我们必须考虑众多影响因素。这些涉及的因素一般称为指标, 在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息, 并且指标之间彼此有一定的相关性, 因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时, 变量太多会增加计算量和增加分析问题的复杂性, 人们希望在进行定量分析的过程中, 涉及的变量较少, 得到的信息量较多。主成分分析正是适应这一要求产生的, 是解决这类问题的理想工具

2.2 评价模型

设有n个待评价的行业, 竞争力评价指标数为p个, 样本数据矩阵为:

为了消除不同指标间的量纲影响和正、逆指标影响, 将样本数据按下式标准化, 得标准化后的矩阵为, , 其中。

主成分分析就是设法将原来众多具有一定相关性的p个指标, 重新组合成一组新的相互无关的综合指标来代替原来指标, 即将分散指标信息集中化, 以尽可能少的指标来表示原来指标的全部信息。由此, 用标准化后的矩阵的p个向量作线性组合:

则F1, F2, …, Fp, 就为p个主成分。我们希望这些主成分中, 越在前面的包含原有指标的信息越多, 而包含信息的多少一般用方差来表示, 所以主成分F1, F2, …, Fp需要满足以下条件:

1) Fi与Fj (i≠j, i, j=1, 2, …, p) 不相关;

2) F1是X1, X2, …, Xp的一切线性组合中方差中最大的, F2是与F1不相关的X1, X2, …, Xp的一切线性组合中方差中最大的, ……, Fp是F1, F2, …, Fp-1都不相关的X1, X2, …, Xp的一切线性组合中方差中最大的。

可以证明, 满足上述条件的主成分F1, F2, …, Fp线性组合中的系数向量 (a1i, a2i, …api) , i=1, 2, …, p恰好是Y的协方差矩阵∑的特征值对应的特征向量。当协方差矩阵∑未知时, 可用其估计值S (样本协方差矩阵) 来代替。

而相关系数矩阵:R=(rij)其中

由于Y1, Y2, …, Yp已标准化, 所以有

计算时为简单起见, 不妨取R=YTY, 因为这时的R与只相差一个系数, 显然YTY与的特征根相差n倍, 但它们的特征向量不变, 并不影响求主成分。

设相关系数矩阵R的p特征值为λ1, λ2, …, λp, 称第一主成分的贡献率为, 它是第一主成分的方差在全部方差中的比值, 这个比值越大, 表明第一主成分综合原指标X1, X2, …, Xp信息的能力越强。前两个主成分的累计贡献率为, 前k个主成分的累计贡献率为。如果前k个主成分的累计贡献率达到85%, 表明取前k个主成分基本包含了全部测评指标具有的信息, 这样既减少了变量的个数, 又便于对实际问题进行分析和研究。

最后, 将累计贡献率达到85%的k个主成分F1, F2, …, Fk做线性组合, 并以每个主成分Fi的方差贡献率α1作为权数构造一个综合评价函数:

v=α1F1+α2F2+…+αkFk

以v为评估指数, 依据对每个评价对象计算出的v值大小进行综合排序。

3、产业竞争力的主成分分析实证评价

依据上述思想和方法, 选取销售值、增加值、利润总额、出口值、资产总额、负债合计、权益合计、实收资本、净资产利润率、总资产利润率、资本收益率、资产负债率、全员劳动生产率、出口收入占销售收入的比重等14个指标作为评价指标体系, 并以宁波部分工业行业某年数据 (如表3-1所示) 为实证研究对象

通过开发的模型软件原始数据标准化后的数据矩阵进行相关分析, 计算出特征根和累计贡献率表3-2。

由表3-2看出:当在特征根和累计贡献率表中, 因子列中表示因子的序号;特征根列中列出的是各个主成分的特征值, 特征根可以看成主成分影响力度的指标表中列出了所有的主成分, 它们按照特征根从大到小的次序排列。第一个主成分的特征根11.2730, 它解释了信息量的86.71%。第二个主成分的特征根为1.3464, 它解释了信息量的8.42%。依次类推, 得到各个主成分的特征根以及解释信息量的百分比。观察特征根列, 我们发现只有前二个主成分的特征根大于1, 按照Kaise准则只保留特征值大于1的因子, 只需要提取出前二个主成分即可。观察累计贡献率, 我们发现前二个主成分的累计贡献率为95.13%, 满足了累计贡献率大于90%的要求。累计贡献率列中的各个值表示各个因子的特征值占总方差的累计百分比。

最后计算出综合力得分表3-3

由表3-3排序结果可以看出, 在分析的10个行业中, 石油加工、炼焦等加工业、纺织服装、鞋、帽制造业、化学原料及化学制品制造业生相对较强, 其生存能力、适应能力、发展能力好于其他行业, 是宁波发展的支柱产业。

4、结论

我们在刻画某个事物时, 经常会用到多个变量, 但是由于这些变量之间往往具有相关性, 会给研究的问题带来一些不便, 同时也影响了结论的真实可靠性, 主成分分析法可以从几个变量中找出主要的变量, 同时能尽可能的避免变量的重复, 因此使研究问题变的简便和真实, 比层次分析法等更具有科学性和可操作性。

参考文献

[1]余乐安, 汪寿阳, 黎建强.基于主成分分析的社会和谐发展综合评价模型及实证分析[C].和谐发展与系统工程——中国系统工程学会第十五届年会论文集, 2008.

[2]周亚部.产业竞争力:理论创新与上海实践[M].上海:上海社会科学院, 2007.

[3]管于华.统计学[M].北京:北京高等教育出版社, 2005.

篇9:主成分分析与因子分析的优缺点

关键词:主成分分析;因子分析;区域经济

一、 引言

我国是一个经济与社会发展水平,资源与环境禀赋情况在各区域间差异非常大的国家。自科学发展观提出以来,区域经济协调发展的研究得到了充分的重视。要制订出促进区域经济协调发展的有效政策,首先,必需对区域经济发展的水平做出合理的评价,从中找出形成区域经济发展水平差异的关键因素。主成分分析和因子分析是多元统计中十分常用的两种方法,本文将着重介绍这两种方法的基本原理、数学模型以便从根本上揭示出这两种方法的区别。本文还将介绍主成分分析和因子分析的发展历程和应用领域结合江苏省区域经济发展的现状,选取反映2005年江苏省13个地级市经济发展水平的12个主要统计指标,运用因子分析方法对江苏省各地级市的经济发展的基本状况进行综合评价。

二、 分析方法简介

统计推断的理论工作大多数都是基于总体为多元正态的假定,然而在高于一维的情况下,要说明一组样本来自多元正态总体是非常困难的,而且多个变量使用的测量单位也可能各不相同或者变量间的数值大小相差很大。因此,要对多元数据进行处理,通常将初始变量标准化

1. 主成分分析。

(1)主成分综合评价的产生和发展。主成分分析(Principle Component Analysis)的概念最早在1901年由皮尔逊(Karl Pearson)首先引入,对非随机变量讨论,1933年数学家霍特林(Hotelling)把它推广到随机向量。Jollife I.T.和J.Edward Jackson对主成分分析进行了较为系统地分析和阐述,而郭亚军教授系统地论述了综合评价的理论和方法,虽然目前还没有关于主成分综合评价方法的专著,但很多专家学者对其进行了探讨和研究。一些学者从不同的角度提出PICA的稳健性问题,对此进行了研究,并且提出了各自的改进算法。有学者提出独立主成分分析(IPCA)的概念,引入非线性PCA算法。也有学者从如何去除或减弱有限的样本集中少量“劣点”样本的影响从而获得准确主方向。常用的主成分分析是从样本协方差矩阵来计算的,而协方差矩阵对劣点值相当敏感,为了增强主成分分析的稳健性,对协方差进行算法改进,从而提高主成分分析的稳健性。

主成分综合评价应用中也存在很大争议,有的学者就提出了究竟应选取多少个主成分来对样本进行排序的问题。一般来说,主要有两种观点:一是只用第一主成分,英国统计学家肯德尔认为:第一主成分能够最大限度地反映样本间的差异,是概括指标差异信息的最佳线性函数。因此,只能用第一主成分对样本综合排序。我国也有部分学者持这种观点,南开大学孟生旺老师从几何投影角度阐明,在多指标综合评价中,只有第一主成分结合原始数据的信息最多,因而也就只能以第一主成分值作为综合评价值才合理。另一种观点则认为,不仅要充分重视第一主成分,而且也要顾及其它主成分在综合评价中所起的作用,否则,损失的信息较多,有时甚至回歪曲样本间的实际相对地位。提出改进办法是:先按累积方差贡献率不低于某个阀值(比如85%)的原则确定前几个主成分,然后以每个主成分各自的贡献率为权数将选定主成分线性加权求和来综合评价样本的优劣。

(2)主成分分析的原理。主成分分析是一种通过降维技术把多个变量把多个变量化为少数几个主成分的统计分析分析方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线形组合。当原来p个变量的总变差能够由少数几个线形组合来概括的话,那么这些线形组合中包含的信息与原来p个变量几乎一样多,可以用这些线形组合替代原来的p个变量,这样会是观测数据从高维降到低维,简化了数据。主成分就是p个变量Y1,Y2,…,Yp的一些特殊线形组合,这些线形组合把Y1,Y2,…,Yp构成的坐标系旋转产生新的坐标系,在新坐标系中提供了协差阵的简洁表示。以Xi(i=1,2,…,p)表示标准化的原变量,Zi(i=1,2,…,p)表示主成分,Cij(i=1,2,…,p;j=1,2,…,p)表示组合系数,主成分分析的模型为:

Z1= C11X1+C12X2+…+C1pXp

Z2= C21X1+C22X2+…+C2pXp

……

Zp= Cp1X1+Cp2X2+…+CppXp

(3)主成分分析的应用。主成分分析一般不是目的,而是研究的某个中间环节,通过这一处理来发现重要的变量和变量间的某种关系。在因子分析法中,通常用主成分分析法确定公共因子。

2. 因子分析。

(1)因子分析方法的产生和发展。因子分析(Factor Analysis)方法最早是在1904年由斯皮尔曼(Charles Spearman)和皮尔逊(Karl Pearson)在一篇著名论文《对智力测验得分进行统计分析》中提出,之后被用于解决心理学和教育学方面的问题。由于这种方法计算量大,到了20世纪60年代得益于计算机的应用才有新的发展。R 型因子分析认为变量中存在一些不可观测的共同因素同时对原始变量产生影响,需要通过一定的方法提取“重要”的公共因子;“重要性”取决于因子对变量的影响程度,用二者之间的相关系数(因子载荷)表示。根据变量与各因子的“紧密”程度,把原始变量归结到各因子中,通过这些“精炼”的因子认识复杂现象。因子分析的目的是用几个不可观测的隐变量来解释原始变量间的协方差关系

(2)因子分析的原理。因子分析是假定p个变量的变异主要是一些共同的因子引起的,希望用少数几个公共因子来解释变量中的主要变化。由于样本内含样品和指标的两维性,因子分析分为R型和Q型,前者是基于指标的分析,而后者是基于样品的分析。因子分析的数学模型(正交因子模型)为:

X1=b11F1+ b12F2+…+b1mFm+ξ1

X2=b21F1+ b22F2+…+b2mFm+ξ2

……

Xp=bp1F1+ bp2F2+…+bpmFm+ξp

当X1,X2,…,Xp表示p个指标时该模型为R型模型,当X1,X2,…,Xp表示p个样品时该模型为Q型模型。式中:X=(X1,X2,…,Xp)是可测p个指标构成的p维随机向量;F=(F1,F2,…,Fm)是不可观测的向量,F称为X的公共因子;bij称为因子载荷,它是第i个变量在第j个公共因子上的负荷,矩阵B称为因子载荷矩阵;ξ称为X的特殊因子,ξ中包括了随机误差。因子分析可以分解为确定因子载荷、因子旋转及计算因子得分三个步骤

系数阵Bp×m是初始因子载荷阵,因子载荷bij的统计意义就是第i个变量与第j个公共因子之间的相关系数。估计Bp×m 有多种方法,如主成分分析法、主轴因子法、最小二乘法、极大似然法、a因子提取法等。其中主成分法应用最为广泛,因子分析与主成分分析并没有原理上的实质联系,主要是外观的联系。因为用主成分法得到初始载荷阵Bp×m=(■e1,■e2,…,■em),ei是R的特征根λi对应的单位特征向量,它也是主成分分析系数阵C’p×m第i个系数向量,所以Bp×m第i列系数向量与C’p×m第i行系数向量仅相差倍数■。

用主成分法确定因子载荷的方法比较简单,但是这种方法所得到的特殊因子ξ1,ξ2,…,ξp之间并不相互独立,因此,用主成分法确定因子载荷不完全符合因子模型的假设前提,也就是说所得的因子载荷并不完全正确。但是当共同度较大时,特殊因子所引起的作用较小,因而特殊因子之间的相关性所带来的影响就几乎可以忽略。由于满足上述模型的系数阵Bp×m不唯一,这成为因子载荷阵旋转的理论依据。一般情况下,初始因子载荷阵中各变量对因子的系数没有靠近两极数值“0”和“1”,说明各变量在每个因子上“分量”差不多,各因子并不“偏向”某些变量,这样很难提炼公共因子的意义,因此要旋转Bp×m,改变它的坐标系,使变量“偏向”不同的因子,并根据系数绝对值对变量归类命名,最常用的旋转方法是最大方差正交旋转。

(3)因子分析的应用。近年来,随着现代高速电子计算机的出现人们将因子分析的理论成功地应用于心理学、社会学、经济学、人口学、地质学,甚至在化学和物理学中也得到成功地运用,这使得因子分析的理论和方法更加丰富。

三、 实证研究

本文选取2005年江苏省各地级市的12个国民经济主要统计指标(资料来源:江苏省统计局,2006),相关数据见表1。利用SPSS统计软件对表1的数据进行处理,在因子分析的过程使用主成分法提取公共因子。(注:Yi表示原始变量,Xi表示标准化后的变量)

表2因子旋转后的载荷矩阵、特征值贡献率和累计贡献率

表3 因子得分及综合排名

因子分析要求原始变量之间有比较强的相关性,如果原始变量之间不存在较强的相关关系,那么就无法从中综合出共同特征的少数因子来。因此,在作因子分析时,需要对原始变量做相关分析。SPSS数据处理系统提供KMO和Bartlett检验来判断变量是否适合做因子分析:Bartlett检验目的是确定所要求的数据是否取自多元正态分布的总体,若差异检验的F值显著,表示所取的数据来自正态分布总体,可以做进一步分析;KMO检验目的是分析观测变量之间的简单相关系数和偏相关系数的相对大小来确定该数据是否适合进行因子分析,取值变化在0~1之间,若KMO过小,说明变量之间的相关不能被其他变量解释,进行因子分析不适合。通过SPSS软件计算得到以上数据的Bartlett检验的F值等于0.000,表明所取的数据来自正态分布的总体;KMO检验值为0.726,因此适合做因子分析。

本文使用SPSS13.0对数据进行因子分析,采用主成分法提取特征值大于1的主成分作为公共因子,得到方差最大正交旋转后的因子载荷矩阵、特征值、贡献率和累计贡献率。特征值大于1的前两个公因子的累计贡献率已达到90.008%,可见提取2个因子后,它们反映了原始变量的大部分信息。从旋转后的因子载荷矩阵可以得到12个原始变量与这2个因子之间的表达式如下:

X1= 0.938F1+0.020F2

X2=0.682F1-0.374F2

……

X12=0.822F1-0.287F2

从表2可以看出,第一主因子在规模以上工业利税总额、地方财政总收入、第二产业产值、第三产业产值等指标具有较大的载荷,这些指标均反映了地区的经济总量,因此可以将第一主因子命名为“经济总量因子”。而第二主因子在第三产业产值增长率上具有较大的载荷,这是反映经济增长速度指标,因此可以将第二主因子命名为“经济增长速度因子”。从表三的综合因子的分的数值来看,得分值大的三个地区苏州、南京、无锡,它们的综合因子得分值大于1,可见这三个地区的经济发展水平居于前列,明显好于其它地区的经济发展状况。而位于苏北地区的宿迁、淮安、连云港三个地区,其综合因子得分分值很低,说明它们的经济发展水平与苏州、南京、无锡三个地区相比要落后很多,属于经济欠发达地区,其它地区的经济发展处于居中水平。

参考文献:

1.Jean Boivin,Serena Ng.Are more data always better for factor analysis?.Journal of Econometrics,2006,(132):169-194.

2.Congde Lu,Chunmei Zhang,Taiyi Zhang,Wei Zhang.Kernel based symmetrical principal component analysis for face.Classification.Neurocomputing,2006.

3.叶其孝,沈永欢.应用数学手册(第二版).北京:科学出版社,2006.

重点项目:江苏区域经济协调发展水平测度与促进政策研究项目(BR2006029)。

作者简介:何建敏,东南大学经济管理学院教授、博士生导师;贾万敬,东南大学经济管理学院管理科学与工程硕士生。

收稿日期:2007-07-15。

篇10:主成分分析与因子分析的优缺点

转换移动窗口因子分析法用于中药组合前后成分变化分析

以正十四烷为内标,采用气相色谱-质谱(GC/MS)联用技术对中药甘草(GUF)、甘遂(EKL)单味药材,以及其组成的药对(GUF-EKL)的挥发成分进行测定,基于一种新的化学计量学方法--转换移动窗口因子分析法(AMWFA)和直观推导式演进特征投影法(HELP)对产生的`二维色谱/质谱数据同时进行分辨和解析,获取各个组分的纯色谱曲线和质谱,根据分辨得到的纯质谱在质谱库中进行相似检索以实现对组分的定性.利用AMWFA对组合前后的成分进行归属分析,然后采用面积归一法进行定量.分别在甘草、甘遂及其药对中鉴定出52、51和63个成分,占各自挥发油成分的84%、90%和75%.

作 者:周能 梁逸曾 王平曾茂茂 ZHOU Neng LIANG Yi-zeng WANG Ping ZENG Mao-mao  作者单位:周能,ZHOU Neng(中南大学化学化工学院,中草药现代化研究中心,长沙,410083;玉林师范学院化学与生物系,广西玉林,537000)

梁逸曾,王平,曾茂茂,LIANG Yi-zeng,WANG Ping,ZENG Mao-mao(中南大学化学化工学院,中草药现代化研究中心,长沙,410083)

刊 名:分析科学学报  ISTIC PKU英文刊名:JOURNAL OF ANALYTICAL SCIENCE 年,卷(期): 23(6) 分类号:O657.63 关键词:转换移动窗口因子分析法   甘草   甘遂   挥发成分   气相色谱/质谱  

篇11:主成分分析与因子分析的优缺点

对来源于福建省28个县(市)的329份樟树[Cinnamomum camphora (L.) Presl]叶精油的21个主要化学成分(占总化学成分含量的.90.735%)进行了主成分分析和聚类分析.提取出12个主成分因子,累计贡献率达到84.342%,可基本描述树叶精油21个主要化学成分的变异情况.取λ=5.5,329份叶精油样品可被分为5个化学型:芳樟型(主要成分为芳樟醇)、脑樟型(主要成分为樟脑)、桉樟型(主要成分为1,8-桉叶油素)、黄樟型(主要成分为黄樟油素)和杂樟型(无明显主要成分).除杂樟型外,其他化学型樟树叶精油的主要化学成分均较一致.

作 者:张国防 陈存及 陈志平陈瑞炎 林贤松 ZHANG Guo-fang CHEN Cun-ji CHEN Zhi-ping CHEN Rui-yan LIN Xian-song 作者单位:张国防,陈存及,ZHANG Guo-fang,CHEN Cun-ji(福建农林大学,福建,福州,350002)

陈志平,陈瑞炎,林贤松,CHEN Zhi-ping,CHEN Rui-yan,LIN Xian-song(福建永安市林业局,福建,永安,366000)

篇12:主成分分析与因子分析的优缺点

割手密主要数量性状的主成分及聚类分析

割手密是甘蔗育种中极为重要的野生种质资源.对94份割手密为材料的`其主要数量性状进行主成分分析及聚类分析.主成分分析表明,割手密7个数量性状可简化为3个主成分,即植株因子、茎数因子、糖分因子,3个主成分所提供的信息量占全部信息量的82.47 %.在主成分分析的基础上,对94份割手密进行聚类分析,将其划分为4 大类群:第1类群蔗糖分较高,茎多,植株高,萌芽率高;第2类群综合表现一般;第3类群植株高、茎较粗,分蘖少;第4类群蔗糖份偏低,植株较矮,茎较小,萌芽率低而分蘖率较高.基于割手密茎蔗糖分的聚类分析将94份割手密划分为4大类群:第1类群共22份,为高糖材料,蔗糖分平均为5.63 %;第2类群共31份,蔗糖分略低,平均为3.98 %;第3类群18份,蔗糖分较高,平均为4.64 %;第4类群共23份,蔗糖分平均为3.06 %,为低糖割手密.

作 者:张革民 杨荣仲 刘海斌 方位宽 ZHANG Ge-min YANG Rong-zhong LIU Hai-bin FANG Wei-kuan 作者单位广西甘蔗研究所,广西,南宁,530007刊 名:西南农业学报 ISTIC PKU英文刊名:SOUTHWEST CHINA JOURNAL OF AGRICULTURAL SCIENCES年,卷(期):19(6)分类号:S566.1关键词:割手密(Saccharum spontaneum) 数量性状 主成分分析 聚类分析

篇13:主成分分析与因子分析的优缺点

掌纹识别在身份认证及人机接口等方面有着广泛的应用,是目前模式识别和计算视觉领域的研究热点。掌纹识别通过提取手掌纹理的有效信息鉴别个人身份。与其他多种生物特征识别方法相比,如指纹、人脸、虹膜和签名等,掌纹识别方法具有采集设备价格低廉、冒犯性低和纹理特征固定丰富等优点[1]。因此,掌纹识别已成为模式识别及人工智能领域热门研究问题。同时,掌纹识别因其可脱机和抗噪能力强等独有优势在刑侦和公共安全等领域[2]也具有十分广泛的应用前景。

关于掌纹特征提取的算法有很多,目前主要分为掌纹结构特征、统计特征、子空间特征和编码特征四类[1]。子空间方法是掌纹识别的主流方法,主要有主成分分析(PCA)、独立成分分析(ICA)和线性判别分析(LDA)等。其中,较为经典的是主成分分析(PCA)算法[3],该算法将原图像矩阵转换为一维向量后,利用有限的特征尽可能精确地表示模式样本,缺点是在图像矩阵转换成维数较高的一维向量过程中可能造成空间信息丢失等问题。在此基础上,Yang等人[4,5]提出的二维主成分分析(2DPCA)方法很好地克服了这一缺陷,2DPCA方法不需要事先将图像矩阵进行转换,而是直接对图像矩阵进行操作,但提取的特征向量维数仍较高。Zhang等人[5,6,7,8]提出双向二维主成分分析((2D)2PCA)方法,该方法从行和列两个方向分别提取特征,降低了行列间相关性,减少了图像特征矩阵的维数,且识别率有所提高,但(2D)2PCA没有区分对待图像的特征矩阵中各特征向量对识别的影响。为此,针对这个问题,本文提出基于M(2D)2PCA的掌纹识别方法,首先将掌纹原始图像不重叠等分成小块,每幅图像对应位置的子图像组成子图像训练集,之后对每一分块图像矩阵进行(2D)2PCA操作提取特征,测试样本图像也采用相同方法得到特征矩阵,最后采用模糊理论进行分类得出最终识别结果。在北京交通大学掌纹数据库上的试验结果表明,与PCA、2DPCA和(2D)2PCA等方法相比,本方法在识别精度和速度上都具有明显的优势。

1 M(2D)2PCA

1.1(2D)2PCA

(1)行方向2DPCA

设掌纹图像样本类别为ω,每一类别内有ζ幅图像,样本总数为M=ω×ζ,每幅图像大小为m×n,2DPCA的思想是将m×n维的图像矩阵A通过下式变换投影到X上,其中X∈Rn×d(n≥d)为相互正交的列向量组成的矩阵[9,10]:

得到m×d大小的矩阵Y称之为图像A在X方向的投影特征矩阵。用投影特征矩阵的协方差矩阵的迹来描述投影样本的总体散布矩阵,由此确定一个好的投影轴X,通过求其迹的最大值确定最优投影轴。其准则为:

设图像协方差矩阵为G,Ak(k=1,2,…,M)表示第k个训练样本图像,且Ak∈Rm×n,并定义所有训练样本均值图像,则G可表示为:

由式(2)和式(3)可得出J(X)=XTGX,称该准则为广义总体散布准则。一般情况下选择前d个最大的特征值所对应的d个特征向量[4]构成投影矩阵Xopt作为最优值,即Xopt=[X1,X2,…,Xd],最优投影轴的数量d可按以下准则选取:

式中,θ是预设的门限值,λ是协方差矩阵G的特征值。

(2)列方向2DPCA

(A-(2))T…(A-(m))T]T,这里Ak(i)和A-(i)分别是Ak和A-的第个i行向量。则式(3)可重写为:

式(5)表明图像协方差矩阵G可以通过图像行向量形式得到。假设训练样本图形均值为零,即,则可以认为最初的2DPCA是对图像行方向所做的处理。

以同样的方法求得列方向的最优投影矩阵Zopt=[Z1,Z2,…,Zq],q的取值同样可以根据式(4)预先设定门限值

(3)行列二维主成分分析

设已得到行方向投影后的到的n×d维投影矩阵X和列方向投影后得到的m×q维投影矩阵Z,将原图像矩阵(大小为m×n)同时向X和Z方向投影,产生一个q×d维特征矩阵C=ZTAX,该矩阵也被称为重建协方差矩阵。由此可以看出,经双向二维主成分分析变换后的特征矩阵维数远低于单方向二维主成分分析方法。

1.2 分块(2D)2PCA

从近几年研究成果得知,掌纹图像识别过程中图像分块对姿势变化和光照具有良好的适应性[6,7]。因此,本文将图像分块与(2D)2PCA方法相结合提取掌纹图像局部特征。称该方法为分块双向二维主成分分析(M(2D)2PCA)。

为了得到最优投影向量组,先把m×n维的原图像矩阵分成p×q块掌纹图像矩阵,即:

这里,每个子图像矩阵大小是m1×m2(p×m1=m,q×m2=n),接下来对每个子图像矩阵使用(2D)2PCA变换,得到表征掌纹特征的特征矩阵如下:

需特别指出的是,当分块为1×1时,退化为(2D)2PCA。

将分块后的掌纹图像相同位置的子图像组成子图像集,利用M(2D)2PCA方法分别建立子图像集对应的子空间,提取每个子图像的特征,如图1所示。

2 基于模糊理论的分类方法

根据模糊理论进行模式识别的方法有最大隶属度原则识别法、模糊分类和择近原则识别法,这里简要介绍与研究内容相关的前两种方法:

(1)最大隶属度原则识别法

设论域U中有T1,T2,…,Tn共n个模糊子集,每一个Ti(i=1,2,…,n)均对应一个隶属函数μTi(x),若x0∈U,且:

则判定x0是隶属于Ai的。

(2)模糊分类

应用模糊数学理论,对待分类图像进行非二值逻辑判断的图像分类方法,称为模糊分类法。模糊集理论传统集合理论的区别在于,每一个元素会一定程度上属于某个集合,也可能同时以不同的程度属于多个集合[11,12]。对于掌纹图像分割出的子图像,可能由于光照和位置的变化等原因造成某些位置的子图像中,同一个人样本之间的差异大于不同人样本之间的差异。由于一幅掌纹图像的不同子图像之间是相互独立的,某些子图像识别错误并不影响其他子图像的正确识别结果。所有子图像共同决定掌纹图像的识别结果,所以识别过程关键在于如何融合各子图像的分类结果。本文采用模糊分类的思想,首先得到隶属于每个子图像的模糊分类结果,然后将每个模糊分类结果进行融合,最后根据最大隶属度原则,得出待识别图像的最终分类结果。识别过程如图2所示。

如图2所示,把待识别掌纹图像B等分成N个子图像Bj(j=1,2,…,N),每个子图像双向投影后得到特征矩阵C'j=ZjTBjXj,根据式(9)计算该特征矩阵与训练样本之间的欧氏距离:

根据式(10)求出待识别样本的子图像Bj对应于训练样本的隶属度[13,14]。

式中,,表示子图像Bj到训练样本之间的平均值;模糊因子t是一个可以控制模糊程度的常数,通常范围为(0,1),本文中t取0.25。将每个子图像的分类结果相加求和,就可得到待识别图像对于各个训练样本的隶属度[15]。

根据最大隶属度原则,由式(12)决定最终分类结果。

即待识别掌纹图像与第S个训练样本属于同一类别。

3 实验结果及分析

3.1 北京交通大学掌纹数据库

本实验采用北京交通大学掌纹数据库,包含了100个人每人10幅的1000幅掌纹灰度图像,每张图像原始分辨率为413×292,存在位置和光照变化。掌纹库原始图像如图3所示。

经过预处理后的掌纹感兴趣区域(ROI)分辨率为128×128,如图4所示。

本文编程语言为MATLAB,实验环境为Windows XP(Pentium(R)Dual-core CPU E5200 2.50GHz)。

3.2 实验一(不同降维方法识别率对比)

对于样本集合中每个人的掌纹图像,取前5幅为训练样本,后5幅为测试样本,因此训练样本和测试样本总数均为500。

表1比较了4种降维方法可以达到的最佳识别率Rmax和所需要的特征维数D。可以看出,PCA的特征是一维向量,产生矩阵Gt的维数非常高,导致计算复杂度也是最高的,识别率最低,运行时间较慢;2DPCA和双向2DPCA得到的特征都是二维矩阵,矩阵Gt维数大小一致,计算复杂度相当,但双向2DPCA较2DPCA需要更少的特征维数,识别率也有所提高;分块双向2DPCA在特征维数为4×4的情况下仍可以得到最高的识别率95.6%,且运行时间也明显低于其他三种方法。由此可以看出,图像经过分块后子图像规模变小,就可以从图像中提取更多有利于识别的细节信息,掌纹图像发生位置和光照等变化时只对少数子图像产生影响,而不会影响到其他子图像的识别效果。

3.3 实验二(不同分块面积的识别率对比)

针对特征维数不同时分块方式对识别率的影响,这里特征维数行方向和列方向取相同数值,对于2×2分块、2×4分块、4×2分块和4×4分块进行了对比。

观察表2,可以发现特征维数较低时,分块数量越多识别率越高,如特征维数为16时,4×4分块方法可以达到最高识别率97.6%,随着特征维数的增加,多数方法的识别率也不断地提高,但4×4分块方法识别率反而下降,说明分块方式并非越多越好。这种情况的处理基于以下的考虑:当分块数目太小,子图像太大时分块方法发挥不出对位置和光照变化不敏感的优势;当分块数目太多,子图像太小时会破坏掌纹图像的整体结构信息,造成识别率降低。当特征维数超过一定数值时,系统识别率趋于平稳,如2×2分块方式在维数达到49时识别率就不再变化,这说明增加的特征个数未对区分效果做出贡献。所以,用M(2D)2PCA提取的特征向量要根据实际情况选取合适的分块方式和特征维数。

(%)

3.4 实验三(不同分类方法的识别率对比)

分块(2D)2PCA处理后,每一个图像样本均对应一个特征矩阵。将本文采用的模糊分类方法与最近邻分类器进行比较,设已知的模式类别个数为n,训练样本集为I={A1,A2,…,AM},每个样本都指定到所属类别ci(i=1,2,…,n),任意测试样本Ak的特征矩阵为Dk,训练样本Aw的特征矩阵为Dw(w=1,2,…,M),采用最近邻分类器分类,Ak和Aw的距离度量准则为:

如果Ak与Aj的距离为Ak与任意训练样本Aw的距离最小值,即dist(Ak,Aj)=min(dist(Ak,Aw)),且Aj∈ci,则Ak∈ci。实验中特征维数取16,比较结果如表3所示。

从表3可以看出,无论取哪种分块方式,模糊分类方法都高于最近邻分类方法至少两个百分点以上,说明模糊分类更能适应分离性不是很好的类,允许了数据性质的模糊性,为数据结构的描述提供了详细的信息。因此,在M(2D)2PCA掌纹识别方法中应用模糊分类方法可以得到更好的分类效果。

4 结语

篇14:主成分分析与因子分析的优缺点

关键词】黄瓜品种;农艺性状;主要成分;分析

一、对于黄瓜的简单介绍

黄瓜作为一种重要的蔬菜,在中国甚至在世界各地的种植面积也是在逐年递增的,其种类和数量也在不断地增加。现在对于黄瓜的文献中,黄瓜病害、遗传的多样性、黄瓜栽培技术等相关研究报道层出不穷,研究的资料也很完善。在病害方面,已经成立了黄瓜抗性序列相关扩增多态性的分子标记和黄瓜白粉病抗性遗传模型的相关研究。在黄瓜遗传问题方面,如今已经实现了早期预测研究黄瓜表型性状和杂种优势等问题。另一方面,对于黄瓜品种主要农艺性状相关与主成分分析的文章和相关报道并不多。所以,笔者通过对于集中黄瓜品种的研究,目的是为黄瓜生产和栽培上可以提供更多的理论依据。

二、选取材料和方法

黄瓜实验材料的选取,选取经过官方农业科学研究所蔬菜中心认定的“夏丰一号”、“夏青二号”、“夏青三号”、“矮生一号”、“中航1 号”、“津春四号”、 “中农8号”、“台湾夏季黄瓜”等八种常见的优良黄瓜品种进行相关的培育研究。

黄瓜实验的相关设计,在2015年2月初将对选取的八个优良黄瓜品种进行育苗工作,然后在将培育的可以用于实验研究的黄瓜苗移栽到确定的蔬菜实验基地。在培育过程中,始终遵循随机性原则,不带人为主观色彩,包括培育黄瓜的条件和相关方法(例如行列设计,植株的间距等等)都采用相同的可行的方法。需要强调的是,在黄瓜培育的过程中,一切管理措施(包括除草、除蔓、施肥、喷洒农药等等)都应该结合黄瓜实际的生产状况进行处理。

调研的项目数据处理方法,测定的项目有:黄瓜的植株高度、雌雄花的一系列性状项目、结瓜和成瓜率、果实的一些性状项目等。其中采取的方法是通过取平均值的方法确定最终数据。对于相关的数据处理,我们通过建立的传统的Microsoft Excel制作表格进行相关的处理和分析。

三、对于黄瓜实验结果和分析

主要黄瓜品种性状间的相关分析。我们通过进行的多种品种的黄瓜的培育试验结果做出简单的分析,表明了黄瓜的雌花一系列的性状和果实一系列的性状等和一株黄瓜的产量呈现的关系是正相关。现在我们就这一些列的性状条件进行分析,其中单个果实的重量、单株果实的数目和单株结得果实的总重量有着非常明显的正相关关系。然而在另一方面,黄瓜的植株高、第一雌花的节位置和节间长等和单株结得果实的总重量呈现的是明显的负相关关系。显然的依据这些黄瓜产量的正负相关关系,我们可以得到的结论是:单个黄瓜果实的重量和单株黄瓜的结得数对黄瓜的产量影响最大,同时果实的长度和横截面面积、果实的成果率等等也起着重要的影响作用。因此黄瓜的植株高度、节间长应该是我们在挑选黄瓜的品种时首先考虑的因素。另一方面,我们通过黄瓜的培育试验得到的结果表明,在黄瓜植株的很多性状中,影响其产量的性状可能存在着多重相互制约的关系

主要黄瓜品种农艺性状的变异系数分析。在我们进行黄瓜培育的试验中,我们发现了这些品种黄瓜的一些主要的性状发生了很大的变异。我们通过相关的数据采集和分析初步得到这些结论:针对同一种品种的黄瓜,黄瓜的植株高度、黄瓜在花期开得雌花的数量、第1雌花出现的节位置出现变异情况很明显,变异系数非常大;相反,在这些变异性状中,同一品种黄瓜植株的节间长大多类似,其计算变异系数非常小。我们再简单按照变异系数从小到大对于一些主要的黄瓜性状进行列举:依次为节间长,果实粗,果实数目,果实长,单个果实重,成果率,单个植株产量,雌花数目,植株高度等。我们通过黄瓜培育试验,采集数据并且进行分析,结果初步表明在黄瓜的生产中,可以采用杂交方式进行育种,并且在实际生产种植中,可以通过提高培育技术改善培育的相关条件等来使得结得的黄瓜果实性状在一定的范围内得到提高和完善。

多种黄瓜品种主要农艺性状与主要成分分析。我们通过黄瓜的培育试验,通过对于一些主要数据的采集和分析,对于黄瓜的主要农艺性状其中主成分结果表明:前四个主成分在所有的主要成分构成中累积的贡献值超过了90.00%。其中按照贡献率的大小排序依次为:主成分1、主成分2、主成分3、主成分4。我们在数据分析过程中把影响黄瓜产量的一些主要性状称作产量构成因子。对于上文中涉及的一些主要黄瓜性状,针对主成分1这些产量构成因子对于黄瓜产量的影响大小依次为:单植株产量,果实重,结果数,成果率,果实长及粗,雌花数目。因此,我们可以初步得出结论,在黄瓜的培育过程中,可以把重心放在主要的产量构成因子的性状上。针对主成分2,我们发现了植株高度、第1雌花的节位置、节间长、果实粗等该类型的基本形状大多和黄瓜的生长呈现负相关关系,我们就称其为生长势逆向因子。同时针对主成分3,我们发现其主要的生长势逆向因子仅仅是果实粗,表明在黄瓜培育过程应该注意这些主要生长势逆向因子的形状因素。最后针对主成分4,其相关状况和主成分1结果分析相似,故这里将不再赘述。

四、结语

通过本次进行黄瓜培育试验中对于各黄瓜农艺性状及成分分析,首先表明不同种类的黄瓜在产量的影响形状上具有一定的共性。在实际的黄瓜育种的工作中,应该首先对于变异系数大的主要形状进行挑选,同时应该注重将多种黄瓜的正负性状因子综合考虑确保使得各种性状达到一定的平衡。我们初步分析得到的提高黄瓜产量育苗方案中應当具有基本的农艺性状特征,例如结瓜数较多、果实较重、成果率较高等,且植株高度应该适中。然后依据主要成分,在选择时应当注重产量高且植株高度适中的品种,同样的应当对前1、2、3种主要成分进行综合考虑

参考文献

[1]刘思宇,刘剑辉,李岩,贾云鹤,刘琦,许春梅,沙春艳,王雪.橘红芯黄瓜秋延后栽培技术[J]. 中国园艺文摘. 2016(07).

注:本文为网友上传,旨在传播知识,不代表本站观点,与本站立场无关。若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:66553826@qq.com

上一篇:我国淡水养殖的技术效率分析 下一篇:我国水产养殖水体净化技术的发展概况