关键词:
分类主成分分析(精选十篇)
分类主成分分析 篇1
如今,市场上的橙汁品牌越来越多,每种品牌橙汁的营养成分基本相同,如能量、碳水化合物、蛋白质等,但含量各异,价格也大相径庭。本文应用主成分分析法针对橙汁的各种营养成分含量相关性进行研究,对市面上常见品牌橙汁的营养成分指标进行归纳总结。主成分分析法作为分析和归纳数据类型的一种主流方法已被应用于多个领域,都取得了很好的效果。将不同品牌的橙汁营养成分指标进行主成份分析,可以在初步检测中选取主成分中易于检测的指标来代表整个主成分的含量,进而可以通过3个主成分含量来代表样本整体的成分含量情况,同时也利于消费者合理地选择橙汁的品牌,在不丢失营养的同时选择更加经济的商品。
2 数据来源
本文所有的数据都收集自不同品牌橙汁外包装,厂方自己标明的指标无法完全代表其产品中成分的含量,但是就研究而言有一定价值。对于一些未标明的成分,为了使得分析更为精确,用此类指标的平均数值进行代替,同时也能使得其对整个分析造成的影响最小。橙汁营养成分指标原始数据见表1。表中只列出了常规的特征性指标,而一些较少的指标,对于分析研究没有很大影响,便没有在表中列出,且当厂方标明的特征性指标处于某一范围时,为了数据分析的准确,取其范围中的平均值。
3 主成分分析法概述
主成分分析法(Principal Component Analysis, PCA)也称主分量分析或矩阵数据分析,通过变量变换的方法把相关的变量变为若干不相关的综合指标变量。若某研究对象有两项指标ζ1和ζ2,从总体ζ(ζ1,ζ2)中抽取了N个样品,它们散布在椭圆平面内(图1),指标ζ1与ζ2有相关性。η1和η2分别是椭圆的长轴和短轴,η1⊥η2,故η1与η2互不相关。其中η1是点ζ(ζ1,ζ2)在长轴上的投影坐标,η2是该点在短轴上的投影坐标。从图1可以看出点的N个观测值的波动大部分可以归结为η1轴上投影点的波动,而η2轴上投影点的波动较小。若η1作为一个综合指标,则η1可较好地反映出N个观测值的变化情况,η2的作用次要。综合指标η1称为主成分,找出主成分的工作称为主成分分析。
可见,主成分分析即选择恰当的投影方向,将高维空间的点投影到低维空间上,且使低维空间上的投影尽可能多地保存原空间的信息,就是要使低维空间上投影的方差尽可能地大。
4 主成分分析法的应用
4.1 原始数据的处理和标准化
由于原始数据矩阵庞大,如对全部指标进行分析,将会导致主次要成因相混淆;若仅选其中部分指标,又可能会影响分析结果的代表性和完整性。此外,为了克服不同变量数值差异过大而造成的主成分分析误差,按照主成分分析法要求,应对原始数据矩阵进行标准化,进而得到进行主成分分析的变量的相关系数矩阵,见表2。
4.2 橙汁特征性指标主成分分析的计算结果
主成分分析的计算结果中,新变量所代表的方差(即对应的特征值)贡献率和由原变量变换为新变量的线性变换系数(即对应的特征向量)就成为进行综合分析的重点.在主成分分析中一般要求少数新变量的累积方差贡献率应大于70%。表3、表4和表5分别给出了原始数据的公因子方差、各个主成分的解释的总方差和主成分的计算结果,图2则是各个主成分的特征值。
表4表明,前3个主成分积累方差贡献率达到81%,根据主成分分析法的一般原理,可取前3个具有明显代表性的主成分,原有的6个变量可用3个主成分表示,如表5所示。
根据橙汁特征性指标的实际状况和主成分分析的要求,本文取前3个主成分来反映原来的6个变量,其方差的累计贡献率已达到81.45%,3个主成分的贡献率分别为39%、22%和20%,3个主成分在81.45%的程度上反应了某一样本的营养成分情况与离子条件。可以认为,这3个主成分基本上能够反映出原变量的变化所代表的橙汁营养标准。
在第一主成分中,能量和碳水化合物两个指数所占权系数较大,并且两个指标变化方向一致,呈正相关,说明引起这两个指标变化的原因相似,而处理的方式也相关。实际上,摄入碳水化合物是快速补充能量的最佳途径,它是能量的直接来源,所以能量和碳水化合物的含量可以用第二主成分来表示,将其命名为糖能量成分。
在第二主成分中,蛋白质和脂肪两个指数所占权系数较大,并且两个指标变化方向一致,呈正相关,说明二者的来源相似,处理相近。蛋白质和脂肪所具有的能量极高,蛋白质是橙汁中脂肪的唯一来源,因而蛋白质、脂肪的含量直接决定了能量的高低,所以蛋白质和脂肪指标的含量可以用第一主成分来表示,将其命名为蛋白脂肪成分。
在第三主成分中,Na和维生素C两个指数所占权系数较大,并且两个指数变化方向一致,呈正相关,说明二者来源相似,处理相近。Na是人体所必须的元素,缺乏相应的盐会导致人体不适,而维生素C也是人体必须的有机物质,必须经常从饮食中摄取,故pH值与偏硅酸含量可以用第三主成分表示,将其命名为维生素Na成分。
5 结语
主成分分析法结果表明,饮用水的成分可以分为三类:第一能量成分、第二能量成分和维生素Na成分.每种成分中所包含的变量都是正相关的,故在橙汁初步检测时,可以仅抽取主成分中的一个变量进行检测,以代表整个主成分的含量,所得出的结论与完全检测所有指标得出的结论相近程度达81.45%,可以大大减少初步检测的成本和工作量。主成分分析法是进行产品质量检测的一种很好的工具,其分析结果对橙汁生产厂家具有指导作用,同时对消费者经济的消费也具有导向作用。数据和品牌证明,并不是纯的橙汁所含的营养成分就高,也不是含营养成分高价格也高。消费者可以根据自身对营养成分的需求,合理选择自己想要的橙汁品牌,当然,最好的营养摄入其实是直接食用新鲜橙子,无添加易吸收。
参考文献
[1]汪应洛.系统工程[M].北京:机械工业出版社,2009.54~60.
[2]方开泰.实用多元统计分析[M].上海:华东师范大出版社,1989.
主成分分析与全成分分析区别 篇2
主成分分析:是把几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关的一种数学降维的方法。
全成分分析:是将送检样品中的原材料、填料、助剂等进行定性定量分析。塑料原材料种类,填料种类、粒径,助剂种类都能影响对产品的性能、寿命,通常是同一种原材料、同 一种填料,因为助剂种类的不同,造成产品性能大不相同。
主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。在实际问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太 多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主要目的是希望用较少的变量去解释原来资料中的大部分变量,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少,能解释大部分资料中变量的几个新变量,即所谓主成分,并用以解释资料的综合性指标。由此可见,主成分分析实际上是一种降维方法。
分析步骤
数据标准化;
一、求相关系数矩阵;
二、一系列正交变换,使非对角线上的数置0,加到主对角上;
三、得特征根xi(即相应那个主成分引起变异的方差),并按照从大到小的顺序把特征根排列;
四、求各个特征根对应的特征向量;
五、用下式计算每个特征根的贡献率Vi;
Vi=xi/(x1+x2+........)
六、根据特征根及其特征向量解释主成分物理意义。
主成分分析的基本思想
主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。
主成分分析,是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关.通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。
宜宾油樟营养器官精油主成分分析 篇3
关键词:油樟;1,8-桉叶油素;黄樟油素;气相色谱-质谱联用技术;精油
中图分类号:O657.63文献标志码:A 文章编号:1002-1302(2014)11-0348-03
油樟[Cinnamomumlongepaniculatum(Gamble)N.Chao]系樟科樟属的珍贵树种,由于精油含量高,因此是一种重要的经济树种。该物种于1974年由四川省林业科学院森林植物分类专家赵良能发现并命名,当时认为油樟是特产于四川和陕西西部的新种[1]。但在后期的研究中,李敏敬、陶光复等通过调查发现,在湖北西部、湖南西部、陕西南部也有油樟分布[2-3]。四川省宜宾市位于四川南部,气候温暖湿润、土壤肥沃,非常适合油樟树的生长,境内的宜宾县有“油樟王国”之称,油樟油产量占全国70%以上[1]。现已建成“天然油樟母本园”21.7hm2,选育了优质油樟母树6500多株,油樟种植面积已达2万hm2,年产油量达到3000t。四川宜宾油樟叶精油出油率(3.8%~4.5%)高于其他地区的油樟,如精油的桉叶油素是广东、江西等樟油的1.6倍[1],具有很好的應用前景。开展油樟精油成分分析研究是进一步开发油樟资源的前提,现有文献仅报道了油樟叶精油成分[4],但有关其根、茎精油的成分研究还未见报道。为此,本研究采用气相色谱-质谱联用法分析油樟叶、根、茎的精油主成分,以期对宜宾油樟资源的进一步合理、有效利用提供参考。
1材料与方法
1.1材料
油樟叶、茎、根采自四川省宜宾市翠屏区宗场乡油樟林基地,乙醚(分析纯,成都市科龙化工试剂厂)。
1.2主要仪器设备
磨口玻璃蒸馏器、圆形电子调温电热套、日本岛津GCMS-QP2010气相色谱质谱联用仪。
1.3方法
1.3.1精油制备方法
分别称取10.0g油樟叶、50.0g油樟根、50.0g茎,剪碎后放入3支1000mL的磨口圆底烧瓶中,每个烧瓶中加入750mL蒸馏水后接上磨口连接头,与冷凝管相连。调节电热套,使烧瓶中的水保持微沸,蒸馏120min,获得芳香油-水混合物,然后加入50mL乙醚,转入分液漏斗中,摇匀后静置24h。取有机相,用乙醚定容至100mL,稀释至适当浓度,供分析测试用。
1.3.2气质联用仪(GC-MS)分析条件
气相色谱条件:色谱柱Rtx-5MS(30.0m×0.25mm×0.25μm)弹性石英毛细管柱(美国Restek公司生产);初始温度50℃,保持3min,以5℃/min升温至180℃;载气为纯度大于99.999%的氦气;柱流量1.5mL/min,分流比50∶1;进样口温度200℃;进样量1μL。质谱条件:EI源(电子能量70eV),相对分子质量扫描范围30~550u,倍增管电压1.2kV,溶剂延迟3min,离子源温度200℃,接口温度200℃,溶剂延迟时间为3min,检测阈值为1000,将峰值大于100000的色谱峰进行定性分析。
2结果与分析
2.1油樟叶精油分析
按“1.3”节的方法测得油樟叶总离子流色谱图(图1)。由图1可知,优化的气相色谱条件,可以很好地将油樟叶精油中的各成分分离开来,各峰形对称,峰与峰之间完全分开,基
线稳定无飘移。与文献[4-5]相比,分析时间由原来的40min以上缩短至29min,提高了分析效率。定性可信度高的色谱峰如表1所示。
由表1可知,叶精油中1,8-桉叶油素相对含量最多,为60.81%,稍高于黄远征等报道的58.55%[4]。另2种成分β-水芹烯和α-萜品醇的相对含量分别为13.27%、12.90%。文献[4]报道的含量高于10%的物质是香桧烯(14.18%)、α-萜品醇(15.43%),未检测到β-水芹烯。本次试验中未测到香桧烯,2种物质的结构式如图2所示,二者互为同分异构体,在后期生产实践中,可进一步开展单体的分离纯化与性质研究。
α-蒎烯、2(10)-蒎烯、月桂烯、1,1-二甲基,2-(3-甲基-1,3-丁二烯)-环丙烷、4-萜品醇的含量介于1.10%~3.35%之间,侧柏烯、γ-萜品烯、(1.α,2.β,5.α)-
2-甲基,5-(1-甲基乙基)-二环[3.1.0]2-己醇、(1.α,2.α,5.α)-2-甲基,5-(1-甲基乙基)-二环[3.1.0]2-己醇的含量介于0.34%~0.89%。
油樟叶精油成分是油樟分型的重要依据,李毓敬等依据油樟叶精油的主要化学成分类型,将湖南油樟分为甲基丁香酚型、龙脑型、樟脑型、桉叶油素型、芳樟醇型、倍半萜烯型6个不同的化学类型[2]。陶光复等测得湖北长阳县油樟油的主要成分是布勒醇(44.78%)、β-桉叶醇(15.61%)、香叶醛(10.80%)、橙花醛(7.63%)、愈创醇(5.07%)、β-石竹烯(2.46%)和1,8-桉叶油素(1.72%)[3]。程必强等报道了叶精油的主要化学成分是β-桉叶醇(40.98%)、榄香醇(10.84%)、愈创醇(4.61%)[6]。本试验结果表明,宜宾油樟为桉叶油素型油樟。
nlc202309032136
2.2油樟茎精油成分分析
按“1.3”节方法测得的油樟茎油总离子流色谱图见图3,定性结果见表2。
由表2可知,油樟茎精油以1,8-桉叶油素为主,占鉴定到的3种物质的99.37%,另2种物质为4-萜品醇和α-萜品醇,含量分别为0.24%、0.39%,这与油樟叶精油的成分有很大差异。进一步研究枝条与树叶出油率和产品成分的影响,将有助于综合利用油樟资源。
2.3油樟根精油成分分析
根据“1.3”节的方法对油樟根精油分析,结果如图4、表3所示。
由表3可知,油樟根精油的主要成分是黄樟油素,相对含量高达93.18%,而1,8-桉叶油素和樟脑的相对含量分别为5.31%、1.51%,由此可见根精油成分与叶、茎精油成分有很大差异。
3结论与讨论
本试验结果表明,宜宾油樟叶、茎、根的精油化学成分构成差异较大,其中叶精油的成分比根、茎丰富,主要成分1,8-桉叶油素的相对含量为60.81%,β-水芹烯和α-萜品醇的相对含量分别为13.27%、12.90%。而茎精油主要成分1,8-桉叶油素的相对含量高达99.37%,其他2种成分4-萜品醇和α-萜品醇含量仅分别为0.24%、0.39%。根精油主要成分为黄樟油素,含量为93.18%,而1,8-桉叶油素的相对含量仅为5.31%。油樟叶精油的主要成分分析结果表明,宜宾油樟属于1,8-桉叶油素型。
油樟油是我国重要的外贸商品,精油中的多种单体物质是医药、日化、香精香料的重要原料。1,8-桉叶油素具有抗菌、杀虫、疏风解热、祛湿解毒作用[7],对多种药物具有良好的透皮渗透作用。β-水芹烯是一种具有生物活性的天然杀虫剂,是生物杀虫剂中的一个重要活性成分[8]。黄樟油素可用于合成洋茉莉醛、胡椒基丁醚、左旋多巴、胡椒乙胺、甲基多巴等化工、医药原料[9]。洋茉莉醛不仅可用于香料和调味品工业,而且也可用作电镀工业中的光亮剂;此外,洋茉莉醛还是一些生物碱和特殊化学品合成的重要原料。胡椒乙胺是多巴胺和黄连素合成的重要原料,其中左旋多巴胺是治疗震颤麻痹症的有效药物之一。然而,黄樟油素具有较强的致癌毒性[10],在生产过程中应当采取合理控制工艺,以预防其对工作人员的毒害作用[11]。在植物精油市场上,粗油制品价格低,精加工制品纯度越高价格越高。一直以来,我国油樟油的提炼、精制技术落后,产品单一、品位不高,限制了产品附加值的提升,不利于农户油樟种植积极性的提高,影响了产业的发展。开展油樟加工技术的研究是促进油樟产业快速、健康发展的关键。
参考文献:
[1]罗中杰,李维一,魏琴,等.宜宾油樟的现状及未来[J].四川师范大学学报:自然科学版,2001,24(3):317-319.
[2]李毓敬,李宝灵,曾幻添,等.湖南油樟的化学类型[J].植物资源与环境,1993,2(3):7-11.
[3]陶光复,丁靖垲,孙汉董.湖北油樟叶精油的化学成分[J].武汉植物学研究,2002,20(1):75-77.
[4]黄远征,温鸣章,赵蕙,等.关于油樟叶芳香油化学成分的研究[J].武汉植物学研究,1986,4(1):59-63.
[5]尹礼国,卿海军,曾林久,等.三种方法制备的岩桂叶精油(浸膏)的分析[J].林产化学与工业,2009,29(6):69-72.
[6]程必强,喻学俭,丁靖垲,等.[HJ2mm]中国樟属植物资源及其芳香成分[M].昆明:云南科技出版社,1997:34-35.
[7]王文元,顾丽莉,吴志民.1,8-桉叶油素的研究进展[J].食品与药品,2007,9(02A):56-59.
[8]夏克坚,任宇红,聂丽娟,等.β-水芹烯的合成与应用[J].南昌大学学报:理科版,2001,25(4):380-382.
[9]罗小龙.黄樟油素的生产及应用[J].林产化工通讯,1998(5):24-27.
[10]林大清,池淑君,袁定国,等.樟叶油对雄性小鼠生殖细胞的诱变性[J].癌变·畸變·突变,1994,6(5):27-29.
[11]罗中杰,黄亮.气相色谱法测量空气中的黄樟素[J].化学研究与应用,1999,11(1):99-101.
分类主成分分析 篇4
脑-机接口(Brain-ComputerInterface,BCI)技术形成于20世纪70年代(1973年,Vidal)。脑-机接口是在人脑与计算机建立的直接的交流和控制通道,以此可以直接通过脑来表达想法或操纵设备,而不需要语言或动作[1]。P300是事件相关电位(ERP)中峰潜伏期在300ms左右的晚期正向波。1988年Farwell和Donchin首先提出了6×6的P300字符拼写实验范式,该范式利用P300诱发电位,设计出BCI应用实验。BCI通常由信号获取、信号预处理和特征提取、特征分类和信号输出组成。特征提取主要有离散小波变换[2]、主成分分析[3]和独立成分分析等方法[4]。
主成分分析是一种有效的降维方法,但是以此提取出来的特征,有一部分特征对于分类来说,仍属冗余信息,将这部分特征去掉,不但可以提高效率,还可以提高分类准确率。本实验将主成分分析和Fisher准则相结合,并和单独使用PCA的方法作了比较。
1 特征提取和分类算法
1.1 基础知识
PCA是一种非参数的统计分析方法,它是在低维空间表示高维数据,是统计数据分析、特征提取和数据压缩中的经典方法。给出一组多元测量,目的是寻找变量的冗余度更小的一个子集,作为尽可能好的一个表示。已知一个n维随机向量x,以及来自x的一组采样x(1),…,x(T),PCA中并不对x的概率分布作明确的假设,只要它的一阶和二阶统计量已知,或者可以由样本估计出来。在PCA变换中,向量x首先用减去均值的方法进行中心化,然后把x变换到另一个m维向量y,m<n,从而去掉相关带来的冗余。通过寻找一个旋转正交坐标系使得x在新坐标系中的元素之间不相关。
Fisher准则所要解决的问题是把d维空间降到一维,在一般情况下,总可以找到某个方向,使在这个方向的直线上,样本的投影能分开得最好。距离指标J可作为分离能力的度量[5]。
J=tr(S-1wSb) (1)
式(1)中Sb为类间离散度矩阵,Sw为类内离散度矩阵。
支持向量机最初用于解决模式识别问题,是从线性可分情况下的最优分类面发展而来的,所谓最优分类线就是要求分类线不但能将两类无错误地分开,而且要使两类的分类空隙最大[6]。设线性可分样本集为(xi,yi),i=1,2,…,n,x∈Rd,y∈{+1,-1}是类别标号。d维空间中线性判别函数的一般形式为g(x)=wx+b,分类面方程为
wx+b=0 (2)
将判别函数进行归一化,使两类所有样本都满足
的最小值。在线性不可分的情况下,可以在条件中增加一个松弛项ξi≥0,这时等价于求
的极小值。其中C为一正常数,C越大,对错误的惩罚越重。
遗传算法(genetic algorithm, GA)是受生物进化学说和遗传学说启发而发展起来的,是一种基于适者生存思想较通用的问题求解方法。遗传算法主要包括编码、选择、交叉、变异4个步骤。它是一种全局优化搜索方法,具有简单、适用性强,可以用于并行处理并且适用范围较广。遗传算法可以很好地解决传统搜索方法难以解决的非线性等复杂问题。有着寻优效率高,收敛快的优点[7]。
1.2 算法
对采集到的数据进行低通滤波,截止频率为20 Hz,然后用PCA提取特征,得到的特征中,有一部分在对数据分类的时候,作用并不明显。需要将这部分特征去掉,这不但可以降低数据的维数,还能提高分类的准确率。Fisher准则函数J的大小,很好地表征了两类之间的区别程度。P300诱发电位可视两类问题,即有P300电位和无P300电位,所有的样本对应的采样点构成数据的一维,每一维数据有两类,计算出J值,按照一定比例选取有较大J值的特征。然后用支持向量机分类,支持向量机的参数,可用遗传算法优化得到,以此便可以对数据训练得到model。
实验中一个训练集25个字符,即1 000个样本。对每个实验者分别有两个测试集,分别为测试集1(20个字符)和测试集2(40个字符)。具体流程如下:
Step 1 预处理,用PCA和Fisher准则提取特征;
Step 2 用训练集和支持向量机训练处model;
Step 3 初始化遗传算法参数,对支持向量机的参数进行优化,以分类准确率作为目标函数。得到优化后的支持向量机参数;
Step 4 用优化所得参数对测试集2分类。
2 数据分析
2.1 数据描述
实验数据来源于华南理工大学脑-机接口信息中心。信号的采集为32导,采样率为125 Hz,从每次加亮开始,截取600 ms长度的数据作为一个单次样本(Trial),每个block由40个Trial组成,P300诱发界面有四十个字符,依次先后加亮,持续时间为40 ms,所有的字符都亮一遍为一个block(1.6 s),5个block构成一个epoch,选取信号较强的十二个通道。将数据处理后得到的数据分为两类,检测到P300信号的样本标识为“1”,没有采集到P300信号的标识为“-1”。
2.2 结论分析
核函数主要选取了线性核和高斯核,对每一个实验者的测试集1用高斯核和线性核经50代优化参数,实验中发现用此参数对试集2分类时准确率相当,但是训练时间却比线性核略长,如对实验者1(测试集1),高斯核和线性核分别得到优化参数C=1.293、σ=0.022和C=7.891,准确率分别为0.9和0.875,分类时间为4.283和4.244,类似的结果由实验者2和实验者3均能得到,而且线性核对参数敏感度弱于高斯核,该实验选用线性核。表1分别列出了PCA+Fihser和PCA提取特征的时间和准确率,在用同一个支持向量机参数分类所得的结果。时间t为包括训练时间和分类时间,分类准确率为估计正确的字符除以字符总数40。通过实验数据说明主成分分析和Fisher准则相结合提取特征比,PCA效果更好。
3 结论
介绍了一种用主成分分析和Fisher准则相结合特征提取的方法,分析P300视觉诱发信号。并用遗传算法优化支持向量机的参数,通过实验说明,在对数据进行分类之前,用Fisher提取特征不但准确率有明显提升,而且可以起到降维的作用,使训练和分类时间缩短。
参考文献
[1] Wolpaw J R,Birbaumer N,McFarland D J.Brain-computer inter-face for communication and control.Clinical Neurophysiology,2002;113(6):767—791
[2] Subasi A.EEG signal classification using wavelet feature extractionand a mixture of expert model.Expert Systems with Applications,2007;32:1084—1093
[3] Jin Jing,Wang Xingyu,Wang Bei.Classification of direction percep-tion EEG Based on PCA-SVM.Natural Computation,2007;2:116—120
[4] Qin Jianzhao,Li Yuanqing,Cichocki Andrzej.ICA and committeemachine-based algorithm for cursor control in a BCI system.Springer-link on Advances in Neural Networks,2005;3496:973—978
[5]边肇祺,张学工.模式识别(第二版).北京:清华大学出版社,2000:87—90
[6]张学工.关于统计学习理论与支持向量机.自动化学报,2000;(1):32—42
分类主成分分析 篇5
基于主成分分析的原水水质模糊综合评价
摘要:以西安市某地表水厂原水水质监测资料为研究对象,采用主成分分析法筛选出化学需氧量、高锰酸盐指数、氨氮、总氮和总磷为主要评价因子,通过模糊评价法对原水水质状况进行了评价.结果表明:该地表水厂原水水质为Ⅰ类,水质状况良好,但总氮略有超标,可能成为未来影响水厂处理工艺的主要因素;污染物浓度超标加权法过度强调了某一水质因子的作用,忽视了其他水质指标信息,不适用于考虑总体因素的`水质评价;折减系数法充分考虑了水质状况与水厂工艺的净水能力,使得评价结果更为客观,在地表水厂原水水质评价中具有较好的应用效果.作 者:韩晓刚 黄廷林 陈秀珍 作者单位:西安建筑科技大学,环境与市政工程学院,陕西,西安,710055期 刊:人民黄河 PKU Journal:YELLOW RIVER年,卷(期):,32(9)分类号:X824关键词:原水 水质评价 主成分分析 模糊评价 权重
分类主成分分析 篇6
关键词:主成分分析 财务绩效 评价指标
1.财务绩效评价指标体系的构建
1.1盈利能力指标
营业利润率(X1):营业利润率是指企业的营业利润与营业收入的比率。计算公式为: 营业利润率=营业利润/全部业务收入×100%。
净资产收益率(X2):用以衡量公司运用自有资本的效率。计算公式为:净资产收益率=净利润/净资产×100%。
总资产利润率(X3):用来说明企业运用其全部资产获取利润的能力。计算公式为:总资产利润率=利润总量/资产平均总额×100%。
1.2营运能力指标
存货周转率(X4):用于反映存货的周转速度。计算公式为:存货周转率=销货成本/平均存货余额。
1.3偿债能力指标
资产负债率(X5):表示公司总资产中有多少是通过负债筹集的。计算公式为:资产负债率=负债总额/资产总额×100%。
流动比率(X6):是流动资产对流动负债的比率。计算公式为:流动比率=流动资产/流动负债×100%。
速动比率(X7):是指速动资产对流动负债的比率。计算公式:速动比率=速动资产/流动负债=(流动资产-存货)/流动负债。
1.4发展能力指标
净资产增长率(X8):反映了企业资本规模的扩张速度。计算公式:净资产增长率=(期末扣除其他资本公积的净资产/期初扣除其他资本公积的净资产-1)×100%。
总资产增长率(X9):企业本年总资产增长额同年初资产总额的比率。计算公式:总资产增长率=本年总资产增长额/年初资产总额×100% 。
净利润增长率(X10):是反映企业成长能力的一个重要指标。计算公式:净利润增长率=(本年净利润增长额/上年净利润)×100%。
2.主成分分析的基本思想
2.1基本思想
主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一個综合指标的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。
2.2主要步骤
(1)设原始数据矩阵X=(xij)n×p,其中,i=1,2,……,n;j=1,2, ……p;n表示n个样本;p表示p个指标;xij表示第i个样本的第j个指标值;
(2)将原始数据资料标准化;
(3)计算变量的相关系数矩阵R;
(4)计算R的特征值及相应的特征向量;
向量。首先解特征方程|λi-R|=0,求出特征值λi( i, j=1,2,…,p ),并使其按大小顺序排列,即λ1≥λ2≥…≥0;然后分别求出对应于特征值λi的特征向量ei( i=1,2,…, p);
(5)Zi=a1iX1+a2iX2+…+apiXp即为所求主成分,其中i=1,2,…,p;
(6)求累积贡献率。
(7)构造综合评价函数。选择m个主分量,以每个主分量所对应的特征值占所提取主成分总的特征值之和的比例作为权重,得到综合评价函数。
3.财务绩效指标主成分分析的实证分析
本文选取了中原高速、同力水泥、双汇发展、平煤股份、许继电气、中航光电、太龙药业、郑州煤电、中原环保、ST思达、宇通客车、三全食品、中孚实业、瑞贝卡、天方药业、羚锐制药、新野纺织、利达光电、轴研科技、神火股份、豫能控股、ST安彩、恒星科技、黄河旋风、平高电气、风神股份、豫光金铅、林州重机、焦作万方。财务绩效指标数据来源主要是各个银行2011年年报,原始指标体系是在年报的基础上计算整理得出,能够通过对这29家河南省上市公司在2011年经营情况的研究看出河南省上市公司最新的发展水平。
运用Minitab软件进行数据的分析处理,结果如下:
由相关矩阵的特征分析可知,10个特征值的方差百分比及累计方差百分比表明:第一个特征值是4.0046,第二个特征值是2.0722,第三个特征值是1.3212,这前三个的特征值均大于1,而其余的均小于1。
第一、二、三的特征值的累计方差百分比是0.740。上述都表明原来10个变量反映的信息可由三个主成分反映74.00%,一般认为,累计方差百分比达到70%以上,即认为比较满意。而本文的累计贡献率是74.00%。
运用Minitab最终得出:在河南省29家上市公司中,林州重机、平高电气、焦作万方、黄河旋风、三全食品等几家公司的综合评价处于领先地位。其中,林州重机、黄河旋风、三全食品虽然综合排名靠前,但发展能力方面仍有很大改善空间。另一方面,豫光金铅、中原高速、ST思达、ST安彩、豫能控股的综合财务状况排名比较靠后,需要加以改善。
参考文献:
[1] 张晓峰,李博.主成分分析法在上市公司财务业绩评价中的应用[J].财会月刊.2007.12
[2] 彭亚. 基于主成分分析的上市公司经营管理业绩评价[J]. 山东商业职业技术学院学报.
2010年12月
分类主成分分析 篇7
中国是世界著名的陶瓷生产地,古陶瓷是中华文明独有的历史瑰宝,在古陶瓷研究中,化学元素组成的测量和分析占重要地位。根据古瓷片的化学成分,可以对瓷片进行分类,继而提供陶瓷形成的物理化学内涵及不同类陶瓷样品的制作工艺特点,是很有应用价值的课题。对所研究的事物按照一定的标准进行分类的数学方法称之为聚类分析,是多元统计“物以类聚”的一种分类方法[1]。本文利用主成分聚类分析方法,对景德镇地区的21个古瓷胎的化学成分分类进行研究,即先做主成分分析,再取若干主成分对样品进行聚类分析,结合主成分得分对样品进行分类。
1 主成分聚类分析的原理和算法
主成分分析是将多个指标化为少数几个不相关的综合指标,并最大限度反映原来指标信息的一种多元统计分析方法,其优点在于它使多维变量降维,即从原来关系复杂但又互为相关的许多因子中找出能反映它们内在联系的和起主导作用的少数因子,从而简化了数据结构,给分析问题带来了方便。聚类分析用数学方法定量地确定样本的亲疏关系,从而客观地划分类型。本文将主成分分析和聚类分析综合应用,具体算法如下:
(1)建立原始数据矩阵。设论域U={x1,x2,x3,…,xn}为被分类的对象,而每个对象又有m个指标表示其性状xi={xi1,xi2,xi3,…,xim},(i=1,2,3,…n),于是可以得到原始数据矩阵为:
(2)数据标准化。在实际问题中,不同的数据一般会有不同的量纲,或者某些特性指标数量级比较大,影响分类的效果,所以通常需要对数据进行适当的变换,即对数据进行标准化,将数据压缩到区间[0,1]上,使其满足模糊矩阵的要求。
数据标准化有平移标准差变换和平移极差变换两种,我们利用标准差变换进行数据标准化处理,即:
式中j为n个样品第j个变量的子样均值,Sj为n个样品第j个变量的子样标准差。这时每个变量的子样标准差都化为1,标准化后的数据就与变量的量纲没有关系了。
(3)写出相关系数矩阵R。在标准化数据的基础上,计算原始指标的相关系数矩阵R=(rij)m×m。其中,rij是xi指标因子与xj指标因子之间的相关系数,且
(4)计算相关矩阵的特征值和特征向量。R的m个特征值记为:λ1≥λ2≥…≥λm≥0,相应的特征向量:ti=(ti1,ti2,…,tim),i=1,2,…,m,其中,特征根λi为主成分Yi的方差,方差越大,则对总变异的贡献越大,特征向量则是主成分Yi的线性表达式中原始指标的组合系数。
(5)确定主成分个数。一般选取特征值大于1的主成分个数或者累积贡献率(解释主成分所反映的信息量的大小)达到足够大的值(一般取70~90%)时,取前r个主成分。
(6)计算n个样本在前r个主成分上的得分。主成分得分是原始数据在主成分所定义的新映射下的新数据,即
(7)聚类。根据主成分得分数据,利用系统聚类方法对各样本作聚类分析。
2 古陶瓷的主成分聚类分析
对景德镇地区的21个古瓷胎进行中子活化测试分析,现行分类结果及理化性状见表1,数据主要引自文献[2]。
使用SPSS(18.0)软件作为统计分析工具,利用其自带的数据标准化功能,对表1中的10个指标的原始数据进行标准化处理,并得到各指标之间的相关系数矩阵R以及相关系数的特征值、贡献率、累积贡献率,如表2所示。
从表2中可以看出,Si O2与Al2O3有着很强的相关性。对R矩阵作进一步的主成分分析,求出特征值和贡献率,所得的特征值为该主成分的方差,方差越大对总变量的贡献也越大,为确定主成分的个数和顺序,选取累计贡献率大于或等于85%。由表3可见,相关系数矩阵有5个特征值:2.901,2.028,1.406,1.369,0.909,它们的累计贡献率达到86.134%,说明它们能很好地概括绝大部分信息。第一主成分的贡献率最大,说明第一个主成分最重要,第二次之,依次类推。由此提取5个主成分,其因子载荷矩阵见表4。从表4可以知道,第一主成分中Si O2,Al2O3,Fe2O3,Ti O2,Ca O都有较大的负荷系数,因此第一主成分是各化学组成的综合反映,第二主成分中Al2O3系数大于其他变量的系数,因此第二主成分主要反映Al2O3对配方的影响。
将指标标准化数据记为ZX1,ZX2,ZX3,ZX4,ZX5,ZX6,ZX7,ZX8,ZX9,ZX10,对表4中的每一列值依次分别除以,这样就得到每个特征根对应的单位特征向量,如,
由此可以写出五个主成分表达式:
根据主成分表达式即可计算各主成分得分F1,见表5,用主成分得分代替原始数据用于系统聚类分析,采用Ward法,选择欧氏距离,得到聚类谱系图,见图1。
由聚类结果可以看到,所有的景德镇地区古瓷胎样品基本可以分为3类:五代及宋代古瓷样品大多属于Ⅰ类,以影青瓷为主,另有少量白瓷及青瓷等,基本都是由瓷石单一原料制得的;元代与明代大部分瓷胎样品都属于Ⅱ类,包括枢院窑瓷器及明代青花瓷等,元代样品在Ⅱ类中有较明显的聚集区域,说明从宋代到元代的过渡可能是突变的过程,瓷胎可能是由瓷石配合高岭土制作而成的;所有清代瓷胎样品以及部分明代瓷胎样品属于Ⅲ类,瓷胎成分反映了其配方中高岭土的引用量较前两种要高,明代部分瓷胎样品分布在第Ⅲ类的现象说明明代瓷胎的配方中高岭土的用量接近清代瓷胎制作的配方。
根据过去的研究,景德镇历代瓷胎正是由含有较高的Si O2和较低的Al2O3的单一瓷石作为原料的一元配方演变为以瓷石和含较高的Al2O3的高岭土作为原料的二元配方[4,5]。这就说明上述样品的聚类现象同以往科研工作者提出的景德镇历代瓷胎配方的变化规律是一致的,因此应用模糊聚类分析方法对古瓷胎分类是有效和可行的。
参考文献
[1]方开泰等.多元统计分析引论[M].北京:科学出版社,1982
[2]罗宏杰.中国古陶瓷与多元统计分析[M].北京:中国轻工业出版社,1997
[4]吴隽,李家治.景德镇历代青花瓷胎釉化学组成的多元统计分析[J].陶瓷学报,1997,18(3):130~135
分类主成分分析 篇8
关键词:平板电脑,主成分分析,特征性指标
随着苹果i Pad的巨大成功, 越来越多的IT企业进入到平板电脑的研发之中, 但每一款平板电脑都共同的有一些我们主要关心的指标, 比如屏幕尺寸, RAM容量, 续航能力等等。它们参数大小迥异, 并且具有一定的相关性, 而其中的一些指标则决定了价格的高低。本文应用主成分分析方法针消费者所关心的一些主流指标进行分析, 这可以帮助消费者减少购买智能时考虑的因素, 且对平板电脑性能特征有更加清晰地了解, 通过研究发现可以用两个个主成份来代表样本整体的综合性能指标情况。
2 主成份分析法 (Principal Component Analysis, PCA)
主成份分析法也称主分量分析或矩阵数据分析, 通过变量变换的方法把相关的变量变为若干不相关的综合指标变量。
若某研究对象有两项指标ζ1和ζ2, 从总体ζ (ζ1, ζ2) 中抽取了N个样品, 它们散布在椭圆平面内 (见图1) , 指标ζ1与ζ2有相关性.η1和η2分别是椭圆的长轴和短轴, η1⊥η2, 故η1与η2互不相关。其中η1是点ζ (ζ1, ζ2) 在长轴上的投影坐标, η2是该点在短轴上的投影坐标。从图1可以看出点的N个观测值的波动大部分可以归结为η1轴上投影点的波动, 而η2轴上投影点的波动较小。若η1作为一个综台指标, 则η1可较好地反映出N个观测值的变化情况, η2的作用次要。综合指标η1称为主成份, 找出主成份的工作称为主成份分析。
可见, 主成份分析即选择恰当的投影方向, 将高维空间的点投影到低维空间上, 且使低维空间上的投影尽可能多地保存原空间的信息, 就是要使低维空间上投影的方差尽可能地大。
3 主成份分析法的应用
3.1 原始数据的处理和标准化
由于原始数据矩阵庞大, 如对全部指标进行分析, 将而导致主次要成因相混淆;若仅选其中部分指标, 又可能会影响分析结果的代表性和完整性。此外, 为了克服不同变量数值差异过大而造成的主成份分析误差, 按照主成份分析法要求, 应对原始数据矩阵进行标准化, 进而得到进行主成份分析的11个变量的相关系数矩阵, 见表1。
3.2 平板电脑特征性指标主成份分析的计算结果
主成份分析的计算结果中, 新变量所代表的方差 (即对应的特征值) 贡献率和由原变量变换为新变量的线性变换系数 (即对应的特征向量) 就成为我们进行综合分析的重点。下列表2、表3、表4和表5分别给出了原始数据的公因子方差、各个主成份的解释的总方差, 主成份的计算结果, 和进行因子旋转后的主成分计算结果, 进行因子旋转是为了能更好地看出新的主成分和原始指标的联系, 使原始指标对主成分的变换系数向0或1极化。要说明的是, 旋转后并不改变总的累计方差贡献度。图2则是各个主成份的特征值。
图2表明, 前两个主成份积累方差贡献率达到66.6%, 根据主成份分析法的一般原理, 可取前两个具有明显代表性的主成份。原有的8个变量可用两个主成份表示, 如表4所示。
本文可以依据以上计算结果绘出成份图, 表明新旧变量之间的关系。同时, 也可以为原始平板电脑特征性指标分类, 得到成份图, 如图3。
3.3 结果分析
由主成份分析的计算结果可以看出, 原变量的方差在新变量中的集中度很高, 根据平板电脑特征性指标的实际状况和主成份分析的要求, 本文取前2个主成份来反映原来的8个变量, 其方差的累计贡献率已达到66.551%, 两个主成份的贡献率分别为46.247%, 20.304%, 两个主成份在66.551%的程度上反应了平板电脑的基本特征。可以认为, 这两个主成份基本上能够反映出原变量的变化所代表的平板电脑的性能。
在第一主成份中, 屏幕尺寸、存储内存、重量、电池容量、售价指数所占权系数较大, 并且五个变量的变化方向一致, 呈正相关。正常情况下平板电脑屏幕尺寸越大, 相对地它所拥有的像素个数就越多, 要把更多的像素点亮显然需要的电池容量也就越大, 而平板电脑的厚度相对来说变化都是很小的, 所以屏幕尺寸的变化还直接导致了平板电脑重量的变化, 而这些尺寸和容量的最明显体现就是产品的价格变化。存储内存指的是存放电脑固件代码的存储器, 比如平板电脑的操作系统、一些应用程序等。用更通俗的话来说, 存储内存我们就可以理解成平板电脑的硬盘, 是让我们在里面存储东西用的, 存储内存越大, 所存储的文件资料也就会越多。而足够大的存储内存就好比装了一个外带的存储卡, 自然存储内存的越大价格也越贵。综上我们可以把第一主成分命名为价格影响成分。
在第二主成份中, CPU核心数、运行内存以及续航能力等两个指数所占权系数较大。CPU核心数目越多, 平板电脑执行任务的分工就越明确, 比如软件应用不同的核心处理器, 这会使程序拥有更快的响应速度、浏览网页更流畅、视频播放高清解码表现更出色。运行内存直接和CPU交互, 显然大小要和CPU匹配。并且大屏幕, 高分辨率, 多核心的平板电脑已成为大势所趋, 也是厂商研发的方向。这些功能的实现必然会耗费大量的电量, 这就需要平板电脑需要良好的续航能力, 这样用户才能更加持久地体验平板电脑所带来的方便和刺激。综上我们可以把第二主成分命名为硬件成分。
4 结论
主成份分析法结果表明, 这些较为流行的平板电脑的基本性能可分为两类, 即价格影响成分和硬件成分。从中我们可以得出的结论是最影响价格的指标存储内存的容量, 市面上存储内存高的平板电脑往往价格也较高, 毕竟, 最能给消费者留下直观影响的就是存储。不过随着科技的发展, 更多的年轻人注重于CPU核心数目, 运行内存大小, 续航能力等硬性条件, 不过对于大多数的人来说双核和四核没什么本质区别, 运行内存1GB和2GB也没有想象中的那么重要, 要想满足我们普通的需求, 配置不一定必须很高。其次, 消费者也不应单纯地认为电池容量越大的待机时间也就越长, 因为待机时间是受多个指标和实际使用时候的影响, 不能简单地把它归结为受某一单一指标的控制。最后, 消费者在购买平板电脑时候还应考虑自操作系统系统, 品牌信誉, 工业设计等因素。
参考文献
[1]汪应洛.系统工程[M].北京:机械工业出版社, 2009:54-60.
[2]方开泰.实用多元统计分析[M].上海:华东师范大出版社, 1989:291-302.
[3]王学仁, 王松桂.实用多元统计分析[M].上海:上海科技出版社, 1990:270-272.
分类主成分分析 篇9
中国互联网络信息中心(CNNIC)2015 年7 月发布的《中国互联网发展状况统计报告》显示,我国搜索引擎用户规模达5.36 亿,使用率为80.3%[1]。搜索引擎已成为用户访问互联网资源,获取各类信息的主要工具。然而搜索引擎的广泛使用却使得垃圾网页愈加泛滥,这严重降低了搜索引擎的搜索质量,影响了互联网用户对搜索引擎的信任度[2]。垃圾网页通过各种作弊技术欺骗搜索引擎排名算法, 以获得更高的搜索结果排名, 从而获取更高的商业利益[3]。垃圾网页的有效检测可极大提高搜索引擎检索效率,提高搜索引擎的用户体验[4]。
当前, 垃圾网页主要采取以下技术手段干扰搜索引擎算法,进行排名作弊:(1)利用内容作弊,如关键词堆砌(在标题或网页文本中大量使用热门关键词,欺骗搜索引擎的TF/IDF算法)[5]。(2)利用链接作弊,如链接农场(在网页中建立大规模链接结构,欺骗搜索引擎的Page Rank等算法)[6]。(3)内容隐藏作弊,如Cloaking技术[7](也叫覆盖技术,欺骗网络爬虫,对用户和搜索引擎提供完全不同的两种网页)。针对垃圾网页的作弊技术,目前许多专家学者对垃圾网页检测的研究提出了许多有效的算法[8,9,10,11,12,13,14,15]。如Ntoulas A等人提出了基于内容分析的垃圾网页检测,通过链接文本比例,网页压缩率等内容特征建立决策树进行分类[16];Gyongyi Z等人提出了trustrank算法[17],根据网页的链接结构来对垃圾网页进行识别;Jun-Lin Lin等人针对使用Cloaking技术的垃圾网页,提出了基于标记的隐藏型垃圾网页检测算法[18]。
内容特征和链接特征相结合可识别不同种类的垃圾网页,但同时会导致数据集维数过高问题。特征属性间较大的冗余度对分类精度也有一定影响。因此,本文在综合考虑内容特征,链接特征的基础上,将数据集中相关联的特征属性进行分析并分组处理,并对每一组分别进行主成分分析,以保持数据集特征属性的结构及完整性,降低数据维度和冗余度,减少无关属性对分类结果的不良影响。
2 主成分分析
主成分分析将数据集中具有相关性的特征属性进行组合,形成相互无关的特征属性组[19,20]。设含n个样本的样本集中有p个特征属性x1, x2,···xp。
对X矩阵作正交变换,得到原属性的线性组合Fj:
Fj依次为第1,2,3, ……,p主成分,aij我们称为主成分系数。 每一主成分Fk的系数平方和
主成分之间相互独立,且主成分的方差依次递减。
对如上述具有高维度的样本集,可以依下列步骤对其进行主成分分析降维:
(1)对原始样本集标准化处理并计算原始系数矩阵
标准化:
标准化后的相关系数为
原始系数矩阵为:
(2) 计算矩阵R的协方差矩阵,然后用雅克比方法计算相关系数矩阵R的特征值和相应的特征向量,并将特征值由大到小进行排列。其中,协方差矩阵是对称矩阵,其对角线上的值为各个维度上的方差[21]。
(3) 根据贡献率,选出主成分。
主成分分析可得到p个主成分,主成分所含特征属性的信息随主成分方差递减。而在实验中对数据集进行主成分分析降维时,一般不选取所有主成分,而是根据各个主成分累积贡献率(某个主成分的特征值占全部特征值之和的比重)的大小选取前k个主成分。贡献率 β 计算公式为:
3 支持向量机
支持向量机(SVM)作为基于统计学习理论的机器学习算法,在处理小样本问题,非线性及高维数据方面具有较强的分类性能。目前已广泛应用到模式识别,回归问题等众多领域。支持向量机不仅能处理线性可分数据,而对线性不可分数据也有较强的分类能力[22]。对于线性不可分数据,SVM通过引入核函数将低维的输入向量变换为高维向量空间,在高维空间寻找最优分类超平面。SVM其本质为间隔最大线性分类器,即通过凸二次规划问题的求解来寻求间隔最大化,其具体计算原理为:
假设某数据集有n个m维样本即。SVM的分类超平面为
通过下面最优化问题的求解来获取最优分类超平面:
SVM将通过以下函数对测试样本分类:
li为拉格朗日系数。P为惩罚系数,用于调整SVM寻找最优分类面时的误差。引入核函数K处理线性不可分的情况。
4 关联属性主成分分析
4.1 关联属性分析
本节对Yahoo实验室公布的垃圾网站监测数据集WEBSPAM-UK2007 的特征属性进行了分析, 以发现不同特征属性间的内在规律及其关联性。该数据集共有96 个内容特征,41 个链接特征,共137 维[23]。
内容特征中, 共有四种类型的特征属性: 主页, 主机最大Page Rank值页面, 主机页面平均值, 主机页面标准差。每种类型属性对应网页单词数量, 标题单词数量, 平均单词长度, 固定文本比例, 可视文本比例, 网页压缩率, 语料库精确度属性组(包括前100 个语料库精确度, 前200 个语料库精确度, 前500 个语料库精确度, 前1000 个语料库精确度四个子属性), 语料库召回率属性组(包括前100 个语料库召回率, 前200 个语料库召回率,前500 个语料库召回率,前1000 个语料库召回率四个子属性), 查询精度属性组(包括前100个查询精度,前200个查询精度,前500个查询精度,前1000 个查询精度四个子属性), 查询召回率属性组(包括前100 个查询召回率, 前200 个查询召回率, 前500 个查询召回率, 前1000 个查询召回率四个子属性),n连词分布熵,n连词独立测度等24 个特征属性[5]。通过对每两个单个内容特征及特征组四个内容特征间进行统计及相关性计算可知,单个内容特征中n连词分布熵和n连词独立测度相关度较高,特征属性组的四个内容特征相关度较高,故称其为关联属性。本文将内容特征中关联属性的四种类型分为一组, 不相关的单个内容特征的四种类型分为一组,共分为11 组。
链接特征中, 除eq_hp_mp(判断主页是否为主机中最大Page Rank值页面, 是为1, 否为0)外, 其余特征属性共两种类型: 主页和主机最大Page Rank值页面。每种类型对应assortativity( 网页的同配系数), avgin_of_out(出链接指向网页的平均入链数), avgout_of_in(发出入链接网页的平均出链数), 网页入度, 网页出度, neighbors属性组(包括neighbors_2(具有2 个链接距离的邻居数),neighbors_3, neighbors_4 四个子属性),Page Rank值, 网页Page Rank值的标准差, 入链出链互惠比例,Trust Rank值, 主机前驱增长率( 包括siteneighbors_1( 主机1 级前驱增长率), siteneighbors_2,siteneighbors_3,siten eighbors_4 四个子属性), 截断Page Rank值属性组( 包括truncatedpagerank_1(截断1 次的Page Rank值),truncat edpagerank_2,truncatedpagerank_3, truncatedpagerank_4四个子属性)等共21 个属性。
对每两个单个链接特征及特征组四个链接特征间进行统计及相关性计算后发现,单个链接特征间相关度较低,特征属性组的四个链接特征相关度较高,为关联属性。本文将链接特征中关联属性的两种类型分为一组, 不相关的单个链接特征的两种种类型分为一组,共分为12 组。实验时对每一组特征属性分别进行主成分分析降维。
4.2 算法流程
本文提出的检测方法将样本集关联特征属性分组并分别进行主成分分析,选取贡献率较高的主成分特征训练SVM分类器,有效提升了垃圾网页的检测性能。其算法流程如下:
(1)对原始数据集WEBSPAM-UK2007 筛选整理,选取已标注为“spam”,“nonspam”的样本。对数据集内容、链接特征分别进行相关度分析,对相关度较高的关联特征属性合为一组,建立分组规则。
(2)对训练集特征属性根据(1)形成的分组规则分组,并对每组特征属性PCA处理,选取贡献率95% 以上的主成分作为训练特征。将每组PCA后所选取的主成分替换原特征组合并到新的特征训练集中。
(3)使用处理后的新训练集训练SVM分类器,生成垃圾网页分类模型。使用该分类模型对新测试集分类,检测样本是否为垃圾网页。
5 实验
5.1 实验数据集
本文使用WEBSPAM-UK2007 作为实验的样本集,样本集的部分页面被人工标注为“non-spam”,“spam”[22]。本文只选取标注为“non-spam”和“spam”的页面作为实验的样本训练集和测试集,共计页面5797 个。样本集的分布情况如表1。
5.2 评估准则
混淆矩阵是监督学习中用于衡量分类器分类结果的重要参考标准。混淆矩阵的定义如表2。TP是指垃圾网页被正确分类的数目;TN是指垃圾网页被错误分类的数目;FP是指正常网页被错误分类的数目;FN是指正常网页被正确分类的数目。
本文实验采用Precision,Recall,F1 值作为评估指标。 Precision(准确率)是指预测结果的垃圾网页中被正确分类的比例;Recall(召回率)是指真实的垃圾网页中被分类正确的比例。而F1 是一个综合指标,它是Precision和Recall的调和平均值。Precision,Recall,F1 计算公式分别为:
5.3 实验结果与分析
本文在怀卡托智能分析环境Weka下进行了对比实验,算法参数采用默认值。
首先对垃圾网页数据集进行了关联属性分析并分组PCA,选取每组累积贡献率95% 以上的主成分,对数据集进行降维把数据集维度从137 维降为60 维,极大缩小了数据集规模,可有效提升垃圾网页的分类效率。
再将传统的SVM,Naïve Bayes,J48 等单一分类器与关联属性分组PCA+SVM方法进行了比较,实验结果见表4。在单一分类器中,SVM以0.942 的高检测率表现出良好的检测性能;而对数据集关联属性分组PCA后,相比于SVM单一分类器,各项指标都得到了明显提升, Precision,Recall, F1 值分别提高了6.2,0.5,1.1 个百分点。同时,与Adaboost M1 集成方法相比,各项指标值得到了不同程度的提高,其中分类准确率Precision由94.3% 提升到了94.9%,提高了0.6 个百分点;与Bagging集成方法相比,分类准确率Precision由93.3% 提升到了94.9%,提高了1.6 个百分点。由此可以看出,对数据集关联属性分组PCA可以有效降低数据集的特征冗余,显著提高SVM分类器的分类性能。
6 结束语
主成分分析是多元数据分析方法之一。它在降低数据维度,提高分类器分类性能等方面得到了广泛应用。本文对关联属性分组主成分分析,选取每组最高贡献率的主成分作为SVM的输入特征集空间,减少了数据冗余,保持了原数据集特征属性的结构完整性。实验证明,本文提出的方法有效提高了SVM分类器对垃圾网页检测的速度与精度。
摘要:垃圾网页(Web Spam)的大量存在严重降低了搜索引擎的检索效率。针对垃圾网页内容特征、链接特征的高维性及特征属性间的冗余性,本研究先对垃圾网页数据集中具有较高相关度的关联属性进行分组主成分分析(PCA),并选取最高贡献率的第一主成分的主要属性,从而减少冗余。再使用支持向量机(SVM)分类模型对处理后的数据集进行分类实验。实验结果表明,本文提出的方法可有效提高SVM对垃圾网页的分类性能。
分类主成分分析 篇10
1 方法与技术
1.1 主成分分析
主成分分析是一种多元统计方法,其中心目的是将数据降维,以排除众多化学信息共存中相互重叠的信息。它是将原变量进行转换,使少数几个新变量是原变量的线性组合,新变量即为主成分(PCs)。变换的结果是使第一个主成分(PC)包含有最大的方差,第二个主成分(PC)含有次大的方差,依此类推。一般取前几个主成分,即将多维空间降为低维空间。
1.2 主成分数的确定
通过求变量的相关矩阵特征值和特征向量,根据特征值的大小来确定主成分个数。一般以特征值大于1,前几个主成分累计贡献率大于80%为依据。
2 实验部分
2.1 仪器与试剂
TU-1810PC紫外可见分光光度计(北京普析通用仪器公司),CAMAG Reprostar3薄层色谱软件,winCATS数码相机系统,石英比色皿。实验用纸为复印纸(百旺A4打印纸),硅胶板GF254 (青岛海洋化工厂),薄层色谱展开缸,玻璃点样毛细管(内径0.5 mm)。
甲基紫(MV)、结晶紫(CV)、碱性艳蓝B (VBB)、碱性艳蓝BO (VBBO)、磺化铜酞菁(SCP)、罗丹明B (RhB)、甲醇、乙腈、二氯甲烷、乙酸乙酯、正丁醇、无水乙醇、冰醋酸等均为分析纯。取各标准品0.1 mg分别放入10 mL容量瓶中,加入甲醇溶解,定容至刻度。样品:中国、日本、德国、中国香港以及中国台湾等地生产的34种市售蓝色圆珠笔。
2.2 实验方法
2.2.1 紫外可见样品的制备与测定
对每一品牌同一批次的2支圆珠笔各取样一次,共得34个紫外可见光谱图。取样方式:将样品圆珠笔芯在A4复印纸上划线,书写时保持笔力均匀,用洁净的手术刀截取长5cm宽2mm笔道,剪碎放入小试管中,加5mL提取剂(乙腈:水=70:30,V/V),静置10min。取上层澄清液转入一个1.00cm比色皿中做吸光度测量,纸张提取液做空白。扫描范围400~700nm,间隔1nm。
2.2.2 TLC标准样品的制备与测定
用毛细管对各个标品溶液以及混标溶液进行点样,点样体积约5μL,点样完毕后将硅胶板放入盛有展开剂(正丁醇:无水乙醇:水:冰醋酸=9:1:1:0.3)的薄层色谱展开缸中展开。
2.2.3 TLC样品制备与测定
将样品按编号顺序在无荧光纸上划线备检。取各种样品的笔道lcm长,剪碎放入锥形小试管中,分别加入20μL甲醇提取10min,用毛细管点样,点样量约为10μL。然后放入上述展开体系中展开,展开剂前沿为9cm。
3 结果与讨论
3.1 薄层色谱分析结果
按“2.2”实验方法对34支蓝色圆珠笔进行TLC分析,各化合物的Rf分别为:结晶紫(Rf 0.38,蓝紫色)、甲基字(Rf 0.49,紫色)、碱性品蓝(Rf 0.58,浅紫)、碱性艳蓝B (Rf 0.44,浅蓝绿色),碱性艳蓝BO (Rf0.65,深蓝)、罗丹明B (Rf0.50,粉红色)和铜酞箐(Rf 0.00,铜绿色)(见表1)。从表1中可以看出:根据油墨所含染料的不同,34支圆珠笔可分成5大类。
注:SCP:磺化酮酞菁,TPR:碱性品蓝,MV:甲基紫,CV:结晶紫,VBB:碱性艳蓝B,VBBO:碱性艳蓝BO,RhB:罗丹明。+指油墨中含有此种染料,空格指油墨中不含此种染料。
3.2 紫外可见光谱的数据处理
为克服取样量差异所带来的影响,使光谱具有可比性,文中按式1对各个波长下吸光度值进行转换
取log10(%A)作为原始变量以使数据正规化。然后对原始变量进行标准化预处理,使各原变量的均值为0,均方差为1,以保持数据的相对稳定性并利于比较。数据的标准化及主成分分析均用MATLAB6.5软件编程处理。
3.3 紫外可见光谱图的分析
图1是5支蓝色圆珠笔油墨紫外可见光谱图。图1中显示,圆珠笔油墨大体分为两大类:圆珠笔17、25含有一单峰,其最大吸收在575~600 nm之间;圆珠笔1、21和29含有双峰,第一个峰的最大吸收在575~600 nm之间,第二个峰的最大吸收在660~675 nm之间。
利用油墨的紫外可见光谱图可对不同品牌的圆珠笔进行粗略的分类,但要解不同品牌圆珠笔之间的相互差别,则需要深入探索光谱图所包含的丰富信息,对紫外光谱数据进行进一步的分析。
3.4 紫外可见光谱数据的主成分分析
为评估主成分分析-紫外可见光谱法识别不同品牌蓝色圆珠笔的可行性,首先从全部样品中挑选出四个不同品牌共8支来进行主成分分析。经过计算,前两个主成分描述94.5%的光谱特征,包含绝大部分的光谱信息,对PC1、PC2投影(见图2)。
图2显示,8支圆珠笔明显分为四类,6、7两支样品位于得分图的左上区,具有较正的PC2得分和较负的PC1得分,31、32两个样品位于图形的右上区,PC1和PC2得分都比较大。因此,仅通过PC1可以将6、7和31、32这两类样品明显区别开来。而13、14和23、24这两类样品则需要通过PC1和PC2两个主成分才能将它们分离开。8支圆珠笔油墨样品紫外可见光谱的数据的主成分分析结果同薄层色谱分类结果完全吻合。
3.5 所有圆珠笔的主成分分析
对17个不同品牌的34支蓝色圆珠笔油墨400~700nm之间的紫外可见光谱数据采用主成分分析,结果显示前3个主成分累积贡献率为96.5%。因此,前3个主成分基本包含圆珠笔油墨的绝大部分信息。前3个主成分的碎石图(Scree)(见图3)。
对前三个主成分分别进行投影,发现主成分1、2的投影效果最好(见图4),投影显示34支样品大致分为五类。1~10号样品含有相同的染料成分聚在一起(A类),这一类样品集中在图4的左下区,有负的PC1的得分和负的PC2得分。B类样品主要集中X轴的上方并且具有正的PC2得分。D类(23、24、29和30号样品)和E类(21、22、31和32号样品)都位于Y轴的右边且都具有较正的PC1载荷。A类和C类样品主要是通过PC2识别开来,B类、D类和E类主要是通过PC1识别开来。从图4还可看出,A类内的样品之间相互识别明显,说明样品内油墨组分的含量差异比较大。D类和E类则是两个较为紧凑的聚类,说明这两类内的样品油墨成分含量非常相似。
(+)第一类的10支笔;(O)第二类的10支笔;(*)第三类的4支笔;(◇)第四类的4支笔,(□)第五类的6支笔)。
同薄层色谱分类结果对比发现,采用主成分分析方法对34支蓝色圆珠笔油墨的分类同薄层色谱分类基本相一致,A类对应第一类,B类对应第二类,C类对应第四类。而D、E两类同第三类和第五类不对应。
第五类样品的6个样品分别(29、30、31、32、33和34)聚在3个不同区域(B、D和E3类)。因为在紫外可见光谱吸收中,由于分辨率较低的原因,MV、CV、VBB和VBBO这4种染料的紫外吸收只产生一个580 nm区域的吸收峰,比较21、22、31和32四支圆珠笔的薄层色谱斑点个数、强度和比移值(Rf)大小发现,21号和22号样品不含有VBB,而VBBO处斑点颜色较深,31和32号样品中VBB的斑点颜色较浅而VBBO的斑点颜色较深。因此,在这四支笔中VBBO对聚类起决定性作用。23、24、29和30 (D类)四支笔也是因为相同原因能够聚成一类。33和34两个样品同B类样品聚成一类是因为这两支笔中VBBO的斑点颜色较浅而VBB的斑点颜色较深,而B类中其它样品油墨内不含有VBBO而含有较多的VBB。C类中的四支样品(25、26、27和28)聚成一类,则是因为这四支笔中都含有RhB这种染料。
4 结论
本文通过将蓝色圆珠笔油墨的主成分分析结果同薄层色谱分析相对比,发现主成分分析用于蓝色圆珠笔油墨的紫外可见光谱数据可以达到对不同品牌的笔有良好的识别效果。
摘要:采用薄层色谱法和紫外可见光谱法分析34支蓝色圆珠笔油墨。截取400~700nm之间的紫外可见光谱数据进行主成分分析。主成分分析表明主成分1、2和3的累积贡献率已达96.5%,以主成分1、2对所有样品的得分值作图,对不同品牌的圆珠笔有很好的聚类作用。将主成分分析的分类结果同薄层色谱法的分类结果相比较,结果表明,采用主成分分析技术可以达到对蓝色圆珠笔油墨字迹的良好识别。
关键词:薄层色谱法,主成分分析,紫外可见,蓝色圆珠笔油墨
参考文献
[1] 黄娟娟,贺江南,刘冬娴.中国司法鉴定,2007,(1) :24-2
[2] Tsutsumi K, Ohga K. Anal.Sci, 1998, (14) :269~274
[3] 张婧,王炳娟,邹洪.气相色谱法鉴别圆珠笔油墨种类及其字迹形成时间的研究,现代仪器,2007,(4) :25-27
[4] Samanidou V F, Nikolaidou K I, Papadoyannis I N. Journal of Liquid Chromatography & Related Technologies, 2004,(2) :215~235
[5] Thanasoulias N C, Parisis N A, Evmiridis N P. J.Frensic.Sci,2003, (138) :75~84