关键词:
论文题目:稀疏主成分分析方法的分类比较
摘要:主成分分析方法是常用的一种基于变量协方差矩阵对样本信息进行处理、压缩和提取的数据特征提取方法,已被广泛应用于生物学、医学、机器学习和信息学等多个领域。然而,实际应用中常会面临如下挑战:一是每一个主成分都是原始变量的线性组合且载荷系数大多是非零的,这就导致很难解释主成分的意义;二是在高维数据下可能会产生“错误”的结果。稀疏主成分分析的提出改善了主成分分析方法在上述挑战中的应用。稀疏主成分分析是将LASSO稀疏性惩罚思想和主成分分析方法相结合,使得载荷系数变得稀疏,从而达到降维和可解读的效果,同时稀疏性惩罚的不同也可以产生不同性质的稀疏主成分。根据各稀疏主成分方法的特点,本文将其归纳为三个大类,分别是常规的稀疏主成分分析方法、获得最大被解释方差的稀疏主成分分析方法和具有正交或不相关性的稀疏主成分分析方法。特别的,我们从每一类方法中选择了一种最具代表性的方法,依次是Zou等(2006)的稀疏主成分分析(SPCA)方法,Shen和Huang(2008)的基于正则化SVD算法的稀疏主成分分析(SPCA-r SVD)方法和Qi等(2013)基于范数选择的稀疏主成分分析(CN-SPCA)方法。文中详细介绍了每一种方法的基本模型和算法,旨在对不同类型的稀疏主成分分析方法进行比较。模拟研究和实例分析的结果表明,三种不同稀疏主成分分析方法均提取出具有稀疏特征的主成分,提高了主成分的可解释性。但是,相对于常规的主成分分析方法,三种不同稀疏主成分分析方法提取的被解释性方差比例均有所降低,其中,SPCA-r SVD方法在三种方法中提取的被解释方差比例始终是最高的,而CN-SPCA方法提取了互不相关的稀疏主成分但被解释方差比例较低。该研究结果为选取合适的稀疏主成分分析方法提供了一定的参考。
关键词:数据降维;主成分分析;稀疏主成分分析;模拟
学科专业:应用统计(专业学位)
摘要
Abstract
第一章 引言
1.1 研究背景及研究意义
1.2 文献综述
1.2.1 传统稀疏主成分
1.2.2 最大解释方差的稀疏主成分
1.2.3 正交或不相关的稀疏主成分
1.3 研究内容
第二章 理论基础
2.1 主成分分析方法
2.1.1 主成分的基本理论及其性质
2.1.2 通常求解主成分的两种算法
2.2 稀疏主成分分析方法
2.2.1 稀疏主成分与惩罚回归之间的关系
2.2.2 求解稀疏主成分的一般算法
2.2.3 SPCA方法调节参数的选择
2.3 基于正则化SVD算法的稀疏主成分分析方法
2.3.1 s PCA-r SVD方法的基本理论
2.3.2 s PCA-r SVD方法的方差
2.3.3 s PCA-r SVD方法求解稀疏主成分的算法
2.3.4 s PCA-r SVD方法调节参数的选择
2.4 基于范数选择的稀疏主成分分析方法
2.4.1 CN-SPCA方法的基本理论及求解稀疏主成分的基本算法
2.4.2 CN-SPCA方法调节参数的选择
第三章 稀疏主成分分析方法的比较研究
3.1 基于模拟数据的比较研究
3.1.1 Monte Carlo模拟
3.1.2 模拟数据分析
3.2 基于pitprops数据集的比较研究
3.2.1 Pitprops数据集简介
3.2.2 Pitprops数据分析
第四章 稀疏主成分的应用
4.1 稀疏主成分在学生成绩数据中的应用
4.1.1 学生成绩数据简介
4.1.2 学生成绩数据分析
4.2 稀疏主成分在手写数字识别中的应用
4.2.1 MNIST数据集介绍及预处理
4.2.2 MNIST数据分析
第五章 总结
附录 A 代码
附录 B 相关调节参数图
附录 C 成绩数据相关表
参考文献
致谢
相关文章:
美中陪伴教育思想——浅谈小学美术教学01-25
人工智能在计算机网络技术中的应用探讨01-25
网络多媒体技术在高校计算机教学中的应用01-25
计算机网络技术在信息管理中的应用探究01-25
浅析油画创作中的情感表达01-25
道家生态哲学思想01-25
有效成分提取01-25
多元分析、主成分分析01-25
句子成分英语分析01-25
化学成分分析论文01-25