多元统计学分析

关键词: 反映 能力 信息

多元统计学分析(共6篇)

篇1:多元统计学分析

《多元统计分析》习题分为三部分:思考题、验证题

和论文题

思 考 题

绪论

1﹑什么是多元统计分析?

2﹑多元统计分析能解决哪些类型的实际问题?

聚类分析

1﹑简述系统聚类法的基本思路。2﹑写出样品间相关系数公式。

3﹑常用的距离及相似系数有哪些 ?它们各有什么特点? 4﹑利用谱系图分类应注意哪些问题?

5﹑在SAS和SPSS中如何实现系统聚类分析?

判别分析

1﹑简述距离判别法的基本思路,图示其几何意义。2﹑判别分析与聚类分析有何异同? 3﹑简述贝叶斯判别的基本思路。4﹑简述费歇判别的基本思路。5﹑简述逐步判别法的基本思想。

6﹑在SAS和SPSS软件中如何实现判别分析?

主成分分析

1﹑主成分分析的几何意义是什么? 2﹑主成分分析的主要作用有那些?

3﹑什么是贡献率和累计贡献率,其意义何在?

4﹑为什么说贡献率和累计贡献率能反映主成分中所包含的原始变量的信息? 5﹑为什么要用标准化数据去估计V的特征向量与特征值? 6﹑证明:对于标准化数据有S=R。

7﹑主成分分析在SAS和SPSS中如何实现?

因子分析

1﹑因子得分模型与主成分分析模型有何不同? 2﹑因子载荷阵的统计意义是什么? 3﹑方差旋转的目的是什么? 4﹑因子分析有何作用?

5﹑因子模型与回归模型有何不同?

6﹑在SAS和SPSS中如何实现因子分析?

对应分析

1﹑简述对应分析的基本思想。2﹑简述对应分析的基本原理。

3﹑简述因子分析中Q型与R 型的对应关系。4﹑对应分析如何在SAS和SPSS中实现?

典型相关分析

1﹑典型相关分析适合分析何种类型的数据? 2﹑简述典型相关分析的基本思想。3﹑典型变量有哪些性质?

4﹑典型相关系数和典型变量有何意义? 5﹑典型相关分析有何作用? ﹑在SAS和SPSS中如何实现典型相关分析?

验 证 题

聚类分析

1、为了更深入了解我国人口的文化程度,现利用1990年全国人口普查数据对全国30个省、直辖市、自治区进行聚类分析。分析选用了三个指标:(1)大学以上文化程度的人口占全部人口的比例(DXBZ);(2)初中文化程度的人都占全部人口的比例(CZBZ);(3)文盲半文盲人口占全部人口的比例(WMBZ),分别用来反映较高、中等、较低文化程度人口的状况。计算样品之间的相似系数,使用最长距离法、重心法和Ward法,将上机结果按样品号画出聚类图,并根据聚类图将30个样品分为四类。

2、根据信息基础设施的发展状况,对世界20个国家和地区进行分类。只要采用6个指标:(1)Call—每千人拥有电话线数,(2)movecall—每千户居民蜂窝移动电话数,(3)fee—高峰时期每三分钟国际电话的成本,(4)Computer—每千人拥有的计算机数,(5)mips—每千人中计算机功率(每秒百万指令),(6)net—每千人互联网络户主数。计算样本之间的距离采用欧式距离,用最长距离法、重心法、离差平方和法进行计算。

3、按照城乡居民消费水平,对我国30个省市自治区分类。

判别分析

1、从1995年世界各国人文发展指数的排序中,选取高发展水平、中等发展水平的国家各五个作为两组样本,另选四个国家作为待判样品做距离判别分析。

2、对全国30个省市自治区1994年影响各地区经济增长差异的制度变量: —经济增长率(%)、—非国有化水平(%)、—开放度(%)、—市场化程度(%)作判别分析。

3、为了解全国各地职工生活费用上涨水平,对29个省市自治区九项指标作判别分析。

主成分分析

1、对全国30个省市自治区经济发展基本情况的八项指标作主成分分析。

2、对30个省市自治区工业企业经济效益作综合评价。

3、对我国城市居民生活费支出作主成分分析。

因子分析

1、利用1995年的数据对我国社会发展状况进行综合考察。

2、对我国30个省市自治区的农业生产情况作因子分析。从农业生产条件和生产结果济效益出发,选取六项指标分别为: —乡村劳动力人口(万人),—人均经营耕地面积(亩),—户均生产性固定资产原值(元),—家庭基本纯收入(元),—人均农业总产值(千元/人),—增加值占总产值比重(%)。

3、对1979-1988年中国人民银行资金来源的10项指标作因子分析。

对应分析

1、用对应分析研究我国部分省份的农村居民家庭人均消费支出结构。选取7个变量: —食品支出比重,—衣着支出比重,—居住支出比重,—家庭设备及服务支出比重,—医疗保健支出比重,—交通和通讯支出比重,—文教娱乐、用品及服务支出比重。样品为10个:山西、内蒙古、辽宁、吉林、黑龙江、海南、四川、贵州、甘肃、青海。

2、对全国31个省市自治区按各种经济类型资产占总资产比重(%),利用1997年数据作对应分析。选取6个变量: —国有经济/总资产,—集体经济/总资产,—联营经济/总资产,—股份制经济/总资产,—外商投资经济/总资产,—港澳台经济/总资产

3、用对应分析研究1991年全国各地区独立核算工业企业的经济效益情况。

典型相关分析

1、对某高中一年级男生38人进行体力测试(共有七项指标)及运动能力测试(共有五项指标),试对两组指标作典型相关分析。体力测试指标: —反复横向跳(次),—纵跳(cm),—背力(kg),—握力(kg),—台阶试验(指数),—立定体前屈(cm),—俯卧上体后仰(cm)。运动能力测试的指标为:

—50米跑(秒),—跳远(cm),—投球(m),—引体向上(次),—耐力跑(秒)。

2、全国30个省市自治区农村居民收入和支出的典型相关分析。反映农村居民收入的变量取4个: —劳动者报酬(元),—家庭经营收入(元),—转移性收入(元),—财产性收入(元)。反映农村居民生活费支出的变量取8个: —食品支出(元),—衣着支出(元),—居住支出(元),—家庭设备及服务支出(元),—医疗保健支出(元),—交通和通讯支出(元),—文教、娱乐用品及服务支出(元),—其它商品及服务支出(元)。

3、社会经济综合发展水平与邮电发展状况的典型相关分析。

论 文 题

通过论文题,可以让学生掌握如何在图书馆查阅数据,录入数据,并根据论文要求对数据进行预处理,使学生了解各分析方法适合解决的问题类型,能够运用所学的多元统计分析方法解决实际数据分析问题。

1、自拟题目,论文中的数据处理方法至少选用对应分析、典型相关分析中的一种。

2、自拟题目,论文中的数据处理方法至少选用主成分分析、因子分析中的一种。

3、自拟题目,论文中的数据处理方法至少选用聚类分析、判别分析中的一种。

篇2:多元统计学分析

(5)多变量检验结果;

(6)单变量检验结果;

(7)协方差矩阵等同性得 Box 检验a,误差方差等同性得 Levene 检验 a;

(8)估计;

(9)成对比较,多变量检验;(10)单变量检验。

实验结果:综上所述,我们对三个行业得运营能力进行了具体得比较分析,所得数据表明,从总体来瞧,信息技术业要稍好于电力、煤气及水得生产与供应业以及房地产业。

1。

正态性检验

Kolmogorov-Smirnova

Shapir o—Wilk 统计量 df Sig.统计量 df Sig、净资产收益率。113 35、200*

。978 35。677 总资产报酬率。121 35、200*

。964 35、298 资产负债率。086 35。200*

.962 35、265 总资产周转率.180 35、006。864 35。000 流动资产周转率、164 35、018.885 35、002 已获利息倍数、281 35.000。551 35、000 销售增长率.103 35、200*

。949 35、104 资本积累率。251 35。000、655 35。000 *。

这就是真实显著水平得下限。

a。

Lilliefors 显著水平修正 此表给出了对每一个变量进行正态性检验得结果,因为该例中样本中n=35<2000,所以此处选用 Shapiro—Wilk 统计量。由 Sig。值可以瞧到,总资产周转率、流动资产周转率、已获利息倍数及资本积累率均明显不遵从正态分布,因此,在下面得分析中,我们只对净资产收益率、总资产报酬率、资产负债率及销售增长率这四个指标进行比较,并认为这四个变量组成得向量遵从正态分布(尽管事实上并非如此)。这四个指标涉及公司得获利能力、资本结构及成长能力,我们认为这四个指标可以对公司运营能力做出近似得度量。

2.

主体间因子

N 行业 电力、煤气及水得生产与供应业 11 房地行业 15 信息技术业 9 多变量检验a a

效应 值 F 假设 df 误差 df Sig。

截距 Pillai 得跟踪.967 209。405b

4。000 29。000。000 Wilks 得 Lambda、033 209。405b

4.000 29、000、000 Hotelling 得跟踪 28.883 209、405b

4.000 29。000.000 Roy 得最大根 28。883 209。405b

4.000 29.000、000 行业 Pillai 得跟踪、481 2、373 8、000 60、000、027 Wilks 得 Lambda、563 2.411b

8、000 58。000.025 Hotelling 得跟踪.698 2。443 8.000 56、000.024 Roy 得最大根、559 4、193c

4、000 30、000。008

a、设计 : 截距 + 行业 b、精确统计量 c、该统计量就是 F 得上限,它产生了一个关于显著性级别得下限。

上面第一张表就是样本数据分别来自三个行业得个数。第二张表就是多变量检验表,该表给出了几个统计量,由Sig。值可以瞧到,无论从哪个统计量来瞧,三个行业得运营能力(从净资产收益率、总资产报酬率、资产负债率及销售增长率这四个指标得整体来瞧)都就是有显著差别得。

3.主体间效应得检验 源 因变量 III 型平方与 df 均方 F Sig。

校正模型 净资产收益率 306、300a153。150 4。000、028 总资产报酬率 69.464b34、732 3、320.049 资产负债率 302。366c151。183、680。514 销售增长率 2904.588d1452。294 2、154.133 截距 净资产收益率 615.338 1 615.338 16。073.000 总资产报酬率 218、016 1 218。016 20。841。000 资产负债率 105315。459 1 105315。459 473、833、000 销售增长率 1.497 1 1。497.002。963 行业 净资产收益率 306、300 2 153.150 4.000。028 总资产报酬率 69、464 2 34.732 3、320、049 资产负债率 302。366 2 151。183。680.514 销售增长率 2904.588 2 1452、294 2.154、133 误差 净资产收益率 1225、054 32 38、283

总资产报酬率 334。753 32 10、461

资产负债率 7112、406 32 222.263

销售增长率 21579、511 32 674、360

总计 净资产收益率 2238、216 35

总资产报酬率 641.598 35

资产负债率 117585、075 35

销售增长率 24585、045 35

校正得总计 净资产收益率 1531。354 34

总资产报酬率 404.217 34

资产负债率 7414。772 34

销售增长率 24484。099 34

a、R 方 =。200(调整 R 方 =、150)b.R 方 =.172(调整 R 方 =、120)c.R 方 =、041(调整 R 方 = -.019)d。

R 方 =。119(调整 R 方 =、064)此表给出了每个财务指标得分析结果,同时给出了每个财务指标得方差来源,包括

校正模型、截距、主效应(行业)、误差及总得方差来源,还给出了自由度、均方、F统计量及Sig。值 4、对比结果((K 矩阵))行业 简单对比a

因变量 净资产收益率 总资产报酬率 资产负债率 销售增长率 级别 1 与级别 3 对比估算值 -5、649 —3、070 7。259 -13、223 假设值 0 0 0 0 差分(估计-假设)—5。649 -3.070 7.259-13。223 标准 误差 2、781 1.454 6、701 11、672 Sig、。051.043、287。266 差分得 95% 置信区间 下限-11。313-6。031 -6、390 -36、998 上限。016-、109 20。908 10、552 级别 2 与级别 3 对比估算值 1、054 —、057 1。791 -22。696 假设值 0 0 0 0 差分(估计-假设)1、054 —。057 1、791-22。696 标准 误差 2、609 1、364 6.286 10。949 Sig、、689。967.778.046 差分得 95% 置信区间 下限-4.260 -2.834 -11.013 -44。999 上限 6。368 2、721 14、595-.394 a、参考类别 = 3 此表表示,在0.05得显著水平下,第一行业(电力、煤气及水得生产与供应业)与第三行业(信息技术业)得总资产报酬率指标存在显著差别,净资产收益率、资产负债率与销售增长率等财务指标无明显差别,但由第一栏可以瞧到,电力、煤气及水得生产与供应业得净资产收益率、总资产报酬率与销售增长率均低于信息技术业,资产负债率高于信息技术业,似乎说明信息技术业作为新兴行业,其成长能力要更高一些。第二行业(房地产业)与第三行业得销售增长率指标有明显得差别,第三行业大于第二行业,说明信息技术业得获利能力高于房地产业。净资产收益率、总资产报酬率与资产负债率等财务指标没有显著差别。

5、多变量检验结果

值 F 假设 df 误差 df Sig、Pillai 得跟踪、481 2。373 8。000 60。000、027 Wilks 得 lambda、563 2、411a

8.000 58。000.025 Hotelling 得跟踪.698 2、443 8。000 56.000。024 Roy 得最大根。559 4。193b

4。000 30.000.008

a。

精确统计量 b、该统计量就是 F 得上限,它产生了一个关于显著性级别得下限。

此表就是上面多重比较可信性得度量,由Sig、值可以瞧到,比较检验就是可信得。

6。

单变量检验结果 源 因变量平方与 df 均方 F Sig.对比 净资产收益率 306.300 2 153。150 4。000、028 总资产报酬率 69、464 2 34、732 3。320.049 资产负债率 302。366 2 151.183。680、514 销售增长率 2904。588 2 1452。294 2、154.133 误差 净资产收益率 1225。054 32 38.283

总资产报酬率 334。753 32 10、461

资产负债率 7112.406 32 222、263

销售增长率 21579。511 32 674、360

此表就是对每一个指标在三个行业比较得结果、7。

协方差矩阵等同性得

B Box

检验a a

Box 得 M 29.207 F 1。172 df1 20 df2 2585。573 Sig、、269 检验零假设,即观测到得因变量得协方差矩阵在所有组中均相等、a.设计 : 截距 + 行业 误差方差等同性得

Lev en e 检验a a

F df1 df2 Sig。

净资产收益率、500 2 32、611 总资产报酬率 1.759 2 32。188 资产负债率 4。537 2 32、018 销售增长率 1、739 2 32、192 检验零假设,即在所有组中因变量得误差方差均相等。

a。

设计 : 截距 + 行业 上面第一张表就是协方差阵相等得检验,检验统计量就是Box“s M,由Sig.值可以认为三个行业(总体)得协方差阵就是相等得、第二张表给出了各行业误差平方相等得检验,在0、05得显著性水平下,净资产收益率、总资产报酬率以及销售增长

率得误差平方在三个行业间没有显著差别。这似乎说明,除了行业因素,对资产负债率有显著影响得还有其她因素。这与此处均值比较没有太大得关系。

8。

估计 因变量 行业 均值 标准 误差 95% 置信区间 下限 上限 净资产收益率 电力、煤气及水得生产与供应业、169 1、866 —3、631 3、969 房地行业 6、871 1.598 3。617 10、125 信息技术业 5。818 2、062 1、617 10.019 总资产报酬率 电力、煤气及水得生产与供应业、524.975 —1、463 2、510 房地行业 3。537。835 1.836 5.238 信息技术业 3。593 1.078 1.397 5、789 资产负债率 电力、煤气及水得生产与供应业 60、315 4、495 51、158 69.471 房地行业 54.847 3.849 47、006 62.688 信息技术业 53。056 4.969 42。933 63.178 销售增长率 电力、煤气及水得生产与供应业-1.038 7.830-16.987 14.911 房地行业-10.512 6。705 -24。170 3、146 信息技术业 12、184 8.656 —5.448 29.816 此表给出了每一行业各财务指标描述统计量得估计、9、成对比较 因变量(I)行业(J)行业 均值差值(I-J)标准 误差 Sig.b

差分得 95% 置信区间b

下限 上限 净资产收益率 电力、煤气及水得生产与供应业 房地行业 —6.702*

2。456。010 —11、705-1、699 信息技术业 —5.649 2。781。051 —11、313。016 房地行业 电力、煤气及水得生产与供应业 6、702*

2。456。010 1.699 11.705 信息技术业 1、054 2。609。689 —4.260 6。368 信息技术业 电力、煤气及水得生产与供应业 5.649 2、781。051 —.016 11。313 房地行业-1.054 2。609、689 —6。368 4。260

总资产报酬率 电力、煤气及水得生产与供应业 房地行业 -3、013*

1、284 。025 —5.628-.398 信息技术业-3.070*

1、454 。043 —6、031 -、109 房地行业 电力、煤气及水得生产与供应业 3。013*

1、284 。025.398 5、628 信息技术业 —。057 1、364。967 —2、834 2.721 信息技术业 电力、煤气及水得生产与供应业 3、070*

1。454.043.109 6。031 房地行业。057 1.364、967 —2、721 2。834 资产负债率 电力、煤气及水得生产与供应业 房地行业 5.468 5。918、362-6、587 17。523 信息技术业 7、259 6、701.287-6、390 20.908 房地行业 电力、煤气及水得生产与供应业-5。468 5、918。362-17。523 6。587 信息技术业 1。791 6.286。778-11。013 14、595 信息技术业 电力、煤气及水得生产与供应业 -7、259 6.701.287-20.908 6。390 房地行业-1。791 6。286、778-14、595 11。013 销售增长率 电力、煤气及水得生产与供应业 房地行业 9。474 10.308、365 —11.524 30。471 信息技术业-13。223 11、672、266 —36、998 10、552 房地行业 电力、煤气及水得生产与供应业 -9。474 10、308、365-30、471 11.524 信息技术业 —22、696*

10、949 。046 -44、999 -。394 信息技术业 电力、煤气及水得生产与供应业 13。223 11、672、266 —10。552 36.998 房地行业 22。696*

10。949。046、394 44、999 基于估算边际均值 *、均值差值在。05 级别上较显著、b。

对多个比较得调整: 最不显著差别(相当于未作调整)。

多变量检验

值 F 假设 df 误差 df Sig、Pillai 得跟踪、481 2.373 8.000 60.000。027 Wilks 得 lambda.563 2、411a

8、000 58、000.025

Hotelling 得跟踪。698 2、443 8、000 56、000.024 Roy 得最大根。559 4。193b

4、000 30。000、008 每个 F 检验 行业 得多变量效应、这些检验基于估算边际均值间得线性独立成对比较。

a.精确统计量 b、该统计量就是 F 得上限,它产生了一个关于显著性级别得下限。

此两张表给出了不同行业各财务指标得比较与检验及检验得可信性统计量。

10.单变量检验 因变量平方与 df 均方 F Sig。

净资产收益率 对比 306。300 2 153。150 4、000。028 误差 1225、054 32 38、283

总资产报酬率 对比 69、464 2 34.732 3。320。049 误差 334。753 32 10、461

资产负债率 对比 302.366 2 151、183。680。514 误差 7112.406 32 222.263

销售增长率 对比 2904、588 2 1452。294 2、154。133 误差 21579、511 32 674.360

F 检验 行业 得效应、该检验基于估算边际均值间得线性独立成对比较。

此表也就是对三个行业中各财务指标相等得假设得检验,可以瞧到在0.05得显著性水平下,净资产收益率与总资产报酬率在三个行业中有明显得差别。

篇3:多元统计分析之因子分析浅析

关键词:多元统计分析,因子分析,模型

多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法。随着计算机应用技术的发展和科研生产的迫切需要,多元统计分析技术被广泛地应用于地质、气象、水文、医学、工业、农业和经济等许多领域,成为解决实际问题的有效方法。多元统计分析中的因子分析(Factor Analysis)是寻找公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量间的联系与区别。其基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子,以较少的几个因子反映原资料的大部分信息,就是从大量的数据中“由表及里”、“去粗取精”,寻找影响或支配变量的多变量统计方法。

对因子分析模型可以做如下描述:(1)X=(x1,x2,…,xp)是可观测随机向量,均值向量E(X)=0,协方差阵Cov(X)=∑,且协方差阵∑与相关矩阵R相等。(2)F=(F1,F2,…,Fm)(m<p)是不可测的向量,其均值向量E(F)=0,协方差矩阵Cov(F)=1,即向量的各分量是相互独立的。(3)e=(e1,e2,…,ep)与F相互独立,且E(e)=0,e的协方差阵∑是对角阵,即各分量e之间是相互独立的,则模型:x1=a11F1+a12F2+…+a1m Fm+e1,x2=a21F1+a22F2+…+a2m Fm+e2,……,xp=ap1F1+ap2F2+…+apm Fm+ep。

称为因子分析模型,由于该模型是针对变量进行的,各因子又是正交的,所以也称为R型正交因子模型。

其矩阵形式为:x=AF+ep

我们把F称为X的公共因子或潜因子,矩阵A称为因子载荷矩阵,e称为X的特殊因子。A=a(ij),aij为因子载荷。数学上可以证明,因子载荷aij就是第i变量与第j因子的相关系数,反映了第i变量在第j因子上的重要性。

建立因子分析模型的目的不仅是找出主因子,更重要的是知道每个主因子的意义,以便对实际问题进行分析。还有一个重要的作用是应用因子分析模型去评价每个样品在整个模型中的地位,即进行综合评价。

在上面的分析告一段落后,就可以确定因子分析的步骤。因子分析的核心问题有两个:一是如何构造因子变量;二是如何对因子变量进行命名解释。因此,因子分析的基本步骤和解决思路就是围绕这两个核心问题展开的。

我们来看一个实际的例子,即考察我国各省市社会发展综合状况。

以下是对我国各省市综合发展情况做因子分析。数据表中选取了六个指标分别是:人均GDP(元)X1,新增固定资产(亿元)X2,城镇居民人均年可支配收入(元)X3,农村居民机家庭纯收入(元)X4,高等学校数量(所)X5,卫生机构数量(所)X6。原始数据见表1:

分析过程如下:(1)将原始数据标准化;(2)建立六个指标的相关系数阵R;(3)公因子方差;(4)总方差解建立因子载荷阵;(5)建立因子载荷阵;(6)对因子载荷阵施行方差最大旋转,旋转后得正交因子表矩阵,由此有:X1=0.947F1+0.178F2-0.115F3,X2=0.940F1+0.105F2+0.261F3,X3=0.893F1-0.0747F2+0.404F3,X4=0.0364F1+0.967F2+0.09455F3,X5=0.212F1+0.830F2+0.345F3,X6=0.222F1+0.493F2+0.806F3;(7)输出因子成份得分系数矩阵。最后,由上述表可见,每个因子只有少数几个指标的因子载荷较大,因此可根据上表分类,将6个指标按高载荷分成3类,列于表2:

数据来源《中国统计年鉴》

由此,运用因子分析的方法我们对国内各省市综合发展情况有了一个了解。

由前面的分析可以得出,因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。

在实际问题中要选择适当的方法来解决问题,需要对问题进行综合考虑。应该根据实际情况对问题进行合理的分析与判断,收集相关资料,选择合适的分析方法,建立模型,最后对模型进行诊断和优化处理,并应用于生产实际。

参考文献

[1]杨维权,刘兰亭,林鸿洲.多元统计分析[M].北京:高等教育出版社,1989.

篇4:浅析多元统计分析及相关应用

【关键词】多元统计分析;多元线性回归;ADF检验;协整分析

随着社会经济的进步发展,学者发现利用一元回归分析已经满足不了实证分析的要求。这是因为研究问题除了受到一维变量的影响,也会受到其他因素的作用。尤其是在延长样本数据时期、增大样本容量、引入其他影响因素之后,数据内部之间的规律难以依靠一元回归挖掘出来。多元统计分析开始被广泛应用在经济、管理、农业、社会、生物等研究领域。

一、多元统计分析的发展

纵观多元统计分析的发展进程,二位正态总体的分析方法虽然出现于19世纪,但多元统计分析的正式兴起却在20世纪。20世纪30年代,费希尔、霍特林等人为多元统计分析研究奠定理论基础。进入40年代,心理、教育、生物等领域开始将多元统计分析作为研究手段分析问题。但由于计算工作量较为繁杂和时局的影响,多元统计分析并未广发应用在其他领域,得到更进一步的发展。50年代后,计算机的出现为其发展提供技术便利,相关理论也得以提出。时至今日,诸如SPSS、R、SAS、EVIEWS等多种计量软件使得多元统计分析实际应用在各学科领域。

二、多元统计分析的基本方法

1.多元回归分析

多元回归分析的基本原理与一元线性回归分析相似,只不过是自变量为两个或两个以上。通过多元回归分析,几个变量之间是否存在的特定相关关系以及是何种关系将得到验证。在实证研究中,则通常会引入控制变量,通过控制一些变量的取值,可以更好研究主要自变量影响程度,在此基础上可以进行因素分析,厘清各因素间的相互关系。

2.主成分分析

与多元线性回归法不同,主成分分析适用于更多个指标的数据处理。在建立多层次的指标体系后,将多个指标转化为保留原有数据大部分信息的几个综合指标,并利用这几个综合指标来分析。将复杂的指标数据进行压缩,变量之间不存在相关性,压缩后得到的指标要有代表性,不能损失太多原始信息,能够准确解释研究问题的内在关系。分析步骤主要包括以下几步:標准化处理原始数据矩阵;基于标准化数据矩阵建立标准化相关系数矩阵;计算特征根、特征向量及标准正交化特征向量;依据结果确定主成分个数;计算主成分和主成分值;计算研究样本的得分值并加以评价。

3.因子分析

与主成分分析法相似,因子分析也是对多个变量的降维处理。通过研究相关阵或协方差阵的内部关系,提取代表性的因子,以因子为新的解释变量,计算得出个样本的因子得分,并加以排序、评价分析。与主成分分析方法处理程序不同,因子分析在得到特征向量等数据后,需要确定公共因子个数,并计算因子载荷矩阵和各样本的因子得分、总因子得分。

4.聚类分析

聚类分析也是实证分析当中常用的一种研究方法。它是将数据按照一定的标准将以分类,同类别下的数据之间差异比较下,不同类别之间的数据则有较大的差异。具体的分析方法包括层次聚类法、非层次聚类法、智能聚类法等。

三、多元回归分析的应用

本文选择多元线性回归法加以实际应用。本文采用时间序列方法分析安徽省R&D投入与经济增长之间的关系。安徽省GDP绝对值取自2001-2015年的《中国统计年鉴》,R&D经费与R&D人员都则取自中国科技统计网站的中国科技统计数据(2001-2015年)。为了消除异方差的影响,将三变量对数化处理。同时,对数化的数据也能够反映变量之间的弹性系数,不改变变量之间的协整关系。GERD代表R&D投入经费,GRP代表R&D人员,GDP代表经济增长。

1.单位根检验

通过EVIEWS6.0软件估计,结果显示,原序列lnGDP、lnGERD、lnGRP是非平稳时间序列。对三者进行一阶差分后,D(lnGDP)、D(lnGRP)、D(lnGERD)通过ADF检验,拒绝原假设,即差分后的序列是平稳的。因此,lnGDP、lnGRP、 lnGERD是一阶单整的。

2.协整分析

由ADF检验可知,lnGDP、lnGRP、lnGERD符合协整分析的条件。本文采用回归残差的协整检验方法。检验结果显示,残差序列在1%的显著性水平下拒绝原假设,可以确定残差序列是平稳的,变量之间存在长期协整关系。

3.回归分析

回归方程结果为:lnGDP = 7.6579lnGERD + 0.3510 lnGRP +C。模型可决系数为0.8767,接近于1,且F值也通过显著性检验,说明回归方程的拟合效果较好且变量之间的线性关系显著。

参考文献:

[1]左瑞琼.多元统计分析方法介绍及在经济中的应用[J].时代经贸,2007(9):27-28.

[2]乌冉.多元统计分析介绍及其在一些方面的应用[J].百科论丛,2010(4):349-350.

[3]姜波.多元统计分析方法在实际问题中的应用[J].沈阳师范大学学报(自然科学版),2012(4):465-467.

[4] 杨锦忠,宋希云.多元统计分析及其在烟草学中的应用[J].中国烟草学报, 2014(5):134-137.

篇5:多元统计分析实验报告格式

姓名及学号:(例:张三20110000000)日期:

1、实验内容

2、实验目的(。。指出通过本实验要了解或掌握什么)

3、实验方案分析

(。。指出实验内容属于什么问题,说明用什么方法来实验,如果是检验问题,那么原假设是什么)

4、操作过程

(。。给出有关操作过程)

5、实验结果

(。。给出实验得到的重要结果)

6、讨论

(。。对上述得到的结果做出说明与讨论)

7、结论

篇6:多元统计学分析

米拉吉古丽 德娜·吐热汗 李轮溟

(新疆农业大学数理学院)

摘要:多元统计分析是数学专业本科生的核心课程。由于该课程涉及的数学知识多而深,是本科生比较难学的一门课程。多元统计分析方法的应用领域非常广泛,因此应用数学专业本科学生应当掌握基本的多元统计分析方法,并且能够运用所学的多元统计知识解决实际问题。本文结合多元统计分析教学的实践和体会,提出了关于多元统计分析课程教学的几点思考。

关键词:多元统计分析 教学

多元统计分析课程是数学与应用数学专业的一门重要的专业课,具有很强的应用性和实践性。多元统计分析主要用于研究多维随机变量之间相互关系及其内在统计规律,是认识和探索社会经济现象数量方面关系的重要方法,在科学研究和生产实践中已成为分析数据的一种重要手段。

在教学中,我们尽力结合社会、经济等领域的研究案例,把多元分析的方法与实际应用结合起来,注意定性分析与定量分析的紧密结合,突出统计思想在实际案例中应用和渗透,着力提高学生运用统计方法分析和解决问题的能力。但由于案例来自课本,缺乏真正的应用性和实践性,尤其对一些基础好的学生来讲,不能有效提高他们的创新能力,教学效果难尽人意。

为此,我们对该课程的教学进行多方面改革,以培养学生应用能力为主线,将多媒体教学、统计分析软件、案例教学、实践教学等有机结合起来,达到提高课堂教学效率和教学质量的目的,使学生真正掌握多元统计分析方法,培养了学生动手能力、数据分析能力、使用统计分析软件能力以及对实际经济问题的综合统计分析能力。我们在几年的教学工作中积累了一些经验,提出几点思考,以供同行参考。

作者简介:米拉吉古丽,女,讲师,主要从事多元统计分析课程的教学工作。

德娜·吐热汗,女,教授,研究方向为数理统计及其应用。

李轮溟,男,讲师,主要从事经济计量分析课程的教学工作。

一、多元统计分析的课程建设思路

(一)多元统计分析课程建设的思路及过程

根据多元统计分析课程的特点及教学目的,多元统计分析课程的教学基本上可以分成三个阶段来学习,明确各阶段的任务和要解决的问题是关键的工作。

第一阶段:多元统计分析方法的学习。这一阶段主要是学习每一种具体方法的基本原理、前提条件、适用范围和局限性等。由于这一部分涉及的数学知识尤其是矩阵原理比较多,所以要求教师在讲方法之前能够先回顾必要的数学基础知识,学生们也要事先复习这部分内容。黑板+粉笔是这一阶段最理想的教学手段。尽管这一手段比较传统,但是通过几年的教学实践发现,像这种具有数学推理的教学内容,用板书比用多媒体的教学效果要好很多。因为多媒体演示比较快,学生们的思考时间相对缩短,所以对方法的理解并不深刻。

第二阶段:统计软件的学习

由于多元统计分析方法具有数据的大量性特点,所以手工计算(方法过程)分析处理数据是不可能的。因此必须借助相应的统计软件来完成统计方法的计算过程。所以,统计软件的学习是必要的。主要内容有SPSS 软件基础知识和基本概念, 数据文件的建立和整理等最基本内容, 其目的是为那些没有使用过该软件的学生掌握多元统计分析所需的必备操作技能服务。这一阶段主要是通过多媒体教学手段来完成:教师在课堂演示软件的操作,并且讲解各个参数的含义,然后由学生上机自己操作,在实验室人手一台电脑,教师边演示学生边操作,这种教学的效果比较好。本课程已采用课堂讲授与亲身体验相结合的教学模式, 利用SPSS 统计软件, 让学生自己亲自动手操作来实现课堂所讲的原理与方法, 从而体验、理解、加深和消化课堂所讲的内容, 这是本课程教学的重要特点之一。

第三阶段:案例教学

在掌握了多元统计分析方法的原理以及学会用统计专业软件来实现方法的计算过程以后,第三个阶段就应该进入案例教学的环节。这一阶段的教学是相当重要的,它主要是训练学生将理论方法与实践相结合、定性分析与定量分析相结合的能力。这首先要求教师要有目的地选取具有代表性的案例;其次要充分地准备与案例相关的各种背景材料,以便让学生在进行课堂讨论时能够全面了解案例背景,使其进入实际问题的角色当中,便于课堂讨论的参与;第三,在对案例背景有了充分了解并且形成了初步分析思路之后,上机进行软件相关操作并且对案例数据进行计算机处理。第四,以计算机处理的数据结果为参考,教师应组织学生进行讨论,通过定量与定性相结合的分析方式深入探讨案例数据所体现的社会经济问题。最后,以分析报告的形式对案例学习进行总结。

(二)多元统计分析课程建设中应注意的问题

多元统计分析课程建设的基本思想是:树立实践教学观念,加大案例教学的应用,学会定性与定量分析相结合,对实际问题的分析能力。基于以上思想来谈多元统计分析课程建设中应注意的几点问题:

第一,不能重推理,轻应用。这是很多理科生在学习多元统计分析时经常会犯的错误。学习多元统计分析方法的最终目的是要应用于实际,解决和分析实际问题。有很多学生包括有些教师在教学与学习过程中将侧重点放在数学方法的推理上,而对于多元统计分析方法在实际中的应用并不重视。这样以来很多学生在学完多元统计分析这门课程后,不知道如何将所学的多元统计分析方法应用于对实际问题的分析解决与处理上,不能学以致用。因此本课程建设的重点应该放在应用上。

第二,计算机不是万能的。多元统计分析方法中的(计算)数据分析处理过程往往是通过计算机来完成的,但计算机的应用并不是多元统计分析的全过程。对方法的选择以及输出结果的解释,是计算机所不能够完成的。这需要分析与对问题有深刻的理解才能做出正确的判断和科学的评价。所以不能夸大计算机的作用。

第三,案例教学切勿流于形式。在进行案例教学的过程中,多元统计分析方法只是一种定量分析的工具,最主要的是对案例的深刻理解和深入分析。教师应当时刻把握案例教学的进度和同学们探讨问题的方向,实时地加以引导。只有这样才能够保证案例教学的效果,让同学们真正从案例分析中学会方法的应用。切勿放羊式的教学,不管不问,流于形式。在组织案例教学时, 教师起着“指路人”和“知识信息库”的作用, 要充分调动学生的积极性、主动性和自觉性, 因势利导, 把问题讨论引向深入,而学生则是主体, 通过分析、讨论、求索, 经历弯路、岔路、纠偏直到解决问题,让学生亲身体会参与多元统计分析的方法与过程,从而积累一定的多元统计基本方法与实践经验。

第四、多元统计分析案例的选择应客观真实有效。多元统计分析教学在选择案例时应考虑以下几个因素: ①案例必须客观真实,所选案例应当是针对客观实际中存在的问题整理而成的, 尽可能地保持其原有的基本特征、基本内容、基本结构和实际数据、背景等, 以便让学生亲身体会到所学知识的实用性, 激发其进一步学习的兴趣。②多元统计分析教学所选案例要有层次性。随着教学进度的推进, 案例应逐步增加其难度, 从专门性的特殊案例向综合性的复杂案例过渡。③多元统计分析教学所选案例应具有完整性。案例题目要求名符其实、简洁醒目;导言要简括交待案例内容、时间、地点并能吸引阅读者的兴趣; 正文则将案例的目标、背景材料、基本内容、情节条件准确传达给学生;结尾提出供分析思考的问题, 可以是明喻的, 也可是引而不露, 让学生去探求和发掘。总之,多元统计分析教学所选案例应当结合客观实际情况,符合学生循序渐进的学习过程,做到让学生在多元统计分析的学习中受到启发、学有所获,培养学生自我分析处理问题的能力。

二、传统教学与多媒体教学互补的教学模式

多元统计分析课程是一种处理多维数据的技术方法论课程,其理论和方法都是在高维空间中讨论的。一方面, 由于多元统计分析中有大量公式和成堆数据,书写繁琐, 使课堂教学很难形成一种气氛。将多媒体引入教学, 不仅能丰富课堂教学方式, 而且可大大地减轻教师在课堂上的繁重板书。用节省下来的时间,教师可以与学生展开更加自由的讨论,扩大了知识的容量,在学生和教师之间提供了较多的研讨机会;另一方面,课程通过使用统计分析软件来实现要求掌握的理论方法和原理,并能通过运行结果进行统计分析。尽管多媒体课件有着上述强大的优势,但全部课程都采用多媒体课件效果并不好,因为多媒体课件演示速度较快,容易使学生看得眼花缭乱,无法记笔记,而且课程容量根据学生的接受能力是有客观局限性的,如果缺乏思考时间和节奏,一味通过多媒体教学扩大容量和加快节奏,会产生事与愿违的后果。因此,传统教学不能因为多媒体教学的引入而被完全取代。如何在教学中解决这一问题呢? 教师不但要从教育心理学的角度考虑学生的认知规律,还要考虑到课程自身特点对多媒体技术的合理需要,结合自己传统教学和现代化教学经验,精心制作课件,根据每个知识点的情况合理安排板书的时机,尽量做到传统教学与多媒体教学取长补短、互相补充。例如,在系统聚类分析中,聚类树的形成过程如果用课件表示,学生眼花缭乱,无法真正掌握。我们配合板书分析,让学生真正掌握系统聚类原理;在主成分分析的系数矩阵的教学中,课件强调结果和简单过程,板书补充涉及线性代数相关知识点,等等。

三、改革传统考试方法,以论文形式评定成绩

多元统计分析课程实用性、操作性很强,大量的数据录入运算,通常要在计算机上执行完成,并且多元统计分析是一门对客观事物定量认识的科学。对事物量的看法和认识将有利于增强人们对事物量的研究,应善于通过事物量的表现和量的关系来挖掘事物的本质。学习该课程就是要是学生学会用数据说话,运用数据来分析实际经济现象。因此,该门课程应采用以平时的理论学习,期末撰写论文并进行答辩的形式为主,二者结合的考核形式。为此, 我们先介绍一些简单的问卷设计理论和抽样方法,相关理论讲授后就对学生进行分组,一般让两到三位学生组成一组,让他们去发现身边所在的问题,设计问卷,再用所学的统计抽样方法做抽样调查,然后结合SPSS 统计分析软件的应用,开始讲授常用的多元统计分析方法。我们介绍的多元统计分析方法主要有方差分析、聚类分析、判别分析、主成份分析、因子分析、典型相关分析、多元回归分析等。每讲授一种统计分析方法,除了讲解书上的案例和老师从课外补充的一些案例外,还让同学们理论结合实际,用自己收集好的数据做相关的分析,对分析结果进行整理和解释。到课程全部结束时,学生就可以给出由他们自己采集的数据做出来的一份数据分析报告,并把它做成一个论文(当作为我们这们课程的结业论文。在撰写论文的过程中,学生要亲自查阅大量资料,从整个论文的构思到多次反复的修改,教师要给予各方面的指导。虽然教师的工作量大大增加了,但学生从中获得了分析处理实际问题的比较完整的各方面的知识,提高了分析实际问题和解决问题的能力。实践证明,撰写论文是理论联系实际的一种非常好的考核方式,值得提倡。

四、结语

以上是我们在多年的多元统计分析课程的讲授过程中,对传统的教学方法的思考与几点改进,在实践中取得了良好的教学效果。通过实际调查, 学生的综合能力有一定的提高。本文所论述的一些教学方法的改进,同样适用于统计学专业其他的课程,如随机过程、时间序列分析、实用回归分析等等。我们相信,多元统计分析课程在广大教育同仁的共同努力下,一定会有一个更加广阔美好的未来。

参考文献:

注:本文为网友上传,旨在传播知识,不代表本站观点,与本站立场无关。若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:66553826@qq.com

上一篇:抒发豪情的诗句 下一篇:古诗词中抒发思乡情怀