主成分分析及R语言实验

发表时间:2021/6/16   来源:《探索科学》2021年5月   作者:王艺潮
[导读] 本文目的在于,在基于主成分分析方法的基础上,给出实际操作中主成分分析方法的具体步骤,并同时叙述了作者对主成分分析的一些想法和心得。更重要的是,通过本次论文的学习,更加深入地学习了统计中的矩阵应用的相关知识点,并通过一个案例分析,使自己能够初步了解并掌握R语言统计分析软件的使用方法。

河南郑州华北水利水电大学数学与统计学院   王艺潮   

摘要:本文目的在于,在基于主成分分析方法的基础上,给出实际操作中主成分分析方法的具体步骤,并同时叙述了作者对主成分分析的一些想法和心得。更重要的是,通过本次论文的学习,更加深入地学习了统计中的矩阵应用的相关知识点,并通过一个案例分析,使自己能够初步了解并掌握R语言统计分析软件的使用方法。
关键词:主成分分析、R语言、特征值、特征向量
        一、引言
        在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠,主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。
        二、主成分分析基本原理
        2.1主成分的定义
        概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术。思路:一个研究对象,往往是多要素的复杂系统。变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。
        2.2基本结论


如果总方差的相当大的部分归因于第一个、前两个或前三个主成分,而p较大那么这些成分就可以“取代”原来的p个变量,而且信息损失不多。

        三、主成分分析法的计算步骤
        主成分分析的具体步骤如下:
        (1)计算协方差矩阵


       

        (3)选择主成分
        最终要选择几个主成分,即Y1,Y2,…Ym中m的确定是通过方差(信息)累计贡献率G(m)来确定

        2.根据数学公式知道,①任何随机变量对其作标准化变换后,其协方差与其相关系数是一回事,即标准化后的变量协方差矩阵就是其相关系数矩阵。②另一方面,根据协方差的公式可以推得标准化后的协方差就是原变量的相关系数,亦即标准化后的变量的协方差矩阵就是原变量的相关系数矩阵。也就是说,在标准化后变量的相关系数矩阵不变化。
        四、案例分析对GDP影响因素的主成分分析
        本小节我们利用R语言软件,对此案例进行主成分分析,目的在于通过实践加深对主成分分析方法的印象,通过自己编写R语言程序,初步了解并掌握R语言统计分析软件的使用样本数据如下:1989-2002年中国GDP及其影响因素数据
        第一步:利用R语言将数据导入,先将数据存为 GDP. csv文件,再导入R语言:
        第二步:经济数据通常取对数后进行分析,利用R语言将上述数据对数化:结果:
        第三步:主成分分析,求出lnx的相关系数矩阵(Correlation Matrix):


        第四步:求相关系数矩阵的特征值以及特征向量:


        第五步,确定主成份:
        从以上程序的运行结构可以看到,相关系数矩阵的特征值从大到小分别为:λ1=6.52325850,λ2=0.22796303,λ1=0.21388028,λ4=0.02284396,λ5=0.00972997,λ6=0.00182343,λ7=0.00050083
        故第一个特征根的累积贡献率达到了93.19%,这说明第一个主成分代表了原来七个因素93199的信息,从碎石图中我们也可得到同样的结论plot(ev$values,type=’l’,xlab='i',ylab='lambda')#特征值碎石图于是我们得到第一主成分为:
        Y1=X=0.382LnSS+0.381LnXFP+0.389LnTZ+0.353LnRK+0.388LnJY+0.362LnWZ-+0.389LnJCK
        结论:
        由于对此例子的经济背景尚不完全了解,故尚无法给出第一主成分(为原变量的线性组合)所代表的经济意义,所以无法给出确切的结论。
        这也是使用主成分分析的一个弊端,主成分分析法对模型的解释相对比较抽象,故在主成分分析之后,研究人员们做了很多改进,发明了因子分析、聚类分析、判别分析等一系列的分析方法。

投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: