主成分分析(英语:Principal components analysis,PCA)是一种分析、简化数据集的技术。
通过降维技术把多个变量化为少数几个主成分(综合变量)的统计分析方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线性组合。
主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。
主成分分析由卡尔•皮尔逊于1901年发明,用于分析数据及建立数理模型。其方法主要是通过对协方差矩阵进行特征分解,以得出数据的主成分(即特征向量)与它们的权值(即特征值)。
主成分的目的:
(1)变量的降维
(2)主成分的解释(在主成分有意义的情况下)
主成分分析法从冗余特征中提取主要成分,在不太损失模型质量的情况下,提升了模型训练速度。
如上图所示,我们将样本到红色向量的距离称作是投影误差(Projection Error)。以二维投影到一维为例,PCA 就是要找寻一条直线,使得各个特征的投影误差足够小,这样才能尽可能的保留原特征具有的信息。因为PCA仅保留了特征的主成分,所以PCA是一种有损的压缩方式.
PCA分析的一般步骤
1.根据研究问题选取初始分析变量
2.根据初始变量特性判断由协方差阵求主成分还是由相关矩阵求主成分;
3.求协方差阵或相关阵的特征值与相应标准特征向量;
4.判断是否存在明显的多重共线性,若存在,则回到第(1)步;
5.得到主成分的表达式并确定主成分个数,选取主成分;
6.结合主成分对研究问题进行分析并深入研究。
PCA的目标是用一组较少的不相关变量代替大量相关变量,同时尽可能保留初始变量的信息,这些推导所得的变量称为主成分,它们是观测变量的线性组合。
主成分分析法优缺点
优点
↘可消除评估指标之间的相关影响。因为主成分分析法在对原始数据指标变量进行变换后形成了彼此相互独立的主成分,而且实践证明指标间相关程度越高,主成分分析效果越好。
↘可减少指标选择的工作量,对于其他评估方法,由于难以消除评估指标间的相关影响,所以选择指标时要花费不少精力,而主成分分析法由于可以消除这种相关影响,所以在指标选择上相对容易些。
↘主成分分析中各主成分是按方差大小依次排列顺序的,在分析问题时,可以舍弃一部分主成分,只取前面方差较大的几个主成分来代表原变量,从而减少了计算工作量。用主成分分析法作综合评估时,由于选择的原则是累计贡献率≥85%,不至于因为节省了工作量却把关键指标漏掉而影响评估结果。
缺点
↘在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空有信息量而无实际含义)。
↘主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。
↘当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。
主成分分析案例
某公司经理拟招聘一名员工,要求其具有较高的工作积极性、自主性、热情和责任感。为此,该经理专门设计了一个测试问卷,配有25项相关问题,拟从315位应聘者中寻找出最合适的候选人。
在这25项相关问题中:
↘Qu3-Qu8、Qu12、Qu13测量的是工作积极性
↘Qu2、Qu14-Qu19测量工作自主性
↘Qu20-Qu25测量的是工作热情
↘Qu1、Qu9-Qu11测量工作责任感
每一个问题都有非常同意“Agree”、同意 “Agree Some”、不确定“Undecided”、不同意 “Disagree Some”和 非常不同意 “Disagree”五个等级。
该经理想根据这25项问题判断应聘者在这四个方面的能力,现收集了应聘者的问卷信息,经汇总整理后部分数据如下:
分析者希望将多个变量归纳为某几项信息进行分析,即降低数据结果的维度。针对这种情况,可以进行主成分提取,但需要先满足2项假设:
↘假设1:观测变量是连续变量或有序分类变量,如本研究中的测量变量都是有序分类变量。
↘假设2:变量之间存在线性相关关系。
SPSS操作
SPSS操作
(1) 在主页面点击Analyze→Dimension Reduction →Factor
(2) 将变量Qu1-Qu25放入Variables栏
(3) 点击Deive,点选Statistics栏的Initial solution选项,并点选Correlation Matrix栏的Coefficients、KMO and Bartlett’s test of sphericity、Reproduced和Anti_image选项
(4) 点击Continue→Extraction,点击Display栏中的Scree plot选项
(5) 点击Continue→Rotation,点选Method栏的Varimax选项,并点选Display栏的Rotated solution和Loading plot(s)选项
(6) 点击Continue→Scores,点击Save as variables,激活Method栏后点击Regression选项
(7) 点击Continue→Options,点击 Sorted by size和Suppress small coefficients选项,在Absolute value below栏内输入“.3”点击Continue→OK
经上述操作,SPSS输出相关矩阵表如下:
该表主要用于判断各变量之间的线性相关关系,从而决定变量的取舍,即如果某一个变量与同一分组中其他变量之间的关联性不强,我们就认为该变量与其他变量测量的内容不同,在主成分提取中不应该纳入该变量。一般来说,如果相关系数大于等于0.3,我们就认为变量之间存在较好的线性相关性。
从本研究的结果来看,在分别对应聘者工作积极性(Q3-Q8,Q12,Q13)、工作自主性 (Q2,Q14-19)、工作热情(Q20-25)和工作责任感(Q1,Q9-11)的测量中,每组变量之间的相关系数均大于0.3,说明各组变量之间具有线性相关关系,提示满足假设2。
KMO检验对数据结构的总体分析
KMO检验主要用于主成分提取的数据情况。KMO检验系数分布在0到1之间,如果系数值大于0.6,则认为样本符合数据结构合理的要求。
部分学者认为,只有当KMO检验系数值大于0.8时,主成分分析的结果才具有较好的实用性,具体系数对应关系如下:
SPSS输出本研究结果如下:
本研究的KMO检验系数为0.833,根据系数对应关系表,我们认为本研究数据结构很好(meritorious),具有相关关系,满足假设2。
KMO检验对各变量的单独分析
SPSS输出各变量的KMO检验结果如下:
整理后各题KMO值:
KMO检验对单个变量的分析结果也在0到1之间分布,如果系数大于0.5,则认为单个变量满足要求;如果系数大于0.8,则认为单个变量结果很好。
分析结论中,任一变量的KMO检验结果均大于0.7,即各变量结果一般,但满足假设2。
Bartlett’s检验
Bartlett’s检
Bartlett’s检验的零假设是研究数据之间的相关矩阵是一个完美矩阵,即所有对角线上的系数为1,非对角线上的系数均为0。
在完美矩阵情况下,各变量之间没有相关关系,即不能将多个变量简化为少数的成分,没有进行主成分提取的必要。因此,我们希望拒绝Bartlett’s检验的零假设。
SPSS输出结果如下:
Bartlett’s检验的P值小于0.001,拒绝零假设,即认为研究数据可以进行主成分提取,满足假设2。
结果解释
对主成分结果的分析主要从公因子方差(communalities)、提取主成分和强制提取主成分三个方面进行。
公因子方差结果
SPSS输出公因子方差结果如下:
研究中有多少个变量数据结果就会输出多少个成分,本研究中共有25个变量,就会对应产生25个成分。
“Extraction”栏提示当只保留选中的成分时,变量变异被解释的程度。
提取主成分
研究中有多少个变量,主成分提取就会产生多少个主成分。我们通过选取主成分对数据进行降维,但同时也要注意尽可能多地包含对数据变异的解释。
一般来说,结果输出的第一主成分包含最多的数据变异,第二主成分次之,之后的主成分包含的变异程度依次递减。SPSS输出结果如下:
本研究中共有25个变量,那总特征值(eigenvalues of variance)是25,即每个变量自身的特征值为1。
Total栏提示的是各主成分对数据变异的解释程度。
以第一主成分为例,其特征值为6.730,占总体变异的6.730/25×100 = 26.919% (% of Variance栏)。同理,第二主成分的特征值为3.342,占总体变异的13.369%,以此类推。
一般来说,如果某一项主成分的特征值小于1,那么我们就认为该主成分对数据变异的解释程度比单个变量小,应该剔除。本研究结果如下:
第五主成分的特征值为1.049,大于1;而第六主成分的特征值为0.951,小于1,即应该保留前五位的主成分,剔除剩余部分。
结论
本研究采用主成分分析,通过25项问题调查315位应聘者的工作能力。
研究变量之间存在线性相关关系(每组变量之间的相关系数均大于0.3),数据结构合理(KMO检验系数为0.833,单个变量的KMO检验系数均大于0.7,Bartlett’s检验结果为P<0.001),提示研究数据可以进行主成分提取。< span=””>
主成分提取结果:研究提取前四位主成分。提取后的主成分累计解释59.9%的数据变异,分别反映应聘者的工作积极性、工作自主性、工作热情和工作责任感(如下图)
1 红烧肉,最解馋的一道菜。制作方法不复杂,其制作的关键点是烧炖的时间。没有一个多小时的烧炖,就烧不出软糯的口感。现在正是桂花盛开的时候,摘一把桂花放入肉中烧炖,别有一番滋味。 原料:五花肉750克,广东菜心200克,桂花适量,冰糖40克,草菇老抽1勺,蒸鱼豉油1勺,蚝油适量,香叶2片,桂皮1块,...
团队建设的好坏 ,象征着一个企业后继发展是否有实力 ,也是这个企业凝聚力和战斗力的充分体现。团队建设首先应该从班子做起 ,班子之间亲密团结 ,协作到位 ,管理者心里始终要装着员工 ,支持员工的工作 ,关心员工的生活 ,用管理者的行动和真情去感染身边的每位员工 ,平时多与员工沟通交流 ,给员工以示范性...
今天面试了一位00后应届毕业女生,感觉真的和以前的90后求职者不一样,进来办公室就把包往桌子上一丢,用手挽了挽头发,轻松的说了句:“不好意思,来晚了,我们可以开始了。”我颇感诧异,这气势上就给人一种统治力和压迫感,高挑的身材,带着口罩,双眼化了妆,看起来颜值很高。 她把简历放在桌子上,用手拍了...
想要成为淘宝店铺的商家,首先要做的就是拥有自己的淘宝店铺,这就需要进行店铺的注册,下面学得起课堂就详细的为大家介绍淘宝如何注册网店,淘宝注册网店的详细流程。1、淘宝账号申请还没有申 想要成为淘宝店铺的商家,首先要做的就是拥有自己的淘宝店铺,这就需要进行店铺的注册,下面学得起课堂就详细的为大家介绍淘...
在淘宝上购物的次数多了之后难免会有需要换货的情况,因为现在很多店铺的规格太多了,一不小心就可能下错单,导致需要换货,很多人还不知道怎么去进行换货,下面说说淘宝换货的流程吧。我们如果 在淘宝上购物的次数多了之后难免会有需要换货的情况,因为现在很多店铺的规格太多了,一不小心就可能下错单,导致需要换货,...
我们都知道,流量是电商的命脉,没有流量的淘宝店铺就相当于没有人流的超市。产品再多,也无人购买,也更没有销售额的产生。正是因为如此,流量是我们卖家一直所追求的,只有有了流量我们的店铺 我们都知道,流量是电商的命脉,没有流量的淘宝店铺就相当于没有人流的超市。产品再多,也无人购买,也更没有销售额的产生。...
闲鱼是阿里巴巴旗下闲置交易平台。使用淘宝或支付宝账户登录,无需经过复杂的开店流程,即可达成包括一键转卖个人淘宝账号中“已买到宝贝”、自主手机拍照上传二手闲置物品、以及在线交易等诸多 闲鱼是阿里巴巴旗下闲置交易平台。使用淘宝或支付宝账户登录,无需经过复杂的开店流程,即可达成包括一键转卖个人淘宝账号中...
一个公司能申请几个天猫旗舰店?虽然距离618还有一个多月,但是很多商家都已经在摩拳擦掌的准备了,还有很多已经有了天猫店并发展的不错,想要开设第二家或第三家店铺的商家,但是开设多家天 一个公司能申请几个天猫旗舰店?虽然距离618还有一个多月,但是很多商家都已经在摩拳擦掌的准备了,还有很多已经有了天猫...
广告主收到的广告策划信息材料多种多样,内容十分丰富,因此广告主收到的信息量相当大而复杂。广告策划案的一些写作技巧也涉及到如何以一种易于理解的方式表达这些信息,并使其在内容和形式上更 广告主收到的广告策划信息材料多种多样,内容十分丰富,因此广告主收到的信息量相当大而复杂。广告策划案的一些写作技巧也涉...
转眼一个月又过去了,2022年已经过去一半。按照惯例,今天芝麻科技讯更新一下手机CPU天梯图。本月芯片厂商发布的新处理器不多,所以文章相对简单一些,手机CPU天梯图2022年6月最新版来了,快来看看都有哪些新变 转眼一个月又过去了,2022 年已经过去一半。按照惯例,今天芝麻科技讯更新一下手机CP...
iPhone14promax在官方直营店依旧没现货,包括京东或者天猫旗舰店,想买现货的朋友们在官网蹲到了吗?目前,iPhone14promax黄牛加价1200,可以自己卖赚点钱,如果自己加钱买的话就没必要了。iPhone iPhone14promax在官方直营店依旧没现货,包括京东或者天猫旗舰店,...
爱国,是诗词中常见的主题。屈原、岳飞、辛弃疾、于谦……众多爱国诗人写就许多经典的爱国诗篇。今天,诗词君想分享35首经典的爱国诗词,让我们在诗词中,体会他们壮志豪情吧!《诗经·无衣》岂曰无衣?与子同袍。王于兴师,修我戈矛。 爱国,是诗词中常见的主题。 屈原、岳飞、辛弃疾、于谦……众多爱国诗人写就许...
三花淡奶其实并不属于淡奶油,三花淡奶是属于奶水的类型,和淡奶油不是2个概念的。其实,三花淡奶少吃点没关系的,经常吃是容易导致肥胖的。下面,我们来看看久久派带来的三花淡奶成分及配料表吧!三花淡奶是淡奶油吗它不属于淡奶油。淡 三花淡奶其实并不属于淡奶油,三花淡奶是属于奶水的类型,和淡奶油不是2个概念的...
嘴唇长了疱疹是需要用药物涂抹治疗的,不管它的话就会好的比较慢,严重点的会引起嘴唇或者牙龈肿大,有的时候半边脸都是疼的。那么,嘴唇疱疹嘴唇肿大多久会消肿?一起来看看久久派带来的详细介绍吧!嘴唇长了疱疹还越来越肿怎么办患者 嘴唇长了疱疹是需要用药物涂抹治疗的,不管它的话就会好的比较慢,严重点的会引起嘴...
很多网友表示iPhonexsmax原相机拍照模式可以吊打所以系列,很多人把xsmax留着也只是为了拍照。目前,轻颜相机更新了xsmax原相机模式,大家可以直接在里面寻找并进行拍照哦!轻颜相机xsmax原相机模式在哪1、当 很多网友表示iPhonexsmax原相机拍照模式可以吊打所以系列,很多人把x...