Skip to content

PCA 教程

数据处理

用主成分分析从多指标中提取主要信息,并根据累计方差贡献率生成主成分得分。

常用 Stata 命令pca x1 x2 x3 / predict pca_score*
在 STATAU 中打开此功能
PCA主成分分析累计方差贡献率

这个页面解决什么问题

PCA 适合在多个相关指标之间降维,把主要信息压缩成少数几个主成分。STATAU 会帮你处理标准化、主成分数量和得分写回,而你需要重点决定哪些指标进入 PCA、是否先标准化,以及使用多少个主成分。

适用数据与前提

如果指标量纲差异明显,建议保持“先做标准化(推荐)”勾选。通常至少需要 3 个以上相关指标,且缺失值不要过于严重。

STATAU 页面中每个位置应该放什么变量

网站位置应放入的变量说明
指标变量进入 PCA 的原始指标通常是一组相关性较高的连续变量。
主成分数量 / 累计方差阈值保留主成分的规则可以手动指定数量,也可以按累计方差阈值自动推荐。
先做标准化是否统一量纲量纲差异明显时建议保持开启。
写回主成分得分列是否保存得分结果适合后续直接进入回归或分组比较。

Stata 等效代码

pca x1 x2 x3
predict pc1 pc2
* 如需综合得分,可按解释方差加权组合
Stata 代码位置STATAU 网站对应位置应放入什么
pca x1 x2 x3指标变量对应要进入 PCA 的所有原始指标。
predict pc1 pc2写回主成分得分列对应把主成分得分写回当前版本。

在 STATAU 中操作步骤

  1. 选择进入 PCA 的指标变量。
  2. 确定主成分数量,或用累计方差阈值自动推荐。
  3. 保留标准化选项后执行 PCA。
  4. 查看解释方差、累计贡献率和得分列,再决定后续使用哪个得分。

结果怎么看

  • 优先看解释方差和累计贡献率,判断保留的主成分是否足够概括原始信息。
  • 如果第一主成分解释度很高,可以优先考虑使用第一主成分得分。
  • 若主成分得分方向不直观,回到变量层面检查指标方向和标准化策略。

常见使用误区

  • 把明显不相关的指标硬塞进 PCA,往往会得到难以解释的主成分。
  • 不做标准化时,量纲大的变量可能主导结果。
  • PCA 解决的是降维和信息压缩,不是变量因果关系解释。

相关页面