外观
PCA 教程
用主成分分析从多指标中提取主要信息,并根据累计方差贡献率生成主成分得分。
常用 Stata 命令
pca x1 x2 x3 / predict pca_score* 在 STATAU 中打开此功能
PCA主成分分析累计方差贡献率
这个页面解决什么问题
PCA 适合在多个相关指标之间降维,把主要信息压缩成少数几个主成分。STATAU 会帮你处理标准化、主成分数量和得分写回,而你需要重点决定哪些指标进入 PCA、是否先标准化,以及使用多少个主成分。
适用数据与前提
如果指标量纲差异明显,建议保持“先做标准化(推荐)”勾选。通常至少需要 3 个以上相关指标,且缺失值不要过于严重。
STATAU 页面中每个位置应该放什么变量
| 网站位置 | 应放入的变量 | 说明 |
|---|---|---|
| 指标变量 | 进入 PCA 的原始指标 | 通常是一组相关性较高的连续变量。 |
| 主成分数量 / 累计方差阈值 | 保留主成分的规则 | 可以手动指定数量,也可以按累计方差阈值自动推荐。 |
| 先做标准化 | 是否统一量纲 | 量纲差异明显时建议保持开启。 |
| 写回主成分得分列 | 是否保存得分结果 | 适合后续直接进入回归或分组比较。 |
Stata 等效代码
pca x1 x2 x3
predict pc1 pc2
* 如需综合得分,可按解释方差加权组合| Stata 代码位置 | STATAU 网站对应位置 | 应放入什么 |
|---|---|---|
pca x1 x2 x3 | 指标变量 | 对应要进入 PCA 的所有原始指标。 |
predict pc1 pc2 | 写回主成分得分列 | 对应把主成分得分写回当前版本。 |
在 STATAU 中操作步骤
- 选择进入 PCA 的指标变量。
- 确定主成分数量,或用累计方差阈值自动推荐。
- 保留标准化选项后执行 PCA。
- 查看解释方差、累计贡献率和得分列,再决定后续使用哪个得分。
结果怎么看
- 优先看解释方差和累计贡献率,判断保留的主成分是否足够概括原始信息。
- 如果第一主成分解释度很高,可以优先考虑使用第一主成分得分。
- 若主成分得分方向不直观,回到变量层面检查指标方向和标准化策略。
常见使用误区
- 把明显不相关的指标硬塞进 PCA,往往会得到难以解释的主成分。
- 不做标准化时,量纲大的变量可能主导结果。
- PCA 解决的是降维和信息压缩,不是变量因果关系解释。