Skip to content

标准化与中心化教程

数据处理

统一变量量纲,方便做交互项、综合指标或不同变量之间的系数比较。

常用 Stata 命令egen z_x = std(x) center x, prefix(c_)
在 STATAU 中打开此功能
标准化中心化egen stdcenter

这个页面解决什么问题

标准化和中心化最适合在三种场景下用:变量量纲差异太大、准备做交互项、或者准备做综合指标和机器学习。它们都不会改变变量排序,但会改变数值刻度和系数可读性。

适用数据与前提

先确认哪些变量需要放在同一量纲下比较,是否需要按行业、年份等组内分别处理。

STATAU 页面中每个位置应该放什么变量

网站位置应放入的变量说明
目标变量需要统一量纲的变量例如多个财务指标、问卷得分。
处理方式标准化 / 中心化决定是缩放到标准差单位,还是仅围绕均值平移。
分组变量可选的组内处理口径例如按行业、年份分别做。

Stata 等效代码

egen z_[目标变量] = std([目标变量])
center [目标变量], prefix(c_)
Stata 代码位置STATAU 网站对应位置应放入什么
std([目标变量])处理方式 = 标准化把变量换成均值为 0、标准差为 1 的量纲。
center [目标变量]处理方式 = 中心化把变量围绕均值平移,但不改变原始标准差量纲。
by [分组变量]: ...分组变量对应按行业、年份等组内分别标准化或中心化。

在 STATAU 中操作步骤

  1. 先选出需要统一量纲的变量。
  2. 再决定是做标准化还是中心化,是否按组处理。
  3. 生成后检查均值、标准差是否符合预期。

结果怎么看

  • 标准化后不同变量更容易直接比较系数量级。
  • 中心化常用于交互项,能减轻多重共线性压力。
论文表述示例
  • 如果做了中心化再构造交互项,最好在论文里顺手说明这是为了提升交互项解释稳定性。

常见使用误区

  • center 是 Stata 常用扩展命令,不一定是默认内置。
  • 标准化会改变变量量纲,后面解释系数大小时要提醒读者它是“按一个标准差变化”来读。

相关页面