外观
标准化与中心化教程
统一变量量纲,方便做交互项、综合指标或不同变量之间的系数比较。
常用 Stata 命令
egen z_x = std(x)
center x, prefix(c_) 在 STATAU 中打开此功能
标准化中心化egen stdcenter
这个页面解决什么问题
标准化和中心化最适合在三种场景下用:变量量纲差异太大、准备做交互项、或者准备做综合指标和机器学习。它们都不会改变变量排序,但会改变数值刻度和系数可读性。
适用数据与前提
先确认哪些变量需要放在同一量纲下比较,是否需要按行业、年份等组内分别处理。
STATAU 页面中每个位置应该放什么变量
| 网站位置 | 应放入的变量 | 说明 |
|---|---|---|
| 目标变量 | 需要统一量纲的变量 | 例如多个财务指标、问卷得分。 |
| 处理方式 | 标准化 / 中心化 | 决定是缩放到标准差单位,还是仅围绕均值平移。 |
| 分组变量 | 可选的组内处理口径 | 例如按行业、年份分别做。 |
Stata 等效代码
egen z_[目标变量] = std([目标变量])
center [目标变量], prefix(c_)| Stata 代码位置 | STATAU 网站对应位置 | 应放入什么 |
|---|---|---|
std([目标变量]) | 处理方式 = 标准化 | 把变量换成均值为 0、标准差为 1 的量纲。 |
center [目标变量] | 处理方式 = 中心化 | 把变量围绕均值平移,但不改变原始标准差量纲。 |
by [分组变量]: ... | 分组变量 | 对应按行业、年份等组内分别标准化或中心化。 |
在 STATAU 中操作步骤
- 先选出需要统一量纲的变量。
- 再决定是做标准化还是中心化,是否按组处理。
- 生成后检查均值、标准差是否符合预期。
结果怎么看
- 标准化后不同变量更容易直接比较系数量级。
- 中心化常用于交互项,能减轻多重共线性压力。
论文表述示例
- 如果做了中心化再构造交互项,最好在论文里顺手说明这是为了提升交互项解释稳定性。
常见使用误区
center是 Stata 常用扩展命令,不一定是默认内置。- 标准化会改变变量量纲,后面解释系数大小时要提醒读者它是“按一个标准差变化”来读。