外观
缺失值处理教程
决定缺失值是删、填还是单独做标记,并看清样本量会怎么变。
常用 Stata 命令
drop if missing(x)
replace x = r(mean) if missing(x)
gen x_missing = missing(x) 在 STATAU 中打开此功能
缺失值处理missing填充缺失指示变量
这个页面解决什么问题
缺失值处理最重要的不是“删还是填”谁更高级,而是先弄清楚缺失出现在什么变量、缺失比例多大、删掉后样本会不会断崖式下降。页面把删除、填充和缺失标记拆开,就是为了让你按场景选择。
适用数据与前提
先确认哪些变量缺失最严重,以及这些变量是否正好是后续回归的关键变量。
STATAU 页面中每个位置应该放什么变量
| 网站位置 | 应放入的变量 | 说明 |
|---|---|---|
| 目标变量 | 需要处理缺失的字段 | 通常优先看关键解释变量、因变量和主要控制变量。 |
| 处理方式 | 删除 / 填充 / 生成缺失标记 | 决定系统如何处理缺失观测。 |
| 删除模式 / 填充策略 | any / all / proportion / mean / median / group mean 等 | 细化删除条件或填充值规则。 |
Stata 等效代码
drop if missing([目标变量])
replace [目标变量] = r(mean) if missing([目标变量])
gen [目标变量]_missing = missing([目标变量])| Stata 代码位置 | STATAU 网站对应位置 | 应放入什么 |
|---|---|---|
missing([目标变量]) | 目标变量 | 决定要扫描和处理缺失的字段。 |
drop if ... | 处理方式 = 删除缺失样本 | 对应删除缺失样本的动作。 |
replace ... = ... if missing(...) | 处理方式 = 填充 | 对应均值、中位数、前向填充或分组填充。 |
gen x_missing = missing(x) | 处理方式 = 生成缺失指示变量 | 对应额外生成 0/1 缺失标记列。 |
可删除代码段提示
- 如果你只想先看缺失分布,不必立刻执行删除或填充,可以先退出回头比对样本量。
- 如果不做分组填充,分组变量整组参数可以留空。
在 STATAU 中操作步骤
- 先选出要处理的变量。
- 再决定是删样本、填充值,还是先加一个缺失指示变量。
- 处理后重点看样本量变化。
结果怎么看
- 删除法最直观,但可能明显缩小样本。
- 填充法更保留样本,但一定要说明填充规则。
论文表述示例
- 可以写成:“对缺失值采用均值填充 / 删除缺失样本的方式处理,处理后样本量变化如下。”
常见使用误区
- 先删后想通常代价最大,关键变量缺失前最好先看比例再决定动作。
- 分组填充前要先确认分组变量本身没有严重缺失,否则会把问题传递下去。