Skip to content

缺失值处理教程

数据处理

决定缺失值是删、填还是单独做标记,并看清样本量会怎么变。

常用 Stata 命令drop if missing(x) replace x = r(mean) if missing(x) gen x_missing = missing(x)
在 STATAU 中打开此功能
缺失值处理missing填充缺失指示变量

这个页面解决什么问题

缺失值处理最重要的不是“删还是填”谁更高级,而是先弄清楚缺失出现在什么变量、缺失比例多大、删掉后样本会不会断崖式下降。页面把删除、填充和缺失标记拆开,就是为了让你按场景选择。

适用数据与前提

先确认哪些变量缺失最严重,以及这些变量是否正好是后续回归的关键变量。

STATAU 页面中每个位置应该放什么变量

网站位置应放入的变量说明
目标变量需要处理缺失的字段通常优先看关键解释变量、因变量和主要控制变量。
处理方式删除 / 填充 / 生成缺失标记决定系统如何处理缺失观测。
删除模式 / 填充策略any / all / proportion / mean / median / group mean 等细化删除条件或填充值规则。

Stata 等效代码

drop if missing([目标变量])
replace [目标变量] = r(mean) if missing([目标变量])
gen [目标变量]_missing = missing([目标变量])
Stata 代码位置STATAU 网站对应位置应放入什么
missing([目标变量])目标变量决定要扫描和处理缺失的字段。
drop if ...处理方式 = 删除缺失样本对应删除缺失样本的动作。
replace ... = ... if missing(...)处理方式 = 填充对应均值、中位数、前向填充或分组填充。
gen x_missing = missing(x)处理方式 = 生成缺失指示变量对应额外生成 0/1 缺失标记列。
可删除代码段提示
  • 如果你只想先看缺失分布,不必立刻执行删除或填充,可以先退出回头比对样本量。
  • 如果不做分组填充,分组变量整组参数可以留空。

在 STATAU 中操作步骤

  1. 先选出要处理的变量。
  2. 再决定是删样本、填充值,还是先加一个缺失指示变量。
  3. 处理后重点看样本量变化。

结果怎么看

  • 删除法最直观,但可能明显缩小样本。
  • 填充法更保留样本,但一定要说明填充规则。
论文表述示例
  • 可以写成:“对缺失值采用均值填充 / 删除缺失样本的方式处理,处理后样本量变化如下。”

常见使用误区

  • 先删后想通常代价最大,关键变量缺失前最好先看比例再决定动作。
  • 分组填充前要先确认分组变量本身没有严重缺失,否则会把问题传递下去。

相关页面