缺失值处理教程

数据处理

决定缺失值是删、填还是单独做标记，并看清样本量会怎么变。

常用 Stata 命令

drop if missing(x)
replace x = r(mean) if missing(x)
gen x_missing = missing(x)

缺失值处理missing填充缺失指示变量

这个页面解决什么问题

缺失值处理最重要的不是“删还是填”谁更高级，而是先弄清楚缺失出现在什么变量、缺失比例多大、删掉后样本会不会断崖式下降。页面把删除、填充和缺失标记拆开，就是为了让你按场景选择。

先确认哪些变量缺失最严重，以及这些变量是否正好是后续回归的关键变量。

网站位置	应放入的变量	说明
目标变量	需要处理缺失的字段	通常优先看关键解释变量、因变量和主要控制变量。
处理方式	删除 / 填充 / 生成缺失标记	决定系统如何处理缺失观测。
删除模式 / 填充策略	any / all / proportion / mean / median / group mean 等	细化删除条件或填充值规则。

drop if missing([目标变量])
replace [目标变量] = r(mean) if missing([目标变量])
gen [目标变量]_missing = missing([目标变量])

可删除代码段提示

论文表述示例