外观
重复值处理教程
找出重复观测,决定保留哪一条,并避免把合法的多期数据误删。
常用 Stata 命令
duplicates report id year
duplicates drop id year, force 在 STATAU 中打开此功能
重复值处理duplicates观测单位
这个页面解决什么问题
重复值处理最怕两种错误:一是该删的不删,二是把本来就应该存在的多期记录误当成重复删掉。页面里的关键就是先定义“按什么字段判断重复”,再决定重复时保留哪一条。
适用数据与前提
先弄清楚你的观测单位到底是什么,例如企业-年份、城市-季度,还是单纯的企业编号。
STATAU 页面中每个位置应该放什么变量
| 网站位置 | 应放入的变量 | 说明 |
|---|---|---|
| 判定字段 | 用来识别重复的变量组合 | 例如企业代码 + 年份,或订单号。 |
| 保留策略 | 保留第一条 / 最后一条 / 生成重复标记 | 决定重复观测最终如何处理。 |
Stata 等效代码
duplicates report [判定字段]
duplicates drop [判定字段], force| Stata 代码位置 | STATAU 网站对应位置 | 应放入什么 |
|---|---|---|
[判定字段] | 判定字段 | 决定什么样的记录会被视为同一观测。 |
duplicates drop | 处理动作 = 删除重复值 | 对应删除重复观测。 |
duplicates report | 处理动作 = 生成重复标记 / 先检查 | 对应先识别重复结构再决定是否删除。 |
在 STATAU 中操作步骤
- 先选择判断重复的字段组合。
- 运行后先确认重复条目是否真的应该被视为同一观测。
- 再决定删除还是只做标记。
结果怎么看
- 若重复条目很多,优先回头检查原始数据导入或合并环节。
- 先做重复标记、后决定是否删除,通常比直接删更稳。
论文表述示例
- 如果删除了重复观测,最好在数据处理说明中写清楚重复定义依据,例如“按企业-年份唯一识别观测”。
常见使用误区
- 把企业代码单独当作判定字段,可能会误删企业在不同年份的合法记录。
- 保留策略要和研究单位一致,否则后续样本量和面板结构都会被破坏。