Skip to content

重复值处理教程

数据处理

找出重复观测,决定保留哪一条,并避免把合法的多期数据误删。

常用 Stata 命令duplicates report id year duplicates drop id year, force
在 STATAU 中打开此功能
重复值处理duplicates观测单位

这个页面解决什么问题

重复值处理最怕两种错误:一是该删的不删,二是把本来就应该存在的多期记录误当成重复删掉。页面里的关键就是先定义“按什么字段判断重复”,再决定重复时保留哪一条。

适用数据与前提

先弄清楚你的观测单位到底是什么,例如企业-年份、城市-季度,还是单纯的企业编号。

STATAU 页面中每个位置应该放什么变量

网站位置应放入的变量说明
判定字段用来识别重复的变量组合例如企业代码 + 年份,或订单号。
保留策略保留第一条 / 最后一条 / 生成重复标记决定重复观测最终如何处理。

Stata 等效代码

duplicates report [判定字段]
duplicates drop [判定字段], force
Stata 代码位置STATAU 网站对应位置应放入什么
[判定字段]判定字段决定什么样的记录会被视为同一观测。
duplicates drop处理动作 = 删除重复值对应删除重复观测。
duplicates report处理动作 = 生成重复标记 / 先检查对应先识别重复结构再决定是否删除。

在 STATAU 中操作步骤

  1. 先选择判断重复的字段组合。
  2. 运行后先确认重复条目是否真的应该被视为同一观测。
  3. 再决定删除还是只做标记。

结果怎么看

  • 若重复条目很多,优先回头检查原始数据导入或合并环节。
  • 先做重复标记、后决定是否删除,通常比直接删更稳。
论文表述示例
  • 如果删除了重复观测,最好在数据处理说明中写清楚重复定义依据,例如“按企业-年份唯一识别观测”。

常见使用误区

  • 把企业代码单独当作判定字段,可能会误删企业在不同年份的合法记录。
  • 保留策略要和研究单位一致,否则后续样本量和面板结构都会被破坏。

相关页面