Skip to content

条件筛选教程

数据处理

按变量条件保留或剔除样本,并清楚记录每一步筛选逻辑。

常用 Stata 命令keep if industry == "制造业" & year >= 2015
在 STATAU 中打开此功能
条件筛选keep if样本口径

这个页面解决什么问题

条件筛选适合做样本口径统一,例如只保留制造业、只保留上市公司、剔除成立时间过短的企业。页面把 AND / OR 逻辑拆开,是为了让你把每一步筛选理由写清楚。

适用数据与前提

先明确样本筛选规则,不要一边试错一边改口径。

STATAU 页面中每个位置应该放什么变量

网站位置应放入的变量说明
字段用于筛选的变量例如行业、地区、年份、是否上市。
运算符 + 取值= / > / < / 包含等条件决定具体筛选规则。
逻辑关系AND / OR决定多条规则如何组合。

Stata 等效代码

keep if [字段] [运算符] [取值] & ...
Stata 代码位置STATAU 网站对应位置应放入什么
[字段]字段用来判断是否保留样本的列。
[运算符] [取值]运算符 + 取值对应等于、大于、包含等具体筛选条件。
& / |逻辑关系对应 AND / OR 组合逻辑。

在 STATAU 中操作步骤

  1. 先写清楚筛选口径,再在页面里按规则录入。
  2. 执行后重点看样本量减少了多少,以及删掉的是哪些样本。

结果怎么看

  • 筛选操作会直接改变样本口径,建议每一步都在历史记录里留痕。
  • 如果样本量骤降,优先回头检查是否把 AND 和 OR 用反了。
论文表述示例
  • 可以写成:“按照研究设计,仅保留 2015 年以后制造业上市公司样本进行后续分析。”

常见使用误区

  • 一边试错一边随手改筛选口径,最后最容易忘记自己真正用了哪套样本。
  • 同一规则如果既能在数据处理页做,也能在回归前临时删样本,建议只保留一个固定入口,避免重复删样本。

相关页面