Skip to content

工具变量法(2SLS)教程

因果识别

讲清楚内生变量、工具变量、固定效应和弱工具变量诊断在 STATAU 中的具体填法。

常用 Stata 命令ivregress 2sls y exog (endog = ivs), vce(robust)
在 STATAU 中打开此功能
2SLS工具变量法ivregress 2sls

这个页面解决什么问题

2SLS 适合这样一种场景:你怀疑核心解释变量和误差项缠在一起,直接回归会偏,但你又能找到一个“能推动 X 变化、却不会直接推着 Y 变化”的外部变量。页面把变量角色拆得很开,就是为了避免把外生变量、内生变量和工具变量填混。

一图看懂

STATAU 2SLS 配置页真实截图STATAU 2SLS 配置页真实截图
2SLS 页面先分清三类变量

先区分外生变量、内生变量、工具变量三类角色,再决定是否加固定效应和聚类标准误。第一眼先盯变量分区,不要先盯结果表格式。

2SLS 两阶段示意图
2SLS 的两步到底在做什么

先看工具变量能不能解释内生变量,再看用这部分预测值回归结果变量。第一页先盯 Weak-IV F,第二页再看系数。

方法原理

2SLS 分两步。第一步先用工具变量解释内生变量,看看工具变量能不能把它真正拉动起来;第二步再把这部分“被工具变量解释出来的变化”拿去回归结果变量。真正要紧的不是公式有多复杂,而是工具变量是否既相关又外生。

核心公式

第一阶段

xi=π0+π1zi+π2controlsi+vi

zi 是工具变量,第一阶段要回答的是:它能不能显著解释内生变量 xi。如果这一步很弱,第二阶段结论通常也站不住。

第二阶段

yi=β0+β1x^i+γcontrolsi+εi

x^i 是第一阶段预测出来的内生变量部分。你最终在页面里解读的核心系数,就是这一步的 β1

适用数据与前提

至少要有一个内生变量和一个工具变量。开始前先用一句话说清楚你的工具变量逻辑:它为什么会影响内生变量,又为什么不会直接影响因变量。说不清这句话,2SLS 就很难站稳。

STATAU 页面中每个位置应该放什么变量

网站位置应放入的变量说明
因变量 (Y)被解释变量最终要解释的结果变量。
外生解释变量 / 控制变量外生变量集合不需要用工具变量处理的解释变量。
内生解释变量怀疑存在内生性的解释变量至少选择一个。
工具变量排除限制变量用于识别内生变量。
固定效应变量企业 / 年份 / 地区等维度有需要时可额外勾选。

Stata 等效代码

ivregress 2sls [因变量] [外生变量] ([内生变量] = [工具变量]), vce(robust)
Stata 代码位置STATAU 网站对应位置应放入什么
[因变量]因变量 (Y)因果识别的结果变量。
[外生变量]外生解释变量 / 控制变量不需要工具变量处理的解释变量。
([内生变量] = [工具变量])内生解释变量 + 工具变量决定 2SLS 的识别结构。
vce(robust)标准误计算方式页面默认是稳健标准误。
可删除代码段提示
  • 如果不加固定效应,固定效应变量整组可留空。
  • 若采用聚类标准误,则把 `vce(robust)` 替换为 `vce(cluster [聚类变量])`。

在 STATAU 中操作步骤

  1. 区分外生变量、内生变量和工具变量三类角色。
  2. 必要时补充固定效应和聚类标准误设定。
  3. 执行后重点查看 Weak-IV F、Endogeneity p 和 Over-ID p。

结果怎么看

  • Weak-IV F 过低时,工具变量可能太弱,第二阶段结果不稳。
  • Endogeneity p 用于判断内生性问题是否显著;Over-ID p 适用于过度识别约束检验。
  • 2SLS 系数的经济含义仍然要回到研究设计,不要只盯统计显著。

常见使用误区

  • 把外生变量误填进工具变量区,会直接改变识别结构。
  • 工具变量相关性强不代表一定外生,理论解释仍然必不可少。