工具变量法（2SLS）教程

因果识别

讲清楚内生变量、工具变量、固定效应和弱工具变量诊断在 STATAU 中的具体填法。

常用 Stata 命令ivregress 2sls y exog (endog = ivs), vce(robust)

在 STATAU 中打开此功能

2SLS工具变量法ivregress 2sls

这个页面解决什么问题

2SLS 适合这样一种场景：你怀疑核心解释变量和误差项缠在一起，直接回归会偏，但你又能找到一个“能推动 X 变化、却不会直接推着 Y 变化”的外部变量。页面把变量角色拆得很开，就是为了避免把外生变量、内生变量和工具变量填混。

一图看懂

STATAU 2SLS 配置页真实截图 — **2SLS 页面先分清三类变量**
先区分外生变量、内生变量、工具变量三类角色，再决定是否加固定效应和聚类标准误。第一眼先盯变量分区，不要先盯结果表格式。

2SLS 两阶段示意图 — **2SLS 的两步到底在做什么**
先看工具变量能不能解释内生变量，再看用这部分预测值回归结果变量。第一页先盯 Weak-IV F，第二页再看系数。

方法原理

2SLS 分两步。第一步先用工具变量解释内生变量，看看工具变量能不能把它真正拉动起来；第二步再把这部分“被工具变量解释出来的变化”拿去回归结果变量。真正要紧的不是公式有多复杂，而是工具变量是否既相关又外生。

核心公式

第一阶段

x_{i} = π_{0} + π_{1} z_{i} + π_{2} c o n t r o l s_{i} + v_{i}

$z_{i}$ 是工具变量，第一阶段要回答的是：它能不能显著解释内生变量 $x_{i}$ 。如果这一步很弱，第二阶段结论通常也站不住。

第二阶段

y_{i} = β_{0} + β_{1} {\hat{x}}_{i} + γ c o n t r o l s_{i} + ε_{i}

${\hat{x}}_{i}$ 是第一阶段预测出来的内生变量部分。你最终在页面里解读的核心系数，就是这一步的 $β_{1}$ 。

适用数据与前提

至少要有一个内生变量和一个工具变量。开始前先用一句话说清楚你的工具变量逻辑：它为什么会影响内生变量，又为什么不会直接影响因变量。说不清这句话，2SLS 就很难站稳。

STATAU 页面中每个位置应该放什么变量

网站位置	应放入的变量	说明
因变量 (Y)	被解释变量	最终要解释的结果变量。
外生解释变量 / 控制变量	外生变量集合	不需要用工具变量处理的解释变量。
内生解释变量	怀疑存在内生性的解释变量	至少选择一个。
工具变量	排除限制变量	用于识别内生变量。
固定效应变量	企业 / 年份 / 地区等维度	有需要时可额外勾选。

Stata 等效代码

ivregress 2sls [因变量] [外生变量] ([内生变量] = [工具变量]), vce(robust)

Stata 代码位置	STATAU 网站对应位置	应放入什么
`[因变量]`	因变量 (Y)	因果识别的结果变量。
`[外生变量]`	外生解释变量 / 控制变量	不需要工具变量处理的解释变量。
`([内生变量] = [工具变量])`	内生解释变量 + 工具变量	决定 2SLS 的识别结构。
`vce(robust)`	标准误计算方式	页面默认是稳健标准误。

可删除代码段提示

如果不加固定效应，固定效应变量整组可留空。
若采用聚类标准误，则把 `vce(robust)` 替换为 `vce(cluster [聚类变量])`。

在 STATAU 中操作步骤

区分外生变量、内生变量和工具变量三类角色。
必要时补充固定效应和聚类标准误设定。
执行后重点查看 Weak-IV F、Endogeneity p 和 Over-ID p。

结果怎么看

Weak-IV F 过低时，工具变量可能太弱，第二阶段结果不稳。
Endogeneity p 用于判断内生性问题是否显著；Over-ID p 适用于过度识别约束检验。
2SLS 系数的经济含义仍然要回到研究设计，不要只盯统计显著。

常见使用误区

把外生变量误填进工具变量区，会直接改变识别结构。
工具变量相关性强不代表一定外生，理论解释仍然必不可少。

工具变量法（2SLS）教程 ​

这个页面解决什么问题 ​

一图看懂 ​

方法原理 ​

核心公式 ​

第一阶段 ​

第二阶段 ​

适用数据与前提 ​

STATAU 页面中每个位置应该放什么变量 ​

Stata 等效代码 ​

在 STATAU 中操作步骤 ​

结果怎么看 ​

常见使用误区 ​