建立模型

如果你已经把数据准备好了，下一步通常不是直接跳到复杂方法，而是先拿到一张结构清楚、变量角色明确的基准表。下面按“先建模、再检查、再扩展”的顺序整理了入口。

先拿到第一张表

运行第一个回归

适合第一次试跑，先把 OLS 链路跑通。

OLS 回归

建立最基础的线性关系基准表。

固定效应

适合企业-年份、城市-年份等面板数据。

随机效应

在个体效应可视为随机且与解释变量独立时考虑。

混合效应（Pooled OLS）

先拿到面板数据上的基准对照表，再和 FE / RE 比较。

上模型前先检查

描述性统计

先看样本均值、标准差和分布范围。

分组描述性统计

比较不同组之间的基础差异。

频数统计

快速发现分类变量分布异常。

相关性分析

先看变量之间方向关系是否符合直觉。

VIF

检查多重共线性是否明显。

T 检验

比较两组样本均值差异。

卡方检验

判断两个分类变量是否有关联。

方差分析

比较多组样本的均值差异。

结果出来后再判断

F 检验

先看整体模型是否有解释力。

Hausman

在固定效应和随机效应之间做选择。

Breusch-Pagan

检查异方差风险。

White 检验

更一般地检查异方差问题。

Durbin-Watson

快速判断一阶序列相关。

如果模型不是线性的

Logit

适合因变量只有 0/1 取值的场景。

Probit

同样用于二元因变量，但链接函数不同。

边际效应

把离散选择模型结果转成更容易解释的概率变化。

如果你要继续讲机制和异质性

中介机制

把总效应拆成直接效应和间接效应，继续追问“通过谁发生作用”。

调节机制

检验这条关系会不会因为外部条件不同而更强或更弱。

异质性分析

按组别拆样本做分组回归，判断效应主要集中在哪些组。

链式中介

把机制路径细化成“先影响 A，再影响 B，最后影响结果”的串联传导链路。

建立模型 ​

先拿到第一张表 ​

上模型前先检查 ​

结果出来后再判断 ​

如果模型不是线性的 ​