Skip to content

OLS 回归教程

回归分析

说明 STATAU 中 OLS 回归的输入项、稳健标准误设置、Stata 对照代码与结果解读方式。

常用 Stata 命令reg y x controls, robust
在 STATAU 中打开此功能
OLS 回归reg robust基准回归

这个页面解决什么问题

OLS 最适合拿来做第一张基准表。你可以把它理解成:“先别急着讲因果,先看看 X 和 Y 的方向关系大概是什么样。”当你想先拿到一张容易解释、也方便和后续模型对照的结果表时,通常就从这里开始。

一图看懂

STATAU OLS 配置页真实截图STATAU OLS 配置页真实截图
OLS 页面里先填这几个位置

OLS 页面里先把 Y、X、控制变量填好,再决定标准误;第一次不要急着调很多展示项,先把模型跑通。

OLS 回归页面说明图
OLS 页面里最该先看的位置

先填 Y、X 和控制变量,再决定标准误,最后只盯住系数方向、显著性和样本量,不要第一次就把所有统计量都硬啃完。

方法原理

OLS 会寻找一条“最贴近样本点”的直线或平面,让预测值和真实值之间的残差平方和尽量小。对用户更实用的理解是:它告诉你平均线性关系,但不能只靠它就下因果结论。

核心公式

OLS 的模型写法

yi=β0+β1xi+γcontrolsi+εi

这里的 yi 是结果变量,xi 是你最关心的解释变量,controlsi 是一组控制变量。页面中填写的内容,就是把这几个位置对应好。

适用数据与前提

因变量和主要解释变量最好都是数值型。如果你的数据明显是企业-年份、城市-年份这类面板结构,OLS 仍然可以先跑,但更适合当作基准表;如果你后面要讲因果或控制主体差异,通常还要继续看固定效应、DID 或工具变量。

STATAU 页面中每个位置应该放什么变量

网站位置应放入的变量说明
因变量 (Y)被解释变量论文中要解释的结果变量。
自变量 (X)核心解释变量最关心的解释变量,可勾选多个。
控制变量其他控制变量用于控制其他已知影响因素。
标准误计算方式IID / Robust / Cluster最常用的是稳健标准误。

Stata 等效代码

reg [被解释变量] [解释变量] [控制变量], robust
Stata 代码位置STATAU 网站对应位置应放入什么
[被解释变量]因变量 (Y)被解释的结果变量。
[解释变量]自变量 (X)核心解释变量。
[控制变量]控制变量控制变量列表。
robust标准误计算方式选择“稳健标准误 (Robust)”时对应。
可删除代码段提示
  • 如果想先看普通标准误结果,把 `, robust` 去掉即可。
  • 没有控制变量时,可以先省略 `[控制变量]`,但要在解释中说明是简化模型。

在 STATAU 中操作步骤

  1. 选择因变量、自变量和控制变量。
  2. 确认标准误类型,通常优先选择稳健标准误。
  3. 设置小数位、括号内显示内容和表格标题后运行回归。
  4. 如果要与其他设定比较,可继续用“追加到当前表”追加结果。

结果怎么看

  • 先看核心解释变量系数的正负号。系数大于 0,可以先理解为“在其他变量不变时,X 越大,Y 平均越大”;小于 0 则相反。
  • 再看显著性和标准误,判断这个方向是不是足够稳定,而不是样本偶然波动。
  • 最后看样本量和 R²。样本量能帮你发现是否有很多样本被剔除,R² 只是辅助描述,不要单靠它判断模型好坏。
  • 如果你的目标已经从先看方向升级到解释同一主体前后变化或讲因果,就该继续看固定效应、DID 或工具变量。
论文表述示例
  • 可以写成:“基准 OLS 回归结果显示,核心解释变量系数为正,并在 5% 水平上显著。”

常见使用误区

  • OLS 结果显著不等于不存在遗漏变量偏误或反向因果。
  • 如果数据天然是企业-年份面板,直接停留在 OLS 往往不够。