Skip to content

变量生成教程

数据处理

汇总对数、比率、交互项、虚拟变量、滞后、差分、标准化和中心化的入口与填法。

常用 Stata 命令gen / egen / bysort / L. / D.
在 STATAU 中打开此功能
变量生成对数变量交互项滞后项差分项

这个页面解决什么问题

变量生成模块的核心不是“多”,而是把不同的生成逻辑拆到各自独立卡片里,避免你在同一块区域里同时处理对数、交互、滞后和标准化。常用做法是先确定建模思路,再回到这里一次性生成最终要进模型的新变量。

适用数据与前提

如果你要生成滞后项或差分项,必须先想清楚个体变量和时间变量;如果要生成标准化或中心化变量,最好明确是否需要按行业、年份等分组处理。

STATAU 页面中每个位置应该放什么变量

网站位置应放入的变量说明
对数变量变量 + 底数 + 非正数处理策略适合处理右偏变量,需注意零值和负值。
比率 / 交互项 / 虚拟变量分子分母、参与变量、分类变量用于构造解释变量、异质性项或类别哑变量。
滞后项 / 差分项目标变量 + 个体变量 + 时间变量 + 期数只在明确面板结构时使用。
标准化 / 中心化变量列表 + 分组变量(可选)适合进入综合指标或交互项前统一量纲。

Stata 等效代码

gen ln_x = ln(x)
gen ratio_xy = x / y
gen inter_xy = x * y
bysort id (year): gen L1_x = L.x
bysort id (year): gen D1_x = D.x
Stata 代码位置STATAU 网站对应位置应放入什么
gen ln_x = ln(x)对数变量对应变量选择、底数与非正数策略。
gen ratio_xy = x / y比率变量对应分子变量、分母变量和新变量名。
x * y交互项对应交互参与变量列表。
L.x / D.x滞后项 / 差分项对应个体变量、时间变量和期数设置。
可删除代码段提示
  • 如果不做面板型变量生成,滞后项和差分项相关设置可以整组跳过。
  • 如果标准化只做全样本,不需要填写分组变量。

在 STATAU 中操作步骤

  1. 先决定这次生成的是解释变量、控制变量还是综合得分前处理。
  2. 按照卡片类型逐个生成,不要把多个高风险动作堆在一次操作里。
  3. 生成后先预览几行,检查是否出现大量缺失或异常极值。
  4. 确认变量命名清晰后,再同步到分析页使用。

结果怎么看

  • 生成成功后,新变量会直接写回当前版本,并能在变量列表中立即看到。
  • 如果是滞后或差分项,系统会额外提示因此产生的缺失观测数。
  • 如果是标准化、中心化或交互项,重点检查数值量级是否符合预期。

常见使用误区

  • 把时间变量设错会导致滞后和差分结果完全失真。
  • 对数转换若存在非正数,先想清楚是记缺失、报错还是整体平移。
  • 生成虚拟变量时若参照组设置不清楚,后续回归解释会变得很混乱。

相关页面