外观
变量生成教程
汇总对数、比率、交互项、虚拟变量、滞后、差分、标准化和中心化的入口与填法。
常用 Stata 命令
gen / egen / bysort / L. / D. 在 STATAU 中打开此功能
变量生成对数变量交互项滞后项差分项
这个页面解决什么问题
变量生成模块的核心不是“多”,而是把不同的生成逻辑拆到各自独立卡片里,避免你在同一块区域里同时处理对数、交互、滞后和标准化。常用做法是先确定建模思路,再回到这里一次性生成最终要进模型的新变量。
适用数据与前提
如果你要生成滞后项或差分项,必须先想清楚个体变量和时间变量;如果要生成标准化或中心化变量,最好明确是否需要按行业、年份等分组处理。
STATAU 页面中每个位置应该放什么变量
| 网站位置 | 应放入的变量 | 说明 |
|---|---|---|
| 对数变量 | 变量 + 底数 + 非正数处理策略 | 适合处理右偏变量,需注意零值和负值。 |
| 比率 / 交互项 / 虚拟变量 | 分子分母、参与变量、分类变量 | 用于构造解释变量、异质性项或类别哑变量。 |
| 滞后项 / 差分项 | 目标变量 + 个体变量 + 时间变量 + 期数 | 只在明确面板结构时使用。 |
| 标准化 / 中心化 | 变量列表 + 分组变量(可选) | 适合进入综合指标或交互项前统一量纲。 |
Stata 等效代码
gen ln_x = ln(x)
gen ratio_xy = x / y
gen inter_xy = x * y
bysort id (year): gen L1_x = L.x
bysort id (year): gen D1_x = D.x| Stata 代码位置 | STATAU 网站对应位置 | 应放入什么 |
|---|---|---|
gen ln_x = ln(x) | 对数变量 | 对应变量选择、底数与非正数策略。 |
gen ratio_xy = x / y | 比率变量 | 对应分子变量、分母变量和新变量名。 |
x * y | 交互项 | 对应交互参与变量列表。 |
L.x / D.x | 滞后项 / 差分项 | 对应个体变量、时间变量和期数设置。 |
可删除代码段提示
- 如果不做面板型变量生成,滞后项和差分项相关设置可以整组跳过。
- 如果标准化只做全样本,不需要填写分组变量。
在 STATAU 中操作步骤
- 先决定这次生成的是解释变量、控制变量还是综合得分前处理。
- 按照卡片类型逐个生成,不要把多个高风险动作堆在一次操作里。
- 生成后先预览几行,检查是否出现大量缺失或异常极值。
- 确认变量命名清晰后,再同步到分析页使用。
结果怎么看
- 生成成功后,新变量会直接写回当前版本,并能在变量列表中立即看到。
- 如果是滞后或差分项,系统会额外提示因此产生的缺失观测数。
- 如果是标准化、中心化或交互项,重点检查数值量级是否符合预期。
常见使用误区
- 把时间变量设错会导致滞后和差分结果完全失真。
- 对数转换若存在非正数,先想清楚是记缺失、报错还是整体平移。
- 生成虚拟变量时若参照组设置不清楚,后续回归解释会变得很混乱。