这份手册覆盖当前版本的主要工作流:登录注册、数据上传、数据库使用、基础分析、回归模型、模型检验、 时间序列、因果识别、DID 诊断,以及 Word / Excel / TXT / CSV 导出。
STATAU 当前将“分析工作台”和“数据库”分成两条工作流:数据分析页用于上传数据并估计模型, 数据库页用于检索、筛选和下载平台内置数据。帮助页与数据库页可公开浏览,数据分析页当前需要登录后使用。
当前版本中,/analysis 分析工作台需要先登录;/help 与 /database 可直接访问。
支持用户名/邮箱 + 密码登录,也支持邮箱验证码登录。注册时需要邮箱验证码完成校验。
进入数据分析页后上传 .csv、.xlsx、.xls 或 .dta 文件,随后可点击“预览数据”检查列名与样本。
在左侧栏切换分析模块,在右侧面板选择因变量、自变量、控制变量,以及标准误、固定效应、导出统计量等参数。
执行后可直接查看论文风格结果表,也可以查看原始输出、重新配置,或导出为 Word、Excel、TXT、CSV。
| 格式 | 扩展名 | 说明 |
|---|---|---|
| CSV | .csv |
最通用的结构化文本格式,建议优先使用 UTF-8 编码。 |
| Excel | .xlsx, .xls |
适合已有表格数据,避免合并单元格和复杂样式。 |
| Stata | .dta |
适合直接沿用已有 Stata 数据文件。 |
| 场景 | 建议至少准备 | 说明 |
|---|---|---|
| 面板回归 | 个体 ID、时间 ID | 固定效应、随机效应、混合效应、F 检验、Hausman 检验都会用到。 |
| Logit / Probit | 0/1 因变量 | 若再叠加固定效应,计算量会显著上升。 |
| 2SLS / GMM | 内生变量、工具变量 | 建议提前理清排除限制和识别设定。 |
| Heckman 两阶段 | 结果方程变量、选择变量 | 选择变量应为 0/1,表示因变量是否可观察。 |
| DID 诊断 | treat、时间变量、policy_year 或 DID 信号 | 时间安慰剂还需要 post 变量;自动识别政策时点时还需要个体 ID。 |
| 时间序列 | 时间变量、分析变量 | VAR、协整、VECM、FEVD 等通常需要至少两个分析变量。 |
可按企业、地区、省份、国家、宏观经济、行业等分类筛选,也可直接搜索数据表名称、代码或描述。
打开数据表详情后,可以只勾选需要的变量列,并保留固定标识变量。
登录后下载时可按起止日期筛选样本,并选择压缩包内导出格式。
数据库下载结果为 ZIP,除数据文件外还会附带 数据说明.txt。
数据库页用于“找数、筛列、下载”;分析页用于“上传数据、设定模型、输出结果表”。两者是配套关系,不是同一页面。
输出均值、标准差、最小值、最大值等基本统计量。
按分组变量分层展示描述统计结果。
适合分类变量分布、占比与累计占比查看。
生成相关系数矩阵并展示显著性信息。
输出各变量 VIF 与 Mean VIF,用于排查多重共线性。
支持单样本、独立样本和配对样本的均值检验。
用于独立性检验或拟合优度检验。
支持单因素和双因素 ANOVA。
| 模型 | 适用场景 | 当前要点 |
|---|---|---|
| 线性 OLS | 连续型因变量 | 支持普通、稳健、聚类标准误和常见统计量导出。 |
| 固定效应 FE | 面板数据 | 需要个体 ID、时间 ID,可勾选固定效应维度。 |
| 随机效应 RE | 面板数据 | 常与 Hausman 检验配合做模型选择。 |
| 混合效应 / Pooled | 面板基准模型 | 常作为 FE 的对照模型,并配合 F 检验使用。 |
| Logit | 二元因变量 | 支持固定效应与边际效应,适合违约、购买、进入等 0/1 场景。 |
| Probit | 二元因变量 | 功能与 Logit 对应,分布假设不同。 |
IID、Robust、Cluster 三种方式。Industry FE: Yes、Province FE: Yes。R²、Adj-R²、Pseudo-R²、AIC、BIC、Log Likelihood。如果固定效应维度非常多,离散选择模型会比 OLS / FE 慢得多。样本很大时,建议先用较小样本调试设定,再正式运行。
| 检验 | 用途 | 补充说明 |
|---|---|---|
| Breusch-Pagan | 异方差检验 | 适合在线性模型后诊断异方差问题。 |
| White | 异方差检验 | 对异方差形式要求更弱。 |
| Durbin-Watson | 序列相关检验 | 常用于时间序列或按时间排序的数据残差诊断。 |
| F 检验 | FE vs Pooled | 判断固定效应模型是否优于混合 OLS。 |
| Hausman | FE vs RE | 支持 sigmamore 选项,便于处理协方差矩阵不正定问题。 |
ADF 必选,PP 可选;支持按不同回归型式输出,非平稳时可自动差分后重新检验。
支持信息准则选阶、趋势项选择和差分阶数设定。
自动对所选变量对进行双向因果检验。
支持 Johansen、Engle-Granger 或两种方法同时执行。
适合存在协整关系时进一步估计短期调整与长期均衡机制。
输出稳定性图与结果表,相关图像可以随 Word 一并导出。
基于 VAR 的预测误差方差分解,冲击变量顺序可拖拽调整。
一般先做平稳性检验,再决定是否差分;之后再进入 VAR、Granger、协整、VECM 或 FEVD。
| 方法 | 适用情形 | 当前支持 |
|---|---|---|
| 2SLS 工具变量法 | 存在明确排除型工具变量 | 支持内生变量、工具变量、固定效应变量、聚类标准误与结果统计量导出。 |
| IV-GMM | 希望使用更一般矩条件 | 支持迭代次数设置,并随标准误类型自动匹配权重矩阵风格。 |
| Heckman 两阶段 | 样本选择偏误 | 支持结果方程、选择方程和只进入选择方程的排除变量设定。 |
因果识别模块当前可以在结果表中输出 Weak-IV F、Endogeneity p、
Over-ID p、Selected N、IMR p 等诊断指标。
DID 模块主要承担平行趋势、安慰剂与 PSM 匹配诊断。真正的基准 DID / TWFE 回归, 仍建议优先在固定效应回归模块中完成。
| 方法 | 用途 | 当前版本特点 |
|---|---|---|
| 单时点组间趋势 | 统一政策时点的趋势对比 | 只画处理组/对照组水平趋势,不估计事件研究系数。 |
| 多时点事件研究 | 分批政策与动态效应 | 可手动设事件期区间、参考期、置信区间,并自行选择吸收哪些固定效应维度。 |
| 安慰剂检验 | 稳健性诊断 | 支持时间安慰剂和随机处理组安慰剂;随机安慰剂带真实进度条。 |
| PSM-DID | 匹配预处理与平衡诊断 | 支持最近邻、半径、核、卡尺匹配,以及共同支撑、有放回、匹配比例等选项。 |
policy_year 变量,优先直接选择它。policy_year 时,才建议使用 DID 信号变量自动识别政策时点;此时个体 ID 为必填。post 变量。如果你已经有真正的处理组变量 treat,不要把 did 或 post 误填到 treat 位置。多时点事件研究中,这会影响政策时点识别与事件期展示。
当前版本支持按模块导出结果。导出按钮只会针对当前激活模块显示,且只导出当前模块中的结果表与相关图像。
| 格式 | 扩展名 | 当前行为 |
|---|---|---|
| Word | .docx |
走后端原生 Word 生成流程,适合论文表格;部分分析图像会一并导出。 |
| Excel | .xlsx |
适合二次整理、继续计算或发给合作者核对。 |
| TXT | .txt |
适合保留纯文本版本或快速分享。 |
| CSV | .csv |
适合与其他软件交换结果或自行再处理。 |
.docx。.docx 生成。当前 Word 导出是“前端收集 + 后端原生生成”的混合方案,不再是旧手册里写的“纯前端实现”。如果你在升级后仍按旧描述理解导出逻辑,容易误判问题位置。
做完一组主要结果后先导出一版;随后再做稳健性、异质性或替换模型时使用“追加到当前表”,这样更适合最后整理成论文表格。
A: 这是当前版本的权限设计。分析工作台需要先登录,帮助页和数据库页可公开访问。
A: 可优先尝试邮箱验证码登录;如果仍需重置密码,当前版本没有开放自助找回流程,请联系站点管理员或项目维护者。
A: 最常见的原因是标准误类型、样本筛选、缺失值处理、固定效应设定或工具变量设定不一致。请先逐项对齐这些条件再比较系数与显著性。
A: 勾选 sigmamore 选项后重新运行。当前版本已在 Hausman 模块中保留该选项,便于得到更接近 Stata 的结果。
A: 该方法本质上要重复执行大量回归。当前版本已经加入真实进度条,会显示完成次数、成功次数和跳过次数,请根据样本量和重复次数预留时间。
A: 如果你已有真实政策年份或政策期变量,优先使用 policy_year。只有没有该变量时,才建议让系统通过 DID 信号变量自动识别政策时点。
A: 导出按钮只会在当前模块已有结果时显示;如果你切换了模块或尚未生成结果,按钮不会出现。
A: 先确认当前模块结果已经正常显示,再重新导出一次。如果只有 Word 失败而 Excel/TXT/CSV 正常,通常说明问题在后端 Word 生成流程,建议联系维护者排查。