STATAU 使用手册

这份手册覆盖当前版本的主要工作流:登录注册、数据上传、数据库使用、基础分析、回归模型、模型检验、 时间序列、因果识别、DID 诊断,以及 Word / Excel / TXT / CSV 导出。

快速开始

STATAU 当前将“分析工作台”和“数据库”分成两条工作流:数据分析页用于上传数据并估计模型, 数据库页用于检索、筛选和下载平台内置数据。帮助页与数据库页可公开浏览,数据分析页当前需要登录后使用。

访问权限

当前版本中,/analysis 分析工作台需要先登录;/help/database 可直接访问。

四步完成一次分析

1
登录或注册

支持用户名/邮箱 + 密码登录,也支持邮箱验证码登录。注册时需要邮箱验证码完成校验。

2
上传并预览数据

进入数据分析页后上传 .csv.xlsx.xls.dta 文件,随后可点击“预览数据”检查列名与样本。

3
选择模块与变量

在左侧栏切换分析模块,在右侧面板选择因变量、自变量、控制变量,以及标准误、固定效应、导出统计量等参数。

4
查看结果并导出

执行后可直接查看论文风格结果表,也可以查看原始输出、重新配置,或导出为 Word、Excel、TXT、CSV。

“开始新分析”和“追加到当前表”怎么选
  • 需要重新开始一张新表时,用“开始新分析”。
  • 要做稳健性、替换变量、对比多个模型列时,用“追加到当前表”。
  • 上传新文件会重置当前文件状态和结果缓存,建议先导出已有结果再换文件。

数据与数据库

支持的文件格式

格式 扩展名 说明
CSV .csv 最通用的结构化文本格式,建议优先使用 UTF-8 编码。
Excel .xlsx, .xls 适合已有表格数据,避免合并单元格和复杂样式。
Stata .dta 适合直接沿用已有 Stata 数据文件。

数据准备建议

  • 保持标准二维表结构:一行一条观测,一列一个变量。
  • 第一行应为变量名,建议尽量使用稳定、简洁的英文变量名。
  • 时间变量尽量统一为年、季度、月度、日期等可排序形式。
  • 缺失值可留空或使用标准缺失标记,避免自行填入说明性文本。
  • 如果后续要做面板、DID 或时间序列,请提前确认实体 ID、时间 ID、政策变量等列已准备好。

不同模块常见的必备变量

场景 建议至少准备 说明
面板回归 个体 ID、时间 ID 固定效应、随机效应、混合效应、F 检验、Hausman 检验都会用到。
Logit / Probit 0/1 因变量 若再叠加固定效应,计算量会显著上升。
2SLS / GMM 内生变量、工具变量 建议提前理清排除限制和识别设定。
Heckman 两阶段 结果方程变量、选择变量 选择变量应为 0/1,表示因变量是否可观察。
DID 诊断 treat、时间变量、policy_year 或 DID 信号 时间安慰剂还需要 post 变量;自动识别政策时点时还需要个体 ID。
时间序列 时间变量、分析变量 VAR、协整、VECM、FEVD 等通常需要至少两个分析变量。

数据库页能做什么

检索与分类浏览

可按企业、地区、省份、国家、宏观经济、行业等分类筛选,也可直接搜索数据表名称、代码或描述。

变量级选择

打开数据表详情后,可以只勾选需要的变量列,并保留固定标识变量。

时间范围筛选

登录后下载时可按起止日期筛选样本,并选择压缩包内导出格式。

下载说明打包

数据库下载结果为 ZIP,除数据文件外还会附带 数据说明.txt

数据库页与分析页的区别

数据库页用于“找数、筛列、下载”;分析页用于“上传数据、设定模型、输出结果表”。两者是配套关系,不是同一页面。

基础分析与回归

基础分析模块

描述性统计

输出均值、标准差、最小值、最大值等基本统计量。

分组描述性统计

按分组变量分层展示描述统计结果。

频数统计

适合分类变量分布、占比与累计占比查看。

相关性分析

生成相关系数矩阵并展示显著性信息。

VIF 共线性检验

输出各变量 VIF 与 Mean VIF,用于排查多重共线性。

T 检验

支持单样本、独立样本和配对样本的均值检验。

卡方检验

用于独立性检验或拟合优度检验。

方差分析

支持单因素和双因素 ANOVA。

回归模型

模型 适用场景 当前要点
线性 OLS 连续型因变量 支持普通、稳健、聚类标准误和常见统计量导出。
固定效应 FE 面板数据 需要个体 ID、时间 ID,可勾选固定效应维度。
随机效应 RE 面板数据 常与 Hausman 检验配合做模型选择。
混合效应 / Pooled 面板基准模型 常作为 FE 的对照模型,并配合 F 检验使用。
Logit 二元因变量 支持固定效应与边际效应,适合违约、购买、进入等 0/1 场景。
Probit 二元因变量 功能与 Logit 对应,分布假设不同。

回归模块的当前功能点

  • 标准误支持 IIDRobustCluster 三种方式。
  • Logit / Probit 支持边际效应计算,可选 AME、MEM 或中位数处边际效应。
  • 边际效应结果可合并到主表,也可单独输出为独立结果表。
  • 支持自定义表格底行,例如 Industry FE: YesProvince FE: Yes
  • 支持选择导出统计量,如 Adj-R²Pseudo-R²AICBICLog Likelihood
固定效应 Logit / Probit 提示

如果固定效应维度非常多,离散选择模型会比 OLS / FE 慢得多。样本很大时,建议先用较小样本调试设定,再正式运行。

模型检验模块

检验 用途 补充说明
Breusch-Pagan 异方差检验 适合在线性模型后诊断异方差问题。
White 异方差检验 对异方差形式要求更弱。
Durbin-Watson 序列相关检验 常用于时间序列或按时间排序的数据残差诊断。
F 检验 FE vs Pooled 判断固定效应模型是否优于混合 OLS。
Hausman FE vs RE 支持 sigmamore 选项,便于处理协方差矩阵不正定问题。

高级模块

时间序列分析

平稳性检验

ADF 必选,PP 可选;支持按不同回归型式输出,非平稳时可自动差分后重新检验。

VAR

支持信息准则选阶、趋势项选择和差分阶数设定。

Granger 因果

自动对所选变量对进行双向因果检验。

协整检验

支持 Johansen、Engle-Granger 或两种方法同时执行。

VECM

适合存在协整关系时进一步估计短期调整与长期均衡机制。

AR 特征根检验

输出稳定性图与结果表,相关图像可以随 Word 一并导出。

方差分解 FEVD

基于 VAR 的预测误差方差分解,冲击变量顺序可拖拽调整。

推荐顺序

一般先做平稳性检验,再决定是否差分;之后再进入 VAR、Granger、协整、VECM 或 FEVD。

内生性与因果判断

方法 适用情形 当前支持
2SLS 工具变量法 存在明确排除型工具变量 支持内生变量、工具变量、固定效应变量、聚类标准误与结果统计量导出。
IV-GMM 希望使用更一般矩条件 支持迭代次数设置,并随标准误类型自动匹配权重矩阵风格。
Heckman 两阶段 样本选择偏误 支持结果方程、选择方程和只进入选择方程的排除变量设定。

因果识别模块当前可以在结果表中输出 Weak-IV FEndogeneity pOver-ID pSelected NIMR p 等诊断指标。

DID 诊断模块

DID 模块主要承担平行趋势、安慰剂与 PSM 匹配诊断。真正的基准 DID / TWFE 回归, 仍建议优先在固定效应回归模块中完成。

方法 用途 当前版本特点
单时点组间趋势 统一政策时点的趋势对比 只画处理组/对照组水平趋势,不估计事件研究系数。
多时点事件研究 分批政策与动态效应 可手动设事件期区间、参考期、置信区间,并自行选择吸收哪些固定效应维度。
安慰剂检验 稳健性诊断 支持时间安慰剂和随机处理组安慰剂;随机安慰剂带真实进度条。
PSM-DID 匹配预处理与平衡诊断 支持最近邻、半径、核、卡尺匹配,以及共同支撑、有放回、匹配比例等选项。
政策时点设置逻辑
  • 若所有处理组共享同一政策期,可直接手动填写固定政策时点。
  • 若数据中已有 policy_year 变量,优先直接选择它。
  • 只有在没有 policy_year 时,才建议使用 DID 信号变量自动识别政策时点;此时个体 ID 为必填。
安慰剂与匹配的当前行为
  • 时间安慰剂需要显式选择 post 变量。
  • 随机处理组安慰剂会显示已完成次数、成功次数与跳过次数,不再只是按钮转圈。
  • 安慰剂回归的固定效应维度需要你自行勾选,不再默认绑定“个体 + 时间”双固定效应。
  • PSM-DID 中核匹配支持核函数与带宽设置;最近邻/卡尺/半径匹配支持比例与 caliper 控制。
DID 变量填法提醒

如果你已经有真正的处理组变量 treat,不要把 didpost 误填到 treat 位置。多时点事件研究中,这会影响政策时点识别与事件期展示。

导出与结果管理

当前版本支持按模块导出结果。导出按钮只会针对当前激活模块显示,且只导出当前模块中的结果表与相关图像。

支持的导出格式

格式 扩展名 当前行为
Word .docx 走后端原生 Word 生成流程,适合论文表格;部分分析图像会一并导出。
Excel .xlsx 适合二次整理、继续计算或发给合作者核对。
TXT .txt 适合保留纯文本版本或快速分享。
CSV .csv 适合与其他软件交换结果或自行再处理。

导出流程

  1. 先运行当前模块,确保结果区已经显示。
  2. 在当前模块结果区上方点击对应导出按钮。
  3. 若为 Word 导出,系统会把当前模块的表格 HTML 和相关图像发送到后端生成原生 .docx
  4. 导出文件会自动下载到浏览器默认下载目录。

当前版本的导出特点

  • Word 导出不再依赖旧版前端 HTML 转 Word 方案,而是走后端原生 .docx 生成。
  • 像 AR 特征根图、DID 图形等分析生成的图片,可随 Word 一并导出。
  • 导出文件名仍采用“表格标题 + 时间戳”的规则。
  • 如果你在多个模块里连续使用“追加到当前表”,建议确认当前激活模块后再导出,避免误导出别的模块结果。
Word 导出现在是什么模式

当前 Word 导出是“前端收集 + 后端原生生成”的混合方案,不再是旧手册里写的“纯前端实现”。如果你在升级后仍按旧描述理解导出逻辑,容易误判问题位置。

建议做法

做完一组主要结果后先导出一版;随后再做稳健性、异质性或替换模型时使用“追加到当前表”,这样更适合最后整理成论文表格。

常见问题

账户与访问

Q: 为什么我能打开帮助页和数据库页,却进不去分析页?

A: 这是当前版本的权限设计。分析工作台需要先登录,帮助页和数据库页可公开访问。

Q: 忘记密码怎么办?

A: 可优先尝试邮箱验证码登录;如果仍需重置密码,当前版本没有开放自助找回流程,请联系站点管理员或项目维护者。

数据与估计

Q: 为什么结果和 Stata 不是完全一样?

A: 最常见的原因是标准误类型、样本筛选、缺失值处理、固定效应设定或工具变量设定不一致。请先逐项对齐这些条件再比较系数与显著性。

Q: Hausman 检验提示协方差矩阵不正定,怎么办?

A: 勾选 sigmamore 选项后重新运行。当前版本已在 Hausman 模块中保留该选项,便于得到更接近 Stata 的结果。

Q: 随机处理组安慰剂为什么跑得比较久?

A: 该方法本质上要重复执行大量回归。当前版本已经加入真实进度条,会显示完成次数、成功次数和跳过次数,请根据样本量和重复次数预留时间。

Q: 做 DID 时应该优先填 policy_year 还是 DID 信号变量?

A: 如果你已有真实政策年份或政策期变量,优先使用 policy_year。只有没有该变量时,才建议让系统通过 DID 信号变量自动识别政策时点。

导出相关

Q: 为什么导出按钮没有出现?

A: 导出按钮只会在当前模块已有结果时显示;如果你切换了模块或尚未生成结果,按钮不会出现。

Q: Word 导出失败或文件打不开怎么办?

A: 先确认当前模块结果已经正常显示,再重新导出一次。如果只有 Word 失败而 Excel/TXT/CSV 正常,通常说明问题在后端 Word 生成流程,建议联系维护者排查。