STATAU 使用手册

格式	扩展名	说明
CSV	`.csv`	最通用的结构化文本格式，建议优先使用 UTF-8 编码。
Excel	`.xlsx`, `.xls`	适合已有表格数据，避免合并单元格和复杂样式。
Stata	`.dta`	适合直接沿用已有 Stata 数据文件。

数据准备建议

保持标准二维表结构：一行一条观测，一列一个变量。
第一行应为变量名，建议尽量使用稳定、简洁的英文变量名。
时间变量尽量统一为年、季度、月度、日期等可排序形式。
缺失值可留空或使用标准缺失标记，避免自行填入说明性文本。
如果后续要做面板、DID 或时间序列，请提前确认实体 ID、时间 ID、政策变量等列已准备好。

不同模块常见的必备变量

场景	建议至少准备	说明
面板回归	个体 ID、时间 ID	固定效应、随机效应、混合效应、F 检验、Hausman 检验都会用到。
Logit / Probit	0/1 因变量	若再叠加固定效应，计算量会显著上升。
2SLS / GMM	内生变量、工具变量	建议提前理清排除限制和识别设定。
Heckman 两阶段	结果方程变量、选择变量	选择变量应为 0/1，表示因变量是否可观察。
DID 诊断	treat、时间变量、policy_year 或 DID 信号	时间安慰剂还需要 post 变量；自动识别政策时点时还需要个体 ID。
时间序列	时间变量、分析变量	VAR、协整、VECM、FEVD 等通常需要至少两个分析变量。

数据库页能做什么

检索与分类浏览

可按企业、地区、省份、国家、宏观经济、行业等分类筛选，也可直接搜索数据表名称、代码或描述。

变量级选择

打开数据表详情后，可以只勾选需要的变量列，并保留固定标识变量。

时间范围筛选

登录后下载时可按起止日期筛选样本，并选择压缩包内导出格式。

下载说明打包

数据库下载结果为 ZIP，除数据文件外还会附带 数据说明.txt。

数据库页与分析页的区别

数据库页用于“找数、筛列、下载”；分析页用于“上传数据、设定模型、输出结果表”。两者是配套关系，不是同一页面。

基础分析与回归

基础分析模块

描述性统计

输出均值、标准差、最小值、最大值等基本统计量。

分组描述性统计

按分组变量分层展示描述统计结果。

频数统计

适合分类变量分布、占比与累计占比查看。

VIF 共线性检验

输出各变量 VIF 与 Mean VIF，用于排查多重共线性。

T 检验

支持单样本、独立样本和配对样本的均值检验。

卡方检验

用于独立性检验或拟合优度检验。

方差分析

支持单因素和双因素 ANOVA。

回归模型

模型	适用场景	当前要点
线性 OLS	连续型因变量	支持普通、稳健、聚类标准误和常见统计量导出。
固定效应 FE	面板数据	需要个体 ID、时间 ID，可勾选固定效应维度。
随机效应 RE	面板数据	常与 Hausman 检验配合做模型选择。
混合效应 / Pooled	面板基准模型	常作为 FE 的对照模型，并配合 F 检验使用。
Logit	二元因变量	支持固定效应与边际效应，适合违约、购买、进入等 0/1 场景。
Probit	二元因变量	功能与 Logit 对应，分布假设不同。

回归模块的当前功能点

标准误支持 IID、Robust、Cluster 三种方式。
Logit / Probit 支持边际效应计算，可选 AME、MEM 或中位数处边际效应。
边际效应结果可合并到主表，也可单独输出为独立结果表。
支持自定义表格底行，例如 Industry FE: Yes、Province FE: Yes。
支持选择导出统计量，如 R²、Adj-R²、Pseudo-R²、AIC、BIC、Log Likelihood。

固定效应 Logit / Probit 提示

如果固定效应维度非常多，离散选择模型会比 OLS / FE 慢得多。样本很大时，建议先用较小样本调试设定，再正式运行。

模型检验模块

检验	用途	补充说明
Breusch-Pagan	异方差检验	适合在线性模型后诊断异方差问题。
White	异方差检验	对异方差形式要求更弱。
Durbin-Watson	序列相关检验	常用于时间序列或按时间排序的数据残差诊断。
F 检验	FE vs Pooled	判断固定效应模型是否优于混合 OLS。
Hausman	FE vs RE	支持 `sigmamore` 选项，便于处理协方差矩阵不正定问题。

高级模块

时间序列分析

平稳性检验

ADF 必选，PP 可选；支持按不同回归型式输出，非平稳时可自动差分后重新检验。

VAR

支持信息准则选阶、趋势项选择和差分阶数设定。

Granger 因果

自动对所选变量对进行双向因果检验。

协整检验

支持 Johansen、Engle-Granger 或两种方法同时执行。

VECM

适合存在协整关系时进一步估计短期调整与长期均衡机制。

AR 特征根检验

输出稳定性图与结果表，相关图像可以随 Word 一并导出。

方差分解 FEVD

基于 VAR 的预测误差方差分解，冲击变量顺序可拖拽调整。

推荐顺序

一般先做平稳性检验，再决定是否差分；之后再进入 VAR、Granger、协整、VECM 或 FEVD。

内生性与因果判断

方法	适用情形	当前支持
2SLS 工具变量法	存在明确排除型工具变量	支持内生变量、工具变量、固定效应变量、聚类标准误与结果统计量导出。
IV-GMM	希望使用更一般矩条件	支持迭代次数设置，并随标准误类型自动匹配权重矩阵风格。
Heckman 两阶段	样本选择偏误	支持结果方程、选择方程和只进入选择方程的排除变量设定。

因果识别模块当前可以在结果表中输出 Weak-IV F、Endogeneity p、 Over-ID p、Selected N、IMR p 等诊断指标。

DID 诊断模块

DID 模块主要承担平行趋势、安慰剂与 PSM 匹配诊断。真正的基准 DID / TWFE 回归，仍建议优先在固定效应回归模块中完成。

方法	用途	当前版本特点
单时点组间趋势	统一政策时点的趋势对比	只画处理组/对照组水平趋势，不估计事件研究系数。
多时点事件研究	分批政策与动态效应	可手动设事件期区间、参考期、置信区间，并自行选择吸收哪些固定效应维度。
安慰剂检验	稳健性诊断	支持时间安慰剂和随机处理组安慰剂；随机安慰剂带真实进度条。
PSM-DID	匹配预处理与平衡诊断	支持最近邻、半径、核、卡尺匹配，以及共同支撑、有放回、匹配比例等选项。

政策时点设置逻辑

若所有处理组共享同一政策期，可直接手动填写固定政策时点。
若数据中已有 policy_year 变量，优先直接选择它。
只有在没有 policy_year 时，才建议使用 DID 信号变量自动识别政策时点；此时个体 ID 为必填。

安慰剂与匹配的当前行为

时间安慰剂需要显式选择 post 变量。
随机处理组安慰剂会显示已完成次数、成功次数与跳过次数，不再只是按钮转圈。
安慰剂回归的固定效应维度需要你自行勾选，不再默认绑定“个体 + 时间”双固定效应。
PSM-DID 中核匹配支持核函数与带宽设置；最近邻/卡尺/半径匹配支持比例与 caliper 控制。

DID 变量填法提醒

如果你已经有真正的处理组变量 treat，不要把 did 或 post 误填到 treat 位置。多时点事件研究中，这会影响政策时点识别与事件期展示。

导出与结果管理

当前版本支持按模块导出结果。导出按钮只会针对当前激活模块显示，且只导出当前模块中的结果表与相关图像。

支持的导出格式

格式	扩展名	当前行为
Word	`.docx`	走后端原生 Word 生成流程，适合论文表格；部分分析图像会一并导出。
Excel	`.xlsx`	适合二次整理、继续计算或发给合作者核对。
TXT	`.txt`	适合保留纯文本版本或快速分享。
CSV	`.csv`	适合与其他软件交换结果或自行再处理。

导出流程

先运行当前模块，确保结果区已经显示。
在当前模块结果区上方点击对应导出按钮。
若为 Word 导出，系统会把当前模块的表格 HTML 和相关图像发送到后端生成原生 .docx。
导出文件会自动下载到浏览器默认下载目录。

当前版本的导出特点

Word 导出不再依赖旧版前端 HTML 转 Word 方案，而是走后端原生 .docx 生成。
像 AR 特征根图、DID 图形等分析生成的图片，可随 Word 一并导出。
导出文件名仍采用“表格标题 + 时间戳”的规则。
如果你在多个模块里连续使用“追加到当前表”，建议确认当前激活模块后再导出，避免误导出别的模块结果。

Word 导出现在是什么模式

当前 Word 导出是“前端收集 + 后端原生生成”的混合方案，不再是旧手册里写的“纯前端实现”。如果你在升级后仍按旧描述理解导出逻辑，容易误判问题位置。

建议做法

做完一组主要结果后先导出一版；随后再做稳健性、异质性或替换模型时使用“追加到当前表”，这样更适合最后整理成论文表格。

常见问题

账户与访问

Q: 为什么我能打开帮助页和数据库页，却进不去分析页？

A: 这是当前版本的权限设计。分析工作台需要先登录，帮助页和数据库页可公开访问。

Q: 忘记密码怎么办？

A: 可优先尝试邮箱验证码登录；如果仍需重置密码，当前版本没有开放自助找回流程，请联系站点管理员或项目维护者。

数据与估计

Q: 为什么结果和 Stata 不是完全一样？

A: 最常见的原因是标准误类型、样本筛选、缺失值处理、固定效应设定或工具变量设定不一致。请先逐项对齐这些条件再比较系数与显著性。

Q: Hausman 检验提示协方差矩阵不正定，怎么办？

A: 勾选 sigmamore 选项后重新运行。当前版本已在 Hausman 模块中保留该选项，便于得到更接近 Stata 的结果。

Q: 随机处理组安慰剂为什么跑得比较久？

A: 该方法本质上要重复执行大量回归。当前版本已经加入真实进度条，会显示完成次数、成功次数和跳过次数，请根据样本量和重复次数预留时间。

Q: 做 DID 时应该优先填 policy_year 还是 DID 信号变量？

A: 如果你已有真实政策年份或政策期变量，优先使用 policy_year。只有没有该变量时，才建议让系统通过 DID 信号变量自动识别政策时点。

导出相关

Q: 为什么导出按钮没有出现？

A: 导出按钮只会在当前模块已有结果时显示；如果你切换了模块或尚未生成结果，按钮不会出现。

Q: Word 导出失败或文件打不开怎么办？

A: 先确认当前模块结果已经正常显示，再重新导出一次。如果只有 Word 失败而 Excel/TXT/CSV 正常，通常说明问题在后端 Word 生成流程，建议联系维护者排查。

STATAU 使用手册

快速开始

数据与数据库

基础分析与回归

高级模块

导出与结果管理

常见问题

延伸教程站

快速开始

四步完成一次分析

登录或注册

上传并预览数据

选择模块与变量

查看结果并导出

“开始新分析”和“追加到当前表”怎么选

数据与数据库

支持的文件格式

数据准备建议

不同模块常见的必备变量

数据库页能做什么

检索与分类浏览

变量级选择

时间范围筛选

下载说明打包

基础分析与回归

基础分析模块

描述性统计

分组描述性统计

频数统计

相关性分析

VIF 共线性检验

T 检验

卡方检验

方差分析

回归模型

回归模块的当前功能点

模型检验模块

高级模块

时间序列分析

平稳性检验

VAR

Granger 因果

协整检验

VECM

AR 特征根检验

方差分解 FEVD

内生性与因果判断

DID 诊断模块

政策时点设置逻辑

安慰剂与匹配的当前行为

导出与结果管理

支持的导出格式

导出流程

当前版本的导出特点

Word 导出现在是什么模式

常见问题

账户与访问

Q: 为什么我能打开帮助页和数据库页，却进不去分析页？

Q: 忘记密码怎么办？

数据与估计

Q: 为什么结果和 Stata 不是完全一样？

Q: Hausman 检验提示协方差矩阵不正定，怎么办？

Q: 随机处理组安慰剂为什么跑得比较久？

Q: 做 DID 时应该优先填 policy_year 还是 DID 信号变量？

导出相关

Q: 为什么导出按钮没有出现？

Q: Word 导出失败或文件打不开怎么办？