Skip to content

数据处理总览

数据处理

先看 STATAU 数据处理工作台的完整链路:导入、清洗、变量生成、综合指标、历史版本和同步分析。

在 STATAU 中打开此功能
数据处理总览数据清洗版本历史同步到分析

这个页面解决什么问题

STATAU 的数据处理页不是单个工具集合,而是一条完整的工作流:先建立当前数据,再围绕这份“当前版本”执行缺失值处理、变量生成、综合指标、抽样、筛选和撤销重做,最后一键同步到分析页。

适用数据与前提

如果你准备处理面板数据,最好提前识别个体变量和时间变量;如果你要做综合指标,先确认指标方向和缺失值策略。整个页面的所有操作都会写入历史版本。

STATAU 页面中每个位置应该放什么变量

网站位置应放入的变量说明
导入与合并当前数据 + 第二份数据建立当前版本,或在其基础上追加 / 绑定 / 按键合并。
变量操作变量名、说明、类型、删除动作先整理变量口径,再进入样本处理和建模更稳。
样本处理缺失值、重复值、异常值、筛选、抽样参数会直接改变样本量,建议每做一步都看行数变化。
变量生成 / 综合指标新变量或得分列生成后会直接写回当前版本,可继续同步到分析页。

在 STATAU 中操作步骤

  1. 先导入当前数据,确认顶部状态栏的来源、行数和版本号。
  2. 按“变量操作 → 样本处理 → 变量生成 → 综合指标”的顺序逐步整理。
  3. 每完成一步都查看历史记录,确认当前版本是你想保留的状态。
  4. 确定处理完成后,再点击“同步到分析”进入回归、DID 或时间序列模块。

结果怎么看

  • 顶部状态栏反映当前版本,而不是原始数据;这里的版本号会随着每次成功处理递增。
  • 历史面板记录了从哪个版本到哪个版本、做了什么操作,以及关键结果摘要。
  • 如果某一步效果不好,优先用“撤销”或“切换到该版本”,而不是重复上传原始数据。

常见使用误区

  • 没有导入当前数据就直接做第二份数据合并,通常会得到空操作或报错。
  • 涉及删行的处理最好在历史面板里留痕后再继续,否则很难追溯哪一步改了样本量。
  • 变量生成页会把新列写回当前版本,建议统一命名规则,避免后续分析页出现重复含义变量。

相关页面