Skip to content

STATAU 文档站

Main Navigation 首页

数据处理总览

导入与合并

缺失值处理

重复值处理

滞后项生成

差分项生成

标准化与中心化

时间序列模型

内生性与因果判断

双重差分 (DID)

外观

Sidebar Navigation

数据导入

数据处理总览

数据导入与合并教程

上传数据教程

变量整理

变量操作教程

样本处理

缺失值处理教程

重复值处理教程

异常值处理教程

条件筛选教程

随机抽样教程

变量生成

变量生成教程

滞后项生成教程

差分项生成教程

标准化与中心化教程

综合指标

熵值法教程

PCA 教程

因子分析教程

本页目录

准备数据

数据处理页不是一堆分散的小工具，而是一条完整工作流：先把数据导进来，再清理样本，最后构造能进模型的变量。下面按这条路径给你排好入口。

先把数据建立好

数据处理总览

先看清整个工作台的逻辑、版本历史和同步到分析的方式。

导入与合并

从本地文件、数据库或粘贴文本建立当前数据，再按键合并第二份表。

变量操作

先整理变量名、变量说明和类型，再进入样本清洗和建模。

再清理样本

缺失值处理

决定缺失值是删、填还是加缺失标记。

重复值处理

先定义观测单位，再判断哪些记录才是真的重复。

异常值处理

用 IQR、Z 分数或分位点规则识别极端值。

条件筛选

按研究口径保留样本，并清楚记录筛选逻辑。

随机抽样

抽测试样本、分层样本或人工核验样本。

最后生成变量和指标

变量生成

对数、交互项、虚拟变量、滞后项和差分项都从这里进。

滞后项生成

沿着个体和时间顺序生成上一期或前几期变量。

差分项生成

把水平值改写成增量变化，常用于时间序列和面板数据。

标准化与中心化

统一量纲，方便交互项、综合指标或变量比较。

根据指标离散程度生成综合得分。

PCA

用主成分方法把多指标压缩成少数综合维度。

因子分析

适合处理潜在结构明显、需要解释公共因子的指标组。

最近更新:

Pager

下一篇数据处理总览