外观
频数统计教程
快速查看分类变量各取值的样本数、占比和累计比例。
常用 Stata 命令
tab category, missing 在 STATAU 中打开此功能
频数统计tabulate分类变量分布
这个页面解决什么问题
频数统计最适合先看分类变量分布是否合理,比如地区分布、行业分布、问卷选项分布,或者某个 0/1 变量是否严重失衡。它是发现编码错误和极端不平衡样本的最快办法之一。
适用数据与前提
至少准备一个分类变量。若变量取值很多,建议先确认编码标签是否统一。
STATAU 页面中每个位置应该放什么变量
| 网站位置 | 应放入的变量 | 说明 |
|---|---|---|
| 分析变量 | 分类变量 | 例如行业、地区、是否处理组、问卷选项。 |
| 输出选项 | 频数 / 百分比 / 累计百分比 | 决定表格中显示哪些统计量。 |
Stata 等效代码
tab [分类变量], missing| Stata 代码位置 | STATAU 网站对应位置 | 应放入什么 |
|---|---|---|
[分类变量] | 分析变量 | 要查看取值分布的分类字段。 |
missing | 输出选项 | 用于决定是否把缺失值单独作为一类展示出来。 |
在 STATAU 中操作步骤
- 先勾选要查看的分类变量。
- 根据需要决定是否显示累计百分比。
- 生成后优先检查是否出现异常编码、极低频值或异常集中。
结果怎么看
- 先看每个取值对应的样本数和占比是否符合常识。
- 如果某个类别占比极低,后续分组回归或交互项估计可能会不稳定。
论文表述示例
- 可以写成:“频数统计结果显示,样本主要集中在若干核心类别,极低频类别占比较小。”
常见使用误区
- 把本应是数值型连续变量的字段拿来做频数统计,通常会得到过长且难读的表。
- 同一含义被编码成多个写法时,频数统计会第一时间把问题暴露出来。