Skip to content

频数统计教程

基础统计

快速查看分类变量各取值的样本数、占比和累计比例。

常用 Stata 命令tab category, missing
在 STATAU 中打开此功能
频数统计tabulate分类变量分布

这个页面解决什么问题

频数统计最适合先看分类变量分布是否合理,比如地区分布、行业分布、问卷选项分布,或者某个 0/1 变量是否严重失衡。它是发现编码错误和极端不平衡样本的最快办法之一。

适用数据与前提

至少准备一个分类变量。若变量取值很多,建议先确认编码标签是否统一。

STATAU 页面中每个位置应该放什么变量

网站位置应放入的变量说明
分析变量分类变量例如行业、地区、是否处理组、问卷选项。
输出选项频数 / 百分比 / 累计百分比决定表格中显示哪些统计量。

Stata 等效代码

tab [分类变量], missing
Stata 代码位置STATAU 网站对应位置应放入什么
[分类变量]分析变量要查看取值分布的分类字段。
missing输出选项用于决定是否把缺失值单独作为一类展示出来。

在 STATAU 中操作步骤

  1. 先勾选要查看的分类变量。
  2. 根据需要决定是否显示累计百分比。
  3. 生成后优先检查是否出现异常编码、极低频值或异常集中。

结果怎么看

  • 先看每个取值对应的样本数和占比是否符合常识。
  • 如果某个类别占比极低,后续分组回归或交互项估计可能会不稳定。
论文表述示例
  • 可以写成:“频数统计结果显示,样本主要集中在若干核心类别,极低频类别占比较小。”

常见使用误区

  • 把本应是数值型连续变量的字段拿来做频数统计,通常会得到过长且难读的表。
  • 同一含义被编码成多个写法时,频数统计会第一时间把问题暴露出来。

相关页面