Skip to content

描述性统计教程

基础统计

说明均值、标准差、最小值、最大值、中位数和样本量的勾选逻辑与结果解读方式。

常用 Stata 命令summarize x1 x2 x3, detail
在 STATAU 中打开此功能
描述性统计summarize detail

这个页面解决什么问题

描述性统计通常是任何实证分析的第一张表。你需要先确认核心变量的中心位置、离散程度、极值和样本量,再决定是否需要做缩尾、对数转换或进一步的数据清洗。

适用数据与前提

适合数值型变量。第一次出表时建议至少勾选均值、标准差、最小值、最大值和样本量;如果你要写论文表 1,再加中位数会更完整。

STATAU 页面中每个位置应该放什么变量

网站位置应放入的变量说明
分析变量要做描述性统计的变量列表可同时勾选多个变量。
统计量勾选区Mean / Std.Dev / Min / Max / Median / N决定输出哪些描述性指标。
表格标题描述性统计可按论文或项目需要自定义。

Stata 等效代码

summarize [变量列表], detail
Stata 代码位置STATAU 网站对应位置应放入什么
[变量列表]分析变量需要进入描述性统计表的全部变量。
detail统计量勾选区相当于选择更完整的统计量输出。

在 STATAU 中操作步骤

  1. 勾选要进入描述性统计的变量。
  2. 根据用途勾选统计量,论文表通常至少保留 Mean、Std.Dev、Min、Max 和 N。
  3. 设置小数位和表格标题后,生成结果表。
  4. 如果发现极值异常,再回到数据处理页做异常值或对数处理。

结果怎么看

  • 均值和中位数差距很大时,通常提示分布偏态或极端值影响较强。
  • 标准差很大时,要进一步判断是否需要标准化、缩尾或分组比较。
  • 样本量 N 的变化往往能提前暴露缺失值问题。
论文表述示例
  • 可以写成:“表 1 报告了主要变量的描述性统计特征,包括均值、标准差、最小值和最大值。”

常见使用误区

  • 把分类变量直接放进描述性统计时,均值不一定有清晰经济含义。
  • 只盯均值不看最小值和最大值,容易漏掉录入错误或极端值问题。

相关页面