外观
描述性统计教程
说明均值、标准差、最小值、最大值、中位数和样本量的勾选逻辑与结果解读方式。
常用 Stata 命令
summarize x1 x2 x3, detail 在 STATAU 中打开此功能
描述性统计summarize detail
这个页面解决什么问题
描述性统计通常是任何实证分析的第一张表。你需要先确认核心变量的中心位置、离散程度、极值和样本量,再决定是否需要做缩尾、对数转换或进一步的数据清洗。
适用数据与前提
适合数值型变量。第一次出表时建议至少勾选均值、标准差、最小值、最大值和样本量;如果你要写论文表 1,再加中位数会更完整。
STATAU 页面中每个位置应该放什么变量
| 网站位置 | 应放入的变量 | 说明 |
|---|---|---|
| 分析变量 | 要做描述性统计的变量列表 | 可同时勾选多个变量。 |
| 统计量勾选区 | Mean / Std.Dev / Min / Max / Median / N | 决定输出哪些描述性指标。 |
| 表格标题 | 描述性统计 | 可按论文或项目需要自定义。 |
Stata 等效代码
summarize [变量列表], detail| Stata 代码位置 | STATAU 网站对应位置 | 应放入什么 |
|---|---|---|
[变量列表] | 分析变量 | 需要进入描述性统计表的全部变量。 |
detail | 统计量勾选区 | 相当于选择更完整的统计量输出。 |
在 STATAU 中操作步骤
- 勾选要进入描述性统计的变量。
- 根据用途勾选统计量,论文表通常至少保留 Mean、Std.Dev、Min、Max 和 N。
- 设置小数位和表格标题后,生成结果表。
- 如果发现极值异常,再回到数据处理页做异常值或对数处理。
结果怎么看
- 均值和中位数差距很大时,通常提示分布偏态或极端值影响较强。
- 标准差很大时,要进一步判断是否需要标准化、缩尾或分组比较。
- 样本量 N 的变化往往能提前暴露缺失值问题。
论文表述示例
- 可以写成:“表 1 报告了主要变量的描述性统计特征,包括均值、标准差、最小值和最大值。”
常见使用误区
- 把分类变量直接放进描述性统计时,均值不一定有清晰经济含义。
- 只盯均值不看最小值和最大值,容易漏掉录入错误或极端值问题。