Skip to content

随机抽样教程

数据处理

做简单随机抽样或分层抽样,快速得到测试样本或对比样本。

常用 Stata 命令set seed 12345 sample 30, count
在 STATAU 中打开此功能
随机抽样sample分层抽样

这个页面解决什么问题

随机抽样常见于三类场景:先拿一小部分样本调试流程、为人工核验抽取样本,或者做分层抽样保证不同组别都有代表。它不是正式估计的替代品,但能大幅提高前期试跑效率。

适用数据与前提

先想清楚是要全样本里随机抽,还是要按行业、地区、处理组等层次分别抽。

STATAU 页面中每个位置应该放什么变量

网站位置应放入的变量说明
抽样方式简单随机 / 分层抽样决定是否按某个维度分层。
抽样比例或样本数抽多少控制最终样本规模。
随机种子 / 分层变量可复现设置需要复现时尤其重要。

Stata 等效代码

set seed [随机种子]
sample [抽样数量], count
Stata 代码位置STATAU 网站对应位置应放入什么
set seed [随机种子]随机种子对应可复现抽样设置。
sample [抽样数量], count抽样数量对应按数量抽样。
by [分层变量]: sample ...分层变量对应按行业、地区或处理组分别抽样。

在 STATAU 中操作步骤

  1. 先决定抽样方式和样本规模。
  2. 若做分层抽样,再指定分层变量。
  3. 生成后检查各层样本是否符合预期。

结果怎么看

  • 固定随机种子后,更容易复现同一批抽样结果。
  • 分层抽样更适合在多组别都需要代表性的场景。
论文表述示例
  • 如果抽样只是为了调试流程,记得在正式估计前切回全样本,不要把测试样本误当最终样本。

常见使用误区

  • 样本量很小时再强行分层,容易导致某些层几乎抽不到观测。
  • 分层变量口径本身如果有问题,抽样结构也会跟着失真。

相关页面