外观
随机抽样教程
做简单随机抽样或分层抽样,快速得到测试样本或对比样本。
常用 Stata 命令
set seed 12345
sample 30, count 在 STATAU 中打开此功能
随机抽样sample分层抽样
这个页面解决什么问题
随机抽样常见于三类场景:先拿一小部分样本调试流程、为人工核验抽取样本,或者做分层抽样保证不同组别都有代表。它不是正式估计的替代品,但能大幅提高前期试跑效率。
适用数据与前提
先想清楚是要全样本里随机抽,还是要按行业、地区、处理组等层次分别抽。
STATAU 页面中每个位置应该放什么变量
| 网站位置 | 应放入的变量 | 说明 |
|---|---|---|
| 抽样方式 | 简单随机 / 分层抽样 | 决定是否按某个维度分层。 |
| 抽样比例或样本数 | 抽多少 | 控制最终样本规模。 |
| 随机种子 / 分层变量 | 可复现设置 | 需要复现时尤其重要。 |
Stata 等效代码
set seed [随机种子]
sample [抽样数量], count| Stata 代码位置 | STATAU 网站对应位置 | 应放入什么 |
|---|---|---|
set seed [随机种子] | 随机种子 | 对应可复现抽样设置。 |
sample [抽样数量], count | 抽样数量 | 对应按数量抽样。 |
by [分层变量]: sample ... | 分层变量 | 对应按行业、地区或处理组分别抽样。 |
在 STATAU 中操作步骤
- 先决定抽样方式和样本规模。
- 若做分层抽样,再指定分层变量。
- 生成后检查各层样本是否符合预期。
结果怎么看
- 固定随机种子后,更容易复现同一批抽样结果。
- 分层抽样更适合在多组别都需要代表性的场景。
论文表述示例
- 如果抽样只是为了调试流程,记得在正式估计前切回全样本,不要把测试样本误当最终样本。
常见使用误区
- 样本量很小时再强行分层,容易导致某些层几乎抽不到观测。
- 分层变量口径本身如果有问题,抽样结构也会跟着失真。