Skip to content

变量操作教程

数据处理

把改名、变量说明、类型转换和删除变量拆开讲清楚,避免在同一张表里越改越乱。

常用 Stata 命令rename / label variable / destring / tostring / encode / drop
在 STATAU 中打开此功能
变量改名变量说明类型转换删除变量数据整理

这个页面解决什么问题

变量操作模块最适合放在数据导入之后、正式清洗之前使用。你可以把它理解成“先把字段整理成自己能读懂的样子”:列名改清楚、补变量说明、统一类型、删掉根本不会进入分析的冗余列。这样后面做缺失值、回归和导出时都更稳。

适用数据与前提

开始前先想清楚四件事:哪些列名需要改成论文里能直接认出的名字;哪些变量需要补中文或学术说明;哪些看起来像数字其实被读成了字符串;哪些列只是导入残留、后面不会再用。

STATAU 页面中每个位置应该放什么变量

网站位置应放入的变量说明
变量改名旧变量名 -> 新变量名适合把 `x1`、`var_01` 改成你自己能立刻认出的字段名。
变量说明变量标签 / 学术含义用于记录变量定义、口径来源和后续论文写作提示。
变量类型转换numeric / integer / string / category / datetime / bool把导错的字段类型纠正回来,避免后续回归时报错。
删除变量确认不再需要的列删除后仍会生成新版本,可通过历史或撤销回退。

Stata 等效代码

rename old_name new_name
label variable x "变量含义"
destring x, replace
tostring code, replace
encode industry, gen(industry_id)
drop redundant_var
Stata 代码位置STATAU 网站对应位置应放入什么
rename old_name new_name变量改名对应逐个或批量保存新的字段名。
label variable x "..."变量说明对应给变量补中文含义、口径来源或研究备注。
destring / tostring / encode变量类型转换对应把字符串转数值、把代码转文本或把分类文本编码。
drop redundant_var删除变量对应删除导入残留列、重复列或不会再使用的中间列。
可删除代码段提示
  • 如果当前只想整理命名,不需要同时做类型转换和删除变量;这两组操作可以整段跳过。
  • 如果某列只是暂时不进入回归,先不要急着删除,优先补说明或改名,避免把后面可能要用的字段误删。

在 STATAU 中操作步骤

  1. 先从变量改名开始,把一眼看不懂的字段名改成自己能直接识别的名字。
  2. 再给关键变量补说明,至少把因变量、核心解释变量、处理组变量和时间变量写清楚。
  3. 发现数值列被读成字符串时,再进入类型转换,不要一上来对整张表盲目批量转型。
  4. 最后再删除确认无用的列,并回头看历史面板确认这次整理后的版本就是你后面要继续用的版本。

结果怎么看

  • 改名完成后,后续分析页和导出表里会直接使用新变量名,阅读成本会明显下降。
  • 变量说明补齐后,最直接的收益不是“好看”,而是你后面再回头看这张表时不会忘记变量口径。
  • 类型转换成功后,系统会提示失败数量;如果失败很多,通常说明原始数据里混入了非数字字符或日期格式不统一。
论文表述示例
  • 变量说明建议写到“自己三周后再回来还能立刻看懂”的程度,而不是只写一个模糊缩写。

常见使用误区

  • 把企业代码、地区代码这类标识列误转成数值,可能会丢失前导 0,后续匹配和合并都会出问题。
  • 批量改名时如果只追求短,后面写论文或回头排查时反而更难看懂。
  • 删除变量前先确认它是不是某个中间步骤暂时不用,而不是永远不用。

相关页面