外观
很多分析做不稳,并不是因为模型不会选,而是因为上模型前没先把数据分布、组间差异和变量关系看清楚。你可以把这一组教程理解成“正式建模前的体检”。
先看均值、标准差、极值和样本量,确认变量分布基本正常。
比较处理组与对照组、地区或行业之间的基础差异。
快速发现分类变量编码异常、类别失衡或极低频值。
先看变量方向关系是否符合直觉,再决定后续模型设定。
检查解释变量之间是否存在明显的多重共线性。
比较两组样本的均值差异,适合做最基础的组间比较。
判断两个分类变量之间是否存在统计关联。
比较三组及以上样本的整体均值差异。