学长教你论文实证(17):Winsor2 处理异常值 缩尾 VS 截尾
发布网友
发布时间:2024-10-23 17:41
我来回答
共1个回答
热心网友
时间:9分钟前
异常值处理:Winsor2 缩尾 VS 截尾
1. 异常值(离群值)
在回归分析中,如果数据中存在异常值,可能会对回归结果产生重大影响,甚至扭曲真实结果。简单来说,在计算平均分数时,可能会去掉最高分和最低分;在计算一群人的平均身高时,会去掉超级高的人。
在回归中,几个异常值往往可能导致结果不真实,因此,在连续变量回归之前,有必要先检查异常值,多数实证文章在回归之前,会先将连续变量进行缩尾或截尾处理。
本文介绍一个很好用的外部命令——winsor2
2. winsor2
2.1 winsor2 的简介
winsor2 是由连玉君老师编写的 Stata 外部命令,能够非常方便地对连续变量进行缩尾或截尾处理。
2.2 winsor2 的使用
安装缩尾命令winsor2,样本数据足够多时为了剔除一些极端值对研究的影响,一般会对连续变量进行缩尾处理(Winsor2)。通常在1%和99%分位做极端值处理,winsor2默认的是双侧缩尾。
01缩尾
实际运用到数据分析上,对price-gear_ratio等变量进行上下1%缩尾处理,直接替换,不产生新变量。代码如下,若如下图显示,则缩尾成功
若结果如下图显示,则缩尾成功
其中,winsor2 后面跟着的是要缩尾的变量,cut(1 99) 表示将 wage 变量最小和最大的 1% 的值进行缩尾处理。所谓缩尾,就是将小于1% 的值统一替换成 1% 的值,大于99% 的值统一替换成 99% 的值。 默认情况下,winsor2 在缩尾后自动在旧变量名后加上 **"_w"**,即生成缩尾后的新变量 wage_w。如果希望缩尾后直接替换掉旧变量,而不生成新变量,则加上 replace:
02截尾
这样一来,就是所有位于 wage 最低1% 和最高 99% 的观测值都被直接删除。但是,我们发现,wage 主要是右偏,因此我们可以对极大值进行截尾,而极小值则不截尾。截尾之后,默认生成新变量 wage_tr。
03缩尾 vs 截尾
右侧截尾是把右侧最高的1% 的值直接截掉,而缩尾则是把这些值替换成99% 分位数的值,因而在最右端多出了一个较长的柱体。
04联系学长
最近陆陆续续的有不少小伙伴过来咨询学长论文降重的相关事宜,在这里学长统一说一下。
1、学长降重不提前收任何押金,查重过了再付款
2、收费一定是良心价,但是不与用机器降重的人比价格,相同收费下敢保证降重质量最高,学弟学妹们可任意去对比,学长不靠花里胡哨的推广,只靠口口相传的降重质量保障。
3、预定可优惠,团报可优惠,具体咨询学长哈~
4、学长不只做降重一项业务哦,格式排版、开题报告、答辩PPT等,学长这里一站搞定