数据分析思维课

4/13/2022 数据分析

# 数据分析思维课

数据给你一双看透本质的眼睛

郭炜 前易观 CTO

# 数据分析基础

# 01 | 平均值:不要被骗了,它不能代表整体水平

我们在日常生活中经常会遇到这种情况,看到某些统计报告里面说,“某市的人均住房面积是 120 平米”“计算机行业人均年收入超过 50 万元”。你看完这个数据之后,倒吸一口凉气,然后去微博感叹:“对不起,我又给大家拖后腿了”“对不起,我又被幸福了”。

你不必为此焦虑,我只能奉劝你,以后看到这么不专业的统计报告就别看了。来,我带你看看准确客观的平均值统计应该是怎样的。首先,你得知道平均值究竟是什么。

从概念上看,平均值有很多种。单从数学上来说,就有算术平均值、几何平均值、平方平均值、调和平均值、加权平均值等等。所以当有人和你说平均值的时候,你要留个心眼问问他,你这说的是哪个平均值呀?

当然,我们日常生活中提到的平均值都默认是“算术平均值”,也就是“一组数据中所有数据之和再除以数据的个数”。这个概念不难理解,你在小学的时候就开始学了。不过看到这里,你可以先结合我们上面的例子想想,算术平均值有什么短板吗?

我先给一道极其简单的数学题,你可以先想想。我们有 3 个数,他们分别是 0,1,20,这三个数的平均值不难算,是 (0+1+20)/3=7,那 7 这个平均值和之前的三个数是不是差距挺大呢?是不是有些不客观呢?

所以,有的时候,平均值并不能代表整体水平。

平均值在什么情况下才有价值?

那平均值到底在什么情况下才有价值呢?回答这个问题之前,我再给你讲个故事。

昨天下楼的时候,我听到小区两个大妈在讨论,“这次期末考试,班里语文的平均分是 71 分,我孙子考了 85 分,厉不厉害!”在工作中,我偶尔也会听到同事说,“我们客户的平均客单价是 1000 元钱,竞争对手的只有 500 元,我们的客户比对方的高端多了。”这些说法都对吗?还真不一定。

为了更好地解释这个问题,我先拿孩子的平均分给你举个例子。假设班级里 20 名学生的考试成绩如下图一样呈现两极分化的情况,一半孩子都在 95 分以上,还有近一半的孩子只有三四十分,我们很容易计算出这 20 名学生的成绩平均值是 71.05(图中的红色直线)。

看上去孩子的 85 分比平均分 71.05 分高了很多,但你再仔细看,这个分数在好学生里其实是最差的那个,整体上看也只是班级中游水平。

同理,看上去这个企业的平均客单价很高——平均 1000 元,但如果你的数据是由 1 个 1 万元客户和 10 个 100 元的客户构成的(总收入 11000 元 /11 人 =1000 元 / 人),对方都是 11 个客单价 500 元的客户构成的,那么其实竞争对手才是真正的高客单价企业。

你可能会觉得我在抬杠,这些例子的数据集都太极端了吧?其实我是想说明一个问题:平均值是用所有样本数据计算的,容易受到极端值的影响。在不少情况下,平均值是没有价值的,它无法客观准确地反映数据整体情况。

更进一步来说,整体平均值是在数据呈均匀分布或者正态分布的情况下才会有意义,如果忽略整个数据的分布情况,只提平均值,其实是没有意义的。这也就是为什么你会在读一些统计分析报告时觉得自己不是“被加薪了”,就是“被幸福了”。

现在你明白了吗?在一些复杂情况下,我们是很难确定人群分布情况的,此时若直接使用平均数值,是很难反映整体真实情况的。

分组结论和整体平均值不是一回事

那怎么才能反映真实情况呢?

就拿平均薪水这个例子来说,你肯定有疑问:什么人啊?咋拿到那么多钱的?你肯定想看更详细的数据,诸如具体的岗位属性、工作年限、城市等等。有了这些信息,你才能知道你和人家的薪水差距到底差在哪了。

比如一个在一线城市工作 3 年的 Java 程序员的月平均工资是 2 万元,而我的月工资是 1 万元,那我确实是低一些,这个判断比起之前那个一刀切就准确太多了。

不知道你有没有注意到,在思考这个问题的过程中,你已经在不知不觉中引入了分组的逻辑。你应该也发现了,分组中的平均数和从整体中得到的平均数,是完全不一样的,分组中得到的平均数更具参考价值。

上面这个例子很好理解,我现在要顺着它抛出一个结论:整体平均值不能代表各分组情况,分组结论和整体平均值结论可能会大相径庭

明白了吗?别急,我再讲一个例子反面论证一下这句话。话说 NBA 有两个球员,球员 A 和球员 B,他们的投球的表现如下面这个图所示。

这里我简单描述下,先说 2 分球的情况:A 球员,2 分球总共投了 250 个,投中了 200 个,命中率 80%;B 球员,投了 100 个,投中了 90 个,命中率 90%。也就是说,以 2 分球的命中率来看,B 更牛一些。

投 3 分球的时候,A 球员一共投了 50 个,投中 5 个,命中率 10%;B 球员,一共投了 150 个,投中 50 个,命中率 33.33%。看来,无论 2 分球还是 3 分球,B都比A的投中率要高。看上去也是 B 比 A 厉害,对吧?

那问题就来了,可是从整体命中率来看好像不是这样啊。你看,如果我们算下两位球员的整体平均值(也就是整体投中率)。

A 的总投球数是 300 个(250 个 2 分球,50 个 3 分球),共投中 205 个(200 个 2 分球,5 个 3 分球),投中率是 68.33%;B呢,投了 250 个球,投中的两分和三分加到一起 140 个,那么他的投中率是 56%,这么看来 B 比A的投中率 68.33% 要低呀。

看到这个结果,你是不是很诧异,不信你再仔细看看这个图表,我的确没有在数据上做手脚。

两分球和三分球投中率都比较高的这个球员 B,整体的命中率反而下降了,是不是让人有点大跌眼镜?如果你是篮球爱好者,你应该会发现问题,NBA 里没算过整体命中率,一般都是把二分球和三分球的命中率分开说的。

辛普森悖论的启示