nuff1

Saturday, April 6, 2013

警惕被误用的统计学


常言说:数字里面有魔鬼。人们似乎有个常识:文字是模糊的,而数字是精确的,所以用数字可以做出清晰的说明,也更靠得住。

但是,在缺乏上下文的前提下,单纯依靠数字往往有极大的缺陷; 甚至在有了一定的上下文的前提下,倘若缺乏合理的逻辑关联,也很容易做出错误解读。譬如很多媒体的报道,不管是无心之失还是有意误导,都很容易得到错误甚至是相反的结论,尤其是一些具有强烈倾向性或者本身就是某个党派所办的媒体。

举个例子,在公众都很关注的社会公平问题上,关于“歧视”的现象就会引发很大的争议,不管是国外热议的性别歧视还是中国大陆偷偷摸摸禁止讨论的民族歧视和地域歧视。我们用一个假设的例子来说明,事实的真相可能并不像它表面上看起来那么简单。

为了简化起见,我们假定讨论男性和女性所受到的歧视待遇问题,这当然可以推广到其他类似的歧视问题。假设同一所学校在录取学生后发现,男生的录取比例是75%,而女生的录取比例是60%,──好了,绝大多数媒体的报道就到此为止了,那么,能否从这两个数字得到这样的结论:这个学校存在对女生的歧视(假定男女录取比例相等才不存在歧视)?

还不行!而且事实很有可能相反!

假设男女生各有100人报考了这个学校,而这个学校有两个专业:A和B。其中,有90个男生申请A专业,录取72人,录取比例80%,有10个男生申请B专业,录取3人,录取比例30%,这样合计有75个男生被录取,总的录取比例是75%。

而100个女生中,有40人申请A专业,36人被录取,录取比例90%,另外60人申请B专业,24人被录取,录取比例40%,合计有60个女生被录取,录取比例60%。

这些细节数字告诉了我们什么?一个和直觉以及表面数字完全相反的结论:并不是女生受到了歧视,而是男生受到了歧视!因为在每一个专业上,男生的录取比例都低于女生。而这是只看那两个表面数字看不出来的。这背后的统计学道理不再赘述,无非是样本分布与权重的关系,但是,这些看不到的细节却影响着读者如何理解媒体的报道,尤其是那些缺乏统计或逻辑训练的读者。

与单纯计较统计方法相比,更重要的是这样的报道会如何影响社会认知和政府决策。正如前述,倘若媒体报道只到“男生录取75%,女生录取60%”的层面,那很有可能给公众造成一种“女生受到歧视”的假象,而随之而来的很可能是硬性规定要人为提高女生录取比例,但正如我们所分析的:这掩盖了事实的本来面目,反而是帮了倒忙,造成了更严重的歧视。而且,这样简单化的手段往往把正确的解决方法──譬如修改专业设置──给忽略了。遗憾的是,政府很多时候就在做这样南辕北辙的事情。

No comments:

Total Pageviews/统计信息

nuff3