点击标题下「大数据文摘」可快捷关注
大数据文摘“可视化”专栏已经成立,如果您是专业人员,愿意与大家分享,请后台留言,加入我们,一起把这个平台和专栏做得更好。回复“可视化”阅读系列文章。
大数据文摘翻译作品
翻译:高航,郭芳菲,于婷婷
校对:康欣
如需转载,后台留言申请授权
欢迎熟悉外语(含各种“小语种”)的朋友,加入大数据文摘翻译志愿者团队,分别回复“翻译”和“志愿者”可了解更详细信息。
我们看到过各种图表,其中最常见的就是曲线图。你可能觉得它没有什么难理解的,很容易看明白。甚至,你自己也做过各种漂亮的曲线图。但是,如果处理不得当(或被精心处理过),会造成很大的误导。
记得我小时候读到一期《疯狂杂志》,里面有一则关于统计学的搞笑漫画。它讲了一个剧院老板是怎么通过设计含有误导数据的广告来说服毫无戒备之心的观众来观影。
漫画的第一幅图里,剧院经理在一则广告中声称“上周电影票房翻倍”。第二幅图画出了真实情况:第一周只有两个人来观影,第二周只有四人,还有一个人正在退场。
然而,多年来我仍看到媒体一直在发布这种误导信息。最常见的做法是,文章里的图表被巧妙的处理过,以用来支持作者自己想要表达的结论。或者,有些图表没被那么别有用心地设计过,只是作者不懂该如何准确呈现数据并得出结论。
我将选择彭博新闻社为例子,没有其它原因,只因为它是我最近遇到的。毕竟彭博新闻社是做财经新闻的,他们本应在统计数据上做的更好。但是,他们也犯一些误导错误,
例如这篇Mark Gimein写的文章 “美国男性:四十年的收入下降“。Mark Gimein是彭博网的公司和市场板块的编辑,以及Market Now 博客和时事通讯的领衔作者。听起来是个很聪明的人,对吧?不幸地是,他也犯了我在无数其它出版物里看到的同样错误。
在他写的文章里,他用了美国人口普查局的数据来说明:在过去三十年中,美国男性收入的中值(考虑了通货膨胀)不断地在下降。看下这张他用来证明自己观点的图表:
你能从上面的图表中得出什么结论呢?它看起来相当严峻,对吧?看看那直线的斜率!我们得多么忧心啊!
也许担心还为时过早,因为这张图表有几个问题。为了说明这些,我已经用同样的数据画了几个新版本,让我们一起来看一看。
数据点不足
在原始的图表中,作者对于每个年龄组仅选取了两个数据点。试想,如果在那30年间的某一年有一个尖峰?又或者,如果那个下降仅在过去的几年才开始?再或者,如果1972年和2012年是异常值并且扭曲了数据的趋势?
让我们回顾一下美国人口普查数据,并将1972年到2012年的数据都加进来,以得到更高的分辨率。我们得到如下结果:
增加数据分辨率后的结果
这与原图看起来有所不同,不是吗?现在我们分析一下45到54这一年龄组的人。我们会立即看到,他们收入的中位数在1972到1999年间是相对稳定的,这与作者直白的结论完全相反。如果仅从这一系列数据选取两个数据点(即1972和1999),实际上得到的结论是这一年龄段人群收入的中位数一直保持稳定。但是,原来的图表对这一事实有一定的误导。当我们观察整段的数据后发现,事实上45到54这一年龄段的人群收入是有所下降,但是这种下降的趋势到2000年就停止了。
对于其它年龄群而言,他们收入的下降更加平稳,但是25到34这一年龄段的人群收入在克林顿执政时期有所反弹。
从这个图表中我们可以得到的另一个结论是,男性收入的中位数的不稳定取决于哪个政党执政。除了里根执政期间,当美国共和党执政期间收入都会下降;相反,除了奥巴马执政期间(基于现有数据得出这个结论尚为时过早),当民主党执政时收入都会上升。彭博社的分析没有考虑这些因素中的任何一个。
让我们继续探讨下一个由于图表引发的误导。
被截断的图表
作者原图的第二个问题是,图表的Y轴并不是从0开始的。这有什么问题呢?一个Y轴被截断(不是从0开始)的图表,会放大变化趋势。让我们看看重新使用原始数据并把Y轴的起始值设置为0会得到什么结果。
Y轴未被截断的图表
现在你得到什么结论?根据这幅图表,你会认为男性的收入在40年内持续下降?也许是的。这幅图表清楚地显示了收入的下降趋势,并且是收入的整体下降。但是,相比起彭博社的原始图表,下降的斜率并不显着。
根据这张新图表,我们还可以得出一些其它的结论。1972年到1993年间,25岁到34岁这一年龄段的收入持续稳定地降低;接着,在克林顿执政期间有所上升;然后,在布什执政期间又开始降低。为什么会这样呢?
对于35岁到44岁的人来说,他们的收入从1972年就稳定降低。对于45到54岁的人来说,收入在2000年以前相对稳定,并从2000年开始就稳定降低。
即便我们使用彭博社的两点数据,而将Y轴的起始值设置为0,其变化也并没有非常剧烈。
显示整个Y轴的原两点图
这仍然是一个可怕的图表。但一眼看去,使用同样的数据,图中收入的趋势似乎比彭博社的图显示的趋于平缓。
比例
我要讨论的最后一个问题是“比例”。作者选择去展现过去三十年的数据。那么问题在哪呢?实际上还有其它25年的数据被省略了。
这意味着,如果1972年和2012年的数据都是异常值的话,彭博社的原始图表会发生很大的失真。事实证明,1972年是美国男性收入中位数的最高点,从这个意义下,它确实是一个异常值。
让我们看一下从1947年开始的完整的统计数据:
从1947年开始的所有统计数据
令人惊奇的是,从1947到1972年的平均收入呈现平稳地逐年增长。
那么,1972年发生了什么? 布雷顿森林体系和金本位制的结束?我不是一个经济学家,所以就不费劲猜测了。但是,我正给大家展示完整的数据,证明操作这些数字去支持不同的“事实”是多么简单,而这些事实可能描述了完故事,也可能不是。
现在,这些数据描绘出了一个非常不同的情景。可以看到,在战后如干年数值陡涨,随后就是平台期和下降期,对于各个年龄层来说其对应的时间和比率有所不同。这个时期发生了什么?又是什么引起这些变化?这里很难给出一个宽泛的概括。
同样值得关注的,是25-34这个年龄层的收入差异开始增大,这有可能与服务行业和白领工作的增长有关。
给出一个极端的观点:如果我们想把标题写成“美国男性收入在过去的65年持续上涨”。我们可以用只有两个点的图形来支持这个观点,就像彭博社的图表。我们只需用1947和2012这两个点:
两个数据点可以告诉我们的关于1947年和2012年之间工资的变化
看起来非常棒!让我们鼓励一下自己(Let’s pat ourselves on the back)。世界如此美好,万物如此美好。
除了彭博社,我还在的其它很多出版物中看到这类图表,并且他们也不是唯一犯这种错误的。我写这篇文章不是为了特别针对他们,更多的是为了证明:操作数据来描述一个事件来佐证你已存在的观点是非常容易的。
类似的,匮于分析及不完整展示的数据会误导人们得到错误的结论。我已经试图在这里证明了两种情况,当你再看到像链接中彭博社那样的文章,你会更加警惕;并且,当你在利用数据讲故事是,你也会更加谨慎。
来自:https://medium.com/i-data/misleading-with-statistics-c63780efa928
欢迎读者参与分享类似的误导或唬弄实例。提供曾看过好像“怪怪”的图表。
【译者简介】
说明:有意联系译者的朋友,请给“大数据文摘”后台留言,附自我介绍及微信ID,谢谢。
高航:加拿大约克大学计算机视觉研究生。爱统计,爱视觉,爱大数据。
于婷婷:统计研究生在读,爱好编程和数据分析。现任统计学院研究助理,主要通过R语言和xml实现可视化分析网页。对大数据技术和发展很感兴趣,也希望将来可以在这个行业发展。目前在美国生活读书,希望能与有共同兴趣的朋友沟通交流,和大家一同进步。(2015年5月研究生毕业,有相关工作机会提供的小伙伴可以私信后台啊)
康欣:博士,多年从事图像及数据处理和分析、计算机视觉、模式识别、机器学习、增强现实等领域的技术研究和创新应用,现为西门子中国研究院高级研究员。愿借此平台,与大数据分析的爱好者以及专家学者交流。
大数据文摘精彩文章:
回复可视化 感受技术与艺术的完美结合
回复安全 关于泄密、黑客、攻防的新鲜案例
回复算法 既涨知识又有趣的人和事
回复谷歌 看其在大数据领域的举措
回复院士 看众多院士如何讲大数据
回复色情 这个,你懂的,可是你真的懂吗?
回复隐私 看看在大数据时代还有多少隐私
回复医疗 查看医疗领域文章6篇
回复征信 大数据征信专题四篇
回复大国 "大数据国家档案"之美国等12国
回复体育 大数据在网球、NBA等应用案例
回复平安 中国平安相关大数据案例、新闻
回复志愿者 了解大数据文摘及如何加入