

在数字时代让我们保持清醒
作者: 续芹
在后真相时代,还有“真相”吗?事实是什么?知识的阵营还牢固吗?
前段时间看过瑞典教授奥萨·维克福什的《另类事实》,书中对知识是这样定义的——知识就是那些你信以为真的东西(一种信念),并且它需要与事实相符,而你需要求得证据来保持信念。显然,在获取和更新知识这个方面,批判性思维的能力特别重要。批判性思维意味着不仅仅思维逻辑本身是重要的,我们还需要具备一定的认知心理学方面的知识,要对人类常见的非理性思维模式保持警惕。
在大数据时代,很多知识以“大数据”的形式出现,如何认识数据背后的“真相”也就成为考验思维成熟度的重要标志。桑内·布劳的这本《数据如何误导了我们》可以帮助我们在“大数据”时代更加审慎地捍卫自己的知识领域。
作者桑内·布劳是荷兰的一名计量经济学家和数据统计记者。布劳从儿时起就特别擅长于数字有关的东西,数学是她中学时最喜欢的一门课,后来她在拉斯谟经济学院(Erasmus School of Economics)攻读计量经济学博士学位。作为荷兰知名新闻平台“通讯员网”(De Correspondent)的通讯记者,布劳长期致力于数据新闻的深度报道。读罢这本书,以下这几个书中案例给我留下了非常深刻的印象。
一图胜过千言万语——直观数据的积极作用
书中最开始讲述的一个南丁格尔的例子,一下子就吸引了我。19世纪南丁格尔通过可视化图表推动了英国的医疗改革的故事,彰显了数据的积极力量。
南丁格尔1820年出生在一个富裕的英国家庭,在那个时代相比于其他女孩,她接受了非常良好的教育,系统学习过意大利语、哲学、物理、化学还有数学。拥有良好的教育背景的她,在从事随后的军中护理工作时,发现当地英军的阵亡率太高了。对此,她做了一个非常直观的图表——东部军队死亡原因统计图,这个统计图用饼图的方式非常直观地显示了士兵的死亡原因。据此,该报告成功说服了当局。到1880年时,之前的许多问题得到了妥善解决:伤兵们吃得更好了,能洗澡的地方变多了,他们的营房也更干净了。
历史学家斯蒂芬·斯蒂格勒将1890年至1940年称为“统计学的启蒙时代”,但在这之前的1858年,南丁格尔已经使用统计图表来解释现状和阐述事实了。数字的积极作用彰显无遗,它可以用来挽救生命。
我平时在学校讲授财务分析课程,对此颇有体会。财务分析也是这样,用图表的方式直观展示一家企业的经营业绩是非常合适的。当然,图表在列示时也是有讲究的。比较公司的选择、图表量纲的选择,都有可能影响到读者的感官和判断。例如,我想分析A公司的营业收入,但这家公司营业收入的增长趋势并不好看;于是我选择了另一家经营更加差劲的企业进行比较,这样A公司显得还不错。又例如,我想看一下资产负债率的变动趋势,这家企业的资产负债表其实增长非常快速,但是我不想给读者造成负债率飙升、财务风险增加的印象,于是我将原本纵轴5%的单位调整为100%,显示出来的资产负债率立刻就不那么陡峭了。所以,当我们再去看一些数据分析和结论时,要对比较对象和量纲保持敏感,以免被误导。
数据的主观性
数据在标准化、采集和分析这三个环节,都可能掺杂主观意志。有时候,个人的主观臆断和价值倾向可能通过所谓“客观”数据的包装,成为所谓的“事实”。
首先,来讨论一下数据如何标准化的问题。
数据的标准化就是指如何测度这个想要测度的对象。例如,关于肤色和智商的有关统计问题上,肤色的测度相对较容易(但事实上,可能也不是那么容易),关于智商的测度则显然有不同的测度方法,不同的方法测度的面向可能会有较大差异。2014年,《纽约时报》的记者尼古拉斯·韦德撰写了一本畅销书,《天生的烦恼》。他在书中指出,世界上不同种族的形成是人类进化的结果,而种族之间的差异就反映在他们的智力水平上。
果真如此吗?
智商这个概念是人为创造出来了,我们为了测度它,设计了很多不同的题目。例如,韦氏智力测试中,题目涉及词汇量、数字序列和空间洞察力等,这些内容多与抽象思维相关。随着时代发展,智商测度中抽象思维越来越占据智力测试题目的主导地位。但侧重测度抽象思维仅仅是人类目前选择测度智商的一种价值判断而已。
所以,我们一定要意识到数据的“客观性”本质上是人为建构的产物。很多数据的取得可能都有类似问题,例如问卷设计时的架构带来的隐含选择倾向问题、问卷本身设计合理性问题等等,都会影响到数据的测度。
其次,在数据的采集阶段。
由于我们很难获得全样本的数据,所以一般数据采集会选取一定范围的样本。那么这个样本的普遍性和代表性就会影响到我们对这个数据的理解。
《数据如何误导了我们》提到一个非常有名的美国生物学家阿尔弗雷德·金赛的案例。在这个案例中,由于研究者个人被一种打破旧有的性行为规则的使命感驱动,导致他在选择调查对象时人为排除了“保守人群”,从而得出了一些颇为惊世骇俗的研究结论,在上世纪50年代引发了很大的争议。正如作者布劳评价的那样——“金赛的研究实际上是一种披着各式图表和表格的科学外衣下的行动主义”。
在财务分析领域,数据采集的错误也有可能会带来决策上的失误。例如,某化妆品品牌在第一季度时采用满减方式大规模促销,带来了一季度营业收入的快速增长。如果单单基于此,管理层就做出继续加大促销的决策,很有可能由于数据采集不完整、分析不全面而造成重大经营亏损。理性的做法是,在采用满减方式大规模促销后,管理层应当审慎观察后续客户复购率、退货率等情况,并仔细核算相关成本来综合评价促销效果。
财务分析中,还有可能由于数据颗粒度不够或者指标设计不当,造成无法取得决策相关数据。例如,某些财务分析系统中仅仅针对营业收入设计了营业收入增长率,但对于导致营业收入增长的原因没有设计指标而无法进一步仔细分析。对于营业收入的变动,应当区分价格和销量等因素,来分析导致营业收入变化的原因。
第三,在数据的分析阶段。
《数据如何误导了我们》一书中,作者使用了烟草公司的经典案例。这个案例非常清晰地展示了具有利益冲突的研究者是如何利用自己的专业知识为烟草公司进行辩护的。
统计学家达莱尔·哈夫于1954年出版了一本非常有名的专著《统计数字会说谎》。在这本书中,哈夫指出数据分析阶段存在三种类型的“伪因果关系”。第一种,偶然事件——数据呈现的只是偶然情况;第二种,因素缺失——数据呈现的相关性仅仅是相关性,其实中间缺失了一个真正的因素;第三种,反向关联——因果关系也可能是相反的。这本书非常经典,今天也仍然值得大家研读。哈夫作为统计专家,在1965年3月美国国会一场有关香烟广告及包装的听证会上发言,他认为吸烟和不健康这二者之间的相关性不应与因果关系混为一谈。但随后更多的不同领域的科学证据都表明,吸烟的确与肺癌发生有非常直接的因果关系,目前这已经成为了“科学共识”,也迫使烟草行业在包装上做出了明确提示。布劳在《数据如何误导了我们》中介绍,哈夫收到过烟草业的赞助,这对他的分析的独立性造成了影响。
在财务分析中,哈夫著作中列示的三种伪因果关系同样是适用的。例如,某高科技企业某期的利润率得到了改善,这是否意味着该公司的研发能力突出,是前期高额研发带来的正面效果呢?第一,观察利润表,如果利润率的改善来自一次性的“非经常性损益”,是偶然事件带来的,那么就无法说明是公司前期研发带来的效果;第二、观察后发现,由于研发支出占用了公司大量资金,使得公司更加审慎地利用资金,成本费用的控制更加高效,从而带来了利润率的改善,并不是前期研发支出带来的效果;第三,还有一种可能是,由于公司利润率不断的改善,使得公司有余力进行大额的研发投入,因果关系其实是倒置的。
我这里描述的三种情境对应了哈夫所述的三种伪因果关系。因此,我们进行数据分析时,一定要熟悉统计语言和套路。
大数据时代的困境
我们正处在4V(volume,velocity,variety,veracity)的大数据时代,上文中描述的数据在标准化、采集和分析阶段可能面临的问题还存在吗?作者认为仍然是存在的。
同样地,很多抽象概念被不得不量化了;大数据的来源可能不符合伦理要求(黑客问题和隐私数据);以及相关性仍然不等同于因果关系。
事实上,当数据足够大的时候,你总会发现越来越多的变量间存在显著关联。作者提醒我们注意“算法”的背后是什么?正如作者所说——“这些算法想要达成什么目的?是寻求真理还是追逐利润?是民众的安全还是自由?是正义还是效率?这些均是道德上的困境,而我们是无法用统计数据解决的”。
该如何解读数据
布劳提供了一个六步清单,帮助我们来解读一份数据及其结果。一,这个数字是由谁提供的?数据一定程度上是人类价值判断和立场选择的呈现。二,我对这个数字有什么感觉?评估自己的直觉,我们也有自己的价值判断和取向。三,人们是如何将它标准化的?数据是如何测度的?四,数据是如何被采集的?了解采集方式和样本代表性。五,数据是如何被分析的?是否可能是偶然事件、因素缺失和反向关联?六,数据是如何呈现的?数据的呈现方式对于我们理解它也是至关重要的。
当然,一个拥有智识的人是会根据新的数据和证据来选择是否更新自己的知识的。我们要拥抱不确定性,不然你相信的就是“伪科学”。
桑内·布劳的《数据如何误导了我们》教会我们对数据的主观性保持警觉,只有当我们学会以怀疑之眼审视数据,方能真正驾驭数据。科学就是一些还没有被推翻的假设,是一些可以被证伪的假说。这是科学的本质,怀疑是所有科学家和哲学家的精神内核。当然,这不是说我们要怀疑一切。我们可以选择去相信(非自己熟悉领域的)专家,毕竟我们没有精力去验证所有的事情。但在我们自己的专业领域内,保持对数据的警惕和审慎是应当做到的。
(作者任职于对外经济贸易大学国际商学院)
读书介绍:

批判性思维意味着不仅仅思维逻辑本身是重要的,我们还需要具备一定的认知心理学方面的知识,要对人类常见的非理性思维模式保持警惕。
数据在标准化、采集和分析这三个环节,都可能掺杂主观意志。有时候,个人的主观臆断和价值倾向可能通过所谓“客观”数据的包装,成为所谓的“事实”。
桑内· 布劳的《数据如何误导了我们》教会我们对数据的主观性保持警觉,只有当我们学会以怀疑之眼审视数据,方能真正驾驭数据。