研究表明，你被数据骗了

理想国imaginist2024-01-29 11:10

《生活大爆炸》

“睡前在发光的屏幕上阅读，会有损寿命？”

“二氧化碳排放量上升，或导致肥胖率升高？”

“每天喝一小杯红酒，有助于避免各类与衰老相关的健康问题？”

“一杯红酒也对心脏不利：科学家揭穿适度饮酒有益健康的迷思。”

相信看到上面的这些信息，不少人都会觉得非常熟悉。我们每天通过各种渠道都能接触到海量类似的“最新研究”。点开这些内容，文章里不仅有看起来真实详细的具体数据，还有似乎可靠权威的相关学术机构做背书。

但是，数据就代表真实吗？究竟哪些数据是真实可信的，哪些又是误导呢？

在今天，如何在海量的信息迷雾中去伪存真，或许是我们每个人的一门必修课。英国科学作家汤姆·芝华士和英国杜伦大学商学院经济学副教授大卫·芝华士合著了《数字一点不老实：看穿纷繁信息中的数据玄机》一书。他们希望可以通过这本书，让大家看清数字背后的真相，不被纷繁数据轻易误导。

睡前看屏幕会减少睡眠？

对于长时间抱着屏幕看这个事儿，我们要担心到什么地步才算完？过去几年里出现了各种夸张说法，值得提及的包括 iPhone 可能“摧毁了一代人”，或者“对女孩来说，使用社交媒体比吸食海洛因危害更大”（这种说法后来被从文章中删除）。这个领域的研究既混乱又艰难，既难以获得优质数据，又要避免得出站不住脚的相关性，不过最有力的科学研究似乎表明我们不需要太过担心。

但有一个领域备受关注，那就是屏幕与睡眠之间的关联。2014 年一则新闻的标题尽显大声疾呼之势：《睡前在屏幕上阅读可能会害死你》。这篇报道基于《美国国家科学院院刊》（PNAS）上的一项研究。

大意很简单：睡眠不足对健康有害；研究表明在发光的屏幕上阅读会减少人的睡眠时间；因此，新闻报道推断，在发光的屏幕上阅读可能会害死你。

《轻松自由》

咱们有一说一。该研究确实发现，看屏幕的时间与睡眠时间有关。被试被要求在一天睡前阅读一本电子书，在另一天睡前读一本普通的纸质书。（顺序是随机安排的：有些人先读纸质书，有些人先读电子书。这是为了防止先读某种书会成为影响结果的因素。）它发现了一个具有统计显著性的结果：p<0.01。这意味着如果看屏幕完全没有任何效应，在将实验进行100次后，像这样极端的结果，预期出现次数不到1次。尽管如此，这仍是一项非常小的研究，只有12名被试；但有时即使研究规模很小，只要谨慎对待，它们也可以为我们指引可能的研究方向。

如果一项发现具有统计显著性，那仅意味着这项发现有比较大的可能是真的。另一个你需要考虑的是“效应量”（effect size）。好在它不像“统计显著性”那么容易被误解，“效应量”的意思正是它的字面意思：效应的大小。

既然我们在这一章讨论的仍是读书，让我们回到研究本书读者的假想实验。这一次，我们的实验稍有不同。我们让500人阅读《数字一点不老实》，500 人读另一本较为逊色的书籍，比如《米德尔马契》或《莎士比亚全集》之类，并将两组人做比较。然后，我们这次不测量读这些书如何影响统计能力，而是测量他们睡着的时间，看一组人是否比另一组人更晚入睡。

返回的结果很明显：所有 500 名阅读《数字一点不老实》的人都比另 500 人更晚睡着。

这无疑是一个具有统计显著性的结果。即使不知道差异有多大，纯属巧合的概率也极其微小，小到这个概率的分母比宇宙中原子的总数还要大得多。假设这项研究的设计和执行没有问题，这样的结果就表示效应不可能不存在。

现在假设我们想知道效应有多大。我们看到的是，读《数字一点不老实》的全部 500 人的确都入睡更晚——晚了正好 1 分钟。效应真实存在。它具有统计显著性。但它与你的生活毫无干系。如果你想得到有助于改善睡眠的信息，这个结果对你毫无用处。

可是，谁会在睡前看四小时书？

科学家对一件事是否具有统计显著性有极大的兴趣：你如果了解到一件事与另一件事有相关性，就可以对这一相关性展开研究，也许就能多了解一些其背后的机制。例如，屏幕使用时间如果对睡眠确有影响（真实效应），那么即使影响很小，也可能为我们揭示人类昼夜节律的运作方式—蓝光是否对重置人的内部生物钟有一定作用。这可能会带来更进一步的有趣发现。

有时，即使是很小的效应也很重要：也许一个自行车队找到一种方法，能成功制造出更圆的车轮，可以使骑手每公里花费的时间减少万分之六秒；这可能足以产生金牌和银牌之间的差距，特别是队医也给他们开了足够的哮喘药的话。然而，对一名读者——一个试图理解周遭世界、试图理解如何应对其中的风险和困难的人——而言，某两件事之间是否存在统计学上的显著关联，不过是智识层面的兴趣而已。例如，你可能想在睡前读 Kindle 而不是纸质书，这样你就可以关掉灯，让你的伴侣好好睡觉。

你真正关心的不是能否发现关联，而是这个关联有多大。睡前看屏幕的影响有多大？答案是：很小。该研究的被试被要求在睡前4小时（注意是4小时！）阅读纸质书或电子书。结果，在阅读电子书的晚上，被试平均晚睡了10分钟，而《睡前在屏幕上阅读可能会害死你》这篇报道没有提及此点。每晚都少睡10分钟也许不是小事，但谁天天晚上在床上看4个小时的书啊？

《生活大爆炸》

有趣的是，后来有一项针对青少年的规模大得多的研究得到了类似的发现：屏幕使用与睡眠之间存在相关性，但很小。多使用屏幕1小时与损失3—8分钟的睡眠相关。这也许掩盖了某些巨大差异——也许大多数儿童和青少年不受影响，但少数人受了严重的影响。但看起来，睡前不看屏幕对全国人的睡眠习惯没有太大帮助。

如果报纸和媒体渐渐习惯谈论效应量，而不仅仅是统计显著性，我们会很开心。他们不必深入技术细节，只需简单地说“4个小时的阅读时间与少睡约10分钟有关”，就可以为读者提供所需信息，以确定此事是否值得注意。读者应该注意的不仅仅是是否存在关联，例如“吃培根会致癌吗”，而是这些关联有多大（如果我连续 20 年每天吃培根，我患癌的可能性有多大）。如果文章看起来没有提到这一点，那么最可能的解释是，这个关联的效应非常小，而真相并没有听上去那么吸引人。

每天一杯红酒有益健康？

嘿，好消息！“研究发现，每天喝一小杯红酒有助于避免糖尿病、阿尔茨海默病和心脏病等与衰老有关的健康问题。” 但是等一下！“一杯红酒对心脏实在不利：科学家揭穿适度饮酒有益健康的迷思。”

嗯……

嘿，还有更多好消息！“红酒富含抗氧化剂，每天一杯可降低男性患前列腺癌风险 10% 以上。”但是再等一下！“即使每天只喝一杯酒也会增加患癌风险：研究警示，酒精与至少七种形式的疾病有关。”一个爱喝红酒的人读《每日邮报》，情绪会像坐过山车一样跌宕起伏。这些标题都是基于过去五年的真实研究，《邮报》并没有在胡编乱造（也不是说只有《邮报》才容易出现这种情况）。那么到底是怎么回事？红酒会让我们长生不老，还是会害死我们？

如果你正在进行一项研究、一项民意调查或者任何一个要用抽样方法来了解的事情—比如有多少人可能投票给工党，某药物治疗某疾病的效果如何——你得到的答案不一定和事实完全一致。即使你有一组无偏差的样本，并且研究做得很规范，你得到的数字也可能只是由于概率的机制而随机地高于或低于真实情况。这一点带来的影响显而易见。

假设吃炸鱼柳可以稍微降低打鼾的风险（当然不太可能，但我们先假设一下）。假设我们说，现在已经有很多不同的研究讨论炸鱼柳是否会影响打鼾。我们还假设，虽然有些研究规模很小，但做得都很规范，没有发表偏差、p值操纵或其他可疑的统计行为（虽说这么规范也实属罕见，但先不管这些）。

《生活大爆炸》

我们期待的是，这些研究的平均结果会表明，吃炸鱼柳的人打鼾稍微少一些。但任何个别研究最终都可能返回略有不同的结果。如果这些研究确实没有偏差，你会预期这些结果呈一种正态分布，集中在真实效应周围。有些结果更高，有些更低，其中大部分在中间附近。所以，即使已经有很多关于炸鱼柳与打鼾相关的研究，其中一些研究的结果也不能代表现实情况。它们可能高估或低估了效应，甚至可能发现该效应并不存在，或者发现炸鱼柳导致打鼾。再次强调，这些研究或其发表过程不一定有任何问题。这些结果只是随机性的产物。

这时候该做的，是努力弄清楚所有这些研究趋向于什么结论，即平均结果是怎样。这就是为什么人们会在学术论文的开头做文献综述——将自己的研究结果放到科学文献整体的背景中去看。有时研究人员会做后设分析，这种学术论文会纵览现有的所有相关文献并尝试将结果汇总。如果现有研究足够多，如果在研究或发表过程中都不存在系统性偏差（我们说过，这两个如果有很大的不确定性），顺利的话，这样的汇总结果能让你清楚地了解真实的效应。

新研究具有误导性？

科学就是这样进步的，至少理论上如此。每当一项新研究发表，它就会被纳入现有的研究集合；如果顺利的话，一般而言，新数据的加入会使人们在科学理解上的共识更接近现实。但是，假设这时候发表了一项新研究，它说的不是“这项研究让我们对底层现实情况的理解更进一步，也许还略微产生了改变”。相反，进行该研究的科学家立即摒弃了所有的既有研究，并说：“这项新研究证明过去所有的相关研究都是错的。现在认为，炸鱼柳会导致打鼾，把我们以前说的全忘了吧。”

每次记者就新的研究论文（如《开创性新研究揭示炸鱼柳导致打鼾》）撰写新闻报道时，发生的都是这种事：没有将其放在现有研究的背景下考虑。平心而论，这是一个很难解决的问题。报纸报道的是新闻；在科学领域，最明显的“新闻”就是新研究的发表。如果新闻标题是《新研究没有多少新信息，且只能在既有研究的背景下看待》，这可不怎么抢眼。

此外，科学论文需要被视为全部相关研究这一整体的一部分，而不是独立存在的，而大多数记者和大多数读者一样，可能都没有意识到这一点，他们会产生，“哦，这周我看到喝红酒有好处”，诸如此类的想法。不仅如此，许多媒体日益拮据的财务状况也意味着科学记者通常每天要写五篇以上的报道；他们除了记述新闻通稿外，很可能根本没时间做别的，遑论为结合背景信息来解读新研究而联络其他科学家了。

但这终归是个问题，因为无论是就存在风险的特定情形，还是就科学进程本身而言，它都会给读者一种误导性的印象。假设新研究频频出现，结果炸鱼柳和打鼾的关联一周一变，那读者就有理由认为科学基本上是在随意编造。

我们对炸鱼柳和打鼾的拙劣思想实验只是一个例子，但这样的情况一直在发生，涉及真实的事物。我们继续给《每日邮报》挑错，在他们的网站上以“新研究称”为关键字进行谷歌搜索，返回了超过5000条结果，涉及的主题从肥胖对脑功能的影响，到社交媒体和压力的关系，再到咖啡是否让人更长寿。

这些研究是真的吗？是真的。每项研究都准确勾勒出当前对科学的最佳理解吗？可能没有。问题还会更严峻。一项发现孤独症患者脑内铝含量高的研究在2017年引起了一些媒体的关注。更广泛的孤独症研究在努力寻找与孤独症相关的强环境效应；这项研究在其中不具代表性，但它加剧了人们对接种疫苗的更广泛恐慌（因为有些疫苗含铝）。接着说疫苗恐慌和孤独症的关系。这一问题的肇始是安德鲁·韦克菲尔德（Andrew Wakefield）等人于1998年发表在《柳叶刀》期刊上的研究，他们似乎发现麻腮风疫苗与孤独症之间存在关联——但该研究本身是一个离群点。一个单一的小型研究发现了一个意想不到的结果——成熟的科学报道方法不会对它抱有太大兴趣，哪怕该研究没有作假。

然而，由于新闻行业广泛倾向于将单一研究看作事实，而非更大图景中的一个瞬象，于是导致了巨大的健康恐慌，全球疫苗接种水平下降，少数儿童因麻疹致死或致残。有时，仅仅是有时，精准地传达一项单一研究的重要程度（通常：不高）真的很重要。

那么关于红酒和健康，有什么共识？好吧，尽管新闻标题千差万别，但多年来，公共卫生立场没有太大变化。少量饮酒（粗略地说是指每周最多喝 4 升啤酒或等量酒精的其他酒类）的人往往比完全不喝酒的人寿命稍长；但是当饮酒量超过这个数值时，预期寿命又会下降。

这一结果在大型研究中一遍一遍又一遍地出现。它被描述为一条J形曲线：死亡率先下降，然后爬升，呈倾斜的J形或是耐克那个钩。这是一个很小的效应，而且还不完全清楚是由什么导致的——例如，人可能出于健康原因而不饮酒，这或令他更有可能过早死亡。但共识似乎确实是，与滴酒不沾相比，少量饮酒可能有很小的保护作用。尚不清楚红酒是否尤其如此。

但由于效应很小，任何新的研究都很容易发现少量饮酒对你有害、有益或者毫无影响。新研究只有在相关背景下看才有意义。当你看到一些内容，尤其是关乎健康和生活方式并含有“新研究称”字样时，要谨慎对待。