被高估的统计学:数据科学的兴起
这是一篇翻译文章;文章观点不代表译者观点。
原作者 Daniel Lemire,是魁北克大学的一名计算机科学教授。他的研究集中在数据索引技术。他是名技术乐观派。
原文地址
随着工业和科学革命的发展,出现了许多搜集可信数据的机构。历史上第一次我们可以问英格兰白银总产量是多少并得到有意义的回答。
但数据很少是完备的。我们几乎总是只能看到部分。幸好有聪明人注意到一般不必做完整计算。通过少量代表性样本,你几乎总是可以得知总体的样貌。想知道美国人的平均身高,你不需要去量每个美国人...量几百或几千个足矣,只要有代表性。
我们从不怎么计数的前工业世界到了什么都得计数的世界。当我们不能计数时,我们采样并估计,并让误差够小。这都不错。但要对这些数字做些什么呐?必须做点什么,任何事,只要听起来让人觉得厉害!
大量研究论文使用了炫酷的统计检验,其中一个是 p-value 显著性检验。除此之外很少有人知道 p-value 具体什么意思。并且它帮了什么人吗?
牛排致癌?谁知道?各种相互矛盾的结论都有统计证据支持,都是基于厉害的统计分析。这些分析让我们更接近真相了吗?证据在哪儿?
为什么人们一直这么做?是不是因为这让整个过程显得更可靠?
与此同时,傻乎乎的计算机科学家真的在从真实的邮件中识别出垃圾邮件。我们真的在国际象棋和围棋上战胜过人类。我们真的能辨别你的信用卡交易是不是欺诈。
计算机科学家的终极目标是赶上并超过人类头脑处理信息的能力。医学研究者的终极目标是让我们保持理想的健康状态。统计学的终极目标是什么?统计学家何曾让我们往统计真相靠近一点?或者他们是不是想让我们每年给出更好的 p-value?
就像图书管理员和记者一样,统计学家善于捣乱。有个新的学科叫“数据科学”。讽刺的是,它是统计学家在 2001 年创立的;同一年人类基因组工程完成。如果你四处看看,你会发现许多年轻人或不那么年轻的人自称数据科学家。
他们尽力从数据获取价值,他们让数据说话。但你觉得他们中有多少是统计专业的?
软件吃掉了图书馆和报纸,现在开始吃统计学了。