
赌上全部声誉的普林斯顿教授
大数据能干什么呢?太多有意思的事情了。比如传统的品酒活动需要有专业品酒师,这些大师经过长年训练,舌头跟普通人长得不一样,他们可以品出1992年的酒比1993年的好,所以过去是靠天赋来品酒。普林斯顿大学有一个英语学教授,他很喜欢喝酒也爱储藏葡萄酒。每年都要等品酒师的报告太麻烦,于是他想到是否可以依靠数据,分析出酒的品质。他找来降雨量、平均气温、土壤成分等数据进行分析,并建立了一个网站,告诉大家选酒的秘诀。当他公布研究成果时,引起了业界的轩然大波。
通常当年的葡萄收获后要经过一段时间发酵,酒的味道才会好。所以很多品酒师品的不是葡萄酒,那时葡萄酒还没有真正做成,他们品的是发烂的葡萄。因此在那个时间点就预测当年葡萄酒的品质是比较冒险的。再加上人的心理因素也会影响预测:地位越高的品酒师,预测越保守;而刚出道的品酒师往往会“语不惊人死不休”。这就好像有些专家说北京的房价会涨到50万元/平方米,可要是去问林毅夫老师:“林老师,请问今年中国股市会怎么样?”他肯定会告诉你:“有50%的可能性会涨,但也有50%的可能性会跌。”要知道,一旦他预测错了,要损失的名誉代价是很大的。所以顶级的品酒大师一般都不敢贸然论断。
但普林斯顿大学的这位英语学教授不同,他凭借统计数据,有一年突然预测说当年的酒是百年来最好的酒。大家哗然,怎么敢这么说?太疯狂了。更疯狂的是到了第二年,他预测当年的酒比去年的更好,并赌上了自己的声誉,但事实证明,他预测对了。因此许多品酒师在做评判之前,都会先到他的网站上看看,再做出自己的判断。有很多规律我们不知道,但它潜伏在这些数字里头。
《点球成金》也是一部和搜集数据有关的电影,讲的是球探怎么找到潜在的棒球运动员。最初靠经验,到处去看谁有潜质,把一场场赛季的球赛看完后,决定人选。但怎么评断谁打得好呢?很多时候只能靠瞎蒙。电影里有一个场景,一帮球探聚在一起评价某个球员到底好不好,其中一个球探说:“他不好,女朋友长得太难看了。”有人问女朋友长得好坏和打球好坏有什么关系呢?球探说:“女朋友长得难看,说明他的自信心不行,所以打球不会很猛。”这当然完全是胡扯。电影里还有一个桥段:原来没什么名气的球队,突然找到一个另类的经济学硕士。经济学硕士说只要把数据给我,我就能帮你找到好运动员。此话一出,相当于颠覆了整个行业规则,引发无数质疑:不去现场观看球赛,仅凭球员原有的赛季记录,怎么可能知道该球员是不是合适。可事实胜于雄辨,剧情发展到最后,出现了一个新的领域——用计量经济学来寻找棒球界的明日之星。
我们从这两个案例能够推出什么来呢?在大数据时代,因为数据很多,很可能可以找到相关性,但也因为数据太多,未必能够理解为什么是这样。但只要能先找到相关性,就很不错了,如果运气再好的话,可能会找到内在的因果关系。只要善加利用“知其然”即可,毕竟大部分情况下你不一定会知其所以然。