menu-icon
anue logo
熱門時事鉅亨號鉅亨買幣
search icon

科技

評論:當心大數據時代浮誇陷阱

鉅亨網新聞中心 2014-11-18 09:28


張田勘

數據分析師在對阿里巴巴內衣銷售數據進行分析后發現,購買大號內衣的女性往往更“敗家”。其根據是,65%B罩杯的女性屬於低消費顧客,而C罩杯及以上的顧客大多屬於中等消費或高消費買家。這一結論是否成立姑且不論,但首先傳遞了一個信息,今天人們已經進入數據為王的時代,其中大數據似乎又是王中之王。


無論是商業網站還是搜索網站,人們的所搜所看所買都成為大數據的組成部分,無論之於商業,還是之於公共衛生,抑或國家安全,它們都是有用的信息。有心人已經意識到,因為擁有大量未經充分研究的中階層,中國成為世界上最重要的數據市場之一。研究這些數據,對社會各方面都是多贏。當然,保護人們個人隱私的代價需要考慮。

2008年谷歌推出“谷歌流感趨勢”(GFT)數據分析工具,谷歌的工程師根據這個工具的數據分析,預測了2009年H1N1流感將要暴發,甚至具體到特定的地區和州。這一結論在流感暴發前發表在英國的《自然》雜誌上。后來,情況果真如此,這與美國疾病控制和預防中心(CDC)的預測完全一致,但時間上比CDC早了近兩周。從2010年起,阿里巴巴利用其數據建立的信用記錄,向小微企業提供融資,也取得了不錯的效果。

這些結果表明,數據為王時代早就到來。其實,這並不奇怪。人類文明的三大支柱是材料(物質)、能量和信息,數據又是信息中的核心部分。古希臘的畢達哥拉斯早就過,“一切皆數”,盡管其所的“數”與今天的數據有所不同,但在某些方面是相似的。所以,在今天也就有了“一切皆信息”,也即數據為王。

不過,數據為王並不意味大數據為王,或數據越多越好,還要看如何分析和利用數據,進而得出最契合實際的結論,並且有效利用這一結論。因此,如果要承認阿里巴巴基於內衣銷售的數據分析得出的女性胸越大越“敗家”的結論,就需要有符合客觀實際的解釋,不幸的是,這一結論還處於見仁見智的階段。網友的各種分析就提供了佐證:一是“大胸都被有錢人娶了,所以才有能力敗”;二是“明青春期的營養狀況確實會影響胸的大小”,“胸大的確實普遍嫁得好”;三是“胸大並不敗家,集中在網上打折的時候買東西,只會旺家。”

這筆混亂賬目前肯定掰扯不清,但已有事實證明,數據越大並不意味越好。就算是谷歌,一旦他們的大數據處理和分析不當,也會得出錯誤的結論。2013年1月,美國又發生流感,但GFT的預測比實際數據高兩倍。這並非偶然出現錯誤,而是在過去一再發生。2011年8月~2013年9月,GFT高估流感流行長達108周。

谷歌的大數據為何預測不准呢?發表在2014年3月14日《科學》雜誌上的一篇文章指出了兩個主要原因。一是大數據浮誇,二是算法變化。大數據浮誇指的是,以為大數據可以完全取代傳統的數據收集方法,而非作為后者的補充。大數據浮誇的最大問題在於,大多數大數據與經過嚴謹科學試驗得到的數據之間存在很大的差異。

另外,谷歌對算法會進行不斷的調整和改進,搜索引擎算法的改變和用戶的搜索行為會影響到預測結果,比如媒體對於流感流行的報導會增加與流感相關的詞語的搜索次數,進而影響GFT的預測;相關搜索算法也會對GFT造成影響。例如,搜索“發燒”,相關搜索中會給出關鍵詞“流感”,而搜索“咳嗽”則會給出“普通感冒”。

如果沒有嚴謹的科學試驗數據做后盾,現階段就不能得出女性胸越大越“敗家”的結論。同樣,也需要得到科學試驗數據后,才能解釋為何在2012年的“雙十一”,中國比基尼銷量最高的地區是並不沿海的新疆。對大數據浮誇的兩種解決之道則是:大數據並不能代替嚴謹的科學試驗得到的數據,這兩者之間需要互補,而且要使算法更符合實際情況。

文章標籤


Empty