menu-icon
anue logo
馬來西亞房產鉅亨號鉅亨買幣
search icon


科技

大數據研究和應用不能“忽悠”

鉅亨網新聞中心


幾個盲人分別摸到了大象的鼻子、耳朵、腿、尾巴和軀體,這張“瞎子摸象”的照片,在“2013中國計算機大會”上出現多次,好幾位報告人和講者,都不約而同地選了這張照片來表達對大數據目前研究進展的態度。

作為國內計算領域規格最高、規模最大的學術會議,“2012中國計算機大會”上,“大數據”是出現頻率最高的主題詞,几乎每個主講者,每場論壇,都涉及這幾個字。同時,中國計算機學會也在大會舉行期間,正式成立了專家委員會,中國工程院院士李國傑擔任主任。一年來,“大數據”3個字持續升溫,社會對於大數據的關注也從最初的必要性、重要性轉向如何獲得數據,如何進行處理,如何進行利用。


“大數據”面臨大挑戰

計算機大會專門組織的“大數據主題論壇”可謂高規格陣容,主講者有中國工程院院士、中科院計算機所研究員李國傑,中國工程院院士東北大學教授柴天佑,中國科學院院士、北京大學教授鄂維南;中國科學院院士、上海交通大學副校長梅宏等。

“IT技術廣泛的應用使我們獲得了巨大數據,從這些數據當中我們可以得到很多東西,也使計算機系統、軟件技術、生生活,包括數學基礎研究面臨新的挑戰和機遇。”論壇主持人、國防科技大學王懷民教授。

梅宏院士認為信息界當前的幾個最熱點的問題,大數據、雲計算、移動互聯網本質上都是互聯網計算及其延伸生的效果,包括更快的網絡頻寬,更廣大的網絡接入,更強的計算能力,更小的計算設備和更低的存儲成本。

不過,他同時也指出,大數據不僅帶來對軟件技術、編程語言的挑戰,同時也讓人類社會面臨能耗挑戰,因為目前全球範圍內的數據中心伺服器和散熱系統每年大概需要消耗30億瓦的電能,而這相當於20座核電站的發電量。一個大型數據中心的能耗非常巨大,甚至比一座中型美國城市的耗電量還要高。

“歷史上設計計算機系統的主要目標是充分發揮CPU的計算性能,較少關心如何滿足持續的數據存取要求。現在存儲問題尚未解決,又遇上大數據應用,計算機系統的負載發生了本質性變化,雖然CPU進展很快,每年50%~60%的增長,但負載增加更大,以前數據是圍CPU轉的,現在變過來了,是圍繞數據轉。”李國傑院士認為,計算機系統結構需要革命性的重構,重點是數據如何“搬運”,要由過去的“大象搬木頭”轉變為“螞蟻搬大米”。

李國傑院士透露,中科院網絡數據科學與技術重點實驗室的“天璣網絡大數據平台”,已經完成了面向網絡大數據、金融大數據處理的一體機原型系統,並已經在淘寶、騰訊等相關企業和大數據情報處理領域進行了試用。

中國工程院院士柴天佑則描述了工業大數據的特殊:數據量大、類型多、變化速度快,複雜工業系統中許多機理不清,難以用數學模型來描述其特徵,大數據的應用技術為研究複雜工業系統開闢了新途徑。[NT:PAGE=$]

大數據研究和應用不能“忽悠”

“大數據是什麼呢?每個人都有每個人的理解,我自己也是帶問題來的。”2013年中國計算機學會海外傑出貢獻獲得者、美國特拉華大學電子與計算機工程終身教授高光榮在做大會報告時,展示了“瞎子摸象”的照片。這位從事計算機系統結構研究的國際知名學者介紹了自己近些年從事數據研究的成果。不過,他認為“大數據”的提法過熱,明顯有炒作的味道,急於求成,“做研究不要貪快,有些研究不會立竿見影,一項研究工作需要很多年。無論是美國還是中國,我們在大數據研究上,都才剛剛開始。”他用了一個新學會的詞:不能“忽悠”。

不過,在大數據主題論壇上,高光榮教授仍未得到答案。

當李國傑院士從系統結構的角度,柴天佑院士從工業應用,鄂維南院士是從數學的角度,梅宏院士從軟件的角度進行一一闡述之后,一名學生提出了一個問題:“能不能請各位老師用一句話大數據的本質是什麼?大數據帶來什麼樣的變化?”

一句話清一個問題似乎讓主講者都有些為難。

柴天佑院士認為,從用大數據進行研究的角度來談,超出現有的理論方法技術、工具,能處理一個數據群就叫大數據。

而李國傑院士認為,大數據被“大”字給忽悠了,它更多的是多樣化、變化快,不僅有快數據,還有真兩方面的數據。大數據是一個處理數據的方法,不是數據本身的規模。

梅宏直接表示很難回答:“大數據這個詞不是技術生科學意義比較明確的定義,它給人的聯想太多的空間了。用一句話我不出來。”

之前,他提到大數據將不會是一個可完全“解決”的問題,只能是逐步“逼近”、緩解的技術,目前尚不存在有效的大數據技術。

針對研究人員如何獲數據的問題,李國傑院士回答,政府應該是首要的公數據來源者,政府掌握大量的各類數據,但是現在數據公開還沒有做好。此外,研究人員還可以向企業要數據,通過協議相互交換,搞技術的、做科學研究的共同交流才能出成果。

大數據研究人員短缺

計算機大會的特邀講者,來自美國北卡來羅納州立大學分校史德利·阿霍爾特(Stahley.Ahalt)教授是創新計算研究所的負責人,他認為,大數據已經存在,需要新的工具來使數據消費者進行大規模應用。[NT:PAGE=$]

在他看來,數據的生者包括大學、政府、醫療保健機構、工業界等,而數據使用者是科學家、公民、政府、醫務人員、商業界。“從2010年開始,每兩天生的數據就相當於歷史上到2003年生的數據總和。所以需要數據科學,對這些數據進行分析、挖掘,利用。互聯網使得數據的移動、共享和發現更容易;更快的處理器,更多和更廉價的存儲容量”

他介紹了大數據在美國社會管理、風暴潮預測以及生物基因診斷方面的成功應用。一家名為美國快捷藥方的公司宣稱已有10億個藥方數據用於分析,使病人的郵購處方更為合理經濟。他們通過預測模型,找到了400個影響因素,來發現因病人不遵循用藥規定帶來的風險,而這一項每年帶來的損失高達3170億美元。UPS公司通過分析從成千上萬台送貨車上感測器傳回的數據,減少530萬英裏行程,減少發動機的置達1000萬分鐘,節省65萬加倫的燃料,減少二氧化碳排放量達6500公噸。

阿霍爾特教授提供了一系列數字,大數據的應用可以使美國每年節省醫療節省費用達到3000億美元,這相當於西班牙全年的醫療保健花費;歐洲公共管理部門每年可節省2500億歐元;節省1%的汽油油耗,15年可以節省680億美元;採用數據信息決策的公司,可使生率提升5%~6%。

而因為大數據開發及使用,也可以創造無數新的工作機會。全球範圍內,到2015年,大數據和分析工作機會有望超過400萬個。

每個大數據的工作能夠生3個相關的工作。對於美國而言,到2015年,將有190萬新的大數據工作機會,但將由於人才短缺,僅有1/3的崗位能招到人。2020年,美國針對數據相關的管理員和軟件開發者的需求預計增長約32%。

在2012年的一項調查中,78%的被調查者認為確實存在大數據方面的人才短缺。那麼大數據科學家要具備什麼樣的IT技能呢?阿霍爾特表示,數據科學家要對計算機科學背景有全面了解,包括對應用軟件、建模、數據、分析等,要有商業頭腦,以及對數據提煉融合的能力。數據科學家還“必須能夠獲取數據集,對它們進行數學建模,以及懂得建立模型的所需要的數學理論。他們必須能發現並闡明數據揭示的問題,即從數據中發現合適的問題。”

文章標籤



Empty