懷進鵬:對雲計算大數據的認識與思考
鉅亨網新聞中心 2014-05-21 15:41
新浪科技訊 第六屆中國雲計算大會於2014年5月20-23日在北京國家會議中心拉開帷幕。本屆大會以會”以“雲計算大數據 推動智慧中國”為主題。在5月21日的主會場上,中國科學院院士懷進鵬發表了題為“對雲計算大數據的認識與思考”的演講。
以下為演講實錄:
懷進鵬:各位專家、各位領導、各位來賓大家上午好,非常高興有機會跟各位彙報和交流一些認識,關於雲計算大數據的認識,這個領域現在非常熱,前面吳部長做了高瞻遠矚的發言,雲計算和大數據一個重要的內容,我們從量變到質變比較容易,量變過程容易認識,從量變到質變的一個瞬間難以把握的,如何在信息技術發展的今天我們能夠有新的機會,或者是再找到新技術,從分佈到走到集中,集中又走到分佈這樣一些新機會。特別是互聯網信息技術和業發展當中我們能不能有更重要的機會,所以我跟各位交流一下認識,有些非常有局限的,面對當前互聯網的發展計算模式的機會是什麼,雲計算和大數據主要的問題,最后是一些科學問題與建議。
其實雲計算和大數據發展,大家一直講一件事情:是不是會出現互聯網的第二次價值?這個價值可能對我們來窗口期不是很長,一旦大規模業化應用的時候,我們從中發現問題的機會,和我們前面創造技術帶來的機會有所不同。大家知道谷歌的情況,現在數據有所變化,網民每次點擊谷歌收兩美元,實際上它的后台對它支持非常大,互聯上百萬台伺服器存儲上百PB的伺服器,而且功耗也很大,主要方式實際上是互聯網進入了一個新的運營商的概念,不是基礎設施,而是服務運營商的概念。
像我們這次會議主題一樣智慧中國,以后作為城市智慧,中國智慧應該在哪裏?從一個角度來我們會有交通、醫療、社區等等,那麼這些方式保證了標準規範,有了安全支撐以后,更多的通過服務商和系統的管理運維來提供對於社會和企業更多的友好應用。所以這種模式的發展可能真的會對於我們很多的狀態發生變化,就像互聯網改變了我們過去幾類的傳統業。比如我們數字傳媒業,比如我們現在電子商務,比如我們現在教育、醫療方面,在整個現代服務業方面可能都會面臨新的影響和衝擊,特別像金融系統也會有很多新的變化,所以互聯網和信息化是非常重要的孿生兄弟,互聯網快速發展使得我們更多的利用好資源。
既然如此就出現兩個新問題:一、怎麼用好這個資源,怎麼管好這個資源。我們在技術上面大家都知道有了很多探索,包括以前面向科學計算、網格計算,互聯網應用當中P2P等等有很多方式,實際上一個基本問題就是為了管好資源,而管好資源的基礎是能夠對這些資源真的是形成它的創造能力和服務能力以及高可靠能力,所以管好資源很重要。什麼是雲計算?雲計算是盡力可為的計算,並不保證質量,從計算通信平台向計算平台和智能平台轉換中出現的一類平台,實現我們廉價盡力而為的應用服務體系。
大數據這兩年非常熱門,已經成為全世界的熱詞,什麼是大數據?任何一件事情我們對它定義無外乎兩個兩面,一個方面我們通過內涵,另外一個通過外征,對大數據我們對它實在沒辦法定義,有點類似商業社會的負面清單管理,不是被處理好的數據就叫大數據,盡管如此大數據給技術研究者、業界帶來了很多機會,在當前互聯網二次價值信息探索的時候管好數據,管好資源是雲計算要做的,同時大量資源如何用好這是非常重要的問題,所以用好應該好也是一個硬幣兩個方面,代表雲計算的管理和大數據的分析。
作為第一個方面就是資源的共享和管理,我們現在都知道資源和數據成為重要的基礎設施,整個社會當中在信息化的發展裏面資源共享和管理是特別重要的。另外一個方面就是資源本身在信息化當中已經是一個重要的耗能業,這是幾年前有過這樣的數據分析,ICT是全球耗能的第五大業。同時大量的資源海量資源進入管理當中,也會對我們實際應用帶來特別重要的影響。
第一張圖是facebook在一天的應用當中,有一天對資源爆炸性的增長,從50台一下子變成3000台,這個就要求我們如何管好資源,配置好資源,同時系統的可靠性也非常重要。在應用當中動則幾百萬,上千萬的應用,去年光棍節淘寶交易額達到新的水平,在這樣資源需求和供給極大的增長,短時間爆炸的時期,如何建立高可靠的資源管理,就是我們雲計算面臨的第一個重要挑戰。
二、現在都在大數據,我們把原有的數據分析,統計科學的結果來談我們如何大數據的分析。另外一組方式,大數據是我們現在方法還不能有效處理的這類數據。所以在一個角度來大數據我們沒有辦法應對,人類智慧還沒有找到更有效對所有數據衡量進行分析,國務院是科學大數據的分析,科學數據是研究的基礎,商業數據,還有一類社會數據,所以在數據走向豐富的時候,也可能會給我們帶來影響,這個也需要研究。
另外一個大數據出現確實在一些方面給我們帶來一些價值,在醫療應用,在數據計算分析當中都有很多好處,同時在社會活動當中,在經濟領域都有通過對數據的歸類和分析來進行預測發現在一定程度上對我們認識和解決問題有很重要的影響。同時我們意識到大數據分析對一種方法一類數據分析,是對所有分析。這像谷歌前一段時間對流感的預測沒有達到它在08年預測的那麼準,也明在認識問題和採集數據分析方式還會有不同方式出現,因為它並不是0和1之間的選擇。所以很多業界的朋友們講現在是IT到BT的業轉型,我覺得從技術角度來看我們還需要進行研究和處理。
第二個問題真的是如何用好這些數據,就需要提高數據分析的處理能力。數據分析處理能力最重要就是我們對於軟件開發設計,在這個方面在傳統的軟件當中已經是一個非常大的問題,我們面對互聯網大量數據的出現,所以還有一個新問題,就是在大數據時代軟件工具還有不適應的問題,是不是出現面向雲計算和大數據需要的新一類技術和科學,比如數據科學與工程來支持對於現在大數據和海量資源管理和調度的問題,可能也是非常有意義的事情,但是值得探索的問題。
第三關於網絡安全和數據安全的問題,如果我們想使得資源能夠被用好,最后一個就是能夠放心的用,安全問題應該是無論怎麼強調都不過分,對於大數據來可能隱私和共享的問題成為新的矛盾,因此我覺得面向互聯網第二個機會興起的時候,可能要我們面對處理好三個問題,未來架構問題,包括硬件設備和系統。第二關於資源有效的管理和處理。第三就是我們能夠提供可信任的基本環境。
對於通信認識,我們現在几乎很少用寫信的方式來與伙伴、朋友、家人進行聯繫,通信是非常重要不可或缺的方式,互聯網改變我們很多通信的方式,實際上互聯網已經正在改變我們經濟和社會的生活。前面提到谷歌公司有4.5億模型預測傳染病,阿里巴巴預測金融風險,我們流行一句話有了搜索引擎就可以熟悉更多的游覽器,有了電子商務我們熟悉客戶的消費行為,這些社交媒體使我們熟悉客戶的交流方式,如果我們行為方式有所改變,是否對大數據的分析處理能夠有助於我們科學研究。所以這幾年當中科學研究基於大數據的科學研究,在傳統科學計算領域開始進入到網絡計算,也提出了理論研究、實驗研究、計算研究之外的數據密集型的研究,更有人提出大數據是否成為科學研究。對此也有專題研究,同時美國、歐盟以及中國都啟動對大數據研究的科學問題,因為對未來問題的發現也是一個重要的機遇,究竟大數據能否改變或者影響我們一定程度的思維模式,如果是的話,它會從什麼角度開始。我舉個例子,我們在日常生活和行為方式上,我們通常在做飯會用查一查的方式解決我們是否知道飯菜熟了,這是在科技社會當中基本的經濟統計的方法,以量本是均勻的假定進行我們的行為。但是大數據下數據是不斷的變化,表達的方式是多樣的,所以過去以量的方式可能結合量樣本的分析,或者基於一個區域一個時間內對於施工下量樣本的共同研究。我們買一雙鞋會不會跑遍所有北京商店,而是基本差不多就行,從科學方向走向看差不多就行情況下,計算就變得非常需要。
第三我們經常講科學研究不僅知其然要知其所以然,從因果性看問題的源頭,從大數據當中我們考慮如何大概差不多判斷知其然也會重要。這在我們實踐當中有很多這樣的方式,所以因此大數據否是科學的問題還是一個命題,至少從實驗角度對我們研究這類問題有意義。
我下面談到關於問題簡單一下,是否從大數據思維中我們能夠發現認識更多的有關大數據的問題,這個問題表現特徵作為從事計算機的角度而言,我們第一個關心大數據能不能處理,第一個問題自然變成數據能不能算得了,數據能不能算得了一個基本的常識,無論計算機有多快還有一些問題由於複雜性太高算不了,計算問題是計算機工作者最關心的問題,我們一輩子做的事情,輸入通過一個函數這就是軟件,能夠轉換和輸出一個結果。所以研究最重要的問題就是和F有關,那麼F就是算法也就是我們看問題能不能算,算法問題非常重要,過去已經有10位左右的圖靈獲得者在算法和研究的領域,但是大數據時代是不是計算複雜度特別高,因為它定義數據算不了,因此會不會有新問題,這是我們關注的問題。
在傳統我們學計算函數的時候大家知道,能計算分成兩類,能判定分為易解問題,不能算難算有近似的問題,在大數據下可能有很大變化。過去易解的問題在現有環境下不可解的,比如一個PB的數據,光用現在最快硬碟讀取速度1.9天,一個GB的數據需要五年左右完成,百度一天網頁超過10個PB,百度用最快硬碟把數據讀完就需要19天,一天數據需要19天讀完,顯然在數據處理當中它已經不是能解決的,這是我們忍受不了當天事需要18天完成,過去認為能算的問題在這裏可能算不了,所以對這類問題我們需要有很多新研究考慮的事情。
第二類事情我們難解的事情,在計算機找出計算給出盡可能好的結果,在大數據下我們給一個函數近似表示,數據極大,找近似的時候雙重近似把問題又複雜化了,所以出現一個新情況我們要把F和算法和輸出要做新的匹配。這樣一個問題直接涉及到了怎麼設計算法,怎麼編這個軟件,我們知道在小樣本結果下算法小就是好識別率高,在大樣本下簡單算法就好的,10的6次方一個簡單算法對系統更重要。
第二個關於數據表征和度量的問題。要想計算要把它表示出來,大量毫無規律的數據怎麼度量怎麼給社會提供數據,所以對於大數據處理,或者雲計算處理一個基本的問題就是數據表征和度量的問題。這個裏面問題又是非常複雜的,涉及到數據極大的量,大概10的10次方以上為數,才能表達所有數據,第二數據度量越來越難,一頭豬和一隻大象有可能相似的,有可能兩個蛋不同,究竟這個意義在何處?如何度量?如何理解?有可能數據分析結果給我們帶來我們直觀上完全認識不一樣的事情,但是它的合理性在哪裏?數據表征度量是解決計算之后最重要的問題。
數據如此之多如同大海撈針一樣怎麼建立更有效數據的搜索方法,從關鍵詞搜索還有沒有新方式?
第三類我們解決了計算問題,解決數據表示和理解的問題,剩下來就是數據怎麼在實際處理當中有效結合的同時。現在數據處理當中熟悉的是hadoop,但是意識到它是有效的方法,但是有很多局限性,比如面對計算能力,數據不斷的增量發展,不僅要解決一段的數量,還要解決間接增加,不僅解決自己向下的分析方法,還有相融合分析數據,這可能對我們現在軟件系統提出新挑戰,並且也適時研發很多研究,新的大數據,雲計算處理模型是什麼樣,對現有的存儲,體積機構有什麼影響?如何有效支持數據分析和發展?在這裏就形成也許未來我們存儲和計算互動,就像我們擁有大數據的企業和公司一樣,它的存儲和計算能力一定不是通用商業性,而是有效解決跟它最契合的數據內容。
接下來關於數據分析,第三個有一個比較有意思就是大數據和Crowd軟件,利用多的軟件實踐和理解來解決軟件群體智能的問題,這個問題很好玩但是剛剛開始,我們解決計算的複雜性一個方面回答圖靈計算,另外我們從E圖靈計算的來看,業餘通過crowd computing可以融合大家智慧一起研究。
第四個就是可信問題,建立隱私和數據的安全保護。這一類問題在大數據當中,在模型雲計算有很多挑戰,這個領域安全問題在在雲計算當中多少年一直排在第一位,其次才是性能和可用性。關於安全風險分析也有常規所提到六類和七類重要研究的點。我們也在這裏給各位報告,北航研究團隊在數據計算複雜性,數據查詢搜索,研究F和X找到X上最近也有好的結果,這一點需要我們繼續努力。
最后我想幾句話怎麼看大數據分析價值,這張圖是技術經濟預測,在這張圖當中有這麼幾個階段,我分別標出雲所在的地點,對應底下劃分實際上給出技術到形成生力的一個全過程。應該大數據現在真正形成一個業和完全影響沒有到來,而關於虛擬世界或者我們對雲計算的發展倒是有相當的機遇。
另外一個方面我們看到大數據還正在處在起步階段,過渡商業的炒作對大家關注有好處,但是很容易忽略它后面的問題,因此也應該權衡好技術發展和業應用的關係。另外大數據的投資像前面所講在雲計算也有很多基礎,在教育、醫療、交通、能源利用方面大數據的分析的確在這些領域有了效果而且有很多投資在這裏發展,那麼未來也給出了對未來形勢的預測。大數據很熱是因為大家預測2016年業會應用巨大。我覺得從電子商務軌跡來看技術創新和業機遇會有一個時間差,不同時間窗口下我們應該抓住它技術或業發展最重要的部分。關於雲計算和大數據我覺得是一場可能會影響我們很長時間重要的內容,也許會對我們行為、思維都會生重要的影響,特別是對我們未來的交流上,但是我想也更需要業界、學術界和擁有資源的資源擁有者能夠共同合作來推進雲計算大數據有效的發展,這個也對中國信息業的發展和信息化的建設會有特別重要的作用,謝謝各位。
- 掌握全球財經資訊點我下載APP
文章標籤
上一篇
下一篇