美股

百度吳恩達：圖像和音視頻搜索將是新方向

鉅亨網新聞中心 2015-01-20 17:15

‌

新浪科技訊 1月20日下午消息，未來論壇創立大會在北京舉行。本屆大會的主題是“指數Exponential ——通向明天的技術力量The power of technology for a new tomorrow”。

百度公司首席科學家吳恩達為本次論壇做了主旨演講，他演講的主題是“機器學習與AI人工智能”。在他看來，通過移動互聯網的興起，交流方式從文本慢慢轉向圖像和視頻，所以我們看到越來越多的人搜索圖像和語言，通過AI我們就能夠更好的了解這些文本和圖像，以及語言之間的互動關係。

‌

吳恩達還闡述道，對於小孩和老年人來，有時候可能打字比較困難，如果你能夠讓他們使用語音搜索，就能夠讓他們使用方便的信息品和服務。對於我們普通人來，使用語言識別和語言搜索也越來越方便，百度在語音識別方面投入了很多。(半夏)

以下是吳恩達的演講實錄：

Andrew Ng：在過去幾年中，AI人工智能和深層次的學習不斷轉變技術，而且給公司創建了巨大的經濟價值，也在更大改進人類和技術獲得的方式。但是關於AI人工智能也有非常多的炒作，我今天要做的就是向大家傳達兩個信息，一個，我希望能夠向大家介紹一下AI人工智能領域所發生的現象，我希望三十年之后，大家能夠講述什麼是腳踏實地，什麼是炒作。其次，如果你是組織的領導人，我希望30分鐘之后你能夠有戰略性的思維，思考一下最近的歷史和AI近期的未來，這樣就能夠更好的領導團隊做出更好的關於AI和技術的決策，因為AI和互聯網正在改變我們的生活和我們的經濟結構。

過去十五年間，我們現在都有一個關於人工智能正循環的理念，我們認為它能夠帶來一個很好的品，服務很多的用戶，有很多的用戶就能夠收集很多的數據，用戶數據、服務數據，有很多數據就能夠使我們使用AI繼續改善我們的品。但是這張圖的問題就在於，直到近期AI這一步其實做的都不好，傳統來，即便是你加大投入，但是它的性能也不會提高。我們現在對AI和深度學習的理解，只要你現在衡量AI的技術等等，他的AI性能會越來越高，這樣就能夠減少它的成本，提高它的性能，在大數據的時代這些深度學習的算法比傳統AI算法要更好，因為他能夠逐漸提高AI的性能，因此歷史上第一次我們能夠在這個圖中完成AI的環節，得到數據，得到很好的品，接觸大量的用戶。

大多數互聯網信息都是基於文本的，通過移動互聯網的興起，我們認為這種交流方式同文本慢慢轉向圖像和視頻，所以在百度我們看到越來越多的人搜索圖像和語言，我認為通過AI我們就能夠更好的了解這些文本和圖像，以及語言之間的互動關係。我現在想給大家介紹一些例子，向大家解釋一下AI是如何使用今天的互聯網。

百度這樣的公司在文本上做了很多工作，我們先從圖像開始。七年前我問我斯坦福的學習，讓他們寫一個算法，在圖像中找到杯子。七年前當時最好的算法，他們使用了最好的算法，這就是結果，在各個地方都找到了杯子，這是錯誤的。對於你和我來，作為人類來，很難理解計算機為什麼無法識別出這個杯子，為什麼計算機看不到我們能看到的東西？計算機很難做到這一點，我們詳細的看一看，我們眼中看到的是杯子，但是計算機看到的是很多的像素，所以計算機的作用是看這些數字來考驗你這些數字代表的是什麼，代表的是這個杯子的口，看起來這是一個計算機的問題，六、七年前如果讓機器來解決這些問題是非常困難的。

五年前發生了變化，興起了深度學習神經網絡的技術，我們當時受到了人類大腦運作的發，開始創造軟件，模擬這些神經元的工作方式。深度學習是什麼意思？我們建立這些神經網絡，深度模擬我們大腦中神經源信息傳統的路徑和方式。在AI中有很多炒作，這些炒作的原因之一，很多人這句話，深度學習推動科技發展，這句簡簡單單的話，這句口號都對AI進行炒作。

在午餐的時候我跟饒毅進行交談，他是北大的生命科學家，我們當時都感嘆，今天我們其實都不了解人的大腦是如何工作的，所以我們的確無法來準確的模擬人類的大腦。我們深度學習的軟件雖然模擬人類的大腦，但是他只是大腦，從特別特別淺的方面來模擬大腦運作方式，我們真的不了解大腦是如何運作的。我們通過不准確的模擬就已經發了我們新技術的發展，我們使用計算機的視覺，我們給他輸入了很多關於杯子的數據。我們在過去五年間發現這些算法，能夠從數據中學習，學習這個杯子長的是什麼樣的，所以我們取得了很長久的進步。今天計算就很容易的識別杯子了。只是在圖像中找到被子，這是一個很簡單的任務。我們的視覺系統能夠做的比這多得多，我希望能夠給大家展示這些圖像，問大家您在這些圖像中看到了什麼，如果我想問您為這些圖寫明，你左邊可能會寫一個黃車在路上行駛，后面是樹林。右面你可以寫是一個起居室，白色的沙發，藍色的地毯，還有下午的斜陽照進了房間。之所以你能夠寫這些明，你了解這些圖像是什麼意思，所以你才能夠寫明。你能做的是詳細的明這些圖像的信息，另一方面計算機只能識別杯子，這兩者之間有巨大的差異。這些明和字幕並不是人寫的，過去幾年中通過軟件的發展，我們現在已經有軟件對這些圖像進行字幕的明，有這樣的技術對我們帶來了新的機會，使我們軟件通過深度的學習分析數據，使我們有更多的數據，使計算機視覺做到五年前無法做到的事情，在可預見的未來，這樣的軟件使我們能夠更好的了解醫學的圖象。計算，自覺的識別可能是很難的，未來是我們的目標之一，百度眼睛品是我們對未來的願景而已。

為什麼深度學習現在開始火了，現在開始越來越好了，我現在解釋一下深度學習的功能，以及他能為我們帶來什麼樣的價值，解釋深度學習是怎樣運作的，為什麼越來越好？我現在要做一個比喻，如果你想象一下我們建造火箭，火箭有兩個部分，第一部分是火箭發射機，是很大的發動機。第二個是燃料，如果發動機小，燃料很多是不可能的，如果發動機很小，燃料很少也不行，燃料燒燒就沒了，所以火箭必須要有一個大發動機和很多的燃料。深度學習和這個差不多，我們現在神經網絡就是我們發動機，它推動AI的發展，燃料就是我們所用的數據，我們現在有這麼多的數據，社會數據化給我們提供了大量的數據，這樣輸入到我們發動機中給我們作為燃料。在AI最近發展主要推動力，因為我們能夠建很大的精神網絡。另一方面，百度這樣的公司能夠收集很多的數據，為這些精神網絡輸入數據。我們有一個很大的技術網絡，同時有很大的數據，這樣當然深度學習可以越來越好了。

我今天提到的一件事，我們現在能夠建造很大的神經網絡，五年前，2010年的時候在學術界用的最大的神經網絡有1000萬的連接，於是模擬神經源之間的連接。四年前，2011年的時候我們在谷歌啟動了一個工程，建造很大的精神網絡，使用1000個谷歌的伺服器，我們當時的團隊建造神經網絡差不多是原來的十倍大。后來我們發現我們當時的技術其實無法更大，后來我們在其他大學應用了其他的技術，你只用三個伺服器就實現了100億的連接，在百度我們使用GPU新的技術，現在可以建造非常非常大的精神網絡。在AI和深度網絡中做出很多的進步，都是因為我們能夠建造巨大的機器，模擬精神網絡，吸收這麼多海量的數據，做出預測。

我再給大家舉一個例子，語音，解釋一下我剛才做的發動機核燃料的比喻。我現在和大家展示一個關於語音識別的例子。百度我們在語音識別方面投入了很多，很多人是使用語音的搜索，對於小孩和老年人，有時候可能打字比較困難，如果你能夠讓他們使用語音搜索，就能夠讓他們使用方便的信息品和服務。對於我們普通人來，使用語言識別和語言搜索也是越來越方便的，直到最近基本上所有語音識別都是很簡單的軟件實施，一個方塊裏是一個複雜的體系，我們最近決定讓我們看一看生語音識別的軟件，把它扔掉，取而代之是神經網絡，所以這也就是我們的發動機，因為百度在GPU早期投入了很多，所以我們能夠建造很大的火箭發動機。燃料是什麼？在語音識別方面，大部分學術人士他們都利用數據，有一些人他們有300個小時，最大的是2000個小時，最開始我們用了幾個小時的語音數據，后來有幾千個語音的數據，后來建立了合成的語音數據。后來我們一共達到了10萬個語音的數據，按照語音識別的標準，實際上這是無法想象的數據量。在百度我們有非常強大的工具，我們可以利用火箭燃料核火箭引擎，把它們放在一起，這樣我們就有了語音識別更高的性能，而且也有很好開放的OPI進行發現。我們不到一個月之前有很好的結果，我覺得人工智能會改變用戶技術的方式就是語音，我們有語音，因為我覺得這裏有越來越多互聯網的溝通走向語音的溝通，現在像百度的公司業非常多語音的品，我們可以利用語音，我覺得整個互聯網經濟和互聯網生態系統只是剛剛開始而已，整個的世界現在都在走向移動的設備，沒有人現在還沒有設計出一個非常好的移動設備輸入的品，正因為如此，我們現在花很多的時間在小的鍵盤上進行輸字，如果可以讓語音識別運作非常好，在一個安靜的環境下，它運作還是非常不錯的。

現在出去你在開車，你的手機是放在旁邊的座椅上，沒有人會利用語音的環境，因為在嘈雜環境下語音識別是不行的，如果我們能設計很好的，在嘈雜環境下運作良好的語音技術，我們當然願意利用語音技術。如果我在開車，我的手機放在旁邊座椅上，我可以跟自己的手機進行溝通，我可以給我妻子發一個短信，我覺得如果有這樣語音技術，這樣會改變我們整個的世界，會改變我們和移動設備互動的方式，我想要重新設計大家的手機，圍繞一個語音識別的界面進行重新的設計，除了移動的設備之外，我覺得語音也在改變物聯網，包括很多家用電器、可穿戴設備等等。有一些人知道，現在在物聯網上，在家用電器中有太多的界面，如果我們能夠和我們的設備進行溝通，進行語音識別將會非常好。如果五年前我們電視的遙控器能夠使你和你的電視進行溝通調頻道，人們覺得你瘋了，我希望可能在我的孩子和孫子輩生命期之內有這樣新的技術，也許有一天我的孫子，或者將來你孫子的孫子會告訴你，他們可以直接和電視進行溝通，調頻。也許有一天你可以和你的微波爐溝通，微波爐會忽略你嗎，它不跟你溝通真的太粗魯，它不禮貌了。我們發現語音在改變移動世界，也改變物聯網，而且現在有太多互聯網的溝通，我們與技術的互動太多了，我們的互動都是圍繞文本的，還有很多的圖像和語音。現在AI人工智能技術還有深入學習，語音技術已經成為最強大的技術，可以幫助我們了解和識別這些數據，我覺得人工智能是有很大的潛力，能夠改變我們和技術互動的方式，包括百度i和無人駕駛車等等，他有非常大的潛力，改變我們跟技術的互動。基於如此，我對這樣的技術感到非常的興奮，我在這個基礎方面開展很多的工作。

當然，這方面也有很多的炒作，我覺得不幸的是，AI快速的發展現在促成了一些炒作，也許人們會想，某一天計算機會成為好的機器人，會掌控整個的世界，和我們創造一個很好的世界，也許它們不會成為邪惡的機器人，我們現在手機上還有非常多的代碼，我個人看來不會出現炒作中出現的狀況。我們可以利用這些技術進行預測，技術不斷的改變，我們的生活就是圍繞技術，但是神經網絡你知道是非常好的識別工具，還有預測的工具，當你輸入數據的時候它們可以進行預測，但是我們在AI領域中工作的這些人，我們參加會議，我們發表論文，我們對未來的看法和其他一些有胡思亂想的人之間有很大的區別，我們的看法不一樣。我覺得如果我們能夠遠離炒作，AI發展是比較健康的，AI創造的挑戰並不是機器會掌控世界，他很可能會幫助我們替代勞工，我們領導者必須要認真考慮技術，要讓人工智能技術幫助我們替代那些繁雜的勞動。

謝謝，這就是我的介紹。

陳恂：非常感謝Andrew，非常感謝你給我們描繪了一個非常光明的未來，和人工智能所驅動的世界相比，我們現在所生活的世界真的是比較粗魯的，沒那麼禮貌，我們將來人工智能驅動的世界將是非常禮貌的，我們時間只允許一個問題。

提問：非常感謝你介紹了人工智能，我是王濤，來自ICE公司，ICE是最大的中國媒體共享公司，在您發言中您介紹了谷歌和百度大腦，他們可以從網絡中，文本和圖像中學習獲得智能。我們ICE研究了一些視頻大腦，我們的目標就是讓機器能夠理解視頻的內容，可以讓人們玩兒視頻，做視頻，也可以把有意思的視頻推薦給每一個人，我們覺得視頻是非常複雜的，在數據方面非常的複雜，在資料庫大小方面也是非常大的。我的問題是，在什麼樣的情況下，視頻大腦這些材料會用在我們生活中？在行業中我們可以做些什麼加速公司的發展？謝謝！

Andrew Ng：你知道我生活在美國，當我的妻子和我去看中國電影的時候，我們也會用ICE，我們創建了非常大的機器，它們處理數據，但是視頻的挑戰就是數據量太大了，正因為如此，深入學習在圖像和視頻方面取得了長足的進展。這裏也有一個非常有意思的法，比如人們知道怎麼樣利用時間數據和視頻數據，可以了解人們現在做些什麼，還有這些物體在做些什麼，我覺得這是很有前景的展望，我希望將來在技術領域也可以實現這樣的發展。

陳恂：我們的時間非常有限，我們再次感謝Andrew，謝謝！

2025掌握債券投資契機主動 + 靈活
掌握全球財經資訊點我下載APP

文章標籤

上一篇
去年外銷訂單創新高達4728億美元
下一篇
華能國際電力(902)湖北應城熱電2號機組投入運行