百度吳恩達:圖像和音視頻搜索將是新方向
鉅亨網新聞中心 2015-01-20 17:15
新浪科技訊 1月20日下午消息,未來論壇創立大會在北京舉行。本屆大會的主題是“指數Exponential ——通向明天的技術力量The power of technology for a new tomorrow”。
百度公司首席科學家吳恩達為本次論壇做了主旨演講,他演講的主題是“機器學習與AI人工智能”。在他看來,通過移動互聯網的興起,交流方式從文本慢慢轉向圖像和視頻,所以我們看到越來越多的人搜索圖像和語言,通過AI我們就能夠更好的了解這些文本和圖像,以及語言之間的互動關係。
吳恩達還闡述道,對於小孩和老年人來,有時候可能打字比較困難,如果你能夠讓他們使用語音搜索,就能夠讓他們使用方便的信息品和服務。對於我們普通人來,使用語言識別和語言搜索也越來越方便,百度在語音識別方面投入了很多。(半夏)
以下是吳恩達的演講實錄:
Andrew Ng:在過去幾年中,AI人工智能和深層次的學習不斷轉變技術,而且給公司創建了巨大的經濟價值,也在更大改進人類和技術獲得的方式。但是關於AI人工智能也有非常多的炒作,我今天要做的就是向大家傳達兩個信息,一個,我希望能夠向大家介紹一下AI人工智能領域所發生的現象,我希望三十年之后,大家能夠講述什麼是腳踏實地,什麼是炒作。其次,如果你是組織的領導人,我希望30分鐘之后你能夠有戰略性的思維,思考一下最近的歷史和AI近期的未來,這樣就能夠更好的領導團隊做出更好的關於AI和技術的決策,因為AI和互聯網正在改變我們的生活和我們的經濟結構。
過去十五年間,我們現在都有一個關於人工智能正循環的理念,我們認為它能夠帶來一個很好的品,服務很多的用戶,有很多的用戶就能夠收集很多的數據,用戶數據、服務數據,有很多數據就能夠使我們使用AI繼續改善我們的品。但是這張圖的問題就在於,直到近期AI這一步其實做的都不好,傳統來,即便是你加大投入,但是它的性能也不會提高。我們現在對AI和深度學習的理解,只要你現在衡量AI的技術等等,他的AI性能會越來越高,這樣就能夠減少它的成本,提高它的性能,在大數據的時代這些深度學習的算法比傳統AI算法要更好,因為他能夠逐漸提高AI的性能,因此歷史上第一次我們能夠在這個圖中完成AI的環節,得到數據,得到很好的品,接觸大量的用戶。
大多數互聯網信息都是基於文本的,通過移動互聯網的興起,我們認為這種交流方式同文本慢慢轉向圖像和視頻,所以在百度我們看到越來越多的人搜索圖像和語言,我認為通過AI我們就能夠更好的了解這些文本和圖像,以及語言之間的互動關係。我現在想給大家介紹一些例子,向大家解釋一下AI是如何使用今天的互聯網。
百度這樣的公司在文本上做了很多工作,我們先從圖像開始。七年前我問我斯坦福的學習,讓他們寫一個算法,在圖像中找到杯子。七年前當時最好的算法,他們使用了最好的算法,這就是結果,在各個地方都找到了杯子,這是錯誤的。對於你和我來,作為人類來,很難理解計算機為什麼無法識別出這個杯子,為什麼計算機看不到我們能看到的東西?計算機很難做到這一點,我們詳細的看一看,我們眼中看到的是杯子,但是計算機看到的是很多的像素,所以計算機的作用是看這些數字來考驗你這些數字代表的是什麼,代表的是這個杯子的口,看起來這是一個計算機的問題,六、七年前如果讓機器來解決這些問題是非常困難的。
五年前發生了變化,興起了深度學習神經網絡的技術,我們當時受到了人類大腦運作的發,開始創造軟件,模擬這些神經元的工作方式。深度學習是什麼意思?我們建立這些神經網絡,深度模擬我們大腦中神經源信息傳統的路徑和方式。在AI中有很多炒作,這些炒作的原因之一,很多人這句話,深度學習推動科技發展,這句簡簡單單的話,這句口號都對AI進行炒作。
在午餐的時候我跟饒毅進行交談,他是北大的生命科學家,我們當時都感嘆,今天我們其實都不了解人的大腦是如何工作的,所以我們的確無法來準確的模擬人類的大腦。我們深度學習的軟件雖然模擬人類的大腦,但是他只是大腦,從特別特別淺的方面來模擬大腦運作方式,我們真的不了解大腦是如何運作的。我們通過不准確的模擬就已經發了我們新技術的發展,我們使用計算機的視覺,我們給他輸入了很多關於杯子的數據。我們在過去五年間發現這些算法,能夠從數據中學習,學習這個杯子長的是什麼樣的,所以我們取得了很長久的進步。今天計算就很容易的識別杯子了。只是在圖像中找到被子,這是一個很簡單的任務。我們的視覺系統能夠做的比這多得多,我希望能夠給大家展示這些圖像,問大家您在這些圖像中看到了什麼,如果我想問您為這些圖寫明,你左邊可能會寫一個黃車在路上行駛,后面是樹林。右面你可以寫是一個起居室,白色的沙發,藍色的地毯,還有下午的斜陽照進了房間。之所以你能夠寫這些明,你了解這些圖像是什麼意思,所以你才能夠寫明。你能做的是詳細的明這些圖像的信息,另一方面計算機只能識別杯子,這兩者之間有巨大的差異。這些明和字幕並不是人寫的,過去幾年中通過軟件的發展,我們現在已經有軟件對這些圖像進行字幕的明,有這樣的技術對我們帶來了新的機會,使我們軟件通過深度的學習分析數據,使我們有更多的數據,使計算機視覺做到五年前無法做到的事情,在可預見的未來,這樣的軟件使我們能夠更好的了解醫學的圖象。計算,自覺的識別可能是很難的,未來是我們的目標之一,百度眼睛品是我們對未來的願景而已。
為什麼深度學習現在開始火了,現在開始越來越好了,我現在解釋一下深度學習的功能,以及他能為我們帶來什麼樣的價值,解釋深度學習是怎樣運作的,為什麼越來越好?我現在要做一個比喻,如果你想象一下我們建造火箭,火箭有兩個部分,第一部分是火箭發射機,是很大的發動機。第二個是燃料,如果發動機小,燃料很多是不可能的,如果發動機很小,燃料很少也不行,燃料燒燒就沒了,所以火箭必須要有一個大發動機和很多的燃料。深度學習和這個差不多,我們現在神經網絡就是我們發動機,它推動AI的發展,燃料就是我們所用的數據,我們現在有這麼多的數據,社會數據化給我們提供了大量的數據,這樣輸入到我們發動機中給我們作為燃料。在AI最近發展主要推動力,因為我們能夠建很大的精神網絡。另一方面,百度這樣的公司能夠收集很多的數據,為這些精神網絡輸入數據。我們有一個很大的技術網絡,同時有很大的數據,這樣當然深度學習可以越來越好了。
我今天提到的一件事,我們現在能夠建造很大的神經網絡,五年前,2010年的時候在學術界用的最大的神經網絡有1000萬的連接,於是模擬神經源之間的連接。四年前,2011年的時候我們在谷歌啟動了一個工程,建造很大的精神網絡,使用1000個谷歌的伺服器,我們當時的團隊建造神經網絡差不多是原來的十倍大。后來我們發現我們當時的技術其實無法更大,后來我們在其他大學應用了其他的技術,你只用三個伺服器就實現了100億的連接,在百度我們使用GPU新的技術,現在可以建造非常非常大的精神網絡。在AI和深度網絡中做出很多的進步,都是因為我們能夠建造巨大的機器,模擬精神網絡,吸收這麼多海量的數據,做出預測。
我再給大家舉一個例子,語音,解釋一下我剛才做的發動機核燃料的比喻。我現在和大家展示一個關於語音識別的例子。百度我們在語音識別方面投入了很多,很多人是使用語音的搜索,對於小孩和老年人,有時候可能打字比較困難,如果你能夠讓他們使用語音搜索,就能夠讓他們使用方便的信息品和服務。對於我們普通人來,使用語言識別和語言搜索也是越來越方便的,直到最近基本上所有語音識別都是很簡單的軟件實施,一個方塊裏是一個複雜的體系,我們最近決定讓我們看一看生語音識別的軟件,把它扔掉,取而代之是神經網絡,所以這也就是我們的發動機,因為百度在GPU早期投入了很多,所以我們能夠建造很大的火箭發動機。燃料是什麼?在語音識別方面,大部分學術人士他們都利用數據,有一些人他們有300個小時,最大的是2000個小時,最開始我們用了幾個小時的語音數據,后來有幾千個語音的數據,后來建立了合成的語音數據。后來我們一共達到了10萬個語音的數據,按照語音識別的標準,實際上這是無法想象的數據量。在百度我們有非常強大的工具,我們可以利用火箭燃料核火箭引擎,把它們放在一起,這樣我們就有了語音識別更高的性能,而且也有很好開放的OPI進行發現。我們不到一個月之前有很好的結果,我覺得人工智能會改變用戶技術的方式就是語音,我們有語音,因為我覺得這裏有越來越多互聯網的溝通走向語音的溝通,現在像百度的公司業非常多語音的品,我們可以利用語音,我覺得整個互聯網經濟和互聯網生態系統只是剛剛開始而已,整個的世界現在都在走向移動的設備,沒有人現在還沒有設計出一個非常好的移動設備輸入的品,正因為如此,我們現在花很多的時間在小的鍵盤上進行輸字,如果可以讓語音識別運作非常好,在一個安靜的環境下,它運作還是非常不錯的。
現在出去你在開車,你的手機是放在旁邊的座椅上,沒有人會利用語音的環境,因為在嘈雜環境下語音識別是不行的,如果我們能設計很好的,在嘈雜環境下運作良好的語音技術,我們當然願意利用語音技術。如果我在開車,我的手機放在旁邊座椅上,我可以跟自己的手機進行溝通,我可以給我妻子發一個短信,我覺得如果有這樣語音技術,這樣會改變我們整個的世界,會改變我們和移動設備互動的方式,我想要重新設計大家的手機,圍繞一個語音識別的界面進行重新的設計,除了移動的設備之外,我覺得語音也在改變物聯網,包括很多家用電器、可穿戴設備等等。有一些人知道,現在在物聯網上,在家用電器中有太多的界面,如果我們能夠和我們的設備進行溝通,進行語音識別將會非常好。如果五年前我們電視的遙控器能夠使你和你的電視進行溝通調頻道,人們覺得你瘋了,我希望可能在我的孩子和孫子輩生命期之內有這樣新的技術,也許有一天我的孫子,或者將來你孫子的孫子會告訴你,他們可以直接和電視進行溝通,調頻。也許有一天你可以和你的微波爐溝通,微波爐會忽略你嗎,它不跟你溝通真的太粗魯,它不禮貌了。我們發現語音在改變移動世界,也改變物聯網,而且現在有太多互聯網的溝通,我們與技術的互動太多了,我們的互動都是圍繞文本的,還有很多的圖像和語音。現在AI人工智能技術還有深入學習,語音技術已經成為最強大的技術,可以幫助我們了解和識別這些數據,我覺得人工智能是有很大的潛力,能夠改變我們和技術互動的方式,包括百度i和無人駕駛車等等,他有非常大的潛力,改變我們跟技術的互動。基於如此,我對這樣的技術感到非常的興奮,我在這個基礎方面開展很多的工作。
當然,這方面也有很多的炒作,我覺得不幸的是,AI快速的發展現在促成了一些炒作,也許人們會想,某一天計算機會成為好的機器人,會掌控整個的世界,和我們創造一個很好的世界,也許它們不會成為邪惡的機器人,我們現在手機上還有非常多的代碼,我個人看來不會出現炒作中出現的狀況。我們可以利用這些技術進行預測,技術不斷的改變,我們的生活就是圍繞技術,但是神經網絡你知道是非常好的識別工具,還有預測的工具,當你輸入數據的時候它們可以進行預測,但是我們在AI領域中工作的這些人,我們參加會議,我們發表論文,我們對未來的看法和其他一些有胡思亂想的人之間有很大的區別,我們的看法不一樣。我覺得如果我們能夠遠離炒作,AI發展是比較健康的,AI創造的挑戰並不是機器會掌控世界,他很可能會幫助我們替代勞工,我們領導者必須要認真考慮技術,要讓人工智能技術幫助我們替代那些繁雜的勞動。
謝謝,這就是我的介紹。
陳恂:非常感謝Andrew,非常感謝你給我們描繪了一個非常光明的未來,和人工智能所驅動的世界相比,我們現在所生活的世界真的是比較粗魯的,沒那麼禮貌,我們將來人工智能驅動的世界將是非常禮貌的,我們時間只允許一個問題。
提問:非常感謝你介紹了人工智能,我是王濤,來自ICE公司,ICE是最大的中國媒體共享公司,在您發言中您介紹了谷歌和百度大腦,他們可以從網絡中,文本和圖像中學習獲得智能。我們ICE研究了一些視頻大腦,我們的目標就是讓機器能夠理解視頻的內容,可以讓人們玩兒視頻,做視頻,也可以把有意思的視頻推薦給每一個人,我們覺得視頻是非常複雜的,在數據方面非常的複雜,在資料庫大小方面也是非常大的。我的問題是,在什麼樣的情況下,視頻大腦這些材料會用在我們生活中?在行業中我們可以做些什麼加速公司的發展?謝謝!
Andrew Ng:你知道我生活在美國,當我的妻子和我去看中國電影的時候,我們也會用ICE,我們創建了非常大的機器,它們處理數據,但是視頻的挑戰就是數據量太大了,正因為如此,深入學習在圖像和視頻方面取得了長足的進展。這裏也有一個非常有意思的法,比如人們知道怎麼樣利用時間數據和視頻數據,可以了解人們現在做些什麼,還有這些物體在做些什麼,我覺得這是很有前景的展望,我希望將來在技術領域也可以實現這樣的發展。
陳恂:我們的時間非常有限,我們再次感謝Andrew,謝謝!
- 2025這樣投資AI最穩健!
- 掌握全球財經資訊點我下載APP
文章標籤
上一篇
下一篇