中文信息學會白碩:自然語言處理與人工智能
鉅亨網新聞中心 2015-03-23 08:16
新浪科技訊 北京時間3月22日下午消息,“新智能時代論壇”今日下午在北京機械工業出版社舉行。中國中文信息學會常務理事白碩應邀在會上做主題演講,演講題目為《自然語言處理與人工智能》。
以下為白碩演講內容:
到實現各種各樣的智能系統,大家都認為善解人意應該是一個最起碼的條件,而這個條件都繞不過去,一個重要的橋樑就是語言,拿語言事,這個很多了,剛才講的圖靈測試,實際上就是要通過這個對話,語言來判斷隱藏在不可金的位置到底是人還是機器。
還有中文屋子,大家如果關心智能問題的話也都會比較熟悉,一個屋子的人不懂中文,只懂英文,執行特定的符號,把搬來搬去,最后是把英文翻譯成中文,會問有沒有人懂這個東西。從亞裏士多德到布爾,實際是從20世紀初有一個重要的語言學轉向,就是從哲學,拍腦袋的思辨到針對文本。看我們的理解,我們的定義,什麼時候出現了問題。語言學裏面也有人思考,語言和概念,就是腦子裏面的關係,這裏是不是一一對應的,就有人舉例子,今天看到楊老師講“孝”,英文到現在沒有對應的翻譯。蒙古人關於馬的詞彙好幾十種,愛斯基摩人對雪的詞彙也有好幾十種,我們不生活在馬和雪的世界的人就很少。是語言造就了概念,還是概念造就了語言,不是一一對應的。幹活的角度看到各種辦法和計劃,助手和機器人退出來,有各種搜索和資料庫在精準化,拿語言去搜,也有各種的過去就有推理機,智能機,一直在延續,雖然進展不大,但是中間都繞不開一個問題,語言到底是怎麼回事,這是我們真正搞自然語言理解,搞自然語言處理的人必須面對的這樣一個東西。我們要善解人意,人意在哪,藏在符號怪陣背后,上面最表層的,通過文字的方式表現的,可能是通過語音的方式表現的,電子輸入的方式表現的。看到有詞法和句法和語意,這是語言學界標準的層次的劃分,我們現在看中間的虛線,涉及到一點點的句法,大部分的下部分,以虛線為界,上面的認為是淺層,虛線之下的認為是深層。這講的是語言學知識的淺層和深層,淺層的這種語言模型見效很快,門檻很低,基本上可以擺脫語言學家,工程師自己可以玩,有數據就可以玩,或者是標注,找一些中專生就可以玩。然后是深層的,有一些地方不清楚的,紛紜的,但是淺層解決不了的問題,最終要通過深層來解決,還有一檔節目音樂會話,不論是按照什麼標準,很多的標準,音樂會是應該占優勢的,但是恰恰這檔節目的是音樂會話,到了深層的句法和語意,甚至到語用是一個隱喻,只有到了這個層次反作用回去才發現正確的是什麼。我們也看到了大家對深度學習充滿了期待,但是學習的度深和淺,跟學習對象這個層次的淺和深是兩個概念。如果是在模型停留在淺層,就是把深度學習用到極致也有局限。
但是深層這個東西就複雜了,因為咱們講證據,淺層的東西大家都看得見,深層有很多是看不見的,看不見就是各各的話,就是沒有一個統一的標準一樣的,所以這個東西就比較難搞,這是我們看到的一個現狀。仁義,是不是跟語言有關係,看到很多例子,很多評論第一反應中文博大精深,中文不一樣,英語很好的方法到中文就不行,有的就我們比別人更懂中文。即使是知識圖譜也出中文知識圖譜,這個知識圖譜到底是知識層面的還是語言層面的,這件事情都好象有了商量了,這明了什麼,我們還停留在我們對母語的認識和對這個人類共同的語言機制的認識,還沒有統一起來,中間有巨大的鴻溝,一般是三個階段,第一階段,碰見這些例子,都認為這是習慣用法,根本沒有規律的,我們也不關心這個,我們的指標很好看,就完了嗎?實際的問題沒有解決。
第二個階段有規律,我們的母語是特殊,使用特殊的東西把這個問題解決了,是有一個階段,但是很有限,真正的能夠進到最后的階段的人很少,很少。又熟悉了母語的特殊性,同時又知道這個世界上關於語言共性普適的進展,而且研究起來的,這種人太少了,而且這種人跟我們的交流太少了,所以我們不知道,經常有法,基於規則的統計是傻子,基於統計的系統是瘋子,規則不能覆蓋的地方表現極其糟糕。基於統計的,因為是很多現在只能做到淺層,深層的不知道怎麼做,只能做到淺層,有局限,又不知道自己的局限在哪,就出現了明明不知道的,沒有自知之明了,大家一看就知道是笑話,但是他敢拿出來。正對角的還有兩個,一個是淺層的基於規則的,比如英語的詞法的,詞根的變換,還原等,有限,淺層的是可以做一點的,也油水不多的,深層的又基於統計的,是有的,但是深層的本身是有一個資源建設的這樣一個積累在裏面的,如果沒有資源建設,深層是無從談起的,你有統計,又要有料的積累,雙重資源的積累是瓶頸,通過瓶頸往前走的不多,但這是正確的路。
我感覺到一個不好的現象,厚此薄彼,我們看到各類專業的領域專家是很受尊敬的,唯獨語言學家不受尊重,不僅很多和自然語言相關的大型的項目裏面語言學家的參與度很不夠,就連谷歌,諾維和喬布斯之間的爭論是很不友好的,語言學裏面有很多寶貝,但是外面的人不認識,認識不到。為什麼還能這麼火呢,我認為這裏面一個是還在吃,我起的名叫規模紅利,我的規模非常大的時候,即使是淺層,我也能做出很好的效果來,為一些淺層就就了的應用提供很好的支持,所以會有這樣的現象。但是另一方面,深層的玩法沒有大的突破,要想抄底,別人不做,你來做,總要有一些瓷器活,但是這個瓷器活不行的。我想對目前這個主流的經營統計的淺層的處理,有兩點我認為是需要高度肯定的,第一是解決了一個非良定義的人工定義的問題,就是人知道這個邊界在哪,但是沒有數學公式把這個邊界寫出來,而且是相關的,不同的環境是浮動的,對這樣的東西,使用統計學習的方式來獲取領域知識,這是正面的,我認為這個方向是對的。
第二,是把符號的根基,不可再分的符號,代表了什麼,這件事情映射,或者是根基置在網絡空間上,個簡單的例子,關於在哪的問題,跟他的地圖聯繫起來了,關於跟哪個人怎麼樣的問題,跟你的通訊錄聯繫起來了,跟你的社交網絡的帳號聯繫起來了,天氣的問題,甚至是車次的問題,跟相應的這樣一些服務聯繫起來了。這個是一個最重要的,高度肯定的一點。但是底下講了,這是不夠的,對語言學領域的這個知識到底長什麼樣,如果不知道長什麼樣就想學習,或者隨便傳一個長什麼樣,然后就學習,這個效果差得很遠,很少有人真的去關注語言學知識真往深了走到底長什麼樣。
深層的,沒有什麼,躲后面,沒有什麼東西硬標準區看,能夠拎出來的,或者你可以一樣,他可以另一樣,大家的法不一樣,要解決共同面對的問題是明確的,一個是地規的深度,一個是相關的距離的寬度,相距越遠還相關,這個地規的越深,越難處理,只要這兩個有所突破,相信不管是了一個什麼樣子,這個樣子肯定是某種程度上反映了深層。我個人研究的興趣,包括語言學知識長什麼樣,就是剛才所問題,利用這個東西做語言知識的自動報警,這個有很多的花樣,可以加站,加技術器,可以把規則編譯成RNN,和自動的機理是非常的接近,這個領域是值得過渡關注的。
自然語言作為知識表直接進行模式的推理和檢索,是我帶學生做的方向,個人在語言學方向也有一些研究的興趣。
語言從三個角度和AI是有貢獻的,是一個自然的交互界面,善解人意繞不開這個界面,本身是一個知識,怎麼學習,怎麼表示,一般的怎麼學習和怎麼表示是其中之一,有共性的。是一個窗口,對語言的反應,我們是可以側面了解內部發生的推理和表示。我提兩個不指望,第一個是做了語言處理的,不指望AI在天上掉下語言處理的餡餅,還是靠自己認識語言,真正的在這個語言上做文章,而不要再其他的地方做文章,其他的地方沒有出路。
第二個不指望是不指望語言處理的這個方向,如果突破了的話,對AI會導致什麼樣的飛躍,或者是什麼東西,這也是不現實的,因為這個東西就是剛才的,一個之一,就是一個邊角的東西,雖然很重要,雖然躲不開,但是對那邊沒有太大的影響,那邊該怎麼研究就怎麼研究。看到各種大腦計劃,大腦計劃的外寫能力都離不開自然語言的處理能力,但是我們可以分幾個類型,最后一個類型是最難,剛才的高考是屬於第三個層面的,到最后一個層面就是應用題,誰能了我覺得很令人佩服,如果做了是對語言下一層的東西掌握了。舉一個應用題,是期權培訓教材裏面一個考題,自然語言理解怎麼樣處理這樣一個題,通過什麼方式入手來處理,這裏面有計算和分析,還有價值取向,要賺錢,在這裏面隱含了如何才是賺錢的,這是投資的一個邏輯。搞大腦計劃,一般都是一個非常龐大的團隊,我們也把各種不同的團隊工作類型和他們的優點羅列了一下,會進行大規模的標注和訓練,非線性領域的鍛煉和開發,都種進行綜合,這個做出來會很震撼,很酷,小團隊也有優勢,可以比較輕靈,特定領域,限用領域作出應用。
也有一種方式,游俠,不可能大規模的推開業務,只會做一些核心技術,特別是頂層的建模,這個語言學知識到底長什麼樣,決定了后續的學習手段加上之后到底能夠走多遠,這個東西我想一個項目立項之時,這個思路就已經定了,后面再做超不過局限,而這個游俠方式可以在這個地方走得更遠。自然語言的關鍵問題還沒有解決,應用方面取得一些進展不是偶然的,有其走得對的地方。突破的鑰匙是掌握在語言學家或者是通曉語言學成果的人手裏。最要害的試金石是兩個地規協調,遠距相關,深層的處理能力有標誌性的進步,我們認為后面有很多機會,不僅大腦計劃有機會,游俠模式也有機會,統計走不下去的地方,規則抄底的機會也是存在的。最后關聯,雖然我是這樣的題目,結論是自然語言處理和人工智能並沒有強關聯,而自然語言處理可以為人工智能的進步做一點點貢獻,但是比較微弱的。謝謝。
- 掌握全球財經資訊點我下載APP
文章標籤
上一篇
下一篇