一手情報

名家專欄

清華大學動力機械工程學系特聘教授白明憲2018-07-03 16:31

人工智慧在聲音領域的發展及產業機會

白明憲先生為台灣第一位 Acoustical Society of America (ASA) 會士，Audio Engineering Society (AES) 會員，IEEE senior member, ASME, 中華民國音響學會會員，2016 年當選中華民國振動噪音工程學會理事長

‌

經歷

• 現任國立清華大學動力機械工程學系教授

• 曾任國立交通大學機械系教授

1997, 2000, 2002 年分別前往 CAV, Penn State University, ME, Adelaide University, Australia, ISVR, South Hampton University, UK 訪問研究。研究興趣涵蓋聲學、音訊訊號處理、電聲換能器、噪音與振動監測診斷、主動噪音與振動控制等。至今在上述領域已有學術論文及專書逾百餘篇，並有專利十數件，同時與業界有數項研發合作案之進行。

學歷

• 美國 Iowa State University 力學 / 航太工程博士

• 美國 Iowa State University 機械工程碩士

• 國立政治大學企業管理碩士

• 國立清華大學動力機械工程學系畢

得獎紀錄

•2004 年獲頒交通大學研究獎

•2004 年第二屆全國 SoC 系統晶片設計比賽 "數位消費性電子類 SoC 組" 獲頒特優獎，

•2006 年與 2010 年獲頒國家科學委員會傑出研究獎

成果詳見個人網頁 http://tea.pme.nthu.edu.tw/

• 國家實驗研究院科技政策研究與資訊中心諮詢委員

• 中央研究院台灣經濟競爭與成長策略政策建議議題研議小組成員

「AI 人工智慧」(Artificial Intelligence) 已成為時下最火紅的名詞，科技部長陳良基宣佈去年是臺灣的 AI 元年，投注大量的經費、資源以全面推動人工智慧的發展；業界想要導入 AI，學界踴躍提計畫書，如果主題沒有加上「智慧」兩個字就擔心被砍；全國各地突然冒出許多 AI 相關的學校、補習班、基金會、工作坊、訓練中心。可以說是全民瘋 AI，「您 AI 了沒？」簡直成為今日最潮的問候語。

人工智慧、專家系統 (Expert system)、機器學習 (Machine learning)、類神經網路 (Artificial neural networks)、深度學習 (Deep learning) 的發展可以遠溯至 1950 年代，中間雖歷經幾度的寒冬，甚至是停滯，直到 2016 年 Deep Mind 的 AlphaGo 擊敗了南韓圍棋職業九段棋士李世乭和隔年中國的職業九段棋士柯傑，人們才重新體認到這個有點古老的科技曾幾何時已經脫胎換骨，竟然稱霸之前人們認為機器不可能 (至少在短期內) 超越人類的智力遊戲，不限於圍棋，AI 在機器人、自駕車、無人機、語音助理、智慧家庭、智慧城市、醫療照護、智慧製造、股市金融、無人商店、交通管制、犯罪監控、智慧影音剪輯、藝術創作等各種領域似乎也都展現了無限的潛力。

聲音結合 AI，人類生活大躍進

人工智慧牽涉的層面極廣，從基礎理論與演算法、軟硬體平台到 AI 之應用等不一而足。因為筆者的領域為聲學，以下就針對結合聲音與人工智慧的應用層面提出一些淺見。迄今為止，AI 的應用相對成功的例子就數影像辨識 (刷臉) 和語音處理了，聲音是人類與環境、機器互動的最自然且重要的介面，如何將聲音與 AI 結合，發揮提升人類生活品質的綜效 (Synergy)，是當前一項重要的研發課題。

聲音和人工智慧的整合可能產生許多生活上的應用，例如語音助理 (Voice Assistant)、智慧音箱 (Smart speaker) 等產品研發，幾個國際大廠已進入市場的戰國時代，亞馬遜熱賣的 Amazon Echo 和 Alexa、谷歌的 Google home、蘋果的 Home pod 和 Siri、微軟的 Cortana 等，都是非常好的例子。另外，智慧家庭中對聲音事件 (例如老人跌倒聲、水沸聲、漏水聲等) 的偵測、工廠設備監測或智慧製造程序的噪音源診斷，也是聲音與 AI 整合的應用。這些實例都牽涉到對聲音而言的所謂「惡劣環境」(Adverse environment)，惡劣的聲學因子包括背景噪音 (Background noise)、殘響 (Reverberation)、聲學回授 (Acoustic feedback)、多聲源、移動聲源、遠距收音等諸多不利於聲音或語音信號品質的因素，從而影響接下來的智慧分類或語音辨識率。

音訊加強、智慧推論，精準 AI 聲學發展

而如何克服這些複雜惡劣的聲學環境，一般而言，可以分為兩個層面：音訊加強 (Audio enhancement) 與智慧推論 (Intelligent inference)。音訊加強指的是利用陣列的定位分離功能以及濾波、降噪等信號處理技術作音訊的前處理以提升音質，而智慧推論的部份，則是將聲學模型納入機器學習的訓練過程當中，例如殘響 (Reverberation) 就是一個會嚴重影響語音清晰度的難題。主要的原因在於殘響或者反射音和原音並非完全統計無關，殘響的時間 (T60) 又受房間大小、吸音率等因素影響有數不清的變化，因此到目前為止，可說沒有一個完美的方法可以完全去除殘響。在實際的環境當中，如何讓語音助理、機器人、智慧家庭、行動通訊、視訊會議、虛擬實境 (VR) 等系統運作正常，音訊加強至關重要。筆者今年 7 月在英國 Sheffield 協助 IEEE 籌辦一個感測器網路 (SAM2018) 的研討會，即是以麥克風陣列加強音質為主軸，集合全世界的音訊信號處理學者和高手，共同來挑戰這一個困難的問題。

另一方面，智慧推論的部份，目前皆是以神經網路 (Neural networks, NN) 為主流，直接從資料 (Data) 當中進行特徵萃取 (Feature extraction) 以及深度學習 (Deep Learning)。而神經網路有許多的架構變化，基本上都是一個多進多出的非線性系統，代表輸入層 (Input layer) 和輸出層 (Output layer) 之間的複雜關係，網路的參數則須透過訓練 (Training) 來建立，接著才是驗證 (Validation) 和測試 (Testing) 的階段。運用這樣的概念就可以模仿人類，進行偵測 (Detection)、迴歸 (Regression)、分類 (Classification)、預測 (Prediction)、建議 (Recommendation)、決策 (Decision) 等行為。在此必須強調的是：一個好的神經網路必需仰賴大量的資料，因此和大數據 (Big data)、物聯網 (IoT) 的技術也是息息相關的。

AI 人才，跨領域整合培育

談到 AI 人才的培育，筆者以為，特別對於作 AI 應用的人而言，有兩個重點。首先，對神經網路和機器學習的原理要有基本概念，這就需要一點線性代數、機率、統計、最佳化 (Optimization) 的基礎，如果是在學的學生，有機會的話，應該多修點這些課。再者，對於現今的 AI 平台需有些程度的認識與熟悉，例如 Tensorflow 和 Python 語言、GPU 等軟硬體最好有些了解，現在做人工智慧必須善用工具，就像跑有限元素法 (Finite element method, FEM)，直接使用 ANSYS 套裝軟體就足夠了，然而如何定義問題與決定策略才是關鍵。另一重點則是與應用相關的領域知識 (Domain knowledge) 須多加充實，例如針對 AI 在聲音問題的應用，可能也需要具備聲學、數位信號處理與控制、陣列信號處理等相關知識。AI 畢竟只是工具，脫離應用是無法獨自存活的，因此 AI 人才的培育必須全方位，將電機、資工、機械、數學、語言，甚至藝術、法律、人文等各領域的相關人才有效整合。

最後，人工智慧的前景與未來，到底是翻身的「機會」，還是「泡沫」的開始？真是既期待又害怕。關於這點，筆者十分同意陳部長的看法，應該認清台灣只是小國，資源有限，不要什麼都想做，應該找出較具潛力的方向，集中力量去發展，有計劃的進行佈局，長期耕耘，不要眼高手低或見異思遷，這樣就不至於變成泡沫了，希望學界與業界共勉之。

‌