人臉識別不夠看 「唇語識別」正引爆科技大戰
鉅亨網新聞中心 2017-12-21 14:48
指紋辨識、臉部辨識、虹膜辨識、語音辨識看來似乎落伍了,唇語識別技術的成功開發引爆智慧音響等語言交互戰場,科技大廠紛紛佈局,新的辨識戰國時代儼然來臨。
據搜狐報導,搜狗 (SOGO-US) 在今年的烏鎮世界互聯網大會上,展出一項黑科技 -- 唇語識別,上周四 (14 日) 在北京公開演示這項技術,在非特定開放口語測試中,通用識別的準確率在 60% 以上,而在車載、智慧家居等垂直場景下,準確率高達 90%。
搜狗並非首家開發唇語識別技術的公司,早在 2017 年 3 月,海雲資料創始人兼 CEO 馮一村在亞洲大資料可視分析峰會上,就發佈了重慶市公安科研所與海雲資料共同研發的唇語識別技術,它的中文識別模型準確率已達到 70%。
Google(GOOG-US) 的 DeepMind 團隊更早於 2016 年利用 BBC 視頻對他們的 AI 系統進行了 5000 個小時的訓練,測試時唇語識別正確率達到了 46.8%。
唇語識別技術的發展可追溯到上世紀 80 年代,當時迅速發展的語音辨識技術存在抵抗雜音干擾能力不強,性能大幅降低等缺陷。研究者後來發現,人類的語言識別系統是由聲音和口型感知過程所構成,聲音雖然是人類語言中最重要的方式,但口型、表情讓人更加準確的理解對方所講的內容。受此啟發,研究者開始研究唇語識別。
因為唇語識別完全不會受到雜訊干擾,在多人對話中也能有效進行區分,能夠解決語音辨識的缺陷,將唇語識別與語音辨識結合起來能夠提高系統的正確率和抗干擾能力,唇語識別發揮空間寬廣。
唇語識別技術從鏡頭輸入到理解輸出,中間最重要的關鍵是:視覺前段、視覺特徵提取、唇動識別。
「視覺前段」包括人臉檢測與唇的檢測和定位,先用人臉檢測演算法得到人臉然後有針對性的定位唇動;或者利用最佳閩值二值化演算法,以唇的邊緣是平滑的,和左右形狀對稱為條件,作為二值化閩值選定的約束條件,得到平滑而對稱的唇圖像
「視覺特徵提取」是對獲取的唇圖像進行處理得到對應特徵,特徵提取方法主要分為基於圖元的方法和基於模型的方法兩大類;搜狗所用的基於模型的方法就是,對唇的輪廓建立一個模型,將特徵資訊包含在這個模型之中,並對模型中特徵資訊的變化用一個小的參數來描述。這類方法的優點是重要特徵被表示成二維參數,不會因光照、縮放、旋轉、平移而改變,缺點是忽略了細微的三維資訊,可能會對後面的識別過程造成影響。
「唇動識別」目前採用的技術大多是隱瑪律可夫模型 (Hidden Markov Model),該模型認為唇動信號在極短時間內是線性的,可以用線性參數模型來表示,然後將許多線性模型在時間上串接起來,組成一條瑪律可夫鏈。瑪律可夫鏈可以用來描述統計特徵資訊的變化,並且這種變化過程與人的唇動過程是相吻合的,所以隱瑪律可夫模型能夠識別唇動並與相應語句匹配轉化成文字。
唇語識別技術的應用方向有很多,比如手語和聽力障礙患者的輔助教育、國防反恐方面的情報獲取、個人的身份識別以及公共安全領域等都擁有巨大的應用潛力。但在目前來看最大的應用還是輔助語音辨識。
除了搜狗之外,阿里巴巴 (BABA-US)、百度 (BIDU-US)、科大訊飛 (002230-CN)、蘋果 (AAPL-US)、Google、微軟 (MSFT-US)、亞馬遜 (AMZN-US) 等大公司都投入佈局語音交互。
阿里巴巴今年 7 月發佈一款智慧音響天貓精靈,可以接受各種語音指令,搭載中文人機交流系統 AliGenie,有望成為家庭智慧小助手。在 11 月 16 日百度也推出了首款智慧音響 raven H,其採用 19x19 的點陣觸控式螢幕,內置 DuerOS 2.0 語音交互系統,擁有語音和控制器兩種對話模式。
京東 (JD-US) 的叮咚智慧音響,小米的小愛同學,喜馬拉雅的小雅音響等智慧音響產品。
這些大廠紛紛推出智慧音響的原因是看到了新型對話模式的大趨勢,結合唇語識別能夠解決「抗躁音能力」與「遠場交互能力較低」這兩大頑疾。看起來,一個新識別時代已經來臨。
- 掌握全球財經資訊點我下載APP
延伸閱讀
上一篇
下一篇