科技

智能語音：能識別但理解不了

鉅亨網新聞中心 2013-10-25 08:21

‌

10月是智能手錶、互聯網電視開售的集中月，它們與智能手機不同，屏幕一個大一個小，按鈕又不多，傳統的觸屏、按鍵操控還要怎麼繼續？於是“智能語音”的需求誕生了，目前智能語音的現狀是，聲音識別率高，但在理解方面差了點。

蘋果Siri領銜智能語音爆紅

‌

2007年，國手機金立曾推出一種“語音王”的手機，喊一聲“張三”，它會自動撥打張三的電話，這，算智能語音嗎？

別誤會，只是一種傻瓜式語音，是單個字識別，一碰到連續的語句就“萎”了。

2011年10月，蘋果發布了iPhone 4S，自帶一種Siri的語音控制功能，能幫助用戶讀短信、查天氣，還能學習新的聲音語調，提供對話式問答，蘋果開啟了智能語音交互時代。

不信？來看一組用戶與Siri的測試對話。“你是誰？”“我是Siri。”“你是女孩嗎？”“不是”“你是男孩嗎？”“我不覺得咱們有時間扯這些”“我喜歡你”“咱倆是不可能的”。

Siri誕生之后爆紅全球，隨后谷歌、百度也推出了類似語音品。今年HTC、摩托羅拉推出的旗艦機中也帶有此類功能，如小i機器人。

穿戴設備頻出催生三個技術環節

易觀分析師王俊認為，智能語音已經誕生新的需求，“一些穿戴設備沒有鍵盤、沒有觸屏，有些連屏幕都沒有。”

繼索尼、三星發布智能手錶后，10月17日，阿迪達斯也發布了miCoach SMART RUN，加上此前智器、盛大等國廠商推出的品，智能手錶品一時暴增。又在10月，樂視、小米、阿里酷開電視全面預售，三款電視中，樂視、酷開均支持語音識別功能。

智能品的發布，對語音識別提出了新的要求。10月19日，記者見到了樂視TV、智器手錶語音技術提供者雲知聲團隊，其CTO康恆博士表示，智能語音主要包含三個部分：語音識別、語義解析、知識圖譜。

為了演示效果，他用手機語音操控電視：“明天上海天氣”，電視立刻回應“正在為您查詢”，隨後天氣信息便顯示出來。電視先是聽懂康恆話(語音識別)，然后認為他是要查詢上海天氣，最后提供了天氣信息(知識圖譜)。

準確率逐級降低達80%就算優質

“市面上品語音識別準確率會較高，但是到語音解析會低一點，到知識圖譜會更低一點，最終準確率能達到80%就算是優質品。”王俊表示，這三個環節中，語義解析技術難度最高。

目前的發展狀況是，語音識別準確率很高，據康恆介紹，雲知聲語音識別準確率為95%。

“要消滅剩下的5%非常困難，需要從每個細節入手，先把環境噪聲解決，1%可能解決了；再把口音問題解決一點，1%就上去了；再把聲音采樣庫擴大點，1%又消滅了。”康恆表示，要達到99%的準確率，雲知聲可能需要五年。

康恆還道，語義解析與知識圖譜是一個很前沿的課題。“比如‘你有多少根頭髮’，我能聽明白也能理解，但是不知道答案。計算機也需要一個漫長的學習過程。”晨報記者王方

‌