智能語音:能識別但理解不了
鉅亨網新聞中心 2013-10-25 08:21
10月是智能手錶、互聯網電視開售的集中月,它們與智能手機不同,屏幕一個大一個小,按鈕又不多,傳統的觸屏、按鍵操控還要怎麼繼續?於是“智能語音”的需求誕生了,目前智能語音的現狀是,聲音識別率高,但在理解方面差了點。
蘋果Siri領銜 智能語音爆紅
2007年,國手機金立曾推出一種“語音王”的手機,喊一聲“張三”,它會自動撥打張三的電話,這,算智能語音嗎?
別誤會,只是一種傻瓜式語音,是單個字識別,一碰到連續的語句就“萎”了。
2011年10月,蘋果發布了iPhone 4S,自帶一種Siri的語音控制功能,能幫助用戶讀短信、查天氣,還能學習新的聲音語調,提供對話式問答,蘋果開啟了智能語音交互時代。
不信?來看一組用戶與Siri的測試對話。“你是誰?”“我是Siri。”“你是女孩嗎?”“不是”“你是男孩嗎?”“我不覺得咱們有時間扯這些”“我喜歡你”“咱倆是不可能的”。
Siri誕生之后爆紅全球,隨后谷歌、百度也推出了類似語音品。今年HTC、摩托羅拉推出的旗艦機中也帶有此類功能,如小i機器人。
穿戴設備頻出 催生三個技術環節
易觀分析師王俊認為,智能語音已經誕生新的需求,“一些穿戴設備沒有鍵盤、沒有觸屏,有些連屏幕都沒有。”
繼索尼、三星發布智能手錶后,10月17日,阿迪達斯也發布了miCoach SMART RUN,加上此前智器、盛大等國廠商推出的品,智能手錶品一時暴增。又在10月,樂視、小米、阿里酷開電視全面預售,三款電視中,樂視、酷開均支持語音識別功能。
智能品的發布,對語音識別提出了新的要求。10月19日,記者見到了樂視TV、智器手錶語音技術提供者雲知聲團隊,其CTO康恆博士表示,智能語音主要包含三個部分:語音識別、語義解析、知識圖譜。
為了演示效果,他用手機語音操控電視:“明天上海天氣”,電視立刻回應“正在為您查詢”,隨後天氣信息便顯示出來。電視先是聽懂康恆話(語音識別),然后認為他是要查詢上海天氣,最后提供了天氣信息(知識圖譜)。
準確率逐級降低 達80%就算優質
“市面上品語音識別準確率會較高,但是到語音解析會低一點,到知識圖譜會更低一點,最終準確率能達到80%就算是優質品。”王俊表示,這三個環節中,語義解析技術難度最高。
目前的發展狀況是,語音識別準確率很高,據康恆介紹,雲知聲語音識別準確率為95%。
“要消滅剩下的5%非常困難,需要從每個細節入手,先把環境噪聲解決,1%可能解決了;再把口音問題解決一點,1%就上去了;再把聲音采樣庫擴大點,1%又消滅了。”康恆表示,要達到99%的準確率,雲知聲可能需要五年。
康恆還道,語義解析與知識圖譜是一個很前沿的課題。“比如‘你有多少根頭髮’,我能聽明白也能理解,但是不知道答案。計算機也需要一個漫長的學習過程。”晨報記者 王方
- 掌握全球財經資訊點我下載APP
文章標籤
上一篇
下一篇