語言對於人類文明的重要性不言而喻,但是語言的起源卻是個高度爭議的話題,我們對此幾乎一無所知。我們不瞭解人類,也不瞭解動物,更是不懂宇宙,甚至我們都不能完全搞清楚一些看似簡單的問題,比如人類的耳朵為何要有這麼奇怪的耳廓?
讓機器聽懂世界承載了人類千年夢想
語言承載了人類文化,人類需要通過語言學習知識和傳遞訊息,這是人類區別於動物界最重要的特性之一。而且,人類語言超過了五千多種,人類將大部分時間花費在學習各種語言上似乎也不是一個更有效的途徑。
因此,未來的機器智慧時代,機器也必然需要通過語言實現與人類之間的交互,似乎最近的科幻片都已經暗示了這個問題。現在的科幻就是未來的現實,讓機器聽懂世界,這是未來機器智慧時代的關鍵問題,也是人類一個更大的夢想,但是,我們距離人類的這個夢想還有多遠呢?
首先明確一個概念,讓機器聽懂世界,這裡面其實蘊含了多個歷程,包括聽懂人類語言,進而聽懂動物叫聲,甚至聽懂自然聲音,亦或類似地球的耳朵 LIGO 那樣聆聽宇宙的“聲音”。所有這些都是極其複雜的過程,因為我們人類實際上也沒有達到這種能力,但是我們期望機器能夠延伸人類的能力,從而實現人類的夢想。
這是一個簡單的道理,有時候我們做不到的事情,總期望別人能夠做到,所以語音智慧事實上承載的是幾千年來人類的偉大夢想。
再看第一個歷程,既讓機器聽懂人類語言,這已經是最近技術和市場上非常火熱的事情,也是全世界科學家為止奮鬥了六十多年的事業。
這其中最為典型的,就是以亞馬遜(Amazon, AMZN-US) Echo 所引領的智慧音箱,迄今為止,佔據全球市值排名榜的全球巨頭,蘋果(Apple, AAPL-US) 、微軟(Microsoft, MSFT-US) (Microsoft)、亞馬遜 (Amazon) 、Google、臉書(Facebook, FB-US)、三星 (Samsung) 等,創歷史的同時發力爭奪未來智慧時代的語音入口,甚至亞馬遜和阿里率先不惜代價開啟了補貼大戰。這些全球巨頭的激烈競爭,將對未來十年甚至二十年產生極其重要的影響。
那麼,如何才能讓機器聽懂人類語言呢?這需要解決三個核心關鍵問題:聽見、聽準和聽懂,從技術角度來看,就是拾音、識別和理解三個關鍵技術環節。
拾音是最為基礎的環節,必須保證讓機器聽得見聲音,這部分主要是聲學問題;識別是將符合要求的聲音轉化成文字,這部分主要是語音識別的問題;理解則是根據識別出來的文字,準確理解人類的指令甚或情感。鑒於語音智慧設備已經大量出現在我們生活場景之中,當前技術的核心關鍵就是聲學問題和語義理解。
近場語音是機器聽懂人類的率先嘗試
近場語音交互主要是指人類距離機器不超過 30 釐米範圍的語音識別技術,這項技術利用距離巧妙迴避了真實場景下複雜的聲學問題,可以理解為一種實驗室理想環境下的語音交互技術。
近場語音識別從上世紀 50 年代就開始研究,但是長期沒有實質性進展,直到蘋果在2010年推出 Siri 的應用,這才引起了全球的關注。到現在為止,近場語音交互技術已經比較成熟,平均識別率可以達到 95% 以上,主流的手機和平板等設備都已經普遍支持近場語音應用。
這裡提醒一下,很多人工智慧大會或者電視演播廳所展示的實時語音識別或者翻譯技術,其實都是近場語音交互技術,這些聲音都是從近場麥克風採集的高質量數據,與會場的嘈雜環境並沒有實際關聯。
但是近場語音交互受到了真實場景的巨大制約,並沒有展現出來語音交互可以解放雙手的先進性,因此在很多場景中,事實上近場語音交互都是雞肋一般的存在,並沒有發揮出真正的威力,也就說,這個技術其實被嚴重低估了。直到遠場語音交互技術的出現,成功解決了真實場景下的複雜聲學問題以後,至少技術達到了用戶認可的門檻,語音交互才真正出現了替代鍵盤滑鼠和觸控螢幕的可能性。
遠場語音將語音智慧落地到真實場景
遠場語音交互主要解決 30 釐米到 5 米範圍內的語音交互問題,這個範圍事實上就是人類之間溝通交流的最佳距離,距離太近容易觸發自我保護意識,而距離太遠則會增大交流難度。注意語音交互並非只是語音問題,人類的交互其實是一個綜合的過程,包括了表情、眼神、肢體動作等等一系列影響因素,太遠距離的語音交互事實上意義不大,比如隔牆的語音交互事實上只要做好語音控制就可以了,真實場景下並不需要複雜的交互設計,因為人類也很難隔牆與人聊太多事情。
遠場語音交互的歷史是比較短暫的,這項技術以前長期沒有實質性突破,2014 年是個重要的轉折點,亞馬遜的 Echo 最早開始探索這個市場,但是直到 2016 年末,全球才真正開始重視這項技術,並且短短一年時間,引領全球市場都進入了激烈博弈的階段。聲智科技是遠場語音交互的代表企業之一,其成長歷史就是這一年多技術和市場變遷的見證。
遠場語音交互的代表產品自然就是智慧音箱,盤點一下全球巨頭在智慧音箱的佈局就可窺得一二。
亞馬遜的 Echo 發佈四年已然影響深遠,Google 的 Home 鍵走偏鋒以技術做博弈,微軟的 Invoke 則仍然堅持工程師定義產品的文化,蘋果的 HomePod 更是剛剛跳票低估了高端智慧音箱的難度,而臉書和三星仍然在緊鑼密鼓的研發。
這裡還有最具說服力的重要數據,就是亞馬遜 Echo 的銷量已經超過千萬。也就說,智慧音箱作為語音智慧的突破口已經成立,這是遠場語音交互的一大進步,只有落地真實場景並且經過驗證的技術才具有生命力。
注意,這裡還是特別強調智慧音箱只是遠場語音交互的突破口,並非什麼語音的唯一入口,因為未來的機器智慧時代,語音入口不僅僅只有智慧音箱,比如電視、冰箱、汽車和機器人都有可能成為重要入口。但是智慧音箱又是非常重要的,因為不管產品形態怎樣變化,其本質的核心其實還是智慧音箱的技術架構。
聽懂世界還有哪些必須解決的問題?
若讓機器聽懂世界,遠場語音交互技術也僅是個嘗試而已,事實上遠場語音技術本身也只是剛剛起步,即便 5 米以內,其雜訊抑制、回聲抵消、混響去除、遠場喚醒和遠場識別等核心技術還存在諸多缺陷。但是技術一直在疊代發展,特別是當技術落地場景以後,源源不斷的真實數據和客戶需求將帶動技術更加快速的發展。
從技術層面來看,讓機器聽懂世界涉及了數學、物理學、語言學、醫學、計算機學等各學科的知識,很難一一枚舉出來,但是若從應用場景來看,則相對比較簡單,讓機器聽懂世界包括了人類語言、人類情感、動物聲音和自然聲音。
- 聽懂人類語言
前面提到了近場和遠場語音交互的技術,這可以解決5米以內的語音交互問題,基本囊括了人機交互的主要問題,但是還有更多複雜場景的問題需要解決,比如:
遠場語音交互:主要解決 5 米以內的喚醒、識別和理解問題,雖然這項技術已經落地實際的場景和產品,但是對於諸如雞尾酒會效應等難題仍然還沒有實質性進展,而且從人類相互交流的過程來看,當前的遠場語音交互技術還遠遠沒有達到非常準確、非常順暢的程度。
超遠場交互:主要是指 5 米、10 米、20 米甚至 500 米以外的超遠距離拾音和交互,這種技術的難度就是解決在遠距離聲音傳播過程中能量衰減的約束下獲取高質量聲音數據的問題,因為沒有高質量的聲音數據,再厲害的機器學習也沒有任何價值。
這種技術主要應用在智慧安防場景,比如交通監控,搭配遠距離聲發射技術可以實現遠程指揮的自動交通處理。
局部場交互:主要是指針對某個局部範圍內的語音識別和理解,主要適應於智慧醫療、智慧法庭、智慧教育、智慧會議等特殊場景,比如實時記錄和識別法官、醫生或者教師說過的話。這種場景的需求比較單一,僅僅針對特定目標進行拾音和識別即可,但是對於識別的速度和精度要求非常高,一般也要達到 98% 以上。
分佈場交互:主要是指狹小空間內多人識別和響應的問題,最常見的就是汽車場景,現在的汽車智慧交互僅僅照顧了駕駛員的需求,但實際應用中可能需要照顧汽車其他乘客的交互需求,這就涉及了多人識別和交互的問題。事實上,隨著智慧音箱等一系列智慧設備的普及,未來我們的家庭就是典型的分佈場交互場景。
多語種交互:主要適應跨語言時候的自由交互場景,當前 Google 推出的翻譯機部分解決了一些問題,但是這些翻譯機主要還是近場語音,過渡到遠場語音交互的難度很大,因為翻譯的場景確實太複雜多變了,在數據積累還沒形成規模之前,這類技術還很難有實質性突破。
大詞彙交互:思考一個問題,能不能將語音識別應用到話劇的場景?似乎這是一個更加頭疼的問題,因為從聲學、識別到理解都是巨大的挑戰。話劇演員一般不會佩戴麥克風,這就要求遠場多人識別,而且話劇演員常會自白一大段,如何進行端點識別和語音識別?這樣發散來想,當前的智慧語音技術真的是才剛剛開始。
- 聽懂人類情感
至於聽懂人類情感,則是一個更加複雜的過程,人類至今也沒搞清楚情感的來源,所以即便熱戀中的情侶,也無法搞清楚對方的真實需求。但是至少有幾個技術點是和人類情感有關係的,這裡簡單闡述一下。
聲紋識別,聲紋識別的理論基礎是每一個聲音都具有獨特的特徵,通過該特徵能將不同人的聲音進行有效的區分。
聲紋的特徵主要由兩個因素決定,第一個是聲腔的尺寸,具體包括咽喉、鼻腔和口腔等,這些器官的形狀、尺寸和位置決定了聲帶張力的大小和聲音頻率的範圍。
第二個決定聲紋特徵的因素是發聲器官被操縱的方式,發聲器官包括唇、齒、舌、軟齶及齶肌肉等,他們之間相互作用就會產生清晰的語音。而他們之間的協作方式是人通過後天與周圍人的交流中隨機學習到的。
情感識別,主要是從採集到的語音信號中提取表達情感的聲學特徵,並找出這些聲學特徵與人類情感的映射關係。情感識別當前也主要採用深度學習的方法,這就需要建立對情感空間的描述以及形成足夠多的情感語料庫。情感識別是人機交互中體現智慧的應用,但是到目前為止,技術水平還沒有達到產品應用的程度。
哼唱識別,主要是通過用戶哼唱歌曲的曲調,然後通過其中的旋律同音樂庫中的數據進行詳細分析和比對,最後將符合這個旋律的歌曲訊息提供給用戶。目前這項技術在音樂搜索中已經使用,識別率可以達到 80% 左右。
聲光融合,聲學和光學總是相伴相生,人類的情感也是通過聽覺和視覺同時接受分析的,因此機器也必然將語音和圖象結合在一起分析,才能更好的理解人類的情感,但是語音和圖象在各自領域並沒有發展成熟,因此聲光融合的研究一直處於被輕視的尷尬地位。
- 聽懂動物聲音
讓機器聽懂動物的聲音,或許是一個苛刻的要求,因為人類至今也沒有聽懂動物的聲音,甚至嬰兒的哭聲,我們只能大概的去猜測。但是這不影響機器的進步,因為在很多領域,機器遲早是超越人類的。
事實上,這類研究一直在進行,比如海豚、蝙蝠、鯨魚、猩猩、老虎、獅子、貓狗、蚊子、蜂鳥等等動物的聲音特徵,當數據積累足夠多的時候,根據聲音推斷這些動物的行為不是不可能,而人類的進步很大程度也得益於這種仿生。
- 聽懂自然聲音
當然,機器也必須聽懂大自然的聲音,比如雷聲、雨聲、地震、海浪、風聲等聲音,通過這些聲音則可以辨別機器所處的環境,並且根據環境做出判斷。其實,這些技術也正在落地,比如聲智科技正在研究的小樣本學習技術,就是根據雜訊來判斷場景的變化,顯然廚房的雜訊和客廳、臥室不會相同,同樣地,咖啡廳、火車站、機場、辦公室、汽車等場景的雜訊也有很大區別,通過區分這些噪音則可以快速匹配出場景,這將非常有利於後端智慧的處理,比如自然語言理解增加了場景訊息以後就會更加準確。
- 聽懂世界還需要更多硬科技的嘗試
讓機器聽懂世界,不能僅僅依賴算法和數據,更重要的還是底層硬科技的突破,下面列舉了聲智科技正在參與研發的一些基礎技術,期望能有更多的學子參與到這些令人興奮的研發過程之中。
智慧麥克風,可以簡單理解為將當前的 MEMS 麥克風與低功耗晶片融合在一起,主要是解決低功耗語音喚醒和識別的問題。
矢量麥克風,當前的麥克風都是標量麥克風,只能獲取單一的物理訊息,也就是能量值,根據時間訊息和陣列配置才能獲取頻域和相位訊息。若將標量麥克風升級成為矢量麥克風,則增加了一個維度的特徵訊息,這對於機器學習的提升將會非常明顯。
薄膜麥克風,這是一種柔性的技術,可以想像把整個電視螢幕當作麥克風的場景,通過特殊的奈米材料技術,甚至可以把任何界面都當作聲音的接收裝置,通常來說這種換能器裝置也可以把聲音轉變成電能。
柔性揚聲器,這實際上和薄膜麥克風的原理類似,只是將換能的方向換了一下,柔性揚聲器目前多種方案,目前來看其難點主要還是發聲的頻寬和失真問題。
雷射拾聲,這是主動拾聲的一種方式,可以通過雷射的反射等方法拾取遠處的振動訊息,從而還原成為聲音,這種方法以前主要應用在竊聽領域,但是目前來看這種方法應用到語音識別還比較困難。
微波拾聲,微波是指波長介於紅外線和無線電波之間的電磁波,頻率範圍大約在 300MHz 至 300GHz 之間,同雷射拾聲的原理類似,只是微波對於玻璃、塑料和瓷器幾乎是穿越而不被吸收。
高速攝像頭拾聲,這是利用高速攝像機來拾取振動從而還原聲音,這種方式需要可視範圍和高速攝像機,只在一些特定場景裡面應用。
小結
小結一下,讓機器聽懂世界的技術正在全球快速的演化,相信不久的將來,我們肯定能看到更加智慧的機器,因此,既不要抨擊當前的人工智慧技術,也不要盛讚現在的基礎科技技術,保持一顆平靜的心,正確給予科技界和產業界的支持才是對於未來最大的投資。不管外界怎樣評論,一個技術公司的價值最終還是體現在這個公司為社會創造了多大的價值。
《新芽》授權轉載
【延伸閱讀】