導(dǎo)讀:亞馬遜一直在致力于讓其人工智能虛擬語音助手變得更加智能。2018年年底,亞馬遜推出了Alexa的“耳語模式”(Whisper Mode)。
亞馬遜一直在致力于讓其人工智能虛擬語音助手變得更加智能。2018年年底,亞馬遜推出了Alexa的“耳語模式”(Whisper Mode)。
這一新功能是為了服務(wù)一個常見的家庭場景:當(dāng)房間內(nèi)有人睡著后,你會不自覺地放低聲音,而走進來的對話者感受到后也會同樣自覺降低音量。
耳語對話模式在睡前或夜間場景很有用,可以在與Alexa對話的同時,讓房間保持安靜。它也讓Alexa與人的互動變得更加自然。
亞馬遜在2019年11月將該功能擴展到所有地區(qū),所有使用Alexa助手的智能家電現(xiàn)在都可以通過耳語模式回應(yīng)用戶的低聲講話。
耳語模式的實現(xiàn)難度在于,其與正常說話的發(fā)音是不同的,耳語主要是清音,也就是說,它不涉及聲帶的振動。與普通語音相比,它在低頻帶中往往具有更少的能量。
據(jù)亞馬遜Alexa語音系統(tǒng)專家Zeynab Raeesy發(fā)布的一篇博文,他們研究了兩種不同神經(jīng)網(wǎng)絡(luò)的使用,以區(qū)分正常說話和耳語的單詞。
神經(jīng)網(wǎng)絡(luò)是一層數(shù)學(xué)函數(shù),大體上模仿了人類大腦的神經(jīng)元。
2020年1月,一篇發(fā)表在《IEEE信號處理快報》(IEEE Signal Processing Letters)雜志2020年1月號上的學(xué)術(shù)論文和一篇附帶的博客文章中詳細介紹了關(guān)于“耳語模式”技術(shù)的研究。
亞馬遜文本到語音(text-to-speech)研究小組的應(yīng)用科學(xué)家Marius Cotescu解釋說,主要的挑戰(zhàn)是如何在保持自然和說話人身份的同時,將正常的語言轉(zhuǎn)換成耳語。
他和他的同事們研究了幾種不同的轉(zhuǎn)換技術(shù),包括基于聲音分析的手工優(yōu)化的數(shù)字信號處理(DSP),但他們最終選擇了兩種機器學(xué)習(xí)方法,以保證它們的魯棒性(它們很容易對不熟悉的說話者進行概括)和性能(它們的性能優(yōu)于手工優(yōu)化的DSP)。
數(shù)字信號處理器(DSP)是一種專門的微處理器(或SIP塊),信號(可能來自音頻或視頻傳感器)不斷從模擬轉(zhuǎn)換到數(shù)字,經(jīng)過數(shù)字處理,然后轉(zhuǎn)換回模擬形式。手工優(yōu)化的匯編代碼往往比機器的更高效,而且許多與DSP計算相關(guān)的常用算法都是手寫的,以便充分利用架構(gòu)優(yōu)化。
研究團隊選擇的兩種機器學(xué)習(xí)方法——利用高斯混合模型(GMMs)和深度神經(jīng)網(wǎng)絡(luò)(DNNs)——都涉及到訓(xùn)練算法,將正常語音的聲學(xué)特征映射到低聲語音的聲學(xué)特征上。
GMMs嘗試為對應(yīng)于輸入值的相關(guān)分布的每個輸出特性標識值范圍,而DNNs(簡單處理節(jié)點的密集算法)通過網(wǎng)絡(luò)試圖預(yù)測與特定輸入相關(guān)的輸出的過程來調(diào)整它們的內(nèi)部設(shè)置。
圖:正常發(fā)聲語音的聲譜圖(左),以及將低語-語音轉(zhuǎn)換模型應(yīng)用于此聲譜圖的結(jié)果。(圖源:亞馬遜)
研究人員的系統(tǒng)將聲音特征表示傳遞給語音編碼器,語音編碼器將其轉(zhuǎn)換成連續(xù)信號。
雖然實驗版本依賴于一個名為WORLD的開源語音編碼器,但部署到客戶端的低語模式利用了一個神經(jīng)語音編碼器,進一步提高了耳語語音的質(zhì)量。
該團隊使用了兩套數(shù)據(jù)來訓(xùn)練他們的語音轉(zhuǎn)換系統(tǒng):一套是他們自己制作的,使用了來自澳大利亞、加拿大、德國、印度和美國的五名專業(yè)配音演員;另一套是該領(lǐng)域的流行基準。
(兩個語料庫都包含了許多說話者的話語對——一個是完全音量的,一個是低聲的。)
為了評估他們的系統(tǒng),他們將輸出與自然語音記錄和通過語音編碼器輸出的語音記錄進行了比較。
在第一組實驗中,研究小組對語音轉(zhuǎn)換系統(tǒng)進行訓(xùn)練,讓它們識別來自不同說話者的數(shù)據(jù),并對來自相同說話者的數(shù)據(jù)進行測試。
他們發(fā)現(xiàn),雖然原始錄音聽起來最自然,但由模型合成的低語聽起來比“語音編碼”的人類語言更自然。
最先進的文本-語音轉(zhuǎn)換模型已經(jīng)可以產(chǎn)生聽起來像人類的語音片段。這種技術(shù)在谷歌助手Google Assistant里也有出現(xiàn),還有Alexa和亞馬遜Polly服務(wù)提供的新聞播報員語音,以及Alexa的名人語音功能。
用戶可以添加智能揚聲器或顯示器的名人語音,入門價格為 0.99 美元,在試用期過后價格將提高至 4.99 美元。
在智能語音市場,亞馬遜已經(jīng)占據(jù)了近七成的市場份額,遠超最大的競爭對手谷歌公司。智能語音助手Alexa越來越多地出現(xiàn)在各種智能設(shè)備上,在2019年5月亞馬遜就宣布Alexa的接入設(shè)備量已經(jīng)超過6萬臺。
不過,盡管Alexa的普及度不錯,其利潤卻一直存疑。著名付費科技媒體The Information在去年年底發(fā)表文章指出,亞馬遜在2019年前10個月共獲得了140萬美元的Alexa技能收入,遠低于其550萬美元的目標。
而Alexa的內(nèi)購應(yīng)用也存在較大利潤缺口,亞馬遜預(yù)計Alexa技能內(nèi)購買在2019年前10個月的總收入將超過1800萬美元,但實際收入僅為470萬美元左右。不少用戶都認為自己已經(jīng)購買了Alexa設(shè)備,不應(yīng)該再為功能和服務(wù)花錢。
對此,亞馬遜倒是很淡定,一位發(fā)言人通過電子郵件回應(yīng)稱:“Alexa是亞馬遜的長期賭注,我們對它的未來一直持樂觀態(tài)度。我們才剛剛開始探索Alexa的潛力?!?/p>