導讀:VSR領域主要是訓練人工智能在沒有任何音頻輸入的情況下讀懂唇語。
據(jù)加拿大媒體VICE報道,近日,視覺語音識別(VSR)領域又迎來重大突破,愛爾蘭初創(chuàng)公司Liopa開發(fā)出一種名為SRAVI的針對語音障礙情況下語言識別app。并且SRAVI有望成為首款可供公眾購買的唇語識別工具。
唇語識別是一項集機器視覺與自然語言處理于一體的技術(shù),通過分析說話人唇部運動,結(jié)合大數(shù)據(jù)匹配出有最大可能性自然語句。英特爾、谷歌和我國的搜狗等公司都訓練人工智能(AI)讀懂唇語。并且唇語識別AI也開始實驗性的應用于醫(yī)院、電力公司、公共交通等領域。
一、SRAVI可識別短語,準確率達90%
一位患者坐在病床上,他脖子上纏有帶開口的繃帶,供氧氣管套管通過并固定住。由于最近接受手術(shù),這位患者無法發(fā)聲。醫(yī)生拿起智能手機,記錄下病人說的短語。這款名為SRAVI的app會分析唇部運動,并在兩分鐘內(nèi)返回其識別結(jié)果——“我需要吸引器”。
這似乎只是一個簡單的互動,在某些方面,SRAVI非常簡單。它能準確識別幾十個短語,準確率約為90%。
VSR領域主要是訓練人工智能在沒有任何音頻輸入的情況下讀懂唇語。幾十年來,研究人員一直致力于此類技術(shù),但事實證明,即使深度學習系統(tǒng)的進步,幫助解決了其他具有里程碑意義問題,AI讀懂唇語仍是一項具有挑戰(zhàn)性的任務。這項研究受到廣闊商業(yè)應用前景預期推動——從應用于監(jiān)控工具到靜音通信app,以及改進虛擬助手性能。
Liopa公司正在為SRAVI申請歐洲I類醫(yī)療器械認證,并希望能在8月之前完成。這樣公司就可以向醫(yī)療服務商銷售該產(chǎn)品了。
二、唇語識別AI商業(yè)化不僅面臨隱私問題
唇語識別并不是一個全新的人工智能方向,許多科技巨頭也一直在研究唇語識別AI,早在2003年,英特爾公司就開發(fā)出了唇語識別軟件Audio Visual Speech Recognition(AVSR),2016年谷歌子公司DeepMind唇語識別技術(shù)已經(jīng)可以支持17500個詞,新聞測試集上識別準確率首次達到50%以上,2017年搜狗推出中文唇語識別系統(tǒng)。
隨著唇語識別AI成為一種可行的商業(yè)工具,技術(shù)人員和隱私監(jiān)管機構(gòu)越來越擔心,它未來會被開發(fā)成什么樣以及會部署在哪些領域。
例如,SRAVI并不是Liopa正在研究的唯一一款唇語識別AI。該公司還和英國一家國防研究機構(gòu)合作開發(fā)另一種工具,使執(zhí)法機構(gòu)能夠通過無聲閉路電視錄像進行搜索,并識別人們何時說出過某些特定關鍵詞。
美國摩托羅拉公司(Motorola Solutions)有一項旨在幫助警察的唇語系統(tǒng)專利。
美國無人機初創(chuàng)企業(yè)Skylark Labs創(chuàng)始人告訴Motherboard(VICE旗下科技版塊),其唇語系統(tǒng)目前已部署在印度的一些私人住宅和一家國有電力公司中,以檢測粗俗語言。
英國生物識別和監(jiān)控攝像機專員弗雷澤桑普森(Fraser Sampson)接受Motherboard采訪時說:“從我的角度來看,這是唇語識別可應用的其中一個領域,這是關于‘我們可以做到,并不意味我們應該這樣做’一個很好的例子。我在這個領域的主要關注點不在技術(shù)可以和不可以做什么,而是人們相信它可以做到其所說的,這會產(chǎn)生寒蟬效應。如果這項技術(shù)限制大眾在公共場合發(fā)言,那么我們將面臨的不僅僅是隱私問題了?!?/p>
唇語識別AI的出現(xiàn)讓人想起了人臉識別技術(shù)。幾十年來,人臉識別技術(shù)一直是個小眾研究領域,然后它從2000年代初開始作為監(jiān)視工具悄然迅速商業(yè)化。
人臉識別技術(shù)的許多問題直到最近才被公之于眾,很大程度上還要歸功于人臉識別受害者積極研究和行動。具體來說,麻省理工計算機科學家喬伊·博拉姆維尼(Joy Buolamwini)和前谷歌AI倫理學家提姆尼特·格布魯(Timnit Gebru)在2018年發(fā)表了一篇具有重要意義的論文,論文中首次揭示了人臉識別用于女性和有色人種識別準確性較低。當這些擔憂進入主流話語體系時,電話、私人企業(yè)中人臉識別的應用已經(jīng)無處不在。
監(jiān)控攝像頭遍布美國許多城市的街頭巷角。至少有三名黑人男子因為人臉識別不準而被錯誤逮捕,實際數(shù)字幾乎肯定更高,而且該技術(shù)還被用于追蹤美國“Black Lives Matter”運動的抗議者,以及其他各種可疑人員。在過去兩年中,也就是在該技術(shù)首次大規(guī)模公開部署近20年后,美國草根運動導致十多個城市和州的警察和個人開始禁止使用人臉識別技術(shù)。
大眾對人臉識別技術(shù)的強烈反對推動了AI研究人員思維轉(zhuǎn)變,即他們該如何考慮其研究發(fā)現(xiàn)的未來應用。例如,神經(jīng)信息處理系統(tǒng)進展大會(NeurIPS)去年首次要求研究人員在提交論文時,加上關于新研究可能會對社會產(chǎn)生哪些影響的論述。
《人工智能:計算機如何誤解世界(Artificial Unintelligence: How Computers Misunderstand the World)》一書作者梅雷迪思·布魯薩德(Meredith Broussard)告訴Motherboard:“研究很棒,但是當我們發(fā)現(xiàn)某一特定知識或者研究路線具有毀滅性后果時,作為研究人員,我們有責任停止它并實施相應措施。”
三、監(jiān)控領域應用唇語識別需受管控
唇語識別AI作為一項商業(yè)技術(shù)仍處于起步階段,但技術(shù)早期關注于在監(jiān)控方面應用引發(fā)了人們的擔憂,科學發(fā)展如此之快,當后果再次顯現(xiàn),可能為時已晚。
“這項技術(shù)剛開始發(fā)展的確太快了,不過在去年,開始有論文圍繞VSR技術(shù)倫理問題進行討論?!彼顾蛄_斯·佩特里迪斯(Stavros Petridis)說,他最近在Facebook工作,但與Motherboard談到了他之前在英國帝國理工學院(Imperial College London)的研究。“鑒于目前還沒有可商用的唇語識別app,這次很有可能在唇語識別AI技術(shù)完全商業(yè)化之前才考慮倫理問題?!?/p>
帝國理工學院博士生羅德里戈·米拉(Rodrigo Mira)告訴Motherboard,他和他的同事知道自己研究的領域是有爭議的。他將該研究工作和滲透測試進行了比較——滲透測試是一種在計算機系統(tǒng)中尋找漏洞以修復它們的網(wǎng)絡安全實踐。換句話說,這項研究是允許受道德規(guī)范約束的學術(shù)機構(gòu)在新技術(shù)被犯罪分子利用之前發(fā)現(xiàn)它。
米拉表示:“唇語識別AI的主要問題是人們總是會談論政治。這不是我們是否應該停止研究,而是我們有能力通過觀察人們來了解他們在說什么時,我們應該用它做什么?阻止不道德地使用該技術(shù)的方法,不是關閉帝國理工學院,解決這個問題的方法是把它作為一個政治問題來處理。”
人工智能倫理學家同意,政府對人臉識別和唇語識別AI等生物識別監(jiān)控技術(shù)應盡早和大力度監(jiān)管,這對于防止歧視和傷害是必要的,但到目前為止,許多政府未能制定相應法律。這就是為什么研究人員不僅有責任考慮技術(shù)應用的潛在后果,而且要主動將最可能受到該技術(shù)傷害人群納入研究決策過程的原因。不過專家表示,現(xiàn)有VSR系統(tǒng)并未考慮這些因素。
美國AI Now Institute研究員莎拉·邁爾斯·韋斯特(Sarah Myers West)告訴Motherboard:“這是為了積極創(chuàng)造一種技術(shù),或許會有有害用途,而不僅停留在識別和減輕現(xiàn)有技術(shù)中的漏洞。研究人員并不是總能夠自己進行這些倫理性評估。這就是為什么在整個過程中讓可能受影響的群體參與進來,以預測和避免潛在有害的其他用途,是如此重要?!?/p>
四、唇語識別技術(shù)不斷優(yōu)化,完整對話識別仍需時間
Liopa的CEO利亞姆·麥奎倫(Liam McQuillan)告訴Motherboard,該公司至少需要一年的時間才能擁有滿意的從閉路電視錄像中讀出關鍵詞的系統(tǒng),公司已經(jīng)考慮過隱私問題?!斑@里可能會有人擔心實際最終會禁止使用該技術(shù)……我們當然不會這樣把Liopa押在這個項目上面,即使有充足研究資金——該項目由英國國防部國防與安保加速器(British Defense and Security Accelerator)資助?!?/p>
麥奎倫還表示,該公司正在積極尋求解決潛在的種族或性別偏見,方法是通過收集多種數(shù)據(jù)來訓練其算法。數(shù)據(jù)收集來源包括一組多樣化的YouTube剪輯視頻,通過收藏應用程序提供視頻的志愿者,以及一家專門管理包含不同種族和民族數(shù)據(jù)集的公司。不過目前Liopa公司尚未發(fā)表任何關于其系統(tǒng)在不同人口群體中表現(xiàn)相關的研究。
Motherboard找到了一家聲稱正在積極銷售唇語識別AI系統(tǒng)的公司Skylark Labs。Skylark Labs已經(jīng)將唇語識別技術(shù)融入監(jiān)控市場。
Skylark Labs創(chuàng)始人兼CEO阿瑪喬特·辛格(Amarjot Singh)告訴Motherboard,該公司最初向印度的警察局推銷其包含唇語識別、人臉識別、暴力和武器檢測算法的技術(shù)套件。該公司發(fā)現(xiàn),鑒于在擁擠公共場所使用唇語識別功能面臨的挑戰(zhàn),用戶對此功能興趣不大。
Skylark Labs已經(jīng)轉(zhuǎn)向研究其他唇語識別在其他場合的用途。辛格表示,公司的唇語識別AI技術(shù)目前正在印度旁遮普邦電力公司有限公司進行試點,以檢測員工互相打擾的情況。他說,有幾個人還購買了這項技術(shù)來監(jiān)控他們的保姆。Skylark Labs指出,它的唇語識別AI可以檢測大約50個與詛咒、虐待和暴力相關的不同詞語。不過根據(jù)當?shù)孛襟w報道,辛格發(fā)表過關于暴力檢測和人臉識別的研究,印度警方確實使用Skylark的無人機來增加社交距離,不過辛格和公司都沒有發(fā)表任何關于唇語識別AI的研究。
Motherboard聯(lián)系了旁遮普邦電力公司有限公司,有人表示家里使用過唇語識別技術(shù),但沒有收到更多回復。
辛格說:“我們正在自然場景中進行研究,并試圖解決對人身安全有直接影響的用例。我認為這有好處,因為設計師能夠控制系統(tǒng)應該標記的詞,所以我認為它還可以。這里風險是,一旦你開始校準系統(tǒng)在自然場景中獲取日常語言,詞語在是否符合道德規(guī)范方面可能會有瑕疵?!?/p>
接受采訪的研究人員和公司高管告訴Motherboard,實現(xiàn)唇語識別AI能解釋完整對話,還需要數(shù)年時間。
這項任務非常具有挑戰(zhàn)性——即使是專業(yè)的人類唇語讀者,實際上在逐字解釋方面也很差。2018年,DeepMind發(fā)表了一項研究,揭示了其最新的全句唇讀系統(tǒng),并使用大型的、定制數(shù)據(jù)集進行測試。AI在包含完整句子的視頻上實現(xiàn)了41%的單詞錯誤率。在沒有提供上下文主題相關信息情況下,觀看類似純視頻剪輯樣本的人類唇語讀者單詞錯誤率為93%,而在給定視頻標題、主題類別和句子中的幾個單詞時,錯誤率也有86%。
帝國理工學院研究小組本月發(fā)表論文,描述了一個完整句子唇語識別系統(tǒng),該系統(tǒng)在較小的、公開可用的400小時視頻數(shù)據(jù)集上進行訓練,可以實現(xiàn)低至37.9%的單詞錯誤率。
當涉及到單個關鍵字唇讀領域,Liopa和Skylark Labs同樣正在追求的目標,唇語識別技術(shù)準確度要高得多,并且僅在去年就有顯著提高。2017年,在Wild數(shù)據(jù)集中唇語閱讀基準準確率最高是83%。2020年之前,這一最高紀錄保持不變,根據(jù)帝國理工學院與三星合作發(fā)表的這篇論文,準確率現(xiàn)在突破到88.5%。
但是,很難知道真正的頂峰是什么。DeepMind在2018年之后沒有發(fā)表任何關于唇語項目的進一步研究,并且拒絕討論。與Motherboard溝通的許多研究人員都不愿隨意推測大型科技公司打算用這種新興技術(shù)做什么,或者它何時何地開始對公眾產(chǎn)生明顯影響。
米拉說,人工智能和機器學習過去10年向大家展示的一件事是,未來難以預測。但低估技術(shù)發(fā)展確實是不明智的。
結(jié)語:AI唇語識別超人類,隱私保護引擔憂
目前,唇語識別技術(shù)的準確率已經(jīng)超過人類,普通人的唇語識別率在10%,受過訓練的殘障人士可能會達到40%。唇語識別工具大都已經(jīng)超過50%,例如搜狗唇語識別技術(shù)在口語測試集上準確率為60%以上,在車載、智能家居等垂直場景下會有90%以上的準確率。
唇語識別技術(shù)應用場景多元,不僅可以幫助言語障礙人士進行溝通,還可以應用于遠場環(huán)境下溝通,以及安防、驗證等領域。同人臉識別技術(shù)一樣,唇語識別技術(shù)的應用需要受到監(jiān)督。未來在私人安全領域,唇語識別可能應用為一種新生物認證方式,在公共安全領域,唇語識別或會結(jié)合公共攝像頭無聲視頻數(shù)據(jù)庫來輔助案情分析。這就涉及到隱私保護問題,唇語識別應用中將涉及到大量隱私相關數(shù)據(jù),其安全性需要得到保證。
來源:VICE