應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊(cè)個(gè)人注冊(cè)登錄

打開(kāi)失聲者的另一扇窗!愛(ài)爾蘭創(chuàng)企推唇語(yǔ)識(shí)別app,準(zhǔn)確率達(dá)90%

2021-06-28 15:14 智東西

導(dǎo)讀:VSR領(lǐng)域主要是訓(xùn)練人工智能在沒(méi)有任何音頻輸入的情況下讀懂唇語(yǔ)。

據(jù)加拿大媒體VICE報(bào)道,近日,視覺(jué)語(yǔ)音識(shí)別(VSR)領(lǐng)域又迎來(lái)重大突破,愛(ài)爾蘭初創(chuàng)公司Liopa開(kāi)發(fā)出一種名為SRAVI的針對(duì)語(yǔ)音障礙情況下語(yǔ)言識(shí)別app。并且SRAVI有望成為首款可供公眾購(gòu)買(mǎi)的唇語(yǔ)識(shí)別工具。

唇語(yǔ)識(shí)別是一項(xiàng)集機(jī)器視覺(jué)與自然語(yǔ)言處理于一體的技術(shù),通過(guò)分析說(shuō)話人唇部運(yùn)動(dòng),結(jié)合大數(shù)據(jù)匹配出有最大可能性自然語(yǔ)句。英特爾、谷歌和我國(guó)的搜狗等公司都訓(xùn)練人工智能(AI)讀懂唇語(yǔ)。并且唇語(yǔ)識(shí)別AI也開(kāi)始實(shí)驗(yàn)性的應(yīng)用于醫(yī)院、電力公司、公共交通等領(lǐng)域。

一、SRAVI可識(shí)別短語(yǔ),準(zhǔn)確率達(dá)90%

一位患者坐在病床上,他脖子上纏有帶開(kāi)口的繃帶,供氧氣管套管通過(guò)并固定住。由于最近接受手術(shù),這位患者無(wú)法發(fā)聲。醫(yī)生拿起智能手機(jī),記錄下病人說(shuō)的短語(yǔ)。這款名為SRAVI的app會(huì)分析唇部運(yùn)動(dòng),并在兩分鐘內(nèi)返回其識(shí)別結(jié)果——“我需要吸引器”。

這似乎只是一個(gè)簡(jiǎn)單的互動(dòng),在某些方面,SRAVI非常簡(jiǎn)單。它能準(zhǔn)確識(shí)別幾十個(gè)短語(yǔ),準(zhǔn)確率約為90%。

VSR領(lǐng)域主要是訓(xùn)練人工智能在沒(méi)有任何音頻輸入的情況下讀懂唇語(yǔ)。幾十年來(lái),研究人員一直致力于此類技術(shù),但事實(shí)證明,即使深度學(xué)習(xí)系統(tǒng)的進(jìn)步,幫助解決了其他具有里程碑意義問(wèn)題,AI讀懂唇語(yǔ)仍是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。這項(xiàng)研究受到廣闊商業(yè)應(yīng)用前景預(yù)期推動(dòng)——從應(yīng)用于監(jiān)控工具到靜音通信app,以及改進(jìn)虛擬助手性能。

Liopa公司正在為SRAVI申請(qǐng)歐洲I類醫(yī)療器械認(rèn)證,并希望能在8月之前完成。這樣公司就可以向醫(yī)療服務(wù)商銷(xiāo)售該產(chǎn)品了。

二、唇語(yǔ)識(shí)別AI商業(yè)化不僅面臨隱私問(wèn)題

唇語(yǔ)識(shí)別并不是一個(gè)全新的人工智能方向,許多科技巨頭也一直在研究唇語(yǔ)識(shí)別AI,早在2003年,英特爾公司就開(kāi)發(fā)出了唇語(yǔ)識(shí)別軟件Audio Visual Speech Recognition(AVSR),2016年谷歌子公司DeepMind唇語(yǔ)識(shí)別技術(shù)已經(jīng)可以支持17500個(gè)詞,新聞測(cè)試集上識(shí)別準(zhǔn)確率首次達(dá)到50%以上,2017年搜狗推出中文唇語(yǔ)識(shí)別系統(tǒng)。

隨著唇語(yǔ)識(shí)別AI成為一種可行的商業(yè)工具,技術(shù)人員和隱私監(jiān)管機(jī)構(gòu)越來(lái)越擔(dān)心,它未來(lái)會(huì)被開(kāi)發(fā)成什么樣以及會(huì)部署在哪些領(lǐng)域。

例如,SRAVI并不是Liopa正在研究的唯一一款唇語(yǔ)識(shí)別AI。該公司還和英國(guó)一家國(guó)防研究機(jī)構(gòu)合作開(kāi)發(fā)另一種工具,使執(zhí)法機(jī)構(gòu)能夠通過(guò)無(wú)聲閉路電視錄像進(jìn)行搜索,并識(shí)別人們何時(shí)說(shuō)出過(guò)某些特定關(guān)鍵詞。

美國(guó)摩托羅拉公司(Motorola Solutions)有一項(xiàng)旨在幫助警察的唇語(yǔ)系統(tǒng)專利。

美國(guó)無(wú)人機(jī)初創(chuàng)企業(yè)Skylark Labs創(chuàng)始人告訴Motherboard(VICE旗下科技版塊),其唇語(yǔ)系統(tǒng)目前已部署在印度的一些私人住宅和一家國(guó)有電力公司中,以檢測(cè)粗俗語(yǔ)言。

英國(guó)生物識(shí)別和監(jiān)控?cái)z像機(jī)專員弗雷澤桑普森(Fraser Sampson)接受Motherboard采訪時(shí)說(shuō):“從我的角度來(lái)看,這是唇語(yǔ)識(shí)別可應(yīng)用的其中一個(gè)領(lǐng)域,這是關(guān)于‘我們可以做到,并不意味我們應(yīng)該這樣做’一個(gè)很好的例子。我在這個(gè)領(lǐng)域的主要關(guān)注點(diǎn)不在技術(shù)可以和不可以做什么,而是人們相信它可以做到其所說(shuō)的,這會(huì)產(chǎn)生寒蟬效應(yīng)。如果這項(xiàng)技術(shù)限制大眾在公共場(chǎng)合發(fā)言,那么我們將面臨的不僅僅是隱私問(wèn)題了?!?/p>

唇語(yǔ)識(shí)別AI的出現(xiàn)讓人想起了人臉識(shí)別技術(shù)。幾十年來(lái),人臉識(shí)別技術(shù)一直是個(gè)小眾研究領(lǐng)域,然后它從2000年代初開(kāi)始作為監(jiān)視工具悄然迅速商業(yè)化。

人臉識(shí)別技術(shù)的許多問(wèn)題直到最近才被公之于眾,很大程度上還要?dú)w功于人臉識(shí)別受害者積極研究和行動(dòng)。具體來(lái)說(shuō),麻省理工計(jì)算機(jī)科學(xué)家喬伊·博拉姆維尼(Joy Buolamwini)和前谷歌AI倫理學(xué)家提姆尼特·格布魯(Timnit Gebru)在2018年發(fā)表了一篇具有重要意義的論文,論文中首次揭示了人臉識(shí)別用于女性和有色人種識(shí)別準(zhǔn)確性較低。當(dāng)這些擔(dān)憂進(jìn)入主流話語(yǔ)體系時(shí),電話、私人企業(yè)中人臉識(shí)別的應(yīng)用已經(jīng)無(wú)處不在。

監(jiān)控?cái)z像頭遍布美國(guó)許多城市的街頭巷角。至少有三名黑人男子因?yàn)槿四樧R(shí)別不準(zhǔn)而被錯(cuò)誤逮捕,實(shí)際數(shù)字幾乎肯定更高,而且該技術(shù)還被用于追蹤美國(guó)“Black Lives Matter”運(yùn)動(dòng)的抗議者,以及其他各種可疑人員。在過(guò)去兩年中,也就是在該技術(shù)首次大規(guī)模公開(kāi)部署近20年后,美國(guó)草根運(yùn)動(dòng)導(dǎo)致十多個(gè)城市和州的警察和個(gè)人開(kāi)始禁止使用人臉識(shí)別技術(shù)。

大眾對(duì)人臉識(shí)別技術(shù)的強(qiáng)烈反對(duì)推動(dòng)了AI研究人員思維轉(zhuǎn)變,即他們?cè)撊绾慰紤]其研究發(fā)現(xiàn)的未來(lái)應(yīng)用。例如,神經(jīng)信息處理系統(tǒng)進(jìn)展大會(huì)(NeurIPS)去年首次要求研究人員在提交論文時(shí),加上關(guān)于新研究可能會(huì)對(duì)社會(huì)產(chǎn)生哪些影響的論述。

《人工智能:計(jì)算機(jī)如何誤解世界(Artificial Unintelligence: How Computers Misunderstand the World)》一書(shū)作者梅雷迪思·布魯薩德(Meredith Broussard)告訴Motherboard:“研究很棒,但是當(dāng)我們發(fā)現(xiàn)某一特定知識(shí)或者研究路線具有毀滅性后果時(shí),作為研究人員,我們有責(zé)任停止它并實(shí)施相應(yīng)措施?!?/p>

三、監(jiān)控領(lǐng)域應(yīng)用唇語(yǔ)識(shí)別需受管控

唇語(yǔ)識(shí)別AI作為一項(xiàng)商業(yè)技術(shù)仍處于起步階段,但技術(shù)早期關(guān)注于在監(jiān)控方面應(yīng)用引發(fā)了人們的擔(dān)憂,科學(xué)發(fā)展如此之快,當(dāng)后果再次顯現(xiàn),可能為時(shí)已晚。

“這項(xiàng)技術(shù)剛開(kāi)始發(fā)展的確太快了,不過(guò)在去年,開(kāi)始有論文圍繞VSR技術(shù)倫理問(wèn)題進(jìn)行討論。”斯塔夫羅斯·佩特里迪斯(Stavros Petridis)說(shuō),他最近在Facebook工作,但與Motherboard談到了他之前在英國(guó)帝國(guó)理工學(xué)院(Imperial College London)的研究。“鑒于目前還沒(méi)有可商用的唇語(yǔ)識(shí)別app,這次很有可能在唇語(yǔ)識(shí)別AI技術(shù)完全商業(yè)化之前才考慮倫理問(wèn)題。”

帝國(guó)理工學(xué)院博士生羅德里戈·米拉(Rodrigo Mira)告訴Motherboard,他和他的同事知道自己研究的領(lǐng)域是有爭(zhēng)議的。他將該研究工作和滲透測(cè)試進(jìn)行了比較——滲透測(cè)試是一種在計(jì)算機(jī)系統(tǒng)中尋找漏洞以修復(fù)它們的網(wǎng)絡(luò)安全實(shí)踐。換句話說(shuō),這項(xiàng)研究是允許受道德規(guī)范約束的學(xué)術(shù)機(jī)構(gòu)在新技術(shù)被犯罪分子利用之前發(fā)現(xiàn)它。

米拉表示:“唇語(yǔ)識(shí)別AI的主要問(wèn)題是人們總是會(huì)談?wù)撜?。這不是我們是否應(yīng)該停止研究,而是我們有能力通過(guò)觀察人們來(lái)了解他們?cè)谡f(shuō)什么時(shí),我們應(yīng)該用它做什么?阻止不道德地使用該技術(shù)的方法,不是關(guān)閉帝國(guó)理工學(xué)院,解決這個(gè)問(wèn)題的方法是把它作為一個(gè)政治問(wèn)題來(lái)處理?!?/p>

人工智能倫理學(xué)家同意,政府對(duì)人臉識(shí)別和唇語(yǔ)識(shí)別AI等生物識(shí)別監(jiān)控技術(shù)應(yīng)盡早和大力度監(jiān)管,這對(duì)于防止歧視和傷害是必要的,但到目前為止,許多政府未能制定相應(yīng)法律。這就是為什么研究人員不僅有責(zé)任考慮技術(shù)應(yīng)用的潛在后果,而且要主動(dòng)將最可能受到該技術(shù)傷害人群納入研究決策過(guò)程的原因。不過(guò)專家表示,現(xiàn)有VSR系統(tǒng)并未考慮這些因素。

美國(guó)AI Now Institute研究員莎拉·邁爾斯·韋斯特(Sarah Myers West)告訴Motherboard:“這是為了積極創(chuàng)造一種技術(shù),或許會(huì)有有害用途,而不僅停留在識(shí)別和減輕現(xiàn)有技術(shù)中的漏洞。研究人員并不是總能夠自己進(jìn)行這些倫理性評(píng)估。這就是為什么在整個(gè)過(guò)程中讓可能受影響的群體參與進(jìn)來(lái),以預(yù)測(cè)和避免潛在有害的其他用途,是如此重要?!?/p>

四、唇語(yǔ)識(shí)別技術(shù)不斷優(yōu)化,完整對(duì)話識(shí)別仍需時(shí)間

Liopa的CEO利亞姆·麥奎倫(Liam McQuillan)告訴Motherboard,該公司至少需要一年的時(shí)間才能擁有滿意的從閉路電視錄像中讀出關(guān)鍵詞的系統(tǒng),公司已經(jīng)考慮過(guò)隱私問(wèn)題?!斑@里可能會(huì)有人擔(dān)心實(shí)際最終會(huì)禁止使用該技術(shù)……我們當(dāng)然不會(huì)這樣把Liopa押在這個(gè)項(xiàng)目上面,即使有充足研究資金——該項(xiàng)目由英國(guó)國(guó)防部國(guó)防與安保加速器(British Defense and Security Accelerator)資助?!?/p>

麥奎倫還表示,該公司正在積極尋求解決潛在的種族或性別偏見(jiàn),方法是通過(guò)收集多種數(shù)據(jù)來(lái)訓(xùn)練其算法。數(shù)據(jù)收集來(lái)源包括一組多樣化的YouTube剪輯視頻,通過(guò)收藏應(yīng)用程序提供視頻的志愿者,以及一家專門(mén)管理包含不同種族和民族數(shù)據(jù)集的公司。不過(guò)目前Liopa公司尚未發(fā)表任何關(guān)于其系統(tǒng)在不同人口群體中表現(xiàn)相關(guān)的研究。

Motherboard找到了一家聲稱正在積極銷(xiāo)售唇語(yǔ)識(shí)別AI系統(tǒng)的公司Skylark Labs。Skylark Labs已經(jīng)將唇語(yǔ)識(shí)別技術(shù)融入監(jiān)控市場(chǎng)。

Skylark Labs創(chuàng)始人兼CEO阿瑪喬特·辛格(Amarjot Singh)告訴Motherboard,該公司最初向印度的警察局推銷(xiāo)其包含唇語(yǔ)識(shí)別、人臉識(shí)別、暴力和武器檢測(cè)算法的技術(shù)套件。該公司發(fā)現(xiàn),鑒于在擁擠公共場(chǎng)所使用唇語(yǔ)識(shí)別功能面臨的挑戰(zhàn),用戶對(duì)此功能興趣不大。

Skylark Labs已經(jīng)轉(zhuǎn)向研究其他唇語(yǔ)識(shí)別在其他場(chǎng)合的用途。辛格表示,公司的唇語(yǔ)識(shí)別AI技術(shù)目前正在印度旁遮普邦電力公司有限公司進(jìn)行試點(diǎn),以檢測(cè)員工互相打擾的情況。他說(shuō),有幾個(gè)人還購(gòu)買(mǎi)了這項(xiàng)技術(shù)來(lái)監(jiān)控他們的保姆。Skylark Labs指出,它的唇語(yǔ)識(shí)別AI可以檢測(cè)大約50個(gè)與詛咒、虐待和暴力相關(guān)的不同詞語(yǔ)。不過(guò)根據(jù)當(dāng)?shù)孛襟w報(bào)道,辛格發(fā)表過(guò)關(guān)于暴力檢測(cè)和人臉識(shí)別的研究,印度警方確實(shí)使用Skylark的無(wú)人機(jī)來(lái)增加社交距離,不過(guò)辛格和公司都沒(méi)有發(fā)表任何關(guān)于唇語(yǔ)識(shí)別AI的研究。

Motherboard聯(lián)系了旁遮普邦電力公司有限公司,有人表示家里使用過(guò)唇語(yǔ)識(shí)別技術(shù),但沒(méi)有收到更多回復(fù)。

辛格說(shuō):“我們正在自然場(chǎng)景中進(jìn)行研究,并試圖解決對(duì)人身安全有直接影響的用例。我認(rèn)為這有好處,因?yàn)樵O(shè)計(jì)師能夠控制系統(tǒng)應(yīng)該標(biāo)記的詞,所以我認(rèn)為它還可以。這里風(fēng)險(xiǎn)是,一旦你開(kāi)始校準(zhǔn)系統(tǒng)在自然場(chǎng)景中獲取日常語(yǔ)言,詞語(yǔ)在是否符合道德規(guī)范方面可能會(huì)有瑕疵?!?/p>

接受采訪的研究人員和公司高管告訴Motherboard,實(shí)現(xiàn)唇語(yǔ)識(shí)別AI能解釋完整對(duì)話,還需要數(shù)年時(shí)間。

這項(xiàng)任務(wù)非常具有挑戰(zhàn)性——即使是專業(yè)的人類唇語(yǔ)讀者,實(shí)際上在逐字解釋方面也很差。2018年,DeepMind發(fā)表了一項(xiàng)研究,揭示了其最新的全句唇讀系統(tǒng),并使用大型的、定制數(shù)據(jù)集進(jìn)行測(cè)試。AI在包含完整句子的視頻上實(shí)現(xiàn)了41%的單詞錯(cuò)誤率。在沒(méi)有提供上下文主題相關(guān)信息情況下,觀看類似純視頻剪輯樣本的人類唇語(yǔ)讀者單詞錯(cuò)誤率為93%,而在給定視頻標(biāo)題、主題類別和句子中的幾個(gè)單詞時(shí),錯(cuò)誤率也有86%。

帝國(guó)理工學(xué)院研究小組本月發(fā)表論文,描述了一個(gè)完整句子唇語(yǔ)識(shí)別系統(tǒng),該系統(tǒng)在較小的、公開(kāi)可用的400小時(shí)視頻數(shù)據(jù)集上進(jìn)行訓(xùn)練,可以實(shí)現(xiàn)低至37.9%的單詞錯(cuò)誤率。

當(dāng)涉及到單個(gè)關(guān)鍵字唇讀領(lǐng)域,Liopa和Skylark Labs同樣正在追求的目標(biāo),唇語(yǔ)識(shí)別技術(shù)準(zhǔn)確度要高得多,并且僅在去年就有顯著提高。2017年,在Wild數(shù)據(jù)集中唇語(yǔ)閱讀基準(zhǔn)準(zhǔn)確率最高是83%。2020年之前,這一最高紀(jì)錄保持不變,根據(jù)帝國(guó)理工學(xué)院與三星合作發(fā)表的這篇論文,準(zhǔn)確率現(xiàn)在突破到88.5%。

但是,很難知道真正的頂峰是什么。DeepMind在2018年之后沒(méi)有發(fā)表任何關(guān)于唇語(yǔ)項(xiàng)目的進(jìn)一步研究,并且拒絕討論。與Motherboard溝通的許多研究人員都不愿隨意推測(cè)大型科技公司打算用這種新興技術(shù)做什么,或者它何時(shí)何地開(kāi)始對(duì)公眾產(chǎn)生明顯影響。

米拉說(shuō),人工智能和機(jī)器學(xué)習(xí)過(guò)去10年向大家展示的一件事是,未來(lái)難以預(yù)測(cè)。但低估技術(shù)發(fā)展確實(shí)是不明智的。

結(jié)語(yǔ):AI唇語(yǔ)識(shí)別超人類,隱私保護(hù)引擔(dān)憂

目前,唇語(yǔ)識(shí)別技術(shù)的準(zhǔn)確率已經(jīng)超過(guò)人類,普通人的唇語(yǔ)識(shí)別率在10%,受過(guò)訓(xùn)練的殘障人士可能會(huì)達(dá)到40%。唇語(yǔ)識(shí)別工具大都已經(jīng)超過(guò)50%,例如搜狗唇語(yǔ)識(shí)別技術(shù)在口語(yǔ)測(cè)試集上準(zhǔn)確率為60%以上,在車(chē)載、智能家居等垂直場(chǎng)景下會(huì)有90%以上的準(zhǔn)確率。

唇語(yǔ)識(shí)別技術(shù)應(yīng)用場(chǎng)景多元,不僅可以幫助言語(yǔ)障礙人士進(jìn)行溝通,還可以應(yīng)用于遠(yuǎn)場(chǎng)環(huán)境下溝通,以及安防、驗(yàn)證等領(lǐng)域。同人臉識(shí)別技術(shù)一樣,唇語(yǔ)識(shí)別技術(shù)的應(yīng)用需要受到監(jiān)督。未來(lái)在私人安全領(lǐng)域,唇語(yǔ)識(shí)別可能應(yīng)用為一種新生物認(rèn)證方式,在公共安全領(lǐng)域,唇語(yǔ)識(shí)別或會(huì)結(jié)合公共攝像頭無(wú)聲視頻數(shù)據(jù)庫(kù)來(lái)輔助案情分析。這就涉及到隱私保護(hù)問(wèn)題,唇語(yǔ)識(shí)別應(yīng)用中將涉及到大量隱私相關(guān)數(shù)據(jù),其安全性需要得到保證。

來(lái)源:VICE