技術(shù)
導(dǎo)讀:大數(shù)據(jù)和機(jī)器翻譯可以結(jié)合在一起對(duì)抗冠狀病毒疫情,人們需要了解這兩種技術(shù)如何提供幫助以及如何發(fā)揮作用。
大數(shù)據(jù)和機(jī)器翻譯可以結(jié)合在一起對(duì)抗冠狀病毒疫情,人們需要了解這兩種技術(shù)如何提供幫助以及如何發(fā)揮作用。
歷史上很少比冠狀病毒疫情更能讓大眾意識(shí)到大數(shù)據(jù)的重要性。從世界各地收集的統(tǒng)計(jì)數(shù)據(jù)正在推動(dòng)公共政策并塑造私人行為。以下將重點(diǎn)關(guān)注疫情的語(yǔ)言學(xué)層面,以便向決策者、醫(yī)療保健提供者以及公眾傳達(dá)基本信息。面臨的挑戰(zhàn)是如何跨越語(yǔ)言邊界交流快速變化的數(shù)據(jù),以使基本信息不會(huì)在翻譯中丟失。但是在尋找用戶的過(guò)程中,大數(shù)據(jù)的使用也存在更多爭(zhēng)議。
行業(yè)領(lǐng)先組織使用大數(shù)據(jù)進(jìn)行機(jī)器翻譯
考慮到問(wèn)題的嚴(yán)重性,翻譯服務(wù)越來(lái)越依賴于機(jī)器翻譯的效率和吞吐量。根本就沒(méi)有足夠的人工翻譯和口譯員。令人高興的是,由于神經(jīng)網(wǎng)絡(luò)方法在過(guò)去十年的應(yīng)用,機(jī)器翻譯的質(zhì)量得到了提高,主要是在這一領(lǐng)域發(fā)展的最大的科技公司,統(tǒng)稱為FAMGA(Facebook、蘋(píng)果、微軟、谷歌和亞馬遜)。這些公司都以自己的方式依靠大數(shù)據(jù)在領(lǐng)先的語(yǔ)言優(yōu)勢(shì)上展開(kāi)競(jìng)爭(zhēng)。然而,他們不是在處理數(shù)字,而是在處理文字。
跟蹤冠狀病毒蔓延的社交媒體翻譯和隱私挑戰(zhàn)
Facebook公司利用大規(guī)模的樣本反向翻譯(一種基于神經(jīng)機(jī)器翻譯的大數(shù)據(jù)技術(shù)),在2019年WMT競(jìng)賽的多個(gè)類別中均獲得第一名,需要大量的雙語(yǔ)培訓(xùn)數(shù)據(jù),也就是可供參考翻譯的句子。雙語(yǔ)數(shù)據(jù)很難獲得,因此Facebook公司團(tuán)隊(duì)使用反向翻譯作為解決方法。最終,該團(tuán)隊(duì)使用了大約100億個(gè)單詞的額外數(shù)據(jù)來(lái)完成其任務(wù)。Facebook公司利用其20億個(gè)左右用戶的評(píng)論和帖子作為訓(xùn)練材料,并具有無(wú)與倫比的內(nèi)容訪問(wèn)權(quán)限。
在語(yǔ)言競(jìng)賽中,出于實(shí)驗(yàn)?zāi)康氖褂冒l(fā)布的語(yǔ)言是一回事,而在新冠病毒等敏感的健康問(wèn)題上利用用戶提供的信息是另一回事。正如Bruegel研究所的J.Scott Marcus所觀察到的那樣,用戶以各種方式“自愿”提供信息:在社交媒體上的帖子中,在他們使用移動(dòng)服務(wù)和提供位置數(shù)據(jù)時(shí)在尋找健康信息。Marcus表示,大數(shù)據(jù)已用于對(duì)抗新冠病毒的戰(zhàn)略規(guī)劃,用于跟蹤潛在感染者,并為感染者和公眾提供指導(dǎo)、建議和信息。
翻譯與自愿收集的數(shù)據(jù)有關(guān)的隱私問(wèn)題
很多人可能不知道提供“自愿”數(shù)據(jù)將被用來(lái)追蹤或暴露其行程的追蹤。不僅僅是一個(gè)國(guó)家,先從中國(guó)開(kāi)始,然后是韓國(guó)、日本、以色列等其他國(guó)家,已經(jīng)明確使用了部分或全部這些信息。通常,高科技公司與各國(guó)政府合作以提供其數(shù)據(jù),盡管歐洲的通用數(shù)據(jù)保護(hù)條例等法規(guī)等隱私保護(hù)措施阻止了此類使用。
病毒跟蹤計(jì)劃使用機(jī)器翻譯實(shí)現(xiàn)“標(biāo)準(zhǔn)化”通信,并使公共衛(wèi)生官員可以首選的語(yǔ)言對(duì)其進(jìn)行訪問(wèn)。例如,在以色列,阿拉伯語(yǔ)的社交媒體通信通過(guò)機(jī)器翻譯技術(shù)自動(dòng)翻譯為希伯來(lái)語(yǔ),其目的是尋找潛在的病毒攜帶者。
大規(guī)模機(jī)器翻譯和口譯的公共用途
機(jī)器翻譯大規(guī)模應(yīng)用的另一個(gè)例子是在國(guó)際機(jī)場(chǎng)對(duì)乘客進(jìn)行篩選。除了熱成像設(shè)備和手持測(cè)溫度儀之外,檢測(cè)人員還使用手持語(yǔ)音翻譯器向到達(dá)的乘客詢問(wèn)他們的旅行史或醫(yī)療癥狀。
同樣的考慮也適用于向使用其他語(yǔ)言的公眾提供信息。提供有關(guān)冠狀病毒的最新信息是移民的一個(gè)問(wèn)題。據(jù)美國(guó)之音報(bào)道,荷蘭的志愿者設(shè)立了一個(gè)健康服務(wù)臺(tái),為不會(huì)說(shuō)荷蘭語(yǔ)的新移民幫助。在澳大利亞在其邊境采用了一個(gè)大規(guī)模的翻譯項(xiàng)目。筆譯和口譯服務(wù)是澳大利亞移民和邊境保護(hù)部為同時(shí)使用人工翻譯和機(jī)器翻譯的非英語(yǔ)使用者提供的服務(wù)。
美國(guó)醫(yī)院的需求量很大?!都~約時(shí)報(bào)》于2020年4月報(bào)道了美國(guó)的西班牙裔冠狀病毒患者所遭受的巨大苦難,其所遭受的痛苦不成比例,約占紐約患病人數(shù)的34%。為了滿足這種需求,紐約的醫(yī)院越來(lái)越多地轉(zhuǎn)向視頻遠(yuǎn)程口譯,醫(yī)療保健提供者可以在需要時(shí)提供口譯服務(wù)。
在冠狀病毒疫情爆發(fā)之前,在思科公司的支持下,非營(yíng)利性無(wú)國(guó)界翻譯公司(TWB)推出了一項(xiàng)名為Gamayun的創(chuàng)新機(jī)器翻譯計(jì)劃,旨在幫助那些少數(shù)民族語(yǔ)言的人員。TWB計(jì)劃的負(fù)責(zé)人Grace Tang說(shuō):“少數(shù)族裔語(yǔ)言的人無(wú)法獲得重要的救生信息?!彼伎乒景l(fā)言人表示,基于人工智能和大數(shù)據(jù)技術(shù)的語(yǔ)音翻譯和文本翻譯工具將在5年內(nèi)幫助該計(jì)劃擴(kuò)展至10種少數(shù)族裔語(yǔ)言。
大數(shù)據(jù)和機(jī)器翻譯項(xiàng)目的風(fēng)險(xiǎn)與陷阱
結(jié)合大數(shù)據(jù)和機(jī)器翻譯的項(xiàng)目中最著名的案例是Project Baseline,這是由Alphabet公司支持的Verily發(fā)起的。2020年3月,美國(guó)總統(tǒng)特朗普聲稱谷歌公司支持一項(xiàng)全國(guó)性的計(jì)劃,利用雙語(yǔ)篩選問(wèn)題追蹤新型冠狀病毒。
Vital Software公司的新冠病毒癥狀檢查器也引發(fā)了類似的爭(zhēng)議,該檢查器在俄勒岡州可以翻譯成15種語(yǔ)言用。在啟動(dòng)基于社區(qū)的項(xiàng)目時(shí),但在選定的州,其規(guī)模仍在縣級(jí),而不是國(guó)家一級(jí)。值得稱贊的是,考慮到從個(gè)人身上收集的大量敏感信息,該項(xiàng)目認(rèn)真對(duì)待數(shù)據(jù)隱私問(wèn)題。
在新冠病毒疫情期間,將大數(shù)據(jù)用于機(jī)器翻譯和其他目的的底線是,它是在巨大的壓力下動(dòng)態(tài)完成的,這幾乎總是會(huì)導(dǎo)致偷工減料和高期望值,但這并不總是能夠滿足。Facebook公司在WMT的應(yīng)用報(bào)告中表示,其收集數(shù)據(jù)是嘈雜且次優(yōu)。希望在疫情期間,將大數(shù)據(jù)和機(jī)器語(yǔ)言方法相結(jié)合的努力也能取得成功,為對(duì)抗疫情提供幫助。