導讀:本次報告將針對人機對話中的核心關鍵技術的發(fā)展前沿和研究趨勢進行綜述,主要包括開放域人機對話和任務型對話的關鍵技術及挑戰(zhàn)。
近年來,人機對話受到了學術界和工業(yè)界的廣泛重視。在研究上,自然語言理解技術逐漸從序列標注向深度學習的方向發(fā)展,對話管理經(jīng)歷了由規(guī)則到有指導學習再到強化學習的發(fā)展過程,自然語言生成則從模板生成、句子規(guī)劃,發(fā)展到端到端的深度學習模型。在應用上,基于人機對話技術的產(chǎn)品也層出不窮,如蘋果公司的 Siri、亞馬遜的 Echo 音箱、微軟的 Cortana、Facebook M 以及谷歌的 Allo 等。同時,各大企業(yè)紛紛研發(fā)及收購 AI 平臺,如微軟研發(fā) Luis.ai,三星、Facebook 和谷歌分別收購了 viv.ai、wit.ai 和 api.ai,百度自主研發(fā)了 Duer OS 以及收購 kitt.ai,以上種種跡象表明了各大企業(yè)將在今后著力發(fā)展人機對話技術。本次報告將針對人機對話中的核心關鍵技術的發(fā)展前沿和研究趨勢進行綜述,主要包括開放域人機對話和任務型對話的關鍵技術及挑戰(zhàn)。
人機對話主要技術方向:
雖然人機對話主要包括四個功能:聊天、任務型對話、問答以及推薦,但主要集中在開放域聊天和任務型對話兩方面。二者在目標、評價、最終目的上有一定區(qū)別,典型的應用系統(tǒng)也不大一樣。
一. 開放域聊天
開放域聊天的一個基礎系統(tǒng)架構如上圖所示。
1. 前沿研究點:回復質量
上圖總結了17年到19年開放域的一些論文和一些相關的知識點,下面的部分主要關注回復質量?;貜偷脑捠峭?、流暢的。回復質量是一個基礎,包含很多工作,也面臨著多方面的挑戰(zhàn)。
① 回復質量上存在的挑戰(zhàn)
這里舉兩個例子,左邊是單輪回復的例子,右邊是多輪回復的例子。從中可以看出兩個問題,第一個問題是在單輪回復中由于統(tǒng)計模型 loss function 的一個限制,通常采用的回復都是統(tǒng)計上占優(yōu)的高頻回復,叫做萬能回復。而多輪回復可以看出是一個局部依賴的回復,就相當于它沒有學到更高層次的上下文信息。這是一個局部學習,與上下文無關的問題。
② 優(yōu)化初始的解碼過程
我們在單輪回復對話中,積累了一些工作,首先是優(yōu)化了解碼器過程,通過觀察真實的數(shù)據(jù)。如果第一個解碼出一個高頻詞,比如我,你,我們,你們,那么通常來說回復不會太好,針對這個問題我們做了一個 learning to start for sequence to sequence 的 framework,后面大家可以把 learning to start 這個模塊做進一步改進和提升。但目前來說對原有算法效果已經(jīng)有了一定的效果。
③ 更好地利用檢索結果提高對話生成質量
其次,今年發(fā)表在 ACL2019 上面的一篇文章,檢索式和生成式是互相對抗又互補的結果,檢索式結果可以保證相關性、流暢性比較好,但是多樣性受限,不論怎樣檢索都跑不出編輯好的話術。生成式的好處就是機器可以創(chuàng)造,但生成式模型面臨著萬能回復的問題。利用檢索式結果和生成式結果互相增強的方式,提出這樣一個模型。