應用

技術

物聯(lián)網世界 >> 物聯(lián)網新聞 >> 物聯(lián)網熱點新聞
企業(yè)注冊個人注冊登錄

深度 | AI 建模實際應用場景及效益

2020-04-23 11:00 媒體投稿

導讀:隨著AI 科技的發(fā)展,過去很多無法應用計算機算法分析的場景現(xiàn)在已經成為可能,并且能經由 AI 的算法帶來實際的業(yè)務效益,提升營收。本文將以普強的 AI 建模、語義理解、語音識別等相關技術為核心所建立的一套優(yōu)化商業(yè)場景機制,在行業(yè)中的實際應用所產生的效益做詳細闡述。

隨著AI 科技的發(fā)展,過去很多無法應用計算機算法分析的場景現(xiàn)在已經成為可能,并且能經由 AI 的算法帶來實際的業(yè)務效益,提升營收。本文將以普強的 AI 建模、語義理解、語音識別等相關技術為核心所建立的一套優(yōu)化商業(yè)場景機制,在行業(yè)中的實際應用所產生的效益做詳細闡述。

國內一名列世界500 強的保險公司(以下簡稱“A 保險公司”),擁有龐大的電銷團隊,雇傭了上萬名電銷人員,每月電銷電話撥打量達到千萬通。由于客戶名單基本為白名單,即沒有客戶的信息,傳統(tǒng)的格式化維度分析無法應用,所以A保險公司在沒有客戶信息的情況下,實行全量撥打,這樣的撥打效果成交率在千分之一以下。另一方面,全量撥打的電銷電話也給客戶帶來不良的印象,對客戶造成不必要的干擾。近年來,監(jiān)管力度逐年上升,對電銷電話管控嚴度加大。為能有效運營電銷就需要有特定對象,向有購買保險意愿的客戶精準的撥打。

隨著AI 科技的進步,普強 AI 建模產品的核心運用了最新的 AI 語音轉譯和語義理解技術,為這樣的場景提供了一個極佳的解決方案,能夠讓 A 保險公司和有類似業(yè)務場景公司的電銷人員將資源集中在有潛在購買意愿的客戶。一方面,避免撥打全量的電話,減少人力資源和電信話費,另一方面,能有效減少對沒有購買意愿客戶的干擾。當客戶有意愿和需求購買保險時,電銷的外呼電話不被認為是干擾;相反,對沒有購買意愿或能力的人,這樣的電話即成為客戶的干擾。

事實上,經過AI 建模的分析,在數(shù)百萬的客戶名單中,有購買意愿的大約在 15% 左右,因此 80% 以上的電話都是不必要撥打的。這樣的應用給 A 保險公司和有類似應用場景的公司省下巨大的成本。接下來,將會對此做詳盡的描述。

一、語音語義理解可獲取有價值的客戶特征

雖然沒有客戶的固定維度信息,但是有許多已撥打過的錄音,A 保險公司擁有海量的客戶通話錄音,錄音內含有寶貴的客戶信息、客戶特征等。這些數(shù)據(jù)都可以作為篩選客戶的依據(jù),例如在電銷的過程中可以得知:

l買過保險:“謝謝,我已經有保險了”。

l可能有車:“對不起,我正在開車,不方便講話”。

l有房人士:“我目前房貸壓力大,沒有閑錢買保險”。

還有許多類似的特征都可以從電銷人員和客戶的通話中獲取,做成客戶畫像。普強過去積累了許多成功案例,其中就包含大量這樣有價值的客戶特征。從各樣的案例中,電銷人員重點關注擁有這些特征的客戶,撥打給這類有較高意愿的客戶并提高銷售力度,增加撥打次數(shù)和跟進,從而提升銷售成交率。因此,若能將這些寶貴的客戶信息特征挖掘出來,也就能更進一步找出潛在客戶,從而將電銷團隊的大量資源(人力、時間、電話費用……)做最有效的運用,達到最大收益。

二、AI語音轉譯和語義理解

自從2010 年蘋果電腦、手機發(fā)布 Siri 應用后,語音識別技術不斷的更新、突破。其主要是源于一種計算機算法架構的技術突破:深度神經網絡。使用神經網絡的技術,研究人員不斷推進許多人工智能以前不能突破的障礙,例如語音識別、圖像識別、語義理解等三大領域。借助神經網絡架構,這些領域里的問題都大大提升了應用上的效果。這樣的突破主要由以下幾個因素造成:

l數(shù)據(jù)量徒增:借著互聯(lián)網的發(fā)展,大量的用戶將語音、圖像、照片、文字上傳到大型的數(shù)據(jù)中心。

l大型云計算中心超級的運算能力:能儲存、處理、分析這些海量的數(shù)據(jù)。

l算法突破:借助前兩項,算法得以不斷的被驗證、優(yōu)化、迭代更新,創(chuàng)新的神經網絡架構不斷的被提出并被驗證。

在語音識別方面,2017 年微軟研究院的技術達到了與人翻譯的結果相同的里程碑。在電話對話的數(shù)據(jù)集(Switchboard),微軟的研究員們使用了多個神經網絡模型來翻譯使結果達到最優(yōu),翻譯的字錯誤率與4位專業(yè)翻譯人士共同翻譯的錯誤率基本相同。2018 年谷歌的 DeepMind 使用了大型的 CNN-RNN-CTC 神經網絡架構,翻譯結果比翻譯專家好六倍。同時在圖像識別方面,也同樣有重大突破,使得自動駕駛這樣復雜的工作,變得可實現(xiàn)。

語音、圖像識別持續(xù)突破,在語義理解方面,使用神經網絡架構的算法也突破了人的水平。著名的史丹佛大學語義理解競賽的文本問答數(shù)據(jù)集,內有10 萬條問答,都是從維基百科摘選的文章片段,然后對每一片段由真人提出問題,并在文章片段內找出答案的位置。準確率由 2017 年前的 60% 迅速攀升到最新的 90% 以上,遠遠超過人的水平,人的水平為 86.8%,而準確率最高的神經網絡是 94.6%。它所使用的神經網絡架構為一種稱為 Transformer 的網絡,疊加 24 次,形成一個深度大型的網絡(BERT),并使用了兆級數(shù)量的詞匯做訓練。在其它常用的語義任務上,神經網絡也都極大的提升了準確率,例如命名實體識別(NER)、關系識別、文本蘊含(text entailment)等。

這些人工智能的科技突破,讓許多以往計算機不能應用到的場景成為新的應用。在語音方面,企業(yè)存儲的海量錄音,以往是黑盒子,無法進行分析整理。不像結構化的數(shù)據(jù),使用大型的數(shù)據(jù)庫,可以做查詢、統(tǒng)計、分析、圖表化等工作。如今,可以經由語音識別成為文字,然后再經由語義理解做分析,產生實際的應用效益。接下來將對最新的語音、語義技術在人工智能科技的應用作案例分析。

三、語音語義分析現(xiàn)行科技狀況

語音識別相對比較容易理解和定義,其任務就是將聲音轉成文字,而轉化的效果可以簡易的用字錯誤率來界定。但是識別的準確率與諸多因素相關,可以用人的體驗來做比喻,因為人工智能基本就是模仿人的智能:

l專業(yè)領域:如果在一個不同的專業(yè)領域,例如醫(yī)學,許多的用語不是一般常用的,一個非醫(yī)學專業(yè)的人士不容易理解這些醫(yī)學的用語,做文字轉化的也會出錯。

l口音/方言:嚴重的方言口音或是方言。

l傳播媒介:如電話信道。

l背景聲音:如吵雜的環(huán)境。

這些都會影響識別的結果,就像人需要時間適應后才能聽懂一個新環(huán)境里的對話交流。所以要降低語音轉譯的錯誤率,必須要能對專業(yè)或應用領域有足夠的認識,熟悉地域的口音、方言等。

普強的語音轉譯專注于固定領域來積累領域的專業(yè)話語,也同時積累了大量的語音覆蓋了口音、方言、傳播媒介特性、背景聲音等因素,來優(yōu)化語音轉譯的正確率。

另一方面,語義理解任務相對的就比較不容易定義和理解,有一組學術界定義的語義理解相關的問題(GLUE):

lCoLA:單句的二分類問題, 判斷一個英文句子在語法上是不是可接受的。

lSST-2:單句的二分類問題, 句子的來源于人們對一部電影的評價, 判斷這個句子的情感。

lMRPC:句子對來源于對同一條新聞的評論,判斷這一對句子在語義上是否相同。

lSTS-B:這是一個類似回歸的問題,給出一對句子,使用 1~5 的評分評價兩者在語義上的相似程度。

lQQP:這是一個二分類數(shù)據(jù)集,目的是判斷兩個來自于 Quora 的問題句子在語義上是否是等價的。

lMNLI-m:語型內匹配。推斷兩個句子是意思相近, 矛盾,還是無關的。

lMNLI-mm:跨語型匹配。推斷兩個句子是意思相近,矛盾,還是無關的。

lQNLI:也是一個二分類問題,兩個句子是一個(question,answer)對,正樣本為 answer 是對應question的答案,負樣本則相反。

lRTE:是一個二分類問題,類似于 MNLI, 但是數(shù)據(jù)量少很多。

lWNLI:推斷兩個句子是意思相近,矛盾,還是無關的。

lAX:QA型圖像數(shù)據(jù)庫。

這些任務都有許多應用場景,但是語義理解的應用范疇也有很多不能直接應用這些任務,例如從一段對話文本中來判斷一個人是否結婚,如下面的對話:

A:您好,我想跟您談下我們公司最近的一個產品的活動,這個產品能夠......

B:嗯,謝謝,不過我需要和我老婆商量商量....

明顯的從這段對話里,可以判定B是已經結過婚的人。再例如,服務業(yè)里常有禁忌的用語如:

A-先聽我說or A-是誰說or A-怎么知道or A-誰告訴你or A-有沒有搞錯or A-你弄錯了or A-說重點or A-你必須or A-本來應該or A-這個部門很差勁or A-這個部門差勁or A-到底需要不需要or A-你不要跟我喊or A-你明白了嗎or A-那您覺得呢or A-我說的很清楚了or A-剛才不是對你說了

這樣的語義理解應用均不是GLUE 里面的任務能夠直接應用的,并且在 GLUE 里表現(xiàn)良好的神經網絡架構也不能保證在真實應用的場景里達到產生業(yè)務價值的效果。

2018 年底,谷歌發(fā)布了一種神經網絡架構 BERT,一種基于 Transformer 架構的多層疊加的神經網絡,BERT 提出兩種版本,基本版(BASE)和大型版(LARGE),參數(shù)如下:

BERTBASE: L=12, H=768, A=12, Total Parameters=110M

BERTLARGE: L=24, H=1024, A=16, Total Parameters=34

使用了3.3Giga 的詞匯作預訓練,然后再按任務作微調訓練,硬件使用了谷歌 TPU V2.0 的處理器,BERT 的基礎版(BASE)需要 16 個 TPU 芯片,BERT 的 LARGE 版使用了 64 個 TPU 芯片,預訓練需要 4 天。

在GLUE 的許多任務上均優(yōu)于此前的神經網絡架構(如上表所列)。BERT 在語音識別和圖像識別突破后帶來了語義理解的突破。此后在 BERT 的基礎上,在語義理解的許多應用上都帶來了突破。然而由于 BERT 和后續(xù)的神經網絡都需要龐大的計算資源和時間,給私有化部署的應用帶來高昂的成本,除非能夠使用云端共享的 BERT 計算資源。由于數(shù)據(jù)保密的要求,許多應用的數(shù)據(jù)無法上傳到云端,例如金融業(yè)的客戶數(shù)據(jù)等。

如前所述,這樣的科技還需要經過再創(chuàng)新才能應用在實際的商業(yè)場景里。普強在這個方面做了十年的科研投入,不斷的將最新的科技應用在實際的商業(yè)場景上。

四、普強語音語義框架

當前人工智能算法均屬在高維度的空間中尋找線性/非線性復合函數(shù)的最優(yōu)值點,其最核心的架構設計實為設計此高維度空間里的數(shù)學復合函數(shù),許多的復合函數(shù)/神經網絡框架都在不同的任務中被驗證有應用的效益,下面列舉了幾個重要的類別:

全聯(lián)多層的神經網絡:每層的神經元均與下一層的所有神經元相連,邏輯回歸等算法均使用此種網絡。

l卷積神經網絡(Convolutional Neural Networks, CNN):是一類包含卷積計算且具有深度結構的前饋神經網絡(Feedforward Neural Networks),是深度學習(deep learning)的代表算法之一。卷積神經網絡具有表征學習(representation learning)能力,能夠按其階層結構對輸入信息進行平移不變分類(shift-invariant classification),因此也被稱為“平移不變人工神經網絡(Shift-InvariantArtificial Neural Networks, SIANN)。卷積神經網絡架構在視覺辨識里達到了極優(yōu)的效果。

l循環(huán)神經網絡(Recurrent Neural Network, RNN):是一類以序列(sequence)數(shù)據(jù)為輸入,在序列的演進方向進行遞歸(recursion)且所有節(jié)點(循環(huán)單元)按鏈式連接的遞歸神經網絡(recursive neural network)。循環(huán)神經網絡的研究始于二十世紀 80-90 年代,并在二十一世紀初發(fā)展為深度學習(deep learning)算法之一,其中雙向循環(huán)神經網絡(Bidirectional RNN, Bi-RNN)和長短期記憶網絡(LongShort-Term Memory networks,LSTM)是常見的的循環(huán)神經網絡。循環(huán)神經網絡具有記憶性、參數(shù)共享并且圖靈完備(Turing completeness),因此在對序列的非線性特征進行學習時具有一定優(yōu)勢。循環(huán)神經網絡在自然語言處理(Natural Language Processing, NLP),例如語音識別、語言建模、機器翻譯等領域有應用,也被用于各類時間序列預報。引入了卷積神經網絡(Convoutional Neural Network,CNN)構筑的循環(huán)神經網絡可以處理包含序列輸入的計算機視覺問題。

lTransformer神經網絡:拋棄了傳統(tǒng)的 CNN 和 RNN,整個網絡結構完全是由 Attention 機制組成。更準確地講,Transformer 由且僅由 Self-Attenion 和 Feed Forward NeuralNetwork 組成。一個基于 Transformer 的可訓練的神經網絡可以通過堆疊 Transformer 的形式進行搭建,作者的實驗是通過搭建編碼器和解碼器各6層,總共12層的 Encoder-Decoder,并在機器翻譯中取得了 BLEU 值得新高。

lCTC(Connectionis ttemporal classification):傳統(tǒng)的語音識別的聲學模型訓練,對于每一幀的數(shù)據(jù),需要知道對應的 label 才能進行有效的訓練,在訓練數(shù)據(jù)之前需要做語音對齊的預處理。而語音對齊的過程本身就需要進行反復多次的迭代,來確保對齊更準確,這本身就是一個比較耗時的工作。與傳統(tǒng)的聲學模型訓練相比,采用 CTC 作為損失函數(shù)的聲學模型訓練,是一種完全端到端的聲學模型訓練,不需要預先對數(shù)據(jù)做對齊,只需要一個輸入序列和一個輸出序列即可以訓練。這樣就不需要對數(shù)據(jù)對齊和一一標注,并且CTC 直接輸出序列預測的概率,不需要外部的后處理。

以上僅就目前人工智能應用領域里經常使用并產生實際應用效益的網絡做了簡介,當應用到各個實際場景里時,還有基于上述網絡衍生的眾多版本和彼此之間的結合版,不能一一詳述。

深度學習里的神經網絡架構及其參數(shù)和超參數(shù)均需按實際場景和數(shù)據(jù)的情況作調試優(yōu)化,方能達到理想的效果以產生實際應用價值。然而實際的場景雖然都有相似之處,但也有諸多不同的細節(jié),為能滿足每一應用場景的應用效益要求,以過往往需要由資深的算法工程師做深度的調試,此種模式耗時且效率低,常常不能滿足客戶快速的迭代需求。

大型人工智能科技公司提倡將大量的數(shù)據(jù)存儲在它們的云計算平臺上,并同時按采集到的海量數(shù)據(jù)調試一個能廣泛應用的平臺。此種商業(yè)模式,雖有可行性,但同時也面臨著一些根本的挑戰(zhàn)。例如如何能保證數(shù)據(jù)的安全,特別是金融行業(yè)和其它對數(shù)據(jù)保密要求高的行業(yè),同時這些大型的人工智能公司現(xiàn)今也不斷的擴張他們的業(yè)務領域,將數(shù)據(jù)提供給此類的云平臺,也加速了他們的競爭力來切入不同的商業(yè)領域,這樣的擔憂也是使得這樣的方法無法獲得更多商業(yè)應用的數(shù)據(jù),從而不能提供一個通用的應用人工智能系統(tǒng)。

據(jù)此普強提出發(fā)展一種可重復復用的機制,將這個機制靈活的應用到每一個客戶業(yè)務場景上,當這個機制應用到特定場景上時,會按已成功的案例,做梳理業(yè)務邏輯并同時在客戶內的私有云上采集數(shù)據(jù),再用成功案例的深度學習神經網絡,機器學習算法架構來訓練、測試、驗證模型,最終上線運行業(yè)務邏輯,提升業(yè)務價值及效益。這樣的機制主要包含兩項重要元素,方法論和計算技術框架:

l方法論:對行業(yè)及業(yè)務場景整理出流程和規(guī)則,并按此流程和規(guī)則采集積累海量的數(shù)據(jù)。

l計算技術框架:按實際應用場景,建立算法框架,框架是由各類已驗證后的神經網絡和機器學習算法構成的體系,對每一應用場景作全框架計算測試評估,研判出最優(yōu)的神經網絡架構和機器學習算法,并同時調試參數(shù)和配置。

普強在金融及相關領域,積累十年以上的人工智能行業(yè)落地經驗,專注于垂直領域,歸納成功的案例、相關的業(yè)務流程規(guī)則和算法算力需求,建立起一套完整的機制。隨著客戶的業(yè)務需求變化和成功案例積累,不斷的擴充加強優(yōu)化此機制,作快速的迭代。

五、成功案例分享

A保險公司為名列世界500強的保險公司(在本文開頭已有提及),普強將語義分析機制應用在A保險公司的電銷業(yè)務里,項目一期應用在A保險公司兩個主要的業(yè)務區(qū):BJ市和TJ市。對大約250萬的客戶電銷通話錄音(約400萬通錄音)作落地實施,其中包括了下列的步驟:

l業(yè)務梳理:與客戶業(yè)務人員交流,以對客戶的業(yè)務做深度的了解,與普強機制框架對接。

l分析流程建立:分析客戶業(yè)務,建立流程,優(yōu)化流程。

l客戶特征篩選:基于普強的業(yè)務成功案例,使用大數(shù)據(jù)分析,抽取潛在具有購買意愿客戶特征。

l成交相關度計算:經由普強大數(shù)據(jù)分析框架計算客戶特征與成交的相關度,排序客戶特征的優(yōu)先順序。

l模型建模/訓練:普強計算技術框架對最優(yōu)最先進的神經網絡架構和機器學習算法,作架構和算法評估,測試不同架構和算法的效益優(yōu)劣,及計算資源需求以及是否能達到客戶的時效要求等工作,最終推薦最優(yōu)的架構/算法。

l測試:使用海量的數(shù)據(jù)不斷的測試,并調優(yōu)參數(shù),達到準確率、召回率等測試標準的要求,并依照業(yè)務模式計算相對的業(yè)務效益。

l驗證:實際推送普強業(yè)務流程算法推薦的潛在客戶,驗證成交率。

l上線:將最終驗證通過的整體機制上線,進入實際業(yè)務運行。

與使用普強機制前業(yè)務情況對比的成效如下:

l精準的推薦占總量約15% 的潛在有購買意愿的優(yōu)質客戶。

l推薦的15% 的客戶覆蓋了 90% 的業(yè)績。

l節(jié)省了80%+ 的電銷電話,人員時間。

l并減少了對沒有意向購買客戶的干擾。

l確定了潛在購買客戶的特征,作話術優(yōu)化的依據(jù),有定向的與客戶對話以確認是否是有所確定的特征。

l發(fā)掘了電銷流程的缺失:發(fā)現(xiàn)高購買意向客戶的跟蹤力度不及時或遺漏的情況,建立追蹤系統(tǒng)及時找回遺漏的潛在客戶并跟進。

六、結語

隨著計算力和云存儲容量的大幅提升,海量數(shù)據(jù)的收集,使得以往不能突破的人工智能問題均得到突破:如語音識別、圖像識別、語義理解等領域。借著這些突破,許多商業(yè)場景都能應用這些最新的人工智能突破,而產生實際的商業(yè)效應。

本文中敘述了語音識別和語義理解在特定的垂直領域中的應用,并詳述案例和其應用的效益。此種效應隨著科技的進步和突破,必能擴及更多的場景和商業(yè)應用。本文中所述的方法論和技術計算框架也必定會不斷的迭代更新和擴充,帶給實際的業(yè)務更多的效益。