導(dǎo)讀:在2017-2018慘烈的千箱大戰(zhàn)的一地雞毛之后,智能音箱市場從2018年底基本宣告進(jìn)入三足鼎立時(shí)代,百度小度、阿里天貓精靈、小米的小愛成為市面上收割絕大部分市場的三巨頭。
【編者按】我們可以從技術(shù)邏輯上來認(rèn)識這樣一個(gè)智能音箱市場的產(chǎn)業(yè)現(xiàn)狀:關(guān)于智能音箱未來在哪里,答案可以有很多選擇。
智能音箱市場上,風(fēng)起云涌的變化還在繼續(xù)。
根據(jù)Canalys、Strategy Analytics、IDC三家機(jī)構(gòu)提供的市場數(shù)據(jù),2019年Q1小度系列智能音箱出貨量躍居中國第一、全球第三。
在2017-2018慘烈的千箱大戰(zhàn)的一地雞毛之后,智能音箱市場從2018年底基本宣告進(jìn)入三足鼎立時(shí)代,百度小度、阿里天貓精靈、小米的小愛成為市面上收割絕大部分市場的三巨頭。
很多媒體與評論者都認(rèn)定,今天這個(gè)階段,智能音箱已經(jīng)陷入膠著的同質(zhì)化競爭,巨頭的主要任務(wù)就是提高補(bǔ)貼和性價(jià)比、多找流量明星代言、多與家電和車企聯(lián)動(dòng)。甚至認(rèn)為如今智能音箱已經(jīng)越來越難完成硬件創(chuàng)新,市場和營銷變成了唯一的突破口。
然而事實(shí)果真如此嗎?智能音箱是否真的已經(jīng)抵達(dá)了紅海的末尾,只能靠外部玩法續(xù)命?
2019百度AI開發(fā)者大會(huì)(Baidu Create 2019)上,百度副總裁、百度智能生活事業(yè)群組(SLG)總經(jīng)理景鯤正式發(fā)布小度助手(DuerOS)5.0。在這次升級中,我們至少可以從技術(shù)邏輯上來認(rèn)識這樣一個(gè)智能音箱市場的產(chǎn)業(yè)現(xiàn)狀:關(guān)于智能音箱未來在哪里,答案可以有很多選擇。
向音箱內(nèi)部,向技術(shù)體驗(yàn),向AI的宏觀曲線,還有眾多變數(shù)籠罩在音箱市場背后。而技術(shù)升級能力在這一新興市場中的杠桿作用,可能遠(yuǎn)比外界認(rèn)識的更加重要。
AI交互,從未標(biāo)記為“已解決”
近兩年,我們開始習(xí)慣手機(jī)與音箱中的AI語音交互。然而,人類開始研究對話式AI的歷史,可以追溯到上世紀(jì)50年代貝爾實(shí)驗(yàn)室的Audry系統(tǒng)。當(dāng)時(shí)研究者們判斷對話AI具有三大難題:單詞識別、句子的理解、從語言分析對話方意圖的能力。
歷經(jīng)了50年曲折的AI技術(shù)發(fā)展,最終人類搞定了詞義識別這件事。但如果說今天的智能音箱,已經(jīng)缺乏硬件創(chuàng)新可能,人機(jī)對話能力將停留于此,那毫無疑問是過分自大的。
客觀來看,今天的智能音箱產(chǎn)品,在交互的自然、流暢與可持續(xù)能力上,依舊具有極大的阻礙,每一臺設(shè)備的語音交互都不足以稱為完整形態(tài)。主要來看,有三大問題縈繞在智能音箱左右:
1、喚醒效率問題。是否能適應(yīng)遠(yuǎn)場與復(fù)雜聲源環(huán)境的喚醒。這是一個(gè)軟硬一體化問題,需要算法創(chuàng)新與芯片側(cè)的聯(lián)合創(chuàng)新。
2、語義理解的深度問題。這個(gè)問題決定了對話是否能被理解,方言、個(gè)性化的語言習(xí)慣、中英夾敘、復(fù)雜長句的理解等領(lǐng)域構(gòu)成了這一問題的主要挑戰(zhàn)。
3、機(jī)器記憶體驗(yàn)的問題。這個(gè)問題決定了對話是否能夠持續(xù),主要挑戰(zhàn)包括機(jī)器能否有效記憶、篩選文本和跨時(shí)間保留對話。
三大基礎(chǔ)標(biāo)準(zhǔn)之外,多種AI技術(shù)的交互融合則構(gòu)成了未來智能音箱的技術(shù)體驗(yàn)。包括語音與視覺的結(jié)合,例如結(jié)合唇語的視覺識別來提升語音交互準(zhǔn)確度一;以及語音與知識的結(jié)合,比如機(jī)器能否理解用戶表達(dá)的專用詞匯、形容式表達(dá)以及暗示。
這些問題的廣泛存在,讓智能音箱不能停留在今天。客觀來說,不管媒體和評論者是否認(rèn)為今天的智能音箱普遍缺乏創(chuàng)新能力,小度助手,一直沒有停下解決最核心技術(shù)問題的努力。
去年7月,小度助手發(fā)布了3.0版本。其核心技術(shù)特點(diǎn)是在自然交互能力上進(jìn)行了升級,強(qiáng)調(diào)自然語言處理能力支持下的深度語義分析,并且輸出為極客模式、兒童模式等差異化體驗(yàn)。
事實(shí)上,小度助手3.0就可以看作對上述第二個(gè)問題進(jìn)行的集中攻堅(jiān),以自然語言處理技術(shù),結(jié)合多模態(tài)技術(shù)解決語義理解體驗(yàn)深度。
而在剛剛發(fā)布的小度助手5.0中,對于前兩個(gè)問題都給出了新的答案。在聽清方面,小度助手如約引入了百度首創(chuàng)的流式截?cái)嗟亩鄬幼⒁饬δP?SMLTA)。這個(gè)在AI圈中被稱為暴力到不講道理的模型,將極大程度增強(qiáng)小度助手的喚醒能力。搭配剛剛發(fā)布的語音芯片鴻鵠,未來喚醒之路上的小度助手還有很多底牌。
在聽懂方面,結(jié)合百度NLP的知識增強(qiáng)語義表示模型ERNIE,小度助手的核心理解算法全面升級為超大數(shù)據(jù)預(yù)訓(xùn)練深度模型,并且通過融合百度全網(wǎng)搜索能力與大規(guī)模精準(zhǔn)用戶畫像,小度助手可以學(xué)習(xí)用戶畫像,不斷升級語義理解的個(gè)性化能力。
而面對問題3,小度助手放出了刷屏級別的新技術(shù)——全雙工免喚醒能力。這讓小度助手5.0在可以理解更復(fù)雜語義的基礎(chǔ)上,能夠知道自己應(yīng)該何時(shí)被喚醒,何時(shí)保持沉默繼續(xù)等待命令。這一技術(shù)突破,指向人類之間對話時(shí)的“拒絕反應(yīng)”,是因?yàn)槿祟惸軌蛴涀∩舷挛模恍枰恳痪涠歼M(jìn)行回復(fù),才可以用沉默構(gòu)成交互的一部分。這個(gè)能力,指向著上述第三個(gè)問題:機(jī)器記憶。
至此,智能音箱的排頭兵,已經(jīng)不必拘泥于“一問一答”的機(jī)械模式,而是走入類似真人對話的連續(xù)交互。
梳理一下不難發(fā)現(xiàn),小度助手不僅沒有喪失向內(nèi)尋求技術(shù)突破的能力,而且還是在以年為單位,連續(xù)性系統(tǒng)性地直面語音交互的根本問題。而且小度助手的技術(shù)進(jìn)化,是呈現(xiàn)出與百度AI技術(shù)發(fā)展同頻特征的,都表現(xiàn)為通過多AI基礎(chǔ)技術(shù)融合,更高效算法模型的使用,以及平臺化、模塊化的技術(shù)特性。
讓我們先把小度助手5.0帶來的結(jié)論——“AI向內(nèi)創(chuàng)新,并非沒有可能”這句話放在這里。帶著它,我們可以重新審視一下今天三國鼎立的智能音箱市場。
同樣的中局,不同的終局
曾經(jīng)很多人認(rèn)為,千箱大戰(zhàn)無非是千篇一律的戰(zhàn)爭,這東西非常簡單,誰都能做。結(jié)果很快缺乏技術(shù)和產(chǎn)品創(chuàng)新力的音箱品牌就大面積死亡。這時(shí)我們發(fā)現(xiàn),原來音箱之間還是有很大不同的。
到了今天,我們又認(rèn)為市面上剩下的三家主要音箱本質(zhì)是相同的,市場主旋律是膠著的補(bǔ)貼戰(zhàn)和流量戰(zhàn)。這種認(rèn)識,似乎又回到了當(dāng)年的老路上。
如果說當(dāng)年的音箱是遍地石子,今天的音箱就是三大雪球滾動(dòng)向前。我們需要注意的是,剝開這三個(gè)雪球,會(huì)發(fā)現(xiàn)它們的核心完全不同。
小米的小愛,包裹著IoT產(chǎn)品的連接;天貓精靈包括著電商和阿里生態(tài);而百度的核心是AI技術(shù),是對話式AI解決方案的持續(xù)進(jìn)化能力。
不同的核心,確立了不同的發(fā)展模式和市場行為。百度沒有阿里的電商狂歡,阿里沒有小米鋪天蓋地的IoT生態(tài),而小米的音箱也不太可能具備小度的拒絕反應(yīng)和機(jī)器記憶能力。
雖然在音箱普及階段的推廣和促銷是各家都不可避免的,但是細(xì)致拆分下來每家的重點(diǎn)其實(shí)從來不曾重合。比如說,回看一下最近的新聞,我們會(huì)發(fā)現(xiàn)天貓精靈在主推方糖R型號,用明星定制化的特點(diǎn)來主推粉絲電商。而小愛在連接更多的IoT設(shè)備,最新上線的是按摩椅。小度助手則在上線新硬件的同時(shí),解決AI交互中的機(jī)器記憶問題。
與眾多媒體認(rèn)為的音箱紅海正相反。真正的音箱三巨頭之爭,是營銷好做、明星好請,但內(nèi)在的技術(shù)與產(chǎn)品價(jià)值核心卻不好替換。
如果說三家音箱是三個(gè)雪球,天貓精靈可以被稱作“新零售雪球”,小愛叫做“米家雪球”,而小度則更適合“AI技術(shù)雪球”這個(gè)稱呼。
從頭到尾,智能音箱的中局就是一場差異化競爭。雖然目前在市場份額上似乎來到了驅(qū)動(dòng)的臨界點(diǎn),但接下來的走向,更可能是“你打你的,我打我的”,甚至各自把智能音箱打成截然不同的東西。
不同的內(nèi)核,定會(huì)裹挾不同的外層,通往不同的方向。
技術(shù)雪球里的小度,要向何處去?
事實(shí)上,內(nèi)核差異已經(jīng)影響到了音箱市場的產(chǎn)品表現(xiàn)與市場競爭格局。比如說小度出貨量偏向長線持續(xù)增長,原因之一在于小度系列的技術(shù)體驗(yàn)更突出,容易引發(fā)口碑傳播。
我們可以以技術(shù)雪球里的小度助手為例,看看它的內(nèi)核會(huì)將智能音箱的未來帶到何處。
小度的技術(shù)差異化,體現(xiàn)在產(chǎn)品中可以歸納為三方面:底層技術(shù)能持續(xù)進(jìn)化、技術(shù)與技能開放平臺、軟硬一體化能力。這三個(gè)能力,正在將多方面的市場與生態(tài)差異化納入小度雪球的范圍:
1、底層技術(shù)升級,連接的是用戶體驗(yàn)的差異化。小度系列為什么不同,可以輕松用幾句對話感覺到。這讓小度更適合口碑傳播和體驗(yàn)式傳播,造成了小度的一系列品牌建設(shè)順利展開,市場銷量持續(xù)快進(jìn)。
2、基于技術(shù)模塊化打造的技術(shù)與技能平臺,連接的是內(nèi)容和開發(fā)者、IoT設(shè)備。三者可以更低門檻接入小度生態(tài),完整利用小度的技術(shù)優(yōu)勢轉(zhuǎn)化為自身優(yōu)勢。比如,小度助手5.0帶來了更好的技能開發(fā)體驗(yàn)。面向開發(fā)者的全雙工免喚醒能力使得人機(jī)交互更加自然,用戶的交互成本降低一半;DPL(DuerOS Presentation Language)則讓開發(fā)者可以自定義技能的視覺展現(xiàn)。在開發(fā)門檻不斷降低、開發(fā)體驗(yàn)和想象力不斷飆升的情況下,最終可以看到小度用戶的沉浸時(shí)間更長,連接設(shè)備更廣泛,并且消費(fèi)者應(yīng)用第三方技能的時(shí)間不斷增加。平臺的技術(shù)便捷與高可用,構(gòu)成了小度吸引開發(fā)者的核心價(jià)值。
3、軟硬一體化的技術(shù)架構(gòu),連接著硬件能力與核心算法模型的排列組合能力。新的硬件形態(tài)、新的硬件能力,比如帶屏、投影等,可以更快接入核心算法層。在本屆百度AI開發(fā)者大會(huì)上,小度系列又推出了小度智能音箱大金剛、小度智能音箱Play、小度在家1C 4G版,這些新產(chǎn)品滿足了不同人群和場景的需要,同時(shí)都具備投屏功能,可以一句話連接電視,一句話點(diǎn)播視頻,無縫連接小米、海信、創(chuàng)維、TCL等主流智能電視品牌。小度助手能夠源源不斷推出新品、新硬件能力的原因,是底層技術(shù)架構(gòu)的模塊化與平臺化。
可以看到,小度能夠在不同領(lǐng)域后來居上,根本跳板是對話式AI底層技術(shù)與平臺化的領(lǐng)先性與持續(xù)進(jìn)化能力。這種能力的延展性很廣闊,甚至現(xiàn)在已經(jīng)有人說在小度的技術(shù)能力下,智能音箱已經(jīng)完全不像是我們印象中的那種產(chǎn)品,達(dá)成了音箱不只是音箱的開始。
目前來看,小度代表的技術(shù)進(jìn)化通道在產(chǎn)業(yè)內(nèi)不具備可復(fù)制性。而與其他競品所代表的能力相比,到底哪種雪球會(huì)來滾動(dòng)到最遠(yuǎn),可能還是要交給時(shí)間來審視。
但有個(gè)邏輯或許可以在今天進(jìn)行類比:音箱到底是什么,能走到哪里;是一兩年的玩物,還是三五年的風(fēng)口,抑或如同冰箱電視一樣永遠(yuǎn)放在生活中的不可替代品?
想回答這個(gè)問題,我們可以想想當(dāng)年的電視。如果電視永遠(yuǎn)停留在12寸黑白的時(shí)代,那么沒有幾年它就將遭到膩煩,沉睡于垃圾箱和博物館。今天我們依舊在孜孜以求地購買合適的電視產(chǎn)品,原因在于電視的技術(shù)在進(jìn)化,電視生態(tài)在發(fā)展。
技術(shù)進(jìn)化是一切的開始,電視產(chǎn)品的技術(shù)進(jìn)步,才能帶動(dòng)電視網(wǎng)絡(luò)、電視內(nèi)容、周邊產(chǎn)業(yè)(比如游戲機(jī)、音響)的滾動(dòng)進(jìn)步。
智能音箱正處在同樣的階段。向內(nèi)尋找答案,以技術(shù)撬動(dòng)進(jìn)步或許是接下來很多故事不能或缺的前提條件。
電視可以永遠(yuǎn)12寸黑白,也可以是8k高清的家庭娛樂平臺。智能音箱可能不是音箱,只是會(huì)一問一答交互,套用模板觸發(fā)語音指令的“人工智障玩具”;音箱也可能不是音箱,而是能滔滔不絕聊下去,背靠海量技能與IoT設(shè)備的家庭智慧中樞。
技術(shù)進(jìn)化,是前后二者唯一的差別。