聊天機(jī)器人(也可以稱(chēng)為語(yǔ)音助手、聊天助手、對(duì)話(huà)機(jī)器人等)是目前非常熱的個(gè)人工智能研發(fā)與產(chǎn)品方向。很多大型互聯(lián)網(wǎng)公司投入重金研發(fā)相關(guān)技術(shù),并陸續(xù)推出了相關(guān)產(chǎn)品,究其原因在于大都將聊天機(jī)器人定位為未來(lái)各種服務(wù)的入口,尤其是移動(dòng)端App及可穿戴設(shè)備場(chǎng)景下提供各種服務(wù)的入口。
聊天機(jī)器人
聊天機(jī)器人的類(lèi)型
目前市場(chǎng)上有各種類(lèi)型的聊天機(jī)器人,比如有京東JIMI客服機(jī)器人,兒童教育機(jī)器人,小冰娛樂(lè)聊天機(jī)器人,Alexa居控制、車(chē)載控制機(jī)器人,Viv全方位服務(wù)類(lèi)型機(jī)器人等。這是從應(yīng)用方向?qū)α奶鞕C(jī)器人的種劃分。
如果對(duì)應(yīng)用目的或者技術(shù)手段進(jìn)行抽象,聊天機(jī)器人可以有以下兩種劃分方法。
目標(biāo)驅(qū)動(dòng)(Goal Driven) VS. 無(wú)目標(biāo)驅(qū)動(dòng)(Non-Goal Driven)聊天機(jī)器人
目標(biāo)驅(qū)動(dòng)的聊天機(jī)器人指的是聊天機(jī)器人有明確的服務(wù)目標(biāo)或者服務(wù)對(duì)象,比如客服機(jī)器人、兒童教育機(jī)器人、類(lèi)似Viv的提供天氣/訂票/訂餐等服務(wù)的服務(wù)機(jī)器人等,這種目標(biāo)驅(qū)動(dòng)的聊天機(jī)器人也可以稱(chēng)作特定領(lǐng)域的聊天機(jī)器人。
無(wú)目標(biāo)驅(qū)動(dòng)聊天機(jī)器人指的是聊天機(jī)器人并非為特定領(lǐng)域服務(wù)目的而開(kāi)發(fā),比如純粹聊天或者出于娛樂(lè)聊天目的以及計(jì)算機(jī)游戲中的虛擬人物聊天機(jī)器人都屬于此類(lèi)。這種無(wú)明確任務(wù)目標(biāo)的聊天機(jī)器人也可以稱(chēng)作為開(kāi)放領(lǐng)域的聊天機(jī)器人。
檢索式 VS. 生成式聊天機(jī)器人
檢索式聊天機(jī)器人指的是事先存在個(gè)對(duì)話(huà)庫(kù),聊天系統(tǒng)接收到用戶(hù)輸入句子后,通過(guò)在對(duì)話(huà)庫(kù)中以搜索匹配的方式進(jìn)行應(yīng)答內(nèi)容提取。很明顯,這種方式對(duì)對(duì)話(huà)庫(kù)要求很高,需要對(duì)話(huà)庫(kù)足夠大,能夠盡量多地匹配用戶(hù)問(wèn)句,否則會(huì)經(jīng)常出現(xiàn)找不到合適回答內(nèi)容的情形(因?yàn)樵谡鎸?shí)場(chǎng)景下用戶(hù)說(shuō)什么都是可能的),但它的好處是回答質(zhì)量高,因?yàn)閷?duì)話(huà)庫(kù)中的內(nèi)容都是真實(shí)的對(duì)話(huà)數(shù)據(jù),表達(dá)比較自然。
生成式聊天機(jī)器人則采取不同的技術(shù)思路,在接收到用戶(hù)輸入句子后,采用定技術(shù)手段自動(dòng)生成句話(huà)作為應(yīng)答,這個(gè)路線(xiàn)機(jī)器人的好處是可能覆蓋任意話(huà)題的用戶(hù)問(wèn)句,但是缺點(diǎn)是生成應(yīng)答句子質(zhì)量很可能會(huì)存在問(wèn)題,比如語(yǔ)句不通順、句法錯(cuò)誤等看上去比較低的錯(cuò)誤。
好聊天機(jī)器人應(yīng)該具備的特點(diǎn)
般而言,個(gè)的開(kāi)放領(lǐng)域聊天機(jī)器人應(yīng)該具備如下特點(diǎn):
先,針對(duì)用戶(hù)的回答或者聊天內(nèi)容,機(jī)器人產(chǎn)生的應(yīng)答句應(yīng)該和用戶(hù)的問(wèn)句語(yǔ)義致并邏輯正確,如果聊天機(jī)器人答非所問(wèn)或者不知所云,或者總是回答說(shuō)“對(duì)不起,我不理解您的意思”,無(wú)疑是毀滅性的用戶(hù)體驗(yàn)。
其次,回答應(yīng)該語(yǔ)法正確。這個(gè)看似是基本要求,但是對(duì)于采用生成式對(duì)話(huà)技術(shù)的機(jī)器人來(lái)說(shuō)其實(shí)有定困難,因?yàn)闄C(jī)器人的回答是個(gè)字個(gè)字生成,要保證這種生成的若干個(gè)字句法正確,并不容易做得那么。
再次,應(yīng)答應(yīng)該是有趣、多樣而非沉悶無(wú)聊的。盡管有些應(yīng)答看上去語(yǔ)義沒(méi)什么問(wèn)題,但目前技術(shù)訓(xùn)練出的聊天機(jī)器人很容易產(chǎn)生“安全回答”的問(wèn)題,就是說(shuō),不論用戶(hù)輸入什么句子,聊天機(jī)器人總是回答“好啊”、“是嗎”等諸如此類(lèi),看上去語(yǔ)義說(shuō)得過(guò)去,但是這給人很無(wú)聊的感覺(jué)。此外,聊天機(jī)器人應(yīng)該給人“個(gè)性表達(dá)致”的感覺(jué)。因?yàn)槿藗兒土奶鞕C(jī)器人交流,從內(nèi)心習(xí)慣還是將溝通對(duì)象想象成個(gè)人,而個(gè)人應(yīng)該有相對(duì)致的個(gè)性特征,如果用戶(hù)連續(xù)問(wèn)兩次“你多大了”,而聊天機(jī)器人分別給出不同的歲數(shù),那么會(huì)給人交流對(duì)象精神分裂的印象,這即是典型的個(gè)性表達(dá)不致。而好的聊天機(jī)器人應(yīng)該對(duì)外體現(xiàn)出各種基本背景信息以及愛(ài)好、語(yǔ)言風(fēng)格等方面致的回答。
幾種主流技術(shù)思路
當(dāng)前聊天機(jī)器人的幾種主流技術(shù)包括:基于人工模板、基于檢索、基于機(jī)器翻譯技術(shù),以及基于深度學(xué)習(xí)的聊天機(jī)器人。
基于人工模板的技術(shù)通過(guò)人工設(shè)定對(duì)話(huà)場(chǎng)景,并對(duì)每個(gè)場(chǎng)景編寫(xiě)針對(duì)性的對(duì)話(huà)模板,模板描述了用戶(hù)可能的問(wèn)題以及對(duì)應(yīng)的答案。這個(gè)技術(shù)路線(xiàn)的好處是精準(zhǔn),缺點(diǎn)是需要大量人工工作,而且可擴(kuò)展性差,需要個(gè)場(chǎng)景個(gè)場(chǎng)景去擴(kuò)展。目前市場(chǎng)上各種類(lèi)似于Siri的對(duì)話(huà)機(jī)器人中都大量使用了人工模板的技術(shù),但其精準(zhǔn)性是其他方法還無(wú)法比擬的。
基于檢索技術(shù)的聊天機(jī)器人則走的是類(lèi)似搜索引擎的路線(xiàn),事先存儲(chǔ)好對(duì)話(huà)庫(kù)并建立索引,根據(jù)用戶(hù)問(wèn)句,在對(duì)話(huà)庫(kù)中進(jìn)行模糊匹配找到合適的應(yīng)答內(nèi)容。
基于機(jī)器翻譯技術(shù)的聊天機(jī)器人把聊天過(guò)程比擬成機(jī)器翻譯過(guò)程,就是說(shuō)將用戶(hù)輸入聊天信息Message,翻譯成聊天機(jī)器人應(yīng)答Response的過(guò)程類(lèi)似于把英語(yǔ)翻譯成漢語(yǔ)。基于這種假設(shè),就完全可以將統(tǒng)計(jì)機(jī)器翻譯領(lǐng)域相對(duì)成熟的技術(shù)直接應(yīng)用到聊天機(jī)器人開(kāi)發(fā)中來(lái)。
基于深度學(xué)習(xí)的聊天機(jī)器人技術(shù)是本文后續(xù)內(nèi)容主要介紹的技術(shù)路線(xiàn),總體而言,絕大多數(shù)技術(shù)都是在Encoder-Decoder(或者稱(chēng)作Sequence to Sequence)深度學(xué)習(xí)技術(shù)框架下改進(jìn)的。使用深度學(xué)習(xí)技術(shù)來(lái)開(kāi)發(fā)聊天機(jī)器人相對(duì)傳統(tǒng)方法來(lái)說(shuō),整體思路非常簡(jiǎn)單并可擴(kuò)展。