www.e4938.cn-老师你下面太紧了拔不出来,99re8这里有精品热视频免费,国产第一视频一区二区三区,青青草国产成人久久

<button id="60qo0"></button>

<strike id="60qo0"></strike>
<del id="60qo0"></del>
<fieldset id="60qo0"><menu id="60qo0"></menu></fieldset>
  • 阿里巴巴年度技術(shù)總結(jié):人工智能在搜索的應(yīng)用和實踐

    2017-12-28 19:59:18 51CTO  點擊量: 評論 (0)
    工業(yè)級的信息檢索或個性化系統(tǒng)是一個復(fù)雜的系統(tǒng)工程,深度學(xué)習(xí)的工業(yè)級應(yīng)用需要具備三個條件:強(qiáng)大的系統(tǒng)計算能力,優(yōu)秀的模型設(shè)計能力和合適的應(yīng)用場景,我們梳理了過去一年多搜索在深度學(xué)習(xí)方向上的探索,概要的介紹了我們在深度學(xué)習(xí)系統(tǒng)、深度學(xué)習(xí)算法和搜索應(yīng)用落地的進(jìn)
        以深度學(xué)習(xí)為代表的人工智能在圖像、語音和NLP領(lǐng)域帶來了突破性的進(jìn)展,在信息檢索和個性化領(lǐng)域近幾年也有不少公開文獻(xiàn),比如wide & deep實現(xiàn)了深度模型和淺層模型的結(jié)合,dssm用于計算語義相關(guān)性,deepfm增加了特征組合的能力,deep CF用深度學(xué)習(xí)實現(xiàn)協(xié)同過濾,rnn recommender 采用行為序列預(yù)估實現(xiàn)個性化推薦等。工業(yè)級的信息檢索或個性化系統(tǒng)是一個復(fù)雜的系統(tǒng)工程,深度學(xué)習(xí)的工業(yè)級應(yīng)用需要具備三個條件:強(qiáng)大的系統(tǒng)計算能力,優(yōu)秀的模型設(shè)計能力和合適的應(yīng)用場景,我們梳理了過去一年多搜索在深度學(xué)習(xí)方向上的探索,概要的介紹了我們在深度學(xué)習(xí)系統(tǒng)、深度學(xué)習(xí)算法和搜索應(yīng)用落地的進(jìn)展和思考,希望對大家有所啟發(fā)。

    深度學(xué)習(xí)在搜索的應(yīng)用概括起來包括4個方面:

    首先是系統(tǒng),強(qiáng)大的深度學(xué)習(xí)訓(xùn)練平臺和在線預(yù)測系統(tǒng)是深度學(xué)習(xí)應(yīng)用的必要條件,目前我們的離線深度學(xué)習(xí)框架、在線深度學(xué)習(xí)框架和在線預(yù)測框架統(tǒng)一到tf,并實現(xiàn)了日志處理,特征抽取,模型訓(xùn)練和在線服務(wù)部署端到端的流程,極大提升了算法迭代效率;

    其次是搜索應(yīng)用,包括智能交互,語義搜索,智能匹配和智能決策四個技術(shù)方向,這四個方向的協(xié)同創(chuàng)新實現(xiàn)了搜索全鏈路的深度學(xué)習(xí)技術(shù)升級,并具備從傳統(tǒng)的單場景單目標(biāo)優(yōu)化到多場景多目標(biāo)聯(lián)合優(yōu)化的能力;

    再次是在性能優(yōu)化上做的工作,包括模型壓縮、量化、低秩分解再到二值網(wǎng)絡(luò),大量的技術(shù)調(diào)研和論證,為未來提高深度模型預(yù)測性能和軟硬件協(xié)同優(yōu)化做了很好的技術(shù)鋪墊;

    最后是排序平臺化,實現(xiàn)了PC商品搜索、無線商品搜索、店鋪內(nèi)搜索搜索和店鋪搜索的搜索服務(wù)統(tǒng)一,通過特征和模型復(fù)用,實現(xiàn)了多條業(yè)務(wù)線技術(shù)的快速升級。下面我會簡要的概括下在四個方向上取得的主要進(jìn)展和背后的思考。

    如下圖,是搜索系統(tǒng)和算法的簡圖。

    搜索系統(tǒng)和算法簡圖

    該系統(tǒng)包括:

    a. 離線數(shù)據(jù)平臺ODPS,負(fù)責(zé)離線日志join、特征抽取和離線模型預(yù)估產(chǎn)出排序特征,時效性不強(qiáng)的特征都是通過離線數(shù)據(jù)平臺產(chǎn)出的,比如用戶性別標(biāo)簽,商品關(guān)鍵字等;

    b. 離線機(jī)器學(xué)習(xí)平臺PAI,底層是主流的parameter server和TF深度學(xué)習(xí)框架,平臺實現(xiàn)了大部分機(jī)器學(xué)習(xí)算法模型的并行訓(xùn)練和預(yù)測,在搜索應(yīng)用中主要作用是離線模型訓(xùn)練產(chǎn)出離線排序特征模型;

    c. 流式計算和在線學(xué)習(xí)平臺 Porsche,流式計算是基于blink負(fù)責(zé)實時日志解析和特征join生成實時排序特征,在線學(xué)習(xí)和離線學(xué)習(xí)底層框架可以相同,差別主要是依賴數(shù)據(jù)源和部分優(yōu)化方法不同,由于用戶行為和市場環(huán)境變化快,流式計算和在線學(xué)習(xí)在搜索應(yīng)用非常廣泛,并積累了不少在線學(xué)習(xí)和強(qiáng)化學(xué)習(xí)算法;

    d. 在線服務(wù)平臺,包括引擎、排序服務(wù)和搜索平臺組成,負(fù)責(zé)在線的服務(wù)分發(fā)、索引查詢、排序服務(wù)和結(jié)果合并等功能,搜索的排序策略、相關(guān)性、個性化等模型主要通過在線預(yù)測服務(wù)生效。經(jīng)過多年發(fā)展我們已經(jīng)具備了非常完善的商品搜索排序算法體系,包括知識圖譜、分詞、tagging、類目預(yù)測、意圖預(yù)測、拼寫糾錯、query 推薦、query 語義改寫、相關(guān)性、商品標(biāo)簽、商品質(zhì)量、店鋪分層、用戶profile、用戶偏好、用戶感知、召回策略、個性化模型、多樣性策略、異構(gòu)服務(wù)混排策略、多目標(biāo)聯(lián)合優(yōu)化策略、多場景聯(lián)合排序策略等,并平臺化的方式賦能相關(guān)業(yè)務(wù)團(tuán)隊。

    系統(tǒng)進(jìn)展包括機(jī)器學(xué)習(xí)平臺和在線預(yù)測平臺

    機(jī)器學(xué)習(xí)平臺。搜索訓(xùn)練樣本主要來自用戶行為,由于用戶行為是流式數(shù)據(jù),適合做在線深度學(xué)習(xí),但當(dāng)模型參數(shù)非常龐大需要海量的樣本時在線學(xué)習(xí)需要很長的時間才能收斂,這時一般是先做離線預(yù)訓(xùn)練再結(jié)合增量或在線學(xué)習(xí),另外有些模型離線預(yù)訓(xùn)練后在線只需要對接近輸出層的網(wǎng)絡(luò)做fine-tuning。搜索在實際應(yīng)用的有離線機(jī)器學(xué)習(xí)平臺PAI和在線機(jī)器學(xué)習(xí)平臺Porsche,兩個平臺深度學(xué)習(xí)框架目前都統(tǒng)一到了tf-pai, tf-pai 對原生tf做了一些優(yōu)化,比如底層通訊,稀疏參數(shù)存儲、優(yōu)化方法、GPU顯存優(yōu)化等,比原生tf訓(xùn)練深度有較大的提升,訓(xùn)練上千億樣本和上百億參數(shù)的深度模型毫無壓力。

    雖然Porsche和PAI都支持GPU,但在搜索應(yīng)用中CPU依然是主流,GPU應(yīng)用比較少,原因主要是個性化相對圖像或語音簡單,特征抽取網(wǎng)絡(luò)比較淺,維度相對較低,GPU的稠密矩陣計算能力得不到充分發(fā)揮,同時離在線混布后流量低谷期間騰出了大量的在線服務(wù)閑置CPU,把臨時閑置的CPU利用起來做深度學(xué)習(xí)訓(xùn)練是一個非常好的思路。

    在線預(yù)估RTP,搜索排序算分服務(wù)。由于每次搜索請求有上千個商品需要計算排序分?jǐn)?shù),深度模型應(yīng)用對RTP服務(wù)的壓力是非常大的,RTP通過采用異構(gòu)計算,計算算子化和模型分片等方式解決了深度模型inference計算和存儲問題,深度模型用GPU,淺層模型用CPU,今年雙11期間搜索RTP服務(wù)用到了550張GPU卡。另外,RTP還實現(xiàn)了離線/在線訓(xùn)練模型/數(shù)據(jù)和在線預(yù)測服務(wù)部署的無縫銜接,算法訓(xùn)練好的模型或數(shù)據(jù)可以很輕松的部署都在線服務(wù),提升了算法迭代效率。

    算法包括智能交互、語義搜索、智能匹配和搜索策略四個方向

    智能交互

    商品搜索就是帶交互的商品推薦,用戶通過關(guān)鍵字輸入搜索意圖,引擎返回和搜索意圖匹配的個性化推薦結(jié)果,好的交互技術(shù)能夠幫助到用戶更好的使用搜索引擎,目前搜索的交互主要是主動關(guān)鍵字輸入和關(guān)鍵字推薦,比如搜索框中的默認(rèn)查詢詞和搜索結(jié)果中的文字鏈等,推薦引擎根據(jù)用戶搜索歷史、上下文、行為和狀態(tài)推薦關(guān)鍵字。

    和商品推薦的區(qū)別是,關(guān)鍵字推薦是搜索鏈路的中間環(huán)節(jié),關(guān)鍵字推薦的收益除了關(guān)鍵字的點擊行為外,還需要考慮對整個購物鏈路的影響,包括在推薦關(guān)鍵字的后續(xù)行為中是否有商品點擊、加購和成交或跳轉(zhuǎn)到另外一個關(guān)鍵字的后繼行為,這是一個典型的強(qiáng)化學(xué)習(xí)問題,action 是推薦的關(guān)鍵字候選集合,狀態(tài)是用戶當(dāng)前搜索關(guān)鍵詞、上下文等,收益是搜索引導(dǎo)的成交。除了被動的關(guān)鍵字推薦,我們也在思考搜索中更加主動的交互方式,能夠做到像導(dǎo)購員一樣的雙向互動,主動詢問用戶需求,挑選個性化的商品和給出個性化的推薦理由,目前阿里搜索團(tuán)隊已經(jīng)在做智能導(dǎo)購和智能內(nèi)容方向的技術(shù)原型及論證,智能導(dǎo)購在技術(shù)上主要是借鑒對話系統(tǒng),通過引導(dǎo)用戶和引擎對話與關(guān)鍵字推薦方式互為補(bǔ)充,包括自然語言理解,對話策略,對話生成,知識推理、知識問答和商品搜索等模塊,功能主要包括:

    a. 根據(jù)用戶搜索上下文生成引導(dǎo)用戶主動交互的文本,比如搜索“奶粉”時,會生成“您寶寶多大?0~6個月,6個月到1歲….”引導(dǎo)文案,提示用戶細(xì)化搜索意圖,如果用戶輸入“3個月”后,會召回相應(yīng)段位的奶粉,并在后續(xù)的搜索中會記住對話狀態(tài)“3個月”寶寶和提示用戶“以下是適合3個月寶寶的奶粉”。

    b. 知識導(dǎo)購,包含提高售前知識問答或知識提示,比如“3個月寶寶吃什么奶粉” 回答“1段”。目前對話技術(shù)正在提高中,尤其是在多輪對話狀態(tài)跟蹤、知識問答和自動評價幾個方面,但隨著深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和生成對抗學(xué)習(xí)等技術(shù)在NLP、對話策略、閱讀理解等領(lǐng)域的應(yīng)用,越來越多的訓(xùn)練數(shù)據(jù)和應(yīng)用場景,domain specific 的對話技術(shù)未來幾年應(yīng)該會突飛猛進(jìn)。智能內(nèi)容生成,包括生成或輔助人工生成商品和清單的“賣點”,短標(biāo)題和文本摘要等,讓淘寶商品表達(dá)更加個性化和多元化。

    語義搜索

    語義搜索主要是解決關(guān)鍵字和商品內(nèi)容之間的語義鴻溝,比如搜索“2~3周歲寶寶外套”,如果按照關(guān)鍵字匹配召回結(jié)果會遠(yuǎn)小于實際語義匹配的商品。

    語義搜索的范圍主要包括:

    a. query tagging和改寫,比如新品,年齡,尺碼,店鋪名,屬性,類目等搜索意圖識別和歸一化,query tagging模型是用的經(jīng)典的序列標(biāo)注模型 bi-lstm + CRF,而標(biāo)簽分類(歸一化) 作為模型另外一個任務(wù),將序列標(biāo)注和分類融合在一起學(xué)習(xí)。

    b. query 改寫,主要是計算query之間相似度,把一個query改寫成多個語義相似的query,通常做法是先用不同改寫策略生成改寫候選query集合,比如詞替換、向量化后top k、點擊商品相似度等,然后在用ltr對后續(xù)集合排序找出合適的改寫集合,模型設(shè)計和訓(xùn)練相對簡單,比較難的是如何構(gòu)建高質(zhì)量的訓(xùn)練樣本集合,線上我們用bandit 的方法探測部分query 改寫結(jié)果的優(yōu)劣,離線則用規(guī)則和生成對抗網(wǎng)絡(luò)生成一批質(zhì)量較高的樣本。

    c. 商品內(nèi)容理解和語義標(biāo)簽,通過商品圖片,詳情頁,評價和同義詞,上下位詞等給商品打標(biāo)簽或擴(kuò)充商品索引內(nèi)容,比如用 image tagging技術(shù)生成圖片的文本標(biāo)簽豐富商品內(nèi)容,或者更進(jìn)一步用直接用圖片向量和文本向量融合,實現(xiàn)富媒體的檢索和查詢。

    d. 語義匹配,經(jīng)典的DSSM 模型技術(shù)把query 和商品變成向量,用向量內(nèi)積表達(dá)語義相似度,在問答或閱讀理解中大量用到多層LSTM + attention 做語義匹配,同樣高質(zhì)量樣本,特別是高質(zhì)量負(fù)樣本很大程度上決定了模型的質(zhì)量,我們沒有采樣效率很低的隨機(jī)負(fù)采樣,而是基于電商知識圖譜,通過生成字面相似但不相關(guān)的query及相關(guān)文檔的方法生成負(fù)樣本。

    從上面可以看到query tagging、query相似度、語義匹配和語義相關(guān)性是多個目標(biāo)不同但關(guān)聯(lián)程度非常高的任務(wù)。下一步計劃用統(tǒng)一的語義計算框架支持不同的語義計算任務(wù),具體包括

    1. 開發(fā)基于商品內(nèi)容的商品表征學(xué)習(xí)框架,為商品內(nèi)容理解,內(nèi)容生成,商品召回和相關(guān)性提供統(tǒng)一的商品表征學(xué)習(xí)框架,重點包括商品標(biāo)題,屬性,詳情頁和評價等文本信息抽取,圖像特征抽取和多模信號融合。

    2. query 表征學(xué)習(xí)框架,為query 類目預(yù)測,query改寫,query 推薦等提供統(tǒng)一的表征學(xué)習(xí)框架,重點通過多個query 相似任務(wù)訓(xùn)練統(tǒng)一的query表征學(xué)習(xí)模型。

    3. 語義召回,語義相關(guān)性等業(yè)務(wù)應(yīng)用模型框架。語義搜索除了增加搜索結(jié)果相關(guān)性,提升用戶體驗外,也可以一定程度上遏制淘寶商品標(biāo)題堆砌熱門關(guān)鍵詞的問題。

    智能匹配

    這里主要是指個性化和排序。內(nèi)容包括:

    a. ibrain (深度用戶感知網(wǎng)絡(luò)),搜索或推薦中個性化的重點是用戶的理解與表達(dá),基于淘寶的用戶畫像靜態(tài)特征和用戶行為動態(tài)特征,我們基于multi-modals learning、multi-task representation learning以及LSTM的相關(guān)技術(shù),從海量用戶行為日志中直接學(xué)習(xí)用戶的通用表達(dá),該學(xué)習(xí)方法善于“總結(jié)經(jīng)驗”、“觸類旁通”,使得到的用戶表達(dá)更基礎(chǔ)且更全面,能夠直接用于用戶行為識別、偏好預(yù)估、個性化召回、個性化排序等任務(wù),在搜索、推薦和廣告等個性化業(yè)務(wù)中有廣泛的應(yīng)用場景,感知網(wǎng)絡(luò)超過10B個參數(shù),已經(jīng)學(xué)習(xí)了幾千億次的用戶行為,并且會保持不間斷的增量學(xué)習(xí)越來越聰明。

    b. 多模學(xué)習(xí),淘寶商品有文本、圖像、標(biāo)簽、id 、品牌、類目、店鋪及統(tǒng)計特征,這些特征彼此有一定程度的冗余和互補(bǔ),我們利用多模學(xué)習(xí)通過多模聯(lián)合學(xué)習(xí)方法把多維度特征融合在一起形成統(tǒng)一的商品標(biāo)準(zhǔn),并多模聯(lián)合學(xué)習(xí)中引入self-attention實現(xiàn)特征維度在不同場景下的差異,比如女裝下圖片特征比較重要,3C下文本比較重要等。

    c. deepfm,相對wide & deep 模型,deepfm 增加了特征組合能力,基于先驗知識的組合特征能夠應(yīng)用到深度學(xué)習(xí)模型中,提升模型預(yù)測精度。

    d. 在線深度排序模型,由于行為類型和商品重要性差異,每個樣本學(xué)習(xí)權(quán)重不同,通過樣本池對大權(quán)重樣本重復(fù)copy分批學(xué)習(xí),有效的提升了模型學(xué)習(xí)穩(wěn)定性,同時通過融合用戶狀態(tài)深度ltr模型實現(xiàn)了千人千面的排序模型學(xué)習(xí)。

    e. 全局排序,ltr 只對單個文檔打分然后按照ltr分?jǐn)?shù)和打散規(guī)則排序,容易導(dǎo)致搜索結(jié)果同質(zhì)化,影響總頁效率,全局排序通過已知排序結(jié)果做為上下文預(yù)測下一個位置的商品點擊概率,有效提升了總頁排序效率。

    f. 另外工程還實現(xiàn)了基于用戶和商品向量的向量召回引擎,相對倒排索引,向量化召回泛化能力更強(qiáng),對語義搜索和提高個性化匹配深度是非常有價值的。以上實現(xiàn)了搜索從召回、排序特征、排序模型、個性化和重排的深度學(xué)習(xí)升級,在雙11無線商品搜索中帶來超過10% (AB-Test)的搜索指標(biāo)提升。

    多智能體協(xié)同學(xué)習(xí)實現(xiàn)智能決策

    搜索中個性化產(chǎn)品都是成交最大化,導(dǎo)致的問題是搜索結(jié)果趨同,浪費曝光,今年做的一個重要工作是利用多智能體協(xié)同學(xué)習(xí)技術(shù),實現(xiàn)了搜索多個異構(gòu)場景間的環(huán)境感知、場景通信、單獨決策和聯(lián)合學(xué)習(xí),實現(xiàn)聯(lián)合收益最大化,而不是此消彼長,在今年雙11中聯(lián)合優(yōu)化版本帶來的店鋪內(nèi)和無線搜索綜合指標(biāo)提升12% (AB-Test),比非聯(lián)合優(yōu)化版本高3% (AB-Test)。

    性能優(yōu)化。在深度學(xué)習(xí)剛起步的時候,我們意識到深度模型inference 性能會是一個瓶頸,所以在這方面做了大量的調(diào)研和實驗,包括模型壓縮(剪枝),低秩分解,量化和二值網(wǎng)絡(luò)。

    通過以上技術(shù),今年雙11期間在手淘默認(rèn)搜索、店鋪內(nèi)搜索、店鋪搜索等均取得了10% (AB-Test)以上的搜索指標(biāo)提升。

    阿里巴巴人工智能搜索應(yīng)用的未來計劃

    通用用戶表征學(xué)習(xí)。前面介紹的DUPN 是一個非常不錯的用戶表征學(xué)習(xí)模型,但基于query 的attention 只適合搜索,同時缺少基于日志來源的attention,難以推廣到其他業(yè)務(wù),在思考做一個能夠適合多個業(yè)務(wù)場景的用戶表征模型,非搜索業(yè)務(wù)做些簡單fine tuning 就能取得比較好的效果;同時用戶購物偏好受季節(jié)和周期等影響,時間跨度非常大,最近K個行為序列假設(shè)太簡單,我們在思考能夠做life-long learning 的模型,能夠?qū)W習(xí)用戶過去幾年的行為序列;

    搜索鏈路聯(lián)合優(yōu)化。從用戶進(jìn)入搜索到離開搜索鏈路中的整體優(yōu)化,比如 搜索前的query 引導(dǎo)(底紋),搜索中的商品和內(nèi)容排序,搜索后的 query推薦(錦囊)等場景;

    跨場景聯(lián)合優(yōu)化。今年搜索內(nèi)部主搜索和店鋪內(nèi)搜索聯(lián)合優(yōu)化取得了很好的結(jié)果,未來希望能夠拓展在更多大流量場景,提高手淘的整體購物體驗;

    多目標(biāo)聯(lián)合優(yōu)化。搜索除了成交外,還需要承擔(dān)賣家多樣性,流量公平性,流量商業(yè)化等居多平臺和賣家的訴求,搜索產(chǎn)品中除了商品搜索外還有“穹頂”,“主題搜索”,“錦囊”,“內(nèi)容搜索”等非商品搜索內(nèi)容,不同搜索目標(biāo)和不同內(nèi)容(物種)之間的聯(lián)合優(yōu)化未來很值得深挖。

    智能交互。“搜索排序做的再好搜索也只是一個工具”,如何把搜索從工具做成私人導(dǎo)購助手,能夠聽懂你的語言,了解你的情緒,能夠?qū)υ捄投噍喗换ィ鉀Q售前售后困惑,推薦更加個性化的商品應(yīng)該是搜索未來的另外一個主要發(fā)展方向。

    大云網(wǎng)官方微信售電那點事兒

    責(zé)任編輯:售電衡衡

    免責(zé)聲明:本文僅代表作者個人觀點,與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。
    我要收藏
    個贊
    ?
    亚洲精华国产精华液的福利| 老熟女高潮一区二区三区| 国产精品毛片a∨一区二区三区| 国产成人精品永久免费视频| 欧美人和黑人牲交网站上线| 成全高清免费观看MV| jizz国产精品免费麻豆| 99精品国产高清一区二区三区| 欧美一级特黄乱妇高清视频| 久久亚洲国产一区二区|