
搜索引擎主題模型優(yōu)化
核心方法:搜索引擎算法中TF-IDF是什么意思
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 149 次瀏覽 ? 2022-09-21 22:05
真正掌握seo優(yōu)化技術(shù)的唯一途徑是充分了解搜索引擎算法,所以在學(xué)習seo技術(shù)之初,要不斷地從淺入深地構建這方面更專(zhuān)業(yè)的認知。更深。在seo基礎學(xué)習中,如果對搜索引擎不了解和了解,確實(shí)是不可能通過(guò)純白帽seo完成一個(gè)網(wǎng)站優(yōu)化的。今天wp自學(xué)筆記和小伙伴們分享一下TF-IDF在搜索引擎算法中是什么意思?以下內容轉載自百度百科。
TF-IDF(詞頻-逆文檔頻率)是一種常用的信息檢索和數據挖掘加權技術(shù)。 TF 是詞頻,IDF 是逆文檔頻率。 TF-IDF 是一種統計方法,用于評估單詞對文檔集或語(yǔ)料庫中的一個(gè)文檔的重要性。一個(gè)詞的重要性與它在文檔中出現的次數成正比,但與它在語(yǔ)料庫中出現的頻率成反比。搜索引擎經(jīng)常應用各種形式的 TF-IDF 加權作為文檔和用戶(hù)查詢(xún)之間相關(guān)程度的度量或評級。除了 TF-IDF,互聯(lián)網(wǎng)上的搜索引擎還使用基于鏈接分析的排名方法來(lái)確定文檔在搜索結果中出現的順序。
TFIDF的主要思想是:如果一個(gè)詞或詞組在一個(gè)文章中頻繁出現TF,而在其他文章中很少出現,則認為這個(gè)詞或詞組有Good category辨別能力,適合分類(lèi)。 TFIDF其實(shí)就是:TF * IDF,TF Term Frequency,IDF逆文檔頻率。 TF 表示詞條在文檔 d 中出現的頻率。 IDF的主要思想是:如果收錄term t的文檔較少,即n越小,IDF越大,說(shuō)明term t有很好的分類(lèi)能力。如果某類(lèi)文檔 C 中收錄詞條 t 的文檔數為 m,其他類(lèi)型中收錄 t 的文檔總數為 k,顯然收錄 t 的文檔數為 n=m+k。當m很大時(shí),n也很大。 ,根據IDF公式得到的IDF值會(huì )很小,說(shuō)明條目t的分類(lèi)能力不強。但實(shí)際上,如果某個(gè)詞條在一類(lèi)文檔中頻繁出現,則說(shuō)明該詞條能夠很好地代表該類(lèi)文本的特征,應該賦予此類(lèi)詞條更高的權重,并選擇該詞條作為該類(lèi)文本的特征詞將其與其他類(lèi)型的文檔區分開(kāi)來(lái)。這就是 IDF 的不足之處。在給定文檔中,詞頻 (TF) 是指給定詞在文檔中出現的頻率。這個(gè)數字被標準化為術(shù)語(yǔ)計數,以防止它偏向長(cháng)文件。 (同一個(gè)詞在長(cháng)文件中的字數可能比在短文件中的字數高,不管這個(gè)詞是否重要。)
TFIDF算法是基于這樣一個(gè)假設,即對于區分文檔最有意義的詞應該是那些在整個(gè)文檔集合中經(jīng)常出現在文檔中而在其他文檔中不經(jīng)常出現的詞,所以如果特征空間坐標系取TF詞頻作為衡量標準,可以反映相似文本的特征。此外,考慮到詞區分不同類(lèi)別的能力,TFIDF 方法認為詞的文本頻率越小,其區分不同類(lèi)別文本的能力就越大。因此,引入了逆文本頻率IDF的概念,將TF與IDF的乘積作為特征空間坐標系的值度量,用于調整權重TF。調整權重的目的是突出重要的詞,抑制次要的詞。單詞。但本質(zhì)上IDF是一種試圖抑制噪聲的加權,簡(jiǎn)單地認為文本頻率低的詞更重要,文本頻率高的詞沒(méi)用是不完全正確的。 IDF結構簡(jiǎn)單,不能有效反映詞的重要性和特征詞的分布,不能很好地發(fā)揮調整權重的功能,因此TFIDF方法的準確率不是很高。
另外,單詞的位置信息并沒(méi)有反映在TFIDF算法中。對于 Web 文檔,權重計算方法應該反映 HTML 的結構特征。特征詞在不同的標簽中反映文章的內容不同,其權重的計算方法也應該不同。因此,應為網(wǎng)頁(yè)不同位置的特征詞分配不同的系數,然后乘以特征詞的詞頻,以提高文本表示的效果。
TF-IDF模型是搜索引擎等實(shí)際應用中廣泛使用的信息檢索模型,但對于TF-IDF模型一直存在各種疑問(wèn)。本文是針對信息檢索問(wèn)題的基于條件概率的 box-and-ball 模型。核心思想是將“查詢(xún)字符串q與文檔d的匹配度問(wèn)題”轉化為“查詢(xún)字符串q來(lái)自文檔d的條件概率問(wèn)題”。它從概率的角度定義了比 TF-IDF 模型表達的信息檢索問(wèn)題更明確的匹配目標。該模型可以結合TF-IDF模型,一方面解釋其合理性,另一方面發(fā)現其缺陷。此外,該模型還可以解釋 PageRank 的含義,以及為什么 PageRank 權重和 TF-IDF 權重之間存在乘積關(guān)系。
事實(shí):搜索引擎優(yōu)化?和俺本地化有什么關(guān)系?(一)
前言
如果你去一些LSP(Language Service Provider)的官網(wǎng),你會(huì )發(fā)現他們經(jīng)常在網(wǎng)站本地化業(yè)務(wù)下覆蓋一個(gè)叫“搜索引擎優(yōu)化”的服務(wù)。
T先生文章的這篇文章將簡(jiǎn)要介紹搜索引擎優(yōu)化(SEO)的概念及其與本地化的關(guān)系,然后介紹SEO的實(shí)現方法。 T先生預計用2-3次推送來(lái)介紹SEO的難點(diǎn)。
本文以科普為主。所有信息均來(lái)自互聯(lián)網(wǎng)采集、匯總、篩選和匯編。如有錯誤請后臺留言。感謝您的支持。
本地化的概念可以簡(jiǎn)單地解釋為“調整產(chǎn)品以適應目標區域用戶(hù)的使用習慣”。本地化的存在是為了服務(wù)于“最大化產(chǎn)品利潤”的目的。對于國際產(chǎn)品,本地化過(guò)程中最重要的一點(diǎn)(一) 是語(yǔ)言。
Common Sense Advisory (CSA) 和 Lionbridge 曾進(jìn)行過(guò)市場(chǎng)調查,發(fā)現 72.4% 的消費者傾向于購買(mǎi)以母語(yǔ)提供產(chǎn)品信息的產(chǎn)品。 72.1% 的消費者在購買(mǎi)產(chǎn)品時(shí)只瀏覽 網(wǎng)站 母語(yǔ)的內容。
本地化行業(yè)標準委員會(huì ) (LISA) 的一項研究還指出,公司每在本地化內容上花費 1 美元,就可以收回 25 美元。
上述兩項研究強烈支持內容本地化的重要性,但它們忽略了一點(diǎn):如何讓您精心本地化的產(chǎn)品被廣泛的潛在用戶(hù)群發(fā)現?
在互聯(lián)網(wǎng)時(shí)代,消費者查找信息的首選是使用搜索引擎。但是,搜索引擎不一定會(huì )立即在搜索結果的首頁(yè)上展示公司的產(chǎn)品。如果我們自己的產(chǎn)品不能出現在首頁(yè)怎么辦——換個(gè)角度看,作為消費者,我們需要多少耐心和時(shí)間來(lái)翻頁(yè)?
這就是需要搜索引擎優(yōu)化 (SEO) 的地方。這是一種通過(guò)提高在無(wú)償搜索引擎結果中的排名來(lái)增加網(wǎng)站流量和品牌曝光度的技術(shù)。
SEO 不僅依靠搜索引擎原理來(lái)提高排名,更重要的是,它研究人們在網(wǎng)上搜索什么,人們期望得到什么樣的答案,人們使用什么樣的 關(guān)鍵詞,以及想要獲得服務(wù)內容的人。如果了解所有這些,公司就可以定制他們的產(chǎn)品,以更好地匹配潛在用戶(hù)群的搜索習慣——理想情況下,用戶(hù)會(huì )在主頁(yè)上看到您為他們提供的內容。
除了了解用戶(hù)之外,您還需要了解機器。搜索引擎就像一個(gè)黑匣子——我們一直在使用它,卻不知道它是如何工作的。這一次,T先生盡量用簡(jiǎn)單的語(yǔ)言解釋清楚。
1 搜索引擎原理簡(jiǎn)介
搜索引擎的工作原理大致可以分為三個(gè)部分:
1.爬?。涸诰W(wǎng)上檢索內容,找到內容對應的代碼/URL。
2.索引:將爬取過(guò)程中找到的內容有序存儲;如果頁(yè)面在索引中,它將顯示為相關(guān)的搜索結果。
3.排名:按相關(guān)性降序排列搜索結果。
在抓取過(guò)程中,搜索引擎通過(guò)一組程序(稱(chēng)為“爬蟲(chóng)”或“蜘蛛”)發(fā)現/更新互聯(lián)網(wǎng)上的內容。所謂內容,可以指網(wǎng)頁(yè)、圖片、視頻、網(wǎng)頁(yè)附件——它們都有一個(gè)叫做統一資源定位器(Uniform Resource Locator,URL)的“ID號”。爬蟲(chóng)找到網(wǎng)頁(yè)內容和對應的URL并存儲,然后根據網(wǎng)頁(yè)內容中的其他URL跳轉到其他內容。
搜索引擎存儲的內容就像一本字典,索引是拼音或部首搜索。爬取的內容需要分析并存儲在索引數據庫中。專(zhuān)門(mén)分析數據庫中網(wǎng)頁(yè)的文本內容。
當用戶(hù)進(jìn)行搜索時(shí),搜索引擎會(huì )從索引數據庫中檢索高度相關(guān)的內容并對其進(jìn)行排名。這種基于相關(guān)性對搜索結果進(jìn)行排名的方法稱(chēng)為排名。一般認為網(wǎng)站的排名越高,搜索引擎認為網(wǎng)站與查詢(xún)的相關(guān)性越高。
1.1 告訴搜索引擎:“過(guò)來(lái)”
有時(shí)公司不希望某些頁(yè)面出現在搜索引擎中,例如頁(yè)內廣告、過(guò)期內容、私有內容等。網(wǎng)站開(kāi)發(fā)人員可以使用一些方法(例如robots.txt)來(lái)告訴爬蟲(chóng)不要爬取此類(lèi)頁(yè)面的內容。當然,公司在推廣產(chǎn)品時(shí),肯定希望產(chǎn)品描述頁(yè)面被搜索引擎抓取。因此,如果您希望內容被搜索引擎發(fā)現,首先要確保它可以被爬蟲(chóng)訪(fǎng)問(wèn)并且可以索引。否則,就像隱身一樣。
以谷歌為例,使用高級搜索方式“site:”可以返回一個(gè)站點(diǎn)在谷歌索引中的所有結果。通過(guò)谷歌搜索控制臺(Google Search Console)還可以實(shí)現更準確的索引結果查詢(xún)和監控。這其實(shí)是搜索引擎優(yōu)化的第一步:檢查你的網(wǎng)頁(yè)是否被索引,哪些被索引,重要頁(yè)面是否被索引。
抓取預算
抓取預算(crawl budget)可以理解為搜索引擎爬蟲(chóng)在離開(kāi)一個(gè)站??點(diǎn)之前抓取的平均網(wǎng)址數。合理的爬取預算可以讓爬蟲(chóng)爬取更重要的頁(yè)面,避免在無(wú)用的信息/頁(yè)面上浪費時(shí)間。同時(shí),這也意味著(zhù)用戶(hù)搜索時(shí)內容相關(guān)性可以更加集中。
用戶(hù)在構建網(wǎng)站時(shí)仍然需要通過(guò)HTML代碼來(lái)指導搜索引擎如何處理你的頁(yè)面。這樣的指令稱(chēng)為元指令或元標記。它們通常存在于 HTML 頁(yè)面的標簽中。有興趣的讀者可以自行了解。
1.2 搜索引擎:坐成一排吃水果水果
搜索引擎用于根據內容相關(guān)性對結果進(jìn)行排名的技術(shù)基于復雜的算法。谷歌幾乎每周甚至每隔幾天都會(huì )更新其排名算法。如今,機器學(xué)習和自然語(yǔ)言處理也在幫助搜索引擎獲得更好的排名。
RankBrain 是 Google 搜索引擎核心算法的機器學(xué)習組件。機器學(xué)習也是一種通過(guò)大量數據不斷改進(jìn)預測的技術(shù)。換句話(huà)說(shuō),它總是在學(xué)習。因為它一直在學(xué)習,所以搜索排名結果會(huì )不斷提高。
用戶(hù)與搜索結果的交互也會(huì )影響搜索引擎的改進(jìn)。一般有四個(gè)因素:
這四個(gè)指標構成參與度指標。
不同的搜索引擎需要自己的 SEO
不同的搜索引擎有不同的排名算法。理論上,國際產(chǎn)品的本地化需要針對不同的搜索引擎實(shí)施SEO策略,但谷歌占據了國際市場(chǎng)的絕大部分份額。在預算有限的情況下,產(chǎn)品優(yōu)先為谷歌做SEO。但放眼中國大陸,SEO需要瞄準百度。
讀完后,公司可以通過(guò)一些方法讓自己的網(wǎng)站被搜索引擎捕獲,檢測網(wǎng)站的流量。接下來(lái),T先生將介紹如何合理安排網(wǎng)站的內容,讓用戶(hù)在使用關(guān)鍵詞進(jìn)行搜索時(shí),網(wǎng)站能被搜索引擎準確捕捉并呈現給用戶(hù)- 滿(mǎn)意的內容。
2 關(guān)鍵詞研究
在搜索引擎輸入框中輸入關(guān)鍵詞,回車(chē),會(huì )呈現上千條結果,而我們往往只瀏覽前一兩頁(yè)的結果。
關(guān)鍵詞研究有助于產(chǎn)品本地化過(guò)程,提高對目標市場(chǎng)的了解,了解客戶(hù)如何搜索內容、服務(wù)和產(chǎn)品。一般關(guān)鍵詞研究主要是回答以下三個(gè)問(wèn)題:
人們搜索什么?
有多少人搜索過(guò)它?
想要的信息如何呈現?
在我們進(jìn)行關(guān)鍵詞 研究以?xún)?yōu)化搜索結果之前,我們需要知道的第一件事是,我們的產(chǎn)品是做什么的?我們的客戶(hù)是什么樣的?我們的目標是什么(高點(diǎn)擊率?高銷(xiāo)量?高下載量?)?
例如,美國西雅圖的一家素食無(wú)麩質(zhì)“健康”冰淇淋連鎖店計劃進(jìn)行 SEO。需要考慮的關(guān)鍵點(diǎn)是什么?
人們在尋找什么冰淇淋、甜點(diǎn)、小吃?
誰(shuí)在搜索這些產(chǎn)品?
人們什么時(shí)候在尋找冰淇淋、小吃、甜點(diǎn)等?
人們如何找到冰淇淋?
人們?yōu)槭裁匆獙ふ冶苛埽?br /> 潛在客戶(hù)在哪里 - 本地?全國?全球?
雖然產(chǎn)品制造商有 10,000 種方式來(lái)宣傳他們的產(chǎn)品,但重要的是客戶(hù)的搜索方式。有一個(gè)用于分析 關(guān)鍵詞 搜索的工具。輸入一個(gè)關(guān)鍵詞后,會(huì )給出幾個(gè)相似的關(guān)鍵詞/短語(yǔ),并呈現它們的月平均搜索量變化圖。
2.1 關(guān)鍵詞,長(cháng)尾,季節和地區
數量關(guān)系
關(guān)鍵詞 和平均每月搜索頻率符合長(cháng)尾理論。 20% 的 關(guān)鍵詞 每月的搜索量可以達到 10 萬(wàn)次或更多,而其余 80% 的 關(guān)鍵詞(它們是長(cháng)尾)的平均每月搜索量可能不到 1 萬(wàn)次。因此,專(zhuān)注于幾個(gè)關(guān)鍵詞進(jìn)行內容優(yōu)化是一個(gè)合理的選擇。
同時(shí),大廠(chǎng)已經(jīng)占據了最高頻率關(guān)鍵詞。作為小型企業(yè)/初創(chuàng )公司,選擇頻率稍低的關(guān)鍵詞/短語(yǔ)會(huì )獲得更好的收益效果。例如,一家小型冰淇淋店完全有理由放棄冰淇淋等高頻詞,并投資于更具體的關(guān)鍵詞如有機牛奶和水果冰淇淋進(jìn)行優(yōu)化。
季節和地區也可能影響 關(guān)鍵詞 研究。例如,《送給女朋友的圣誕禮物》的檢索量在10-12月勢必會(huì )大幅增加。提前計劃更新內容 網(wǎng)站 可以讓企業(yè)搶占先機。谷歌的關(guān)鍵詞分析工具Google Keyword Planner,可以細化到市、省、國家三級,讓開(kāi)發(fā)者進(jìn)行關(guān)鍵詞研究。例如,半掛車(chē)在德克薩斯更常被稱(chēng)為“大型鉆機”,在紐約被稱(chēng)為“拖拉機拖車(chē)”,顯示了術(shù)語(yǔ)對 SEO 策略的影響。
2.2 消費者目的
谷歌將用戶(hù)的搜索行為概括為大致四種,分別對應用戶(hù)的各種檢索目的,即:
當用戶(hù)把目的放在輸入框的搜索格式上時(shí),谷歌總結了以下五種:
根據以上幾類(lèi),可以繪制出更精細的用戶(hù)意圖,進(jìn)而布局SEO策略。自搜索引擎誕生以來(lái),全球所有互聯(lián)網(wǎng)用戶(hù)的搜索行為已經(jīng)進(jìn)行了數萬(wàn)億次。 Google 可以依靠這些數據提供幾乎完美的搜索結果,商家也可以使用這些數據進(jìn)行“完美”的 SEO。
本節中的信息取自 Google 質(zhì)量評估指南:
本文文章T先生分兩章簡(jiǎn)單介紹了SEO的準備工作,下一篇文章與SEO實(shí)踐相關(guān):通過(guò)安排網(wǎng)頁(yè)內容和代碼設計進(jìn)行SEO 請期待它。謝謝~ 查看全部
核心方法:搜索引擎算法中TF-IDF是什么意思
真正掌握seo優(yōu)化技術(shù)的唯一途徑是充分了解搜索引擎算法,所以在學(xué)習seo技術(shù)之初,要不斷地從淺入深地構建這方面更專(zhuān)業(yè)的認知。更深。在seo基礎學(xué)習中,如果對搜索引擎不了解和了解,確實(shí)是不可能通過(guò)純白帽seo完成一個(gè)網(wǎng)站優(yōu)化的。今天wp自學(xué)筆記和小伙伴們分享一下TF-IDF在搜索引擎算法中是什么意思?以下內容轉載自百度百科。

TF-IDF(詞頻-逆文檔頻率)是一種常用的信息檢索和數據挖掘加權技術(shù)。 TF 是詞頻,IDF 是逆文檔頻率。 TF-IDF 是一種統計方法,用于評估單詞對文檔集或語(yǔ)料庫中的一個(gè)文檔的重要性。一個(gè)詞的重要性與它在文檔中出現的次數成正比,但與它在語(yǔ)料庫中出現的頻率成反比。搜索引擎經(jīng)常應用各種形式的 TF-IDF 加權作為文檔和用戶(hù)查詢(xún)之間相關(guān)程度的度量或評級。除了 TF-IDF,互聯(lián)網(wǎng)上的搜索引擎還使用基于鏈接分析的排名方法來(lái)確定文檔在搜索結果中出現的順序。
TFIDF的主要思想是:如果一個(gè)詞或詞組在一個(gè)文章中頻繁出現TF,而在其他文章中很少出現,則認為這個(gè)詞或詞組有Good category辨別能力,適合分類(lèi)。 TFIDF其實(shí)就是:TF * IDF,TF Term Frequency,IDF逆文檔頻率。 TF 表示詞條在文檔 d 中出現的頻率。 IDF的主要思想是:如果收錄term t的文檔較少,即n越小,IDF越大,說(shuō)明term t有很好的分類(lèi)能力。如果某類(lèi)文檔 C 中收錄詞條 t 的文檔數為 m,其他類(lèi)型中收錄 t 的文檔總數為 k,顯然收錄 t 的文檔數為 n=m+k。當m很大時(shí),n也很大。 ,根據IDF公式得到的IDF值會(huì )很小,說(shuō)明條目t的分類(lèi)能力不強。但實(shí)際上,如果某個(gè)詞條在一類(lèi)文檔中頻繁出現,則說(shuō)明該詞條能夠很好地代表該類(lèi)文本的特征,應該賦予此類(lèi)詞條更高的權重,并選擇該詞條作為該類(lèi)文本的特征詞將其與其他類(lèi)型的文檔區分開(kāi)來(lái)。這就是 IDF 的不足之處。在給定文檔中,詞頻 (TF) 是指給定詞在文檔中出現的頻率。這個(gè)數字被標準化為術(shù)語(yǔ)計數,以防止它偏向長(cháng)文件。 (同一個(gè)詞在長(cháng)文件中的字數可能比在短文件中的字數高,不管這個(gè)詞是否重要。)
TFIDF算法是基于這樣一個(gè)假設,即對于區分文檔最有意義的詞應該是那些在整個(gè)文檔集合中經(jīng)常出現在文檔中而在其他文檔中不經(jīng)常出現的詞,所以如果特征空間坐標系取TF詞頻作為衡量標準,可以反映相似文本的特征。此外,考慮到詞區分不同類(lèi)別的能力,TFIDF 方法認為詞的文本頻率越小,其區分不同類(lèi)別文本的能力就越大。因此,引入了逆文本頻率IDF的概念,將TF與IDF的乘積作為特征空間坐標系的值度量,用于調整權重TF。調整權重的目的是突出重要的詞,抑制次要的詞。單詞。但本質(zhì)上IDF是一種試圖抑制噪聲的加權,簡(jiǎn)單地認為文本頻率低的詞更重要,文本頻率高的詞沒(méi)用是不完全正確的。 IDF結構簡(jiǎn)單,不能有效反映詞的重要性和特征詞的分布,不能很好地發(fā)揮調整權重的功能,因此TFIDF方法的準確率不是很高。

另外,單詞的位置信息并沒(méi)有反映在TFIDF算法中。對于 Web 文檔,權重計算方法應該反映 HTML 的結構特征。特征詞在不同的標簽中反映文章的內容不同,其權重的計算方法也應該不同。因此,應為網(wǎng)頁(yè)不同位置的特征詞分配不同的系數,然后乘以特征詞的詞頻,以提高文本表示的效果。
TF-IDF模型是搜索引擎等實(shí)際應用中廣泛使用的信息檢索模型,但對于TF-IDF模型一直存在各種疑問(wèn)。本文是針對信息檢索問(wèn)題的基于條件概率的 box-and-ball 模型。核心思想是將“查詢(xún)字符串q與文檔d的匹配度問(wèn)題”轉化為“查詢(xún)字符串q來(lái)自文檔d的條件概率問(wèn)題”。它從概率的角度定義了比 TF-IDF 模型表達的信息檢索問(wèn)題更明確的匹配目標。該模型可以結合TF-IDF模型,一方面解釋其合理性,另一方面發(fā)現其缺陷。此外,該模型還可以解釋 PageRank 的含義,以及為什么 PageRank 權重和 TF-IDF 權重之間存在乘積關(guān)系。
事實(shí):搜索引擎優(yōu)化?和俺本地化有什么關(guān)系?(一)
前言
如果你去一些LSP(Language Service Provider)的官網(wǎng),你會(huì )發(fā)現他們經(jīng)常在網(wǎng)站本地化業(yè)務(wù)下覆蓋一個(gè)叫“搜索引擎優(yōu)化”的服務(wù)。
T先生文章的這篇文章將簡(jiǎn)要介紹搜索引擎優(yōu)化(SEO)的概念及其與本地化的關(guān)系,然后介紹SEO的實(shí)現方法。 T先生預計用2-3次推送來(lái)介紹SEO的難點(diǎn)。
本文以科普為主。所有信息均來(lái)自互聯(lián)網(wǎng)采集、匯總、篩選和匯編。如有錯誤請后臺留言。感謝您的支持。
本地化的概念可以簡(jiǎn)單地解釋為“調整產(chǎn)品以適應目標區域用戶(hù)的使用習慣”。本地化的存在是為了服務(wù)于“最大化產(chǎn)品利潤”的目的。對于國際產(chǎn)品,本地化過(guò)程中最重要的一點(diǎn)(一) 是語(yǔ)言。
Common Sense Advisory (CSA) 和 Lionbridge 曾進(jìn)行過(guò)市場(chǎng)調查,發(fā)現 72.4% 的消費者傾向于購買(mǎi)以母語(yǔ)提供產(chǎn)品信息的產(chǎn)品。 72.1% 的消費者在購買(mǎi)產(chǎn)品時(shí)只瀏覽 網(wǎng)站 母語(yǔ)的內容。
本地化行業(yè)標準委員會(huì ) (LISA) 的一項研究還指出,公司每在本地化內容上花費 1 美元,就可以收回 25 美元。
上述兩項研究強烈支持內容本地化的重要性,但它們忽略了一點(diǎn):如何讓您精心本地化的產(chǎn)品被廣泛的潛在用戶(hù)群發(fā)現?
在互聯(lián)網(wǎng)時(shí)代,消費者查找信息的首選是使用搜索引擎。但是,搜索引擎不一定會(huì )立即在搜索結果的首頁(yè)上展示公司的產(chǎn)品。如果我們自己的產(chǎn)品不能出現在首頁(yè)怎么辦——換個(gè)角度看,作為消費者,我們需要多少耐心和時(shí)間來(lái)翻頁(yè)?
這就是需要搜索引擎優(yōu)化 (SEO) 的地方。這是一種通過(guò)提高在無(wú)償搜索引擎結果中的排名來(lái)增加網(wǎng)站流量和品牌曝光度的技術(shù)。
SEO 不僅依靠搜索引擎原理來(lái)提高排名,更重要的是,它研究人們在網(wǎng)上搜索什么,人們期望得到什么樣的答案,人們使用什么樣的 關(guān)鍵詞,以及想要獲得服務(wù)內容的人。如果了解所有這些,公司就可以定制他們的產(chǎn)品,以更好地匹配潛在用戶(hù)群的搜索習慣——理想情況下,用戶(hù)會(huì )在主頁(yè)上看到您為他們提供的內容。
除了了解用戶(hù)之外,您還需要了解機器。搜索引擎就像一個(gè)黑匣子——我們一直在使用它,卻不知道它是如何工作的。這一次,T先生盡量用簡(jiǎn)單的語(yǔ)言解釋清楚。
1 搜索引擎原理簡(jiǎn)介
搜索引擎的工作原理大致可以分為三個(gè)部分:
1.爬?。涸诰W(wǎng)上檢索內容,找到內容對應的代碼/URL。
2.索引:將爬取過(guò)程中找到的內容有序存儲;如果頁(yè)面在索引中,它將顯示為相關(guān)的搜索結果。
3.排名:按相關(guān)性降序排列搜索結果。
在抓取過(guò)程中,搜索引擎通過(guò)一組程序(稱(chēng)為“爬蟲(chóng)”或“蜘蛛”)發(fā)現/更新互聯(lián)網(wǎng)上的內容。所謂內容,可以指網(wǎng)頁(yè)、圖片、視頻、網(wǎng)頁(yè)附件——它們都有一個(gè)叫做統一資源定位器(Uniform Resource Locator,URL)的“ID號”。爬蟲(chóng)找到網(wǎng)頁(yè)內容和對應的URL并存儲,然后根據網(wǎng)頁(yè)內容中的其他URL跳轉到其他內容。
搜索引擎存儲的內容就像一本字典,索引是拼音或部首搜索。爬取的內容需要分析并存儲在索引數據庫中。專(zhuān)門(mén)分析數據庫中網(wǎng)頁(yè)的文本內容。
當用戶(hù)進(jìn)行搜索時(shí),搜索引擎會(huì )從索引數據庫中檢索高度相關(guān)的內容并對其進(jìn)行排名。這種基于相關(guān)性對搜索結果進(jìn)行排名的方法稱(chēng)為排名。一般認為網(wǎng)站的排名越高,搜索引擎認為網(wǎng)站與查詢(xún)的相關(guān)性越高。

1.1 告訴搜索引擎:“過(guò)來(lái)”
有時(shí)公司不希望某些頁(yè)面出現在搜索引擎中,例如頁(yè)內廣告、過(guò)期內容、私有內容等。網(wǎng)站開(kāi)發(fā)人員可以使用一些方法(例如robots.txt)來(lái)告訴爬蟲(chóng)不要爬取此類(lèi)頁(yè)面的內容。當然,公司在推廣產(chǎn)品時(shí),肯定希望產(chǎn)品描述頁(yè)面被搜索引擎抓取。因此,如果您希望內容被搜索引擎發(fā)現,首先要確保它可以被爬蟲(chóng)訪(fǎng)問(wèn)并且可以索引。否則,就像隱身一樣。
以谷歌為例,使用高級搜索方式“site:”可以返回一個(gè)站點(diǎn)在谷歌索引中的所有結果。通過(guò)谷歌搜索控制臺(Google Search Console)還可以實(shí)現更準確的索引結果查詢(xún)和監控。這其實(shí)是搜索引擎優(yōu)化的第一步:檢查你的網(wǎng)頁(yè)是否被索引,哪些被索引,重要頁(yè)面是否被索引。
抓取預算
抓取預算(crawl budget)可以理解為搜索引擎爬蟲(chóng)在離開(kāi)一個(gè)站??點(diǎn)之前抓取的平均網(wǎng)址數。合理的爬取預算可以讓爬蟲(chóng)爬取更重要的頁(yè)面,避免在無(wú)用的信息/頁(yè)面上浪費時(shí)間。同時(shí),這也意味著(zhù)用戶(hù)搜索時(shí)內容相關(guān)性可以更加集中。
用戶(hù)在構建網(wǎng)站時(shí)仍然需要通過(guò)HTML代碼來(lái)指導搜索引擎如何處理你的頁(yè)面。這樣的指令稱(chēng)為元指令或元標記。它們通常存在于 HTML 頁(yè)面的標簽中。有興趣的讀者可以自行了解。
1.2 搜索引擎:坐成一排吃水果水果
搜索引擎用于根據內容相關(guān)性對結果進(jìn)行排名的技術(shù)基于復雜的算法。谷歌幾乎每周甚至每隔幾天都會(huì )更新其排名算法。如今,機器學(xué)習和自然語(yǔ)言處理也在幫助搜索引擎獲得更好的排名。
RankBrain 是 Google 搜索引擎核心算法的機器學(xué)習組件。機器學(xué)習也是一種通過(guò)大量數據不斷改進(jìn)預測的技術(shù)。換句話(huà)說(shuō),它總是在學(xué)習。因為它一直在學(xué)習,所以搜索排名結果會(huì )不斷提高。
用戶(hù)與搜索結果的交互也會(huì )影響搜索引擎的改進(jìn)。一般有四個(gè)因素:
這四個(gè)指標構成參與度指標。
不同的搜索引擎需要自己的 SEO
不同的搜索引擎有不同的排名算法。理論上,國際產(chǎn)品的本地化需要針對不同的搜索引擎實(shí)施SEO策略,但谷歌占據了國際市場(chǎng)的絕大部分份額。在預算有限的情況下,產(chǎn)品優(yōu)先為谷歌做SEO。但放眼中國大陸,SEO需要瞄準百度。
讀完后,公司可以通過(guò)一些方法讓自己的網(wǎng)站被搜索引擎捕獲,檢測網(wǎng)站的流量。接下來(lái),T先生將介紹如何合理安排網(wǎng)站的內容,讓用戶(hù)在使用關(guān)鍵詞進(jìn)行搜索時(shí),網(wǎng)站能被搜索引擎準確捕捉并呈現給用戶(hù)- 滿(mǎn)意的內容。
2 關(guān)鍵詞研究
在搜索引擎輸入框中輸入關(guān)鍵詞,回車(chē),會(huì )呈現上千條結果,而我們往往只瀏覽前一兩頁(yè)的結果。
關(guān)鍵詞研究有助于產(chǎn)品本地化過(guò)程,提高對目標市場(chǎng)的了解,了解客戶(hù)如何搜索內容、服務(wù)和產(chǎn)品。一般關(guān)鍵詞研究主要是回答以下三個(gè)問(wèn)題:
人們搜索什么?
有多少人搜索過(guò)它?
想要的信息如何呈現?

在我們進(jìn)行關(guān)鍵詞 研究以?xún)?yōu)化搜索結果之前,我們需要知道的第一件事是,我們的產(chǎn)品是做什么的?我們的客戶(hù)是什么樣的?我們的目標是什么(高點(diǎn)擊率?高銷(xiāo)量?高下載量?)?
例如,美國西雅圖的一家素食無(wú)麩質(zhì)“健康”冰淇淋連鎖店計劃進(jìn)行 SEO。需要考慮的關(guān)鍵點(diǎn)是什么?
人們在尋找什么冰淇淋、甜點(diǎn)、小吃?
誰(shuí)在搜索這些產(chǎn)品?
人們什么時(shí)候在尋找冰淇淋、小吃、甜點(diǎn)等?
人們如何找到冰淇淋?
人們?yōu)槭裁匆獙ふ冶苛埽?br /> 潛在客戶(hù)在哪里 - 本地?全國?全球?
雖然產(chǎn)品制造商有 10,000 種方式來(lái)宣傳他們的產(chǎn)品,但重要的是客戶(hù)的搜索方式。有一個(gè)用于分析 關(guān)鍵詞 搜索的工具。輸入一個(gè)關(guān)鍵詞后,會(huì )給出幾個(gè)相似的關(guān)鍵詞/短語(yǔ),并呈現它們的月平均搜索量變化圖。
2.1 關(guān)鍵詞,長(cháng)尾,季節和地區
數量關(guān)系
關(guān)鍵詞 和平均每月搜索頻率符合長(cháng)尾理論。 20% 的 關(guān)鍵詞 每月的搜索量可以達到 10 萬(wàn)次或更多,而其余 80% 的 關(guān)鍵詞(它們是長(cháng)尾)的平均每月搜索量可能不到 1 萬(wàn)次。因此,專(zhuān)注于幾個(gè)關(guān)鍵詞進(jìn)行內容優(yōu)化是一個(gè)合理的選擇。
同時(shí),大廠(chǎng)已經(jīng)占據了最高頻率關(guān)鍵詞。作為小型企業(yè)/初創(chuàng )公司,選擇頻率稍低的關(guān)鍵詞/短語(yǔ)會(huì )獲得更好的收益效果。例如,一家小型冰淇淋店完全有理由放棄冰淇淋等高頻詞,并投資于更具體的關(guān)鍵詞如有機牛奶和水果冰淇淋進(jìn)行優(yōu)化。
季節和地區也可能影響 關(guān)鍵詞 研究。例如,《送給女朋友的圣誕禮物》的檢索量在10-12月勢必會(huì )大幅增加。提前計劃更新內容 網(wǎng)站 可以讓企業(yè)搶占先機。谷歌的關(guān)鍵詞分析工具Google Keyword Planner,可以細化到市、省、國家三級,讓開(kāi)發(fā)者進(jìn)行關(guān)鍵詞研究。例如,半掛車(chē)在德克薩斯更常被稱(chēng)為“大型鉆機”,在紐約被稱(chēng)為“拖拉機拖車(chē)”,顯示了術(shù)語(yǔ)對 SEO 策略的影響。
2.2 消費者目的
谷歌將用戶(hù)的搜索行為概括為大致四種,分別對應用戶(hù)的各種檢索目的,即:
當用戶(hù)把目的放在輸入框的搜索格式上時(shí),谷歌總結了以下五種:
根據以上幾類(lèi),可以繪制出更精細的用戶(hù)意圖,進(jìn)而布局SEO策略。自搜索引擎誕生以來(lái),全球所有互聯(lián)網(wǎng)用戶(hù)的搜索行為已經(jīng)進(jìn)行了數萬(wàn)億次。 Google 可以依靠這些數據提供幾乎完美的搜索結果,商家也可以使用這些數據進(jìn)行“完美”的 SEO。
本節中的信息取自 Google 質(zhì)量評估指南:
本文文章T先生分兩章簡(jiǎn)單介紹了SEO的準備工作,下一篇文章與SEO實(shí)踐相關(guān):通過(guò)安排網(wǎng)頁(yè)內容和代碼設計進(jìn)行SEO 請期待它。謝謝~
搜索引擎主題模型優(yōu)化,關(guān)鍵詞排名,精準引流!
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 161 次瀏覽 ? 2022-09-10 16:23
搜索引擎主題模型優(yōu)化,關(guān)鍵詞排名,搜索引擎精準引流,
1、關(guān)鍵詞大面積堆砌,類(lèi)似道瓊斯3000多個(gè)詞,創(chuàng )業(yè)板2000多個(gè)詞,筆者至今見(jiàn)過(guò)1/3這么堆砌的,關(guān)鍵詞大面積堆砌的,后期基本都會(huì )被屏蔽。
2、專(zhuān)業(yè)術(shù)語(yǔ)含糊不清,直接會(huì )導致流量推后。比如$mbo,筆者見(jiàn)過(guò)的用的最多的一次是不是$mbo$,
3、關(guān)鍵詞大面積相似優(yōu)化,這個(gè)最容易被屏蔽.如何基本分清專(zhuān)業(yè)術(shù)語(yǔ)的相似度?一般來(lái)說(shuō),高度相似,如$mbo$,$mbo$這種效果會(huì )更明顯,
4、關(guān)鍵詞的大面積模糊性?xún)?yōu)化,也容易被屏蔽.比如08年鋼鐵行業(yè)熱門(mén)的時(shí)候,基本一個(gè)詞使用5%的專(zhuān)業(yè)術(shù)語(yǔ),基本都能滿(mǎn)足用戶(hù)需求,可用,像后來(lái)09年,14年期間鋼鐵行業(yè)市場(chǎng)低迷,就算熱門(mén)關(guān)鍵詞,專(zhuān)業(yè)術(shù)語(yǔ)都設置很高比例。
5、關(guān)鍵詞大面積相似優(yōu)化,關(guān)鍵詞堆砌,基本上后期就沒(méi)有流量推進(jìn)效果了,因為關(guān)鍵詞出現太多,搜索引擎會(huì )反感你的關(guān)鍵詞。所以基本不建議使用。
6、兩個(gè)關(guān)鍵詞差距過(guò)大,很多人寫(xiě)廣告文案,肯定要全篇不同的關(guān)鍵詞,是這樣嗎?筆者認為優(yōu)化關(guān)鍵詞最好控制在20個(gè)左右,這個(gè)關(guān)鍵詞一定要設置的有爭議性,不要隨意使用一些熱門(mén)關(guān)鍵詞,因為沒(méi)有什么用。
7、關(guān)鍵詞拼貼優(yōu)化大面積拼貼優(yōu)化,直接影響搜索引擎主題模型排名位置,基本上40%就over了。
8、網(wǎng)站越發(fā)布完整,頁(yè)面越詳細,關(guān)鍵詞排名靠前的可能性就越高,但是這需要一定的工作量,用的好,可以獲得極大收益。
9、大面積堆砌關(guān)鍵詞,可以更好的起到關(guān)鍵詞堆砌的效果,建議加上#.#..#標識,基本的關(guān)鍵詞堆砌可以起到效果。
1
0、大面積堆砌關(guān)鍵詞,是很難起到效果的,基本上得不償失,基本上你的網(wǎng)站做的非常完整,頁(yè)面又詳細,并且優(yōu)化非常好,但是關(guān)鍵詞堆砌沒(méi)有那么容易實(shí)現。
1、大面積堆砌關(guān)鍵詞,可以通過(guò)文章內容進(jìn)行過(guò)濾處理,但是這種方法,更好實(shí)現,通過(guò)筆者與多家企業(yè)測試總結,隨便發(fā)布內容測試即可做,可是大面積堆砌,
2、大面積堆砌關(guān)鍵詞,更好的一種,但是現在大多數人把大面積堆砌關(guān)鍵詞作為seo中拼接關(guān)鍵詞的一種方法,基本上沒(méi)有什么用處。
如何關(guān)鍵詞提升--獲取高質(zhì)量的流量無(wú)論是使用搜索引擎優(yōu)化的核心,還是核心競爭力的本質(zhì),核心競爭力要獲取高質(zhì)量的流量,
1、提升轉化,
2、增加銷(xiāo)售額,
3、增加品牌知名度,
4、增加客戶(hù)體驗感,
5、提升用戶(hù)滿(mǎn)意度,以便以后的客戶(hù)拓展。 查看全部
搜索引擎主題模型優(yōu)化,關(guān)鍵詞排名,精準引流!
搜索引擎主題模型優(yōu)化,關(guān)鍵詞排名,搜索引擎精準引流,
1、關(guān)鍵詞大面積堆砌,類(lèi)似道瓊斯3000多個(gè)詞,創(chuàng )業(yè)板2000多個(gè)詞,筆者至今見(jiàn)過(guò)1/3這么堆砌的,關(guān)鍵詞大面積堆砌的,后期基本都會(huì )被屏蔽。
2、專(zhuān)業(yè)術(shù)語(yǔ)含糊不清,直接會(huì )導致流量推后。比如$mbo,筆者見(jiàn)過(guò)的用的最多的一次是不是$mbo$,
3、關(guān)鍵詞大面積相似優(yōu)化,這個(gè)最容易被屏蔽.如何基本分清專(zhuān)業(yè)術(shù)語(yǔ)的相似度?一般來(lái)說(shuō),高度相似,如$mbo$,$mbo$這種效果會(huì )更明顯,
4、關(guān)鍵詞的大面積模糊性?xún)?yōu)化,也容易被屏蔽.比如08年鋼鐵行業(yè)熱門(mén)的時(shí)候,基本一個(gè)詞使用5%的專(zhuān)業(yè)術(shù)語(yǔ),基本都能滿(mǎn)足用戶(hù)需求,可用,像后來(lái)09年,14年期間鋼鐵行業(yè)市場(chǎng)低迷,就算熱門(mén)關(guān)鍵詞,專(zhuān)業(yè)術(shù)語(yǔ)都設置很高比例。
5、關(guān)鍵詞大面積相似優(yōu)化,關(guān)鍵詞堆砌,基本上后期就沒(méi)有流量推進(jìn)效果了,因為關(guān)鍵詞出現太多,搜索引擎會(huì )反感你的關(guān)鍵詞。所以基本不建議使用。

6、兩個(gè)關(guān)鍵詞差距過(guò)大,很多人寫(xiě)廣告文案,肯定要全篇不同的關(guān)鍵詞,是這樣嗎?筆者認為優(yōu)化關(guān)鍵詞最好控制在20個(gè)左右,這個(gè)關(guān)鍵詞一定要設置的有爭議性,不要隨意使用一些熱門(mén)關(guān)鍵詞,因為沒(méi)有什么用。
7、關(guān)鍵詞拼貼優(yōu)化大面積拼貼優(yōu)化,直接影響搜索引擎主題模型排名位置,基本上40%就over了。
8、網(wǎng)站越發(fā)布完整,頁(yè)面越詳細,關(guān)鍵詞排名靠前的可能性就越高,但是這需要一定的工作量,用的好,可以獲得極大收益。
9、大面積堆砌關(guān)鍵詞,可以更好的起到關(guān)鍵詞堆砌的效果,建議加上#.#..#標識,基本的關(guān)鍵詞堆砌可以起到效果。
1
0、大面積堆砌關(guān)鍵詞,是很難起到效果的,基本上得不償失,基本上你的網(wǎng)站做的非常完整,頁(yè)面又詳細,并且優(yōu)化非常好,但是關(guān)鍵詞堆砌沒(méi)有那么容易實(shí)現。
1、大面積堆砌關(guān)鍵詞,可以通過(guò)文章內容進(jìn)行過(guò)濾處理,但是這種方法,更好實(shí)現,通過(guò)筆者與多家企業(yè)測試總結,隨便發(fā)布內容測試即可做,可是大面積堆砌,

2、大面積堆砌關(guān)鍵詞,更好的一種,但是現在大多數人把大面積堆砌關(guān)鍵詞作為seo中拼接關(guān)鍵詞的一種方法,基本上沒(méi)有什么用處。
如何關(guān)鍵詞提升--獲取高質(zhì)量的流量無(wú)論是使用搜索引擎優(yōu)化的核心,還是核心競爭力的本質(zhì),核心競爭力要獲取高質(zhì)量的流量,
1、提升轉化,
2、增加銷(xiāo)售額,
3、增加品牌知名度,
4、增加客戶(hù)體驗感,
5、提升用戶(hù)滿(mǎn)意度,以便以后的客戶(hù)拓展。
搜索引擎主題模型優(yōu)化有以下幾個(gè)優(yōu)勢:優(yōu)化
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 122 次瀏覽 ? 2022-08-27 23:04
搜索引擎主題模型優(yōu)化作為每天搜索引擎站內優(yōu)化的最后一步,主要起到提升蜘蛛爬行體驗以及從搜索結果中抓取更多信息,或者進(jìn)一步清除spam帶來(lái)的流量的功能,提升全站最終的收錄和排名。主題模型優(yōu)化有以下幾個(gè)優(yōu)勢:首先,從長(cháng)遠看,搜索引擎認為(雖然大部分搜索引擎未必非常重視主題模型優(yōu)化,但是本文討論的算法有可能實(shí)現)即使降低這一算法的落地實(shí)現,通過(guò)應用到其他類(lèi)型的模型中去,搜索引擎也會(huì )給以?xún)?yōu)化搜索整站提供更大的提升空間。
其次,搜索引擎大規模存在很多手段來(lái)獲取搜索結果頁(yè)面信息,主題模型模型必須運用得當,才能使得某些頁(yè)面在數量上得到提升,站內的一些很小的功能可能都會(huì )影響整個(gè)搜索結果頁(yè)面收錄結果,搜索引擎根據影響程度把結果優(yōu)化到合適的位置。同時(shí),考慮到整個(gè)搜索結果頁(yè)面后可能被搜索結果,搜索引擎可能會(huì )發(fā)現類(lèi)似“引擎不知道帶來(lái)了多少流量但是卻無(wú)意識下降了自己在結果頁(yè)面中的相關(guān)頁(yè)面展示”的情況,降低主題模型優(yōu)化后帶來(lái)的一些不利影響。
最后,搜索引擎根據算法提示,通過(guò)其他的手段達到提升整站優(yōu)化,那么整站優(yōu)化被動(dòng)優(yōu)化。目前,如果要優(yōu)化搜索結果頁(yè)面,首先要選擇搜索引擎主題模型優(yōu)化,通過(guò)搜索引擎關(guān)鍵詞提示和頁(yè)面主題文本字符覆蓋等,通過(guò)站內主題優(yōu)化加速整個(gè)站內的內容結構的提升,簡(jiǎn)要地說(shuō)即:“內容結構優(yōu)化+高質(zhì)量外鏈+結構優(yōu)化+外鏈優(yōu)化”。關(guān)于搜索引擎主題模型優(yōu)化,更多專(zhuān)業(yè)知識可以關(guān)注我微信公眾號(pco_commu),一起交流。
搜索引擎優(yōu)化模型模型優(yōu)化是整站優(yōu)化的重要環(huán)節,很多同學(xué)總是會(huì )卡在這個(gè)關(guān)鍵環(huán)節上,而不能將之做好,小編總結了以下幾個(gè)問(wèn)題:(。
1)了解主題模型優(yōu)化的優(yōu)勢與弊端。主題模型優(yōu)化是站內優(yōu)化的最后一步,其優(yōu)勢為搜索引擎更好的抓取、提高全站搜索結果頁(yè)面收錄,通過(guò)在搜索結果中加入與網(wǎng)站主題相關(guān)的文本,能夠起到提升關(guān)鍵詞與文本文本質(zhì)量的目的,并且能夠為搜索引擎降低提供更多的蜘蛛爬行體驗,提升全站收錄排名。主題模型優(yōu)化弊端是,加入搜索結果頁(yè)面信息后,搜索引擎會(huì )認為,你的網(wǎng)站是做了主題模型優(yōu)化的,這是搜索引擎認為默認的網(wǎng)站,可能會(huì )降低全站搜索引擎對于你網(wǎng)站的收錄,雖然這個(gè)風(fēng)險低,但是風(fēng)險可控。(。
2)了解主題模型優(yōu)化的首選提升方式。關(guān)于主題模型優(yōu)化,首選是直接抓取網(wǎng)站中搜索結果頁(yè)面,未來(lái)的seo目標是上升。
3)掌握主題模型優(yōu)化的主要流程。主題模型優(yōu)化的主要流程是,頁(yè)面上加入相關(guān)頁(yè)面文本,通過(guò)搜索引擎搜索關(guān)鍵詞和收錄進(jìn)行展示,同時(shí)優(yōu)化搜索關(guān)鍵詞。
4)主題模 查看全部
搜索引擎主題模型優(yōu)化有以下幾個(gè)優(yōu)勢:優(yōu)化
搜索引擎主題模型優(yōu)化作為每天搜索引擎站內優(yōu)化的最后一步,主要起到提升蜘蛛爬行體驗以及從搜索結果中抓取更多信息,或者進(jìn)一步清除spam帶來(lái)的流量的功能,提升全站最終的收錄和排名。主題模型優(yōu)化有以下幾個(gè)優(yōu)勢:首先,從長(cháng)遠看,搜索引擎認為(雖然大部分搜索引擎未必非常重視主題模型優(yōu)化,但是本文討論的算法有可能實(shí)現)即使降低這一算法的落地實(shí)現,通過(guò)應用到其他類(lèi)型的模型中去,搜索引擎也會(huì )給以?xún)?yōu)化搜索整站提供更大的提升空間。
其次,搜索引擎大規模存在很多手段來(lái)獲取搜索結果頁(yè)面信息,主題模型模型必須運用得當,才能使得某些頁(yè)面在數量上得到提升,站內的一些很小的功能可能都會(huì )影響整個(gè)搜索結果頁(yè)面收錄結果,搜索引擎根據影響程度把結果優(yōu)化到合適的位置。同時(shí),考慮到整個(gè)搜索結果頁(yè)面后可能被搜索結果,搜索引擎可能會(huì )發(fā)現類(lèi)似“引擎不知道帶來(lái)了多少流量但是卻無(wú)意識下降了自己在結果頁(yè)面中的相關(guān)頁(yè)面展示”的情況,降低主題模型優(yōu)化后帶來(lái)的一些不利影響。

最后,搜索引擎根據算法提示,通過(guò)其他的手段達到提升整站優(yōu)化,那么整站優(yōu)化被動(dòng)優(yōu)化。目前,如果要優(yōu)化搜索結果頁(yè)面,首先要選擇搜索引擎主題模型優(yōu)化,通過(guò)搜索引擎關(guān)鍵詞提示和頁(yè)面主題文本字符覆蓋等,通過(guò)站內主題優(yōu)化加速整個(gè)站內的內容結構的提升,簡(jiǎn)要地說(shuō)即:“內容結構優(yōu)化+高質(zhì)量外鏈+結構優(yōu)化+外鏈優(yōu)化”。關(guān)于搜索引擎主題模型優(yōu)化,更多專(zhuān)業(yè)知識可以關(guān)注我微信公眾號(pco_commu),一起交流。
搜索引擎優(yōu)化模型模型優(yōu)化是整站優(yōu)化的重要環(huán)節,很多同學(xué)總是會(huì )卡在這個(gè)關(guān)鍵環(huán)節上,而不能將之做好,小編總結了以下幾個(gè)問(wèn)題:(。
1)了解主題模型優(yōu)化的優(yōu)勢與弊端。主題模型優(yōu)化是站內優(yōu)化的最后一步,其優(yōu)勢為搜索引擎更好的抓取、提高全站搜索結果頁(yè)面收錄,通過(guò)在搜索結果中加入與網(wǎng)站主題相關(guān)的文本,能夠起到提升關(guān)鍵詞與文本文本質(zhì)量的目的,并且能夠為搜索引擎降低提供更多的蜘蛛爬行體驗,提升全站收錄排名。主題模型優(yōu)化弊端是,加入搜索結果頁(yè)面信息后,搜索引擎會(huì )認為,你的網(wǎng)站是做了主題模型優(yōu)化的,這是搜索引擎認為默認的網(wǎng)站,可能會(huì )降低全站搜索引擎對于你網(wǎng)站的收錄,雖然這個(gè)風(fēng)險低,但是風(fēng)險可控。(。

2)了解主題模型優(yōu)化的首選提升方式。關(guān)于主題模型優(yōu)化,首選是直接抓取網(wǎng)站中搜索結果頁(yè)面,未來(lái)的seo目標是上升。
3)掌握主題模型優(yōu)化的主要流程。主題模型優(yōu)化的主要流程是,頁(yè)面上加入相關(guān)頁(yè)面文本,通過(guò)搜索引擎搜索關(guān)鍵詞和收錄進(jìn)行展示,同時(shí)優(yōu)化搜索關(guān)鍵詞。
4)主題模
Facebook照片搜索技術(shù)揭秘
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 120 次瀏覽 ? 2022-08-09 09:29
今天的人們使用智能手機拍攝的照片數量激增,這對傳統的照片分類(lèi)方式造成了不小的挑戰。我們每個(gè)人整理自己手機中存儲的海量照片尚且如此困難,對我們來(lái)說(shuō),要為所有人的照片定義一種更有序的分類(lèi)方式無(wú)疑更是困難重重。
每天,人們會(huì )將數十億張照片分享到Facebook,想想你自己向下滾屏查找幾天前發(fā)布的照片有多麻煩,如果要找幾個(gè)月甚至幾年前的照片呢?為了幫大家更容易找到自己的照片,Facebook照片搜索團隊使用機器學(xué)習技術(shù)深入了解照片內容,改善照片的搜索和獲取過(guò)程。
我們的照片搜索功能基于一種名為Unicorn的內存和閃存索引系統構建,這種系統在設計上可以順利搜索百億至萬(wàn)億級別的用戶(hù)和其他實(shí)體。這套誕生于幾年前的系統還驅動(dòng)著(zhù)能夠理解社交圖譜的Graph Search功能,以每天數十億筆查詢(xún)的強大能力為Facebook的多個(gè)組件提供著(zhù)支撐。
Graph Search的誕生是為了能根據不同社交圖譜之間的關(guān)系獲取相關(guān)對象,例如“所有住在舊金山的好友”。該功能的效果很不錯,但如果要將查詢(xún)約束在相關(guān)子集范圍內,并按照相關(guān)性對結果進(jìn)行排序或計分,進(jìn)而提供最相關(guān)的結果,這種操作中該功能的效果很一般。為了繼續完善這種技術(shù),照片搜索團隊使用深度神經(jīng)網(wǎng)絡(luò ),通過(guò)照片中的可視內容和可查找文字改善了圖片搜索結果的準確性。
關(guān)于照片,搜索功能需要了解些什么
雖然Imagenet Challenge等競賽中,圖片識別技術(shù)的演示已經(jīng)獲得了非常低的錯誤率,但以Facebook的規模來(lái)說(shuō),理解照片內容是個(gè)很難達成的目標。好在相關(guān)應用領(lǐng)域的研究已經(jīng)為我們提供了最先進(jìn)的深度學(xué)習技術(shù),足以在大范圍內處理數十億張照片,從中提取出可搜索的語(yǔ)義學(xué)含義。我們會(huì )使用一種名為圖片理解引擎的分布式實(shí)時(shí)系統,分析處理發(fā)布到Facebook且公開(kāi)展示的每張照片。
圖片理解引擎是一種深度神經(jīng)網(wǎng)絡(luò ),其中包含數百萬(wàn)種可學(xué)習參數。該引擎以先進(jìn)的深度殘差網(wǎng)絡(luò )(Deep Residual Network)為基礎,使用上千萬(wàn)張帶標注照片進(jìn)行了訓練,可自動(dòng)預測一系列概念,包括場(chǎng)景、物體、動(dòng)物、景點(diǎn)、著(zhù)裝等。我們可以提前訓練模型并將有用的信息存起來(lái),進(jìn)而以低延遲響應回應用戶(hù)查詢(xún)。
這個(gè)圖片理解引擎為語(yǔ)義特征生成的高維浮點(diǎn)向量需要進(jìn)行索引和搜索,但以Facebook的規模來(lái)說(shuō),這是一種非常繁重的計算密集型任務(wù)。通過(guò)使用迭代量化和局部敏感哈希技術(shù),該功能可進(jìn)一步壓縮出數量更少,但依然足以代表大部分語(yǔ)義的“位”。這些緊湊的“位”信息將直接嵌入照片中,借此可直接對照片進(jìn)行評級、檢索、去重等操作。搜索查詢(xún)過(guò)程中,可通過(guò)嵌入的信息調整結果的展示順序。這種技術(shù)與文檔搜索和檢索過(guò)程中使用的技術(shù)極為類(lèi)似。Unicorn最初誕生時(shí)包含適用于深度神經(jīng)網(wǎng)絡(luò )層的多種不同算法,這些算法都是針對大規模圖片集的搜索開(kāi)發(fā)而來(lái)的。Unicorn可以用對象標簽和嵌入語(yǔ)義創(chuàng )建搜索查詢(xún)所需的索引。目前我們正在開(kāi)發(fā)該技術(shù)的新版本,希望能將這種緊湊嵌入的信息用于低延遲檢索。
在建模過(guò)程中使用標簽和嵌入物
考慮到Facebook的規模以及用戶(hù)對快速響應查詢(xún)的預期,我們無(wú)法對整個(gè)照片庫使用過(guò)于復雜的評級模型。因此為標簽和嵌入物使用了一種相關(guān)性模型,該模型可估算相關(guān)性并以極低的延遲提供查詢(xún)結果。
概念相關(guān)性
這個(gè)相關(guān)性是通過(guò)豐富的查詢(xún),以及使用相似性函數對比概念集得出的照片概念信號進(jìn)行評估的。例如,與照片查詢(xún)中所用的“中央公園”概念直接相關(guān)的查詢(xún)概念,可將與這一話(huà)題有關(guān)的照片放在首位,并從結果中隱藏所有“離題”的照片。
嵌入物相關(guān)性
通常來(lái)說(shuō),直接衡量查詢(xún)與結果之間的概念關(guān)聯(lián)性,這種做法不足以準確地預測相關(guān)性。我們創(chuàng )建的相關(guān)性模型會(huì )使用多模態(tài)學(xué)習(Multimodal learning)技術(shù)了解查詢(xún)和圖片之間的聯(lián)合嵌入關(guān)系。
該模型的輸入端為查詢(xún)的嵌入向量和照片結果,而訓練目的在于將分類(lèi)損失降至最低。每個(gè)向量將放在一起訓練和處理,這一過(guò)程會(huì )使用多層次的深度神經(jīng)網(wǎng)絡(luò )生成一個(gè)二進(jìn)制信號,結果為正意味著(zhù)匹配,結果為負意味著(zhù)不匹配。查詢(xún)和照片的輸入向量分別由各自的網(wǎng)絡(luò )生成,每個(gè)網(wǎng)絡(luò )可能包含不同數量的層。這種網(wǎng)絡(luò )可以通過(guò)嵌入層的參數進(jìn)行訓練并調優(yōu)。
嵌入評級損失
上文介紹的這種確定查詢(xún)和照片之間相關(guān)性的方法可以用公式表示為一種分類(lèi)問(wèn)題。然而評級的主要目標在于確定照片搜索結果中一系列照片的最佳排序。因此我們在分類(lèi)公式的基礎上使用評級損失(Ranking loss)進(jìn)行訓練,同時(shí)為同一個(gè)查詢(xún)生成相關(guān)和不相關(guān)結果對。
如下圖所示,模型右側部分是左側部分的深層復制(Deep copy),也就是說(shuō),他們共享了相同的網(wǎng)絡(luò )結構和參數。在訓練過(guò)程中,我們會(huì )將查詢(xún)與兩種結果分別放入模型的左側和右側組件中。對于每個(gè)查詢(xún),相符圖片的評級會(huì )高于不相符圖片。這種訓練方式大幅改善了評級質(zhì)量。
將對查詢(xún)的理解應用給照片搜索
Unicorn的照片語(yǔ)料以及圖片理解引擎所應用的嵌入物均是可搜索的。如果應用于嵌入物的查詢(xún)語(yǔ)義生成了更高概率的相關(guān)性,除了用于獲取照片的索引,查詢(xún)與檢索之間的其他位圖會(huì )被打斷。理解查詢(xún)語(yǔ)義過(guò)程中所使用的重要信號包括:
查詢(xún)意圖(Query intents)建議了需要檢索哪類(lèi)場(chǎng)景的照片。例如一個(gè)意在檢索動(dòng)物照片的查詢(xún)需要展示以動(dòng)物為主題的照片。
語(yǔ)法分析(Syntactic analysis)幫助我們理解查詢(xún)語(yǔ)句的語(yǔ)法構造、詞類(lèi)詞性、句法關(guān)系,以及語(yǔ)義。搜索查詢(xún)通常無(wú)法識別書(shū)面語(yǔ)的語(yǔ)法,而這方面現有的解析程序效果并不好。因此我們使用了最先進(jìn)的技術(shù),對語(yǔ)言標記器(Speech tagger)中神經(jīng)網(wǎng)絡(luò )部分進(jìn)行有關(guān)搜索查詢(xún)的訓練。
實(shí)體鏈接(Entity linking)幫助我們找出有關(guān)特定概念的照片,通常會(huì )將結果以頁(yè)面的形式呈現,例如不同的地點(diǎn)或電視節目。
重寫(xiě)查詢(xún)知識以提取由查詢(xún)的語(yǔ)義詮釋提供的概念。概念不僅可以擴展查詢(xún)的含義,而且可以彌補查詢(xún)和結果之間不同詞匯造成的差異。
查詢(xún)嵌入物,這是一種用于代表查詢(xún)本身的連續向量空間。該技術(shù)可在對詞匯進(jìn)行word2vec向量呈現的基礎上通過(guò)遷移學(xué)習(Transfer learning)進(jìn)行學(xué)習,借此將類(lèi)似的查詢(xún)映射至就近點(diǎn)。
領(lǐng)域和查詢(xún)重寫(xiě)
當某人輸入查詢(xún)按下搜索鍵,會(huì )生成一個(gè)請求并發(fā)送到我們的服務(wù)器。該請求首先到達Web層,在這里會(huì )收集有關(guān)該查詢(xún)的不同上下文信息。隨后查詢(xún)以及相關(guān)上下文會(huì )被發(fā)送至一個(gè)頂級聚合器層,在這里查詢(xún)會(huì )被重寫(xiě)為一個(gè)s-表達式,隨后描述該如何從索引服務(wù)器獲取一系列文檔。
根據查詢(xún)意圖,會(huì )由一個(gè)觸發(fā)器機制使用神經(jīng)網(wǎng)絡(luò )模型決定相關(guān)聯(lián)的領(lǐng)域(Vertical),例如新聞、照片,或視頻,這是為了盡可能避免針對相關(guān)性較低的領(lǐng)域執行不必要的處理任務(wù)。舉例來(lái)說(shuō),如果某人查詢(xún)“有趣的貓咪”,那么這個(gè)意圖很明顯更希望看到照片領(lǐng)域的結果,此時(shí)我們會(huì )從搜索結果中排除掉新聞這個(gè)領(lǐng)域。
如果查詢(xún)“萬(wàn)圣節”,此時(shí)將同時(shí)觸發(fā)有關(guān)公開(kāi)照片及好友的萬(wàn)圣節變裝照片的意圖,此時(shí)將同時(shí)搜索公開(kāi)和社交圈照片兩個(gè)領(lǐng)域,進(jìn)而可同時(shí)返回搜索者的好友所分享的照片,以及評級為相關(guān)的所有公開(kāi)照片。此時(shí)需要進(jìn)行兩個(gè)獨立的請求,因為社交照片是高度個(gè)性化的,需要進(jìn)行單獨的檢索和計分。為了保護照片隱私,我們會(huì )對搜索結果應用Facebook整個(gè)系統都在使用的隱私控制機制。下圖演示了一個(gè)上端為“社交”,下端為“公開(kāi)”的模塊。
第一階段評級
當索引服務(wù)器根據s-表達式獲取到所需文檔后,會(huì )交給經(jīng)過(guò)機器學(xué)習訓練的第一階段評級器處理。隨后分數最高,Top M文檔會(huì )被發(fā)送至Rack aggregator層,借此對所獲得的全部文檔進(jìn)行一定程度的合并,隨后將Top N結果返回至頂級聚合器層。第一階段評級的主要目的是確保返回至Rack aggregator的文檔與查詢(xún)依然保持一定的相關(guān)性。例如,在查詢(xún)“狗”時(shí),包含狗的照片無(wú)疑會(huì )比不包含狗的照片獲得更高評級。為了能以毫秒級的速度提供相關(guān)照片,我們還對整個(gè)復雜的檢索和評級階段的延遲進(jìn)行了優(yōu)化。
第二階段的二次評級
評級后的文檔返回頂級聚合器后,會(huì )進(jìn)行另一輪的信號計算、去重和評級。信號描述了整個(gè)結果分布情況的計算結果,借此可發(fā)現不符的結果。隨后會(huì )使用圖片指紋對視覺(jué)方面類(lèi)似的文檔進(jìn)行去重。隨后會(huì )通過(guò)深度神經(jīng)網(wǎng)絡(luò )進(jìn)行計分和評級,借此生成最終的照片排序結果。評級之后的照片集(也叫做“模塊”)會(huì )被發(fā)送到結果頁(yè)面的UI中顯示出來(lái)。
針對照片搜索優(yōu)化相關(guān)性評級
對查詢(xún)與照片,以及照片與查詢(xún)之間的相關(guān)性進(jìn)行評估,這是照片搜索團隊所面臨最核心的問(wèn)題,并且已經(jīng)遠遠超出了基于文本的查詢(xún)重寫(xiě)和匹配技術(shù)范疇。為此我們需要進(jìn)一步全面理解查詢(xún)、照片作者、照片附帶貼文,以及照片中的可視內容。先進(jìn)的相關(guān)性模型通常需要包含頂尖的評級、自然語(yǔ)言處理,以及計算機視覺(jué)等技術(shù),借此才能提供相關(guān)性更高的搜索結果,為我們塑造一種新穎的圖片分類(lèi)系統,在大規模范圍內更快速提供相關(guān)性更高的搜索結果。 查看全部
Facebook照片搜索技術(shù)揭秘
今天的人們使用智能手機拍攝的照片數量激增,這對傳統的照片分類(lèi)方式造成了不小的挑戰。我們每個(gè)人整理自己手機中存儲的海量照片尚且如此困難,對我們來(lái)說(shuō),要為所有人的照片定義一種更有序的分類(lèi)方式無(wú)疑更是困難重重。
每天,人們會(huì )將數十億張照片分享到Facebook,想想你自己向下滾屏查找幾天前發(fā)布的照片有多麻煩,如果要找幾個(gè)月甚至幾年前的照片呢?為了幫大家更容易找到自己的照片,Facebook照片搜索團隊使用機器學(xué)習技術(shù)深入了解照片內容,改善照片的搜索和獲取過(guò)程。
我們的照片搜索功能基于一種名為Unicorn的內存和閃存索引系統構建,這種系統在設計上可以順利搜索百億至萬(wàn)億級別的用戶(hù)和其他實(shí)體。這套誕生于幾年前的系統還驅動(dòng)著(zhù)能夠理解社交圖譜的Graph Search功能,以每天數十億筆查詢(xún)的強大能力為Facebook的多個(gè)組件提供著(zhù)支撐。
Graph Search的誕生是為了能根據不同社交圖譜之間的關(guān)系獲取相關(guān)對象,例如“所有住在舊金山的好友”。該功能的效果很不錯,但如果要將查詢(xún)約束在相關(guān)子集范圍內,并按照相關(guān)性對結果進(jìn)行排序或計分,進(jìn)而提供最相關(guān)的結果,這種操作中該功能的效果很一般。為了繼續完善這種技術(shù),照片搜索團隊使用深度神經(jīng)網(wǎng)絡(luò ),通過(guò)照片中的可視內容和可查找文字改善了圖片搜索結果的準確性。
關(guān)于照片,搜索功能需要了解些什么
雖然Imagenet Challenge等競賽中,圖片識別技術(shù)的演示已經(jīng)獲得了非常低的錯誤率,但以Facebook的規模來(lái)說(shuō),理解照片內容是個(gè)很難達成的目標。好在相關(guān)應用領(lǐng)域的研究已經(jīng)為我們提供了最先進(jìn)的深度學(xué)習技術(shù),足以在大范圍內處理數十億張照片,從中提取出可搜索的語(yǔ)義學(xué)含義。我們會(huì )使用一種名為圖片理解引擎的分布式實(shí)時(shí)系統,分析處理發(fā)布到Facebook且公開(kāi)展示的每張照片。
圖片理解引擎是一種深度神經(jīng)網(wǎng)絡(luò ),其中包含數百萬(wàn)種可學(xué)習參數。該引擎以先進(jìn)的深度殘差網(wǎng)絡(luò )(Deep Residual Network)為基礎,使用上千萬(wàn)張帶標注照片進(jìn)行了訓練,可自動(dòng)預測一系列概念,包括場(chǎng)景、物體、動(dòng)物、景點(diǎn)、著(zhù)裝等。我們可以提前訓練模型并將有用的信息存起來(lái),進(jìn)而以低延遲響應回應用戶(hù)查詢(xún)。
這個(gè)圖片理解引擎為語(yǔ)義特征生成的高維浮點(diǎn)向量需要進(jìn)行索引和搜索,但以Facebook的規模來(lái)說(shuō),這是一種非常繁重的計算密集型任務(wù)。通過(guò)使用迭代量化和局部敏感哈希技術(shù),該功能可進(jìn)一步壓縮出數量更少,但依然足以代表大部分語(yǔ)義的“位”。這些緊湊的“位”信息將直接嵌入照片中,借此可直接對照片進(jìn)行評級、檢索、去重等操作。搜索查詢(xún)過(guò)程中,可通過(guò)嵌入的信息調整結果的展示順序。這種技術(shù)與文檔搜索和檢索過(guò)程中使用的技術(shù)極為類(lèi)似。Unicorn最初誕生時(shí)包含適用于深度神經(jīng)網(wǎng)絡(luò )層的多種不同算法,這些算法都是針對大規模圖片集的搜索開(kāi)發(fā)而來(lái)的。Unicorn可以用對象標簽和嵌入語(yǔ)義創(chuàng )建搜索查詢(xún)所需的索引。目前我們正在開(kāi)發(fā)該技術(shù)的新版本,希望能將這種緊湊嵌入的信息用于低延遲檢索。
在建模過(guò)程中使用標簽和嵌入物
考慮到Facebook的規模以及用戶(hù)對快速響應查詢(xún)的預期,我們無(wú)法對整個(gè)照片庫使用過(guò)于復雜的評級模型。因此為標簽和嵌入物使用了一種相關(guān)性模型,該模型可估算相關(guān)性并以極低的延遲提供查詢(xún)結果。
概念相關(guān)性
這個(gè)相關(guān)性是通過(guò)豐富的查詢(xún),以及使用相似性函數對比概念集得出的照片概念信號進(jìn)行評估的。例如,與照片查詢(xún)中所用的“中央公園”概念直接相關(guān)的查詢(xún)概念,可將與這一話(huà)題有關(guān)的照片放在首位,并從結果中隱藏所有“離題”的照片。

嵌入物相關(guān)性
通常來(lái)說(shuō),直接衡量查詢(xún)與結果之間的概念關(guān)聯(lián)性,這種做法不足以準確地預測相關(guān)性。我們創(chuàng )建的相關(guān)性模型會(huì )使用多模態(tài)學(xué)習(Multimodal learning)技術(shù)了解查詢(xún)和圖片之間的聯(lián)合嵌入關(guān)系。
該模型的輸入端為查詢(xún)的嵌入向量和照片結果,而訓練目的在于將分類(lèi)損失降至最低。每個(gè)向量將放在一起訓練和處理,這一過(guò)程會(huì )使用多層次的深度神經(jīng)網(wǎng)絡(luò )生成一個(gè)二進(jìn)制信號,結果為正意味著(zhù)匹配,結果為負意味著(zhù)不匹配。查詢(xún)和照片的輸入向量分別由各自的網(wǎng)絡(luò )生成,每個(gè)網(wǎng)絡(luò )可能包含不同數量的層。這種網(wǎng)絡(luò )可以通過(guò)嵌入層的參數進(jìn)行訓練并調優(yōu)。
嵌入評級損失
上文介紹的這種確定查詢(xún)和照片之間相關(guān)性的方法可以用公式表示為一種分類(lèi)問(wèn)題。然而評級的主要目標在于確定照片搜索結果中一系列照片的最佳排序。因此我們在分類(lèi)公式的基礎上使用評級損失(Ranking loss)進(jìn)行訓練,同時(shí)為同一個(gè)查詢(xún)生成相關(guān)和不相關(guān)結果對。
如下圖所示,模型右側部分是左側部分的深層復制(Deep copy),也就是說(shuō),他們共享了相同的網(wǎng)絡(luò )結構和參數。在訓練過(guò)程中,我們會(huì )將查詢(xún)與兩種結果分別放入模型的左側和右側組件中。對于每個(gè)查詢(xún),相符圖片的評級會(huì )高于不相符圖片。這種訓練方式大幅改善了評級質(zhì)量。
將對查詢(xún)的理解應用給照片搜索
Unicorn的照片語(yǔ)料以及圖片理解引擎所應用的嵌入物均是可搜索的。如果應用于嵌入物的查詢(xún)語(yǔ)義生成了更高概率的相關(guān)性,除了用于獲取照片的索引,查詢(xún)與檢索之間的其他位圖會(huì )被打斷。理解查詢(xún)語(yǔ)義過(guò)程中所使用的重要信號包括:
查詢(xún)意圖(Query intents)建議了需要檢索哪類(lèi)場(chǎng)景的照片。例如一個(gè)意在檢索動(dòng)物照片的查詢(xún)需要展示以動(dòng)物為主題的照片。
語(yǔ)法分析(Syntactic analysis)幫助我們理解查詢(xún)語(yǔ)句的語(yǔ)法構造、詞類(lèi)詞性、句法關(guān)系,以及語(yǔ)義。搜索查詢(xún)通常無(wú)法識別書(shū)面語(yǔ)的語(yǔ)法,而這方面現有的解析程序效果并不好。因此我們使用了最先進(jìn)的技術(shù),對語(yǔ)言標記器(Speech tagger)中神經(jīng)網(wǎng)絡(luò )部分進(jìn)行有關(guān)搜索查詢(xún)的訓練。
實(shí)體鏈接(Entity linking)幫助我們找出有關(guān)特定概念的照片,通常會(huì )將結果以頁(yè)面的形式呈現,例如不同的地點(diǎn)或電視節目。
重寫(xiě)查詢(xún)知識以提取由查詢(xún)的語(yǔ)義詮釋提供的概念。概念不僅可以擴展查詢(xún)的含義,而且可以彌補查詢(xún)和結果之間不同詞匯造成的差異。

查詢(xún)嵌入物,這是一種用于代表查詢(xún)本身的連續向量空間。該技術(shù)可在對詞匯進(jìn)行word2vec向量呈現的基礎上通過(guò)遷移學(xué)習(Transfer learning)進(jìn)行學(xué)習,借此將類(lèi)似的查詢(xún)映射至就近點(diǎn)。
領(lǐng)域和查詢(xún)重寫(xiě)
當某人輸入查詢(xún)按下搜索鍵,會(huì )生成一個(gè)請求并發(fā)送到我們的服務(wù)器。該請求首先到達Web層,在這里會(huì )收集有關(guān)該查詢(xún)的不同上下文信息。隨后查詢(xún)以及相關(guān)上下文會(huì )被發(fā)送至一個(gè)頂級聚合器層,在這里查詢(xún)會(huì )被重寫(xiě)為一個(gè)s-表達式,隨后描述該如何從索引服務(wù)器獲取一系列文檔。
根據查詢(xún)意圖,會(huì )由一個(gè)觸發(fā)器機制使用神經(jīng)網(wǎng)絡(luò )模型決定相關(guān)聯(lián)的領(lǐng)域(Vertical),例如新聞、照片,或視頻,這是為了盡可能避免針對相關(guān)性較低的領(lǐng)域執行不必要的處理任務(wù)。舉例來(lái)說(shuō),如果某人查詢(xún)“有趣的貓咪”,那么這個(gè)意圖很明顯更希望看到照片領(lǐng)域的結果,此時(shí)我們會(huì )從搜索結果中排除掉新聞這個(gè)領(lǐng)域。
如果查詢(xún)“萬(wàn)圣節”,此時(shí)將同時(shí)觸發(fā)有關(guān)公開(kāi)照片及好友的萬(wàn)圣節變裝照片的意圖,此時(shí)將同時(shí)搜索公開(kāi)和社交圈照片兩個(gè)領(lǐng)域,進(jìn)而可同時(shí)返回搜索者的好友所分享的照片,以及評級為相關(guān)的所有公開(kāi)照片。此時(shí)需要進(jìn)行兩個(gè)獨立的請求,因為社交照片是高度個(gè)性化的,需要進(jìn)行單獨的檢索和計分。為了保護照片隱私,我們會(huì )對搜索結果應用Facebook整個(gè)系統都在使用的隱私控制機制。下圖演示了一個(gè)上端為“社交”,下端為“公開(kāi)”的模塊。
第一階段評級
當索引服務(wù)器根據s-表達式獲取到所需文檔后,會(huì )交給經(jīng)過(guò)機器學(xué)習訓練的第一階段評級器處理。隨后分數最高,Top M文檔會(huì )被發(fā)送至Rack aggregator層,借此對所獲得的全部文檔進(jìn)行一定程度的合并,隨后將Top N結果返回至頂級聚合器層。第一階段評級的主要目的是確保返回至Rack aggregator的文檔與查詢(xún)依然保持一定的相關(guān)性。例如,在查詢(xún)“狗”時(shí),包含狗的照片無(wú)疑會(huì )比不包含狗的照片獲得更高評級。為了能以毫秒級的速度提供相關(guān)照片,我們還對整個(gè)復雜的檢索和評級階段的延遲進(jìn)行了優(yōu)化。
第二階段的二次評級
評級后的文檔返回頂級聚合器后,會(huì )進(jìn)行另一輪的信號計算、去重和評級。信號描述了整個(gè)結果分布情況的計算結果,借此可發(fā)現不符的結果。隨后會(huì )使用圖片指紋對視覺(jué)方面類(lèi)似的文檔進(jìn)行去重。隨后會(huì )通過(guò)深度神經(jīng)網(wǎng)絡(luò )進(jìn)行計分和評級,借此生成最終的照片排序結果。評級之后的照片集(也叫做“模塊”)會(huì )被發(fā)送到結果頁(yè)面的UI中顯示出來(lái)。
針對照片搜索優(yōu)化相關(guān)性評級
對查詢(xún)與照片,以及照片與查詢(xún)之間的相關(guān)性進(jìn)行評估,這是照片搜索團隊所面臨最核心的問(wèn)題,并且已經(jīng)遠遠超出了基于文本的查詢(xún)重寫(xiě)和匹配技術(shù)范疇。為此我們需要進(jìn)一步全面理解查詢(xún)、照片作者、照片附帶貼文,以及照片中的可視內容。先進(jìn)的相關(guān)性模型通常需要包含頂尖的評級、自然語(yǔ)言處理,以及計算機視覺(jué)等技術(shù),借此才能提供相關(guān)性更高的搜索結果,為我們塑造一種新穎的圖片分類(lèi)系統,在大規模范圍內更快速提供相關(guān)性更高的搜索結果。
AARRR 海盜模型指標最佳實(shí)踐
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 126 次瀏覽 ? 2022-08-09 09:16
閱讀收獲:
隨著(zhù)互聯(lián)網(wǎng)滲透率增高,獲客成本日益增高,流量紅利不再已經(jīng)成為共識,盡力提升留存降低流失才是當前運營(yíng)工作的重中之重,AARRR 模型從獲客、活躍、留存、推薦、付費等環(huán)節告訴我們如何建立運營(yíng)方法論,在此我們通過(guò)最佳實(shí)踐數據指標剖析模型,幫助我們實(shí)現產(chǎn)品業(yè)務(wù)增長(cháng)。
00
概念
近年,用戶(hù)增長(cháng)是一個(gè)熱門(mén)概念,與之相關(guān)的業(yè)務(wù)體系也水漲船高,這里就包含大家經(jīng)常提到的 AARRR 模型,即海盜模型。
2007 年,500 Startups 風(fēng)險投資基金的投資者 Dave McClure,提出了“Pirate Metrics”的概念,圍繞這個(gè)理論提出 5 個(gè)維度的指標:獲取、激活、留存、推薦和收入。
因為這 5 個(gè)指標的單詞縮寫(xiě)為:AARRR,與海盜喊 “Aarrr!” 的縮寫(xiě)相似,這種方法也被稱(chēng)為“海盜度量”。
Dave McClure 的原始演示文稿“海盜啟動(dòng)指標:AARRR?。?!”中的一張幻燈片_圖片來(lái)源:
引用 Dave McClure 最初的演示文稿圖,看上去是不是很亂,我們把重要的內容抽離出來(lái),按照 5 個(gè)階段排序,得到 AARRR 海盜圖??瓷先ズ芟衤┒?,因此,也有很多人把它叫做漏斗模型。
對于產(chǎn)品經(jīng)理或產(chǎn)品運營(yíng),在實(shí)踐用戶(hù)增長(cháng)過(guò)程中,我們需要計算每次操作動(dòng)作的數據轉化:從一個(gè)階段到另一個(gè)階段的用戶(hù)數量、百分比,甚至是在單個(gè)環(huán)節里的行為數據。當一個(gè)用戶(hù),從點(diǎn)擊推廣廣告后到達到產(chǎn)品,逐步進(jìn)入產(chǎn)品漏斗并最終完成付費,這完全取決產(chǎn)品經(jīng)理在每個(gè)階段對產(chǎn)品邏輯設計。我們從用戶(hù)增長(cháng)的角度,對 AARRR 海盜指標進(jìn)行分析。
01
獲客
獲客階段,目的是通過(guò)所用可最大的成本,最大能力獲取新用戶(hù),通過(guò)吸引新用戶(hù)到達產(chǎn)品。通常在該階段,常用的方式是對新用戶(hù)免費、免費使用、贈送新用戶(hù)優(yōu)惠券、贈送新手套餐等。獲客策略實(shí)踐如果有足夠的時(shí)間和預算,可采用多種方法測試??梢栽?Excel 中創(chuàng )建一個(gè)表格,并在其中放置有關(guān)每個(gè)活動(dòng)的所有信息(活動(dòng)名稱(chēng)、目標受眾類(lèi)型、從廣告到網(wǎng)站的轉換次數、轉換量、每位客戶(hù)的成本)。通過(guò)這種方式,以決策使用哪種獲客方式效果最好。如果時(shí)間和預算有限,那么最好從最有可能成功的策略開(kāi)始。在測試期結束時(shí),可以通過(guò)衡量每位客戶(hù)的成本來(lái)理解它(要衡量每位客戶(hù)的成本,需要從某個(gè)渠道轉換到網(wǎng)站的次數,然后將其除以花費的錢(qián),即可獲客成本值)。最佳指標1. СPC - 每次點(diǎn)擊費用。2. CPL - 每個(gè)潛在客戶(hù)的成本。3. СTR - 點(diǎn)擊率。4. Leads - 潛在客戶(hù)的數量。5. 跳出率 - 打開(kāi)產(chǎn)品后立即離開(kāi)的用戶(hù)數。
02
活躍當用戶(hù)達到后,通過(guò)引導他們完成注冊,產(chǎn)品就具備了觸達用戶(hù)的方式(郵件、手機號、推送能力等),后續將用戶(hù)變?yōu)榛钴S用戶(hù)。
據有效數據表明,當新用戶(hù)進(jìn)入產(chǎn)品之后的次日活躍開(kāi)始計算,有相當一部分新用戶(hù)(80% 以上)都不會(huì )被再次激活。說(shuō)白了就是第一環(huán)節所獲取的用戶(hù),在日次只能產(chǎn)生 20% 的能量,剩余的全都浪費了。所以激活的目的就是為了提升能量,減少浪費?;钴S策略實(shí)踐個(gè)性化測試。在此基礎上創(chuàng )建原型并對其進(jìn)行測試。針對目標受眾、使用不同設計的不同方法制作用戶(hù)流程/注冊表單的幾種不同策略,關(guān)注客戶(hù)的需求和問(wèn)題。
進(jìn)行 A/B 測試以找出哪種方式最適合所選策略。
收集激活用戶(hù)群并分析他們的行為。注意他們與產(chǎn)品交互的方式。
同時(shí),分析他們不使用應用程序的哪些功能。這些觀(guān)察結果是需要改進(jìn)和更改應用程序的關(guān)鍵。最佳指標1. CPA - 每次獲取的成本:注冊、訂閱、從免費版本到付費版本的過(guò)渡。2. 參與 - 會(huì )話(huà)的持續時(shí)間和深度。3. 跳出率 - 跳出產(chǎn)品的百分比。
03
留存用戶(hù)來(lái)得快、走得也快,如果用戶(hù)在該階段流失掉,那么前面的獲客、活躍工作都會(huì )變成沉沒(méi)成本。留存策略?電子郵件通訊(例如描述您如何改進(jìn)客戶(hù)已經(jīng)使用的功能);
?推送通知;
?每周摘要;
?用戶(hù)等級(用戶(hù)在產(chǎn)品內的價(jià)值回報);
?改善用戶(hù)體驗。實(shí)踐應該了解用戶(hù)最喜歡哪些服務(wù)、哪些功能,以及為什么。將用戶(hù)支持作為降低客戶(hù)流失率的工作策略之一,傾聽(tīng)用戶(hù)的意見(jiàn)并快速做出反饋。記?。翰粩喔倪M(jìn)最流行的功能,永遠不要停止完善用戶(hù)體驗。最佳指標1. 會(huì )話(huà)持續時(shí)間 - 用戶(hù)在一次訪(fǎng)問(wèn)期間與產(chǎn)品交互的時(shí)間。2. 客戶(hù)退貨率 - 在一定時(shí)期內有多少用戶(hù)重復使用該產(chǎn)品。3. 客戶(hù)流失 - 有多少用戶(hù)在一段時(shí)間內(例如一個(gè)月)停止使用該產(chǎn)品。
04
推薦獲得客戶(hù),然后他們激活并繼續使用應用程序并且他們非常喜歡它,他們開(kāi)始通過(guò)口耳相傳或通過(guò)一些推薦系統或任何方式告訴其他人,他們邀請他們的朋友或團隊成員使用產(chǎn)品,這是推薦指標階段。這里的目標是鼓勵用戶(hù)推薦產(chǎn)品。盡一切努力使分享過(guò)程變得快速而輕松(降低推薦門(mén)檻)。推薦策略?發(fā)送有關(guān)您推薦計劃的電子郵件提醒;
?提供推薦獎勵(現金返還、折扣等);
?提供雙向獎勵(例如,如果有人使用共享鏈接注冊,例如:Airbnb 會(huì )提供積分)。最佳指標?CSI - 客戶(hù)滿(mǎn)意度指數(通過(guò)測試衡量)。
05
付費付費,是評價(jià)是否成功完成上述所有階段的指標。只有那些完全了解你的產(chǎn)品能給他們帶來(lái)什么價(jià)值的用戶(hù)才會(huì )進(jìn)入收益階段。此階段的主要目標是從用戶(hù)那里獲得第一筆資金。付費策略?在開(kāi)始免費試用之前為用戶(hù)添加連接支付卡的步驟;
?配置推送通知,通知用戶(hù)免費版本的限制并提供切換到付費版本;
?考慮向上銷(xiāo)售和交叉銷(xiāo)售。最佳指標1. ACV - 平均合約價(jià)值;2. LTV - 終身價(jià)值,在與用戶(hù)合作的整個(gè)時(shí)間內從他們那里獲利;3. 一定時(shí)期內的收益總額。
06
總結AARRR 指標僅是運營(yíng)用戶(hù)、經(jīng)營(yíng)用戶(hù)的一種方法,可以幫助我們觀(guān)察到用戶(hù)的產(chǎn)品旅程,并檢查用戶(hù)在每個(gè)階段使用產(chǎn)品時(shí)的問(wèn)題而不斷改進(jìn),我們除了要關(guān)注數據指標的表現,也需要認識到,要長(cháng)期跟蹤這些指標,才能更有效地衡量產(chǎn)品的表現。
附錄:
搬運了 知乎風(fēng)狂大佬 的 “PowerBI 可視化案例 - AARRR數據分析模型” 案例,通過(guò)各個(gè)階段的數據分析更好的體會(huì ) AARRR 模型的指標。
參考資料:
AARRR 模型 - 百度百科 %E6%A8%A1%E5%9E%8B/50968334 AARRR SaaS Metrics: Actionable Decisions for Rapid Growth AARRR! Pirate Metrics For Startups 歡迎加入ThinkerD社群,超過(guò)400+熱愛(ài)產(chǎn)品、熱愛(ài)設計的小伙伴們,參與討論互相學(xué)習一起進(jìn)步。(公號內回復消息:【社群】)歡迎關(guān)注支持ThinkerD本公眾帳號,點(diǎn)贊、轉發(fā)、再看以幫助更多的朋友們。 查看全部
AARRR 海盜模型指標最佳實(shí)踐
閱讀收獲:
隨著(zhù)互聯(lián)網(wǎng)滲透率增高,獲客成本日益增高,流量紅利不再已經(jīng)成為共識,盡力提升留存降低流失才是當前運營(yíng)工作的重中之重,AARRR 模型從獲客、活躍、留存、推薦、付費等環(huán)節告訴我們如何建立運營(yíng)方法論,在此我們通過(guò)最佳實(shí)踐數據指標剖析模型,幫助我們實(shí)現產(chǎn)品業(yè)務(wù)增長(cháng)。
00
概念
近年,用戶(hù)增長(cháng)是一個(gè)熱門(mén)概念,與之相關(guān)的業(yè)務(wù)體系也水漲船高,這里就包含大家經(jīng)常提到的 AARRR 模型,即海盜模型。
2007 年,500 Startups 風(fēng)險投資基金的投資者 Dave McClure,提出了“Pirate Metrics”的概念,圍繞這個(gè)理論提出 5 個(gè)維度的指標:獲取、激活、留存、推薦和收入。
因為這 5 個(gè)指標的單詞縮寫(xiě)為:AARRR,與海盜喊 “Aarrr!” 的縮寫(xiě)相似,這種方法也被稱(chēng)為“海盜度量”。
Dave McClure 的原始演示文稿“海盜啟動(dòng)指標:AARRR?。?!”中的一張幻燈片_圖片來(lái)源:
引用 Dave McClure 最初的演示文稿圖,看上去是不是很亂,我們把重要的內容抽離出來(lái),按照 5 個(gè)階段排序,得到 AARRR 海盜圖??瓷先ズ芟衤┒?,因此,也有很多人把它叫做漏斗模型。
對于產(chǎn)品經(jīng)理或產(chǎn)品運營(yíng),在實(shí)踐用戶(hù)增長(cháng)過(guò)程中,我們需要計算每次操作動(dòng)作的數據轉化:從一個(gè)階段到另一個(gè)階段的用戶(hù)數量、百分比,甚至是在單個(gè)環(huán)節里的行為數據。當一個(gè)用戶(hù),從點(diǎn)擊推廣廣告后到達到產(chǎn)品,逐步進(jìn)入產(chǎn)品漏斗并最終完成付費,這完全取決產(chǎn)品經(jīng)理在每個(gè)階段對產(chǎn)品邏輯設計。我們從用戶(hù)增長(cháng)的角度,對 AARRR 海盜指標進(jìn)行分析。
01
獲客

獲客階段,目的是通過(guò)所用可最大的成本,最大能力獲取新用戶(hù),通過(guò)吸引新用戶(hù)到達產(chǎn)品。通常在該階段,常用的方式是對新用戶(hù)免費、免費使用、贈送新用戶(hù)優(yōu)惠券、贈送新手套餐等。獲客策略實(shí)踐如果有足夠的時(shí)間和預算,可采用多種方法測試??梢栽?Excel 中創(chuàng )建一個(gè)表格,并在其中放置有關(guān)每個(gè)活動(dòng)的所有信息(活動(dòng)名稱(chēng)、目標受眾類(lèi)型、從廣告到網(wǎng)站的轉換次數、轉換量、每位客戶(hù)的成本)。通過(guò)這種方式,以決策使用哪種獲客方式效果最好。如果時(shí)間和預算有限,那么最好從最有可能成功的策略開(kāi)始。在測試期結束時(shí),可以通過(guò)衡量每位客戶(hù)的成本來(lái)理解它(要衡量每位客戶(hù)的成本,需要從某個(gè)渠道轉換到網(wǎng)站的次數,然后將其除以花費的錢(qián),即可獲客成本值)。最佳指標1. СPC - 每次點(diǎn)擊費用。2. CPL - 每個(gè)潛在客戶(hù)的成本。3. СTR - 點(diǎn)擊率。4. Leads - 潛在客戶(hù)的數量。5. 跳出率 - 打開(kāi)產(chǎn)品后立即離開(kāi)的用戶(hù)數。
02
活躍當用戶(hù)達到后,通過(guò)引導他們完成注冊,產(chǎn)品就具備了觸達用戶(hù)的方式(郵件、手機號、推送能力等),后續將用戶(hù)變?yōu)榛钴S用戶(hù)。
據有效數據表明,當新用戶(hù)進(jìn)入產(chǎn)品之后的次日活躍開(kāi)始計算,有相當一部分新用戶(hù)(80% 以上)都不會(huì )被再次激活。說(shuō)白了就是第一環(huán)節所獲取的用戶(hù),在日次只能產(chǎn)生 20% 的能量,剩余的全都浪費了。所以激活的目的就是為了提升能量,減少浪費?;钴S策略實(shí)踐個(gè)性化測試。在此基礎上創(chuàng )建原型并對其進(jìn)行測試。針對目標受眾、使用不同設計的不同方法制作用戶(hù)流程/注冊表單的幾種不同策略,關(guān)注客戶(hù)的需求和問(wèn)題。
進(jìn)行 A/B 測試以找出哪種方式最適合所選策略。
收集激活用戶(hù)群并分析他們的行為。注意他們與產(chǎn)品交互的方式。
同時(shí),分析他們不使用應用程序的哪些功能。這些觀(guān)察結果是需要改進(jìn)和更改應用程序的關(guān)鍵。最佳指標1. CPA - 每次獲取的成本:注冊、訂閱、從免費版本到付費版本的過(guò)渡。2. 參與 - 會(huì )話(huà)的持續時(shí)間和深度。3. 跳出率 - 跳出產(chǎn)品的百分比。
03
留存用戶(hù)來(lái)得快、走得也快,如果用戶(hù)在該階段流失掉,那么前面的獲客、活躍工作都會(huì )變成沉沒(méi)成本。留存策略?電子郵件通訊(例如描述您如何改進(jìn)客戶(hù)已經(jīng)使用的功能);
?推送通知;
?每周摘要;
?用戶(hù)等級(用戶(hù)在產(chǎn)品內的價(jià)值回報);
?改善用戶(hù)體驗。實(shí)踐應該了解用戶(hù)最喜歡哪些服務(wù)、哪些功能,以及為什么。將用戶(hù)支持作為降低客戶(hù)流失率的工作策略之一,傾聽(tīng)用戶(hù)的意見(jiàn)并快速做出反饋。記?。翰粩喔倪M(jìn)最流行的功能,永遠不要停止完善用戶(hù)體驗。最佳指標1. 會(huì )話(huà)持續時(shí)間 - 用戶(hù)在一次訪(fǎng)問(wèn)期間與產(chǎn)品交互的時(shí)間。2. 客戶(hù)退貨率 - 在一定時(shí)期內有多少用戶(hù)重復使用該產(chǎn)品。3. 客戶(hù)流失 - 有多少用戶(hù)在一段時(shí)間內(例如一個(gè)月)停止使用該產(chǎn)品。
04
推薦獲得客戶(hù),然后他們激活并繼續使用應用程序并且他們非常喜歡它,他們開(kāi)始通過(guò)口耳相傳或通過(guò)一些推薦系統或任何方式告訴其他人,他們邀請他們的朋友或團隊成員使用產(chǎn)品,這是推薦指標階段。這里的目標是鼓勵用戶(hù)推薦產(chǎn)品。盡一切努力使分享過(guò)程變得快速而輕松(降低推薦門(mén)檻)。推薦策略?發(fā)送有關(guān)您推薦計劃的電子郵件提醒;

?提供推薦獎勵(現金返還、折扣等);
?提供雙向獎勵(例如,如果有人使用共享鏈接注冊,例如:Airbnb 會(huì )提供積分)。最佳指標?CSI - 客戶(hù)滿(mǎn)意度指數(通過(guò)測試衡量)。
05
付費付費,是評價(jià)是否成功完成上述所有階段的指標。只有那些完全了解你的產(chǎn)品能給他們帶來(lái)什么價(jià)值的用戶(hù)才會(huì )進(jìn)入收益階段。此階段的主要目標是從用戶(hù)那里獲得第一筆資金。付費策略?在開(kāi)始免費試用之前為用戶(hù)添加連接支付卡的步驟;
?配置推送通知,通知用戶(hù)免費版本的限制并提供切換到付費版本;
?考慮向上銷(xiāo)售和交叉銷(xiāo)售。最佳指標1. ACV - 平均合約價(jià)值;2. LTV - 終身價(jià)值,在與用戶(hù)合作的整個(gè)時(shí)間內從他們那里獲利;3. 一定時(shí)期內的收益總額。
06
總結AARRR 指標僅是運營(yíng)用戶(hù)、經(jīng)營(yíng)用戶(hù)的一種方法,可以幫助我們觀(guān)察到用戶(hù)的產(chǎn)品旅程,并檢查用戶(hù)在每個(gè)階段使用產(chǎn)品時(shí)的問(wèn)題而不斷改進(jìn),我們除了要關(guān)注數據指標的表現,也需要認識到,要長(cháng)期跟蹤這些指標,才能更有效地衡量產(chǎn)品的表現。
附錄:
搬運了 知乎風(fēng)狂大佬 的 “PowerBI 可視化案例 - AARRR數據分析模型” 案例,通過(guò)各個(gè)階段的數據分析更好的體會(huì ) AARRR 模型的指標。
參考資料:
AARRR 模型 - 百度百科 %E6%A8%A1%E5%9E%8B/50968334 AARRR SaaS Metrics: Actionable Decisions for Rapid Growth AARRR! Pirate Metrics For Startups 歡迎加入ThinkerD社群,超過(guò)400+熱愛(ài)產(chǎn)品、熱愛(ài)設計的小伙伴們,參與討論互相學(xué)習一起進(jìn)步。(公號內回復消息:【社群】)歡迎關(guān)注支持ThinkerD本公眾帳號,點(diǎn)贊、轉發(fā)、再看以幫助更多的朋友們。
【大咖分享】SEO站內優(yōu)化八大要素
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 121 次瀏覽 ? 2022-07-31 11:19
如果有人問(wèn)你百度自然優(yōu)化的精髓是什么?希望答案不再是“狂發(fā)外鏈”了。如今百度不再是5年前的百度,大量的算法更新對搜索引擎優(yōu)化者的思維和手法有了更高的要求。然而百度更喜歡系統化用戶(hù)體驗偏向性的優(yōu)化,站內優(yōu)化部分也不僅僅是靠關(guān)鍵詞和TITLE走天下的時(shí)代了。我總結了8個(gè)核心要素和思維走向,希望對SEO新手及要轉變思維的SEO人有所幫助。
一,登陸頁(yè)內容為解決問(wèn)題而不只是描述問(wèn)題
舉個(gè)例子,有人搜“結婚穿什么衣服”時(shí),最好的頁(yè)面內容要有幾個(gè)方面的引向:【20個(gè)讓男賓客帥爆的婚禮搭配推薦】以及【精選搭配的購買(mǎi)信息】。因為這個(gè)搜索詞背后的用戶(hù)猜到他將要參加一場(chǎng)婚禮,所以終極要解決他的問(wèn)題是哪里能買(mǎi)到衣服,而不是讓他學(xué)習怎么搭配衣服。因此,優(yōu)化這個(gè)關(guān)鍵詞時(shí),我們的內容應該要解決他的最終需求,這樣的引流和轉化的效果才會(huì )更好。
二,重要事情說(shuō)三遍“加載速度、速度、速度”
信息碎片時(shí)代沒(méi)人愿意給你機會(huì )去等待,所以網(wǎng)站打開(kāi)加載速度比任何優(yōu)化點(diǎn)更加重要。打開(kāi)時(shí)間越短,用戶(hù)滿(mǎn)意度越高。對于搜索引擎是一樣的道理。所以?xún)?yōu)化一上來(lái)先考慮提速有哪些點(diǎn)可以做,如CDN,無(wú)用代碼移除,服務(wù)器寬帶升級,緩存,頁(yè)面瘦身,純靜態(tài)頁(yè)面等優(yōu)化動(dòng)作。
三,為信賴(lài)感,參與感去提升UI,UX及品牌
很多用戶(hù)打開(kāi)網(wǎng)站后會(huì )產(chǎn)生一個(gè)第一印象,好山寨,好土鱉,好不專(zhuān)業(yè)不是我們想要的結果。頁(yè)面設計需要有UI & UX的投入以及品牌自有的口碑來(lái)背書(shū),否則用戶(hù)較難產(chǎn)生對網(wǎng)站的信賴(lài)感及參與度。最實(shí)際落地的做法就是參考行業(yè)里較好的站點(diǎn)進(jìn)行模仿、購買(mǎi)付費版本的網(wǎng)站模板或讓用戶(hù)參與到每個(gè)設計環(huán)節里。
四,避免驅使用戶(hù)離開(kāi)頁(yè)面的各類(lèi)元素
很多一些彈窗、固定飄窗、廣告位會(huì )讓用戶(hù)反感,從而放棄整個(gè)瀏覽進(jìn)程。這是優(yōu)化過(guò)程中要去避免和移除的部分,考慮更加原生的方式植入這些元素或是獎勵用戶(hù)完成進(jìn)程。同時(shí),在代碼使用上避免蜘蛛被禁抓或是被難抓的可能性從而被搜索引擎降權。
五,關(guān)鍵詞植入
常規的關(guān)鍵詞植入(爆老師稱(chēng)其為填詞)也要繼續做,比如Title,H1,文章內關(guān)鍵詞,外鏈錨文字,內鏈錨文字,圖片ALT,URL,圖片命名等。這個(gè)不做多贅述,大家都明白的。
六,主題模型的灌入
光有#5填詞是不夠的,因為那個(gè)太機械化會(huì )喪失文本用戶(hù)體驗。所以我們要做主題模型,比如關(guān)鍵詞【婚禮服裝搭配】我們可以擴展到燕尾服、結婚禮服、婚禮馬甲、婚禮套裝、婚博會(huì )等等一些相關(guān)詞上。形成一個(gè)大主題,這樣的頁(yè)面內容會(huì )讓關(guān)鍵詞排名更全面而且對更多用戶(hù)有幫助。同時(shí),搜索引擎可以解讀到你要推的主題內容是婚禮服裝相關(guān)的內容。
七,展現文字的深度優(yōu)化
排名所展示出來(lái)的信息對點(diǎn)擊率很重要,所以我們竟可能要去影響這些展示信息(主要是title,desc,url)。這些元素需要在內容上進(jìn)行優(yōu)化:title的創(chuàng )意、desc的飄紅、url的規范、文章日期、使用結構數據、在線(xiàn)對話(huà)等。下面的效果如何?
八,獨有價(jià)值內容的創(chuàng )造
說(shuō)到底,營(yíng)銷(xiāo)是逃不出內容質(zhì)量的。好內容包含:1)提供唯一性特別強的視覺(jué)體驗,前端界面,適宜的字體與功能按鈕 2)內容必須有用高價(jià)值,高可信度,很有趣,值得收藏的點(diǎn)在里面 3)與其他內容相比沒(méi)有重復性,在深度上更加強勁 4)打開(kāi)速度快(無(wú)廣告),并且可以在不同終端閱讀 5)能產(chǎn)生情緒化的思緒如贊許,驚訝,快樂(lè ),思考等 6)可以達到一定的轉發(fā)和傳播力量 7)能用完整,準確獨有的信息解決問(wèn)題或是回答問(wèn)題
點(diǎn)擊進(jìn)行領(lǐng)取↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
SEO教程大放送+V:rdseo999,想學(xué)習SEO技術(shù)的同學(xué)不要錯過(guò)!
贈送教程:1、百度算法篇:42節SEO快速快排教程一套!2、網(wǎng)站運營(yíng)篇:32節教你運營(yíng)好一個(gè)網(wǎng)站!3、SEO實(shí)戰篇:9節百度SEO進(jìn)階教程! 查看全部
【大咖分享】SEO站內優(yōu)化八大要素
如果有人問(wèn)你百度自然優(yōu)化的精髓是什么?希望答案不再是“狂發(fā)外鏈”了。如今百度不再是5年前的百度,大量的算法更新對搜索引擎優(yōu)化者的思維和手法有了更高的要求。然而百度更喜歡系統化用戶(hù)體驗偏向性的優(yōu)化,站內優(yōu)化部分也不僅僅是靠關(guān)鍵詞和TITLE走天下的時(shí)代了。我總結了8個(gè)核心要素和思維走向,希望對SEO新手及要轉變思維的SEO人有所幫助。
一,登陸頁(yè)內容為解決問(wèn)題而不只是描述問(wèn)題
舉個(gè)例子,有人搜“結婚穿什么衣服”時(shí),最好的頁(yè)面內容要有幾個(gè)方面的引向:【20個(gè)讓男賓客帥爆的婚禮搭配推薦】以及【精選搭配的購買(mǎi)信息】。因為這個(gè)搜索詞背后的用戶(hù)猜到他將要參加一場(chǎng)婚禮,所以終極要解決他的問(wèn)題是哪里能買(mǎi)到衣服,而不是讓他學(xué)習怎么搭配衣服。因此,優(yōu)化這個(gè)關(guān)鍵詞時(shí),我們的內容應該要解決他的最終需求,這樣的引流和轉化的效果才會(huì )更好。
二,重要事情說(shuō)三遍“加載速度、速度、速度”
信息碎片時(shí)代沒(méi)人愿意給你機會(huì )去等待,所以網(wǎng)站打開(kāi)加載速度比任何優(yōu)化點(diǎn)更加重要。打開(kāi)時(shí)間越短,用戶(hù)滿(mǎn)意度越高。對于搜索引擎是一樣的道理。所以?xún)?yōu)化一上來(lái)先考慮提速有哪些點(diǎn)可以做,如CDN,無(wú)用代碼移除,服務(wù)器寬帶升級,緩存,頁(yè)面瘦身,純靜態(tài)頁(yè)面等優(yōu)化動(dòng)作。
三,為信賴(lài)感,參與感去提升UI,UX及品牌

很多用戶(hù)打開(kāi)網(wǎng)站后會(huì )產(chǎn)生一個(gè)第一印象,好山寨,好土鱉,好不專(zhuān)業(yè)不是我們想要的結果。頁(yè)面設計需要有UI & UX的投入以及品牌自有的口碑來(lái)背書(shū),否則用戶(hù)較難產(chǎn)生對網(wǎng)站的信賴(lài)感及參與度。最實(shí)際落地的做法就是參考行業(yè)里較好的站點(diǎn)進(jìn)行模仿、購買(mǎi)付費版本的網(wǎng)站模板或讓用戶(hù)參與到每個(gè)設計環(huán)節里。
四,避免驅使用戶(hù)離開(kāi)頁(yè)面的各類(lèi)元素
很多一些彈窗、固定飄窗、廣告位會(huì )讓用戶(hù)反感,從而放棄整個(gè)瀏覽進(jìn)程。這是優(yōu)化過(guò)程中要去避免和移除的部分,考慮更加原生的方式植入這些元素或是獎勵用戶(hù)完成進(jìn)程。同時(shí),在代碼使用上避免蜘蛛被禁抓或是被難抓的可能性從而被搜索引擎降權。
五,關(guān)鍵詞植入
常規的關(guān)鍵詞植入(爆老師稱(chēng)其為填詞)也要繼續做,比如Title,H1,文章內關(guān)鍵詞,外鏈錨文字,內鏈錨文字,圖片ALT,URL,圖片命名等。這個(gè)不做多贅述,大家都明白的。
六,主題模型的灌入
光有#5填詞是不夠的,因為那個(gè)太機械化會(huì )喪失文本用戶(hù)體驗。所以我們要做主題模型,比如關(guān)鍵詞【婚禮服裝搭配】我們可以擴展到燕尾服、結婚禮服、婚禮馬甲、婚禮套裝、婚博會(huì )等等一些相關(guān)詞上。形成一個(gè)大主題,這樣的頁(yè)面內容會(huì )讓關(guān)鍵詞排名更全面而且對更多用戶(hù)有幫助。同時(shí),搜索引擎可以解讀到你要推的主題內容是婚禮服裝相關(guān)的內容。

七,展現文字的深度優(yōu)化
排名所展示出來(lái)的信息對點(diǎn)擊率很重要,所以我們竟可能要去影響這些展示信息(主要是title,desc,url)。這些元素需要在內容上進(jìn)行優(yōu)化:title的創(chuàng )意、desc的飄紅、url的規范、文章日期、使用結構數據、在線(xiàn)對話(huà)等。下面的效果如何?
八,獨有價(jià)值內容的創(chuàng )造
說(shuō)到底,營(yíng)銷(xiāo)是逃不出內容質(zhì)量的。好內容包含:1)提供唯一性特別強的視覺(jué)體驗,前端界面,適宜的字體與功能按鈕 2)內容必須有用高價(jià)值,高可信度,很有趣,值得收藏的點(diǎn)在里面 3)與其他內容相比沒(méi)有重復性,在深度上更加強勁 4)打開(kāi)速度快(無(wú)廣告),并且可以在不同終端閱讀 5)能產(chǎn)生情緒化的思緒如贊許,驚訝,快樂(lè ),思考等 6)可以達到一定的轉發(fā)和傳播力量 7)能用完整,準確獨有的信息解決問(wèn)題或是回答問(wèn)題
點(diǎn)擊進(jìn)行領(lǐng)取↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
SEO教程大放送+V:rdseo999,想學(xué)習SEO技術(shù)的同學(xué)不要錯過(guò)!
贈送教程:1、百度算法篇:42節SEO快速快排教程一套!2、網(wǎng)站運營(yíng)篇:32節教你運營(yíng)好一個(gè)網(wǎng)站!3、SEO實(shí)戰篇:9節百度SEO進(jìn)階教程!
用好搜索,能幫你解決人生80%的問(wèn)題
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 100 次瀏覽 ? 2022-07-28 23:00
「給你一把鑰匙」編輯整理
我是莉莉盒,今天的分享,源自一位小伙伴某天在群里求助「搜索方法」,我想這方面,我有經(jīng)驗可以和你聊聊。
著(zhù)名商業(yè)顧問(wèn)劉潤,他經(jīng)常在朋友圈曬自己的讀書(shū)感悟,有人就會(huì )問(wèn):潤總,這本書(shū)在哪能買(mǎi)到呢?他說(shuō),當時(shí)的內心想法就是,你去當當網(wǎng)看看啊,這還需要問(wèn)么。他當即就把這個(gè)朋友拉黑了。
他覺(jué)得,連這樣的問(wèn)題都不自己解決的人,不適合再做他的朋友。他說(shuō):“人生80%的問(wèn)題,早就被人回答過(guò),你只要搜索就好。剩下的20%,你才需要研究?!?br /> 去年,我聽(tīng)到這么一段話(huà),來(lái)自李笑來(lái)的得到專(zhuān)欄,他說(shuō):學(xué)習能力分3個(gè)階段:
會(huì )通過(guò)搜索解決問(wèn)題,把自己的學(xué)習能力不斷提升,就像是拿到了一個(gè)人生作弊器,可以突破自己的時(shí)間、地點(diǎn)局限,看到更大的世界。這是我之所以要和大家聊搜索的根本原因。
我眼里的搜索是什么?
在閱讀訓練營(yíng)的第1天,我就確認了我的目標是轉專(zhuān)業(yè)讀博,之后按照李翔老師的指導路徑,我先去搜索了what,也就是「轉專(zhuān)業(yè)讀博」意味著(zhù)什么。
當我把這個(gè)想法和周邊幾個(gè)朋友聊起的時(shí)候,大家都覺(jué)得可以,但沒(méi)辦法給出建議,這讓我感到無(wú)助。而當我把這個(gè)問(wèn)題拋給youtube和google的時(shí)候,我找到了這個(gè):74歲的最老博士,比導師大7歲,畢業(yè)論文初稿近40萬(wàn)字。
我還找到了這些,一個(gè)網(wǎng)友說(shuō):“這事兒稀奇么?我們公共管理學(xué)院滿(mǎn)地都是這樣的博士?!边€獲得了一些非常重要的洞見(jiàn),搜索得到的這些素材,幫助我:獲得了轉專(zhuān)業(yè)的感性認識、建立了自信心、了解了準備的重點(diǎn)。
在我看來(lái),「搜索」是為實(shí)現目標,尋找有用線(xiàn)索的過(guò)程。通過(guò)搜索,我對「轉專(zhuān)業(yè)讀博」這件事情的認知逐漸清晰。
它是一種破案式的思維方式,遇到問(wèn)題不能像學(xué)生時(shí)代考試一樣,坐著(zhù)硬憋;周邊朋友很多時(shí)候也有局限性,無(wú)法打開(kāi)你的思路;你更不能怕麻煩,需要一點(diǎn)點(diǎn)像破案一樣,找到心中的答案。掌握了這個(gè)工具,你就可以從社群里的「伸手黨」,變成「自己來(lái)」。
通過(guò)搜索解決問(wèn)題的整個(gè)過(guò)程,我畫(huà)了一個(gè)小模型,從發(fā)問(wèn)到獲得答案,主要有這么幾個(gè)步驟:
選擇搜索引擎→提取搜索詞→構造表達式→進(jìn)行搜索→篩選檢索結果→調整搜索策略→反思總結。
怎樣才能找到你要的答案?
每次開(kāi)始搜索,都要想一遍我搜這個(gè)的目標是什么。
方法其實(shí)很簡(jiǎn)單,就是:關(guān)鍵詞搜索法。
不要把自己的口語(yǔ)整一大段放進(jìn)搜索框里,你需要盡量的提取出關(guān)鍵詞來(lái)。當然,有時(shí)候問(wèn)題不長(cháng)的話(huà),整句話(huà)放進(jìn)去也是可以的。這就是第一步「模糊搜索」。
然后在搜索結果里進(jìn)行篩選比對,找到關(guān)鍵的搜索詞并搜索這些詞。
如果范圍還是很大,無(wú)法獲得精確的答案,那就需要第三步,用符號構造搜索表達式,進(jìn)行精準搜索。
下面用案例來(lái)說(shuō)明一下這個(gè)極簡(jiǎn)的流程:
假如,你想知道:我快要和社會(huì )脫節了,要怎么辦?
這是一個(gè)很宏觀(guān)的問(wèn)題,如果你可以回憶哪件事讓你產(chǎn)生這個(gè)看法,就可以從事件和感受中,分析這個(gè)問(wèn)題,提取關(guān)鍵詞。
如果你不愿意想那么多,分析那么多,也可以直接把這句話(huà)拋給搜索引擎。打開(kāi)百度,把「我快要和社會(huì )脫節了,要怎么辦?」輸入搜索框。
這個(gè)時(shí)候,你先不用挨個(gè)打開(kāi)具體的網(wǎng)頁(yè),而是大體上瀏覽一下前2-3頁(yè),從網(wǎng)頁(yè)的題目和摘要中,你就可以把這個(gè)宏大的問(wèn)題,提取出不同的幾個(gè)詞匯,根據自己的需要把搜索范圍縮小。
如果你會(huì )使用Google,那搜索引擎的選擇,第一位一定是選擇谷歌。
你注意到?jīng)],剛才在細化的過(guò)程中使用了一個(gè)搜索語(yǔ)法,就是“site:”,這個(gè)可以把搜索局限在某個(gè)特定的網(wǎng)站內,會(huì )更加精準。
還有其他幾個(gè)常用的搜索語(yǔ)法,比如“加號”、“減號”、“引號”,如果你搜索的是文檔,還可以增加文檔的后綴名進(jìn)行搜索。我經(jīng)常加PDF進(jìn)行搜索,這一搜來(lái)的結果相對質(zhì)量會(huì )高一些,因為任何話(huà)題能講成一篇大文章就比零碎的點(diǎn)來(lái)的系統。
下面是幾個(gè)使用搜索語(yǔ)法的示意圖。
為了準備今天的分享,我特意咨詢(xún)了一個(gè)做SEO的朋友,就是給網(wǎng)站內容做搜索詞優(yōu)化,換句話(huà)說(shuō)告訴生產(chǎn)內容的網(wǎng)站,怎么樣更容易被搜索引擎收錄。他從另外一個(gè)視角告訴我,用戶(hù)在搜索引擎的搜索意圖主要被分為三種,導航類(lèi)、信息類(lèi)和資源類(lèi)。導航類(lèi)就是要找到某個(gè)網(wǎng)站的網(wǎng)址,你直接輸入搜索框就可以了,相對比較簡(jiǎn)單。咱們今天說(shuō)的解決問(wèn)題,還主要是信息和資源。你想通過(guò)搜索,找到自己要的信息和資源。
用閱讀訓練營(yíng)的一個(gè)例子:
你聽(tīng)到某本書(shū),講述如何幫孩子訂正作業(yè)、提高分數。但你已經(jīng)不記得具體名字。
這時(shí),你就可以把自己記得的關(guān)鍵詞輸入,從結果頁(yè)面中找到《翻轉課堂的可汗學(xué)院》,不需要墊入具體頁(yè)面。這時(shí),你想看看這本書(shū)的書(shū)評,大體了解一下說(shuō)的是什么。
你可以直接進(jìn)入豆瓣,也可以在搜索引擎,用site語(yǔ)法搜索豆瓣,就可以看到其他人的評分和書(shū)評。
然后你可以進(jìn)入亞馬遜,購買(mǎi)電子版。
如果沒(méi)有kindle軟件的話(huà),同時(shí)下載一個(gè)免費的軟件。
這樣,你就可以閱讀了。
上面的一部分內容,我都沒(méi)有涉及一個(gè)選擇,就是搜索引擎。
你一般在哪搜索呢?
和大家分享一下,除了百度、谷歌,讀書(shū)和寫(xiě)作過(guò)程中,我經(jīng)常用的幾個(gè)搜索渠道。
比如:北宸老師發(fā)了一個(gè)王東岳老師的文章,感覺(jué)很好,你還想了解更多王東岳老師的思想,你可以通過(guò)「搜一搜」,用手機很快的看到他的一系列文章以及視頻,迅速對他這個(gè)人產(chǎn)生一些感性的認識。這對你是否會(huì )繼續深入的了解他的思想,可以起到快速的判斷作用。
比如:你寫(xiě)一篇搜索的文章,或者之前我寫(xiě)過(guò)一篇「反饋」的文章:(點(diǎn)擊藍字,可以閱讀),我都是在得到app里,先搜一下得到的老師們,關(guān)于這個(gè)話(huà)題都闡述過(guò)哪些角度,是否有重要的洞見(jiàn),可以借鑒。今天「搜索即認知」就是從這里獲得的靈感。幫你找到觀(guān)點(diǎn),甚至于案例方向,都很有幫助。你也可以從這里,找到一些相關(guān)的書(shū)籍。
我已經(jīng)在印象筆記收集上千條筆記,有些話(huà)題,在印象筆記里一搜,可以看到過(guò)去對這個(gè)話(huà)題積攢的東西。這個(gè)堪比是個(gè)人百度。
我在搜索中走過(guò)的坑
第一個(gè)坑,網(wǎng)絡(luò )信息浩瀚無(wú)垠,搜索一個(gè)話(huà)題,又看到另外一個(gè)有趣的信息。就會(huì )一級一級點(diǎn)擊下去。本來(lái)要給文章找素材,結果看到有趣的課程宣傳文案,看到被安利的一次旅行,就跑去買(mǎi)買(mǎi)買(mǎi)了。被信息帶跑這種事,你出現過(guò)么?
第二個(gè)坑,從不搜索變成搜索,從只看一頁(yè)搜索結果,變成看10,甚至幾十頁(yè),都覺(jué)得是不是還有哪些材料和角度沒(méi)收集到,恨不得把全網(wǎng)扒到底,而成為無(wú)限制收集狂。這時(shí)候,你需要回歸搜索目標,注意節制。
第三個(gè)坑,一說(shuō)到搜索,就會(huì )想到一堆搜索技巧和特殊的網(wǎng)站資源,總覺(jué)得高效搜索就是掌握了這些獨門(mén)資源。其實(shí),除了技巧和資源,更多的是一種思維方式的養成。
再次回到閱讀訓練營(yíng)這幾天翔哥一再和我們強調的GROW模型,問(wèn)問(wèn)自己我的搜索目標是什么,讓每一次搜索盡量在一定時(shí)間內完成預期的結果。
來(lái)個(gè)小結
一種思維方式。搜索就像是破案,需要你根據自己模模糊糊的關(guān)鍵詞,逐漸清晰,獲得自己的答案。不要怕麻煩。
兩種搜索技巧。site命令和加文檔后綴,比如PDF,可以幫助我們讓搜索更加精準。
三個(gè)搜索渠道。根據不同的搜索目的,除了百度和googol這種通用型搜索,我還常用微信、得到和印象筆記。
三個(gè)大坑:
這幾個(gè)地方幫你找到想要的書(shū)
對于愛(ài)看書(shū)的你,這幾個(gè)地方可以幫助你找到自己想要的書(shū)。
這幾個(gè)地方,搜索最好是亞馬遜。
你可以把自己希望了解的領(lǐng)域輸進(jìn)去,找到相應的書(shū)單。也可以根據前期閱讀,篩選出自己喜歡的作者,把他的書(shū)都拿來(lái)看。
下面這個(gè)網(wǎng)站,可以幫助你找到想要的電子書(shū)。我自己常用的是第5和第6.
有時(shí)候,google 可以解決一切。
上面所有的分享,都是搜索的初階,你如果想要獲得更好的信息來(lái)源。
第一步,請把你的問(wèn)題轉為英語(yǔ),輸入谷歌。
第二步,積攢自己關(guān)注主題的關(guān)鍵詞,多數就是術(shù)語(yǔ)表,找到行業(yè)里的意見(jiàn)領(lǐng)袖,關(guān)注他們關(guān)注的資源。
第三步,進(jìn)行大量的主題閱讀,積攢自己對于關(guān)注領(lǐng)域系統性的知識。讓搜索做你的輔助,而不是信息的所有來(lái)源。
曾經(jīng)在一次群聊的時(shí)候,提到對學(xué)習某些東西會(huì )有抵觸心理時(shí),李翔老師說(shuō),那你要問(wèn)問(wèn)自己“你在逃避什么?你在拒絕什么?”
這句話(huà),也送給你。
▍今日互動(dòng)
#一轉眼又到周五了,這個(gè)周末你打算怎么過(guò)?#
老編輯先來(lái):
周末我只做一件事:將一把鑰匙·李翔21天月閱讀訓練營(yíng)的作業(yè)補完
。
?。ㄒ话谚€匙·李翔21天閱讀訓練營(yíng)開(kāi)啟3人拼團模式,團購成功立減100元,1月19日24點(diǎn)截止~一般人我不告訴他,點(diǎn)擊文末閱讀原文即刻開(kāi)始拼團。)
成長(cháng)干貨推薦
▼點(diǎn)擊圖片即可閱讀 查看全部
用好搜索,能幫你解決人生80%的問(wèn)題
「給你一把鑰匙」編輯整理
我是莉莉盒,今天的分享,源自一位小伙伴某天在群里求助「搜索方法」,我想這方面,我有經(jīng)驗可以和你聊聊。
著(zhù)名商業(yè)顧問(wèn)劉潤,他經(jīng)常在朋友圈曬自己的讀書(shū)感悟,有人就會(huì )問(wèn):潤總,這本書(shū)在哪能買(mǎi)到呢?他說(shuō),當時(shí)的內心想法就是,你去當當網(wǎng)看看啊,這還需要問(wèn)么。他當即就把這個(gè)朋友拉黑了。
他覺(jué)得,連這樣的問(wèn)題都不自己解決的人,不適合再做他的朋友。他說(shuō):“人生80%的問(wèn)題,早就被人回答過(guò),你只要搜索就好。剩下的20%,你才需要研究?!?br /> 去年,我聽(tīng)到這么一段話(huà),來(lái)自李笑來(lái)的得到專(zhuān)欄,他說(shuō):學(xué)習能力分3個(gè)階段:
會(huì )通過(guò)搜索解決問(wèn)題,把自己的學(xué)習能力不斷提升,就像是拿到了一個(gè)人生作弊器,可以突破自己的時(shí)間、地點(diǎn)局限,看到更大的世界。這是我之所以要和大家聊搜索的根本原因。
我眼里的搜索是什么?
在閱讀訓練營(yíng)的第1天,我就確認了我的目標是轉專(zhuān)業(yè)讀博,之后按照李翔老師的指導路徑,我先去搜索了what,也就是「轉專(zhuān)業(yè)讀博」意味著(zhù)什么。
當我把這個(gè)想法和周邊幾個(gè)朋友聊起的時(shí)候,大家都覺(jué)得可以,但沒(méi)辦法給出建議,這讓我感到無(wú)助。而當我把這個(gè)問(wèn)題拋給youtube和google的時(shí)候,我找到了這個(gè):74歲的最老博士,比導師大7歲,畢業(yè)論文初稿近40萬(wàn)字。
我還找到了這些,一個(gè)網(wǎng)友說(shuō):“這事兒稀奇么?我們公共管理學(xué)院滿(mǎn)地都是這樣的博士?!边€獲得了一些非常重要的洞見(jiàn),搜索得到的這些素材,幫助我:獲得了轉專(zhuān)業(yè)的感性認識、建立了自信心、了解了準備的重點(diǎn)。
在我看來(lái),「搜索」是為實(shí)現目標,尋找有用線(xiàn)索的過(guò)程。通過(guò)搜索,我對「轉專(zhuān)業(yè)讀博」這件事情的認知逐漸清晰。
它是一種破案式的思維方式,遇到問(wèn)題不能像學(xué)生時(shí)代考試一樣,坐著(zhù)硬憋;周邊朋友很多時(shí)候也有局限性,無(wú)法打開(kāi)你的思路;你更不能怕麻煩,需要一點(diǎn)點(diǎn)像破案一樣,找到心中的答案。掌握了這個(gè)工具,你就可以從社群里的「伸手黨」,變成「自己來(lái)」。
通過(guò)搜索解決問(wèn)題的整個(gè)過(guò)程,我畫(huà)了一個(gè)小模型,從發(fā)問(wèn)到獲得答案,主要有這么幾個(gè)步驟:
選擇搜索引擎→提取搜索詞→構造表達式→進(jìn)行搜索→篩選檢索結果→調整搜索策略→反思總結。
怎樣才能找到你要的答案?
每次開(kāi)始搜索,都要想一遍我搜這個(gè)的目標是什么。
方法其實(shí)很簡(jiǎn)單,就是:關(guān)鍵詞搜索法。
不要把自己的口語(yǔ)整一大段放進(jìn)搜索框里,你需要盡量的提取出關(guān)鍵詞來(lái)。當然,有時(shí)候問(wèn)題不長(cháng)的話(huà),整句話(huà)放進(jìn)去也是可以的。這就是第一步「模糊搜索」。
然后在搜索結果里進(jìn)行篩選比對,找到關(guān)鍵的搜索詞并搜索這些詞。
如果范圍還是很大,無(wú)法獲得精確的答案,那就需要第三步,用符號構造搜索表達式,進(jìn)行精準搜索。
下面用案例來(lái)說(shuō)明一下這個(gè)極簡(jiǎn)的流程:
假如,你想知道:我快要和社會(huì )脫節了,要怎么辦?
這是一個(gè)很宏觀(guān)的問(wèn)題,如果你可以回憶哪件事讓你產(chǎn)生這個(gè)看法,就可以從事件和感受中,分析這個(gè)問(wèn)題,提取關(guān)鍵詞。
如果你不愿意想那么多,分析那么多,也可以直接把這句話(huà)拋給搜索引擎。打開(kāi)百度,把「我快要和社會(huì )脫節了,要怎么辦?」輸入搜索框。
這個(gè)時(shí)候,你先不用挨個(gè)打開(kāi)具體的網(wǎng)頁(yè),而是大體上瀏覽一下前2-3頁(yè),從網(wǎng)頁(yè)的題目和摘要中,你就可以把這個(gè)宏大的問(wèn)題,提取出不同的幾個(gè)詞匯,根據自己的需要把搜索范圍縮小。
如果你會(huì )使用Google,那搜索引擎的選擇,第一位一定是選擇谷歌。
你注意到?jīng)],剛才在細化的過(guò)程中使用了一個(gè)搜索語(yǔ)法,就是“site:”,這個(gè)可以把搜索局限在某個(gè)特定的網(wǎng)站內,會(huì )更加精準。

還有其他幾個(gè)常用的搜索語(yǔ)法,比如“加號”、“減號”、“引號”,如果你搜索的是文檔,還可以增加文檔的后綴名進(jìn)行搜索。我經(jīng)常加PDF進(jìn)行搜索,這一搜來(lái)的結果相對質(zhì)量會(huì )高一些,因為任何話(huà)題能講成一篇大文章就比零碎的點(diǎn)來(lái)的系統。
下面是幾個(gè)使用搜索語(yǔ)法的示意圖。
為了準備今天的分享,我特意咨詢(xún)了一個(gè)做SEO的朋友,就是給網(wǎng)站內容做搜索詞優(yōu)化,換句話(huà)說(shuō)告訴生產(chǎn)內容的網(wǎng)站,怎么樣更容易被搜索引擎收錄。他從另外一個(gè)視角告訴我,用戶(hù)在搜索引擎的搜索意圖主要被分為三種,導航類(lèi)、信息類(lèi)和資源類(lèi)。導航類(lèi)就是要找到某個(gè)網(wǎng)站的網(wǎng)址,你直接輸入搜索框就可以了,相對比較簡(jiǎn)單。咱們今天說(shuō)的解決問(wèn)題,還主要是信息和資源。你想通過(guò)搜索,找到自己要的信息和資源。
用閱讀訓練營(yíng)的一個(gè)例子:
你聽(tīng)到某本書(shū),講述如何幫孩子訂正作業(yè)、提高分數。但你已經(jīng)不記得具體名字。
這時(shí),你就可以把自己記得的關(guān)鍵詞輸入,從結果頁(yè)面中找到《翻轉課堂的可汗學(xué)院》,不需要墊入具體頁(yè)面。這時(shí),你想看看這本書(shū)的書(shū)評,大體了解一下說(shuō)的是什么。
你可以直接進(jìn)入豆瓣,也可以在搜索引擎,用site語(yǔ)法搜索豆瓣,就可以看到其他人的評分和書(shū)評。
然后你可以進(jìn)入亞馬遜,購買(mǎi)電子版。
如果沒(méi)有kindle軟件的話(huà),同時(shí)下載一個(gè)免費的軟件。
這樣,你就可以閱讀了。
上面的一部分內容,我都沒(méi)有涉及一個(gè)選擇,就是搜索引擎。
你一般在哪搜索呢?
和大家分享一下,除了百度、谷歌,讀書(shū)和寫(xiě)作過(guò)程中,我經(jīng)常用的幾個(gè)搜索渠道。
比如:北宸老師發(fā)了一個(gè)王東岳老師的文章,感覺(jué)很好,你還想了解更多王東岳老師的思想,你可以通過(guò)「搜一搜」,用手機很快的看到他的一系列文章以及視頻,迅速對他這個(gè)人產(chǎn)生一些感性的認識。這對你是否會(huì )繼續深入的了解他的思想,可以起到快速的判斷作用。
比如:你寫(xiě)一篇搜索的文章,或者之前我寫(xiě)過(guò)一篇「反饋」的文章:(點(diǎn)擊藍字,可以閱讀),我都是在得到app里,先搜一下得到的老師們,關(guān)于這個(gè)話(huà)題都闡述過(guò)哪些角度,是否有重要的洞見(jiàn),可以借鑒。今天「搜索即認知」就是從這里獲得的靈感。幫你找到觀(guān)點(diǎn),甚至于案例方向,都很有幫助。你也可以從這里,找到一些相關(guān)的書(shū)籍。
我已經(jīng)在印象筆記收集上千條筆記,有些話(huà)題,在印象筆記里一搜,可以看到過(guò)去對這個(gè)話(huà)題積攢的東西。這個(gè)堪比是個(gè)人百度。
我在搜索中走過(guò)的坑
第一個(gè)坑,網(wǎng)絡(luò )信息浩瀚無(wú)垠,搜索一個(gè)話(huà)題,又看到另外一個(gè)有趣的信息。就會(huì )一級一級點(diǎn)擊下去。本來(lái)要給文章找素材,結果看到有趣的課程宣傳文案,看到被安利的一次旅行,就跑去買(mǎi)買(mǎi)買(mǎi)了。被信息帶跑這種事,你出現過(guò)么?
第二個(gè)坑,從不搜索變成搜索,從只看一頁(yè)搜索結果,變成看10,甚至幾十頁(yè),都覺(jué)得是不是還有哪些材料和角度沒(méi)收集到,恨不得把全網(wǎng)扒到底,而成為無(wú)限制收集狂。這時(shí)候,你需要回歸搜索目標,注意節制。
第三個(gè)坑,一說(shuō)到搜索,就會(huì )想到一堆搜索技巧和特殊的網(wǎng)站資源,總覺(jué)得高效搜索就是掌握了這些獨門(mén)資源。其實(shí),除了技巧和資源,更多的是一種思維方式的養成。
再次回到閱讀訓練營(yíng)這幾天翔哥一再和我們強調的GROW模型,問(wèn)問(wèn)自己我的搜索目標是什么,讓每一次搜索盡量在一定時(shí)間內完成預期的結果。

來(lái)個(gè)小結
一種思維方式。搜索就像是破案,需要你根據自己模模糊糊的關(guān)鍵詞,逐漸清晰,獲得自己的答案。不要怕麻煩。
兩種搜索技巧。site命令和加文檔后綴,比如PDF,可以幫助我們讓搜索更加精準。
三個(gè)搜索渠道。根據不同的搜索目的,除了百度和googol這種通用型搜索,我還常用微信、得到和印象筆記。
三個(gè)大坑:
這幾個(gè)地方幫你找到想要的書(shū)
對于愛(ài)看書(shū)的你,這幾個(gè)地方可以幫助你找到自己想要的書(shū)。
這幾個(gè)地方,搜索最好是亞馬遜。
你可以把自己希望了解的領(lǐng)域輸進(jìn)去,找到相應的書(shū)單。也可以根據前期閱讀,篩選出自己喜歡的作者,把他的書(shū)都拿來(lái)看。
下面這個(gè)網(wǎng)站,可以幫助你找到想要的電子書(shū)。我自己常用的是第5和第6.
有時(shí)候,google 可以解決一切。
上面所有的分享,都是搜索的初階,你如果想要獲得更好的信息來(lái)源。
第一步,請把你的問(wèn)題轉為英語(yǔ),輸入谷歌。
第二步,積攢自己關(guān)注主題的關(guān)鍵詞,多數就是術(shù)語(yǔ)表,找到行業(yè)里的意見(jiàn)領(lǐng)袖,關(guān)注他們關(guān)注的資源。
第三步,進(jìn)行大量的主題閱讀,積攢自己對于關(guān)注領(lǐng)域系統性的知識。讓搜索做你的輔助,而不是信息的所有來(lái)源。
曾經(jīng)在一次群聊的時(shí)候,提到對學(xué)習某些東西會(huì )有抵觸心理時(shí),李翔老師說(shuō),那你要問(wèn)問(wèn)自己“你在逃避什么?你在拒絕什么?”
這句話(huà),也送給你。
▍今日互動(dòng)
#一轉眼又到周五了,這個(gè)周末你打算怎么過(guò)?#
老編輯先來(lái):
周末我只做一件事:將一把鑰匙·李翔21天月閱讀訓練營(yíng)的作業(yè)補完
。
?。ㄒ话谚€匙·李翔21天閱讀訓練營(yíng)開(kāi)啟3人拼團模式,團購成功立減100元,1月19日24點(diǎn)截止~一般人我不告訴他,點(diǎn)擊文末閱讀原文即刻開(kāi)始拼團。)
成長(cháng)干貨推薦
▼點(diǎn)擊圖片即可閱讀
關(guān)于短期惡性競爭更新搜索引擎主題模型優(yōu)化的通知(圖)
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 109 次瀏覽 ? 2022-07-26 20:08
搜索引擎主題模型優(yōu)化;實(shí)踐操作優(yōu)化;數據分析優(yōu)化(這兩個(gè)部分學(xué)習周期長(cháng),需要反復輸入搜索結果,去優(yōu)化);新聞采集優(yōu)化(去除新聞聯(lián)播中的各種水分以及每天的熱點(diǎn)輿論);垂直媒體發(fā)布模型優(yōu)化;網(wǎng)站的自身安全性?xún)?yōu)化(操作十分多,體現性?xún)r(jià)比,要承受高成本);事件的發(fā)掘優(yōu)化(即使是事件也要需要不斷的學(xué)習和總結);搜索引擎短期惡性競爭更新;搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜。
查看全部
關(guān)于短期惡性競爭更新搜索引擎主題模型優(yōu)化的通知(圖)

搜索引擎主題模型優(yōu)化;實(shí)踐操作優(yōu)化;數據分析優(yōu)化(這兩個(gè)部分學(xué)習周期長(cháng),需要反復輸入搜索結果,去優(yōu)化);新聞采集優(yōu)化(去除新聞聯(lián)播中的各種水分以及每天的熱點(diǎn)輿論);垂直媒體發(fā)布模型優(yōu)化;網(wǎng)站的自身安全性?xún)?yōu)化(操作十分多,體現性?xún)r(jià)比,要承受高成本);事件的發(fā)掘優(yōu)化(即使是事件也要需要不斷的學(xué)習和總結);搜索引擎短期惡性競爭更新;搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜。

提高搜索引擎主題模型優(yōu)化技術(shù)的技巧和注意事項!
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 103 次瀏覽 ? 2022-07-25 18:08
搜索引擎主題模型優(yōu)化技術(shù)請參考::搜索引擎主題模型優(yōu)化-從優(yōu)化搜索結果頁(yè)面到優(yōu)化搜索引擎權重,
seo換的是域名,
個(gè)人覺(jué)得抓住一個(gè)核心詞去優(yōu)化,不要在乎熱度和競爭,會(huì )更有效果。
回歸網(wǎng)站本質(zhì)定位核心關(guān)鍵詞即可
如果是做seo,
我更關(guān)心關(guān)鍵詞
那就是快照,剛注冊的時(shí)候先看看自己的公司或者產(chǎn)品所對應的關(guān)鍵詞快照有沒(méi)有,然后改,
用心做,不要隨波逐流就好了。你用心了,慢慢關(guān)鍵詞的權重自然就會(huì )上去了。記住,本質(zhì)是流量,最后還是流量。
301去百度收錄
我做網(wǎng)站seo做了挺久的,雖然也不算很全面,但是我覺(jué)得通過(guò)seo方法想要提高網(wǎng)站搜索排名有以下幾點(diǎn)技巧:1.seo技術(shù)是一定要掌握的,先不談seo技術(shù)好壞,至少了解一些seo技術(shù)也算是個(gè)入門(mén)吧,關(guān)鍵詞分析啊、網(wǎng)站結構呀、網(wǎng)站代碼呀什么的,都要看看。2.多在網(wǎng)站中加些能提高你網(wǎng)站的搜索引擎收錄量的元素,這點(diǎn)很重要,因為在搜索引擎頁(yè)面有人訪(fǎng)問(wèn)的時(shí)候,這些元素都是會(huì )被收錄的,像我們做的百科網(wǎng)站,然后都加上“seo中心網(wǎng)”之類(lèi)的元素,這些都是關(guān)鍵詞提供,也會(huì )提高網(wǎng)站搜索量。
3.不要一味的追求網(wǎng)站排名,很多時(shí)候網(wǎng)站排名高低并不代表真正的訪(fǎng)問(wèn)量,排名好點(diǎn)的都是搜索人氣高的,訪(fǎng)問(wèn)量少的也不見(jiàn)得就不好,現在很多網(wǎng)站都是在我上面說(shuō)的訪(fǎng)問(wèn)量和收錄量都很少的網(wǎng)站,這個(gè)時(shí)候一定要看看每天自己網(wǎng)站在百度收錄的比例,不能掉了。4.一定要有自己的網(wǎng)站,再大的網(wǎng)站用一些垃圾鏈接都是沒(méi)有用的,不管這個(gè)網(wǎng)站權重多高,作為企業(yè)自己要了解自己的網(wǎng)站對自己做seo貢獻多大,說(shuō)到底,做網(wǎng)站最主要還是為了能賺錢(qián),能靠這網(wǎng)站賺錢(qián)才是王道。
5.在做好自己網(wǎng)站的情況下,每天堅持發(fā)布一些友情鏈接,很多公司和自己的網(wǎng)站做友情鏈接,再通過(guò)友情鏈接提高網(wǎng)站排名,想想看你收到的詢(xún)盤(pán)和收益都是你在做網(wǎng)站來(lái)的呀,這點(diǎn)錢(qián)哪里是一點(diǎn)網(wǎng)站就能賺回來(lái)的呢。 查看全部
提高搜索引擎主題模型優(yōu)化技術(shù)的技巧和注意事項!
搜索引擎主題模型優(yōu)化技術(shù)請參考::搜索引擎主題模型優(yōu)化-從優(yōu)化搜索結果頁(yè)面到優(yōu)化搜索引擎權重,
seo換的是域名,
個(gè)人覺(jué)得抓住一個(gè)核心詞去優(yōu)化,不要在乎熱度和競爭,會(huì )更有效果。

回歸網(wǎng)站本質(zhì)定位核心關(guān)鍵詞即可
如果是做seo,
我更關(guān)心關(guān)鍵詞
那就是快照,剛注冊的時(shí)候先看看自己的公司或者產(chǎn)品所對應的關(guān)鍵詞快照有沒(méi)有,然后改,

用心做,不要隨波逐流就好了。你用心了,慢慢關(guān)鍵詞的權重自然就會(huì )上去了。記住,本質(zhì)是流量,最后還是流量。
301去百度收錄
我做網(wǎng)站seo做了挺久的,雖然也不算很全面,但是我覺(jué)得通過(guò)seo方法想要提高網(wǎng)站搜索排名有以下幾點(diǎn)技巧:1.seo技術(shù)是一定要掌握的,先不談seo技術(shù)好壞,至少了解一些seo技術(shù)也算是個(gè)入門(mén)吧,關(guān)鍵詞分析啊、網(wǎng)站結構呀、網(wǎng)站代碼呀什么的,都要看看。2.多在網(wǎng)站中加些能提高你網(wǎng)站的搜索引擎收錄量的元素,這點(diǎn)很重要,因為在搜索引擎頁(yè)面有人訪(fǎng)問(wèn)的時(shí)候,這些元素都是會(huì )被收錄的,像我們做的百科網(wǎng)站,然后都加上“seo中心網(wǎng)”之類(lèi)的元素,這些都是關(guān)鍵詞提供,也會(huì )提高網(wǎng)站搜索量。
3.不要一味的追求網(wǎng)站排名,很多時(shí)候網(wǎng)站排名高低并不代表真正的訪(fǎng)問(wèn)量,排名好點(diǎn)的都是搜索人氣高的,訪(fǎng)問(wèn)量少的也不見(jiàn)得就不好,現在很多網(wǎng)站都是在我上面說(shuō)的訪(fǎng)問(wèn)量和收錄量都很少的網(wǎng)站,這個(gè)時(shí)候一定要看看每天自己網(wǎng)站在百度收錄的比例,不能掉了。4.一定要有自己的網(wǎng)站,再大的網(wǎng)站用一些垃圾鏈接都是沒(méi)有用的,不管這個(gè)網(wǎng)站權重多高,作為企業(yè)自己要了解自己的網(wǎng)站對自己做seo貢獻多大,說(shuō)到底,做網(wǎng)站最主要還是為了能賺錢(qián),能靠這網(wǎng)站賺錢(qián)才是王道。
5.在做好自己網(wǎng)站的情況下,每天堅持發(fā)布一些友情鏈接,很多公司和自己的網(wǎng)站做友情鏈接,再通過(guò)友情鏈接提高網(wǎng)站排名,想想看你收到的詢(xún)盤(pán)和收益都是你在做網(wǎng)站來(lái)的呀,這點(diǎn)錢(qián)哪里是一點(diǎn)網(wǎng)站就能賺回來(lái)的呢。
倫敦大學(xué)學(xué)院計算機系教授汪軍:決策大模型
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 120 次瀏覽 ? 2022-07-11 14:58
機器之心發(fā)布
機器之心編輯部
不久之前,在機器之心舉辦的「決策智能產(chǎn)業(yè)應用」在線(xiàn)圓桌論壇上,倫敦大學(xué)學(xué)院計算機系教授汪軍發(fā)表了主題演講《決策大模型》。
機器之心對汪軍教授的演講內容進(jìn)行了不改變原意的整理。感興趣的小伙伴可以點(diǎn)擊閱讀原文查看回顧視頻。
謝謝機器之心的邀請,我今天分享的題目是《決策大模型》。首先我將要介紹我們在決策智能領(lǐng)域做的一些研究,同時(shí)我認為大模型很重要,它代表了其在現在技術(shù)上的一個(gè)思路,不管從技術(shù)突破層面,還是實(shí)際應用層面,大模型可能給大家帶來(lái)不一樣的東西,同時(shí)大模型也有不足之處,學(xué)術(shù)界、工業(yè)界也在不斷地推進(jìn)大模型發(fā)展,所以這是一個(gè)不斷發(fā)展的研究領(lǐng)域,最后我會(huì )點(diǎn)題大模型。
決策智能和預測智能是有差別的。需要強調的是在人工智能應用領(lǐng)域,一開(kāi)始我們是在做感知智能、預測智能,這相當于在數據里面找規律,有了規律以后,我們希望能夠反饋到數據來(lái)改變數據,甚至能夠優(yōu)化決策,對數據產(chǎn)生改變,然后形成閉環(huán)。
我目前在上?;I備一個(gè)名為「數字大腦研究院」的機構,這是一家以科技創(chuàng )新與資本聯(lián)動(dòng)方式加速科技成果快速商業(yè)化的新型科研機構,已經(jīng)研發(fā)出全球第一個(gè)多智能體決策大模型。其目的也是想把決策智能應用,進(jìn)行更清楚地梳理,特別是用大模型大數據來(lái)解決決策智能問(wèn)題,驅動(dòng)各產(chǎn)業(yè)全面智能化升級。
今天我講的內容主要分成幾個(gè)部分。
首先我會(huì )介紹決策在數學(xué)上是怎么表達的,以及為何如此重要。
第二部分我會(huì )介紹決策智能最重要、最關(guān)鍵的問(wèn)題:安全性和魯棒性問(wèn)題。決策智能可應用于互聯(lián)網(wǎng),比如搜索推薦廣告,這些對安全要求其實(shí)并不高,其本質(zhì)就是推薦內容,推薦錯了也不會(huì )造成大的財產(chǎn)損失,只要平均能提高百分之幾的點(diǎn)擊率就可以了。所以在互聯(lián)網(wǎng)上的這些搜索廣告推薦,很容易就會(huì )用到?jīng)Q策的一些方法。但是我們將決策智能用到工業(yè)互聯(lián)網(wǎng),或是其他地方,情況可能就不一樣了,我們必須有一個(gè)從理論上、實(shí)際上都要保證它是安全、魯棒的。因此我會(huì )介紹一下這方面的思路是什么、研究方法,以及可能的實(shí)現方法,此外我還會(huì )介紹各個(gè)技術(shù)點(diǎn)。
第三部分我會(huì )介紹因果分析。
第四部分我會(huì )介紹貝葉斯優(yōu)化,貝葉斯優(yōu)化數據樣本效率特別高,使得我們在小數據的情況下也可以做決策。
最后我會(huì )介紹大模型,我們?yōu)槭裁匆鰶Q策的大模型?我們應該怎么做?潛在的影響是什么?
決策
首先是決策,歷史上笛卡爾在 17 世紀作為哲學(xué)家和數學(xué)家,就開(kāi)始思考人是怎樣做決策的。當然那時(shí)的科學(xué)還是比較落后的,給出的解釋是比較機械的。大家都知道所謂的二元論觀(guān)點(diǎn),即在大腦里面,二元論觀(guān)點(diǎn)認為有一個(gè)特定的器官:松果體。心靈和肉體之間有一個(gè)交互的地方,這個(gè)地方就是在大腦的松果體里。心靈是沒(méi)法解釋的,但是心靈可以控制人體行為動(dòng)作,通過(guò)心靈的引導人類(lèi)能夠進(jìn)行一些日常決策、行動(dòng)等。以上是對人的決策解釋。
其實(shí)再往前、往大的地方考慮的話(huà),有一個(gè)思路可以去解釋人、生命,即熵增熵減。整個(gè)宇宙是一個(gè)熵增的過(guò)程,即從有序變無(wú)須的狀態(tài)。假設某個(gè)封閉的空間被抽成了真空,在一邊劃一個(gè)裂縫,將氣體放進(jìn)去,慢慢擴散到整個(gè)空間,這種氣體的擴散就是從有序變成無(wú)序的狀態(tài)。生命體則相反,吸收能量,是從無(wú)序走向有序的狀態(tài);于是從人生下來(lái)到死亡是一個(gè)熵減的過(guò)程。人的生活日常其實(shí)是在找規律,即使生活環(huán)境在變,人內環(huán)境的很多東西是不會(huì )變的,比如說(shuō)身體的體溫,身體體液的成分等。所以作為一個(gè)生命體,無(wú)論外界的情況如何變化,其內部總是希望保持一個(gè)恒定的狀態(tài)。
人類(lèi)開(kāi)發(fā)了人工智能以及各種技術(shù),必然是幫助我們解決不變性的,或者說(shuō)是解決熵減。所以按照這個(gè)思路進(jìn)行思考,就會(huì )比較容易理解一個(gè)生命體如何去做決策,或者說(shuō)生命體做決策原理是什么。我們用一個(gè)最簡(jiǎn)化的數學(xué)模型來(lái)描述這個(gè)過(guò)程。
如下圖,比如說(shuō)整個(gè)世界假設它是不可知的,我們可以用一個(gè)隱變量 s* 來(lái)描述這個(gè)世界(或者說(shuō)代表世界運行的規律或真理)。然后作為個(gè)體,比如生命體或是細胞,存在于這個(gè)世界當中,受這個(gè)世界運行影響。這個(gè)生命體不知道 S * 但會(huì )觀(guān)察這個(gè)外部世界,假設這個(gè)觀(guān)察量是 o (因為 s * 是不可觀(guān)察的,但是 o 是 s * 生成的,可以推理出 s*) 。透過(guò) o,生命體對 s * 有了理解,但生命體不是 100% 完全可以推理出自然界隱藏的規律。比如說(shuō)重力,牛頓根據蘋(píng)果落地這樣一個(gè)事實(shí),他觀(guān)察到了這種現象 o,對真實(shí)世界產(chǎn)生一定認知和理解,這個(gè)認知和理解就是 s。但是 s 和 s * 可能不一樣,也可能一樣,因為其代表了個(gè)體對外界的理解。當個(gè)體理解以后,個(gè)體就會(huì )采取行動(dòng)(下圖的 u)改變世界,比如說(shuō)人,人可以改變世界,細胞可以釋放某些東西,與病毒做斗爭,所有這些都是個(gè)體對外界的影響。在外界影響的情況下,改變自然界,自然界然后又會(huì )出現新的狀態(tài)規律,個(gè)體在根據觀(guān)察做出理解和改變,依次反復。
所以對于感知智能來(lái)說(shuō),感知是從觀(guān)察到發(fā)現規律 o -> s;決策智能,就是從規律再返回事件 s -> u,來(lái)改變數據環(huán)境。
感知是主觀(guān)的,它是個(gè)體的感知,每個(gè)人可能不一樣,難以用語(yǔ)言來(lái)描述,但可以通過(guò)其他方式來(lái)描述。人與人之間會(huì )產(chǎn)生共鳴,這是為什么?因為你的感知和另外一個(gè)人的感知,對于觀(guān)察到的同一個(gè)東西或者觀(guān)察到的同一現象可能不一樣,但是會(huì )產(chǎn)生共鳴。所以當你看到這些繪畫(huà)的時(shí)候,就會(huì )和這些繪畫(huà)的作者產(chǎn)生共鳴。所以這就是感知方面的一個(gè)規律,這個(gè)也就是藝術(shù)存在的本源。
決策是如何進(jìn)行的?效用理論 (Utility theory)。John Von Neuman 是一位非常著(zhù)名的數學(xué)家,同時(shí)也是計算機學(xué)科的奠基人,他同時(shí)也創(chuàng )立了 Games Theory。在經(jīng)典的《Games Theory》里,他講到了 Utility theory,提供了一套數學(xué)工具來(lái)告訴大家怎樣去做決策。其數學(xué)表達可以認為是優(yōu)化某一個(gè)特定的函數,選擇能夠最大化函數的值。
如果一個(gè)智能體是理性的話(huà),那么怎樣做決策呢?我們還是用上面的這個(gè)例子來(lái)講,假設人或者機器都可以,他們存在于一個(gè)世界中,我從外界觀(guān)察到一個(gè)信號 o,那么我要選擇的最優(yōu)決策是什么 u?貝葉斯決策理論就是說(shuō),當我觀(guān)察 o 的時(shí)候,其實(shí)對 s 到底長(cháng)什么樣已經(jīng)有了一定的估計,比如說(shuō)一個(gè)分布和描述。通過(guò)觀(guān)察 o 之后的后驗知識,那么我對自然界的一些規律和法則有了一定的了解。這個(gè)了解反映在它的分布和后驗概率上 p(s|o)。也就是說(shuō),我對它的了解有一定的不確定性。
再來(lái)看所謂的獎勵函數。如果自然界長(cháng)成這個(gè)樣子 s,我采取了行動(dòng) u,那么我的獲利應該是多少,我們用 R(s,u) 這個(gè)函數來(lái)描述?只要你可以定義這個(gè)獲利,就可以最大化平均的獲利值。我選擇自己的決策,最大化預期利益或者說(shuō)平均利益。貝葉斯決策理論可以告訴你,這個(gè)就是最優(yōu)的決策。剛才其他演講者講到強化學(xué)習和優(yōu)化,無(wú)外乎就是上述公式,優(yōu)化一個(gè)特定的(獎勵)函數。我選擇的這個(gè)決策變量使得這個(gè)函數值是最大化的。
另外一個(gè)更基礎的問(wèn)題來(lái)了,什么是智能呢?其實(shí),智能可以用函數來(lái)解決。我使得自己的長(cháng)期收益是最好的,比如說(shuō)經(jīng)典的巴普洛夫條件反射,為什么狗可以跟它的鈴聲和食物產(chǎn)生聯(lián)系呢?為什么一聽(tīng)到鈴聲就會(huì )產(chǎn)生唾液呢?這是因為它學(xué)習到了你經(jīng)常一敲鈴便會(huì )給它食物,這樣狗當然就迅速行動(dòng)了。
從長(cháng)期角度來(lái)講,對狗這個(gè)生命體來(lái)說(shuō),它優(yōu)化了自己「迅速跑到這邊獲取食物」。狗的行為最優(yōu)的的表現是它可以適應環(huán)境獲取食物,從長(cháng)時(shí)間來(lái)達到它的受益。
但實(shí)際上,我們說(shuō)做(機器)決策智能的時(shí)候,包括將來(lái)講的應用如互聯(lián)網(wǎng)廣告,已經(jīng)廣泛地應用到了。我之前做聯(lián)合創(chuàng )始人的公司就是專(zhuān)門(mén)做強化學(xué)習用于互聯(lián)網(wǎng)廣告。除了強化學(xué)習,決策智能有其他的表現形式或數學(xué)表達,能夠解決不一樣的東西。
剛才有演講者講到了運籌優(yōu)化的內容。運籌優(yōu)化本質(zhì)是個(gè)優(yōu)化問(wèn)題,就是我給定一個(gè)目標函數 f(x),它可以是知道的,也可以是不知道的。在不知道的情況下,我們叫它黑盒優(yōu)化;在知道的情況下,我們叫它白盒優(yōu)化。然后,我的目的是要找到?jīng)Q策 x,我選擇自己的決策并最大化函數 f。這個(gè)函數可以是剛才說(shuō)到的 utility 獎勵函數,也可以是其他各種各樣的函數。那么如果從這個(gè)角度來(lái)講的話(huà),它就有很廣泛的用途。
比如其他演講者所講的電廠(chǎng)和 EDA 優(yōu)化的問(wèn)題。生物化學(xué)上,我們甚至可以用它來(lái)尋找抗體,就是用機器學(xué)習或黑盒優(yōu)化的方法,幫助找到更合適的抗體。還有演講者提到的 AutoML,它們本質(zhì)上也是黑盒優(yōu)化問(wèn)題。
黑盒優(yōu)化里面比較好的方法就是貝葉斯優(yōu)化,比如我們做優(yōu)化時(shí)允許去試錯。我們找一些 x「喂」到 f 里面,然后去測試(給出 f 的值)。如果說(shuō)我們的任務(wù)是找抗體的話(huà),則允許做一些黑盒實(shí)驗,看看化學(xué)反應如何。然后我們再去建一個(gè)對 f 了解的模型,叫做代理模型(surrogate model)。接著(zhù)再創(chuàng )建一個(gè)采集函數 (acquisition function),告訴我們下一個(gè)實(shí)驗應該怎么做 (下一個(gè)測試的輸入值 x 應該是什么),然后無(wú)限循環(huán)往復,直到實(shí)現最優(yōu) 。
貝葉斯優(yōu)化好處是什么?它從理論上保證能夠找到全局最優(yōu)。同時(shí)它也能減少做實(shí)驗的次數,所以貝葉斯優(yōu)化可以幫助我們在數據稀疏的情況下,去優(yōu)化決策。
大約一年前,我帶著(zhù)華為團隊一起做了一個(gè)貝葉斯優(yōu)化算法,獲得 NeurIPS 黑盒優(yōu)化冠軍,名字為河伯,該系統已經(jīng)開(kāi)源,被研究者廣泛使用,該研究應用領(lǐng)域包括在 Auto ML、蛋白質(zhì)設計、 MindSpore 超參數優(yōu)化、機器學(xué)習系統里的 rate 超參數優(yōu)化,此外還包括各種各樣的實(shí)際場(chǎng)景應用。接下來(lái)我會(huì )介紹幾個(gè)例子,我認為這是比強化學(xué)習更容易落地、更接地氣的方法,因為這種方法對數據要求不高。
以上是我介紹的決策智能一些重點(diǎn)內容。那么決策智能難點(diǎn)在哪?剛才有演講者講了安全的知識,安全在決策智能中非常重要,我會(huì )稍微介紹一下最近的一些算法,然后我再講一些因果分析的內容(對決策的可解釋性提供了理論基礎)。
大約十多年前,我剛去 UCL 的時(shí)候,對互聯(lián)網(wǎng)搜索的問(wèn)題很感興趣。其中很關(guān)心搜索引擎的不確定性問(wèn)題,比如用戶(hù)使用百度搜索 iPhone 4 代,能搜索出結果。但是當用戶(hù)搜索了一個(gè)困難的主題關(guān)鍵字,可能沒(méi)有一個(gè)跟用戶(hù)的需求相關(guān)的,那么用戶(hù)就會(huì )不在用這個(gè)搜索引擎,改用其他的搜索方法。所以搜索引擎需要有個(gè)有效的方法避免以上問(wèn)題出現。
我們該如何看待這個(gè)問(wèn)題?其實(shí)就是最大化用戶(hù)滿(mǎn)意度。我們在 2009 年做過(guò)一套理論,參考了投資的一些原則,就是不要把所有的錢(qián)都投到同一個(gè)地方。為什么這樣做?因為股票價(jià)值有高有低,之間此起彼伏,你需要多樣化投資組合。同樣的道理,你在做搜索推薦或者互聯(lián)網(wǎng)廣告時(shí),不要把你認為用戶(hù)相關(guān)的都展示出來(lái),萬(wàn)一判斷有錯怎么辦,所以你要多樣化你的文件列表。當時(shí)在學(xué)術(shù)圈,大家都已經(jīng)開(kāi)始做 多元化排序了,但其實(shí)沒(méi)有給出一套理論,我們給出了一套理論,該理論告訴搜索引擎在什么時(shí)候多樣化,多樣化多少的的。SIGIR 對這個(gè)工作非常認可,去年授予了 test of time honorable mention: 十年、甚至十幾年之后再去看這篇文章,還是非常有影響力的。我本身對這個(gè)工作還是非常自豪的。
安全和魯棒
在工業(yè)互聯(lián)網(wǎng)時(shí)代,需要做更加精細的決策,安全與風(fēng)險是其中重要的部分。我之前帶領(lǐng)了華為諾亞實(shí)驗室倫敦團隊,在 2022 年發(fā)表在機器學(xué)習會(huì )議 ICML 上的一篇文章(SAUTE RL)。幾乎肯定(或以概率為一)的滿(mǎn)足安全約束對于在現實(shí)應用中部署強化學(xué)習 (RL) 至關(guān)重要。例如,飛機著(zhù)陸和起飛在理想情況下應該以概率 1 發(fā)生。我們團隊通過(guò)引入安全增強的馬爾可夫決策過(guò)程(MDP)來(lái)解決這個(gè)問(wèn)題,其中通過(guò)將安全約束增強到狀態(tài)空間并重塑目標來(lái)消除安全約束。團隊證明了 “炒” (Saute)過(guò)的馬科夫決策過(guò)程( MDP) 滿(mǎn)足貝爾曼 (Bellman) 方程,并更接近于解決幾乎肯定滿(mǎn)足約束的安全強化學(xué)習。團隊認為 Saute MDP 采用了一個(gè)不同角度對待安全決策問(wèn)題。例如,新提出的方法具有即插即用的特性,即任何 RL 算法都可以 “炒”。此外,狀態(tài)增強允許跨安全約束的策略泛化。最終表明,當約束滿(mǎn)足非常重要時(shí),Saute RL 算法可以超越其最先進(jìn)的算法。在下圖所示的實(shí)驗中,可以 Saute RL 算法在一些極端的測試下,安全性仍然是綠色的,圖中虛線(xiàn)表示 100% 安全。Saute RL 算法在一些安全性要求較高的場(chǎng)景廣泛應用,比如電力、自動(dòng)駕駛等。
這是我們做的一個(gè)實(shí)驗,可以看到在一些 setting 極端策略下, 我們的方法保證 100% 安全。不管從實(shí)驗上、還是理論上我們都可以 100% 得到安全保障。如果用這些方法,我們在一些嚴格的安全性場(chǎng)景里,比如電力、自動(dòng)駕駛等,我們就可以廣泛地使用這些強化學(xué)習和優(yōu)化決策的方法了。
另外一個(gè)更難的問(wèn)題是如何保證模型訓練安全。我們將類(lèi)似的方法運用到訓練中。訓練過(guò)程中加入一個(gè)安全狀態(tài),它會(huì )記錄歷史上的操作是否安全,在學(xué)習的過(guò)程中可以根據安全狀態(tài)選擇安全的路徑。
因果分析
下面介紹因果分析 ,剛才有人講到數字孿生,這其中涉及模型和數據的關(guān)系。所謂數字孿生,本質(zhì)就是對真實(shí)世界建模,如果僅憑自己想象建模,那結果和真是世界差別很大。同樣的道理,假如你有數據,但數據不代表真實(shí)情況,數據在采樣的情況下就存在偏差,用存在偏差的數據建立模型,顯然不能真實(shí)地反映情況,導致模型和數據之間有差別。如果你用這些數據建立數字孿生去仿真、去學(xué)習,顯然不準確。所以數字孿生的核心問(wèn)題就是建立必須要讓它與環(huán)境一致、與數據一致 。舉例來(lái)說(shuō),在推薦系統里面,我們可以去做推薦的仿真 ,可以去仿真數據,但是要強調的是仿真必須跟真實(shí)情況保持一致。
我認為 Judea Pearl 因果分析的研究很有意義,給我們提供了很好的理論基礎。他提出的 結構化的因果模型(structure causal model)對 因果關(guān)系提供了一個(gè)系統的描述。從我個(gè)人理解來(lái)講,如果將其與 圖模型或者主流的統計方法相比的話(huà),主要區別在于增加了外生變量,這些外生變量對系統會(huì )造成改變。我們必須有一套理論去理解它,而不是假設它不存在,假如這些外生變量不存在,你就沒(méi)有規則去完全消除這些偏差( bias)的問(wèn)題。只有對這些外生變量建模,模型才會(huì )有效。Judea Pearl 的一個(gè)思路很有意思,就是系統的介紹了干預和想象的操作。比如 A 和 B 經(jīng)常在一起,當有 A 的時(shí)候,預測 B 的存在。但實(shí)際上 A 和 B 的存在可能是另外一個(gè) confounding 干擾變量的影響, A 和 B 實(shí)際上沒(méi)有任何內在的因果關(guān)系,他們只是關(guān)聯(lián)(association)的關(guān)系。
第二個(gè)就是 DO 操作,就是去干預 ,假如改變某一個(gè)量,另外一個(gè)量會(huì )不會(huì )隨之改變。如果我看到 A ,就說(shuō)明看到 B, 哪一天 A 消失了, B 是不是也消失了,還是 B 因為另外一個(gè) confounding 的存在導致 B 一直存在,所以你可以通過(guò)此方法進(jìn)行分析 。
第三個(gè)是想象 (imagine),你可以問(wèn) what if 問(wèn)題,剛才我們在講運籌優(yōu)化的時(shí)候,會(huì )進(jìn)行 what if 分析,問(wèn)如果當初我們執行另外一個(gè)策略,會(huì )給我們帶來(lái)什么。沒(méi)有進(jìn)行 what if 推論,就把一個(gè)策略執行到實(shí)際中是不科學(xué)的。所以,我們需要在仿真器里問(wèn)「what if question」問(wèn)題,即如果這樣做結果會(huì )怎么樣,是不是有更好的決策,這就是所謂的反事實(shí)(counterfactual),它實(shí)際沒(méi)有出現,需要在腦子里進(jìn)行想象,用數字孿生去想象,但必須保證 counterfactual 是無(wú)偏見(jiàn)的。所以,如果我們要做數字孿生,就必須解決 counterfactual 的問(wèn)題。
舉例來(lái)說(shuō),在智能推薦系統里,首要的問(wèn)題是數據偏差問(wèn)題,如下圖標記的有用戶(hù) user (U)、 推薦列表 recommendation list (R)、 正例 positive items (S) 。一個(gè)物品 items 要被用戶(hù)喜歡并且被觀(guān)察到,必須滿(mǎn)足兩個(gè)條件,首先要被推薦,如果沒(méi)有推薦,用戶(hù)就看不到,所以必須和 R 有關(guān)系;同時(shí)要跟用戶(hù) U 有關(guān)系,就是用戶(hù)可能喜歡、也可能不喜歡。同時(shí)喜歡并且被推薦了,那么這個(gè) item 是被觀(guān)察了 S, 在數據里面它是有 bias 的,如果它不在推薦系統里面,但用戶(hù)是喜歡的,這種情況下是觀(guān)察不到的。如果你使用觀(guān)察到的這些數據來(lái)構建仿真器,必然存在一個(gè)偏差項,是被推薦過(guò)去,只有被推薦過(guò)的東西你才會(huì )看見(jiàn)被仿真。但實(shí)際上還有那些沒(méi)有被推薦,實(shí)際上用戶(hù)可能喜歡的,所以你需要問(wèn) what if question,用戶(hù)是不是喜歡,如果用戶(hù)喜歡,你就推薦,如果用戶(hù)不喜歡,你就不推薦。
我們需要構建一個(gè)所謂的 數據產(chǎn)生模型 data impression model 和用戶(hù)反饋模型 user feedback model 。外生變量是需要模型的,在一般的推薦系統里面,它是不存在建模問(wèn)題的。圖中的 beta 也是個(gè)外層變量 ,需要對它進(jìn)行建模并估計。當出現新數據時(shí),我們需要估計 alpha 、beta ,然后再去糾正當前狀態(tài), 進(jìn)行真正的仿真。
我們也做了一些理論分析,如果我們有這樣的仿真系統,數據多事效果會(huì )更好。這就面臨一個(gè)問(wèn)題,有了數據以后,我是用數據來(lái)構建仿真器再去做決策,還是直接用數據做優(yōu)化決策。方案是如果你有 inductive bias 歸納偏置,構建到這個(gè)模型里面,這樣用仿真器才有意義。
小數據決策
然后我再講一下貝葉斯優(yōu)化。
我帶領(lǐng)華為團隊解決電子設計自動(dòng)化 EDA 問(wèn)題 時(shí),我們用貝葉斯優(yōu)化解決各種各樣的 EDA 的問(wèn)題。EDA 問(wèn)題其實(shí)是一個(gè)離散優(yōu)化 combination optimization 的問(wèn)題,比如我們研究的一系列序列決策問(wèn)題。我們在邏輯綜合里面,想把整個(gè)的邏輯 數據轉換成另一個(gè) 更實(shí)際的簡(jiǎn)化的邏輯實(shí)際,使它的邏輯功能完全不變,對于是否完全不變,我可以用 QoR 來(lái)橫量它,QoR 值是多少,我是不知道的,我沒(méi)有任何的數學(xué)表達,但是經(jīng)過(guò)不斷的試錯,可以達到最優(yōu),但怎么提高試錯效率?顯然我就可以用剛才講的貝葉斯黑盒優(yōu)化,對 QoR 進(jìn)行建模,然后去解決這個(gè)問(wèn)題。
今年我們也發(fā)表了論文來(lái)闡述怎樣用貝葉斯優(yōu)化來(lái)做邏輯綜合。順便提一下,我們?yōu)槿A為團隊做的研究達到 SOTA 水平,該研究在公開(kāi)測試數據里名列前茅,所以貝葉斯優(yōu)化為解決邏輯綜合問(wèn)題提供了一個(gè)比較好的思路。
我再舉另外一個(gè)例子,我想設計一個(gè)抗體能夠抗擊抗原,這兩種蛋白質(zhì)會(huì )發(fā)生一些反應。這里我們就要找出氨基酸的排列次序及其形成的蛋白質(zhì),使得 Binding-Energy 結合能最小化。使用窮舉的方法幾乎是不可能的,因為可能性空間太大了。小數據決策就需要貝葉斯優(yōu)化了。
另外,我們如何形成應用大模型和大數據的思路?我們組做了很多多智能體強化學(xué)習方向的研究。那么,智能交互相關(guān)的研究只能用在游戲上嗎,是不是可以用到其他應用上?回答是肯定的。我們最近做了一個(gè)游戲場(chǎng)景的「AI 奧林匹克」系列競賽,因為游戲場(chǎng)景可以放大決策中的關(guān)鍵問(wèn)題,使我們能夠找到其中的規律。我們的目的是通過(guò)游戲的方式弄清楚決策中的技術(shù)方法,以用到其他各種場(chǎng)景中。
這個(gè)「AI 奧林匹克」競賽和其他仿真游戲的區別是什么呢?首先在目的上,我們做這個(gè)比賽是為了探究智能體泛化性,以用于實(shí)際場(chǎng)景。第二,在「AI 奧林匹克」競賽中,智能體并不能獲取全部信息,而是只提供部分信息,我們想知道系統如何解決問(wèn)題。
我們只有把一個(gè)跨任務(wù)的,信息不完備的場(chǎng)景弄清楚,才能夠解決一些實(shí)際問(wèn)題,模型的泛化能力也就增強了。
我們在「AI 奧林匹克」系列競賽中運用了多智能體人工智能的思路。關(guān)于「多智能體人工智能是不是只能用在游戲里,還是也能用于其他場(chǎng)景」這個(gè)問(wèn)題,我們認為在多智能體場(chǎng)景下可以「重新制定(reformulate)」實(shí)際問(wèn)題。比如在運籌優(yōu)化里,包括經(jīng)典的旅行推銷(xiāo)員問(wèn)題(TSP,travel salesman problem) 多智能體學(xué)習能發(fā)揮 跨任務(wù)的優(yōu)勢,也在 meta level 層面解決這個(gè)問(wèn)題。
TSP 是一系列問(wèn)題,這一系列問(wèn)題是有共性的。我們要在 meta level 上找到這個(gè)共性,建模一個(gè)新的 TSP 問(wèn)題,只需少量數據就能很快找到答案,進(jìn)而對提出解決方案提供指導作用。
傳統的優(yōu)化算法只能解決一個(gè) TSP 問(wèn)題,對于第二個(gè)第三個(gè)等等 TSP 問(wèn)題沒(méi)有泛化性。第二,傳統方法中能夠提升模型能力的只有數據。解決第一個(gè)問(wèn)題的數據可以和之后新添加的數據結合起來(lái),讓模型的能力進(jìn)一步提高。因此這種方法是數據驅動(dòng)的(data driven)。
我們用多智能體的方式,把數據驅動(dòng)和 meta level 結合到 TSP server 里。簡(jiǎn)單來(lái)說(shuō),我會(huì )做一個(gè) meta level 的 求解方法,然后有一個(gè) Oracle 評價(jià)系統與之對抗。我讓 求解方法 和評價(jià)系統 Oracle 之間就產(chǎn)生一個(gè)對于 TSP 問(wèn)題的競賽。顯然我們可以用互相競爭的多智能體方法來(lái)解決這個(gè)問(wèn)題,例如提供一個(gè)跨任務(wù)的求解方法。多智能體人工智能在 meta level 可以幫助解決一些運籌優(yōu)化的重要問(wèn)題。
我們發(fā)現這里存在一個(gè)趨勢:從單一問(wèn)題遷移到 多個(gè)任務(wù)(meta level) 后,我們可以很快地 pre-solve 預先解決新問(wèn)題,這類(lèi)似于 NLP 自然語(yǔ)言問(wèn)題中預訓練模型的概念。
去年,UC 伯克利考慮在決策智能中使用 transformer 大模型和一些稱(chēng)為離線(xiàn)學(xué)習「offline training」的方法,拉近了 NLP 自然語(yǔ)言和 CV 機器視覺(jué)的距離。offline 的意思是運用一些策略(policy)得到一些數據,然后完全拋開(kāi)仿真器,直接拿數據進(jìn)行有監督訓練。
我們在此基礎上又測試了多智能體。offline 訓練能夠達到的水平是有限的,因為數據有局限性。而 online 方法通過(guò)微調和添加數據能夠不斷改進(jìn)訓練效果。
使用 transformer 做決策的好處是什么?首先它的泛化性非常強,這一個(gè)模型幾乎在所有任務(wù)上的效果都很好。以前每個(gè)任務(wù)都單獨用一個(gè)模型,而現在一個(gè)模型就能解決所有任務(wù)。前段時(shí)間 DeepMind 發(fā)布了一個(gè)大模型,可以解決 CV、NLP 等任務(wù)。當然,DeepMind 的大模型不包括 Multi-Agent ,但這足以證明一個(gè)模型解決多個(gè)領(lǐng)域任務(wù)是大勢所趨。我們應該創(chuàng )建一個(gè)在跨任務(wù)、聯(lián)合 CV、NLP 的通用模型。
在預訓練方面,我們認為多智能體訓練可以用語(yǔ)言模型來(lái)做,把所有的智能體和決策都生成出來(lái)。因此,語(yǔ)言模型的方法可以直接遷移到多智能體上,以達到一個(gè)非常好的效果。
?THE END轉載請聯(lián)系本公眾號獲得授權投稿或尋求報道: 查看全部
倫敦大學(xué)學(xué)院計算機系教授汪軍:決策大模型
機器之心發(fā)布
機器之心編輯部
不久之前,在機器之心舉辦的「決策智能產(chǎn)業(yè)應用」在線(xiàn)圓桌論壇上,倫敦大學(xué)學(xué)院計算機系教授汪軍發(fā)表了主題演講《決策大模型》。
機器之心對汪軍教授的演講內容進(jìn)行了不改變原意的整理。感興趣的小伙伴可以點(diǎn)擊閱讀原文查看回顧視頻。
謝謝機器之心的邀請,我今天分享的題目是《決策大模型》。首先我將要介紹我們在決策智能領(lǐng)域做的一些研究,同時(shí)我認為大模型很重要,它代表了其在現在技術(shù)上的一個(gè)思路,不管從技術(shù)突破層面,還是實(shí)際應用層面,大模型可能給大家帶來(lái)不一樣的東西,同時(shí)大模型也有不足之處,學(xué)術(shù)界、工業(yè)界也在不斷地推進(jìn)大模型發(fā)展,所以這是一個(gè)不斷發(fā)展的研究領(lǐng)域,最后我會(huì )點(diǎn)題大模型。
決策智能和預測智能是有差別的。需要強調的是在人工智能應用領(lǐng)域,一開(kāi)始我們是在做感知智能、預測智能,這相當于在數據里面找規律,有了規律以后,我們希望能夠反饋到數據來(lái)改變數據,甚至能夠優(yōu)化決策,對數據產(chǎn)生改變,然后形成閉環(huán)。
我目前在上?;I備一個(gè)名為「數字大腦研究院」的機構,這是一家以科技創(chuàng )新與資本聯(lián)動(dòng)方式加速科技成果快速商業(yè)化的新型科研機構,已經(jīng)研發(fā)出全球第一個(gè)多智能體決策大模型。其目的也是想把決策智能應用,進(jìn)行更清楚地梳理,特別是用大模型大數據來(lái)解決決策智能問(wèn)題,驅動(dòng)各產(chǎn)業(yè)全面智能化升級。
今天我講的內容主要分成幾個(gè)部分。
首先我會(huì )介紹決策在數學(xué)上是怎么表達的,以及為何如此重要。
第二部分我會(huì )介紹決策智能最重要、最關(guān)鍵的問(wèn)題:安全性和魯棒性問(wèn)題。決策智能可應用于互聯(lián)網(wǎng),比如搜索推薦廣告,這些對安全要求其實(shí)并不高,其本質(zhì)就是推薦內容,推薦錯了也不會(huì )造成大的財產(chǎn)損失,只要平均能提高百分之幾的點(diǎn)擊率就可以了。所以在互聯(lián)網(wǎng)上的這些搜索廣告推薦,很容易就會(huì )用到?jīng)Q策的一些方法。但是我們將決策智能用到工業(yè)互聯(lián)網(wǎng),或是其他地方,情況可能就不一樣了,我們必須有一個(gè)從理論上、實(shí)際上都要保證它是安全、魯棒的。因此我會(huì )介紹一下這方面的思路是什么、研究方法,以及可能的實(shí)現方法,此外我還會(huì )介紹各個(gè)技術(shù)點(diǎn)。
第三部分我會(huì )介紹因果分析。
第四部分我會(huì )介紹貝葉斯優(yōu)化,貝葉斯優(yōu)化數據樣本效率特別高,使得我們在小數據的情況下也可以做決策。
最后我會(huì )介紹大模型,我們?yōu)槭裁匆鰶Q策的大模型?我們應該怎么做?潛在的影響是什么?
決策
首先是決策,歷史上笛卡爾在 17 世紀作為哲學(xué)家和數學(xué)家,就開(kāi)始思考人是怎樣做決策的。當然那時(shí)的科學(xué)還是比較落后的,給出的解釋是比較機械的。大家都知道所謂的二元論觀(guān)點(diǎn),即在大腦里面,二元論觀(guān)點(diǎn)認為有一個(gè)特定的器官:松果體。心靈和肉體之間有一個(gè)交互的地方,這個(gè)地方就是在大腦的松果體里。心靈是沒(méi)法解釋的,但是心靈可以控制人體行為動(dòng)作,通過(guò)心靈的引導人類(lèi)能夠進(jìn)行一些日常決策、行動(dòng)等。以上是對人的決策解釋。
其實(shí)再往前、往大的地方考慮的話(huà),有一個(gè)思路可以去解釋人、生命,即熵增熵減。整個(gè)宇宙是一個(gè)熵增的過(guò)程,即從有序變無(wú)須的狀態(tài)。假設某個(gè)封閉的空間被抽成了真空,在一邊劃一個(gè)裂縫,將氣體放進(jìn)去,慢慢擴散到整個(gè)空間,這種氣體的擴散就是從有序變成無(wú)序的狀態(tài)。生命體則相反,吸收能量,是從無(wú)序走向有序的狀態(tài);于是從人生下來(lái)到死亡是一個(gè)熵減的過(guò)程。人的生活日常其實(shí)是在找規律,即使生活環(huán)境在變,人內環(huán)境的很多東西是不會(huì )變的,比如說(shuō)身體的體溫,身體體液的成分等。所以作為一個(gè)生命體,無(wú)論外界的情況如何變化,其內部總是希望保持一個(gè)恒定的狀態(tài)。
人類(lèi)開(kāi)發(fā)了人工智能以及各種技術(shù),必然是幫助我們解決不變性的,或者說(shuō)是解決熵減。所以按照這個(gè)思路進(jìn)行思考,就會(huì )比較容易理解一個(gè)生命體如何去做決策,或者說(shuō)生命體做決策原理是什么。我們用一個(gè)最簡(jiǎn)化的數學(xué)模型來(lái)描述這個(gè)過(guò)程。
如下圖,比如說(shuō)整個(gè)世界假設它是不可知的,我們可以用一個(gè)隱變量 s* 來(lái)描述這個(gè)世界(或者說(shuō)代表世界運行的規律或真理)。然后作為個(gè)體,比如生命體或是細胞,存在于這個(gè)世界當中,受這個(gè)世界運行影響。這個(gè)生命體不知道 S * 但會(huì )觀(guān)察這個(gè)外部世界,假設這個(gè)觀(guān)察量是 o (因為 s * 是不可觀(guān)察的,但是 o 是 s * 生成的,可以推理出 s*) 。透過(guò) o,生命體對 s * 有了理解,但生命體不是 100% 完全可以推理出自然界隱藏的規律。比如說(shuō)重力,牛頓根據蘋(píng)果落地這樣一個(gè)事實(shí),他觀(guān)察到了這種現象 o,對真實(shí)世界產(chǎn)生一定認知和理解,這個(gè)認知和理解就是 s。但是 s 和 s * 可能不一樣,也可能一樣,因為其代表了個(gè)體對外界的理解。當個(gè)體理解以后,個(gè)體就會(huì )采取行動(dòng)(下圖的 u)改變世界,比如說(shuō)人,人可以改變世界,細胞可以釋放某些東西,與病毒做斗爭,所有這些都是個(gè)體對外界的影響。在外界影響的情況下,改變自然界,自然界然后又會(huì )出現新的狀態(tài)規律,個(gè)體在根據觀(guān)察做出理解和改變,依次反復。
所以對于感知智能來(lái)說(shuō),感知是從觀(guān)察到發(fā)現規律 o -> s;決策智能,就是從規律再返回事件 s -> u,來(lái)改變數據環(huán)境。
感知是主觀(guān)的,它是個(gè)體的感知,每個(gè)人可能不一樣,難以用語(yǔ)言來(lái)描述,但可以通過(guò)其他方式來(lái)描述。人與人之間會(huì )產(chǎn)生共鳴,這是為什么?因為你的感知和另外一個(gè)人的感知,對于觀(guān)察到的同一個(gè)東西或者觀(guān)察到的同一現象可能不一樣,但是會(huì )產(chǎn)生共鳴。所以當你看到這些繪畫(huà)的時(shí)候,就會(huì )和這些繪畫(huà)的作者產(chǎn)生共鳴。所以這就是感知方面的一個(gè)規律,這個(gè)也就是藝術(shù)存在的本源。
決策是如何進(jìn)行的?效用理論 (Utility theory)。John Von Neuman 是一位非常著(zhù)名的數學(xué)家,同時(shí)也是計算機學(xué)科的奠基人,他同時(shí)也創(chuàng )立了 Games Theory。在經(jīng)典的《Games Theory》里,他講到了 Utility theory,提供了一套數學(xué)工具來(lái)告訴大家怎樣去做決策。其數學(xué)表達可以認為是優(yōu)化某一個(gè)特定的函數,選擇能夠最大化函數的值。
如果一個(gè)智能體是理性的話(huà),那么怎樣做決策呢?我們還是用上面的這個(gè)例子來(lái)講,假設人或者機器都可以,他們存在于一個(gè)世界中,我從外界觀(guān)察到一個(gè)信號 o,那么我要選擇的最優(yōu)決策是什么 u?貝葉斯決策理論就是說(shuō),當我觀(guān)察 o 的時(shí)候,其實(shí)對 s 到底長(cháng)什么樣已經(jīng)有了一定的估計,比如說(shuō)一個(gè)分布和描述。通過(guò)觀(guān)察 o 之后的后驗知識,那么我對自然界的一些規律和法則有了一定的了解。這個(gè)了解反映在它的分布和后驗概率上 p(s|o)。也就是說(shuō),我對它的了解有一定的不確定性。

再來(lái)看所謂的獎勵函數。如果自然界長(cháng)成這個(gè)樣子 s,我采取了行動(dòng) u,那么我的獲利應該是多少,我們用 R(s,u) 這個(gè)函數來(lái)描述?只要你可以定義這個(gè)獲利,就可以最大化平均的獲利值。我選擇自己的決策,最大化預期利益或者說(shuō)平均利益。貝葉斯決策理論可以告訴你,這個(gè)就是最優(yōu)的決策。剛才其他演講者講到強化學(xué)習和優(yōu)化,無(wú)外乎就是上述公式,優(yōu)化一個(gè)特定的(獎勵)函數。我選擇的這個(gè)決策變量使得這個(gè)函數值是最大化的。
另外一個(gè)更基礎的問(wèn)題來(lái)了,什么是智能呢?其實(shí),智能可以用函數來(lái)解決。我使得自己的長(cháng)期收益是最好的,比如說(shuō)經(jīng)典的巴普洛夫條件反射,為什么狗可以跟它的鈴聲和食物產(chǎn)生聯(lián)系呢?為什么一聽(tīng)到鈴聲就會(huì )產(chǎn)生唾液呢?這是因為它學(xué)習到了你經(jīng)常一敲鈴便會(huì )給它食物,這樣狗當然就迅速行動(dòng)了。
從長(cháng)期角度來(lái)講,對狗這個(gè)生命體來(lái)說(shuō),它優(yōu)化了自己「迅速跑到這邊獲取食物」。狗的行為最優(yōu)的的表現是它可以適應環(huán)境獲取食物,從長(cháng)時(shí)間來(lái)達到它的受益。
但實(shí)際上,我們說(shuō)做(機器)決策智能的時(shí)候,包括將來(lái)講的應用如互聯(lián)網(wǎng)廣告,已經(jīng)廣泛地應用到了。我之前做聯(lián)合創(chuàng )始人的公司就是專(zhuān)門(mén)做強化學(xué)習用于互聯(lián)網(wǎng)廣告。除了強化學(xué)習,決策智能有其他的表現形式或數學(xué)表達,能夠解決不一樣的東西。
剛才有演講者講到了運籌優(yōu)化的內容。運籌優(yōu)化本質(zhì)是個(gè)優(yōu)化問(wèn)題,就是我給定一個(gè)目標函數 f(x),它可以是知道的,也可以是不知道的。在不知道的情況下,我們叫它黑盒優(yōu)化;在知道的情況下,我們叫它白盒優(yōu)化。然后,我的目的是要找到?jīng)Q策 x,我選擇自己的決策并最大化函數 f。這個(gè)函數可以是剛才說(shuō)到的 utility 獎勵函數,也可以是其他各種各樣的函數。那么如果從這個(gè)角度來(lái)講的話(huà),它就有很廣泛的用途。
比如其他演講者所講的電廠(chǎng)和 EDA 優(yōu)化的問(wèn)題。生物化學(xué)上,我們甚至可以用它來(lái)尋找抗體,就是用機器學(xué)習或黑盒優(yōu)化的方法,幫助找到更合適的抗體。還有演講者提到的 AutoML,它們本質(zhì)上也是黑盒優(yōu)化問(wèn)題。
黑盒優(yōu)化里面比較好的方法就是貝葉斯優(yōu)化,比如我們做優(yōu)化時(shí)允許去試錯。我們找一些 x「喂」到 f 里面,然后去測試(給出 f 的值)。如果說(shuō)我們的任務(wù)是找抗體的話(huà),則允許做一些黑盒實(shí)驗,看看化學(xué)反應如何。然后我們再去建一個(gè)對 f 了解的模型,叫做代理模型(surrogate model)。接著(zhù)再創(chuàng )建一個(gè)采集函數 (acquisition function),告訴我們下一個(gè)實(shí)驗應該怎么做 (下一個(gè)測試的輸入值 x 應該是什么),然后無(wú)限循環(huán)往復,直到實(shí)現最優(yōu) 。
貝葉斯優(yōu)化好處是什么?它從理論上保證能夠找到全局最優(yōu)。同時(shí)它也能減少做實(shí)驗的次數,所以貝葉斯優(yōu)化可以幫助我們在數據稀疏的情況下,去優(yōu)化決策。
大約一年前,我帶著(zhù)華為團隊一起做了一個(gè)貝葉斯優(yōu)化算法,獲得 NeurIPS 黑盒優(yōu)化冠軍,名字為河伯,該系統已經(jīng)開(kāi)源,被研究者廣泛使用,該研究應用領(lǐng)域包括在 Auto ML、蛋白質(zhì)設計、 MindSpore 超參數優(yōu)化、機器學(xué)習系統里的 rate 超參數優(yōu)化,此外還包括各種各樣的實(shí)際場(chǎng)景應用。接下來(lái)我會(huì )介紹幾個(gè)例子,我認為這是比強化學(xué)習更容易落地、更接地氣的方法,因為這種方法對數據要求不高。
以上是我介紹的決策智能一些重點(diǎn)內容。那么決策智能難點(diǎn)在哪?剛才有演講者講了安全的知識,安全在決策智能中非常重要,我會(huì )稍微介紹一下最近的一些算法,然后我再講一些因果分析的內容(對決策的可解釋性提供了理論基礎)。
大約十多年前,我剛去 UCL 的時(shí)候,對互聯(lián)網(wǎng)搜索的問(wèn)題很感興趣。其中很關(guān)心搜索引擎的不確定性問(wèn)題,比如用戶(hù)使用百度搜索 iPhone 4 代,能搜索出結果。但是當用戶(hù)搜索了一個(gè)困難的主題關(guān)鍵字,可能沒(méi)有一個(gè)跟用戶(hù)的需求相關(guān)的,那么用戶(hù)就會(huì )不在用這個(gè)搜索引擎,改用其他的搜索方法。所以搜索引擎需要有個(gè)有效的方法避免以上問(wèn)題出現。
我們該如何看待這個(gè)問(wèn)題?其實(shí)就是最大化用戶(hù)滿(mǎn)意度。我們在 2009 年做過(guò)一套理論,參考了投資的一些原則,就是不要把所有的錢(qián)都投到同一個(gè)地方。為什么這樣做?因為股票價(jià)值有高有低,之間此起彼伏,你需要多樣化投資組合。同樣的道理,你在做搜索推薦或者互聯(lián)網(wǎng)廣告時(shí),不要把你認為用戶(hù)相關(guān)的都展示出來(lái),萬(wàn)一判斷有錯怎么辦,所以你要多樣化你的文件列表。當時(shí)在學(xué)術(shù)圈,大家都已經(jīng)開(kāi)始做 多元化排序了,但其實(shí)沒(méi)有給出一套理論,我們給出了一套理論,該理論告訴搜索引擎在什么時(shí)候多樣化,多樣化多少的的。SIGIR 對這個(gè)工作非常認可,去年授予了 test of time honorable mention: 十年、甚至十幾年之后再去看這篇文章,還是非常有影響力的。我本身對這個(gè)工作還是非常自豪的。
安全和魯棒
在工業(yè)互聯(lián)網(wǎng)時(shí)代,需要做更加精細的決策,安全與風(fēng)險是其中重要的部分。我之前帶領(lǐng)了華為諾亞實(shí)驗室倫敦團隊,在 2022 年發(fā)表在機器學(xué)習會(huì )議 ICML 上的一篇文章(SAUTE RL)。幾乎肯定(或以概率為一)的滿(mǎn)足安全約束對于在現實(shí)應用中部署強化學(xué)習 (RL) 至關(guān)重要。例如,飛機著(zhù)陸和起飛在理想情況下應該以概率 1 發(fā)生。我們團隊通過(guò)引入安全增強的馬爾可夫決策過(guò)程(MDP)來(lái)解決這個(gè)問(wèn)題,其中通過(guò)將安全約束增強到狀態(tài)空間并重塑目標來(lái)消除安全約束。團隊證明了 “炒” (Saute)過(guò)的馬科夫決策過(guò)程( MDP) 滿(mǎn)足貝爾曼 (Bellman) 方程,并更接近于解決幾乎肯定滿(mǎn)足約束的安全強化學(xué)習。團隊認為 Saute MDP 采用了一個(gè)不同角度對待安全決策問(wèn)題。例如,新提出的方法具有即插即用的特性,即任何 RL 算法都可以 “炒”。此外,狀態(tài)增強允許跨安全約束的策略泛化。最終表明,當約束滿(mǎn)足非常重要時(shí),Saute RL 算法可以超越其最先進(jìn)的算法。在下圖所示的實(shí)驗中,可以 Saute RL 算法在一些極端的測試下,安全性仍然是綠色的,圖中虛線(xiàn)表示 100% 安全。Saute RL 算法在一些安全性要求較高的場(chǎng)景廣泛應用,比如電力、自動(dòng)駕駛等。
這是我們做的一個(gè)實(shí)驗,可以看到在一些 setting 極端策略下, 我們的方法保證 100% 安全。不管從實(shí)驗上、還是理論上我們都可以 100% 得到安全保障。如果用這些方法,我們在一些嚴格的安全性場(chǎng)景里,比如電力、自動(dòng)駕駛等,我們就可以廣泛地使用這些強化學(xué)習和優(yōu)化決策的方法了。
另外一個(gè)更難的問(wèn)題是如何保證模型訓練安全。我們將類(lèi)似的方法運用到訓練中。訓練過(guò)程中加入一個(gè)安全狀態(tài),它會(huì )記錄歷史上的操作是否安全,在學(xué)習的過(guò)程中可以根據安全狀態(tài)選擇安全的路徑。
因果分析
下面介紹因果分析 ,剛才有人講到數字孿生,這其中涉及模型和數據的關(guān)系。所謂數字孿生,本質(zhì)就是對真實(shí)世界建模,如果僅憑自己想象建模,那結果和真是世界差別很大。同樣的道理,假如你有數據,但數據不代表真實(shí)情況,數據在采樣的情況下就存在偏差,用存在偏差的數據建立模型,顯然不能真實(shí)地反映情況,導致模型和數據之間有差別。如果你用這些數據建立數字孿生去仿真、去學(xué)習,顯然不準確。所以數字孿生的核心問(wèn)題就是建立必須要讓它與環(huán)境一致、與數據一致 。舉例來(lái)說(shuō),在推薦系統里面,我們可以去做推薦的仿真 ,可以去仿真數據,但是要強調的是仿真必須跟真實(shí)情況保持一致。
我認為 Judea Pearl 因果分析的研究很有意義,給我們提供了很好的理論基礎。他提出的 結構化的因果模型(structure causal model)對 因果關(guān)系提供了一個(gè)系統的描述。從我個(gè)人理解來(lái)講,如果將其與 圖模型或者主流的統計方法相比的話(huà),主要區別在于增加了外生變量,這些外生變量對系統會(huì )造成改變。我們必須有一套理論去理解它,而不是假設它不存在,假如這些外生變量不存在,你就沒(méi)有規則去完全消除這些偏差( bias)的問(wèn)題。只有對這些外生變量建模,模型才會(huì )有效。Judea Pearl 的一個(gè)思路很有意思,就是系統的介紹了干預和想象的操作。比如 A 和 B 經(jīng)常在一起,當有 A 的時(shí)候,預測 B 的存在。但實(shí)際上 A 和 B 的存在可能是另外一個(gè) confounding 干擾變量的影響, A 和 B 實(shí)際上沒(méi)有任何內在的因果關(guān)系,他們只是關(guān)聯(lián)(association)的關(guān)系。
第二個(gè)就是 DO 操作,就是去干預 ,假如改變某一個(gè)量,另外一個(gè)量會(huì )不會(huì )隨之改變。如果我看到 A ,就說(shuō)明看到 B, 哪一天 A 消失了, B 是不是也消失了,還是 B 因為另外一個(gè) confounding 的存在導致 B 一直存在,所以你可以通過(guò)此方法進(jìn)行分析 。
第三個(gè)是想象 (imagine),你可以問(wèn) what if 問(wèn)題,剛才我們在講運籌優(yōu)化的時(shí)候,會(huì )進(jìn)行 what if 分析,問(wèn)如果當初我們執行另外一個(gè)策略,會(huì )給我們帶來(lái)什么。沒(méi)有進(jìn)行 what if 推論,就把一個(gè)策略執行到實(shí)際中是不科學(xué)的。所以,我們需要在仿真器里問(wèn)「what if question」問(wèn)題,即如果這樣做結果會(huì )怎么樣,是不是有更好的決策,這就是所謂的反事實(shí)(counterfactual),它實(shí)際沒(méi)有出現,需要在腦子里進(jìn)行想象,用數字孿生去想象,但必須保證 counterfactual 是無(wú)偏見(jiàn)的。所以,如果我們要做數字孿生,就必須解決 counterfactual 的問(wèn)題。

舉例來(lái)說(shuō),在智能推薦系統里,首要的問(wèn)題是數據偏差問(wèn)題,如下圖標記的有用戶(hù) user (U)、 推薦列表 recommendation list (R)、 正例 positive items (S) 。一個(gè)物品 items 要被用戶(hù)喜歡并且被觀(guān)察到,必須滿(mǎn)足兩個(gè)條件,首先要被推薦,如果沒(méi)有推薦,用戶(hù)就看不到,所以必須和 R 有關(guān)系;同時(shí)要跟用戶(hù) U 有關(guān)系,就是用戶(hù)可能喜歡、也可能不喜歡。同時(shí)喜歡并且被推薦了,那么這個(gè) item 是被觀(guān)察了 S, 在數據里面它是有 bias 的,如果它不在推薦系統里面,但用戶(hù)是喜歡的,這種情況下是觀(guān)察不到的。如果你使用觀(guān)察到的這些數據來(lái)構建仿真器,必然存在一個(gè)偏差項,是被推薦過(guò)去,只有被推薦過(guò)的東西你才會(huì )看見(jiàn)被仿真。但實(shí)際上還有那些沒(méi)有被推薦,實(shí)際上用戶(hù)可能喜歡的,所以你需要問(wèn) what if question,用戶(hù)是不是喜歡,如果用戶(hù)喜歡,你就推薦,如果用戶(hù)不喜歡,你就不推薦。
我們需要構建一個(gè)所謂的 數據產(chǎn)生模型 data impression model 和用戶(hù)反饋模型 user feedback model 。外生變量是需要模型的,在一般的推薦系統里面,它是不存在建模問(wèn)題的。圖中的 beta 也是個(gè)外層變量 ,需要對它進(jìn)行建模并估計。當出現新數據時(shí),我們需要估計 alpha 、beta ,然后再去糾正當前狀態(tài), 進(jìn)行真正的仿真。
我們也做了一些理論分析,如果我們有這樣的仿真系統,數據多事效果會(huì )更好。這就面臨一個(gè)問(wèn)題,有了數據以后,我是用數據來(lái)構建仿真器再去做決策,還是直接用數據做優(yōu)化決策。方案是如果你有 inductive bias 歸納偏置,構建到這個(gè)模型里面,這樣用仿真器才有意義。
小數據決策
然后我再講一下貝葉斯優(yōu)化。
我帶領(lǐng)華為團隊解決電子設計自動(dòng)化 EDA 問(wèn)題 時(shí),我們用貝葉斯優(yōu)化解決各種各樣的 EDA 的問(wèn)題。EDA 問(wèn)題其實(shí)是一個(gè)離散優(yōu)化 combination optimization 的問(wèn)題,比如我們研究的一系列序列決策問(wèn)題。我們在邏輯綜合里面,想把整個(gè)的邏輯 數據轉換成另一個(gè) 更實(shí)際的簡(jiǎn)化的邏輯實(shí)際,使它的邏輯功能完全不變,對于是否完全不變,我可以用 QoR 來(lái)橫量它,QoR 值是多少,我是不知道的,我沒(méi)有任何的數學(xué)表達,但是經(jīng)過(guò)不斷的試錯,可以達到最優(yōu),但怎么提高試錯效率?顯然我就可以用剛才講的貝葉斯黑盒優(yōu)化,對 QoR 進(jìn)行建模,然后去解決這個(gè)問(wèn)題。
今年我們也發(fā)表了論文來(lái)闡述怎樣用貝葉斯優(yōu)化來(lái)做邏輯綜合。順便提一下,我們?yōu)槿A為團隊做的研究達到 SOTA 水平,該研究在公開(kāi)測試數據里名列前茅,所以貝葉斯優(yōu)化為解決邏輯綜合問(wèn)題提供了一個(gè)比較好的思路。
我再舉另外一個(gè)例子,我想設計一個(gè)抗體能夠抗擊抗原,這兩種蛋白質(zhì)會(huì )發(fā)生一些反應。這里我們就要找出氨基酸的排列次序及其形成的蛋白質(zhì),使得 Binding-Energy 結合能最小化。使用窮舉的方法幾乎是不可能的,因為可能性空間太大了。小數據決策就需要貝葉斯優(yōu)化了。
另外,我們如何形成應用大模型和大數據的思路?我們組做了很多多智能體強化學(xué)習方向的研究。那么,智能交互相關(guān)的研究只能用在游戲上嗎,是不是可以用到其他應用上?回答是肯定的。我們最近做了一個(gè)游戲場(chǎng)景的「AI 奧林匹克」系列競賽,因為游戲場(chǎng)景可以放大決策中的關(guān)鍵問(wèn)題,使我們能夠找到其中的規律。我們的目的是通過(guò)游戲的方式弄清楚決策中的技術(shù)方法,以用到其他各種場(chǎng)景中。
這個(gè)「AI 奧林匹克」競賽和其他仿真游戲的區別是什么呢?首先在目的上,我們做這個(gè)比賽是為了探究智能體泛化性,以用于實(shí)際場(chǎng)景。第二,在「AI 奧林匹克」競賽中,智能體并不能獲取全部信息,而是只提供部分信息,我們想知道系統如何解決問(wèn)題。
我們只有把一個(gè)跨任務(wù)的,信息不完備的場(chǎng)景弄清楚,才能夠解決一些實(shí)際問(wèn)題,模型的泛化能力也就增強了。
我們在「AI 奧林匹克」系列競賽中運用了多智能體人工智能的思路。關(guān)于「多智能體人工智能是不是只能用在游戲里,還是也能用于其他場(chǎng)景」這個(gè)問(wèn)題,我們認為在多智能體場(chǎng)景下可以「重新制定(reformulate)」實(shí)際問(wèn)題。比如在運籌優(yōu)化里,包括經(jīng)典的旅行推銷(xiāo)員問(wèn)題(TSP,travel salesman problem) 多智能體學(xué)習能發(fā)揮 跨任務(wù)的優(yōu)勢,也在 meta level 層面解決這個(gè)問(wèn)題。
TSP 是一系列問(wèn)題,這一系列問(wèn)題是有共性的。我們要在 meta level 上找到這個(gè)共性,建模一個(gè)新的 TSP 問(wèn)題,只需少量數據就能很快找到答案,進(jìn)而對提出解決方案提供指導作用。
傳統的優(yōu)化算法只能解決一個(gè) TSP 問(wèn)題,對于第二個(gè)第三個(gè)等等 TSP 問(wèn)題沒(méi)有泛化性。第二,傳統方法中能夠提升模型能力的只有數據。解決第一個(gè)問(wèn)題的數據可以和之后新添加的數據結合起來(lái),讓模型的能力進(jìn)一步提高。因此這種方法是數據驅動(dòng)的(data driven)。
我們用多智能體的方式,把數據驅動(dòng)和 meta level 結合到 TSP server 里。簡(jiǎn)單來(lái)說(shuō),我會(huì )做一個(gè) meta level 的 求解方法,然后有一個(gè) Oracle 評價(jià)系統與之對抗。我讓 求解方法 和評價(jià)系統 Oracle 之間就產(chǎn)生一個(gè)對于 TSP 問(wèn)題的競賽。顯然我們可以用互相競爭的多智能體方法來(lái)解決這個(gè)問(wèn)題,例如提供一個(gè)跨任務(wù)的求解方法。多智能體人工智能在 meta level 可以幫助解決一些運籌優(yōu)化的重要問(wèn)題。
我們發(fā)現這里存在一個(gè)趨勢:從單一問(wèn)題遷移到 多個(gè)任務(wù)(meta level) 后,我們可以很快地 pre-solve 預先解決新問(wèn)題,這類(lèi)似于 NLP 自然語(yǔ)言問(wèn)題中預訓練模型的概念。
去年,UC 伯克利考慮在決策智能中使用 transformer 大模型和一些稱(chēng)為離線(xiàn)學(xué)習「offline training」的方法,拉近了 NLP 自然語(yǔ)言和 CV 機器視覺(jué)的距離。offline 的意思是運用一些策略(policy)得到一些數據,然后完全拋開(kāi)仿真器,直接拿數據進(jìn)行有監督訓練。
我們在此基礎上又測試了多智能體。offline 訓練能夠達到的水平是有限的,因為數據有局限性。而 online 方法通過(guò)微調和添加數據能夠不斷改進(jìn)訓練效果。
使用 transformer 做決策的好處是什么?首先它的泛化性非常強,這一個(gè)模型幾乎在所有任務(wù)上的效果都很好。以前每個(gè)任務(wù)都單獨用一個(gè)模型,而現在一個(gè)模型就能解決所有任務(wù)。前段時(shí)間 DeepMind 發(fā)布了一個(gè)大模型,可以解決 CV、NLP 等任務(wù)。當然,DeepMind 的大模型不包括 Multi-Agent ,但這足以證明一個(gè)模型解決多個(gè)領(lǐng)域任務(wù)是大勢所趨。我們應該創(chuàng )建一個(gè)在跨任務(wù)、聯(lián)合 CV、NLP 的通用模型。
在預訓練方面,我們認為多智能體訓練可以用語(yǔ)言模型來(lái)做,把所有的智能體和決策都生成出來(lái)。因此,語(yǔ)言模型的方法可以直接遷移到多智能體上,以達到一個(gè)非常好的效果。
?THE END轉載請聯(lián)系本公眾號獲得授權投稿或尋求報道:
編程如何快速搞定google文章爬蟲(chóng)搜索引擎索引關(guān)鍵詞權重算法
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 109 次瀏覽 ? 2022-07-04 16:02
搜索引擎主題模型優(yōu)化關(guān)鍵詞優(yōu)化ebm高質(zhì)量搜索引擎索引關(guān)鍵詞權重算法低質(zhì)量關(guān)鍵詞權重減少ebmrobotboat改進(jìn)因特網(wǎng)蜘蛛效率基于站點(diǎn)的搜索引擎實(shí)時(shí)檢索實(shí)用索引指南詳盡的內容如何將現有不適合添加到搜索引擎第三方主題模型的內容加入到搜索引擎索引樹(shù)中索引樹(shù)索引樹(shù)索引樹(shù)索引樹(shù)博客索引樹(shù)博客索引樹(shù)通用文章索引樹(shù)通用文章索引樹(shù)通用文章索引樹(shù)-通用文章索引樹(shù)搜索引擎實(shí)踐:標題如何重點(diǎn)定位文章的中心思想robotboat文章檢索模型robotboat系列文章robotboat簡(jiǎn)介。
編程如何快速搞定google文章爬蟲(chóng)
搜索引擎適合于客戶(hù)查詢(xún),需要從知識庫中查詢(xún)信息,所以,對于這種場(chǎng)景,其實(shí)關(guān)鍵點(diǎn)還是在于數據的整理,關(guān)鍵詞分析等等。優(yōu)化搜索引擎搜索引擎就是收集網(wǎng)站上的所有數據,然后統計這些數據,根據這些信息進(jìn)行推斷,進(jìn)行排名以及相關(guān)優(yōu)化。所以,在進(jìn)行搜索引擎優(yōu)化之前,你先要了解好你這個(gè)關(guān)鍵詞。在做搜索引擎優(yōu)化之前,需要對這個(gè)關(guān)鍵詞以及行業(yè)有很好的了解,了解這個(gè)行業(yè)里的網(wǎng)站情況,用戶(hù)的搜索習慣,平臺的優(yōu)勢以及劣勢。如果真的是做好搜索引擎優(yōu)化,你需要對這個(gè)行業(yè)以及網(wǎng)站進(jìn)行分析,從中你可以總結一些經(jīng)驗。
目標網(wǎng)站:搜索引擎優(yōu)化的關(guān)鍵詞:優(yōu)化策略、建站方法、網(wǎng)站構建、注冊流程、數據分析、faq等數據和技術(shù)方面:seo工具、seo人才等搜索引擎優(yōu)化涉及的內容:了解站長(cháng)平臺的功能對于搜索引擎優(yōu)化要點(diǎn):根據你們自己的業(yè)務(wù)和數據實(shí)際情況,制定相應的策略。
1、改善網(wǎng)站的友好性,
2、網(wǎng)站的內容豐富性:網(wǎng)站標題、網(wǎng)站描述、網(wǎng)站導航、網(wǎng)站內容、網(wǎng)站結構和結構化數據;
3、友好性與內容完善性。
4、明確網(wǎng)站在搜索引擎中的定位。在開(kāi)始優(yōu)化前需要明確你們在網(wǎng)站優(yōu)化中的主要工作重點(diǎn),然后分門(mén)別類(lèi)列表優(yōu)化相應的內容,可以使用一些工具來(lái)幫助工作。
5、利用其他搜索引擎友好性增加用戶(hù)互動(dòng),
6、做一個(gè)分類(lèi),全面的列出搜索引擎優(yōu)化中需要注意的事項,只列出簡(jiǎn)單的事項,使搜索引擎蜘蛛爬取爬蟲(chóng)可以爬行它。seo優(yōu)化的流程:數據分析:網(wǎng)站數據,同行業(yè)用戶(hù)評價(jià);網(wǎng)站優(yōu)化,seo深度分析,抓取收錄,標題、描述、結構、內容等細節優(yōu)化;常規工作:robots、文件上傳、優(yōu)化info、各種數據統計等工作。 查看全部
編程如何快速搞定google文章爬蟲(chóng)搜索引擎索引關(guān)鍵詞權重算法
搜索引擎主題模型優(yōu)化關(guān)鍵詞優(yōu)化ebm高質(zhì)量搜索引擎索引關(guān)鍵詞權重算法低質(zhì)量關(guān)鍵詞權重減少ebmrobotboat改進(jìn)因特網(wǎng)蜘蛛效率基于站點(diǎn)的搜索引擎實(shí)時(shí)檢索實(shí)用索引指南詳盡的內容如何將現有不適合添加到搜索引擎第三方主題模型的內容加入到搜索引擎索引樹(shù)中索引樹(shù)索引樹(shù)索引樹(shù)索引樹(shù)博客索引樹(shù)博客索引樹(shù)通用文章索引樹(shù)通用文章索引樹(shù)通用文章索引樹(shù)-通用文章索引樹(shù)搜索引擎實(shí)踐:標題如何重點(diǎn)定位文章的中心思想robotboat文章檢索模型robotboat系列文章robotboat簡(jiǎn)介。
編程如何快速搞定google文章爬蟲(chóng)
搜索引擎適合于客戶(hù)查詢(xún),需要從知識庫中查詢(xún)信息,所以,對于這種場(chǎng)景,其實(shí)關(guān)鍵點(diǎn)還是在于數據的整理,關(guān)鍵詞分析等等。優(yōu)化搜索引擎搜索引擎就是收集網(wǎng)站上的所有數據,然后統計這些數據,根據這些信息進(jìn)行推斷,進(jìn)行排名以及相關(guān)優(yōu)化。所以,在進(jìn)行搜索引擎優(yōu)化之前,你先要了解好你這個(gè)關(guān)鍵詞。在做搜索引擎優(yōu)化之前,需要對這個(gè)關(guān)鍵詞以及行業(yè)有很好的了解,了解這個(gè)行業(yè)里的網(wǎng)站情況,用戶(hù)的搜索習慣,平臺的優(yōu)勢以及劣勢。如果真的是做好搜索引擎優(yōu)化,你需要對這個(gè)行業(yè)以及網(wǎng)站進(jìn)行分析,從中你可以總結一些經(jīng)驗。

目標網(wǎng)站:搜索引擎優(yōu)化的關(guān)鍵詞:優(yōu)化策略、建站方法、網(wǎng)站構建、注冊流程、數據分析、faq等數據和技術(shù)方面:seo工具、seo人才等搜索引擎優(yōu)化涉及的內容:了解站長(cháng)平臺的功能對于搜索引擎優(yōu)化要點(diǎn):根據你們自己的業(yè)務(wù)和數據實(shí)際情況,制定相應的策略。
1、改善網(wǎng)站的友好性,
2、網(wǎng)站的內容豐富性:網(wǎng)站標題、網(wǎng)站描述、網(wǎng)站導航、網(wǎng)站內容、網(wǎng)站結構和結構化數據;

3、友好性與內容完善性。
4、明確網(wǎng)站在搜索引擎中的定位。在開(kāi)始優(yōu)化前需要明確你們在網(wǎng)站優(yōu)化中的主要工作重點(diǎn),然后分門(mén)別類(lèi)列表優(yōu)化相應的內容,可以使用一些工具來(lái)幫助工作。
5、利用其他搜索引擎友好性增加用戶(hù)互動(dòng),
6、做一個(gè)分類(lèi),全面的列出搜索引擎優(yōu)化中需要注意的事項,只列出簡(jiǎn)單的事項,使搜索引擎蜘蛛爬取爬蟲(chóng)可以爬行它。seo優(yōu)化的流程:數據分析:網(wǎng)站數據,同行業(yè)用戶(hù)評價(jià);網(wǎng)站優(yōu)化,seo深度分析,抓取收錄,標題、描述、結構、內容等細節優(yōu)化;常規工作:robots、文件上傳、優(yōu)化info、各種數據統計等工作。
搜索引擎主題模型優(yōu)化目標是什么?如何建立域名主題優(yōu)化
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 192 次瀏覽 ? 2022-07-02 20:01
搜索引擎主題模型優(yōu)化是將搜索引擎結果發(fā)往合適的域名上,但是對于域名優(yōu)化來(lái)說(shuō),搜索引擎主題模型優(yōu)化就可以視為一個(gè)“營(yíng)銷(xiāo)事件”。從我本人做產(chǎn)品經(jīng)理,產(chǎn)品開(kāi)發(fā),以及做增長(cháng)黑客這兩個(gè)這個(gè)過(guò)程,我了解到目前在整個(gè)行業(yè)里,產(chǎn)品經(jīng)理和產(chǎn)品開(kāi)發(fā)的產(chǎn)出物中最核心的一部分就是mvp(最小可行性產(chǎn)品),就是對于一個(gè)產(chǎn)品或服務(wù),它最小可行性產(chǎn)品的不斷迭代。
這個(gè)過(guò)程很關(guān)鍵,這里我們可以把搜索引擎主題模型優(yōu)化看作產(chǎn)品mvp的迭代,它是從域名主題里順藤摸瓜,然后層層篩選的過(guò)程。如何建立域名主題模型呢?通常來(lái)說(shuō),域名主題優(yōu)化的目標要明確:1.搜索引擎主題模型的優(yōu)化目標是什么?2.搜索引擎主題模型怎么確定?3.搜索引擎主題模型怎么做?那么,接下來(lái)就需要分析你域名網(wǎng)站上獲取的信息,包括你域名主題里面的關(guān)鍵詞,你主題里面關(guān)鍵詞和關(guān)鍵詞對應的關(guān)鍵詞里的頁(yè)面的數量以及頁(yè)面的質(zhì)量,在分析你詞對應的頁(yè)面中你的主題的欄目的質(zhì)量,這些質(zhì)量都對應了你域名主題主題的質(zhì)量程度。
找到所有你要優(yōu)化的關(guān)鍵詞,按照詞匯的個(gè)數、搜索量、頻道劃分、欄目劃分、業(yè)務(wù)劃分,比如你做京東,京東這個(gè)詞在百度里面的搜索量為6w個(gè),那么假設你獲取了6w個(gè)關(guān)鍵詞,也就是所有的關(guān)鍵詞,當我們有100w個(gè)關(guān)鍵詞之后,我們可以把這100w個(gè)關(guān)鍵詞拼起來(lái),這個(gè)過(guò)程就是域名主題模型的搭建過(guò)程。那么,對于一個(gè)域名主題模型如何搭建呢?1.主題主要圍繞兩個(gè)相同的詞,這個(gè)非常重要,因為關(guān)鍵詞人群太相似了,會(huì )減小域名主題的覆蓋量,比如你做拼多多產(chǎn)品,拼多多這個(gè)詞,你發(fā)現大部分的買(mǎi)家都是80后,那么80后喜歡拼多多這個(gè)詞,這個(gè)時(shí)候你的主題就可以這么打。
但是對于20-30歲的群體來(lái)說(shuō),比如你做一個(gè)50-80歲的人,他可能想做拼多多這個(gè)主題,就已經(jīng)打不到他們了。但是大家都喜歡這個(gè)主題,你是怎么解決這個(gè)問(wèn)題的?拼多多也可以拿到類(lèi)似的關(guān)鍵詞,那么也都打上相關(guān)的主題,即使他們不在拼多多買(mǎi),但是他們也想買(mǎi),這個(gè)時(shí)候可以一起打上,那么整個(gè)拼多多域名主題的覆蓋也會(huì )增大,那整個(gè)拼多多的結果也就上去了。
2.域名域名模型建立之后,最重要的事情就是域名主題最后一句,主題最后一句一定要準確,為什么這么說(shuō)呢?因為如果域名主題最后一句,整個(gè)域名主題的覆蓋率不到10%,那這個(gè)域名在別人眼里是不是不做也罷呢?因為在第一步詞匯的建立之后,再獲取多少關(guān)鍵詞?其實(shí)全是0,所以第一步建立主題之后,把這個(gè)關(guān)鍵詞打準,對每個(gè)關(guān)鍵詞都做它對應的主題,然后就會(huì )有源源不斷的人陸續上車(chē),并且有。 查看全部
搜索引擎主題模型優(yōu)化目標是什么?如何建立域名主題優(yōu)化
搜索引擎主題模型優(yōu)化是將搜索引擎結果發(fā)往合適的域名上,但是對于域名優(yōu)化來(lái)說(shuō),搜索引擎主題模型優(yōu)化就可以視為一個(gè)“營(yíng)銷(xiāo)事件”。從我本人做產(chǎn)品經(jīng)理,產(chǎn)品開(kāi)發(fā),以及做增長(cháng)黑客這兩個(gè)這個(gè)過(guò)程,我了解到目前在整個(gè)行業(yè)里,產(chǎn)品經(jīng)理和產(chǎn)品開(kāi)發(fā)的產(chǎn)出物中最核心的一部分就是mvp(最小可行性產(chǎn)品),就是對于一個(gè)產(chǎn)品或服務(wù),它最小可行性產(chǎn)品的不斷迭代。

這個(gè)過(guò)程很關(guān)鍵,這里我們可以把搜索引擎主題模型優(yōu)化看作產(chǎn)品mvp的迭代,它是從域名主題里順藤摸瓜,然后層層篩選的過(guò)程。如何建立域名主題模型呢?通常來(lái)說(shuō),域名主題優(yōu)化的目標要明確:1.搜索引擎主題模型的優(yōu)化目標是什么?2.搜索引擎主題模型怎么確定?3.搜索引擎主題模型怎么做?那么,接下來(lái)就需要分析你域名網(wǎng)站上獲取的信息,包括你域名主題里面的關(guān)鍵詞,你主題里面關(guān)鍵詞和關(guān)鍵詞對應的關(guān)鍵詞里的頁(yè)面的數量以及頁(yè)面的質(zhì)量,在分析你詞對應的頁(yè)面中你的主題的欄目的質(zhì)量,這些質(zhì)量都對應了你域名主題主題的質(zhì)量程度。
找到所有你要優(yōu)化的關(guān)鍵詞,按照詞匯的個(gè)數、搜索量、頻道劃分、欄目劃分、業(yè)務(wù)劃分,比如你做京東,京東這個(gè)詞在百度里面的搜索量為6w個(gè),那么假設你獲取了6w個(gè)關(guān)鍵詞,也就是所有的關(guān)鍵詞,當我們有100w個(gè)關(guān)鍵詞之后,我們可以把這100w個(gè)關(guān)鍵詞拼起來(lái),這個(gè)過(guò)程就是域名主題模型的搭建過(guò)程。那么,對于一個(gè)域名主題模型如何搭建呢?1.主題主要圍繞兩個(gè)相同的詞,這個(gè)非常重要,因為關(guān)鍵詞人群太相似了,會(huì )減小域名主題的覆蓋量,比如你做拼多多產(chǎn)品,拼多多這個(gè)詞,你發(fā)現大部分的買(mǎi)家都是80后,那么80后喜歡拼多多這個(gè)詞,這個(gè)時(shí)候你的主題就可以這么打。

但是對于20-30歲的群體來(lái)說(shuō),比如你做一個(gè)50-80歲的人,他可能想做拼多多這個(gè)主題,就已經(jīng)打不到他們了。但是大家都喜歡這個(gè)主題,你是怎么解決這個(gè)問(wèn)題的?拼多多也可以拿到類(lèi)似的關(guān)鍵詞,那么也都打上相關(guān)的主題,即使他們不在拼多多買(mǎi),但是他們也想買(mǎi),這個(gè)時(shí)候可以一起打上,那么整個(gè)拼多多域名主題的覆蓋也會(huì )增大,那整個(gè)拼多多的結果也就上去了。
2.域名域名模型建立之后,最重要的事情就是域名主題最后一句,主題最后一句一定要準確,為什么這么說(shuō)呢?因為如果域名主題最后一句,整個(gè)域名主題的覆蓋率不到10%,那這個(gè)域名在別人眼里是不是不做也罷呢?因為在第一步詞匯的建立之后,再獲取多少關(guān)鍵詞?其實(shí)全是0,所以第一步建立主題之后,把這個(gè)關(guān)鍵詞打準,對每個(gè)關(guān)鍵詞都做它對應的主題,然后就會(huì )有源源不斷的人陸續上車(chē),并且有。
搜索引擎主題模型優(yōu)化的主要工作原理是什么呢?
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 100 次瀏覽 ? 2022-06-22 18:01
搜索引擎主題模型優(yōu)化的主要工作原理是什么?因為seo(搜索引擎優(yōu)化)本身在國內沒(méi)有什么發(fā)展,故很多人不太了解。今天,笨虎就簡(jiǎn)單說(shuō)一下seo的基本內容,讓大家感受一下。一提起seo,很多人第一印象就是“網(wǎng)站優(yōu)化”,通過(guò)對網(wǎng)站的優(yōu)化,提高網(wǎng)站的搜索排名。這是一個(gè)很形象的比喻,因為大家實(shí)際上都知道“優(yōu)化”這個(gè)詞,所以不要下次再說(shuō)自己是“優(yōu)化”的。
“優(yōu)化”這個(gè)詞在互聯(lián)網(wǎng)上面的運用,本質(zhì)上還是傳統意義上的seo。但由于數字廣告和搜索引擎泛化的結果,seo已經(jīng)從專(zhuān)業(yè)的seo轉向了普通大眾。比如你只要搜索“渣渣輝”,下面的圖像就是渣渣輝的宣傳圖片。渣渣輝也是玩游戲的,照片可以是美美噠,也可以暴力一點(diǎn),說(shuō)不定還能引起路人的支持?!x渣渣輝這就是seo的基本模型:向搜索引擎提供網(wǎng)站的正面信息,提高網(wǎng)站的搜索排名。
注意:影響seo排名的因素有很多,不同的網(wǎng)站搜索引擎對不同的因素的權重就有不同的排序,這就是搜索引擎優(yōu)化。比如,你的公司名字要求有品牌價(jià)值。這時(shí),如果你的網(wǎng)站無(wú)論如何都提供不了品牌價(jià)值,那么你的網(wǎng)站排名就肯定不會(huì )很好。因為品牌價(jià)值跟網(wǎng)站的正面信息有關(guān),它不能像搜索引擎的排名那樣,隨著(zhù)網(wǎng)站的正面信息的提高而提高權重。
因此,網(wǎng)站正面信息的提供關(guān)系到排名??梢钥吹?,正面信息的提供,需要你站在搜索引擎的角度。網(wǎng)站正面信息的提供,一方面是明確、有針對性的展示,讓用戶(hù)一眼看出他需要看的內容;另一方面是良好的隱私性,不能有太明顯的廣告。如何做到這點(diǎn)呢?答案就是:一個(gè)站點(diǎn)一個(gè)特性,即站點(diǎn)最好有不同的標簽,使搜索引擎能對你的網(wǎng)站提供不同側重點(diǎn)的訪(fǎng)問(wèn)。
而且,標簽一定要用戶(hù)友好,盡量避免用戶(hù)一上來(lái)就覺(jué)得網(wǎng)站廣告做得濃郁?!脩?hù)友好的網(wǎng)站標簽截圖(左)對搜索引擎來(lái)說(shuō),網(wǎng)站提供正面信息只是最基本的要求,用戶(hù)能否打開(kāi)它的頁(yè)面,它能提供給用戶(hù)什么服務(wù)才是最重要的?;氐絼偛诺睦?,標簽對于用戶(hù)來(lái)說(shuō),也是一樣。假設你們的公司叫“渣渣輝”,如果你們的網(wǎng)站提供給用戶(hù)的全是惡搞的相關(guān)信息,用戶(hù)的打開(kāi)體驗就會(huì )非常差。
這些也都是seo中提到的“體驗”,就是針對用戶(hù)在體驗上提高用戶(hù)體驗。網(wǎng)站正面信息的提供和網(wǎng)站用戶(hù)體驗的提高其實(shí)是同一個(gè)東西。所以這就是很多人把seo錯誤地分解成了兩個(gè)東西,而不知道正確工作應該是這樣的。seo的工作其實(shí)是一個(gè)復雜的多層級的工作,單單做seo的人是無(wú)法解決所有問(wèn)題的。他們需要懂得很多東西,才能對整個(gè)工作產(chǎn)生較大的作用。我的文章以及我的公眾號,笨虎的思考都會(huì )有專(zhuān)。 查看全部
搜索引擎主題模型優(yōu)化的主要工作原理是什么呢?
搜索引擎主題模型優(yōu)化的主要工作原理是什么?因為seo(搜索引擎優(yōu)化)本身在國內沒(méi)有什么發(fā)展,故很多人不太了解。今天,笨虎就簡(jiǎn)單說(shuō)一下seo的基本內容,讓大家感受一下。一提起seo,很多人第一印象就是“網(wǎng)站優(yōu)化”,通過(guò)對網(wǎng)站的優(yōu)化,提高網(wǎng)站的搜索排名。這是一個(gè)很形象的比喻,因為大家實(shí)際上都知道“優(yōu)化”這個(gè)詞,所以不要下次再說(shuō)自己是“優(yōu)化”的。
“優(yōu)化”這個(gè)詞在互聯(lián)網(wǎng)上面的運用,本質(zhì)上還是傳統意義上的seo。但由于數字廣告和搜索引擎泛化的結果,seo已經(jīng)從專(zhuān)業(yè)的seo轉向了普通大眾。比如你只要搜索“渣渣輝”,下面的圖像就是渣渣輝的宣傳圖片。渣渣輝也是玩游戲的,照片可以是美美噠,也可以暴力一點(diǎn),說(shuō)不定還能引起路人的支持?!x渣渣輝這就是seo的基本模型:向搜索引擎提供網(wǎng)站的正面信息,提高網(wǎng)站的搜索排名。
注意:影響seo排名的因素有很多,不同的網(wǎng)站搜索引擎對不同的因素的權重就有不同的排序,這就是搜索引擎優(yōu)化。比如,你的公司名字要求有品牌價(jià)值。這時(shí),如果你的網(wǎng)站無(wú)論如何都提供不了品牌價(jià)值,那么你的網(wǎng)站排名就肯定不會(huì )很好。因為品牌價(jià)值跟網(wǎng)站的正面信息有關(guān),它不能像搜索引擎的排名那樣,隨著(zhù)網(wǎng)站的正面信息的提高而提高權重。
因此,網(wǎng)站正面信息的提供關(guān)系到排名??梢钥吹?,正面信息的提供,需要你站在搜索引擎的角度。網(wǎng)站正面信息的提供,一方面是明確、有針對性的展示,讓用戶(hù)一眼看出他需要看的內容;另一方面是良好的隱私性,不能有太明顯的廣告。如何做到這點(diǎn)呢?答案就是:一個(gè)站點(diǎn)一個(gè)特性,即站點(diǎn)最好有不同的標簽,使搜索引擎能對你的網(wǎng)站提供不同側重點(diǎn)的訪(fǎng)問(wèn)。
而且,標簽一定要用戶(hù)友好,盡量避免用戶(hù)一上來(lái)就覺(jué)得網(wǎng)站廣告做得濃郁?!脩?hù)友好的網(wǎng)站標簽截圖(左)對搜索引擎來(lái)說(shuō),網(wǎng)站提供正面信息只是最基本的要求,用戶(hù)能否打開(kāi)它的頁(yè)面,它能提供給用戶(hù)什么服務(wù)才是最重要的?;氐絼偛诺睦?,標簽對于用戶(hù)來(lái)說(shuō),也是一樣。假設你們的公司叫“渣渣輝”,如果你們的網(wǎng)站提供給用戶(hù)的全是惡搞的相關(guān)信息,用戶(hù)的打開(kāi)體驗就會(huì )非常差。
這些也都是seo中提到的“體驗”,就是針對用戶(hù)在體驗上提高用戶(hù)體驗。網(wǎng)站正面信息的提供和網(wǎng)站用戶(hù)體驗的提高其實(shí)是同一個(gè)東西。所以這就是很多人把seo錯誤地分解成了兩個(gè)東西,而不知道正確工作應該是這樣的。seo的工作其實(shí)是一個(gè)復雜的多層級的工作,單單做seo的人是無(wú)法解決所有問(wèn)題的。他們需要懂得很多東西,才能對整個(gè)工作產(chǎn)生較大的作用。我的文章以及我的公眾號,笨虎的思考都會(huì )有專(zhuān)。
搜索中的Query擴展技術(shù)
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 115 次瀏覽 ? 2022-06-20 14:21
前言
最近,我司各條業(yè)務(wù)線(xiàn)對于搜索優(yōu)化的需求日益增多,NLP組也將對搜索業(yè)務(wù)給予更多的工作支持。后續分享,我們會(huì )關(guān)注過(guò)往的知識圖譜、短本文理解等相關(guān)技術(shù)如何落地到搜索業(yè)務(wù)中。
影響搜索結果的因素有很多,包括對短文本的正確理解(實(shí)體詞識別、糾錯、意圖分析等)、長(cháng)文本良好結構化(關(guān)鍵詞抽取、主題詞抽取、文本分類(lèi)等)以及排序模型(召回策略、LTR、語(yǔ)義匹配等)。各種優(yōu)化算法落在以上三個(gè)步驟中,對不同指標產(chǎn)生影響。
對于搜索優(yōu)化,我們的建議是從召回策略開(kāi)始著(zhù)手。理由是這個(gè)步驟與實(shí)際業(yè)務(wù)方最近,當理清業(yè)務(wù)邏輯后,可以快速實(shí)施,看見(jiàn)變化。另外,召回階段是整個(gè)搜索流程中的基石,所有后續的排序都基于召回的候選列表,先規劃好召回策略,才可能盡量避免后續調整基石,導致與后續“精排”相互影響的境地。
那么改進(jìn)召回我們一般會(huì )做些什么呢?首先一定是通過(guò)產(chǎn)品分析、用戶(hù)調研來(lái)了解什么內容適合在這個(gè)搜索場(chǎng)景里展示,隨后掄起大刀修改檢索的字段或公式。有了baseline之后,我們在觀(guān)察檢索回的內容有什么問(wèn)題??赡苁菦](méi)有匹配內容,可能是最匹配的內容排序靠后,或者可能是除了字面匹配,其他內容相關(guān)性差等等。此時(shí),就可以上一些影響召回的模塊,比如Query詞權重分配、動(dòng)態(tài)時(shí)效性判定、Query擴展等。后面會(huì )陸續有文章分享其他技術(shù),本文我們先關(guān)注如何做Query擴展。
總的來(lái)說(shuō),召回于搜索是滿(mǎn)足檢索內容的大概范圍,排序是次要的,需要關(guān)注的是Query與召回列表的相關(guān)度(字詞層面和主題層面)。我們需要Query擴展技術(shù)的原因這里大致將它們歸納為三個(gè)方面。首先,用戶(hù)輸入的Query普遍較短,平均2-3個(gè)詞,可能無(wú)法很好命中需要找的內容;其次,Query中的詞通常會(huì )與多個(gè)主題關(guān)聯(lián),搜索引擎根據簡(jiǎn)短的幾個(gè)詞檢索返回的內容可能不是用戶(hù)所關(guān)心的那個(gè)主題;另外,用戶(hù)可能對自己找的東西只有一個(gè)大致的概念(舉個(gè)栗子,假設用戶(hù)想要找“黑人抬棺”的視頻,但是并不知道這個(gè)詞的準確表述,轉而使用“棺材”、“黑人” 這些詞來(lái)搜索),Query擴展此時(shí)可理解為類(lèi)似聯(lián)想的功能,或者可以理解為將某個(gè)“罕見(jiàn)”搜索詞改寫(xiě)成“常見(jiàn)”搜索詞。
完整的Query擴展技術(shù)路線(xiàn)可見(jiàn)下圖
對原始Query首先需要做若干預處理,包括必要的糾錯、補全,從Query中篩選出需要進(jìn)行擴展的主題詞或實(shí)體詞,對最終的目標詞完成擴展。這里我們著(zhù)重關(guān)注Expansion Terms部分。
從哪里擴展
首先考慮擴展詞從哪里來(lái),這點(diǎn)上的思路和大部分語(yǔ)義相關(guān)的NLP任務(wù)類(lèi)似,想法其實(shí)很直白,要不從用戶(hù)習慣、行為中來(lái),要不從描述事物本身語(yǔ)義中來(lái):
一、業(yè)務(wù)場(chǎng)景語(yǔ)境
從用戶(hù)的搜索log中可以挖掘出大量搜索詞的固定搭配
這些詞首先保證了與原始Query較高的匹配度(都包含“知識”這個(gè)詞),在業(yè)務(wù)上也滿(mǎn)足大多數用戶(hù)關(guān)注的話(huà)題。缺點(diǎn)是這一類(lèi)擴展詞僅來(lái)自于統計學(xué)層面,與語(yǔ)義無(wú)關(guān),無(wú)法滿(mǎn)足語(yǔ)義層面上的相關(guān)性。
二、文檔語(yǔ)料
除了來(lái)自用戶(hù)的搜索Query,文檔庫也是擴展詞的重要來(lái)源。豐富的語(yǔ)境能夠提供詞之間的相互關(guān)系
這類(lèi)擴展詞的缺點(diǎn)也比較明顯,它與原始Query存在文本上的差異較大,增加召回的同時(shí),可能會(huì )犧牲一定的匹配度。
三、構建領(lǐng)域知識庫
最后一個(gè)途徑是構建特定的領(lǐng)域知識庫,優(yōu)點(diǎn)是對語(yǔ)義相關(guān)度可以做更精準的控制,但是構建成本較高,同時(shí)如何將知識信息融入到原統計機器學(xué)習的算法中也有不小難度。
當然,理想的形態(tài)必然是混合以上三種來(lái)源,取其優(yōu)點(diǎn),可以觀(guān)察谷歌的相關(guān)搜索:
融合了字面、語(yǔ)義、知識多方面的相關(guān)性。
擴展模型思路
到模型部分,主要處理的就是原始Query中的term與待擴展的term/phrase如何產(chǎn)生關(guān)聯(lián)。目前主流方案為兩大類(lèi),一類(lèi)是以貝葉斯模型為核心,統計擴展term與Query之間的條件概率。另一類(lèi)的思路是把問(wèn)題抽象成一個(gè)翻譯模型,將Query中的詞從scr到target語(yǔ)言完成改寫(xiě)。
一、相關(guān)模型
這種方案其實(shí)特別直白,Query詞與擴展詞在語(yǔ)料中共現值越大,說(shuō)明它們相關(guān)性越高。也很容易想到使用TF-IDF一類(lèi)的方式去做。經(jīng)典的文獻可以看這篇早在02年發(fā)表的工作:
《Probabilistic Query Expansion Using Query Logs》
作者提出需要做Query擴展的原因是認為用戶(hù)輸入的Query詞與實(shí)際文檔集中的詞存在差異,所以在傳統BM25算法搜索的過(guò)程中很有可能無(wú)法命中。下圖是作者做的驗證工作,將文檔和Query都使用詞袋向量表示,向量中元素值為T(mén)F-IDF,可以看到峰值區間對應的相似度并不高。
需要構建這種聯(lián)系很自然的方式就是利用用戶(hù)行為日志數據,用貝葉斯模型構建概率分布:
最終公式可以表示為:
式子右側括號中分別融合了擴展詞在文檔集中的先驗概率、Query詞與文檔在交互session中的共現頻數以及Query詞在交互session中的頻數。
雖然這篇文章過(guò)去了將近20年,但是后續的利用相關(guān)模型的算法都逃不出這個(gè)套路,方法簡(jiǎn)單卻有效,在剛著(zhù)手做該任務(wù)時(shí)不妨可以選它作為baseline。
往后大家對于這個(gè)套路的Query擴展優(yōu)化,多關(guān)注于提高擴展詞的質(zhì)量。一個(gè)很自然的邏輯就是可以用term作為擴展詞,同樣地,phrase或concept短語(yǔ)也可以。
《Context-Aware Query Suggestion by Mining Click-Through and Session Data》
比如類(lèi)似這篇文章中,因為Query中出現的term與它們對應的主題是多對多的,作者通過(guò)Query聚類(lèi)挖掘出潛在的幾種意圖concept詞,結合考慮Query Session的問(wèn)題再進(jìn)行后續擴展。
二、翻譯模型
除了挖掘出擴展詞的方案,另一個(gè)方向是對Query詞進(jìn)行直接改寫(xiě)。仍然從最簡(jiǎn)單的開(kāi)始,各種復雜模型的起點(diǎn)其實(shí)都源自符合人類(lèi)直覺(jué)的簡(jiǎn)單假設。
《The Mathematics of Statistical Machine Translation: Parameter Estimation》
這是篇年代更加久遠的文章,發(fā)表于1993年,它就是著(zhù)名的IBM算法。本身與Query擴展無(wú)關(guān),主要工作是做機器翻譯,但是它闡述了翻譯模型最原始的假設:
完成翻譯,我們要完成的無(wú)非是兩件事:1)給定一個(gè)待翻譯的句子,返回目標語(yǔ)言表達這個(gè)句子各個(gè)詞意思的詞;2)將原始語(yǔ)言的詞與目標語(yǔ)言的詞一一對應(alignment)。
而IBM算法的核心就是把這個(gè)問(wèn)題抽象成“對齊”分布式是一個(gè)隱變量的概率問(wèn)題:
利用EM算法完成求解即可。
《Towards concept-based translation models using search logs for query expansion》
做Query擴展時(shí),這一思想也被遷移過(guò)來(lái):
連公式的形式都與原IBM算法是一致的,式子中theta就是改寫(xiě)操作中原始詞與目標詞的對齊概率參數。文章中,作者也進(jìn)一步實(shí)驗了phrase和concept詞的結果。同時(shí),配合 term weighting 一起食用,效果更好喔!
《Learning to Rewrite Queries》
再后續,大家會(huì )考慮進(jìn)一步優(yōu)化alignment分布的學(xué)習以及融入更多的語(yǔ)義特征進(jìn)去,畢竟IBM算法僅從統計詞頻的角度估算分布還是太過(guò)單薄。近年來(lái)深度學(xué)習的發(fā)展自然就帶動(dòng)一些傳統模型向神經(jīng)網(wǎng)絡(luò )向的方法上遷移:
《Ask the Right Questions: Active Question Reformulation with Reinforcement Learning》
谷歌在 2018 ICLR 上發(fā)表的工作合并了使用序列模型完成Query改寫(xiě),考慮使用強化學(xué)習來(lái)進(jìn)一步增強
這個(gè)方案的大致思路是,模型與索引系統連接,若改寫(xiě)后的Query可以索引出排序更靠前的內容,則給予強化模型正向的激勵。而且,train好的強化模型也可以倒過(guò)來(lái)finetune改寫(xiě)模型。
增強語(yǔ)義相關(guān)性
可以看到,計算原始Query到擴展詞或改寫(xiě)詞的關(guān)聯(lián)已經(jīng)有非常多成熟的方法,甚至可以在自己場(chǎng)景里設計比較tricky的強化模型方案。而我們認為進(jìn)一步提高效果的關(guān)鍵,還是需要主動(dòng)對業(yè)務(wù)內容的組織、理解、良好的結構化。目前火熱的各種文本預訓練模型、知識圖譜等都印證了這一點(diǎn)。常??吹接腥丝此ブR圖譜發(fā)展,不可否認因為它沒(méi)有一個(gè)大而獨立的場(chǎng)景,所以它必然無(wú)法像CV那樣大放光芒。但是我們一直認為知識圖譜的技術(shù)目前最合理的使用方案是浸潤在日常的各個(gè)技術(shù)中,它是幫助老技術(shù)突破瓶頸的途徑,沒(méi)有新東西,聽(tīng)起來(lái)當然不夠性感。
說(shuō)到這里,我們對語(yǔ)義相關(guān)性的增強就可以利用在往期標簽生成的文章中提到的方法
《A User-Centered Concept Mining System for Query and Document Understanding at Tencent》
利用大量Query的點(diǎn)擊數據,挖掘出該場(chǎng)景下的各種concept詞。進(jìn)一步,我們將concept詞與醫學(xué)知識圖譜形成關(guān)聯(lián),從而替代了前面提到的Query聚類(lèi)方案。
簡(jiǎn)單實(shí)踐
挖掘出高質(zhì)量的Concept詞后,由上文提到的關(guān)聯(lián)模型就可以獲得不錯的效果:
當遇到多個(gè)實(shí)體,使用關(guān)聯(lián)打分即可:
總結
總的來(lái)說(shuō),Query擴展本身并不算一個(gè)復雜的工作,想要最終效果做得好,我們的建議是:把復雜的工作向后撤。生成模型或者強化模型看起來(lái)很fancy,操作門(mén)檻以及工程上的支持難度都較大。踏踏實(shí)實(shí)做好數據結構化(知識圖譜構建、知識表示學(xué)習、長(cháng)文本標簽化等等),在下游應用里,用簡(jiǎn)單模型就能看到效果。有了baseline之后,我們會(huì )考慮用復雜的方案把關(guān)聯(lián)性構建得更好。
參考文獻
[1]. Probabilistic query expansion using query logs
[2]. Ask the Right Questions- Active Question Reformulation with Reinforcement Learning
[3]. Concept-Based Interactive Query Expansion
[4]. Query Expansion Techniques for Information Retrieval- a Survey
[5]. A Taxonomy and Survey of Semantic Approaches for Query Expansion
[6]. The Mathematics of Statistical Machine Translation- Parameter Estimation
[7]. Translating Queries into Snippets for Improved Query Expansion
[8]. Query expansion using local and global document analysis
[9]. Towards concept-based translation models using search logs for query expansion
[10]. Extracting Semantic Relations from Query Logs
[11]. Context-aware query suggestion by mining click-through and session data
[12]. Query Recommendation using Query Logs in Search Engines
[13]. Learning to Rewrite Queries
[14]. A User-Centered Concept Mining System for Query and Document Understanding at Tencent
[15].
招聘信息
丁香園大數據NLP團隊招聘各類(lèi)算法人才,Base杭州。NLP團隊的使命是利用NLP(自然語(yǔ)言處理)、Knowledge Graph(知識圖譜)、Deep Learning(深度學(xué)習)等技術(shù),處理丁香園海量醫學(xué)文本數據,打通電商、在線(xiàn)問(wèn)診、健康知識、社區討論等各個(gè)場(chǎng)景數據,構建醫學(xué)知識圖譜,搭建通用NLP服務(wù)。團隊關(guān)注NLP前沿技術(shù),也注重落地實(shí)現,包括但不僅限于知識圖譜、短文本理解、語(yǔ)義搜索、可解釋推薦、智能問(wèn)答等。加入我們,讓健康更多,讓生活更好!
歡迎各位朋友推薦或自薦至 查看全部
搜索中的Query擴展技術(shù)
前言
最近,我司各條業(yè)務(wù)線(xiàn)對于搜索優(yōu)化的需求日益增多,NLP組也將對搜索業(yè)務(wù)給予更多的工作支持。后續分享,我們會(huì )關(guān)注過(guò)往的知識圖譜、短本文理解等相關(guān)技術(shù)如何落地到搜索業(yè)務(wù)中。
影響搜索結果的因素有很多,包括對短文本的正確理解(實(shí)體詞識別、糾錯、意圖分析等)、長(cháng)文本良好結構化(關(guān)鍵詞抽取、主題詞抽取、文本分類(lèi)等)以及排序模型(召回策略、LTR、語(yǔ)義匹配等)。各種優(yōu)化算法落在以上三個(gè)步驟中,對不同指標產(chǎn)生影響。
對于搜索優(yōu)化,我們的建議是從召回策略開(kāi)始著(zhù)手。理由是這個(gè)步驟與實(shí)際業(yè)務(wù)方最近,當理清業(yè)務(wù)邏輯后,可以快速實(shí)施,看見(jiàn)變化。另外,召回階段是整個(gè)搜索流程中的基石,所有后續的排序都基于召回的候選列表,先規劃好召回策略,才可能盡量避免后續調整基石,導致與后續“精排”相互影響的境地。
那么改進(jìn)召回我們一般會(huì )做些什么呢?首先一定是通過(guò)產(chǎn)品分析、用戶(hù)調研來(lái)了解什么內容適合在這個(gè)搜索場(chǎng)景里展示,隨后掄起大刀修改檢索的字段或公式。有了baseline之后,我們在觀(guān)察檢索回的內容有什么問(wèn)題??赡苁菦](méi)有匹配內容,可能是最匹配的內容排序靠后,或者可能是除了字面匹配,其他內容相關(guān)性差等等。此時(shí),就可以上一些影響召回的模塊,比如Query詞權重分配、動(dòng)態(tài)時(shí)效性判定、Query擴展等。后面會(huì )陸續有文章分享其他技術(shù),本文我們先關(guān)注如何做Query擴展。
總的來(lái)說(shuō),召回于搜索是滿(mǎn)足檢索內容的大概范圍,排序是次要的,需要關(guān)注的是Query與召回列表的相關(guān)度(字詞層面和主題層面)。我們需要Query擴展技術(shù)的原因這里大致將它們歸納為三個(gè)方面。首先,用戶(hù)輸入的Query普遍較短,平均2-3個(gè)詞,可能無(wú)法很好命中需要找的內容;其次,Query中的詞通常會(huì )與多個(gè)主題關(guān)聯(lián),搜索引擎根據簡(jiǎn)短的幾個(gè)詞檢索返回的內容可能不是用戶(hù)所關(guān)心的那個(gè)主題;另外,用戶(hù)可能對自己找的東西只有一個(gè)大致的概念(舉個(gè)栗子,假設用戶(hù)想要找“黑人抬棺”的視頻,但是并不知道這個(gè)詞的準確表述,轉而使用“棺材”、“黑人” 這些詞來(lái)搜索),Query擴展此時(shí)可理解為類(lèi)似聯(lián)想的功能,或者可以理解為將某個(gè)“罕見(jiàn)”搜索詞改寫(xiě)成“常見(jiàn)”搜索詞。
完整的Query擴展技術(shù)路線(xiàn)可見(jiàn)下圖
對原始Query首先需要做若干預處理,包括必要的糾錯、補全,從Query中篩選出需要進(jìn)行擴展的主題詞或實(shí)體詞,對最終的目標詞完成擴展。這里我們著(zhù)重關(guān)注Expansion Terms部分。
從哪里擴展
首先考慮擴展詞從哪里來(lái),這點(diǎn)上的思路和大部分語(yǔ)義相關(guān)的NLP任務(wù)類(lèi)似,想法其實(shí)很直白,要不從用戶(hù)習慣、行為中來(lái),要不從描述事物本身語(yǔ)義中來(lái):
一、業(yè)務(wù)場(chǎng)景語(yǔ)境
從用戶(hù)的搜索log中可以挖掘出大量搜索詞的固定搭配
這些詞首先保證了與原始Query較高的匹配度(都包含“知識”這個(gè)詞),在業(yè)務(wù)上也滿(mǎn)足大多數用戶(hù)關(guān)注的話(huà)題。缺點(diǎn)是這一類(lèi)擴展詞僅來(lái)自于統計學(xué)層面,與語(yǔ)義無(wú)關(guān),無(wú)法滿(mǎn)足語(yǔ)義層面上的相關(guān)性。
二、文檔語(yǔ)料
除了來(lái)自用戶(hù)的搜索Query,文檔庫也是擴展詞的重要來(lái)源。豐富的語(yǔ)境能夠提供詞之間的相互關(guān)系
這類(lèi)擴展詞的缺點(diǎn)也比較明顯,它與原始Query存在文本上的差異較大,增加召回的同時(shí),可能會(huì )犧牲一定的匹配度。
三、構建領(lǐng)域知識庫
最后一個(gè)途徑是構建特定的領(lǐng)域知識庫,優(yōu)點(diǎn)是對語(yǔ)義相關(guān)度可以做更精準的控制,但是構建成本較高,同時(shí)如何將知識信息融入到原統計機器學(xué)習的算法中也有不小難度。
當然,理想的形態(tài)必然是混合以上三種來(lái)源,取其優(yōu)點(diǎn),可以觀(guān)察谷歌的相關(guān)搜索:
融合了字面、語(yǔ)義、知識多方面的相關(guān)性。
擴展模型思路
到模型部分,主要處理的就是原始Query中的term與待擴展的term/phrase如何產(chǎn)生關(guān)聯(lián)。目前主流方案為兩大類(lèi),一類(lèi)是以貝葉斯模型為核心,統計擴展term與Query之間的條件概率。另一類(lèi)的思路是把問(wèn)題抽象成一個(gè)翻譯模型,將Query中的詞從scr到target語(yǔ)言完成改寫(xiě)。
一、相關(guān)模型
這種方案其實(shí)特別直白,Query詞與擴展詞在語(yǔ)料中共現值越大,說(shuō)明它們相關(guān)性越高。也很容易想到使用TF-IDF一類(lèi)的方式去做。經(jīng)典的文獻可以看這篇早在02年發(fā)表的工作:
《Probabilistic Query Expansion Using Query Logs》
作者提出需要做Query擴展的原因是認為用戶(hù)輸入的Query詞與實(shí)際文檔集中的詞存在差異,所以在傳統BM25算法搜索的過(guò)程中很有可能無(wú)法命中。下圖是作者做的驗證工作,將文檔和Query都使用詞袋向量表示,向量中元素值為T(mén)F-IDF,可以看到峰值區間對應的相似度并不高。
需要構建這種聯(lián)系很自然的方式就是利用用戶(hù)行為日志數據,用貝葉斯模型構建概率分布:
最終公式可以表示為:
式子右側括號中分別融合了擴展詞在文檔集中的先驗概率、Query詞與文檔在交互session中的共現頻數以及Query詞在交互session中的頻數。
雖然這篇文章過(guò)去了將近20年,但是后續的利用相關(guān)模型的算法都逃不出這個(gè)套路,方法簡(jiǎn)單卻有效,在剛著(zhù)手做該任務(wù)時(shí)不妨可以選它作為baseline。
往后大家對于這個(gè)套路的Query擴展優(yōu)化,多關(guān)注于提高擴展詞的質(zhì)量。一個(gè)很自然的邏輯就是可以用term作為擴展詞,同樣地,phrase或concept短語(yǔ)也可以。
《Context-Aware Query Suggestion by Mining Click-Through and Session Data》
比如類(lèi)似這篇文章中,因為Query中出現的term與它們對應的主題是多對多的,作者通過(guò)Query聚類(lèi)挖掘出潛在的幾種意圖concept詞,結合考慮Query Session的問(wèn)題再進(jìn)行后續擴展。
二、翻譯模型
除了挖掘出擴展詞的方案,另一個(gè)方向是對Query詞進(jìn)行直接改寫(xiě)。仍然從最簡(jiǎn)單的開(kāi)始,各種復雜模型的起點(diǎn)其實(shí)都源自符合人類(lèi)直覺(jué)的簡(jiǎn)單假設。
《The Mathematics of Statistical Machine Translation: Parameter Estimation》
這是篇年代更加久遠的文章,發(fā)表于1993年,它就是著(zhù)名的IBM算法。本身與Query擴展無(wú)關(guān),主要工作是做機器翻譯,但是它闡述了翻譯模型最原始的假設:
完成翻譯,我們要完成的無(wú)非是兩件事:1)給定一個(gè)待翻譯的句子,返回目標語(yǔ)言表達這個(gè)句子各個(gè)詞意思的詞;2)將原始語(yǔ)言的詞與目標語(yǔ)言的詞一一對應(alignment)。
而IBM算法的核心就是把這個(gè)問(wèn)題抽象成“對齊”分布式是一個(gè)隱變量的概率問(wèn)題:
利用EM算法完成求解即可。
《Towards concept-based translation models using search logs for query expansion》
做Query擴展時(shí),這一思想也被遷移過(guò)來(lái):
連公式的形式都與原IBM算法是一致的,式子中theta就是改寫(xiě)操作中原始詞與目標詞的對齊概率參數。文章中,作者也進(jìn)一步實(shí)驗了phrase和concept詞的結果。同時(shí),配合 term weighting 一起食用,效果更好喔!
《Learning to Rewrite Queries》
再后續,大家會(huì )考慮進(jìn)一步優(yōu)化alignment分布的學(xué)習以及融入更多的語(yǔ)義特征進(jìn)去,畢竟IBM算法僅從統計詞頻的角度估算分布還是太過(guò)單薄。近年來(lái)深度學(xué)習的發(fā)展自然就帶動(dòng)一些傳統模型向神經(jīng)網(wǎng)絡(luò )向的方法上遷移:
《Ask the Right Questions: Active Question Reformulation with Reinforcement Learning》
谷歌在 2018 ICLR 上發(fā)表的工作合并了使用序列模型完成Query改寫(xiě),考慮使用強化學(xué)習來(lái)進(jìn)一步增強
這個(gè)方案的大致思路是,模型與索引系統連接,若改寫(xiě)后的Query可以索引出排序更靠前的內容,則給予強化模型正向的激勵。而且,train好的強化模型也可以倒過(guò)來(lái)finetune改寫(xiě)模型。
增強語(yǔ)義相關(guān)性
可以看到,計算原始Query到擴展詞或改寫(xiě)詞的關(guān)聯(lián)已經(jīng)有非常多成熟的方法,甚至可以在自己場(chǎng)景里設計比較tricky的強化模型方案。而我們認為進(jìn)一步提高效果的關(guān)鍵,還是需要主動(dòng)對業(yè)務(wù)內容的組織、理解、良好的結構化。目前火熱的各種文本預訓練模型、知識圖譜等都印證了這一點(diǎn)。常??吹接腥丝此ブR圖譜發(fā)展,不可否認因為它沒(méi)有一個(gè)大而獨立的場(chǎng)景,所以它必然無(wú)法像CV那樣大放光芒。但是我們一直認為知識圖譜的技術(shù)目前最合理的使用方案是浸潤在日常的各個(gè)技術(shù)中,它是幫助老技術(shù)突破瓶頸的途徑,沒(méi)有新東西,聽(tīng)起來(lái)當然不夠性感。
說(shuō)到這里,我們對語(yǔ)義相關(guān)性的增強就可以利用在往期標簽生成的文章中提到的方法
《A User-Centered Concept Mining System for Query and Document Understanding at Tencent》
利用大量Query的點(diǎn)擊數據,挖掘出該場(chǎng)景下的各種concept詞。進(jìn)一步,我們將concept詞與醫學(xué)知識圖譜形成關(guān)聯(lián),從而替代了前面提到的Query聚類(lèi)方案。
簡(jiǎn)單實(shí)踐
挖掘出高質(zhì)量的Concept詞后,由上文提到的關(guān)聯(lián)模型就可以獲得不錯的效果:
當遇到多個(gè)實(shí)體,使用關(guān)聯(lián)打分即可:
總結
總的來(lái)說(shuō),Query擴展本身并不算一個(gè)復雜的工作,想要最終效果做得好,我們的建議是:把復雜的工作向后撤。生成模型或者強化模型看起來(lái)很fancy,操作門(mén)檻以及工程上的支持難度都較大。踏踏實(shí)實(shí)做好數據結構化(知識圖譜構建、知識表示學(xué)習、長(cháng)文本標簽化等等),在下游應用里,用簡(jiǎn)單模型就能看到效果。有了baseline之后,我們會(huì )考慮用復雜的方案把關(guān)聯(lián)性構建得更好。
參考文獻
[1]. Probabilistic query expansion using query logs
[2]. Ask the Right Questions- Active Question Reformulation with Reinforcement Learning
[3]. Concept-Based Interactive Query Expansion
[4]. Query Expansion Techniques for Information Retrieval- a Survey
[5]. A Taxonomy and Survey of Semantic Approaches for Query Expansion
[6]. The Mathematics of Statistical Machine Translation- Parameter Estimation
[7]. Translating Queries into Snippets for Improved Query Expansion
[8]. Query expansion using local and global document analysis
[9]. Towards concept-based translation models using search logs for query expansion
[10]. Extracting Semantic Relations from Query Logs
[11]. Context-aware query suggestion by mining click-through and session data
[12]. Query Recommendation using Query Logs in Search Engines
[13]. Learning to Rewrite Queries
[14]. A User-Centered Concept Mining System for Query and Document Understanding at Tencent
[15].
招聘信息
丁香園大數據NLP團隊招聘各類(lèi)算法人才,Base杭州。NLP團隊的使命是利用NLP(自然語(yǔ)言處理)、Knowledge Graph(知識圖譜)、Deep Learning(深度學(xué)習)等技術(shù),處理丁香園海量醫學(xué)文本數據,打通電商、在線(xiàn)問(wèn)診、健康知識、社區討論等各個(gè)場(chǎng)景數據,構建醫學(xué)知識圖譜,搭建通用NLP服務(wù)。團隊關(guān)注NLP前沿技術(shù),也注重落地實(shí)現,包括但不僅限于知識圖譜、短文本理解、語(yǔ)義搜索、可解釋推薦、智能問(wèn)答等。加入我們,讓健康更多,讓生活更好!
歡迎各位朋友推薦或自薦至
想讓推薦和搜索引擎更聰明?基于知識圖譜的篇章標簽生成
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 282 次瀏覽 ? 2022-06-19 13:52
老板~我們的推薦系統笨笨的
你怎么對文檔處理的這么糙!抽個(gè)關(guān)鍵詞就應付過(guò)去了?
啊啊啊我錯惹,那那,不用關(guān)鍵詞用什么呢?
知識圖譜用上了沒(méi)?
概念詞知道不?9012年了知道么!
嚶嚶嚶,馬上升級!o(╥﹏╥)o
前言
篇章的標簽生成是NLP領(lǐng)域的一項基礎任務(wù),目的是對文本更好地結構化,篩選重要的關(guān)鍵詞,概括文本的中心語(yǔ)義。因此,我們探索了一套標簽生成流程,其中除了應用了已有的信息抽取技術(shù)之外,還將醫療知識圖譜結構,實(shí)體顯著(zhù)性判斷,concept抽取融入模型,實(shí)現業(yè)務(wù)增長(cháng)。
關(guān)于標簽生成,優(yōu)化的方法大致有兩種思路,第一種是在擁有一個(gè)較為完備的知識圖譜后,如何使用知識圖譜去指導標簽抽取過(guò)程保持語(yǔ)義上的一致。舉個(gè)栗子,比如通過(guò)詞分布的分析,某篇文章的主題被定為在“婦科”相關(guān)疾病上,那么“骨科”的實(shí)體詞就會(huì )被避免作為標簽被抽出。這種思路在業(yè)界多以L(fǎng)DA的無(wú)監督打標簽算法為主,利用知識表示向量、知識圖譜結構或者其他統計信息對LDA模型進(jìn)行改進(jìn),輸出的結果為原文出現過(guò)的實(shí)體詞,以下我們將它稱(chēng)之為主題語(yǔ)義連貫的詞分布標簽方法;
另一種思路是在知識圖譜上做文章,比如專(zhuān)業(yè)的醫學(xué)知識圖譜上的實(shí)體詞夠精確,但有時(shí)由于詞本身的含義不夠泛化,并不適用于文章的表示,舉個(gè)栗子,比如“HP”、“胃鏡”、“三聯(lián)療法”這幾個(gè)詞的確貼合消化內科的主題,但是它沒(méi)有“幽門(mén)螺桿菌的治療方法”這樣更加泛化的標簽詞來(lái)的直觀(guān),后者包含了更多的信息量,且更具可解釋性。這方向需要結合更多的NLP技術(shù),包括在業(yè)務(wù)場(chǎng)景中挖掘優(yōu)質(zhì)的concept短語(yǔ),構建concept短語(yǔ)與實(shí)體詞的taxonomy,利用文本子圖中心度測量、隨機游走路徑、詞頻共現等做encoding,以L(fǎng)DA作為抽取器完成標簽工作,以下我們將它為Concept挖掘的標簽方法。
對這兩種思路,我們調研了已有的相關(guān)研究,利用醫療知識圖譜和醫學(xué)垂直領(lǐng)域業(yè)務(wù)數據做了標簽生成的嘗試。
主題語(yǔ)義連貫的詞分布主題模型
《Incorporating Knowledge Graph Embeddings into Topic Modeling》
概率主題模型可用于從文檔集合中提取低維主題。然而,以往的模型往往產(chǎn)生無(wú)法解釋的主題。近年來(lái),已有許多基于知識的主題模型被提出,但它們不能很好的處理知識圖中的三元組,大部分以must-link形式,或直接利用圖譜中的上層概念,無(wú)法在向量空間中量化。本文將知識表示嵌入到到LDA中,將潛在的Dirichlet分配(一種廣泛使用的主題模型)與實(shí)體向量編碼的知識相結合,來(lái)提高了主題語(yǔ)義的一致性和連貫性。本文主要在兩個(gè)以往研究(CI-LDA和Corr-LDA)上做了改進(jìn),上圖為linkKGLDA,下圖為corrKGLDA:
兩個(gè)模型的不同之處在于,前者為條件獨立,后者為條件相關(guān)。具體的改進(jìn)如下:
由于一些知識表示(TransE)是unit sphere,因此使用von Mises Fisher(VMF)分布對其進(jìn)行建模。vmf分布被廣泛用于模擬此類(lèi)定向數據。此外,使用vmf分布代替多元高斯分布,可以更有效地進(jìn)行推斷。與傳統LDA模型相比,增加一組參數:(μk, κk) ,主題k的vMF分布;以及edm,即文檔中實(shí)體的知識表示向量。
實(shí)現Concept挖掘的標簽方法
目前的大多數concept標簽方案,多是基于一定的統計數據,如:詞對共現頻數,詞對覆蓋率等。這些方法依賴(lài)業(yè)務(wù)場(chǎng)景下的query log,或者也可利用知識圖譜結構進(jìn)行層次聚類(lèi),中心化,路徑預測等方式進(jìn)行。下面將一一介紹相關(guān)研究?!禛raph-Sparse LDA: A Topic Model with Structured Sparsity》本文引入了圖稀疏LDA,這是一種分層主題模型,它使用單詞之間關(guān)系的知識(例如:本體編碼)。在模型中,主題被一些潛在的概念詞概括,這些潛在概念詞來(lái)自觀(guān)察詞在本體中的圖。GS-LDA在標準LDA模型中引入了一個(gè)額外的層次結構層:主題不是分布在觀(guān)察到的詞上,而是分布在概念詞上,然后通過(guò)由詞匯結構通知的噪聲過(guò)程生成觀(guān)察到的詞。
例如上圖所示,“癲癇”是一個(gè)很好的概念詞,可以概括出子類(lèi)癲癇。如果患者患有癲癇也可以解釋“中樞神經(jīng)系統紊亂”甚至“疾病”。利用詞典用的詞或者實(shí)體總結文本時(shí),通常都非常具體,而使用概念詞總結一段文本,不僅可以說(shuō)明具體的語(yǔ)義,同時(shí)能挖掘到更上層或者相似主題的語(yǔ)義。例如:”抗病毒藥物”和”抗逆轉錄病毒”,一個(gè)詞和它的鄰居詞,可以被認為產(chǎn)生自一個(gè)核心概念。Graph-Sparse LDA模型假設一個(gè)主題有一組稀疏的概念詞組成,或是后代,或是祖先。最后定義如下過(guò)程:
推導了一個(gè)B、B-、A、A-和P(以及添加和刪除主題)的 blocked-Gibbs sampler。然而,單是吉布斯抽樣并不能使主題概念詞矩陣中的稀疏性足夠快?;旌纤俣群苈?,因為阻塞的吉布斯取樣器設置Akw~=0的唯一時(shí)間是沒(méi)有w~計數分配給任何文檔中的主題K時(shí)。當有海量文檔時(shí),不太可能達到零計數,采樣器稀疏主題概念詞矩陣A的速度會(huì )很慢。因此本文引入了一個(gè)MH procedure,通過(guò)在A(yíng)和P上的 joint moves,鼓勵主題概念詞矩陣A向更大稀疏的方向移動(dòng)。分布如下:
首先,對A’進(jìn)行智能分割合并移動(dòng)。其次,試圖通過(guò)提出一個(gè)P’來(lái)保持似然函數盡可能恒定:AP=A’P’。這樣,先驗p(A)和p(P)將對移動(dòng)產(chǎn)生很大的影響?!禛rounding Topic Models with Knowledge Bases》這篇工作認為盡管最近的研究試圖利用各種知識源來(lái)改進(jìn)主題建模,但它們要么承擔著(zhù)僅將主題表示為單詞或短語(yǔ)分布,要么通過(guò)將主題與預先定義的知識庫(知識庫)實(shí)體進(jìn)行一對一的綁定,建立主題模型,犧牲了主題建模的靈活性。因此提出了一種基于taxnomy層次結構隨機游走特征的LDA,目的在于將taxnomy的語(yǔ)義和結構化特征全部考慮進(jìn)來(lái)。
與以往LDA不同的是,模型中加入了四個(gè)新的變量,其中rdj代表隨機游走路徑,edj代表taxonomy中的概念,mdj代表文檔中的實(shí)體,ydl為單詞index。從根節點(diǎn)頂層概念詞c0開(kāi)始,通過(guò)隨機游走篩選子節點(diǎn)。過(guò)程結束直到到達葉子節點(diǎn)。因此這個(gè)隨機游走給每一個(gè)entity(概念)分配了一個(gè)從根到葉子的路徑?;谥黝}k,可以計算到達每個(gè)實(shí)體的隨機行走的概率,從而獲得主題k下實(shí)體的分布。同樣,對于每個(gè)類(lèi)別節點(diǎn)c,可以計算一個(gè)概率kc,表示c被包含在隨機行走路徑中的可能性。除了隨機游走得到的結構特征,本文同樣利用了維基百科的page數據,得到實(shí)體,單詞,概念之間的共現頻數,作為先驗信息。大文本語(yǔ)料庫和知識庫的推理是復雜的,為了保證實(shí)踐中的效率,文章提出需要注意以下幾個(gè)方面:(a)所有實(shí)體的路徑總數可能非常大,使得隨機游走公式的計算非常龐大。因此,本文使用命名實(shí)體字典為每個(gè)文檔選擇候選實(shí)體,在采樣時(shí)只考慮這些實(shí)體的路徑。實(shí)驗表明,該近似方法對建模性能的影響可以忽略不計,同時(shí)大大降低了采樣的復雜度,使推理成為現實(shí)。(b)通過(guò)修剪低級的具體類(lèi)別節點(diǎn)(其最短的根到節點(diǎn)路徑長(cháng)度超過(guò)閾值),進(jìn)一步減少層次深度。作者發(fā)現這樣一個(gè)“粗糙”的實(shí)體本體足以滿(mǎn)足需求。(c)為了計算路徑的概率,使用動(dòng)態(tài)規劃來(lái)避免冗余計算。(d)初始化實(shí)體和路徑分配以確保良好的起點(diǎn)?!禡odeling Documents by Combining Semantic Concepts with Unsupervised Statistical Learning》以往的研究中,或是只用文檔中的詞來(lái)描述主題,或是在taxnomy中找到合適的concept描述主題,本文雖然只是在傳統LDA模型上做了很小的改動(dòng),但是它可以實(shí)現文檔詞分布和taxnomy concept共存的主題表達形式。將文檔中的所有單詞(不僅僅是實(shí)體)映射到一組本體概念上,學(xué)習單詞和概念的概率模型,并且使用完全無(wú)監督的方法,而無(wú)需任何監督標記。
將把這種模型稱(chēng)為概念模型。在概念模型中,屬于概念的詞由人類(lèi)先驗地(例如,作為本體的一部分)定義,并且僅限于(通常)總體詞匯的一小部分。相反,在主題模型中,詞匯表中的所有單詞都可以與任何特定主題關(guān)聯(lián),但具有不同的概率。在上面的公式中,概念模型的未知參數是單詞概念概率p(wi|cj)和概念文檔概率p(cj|d)。作者的目標(在主題模型中)是從適當的語(yǔ)料庫中估計這些。例如,注意概率p(cj|d)可以解決前面提到的標記問(wèn)題,因為每個(gè)這樣的分布都告訴我們文檔d表示的概念cj的混合。使用吉布斯抽樣將概念分配給文檔中的單詞,使用與在主題模型相同的抽樣方程,但是有一個(gè)額外的約束,即一個(gè)單詞只能分配給它在本體中關(guān)聯(lián)的概念。除了約束外,學(xué)習算法與主題模型的標準學(xué)習完全相同,最終的結果是語(yǔ)料庫中的每個(gè)詞都被賦予了本體中的一個(gè)概念。反過(guò)來(lái),這些分配可以直接估計上面等式中的某些項。為了估計特定概念cj的p(wi|cj),我們通過(guò)抽樣算法判斷語(yǔ)料庫中有多少單詞可以分配給概念cj,并將這些計數標準化,以得到概率分布p(wi|cj)。為了估計特定文檔d的p(cj|d),計算每個(gè)概念分配給文檔d中單詞的次數,然后再次規范化和平滑計算以獲得p(cj|d)。下表顯示了一組單詞的學(xué)習概率(按概率排序)的例子。
《Unsupervised Graph-based Topic Labelling using DBpedia》這是一個(gè)完全將LDA作為抽取功能組件的模型,topic labeling過(guò)程完全基于聚類(lèi)和圖的中心化操作。
可以看到,每個(gè)實(shí)體的語(yǔ)義圖只能表示一種非常寬泛的概念,并不能體現各個(gè)實(shí)體概念之間的關(guān)系,直接作為標簽會(huì )使每個(gè)概念都孤立起來(lái),文本的語(yǔ)義不僅不一致,還會(huì )非常離散。相反本文方法是建立一個(gè)由多個(gè)實(shí)體子圖構成的主題圖,從中可以分析大圖中每個(gè)節點(diǎn)對主題圖的語(yǔ)義中心度貢獻(因此模型的假設前提是:在圖中起重要作用的節點(diǎn)也與種子概念有重要的語(yǔ)義關(guān)系)。最終從這些語(yǔ)義中心度貢獻高的節點(diǎn)中選擇標簽。本文應用了幾種語(yǔ)義中心性措施:Focused Closeness Centrality,Focused Information Centrality,Focused Betweenness Centrality,來(lái)計算候選標簽的語(yǔ)義中心度?!禣n Conceptual Labeling of a Bag of Words》本文利用了probase來(lái)進(jìn)行concept tagging,與上述的研究不同,他沒(méi)有用到任何主題模型,主要的方法是用信息論的方法來(lái)權衡對詞袋的語(yǔ)義覆蓋度,輸出覆蓋最廣但標簽最少的單詞。
使用MDL(最小長(cháng)度描述原則)作為選擇最好concept的標準,通過(guò)最大限度減少描述長(cháng)度來(lái)實(shí)現當前概念集C的更新。迭代終止時(shí),描述長(cháng)度不能再減少了。由于編碼長(cháng)度在每次迭代時(shí)單調遞減,因此保證了該算法收斂。雖然沒(méi)有用到任何主題模型,但算法仍然可以通過(guò)三種操作(增刪改)和MDL收斂的方式,自動(dòng)的決定主題個(gè)數。前提是需要有海量的上下級概念對頻數。
實(shí)際工作中的嘗試
在實(shí)際工作的嘗試中,我們的整體算法流程分為兩部分:核心主題關(guān)鍵詞抽取以及獲取更為抽象的concept短語(yǔ)。符合一定主題的關(guān)鍵詞抽?。涸谠械膌inkKGLDA模型基礎上,除了采用知識表示,還對圖譜之外的詞賦予deepwalk向量,是模型更好的應對圖譜之外的詞。更為抽象的concept短語(yǔ):首先構建基于帖子的知識圖譜,除了利用業(yè)務(wù)詞典,丁香園論壇結構,搭建圖譜上層,中下層圖譜通過(guò)層次主題模型,concept,關(guān)鍵詞抽取進(jìn)行搭建。通過(guò)的concept抽取模型(可參考:醫療健康領(lǐng)域的短文本解析探索),我們從query和帖子標題中抽取到了300萬(wàn)的concept詞語(yǔ),那么如何才能找到一個(gè)帖子真正說(shuō)的主題,并將文本中的最關(guān)鍵主題詞連接到相應的concept上呢,這里我們要借助以下論文中提到的方法:《Towards Better Text Understanding and Retrieval through Kernel Entity Salience Modeling》由于一篇文章涉及到的實(shí)體多種多樣,但一般會(huì )存在幾個(gè)最關(guān)鍵的實(shí)體,例如:
文中出現了腹瀉,綠便,奶等一系列表述疾病過(guò)程和食物相關(guān)的實(shí)體(可通過(guò)linkKGLDA識別出來(lái)),但中心實(shí)體”腹瀉”和”乳糖酶乳粉”在識別結果中的排序可能并不是top1,這會(huì )使得后續的concept對應工作產(chǎn)生一定的噪音。
本文主要研究實(shí)體對文章的顯著(zhù)程度,通過(guò)結合文章上下文和實(shí)體知識表示(KEE),和Kernel Interaction Model (KIM) 模型,對實(shí)體-文章對進(jìn)行排序,從而得到實(shí)體在文章中的顯著(zhù)程度。實(shí)驗數據利用的是遠監督標注,利用文章和文章標題,以及已有算法(ner,名詞短語(yǔ)抽取,實(shí)體鏈接,linkKGLDA概率等)得到訓練數據?!禔 User-Centered Concept Mining System for Query and Document Understanding at Tencent》本篇文章在tagging docment上的方法有兩種,實(shí)現的前提條件是需要有足夠數量和高質(zhì)量的query log,以及知識圖譜。整個(gè)過(guò)程分為兩種方法:基于概率和基于匹配:
基于條件概率:
文章3.1節描述了如何利用抽取到的主題關(guān)鍵詞去對應到一組合適的concept,主要利用的還是主題關(guān)鍵詞上下文與concept的條件概率推理。與《Grounding Topic Models with Knowledge Bases》不同,這種方法可以得到圖譜中不存在,但是搜索中經(jīng)常出現的concept,并且也不需要大量上下位詞的共現頻數。
整個(gè)p(c|d)的計算過(guò)程重點(diǎn)在于第三步,即想要計算p(c|x),必須存在以上下文xj作為子串的概念詞(這樣的概念詞來(lái)自于query log),如:文中提到的概念詞”省油的汽車(chē)”和文檔中”豐田RAV4”的上下文”省油,耐用”。雖然這樣的概念詞在醫療專(zhuān)業(yè)詞匯和搜索中很少見(jiàn),但這實(shí)際上是實(shí)體屬性和概念屬性的一種交集,在沒(méi)有足夠數量和高質(zhì)量的query log的情況下,我們可以采用屬性抽取相關(guān)工作的研究結果。這樣做更有利于做醫療領(lǐng)域的相關(guān)問(wèn)題,當然也可參照之前的歷史文章(taxnomy構建)和上面介紹的《On Conceptual Labeling of a Bag of Words》計算概率值。
基于匹配:
1.首先利用GBRank,textRank,word2vec算法,得到一定數量的關(guān)鍵詞(instance)2.利用檢索或者web table找到與instance相關(guān)的概念候選。每一個(gè)concept,用topN搜索結果標題文本信息來(lái)豐富concept表示(tf-idf向量)。4.將concept表示與文檔title tf-idf向量做相似度計算,超過(guò)一定閾值,打相應標簽。
實(shí)驗對比
在丁香園論壇帖子的文本數據上,我們應用了前文調研的主題抽取、實(shí)體顯著(zhù)性判斷、短語(yǔ)挖掘、concept召回等方法,所獲得的標簽在主題貼近度和可解釋性上都有顯著(zhù)提高:
總結
標簽生成任務(wù)雖然在NLP領(lǐng)域非常常見(jiàn),但是想要獲得高質(zhì)量的標簽詞,在推薦、搜索、問(wèn)答等工業(yè)場(chǎng)景下應用,背后其實(shí)集成了眾多NLP基礎工作。標簽生成的上游包含了分詞、命名實(shí)體識別、醫學(xué)概念歸一化、消岐、concept質(zhì)量?jì)?yōu)化等工作。只有穩固的基礎才能把樓蓋得更高。其次,知識圖譜就是模型。合理的圖譜結構、豐富的數據量將決定最終結果的好壞。在產(chǎn)業(yè)界尤其需要關(guān)注實(shí)際業(yè)務(wù)下的知識體系構建,一套知識圖譜并不一定能滿(mǎn)足所有的業(yè)務(wù)線(xiàn),比如在醫學(xué)科普文章下表現良好的圖譜,若應用在考研、招聘類(lèi)的文本下,反而會(huì )因為抽出過(guò)多的醫學(xué)專(zhuān)業(yè)詞匯而偏離主題??梢耘c業(yè)務(wù)部門(mén)協(xié)同補全知識圖譜,或者用一些統計學(xué)方法加以補充。最后,標簽詞并不需要一定作為文本的一種“顯式”的展示方式,作為長(cháng)文本的一種更優(yōu)的結構化數據,它有各種各樣的“隱式”用法,比如作為特征輸入到下游的文本分類(lèi)、標題生成甚至融入到推薦系統策略中,我們會(huì )在今后陸續分享各種有趣的玩兒法。
可
能
喜
歡
求關(guān)注 求投喂 拉你進(jìn)高端群哦~
參
考
文
獻 查看全部
想讓推薦和搜索引擎更聰明?基于知識圖譜的篇章標簽生成
老板~我們的推薦系統笨笨的
你怎么對文檔處理的這么糙!抽個(gè)關(guān)鍵詞就應付過(guò)去了?
啊啊啊我錯惹,那那,不用關(guān)鍵詞用什么呢?
知識圖譜用上了沒(méi)?
概念詞知道不?9012年了知道么!
嚶嚶嚶,馬上升級!o(╥﹏╥)o
前言
篇章的標簽生成是NLP領(lǐng)域的一項基礎任務(wù),目的是對文本更好地結構化,篩選重要的關(guān)鍵詞,概括文本的中心語(yǔ)義。因此,我們探索了一套標簽生成流程,其中除了應用了已有的信息抽取技術(shù)之外,還將醫療知識圖譜結構,實(shí)體顯著(zhù)性判斷,concept抽取融入模型,實(shí)現業(yè)務(wù)增長(cháng)。
關(guān)于標簽生成,優(yōu)化的方法大致有兩種思路,第一種是在擁有一個(gè)較為完備的知識圖譜后,如何使用知識圖譜去指導標簽抽取過(guò)程保持語(yǔ)義上的一致。舉個(gè)栗子,比如通過(guò)詞分布的分析,某篇文章的主題被定為在“婦科”相關(guān)疾病上,那么“骨科”的實(shí)體詞就會(huì )被避免作為標簽被抽出。這種思路在業(yè)界多以L(fǎng)DA的無(wú)監督打標簽算法為主,利用知識表示向量、知識圖譜結構或者其他統計信息對LDA模型進(jìn)行改進(jìn),輸出的結果為原文出現過(guò)的實(shí)體詞,以下我們將它稱(chēng)之為主題語(yǔ)義連貫的詞分布標簽方法;
另一種思路是在知識圖譜上做文章,比如專(zhuān)業(yè)的醫學(xué)知識圖譜上的實(shí)體詞夠精確,但有時(shí)由于詞本身的含義不夠泛化,并不適用于文章的表示,舉個(gè)栗子,比如“HP”、“胃鏡”、“三聯(lián)療法”這幾個(gè)詞的確貼合消化內科的主題,但是它沒(méi)有“幽門(mén)螺桿菌的治療方法”這樣更加泛化的標簽詞來(lái)的直觀(guān),后者包含了更多的信息量,且更具可解釋性。這方向需要結合更多的NLP技術(shù),包括在業(yè)務(wù)場(chǎng)景中挖掘優(yōu)質(zhì)的concept短語(yǔ),構建concept短語(yǔ)與實(shí)體詞的taxonomy,利用文本子圖中心度測量、隨機游走路徑、詞頻共現等做encoding,以L(fǎng)DA作為抽取器完成標簽工作,以下我們將它為Concept挖掘的標簽方法。
對這兩種思路,我們調研了已有的相關(guān)研究,利用醫療知識圖譜和醫學(xué)垂直領(lǐng)域業(yè)務(wù)數據做了標簽生成的嘗試。
主題語(yǔ)義連貫的詞分布主題模型
《Incorporating Knowledge Graph Embeddings into Topic Modeling》
概率主題模型可用于從文檔集合中提取低維主題。然而,以往的模型往往產(chǎn)生無(wú)法解釋的主題。近年來(lái),已有許多基于知識的主題模型被提出,但它們不能很好的處理知識圖中的三元組,大部分以must-link形式,或直接利用圖譜中的上層概念,無(wú)法在向量空間中量化。本文將知識表示嵌入到到LDA中,將潛在的Dirichlet分配(一種廣泛使用的主題模型)與實(shí)體向量編碼的知識相結合,來(lái)提高了主題語(yǔ)義的一致性和連貫性。本文主要在兩個(gè)以往研究(CI-LDA和Corr-LDA)上做了改進(jìn),上圖為linkKGLDA,下圖為corrKGLDA:
兩個(gè)模型的不同之處在于,前者為條件獨立,后者為條件相關(guān)。具體的改進(jìn)如下:
由于一些知識表示(TransE)是unit sphere,因此使用von Mises Fisher(VMF)分布對其進(jìn)行建模。vmf分布被廣泛用于模擬此類(lèi)定向數據。此外,使用vmf分布代替多元高斯分布,可以更有效地進(jìn)行推斷。與傳統LDA模型相比,增加一組參數:(μk, κk) ,主題k的vMF分布;以及edm,即文檔中實(shí)體的知識表示向量。
實(shí)現Concept挖掘的標簽方法
目前的大多數concept標簽方案,多是基于一定的統計數據,如:詞對共現頻數,詞對覆蓋率等。這些方法依賴(lài)業(yè)務(wù)場(chǎng)景下的query log,或者也可利用知識圖譜結構進(jìn)行層次聚類(lèi),中心化,路徑預測等方式進(jìn)行。下面將一一介紹相關(guān)研究?!禛raph-Sparse LDA: A Topic Model with Structured Sparsity》本文引入了圖稀疏LDA,這是一種分層主題模型,它使用單詞之間關(guān)系的知識(例如:本體編碼)。在模型中,主題被一些潛在的概念詞概括,這些潛在概念詞來(lái)自觀(guān)察詞在本體中的圖。GS-LDA在標準LDA模型中引入了一個(gè)額外的層次結構層:主題不是分布在觀(guān)察到的詞上,而是分布在概念詞上,然后通過(guò)由詞匯結構通知的噪聲過(guò)程生成觀(guān)察到的詞。
例如上圖所示,“癲癇”是一個(gè)很好的概念詞,可以概括出子類(lèi)癲癇。如果患者患有癲癇也可以解釋“中樞神經(jīng)系統紊亂”甚至“疾病”。利用詞典用的詞或者實(shí)體總結文本時(shí),通常都非常具體,而使用概念詞總結一段文本,不僅可以說(shuō)明具體的語(yǔ)義,同時(shí)能挖掘到更上層或者相似主題的語(yǔ)義。例如:”抗病毒藥物”和”抗逆轉錄病毒”,一個(gè)詞和它的鄰居詞,可以被認為產(chǎn)生自一個(gè)核心概念。Graph-Sparse LDA模型假設一個(gè)主題有一組稀疏的概念詞組成,或是后代,或是祖先。最后定義如下過(guò)程:
推導了一個(gè)B、B-、A、A-和P(以及添加和刪除主題)的 blocked-Gibbs sampler。然而,單是吉布斯抽樣并不能使主題概念詞矩陣中的稀疏性足夠快?;旌纤俣群苈?,因為阻塞的吉布斯取樣器設置Akw~=0的唯一時(shí)間是沒(méi)有w~計數分配給任何文檔中的主題K時(shí)。當有海量文檔時(shí),不太可能達到零計數,采樣器稀疏主題概念詞矩陣A的速度會(huì )很慢。因此本文引入了一個(gè)MH procedure,通過(guò)在A(yíng)和P上的 joint moves,鼓勵主題概念詞矩陣A向更大稀疏的方向移動(dòng)。分布如下:
首先,對A’進(jìn)行智能分割合并移動(dòng)。其次,試圖通過(guò)提出一個(gè)P’來(lái)保持似然函數盡可能恒定:AP=A’P’。這樣,先驗p(A)和p(P)將對移動(dòng)產(chǎn)生很大的影響?!禛rounding Topic Models with Knowledge Bases》這篇工作認為盡管最近的研究試圖利用各種知識源來(lái)改進(jìn)主題建模,但它們要么承擔著(zhù)僅將主題表示為單詞或短語(yǔ)分布,要么通過(guò)將主題與預先定義的知識庫(知識庫)實(shí)體進(jìn)行一對一的綁定,建立主題模型,犧牲了主題建模的靈活性。因此提出了一種基于taxnomy層次結構隨機游走特征的LDA,目的在于將taxnomy的語(yǔ)義和結構化特征全部考慮進(jìn)來(lái)。
與以往LDA不同的是,模型中加入了四個(gè)新的變量,其中rdj代表隨機游走路徑,edj代表taxonomy中的概念,mdj代表文檔中的實(shí)體,ydl為單詞index。從根節點(diǎn)頂層概念詞c0開(kāi)始,通過(guò)隨機游走篩選子節點(diǎn)。過(guò)程結束直到到達葉子節點(diǎn)。因此這個(gè)隨機游走給每一個(gè)entity(概念)分配了一個(gè)從根到葉子的路徑?;谥黝}k,可以計算到達每個(gè)實(shí)體的隨機行走的概率,從而獲得主題k下實(shí)體的分布。同樣,對于每個(gè)類(lèi)別節點(diǎn)c,可以計算一個(gè)概率kc,表示c被包含在隨機行走路徑中的可能性。除了隨機游走得到的結構特征,本文同樣利用了維基百科的page數據,得到實(shí)體,單詞,概念之間的共現頻數,作為先驗信息。大文本語(yǔ)料庫和知識庫的推理是復雜的,為了保證實(shí)踐中的效率,文章提出需要注意以下幾個(gè)方面:(a)所有實(shí)體的路徑總數可能非常大,使得隨機游走公式的計算非常龐大。因此,本文使用命名實(shí)體字典為每個(gè)文檔選擇候選實(shí)體,在采樣時(shí)只考慮這些實(shí)體的路徑。實(shí)驗表明,該近似方法對建模性能的影響可以忽略不計,同時(shí)大大降低了采樣的復雜度,使推理成為現實(shí)。(b)通過(guò)修剪低級的具體類(lèi)別節點(diǎn)(其最短的根到節點(diǎn)路徑長(cháng)度超過(guò)閾值),進(jìn)一步減少層次深度。作者發(fā)現這樣一個(gè)“粗糙”的實(shí)體本體足以滿(mǎn)足需求。(c)為了計算路徑的概率,使用動(dòng)態(tài)規劃來(lái)避免冗余計算。(d)初始化實(shí)體和路徑分配以確保良好的起點(diǎn)?!禡odeling Documents by Combining Semantic Concepts with Unsupervised Statistical Learning》以往的研究中,或是只用文檔中的詞來(lái)描述主題,或是在taxnomy中找到合適的concept描述主題,本文雖然只是在傳統LDA模型上做了很小的改動(dòng),但是它可以實(shí)現文檔詞分布和taxnomy concept共存的主題表達形式。將文檔中的所有單詞(不僅僅是實(shí)體)映射到一組本體概念上,學(xué)習單詞和概念的概率模型,并且使用完全無(wú)監督的方法,而無(wú)需任何監督標記。
將把這種模型稱(chēng)為概念模型。在概念模型中,屬于概念的詞由人類(lèi)先驗地(例如,作為本體的一部分)定義,并且僅限于(通常)總體詞匯的一小部分。相反,在主題模型中,詞匯表中的所有單詞都可以與任何特定主題關(guān)聯(lián),但具有不同的概率。在上面的公式中,概念模型的未知參數是單詞概念概率p(wi|cj)和概念文檔概率p(cj|d)。作者的目標(在主題模型中)是從適當的語(yǔ)料庫中估計這些。例如,注意概率p(cj|d)可以解決前面提到的標記問(wèn)題,因為每個(gè)這樣的分布都告訴我們文檔d表示的概念cj的混合。使用吉布斯抽樣將概念分配給文檔中的單詞,使用與在主題模型相同的抽樣方程,但是有一個(gè)額外的約束,即一個(gè)單詞只能分配給它在本體中關(guān)聯(lián)的概念。除了約束外,學(xué)習算法與主題模型的標準學(xué)習完全相同,最終的結果是語(yǔ)料庫中的每個(gè)詞都被賦予了本體中的一個(gè)概念。反過(guò)來(lái),這些分配可以直接估計上面等式中的某些項。為了估計特定概念cj的p(wi|cj),我們通過(guò)抽樣算法判斷語(yǔ)料庫中有多少單詞可以分配給概念cj,并將這些計數標準化,以得到概率分布p(wi|cj)。為了估計特定文檔d的p(cj|d),計算每個(gè)概念分配給文檔d中單詞的次數,然后再次規范化和平滑計算以獲得p(cj|d)。下表顯示了一組單詞的學(xué)習概率(按概率排序)的例子。
《Unsupervised Graph-based Topic Labelling using DBpedia》這是一個(gè)完全將LDA作為抽取功能組件的模型,topic labeling過(guò)程完全基于聚類(lèi)和圖的中心化操作。
可以看到,每個(gè)實(shí)體的語(yǔ)義圖只能表示一種非常寬泛的概念,并不能體現各個(gè)實(shí)體概念之間的關(guān)系,直接作為標簽會(huì )使每個(gè)概念都孤立起來(lái),文本的語(yǔ)義不僅不一致,還會(huì )非常離散。相反本文方法是建立一個(gè)由多個(gè)實(shí)體子圖構成的主題圖,從中可以分析大圖中每個(gè)節點(diǎn)對主題圖的語(yǔ)義中心度貢獻(因此模型的假設前提是:在圖中起重要作用的節點(diǎn)也與種子概念有重要的語(yǔ)義關(guān)系)。最終從這些語(yǔ)義中心度貢獻高的節點(diǎn)中選擇標簽。本文應用了幾種語(yǔ)義中心性措施:Focused Closeness Centrality,Focused Information Centrality,Focused Betweenness Centrality,來(lái)計算候選標簽的語(yǔ)義中心度?!禣n Conceptual Labeling of a Bag of Words》本文利用了probase來(lái)進(jìn)行concept tagging,與上述的研究不同,他沒(méi)有用到任何主題模型,主要的方法是用信息論的方法來(lái)權衡對詞袋的語(yǔ)義覆蓋度,輸出覆蓋最廣但標簽最少的單詞。
使用MDL(最小長(cháng)度描述原則)作為選擇最好concept的標準,通過(guò)最大限度減少描述長(cháng)度來(lái)實(shí)現當前概念集C的更新。迭代終止時(shí),描述長(cháng)度不能再減少了。由于編碼長(cháng)度在每次迭代時(shí)單調遞減,因此保證了該算法收斂。雖然沒(méi)有用到任何主題模型,但算法仍然可以通過(guò)三種操作(增刪改)和MDL收斂的方式,自動(dòng)的決定主題個(gè)數。前提是需要有海量的上下級概念對頻數。
實(shí)際工作中的嘗試
在實(shí)際工作的嘗試中,我們的整體算法流程分為兩部分:核心主題關(guān)鍵詞抽取以及獲取更為抽象的concept短語(yǔ)。符合一定主題的關(guān)鍵詞抽?。涸谠械膌inkKGLDA模型基礎上,除了采用知識表示,還對圖譜之外的詞賦予deepwalk向量,是模型更好的應對圖譜之外的詞。更為抽象的concept短語(yǔ):首先構建基于帖子的知識圖譜,除了利用業(yè)務(wù)詞典,丁香園論壇結構,搭建圖譜上層,中下層圖譜通過(guò)層次主題模型,concept,關(guān)鍵詞抽取進(jìn)行搭建。通過(guò)的concept抽取模型(可參考:醫療健康領(lǐng)域的短文本解析探索),我們從query和帖子標題中抽取到了300萬(wàn)的concept詞語(yǔ),那么如何才能找到一個(gè)帖子真正說(shuō)的主題,并將文本中的最關(guān)鍵主題詞連接到相應的concept上呢,這里我們要借助以下論文中提到的方法:《Towards Better Text Understanding and Retrieval through Kernel Entity Salience Modeling》由于一篇文章涉及到的實(shí)體多種多樣,但一般會(huì )存在幾個(gè)最關(guān)鍵的實(shí)體,例如:
文中出現了腹瀉,綠便,奶等一系列表述疾病過(guò)程和食物相關(guān)的實(shí)體(可通過(guò)linkKGLDA識別出來(lái)),但中心實(shí)體”腹瀉”和”乳糖酶乳粉”在識別結果中的排序可能并不是top1,這會(huì )使得后續的concept對應工作產(chǎn)生一定的噪音。
本文主要研究實(shí)體對文章的顯著(zhù)程度,通過(guò)結合文章上下文和實(shí)體知識表示(KEE),和Kernel Interaction Model (KIM) 模型,對實(shí)體-文章對進(jìn)行排序,從而得到實(shí)體在文章中的顯著(zhù)程度。實(shí)驗數據利用的是遠監督標注,利用文章和文章標題,以及已有算法(ner,名詞短語(yǔ)抽取,實(shí)體鏈接,linkKGLDA概率等)得到訓練數據?!禔 User-Centered Concept Mining System for Query and Document Understanding at Tencent》本篇文章在tagging docment上的方法有兩種,實(shí)現的前提條件是需要有足夠數量和高質(zhì)量的query log,以及知識圖譜。整個(gè)過(guò)程分為兩種方法:基于概率和基于匹配:
基于條件概率:
文章3.1節描述了如何利用抽取到的主題關(guān)鍵詞去對應到一組合適的concept,主要利用的還是主題關(guān)鍵詞上下文與concept的條件概率推理。與《Grounding Topic Models with Knowledge Bases》不同,這種方法可以得到圖譜中不存在,但是搜索中經(jīng)常出現的concept,并且也不需要大量上下位詞的共現頻數。
整個(gè)p(c|d)的計算過(guò)程重點(diǎn)在于第三步,即想要計算p(c|x),必須存在以上下文xj作為子串的概念詞(這樣的概念詞來(lái)自于query log),如:文中提到的概念詞”省油的汽車(chē)”和文檔中”豐田RAV4”的上下文”省油,耐用”。雖然這樣的概念詞在醫療專(zhuān)業(yè)詞匯和搜索中很少見(jiàn),但這實(shí)際上是實(shí)體屬性和概念屬性的一種交集,在沒(méi)有足夠數量和高質(zhì)量的query log的情況下,我們可以采用屬性抽取相關(guān)工作的研究結果。這樣做更有利于做醫療領(lǐng)域的相關(guān)問(wèn)題,當然也可參照之前的歷史文章(taxnomy構建)和上面介紹的《On Conceptual Labeling of a Bag of Words》計算概率值。
基于匹配:
1.首先利用GBRank,textRank,word2vec算法,得到一定數量的關(guān)鍵詞(instance)2.利用檢索或者web table找到與instance相關(guān)的概念候選。每一個(gè)concept,用topN搜索結果標題文本信息來(lái)豐富concept表示(tf-idf向量)。4.將concept表示與文檔title tf-idf向量做相似度計算,超過(guò)一定閾值,打相應標簽。
實(shí)驗對比
在丁香園論壇帖子的文本數據上,我們應用了前文調研的主題抽取、實(shí)體顯著(zhù)性判斷、短語(yǔ)挖掘、concept召回等方法,所獲得的標簽在主題貼近度和可解釋性上都有顯著(zhù)提高:
總結
標簽生成任務(wù)雖然在NLP領(lǐng)域非常常見(jiàn),但是想要獲得高質(zhì)量的標簽詞,在推薦、搜索、問(wèn)答等工業(yè)場(chǎng)景下應用,背后其實(shí)集成了眾多NLP基礎工作。標簽生成的上游包含了分詞、命名實(shí)體識別、醫學(xué)概念歸一化、消岐、concept質(zhì)量?jì)?yōu)化等工作。只有穩固的基礎才能把樓蓋得更高。其次,知識圖譜就是模型。合理的圖譜結構、豐富的數據量將決定最終結果的好壞。在產(chǎn)業(yè)界尤其需要關(guān)注實(shí)際業(yè)務(wù)下的知識體系構建,一套知識圖譜并不一定能滿(mǎn)足所有的業(yè)務(wù)線(xiàn),比如在醫學(xué)科普文章下表現良好的圖譜,若應用在考研、招聘類(lèi)的文本下,反而會(huì )因為抽出過(guò)多的醫學(xué)專(zhuān)業(yè)詞匯而偏離主題??梢耘c業(yè)務(wù)部門(mén)協(xié)同補全知識圖譜,或者用一些統計學(xué)方法加以補充。最后,標簽詞并不需要一定作為文本的一種“顯式”的展示方式,作為長(cháng)文本的一種更優(yōu)的結構化數據,它有各種各樣的“隱式”用法,比如作為特征輸入到下游的文本分類(lèi)、標題生成甚至融入到推薦系統策略中,我們會(huì )在今后陸續分享各種有趣的玩兒法。
可
能
喜
歡
求關(guān)注 求投喂 拉你進(jìn)高端群哦~
參
考
文
獻
從0到1:構建強大且易用的規則引擎
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 98 次瀏覽 ? 2022-06-18 20:24
2016 年 7 月恰逢美團點(diǎn)評的業(yè)務(wù)進(jìn)入“下半場(chǎng)”,需要在各個(gè)環(huán)節優(yōu)化體驗、提升效率、降低成本。技術(shù)團隊需要怎么做來(lái)適應這個(gè)變化?這個(gè)問(wèn)題直接影響著(zhù)之后的工作思路。
美團外賣(mài)的 CRM 業(yè)務(wù)步入成熟期,規則類(lèi)需求幾乎撐起了這個(gè)業(yè)務(wù)所有需求的半邊天。
一方面規則唯一不變的是“多變”,另一方面開(kāi)發(fā)團隊對“規則開(kāi)發(fā)”的感受是乏味、疲憊和缺乏技術(shù)含量。如何解決規則開(kāi)發(fā)的效率問(wèn)題,最大化解放開(kāi)發(fā)團隊成為目前的一個(gè) KPI。
規則引擎作為常見(jiàn)的維護策略規則的框架很快進(jìn)入我的思路。它能將業(yè)務(wù)決策邏輯從系統邏輯中抽離出來(lái),使兩種邏輯可以獨立于彼此而變化,這樣可以明顯降低兩種邏輯的維護成本。
分析規則引擎如何設計正是本文的主題,過(guò)程中也簡(jiǎn)單介紹了實(shí)現方案。
美團規則引擎應用實(shí)踐
首先回顧幾個(gè)美團點(diǎn)評的業(yè)務(wù)場(chǎng)景,通過(guò)這些場(chǎng)景大家能更好地理解什么是規則,規則的邊界是什么。
在每個(gè)場(chǎng)景后面都介紹了業(yè)務(wù)系統現在使用的解決方案以及主要的優(yōu)缺點(diǎn)。
門(mén)店信息校驗
場(chǎng)景
美團點(diǎn)評合并前的美團平臺事業(yè)部中,門(mén)店信息入口作為門(mén)店信息的第一道關(guān)卡,有一個(gè)很重要的職責,就是質(zhì)量控制,其中第一步就是針對一些字段的校驗規則。
下面從流程的角度看下門(mén)店信息入口業(yè)務(wù)里校驗門(mén)店信息的規則模型(已簡(jiǎn)化),如下圖:
規則主體包括三部分:
方案:硬編碼
由于歷史原因,門(mén)店信息校驗采用了硬編碼的方式,偽代碼如下:
if (StringUtil.isBlank(fieldA)
|| StringUtil.isBlank(fieldB)
|| StringUtil.isBlank(fieldC)
|| StringUtil.isBlank(fieldD)) {
return ResultDOFactory.createResultDO(Code.PARAM_ERROR, "門(mén)店參數缺少必填項");
}if (fieldA.length() < 10) {
return ResultDOFactory.createResultDO(Code.PARAM_ERROR, "門(mén)店名稱(chēng)長(cháng)度不能少于10個(gè)字符");
}
if (!isConsistent(fieldB, fieldC, fieldD)) {
return ResultDOFactory.createResultDO(Code.PARAM_ERROR, "門(mén)店xxx地址、行政區和經(jīng)緯度不一致");
}
優(yōu)點(diǎn):
缺點(diǎn):
門(mén)店審核流程
場(chǎng)景
流程控制中心(負責在運行時(shí)根據輸入參數選擇不同的流程節點(diǎn)從而構建一個(gè)流程實(shí)例)會(huì )根據輸入門(mén)店信息中的渠道來(lái)源和品牌等特征確定本次審核(不)走哪些節點(diǎn),其中選擇策略的模型如下圖:
規則主體是分支條件:
方案:開(kāi)源 Drools 從入門(mén)到放棄
經(jīng)過(guò)一系列調研,團隊選擇基于開(kāi)源規則引擎 Drools 來(lái)配置流程中審核節點(diǎn)的選擇策略。使用 Drools 后的規則配置流程如下圖:
上圖中 DSL 即是規則主體,規則內容如下:
rule "1.1"
when
poi : POI( source == 1 && brandType == 1 )
then
System.out.println( "1.1 matched" );
poi.setPassedNodes(1);
end
rule "1.2"
when
poi : POI( source == 1 && brandType == 2 )
then
System.out.println( "1.2 matched" );
end
rule "2.1"
when
poi : POI( source == 2 && brandType == 1 )
then
System.out.println( "2.1 matched" );
poi.setPassedNodes(2);
end
rule "2.2"
when
poi : POI( source == 2 && brandType == 2 )
then
System.out.println( "2.2 matched" );
poi.setPassedNodes(3);
end
在實(shí)踐中,我們發(fā)現 Drools 方案有如下幾個(gè)優(yōu)缺點(diǎn),由于 Drools 的問(wèn)題較多,最后這個(gè)方案還是放棄了。
優(yōu)點(diǎn):
缺點(diǎn):
績(jì)效指標計算
場(chǎng)景
美團外賣(mài)業(yè)務(wù)發(fā)展非常迅速,績(jì)效指標規則需要快速迭代才能緊跟業(yè)務(wù)發(fā)展步伐???jì)效考核頻率是一個(gè)月一次,因此績(jì)效規則的迭代頻率也是每月一次。因為績(jì)效規則系統是硬編碼實(shí)現,因此開(kāi)發(fā)團隊需要投入大量的人力滿(mǎn)足規則更新需求。
2016 年 10 月底,我受績(jì)效團隊委托成立一個(gè)項目組,開(kāi)發(fā)部署了一套績(jì)效指標配置系統,系統上線(xiàn)直接減少了產(chǎn)品經(jīng)理和技術(shù)團隊 70% 的工作量。
下面我們首先分析下績(jì)效指標計算的規則模型,如下圖:
規則主體是結構化數據處理邏輯:
方案:業(yè)務(wù)定制規則引擎
績(jì)效規則主體是數據處理,但我們認為數據處理同樣屬于規則的范疇,因此我們將其放在本文進(jìn)行分析。
下圖是績(jì)效指標配置系統,觸發(fā)器負責定時(shí)驅動(dòng)引擎進(jìn)行計算;視圖負責給商業(yè)分析師提供規則配置界面,規則表達能力取決于視圖;引擎負責將配置的規則解析成 Spark 原語(yǔ)進(jìn)行計算。
優(yōu)點(diǎn):
缺點(diǎn):
探索全新設計
“案例”一節中三種落地方案的問(wèn)題總結如下:
由于“高效配置規則”是業(yè)務(wù)里長(cháng)期存在的剛需,且行業(yè)內又缺乏符合需求的解決方案,2017 年 2 月我在團隊內部設立了一個(gè)虛擬小組專(zhuān)門(mén)負責規則引擎的設計研發(fā)。
引擎設計指標是要覆蓋工作中基礎的規則迭代需求(包括但不限于“案例”一節中的多個(gè)場(chǎng)景),同時(shí)針對“案例”一節中已有解決方案揚長(cháng)避短。
下面分三節來(lái)重現這個(gè)項目的設計過(guò)程:
需求模型
對規則引擎來(lái)說(shuō),世界皆規則。通過(guò)“案例”一節的分析,我們對規則以及規則引擎該如何構建的思路正逐漸變得清晰。
下面兩節分別定義規則數據模型和規則引擎的系統模型,目標是對“Maze 框架”一節中的規則引擎產(chǎn)品進(jìn)行框架性指導。
規則數據模型
規則本質(zhì)是一個(gè)函數,由 n 個(gè)輸入、1 個(gè)輸出和函數計算邏輯 3 部分組成。
y = f(x1, x2, …, xn)
具體結合“案例”一節中的場(chǎng)景,我們梳理出的規則模型如下圖所示:
主要由三部分構成:
結果對象,規則處理完畢后的結果。需要支持自定義類(lèi)型或者簡(jiǎn)單類(lèi)型(Integer、Long、Float、Double、Short、String、Boolean 等)。
系統模型
我們需要設計一個(gè)系統能配置、加載、解釋執行上節中的數據模型,另外設計時(shí)還需要規避“案例”一節 3 個(gè)方案的缺點(diǎn)。最終我們定義了如下圖所示的系統模型。
主要由三個(gè)模塊構成:
資源管理器,負責管理規則。
最終結果 /** 變量模式 */
|
|
中間結果 > $參數3 /** 關(guān)系運算模式 */
|
|
$參數1 + $參數2 /** 算數運算模式 */
Maze 框架
基于"需求模型"一節的定義,我們開(kāi)發(fā)了 Maze 框架(Maze 是迷宮的意思,寓意:迷宮一樣復雜的規則)。
Maze 框架分兩個(gè)引擎:
其中 MazeGO 內解析到結構化數據處理模式會(huì )調用 SQLC 驅動(dòng) MazeQL 完成計算,比如:從數據庫里查詢(xún)某個(gè) BD 的月交易額,如果交易額超過(guò) 30 萬(wàn)則執行 A 邏輯否則執行 B 邏輯,這個(gè)語(yǔ)義的規則需要執行結構化查詢(xún)。
MazeQL 內解析到策略計算模式會(huì )調用 VectorC 驅動(dòng) MazeGO 進(jìn)行計算,比如:有一張訂單表,其中第一列是商品 ID,第二列是商品購買(mǎi)數量,第三列是此商品的單價(jià)。
我們需要計算每類(lèi)商品的總價(jià)則需要對結構化查詢(xún)到的結果的每一行執行第二列*第三列這樣的策略模式計算。
名詞解釋?zhuān)?br /> SQLC 指結構化查詢(xún),擁有執行 SQL 的能力。
MazeGO
MazeGO 核心主要由三部分構成:
另外兩個(gè)輔助模塊是流量控制器和規則效果分析模塊,基本構成如下圖:
三個(gè)核心模塊(引擎、知識庫和資源管理器)的職責見(jiàn)“需求模型”一節中“系統模型”一節。
下面只介紹下和“系統模型”不同的部分:
預編譯規則實(shí)例,因為規則每次編譯執行會(huì )導致性能問(wèn)題,因此會(huì )在引擎初始化和規則有變更這兩個(gè)時(shí)機將增量版本的規則預編譯成可執行代碼。規則管理模塊。職責如下:
MazeQL
MazeQL 核心主要由三部分構成:
QL 驅動(dòng)器,驅動(dòng)平臺進(jìn)行規則計算。因為任務(wù)的實(shí)際執行平臺有多種(會(huì )在下一個(gè)“平臺”部分介紹),因此 QL 驅動(dòng)器也有多種實(shí)現。
預加載規則實(shí)例,首先為了避免訪(fǎng)問(wèn)規則時(shí)需要實(shí)時(shí)執行遠程調用而造成較大的時(shí)延,另外規則并不是時(shí)刻發(fā)生變更沒(méi)有必要每次訪(fǎng)問(wèn)時(shí)拉取一次最新版本。
基于以上兩個(gè)原因規則管理模塊會(huì )在引擎初始化階段將有效版本的規則實(shí)例緩存在本地并且監聽(tīng)規則變更事件(監聽(tīng)可以基于 ZooKeeper 實(shí)現)。
預解析規則實(shí)例,因為規則每次解析執行會(huì )導致性能(大對象)問(wèn)題,因此會(huì )在引擎初始化階段解析為運行時(shí)可用的調度棧幀。
規則管理模塊,職責如下,運行時(shí)模塊。分為調度器和 QL 驅動(dòng)器。
嵌入式模式下是基于 MySQL和 Derby 等實(shí)時(shí)性較好的數據庫實(shí)現的。在 Spark 平臺上是基于 Spark SQL 實(shí)現的。
QL 執行器,負責執行結構化查詢(xún)邏輯。兩種不同的運行模式下 QL 執行器在執行 SQL 模式時(shí)會(huì )選擇兩種不同的 QL 執行器實(shí)現,兩種實(shí)現分別是:
Maze 框架能力模型
Maze 框架是一個(gè)適用于非技術(shù)背景人員,支持復雜規則的配置和計算引擎。
規則迭代安全性
規則支持熱部署,系統通過(guò)版本控制,可以灰度一部分流量,增加上線(xiàn)信心。
規則表達能力,框架的表達能力覆蓋絕大部分代碼表達能力。下面用偽代碼的形式展示下 Maze 框架的規則部分具有的能力。
// 輸入N個(gè)FACT對象
function(Fact[] facts) {
// 從FACT對象里提取模式
String xx= facts[0].xx;
// 從某個(gè)數據源獲取特征數據,SQLC數據處理能力遠超sql語(yǔ)言本身能力,SQLC具有編程+SQL的混合能力
List moreFacts = connection.executeQuery("select * from xxx where xx like '%" + xx + "%');
// 對特征數據和FACT對象應用用戶(hù)自定義計算模式
UserDefinedClass userDefinedObj = userDefinedFuntion(facts, moreFacts);
// 使用系統內置表達式模式處理特征
int compareResult = userDefinedObj.getFieldXX().compare(XX); 查看全部
從0到1:構建強大且易用的規則引擎
2016 年 7 月恰逢美團點(diǎn)評的業(yè)務(wù)進(jìn)入“下半場(chǎng)”,需要在各個(gè)環(huán)節優(yōu)化體驗、提升效率、降低成本。技術(shù)團隊需要怎么做來(lái)適應這個(gè)變化?這個(gè)問(wèn)題直接影響著(zhù)之后的工作思路。
美團外賣(mài)的 CRM 業(yè)務(wù)步入成熟期,規則類(lèi)需求幾乎撐起了這個(gè)業(yè)務(wù)所有需求的半邊天。
一方面規則唯一不變的是“多變”,另一方面開(kāi)發(fā)團隊對“規則開(kāi)發(fā)”的感受是乏味、疲憊和缺乏技術(shù)含量。如何解決規則開(kāi)發(fā)的效率問(wèn)題,最大化解放開(kāi)發(fā)團隊成為目前的一個(gè) KPI。
規則引擎作為常見(jiàn)的維護策略規則的框架很快進(jìn)入我的思路。它能將業(yè)務(wù)決策邏輯從系統邏輯中抽離出來(lái),使兩種邏輯可以獨立于彼此而變化,這樣可以明顯降低兩種邏輯的維護成本。
分析規則引擎如何設計正是本文的主題,過(guò)程中也簡(jiǎn)單介紹了實(shí)現方案。
美團規則引擎應用實(shí)踐
首先回顧幾個(gè)美團點(diǎn)評的業(yè)務(wù)場(chǎng)景,通過(guò)這些場(chǎng)景大家能更好地理解什么是規則,規則的邊界是什么。
在每個(gè)場(chǎng)景后面都介紹了業(yè)務(wù)系統現在使用的解決方案以及主要的優(yōu)缺點(diǎn)。
門(mén)店信息校驗
場(chǎng)景
美團點(diǎn)評合并前的美團平臺事業(yè)部中,門(mén)店信息入口作為門(mén)店信息的第一道關(guān)卡,有一個(gè)很重要的職責,就是質(zhì)量控制,其中第一步就是針對一些字段的校驗規則。
下面從流程的角度看下門(mén)店信息入口業(yè)務(wù)里校驗門(mén)店信息的規則模型(已簡(jiǎn)化),如下圖:
規則主體包括三部分:
方案:硬編碼
由于歷史原因,門(mén)店信息校驗采用了硬編碼的方式,偽代碼如下:
if (StringUtil.isBlank(fieldA)
|| StringUtil.isBlank(fieldB)
|| StringUtil.isBlank(fieldC)
|| StringUtil.isBlank(fieldD)) {
return ResultDOFactory.createResultDO(Code.PARAM_ERROR, "門(mén)店參數缺少必填項");
}if (fieldA.length() < 10) {
return ResultDOFactory.createResultDO(Code.PARAM_ERROR, "門(mén)店名稱(chēng)長(cháng)度不能少于10個(gè)字符");
}
if (!isConsistent(fieldB, fieldC, fieldD)) {
return ResultDOFactory.createResultDO(Code.PARAM_ERROR, "門(mén)店xxx地址、行政區和經(jīng)緯度不一致");
}
優(yōu)點(diǎn):
缺點(diǎn):
門(mén)店審核流程
場(chǎng)景
流程控制中心(負責在運行時(shí)根據輸入參數選擇不同的流程節點(diǎn)從而構建一個(gè)流程實(shí)例)會(huì )根據輸入門(mén)店信息中的渠道來(lái)源和品牌等特征確定本次審核(不)走哪些節點(diǎn),其中選擇策略的模型如下圖:
規則主體是分支條件:
方案:開(kāi)源 Drools 從入門(mén)到放棄
經(jīng)過(guò)一系列調研,團隊選擇基于開(kāi)源規則引擎 Drools 來(lái)配置流程中審核節點(diǎn)的選擇策略。使用 Drools 后的規則配置流程如下圖:
上圖中 DSL 即是規則主體,規則內容如下:
rule "1.1"
when
poi : POI( source == 1 && brandType == 1 )
then
System.out.println( "1.1 matched" );
poi.setPassedNodes(1);
end
rule "1.2"
when
poi : POI( source == 1 && brandType == 2 )
then
System.out.println( "1.2 matched" );
end
rule "2.1"
when
poi : POI( source == 2 && brandType == 1 )
then
System.out.println( "2.1 matched" );
poi.setPassedNodes(2);
end
rule "2.2"
when
poi : POI( source == 2 && brandType == 2 )
then
System.out.println( "2.2 matched" );
poi.setPassedNodes(3);
end
在實(shí)踐中,我們發(fā)現 Drools 方案有如下幾個(gè)優(yōu)缺點(diǎn),由于 Drools 的問(wèn)題較多,最后這個(gè)方案還是放棄了。
優(yōu)點(diǎn):
缺點(diǎn):
績(jì)效指標計算
場(chǎng)景
美團外賣(mài)業(yè)務(wù)發(fā)展非常迅速,績(jì)效指標規則需要快速迭代才能緊跟業(yè)務(wù)發(fā)展步伐???jì)效考核頻率是一個(gè)月一次,因此績(jì)效規則的迭代頻率也是每月一次。因為績(jì)效規則系統是硬編碼實(shí)現,因此開(kāi)發(fā)團隊需要投入大量的人力滿(mǎn)足規則更新需求。
2016 年 10 月底,我受績(jì)效團隊委托成立一個(gè)項目組,開(kāi)發(fā)部署了一套績(jì)效指標配置系統,系統上線(xiàn)直接減少了產(chǎn)品經(jīng)理和技術(shù)團隊 70% 的工作量。
下面我們首先分析下績(jì)效指標計算的規則模型,如下圖:
規則主體是結構化數據處理邏輯:
方案:業(yè)務(wù)定制規則引擎
績(jì)效規則主體是數據處理,但我們認為數據處理同樣屬于規則的范疇,因此我們將其放在本文進(jìn)行分析。
下圖是績(jì)效指標配置系統,觸發(fā)器負責定時(shí)驅動(dòng)引擎進(jìn)行計算;視圖負責給商業(yè)分析師提供規則配置界面,規則表達能力取決于視圖;引擎負責將配置的規則解析成 Spark 原語(yǔ)進(jìn)行計算。
優(yōu)點(diǎn):
缺點(diǎn):
探索全新設計
“案例”一節中三種落地方案的問(wèn)題總結如下:
由于“高效配置規則”是業(yè)務(wù)里長(cháng)期存在的剛需,且行業(yè)內又缺乏符合需求的解決方案,2017 年 2 月我在團隊內部設立了一個(gè)虛擬小組專(zhuān)門(mén)負責規則引擎的設計研發(fā)。
引擎設計指標是要覆蓋工作中基礎的規則迭代需求(包括但不限于“案例”一節中的多個(gè)場(chǎng)景),同時(shí)針對“案例”一節中已有解決方案揚長(cháng)避短。
下面分三節來(lái)重現這個(gè)項目的設計過(guò)程:
需求模型
對規則引擎來(lái)說(shuō),世界皆規則。通過(guò)“案例”一節的分析,我們對規則以及規則引擎該如何構建的思路正逐漸變得清晰。
下面兩節分別定義規則數據模型和規則引擎的系統模型,目標是對“Maze 框架”一節中的規則引擎產(chǎn)品進(jìn)行框架性指導。
規則數據模型
規則本質(zhì)是一個(gè)函數,由 n 個(gè)輸入、1 個(gè)輸出和函數計算邏輯 3 部分組成。
y = f(x1, x2, …, xn)
具體結合“案例”一節中的場(chǎng)景,我們梳理出的規則模型如下圖所示:
主要由三部分構成:
結果對象,規則處理完畢后的結果。需要支持自定義類(lèi)型或者簡(jiǎn)單類(lèi)型(Integer、Long、Float、Double、Short、String、Boolean 等)。
系統模型
我們需要設計一個(gè)系統能配置、加載、解釋執行上節中的數據模型,另外設計時(shí)還需要規避“案例”一節 3 個(gè)方案的缺點(diǎn)。最終我們定義了如下圖所示的系統模型。
主要由三個(gè)模塊構成:
資源管理器,負責管理規則。
最終結果 /** 變量模式 */
|
|
中間結果 > $參數3 /** 關(guān)系運算模式 */
|
|
$參數1 + $參數2 /** 算數運算模式 */
Maze 框架
基于"需求模型"一節的定義,我們開(kāi)發(fā)了 Maze 框架(Maze 是迷宮的意思,寓意:迷宮一樣復雜的規則)。
Maze 框架分兩個(gè)引擎:
其中 MazeGO 內解析到結構化數據處理模式會(huì )調用 SQLC 驅動(dòng) MazeQL 完成計算,比如:從數據庫里查詢(xún)某個(gè) BD 的月交易額,如果交易額超過(guò) 30 萬(wàn)則執行 A 邏輯否則執行 B 邏輯,這個(gè)語(yǔ)義的規則需要執行結構化查詢(xún)。
MazeQL 內解析到策略計算模式會(huì )調用 VectorC 驅動(dòng) MazeGO 進(jìn)行計算,比如:有一張訂單表,其中第一列是商品 ID,第二列是商品購買(mǎi)數量,第三列是此商品的單價(jià)。
我們需要計算每類(lèi)商品的總價(jià)則需要對結構化查詢(xún)到的結果的每一行執行第二列*第三列這樣的策略模式計算。
名詞解釋?zhuān)?br /> SQLC 指結構化查詢(xún),擁有執行 SQL 的能力。
MazeGO
MazeGO 核心主要由三部分構成:
另外兩個(gè)輔助模塊是流量控制器和規則效果分析模塊,基本構成如下圖:
三個(gè)核心模塊(引擎、知識庫和資源管理器)的職責見(jiàn)“需求模型”一節中“系統模型”一節。
下面只介紹下和“系統模型”不同的部分:
預編譯規則實(shí)例,因為規則每次編譯執行會(huì )導致性能問(wèn)題,因此會(huì )在引擎初始化和規則有變更這兩個(gè)時(shí)機將增量版本的規則預編譯成可執行代碼。規則管理模塊。職責如下:
MazeQL
MazeQL 核心主要由三部分構成:
QL 驅動(dòng)器,驅動(dòng)平臺進(jìn)行規則計算。因為任務(wù)的實(shí)際執行平臺有多種(會(huì )在下一個(gè)“平臺”部分介紹),因此 QL 驅動(dòng)器也有多種實(shí)現。
預加載規則實(shí)例,首先為了避免訪(fǎng)問(wèn)規則時(shí)需要實(shí)時(shí)執行遠程調用而造成較大的時(shí)延,另外規則并不是時(shí)刻發(fā)生變更沒(méi)有必要每次訪(fǎng)問(wèn)時(shí)拉取一次最新版本。
基于以上兩個(gè)原因規則管理模塊會(huì )在引擎初始化階段將有效版本的規則實(shí)例緩存在本地并且監聽(tīng)規則變更事件(監聽(tīng)可以基于 ZooKeeper 實(shí)現)。
預解析規則實(shí)例,因為規則每次解析執行會(huì )導致性能(大對象)問(wèn)題,因此會(huì )在引擎初始化階段解析為運行時(shí)可用的調度棧幀。
規則管理模塊,職責如下,運行時(shí)模塊。分為調度器和 QL 驅動(dòng)器。
嵌入式模式下是基于 MySQL和 Derby 等實(shí)時(shí)性較好的數據庫實(shí)現的。在 Spark 平臺上是基于 Spark SQL 實(shí)現的。
QL 執行器,負責執行結構化查詢(xún)邏輯。兩種不同的運行模式下 QL 執行器在執行 SQL 模式時(shí)會(huì )選擇兩種不同的 QL 執行器實(shí)現,兩種實(shí)現分別是:
Maze 框架能力模型
Maze 框架是一個(gè)適用于非技術(shù)背景人員,支持復雜規則的配置和計算引擎。
規則迭代安全性
規則支持熱部署,系統通過(guò)版本控制,可以灰度一部分流量,增加上線(xiàn)信心。
規則表達能力,框架的表達能力覆蓋絕大部分代碼表達能力。下面用偽代碼的形式展示下 Maze 框架的規則部分具有的能力。
// 輸入N個(gè)FACT對象
function(Fact[] facts) {
// 從FACT對象里提取模式
String xx= facts[0].xx;
// 從某個(gè)數據源獲取特征數據,SQLC數據處理能力遠超sql語(yǔ)言本身能力,SQLC具有編程+SQL的混合能力
List moreFacts = connection.executeQuery("select * from xxx where xx like '%" + xx + "%');
// 對特征數據和FACT對象應用用戶(hù)自定義計算模式
UserDefinedClass userDefinedObj = userDefinedFuntion(facts, moreFacts);
// 使用系統內置表達式模式處理特征
int compareResult = userDefinedObj.getFieldXX().compare(XX);
搜索引擎主題模型可以?xún)?yōu)化的方法有哪些呢??
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 105 次瀏覽 ? 2022-05-14 04:02
搜索引擎主題模型優(yōu)化就是通過(guò)根據訪(fǎng)問(wèn)量及更新日志、頁(yè)面定位出主要的主題關(guān)鍵詞、搜索引擎變體(wordtag、webtag、webtags)等對主題關(guān)鍵詞進(jìn)行再擴展、主題關(guān)鍵詞再定位等方式來(lái)提升用戶(hù)體驗,增加網(wǎng)站流量和營(yíng)收。
主題模型優(yōu)化可以:
1、減少用戶(hù)搜索廣告的次數
2、有利于搜索引擎收錄和排名(搜索引擎更有利于收錄網(wǎng)站首頁(yè))
3、有利于提高網(wǎng)站內容的展示(更有利于展示網(wǎng)站內容)
4、減少用戶(hù)點(diǎn)擊次數(使網(wǎng)站曝光度更大)
5、減少排名流量(減少網(wǎng)站的排名曝光度)
6、減少競爭對手網(wǎng)站點(diǎn)擊、點(diǎn)擊和點(diǎn)擊次數
7、減少對搜索引擎的影響(減少搜索引擎收錄、排名影響力)主題模型可以?xún)?yōu)化的方法:
1、圖片分析,
2、當圖片表現非常好時(shí),非常好搜索引擎可以認為該網(wǎng)站的形象代表網(wǎng)站的品牌形象,
3、當圖片出現在非常好的位置時(shí),非常好搜索引擎可以認為該網(wǎng)站擁有良好的用戶(hù)體驗,
4、新的主題建立
5、主題搜索引擎
6、如果存在主題關(guān)鍵詞,最好能收集多一些的圖片關(guān)鍵詞,
搜索引擎客戶(hù)端的分享送流量是最常見(jiàn)的。在線(xiàn)能看到來(lái)自各個(gè)國家不同地域的網(wǎng)民都在流量分享,主要是手機用戶(hù)。提問(wèn)不是很全面,舉兩個(gè)簡(jiǎn)單例子:分享給國內淘寶商家的海外產(chǎn)品或者達人分享給淘寶同行的新品推薦。我們是一個(gè)無(wú)邊框的純產(chǎn)品站。我們的經(jīng)驗看是兩塊,一個(gè)是圖片的搜索分享,更加精準用戶(hù),第二塊內容來(lái)源搜索,更加精準用戶(hù)。同行不能放正則表達的關(guān)鍵詞,因為除了同行,外行是看不到的。 查看全部
搜索引擎主題模型可以?xún)?yōu)化的方法有哪些呢??
搜索引擎主題模型優(yōu)化就是通過(guò)根據訪(fǎng)問(wèn)量及更新日志、頁(yè)面定位出主要的主題關(guān)鍵詞、搜索引擎變體(wordtag、webtag、webtags)等對主題關(guān)鍵詞進(jìn)行再擴展、主題關(guān)鍵詞再定位等方式來(lái)提升用戶(hù)體驗,增加網(wǎng)站流量和營(yíng)收。
主題模型優(yōu)化可以:
1、減少用戶(hù)搜索廣告的次數
2、有利于搜索引擎收錄和排名(搜索引擎更有利于收錄網(wǎng)站首頁(yè))
3、有利于提高網(wǎng)站內容的展示(更有利于展示網(wǎng)站內容)
4、減少用戶(hù)點(diǎn)擊次數(使網(wǎng)站曝光度更大)
5、減少排名流量(減少網(wǎng)站的排名曝光度)
6、減少競爭對手網(wǎng)站點(diǎn)擊、點(diǎn)擊和點(diǎn)擊次數
7、減少對搜索引擎的影響(減少搜索引擎收錄、排名影響力)主題模型可以?xún)?yōu)化的方法:
1、圖片分析,
2、當圖片表現非常好時(shí),非常好搜索引擎可以認為該網(wǎng)站的形象代表網(wǎng)站的品牌形象,
3、當圖片出現在非常好的位置時(shí),非常好搜索引擎可以認為該網(wǎng)站擁有良好的用戶(hù)體驗,
4、新的主題建立
5、主題搜索引擎
6、如果存在主題關(guān)鍵詞,最好能收集多一些的圖片關(guān)鍵詞,
搜索引擎客戶(hù)端的分享送流量是最常見(jiàn)的。在線(xiàn)能看到來(lái)自各個(gè)國家不同地域的網(wǎng)民都在流量分享,主要是手機用戶(hù)。提問(wèn)不是很全面,舉兩個(gè)簡(jiǎn)單例子:分享給國內淘寶商家的海外產(chǎn)品或者達人分享給淘寶同行的新品推薦。我們是一個(gè)無(wú)邊框的純產(chǎn)品站。我們的經(jīng)驗看是兩塊,一個(gè)是圖片的搜索分享,更加精準用戶(hù),第二塊內容來(lái)源搜索,更加精準用戶(hù)。同行不能放正則表達的關(guān)鍵詞,因為除了同行,外行是看不到的。
DorisDB在跨越速運查詢(xún)引擎中的探索實(shí)踐
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 112 次瀏覽 ? 2022-05-12 01:56
跨越速運集團有限公司創(chuàng )建于2007年,目前服務(wù)網(wǎng)點(diǎn)超過(guò)3000家,覆蓋城市500余個(gè),是中國物流服務(wù)行業(yè)獨角獸企業(yè)??缭郊瘓F大數據中心負責全集團所有數據平臺組件的建設和維護,支撐20余條核心業(yè)務(wù)線(xiàn),面向集團5萬(wàn)多員工的使用。目前,大數據中心已建設數據查詢(xún)接口1W+,每天調用次數超過(guò)1千萬(wàn),TP99在1秒以下。我們利用DorisDB作為通用查詢(xún)引擎,有效解決了原架構大量查詢(xún)返回時(shí)間過(guò)長(cháng),性能達不到預期的問(wèn)題。
“ 作者:張杰 跨越集團大數據運維架構師,負責集團公司大數據平臺的維護和建設”
業(yè)務(wù)背景
總體架構
我們原始離線(xiàn)數倉的總體架構如下圖所示,數據從各個(gè)業(yè)務(wù)線(xiàn)的數據庫,比如MySQL等,通過(guò)數據集成工具匯聚到ETL集群(即Hadoop集群),再使用Hive、Spark、Presto等批量處理引擎進(jìn)行數據倉庫的分層處理,然后將DW層和ADS層的數據推送到各種不同的查詢(xún)引擎。
在這些查詢(xún)引擎之上,有個(gè)統一的查詢(xún)API網(wǎng)關(guān),應用層的自助分析工具或ERP系統前端通過(guò)調用這個(gè)API網(wǎng)關(guān),將數據內容呈現給用戶(hù)。
業(yè)務(wù)痛點(diǎn)
該系統最大的痛點(diǎn)是查詢(xún)性能問(wèn)題。公司對大數據查詢(xún)接口的響應延遲是有考核的,期望99%的查詢(xún)請求都能在1秒內返回,比如頁(yè)面ERP系統、手機端各類(lèi)報表APP,用戶(hù)會(huì )隨時(shí)查看數據并進(jìn)行生產(chǎn)環(huán)節調整,過(guò)慢的查詢(xún)響應會(huì )影響用戶(hù)體驗,甚至影響業(yè)務(wù)生產(chǎn)。針對復雜的SQL查詢(xún)場(chǎng)景,之前采用的Presto、Impala+Kudu、ClickHouse等系統,是遠遠達不到預期的。另外,針對各種復雜的數據分析業(yè)務(wù)場(chǎng)景,引入很多不同組件,導致了維護和使用成本非常高。
因此,我們急需一個(gè)新的查詢(xún)引擎,能統一查詢(xún)引擎,解決性能查詢(xún)問(wèn)題,降低使用和維護成本。
OLAP引擎選型
第一階段,在2019年,跨越集團大數據中心使用Presto作為通用的查詢(xún)引擎。此階段集團大數據中心數倉層基本用的是Hive,Presto可以直連Hive的特性讓我們無(wú)需做過(guò)多的改造,就可以直接生成查詢(xún)的API。從性能角度考慮,我們也會(huì )將數倉中的部分數據拷貝至獨立的Presto集群,和數倉ETL集群進(jìn)行資源隔離。這套架構運行一年多之后,隨著(zhù)業(yè)務(wù)需求越來(lái)越復雜,數據量越來(lái)越大,該基于Presto構建的集群性能急劇下降。
第二階段,為解決Presto集群性能不足的缺陷,我們基于ClickHouse開(kāi)始構建新的通用查詢(xún)引擎。2020年我們使用ClickHouse構建了大量大寬表,將此前需要多層關(guān)聯(lián)的查詢(xún)逐步遷移到ClickHouse集群。通過(guò)這種方式,我們確實(shí)解決了此前面臨的性能問(wèn)題。但與此同時(shí),我們需要建設越來(lái)越多的大寬表,操作繁瑣運維困難。并且這種數據模型無(wú)法隨業(yè)務(wù)需求變化而快速改變,靈活性差。
第三階段,我們在2021年開(kāi)始尋找其他能滿(mǎn)足我們需求的OLAP引擎,此時(shí)我們發(fā)現了DorisDB這個(gè)產(chǎn)品。首先關(guān)注到DorisDB的單表、多表關(guān)聯(lián)查詢(xún)的性能都非常優(yōu)秀,能夠滿(mǎn)足我們對查詢(xún)延時(shí)的需求;DorisDB支持MySQL協(xié)議,讓我們開(kāi)發(fā)同事在開(kāi)發(fā)接口的時(shí)候學(xué)習和使用門(mén)檻非常低。另外,DorisDB還具備支持按主鍵更新、支持多種類(lèi)型外表、部署運維簡(jiǎn)單以及支持豐富的數據導入方式等特性。這些都是我們所需要的。
因此,我們開(kāi)始逐步將以往的分析業(yè)務(wù)遷移到DorisDB集群上,將DorisDB作為大數據中心的通用查詢(xún)引擎。
DorisDB在跨越集團的應用
在線(xiàn)場(chǎng)景應用
當前我們每天在線(xiàn)數據接口的查詢(xún)請求量已經(jīng)超過(guò)千萬(wàn)。在引入DorisDB前,我們用了8到9種查詢(xún)引擎來(lái)支撐各種在線(xiàn)業(yè)務(wù)場(chǎng)景。大數據量的明細點(diǎn)查場(chǎng)景使用ElasticSearch作為支撐;對于查詢(xún)維度固定、可以提前預計算的報表場(chǎng)景,會(huì )使用MySQL;對于SQL查詢(xún)復雜,如果多表Join、子查詢(xún)嵌套的查詢(xún)場(chǎng)景,會(huì )使用Presto;實(shí)時(shí)更新的場(chǎng)景,則會(huì )使用Impala+Kudu的組合來(lái)支撐。
引入DorisDB后,目前已替換掉Presto和Impala+Kudu支撐的場(chǎng)景。ElasticSearch、MySQL以及ClickHouse,后續也可能會(huì )根據業(yè)務(wù)場(chǎng)景實(shí)際情況逐步替換為DorisDB。
下面詳細介紹一個(gè)實(shí)際在線(xiàn)場(chǎng)景的典型案例。如上圖,我們在原Presto系統上有一個(gè)包含200個(gè)字段的寬表聚合查詢(xún)。由于業(yè)務(wù)需求比較復雜,SQL語(yǔ)句有600多行。我們曾希望從業(yè)務(wù)邏輯上進(jìn)行優(yōu)化,但是并不容易,不能因為系統能力問(wèn)題就一味要求業(yè)務(wù)方來(lái)遷就?,F在我們使用10個(gè)節點(diǎn)相同配置的DorisDB替換原15臺相同配置服務(wù)器的Presto集群后,在沒(méi)有做什么業(yè)務(wù)邏輯變化的情況下,使用DorisDB明細模型,憑借DorisDB本身的高性能將查詢(xún)延時(shí)從5.7秒降低為1秒,性能是原Presto集群的近6倍。
OLAP場(chǎng)景應用
跨越集團的OLAP多維分析平臺是我們自研的一套BI系統。用戶(hù)可以根據自己業(yè)務(wù)場(chǎng)景選擇字段以及關(guān)聯(lián)條件等,以拖拉拽的方式生成數據的表格或圖表。最早我們支撐OLAP多維分析的后端引擎是Presto,在這類(lèi)場(chǎng)景下的性能確實(shí)不盡如人意。因為性能問(wèn)題,我們也沒(méi)辦法將這個(gè)工具推廣給更多的用戶(hù)使用。我們將后端查詢(xún)引擎替換為DorisDB后,性能提升非常明顯。我們將OLAP多維分析平臺向整個(gè)集團推廣,受到了越來(lái)越多的用戶(hù)好評。
OLAP多維分析主要是離線(xiàn)分析為主,以客戶(hù)離線(xiàn)分析場(chǎng)景為例,數據經(jīng)過(guò)ETL處理后,生成對應的DW層或ADS層數據,再通過(guò)Broker Load將數據按天導入DorisDB中。我們使用星型模型構建客戶(hù)主題域,客戶(hù)主表以明細模型在DorisDB中建表,同樣以明細模型創(chuàng )建維表。這樣用戶(hù)就可以在前端對客戶(hù)主題域的各種指標、各種維度進(jìn)行拖拉拽,生成對應的表格和圖表。
在客戶(hù)離線(xiàn)分析場(chǎng)景下,我們DorisDB上線(xiàn)前后業(yè)務(wù)邏輯沒(méi)有進(jìn)行太多調整前提下,TP99從4.5秒下降到1.7秒,性能是原來(lái)的三倍(后續我們將嘗試開(kāi)啟CBO優(yōu)化器,預計會(huì )有更大性能提升)。絕大多數場(chǎng)景都能實(shí)現1s內返回,大大提升了用戶(hù)的體驗。
利用DorisDB的實(shí)時(shí)分析能力,我們還構建了實(shí)時(shí)OLAP多維分析。以運單實(shí)時(shí)分析場(chǎng)景為例,原本我們是用Hive每?jì)尚r(shí)跑批的方式來(lái)實(shí)現的,將固定維度數據算好,結果寫(xiě)入Presto上提供查詢(xún),邏輯類(lèi)似于離線(xiàn)數倉,并不能稱(chēng)為真正的實(shí)時(shí)。引入DorisDB后,我們調整數據流轉邏輯,通過(guò)監聽(tīng)Binlog將數據寫(xiě)入Kafka,再通過(guò)Rontine Load的方式消費Kafka,將數據實(shí)時(shí)寫(xiě)入DorisDB中。我們使用更新模型建立實(shí)時(shí)運單主表,將運單ID設置成主鍵,這樣每一筆運單更新后,都能實(shí)時(shí)更新到運單主表中。和離線(xiàn)分析場(chǎng)景一樣,使用星型模型構建運單主題域。
通過(guò)這樣的調整,以往每?jì)尚r(shí)更新數據的運單主題域,現在可以實(shí)現秒級更新,成為名副其實(shí)的實(shí)時(shí)分析。另外此前需要依賴(lài)預計算,維度都是固定的,很多分析上功能受限。經(jīng)改造后,除了大幅提升“實(shí)時(shí)”體驗外,在分析靈活性上的提升也非常明顯。實(shí)時(shí)體驗和靈活分析也成為OLAP多維分析平臺工具在實(shí)際服務(wù)中最大的亮點(diǎn)。
后續規劃
1、 為了避免部分慢查詢(xún)影響整體的集群性能,后續會(huì )搭建多套DorisDB集群,按業(yè)務(wù)場(chǎng)景進(jìn)行物理資源隔離。
2、 DorisDB查詢(xún)Hive外表的功能,經(jīng)內部測試比Presto查詢(xún)Hive的性能要好,后續會(huì )將原本Presto查詢(xún)Hive的場(chǎng)景無(wú)縫遷移到DorisDB上。
3、 目前我們在DorisDB上寫(xiě)入了很多實(shí)時(shí)數據,這些數據需要進(jìn)行聚合等處理,我們正在嘗試使用調度工具,在DorisDB上進(jìn)行5分鐘級、10分鐘級的輕量ETL處理。
4、 開(kāi)啟DorisDB的CBO優(yōu)化器,進(jìn)一步提升查詢(xún)性能。
最后,感謝鼎石為我們提供DorisDB這么好的產(chǎn)品,滿(mǎn)足了我們對性能強、功能全的查詢(xún)引擎產(chǎn)品的要求;感謝鼎石一直以來(lái)提供的技術(shù)支持,解決了我們在使用中遇到的各類(lèi)問(wèn)題。
END
【熱門(mén)文章】1.2.3.4.5.5.6.7.
8. 查看全部
DorisDB在跨越速運查詢(xún)引擎中的探索實(shí)踐
跨越速運集團有限公司創(chuàng )建于2007年,目前服務(wù)網(wǎng)點(diǎn)超過(guò)3000家,覆蓋城市500余個(gè),是中國物流服務(wù)行業(yè)獨角獸企業(yè)??缭郊瘓F大數據中心負責全集團所有數據平臺組件的建設和維護,支撐20余條核心業(yè)務(wù)線(xiàn),面向集團5萬(wàn)多員工的使用。目前,大數據中心已建設數據查詢(xún)接口1W+,每天調用次數超過(guò)1千萬(wàn),TP99在1秒以下。我們利用DorisDB作為通用查詢(xún)引擎,有效解決了原架構大量查詢(xún)返回時(shí)間過(guò)長(cháng),性能達不到預期的問(wèn)題。
“ 作者:張杰 跨越集團大數據運維架構師,負責集團公司大數據平臺的維護和建設”
業(yè)務(wù)背景
總體架構
我們原始離線(xiàn)數倉的總體架構如下圖所示,數據從各個(gè)業(yè)務(wù)線(xiàn)的數據庫,比如MySQL等,通過(guò)數據集成工具匯聚到ETL集群(即Hadoop集群),再使用Hive、Spark、Presto等批量處理引擎進(jìn)行數據倉庫的分層處理,然后將DW層和ADS層的數據推送到各種不同的查詢(xún)引擎。
在這些查詢(xún)引擎之上,有個(gè)統一的查詢(xún)API網(wǎng)關(guān),應用層的自助分析工具或ERP系統前端通過(guò)調用這個(gè)API網(wǎng)關(guān),將數據內容呈現給用戶(hù)。
業(yè)務(wù)痛點(diǎn)
該系統最大的痛點(diǎn)是查詢(xún)性能問(wèn)題。公司對大數據查詢(xún)接口的響應延遲是有考核的,期望99%的查詢(xún)請求都能在1秒內返回,比如頁(yè)面ERP系統、手機端各類(lèi)報表APP,用戶(hù)會(huì )隨時(shí)查看數據并進(jìn)行生產(chǎn)環(huán)節調整,過(guò)慢的查詢(xún)響應會(huì )影響用戶(hù)體驗,甚至影響業(yè)務(wù)生產(chǎn)。針對復雜的SQL查詢(xún)場(chǎng)景,之前采用的Presto、Impala+Kudu、ClickHouse等系統,是遠遠達不到預期的。另外,針對各種復雜的數據分析業(yè)務(wù)場(chǎng)景,引入很多不同組件,導致了維護和使用成本非常高。
因此,我們急需一個(gè)新的查詢(xún)引擎,能統一查詢(xún)引擎,解決性能查詢(xún)問(wèn)題,降低使用和維護成本。
OLAP引擎選型
第一階段,在2019年,跨越集團大數據中心使用Presto作為通用的查詢(xún)引擎。此階段集團大數據中心數倉層基本用的是Hive,Presto可以直連Hive的特性讓我們無(wú)需做過(guò)多的改造,就可以直接生成查詢(xún)的API。從性能角度考慮,我們也會(huì )將數倉中的部分數據拷貝至獨立的Presto集群,和數倉ETL集群進(jìn)行資源隔離。這套架構運行一年多之后,隨著(zhù)業(yè)務(wù)需求越來(lái)越復雜,數據量越來(lái)越大,該基于Presto構建的集群性能急劇下降。
第二階段,為解決Presto集群性能不足的缺陷,我們基于ClickHouse開(kāi)始構建新的通用查詢(xún)引擎。2020年我們使用ClickHouse構建了大量大寬表,將此前需要多層關(guān)聯(lián)的查詢(xún)逐步遷移到ClickHouse集群。通過(guò)這種方式,我們確實(shí)解決了此前面臨的性能問(wèn)題。但與此同時(shí),我們需要建設越來(lái)越多的大寬表,操作繁瑣運維困難。并且這種數據模型無(wú)法隨業(yè)務(wù)需求變化而快速改變,靈活性差。
第三階段,我們在2021年開(kāi)始尋找其他能滿(mǎn)足我們需求的OLAP引擎,此時(shí)我們發(fā)現了DorisDB這個(gè)產(chǎn)品。首先關(guān)注到DorisDB的單表、多表關(guān)聯(lián)查詢(xún)的性能都非常優(yōu)秀,能夠滿(mǎn)足我們對查詢(xún)延時(shí)的需求;DorisDB支持MySQL協(xié)議,讓我們開(kāi)發(fā)同事在開(kāi)發(fā)接口的時(shí)候學(xué)習和使用門(mén)檻非常低。另外,DorisDB還具備支持按主鍵更新、支持多種類(lèi)型外表、部署運維簡(jiǎn)單以及支持豐富的數據導入方式等特性。這些都是我們所需要的。
因此,我們開(kāi)始逐步將以往的分析業(yè)務(wù)遷移到DorisDB集群上,將DorisDB作為大數據中心的通用查詢(xún)引擎。
DorisDB在跨越集團的應用
在線(xiàn)場(chǎng)景應用
當前我們每天在線(xiàn)數據接口的查詢(xún)請求量已經(jīng)超過(guò)千萬(wàn)。在引入DorisDB前,我們用了8到9種查詢(xún)引擎來(lái)支撐各種在線(xiàn)業(yè)務(wù)場(chǎng)景。大數據量的明細點(diǎn)查場(chǎng)景使用ElasticSearch作為支撐;對于查詢(xún)維度固定、可以提前預計算的報表場(chǎng)景,會(huì )使用MySQL;對于SQL查詢(xún)復雜,如果多表Join、子查詢(xún)嵌套的查詢(xún)場(chǎng)景,會(huì )使用Presto;實(shí)時(shí)更新的場(chǎng)景,則會(huì )使用Impala+Kudu的組合來(lái)支撐。
引入DorisDB后,目前已替換掉Presto和Impala+Kudu支撐的場(chǎng)景。ElasticSearch、MySQL以及ClickHouse,后續也可能會(huì )根據業(yè)務(wù)場(chǎng)景實(shí)際情況逐步替換為DorisDB。
下面詳細介紹一個(gè)實(shí)際在線(xiàn)場(chǎng)景的典型案例。如上圖,我們在原Presto系統上有一個(gè)包含200個(gè)字段的寬表聚合查詢(xún)。由于業(yè)務(wù)需求比較復雜,SQL語(yǔ)句有600多行。我們曾希望從業(yè)務(wù)邏輯上進(jìn)行優(yōu)化,但是并不容易,不能因為系統能力問(wèn)題就一味要求業(yè)務(wù)方來(lái)遷就?,F在我們使用10個(gè)節點(diǎn)相同配置的DorisDB替換原15臺相同配置服務(wù)器的Presto集群后,在沒(méi)有做什么業(yè)務(wù)邏輯變化的情況下,使用DorisDB明細模型,憑借DorisDB本身的高性能將查詢(xún)延時(shí)從5.7秒降低為1秒,性能是原Presto集群的近6倍。
OLAP場(chǎng)景應用
跨越集團的OLAP多維分析平臺是我們自研的一套BI系統。用戶(hù)可以根據自己業(yè)務(wù)場(chǎng)景選擇字段以及關(guān)聯(lián)條件等,以拖拉拽的方式生成數據的表格或圖表。最早我們支撐OLAP多維分析的后端引擎是Presto,在這類(lèi)場(chǎng)景下的性能確實(shí)不盡如人意。因為性能問(wèn)題,我們也沒(méi)辦法將這個(gè)工具推廣給更多的用戶(hù)使用。我們將后端查詢(xún)引擎替換為DorisDB后,性能提升非常明顯。我們將OLAP多維分析平臺向整個(gè)集團推廣,受到了越來(lái)越多的用戶(hù)好評。
OLAP多維分析主要是離線(xiàn)分析為主,以客戶(hù)離線(xiàn)分析場(chǎng)景為例,數據經(jīng)過(guò)ETL處理后,生成對應的DW層或ADS層數據,再通過(guò)Broker Load將數據按天導入DorisDB中。我們使用星型模型構建客戶(hù)主題域,客戶(hù)主表以明細模型在DorisDB中建表,同樣以明細模型創(chuàng )建維表。這樣用戶(hù)就可以在前端對客戶(hù)主題域的各種指標、各種維度進(jìn)行拖拉拽,生成對應的表格和圖表。
在客戶(hù)離線(xiàn)分析場(chǎng)景下,我們DorisDB上線(xiàn)前后業(yè)務(wù)邏輯沒(méi)有進(jìn)行太多調整前提下,TP99從4.5秒下降到1.7秒,性能是原來(lái)的三倍(后續我們將嘗試開(kāi)啟CBO優(yōu)化器,預計會(huì )有更大性能提升)。絕大多數場(chǎng)景都能實(shí)現1s內返回,大大提升了用戶(hù)的體驗。
利用DorisDB的實(shí)時(shí)分析能力,我們還構建了實(shí)時(shí)OLAP多維分析。以運單實(shí)時(shí)分析場(chǎng)景為例,原本我們是用Hive每?jì)尚r(shí)跑批的方式來(lái)實(shí)現的,將固定維度數據算好,結果寫(xiě)入Presto上提供查詢(xún),邏輯類(lèi)似于離線(xiàn)數倉,并不能稱(chēng)為真正的實(shí)時(shí)。引入DorisDB后,我們調整數據流轉邏輯,通過(guò)監聽(tīng)Binlog將數據寫(xiě)入Kafka,再通過(guò)Rontine Load的方式消費Kafka,將數據實(shí)時(shí)寫(xiě)入DorisDB中。我們使用更新模型建立實(shí)時(shí)運單主表,將運單ID設置成主鍵,這樣每一筆運單更新后,都能實(shí)時(shí)更新到運單主表中。和離線(xiàn)分析場(chǎng)景一樣,使用星型模型構建運單主題域。
通過(guò)這樣的調整,以往每?jì)尚r(shí)更新數據的運單主題域,現在可以實(shí)現秒級更新,成為名副其實(shí)的實(shí)時(shí)分析。另外此前需要依賴(lài)預計算,維度都是固定的,很多分析上功能受限。經(jīng)改造后,除了大幅提升“實(shí)時(shí)”體驗外,在分析靈活性上的提升也非常明顯。實(shí)時(shí)體驗和靈活分析也成為OLAP多維分析平臺工具在實(shí)際服務(wù)中最大的亮點(diǎn)。
后續規劃
1、 為了避免部分慢查詢(xún)影響整體的集群性能,后續會(huì )搭建多套DorisDB集群,按業(yè)務(wù)場(chǎng)景進(jìn)行物理資源隔離。
2、 DorisDB查詢(xún)Hive外表的功能,經(jīng)內部測試比Presto查詢(xún)Hive的性能要好,后續會(huì )將原本Presto查詢(xún)Hive的場(chǎng)景無(wú)縫遷移到DorisDB上。
3、 目前我們在DorisDB上寫(xiě)入了很多實(shí)時(shí)數據,這些數據需要進(jìn)行聚合等處理,我們正在嘗試使用調度工具,在DorisDB上進(jìn)行5分鐘級、10分鐘級的輕量ETL處理。
4、 開(kāi)啟DorisDB的CBO優(yōu)化器,進(jìn)一步提升查詢(xún)性能。
最后,感謝鼎石為我們提供DorisDB這么好的產(chǎn)品,滿(mǎn)足了我們對性能強、功能全的查詢(xún)引擎產(chǎn)品的要求;感謝鼎石一直以來(lái)提供的技術(shù)支持,解決了我們在使用中遇到的各類(lèi)問(wèn)題。
END
【熱門(mén)文章】1.2.3.4.5.5.6.7.
8.
實(shí)現訂單線(xiàn)索量增長(cháng),落地頁(yè)優(yōu)化該怎么做?
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 128 次瀏覽 ? 2022-05-12 01:56
廣告做得好不好,落地頁(yè)至關(guān)重要,賬戶(hù)管理能起到的效果有60%,剩下的40%全在落地頁(yè)上,一個(gè)好的落地頁(yè)總是能獲得更多的訂單和線(xiàn)索。
落地頁(yè)要怎么做?我們經(jīng)過(guò)幾年的實(shí)踐總結出落地頁(yè)做法。學(xué)習了這些做法,能讓你在落地頁(yè)優(yōu)化上更進(jìn)一步。落地頁(yè)(Landing Page)是指用戶(hù)搜索了關(guān)鍵詞后點(diǎn)擊了廣告看到的第一個(gè)頁(yè)面。跟落地頁(yè)最相關(guān)的指標就是跳出率,跳出率會(huì )反映落地頁(yè)的效果。
什么是好與壞,單純對于一個(gè)頁(yè)面來(lái)說(shuō),沒(méi)有好與壞的概念,只有合適與否,有很多時(shí)候頁(yè)面設計得很丑,但是搜索一系列需求的用戶(hù)找到了自己要的結果,并且在這個(gè)頁(yè)面上完成了我們希望他完成的動(dòng)作,這就是一個(gè)好的落地頁(yè)。有很多落地頁(yè),做得蓬蓽生輝,但是訪(fǎng)客完全看不懂,這樣的落地頁(yè)就算做得再好看,也不是一個(gè)好的落地頁(yè)。
01
給不同的單元制作落地頁(yè)
行動(dòng)起來(lái)要比制定策略更有效,讓所有流量都著(zhù)陸到首頁(yè)是一個(gè)十分不明智的推廣策略,前面我們提到不同單元是不同的需求,如果我們可以分出十幾個(gè)單元,那么就代表訪(fǎng)客會(huì )有十幾種需求,訪(fǎng)客不希望所有的人都看到一個(gè)頁(yè)面的,我們也很難一個(gè)頁(yè)面就滿(mǎn)足所有需求。拿易觀(guān)方舟舉例,用戶(hù)畫(huà)像的需求和用戶(hù)行為分析的需求是兩個(gè)需求,一個(gè)易觀(guān)方舟的首頁(yè)是無(wú)法同時(shí)滿(mǎn)足這兩部分需求的。
訪(fǎng)客在搜索引擎上搜索結果,點(diǎn)擊,瀏覽頁(yè)面,整個(gè)過(guò)程不會(huì )有過(guò)多的思考,但是他們是有著(zhù)一個(gè)原始訴求的。當訪(fǎng)客打開(kāi)頁(yè)面,看不到他們希望得到的結果,就會(huì )馬上關(guān)掉頁(yè)面離開(kāi),所以我們做落地頁(yè)的第一要務(wù)就是要讓訪(fǎng)客得到他想要的。
02
著(zhù)陸體驗優(yōu)化
訪(fǎng)客從廣告點(diǎn)擊進(jìn)來(lái)后,會(huì )在3秒內決定,是否要繼續觀(guān)看,所以,著(zhù)陸頁(yè)是否被認可在3秒就決定,有幾個(gè)要點(diǎn)來(lái)提高著(zhù)陸頁(yè)的體驗,我想我們聽(tīng)過(guò)很多關(guān)于著(zhù)陸頁(yè)的優(yōu)化方法,例如利用人性的弱點(diǎn),利用lift模型等,但是在真正實(shí)操過(guò)程中,我們會(huì )總結出一些獨有的落地頁(yè)優(yōu)化方法,分享給你。
清晰的價(jià)值主張
反復去琢磨你的第一屏文字,要注意的是不要站在自己的角度把文字的理解拔高,因為比“看上去厲害”更重要的是容易理解,如果文字表述讓訪(fǎng)客可以瞬間理解,你已經(jīng)成功了一半。打開(kāi)速度要快
如果在移動(dòng)端也有投放,移動(dòng)端一定要考慮打開(kāi)速度,當然這個(gè)問(wèn)題PC端同樣要考慮,移動(dòng)端考慮的比較多一些,因為移動(dòng)端會(huì )出現網(wǎng)絡(luò )不穩定的情況,是什么決定了網(wǎng)頁(yè)打開(kāi)慢?這些都會(huì )影響落地頁(yè)的體驗,在著(zhù)陸頁(yè)開(kāi)發(fā)的時(shí)候要注意。有誘惑力的CTA
CTA是一個(gè)著(zhù)陸頁(yè)的必要性條件,一個(gè)著(zhù)陸頁(yè)有CTA才算完整,如果想更近一步提高落地頁(yè)的轉化能力,需要讓CTA具備誘惑力,舉例:解決方案頁(yè)面的CTA應該是傳遞注冊后可以直接獲取解決方案,而資料頁(yè)面的CTA應該是注冊后可以直接獲取資料。如果CTA只是注冊或者購買(mǎi),那么整個(gè)的落地頁(yè)效果會(huì )明顯打折扣。CTA往往后面跟著(zhù)表單,無(wú)論你是希望客戶(hù)留資,還是購買(mǎi),都會(huì )有輸入表單的環(huán)節,盡可能讓表單在當前頁(yè)面完成而不要跳轉,多跳轉一次意味著(zhù)增加一次流失的風(fēng)險。精致代表著(zhù)品牌力
如果有可能的話(huà),盡量讓你的頁(yè)面精致一些,包括字體、圖片,都應該有專(zhuān)業(yè)的設計人員來(lái)進(jìn)行規范性設計,因為在理解價(jià)值主張和你的產(chǎn)品之前,頁(yè)面給訪(fǎng)客的感覺(jué)是比較重要的,你有沒(méi)有一些感觸,有一些頁(yè)面,你一看就會(huì )產(chǎn)生極大的不信任,因為不信任而關(guān)閉網(wǎng)頁(yè)?所以,多花點(diǎn)時(shí)間,讓你的落地頁(yè)變得標準、規范,是十分有必要的。數據分析得出來(lái)的落地頁(yè)洞察
我們通過(guò)數據分析得出來(lái)落地頁(yè)轉化率更高的方法,分享給你落地頁(yè)做好后,最好的檢驗方式是首先自己團隊要模擬用戶(hù),不斷感受整個(gè)體驗過(guò)程中不舒服的地方,同時(shí)投放在小部分用戶(hù)身上,去測試。為落地頁(yè)建立轉化漏斗,看一下著(zhù)陸,點(diǎn)擊,完成表單的整體轉化率,去分析在不同環(huán)節用戶(hù)為什么流失,不斷的優(yōu)化轉化率提高落地頁(yè)轉化效果。
03
廣告連續性
廣告連續性指的是,用戶(hù)在看到廣告創(chuàng )意,點(diǎn)擊廣告創(chuàng )意,通過(guò)鏈接,看到落地頁(yè)的整體體驗保持連續性,讓用戶(hù)的思考不間斷,并不斷加強動(dòng)機。你是否有過(guò)一個(gè)場(chǎng)景,你想買(mǎi)個(gè)小熊餅干,你在搜索引擎上搜索了小熊餅干,看到第一條廣告創(chuàng )意上寫(xiě)的,北京最受歡迎的小熊餅干,然后你打開(kāi)了這個(gè)廣告后,進(jìn)入的頁(yè)面第一屏的文字是,我們有北京最好的小熊餅干抱枕,此時(shí)你可能會(huì )毫不猶豫地關(guān)閉掉這個(gè)頁(yè)面。以上是典型廣告連續性斷檔,在訪(fǎng)客沿著(zhù)你的廣告創(chuàng )意,進(jìn)入落地頁(yè),而瀏覽落地頁(yè)的過(guò)程中任何環(huán)節斷檔,都會(huì )導致用戶(hù)離開(kāi)。所以想提高SEM的轉化效果,廣告連續性是值得優(yōu)先調整的方向,所以我們有以下建議:標題環(huán)節給予明顯的可執行前置
通常我們會(huì )在落地頁(yè)環(huán)節設置CTA,但是同樣用法如果前置在廣告標題上效果會(huì )更好。比如在標題結尾寫(xiě)上免費領(lǐng)取或者免費試用。你會(huì )比友商獲得更多點(diǎn)擊,因為訪(fǎng)客在點(diǎn)擊廣告時(shí)已自帶需求,這樣的需求如果可以保持連貫性并被滿(mǎn)足,會(huì )增強訪(fǎng)客在落地頁(yè)里的執行動(dòng)機。創(chuàng )意描述里繼續強化
在創(chuàng )意里清楚表達可以提供的產(chǎn)品價(jià)值,同時(shí)強化訪(fǎng)客可以獲得的好處,這相當于對創(chuàng )意標題的支撐。不過(guò)創(chuàng )意描述始終是描述,還需要盡可能表達更多的價(jià)值主張。不同創(chuàng )意有不同描述方式,忌諱千篇一律的描述。描述格式整齊,語(yǔ)義通順是加分項,而有明顯優(yōu)惠政策與活動(dòng)激勵會(huì )讓廣告更具有吸引力。落地頁(yè)的連續性承接
切記,訪(fǎng)客搜索關(guān)鍵詞是附帶需求的,點(diǎn)擊鏈接是在尋找解決需求的解決方案的,如果標題和描述都表達了你可以解決訪(fǎng)客需求,那么在著(zhù)陸頁(yè)里一定要給訪(fǎng)客他想要的答案,才會(huì )有可能讓訪(fǎng)客駐足。從創(chuàng )意到描述再到落地頁(yè)內容上,要有高度的連貫性,以及有足夠的誘惑,才會(huì )獲得更好的轉化。
04
敏捷迭代
無(wú)論是做產(chǎn)品還是做市場(chǎng),早期產(chǎn)品迭代都根據我們自己的洞察與思考來(lái)創(chuàng )作,而真正被認可的產(chǎn)品是需要經(jīng)過(guò)市場(chǎng)打磨,并反復迭代的。所以我們做推廣獲客的時(shí)候也需要通過(guò)數據分析驅動(dòng)敏捷迭代讓獲客能力增長(cháng)更加快速。
那么,如何利用數據驅動(dòng)敏捷迭代,我們可以分成兩個(gè)步驟:
得到原始數據
所謂增長(cháng)不是毫無(wú)根據地提出無(wú)法完成的增長(cháng)幅度。例如ToB類(lèi)公眾號就不要隨意制定10w+閱讀這樣的KPI,合理的增長(cháng)目標是根據自身當前的數據提出的挑戰性目標。
所以,首先要知道我們所進(jìn)行推廣相關(guān)的數據狀態(tài),作為SEM業(yè)務(wù),有相應的指標體系,在前面章節有提到,核心關(guān)注的是不同單元的資金ROI,此時(shí)運營(yíng)SEM就像經(jīng)營(yíng)一個(gè)公司一樣,而在落地頁(yè)上要關(guān)注不同落地頁(yè)的跳出率,轉化率,通過(guò)熱圖了解瀏覽深度線(xiàn)和元素點(diǎn)擊率。這樣對所有的轉化流程有了一個(gè)初步的數據基準,設定一個(gè)挑戰性目標就可以開(kāi)始試驗了。PDCA(plan-do-check-action)敏捷試驗無(wú)論是文字、圖片,還是顏色、主題,都是我們試驗的對象,在經(jīng)過(guò)內部小組初步討論后,將挑戰版本和原始版本進(jìn)行測試。試驗方向:l更簡(jiǎn)單明了的文字表述會(huì )降低跳出率lCTA按鈕的文字會(huì )影響點(diǎn)擊率l移動(dòng)端的適配會(huì )影響移動(dòng)端的停留時(shí)長(cháng)l表單的字段順序對完成率也會(huì )有影響l價(jià)值導向的表單會(huì )比銷(xiāo)售表單轉化率更高…除了以上提出的迭代建議,不同的運營(yíng)人員試驗思路也是不同的,唯一不變的是敏捷迭代的過(guò)程中需要數據來(lái)進(jìn)行試驗結果的校驗,這就涉及到落地頁(yè)轉化效果評估。
05
落地頁(yè)轉化評估效果
根據前文的原則優(yōu)化落地頁(yè)只是開(kāi)端,將落地頁(yè)真正落地、提高我們獲客的收益才是目的,我們所有一切改進(jìn)都要圍繞“提高ROI”的方向展開(kāi),因此對落地頁(yè)轉化效果進(jìn)行評估是關(guān)鍵一環(huán)。通過(guò)數據的評估與復盤(pán),我們可以快速定位問(wèn)題、解決問(wèn)題,以數據促進(jìn)業(yè)務(wù)的增長(cháng)。正如前文提及的,我們可能會(huì )開(kāi)展一系列的試驗,但最終也離不開(kāi)效果的評估。我們可以通過(guò)用戶(hù)行為分析模型幫助我們進(jìn)行試驗的判定:事件分析 事件分析可以很好地監測按鈕的點(diǎn)擊情況,通常會(huì )用來(lái)判斷CTA的引導效果。
漏斗分析 漏斗分析是優(yōu)化落地頁(yè)最重要的分析模型,通過(guò)漏斗分析可以知道從著(zhù)陸頁(yè)流量到點(diǎn)擊按鈕次數再到完成下單或注冊的三級漏斗數據,這樣就可以幫助我們判斷我們的落地頁(yè)轉化能力。當我們進(jìn)行一些試驗的時(shí)候,可以通過(guò)漏斗整體的變化判斷試驗是否成功,也可以保存流失的用戶(hù),在方舟內部給他們群發(fā)消息召回他們,至少來(lái)到落地頁(yè)上的用戶(hù)是關(guān)注這個(gè)話(huà)題的。
Session分析 Session分析自帶跳出率分析,可以輔助我們做著(zhù)陸頁(yè)的整體優(yōu)化試驗。
此外,需要注意的是,一些網(wǎng)站上通常會(huì )提供在線(xiàn)咨詢(xún)服務(wù),或留下表單讓訪(fǎng)客填寫(xiě)。在這一問(wèn)題上,建議處理一定要講求時(shí)效性,越快越好。因為不管是在線(xiàn)咨詢(xún)還是提交注冊信息都意味著(zhù)需求,倘若拖了半天時(shí)間,可能訪(fǎng)客在搜索引擎上自己搜索已經(jīng)得到答案,這時(shí)候不管訪(fǎng)客是已經(jīng)解決問(wèn)題還是找到其他替代方案,他本身的需求已經(jīng)大幅降低,這時(shí)候再去回復或溝通,他溝通的意愿會(huì )降低、需求場(chǎng)景逐漸消失,這條線(xiàn)索的價(jià)值也就大大萎縮了。因此,在評估落地頁(yè)轉化的效果時(shí),不僅要對落地頁(yè)各項數據有個(gè)明晰的把握,也要對落地頁(yè)內置咨詢(xún)、表單線(xiàn)索處理等方面做一個(gè)全面的考察。落地頁(yè)對轉化有決定性作用,通過(guò)分析模型可以幫助我們更好地觀(guān)察敏捷迭代后的數據變化,而至于如何敏捷迭代,大膽想象,小心求證,一些小的試驗結果長(cháng)期積累,會(huì )得到很好的反饋。
2021年,我們面臨新的行業(yè)環(huán)境,通過(guò)整合當下更全面的線(xiàn)上營(yíng)銷(xiāo)渠道和投放策略,推出了全新的《2021數字營(yíng)銷(xiāo)白皮書(shū)》。
全書(shū)50頁(yè),分10個(gè)章節,覆蓋線(xiàn)上用戶(hù)生命周期、用戶(hù)獲客指標、常見(jiàn)獲客渠道、營(yíng)銷(xiāo)素材處理、賬戶(hù)精細化管理、數據化投放跟蹤、落地頁(yè)設計制作等多維度,系統地為市場(chǎng)營(yíng)銷(xiāo)人提供線(xiàn)上數字營(yíng)銷(xiāo)從策略到落地執行的全攻略支持。
每天掌握更多數據運營(yíng)干貨 查看全部
實(shí)現訂單線(xiàn)索量增長(cháng),落地頁(yè)優(yōu)化該怎么做?
廣告做得好不好,落地頁(yè)至關(guān)重要,賬戶(hù)管理能起到的效果有60%,剩下的40%全在落地頁(yè)上,一個(gè)好的落地頁(yè)總是能獲得更多的訂單和線(xiàn)索。
落地頁(yè)要怎么做?我們經(jīng)過(guò)幾年的實(shí)踐總結出落地頁(yè)做法。學(xué)習了這些做法,能讓你在落地頁(yè)優(yōu)化上更進(jìn)一步。落地頁(yè)(Landing Page)是指用戶(hù)搜索了關(guān)鍵詞后點(diǎn)擊了廣告看到的第一個(gè)頁(yè)面。跟落地頁(yè)最相關(guān)的指標就是跳出率,跳出率會(huì )反映落地頁(yè)的效果。
什么是好與壞,單純對于一個(gè)頁(yè)面來(lái)說(shuō),沒(méi)有好與壞的概念,只有合適與否,有很多時(shí)候頁(yè)面設計得很丑,但是搜索一系列需求的用戶(hù)找到了自己要的結果,并且在這個(gè)頁(yè)面上完成了我們希望他完成的動(dòng)作,這就是一個(gè)好的落地頁(yè)。有很多落地頁(yè),做得蓬蓽生輝,但是訪(fǎng)客完全看不懂,這樣的落地頁(yè)就算做得再好看,也不是一個(gè)好的落地頁(yè)。
01
給不同的單元制作落地頁(yè)
行動(dòng)起來(lái)要比制定策略更有效,讓所有流量都著(zhù)陸到首頁(yè)是一個(gè)十分不明智的推廣策略,前面我們提到不同單元是不同的需求,如果我們可以分出十幾個(gè)單元,那么就代表訪(fǎng)客會(huì )有十幾種需求,訪(fǎng)客不希望所有的人都看到一個(gè)頁(yè)面的,我們也很難一個(gè)頁(yè)面就滿(mǎn)足所有需求。拿易觀(guān)方舟舉例,用戶(hù)畫(huà)像的需求和用戶(hù)行為分析的需求是兩個(gè)需求,一個(gè)易觀(guān)方舟的首頁(yè)是無(wú)法同時(shí)滿(mǎn)足這兩部分需求的。
訪(fǎng)客在搜索引擎上搜索結果,點(diǎn)擊,瀏覽頁(yè)面,整個(gè)過(guò)程不會(huì )有過(guò)多的思考,但是他們是有著(zhù)一個(gè)原始訴求的。當訪(fǎng)客打開(kāi)頁(yè)面,看不到他們希望得到的結果,就會(huì )馬上關(guān)掉頁(yè)面離開(kāi),所以我們做落地頁(yè)的第一要務(wù)就是要讓訪(fǎng)客得到他想要的。
02
著(zhù)陸體驗優(yōu)化
訪(fǎng)客從廣告點(diǎn)擊進(jìn)來(lái)后,會(huì )在3秒內決定,是否要繼續觀(guān)看,所以,著(zhù)陸頁(yè)是否被認可在3秒就決定,有幾個(gè)要點(diǎn)來(lái)提高著(zhù)陸頁(yè)的體驗,我想我們聽(tīng)過(guò)很多關(guān)于著(zhù)陸頁(yè)的優(yōu)化方法,例如利用人性的弱點(diǎn),利用lift模型等,但是在真正實(shí)操過(guò)程中,我們會(huì )總結出一些獨有的落地頁(yè)優(yōu)化方法,分享給你。
清晰的價(jià)值主張
反復去琢磨你的第一屏文字,要注意的是不要站在自己的角度把文字的理解拔高,因為比“看上去厲害”更重要的是容易理解,如果文字表述讓訪(fǎng)客可以瞬間理解,你已經(jīng)成功了一半。打開(kāi)速度要快
如果在移動(dòng)端也有投放,移動(dòng)端一定要考慮打開(kāi)速度,當然這個(gè)問(wèn)題PC端同樣要考慮,移動(dòng)端考慮的比較多一些,因為移動(dòng)端會(huì )出現網(wǎng)絡(luò )不穩定的情況,是什么決定了網(wǎng)頁(yè)打開(kāi)慢?這些都會(huì )影響落地頁(yè)的體驗,在著(zhù)陸頁(yè)開(kāi)發(fā)的時(shí)候要注意。有誘惑力的CTA
CTA是一個(gè)著(zhù)陸頁(yè)的必要性條件,一個(gè)著(zhù)陸頁(yè)有CTA才算完整,如果想更近一步提高落地頁(yè)的轉化能力,需要讓CTA具備誘惑力,舉例:解決方案頁(yè)面的CTA應該是傳遞注冊后可以直接獲取解決方案,而資料頁(yè)面的CTA應該是注冊后可以直接獲取資料。如果CTA只是注冊或者購買(mǎi),那么整個(gè)的落地頁(yè)效果會(huì )明顯打折扣。CTA往往后面跟著(zhù)表單,無(wú)論你是希望客戶(hù)留資,還是購買(mǎi),都會(huì )有輸入表單的環(huán)節,盡可能讓表單在當前頁(yè)面完成而不要跳轉,多跳轉一次意味著(zhù)增加一次流失的風(fēng)險。精致代表著(zhù)品牌力
如果有可能的話(huà),盡量讓你的頁(yè)面精致一些,包括字體、圖片,都應該有專(zhuān)業(yè)的設計人員來(lái)進(jìn)行規范性設計,因為在理解價(jià)值主張和你的產(chǎn)品之前,頁(yè)面給訪(fǎng)客的感覺(jué)是比較重要的,你有沒(méi)有一些感觸,有一些頁(yè)面,你一看就會(huì )產(chǎn)生極大的不信任,因為不信任而關(guān)閉網(wǎng)頁(yè)?所以,多花點(diǎn)時(shí)間,讓你的落地頁(yè)變得標準、規范,是十分有必要的。數據分析得出來(lái)的落地頁(yè)洞察
我們通過(guò)數據分析得出來(lái)落地頁(yè)轉化率更高的方法,分享給你落地頁(yè)做好后,最好的檢驗方式是首先自己團隊要模擬用戶(hù),不斷感受整個(gè)體驗過(guò)程中不舒服的地方,同時(shí)投放在小部分用戶(hù)身上,去測試。為落地頁(yè)建立轉化漏斗,看一下著(zhù)陸,點(diǎn)擊,完成表單的整體轉化率,去分析在不同環(huán)節用戶(hù)為什么流失,不斷的優(yōu)化轉化率提高落地頁(yè)轉化效果。
03
廣告連續性
廣告連續性指的是,用戶(hù)在看到廣告創(chuàng )意,點(diǎn)擊廣告創(chuàng )意,通過(guò)鏈接,看到落地頁(yè)的整體體驗保持連續性,讓用戶(hù)的思考不間斷,并不斷加強動(dòng)機。你是否有過(guò)一個(gè)場(chǎng)景,你想買(mǎi)個(gè)小熊餅干,你在搜索引擎上搜索了小熊餅干,看到第一條廣告創(chuàng )意上寫(xiě)的,北京最受歡迎的小熊餅干,然后你打開(kāi)了這個(gè)廣告后,進(jìn)入的頁(yè)面第一屏的文字是,我們有北京最好的小熊餅干抱枕,此時(shí)你可能會(huì )毫不猶豫地關(guān)閉掉這個(gè)頁(yè)面。以上是典型廣告連續性斷檔,在訪(fǎng)客沿著(zhù)你的廣告創(chuàng )意,進(jìn)入落地頁(yè),而瀏覽落地頁(yè)的過(guò)程中任何環(huán)節斷檔,都會(huì )導致用戶(hù)離開(kāi)。所以想提高SEM的轉化效果,廣告連續性是值得優(yōu)先調整的方向,所以我們有以下建議:標題環(huán)節給予明顯的可執行前置
通常我們會(huì )在落地頁(yè)環(huán)節設置CTA,但是同樣用法如果前置在廣告標題上效果會(huì )更好。比如在標題結尾寫(xiě)上免費領(lǐng)取或者免費試用。你會(huì )比友商獲得更多點(diǎn)擊,因為訪(fǎng)客在點(diǎn)擊廣告時(shí)已自帶需求,這樣的需求如果可以保持連貫性并被滿(mǎn)足,會(huì )增強訪(fǎng)客在落地頁(yè)里的執行動(dòng)機。創(chuàng )意描述里繼續強化
在創(chuàng )意里清楚表達可以提供的產(chǎn)品價(jià)值,同時(shí)強化訪(fǎng)客可以獲得的好處,這相當于對創(chuàng )意標題的支撐。不過(guò)創(chuàng )意描述始終是描述,還需要盡可能表達更多的價(jià)值主張。不同創(chuàng )意有不同描述方式,忌諱千篇一律的描述。描述格式整齊,語(yǔ)義通順是加分項,而有明顯優(yōu)惠政策與活動(dòng)激勵會(huì )讓廣告更具有吸引力。落地頁(yè)的連續性承接
切記,訪(fǎng)客搜索關(guān)鍵詞是附帶需求的,點(diǎn)擊鏈接是在尋找解決需求的解決方案的,如果標題和描述都表達了你可以解決訪(fǎng)客需求,那么在著(zhù)陸頁(yè)里一定要給訪(fǎng)客他想要的答案,才會(huì )有可能讓訪(fǎng)客駐足。從創(chuàng )意到描述再到落地頁(yè)內容上,要有高度的連貫性,以及有足夠的誘惑,才會(huì )獲得更好的轉化。
04
敏捷迭代
無(wú)論是做產(chǎn)品還是做市場(chǎng),早期產(chǎn)品迭代都根據我們自己的洞察與思考來(lái)創(chuàng )作,而真正被認可的產(chǎn)品是需要經(jīng)過(guò)市場(chǎng)打磨,并反復迭代的。所以我們做推廣獲客的時(shí)候也需要通過(guò)數據分析驅動(dòng)敏捷迭代讓獲客能力增長(cháng)更加快速。
那么,如何利用數據驅動(dòng)敏捷迭代,我們可以分成兩個(gè)步驟:
得到原始數據
所謂增長(cháng)不是毫無(wú)根據地提出無(wú)法完成的增長(cháng)幅度。例如ToB類(lèi)公眾號就不要隨意制定10w+閱讀這樣的KPI,合理的增長(cháng)目標是根據自身當前的數據提出的挑戰性目標。
所以,首先要知道我們所進(jìn)行推廣相關(guān)的數據狀態(tài),作為SEM業(yè)務(wù),有相應的指標體系,在前面章節有提到,核心關(guān)注的是不同單元的資金ROI,此時(shí)運營(yíng)SEM就像經(jīng)營(yíng)一個(gè)公司一樣,而在落地頁(yè)上要關(guān)注不同落地頁(yè)的跳出率,轉化率,通過(guò)熱圖了解瀏覽深度線(xiàn)和元素點(diǎn)擊率。這樣對所有的轉化流程有了一個(gè)初步的數據基準,設定一個(gè)挑戰性目標就可以開(kāi)始試驗了。PDCA(plan-do-check-action)敏捷試驗無(wú)論是文字、圖片,還是顏色、主題,都是我們試驗的對象,在經(jīng)過(guò)內部小組初步討論后,將挑戰版本和原始版本進(jìn)行測試。試驗方向:l更簡(jiǎn)單明了的文字表述會(huì )降低跳出率lCTA按鈕的文字會(huì )影響點(diǎn)擊率l移動(dòng)端的適配會(huì )影響移動(dòng)端的停留時(shí)長(cháng)l表單的字段順序對完成率也會(huì )有影響l價(jià)值導向的表單會(huì )比銷(xiāo)售表單轉化率更高…除了以上提出的迭代建議,不同的運營(yíng)人員試驗思路也是不同的,唯一不變的是敏捷迭代的過(guò)程中需要數據來(lái)進(jìn)行試驗結果的校驗,這就涉及到落地頁(yè)轉化效果評估。
05
落地頁(yè)轉化評估效果
根據前文的原則優(yōu)化落地頁(yè)只是開(kāi)端,將落地頁(yè)真正落地、提高我們獲客的收益才是目的,我們所有一切改進(jìn)都要圍繞“提高ROI”的方向展開(kāi),因此對落地頁(yè)轉化效果進(jìn)行評估是關(guān)鍵一環(huán)。通過(guò)數據的評估與復盤(pán),我們可以快速定位問(wèn)題、解決問(wèn)題,以數據促進(jìn)業(yè)務(wù)的增長(cháng)。正如前文提及的,我們可能會(huì )開(kāi)展一系列的試驗,但最終也離不開(kāi)效果的評估。我們可以通過(guò)用戶(hù)行為分析模型幫助我們進(jìn)行試驗的判定:事件分析 事件分析可以很好地監測按鈕的點(diǎn)擊情況,通常會(huì )用來(lái)判斷CTA的引導效果。
漏斗分析 漏斗分析是優(yōu)化落地頁(yè)最重要的分析模型,通過(guò)漏斗分析可以知道從著(zhù)陸頁(yè)流量到點(diǎn)擊按鈕次數再到完成下單或注冊的三級漏斗數據,這樣就可以幫助我們判斷我們的落地頁(yè)轉化能力。當我們進(jìn)行一些試驗的時(shí)候,可以通過(guò)漏斗整體的變化判斷試驗是否成功,也可以保存流失的用戶(hù),在方舟內部給他們群發(fā)消息召回他們,至少來(lái)到落地頁(yè)上的用戶(hù)是關(guān)注這個(gè)話(huà)題的。
Session分析 Session分析自帶跳出率分析,可以輔助我們做著(zhù)陸頁(yè)的整體優(yōu)化試驗。
此外,需要注意的是,一些網(wǎng)站上通常會(huì )提供在線(xiàn)咨詢(xún)服務(wù),或留下表單讓訪(fǎng)客填寫(xiě)。在這一問(wèn)題上,建議處理一定要講求時(shí)效性,越快越好。因為不管是在線(xiàn)咨詢(xún)還是提交注冊信息都意味著(zhù)需求,倘若拖了半天時(shí)間,可能訪(fǎng)客在搜索引擎上自己搜索已經(jīng)得到答案,這時(shí)候不管訪(fǎng)客是已經(jīng)解決問(wèn)題還是找到其他替代方案,他本身的需求已經(jīng)大幅降低,這時(shí)候再去回復或溝通,他溝通的意愿會(huì )降低、需求場(chǎng)景逐漸消失,這條線(xiàn)索的價(jià)值也就大大萎縮了。因此,在評估落地頁(yè)轉化的效果時(shí),不僅要對落地頁(yè)各項數據有個(gè)明晰的把握,也要對落地頁(yè)內置咨詢(xún)、表單線(xiàn)索處理等方面做一個(gè)全面的考察。落地頁(yè)對轉化有決定性作用,通過(guò)分析模型可以幫助我們更好地觀(guān)察敏捷迭代后的數據變化,而至于如何敏捷迭代,大膽想象,小心求證,一些小的試驗結果長(cháng)期積累,會(huì )得到很好的反饋。
2021年,我們面臨新的行業(yè)環(huán)境,通過(guò)整合當下更全面的線(xiàn)上營(yíng)銷(xiāo)渠道和投放策略,推出了全新的《2021數字營(yíng)銷(xiāo)白皮書(shū)》。
全書(shū)50頁(yè),分10個(gè)章節,覆蓋線(xiàn)上用戶(hù)生命周期、用戶(hù)獲客指標、常見(jiàn)獲客渠道、營(yíng)銷(xiāo)素材處理、賬戶(hù)精細化管理、數據化投放跟蹤、落地頁(yè)設計制作等多維度,系統地為市場(chǎng)營(yíng)銷(xiāo)人提供線(xiàn)上數字營(yíng)銷(xiāo)從策略到落地執行的全攻略支持。
每天掌握更多數據運營(yíng)干貨
狙擊谷歌搜索
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 98 次瀏覽 ? 2022-05-12 01:53
下一代搜索引擎從根本上會(huì )基于不同的價(jià)值觀(guān)(可控、可信賴(lài)),采取不同的商業(yè)模式。近十年人工智能技術(shù)的發(fā)展,使得小公司顛覆搜索巨頭成為可能。
編譯 |吳昕
來(lái)源 |a16z
二十年來(lái),搜索引擎設計或商業(yè)模式?jīng)]有任何重大創(chuàng )新。
相信很多人早已厭倦充斥廣告、商業(yè)泛濫的搜索,但更習慣于「忍忍就過(guò)去了」的將就。對于收割「羊群」注意力的商業(yè)手腕兒,哥倫比亞大學(xué)法學(xué)院教授 Tim Wu 在《注意力經(jīng)濟》一書(shū)中早已做了詳盡描述??恐?zhù)廣告費支撐著(zhù)各種免費產(chǎn)品,占據數據撒哈拉的搜索巨頭自然希望安于現狀,但可供指望的「救星」又屈指可數。至少 5 或 10 年前想要建立一家搜索引擎公司與谷歌競爭,會(huì )非常困難,而且基本上不可能,因為需要數百人和大量訓練數據。
不過(guò)最近幾年,情況有所改變。就巨頭們而言,隨著(zhù)各自賴(lài)以起家的核心業(yè)務(wù)走到巔峰,為了支持超高市值,他們開(kāi)始邁入已知巨大市場(chǎng),相互踩踏,比如搜索。
微軟必應自然希望多一些市場(chǎng)份額。坐擁龐大電商平臺和商家的亞馬遜為什么不讓用戶(hù)直接從「自己花園」里開(kāi)始搜索而一直要做谷歌的大客戶(hù)?蘋(píng)果直接高調挖走谷歌搜索和AI負責人。Siri基本上就是一個(gè)搜索引擎,通過(guò)回答用戶(hù)提出的問(wèn)題,可以幫蘋(píng)果獲得可觀(guān)收益。雖然大打隱私牌的蘋(píng)果似乎不想直接從廣告掙錢(qián),但用戶(hù)還是難斷定巨頭們涉足搜索不過(guò)是另一輪「圈地運動(dòng)」、收割流量的代名詞。
在構建根本不同的東西、借由「創(chuàng )新者的窘境」式游戲來(lái)削弱谷歌搜索的路上,絕大多數創(chuàng )業(yè)公司被寄予希望,卻總顯得孤獨寂寞。但也有例外。2021年,理查德·索切爾(Richard Socher)創(chuàng )立新公司 , 進(jìn)軍搜索領(lǐng)域。這是一個(gè)無(wú)廣告、保護隱私的搜索引擎。
Socher 曾在推特上發(fā)問(wèn),具有什么樣功能的搜索引擎會(huì )讓你放棄谷歌? KK的回復是:沒(méi)有廣告;付費訂閱。
一直關(guān)注人工智能領(lǐng)域的中國讀者一定很熟悉這個(gè)名字。索切爾曾于2014 年創(chuàng )辦了 MetaMind,后被 Salesforce 收購。索切爾的優(yōu)秀履歷也再添一份精彩:Salesforce 首席科學(xué)家和執行副總裁。
這位曾被世界經(jīng)濟論壇稱(chēng)為「人工智能神童之一」的后起之秀,于2014年在斯坦福大學(xué)計算機系獲得博士學(xué)位,也是組建 ImageNet 團隊成員之一,曾與 Chris Manning、吳恩達一起研究深度學(xué)習。不過(guò),他并不眷戀純粹的學(xué)術(shù)研究,畢業(yè)后即創(chuàng )業(yè)(成立 MetaMind )。他認為,擁有工程資源、讓AI真正發(fā)揮作用可能更為重要。
自2012年深度學(xué)習革命爆發(fā)以來(lái),理查德·索切爾就一直在參與其中,從事深度學(xué)習和摘要技術(shù)(Summarization)的研究。最近十年,人工智能領(lǐng)域發(fā)生了巨大的變化,特別是深度學(xué)習、無(wú)監督、半監督和遷移學(xué)習的激增使得像 這樣的小公司可以與谷歌對抗,而充滿(mǎn)雜亂廣告鏈接、隱私體驗欠佳的搜索引擎成為這些重要技術(shù)的最佳應用場(chǎng)景。索切爾認為,摘要技術(shù)不僅是信息時(shí)代的一項基礎技術(shù),也是注意力經(jīng)濟的一種解決方案。
現在是啟動(dòng)新搜索引擎的最佳時(shí)機。他們利用自然語(yǔ)言處理(NLP)來(lái)理解理解查詢(xún)意圖,對搜索結果進(jìn)行排名,并將人類(lèi)語(yǔ)言語(yǔ)義解析為不同 API 的計算機語(yǔ)言。平臺匯總了來(lái)自網(wǎng)絡(luò )的信息,并且可以通過(guò)內置的搜索應用程序進(jìn)行擴展,例如 Yelp 和 Twitter 的應用程序,用戶(hù)無(wú)需離開(kāi)結果頁(yè)面即可完成搜索任務(wù)。讓用戶(hù)從多個(gè)不同角度探索一個(gè)主題。
輸入Briney Spears ,的頁(yè)面顯示。
索切爾希望建立一個(gè)真正以消費者為中心的搜索工具,該工具不依賴(lài)廣告和對用戶(hù)的了解。這個(gè)工具可以幫助你研究、總結網(wǎng)頁(yè)信息,獲得一些真正有價(jià)值的信息。
對工具可信賴(lài)、可控的強調,可能也與他這幾年的工作體驗有關(guān)。他承認,在與 Salesforce CEO Marc Benioff 的合作中學(xué)到不少。比如你可以賺到錢(qián),也仍然可以與購買(mǎi)你產(chǎn)品的人建立信任。有意思的是,無(wú)論是當初創(chuàng )辦MetaMind,還是后來(lái)創(chuàng )立 ,都可以看到 Marc Benioff 的投資身影。
為了重新調整對搜索引擎的期望, 還推出了一款與 OpenAI 合作構建的搜索應用程序 YouWrite,該應用程序會(huì )在出現提示時(shí)生成文本片段——甚至是文檔。索切爾稱(chēng)其為「個(gè)人 AI 作家」。
YouWrite根據提示生成文本
最近,索切爾接受了硅谷知名投資機構 a16z 合伙人、編輯Derrick Harris的采訪(fǎng)。這次采訪(fǎng)中,索切爾談?wù)摿嗽S多話(huà)題,包括過(guò)去十年中,人工智能初創(chuàng )公司情況發(fā)生了怎樣的變化;在初創(chuàng )公司、企業(yè)和學(xué)術(shù)界做人工智能的區別,以及新的機器學(xué)習技術(shù)(如 Transformer 模型)如何使公司能夠用過(guò)去所需資源的一小部分來(lái)構建先進(jìn)的產(chǎn)品。其對下一代 AI 產(chǎn)品設計的可控性、可信賴(lài)元素的強調,均可在采訪(fǎng)中找到闡述。以下是采訪(fǎng)正文。
對于人工智能研究人員(學(xué)生和教授)來(lái)說(shuō),從學(xué)術(shù)界轉到初創(chuàng )公司似乎是一個(gè)常見(jiàn)的做法,就像你做的那樣。在今天,這兩個(gè)世界有什么關(guān)鍵區別?
在學(xué)術(shù)界,人們仍在努力向人工智能可以產(chǎn)生影響的新領(lǐng)域前進(jìn),有些人希望在A(yíng)GI(通用人工智能)方面取得進(jìn)展。我認為有兩個(gè)激動(dòng)人心的新領(lǐng)域的例子,一個(gè)是蛋白質(zhì)結構,也就是蛋白質(zhì)或氨基酸序列方面,另一個(gè)是對經(jīng)濟學(xué)的影響。后者對世界來(lái)說(shuō)非常重要,但 AI 的影響并沒(méi)有我認為的那么大。
與此同時(shí),對于初創(chuàng )公司來(lái)說(shuō),如果你有很多數據,流程也主要依賴(lài)于已經(jīng)看到的數據,基本上可以說(shuō)「我們知道它是如何運作的?!贡热?,你有一張放射圖像,試著(zhù)確定這骨頭斷了嗎?或者有一個(gè)頭部 CT 掃描,你要試著(zhù)確定是否有顱內出血或腦出血?或者從病理圖像中對不同種類(lèi)的癌癥進(jìn)行分類(lèi)。
所有這些應用的流程序列已經(jīng)相對完善,即:識別問(wèn)題并為其收集數據,在此基礎上訓練一個(gè)大型神經(jīng)網(wǎng)絡(luò ),然后優(yōu)化和自動(dòng)化流程中的部分或全部 。
有了這個(gè)經(jīng)過(guò)驗證的方法,你就能產(chǎn)生很大的影響。這與我們在電力方面所看到的情況類(lèi)似:一旦掌握電力的基本原理,只要把它提供給一個(gè)以前只有油燈和火的城鎮,就可以產(chǎn)生很大的影響。
這是可能的,部分是因為在過(guò)去的10年里已經(jīng)發(fā)展出了許多有趣和重要的想法。以前不可能實(shí)現的事情,現在變得可能。比如讓人工智能編寫(xiě)相當長(cháng)的文本。一個(gè)主要的變化是,不僅僅是圖像,所有的數據本質(zhì)上都是矢量。所有東西都是一個(gè)數字列表,這個(gè)數字列表可以作為一個(gè)大型神經(jīng)網(wǎng)絡(luò )的輸入,在上面訓練任何你想訓練的東西。
還有很多有趣和重要的算法改進(jìn)(更不用說(shuō)更多數據和更多計算性能了)。但是端到端學(xué)習( 深度學(xué)習的一個(gè)重要思想就是「端到端」學(xué)習方式,屬表示學(xué)習的一種,也是這深度學(xué)習區別于其他機器學(xué)習算法的非常重要的一個(gè)方面。譯者注)是一個(gè)非常重要的思想,它改變了很多事情。
從初創(chuàng )公司到大型企業(yè)的轉變呢?這似乎是一把雙刃劍,預算可能更多,但限制也更多……
兩者在很多方面都不同,我只提兩個(gè)例子。
如果AI工具初創(chuàng )發(fā)現很多公司都花費比如四分之一的開(kāi)發(fā)人員圍繞某一流程構建產(chǎn)品,而其中某部分或者環(huán)節要花費一到兩個(gè)開(kāi)發(fā)人員,他們就有可能在2B領(lǐng)域獲得成功。這也是為什么許多AI工具初創(chuàng )都在幫助開(kāi)發(fā)人員對付這些讓人不太愉快的部分。
而要做到這一點(diǎn),最好的方法是讓客戶(hù)仍然覺(jué)得自己在構建和控制人工智能,盡管實(shí)際上需要合作伙伴幫助標注數據、研究數據偏差。(比如)他們首先要收集數據,通過(guò) Huggingface(一家在 NLP 社區做出杰出貢獻的紐約創(chuàng )業(yè)公司,提供了大量預訓練模型和代碼等資源——譯者注)實(shí)現模型,借助 Weights &Biases ( 一個(gè)可幫助數據科學(xué)家跟蹤他們的模型、數據集、系統信息等的平臺——譯者注)訓練模型時(shí)擴展模型分析,并通過(guò) ZenML (一種可擴展的機器學(xué)習框架——譯者注)部署模型。
?。ㄋ阆聛?lái))雖然依賴(lài)10-15個(gè)外部支援,但相對于圍繞某個(gè)特定AI模型重復造輪子來(lái)說(shuō),這樣能夠更快、更可擴展、更準確地訓練 AI。找到類(lèi)似各種各樣已經(jīng)存在但又缺乏高度專(zhuān)業(yè)性、需要專(zhuān)業(yè)團隊聚焦的某些特定方面或者環(huán)節,是創(chuàng )業(yè)公司的一大樂(lè )事。
但在像 Salesforce 這樣的大公司,你主要考慮的是什么能夠真正改變許多不同客戶(hù)的需求。如何幫助那些已經(jīng)在您系統中的客戶(hù)使用他們的數據集,以一種他們仍然覺(jué)得(實(shí)際上也確實(shí))擁有控制權的方式?這一點(diǎn)很重要,因為在 Salesforce,信任是我們的第一價(jià)值。你不能只是拿每個(gè)人的數據,然后對其進(jìn)行訓練,因為他們擁有自己的數據,而且他們?yōu)榇鎯Ω顿M。因此,你還需要與客戶(hù)合作,努力讓他們的人工智能項目起步。
所以,企業(yè)軟件供應商擔心的是客戶(hù)支付了很多錢(qián),你就不能以試驗新功能的名義來(lái)破壞工作?
這是部分原因。但可能更重要的是,你必須確保它是可信、易于使用,并且可以跨越所有這些不同的用例,而且服務(wù)的成本仍然相對較低。如果是一個(gè)像 Salesforce這樣的平臺公司,你也不能只建立一個(gè)分類(lèi)器,還必須讓所有客戶(hù)建立他們自己的分類(lèi)器,這也伴隨著(zhù)各種有趣和困難的技術(shù)挑戰。
企業(yè)預算如何改變公司處境?
最大的區別是,當公司規模越來(lái)越大時(shí),就可以而且應該進(jìn)一步展望未來(lái),做更多有趣的研究工作,這實(shí)際上與學(xué)術(shù)界有更大的重疊。因為你可能會(huì )在兩三年內被打亂,而你又有足夠的空間去思考四五年后的未來(lái)。所以需要預測一下接下來(lái)會(huì )發(fā)生什么。
因此,作為一家大公司的 AI 研究人員,你可以奢侈地去思考和構建一些東西,而在初創(chuàng )公司,你需要構建人們現在想要的東西,它還需要非常好,并在合理的時(shí)間范圍內發(fā)貨。這就是最大的不同——絕大多數初創(chuàng )公司都在從事應用,應用程序和人工智能,而不是基礎研究;大公司可以?xún)烧呒娴谩?
當你談?wù)?B2B 初創(chuàng )時(shí),提到的很多東西,我們可以稱(chēng)之為橫向應用( horizontal applications )。為什么你認為這些在今天被證明是成功的,而情況并非總是如此?
總有一些非常有用的垂直 AI 應用程序,但有一個(gè)短暫的階段,我們認為橫向的平臺可能會(huì )起作用。其實(shí),早期的人工智能平臺初創(chuàng )公司就承擔了太多不同的任務(wù)。
例如,我們在 MetaMind 構建了一些技術(shù),你可以將一些文本或圖像拖放到 Web 瀏覽器,擁有一個(gè)完全可擴展的系統來(lái)對這些文檔進(jìn)行分類(lèi)。某種程度上,這確實(shí)有些古早,因為這都發(fā)生在前 TensorFlow 、 PyTorch 時(shí)代。你必須從頭實(shí)現所有這些神經(jīng)網(wǎng)絡(luò )及其細節,也幾乎沒(méi)有什么開(kāi)發(fā)工具?,F在,情況已經(jīng)發(fā)生了顯著(zhù)變化。
我們在 MetaMind 中構建了所有這些東西——標注、錯誤分析、部署、建模、如何訓練模型分析。有趣的是,如果每個(gè)部分都有一個(gè)專(zhuān)注于此的獨立公司,現在他們中的每一家都比 MetaMind 更值錢(qián)。
我認為,大多數公司和開(kāi)發(fā)人員都希望自己通盤(pán)掌控 AI,但他們可以放棄其中獨立的較小部分,如果編寫(xiě)這部分代碼實(shí)際上并不那么令人興奮。所以,需要找到一種有趣的方式,在樂(lè )趣和讓每個(gè)人都感到掌控感之間找到平衡。既然初創(chuàng )公司負責提供機器學(xué)習工具,你就不能剝奪太多用戶(hù)的掌控感。
網(wǎng)絡(luò )和模型的進(jìn)化如何改變了人們對創(chuàng )辦公司或構建人工智能產(chǎn)品的看法?
我實(shí)際上并不認為特定模型對如何創(chuàng )辦公司有很大的改變。但我認為,某些模型目前更高效,因為它們能更好地處理我們擁有的硬件。我們并不真正受大腦、理論或原則啟發(fā)——而是受 GPU 啟發(fā)。我們的靈感主要來(lái)自在 GPU 上運行良好的東西。當前流行的模型 Transformers,對于 GPU 來(lái)說(shuō)就非常有效,可以非常有效地進(jìn)行訓練。
對于硬件初創(chuàng )公司來(lái)說(shuō),這確實(shí)改變了一些事情。他們看著(zhù)英偉達和其他一些大公司,然后說(shuō)「嗯,必須有某種方法來(lái)分一杯羹?!刮覀円惨虼藭?huì )看到一些創(chuàng )新。(不過(guò))與此同時(shí),他們真的很難擴展,因為對于絕大多數用例來(lái)說(shuō),他們的特殊硬件必須出現在大型云提供商之一當中。
當然,整個(gè) AI 開(kāi)發(fā)堆棧在過(guò)去 8 年中已經(jīng)成熟了很多。遙想當年,如果你希望它更快,就必須從頭開(kāi)始用 C++ 實(shí)現所有內容,這非常慢。人們需要很長(cháng)時(shí)間才能加快速度和學(xué)習。而現在,所有這些復雜性都可以被抽象出來(lái),你可以使用我們之前討論過(guò)的產(chǎn)品,這使得構建高質(zhì)量的人工智能系統變得更快、更方便、更容易。
但是算法的進(jìn)步確實(shí)讓局面有很大不同,對吧?例如,在隱私方面很重要,這也是你可以?xún)?yōu)先考慮用更少數據做更多事情的原因之一。
這是一個(gè)很好的問(wèn)題,而且絕對正確。如果 5 或 10 年前想要建立一家搜索引擎公司與 Google 競爭,會(huì )非常困難,而且基本上不可能,因為需要數百人和大量訓練數據來(lái)構建我們正在建立的排名系統?,F在,一個(gè)非常小的團隊(盡管小,但非常聰明也很有能力)就能構建一個(gè)排名系統,對你在搜索引擎中輸入的任意意圖和查詢(xún)進(jìn)行排名,并提供正確的應用程序、資源集合。
像 這樣的小公司可以與谷歌這樣的大公司競爭,唯一的原因在于我們在人工智能方面看到了進(jìn)步,特別是涉及無(wú)監督學(xué)習和遷移學(xué)習時(shí)。你可以在維基百科、Common Crawl(一個(gè)非營(yíng)利組織,利用自己的網(wǎng)絡(luò )爬蟲(chóng)收集了十億級別的網(wǎng)頁(yè)數據,任何人都可以免費訪(fǎng)問(wèn),研究人員和企業(yè)家就可以在谷歌級別的數據上進(jìn)行新的嘗試和探索,新的創(chuàng )業(yè)機會(huì )也油然而生?!g者注) 以及所有你能找到的網(wǎng)絡(luò )文本上訓練非常大的神經(jīng)網(wǎng)絡(luò )。(也要記住,并不是所有網(wǎng)絡(luò )上的東西都能用于訓練很好的人工智能)。
我們可以利用這些資源訓練無(wú)監督模型,比如預測句子中的下一個(gè)單詞?!肝胰チ四霞又?,很享受……」,如果對語(yǔ)言和世界很了解,就會(huì )預測到下一個(gè)詞可能是「海灘」、「沙漠」,或者任何在南加州能夠享受到的東西。但預測的前提是你必須具備大量的知識。而訓練一個(gè)模型來(lái)預測幾百萬(wàn)甚至幾十億單詞序列的下一個(gè)單詞,一開(kāi)始也需要整合所有這些背景知識。
這就涉及無(wú)監督學(xué)習,沒(méi)有人坐在那里給你標記好下一個(gè)單詞是什么。只有維基百科,模型可以從里面學(xué)到很多正確排序的單詞表達。
這個(gè)想法很牛逼,你只需根據任務(wù)目標對大型 NLP 模型稍加修改即可讓其完成任務(wù)。它能超越特定、小規模標記數據,進(jìn)行更為廣泛的泛化,因為他們擁有知識感;他們知道「我附近最好的泰國餐館」與「我所在地區最好的東南亞餐館」非常相似,盡管訓練數據中從未有過(guò)這個(gè)特定的短語(yǔ),但我們的神經(jīng)網(wǎng)絡(luò )和排名系統可以做到這一點(diǎn),因為它們知道這些短語(yǔ)是相似的。
說(shuō)到搜索,我注意到 很重要的一點(diǎn),就是總結(搜索)結果的方式,這是源自用戶(hù)頁(yè)面設計的需求,張三李四隨時(shí)隨地都可以做到?還是得益于機器學(xué)習技術(shù)的進(jìn)步才能以這種方式處理搜索結果?
雖然聽(tīng)起來(lái)不那么酷,但摘要實(shí)際上是最難的人工智能任務(wù)之一,尤其是在自然語(yǔ)言處理中,原因有很多也有趣。原因之一,摘要是個(gè)非常個(gè)性化的任務(wù),我知道你(摘要的接收者)知道什么,我就可以為你提供更好、更準確的摘要結果。
比如,如果你不知道什么是詞向量,你就很難理解 Transformers( Google 的團隊在 2017 年提出的一種 NLP 經(jīng)典模型,現在比較火熱的 Bert 也是基于 Transformer?!g者注)。為此,你首先需要了解詞向量的基礎知識。如果你已經(jīng)知道什么是 transformers,那摘要就會(huì )變得很簡(jiǎn)潔,比如,「他們正在用語(yǔ)言建模而不是機器翻譯來(lái)訓練它,這是一個(gè)更好的目標函數?!?
而且我認為摘要是一個(gè)重要的技術(shù)趨勢,未來(lái)幾年,隨著(zhù)你的時(shí)間越來(lái)越寶貴,需要簡(jiǎn)單工具幫助你完成一些工作,越來(lái)越多的人會(huì )在喜歡上它,而不是被那些賣(mài)廣告的公司所吸引,他們不想幫助你完成工作,而是幫助你查看更多內容,以便展示更多廣告。
我們不贊同這一點(diǎn),摘要(技術(shù))是其中很重要的一部分,它可以幫助用戶(hù)少做些搜索多完成工作,或者少搜索,多寫(xiě)些代碼。我們的應用程序包含有代碼片段,你可以復制和粘貼,通常都是正確的摘要。如果正在搜索「如何在 Python 中對字典排序」,答案不是一長(cháng)串文本,而只是一個(gè)代碼片段?;蛘?,當我們向您展示一篇論文時(shí),有一個(gè)指向實(shí)現該論文的開(kāi)源版本的 GitHub 存儲庫的鏈接。
我認為,下一代搜索引擎從根本上是基于不同的價(jià)值觀(guān),也是不同的商業(yè)模式。
鑒于我們已經(jīng)討論過(guò)的所有進(jìn)展,對于那些希望立即進(jìn)入 AI 領(lǐng)域的人,你有什么建議?要做的事情或需要學(xué)習的技能是什么?
這在很大程度上取決于他們的年齡、技能、時(shí)間投入以及想進(jìn)入的領(lǐng)域。如果你還年輕,未來(lái)也想以此為業(yè),你仍然需要學(xué)習編程基礎、數學(xué)、統計學(xué)和一些概率知識,很多線(xiàn)性代數等等。
如果你已經(jīng)上班,也想進(jìn)入這個(gè)領(lǐng)域,有大量令人興奮的新在線(xiàn)課程、視頻和平臺,供你深入學(xué)習?,F在有這么多的材料,連斯坦福 CS224 NLP 課程也有,這就是我鼓勵人們去做的事情。
一旦完成了這些,接下來(lái)就是要動(dòng)手實(shí)踐了,寫(xiě)程序或者玩模型,順便想想目前還有哪些流程或者任務(wù)是靠手動(dòng)的,或者處在半機械半人工狀態(tài)?你能做些與眾不同的東西,嘗試自動(dòng)化它們嗎?
較之真正理解這些模型是如何工作,僅滿(mǎn)足于使用云API和不同水平的抽象化(abstraction)能讓你走多遠?
這完全取決于你的背景。如果受過(guò)高等教育,有數學(xué)方面的背景,你可以很快掌握一些基礎知識,直接跳到構建真實(shí)模型的階段,而不需要從頭開(kāi)始。不過(guò),越依賴(lài)抽象化,可能就越難以做一些真正有創(chuàng )造性的工作,也很難理解如何修復錯誤,解決性能問(wèn)題。
但在許多用例中,您也沒(méi)必要創(chuàng )新。比如,你可能只是想要一個(gè)自動(dòng)噴水滅火系統,因此,你只想回答:「有人站在這里嗎?是還是不是?!?如果沒(méi)有,請打開(kāi)自動(dòng)噴水滅火系統,不需要為此發(fā)明任何創(chuàng )新性的東西,只需要執行所有正確的標準步驟并為圖像分類(lèi)器使用好的工具。
但是,抽象化仍然存在漏洞,也并不完美。因此,應用程序越重要——它對你的公司、受影響的用戶(hù)或你的職業(yè)越重要——你就越希望擁有深入了解這些系統的專(zhuān)家,知道如何修復某些錯誤或性能問(wèn)題的專(zhuān)家,以及思考人工智能系統如何影響人們的人。只有這樣,你才能真正以安全、最大限度發(fā)揮積極影響的方式自動(dòng)化某些流程。
參考鏈接: 查看全部
狙擊谷歌搜索
下一代搜索引擎從根本上會(huì )基于不同的價(jià)值觀(guān)(可控、可信賴(lài)),采取不同的商業(yè)模式。近十年人工智能技術(shù)的發(fā)展,使得小公司顛覆搜索巨頭成為可能。
編譯 |吳昕
來(lái)源 |a16z
二十年來(lái),搜索引擎設計或商業(yè)模式?jīng)]有任何重大創(chuàng )新。
相信很多人早已厭倦充斥廣告、商業(yè)泛濫的搜索,但更習慣于「忍忍就過(guò)去了」的將就。對于收割「羊群」注意力的商業(yè)手腕兒,哥倫比亞大學(xué)法學(xué)院教授 Tim Wu 在《注意力經(jīng)濟》一書(shū)中早已做了詳盡描述??恐?zhù)廣告費支撐著(zhù)各種免費產(chǎn)品,占據數據撒哈拉的搜索巨頭自然希望安于現狀,但可供指望的「救星」又屈指可數。至少 5 或 10 年前想要建立一家搜索引擎公司與谷歌競爭,會(huì )非常困難,而且基本上不可能,因為需要數百人和大量訓練數據。
不過(guò)最近幾年,情況有所改變。就巨頭們而言,隨著(zhù)各自賴(lài)以起家的核心業(yè)務(wù)走到巔峰,為了支持超高市值,他們開(kāi)始邁入已知巨大市場(chǎng),相互踩踏,比如搜索。
微軟必應自然希望多一些市場(chǎng)份額。坐擁龐大電商平臺和商家的亞馬遜為什么不讓用戶(hù)直接從「自己花園」里開(kāi)始搜索而一直要做谷歌的大客戶(hù)?蘋(píng)果直接高調挖走谷歌搜索和AI負責人。Siri基本上就是一個(gè)搜索引擎,通過(guò)回答用戶(hù)提出的問(wèn)題,可以幫蘋(píng)果獲得可觀(guān)收益。雖然大打隱私牌的蘋(píng)果似乎不想直接從廣告掙錢(qián),但用戶(hù)還是難斷定巨頭們涉足搜索不過(guò)是另一輪「圈地運動(dòng)」、收割流量的代名詞。
在構建根本不同的東西、借由「創(chuàng )新者的窘境」式游戲來(lái)削弱谷歌搜索的路上,絕大多數創(chuàng )業(yè)公司被寄予希望,卻總顯得孤獨寂寞。但也有例外。2021年,理查德·索切爾(Richard Socher)創(chuàng )立新公司 , 進(jìn)軍搜索領(lǐng)域。這是一個(gè)無(wú)廣告、保護隱私的搜索引擎。
Socher 曾在推特上發(fā)問(wèn),具有什么樣功能的搜索引擎會(huì )讓你放棄谷歌? KK的回復是:沒(méi)有廣告;付費訂閱。
一直關(guān)注人工智能領(lǐng)域的中國讀者一定很熟悉這個(gè)名字。索切爾曾于2014 年創(chuàng )辦了 MetaMind,后被 Salesforce 收購。索切爾的優(yōu)秀履歷也再添一份精彩:Salesforce 首席科學(xué)家和執行副總裁。
這位曾被世界經(jīng)濟論壇稱(chēng)為「人工智能神童之一」的后起之秀,于2014年在斯坦福大學(xué)計算機系獲得博士學(xué)位,也是組建 ImageNet 團隊成員之一,曾與 Chris Manning、吳恩達一起研究深度學(xué)習。不過(guò),他并不眷戀純粹的學(xué)術(shù)研究,畢業(yè)后即創(chuàng )業(yè)(成立 MetaMind )。他認為,擁有工程資源、讓AI真正發(fā)揮作用可能更為重要。
自2012年深度學(xué)習革命爆發(fā)以來(lái),理查德·索切爾就一直在參與其中,從事深度學(xué)習和摘要技術(shù)(Summarization)的研究。最近十年,人工智能領(lǐng)域發(fā)生了巨大的變化,特別是深度學(xué)習、無(wú)監督、半監督和遷移學(xué)習的激增使得像 這樣的小公司可以與谷歌對抗,而充滿(mǎn)雜亂廣告鏈接、隱私體驗欠佳的搜索引擎成為這些重要技術(shù)的最佳應用場(chǎng)景。索切爾認為,摘要技術(shù)不僅是信息時(shí)代的一項基礎技術(shù),也是注意力經(jīng)濟的一種解決方案。
現在是啟動(dòng)新搜索引擎的最佳時(shí)機。他們利用自然語(yǔ)言處理(NLP)來(lái)理解理解查詢(xún)意圖,對搜索結果進(jìn)行排名,并將人類(lèi)語(yǔ)言語(yǔ)義解析為不同 API 的計算機語(yǔ)言。平臺匯總了來(lái)自網(wǎng)絡(luò )的信息,并且可以通過(guò)內置的搜索應用程序進(jìn)行擴展,例如 Yelp 和 Twitter 的應用程序,用戶(hù)無(wú)需離開(kāi)結果頁(yè)面即可完成搜索任務(wù)。讓用戶(hù)從多個(gè)不同角度探索一個(gè)主題。
輸入Briney Spears ,的頁(yè)面顯示。
索切爾希望建立一個(gè)真正以消費者為中心的搜索工具,該工具不依賴(lài)廣告和對用戶(hù)的了解。這個(gè)工具可以幫助你研究、總結網(wǎng)頁(yè)信息,獲得一些真正有價(jià)值的信息。
對工具可信賴(lài)、可控的強調,可能也與他這幾年的工作體驗有關(guān)。他承認,在與 Salesforce CEO Marc Benioff 的合作中學(xué)到不少。比如你可以賺到錢(qián),也仍然可以與購買(mǎi)你產(chǎn)品的人建立信任。有意思的是,無(wú)論是當初創(chuàng )辦MetaMind,還是后來(lái)創(chuàng )立 ,都可以看到 Marc Benioff 的投資身影。
為了重新調整對搜索引擎的期望, 還推出了一款與 OpenAI 合作構建的搜索應用程序 YouWrite,該應用程序會(huì )在出現提示時(shí)生成文本片段——甚至是文檔。索切爾稱(chēng)其為「個(gè)人 AI 作家」。
YouWrite根據提示生成文本
最近,索切爾接受了硅谷知名投資機構 a16z 合伙人、編輯Derrick Harris的采訪(fǎng)。這次采訪(fǎng)中,索切爾談?wù)摿嗽S多話(huà)題,包括過(guò)去十年中,人工智能初創(chuàng )公司情況發(fā)生了怎樣的變化;在初創(chuàng )公司、企業(yè)和學(xué)術(shù)界做人工智能的區別,以及新的機器學(xué)習技術(shù)(如 Transformer 模型)如何使公司能夠用過(guò)去所需資源的一小部分來(lái)構建先進(jìn)的產(chǎn)品。其對下一代 AI 產(chǎn)品設計的可控性、可信賴(lài)元素的強調,均可在采訪(fǎng)中找到闡述。以下是采訪(fǎng)正文。
對于人工智能研究人員(學(xué)生和教授)來(lái)說(shuō),從學(xué)術(shù)界轉到初創(chuàng )公司似乎是一個(gè)常見(jiàn)的做法,就像你做的那樣。在今天,這兩個(gè)世界有什么關(guān)鍵區別?
在學(xué)術(shù)界,人們仍在努力向人工智能可以產(chǎn)生影響的新領(lǐng)域前進(jìn),有些人希望在A(yíng)GI(通用人工智能)方面取得進(jìn)展。我認為有兩個(gè)激動(dòng)人心的新領(lǐng)域的例子,一個(gè)是蛋白質(zhì)結構,也就是蛋白質(zhì)或氨基酸序列方面,另一個(gè)是對經(jīng)濟學(xué)的影響。后者對世界來(lái)說(shuō)非常重要,但 AI 的影響并沒(méi)有我認為的那么大。
與此同時(shí),對于初創(chuàng )公司來(lái)說(shuō),如果你有很多數據,流程也主要依賴(lài)于已經(jīng)看到的數據,基本上可以說(shuō)「我們知道它是如何運作的?!贡热?,你有一張放射圖像,試著(zhù)確定這骨頭斷了嗎?或者有一個(gè)頭部 CT 掃描,你要試著(zhù)確定是否有顱內出血或腦出血?或者從病理圖像中對不同種類(lèi)的癌癥進(jìn)行分類(lèi)。
所有這些應用的流程序列已經(jīng)相對完善,即:識別問(wèn)題并為其收集數據,在此基礎上訓練一個(gè)大型神經(jīng)網(wǎng)絡(luò ),然后優(yōu)化和自動(dòng)化流程中的部分或全部 。
有了這個(gè)經(jīng)過(guò)驗證的方法,你就能產(chǎn)生很大的影響。這與我們在電力方面所看到的情況類(lèi)似:一旦掌握電力的基本原理,只要把它提供給一個(gè)以前只有油燈和火的城鎮,就可以產(chǎn)生很大的影響。
這是可能的,部分是因為在過(guò)去的10年里已經(jīng)發(fā)展出了許多有趣和重要的想法。以前不可能實(shí)現的事情,現在變得可能。比如讓人工智能編寫(xiě)相當長(cháng)的文本。一個(gè)主要的變化是,不僅僅是圖像,所有的數據本質(zhì)上都是矢量。所有東西都是一個(gè)數字列表,這個(gè)數字列表可以作為一個(gè)大型神經(jīng)網(wǎng)絡(luò )的輸入,在上面訓練任何你想訓練的東西。
還有很多有趣和重要的算法改進(jìn)(更不用說(shuō)更多數據和更多計算性能了)。但是端到端學(xué)習( 深度學(xué)習的一個(gè)重要思想就是「端到端」學(xué)習方式,屬表示學(xué)習的一種,也是這深度學(xué)習區別于其他機器學(xué)習算法的非常重要的一個(gè)方面。譯者注)是一個(gè)非常重要的思想,它改變了很多事情。
從初創(chuàng )公司到大型企業(yè)的轉變呢?這似乎是一把雙刃劍,預算可能更多,但限制也更多……
兩者在很多方面都不同,我只提兩個(gè)例子。
如果AI工具初創(chuàng )發(fā)現很多公司都花費比如四分之一的開(kāi)發(fā)人員圍繞某一流程構建產(chǎn)品,而其中某部分或者環(huán)節要花費一到兩個(gè)開(kāi)發(fā)人員,他們就有可能在2B領(lǐng)域獲得成功。這也是為什么許多AI工具初創(chuàng )都在幫助開(kāi)發(fā)人員對付這些讓人不太愉快的部分。
而要做到這一點(diǎn),最好的方法是讓客戶(hù)仍然覺(jué)得自己在構建和控制人工智能,盡管實(shí)際上需要合作伙伴幫助標注數據、研究數據偏差。(比如)他們首先要收集數據,通過(guò) Huggingface(一家在 NLP 社區做出杰出貢獻的紐約創(chuàng )業(yè)公司,提供了大量預訓練模型和代碼等資源——譯者注)實(shí)現模型,借助 Weights &Biases ( 一個(gè)可幫助數據科學(xué)家跟蹤他們的模型、數據集、系統信息等的平臺——譯者注)訓練模型時(shí)擴展模型分析,并通過(guò) ZenML (一種可擴展的機器學(xué)習框架——譯者注)部署模型。
?。ㄋ阆聛?lái))雖然依賴(lài)10-15個(gè)外部支援,但相對于圍繞某個(gè)特定AI模型重復造輪子來(lái)說(shuō),這樣能夠更快、更可擴展、更準確地訓練 AI。找到類(lèi)似各種各樣已經(jīng)存在但又缺乏高度專(zhuān)業(yè)性、需要專(zhuān)業(yè)團隊聚焦的某些特定方面或者環(huán)節,是創(chuàng )業(yè)公司的一大樂(lè )事。
但在像 Salesforce 這樣的大公司,你主要考慮的是什么能夠真正改變許多不同客戶(hù)的需求。如何幫助那些已經(jīng)在您系統中的客戶(hù)使用他們的數據集,以一種他們仍然覺(jué)得(實(shí)際上也確實(shí))擁有控制權的方式?這一點(diǎn)很重要,因為在 Salesforce,信任是我們的第一價(jià)值。你不能只是拿每個(gè)人的數據,然后對其進(jìn)行訓練,因為他們擁有自己的數據,而且他們?yōu)榇鎯Ω顿M。因此,你還需要與客戶(hù)合作,努力讓他們的人工智能項目起步。
所以,企業(yè)軟件供應商擔心的是客戶(hù)支付了很多錢(qián),你就不能以試驗新功能的名義來(lái)破壞工作?
這是部分原因。但可能更重要的是,你必須確保它是可信、易于使用,并且可以跨越所有這些不同的用例,而且服務(wù)的成本仍然相對較低。如果是一個(gè)像 Salesforce這樣的平臺公司,你也不能只建立一個(gè)分類(lèi)器,還必須讓所有客戶(hù)建立他們自己的分類(lèi)器,這也伴隨著(zhù)各種有趣和困難的技術(shù)挑戰。
企業(yè)預算如何改變公司處境?
最大的區別是,當公司規模越來(lái)越大時(shí),就可以而且應該進(jìn)一步展望未來(lái),做更多有趣的研究工作,這實(shí)際上與學(xué)術(shù)界有更大的重疊。因為你可能會(huì )在兩三年內被打亂,而你又有足夠的空間去思考四五年后的未來(lái)。所以需要預測一下接下來(lái)會(huì )發(fā)生什么。
因此,作為一家大公司的 AI 研究人員,你可以奢侈地去思考和構建一些東西,而在初創(chuàng )公司,你需要構建人們現在想要的東西,它還需要非常好,并在合理的時(shí)間范圍內發(fā)貨。這就是最大的不同——絕大多數初創(chuàng )公司都在從事應用,應用程序和人工智能,而不是基礎研究;大公司可以?xún)烧呒娴谩?
當你談?wù)?B2B 初創(chuàng )時(shí),提到的很多東西,我們可以稱(chēng)之為橫向應用( horizontal applications )。為什么你認為這些在今天被證明是成功的,而情況并非總是如此?
總有一些非常有用的垂直 AI 應用程序,但有一個(gè)短暫的階段,我們認為橫向的平臺可能會(huì )起作用。其實(shí),早期的人工智能平臺初創(chuàng )公司就承擔了太多不同的任務(wù)。
例如,我們在 MetaMind 構建了一些技術(shù),你可以將一些文本或圖像拖放到 Web 瀏覽器,擁有一個(gè)完全可擴展的系統來(lái)對這些文檔進(jìn)行分類(lèi)。某種程度上,這確實(shí)有些古早,因為這都發(fā)生在前 TensorFlow 、 PyTorch 時(shí)代。你必須從頭實(shí)現所有這些神經(jīng)網(wǎng)絡(luò )及其細節,也幾乎沒(méi)有什么開(kāi)發(fā)工具?,F在,情況已經(jīng)發(fā)生了顯著(zhù)變化。
我們在 MetaMind 中構建了所有這些東西——標注、錯誤分析、部署、建模、如何訓練模型分析。有趣的是,如果每個(gè)部分都有一個(gè)專(zhuān)注于此的獨立公司,現在他們中的每一家都比 MetaMind 更值錢(qián)。
我認為,大多數公司和開(kāi)發(fā)人員都希望自己通盤(pán)掌控 AI,但他們可以放棄其中獨立的較小部分,如果編寫(xiě)這部分代碼實(shí)際上并不那么令人興奮。所以,需要找到一種有趣的方式,在樂(lè )趣和讓每個(gè)人都感到掌控感之間找到平衡。既然初創(chuàng )公司負責提供機器學(xué)習工具,你就不能剝奪太多用戶(hù)的掌控感。
網(wǎng)絡(luò )和模型的進(jìn)化如何改變了人們對創(chuàng )辦公司或構建人工智能產(chǎn)品的看法?
我實(shí)際上并不認為特定模型對如何創(chuàng )辦公司有很大的改變。但我認為,某些模型目前更高效,因為它們能更好地處理我們擁有的硬件。我們并不真正受大腦、理論或原則啟發(fā)——而是受 GPU 啟發(fā)。我們的靈感主要來(lái)自在 GPU 上運行良好的東西。當前流行的模型 Transformers,對于 GPU 來(lái)說(shuō)就非常有效,可以非常有效地進(jìn)行訓練。
對于硬件初創(chuàng )公司來(lái)說(shuō),這確實(shí)改變了一些事情。他們看著(zhù)英偉達和其他一些大公司,然后說(shuō)「嗯,必須有某種方法來(lái)分一杯羹?!刮覀円惨虼藭?huì )看到一些創(chuàng )新。(不過(guò))與此同時(shí),他們真的很難擴展,因為對于絕大多數用例來(lái)說(shuō),他們的特殊硬件必須出現在大型云提供商之一當中。
當然,整個(gè) AI 開(kāi)發(fā)堆棧在過(guò)去 8 年中已經(jīng)成熟了很多。遙想當年,如果你希望它更快,就必須從頭開(kāi)始用 C++ 實(shí)現所有內容,這非常慢。人們需要很長(cháng)時(shí)間才能加快速度和學(xué)習。而現在,所有這些復雜性都可以被抽象出來(lái),你可以使用我們之前討論過(guò)的產(chǎn)品,這使得構建高質(zhì)量的人工智能系統變得更快、更方便、更容易。
但是算法的進(jìn)步確實(shí)讓局面有很大不同,對吧?例如,在隱私方面很重要,這也是你可以?xún)?yōu)先考慮用更少數據做更多事情的原因之一。
這是一個(gè)很好的問(wèn)題,而且絕對正確。如果 5 或 10 年前想要建立一家搜索引擎公司與 Google 競爭,會(huì )非常困難,而且基本上不可能,因為需要數百人和大量訓練數據來(lái)構建我們正在建立的排名系統?,F在,一個(gè)非常小的團隊(盡管小,但非常聰明也很有能力)就能構建一個(gè)排名系統,對你在搜索引擎中輸入的任意意圖和查詢(xún)進(jìn)行排名,并提供正確的應用程序、資源集合。
像 這樣的小公司可以與谷歌這樣的大公司競爭,唯一的原因在于我們在人工智能方面看到了進(jìn)步,特別是涉及無(wú)監督學(xué)習和遷移學(xué)習時(shí)。你可以在維基百科、Common Crawl(一個(gè)非營(yíng)利組織,利用自己的網(wǎng)絡(luò )爬蟲(chóng)收集了十億級別的網(wǎng)頁(yè)數據,任何人都可以免費訪(fǎng)問(wèn),研究人員和企業(yè)家就可以在谷歌級別的數據上進(jìn)行新的嘗試和探索,新的創(chuàng )業(yè)機會(huì )也油然而生?!g者注) 以及所有你能找到的網(wǎng)絡(luò )文本上訓練非常大的神經(jīng)網(wǎng)絡(luò )。(也要記住,并不是所有網(wǎng)絡(luò )上的東西都能用于訓練很好的人工智能)。
我們可以利用這些資源訓練無(wú)監督模型,比如預測句子中的下一個(gè)單詞?!肝胰チ四霞又?,很享受……」,如果對語(yǔ)言和世界很了解,就會(huì )預測到下一個(gè)詞可能是「海灘」、「沙漠」,或者任何在南加州能夠享受到的東西。但預測的前提是你必須具備大量的知識。而訓練一個(gè)模型來(lái)預測幾百萬(wàn)甚至幾十億單詞序列的下一個(gè)單詞,一開(kāi)始也需要整合所有這些背景知識。
這就涉及無(wú)監督學(xué)習,沒(méi)有人坐在那里給你標記好下一個(gè)單詞是什么。只有維基百科,模型可以從里面學(xué)到很多正確排序的單詞表達。
這個(gè)想法很牛逼,你只需根據任務(wù)目標對大型 NLP 模型稍加修改即可讓其完成任務(wù)。它能超越特定、小規模標記數據,進(jìn)行更為廣泛的泛化,因為他們擁有知識感;他們知道「我附近最好的泰國餐館」與「我所在地區最好的東南亞餐館」非常相似,盡管訓練數據中從未有過(guò)這個(gè)特定的短語(yǔ),但我們的神經(jīng)網(wǎng)絡(luò )和排名系統可以做到這一點(diǎn),因為它們知道這些短語(yǔ)是相似的。
說(shuō)到搜索,我注意到 很重要的一點(diǎn),就是總結(搜索)結果的方式,這是源自用戶(hù)頁(yè)面設計的需求,張三李四隨時(shí)隨地都可以做到?還是得益于機器學(xué)習技術(shù)的進(jìn)步才能以這種方式處理搜索結果?
雖然聽(tīng)起來(lái)不那么酷,但摘要實(shí)際上是最難的人工智能任務(wù)之一,尤其是在自然語(yǔ)言處理中,原因有很多也有趣。原因之一,摘要是個(gè)非常個(gè)性化的任務(wù),我知道你(摘要的接收者)知道什么,我就可以為你提供更好、更準確的摘要結果。
比如,如果你不知道什么是詞向量,你就很難理解 Transformers( Google 的團隊在 2017 年提出的一種 NLP 經(jīng)典模型,現在比較火熱的 Bert 也是基于 Transformer?!g者注)。為此,你首先需要了解詞向量的基礎知識。如果你已經(jīng)知道什么是 transformers,那摘要就會(huì )變得很簡(jiǎn)潔,比如,「他們正在用語(yǔ)言建模而不是機器翻譯來(lái)訓練它,這是一個(gè)更好的目標函數?!?
而且我認為摘要是一個(gè)重要的技術(shù)趨勢,未來(lái)幾年,隨著(zhù)你的時(shí)間越來(lái)越寶貴,需要簡(jiǎn)單工具幫助你完成一些工作,越來(lái)越多的人會(huì )在喜歡上它,而不是被那些賣(mài)廣告的公司所吸引,他們不想幫助你完成工作,而是幫助你查看更多內容,以便展示更多廣告。
我們不贊同這一點(diǎn),摘要(技術(shù))是其中很重要的一部分,它可以幫助用戶(hù)少做些搜索多完成工作,或者少搜索,多寫(xiě)些代碼。我們的應用程序包含有代碼片段,你可以復制和粘貼,通常都是正確的摘要。如果正在搜索「如何在 Python 中對字典排序」,答案不是一長(cháng)串文本,而只是一個(gè)代碼片段?;蛘?,當我們向您展示一篇論文時(shí),有一個(gè)指向實(shí)現該論文的開(kāi)源版本的 GitHub 存儲庫的鏈接。
我認為,下一代搜索引擎從根本上是基于不同的價(jià)值觀(guān),也是不同的商業(yè)模式。
鑒于我們已經(jīng)討論過(guò)的所有進(jìn)展,對于那些希望立即進(jìn)入 AI 領(lǐng)域的人,你有什么建議?要做的事情或需要學(xué)習的技能是什么?
這在很大程度上取決于他們的年齡、技能、時(shí)間投入以及想進(jìn)入的領(lǐng)域。如果你還年輕,未來(lái)也想以此為業(yè),你仍然需要學(xué)習編程基礎、數學(xué)、統計學(xué)和一些概率知識,很多線(xiàn)性代數等等。
如果你已經(jīng)上班,也想進(jìn)入這個(gè)領(lǐng)域,有大量令人興奮的新在線(xiàn)課程、視頻和平臺,供你深入學(xué)習?,F在有這么多的材料,連斯坦福 CS224 NLP 課程也有,這就是我鼓勵人們去做的事情。
一旦完成了這些,接下來(lái)就是要動(dòng)手實(shí)踐了,寫(xiě)程序或者玩模型,順便想想目前還有哪些流程或者任務(wù)是靠手動(dòng)的,或者處在半機械半人工狀態(tài)?你能做些與眾不同的東西,嘗試自動(dòng)化它們嗎?
較之真正理解這些模型是如何工作,僅滿(mǎn)足于使用云API和不同水平的抽象化(abstraction)能讓你走多遠?
這完全取決于你的背景。如果受過(guò)高等教育,有數學(xué)方面的背景,你可以很快掌握一些基礎知識,直接跳到構建真實(shí)模型的階段,而不需要從頭開(kāi)始。不過(guò),越依賴(lài)抽象化,可能就越難以做一些真正有創(chuàng )造性的工作,也很難理解如何修復錯誤,解決性能問(wèn)題。
但在許多用例中,您也沒(méi)必要創(chuàng )新。比如,你可能只是想要一個(gè)自動(dòng)噴水滅火系統,因此,你只想回答:「有人站在這里嗎?是還是不是?!?如果沒(méi)有,請打開(kāi)自動(dòng)噴水滅火系統,不需要為此發(fā)明任何創(chuàng )新性的東西,只需要執行所有正確的標準步驟并為圖像分類(lèi)器使用好的工具。
但是,抽象化仍然存在漏洞,也并不完美。因此,應用程序越重要——它對你的公司、受影響的用戶(hù)或你的職業(yè)越重要——你就越希望擁有深入了解這些系統的專(zhuān)家,知道如何修復某些錯誤或性能問(wèn)題的專(zhuān)家,以及思考人工智能系統如何影響人們的人。只有這樣,你才能真正以安全、最大限度發(fā)揮積極影響的方式自動(dòng)化某些流程。
參考鏈接:
核心方法:搜索引擎算法中TF-IDF是什么意思
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 149 次瀏覽 ? 2022-09-21 22:05
真正掌握seo優(yōu)化技術(shù)的唯一途徑是充分了解搜索引擎算法,所以在學(xué)習seo技術(shù)之初,要不斷地從淺入深地構建這方面更專(zhuān)業(yè)的認知。更深。在seo基礎學(xué)習中,如果對搜索引擎不了解和了解,確實(shí)是不可能通過(guò)純白帽seo完成一個(gè)網(wǎng)站優(yōu)化的。今天wp自學(xué)筆記和小伙伴們分享一下TF-IDF在搜索引擎算法中是什么意思?以下內容轉載自百度百科。
TF-IDF(詞頻-逆文檔頻率)是一種常用的信息檢索和數據挖掘加權技術(shù)。 TF 是詞頻,IDF 是逆文檔頻率。 TF-IDF 是一種統計方法,用于評估單詞對文檔集或語(yǔ)料庫中的一個(gè)文檔的重要性。一個(gè)詞的重要性與它在文檔中出現的次數成正比,但與它在語(yǔ)料庫中出現的頻率成反比。搜索引擎經(jīng)常應用各種形式的 TF-IDF 加權作為文檔和用戶(hù)查詢(xún)之間相關(guān)程度的度量或評級。除了 TF-IDF,互聯(lián)網(wǎng)上的搜索引擎還使用基于鏈接分析的排名方法來(lái)確定文檔在搜索結果中出現的順序。
TFIDF的主要思想是:如果一個(gè)詞或詞組在一個(gè)文章中頻繁出現TF,而在其他文章中很少出現,則認為這個(gè)詞或詞組有Good category辨別能力,適合分類(lèi)。 TFIDF其實(shí)就是:TF * IDF,TF Term Frequency,IDF逆文檔頻率。 TF 表示詞條在文檔 d 中出現的頻率。 IDF的主要思想是:如果收錄term t的文檔較少,即n越小,IDF越大,說(shuō)明term t有很好的分類(lèi)能力。如果某類(lèi)文檔 C 中收錄詞條 t 的文檔數為 m,其他類(lèi)型中收錄 t 的文檔總數為 k,顯然收錄 t 的文檔數為 n=m+k。當m很大時(shí),n也很大。 ,根據IDF公式得到的IDF值會(huì )很小,說(shuō)明條目t的分類(lèi)能力不強。但實(shí)際上,如果某個(gè)詞條在一類(lèi)文檔中頻繁出現,則說(shuō)明該詞條能夠很好地代表該類(lèi)文本的特征,應該賦予此類(lèi)詞條更高的權重,并選擇該詞條作為該類(lèi)文本的特征詞將其與其他類(lèi)型的文檔區分開(kāi)來(lái)。這就是 IDF 的不足之處。在給定文檔中,詞頻 (TF) 是指給定詞在文檔中出現的頻率。這個(gè)數字被標準化為術(shù)語(yǔ)計數,以防止它偏向長(cháng)文件。 (同一個(gè)詞在長(cháng)文件中的字數可能比在短文件中的字數高,不管這個(gè)詞是否重要。)
TFIDF算法是基于這樣一個(gè)假設,即對于區分文檔最有意義的詞應該是那些在整個(gè)文檔集合中經(jīng)常出現在文檔中而在其他文檔中不經(jīng)常出現的詞,所以如果特征空間坐標系取TF詞頻作為衡量標準,可以反映相似文本的特征。此外,考慮到詞區分不同類(lèi)別的能力,TFIDF 方法認為詞的文本頻率越小,其區分不同類(lèi)別文本的能力就越大。因此,引入了逆文本頻率IDF的概念,將TF與IDF的乘積作為特征空間坐標系的值度量,用于調整權重TF。調整權重的目的是突出重要的詞,抑制次要的詞。單詞。但本質(zhì)上IDF是一種試圖抑制噪聲的加權,簡(jiǎn)單地認為文本頻率低的詞更重要,文本頻率高的詞沒(méi)用是不完全正確的。 IDF結構簡(jiǎn)單,不能有效反映詞的重要性和特征詞的分布,不能很好地發(fā)揮調整權重的功能,因此TFIDF方法的準確率不是很高。
另外,單詞的位置信息并沒(méi)有反映在TFIDF算法中。對于 Web 文檔,權重計算方法應該反映 HTML 的結構特征。特征詞在不同的標簽中反映文章的內容不同,其權重的計算方法也應該不同。因此,應為網(wǎng)頁(yè)不同位置的特征詞分配不同的系數,然后乘以特征詞的詞頻,以提高文本表示的效果。
TF-IDF模型是搜索引擎等實(shí)際應用中廣泛使用的信息檢索模型,但對于TF-IDF模型一直存在各種疑問(wèn)。本文是針對信息檢索問(wèn)題的基于條件概率的 box-and-ball 模型。核心思想是將“查詢(xún)字符串q與文檔d的匹配度問(wèn)題”轉化為“查詢(xún)字符串q來(lái)自文檔d的條件概率問(wèn)題”。它從概率的角度定義了比 TF-IDF 模型表達的信息檢索問(wèn)題更明確的匹配目標。該模型可以結合TF-IDF模型,一方面解釋其合理性,另一方面發(fā)現其缺陷。此外,該模型還可以解釋 PageRank 的含義,以及為什么 PageRank 權重和 TF-IDF 權重之間存在乘積關(guān)系。
事實(shí):搜索引擎優(yōu)化?和俺本地化有什么關(guān)系?(一)
前言
如果你去一些LSP(Language Service Provider)的官網(wǎng),你會(huì )發(fā)現他們經(jīng)常在網(wǎng)站本地化業(yè)務(wù)下覆蓋一個(gè)叫“搜索引擎優(yōu)化”的服務(wù)。
T先生文章的這篇文章將簡(jiǎn)要介紹搜索引擎優(yōu)化(SEO)的概念及其與本地化的關(guān)系,然后介紹SEO的實(shí)現方法。 T先生預計用2-3次推送來(lái)介紹SEO的難點(diǎn)。
本文以科普為主。所有信息均來(lái)自互聯(lián)網(wǎng)采集、匯總、篩選和匯編。如有錯誤請后臺留言。感謝您的支持。
本地化的概念可以簡(jiǎn)單地解釋為“調整產(chǎn)品以適應目標區域用戶(hù)的使用習慣”。本地化的存在是為了服務(wù)于“最大化產(chǎn)品利潤”的目的。對于國際產(chǎn)品,本地化過(guò)程中最重要的一點(diǎn)(一) 是語(yǔ)言。
Common Sense Advisory (CSA) 和 Lionbridge 曾進(jìn)行過(guò)市場(chǎng)調查,發(fā)現 72.4% 的消費者傾向于購買(mǎi)以母語(yǔ)提供產(chǎn)品信息的產(chǎn)品。 72.1% 的消費者在購買(mǎi)產(chǎn)品時(shí)只瀏覽 網(wǎng)站 母語(yǔ)的內容。
本地化行業(yè)標準委員會(huì ) (LISA) 的一項研究還指出,公司每在本地化內容上花費 1 美元,就可以收回 25 美元。
上述兩項研究強烈支持內容本地化的重要性,但它們忽略了一點(diǎn):如何讓您精心本地化的產(chǎn)品被廣泛的潛在用戶(hù)群發(fā)現?
在互聯(lián)網(wǎng)時(shí)代,消費者查找信息的首選是使用搜索引擎。但是,搜索引擎不一定會(huì )立即在搜索結果的首頁(yè)上展示公司的產(chǎn)品。如果我們自己的產(chǎn)品不能出現在首頁(yè)怎么辦——換個(gè)角度看,作為消費者,我們需要多少耐心和時(shí)間來(lái)翻頁(yè)?
這就是需要搜索引擎優(yōu)化 (SEO) 的地方。這是一種通過(guò)提高在無(wú)償搜索引擎結果中的排名來(lái)增加網(wǎng)站流量和品牌曝光度的技術(shù)。
SEO 不僅依靠搜索引擎原理來(lái)提高排名,更重要的是,它研究人們在網(wǎng)上搜索什么,人們期望得到什么樣的答案,人們使用什么樣的 關(guān)鍵詞,以及想要獲得服務(wù)內容的人。如果了解所有這些,公司就可以定制他們的產(chǎn)品,以更好地匹配潛在用戶(hù)群的搜索習慣——理想情況下,用戶(hù)會(huì )在主頁(yè)上看到您為他們提供的內容。
除了了解用戶(hù)之外,您還需要了解機器。搜索引擎就像一個(gè)黑匣子——我們一直在使用它,卻不知道它是如何工作的。這一次,T先生盡量用簡(jiǎn)單的語(yǔ)言解釋清楚。
1 搜索引擎原理簡(jiǎn)介
搜索引擎的工作原理大致可以分為三個(gè)部分:
1.爬?。涸诰W(wǎng)上檢索內容,找到內容對應的代碼/URL。
2.索引:將爬取過(guò)程中找到的內容有序存儲;如果頁(yè)面在索引中,它將顯示為相關(guān)的搜索結果。
3.排名:按相關(guān)性降序排列搜索結果。
在抓取過(guò)程中,搜索引擎通過(guò)一組程序(稱(chēng)為“爬蟲(chóng)”或“蜘蛛”)發(fā)現/更新互聯(lián)網(wǎng)上的內容。所謂內容,可以指網(wǎng)頁(yè)、圖片、視頻、網(wǎng)頁(yè)附件——它們都有一個(gè)叫做統一資源定位器(Uniform Resource Locator,URL)的“ID號”。爬蟲(chóng)找到網(wǎng)頁(yè)內容和對應的URL并存儲,然后根據網(wǎng)頁(yè)內容中的其他URL跳轉到其他內容。
搜索引擎存儲的內容就像一本字典,索引是拼音或部首搜索。爬取的內容需要分析并存儲在索引數據庫中。專(zhuān)門(mén)分析數據庫中網(wǎng)頁(yè)的文本內容。
當用戶(hù)進(jìn)行搜索時(shí),搜索引擎會(huì )從索引數據庫中檢索高度相關(guān)的內容并對其進(jìn)行排名。這種基于相關(guān)性對搜索結果進(jìn)行排名的方法稱(chēng)為排名。一般認為網(wǎng)站的排名越高,搜索引擎認為網(wǎng)站與查詢(xún)的相關(guān)性越高。
1.1 告訴搜索引擎:“過(guò)來(lái)”
有時(shí)公司不希望某些頁(yè)面出現在搜索引擎中,例如頁(yè)內廣告、過(guò)期內容、私有內容等。網(wǎng)站開(kāi)發(fā)人員可以使用一些方法(例如robots.txt)來(lái)告訴爬蟲(chóng)不要爬取此類(lèi)頁(yè)面的內容。當然,公司在推廣產(chǎn)品時(shí),肯定希望產(chǎn)品描述頁(yè)面被搜索引擎抓取。因此,如果您希望內容被搜索引擎發(fā)現,首先要確保它可以被爬蟲(chóng)訪(fǎng)問(wèn)并且可以索引。否則,就像隱身一樣。
以谷歌為例,使用高級搜索方式“site:”可以返回一個(gè)站點(diǎn)在谷歌索引中的所有結果。通過(guò)谷歌搜索控制臺(Google Search Console)還可以實(shí)現更準確的索引結果查詢(xún)和監控。這其實(shí)是搜索引擎優(yōu)化的第一步:檢查你的網(wǎng)頁(yè)是否被索引,哪些被索引,重要頁(yè)面是否被索引。
抓取預算
抓取預算(crawl budget)可以理解為搜索引擎爬蟲(chóng)在離開(kāi)一個(gè)站??點(diǎn)之前抓取的平均網(wǎng)址數。合理的爬取預算可以讓爬蟲(chóng)爬取更重要的頁(yè)面,避免在無(wú)用的信息/頁(yè)面上浪費時(shí)間。同時(shí),這也意味著(zhù)用戶(hù)搜索時(shí)內容相關(guān)性可以更加集中。
用戶(hù)在構建網(wǎng)站時(shí)仍然需要通過(guò)HTML代碼來(lái)指導搜索引擎如何處理你的頁(yè)面。這樣的指令稱(chēng)為元指令或元標記。它們通常存在于 HTML 頁(yè)面的標簽中。有興趣的讀者可以自行了解。
1.2 搜索引擎:坐成一排吃水果水果
搜索引擎用于根據內容相關(guān)性對結果進(jìn)行排名的技術(shù)基于復雜的算法。谷歌幾乎每周甚至每隔幾天都會(huì )更新其排名算法。如今,機器學(xué)習和自然語(yǔ)言處理也在幫助搜索引擎獲得更好的排名。
RankBrain 是 Google 搜索引擎核心算法的機器學(xué)習組件。機器學(xué)習也是一種通過(guò)大量數據不斷改進(jìn)預測的技術(shù)。換句話(huà)說(shuō),它總是在學(xué)習。因為它一直在學(xué)習,所以搜索排名結果會(huì )不斷提高。
用戶(hù)與搜索結果的交互也會(huì )影響搜索引擎的改進(jìn)。一般有四個(gè)因素:
這四個(gè)指標構成參與度指標。
不同的搜索引擎需要自己的 SEO
不同的搜索引擎有不同的排名算法。理論上,國際產(chǎn)品的本地化需要針對不同的搜索引擎實(shí)施SEO策略,但谷歌占據了國際市場(chǎng)的絕大部分份額。在預算有限的情況下,產(chǎn)品優(yōu)先為谷歌做SEO。但放眼中國大陸,SEO需要瞄準百度。
讀完后,公司可以通過(guò)一些方法讓自己的網(wǎng)站被搜索引擎捕獲,檢測網(wǎng)站的流量。接下來(lái),T先生將介紹如何合理安排網(wǎng)站的內容,讓用戶(hù)在使用關(guān)鍵詞進(jìn)行搜索時(shí),網(wǎng)站能被搜索引擎準確捕捉并呈現給用戶(hù)- 滿(mǎn)意的內容。
2 關(guān)鍵詞研究
在搜索引擎輸入框中輸入關(guān)鍵詞,回車(chē),會(huì )呈現上千條結果,而我們往往只瀏覽前一兩頁(yè)的結果。
關(guān)鍵詞研究有助于產(chǎn)品本地化過(guò)程,提高對目標市場(chǎng)的了解,了解客戶(hù)如何搜索內容、服務(wù)和產(chǎn)品。一般關(guān)鍵詞研究主要是回答以下三個(gè)問(wèn)題:
人們搜索什么?
有多少人搜索過(guò)它?
想要的信息如何呈現?
在我們進(jìn)行關(guān)鍵詞 研究以?xún)?yōu)化搜索結果之前,我們需要知道的第一件事是,我們的產(chǎn)品是做什么的?我們的客戶(hù)是什么樣的?我們的目標是什么(高點(diǎn)擊率?高銷(xiāo)量?高下載量?)?
例如,美國西雅圖的一家素食無(wú)麩質(zhì)“健康”冰淇淋連鎖店計劃進(jìn)行 SEO。需要考慮的關(guān)鍵點(diǎn)是什么?
人們在尋找什么冰淇淋、甜點(diǎn)、小吃?
誰(shuí)在搜索這些產(chǎn)品?
人們什么時(shí)候在尋找冰淇淋、小吃、甜點(diǎn)等?
人們如何找到冰淇淋?
人們?yōu)槭裁匆獙ふ冶苛埽?br /> 潛在客戶(hù)在哪里 - 本地?全國?全球?
雖然產(chǎn)品制造商有 10,000 種方式來(lái)宣傳他們的產(chǎn)品,但重要的是客戶(hù)的搜索方式。有一個(gè)用于分析 關(guān)鍵詞 搜索的工具。輸入一個(gè)關(guān)鍵詞后,會(huì )給出幾個(gè)相似的關(guān)鍵詞/短語(yǔ),并呈現它們的月平均搜索量變化圖。
2.1 關(guān)鍵詞,長(cháng)尾,季節和地區
數量關(guān)系
關(guān)鍵詞 和平均每月搜索頻率符合長(cháng)尾理論。 20% 的 關(guān)鍵詞 每月的搜索量可以達到 10 萬(wàn)次或更多,而其余 80% 的 關(guān)鍵詞(它們是長(cháng)尾)的平均每月搜索量可能不到 1 萬(wàn)次。因此,專(zhuān)注于幾個(gè)關(guān)鍵詞進(jìn)行內容優(yōu)化是一個(gè)合理的選擇。
同時(shí),大廠(chǎng)已經(jīng)占據了最高頻率關(guān)鍵詞。作為小型企業(yè)/初創(chuàng )公司,選擇頻率稍低的關(guān)鍵詞/短語(yǔ)會(huì )獲得更好的收益效果。例如,一家小型冰淇淋店完全有理由放棄冰淇淋等高頻詞,并投資于更具體的關(guān)鍵詞如有機牛奶和水果冰淇淋進(jìn)行優(yōu)化。
季節和地區也可能影響 關(guān)鍵詞 研究。例如,《送給女朋友的圣誕禮物》的檢索量在10-12月勢必會(huì )大幅增加。提前計劃更新內容 網(wǎng)站 可以讓企業(yè)搶占先機。谷歌的關(guān)鍵詞分析工具Google Keyword Planner,可以細化到市、省、國家三級,讓開(kāi)發(fā)者進(jìn)行關(guān)鍵詞研究。例如,半掛車(chē)在德克薩斯更常被稱(chēng)為“大型鉆機”,在紐約被稱(chēng)為“拖拉機拖車(chē)”,顯示了術(shù)語(yǔ)對 SEO 策略的影響。
2.2 消費者目的
谷歌將用戶(hù)的搜索行為概括為大致四種,分別對應用戶(hù)的各種檢索目的,即:
當用戶(hù)把目的放在輸入框的搜索格式上時(shí),谷歌總結了以下五種:
根據以上幾類(lèi),可以繪制出更精細的用戶(hù)意圖,進(jìn)而布局SEO策略。自搜索引擎誕生以來(lái),全球所有互聯(lián)網(wǎng)用戶(hù)的搜索行為已經(jīng)進(jìn)行了數萬(wàn)億次。 Google 可以依靠這些數據提供幾乎完美的搜索結果,商家也可以使用這些數據進(jìn)行“完美”的 SEO。
本節中的信息取自 Google 質(zhì)量評估指南:
本文文章T先生分兩章簡(jiǎn)單介紹了SEO的準備工作,下一篇文章與SEO實(shí)踐相關(guān):通過(guò)安排網(wǎng)頁(yè)內容和代碼設計進(jìn)行SEO 請期待它。謝謝~ 查看全部
核心方法:搜索引擎算法中TF-IDF是什么意思
真正掌握seo優(yōu)化技術(shù)的唯一途徑是充分了解搜索引擎算法,所以在學(xué)習seo技術(shù)之初,要不斷地從淺入深地構建這方面更專(zhuān)業(yè)的認知。更深。在seo基礎學(xué)習中,如果對搜索引擎不了解和了解,確實(shí)是不可能通過(guò)純白帽seo完成一個(gè)網(wǎng)站優(yōu)化的。今天wp自學(xué)筆記和小伙伴們分享一下TF-IDF在搜索引擎算法中是什么意思?以下內容轉載自百度百科。

TF-IDF(詞頻-逆文檔頻率)是一種常用的信息檢索和數據挖掘加權技術(shù)。 TF 是詞頻,IDF 是逆文檔頻率。 TF-IDF 是一種統計方法,用于評估單詞對文檔集或語(yǔ)料庫中的一個(gè)文檔的重要性。一個(gè)詞的重要性與它在文檔中出現的次數成正比,但與它在語(yǔ)料庫中出現的頻率成反比。搜索引擎經(jīng)常應用各種形式的 TF-IDF 加權作為文檔和用戶(hù)查詢(xún)之間相關(guān)程度的度量或評級。除了 TF-IDF,互聯(lián)網(wǎng)上的搜索引擎還使用基于鏈接分析的排名方法來(lái)確定文檔在搜索結果中出現的順序。
TFIDF的主要思想是:如果一個(gè)詞或詞組在一個(gè)文章中頻繁出現TF,而在其他文章中很少出現,則認為這個(gè)詞或詞組有Good category辨別能力,適合分類(lèi)。 TFIDF其實(shí)就是:TF * IDF,TF Term Frequency,IDF逆文檔頻率。 TF 表示詞條在文檔 d 中出現的頻率。 IDF的主要思想是:如果收錄term t的文檔較少,即n越小,IDF越大,說(shuō)明term t有很好的分類(lèi)能力。如果某類(lèi)文檔 C 中收錄詞條 t 的文檔數為 m,其他類(lèi)型中收錄 t 的文檔總數為 k,顯然收錄 t 的文檔數為 n=m+k。當m很大時(shí),n也很大。 ,根據IDF公式得到的IDF值會(huì )很小,說(shuō)明條目t的分類(lèi)能力不強。但實(shí)際上,如果某個(gè)詞條在一類(lèi)文檔中頻繁出現,則說(shuō)明該詞條能夠很好地代表該類(lèi)文本的特征,應該賦予此類(lèi)詞條更高的權重,并選擇該詞條作為該類(lèi)文本的特征詞將其與其他類(lèi)型的文檔區分開(kāi)來(lái)。這就是 IDF 的不足之處。在給定文檔中,詞頻 (TF) 是指給定詞在文檔中出現的頻率。這個(gè)數字被標準化為術(shù)語(yǔ)計數,以防止它偏向長(cháng)文件。 (同一個(gè)詞在長(cháng)文件中的字數可能比在短文件中的字數高,不管這個(gè)詞是否重要。)
TFIDF算法是基于這樣一個(gè)假設,即對于區分文檔最有意義的詞應該是那些在整個(gè)文檔集合中經(jīng)常出現在文檔中而在其他文檔中不經(jīng)常出現的詞,所以如果特征空間坐標系取TF詞頻作為衡量標準,可以反映相似文本的特征。此外,考慮到詞區分不同類(lèi)別的能力,TFIDF 方法認為詞的文本頻率越小,其區分不同類(lèi)別文本的能力就越大。因此,引入了逆文本頻率IDF的概念,將TF與IDF的乘積作為特征空間坐標系的值度量,用于調整權重TF。調整權重的目的是突出重要的詞,抑制次要的詞。單詞。但本質(zhì)上IDF是一種試圖抑制噪聲的加權,簡(jiǎn)單地認為文本頻率低的詞更重要,文本頻率高的詞沒(méi)用是不完全正確的。 IDF結構簡(jiǎn)單,不能有效反映詞的重要性和特征詞的分布,不能很好地發(fā)揮調整權重的功能,因此TFIDF方法的準確率不是很高。

另外,單詞的位置信息并沒(méi)有反映在TFIDF算法中。對于 Web 文檔,權重計算方法應該反映 HTML 的結構特征。特征詞在不同的標簽中反映文章的內容不同,其權重的計算方法也應該不同。因此,應為網(wǎng)頁(yè)不同位置的特征詞分配不同的系數,然后乘以特征詞的詞頻,以提高文本表示的效果。
TF-IDF模型是搜索引擎等實(shí)際應用中廣泛使用的信息檢索模型,但對于TF-IDF模型一直存在各種疑問(wèn)。本文是針對信息檢索問(wèn)題的基于條件概率的 box-and-ball 模型。核心思想是將“查詢(xún)字符串q與文檔d的匹配度問(wèn)題”轉化為“查詢(xún)字符串q來(lái)自文檔d的條件概率問(wèn)題”。它從概率的角度定義了比 TF-IDF 模型表達的信息檢索問(wèn)題更明確的匹配目標。該模型可以結合TF-IDF模型,一方面解釋其合理性,另一方面發(fā)現其缺陷。此外,該模型還可以解釋 PageRank 的含義,以及為什么 PageRank 權重和 TF-IDF 權重之間存在乘積關(guān)系。
事實(shí):搜索引擎優(yōu)化?和俺本地化有什么關(guān)系?(一)
前言
如果你去一些LSP(Language Service Provider)的官網(wǎng),你會(huì )發(fā)現他們經(jīng)常在網(wǎng)站本地化業(yè)務(wù)下覆蓋一個(gè)叫“搜索引擎優(yōu)化”的服務(wù)。
T先生文章的這篇文章將簡(jiǎn)要介紹搜索引擎優(yōu)化(SEO)的概念及其與本地化的關(guān)系,然后介紹SEO的實(shí)現方法。 T先生預計用2-3次推送來(lái)介紹SEO的難點(diǎn)。
本文以科普為主。所有信息均來(lái)自互聯(lián)網(wǎng)采集、匯總、篩選和匯編。如有錯誤請后臺留言。感謝您的支持。
本地化的概念可以簡(jiǎn)單地解釋為“調整產(chǎn)品以適應目標區域用戶(hù)的使用習慣”。本地化的存在是為了服務(wù)于“最大化產(chǎn)品利潤”的目的。對于國際產(chǎn)品,本地化過(guò)程中最重要的一點(diǎn)(一) 是語(yǔ)言。
Common Sense Advisory (CSA) 和 Lionbridge 曾進(jìn)行過(guò)市場(chǎng)調查,發(fā)現 72.4% 的消費者傾向于購買(mǎi)以母語(yǔ)提供產(chǎn)品信息的產(chǎn)品。 72.1% 的消費者在購買(mǎi)產(chǎn)品時(shí)只瀏覽 網(wǎng)站 母語(yǔ)的內容。
本地化行業(yè)標準委員會(huì ) (LISA) 的一項研究還指出,公司每在本地化內容上花費 1 美元,就可以收回 25 美元。
上述兩項研究強烈支持內容本地化的重要性,但它們忽略了一點(diǎn):如何讓您精心本地化的產(chǎn)品被廣泛的潛在用戶(hù)群發(fā)現?
在互聯(lián)網(wǎng)時(shí)代,消費者查找信息的首選是使用搜索引擎。但是,搜索引擎不一定會(huì )立即在搜索結果的首頁(yè)上展示公司的產(chǎn)品。如果我們自己的產(chǎn)品不能出現在首頁(yè)怎么辦——換個(gè)角度看,作為消費者,我們需要多少耐心和時(shí)間來(lái)翻頁(yè)?
這就是需要搜索引擎優(yōu)化 (SEO) 的地方。這是一種通過(guò)提高在無(wú)償搜索引擎結果中的排名來(lái)增加網(wǎng)站流量和品牌曝光度的技術(shù)。
SEO 不僅依靠搜索引擎原理來(lái)提高排名,更重要的是,它研究人們在網(wǎng)上搜索什么,人們期望得到什么樣的答案,人們使用什么樣的 關(guān)鍵詞,以及想要獲得服務(wù)內容的人。如果了解所有這些,公司就可以定制他們的產(chǎn)品,以更好地匹配潛在用戶(hù)群的搜索習慣——理想情況下,用戶(hù)會(huì )在主頁(yè)上看到您為他們提供的內容。
除了了解用戶(hù)之外,您還需要了解機器。搜索引擎就像一個(gè)黑匣子——我們一直在使用它,卻不知道它是如何工作的。這一次,T先生盡量用簡(jiǎn)單的語(yǔ)言解釋清楚。
1 搜索引擎原理簡(jiǎn)介
搜索引擎的工作原理大致可以分為三個(gè)部分:
1.爬?。涸诰W(wǎng)上檢索內容,找到內容對應的代碼/URL。
2.索引:將爬取過(guò)程中找到的內容有序存儲;如果頁(yè)面在索引中,它將顯示為相關(guān)的搜索結果。
3.排名:按相關(guān)性降序排列搜索結果。
在抓取過(guò)程中,搜索引擎通過(guò)一組程序(稱(chēng)為“爬蟲(chóng)”或“蜘蛛”)發(fā)現/更新互聯(lián)網(wǎng)上的內容。所謂內容,可以指網(wǎng)頁(yè)、圖片、視頻、網(wǎng)頁(yè)附件——它們都有一個(gè)叫做統一資源定位器(Uniform Resource Locator,URL)的“ID號”。爬蟲(chóng)找到網(wǎng)頁(yè)內容和對應的URL并存儲,然后根據網(wǎng)頁(yè)內容中的其他URL跳轉到其他內容。
搜索引擎存儲的內容就像一本字典,索引是拼音或部首搜索。爬取的內容需要分析并存儲在索引數據庫中。專(zhuān)門(mén)分析數據庫中網(wǎng)頁(yè)的文本內容。
當用戶(hù)進(jìn)行搜索時(shí),搜索引擎會(huì )從索引數據庫中檢索高度相關(guān)的內容并對其進(jìn)行排名。這種基于相關(guān)性對搜索結果進(jìn)行排名的方法稱(chēng)為排名。一般認為網(wǎng)站的排名越高,搜索引擎認為網(wǎng)站與查詢(xún)的相關(guān)性越高。

1.1 告訴搜索引擎:“過(guò)來(lái)”
有時(shí)公司不希望某些頁(yè)面出現在搜索引擎中,例如頁(yè)內廣告、過(guò)期內容、私有內容等。網(wǎng)站開(kāi)發(fā)人員可以使用一些方法(例如robots.txt)來(lái)告訴爬蟲(chóng)不要爬取此類(lèi)頁(yè)面的內容。當然,公司在推廣產(chǎn)品時(shí),肯定希望產(chǎn)品描述頁(yè)面被搜索引擎抓取。因此,如果您希望內容被搜索引擎發(fā)現,首先要確保它可以被爬蟲(chóng)訪(fǎng)問(wèn)并且可以索引。否則,就像隱身一樣。
以谷歌為例,使用高級搜索方式“site:”可以返回一個(gè)站點(diǎn)在谷歌索引中的所有結果。通過(guò)谷歌搜索控制臺(Google Search Console)還可以實(shí)現更準確的索引結果查詢(xún)和監控。這其實(shí)是搜索引擎優(yōu)化的第一步:檢查你的網(wǎng)頁(yè)是否被索引,哪些被索引,重要頁(yè)面是否被索引。
抓取預算
抓取預算(crawl budget)可以理解為搜索引擎爬蟲(chóng)在離開(kāi)一個(gè)站??點(diǎn)之前抓取的平均網(wǎng)址數。合理的爬取預算可以讓爬蟲(chóng)爬取更重要的頁(yè)面,避免在無(wú)用的信息/頁(yè)面上浪費時(shí)間。同時(shí),這也意味著(zhù)用戶(hù)搜索時(shí)內容相關(guān)性可以更加集中。
用戶(hù)在構建網(wǎng)站時(shí)仍然需要通過(guò)HTML代碼來(lái)指導搜索引擎如何處理你的頁(yè)面。這樣的指令稱(chēng)為元指令或元標記。它們通常存在于 HTML 頁(yè)面的標簽中。有興趣的讀者可以自行了解。
1.2 搜索引擎:坐成一排吃水果水果
搜索引擎用于根據內容相關(guān)性對結果進(jìn)行排名的技術(shù)基于復雜的算法。谷歌幾乎每周甚至每隔幾天都會(huì )更新其排名算法。如今,機器學(xué)習和自然語(yǔ)言處理也在幫助搜索引擎獲得更好的排名。
RankBrain 是 Google 搜索引擎核心算法的機器學(xué)習組件。機器學(xué)習也是一種通過(guò)大量數據不斷改進(jìn)預測的技術(shù)。換句話(huà)說(shuō),它總是在學(xué)習。因為它一直在學(xué)習,所以搜索排名結果會(huì )不斷提高。
用戶(hù)與搜索結果的交互也會(huì )影響搜索引擎的改進(jìn)。一般有四個(gè)因素:
這四個(gè)指標構成參與度指標。
不同的搜索引擎需要自己的 SEO
不同的搜索引擎有不同的排名算法。理論上,國際產(chǎn)品的本地化需要針對不同的搜索引擎實(shí)施SEO策略,但谷歌占據了國際市場(chǎng)的絕大部分份額。在預算有限的情況下,產(chǎn)品優(yōu)先為谷歌做SEO。但放眼中國大陸,SEO需要瞄準百度。
讀完后,公司可以通過(guò)一些方法讓自己的網(wǎng)站被搜索引擎捕獲,檢測網(wǎng)站的流量。接下來(lái),T先生將介紹如何合理安排網(wǎng)站的內容,讓用戶(hù)在使用關(guān)鍵詞進(jìn)行搜索時(shí),網(wǎng)站能被搜索引擎準確捕捉并呈現給用戶(hù)- 滿(mǎn)意的內容。
2 關(guān)鍵詞研究
在搜索引擎輸入框中輸入關(guān)鍵詞,回車(chē),會(huì )呈現上千條結果,而我們往往只瀏覽前一兩頁(yè)的結果。
關(guān)鍵詞研究有助于產(chǎn)品本地化過(guò)程,提高對目標市場(chǎng)的了解,了解客戶(hù)如何搜索內容、服務(wù)和產(chǎn)品。一般關(guān)鍵詞研究主要是回答以下三個(gè)問(wèn)題:
人們搜索什么?
有多少人搜索過(guò)它?
想要的信息如何呈現?

在我們進(jìn)行關(guān)鍵詞 研究以?xún)?yōu)化搜索結果之前,我們需要知道的第一件事是,我們的產(chǎn)品是做什么的?我們的客戶(hù)是什么樣的?我們的目標是什么(高點(diǎn)擊率?高銷(xiāo)量?高下載量?)?
例如,美國西雅圖的一家素食無(wú)麩質(zhì)“健康”冰淇淋連鎖店計劃進(jìn)行 SEO。需要考慮的關(guān)鍵點(diǎn)是什么?
人們在尋找什么冰淇淋、甜點(diǎn)、小吃?
誰(shuí)在搜索這些產(chǎn)品?
人們什么時(shí)候在尋找冰淇淋、小吃、甜點(diǎn)等?
人們如何找到冰淇淋?
人們?yōu)槭裁匆獙ふ冶苛埽?br /> 潛在客戶(hù)在哪里 - 本地?全國?全球?
雖然產(chǎn)品制造商有 10,000 種方式來(lái)宣傳他們的產(chǎn)品,但重要的是客戶(hù)的搜索方式。有一個(gè)用于分析 關(guān)鍵詞 搜索的工具。輸入一個(gè)關(guān)鍵詞后,會(huì )給出幾個(gè)相似的關(guān)鍵詞/短語(yǔ),并呈現它們的月平均搜索量變化圖。
2.1 關(guān)鍵詞,長(cháng)尾,季節和地區
數量關(guān)系
關(guān)鍵詞 和平均每月搜索頻率符合長(cháng)尾理論。 20% 的 關(guān)鍵詞 每月的搜索量可以達到 10 萬(wàn)次或更多,而其余 80% 的 關(guān)鍵詞(它們是長(cháng)尾)的平均每月搜索量可能不到 1 萬(wàn)次。因此,專(zhuān)注于幾個(gè)關(guān)鍵詞進(jìn)行內容優(yōu)化是一個(gè)合理的選擇。
同時(shí),大廠(chǎng)已經(jīng)占據了最高頻率關(guān)鍵詞。作為小型企業(yè)/初創(chuàng )公司,選擇頻率稍低的關(guān)鍵詞/短語(yǔ)會(huì )獲得更好的收益效果。例如,一家小型冰淇淋店完全有理由放棄冰淇淋等高頻詞,并投資于更具體的關(guān)鍵詞如有機牛奶和水果冰淇淋進(jìn)行優(yōu)化。
季節和地區也可能影響 關(guān)鍵詞 研究。例如,《送給女朋友的圣誕禮物》的檢索量在10-12月勢必會(huì )大幅增加。提前計劃更新內容 網(wǎng)站 可以讓企業(yè)搶占先機。谷歌的關(guān)鍵詞分析工具Google Keyword Planner,可以細化到市、省、國家三級,讓開(kāi)發(fā)者進(jìn)行關(guān)鍵詞研究。例如,半掛車(chē)在德克薩斯更常被稱(chēng)為“大型鉆機”,在紐約被稱(chēng)為“拖拉機拖車(chē)”,顯示了術(shù)語(yǔ)對 SEO 策略的影響。
2.2 消費者目的
谷歌將用戶(hù)的搜索行為概括為大致四種,分別對應用戶(hù)的各種檢索目的,即:
當用戶(hù)把目的放在輸入框的搜索格式上時(shí),谷歌總結了以下五種:
根據以上幾類(lèi),可以繪制出更精細的用戶(hù)意圖,進(jìn)而布局SEO策略。自搜索引擎誕生以來(lái),全球所有互聯(lián)網(wǎng)用戶(hù)的搜索行為已經(jīng)進(jìn)行了數萬(wàn)億次。 Google 可以依靠這些數據提供幾乎完美的搜索結果,商家也可以使用這些數據進(jìn)行“完美”的 SEO。
本節中的信息取自 Google 質(zhì)量評估指南:
本文文章T先生分兩章簡(jiǎn)單介紹了SEO的準備工作,下一篇文章與SEO實(shí)踐相關(guān):通過(guò)安排網(wǎng)頁(yè)內容和代碼設計進(jìn)行SEO 請期待它。謝謝~
搜索引擎主題模型優(yōu)化,關(guān)鍵詞排名,精準引流!
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 161 次瀏覽 ? 2022-09-10 16:23
搜索引擎主題模型優(yōu)化,關(guān)鍵詞排名,搜索引擎精準引流,
1、關(guān)鍵詞大面積堆砌,類(lèi)似道瓊斯3000多個(gè)詞,創(chuàng )業(yè)板2000多個(gè)詞,筆者至今見(jiàn)過(guò)1/3這么堆砌的,關(guān)鍵詞大面積堆砌的,后期基本都會(huì )被屏蔽。
2、專(zhuān)業(yè)術(shù)語(yǔ)含糊不清,直接會(huì )導致流量推后。比如$mbo,筆者見(jiàn)過(guò)的用的最多的一次是不是$mbo$,
3、關(guān)鍵詞大面積相似優(yōu)化,這個(gè)最容易被屏蔽.如何基本分清專(zhuān)業(yè)術(shù)語(yǔ)的相似度?一般來(lái)說(shuō),高度相似,如$mbo$,$mbo$這種效果會(huì )更明顯,
4、關(guān)鍵詞的大面積模糊性?xún)?yōu)化,也容易被屏蔽.比如08年鋼鐵行業(yè)熱門(mén)的時(shí)候,基本一個(gè)詞使用5%的專(zhuān)業(yè)術(shù)語(yǔ),基本都能滿(mǎn)足用戶(hù)需求,可用,像后來(lái)09年,14年期間鋼鐵行業(yè)市場(chǎng)低迷,就算熱門(mén)關(guān)鍵詞,專(zhuān)業(yè)術(shù)語(yǔ)都設置很高比例。
5、關(guān)鍵詞大面積相似優(yōu)化,關(guān)鍵詞堆砌,基本上后期就沒(méi)有流量推進(jìn)效果了,因為關(guān)鍵詞出現太多,搜索引擎會(huì )反感你的關(guān)鍵詞。所以基本不建議使用。
6、兩個(gè)關(guān)鍵詞差距過(guò)大,很多人寫(xiě)廣告文案,肯定要全篇不同的關(guān)鍵詞,是這樣嗎?筆者認為優(yōu)化關(guān)鍵詞最好控制在20個(gè)左右,這個(gè)關(guān)鍵詞一定要設置的有爭議性,不要隨意使用一些熱門(mén)關(guān)鍵詞,因為沒(méi)有什么用。
7、關(guān)鍵詞拼貼優(yōu)化大面積拼貼優(yōu)化,直接影響搜索引擎主題模型排名位置,基本上40%就over了。
8、網(wǎng)站越發(fā)布完整,頁(yè)面越詳細,關(guān)鍵詞排名靠前的可能性就越高,但是這需要一定的工作量,用的好,可以獲得極大收益。
9、大面積堆砌關(guān)鍵詞,可以更好的起到關(guān)鍵詞堆砌的效果,建議加上#.#..#標識,基本的關(guān)鍵詞堆砌可以起到效果。
1
0、大面積堆砌關(guān)鍵詞,是很難起到效果的,基本上得不償失,基本上你的網(wǎng)站做的非常完整,頁(yè)面又詳細,并且優(yōu)化非常好,但是關(guān)鍵詞堆砌沒(méi)有那么容易實(shí)現。
1、大面積堆砌關(guān)鍵詞,可以通過(guò)文章內容進(jìn)行過(guò)濾處理,但是這種方法,更好實(shí)現,通過(guò)筆者與多家企業(yè)測試總結,隨便發(fā)布內容測試即可做,可是大面積堆砌,
2、大面積堆砌關(guān)鍵詞,更好的一種,但是現在大多數人把大面積堆砌關(guān)鍵詞作為seo中拼接關(guān)鍵詞的一種方法,基本上沒(méi)有什么用處。
如何關(guān)鍵詞提升--獲取高質(zhì)量的流量無(wú)論是使用搜索引擎優(yōu)化的核心,還是核心競爭力的本質(zhì),核心競爭力要獲取高質(zhì)量的流量,
1、提升轉化,
2、增加銷(xiāo)售額,
3、增加品牌知名度,
4、增加客戶(hù)體驗感,
5、提升用戶(hù)滿(mǎn)意度,以便以后的客戶(hù)拓展。 查看全部
搜索引擎主題模型優(yōu)化,關(guān)鍵詞排名,精準引流!
搜索引擎主題模型優(yōu)化,關(guān)鍵詞排名,搜索引擎精準引流,
1、關(guān)鍵詞大面積堆砌,類(lèi)似道瓊斯3000多個(gè)詞,創(chuàng )業(yè)板2000多個(gè)詞,筆者至今見(jiàn)過(guò)1/3這么堆砌的,關(guān)鍵詞大面積堆砌的,后期基本都會(huì )被屏蔽。
2、專(zhuān)業(yè)術(shù)語(yǔ)含糊不清,直接會(huì )導致流量推后。比如$mbo,筆者見(jiàn)過(guò)的用的最多的一次是不是$mbo$,
3、關(guān)鍵詞大面積相似優(yōu)化,這個(gè)最容易被屏蔽.如何基本分清專(zhuān)業(yè)術(shù)語(yǔ)的相似度?一般來(lái)說(shuō),高度相似,如$mbo$,$mbo$這種效果會(huì )更明顯,
4、關(guān)鍵詞的大面積模糊性?xún)?yōu)化,也容易被屏蔽.比如08年鋼鐵行業(yè)熱門(mén)的時(shí)候,基本一個(gè)詞使用5%的專(zhuān)業(yè)術(shù)語(yǔ),基本都能滿(mǎn)足用戶(hù)需求,可用,像后來(lái)09年,14年期間鋼鐵行業(yè)市場(chǎng)低迷,就算熱門(mén)關(guān)鍵詞,專(zhuān)業(yè)術(shù)語(yǔ)都設置很高比例。
5、關(guān)鍵詞大面積相似優(yōu)化,關(guān)鍵詞堆砌,基本上后期就沒(méi)有流量推進(jìn)效果了,因為關(guān)鍵詞出現太多,搜索引擎會(huì )反感你的關(guān)鍵詞。所以基本不建議使用。

6、兩個(gè)關(guān)鍵詞差距過(guò)大,很多人寫(xiě)廣告文案,肯定要全篇不同的關(guān)鍵詞,是這樣嗎?筆者認為優(yōu)化關(guān)鍵詞最好控制在20個(gè)左右,這個(gè)關(guān)鍵詞一定要設置的有爭議性,不要隨意使用一些熱門(mén)關(guān)鍵詞,因為沒(méi)有什么用。
7、關(guān)鍵詞拼貼優(yōu)化大面積拼貼優(yōu)化,直接影響搜索引擎主題模型排名位置,基本上40%就over了。
8、網(wǎng)站越發(fā)布完整,頁(yè)面越詳細,關(guān)鍵詞排名靠前的可能性就越高,但是這需要一定的工作量,用的好,可以獲得極大收益。
9、大面積堆砌關(guān)鍵詞,可以更好的起到關(guān)鍵詞堆砌的效果,建議加上#.#..#標識,基本的關(guān)鍵詞堆砌可以起到效果。
1
0、大面積堆砌關(guān)鍵詞,是很難起到效果的,基本上得不償失,基本上你的網(wǎng)站做的非常完整,頁(yè)面又詳細,并且優(yōu)化非常好,但是關(guān)鍵詞堆砌沒(méi)有那么容易實(shí)現。
1、大面積堆砌關(guān)鍵詞,可以通過(guò)文章內容進(jìn)行過(guò)濾處理,但是這種方法,更好實(shí)現,通過(guò)筆者與多家企業(yè)測試總結,隨便發(fā)布內容測試即可做,可是大面積堆砌,

2、大面積堆砌關(guān)鍵詞,更好的一種,但是現在大多數人把大面積堆砌關(guān)鍵詞作為seo中拼接關(guān)鍵詞的一種方法,基本上沒(méi)有什么用處。
如何關(guān)鍵詞提升--獲取高質(zhì)量的流量無(wú)論是使用搜索引擎優(yōu)化的核心,還是核心競爭力的本質(zhì),核心競爭力要獲取高質(zhì)量的流量,
1、提升轉化,
2、增加銷(xiāo)售額,
3、增加品牌知名度,
4、增加客戶(hù)體驗感,
5、提升用戶(hù)滿(mǎn)意度,以便以后的客戶(hù)拓展。
搜索引擎主題模型優(yōu)化有以下幾個(gè)優(yōu)勢:優(yōu)化
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 122 次瀏覽 ? 2022-08-27 23:04
搜索引擎主題模型優(yōu)化作為每天搜索引擎站內優(yōu)化的最后一步,主要起到提升蜘蛛爬行體驗以及從搜索結果中抓取更多信息,或者進(jìn)一步清除spam帶來(lái)的流量的功能,提升全站最終的收錄和排名。主題模型優(yōu)化有以下幾個(gè)優(yōu)勢:首先,從長(cháng)遠看,搜索引擎認為(雖然大部分搜索引擎未必非常重視主題模型優(yōu)化,但是本文討論的算法有可能實(shí)現)即使降低這一算法的落地實(shí)現,通過(guò)應用到其他類(lèi)型的模型中去,搜索引擎也會(huì )給以?xún)?yōu)化搜索整站提供更大的提升空間。
其次,搜索引擎大規模存在很多手段來(lái)獲取搜索結果頁(yè)面信息,主題模型模型必須運用得當,才能使得某些頁(yè)面在數量上得到提升,站內的一些很小的功能可能都會(huì )影響整個(gè)搜索結果頁(yè)面收錄結果,搜索引擎根據影響程度把結果優(yōu)化到合適的位置。同時(shí),考慮到整個(gè)搜索結果頁(yè)面后可能被搜索結果,搜索引擎可能會(huì )發(fā)現類(lèi)似“引擎不知道帶來(lái)了多少流量但是卻無(wú)意識下降了自己在結果頁(yè)面中的相關(guān)頁(yè)面展示”的情況,降低主題模型優(yōu)化后帶來(lái)的一些不利影響。
最后,搜索引擎根據算法提示,通過(guò)其他的手段達到提升整站優(yōu)化,那么整站優(yōu)化被動(dòng)優(yōu)化。目前,如果要優(yōu)化搜索結果頁(yè)面,首先要選擇搜索引擎主題模型優(yōu)化,通過(guò)搜索引擎關(guān)鍵詞提示和頁(yè)面主題文本字符覆蓋等,通過(guò)站內主題優(yōu)化加速整個(gè)站內的內容結構的提升,簡(jiǎn)要地說(shuō)即:“內容結構優(yōu)化+高質(zhì)量外鏈+結構優(yōu)化+外鏈優(yōu)化”。關(guān)于搜索引擎主題模型優(yōu)化,更多專(zhuān)業(yè)知識可以關(guān)注我微信公眾號(pco_commu),一起交流。
搜索引擎優(yōu)化模型模型優(yōu)化是整站優(yōu)化的重要環(huán)節,很多同學(xué)總是會(huì )卡在這個(gè)關(guān)鍵環(huán)節上,而不能將之做好,小編總結了以下幾個(gè)問(wèn)題:(。
1)了解主題模型優(yōu)化的優(yōu)勢與弊端。主題模型優(yōu)化是站內優(yōu)化的最后一步,其優(yōu)勢為搜索引擎更好的抓取、提高全站搜索結果頁(yè)面收錄,通過(guò)在搜索結果中加入與網(wǎng)站主題相關(guān)的文本,能夠起到提升關(guān)鍵詞與文本文本質(zhì)量的目的,并且能夠為搜索引擎降低提供更多的蜘蛛爬行體驗,提升全站收錄排名。主題模型優(yōu)化弊端是,加入搜索結果頁(yè)面信息后,搜索引擎會(huì )認為,你的網(wǎng)站是做了主題模型優(yōu)化的,這是搜索引擎認為默認的網(wǎng)站,可能會(huì )降低全站搜索引擎對于你網(wǎng)站的收錄,雖然這個(gè)風(fēng)險低,但是風(fēng)險可控。(。
2)了解主題模型優(yōu)化的首選提升方式。關(guān)于主題模型優(yōu)化,首選是直接抓取網(wǎng)站中搜索結果頁(yè)面,未來(lái)的seo目標是上升。
3)掌握主題模型優(yōu)化的主要流程。主題模型優(yōu)化的主要流程是,頁(yè)面上加入相關(guān)頁(yè)面文本,通過(guò)搜索引擎搜索關(guān)鍵詞和收錄進(jìn)行展示,同時(shí)優(yōu)化搜索關(guān)鍵詞。
4)主題模 查看全部
搜索引擎主題模型優(yōu)化有以下幾個(gè)優(yōu)勢:優(yōu)化
搜索引擎主題模型優(yōu)化作為每天搜索引擎站內優(yōu)化的最后一步,主要起到提升蜘蛛爬行體驗以及從搜索結果中抓取更多信息,或者進(jìn)一步清除spam帶來(lái)的流量的功能,提升全站最終的收錄和排名。主題模型優(yōu)化有以下幾個(gè)優(yōu)勢:首先,從長(cháng)遠看,搜索引擎認為(雖然大部分搜索引擎未必非常重視主題模型優(yōu)化,但是本文討論的算法有可能實(shí)現)即使降低這一算法的落地實(shí)現,通過(guò)應用到其他類(lèi)型的模型中去,搜索引擎也會(huì )給以?xún)?yōu)化搜索整站提供更大的提升空間。
其次,搜索引擎大規模存在很多手段來(lái)獲取搜索結果頁(yè)面信息,主題模型模型必須運用得當,才能使得某些頁(yè)面在數量上得到提升,站內的一些很小的功能可能都會(huì )影響整個(gè)搜索結果頁(yè)面收錄結果,搜索引擎根據影響程度把結果優(yōu)化到合適的位置。同時(shí),考慮到整個(gè)搜索結果頁(yè)面后可能被搜索結果,搜索引擎可能會(huì )發(fā)現類(lèi)似“引擎不知道帶來(lái)了多少流量但是卻無(wú)意識下降了自己在結果頁(yè)面中的相關(guān)頁(yè)面展示”的情況,降低主題模型優(yōu)化后帶來(lái)的一些不利影響。

最后,搜索引擎根據算法提示,通過(guò)其他的手段達到提升整站優(yōu)化,那么整站優(yōu)化被動(dòng)優(yōu)化。目前,如果要優(yōu)化搜索結果頁(yè)面,首先要選擇搜索引擎主題模型優(yōu)化,通過(guò)搜索引擎關(guān)鍵詞提示和頁(yè)面主題文本字符覆蓋等,通過(guò)站內主題優(yōu)化加速整個(gè)站內的內容結構的提升,簡(jiǎn)要地說(shuō)即:“內容結構優(yōu)化+高質(zhì)量外鏈+結構優(yōu)化+外鏈優(yōu)化”。關(guān)于搜索引擎主題模型優(yōu)化,更多專(zhuān)業(yè)知識可以關(guān)注我微信公眾號(pco_commu),一起交流。
搜索引擎優(yōu)化模型模型優(yōu)化是整站優(yōu)化的重要環(huán)節,很多同學(xué)總是會(huì )卡在這個(gè)關(guān)鍵環(huán)節上,而不能將之做好,小編總結了以下幾個(gè)問(wèn)題:(。
1)了解主題模型優(yōu)化的優(yōu)勢與弊端。主題模型優(yōu)化是站內優(yōu)化的最后一步,其優(yōu)勢為搜索引擎更好的抓取、提高全站搜索結果頁(yè)面收錄,通過(guò)在搜索結果中加入與網(wǎng)站主題相關(guān)的文本,能夠起到提升關(guān)鍵詞與文本文本質(zhì)量的目的,并且能夠為搜索引擎降低提供更多的蜘蛛爬行體驗,提升全站收錄排名。主題模型優(yōu)化弊端是,加入搜索結果頁(yè)面信息后,搜索引擎會(huì )認為,你的網(wǎng)站是做了主題模型優(yōu)化的,這是搜索引擎認為默認的網(wǎng)站,可能會(huì )降低全站搜索引擎對于你網(wǎng)站的收錄,雖然這個(gè)風(fēng)險低,但是風(fēng)險可控。(。

2)了解主題模型優(yōu)化的首選提升方式。關(guān)于主題模型優(yōu)化,首選是直接抓取網(wǎng)站中搜索結果頁(yè)面,未來(lái)的seo目標是上升。
3)掌握主題模型優(yōu)化的主要流程。主題模型優(yōu)化的主要流程是,頁(yè)面上加入相關(guān)頁(yè)面文本,通過(guò)搜索引擎搜索關(guān)鍵詞和收錄進(jìn)行展示,同時(shí)優(yōu)化搜索關(guān)鍵詞。
4)主題模
Facebook照片搜索技術(shù)揭秘
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 120 次瀏覽 ? 2022-08-09 09:29
今天的人們使用智能手機拍攝的照片數量激增,這對傳統的照片分類(lèi)方式造成了不小的挑戰。我們每個(gè)人整理自己手機中存儲的海量照片尚且如此困難,對我們來(lái)說(shuō),要為所有人的照片定義一種更有序的分類(lèi)方式無(wú)疑更是困難重重。
每天,人們會(huì )將數十億張照片分享到Facebook,想想你自己向下滾屏查找幾天前發(fā)布的照片有多麻煩,如果要找幾個(gè)月甚至幾年前的照片呢?為了幫大家更容易找到自己的照片,Facebook照片搜索團隊使用機器學(xué)習技術(shù)深入了解照片內容,改善照片的搜索和獲取過(guò)程。
我們的照片搜索功能基于一種名為Unicorn的內存和閃存索引系統構建,這種系統在設計上可以順利搜索百億至萬(wàn)億級別的用戶(hù)和其他實(shí)體。這套誕生于幾年前的系統還驅動(dòng)著(zhù)能夠理解社交圖譜的Graph Search功能,以每天數十億筆查詢(xún)的強大能力為Facebook的多個(gè)組件提供著(zhù)支撐。
Graph Search的誕生是為了能根據不同社交圖譜之間的關(guān)系獲取相關(guān)對象,例如“所有住在舊金山的好友”。該功能的效果很不錯,但如果要將查詢(xún)約束在相關(guān)子集范圍內,并按照相關(guān)性對結果進(jìn)行排序或計分,進(jìn)而提供最相關(guān)的結果,這種操作中該功能的效果很一般。為了繼續完善這種技術(shù),照片搜索團隊使用深度神經(jīng)網(wǎng)絡(luò ),通過(guò)照片中的可視內容和可查找文字改善了圖片搜索結果的準確性。
關(guān)于照片,搜索功能需要了解些什么
雖然Imagenet Challenge等競賽中,圖片識別技術(shù)的演示已經(jīng)獲得了非常低的錯誤率,但以Facebook的規模來(lái)說(shuō),理解照片內容是個(gè)很難達成的目標。好在相關(guān)應用領(lǐng)域的研究已經(jīng)為我們提供了最先進(jìn)的深度學(xué)習技術(shù),足以在大范圍內處理數十億張照片,從中提取出可搜索的語(yǔ)義學(xué)含義。我們會(huì )使用一種名為圖片理解引擎的分布式實(shí)時(shí)系統,分析處理發(fā)布到Facebook且公開(kāi)展示的每張照片。
圖片理解引擎是一種深度神經(jīng)網(wǎng)絡(luò ),其中包含數百萬(wàn)種可學(xué)習參數。該引擎以先進(jìn)的深度殘差網(wǎng)絡(luò )(Deep Residual Network)為基礎,使用上千萬(wàn)張帶標注照片進(jìn)行了訓練,可自動(dòng)預測一系列概念,包括場(chǎng)景、物體、動(dòng)物、景點(diǎn)、著(zhù)裝等。我們可以提前訓練模型并將有用的信息存起來(lái),進(jìn)而以低延遲響應回應用戶(hù)查詢(xún)。
這個(gè)圖片理解引擎為語(yǔ)義特征生成的高維浮點(diǎn)向量需要進(jìn)行索引和搜索,但以Facebook的規模來(lái)說(shuō),這是一種非常繁重的計算密集型任務(wù)。通過(guò)使用迭代量化和局部敏感哈希技術(shù),該功能可進(jìn)一步壓縮出數量更少,但依然足以代表大部分語(yǔ)義的“位”。這些緊湊的“位”信息將直接嵌入照片中,借此可直接對照片進(jìn)行評級、檢索、去重等操作。搜索查詢(xún)過(guò)程中,可通過(guò)嵌入的信息調整結果的展示順序。這種技術(shù)與文檔搜索和檢索過(guò)程中使用的技術(shù)極為類(lèi)似。Unicorn最初誕生時(shí)包含適用于深度神經(jīng)網(wǎng)絡(luò )層的多種不同算法,這些算法都是針對大規模圖片集的搜索開(kāi)發(fā)而來(lái)的。Unicorn可以用對象標簽和嵌入語(yǔ)義創(chuàng )建搜索查詢(xún)所需的索引。目前我們正在開(kāi)發(fā)該技術(shù)的新版本,希望能將這種緊湊嵌入的信息用于低延遲檢索。
在建模過(guò)程中使用標簽和嵌入物
考慮到Facebook的規模以及用戶(hù)對快速響應查詢(xún)的預期,我們無(wú)法對整個(gè)照片庫使用過(guò)于復雜的評級模型。因此為標簽和嵌入物使用了一種相關(guān)性模型,該模型可估算相關(guān)性并以極低的延遲提供查詢(xún)結果。
概念相關(guān)性
這個(gè)相關(guān)性是通過(guò)豐富的查詢(xún),以及使用相似性函數對比概念集得出的照片概念信號進(jìn)行評估的。例如,與照片查詢(xún)中所用的“中央公園”概念直接相關(guān)的查詢(xún)概念,可將與這一話(huà)題有關(guān)的照片放在首位,并從結果中隱藏所有“離題”的照片。
嵌入物相關(guān)性
通常來(lái)說(shuō),直接衡量查詢(xún)與結果之間的概念關(guān)聯(lián)性,這種做法不足以準確地預測相關(guān)性。我們創(chuàng )建的相關(guān)性模型會(huì )使用多模態(tài)學(xué)習(Multimodal learning)技術(shù)了解查詢(xún)和圖片之間的聯(lián)合嵌入關(guān)系。
該模型的輸入端為查詢(xún)的嵌入向量和照片結果,而訓練目的在于將分類(lèi)損失降至最低。每個(gè)向量將放在一起訓練和處理,這一過(guò)程會(huì )使用多層次的深度神經(jīng)網(wǎng)絡(luò )生成一個(gè)二進(jìn)制信號,結果為正意味著(zhù)匹配,結果為負意味著(zhù)不匹配。查詢(xún)和照片的輸入向量分別由各自的網(wǎng)絡(luò )生成,每個(gè)網(wǎng)絡(luò )可能包含不同數量的層。這種網(wǎng)絡(luò )可以通過(guò)嵌入層的參數進(jìn)行訓練并調優(yōu)。
嵌入評級損失
上文介紹的這種確定查詢(xún)和照片之間相關(guān)性的方法可以用公式表示為一種分類(lèi)問(wèn)題。然而評級的主要目標在于確定照片搜索結果中一系列照片的最佳排序。因此我們在分類(lèi)公式的基礎上使用評級損失(Ranking loss)進(jìn)行訓練,同時(shí)為同一個(gè)查詢(xún)生成相關(guān)和不相關(guān)結果對。
如下圖所示,模型右側部分是左側部分的深層復制(Deep copy),也就是說(shuō),他們共享了相同的網(wǎng)絡(luò )結構和參數。在訓練過(guò)程中,我們會(huì )將查詢(xún)與兩種結果分別放入模型的左側和右側組件中。對于每個(gè)查詢(xún),相符圖片的評級會(huì )高于不相符圖片。這種訓練方式大幅改善了評級質(zhì)量。
將對查詢(xún)的理解應用給照片搜索
Unicorn的照片語(yǔ)料以及圖片理解引擎所應用的嵌入物均是可搜索的。如果應用于嵌入物的查詢(xún)語(yǔ)義生成了更高概率的相關(guān)性,除了用于獲取照片的索引,查詢(xún)與檢索之間的其他位圖會(huì )被打斷。理解查詢(xún)語(yǔ)義過(guò)程中所使用的重要信號包括:
查詢(xún)意圖(Query intents)建議了需要檢索哪類(lèi)場(chǎng)景的照片。例如一個(gè)意在檢索動(dòng)物照片的查詢(xún)需要展示以動(dòng)物為主題的照片。
語(yǔ)法分析(Syntactic analysis)幫助我們理解查詢(xún)語(yǔ)句的語(yǔ)法構造、詞類(lèi)詞性、句法關(guān)系,以及語(yǔ)義。搜索查詢(xún)通常無(wú)法識別書(shū)面語(yǔ)的語(yǔ)法,而這方面現有的解析程序效果并不好。因此我們使用了最先進(jìn)的技術(shù),對語(yǔ)言標記器(Speech tagger)中神經(jīng)網(wǎng)絡(luò )部分進(jìn)行有關(guān)搜索查詢(xún)的訓練。
實(shí)體鏈接(Entity linking)幫助我們找出有關(guān)特定概念的照片,通常會(huì )將結果以頁(yè)面的形式呈現,例如不同的地點(diǎn)或電視節目。
重寫(xiě)查詢(xún)知識以提取由查詢(xún)的語(yǔ)義詮釋提供的概念。概念不僅可以擴展查詢(xún)的含義,而且可以彌補查詢(xún)和結果之間不同詞匯造成的差異。
查詢(xún)嵌入物,這是一種用于代表查詢(xún)本身的連續向量空間。該技術(shù)可在對詞匯進(jìn)行word2vec向量呈現的基礎上通過(guò)遷移學(xué)習(Transfer learning)進(jìn)行學(xué)習,借此將類(lèi)似的查詢(xún)映射至就近點(diǎn)。
領(lǐng)域和查詢(xún)重寫(xiě)
當某人輸入查詢(xún)按下搜索鍵,會(huì )生成一個(gè)請求并發(fā)送到我們的服務(wù)器。該請求首先到達Web層,在這里會(huì )收集有關(guān)該查詢(xún)的不同上下文信息。隨后查詢(xún)以及相關(guān)上下文會(huì )被發(fā)送至一個(gè)頂級聚合器層,在這里查詢(xún)會(huì )被重寫(xiě)為一個(gè)s-表達式,隨后描述該如何從索引服務(wù)器獲取一系列文檔。
根據查詢(xún)意圖,會(huì )由一個(gè)觸發(fā)器機制使用神經(jīng)網(wǎng)絡(luò )模型決定相關(guān)聯(lián)的領(lǐng)域(Vertical),例如新聞、照片,或視頻,這是為了盡可能避免針對相關(guān)性較低的領(lǐng)域執行不必要的處理任務(wù)。舉例來(lái)說(shuō),如果某人查詢(xún)“有趣的貓咪”,那么這個(gè)意圖很明顯更希望看到照片領(lǐng)域的結果,此時(shí)我們會(huì )從搜索結果中排除掉新聞這個(gè)領(lǐng)域。
如果查詢(xún)“萬(wàn)圣節”,此時(shí)將同時(shí)觸發(fā)有關(guān)公開(kāi)照片及好友的萬(wàn)圣節變裝照片的意圖,此時(shí)將同時(shí)搜索公開(kāi)和社交圈照片兩個(gè)領(lǐng)域,進(jìn)而可同時(shí)返回搜索者的好友所分享的照片,以及評級為相關(guān)的所有公開(kāi)照片。此時(shí)需要進(jìn)行兩個(gè)獨立的請求,因為社交照片是高度個(gè)性化的,需要進(jìn)行單獨的檢索和計分。為了保護照片隱私,我們會(huì )對搜索結果應用Facebook整個(gè)系統都在使用的隱私控制機制。下圖演示了一個(gè)上端為“社交”,下端為“公開(kāi)”的模塊。
第一階段評級
當索引服務(wù)器根據s-表達式獲取到所需文檔后,會(huì )交給經(jīng)過(guò)機器學(xué)習訓練的第一階段評級器處理。隨后分數最高,Top M文檔會(huì )被發(fā)送至Rack aggregator層,借此對所獲得的全部文檔進(jìn)行一定程度的合并,隨后將Top N結果返回至頂級聚合器層。第一階段評級的主要目的是確保返回至Rack aggregator的文檔與查詢(xún)依然保持一定的相關(guān)性。例如,在查詢(xún)“狗”時(shí),包含狗的照片無(wú)疑會(huì )比不包含狗的照片獲得更高評級。為了能以毫秒級的速度提供相關(guān)照片,我們還對整個(gè)復雜的檢索和評級階段的延遲進(jìn)行了優(yōu)化。
第二階段的二次評級
評級后的文檔返回頂級聚合器后,會(huì )進(jìn)行另一輪的信號計算、去重和評級。信號描述了整個(gè)結果分布情況的計算結果,借此可發(fā)現不符的結果。隨后會(huì )使用圖片指紋對視覺(jué)方面類(lèi)似的文檔進(jìn)行去重。隨后會(huì )通過(guò)深度神經(jīng)網(wǎng)絡(luò )進(jìn)行計分和評級,借此生成最終的照片排序結果。評級之后的照片集(也叫做“模塊”)會(huì )被發(fā)送到結果頁(yè)面的UI中顯示出來(lái)。
針對照片搜索優(yōu)化相關(guān)性評級
對查詢(xún)與照片,以及照片與查詢(xún)之間的相關(guān)性進(jìn)行評估,這是照片搜索團隊所面臨最核心的問(wèn)題,并且已經(jīng)遠遠超出了基于文本的查詢(xún)重寫(xiě)和匹配技術(shù)范疇。為此我們需要進(jìn)一步全面理解查詢(xún)、照片作者、照片附帶貼文,以及照片中的可視內容。先進(jìn)的相關(guān)性模型通常需要包含頂尖的評級、自然語(yǔ)言處理,以及計算機視覺(jué)等技術(shù),借此才能提供相關(guān)性更高的搜索結果,為我們塑造一種新穎的圖片分類(lèi)系統,在大規模范圍內更快速提供相關(guān)性更高的搜索結果。 查看全部
Facebook照片搜索技術(shù)揭秘
今天的人們使用智能手機拍攝的照片數量激增,這對傳統的照片分類(lèi)方式造成了不小的挑戰。我們每個(gè)人整理自己手機中存儲的海量照片尚且如此困難,對我們來(lái)說(shuō),要為所有人的照片定義一種更有序的分類(lèi)方式無(wú)疑更是困難重重。
每天,人們會(huì )將數十億張照片分享到Facebook,想想你自己向下滾屏查找幾天前發(fā)布的照片有多麻煩,如果要找幾個(gè)月甚至幾年前的照片呢?為了幫大家更容易找到自己的照片,Facebook照片搜索團隊使用機器學(xué)習技術(shù)深入了解照片內容,改善照片的搜索和獲取過(guò)程。
我們的照片搜索功能基于一種名為Unicorn的內存和閃存索引系統構建,這種系統在設計上可以順利搜索百億至萬(wàn)億級別的用戶(hù)和其他實(shí)體。這套誕生于幾年前的系統還驅動(dòng)著(zhù)能夠理解社交圖譜的Graph Search功能,以每天數十億筆查詢(xún)的強大能力為Facebook的多個(gè)組件提供著(zhù)支撐。
Graph Search的誕生是為了能根據不同社交圖譜之間的關(guān)系獲取相關(guān)對象,例如“所有住在舊金山的好友”。該功能的效果很不錯,但如果要將查詢(xún)約束在相關(guān)子集范圍內,并按照相關(guān)性對結果進(jìn)行排序或計分,進(jìn)而提供最相關(guān)的結果,這種操作中該功能的效果很一般。為了繼續完善這種技術(shù),照片搜索團隊使用深度神經(jīng)網(wǎng)絡(luò ),通過(guò)照片中的可視內容和可查找文字改善了圖片搜索結果的準確性。
關(guān)于照片,搜索功能需要了解些什么
雖然Imagenet Challenge等競賽中,圖片識別技術(shù)的演示已經(jīng)獲得了非常低的錯誤率,但以Facebook的規模來(lái)說(shuō),理解照片內容是個(gè)很難達成的目標。好在相關(guān)應用領(lǐng)域的研究已經(jīng)為我們提供了最先進(jìn)的深度學(xué)習技術(shù),足以在大范圍內處理數十億張照片,從中提取出可搜索的語(yǔ)義學(xué)含義。我們會(huì )使用一種名為圖片理解引擎的分布式實(shí)時(shí)系統,分析處理發(fā)布到Facebook且公開(kāi)展示的每張照片。
圖片理解引擎是一種深度神經(jīng)網(wǎng)絡(luò ),其中包含數百萬(wàn)種可學(xué)習參數。該引擎以先進(jìn)的深度殘差網(wǎng)絡(luò )(Deep Residual Network)為基礎,使用上千萬(wàn)張帶標注照片進(jìn)行了訓練,可自動(dòng)預測一系列概念,包括場(chǎng)景、物體、動(dòng)物、景點(diǎn)、著(zhù)裝等。我們可以提前訓練模型并將有用的信息存起來(lái),進(jìn)而以低延遲響應回應用戶(hù)查詢(xún)。
這個(gè)圖片理解引擎為語(yǔ)義特征生成的高維浮點(diǎn)向量需要進(jìn)行索引和搜索,但以Facebook的規模來(lái)說(shuō),這是一種非常繁重的計算密集型任務(wù)。通過(guò)使用迭代量化和局部敏感哈希技術(shù),該功能可進(jìn)一步壓縮出數量更少,但依然足以代表大部分語(yǔ)義的“位”。這些緊湊的“位”信息將直接嵌入照片中,借此可直接對照片進(jìn)行評級、檢索、去重等操作。搜索查詢(xún)過(guò)程中,可通過(guò)嵌入的信息調整結果的展示順序。這種技術(shù)與文檔搜索和檢索過(guò)程中使用的技術(shù)極為類(lèi)似。Unicorn最初誕生時(shí)包含適用于深度神經(jīng)網(wǎng)絡(luò )層的多種不同算法,這些算法都是針對大規模圖片集的搜索開(kāi)發(fā)而來(lái)的。Unicorn可以用對象標簽和嵌入語(yǔ)義創(chuàng )建搜索查詢(xún)所需的索引。目前我們正在開(kāi)發(fā)該技術(shù)的新版本,希望能將這種緊湊嵌入的信息用于低延遲檢索。
在建模過(guò)程中使用標簽和嵌入物
考慮到Facebook的規模以及用戶(hù)對快速響應查詢(xún)的預期,我們無(wú)法對整個(gè)照片庫使用過(guò)于復雜的評級模型。因此為標簽和嵌入物使用了一種相關(guān)性模型,該模型可估算相關(guān)性并以極低的延遲提供查詢(xún)結果。
概念相關(guān)性
這個(gè)相關(guān)性是通過(guò)豐富的查詢(xún),以及使用相似性函數對比概念集得出的照片概念信號進(jìn)行評估的。例如,與照片查詢(xún)中所用的“中央公園”概念直接相關(guān)的查詢(xún)概念,可將與這一話(huà)題有關(guān)的照片放在首位,并從結果中隱藏所有“離題”的照片。

嵌入物相關(guān)性
通常來(lái)說(shuō),直接衡量查詢(xún)與結果之間的概念關(guān)聯(lián)性,這種做法不足以準確地預測相關(guān)性。我們創(chuàng )建的相關(guān)性模型會(huì )使用多模態(tài)學(xué)習(Multimodal learning)技術(shù)了解查詢(xún)和圖片之間的聯(lián)合嵌入關(guān)系。
該模型的輸入端為查詢(xún)的嵌入向量和照片結果,而訓練目的在于將分類(lèi)損失降至最低。每個(gè)向量將放在一起訓練和處理,這一過(guò)程會(huì )使用多層次的深度神經(jīng)網(wǎng)絡(luò )生成一個(gè)二進(jìn)制信號,結果為正意味著(zhù)匹配,結果為負意味著(zhù)不匹配。查詢(xún)和照片的輸入向量分別由各自的網(wǎng)絡(luò )生成,每個(gè)網(wǎng)絡(luò )可能包含不同數量的層。這種網(wǎng)絡(luò )可以通過(guò)嵌入層的參數進(jìn)行訓練并調優(yōu)。
嵌入評級損失
上文介紹的這種確定查詢(xún)和照片之間相關(guān)性的方法可以用公式表示為一種分類(lèi)問(wèn)題。然而評級的主要目標在于確定照片搜索結果中一系列照片的最佳排序。因此我們在分類(lèi)公式的基礎上使用評級損失(Ranking loss)進(jìn)行訓練,同時(shí)為同一個(gè)查詢(xún)生成相關(guān)和不相關(guān)結果對。
如下圖所示,模型右側部分是左側部分的深層復制(Deep copy),也就是說(shuō),他們共享了相同的網(wǎng)絡(luò )結構和參數。在訓練過(guò)程中,我們會(huì )將查詢(xún)與兩種結果分別放入模型的左側和右側組件中。對于每個(gè)查詢(xún),相符圖片的評級會(huì )高于不相符圖片。這種訓練方式大幅改善了評級質(zhì)量。
將對查詢(xún)的理解應用給照片搜索
Unicorn的照片語(yǔ)料以及圖片理解引擎所應用的嵌入物均是可搜索的。如果應用于嵌入物的查詢(xún)語(yǔ)義生成了更高概率的相關(guān)性,除了用于獲取照片的索引,查詢(xún)與檢索之間的其他位圖會(huì )被打斷。理解查詢(xún)語(yǔ)義過(guò)程中所使用的重要信號包括:
查詢(xún)意圖(Query intents)建議了需要檢索哪類(lèi)場(chǎng)景的照片。例如一個(gè)意在檢索動(dòng)物照片的查詢(xún)需要展示以動(dòng)物為主題的照片。
語(yǔ)法分析(Syntactic analysis)幫助我們理解查詢(xún)語(yǔ)句的語(yǔ)法構造、詞類(lèi)詞性、句法關(guān)系,以及語(yǔ)義。搜索查詢(xún)通常無(wú)法識別書(shū)面語(yǔ)的語(yǔ)法,而這方面現有的解析程序效果并不好。因此我們使用了最先進(jìn)的技術(shù),對語(yǔ)言標記器(Speech tagger)中神經(jīng)網(wǎng)絡(luò )部分進(jìn)行有關(guān)搜索查詢(xún)的訓練。
實(shí)體鏈接(Entity linking)幫助我們找出有關(guān)特定概念的照片,通常會(huì )將結果以頁(yè)面的形式呈現,例如不同的地點(diǎn)或電視節目。
重寫(xiě)查詢(xún)知識以提取由查詢(xún)的語(yǔ)義詮釋提供的概念。概念不僅可以擴展查詢(xún)的含義,而且可以彌補查詢(xún)和結果之間不同詞匯造成的差異。

查詢(xún)嵌入物,這是一種用于代表查詢(xún)本身的連續向量空間。該技術(shù)可在對詞匯進(jìn)行word2vec向量呈現的基礎上通過(guò)遷移學(xué)習(Transfer learning)進(jìn)行學(xué)習,借此將類(lèi)似的查詢(xún)映射至就近點(diǎn)。
領(lǐng)域和查詢(xún)重寫(xiě)
當某人輸入查詢(xún)按下搜索鍵,會(huì )生成一個(gè)請求并發(fā)送到我們的服務(wù)器。該請求首先到達Web層,在這里會(huì )收集有關(guān)該查詢(xún)的不同上下文信息。隨后查詢(xún)以及相關(guān)上下文會(huì )被發(fā)送至一個(gè)頂級聚合器層,在這里查詢(xún)會(huì )被重寫(xiě)為一個(gè)s-表達式,隨后描述該如何從索引服務(wù)器獲取一系列文檔。
根據查詢(xún)意圖,會(huì )由一個(gè)觸發(fā)器機制使用神經(jīng)網(wǎng)絡(luò )模型決定相關(guān)聯(lián)的領(lǐng)域(Vertical),例如新聞、照片,或視頻,這是為了盡可能避免針對相關(guān)性較低的領(lǐng)域執行不必要的處理任務(wù)。舉例來(lái)說(shuō),如果某人查詢(xún)“有趣的貓咪”,那么這個(gè)意圖很明顯更希望看到照片領(lǐng)域的結果,此時(shí)我們會(huì )從搜索結果中排除掉新聞這個(gè)領(lǐng)域。
如果查詢(xún)“萬(wàn)圣節”,此時(shí)將同時(shí)觸發(fā)有關(guān)公開(kāi)照片及好友的萬(wàn)圣節變裝照片的意圖,此時(shí)將同時(shí)搜索公開(kāi)和社交圈照片兩個(gè)領(lǐng)域,進(jìn)而可同時(shí)返回搜索者的好友所分享的照片,以及評級為相關(guān)的所有公開(kāi)照片。此時(shí)需要進(jìn)行兩個(gè)獨立的請求,因為社交照片是高度個(gè)性化的,需要進(jìn)行單獨的檢索和計分。為了保護照片隱私,我們會(huì )對搜索結果應用Facebook整個(gè)系統都在使用的隱私控制機制。下圖演示了一個(gè)上端為“社交”,下端為“公開(kāi)”的模塊。
第一階段評級
當索引服務(wù)器根據s-表達式獲取到所需文檔后,會(huì )交給經(jīng)過(guò)機器學(xué)習訓練的第一階段評級器處理。隨后分數最高,Top M文檔會(huì )被發(fā)送至Rack aggregator層,借此對所獲得的全部文檔進(jìn)行一定程度的合并,隨后將Top N結果返回至頂級聚合器層。第一階段評級的主要目的是確保返回至Rack aggregator的文檔與查詢(xún)依然保持一定的相關(guān)性。例如,在查詢(xún)“狗”時(shí),包含狗的照片無(wú)疑會(huì )比不包含狗的照片獲得更高評級。為了能以毫秒級的速度提供相關(guān)照片,我們還對整個(gè)復雜的檢索和評級階段的延遲進(jìn)行了優(yōu)化。
第二階段的二次評級
評級后的文檔返回頂級聚合器后,會(huì )進(jìn)行另一輪的信號計算、去重和評級。信號描述了整個(gè)結果分布情況的計算結果,借此可發(fā)現不符的結果。隨后會(huì )使用圖片指紋對視覺(jué)方面類(lèi)似的文檔進(jìn)行去重。隨后會(huì )通過(guò)深度神經(jīng)網(wǎng)絡(luò )進(jìn)行計分和評級,借此生成最終的照片排序結果。評級之后的照片集(也叫做“模塊”)會(huì )被發(fā)送到結果頁(yè)面的UI中顯示出來(lái)。
針對照片搜索優(yōu)化相關(guān)性評級
對查詢(xún)與照片,以及照片與查詢(xún)之間的相關(guān)性進(jìn)行評估,這是照片搜索團隊所面臨最核心的問(wèn)題,并且已經(jīng)遠遠超出了基于文本的查詢(xún)重寫(xiě)和匹配技術(shù)范疇。為此我們需要進(jìn)一步全面理解查詢(xún)、照片作者、照片附帶貼文,以及照片中的可視內容。先進(jìn)的相關(guān)性模型通常需要包含頂尖的評級、自然語(yǔ)言處理,以及計算機視覺(jué)等技術(shù),借此才能提供相關(guān)性更高的搜索結果,為我們塑造一種新穎的圖片分類(lèi)系統,在大規模范圍內更快速提供相關(guān)性更高的搜索結果。
AARRR 海盜模型指標最佳實(shí)踐
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 126 次瀏覽 ? 2022-08-09 09:16
閱讀收獲:
隨著(zhù)互聯(lián)網(wǎng)滲透率增高,獲客成本日益增高,流量紅利不再已經(jīng)成為共識,盡力提升留存降低流失才是當前運營(yíng)工作的重中之重,AARRR 模型從獲客、活躍、留存、推薦、付費等環(huán)節告訴我們如何建立運營(yíng)方法論,在此我們通過(guò)最佳實(shí)踐數據指標剖析模型,幫助我們實(shí)現產(chǎn)品業(yè)務(wù)增長(cháng)。
00
概念
近年,用戶(hù)增長(cháng)是一個(gè)熱門(mén)概念,與之相關(guān)的業(yè)務(wù)體系也水漲船高,這里就包含大家經(jīng)常提到的 AARRR 模型,即海盜模型。
2007 年,500 Startups 風(fēng)險投資基金的投資者 Dave McClure,提出了“Pirate Metrics”的概念,圍繞這個(gè)理論提出 5 個(gè)維度的指標:獲取、激活、留存、推薦和收入。
因為這 5 個(gè)指標的單詞縮寫(xiě)為:AARRR,與海盜喊 “Aarrr!” 的縮寫(xiě)相似,這種方法也被稱(chēng)為“海盜度量”。
Dave McClure 的原始演示文稿“海盜啟動(dòng)指標:AARRR?。?!”中的一張幻燈片_圖片來(lái)源:
引用 Dave McClure 最初的演示文稿圖,看上去是不是很亂,我們把重要的內容抽離出來(lái),按照 5 個(gè)階段排序,得到 AARRR 海盜圖??瓷先ズ芟衤┒?,因此,也有很多人把它叫做漏斗模型。
對于產(chǎn)品經(jīng)理或產(chǎn)品運營(yíng),在實(shí)踐用戶(hù)增長(cháng)過(guò)程中,我們需要計算每次操作動(dòng)作的數據轉化:從一個(gè)階段到另一個(gè)階段的用戶(hù)數量、百分比,甚至是在單個(gè)環(huán)節里的行為數據。當一個(gè)用戶(hù),從點(diǎn)擊推廣廣告后到達到產(chǎn)品,逐步進(jìn)入產(chǎn)品漏斗并最終完成付費,這完全取決產(chǎn)品經(jīng)理在每個(gè)階段對產(chǎn)品邏輯設計。我們從用戶(hù)增長(cháng)的角度,對 AARRR 海盜指標進(jìn)行分析。
01
獲客
獲客階段,目的是通過(guò)所用可最大的成本,最大能力獲取新用戶(hù),通過(guò)吸引新用戶(hù)到達產(chǎn)品。通常在該階段,常用的方式是對新用戶(hù)免費、免費使用、贈送新用戶(hù)優(yōu)惠券、贈送新手套餐等。獲客策略實(shí)踐如果有足夠的時(shí)間和預算,可采用多種方法測試??梢栽?Excel 中創(chuàng )建一個(gè)表格,并在其中放置有關(guān)每個(gè)活動(dòng)的所有信息(活動(dòng)名稱(chēng)、目標受眾類(lèi)型、從廣告到網(wǎng)站的轉換次數、轉換量、每位客戶(hù)的成本)。通過(guò)這種方式,以決策使用哪種獲客方式效果最好。如果時(shí)間和預算有限,那么最好從最有可能成功的策略開(kāi)始。在測試期結束時(shí),可以通過(guò)衡量每位客戶(hù)的成本來(lái)理解它(要衡量每位客戶(hù)的成本,需要從某個(gè)渠道轉換到網(wǎng)站的次數,然后將其除以花費的錢(qián),即可獲客成本值)。最佳指標1. СPC - 每次點(diǎn)擊費用。2. CPL - 每個(gè)潛在客戶(hù)的成本。3. СTR - 點(diǎn)擊率。4. Leads - 潛在客戶(hù)的數量。5. 跳出率 - 打開(kāi)產(chǎn)品后立即離開(kāi)的用戶(hù)數。
02
活躍當用戶(hù)達到后,通過(guò)引導他們完成注冊,產(chǎn)品就具備了觸達用戶(hù)的方式(郵件、手機號、推送能力等),后續將用戶(hù)變?yōu)榛钴S用戶(hù)。
據有效數據表明,當新用戶(hù)進(jìn)入產(chǎn)品之后的次日活躍開(kāi)始計算,有相當一部分新用戶(hù)(80% 以上)都不會(huì )被再次激活。說(shuō)白了就是第一環(huán)節所獲取的用戶(hù),在日次只能產(chǎn)生 20% 的能量,剩余的全都浪費了。所以激活的目的就是為了提升能量,減少浪費?;钴S策略實(shí)踐個(gè)性化測試。在此基礎上創(chuàng )建原型并對其進(jìn)行測試。針對目標受眾、使用不同設計的不同方法制作用戶(hù)流程/注冊表單的幾種不同策略,關(guān)注客戶(hù)的需求和問(wèn)題。
進(jìn)行 A/B 測試以找出哪種方式最適合所選策略。
收集激活用戶(hù)群并分析他們的行為。注意他們與產(chǎn)品交互的方式。
同時(shí),分析他們不使用應用程序的哪些功能。這些觀(guān)察結果是需要改進(jìn)和更改應用程序的關(guān)鍵。最佳指標1. CPA - 每次獲取的成本:注冊、訂閱、從免費版本到付費版本的過(guò)渡。2. 參與 - 會(huì )話(huà)的持續時(shí)間和深度。3. 跳出率 - 跳出產(chǎn)品的百分比。
03
留存用戶(hù)來(lái)得快、走得也快,如果用戶(hù)在該階段流失掉,那么前面的獲客、活躍工作都會(huì )變成沉沒(méi)成本。留存策略?電子郵件通訊(例如描述您如何改進(jìn)客戶(hù)已經(jīng)使用的功能);
?推送通知;
?每周摘要;
?用戶(hù)等級(用戶(hù)在產(chǎn)品內的價(jià)值回報);
?改善用戶(hù)體驗。實(shí)踐應該了解用戶(hù)最喜歡哪些服務(wù)、哪些功能,以及為什么。將用戶(hù)支持作為降低客戶(hù)流失率的工作策略之一,傾聽(tīng)用戶(hù)的意見(jiàn)并快速做出反饋。記?。翰粩喔倪M(jìn)最流行的功能,永遠不要停止完善用戶(hù)體驗。最佳指標1. 會(huì )話(huà)持續時(shí)間 - 用戶(hù)在一次訪(fǎng)問(wèn)期間與產(chǎn)品交互的時(shí)間。2. 客戶(hù)退貨率 - 在一定時(shí)期內有多少用戶(hù)重復使用該產(chǎn)品。3. 客戶(hù)流失 - 有多少用戶(hù)在一段時(shí)間內(例如一個(gè)月)停止使用該產(chǎn)品。
04
推薦獲得客戶(hù),然后他們激活并繼續使用應用程序并且他們非常喜歡它,他們開(kāi)始通過(guò)口耳相傳或通過(guò)一些推薦系統或任何方式告訴其他人,他們邀請他們的朋友或團隊成員使用產(chǎn)品,這是推薦指標階段。這里的目標是鼓勵用戶(hù)推薦產(chǎn)品。盡一切努力使分享過(guò)程變得快速而輕松(降低推薦門(mén)檻)。推薦策略?發(fā)送有關(guān)您推薦計劃的電子郵件提醒;
?提供推薦獎勵(現金返還、折扣等);
?提供雙向獎勵(例如,如果有人使用共享鏈接注冊,例如:Airbnb 會(huì )提供積分)。最佳指標?CSI - 客戶(hù)滿(mǎn)意度指數(通過(guò)測試衡量)。
05
付費付費,是評價(jià)是否成功完成上述所有階段的指標。只有那些完全了解你的產(chǎn)品能給他們帶來(lái)什么價(jià)值的用戶(hù)才會(huì )進(jìn)入收益階段。此階段的主要目標是從用戶(hù)那里獲得第一筆資金。付費策略?在開(kāi)始免費試用之前為用戶(hù)添加連接支付卡的步驟;
?配置推送通知,通知用戶(hù)免費版本的限制并提供切換到付費版本;
?考慮向上銷(xiāo)售和交叉銷(xiāo)售。最佳指標1. ACV - 平均合約價(jià)值;2. LTV - 終身價(jià)值,在與用戶(hù)合作的整個(gè)時(shí)間內從他們那里獲利;3. 一定時(shí)期內的收益總額。
06
總結AARRR 指標僅是運營(yíng)用戶(hù)、經(jīng)營(yíng)用戶(hù)的一種方法,可以幫助我們觀(guān)察到用戶(hù)的產(chǎn)品旅程,并檢查用戶(hù)在每個(gè)階段使用產(chǎn)品時(shí)的問(wèn)題而不斷改進(jìn),我們除了要關(guān)注數據指標的表現,也需要認識到,要長(cháng)期跟蹤這些指標,才能更有效地衡量產(chǎn)品的表現。
附錄:
搬運了 知乎風(fēng)狂大佬 的 “PowerBI 可視化案例 - AARRR數據分析模型” 案例,通過(guò)各個(gè)階段的數據分析更好的體會(huì ) AARRR 模型的指標。
參考資料:
AARRR 模型 - 百度百科 %E6%A8%A1%E5%9E%8B/50968334 AARRR SaaS Metrics: Actionable Decisions for Rapid Growth AARRR! Pirate Metrics For Startups 歡迎加入ThinkerD社群,超過(guò)400+熱愛(ài)產(chǎn)品、熱愛(ài)設計的小伙伴們,參與討論互相學(xué)習一起進(jìn)步。(公號內回復消息:【社群】)歡迎關(guān)注支持ThinkerD本公眾帳號,點(diǎn)贊、轉發(fā)、再看以幫助更多的朋友們。 查看全部
AARRR 海盜模型指標最佳實(shí)踐
閱讀收獲:
隨著(zhù)互聯(lián)網(wǎng)滲透率增高,獲客成本日益增高,流量紅利不再已經(jīng)成為共識,盡力提升留存降低流失才是當前運營(yíng)工作的重中之重,AARRR 模型從獲客、活躍、留存、推薦、付費等環(huán)節告訴我們如何建立運營(yíng)方法論,在此我們通過(guò)最佳實(shí)踐數據指標剖析模型,幫助我們實(shí)現產(chǎn)品業(yè)務(wù)增長(cháng)。
00
概念
近年,用戶(hù)增長(cháng)是一個(gè)熱門(mén)概念,與之相關(guān)的業(yè)務(wù)體系也水漲船高,這里就包含大家經(jīng)常提到的 AARRR 模型,即海盜模型。
2007 年,500 Startups 風(fēng)險投資基金的投資者 Dave McClure,提出了“Pirate Metrics”的概念,圍繞這個(gè)理論提出 5 個(gè)維度的指標:獲取、激活、留存、推薦和收入。
因為這 5 個(gè)指標的單詞縮寫(xiě)為:AARRR,與海盜喊 “Aarrr!” 的縮寫(xiě)相似,這種方法也被稱(chēng)為“海盜度量”。
Dave McClure 的原始演示文稿“海盜啟動(dòng)指標:AARRR?。?!”中的一張幻燈片_圖片來(lái)源:
引用 Dave McClure 最初的演示文稿圖,看上去是不是很亂,我們把重要的內容抽離出來(lái),按照 5 個(gè)階段排序,得到 AARRR 海盜圖??瓷先ズ芟衤┒?,因此,也有很多人把它叫做漏斗模型。
對于產(chǎn)品經(jīng)理或產(chǎn)品運營(yíng),在實(shí)踐用戶(hù)增長(cháng)過(guò)程中,我們需要計算每次操作動(dòng)作的數據轉化:從一個(gè)階段到另一個(gè)階段的用戶(hù)數量、百分比,甚至是在單個(gè)環(huán)節里的行為數據。當一個(gè)用戶(hù),從點(diǎn)擊推廣廣告后到達到產(chǎn)品,逐步進(jìn)入產(chǎn)品漏斗并最終完成付費,這完全取決產(chǎn)品經(jīng)理在每個(gè)階段對產(chǎn)品邏輯設計。我們從用戶(hù)增長(cháng)的角度,對 AARRR 海盜指標進(jìn)行分析。
01
獲客

獲客階段,目的是通過(guò)所用可最大的成本,最大能力獲取新用戶(hù),通過(guò)吸引新用戶(hù)到達產(chǎn)品。通常在該階段,常用的方式是對新用戶(hù)免費、免費使用、贈送新用戶(hù)優(yōu)惠券、贈送新手套餐等。獲客策略實(shí)踐如果有足夠的時(shí)間和預算,可采用多種方法測試??梢栽?Excel 中創(chuàng )建一個(gè)表格,并在其中放置有關(guān)每個(gè)活動(dòng)的所有信息(活動(dòng)名稱(chēng)、目標受眾類(lèi)型、從廣告到網(wǎng)站的轉換次數、轉換量、每位客戶(hù)的成本)。通過(guò)這種方式,以決策使用哪種獲客方式效果最好。如果時(shí)間和預算有限,那么最好從最有可能成功的策略開(kāi)始。在測試期結束時(shí),可以通過(guò)衡量每位客戶(hù)的成本來(lái)理解它(要衡量每位客戶(hù)的成本,需要從某個(gè)渠道轉換到網(wǎng)站的次數,然后將其除以花費的錢(qián),即可獲客成本值)。最佳指標1. СPC - 每次點(diǎn)擊費用。2. CPL - 每個(gè)潛在客戶(hù)的成本。3. СTR - 點(diǎn)擊率。4. Leads - 潛在客戶(hù)的數量。5. 跳出率 - 打開(kāi)產(chǎn)品后立即離開(kāi)的用戶(hù)數。
02
活躍當用戶(hù)達到后,通過(guò)引導他們完成注冊,產(chǎn)品就具備了觸達用戶(hù)的方式(郵件、手機號、推送能力等),后續將用戶(hù)變?yōu)榛钴S用戶(hù)。
據有效數據表明,當新用戶(hù)進(jìn)入產(chǎn)品之后的次日活躍開(kāi)始計算,有相當一部分新用戶(hù)(80% 以上)都不會(huì )被再次激活。說(shuō)白了就是第一環(huán)節所獲取的用戶(hù),在日次只能產(chǎn)生 20% 的能量,剩余的全都浪費了。所以激活的目的就是為了提升能量,減少浪費?;钴S策略實(shí)踐個(gè)性化測試。在此基礎上創(chuàng )建原型并對其進(jìn)行測試。針對目標受眾、使用不同設計的不同方法制作用戶(hù)流程/注冊表單的幾種不同策略,關(guān)注客戶(hù)的需求和問(wèn)題。
進(jìn)行 A/B 測試以找出哪種方式最適合所選策略。
收集激活用戶(hù)群并分析他們的行為。注意他們與產(chǎn)品交互的方式。
同時(shí),分析他們不使用應用程序的哪些功能。這些觀(guān)察結果是需要改進(jìn)和更改應用程序的關(guān)鍵。最佳指標1. CPA - 每次獲取的成本:注冊、訂閱、從免費版本到付費版本的過(guò)渡。2. 參與 - 會(huì )話(huà)的持續時(shí)間和深度。3. 跳出率 - 跳出產(chǎn)品的百分比。
03
留存用戶(hù)來(lái)得快、走得也快,如果用戶(hù)在該階段流失掉,那么前面的獲客、活躍工作都會(huì )變成沉沒(méi)成本。留存策略?電子郵件通訊(例如描述您如何改進(jìn)客戶(hù)已經(jīng)使用的功能);
?推送通知;
?每周摘要;
?用戶(hù)等級(用戶(hù)在產(chǎn)品內的價(jià)值回報);
?改善用戶(hù)體驗。實(shí)踐應該了解用戶(hù)最喜歡哪些服務(wù)、哪些功能,以及為什么。將用戶(hù)支持作為降低客戶(hù)流失率的工作策略之一,傾聽(tīng)用戶(hù)的意見(jiàn)并快速做出反饋。記?。翰粩喔倪M(jìn)最流行的功能,永遠不要停止完善用戶(hù)體驗。最佳指標1. 會(huì )話(huà)持續時(shí)間 - 用戶(hù)在一次訪(fǎng)問(wèn)期間與產(chǎn)品交互的時(shí)間。2. 客戶(hù)退貨率 - 在一定時(shí)期內有多少用戶(hù)重復使用該產(chǎn)品。3. 客戶(hù)流失 - 有多少用戶(hù)在一段時(shí)間內(例如一個(gè)月)停止使用該產(chǎn)品。
04
推薦獲得客戶(hù),然后他們激活并繼續使用應用程序并且他們非常喜歡它,他們開(kāi)始通過(guò)口耳相傳或通過(guò)一些推薦系統或任何方式告訴其他人,他們邀請他們的朋友或團隊成員使用產(chǎn)品,這是推薦指標階段。這里的目標是鼓勵用戶(hù)推薦產(chǎn)品。盡一切努力使分享過(guò)程變得快速而輕松(降低推薦門(mén)檻)。推薦策略?發(fā)送有關(guān)您推薦計劃的電子郵件提醒;

?提供推薦獎勵(現金返還、折扣等);
?提供雙向獎勵(例如,如果有人使用共享鏈接注冊,例如:Airbnb 會(huì )提供積分)。最佳指標?CSI - 客戶(hù)滿(mǎn)意度指數(通過(guò)測試衡量)。
05
付費付費,是評價(jià)是否成功完成上述所有階段的指標。只有那些完全了解你的產(chǎn)品能給他們帶來(lái)什么價(jià)值的用戶(hù)才會(huì )進(jìn)入收益階段。此階段的主要目標是從用戶(hù)那里獲得第一筆資金。付費策略?在開(kāi)始免費試用之前為用戶(hù)添加連接支付卡的步驟;
?配置推送通知,通知用戶(hù)免費版本的限制并提供切換到付費版本;
?考慮向上銷(xiāo)售和交叉銷(xiāo)售。最佳指標1. ACV - 平均合約價(jià)值;2. LTV - 終身價(jià)值,在與用戶(hù)合作的整個(gè)時(shí)間內從他們那里獲利;3. 一定時(shí)期內的收益總額。
06
總結AARRR 指標僅是運營(yíng)用戶(hù)、經(jīng)營(yíng)用戶(hù)的一種方法,可以幫助我們觀(guān)察到用戶(hù)的產(chǎn)品旅程,并檢查用戶(hù)在每個(gè)階段使用產(chǎn)品時(shí)的問(wèn)題而不斷改進(jìn),我們除了要關(guān)注數據指標的表現,也需要認識到,要長(cháng)期跟蹤這些指標,才能更有效地衡量產(chǎn)品的表現。
附錄:
搬運了 知乎風(fēng)狂大佬 的 “PowerBI 可視化案例 - AARRR數據分析模型” 案例,通過(guò)各個(gè)階段的數據分析更好的體會(huì ) AARRR 模型的指標。
參考資料:
AARRR 模型 - 百度百科 %E6%A8%A1%E5%9E%8B/50968334 AARRR SaaS Metrics: Actionable Decisions for Rapid Growth AARRR! Pirate Metrics For Startups 歡迎加入ThinkerD社群,超過(guò)400+熱愛(ài)產(chǎn)品、熱愛(ài)設計的小伙伴們,參與討論互相學(xué)習一起進(jìn)步。(公號內回復消息:【社群】)歡迎關(guān)注支持ThinkerD本公眾帳號,點(diǎn)贊、轉發(fā)、再看以幫助更多的朋友們。
【大咖分享】SEO站內優(yōu)化八大要素
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 121 次瀏覽 ? 2022-07-31 11:19
如果有人問(wèn)你百度自然優(yōu)化的精髓是什么?希望答案不再是“狂發(fā)外鏈”了。如今百度不再是5年前的百度,大量的算法更新對搜索引擎優(yōu)化者的思維和手法有了更高的要求。然而百度更喜歡系統化用戶(hù)體驗偏向性的優(yōu)化,站內優(yōu)化部分也不僅僅是靠關(guān)鍵詞和TITLE走天下的時(shí)代了。我總結了8個(gè)核心要素和思維走向,希望對SEO新手及要轉變思維的SEO人有所幫助。
一,登陸頁(yè)內容為解決問(wèn)題而不只是描述問(wèn)題
舉個(gè)例子,有人搜“結婚穿什么衣服”時(shí),最好的頁(yè)面內容要有幾個(gè)方面的引向:【20個(gè)讓男賓客帥爆的婚禮搭配推薦】以及【精選搭配的購買(mǎi)信息】。因為這個(gè)搜索詞背后的用戶(hù)猜到他將要參加一場(chǎng)婚禮,所以終極要解決他的問(wèn)題是哪里能買(mǎi)到衣服,而不是讓他學(xué)習怎么搭配衣服。因此,優(yōu)化這個(gè)關(guān)鍵詞時(shí),我們的內容應該要解決他的最終需求,這樣的引流和轉化的效果才會(huì )更好。
二,重要事情說(shuō)三遍“加載速度、速度、速度”
信息碎片時(shí)代沒(méi)人愿意給你機會(huì )去等待,所以網(wǎng)站打開(kāi)加載速度比任何優(yōu)化點(diǎn)更加重要。打開(kāi)時(shí)間越短,用戶(hù)滿(mǎn)意度越高。對于搜索引擎是一樣的道理。所以?xún)?yōu)化一上來(lái)先考慮提速有哪些點(diǎn)可以做,如CDN,無(wú)用代碼移除,服務(wù)器寬帶升級,緩存,頁(yè)面瘦身,純靜態(tài)頁(yè)面等優(yōu)化動(dòng)作。
三,為信賴(lài)感,參與感去提升UI,UX及品牌
很多用戶(hù)打開(kāi)網(wǎng)站后會(huì )產(chǎn)生一個(gè)第一印象,好山寨,好土鱉,好不專(zhuān)業(yè)不是我們想要的結果。頁(yè)面設計需要有UI & UX的投入以及品牌自有的口碑來(lái)背書(shū),否則用戶(hù)較難產(chǎn)生對網(wǎng)站的信賴(lài)感及參與度。最實(shí)際落地的做法就是參考行業(yè)里較好的站點(diǎn)進(jìn)行模仿、購買(mǎi)付費版本的網(wǎng)站模板或讓用戶(hù)參與到每個(gè)設計環(huán)節里。
四,避免驅使用戶(hù)離開(kāi)頁(yè)面的各類(lèi)元素
很多一些彈窗、固定飄窗、廣告位會(huì )讓用戶(hù)反感,從而放棄整個(gè)瀏覽進(jìn)程。這是優(yōu)化過(guò)程中要去避免和移除的部分,考慮更加原生的方式植入這些元素或是獎勵用戶(hù)完成進(jìn)程。同時(shí),在代碼使用上避免蜘蛛被禁抓或是被難抓的可能性從而被搜索引擎降權。
五,關(guān)鍵詞植入
常規的關(guān)鍵詞植入(爆老師稱(chēng)其為填詞)也要繼續做,比如Title,H1,文章內關(guān)鍵詞,外鏈錨文字,內鏈錨文字,圖片ALT,URL,圖片命名等。這個(gè)不做多贅述,大家都明白的。
六,主題模型的灌入
光有#5填詞是不夠的,因為那個(gè)太機械化會(huì )喪失文本用戶(hù)體驗。所以我們要做主題模型,比如關(guān)鍵詞【婚禮服裝搭配】我們可以擴展到燕尾服、結婚禮服、婚禮馬甲、婚禮套裝、婚博會(huì )等等一些相關(guān)詞上。形成一個(gè)大主題,這樣的頁(yè)面內容會(huì )讓關(guān)鍵詞排名更全面而且對更多用戶(hù)有幫助。同時(shí),搜索引擎可以解讀到你要推的主題內容是婚禮服裝相關(guān)的內容。
七,展現文字的深度優(yōu)化
排名所展示出來(lái)的信息對點(diǎn)擊率很重要,所以我們竟可能要去影響這些展示信息(主要是title,desc,url)。這些元素需要在內容上進(jìn)行優(yōu)化:title的創(chuàng )意、desc的飄紅、url的規范、文章日期、使用結構數據、在線(xiàn)對話(huà)等。下面的效果如何?
八,獨有價(jià)值內容的創(chuàng )造
說(shuō)到底,營(yíng)銷(xiāo)是逃不出內容質(zhì)量的。好內容包含:1)提供唯一性特別強的視覺(jué)體驗,前端界面,適宜的字體與功能按鈕 2)內容必須有用高價(jià)值,高可信度,很有趣,值得收藏的點(diǎn)在里面 3)與其他內容相比沒(méi)有重復性,在深度上更加強勁 4)打開(kāi)速度快(無(wú)廣告),并且可以在不同終端閱讀 5)能產(chǎn)生情緒化的思緒如贊許,驚訝,快樂(lè ),思考等 6)可以達到一定的轉發(fā)和傳播力量 7)能用完整,準確獨有的信息解決問(wèn)題或是回答問(wèn)題
點(diǎn)擊進(jìn)行領(lǐng)取↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
SEO教程大放送+V:rdseo999,想學(xué)習SEO技術(shù)的同學(xué)不要錯過(guò)!
贈送教程:1、百度算法篇:42節SEO快速快排教程一套!2、網(wǎng)站運營(yíng)篇:32節教你運營(yíng)好一個(gè)網(wǎng)站!3、SEO實(shí)戰篇:9節百度SEO進(jìn)階教程! 查看全部
【大咖分享】SEO站內優(yōu)化八大要素
如果有人問(wèn)你百度自然優(yōu)化的精髓是什么?希望答案不再是“狂發(fā)外鏈”了。如今百度不再是5年前的百度,大量的算法更新對搜索引擎優(yōu)化者的思維和手法有了更高的要求。然而百度更喜歡系統化用戶(hù)體驗偏向性的優(yōu)化,站內優(yōu)化部分也不僅僅是靠關(guān)鍵詞和TITLE走天下的時(shí)代了。我總結了8個(gè)核心要素和思維走向,希望對SEO新手及要轉變思維的SEO人有所幫助。
一,登陸頁(yè)內容為解決問(wèn)題而不只是描述問(wèn)題
舉個(gè)例子,有人搜“結婚穿什么衣服”時(shí),最好的頁(yè)面內容要有幾個(gè)方面的引向:【20個(gè)讓男賓客帥爆的婚禮搭配推薦】以及【精選搭配的購買(mǎi)信息】。因為這個(gè)搜索詞背后的用戶(hù)猜到他將要參加一場(chǎng)婚禮,所以終極要解決他的問(wèn)題是哪里能買(mǎi)到衣服,而不是讓他學(xué)習怎么搭配衣服。因此,優(yōu)化這個(gè)關(guān)鍵詞時(shí),我們的內容應該要解決他的最終需求,這樣的引流和轉化的效果才會(huì )更好。
二,重要事情說(shuō)三遍“加載速度、速度、速度”
信息碎片時(shí)代沒(méi)人愿意給你機會(huì )去等待,所以網(wǎng)站打開(kāi)加載速度比任何優(yōu)化點(diǎn)更加重要。打開(kāi)時(shí)間越短,用戶(hù)滿(mǎn)意度越高。對于搜索引擎是一樣的道理。所以?xún)?yōu)化一上來(lái)先考慮提速有哪些點(diǎn)可以做,如CDN,無(wú)用代碼移除,服務(wù)器寬帶升級,緩存,頁(yè)面瘦身,純靜態(tài)頁(yè)面等優(yōu)化動(dòng)作。
三,為信賴(lài)感,參與感去提升UI,UX及品牌

很多用戶(hù)打開(kāi)網(wǎng)站后會(huì )產(chǎn)生一個(gè)第一印象,好山寨,好土鱉,好不專(zhuān)業(yè)不是我們想要的結果。頁(yè)面設計需要有UI & UX的投入以及品牌自有的口碑來(lái)背書(shū),否則用戶(hù)較難產(chǎn)生對網(wǎng)站的信賴(lài)感及參與度。最實(shí)際落地的做法就是參考行業(yè)里較好的站點(diǎn)進(jìn)行模仿、購買(mǎi)付費版本的網(wǎng)站模板或讓用戶(hù)參與到每個(gè)設計環(huán)節里。
四,避免驅使用戶(hù)離開(kāi)頁(yè)面的各類(lèi)元素
很多一些彈窗、固定飄窗、廣告位會(huì )讓用戶(hù)反感,從而放棄整個(gè)瀏覽進(jìn)程。這是優(yōu)化過(guò)程中要去避免和移除的部分,考慮更加原生的方式植入這些元素或是獎勵用戶(hù)完成進(jìn)程。同時(shí),在代碼使用上避免蜘蛛被禁抓或是被難抓的可能性從而被搜索引擎降權。
五,關(guān)鍵詞植入
常規的關(guān)鍵詞植入(爆老師稱(chēng)其為填詞)也要繼續做,比如Title,H1,文章內關(guān)鍵詞,外鏈錨文字,內鏈錨文字,圖片ALT,URL,圖片命名等。這個(gè)不做多贅述,大家都明白的。
六,主題模型的灌入
光有#5填詞是不夠的,因為那個(gè)太機械化會(huì )喪失文本用戶(hù)體驗。所以我們要做主題模型,比如關(guān)鍵詞【婚禮服裝搭配】我們可以擴展到燕尾服、結婚禮服、婚禮馬甲、婚禮套裝、婚博會(huì )等等一些相關(guān)詞上。形成一個(gè)大主題,這樣的頁(yè)面內容會(huì )讓關(guān)鍵詞排名更全面而且對更多用戶(hù)有幫助。同時(shí),搜索引擎可以解讀到你要推的主題內容是婚禮服裝相關(guān)的內容。

七,展現文字的深度優(yōu)化
排名所展示出來(lái)的信息對點(diǎn)擊率很重要,所以我們竟可能要去影響這些展示信息(主要是title,desc,url)。這些元素需要在內容上進(jìn)行優(yōu)化:title的創(chuàng )意、desc的飄紅、url的規范、文章日期、使用結構數據、在線(xiàn)對話(huà)等。下面的效果如何?
八,獨有價(jià)值內容的創(chuàng )造
說(shuō)到底,營(yíng)銷(xiāo)是逃不出內容質(zhì)量的。好內容包含:1)提供唯一性特別強的視覺(jué)體驗,前端界面,適宜的字體與功能按鈕 2)內容必須有用高價(jià)值,高可信度,很有趣,值得收藏的點(diǎn)在里面 3)與其他內容相比沒(méi)有重復性,在深度上更加強勁 4)打開(kāi)速度快(無(wú)廣告),并且可以在不同終端閱讀 5)能產(chǎn)生情緒化的思緒如贊許,驚訝,快樂(lè ),思考等 6)可以達到一定的轉發(fā)和傳播力量 7)能用完整,準確獨有的信息解決問(wèn)題或是回答問(wèn)題
點(diǎn)擊進(jìn)行領(lǐng)取↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
SEO教程大放送+V:rdseo999,想學(xué)習SEO技術(shù)的同學(xué)不要錯過(guò)!
贈送教程:1、百度算法篇:42節SEO快速快排教程一套!2、網(wǎng)站運營(yíng)篇:32節教你運營(yíng)好一個(gè)網(wǎng)站!3、SEO實(shí)戰篇:9節百度SEO進(jìn)階教程!
用好搜索,能幫你解決人生80%的問(wèn)題
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 100 次瀏覽 ? 2022-07-28 23:00
「給你一把鑰匙」編輯整理
我是莉莉盒,今天的分享,源自一位小伙伴某天在群里求助「搜索方法」,我想這方面,我有經(jīng)驗可以和你聊聊。
著(zhù)名商業(yè)顧問(wèn)劉潤,他經(jīng)常在朋友圈曬自己的讀書(shū)感悟,有人就會(huì )問(wèn):潤總,這本書(shū)在哪能買(mǎi)到呢?他說(shuō),當時(shí)的內心想法就是,你去當當網(wǎng)看看啊,這還需要問(wèn)么。他當即就把這個(gè)朋友拉黑了。
他覺(jué)得,連這樣的問(wèn)題都不自己解決的人,不適合再做他的朋友。他說(shuō):“人生80%的問(wèn)題,早就被人回答過(guò),你只要搜索就好。剩下的20%,你才需要研究?!?br /> 去年,我聽(tīng)到這么一段話(huà),來(lái)自李笑來(lái)的得到專(zhuān)欄,他說(shuō):學(xué)習能力分3個(gè)階段:
會(huì )通過(guò)搜索解決問(wèn)題,把自己的學(xué)習能力不斷提升,就像是拿到了一個(gè)人生作弊器,可以突破自己的時(shí)間、地點(diǎn)局限,看到更大的世界。這是我之所以要和大家聊搜索的根本原因。
我眼里的搜索是什么?
在閱讀訓練營(yíng)的第1天,我就確認了我的目標是轉專(zhuān)業(yè)讀博,之后按照李翔老師的指導路徑,我先去搜索了what,也就是「轉專(zhuān)業(yè)讀博」意味著(zhù)什么。
當我把這個(gè)想法和周邊幾個(gè)朋友聊起的時(shí)候,大家都覺(jué)得可以,但沒(méi)辦法給出建議,這讓我感到無(wú)助。而當我把這個(gè)問(wèn)題拋給youtube和google的時(shí)候,我找到了這個(gè):74歲的最老博士,比導師大7歲,畢業(yè)論文初稿近40萬(wàn)字。
我還找到了這些,一個(gè)網(wǎng)友說(shuō):“這事兒稀奇么?我們公共管理學(xué)院滿(mǎn)地都是這樣的博士?!边€獲得了一些非常重要的洞見(jiàn),搜索得到的這些素材,幫助我:獲得了轉專(zhuān)業(yè)的感性認識、建立了自信心、了解了準備的重點(diǎn)。
在我看來(lái),「搜索」是為實(shí)現目標,尋找有用線(xiàn)索的過(guò)程。通過(guò)搜索,我對「轉專(zhuān)業(yè)讀博」這件事情的認知逐漸清晰。
它是一種破案式的思維方式,遇到問(wèn)題不能像學(xué)生時(shí)代考試一樣,坐著(zhù)硬憋;周邊朋友很多時(shí)候也有局限性,無(wú)法打開(kāi)你的思路;你更不能怕麻煩,需要一點(diǎn)點(diǎn)像破案一樣,找到心中的答案。掌握了這個(gè)工具,你就可以從社群里的「伸手黨」,變成「自己來(lái)」。
通過(guò)搜索解決問(wèn)題的整個(gè)過(guò)程,我畫(huà)了一個(gè)小模型,從發(fā)問(wèn)到獲得答案,主要有這么幾個(gè)步驟:
選擇搜索引擎→提取搜索詞→構造表達式→進(jìn)行搜索→篩選檢索結果→調整搜索策略→反思總結。
怎樣才能找到你要的答案?
每次開(kāi)始搜索,都要想一遍我搜這個(gè)的目標是什么。
方法其實(shí)很簡(jiǎn)單,就是:關(guān)鍵詞搜索法。
不要把自己的口語(yǔ)整一大段放進(jìn)搜索框里,你需要盡量的提取出關(guān)鍵詞來(lái)。當然,有時(shí)候問(wèn)題不長(cháng)的話(huà),整句話(huà)放進(jìn)去也是可以的。這就是第一步「模糊搜索」。
然后在搜索結果里進(jìn)行篩選比對,找到關(guān)鍵的搜索詞并搜索這些詞。
如果范圍還是很大,無(wú)法獲得精確的答案,那就需要第三步,用符號構造搜索表達式,進(jìn)行精準搜索。
下面用案例來(lái)說(shuō)明一下這個(gè)極簡(jiǎn)的流程:
假如,你想知道:我快要和社會(huì )脫節了,要怎么辦?
這是一個(gè)很宏觀(guān)的問(wèn)題,如果你可以回憶哪件事讓你產(chǎn)生這個(gè)看法,就可以從事件和感受中,分析這個(gè)問(wèn)題,提取關(guān)鍵詞。
如果你不愿意想那么多,分析那么多,也可以直接把這句話(huà)拋給搜索引擎。打開(kāi)百度,把「我快要和社會(huì )脫節了,要怎么辦?」輸入搜索框。
這個(gè)時(shí)候,你先不用挨個(gè)打開(kāi)具體的網(wǎng)頁(yè),而是大體上瀏覽一下前2-3頁(yè),從網(wǎng)頁(yè)的題目和摘要中,你就可以把這個(gè)宏大的問(wèn)題,提取出不同的幾個(gè)詞匯,根據自己的需要把搜索范圍縮小。
如果你會(huì )使用Google,那搜索引擎的選擇,第一位一定是選擇谷歌。
你注意到?jīng)],剛才在細化的過(guò)程中使用了一個(gè)搜索語(yǔ)法,就是“site:”,這個(gè)可以把搜索局限在某個(gè)特定的網(wǎng)站內,會(huì )更加精準。
還有其他幾個(gè)常用的搜索語(yǔ)法,比如“加號”、“減號”、“引號”,如果你搜索的是文檔,還可以增加文檔的后綴名進(jìn)行搜索。我經(jīng)常加PDF進(jìn)行搜索,這一搜來(lái)的結果相對質(zhì)量會(huì )高一些,因為任何話(huà)題能講成一篇大文章就比零碎的點(diǎn)來(lái)的系統。
下面是幾個(gè)使用搜索語(yǔ)法的示意圖。
為了準備今天的分享,我特意咨詢(xún)了一個(gè)做SEO的朋友,就是給網(wǎng)站內容做搜索詞優(yōu)化,換句話(huà)說(shuō)告訴生產(chǎn)內容的網(wǎng)站,怎么樣更容易被搜索引擎收錄。他從另外一個(gè)視角告訴我,用戶(hù)在搜索引擎的搜索意圖主要被分為三種,導航類(lèi)、信息類(lèi)和資源類(lèi)。導航類(lèi)就是要找到某個(gè)網(wǎng)站的網(wǎng)址,你直接輸入搜索框就可以了,相對比較簡(jiǎn)單。咱們今天說(shuō)的解決問(wèn)題,還主要是信息和資源。你想通過(guò)搜索,找到自己要的信息和資源。
用閱讀訓練營(yíng)的一個(gè)例子:
你聽(tīng)到某本書(shū),講述如何幫孩子訂正作業(yè)、提高分數。但你已經(jīng)不記得具體名字。
這時(shí),你就可以把自己記得的關(guān)鍵詞輸入,從結果頁(yè)面中找到《翻轉課堂的可汗學(xué)院》,不需要墊入具體頁(yè)面。這時(shí),你想看看這本書(shū)的書(shū)評,大體了解一下說(shuō)的是什么。
你可以直接進(jìn)入豆瓣,也可以在搜索引擎,用site語(yǔ)法搜索豆瓣,就可以看到其他人的評分和書(shū)評。
然后你可以進(jìn)入亞馬遜,購買(mǎi)電子版。
如果沒(méi)有kindle軟件的話(huà),同時(shí)下載一個(gè)免費的軟件。
這樣,你就可以閱讀了。
上面的一部分內容,我都沒(méi)有涉及一個(gè)選擇,就是搜索引擎。
你一般在哪搜索呢?
和大家分享一下,除了百度、谷歌,讀書(shū)和寫(xiě)作過(guò)程中,我經(jīng)常用的幾個(gè)搜索渠道。
比如:北宸老師發(fā)了一個(gè)王東岳老師的文章,感覺(jué)很好,你還想了解更多王東岳老師的思想,你可以通過(guò)「搜一搜」,用手機很快的看到他的一系列文章以及視頻,迅速對他這個(gè)人產(chǎn)生一些感性的認識。這對你是否會(huì )繼續深入的了解他的思想,可以起到快速的判斷作用。
比如:你寫(xiě)一篇搜索的文章,或者之前我寫(xiě)過(guò)一篇「反饋」的文章:(點(diǎn)擊藍字,可以閱讀),我都是在得到app里,先搜一下得到的老師們,關(guān)于這個(gè)話(huà)題都闡述過(guò)哪些角度,是否有重要的洞見(jiàn),可以借鑒。今天「搜索即認知」就是從這里獲得的靈感。幫你找到觀(guān)點(diǎn),甚至于案例方向,都很有幫助。你也可以從這里,找到一些相關(guān)的書(shū)籍。
我已經(jīng)在印象筆記收集上千條筆記,有些話(huà)題,在印象筆記里一搜,可以看到過(guò)去對這個(gè)話(huà)題積攢的東西。這個(gè)堪比是個(gè)人百度。
我在搜索中走過(guò)的坑
第一個(gè)坑,網(wǎng)絡(luò )信息浩瀚無(wú)垠,搜索一個(gè)話(huà)題,又看到另外一個(gè)有趣的信息。就會(huì )一級一級點(diǎn)擊下去。本來(lái)要給文章找素材,結果看到有趣的課程宣傳文案,看到被安利的一次旅行,就跑去買(mǎi)買(mǎi)買(mǎi)了。被信息帶跑這種事,你出現過(guò)么?
第二個(gè)坑,從不搜索變成搜索,從只看一頁(yè)搜索結果,變成看10,甚至幾十頁(yè),都覺(jué)得是不是還有哪些材料和角度沒(méi)收集到,恨不得把全網(wǎng)扒到底,而成為無(wú)限制收集狂。這時(shí)候,你需要回歸搜索目標,注意節制。
第三個(gè)坑,一說(shuō)到搜索,就會(huì )想到一堆搜索技巧和特殊的網(wǎng)站資源,總覺(jué)得高效搜索就是掌握了這些獨門(mén)資源。其實(shí),除了技巧和資源,更多的是一種思維方式的養成。
再次回到閱讀訓練營(yíng)這幾天翔哥一再和我們強調的GROW模型,問(wèn)問(wèn)自己我的搜索目標是什么,讓每一次搜索盡量在一定時(shí)間內完成預期的結果。
來(lái)個(gè)小結
一種思維方式。搜索就像是破案,需要你根據自己模模糊糊的關(guān)鍵詞,逐漸清晰,獲得自己的答案。不要怕麻煩。
兩種搜索技巧。site命令和加文檔后綴,比如PDF,可以幫助我們讓搜索更加精準。
三個(gè)搜索渠道。根據不同的搜索目的,除了百度和googol這種通用型搜索,我還常用微信、得到和印象筆記。
三個(gè)大坑:
這幾個(gè)地方幫你找到想要的書(shū)
對于愛(ài)看書(shū)的你,這幾個(gè)地方可以幫助你找到自己想要的書(shū)。
這幾個(gè)地方,搜索最好是亞馬遜。
你可以把自己希望了解的領(lǐng)域輸進(jìn)去,找到相應的書(shū)單。也可以根據前期閱讀,篩選出自己喜歡的作者,把他的書(shū)都拿來(lái)看。
下面這個(gè)網(wǎng)站,可以幫助你找到想要的電子書(shū)。我自己常用的是第5和第6.
有時(shí)候,google 可以解決一切。
上面所有的分享,都是搜索的初階,你如果想要獲得更好的信息來(lái)源。
第一步,請把你的問(wèn)題轉為英語(yǔ),輸入谷歌。
第二步,積攢自己關(guān)注主題的關(guān)鍵詞,多數就是術(shù)語(yǔ)表,找到行業(yè)里的意見(jiàn)領(lǐng)袖,關(guān)注他們關(guān)注的資源。
第三步,進(jìn)行大量的主題閱讀,積攢自己對于關(guān)注領(lǐng)域系統性的知識。讓搜索做你的輔助,而不是信息的所有來(lái)源。
曾經(jīng)在一次群聊的時(shí)候,提到對學(xué)習某些東西會(huì )有抵觸心理時(shí),李翔老師說(shuō),那你要問(wèn)問(wèn)自己“你在逃避什么?你在拒絕什么?”
這句話(huà),也送給你。
▍今日互動(dòng)
#一轉眼又到周五了,這個(gè)周末你打算怎么過(guò)?#
老編輯先來(lái):
周末我只做一件事:將一把鑰匙·李翔21天月閱讀訓練營(yíng)的作業(yè)補完
。
?。ㄒ话谚€匙·李翔21天閱讀訓練營(yíng)開(kāi)啟3人拼團模式,團購成功立減100元,1月19日24點(diǎn)截止~一般人我不告訴他,點(diǎn)擊文末閱讀原文即刻開(kāi)始拼團。)
成長(cháng)干貨推薦
▼點(diǎn)擊圖片即可閱讀 查看全部
用好搜索,能幫你解決人生80%的問(wèn)題
「給你一把鑰匙」編輯整理
我是莉莉盒,今天的分享,源自一位小伙伴某天在群里求助「搜索方法」,我想這方面,我有經(jīng)驗可以和你聊聊。
著(zhù)名商業(yè)顧問(wèn)劉潤,他經(jīng)常在朋友圈曬自己的讀書(shū)感悟,有人就會(huì )問(wèn):潤總,這本書(shū)在哪能買(mǎi)到呢?他說(shuō),當時(shí)的內心想法就是,你去當當網(wǎng)看看啊,這還需要問(wèn)么。他當即就把這個(gè)朋友拉黑了。
他覺(jué)得,連這樣的問(wèn)題都不自己解決的人,不適合再做他的朋友。他說(shuō):“人生80%的問(wèn)題,早就被人回答過(guò),你只要搜索就好。剩下的20%,你才需要研究?!?br /> 去年,我聽(tīng)到這么一段話(huà),來(lái)自李笑來(lái)的得到專(zhuān)欄,他說(shuō):學(xué)習能力分3個(gè)階段:
會(huì )通過(guò)搜索解決問(wèn)題,把自己的學(xué)習能力不斷提升,就像是拿到了一個(gè)人生作弊器,可以突破自己的時(shí)間、地點(diǎn)局限,看到更大的世界。這是我之所以要和大家聊搜索的根本原因。
我眼里的搜索是什么?
在閱讀訓練營(yíng)的第1天,我就確認了我的目標是轉專(zhuān)業(yè)讀博,之后按照李翔老師的指導路徑,我先去搜索了what,也就是「轉專(zhuān)業(yè)讀博」意味著(zhù)什么。
當我把這個(gè)想法和周邊幾個(gè)朋友聊起的時(shí)候,大家都覺(jué)得可以,但沒(méi)辦法給出建議,這讓我感到無(wú)助。而當我把這個(gè)問(wèn)題拋給youtube和google的時(shí)候,我找到了這個(gè):74歲的最老博士,比導師大7歲,畢業(yè)論文初稿近40萬(wàn)字。
我還找到了這些,一個(gè)網(wǎng)友說(shuō):“這事兒稀奇么?我們公共管理學(xué)院滿(mǎn)地都是這樣的博士?!边€獲得了一些非常重要的洞見(jiàn),搜索得到的這些素材,幫助我:獲得了轉專(zhuān)業(yè)的感性認識、建立了自信心、了解了準備的重點(diǎn)。
在我看來(lái),「搜索」是為實(shí)現目標,尋找有用線(xiàn)索的過(guò)程。通過(guò)搜索,我對「轉專(zhuān)業(yè)讀博」這件事情的認知逐漸清晰。
它是一種破案式的思維方式,遇到問(wèn)題不能像學(xué)生時(shí)代考試一樣,坐著(zhù)硬憋;周邊朋友很多時(shí)候也有局限性,無(wú)法打開(kāi)你的思路;你更不能怕麻煩,需要一點(diǎn)點(diǎn)像破案一樣,找到心中的答案。掌握了這個(gè)工具,你就可以從社群里的「伸手黨」,變成「自己來(lái)」。
通過(guò)搜索解決問(wèn)題的整個(gè)過(guò)程,我畫(huà)了一個(gè)小模型,從發(fā)問(wèn)到獲得答案,主要有這么幾個(gè)步驟:
選擇搜索引擎→提取搜索詞→構造表達式→進(jìn)行搜索→篩選檢索結果→調整搜索策略→反思總結。
怎樣才能找到你要的答案?
每次開(kāi)始搜索,都要想一遍我搜這個(gè)的目標是什么。
方法其實(shí)很簡(jiǎn)單,就是:關(guān)鍵詞搜索法。
不要把自己的口語(yǔ)整一大段放進(jìn)搜索框里,你需要盡量的提取出關(guān)鍵詞來(lái)。當然,有時(shí)候問(wèn)題不長(cháng)的話(huà),整句話(huà)放進(jìn)去也是可以的。這就是第一步「模糊搜索」。
然后在搜索結果里進(jìn)行篩選比對,找到關(guān)鍵的搜索詞并搜索這些詞。
如果范圍還是很大,無(wú)法獲得精確的答案,那就需要第三步,用符號構造搜索表達式,進(jìn)行精準搜索。
下面用案例來(lái)說(shuō)明一下這個(gè)極簡(jiǎn)的流程:
假如,你想知道:我快要和社會(huì )脫節了,要怎么辦?
這是一個(gè)很宏觀(guān)的問(wèn)題,如果你可以回憶哪件事讓你產(chǎn)生這個(gè)看法,就可以從事件和感受中,分析這個(gè)問(wèn)題,提取關(guān)鍵詞。
如果你不愿意想那么多,分析那么多,也可以直接把這句話(huà)拋給搜索引擎。打開(kāi)百度,把「我快要和社會(huì )脫節了,要怎么辦?」輸入搜索框。
這個(gè)時(shí)候,你先不用挨個(gè)打開(kāi)具體的網(wǎng)頁(yè),而是大體上瀏覽一下前2-3頁(yè),從網(wǎng)頁(yè)的題目和摘要中,你就可以把這個(gè)宏大的問(wèn)題,提取出不同的幾個(gè)詞匯,根據自己的需要把搜索范圍縮小。
如果你會(huì )使用Google,那搜索引擎的選擇,第一位一定是選擇谷歌。
你注意到?jīng)],剛才在細化的過(guò)程中使用了一個(gè)搜索語(yǔ)法,就是“site:”,這個(gè)可以把搜索局限在某個(gè)特定的網(wǎng)站內,會(huì )更加精準。

還有其他幾個(gè)常用的搜索語(yǔ)法,比如“加號”、“減號”、“引號”,如果你搜索的是文檔,還可以增加文檔的后綴名進(jìn)行搜索。我經(jīng)常加PDF進(jìn)行搜索,這一搜來(lái)的結果相對質(zhì)量會(huì )高一些,因為任何話(huà)題能講成一篇大文章就比零碎的點(diǎn)來(lái)的系統。
下面是幾個(gè)使用搜索語(yǔ)法的示意圖。
為了準備今天的分享,我特意咨詢(xún)了一個(gè)做SEO的朋友,就是給網(wǎng)站內容做搜索詞優(yōu)化,換句話(huà)說(shuō)告訴生產(chǎn)內容的網(wǎng)站,怎么樣更容易被搜索引擎收錄。他從另外一個(gè)視角告訴我,用戶(hù)在搜索引擎的搜索意圖主要被分為三種,導航類(lèi)、信息類(lèi)和資源類(lèi)。導航類(lèi)就是要找到某個(gè)網(wǎng)站的網(wǎng)址,你直接輸入搜索框就可以了,相對比較簡(jiǎn)單。咱們今天說(shuō)的解決問(wèn)題,還主要是信息和資源。你想通過(guò)搜索,找到自己要的信息和資源。
用閱讀訓練營(yíng)的一個(gè)例子:
你聽(tīng)到某本書(shū),講述如何幫孩子訂正作業(yè)、提高分數。但你已經(jīng)不記得具體名字。
這時(shí),你就可以把自己記得的關(guān)鍵詞輸入,從結果頁(yè)面中找到《翻轉課堂的可汗學(xué)院》,不需要墊入具體頁(yè)面。這時(shí),你想看看這本書(shū)的書(shū)評,大體了解一下說(shuō)的是什么。
你可以直接進(jìn)入豆瓣,也可以在搜索引擎,用site語(yǔ)法搜索豆瓣,就可以看到其他人的評分和書(shū)評。
然后你可以進(jìn)入亞馬遜,購買(mǎi)電子版。
如果沒(méi)有kindle軟件的話(huà),同時(shí)下載一個(gè)免費的軟件。
這樣,你就可以閱讀了。
上面的一部分內容,我都沒(méi)有涉及一個(gè)選擇,就是搜索引擎。
你一般在哪搜索呢?
和大家分享一下,除了百度、谷歌,讀書(shū)和寫(xiě)作過(guò)程中,我經(jīng)常用的幾個(gè)搜索渠道。
比如:北宸老師發(fā)了一個(gè)王東岳老師的文章,感覺(jué)很好,你還想了解更多王東岳老師的思想,你可以通過(guò)「搜一搜」,用手機很快的看到他的一系列文章以及視頻,迅速對他這個(gè)人產(chǎn)生一些感性的認識。這對你是否會(huì )繼續深入的了解他的思想,可以起到快速的判斷作用。
比如:你寫(xiě)一篇搜索的文章,或者之前我寫(xiě)過(guò)一篇「反饋」的文章:(點(diǎn)擊藍字,可以閱讀),我都是在得到app里,先搜一下得到的老師們,關(guān)于這個(gè)話(huà)題都闡述過(guò)哪些角度,是否有重要的洞見(jiàn),可以借鑒。今天「搜索即認知」就是從這里獲得的靈感。幫你找到觀(guān)點(diǎn),甚至于案例方向,都很有幫助。你也可以從這里,找到一些相關(guān)的書(shū)籍。
我已經(jīng)在印象筆記收集上千條筆記,有些話(huà)題,在印象筆記里一搜,可以看到過(guò)去對這個(gè)話(huà)題積攢的東西。這個(gè)堪比是個(gè)人百度。
我在搜索中走過(guò)的坑
第一個(gè)坑,網(wǎng)絡(luò )信息浩瀚無(wú)垠,搜索一個(gè)話(huà)題,又看到另外一個(gè)有趣的信息。就會(huì )一級一級點(diǎn)擊下去。本來(lái)要給文章找素材,結果看到有趣的課程宣傳文案,看到被安利的一次旅行,就跑去買(mǎi)買(mǎi)買(mǎi)了。被信息帶跑這種事,你出現過(guò)么?
第二個(gè)坑,從不搜索變成搜索,從只看一頁(yè)搜索結果,變成看10,甚至幾十頁(yè),都覺(jué)得是不是還有哪些材料和角度沒(méi)收集到,恨不得把全網(wǎng)扒到底,而成為無(wú)限制收集狂。這時(shí)候,你需要回歸搜索目標,注意節制。
第三個(gè)坑,一說(shuō)到搜索,就會(huì )想到一堆搜索技巧和特殊的網(wǎng)站資源,總覺(jué)得高效搜索就是掌握了這些獨門(mén)資源。其實(shí),除了技巧和資源,更多的是一種思維方式的養成。
再次回到閱讀訓練營(yíng)這幾天翔哥一再和我們強調的GROW模型,問(wèn)問(wèn)自己我的搜索目標是什么,讓每一次搜索盡量在一定時(shí)間內完成預期的結果。

來(lái)個(gè)小結
一種思維方式。搜索就像是破案,需要你根據自己模模糊糊的關(guān)鍵詞,逐漸清晰,獲得自己的答案。不要怕麻煩。
兩種搜索技巧。site命令和加文檔后綴,比如PDF,可以幫助我們讓搜索更加精準。
三個(gè)搜索渠道。根據不同的搜索目的,除了百度和googol這種通用型搜索,我還常用微信、得到和印象筆記。
三個(gè)大坑:
這幾個(gè)地方幫你找到想要的書(shū)
對于愛(ài)看書(shū)的你,這幾個(gè)地方可以幫助你找到自己想要的書(shū)。
這幾個(gè)地方,搜索最好是亞馬遜。
你可以把自己希望了解的領(lǐng)域輸進(jìn)去,找到相應的書(shū)單。也可以根據前期閱讀,篩選出自己喜歡的作者,把他的書(shū)都拿來(lái)看。
下面這個(gè)網(wǎng)站,可以幫助你找到想要的電子書(shū)。我自己常用的是第5和第6.
有時(shí)候,google 可以解決一切。
上面所有的分享,都是搜索的初階,你如果想要獲得更好的信息來(lái)源。
第一步,請把你的問(wèn)題轉為英語(yǔ),輸入谷歌。
第二步,積攢自己關(guān)注主題的關(guān)鍵詞,多數就是術(shù)語(yǔ)表,找到行業(yè)里的意見(jiàn)領(lǐng)袖,關(guān)注他們關(guān)注的資源。
第三步,進(jìn)行大量的主題閱讀,積攢自己對于關(guān)注領(lǐng)域系統性的知識。讓搜索做你的輔助,而不是信息的所有來(lái)源。
曾經(jīng)在一次群聊的時(shí)候,提到對學(xué)習某些東西會(huì )有抵觸心理時(shí),李翔老師說(shuō),那你要問(wèn)問(wèn)自己“你在逃避什么?你在拒絕什么?”
這句話(huà),也送給你。
▍今日互動(dòng)
#一轉眼又到周五了,這個(gè)周末你打算怎么過(guò)?#
老編輯先來(lái):
周末我只做一件事:將一把鑰匙·李翔21天月閱讀訓練營(yíng)的作業(yè)補完
。
?。ㄒ话谚€匙·李翔21天閱讀訓練營(yíng)開(kāi)啟3人拼團模式,團購成功立減100元,1月19日24點(diǎn)截止~一般人我不告訴他,點(diǎn)擊文末閱讀原文即刻開(kāi)始拼團。)
成長(cháng)干貨推薦
▼點(diǎn)擊圖片即可閱讀
關(guān)于短期惡性競爭更新搜索引擎主題模型優(yōu)化的通知(圖)
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 109 次瀏覽 ? 2022-07-26 20:08
搜索引擎主題模型優(yōu)化;實(shí)踐操作優(yōu)化;數據分析優(yōu)化(這兩個(gè)部分學(xué)習周期長(cháng),需要反復輸入搜索結果,去優(yōu)化);新聞采集優(yōu)化(去除新聞聯(lián)播中的各種水分以及每天的熱點(diǎn)輿論);垂直媒體發(fā)布模型優(yōu)化;網(wǎng)站的自身安全性?xún)?yōu)化(操作十分多,體現性?xún)r(jià)比,要承受高成本);事件的發(fā)掘優(yōu)化(即使是事件也要需要不斷的學(xué)習和總結);搜索引擎短期惡性競爭更新;搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜。
查看全部
關(guān)于短期惡性競爭更新搜索引擎主題模型優(yōu)化的通知(圖)

搜索引擎主題模型優(yōu)化;實(shí)踐操作優(yōu)化;數據分析優(yōu)化(這兩個(gè)部分學(xué)習周期長(cháng),需要反復輸入搜索結果,去優(yōu)化);新聞采集優(yōu)化(去除新聞聯(lián)播中的各種水分以及每天的熱點(diǎn)輿論);垂直媒體發(fā)布模型優(yōu)化;網(wǎng)站的自身安全性?xún)?yōu)化(操作十分多,體現性?xún)r(jià)比,要承受高成本);事件的發(fā)掘優(yōu)化(即使是事件也要需要不斷的學(xué)習和總結);搜索引擎短期惡性競爭更新;搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎短期惡性競爭更新搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜索引擎搜。

提高搜索引擎主題模型優(yōu)化技術(shù)的技巧和注意事項!
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 103 次瀏覽 ? 2022-07-25 18:08
搜索引擎主題模型優(yōu)化技術(shù)請參考::搜索引擎主題模型優(yōu)化-從優(yōu)化搜索結果頁(yè)面到優(yōu)化搜索引擎權重,
seo換的是域名,
個(gè)人覺(jué)得抓住一個(gè)核心詞去優(yōu)化,不要在乎熱度和競爭,會(huì )更有效果。
回歸網(wǎng)站本質(zhì)定位核心關(guān)鍵詞即可
如果是做seo,
我更關(guān)心關(guān)鍵詞
那就是快照,剛注冊的時(shí)候先看看自己的公司或者產(chǎn)品所對應的關(guān)鍵詞快照有沒(méi)有,然后改,
用心做,不要隨波逐流就好了。你用心了,慢慢關(guān)鍵詞的權重自然就會(huì )上去了。記住,本質(zhì)是流量,最后還是流量。
301去百度收錄
我做網(wǎng)站seo做了挺久的,雖然也不算很全面,但是我覺(jué)得通過(guò)seo方法想要提高網(wǎng)站搜索排名有以下幾點(diǎn)技巧:1.seo技術(shù)是一定要掌握的,先不談seo技術(shù)好壞,至少了解一些seo技術(shù)也算是個(gè)入門(mén)吧,關(guān)鍵詞分析啊、網(wǎng)站結構呀、網(wǎng)站代碼呀什么的,都要看看。2.多在網(wǎng)站中加些能提高你網(wǎng)站的搜索引擎收錄量的元素,這點(diǎn)很重要,因為在搜索引擎頁(yè)面有人訪(fǎng)問(wèn)的時(shí)候,這些元素都是會(huì )被收錄的,像我們做的百科網(wǎng)站,然后都加上“seo中心網(wǎng)”之類(lèi)的元素,這些都是關(guān)鍵詞提供,也會(huì )提高網(wǎng)站搜索量。
3.不要一味的追求網(wǎng)站排名,很多時(shí)候網(wǎng)站排名高低并不代表真正的訪(fǎng)問(wèn)量,排名好點(diǎn)的都是搜索人氣高的,訪(fǎng)問(wèn)量少的也不見(jiàn)得就不好,現在很多網(wǎng)站都是在我上面說(shuō)的訪(fǎng)問(wèn)量和收錄量都很少的網(wǎng)站,這個(gè)時(shí)候一定要看看每天自己網(wǎng)站在百度收錄的比例,不能掉了。4.一定要有自己的網(wǎng)站,再大的網(wǎng)站用一些垃圾鏈接都是沒(méi)有用的,不管這個(gè)網(wǎng)站權重多高,作為企業(yè)自己要了解自己的網(wǎng)站對自己做seo貢獻多大,說(shuō)到底,做網(wǎng)站最主要還是為了能賺錢(qián),能靠這網(wǎng)站賺錢(qián)才是王道。
5.在做好自己網(wǎng)站的情況下,每天堅持發(fā)布一些友情鏈接,很多公司和自己的網(wǎng)站做友情鏈接,再通過(guò)友情鏈接提高網(wǎng)站排名,想想看你收到的詢(xún)盤(pán)和收益都是你在做網(wǎng)站來(lái)的呀,這點(diǎn)錢(qián)哪里是一點(diǎn)網(wǎng)站就能賺回來(lái)的呢。 查看全部
提高搜索引擎主題模型優(yōu)化技術(shù)的技巧和注意事項!
搜索引擎主題模型優(yōu)化技術(shù)請參考::搜索引擎主題模型優(yōu)化-從優(yōu)化搜索結果頁(yè)面到優(yōu)化搜索引擎權重,
seo換的是域名,
個(gè)人覺(jué)得抓住一個(gè)核心詞去優(yōu)化,不要在乎熱度和競爭,會(huì )更有效果。

回歸網(wǎng)站本質(zhì)定位核心關(guān)鍵詞即可
如果是做seo,
我更關(guān)心關(guān)鍵詞
那就是快照,剛注冊的時(shí)候先看看自己的公司或者產(chǎn)品所對應的關(guān)鍵詞快照有沒(méi)有,然后改,

用心做,不要隨波逐流就好了。你用心了,慢慢關(guān)鍵詞的權重自然就會(huì )上去了。記住,本質(zhì)是流量,最后還是流量。
301去百度收錄
我做網(wǎng)站seo做了挺久的,雖然也不算很全面,但是我覺(jué)得通過(guò)seo方法想要提高網(wǎng)站搜索排名有以下幾點(diǎn)技巧:1.seo技術(shù)是一定要掌握的,先不談seo技術(shù)好壞,至少了解一些seo技術(shù)也算是個(gè)入門(mén)吧,關(guān)鍵詞分析啊、網(wǎng)站結構呀、網(wǎng)站代碼呀什么的,都要看看。2.多在網(wǎng)站中加些能提高你網(wǎng)站的搜索引擎收錄量的元素,這點(diǎn)很重要,因為在搜索引擎頁(yè)面有人訪(fǎng)問(wèn)的時(shí)候,這些元素都是會(huì )被收錄的,像我們做的百科網(wǎng)站,然后都加上“seo中心網(wǎng)”之類(lèi)的元素,這些都是關(guān)鍵詞提供,也會(huì )提高網(wǎng)站搜索量。
3.不要一味的追求網(wǎng)站排名,很多時(shí)候網(wǎng)站排名高低并不代表真正的訪(fǎng)問(wèn)量,排名好點(diǎn)的都是搜索人氣高的,訪(fǎng)問(wèn)量少的也不見(jiàn)得就不好,現在很多網(wǎng)站都是在我上面說(shuō)的訪(fǎng)問(wèn)量和收錄量都很少的網(wǎng)站,這個(gè)時(shí)候一定要看看每天自己網(wǎng)站在百度收錄的比例,不能掉了。4.一定要有自己的網(wǎng)站,再大的網(wǎng)站用一些垃圾鏈接都是沒(méi)有用的,不管這個(gè)網(wǎng)站權重多高,作為企業(yè)自己要了解自己的網(wǎng)站對自己做seo貢獻多大,說(shuō)到底,做網(wǎng)站最主要還是為了能賺錢(qián),能靠這網(wǎng)站賺錢(qián)才是王道。
5.在做好自己網(wǎng)站的情況下,每天堅持發(fā)布一些友情鏈接,很多公司和自己的網(wǎng)站做友情鏈接,再通過(guò)友情鏈接提高網(wǎng)站排名,想想看你收到的詢(xún)盤(pán)和收益都是你在做網(wǎng)站來(lái)的呀,這點(diǎn)錢(qián)哪里是一點(diǎn)網(wǎng)站就能賺回來(lái)的呢。
倫敦大學(xué)學(xué)院計算機系教授汪軍:決策大模型
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 120 次瀏覽 ? 2022-07-11 14:58
機器之心發(fā)布
機器之心編輯部
不久之前,在機器之心舉辦的「決策智能產(chǎn)業(yè)應用」在線(xiàn)圓桌論壇上,倫敦大學(xué)學(xué)院計算機系教授汪軍發(fā)表了主題演講《決策大模型》。
機器之心對汪軍教授的演講內容進(jìn)行了不改變原意的整理。感興趣的小伙伴可以點(diǎn)擊閱讀原文查看回顧視頻。
謝謝機器之心的邀請,我今天分享的題目是《決策大模型》。首先我將要介紹我們在決策智能領(lǐng)域做的一些研究,同時(shí)我認為大模型很重要,它代表了其在現在技術(shù)上的一個(gè)思路,不管從技術(shù)突破層面,還是實(shí)際應用層面,大模型可能給大家帶來(lái)不一樣的東西,同時(shí)大模型也有不足之處,學(xué)術(shù)界、工業(yè)界也在不斷地推進(jìn)大模型發(fā)展,所以這是一個(gè)不斷發(fā)展的研究領(lǐng)域,最后我會(huì )點(diǎn)題大模型。
決策智能和預測智能是有差別的。需要強調的是在人工智能應用領(lǐng)域,一開(kāi)始我們是在做感知智能、預測智能,這相當于在數據里面找規律,有了規律以后,我們希望能夠反饋到數據來(lái)改變數據,甚至能夠優(yōu)化決策,對數據產(chǎn)生改變,然后形成閉環(huán)。
我目前在上?;I備一個(gè)名為「數字大腦研究院」的機構,這是一家以科技創(chuàng )新與資本聯(lián)動(dòng)方式加速科技成果快速商業(yè)化的新型科研機構,已經(jīng)研發(fā)出全球第一個(gè)多智能體決策大模型。其目的也是想把決策智能應用,進(jìn)行更清楚地梳理,特別是用大模型大數據來(lái)解決決策智能問(wèn)題,驅動(dòng)各產(chǎn)業(yè)全面智能化升級。
今天我講的內容主要分成幾個(gè)部分。
首先我會(huì )介紹決策在數學(xué)上是怎么表達的,以及為何如此重要。
第二部分我會(huì )介紹決策智能最重要、最關(guān)鍵的問(wèn)題:安全性和魯棒性問(wèn)題。決策智能可應用于互聯(lián)網(wǎng),比如搜索推薦廣告,這些對安全要求其實(shí)并不高,其本質(zhì)就是推薦內容,推薦錯了也不會(huì )造成大的財產(chǎn)損失,只要平均能提高百分之幾的點(diǎn)擊率就可以了。所以在互聯(lián)網(wǎng)上的這些搜索廣告推薦,很容易就會(huì )用到?jīng)Q策的一些方法。但是我們將決策智能用到工業(yè)互聯(lián)網(wǎng),或是其他地方,情況可能就不一樣了,我們必須有一個(gè)從理論上、實(shí)際上都要保證它是安全、魯棒的。因此我會(huì )介紹一下這方面的思路是什么、研究方法,以及可能的實(shí)現方法,此外我還會(huì )介紹各個(gè)技術(shù)點(diǎn)。
第三部分我會(huì )介紹因果分析。
第四部分我會(huì )介紹貝葉斯優(yōu)化,貝葉斯優(yōu)化數據樣本效率特別高,使得我們在小數據的情況下也可以做決策。
最后我會(huì )介紹大模型,我們?yōu)槭裁匆鰶Q策的大模型?我們應該怎么做?潛在的影響是什么?
決策
首先是決策,歷史上笛卡爾在 17 世紀作為哲學(xué)家和數學(xué)家,就開(kāi)始思考人是怎樣做決策的。當然那時(shí)的科學(xué)還是比較落后的,給出的解釋是比較機械的。大家都知道所謂的二元論觀(guān)點(diǎn),即在大腦里面,二元論觀(guān)點(diǎn)認為有一個(gè)特定的器官:松果體。心靈和肉體之間有一個(gè)交互的地方,這個(gè)地方就是在大腦的松果體里。心靈是沒(méi)法解釋的,但是心靈可以控制人體行為動(dòng)作,通過(guò)心靈的引導人類(lèi)能夠進(jìn)行一些日常決策、行動(dòng)等。以上是對人的決策解釋。
其實(shí)再往前、往大的地方考慮的話(huà),有一個(gè)思路可以去解釋人、生命,即熵增熵減。整個(gè)宇宙是一個(gè)熵增的過(guò)程,即從有序變無(wú)須的狀態(tài)。假設某個(gè)封閉的空間被抽成了真空,在一邊劃一個(gè)裂縫,將氣體放進(jìn)去,慢慢擴散到整個(gè)空間,這種氣體的擴散就是從有序變成無(wú)序的狀態(tài)。生命體則相反,吸收能量,是從無(wú)序走向有序的狀態(tài);于是從人生下來(lái)到死亡是一個(gè)熵減的過(guò)程。人的生活日常其實(shí)是在找規律,即使生活環(huán)境在變,人內環(huán)境的很多東西是不會(huì )變的,比如說(shuō)身體的體溫,身體體液的成分等。所以作為一個(gè)生命體,無(wú)論外界的情況如何變化,其內部總是希望保持一個(gè)恒定的狀態(tài)。
人類(lèi)開(kāi)發(fā)了人工智能以及各種技術(shù),必然是幫助我們解決不變性的,或者說(shuō)是解決熵減。所以按照這個(gè)思路進(jìn)行思考,就會(huì )比較容易理解一個(gè)生命體如何去做決策,或者說(shuō)生命體做決策原理是什么。我們用一個(gè)最簡(jiǎn)化的數學(xué)模型來(lái)描述這個(gè)過(guò)程。
如下圖,比如說(shuō)整個(gè)世界假設它是不可知的,我們可以用一個(gè)隱變量 s* 來(lái)描述這個(gè)世界(或者說(shuō)代表世界運行的規律或真理)。然后作為個(gè)體,比如生命體或是細胞,存在于這個(gè)世界當中,受這個(gè)世界運行影響。這個(gè)生命體不知道 S * 但會(huì )觀(guān)察這個(gè)外部世界,假設這個(gè)觀(guān)察量是 o (因為 s * 是不可觀(guān)察的,但是 o 是 s * 生成的,可以推理出 s*) 。透過(guò) o,生命體對 s * 有了理解,但生命體不是 100% 完全可以推理出自然界隱藏的規律。比如說(shuō)重力,牛頓根據蘋(píng)果落地這樣一個(gè)事實(shí),他觀(guān)察到了這種現象 o,對真實(shí)世界產(chǎn)生一定認知和理解,這個(gè)認知和理解就是 s。但是 s 和 s * 可能不一樣,也可能一樣,因為其代表了個(gè)體對外界的理解。當個(gè)體理解以后,個(gè)體就會(huì )采取行動(dòng)(下圖的 u)改變世界,比如說(shuō)人,人可以改變世界,細胞可以釋放某些東西,與病毒做斗爭,所有這些都是個(gè)體對外界的影響。在外界影響的情況下,改變自然界,自然界然后又會(huì )出現新的狀態(tài)規律,個(gè)體在根據觀(guān)察做出理解和改變,依次反復。
所以對于感知智能來(lái)說(shuō),感知是從觀(guān)察到發(fā)現規律 o -> s;決策智能,就是從規律再返回事件 s -> u,來(lái)改變數據環(huán)境。
感知是主觀(guān)的,它是個(gè)體的感知,每個(gè)人可能不一樣,難以用語(yǔ)言來(lái)描述,但可以通過(guò)其他方式來(lái)描述。人與人之間會(huì )產(chǎn)生共鳴,這是為什么?因為你的感知和另外一個(gè)人的感知,對于觀(guān)察到的同一個(gè)東西或者觀(guān)察到的同一現象可能不一樣,但是會(huì )產(chǎn)生共鳴。所以當你看到這些繪畫(huà)的時(shí)候,就會(huì )和這些繪畫(huà)的作者產(chǎn)生共鳴。所以這就是感知方面的一個(gè)規律,這個(gè)也就是藝術(shù)存在的本源。
決策是如何進(jìn)行的?效用理論 (Utility theory)。John Von Neuman 是一位非常著(zhù)名的數學(xué)家,同時(shí)也是計算機學(xué)科的奠基人,他同時(shí)也創(chuàng )立了 Games Theory。在經(jīng)典的《Games Theory》里,他講到了 Utility theory,提供了一套數學(xué)工具來(lái)告訴大家怎樣去做決策。其數學(xué)表達可以認為是優(yōu)化某一個(gè)特定的函數,選擇能夠最大化函數的值。
如果一個(gè)智能體是理性的話(huà),那么怎樣做決策呢?我們還是用上面的這個(gè)例子來(lái)講,假設人或者機器都可以,他們存在于一個(gè)世界中,我從外界觀(guān)察到一個(gè)信號 o,那么我要選擇的最優(yōu)決策是什么 u?貝葉斯決策理論就是說(shuō),當我觀(guān)察 o 的時(shí)候,其實(shí)對 s 到底長(cháng)什么樣已經(jīng)有了一定的估計,比如說(shuō)一個(gè)分布和描述。通過(guò)觀(guān)察 o 之后的后驗知識,那么我對自然界的一些規律和法則有了一定的了解。這個(gè)了解反映在它的分布和后驗概率上 p(s|o)。也就是說(shuō),我對它的了解有一定的不確定性。
再來(lái)看所謂的獎勵函數。如果自然界長(cháng)成這個(gè)樣子 s,我采取了行動(dòng) u,那么我的獲利應該是多少,我們用 R(s,u) 這個(gè)函數來(lái)描述?只要你可以定義這個(gè)獲利,就可以最大化平均的獲利值。我選擇自己的決策,最大化預期利益或者說(shuō)平均利益。貝葉斯決策理論可以告訴你,這個(gè)就是最優(yōu)的決策。剛才其他演講者講到強化學(xué)習和優(yōu)化,無(wú)外乎就是上述公式,優(yōu)化一個(gè)特定的(獎勵)函數。我選擇的這個(gè)決策變量使得這個(gè)函數值是最大化的。
另外一個(gè)更基礎的問(wèn)題來(lái)了,什么是智能呢?其實(shí),智能可以用函數來(lái)解決。我使得自己的長(cháng)期收益是最好的,比如說(shuō)經(jīng)典的巴普洛夫條件反射,為什么狗可以跟它的鈴聲和食物產(chǎn)生聯(lián)系呢?為什么一聽(tīng)到鈴聲就會(huì )產(chǎn)生唾液呢?這是因為它學(xué)習到了你經(jīng)常一敲鈴便會(huì )給它食物,這樣狗當然就迅速行動(dòng)了。
從長(cháng)期角度來(lái)講,對狗這個(gè)生命體來(lái)說(shuō),它優(yōu)化了自己「迅速跑到這邊獲取食物」。狗的行為最優(yōu)的的表現是它可以適應環(huán)境獲取食物,從長(cháng)時(shí)間來(lái)達到它的受益。
但實(shí)際上,我們說(shuō)做(機器)決策智能的時(shí)候,包括將來(lái)講的應用如互聯(lián)網(wǎng)廣告,已經(jīng)廣泛地應用到了。我之前做聯(lián)合創(chuàng )始人的公司就是專(zhuān)門(mén)做強化學(xué)習用于互聯(lián)網(wǎng)廣告。除了強化學(xué)習,決策智能有其他的表現形式或數學(xué)表達,能夠解決不一樣的東西。
剛才有演講者講到了運籌優(yōu)化的內容。運籌優(yōu)化本質(zhì)是個(gè)優(yōu)化問(wèn)題,就是我給定一個(gè)目標函數 f(x),它可以是知道的,也可以是不知道的。在不知道的情況下,我們叫它黑盒優(yōu)化;在知道的情況下,我們叫它白盒優(yōu)化。然后,我的目的是要找到?jīng)Q策 x,我選擇自己的決策并最大化函數 f。這個(gè)函數可以是剛才說(shuō)到的 utility 獎勵函數,也可以是其他各種各樣的函數。那么如果從這個(gè)角度來(lái)講的話(huà),它就有很廣泛的用途。
比如其他演講者所講的電廠(chǎng)和 EDA 優(yōu)化的問(wèn)題。生物化學(xué)上,我們甚至可以用它來(lái)尋找抗體,就是用機器學(xué)習或黑盒優(yōu)化的方法,幫助找到更合適的抗體。還有演講者提到的 AutoML,它們本質(zhì)上也是黑盒優(yōu)化問(wèn)題。
黑盒優(yōu)化里面比較好的方法就是貝葉斯優(yōu)化,比如我們做優(yōu)化時(shí)允許去試錯。我們找一些 x「喂」到 f 里面,然后去測試(給出 f 的值)。如果說(shuō)我們的任務(wù)是找抗體的話(huà),則允許做一些黑盒實(shí)驗,看看化學(xué)反應如何。然后我們再去建一個(gè)對 f 了解的模型,叫做代理模型(surrogate model)。接著(zhù)再創(chuàng )建一個(gè)采集函數 (acquisition function),告訴我們下一個(gè)實(shí)驗應該怎么做 (下一個(gè)測試的輸入值 x 應該是什么),然后無(wú)限循環(huán)往復,直到實(shí)現最優(yōu) 。
貝葉斯優(yōu)化好處是什么?它從理論上保證能夠找到全局最優(yōu)。同時(shí)它也能減少做實(shí)驗的次數,所以貝葉斯優(yōu)化可以幫助我們在數據稀疏的情況下,去優(yōu)化決策。
大約一年前,我帶著(zhù)華為團隊一起做了一個(gè)貝葉斯優(yōu)化算法,獲得 NeurIPS 黑盒優(yōu)化冠軍,名字為河伯,該系統已經(jīng)開(kāi)源,被研究者廣泛使用,該研究應用領(lǐng)域包括在 Auto ML、蛋白質(zhì)設計、 MindSpore 超參數優(yōu)化、機器學(xué)習系統里的 rate 超參數優(yōu)化,此外還包括各種各樣的實(shí)際場(chǎng)景應用。接下來(lái)我會(huì )介紹幾個(gè)例子,我認為這是比強化學(xué)習更容易落地、更接地氣的方法,因為這種方法對數據要求不高。
以上是我介紹的決策智能一些重點(diǎn)內容。那么決策智能難點(diǎn)在哪?剛才有演講者講了安全的知識,安全在決策智能中非常重要,我會(huì )稍微介紹一下最近的一些算法,然后我再講一些因果分析的內容(對決策的可解釋性提供了理論基礎)。
大約十多年前,我剛去 UCL 的時(shí)候,對互聯(lián)網(wǎng)搜索的問(wèn)題很感興趣。其中很關(guān)心搜索引擎的不確定性問(wèn)題,比如用戶(hù)使用百度搜索 iPhone 4 代,能搜索出結果。但是當用戶(hù)搜索了一個(gè)困難的主題關(guān)鍵字,可能沒(méi)有一個(gè)跟用戶(hù)的需求相關(guān)的,那么用戶(hù)就會(huì )不在用這個(gè)搜索引擎,改用其他的搜索方法。所以搜索引擎需要有個(gè)有效的方法避免以上問(wèn)題出現。
我們該如何看待這個(gè)問(wèn)題?其實(shí)就是最大化用戶(hù)滿(mǎn)意度。我們在 2009 年做過(guò)一套理論,參考了投資的一些原則,就是不要把所有的錢(qián)都投到同一個(gè)地方。為什么這樣做?因為股票價(jià)值有高有低,之間此起彼伏,你需要多樣化投資組合。同樣的道理,你在做搜索推薦或者互聯(lián)網(wǎng)廣告時(shí),不要把你認為用戶(hù)相關(guān)的都展示出來(lái),萬(wàn)一判斷有錯怎么辦,所以你要多樣化你的文件列表。當時(shí)在學(xué)術(shù)圈,大家都已經(jīng)開(kāi)始做 多元化排序了,但其實(shí)沒(méi)有給出一套理論,我們給出了一套理論,該理論告訴搜索引擎在什么時(shí)候多樣化,多樣化多少的的。SIGIR 對這個(gè)工作非常認可,去年授予了 test of time honorable mention: 十年、甚至十幾年之后再去看這篇文章,還是非常有影響力的。我本身對這個(gè)工作還是非常自豪的。
安全和魯棒
在工業(yè)互聯(lián)網(wǎng)時(shí)代,需要做更加精細的決策,安全與風(fēng)險是其中重要的部分。我之前帶領(lǐng)了華為諾亞實(shí)驗室倫敦團隊,在 2022 年發(fā)表在機器學(xué)習會(huì )議 ICML 上的一篇文章(SAUTE RL)。幾乎肯定(或以概率為一)的滿(mǎn)足安全約束對于在現實(shí)應用中部署強化學(xué)習 (RL) 至關(guān)重要。例如,飛機著(zhù)陸和起飛在理想情況下應該以概率 1 發(fā)生。我們團隊通過(guò)引入安全增強的馬爾可夫決策過(guò)程(MDP)來(lái)解決這個(gè)問(wèn)題,其中通過(guò)將安全約束增強到狀態(tài)空間并重塑目標來(lái)消除安全約束。團隊證明了 “炒” (Saute)過(guò)的馬科夫決策過(guò)程( MDP) 滿(mǎn)足貝爾曼 (Bellman) 方程,并更接近于解決幾乎肯定滿(mǎn)足約束的安全強化學(xué)習。團隊認為 Saute MDP 采用了一個(gè)不同角度對待安全決策問(wèn)題。例如,新提出的方法具有即插即用的特性,即任何 RL 算法都可以 “炒”。此外,狀態(tài)增強允許跨安全約束的策略泛化。最終表明,當約束滿(mǎn)足非常重要時(shí),Saute RL 算法可以超越其最先進(jìn)的算法。在下圖所示的實(shí)驗中,可以 Saute RL 算法在一些極端的測試下,安全性仍然是綠色的,圖中虛線(xiàn)表示 100% 安全。Saute RL 算法在一些安全性要求較高的場(chǎng)景廣泛應用,比如電力、自動(dòng)駕駛等。
這是我們做的一個(gè)實(shí)驗,可以看到在一些 setting 極端策略下, 我們的方法保證 100% 安全。不管從實(shí)驗上、還是理論上我們都可以 100% 得到安全保障。如果用這些方法,我們在一些嚴格的安全性場(chǎng)景里,比如電力、自動(dòng)駕駛等,我們就可以廣泛地使用這些強化學(xué)習和優(yōu)化決策的方法了。
另外一個(gè)更難的問(wèn)題是如何保證模型訓練安全。我們將類(lèi)似的方法運用到訓練中。訓練過(guò)程中加入一個(gè)安全狀態(tài),它會(huì )記錄歷史上的操作是否安全,在學(xué)習的過(guò)程中可以根據安全狀態(tài)選擇安全的路徑。
因果分析
下面介紹因果分析 ,剛才有人講到數字孿生,這其中涉及模型和數據的關(guān)系。所謂數字孿生,本質(zhì)就是對真實(shí)世界建模,如果僅憑自己想象建模,那結果和真是世界差別很大。同樣的道理,假如你有數據,但數據不代表真實(shí)情況,數據在采樣的情況下就存在偏差,用存在偏差的數據建立模型,顯然不能真實(shí)地反映情況,導致模型和數據之間有差別。如果你用這些數據建立數字孿生去仿真、去學(xué)習,顯然不準確。所以數字孿生的核心問(wèn)題就是建立必須要讓它與環(huán)境一致、與數據一致 。舉例來(lái)說(shuō),在推薦系統里面,我們可以去做推薦的仿真 ,可以去仿真數據,但是要強調的是仿真必須跟真實(shí)情況保持一致。
我認為 Judea Pearl 因果分析的研究很有意義,給我們提供了很好的理論基礎。他提出的 結構化的因果模型(structure causal model)對 因果關(guān)系提供了一個(gè)系統的描述。從我個(gè)人理解來(lái)講,如果將其與 圖模型或者主流的統計方法相比的話(huà),主要區別在于增加了外生變量,這些外生變量對系統會(huì )造成改變。我們必須有一套理論去理解它,而不是假設它不存在,假如這些外生變量不存在,你就沒(méi)有規則去完全消除這些偏差( bias)的問(wèn)題。只有對這些外生變量建模,模型才會(huì )有效。Judea Pearl 的一個(gè)思路很有意思,就是系統的介紹了干預和想象的操作。比如 A 和 B 經(jīng)常在一起,當有 A 的時(shí)候,預測 B 的存在。但實(shí)際上 A 和 B 的存在可能是另外一個(gè) confounding 干擾變量的影響, A 和 B 實(shí)際上沒(méi)有任何內在的因果關(guān)系,他們只是關(guān)聯(lián)(association)的關(guān)系。
第二個(gè)就是 DO 操作,就是去干預 ,假如改變某一個(gè)量,另外一個(gè)量會(huì )不會(huì )隨之改變。如果我看到 A ,就說(shuō)明看到 B, 哪一天 A 消失了, B 是不是也消失了,還是 B 因為另外一個(gè) confounding 的存在導致 B 一直存在,所以你可以通過(guò)此方法進(jìn)行分析 。
第三個(gè)是想象 (imagine),你可以問(wèn) what if 問(wèn)題,剛才我們在講運籌優(yōu)化的時(shí)候,會(huì )進(jìn)行 what if 分析,問(wèn)如果當初我們執行另外一個(gè)策略,會(huì )給我們帶來(lái)什么。沒(méi)有進(jìn)行 what if 推論,就把一個(gè)策略執行到實(shí)際中是不科學(xué)的。所以,我們需要在仿真器里問(wèn)「what if question」問(wèn)題,即如果這樣做結果會(huì )怎么樣,是不是有更好的決策,這就是所謂的反事實(shí)(counterfactual),它實(shí)際沒(méi)有出現,需要在腦子里進(jìn)行想象,用數字孿生去想象,但必須保證 counterfactual 是無(wú)偏見(jiàn)的。所以,如果我們要做數字孿生,就必須解決 counterfactual 的問(wèn)題。
舉例來(lái)說(shuō),在智能推薦系統里,首要的問(wèn)題是數據偏差問(wèn)題,如下圖標記的有用戶(hù) user (U)、 推薦列表 recommendation list (R)、 正例 positive items (S) 。一個(gè)物品 items 要被用戶(hù)喜歡并且被觀(guān)察到,必須滿(mǎn)足兩個(gè)條件,首先要被推薦,如果沒(méi)有推薦,用戶(hù)就看不到,所以必須和 R 有關(guān)系;同時(shí)要跟用戶(hù) U 有關(guān)系,就是用戶(hù)可能喜歡、也可能不喜歡。同時(shí)喜歡并且被推薦了,那么這個(gè) item 是被觀(guān)察了 S, 在數據里面它是有 bias 的,如果它不在推薦系統里面,但用戶(hù)是喜歡的,這種情況下是觀(guān)察不到的。如果你使用觀(guān)察到的這些數據來(lái)構建仿真器,必然存在一個(gè)偏差項,是被推薦過(guò)去,只有被推薦過(guò)的東西你才會(huì )看見(jiàn)被仿真。但實(shí)際上還有那些沒(méi)有被推薦,實(shí)際上用戶(hù)可能喜歡的,所以你需要問(wèn) what if question,用戶(hù)是不是喜歡,如果用戶(hù)喜歡,你就推薦,如果用戶(hù)不喜歡,你就不推薦。
我們需要構建一個(gè)所謂的 數據產(chǎn)生模型 data impression model 和用戶(hù)反饋模型 user feedback model 。外生變量是需要模型的,在一般的推薦系統里面,它是不存在建模問(wèn)題的。圖中的 beta 也是個(gè)外層變量 ,需要對它進(jìn)行建模并估計。當出現新數據時(shí),我們需要估計 alpha 、beta ,然后再去糾正當前狀態(tài), 進(jìn)行真正的仿真。
我們也做了一些理論分析,如果我們有這樣的仿真系統,數據多事效果會(huì )更好。這就面臨一個(gè)問(wèn)題,有了數據以后,我是用數據來(lái)構建仿真器再去做決策,還是直接用數據做優(yōu)化決策。方案是如果你有 inductive bias 歸納偏置,構建到這個(gè)模型里面,這樣用仿真器才有意義。
小數據決策
然后我再講一下貝葉斯優(yōu)化。
我帶領(lǐng)華為團隊解決電子設計自動(dòng)化 EDA 問(wèn)題 時(shí),我們用貝葉斯優(yōu)化解決各種各樣的 EDA 的問(wèn)題。EDA 問(wèn)題其實(shí)是一個(gè)離散優(yōu)化 combination optimization 的問(wèn)題,比如我們研究的一系列序列決策問(wèn)題。我們在邏輯綜合里面,想把整個(gè)的邏輯 數據轉換成另一個(gè) 更實(shí)際的簡(jiǎn)化的邏輯實(shí)際,使它的邏輯功能完全不變,對于是否完全不變,我可以用 QoR 來(lái)橫量它,QoR 值是多少,我是不知道的,我沒(méi)有任何的數學(xué)表達,但是經(jīng)過(guò)不斷的試錯,可以達到最優(yōu),但怎么提高試錯效率?顯然我就可以用剛才講的貝葉斯黑盒優(yōu)化,對 QoR 進(jìn)行建模,然后去解決這個(gè)問(wèn)題。
今年我們也發(fā)表了論文來(lái)闡述怎樣用貝葉斯優(yōu)化來(lái)做邏輯綜合。順便提一下,我們?yōu)槿A為團隊做的研究達到 SOTA 水平,該研究在公開(kāi)測試數據里名列前茅,所以貝葉斯優(yōu)化為解決邏輯綜合問(wèn)題提供了一個(gè)比較好的思路。
我再舉另外一個(gè)例子,我想設計一個(gè)抗體能夠抗擊抗原,這兩種蛋白質(zhì)會(huì )發(fā)生一些反應。這里我們就要找出氨基酸的排列次序及其形成的蛋白質(zhì),使得 Binding-Energy 結合能最小化。使用窮舉的方法幾乎是不可能的,因為可能性空間太大了。小數據決策就需要貝葉斯優(yōu)化了。
另外,我們如何形成應用大模型和大數據的思路?我們組做了很多多智能體強化學(xué)習方向的研究。那么,智能交互相關(guān)的研究只能用在游戲上嗎,是不是可以用到其他應用上?回答是肯定的。我們最近做了一個(gè)游戲場(chǎng)景的「AI 奧林匹克」系列競賽,因為游戲場(chǎng)景可以放大決策中的關(guān)鍵問(wèn)題,使我們能夠找到其中的規律。我們的目的是通過(guò)游戲的方式弄清楚決策中的技術(shù)方法,以用到其他各種場(chǎng)景中。
這個(gè)「AI 奧林匹克」競賽和其他仿真游戲的區別是什么呢?首先在目的上,我們做這個(gè)比賽是為了探究智能體泛化性,以用于實(shí)際場(chǎng)景。第二,在「AI 奧林匹克」競賽中,智能體并不能獲取全部信息,而是只提供部分信息,我們想知道系統如何解決問(wèn)題。
我們只有把一個(gè)跨任務(wù)的,信息不完備的場(chǎng)景弄清楚,才能夠解決一些實(shí)際問(wèn)題,模型的泛化能力也就增強了。
我們在「AI 奧林匹克」系列競賽中運用了多智能體人工智能的思路。關(guān)于「多智能體人工智能是不是只能用在游戲里,還是也能用于其他場(chǎng)景」這個(gè)問(wèn)題,我們認為在多智能體場(chǎng)景下可以「重新制定(reformulate)」實(shí)際問(wèn)題。比如在運籌優(yōu)化里,包括經(jīng)典的旅行推銷(xiāo)員問(wèn)題(TSP,travel salesman problem) 多智能體學(xué)習能發(fā)揮 跨任務(wù)的優(yōu)勢,也在 meta level 層面解決這個(gè)問(wèn)題。
TSP 是一系列問(wèn)題,這一系列問(wèn)題是有共性的。我們要在 meta level 上找到這個(gè)共性,建模一個(gè)新的 TSP 問(wèn)題,只需少量數據就能很快找到答案,進(jìn)而對提出解決方案提供指導作用。
傳統的優(yōu)化算法只能解決一個(gè) TSP 問(wèn)題,對于第二個(gè)第三個(gè)等等 TSP 問(wèn)題沒(méi)有泛化性。第二,傳統方法中能夠提升模型能力的只有數據。解決第一個(gè)問(wèn)題的數據可以和之后新添加的數據結合起來(lái),讓模型的能力進(jìn)一步提高。因此這種方法是數據驅動(dòng)的(data driven)。
我們用多智能體的方式,把數據驅動(dòng)和 meta level 結合到 TSP server 里。簡(jiǎn)單來(lái)說(shuō),我會(huì )做一個(gè) meta level 的 求解方法,然后有一個(gè) Oracle 評價(jià)系統與之對抗。我讓 求解方法 和評價(jià)系統 Oracle 之間就產(chǎn)生一個(gè)對于 TSP 問(wèn)題的競賽。顯然我們可以用互相競爭的多智能體方法來(lái)解決這個(gè)問(wèn)題,例如提供一個(gè)跨任務(wù)的求解方法。多智能體人工智能在 meta level 可以幫助解決一些運籌優(yōu)化的重要問(wèn)題。
我們發(fā)現這里存在一個(gè)趨勢:從單一問(wèn)題遷移到 多個(gè)任務(wù)(meta level) 后,我們可以很快地 pre-solve 預先解決新問(wèn)題,這類(lèi)似于 NLP 自然語(yǔ)言問(wèn)題中預訓練模型的概念。
去年,UC 伯克利考慮在決策智能中使用 transformer 大模型和一些稱(chēng)為離線(xiàn)學(xué)習「offline training」的方法,拉近了 NLP 自然語(yǔ)言和 CV 機器視覺(jué)的距離。offline 的意思是運用一些策略(policy)得到一些數據,然后完全拋開(kāi)仿真器,直接拿數據進(jìn)行有監督訓練。
我們在此基礎上又測試了多智能體。offline 訓練能夠達到的水平是有限的,因為數據有局限性。而 online 方法通過(guò)微調和添加數據能夠不斷改進(jìn)訓練效果。
使用 transformer 做決策的好處是什么?首先它的泛化性非常強,這一個(gè)模型幾乎在所有任務(wù)上的效果都很好。以前每個(gè)任務(wù)都單獨用一個(gè)模型,而現在一個(gè)模型就能解決所有任務(wù)。前段時(shí)間 DeepMind 發(fā)布了一個(gè)大模型,可以解決 CV、NLP 等任務(wù)。當然,DeepMind 的大模型不包括 Multi-Agent ,但這足以證明一個(gè)模型解決多個(gè)領(lǐng)域任務(wù)是大勢所趨。我們應該創(chuàng )建一個(gè)在跨任務(wù)、聯(lián)合 CV、NLP 的通用模型。
在預訓練方面,我們認為多智能體訓練可以用語(yǔ)言模型來(lái)做,把所有的智能體和決策都生成出來(lái)。因此,語(yǔ)言模型的方法可以直接遷移到多智能體上,以達到一個(gè)非常好的效果。
?THE END轉載請聯(lián)系本公眾號獲得授權投稿或尋求報道: 查看全部
倫敦大學(xué)學(xué)院計算機系教授汪軍:決策大模型
機器之心發(fā)布
機器之心編輯部
不久之前,在機器之心舉辦的「決策智能產(chǎn)業(yè)應用」在線(xiàn)圓桌論壇上,倫敦大學(xué)學(xué)院計算機系教授汪軍發(fā)表了主題演講《決策大模型》。
機器之心對汪軍教授的演講內容進(jìn)行了不改變原意的整理。感興趣的小伙伴可以點(diǎn)擊閱讀原文查看回顧視頻。
謝謝機器之心的邀請,我今天分享的題目是《決策大模型》。首先我將要介紹我們在決策智能領(lǐng)域做的一些研究,同時(shí)我認為大模型很重要,它代表了其在現在技術(shù)上的一個(gè)思路,不管從技術(shù)突破層面,還是實(shí)際應用層面,大模型可能給大家帶來(lái)不一樣的東西,同時(shí)大模型也有不足之處,學(xué)術(shù)界、工業(yè)界也在不斷地推進(jìn)大模型發(fā)展,所以這是一個(gè)不斷發(fā)展的研究領(lǐng)域,最后我會(huì )點(diǎn)題大模型。
決策智能和預測智能是有差別的。需要強調的是在人工智能應用領(lǐng)域,一開(kāi)始我們是在做感知智能、預測智能,這相當于在數據里面找規律,有了規律以后,我們希望能夠反饋到數據來(lái)改變數據,甚至能夠優(yōu)化決策,對數據產(chǎn)生改變,然后形成閉環(huán)。
我目前在上?;I備一個(gè)名為「數字大腦研究院」的機構,這是一家以科技創(chuàng )新與資本聯(lián)動(dòng)方式加速科技成果快速商業(yè)化的新型科研機構,已經(jīng)研發(fā)出全球第一個(gè)多智能體決策大模型。其目的也是想把決策智能應用,進(jìn)行更清楚地梳理,特別是用大模型大數據來(lái)解決決策智能問(wèn)題,驅動(dòng)各產(chǎn)業(yè)全面智能化升級。
今天我講的內容主要分成幾個(gè)部分。
首先我會(huì )介紹決策在數學(xué)上是怎么表達的,以及為何如此重要。
第二部分我會(huì )介紹決策智能最重要、最關(guān)鍵的問(wèn)題:安全性和魯棒性問(wèn)題。決策智能可應用于互聯(lián)網(wǎng),比如搜索推薦廣告,這些對安全要求其實(shí)并不高,其本質(zhì)就是推薦內容,推薦錯了也不會(huì )造成大的財產(chǎn)損失,只要平均能提高百分之幾的點(diǎn)擊率就可以了。所以在互聯(lián)網(wǎng)上的這些搜索廣告推薦,很容易就會(huì )用到?jīng)Q策的一些方法。但是我們將決策智能用到工業(yè)互聯(lián)網(wǎng),或是其他地方,情況可能就不一樣了,我們必須有一個(gè)從理論上、實(shí)際上都要保證它是安全、魯棒的。因此我會(huì )介紹一下這方面的思路是什么、研究方法,以及可能的實(shí)現方法,此外我還會(huì )介紹各個(gè)技術(shù)點(diǎn)。
第三部分我會(huì )介紹因果分析。
第四部分我會(huì )介紹貝葉斯優(yōu)化,貝葉斯優(yōu)化數據樣本效率特別高,使得我們在小數據的情況下也可以做決策。
最后我會(huì )介紹大模型,我們?yōu)槭裁匆鰶Q策的大模型?我們應該怎么做?潛在的影響是什么?
決策
首先是決策,歷史上笛卡爾在 17 世紀作為哲學(xué)家和數學(xué)家,就開(kāi)始思考人是怎樣做決策的。當然那時(shí)的科學(xué)還是比較落后的,給出的解釋是比較機械的。大家都知道所謂的二元論觀(guān)點(diǎn),即在大腦里面,二元論觀(guān)點(diǎn)認為有一個(gè)特定的器官:松果體。心靈和肉體之間有一個(gè)交互的地方,這個(gè)地方就是在大腦的松果體里。心靈是沒(méi)法解釋的,但是心靈可以控制人體行為動(dòng)作,通過(guò)心靈的引導人類(lèi)能夠進(jìn)行一些日常決策、行動(dòng)等。以上是對人的決策解釋。
其實(shí)再往前、往大的地方考慮的話(huà),有一個(gè)思路可以去解釋人、生命,即熵增熵減。整個(gè)宇宙是一個(gè)熵增的過(guò)程,即從有序變無(wú)須的狀態(tài)。假設某個(gè)封閉的空間被抽成了真空,在一邊劃一個(gè)裂縫,將氣體放進(jìn)去,慢慢擴散到整個(gè)空間,這種氣體的擴散就是從有序變成無(wú)序的狀態(tài)。生命體則相反,吸收能量,是從無(wú)序走向有序的狀態(tài);于是從人生下來(lái)到死亡是一個(gè)熵減的過(guò)程。人的生活日常其實(shí)是在找規律,即使生活環(huán)境在變,人內環(huán)境的很多東西是不會(huì )變的,比如說(shuō)身體的體溫,身體體液的成分等。所以作為一個(gè)生命體,無(wú)論外界的情況如何變化,其內部總是希望保持一個(gè)恒定的狀態(tài)。
人類(lèi)開(kāi)發(fā)了人工智能以及各種技術(shù),必然是幫助我們解決不變性的,或者說(shuō)是解決熵減。所以按照這個(gè)思路進(jìn)行思考,就會(huì )比較容易理解一個(gè)生命體如何去做決策,或者說(shuō)生命體做決策原理是什么。我們用一個(gè)最簡(jiǎn)化的數學(xué)模型來(lái)描述這個(gè)過(guò)程。
如下圖,比如說(shuō)整個(gè)世界假設它是不可知的,我們可以用一個(gè)隱變量 s* 來(lái)描述這個(gè)世界(或者說(shuō)代表世界運行的規律或真理)。然后作為個(gè)體,比如生命體或是細胞,存在于這個(gè)世界當中,受這個(gè)世界運行影響。這個(gè)生命體不知道 S * 但會(huì )觀(guān)察這個(gè)外部世界,假設這個(gè)觀(guān)察量是 o (因為 s * 是不可觀(guān)察的,但是 o 是 s * 生成的,可以推理出 s*) 。透過(guò) o,生命體對 s * 有了理解,但生命體不是 100% 完全可以推理出自然界隱藏的規律。比如說(shuō)重力,牛頓根據蘋(píng)果落地這樣一個(gè)事實(shí),他觀(guān)察到了這種現象 o,對真實(shí)世界產(chǎn)生一定認知和理解,這個(gè)認知和理解就是 s。但是 s 和 s * 可能不一樣,也可能一樣,因為其代表了個(gè)體對外界的理解。當個(gè)體理解以后,個(gè)體就會(huì )采取行動(dòng)(下圖的 u)改變世界,比如說(shuō)人,人可以改變世界,細胞可以釋放某些東西,與病毒做斗爭,所有這些都是個(gè)體對外界的影響。在外界影響的情況下,改變自然界,自然界然后又會(huì )出現新的狀態(tài)規律,個(gè)體在根據觀(guān)察做出理解和改變,依次反復。
所以對于感知智能來(lái)說(shuō),感知是從觀(guān)察到發(fā)現規律 o -> s;決策智能,就是從規律再返回事件 s -> u,來(lái)改變數據環(huán)境。
感知是主觀(guān)的,它是個(gè)體的感知,每個(gè)人可能不一樣,難以用語(yǔ)言來(lái)描述,但可以通過(guò)其他方式來(lái)描述。人與人之間會(huì )產(chǎn)生共鳴,這是為什么?因為你的感知和另外一個(gè)人的感知,對于觀(guān)察到的同一個(gè)東西或者觀(guān)察到的同一現象可能不一樣,但是會(huì )產(chǎn)生共鳴。所以當你看到這些繪畫(huà)的時(shí)候,就會(huì )和這些繪畫(huà)的作者產(chǎn)生共鳴。所以這就是感知方面的一個(gè)規律,這個(gè)也就是藝術(shù)存在的本源。
決策是如何進(jìn)行的?效用理論 (Utility theory)。John Von Neuman 是一位非常著(zhù)名的數學(xué)家,同時(shí)也是計算機學(xué)科的奠基人,他同時(shí)也創(chuàng )立了 Games Theory。在經(jīng)典的《Games Theory》里,他講到了 Utility theory,提供了一套數學(xué)工具來(lái)告訴大家怎樣去做決策。其數學(xué)表達可以認為是優(yōu)化某一個(gè)特定的函數,選擇能夠最大化函數的值。
如果一個(gè)智能體是理性的話(huà),那么怎樣做決策呢?我們還是用上面的這個(gè)例子來(lái)講,假設人或者機器都可以,他們存在于一個(gè)世界中,我從外界觀(guān)察到一個(gè)信號 o,那么我要選擇的最優(yōu)決策是什么 u?貝葉斯決策理論就是說(shuō),當我觀(guān)察 o 的時(shí)候,其實(shí)對 s 到底長(cháng)什么樣已經(jīng)有了一定的估計,比如說(shuō)一個(gè)分布和描述。通過(guò)觀(guān)察 o 之后的后驗知識,那么我對自然界的一些規律和法則有了一定的了解。這個(gè)了解反映在它的分布和后驗概率上 p(s|o)。也就是說(shuō),我對它的了解有一定的不確定性。

再來(lái)看所謂的獎勵函數。如果自然界長(cháng)成這個(gè)樣子 s,我采取了行動(dòng) u,那么我的獲利應該是多少,我們用 R(s,u) 這個(gè)函數來(lái)描述?只要你可以定義這個(gè)獲利,就可以最大化平均的獲利值。我選擇自己的決策,最大化預期利益或者說(shuō)平均利益。貝葉斯決策理論可以告訴你,這個(gè)就是最優(yōu)的決策。剛才其他演講者講到強化學(xué)習和優(yōu)化,無(wú)外乎就是上述公式,優(yōu)化一個(gè)特定的(獎勵)函數。我選擇的這個(gè)決策變量使得這個(gè)函數值是最大化的。
另外一個(gè)更基礎的問(wèn)題來(lái)了,什么是智能呢?其實(shí),智能可以用函數來(lái)解決。我使得自己的長(cháng)期收益是最好的,比如說(shuō)經(jīng)典的巴普洛夫條件反射,為什么狗可以跟它的鈴聲和食物產(chǎn)生聯(lián)系呢?為什么一聽(tīng)到鈴聲就會(huì )產(chǎn)生唾液呢?這是因為它學(xué)習到了你經(jīng)常一敲鈴便會(huì )給它食物,這樣狗當然就迅速行動(dòng)了。
從長(cháng)期角度來(lái)講,對狗這個(gè)生命體來(lái)說(shuō),它優(yōu)化了自己「迅速跑到這邊獲取食物」。狗的行為最優(yōu)的的表現是它可以適應環(huán)境獲取食物,從長(cháng)時(shí)間來(lái)達到它的受益。
但實(shí)際上,我們說(shuō)做(機器)決策智能的時(shí)候,包括將來(lái)講的應用如互聯(lián)網(wǎng)廣告,已經(jīng)廣泛地應用到了。我之前做聯(lián)合創(chuàng )始人的公司就是專(zhuān)門(mén)做強化學(xué)習用于互聯(lián)網(wǎng)廣告。除了強化學(xué)習,決策智能有其他的表現形式或數學(xué)表達,能夠解決不一樣的東西。
剛才有演講者講到了運籌優(yōu)化的內容。運籌優(yōu)化本質(zhì)是個(gè)優(yōu)化問(wèn)題,就是我給定一個(gè)目標函數 f(x),它可以是知道的,也可以是不知道的。在不知道的情況下,我們叫它黑盒優(yōu)化;在知道的情況下,我們叫它白盒優(yōu)化。然后,我的目的是要找到?jīng)Q策 x,我選擇自己的決策并最大化函數 f。這個(gè)函數可以是剛才說(shuō)到的 utility 獎勵函數,也可以是其他各種各樣的函數。那么如果從這個(gè)角度來(lái)講的話(huà),它就有很廣泛的用途。
比如其他演講者所講的電廠(chǎng)和 EDA 優(yōu)化的問(wèn)題。生物化學(xué)上,我們甚至可以用它來(lái)尋找抗體,就是用機器學(xué)習或黑盒優(yōu)化的方法,幫助找到更合適的抗體。還有演講者提到的 AutoML,它們本質(zhì)上也是黑盒優(yōu)化問(wèn)題。
黑盒優(yōu)化里面比較好的方法就是貝葉斯優(yōu)化,比如我們做優(yōu)化時(shí)允許去試錯。我們找一些 x「喂」到 f 里面,然后去測試(給出 f 的值)。如果說(shuō)我們的任務(wù)是找抗體的話(huà),則允許做一些黑盒實(shí)驗,看看化學(xué)反應如何。然后我們再去建一個(gè)對 f 了解的模型,叫做代理模型(surrogate model)。接著(zhù)再創(chuàng )建一個(gè)采集函數 (acquisition function),告訴我們下一個(gè)實(shí)驗應該怎么做 (下一個(gè)測試的輸入值 x 應該是什么),然后無(wú)限循環(huán)往復,直到實(shí)現最優(yōu) 。
貝葉斯優(yōu)化好處是什么?它從理論上保證能夠找到全局最優(yōu)。同時(shí)它也能減少做實(shí)驗的次數,所以貝葉斯優(yōu)化可以幫助我們在數據稀疏的情況下,去優(yōu)化決策。
大約一年前,我帶著(zhù)華為團隊一起做了一個(gè)貝葉斯優(yōu)化算法,獲得 NeurIPS 黑盒優(yōu)化冠軍,名字為河伯,該系統已經(jīng)開(kāi)源,被研究者廣泛使用,該研究應用領(lǐng)域包括在 Auto ML、蛋白質(zhì)設計、 MindSpore 超參數優(yōu)化、機器學(xué)習系統里的 rate 超參數優(yōu)化,此外還包括各種各樣的實(shí)際場(chǎng)景應用。接下來(lái)我會(huì )介紹幾個(gè)例子,我認為這是比強化學(xué)習更容易落地、更接地氣的方法,因為這種方法對數據要求不高。
以上是我介紹的決策智能一些重點(diǎn)內容。那么決策智能難點(diǎn)在哪?剛才有演講者講了安全的知識,安全在決策智能中非常重要,我會(huì )稍微介紹一下最近的一些算法,然后我再講一些因果分析的內容(對決策的可解釋性提供了理論基礎)。
大約十多年前,我剛去 UCL 的時(shí)候,對互聯(lián)網(wǎng)搜索的問(wèn)題很感興趣。其中很關(guān)心搜索引擎的不確定性問(wèn)題,比如用戶(hù)使用百度搜索 iPhone 4 代,能搜索出結果。但是當用戶(hù)搜索了一個(gè)困難的主題關(guān)鍵字,可能沒(méi)有一個(gè)跟用戶(hù)的需求相關(guān)的,那么用戶(hù)就會(huì )不在用這個(gè)搜索引擎,改用其他的搜索方法。所以搜索引擎需要有個(gè)有效的方法避免以上問(wèn)題出現。
我們該如何看待這個(gè)問(wèn)題?其實(shí)就是最大化用戶(hù)滿(mǎn)意度。我們在 2009 年做過(guò)一套理論,參考了投資的一些原則,就是不要把所有的錢(qián)都投到同一個(gè)地方。為什么這樣做?因為股票價(jià)值有高有低,之間此起彼伏,你需要多樣化投資組合。同樣的道理,你在做搜索推薦或者互聯(lián)網(wǎng)廣告時(shí),不要把你認為用戶(hù)相關(guān)的都展示出來(lái),萬(wàn)一判斷有錯怎么辦,所以你要多樣化你的文件列表。當時(shí)在學(xué)術(shù)圈,大家都已經(jīng)開(kāi)始做 多元化排序了,但其實(shí)沒(méi)有給出一套理論,我們給出了一套理論,該理論告訴搜索引擎在什么時(shí)候多樣化,多樣化多少的的。SIGIR 對這個(gè)工作非常認可,去年授予了 test of time honorable mention: 十年、甚至十幾年之后再去看這篇文章,還是非常有影響力的。我本身對這個(gè)工作還是非常自豪的。
安全和魯棒
在工業(yè)互聯(lián)網(wǎng)時(shí)代,需要做更加精細的決策,安全與風(fēng)險是其中重要的部分。我之前帶領(lǐng)了華為諾亞實(shí)驗室倫敦團隊,在 2022 年發(fā)表在機器學(xué)習會(huì )議 ICML 上的一篇文章(SAUTE RL)。幾乎肯定(或以概率為一)的滿(mǎn)足安全約束對于在現實(shí)應用中部署強化學(xué)習 (RL) 至關(guān)重要。例如,飛機著(zhù)陸和起飛在理想情況下應該以概率 1 發(fā)生。我們團隊通過(guò)引入安全增強的馬爾可夫決策過(guò)程(MDP)來(lái)解決這個(gè)問(wèn)題,其中通過(guò)將安全約束增強到狀態(tài)空間并重塑目標來(lái)消除安全約束。團隊證明了 “炒” (Saute)過(guò)的馬科夫決策過(guò)程( MDP) 滿(mǎn)足貝爾曼 (Bellman) 方程,并更接近于解決幾乎肯定滿(mǎn)足約束的安全強化學(xué)習。團隊認為 Saute MDP 采用了一個(gè)不同角度對待安全決策問(wèn)題。例如,新提出的方法具有即插即用的特性,即任何 RL 算法都可以 “炒”。此外,狀態(tài)增強允許跨安全約束的策略泛化。最終表明,當約束滿(mǎn)足非常重要時(shí),Saute RL 算法可以超越其最先進(jìn)的算法。在下圖所示的實(shí)驗中,可以 Saute RL 算法在一些極端的測試下,安全性仍然是綠色的,圖中虛線(xiàn)表示 100% 安全。Saute RL 算法在一些安全性要求較高的場(chǎng)景廣泛應用,比如電力、自動(dòng)駕駛等。
這是我們做的一個(gè)實(shí)驗,可以看到在一些 setting 極端策略下, 我們的方法保證 100% 安全。不管從實(shí)驗上、還是理論上我們都可以 100% 得到安全保障。如果用這些方法,我們在一些嚴格的安全性場(chǎng)景里,比如電力、自動(dòng)駕駛等,我們就可以廣泛地使用這些強化學(xué)習和優(yōu)化決策的方法了。
另外一個(gè)更難的問(wèn)題是如何保證模型訓練安全。我們將類(lèi)似的方法運用到訓練中。訓練過(guò)程中加入一個(gè)安全狀態(tài),它會(huì )記錄歷史上的操作是否安全,在學(xué)習的過(guò)程中可以根據安全狀態(tài)選擇安全的路徑。
因果分析
下面介紹因果分析 ,剛才有人講到數字孿生,這其中涉及模型和數據的關(guān)系。所謂數字孿生,本質(zhì)就是對真實(shí)世界建模,如果僅憑自己想象建模,那結果和真是世界差別很大。同樣的道理,假如你有數據,但數據不代表真實(shí)情況,數據在采樣的情況下就存在偏差,用存在偏差的數據建立模型,顯然不能真實(shí)地反映情況,導致模型和數據之間有差別。如果你用這些數據建立數字孿生去仿真、去學(xué)習,顯然不準確。所以數字孿生的核心問(wèn)題就是建立必須要讓它與環(huán)境一致、與數據一致 。舉例來(lái)說(shuō),在推薦系統里面,我們可以去做推薦的仿真 ,可以去仿真數據,但是要強調的是仿真必須跟真實(shí)情況保持一致。
我認為 Judea Pearl 因果分析的研究很有意義,給我們提供了很好的理論基礎。他提出的 結構化的因果模型(structure causal model)對 因果關(guān)系提供了一個(gè)系統的描述。從我個(gè)人理解來(lái)講,如果將其與 圖模型或者主流的統計方法相比的話(huà),主要區別在于增加了外生變量,這些外生變量對系統會(huì )造成改變。我們必須有一套理論去理解它,而不是假設它不存在,假如這些外生變量不存在,你就沒(méi)有規則去完全消除這些偏差( bias)的問(wèn)題。只有對這些外生變量建模,模型才會(huì )有效。Judea Pearl 的一個(gè)思路很有意思,就是系統的介紹了干預和想象的操作。比如 A 和 B 經(jīng)常在一起,當有 A 的時(shí)候,預測 B 的存在。但實(shí)際上 A 和 B 的存在可能是另外一個(gè) confounding 干擾變量的影響, A 和 B 實(shí)際上沒(méi)有任何內在的因果關(guān)系,他們只是關(guān)聯(lián)(association)的關(guān)系。
第二個(gè)就是 DO 操作,就是去干預 ,假如改變某一個(gè)量,另外一個(gè)量會(huì )不會(huì )隨之改變。如果我看到 A ,就說(shuō)明看到 B, 哪一天 A 消失了, B 是不是也消失了,還是 B 因為另外一個(gè) confounding 的存在導致 B 一直存在,所以你可以通過(guò)此方法進(jìn)行分析 。
第三個(gè)是想象 (imagine),你可以問(wèn) what if 問(wèn)題,剛才我們在講運籌優(yōu)化的時(shí)候,會(huì )進(jìn)行 what if 分析,問(wèn)如果當初我們執行另外一個(gè)策略,會(huì )給我們帶來(lái)什么。沒(méi)有進(jìn)行 what if 推論,就把一個(gè)策略執行到實(shí)際中是不科學(xué)的。所以,我們需要在仿真器里問(wèn)「what if question」問(wèn)題,即如果這樣做結果會(huì )怎么樣,是不是有更好的決策,這就是所謂的反事實(shí)(counterfactual),它實(shí)際沒(méi)有出現,需要在腦子里進(jìn)行想象,用數字孿生去想象,但必須保證 counterfactual 是無(wú)偏見(jiàn)的。所以,如果我們要做數字孿生,就必須解決 counterfactual 的問(wèn)題。

舉例來(lái)說(shuō),在智能推薦系統里,首要的問(wèn)題是數據偏差問(wèn)題,如下圖標記的有用戶(hù) user (U)、 推薦列表 recommendation list (R)、 正例 positive items (S) 。一個(gè)物品 items 要被用戶(hù)喜歡并且被觀(guān)察到,必須滿(mǎn)足兩個(gè)條件,首先要被推薦,如果沒(méi)有推薦,用戶(hù)就看不到,所以必須和 R 有關(guān)系;同時(shí)要跟用戶(hù) U 有關(guān)系,就是用戶(hù)可能喜歡、也可能不喜歡。同時(shí)喜歡并且被推薦了,那么這個(gè) item 是被觀(guān)察了 S, 在數據里面它是有 bias 的,如果它不在推薦系統里面,但用戶(hù)是喜歡的,這種情況下是觀(guān)察不到的。如果你使用觀(guān)察到的這些數據來(lái)構建仿真器,必然存在一個(gè)偏差項,是被推薦過(guò)去,只有被推薦過(guò)的東西你才會(huì )看見(jiàn)被仿真。但實(shí)際上還有那些沒(méi)有被推薦,實(shí)際上用戶(hù)可能喜歡的,所以你需要問(wèn) what if question,用戶(hù)是不是喜歡,如果用戶(hù)喜歡,你就推薦,如果用戶(hù)不喜歡,你就不推薦。
我們需要構建一個(gè)所謂的 數據產(chǎn)生模型 data impression model 和用戶(hù)反饋模型 user feedback model 。外生變量是需要模型的,在一般的推薦系統里面,它是不存在建模問(wèn)題的。圖中的 beta 也是個(gè)外層變量 ,需要對它進(jìn)行建模并估計。當出現新數據時(shí),我們需要估計 alpha 、beta ,然后再去糾正當前狀態(tài), 進(jìn)行真正的仿真。
我們也做了一些理論分析,如果我們有這樣的仿真系統,數據多事效果會(huì )更好。這就面臨一個(gè)問(wèn)題,有了數據以后,我是用數據來(lái)構建仿真器再去做決策,還是直接用數據做優(yōu)化決策。方案是如果你有 inductive bias 歸納偏置,構建到這個(gè)模型里面,這樣用仿真器才有意義。
小數據決策
然后我再講一下貝葉斯優(yōu)化。
我帶領(lǐng)華為團隊解決電子設計自動(dòng)化 EDA 問(wèn)題 時(shí),我們用貝葉斯優(yōu)化解決各種各樣的 EDA 的問(wèn)題。EDA 問(wèn)題其實(shí)是一個(gè)離散優(yōu)化 combination optimization 的問(wèn)題,比如我們研究的一系列序列決策問(wèn)題。我們在邏輯綜合里面,想把整個(gè)的邏輯 數據轉換成另一個(gè) 更實(shí)際的簡(jiǎn)化的邏輯實(shí)際,使它的邏輯功能完全不變,對于是否完全不變,我可以用 QoR 來(lái)橫量它,QoR 值是多少,我是不知道的,我沒(méi)有任何的數學(xué)表達,但是經(jīng)過(guò)不斷的試錯,可以達到最優(yōu),但怎么提高試錯效率?顯然我就可以用剛才講的貝葉斯黑盒優(yōu)化,對 QoR 進(jìn)行建模,然后去解決這個(gè)問(wèn)題。
今年我們也發(fā)表了論文來(lái)闡述怎樣用貝葉斯優(yōu)化來(lái)做邏輯綜合。順便提一下,我們?yōu)槿A為團隊做的研究達到 SOTA 水平,該研究在公開(kāi)測試數據里名列前茅,所以貝葉斯優(yōu)化為解決邏輯綜合問(wèn)題提供了一個(gè)比較好的思路。
我再舉另外一個(gè)例子,我想設計一個(gè)抗體能夠抗擊抗原,這兩種蛋白質(zhì)會(huì )發(fā)生一些反應。這里我們就要找出氨基酸的排列次序及其形成的蛋白質(zhì),使得 Binding-Energy 結合能最小化。使用窮舉的方法幾乎是不可能的,因為可能性空間太大了。小數據決策就需要貝葉斯優(yōu)化了。
另外,我們如何形成應用大模型和大數據的思路?我們組做了很多多智能體強化學(xué)習方向的研究。那么,智能交互相關(guān)的研究只能用在游戲上嗎,是不是可以用到其他應用上?回答是肯定的。我們最近做了一個(gè)游戲場(chǎng)景的「AI 奧林匹克」系列競賽,因為游戲場(chǎng)景可以放大決策中的關(guān)鍵問(wèn)題,使我們能夠找到其中的規律。我們的目的是通過(guò)游戲的方式弄清楚決策中的技術(shù)方法,以用到其他各種場(chǎng)景中。
這個(gè)「AI 奧林匹克」競賽和其他仿真游戲的區別是什么呢?首先在目的上,我們做這個(gè)比賽是為了探究智能體泛化性,以用于實(shí)際場(chǎng)景。第二,在「AI 奧林匹克」競賽中,智能體并不能獲取全部信息,而是只提供部分信息,我們想知道系統如何解決問(wèn)題。
我們只有把一個(gè)跨任務(wù)的,信息不完備的場(chǎng)景弄清楚,才能夠解決一些實(shí)際問(wèn)題,模型的泛化能力也就增強了。
我們在「AI 奧林匹克」系列競賽中運用了多智能體人工智能的思路。關(guān)于「多智能體人工智能是不是只能用在游戲里,還是也能用于其他場(chǎng)景」這個(gè)問(wèn)題,我們認為在多智能體場(chǎng)景下可以「重新制定(reformulate)」實(shí)際問(wèn)題。比如在運籌優(yōu)化里,包括經(jīng)典的旅行推銷(xiāo)員問(wèn)題(TSP,travel salesman problem) 多智能體學(xué)習能發(fā)揮 跨任務(wù)的優(yōu)勢,也在 meta level 層面解決這個(gè)問(wèn)題。
TSP 是一系列問(wèn)題,這一系列問(wèn)題是有共性的。我們要在 meta level 上找到這個(gè)共性,建模一個(gè)新的 TSP 問(wèn)題,只需少量數據就能很快找到答案,進(jìn)而對提出解決方案提供指導作用。
傳統的優(yōu)化算法只能解決一個(gè) TSP 問(wèn)題,對于第二個(gè)第三個(gè)等等 TSP 問(wèn)題沒(méi)有泛化性。第二,傳統方法中能夠提升模型能力的只有數據。解決第一個(gè)問(wèn)題的數據可以和之后新添加的數據結合起來(lái),讓模型的能力進(jìn)一步提高。因此這種方法是數據驅動(dòng)的(data driven)。
我們用多智能體的方式,把數據驅動(dòng)和 meta level 結合到 TSP server 里。簡(jiǎn)單來(lái)說(shuō),我會(huì )做一個(gè) meta level 的 求解方法,然后有一個(gè) Oracle 評價(jià)系統與之對抗。我讓 求解方法 和評價(jià)系統 Oracle 之間就產(chǎn)生一個(gè)對于 TSP 問(wèn)題的競賽。顯然我們可以用互相競爭的多智能體方法來(lái)解決這個(gè)問(wèn)題,例如提供一個(gè)跨任務(wù)的求解方法。多智能體人工智能在 meta level 可以幫助解決一些運籌優(yōu)化的重要問(wèn)題。
我們發(fā)現這里存在一個(gè)趨勢:從單一問(wèn)題遷移到 多個(gè)任務(wù)(meta level) 后,我們可以很快地 pre-solve 預先解決新問(wèn)題,這類(lèi)似于 NLP 自然語(yǔ)言問(wèn)題中預訓練模型的概念。
去年,UC 伯克利考慮在決策智能中使用 transformer 大模型和一些稱(chēng)為離線(xiàn)學(xué)習「offline training」的方法,拉近了 NLP 自然語(yǔ)言和 CV 機器視覺(jué)的距離。offline 的意思是運用一些策略(policy)得到一些數據,然后完全拋開(kāi)仿真器,直接拿數據進(jìn)行有監督訓練。
我們在此基礎上又測試了多智能體。offline 訓練能夠達到的水平是有限的,因為數據有局限性。而 online 方法通過(guò)微調和添加數據能夠不斷改進(jìn)訓練效果。
使用 transformer 做決策的好處是什么?首先它的泛化性非常強,這一個(gè)模型幾乎在所有任務(wù)上的效果都很好。以前每個(gè)任務(wù)都單獨用一個(gè)模型,而現在一個(gè)模型就能解決所有任務(wù)。前段時(shí)間 DeepMind 發(fā)布了一個(gè)大模型,可以解決 CV、NLP 等任務(wù)。當然,DeepMind 的大模型不包括 Multi-Agent ,但這足以證明一個(gè)模型解決多個(gè)領(lǐng)域任務(wù)是大勢所趨。我們應該創(chuàng )建一個(gè)在跨任務(wù)、聯(lián)合 CV、NLP 的通用模型。
在預訓練方面,我們認為多智能體訓練可以用語(yǔ)言模型來(lái)做,把所有的智能體和決策都生成出來(lái)。因此,語(yǔ)言模型的方法可以直接遷移到多智能體上,以達到一個(gè)非常好的效果。
?THE END轉載請聯(lián)系本公眾號獲得授權投稿或尋求報道:
編程如何快速搞定google文章爬蟲(chóng)搜索引擎索引關(guān)鍵詞權重算法
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 109 次瀏覽 ? 2022-07-04 16:02
搜索引擎主題模型優(yōu)化關(guān)鍵詞優(yōu)化ebm高質(zhì)量搜索引擎索引關(guān)鍵詞權重算法低質(zhì)量關(guān)鍵詞權重減少ebmrobotboat改進(jìn)因特網(wǎng)蜘蛛效率基于站點(diǎn)的搜索引擎實(shí)時(shí)檢索實(shí)用索引指南詳盡的內容如何將現有不適合添加到搜索引擎第三方主題模型的內容加入到搜索引擎索引樹(shù)中索引樹(shù)索引樹(shù)索引樹(shù)索引樹(shù)博客索引樹(shù)博客索引樹(shù)通用文章索引樹(shù)通用文章索引樹(shù)通用文章索引樹(shù)-通用文章索引樹(shù)搜索引擎實(shí)踐:標題如何重點(diǎn)定位文章的中心思想robotboat文章檢索模型robotboat系列文章robotboat簡(jiǎn)介。
編程如何快速搞定google文章爬蟲(chóng)
搜索引擎適合于客戶(hù)查詢(xún),需要從知識庫中查詢(xún)信息,所以,對于這種場(chǎng)景,其實(shí)關(guān)鍵點(diǎn)還是在于數據的整理,關(guān)鍵詞分析等等。優(yōu)化搜索引擎搜索引擎就是收集網(wǎng)站上的所有數據,然后統計這些數據,根據這些信息進(jìn)行推斷,進(jìn)行排名以及相關(guān)優(yōu)化。所以,在進(jìn)行搜索引擎優(yōu)化之前,你先要了解好你這個(gè)關(guān)鍵詞。在做搜索引擎優(yōu)化之前,需要對這個(gè)關(guān)鍵詞以及行業(yè)有很好的了解,了解這個(gè)行業(yè)里的網(wǎng)站情況,用戶(hù)的搜索習慣,平臺的優(yōu)勢以及劣勢。如果真的是做好搜索引擎優(yōu)化,你需要對這個(gè)行業(yè)以及網(wǎng)站進(jìn)行分析,從中你可以總結一些經(jīng)驗。
目標網(wǎng)站:搜索引擎優(yōu)化的關(guān)鍵詞:優(yōu)化策略、建站方法、網(wǎng)站構建、注冊流程、數據分析、faq等數據和技術(shù)方面:seo工具、seo人才等搜索引擎優(yōu)化涉及的內容:了解站長(cháng)平臺的功能對于搜索引擎優(yōu)化要點(diǎn):根據你們自己的業(yè)務(wù)和數據實(shí)際情況,制定相應的策略。
1、改善網(wǎng)站的友好性,
2、網(wǎng)站的內容豐富性:網(wǎng)站標題、網(wǎng)站描述、網(wǎng)站導航、網(wǎng)站內容、網(wǎng)站結構和結構化數據;
3、友好性與內容完善性。
4、明確網(wǎng)站在搜索引擎中的定位。在開(kāi)始優(yōu)化前需要明確你們在網(wǎng)站優(yōu)化中的主要工作重點(diǎn),然后分門(mén)別類(lèi)列表優(yōu)化相應的內容,可以使用一些工具來(lái)幫助工作。
5、利用其他搜索引擎友好性增加用戶(hù)互動(dòng),
6、做一個(gè)分類(lèi),全面的列出搜索引擎優(yōu)化中需要注意的事項,只列出簡(jiǎn)單的事項,使搜索引擎蜘蛛爬取爬蟲(chóng)可以爬行它。seo優(yōu)化的流程:數據分析:網(wǎng)站數據,同行業(yè)用戶(hù)評價(jià);網(wǎng)站優(yōu)化,seo深度分析,抓取收錄,標題、描述、結構、內容等細節優(yōu)化;常規工作:robots、文件上傳、優(yōu)化info、各種數據統計等工作。 查看全部
編程如何快速搞定google文章爬蟲(chóng)搜索引擎索引關(guān)鍵詞權重算法
搜索引擎主題模型優(yōu)化關(guān)鍵詞優(yōu)化ebm高質(zhì)量搜索引擎索引關(guān)鍵詞權重算法低質(zhì)量關(guān)鍵詞權重減少ebmrobotboat改進(jìn)因特網(wǎng)蜘蛛效率基于站點(diǎn)的搜索引擎實(shí)時(shí)檢索實(shí)用索引指南詳盡的內容如何將現有不適合添加到搜索引擎第三方主題模型的內容加入到搜索引擎索引樹(shù)中索引樹(shù)索引樹(shù)索引樹(shù)索引樹(shù)博客索引樹(shù)博客索引樹(shù)通用文章索引樹(shù)通用文章索引樹(shù)通用文章索引樹(shù)-通用文章索引樹(shù)搜索引擎實(shí)踐:標題如何重點(diǎn)定位文章的中心思想robotboat文章檢索模型robotboat系列文章robotboat簡(jiǎn)介。
編程如何快速搞定google文章爬蟲(chóng)
搜索引擎適合于客戶(hù)查詢(xún),需要從知識庫中查詢(xún)信息,所以,對于這種場(chǎng)景,其實(shí)關(guān)鍵點(diǎn)還是在于數據的整理,關(guān)鍵詞分析等等。優(yōu)化搜索引擎搜索引擎就是收集網(wǎng)站上的所有數據,然后統計這些數據,根據這些信息進(jìn)行推斷,進(jìn)行排名以及相關(guān)優(yōu)化。所以,在進(jìn)行搜索引擎優(yōu)化之前,你先要了解好你這個(gè)關(guān)鍵詞。在做搜索引擎優(yōu)化之前,需要對這個(gè)關(guān)鍵詞以及行業(yè)有很好的了解,了解這個(gè)行業(yè)里的網(wǎng)站情況,用戶(hù)的搜索習慣,平臺的優(yōu)勢以及劣勢。如果真的是做好搜索引擎優(yōu)化,你需要對這個(gè)行業(yè)以及網(wǎng)站進(jìn)行分析,從中你可以總結一些經(jīng)驗。

目標網(wǎng)站:搜索引擎優(yōu)化的關(guān)鍵詞:優(yōu)化策略、建站方法、網(wǎng)站構建、注冊流程、數據分析、faq等數據和技術(shù)方面:seo工具、seo人才等搜索引擎優(yōu)化涉及的內容:了解站長(cháng)平臺的功能對于搜索引擎優(yōu)化要點(diǎn):根據你們自己的業(yè)務(wù)和數據實(shí)際情況,制定相應的策略。
1、改善網(wǎng)站的友好性,
2、網(wǎng)站的內容豐富性:網(wǎng)站標題、網(wǎng)站描述、網(wǎng)站導航、網(wǎng)站內容、網(wǎng)站結構和結構化數據;

3、友好性與內容完善性。
4、明確網(wǎng)站在搜索引擎中的定位。在開(kāi)始優(yōu)化前需要明確你們在網(wǎng)站優(yōu)化中的主要工作重點(diǎn),然后分門(mén)別類(lèi)列表優(yōu)化相應的內容,可以使用一些工具來(lái)幫助工作。
5、利用其他搜索引擎友好性增加用戶(hù)互動(dòng),
6、做一個(gè)分類(lèi),全面的列出搜索引擎優(yōu)化中需要注意的事項,只列出簡(jiǎn)單的事項,使搜索引擎蜘蛛爬取爬蟲(chóng)可以爬行它。seo優(yōu)化的流程:數據分析:網(wǎng)站數據,同行業(yè)用戶(hù)評價(jià);網(wǎng)站優(yōu)化,seo深度分析,抓取收錄,標題、描述、結構、內容等細節優(yōu)化;常規工作:robots、文件上傳、優(yōu)化info、各種數據統計等工作。
搜索引擎主題模型優(yōu)化目標是什么?如何建立域名主題優(yōu)化
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 192 次瀏覽 ? 2022-07-02 20:01
搜索引擎主題模型優(yōu)化是將搜索引擎結果發(fā)往合適的域名上,但是對于域名優(yōu)化來(lái)說(shuō),搜索引擎主題模型優(yōu)化就可以視為一個(gè)“營(yíng)銷(xiāo)事件”。從我本人做產(chǎn)品經(jīng)理,產(chǎn)品開(kāi)發(fā),以及做增長(cháng)黑客這兩個(gè)這個(gè)過(guò)程,我了解到目前在整個(gè)行業(yè)里,產(chǎn)品經(jīng)理和產(chǎn)品開(kāi)發(fā)的產(chǎn)出物中最核心的一部分就是mvp(最小可行性產(chǎn)品),就是對于一個(gè)產(chǎn)品或服務(wù),它最小可行性產(chǎn)品的不斷迭代。
這個(gè)過(guò)程很關(guān)鍵,這里我們可以把搜索引擎主題模型優(yōu)化看作產(chǎn)品mvp的迭代,它是從域名主題里順藤摸瓜,然后層層篩選的過(guò)程。如何建立域名主題模型呢?通常來(lái)說(shuō),域名主題優(yōu)化的目標要明確:1.搜索引擎主題模型的優(yōu)化目標是什么?2.搜索引擎主題模型怎么確定?3.搜索引擎主題模型怎么做?那么,接下來(lái)就需要分析你域名網(wǎng)站上獲取的信息,包括你域名主題里面的關(guān)鍵詞,你主題里面關(guān)鍵詞和關(guān)鍵詞對應的關(guān)鍵詞里的頁(yè)面的數量以及頁(yè)面的質(zhì)量,在分析你詞對應的頁(yè)面中你的主題的欄目的質(zhì)量,這些質(zhì)量都對應了你域名主題主題的質(zhì)量程度。
找到所有你要優(yōu)化的關(guān)鍵詞,按照詞匯的個(gè)數、搜索量、頻道劃分、欄目劃分、業(yè)務(wù)劃分,比如你做京東,京東這個(gè)詞在百度里面的搜索量為6w個(gè),那么假設你獲取了6w個(gè)關(guān)鍵詞,也就是所有的關(guān)鍵詞,當我們有100w個(gè)關(guān)鍵詞之后,我們可以把這100w個(gè)關(guān)鍵詞拼起來(lái),這個(gè)過(guò)程就是域名主題模型的搭建過(guò)程。那么,對于一個(gè)域名主題模型如何搭建呢?1.主題主要圍繞兩個(gè)相同的詞,這個(gè)非常重要,因為關(guān)鍵詞人群太相似了,會(huì )減小域名主題的覆蓋量,比如你做拼多多產(chǎn)品,拼多多這個(gè)詞,你發(fā)現大部分的買(mǎi)家都是80后,那么80后喜歡拼多多這個(gè)詞,這個(gè)時(shí)候你的主題就可以這么打。
但是對于20-30歲的群體來(lái)說(shuō),比如你做一個(gè)50-80歲的人,他可能想做拼多多這個(gè)主題,就已經(jīng)打不到他們了。但是大家都喜歡這個(gè)主題,你是怎么解決這個(gè)問(wèn)題的?拼多多也可以拿到類(lèi)似的關(guān)鍵詞,那么也都打上相關(guān)的主題,即使他們不在拼多多買(mǎi),但是他們也想買(mǎi),這個(gè)時(shí)候可以一起打上,那么整個(gè)拼多多域名主題的覆蓋也會(huì )增大,那整個(gè)拼多多的結果也就上去了。
2.域名域名模型建立之后,最重要的事情就是域名主題最后一句,主題最后一句一定要準確,為什么這么說(shuō)呢?因為如果域名主題最后一句,整個(gè)域名主題的覆蓋率不到10%,那這個(gè)域名在別人眼里是不是不做也罷呢?因為在第一步詞匯的建立之后,再獲取多少關(guān)鍵詞?其實(shí)全是0,所以第一步建立主題之后,把這個(gè)關(guān)鍵詞打準,對每個(gè)關(guān)鍵詞都做它對應的主題,然后就會(huì )有源源不斷的人陸續上車(chē),并且有。 查看全部
搜索引擎主題模型優(yōu)化目標是什么?如何建立域名主題優(yōu)化
搜索引擎主題模型優(yōu)化是將搜索引擎結果發(fā)往合適的域名上,但是對于域名優(yōu)化來(lái)說(shuō),搜索引擎主題模型優(yōu)化就可以視為一個(gè)“營(yíng)銷(xiāo)事件”。從我本人做產(chǎn)品經(jīng)理,產(chǎn)品開(kāi)發(fā),以及做增長(cháng)黑客這兩個(gè)這個(gè)過(guò)程,我了解到目前在整個(gè)行業(yè)里,產(chǎn)品經(jīng)理和產(chǎn)品開(kāi)發(fā)的產(chǎn)出物中最核心的一部分就是mvp(最小可行性產(chǎn)品),就是對于一個(gè)產(chǎn)品或服務(wù),它最小可行性產(chǎn)品的不斷迭代。

這個(gè)過(guò)程很關(guān)鍵,這里我們可以把搜索引擎主題模型優(yōu)化看作產(chǎn)品mvp的迭代,它是從域名主題里順藤摸瓜,然后層層篩選的過(guò)程。如何建立域名主題模型呢?通常來(lái)說(shuō),域名主題優(yōu)化的目標要明確:1.搜索引擎主題模型的優(yōu)化目標是什么?2.搜索引擎主題模型怎么確定?3.搜索引擎主題模型怎么做?那么,接下來(lái)就需要分析你域名網(wǎng)站上獲取的信息,包括你域名主題里面的關(guān)鍵詞,你主題里面關(guān)鍵詞和關(guān)鍵詞對應的關(guān)鍵詞里的頁(yè)面的數量以及頁(yè)面的質(zhì)量,在分析你詞對應的頁(yè)面中你的主題的欄目的質(zhì)量,這些質(zhì)量都對應了你域名主題主題的質(zhì)量程度。
找到所有你要優(yōu)化的關(guān)鍵詞,按照詞匯的個(gè)數、搜索量、頻道劃分、欄目劃分、業(yè)務(wù)劃分,比如你做京東,京東這個(gè)詞在百度里面的搜索量為6w個(gè),那么假設你獲取了6w個(gè)關(guān)鍵詞,也就是所有的關(guān)鍵詞,當我們有100w個(gè)關(guān)鍵詞之后,我們可以把這100w個(gè)關(guān)鍵詞拼起來(lái),這個(gè)過(guò)程就是域名主題模型的搭建過(guò)程。那么,對于一個(gè)域名主題模型如何搭建呢?1.主題主要圍繞兩個(gè)相同的詞,這個(gè)非常重要,因為關(guān)鍵詞人群太相似了,會(huì )減小域名主題的覆蓋量,比如你做拼多多產(chǎn)品,拼多多這個(gè)詞,你發(fā)現大部分的買(mǎi)家都是80后,那么80后喜歡拼多多這個(gè)詞,這個(gè)時(shí)候你的主題就可以這么打。

但是對于20-30歲的群體來(lái)說(shuō),比如你做一個(gè)50-80歲的人,他可能想做拼多多這個(gè)主題,就已經(jīng)打不到他們了。但是大家都喜歡這個(gè)主題,你是怎么解決這個(gè)問(wèn)題的?拼多多也可以拿到類(lèi)似的關(guān)鍵詞,那么也都打上相關(guān)的主題,即使他們不在拼多多買(mǎi),但是他們也想買(mǎi),這個(gè)時(shí)候可以一起打上,那么整個(gè)拼多多域名主題的覆蓋也會(huì )增大,那整個(gè)拼多多的結果也就上去了。
2.域名域名模型建立之后,最重要的事情就是域名主題最后一句,主題最后一句一定要準確,為什么這么說(shuō)呢?因為如果域名主題最后一句,整個(gè)域名主題的覆蓋率不到10%,那這個(gè)域名在別人眼里是不是不做也罷呢?因為在第一步詞匯的建立之后,再獲取多少關(guān)鍵詞?其實(shí)全是0,所以第一步建立主題之后,把這個(gè)關(guān)鍵詞打準,對每個(gè)關(guān)鍵詞都做它對應的主題,然后就會(huì )有源源不斷的人陸續上車(chē),并且有。
搜索引擎主題模型優(yōu)化的主要工作原理是什么呢?
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 100 次瀏覽 ? 2022-06-22 18:01
搜索引擎主題模型優(yōu)化的主要工作原理是什么?因為seo(搜索引擎優(yōu)化)本身在國內沒(méi)有什么發(fā)展,故很多人不太了解。今天,笨虎就簡(jiǎn)單說(shuō)一下seo的基本內容,讓大家感受一下。一提起seo,很多人第一印象就是“網(wǎng)站優(yōu)化”,通過(guò)對網(wǎng)站的優(yōu)化,提高網(wǎng)站的搜索排名。這是一個(gè)很形象的比喻,因為大家實(shí)際上都知道“優(yōu)化”這個(gè)詞,所以不要下次再說(shuō)自己是“優(yōu)化”的。
“優(yōu)化”這個(gè)詞在互聯(lián)網(wǎng)上面的運用,本質(zhì)上還是傳統意義上的seo。但由于數字廣告和搜索引擎泛化的結果,seo已經(jīng)從專(zhuān)業(yè)的seo轉向了普通大眾。比如你只要搜索“渣渣輝”,下面的圖像就是渣渣輝的宣傳圖片。渣渣輝也是玩游戲的,照片可以是美美噠,也可以暴力一點(diǎn),說(shuō)不定還能引起路人的支持?!x渣渣輝這就是seo的基本模型:向搜索引擎提供網(wǎng)站的正面信息,提高網(wǎng)站的搜索排名。
注意:影響seo排名的因素有很多,不同的網(wǎng)站搜索引擎對不同的因素的權重就有不同的排序,這就是搜索引擎優(yōu)化。比如,你的公司名字要求有品牌價(jià)值。這時(shí),如果你的網(wǎng)站無(wú)論如何都提供不了品牌價(jià)值,那么你的網(wǎng)站排名就肯定不會(huì )很好。因為品牌價(jià)值跟網(wǎng)站的正面信息有關(guān),它不能像搜索引擎的排名那樣,隨著(zhù)網(wǎng)站的正面信息的提高而提高權重。
因此,網(wǎng)站正面信息的提供關(guān)系到排名??梢钥吹?,正面信息的提供,需要你站在搜索引擎的角度。網(wǎng)站正面信息的提供,一方面是明確、有針對性的展示,讓用戶(hù)一眼看出他需要看的內容;另一方面是良好的隱私性,不能有太明顯的廣告。如何做到這點(diǎn)呢?答案就是:一個(gè)站點(diǎn)一個(gè)特性,即站點(diǎn)最好有不同的標簽,使搜索引擎能對你的網(wǎng)站提供不同側重點(diǎn)的訪(fǎng)問(wèn)。
而且,標簽一定要用戶(hù)友好,盡量避免用戶(hù)一上來(lái)就覺(jué)得網(wǎng)站廣告做得濃郁?!脩?hù)友好的網(wǎng)站標簽截圖(左)對搜索引擎來(lái)說(shuō),網(wǎng)站提供正面信息只是最基本的要求,用戶(hù)能否打開(kāi)它的頁(yè)面,它能提供給用戶(hù)什么服務(wù)才是最重要的?;氐絼偛诺睦?,標簽對于用戶(hù)來(lái)說(shuō),也是一樣。假設你們的公司叫“渣渣輝”,如果你們的網(wǎng)站提供給用戶(hù)的全是惡搞的相關(guān)信息,用戶(hù)的打開(kāi)體驗就會(huì )非常差。
這些也都是seo中提到的“體驗”,就是針對用戶(hù)在體驗上提高用戶(hù)體驗。網(wǎng)站正面信息的提供和網(wǎng)站用戶(hù)體驗的提高其實(shí)是同一個(gè)東西。所以這就是很多人把seo錯誤地分解成了兩個(gè)東西,而不知道正確工作應該是這樣的。seo的工作其實(shí)是一個(gè)復雜的多層級的工作,單單做seo的人是無(wú)法解決所有問(wèn)題的。他們需要懂得很多東西,才能對整個(gè)工作產(chǎn)生較大的作用。我的文章以及我的公眾號,笨虎的思考都會(huì )有專(zhuān)。 查看全部
搜索引擎主題模型優(yōu)化的主要工作原理是什么呢?
搜索引擎主題模型優(yōu)化的主要工作原理是什么?因為seo(搜索引擎優(yōu)化)本身在國內沒(méi)有什么發(fā)展,故很多人不太了解。今天,笨虎就簡(jiǎn)單說(shuō)一下seo的基本內容,讓大家感受一下。一提起seo,很多人第一印象就是“網(wǎng)站優(yōu)化”,通過(guò)對網(wǎng)站的優(yōu)化,提高網(wǎng)站的搜索排名。這是一個(gè)很形象的比喻,因為大家實(shí)際上都知道“優(yōu)化”這個(gè)詞,所以不要下次再說(shuō)自己是“優(yōu)化”的。
“優(yōu)化”這個(gè)詞在互聯(lián)網(wǎng)上面的運用,本質(zhì)上還是傳統意義上的seo。但由于數字廣告和搜索引擎泛化的結果,seo已經(jīng)從專(zhuān)業(yè)的seo轉向了普通大眾。比如你只要搜索“渣渣輝”,下面的圖像就是渣渣輝的宣傳圖片。渣渣輝也是玩游戲的,照片可以是美美噠,也可以暴力一點(diǎn),說(shuō)不定還能引起路人的支持?!x渣渣輝這就是seo的基本模型:向搜索引擎提供網(wǎng)站的正面信息,提高網(wǎng)站的搜索排名。
注意:影響seo排名的因素有很多,不同的網(wǎng)站搜索引擎對不同的因素的權重就有不同的排序,這就是搜索引擎優(yōu)化。比如,你的公司名字要求有品牌價(jià)值。這時(shí),如果你的網(wǎng)站無(wú)論如何都提供不了品牌價(jià)值,那么你的網(wǎng)站排名就肯定不會(huì )很好。因為品牌價(jià)值跟網(wǎng)站的正面信息有關(guān),它不能像搜索引擎的排名那樣,隨著(zhù)網(wǎng)站的正面信息的提高而提高權重。
因此,網(wǎng)站正面信息的提供關(guān)系到排名??梢钥吹?,正面信息的提供,需要你站在搜索引擎的角度。網(wǎng)站正面信息的提供,一方面是明確、有針對性的展示,讓用戶(hù)一眼看出他需要看的內容;另一方面是良好的隱私性,不能有太明顯的廣告。如何做到這點(diǎn)呢?答案就是:一個(gè)站點(diǎn)一個(gè)特性,即站點(diǎn)最好有不同的標簽,使搜索引擎能對你的網(wǎng)站提供不同側重點(diǎn)的訪(fǎng)問(wèn)。
而且,標簽一定要用戶(hù)友好,盡量避免用戶(hù)一上來(lái)就覺(jué)得網(wǎng)站廣告做得濃郁?!脩?hù)友好的網(wǎng)站標簽截圖(左)對搜索引擎來(lái)說(shuō),網(wǎng)站提供正面信息只是最基本的要求,用戶(hù)能否打開(kāi)它的頁(yè)面,它能提供給用戶(hù)什么服務(wù)才是最重要的?;氐絼偛诺睦?,標簽對于用戶(hù)來(lái)說(shuō),也是一樣。假設你們的公司叫“渣渣輝”,如果你們的網(wǎng)站提供給用戶(hù)的全是惡搞的相關(guān)信息,用戶(hù)的打開(kāi)體驗就會(huì )非常差。
這些也都是seo中提到的“體驗”,就是針對用戶(hù)在體驗上提高用戶(hù)體驗。網(wǎng)站正面信息的提供和網(wǎng)站用戶(hù)體驗的提高其實(shí)是同一個(gè)東西。所以這就是很多人把seo錯誤地分解成了兩個(gè)東西,而不知道正確工作應該是這樣的。seo的工作其實(shí)是一個(gè)復雜的多層級的工作,單單做seo的人是無(wú)法解決所有問(wèn)題的。他們需要懂得很多東西,才能對整個(gè)工作產(chǎn)生較大的作用。我的文章以及我的公眾號,笨虎的思考都會(huì )有專(zhuān)。
搜索中的Query擴展技術(shù)
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 115 次瀏覽 ? 2022-06-20 14:21
前言
最近,我司各條業(yè)務(wù)線(xiàn)對于搜索優(yōu)化的需求日益增多,NLP組也將對搜索業(yè)務(wù)給予更多的工作支持。后續分享,我們會(huì )關(guān)注過(guò)往的知識圖譜、短本文理解等相關(guān)技術(shù)如何落地到搜索業(yè)務(wù)中。
影響搜索結果的因素有很多,包括對短文本的正確理解(實(shí)體詞識別、糾錯、意圖分析等)、長(cháng)文本良好結構化(關(guān)鍵詞抽取、主題詞抽取、文本分類(lèi)等)以及排序模型(召回策略、LTR、語(yǔ)義匹配等)。各種優(yōu)化算法落在以上三個(gè)步驟中,對不同指標產(chǎn)生影響。
對于搜索優(yōu)化,我們的建議是從召回策略開(kāi)始著(zhù)手。理由是這個(gè)步驟與實(shí)際業(yè)務(wù)方最近,當理清業(yè)務(wù)邏輯后,可以快速實(shí)施,看見(jiàn)變化。另外,召回階段是整個(gè)搜索流程中的基石,所有后續的排序都基于召回的候選列表,先規劃好召回策略,才可能盡量避免后續調整基石,導致與后續“精排”相互影響的境地。
那么改進(jìn)召回我們一般會(huì )做些什么呢?首先一定是通過(guò)產(chǎn)品分析、用戶(hù)調研來(lái)了解什么內容適合在這個(gè)搜索場(chǎng)景里展示,隨后掄起大刀修改檢索的字段或公式。有了baseline之后,我們在觀(guān)察檢索回的內容有什么問(wèn)題??赡苁菦](méi)有匹配內容,可能是最匹配的內容排序靠后,或者可能是除了字面匹配,其他內容相關(guān)性差等等。此時(shí),就可以上一些影響召回的模塊,比如Query詞權重分配、動(dòng)態(tài)時(shí)效性判定、Query擴展等。后面會(huì )陸續有文章分享其他技術(shù),本文我們先關(guān)注如何做Query擴展。
總的來(lái)說(shuō),召回于搜索是滿(mǎn)足檢索內容的大概范圍,排序是次要的,需要關(guān)注的是Query與召回列表的相關(guān)度(字詞層面和主題層面)。我們需要Query擴展技術(shù)的原因這里大致將它們歸納為三個(gè)方面。首先,用戶(hù)輸入的Query普遍較短,平均2-3個(gè)詞,可能無(wú)法很好命中需要找的內容;其次,Query中的詞通常會(huì )與多個(gè)主題關(guān)聯(lián),搜索引擎根據簡(jiǎn)短的幾個(gè)詞檢索返回的內容可能不是用戶(hù)所關(guān)心的那個(gè)主題;另外,用戶(hù)可能對自己找的東西只有一個(gè)大致的概念(舉個(gè)栗子,假設用戶(hù)想要找“黑人抬棺”的視頻,但是并不知道這個(gè)詞的準確表述,轉而使用“棺材”、“黑人” 這些詞來(lái)搜索),Query擴展此時(shí)可理解為類(lèi)似聯(lián)想的功能,或者可以理解為將某個(gè)“罕見(jiàn)”搜索詞改寫(xiě)成“常見(jiàn)”搜索詞。
完整的Query擴展技術(shù)路線(xiàn)可見(jiàn)下圖
對原始Query首先需要做若干預處理,包括必要的糾錯、補全,從Query中篩選出需要進(jìn)行擴展的主題詞或實(shí)體詞,對最終的目標詞完成擴展。這里我們著(zhù)重關(guān)注Expansion Terms部分。
從哪里擴展
首先考慮擴展詞從哪里來(lái),這點(diǎn)上的思路和大部分語(yǔ)義相關(guān)的NLP任務(wù)類(lèi)似,想法其實(shí)很直白,要不從用戶(hù)習慣、行為中來(lái),要不從描述事物本身語(yǔ)義中來(lái):
一、業(yè)務(wù)場(chǎng)景語(yǔ)境
從用戶(hù)的搜索log中可以挖掘出大量搜索詞的固定搭配
這些詞首先保證了與原始Query較高的匹配度(都包含“知識”這個(gè)詞),在業(yè)務(wù)上也滿(mǎn)足大多數用戶(hù)關(guān)注的話(huà)題。缺點(diǎn)是這一類(lèi)擴展詞僅來(lái)自于統計學(xué)層面,與語(yǔ)義無(wú)關(guān),無(wú)法滿(mǎn)足語(yǔ)義層面上的相關(guān)性。
二、文檔語(yǔ)料
除了來(lái)自用戶(hù)的搜索Query,文檔庫也是擴展詞的重要來(lái)源。豐富的語(yǔ)境能夠提供詞之間的相互關(guān)系
這類(lèi)擴展詞的缺點(diǎn)也比較明顯,它與原始Query存在文本上的差異較大,增加召回的同時(shí),可能會(huì )犧牲一定的匹配度。
三、構建領(lǐng)域知識庫
最后一個(gè)途徑是構建特定的領(lǐng)域知識庫,優(yōu)點(diǎn)是對語(yǔ)義相關(guān)度可以做更精準的控制,但是構建成本較高,同時(shí)如何將知識信息融入到原統計機器學(xué)習的算法中也有不小難度。
當然,理想的形態(tài)必然是混合以上三種來(lái)源,取其優(yōu)點(diǎn),可以觀(guān)察谷歌的相關(guān)搜索:
融合了字面、語(yǔ)義、知識多方面的相關(guān)性。
擴展模型思路
到模型部分,主要處理的就是原始Query中的term與待擴展的term/phrase如何產(chǎn)生關(guān)聯(lián)。目前主流方案為兩大類(lèi),一類(lèi)是以貝葉斯模型為核心,統計擴展term與Query之間的條件概率。另一類(lèi)的思路是把問(wèn)題抽象成一個(gè)翻譯模型,將Query中的詞從scr到target語(yǔ)言完成改寫(xiě)。
一、相關(guān)模型
這種方案其實(shí)特別直白,Query詞與擴展詞在語(yǔ)料中共現值越大,說(shuō)明它們相關(guān)性越高。也很容易想到使用TF-IDF一類(lèi)的方式去做。經(jīng)典的文獻可以看這篇早在02年發(fā)表的工作:
《Probabilistic Query Expansion Using Query Logs》
作者提出需要做Query擴展的原因是認為用戶(hù)輸入的Query詞與實(shí)際文檔集中的詞存在差異,所以在傳統BM25算法搜索的過(guò)程中很有可能無(wú)法命中。下圖是作者做的驗證工作,將文檔和Query都使用詞袋向量表示,向量中元素值為T(mén)F-IDF,可以看到峰值區間對應的相似度并不高。
需要構建這種聯(lián)系很自然的方式就是利用用戶(hù)行為日志數據,用貝葉斯模型構建概率分布:
最終公式可以表示為:
式子右側括號中分別融合了擴展詞在文檔集中的先驗概率、Query詞與文檔在交互session中的共現頻數以及Query詞在交互session中的頻數。
雖然這篇文章過(guò)去了將近20年,但是后續的利用相關(guān)模型的算法都逃不出這個(gè)套路,方法簡(jiǎn)單卻有效,在剛著(zhù)手做該任務(wù)時(shí)不妨可以選它作為baseline。
往后大家對于這個(gè)套路的Query擴展優(yōu)化,多關(guān)注于提高擴展詞的質(zhì)量。一個(gè)很自然的邏輯就是可以用term作為擴展詞,同樣地,phrase或concept短語(yǔ)也可以。
《Context-Aware Query Suggestion by Mining Click-Through and Session Data》
比如類(lèi)似這篇文章中,因為Query中出現的term與它們對應的主題是多對多的,作者通過(guò)Query聚類(lèi)挖掘出潛在的幾種意圖concept詞,結合考慮Query Session的問(wèn)題再進(jìn)行后續擴展。
二、翻譯模型
除了挖掘出擴展詞的方案,另一個(gè)方向是對Query詞進(jìn)行直接改寫(xiě)。仍然從最簡(jiǎn)單的開(kāi)始,各種復雜模型的起點(diǎn)其實(shí)都源自符合人類(lèi)直覺(jué)的簡(jiǎn)單假設。
《The Mathematics of Statistical Machine Translation: Parameter Estimation》
這是篇年代更加久遠的文章,發(fā)表于1993年,它就是著(zhù)名的IBM算法。本身與Query擴展無(wú)關(guān),主要工作是做機器翻譯,但是它闡述了翻譯模型最原始的假設:
完成翻譯,我們要完成的無(wú)非是兩件事:1)給定一個(gè)待翻譯的句子,返回目標語(yǔ)言表達這個(gè)句子各個(gè)詞意思的詞;2)將原始語(yǔ)言的詞與目標語(yǔ)言的詞一一對應(alignment)。
而IBM算法的核心就是把這個(gè)問(wèn)題抽象成“對齊”分布式是一個(gè)隱變量的概率問(wèn)題:
利用EM算法完成求解即可。
《Towards concept-based translation models using search logs for query expansion》
做Query擴展時(shí),這一思想也被遷移過(guò)來(lái):
連公式的形式都與原IBM算法是一致的,式子中theta就是改寫(xiě)操作中原始詞與目標詞的對齊概率參數。文章中,作者也進(jìn)一步實(shí)驗了phrase和concept詞的結果。同時(shí),配合 term weighting 一起食用,效果更好喔!
《Learning to Rewrite Queries》
再后續,大家會(huì )考慮進(jìn)一步優(yōu)化alignment分布的學(xué)習以及融入更多的語(yǔ)義特征進(jìn)去,畢竟IBM算法僅從統計詞頻的角度估算分布還是太過(guò)單薄。近年來(lái)深度學(xué)習的發(fā)展自然就帶動(dòng)一些傳統模型向神經(jīng)網(wǎng)絡(luò )向的方法上遷移:
《Ask the Right Questions: Active Question Reformulation with Reinforcement Learning》
谷歌在 2018 ICLR 上發(fā)表的工作合并了使用序列模型完成Query改寫(xiě),考慮使用強化學(xué)習來(lái)進(jìn)一步增強
這個(gè)方案的大致思路是,模型與索引系統連接,若改寫(xiě)后的Query可以索引出排序更靠前的內容,則給予強化模型正向的激勵。而且,train好的強化模型也可以倒過(guò)來(lái)finetune改寫(xiě)模型。
增強語(yǔ)義相關(guān)性
可以看到,計算原始Query到擴展詞或改寫(xiě)詞的關(guān)聯(lián)已經(jīng)有非常多成熟的方法,甚至可以在自己場(chǎng)景里設計比較tricky的強化模型方案。而我們認為進(jìn)一步提高效果的關(guān)鍵,還是需要主動(dòng)對業(yè)務(wù)內容的組織、理解、良好的結構化。目前火熱的各種文本預訓練模型、知識圖譜等都印證了這一點(diǎn)。常??吹接腥丝此ブR圖譜發(fā)展,不可否認因為它沒(méi)有一個(gè)大而獨立的場(chǎng)景,所以它必然無(wú)法像CV那樣大放光芒。但是我們一直認為知識圖譜的技術(shù)目前最合理的使用方案是浸潤在日常的各個(gè)技術(shù)中,它是幫助老技術(shù)突破瓶頸的途徑,沒(méi)有新東西,聽(tīng)起來(lái)當然不夠性感。
說(shuō)到這里,我們對語(yǔ)義相關(guān)性的增強就可以利用在往期標簽生成的文章中提到的方法
《A User-Centered Concept Mining System for Query and Document Understanding at Tencent》
利用大量Query的點(diǎn)擊數據,挖掘出該場(chǎng)景下的各種concept詞。進(jìn)一步,我們將concept詞與醫學(xué)知識圖譜形成關(guān)聯(lián),從而替代了前面提到的Query聚類(lèi)方案。
簡(jiǎn)單實(shí)踐
挖掘出高質(zhì)量的Concept詞后,由上文提到的關(guān)聯(lián)模型就可以獲得不錯的效果:
當遇到多個(gè)實(shí)體,使用關(guān)聯(lián)打分即可:
總結
總的來(lái)說(shuō),Query擴展本身并不算一個(gè)復雜的工作,想要最終效果做得好,我們的建議是:把復雜的工作向后撤。生成模型或者強化模型看起來(lái)很fancy,操作門(mén)檻以及工程上的支持難度都較大。踏踏實(shí)實(shí)做好數據結構化(知識圖譜構建、知識表示學(xué)習、長(cháng)文本標簽化等等),在下游應用里,用簡(jiǎn)單模型就能看到效果。有了baseline之后,我們會(huì )考慮用復雜的方案把關(guān)聯(lián)性構建得更好。
參考文獻
[1]. Probabilistic query expansion using query logs
[2]. Ask the Right Questions- Active Question Reformulation with Reinforcement Learning
[3]. Concept-Based Interactive Query Expansion
[4]. Query Expansion Techniques for Information Retrieval- a Survey
[5]. A Taxonomy and Survey of Semantic Approaches for Query Expansion
[6]. The Mathematics of Statistical Machine Translation- Parameter Estimation
[7]. Translating Queries into Snippets for Improved Query Expansion
[8]. Query expansion using local and global document analysis
[9]. Towards concept-based translation models using search logs for query expansion
[10]. Extracting Semantic Relations from Query Logs
[11]. Context-aware query suggestion by mining click-through and session data
[12]. Query Recommendation using Query Logs in Search Engines
[13]. Learning to Rewrite Queries
[14]. A User-Centered Concept Mining System for Query and Document Understanding at Tencent
[15].
招聘信息
丁香園大數據NLP團隊招聘各類(lèi)算法人才,Base杭州。NLP團隊的使命是利用NLP(自然語(yǔ)言處理)、Knowledge Graph(知識圖譜)、Deep Learning(深度學(xué)習)等技術(shù),處理丁香園海量醫學(xué)文本數據,打通電商、在線(xiàn)問(wèn)診、健康知識、社區討論等各個(gè)場(chǎng)景數據,構建醫學(xué)知識圖譜,搭建通用NLP服務(wù)。團隊關(guān)注NLP前沿技術(shù),也注重落地實(shí)現,包括但不僅限于知識圖譜、短文本理解、語(yǔ)義搜索、可解釋推薦、智能問(wèn)答等。加入我們,讓健康更多,讓生活更好!
歡迎各位朋友推薦或自薦至 查看全部
搜索中的Query擴展技術(shù)
前言
最近,我司各條業(yè)務(wù)線(xiàn)對于搜索優(yōu)化的需求日益增多,NLP組也將對搜索業(yè)務(wù)給予更多的工作支持。后續分享,我們會(huì )關(guān)注過(guò)往的知識圖譜、短本文理解等相關(guān)技術(shù)如何落地到搜索業(yè)務(wù)中。
影響搜索結果的因素有很多,包括對短文本的正確理解(實(shí)體詞識別、糾錯、意圖分析等)、長(cháng)文本良好結構化(關(guān)鍵詞抽取、主題詞抽取、文本分類(lèi)等)以及排序模型(召回策略、LTR、語(yǔ)義匹配等)。各種優(yōu)化算法落在以上三個(gè)步驟中,對不同指標產(chǎn)生影響。
對于搜索優(yōu)化,我們的建議是從召回策略開(kāi)始著(zhù)手。理由是這個(gè)步驟與實(shí)際業(yè)務(wù)方最近,當理清業(yè)務(wù)邏輯后,可以快速實(shí)施,看見(jiàn)變化。另外,召回階段是整個(gè)搜索流程中的基石,所有后續的排序都基于召回的候選列表,先規劃好召回策略,才可能盡量避免后續調整基石,導致與后續“精排”相互影響的境地。
那么改進(jìn)召回我們一般會(huì )做些什么呢?首先一定是通過(guò)產(chǎn)品分析、用戶(hù)調研來(lái)了解什么內容適合在這個(gè)搜索場(chǎng)景里展示,隨后掄起大刀修改檢索的字段或公式。有了baseline之后,我們在觀(guān)察檢索回的內容有什么問(wèn)題??赡苁菦](méi)有匹配內容,可能是最匹配的內容排序靠后,或者可能是除了字面匹配,其他內容相關(guān)性差等等。此時(shí),就可以上一些影響召回的模塊,比如Query詞權重分配、動(dòng)態(tài)時(shí)效性判定、Query擴展等。后面會(huì )陸續有文章分享其他技術(shù),本文我們先關(guān)注如何做Query擴展。
總的來(lái)說(shuō),召回于搜索是滿(mǎn)足檢索內容的大概范圍,排序是次要的,需要關(guān)注的是Query與召回列表的相關(guān)度(字詞層面和主題層面)。我們需要Query擴展技術(shù)的原因這里大致將它們歸納為三個(gè)方面。首先,用戶(hù)輸入的Query普遍較短,平均2-3個(gè)詞,可能無(wú)法很好命中需要找的內容;其次,Query中的詞通常會(huì )與多個(gè)主題關(guān)聯(lián),搜索引擎根據簡(jiǎn)短的幾個(gè)詞檢索返回的內容可能不是用戶(hù)所關(guān)心的那個(gè)主題;另外,用戶(hù)可能對自己找的東西只有一個(gè)大致的概念(舉個(gè)栗子,假設用戶(hù)想要找“黑人抬棺”的視頻,但是并不知道這個(gè)詞的準確表述,轉而使用“棺材”、“黑人” 這些詞來(lái)搜索),Query擴展此時(shí)可理解為類(lèi)似聯(lián)想的功能,或者可以理解為將某個(gè)“罕見(jiàn)”搜索詞改寫(xiě)成“常見(jiàn)”搜索詞。
完整的Query擴展技術(shù)路線(xiàn)可見(jiàn)下圖
對原始Query首先需要做若干預處理,包括必要的糾錯、補全,從Query中篩選出需要進(jìn)行擴展的主題詞或實(shí)體詞,對最終的目標詞完成擴展。這里我們著(zhù)重關(guān)注Expansion Terms部分。
從哪里擴展
首先考慮擴展詞從哪里來(lái),這點(diǎn)上的思路和大部分語(yǔ)義相關(guān)的NLP任務(wù)類(lèi)似,想法其實(shí)很直白,要不從用戶(hù)習慣、行為中來(lái),要不從描述事物本身語(yǔ)義中來(lái):
一、業(yè)務(wù)場(chǎng)景語(yǔ)境
從用戶(hù)的搜索log中可以挖掘出大量搜索詞的固定搭配
這些詞首先保證了與原始Query較高的匹配度(都包含“知識”這個(gè)詞),在業(yè)務(wù)上也滿(mǎn)足大多數用戶(hù)關(guān)注的話(huà)題。缺點(diǎn)是這一類(lèi)擴展詞僅來(lái)自于統計學(xué)層面,與語(yǔ)義無(wú)關(guān),無(wú)法滿(mǎn)足語(yǔ)義層面上的相關(guān)性。
二、文檔語(yǔ)料
除了來(lái)自用戶(hù)的搜索Query,文檔庫也是擴展詞的重要來(lái)源。豐富的語(yǔ)境能夠提供詞之間的相互關(guān)系
這類(lèi)擴展詞的缺點(diǎn)也比較明顯,它與原始Query存在文本上的差異較大,增加召回的同時(shí),可能會(huì )犧牲一定的匹配度。
三、構建領(lǐng)域知識庫
最后一個(gè)途徑是構建特定的領(lǐng)域知識庫,優(yōu)點(diǎn)是對語(yǔ)義相關(guān)度可以做更精準的控制,但是構建成本較高,同時(shí)如何將知識信息融入到原統計機器學(xué)習的算法中也有不小難度。
當然,理想的形態(tài)必然是混合以上三種來(lái)源,取其優(yōu)點(diǎn),可以觀(guān)察谷歌的相關(guān)搜索:
融合了字面、語(yǔ)義、知識多方面的相關(guān)性。
擴展模型思路
到模型部分,主要處理的就是原始Query中的term與待擴展的term/phrase如何產(chǎn)生關(guān)聯(lián)。目前主流方案為兩大類(lèi),一類(lèi)是以貝葉斯模型為核心,統計擴展term與Query之間的條件概率。另一類(lèi)的思路是把問(wèn)題抽象成一個(gè)翻譯模型,將Query中的詞從scr到target語(yǔ)言完成改寫(xiě)。
一、相關(guān)模型
這種方案其實(shí)特別直白,Query詞與擴展詞在語(yǔ)料中共現值越大,說(shuō)明它們相關(guān)性越高。也很容易想到使用TF-IDF一類(lèi)的方式去做。經(jīng)典的文獻可以看這篇早在02年發(fā)表的工作:
《Probabilistic Query Expansion Using Query Logs》
作者提出需要做Query擴展的原因是認為用戶(hù)輸入的Query詞與實(shí)際文檔集中的詞存在差異,所以在傳統BM25算法搜索的過(guò)程中很有可能無(wú)法命中。下圖是作者做的驗證工作,將文檔和Query都使用詞袋向量表示,向量中元素值為T(mén)F-IDF,可以看到峰值區間對應的相似度并不高。
需要構建這種聯(lián)系很自然的方式就是利用用戶(hù)行為日志數據,用貝葉斯模型構建概率分布:
最終公式可以表示為:
式子右側括號中分別融合了擴展詞在文檔集中的先驗概率、Query詞與文檔在交互session中的共現頻數以及Query詞在交互session中的頻數。
雖然這篇文章過(guò)去了將近20年,但是后續的利用相關(guān)模型的算法都逃不出這個(gè)套路,方法簡(jiǎn)單卻有效,在剛著(zhù)手做該任務(wù)時(shí)不妨可以選它作為baseline。
往后大家對于這個(gè)套路的Query擴展優(yōu)化,多關(guān)注于提高擴展詞的質(zhì)量。一個(gè)很自然的邏輯就是可以用term作為擴展詞,同樣地,phrase或concept短語(yǔ)也可以。
《Context-Aware Query Suggestion by Mining Click-Through and Session Data》
比如類(lèi)似這篇文章中,因為Query中出現的term與它們對應的主題是多對多的,作者通過(guò)Query聚類(lèi)挖掘出潛在的幾種意圖concept詞,結合考慮Query Session的問(wèn)題再進(jìn)行后續擴展。
二、翻譯模型
除了挖掘出擴展詞的方案,另一個(gè)方向是對Query詞進(jìn)行直接改寫(xiě)。仍然從最簡(jiǎn)單的開(kāi)始,各種復雜模型的起點(diǎn)其實(shí)都源自符合人類(lèi)直覺(jué)的簡(jiǎn)單假設。
《The Mathematics of Statistical Machine Translation: Parameter Estimation》
這是篇年代更加久遠的文章,發(fā)表于1993年,它就是著(zhù)名的IBM算法。本身與Query擴展無(wú)關(guān),主要工作是做機器翻譯,但是它闡述了翻譯模型最原始的假設:
完成翻譯,我們要完成的無(wú)非是兩件事:1)給定一個(gè)待翻譯的句子,返回目標語(yǔ)言表達這個(gè)句子各個(gè)詞意思的詞;2)將原始語(yǔ)言的詞與目標語(yǔ)言的詞一一對應(alignment)。
而IBM算法的核心就是把這個(gè)問(wèn)題抽象成“對齊”分布式是一個(gè)隱變量的概率問(wèn)題:
利用EM算法完成求解即可。
《Towards concept-based translation models using search logs for query expansion》
做Query擴展時(shí),這一思想也被遷移過(guò)來(lái):
連公式的形式都與原IBM算法是一致的,式子中theta就是改寫(xiě)操作中原始詞與目標詞的對齊概率參數。文章中,作者也進(jìn)一步實(shí)驗了phrase和concept詞的結果。同時(shí),配合 term weighting 一起食用,效果更好喔!
《Learning to Rewrite Queries》
再后續,大家會(huì )考慮進(jìn)一步優(yōu)化alignment分布的學(xué)習以及融入更多的語(yǔ)義特征進(jìn)去,畢竟IBM算法僅從統計詞頻的角度估算分布還是太過(guò)單薄。近年來(lái)深度學(xué)習的發(fā)展自然就帶動(dòng)一些傳統模型向神經(jīng)網(wǎng)絡(luò )向的方法上遷移:
《Ask the Right Questions: Active Question Reformulation with Reinforcement Learning》
谷歌在 2018 ICLR 上發(fā)表的工作合并了使用序列模型完成Query改寫(xiě),考慮使用強化學(xué)習來(lái)進(jìn)一步增強
這個(gè)方案的大致思路是,模型與索引系統連接,若改寫(xiě)后的Query可以索引出排序更靠前的內容,則給予強化模型正向的激勵。而且,train好的強化模型也可以倒過(guò)來(lái)finetune改寫(xiě)模型。
增強語(yǔ)義相關(guān)性
可以看到,計算原始Query到擴展詞或改寫(xiě)詞的關(guān)聯(lián)已經(jīng)有非常多成熟的方法,甚至可以在自己場(chǎng)景里設計比較tricky的強化模型方案。而我們認為進(jìn)一步提高效果的關(guān)鍵,還是需要主動(dòng)對業(yè)務(wù)內容的組織、理解、良好的結構化。目前火熱的各種文本預訓練模型、知識圖譜等都印證了這一點(diǎn)。常??吹接腥丝此ブR圖譜發(fā)展,不可否認因為它沒(méi)有一個(gè)大而獨立的場(chǎng)景,所以它必然無(wú)法像CV那樣大放光芒。但是我們一直認為知識圖譜的技術(shù)目前最合理的使用方案是浸潤在日常的各個(gè)技術(shù)中,它是幫助老技術(shù)突破瓶頸的途徑,沒(méi)有新東西,聽(tīng)起來(lái)當然不夠性感。
說(shuō)到這里,我們對語(yǔ)義相關(guān)性的增強就可以利用在往期標簽生成的文章中提到的方法
《A User-Centered Concept Mining System for Query and Document Understanding at Tencent》
利用大量Query的點(diǎn)擊數據,挖掘出該場(chǎng)景下的各種concept詞。進(jìn)一步,我們將concept詞與醫學(xué)知識圖譜形成關(guān)聯(lián),從而替代了前面提到的Query聚類(lèi)方案。
簡(jiǎn)單實(shí)踐
挖掘出高質(zhì)量的Concept詞后,由上文提到的關(guān)聯(lián)模型就可以獲得不錯的效果:
當遇到多個(gè)實(shí)體,使用關(guān)聯(lián)打分即可:
總結
總的來(lái)說(shuō),Query擴展本身并不算一個(gè)復雜的工作,想要最終效果做得好,我們的建議是:把復雜的工作向后撤。生成模型或者強化模型看起來(lái)很fancy,操作門(mén)檻以及工程上的支持難度都較大。踏踏實(shí)實(shí)做好數據結構化(知識圖譜構建、知識表示學(xué)習、長(cháng)文本標簽化等等),在下游應用里,用簡(jiǎn)單模型就能看到效果。有了baseline之后,我們會(huì )考慮用復雜的方案把關(guān)聯(lián)性構建得更好。
參考文獻
[1]. Probabilistic query expansion using query logs
[2]. Ask the Right Questions- Active Question Reformulation with Reinforcement Learning
[3]. Concept-Based Interactive Query Expansion
[4]. Query Expansion Techniques for Information Retrieval- a Survey
[5]. A Taxonomy and Survey of Semantic Approaches for Query Expansion
[6]. The Mathematics of Statistical Machine Translation- Parameter Estimation
[7]. Translating Queries into Snippets for Improved Query Expansion
[8]. Query expansion using local and global document analysis
[9]. Towards concept-based translation models using search logs for query expansion
[10]. Extracting Semantic Relations from Query Logs
[11]. Context-aware query suggestion by mining click-through and session data
[12]. Query Recommendation using Query Logs in Search Engines
[13]. Learning to Rewrite Queries
[14]. A User-Centered Concept Mining System for Query and Document Understanding at Tencent
[15].
招聘信息
丁香園大數據NLP團隊招聘各類(lèi)算法人才,Base杭州。NLP團隊的使命是利用NLP(自然語(yǔ)言處理)、Knowledge Graph(知識圖譜)、Deep Learning(深度學(xué)習)等技術(shù),處理丁香園海量醫學(xué)文本數據,打通電商、在線(xiàn)問(wèn)診、健康知識、社區討論等各個(gè)場(chǎng)景數據,構建醫學(xué)知識圖譜,搭建通用NLP服務(wù)。團隊關(guān)注NLP前沿技術(shù),也注重落地實(shí)現,包括但不僅限于知識圖譜、短文本理解、語(yǔ)義搜索、可解釋推薦、智能問(wèn)答等。加入我們,讓健康更多,讓生活更好!
歡迎各位朋友推薦或自薦至
想讓推薦和搜索引擎更聰明?基于知識圖譜的篇章標簽生成
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 282 次瀏覽 ? 2022-06-19 13:52
老板~我們的推薦系統笨笨的
你怎么對文檔處理的這么糙!抽個(gè)關(guān)鍵詞就應付過(guò)去了?
啊啊啊我錯惹,那那,不用關(guān)鍵詞用什么呢?
知識圖譜用上了沒(méi)?
概念詞知道不?9012年了知道么!
嚶嚶嚶,馬上升級!o(╥﹏╥)o
前言
篇章的標簽生成是NLP領(lǐng)域的一項基礎任務(wù),目的是對文本更好地結構化,篩選重要的關(guān)鍵詞,概括文本的中心語(yǔ)義。因此,我們探索了一套標簽生成流程,其中除了應用了已有的信息抽取技術(shù)之外,還將醫療知識圖譜結構,實(shí)體顯著(zhù)性判斷,concept抽取融入模型,實(shí)現業(yè)務(wù)增長(cháng)。
關(guān)于標簽生成,優(yōu)化的方法大致有兩種思路,第一種是在擁有一個(gè)較為完備的知識圖譜后,如何使用知識圖譜去指導標簽抽取過(guò)程保持語(yǔ)義上的一致。舉個(gè)栗子,比如通過(guò)詞分布的分析,某篇文章的主題被定為在“婦科”相關(guān)疾病上,那么“骨科”的實(shí)體詞就會(huì )被避免作為標簽被抽出。這種思路在業(yè)界多以L(fǎng)DA的無(wú)監督打標簽算法為主,利用知識表示向量、知識圖譜結構或者其他統計信息對LDA模型進(jìn)行改進(jìn),輸出的結果為原文出現過(guò)的實(shí)體詞,以下我們將它稱(chēng)之為主題語(yǔ)義連貫的詞分布標簽方法;
另一種思路是在知識圖譜上做文章,比如專(zhuān)業(yè)的醫學(xué)知識圖譜上的實(shí)體詞夠精確,但有時(shí)由于詞本身的含義不夠泛化,并不適用于文章的表示,舉個(gè)栗子,比如“HP”、“胃鏡”、“三聯(lián)療法”這幾個(gè)詞的確貼合消化內科的主題,但是它沒(méi)有“幽門(mén)螺桿菌的治療方法”這樣更加泛化的標簽詞來(lái)的直觀(guān),后者包含了更多的信息量,且更具可解釋性。這方向需要結合更多的NLP技術(shù),包括在業(yè)務(wù)場(chǎng)景中挖掘優(yōu)質(zhì)的concept短語(yǔ),構建concept短語(yǔ)與實(shí)體詞的taxonomy,利用文本子圖中心度測量、隨機游走路徑、詞頻共現等做encoding,以L(fǎng)DA作為抽取器完成標簽工作,以下我們將它為Concept挖掘的標簽方法。
對這兩種思路,我們調研了已有的相關(guān)研究,利用醫療知識圖譜和醫學(xué)垂直領(lǐng)域業(yè)務(wù)數據做了標簽生成的嘗試。
主題語(yǔ)義連貫的詞分布主題模型
《Incorporating Knowledge Graph Embeddings into Topic Modeling》
概率主題模型可用于從文檔集合中提取低維主題。然而,以往的模型往往產(chǎn)生無(wú)法解釋的主題。近年來(lái),已有許多基于知識的主題模型被提出,但它們不能很好的處理知識圖中的三元組,大部分以must-link形式,或直接利用圖譜中的上層概念,無(wú)法在向量空間中量化。本文將知識表示嵌入到到LDA中,將潛在的Dirichlet分配(一種廣泛使用的主題模型)與實(shí)體向量編碼的知識相結合,來(lái)提高了主題語(yǔ)義的一致性和連貫性。本文主要在兩個(gè)以往研究(CI-LDA和Corr-LDA)上做了改進(jìn),上圖為linkKGLDA,下圖為corrKGLDA:
兩個(gè)模型的不同之處在于,前者為條件獨立,后者為條件相關(guān)。具體的改進(jìn)如下:
由于一些知識表示(TransE)是unit sphere,因此使用von Mises Fisher(VMF)分布對其進(jìn)行建模。vmf分布被廣泛用于模擬此類(lèi)定向數據。此外,使用vmf分布代替多元高斯分布,可以更有效地進(jìn)行推斷。與傳統LDA模型相比,增加一組參數:(μk, κk) ,主題k的vMF分布;以及edm,即文檔中實(shí)體的知識表示向量。
實(shí)現Concept挖掘的標簽方法
目前的大多數concept標簽方案,多是基于一定的統計數據,如:詞對共現頻數,詞對覆蓋率等。這些方法依賴(lài)業(yè)務(wù)場(chǎng)景下的query log,或者也可利用知識圖譜結構進(jìn)行層次聚類(lèi),中心化,路徑預測等方式進(jìn)行。下面將一一介紹相關(guān)研究?!禛raph-Sparse LDA: A Topic Model with Structured Sparsity》本文引入了圖稀疏LDA,這是一種分層主題模型,它使用單詞之間關(guān)系的知識(例如:本體編碼)。在模型中,主題被一些潛在的概念詞概括,這些潛在概念詞來(lái)自觀(guān)察詞在本體中的圖。GS-LDA在標準LDA模型中引入了一個(gè)額外的層次結構層:主題不是分布在觀(guān)察到的詞上,而是分布在概念詞上,然后通過(guò)由詞匯結構通知的噪聲過(guò)程生成觀(guān)察到的詞。
例如上圖所示,“癲癇”是一個(gè)很好的概念詞,可以概括出子類(lèi)癲癇。如果患者患有癲癇也可以解釋“中樞神經(jīng)系統紊亂”甚至“疾病”。利用詞典用的詞或者實(shí)體總結文本時(shí),通常都非常具體,而使用概念詞總結一段文本,不僅可以說(shuō)明具體的語(yǔ)義,同時(shí)能挖掘到更上層或者相似主題的語(yǔ)義。例如:”抗病毒藥物”和”抗逆轉錄病毒”,一個(gè)詞和它的鄰居詞,可以被認為產(chǎn)生自一個(gè)核心概念。Graph-Sparse LDA模型假設一個(gè)主題有一組稀疏的概念詞組成,或是后代,或是祖先。最后定義如下過(guò)程:
推導了一個(gè)B、B-、A、A-和P(以及添加和刪除主題)的 blocked-Gibbs sampler。然而,單是吉布斯抽樣并不能使主題概念詞矩陣中的稀疏性足夠快?;旌纤俣群苈?,因為阻塞的吉布斯取樣器設置Akw~=0的唯一時(shí)間是沒(méi)有w~計數分配給任何文檔中的主題K時(shí)。當有海量文檔時(shí),不太可能達到零計數,采樣器稀疏主題概念詞矩陣A的速度會(huì )很慢。因此本文引入了一個(gè)MH procedure,通過(guò)在A(yíng)和P上的 joint moves,鼓勵主題概念詞矩陣A向更大稀疏的方向移動(dòng)。分布如下:
首先,對A’進(jìn)行智能分割合并移動(dòng)。其次,試圖通過(guò)提出一個(gè)P’來(lái)保持似然函數盡可能恒定:AP=A’P’。這樣,先驗p(A)和p(P)將對移動(dòng)產(chǎn)生很大的影響?!禛rounding Topic Models with Knowledge Bases》這篇工作認為盡管最近的研究試圖利用各種知識源來(lái)改進(jìn)主題建模,但它們要么承擔著(zhù)僅將主題表示為單詞或短語(yǔ)分布,要么通過(guò)將主題與預先定義的知識庫(知識庫)實(shí)體進(jìn)行一對一的綁定,建立主題模型,犧牲了主題建模的靈活性。因此提出了一種基于taxnomy層次結構隨機游走特征的LDA,目的在于將taxnomy的語(yǔ)義和結構化特征全部考慮進(jìn)來(lái)。
與以往LDA不同的是,模型中加入了四個(gè)新的變量,其中rdj代表隨機游走路徑,edj代表taxonomy中的概念,mdj代表文檔中的實(shí)體,ydl為單詞index。從根節點(diǎn)頂層概念詞c0開(kāi)始,通過(guò)隨機游走篩選子節點(diǎn)。過(guò)程結束直到到達葉子節點(diǎn)。因此這個(gè)隨機游走給每一個(gè)entity(概念)分配了一個(gè)從根到葉子的路徑?;谥黝}k,可以計算到達每個(gè)實(shí)體的隨機行走的概率,從而獲得主題k下實(shí)體的分布。同樣,對于每個(gè)類(lèi)別節點(diǎn)c,可以計算一個(gè)概率kc,表示c被包含在隨機行走路徑中的可能性。除了隨機游走得到的結構特征,本文同樣利用了維基百科的page數據,得到實(shí)體,單詞,概念之間的共現頻數,作為先驗信息。大文本語(yǔ)料庫和知識庫的推理是復雜的,為了保證實(shí)踐中的效率,文章提出需要注意以下幾個(gè)方面:(a)所有實(shí)體的路徑總數可能非常大,使得隨機游走公式的計算非常龐大。因此,本文使用命名實(shí)體字典為每個(gè)文檔選擇候選實(shí)體,在采樣時(shí)只考慮這些實(shí)體的路徑。實(shí)驗表明,該近似方法對建模性能的影響可以忽略不計,同時(shí)大大降低了采樣的復雜度,使推理成為現實(shí)。(b)通過(guò)修剪低級的具體類(lèi)別節點(diǎn)(其最短的根到節點(diǎn)路徑長(cháng)度超過(guò)閾值),進(jìn)一步減少層次深度。作者發(fā)現這樣一個(gè)“粗糙”的實(shí)體本體足以滿(mǎn)足需求。(c)為了計算路徑的概率,使用動(dòng)態(tài)規劃來(lái)避免冗余計算。(d)初始化實(shí)體和路徑分配以確保良好的起點(diǎn)?!禡odeling Documents by Combining Semantic Concepts with Unsupervised Statistical Learning》以往的研究中,或是只用文檔中的詞來(lái)描述主題,或是在taxnomy中找到合適的concept描述主題,本文雖然只是在傳統LDA模型上做了很小的改動(dòng),但是它可以實(shí)現文檔詞分布和taxnomy concept共存的主題表達形式。將文檔中的所有單詞(不僅僅是實(shí)體)映射到一組本體概念上,學(xué)習單詞和概念的概率模型,并且使用完全無(wú)監督的方法,而無(wú)需任何監督標記。
將把這種模型稱(chēng)為概念模型。在概念模型中,屬于概念的詞由人類(lèi)先驗地(例如,作為本體的一部分)定義,并且僅限于(通常)總體詞匯的一小部分。相反,在主題模型中,詞匯表中的所有單詞都可以與任何特定主題關(guān)聯(lián),但具有不同的概率。在上面的公式中,概念模型的未知參數是單詞概念概率p(wi|cj)和概念文檔概率p(cj|d)。作者的目標(在主題模型中)是從適當的語(yǔ)料庫中估計這些。例如,注意概率p(cj|d)可以解決前面提到的標記問(wèn)題,因為每個(gè)這樣的分布都告訴我們文檔d表示的概念cj的混合。使用吉布斯抽樣將概念分配給文檔中的單詞,使用與在主題模型相同的抽樣方程,但是有一個(gè)額外的約束,即一個(gè)單詞只能分配給它在本體中關(guān)聯(lián)的概念。除了約束外,學(xué)習算法與主題模型的標準學(xué)習完全相同,最終的結果是語(yǔ)料庫中的每個(gè)詞都被賦予了本體中的一個(gè)概念。反過(guò)來(lái),這些分配可以直接估計上面等式中的某些項。為了估計特定概念cj的p(wi|cj),我們通過(guò)抽樣算法判斷語(yǔ)料庫中有多少單詞可以分配給概念cj,并將這些計數標準化,以得到概率分布p(wi|cj)。為了估計特定文檔d的p(cj|d),計算每個(gè)概念分配給文檔d中單詞的次數,然后再次規范化和平滑計算以獲得p(cj|d)。下表顯示了一組單詞的學(xué)習概率(按概率排序)的例子。
《Unsupervised Graph-based Topic Labelling using DBpedia》這是一個(gè)完全將LDA作為抽取功能組件的模型,topic labeling過(guò)程完全基于聚類(lèi)和圖的中心化操作。
可以看到,每個(gè)實(shí)體的語(yǔ)義圖只能表示一種非常寬泛的概念,并不能體現各個(gè)實(shí)體概念之間的關(guān)系,直接作為標簽會(huì )使每個(gè)概念都孤立起來(lái),文本的語(yǔ)義不僅不一致,還會(huì )非常離散。相反本文方法是建立一個(gè)由多個(gè)實(shí)體子圖構成的主題圖,從中可以分析大圖中每個(gè)節點(diǎn)對主題圖的語(yǔ)義中心度貢獻(因此模型的假設前提是:在圖中起重要作用的節點(diǎn)也與種子概念有重要的語(yǔ)義關(guān)系)。最終從這些語(yǔ)義中心度貢獻高的節點(diǎn)中選擇標簽。本文應用了幾種語(yǔ)義中心性措施:Focused Closeness Centrality,Focused Information Centrality,Focused Betweenness Centrality,來(lái)計算候選標簽的語(yǔ)義中心度?!禣n Conceptual Labeling of a Bag of Words》本文利用了probase來(lái)進(jìn)行concept tagging,與上述的研究不同,他沒(méi)有用到任何主題模型,主要的方法是用信息論的方法來(lái)權衡對詞袋的語(yǔ)義覆蓋度,輸出覆蓋最廣但標簽最少的單詞。
使用MDL(最小長(cháng)度描述原則)作為選擇最好concept的標準,通過(guò)最大限度減少描述長(cháng)度來(lái)實(shí)現當前概念集C的更新。迭代終止時(shí),描述長(cháng)度不能再減少了。由于編碼長(cháng)度在每次迭代時(shí)單調遞減,因此保證了該算法收斂。雖然沒(méi)有用到任何主題模型,但算法仍然可以通過(guò)三種操作(增刪改)和MDL收斂的方式,自動(dòng)的決定主題個(gè)數。前提是需要有海量的上下級概念對頻數。
實(shí)際工作中的嘗試
在實(shí)際工作的嘗試中,我們的整體算法流程分為兩部分:核心主題關(guān)鍵詞抽取以及獲取更為抽象的concept短語(yǔ)。符合一定主題的關(guān)鍵詞抽?。涸谠械膌inkKGLDA模型基礎上,除了采用知識表示,還對圖譜之外的詞賦予deepwalk向量,是模型更好的應對圖譜之外的詞。更為抽象的concept短語(yǔ):首先構建基于帖子的知識圖譜,除了利用業(yè)務(wù)詞典,丁香園論壇結構,搭建圖譜上層,中下層圖譜通過(guò)層次主題模型,concept,關(guān)鍵詞抽取進(jìn)行搭建。通過(guò)的concept抽取模型(可參考:醫療健康領(lǐng)域的短文本解析探索),我們從query和帖子標題中抽取到了300萬(wàn)的concept詞語(yǔ),那么如何才能找到一個(gè)帖子真正說(shuō)的主題,并將文本中的最關(guān)鍵主題詞連接到相應的concept上呢,這里我們要借助以下論文中提到的方法:《Towards Better Text Understanding and Retrieval through Kernel Entity Salience Modeling》由于一篇文章涉及到的實(shí)體多種多樣,但一般會(huì )存在幾個(gè)最關(guān)鍵的實(shí)體,例如:
文中出現了腹瀉,綠便,奶等一系列表述疾病過(guò)程和食物相關(guān)的實(shí)體(可通過(guò)linkKGLDA識別出來(lái)),但中心實(shí)體”腹瀉”和”乳糖酶乳粉”在識別結果中的排序可能并不是top1,這會(huì )使得后續的concept對應工作產(chǎn)生一定的噪音。
本文主要研究實(shí)體對文章的顯著(zhù)程度,通過(guò)結合文章上下文和實(shí)體知識表示(KEE),和Kernel Interaction Model (KIM) 模型,對實(shí)體-文章對進(jìn)行排序,從而得到實(shí)體在文章中的顯著(zhù)程度。實(shí)驗數據利用的是遠監督標注,利用文章和文章標題,以及已有算法(ner,名詞短語(yǔ)抽取,實(shí)體鏈接,linkKGLDA概率等)得到訓練數據?!禔 User-Centered Concept Mining System for Query and Document Understanding at Tencent》本篇文章在tagging docment上的方法有兩種,實(shí)現的前提條件是需要有足夠數量和高質(zhì)量的query log,以及知識圖譜。整個(gè)過(guò)程分為兩種方法:基于概率和基于匹配:
基于條件概率:
文章3.1節描述了如何利用抽取到的主題關(guān)鍵詞去對應到一組合適的concept,主要利用的還是主題關(guān)鍵詞上下文與concept的條件概率推理。與《Grounding Topic Models with Knowledge Bases》不同,這種方法可以得到圖譜中不存在,但是搜索中經(jīng)常出現的concept,并且也不需要大量上下位詞的共現頻數。
整個(gè)p(c|d)的計算過(guò)程重點(diǎn)在于第三步,即想要計算p(c|x),必須存在以上下文xj作為子串的概念詞(這樣的概念詞來(lái)自于query log),如:文中提到的概念詞”省油的汽車(chē)”和文檔中”豐田RAV4”的上下文”省油,耐用”。雖然這樣的概念詞在醫療專(zhuān)業(yè)詞匯和搜索中很少見(jiàn),但這實(shí)際上是實(shí)體屬性和概念屬性的一種交集,在沒(méi)有足夠數量和高質(zhì)量的query log的情況下,我們可以采用屬性抽取相關(guān)工作的研究結果。這樣做更有利于做醫療領(lǐng)域的相關(guān)問(wèn)題,當然也可參照之前的歷史文章(taxnomy構建)和上面介紹的《On Conceptual Labeling of a Bag of Words》計算概率值。
基于匹配:
1.首先利用GBRank,textRank,word2vec算法,得到一定數量的關(guān)鍵詞(instance)2.利用檢索或者web table找到與instance相關(guān)的概念候選。每一個(gè)concept,用topN搜索結果標題文本信息來(lái)豐富concept表示(tf-idf向量)。4.將concept表示與文檔title tf-idf向量做相似度計算,超過(guò)一定閾值,打相應標簽。
實(shí)驗對比
在丁香園論壇帖子的文本數據上,我們應用了前文調研的主題抽取、實(shí)體顯著(zhù)性判斷、短語(yǔ)挖掘、concept召回等方法,所獲得的標簽在主題貼近度和可解釋性上都有顯著(zhù)提高:
總結
標簽生成任務(wù)雖然在NLP領(lǐng)域非常常見(jiàn),但是想要獲得高質(zhì)量的標簽詞,在推薦、搜索、問(wèn)答等工業(yè)場(chǎng)景下應用,背后其實(shí)集成了眾多NLP基礎工作。標簽生成的上游包含了分詞、命名實(shí)體識別、醫學(xué)概念歸一化、消岐、concept質(zhì)量?jì)?yōu)化等工作。只有穩固的基礎才能把樓蓋得更高。其次,知識圖譜就是模型。合理的圖譜結構、豐富的數據量將決定最終結果的好壞。在產(chǎn)業(yè)界尤其需要關(guān)注實(shí)際業(yè)務(wù)下的知識體系構建,一套知識圖譜并不一定能滿(mǎn)足所有的業(yè)務(wù)線(xiàn),比如在醫學(xué)科普文章下表現良好的圖譜,若應用在考研、招聘類(lèi)的文本下,反而會(huì )因為抽出過(guò)多的醫學(xué)專(zhuān)業(yè)詞匯而偏離主題??梢耘c業(yè)務(wù)部門(mén)協(xié)同補全知識圖譜,或者用一些統計學(xué)方法加以補充。最后,標簽詞并不需要一定作為文本的一種“顯式”的展示方式,作為長(cháng)文本的一種更優(yōu)的結構化數據,它有各種各樣的“隱式”用法,比如作為特征輸入到下游的文本分類(lèi)、標題生成甚至融入到推薦系統策略中,我們會(huì )在今后陸續分享各種有趣的玩兒法。
可
能
喜
歡
求關(guān)注 求投喂 拉你進(jìn)高端群哦~
參
考
文
獻 查看全部
想讓推薦和搜索引擎更聰明?基于知識圖譜的篇章標簽生成
老板~我們的推薦系統笨笨的
你怎么對文檔處理的這么糙!抽個(gè)關(guān)鍵詞就應付過(guò)去了?
啊啊啊我錯惹,那那,不用關(guān)鍵詞用什么呢?
知識圖譜用上了沒(méi)?
概念詞知道不?9012年了知道么!
嚶嚶嚶,馬上升級!o(╥﹏╥)o
前言
篇章的標簽生成是NLP領(lǐng)域的一項基礎任務(wù),目的是對文本更好地結構化,篩選重要的關(guān)鍵詞,概括文本的中心語(yǔ)義。因此,我們探索了一套標簽生成流程,其中除了應用了已有的信息抽取技術(shù)之外,還將醫療知識圖譜結構,實(shí)體顯著(zhù)性判斷,concept抽取融入模型,實(shí)現業(yè)務(wù)增長(cháng)。
關(guān)于標簽生成,優(yōu)化的方法大致有兩種思路,第一種是在擁有一個(gè)較為完備的知識圖譜后,如何使用知識圖譜去指導標簽抽取過(guò)程保持語(yǔ)義上的一致。舉個(gè)栗子,比如通過(guò)詞分布的分析,某篇文章的主題被定為在“婦科”相關(guān)疾病上,那么“骨科”的實(shí)體詞就會(huì )被避免作為標簽被抽出。這種思路在業(yè)界多以L(fǎng)DA的無(wú)監督打標簽算法為主,利用知識表示向量、知識圖譜結構或者其他統計信息對LDA模型進(jìn)行改進(jìn),輸出的結果為原文出現過(guò)的實(shí)體詞,以下我們將它稱(chēng)之為主題語(yǔ)義連貫的詞分布標簽方法;
另一種思路是在知識圖譜上做文章,比如專(zhuān)業(yè)的醫學(xué)知識圖譜上的實(shí)體詞夠精確,但有時(shí)由于詞本身的含義不夠泛化,并不適用于文章的表示,舉個(gè)栗子,比如“HP”、“胃鏡”、“三聯(lián)療法”這幾個(gè)詞的確貼合消化內科的主題,但是它沒(méi)有“幽門(mén)螺桿菌的治療方法”這樣更加泛化的標簽詞來(lái)的直觀(guān),后者包含了更多的信息量,且更具可解釋性。這方向需要結合更多的NLP技術(shù),包括在業(yè)務(wù)場(chǎng)景中挖掘優(yōu)質(zhì)的concept短語(yǔ),構建concept短語(yǔ)與實(shí)體詞的taxonomy,利用文本子圖中心度測量、隨機游走路徑、詞頻共現等做encoding,以L(fǎng)DA作為抽取器完成標簽工作,以下我們將它為Concept挖掘的標簽方法。
對這兩種思路,我們調研了已有的相關(guān)研究,利用醫療知識圖譜和醫學(xué)垂直領(lǐng)域業(yè)務(wù)數據做了標簽生成的嘗試。
主題語(yǔ)義連貫的詞分布主題模型
《Incorporating Knowledge Graph Embeddings into Topic Modeling》
概率主題模型可用于從文檔集合中提取低維主題。然而,以往的模型往往產(chǎn)生無(wú)法解釋的主題。近年來(lái),已有許多基于知識的主題模型被提出,但它們不能很好的處理知識圖中的三元組,大部分以must-link形式,或直接利用圖譜中的上層概念,無(wú)法在向量空間中量化。本文將知識表示嵌入到到LDA中,將潛在的Dirichlet分配(一種廣泛使用的主題模型)與實(shí)體向量編碼的知識相結合,來(lái)提高了主題語(yǔ)義的一致性和連貫性。本文主要在兩個(gè)以往研究(CI-LDA和Corr-LDA)上做了改進(jìn),上圖為linkKGLDA,下圖為corrKGLDA:
兩個(gè)模型的不同之處在于,前者為條件獨立,后者為條件相關(guān)。具體的改進(jìn)如下:
由于一些知識表示(TransE)是unit sphere,因此使用von Mises Fisher(VMF)分布對其進(jìn)行建模。vmf分布被廣泛用于模擬此類(lèi)定向數據。此外,使用vmf分布代替多元高斯分布,可以更有效地進(jìn)行推斷。與傳統LDA模型相比,增加一組參數:(μk, κk) ,主題k的vMF分布;以及edm,即文檔中實(shí)體的知識表示向量。
實(shí)現Concept挖掘的標簽方法
目前的大多數concept標簽方案,多是基于一定的統計數據,如:詞對共現頻數,詞對覆蓋率等。這些方法依賴(lài)業(yè)務(wù)場(chǎng)景下的query log,或者也可利用知識圖譜結構進(jìn)行層次聚類(lèi),中心化,路徑預測等方式進(jìn)行。下面將一一介紹相關(guān)研究?!禛raph-Sparse LDA: A Topic Model with Structured Sparsity》本文引入了圖稀疏LDA,這是一種分層主題模型,它使用單詞之間關(guān)系的知識(例如:本體編碼)。在模型中,主題被一些潛在的概念詞概括,這些潛在概念詞來(lái)自觀(guān)察詞在本體中的圖。GS-LDA在標準LDA模型中引入了一個(gè)額外的層次結構層:主題不是分布在觀(guān)察到的詞上,而是分布在概念詞上,然后通過(guò)由詞匯結構通知的噪聲過(guò)程生成觀(guān)察到的詞。
例如上圖所示,“癲癇”是一個(gè)很好的概念詞,可以概括出子類(lèi)癲癇。如果患者患有癲癇也可以解釋“中樞神經(jīng)系統紊亂”甚至“疾病”。利用詞典用的詞或者實(shí)體總結文本時(shí),通常都非常具體,而使用概念詞總結一段文本,不僅可以說(shuō)明具體的語(yǔ)義,同時(shí)能挖掘到更上層或者相似主題的語(yǔ)義。例如:”抗病毒藥物”和”抗逆轉錄病毒”,一個(gè)詞和它的鄰居詞,可以被認為產(chǎn)生自一個(gè)核心概念。Graph-Sparse LDA模型假設一個(gè)主題有一組稀疏的概念詞組成,或是后代,或是祖先。最后定義如下過(guò)程:
推導了一個(gè)B、B-、A、A-和P(以及添加和刪除主題)的 blocked-Gibbs sampler。然而,單是吉布斯抽樣并不能使主題概念詞矩陣中的稀疏性足夠快?;旌纤俣群苈?,因為阻塞的吉布斯取樣器設置Akw~=0的唯一時(shí)間是沒(méi)有w~計數分配給任何文檔中的主題K時(shí)。當有海量文檔時(shí),不太可能達到零計數,采樣器稀疏主題概念詞矩陣A的速度會(huì )很慢。因此本文引入了一個(gè)MH procedure,通過(guò)在A(yíng)和P上的 joint moves,鼓勵主題概念詞矩陣A向更大稀疏的方向移動(dòng)。分布如下:
首先,對A’進(jìn)行智能分割合并移動(dòng)。其次,試圖通過(guò)提出一個(gè)P’來(lái)保持似然函數盡可能恒定:AP=A’P’。這樣,先驗p(A)和p(P)將對移動(dòng)產(chǎn)生很大的影響?!禛rounding Topic Models with Knowledge Bases》這篇工作認為盡管最近的研究試圖利用各種知識源來(lái)改進(jìn)主題建模,但它們要么承擔著(zhù)僅將主題表示為單詞或短語(yǔ)分布,要么通過(guò)將主題與預先定義的知識庫(知識庫)實(shí)體進(jìn)行一對一的綁定,建立主題模型,犧牲了主題建模的靈活性。因此提出了一種基于taxnomy層次結構隨機游走特征的LDA,目的在于將taxnomy的語(yǔ)義和結構化特征全部考慮進(jìn)來(lái)。
與以往LDA不同的是,模型中加入了四個(gè)新的變量,其中rdj代表隨機游走路徑,edj代表taxonomy中的概念,mdj代表文檔中的實(shí)體,ydl為單詞index。從根節點(diǎn)頂層概念詞c0開(kāi)始,通過(guò)隨機游走篩選子節點(diǎn)。過(guò)程結束直到到達葉子節點(diǎn)。因此這個(gè)隨機游走給每一個(gè)entity(概念)分配了一個(gè)從根到葉子的路徑?;谥黝}k,可以計算到達每個(gè)實(shí)體的隨機行走的概率,從而獲得主題k下實(shí)體的分布。同樣,對于每個(gè)類(lèi)別節點(diǎn)c,可以計算一個(gè)概率kc,表示c被包含在隨機行走路徑中的可能性。除了隨機游走得到的結構特征,本文同樣利用了維基百科的page數據,得到實(shí)體,單詞,概念之間的共現頻數,作為先驗信息。大文本語(yǔ)料庫和知識庫的推理是復雜的,為了保證實(shí)踐中的效率,文章提出需要注意以下幾個(gè)方面:(a)所有實(shí)體的路徑總數可能非常大,使得隨機游走公式的計算非常龐大。因此,本文使用命名實(shí)體字典為每個(gè)文檔選擇候選實(shí)體,在采樣時(shí)只考慮這些實(shí)體的路徑。實(shí)驗表明,該近似方法對建模性能的影響可以忽略不計,同時(shí)大大降低了采樣的復雜度,使推理成為現實(shí)。(b)通過(guò)修剪低級的具體類(lèi)別節點(diǎn)(其最短的根到節點(diǎn)路徑長(cháng)度超過(guò)閾值),進(jìn)一步減少層次深度。作者發(fā)現這樣一個(gè)“粗糙”的實(shí)體本體足以滿(mǎn)足需求。(c)為了計算路徑的概率,使用動(dòng)態(tài)規劃來(lái)避免冗余計算。(d)初始化實(shí)體和路徑分配以確保良好的起點(diǎn)?!禡odeling Documents by Combining Semantic Concepts with Unsupervised Statistical Learning》以往的研究中,或是只用文檔中的詞來(lái)描述主題,或是在taxnomy中找到合適的concept描述主題,本文雖然只是在傳統LDA模型上做了很小的改動(dòng),但是它可以實(shí)現文檔詞分布和taxnomy concept共存的主題表達形式。將文檔中的所有單詞(不僅僅是實(shí)體)映射到一組本體概念上,學(xué)習單詞和概念的概率模型,并且使用完全無(wú)監督的方法,而無(wú)需任何監督標記。
將把這種模型稱(chēng)為概念模型。在概念模型中,屬于概念的詞由人類(lèi)先驗地(例如,作為本體的一部分)定義,并且僅限于(通常)總體詞匯的一小部分。相反,在主題模型中,詞匯表中的所有單詞都可以與任何特定主題關(guān)聯(lián),但具有不同的概率。在上面的公式中,概念模型的未知參數是單詞概念概率p(wi|cj)和概念文檔概率p(cj|d)。作者的目標(在主題模型中)是從適當的語(yǔ)料庫中估計這些。例如,注意概率p(cj|d)可以解決前面提到的標記問(wèn)題,因為每個(gè)這樣的分布都告訴我們文檔d表示的概念cj的混合。使用吉布斯抽樣將概念分配給文檔中的單詞,使用與在主題模型相同的抽樣方程,但是有一個(gè)額外的約束,即一個(gè)單詞只能分配給它在本體中關(guān)聯(lián)的概念。除了約束外,學(xué)習算法與主題模型的標準學(xué)習完全相同,最終的結果是語(yǔ)料庫中的每個(gè)詞都被賦予了本體中的一個(gè)概念。反過(guò)來(lái),這些分配可以直接估計上面等式中的某些項。為了估計特定概念cj的p(wi|cj),我們通過(guò)抽樣算法判斷語(yǔ)料庫中有多少單詞可以分配給概念cj,并將這些計數標準化,以得到概率分布p(wi|cj)。為了估計特定文檔d的p(cj|d),計算每個(gè)概念分配給文檔d中單詞的次數,然后再次規范化和平滑計算以獲得p(cj|d)。下表顯示了一組單詞的學(xué)習概率(按概率排序)的例子。
《Unsupervised Graph-based Topic Labelling using DBpedia》這是一個(gè)完全將LDA作為抽取功能組件的模型,topic labeling過(guò)程完全基于聚類(lèi)和圖的中心化操作。
可以看到,每個(gè)實(shí)體的語(yǔ)義圖只能表示一種非常寬泛的概念,并不能體現各個(gè)實(shí)體概念之間的關(guān)系,直接作為標簽會(huì )使每個(gè)概念都孤立起來(lái),文本的語(yǔ)義不僅不一致,還會(huì )非常離散。相反本文方法是建立一個(gè)由多個(gè)實(shí)體子圖構成的主題圖,從中可以分析大圖中每個(gè)節點(diǎn)對主題圖的語(yǔ)義中心度貢獻(因此模型的假設前提是:在圖中起重要作用的節點(diǎn)也與種子概念有重要的語(yǔ)義關(guān)系)。最終從這些語(yǔ)義中心度貢獻高的節點(diǎn)中選擇標簽。本文應用了幾種語(yǔ)義中心性措施:Focused Closeness Centrality,Focused Information Centrality,Focused Betweenness Centrality,來(lái)計算候選標簽的語(yǔ)義中心度?!禣n Conceptual Labeling of a Bag of Words》本文利用了probase來(lái)進(jìn)行concept tagging,與上述的研究不同,他沒(méi)有用到任何主題模型,主要的方法是用信息論的方法來(lái)權衡對詞袋的語(yǔ)義覆蓋度,輸出覆蓋最廣但標簽最少的單詞。
使用MDL(最小長(cháng)度描述原則)作為選擇最好concept的標準,通過(guò)最大限度減少描述長(cháng)度來(lái)實(shí)現當前概念集C的更新。迭代終止時(shí),描述長(cháng)度不能再減少了。由于編碼長(cháng)度在每次迭代時(shí)單調遞減,因此保證了該算法收斂。雖然沒(méi)有用到任何主題模型,但算法仍然可以通過(guò)三種操作(增刪改)和MDL收斂的方式,自動(dòng)的決定主題個(gè)數。前提是需要有海量的上下級概念對頻數。
實(shí)際工作中的嘗試
在實(shí)際工作的嘗試中,我們的整體算法流程分為兩部分:核心主題關(guān)鍵詞抽取以及獲取更為抽象的concept短語(yǔ)。符合一定主題的關(guān)鍵詞抽?。涸谠械膌inkKGLDA模型基礎上,除了采用知識表示,還對圖譜之外的詞賦予deepwalk向量,是模型更好的應對圖譜之外的詞。更為抽象的concept短語(yǔ):首先構建基于帖子的知識圖譜,除了利用業(yè)務(wù)詞典,丁香園論壇結構,搭建圖譜上層,中下層圖譜通過(guò)層次主題模型,concept,關(guān)鍵詞抽取進(jìn)行搭建。通過(guò)的concept抽取模型(可參考:醫療健康領(lǐng)域的短文本解析探索),我們從query和帖子標題中抽取到了300萬(wàn)的concept詞語(yǔ),那么如何才能找到一個(gè)帖子真正說(shuō)的主題,并將文本中的最關(guān)鍵主題詞連接到相應的concept上呢,這里我們要借助以下論文中提到的方法:《Towards Better Text Understanding and Retrieval through Kernel Entity Salience Modeling》由于一篇文章涉及到的實(shí)體多種多樣,但一般會(huì )存在幾個(gè)最關(guān)鍵的實(shí)體,例如:
文中出現了腹瀉,綠便,奶等一系列表述疾病過(guò)程和食物相關(guān)的實(shí)體(可通過(guò)linkKGLDA識別出來(lái)),但中心實(shí)體”腹瀉”和”乳糖酶乳粉”在識別結果中的排序可能并不是top1,這會(huì )使得后續的concept對應工作產(chǎn)生一定的噪音。
本文主要研究實(shí)體對文章的顯著(zhù)程度,通過(guò)結合文章上下文和實(shí)體知識表示(KEE),和Kernel Interaction Model (KIM) 模型,對實(shí)體-文章對進(jìn)行排序,從而得到實(shí)體在文章中的顯著(zhù)程度。實(shí)驗數據利用的是遠監督標注,利用文章和文章標題,以及已有算法(ner,名詞短語(yǔ)抽取,實(shí)體鏈接,linkKGLDA概率等)得到訓練數據?!禔 User-Centered Concept Mining System for Query and Document Understanding at Tencent》本篇文章在tagging docment上的方法有兩種,實(shí)現的前提條件是需要有足夠數量和高質(zhì)量的query log,以及知識圖譜。整個(gè)過(guò)程分為兩種方法:基于概率和基于匹配:
基于條件概率:
文章3.1節描述了如何利用抽取到的主題關(guān)鍵詞去對應到一組合適的concept,主要利用的還是主題關(guān)鍵詞上下文與concept的條件概率推理。與《Grounding Topic Models with Knowledge Bases》不同,這種方法可以得到圖譜中不存在,但是搜索中經(jīng)常出現的concept,并且也不需要大量上下位詞的共現頻數。
整個(gè)p(c|d)的計算過(guò)程重點(diǎn)在于第三步,即想要計算p(c|x),必須存在以上下文xj作為子串的概念詞(這樣的概念詞來(lái)自于query log),如:文中提到的概念詞”省油的汽車(chē)”和文檔中”豐田RAV4”的上下文”省油,耐用”。雖然這樣的概念詞在醫療專(zhuān)業(yè)詞匯和搜索中很少見(jiàn),但這實(shí)際上是實(shí)體屬性和概念屬性的一種交集,在沒(méi)有足夠數量和高質(zhì)量的query log的情況下,我們可以采用屬性抽取相關(guān)工作的研究結果。這樣做更有利于做醫療領(lǐng)域的相關(guān)問(wèn)題,當然也可參照之前的歷史文章(taxnomy構建)和上面介紹的《On Conceptual Labeling of a Bag of Words》計算概率值。
基于匹配:
1.首先利用GBRank,textRank,word2vec算法,得到一定數量的關(guān)鍵詞(instance)2.利用檢索或者web table找到與instance相關(guān)的概念候選。每一個(gè)concept,用topN搜索結果標題文本信息來(lái)豐富concept表示(tf-idf向量)。4.將concept表示與文檔title tf-idf向量做相似度計算,超過(guò)一定閾值,打相應標簽。
實(shí)驗對比
在丁香園論壇帖子的文本數據上,我們應用了前文調研的主題抽取、實(shí)體顯著(zhù)性判斷、短語(yǔ)挖掘、concept召回等方法,所獲得的標簽在主題貼近度和可解釋性上都有顯著(zhù)提高:
總結
標簽生成任務(wù)雖然在NLP領(lǐng)域非常常見(jiàn),但是想要獲得高質(zhì)量的標簽詞,在推薦、搜索、問(wèn)答等工業(yè)場(chǎng)景下應用,背后其實(shí)集成了眾多NLP基礎工作。標簽生成的上游包含了分詞、命名實(shí)體識別、醫學(xué)概念歸一化、消岐、concept質(zhì)量?jì)?yōu)化等工作。只有穩固的基礎才能把樓蓋得更高。其次,知識圖譜就是模型。合理的圖譜結構、豐富的數據量將決定最終結果的好壞。在產(chǎn)業(yè)界尤其需要關(guān)注實(shí)際業(yè)務(wù)下的知識體系構建,一套知識圖譜并不一定能滿(mǎn)足所有的業(yè)務(wù)線(xiàn),比如在醫學(xué)科普文章下表現良好的圖譜,若應用在考研、招聘類(lèi)的文本下,反而會(huì )因為抽出過(guò)多的醫學(xué)專(zhuān)業(yè)詞匯而偏離主題??梢耘c業(yè)務(wù)部門(mén)協(xié)同補全知識圖譜,或者用一些統計學(xué)方法加以補充。最后,標簽詞并不需要一定作為文本的一種“顯式”的展示方式,作為長(cháng)文本的一種更優(yōu)的結構化數據,它有各種各樣的“隱式”用法,比如作為特征輸入到下游的文本分類(lèi)、標題生成甚至融入到推薦系統策略中,我們會(huì )在今后陸續分享各種有趣的玩兒法。
可
能
喜
歡
求關(guān)注 求投喂 拉你進(jìn)高端群哦~
參
考
文
獻
從0到1:構建強大且易用的規則引擎
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 98 次瀏覽 ? 2022-06-18 20:24
2016 年 7 月恰逢美團點(diǎn)評的業(yè)務(wù)進(jìn)入“下半場(chǎng)”,需要在各個(gè)環(huán)節優(yōu)化體驗、提升效率、降低成本。技術(shù)團隊需要怎么做來(lái)適應這個(gè)變化?這個(gè)問(wèn)題直接影響著(zhù)之后的工作思路。
美團外賣(mài)的 CRM 業(yè)務(wù)步入成熟期,規則類(lèi)需求幾乎撐起了這個(gè)業(yè)務(wù)所有需求的半邊天。
一方面規則唯一不變的是“多變”,另一方面開(kāi)發(fā)團隊對“規則開(kāi)發(fā)”的感受是乏味、疲憊和缺乏技術(shù)含量。如何解決規則開(kāi)發(fā)的效率問(wèn)題,最大化解放開(kāi)發(fā)團隊成為目前的一個(gè) KPI。
規則引擎作為常見(jiàn)的維護策略規則的框架很快進(jìn)入我的思路。它能將業(yè)務(wù)決策邏輯從系統邏輯中抽離出來(lái),使兩種邏輯可以獨立于彼此而變化,這樣可以明顯降低兩種邏輯的維護成本。
分析規則引擎如何設計正是本文的主題,過(guò)程中也簡(jiǎn)單介紹了實(shí)現方案。
美團規則引擎應用實(shí)踐
首先回顧幾個(gè)美團點(diǎn)評的業(yè)務(wù)場(chǎng)景,通過(guò)這些場(chǎng)景大家能更好地理解什么是規則,規則的邊界是什么。
在每個(gè)場(chǎng)景后面都介紹了業(yè)務(wù)系統現在使用的解決方案以及主要的優(yōu)缺點(diǎn)。
門(mén)店信息校驗
場(chǎng)景
美團點(diǎn)評合并前的美團平臺事業(yè)部中,門(mén)店信息入口作為門(mén)店信息的第一道關(guān)卡,有一個(gè)很重要的職責,就是質(zhì)量控制,其中第一步就是針對一些字段的校驗規則。
下面從流程的角度看下門(mén)店信息入口業(yè)務(wù)里校驗門(mén)店信息的規則模型(已簡(jiǎn)化),如下圖:
規則主體包括三部分:
方案:硬編碼
由于歷史原因,門(mén)店信息校驗采用了硬編碼的方式,偽代碼如下:
if (StringUtil.isBlank(fieldA)
|| StringUtil.isBlank(fieldB)
|| StringUtil.isBlank(fieldC)
|| StringUtil.isBlank(fieldD)) {
return ResultDOFactory.createResultDO(Code.PARAM_ERROR, "門(mén)店參數缺少必填項");
}if (fieldA.length() < 10) {
return ResultDOFactory.createResultDO(Code.PARAM_ERROR, "門(mén)店名稱(chēng)長(cháng)度不能少于10個(gè)字符");
}
if (!isConsistent(fieldB, fieldC, fieldD)) {
return ResultDOFactory.createResultDO(Code.PARAM_ERROR, "門(mén)店xxx地址、行政區和經(jīng)緯度不一致");
}
優(yōu)點(diǎn):
缺點(diǎn):
門(mén)店審核流程
場(chǎng)景
流程控制中心(負責在運行時(shí)根據輸入參數選擇不同的流程節點(diǎn)從而構建一個(gè)流程實(shí)例)會(huì )根據輸入門(mén)店信息中的渠道來(lái)源和品牌等特征確定本次審核(不)走哪些節點(diǎn),其中選擇策略的模型如下圖:
規則主體是分支條件:
方案:開(kāi)源 Drools 從入門(mén)到放棄
經(jīng)過(guò)一系列調研,團隊選擇基于開(kāi)源規則引擎 Drools 來(lái)配置流程中審核節點(diǎn)的選擇策略。使用 Drools 后的規則配置流程如下圖:
上圖中 DSL 即是規則主體,規則內容如下:
rule "1.1"
when
poi : POI( source == 1 && brandType == 1 )
then
System.out.println( "1.1 matched" );
poi.setPassedNodes(1);
end
rule "1.2"
when
poi : POI( source == 1 && brandType == 2 )
then
System.out.println( "1.2 matched" );
end
rule "2.1"
when
poi : POI( source == 2 && brandType == 1 )
then
System.out.println( "2.1 matched" );
poi.setPassedNodes(2);
end
rule "2.2"
when
poi : POI( source == 2 && brandType == 2 )
then
System.out.println( "2.2 matched" );
poi.setPassedNodes(3);
end
在實(shí)踐中,我們發(fā)現 Drools 方案有如下幾個(gè)優(yōu)缺點(diǎn),由于 Drools 的問(wèn)題較多,最后這個(gè)方案還是放棄了。
優(yōu)點(diǎn):
缺點(diǎn):
績(jì)效指標計算
場(chǎng)景
美團外賣(mài)業(yè)務(wù)發(fā)展非常迅速,績(jì)效指標規則需要快速迭代才能緊跟業(yè)務(wù)發(fā)展步伐???jì)效考核頻率是一個(gè)月一次,因此績(jì)效規則的迭代頻率也是每月一次。因為績(jì)效規則系統是硬編碼實(shí)現,因此開(kāi)發(fā)團隊需要投入大量的人力滿(mǎn)足規則更新需求。
2016 年 10 月底,我受績(jì)效團隊委托成立一個(gè)項目組,開(kāi)發(fā)部署了一套績(jì)效指標配置系統,系統上線(xiàn)直接減少了產(chǎn)品經(jīng)理和技術(shù)團隊 70% 的工作量。
下面我們首先分析下績(jì)效指標計算的規則模型,如下圖:
規則主體是結構化數據處理邏輯:
方案:業(yè)務(wù)定制規則引擎
績(jì)效規則主體是數據處理,但我們認為數據處理同樣屬于規則的范疇,因此我們將其放在本文進(jìn)行分析。
下圖是績(jì)效指標配置系統,觸發(fā)器負責定時(shí)驅動(dòng)引擎進(jìn)行計算;視圖負責給商業(yè)分析師提供規則配置界面,規則表達能力取決于視圖;引擎負責將配置的規則解析成 Spark 原語(yǔ)進(jìn)行計算。
優(yōu)點(diǎn):
缺點(diǎn):
探索全新設計
“案例”一節中三種落地方案的問(wèn)題總結如下:
由于“高效配置規則”是業(yè)務(wù)里長(cháng)期存在的剛需,且行業(yè)內又缺乏符合需求的解決方案,2017 年 2 月我在團隊內部設立了一個(gè)虛擬小組專(zhuān)門(mén)負責規則引擎的設計研發(fā)。
引擎設計指標是要覆蓋工作中基礎的規則迭代需求(包括但不限于“案例”一節中的多個(gè)場(chǎng)景),同時(shí)針對“案例”一節中已有解決方案揚長(cháng)避短。
下面分三節來(lái)重現這個(gè)項目的設計過(guò)程:
需求模型
對規則引擎來(lái)說(shuō),世界皆規則。通過(guò)“案例”一節的分析,我們對規則以及規則引擎該如何構建的思路正逐漸變得清晰。
下面兩節分別定義規則數據模型和規則引擎的系統模型,目標是對“Maze 框架”一節中的規則引擎產(chǎn)品進(jìn)行框架性指導。
規則數據模型
規則本質(zhì)是一個(gè)函數,由 n 個(gè)輸入、1 個(gè)輸出和函數計算邏輯 3 部分組成。
y = f(x1, x2, …, xn)
具體結合“案例”一節中的場(chǎng)景,我們梳理出的規則模型如下圖所示:
主要由三部分構成:
結果對象,規則處理完畢后的結果。需要支持自定義類(lèi)型或者簡(jiǎn)單類(lèi)型(Integer、Long、Float、Double、Short、String、Boolean 等)。
系統模型
我們需要設計一個(gè)系統能配置、加載、解釋執行上節中的數據模型,另外設計時(shí)還需要規避“案例”一節 3 個(gè)方案的缺點(diǎn)。最終我們定義了如下圖所示的系統模型。
主要由三個(gè)模塊構成:
資源管理器,負責管理規則。
最終結果 /** 變量模式 */
|
|
中間結果 > $參數3 /** 關(guān)系運算模式 */
|
|
$參數1 + $參數2 /** 算數運算模式 */
Maze 框架
基于"需求模型"一節的定義,我們開(kāi)發(fā)了 Maze 框架(Maze 是迷宮的意思,寓意:迷宮一樣復雜的規則)。
Maze 框架分兩個(gè)引擎:
其中 MazeGO 內解析到結構化數據處理模式會(huì )調用 SQLC 驅動(dòng) MazeQL 完成計算,比如:從數據庫里查詢(xún)某個(gè) BD 的月交易額,如果交易額超過(guò) 30 萬(wàn)則執行 A 邏輯否則執行 B 邏輯,這個(gè)語(yǔ)義的規則需要執行結構化查詢(xún)。
MazeQL 內解析到策略計算模式會(huì )調用 VectorC 驅動(dòng) MazeGO 進(jìn)行計算,比如:有一張訂單表,其中第一列是商品 ID,第二列是商品購買(mǎi)數量,第三列是此商品的單價(jià)。
我們需要計算每類(lèi)商品的總價(jià)則需要對結構化查詢(xún)到的結果的每一行執行第二列*第三列這樣的策略模式計算。
名詞解釋?zhuān)?br /> SQLC 指結構化查詢(xún),擁有執行 SQL 的能力。
MazeGO
MazeGO 核心主要由三部分構成:
另外兩個(gè)輔助模塊是流量控制器和規則效果分析模塊,基本構成如下圖:
三個(gè)核心模塊(引擎、知識庫和資源管理器)的職責見(jiàn)“需求模型”一節中“系統模型”一節。
下面只介紹下和“系統模型”不同的部分:
預編譯規則實(shí)例,因為規則每次編譯執行會(huì )導致性能問(wèn)題,因此會(huì )在引擎初始化和規則有變更這兩個(gè)時(shí)機將增量版本的規則預編譯成可執行代碼。規則管理模塊。職責如下:
MazeQL
MazeQL 核心主要由三部分構成:
QL 驅動(dòng)器,驅動(dòng)平臺進(jìn)行規則計算。因為任務(wù)的實(shí)際執行平臺有多種(會(huì )在下一個(gè)“平臺”部分介紹),因此 QL 驅動(dòng)器也有多種實(shí)現。
預加載規則實(shí)例,首先為了避免訪(fǎng)問(wèn)規則時(shí)需要實(shí)時(shí)執行遠程調用而造成較大的時(shí)延,另外規則并不是時(shí)刻發(fā)生變更沒(méi)有必要每次訪(fǎng)問(wèn)時(shí)拉取一次最新版本。
基于以上兩個(gè)原因規則管理模塊會(huì )在引擎初始化階段將有效版本的規則實(shí)例緩存在本地并且監聽(tīng)規則變更事件(監聽(tīng)可以基于 ZooKeeper 實(shí)現)。
預解析規則實(shí)例,因為規則每次解析執行會(huì )導致性能(大對象)問(wèn)題,因此會(huì )在引擎初始化階段解析為運行時(shí)可用的調度棧幀。
規則管理模塊,職責如下,運行時(shí)模塊。分為調度器和 QL 驅動(dòng)器。
嵌入式模式下是基于 MySQL和 Derby 等實(shí)時(shí)性較好的數據庫實(shí)現的。在 Spark 平臺上是基于 Spark SQL 實(shí)現的。
QL 執行器,負責執行結構化查詢(xún)邏輯。兩種不同的運行模式下 QL 執行器在執行 SQL 模式時(shí)會(huì )選擇兩種不同的 QL 執行器實(shí)現,兩種實(shí)現分別是:
Maze 框架能力模型
Maze 框架是一個(gè)適用于非技術(shù)背景人員,支持復雜規則的配置和計算引擎。
規則迭代安全性
規則支持熱部署,系統通過(guò)版本控制,可以灰度一部分流量,增加上線(xiàn)信心。
規則表達能力,框架的表達能力覆蓋絕大部分代碼表達能力。下面用偽代碼的形式展示下 Maze 框架的規則部分具有的能力。
// 輸入N個(gè)FACT對象
function(Fact[] facts) {
// 從FACT對象里提取模式
String xx= facts[0].xx;
// 從某個(gè)數據源獲取特征數據,SQLC數據處理能力遠超sql語(yǔ)言本身能力,SQLC具有編程+SQL的混合能力
List moreFacts = connection.executeQuery("select * from xxx where xx like '%" + xx + "%');
// 對特征數據和FACT對象應用用戶(hù)自定義計算模式
UserDefinedClass userDefinedObj = userDefinedFuntion(facts, moreFacts);
// 使用系統內置表達式模式處理特征
int compareResult = userDefinedObj.getFieldXX().compare(XX); 查看全部
從0到1:構建強大且易用的規則引擎
2016 年 7 月恰逢美團點(diǎn)評的業(yè)務(wù)進(jìn)入“下半場(chǎng)”,需要在各個(gè)環(huán)節優(yōu)化體驗、提升效率、降低成本。技術(shù)團隊需要怎么做來(lái)適應這個(gè)變化?這個(gè)問(wèn)題直接影響著(zhù)之后的工作思路。
美團外賣(mài)的 CRM 業(yè)務(wù)步入成熟期,規則類(lèi)需求幾乎撐起了這個(gè)業(yè)務(wù)所有需求的半邊天。
一方面規則唯一不變的是“多變”,另一方面開(kāi)發(fā)團隊對“規則開(kāi)發(fā)”的感受是乏味、疲憊和缺乏技術(shù)含量。如何解決規則開(kāi)發(fā)的效率問(wèn)題,最大化解放開(kāi)發(fā)團隊成為目前的一個(gè) KPI。
規則引擎作為常見(jiàn)的維護策略規則的框架很快進(jìn)入我的思路。它能將業(yè)務(wù)決策邏輯從系統邏輯中抽離出來(lái),使兩種邏輯可以獨立于彼此而變化,這樣可以明顯降低兩種邏輯的維護成本。
分析規則引擎如何設計正是本文的主題,過(guò)程中也簡(jiǎn)單介紹了實(shí)現方案。
美團規則引擎應用實(shí)踐
首先回顧幾個(gè)美團點(diǎn)評的業(yè)務(wù)場(chǎng)景,通過(guò)這些場(chǎng)景大家能更好地理解什么是規則,規則的邊界是什么。
在每個(gè)場(chǎng)景后面都介紹了業(yè)務(wù)系統現在使用的解決方案以及主要的優(yōu)缺點(diǎn)。
門(mén)店信息校驗
場(chǎng)景
美團點(diǎn)評合并前的美團平臺事業(yè)部中,門(mén)店信息入口作為門(mén)店信息的第一道關(guān)卡,有一個(gè)很重要的職責,就是質(zhì)量控制,其中第一步就是針對一些字段的校驗規則。
下面從流程的角度看下門(mén)店信息入口業(yè)務(wù)里校驗門(mén)店信息的規則模型(已簡(jiǎn)化),如下圖:
規則主體包括三部分:
方案:硬編碼
由于歷史原因,門(mén)店信息校驗采用了硬編碼的方式,偽代碼如下:
if (StringUtil.isBlank(fieldA)
|| StringUtil.isBlank(fieldB)
|| StringUtil.isBlank(fieldC)
|| StringUtil.isBlank(fieldD)) {
return ResultDOFactory.createResultDO(Code.PARAM_ERROR, "門(mén)店參數缺少必填項");
}if (fieldA.length() < 10) {
return ResultDOFactory.createResultDO(Code.PARAM_ERROR, "門(mén)店名稱(chēng)長(cháng)度不能少于10個(gè)字符");
}
if (!isConsistent(fieldB, fieldC, fieldD)) {
return ResultDOFactory.createResultDO(Code.PARAM_ERROR, "門(mén)店xxx地址、行政區和經(jīng)緯度不一致");
}
優(yōu)點(diǎn):
缺點(diǎn):
門(mén)店審核流程
場(chǎng)景
流程控制中心(負責在運行時(shí)根據輸入參數選擇不同的流程節點(diǎn)從而構建一個(gè)流程實(shí)例)會(huì )根據輸入門(mén)店信息中的渠道來(lái)源和品牌等特征確定本次審核(不)走哪些節點(diǎn),其中選擇策略的模型如下圖:
規則主體是分支條件:
方案:開(kāi)源 Drools 從入門(mén)到放棄
經(jīng)過(guò)一系列調研,團隊選擇基于開(kāi)源規則引擎 Drools 來(lái)配置流程中審核節點(diǎn)的選擇策略。使用 Drools 后的規則配置流程如下圖:
上圖中 DSL 即是規則主體,規則內容如下:
rule "1.1"
when
poi : POI( source == 1 && brandType == 1 )
then
System.out.println( "1.1 matched" );
poi.setPassedNodes(1);
end
rule "1.2"
when
poi : POI( source == 1 && brandType == 2 )
then
System.out.println( "1.2 matched" );
end
rule "2.1"
when
poi : POI( source == 2 && brandType == 1 )
then
System.out.println( "2.1 matched" );
poi.setPassedNodes(2);
end
rule "2.2"
when
poi : POI( source == 2 && brandType == 2 )
then
System.out.println( "2.2 matched" );
poi.setPassedNodes(3);
end
在實(shí)踐中,我們發(fā)現 Drools 方案有如下幾個(gè)優(yōu)缺點(diǎn),由于 Drools 的問(wèn)題較多,最后這個(gè)方案還是放棄了。
優(yōu)點(diǎn):
缺點(diǎn):
績(jì)效指標計算
場(chǎng)景
美團外賣(mài)業(yè)務(wù)發(fā)展非常迅速,績(jì)效指標規則需要快速迭代才能緊跟業(yè)務(wù)發(fā)展步伐???jì)效考核頻率是一個(gè)月一次,因此績(jì)效規則的迭代頻率也是每月一次。因為績(jì)效規則系統是硬編碼實(shí)現,因此開(kāi)發(fā)團隊需要投入大量的人力滿(mǎn)足規則更新需求。
2016 年 10 月底,我受績(jì)效團隊委托成立一個(gè)項目組,開(kāi)發(fā)部署了一套績(jì)效指標配置系統,系統上線(xiàn)直接減少了產(chǎn)品經(jīng)理和技術(shù)團隊 70% 的工作量。
下面我們首先分析下績(jì)效指標計算的規則模型,如下圖:
規則主體是結構化數據處理邏輯:
方案:業(yè)務(wù)定制規則引擎
績(jì)效規則主體是數據處理,但我們認為數據處理同樣屬于規則的范疇,因此我們將其放在本文進(jìn)行分析。
下圖是績(jì)效指標配置系統,觸發(fā)器負責定時(shí)驅動(dòng)引擎進(jìn)行計算;視圖負責給商業(yè)分析師提供規則配置界面,規則表達能力取決于視圖;引擎負責將配置的規則解析成 Spark 原語(yǔ)進(jìn)行計算。
優(yōu)點(diǎn):
缺點(diǎn):
探索全新設計
“案例”一節中三種落地方案的問(wèn)題總結如下:
由于“高效配置規則”是業(yè)務(wù)里長(cháng)期存在的剛需,且行業(yè)內又缺乏符合需求的解決方案,2017 年 2 月我在團隊內部設立了一個(gè)虛擬小組專(zhuān)門(mén)負責規則引擎的設計研發(fā)。
引擎設計指標是要覆蓋工作中基礎的規則迭代需求(包括但不限于“案例”一節中的多個(gè)場(chǎng)景),同時(shí)針對“案例”一節中已有解決方案揚長(cháng)避短。
下面分三節來(lái)重現這個(gè)項目的設計過(guò)程:
需求模型
對規則引擎來(lái)說(shuō),世界皆規則。通過(guò)“案例”一節的分析,我們對規則以及規則引擎該如何構建的思路正逐漸變得清晰。
下面兩節分別定義規則數據模型和規則引擎的系統模型,目標是對“Maze 框架”一節中的規則引擎產(chǎn)品進(jìn)行框架性指導。
規則數據模型
規則本質(zhì)是一個(gè)函數,由 n 個(gè)輸入、1 個(gè)輸出和函數計算邏輯 3 部分組成。
y = f(x1, x2, …, xn)
具體結合“案例”一節中的場(chǎng)景,我們梳理出的規則模型如下圖所示:
主要由三部分構成:
結果對象,規則處理完畢后的結果。需要支持自定義類(lèi)型或者簡(jiǎn)單類(lèi)型(Integer、Long、Float、Double、Short、String、Boolean 等)。
系統模型
我們需要設計一個(gè)系統能配置、加載、解釋執行上節中的數據模型,另外設計時(shí)還需要規避“案例”一節 3 個(gè)方案的缺點(diǎn)。最終我們定義了如下圖所示的系統模型。
主要由三個(gè)模塊構成:
資源管理器,負責管理規則。
最終結果 /** 變量模式 */
|
|
中間結果 > $參數3 /** 關(guān)系運算模式 */
|
|
$參數1 + $參數2 /** 算數運算模式 */
Maze 框架
基于"需求模型"一節的定義,我們開(kāi)發(fā)了 Maze 框架(Maze 是迷宮的意思,寓意:迷宮一樣復雜的規則)。
Maze 框架分兩個(gè)引擎:
其中 MazeGO 內解析到結構化數據處理模式會(huì )調用 SQLC 驅動(dòng) MazeQL 完成計算,比如:從數據庫里查詢(xún)某個(gè) BD 的月交易額,如果交易額超過(guò) 30 萬(wàn)則執行 A 邏輯否則執行 B 邏輯,這個(gè)語(yǔ)義的規則需要執行結構化查詢(xún)。
MazeQL 內解析到策略計算模式會(huì )調用 VectorC 驅動(dòng) MazeGO 進(jìn)行計算,比如:有一張訂單表,其中第一列是商品 ID,第二列是商品購買(mǎi)數量,第三列是此商品的單價(jià)。
我們需要計算每類(lèi)商品的總價(jià)則需要對結構化查詢(xún)到的結果的每一行執行第二列*第三列這樣的策略模式計算。
名詞解釋?zhuān)?br /> SQLC 指結構化查詢(xún),擁有執行 SQL 的能力。
MazeGO
MazeGO 核心主要由三部分構成:
另外兩個(gè)輔助模塊是流量控制器和規則效果分析模塊,基本構成如下圖:
三個(gè)核心模塊(引擎、知識庫和資源管理器)的職責見(jiàn)“需求模型”一節中“系統模型”一節。
下面只介紹下和“系統模型”不同的部分:
預編譯規則實(shí)例,因為規則每次編譯執行會(huì )導致性能問(wèn)題,因此會(huì )在引擎初始化和規則有變更這兩個(gè)時(shí)機將增量版本的規則預編譯成可執行代碼。規則管理模塊。職責如下:
MazeQL
MazeQL 核心主要由三部分構成:
QL 驅動(dòng)器,驅動(dòng)平臺進(jìn)行規則計算。因為任務(wù)的實(shí)際執行平臺有多種(會(huì )在下一個(gè)“平臺”部分介紹),因此 QL 驅動(dòng)器也有多種實(shí)現。
預加載規則實(shí)例,首先為了避免訪(fǎng)問(wèn)規則時(shí)需要實(shí)時(shí)執行遠程調用而造成較大的時(shí)延,另外規則并不是時(shí)刻發(fā)生變更沒(méi)有必要每次訪(fǎng)問(wèn)時(shí)拉取一次最新版本。
基于以上兩個(gè)原因規則管理模塊會(huì )在引擎初始化階段將有效版本的規則實(shí)例緩存在本地并且監聽(tīng)規則變更事件(監聽(tīng)可以基于 ZooKeeper 實(shí)現)。
預解析規則實(shí)例,因為規則每次解析執行會(huì )導致性能(大對象)問(wèn)題,因此會(huì )在引擎初始化階段解析為運行時(shí)可用的調度棧幀。
規則管理模塊,職責如下,運行時(shí)模塊。分為調度器和 QL 驅動(dòng)器。
嵌入式模式下是基于 MySQL和 Derby 等實(shí)時(shí)性較好的數據庫實(shí)現的。在 Spark 平臺上是基于 Spark SQL 實(shí)現的。
QL 執行器,負責執行結構化查詢(xún)邏輯。兩種不同的運行模式下 QL 執行器在執行 SQL 模式時(shí)會(huì )選擇兩種不同的 QL 執行器實(shí)現,兩種實(shí)現分別是:
Maze 框架能力模型
Maze 框架是一個(gè)適用于非技術(shù)背景人員,支持復雜規則的配置和計算引擎。
規則迭代安全性
規則支持熱部署,系統通過(guò)版本控制,可以灰度一部分流量,增加上線(xiàn)信心。
規則表達能力,框架的表達能力覆蓋絕大部分代碼表達能力。下面用偽代碼的形式展示下 Maze 框架的規則部分具有的能力。
// 輸入N個(gè)FACT對象
function(Fact[] facts) {
// 從FACT對象里提取模式
String xx= facts[0].xx;
// 從某個(gè)數據源獲取特征數據,SQLC數據處理能力遠超sql語(yǔ)言本身能力,SQLC具有編程+SQL的混合能力
List moreFacts = connection.executeQuery("select * from xxx where xx like '%" + xx + "%');
// 對特征數據和FACT對象應用用戶(hù)自定義計算模式
UserDefinedClass userDefinedObj = userDefinedFuntion(facts, moreFacts);
// 使用系統內置表達式模式處理特征
int compareResult = userDefinedObj.getFieldXX().compare(XX);
搜索引擎主題模型可以?xún)?yōu)化的方法有哪些呢??
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 105 次瀏覽 ? 2022-05-14 04:02
搜索引擎主題模型優(yōu)化就是通過(guò)根據訪(fǎng)問(wèn)量及更新日志、頁(yè)面定位出主要的主題關(guān)鍵詞、搜索引擎變體(wordtag、webtag、webtags)等對主題關(guān)鍵詞進(jìn)行再擴展、主題關(guān)鍵詞再定位等方式來(lái)提升用戶(hù)體驗,增加網(wǎng)站流量和營(yíng)收。
主題模型優(yōu)化可以:
1、減少用戶(hù)搜索廣告的次數
2、有利于搜索引擎收錄和排名(搜索引擎更有利于收錄網(wǎng)站首頁(yè))
3、有利于提高網(wǎng)站內容的展示(更有利于展示網(wǎng)站內容)
4、減少用戶(hù)點(diǎn)擊次數(使網(wǎng)站曝光度更大)
5、減少排名流量(減少網(wǎng)站的排名曝光度)
6、減少競爭對手網(wǎng)站點(diǎn)擊、點(diǎn)擊和點(diǎn)擊次數
7、減少對搜索引擎的影響(減少搜索引擎收錄、排名影響力)主題模型可以?xún)?yōu)化的方法:
1、圖片分析,
2、當圖片表現非常好時(shí),非常好搜索引擎可以認為該網(wǎng)站的形象代表網(wǎng)站的品牌形象,
3、當圖片出現在非常好的位置時(shí),非常好搜索引擎可以認為該網(wǎng)站擁有良好的用戶(hù)體驗,
4、新的主題建立
5、主題搜索引擎
6、如果存在主題關(guān)鍵詞,最好能收集多一些的圖片關(guān)鍵詞,
搜索引擎客戶(hù)端的分享送流量是最常見(jiàn)的。在線(xiàn)能看到來(lái)自各個(gè)國家不同地域的網(wǎng)民都在流量分享,主要是手機用戶(hù)。提問(wèn)不是很全面,舉兩個(gè)簡(jiǎn)單例子:分享給國內淘寶商家的海外產(chǎn)品或者達人分享給淘寶同行的新品推薦。我們是一個(gè)無(wú)邊框的純產(chǎn)品站。我們的經(jīng)驗看是兩塊,一個(gè)是圖片的搜索分享,更加精準用戶(hù),第二塊內容來(lái)源搜索,更加精準用戶(hù)。同行不能放正則表達的關(guān)鍵詞,因為除了同行,外行是看不到的。 查看全部
搜索引擎主題模型可以?xún)?yōu)化的方法有哪些呢??
搜索引擎主題模型優(yōu)化就是通過(guò)根據訪(fǎng)問(wèn)量及更新日志、頁(yè)面定位出主要的主題關(guān)鍵詞、搜索引擎變體(wordtag、webtag、webtags)等對主題關(guān)鍵詞進(jìn)行再擴展、主題關(guān)鍵詞再定位等方式來(lái)提升用戶(hù)體驗,增加網(wǎng)站流量和營(yíng)收。
主題模型優(yōu)化可以:
1、減少用戶(hù)搜索廣告的次數
2、有利于搜索引擎收錄和排名(搜索引擎更有利于收錄網(wǎng)站首頁(yè))
3、有利于提高網(wǎng)站內容的展示(更有利于展示網(wǎng)站內容)
4、減少用戶(hù)點(diǎn)擊次數(使網(wǎng)站曝光度更大)
5、減少排名流量(減少網(wǎng)站的排名曝光度)
6、減少競爭對手網(wǎng)站點(diǎn)擊、點(diǎn)擊和點(diǎn)擊次數
7、減少對搜索引擎的影響(減少搜索引擎收錄、排名影響力)主題模型可以?xún)?yōu)化的方法:
1、圖片分析,
2、當圖片表現非常好時(shí),非常好搜索引擎可以認為該網(wǎng)站的形象代表網(wǎng)站的品牌形象,
3、當圖片出現在非常好的位置時(shí),非常好搜索引擎可以認為該網(wǎng)站擁有良好的用戶(hù)體驗,
4、新的主題建立
5、主題搜索引擎
6、如果存在主題關(guān)鍵詞,最好能收集多一些的圖片關(guān)鍵詞,
搜索引擎客戶(hù)端的分享送流量是最常見(jiàn)的。在線(xiàn)能看到來(lái)自各個(gè)國家不同地域的網(wǎng)民都在流量分享,主要是手機用戶(hù)。提問(wèn)不是很全面,舉兩個(gè)簡(jiǎn)單例子:分享給國內淘寶商家的海外產(chǎn)品或者達人分享給淘寶同行的新品推薦。我們是一個(gè)無(wú)邊框的純產(chǎn)品站。我們的經(jīng)驗看是兩塊,一個(gè)是圖片的搜索分享,更加精準用戶(hù),第二塊內容來(lái)源搜索,更加精準用戶(hù)。同行不能放正則表達的關(guān)鍵詞,因為除了同行,外行是看不到的。
DorisDB在跨越速運查詢(xún)引擎中的探索實(shí)踐
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 112 次瀏覽 ? 2022-05-12 01:56
跨越速運集團有限公司創(chuàng )建于2007年,目前服務(wù)網(wǎng)點(diǎn)超過(guò)3000家,覆蓋城市500余個(gè),是中國物流服務(wù)行業(yè)獨角獸企業(yè)??缭郊瘓F大數據中心負責全集團所有數據平臺組件的建設和維護,支撐20余條核心業(yè)務(wù)線(xiàn),面向集團5萬(wàn)多員工的使用。目前,大數據中心已建設數據查詢(xún)接口1W+,每天調用次數超過(guò)1千萬(wàn),TP99在1秒以下。我們利用DorisDB作為通用查詢(xún)引擎,有效解決了原架構大量查詢(xún)返回時(shí)間過(guò)長(cháng),性能達不到預期的問(wèn)題。
“ 作者:張杰 跨越集團大數據運維架構師,負責集團公司大數據平臺的維護和建設”
業(yè)務(wù)背景
總體架構
我們原始離線(xiàn)數倉的總體架構如下圖所示,數據從各個(gè)業(yè)務(wù)線(xiàn)的數據庫,比如MySQL等,通過(guò)數據集成工具匯聚到ETL集群(即Hadoop集群),再使用Hive、Spark、Presto等批量處理引擎進(jìn)行數據倉庫的分層處理,然后將DW層和ADS層的數據推送到各種不同的查詢(xún)引擎。
在這些查詢(xún)引擎之上,有個(gè)統一的查詢(xún)API網(wǎng)關(guān),應用層的自助分析工具或ERP系統前端通過(guò)調用這個(gè)API網(wǎng)關(guān),將數據內容呈現給用戶(hù)。
業(yè)務(wù)痛點(diǎn)
該系統最大的痛點(diǎn)是查詢(xún)性能問(wèn)題。公司對大數據查詢(xún)接口的響應延遲是有考核的,期望99%的查詢(xún)請求都能在1秒內返回,比如頁(yè)面ERP系統、手機端各類(lèi)報表APP,用戶(hù)會(huì )隨時(shí)查看數據并進(jìn)行生產(chǎn)環(huán)節調整,過(guò)慢的查詢(xún)響應會(huì )影響用戶(hù)體驗,甚至影響業(yè)務(wù)生產(chǎn)。針對復雜的SQL查詢(xún)場(chǎng)景,之前采用的Presto、Impala+Kudu、ClickHouse等系統,是遠遠達不到預期的。另外,針對各種復雜的數據分析業(yè)務(wù)場(chǎng)景,引入很多不同組件,導致了維護和使用成本非常高。
因此,我們急需一個(gè)新的查詢(xún)引擎,能統一查詢(xún)引擎,解決性能查詢(xún)問(wèn)題,降低使用和維護成本。
OLAP引擎選型
第一階段,在2019年,跨越集團大數據中心使用Presto作為通用的查詢(xún)引擎。此階段集團大數據中心數倉層基本用的是Hive,Presto可以直連Hive的特性讓我們無(wú)需做過(guò)多的改造,就可以直接生成查詢(xún)的API。從性能角度考慮,我們也會(huì )將數倉中的部分數據拷貝至獨立的Presto集群,和數倉ETL集群進(jìn)行資源隔離。這套架構運行一年多之后,隨著(zhù)業(yè)務(wù)需求越來(lái)越復雜,數據量越來(lái)越大,該基于Presto構建的集群性能急劇下降。
第二階段,為解決Presto集群性能不足的缺陷,我們基于ClickHouse開(kāi)始構建新的通用查詢(xún)引擎。2020年我們使用ClickHouse構建了大量大寬表,將此前需要多層關(guān)聯(lián)的查詢(xún)逐步遷移到ClickHouse集群。通過(guò)這種方式,我們確實(shí)解決了此前面臨的性能問(wèn)題。但與此同時(shí),我們需要建設越來(lái)越多的大寬表,操作繁瑣運維困難。并且這種數據模型無(wú)法隨業(yè)務(wù)需求變化而快速改變,靈活性差。
第三階段,我們在2021年開(kāi)始尋找其他能滿(mǎn)足我們需求的OLAP引擎,此時(shí)我們發(fā)現了DorisDB這個(gè)產(chǎn)品。首先關(guān)注到DorisDB的單表、多表關(guān)聯(lián)查詢(xún)的性能都非常優(yōu)秀,能夠滿(mǎn)足我們對查詢(xún)延時(shí)的需求;DorisDB支持MySQL協(xié)議,讓我們開(kāi)發(fā)同事在開(kāi)發(fā)接口的時(shí)候學(xué)習和使用門(mén)檻非常低。另外,DorisDB還具備支持按主鍵更新、支持多種類(lèi)型外表、部署運維簡(jiǎn)單以及支持豐富的數據導入方式等特性。這些都是我們所需要的。
因此,我們開(kāi)始逐步將以往的分析業(yè)務(wù)遷移到DorisDB集群上,將DorisDB作為大數據中心的通用查詢(xún)引擎。
DorisDB在跨越集團的應用
在線(xiàn)場(chǎng)景應用
當前我們每天在線(xiàn)數據接口的查詢(xún)請求量已經(jīng)超過(guò)千萬(wàn)。在引入DorisDB前,我們用了8到9種查詢(xún)引擎來(lái)支撐各種在線(xiàn)業(yè)務(wù)場(chǎng)景。大數據量的明細點(diǎn)查場(chǎng)景使用ElasticSearch作為支撐;對于查詢(xún)維度固定、可以提前預計算的報表場(chǎng)景,會(huì )使用MySQL;對于SQL查詢(xún)復雜,如果多表Join、子查詢(xún)嵌套的查詢(xún)場(chǎng)景,會(huì )使用Presto;實(shí)時(shí)更新的場(chǎng)景,則會(huì )使用Impala+Kudu的組合來(lái)支撐。
引入DorisDB后,目前已替換掉Presto和Impala+Kudu支撐的場(chǎng)景。ElasticSearch、MySQL以及ClickHouse,后續也可能會(huì )根據業(yè)務(wù)場(chǎng)景實(shí)際情況逐步替換為DorisDB。
下面詳細介紹一個(gè)實(shí)際在線(xiàn)場(chǎng)景的典型案例。如上圖,我們在原Presto系統上有一個(gè)包含200個(gè)字段的寬表聚合查詢(xún)。由于業(yè)務(wù)需求比較復雜,SQL語(yǔ)句有600多行。我們曾希望從業(yè)務(wù)邏輯上進(jìn)行優(yōu)化,但是并不容易,不能因為系統能力問(wèn)題就一味要求業(yè)務(wù)方來(lái)遷就?,F在我們使用10個(gè)節點(diǎn)相同配置的DorisDB替換原15臺相同配置服務(wù)器的Presto集群后,在沒(méi)有做什么業(yè)務(wù)邏輯變化的情況下,使用DorisDB明細模型,憑借DorisDB本身的高性能將查詢(xún)延時(shí)從5.7秒降低為1秒,性能是原Presto集群的近6倍。
OLAP場(chǎng)景應用
跨越集團的OLAP多維分析平臺是我們自研的一套BI系統。用戶(hù)可以根據自己業(yè)務(wù)場(chǎng)景選擇字段以及關(guān)聯(lián)條件等,以拖拉拽的方式生成數據的表格或圖表。最早我們支撐OLAP多維分析的后端引擎是Presto,在這類(lèi)場(chǎng)景下的性能確實(shí)不盡如人意。因為性能問(wèn)題,我們也沒(méi)辦法將這個(gè)工具推廣給更多的用戶(hù)使用。我們將后端查詢(xún)引擎替換為DorisDB后,性能提升非常明顯。我們將OLAP多維分析平臺向整個(gè)集團推廣,受到了越來(lái)越多的用戶(hù)好評。
OLAP多維分析主要是離線(xiàn)分析為主,以客戶(hù)離線(xiàn)分析場(chǎng)景為例,數據經(jīng)過(guò)ETL處理后,生成對應的DW層或ADS層數據,再通過(guò)Broker Load將數據按天導入DorisDB中。我們使用星型模型構建客戶(hù)主題域,客戶(hù)主表以明細模型在DorisDB中建表,同樣以明細模型創(chuàng )建維表。這樣用戶(hù)就可以在前端對客戶(hù)主題域的各種指標、各種維度進(jìn)行拖拉拽,生成對應的表格和圖表。
在客戶(hù)離線(xiàn)分析場(chǎng)景下,我們DorisDB上線(xiàn)前后業(yè)務(wù)邏輯沒(méi)有進(jìn)行太多調整前提下,TP99從4.5秒下降到1.7秒,性能是原來(lái)的三倍(后續我們將嘗試開(kāi)啟CBO優(yōu)化器,預計會(huì )有更大性能提升)。絕大多數場(chǎng)景都能實(shí)現1s內返回,大大提升了用戶(hù)的體驗。
利用DorisDB的實(shí)時(shí)分析能力,我們還構建了實(shí)時(shí)OLAP多維分析。以運單實(shí)時(shí)分析場(chǎng)景為例,原本我們是用Hive每?jì)尚r(shí)跑批的方式來(lái)實(shí)現的,將固定維度數據算好,結果寫(xiě)入Presto上提供查詢(xún),邏輯類(lèi)似于離線(xiàn)數倉,并不能稱(chēng)為真正的實(shí)時(shí)。引入DorisDB后,我們調整數據流轉邏輯,通過(guò)監聽(tīng)Binlog將數據寫(xiě)入Kafka,再通過(guò)Rontine Load的方式消費Kafka,將數據實(shí)時(shí)寫(xiě)入DorisDB中。我們使用更新模型建立實(shí)時(shí)運單主表,將運單ID設置成主鍵,這樣每一筆運單更新后,都能實(shí)時(shí)更新到運單主表中。和離線(xiàn)分析場(chǎng)景一樣,使用星型模型構建運單主題域。
通過(guò)這樣的調整,以往每?jì)尚r(shí)更新數據的運單主題域,現在可以實(shí)現秒級更新,成為名副其實(shí)的實(shí)時(shí)分析。另外此前需要依賴(lài)預計算,維度都是固定的,很多分析上功能受限。經(jīng)改造后,除了大幅提升“實(shí)時(shí)”體驗外,在分析靈活性上的提升也非常明顯。實(shí)時(shí)體驗和靈活分析也成為OLAP多維分析平臺工具在實(shí)際服務(wù)中最大的亮點(diǎn)。
后續規劃
1、 為了避免部分慢查詢(xún)影響整體的集群性能,后續會(huì )搭建多套DorisDB集群,按業(yè)務(wù)場(chǎng)景進(jìn)行物理資源隔離。
2、 DorisDB查詢(xún)Hive外表的功能,經(jīng)內部測試比Presto查詢(xún)Hive的性能要好,后續會(huì )將原本Presto查詢(xún)Hive的場(chǎng)景無(wú)縫遷移到DorisDB上。
3、 目前我們在DorisDB上寫(xiě)入了很多實(shí)時(shí)數據,這些數據需要進(jìn)行聚合等處理,我們正在嘗試使用調度工具,在DorisDB上進(jìn)行5分鐘級、10分鐘級的輕量ETL處理。
4、 開(kāi)啟DorisDB的CBO優(yōu)化器,進(jìn)一步提升查詢(xún)性能。
最后,感謝鼎石為我們提供DorisDB這么好的產(chǎn)品,滿(mǎn)足了我們對性能強、功能全的查詢(xún)引擎產(chǎn)品的要求;感謝鼎石一直以來(lái)提供的技術(shù)支持,解決了我們在使用中遇到的各類(lèi)問(wèn)題。
END
【熱門(mén)文章】1.2.3.4.5.5.6.7.
8. 查看全部
DorisDB在跨越速運查詢(xún)引擎中的探索實(shí)踐
跨越速運集團有限公司創(chuàng )建于2007年,目前服務(wù)網(wǎng)點(diǎn)超過(guò)3000家,覆蓋城市500余個(gè),是中國物流服務(wù)行業(yè)獨角獸企業(yè)??缭郊瘓F大數據中心負責全集團所有數據平臺組件的建設和維護,支撐20余條核心業(yè)務(wù)線(xiàn),面向集團5萬(wàn)多員工的使用。目前,大數據中心已建設數據查詢(xún)接口1W+,每天調用次數超過(guò)1千萬(wàn),TP99在1秒以下。我們利用DorisDB作為通用查詢(xún)引擎,有效解決了原架構大量查詢(xún)返回時(shí)間過(guò)長(cháng),性能達不到預期的問(wèn)題。
“ 作者:張杰 跨越集團大數據運維架構師,負責集團公司大數據平臺的維護和建設”
業(yè)務(wù)背景
總體架構
我們原始離線(xiàn)數倉的總體架構如下圖所示,數據從各個(gè)業(yè)務(wù)線(xiàn)的數據庫,比如MySQL等,通過(guò)數據集成工具匯聚到ETL集群(即Hadoop集群),再使用Hive、Spark、Presto等批量處理引擎進(jìn)行數據倉庫的分層處理,然后將DW層和ADS層的數據推送到各種不同的查詢(xún)引擎。
在這些查詢(xún)引擎之上,有個(gè)統一的查詢(xún)API網(wǎng)關(guān),應用層的自助分析工具或ERP系統前端通過(guò)調用這個(gè)API網(wǎng)關(guān),將數據內容呈現給用戶(hù)。
業(yè)務(wù)痛點(diǎn)
該系統最大的痛點(diǎn)是查詢(xún)性能問(wèn)題。公司對大數據查詢(xún)接口的響應延遲是有考核的,期望99%的查詢(xún)請求都能在1秒內返回,比如頁(yè)面ERP系統、手機端各類(lèi)報表APP,用戶(hù)會(huì )隨時(shí)查看數據并進(jìn)行生產(chǎn)環(huán)節調整,過(guò)慢的查詢(xún)響應會(huì )影響用戶(hù)體驗,甚至影響業(yè)務(wù)生產(chǎn)。針對復雜的SQL查詢(xún)場(chǎng)景,之前采用的Presto、Impala+Kudu、ClickHouse等系統,是遠遠達不到預期的。另外,針對各種復雜的數據分析業(yè)務(wù)場(chǎng)景,引入很多不同組件,導致了維護和使用成本非常高。
因此,我們急需一個(gè)新的查詢(xún)引擎,能統一查詢(xún)引擎,解決性能查詢(xún)問(wèn)題,降低使用和維護成本。
OLAP引擎選型
第一階段,在2019年,跨越集團大數據中心使用Presto作為通用的查詢(xún)引擎。此階段集團大數據中心數倉層基本用的是Hive,Presto可以直連Hive的特性讓我們無(wú)需做過(guò)多的改造,就可以直接生成查詢(xún)的API。從性能角度考慮,我們也會(huì )將數倉中的部分數據拷貝至獨立的Presto集群,和數倉ETL集群進(jìn)行資源隔離。這套架構運行一年多之后,隨著(zhù)業(yè)務(wù)需求越來(lái)越復雜,數據量越來(lái)越大,該基于Presto構建的集群性能急劇下降。
第二階段,為解決Presto集群性能不足的缺陷,我們基于ClickHouse開(kāi)始構建新的通用查詢(xún)引擎。2020年我們使用ClickHouse構建了大量大寬表,將此前需要多層關(guān)聯(lián)的查詢(xún)逐步遷移到ClickHouse集群。通過(guò)這種方式,我們確實(shí)解決了此前面臨的性能問(wèn)題。但與此同時(shí),我們需要建設越來(lái)越多的大寬表,操作繁瑣運維困難。并且這種數據模型無(wú)法隨業(yè)務(wù)需求變化而快速改變,靈活性差。
第三階段,我們在2021年開(kāi)始尋找其他能滿(mǎn)足我們需求的OLAP引擎,此時(shí)我們發(fā)現了DorisDB這個(gè)產(chǎn)品。首先關(guān)注到DorisDB的單表、多表關(guān)聯(lián)查詢(xún)的性能都非常優(yōu)秀,能夠滿(mǎn)足我們對查詢(xún)延時(shí)的需求;DorisDB支持MySQL協(xié)議,讓我們開(kāi)發(fā)同事在開(kāi)發(fā)接口的時(shí)候學(xué)習和使用門(mén)檻非常低。另外,DorisDB還具備支持按主鍵更新、支持多種類(lèi)型外表、部署運維簡(jiǎn)單以及支持豐富的數據導入方式等特性。這些都是我們所需要的。
因此,我們開(kāi)始逐步將以往的分析業(yè)務(wù)遷移到DorisDB集群上,將DorisDB作為大數據中心的通用查詢(xún)引擎。
DorisDB在跨越集團的應用
在線(xiàn)場(chǎng)景應用
當前我們每天在線(xiàn)數據接口的查詢(xún)請求量已經(jīng)超過(guò)千萬(wàn)。在引入DorisDB前,我們用了8到9種查詢(xún)引擎來(lái)支撐各種在線(xiàn)業(yè)務(wù)場(chǎng)景。大數據量的明細點(diǎn)查場(chǎng)景使用ElasticSearch作為支撐;對于查詢(xún)維度固定、可以提前預計算的報表場(chǎng)景,會(huì )使用MySQL;對于SQL查詢(xún)復雜,如果多表Join、子查詢(xún)嵌套的查詢(xún)場(chǎng)景,會(huì )使用Presto;實(shí)時(shí)更新的場(chǎng)景,則會(huì )使用Impala+Kudu的組合來(lái)支撐。
引入DorisDB后,目前已替換掉Presto和Impala+Kudu支撐的場(chǎng)景。ElasticSearch、MySQL以及ClickHouse,后續也可能會(huì )根據業(yè)務(wù)場(chǎng)景實(shí)際情況逐步替換為DorisDB。
下面詳細介紹一個(gè)實(shí)際在線(xiàn)場(chǎng)景的典型案例。如上圖,我們在原Presto系統上有一個(gè)包含200個(gè)字段的寬表聚合查詢(xún)。由于業(yè)務(wù)需求比較復雜,SQL語(yǔ)句有600多行。我們曾希望從業(yè)務(wù)邏輯上進(jìn)行優(yōu)化,但是并不容易,不能因為系統能力問(wèn)題就一味要求業(yè)務(wù)方來(lái)遷就?,F在我們使用10個(gè)節點(diǎn)相同配置的DorisDB替換原15臺相同配置服務(wù)器的Presto集群后,在沒(méi)有做什么業(yè)務(wù)邏輯變化的情況下,使用DorisDB明細模型,憑借DorisDB本身的高性能將查詢(xún)延時(shí)從5.7秒降低為1秒,性能是原Presto集群的近6倍。
OLAP場(chǎng)景應用
跨越集團的OLAP多維分析平臺是我們自研的一套BI系統。用戶(hù)可以根據自己業(yè)務(wù)場(chǎng)景選擇字段以及關(guān)聯(lián)條件等,以拖拉拽的方式生成數據的表格或圖表。最早我們支撐OLAP多維分析的后端引擎是Presto,在這類(lèi)場(chǎng)景下的性能確實(shí)不盡如人意。因為性能問(wèn)題,我們也沒(méi)辦法將這個(gè)工具推廣給更多的用戶(hù)使用。我們將后端查詢(xún)引擎替換為DorisDB后,性能提升非常明顯。我們將OLAP多維分析平臺向整個(gè)集團推廣,受到了越來(lái)越多的用戶(hù)好評。
OLAP多維分析主要是離線(xiàn)分析為主,以客戶(hù)離線(xiàn)分析場(chǎng)景為例,數據經(jīng)過(guò)ETL處理后,生成對應的DW層或ADS層數據,再通過(guò)Broker Load將數據按天導入DorisDB中。我們使用星型模型構建客戶(hù)主題域,客戶(hù)主表以明細模型在DorisDB中建表,同樣以明細模型創(chuàng )建維表。這樣用戶(hù)就可以在前端對客戶(hù)主題域的各種指標、各種維度進(jìn)行拖拉拽,生成對應的表格和圖表。
在客戶(hù)離線(xiàn)分析場(chǎng)景下,我們DorisDB上線(xiàn)前后業(yè)務(wù)邏輯沒(méi)有進(jìn)行太多調整前提下,TP99從4.5秒下降到1.7秒,性能是原來(lái)的三倍(后續我們將嘗試開(kāi)啟CBO優(yōu)化器,預計會(huì )有更大性能提升)。絕大多數場(chǎng)景都能實(shí)現1s內返回,大大提升了用戶(hù)的體驗。
利用DorisDB的實(shí)時(shí)分析能力,我們還構建了實(shí)時(shí)OLAP多維分析。以運單實(shí)時(shí)分析場(chǎng)景為例,原本我們是用Hive每?jì)尚r(shí)跑批的方式來(lái)實(shí)現的,將固定維度數據算好,結果寫(xiě)入Presto上提供查詢(xún),邏輯類(lèi)似于離線(xiàn)數倉,并不能稱(chēng)為真正的實(shí)時(shí)。引入DorisDB后,我們調整數據流轉邏輯,通過(guò)監聽(tīng)Binlog將數據寫(xiě)入Kafka,再通過(guò)Rontine Load的方式消費Kafka,將數據實(shí)時(shí)寫(xiě)入DorisDB中。我們使用更新模型建立實(shí)時(shí)運單主表,將運單ID設置成主鍵,這樣每一筆運單更新后,都能實(shí)時(shí)更新到運單主表中。和離線(xiàn)分析場(chǎng)景一樣,使用星型模型構建運單主題域。
通過(guò)這樣的調整,以往每?jì)尚r(shí)更新數據的運單主題域,現在可以實(shí)現秒級更新,成為名副其實(shí)的實(shí)時(shí)分析。另外此前需要依賴(lài)預計算,維度都是固定的,很多分析上功能受限。經(jīng)改造后,除了大幅提升“實(shí)時(shí)”體驗外,在分析靈活性上的提升也非常明顯。實(shí)時(shí)體驗和靈活分析也成為OLAP多維分析平臺工具在實(shí)際服務(wù)中最大的亮點(diǎn)。
后續規劃
1、 為了避免部分慢查詢(xún)影響整體的集群性能,后續會(huì )搭建多套DorisDB集群,按業(yè)務(wù)場(chǎng)景進(jìn)行物理資源隔離。
2、 DorisDB查詢(xún)Hive外表的功能,經(jīng)內部測試比Presto查詢(xún)Hive的性能要好,后續會(huì )將原本Presto查詢(xún)Hive的場(chǎng)景無(wú)縫遷移到DorisDB上。
3、 目前我們在DorisDB上寫(xiě)入了很多實(shí)時(shí)數據,這些數據需要進(jìn)行聚合等處理,我們正在嘗試使用調度工具,在DorisDB上進(jìn)行5分鐘級、10分鐘級的輕量ETL處理。
4、 開(kāi)啟DorisDB的CBO優(yōu)化器,進(jìn)一步提升查詢(xún)性能。
最后,感謝鼎石為我們提供DorisDB這么好的產(chǎn)品,滿(mǎn)足了我們對性能強、功能全的查詢(xún)引擎產(chǎn)品的要求;感謝鼎石一直以來(lái)提供的技術(shù)支持,解決了我們在使用中遇到的各類(lèi)問(wèn)題。
END
【熱門(mén)文章】1.2.3.4.5.5.6.7.
8.
實(shí)現訂單線(xiàn)索量增長(cháng),落地頁(yè)優(yōu)化該怎么做?
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 128 次瀏覽 ? 2022-05-12 01:56
廣告做得好不好,落地頁(yè)至關(guān)重要,賬戶(hù)管理能起到的效果有60%,剩下的40%全在落地頁(yè)上,一個(gè)好的落地頁(yè)總是能獲得更多的訂單和線(xiàn)索。
落地頁(yè)要怎么做?我們經(jīng)過(guò)幾年的實(shí)踐總結出落地頁(yè)做法。學(xué)習了這些做法,能讓你在落地頁(yè)優(yōu)化上更進(jìn)一步。落地頁(yè)(Landing Page)是指用戶(hù)搜索了關(guān)鍵詞后點(diǎn)擊了廣告看到的第一個(gè)頁(yè)面。跟落地頁(yè)最相關(guān)的指標就是跳出率,跳出率會(huì )反映落地頁(yè)的效果。
什么是好與壞,單純對于一個(gè)頁(yè)面來(lái)說(shuō),沒(méi)有好與壞的概念,只有合適與否,有很多時(shí)候頁(yè)面設計得很丑,但是搜索一系列需求的用戶(hù)找到了自己要的結果,并且在這個(gè)頁(yè)面上完成了我們希望他完成的動(dòng)作,這就是一個(gè)好的落地頁(yè)。有很多落地頁(yè),做得蓬蓽生輝,但是訪(fǎng)客完全看不懂,這樣的落地頁(yè)就算做得再好看,也不是一個(gè)好的落地頁(yè)。
01
給不同的單元制作落地頁(yè)
行動(dòng)起來(lái)要比制定策略更有效,讓所有流量都著(zhù)陸到首頁(yè)是一個(gè)十分不明智的推廣策略,前面我們提到不同單元是不同的需求,如果我們可以分出十幾個(gè)單元,那么就代表訪(fǎng)客會(huì )有十幾種需求,訪(fǎng)客不希望所有的人都看到一個(gè)頁(yè)面的,我們也很難一個(gè)頁(yè)面就滿(mǎn)足所有需求。拿易觀(guān)方舟舉例,用戶(hù)畫(huà)像的需求和用戶(hù)行為分析的需求是兩個(gè)需求,一個(gè)易觀(guān)方舟的首頁(yè)是無(wú)法同時(shí)滿(mǎn)足這兩部分需求的。
訪(fǎng)客在搜索引擎上搜索結果,點(diǎn)擊,瀏覽頁(yè)面,整個(gè)過(guò)程不會(huì )有過(guò)多的思考,但是他們是有著(zhù)一個(gè)原始訴求的。當訪(fǎng)客打開(kāi)頁(yè)面,看不到他們希望得到的結果,就會(huì )馬上關(guān)掉頁(yè)面離開(kāi),所以我們做落地頁(yè)的第一要務(wù)就是要讓訪(fǎng)客得到他想要的。
02
著(zhù)陸體驗優(yōu)化
訪(fǎng)客從廣告點(diǎn)擊進(jìn)來(lái)后,會(huì )在3秒內決定,是否要繼續觀(guān)看,所以,著(zhù)陸頁(yè)是否被認可在3秒就決定,有幾個(gè)要點(diǎn)來(lái)提高著(zhù)陸頁(yè)的體驗,我想我們聽(tīng)過(guò)很多關(guān)于著(zhù)陸頁(yè)的優(yōu)化方法,例如利用人性的弱點(diǎn),利用lift模型等,但是在真正實(shí)操過(guò)程中,我們會(huì )總結出一些獨有的落地頁(yè)優(yōu)化方法,分享給你。
清晰的價(jià)值主張
反復去琢磨你的第一屏文字,要注意的是不要站在自己的角度把文字的理解拔高,因為比“看上去厲害”更重要的是容易理解,如果文字表述讓訪(fǎng)客可以瞬間理解,你已經(jīng)成功了一半。打開(kāi)速度要快
如果在移動(dòng)端也有投放,移動(dòng)端一定要考慮打開(kāi)速度,當然這個(gè)問(wèn)題PC端同樣要考慮,移動(dòng)端考慮的比較多一些,因為移動(dòng)端會(huì )出現網(wǎng)絡(luò )不穩定的情況,是什么決定了網(wǎng)頁(yè)打開(kāi)慢?這些都會(huì )影響落地頁(yè)的體驗,在著(zhù)陸頁(yè)開(kāi)發(fā)的時(shí)候要注意。有誘惑力的CTA
CTA是一個(gè)著(zhù)陸頁(yè)的必要性條件,一個(gè)著(zhù)陸頁(yè)有CTA才算完整,如果想更近一步提高落地頁(yè)的轉化能力,需要讓CTA具備誘惑力,舉例:解決方案頁(yè)面的CTA應該是傳遞注冊后可以直接獲取解決方案,而資料頁(yè)面的CTA應該是注冊后可以直接獲取資料。如果CTA只是注冊或者購買(mǎi),那么整個(gè)的落地頁(yè)效果會(huì )明顯打折扣。CTA往往后面跟著(zhù)表單,無(wú)論你是希望客戶(hù)留資,還是購買(mǎi),都會(huì )有輸入表單的環(huán)節,盡可能讓表單在當前頁(yè)面完成而不要跳轉,多跳轉一次意味著(zhù)增加一次流失的風(fēng)險。精致代表著(zhù)品牌力
如果有可能的話(huà),盡量讓你的頁(yè)面精致一些,包括字體、圖片,都應該有專(zhuān)業(yè)的設計人員來(lái)進(jìn)行規范性設計,因為在理解價(jià)值主張和你的產(chǎn)品之前,頁(yè)面給訪(fǎng)客的感覺(jué)是比較重要的,你有沒(méi)有一些感觸,有一些頁(yè)面,你一看就會(huì )產(chǎn)生極大的不信任,因為不信任而關(guān)閉網(wǎng)頁(yè)?所以,多花點(diǎn)時(shí)間,讓你的落地頁(yè)變得標準、規范,是十分有必要的。數據分析得出來(lái)的落地頁(yè)洞察
我們通過(guò)數據分析得出來(lái)落地頁(yè)轉化率更高的方法,分享給你落地頁(yè)做好后,最好的檢驗方式是首先自己團隊要模擬用戶(hù),不斷感受整個(gè)體驗過(guò)程中不舒服的地方,同時(shí)投放在小部分用戶(hù)身上,去測試。為落地頁(yè)建立轉化漏斗,看一下著(zhù)陸,點(diǎn)擊,完成表單的整體轉化率,去分析在不同環(huán)節用戶(hù)為什么流失,不斷的優(yōu)化轉化率提高落地頁(yè)轉化效果。
03
廣告連續性
廣告連續性指的是,用戶(hù)在看到廣告創(chuàng )意,點(diǎn)擊廣告創(chuàng )意,通過(guò)鏈接,看到落地頁(yè)的整體體驗保持連續性,讓用戶(hù)的思考不間斷,并不斷加強動(dòng)機。你是否有過(guò)一個(gè)場(chǎng)景,你想買(mǎi)個(gè)小熊餅干,你在搜索引擎上搜索了小熊餅干,看到第一條廣告創(chuàng )意上寫(xiě)的,北京最受歡迎的小熊餅干,然后你打開(kāi)了這個(gè)廣告后,進(jìn)入的頁(yè)面第一屏的文字是,我們有北京最好的小熊餅干抱枕,此時(shí)你可能會(huì )毫不猶豫地關(guān)閉掉這個(gè)頁(yè)面。以上是典型廣告連續性斷檔,在訪(fǎng)客沿著(zhù)你的廣告創(chuàng )意,進(jìn)入落地頁(yè),而瀏覽落地頁(yè)的過(guò)程中任何環(huán)節斷檔,都會(huì )導致用戶(hù)離開(kāi)。所以想提高SEM的轉化效果,廣告連續性是值得優(yōu)先調整的方向,所以我們有以下建議:標題環(huán)節給予明顯的可執行前置
通常我們會(huì )在落地頁(yè)環(huán)節設置CTA,但是同樣用法如果前置在廣告標題上效果會(huì )更好。比如在標題結尾寫(xiě)上免費領(lǐng)取或者免費試用。你會(huì )比友商獲得更多點(diǎn)擊,因為訪(fǎng)客在點(diǎn)擊廣告時(shí)已自帶需求,這樣的需求如果可以保持連貫性并被滿(mǎn)足,會(huì )增強訪(fǎng)客在落地頁(yè)里的執行動(dòng)機。創(chuàng )意描述里繼續強化
在創(chuàng )意里清楚表達可以提供的產(chǎn)品價(jià)值,同時(shí)強化訪(fǎng)客可以獲得的好處,這相當于對創(chuàng )意標題的支撐。不過(guò)創(chuàng )意描述始終是描述,還需要盡可能表達更多的價(jià)值主張。不同創(chuàng )意有不同描述方式,忌諱千篇一律的描述。描述格式整齊,語(yǔ)義通順是加分項,而有明顯優(yōu)惠政策與活動(dòng)激勵會(huì )讓廣告更具有吸引力。落地頁(yè)的連續性承接
切記,訪(fǎng)客搜索關(guān)鍵詞是附帶需求的,點(diǎn)擊鏈接是在尋找解決需求的解決方案的,如果標題和描述都表達了你可以解決訪(fǎng)客需求,那么在著(zhù)陸頁(yè)里一定要給訪(fǎng)客他想要的答案,才會(huì )有可能讓訪(fǎng)客駐足。從創(chuàng )意到描述再到落地頁(yè)內容上,要有高度的連貫性,以及有足夠的誘惑,才會(huì )獲得更好的轉化。
04
敏捷迭代
無(wú)論是做產(chǎn)品還是做市場(chǎng),早期產(chǎn)品迭代都根據我們自己的洞察與思考來(lái)創(chuàng )作,而真正被認可的產(chǎn)品是需要經(jīng)過(guò)市場(chǎng)打磨,并反復迭代的。所以我們做推廣獲客的時(shí)候也需要通過(guò)數據分析驅動(dòng)敏捷迭代讓獲客能力增長(cháng)更加快速。
那么,如何利用數據驅動(dòng)敏捷迭代,我們可以分成兩個(gè)步驟:
得到原始數據
所謂增長(cháng)不是毫無(wú)根據地提出無(wú)法完成的增長(cháng)幅度。例如ToB類(lèi)公眾號就不要隨意制定10w+閱讀這樣的KPI,合理的增長(cháng)目標是根據自身當前的數據提出的挑戰性目標。
所以,首先要知道我們所進(jìn)行推廣相關(guān)的數據狀態(tài),作為SEM業(yè)務(wù),有相應的指標體系,在前面章節有提到,核心關(guān)注的是不同單元的資金ROI,此時(shí)運營(yíng)SEM就像經(jīng)營(yíng)一個(gè)公司一樣,而在落地頁(yè)上要關(guān)注不同落地頁(yè)的跳出率,轉化率,通過(guò)熱圖了解瀏覽深度線(xiàn)和元素點(diǎn)擊率。這樣對所有的轉化流程有了一個(gè)初步的數據基準,設定一個(gè)挑戰性目標就可以開(kāi)始試驗了。PDCA(plan-do-check-action)敏捷試驗無(wú)論是文字、圖片,還是顏色、主題,都是我們試驗的對象,在經(jīng)過(guò)內部小組初步討論后,將挑戰版本和原始版本進(jìn)行測試。試驗方向:l更簡(jiǎn)單明了的文字表述會(huì )降低跳出率lCTA按鈕的文字會(huì )影響點(diǎn)擊率l移動(dòng)端的適配會(huì )影響移動(dòng)端的停留時(shí)長(cháng)l表單的字段順序對完成率也會(huì )有影響l價(jià)值導向的表單會(huì )比銷(xiāo)售表單轉化率更高…除了以上提出的迭代建議,不同的運營(yíng)人員試驗思路也是不同的,唯一不變的是敏捷迭代的過(guò)程中需要數據來(lái)進(jìn)行試驗結果的校驗,這就涉及到落地頁(yè)轉化效果評估。
05
落地頁(yè)轉化評估效果
根據前文的原則優(yōu)化落地頁(yè)只是開(kāi)端,將落地頁(yè)真正落地、提高我們獲客的收益才是目的,我們所有一切改進(jìn)都要圍繞“提高ROI”的方向展開(kāi),因此對落地頁(yè)轉化效果進(jìn)行評估是關(guān)鍵一環(huán)。通過(guò)數據的評估與復盤(pán),我們可以快速定位問(wèn)題、解決問(wèn)題,以數據促進(jìn)業(yè)務(wù)的增長(cháng)。正如前文提及的,我們可能會(huì )開(kāi)展一系列的試驗,但最終也離不開(kāi)效果的評估。我們可以通過(guò)用戶(hù)行為分析模型幫助我們進(jìn)行試驗的判定:事件分析 事件分析可以很好地監測按鈕的點(diǎn)擊情況,通常會(huì )用來(lái)判斷CTA的引導效果。
漏斗分析 漏斗分析是優(yōu)化落地頁(yè)最重要的分析模型,通過(guò)漏斗分析可以知道從著(zhù)陸頁(yè)流量到點(diǎn)擊按鈕次數再到完成下單或注冊的三級漏斗數據,這樣就可以幫助我們判斷我們的落地頁(yè)轉化能力。當我們進(jìn)行一些試驗的時(shí)候,可以通過(guò)漏斗整體的變化判斷試驗是否成功,也可以保存流失的用戶(hù),在方舟內部給他們群發(fā)消息召回他們,至少來(lái)到落地頁(yè)上的用戶(hù)是關(guān)注這個(gè)話(huà)題的。
Session分析 Session分析自帶跳出率分析,可以輔助我們做著(zhù)陸頁(yè)的整體優(yōu)化試驗。
此外,需要注意的是,一些網(wǎng)站上通常會(huì )提供在線(xiàn)咨詢(xún)服務(wù),或留下表單讓訪(fǎng)客填寫(xiě)。在這一問(wèn)題上,建議處理一定要講求時(shí)效性,越快越好。因為不管是在線(xiàn)咨詢(xún)還是提交注冊信息都意味著(zhù)需求,倘若拖了半天時(shí)間,可能訪(fǎng)客在搜索引擎上自己搜索已經(jīng)得到答案,這時(shí)候不管訪(fǎng)客是已經(jīng)解決問(wèn)題還是找到其他替代方案,他本身的需求已經(jīng)大幅降低,這時(shí)候再去回復或溝通,他溝通的意愿會(huì )降低、需求場(chǎng)景逐漸消失,這條線(xiàn)索的價(jià)值也就大大萎縮了。因此,在評估落地頁(yè)轉化的效果時(shí),不僅要對落地頁(yè)各項數據有個(gè)明晰的把握,也要對落地頁(yè)內置咨詢(xún)、表單線(xiàn)索處理等方面做一個(gè)全面的考察。落地頁(yè)對轉化有決定性作用,通過(guò)分析模型可以幫助我們更好地觀(guān)察敏捷迭代后的數據變化,而至于如何敏捷迭代,大膽想象,小心求證,一些小的試驗結果長(cháng)期積累,會(huì )得到很好的反饋。
2021年,我們面臨新的行業(yè)環(huán)境,通過(guò)整合當下更全面的線(xiàn)上營(yíng)銷(xiāo)渠道和投放策略,推出了全新的《2021數字營(yíng)銷(xiāo)白皮書(shū)》。
全書(shū)50頁(yè),分10個(gè)章節,覆蓋線(xiàn)上用戶(hù)生命周期、用戶(hù)獲客指標、常見(jiàn)獲客渠道、營(yíng)銷(xiāo)素材處理、賬戶(hù)精細化管理、數據化投放跟蹤、落地頁(yè)設計制作等多維度,系統地為市場(chǎng)營(yíng)銷(xiāo)人提供線(xiàn)上數字營(yíng)銷(xiāo)從策略到落地執行的全攻略支持。
每天掌握更多數據運營(yíng)干貨 查看全部
實(shí)現訂單線(xiàn)索量增長(cháng),落地頁(yè)優(yōu)化該怎么做?
廣告做得好不好,落地頁(yè)至關(guān)重要,賬戶(hù)管理能起到的效果有60%,剩下的40%全在落地頁(yè)上,一個(gè)好的落地頁(yè)總是能獲得更多的訂單和線(xiàn)索。
落地頁(yè)要怎么做?我們經(jīng)過(guò)幾年的實(shí)踐總結出落地頁(yè)做法。學(xué)習了這些做法,能讓你在落地頁(yè)優(yōu)化上更進(jìn)一步。落地頁(yè)(Landing Page)是指用戶(hù)搜索了關(guān)鍵詞后點(diǎn)擊了廣告看到的第一個(gè)頁(yè)面。跟落地頁(yè)最相關(guān)的指標就是跳出率,跳出率會(huì )反映落地頁(yè)的效果。
什么是好與壞,單純對于一個(gè)頁(yè)面來(lái)說(shuō),沒(méi)有好與壞的概念,只有合適與否,有很多時(shí)候頁(yè)面設計得很丑,但是搜索一系列需求的用戶(hù)找到了自己要的結果,并且在這個(gè)頁(yè)面上完成了我們希望他完成的動(dòng)作,這就是一個(gè)好的落地頁(yè)。有很多落地頁(yè),做得蓬蓽生輝,但是訪(fǎng)客完全看不懂,這樣的落地頁(yè)就算做得再好看,也不是一個(gè)好的落地頁(yè)。
01
給不同的單元制作落地頁(yè)
行動(dòng)起來(lái)要比制定策略更有效,讓所有流量都著(zhù)陸到首頁(yè)是一個(gè)十分不明智的推廣策略,前面我們提到不同單元是不同的需求,如果我們可以分出十幾個(gè)單元,那么就代表訪(fǎng)客會(huì )有十幾種需求,訪(fǎng)客不希望所有的人都看到一個(gè)頁(yè)面的,我們也很難一個(gè)頁(yè)面就滿(mǎn)足所有需求。拿易觀(guān)方舟舉例,用戶(hù)畫(huà)像的需求和用戶(hù)行為分析的需求是兩個(gè)需求,一個(gè)易觀(guān)方舟的首頁(yè)是無(wú)法同時(shí)滿(mǎn)足這兩部分需求的。
訪(fǎng)客在搜索引擎上搜索結果,點(diǎn)擊,瀏覽頁(yè)面,整個(gè)過(guò)程不會(huì )有過(guò)多的思考,但是他們是有著(zhù)一個(gè)原始訴求的。當訪(fǎng)客打開(kāi)頁(yè)面,看不到他們希望得到的結果,就會(huì )馬上關(guān)掉頁(yè)面離開(kāi),所以我們做落地頁(yè)的第一要務(wù)就是要讓訪(fǎng)客得到他想要的。
02
著(zhù)陸體驗優(yōu)化
訪(fǎng)客從廣告點(diǎn)擊進(jìn)來(lái)后,會(huì )在3秒內決定,是否要繼續觀(guān)看,所以,著(zhù)陸頁(yè)是否被認可在3秒就決定,有幾個(gè)要點(diǎn)來(lái)提高著(zhù)陸頁(yè)的體驗,我想我們聽(tīng)過(guò)很多關(guān)于著(zhù)陸頁(yè)的優(yōu)化方法,例如利用人性的弱點(diǎn),利用lift模型等,但是在真正實(shí)操過(guò)程中,我們會(huì )總結出一些獨有的落地頁(yè)優(yōu)化方法,分享給你。
清晰的價(jià)值主張
反復去琢磨你的第一屏文字,要注意的是不要站在自己的角度把文字的理解拔高,因為比“看上去厲害”更重要的是容易理解,如果文字表述讓訪(fǎng)客可以瞬間理解,你已經(jīng)成功了一半。打開(kāi)速度要快
如果在移動(dòng)端也有投放,移動(dòng)端一定要考慮打開(kāi)速度,當然這個(gè)問(wèn)題PC端同樣要考慮,移動(dòng)端考慮的比較多一些,因為移動(dòng)端會(huì )出現網(wǎng)絡(luò )不穩定的情況,是什么決定了網(wǎng)頁(yè)打開(kāi)慢?這些都會(huì )影響落地頁(yè)的體驗,在著(zhù)陸頁(yè)開(kāi)發(fā)的時(shí)候要注意。有誘惑力的CTA
CTA是一個(gè)著(zhù)陸頁(yè)的必要性條件,一個(gè)著(zhù)陸頁(yè)有CTA才算完整,如果想更近一步提高落地頁(yè)的轉化能力,需要讓CTA具備誘惑力,舉例:解決方案頁(yè)面的CTA應該是傳遞注冊后可以直接獲取解決方案,而資料頁(yè)面的CTA應該是注冊后可以直接獲取資料。如果CTA只是注冊或者購買(mǎi),那么整個(gè)的落地頁(yè)效果會(huì )明顯打折扣。CTA往往后面跟著(zhù)表單,無(wú)論你是希望客戶(hù)留資,還是購買(mǎi),都會(huì )有輸入表單的環(huán)節,盡可能讓表單在當前頁(yè)面完成而不要跳轉,多跳轉一次意味著(zhù)增加一次流失的風(fēng)險。精致代表著(zhù)品牌力
如果有可能的話(huà),盡量讓你的頁(yè)面精致一些,包括字體、圖片,都應該有專(zhuān)業(yè)的設計人員來(lái)進(jìn)行規范性設計,因為在理解價(jià)值主張和你的產(chǎn)品之前,頁(yè)面給訪(fǎng)客的感覺(jué)是比較重要的,你有沒(méi)有一些感觸,有一些頁(yè)面,你一看就會(huì )產(chǎn)生極大的不信任,因為不信任而關(guān)閉網(wǎng)頁(yè)?所以,多花點(diǎn)時(shí)間,讓你的落地頁(yè)變得標準、規范,是十分有必要的。數據分析得出來(lái)的落地頁(yè)洞察
我們通過(guò)數據分析得出來(lái)落地頁(yè)轉化率更高的方法,分享給你落地頁(yè)做好后,最好的檢驗方式是首先自己團隊要模擬用戶(hù),不斷感受整個(gè)體驗過(guò)程中不舒服的地方,同時(shí)投放在小部分用戶(hù)身上,去測試。為落地頁(yè)建立轉化漏斗,看一下著(zhù)陸,點(diǎn)擊,完成表單的整體轉化率,去分析在不同環(huán)節用戶(hù)為什么流失,不斷的優(yōu)化轉化率提高落地頁(yè)轉化效果。
03
廣告連續性
廣告連續性指的是,用戶(hù)在看到廣告創(chuàng )意,點(diǎn)擊廣告創(chuàng )意,通過(guò)鏈接,看到落地頁(yè)的整體體驗保持連續性,讓用戶(hù)的思考不間斷,并不斷加強動(dòng)機。你是否有過(guò)一個(gè)場(chǎng)景,你想買(mǎi)個(gè)小熊餅干,你在搜索引擎上搜索了小熊餅干,看到第一條廣告創(chuàng )意上寫(xiě)的,北京最受歡迎的小熊餅干,然后你打開(kāi)了這個(gè)廣告后,進(jìn)入的頁(yè)面第一屏的文字是,我們有北京最好的小熊餅干抱枕,此時(shí)你可能會(huì )毫不猶豫地關(guān)閉掉這個(gè)頁(yè)面。以上是典型廣告連續性斷檔,在訪(fǎng)客沿著(zhù)你的廣告創(chuàng )意,進(jìn)入落地頁(yè),而瀏覽落地頁(yè)的過(guò)程中任何環(huán)節斷檔,都會(huì )導致用戶(hù)離開(kāi)。所以想提高SEM的轉化效果,廣告連續性是值得優(yōu)先調整的方向,所以我們有以下建議:標題環(huán)節給予明顯的可執行前置
通常我們會(huì )在落地頁(yè)環(huán)節設置CTA,但是同樣用法如果前置在廣告標題上效果會(huì )更好。比如在標題結尾寫(xiě)上免費領(lǐng)取或者免費試用。你會(huì )比友商獲得更多點(diǎn)擊,因為訪(fǎng)客在點(diǎn)擊廣告時(shí)已自帶需求,這樣的需求如果可以保持連貫性并被滿(mǎn)足,會(huì )增強訪(fǎng)客在落地頁(yè)里的執行動(dòng)機。創(chuàng )意描述里繼續強化
在創(chuàng )意里清楚表達可以提供的產(chǎn)品價(jià)值,同時(shí)強化訪(fǎng)客可以獲得的好處,這相當于對創(chuàng )意標題的支撐。不過(guò)創(chuàng )意描述始終是描述,還需要盡可能表達更多的價(jià)值主張。不同創(chuàng )意有不同描述方式,忌諱千篇一律的描述。描述格式整齊,語(yǔ)義通順是加分項,而有明顯優(yōu)惠政策與活動(dòng)激勵會(huì )讓廣告更具有吸引力。落地頁(yè)的連續性承接
切記,訪(fǎng)客搜索關(guān)鍵詞是附帶需求的,點(diǎn)擊鏈接是在尋找解決需求的解決方案的,如果標題和描述都表達了你可以解決訪(fǎng)客需求,那么在著(zhù)陸頁(yè)里一定要給訪(fǎng)客他想要的答案,才會(huì )有可能讓訪(fǎng)客駐足。從創(chuàng )意到描述再到落地頁(yè)內容上,要有高度的連貫性,以及有足夠的誘惑,才會(huì )獲得更好的轉化。
04
敏捷迭代
無(wú)論是做產(chǎn)品還是做市場(chǎng),早期產(chǎn)品迭代都根據我們自己的洞察與思考來(lái)創(chuàng )作,而真正被認可的產(chǎn)品是需要經(jīng)過(guò)市場(chǎng)打磨,并反復迭代的。所以我們做推廣獲客的時(shí)候也需要通過(guò)數據分析驅動(dòng)敏捷迭代讓獲客能力增長(cháng)更加快速。
那么,如何利用數據驅動(dòng)敏捷迭代,我們可以分成兩個(gè)步驟:
得到原始數據
所謂增長(cháng)不是毫無(wú)根據地提出無(wú)法完成的增長(cháng)幅度。例如ToB類(lèi)公眾號就不要隨意制定10w+閱讀這樣的KPI,合理的增長(cháng)目標是根據自身當前的數據提出的挑戰性目標。
所以,首先要知道我們所進(jìn)行推廣相關(guān)的數據狀態(tài),作為SEM業(yè)務(wù),有相應的指標體系,在前面章節有提到,核心關(guān)注的是不同單元的資金ROI,此時(shí)運營(yíng)SEM就像經(jīng)營(yíng)一個(gè)公司一樣,而在落地頁(yè)上要關(guān)注不同落地頁(yè)的跳出率,轉化率,通過(guò)熱圖了解瀏覽深度線(xiàn)和元素點(diǎn)擊率。這樣對所有的轉化流程有了一個(gè)初步的數據基準,設定一個(gè)挑戰性目標就可以開(kāi)始試驗了。PDCA(plan-do-check-action)敏捷試驗無(wú)論是文字、圖片,還是顏色、主題,都是我們試驗的對象,在經(jīng)過(guò)內部小組初步討論后,將挑戰版本和原始版本進(jìn)行測試。試驗方向:l更簡(jiǎn)單明了的文字表述會(huì )降低跳出率lCTA按鈕的文字會(huì )影響點(diǎn)擊率l移動(dòng)端的適配會(huì )影響移動(dòng)端的停留時(shí)長(cháng)l表單的字段順序對完成率也會(huì )有影響l價(jià)值導向的表單會(huì )比銷(xiāo)售表單轉化率更高…除了以上提出的迭代建議,不同的運營(yíng)人員試驗思路也是不同的,唯一不變的是敏捷迭代的過(guò)程中需要數據來(lái)進(jìn)行試驗結果的校驗,這就涉及到落地頁(yè)轉化效果評估。
05
落地頁(yè)轉化評估效果
根據前文的原則優(yōu)化落地頁(yè)只是開(kāi)端,將落地頁(yè)真正落地、提高我們獲客的收益才是目的,我們所有一切改進(jìn)都要圍繞“提高ROI”的方向展開(kāi),因此對落地頁(yè)轉化效果進(jìn)行評估是關(guān)鍵一環(huán)。通過(guò)數據的評估與復盤(pán),我們可以快速定位問(wèn)題、解決問(wèn)題,以數據促進(jìn)業(yè)務(wù)的增長(cháng)。正如前文提及的,我們可能會(huì )開(kāi)展一系列的試驗,但最終也離不開(kāi)效果的評估。我們可以通過(guò)用戶(hù)行為分析模型幫助我們進(jìn)行試驗的判定:事件分析 事件分析可以很好地監測按鈕的點(diǎn)擊情況,通常會(huì )用來(lái)判斷CTA的引導效果。
漏斗分析 漏斗分析是優(yōu)化落地頁(yè)最重要的分析模型,通過(guò)漏斗分析可以知道從著(zhù)陸頁(yè)流量到點(diǎn)擊按鈕次數再到完成下單或注冊的三級漏斗數據,這樣就可以幫助我們判斷我們的落地頁(yè)轉化能力。當我們進(jìn)行一些試驗的時(shí)候,可以通過(guò)漏斗整體的變化判斷試驗是否成功,也可以保存流失的用戶(hù),在方舟內部給他們群發(fā)消息召回他們,至少來(lái)到落地頁(yè)上的用戶(hù)是關(guān)注這個(gè)話(huà)題的。
Session分析 Session分析自帶跳出率分析,可以輔助我們做著(zhù)陸頁(yè)的整體優(yōu)化試驗。
此外,需要注意的是,一些網(wǎng)站上通常會(huì )提供在線(xiàn)咨詢(xún)服務(wù),或留下表單讓訪(fǎng)客填寫(xiě)。在這一問(wèn)題上,建議處理一定要講求時(shí)效性,越快越好。因為不管是在線(xiàn)咨詢(xún)還是提交注冊信息都意味著(zhù)需求,倘若拖了半天時(shí)間,可能訪(fǎng)客在搜索引擎上自己搜索已經(jīng)得到答案,這時(shí)候不管訪(fǎng)客是已經(jīng)解決問(wèn)題還是找到其他替代方案,他本身的需求已經(jīng)大幅降低,這時(shí)候再去回復或溝通,他溝通的意愿會(huì )降低、需求場(chǎng)景逐漸消失,這條線(xiàn)索的價(jià)值也就大大萎縮了。因此,在評估落地頁(yè)轉化的效果時(shí),不僅要對落地頁(yè)各項數據有個(gè)明晰的把握,也要對落地頁(yè)內置咨詢(xún)、表單線(xiàn)索處理等方面做一個(gè)全面的考察。落地頁(yè)對轉化有決定性作用,通過(guò)分析模型可以幫助我們更好地觀(guān)察敏捷迭代后的數據變化,而至于如何敏捷迭代,大膽想象,小心求證,一些小的試驗結果長(cháng)期積累,會(huì )得到很好的反饋。
2021年,我們面臨新的行業(yè)環(huán)境,通過(guò)整合當下更全面的線(xiàn)上營(yíng)銷(xiāo)渠道和投放策略,推出了全新的《2021數字營(yíng)銷(xiāo)白皮書(shū)》。
全書(shū)50頁(yè),分10個(gè)章節,覆蓋線(xiàn)上用戶(hù)生命周期、用戶(hù)獲客指標、常見(jiàn)獲客渠道、營(yíng)銷(xiāo)素材處理、賬戶(hù)精細化管理、數據化投放跟蹤、落地頁(yè)設計制作等多維度,系統地為市場(chǎng)營(yíng)銷(xiāo)人提供線(xiàn)上數字營(yíng)銷(xiāo)從策略到落地執行的全攻略支持。
每天掌握更多數據運營(yíng)干貨
狙擊谷歌搜索
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 98 次瀏覽 ? 2022-05-12 01:53
下一代搜索引擎從根本上會(huì )基于不同的價(jià)值觀(guān)(可控、可信賴(lài)),采取不同的商業(yè)模式。近十年人工智能技術(shù)的發(fā)展,使得小公司顛覆搜索巨頭成為可能。
編譯 |吳昕
來(lái)源 |a16z
二十年來(lái),搜索引擎設計或商業(yè)模式?jīng)]有任何重大創(chuàng )新。
相信很多人早已厭倦充斥廣告、商業(yè)泛濫的搜索,但更習慣于「忍忍就過(guò)去了」的將就。對于收割「羊群」注意力的商業(yè)手腕兒,哥倫比亞大學(xué)法學(xué)院教授 Tim Wu 在《注意力經(jīng)濟》一書(shū)中早已做了詳盡描述??恐?zhù)廣告費支撐著(zhù)各種免費產(chǎn)品,占據數據撒哈拉的搜索巨頭自然希望安于現狀,但可供指望的「救星」又屈指可數。至少 5 或 10 年前想要建立一家搜索引擎公司與谷歌競爭,會(huì )非常困難,而且基本上不可能,因為需要數百人和大量訓練數據。
不過(guò)最近幾年,情況有所改變。就巨頭們而言,隨著(zhù)各自賴(lài)以起家的核心業(yè)務(wù)走到巔峰,為了支持超高市值,他們開(kāi)始邁入已知巨大市場(chǎng),相互踩踏,比如搜索。
微軟必應自然希望多一些市場(chǎng)份額。坐擁龐大電商平臺和商家的亞馬遜為什么不讓用戶(hù)直接從「自己花園」里開(kāi)始搜索而一直要做谷歌的大客戶(hù)?蘋(píng)果直接高調挖走谷歌搜索和AI負責人。Siri基本上就是一個(gè)搜索引擎,通過(guò)回答用戶(hù)提出的問(wèn)題,可以幫蘋(píng)果獲得可觀(guān)收益。雖然大打隱私牌的蘋(píng)果似乎不想直接從廣告掙錢(qián),但用戶(hù)還是難斷定巨頭們涉足搜索不過(guò)是另一輪「圈地運動(dòng)」、收割流量的代名詞。
在構建根本不同的東西、借由「創(chuàng )新者的窘境」式游戲來(lái)削弱谷歌搜索的路上,絕大多數創(chuàng )業(yè)公司被寄予希望,卻總顯得孤獨寂寞。但也有例外。2021年,理查德·索切爾(Richard Socher)創(chuàng )立新公司 , 進(jìn)軍搜索領(lǐng)域。這是一個(gè)無(wú)廣告、保護隱私的搜索引擎。
Socher 曾在推特上發(fā)問(wèn),具有什么樣功能的搜索引擎會(huì )讓你放棄谷歌? KK的回復是:沒(méi)有廣告;付費訂閱。
一直關(guān)注人工智能領(lǐng)域的中國讀者一定很熟悉這個(gè)名字。索切爾曾于2014 年創(chuàng )辦了 MetaMind,后被 Salesforce 收購。索切爾的優(yōu)秀履歷也再添一份精彩:Salesforce 首席科學(xué)家和執行副總裁。
這位曾被世界經(jīng)濟論壇稱(chēng)為「人工智能神童之一」的后起之秀,于2014年在斯坦福大學(xué)計算機系獲得博士學(xué)位,也是組建 ImageNet 團隊成員之一,曾與 Chris Manning、吳恩達一起研究深度學(xué)習。不過(guò),他并不眷戀純粹的學(xué)術(shù)研究,畢業(yè)后即創(chuàng )業(yè)(成立 MetaMind )。他認為,擁有工程資源、讓AI真正發(fā)揮作用可能更為重要。
自2012年深度學(xué)習革命爆發(fā)以來(lái),理查德·索切爾就一直在參與其中,從事深度學(xué)習和摘要技術(shù)(Summarization)的研究。最近十年,人工智能領(lǐng)域發(fā)生了巨大的變化,特別是深度學(xué)習、無(wú)監督、半監督和遷移學(xué)習的激增使得像 這樣的小公司可以與谷歌對抗,而充滿(mǎn)雜亂廣告鏈接、隱私體驗欠佳的搜索引擎成為這些重要技術(shù)的最佳應用場(chǎng)景。索切爾認為,摘要技術(shù)不僅是信息時(shí)代的一項基礎技術(shù),也是注意力經(jīng)濟的一種解決方案。
現在是啟動(dòng)新搜索引擎的最佳時(shí)機。他們利用自然語(yǔ)言處理(NLP)來(lái)理解理解查詢(xún)意圖,對搜索結果進(jìn)行排名,并將人類(lèi)語(yǔ)言語(yǔ)義解析為不同 API 的計算機語(yǔ)言。平臺匯總了來(lái)自網(wǎng)絡(luò )的信息,并且可以通過(guò)內置的搜索應用程序進(jìn)行擴展,例如 Yelp 和 Twitter 的應用程序,用戶(hù)無(wú)需離開(kāi)結果頁(yè)面即可完成搜索任務(wù)。讓用戶(hù)從多個(gè)不同角度探索一個(gè)主題。
輸入Briney Spears ,的頁(yè)面顯示。
索切爾希望建立一個(gè)真正以消費者為中心的搜索工具,該工具不依賴(lài)廣告和對用戶(hù)的了解。這個(gè)工具可以幫助你研究、總結網(wǎng)頁(yè)信息,獲得一些真正有價(jià)值的信息。
對工具可信賴(lài)、可控的強調,可能也與他這幾年的工作體驗有關(guān)。他承認,在與 Salesforce CEO Marc Benioff 的合作中學(xué)到不少。比如你可以賺到錢(qián),也仍然可以與購買(mǎi)你產(chǎn)品的人建立信任。有意思的是,無(wú)論是當初創(chuàng )辦MetaMind,還是后來(lái)創(chuàng )立 ,都可以看到 Marc Benioff 的投資身影。
為了重新調整對搜索引擎的期望, 還推出了一款與 OpenAI 合作構建的搜索應用程序 YouWrite,該應用程序會(huì )在出現提示時(shí)生成文本片段——甚至是文檔。索切爾稱(chēng)其為「個(gè)人 AI 作家」。
YouWrite根據提示生成文本
最近,索切爾接受了硅谷知名投資機構 a16z 合伙人、編輯Derrick Harris的采訪(fǎng)。這次采訪(fǎng)中,索切爾談?wù)摿嗽S多話(huà)題,包括過(guò)去十年中,人工智能初創(chuàng )公司情況發(fā)生了怎樣的變化;在初創(chuàng )公司、企業(yè)和學(xué)術(shù)界做人工智能的區別,以及新的機器學(xué)習技術(shù)(如 Transformer 模型)如何使公司能夠用過(guò)去所需資源的一小部分來(lái)構建先進(jìn)的產(chǎn)品。其對下一代 AI 產(chǎn)品設計的可控性、可信賴(lài)元素的強調,均可在采訪(fǎng)中找到闡述。以下是采訪(fǎng)正文。
對于人工智能研究人員(學(xué)生和教授)來(lái)說(shuō),從學(xué)術(shù)界轉到初創(chuàng )公司似乎是一個(gè)常見(jiàn)的做法,就像你做的那樣。在今天,這兩個(gè)世界有什么關(guān)鍵區別?
在學(xué)術(shù)界,人們仍在努力向人工智能可以產(chǎn)生影響的新領(lǐng)域前進(jìn),有些人希望在A(yíng)GI(通用人工智能)方面取得進(jìn)展。我認為有兩個(gè)激動(dòng)人心的新領(lǐng)域的例子,一個(gè)是蛋白質(zhì)結構,也就是蛋白質(zhì)或氨基酸序列方面,另一個(gè)是對經(jīng)濟學(xué)的影響。后者對世界來(lái)說(shuō)非常重要,但 AI 的影響并沒(méi)有我認為的那么大。
與此同時(shí),對于初創(chuàng )公司來(lái)說(shuō),如果你有很多數據,流程也主要依賴(lài)于已經(jīng)看到的數據,基本上可以說(shuō)「我們知道它是如何運作的?!贡热?,你有一張放射圖像,試著(zhù)確定這骨頭斷了嗎?或者有一個(gè)頭部 CT 掃描,你要試著(zhù)確定是否有顱內出血或腦出血?或者從病理圖像中對不同種類(lèi)的癌癥進(jìn)行分類(lèi)。
所有這些應用的流程序列已經(jīng)相對完善,即:識別問(wèn)題并為其收集數據,在此基礎上訓練一個(gè)大型神經(jīng)網(wǎng)絡(luò ),然后優(yōu)化和自動(dòng)化流程中的部分或全部 。
有了這個(gè)經(jīng)過(guò)驗證的方法,你就能產(chǎn)生很大的影響。這與我們在電力方面所看到的情況類(lèi)似:一旦掌握電力的基本原理,只要把它提供給一個(gè)以前只有油燈和火的城鎮,就可以產(chǎn)生很大的影響。
這是可能的,部分是因為在過(guò)去的10年里已經(jīng)發(fā)展出了許多有趣和重要的想法。以前不可能實(shí)現的事情,現在變得可能。比如讓人工智能編寫(xiě)相當長(cháng)的文本。一個(gè)主要的變化是,不僅僅是圖像,所有的數據本質(zhì)上都是矢量。所有東西都是一個(gè)數字列表,這個(gè)數字列表可以作為一個(gè)大型神經(jīng)網(wǎng)絡(luò )的輸入,在上面訓練任何你想訓練的東西。
還有很多有趣和重要的算法改進(jìn)(更不用說(shuō)更多數據和更多計算性能了)。但是端到端學(xué)習( 深度學(xué)習的一個(gè)重要思想就是「端到端」學(xué)習方式,屬表示學(xué)習的一種,也是這深度學(xué)習區別于其他機器學(xué)習算法的非常重要的一個(gè)方面。譯者注)是一個(gè)非常重要的思想,它改變了很多事情。
從初創(chuàng )公司到大型企業(yè)的轉變呢?這似乎是一把雙刃劍,預算可能更多,但限制也更多……
兩者在很多方面都不同,我只提兩個(gè)例子。
如果AI工具初創(chuàng )發(fā)現很多公司都花費比如四分之一的開(kāi)發(fā)人員圍繞某一流程構建產(chǎn)品,而其中某部分或者環(huán)節要花費一到兩個(gè)開(kāi)發(fā)人員,他們就有可能在2B領(lǐng)域獲得成功。這也是為什么許多AI工具初創(chuàng )都在幫助開(kāi)發(fā)人員對付這些讓人不太愉快的部分。
而要做到這一點(diǎn),最好的方法是讓客戶(hù)仍然覺(jué)得自己在構建和控制人工智能,盡管實(shí)際上需要合作伙伴幫助標注數據、研究數據偏差。(比如)他們首先要收集數據,通過(guò) Huggingface(一家在 NLP 社區做出杰出貢獻的紐約創(chuàng )業(yè)公司,提供了大量預訓練模型和代碼等資源——譯者注)實(shí)現模型,借助 Weights &Biases ( 一個(gè)可幫助數據科學(xué)家跟蹤他們的模型、數據集、系統信息等的平臺——譯者注)訓練模型時(shí)擴展模型分析,并通過(guò) ZenML (一種可擴展的機器學(xué)習框架——譯者注)部署模型。
?。ㄋ阆聛?lái))雖然依賴(lài)10-15個(gè)外部支援,但相對于圍繞某個(gè)特定AI模型重復造輪子來(lái)說(shuō),這樣能夠更快、更可擴展、更準確地訓練 AI。找到類(lèi)似各種各樣已經(jīng)存在但又缺乏高度專(zhuān)業(yè)性、需要專(zhuān)業(yè)團隊聚焦的某些特定方面或者環(huán)節,是創(chuàng )業(yè)公司的一大樂(lè )事。
但在像 Salesforce 這樣的大公司,你主要考慮的是什么能夠真正改變許多不同客戶(hù)的需求。如何幫助那些已經(jīng)在您系統中的客戶(hù)使用他們的數據集,以一種他們仍然覺(jué)得(實(shí)際上也確實(shí))擁有控制權的方式?這一點(diǎn)很重要,因為在 Salesforce,信任是我們的第一價(jià)值。你不能只是拿每個(gè)人的數據,然后對其進(jìn)行訓練,因為他們擁有自己的數據,而且他們?yōu)榇鎯Ω顿M。因此,你還需要與客戶(hù)合作,努力讓他們的人工智能項目起步。
所以,企業(yè)軟件供應商擔心的是客戶(hù)支付了很多錢(qián),你就不能以試驗新功能的名義來(lái)破壞工作?
這是部分原因。但可能更重要的是,你必須確保它是可信、易于使用,并且可以跨越所有這些不同的用例,而且服務(wù)的成本仍然相對較低。如果是一個(gè)像 Salesforce這樣的平臺公司,你也不能只建立一個(gè)分類(lèi)器,還必須讓所有客戶(hù)建立他們自己的分類(lèi)器,這也伴隨著(zhù)各種有趣和困難的技術(shù)挑戰。
企業(yè)預算如何改變公司處境?
最大的區別是,當公司規模越來(lái)越大時(shí),就可以而且應該進(jìn)一步展望未來(lái),做更多有趣的研究工作,這實(shí)際上與學(xué)術(shù)界有更大的重疊。因為你可能會(huì )在兩三年內被打亂,而你又有足夠的空間去思考四五年后的未來(lái)。所以需要預測一下接下來(lái)會(huì )發(fā)生什么。
因此,作為一家大公司的 AI 研究人員,你可以奢侈地去思考和構建一些東西,而在初創(chuàng )公司,你需要構建人們現在想要的東西,它還需要非常好,并在合理的時(shí)間范圍內發(fā)貨。這就是最大的不同——絕大多數初創(chuàng )公司都在從事應用,應用程序和人工智能,而不是基礎研究;大公司可以?xún)烧呒娴谩?
當你談?wù)?B2B 初創(chuàng )時(shí),提到的很多東西,我們可以稱(chēng)之為橫向應用( horizontal applications )。為什么你認為這些在今天被證明是成功的,而情況并非總是如此?
總有一些非常有用的垂直 AI 應用程序,但有一個(gè)短暫的階段,我們認為橫向的平臺可能會(huì )起作用。其實(shí),早期的人工智能平臺初創(chuàng )公司就承擔了太多不同的任務(wù)。
例如,我們在 MetaMind 構建了一些技術(shù),你可以將一些文本或圖像拖放到 Web 瀏覽器,擁有一個(gè)完全可擴展的系統來(lái)對這些文檔進(jìn)行分類(lèi)。某種程度上,這確實(shí)有些古早,因為這都發(fā)生在前 TensorFlow 、 PyTorch 時(shí)代。你必須從頭實(shí)現所有這些神經(jīng)網(wǎng)絡(luò )及其細節,也幾乎沒(méi)有什么開(kāi)發(fā)工具?,F在,情況已經(jīng)發(fā)生了顯著(zhù)變化。
我們在 MetaMind 中構建了所有這些東西——標注、錯誤分析、部署、建模、如何訓練模型分析。有趣的是,如果每個(gè)部分都有一個(gè)專(zhuān)注于此的獨立公司,現在他們中的每一家都比 MetaMind 更值錢(qián)。
我認為,大多數公司和開(kāi)發(fā)人員都希望自己通盤(pán)掌控 AI,但他們可以放棄其中獨立的較小部分,如果編寫(xiě)這部分代碼實(shí)際上并不那么令人興奮。所以,需要找到一種有趣的方式,在樂(lè )趣和讓每個(gè)人都感到掌控感之間找到平衡。既然初創(chuàng )公司負責提供機器學(xué)習工具,你就不能剝奪太多用戶(hù)的掌控感。
網(wǎng)絡(luò )和模型的進(jìn)化如何改變了人們對創(chuàng )辦公司或構建人工智能產(chǎn)品的看法?
我實(shí)際上并不認為特定模型對如何創(chuàng )辦公司有很大的改變。但我認為,某些模型目前更高效,因為它們能更好地處理我們擁有的硬件。我們并不真正受大腦、理論或原則啟發(fā)——而是受 GPU 啟發(fā)。我們的靈感主要來(lái)自在 GPU 上運行良好的東西。當前流行的模型 Transformers,對于 GPU 來(lái)說(shuō)就非常有效,可以非常有效地進(jìn)行訓練。
對于硬件初創(chuàng )公司來(lái)說(shuō),這確實(shí)改變了一些事情。他們看著(zhù)英偉達和其他一些大公司,然后說(shuō)「嗯,必須有某種方法來(lái)分一杯羹?!刮覀円惨虼藭?huì )看到一些創(chuàng )新。(不過(guò))與此同時(shí),他們真的很難擴展,因為對于絕大多數用例來(lái)說(shuō),他們的特殊硬件必須出現在大型云提供商之一當中。
當然,整個(gè) AI 開(kāi)發(fā)堆棧在過(guò)去 8 年中已經(jīng)成熟了很多。遙想當年,如果你希望它更快,就必須從頭開(kāi)始用 C++ 實(shí)現所有內容,這非常慢。人們需要很長(cháng)時(shí)間才能加快速度和學(xué)習。而現在,所有這些復雜性都可以被抽象出來(lái),你可以使用我們之前討論過(guò)的產(chǎn)品,這使得構建高質(zhì)量的人工智能系統變得更快、更方便、更容易。
但是算法的進(jìn)步確實(shí)讓局面有很大不同,對吧?例如,在隱私方面很重要,這也是你可以?xún)?yōu)先考慮用更少數據做更多事情的原因之一。
這是一個(gè)很好的問(wèn)題,而且絕對正確。如果 5 或 10 年前想要建立一家搜索引擎公司與 Google 競爭,會(huì )非常困難,而且基本上不可能,因為需要數百人和大量訓練數據來(lái)構建我們正在建立的排名系統?,F在,一個(gè)非常小的團隊(盡管小,但非常聰明也很有能力)就能構建一個(gè)排名系統,對你在搜索引擎中輸入的任意意圖和查詢(xún)進(jìn)行排名,并提供正確的應用程序、資源集合。
像 這樣的小公司可以與谷歌這樣的大公司競爭,唯一的原因在于我們在人工智能方面看到了進(jìn)步,特別是涉及無(wú)監督學(xué)習和遷移學(xué)習時(shí)。你可以在維基百科、Common Crawl(一個(gè)非營(yíng)利組織,利用自己的網(wǎng)絡(luò )爬蟲(chóng)收集了十億級別的網(wǎng)頁(yè)數據,任何人都可以免費訪(fǎng)問(wèn),研究人員和企業(yè)家就可以在谷歌級別的數據上進(jìn)行新的嘗試和探索,新的創(chuàng )業(yè)機會(huì )也油然而生?!g者注) 以及所有你能找到的網(wǎng)絡(luò )文本上訓練非常大的神經(jīng)網(wǎng)絡(luò )。(也要記住,并不是所有網(wǎng)絡(luò )上的東西都能用于訓練很好的人工智能)。
我們可以利用這些資源訓練無(wú)監督模型,比如預測句子中的下一個(gè)單詞?!肝胰チ四霞又?,很享受……」,如果對語(yǔ)言和世界很了解,就會(huì )預測到下一個(gè)詞可能是「海灘」、「沙漠」,或者任何在南加州能夠享受到的東西。但預測的前提是你必須具備大量的知識。而訓練一個(gè)模型來(lái)預測幾百萬(wàn)甚至幾十億單詞序列的下一個(gè)單詞,一開(kāi)始也需要整合所有這些背景知識。
這就涉及無(wú)監督學(xué)習,沒(méi)有人坐在那里給你標記好下一個(gè)單詞是什么。只有維基百科,模型可以從里面學(xué)到很多正確排序的單詞表達。
這個(gè)想法很牛逼,你只需根據任務(wù)目標對大型 NLP 模型稍加修改即可讓其完成任務(wù)。它能超越特定、小規模標記數據,進(jìn)行更為廣泛的泛化,因為他們擁有知識感;他們知道「我附近最好的泰國餐館」與「我所在地區最好的東南亞餐館」非常相似,盡管訓練數據中從未有過(guò)這個(gè)特定的短語(yǔ),但我們的神經(jīng)網(wǎng)絡(luò )和排名系統可以做到這一點(diǎn),因為它們知道這些短語(yǔ)是相似的。
說(shuō)到搜索,我注意到 很重要的一點(diǎn),就是總結(搜索)結果的方式,這是源自用戶(hù)頁(yè)面設計的需求,張三李四隨時(shí)隨地都可以做到?還是得益于機器學(xué)習技術(shù)的進(jìn)步才能以這種方式處理搜索結果?
雖然聽(tīng)起來(lái)不那么酷,但摘要實(shí)際上是最難的人工智能任務(wù)之一,尤其是在自然語(yǔ)言處理中,原因有很多也有趣。原因之一,摘要是個(gè)非常個(gè)性化的任務(wù),我知道你(摘要的接收者)知道什么,我就可以為你提供更好、更準確的摘要結果。
比如,如果你不知道什么是詞向量,你就很難理解 Transformers( Google 的團隊在 2017 年提出的一種 NLP 經(jīng)典模型,現在比較火熱的 Bert 也是基于 Transformer?!g者注)。為此,你首先需要了解詞向量的基礎知識。如果你已經(jīng)知道什么是 transformers,那摘要就會(huì )變得很簡(jiǎn)潔,比如,「他們正在用語(yǔ)言建模而不是機器翻譯來(lái)訓練它,這是一個(gè)更好的目標函數?!?
而且我認為摘要是一個(gè)重要的技術(shù)趨勢,未來(lái)幾年,隨著(zhù)你的時(shí)間越來(lái)越寶貴,需要簡(jiǎn)單工具幫助你完成一些工作,越來(lái)越多的人會(huì )在喜歡上它,而不是被那些賣(mài)廣告的公司所吸引,他們不想幫助你完成工作,而是幫助你查看更多內容,以便展示更多廣告。
我們不贊同這一點(diǎn),摘要(技術(shù))是其中很重要的一部分,它可以幫助用戶(hù)少做些搜索多完成工作,或者少搜索,多寫(xiě)些代碼。我們的應用程序包含有代碼片段,你可以復制和粘貼,通常都是正確的摘要。如果正在搜索「如何在 Python 中對字典排序」,答案不是一長(cháng)串文本,而只是一個(gè)代碼片段?;蛘?,當我們向您展示一篇論文時(shí),有一個(gè)指向實(shí)現該論文的開(kāi)源版本的 GitHub 存儲庫的鏈接。
我認為,下一代搜索引擎從根本上是基于不同的價(jià)值觀(guān),也是不同的商業(yè)模式。
鑒于我們已經(jīng)討論過(guò)的所有進(jìn)展,對于那些希望立即進(jìn)入 AI 領(lǐng)域的人,你有什么建議?要做的事情或需要學(xué)習的技能是什么?
這在很大程度上取決于他們的年齡、技能、時(shí)間投入以及想進(jìn)入的領(lǐng)域。如果你還年輕,未來(lái)也想以此為業(yè),你仍然需要學(xué)習編程基礎、數學(xué)、統計學(xué)和一些概率知識,很多線(xiàn)性代數等等。
如果你已經(jīng)上班,也想進(jìn)入這個(gè)領(lǐng)域,有大量令人興奮的新在線(xiàn)課程、視頻和平臺,供你深入學(xué)習?,F在有這么多的材料,連斯坦福 CS224 NLP 課程也有,這就是我鼓勵人們去做的事情。
一旦完成了這些,接下來(lái)就是要動(dòng)手實(shí)踐了,寫(xiě)程序或者玩模型,順便想想目前還有哪些流程或者任務(wù)是靠手動(dòng)的,或者處在半機械半人工狀態(tài)?你能做些與眾不同的東西,嘗試自動(dòng)化它們嗎?
較之真正理解這些模型是如何工作,僅滿(mǎn)足于使用云API和不同水平的抽象化(abstraction)能讓你走多遠?
這完全取決于你的背景。如果受過(guò)高等教育,有數學(xué)方面的背景,你可以很快掌握一些基礎知識,直接跳到構建真實(shí)模型的階段,而不需要從頭開(kāi)始。不過(guò),越依賴(lài)抽象化,可能就越難以做一些真正有創(chuàng )造性的工作,也很難理解如何修復錯誤,解決性能問(wèn)題。
但在許多用例中,您也沒(méi)必要創(chuàng )新。比如,你可能只是想要一個(gè)自動(dòng)噴水滅火系統,因此,你只想回答:「有人站在這里嗎?是還是不是?!?如果沒(méi)有,請打開(kāi)自動(dòng)噴水滅火系統,不需要為此發(fā)明任何創(chuàng )新性的東西,只需要執行所有正確的標準步驟并為圖像分類(lèi)器使用好的工具。
但是,抽象化仍然存在漏洞,也并不完美。因此,應用程序越重要——它對你的公司、受影響的用戶(hù)或你的職業(yè)越重要——你就越希望擁有深入了解這些系統的專(zhuān)家,知道如何修復某些錯誤或性能問(wèn)題的專(zhuān)家,以及思考人工智能系統如何影響人們的人。只有這樣,你才能真正以安全、最大限度發(fā)揮積極影響的方式自動(dòng)化某些流程。
參考鏈接: 查看全部
狙擊谷歌搜索
下一代搜索引擎從根本上會(huì )基于不同的價(jià)值觀(guān)(可控、可信賴(lài)),采取不同的商業(yè)模式。近十年人工智能技術(shù)的發(fā)展,使得小公司顛覆搜索巨頭成為可能。
編譯 |吳昕
來(lái)源 |a16z
二十年來(lái),搜索引擎設計或商業(yè)模式?jīng)]有任何重大創(chuàng )新。
相信很多人早已厭倦充斥廣告、商業(yè)泛濫的搜索,但更習慣于「忍忍就過(guò)去了」的將就。對于收割「羊群」注意力的商業(yè)手腕兒,哥倫比亞大學(xué)法學(xué)院教授 Tim Wu 在《注意力經(jīng)濟》一書(shū)中早已做了詳盡描述??恐?zhù)廣告費支撐著(zhù)各種免費產(chǎn)品,占據數據撒哈拉的搜索巨頭自然希望安于現狀,但可供指望的「救星」又屈指可數。至少 5 或 10 年前想要建立一家搜索引擎公司與谷歌競爭,會(huì )非常困難,而且基本上不可能,因為需要數百人和大量訓練數據。
不過(guò)最近幾年,情況有所改變。就巨頭們而言,隨著(zhù)各自賴(lài)以起家的核心業(yè)務(wù)走到巔峰,為了支持超高市值,他們開(kāi)始邁入已知巨大市場(chǎng),相互踩踏,比如搜索。
微軟必應自然希望多一些市場(chǎng)份額。坐擁龐大電商平臺和商家的亞馬遜為什么不讓用戶(hù)直接從「自己花園」里開(kāi)始搜索而一直要做谷歌的大客戶(hù)?蘋(píng)果直接高調挖走谷歌搜索和AI負責人。Siri基本上就是一個(gè)搜索引擎,通過(guò)回答用戶(hù)提出的問(wèn)題,可以幫蘋(píng)果獲得可觀(guān)收益。雖然大打隱私牌的蘋(píng)果似乎不想直接從廣告掙錢(qián),但用戶(hù)還是難斷定巨頭們涉足搜索不過(guò)是另一輪「圈地運動(dòng)」、收割流量的代名詞。
在構建根本不同的東西、借由「創(chuàng )新者的窘境」式游戲來(lái)削弱谷歌搜索的路上,絕大多數創(chuàng )業(yè)公司被寄予希望,卻總顯得孤獨寂寞。但也有例外。2021年,理查德·索切爾(Richard Socher)創(chuàng )立新公司 , 進(jìn)軍搜索領(lǐng)域。這是一個(gè)無(wú)廣告、保護隱私的搜索引擎。
Socher 曾在推特上發(fā)問(wèn),具有什么樣功能的搜索引擎會(huì )讓你放棄谷歌? KK的回復是:沒(méi)有廣告;付費訂閱。
一直關(guān)注人工智能領(lǐng)域的中國讀者一定很熟悉這個(gè)名字。索切爾曾于2014 年創(chuàng )辦了 MetaMind,后被 Salesforce 收購。索切爾的優(yōu)秀履歷也再添一份精彩:Salesforce 首席科學(xué)家和執行副總裁。
這位曾被世界經(jīng)濟論壇稱(chēng)為「人工智能神童之一」的后起之秀,于2014年在斯坦福大學(xué)計算機系獲得博士學(xué)位,也是組建 ImageNet 團隊成員之一,曾與 Chris Manning、吳恩達一起研究深度學(xué)習。不過(guò),他并不眷戀純粹的學(xué)術(shù)研究,畢業(yè)后即創(chuàng )業(yè)(成立 MetaMind )。他認為,擁有工程資源、讓AI真正發(fā)揮作用可能更為重要。
自2012年深度學(xué)習革命爆發(fā)以來(lái),理查德·索切爾就一直在參與其中,從事深度學(xué)習和摘要技術(shù)(Summarization)的研究。最近十年,人工智能領(lǐng)域發(fā)生了巨大的變化,特別是深度學(xué)習、無(wú)監督、半監督和遷移學(xué)習的激增使得像 這樣的小公司可以與谷歌對抗,而充滿(mǎn)雜亂廣告鏈接、隱私體驗欠佳的搜索引擎成為這些重要技術(shù)的最佳應用場(chǎng)景。索切爾認為,摘要技術(shù)不僅是信息時(shí)代的一項基礎技術(shù),也是注意力經(jīng)濟的一種解決方案。
現在是啟動(dòng)新搜索引擎的最佳時(shí)機。他們利用自然語(yǔ)言處理(NLP)來(lái)理解理解查詢(xún)意圖,對搜索結果進(jìn)行排名,并將人類(lèi)語(yǔ)言語(yǔ)義解析為不同 API 的計算機語(yǔ)言。平臺匯總了來(lái)自網(wǎng)絡(luò )的信息,并且可以通過(guò)內置的搜索應用程序進(jìn)行擴展,例如 Yelp 和 Twitter 的應用程序,用戶(hù)無(wú)需離開(kāi)結果頁(yè)面即可完成搜索任務(wù)。讓用戶(hù)從多個(gè)不同角度探索一個(gè)主題。
輸入Briney Spears ,的頁(yè)面顯示。
索切爾希望建立一個(gè)真正以消費者為中心的搜索工具,該工具不依賴(lài)廣告和對用戶(hù)的了解。這個(gè)工具可以幫助你研究、總結網(wǎng)頁(yè)信息,獲得一些真正有價(jià)值的信息。
對工具可信賴(lài)、可控的強調,可能也與他這幾年的工作體驗有關(guān)。他承認,在與 Salesforce CEO Marc Benioff 的合作中學(xué)到不少。比如你可以賺到錢(qián),也仍然可以與購買(mǎi)你產(chǎn)品的人建立信任。有意思的是,無(wú)論是當初創(chuàng )辦MetaMind,還是后來(lái)創(chuàng )立 ,都可以看到 Marc Benioff 的投資身影。
為了重新調整對搜索引擎的期望, 還推出了一款與 OpenAI 合作構建的搜索應用程序 YouWrite,該應用程序會(huì )在出現提示時(shí)生成文本片段——甚至是文檔。索切爾稱(chēng)其為「個(gè)人 AI 作家」。
YouWrite根據提示生成文本
最近,索切爾接受了硅谷知名投資機構 a16z 合伙人、編輯Derrick Harris的采訪(fǎng)。這次采訪(fǎng)中,索切爾談?wù)摿嗽S多話(huà)題,包括過(guò)去十年中,人工智能初創(chuàng )公司情況發(fā)生了怎樣的變化;在初創(chuàng )公司、企業(yè)和學(xué)術(shù)界做人工智能的區別,以及新的機器學(xué)習技術(shù)(如 Transformer 模型)如何使公司能夠用過(guò)去所需資源的一小部分來(lái)構建先進(jìn)的產(chǎn)品。其對下一代 AI 產(chǎn)品設計的可控性、可信賴(lài)元素的強調,均可在采訪(fǎng)中找到闡述。以下是采訪(fǎng)正文。
對于人工智能研究人員(學(xué)生和教授)來(lái)說(shuō),從學(xué)術(shù)界轉到初創(chuàng )公司似乎是一個(gè)常見(jiàn)的做法,就像你做的那樣。在今天,這兩個(gè)世界有什么關(guān)鍵區別?
在學(xué)術(shù)界,人們仍在努力向人工智能可以產(chǎn)生影響的新領(lǐng)域前進(jìn),有些人希望在A(yíng)GI(通用人工智能)方面取得進(jìn)展。我認為有兩個(gè)激動(dòng)人心的新領(lǐng)域的例子,一個(gè)是蛋白質(zhì)結構,也就是蛋白質(zhì)或氨基酸序列方面,另一個(gè)是對經(jīng)濟學(xué)的影響。后者對世界來(lái)說(shuō)非常重要,但 AI 的影響并沒(méi)有我認為的那么大。
與此同時(shí),對于初創(chuàng )公司來(lái)說(shuō),如果你有很多數據,流程也主要依賴(lài)于已經(jīng)看到的數據,基本上可以說(shuō)「我們知道它是如何運作的?!贡热?,你有一張放射圖像,試著(zhù)確定這骨頭斷了嗎?或者有一個(gè)頭部 CT 掃描,你要試著(zhù)確定是否有顱內出血或腦出血?或者從病理圖像中對不同種類(lèi)的癌癥進(jìn)行分類(lèi)。
所有這些應用的流程序列已經(jīng)相對完善,即:識別問(wèn)題并為其收集數據,在此基礎上訓練一個(gè)大型神經(jīng)網(wǎng)絡(luò ),然后優(yōu)化和自動(dòng)化流程中的部分或全部 。
有了這個(gè)經(jīng)過(guò)驗證的方法,你就能產(chǎn)生很大的影響。這與我們在電力方面所看到的情況類(lèi)似:一旦掌握電力的基本原理,只要把它提供給一個(gè)以前只有油燈和火的城鎮,就可以產(chǎn)生很大的影響。
這是可能的,部分是因為在過(guò)去的10年里已經(jīng)發(fā)展出了許多有趣和重要的想法。以前不可能實(shí)現的事情,現在變得可能。比如讓人工智能編寫(xiě)相當長(cháng)的文本。一個(gè)主要的變化是,不僅僅是圖像,所有的數據本質(zhì)上都是矢量。所有東西都是一個(gè)數字列表,這個(gè)數字列表可以作為一個(gè)大型神經(jīng)網(wǎng)絡(luò )的輸入,在上面訓練任何你想訓練的東西。
還有很多有趣和重要的算法改進(jìn)(更不用說(shuō)更多數據和更多計算性能了)。但是端到端學(xué)習( 深度學(xué)習的一個(gè)重要思想就是「端到端」學(xué)習方式,屬表示學(xué)習的一種,也是這深度學(xué)習區別于其他機器學(xué)習算法的非常重要的一個(gè)方面。譯者注)是一個(gè)非常重要的思想,它改變了很多事情。
從初創(chuàng )公司到大型企業(yè)的轉變呢?這似乎是一把雙刃劍,預算可能更多,但限制也更多……
兩者在很多方面都不同,我只提兩個(gè)例子。
如果AI工具初創(chuàng )發(fā)現很多公司都花費比如四分之一的開(kāi)發(fā)人員圍繞某一流程構建產(chǎn)品,而其中某部分或者環(huán)節要花費一到兩個(gè)開(kāi)發(fā)人員,他們就有可能在2B領(lǐng)域獲得成功。這也是為什么許多AI工具初創(chuàng )都在幫助開(kāi)發(fā)人員對付這些讓人不太愉快的部分。
而要做到這一點(diǎn),最好的方法是讓客戶(hù)仍然覺(jué)得自己在構建和控制人工智能,盡管實(shí)際上需要合作伙伴幫助標注數據、研究數據偏差。(比如)他們首先要收集數據,通過(guò) Huggingface(一家在 NLP 社區做出杰出貢獻的紐約創(chuàng )業(yè)公司,提供了大量預訓練模型和代碼等資源——譯者注)實(shí)現模型,借助 Weights &Biases ( 一個(gè)可幫助數據科學(xué)家跟蹤他們的模型、數據集、系統信息等的平臺——譯者注)訓練模型時(shí)擴展模型分析,并通過(guò) ZenML (一種可擴展的機器學(xué)習框架——譯者注)部署模型。
?。ㄋ阆聛?lái))雖然依賴(lài)10-15個(gè)外部支援,但相對于圍繞某個(gè)特定AI模型重復造輪子來(lái)說(shuō),這樣能夠更快、更可擴展、更準確地訓練 AI。找到類(lèi)似各種各樣已經(jīng)存在但又缺乏高度專(zhuān)業(yè)性、需要專(zhuān)業(yè)團隊聚焦的某些特定方面或者環(huán)節,是創(chuàng )業(yè)公司的一大樂(lè )事。
但在像 Salesforce 這樣的大公司,你主要考慮的是什么能夠真正改變許多不同客戶(hù)的需求。如何幫助那些已經(jīng)在您系統中的客戶(hù)使用他們的數據集,以一種他們仍然覺(jué)得(實(shí)際上也確實(shí))擁有控制權的方式?這一點(diǎn)很重要,因為在 Salesforce,信任是我們的第一價(jià)值。你不能只是拿每個(gè)人的數據,然后對其進(jìn)行訓練,因為他們擁有自己的數據,而且他們?yōu)榇鎯Ω顿M。因此,你還需要與客戶(hù)合作,努力讓他們的人工智能項目起步。
所以,企業(yè)軟件供應商擔心的是客戶(hù)支付了很多錢(qián),你就不能以試驗新功能的名義來(lái)破壞工作?
這是部分原因。但可能更重要的是,你必須確保它是可信、易于使用,并且可以跨越所有這些不同的用例,而且服務(wù)的成本仍然相對較低。如果是一個(gè)像 Salesforce這樣的平臺公司,你也不能只建立一個(gè)分類(lèi)器,還必須讓所有客戶(hù)建立他們自己的分類(lèi)器,這也伴隨著(zhù)各種有趣和困難的技術(shù)挑戰。
企業(yè)預算如何改變公司處境?
最大的區別是,當公司規模越來(lái)越大時(shí),就可以而且應該進(jìn)一步展望未來(lái),做更多有趣的研究工作,這實(shí)際上與學(xué)術(shù)界有更大的重疊。因為你可能會(huì )在兩三年內被打亂,而你又有足夠的空間去思考四五年后的未來(lái)。所以需要預測一下接下來(lái)會(huì )發(fā)生什么。
因此,作為一家大公司的 AI 研究人員,你可以奢侈地去思考和構建一些東西,而在初創(chuàng )公司,你需要構建人們現在想要的東西,它還需要非常好,并在合理的時(shí)間范圍內發(fā)貨。這就是最大的不同——絕大多數初創(chuàng )公司都在從事應用,應用程序和人工智能,而不是基礎研究;大公司可以?xún)烧呒娴谩?
當你談?wù)?B2B 初創(chuàng )時(shí),提到的很多東西,我們可以稱(chēng)之為橫向應用( horizontal applications )。為什么你認為這些在今天被證明是成功的,而情況并非總是如此?
總有一些非常有用的垂直 AI 應用程序,但有一個(gè)短暫的階段,我們認為橫向的平臺可能會(huì )起作用。其實(shí),早期的人工智能平臺初創(chuàng )公司就承擔了太多不同的任務(wù)。
例如,我們在 MetaMind 構建了一些技術(shù),你可以將一些文本或圖像拖放到 Web 瀏覽器,擁有一個(gè)完全可擴展的系統來(lái)對這些文檔進(jìn)行分類(lèi)。某種程度上,這確實(shí)有些古早,因為這都發(fā)生在前 TensorFlow 、 PyTorch 時(shí)代。你必須從頭實(shí)現所有這些神經(jīng)網(wǎng)絡(luò )及其細節,也幾乎沒(méi)有什么開(kāi)發(fā)工具?,F在,情況已經(jīng)發(fā)生了顯著(zhù)變化。
我們在 MetaMind 中構建了所有這些東西——標注、錯誤分析、部署、建模、如何訓練模型分析。有趣的是,如果每個(gè)部分都有一個(gè)專(zhuān)注于此的獨立公司,現在他們中的每一家都比 MetaMind 更值錢(qián)。
我認為,大多數公司和開(kāi)發(fā)人員都希望自己通盤(pán)掌控 AI,但他們可以放棄其中獨立的較小部分,如果編寫(xiě)這部分代碼實(shí)際上并不那么令人興奮。所以,需要找到一種有趣的方式,在樂(lè )趣和讓每個(gè)人都感到掌控感之間找到平衡。既然初創(chuàng )公司負責提供機器學(xué)習工具,你就不能剝奪太多用戶(hù)的掌控感。
網(wǎng)絡(luò )和模型的進(jìn)化如何改變了人們對創(chuàng )辦公司或構建人工智能產(chǎn)品的看法?
我實(shí)際上并不認為特定模型對如何創(chuàng )辦公司有很大的改變。但我認為,某些模型目前更高效,因為它們能更好地處理我們擁有的硬件。我們并不真正受大腦、理論或原則啟發(fā)——而是受 GPU 啟發(fā)。我們的靈感主要來(lái)自在 GPU 上運行良好的東西。當前流行的模型 Transformers,對于 GPU 來(lái)說(shuō)就非常有效,可以非常有效地進(jìn)行訓練。
對于硬件初創(chuàng )公司來(lái)說(shuō),這確實(shí)改變了一些事情。他們看著(zhù)英偉達和其他一些大公司,然后說(shuō)「嗯,必須有某種方法來(lái)分一杯羹?!刮覀円惨虼藭?huì )看到一些創(chuàng )新。(不過(guò))與此同時(shí),他們真的很難擴展,因為對于絕大多數用例來(lái)說(shuō),他們的特殊硬件必須出現在大型云提供商之一當中。
當然,整個(gè) AI 開(kāi)發(fā)堆棧在過(guò)去 8 年中已經(jīng)成熟了很多。遙想當年,如果你希望它更快,就必須從頭開(kāi)始用 C++ 實(shí)現所有內容,這非常慢。人們需要很長(cháng)時(shí)間才能加快速度和學(xué)習。而現在,所有這些復雜性都可以被抽象出來(lái),你可以使用我們之前討論過(guò)的產(chǎn)品,這使得構建高質(zhì)量的人工智能系統變得更快、更方便、更容易。
但是算法的進(jìn)步確實(shí)讓局面有很大不同,對吧?例如,在隱私方面很重要,這也是你可以?xún)?yōu)先考慮用更少數據做更多事情的原因之一。
這是一個(gè)很好的問(wèn)題,而且絕對正確。如果 5 或 10 年前想要建立一家搜索引擎公司與 Google 競爭,會(huì )非常困難,而且基本上不可能,因為需要數百人和大量訓練數據來(lái)構建我們正在建立的排名系統?,F在,一個(gè)非常小的團隊(盡管小,但非常聰明也很有能力)就能構建一個(gè)排名系統,對你在搜索引擎中輸入的任意意圖和查詢(xún)進(jìn)行排名,并提供正確的應用程序、資源集合。
像 這樣的小公司可以與谷歌這樣的大公司競爭,唯一的原因在于我們在人工智能方面看到了進(jìn)步,特別是涉及無(wú)監督學(xué)習和遷移學(xué)習時(shí)。你可以在維基百科、Common Crawl(一個(gè)非營(yíng)利組織,利用自己的網(wǎng)絡(luò )爬蟲(chóng)收集了十億級別的網(wǎng)頁(yè)數據,任何人都可以免費訪(fǎng)問(wèn),研究人員和企業(yè)家就可以在谷歌級別的數據上進(jìn)行新的嘗試和探索,新的創(chuàng )業(yè)機會(huì )也油然而生?!g者注) 以及所有你能找到的網(wǎng)絡(luò )文本上訓練非常大的神經(jīng)網(wǎng)絡(luò )。(也要記住,并不是所有網(wǎng)絡(luò )上的東西都能用于訓練很好的人工智能)。
我們可以利用這些資源訓練無(wú)監督模型,比如預測句子中的下一個(gè)單詞?!肝胰チ四霞又?,很享受……」,如果對語(yǔ)言和世界很了解,就會(huì )預測到下一個(gè)詞可能是「海灘」、「沙漠」,或者任何在南加州能夠享受到的東西。但預測的前提是你必須具備大量的知識。而訓練一個(gè)模型來(lái)預測幾百萬(wàn)甚至幾十億單詞序列的下一個(gè)單詞,一開(kāi)始也需要整合所有這些背景知識。
這就涉及無(wú)監督學(xué)習,沒(méi)有人坐在那里給你標記好下一個(gè)單詞是什么。只有維基百科,模型可以從里面學(xué)到很多正確排序的單詞表達。
這個(gè)想法很牛逼,你只需根據任務(wù)目標對大型 NLP 模型稍加修改即可讓其完成任務(wù)。它能超越特定、小規模標記數據,進(jìn)行更為廣泛的泛化,因為他們擁有知識感;他們知道「我附近最好的泰國餐館」與「我所在地區最好的東南亞餐館」非常相似,盡管訓練數據中從未有過(guò)這個(gè)特定的短語(yǔ),但我們的神經(jīng)網(wǎng)絡(luò )和排名系統可以做到這一點(diǎn),因為它們知道這些短語(yǔ)是相似的。
說(shuō)到搜索,我注意到 很重要的一點(diǎn),就是總結(搜索)結果的方式,這是源自用戶(hù)頁(yè)面設計的需求,張三李四隨時(shí)隨地都可以做到?還是得益于機器學(xué)習技術(shù)的進(jìn)步才能以這種方式處理搜索結果?
雖然聽(tīng)起來(lái)不那么酷,但摘要實(shí)際上是最難的人工智能任務(wù)之一,尤其是在自然語(yǔ)言處理中,原因有很多也有趣。原因之一,摘要是個(gè)非常個(gè)性化的任務(wù),我知道你(摘要的接收者)知道什么,我就可以為你提供更好、更準確的摘要結果。
比如,如果你不知道什么是詞向量,你就很難理解 Transformers( Google 的團隊在 2017 年提出的一種 NLP 經(jīng)典模型,現在比較火熱的 Bert 也是基于 Transformer?!g者注)。為此,你首先需要了解詞向量的基礎知識。如果你已經(jīng)知道什么是 transformers,那摘要就會(huì )變得很簡(jiǎn)潔,比如,「他們正在用語(yǔ)言建模而不是機器翻譯來(lái)訓練它,這是一個(gè)更好的目標函數?!?
而且我認為摘要是一個(gè)重要的技術(shù)趨勢,未來(lái)幾年,隨著(zhù)你的時(shí)間越來(lái)越寶貴,需要簡(jiǎn)單工具幫助你完成一些工作,越來(lái)越多的人會(huì )在喜歡上它,而不是被那些賣(mài)廣告的公司所吸引,他們不想幫助你完成工作,而是幫助你查看更多內容,以便展示更多廣告。
我們不贊同這一點(diǎn),摘要(技術(shù))是其中很重要的一部分,它可以幫助用戶(hù)少做些搜索多完成工作,或者少搜索,多寫(xiě)些代碼。我們的應用程序包含有代碼片段,你可以復制和粘貼,通常都是正確的摘要。如果正在搜索「如何在 Python 中對字典排序」,答案不是一長(cháng)串文本,而只是一個(gè)代碼片段?;蛘?,當我們向您展示一篇論文時(shí),有一個(gè)指向實(shí)現該論文的開(kāi)源版本的 GitHub 存儲庫的鏈接。
我認為,下一代搜索引擎從根本上是基于不同的價(jià)值觀(guān),也是不同的商業(yè)模式。
鑒于我們已經(jīng)討論過(guò)的所有進(jìn)展,對于那些希望立即進(jìn)入 AI 領(lǐng)域的人,你有什么建議?要做的事情或需要學(xué)習的技能是什么?
這在很大程度上取決于他們的年齡、技能、時(shí)間投入以及想進(jìn)入的領(lǐng)域。如果你還年輕,未來(lái)也想以此為業(yè),你仍然需要學(xué)習編程基礎、數學(xué)、統計學(xué)和一些概率知識,很多線(xiàn)性代數等等。
如果你已經(jīng)上班,也想進(jìn)入這個(gè)領(lǐng)域,有大量令人興奮的新在線(xiàn)課程、視頻和平臺,供你深入學(xué)習?,F在有這么多的材料,連斯坦福 CS224 NLP 課程也有,這就是我鼓勵人們去做的事情。
一旦完成了這些,接下來(lái)就是要動(dòng)手實(shí)踐了,寫(xiě)程序或者玩模型,順便想想目前還有哪些流程或者任務(wù)是靠手動(dòng)的,或者處在半機械半人工狀態(tài)?你能做些與眾不同的東西,嘗試自動(dòng)化它們嗎?
較之真正理解這些模型是如何工作,僅滿(mǎn)足于使用云API和不同水平的抽象化(abstraction)能讓你走多遠?
這完全取決于你的背景。如果受過(guò)高等教育,有數學(xué)方面的背景,你可以很快掌握一些基礎知識,直接跳到構建真實(shí)模型的階段,而不需要從頭開(kāi)始。不過(guò),越依賴(lài)抽象化,可能就越難以做一些真正有創(chuàng )造性的工作,也很難理解如何修復錯誤,解決性能問(wèn)題。
但在許多用例中,您也沒(méi)必要創(chuàng )新。比如,你可能只是想要一個(gè)自動(dòng)噴水滅火系統,因此,你只想回答:「有人站在這里嗎?是還是不是?!?如果沒(méi)有,請打開(kāi)自動(dòng)噴水滅火系統,不需要為此發(fā)明任何創(chuàng )新性的東西,只需要執行所有正確的標準步驟并為圖像分類(lèi)器使用好的工具。
但是,抽象化仍然存在漏洞,也并不完美。因此,應用程序越重要——它對你的公司、受影響的用戶(hù)或你的職業(yè)越重要——你就越希望擁有深入了解這些系統的專(zhuān)家,知道如何修復某些錯誤或性能問(wèn)題的專(zhuān)家,以及思考人工智能系統如何影響人們的人。只有這樣,你才能真正以安全、最大限度發(fā)揮積極影響的方式自動(dòng)化某些流程。
參考鏈接: