亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

搜索引擎主題模型優(yōu)化

搜索引擎主題模型優(yōu)化

如何升級頁(yè)面優(yōu)化以匹配搜索引擎的技術(shù)呢?(圖)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 88 次瀏覽 ? 2021-07-20 02:13 ? 來(lái)自相關(guān)話(huà)題

  如何升級頁(yè)面優(yōu)化以匹配搜索引擎的技術(shù)呢?(圖)
  過(guò)去幾年,搜索引擎工程團隊專(zhuān)注于自然語(yǔ)言處理,對頁(yè)面內容之間的相互關(guān)系有了更深入的了解。神經(jīng)匹配幫助搜索引擎理解同義詞,人工智能幫助搜索引擎理解那些棘手的詞句。
  每次核心更新后,搜索引擎的文學(xué)水平都會(huì )提升。然而,盡管搜索引擎越來(lái)越智能,但許多網(wǎng)站所有者在優(yōu)化網(wǎng)站時(shí)仍然只考慮少數關(guān)鍵詞目標。
  這是一種過(guò)時(shí)的做法,尤其是當我們知道著(zhù)陸頁(yè)通常以數百個(gè)關(guān)鍵詞 排名結束時(shí)。對于自搜索引擎成立以來(lái)一直關(guān)注的我們來(lái)說(shuō),這對于頁(yè)面搜索引擎優(yōu)化來(lái)說(shuō)就像一個(gè)美麗的新世界。
  隨著(zhù)搜索引擎的 NLP(自然語(yǔ)言處理)能力不斷提高,我們的頁(yè)面 SEO 策略也需要制定以反映搜索中的這些進(jìn)步。
  那么,我們如何升級頁(yè)面優(yōu)化以匹配搜索引擎技術(shù)? 關(guān)鍵詞集群就是答案。
  什么是關(guān)鍵詞cluster?
  關(guān)鍵詞群是一個(gè)關(guān)鍵詞群組,代表具有相似購買(mǎi)意向的搜索者。比如“亞麻窗簾”、“亞麻窗簾”、“亞麻窗簾布”和“白色亞麻窗簾”是不同的關(guān)鍵詞詞組,但都代表著(zhù)想要購買(mǎi)亞麻窗簾的搜索者。
  假設您的品牌銷(xiāo)售亞麻窗簾。如果你只嘗試排名第一關(guān)鍵詞,你最終會(huì )限制你的市場(chǎng)份額。
  如果你得到了你的主要關(guān)鍵詞、長(cháng)尾變體和相關(guān)的副主題,你的頁(yè)面最終排名將是關(guān)鍵詞數量的10-20倍,并獲得更多的點(diǎn)擊。
  如何創(chuàng )建關(guān)鍵詞和主題集群
  為了充分利用關(guān)鍵詞集群的功能,需要注意的是,這種策略比一勞永逸的網(wǎng)站優(yōu)化方法需要更多的時(shí)間和資源。
  這需要您的 SEO 和營(yíng)銷(xiāo)團隊進(jìn)行更多 關(guān)鍵詞 研究、更多內容創(chuàng )建和更多工作。
  但最終,在你的網(wǎng)站上設置主題集群會(huì )讓搜索引擎和用戶(hù)更加友好。 關(guān)鍵詞cluster 的好處包括:
  Longtail 關(guān)鍵詞 排名靠前。改進(jìn)了短尾關(guān)鍵詞 的排名。更高的有機流量。更快地提高 SERP 中的排名。內部鏈接的機會(huì )更多。在您的行業(yè)環(huán)境中建立專(zhuān)業(yè)知識和內容權威。這是關(guān)于如何做關(guān)鍵詞集群以及如何圍繞這些集群構建內容策略的簡(jiǎn)要說(shuō)明。
  第一步:創(chuàng )建關(guān)鍵詞list
  關(guān)鍵詞cluster 從關(guān)鍵詞 研究開(kāi)始。想想你想為網(wǎng)站 排名的主要關(guān)鍵詞。
  然后,確定搜索者正在使用的此關(guān)鍵詞 的所有變體、長(cháng)尾短語(yǔ)和子主題。
  首先,讓您的競爭對手了解他們目前為哪個(gè) 關(guān)鍵詞 排名。
  然后,使用關(guān)鍵詞 工具查找相關(guān)的關(guān)鍵詞、自動(dòng)??填充、子主題或搜索者以查找有關(guān)您的產(chǎn)品和服務(wù)的問(wèn)題。
  記錄關(guān)鍵詞研究的方式有很多種,但最簡(jiǎn)單的方法是使用5118關(guān)鍵詞挖礦工具導出對應的關(guān)鍵詞列表。確保在列表中收錄關(guān)鍵詞 的自然難度、搜索量和每次點(diǎn)擊費用指標。
  這些指標將幫助您確定哪些關(guān)鍵詞 具有最高的經(jīng)濟價(jià)值,應該用作集群中的“核心”關(guān)鍵詞。
  一些 SEO 專(zhuān)業(yè)人士在他們的研究中確定了數千個(gè) 關(guān)鍵詞。如果您剛剛開(kāi)始使用此策略,那么一百個(gè)關(guān)鍵詞phrases 可能足以識別可以在您的網(wǎng)站 上建立的幾個(gè)不同的主題集群。
  在生成關(guān)鍵詞lists 時(shí),請記住相關(guān)性和搜索意圖的重要性。您只想加入關(guān)鍵詞,為您的網(wǎng)站 帶來(lái)合適的搜索者,他們實(shí)際上對您提供的產(chǎn)品或服務(wù)感興趣并且可能會(huì )轉化。
  第 2 步:將關(guān)鍵詞 分組
  一旦你有一個(gè)廣泛的關(guān)鍵詞列表,你就會(huì )開(kāi)始注意到關(guān)鍵詞中的模式。
  您可能會(huì )注意到,用戶(hù)在其搜索查詢(xún)中收錄相同的字詞、短語(yǔ)、同義詞或副主題。這些模式代表了您可以聚集和形成關(guān)鍵詞 組的潛在方式。
  這是將這些關(guān)鍵詞劃分為多個(gè)集群時(shí)應該使用的條件。
  語(yǔ)義相關(guān)性
  集群中的關(guān)鍵詞 具有相似的搜索意圖很重要。
  如果您嘗試為不太相似的關(guān)鍵詞 優(yōu)化著(zhù)陸頁(yè),則會(huì )降低內容的可讀性,并使搜索引擎對您的頁(yè)面的真正含義感到困惑。
  搜索量和每次點(diǎn)擊費用
  集群中的核心關(guān)鍵詞應該有合理的搜索量(否則你會(huì )為任何人優(yōu)化)。
  他們還應該具有轉化潛力(每次點(diǎn)擊費用代表他們的經(jīng)濟價(jià)值)。
  有機困難
  是否收錄更難的關(guān)鍵詞取決于您的網(wǎng)站權限、反向鏈接配置文件以及網(wǎng)站的建立方式。
  在您的集群中僅收錄可以對其站點(diǎn)進(jìn)行排名的關(guān)鍵詞。
  仔細研究?jì)蓚€(gè)關(guān)鍵詞群
  找到集群的核心關(guān)鍵詞后,將其與互補的關(guān)鍵詞配對。
  例如,您可以添加一些長(cháng)尾、降低難度或降低搜索量,或者只是在著(zhù)陸頁(yè)上收錄有關(guān)它們的足夠信息以輕松獲勝。
  為什么這些關(guān)鍵詞可以組成一個(gè)好的集群?因為它們共享語(yǔ)義相關(guān)性。這些搜索者都在尋找有助于安排采訪(fǎng)的產(chǎn)品。
  我們的核心關(guān)鍵詞在排名方面更具競爭力,但我們用關(guān)鍵詞填充了集群,難度較低且轉化潛力強。
  如果您對自己的細分市場(chǎng)充滿(mǎn)信心并了解關(guān)鍵詞 指標和搜索意圖的細微差別,您可以手動(dòng)將關(guān)鍵詞 分成幾個(gè)組(如我們上面所述)。
  還有一些關(guān)鍵詞grouping 工具可以自動(dòng)化這個(gè)過(guò)程。他們可以為您將關(guān)鍵詞 細分為多個(gè)類(lèi)別。
  細分時(shí),請記住并非所有列表中的關(guān)鍵詞都需要以集群結束。
  收錄最高值的關(guān)鍵詞是最重要的關(guān)鍵詞。更高的每次點(diǎn)擊費用、更高的搜索量和相關(guān)的搜索意圖使 關(guān)鍵詞 對您的品牌有價(jià)值。
  第 3 步:為您的 關(guān)鍵詞 集群創(chuàng )建和優(yōu)化支柱頁(yè)面
  關(guān)鍵詞 分組后,他們提供了如何在網(wǎng)站 上創(chuàng )建、優(yōu)化和組織內容的路線(xiàn)圖。
  本質(zhì)上,你的關(guān)鍵詞群代表你的網(wǎng)站核心主題。這些也稱(chēng)為“支柱頁(yè)面”。
  為了正確執行關(guān)鍵詞集群,我們需要為每個(gè)關(guān)鍵詞集群創(chuàng )建一個(gè)目標頁(yè)面。
  關(guān)鍵詞群的支柱頁(yè)面應該使用正式的現場(chǎng)搜索引擎優(yōu)化技術(shù)。我們最喜歡的策略之一是使用內容優(yōu)化工具來(lái)幫助您更有效地優(yōu)化內容。
  為了提高支柱頁(yè)面的排名潛力,請優(yōu)先考慮以下幾個(gè)方面:
  主題深度:專(zhuān)注于撰寫(xiě)深入探索主題的長(cháng)篇內容。信息架構:具有清晰的結構,并在 h2 和 h3 中收錄您的 關(guān)鍵詞phrase。頁(yè)面體驗:在交互頁(yè)面添加視頻、跳轉鏈接、輪播等元素,提升用戶(hù)的頁(yè)面體驗。第四步:通過(guò)網(wǎng)站content 增強關(guān)鍵詞cluster
  為了提高支柱頁(yè)面的排名和內容權重,您可以構建內容以增強您的主要關(guān)鍵詞 集群。
  這些文章可以定位與你的核心關(guān)鍵詞相關(guān)的長(cháng)尾關(guān)鍵詞短語(yǔ)、副主題或問(wèn)題。
  隨著(zhù)您開(kāi)發(fā)更多內容,這些頁(yè)面將在您的網(wǎng)站 上形成“主題集群”。
  此內容的內部鏈接系統將在您的網(wǎng)站 著(zhù)陸頁(yè)在搜索引擎中的排名中發(fā)揮重要作用。
  您的文章 應該鏈接回其相應的支柱頁(yè)面,以增加您在這些高價(jià)值關(guān)鍵詞 上排名的機會(huì )。
  如果你的公司有多個(gè)產(chǎn)品或專(zhuān)業(yè)領(lǐng)域,你可以在網(wǎng)站上搭建更多的集群。
  如果你只銷(xiāo)售一種核心產(chǎn)品或服務(wù),你識別的關(guān)鍵詞集群數量會(huì )減少。但是,探索具有豐富有用內容的主要學(xué)科領(lǐng)域可以幫助您在更短的時(shí)間內超越競爭對手。
  建立集群還可以為您提供更多的機會(huì )添加內部鏈接到網(wǎng)站。
  這不僅增加了用戶(hù)在您的網(wǎng)站 上花費的時(shí)間,而且內部鏈接遍布您的網(wǎng)站 并幫助搜索引擎了解您在網(wǎng)站 上最重要的頁(yè)面。
  關(guān)鍵詞group 真的值得所有的工作嗎?
  關(guān)鍵詞群 是一種更高級的 SEO 策略,可以為您提供在垂直競爭中獲勝所需的優(yōu)勢。這是因為它們響應了搜索引擎的兩大超級功能:自然語(yǔ)言處理和無(wú)與倫比的索引。
  想想看,搜索引擎了解各行各業(yè)的搜索者使用的數百萬(wàn)個(gè)關(guān)鍵詞phrases。它還了解這些查詢(xún)之間的細微差別,以及它們的相互關(guān)系或相互關(guān)系。
  搜索引擎花了數年時(shí)間訓練他們的 NLP(自然語(yǔ)言處理)模型來(lái)計算內容質(zhì)量信號并預測哪些網(wǎng)頁(yè)最能向搜索者提供他們需要的信息。當你在落地頁(yè)進(jìn)行關(guān)鍵詞聚類(lèi),你會(huì )向搜索引擎證明你的網(wǎng)站是你所在行業(yè)的權威,展示強大的內容范圍和深度。
  您還可以通過(guò)豐富的內容集群提供搜索引擎的內容信號,這些集群已經(jīng)過(guò)訓練以識別和改進(jìn)搜索結果。 關(guān)鍵詞集群需要網(wǎng)站站長(cháng)多思考自己的內容,這也是SEO的未來(lái)。
  如果您希望您的網(wǎng)頁(yè)長(cháng)期排名,是時(shí)候讓您的網(wǎng)頁(yè)策略趕上搜索引擎了。 查看全部

  如何升級頁(yè)面優(yōu)化以匹配搜索引擎的技術(shù)呢?(圖)
  過(guò)去幾年,搜索引擎工程團隊專(zhuān)注于自然語(yǔ)言處理,對頁(yè)面內容之間的相互關(guān)系有了更深入的了解。神經(jīng)匹配幫助搜索引擎理解同義詞,人工智能幫助搜索引擎理解那些棘手的詞句。
  每次核心更新后,搜索引擎的文學(xué)水平都會(huì )提升。然而,盡管搜索引擎越來(lái)越智能,但許多網(wǎng)站所有者在優(yōu)化網(wǎng)站時(shí)仍然只考慮少數關(guān)鍵詞目標。
  這是一種過(guò)時(shí)的做法,尤其是當我們知道著(zhù)陸頁(yè)通常以數百個(gè)關(guān)鍵詞 排名結束時(shí)。對于自搜索引擎成立以來(lái)一直關(guān)注的我們來(lái)說(shuō),這對于頁(yè)面搜索引擎優(yōu)化來(lái)說(shuō)就像一個(gè)美麗的新世界。
  隨著(zhù)搜索引擎的 NLP(自然語(yǔ)言處理)能力不斷提高,我們的頁(yè)面 SEO 策略也需要制定以反映搜索中的這些進(jìn)步。
  那么,我們如何升級頁(yè)面優(yōu)化以匹配搜索引擎技術(shù)? 關(guān)鍵詞集群就是答案。
  什么是關(guān)鍵詞cluster?
  關(guān)鍵詞群是一個(gè)關(guān)鍵詞群組,代表具有相似購買(mǎi)意向的搜索者。比如“亞麻窗簾”、“亞麻窗簾”、“亞麻窗簾布”和“白色亞麻窗簾”是不同的關(guān)鍵詞詞組,但都代表著(zhù)想要購買(mǎi)亞麻窗簾的搜索者。
  假設您的品牌銷(xiāo)售亞麻窗簾。如果你只嘗試排名第一關(guān)鍵詞,你最終會(huì )限制你的市場(chǎng)份額。
  如果你得到了你的主要關(guān)鍵詞、長(cháng)尾變體和相關(guān)的副主題,你的頁(yè)面最終排名將是關(guān)鍵詞數量的10-20倍,并獲得更多的點(diǎn)擊。
  如何創(chuàng )建關(guān)鍵詞和主題集群
  為了充分利用關(guān)鍵詞集群的功能,需要注意的是,這種策略比一勞永逸的網(wǎng)站優(yōu)化方法需要更多的時(shí)間和資源。
  這需要您的 SEO 和營(yíng)銷(xiāo)團隊進(jìn)行更多 關(guān)鍵詞 研究、更多內容創(chuàng )建和更多工作。
  但最終,在你的網(wǎng)站上設置主題集群會(huì )讓搜索引擎和用戶(hù)更加友好。 關(guān)鍵詞cluster 的好處包括:
  Longtail 關(guān)鍵詞 排名靠前。改進(jìn)了短尾關(guān)鍵詞 的排名。更高的有機流量。更快地提高 SERP 中的排名。內部鏈接的機會(huì )更多。在您的行業(yè)環(huán)境中建立專(zhuān)業(yè)知識和內容權威。這是關(guān)于如何做關(guān)鍵詞集群以及如何圍繞這些集群構建內容策略的簡(jiǎn)要說(shuō)明。
  第一步:創(chuàng )建關(guān)鍵詞list
  關(guān)鍵詞cluster 從關(guān)鍵詞 研究開(kāi)始。想想你想為網(wǎng)站 排名的主要關(guān)鍵詞。
  然后,確定搜索者正在使用的此關(guān)鍵詞 的所有變體、長(cháng)尾短語(yǔ)和子主題。
  首先,讓您的競爭對手了解他們目前為哪個(gè) 關(guān)鍵詞 排名。
  然后,使用關(guān)鍵詞 工具查找相關(guān)的關(guān)鍵詞、自動(dòng)??填充、子主題或搜索者以查找有關(guān)您的產(chǎn)品和服務(wù)的問(wèn)題。
  記錄關(guān)鍵詞研究的方式有很多種,但最簡(jiǎn)單的方法是使用5118關(guān)鍵詞挖礦工具導出對應的關(guān)鍵詞列表。確保在列表中收錄關(guān)鍵詞 的自然難度、搜索量和每次點(diǎn)擊費用指標。
  這些指標將幫助您確定哪些關(guān)鍵詞 具有最高的經(jīng)濟價(jià)值,應該用作集群中的“核心”關(guān)鍵詞。
  一些 SEO 專(zhuān)業(yè)人士在他們的研究中確定了數千個(gè) 關(guān)鍵詞。如果您剛剛開(kāi)始使用此策略,那么一百個(gè)關(guān)鍵詞phrases 可能足以識別可以在您的網(wǎng)站 上建立的幾個(gè)不同的主題集群。
  在生成關(guān)鍵詞lists 時(shí),請記住相關(guān)性和搜索意圖的重要性。您只想加入關(guān)鍵詞,為您的網(wǎng)站 帶來(lái)合適的搜索者,他們實(shí)際上對您提供的產(chǎn)品或服務(wù)感興趣并且可能會(huì )轉化。
  第 2 步:將關(guān)鍵詞 分組
  一旦你有一個(gè)廣泛的關(guān)鍵詞列表,你就會(huì )開(kāi)始注意到關(guān)鍵詞中的模式。
  您可能會(huì )注意到,用戶(hù)在其搜索查詢(xún)中收錄相同的字詞、短語(yǔ)、同義詞或副主題。這些模式代表了您可以聚集和形成關(guān)鍵詞 組的潛在方式。
  這是將這些關(guān)鍵詞劃分為多個(gè)集群時(shí)應該使用的條件。
  語(yǔ)義相關(guān)性
  集群中的關(guān)鍵詞 具有相似的搜索意圖很重要。
  如果您嘗試為不太相似的關(guān)鍵詞 優(yōu)化著(zhù)陸頁(yè),則會(huì )降低內容的可讀性,并使搜索引擎對您的頁(yè)面的真正含義感到困惑。
  搜索量和每次點(diǎn)擊費用
  集群中的核心關(guān)鍵詞應該有合理的搜索量(否則你會(huì )為任何人優(yōu)化)。
  他們還應該具有轉化潛力(每次點(diǎn)擊費用代表他們的經(jīng)濟價(jià)值)。
  有機困難
  是否收錄更難的關(guān)鍵詞取決于您的網(wǎng)站權限、反向鏈接配置文件以及網(wǎng)站的建立方式。
  在您的集群中僅收錄可以對其站點(diǎn)進(jìn)行排名的關(guān)鍵詞。
  仔細研究?jì)蓚€(gè)關(guān)鍵詞群
  找到集群的核心關(guān)鍵詞后,將其與互補的關(guān)鍵詞配對。
  例如,您可以添加一些長(cháng)尾、降低難度或降低搜索量,或者只是在著(zhù)陸頁(yè)上收錄有關(guān)它們的足夠信息以輕松獲勝。
  為什么這些關(guān)鍵詞可以組成一個(gè)好的集群?因為它們共享語(yǔ)義相關(guān)性。這些搜索者都在尋找有助于安排采訪(fǎng)的產(chǎn)品。
  我們的核心關(guān)鍵詞在排名方面更具競爭力,但我們用關(guān)鍵詞填充了集群,難度較低且轉化潛力強。
  如果您對自己的細分市場(chǎng)充滿(mǎn)信心并了解關(guān)鍵詞 指標和搜索意圖的細微差別,您可以手動(dòng)將關(guān)鍵詞 分成幾個(gè)組(如我們上面所述)。
  還有一些關(guān)鍵詞grouping 工具可以自動(dòng)化這個(gè)過(guò)程。他們可以為您將關(guān)鍵詞 細分為多個(gè)類(lèi)別。
  細分時(shí),請記住并非所有列表中的關(guān)鍵詞都需要以集群結束。
  收錄最高值的關(guān)鍵詞是最重要的關(guān)鍵詞。更高的每次點(diǎn)擊費用、更高的搜索量和相關(guān)的搜索意圖使 關(guān)鍵詞 對您的品牌有價(jià)值。
  第 3 步:為您的 關(guān)鍵詞 集群創(chuàng )建和優(yōu)化支柱頁(yè)面
  關(guān)鍵詞 分組后,他們提供了如何在網(wǎng)站 上創(chuàng )建、優(yōu)化和組織內容的路線(xiàn)圖。
  本質(zhì)上,你的關(guān)鍵詞群代表你的網(wǎng)站核心主題。這些也稱(chēng)為“支柱頁(yè)面”。
  為了正確執行關(guān)鍵詞集群,我們需要為每個(gè)關(guān)鍵詞集群創(chuàng )建一個(gè)目標頁(yè)面。
  關(guān)鍵詞群的支柱頁(yè)面應該使用正式的現場(chǎng)搜索引擎優(yōu)化技術(shù)。我們最喜歡的策略之一是使用內容優(yōu)化工具來(lái)幫助您更有效地優(yōu)化內容。
  為了提高支柱頁(yè)面的排名潛力,請優(yōu)先考慮以下幾個(gè)方面:
  主題深度:專(zhuān)注于撰寫(xiě)深入探索主題的長(cháng)篇內容。信息架構:具有清晰的結構,并在 h2 和 h3 中收錄您的 關(guān)鍵詞phrase。頁(yè)面體驗:在交互頁(yè)面添加視頻、跳轉鏈接、輪播等元素,提升用戶(hù)的頁(yè)面體驗。第四步:通過(guò)網(wǎng)站content 增強關(guān)鍵詞cluster
  為了提高支柱頁(yè)面的排名和內容權重,您可以構建內容以增強您的主要關(guān)鍵詞 集群。
  這些文章可以定位與你的核心關(guān)鍵詞相關(guān)的長(cháng)尾關(guān)鍵詞短語(yǔ)、副主題或問(wèn)題。
  隨著(zhù)您開(kāi)發(fā)更多內容,這些頁(yè)面將在您的網(wǎng)站 上形成“主題集群”。
  此內容的內部鏈接系統將在您的網(wǎng)站 著(zhù)陸頁(yè)在搜索引擎中的排名中發(fā)揮重要作用。
  您的文章 應該鏈接回其相應的支柱頁(yè)面,以增加您在這些高價(jià)值關(guān)鍵詞 上排名的機會(huì )。
  如果你的公司有多個(gè)產(chǎn)品或專(zhuān)業(yè)領(lǐng)域,你可以在網(wǎng)站上搭建更多的集群。
  如果你只銷(xiāo)售一種核心產(chǎn)品或服務(wù),你識別的關(guān)鍵詞集群數量會(huì )減少。但是,探索具有豐富有用內容的主要學(xué)科領(lǐng)域可以幫助您在更短的時(shí)間內超越競爭對手。
  建立集群還可以為您提供更多的機會(huì )添加內部鏈接到網(wǎng)站。
  這不僅增加了用戶(hù)在您的網(wǎng)站 上花費的時(shí)間,而且內部鏈接遍布您的網(wǎng)站 并幫助搜索引擎了解您在網(wǎng)站 上最重要的頁(yè)面。
  關(guān)鍵詞group 真的值得所有的工作嗎?
  關(guān)鍵詞群 是一種更高級的 SEO 策略,可以為您提供在垂直競爭中獲勝所需的優(yōu)勢。這是因為它們響應了搜索引擎的兩大超級功能:自然語(yǔ)言處理和無(wú)與倫比的索引。
  想想看,搜索引擎了解各行各業(yè)的搜索者使用的數百萬(wàn)個(gè)關(guān)鍵詞phrases。它還了解這些查詢(xún)之間的細微差別,以及它們的相互關(guān)系或相互關(guān)系。
  搜索引擎花了數年時(shí)間訓練他們的 NLP(自然語(yǔ)言處理)模型來(lái)計算內容質(zhì)量信號并預測哪些網(wǎng)頁(yè)最能向搜索者提供他們需要的信息。當你在落地頁(yè)進(jìn)行關(guān)鍵詞聚類(lèi),你會(huì )向搜索引擎證明你的網(wǎng)站是你所在行業(yè)的權威,展示強大的內容范圍和深度。
  您還可以通過(guò)豐富的內容集群提供搜索引擎的內容信號,這些集群已經(jīng)過(guò)訓練以識別和改進(jìn)搜索結果。 關(guān)鍵詞集群需要網(wǎng)站站長(cháng)多思考自己的內容,這也是SEO的未來(lái)。
  如果您希望您的網(wǎng)頁(yè)長(cháng)期排名,是時(shí)候讓您的網(wǎng)頁(yè)策略趕上搜索引擎了。

搜索引擎結果的好壞與否,Cranfield評價(jià)體系ACranfield-likeapproach

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 187 次瀏覽 ? 2021-07-20 02:09 ? 來(lái)自相關(guān)話(huà)題

  搜索引擎結果的好壞與否,Cranfield評價(jià)體系ACranfield-likeapproach
  大觀(guān)數據CEO陳韻文文
  前言
  搜索質(zhì)量評價(jià)是搜索技術(shù)研究的基礎工作,也是核心任務(wù)之一。度量在搜索技術(shù)的研究和發(fā)展中發(fā)揮著(zhù)重要作用,因此任何新方法都與其評價(jià)方法相結合。
  搜索引擎結果的質(zhì)量反映在業(yè)界所謂的相關(guān)性上。相關(guān)性的定義包括狹義和廣義兩個(gè)方面。狹義的解釋是:搜索結果與用戶(hù)查詢(xún)的相關(guān)程度。從廣義上講,相關(guān)性可以理解為用戶(hù)查詢(xún)的綜合滿(mǎn)意度。直觀(guān)上,從用戶(hù)進(jìn)入搜索框的那一刻到滿(mǎn)足需求的過(guò)程越順暢、方便,搜索相關(guān)性就越好。本文總結了行業(yè)常用的相關(guān)性評價(jià)指標和定量評價(jià)方法。供對此感興趣的朋友參考。
  克蘭菲爾德評估系統
  A Cranfield-like approach這個(gè)名字來(lái)源于英國的克蘭菲爾德大學(xué),因為該大學(xué)在1950年代首先提出了這樣一套評價(jià)體系:一套完整的查詢(xún)樣本集、正確答案集和評價(jià)指標。評價(jià)計劃從此確立了“評價(jià)”在信息檢索研究中的核心地位。
  Cranfield 評價(jià)系統由三個(gè)環(huán)節組成:
  1.提取代表性查詢(xún)詞,形成合適大小的集合
  2.查詢(xún)樣本集合,從檢索系統的語(yǔ)料庫中找到對應的結果并標注(一般是手動(dòng))
  3. 將查詢(xún)詞和帶有標注信息的語(yǔ)料輸入檢索系統,使用預定義的評價(jià)計算公式對檢索系統結果和系統返回的檢索結果標注的理想情況進(jìn)行評價(jià)結果有多接近。
  查詢(xún)詞集的選擇
  Cranfield 評估系統廣泛應用于各大搜索引擎公司。在具體應用中,首先需要解決的問(wèn)題是構建一組測試查詢(xún)詞。
  根據Andrei Broder(原在A(yíng)ltaVista/IBM/Yahoo)的研究,查詢(xún)詞可以分為三類(lèi):尋址查詢(xún)(Navigational)、信息查詢(xún)(Informational)和交易查詢(xún)(Transactional)。對應的比例為:
  Navigational : 12.3%
Informational : 62.0%
Transactional : 25.7%
  為了使評價(jià)符合網(wǎng)上的實(shí)際情況,通常查詢(xún)詞集也是按比例選取的。通常從在線(xiàn)用戶(hù)的查詢(xún)日志文件中自動(dòng)提取。
  另外,在查詢(xún)集的構建中,除了上述查詢(xún)類(lèi)型外,還可以考慮查詢(xún)的頻率,熱點(diǎn)查詢(xún)(高頻查詢(xún))和長(cháng)尾查詢(xún)(中和低頻)分別占特定的比例。
  另外,在抽取Query的時(shí)候,Query的長(cháng)度也是經(jīng)常要考慮的一個(gè)因素。因為短查詢(xún)(單詞查詢(xún))和長(cháng)查詢(xún)(多詞查詢(xún))排序算法往往不同。
  形成查詢(xún)集后,使用這些查詢(xún)詞在不同系統(例如比較百度和谷歌)或不同技術(shù)(新舊排名算法的環(huán)境)之間進(jìn)行搜索,并對結果進(jìn)行評分以確定優(yōu)劣和缺點(diǎn)。
  圖片:同一個(gè)Query:“大觀(guān)數據”,各大搜索引擎結果示意圖。下面詳細說(shuō)一下評分的方法。
  
  
  
  
  
  
  
  
  
  
  Precision-recall(accuracy-recall法)計算方法
  信息檢索領(lǐng)域最廣為人知的評價(jià)指標是Precision-Recall(準確率-召回率)方法。這種方法提出了半個(gè)世紀,已經(jīng)被很多搜索引擎公司的效果評估所采用。
  顧名思義,這種方法由兩個(gè)相互關(guān)聯(lián)的統計數據組成:準確率和召回率:召回率衡量一個(gè)查詢(xún)搜索所有相關(guān)文檔的能力,而Precision衡量搜索系統排除相關(guān)文檔的能力。 (簡(jiǎn)單解釋一下:準確率是計算你從查詢(xún)中得到的結果有多少是可靠的;召回率是指你檢索到的所有可靠結果中有多少)。這兩個(gè)是評價(jià)搜索效果最基本的指標,具體計算方法如下。
  Precision-recall 方法假設給定的查詢(xún)對應于檢索到的文檔集合和不相關(guān)文檔的集合。這里假設相關(guān)性是二元的,用數學(xué)形式化方法描述,它是:
  A 表示相關(guān)文檔的集合
  
  表示不相關(guān)的集合
  B 代表檢索到的文檔集合
  
  表示尚未檢索到的文檔集合
  單個(gè)查詢(xún)的準確率和召回率可以用以下公式表示:
  
  
 ?。ㄟ\算符∩表示兩個(gè)集合的交集。|x|符號表示集合x(chóng)中元素的個(gè)數)
  從上面的定義不難看出召回率和準確率的取值范圍在[0,1]之間。那么不難想象,如果系統檢索到的相關(guān)性越多,召回率就越高。如果所有相關(guān)結果都被召回,那么此時(shí)召回就等于1.0。
  
  
  精度-召回曲線(xiàn)
  召回率和準確率反映了檢索系統最重要的兩個(gè)方面,這兩個(gè)方面相互制約。因為在大規模的數據采集中,如果期望檢索到更多的相關(guān)文檔,搜索條件必須“放寬”,這會(huì )導致一些不相關(guān)的結果混入,影響準確率。同樣,當你想提高準確率,盡可能去除不相關(guān)的文檔時(shí),你必須實(shí)施更“嚴格”的檢索策略,這也會(huì )排除一些相關(guān)的文檔,降低召回率。
  所以為了更清楚地描述兩者之間的關(guān)系,我們通常用曲線(xiàn)來(lái)繪制Precision-Recall,可以簡(jiǎn)稱(chēng)為P-R圖。常見(jiàn)的形式如下圖所示。 (通常曲線(xiàn)是逐漸下降的趨勢,即隨著(zhù)Recall的增加,Precision逐漸降低)
  
  
  其他形式的 P-R
  某些特定的搜索應用程序會(huì )更加關(guān)注搜索結果中的錯誤結果。例如,搜索引擎的反垃圾郵件系統會(huì )更加關(guān)注搜索結果中混入了多少作弊結果。學(xué)術(shù)界將這些錯誤結果稱(chēng)為假陽(yáng)性結果。對于這些應用,他們通常選擇使用誤報率(Fallout)來(lái)統計:
  
  
  Fallout 和 Presion 本質(zhì)上是一樣的。它只是從利弊計算出來(lái)的。它實(shí)際上是 P-R 的變體。
  回到上圖,Presion-Recall是一條曲線(xiàn)。比較兩種方法的效果通常不夠直觀(guān)。你能不能把兩者結合起來(lái),直接反映到一個(gè)單一的值上?為此,IR學(xué)術(shù)界提出了F-Measure方法。 F-Measure由Presion和Recall的調和平均計算得出,公式為:
  
  
  參數λε(0,1)調整系統在Precision和Recall之間的平衡。(通常λ=0.5,此時(shí)
  
  
  )
  這里使用調和平均代替通常的幾何平均或算術(shù)平均。原因是調和平均強調小數的重要性,能靈敏地反映小數的變化,更適合反映搜索效果。
  使用F Measure的好處是只需要一個(gè)數字就可以概括系統的搜索效果,方便比較不同搜索系統的整體效果。
  P@N 方法點(diǎn)擊因素
  傳統的Precision-Recall并不完全適用于搜索引擎的評價(jià),因為搜索引擎用戶(hù)的點(diǎn)擊方式是獨一無(wú)二的,包括:
  A 60-65%的查詢(xún)點(diǎn)擊了名列搜索結果前10條的網(wǎng)頁(yè);
B 20-25%的人會(huì )考慮點(diǎn)擊名列11到20的網(wǎng)頁(yè);
C 僅有3-4%的會(huì )點(diǎn)擊名列搜索結果中列第21到第30名的網(wǎng)頁(yè)
  換句話(huà)說(shuō),大多數用戶(hù)不愿意翻頁(yè)看到搜索引擎給出的后續結果。
  即使在搜索結果的第一頁(yè)(通常會(huì )列出前 10 個(gè)結果),用戶(hù)的點(diǎn)擊行為也很有趣。我們使用下面的谷歌熱圖來(lái)觀(guān)察(這張熱圖在第二個(gè)維度搜索結果頁(yè)面上,可以通過(guò)光譜直觀(guān)地表達用戶(hù)在不同位置的點(diǎn)擊興趣。顏色越接近紅色表示點(diǎn)擊率越高強度):
  
  
  從圖中可以看出,前3個(gè)搜索結果吸引了大量點(diǎn)擊,屬于最受歡迎的部分。也就是說(shuō),對于搜索引擎來(lái)說(shuō),前幾個(gè)結果是最關(guān)鍵的,決定了用戶(hù)的滿(mǎn)意度。
  
  
  康奈爾大學(xué)的研究人員通過(guò)眼動(dòng)追蹤實(shí)驗對 Google 搜索結果中的用戶(hù)行為進(jìn)行了更準確的分析。從這張圖可以看出,第一個(gè)結果已經(jīng)獲得了56.38%的搜索流量,第二、第三個(gè)結果的排名依次下降,但遠低于第一的結果。前三個(gè)結果的點(diǎn)擊率約為 11:3:2。前三個(gè)結果的總點(diǎn)擊量轉移了近 80% 的搜索流量。
  其他一些有趣的結論是點(diǎn)擊次數不會(huì )按順序減少。第七名獲得的點(diǎn)擊次數最少。原因可能是用戶(hù)在瀏覽過(guò)程中將頁(yè)面下拉到底部。這時(shí)候只顯示了網(wǎng)站的最后三名排名,第七名很容易被忽略。而第一屏最后一個(gè)結果獲得的注意力(2.55)大于倒數第二個(gè)(1.45)),因為用戶(hù)在轉屏之前對最后一個(gè)結果的印象比較深page 搜索結果頁(yè)第二頁(yè)第一頁(yè)(也就是第11個(gè)結果)只獲得了第10個(gè)首頁(yè)網(wǎng)站的40%的點(diǎn)擊量,比首頁(yè)第一個(gè)結果還要多其 1/60 到 1/100 的點(diǎn)擊量。
  因此,在定量評估搜索引擎的效果時(shí),往往需要根據上述搜索用戶(hù)的行為特征進(jìn)行針對性的設計。
  P@N 計算方法
  P@N本身是Precision@N的縮寫(xiě),指的是在考慮位置因素的情況下,針對特定查詢(xún)檢測前N個(gè)結果的準確率。比如單次搜索的前5個(gè)結果,如果其中4個(gè)是相關(guān)文檔,則P@5 = 4/5 = 0.8。
  該測試通常使用一個(gè)查詢(xún)集(根據上述方法構建),其中收錄幾個(gè)不同的查詢(xún)詞。在使用P@N的實(shí)際評估中,通常使用所有查詢(xún)的P@N數據計算算術(shù)平均值,用于判斷系統整體搜索結果的質(zhì)量。
  N 的選擇
  對于用戶(hù)來(lái)說(shuō),他們通常只關(guān)注搜索結果的前幾個(gè)結果。因此,搜索引擎的性能評估通常只關(guān)注前5、或前3個(gè)結果,所以我們常用的N取值為P@3或P@5等。
  對于一些特定類(lèi)型的查詢(xún)應用,比如導航搜索,因為目標結果很明確,所以N=1(即在評估中使用P@1)。例如,如果你搜索“新浪網(wǎng)”或“新浪首頁(yè)”,如果第一個(gè)結果不是新浪網(wǎng)(url:),則直接判斷查詢(xún)的準確度不符合要求,即P@1 =0
  MRR
  上面提到的P@N方法很容易計算和理解。但是細心的讀者肯定會(huì )發(fā)現問(wèn)題,就是在前N個(gè)結果中,第一個(gè)和第N個(gè)位置的結果對準確率的影響是一樣的。但實(shí)際情況是,搜索引擎的評價(jià)與排名位置有著(zhù)極大的關(guān)系。也就是說(shuō),第一個(gè)結果錯誤與第 10 個(gè)結果錯誤非常不同。因此,評價(jià)體系中需要引入區位因素。
  MRR 是 Mean Reciprocal Rank 的縮寫(xiě)。 MRR 方法主要用于導航搜索或問(wèn)答。這些檢索方法只需要一個(gè)相關(guān)文檔,這對召回率非常重要。不敏感,但更關(guān)心搜索引擎檢索到的相關(guān)文檔是否排在結果列表的前面。 MRR 方法首先計算每個(gè)查詢(xún)的第一個(gè)相關(guān)文檔位置的倒數,然后對所有倒數取平均值。比如一個(gè)收錄三個(gè)查詢(xún)詞的測試集,前5個(gè)結果是:
  查詢(xún)一結果:1.AN 2.AR 3.AN 4.AN 5.AR
查詢(xún)二結果:1.AN 2.AR 3.AR 4.AR 5.AN
查詢(xún)三結果:1.AR 2.AN 3.AN 4.AN 5.AR
  其中,AN代表無(wú)關(guān)結果,AR代表相關(guān)結果。那么第一次查詢(xún)的Reciprocal Rank(Reciprocal Rank)RR1= 1/2=0.5;第二個(gè)結果 RR2 = 1/2 = 0.5;注意,倒數的值不會(huì )改變,即使得到了第二個(gè)結果更相關(guān)的結果。同理,RR3 = 1/1 = 1,對于這個(gè)測試集,最終的MRR=(RR1+RR2+RR3)/ 3 = 0.67
  然而,對于大多數搜索應用來(lái)說(shuō),只有一個(gè)結果不能滿(mǎn)足需求。在這種情況下,需要更合適的方法來(lái)計算效果。最常用的方法是下面的MAP方法。
  地圖
  MAP方法是Mean Average Precison,是平均準確度法的縮寫(xiě)。它的定義是求檢索到的每個(gè)相關(guān)文檔的平均準確率(即Average Precision)的算術(shù)平均值(Mean)。在這里,準確度取了兩次平均值,因此稱(chēng)為平均平均精度。 (注意:它不叫Average Average Precision,因為它丑陋,而且因為無(wú)法區分兩個(gè)平均值的含義)
  MAP 是一個(gè)單值指標,反映系統在所有相關(guān)文檔上的表現。系統檢索到的相關(guān)文檔越高(等級越高),MAP就應該越高。如果系統沒(méi)有返回相關(guān)文檔,則準確率默認為0。
  例如:假設有兩個(gè)主題:
  主題 1 有 4 個(gè)相關(guān)網(wǎng)頁(yè),主題 2 有 5 個(gè)相關(guān)網(wǎng)頁(yè)。
  系統檢索到主題1的4個(gè)相關(guān)網(wǎng)頁(yè),排名分別為1、2、4、7;
  主題 2 檢索到 3 個(gè)相關(guān)網(wǎng)頁(yè),排名分別為 1、3、5。
  對于topic 1,平均準確率MAP計算公式為:
  (1/1+2/2+3/4+4/7)/4=0.83。
  對于主題2,平均準確率MAP計算公式為:
  (1/1+2/3+3/5+0+0)/5=0.45。
  然后 MAP= (0.83+0.45)/2=0.64。"
  DCG 方法
  DCG是英文Discountedcumulative gain的縮寫(xiě),中文可譯為“折扣累積收益”。 DCG方法的基本思想是:
  1.對每個(gè)結果的相關(guān)性進(jìn)行分級衡量
  2.考慮結果的位置,位置越高,重要性越高
  3.排名越高(即好成績(jì)),成績(jì)排名越高,數值應該越高,否則會(huì )被處罰。
  我們先來(lái)看第一個(gè):相關(guān)性分級。在計算 Precision 時(shí),這比簡(jiǎn)單地計算“準確”或“不準確”更精細。我們可以將結果細分為多個(gè)級別。比如常用的3個(gè)等級:Good、Fair、Bad。對應的分數rel為:Good:3/Fair:2/Bad:1。一些更詳細的評估使用5級分類(lèi):非常好、好、一般、差、非常差,對應的分數rel可以設置為:非常好:2 / 好:1 / 一般:0 / 差:-1 /非常糟糕:-2
  判斷結果的標準可以根據具體的應用來(lái)確定。非常好通常意味著(zhù)結果的主題完全相關(guān),網(wǎng)頁(yè)內容豐富,質(zhì)量高。并且具體到每一位
  
  
  DCG的計算公式不是唯一的。理論上,它只需要對數貼現因子的平滑度。我個(gè)人認為下面的DCG公式更合理,強調相關(guān)性,1、2的結果的折扣因子也更合理:
  
  
  此時(shí)DCG前4個(gè)位置結果的折扣因子值為:
  
  
  基于2的log值也來(lái)自經(jīng)驗公式,沒(méi)有理論依據。實(shí)際上,可以根據平滑要求修改Log的基數。當值增大時(shí)(例如用log5代替log2),折現因子下降得更快,強調了前面結果的權重。
  為了方便不同類(lèi)型查詢(xún)結果的橫向比較,基于DCG,一些評價(jià)系統也對DCG進(jìn)行了歸一化。這些方法統稱(chēng)為nDCG(即歸一化DCG)。最常用的計算方法是除以每個(gè)查詢(xún)的理想值iDCG(ideal DCG)進(jìn)行歸一化,公式為:
  
  
  對于nDCG,需要校準理想的iDCG。在實(shí)際操作中,難度極大,因為每個(gè)人對“最佳結果”的理解往往各不相同,從海量數據中選出最佳結果非常困難。但是,通常比較容易比較兩組結果,因此在實(shí)踐中通常選擇比較結果的方法進(jìn)行評估。
  如何實(shí)現自動(dòng)化評估?
  上面介紹的搜索引擎量化評價(jià)指標在克蘭菲爾德評價(jià)框架中得到了廣泛的應用。業(yè)界知名的TREC(Text Information Retrieval Conference)一直在基于這樣的方法組織信息檢索評估和技術(shù)交流。除了TREC,一些針對不同應用設計的Cranfield評測論壇也在進(jìn)行中(如NTCIR、IREX等)。
  但是 Cranfield 評估框架的問(wèn)題在于查詢(xún)樣本集合的標記。通過(guò)人工標注答案來(lái)評價(jià)網(wǎng)絡(luò )信息檢索是一個(gè)費時(shí)費力的過(guò)程,只有少數大公司可以使用。并且由于搜索引擎算法改進(jìn)和運維的需要,需要盡可能縮短檢索效果評價(jià)和反饋的時(shí)間,因此自動(dòng)化評價(jià)方法對于提高評價(jià)效率非常重要。最常用的自動(dòng)評估方法是 A/B 測試系統。
  A/B 測試
  
  
  A/B 測試系統
  A/B 測試系統在搜索用戶(hù)時(shí)自動(dòng)判斷用戶(hù)的bucket id,并自動(dòng)抽取流量導入不同的分支,讓對應組內的用戶(hù)看到不同的產(chǎn)品版本(或不同版本)。搜索引擎)。將記錄用戶(hù)在不同版本產(chǎn)品中的行為。這些行為數據通過(guò)數據分析形成一系列的指標,通過(guò)這些指標的比較,得出哪個(gè)版本好壞的結論。
  在指標的計算上,可以進(jìn)一步分為兩種方法,一種是基于專(zhuān)家評級;另一種是基于點(diǎn)擊統計。
  專(zhuān)家評分的方法通常由搜索核心技術(shù)研發(fā)和產(chǎn)品人員進(jìn)行。兩種環(huán)境A和B的結果按照預先設定的標準進(jìn)行評分,比較每個(gè)查詢(xún)的結果,并根據nDCG等方法計算整體質(zhì)量。
  點(diǎn)擊評分的自動(dòng)化程度更高。這里有一個(gè)假設:同樣的排序位置,點(diǎn)擊次數多的結果質(zhì)量要好于點(diǎn)擊次數少的結果。 (即A2代表A測試環(huán)境的第二個(gè)結果,如果A2>B2,說(shuō)明A2質(zhì)量較好)。通俗的說(shuō)就是相信群眾(因為群眾的眼睛是有眼光的)。在這個(gè)假設下,我們可以自動(dòng)將 A/B 環(huán)境中前 N 個(gè)結果的點(diǎn)擊率映射到分數上。通過(guò)統計大量的Query點(diǎn)擊結果,可以獲得可靠的分數對比。
  交錯測試
  此外,Thorsten Joachims 等人提出的 Interleaving 測試方法。在2003年也被廣泛使用。這種方法設計了一個(gè)元搜索引擎。用戶(hù)輸入查詢(xún)后,將查詢(xún)在多個(gè)知名搜索引擎中的查詢(xún)結果隨機混合反饋給用戶(hù),進(jìn)而采集用戶(hù)的結果點(diǎn)擊行為信息。根據用戶(hù)不同的點(diǎn)擊傾向,我們可以判斷搜索引擎返回結果的優(yōu)劣。
  如下圖,算法A和B的結果橫放,按流量劃分測試,記錄用戶(hù)點(diǎn)擊信息。根據點(diǎn)擊分布判斷A、B環(huán)境的優(yōu)劣。
  
  
  交錯測試評價(jià)方法
  Joachims 還證明了 Interleaving Testing 評估方法和傳統 Cranfield 評估方法的結果高度相關(guān)。由于記錄用戶(hù)對搜索結果的選擇是一個(gè)省力的過(guò)程,便于實(shí)現自動(dòng)搜索效果評估。
  總結
  沒(méi)有評價(jià)就沒(méi)有進(jìn)步。對搜索結果進(jìn)行定量評價(jià)的目的是準確找出現有搜索系統的不足(沒(méi)有搜索系統是完美的),然后逐步改進(jìn)算法和系統。本文為大家總結了常用的評價(jià)框架和評價(jià)指標。這些技術(shù)就像一把尺子,每次搜索技術(shù)進(jìn)步時(shí)都會(huì )測量距離。 查看全部

  搜索引擎結果的好壞與否,Cranfield評價(jià)體系ACranfield-likeapproach
  大觀(guān)數據CEO陳韻文文
  前言
  搜索質(zhì)量評價(jià)是搜索技術(shù)研究的基礎工作,也是核心任務(wù)之一。度量在搜索技術(shù)的研究和發(fā)展中發(fā)揮著(zhù)重要作用,因此任何新方法都與其評價(jià)方法相結合。
  搜索引擎結果的質(zhì)量反映在業(yè)界所謂的相關(guān)性上。相關(guān)性的定義包括狹義和廣義兩個(gè)方面。狹義的解釋是:搜索結果與用戶(hù)查詢(xún)的相關(guān)程度。從廣義上講,相關(guān)性可以理解為用戶(hù)查詢(xún)的綜合滿(mǎn)意度。直觀(guān)上,從用戶(hù)進(jìn)入搜索框的那一刻到滿(mǎn)足需求的過(guò)程越順暢、方便,搜索相關(guān)性就越好。本文總結了行業(yè)常用的相關(guān)性評價(jià)指標和定量評價(jià)方法。供對此感興趣的朋友參考。
  克蘭菲爾德評估系統
  A Cranfield-like approach這個(gè)名字來(lái)源于英國的克蘭菲爾德大學(xué),因為該大學(xué)在1950年代首先提出了這樣一套評價(jià)體系:一套完整的查詢(xún)樣本集、正確答案集和評價(jià)指標。評價(jià)計劃從此確立了“評價(jià)”在信息檢索研究中的核心地位。
  Cranfield 評價(jià)系統由三個(gè)環(huán)節組成:
  1.提取代表性查詢(xún)詞,形成合適大小的集合
  2.查詢(xún)樣本集合,從檢索系統的語(yǔ)料庫中找到對應的結果并標注(一般是手動(dòng))
  3. 將查詢(xún)詞和帶有標注信息的語(yǔ)料輸入檢索系統,使用預定義的評價(jià)計算公式對檢索系統結果和系統返回的檢索結果標注的理想情況進(jìn)行評價(jià)結果有多接近。
  查詢(xún)詞集的選擇
  Cranfield 評估系統廣泛應用于各大搜索引擎公司。在具體應用中,首先需要解決的問(wèn)題是構建一組測試查詢(xún)詞。
  根據Andrei Broder(原在A(yíng)ltaVista/IBM/Yahoo)的研究,查詢(xún)詞可以分為三類(lèi):尋址查詢(xún)(Navigational)、信息查詢(xún)(Informational)和交易查詢(xún)(Transactional)。對應的比例為:
  Navigational : 12.3%
Informational : 62.0%
Transactional : 25.7%
  為了使評價(jià)符合網(wǎng)上的實(shí)際情況,通常查詢(xún)詞集也是按比例選取的。通常從在線(xiàn)用戶(hù)的查詢(xún)日志文件中自動(dòng)提取。
  另外,在查詢(xún)集的構建中,除了上述查詢(xún)類(lèi)型外,還可以考慮查詢(xún)的頻率,熱點(diǎn)查詢(xún)(高頻查詢(xún))和長(cháng)尾查詢(xún)(中和低頻)分別占特定的比例。
  另外,在抽取Query的時(shí)候,Query的長(cháng)度也是經(jīng)常要考慮的一個(gè)因素。因為短查詢(xún)(單詞查詢(xún))和長(cháng)查詢(xún)(多詞查詢(xún))排序算法往往不同。
  形成查詢(xún)集后,使用這些查詢(xún)詞在不同系統(例如比較百度和谷歌)或不同技術(shù)(新舊排名算法的環(huán)境)之間進(jìn)行搜索,并對結果進(jìn)行評分以確定優(yōu)劣和缺點(diǎn)。
  圖片:同一個(gè)Query:“大觀(guān)數據”,各大搜索引擎結果示意圖。下面詳細說(shuō)一下評分的方法。
  
  
  
  
  
  
  
  
  
  
  Precision-recall(accuracy-recall法)計算方法
  信息檢索領(lǐng)域最廣為人知的評價(jià)指標是Precision-Recall(準確率-召回率)方法。這種方法提出了半個(gè)世紀,已經(jīng)被很多搜索引擎公司的效果評估所采用。
  顧名思義,這種方法由兩個(gè)相互關(guān)聯(lián)的統計數據組成:準確率和召回率:召回率衡量一個(gè)查詢(xún)搜索所有相關(guān)文檔的能力,而Precision衡量搜索系統排除相關(guān)文檔的能力。 (簡(jiǎn)單解釋一下:準確率是計算你從查詢(xún)中得到的結果有多少是可靠的;召回率是指你檢索到的所有可靠結果中有多少)。這兩個(gè)是評價(jià)搜索效果最基本的指標,具體計算方法如下。
  Precision-recall 方法假設給定的查詢(xún)對應于檢索到的文檔集合和不相關(guān)文檔的集合。這里假設相關(guān)性是二元的,用數學(xué)形式化方法描述,它是:
  A 表示相關(guān)文檔的集合
  
  表示不相關(guān)的集合
  B 代表檢索到的文檔集合
  
  表示尚未檢索到的文檔集合
  單個(gè)查詢(xún)的準確率和召回率可以用以下公式表示:
  
  
 ?。ㄟ\算符∩表示兩個(gè)集合的交集。|x|符號表示集合x(chóng)中元素的個(gè)數)
  從上面的定義不難看出召回率和準確率的取值范圍在[0,1]之間。那么不難想象,如果系統檢索到的相關(guān)性越多,召回率就越高。如果所有相關(guān)結果都被召回,那么此時(shí)召回就等于1.0。
  
  
  精度-召回曲線(xiàn)
  召回率和準確率反映了檢索系統最重要的兩個(gè)方面,這兩個(gè)方面相互制約。因為在大規模的數據采集中,如果期望檢索到更多的相關(guān)文檔,搜索條件必須“放寬”,這會(huì )導致一些不相關(guān)的結果混入,影響準確率。同樣,當你想提高準確率,盡可能去除不相關(guān)的文檔時(shí),你必須實(shí)施更“嚴格”的檢索策略,這也會(huì )排除一些相關(guān)的文檔,降低召回率。
  所以為了更清楚地描述兩者之間的關(guān)系,我們通常用曲線(xiàn)來(lái)繪制Precision-Recall,可以簡(jiǎn)稱(chēng)為P-R圖。常見(jiàn)的形式如下圖所示。 (通常曲線(xiàn)是逐漸下降的趨勢,即隨著(zhù)Recall的增加,Precision逐漸降低)
  
  
  其他形式的 P-R
  某些特定的搜索應用程序會(huì )更加關(guān)注搜索結果中的錯誤結果。例如,搜索引擎的反垃圾郵件系統會(huì )更加關(guān)注搜索結果中混入了多少作弊結果。學(xué)術(shù)界將這些錯誤結果稱(chēng)為假陽(yáng)性結果。對于這些應用,他們通常選擇使用誤報率(Fallout)來(lái)統計:
  
  
  Fallout 和 Presion 本質(zhì)上是一樣的。它只是從利弊計算出來(lái)的。它實(shí)際上是 P-R 的變體。
  回到上圖,Presion-Recall是一條曲線(xiàn)。比較兩種方法的效果通常不夠直觀(guān)。你能不能把兩者結合起來(lái),直接反映到一個(gè)單一的值上?為此,IR學(xué)術(shù)界提出了F-Measure方法。 F-Measure由Presion和Recall的調和平均計算得出,公式為:
  
  
  參數λε(0,1)調整系統在Precision和Recall之間的平衡。(通常λ=0.5,此時(shí)
  
  
  )
  這里使用調和平均代替通常的幾何平均或算術(shù)平均。原因是調和平均強調小數的重要性,能靈敏地反映小數的變化,更適合反映搜索效果。
  使用F Measure的好處是只需要一個(gè)數字就可以概括系統的搜索效果,方便比較不同搜索系統的整體效果。
  P@N 方法點(diǎn)擊因素
  傳統的Precision-Recall并不完全適用于搜索引擎的評價(jià),因為搜索引擎用戶(hù)的點(diǎn)擊方式是獨一無(wú)二的,包括:
  A 60-65%的查詢(xún)點(diǎn)擊了名列搜索結果前10條的網(wǎng)頁(yè);
B 20-25%的人會(huì )考慮點(diǎn)擊名列11到20的網(wǎng)頁(yè);
C 僅有3-4%的會(huì )點(diǎn)擊名列搜索結果中列第21到第30名的網(wǎng)頁(yè)
  換句話(huà)說(shuō),大多數用戶(hù)不愿意翻頁(yè)看到搜索引擎給出的后續結果。
  即使在搜索結果的第一頁(yè)(通常會(huì )列出前 10 個(gè)結果),用戶(hù)的點(diǎn)擊行為也很有趣。我們使用下面的谷歌熱圖來(lái)觀(guān)察(這張熱圖在第二個(gè)維度搜索結果頁(yè)面上,可以通過(guò)光譜直觀(guān)地表達用戶(hù)在不同位置的點(diǎn)擊興趣。顏色越接近紅色表示點(diǎn)擊率越高強度):
  
  
  從圖中可以看出,前3個(gè)搜索結果吸引了大量點(diǎn)擊,屬于最受歡迎的部分。也就是說(shuō),對于搜索引擎來(lái)說(shuō),前幾個(gè)結果是最關(guān)鍵的,決定了用戶(hù)的滿(mǎn)意度。
  
  
  康奈爾大學(xué)的研究人員通過(guò)眼動(dòng)追蹤實(shí)驗對 Google 搜索結果中的用戶(hù)行為進(jìn)行了更準確的分析。從這張圖可以看出,第一個(gè)結果已經(jīng)獲得了56.38%的搜索流量,第二、第三個(gè)結果的排名依次下降,但遠低于第一的結果。前三個(gè)結果的點(diǎn)擊率約為 11:3:2。前三個(gè)結果的總點(diǎn)擊量轉移了近 80% 的搜索流量。
  其他一些有趣的結論是點(diǎn)擊次數不會(huì )按順序減少。第七名獲得的點(diǎn)擊次數最少。原因可能是用戶(hù)在瀏覽過(guò)程中將頁(yè)面下拉到底部。這時(shí)候只顯示了網(wǎng)站的最后三名排名,第七名很容易被忽略。而第一屏最后一個(gè)結果獲得的注意力(2.55)大于倒數第二個(gè)(1.45)),因為用戶(hù)在轉屏之前對最后一個(gè)結果的印象比較深page 搜索結果頁(yè)第二頁(yè)第一頁(yè)(也就是第11個(gè)結果)只獲得了第10個(gè)首頁(yè)網(wǎng)站的40%的點(diǎn)擊量,比首頁(yè)第一個(gè)結果還要多其 1/60 到 1/100 的點(diǎn)擊量。
  因此,在定量評估搜索引擎的效果時(shí),往往需要根據上述搜索用戶(hù)的行為特征進(jìn)行針對性的設計。
  P@N 計算方法
  P@N本身是Precision@N的縮寫(xiě),指的是在考慮位置因素的情況下,針對特定查詢(xún)檢測前N個(gè)結果的準確率。比如單次搜索的前5個(gè)結果,如果其中4個(gè)是相關(guān)文檔,則P@5 = 4/5 = 0.8。
  該測試通常使用一個(gè)查詢(xún)集(根據上述方法構建),其中收錄幾個(gè)不同的查詢(xún)詞。在使用P@N的實(shí)際評估中,通常使用所有查詢(xún)的P@N數據計算算術(shù)平均值,用于判斷系統整體搜索結果的質(zhì)量。
  N 的選擇
  對于用戶(hù)來(lái)說(shuō),他們通常只關(guān)注搜索結果的前幾個(gè)結果。因此,搜索引擎的性能評估通常只關(guān)注前5、或前3個(gè)結果,所以我們常用的N取值為P@3或P@5等。
  對于一些特定類(lèi)型的查詢(xún)應用,比如導航搜索,因為目標結果很明確,所以N=1(即在評估中使用P@1)。例如,如果你搜索“新浪網(wǎng)”或“新浪首頁(yè)”,如果第一個(gè)結果不是新浪網(wǎng)(url:),則直接判斷查詢(xún)的準確度不符合要求,即P@1 =0
  MRR
  上面提到的P@N方法很容易計算和理解。但是細心的讀者肯定會(huì )發(fā)現問(wèn)題,就是在前N個(gè)結果中,第一個(gè)和第N個(gè)位置的結果對準確率的影響是一樣的。但實(shí)際情況是,搜索引擎的評價(jià)與排名位置有著(zhù)極大的關(guān)系。也就是說(shuō),第一個(gè)結果錯誤與第 10 個(gè)結果錯誤非常不同。因此,評價(jià)體系中需要引入區位因素。
  MRR 是 Mean Reciprocal Rank 的縮寫(xiě)。 MRR 方法主要用于導航搜索或問(wèn)答。這些檢索方法只需要一個(gè)相關(guān)文檔,這對召回率非常重要。不敏感,但更關(guān)心搜索引擎檢索到的相關(guān)文檔是否排在結果列表的前面。 MRR 方法首先計算每個(gè)查詢(xún)的第一個(gè)相關(guān)文檔位置的倒數,然后對所有倒數取平均值。比如一個(gè)收錄三個(gè)查詢(xún)詞的測試集,前5個(gè)結果是:
  查詢(xún)一結果:1.AN 2.AR 3.AN 4.AN 5.AR
查詢(xún)二結果:1.AN 2.AR 3.AR 4.AR 5.AN
查詢(xún)三結果:1.AR 2.AN 3.AN 4.AN 5.AR
  其中,AN代表無(wú)關(guān)結果,AR代表相關(guān)結果。那么第一次查詢(xún)的Reciprocal Rank(Reciprocal Rank)RR1= 1/2=0.5;第二個(gè)結果 RR2 = 1/2 = 0.5;注意,倒數的值不會(huì )改變,即使得到了第二個(gè)結果更相關(guān)的結果。同理,RR3 = 1/1 = 1,對于這個(gè)測試集,最終的MRR=(RR1+RR2+RR3)/ 3 = 0.67
  然而,對于大多數搜索應用來(lái)說(shuō),只有一個(gè)結果不能滿(mǎn)足需求。在這種情況下,需要更合適的方法來(lái)計算效果。最常用的方法是下面的MAP方法。
  地圖
  MAP方法是Mean Average Precison,是平均準確度法的縮寫(xiě)。它的定義是求檢索到的每個(gè)相關(guān)文檔的平均準確率(即Average Precision)的算術(shù)平均值(Mean)。在這里,準確度取了兩次平均值,因此稱(chēng)為平均平均精度。 (注意:它不叫Average Average Precision,因為它丑陋,而且因為無(wú)法區分兩個(gè)平均值的含義)
  MAP 是一個(gè)單值指標,反映系統在所有相關(guān)文檔上的表現。系統檢索到的相關(guān)文檔越高(等級越高),MAP就應該越高。如果系統沒(méi)有返回相關(guān)文檔,則準確率默認為0。
  例如:假設有兩個(gè)主題:
  主題 1 有 4 個(gè)相關(guān)網(wǎng)頁(yè),主題 2 有 5 個(gè)相關(guān)網(wǎng)頁(yè)。
  系統檢索到主題1的4個(gè)相關(guān)網(wǎng)頁(yè),排名分別為1、2、4、7;
  主題 2 檢索到 3 個(gè)相關(guān)網(wǎng)頁(yè),排名分別為 1、3、5。
  對于topic 1,平均準確率MAP計算公式為:
  (1/1+2/2+3/4+4/7)/4=0.83。
  對于主題2,平均準確率MAP計算公式為:
  (1/1+2/3+3/5+0+0)/5=0.45。
  然后 MAP= (0.83+0.45)/2=0.64。"
  DCG 方法
  DCG是英文Discountedcumulative gain的縮寫(xiě),中文可譯為“折扣累積收益”。 DCG方法的基本思想是:
  1.對每個(gè)結果的相關(guān)性進(jìn)行分級衡量
  2.考慮結果的位置,位置越高,重要性越高
  3.排名越高(即好成績(jì)),成績(jì)排名越高,數值應該越高,否則會(huì )被處罰。
  我們先來(lái)看第一個(gè):相關(guān)性分級。在計算 Precision 時(shí),這比簡(jiǎn)單地計算“準確”或“不準確”更精細。我們可以將結果細分為多個(gè)級別。比如常用的3個(gè)等級:Good、Fair、Bad。對應的分數rel為:Good:3/Fair:2/Bad:1。一些更詳細的評估使用5級分類(lèi):非常好、好、一般、差、非常差,對應的分數rel可以設置為:非常好:2 / 好:1 / 一般:0 / 差:-1 /非常糟糕:-2
  判斷結果的標準可以根據具體的應用來(lái)確定。非常好通常意味著(zhù)結果的主題完全相關(guān),網(wǎng)頁(yè)內容豐富,質(zhì)量高。并且具體到每一位
  
  
  DCG的計算公式不是唯一的。理論上,它只需要對數貼現因子的平滑度。我個(gè)人認為下面的DCG公式更合理,強調相關(guān)性,1、2的結果的折扣因子也更合理:
  
  
  此時(shí)DCG前4個(gè)位置結果的折扣因子值為:
  
  
  基于2的log值也來(lái)自經(jīng)驗公式,沒(méi)有理論依據。實(shí)際上,可以根據平滑要求修改Log的基數。當值增大時(shí)(例如用log5代替log2),折現因子下降得更快,強調了前面結果的權重。
  為了方便不同類(lèi)型查詢(xún)結果的橫向比較,基于DCG,一些評價(jià)系統也對DCG進(jìn)行了歸一化。這些方法統稱(chēng)為nDCG(即歸一化DCG)。最常用的計算方法是除以每個(gè)查詢(xún)的理想值iDCG(ideal DCG)進(jìn)行歸一化,公式為:
  
  
  對于nDCG,需要校準理想的iDCG。在實(shí)際操作中,難度極大,因為每個(gè)人對“最佳結果”的理解往往各不相同,從海量數據中選出最佳結果非常困難。但是,通常比較容易比較兩組結果,因此在實(shí)踐中通常選擇比較結果的方法進(jìn)行評估。
  如何實(shí)現自動(dòng)化評估?
  上面介紹的搜索引擎量化評價(jià)指標在克蘭菲爾德評價(jià)框架中得到了廣泛的應用。業(yè)界知名的TREC(Text Information Retrieval Conference)一直在基于這樣的方法組織信息檢索評估和技術(shù)交流。除了TREC,一些針對不同應用設計的Cranfield評測論壇也在進(jìn)行中(如NTCIR、IREX等)。
  但是 Cranfield 評估框架的問(wèn)題在于查詢(xún)樣本集合的標記。通過(guò)人工標注答案來(lái)評價(jià)網(wǎng)絡(luò )信息檢索是一個(gè)費時(shí)費力的過(guò)程,只有少數大公司可以使用。并且由于搜索引擎算法改進(jìn)和運維的需要,需要盡可能縮短檢索效果評價(jià)和反饋的時(shí)間,因此自動(dòng)化評價(jià)方法對于提高評價(jià)效率非常重要。最常用的自動(dòng)評估方法是 A/B 測試系統。
  A/B 測試
  
  
  A/B 測試系統
  A/B 測試系統在搜索用戶(hù)時(shí)自動(dòng)判斷用戶(hù)的bucket id,并自動(dòng)抽取流量導入不同的分支,讓對應組內的用戶(hù)看到不同的產(chǎn)品版本(或不同版本)。搜索引擎)。將記錄用戶(hù)在不同版本產(chǎn)品中的行為。這些行為數據通過(guò)數據分析形成一系列的指標,通過(guò)這些指標的比較,得出哪個(gè)版本好壞的結論。
  在指標的計算上,可以進(jìn)一步分為兩種方法,一種是基于專(zhuān)家評級;另一種是基于點(diǎn)擊統計。
  專(zhuān)家評分的方法通常由搜索核心技術(shù)研發(fā)和產(chǎn)品人員進(jìn)行。兩種環(huán)境A和B的結果按照預先設定的標準進(jìn)行評分,比較每個(gè)查詢(xún)的結果,并根據nDCG等方法計算整體質(zhì)量。
  點(diǎn)擊評分的自動(dòng)化程度更高。這里有一個(gè)假設:同樣的排序位置,點(diǎn)擊次數多的結果質(zhì)量要好于點(diǎn)擊次數少的結果。 (即A2代表A測試環(huán)境的第二個(gè)結果,如果A2>B2,說(shuō)明A2質(zhì)量較好)。通俗的說(shuō)就是相信群眾(因為群眾的眼睛是有眼光的)。在這個(gè)假設下,我們可以自動(dòng)將 A/B 環(huán)境中前 N 個(gè)結果的點(diǎn)擊率映射到分數上。通過(guò)統計大量的Query點(diǎn)擊結果,可以獲得可靠的分數對比。
  交錯測試
  此外,Thorsten Joachims 等人提出的 Interleaving 測試方法。在2003年也被廣泛使用。這種方法設計了一個(gè)元搜索引擎。用戶(hù)輸入查詢(xún)后,將查詢(xún)在多個(gè)知名搜索引擎中的查詢(xún)結果隨機混合反饋給用戶(hù),進(jìn)而采集用戶(hù)的結果點(diǎn)擊行為信息。根據用戶(hù)不同的點(diǎn)擊傾向,我們可以判斷搜索引擎返回結果的優(yōu)劣。
  如下圖,算法A和B的結果橫放,按流量劃分測試,記錄用戶(hù)點(diǎn)擊信息。根據點(diǎn)擊分布判斷A、B環(huán)境的優(yōu)劣。
  
  
  交錯測試評價(jià)方法
  Joachims 還證明了 Interleaving Testing 評估方法和傳統 Cranfield 評估方法的結果高度相關(guān)。由于記錄用戶(hù)對搜索結果的選擇是一個(gè)省力的過(guò)程,便于實(shí)現自動(dòng)搜索效果評估。
  總結
  沒(méi)有評價(jià)就沒(méi)有進(jìn)步。對搜索結果進(jìn)行定量評價(jià)的目的是準確找出現有搜索系統的不足(沒(méi)有搜索系統是完美的),然后逐步改進(jìn)算法和系統。本文為大家總結了常用的評價(jià)框架和評價(jià)指標。這些技術(shù)就像一把尺子,每次搜索技術(shù)進(jìn)步時(shí)都會(huì )測量距離。

如何根據廣告的業(yè)務(wù)要求設計更高效的索引和檢索

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 85 次瀏覽 ? 2021-07-20 02:05 ? 來(lái)自相關(guān)話(huà)題

  如何根據廣告的業(yè)務(wù)要求設計更高效的索引和檢索
  在競爭性廣告中,大量中小廣告主的搜索規模需要很高的計算效率。如何根據廣告的業(yè)務(wù)需求設計更高效的索引和檢索技術(shù)是競爭廣告系統要解決的關(guān)鍵問(wèn)題。
  要結合廣告檢索的具體需求,重點(diǎn)研究布爾表達式檢索和相關(guān)性檢索兩種場(chǎng)景下的算法
  從定價(jià)過(guò)程的輸入可以看出,對于一個(gè)以CPC結算的競價(jià)廣告系統,首先需要得到候選廣告集合,計算每個(gè)候選的點(diǎn)擊率,對應投標廣告中最關(guān)鍵的兩個(gè)計算問(wèn)題。 , 廣告檢索和廣告排序
  在競價(jià)廣告中,根據不同階段發(fā)生的點(diǎn)擊和轉化操作,根據 eCPM 對廣告進(jìn)行排序
  eCPM 可以分解為點(diǎn)擊率和點(diǎn)擊價(jià)值的乘積,
  搜索廣告系統
  搜索廣告與一般廣告網(wǎng)絡(luò )的主要區別在于上下文信息很強,用戶(hù)標簽的作用受到很大限制。搜索廣告的檢索過(guò)程一般不需要考慮用戶(hù)的影響,上下文信息是通過(guò)用戶(hù)輸入實(shí)時(shí)查詢(xún)和獲取的,所以線(xiàn)下受眾定位的過(guò)程基本可以忽略
  查詢(xún)擴展
  需求方需要通過(guò)關(guān)鍵詞擴容獲得更多流量,供應商需要借此實(shí)現更多流量,加大競價(jià)力度
  基于推薦的方法:
  如果將用戶(hù)在一個(gè)會(huì )話(huà)中的查詢(xún)視為一組具有相同目的的活動(dòng),則可以通過(guò)推薦技術(shù)在矩陣(會(huì )話(huà),查詢(xún))矩陣上生成相同的關(guān)鍵詞。此方法使用搜索日志數據,
  給定一組用戶(hù)會(huì )話(huà)和一組關(guān)鍵詞,可以生成相應的強交互矩陣。如果用戶(hù)搜索過(guò)某個(gè)關(guān)鍵詞,矩陣的對應元素會(huì )設置一個(gè)對應的交互值,比如用戶(hù)在一段時(shí)間內搜索該詞的次數
  顯然,這個(gè)矩陣中的大部分單元格都是空白的,但這并不意味著(zhù)用戶(hù)搜索該詞的可能性為零
  推薦的基本任務(wù)是根據這個(gè)矩陣中的已知元素值,可預測地填充那些歷史上沒(méi)有觀(guān)察到的單元。
  基于主題模型的方法:
  除了使用搜索到的日志數據,一般文檔數據也可以用于查詢(xún)擴展。這種方法本質(zhì)上是利用文檔主題模型將一個(gè)查詢(xún)擴展到其他具有相似主題的查詢(xún)
  基于歷史影響的方法:
  利用廣告歷史eCPM數據挖掘效果更好的相關(guān)查詢(xún),因為廣告主在選擇關(guān)鍵詞出價(jià)時(shí),一般會(huì )選擇多個(gè)組。如果從歷史數據中發(fā)現,一些關(guān)鍵詞對于某些特定的廣告客戶(hù),eCPM較高,因此應該記錄這些結果良好的查詢(xún)組。之后,當另一個(gè)廣告商也選擇了關(guān)鍵詞之一時(shí),它可以根據這些歷史記錄自動(dòng)進(jìn)行。記錄其他查詢(xún)結果更好
  廣告展示位置
  廣告投放是指搜索引擎廣告中確定北區和東區的廣告數量問(wèn)題
  考慮到用戶(hù)體驗,有必要限制北區的廣告數量。因此,這是一個(gè)典型的有約束的優(yōu)化問(wèn)題。約束是一段時(shí)間內北區整體的廣告數量,優(yōu)化目標是搜索廣告系統的整體收入。在廣告投放前的排序過(guò)程中,比較的是單個(gè)廣告,但這里的優(yōu)化需要處理一組廣告,需要考慮位置因素
  廣告網(wǎng)絡(luò )
  廣告網(wǎng)絡(luò )的成本就是對媒體資源的分減。
  廣告投放的決策過(guò)程:
  服務(wù)器接受前端用戶(hù)訪(fǎng)問(wèn)觸發(fā)的廣告請求,首先根據上下文信息和用戶(hù)標識從頁(yè)面標簽和用戶(hù)標簽中找出對應的上下文標簽和用戶(hù)標簽,然后使用這些標簽和其他一些廣告請求條件從廣告中找出符合要求的廣告候選集,最后使用CTR預測模型計算所有候選廣告的eCPM
  根據eCPM排名選擇中標的廣告返回上一階段完成投放
  短期行為反饋與流計算
  雖然用戶(hù)行為導向不適合搜索引擎,但如果可以快速處理會(huì )話(huà)中的一系列用戶(hù)查詢(xún),仍然有助于準確理解用戶(hù)意圖。除了這種短期的用戶(hù)行為反饋,廣告業(yè)務(wù)中還有一些場(chǎng)景需要快速處理在線(xiàn)日志
  實(shí)現反作弊、實(shí)時(shí)計費、短期用戶(hù)標簽和短期動(dòng)態(tài)功能
  MapReduce 使用分布式文件系統盡可能調度計算
  流計算就是在服務(wù)器之間調度數據來(lái)完成計算
  廣告搜索
  檢索布爾表達式
  廣告檢索與普通搜索引擎檢索的第一個(gè)區別是布爾表達式的檢索問(wèn)題。在以受眾為導向的銷(xiāo)售方式下,一個(gè)廣告文件不再可以看作是一個(gè)BoW,而應該看作是一個(gè)目標條件的組合。合成布爾表達式,
  布爾表達式檢索問(wèn)題有兩個(gè)特點(diǎn)。這兩個(gè)特性是設計算法的重要基礎。首先,當廣告請求的目標標簽滿(mǎn)足某個(gè) Conjunction 時(shí),它必須滿(mǎn)足該 Conjunction 的所有廣告。
  相關(guān)性搜索
  在長(cháng)查詢(xún)檢索的情況下,我們實(shí)際上希望查詢(xún)和廣告候選之間的相似度盡可能高,但是文檔中是否出現任何關(guān)鍵詞都沒(méi)有關(guān)系。這樣,針對文檔之間相似度的查詢(xún)和檢索問(wèn)題就變成了相關(guān)查詢(xún)
  解決相關(guān)性檢索的基本思想是在檢索階段引入一定的評價(jià)函數,根據該函數的評價(jià)結果??確定返回哪些候選。評價(jià)函數的設計要求:合理、高效,
  點(diǎn)擊率預測
  廣告點(diǎn)擊率預測的目的是對廣告進(jìn)行排序,但不能應用搜索中的排序問(wèn)題。點(diǎn)擊率預測不能像搜索一樣只要求結果排序的正確性,因為點(diǎn)擊率需要乘以點(diǎn)擊單價(jià)才能得到最終排名。 ,
  關(guān)于點(diǎn)擊率預測的方法,自然會(huì )想到基于統計的估計
  但是如果在某個(gè)組合中,ad a 沒(méi)有展示或者點(diǎn)擊量很少,那么歷史數據就不能用來(lái)統計點(diǎn)擊率。簡(jiǎn)單的解決方案是顯示廣告 a 和已顯示的廣告。類(lèi)似于a·,那么a的點(diǎn)擊率可以估計接近a·,
  大數據機器學(xué)習問(wèn)題往往需要迭代解決,Hadoop上的MapReduce已經(jīng)成為范式約束。每次迭代都需要由一個(gè) MapReduce Hadoop 作業(yè)完成。 Map讀取訓練數據和模型,并將數據分成塊。在集合上計算統計,Reduce聚合統計平臺并更新模型。由于從磁盤(pán)讀取訓練數據時(shí)map會(huì )產(chǎn)生大量的I/O,因此在Hadoop平臺上一次迭代的成本往往非常昂貴,單輪迭代時(shí)間無(wú)法優(yōu)化。如果要減少模型訓練的時(shí)間,只能減少模型訓練的次數。這就引出了以下業(yè)界常用的模型訓練思路:
  如果能降低每次迭代的成本,模型訓練的總時(shí)間也能大大優(yōu)化,于是出現了Spark這樣的平臺,它是一個(gè)將數據集緩存在分布式內存中的計算平臺。如果數據集的規??梢栽趦却嬷锌刂?,那么還是使用MapReduce范式來(lái)解決問(wèn)題,因為每次迭代不需要通過(guò)磁盤(pán)I/o讀取,大大減少了單次迭代的時(shí)間
  點(diǎn)擊率模型的校準
  點(diǎn)擊率預測問(wèn)題的數據挑戰之一是正負樣本嚴重不平衡,尤其是當展示廣告的點(diǎn)擊率只有千分之幾時(shí)。
  點(diǎn)擊率模型的特點(diǎn)
  點(diǎn)擊率預測問(wèn)題的主要挑戰在于,如果模型能夠捕捉到高度動(dòng)態(tài)的市場(chǎng)信號,就達到了更準確預測的目的。
  靜態(tài)特征:
  靜態(tài)特征是某些標簽的值或上下文和用戶(hù)標簽的特征組合,以及特定廣告與用戶(hù)的匹配程度
  動(dòng)態(tài)特性:
  當某個(gè)組合特征被觸發(fā)時(shí),我們不再用1,而是用這個(gè)組合歷史上一段時(shí)間的點(diǎn)擊率作為它的特征值
  可以理解為歷史點(diǎn)擊率作為一個(gè)動(dòng)態(tài)特征:我們最終要預測的是某個(gè)(a, u, c)上的點(diǎn)擊率,以及特征的組合( a, u, c) 點(diǎn)擊率可以看作是關(guān)于最終目標的弱決策者。通過(guò)融合這些特征組合對應的弱決策者,可以更容易地進(jìn)行預測,
  位置偏差
  如何去除位置等因素的影響? 查看全部

  如何根據廣告的業(yè)務(wù)要求設計更高效的索引和檢索
  在競爭性廣告中,大量中小廣告主的搜索規模需要很高的計算效率。如何根據廣告的業(yè)務(wù)需求設計更高效的索引和檢索技術(shù)是競爭廣告系統要解決的關(guān)鍵問(wèn)題。
  要結合廣告檢索的具體需求,重點(diǎn)研究布爾表達式檢索和相關(guān)性檢索兩種場(chǎng)景下的算法
  從定價(jià)過(guò)程的輸入可以看出,對于一個(gè)以CPC結算的競價(jià)廣告系統,首先需要得到候選廣告集合,計算每個(gè)候選的點(diǎn)擊率,對應投標廣告中最關(guān)鍵的兩個(gè)計算問(wèn)題。 , 廣告檢索和廣告排序
  在競價(jià)廣告中,根據不同階段發(fā)生的點(diǎn)擊和轉化操作,根據 eCPM 對廣告進(jìn)行排序
  eCPM 可以分解為點(diǎn)擊率和點(diǎn)擊價(jià)值的乘積,
  搜索廣告系統
  搜索廣告與一般廣告網(wǎng)絡(luò )的主要區別在于上下文信息很強,用戶(hù)標簽的作用受到很大限制。搜索廣告的檢索過(guò)程一般不需要考慮用戶(hù)的影響,上下文信息是通過(guò)用戶(hù)輸入實(shí)時(shí)查詢(xún)和獲取的,所以線(xiàn)下受眾定位的過(guò)程基本可以忽略
  查詢(xún)擴展
  需求方需要通過(guò)關(guān)鍵詞擴容獲得更多流量,供應商需要借此實(shí)現更多流量,加大競價(jià)力度
  基于推薦的方法:
  如果將用戶(hù)在一個(gè)會(huì )話(huà)中的查詢(xún)視為一組具有相同目的的活動(dòng),則可以通過(guò)推薦技術(shù)在矩陣(會(huì )話(huà),查詢(xún))矩陣上生成相同的關(guān)鍵詞。此方法使用搜索日志數據,
  給定一組用戶(hù)會(huì )話(huà)和一組關(guān)鍵詞,可以生成相應的強交互矩陣。如果用戶(hù)搜索過(guò)某個(gè)關(guān)鍵詞,矩陣的對應元素會(huì )設置一個(gè)對應的交互值,比如用戶(hù)在一段時(shí)間內搜索該詞的次數
  顯然,這個(gè)矩陣中的大部分單元格都是空白的,但這并不意味著(zhù)用戶(hù)搜索該詞的可能性為零
  推薦的基本任務(wù)是根據這個(gè)矩陣中的已知元素值,可預測地填充那些歷史上沒(méi)有觀(guān)察到的單元。
  基于主題模型的方法:
  除了使用搜索到的日志數據,一般文檔數據也可以用于查詢(xún)擴展。這種方法本質(zhì)上是利用文檔主題模型將一個(gè)查詢(xún)擴展到其他具有相似主題的查詢(xún)
  基于歷史影響的方法:
  利用廣告歷史eCPM數據挖掘效果更好的相關(guān)查詢(xún),因為廣告主在選擇關(guān)鍵詞出價(jià)時(shí),一般會(huì )選擇多個(gè)組。如果從歷史數據中發(fā)現,一些關(guān)鍵詞對于某些特定的廣告客戶(hù),eCPM較高,因此應該記錄這些結果良好的查詢(xún)組。之后,當另一個(gè)廣告商也選擇了關(guān)鍵詞之一時(shí),它可以根據這些歷史記錄自動(dòng)進(jìn)行。記錄其他查詢(xún)結果更好
  廣告展示位置
  廣告投放是指搜索引擎廣告中確定北區和東區的廣告數量問(wèn)題
  考慮到用戶(hù)體驗,有必要限制北區的廣告數量。因此,這是一個(gè)典型的有約束的優(yōu)化問(wèn)題。約束是一段時(shí)間內北區整體的廣告數量,優(yōu)化目標是搜索廣告系統的整體收入。在廣告投放前的排序過(guò)程中,比較的是單個(gè)廣告,但這里的優(yōu)化需要處理一組廣告,需要考慮位置因素
  廣告網(wǎng)絡(luò )
  廣告網(wǎng)絡(luò )的成本就是對媒體資源的分減。
  廣告投放的決策過(guò)程:
  服務(wù)器接受前端用戶(hù)訪(fǎng)問(wèn)觸發(fā)的廣告請求,首先根據上下文信息和用戶(hù)標識從頁(yè)面標簽和用戶(hù)標簽中找出對應的上下文標簽和用戶(hù)標簽,然后使用這些標簽和其他一些廣告請求條件從廣告中找出符合要求的廣告候選集,最后使用CTR預測模型計算所有候選廣告的eCPM
  根據eCPM排名選擇中標的廣告返回上一階段完成投放
  短期行為反饋與流計算
  雖然用戶(hù)行為導向不適合搜索引擎,但如果可以快速處理會(huì )話(huà)中的一系列用戶(hù)查詢(xún),仍然有助于準確理解用戶(hù)意圖。除了這種短期的用戶(hù)行為反饋,廣告業(yè)務(wù)中還有一些場(chǎng)景需要快速處理在線(xiàn)日志
  實(shí)現反作弊、實(shí)時(shí)計費、短期用戶(hù)標簽和短期動(dòng)態(tài)功能
  MapReduce 使用分布式文件系統盡可能調度計算
  流計算就是在服務(wù)器之間調度數據來(lái)完成計算
  廣告搜索
  檢索布爾表達式
  廣告檢索與普通搜索引擎檢索的第一個(gè)區別是布爾表達式的檢索問(wèn)題。在以受眾為導向的銷(xiāo)售方式下,一個(gè)廣告文件不再可以看作是一個(gè)BoW,而應該看作是一個(gè)目標條件的組合。合成布爾表達式,
  布爾表達式檢索問(wèn)題有兩個(gè)特點(diǎn)。這兩個(gè)特性是設計算法的重要基礎。首先,當廣告請求的目標標簽滿(mǎn)足某個(gè) Conjunction 時(shí),它必須滿(mǎn)足該 Conjunction 的所有廣告。
  相關(guān)性搜索
  在長(cháng)查詢(xún)檢索的情況下,我們實(shí)際上希望查詢(xún)和廣告候選之間的相似度盡可能高,但是文檔中是否出現任何關(guān)鍵詞都沒(méi)有關(guān)系。這樣,針對文檔之間相似度的查詢(xún)和檢索問(wèn)題就變成了相關(guān)查詢(xún)
  解決相關(guān)性檢索的基本思想是在檢索階段引入一定的評價(jià)函數,根據該函數的評價(jià)結果??確定返回哪些候選。評價(jià)函數的設計要求:合理、高效,
  點(diǎn)擊率預測
  廣告點(diǎn)擊率預測的目的是對廣告進(jìn)行排序,但不能應用搜索中的排序問(wèn)題。點(diǎn)擊率預測不能像搜索一樣只要求結果排序的正確性,因為點(diǎn)擊率需要乘以點(diǎn)擊單價(jià)才能得到最終排名。 ,
  關(guān)于點(diǎn)擊率預測的方法,自然會(huì )想到基于統計的估計
  但是如果在某個(gè)組合中,ad a 沒(méi)有展示或者點(diǎn)擊量很少,那么歷史數據就不能用來(lái)統計點(diǎn)擊率。簡(jiǎn)單的解決方案是顯示廣告 a 和已顯示的廣告。類(lèi)似于a·,那么a的點(diǎn)擊率可以估計接近a·,
  大數據機器學(xué)習問(wèn)題往往需要迭代解決,Hadoop上的MapReduce已經(jīng)成為范式約束。每次迭代都需要由一個(gè) MapReduce Hadoop 作業(yè)完成。 Map讀取訓練數據和模型,并將數據分成塊。在集合上計算統計,Reduce聚合統計平臺并更新模型。由于從磁盤(pán)讀取訓練數據時(shí)map會(huì )產(chǎn)生大量的I/O,因此在Hadoop平臺上一次迭代的成本往往非常昂貴,單輪迭代時(shí)間無(wú)法優(yōu)化。如果要減少模型訓練的時(shí)間,只能減少模型訓練的次數。這就引出了以下業(yè)界常用的模型訓練思路:
  如果能降低每次迭代的成本,模型訓練的總時(shí)間也能大大優(yōu)化,于是出現了Spark這樣的平臺,它是一個(gè)將數據集緩存在分布式內存中的計算平臺。如果數據集的規??梢栽趦却嬷锌刂?,那么還是使用MapReduce范式來(lái)解決問(wèn)題,因為每次迭代不需要通過(guò)磁盤(pán)I/o讀取,大大減少了單次迭代的時(shí)間
  點(diǎn)擊率模型的校準
  點(diǎn)擊率預測問(wèn)題的數據挑戰之一是正負樣本嚴重不平衡,尤其是當展示廣告的點(diǎn)擊率只有千分之幾時(shí)。
  點(diǎn)擊率模型的特點(diǎn)
  點(diǎn)擊率預測問(wèn)題的主要挑戰在于,如果模型能夠捕捉到高度動(dòng)態(tài)的市場(chǎng)信號,就達到了更準確預測的目的。
  靜態(tài)特征:
  靜態(tài)特征是某些標簽的值或上下文和用戶(hù)標簽的特征組合,以及特定廣告與用戶(hù)的匹配程度
  動(dòng)態(tài)特性:
  當某個(gè)組合特征被觸發(fā)時(shí),我們不再用1,而是用這個(gè)組合歷史上一段時(shí)間的點(diǎn)擊率作為它的特征值
  可以理解為歷史點(diǎn)擊率作為一個(gè)動(dòng)態(tài)特征:我們最終要預測的是某個(gè)(a, u, c)上的點(diǎn)擊率,以及特征的組合( a, u, c) 點(diǎn)擊率可以看作是關(guān)于最終目標的弱決策者。通過(guò)融合這些特征組合對應的弱決策者,可以更容易地進(jìn)行預測,
  位置偏差
  如何去除位置等因素的影響?

互聯(lián)網(wǎng)時(shí)代后的SEO只有精通這些高水平的技能

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 103 次瀏覽 ? 2021-07-19 00:25 ? 來(lái)自相關(guān)話(huà)題

  互聯(lián)網(wǎng)時(shí)代后的SEO只有精通這些高水平的技能
  互聯(lián)網(wǎng)時(shí)代,從PC到手機,從手機到人工智能,我們進(jìn)入了后互聯(lián)網(wǎng)時(shí)代?;ヂ?lián)網(wǎng)不再是經(jīng)濟發(fā)展的顛覆,也不再是突如其來(lái)的變革。她更像是卷入社會(huì )經(jīng)濟大局的重要一員。然而,PC時(shí)代搜索引擎優(yōu)化的輝煌已經(jīng)不復存在。 SEO在企業(yè)中的地位非常尷尬。牛力搜索引擎優(yōu)化風(fēng)生水起?;ヂ?lián)網(wǎng)時(shí)代后的SEO只需要精通這些高級SEO技巧即可。 ---互聯(lián)網(wǎng)整合營(yíng)銷(xiāo)策劃顧問(wèn)-楊小道
  1、聚合頁(yè)面優(yōu)化
  主題、頻道列、文章list、標簽聚合。
  有些網(wǎng)站權重很高,內容信息量很大,信息量一般在幾萬(wàn)左右。做這種網(wǎng)站通常需要特殊的分析、診斷和設計變更。但是為了增加整體的流量,我們可以簡(jiǎn)單的把這種網(wǎng)站看成只有兩種類(lèi)型的頁(yè)面,即內容頁(yè)面和聚合頁(yè)面?,F在很多大中型網(wǎng)站都會(huì )使用網(wǎng)站中的標簽來(lái)創(chuàng )建一些獨特的頁(yè)面來(lái)獲取一些長(cháng)尾流量,但這應該是基于關(guān)鍵詞的過(guò)濾和控制,因為大量不相關(guān)的聚合搜索流量來(lái)源會(huì )導致整個(gè)網(wǎng)站主題的偏差,可能會(huì )嚴重削弱權益。
  2、泛分析站群+蜘蛛池
  SEO黑客技術(shù)常用,黑客對灰色行業(yè)的影響是毋庸置疑的。一萬(wàn)字保存在這里。
  3、漢密爾頓環(huán)鏈輪基本款
  每個(gè)都有自己的漢密爾頓環(huán)鏈輪基本模型。楊小道也有自己的SEO鏈輪基礎模型
  4、原創(chuàng )Continuous文章技術(shù)
  原創(chuàng )性?什么是創(chuàng )造力?就像一個(gè)人的身份證存在于**上一樣,是最上面的,沒(méi)有重復。原文文章也是一樣,網(wǎng)上只有一篇文章,沒(méi)有重復。那么,作為SEOER,我們應該如何創(chuàng )建文章?
  首先,一個(gè)好的原創(chuàng )文章一定要有一個(gè)好的標題
  一、根據我平時(shí)的經(jīng)驗,想一想我會(huì )在搜索引擎中填寫(xiě)的句子或內容,根據我的實(shí)際情況來(lái)寫(xiě);例如:什么是 SEO?
  二、查看peer網(wǎng)站的關(guān)鍵詞,分析一下,得到適合自己的,有一定熱情的關(guān)鍵詞。將它們插入標題中,并對主關(guān)鍵字和子關(guān)鍵字進(jìn)行排序和組合。比如主關(guān)鍵詞是“SEO”,子關(guān)鍵詞是“原創(chuàng )文章”,組合關(guān)鍵詞是“SEO原創(chuàng )文章”。
  三、 了解用戶(hù)需求,觀(guān)察一些論壇、貼吧、問(wèn)答等交流平臺,了解用戶(hù)平時(shí)喜歡搜索什么,關(guān)心什么?例如:如何創(chuàng )建SEO文章? SEO原創(chuàng )文章怎么寫(xiě)?
  四、在思考的過(guò)程中,查看百度、360、搜狗等與您同名或相關(guān)內容的搜索引擎的搜索結果。如果有更多,我們建議您更改標題,以便百度更快地采集您的文章
  其次,一個(gè)好的原創(chuàng )文章不僅要有原創(chuàng )的標題,還要有原創(chuàng )的內容
  一、寫(xiě)文章時(shí),請注意增加文章前100字關(guān)鍵詞“SEO原創(chuàng )文章”的密度! 100字應該有2-3次。
  二、研究用戶(hù)心理,就像寫(xiě)標題一樣,可以看到用戶(hù)的需求以及用戶(hù)點(diǎn)擊這篇文章想要看到和理解的內容。
  三、正文的內容部分,需要能夠在“SEO原創(chuàng )文章”中搜索相關(guān)信息關(guān)鍵詞。這就是區別于普通原創(chuàng )文章的關(guān)鍵。讓人們可以在不同的相關(guān)關(guān)鍵詞中搜索到相同的文章文章。
  四、原來(lái)文章的內容其實(shí)是為了與你想表達的相處;例如:在原來(lái)的SEO文章寫(xiě)下自己的感受。共同點(diǎn)是寫(xiě)印象。
  之后
  ,結尾也是蜘蛛爬行的關(guān)鍵。結束方式如下:
  關(guān)鍵詞 必須出現在 200 字的末尾,記住。應該有一個(gè)好的開(kāi)始和一個(gè)好的結束。成功的SEO公式=持久化+原創(chuàng )內容+優(yōu)質(zhì)外鏈
  原創(chuàng )性是一個(gè)所謂的工具,它使用你的想法,然后用文字寫(xiě)下來(lái)。這就是創(chuàng )造力??赐曛?,你覺(jué)得創(chuàng )意有那么簡(jiǎn)單嗎?大體意思就是自己寫(xiě)文章。 查看全部

  互聯(lián)網(wǎng)時(shí)代后的SEO只有精通這些高水平的技能
  互聯(lián)網(wǎng)時(shí)代,從PC到手機,從手機到人工智能,我們進(jìn)入了后互聯(lián)網(wǎng)時(shí)代?;ヂ?lián)網(wǎng)不再是經(jīng)濟發(fā)展的顛覆,也不再是突如其來(lái)的變革。她更像是卷入社會(huì )經(jīng)濟大局的重要一員。然而,PC時(shí)代搜索引擎優(yōu)化的輝煌已經(jīng)不復存在。 SEO在企業(yè)中的地位非常尷尬。牛力搜索引擎優(yōu)化風(fēng)生水起?;ヂ?lián)網(wǎng)時(shí)代后的SEO只需要精通這些高級SEO技巧即可。 ---互聯(lián)網(wǎng)整合營(yíng)銷(xiāo)策劃顧問(wèn)-楊小道
  1、聚合頁(yè)面優(yōu)化
  主題、頻道列、文章list、標簽聚合。
  有些網(wǎng)站權重很高,內容信息量很大,信息量一般在幾萬(wàn)左右。做這種網(wǎng)站通常需要特殊的分析、診斷和設計變更。但是為了增加整體的流量,我們可以簡(jiǎn)單的把這種網(wǎng)站看成只有兩種類(lèi)型的頁(yè)面,即內容頁(yè)面和聚合頁(yè)面?,F在很多大中型網(wǎng)站都會(huì )使用網(wǎng)站中的標簽來(lái)創(chuàng )建一些獨特的頁(yè)面來(lái)獲取一些長(cháng)尾流量,但這應該是基于關(guān)鍵詞的過(guò)濾和控制,因為大量不相關(guān)的聚合搜索流量來(lái)源會(huì )導致整個(gè)網(wǎng)站主題的偏差,可能會(huì )嚴重削弱權益。
  2、泛分析站群+蜘蛛池
  SEO黑客技術(shù)常用,黑客對灰色行業(yè)的影響是毋庸置疑的。一萬(wàn)字保存在這里。
  3、漢密爾頓環(huán)鏈輪基本款
  每個(gè)都有自己的漢密爾頓環(huán)鏈輪基本模型。楊小道也有自己的SEO鏈輪基礎模型
  4、原創(chuàng )Continuous文章技術(shù)
  原創(chuàng )性?什么是創(chuàng )造力?就像一個(gè)人的身份證存在于**上一樣,是最上面的,沒(méi)有重復。原文文章也是一樣,網(wǎng)上只有一篇文章,沒(méi)有重復。那么,作為SEOER,我們應該如何創(chuàng )建文章?
  首先,一個(gè)好的原創(chuàng )文章一定要有一個(gè)好的標題
  一、根據我平時(shí)的經(jīng)驗,想一想我會(huì )在搜索引擎中填寫(xiě)的句子或內容,根據我的實(shí)際情況來(lái)寫(xiě);例如:什么是 SEO?
  二、查看peer網(wǎng)站的關(guān)鍵詞,分析一下,得到適合自己的,有一定熱情的關(guān)鍵詞。將它們插入標題中,并對主關(guān)鍵字和子關(guān)鍵字進(jìn)行排序和組合。比如主關(guān)鍵詞是“SEO”,子關(guān)鍵詞是“原創(chuàng )文章”,組合關(guān)鍵詞是“SEO原創(chuàng )文章”。
  三、 了解用戶(hù)需求,觀(guān)察一些論壇、貼吧、問(wèn)答等交流平臺,了解用戶(hù)平時(shí)喜歡搜索什么,關(guān)心什么?例如:如何創(chuàng )建SEO文章? SEO原創(chuàng )文章怎么寫(xiě)?
  四、在思考的過(guò)程中,查看百度、360、搜狗等與您同名或相關(guān)內容的搜索引擎的搜索結果。如果有更多,我們建議您更改標題,以便百度更快地采集您的文章
  其次,一個(gè)好的原創(chuàng )文章不僅要有原創(chuàng )的標題,還要有原創(chuàng )的內容
  一、寫(xiě)文章時(shí),請注意增加文章前100字關(guān)鍵詞“SEO原創(chuàng )文章”的密度! 100字應該有2-3次。
  二、研究用戶(hù)心理,就像寫(xiě)標題一樣,可以看到用戶(hù)的需求以及用戶(hù)點(diǎn)擊這篇文章想要看到和理解的內容。
  三、正文的內容部分,需要能夠在“SEO原創(chuàng )文章”中搜索相關(guān)信息關(guān)鍵詞。這就是區別于普通原創(chuàng )文章的關(guān)鍵。讓人們可以在不同的相關(guān)關(guān)鍵詞中搜索到相同的文章文章。
  四、原來(lái)文章的內容其實(shí)是為了與你想表達的相處;例如:在原來(lái)的SEO文章寫(xiě)下自己的感受。共同點(diǎn)是寫(xiě)印象。
  之后
  ,結尾也是蜘蛛爬行的關(guān)鍵。結束方式如下:
  關(guān)鍵詞 必須出現在 200 字的末尾,記住。應該有一個(gè)好的開(kāi)始和一個(gè)好的結束。成功的SEO公式=持久化+原創(chuàng )內容+優(yōu)質(zhì)外鏈
  原創(chuàng )性是一個(gè)所謂的工具,它使用你的想法,然后用文字寫(xiě)下來(lái)。這就是創(chuàng )造力??赐曛?,你覺(jué)得創(chuàng )意有那么簡(jiǎn)單嗎?大體意思就是自己寫(xiě)文章。

17年SEO搜索引擎:核心技術(shù)詳解--梳理總結

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 109 次瀏覽 ? 2021-07-17 19:00 ? 來(lái)自相關(guān)話(huà)題

  17年SEO搜索引擎:核心技術(shù)詳解--梳理總結
  2017年因項目需要,學(xué)習整理了一些SEO相關(guān)的知識,可以分為兩部分:
  《搜索引擎:核心技術(shù)詳解》---梳理與總結
  SEO 搜索引擎優(yōu)化
  本文主要內容是對閱讀《搜索引擎:核心技術(shù)詳解》時(shí)的一些知識進(jìn)行梳理和總結,包括搜索引擎索引、鏈接分析和網(wǎng)頁(yè)反作弊三部分一、搜索引擎索引
  Index,如書(shū)籍目錄,是一種索引結構,其目的是讓人們更快地搜索相關(guān)章節。搜索引擎索引簡(jiǎn)單的理解就是抓取頁(yè)面后對數據進(jìn)行排序整理的過(guò)程。搜索引擎的索引就是實(shí)現word-document矩陣的數據結構。在實(shí)際應用中實(shí)現的方式有很多種,常見(jiàn)的就是倒排索引。
  索引的基本概念
  引擎的基本索引模型是一個(gè)word-document矩陣,如圖:
  橫向可以看到哪些文檔收錄某個(gè)詞匯,縱向可以看到某個(gè)文檔收錄哪些關(guān)鍵詞
  
  
  在實(shí)際的搜索引擎中,一般記錄的不是文檔編號,而是相鄰兩個(gè)文檔的差值。這樣就將大值轉換成小值,提高了壓縮效率
  創(chuàng )建索引
  
  缺點(diǎn):從磁盤(pán)中讀取文檔并解析文檔基本上是最耗時(shí)的步驟,而且兩次掃描方式在速度上沒(méi)有優(yōu)勢,因為它需要遍歷文檔集合兩次。在實(shí)踐中,這種方法的系統并不常見(jiàn)。
  
  動(dòng)態(tài)索引
  實(shí)時(shí)反映索引變化,3種關(guān)鍵索引結構:倒排索引、臨時(shí)索引、刪除文檔列表。
  索引更新策略
  當臨時(shí)索引越來(lái)越內存不足時(shí),需要將臨時(shí)索引寫(xiě)入disk-index更新策略
  常用的索引更新策略有4種:完全重建策略、重新合并策略、就地更新策略和混合策略。
  完全重構策略----新文檔臨時(shí)索引+舊文檔--------->遍歷生成新索引(放棄舊索引)再合并策略----新文檔索引+舊索引- --->合并生成新索引(拋棄舊索引)原位更新策略--增量索引+舊索引---->舊索引+附加新倒排信息混合策略----一般對詞進(jìn)行分類(lèi),然后使用不同的更新策略
  二、Link 分析概念模型
  隨機游走模型----是一個(gè)概念模型,抽象了兩種用戶(hù)瀏覽行為,直接跳轉和遠程跳轉。許多鏈接分析算法,包括PageRank算法,都是基于隨機游走模型的。
  
  假設互聯(lián)網(wǎng)由3個(gè)網(wǎng)頁(yè)A、B、C組成,圖中頁(yè)面節點(diǎn)之間的有向邊表示相互鏈接關(guān)系。根據鏈接關(guān)系,可以計算出頁(yè)面節點(diǎn)之間的轉移概率。例如,對于節點(diǎn) A,只有一條到節點(diǎn) B 的輸出鏈路,所以從節點(diǎn) A 跳到節點(diǎn) B 的概率為 1,對于節點(diǎn) C,它有到節點(diǎn) A 和 B 的鏈路,所以轉向的概率為任何其他節點(diǎn)都是 1/2。假設在時(shí)間1,用戶(hù)瀏覽頁(yè)面A,然后通過(guò)鏈接進(jìn)入頁(yè)面B,然后進(jìn)入頁(yè)面C,此時(shí)他面臨兩種可能的選擇??梢蕴D到頁(yè)面A或頁(yè)面B,兩者的概率相同,都是1/2。假設示例中的Internet收錄3個(gè)以上的頁(yè)面,但由10個(gè)頁(yè)面組成。這時(shí)候用戶(hù)既不想跳回頁(yè)面A也不想跳回頁(yè)面B,他可以以1/10的概率跳到任何其他頁(yè)面,即遠程跳轉。
  子集傳播模型——將網(wǎng)頁(yè)按照一定的規則分成兩個(gè)甚至多個(gè)子集。某個(gè)子集合具有特殊屬性。許多算法通常從這個(gè)子集合開(kāi)始,并為子集合中的網(wǎng)頁(yè)賦予初始權重。然后,根據該特殊子集合中的網(wǎng)頁(yè)與其他網(wǎng)頁(yè)之間的鏈接關(guān)系,以某種方式分配權重。該值被傳遞到其他網(wǎng)頁(yè)。
  鏈接分析算法
  在眾多算法中,PageRank 和 HITS 可以說(shuō)是最重要的兩種具有代表性的鏈接分析算法。很多后續的鏈接分析算法都是從這兩種算法衍生出來(lái)的改進(jìn)算法。
  
  PageRank 算法
  每個(gè)頁(yè)面都會(huì )將其當前的PageRank值平均分配給該頁(yè)面收錄的傳出鏈接,從而使每個(gè)鏈接獲得相應的權重。并且每個(gè)頁(yè)面將所有指向該頁(yè)面的鏈內傳遞的權重相加,以獲得新的 PageRank 分數。
  HITS 算法
  權威頁(yè)面是指與某個(gè)領(lǐng)域或主題相關(guān)的高質(zhì)量網(wǎng)頁(yè)。例如,在搜索引擎領(lǐng)域,谷歌和百度的主頁(yè)都是該領(lǐng)域的優(yōu)質(zhì)網(wǎng)頁(yè);例如,在視頻領(lǐng)域,優(yōu)酷和土豆主頁(yè)是該領(lǐng)域的優(yōu)質(zhì)網(wǎng)頁(yè)。中心頁(yè)面是指收錄許多指向高質(zhì)量權威頁(yè)面的鏈接的網(wǎng)頁(yè)。
  Hub 和 Authority 之間的相輔相成的關(guān)系。 HITS算法與用戶(hù)輸入的查詢(xún)請求密切相關(guān),而PageRank算法是全局算法,與查詢(xún)無(wú)關(guān)。
  HITS算法的目的是利用一定的技術(shù)手段,在大量網(wǎng)頁(yè)中,特別是Authority頁(yè)面中,找到與用戶(hù)查詢(xún)主題相關(guān)的高質(zhì)量Authority頁(yè)面和Hub頁(yè)面,因為這些頁(yè)面代表了高質(zhì)量可以滿(mǎn)足用戶(hù)的查詢(xún)。內容,搜索引擎以此作為搜索結果返回給用戶(hù)。
  SALSA算法----請求--->擴展網(wǎng)頁(yè)子集----->轉向無(wú)向二部圖---->計算權重--->返回結果
  
  hilltop----專(zhuān)家網(wǎng)絡(luò )搜索---->著(zhù)陸頁(yè)排序
  主題敏感PageRank----離線(xiàn)分類(lèi)主題PR值計算---->請求是相似度比較計算---->前兩者的乘積之和
  HITS算法與PageRank算法對比
  HITS算法與用戶(hù)輸入的查詢(xún)請求密切相關(guān),而PageRank與查詢(xún)請求無(wú)關(guān)。因此,可以單獨使用HITS算法作為相似度計算的評價(jià)標準,而PageRank必須與內容相似度計算相結合,才能用于評價(jià)網(wǎng)頁(yè)的相關(guān)性。由于HITS算法與用戶(hù)查詢(xún)密切相關(guān),必須在收到用戶(hù)查詢(xún)后進(jìn)行實(shí)時(shí)計算,計算效率低;而PageRank可以在爬取完成后離線(xiàn)計算,計算結果可以直接在線(xiàn)使用,計算效率更高。 HITS算法計算對象少,只需要計算擴展集中網(wǎng)頁(yè)之間的鏈接關(guān)系;而 PageRank 是一種全局算法,可以處理所有 Internet 頁(yè)面節點(diǎn)。從兩者的計算效率和處理對象集合大小的比較來(lái)看,PageRank更適合部署在服務(wù)器端,而HITS算法更適合部署在客戶(hù)端。 HITS算法存在話(huà)題泛化的問(wèn)題,所以更適合處理特定的用戶(hù)查詢(xún);而PageRank算法在處理大范圍的用戶(hù)查詢(xún)方面更有優(yōu)勢。 HITS算法需要為每個(gè)頁(yè)面計算兩個(gè)分數,而PageRank算法只需要計算一個(gè)分數;在搜索引擎領(lǐng)域,更多關(guān)注的是HITS算法計算出的權威權重,但在其他很多應用HITS算法的領(lǐng)域,Hub score也很重要。從鏈接防作弊的角度來(lái)看,PageRank在機制上優(yōu)于HITS算法,HITS算法更容易受到鏈接作弊的影響。 HITS算法的結構不穩定。當擴展網(wǎng)頁(yè)集合中的鏈接關(guān)系稍有改動(dòng)時(shí),就會(huì )對最終排名產(chǎn)生很大的影響;而與 HITS 相比,PageRank 算法是穩定的。根本原因是PageRank計算時(shí)的遠程跳轉。 . 三、網(wǎng)絡(luò )作弊
  從大類(lèi)來(lái)看,比較常見(jiàn)的作弊方式有:內容作弊、鏈接作弊、隱藏作弊,以及近年來(lái)興起的Web2.0作弊方式。學(xué)術(shù)界和搜索引擎公司也有針對性地提出了各種反作弊算法。
  內容作弊
  內容作弊的目的是精心修改或規范網(wǎng)頁(yè)內容,使網(wǎng)頁(yè)在與其網(wǎng)頁(yè)不相稱(chēng)的搜索引擎排名中獲得較高的排名。搜索引擎排名一般包括內容相似度和鏈接重要性計算。內容作弊主要針對搜索引擎排名算法的內容相似度計算部分。通過(guò)故意增加目標詞的頻率,或在網(wǎng)頁(yè)重要位置引入網(wǎng)頁(yè)內容不相關(guān)的詞影響搜索結果的排名。
  常見(jiàn)內容作弊方式:關(guān)鍵詞repetition、無(wú)關(guān)查詢(xún)詞作弊、圖片alt標簽文字作弊、網(wǎng)頁(yè)標題作弊、網(wǎng)頁(yè)重要標簽作弊、網(wǎng)頁(yè)元信息作弊
  內容農場(chǎng):內容農場(chǎng)運營(yíng)商廉價(jià)雇用大量自由職業(yè)者來(lái)支持他們的付費寫(xiě)作,但寫(xiě)作內容的質(zhì)量通常較低。很多文章都是通過(guò)復制和稍加修改來(lái)完成的,但是他們會(huì )研究搜索引擎的熱門(mén)搜索詞等,并將這些詞有機地添加到寫(xiě)作內容中。這樣,普通搜索引擎用戶(hù)在搜索時(shí)就會(huì )被吸引到內容農場(chǎng)網(wǎng)站,內容農場(chǎng)可以通過(guò)大量低質(zhì)量?jì)热菸髁縼?lái)賺取廣告費用。
  
  鏈接作弊
  所謂鏈接作弊就是網(wǎng)站owner考慮到在搜索引擎排名中使用鏈接分析技術(shù),所以通過(guò)操縱頁(yè)面之間的鏈接關(guān)系,或者操縱頁(yè)面之間的鏈接錨文本,來(lái)增加鏈接排名因素的得分以及影響搜索結果排名的作弊方式。
  為了提高網(wǎng)頁(yè)的搜索引擎鏈接排名,鏈接農場(chǎng)建立了一個(gè)龐大的網(wǎng)頁(yè)集合,這些網(wǎng)頁(yè)相互之間有著(zhù)密切的聯(lián)系,希望通過(guò)搜索引擎鏈接算法的機制來(lái)提高網(wǎng)頁(yè)排名。大量的相互聯(lián)系。鏈接農場(chǎng)中頁(yè)面的鏈接密度極高,任何兩個(gè)頁(yè)面都可能有相互指向的鏈接。
  
  錨文本是指向某個(gè)網(wǎng)頁(yè)的鏈接的描述文本。這些描述信息往往反映了所指向網(wǎng)頁(yè)的內容主題,因此搜索引擎在排名算法中經(jīng)常使用它。作弊者精心設置錨文本內容,誘使搜索引擎對目標網(wǎng)頁(yè)給予更高的排名。一般來(lái)說(shuō),作弊者設置的錨文本與目標網(wǎng)頁(yè)的內容無(wú)關(guān)。
  幾年前,有一個(gè)著(zhù)名的例子,就是利用谷歌轟炸來(lái)操縱搜索結果的排名。那時(shí),如果你在谷歌上搜索“悲慘的失敗”,你會(huì )發(fā)現第二個(gè)搜索結果是時(shí)任美國總統喬治·W·布什的白宮頁(yè)面。這是通過(guò)構建許多其他網(wǎng)頁(yè),包括指向目標頁(yè)面的鏈接,其鏈接錨文本收錄“悲慘失敗”關(guān)鍵詞 實(shí)現的效果。
  
  “門(mén)頁(yè)”本身不收錄正文內容,而是由大量鏈接組成,而這些鏈接往往指向同一個(gè)網(wǎng)站
  在頁(yè)面中,作弊者創(chuàng )建了大量的“門(mén)頁(yè)”,以提高網(wǎng)站排名。
  頁(yè)面隱藏作弊
  頁(yè)面隱藏作弊利用某種手段欺騙搜索引擎爬蟲(chóng),使搜索引擎爬取的頁(yè)面內容和用戶(hù)點(diǎn)擊查看
  您看到的頁(yè)面內容不同,從而影響搜索引擎的搜索結果。隱藏頁(yè)面和作弊的常見(jiàn)方法
  以下是幾個(gè)。
  1.IP偽裝(IP Cloaking)
  網(wǎng)頁(yè)所有者在服務(wù)器端記錄搜索引擎爬蟲(chóng)的IP地址列表,如果發(fā)現搜索引擎在請求頁(yè)面上
  對于人臉,它會(huì )向爬蟲(chóng)推送一個(gè)虛假的網(wǎng)頁(yè)內容,如果是另一個(gè)IP地址,它會(huì )推送另一個(gè)網(wǎng)頁(yè)
  內容,此頁(yè)面通常是具有商業(yè)目的的營(yíng)銷(xiāo)頁(yè)面。 查看全部

  17年SEO搜索引擎:核心技術(shù)詳解--梳理總結
  2017年因項目需要,學(xué)習整理了一些SEO相關(guān)的知識,可以分為兩部分:
  《搜索引擎:核心技術(shù)詳解》---梳理與總結
  SEO 搜索引擎優(yōu)化
  本文主要內容是對閱讀《搜索引擎:核心技術(shù)詳解》時(shí)的一些知識進(jìn)行梳理和總結,包括搜索引擎索引、鏈接分析和網(wǎng)頁(yè)反作弊三部分一、搜索引擎索引
  Index,如書(shū)籍目錄,是一種索引結構,其目的是讓人們更快地搜索相關(guān)章節。搜索引擎索引簡(jiǎn)單的理解就是抓取頁(yè)面后對數據進(jìn)行排序整理的過(guò)程。搜索引擎的索引就是實(shí)現word-document矩陣的數據結構。在實(shí)際應用中實(shí)現的方式有很多種,常見(jiàn)的就是倒排索引。
  索引的基本概念
  引擎的基本索引模型是一個(gè)word-document矩陣,如圖:
  橫向可以看到哪些文檔收錄某個(gè)詞匯,縱向可以看到某個(gè)文檔收錄哪些關(guān)鍵詞
  
  
  在實(shí)際的搜索引擎中,一般記錄的不是文檔編號,而是相鄰兩個(gè)文檔的差值。這樣就將大值轉換成小值,提高了壓縮效率
  創(chuàng )建索引
  
  缺點(diǎn):從磁盤(pán)中讀取文檔并解析文檔基本上是最耗時(shí)的步驟,而且兩次掃描方式在速度上沒(méi)有優(yōu)勢,因為它需要遍歷文檔集合兩次。在實(shí)踐中,這種方法的系統并不常見(jiàn)。
  
  動(dòng)態(tài)索引
  實(shí)時(shí)反映索引變化,3種關(guān)鍵索引結構:倒排索引、臨時(shí)索引、刪除文檔列表。
  索引更新策略
  當臨時(shí)索引越來(lái)越內存不足時(shí),需要將臨時(shí)索引寫(xiě)入disk-index更新策略
  常用的索引更新策略有4種:完全重建策略、重新合并策略、就地更新策略和混合策略。
  完全重構策略----新文檔臨時(shí)索引+舊文檔--------->遍歷生成新索引(放棄舊索引)再合并策略----新文檔索引+舊索引- --->合并生成新索引(拋棄舊索引)原位更新策略--增量索引+舊索引---->舊索引+附加新倒排信息混合策略----一般對詞進(jìn)行分類(lèi),然后使用不同的更新策略
  二、Link 分析概念模型
  隨機游走模型----是一個(gè)概念模型,抽象了兩種用戶(hù)瀏覽行為,直接跳轉和遠程跳轉。許多鏈接分析算法,包括PageRank算法,都是基于隨機游走模型的。
  
  假設互聯(lián)網(wǎng)由3個(gè)網(wǎng)頁(yè)A、B、C組成,圖中頁(yè)面節點(diǎn)之間的有向邊表示相互鏈接關(guān)系。根據鏈接關(guān)系,可以計算出頁(yè)面節點(diǎn)之間的轉移概率。例如,對于節點(diǎn) A,只有一條到節點(diǎn) B 的輸出鏈路,所以從節點(diǎn) A 跳到節點(diǎn) B 的概率為 1,對于節點(diǎn) C,它有到節點(diǎn) A 和 B 的鏈路,所以轉向的概率為任何其他節點(diǎn)都是 1/2。假設在時(shí)間1,用戶(hù)瀏覽頁(yè)面A,然后通過(guò)鏈接進(jìn)入頁(yè)面B,然后進(jìn)入頁(yè)面C,此時(shí)他面臨兩種可能的選擇??梢蕴D到頁(yè)面A或頁(yè)面B,兩者的概率相同,都是1/2。假設示例中的Internet收錄3個(gè)以上的頁(yè)面,但由10個(gè)頁(yè)面組成。這時(shí)候用戶(hù)既不想跳回頁(yè)面A也不想跳回頁(yè)面B,他可以以1/10的概率跳到任何其他頁(yè)面,即遠程跳轉。
  子集傳播模型——將網(wǎng)頁(yè)按照一定的規則分成兩個(gè)甚至多個(gè)子集。某個(gè)子集合具有特殊屬性。許多算法通常從這個(gè)子集合開(kāi)始,并為子集合中的網(wǎng)頁(yè)賦予初始權重。然后,根據該特殊子集合中的網(wǎng)頁(yè)與其他網(wǎng)頁(yè)之間的鏈接關(guān)系,以某種方式分配權重。該值被傳遞到其他網(wǎng)頁(yè)。
  鏈接分析算法
  在眾多算法中,PageRank 和 HITS 可以說(shuō)是最重要的兩種具有代表性的鏈接分析算法。很多后續的鏈接分析算法都是從這兩種算法衍生出來(lái)的改進(jìn)算法。
  
  PageRank 算法
  每個(gè)頁(yè)面都會(huì )將其當前的PageRank值平均分配給該頁(yè)面收錄的傳出鏈接,從而使每個(gè)鏈接獲得相應的權重。并且每個(gè)頁(yè)面將所有指向該頁(yè)面的鏈內傳遞的權重相加,以獲得新的 PageRank 分數。
  HITS 算法
  權威頁(yè)面是指與某個(gè)領(lǐng)域或主題相關(guān)的高質(zhì)量網(wǎng)頁(yè)。例如,在搜索引擎領(lǐng)域,谷歌和百度的主頁(yè)都是該領(lǐng)域的優(yōu)質(zhì)網(wǎng)頁(yè);例如,在視頻領(lǐng)域,優(yōu)酷和土豆主頁(yè)是該領(lǐng)域的優(yōu)質(zhì)網(wǎng)頁(yè)。中心頁(yè)面是指收錄許多指向高質(zhì)量權威頁(yè)面的鏈接的網(wǎng)頁(yè)。
  Hub 和 Authority 之間的相輔相成的關(guān)系。 HITS算法與用戶(hù)輸入的查詢(xún)請求密切相關(guān),而PageRank算法是全局算法,與查詢(xún)無(wú)關(guān)。
  HITS算法的目的是利用一定的技術(shù)手段,在大量網(wǎng)頁(yè)中,特別是Authority頁(yè)面中,找到與用戶(hù)查詢(xún)主題相關(guān)的高質(zhì)量Authority頁(yè)面和Hub頁(yè)面,因為這些頁(yè)面代表了高質(zhì)量可以滿(mǎn)足用戶(hù)的查詢(xún)。內容,搜索引擎以此作為搜索結果返回給用戶(hù)。
  SALSA算法----請求--->擴展網(wǎng)頁(yè)子集----->轉向無(wú)向二部圖---->計算權重--->返回結果
  
  hilltop----專(zhuān)家網(wǎng)絡(luò )搜索---->著(zhù)陸頁(yè)排序
  主題敏感PageRank----離線(xiàn)分類(lèi)主題PR值計算---->請求是相似度比較計算---->前兩者的乘積之和
  HITS算法與PageRank算法對比
  HITS算法與用戶(hù)輸入的查詢(xún)請求密切相關(guān),而PageRank與查詢(xún)請求無(wú)關(guān)。因此,可以單獨使用HITS算法作為相似度計算的評價(jià)標準,而PageRank必須與內容相似度計算相結合,才能用于評價(jià)網(wǎng)頁(yè)的相關(guān)性。由于HITS算法與用戶(hù)查詢(xún)密切相關(guān),必須在收到用戶(hù)查詢(xún)后進(jìn)行實(shí)時(shí)計算,計算效率低;而PageRank可以在爬取完成后離線(xiàn)計算,計算結果可以直接在線(xiàn)使用,計算效率更高。 HITS算法計算對象少,只需要計算擴展集中網(wǎng)頁(yè)之間的鏈接關(guān)系;而 PageRank 是一種全局算法,可以處理所有 Internet 頁(yè)面節點(diǎn)。從兩者的計算效率和處理對象集合大小的比較來(lái)看,PageRank更適合部署在服務(wù)器端,而HITS算法更適合部署在客戶(hù)端。 HITS算法存在話(huà)題泛化的問(wèn)題,所以更適合處理特定的用戶(hù)查詢(xún);而PageRank算法在處理大范圍的用戶(hù)查詢(xún)方面更有優(yōu)勢。 HITS算法需要為每個(gè)頁(yè)面計算兩個(gè)分數,而PageRank算法只需要計算一個(gè)分數;在搜索引擎領(lǐng)域,更多關(guān)注的是HITS算法計算出的權威權重,但在其他很多應用HITS算法的領(lǐng)域,Hub score也很重要。從鏈接防作弊的角度來(lái)看,PageRank在機制上優(yōu)于HITS算法,HITS算法更容易受到鏈接作弊的影響。 HITS算法的結構不穩定。當擴展網(wǎng)頁(yè)集合中的鏈接關(guān)系稍有改動(dòng)時(shí),就會(huì )對最終排名產(chǎn)生很大的影響;而與 HITS 相比,PageRank 算法是穩定的。根本原因是PageRank計算時(shí)的遠程跳轉。 . 三、網(wǎng)絡(luò )作弊
  從大類(lèi)來(lái)看,比較常見(jiàn)的作弊方式有:內容作弊、鏈接作弊、隱藏作弊,以及近年來(lái)興起的Web2.0作弊方式。學(xué)術(shù)界和搜索引擎公司也有針對性地提出了各種反作弊算法。
  內容作弊
  內容作弊的目的是精心修改或規范網(wǎng)頁(yè)內容,使網(wǎng)頁(yè)在與其網(wǎng)頁(yè)不相稱(chēng)的搜索引擎排名中獲得較高的排名。搜索引擎排名一般包括內容相似度和鏈接重要性計算。內容作弊主要針對搜索引擎排名算法的內容相似度計算部分。通過(guò)故意增加目標詞的頻率,或在網(wǎng)頁(yè)重要位置引入網(wǎng)頁(yè)內容不相關(guān)的詞影響搜索結果的排名。
  常見(jiàn)內容作弊方式:關(guān)鍵詞repetition、無(wú)關(guān)查詢(xún)詞作弊、圖片alt標簽文字作弊、網(wǎng)頁(yè)標題作弊、網(wǎng)頁(yè)重要標簽作弊、網(wǎng)頁(yè)元信息作弊
  內容農場(chǎng):內容農場(chǎng)運營(yíng)商廉價(jià)雇用大量自由職業(yè)者來(lái)支持他們的付費寫(xiě)作,但寫(xiě)作內容的質(zhì)量通常較低。很多文章都是通過(guò)復制和稍加修改來(lái)完成的,但是他們會(huì )研究搜索引擎的熱門(mén)搜索詞等,并將這些詞有機地添加到寫(xiě)作內容中。這樣,普通搜索引擎用戶(hù)在搜索時(shí)就會(huì )被吸引到內容農場(chǎng)網(wǎng)站,內容農場(chǎng)可以通過(guò)大量低質(zhì)量?jì)热菸髁縼?lái)賺取廣告費用。
  
  鏈接作弊
  所謂鏈接作弊就是網(wǎng)站owner考慮到在搜索引擎排名中使用鏈接分析技術(shù),所以通過(guò)操縱頁(yè)面之間的鏈接關(guān)系,或者操縱頁(yè)面之間的鏈接錨文本,來(lái)增加鏈接排名因素的得分以及影響搜索結果排名的作弊方式。
  為了提高網(wǎng)頁(yè)的搜索引擎鏈接排名,鏈接農場(chǎng)建立了一個(gè)龐大的網(wǎng)頁(yè)集合,這些網(wǎng)頁(yè)相互之間有著(zhù)密切的聯(lián)系,希望通過(guò)搜索引擎鏈接算法的機制來(lái)提高網(wǎng)頁(yè)排名。大量的相互聯(lián)系。鏈接農場(chǎng)中頁(yè)面的鏈接密度極高,任何兩個(gè)頁(yè)面都可能有相互指向的鏈接。
  
  錨文本是指向某個(gè)網(wǎng)頁(yè)的鏈接的描述文本。這些描述信息往往反映了所指向網(wǎng)頁(yè)的內容主題,因此搜索引擎在排名算法中經(jīng)常使用它。作弊者精心設置錨文本內容,誘使搜索引擎對目標網(wǎng)頁(yè)給予更高的排名。一般來(lái)說(shuō),作弊者設置的錨文本與目標網(wǎng)頁(yè)的內容無(wú)關(guān)。
  幾年前,有一個(gè)著(zhù)名的例子,就是利用谷歌轟炸來(lái)操縱搜索結果的排名。那時(shí),如果你在谷歌上搜索“悲慘的失敗”,你會(huì )發(fā)現第二個(gè)搜索結果是時(shí)任美國總統喬治·W·布什的白宮頁(yè)面。這是通過(guò)構建許多其他網(wǎng)頁(yè),包括指向目標頁(yè)面的鏈接,其鏈接錨文本收錄“悲慘失敗”關(guān)鍵詞 實(shí)現的效果。
  
  “門(mén)頁(yè)”本身不收錄正文內容,而是由大量鏈接組成,而這些鏈接往往指向同一個(gè)網(wǎng)站
  在頁(yè)面中,作弊者創(chuàng )建了大量的“門(mén)頁(yè)”,以提高網(wǎng)站排名。
  頁(yè)面隱藏作弊
  頁(yè)面隱藏作弊利用某種手段欺騙搜索引擎爬蟲(chóng),使搜索引擎爬取的頁(yè)面內容和用戶(hù)點(diǎn)擊查看
  您看到的頁(yè)面內容不同,從而影響搜索引擎的搜索結果。隱藏頁(yè)面和作弊的常見(jiàn)方法
  以下是幾個(gè)。
  1.IP偽裝(IP Cloaking)
  網(wǎng)頁(yè)所有者在服務(wù)器端記錄搜索引擎爬蟲(chóng)的IP地址列表,如果發(fā)現搜索引擎在請求頁(yè)面上
  對于人臉,它會(huì )向爬蟲(chóng)推送一個(gè)虛假的網(wǎng)頁(yè)內容,如果是另一個(gè)IP地址,它會(huì )推送另一個(gè)網(wǎng)頁(yè)
  內容,此頁(yè)面通常是具有商業(yè)目的的營(yíng)銷(xiāo)頁(yè)面。

一個(gè)語(yǔ)義挖掘的利器——主題模型(組圖)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 79 次瀏覽 ? 2021-07-17 00:07 ? 來(lái)自相關(guān)話(huà)題

  一個(gè)語(yǔ)義挖掘的利器——主題模型(組圖)
  來(lái)自:
  總結:
  兩個(gè)文檔是否相關(guān),往往不僅取決于字面上的重復,還取決于文本背后的語(yǔ)義聯(lián)系。語(yǔ)義關(guān)聯(lián)的挖掘可以使我們的搜索更加智能。本文重點(diǎn)介紹一個(gè)強大的語(yǔ)義挖掘工具:主題模型。主題模型是一種對文本隱含主題進(jìn)行建模的方法。它克服了傳統信息檢索中文檔相似度計算方法的不足,能夠在海量互聯(lián)網(wǎng)數據中自動(dòng)找到文本之間的語(yǔ)義主題。近年來(lái),各大互聯(lián)網(wǎng)公司都開(kāi)始了這方面的探索和嘗試。讓我們看看會(huì )發(fā)生什么。
  關(guān)鍵詞:主題模型
  技術(shù)領(lǐng)域:搜索技術(shù)、自然語(yǔ)言處理
  假設有兩個(gè)句子,我們想知道它們是否相關(guān):
  第一個(gè)是:“工作沒(méi)了?!?br />   第二個(gè)是:“蘋(píng)果會(huì )降價(jià)嗎?”
  如果是人來(lái)判斷的話(huà),我們一看就知道,這兩個(gè)句子雖然沒(méi)有共同的詞,但還是很有關(guān)聯(lián)的。這是因為,雖然第二句中的“apple”可能指的是我們吃的蘋(píng)果,但因為第一句中有“Jobs”,我們自然會(huì )將“apple”解釋為蘋(píng)果產(chǎn)品。事實(shí)上,這種文本句子之間的相關(guān)性和相似性在搜索引擎算法中經(jīng)常遇到。例如,如果用戶(hù)輸入一個(gè)查詢(xún),我們需要從海量的網(wǎng)頁(yè)庫中找到最相關(guān)的結果。下面是如何衡量查詢(xún)和網(wǎng)頁(yè)之間的相似度。對于此類(lèi)問(wèn)題,人們可以根據上下文進(jìn)行判斷。但是機器還好嗎?
  在傳統信息檢索領(lǐng)域,測量文檔相似度的方法其實(shí)有很多,比如經(jīng)典的VSM模型。但是,這些方法通?;谝粋€(gè)基本假設:文檔之間重復的單詞越多,它們相似的可能性就越大。這在實(shí)踐中并不總是正確的。在很多情況下,相關(guān)程度取決于背后的語(yǔ)義聯(lián)系,而不是表面的單詞重復。
  那么,這種語(yǔ)義關(guān)系應該如何衡量呢?事實(shí)上,在自然語(yǔ)言處理領(lǐng)域,已經(jīng)有很多方法可以從單詞、短語(yǔ)、句子和文本的角度來(lái)衡量。本文將介紹語(yǔ)義挖掘的強大工具之一:主題模型。
  什么是主題模型?
  主題模型,顧名思義,就是對文本中隱藏主題的一種建模方法。還是在上面的例子中,單詞“apple”同時(shí)收錄了Apple的主題和fruit的主題。對比第一句,蘋(píng)果的主題與“喬布斯”所代表的主題相匹配,所以我們認為它們是相關(guān)的。
  在這里,讓我們先定義一下主題是什么。主題是一個(gè)概念,一個(gè)方面。它表現為一系列相關(guān)的詞。例如,如果文章與“百度”主題相關(guān),“中文搜索”、“李彥宏”等詞出現的頻率會(huì )更高,如果涉及“IBM”主題,則“筆記本”等會(huì )很頻繁地出現。如果用數學(xué)來(lái)描述的話(huà),題目就是單詞在詞匯表上的條件概率分布。詞的相關(guān)性越近,其條件概率越大,反之亦然。
  例如:
  
  通俗地說(shuō),一個(gè)話(huà)題就像一個(gè)“桶”,里面收錄了一些出現概率較高的詞。這些詞與主題有很強的相關(guān)性,或者正是這些詞共同定義了主題。對于一個(gè)段落,有些詞可能來(lái)自這個(gè)“桶”,有些可能來(lái)自那個(gè)“桶”,而一個(gè)文本往往是幾個(gè)主題的混合體。舉個(gè)簡(jiǎn)單的例子,見(jiàn)下圖。
  
  以上內容摘自網(wǎng)絡(luò )新聞。我們劃分了4個(gè)桶(主題),百度(紅色),微軟(紫色),谷歌(藍色)和市場(chǎng)(綠色)。段落中收錄的每個(gè)主題的單詞都用顏色標記。從顏色分布我們可以看出,文中的主要思想是談?wù)摪俣群褪袌?chǎng)發(fā)展。在這方面,谷歌和微軟的兩個(gè)主題也出現了,但不是主要的語(yǔ)義。值得注意的是,像“搜索引擎”這樣的詞極有可能出現在百度、微軟、谷歌這三個(gè)主題上??梢哉J為一個(gè)詞被放入多個(gè)“桶”中。當它出現在文本中時(shí),這三個(gè)主題在一定程度上得到了體現。
  有了主題的概念,我們不禁要問(wèn),這些主題是怎么得到的?如何分析文章中的話(huà)題?這正是主題模型想要解決的問(wèn)題。讓我簡(jiǎn)單介紹一下主題模型的工作原理。
  主題模型的工作原理
  首先,我們從生成模型的角度來(lái)看文檔和主題這兩個(gè)東西。所謂生成模型,是指我們認為一個(gè)文章中的每個(gè)詞都是通過(guò)“以一定概率選擇某個(gè)主題,并以一定概率從該主題中選擇某個(gè)詞”的過(guò)程獲得的。那么,如果我們要生成一個(gè)文檔,其中每個(gè)詞出現的概率為:
  
  上式可以用矩陣乘法表示,如下圖所示:
  
  左
  
  矩陣表示每個(gè)詞在每個(gè)文章中的概率;中間的Φ矩陣代表每個(gè)話(huà)題中每個(gè)詞的概率
  
  ,即每個(gè)“桶
  表示每個(gè)文檔中每個(gè)主題的概率
  
  ,可以理解為每個(gè)主題在一個(gè)段落中所占的比例。
  如果我們有很多文檔,比如很多網(wǎng)頁(yè),我們首先將所有文檔進(jìn)行分割,得到一個(gè)詞匯表。這樣,每個(gè)文檔都可以表示為一個(gè)詞的集合。對于每個(gè)單詞,我們可以用它在文檔中出現的次數除以文檔中的單詞數作為它在文檔中出現的概率
  
  。這樣,對于任何文檔,
  左邊
  
  矩陣已知,右邊兩個(gè)矩陣未知。主題模型是使用大量已知的“words-documents”
  
  Matrix,通過(guò)一系列的訓練,推斷出右邊的“word-topic”矩陣Φ和“主題文檔”矩陣Θ。
  主題模型訓練和推理主要有兩種方法,一種是pLSA(Probabilistic Latent Semantic Analysis),另一種是LDA(Latent Dirichlet Allocation)。 pLSA主要使用EM(Expectation Maximization)算法; LDA 使用 Gibbs 采樣方法。由于它們比較復雜,篇幅有限,這里只簡(jiǎn)單介紹一下pLSA的思想,其他具體的方法和公式,讀者可以參考相關(guān)資料。
  pLSA采用的方法稱(chēng)為EM(Expectation Maximization)算法,它由兩個(gè)不斷迭代的過(guò)程組成:E(期望)過(guò)程和M(最大化)過(guò)程。舉個(gè)形象例子:假設食堂的廚師炸一道菜,需要分成兩個(gè)人吃。顯然,沒(méi)有必要使用天平來(lái)準確稱(chēng)重。最簡(jiǎn)單的方法是先將菜品隨機分成兩個(gè)碗,然后觀(guān)察數量是否相同,取較多的部分放入另一個(gè)碗中。重復這個(gè)過(guò)程,直到大家都看不到兩個(gè)碗里的菜。到目前為止有何不同。
  對于主題模型訓練,“計算每個(gè)主題的詞分布”和“計算訓練文檔中的主題分布”就像兩個(gè)人分享食物。在E過(guò)程中,我們可以使用貝葉斯公式從“word-topic”矩陣中計算出“topic-document”矩陣。在M過(guò)程中,我們使用“topic-document”矩陣重新計算“term-topic”矩陣。這個(gè)過(guò)程一直是這樣迭代的。 EM 算法的神奇之處在于它可以保證這個(gè)迭代過(guò)程是收斂的。也就是說(shuō),經(jīng)過(guò)反復迭代,我們肯定可以得到趨于真實(shí)值的Φ和Θ。
  如何使用主題模型?
  有了主題模型,我們如何使用它?它的優(yōu)點(diǎn)是什么?我總結了以下幾點(diǎn):
  1) 可以衡量文檔之間的語(yǔ)義相似度。對于一個(gè)文檔,我們找到的主題分布可以看作是它的一個(gè)抽象表示。對于概率分布,我們可以使用一些距離公式(如KL距離)來(lái)計算兩個(gè)文檔的語(yǔ)義距離,從而得到它們之間的相似度。
  2)可以解決多義詞的問(wèn)題?;叵氲谝粋€(gè)例子,“Apple”可能是水果,也可能指蘋(píng)果。通過(guò)我們得到的“word-topic”的概率分布,我們可以知道“apple”屬于哪個(gè)主題,然后我們可以通過(guò)主題的匹配來(lái)計算它與其他文本的相似度。
  3) 可以消除文檔中噪聲的影響。一般來(lái)說(shuō),文檔中的雜音往往出現在次要主題中,我們可以忽略它們,只保留文檔中的主題。
  4) 它是無(wú)人監督且完全自動(dòng)化的。我們只需要提供訓練文檔,它就可以自動(dòng)訓練各種概率,無(wú)需任何人工標注過(guò)程。
  5) 與語(yǔ)言無(wú)關(guān)。只要任何語(yǔ)言都可以對其進(jìn)行分割,就可以訓練得到它的主題分布。
  綜上所述,主題模型是一個(gè)強大的工具,可以挖掘語(yǔ)言背后的隱藏信息。近年來(lái),各大搜索引擎公司開(kāi)始重視這方面的研發(fā)。語(yǔ)義分析技術(shù)正逐漸滲透到搜索領(lǐng)域的各種產(chǎn)品中。在不久的將來(lái),我們的搜索將變得更加智能,讓我們拭目以待。
  紡紗世界 查看全部

  一個(gè)語(yǔ)義挖掘的利器——主題模型(組圖)
  來(lái)自:
  總結:
  兩個(gè)文檔是否相關(guān),往往不僅取決于字面上的重復,還取決于文本背后的語(yǔ)義聯(lián)系。語(yǔ)義關(guān)聯(lián)的挖掘可以使我們的搜索更加智能。本文重點(diǎn)介紹一個(gè)強大的語(yǔ)義挖掘工具:主題模型。主題模型是一種對文本隱含主題進(jìn)行建模的方法。它克服了傳統信息檢索中文檔相似度計算方法的不足,能夠在海量互聯(lián)網(wǎng)數據中自動(dòng)找到文本之間的語(yǔ)義主題。近年來(lái),各大互聯(lián)網(wǎng)公司都開(kāi)始了這方面的探索和嘗試。讓我們看看會(huì )發(fā)生什么。
  關(guān)鍵詞:主題模型
  技術(shù)領(lǐng)域:搜索技術(shù)、自然語(yǔ)言處理
  假設有兩個(gè)句子,我們想知道它們是否相關(guān):
  第一個(gè)是:“工作沒(méi)了?!?br />   第二個(gè)是:“蘋(píng)果會(huì )降價(jià)嗎?”
  如果是人來(lái)判斷的話(huà),我們一看就知道,這兩個(gè)句子雖然沒(méi)有共同的詞,但還是很有關(guān)聯(lián)的。這是因為,雖然第二句中的“apple”可能指的是我們吃的蘋(píng)果,但因為第一句中有“Jobs”,我們自然會(huì )將“apple”解釋為蘋(píng)果產(chǎn)品。事實(shí)上,這種文本句子之間的相關(guān)性和相似性在搜索引擎算法中經(jīng)常遇到。例如,如果用戶(hù)輸入一個(gè)查詢(xún),我們需要從海量的網(wǎng)頁(yè)庫中找到最相關(guān)的結果。下面是如何衡量查詢(xún)和網(wǎng)頁(yè)之間的相似度。對于此類(lèi)問(wèn)題,人們可以根據上下文進(jìn)行判斷。但是機器還好嗎?
  在傳統信息檢索領(lǐng)域,測量文檔相似度的方法其實(shí)有很多,比如經(jīng)典的VSM模型。但是,這些方法通?;谝粋€(gè)基本假設:文檔之間重復的單詞越多,它們相似的可能性就越大。這在實(shí)踐中并不總是正確的。在很多情況下,相關(guān)程度取決于背后的語(yǔ)義聯(lián)系,而不是表面的單詞重復。
  那么,這種語(yǔ)義關(guān)系應該如何衡量呢?事實(shí)上,在自然語(yǔ)言處理領(lǐng)域,已經(jīng)有很多方法可以從單詞、短語(yǔ)、句子和文本的角度來(lái)衡量。本文將介紹語(yǔ)義挖掘的強大工具之一:主題模型。
  什么是主題模型?
  主題模型,顧名思義,就是對文本中隱藏主題的一種建模方法。還是在上面的例子中,單詞“apple”同時(shí)收錄了Apple的主題和fruit的主題。對比第一句,蘋(píng)果的主題與“喬布斯”所代表的主題相匹配,所以我們認為它們是相關(guān)的。
  在這里,讓我們先定義一下主題是什么。主題是一個(gè)概念,一個(gè)方面。它表現為一系列相關(guān)的詞。例如,如果文章與“百度”主題相關(guān),“中文搜索”、“李彥宏”等詞出現的頻率會(huì )更高,如果涉及“IBM”主題,則“筆記本”等會(huì )很頻繁地出現。如果用數學(xué)來(lái)描述的話(huà),題目就是單詞在詞匯表上的條件概率分布。詞的相關(guān)性越近,其條件概率越大,反之亦然。
  例如:
  
  通俗地說(shuō),一個(gè)話(huà)題就像一個(gè)“桶”,里面收錄了一些出現概率較高的詞。這些詞與主題有很強的相關(guān)性,或者正是這些詞共同定義了主題。對于一個(gè)段落,有些詞可能來(lái)自這個(gè)“桶”,有些可能來(lái)自那個(gè)“桶”,而一個(gè)文本往往是幾個(gè)主題的混合體。舉個(gè)簡(jiǎn)單的例子,見(jiàn)下圖。
  
  以上內容摘自網(wǎng)絡(luò )新聞。我們劃分了4個(gè)桶(主題),百度(紅色),微軟(紫色),谷歌(藍色)和市場(chǎng)(綠色)。段落中收錄的每個(gè)主題的單詞都用顏色標記。從顏色分布我們可以看出,文中的主要思想是談?wù)摪俣群褪袌?chǎng)發(fā)展。在這方面,谷歌和微軟的兩個(gè)主題也出現了,但不是主要的語(yǔ)義。值得注意的是,像“搜索引擎”這樣的詞極有可能出現在百度、微軟、谷歌這三個(gè)主題上??梢哉J為一個(gè)詞被放入多個(gè)“桶”中。當它出現在文本中時(shí),這三個(gè)主題在一定程度上得到了體現。
  有了主題的概念,我們不禁要問(wèn),這些主題是怎么得到的?如何分析文章中的話(huà)題?這正是主題模型想要解決的問(wèn)題。讓我簡(jiǎn)單介紹一下主題模型的工作原理。
  主題模型的工作原理
  首先,我們從生成模型的角度來(lái)看文檔和主題這兩個(gè)東西。所謂生成模型,是指我們認為一個(gè)文章中的每個(gè)詞都是通過(guò)“以一定概率選擇某個(gè)主題,并以一定概率從該主題中選擇某個(gè)詞”的過(guò)程獲得的。那么,如果我們要生成一個(gè)文檔,其中每個(gè)詞出現的概率為:
  
  上式可以用矩陣乘法表示,如下圖所示:
  
  左
  
  矩陣表示每個(gè)詞在每個(gè)文章中的概率;中間的Φ矩陣代表每個(gè)話(huà)題中每個(gè)詞的概率
  
  ,即每個(gè)“桶
  表示每個(gè)文檔中每個(gè)主題的概率
  
  ,可以理解為每個(gè)主題在一個(gè)段落中所占的比例。
  如果我們有很多文檔,比如很多網(wǎng)頁(yè),我們首先將所有文檔進(jìn)行分割,得到一個(gè)詞匯表。這樣,每個(gè)文檔都可以表示為一個(gè)詞的集合。對于每個(gè)單詞,我們可以用它在文檔中出現的次數除以文檔中的單詞數作為它在文檔中出現的概率
  
  。這樣,對于任何文檔,
  左邊
  
  矩陣已知,右邊兩個(gè)矩陣未知。主題模型是使用大量已知的“words-documents”
  
  Matrix,通過(guò)一系列的訓練,推斷出右邊的“word-topic”矩陣Φ和“主題文檔”矩陣Θ。
  主題模型訓練和推理主要有兩種方法,一種是pLSA(Probabilistic Latent Semantic Analysis),另一種是LDA(Latent Dirichlet Allocation)。 pLSA主要使用EM(Expectation Maximization)算法; LDA 使用 Gibbs 采樣方法。由于它們比較復雜,篇幅有限,這里只簡(jiǎn)單介紹一下pLSA的思想,其他具體的方法和公式,讀者可以參考相關(guān)資料。
  pLSA采用的方法稱(chēng)為EM(Expectation Maximization)算法,它由兩個(gè)不斷迭代的過(guò)程組成:E(期望)過(guò)程和M(最大化)過(guò)程。舉個(gè)形象例子:假設食堂的廚師炸一道菜,需要分成兩個(gè)人吃。顯然,沒(méi)有必要使用天平來(lái)準確稱(chēng)重。最簡(jiǎn)單的方法是先將菜品隨機分成兩個(gè)碗,然后觀(guān)察數量是否相同,取較多的部分放入另一個(gè)碗中。重復這個(gè)過(guò)程,直到大家都看不到兩個(gè)碗里的菜。到目前為止有何不同。
  對于主題模型訓練,“計算每個(gè)主題的詞分布”和“計算訓練文檔中的主題分布”就像兩個(gè)人分享食物。在E過(guò)程中,我們可以使用貝葉斯公式從“word-topic”矩陣中計算出“topic-document”矩陣。在M過(guò)程中,我們使用“topic-document”矩陣重新計算“term-topic”矩陣。這個(gè)過(guò)程一直是這樣迭代的。 EM 算法的神奇之處在于它可以保證這個(gè)迭代過(guò)程是收斂的。也就是說(shuō),經(jīng)過(guò)反復迭代,我們肯定可以得到趨于真實(shí)值的Φ和Θ。
  如何使用主題模型?
  有了主題模型,我們如何使用它?它的優(yōu)點(diǎn)是什么?我總結了以下幾點(diǎn):
  1) 可以衡量文檔之間的語(yǔ)義相似度。對于一個(gè)文檔,我們找到的主題分布可以看作是它的一個(gè)抽象表示。對于概率分布,我們可以使用一些距離公式(如KL距離)來(lái)計算兩個(gè)文檔的語(yǔ)義距離,從而得到它們之間的相似度。
  2)可以解決多義詞的問(wèn)題?;叵氲谝粋€(gè)例子,“Apple”可能是水果,也可能指蘋(píng)果。通過(guò)我們得到的“word-topic”的概率分布,我們可以知道“apple”屬于哪個(gè)主題,然后我們可以通過(guò)主題的匹配來(lái)計算它與其他文本的相似度。
  3) 可以消除文檔中噪聲的影響。一般來(lái)說(shuō),文檔中的雜音往往出現在次要主題中,我們可以忽略它們,只保留文檔中的主題。
  4) 它是無(wú)人監督且完全自動(dòng)化的。我們只需要提供訓練文檔,它就可以自動(dòng)訓練各種概率,無(wú)需任何人工標注過(guò)程。
  5) 與語(yǔ)言無(wú)關(guān)。只要任何語(yǔ)言都可以對其進(jìn)行分割,就可以訓練得到它的主題分布。
  綜上所述,主題模型是一個(gè)強大的工具,可以挖掘語(yǔ)言背后的隱藏信息。近年來(lái),各大搜索引擎公司開(kāi)始重視這方面的研發(fā)。語(yǔ)義分析技術(shù)正逐漸滲透到搜索領(lǐng)域的各種產(chǎn)品中。在不久的將來(lái),我們的搜索將變得更加智能,讓我們拭目以待。
  紡紗世界

原始軟文區(智能偽原創(chuàng ))SEO說(shuō)難不難,說(shuō)簡(jiǎn)單也不是那么簡(jiǎn)單

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 91 次瀏覽 ? 2021-07-16 23:36 ? 來(lái)自相關(guān)話(huà)題

  原始軟文區(智能偽原創(chuàng ))SEO說(shuō)難不難,說(shuō)簡(jiǎn)單也不是那么簡(jiǎn)單
 ?。?),詞頻控制:關(guān)鍵詞密度,比同行高一點(diǎn)
  (7),內鏈:錨文本方向
 ?。?)、robots和nofollow的使用:引導網(wǎng)絡(luò )蜘蛛,控制權重信息的丟失
  (9),網(wǎng)站來(lái)映射:使用網(wǎng)絡(luò )蜘蛛爬取
 ?。?0),設置404錯誤頁(yè)面和301跳轉:搜索引擎友好和用戶(hù)友好
  (11),網(wǎng)站結構:樹(shù)狀結構,有利于搜索引擎蜘蛛和用戶(hù)判斷的邏輯結構
 ?。?2),網(wǎng)站 主要內容:原創(chuàng ),獨特,有價(jià)值
  (13), 網(wǎng)站description, 圖片標簽
 ?。?4),靜態(tài)頁(yè)面)
  (15),網(wǎng)站行為結構(目錄管理結構)
 ?。?6),快速連接
  (17)TDK 分頁(yè)健康,分頁(yè)
 ?。?8),友情鏈接
  以上幾點(diǎn)雖然很簡(jiǎn)單,但確實(shí)需要一些努力才能做好。同時(shí),這幾點(diǎn)也總結了網(wǎng)站的內容優(yōu)化。做好以上幾點(diǎn),網(wǎng)站的優(yōu)化就基本搞定了。
  總結:
  網(wǎng)站Optimization,網(wǎng)站優(yōu)化很重要,可以說(shuō)直接影響網(wǎng)站的排名,所以做SEO的時(shí)候一定要注意網(wǎng)站優(yōu)化。 網(wǎng)站optimization 是我們一直堅持的工作,搜索引擎優(yōu)化好你的毅力。如果你不堅持每天都做,你就得不到好的排名。
  原創(chuàng )軟文區(smart偽原創(chuàng ))
  SEO難說(shuō),簡(jiǎn)單沒(méi)那么簡(jiǎn)單,很多人問(wèn)我,網(wǎng)站SEO優(yōu)化應該怎么做?但是當我說(shuō)出來(lái)的時(shí)候,他們想:就是這樣?沒(méi)有一點(diǎn)內容是不可能的!事實(shí)上,目前網(wǎng)站上的SEO確實(shí)沒(méi)有太多內容。更多的是細節處理和用戶(hù)體驗。
  有的朋友認為網(wǎng)站優(yōu)化難,因為不知道里面的路,不知道從哪里開(kāi)始。其他人認為優(yōu)化網(wǎng)站和更新文章很容易。這也是因為他們對網(wǎng)站非常感興趣。 SEO不明白。很多培訓機構在關(guān)鍵詞成立后就開(kāi)始更新文章教網(wǎng)站優(yōu)化。沒(méi)有涉及其他內容,所以很多人認為網(wǎng)站優(yōu)化實(shí)際上是更新文章。
  1、提高網(wǎng)站的加載速度
  在這個(gè)信息碎片化的時(shí)代,沒(méi)有人愿意給你等待的機會(huì ),所以網(wǎng)站open加載速度比任何優(yōu)化點(diǎn)都重要。開(kāi)放時(shí)間越短,用戶(hù)滿(mǎn)意度越高。
  搜索引擎也是一樣,所以在優(yōu)化的時(shí)候,考慮可以做些什么來(lái)加速,比如CDN、無(wú)用代碼清除、服務(wù)器寬帶升級、緩存、頁(yè)面瘦身、純靜態(tài)頁(yè)面等優(yōu)化動(dòng)作(具體可查看編輯器介紹《提高網(wǎng)站速度的六種網(wǎng)站前端優(yōu)化方法》)。
  2、title 標題定位
  網(wǎng)站title 標題,也就是你的網(wǎng)站叫什么,通常為了SEO優(yōu)化,會(huì )選擇三到五個(gè)關(guān)鍵詞作為標題,所以標題的順序也是有規律的。權重從左到右依次遞減(詳見(jiàn)“網(wǎng)站頁(yè)面標題設置方法及技巧”介紹)。
  標題需要收錄優(yōu)化關(guān)鍵詞的內容。同時(shí)網(wǎng)站中的多個(gè)頁(yè)面標題不能相同,至少要能閃現“關(guān)鍵詞——網(wǎng)站主頁(yè)——關(guān)鍵詞的簡(jiǎn)要說(shuō)明?!陛斎?,一旦判斷標題,不要再做任何更正了!
  3、 是增強 UI、UX 和品牌的信任感和參與感
  很多用戶(hù)打開(kāi)網(wǎng)站后會(huì )有第一印象。山寨好,當地人好,是否專(zhuān)業(yè)也不是我們想要的結果。頁(yè)面設計需要 UI & UX 投資和品牌自己的口碑來(lái)背書(shū)。否則,用戶(hù)在網(wǎng)站中更難產(chǎn)生信任感和參與感。
  最實(shí)用的做法是參考業(yè)內比較好的網(wǎng)站進(jìn)行模仿,購買(mǎi)付費版網(wǎng)站模板,或者讓用戶(hù)參與每一個(gè)設計過(guò)程。
  4、避免各種促使用戶(hù)離開(kāi)頁(yè)面的元素
  很多彈窗、固定凸窗、廣告位都會(huì )讓用戶(hù)反感,從而放棄整個(gè)瀏覽過(guò)程。這是優(yōu)化過(guò)程中要避免和去除的部分??紤]更多原生方式植入這些元素或獎勵用戶(hù)完成過(guò)程,同時(shí)避免蜘蛛在使用代碼中被禁止或難以捕捉從而被搜索引擎降級的可能性。
  5、關(guān)鍵詞植入
  常規的關(guān)鍵詞植入要繼續做,比如Title、H1、文章內關(guān)鍵詞、外鏈錨文本、內鏈錨文本、圖片ALT、URL、圖片命名等,這個(gè)就不多說(shuō)了,大家懂的,不懂的朋友可以查看小編的介紹《網(wǎng)站上SEO最容易忽略的一些優(yōu)化細節》。
  6、主題模型的注入
  關(guān)鍵詞植入是不夠的,因為那太機械化了,會(huì )失去文字的用戶(hù)體驗,所以我們要做一個(gè)主題模型,比如關(guān)鍵詞“婚紗搭配”我們可以延伸到燕尾服,婚紗禮服、婚紗背心、婚紗套裝、婚禮展銷(xiāo)會(huì )等相關(guān)詞構成一個(gè)大主題。這樣的頁(yè)面內容將使關(guān)鍵詞排名更全面,對更多用戶(hù)有幫助。同時(shí),搜索引擎可以解讀為您要推送的主題內容是與婚紗禮服相關(guān)的內容(具體請參考小編的相關(guān)介紹《如何做好婚禮服裝的SEO優(yōu)化》)網(wǎng)站主題內容模型”)。
  7、顯示文字深度優(yōu)化
  排名顯示的信息對點(diǎn)擊率非常重要,所以我們可能要影響這些顯示的信息(主要是標題、描述、url),這些元素需要在內容上進(jìn)行優(yōu)化:標題創(chuàng )意、描述飄紅、 url規范、文章日期、結構化數據的使用、在線(xiàn)對話(huà)等
  8、創(chuàng )造獨特有價(jià)值的內容
  歸根結底,營(yíng)銷(xiāo)離不開(kāi)內容質(zhì)量。好的內容包括:
 ?。?),提供獨特的視覺(jué)體驗、前端界面、合適的字體和功能按鈕。
 ?。?),內容一定要實(shí)用,高價(jià)值,高可靠,很有趣,值得采集的點(diǎn)都在里面。
 ?。?),與其他內容相比沒(méi)有重復,深度更強大。
 ?。?),打開(kāi)速度快(無(wú)廣告),可在不同終端閱讀。
 ?。?),可以產(chǎn)生贊許、驚喜、快樂(lè )、思考等情緒化的想法。
 ?。?),可以達到一定的轉發(fā)和傳播力。
 ?。?),可以使用完整、準確和獨特的信息來(lái)解決或回答問(wèn)題。
  9、網(wǎng)站規劃調整
  假設原來(lái)的網(wǎng)站是圖片頁(yè)面,使用較多的flash和圖片,這些頁(yè)面元素不利于搜索引擎的進(jìn)入,所以在頁(yè)面底部增加了三列,分別是相關(guān)公司簡(jiǎn)介。 , 關(guān)鍵詞產(chǎn)品新聞和公司關(guān)鍵詞產(chǎn)品列表,三欄內容添加url。
  當然,最好的方法是使用新聞系統更新關(guān)鍵字產(chǎn)品新聞,可以將關(guān)鍵字的具體描述作為從首頁(yè)到單個(gè)頁(yè)面的鏈接,頁(yè)面的描述收錄公司關(guān)鍵詞產(chǎn)品列表連接,這些都是為了形成公司網(wǎng)站內部的網(wǎng)絡(luò )規劃(詳見(jiàn)小編的介紹《從SEO角度優(yōu)化網(wǎng)站首頁(yè)結構布局》)。
  另外,頁(yè)面沒(méi)有必要靜態(tài)化,靜態(tài)化也不一定是整個(gè)網(wǎng)站,你可以只靜態(tài)化最重要的首頁(yè)。對于不同程序的處理,頁(yè)面的執行時(shí)間是不同的。對于互聯(lián)網(wǎng)上成熟的建站系統來(lái)說(shuō),執行效率不用多說(shuō),相信是一個(gè)比較優(yōu)化的水平。
  10、網(wǎng)站SEO優(yōu)化的一些要點(diǎn)
  對于網(wǎng)站SEO優(yōu)化,如果你還是一頭霧水,不妨從以下方便入手,具體內容如下:
  (1), URL: 標準化、唯一性、靜態(tài)化
  (2),導航:主導航、面包屑導航、二級導航
  (3),關(guān)鍵詞:main關(guān)鍵詞(首頁(yè)),副關(guān)鍵詞(專(zhuān)欄),長(cháng)尾關(guān)鍵詞(內容頁(yè))
  (4),標簽:標題、關(guān)鍵詞、描述
  (5),權重標簽:h1-h6 標簽,b 標簽,強標簽
 ?。?),詞頻控制:關(guān)鍵詞密度,略高于同行
  (7),內鏈:定向錨文本
 ?。?),機器人和nofollow使用:引導蜘蛛,控制減肥
  (9),網(wǎng)站Map: 用蜘蛛爬行
 ?。?0),設置404錯誤頁(yè)面和301跳轉:搜索引擎好友和用戶(hù)的友好度
  (11),網(wǎng)站結構:樹(shù)狀結構,利于搜索引擎抓取和用戶(hù)判斷邏輯結構
 ?。?2),網(wǎng)站 內容:原創(chuàng ),獨特,有價(jià)值
  (13), 網(wǎng)站description, 圖片標簽
 ?。?4),靜態(tài)頁(yè)面)
  (15),網(wǎng)站結構(目錄結構)
 ?。?6),快速連接
 ?。?7),子頁(yè)面TDK,子頁(yè)面健康等級
 ?。?8),友情鏈接
  以上幾點(diǎn)雖然簡(jiǎn)單,但要細化,確實(shí)需要一些功夫。同時(shí),這些點(diǎn)也總結了網(wǎng)站優(yōu)化的內容。做好以上幾點(diǎn),網(wǎng)站的優(yōu)化基本就大功告成了。
  總結:
  在網(wǎng)站optimization中,網(wǎng)站的站點(diǎn)優(yōu)化非常重要??梢哉f(shuō)直接影響了網(wǎng)站的排名。所以,SEO一定要重視網(wǎng)站優(yōu)化。 網(wǎng)站optimization 永遠是你做的工作,SEO靠的是毅力。如果你不堅持每天都做好,你就不會(huì )排名好。
  分享了很多SEO優(yōu)化的東西,深刻描繪了一個(gè)SEO站長(cháng)的苦澀成長(cháng)經(jīng)歷。如果你想學(xué)習更多的SEO優(yōu)化技巧,可以在我的專(zhuān)欄里找到更多干貨文章:seo Spark:SEO干貨筆記:SEO站長(cháng)的苦澀成長(cháng)史!
  搜索引擎優(yōu)化
  
  
   查看全部

  原始軟文區(智能偽原創(chuàng ))SEO說(shuō)難不難,說(shuō)簡(jiǎn)單也不是那么簡(jiǎn)單
 ?。?),詞頻控制:關(guān)鍵詞密度,比同行高一點(diǎn)
  (7),內鏈:錨文本方向
 ?。?)、robots和nofollow的使用:引導網(wǎng)絡(luò )蜘蛛,控制權重信息的丟失
  (9),網(wǎng)站來(lái)映射:使用網(wǎng)絡(luò )蜘蛛爬取
 ?。?0),設置404錯誤頁(yè)面和301跳轉:搜索引擎友好和用戶(hù)友好
  (11),網(wǎng)站結構:樹(shù)狀結構,有利于搜索引擎蜘蛛和用戶(hù)判斷的邏輯結構
 ?。?2),網(wǎng)站 主要內容:原創(chuàng ),獨特,有價(jià)值
  (13), 網(wǎng)站description, 圖片標簽
 ?。?4),靜態(tài)頁(yè)面)
  (15),網(wǎng)站行為結構(目錄管理結構)
 ?。?6),快速連接
  (17)TDK 分頁(yè)健康,分頁(yè)
 ?。?8),友情鏈接
  以上幾點(diǎn)雖然很簡(jiǎn)單,但確實(shí)需要一些努力才能做好。同時(shí),這幾點(diǎn)也總結了網(wǎng)站的內容優(yōu)化。做好以上幾點(diǎn),網(wǎng)站的優(yōu)化就基本搞定了。
  總結:
  網(wǎng)站Optimization,網(wǎng)站優(yōu)化很重要,可以說(shuō)直接影響網(wǎng)站的排名,所以做SEO的時(shí)候一定要注意網(wǎng)站優(yōu)化。 網(wǎng)站optimization 是我們一直堅持的工作,搜索引擎優(yōu)化好你的毅力。如果你不堅持每天都做,你就得不到好的排名。
  原創(chuàng )軟文區(smart偽原創(chuàng ))
  SEO難說(shuō),簡(jiǎn)單沒(méi)那么簡(jiǎn)單,很多人問(wèn)我,網(wǎng)站SEO優(yōu)化應該怎么做?但是當我說(shuō)出來(lái)的時(shí)候,他們想:就是這樣?沒(méi)有一點(diǎn)內容是不可能的!事實(shí)上,目前網(wǎng)站上的SEO確實(shí)沒(méi)有太多內容。更多的是細節處理和用戶(hù)體驗。
  有的朋友認為網(wǎng)站優(yōu)化難,因為不知道里面的路,不知道從哪里開(kāi)始。其他人認為優(yōu)化網(wǎng)站和更新文章很容易。這也是因為他們對網(wǎng)站非常感興趣。 SEO不明白。很多培訓機構在關(guān)鍵詞成立后就開(kāi)始更新文章教網(wǎng)站優(yōu)化。沒(méi)有涉及其他內容,所以很多人認為網(wǎng)站優(yōu)化實(shí)際上是更新文章。
  1、提高網(wǎng)站的加載速度
  在這個(gè)信息碎片化的時(shí)代,沒(méi)有人愿意給你等待的機會(huì ),所以網(wǎng)站open加載速度比任何優(yōu)化點(diǎn)都重要。開(kāi)放時(shí)間越短,用戶(hù)滿(mǎn)意度越高。
  搜索引擎也是一樣,所以在優(yōu)化的時(shí)候,考慮可以做些什么來(lái)加速,比如CDN、無(wú)用代碼清除、服務(wù)器寬帶升級、緩存、頁(yè)面瘦身、純靜態(tài)頁(yè)面等優(yōu)化動(dòng)作(具體可查看編輯器介紹《提高網(wǎng)站速度的六種網(wǎng)站前端優(yōu)化方法》)。
  2、title 標題定位
  網(wǎng)站title 標題,也就是你的網(wǎng)站叫什么,通常為了SEO優(yōu)化,會(huì )選擇三到五個(gè)關(guān)鍵詞作為標題,所以標題的順序也是有規律的。權重從左到右依次遞減(詳見(jiàn)“網(wǎng)站頁(yè)面標題設置方法及技巧”介紹)。
  標題需要收錄優(yōu)化關(guān)鍵詞的內容。同時(shí)網(wǎng)站中的多個(gè)頁(yè)面標題不能相同,至少要能閃現“關(guān)鍵詞——網(wǎng)站主頁(yè)——關(guān)鍵詞的簡(jiǎn)要說(shuō)明?!陛斎?,一旦判斷標題,不要再做任何更正了!
  3、 是增強 UI、UX 和品牌的信任感和參與感
  很多用戶(hù)打開(kāi)網(wǎng)站后會(huì )有第一印象。山寨好,當地人好,是否專(zhuān)業(yè)也不是我們想要的結果。頁(yè)面設計需要 UI & UX 投資和品牌自己的口碑來(lái)背書(shū)。否則,用戶(hù)在網(wǎng)站中更難產(chǎn)生信任感和參與感。
  最實(shí)用的做法是參考業(yè)內比較好的網(wǎng)站進(jìn)行模仿,購買(mǎi)付費版網(wǎng)站模板,或者讓用戶(hù)參與每一個(gè)設計過(guò)程。
  4、避免各種促使用戶(hù)離開(kāi)頁(yè)面的元素
  很多彈窗、固定凸窗、廣告位都會(huì )讓用戶(hù)反感,從而放棄整個(gè)瀏覽過(guò)程。這是優(yōu)化過(guò)程中要避免和去除的部分??紤]更多原生方式植入這些元素或獎勵用戶(hù)完成過(guò)程,同時(shí)避免蜘蛛在使用代碼中被禁止或難以捕捉從而被搜索引擎降級的可能性。
  5、關(guān)鍵詞植入
  常規的關(guān)鍵詞植入要繼續做,比如Title、H1、文章內關(guān)鍵詞、外鏈錨文本、內鏈錨文本、圖片ALT、URL、圖片命名等,這個(gè)就不多說(shuō)了,大家懂的,不懂的朋友可以查看小編的介紹《網(wǎng)站上SEO最容易忽略的一些優(yōu)化細節》。
  6、主題模型的注入
  關(guān)鍵詞植入是不夠的,因為那太機械化了,會(huì )失去文字的用戶(hù)體驗,所以我們要做一個(gè)主題模型,比如關(guān)鍵詞“婚紗搭配”我們可以延伸到燕尾服,婚紗禮服、婚紗背心、婚紗套裝、婚禮展銷(xiāo)會(huì )等相關(guān)詞構成一個(gè)大主題。這樣的頁(yè)面內容將使關(guān)鍵詞排名更全面,對更多用戶(hù)有幫助。同時(shí),搜索引擎可以解讀為您要推送的主題內容是與婚紗禮服相關(guān)的內容(具體請參考小編的相關(guān)介紹《如何做好婚禮服裝的SEO優(yōu)化》)網(wǎng)站主題內容模型”)。
  7、顯示文字深度優(yōu)化
  排名顯示的信息對點(diǎn)擊率非常重要,所以我們可能要影響這些顯示的信息(主要是標題、描述、url),這些元素需要在內容上進(jìn)行優(yōu)化:標題創(chuàng )意、描述飄紅、 url規范、文章日期、結構化數據的使用、在線(xiàn)對話(huà)等
  8、創(chuàng )造獨特有價(jià)值的內容
  歸根結底,營(yíng)銷(xiāo)離不開(kāi)內容質(zhì)量。好的內容包括:
 ?。?),提供獨特的視覺(jué)體驗、前端界面、合適的字體和功能按鈕。
 ?。?),內容一定要實(shí)用,高價(jià)值,高可靠,很有趣,值得采集的點(diǎn)都在里面。
 ?。?),與其他內容相比沒(méi)有重復,深度更強大。
 ?。?),打開(kāi)速度快(無(wú)廣告),可在不同終端閱讀。
 ?。?),可以產(chǎn)生贊許、驚喜、快樂(lè )、思考等情緒化的想法。
 ?。?),可以達到一定的轉發(fā)和傳播力。
 ?。?),可以使用完整、準確和獨特的信息來(lái)解決或回答問(wèn)題。
  9、網(wǎng)站規劃調整
  假設原來(lái)的網(wǎng)站是圖片頁(yè)面,使用較多的flash和圖片,這些頁(yè)面元素不利于搜索引擎的進(jìn)入,所以在頁(yè)面底部增加了三列,分別是相關(guān)公司簡(jiǎn)介。 , 關(guān)鍵詞產(chǎn)品新聞和公司關(guān)鍵詞產(chǎn)品列表,三欄內容添加url。
  當然,最好的方法是使用新聞系統更新關(guān)鍵字產(chǎn)品新聞,可以將關(guān)鍵字的具體描述作為從首頁(yè)到單個(gè)頁(yè)面的鏈接,頁(yè)面的描述收錄公司關(guān)鍵詞產(chǎn)品列表連接,這些都是為了形成公司網(wǎng)站內部的網(wǎng)絡(luò )規劃(詳見(jiàn)小編的介紹《從SEO角度優(yōu)化網(wǎng)站首頁(yè)結構布局》)。
  另外,頁(yè)面沒(méi)有必要靜態(tài)化,靜態(tài)化也不一定是整個(gè)網(wǎng)站,你可以只靜態(tài)化最重要的首頁(yè)。對于不同程序的處理,頁(yè)面的執行時(shí)間是不同的。對于互聯(lián)網(wǎng)上成熟的建站系統來(lái)說(shuō),執行效率不用多說(shuō),相信是一個(gè)比較優(yōu)化的水平。
  10、網(wǎng)站SEO優(yōu)化的一些要點(diǎn)
  對于網(wǎng)站SEO優(yōu)化,如果你還是一頭霧水,不妨從以下方便入手,具體內容如下:
  (1), URL: 標準化、唯一性、靜態(tài)化
  (2),導航:主導航、面包屑導航、二級導航
  (3),關(guān)鍵詞:main關(guān)鍵詞(首頁(yè)),副關(guān)鍵詞(專(zhuān)欄),長(cháng)尾關(guān)鍵詞(內容頁(yè))
  (4),標簽:標題、關(guān)鍵詞、描述
  (5),權重標簽:h1-h6 標簽,b 標簽,強標簽
 ?。?),詞頻控制:關(guān)鍵詞密度,略高于同行
  (7),內鏈:定向錨文本
 ?。?),機器人和nofollow使用:引導蜘蛛,控制減肥
  (9),網(wǎng)站Map: 用蜘蛛爬行
 ?。?0),設置404錯誤頁(yè)面和301跳轉:搜索引擎好友和用戶(hù)的友好度
  (11),網(wǎng)站結構:樹(shù)狀結構,利于搜索引擎抓取和用戶(hù)判斷邏輯結構
 ?。?2),網(wǎng)站 內容:原創(chuàng ),獨特,有價(jià)值
  (13), 網(wǎng)站description, 圖片標簽
 ?。?4),靜態(tài)頁(yè)面)
  (15),網(wǎng)站結構(目錄結構)
 ?。?6),快速連接
 ?。?7),子頁(yè)面TDK,子頁(yè)面健康等級
 ?。?8),友情鏈接
  以上幾點(diǎn)雖然簡(jiǎn)單,但要細化,確實(shí)需要一些功夫。同時(shí),這些點(diǎn)也總結了網(wǎng)站優(yōu)化的內容。做好以上幾點(diǎn),網(wǎng)站的優(yōu)化基本就大功告成了。
  總結:
  在網(wǎng)站optimization中,網(wǎng)站的站點(diǎn)優(yōu)化非常重要??梢哉f(shuō)直接影響了網(wǎng)站的排名。所以,SEO一定要重視網(wǎng)站優(yōu)化。 網(wǎng)站optimization 永遠是你做的工作,SEO靠的是毅力。如果你不堅持每天都做好,你就不會(huì )排名好。
  分享了很多SEO優(yōu)化的東西,深刻描繪了一個(gè)SEO站長(cháng)的苦澀成長(cháng)經(jīng)歷。如果你想學(xué)習更多的SEO優(yōu)化技巧,可以在我的專(zhuān)欄里找到更多干貨文章:seo Spark:SEO干貨筆記:SEO站長(cháng)的苦澀成長(cháng)史!
  搜索引擎優(yōu)化
  
  
  

電話(huà)拒絕率低客戶(hù)興趣度高容易成交物超所值

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 69 次瀏覽 ? 2021-07-14 22:54 ? 來(lái)自相關(guān)話(huà)題

  電話(huà)拒絕率低客戶(hù)興趣度高容易成交物超所值
  **SEO優(yōu)化,G3云推廣7.0的**優(yōu)勢:來(lái)電拒絕率低,客戶(hù)興趣高,銷(xiāo)售預約高,產(chǎn)品性?xún)r(jià)比高,交易方便,性?xún)r(jià)比好,單價(jià)高,簡(jiǎn)單的售后。
  大量的彈窗、固定凸窗、廣告位會(huì )讓用戶(hù)反感,放棄整個(gè)瀏覽過(guò)程。這是網(wǎng)站seo優(yōu)化過(guò)程中需要避免和去除的部分??紤]一種更原生的方式來(lái)植入這些元素或獎勵用戶(hù)完成這個(gè)過(guò)程。同時(shí),避免蜘蛛在代碼使用過(guò)程中被搜索引擎禁止或難以捕捉和降級的可能。 , 常規的關(guān)鍵詞 布局。常規的關(guān)鍵詞植入(爆老師稱(chēng)之為填詞)也要繼續做,比如Title、H1、文章內關(guān)鍵詞、外鏈錨文本、內鏈錨文本、圖片ALT、URL ,圖片命名等等。這個(gè)我就不重復了,大家都明白。 ,使用相關(guān)主題模型。僅僅填寫(xiě)文字是不夠的,因為那太機械了,失去了文字用戶(hù)體驗。所以我們要做一個(gè)主題模型,比如關(guān)鍵詞我們可以擴展到燕尾服、婚紗、婚紗背心、婚紗、婚禮展銷(xiāo)會(huì )等相關(guān)詞。
  付費搜索營(yíng)銷(xiāo)不會(huì )增加您的自然流量,但您可以使用入站營(yíng)銷(xiāo)軟件來(lái)優(yōu)化您的網(wǎng)站 以獲得更多訪(fǎng)問(wèn)者。今天,社交媒體可以對您的自然流量趨勢線(xiàn)產(chǎn)生重大影響。即使在幾年前,通過(guò)社交搜索找到您的內容也不例外。但現在 SEO 將考慮推文、轉推、Google+ 作者身份和其他社交信號。社交搜索還將優(yōu)先考慮與您相關(guān)的內容和人員。這可能意味著(zhù)通過(guò) Facebook 交朋友、在 Twitter 上關(guān)注粉絲或通過(guò)其他社交網(wǎng)絡(luò )聯(lián)系。有時(shí),社交搜索甚至會(huì )優(yōu)先考慮影響者分享的內容。所有這一切意味著(zhù),當您考慮 SEO 策略時(shí),您需要考慮您的社交媒體策略如何適應這個(gè)難題。深入思考:將搜索引擎優(yōu)化視為“搜索體驗優(yōu)化”。對他們來(lái)說(shuō),留在您的網(wǎng)站、與您的內容互動(dòng)并稍后回來(lái)非常重要。
  購買(mǎi)入站營(yíng)銷(xiāo)或 SEO 優(yōu)化軟件。檢查表現良好的頁(yè)面。尋找獲得入站鏈接的機會(huì ),例如網(wǎng)站。監控排名和流量的變化。一系列策略,如果您使用它們,將幫助您在搜索引擎中排名更高。
  為了滿(mǎn)足長(cháng)期意圖和排名,圍繞主題而非關(guān)鍵字建立 SEO 營(yíng)銷(xiāo)策略。如果你這樣做,不管怎樣,你會(huì )發(fā)現你自然可以針對重要的關(guān)鍵字進(jìn)行優(yōu)化。了解您的目標受眾(又名買(mǎi)家角色)以及他們對什么感興趣是通過(guò)搜索引擎將相關(guān)訪(fǎng)問(wèn)者吸引到您的 網(wǎng)站 的關(guān)鍵。自然流量是來(lái)自 Google 或 Bing 等搜索引擎的無(wú)償流量。付費搜索營(yíng)銷(xiāo)不會(huì )增加您的自然流量,但您可以使用入站營(yíng)銷(xiāo)軟件來(lái)優(yōu)化您的網(wǎng)站 以獲得更多訪(fǎng)問(wèn)者。今天,社交媒體可以對您的自然流量趨勢線(xiàn)產(chǎn)生重大影響。即使在幾年前,通過(guò)社交搜索找到您的內容也不例外。但現在 SEO 將考慮推文、轉推、Google+ 作者身份和其他社交信號。社交搜索還會(huì )優(yōu)先考慮與您相關(guān)的內容和人員。 查看全部

  電話(huà)拒絕率低客戶(hù)興趣度高容易成交物超所值
  **SEO優(yōu)化,G3云推廣7.0的**優(yōu)勢:來(lái)電拒絕率低,客戶(hù)興趣高,銷(xiāo)售預約高,產(chǎn)品性?xún)r(jià)比高,交易方便,性?xún)r(jià)比好,單價(jià)高,簡(jiǎn)單的售后。
  大量的彈窗、固定凸窗、廣告位會(huì )讓用戶(hù)反感,放棄整個(gè)瀏覽過(guò)程。這是網(wǎng)站seo優(yōu)化過(guò)程中需要避免和去除的部分??紤]一種更原生的方式來(lái)植入這些元素或獎勵用戶(hù)完成這個(gè)過(guò)程。同時(shí),避免蜘蛛在代碼使用過(guò)程中被搜索引擎禁止或難以捕捉和降級的可能。 , 常規的關(guān)鍵詞 布局。常規的關(guān)鍵詞植入(爆老師稱(chēng)之為填詞)也要繼續做,比如Title、H1、文章內關(guān)鍵詞、外鏈錨文本、內鏈錨文本、圖片ALT、URL ,圖片命名等等。這個(gè)我就不重復了,大家都明白。 ,使用相關(guān)主題模型。僅僅填寫(xiě)文字是不夠的,因為那太機械了,失去了文字用戶(hù)體驗。所以我們要做一個(gè)主題模型,比如關(guān)鍵詞我們可以擴展到燕尾服、婚紗、婚紗背心、婚紗、婚禮展銷(xiāo)會(huì )等相關(guān)詞。
  付費搜索營(yíng)銷(xiāo)不會(huì )增加您的自然流量,但您可以使用入站營(yíng)銷(xiāo)軟件來(lái)優(yōu)化您的網(wǎng)站 以獲得更多訪(fǎng)問(wèn)者。今天,社交媒體可以對您的自然流量趨勢線(xiàn)產(chǎn)生重大影響。即使在幾年前,通過(guò)社交搜索找到您的內容也不例外。但現在 SEO 將考慮推文、轉推、Google+ 作者身份和其他社交信號。社交搜索還將優(yōu)先考慮與您相關(guān)的內容和人員。這可能意味著(zhù)通過(guò) Facebook 交朋友、在 Twitter 上關(guān)注粉絲或通過(guò)其他社交網(wǎng)絡(luò )聯(lián)系。有時(shí),社交搜索甚至會(huì )優(yōu)先考慮影響者分享的內容。所有這一切意味著(zhù),當您考慮 SEO 策略時(shí),您需要考慮您的社交媒體策略如何適應這個(gè)難題。深入思考:將搜索引擎優(yōu)化視為“搜索體驗優(yōu)化”。對他們來(lái)說(shuō),留在您的網(wǎng)站、與您的內容互動(dòng)并稍后回來(lái)非常重要。
  購買(mǎi)入站營(yíng)銷(xiāo)或 SEO 優(yōu)化軟件。檢查表現良好的頁(yè)面。尋找獲得入站鏈接的機會(huì ),例如網(wǎng)站。監控排名和流量的變化。一系列策略,如果您使用它們,將幫助您在搜索引擎中排名更高。
  為了滿(mǎn)足長(cháng)期意圖和排名,圍繞主題而非關(guān)鍵字建立 SEO 營(yíng)銷(xiāo)策略。如果你這樣做,不管怎樣,你會(huì )發(fā)現你自然可以針對重要的關(guān)鍵字進(jìn)行優(yōu)化。了解您的目標受眾(又名買(mǎi)家角色)以及他們對什么感興趣是通過(guò)搜索引擎將相關(guān)訪(fǎng)問(wèn)者吸引到您的 網(wǎng)站 的關(guān)鍵。自然流量是來(lái)自 Google 或 Bing 等搜索引擎的無(wú)償流量。付費搜索營(yíng)銷(xiāo)不會(huì )增加您的自然流量,但您可以使用入站營(yíng)銷(xiāo)軟件來(lái)優(yōu)化您的網(wǎng)站 以獲得更多訪(fǎng)問(wèn)者。今天,社交媒體可以對您的自然流量趨勢線(xiàn)產(chǎn)生重大影響。即使在幾年前,通過(guò)社交搜索找到您的內容也不例外。但現在 SEO 將考慮推文、轉推、Google+ 作者身份和其他社交信號。社交搜索還會(huì )優(yōu)先考慮與您相關(guān)的內容和人員。

如何做好seo相關(guān)性?xún)热萏嵘W(wǎng)站自身權重排名與流量

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 66 次瀏覽 ? 2021-07-14 22:49 ? 來(lái)自相關(guān)話(huà)題

  如何做好seo相關(guān)性?xún)热萏嵘W(wǎng)站自身權重排名與流量
  也許對于網(wǎng)站,seo 不是最好的營(yíng)銷(xiāo)策略。無(wú)需競標一系列按點(diǎn)擊付費的廣告更直接,但優(yōu)化一個(gè)網(wǎng)站對企業(yè)無(wú)害。如果搜索引擎營(yíng)銷(xiāo) (SEM) 是設計、運行和優(yōu)化搜索引擎廣告活動(dòng)的實(shí)踐,那么做網(wǎng)站 的基本工作就更好了。它與SEO區別的最簡(jiǎn)單描述是搜索結果中付費和未付費優(yōu)先級排名的差異。它的目的比相關(guān)性更突出。但是做seo相關(guān)的內容也是提升網(wǎng)站自身權重排名和流量的關(guān)鍵。
  產(chǎn)生足夠的投資回報。當然網(wǎng)站內容質(zhì)量?jì)?yōu)化是少不了的。 網(wǎng)站內容優(yōu)化是對頁(yè)面內容和編碼的更新和調整,使內容對搜索引擎更具吸引力,使搜索者能夠快速找到自己想要的內容。在大多數情況下,我們不可能 100% 優(yōu)化每個(gè)頁(yè)面。隨著(zhù)百度算法的不斷更新,內容質(zhì)量是一個(gè)長(cháng)期持續的過(guò)程。
  
  那么如何優(yōu)化頁(yè)面內容呢?以下是我們需要考慮的主要因素:
  標題標簽。
  元描述。
  ALT 標簽。
  網(wǎng)址結構。
  媒體(圖片、視頻)。
  H1、H2 和 H3 標簽。
  內部鏈接。
  出站鏈接。
  移動(dòng)響應
  這些因素是第一步,SEO技巧不假思索。但內容,即占據網(wǎng)頁(yè)大部分的博客、圖片、視頻,也必須進(jìn)行優(yōu)化。優(yōu)化舊帖子而不是創(chuàng )建新帖子會(huì )對自然排名和搜索存在產(chǎn)生重大影響。
  
  內容優(yōu)化優(yōu)先級:從哪里開(kāi)始,做什么?
  優(yōu)化內容時(shí),您應該針對單個(gè)關(guān)鍵字優(yōu)化整個(gè)頁(yè)面。二級和潛在語(yǔ)義索引 (LSI) 關(guān)鍵字將起作用,但搜索引擎和消費者需要絕對清楚您的頁(yè)面(博客)是什么,以及它與主題、標題、副標題和元模型相關(guān)性的關(guān)系。為此,激光只關(guān)注一個(gè)關(guān)鍵字。
  然后我們需要提高頁(yè)面的準確率。如果您的頁(yè)面在后臺正確標記并且所有元數據都與關(guān)鍵字相關(guān),那么我們需要更新副本的深度。我們稱(chēng)之為“內容深度”。內容差距分析表明,您需要在更新的內容中收錄好主意,以滿(mǎn)足搜索者的意圖。這是一個(gè)分步藍圖,用于為您保留哪些內容以及更改哪些內容。增加讀者價(jià)值:不要忽視關(guān)鍵詞的重要方面。我們還需要對關(guān)鍵詞進(jìn)行適當的擴展,試圖找出用戶(hù)搜索需求的可能性。
  網(wǎng)站中的每一個(gè)內容都有內在價(jià)值。做好優(yōu)化不是一天就能完成的,必須持續跟進(jìn)完善網(wǎng)站數據。您的網(wǎng)站可以在眾多同行中脫穎而出,達到網(wǎng)站推廣排名的理想位置,做更多有價(jià)值的內容營(yíng)銷(xiāo)。 查看全部

  如何做好seo相關(guān)性?xún)热萏嵘W(wǎng)站自身權重排名與流量
  也許對于網(wǎng)站,seo 不是最好的營(yíng)銷(xiāo)策略。無(wú)需競標一系列按點(diǎn)擊付費的廣告更直接,但優(yōu)化一個(gè)網(wǎng)站對企業(yè)無(wú)害。如果搜索引擎營(yíng)銷(xiāo) (SEM) 是設計、運行和優(yōu)化搜索引擎廣告活動(dòng)的實(shí)踐,那么做網(wǎng)站 的基本工作就更好了。它與SEO區別的最簡(jiǎn)單描述是搜索結果中付費和未付費優(yōu)先級排名的差異。它的目的比相關(guān)性更突出。但是做seo相關(guān)的內容也是提升網(wǎng)站自身權重排名和流量的關(guān)鍵。
  產(chǎn)生足夠的投資回報。當然網(wǎng)站內容質(zhì)量?jì)?yōu)化是少不了的。 網(wǎng)站內容優(yōu)化是對頁(yè)面內容和編碼的更新和調整,使內容對搜索引擎更具吸引力,使搜索者能夠快速找到自己想要的內容。在大多數情況下,我們不可能 100% 優(yōu)化每個(gè)頁(yè)面。隨著(zhù)百度算法的不斷更新,內容質(zhì)量是一個(gè)長(cháng)期持續的過(guò)程。
  
  那么如何優(yōu)化頁(yè)面內容呢?以下是我們需要考慮的主要因素:
  標題標簽。
  元描述。
  ALT 標簽。
  網(wǎng)址結構。
  媒體(圖片、視頻)。
  H1、H2 和 H3 標簽。
  內部鏈接。
  出站鏈接。
  移動(dòng)響應
  這些因素是第一步,SEO技巧不假思索。但內容,即占據網(wǎng)頁(yè)大部分的博客、圖片、視頻,也必須進(jìn)行優(yōu)化。優(yōu)化舊帖子而不是創(chuàng )建新帖子會(huì )對自然排名和搜索存在產(chǎn)生重大影響。
  
  內容優(yōu)化優(yōu)先級:從哪里開(kāi)始,做什么?
  優(yōu)化內容時(shí),您應該針對單個(gè)關(guān)鍵字優(yōu)化整個(gè)頁(yè)面。二級和潛在語(yǔ)義索引 (LSI) 關(guān)鍵字將起作用,但搜索引擎和消費者需要絕對清楚您的頁(yè)面(博客)是什么,以及它與主題、標題、副標題和元模型相關(guān)性的關(guān)系。為此,激光只關(guān)注一個(gè)關(guān)鍵字。
  然后我們需要提高頁(yè)面的準確率。如果您的頁(yè)面在后臺正確標記并且所有元數據都與關(guān)鍵字相關(guān),那么我們需要更新副本的深度。我們稱(chēng)之為“內容深度”。內容差距分析表明,您需要在更新的內容中收錄好主意,以滿(mǎn)足搜索者的意圖。這是一個(gè)分步藍圖,用于為您保留哪些內容以及更改哪些內容。增加讀者價(jià)值:不要忽視關(guān)鍵詞的重要方面。我們還需要對關(guān)鍵詞進(jìn)行適當的擴展,試圖找出用戶(hù)搜索需求的可能性。
  網(wǎng)站中的每一個(gè)內容都有內在價(jià)值。做好優(yōu)化不是一天就能完成的,必須持續跟進(jìn)完善網(wǎng)站數據。您的網(wǎng)站可以在眾多同行中脫穎而出,達到網(wǎng)站推廣排名的理想位置,做更多有價(jià)值的內容營(yíng)銷(xiāo)。

編輯推薦《這就是搜索引擎:核心技術(shù)詳解》

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 121 次瀏覽 ? 2021-07-11 07:01 ? 來(lái)自相關(guān)話(huà)題

  
編輯推薦《這就是搜索引擎:核心技術(shù)詳解》
  
  編輯推薦
  《這就是搜索引擎:核心技術(shù)詳解》適合所有對搜索引擎技術(shù)感興趣的人,尤其是相關(guān)領(lǐng)域的學(xué)生、對搜索引擎核心技術(shù)感興趣的技術(shù)人員、相關(guān)從業(yè)人員在搜索引擎優(yōu)化方面,中小網(wǎng)站站長(cháng)等更有參考價(jià)值。
  作者其他作品《大數據日常知識:架構與算法》
  內容介紹
  搜索引擎作為互聯(lián)網(wǎng)發(fā)展中至關(guān)重要的應用,已經(jīng)成為互聯(lián)網(wǎng)各個(gè)領(lǐng)域的制高點(diǎn),其重要性不言而喻。搜索引擎領(lǐng)域也是互聯(lián)網(wǎng)應用中少有的以核心技術(shù)為命脈的領(lǐng)域。搜索引擎的各個(gè)子系統是如何設計的?這已成為廣大技術(shù)人員和搜索引擎優(yōu)化者關(guān)注的內容。
  《這就是搜索引擎:核心技術(shù)詳解》的特點(diǎn)是內容新穎、全面、通俗易懂。對實(shí)際搜索引擎中涉及的各種核心技術(shù)進(jìn)行了全面詳細的介紹。除了以網(wǎng)絡(luò )爬蟲(chóng)、索引系統、排名系統、鏈接分析和用戶(hù)分析為核心的搜索系統外,還包括網(wǎng)頁(yè)反作弊、緩存管理、網(wǎng)頁(yè)重復數據刪除技術(shù)等實(shí)際搜索引擎必須具備的技術(shù)。關(guān)注,同時(shí)在相當大的篇幅中講解了云計算和云存儲的核心技術(shù)原理。此外,本書(shū)還密切關(guān)注搜索引擎開(kāi)發(fā)的前沿技術(shù):谷歌的咖啡因系統和Megastore等新的云計算技術(shù)、百度的暗網(wǎng)爬蟲(chóng)技術(shù)阿拉丁計劃、內容農場(chǎng)作弊、機器學(xué)習排序等。許多新技術(shù)在相關(guān)章節中有詳細的講解,同時(shí)對社交搜索、實(shí)時(shí)搜索、上下文搜索等搜索引擎未來(lái)的發(fā)展方向給出了技術(shù)展望。為了加深讀者的理解,書(shū)中引入了大量生動(dòng)的圖片來(lái)講解算法的原理。相信讀者會(huì )發(fā)現,原來(lái)搜索引擎的核心技術(shù)比原先想象的要簡(jiǎn)單得多。
  作者簡(jiǎn)介
  張俊林著(zhù)有技術(shù)書(shū)籍《這就是搜索引擎:核心技術(shù)詳解》,現任暢捷通智能平臺總監。在此之前,張君林曾任阿里巴巴風(fēng)潮廣告平臺、百度商業(yè)搜索部、新浪微博搜索部和數據系統部高級技術(shù)專(zhuān)家,新浪微博技術(shù)委員會(huì )委員,負責方向算法策略。張君林也是智能信息聚合網(wǎng)站“玩聚網(wǎng)”的聯(lián)合創(chuàng )始人之一。他的研發(fā)興趣集中在:搜索技術(shù)、推薦系統、社交挖掘、自然語(yǔ)言處理和大數據算法架構等,在上述領(lǐng)域有多年的行業(yè)實(shí)踐經(jīng)驗。張君林畢業(yè)于天津大學(xué)管理學(xué)院,獲學(xué)士學(xué)位。 1999年至2004年在中國科學(xué)院軟件研究所直接攻讀博士學(xué)位。研究方向為信息檢索理論和自然語(yǔ)言處理。學(xué)習期間,在A(yíng)CL/COLING/IJCNLP等頂級國際會(huì )議上發(fā)表多篇文章。學(xué)術(shù)論文。此外,他在此期間設計的搜索系統贏(yíng)得了17個(gè)國際高水平研究團隊的激烈競爭,并在美國國防部DARPA主辦的第二屆TREC高精度檢索系統評估中排名第一。取名效果極佳。
  內容
  第一章搜索引擎及其技術(shù)架構
  1.1 為什么搜索引擎很重要
  1.1.1 互聯(lián)網(wǎng)的發(fā)展
  1.1.2 商業(yè)搜索引擎公司的發(fā)展
  1.1.3 搜索引擎的重要地位
  1.2搜索引擎技術(shù)發(fā)展歷程
  1.2.1史前時(shí)代:目錄的產(chǎn)生
  1.2.2 第一代:文本檢索的產(chǎn)生
  1.2.3 第二代:鏈路分析的產(chǎn)生
  1.2.4 第三代:以用戶(hù)為中心的一代
  1.3 搜索引擎的3個(gè)目標
  1.4 搜索引擎的3個(gè)核心問(wèn)題
  1.4.13個(gè)核心問(wèn)題
  1.4.2 與技術(shù)發(fā)展的關(guān)系
  1.5搜索引擎技術(shù)架構
  第 2 章網(wǎng)絡(luò )爬蟲(chóng)
  2.1 通用爬蟲(chóng)框架
  2.2 優(yōu)秀爬蟲(chóng)的特點(diǎn)
  2.3 爬蟲(chóng)質(zhì)量評價(jià)標準
  2.4 爬取策略
  2.4.1 廣度優(yōu)先遍歷策略(BreathFirst)
  2.4.2 部分 PageRank 策略(PartialPageRank)
  2.4.3OCIP 策略(OnlinePageImportanceComputation)
  2.4.4LargerSitesFirst 策略(LargerSitesFirst)
  2.5網(wǎng)頁(yè)更新策略
  2.5.1歷史參考策略
  2.5.2用戶(hù)體驗策略
  2.5.3 聚類(lèi)抽樣策略
  2.6DeepWebCrawling(DeepWebCrawling)
  2.6.1 查詢(xún)組合問(wèn)題
  2.6.2 在文本框中填寫(xiě)問(wèn)題
  2.7 分布式爬蟲(chóng)
  2.7.1 主從分發(fā)爬蟲(chóng)(Master-Slave)
  2.7.2 點(diǎn)對點(diǎn)(PeertoPeer)
  本章總結
  本章參考資料
  第 3 章搜索引擎索引
  3.1索引基礎
  3.1.1 字——文檔矩陣
  3.1.2 倒排索引的基本概念
  3.1.3 倒排索引的簡(jiǎn)單例子
  3.2 詞詞典
  3.2.1 哈希加鏈表
  3.2.2樹(shù)結構
  3.3PostingList
  3.4創(chuàng )建索引
  3.4.1 兩遍文檔遍歷方法(2-PassIn-MemoryInversion)
  3.4.2Sort-basedInversion(Sort-basedInversion)
  3.4.3Merge-basedInversion(Merge-basedInversion)
  3.5動(dòng)態(tài)索引
  3.6 索引更新策略
  3.6.1 完整重建策略(CompleteRe-Build)
  3.6.2 重新合并策略(Re-Merge)
  3.6.3 就地更新策略(In-Place)
  3.6.4 混合策略(Hybrid)
  3.7查詢(xún)處理
  3.7.1 一次一個(gè)文檔(DocataTime)
  3.7.2 一次一個(gè)字(TermataTime)
  3.7.3SkipPointers(SkipPointers)
  3.8多字段索引
  3.8.1多索引法
  3.8.2倒排列表法
  3.8.3擴展列表方法(ExtentList)
  3.9phrase 查詢(xún)
  3.9.1位置索引(PositionIndex)
  3.9.2 二字索引(NextwordIndex)
  3.9.3 PhraseIndex (PhraseIndex)
  3.9.4 混合方法
  3.10分布式索引(ParallelIndexing)
  3.10.??1 按文檔劃分(DocumentPartitioning)
  3.10.??2 按詞劃分(TermPartitioning)
  3.10.??3 兩種方案對比
  本章總結
  本章參考資料
  第 4 章索引壓縮
  4.1 字典壓縮
  4.2倒列表壓縮算法
  4.2.1 評價(jià)指標壓縮算法指標
  4.2.2 一元編碼和二進(jìn)制編碼
  4.2.3EliasGamma 算法和 EliasDelta 算法
  4.2.4Golomb 算法和 Rice 算法
  4.2.5 變長(cháng)字節算法(VariableByte)
  4.2.6SimpleX 系列算法
  4.2.7PForDelta 算法
  4.3 DocIDReordering(DocIDReordering)
  4.4StaticIndexPruning (StaticIndexPruning)
  4.4.1 以詞為中心的索引剪裁
  4.4.2 以文檔為中心的索引裁剪
  本章總結
  本章參考資料
  第 5 章搜索模型和搜索排序
  5.1BooleanModel (BooleanModel)
  5.2VectorSpaceModel (VectorSpaceModel)
  5.2.1文檔表示
  5.2.2 相似度計算
  5.2.3特征權重計算
  5.3概率檢索模型
  5.3.1 概率排序原則
  5.3.2BinaryIndependentModel(BinaryIndependentModel)
  5.3.3BM25 模型
  5.3.4BM25F 模型
  5.4 語(yǔ)言模型方法
  5.5 機器學(xué)習排名(LearningtoRank)
  5.5.1機器學(xué)習排序的基本思路
  5.5.2 單文檔方法(PointWiseApproach)
  5.5.3文檔對方法(PairWiseApproach)
  5.5.4 文檔列表方法(ListWiseApproach)
  5.6 搜索質(zhì)量評價(jià)標準
  5.6.1準確率和召回率
  5.6.2P@10個(gè)指標
  5.6.3MAP 指標(MeanAveragePrecision)
  本章總結
  本章參考資料
  第六章鏈接分析
  6.1網(wǎng)頁(yè)圖片
  6.2 兩個(gè)概念模型和算法的關(guān)系
  6.2.1RandomSurferModel (RandomSurferModel)
  6.2.2 子集傳播模型
  6.2.3 鏈接分析算法之間的關(guān)系
  6.3PageRank 算法
  6.3.1 從鏈內數到PageRank
  6.3.2PageRank 計算
  6.3.3 鏈接陷阱(LinkSink)和遠程跳轉(Teleporting)
  6.4HITS 算法(HypertextInducedTopicSelection)
  6.4.1Hub 頁(yè)面和權限頁(yè)面
  6.4.2 互增關(guān)系
  6.4.3HITS 算法
  6.4.4HITS 算法問(wèn)題
  6.4.5HITS算法與PageRank算法對比
  6.5SALSA 算法
  6.5.1 確定計算對象集
  6.5.2 鏈接關(guān)系傳播
  6.5.3權限權重計算
  6.6 主題敏感頁(yè)面排名(TopicSensitivePageRank)
  6.6.1 主題敏感的PageRank和PageRank的區別
  6.6.2 主題敏感的PageRank計算過(guò)程
  6.6.3 使用主題敏感的PageRank構建個(gè)性化搜索
  6.7Hilltop 算法
  6.7.1 Hilltop 算法的一些基本定義
  6.7.2Hilltop 算法
  6.8 其他改進(jìn)算法
  6.8.1IntelligentSurferModel(智能沖浪模型)
  6.8.2 BiasedSurferModel(BiasedSurferModel)
  6.8.3PHITS 算法(ProbabilityAnalogyofHITS)
  6.8.4BFS 算法(BackwardForwardStep)
  本章總結
  本章參考資料
  第 7 章云存儲和云計算
  7.1 云存儲和云計算概述
  7.1.1 基本假設
  7.1.2理論基礎
  7.1.3 數據模型
  7.1.4 基本問(wèn)題
  7.1.5Google 的云存儲和云計算架構
  7.2Google 文件系統 (GFS)
  7.2.1GFS 設計原則
  7.2.2GFS 整體架構
  7.2.3GFS 主控服務(wù)器
  7.2.4 系統交互行為
  7.3Chubby 鎖服務(wù)
  7.4BigTable
  7.4.1BigTable 的數據模型
  7.4.2BigTable 整體結構
  7.4.3BigTable 的管理數據
  7.4.4MasterServer
  7.4.5 分表服務(wù)器(TabletServer)
  7.5Megastore 系統
  7.5.1 實(shí)體組切分
  7.5.2數據模型
  7.5.3數據讀寫(xiě)與備份
  7.6Map/Reduce 云計算模型
  7.6.1計算模型
  7.6.2 整體邏輯流程
  7.6.3 應用實(shí)例
  7.7Caffeine System-Percolator
  7.7.1 事務(wù)支持
  7.7.2 觀(guān)察/通知架構
  7.8Pregel 圖計算模型
  7.9Dynomo 云存儲系統
  7.9.1 數據分區算法(PartitioningAlgorithm)
  7.9.2數據備份(復制)
  7.9.3數據讀寫(xiě)
  7.9.4數據版本控制
  7.10PNUTS 云存儲系統
  7.10.??1PNUTS 整體架構
  7.10.??2 存儲單元
  7.10.??3 分表控制器和數據路由器
  7.10.??4 雅虎通訊社
  7.10.??5 數據一致性
  7.11HayStack 存儲系統
  7.11.1HayStack 整體架構
  7.11.2 目錄服務(wù)
  7.11.3HayStack 緩存
  7.11.4HayStack 存儲系統
  本章總結
  本章參考資料
  第8章網(wǎng)絡(luò )反作弊
  8.1內容作弊
  8.1.1常見(jiàn)的內容作弊方法
  8.1.2內容農場(chǎng)(ContentFarm)
  8.2 鏈接作弊
  8.3 頁(yè)面隱藏作弊
  8.4Web2.0 作弊方法
  8.5反作弊技術(shù)總體思路
  8.5.1 信任傳播模型
  8.5.2 不信任傳播模型
  8.5.3 異常發(fā)現模型
  8.6 萬(wàn)能鏈接反作弊方法
  8.6.1TrustRank 算法
  8.6.2BadRank 算法
  8.6.3SpamRank
  8.7 專(zhuān)用鏈接防作弊技術(shù)
  8.7.1 識別鏈接農場(chǎng)
  8.7.2 識別谷歌轟炸
  8.8 識別內容作弊
  8.9反隱藏作弊
  8.9.1 識別頁(yè)面隱藏
  8.9.2 識別網(wǎng)頁(yè)重定向
  8.10 搜索引擎反作弊綜合框架
  本章總結
  本章參考資料
  第九章用戶(hù)查詢(xún)意圖分析
  9.1搜索行為及其意圖
  9.1.1用戶(hù)搜索行為
  9.1.2用戶(hù)搜索意圖分類(lèi)
  9.2搜索日志挖掘
  9.2.1查詢(xún)會(huì )話(huà)(QuerySession)
  9.2.2ClickGraph (ClickGraph)
  9.2.3查詢(xún)圖(QueryGraph)
  9.3 相關(guān)搜索
  9.3.1 基于查詢(xún)會(huì )話(huà)的方法
  9.3.2 基于點(diǎn)擊圖的方法
  9.4檢查糾錯
  9.4.1EditDistance(編輯距離)
  9.4.2 噪聲通道模型(NoiseChannelModel)
  本章總結
  本章參考資料
  第十章網(wǎng)頁(yè)去重
  10.??1 通用去重算法框架
  10.??2Shingling 算法
  10.??3I-Match 算法
  10.??4SimHash 算法
  10.??4.1 文檔指紋計算
  10.??4.2 搜索類(lèi)似文檔
  10.??5SpotSig 算法
  10.??5.1 特征提取
  10.??5.2 搜索類(lèi)似文檔
  本章總結
  本章參考資料
  第11章搜索引擎緩存機制
  11.1搜索引擎緩存系統架構
  11.2Cache 對象
  11.3緩存結構
  11.4緩存消除策略(EvictPolicy)
  11.4.1 動(dòng)態(tài)策略
  11.4.2 混合策略
  11.5緩存更新策略(RefreshPolicy)
  本章總結
  本章參考資料
  第十二章搜索引擎發(fā)展趨勢
  12.1個(gè)性化搜索
  12.2社交搜索
  12.3 實(shí)時(shí)搜索
  12.4手機搜索
  12.5 位置感知搜索
  12.6跨語(yǔ)言搜索
  12.7多媒體搜索
  12.8情況搜索
  前言
  互聯(lián)網(wǎng)產(chǎn)品種類(lèi)繁多,以產(chǎn)品為導向,以營(yíng)銷(xiāo)為導向,以技術(shù)為導向,但精通技術(shù)的互聯(lián)網(wǎng)產(chǎn)品比例相對較小。搜索引擎是當前互聯(lián)網(wǎng)產(chǎn)品中具有技術(shù)含量的產(chǎn)品,如果不是唯一的,至少是其中之一。
  經(jīng)過(guò)十多年的發(fā)展,搜索引擎已經(jīng)成為互聯(lián)網(wǎng)的重要門(mén)戶(hù)之一。 Twitter聯(lián)合創(chuàng )始人埃文威廉姆斯提出“域名已死理論”:容易記住的域名不再重要,因為人們會(huì )通過(guò)搜索輸入網(wǎng)站。搜索引擎排名對于中小網(wǎng)站流量非常重要。了解搜索引擎簡(jiǎn)單界面背后的技術(shù)原理,對很多人來(lái)說(shuō)其實(shí)很重要。
  為什么會(huì )有這本書(shū)
  寫(xiě)搜索引擎技術(shù)書(shū)籍的最初想法是兩年前誕生的。當時(shí)的場(chǎng)景是對團隊成員進(jìn)行搜索技術(shù)培訓,但是我搜索了相關(guān)書(shū)籍,卻沒(méi)有找到一本非常合適的搜索技術(shù)入門(mén)書(shū)籍。當時(shí)市場(chǎng)上的書(shū)籍,要么是信息檢索理論的專(zhuān)著(zhù),理論性太強,不易理解,真正講搜索引擎技術(shù)的章節也不多;或者它們是太實(shí)用的書(shū),比如 Lucene 代碼分析,比如搜索引擎。這種直接分析開(kāi)源系統代碼的算法應用并不是一種非常高效的學(xué)習方法。所以當時(shí)就誕生了寫(xiě)一本通俗易懂,適合沒(méi)有相關(guān)技術(shù)背景的人,比較全面,融合新技術(shù)的搜索引擎書(shū)籍。但我是在一年前開(kāi)始寫(xiě)作的。
  在寫(xiě)這本書(shū)之前,我為自己設定了一些目標。首先,內容要全面,即全面覆蓋搜索引擎相關(guān)技術(shù)的主要方面。不僅要收錄倒排索引、檢索模型、爬蟲(chóng)等常用內容,還要詳細講解鏈接分析、網(wǎng)頁(yè)反作弊、用戶(hù)搜索意圖分析、網(wǎng)頁(yè)云存儲和去重甚至搜索引擎緩存都是有機的一個(gè)完整的搜索引擎的組成部分,但詳細介紹其原理的書(shū)籍并不多。我希望盡可能全面。
  第二個(gè)目標很容易理解。我希望沒(méi)有任何相關(guān)技術(shù)背景的人可以從閱讀本書(shū)中學(xué)到一些東西,不了解技術(shù)的學(xué)生可以大致理解。這個(gè)目標看似簡(jiǎn)單,但實(shí)際上實(shí)現起來(lái)并不容易。我不敢說(shuō)這本書(shū)達到了這個(gè)目標,但我已經(jīng)盡力了。具體措施包括以下三個(gè)方面。
  一是盡可能減少數學(xué)公式的數量,除非公式?jīng)]有列出。盡管數學(xué)公式具有簡(jiǎn)單之美,但大多數人實(shí)際上對數學(xué)符號存在恐懼和回避。多年前我也有類(lèi)似的心理,所以盡可能不要使用數學(xué)公式。
  一是盡量多舉例,特別是一些比較難理解的地方。需要舉例來(lái)加深理解。
  還有更多的繪圖。就我個(gè)人的經(jīng)驗而言,雖然算法或技術(shù)很抽象,但如果深入理解原理,將復雜的化簡(jiǎn),絕對可以將算法轉化為生動(dòng)的畫(huà)面。如果你無(wú)法在腦海中形成算法的直觀(guān)圖形表示,則說(shuō)明你對其原理沒(méi)有透徹的理解。這是我判斷自己是否深刻理解算法的一個(gè)私人標準。鑒于此,本書(shū)在講解算法的地方,使用了大量的算法示意圖。全書(shū)收錄300多幅算法原理解釋圖。相信這對讀者深入理解算法有很大幫助。
  第三個(gè)目標是強調新現象和新技術(shù),比如谷歌的caffeine系統和Megastore等云存儲系統、Pregel云圖計算模型、暗網(wǎng)爬取技術(shù)、Web2.0網(wǎng)絡(luò )作弊、機器學(xué)習排序、上下文搜索、社交搜索等在相關(guān)章節中有說(shuō)明。
  第四個(gè)目標是強調原則,而不是停留在技術(shù)細節上。對于新手來(lái)說(shuō),一個(gè)容易解決的問(wèn)題是他們喜歡挖掘細節,只見(jiàn)樹(shù)木不見(jiàn)森林,懂一個(gè)公式卻不懂背后的基本思想和出發(fā)點(diǎn)。我接觸過(guò)很多技術(shù)人員,七八歲就會(huì )有這個(gè)特點(diǎn)。有一個(gè)問(wèn)題“道家哪個(gè)好?” “道”是什么?什么是“手術(shù)”?比如《孫子兵法》就是道,《三十六計》就是戰術(shù)。 “道”是宏觀(guān)的、有原則的、經(jīng)久不衰的基本原則,而“技術(shù)”是遵循基本原則的具體方法和措施,是變化無(wú)常的。技術(shù)也是如此。算法本身的細節就是“技巧”,算法所體現的基本思想就是“道”。知“道”、學(xué)“技”,雖然兩者不能偏,但如果要選擇優(yōu)先級,毫無(wú)疑問(wèn)我會(huì )先選擇“道”再選擇“術(shù)”。
  以上四點(diǎn)是寫(xiě)書(shū)之前設定的目標?,F在寫(xiě)完了,可能很多地方都達不到當初的期待,但是我會(huì )努力的。寫(xiě)書(shū)的過(guò)程很辛苦,至少比我想象的要難。因為工作忙,每天只能早起,加上周末和節假日。也許書(shū)中有這樣的缺點(diǎn),但我可以說(shuō)我是真誠地寫(xiě)這本書(shū)的。
  這本書(shū)是給誰(shuí)看的?
  如果您是以下其中一種,那么這本書(shū)適合您。
  1.對搜索引擎核心算法感興趣的技術(shù)人員
  搜索引擎的整體框架是什么?收錄哪些核心技術(shù)?
  網(wǎng)絡(luò )爬蟲(chóng)的基本結構是什么?常見(jiàn)的爬取策略有哪些?什么是暗網(wǎng)爬行?如何構建分布式爬蟲(chóng)?百度的阿拉丁計劃是什么?
  什么是倒排索引?如何對倒排索引進(jìn)行數據壓縮?
  搜索引擎如何對搜索結果進(jìn)行排序?
  什么是向量空間模型?什么是概率模型?什么是BM25型號?什么是機器學(xué)習排序?它們之間有什么異同?
  PageRank和HITS算法有什么關(guān)系?有哪些相同點(diǎn)和不同點(diǎn)?什么是 SALSA 算法?什么是山頂算法?各種鏈接分析算法之間的關(guān)系是什么?
  如何識別搜索用戶(hù)的真實(shí)搜索意圖?用戶(hù)可以搜索多少個(gè)類(lèi)別?什么是點(diǎn)擊圖表?什么是查詢(xún)會(huì )話(huà)?相關(guān)搜索是如何完成的?
  為什么我們需要去重復網(wǎng)頁(yè)?如何去重復網(wǎng)頁(yè)?哪種算法效果更好?
  搜索引擎緩存有多少級?核心戰略是什么?
  什么是上下文搜索?什么是社交搜索?什么是實(shí)時(shí)搜索?
  搜索引擎的發(fā)展趨勢是什么?
  如果你對三個(gè)以上的問(wèn)題感興趣,那么這本書(shū)就是為你而寫(xiě)的。
  2.對云計算和云存儲感興趣的技術(shù)人員
  CAP的原理是什么?什么是 ACID 原理?它們之間有什么異同?
  Google 的云計算框架包括哪些技術(shù)? Hadoop系列和谷歌的云計算框架有什么關(guān)系?
  Google 的三駕馬車(chē) GFS、BigTable 和 MapReduce 是什么意思?有什么關(guān)系?
  谷歌咖啡因系統的基本原理是什么?
  Google 的 Pregel 計算模型和 MapReduce 計算模型有什么區別?
  Google 的 Megastore 云存儲系統和 BigTable 是什么關(guān)系?
  什么是亞馬遜的 Dynamo 系統?
  雅虎的 PNUTS 系統是什么?
  Haystack 存儲系統適用于哪些地方?
  如果你對以上問(wèn)題感興趣,相信你可以在書(shū)中找到答案。
  3.互聯(lián)網(wǎng)營(yíng)銷(xiāo)人員從事搜索引擎優(yōu)化和中小網(wǎng)站站長(cháng)
  搜索引擎的反作弊策略是什么?如何優(yōu)化以避免被認為作弊?
  搜索引擎如何對搜索結果進(jìn)行排序?鏈接分析和內容排名有什么關(guān)系?
  什么是內容農場(chǎng)?什么是鏈接農場(chǎng)?他們是什么關(guān)系?
  什么是 Web 2.0 作弊?常用的方法有哪些?
  什么是 SpamRank?什么是信任等級?什么是壞排名?他們是什么關(guān)系?
  咖啡因系統如何影響頁(yè)面排名?
  最近一批電商網(wǎng)站針對搜索引擎優(yōu)化,結果被谷歌認定為黑帽SEO,導致搜索排名權降低。如何避免這種情況?從事相關(guān)行業(yè)的營(yíng)銷(xiāo)人員和網(wǎng)站webmasters應該對反作弊搜索引擎的基本策略和方法,甚至頁(yè)面排名算法等搜索引擎的核心技術(shù)有深入的了解。 SEO技術(shù)歸根結底其實(shí)很簡(jiǎn)單。盡管它在不斷變化,但許多原則和策略總是相似而密不可分的。深入了解搜索引擎相關(guān)技術(shù)原理,將形成您所在行業(yè)的競爭優(yōu)勢。
  4.作者本人
  我的記憶力不是很好,一段時(shí)間內學(xué)到的技術(shù)往往幾年后就模糊了,所以這本書(shū)也是給自己寫(xiě)的,作為技術(shù)參考手冊。沉力也參與了本書(shū)的部分編寫(xiě)。
  謝謝
  感謝博文的編輯傅銳。沒(méi)有她,這本書(shū)就不會(huì )出版。傅主編在審稿過(guò)程中提出的細致的改進(jìn)點(diǎn)對我幫助很大。
  特別感謝我的妻子。在將近一年的寫(xiě)作過(guò)程中,我幾乎把所有的空閑時(shí)間都花在了這本書(shū)的寫(xiě)作上。她承擔了所有的家務(wù),以免分散我的注意力。沒(méi)時(shí)間陪她也沒(méi)關(guān)系,這本書(shū)的誕生也算是送給她的禮物。
  對我來(lái)說(shuō),寫(xiě)這本書(shū)是一個(gè)辛苦而快樂(lè )的過(guò)程。就像一個(gè)遠行的旅人。當你從水和山上仰望時(shí),你總能看到你所忽略的美麗景色。如果您在閱讀本書(shū),我很榮幸能有這樣的體驗。
  張俊林
  2011 年 6 月
  獲取正版《這就是搜索引擎:核心技術(shù)詳解》 查看全部

  
編輯推薦《這就是搜索引擎:核心技術(shù)詳解》
  
  編輯推薦
  《這就是搜索引擎:核心技術(shù)詳解》適合所有對搜索引擎技術(shù)感興趣的人,尤其是相關(guān)領(lǐng)域的學(xué)生、對搜索引擎核心技術(shù)感興趣的技術(shù)人員、相關(guān)從業(yè)人員在搜索引擎優(yōu)化方面,中小網(wǎng)站站長(cháng)等更有參考價(jià)值。
  作者其他作品《大數據日常知識:架構與算法》
  內容介紹
  搜索引擎作為互聯(lián)網(wǎng)發(fā)展中至關(guān)重要的應用,已經(jīng)成為互聯(lián)網(wǎng)各個(gè)領(lǐng)域的制高點(diǎn),其重要性不言而喻。搜索引擎領(lǐng)域也是互聯(lián)網(wǎng)應用中少有的以核心技術(shù)為命脈的領(lǐng)域。搜索引擎的各個(gè)子系統是如何設計的?這已成為廣大技術(shù)人員和搜索引擎優(yōu)化者關(guān)注的內容。
  《這就是搜索引擎:核心技術(shù)詳解》的特點(diǎn)是內容新穎、全面、通俗易懂。對實(shí)際搜索引擎中涉及的各種核心技術(shù)進(jìn)行了全面詳細的介紹。除了以網(wǎng)絡(luò )爬蟲(chóng)、索引系統、排名系統、鏈接分析和用戶(hù)分析為核心的搜索系統外,還包括網(wǎng)頁(yè)反作弊、緩存管理、網(wǎng)頁(yè)重復數據刪除技術(shù)等實(shí)際搜索引擎必須具備的技術(shù)。關(guān)注,同時(shí)在相當大的篇幅中講解了云計算和云存儲的核心技術(shù)原理。此外,本書(shū)還密切關(guān)注搜索引擎開(kāi)發(fā)的前沿技術(shù):谷歌的咖啡因系統和Megastore等新的云計算技術(shù)、百度的暗網(wǎng)爬蟲(chóng)技術(shù)阿拉丁計劃、內容農場(chǎng)作弊、機器學(xué)習排序等。許多新技術(shù)在相關(guān)章節中有詳細的講解,同時(shí)對社交搜索、實(shí)時(shí)搜索、上下文搜索等搜索引擎未來(lái)的發(fā)展方向給出了技術(shù)展望。為了加深讀者的理解,書(shū)中引入了大量生動(dòng)的圖片來(lái)講解算法的原理。相信讀者會(huì )發(fā)現,原來(lái)搜索引擎的核心技術(shù)比原先想象的要簡(jiǎn)單得多。
  作者簡(jiǎn)介
  張俊林著(zhù)有技術(shù)書(shū)籍《這就是搜索引擎:核心技術(shù)詳解》,現任暢捷通智能平臺總監。在此之前,張君林曾任阿里巴巴風(fēng)潮廣告平臺、百度商業(yè)搜索部、新浪微博搜索部和數據系統部高級技術(shù)專(zhuān)家,新浪微博技術(shù)委員會(huì )委員,負責方向算法策略。張君林也是智能信息聚合網(wǎng)站“玩聚網(wǎng)”的聯(lián)合創(chuàng )始人之一。他的研發(fā)興趣集中在:搜索技術(shù)、推薦系統、社交挖掘、自然語(yǔ)言處理和大數據算法架構等,在上述領(lǐng)域有多年的行業(yè)實(shí)踐經(jīng)驗。張君林畢業(yè)于天津大學(xué)管理學(xué)院,獲學(xué)士學(xué)位。 1999年至2004年在中國科學(xué)院軟件研究所直接攻讀博士學(xué)位。研究方向為信息檢索理論和自然語(yǔ)言處理。學(xué)習期間,在A(yíng)CL/COLING/IJCNLP等頂級國際會(huì )議上發(fā)表多篇文章。學(xué)術(shù)論文。此外,他在此期間設計的搜索系統贏(yíng)得了17個(gè)國際高水平研究團隊的激烈競爭,并在美國國防部DARPA主辦的第二屆TREC高精度檢索系統評估中排名第一。取名效果極佳。
  內容
  第一章搜索引擎及其技術(shù)架構
  1.1 為什么搜索引擎很重要
  1.1.1 互聯(lián)網(wǎng)的發(fā)展
  1.1.2 商業(yè)搜索引擎公司的發(fā)展
  1.1.3 搜索引擎的重要地位
  1.2搜索引擎技術(shù)發(fā)展歷程
  1.2.1史前時(shí)代:目錄的產(chǎn)生
  1.2.2 第一代:文本檢索的產(chǎn)生
  1.2.3 第二代:鏈路分析的產(chǎn)生
  1.2.4 第三代:以用戶(hù)為中心的一代
  1.3 搜索引擎的3個(gè)目標
  1.4 搜索引擎的3個(gè)核心問(wèn)題
  1.4.13個(gè)核心問(wèn)題
  1.4.2 與技術(shù)發(fā)展的關(guān)系
  1.5搜索引擎技術(shù)架構
  第 2 章網(wǎng)絡(luò )爬蟲(chóng)
  2.1 通用爬蟲(chóng)框架
  2.2 優(yōu)秀爬蟲(chóng)的特點(diǎn)
  2.3 爬蟲(chóng)質(zhì)量評價(jià)標準
  2.4 爬取策略
  2.4.1 廣度優(yōu)先遍歷策略(BreathFirst)
  2.4.2 部分 PageRank 策略(PartialPageRank)
  2.4.3OCIP 策略(OnlinePageImportanceComputation)
  2.4.4LargerSitesFirst 策略(LargerSitesFirst)
  2.5網(wǎng)頁(yè)更新策略
  2.5.1歷史參考策略
  2.5.2用戶(hù)體驗策略
  2.5.3 聚類(lèi)抽樣策略
  2.6DeepWebCrawling(DeepWebCrawling)
  2.6.1 查詢(xún)組合問(wèn)題
  2.6.2 在文本框中填寫(xiě)問(wèn)題
  2.7 分布式爬蟲(chóng)
  2.7.1 主從分發(fā)爬蟲(chóng)(Master-Slave)
  2.7.2 點(diǎn)對點(diǎn)(PeertoPeer)
  本章總結
  本章參考資料
  第 3 章搜索引擎索引
  3.1索引基礎
  3.1.1 字——文檔矩陣
  3.1.2 倒排索引的基本概念
  3.1.3 倒排索引的簡(jiǎn)單例子
  3.2 詞詞典
  3.2.1 哈希加鏈表
  3.2.2樹(shù)結構
  3.3PostingList
  3.4創(chuàng )建索引
  3.4.1 兩遍文檔遍歷方法(2-PassIn-MemoryInversion)
  3.4.2Sort-basedInversion(Sort-basedInversion)
  3.4.3Merge-basedInversion(Merge-basedInversion)
  3.5動(dòng)態(tài)索引
  3.6 索引更新策略
  3.6.1 完整重建策略(CompleteRe-Build)
  3.6.2 重新合并策略(Re-Merge)
  3.6.3 就地更新策略(In-Place)
  3.6.4 混合策略(Hybrid)
  3.7查詢(xún)處理
  3.7.1 一次一個(gè)文檔(DocataTime)
  3.7.2 一次一個(gè)字(TermataTime)
  3.7.3SkipPointers(SkipPointers)
  3.8多字段索引
  3.8.1多索引法
  3.8.2倒排列表法
  3.8.3擴展列表方法(ExtentList)
  3.9phrase 查詢(xún)
  3.9.1位置索引(PositionIndex)
  3.9.2 二字索引(NextwordIndex)
  3.9.3 PhraseIndex (PhraseIndex)
  3.9.4 混合方法
  3.10分布式索引(ParallelIndexing)
  3.10.??1 按文檔劃分(DocumentPartitioning)
  3.10.??2 按詞劃分(TermPartitioning)
  3.10.??3 兩種方案對比
  本章總結
  本章參考資料
  第 4 章索引壓縮
  4.1 字典壓縮
  4.2倒列表壓縮算法
  4.2.1 評價(jià)指標壓縮算法指標
  4.2.2 一元編碼和二進(jìn)制編碼
  4.2.3EliasGamma 算法和 EliasDelta 算法
  4.2.4Golomb 算法和 Rice 算法
  4.2.5 變長(cháng)字節算法(VariableByte)
  4.2.6SimpleX 系列算法
  4.2.7PForDelta 算法
  4.3 DocIDReordering(DocIDReordering)
  4.4StaticIndexPruning (StaticIndexPruning)
  4.4.1 以詞為中心的索引剪裁
  4.4.2 以文檔為中心的索引裁剪
  本章總結
  本章參考資料
  第 5 章搜索模型和搜索排序
  5.1BooleanModel (BooleanModel)
  5.2VectorSpaceModel (VectorSpaceModel)
  5.2.1文檔表示
  5.2.2 相似度計算
  5.2.3特征權重計算
  5.3概率檢索模型
  5.3.1 概率排序原則
  5.3.2BinaryIndependentModel(BinaryIndependentModel)
  5.3.3BM25 模型
  5.3.4BM25F 模型
  5.4 語(yǔ)言模型方法
  5.5 機器學(xué)習排名(LearningtoRank)
  5.5.1機器學(xué)習排序的基本思路
  5.5.2 單文檔方法(PointWiseApproach)
  5.5.3文檔對方法(PairWiseApproach)
  5.5.4 文檔列表方法(ListWiseApproach)
  5.6 搜索質(zhì)量評價(jià)標準
  5.6.1準確率和召回率
  5.6.2P@10個(gè)指標
  5.6.3MAP 指標(MeanAveragePrecision)
  本章總結
  本章參考資料
  第六章鏈接分析
  6.1網(wǎng)頁(yè)圖片
  6.2 兩個(gè)概念模型和算法的關(guān)系
  6.2.1RandomSurferModel (RandomSurferModel)
  6.2.2 子集傳播模型
  6.2.3 鏈接分析算法之間的關(guān)系
  6.3PageRank 算法
  6.3.1 從鏈內數到PageRank
  6.3.2PageRank 計算
  6.3.3 鏈接陷阱(LinkSink)和遠程跳轉(Teleporting)
  6.4HITS 算法(HypertextInducedTopicSelection)
  6.4.1Hub 頁(yè)面和權限頁(yè)面
  6.4.2 互增關(guān)系
  6.4.3HITS 算法
  6.4.4HITS 算法問(wèn)題
  6.4.5HITS算法與PageRank算法對比
  6.5SALSA 算法
  6.5.1 確定計算對象集
  6.5.2 鏈接關(guān)系傳播
  6.5.3權限權重計算
  6.6 主題敏感頁(yè)面排名(TopicSensitivePageRank)
  6.6.1 主題敏感的PageRank和PageRank的區別
  6.6.2 主題敏感的PageRank計算過(guò)程
  6.6.3 使用主題敏感的PageRank構建個(gè)性化搜索
  6.7Hilltop 算法
  6.7.1 Hilltop 算法的一些基本定義
  6.7.2Hilltop 算法
  6.8 其他改進(jìn)算法
  6.8.1IntelligentSurferModel(智能沖浪模型)
  6.8.2 BiasedSurferModel(BiasedSurferModel)
  6.8.3PHITS 算法(ProbabilityAnalogyofHITS)
  6.8.4BFS 算法(BackwardForwardStep)
  本章總結
  本章參考資料
  第 7 章云存儲和云計算
  7.1 云存儲和云計算概述
  7.1.1 基本假設
  7.1.2理論基礎
  7.1.3 數據模型
  7.1.4 基本問(wèn)題
  7.1.5Google 的云存儲和云計算架構
  7.2Google 文件系統 (GFS)
  7.2.1GFS 設計原則
  7.2.2GFS 整體架構
  7.2.3GFS 主控服務(wù)器
  7.2.4 系統交互行為
  7.3Chubby 鎖服務(wù)
  7.4BigTable
  7.4.1BigTable 的數據模型
  7.4.2BigTable 整體結構
  7.4.3BigTable 的管理數據
  7.4.4MasterServer
  7.4.5 分表服務(wù)器(TabletServer)
  7.5Megastore 系統
  7.5.1 實(shí)體組切分
  7.5.2數據模型
  7.5.3數據讀寫(xiě)與備份
  7.6Map/Reduce 云計算模型
  7.6.1計算模型
  7.6.2 整體邏輯流程
  7.6.3 應用實(shí)例
  7.7Caffeine System-Percolator
  7.7.1 事務(wù)支持
  7.7.2 觀(guān)察/通知架構
  7.8Pregel 圖計算模型
  7.9Dynomo 云存儲系統
  7.9.1 數據分區算法(PartitioningAlgorithm)
  7.9.2數據備份(復制)
  7.9.3數據讀寫(xiě)
  7.9.4數據版本控制
  7.10PNUTS 云存儲系統
  7.10.??1PNUTS 整體架構
  7.10.??2 存儲單元
  7.10.??3 分表控制器和數據路由器
  7.10.??4 雅虎通訊社
  7.10.??5 數據一致性
  7.11HayStack 存儲系統
  7.11.1HayStack 整體架構
  7.11.2 目錄服務(wù)
  7.11.3HayStack 緩存
  7.11.4HayStack 存儲系統
  本章總結
  本章參考資料
  第8章網(wǎng)絡(luò )反作弊
  8.1內容作弊
  8.1.1常見(jiàn)的內容作弊方法
  8.1.2內容農場(chǎng)(ContentFarm)
  8.2 鏈接作弊
  8.3 頁(yè)面隱藏作弊
  8.4Web2.0 作弊方法
  8.5反作弊技術(shù)總體思路
  8.5.1 信任傳播模型
  8.5.2 不信任傳播模型
  8.5.3 異常發(fā)現模型
  8.6 萬(wàn)能鏈接反作弊方法
  8.6.1TrustRank 算法
  8.6.2BadRank 算法
  8.6.3SpamRank
  8.7 專(zhuān)用鏈接防作弊技術(shù)
  8.7.1 識別鏈接農場(chǎng)
  8.7.2 識別谷歌轟炸
  8.8 識別內容作弊
  8.9反隱藏作弊
  8.9.1 識別頁(yè)面隱藏
  8.9.2 識別網(wǎng)頁(yè)重定向
  8.10 搜索引擎反作弊綜合框架
  本章總結
  本章參考資料
  第九章用戶(hù)查詢(xún)意圖分析
  9.1搜索行為及其意圖
  9.1.1用戶(hù)搜索行為
  9.1.2用戶(hù)搜索意圖分類(lèi)
  9.2搜索日志挖掘
  9.2.1查詢(xún)會(huì )話(huà)(QuerySession)
  9.2.2ClickGraph (ClickGraph)
  9.2.3查詢(xún)圖(QueryGraph)
  9.3 相關(guān)搜索
  9.3.1 基于查詢(xún)會(huì )話(huà)的方法
  9.3.2 基于點(diǎn)擊圖的方法
  9.4檢查糾錯
  9.4.1EditDistance(編輯距離)
  9.4.2 噪聲通道模型(NoiseChannelModel)
  本章總結
  本章參考資料
  第十章網(wǎng)頁(yè)去重
  10.??1 通用去重算法框架
  10.??2Shingling 算法
  10.??3I-Match 算法
  10.??4SimHash 算法
  10.??4.1 文檔指紋計算
  10.??4.2 搜索類(lèi)似文檔
  10.??5SpotSig 算法
  10.??5.1 特征提取
  10.??5.2 搜索類(lèi)似文檔
  本章總結
  本章參考資料
  第11章搜索引擎緩存機制
  11.1搜索引擎緩存系統架構
  11.2Cache 對象
  11.3緩存結構
  11.4緩存消除策略(EvictPolicy)
  11.4.1 動(dòng)態(tài)策略
  11.4.2 混合策略
  11.5緩存更新策略(RefreshPolicy)
  本章總結
  本章參考資料
  第十二章搜索引擎發(fā)展趨勢
  12.1個(gè)性化搜索
  12.2社交搜索
  12.3 實(shí)時(shí)搜索
  12.4手機搜索
  12.5 位置感知搜索
  12.6跨語(yǔ)言搜索
  12.7多媒體搜索
  12.8情況搜索
  前言
  互聯(lián)網(wǎng)產(chǎn)品種類(lèi)繁多,以產(chǎn)品為導向,以營(yíng)銷(xiāo)為導向,以技術(shù)為導向,但精通技術(shù)的互聯(lián)網(wǎng)產(chǎn)品比例相對較小。搜索引擎是當前互聯(lián)網(wǎng)產(chǎn)品中具有技術(shù)含量的產(chǎn)品,如果不是唯一的,至少是其中之一。
  經(jīng)過(guò)十多年的發(fā)展,搜索引擎已經(jīng)成為互聯(lián)網(wǎng)的重要門(mén)戶(hù)之一。 Twitter聯(lián)合創(chuàng )始人埃文威廉姆斯提出“域名已死理論”:容易記住的域名不再重要,因為人們會(huì )通過(guò)搜索輸入網(wǎng)站。搜索引擎排名對于中小網(wǎng)站流量非常重要。了解搜索引擎簡(jiǎn)單界面背后的技術(shù)原理,對很多人來(lái)說(shuō)其實(shí)很重要。
  為什么會(huì )有這本書(shū)
  寫(xiě)搜索引擎技術(shù)書(shū)籍的最初想法是兩年前誕生的。當時(shí)的場(chǎng)景是對團隊成員進(jìn)行搜索技術(shù)培訓,但是我搜索了相關(guān)書(shū)籍,卻沒(méi)有找到一本非常合適的搜索技術(shù)入門(mén)書(shū)籍。當時(shí)市場(chǎng)上的書(shū)籍,要么是信息檢索理論的專(zhuān)著(zhù),理論性太強,不易理解,真正講搜索引擎技術(shù)的章節也不多;或者它們是太實(shí)用的書(shū),比如 Lucene 代碼分析,比如搜索引擎。這種直接分析開(kāi)源系統代碼的算法應用并不是一種非常高效的學(xué)習方法。所以當時(shí)就誕生了寫(xiě)一本通俗易懂,適合沒(méi)有相關(guān)技術(shù)背景的人,比較全面,融合新技術(shù)的搜索引擎書(shū)籍。但我是在一年前開(kāi)始寫(xiě)作的。
  在寫(xiě)這本書(shū)之前,我為自己設定了一些目標。首先,內容要全面,即全面覆蓋搜索引擎相關(guān)技術(shù)的主要方面。不僅要收錄倒排索引、檢索模型、爬蟲(chóng)等常用內容,還要詳細講解鏈接分析、網(wǎng)頁(yè)反作弊、用戶(hù)搜索意圖分析、網(wǎng)頁(yè)云存儲和去重甚至搜索引擎緩存都是有機的一個(gè)完整的搜索引擎的組成部分,但詳細介紹其原理的書(shū)籍并不多。我希望盡可能全面。
  第二個(gè)目標很容易理解。我希望沒(méi)有任何相關(guān)技術(shù)背景的人可以從閱讀本書(shū)中學(xué)到一些東西,不了解技術(shù)的學(xué)生可以大致理解。這個(gè)目標看似簡(jiǎn)單,但實(shí)際上實(shí)現起來(lái)并不容易。我不敢說(shuō)這本書(shū)達到了這個(gè)目標,但我已經(jīng)盡力了。具體措施包括以下三個(gè)方面。
  一是盡可能減少數學(xué)公式的數量,除非公式?jīng)]有列出。盡管數學(xué)公式具有簡(jiǎn)單之美,但大多數人實(shí)際上對數學(xué)符號存在恐懼和回避。多年前我也有類(lèi)似的心理,所以盡可能不要使用數學(xué)公式。
  一是盡量多舉例,特別是一些比較難理解的地方。需要舉例來(lái)加深理解。
  還有更多的繪圖。就我個(gè)人的經(jīng)驗而言,雖然算法或技術(shù)很抽象,但如果深入理解原理,將復雜的化簡(jiǎn),絕對可以將算法轉化為生動(dòng)的畫(huà)面。如果你無(wú)法在腦海中形成算法的直觀(guān)圖形表示,則說(shuō)明你對其原理沒(méi)有透徹的理解。這是我判斷自己是否深刻理解算法的一個(gè)私人標準。鑒于此,本書(shū)在講解算法的地方,使用了大量的算法示意圖。全書(shū)收錄300多幅算法原理解釋圖。相信這對讀者深入理解算法有很大幫助。
  第三個(gè)目標是強調新現象和新技術(shù),比如谷歌的caffeine系統和Megastore等云存儲系統、Pregel云圖計算模型、暗網(wǎng)爬取技術(shù)、Web2.0網(wǎng)絡(luò )作弊、機器學(xué)習排序、上下文搜索、社交搜索等在相關(guān)章節中有說(shuō)明。
  第四個(gè)目標是強調原則,而不是停留在技術(shù)細節上。對于新手來(lái)說(shuō),一個(gè)容易解決的問(wèn)題是他們喜歡挖掘細節,只見(jiàn)樹(shù)木不見(jiàn)森林,懂一個(gè)公式卻不懂背后的基本思想和出發(fā)點(diǎn)。我接觸過(guò)很多技術(shù)人員,七八歲就會(huì )有這個(gè)特點(diǎn)。有一個(gè)問(wèn)題“道家哪個(gè)好?” “道”是什么?什么是“手術(shù)”?比如《孫子兵法》就是道,《三十六計》就是戰術(shù)。 “道”是宏觀(guān)的、有原則的、經(jīng)久不衰的基本原則,而“技術(shù)”是遵循基本原則的具體方法和措施,是變化無(wú)常的。技術(shù)也是如此。算法本身的細節就是“技巧”,算法所體現的基本思想就是“道”。知“道”、學(xué)“技”,雖然兩者不能偏,但如果要選擇優(yōu)先級,毫無(wú)疑問(wèn)我會(huì )先選擇“道”再選擇“術(shù)”。
  以上四點(diǎn)是寫(xiě)書(shū)之前設定的目標?,F在寫(xiě)完了,可能很多地方都達不到當初的期待,但是我會(huì )努力的。寫(xiě)書(shū)的過(guò)程很辛苦,至少比我想象的要難。因為工作忙,每天只能早起,加上周末和節假日。也許書(shū)中有這樣的缺點(diǎn),但我可以說(shuō)我是真誠地寫(xiě)這本書(shū)的。
  這本書(shū)是給誰(shuí)看的?
  如果您是以下其中一種,那么這本書(shū)適合您。
  1.對搜索引擎核心算法感興趣的技術(shù)人員
  搜索引擎的整體框架是什么?收錄哪些核心技術(shù)?
  網(wǎng)絡(luò )爬蟲(chóng)的基本結構是什么?常見(jiàn)的爬取策略有哪些?什么是暗網(wǎng)爬行?如何構建分布式爬蟲(chóng)?百度的阿拉丁計劃是什么?
  什么是倒排索引?如何對倒排索引進(jìn)行數據壓縮?
  搜索引擎如何對搜索結果進(jìn)行排序?
  什么是向量空間模型?什么是概率模型?什么是BM25型號?什么是機器學(xué)習排序?它們之間有什么異同?
  PageRank和HITS算法有什么關(guān)系?有哪些相同點(diǎn)和不同點(diǎn)?什么是 SALSA 算法?什么是山頂算法?各種鏈接分析算法之間的關(guān)系是什么?
  如何識別搜索用戶(hù)的真實(shí)搜索意圖?用戶(hù)可以搜索多少個(gè)類(lèi)別?什么是點(diǎn)擊圖表?什么是查詢(xún)會(huì )話(huà)?相關(guān)搜索是如何完成的?
  為什么我們需要去重復網(wǎng)頁(yè)?如何去重復網(wǎng)頁(yè)?哪種算法效果更好?
  搜索引擎緩存有多少級?核心戰略是什么?
  什么是上下文搜索?什么是社交搜索?什么是實(shí)時(shí)搜索?
  搜索引擎的發(fā)展趨勢是什么?
  如果你對三個(gè)以上的問(wèn)題感興趣,那么這本書(shū)就是為你而寫(xiě)的。
  2.對云計算和云存儲感興趣的技術(shù)人員
  CAP的原理是什么?什么是 ACID 原理?它們之間有什么異同?
  Google 的云計算框架包括哪些技術(shù)? Hadoop系列和谷歌的云計算框架有什么關(guān)系?
  Google 的三駕馬車(chē) GFS、BigTable 和 MapReduce 是什么意思?有什么關(guān)系?
  谷歌咖啡因系統的基本原理是什么?
  Google 的 Pregel 計算模型和 MapReduce 計算模型有什么區別?
  Google 的 Megastore 云存儲系統和 BigTable 是什么關(guān)系?
  什么是亞馬遜的 Dynamo 系統?
  雅虎的 PNUTS 系統是什么?
  Haystack 存儲系統適用于哪些地方?
  如果你對以上問(wèn)題感興趣,相信你可以在書(shū)中找到答案。
  3.互聯(lián)網(wǎng)營(yíng)銷(xiāo)人員從事搜索引擎優(yōu)化和中小網(wǎng)站站長(cháng)
  搜索引擎的反作弊策略是什么?如何優(yōu)化以避免被認為作弊?
  搜索引擎如何對搜索結果進(jìn)行排序?鏈接分析和內容排名有什么關(guān)系?
  什么是內容農場(chǎng)?什么是鏈接農場(chǎng)?他們是什么關(guān)系?
  什么是 Web 2.0 作弊?常用的方法有哪些?
  什么是 SpamRank?什么是信任等級?什么是壞排名?他們是什么關(guān)系?
  咖啡因系統如何影響頁(yè)面排名?
  最近一批電商網(wǎng)站針對搜索引擎優(yōu)化,結果被谷歌認定為黑帽SEO,導致搜索排名權降低。如何避免這種情況?從事相關(guān)行業(yè)的營(yíng)銷(xiāo)人員和網(wǎng)站webmasters應該對反作弊搜索引擎的基本策略和方法,甚至頁(yè)面排名算法等搜索引擎的核心技術(shù)有深入的了解。 SEO技術(shù)歸根結底其實(shí)很簡(jiǎn)單。盡管它在不斷變化,但許多原則和策略總是相似而密不可分的。深入了解搜索引擎相關(guān)技術(shù)原理,將形成您所在行業(yè)的競爭優(yōu)勢。
  4.作者本人
  我的記憶力不是很好,一段時(shí)間內學(xué)到的技術(shù)往往幾年后就模糊了,所以這本書(shū)也是給自己寫(xiě)的,作為技術(shù)參考手冊。沉力也參與了本書(shū)的部分編寫(xiě)。
  謝謝
  感謝博文的編輯傅銳。沒(méi)有她,這本書(shū)就不會(huì )出版。傅主編在審稿過(guò)程中提出的細致的改進(jìn)點(diǎn)對我幫助很大。
  特別感謝我的妻子。在將近一年的寫(xiě)作過(guò)程中,我幾乎把所有的空閑時(shí)間都花在了這本書(shū)的寫(xiě)作上。她承擔了所有的家務(wù),以免分散我的注意力。沒(méi)時(shí)間陪她也沒(méi)關(guān)系,這本書(shū)的誕生也算是送給她的禮物。
  對我來(lái)說(shuō),寫(xiě)這本書(shū)是一個(gè)辛苦而快樂(lè )的過(guò)程。就像一個(gè)遠行的旅人。當你從水和山上仰望時(shí),你總能看到你所忽略的美麗景色。如果您在閱讀本書(shū),我很榮幸能有這樣的體驗。
  張俊林
  2011 年 6 月
  獲取正版《這就是搜索引擎:核心技術(shù)詳解》

為什么“常規”SEO文章收取更多費用-低端文章50到75美元

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 90 次瀏覽 ? 2021-07-11 06:44 ? 來(lái)自相關(guān)話(huà)題

  為什么“常規”SEO文章收取更多費用-低端文章50到75美元
  自 2011 年 2 月 Google 發(fā)布熊貓更新以來(lái),網(wǎng)站administrators 已從面向關(guān)鍵字密度的內容轉變?yōu)橹黝}內容。如果您是一名自由 SEO 內容作家并且還沒(méi)有開(kāi)始為客戶(hù)提供這種類(lèi)型的副本,那么您可能會(huì )對他們造成很大的傷害。在這里,我們討論原因。
  僅供參考,主題SEO文章-low-end 文章50 至 75 美元/篇,最高可達數百美元。
  為什么“常規”SEO 網(wǎng)頁(yè)內容不夠好
  為了擺脫為 AdSense網(wǎng)站 制作的許多 MFA(其中許多是垃圾郵件發(fā)送者設置的只是為了獲得這些 Google 廣告的點(diǎn)擊量),Google 打擊了由關(guān)鍵字密度驅動(dòng)的內容。要知道,那些短垃圾文章一遍遍重復同樣的關(guān)鍵詞,卻在搜索引擎中排名靠前。
  搜索引擎的工作是返回最相關(guān)的“質(zhì)量”。一般來(lái)說(shuō),大多數填了關(guān)鍵字的文章都不會(huì )這樣做。其中許多只是您可以在 Internet 上找到的一般信息。但是相關(guān)的關(guān)鍵詞卻是一遍遍地重復。
  為了防止這種情況發(fā)生,谷歌在其熊貓更新中丟棄了許多收錄此類(lèi)內容的網(wǎng)站,以支持那些遵循我所謂的“SEO 寫(xiě)作指南”的網(wǎng)站。
  這些指南可被視為撰寫(xiě)主題 SEO 內容的基礎。順便說(shuō)一句,我在這里引用谷歌是因為它是整體上最受歡迎的搜索引擎。僅供參考,最大的三個(gè)是谷歌、必應和雅虎!
  什么是主題 SEO 內容寫(xiě)作?
  比如在同一篇文章文章中,主題網(wǎng)頁(yè)內容并沒(méi)有針對特定的關(guān)鍵詞詞組,而是針對無(wú)數的關(guān)鍵詞詞組。
  記住,搜索引擎只是機器人,不是人。因此,如果他們閱讀收錄“Apple”一詞的內容塊,他們將不知道您在談?wù)?Apple Pie 還是 Apple Computer。這是主題SEO內容的全部?jì)热???梢詭椭阉饕鏈蚀_識別內容的全部?jì)热?,使關(guān)鍵字填充的內容不會(huì )上升到搜索引擎結果的頂部。
  SEO主題文章和普通SEO文章的區別
  讓我們通過(guò)一個(gè)例子來(lái)解釋。假設你寫(xiě)了一篇關(guān)于自制蘋(píng)果派的博客,并寫(xiě)了一篇關(guān)于如何制作蘋(píng)果派的文章。搜索引擎希望在這篇文章中找到的一些“關(guān)鍵字”短語(yǔ)包括如何烤蘋(píng)果派、蘋(píng)果派食譜、如何制作蘋(píng)果派、如何從頭開(kāi)始制作蘋(píng)果派等。
  看看有多少不同的“關(guān)鍵詞phrases”以及它們之間的關(guān)系?反之,這個(gè)話(huà)題的關(guān)鍵字填充的SEO文章可能只是一遍遍地重復“蘋(píng)果派食譜”這個(gè)詞。
  因為主題SEO網(wǎng)站的內容寫(xiě)的時(shí)間長(cháng),在搜索引擎結果中排名靠前,作為SEO作者,你可以為此付出更多——甚至更多。
  詳細了解如何撰寫(xiě)主題 SEO 內容、Google 的 SEO 寫(xiě)作指南,以及要在 2013 年成為一名成功的 SEO 撰稿人,您需要了解的其他 11 件事。
  原創(chuàng )文章,作者:WPJIAN,如轉載請注明出處: 查看全部

  為什么“常規”SEO文章收取更多費用-低端文章50到75美元
  自 2011 年 2 月 Google 發(fā)布熊貓更新以來(lái),網(wǎng)站administrators 已從面向關(guān)鍵字密度的內容轉變?yōu)橹黝}內容。如果您是一名自由 SEO 內容作家并且還沒(méi)有開(kāi)始為客戶(hù)提供這種類(lèi)型的副本,那么您可能會(huì )對他們造成很大的傷害。在這里,我們討論原因。
  僅供參考,主題SEO文章-low-end 文章50 至 75 美元/篇,最高可達數百美元。
  為什么“常規”SEO 網(wǎng)頁(yè)內容不夠好
  為了擺脫為 AdSense網(wǎng)站 制作的許多 MFA(其中許多是垃圾郵件發(fā)送者設置的只是為了獲得這些 Google 廣告的點(diǎn)擊量),Google 打擊了由關(guān)鍵字密度驅動(dòng)的內容。要知道,那些短垃圾文章一遍遍重復同樣的關(guān)鍵詞,卻在搜索引擎中排名靠前。
  搜索引擎的工作是返回最相關(guān)的“質(zhì)量”。一般來(lái)說(shuō),大多數填了關(guān)鍵字的文章都不會(huì )這樣做。其中許多只是您可以在 Internet 上找到的一般信息。但是相關(guān)的關(guān)鍵詞卻是一遍遍地重復。
  為了防止這種情況發(fā)生,谷歌在其熊貓更新中丟棄了許多收錄此類(lèi)內容的網(wǎng)站,以支持那些遵循我所謂的“SEO 寫(xiě)作指南”的網(wǎng)站。
  這些指南可被視為撰寫(xiě)主題 SEO 內容的基礎。順便說(shuō)一句,我在這里引用谷歌是因為它是整體上最受歡迎的搜索引擎。僅供參考,最大的三個(gè)是谷歌、必應和雅虎!
  什么是主題 SEO 內容寫(xiě)作?
  比如在同一篇文章文章中,主題網(wǎng)頁(yè)內容并沒(méi)有針對特定的關(guān)鍵詞詞組,而是針對無(wú)數的關(guān)鍵詞詞組。
  記住,搜索引擎只是機器人,不是人。因此,如果他們閱讀收錄“Apple”一詞的內容塊,他們將不知道您在談?wù)?Apple Pie 還是 Apple Computer。這是主題SEO內容的全部?jì)热???梢詭椭阉饕鏈蚀_識別內容的全部?jì)热?,使關(guān)鍵字填充的內容不會(huì )上升到搜索引擎結果的頂部。
  SEO主題文章和普通SEO文章的區別
  讓我們通過(guò)一個(gè)例子來(lái)解釋。假設你寫(xiě)了一篇關(guān)于自制蘋(píng)果派的博客,并寫(xiě)了一篇關(guān)于如何制作蘋(píng)果派的文章。搜索引擎希望在這篇文章中找到的一些“關(guān)鍵字”短語(yǔ)包括如何烤蘋(píng)果派、蘋(píng)果派食譜、如何制作蘋(píng)果派、如何從頭開(kāi)始制作蘋(píng)果派等。
  看看有多少不同的“關(guān)鍵詞phrases”以及它們之間的關(guān)系?反之,這個(gè)話(huà)題的關(guān)鍵字填充的SEO文章可能只是一遍遍地重復“蘋(píng)果派食譜”這個(gè)詞。
  因為主題SEO網(wǎng)站的內容寫(xiě)的時(shí)間長(cháng),在搜索引擎結果中排名靠前,作為SEO作者,你可以為此付出更多——甚至更多。
  詳細了解如何撰寫(xiě)主題 SEO 內容、Google 的 SEO 寫(xiě)作指南,以及要在 2013 年成為一名成功的 SEO 撰稿人,您需要了解的其他 11 件事。
  原創(chuàng )文章,作者:WPJIAN,如轉載請注明出處:

簡(jiǎn)述簡(jiǎn)述搜索引擎如何判斷網(wǎng)頁(yè)和查詢(xún)的相關(guān)性?

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 100 次瀏覽 ? 2021-07-10 03:16 ? 來(lái)自相關(guān)話(huà)題

  簡(jiǎn)述簡(jiǎn)述搜索引擎如何判斷網(wǎng)頁(yè)和查詢(xún)的相關(guān)性?
  搜索引擎的質(zhì)量在很大程度上取決于搜索結果的網(wǎng)絡(luò )內容和用戶(hù)體驗。搜索引擎在搜索能夠滿(mǎn)足用戶(hù)需求的網(wǎng)頁(yè)時(shí),主要考慮兩個(gè)方面:網(wǎng)頁(yè)與查詢(xún)的相關(guān)性,以及網(wǎng)頁(yè)的重要性。網(wǎng)頁(yè)與查詢(xún)的相關(guān)性是指用戶(hù)的搜索查詢(xún)與網(wǎng)頁(yè)內容之間的內容相似度得分,通常通過(guò)鏈接分析計算方法來(lái)評估網(wǎng)頁(yè)的重要性;本文主要簡(jiǎn)要介紹搜索引擎如何判斷網(wǎng)頁(yè)與查詢(xún)的相關(guān)性?
  
  判斷網(wǎng)頁(yè)內容是否與用戶(hù)查詢(xún)的關(guān)鍵詞相關(guān),取決于搜索引擎采用的檢索模型。幾種常用的檢索模型:布爾模型、向量空間模型、概率模型、語(yǔ)言模型和機器學(xué)習排序算法。
  1.Boolean 模型
  布爾模型簡(jiǎn)單來(lái)說(shuō)就是用戶(hù)查詢(xún)的詞是否出現在網(wǎng)頁(yè)中,是對是錯,是否收錄在非收錄中。比如用戶(hù)搜索的關(guān)鍵詞是SEO,他們希望得到與SEO相關(guān)的信息。當網(wǎng)頁(yè)內容中出現SEO這個(gè)詞時(shí),就意味著(zhù)該網(wǎng)頁(yè)與用戶(hù)的查詢(xún)相關(guān)。布爾模型也是檢索模型中最簡(jiǎn)單的一種,其優(yōu)缺點(diǎn)也非常直觀(guān)。
  2.矢量空間模型
  向量空間模型將查詢(xún)詞和文檔中的關(guān)鍵詞轉換為特征向量,然后使用余弦公式計算文檔與查詢(xún)的相似度并對輸出結果進(jìn)行排序。主要介紹了TF-IDF算法、TF詞頻和IDF逆文檔頻率。
  TF詞頻,即一個(gè)詞在內容中出現的次數。出現次數較多的詞往往可以說(shuō)明內容的主題信息。 IDF逆文檔頻率是衡量單詞普遍重要性的指標,突出特征詞。如果某個(gè)關(guān)鍵詞在某個(gè)網(wǎng)頁(yè)內容中的詞頻很高,而這個(gè)詞很少出現在網(wǎng)頁(yè)搜索結果和其他網(wǎng)頁(yè)內容中,那么這個(gè)關(guān)鍵詞的權重就會(huì )很高。 SEO常用的是關(guān)鍵詞密度,但是沒(méi)有統一的衡量標準。不要使用 2%~8% 作為關(guān)鍵詞密度標準。
  3.probability 模型
  最成功的概率模型是 BM25 模型,目前被大多數商業(yè)搜索引擎用作相關(guān)性排名模型。在TF-IDF算法的基礎上,擴展了相關(guān)的概率后續詞,比如搜索詞條SEO,大部分可能會(huì )搜索SEO培訓、SEO服務(wù)等。用戶(hù)后續需求源自海量大數據,多維度滿(mǎn)足用戶(hù)需求。目前百度官方參考的是百度指數的相關(guān)需求圖。一些后續條款以它們?yōu)榛A,但僅供參考;不限于百度下拉框等后續查詢(xún)詞和相關(guān)搜索。
  網(wǎng)頁(yè)是指整體,一個(gè)網(wǎng)頁(yè)可以分為不同的區域。例如,網(wǎng)頁(yè)標題、描述、網(wǎng)頁(yè)內容、網(wǎng)頁(yè)底部標題等,不同的區域有不同的權重。經(jīng)常說(shuō)的網(wǎng)頁(yè)標題必須具有很高的權重。標題收錄相關(guān)的關(guān)鍵詞,很大程度上說(shuō)明了網(wǎng)頁(yè)內容的中心思想。我對搜索引擎判斷網(wǎng)頁(yè)和查詢(xún)的相關(guān)性有一個(gè)基本的了解,所以我不需要把關(guān)鍵詞和許摩關(guān)鍵詞密度堆在一起。
 ?。ㄘ熑尉庉嫞核阉饕婢W(wǎng)站optimizationSEO外包-,原創(chuàng )不易,轉載時(shí)必須以鏈接形式注明作者、原出處及本聲明。) 查看全部

  簡(jiǎn)述簡(jiǎn)述搜索引擎如何判斷網(wǎng)頁(yè)和查詢(xún)的相關(guān)性?
  搜索引擎的質(zhì)量在很大程度上取決于搜索結果的網(wǎng)絡(luò )內容和用戶(hù)體驗。搜索引擎在搜索能夠滿(mǎn)足用戶(hù)需求的網(wǎng)頁(yè)時(shí),主要考慮兩個(gè)方面:網(wǎng)頁(yè)與查詢(xún)的相關(guān)性,以及網(wǎng)頁(yè)的重要性。網(wǎng)頁(yè)與查詢(xún)的相關(guān)性是指用戶(hù)的搜索查詢(xún)與網(wǎng)頁(yè)內容之間的內容相似度得分,通常通過(guò)鏈接分析計算方法來(lái)評估網(wǎng)頁(yè)的重要性;本文主要簡(jiǎn)要介紹搜索引擎如何判斷網(wǎng)頁(yè)與查詢(xún)的相關(guān)性?
  
  判斷網(wǎng)頁(yè)內容是否與用戶(hù)查詢(xún)的關(guān)鍵詞相關(guān),取決于搜索引擎采用的檢索模型。幾種常用的檢索模型:布爾模型、向量空間模型、概率模型、語(yǔ)言模型和機器學(xué)習排序算法。
  1.Boolean 模型
  布爾模型簡(jiǎn)單來(lái)說(shuō)就是用戶(hù)查詢(xún)的詞是否出現在網(wǎng)頁(yè)中,是對是錯,是否收錄在非收錄中。比如用戶(hù)搜索的關(guān)鍵詞是SEO,他們希望得到與SEO相關(guān)的信息。當網(wǎng)頁(yè)內容中出現SEO這個(gè)詞時(shí),就意味著(zhù)該網(wǎng)頁(yè)與用戶(hù)的查詢(xún)相關(guān)。布爾模型也是檢索模型中最簡(jiǎn)單的一種,其優(yōu)缺點(diǎn)也非常直觀(guān)。
  2.矢量空間模型
  向量空間模型將查詢(xún)詞和文檔中的關(guān)鍵詞轉換為特征向量,然后使用余弦公式計算文檔與查詢(xún)的相似度并對輸出結果進(jìn)行排序。主要介紹了TF-IDF算法、TF詞頻和IDF逆文檔頻率。
  TF詞頻,即一個(gè)詞在內容中出現的次數。出現次數較多的詞往往可以說(shuō)明內容的主題信息。 IDF逆文檔頻率是衡量單詞普遍重要性的指標,突出特征詞。如果某個(gè)關(guān)鍵詞在某個(gè)網(wǎng)頁(yè)內容中的詞頻很高,而這個(gè)詞很少出現在網(wǎng)頁(yè)搜索結果和其他網(wǎng)頁(yè)內容中,那么這個(gè)關(guān)鍵詞的權重就會(huì )很高。 SEO常用的是關(guān)鍵詞密度,但是沒(méi)有統一的衡量標準。不要使用 2%~8% 作為關(guān)鍵詞密度標準。
  3.probability 模型
  最成功的概率模型是 BM25 模型,目前被大多數商業(yè)搜索引擎用作相關(guān)性排名模型。在TF-IDF算法的基礎上,擴展了相關(guān)的概率后續詞,比如搜索詞條SEO,大部分可能會(huì )搜索SEO培訓、SEO服務(wù)等。用戶(hù)后續需求源自海量大數據,多維度滿(mǎn)足用戶(hù)需求。目前百度官方參考的是百度指數的相關(guān)需求圖。一些后續條款以它們?yōu)榛A,但僅供參考;不限于百度下拉框等后續查詢(xún)詞和相關(guān)搜索。
  網(wǎng)頁(yè)是指整體,一個(gè)網(wǎng)頁(yè)可以分為不同的區域。例如,網(wǎng)頁(yè)標題、描述、網(wǎng)頁(yè)內容、網(wǎng)頁(yè)底部標題等,不同的區域有不同的權重。經(jīng)常說(shuō)的網(wǎng)頁(yè)標題必須具有很高的權重。標題收錄相關(guān)的關(guān)鍵詞,很大程度上說(shuō)明了網(wǎng)頁(yè)內容的中心思想。我對搜索引擎判斷網(wǎng)頁(yè)和查詢(xún)的相關(guān)性有一個(gè)基本的了解,所以我不需要把關(guān)鍵詞和許摩關(guān)鍵詞密度堆在一起。
 ?。ㄘ熑尉庉嫞核阉饕婢W(wǎng)站optimizationSEO外包-,原創(chuàng )不易,轉載時(shí)必須以鏈接形式注明作者、原出處及本聲明。)

簡(jiǎn)化雙因素算法,你的搜索引擎優(yōu)化會(huì )嗎?

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 105 次瀏覽 ? 2021-07-10 03:10 ? 來(lái)自相關(guān)話(huà)題

  簡(jiǎn)化雙因素算法,你的搜索引擎優(yōu)化會(huì )嗎?
  在排名方面尋找一個(gè)簡(jiǎn)單的答案,但這兩項研究和 Google 本身都表示,鏈接和內容是所涉及的最大因素。如果您更多地關(guān)注簡(jiǎn)化的雙因素算法,您的 SEO 會(huì )奏效嗎?
  
  網(wǎng)站設計公司
  搜索引擎優(yōu)化排名肯定有很多感興趣的因素:
  有了這個(gè)專(zhuān)業(yè)的研究,尤其是 Moz 和 searchmetrics。這些都是開(kāi)創(chuàng )性的研究,如果您認真對待搜索引擎優(yōu)化,您需要了解這些研究的內容。這些太復雜了。他們需要一種簡(jiǎn)單的方式來(lái)看待事物,包括一些世界上最大的公司,以及一些世界上最高的網(wǎng)站。對于這些公司中的大多數,有超過(guò) 200 個(gè)排名因素。
  這些干擾最終會(huì )集中在兩個(gè)最重要的事情上:構建大量?jì)热莺统錾膬热蒹w驗,并促進(jìn)其發(fā)展。
  今天的重點(diǎn)是開(kāi)發(fā)一種基本方法,大多數公司都可以使用它來(lái)簡(jiǎn)化搜索引擎優(yōu)化的想法,并將重點(diǎn)放在最高優(yōu)先級上。
  Google 最近所說(shuō)的兩個(gè)最重要的排名因素是什么:
  我可以告訴你它們是什么。這是輸入網(wǎng)站的內容和鏈接。
  我們走了,這是開(kāi)始。據谷歌稱(chēng),其鏈接和內容是最大的兩個(gè)。希望內容是一個(gè)重要因素的想法是顯而易見(jiàn)的,但下面我將分解更多優(yōu)秀內容真正需要的內容。另外,可以看到一些備份鏈接的威力,在研究中,我最近發(fā)布了鏈接作為排名因素。
  我們是否應該認為世界是由這兩個(gè)因素組成的?這很簡(jiǎn)單,可能太多了,所以讓我們嘗試進(jìn)一步簡(jiǎn)化它。如果專(zhuān)注于創(chuàng )建優(yōu)質(zhì)內容并有效推廣,有多少組織會(huì )顯著(zhù)改善其搜索引擎優(yōu)化?我可以告訴你,根據我的經(jīng)驗,這是許多組織根本不做的兩件事。
  這是否意味著(zhù)我們可以將我們的兩個(gè)因素變成一個(gè)(純)假設的排名評分方程,看起來(lái)像這樣?
  
  html5 設計
  我真的認為這個(gè)方程相當有效,雖然它有一些限制和遺漏,我會(huì )在下面更詳細地描述。您還需要考慮“優(yōu)質(zhì)內容”的概念,以正確的方式獲得較高的內容分數。
  什么是“精彩內容?”
  如果我們退后一步思考什么是優(yōu)質(zhì)內容,在我看來(lái),主要由三個(gè)組成部分組成:
  協(xié)會(huì )
  質(zhì)量
  整體內容體驗
  這部分的第一部分很簡(jiǎn)單。如果內容與查詢(xún)無(wú)關(guān),則不應為查詢(xún)排名,如果。這是有道理的,對吧?
  第二部分也很簡(jiǎn)單。這就是質(zhì)量的概念。它提供了人們正在尋找的信息?那是你的網(wǎng)站 更獨特的信息嗎?顯然,這對內容的質(zhì)量很有意義。
  我們可以將質(zhì)量和相對獨特性的概念合并為物質(zhì)區分的概念。蘭德在他的白板上精彩地闡述了這一點(diǎn),并在周五創(chuàng )作了 10 次內容。
  
  你需要創(chuàng )造出新的、引人注目的東西,并提供很多價(jià)值。這可能并不容易,但最好的事情從來(lái)沒(méi)有發(fā)生過(guò)。
<p>如果您處于競爭激烈的市場(chǎng)中,可以合理猜測您的頂級競爭對手正在制作出色的內容主題及其目標受眾。對于最重要的查詢(xún),很有可能空間前5(可能更多)的內容是真實(shí)的,真的很好(即比其他文章主題更全面,或者帶來(lái)新信息,其他人沒(méi)有)。 查看全部

  簡(jiǎn)化雙因素算法,你的搜索引擎優(yōu)化會(huì )嗎?
  在排名方面尋找一個(gè)簡(jiǎn)單的答案,但這兩項研究和 Google 本身都表示,鏈接和內容是所涉及的最大因素。如果您更多地關(guān)注簡(jiǎn)化的雙因素算法,您的 SEO 會(huì )奏效嗎?
  
  網(wǎng)站設計公司
  搜索引擎優(yōu)化排名肯定有很多感興趣的因素:
  有了這個(gè)專(zhuān)業(yè)的研究,尤其是 Moz 和 searchmetrics。這些都是開(kāi)創(chuàng )性的研究,如果您認真對待搜索引擎優(yōu)化,您需要了解這些研究的內容。這些太復雜了。他們需要一種簡(jiǎn)單的方式來(lái)看待事物,包括一些世界上最大的公司,以及一些世界上最高的網(wǎng)站。對于這些公司中的大多數,有超過(guò) 200 個(gè)排名因素。
  這些干擾最終會(huì )集中在兩個(gè)最重要的事情上:構建大量?jì)热莺统錾膬热蒹w驗,并促進(jìn)其發(fā)展。
  今天的重點(diǎn)是開(kāi)發(fā)一種基本方法,大多數公司都可以使用它來(lái)簡(jiǎn)化搜索引擎優(yōu)化的想法,并將重點(diǎn)放在最高優(yōu)先級上。
  Google 最近所說(shuō)的兩個(gè)最重要的排名因素是什么:
  我可以告訴你它們是什么。這是輸入網(wǎng)站的內容和鏈接。
  我們走了,這是開(kāi)始。據谷歌稱(chēng),其鏈接和內容是最大的兩個(gè)。希望內容是一個(gè)重要因素的想法是顯而易見(jiàn)的,但下面我將分解更多優(yōu)秀內容真正需要的內容。另外,可以看到一些備份鏈接的威力,在研究中,我最近發(fā)布了鏈接作為排名因素。
  我們是否應該認為世界是由這兩個(gè)因素組成的?這很簡(jiǎn)單,可能太多了,所以讓我們嘗試進(jìn)一步簡(jiǎn)化它。如果專(zhuān)注于創(chuàng )建優(yōu)質(zhì)內容并有效推廣,有多少組織會(huì )顯著(zhù)改善其搜索引擎優(yōu)化?我可以告訴你,根據我的經(jīng)驗,這是許多組織根本不做的兩件事。
  這是否意味著(zhù)我們可以將我們的兩個(gè)因素變成一個(gè)(純)假設的排名評分方程,看起來(lái)像這樣?
  
  html5 設計
  我真的認為這個(gè)方程相當有效,雖然它有一些限制和遺漏,我會(huì )在下面更詳細地描述。您還需要考慮“優(yōu)質(zhì)內容”的概念,以正確的方式獲得較高的內容分數。
  什么是“精彩內容?”
  如果我們退后一步思考什么是優(yōu)質(zhì)內容,在我看來(lái),主要由三個(gè)組成部分組成:
  協(xié)會(huì )
  質(zhì)量
  整體內容體驗
  這部分的第一部分很簡(jiǎn)單。如果內容與查詢(xún)無(wú)關(guān),則不應為查詢(xún)排名,如果。這是有道理的,對吧?
  第二部分也很簡(jiǎn)單。這就是質(zhì)量的概念。它提供了人們正在尋找的信息?那是你的網(wǎng)站 更獨特的信息嗎?顯然,這對內容的質(zhì)量很有意義。
  我們可以將質(zhì)量和相對獨特性的概念合并為物質(zhì)區分的概念。蘭德在他的白板上精彩地闡述了這一點(diǎn),并在周五創(chuàng )作了 10 次內容。
  
  你需要創(chuàng )造出新的、引人注目的東西,并提供很多價(jià)值。這可能并不容易,但最好的事情從來(lái)沒(méi)有發(fā)生過(guò)。
<p>如果您處于競爭激烈的市場(chǎng)中,可以合理猜測您的頂級競爭對手正在制作出色的內容主題及其目標受眾。對于最重要的查詢(xún),很有可能空間前5(可能更多)的內容是真實(shí)的,真的很好(即比其他文章主題更全面,或者帶來(lái)新信息,其他人沒(méi)有)。

陽(yáng)光創(chuàng )信云推廣的方法,提高網(wǎng)站排名必備!

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 76 次瀏覽 ? 2021-07-07 19:24 ? 來(lái)自相關(guān)話(huà)題

  陽(yáng)光創(chuàng )信云推廣的方法,提高網(wǎng)站排名必備!
  網(wǎng)站optimization,貴州陽(yáng)光創(chuàng )信云推廣是一家專(zhuān)業(yè)的網(wǎng)絡(luò )營(yíng)銷(xiāo)外包代理運營(yíng)商,專(zhuān)注于為中小企業(yè)提供網(wǎng)絡(luò )營(yíng)銷(xiāo)整體戰略解決方案,包括網(wǎng)絡(luò )營(yíng)銷(xiāo)方案、網(wǎng)絡(luò )營(yíng)銷(xiāo)策劃、網(wǎng)絡(luò )營(yíng)銷(xiāo)外包、SEM/SEO優(yōu)化、搜索引擎自動(dòng)推廣、網(wǎng)站建筑、網(wǎng)站設計、網(wǎng)站開(kāi)發(fā)等綜合服務(wù),牛推網(wǎng)是一家多元化的現代網(wǎng)絡(luò )信息技術(shù)企業(yè);公司自主研發(fā)的新一代網(wǎng)絡(luò )營(yíng)銷(xiāo)優(yōu)化推廣系統-【陽(yáng)光創(chuàng )信云推廣-中國**新聞源媒體營(yíng)銷(xiāo)推廣平臺】,旨在為廣大商家提供全方位的免費差異化營(yíng)銷(xiāo)推廣服務(wù), 陽(yáng)光創(chuàng )信精兵將協(xié)助企業(yè)管理所有市場(chǎng)運營(yíng),深入挖掘更新、更全、更快的業(yè)務(wù)資源,通過(guò)陽(yáng)光創(chuàng )信云的營(yíng)銷(xiāo)策略快速推廣企業(yè)產(chǎn)品和服務(wù)。
  隨著(zhù)互聯(lián)網(wǎng)業(yè)務(wù)越來(lái)越火爆,市場(chǎng)上有很多公司想要進(jìn)入互聯(lián)網(wǎng)行業(yè)。 網(wǎng)站排名優(yōu)化方法,提升網(wǎng)站排名必備!
  今日頭條后臺自帶手機建站工具,使用起來(lái)非常方便??梢哉f(shuō)就像搭積木來(lái)堆疊頁(yè)面一樣。類(lèi)似于今日頭條的移動(dòng)網(wǎng)站建設,但行為數據的來(lái)源無(wú)法統計。還有很多改進(jìn)和優(yōu)化的空間。我們都知道流量是競價(jià)的核心,但數據是明確流量控制的方向。所以小編在這里整理了幾個(gè)投標人必備的表單模板。函數:是excel中的一個(gè)函數,用于對某個(gè)項目的總價(jià)值進(jìn)行具體統計。用途:常用于多維數據分析。功能:主要用于統計一個(gè)詞組或單詞中的字符數。用途:多用于過(guò)濾長(cháng)尾詞、短尾詞,或者比較雜亂的一般詞等。 功能:統計一組數據中滿(mǎn)足一定條件的值的總數。用途:用于計算咨詢(xún)工具中關(guān)鍵詞帶來(lái)的會(huì )話(huà)數、地區、時(shí)間段等。
  網(wǎng)站Optimization,在互聯(lián)網(wǎng)+時(shí)代,網(wǎng)站是每個(gè)大中型企業(yè)的必備工具。有了這把武器,我們如何才能帶來(lái)實(shí)際利益?搜索引擎網(wǎng)站收錄 和排名很重要。這將大大增加公司的曝光率,帶來(lái)更多的流量。關(guān)于網(wǎng)站搜索引擎優(yōu)化和搜索引擎,一直是商談的話(huà)題。我們都知道搜索引擎優(yōu)化是否合理,搜索引擎也會(huì )如此,直接帶來(lái)難以想象的客流。海創(chuàng )h5自助建站6年專(zhuān)注建站。擁有國內外領(lǐng)先的技術(shù)和網(wǎng)站marketing技術(shù),打造免費、易用的網(wǎng)站。輕松拖拽一鍵發(fā)布和上線(xiàn),快速獲取搜索引擎收錄和排名。
  想要網(wǎng)站排名好,一定是網(wǎng)站的具體方向。這個(gè)方向就是營(yíng)銷(xiāo)的方向。有了這個(gè)具體點(diǎn),我們就可以更有選擇性的結合用戶(hù)的需求,給網(wǎng)站帶來(lái)更多的水分和轉化率,從而提升SEO管理的視覺(jué)效果。通過(guò)LSI和TF-IDF關(guān)鍵詞分析,我們可以找出符合搜索者意圖的關(guān)鍵詞和URL,并將它們組織成Excel表格,然后創(chuàng )建符合搜索者意圖的高質(zhì)量文案。單頁(yè)速度測試單頁(yè)速度測試推薦使用googlespeedtest。分數越高越好,分數越高表示網(wǎng)速越快,跳出率越低。
  網(wǎng)站Optimization,在互聯(lián)網(wǎng)+時(shí)代,網(wǎng)站是每個(gè)大中型企業(yè)的必備工具。有了這把武器,我們如何才能帶來(lái)實(shí)際利益?搜索引擎網(wǎng)站收錄 和排名很重要。這將大大增加公司的曝光率,帶來(lái)更多的流量。關(guān)于網(wǎng)站搜索引擎優(yōu)化和搜索引擎,一直是商談的話(huà)題。搜索引擎優(yōu)化是否合理大家都知道,搜索引擎也會(huì )如此,直接帶來(lái)難以想象的客流量。
  掌握的基礎如下: 1、掌握后端CSS語(yǔ)法,類(lèi)似DIV+HTML等。在做seo的時(shí)候,我們經(jīng)常需要做的一件事就是看@k14的源碼@。如果連基本的html都不懂,操作起來(lái)會(huì )很困難。我們以 URL 為例。有些人不會(huì )在您的朋友鏈上列出 nofollow。有些人可能會(huì )在 KM 中添加 URL。如果你不了解html的基礎知識,你是看不到這些的。不懂html的你還是主動(dòng)發(fā)這些網(wǎng)站友情鏈接,但是視覺(jué)效果根本不行。微聯(lián)世創(chuàng )專(zhuān)注網(wǎng)絡(luò )營(yíng)銷(xiāo)服務(wù),用數據說(shuō)話(huà),用結果說(shuō)話(huà)。同時(shí)是多家搜索、互聯(lián)網(wǎng)巨頭認證的合作伙伴,擁有包括搜索引擎(百度、搜狗、360)等)認證合作伙伴資質(zhì)的專(zhuān)業(yè)互聯(lián)網(wǎng)營(yíng)銷(xiāo)服務(wù)商。
  網(wǎng)站optimization,adaptability網(wǎng)站搜索引擎優(yōu)化有什么優(yōu)勢?自適應網(wǎng)站開(kāi)發(fā)seo規范比較簡(jiǎn)單,這樣的模型也挺好的。 URL可以隨時(shí)同步數據,因為這樣網(wǎng)站可以在手機上及時(shí)調整頁(yè)面,保持良好的顯示效果。還應該發(fā)現,這樣的網(wǎng)頁(yè)是兼容的,所以更容易保持良好的狀態(tài)。
  友情鏈接是合適的,所以我投票給了我的網(wǎng)站,但不僅僅是網(wǎng)站可以成為友情鏈接。一個(gè)低質(zhì)量的友情鏈接不僅對網(wǎng)站有幫助,而且也無(wú)濟于事。吸引蜘蛛:當我們和一個(gè)排名靠前的網(wǎng)站進(jìn)行友情鏈接時(shí),當搜索蜘蛛來(lái)到另一個(gè)網(wǎng)站時(shí),他會(huì )跟隨友情鏈接到我們自己的網(wǎng)站,并且還會(huì )加我們網(wǎng)站有機會(huì )進(jìn)入。相關(guān)閱讀:網(wǎng)站SEO優(yōu)化**如何估算關(guān)鍵詞的排名?權重轉移:當我們得到一個(gè)高質(zhì)量的友情鏈接時(shí),我們已經(jīng)投票支持我們自己的網(wǎng)站推廣。比如你的網(wǎng)站和食物有關(guān),那么這個(gè)友情鏈接幾乎是在告訴搜索引擎。您的網(wǎng)站 與食物有關(guān)。所以在做友情鏈接的時(shí)候一定要找到和我們主題相似的網(wǎng)站,這樣搜索引擎才能更快的提升我們網(wǎng)站的權重。 查看全部

  陽(yáng)光創(chuàng )信云推廣的方法,提高網(wǎng)站排名必備!
  網(wǎng)站optimization,貴州陽(yáng)光創(chuàng )信云推廣是一家專(zhuān)業(yè)的網(wǎng)絡(luò )營(yíng)銷(xiāo)外包代理運營(yíng)商,專(zhuān)注于為中小企業(yè)提供網(wǎng)絡(luò )營(yíng)銷(xiāo)整體戰略解決方案,包括網(wǎng)絡(luò )營(yíng)銷(xiāo)方案、網(wǎng)絡(luò )營(yíng)銷(xiāo)策劃、網(wǎng)絡(luò )營(yíng)銷(xiāo)外包、SEM/SEO優(yōu)化、搜索引擎自動(dòng)推廣、網(wǎng)站建筑、網(wǎng)站設計、網(wǎng)站開(kāi)發(fā)等綜合服務(wù),牛推網(wǎng)是一家多元化的現代網(wǎng)絡(luò )信息技術(shù)企業(yè);公司自主研發(fā)的新一代網(wǎng)絡(luò )營(yíng)銷(xiāo)優(yōu)化推廣系統-【陽(yáng)光創(chuàng )信云推廣-中國**新聞源媒體營(yíng)銷(xiāo)推廣平臺】,旨在為廣大商家提供全方位的免費差異化營(yíng)銷(xiāo)推廣服務(wù), 陽(yáng)光創(chuàng )信精兵將協(xié)助企業(yè)管理所有市場(chǎng)運營(yíng),深入挖掘更新、更全、更快的業(yè)務(wù)資源,通過(guò)陽(yáng)光創(chuàng )信云的營(yíng)銷(xiāo)策略快速推廣企業(yè)產(chǎn)品和服務(wù)。
  隨著(zhù)互聯(lián)網(wǎng)業(yè)務(wù)越來(lái)越火爆,市場(chǎng)上有很多公司想要進(jìn)入互聯(lián)網(wǎng)行業(yè)。 網(wǎng)站排名優(yōu)化方法,提升網(wǎng)站排名必備!
  今日頭條后臺自帶手機建站工具,使用起來(lái)非常方便??梢哉f(shuō)就像搭積木來(lái)堆疊頁(yè)面一樣。類(lèi)似于今日頭條的移動(dòng)網(wǎng)站建設,但行為數據的來(lái)源無(wú)法統計。還有很多改進(jìn)和優(yōu)化的空間。我們都知道流量是競價(jià)的核心,但數據是明確流量控制的方向。所以小編在這里整理了幾個(gè)投標人必備的表單模板。函數:是excel中的一個(gè)函數,用于對某個(gè)項目的總價(jià)值進(jìn)行具體統計。用途:常用于多維數據分析。功能:主要用于統計一個(gè)詞組或單詞中的字符數。用途:多用于過(guò)濾長(cháng)尾詞、短尾詞,或者比較雜亂的一般詞等。 功能:統計一組數據中滿(mǎn)足一定條件的值的總數。用途:用于計算咨詢(xún)工具中關(guān)鍵詞帶來(lái)的會(huì )話(huà)數、地區、時(shí)間段等。
  網(wǎng)站Optimization,在互聯(lián)網(wǎng)+時(shí)代,網(wǎng)站是每個(gè)大中型企業(yè)的必備工具。有了這把武器,我們如何才能帶來(lái)實(shí)際利益?搜索引擎網(wǎng)站收錄 和排名很重要。這將大大增加公司的曝光率,帶來(lái)更多的流量。關(guān)于網(wǎng)站搜索引擎優(yōu)化和搜索引擎,一直是商談的話(huà)題。我們都知道搜索引擎優(yōu)化是否合理,搜索引擎也會(huì )如此,直接帶來(lái)難以想象的客流。海創(chuàng )h5自助建站6年專(zhuān)注建站。擁有國內外領(lǐng)先的技術(shù)和網(wǎng)站marketing技術(shù),打造免費、易用的網(wǎng)站。輕松拖拽一鍵發(fā)布和上線(xiàn),快速獲取搜索引擎收錄和排名。
  想要網(wǎng)站排名好,一定是網(wǎng)站的具體方向。這個(gè)方向就是營(yíng)銷(xiāo)的方向。有了這個(gè)具體點(diǎn),我們就可以更有選擇性的結合用戶(hù)的需求,給網(wǎng)站帶來(lái)更多的水分和轉化率,從而提升SEO管理的視覺(jué)效果。通過(guò)LSI和TF-IDF關(guān)鍵詞分析,我們可以找出符合搜索者意圖的關(guān)鍵詞和URL,并將它們組織成Excel表格,然后創(chuàng )建符合搜索者意圖的高質(zhì)量文案。單頁(yè)速度測試單頁(yè)速度測試推薦使用googlespeedtest。分數越高越好,分數越高表示網(wǎng)速越快,跳出率越低。
  網(wǎng)站Optimization,在互聯(lián)網(wǎng)+時(shí)代,網(wǎng)站是每個(gè)大中型企業(yè)的必備工具。有了這把武器,我們如何才能帶來(lái)實(shí)際利益?搜索引擎網(wǎng)站收錄 和排名很重要。這將大大增加公司的曝光率,帶來(lái)更多的流量。關(guān)于網(wǎng)站搜索引擎優(yōu)化和搜索引擎,一直是商談的話(huà)題。搜索引擎優(yōu)化是否合理大家都知道,搜索引擎也會(huì )如此,直接帶來(lái)難以想象的客流量。
  掌握的基礎如下: 1、掌握后端CSS語(yǔ)法,類(lèi)似DIV+HTML等。在做seo的時(shí)候,我們經(jīng)常需要做的一件事就是看@k14的源碼@。如果連基本的html都不懂,操作起來(lái)會(huì )很困難。我們以 URL 為例。有些人不會(huì )在您的朋友鏈上列出 nofollow。有些人可能會(huì )在 KM 中添加 URL。如果你不了解html的基礎知識,你是看不到這些的。不懂html的你還是主動(dòng)發(fā)這些網(wǎng)站友情鏈接,但是視覺(jué)效果根本不行。微聯(lián)世創(chuàng )專(zhuān)注網(wǎng)絡(luò )營(yíng)銷(xiāo)服務(wù),用數據說(shuō)話(huà),用結果說(shuō)話(huà)。同時(shí)是多家搜索、互聯(lián)網(wǎng)巨頭認證的合作伙伴,擁有包括搜索引擎(百度、搜狗、360)等)認證合作伙伴資質(zhì)的專(zhuān)業(yè)互聯(lián)網(wǎng)營(yíng)銷(xiāo)服務(wù)商。
  網(wǎng)站optimization,adaptability網(wǎng)站搜索引擎優(yōu)化有什么優(yōu)勢?自適應網(wǎng)站開(kāi)發(fā)seo規范比較簡(jiǎn)單,這樣的模型也挺好的。 URL可以隨時(shí)同步數據,因為這樣網(wǎng)站可以在手機上及時(shí)調整頁(yè)面,保持良好的顯示效果。還應該發(fā)現,這樣的網(wǎng)頁(yè)是兼容的,所以更容易保持良好的狀態(tài)。
  友情鏈接是合適的,所以我投票給了我的網(wǎng)站,但不僅僅是網(wǎng)站可以成為友情鏈接。一個(gè)低質(zhì)量的友情鏈接不僅對網(wǎng)站有幫助,而且也無(wú)濟于事。吸引蜘蛛:當我們和一個(gè)排名靠前的網(wǎng)站進(jìn)行友情鏈接時(shí),當搜索蜘蛛來(lái)到另一個(gè)網(wǎng)站時(shí),他會(huì )跟隨友情鏈接到我們自己的網(wǎng)站,并且還會(huì )加我們網(wǎng)站有機會(huì )進(jìn)入。相關(guān)閱讀:網(wǎng)站SEO優(yōu)化**如何估算關(guān)鍵詞的排名?權重轉移:當我們得到一個(gè)高質(zhì)量的友情鏈接時(shí),我們已經(jīng)投票支持我們自己的網(wǎng)站推廣。比如你的網(wǎng)站和食物有關(guān),那么這個(gè)友情鏈接幾乎是在告訴搜索引擎。您的網(wǎng)站 與食物有關(guān)。所以在做友情鏈接的時(shí)候一定要找到和我們主題相似的網(wǎng)站,這樣搜索引擎才能更快的提升我們網(wǎng)站的權重。

SEO優(yōu)化的新思路——SEO站內優(yōu)化之主題模型

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 93 次瀏覽 ? 2021-07-07 03:03 ? 來(lái)自相關(guān)話(huà)題

  SEO優(yōu)化的新思路——SEO站內優(yōu)化之主題模型
  今天和大家分享SEO優(yōu)化的新思路。昨天家里有事,所以沒(méi)有急著(zhù)更新微博。我特地再次說(shuō)聲抱歉。
  隨著(zhù)互聯(lián)網(wǎng)時(shí)代的飛速發(fā)展,現在網(wǎng)站的種類(lèi)越來(lái)越多。隨著(zhù)搜索引擎系統越來(lái)越完善,也趨向于更加人性化和用戶(hù)體驗。 SEO 現在不同于以前的優(yōu)化規則。我們需要開(kāi)始了解我們的網(wǎng)站 應該如何優(yōu)化以獲得更好的排名。
  之前我們講SEO優(yōu)化的時(shí)候,會(huì )很不自然地想到,網(wǎng)站的關(guān)鍵詞密度,頁(yè)面內容是否原創(chuàng ),是否有很多導入鏈接(外部鏈接),是否TDK關(guān)鍵詞設置精準匹配等做法?,F在那是幾年前的舊 SEO 優(yōu)化方法。
  今天偶然看到一篇文章的文章,里面講了SEO網(wǎng)站優(yōu)化的新思路和SEO網(wǎng)站優(yōu)化的話(huà)題模型?,F在搜索引擎可以通過(guò)內容上下文和內容實(shí)體屬性來(lái)處理排名,讓用戶(hù)得到更準確的結果。搜索結果。對于優(yōu)化者來(lái)說(shuō),網(wǎng)站優(yōu)化不再是簡(jiǎn)單的內容填充。我們要做的是如何讓搜索引擎明白我們網(wǎng)站有真實(shí)的內容和實(shí)體屬性。
  首先,它被稱(chēng)為詞匯關(guān)聯(lián)。我們在寫(xiě)網(wǎng)站內容的時(shí)候,一定要關(guān)注如何關(guān)聯(lián)詞句。使用關(guān)鍵詞查找同義詞和異體詞,查找與主題內容相關(guān)的二類(lèi)詞,查找與二類(lèi)詞相關(guān)的三類(lèi)詞,發(fā)現內容屬性與主題內容相關(guān)主題(人、地點(diǎn)、事物)。
  其次,稱(chēng)為詞法布局。頁(yè)面的布局對于搜索引擎了解我們頁(yè)面的內容和主題也很重要。蜘蛛來(lái)到頁(yè)面后,發(fā)現這么多關(guān)鍵詞,需要區分哪些是重要的,哪些是與詞組相關(guān)的,所以詞系統布局就是區分核心詞和相關(guān)性。區域:關(guān)鍵詞 必須出現在標題、標題和主要段落中。頻率:重要短語(yǔ)或其變體的出現頻率可能高于平均水平。距離:相關(guān)詞或短語(yǔ)應彼此靠近或使用 HTML 元素(如 ALT)。
  第三個(gè)叫做補充內容?;蛟S還有很多人認為外鏈是最有力的信號提醒,告訴搜索引擎這個(gè)頁(yè)面的主題是什么。搜索引擎希望大家可以同時(shí)使用內鏈和外鏈,積極向好三方網(wǎng)站進(jìn)行推薦,并引導相關(guān)網(wǎng)站內容。健康的網(wǎng)站應該進(jìn)進(jìn)出出,讓用戶(hù)得到更多更好的信息。頁(yè)面底部添加相關(guān)資源鏈接(推薦站內鏈接),文中引用,如業(yè)內知名人士的話(huà)或圖標、視頻,文中使用導出鏈接去第三方網(wǎng)站(你不是100顆心會(huì )被K's放)。
  第四個(gè)稱(chēng)為內容實(shí)體。強大的搜索引擎會(huì )在抓取頁(yè)面時(shí)自動(dòng)解釋內容實(shí)體,或作為內容屬性。用一個(gè)很籠統的Title來(lái)描述頁(yè)面的主題,加上一個(gè)開(kāi)頭(簡(jiǎn)要)來(lái)描述頁(yè)面的內容,把內容分成幾段,每段都有自己的主題,盡量擴大主題角度,并添加相關(guān)的提供額外的答案 不關(guān)心一個(gè)詞的權重,而是建立內容實(shí)體而不是站內或站外的輔助資源。 查看全部

  SEO優(yōu)化的新思路——SEO站內優(yōu)化之主題模型
  今天和大家分享SEO優(yōu)化的新思路。昨天家里有事,所以沒(méi)有急著(zhù)更新微博。我特地再次說(shuō)聲抱歉。
  隨著(zhù)互聯(lián)網(wǎng)時(shí)代的飛速發(fā)展,現在網(wǎng)站的種類(lèi)越來(lái)越多。隨著(zhù)搜索引擎系統越來(lái)越完善,也趨向于更加人性化和用戶(hù)體驗。 SEO 現在不同于以前的優(yōu)化規則。我們需要開(kāi)始了解我們的網(wǎng)站 應該如何優(yōu)化以獲得更好的排名。
  之前我們講SEO優(yōu)化的時(shí)候,會(huì )很不自然地想到,網(wǎng)站的關(guān)鍵詞密度,頁(yè)面內容是否原創(chuàng ),是否有很多導入鏈接(外部鏈接),是否TDK關(guān)鍵詞設置精準匹配等做法?,F在那是幾年前的舊 SEO 優(yōu)化方法。
  今天偶然看到一篇文章的文章,里面講了SEO網(wǎng)站優(yōu)化的新思路和SEO網(wǎng)站優(yōu)化的話(huà)題模型?,F在搜索引擎可以通過(guò)內容上下文和內容實(shí)體屬性來(lái)處理排名,讓用戶(hù)得到更準確的結果。搜索結果。對于優(yōu)化者來(lái)說(shuō),網(wǎng)站優(yōu)化不再是簡(jiǎn)單的內容填充。我們要做的是如何讓搜索引擎明白我們網(wǎng)站有真實(shí)的內容和實(shí)體屬性。
  首先,它被稱(chēng)為詞匯關(guān)聯(lián)。我們在寫(xiě)網(wǎng)站內容的時(shí)候,一定要關(guān)注如何關(guān)聯(lián)詞句。使用關(guān)鍵詞查找同義詞和異體詞,查找與主題內容相關(guān)的二類(lèi)詞,查找與二類(lèi)詞相關(guān)的三類(lèi)詞,發(fā)現內容屬性與主題內容相關(guān)主題(人、地點(diǎn)、事物)。
  其次,稱(chēng)為詞法布局。頁(yè)面的布局對于搜索引擎了解我們頁(yè)面的內容和主題也很重要。蜘蛛來(lái)到頁(yè)面后,發(fā)現這么多關(guān)鍵詞,需要區分哪些是重要的,哪些是與詞組相關(guān)的,所以詞系統布局就是區分核心詞和相關(guān)性。區域:關(guān)鍵詞 必須出現在標題、標題和主要段落中。頻率:重要短語(yǔ)或其變體的出現頻率可能高于平均水平。距離:相關(guān)詞或短語(yǔ)應彼此靠近或使用 HTML 元素(如 ALT)。
  第三個(gè)叫做補充內容?;蛟S還有很多人認為外鏈是最有力的信號提醒,告訴搜索引擎這個(gè)頁(yè)面的主題是什么。搜索引擎希望大家可以同時(shí)使用內鏈和外鏈,積極向好三方網(wǎng)站進(jìn)行推薦,并引導相關(guān)網(wǎng)站內容。健康的網(wǎng)站應該進(jìn)進(jìn)出出,讓用戶(hù)得到更多更好的信息。頁(yè)面底部添加相關(guān)資源鏈接(推薦站內鏈接),文中引用,如業(yè)內知名人士的話(huà)或圖標、視頻,文中使用導出鏈接去第三方網(wǎng)站(你不是100顆心會(huì )被K's放)。
  第四個(gè)稱(chēng)為內容實(shí)體。強大的搜索引擎會(huì )在抓取頁(yè)面時(shí)自動(dòng)解釋內容實(shí)體,或作為內容屬性。用一個(gè)很籠統的Title來(lái)描述頁(yè)面的主題,加上一個(gè)開(kāi)頭(簡(jiǎn)要)來(lái)描述頁(yè)面的內容,把內容分成幾段,每段都有自己的主題,盡量擴大主題角度,并添加相關(guān)的提供額外的答案 不關(guān)心一個(gè)詞的權重,而是建立內容實(shí)體而不是站內或站外的輔助資源。

專(zhuān)門(mén)探索JavaScript及其所構建的組件系列文章第11篇

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 106 次瀏覽 ? 2021-07-07 02:36 ? 來(lái)自相關(guān)話(huà)題

  專(zhuān)門(mén)探索JavaScript及其所構建的組件系列文章第11篇
  這是文章 致力于探索 JavaScript 及其構建的組件的系列中的第 11 篇文章。
  如果你錯過(guò)了前面的章節,你可以在這里找到它們:
  JavaScript 的工作原理:引擎、運行時(shí)和調用堆棧概述! JavaScript 的工作原理:深入了解 V8 引擎和編寫(xiě)優(yōu)化代碼的 5 個(gè)技巧! JavaScript 是如何工作的:內存管理 + 如何處理 4 種常見(jiàn)的內存泄漏! JavaScript 是如何工作的:事件循環(huán)和異步編程的興起 + 5 種使用 async/await 進(jìn)行更好編碼的方法! JavaScript 是如何工作的:探索 websocket 和 HTTP/2 和 SSE + 如何選擇正確的路徑! JavaScript 是如何工作的:與 WebAssembly 及其使用場(chǎng)景的比較! JavaScript 是如何工作的:Web Workers 的構建塊 + 5 個(gè)使用它們的場(chǎng)景! JavaScript 是如何工作的:Service Worker 生命周期和使用場(chǎng)景! JavaScript 是如何工作的:Web 推送通知機制! JavaScript 的工作原理:使用 MutationObserver 跟蹤 DOM 變化
  當您構建 Web 應用程序時(shí),您不僅僅是編寫(xiě)單獨運行的 JavaScript 代碼,您編寫(xiě)的 JavaScript 還與環(huán)境進(jìn)行交互。了解此環(huán)境、它的工作原理及其組將幫助您構建更好的應用程序,并為應用程序發(fā)布后可能出現的潛在問(wèn)題做好充分準備。
  
  瀏覽器的主要組件包括:
  在這個(gè)文章 中,我將重點(diǎn)介紹渲染引擎,因為它處理 HTML 和 CSS 的解析和可視化,這是大多數 JavaScript 應用程序經(jīng)常與之交互的東西。
  渲染引擎概述
  渲染引擎的職責是渲染,即在瀏覽器窗口中顯示請求的內容。
  渲染引擎可以顯示 HTML 和 XML 文檔和圖像。如果您使用其他插件,渲染引擎還可以顯示不同類(lèi)型的文檔,例如 PDF。
  渲染引擎
  與 JavaScript 引擎類(lèi)似,不同的瀏覽器也使用不同的渲染引擎。以下是一些最受歡迎的:
  Firefox、Chrome 和 Safari 基于兩個(gè)渲染引擎。 Firefox 使用由 Mozilla 自主開(kāi)發(fā)的渲染引擎 Geoko。 Safari 和 Chrome 都使用 Webkit。 Blink 是 Chrome 基于 WebKit 的自主渲染引擎。
  渲染過(guò)程
  渲染引擎從網(wǎng)絡(luò )層接收請求文檔的內容。
  
  解析HTML構建Dom樹(shù)->構建渲染樹(shù)->布局渲染樹(shù)->繪制渲染樹(shù)
  構建 Dom 樹(shù)
  渲染引擎的第一步是解析 HTML 文檔并將解析的元素轉換為 DOM 樹(shù)中的實(shí)際 DOM 節點(diǎn)。
  如果有以下Html結構
  





<p> Hello, friend!

smiley.gif


</p>
  對應的DOM樹(shù)如下:
  
  基本上,每個(gè)元素都表示為所有元素的父節點(diǎn),而這些元素直接收錄在元素中。
  構建 CSSOM
  CSSOM 指的是 CSS 對象模型。瀏覽器在構建頁(yè)面的DOM時(shí),遇到head標簽下的link標簽,引用了外部的theme.css CSS樣式表。瀏覽器預計可能需要資源來(lái)呈現頁(yè)面,并立即發(fā)送請求。假設theme.css文件的內容如下:
  body {
font-size: 16px;
}
p {
font-weight: bold;
}
span {
color: red;
}
p span {
display: none;
}
img {
float: right;
}
  和 HTML 一樣,渲染引擎需要將 CSS 轉換成瀏覽器可以使用的東西——CSSOM。 CSSOM 結構如下:
  
  你想知道為什么 CSSOM 是一個(gè)樹(shù)狀結構嗎?在計算頁(yè)面上任何對象的最終樣式集時(shí),瀏覽器從適用于該節點(diǎn)的最通用規則開(kāi)始(例如,如果它是 body 元素的子元素,則應用所有的 body 樣式),然后細化遞歸地,通過(guò)應用更具體的規則來(lái)計算樣式。
  我們來(lái)看一個(gè)具體的例子。 body 元素內 span 標簽中收錄的任何文本的字體大小為 16 像素,并且是紅色的。這些樣式繼承自 body 元素。如果 span 元素是 p 元素的子元素,則不會(huì )顯示其內容,因為它應用了更具體的樣式(display: none)。
  另請注意,上面的樹(shù)不是完整的 CSSOM 樹(shù),只是我們決定在樣式表中涵蓋的樣式。每個(gè)瀏覽器都提供一組默認樣式,也稱(chēng)為“用戶(hù)代理樣式表”。這是我們在沒(méi)有明確指定樣式時(shí)看到的樣式,我們的樣式將覆蓋這些默認值。
  
  不同的瀏覽器對相同的元素有不同的默認樣式,這就是為什么我們寫(xiě) *{padding:0;marging:0};在 CSS 的最開(kāi)始,也就是我們要重置 CSS 默認樣式。
  構建渲染樹(shù)
  CSSOM 樹(shù)和 DOM 樹(shù)連接在一起形成渲染樹(shù),用于計算可見(jiàn)元素的布局,并作為將像素渲染到屏幕的過(guò)程的輸入。
  渲染樹(shù)中的每個(gè)節點(diǎn)在 Webkit 中稱(chēng)為渲染器或渲染對象。
  下面是上面DOM和CSSOM樹(shù)的渲染樹(shù)的樣子:
  
  為了構建渲染樹(shù),瀏覽器大致執行以下操作:
  對于每個(gè)可見(jiàn)節點(diǎn),找到一個(gè)合適的匹配CSSOM規則,并應用一個(gè)樣式來(lái)顯示可見(jiàn)節點(diǎn)之間的差異(節點(diǎn)包括內容和計算樣式)“visibility: hidden”和“display: none”,“ Visibility: hidden" 將元素設置為不可見(jiàn),但也會(huì )在布局上占據一定的空間(例如,它會(huì )被渲染為一個(gè)空框),但是"display: none" 元素將節點(diǎn)從整個(gè)渲染樹(shù)中移除, 所以它不是布局的一部分。
  您可以在此處查看 RenderObject(在 WebKit 中)的源代碼:
  先來(lái)看看這個(gè)類(lèi)的一些核心內容:
  
  每個(gè)渲染器代表一個(gè)矩形區域,通常對應一個(gè)節點(diǎn)的CSS盒模型。它收錄寬度、高度和位置等幾何信息。
  渲染樹(shù)的布局
  當您創(chuàng )建渲染器并將其添加到樹(shù)中時(shí),它沒(méi)有位置和大小。計算這些值稱(chēng)為布局。
  HTML 使用基于流的布局模型,這意味著(zhù)大多數時(shí)候它可以一次性計算幾何。坐標系相對于根渲染器,使用左上角的原點(diǎn)坐標。
  Layout 是一個(gè)遞歸過(guò)程——它從根渲染器開(kāi)始,它對應于 HTML 文檔的元素。布局通過(guò)組件或整個(gè)渲染器層次結構遞歸地繼續,為需要它的每個(gè)渲染器計算幾何信息。
  根渲染器的位置為0,0,其大小與瀏覽器窗口可見(jiàn)部分(即視口)的大小相同。開(kāi)始布局過(guò)程意味著(zhù)為每個(gè)節點(diǎn)提供它應該出現在屏幕上的確切坐標。
  繪制渲染樹(shù)
  在這里繪制,遍歷渲染樹(shù)并調用渲染器的paint()方法在屏幕上顯示內容。
  繪圖可以是全局的或增量的(類(lèi)似于布局):
  一般來(lái)說(shuō),重要的是要了解繪圖是一個(gè)漸進(jìn)的過(guò)程。為了獲得更好的用戶(hù)體驗,渲染引擎會(huì )盡快在屏幕上顯示內容。它不會(huì )等到所有 HTML 都被解析后才開(kāi)始構建和布局渲染樹(shù)。相反,它會(huì )解析并顯示部分內容,同時(shí)繼續處理來(lái)自網(wǎng)絡(luò )的其余內容項。
  處理腳本和樣式表的順序
  解析器到達時(shí) 查看全部

  專(zhuān)門(mén)探索JavaScript及其所構建的組件系列文章第11篇
  這是文章 致力于探索 JavaScript 及其構建的組件的系列中的第 11 篇文章。
  如果你錯過(guò)了前面的章節,你可以在這里找到它們:
  JavaScript 的工作原理:引擎、運行時(shí)和調用堆棧概述! JavaScript 的工作原理:深入了解 V8 引擎和編寫(xiě)優(yōu)化代碼的 5 個(gè)技巧! JavaScript 是如何工作的:內存管理 + 如何處理 4 種常見(jiàn)的內存泄漏! JavaScript 是如何工作的:事件循環(huán)和異步編程的興起 + 5 種使用 async/await 進(jìn)行更好編碼的方法! JavaScript 是如何工作的:探索 websocket 和 HTTP/2 和 SSE + 如何選擇正確的路徑! JavaScript 是如何工作的:與 WebAssembly 及其使用場(chǎng)景的比較! JavaScript 是如何工作的:Web Workers 的構建塊 + 5 個(gè)使用它們的場(chǎng)景! JavaScript 是如何工作的:Service Worker 生命周期和使用場(chǎng)景! JavaScript 是如何工作的:Web 推送通知機制! JavaScript 的工作原理:使用 MutationObserver 跟蹤 DOM 變化
  當您構建 Web 應用程序時(shí),您不僅僅是編寫(xiě)單獨運行的 JavaScript 代碼,您編寫(xiě)的 JavaScript 還與環(huán)境進(jìn)行交互。了解此環(huán)境、它的工作原理及其組將幫助您構建更好的應用程序,并為應用程序發(fā)布后可能出現的潛在問(wèn)題做好充分準備。
  
  瀏覽器的主要組件包括:
  在這個(gè)文章 中,我將重點(diǎn)介紹渲染引擎,因為它處理 HTML 和 CSS 的解析和可視化,這是大多數 JavaScript 應用程序經(jīng)常與之交互的東西。
  渲染引擎概述
  渲染引擎的職責是渲染,即在瀏覽器窗口中顯示請求的內容。
  渲染引擎可以顯示 HTML 和 XML 文檔和圖像。如果您使用其他插件,渲染引擎還可以顯示不同類(lèi)型的文檔,例如 PDF。
  渲染引擎
  與 JavaScript 引擎類(lèi)似,不同的瀏覽器也使用不同的渲染引擎。以下是一些最受歡迎的:
  Firefox、Chrome 和 Safari 基于兩個(gè)渲染引擎。 Firefox 使用由 Mozilla 自主開(kāi)發(fā)的渲染引擎 Geoko。 Safari 和 Chrome 都使用 Webkit。 Blink 是 Chrome 基于 WebKit 的自主渲染引擎。
  渲染過(guò)程
  渲染引擎從網(wǎng)絡(luò )層接收請求文檔的內容。
  
  解析HTML構建Dom樹(shù)->構建渲染樹(shù)->布局渲染樹(shù)->繪制渲染樹(shù)
  構建 Dom 樹(shù)
  渲染引擎的第一步是解析 HTML 文檔并將解析的元素轉換為 DOM 樹(shù)中的實(shí)際 DOM 節點(diǎn)。
  如果有以下Html結構
  





<p> Hello, friend!

smiley.gif


</p>
  對應的DOM樹(shù)如下:
  
  基本上,每個(gè)元素都表示為所有元素的父節點(diǎn),而這些元素直接收錄在元素中。
  構建 CSSOM
  CSSOM 指的是 CSS 對象模型。瀏覽器在構建頁(yè)面的DOM時(shí),遇到head標簽下的link標簽,引用了外部的theme.css CSS樣式表。瀏覽器預計可能需要資源來(lái)呈現頁(yè)面,并立即發(fā)送請求。假設theme.css文件的內容如下:
  body {
font-size: 16px;
}
p {
font-weight: bold;
}
span {
color: red;
}
p span {
display: none;
}
img {
float: right;
}
  和 HTML 一樣,渲染引擎需要將 CSS 轉換成瀏覽器可以使用的東西——CSSOM。 CSSOM 結構如下:
  
  你想知道為什么 CSSOM 是一個(gè)樹(shù)狀結構嗎?在計算頁(yè)面上任何對象的最終樣式集時(shí),瀏覽器從適用于該節點(diǎn)的最通用規則開(kāi)始(例如,如果它是 body 元素的子元素,則應用所有的 body 樣式),然后細化遞歸地,通過(guò)應用更具體的規則來(lái)計算樣式。
  我們來(lái)看一個(gè)具體的例子。 body 元素內 span 標簽中收錄的任何文本的字體大小為 16 像素,并且是紅色的。這些樣式繼承自 body 元素。如果 span 元素是 p 元素的子元素,則不會(huì )顯示其內容,因為它應用了更具體的樣式(display: none)。
  另請注意,上面的樹(shù)不是完整的 CSSOM 樹(shù),只是我們決定在樣式表中涵蓋的樣式。每個(gè)瀏覽器都提供一組默認樣式,也稱(chēng)為“用戶(hù)代理樣式表”。這是我們在沒(méi)有明確指定樣式時(shí)看到的樣式,我們的樣式將覆蓋這些默認值。
  
  不同的瀏覽器對相同的元素有不同的默認樣式,這就是為什么我們寫(xiě) *{padding:0;marging:0};在 CSS 的最開(kāi)始,也就是我們要重置 CSS 默認樣式。
  構建渲染樹(shù)
  CSSOM 樹(shù)和 DOM 樹(shù)連接在一起形成渲染樹(shù),用于計算可見(jiàn)元素的布局,并作為將像素渲染到屏幕的過(guò)程的輸入。
  渲染樹(shù)中的每個(gè)節點(diǎn)在 Webkit 中稱(chēng)為渲染器或渲染對象。
  下面是上面DOM和CSSOM樹(shù)的渲染樹(shù)的樣子:
  
  為了構建渲染樹(shù),瀏覽器大致執行以下操作:
  對于每個(gè)可見(jiàn)節點(diǎn),找到一個(gè)合適的匹配CSSOM規則,并應用一個(gè)樣式來(lái)顯示可見(jiàn)節點(diǎn)之間的差異(節點(diǎn)包括內容和計算樣式)“visibility: hidden”和“display: none”,“ Visibility: hidden" 將元素設置為不可見(jiàn),但也會(huì )在布局上占據一定的空間(例如,它會(huì )被渲染為一個(gè)空框),但是"display: none" 元素將節點(diǎn)從整個(gè)渲染樹(shù)中移除, 所以它不是布局的一部分。
  您可以在此處查看 RenderObject(在 WebKit 中)的源代碼:
  先來(lái)看看這個(gè)類(lèi)的一些核心內容:
  
  每個(gè)渲染器代表一個(gè)矩形區域,通常對應一個(gè)節點(diǎn)的CSS盒模型。它收錄寬度、高度和位置等幾何信息。
  渲染樹(shù)的布局
  當您創(chuàng )建渲染器并將其添加到樹(shù)中時(shí),它沒(méi)有位置和大小。計算這些值稱(chēng)為布局。
  HTML 使用基于流的布局模型,這意味著(zhù)大多數時(shí)候它可以一次性計算幾何。坐標系相對于根渲染器,使用左上角的原點(diǎn)坐標。
  Layout 是一個(gè)遞歸過(guò)程——它從根渲染器開(kāi)始,它對應于 HTML 文檔的元素。布局通過(guò)組件或整個(gè)渲染器層次結構遞歸地繼續,為需要它的每個(gè)渲染器計算幾何信息。
  根渲染器的位置為0,0,其大小與瀏覽器窗口可見(jiàn)部分(即視口)的大小相同。開(kāi)始布局過(guò)程意味著(zhù)為每個(gè)節點(diǎn)提供它應該出現在屏幕上的確切坐標。
  繪制渲染樹(shù)
  在這里繪制,遍歷渲染樹(shù)并調用渲染器的paint()方法在屏幕上顯示內容。
  繪圖可以是全局的或增量的(類(lèi)似于布局):
  一般來(lái)說(shuō),重要的是要了解繪圖是一個(gè)漸進(jìn)的過(guò)程。為了獲得更好的用戶(hù)體驗,渲染引擎會(huì )盡快在屏幕上顯示內容。它不會(huì )等到所有 HTML 都被解析后才開(kāi)始構建和布局渲染樹(shù)。相反,它會(huì )解析并顯示部分內容,同時(shí)繼續處理來(lái)自網(wǎng)絡(luò )的其余內容項。
  處理腳本和樣式表的順序
  解析器到達時(shí)

:通用型垂直搜索引擎的行業(yè)應用模型建模方法

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 88 次瀏覽 ? 2021-07-06 23:25 ? 來(lái)自相關(guān)話(huà)題

 ?。和ㄓ眯痛怪彼阉饕娴男袠I(yè)應用模型建模方法
  通用垂直搜索引擎的行業(yè)應用模型建模方法,垂直搜索核心模塊Spider(1)Access Industry Application Model(2))實(shí)現對不同數據的識別、捕獲、組織、存儲和傳輸。行業(yè)信息、行業(yè)應用模型(2)山互聯(lián)網(wǎng)web庫(21))和web存儲分類(lèi)索引管理組件(211)、web結構信息模型庫(22)和web結構信息模型管理組件) (22@k21)@、行業(yè)信息結構模型庫(23)和行業(yè)信息結構模型管理組件(231))、行業(yè)信息存儲模型庫(24)和行業(yè)信息存儲模型管理組件(24) 1),和用戶(hù)系統界面模型庫(25)和用戶(hù)系統界面模型管理組件(251))。本發(fā)明的專(zhuān)利技術(shù)解決了同時(shí)覆蓋不同行業(yè)應用、不同的網(wǎng)頁(yè)、不同的行業(yè)信息結構和存儲結構在一個(gè)模型中。它使垂直搜索能夠完成對不同行業(yè)、不同結構的互聯(lián)網(wǎng)信息的識別、捕獲、組織、存儲和傳輸,從而具備通用垂直搜索引擎的多行業(yè)應用能力。
  下載所有詳細的技術(shù)資料
  【技術(shù)實(shí)現步驟總結】
  該專(zhuān)利技術(shù)公開(kāi)了一種基于。 二.
  技術(shù)介紹
  許多文檔將垂直搜索定義為針對單個(gè)應用程序或單個(gè)功能的搜索技術(shù)?,F實(shí)中,垂直搜索產(chǎn)品和門(mén)戶(hù)網(wǎng)站就是按照這個(gè)定義布局的,或者房地產(chǎn)信息搜索門(mén)戶(hù),或者博客信息搜索門(mén)戶(hù),或者音樂(lè )信息搜索門(mén)戶(hù),或者專(zhuān)利信息搜索門(mén)戶(hù)。所有這些都是如此。之所以出現這種現象,是因為垂直搜索互聯(lián)網(wǎng)信息具有明顯的行業(yè)應用特征、功能應用特征和結構特征。也就是說(shuō),由于垂直搜索面臨的互聯(lián)網(wǎng)信息具有明顯的行業(yè)應用特征、功能應用特征和結構特征,這些千差萬(wàn)別的信息特征導致垂直搜索門(mén)戶(hù)具有明顯的單一行業(yè)或功能。事實(shí)上,垂直搜索引擎的核心模塊——數據爬取模塊蜘蛛本身可以作為通用技術(shù),并沒(méi)有嚴格的行業(yè)應用或功能應用邊界。原則上,一款好的數據爬蟲(chóng)軟件可以完成任何網(wǎng)頁(yè)、任何行業(yè)信息的數據爬取任務(wù)。由此看來(lái),垂直搜索技術(shù)只適用于單一行業(yè)或功能門(mén)戶(hù)的事實(shí)并不在于垂直搜索的核心技術(shù)——數據爬蟲(chóng)軟件蜘蛛,而是來(lái)自于核心技術(shù)之外。的元素。所以,要搭建一個(gè)像谷歌、百度這樣的通用垂直搜索平臺,垂直搜索的核心技術(shù)——數據爬蟲(chóng)軟件蜘蛛,就有了這個(gè)基礎。問(wèn)題在于,如何圍繞具有通用能力的數據爬蟲(chóng)軟件構建具有通用能力的外圍系統,是實(shí)現通用垂直搜索引擎的關(guān)鍵。構建與通用數據爬蟲(chóng)軟件蜘蛛相匹配、具有通用能力的行業(yè)應用模型是系統研究的重要課題之一。 三.
  技術(shù)實(shí)現思路
  該專(zhuān)利技術(shù)的目的是提供一種用于一般垂直搜索系統中描述不同行業(yè)應用或功能應用特征的方法,使垂直搜索能夠完成對互聯(lián)網(wǎng)信息的識別、抓取和檢索。其行業(yè)模式。組織、存儲和傳輸應用程序,使它們能夠成為通用的垂直搜索引擎。該專(zhuān)利技術(shù)的技術(shù)方案就是該專(zhuān)利技術(shù)。垂直搜索核心模塊Spider 1接入行業(yè)應用模型2,實(shí)現對不同行業(yè)信息的識別、抓取、組織、存儲和傳輸。行業(yè)應用模型2由互聯(lián)網(wǎng)網(wǎng)頁(yè)庫21和網(wǎng)頁(yè)組成。存儲分類(lèi)索引管理組件211、網(wǎng)頁(yè)結構信息模型庫22和頁(yè)面結構信息模型管理組件221、工業(yè)信息結構模型庫23和行業(yè)信息結構模型管理組件231、工業(yè)信息存儲模型庫24和行業(yè)信息存儲模型管理組件241、、用戶(hù)系統界面模型庫25和用戶(hù)系統界面模型管理組件251構成?;ヂ?lián)網(wǎng)網(wǎng)頁(yè)庫21和網(wǎng)頁(yè)存儲分類(lèi)索引管理組件211負責互聯(lián)網(wǎng)網(wǎng)頁(yè)庫21的存儲、分類(lèi)和索引管理任務(wù)。網(wǎng)頁(yè)存儲分類(lèi)索引管理組件211調用G00gleAPI212進(jìn)行行業(yè)搜索應用程序網(wǎng)頁(yè) URL 集合;網(wǎng)頁(yè)結構信息模型庫22和網(wǎng)頁(yè)結構信息模型管理組件221承擔頁(yè)面和行業(yè)應用關(guān)系的分析、描述、頁(yè)面訪(fǎng)問(wèn)控制、頁(yè)面轉換鏈接控制、描述和管理等任務(wù)。行業(yè)信息結構模型庫23及行業(yè)信息結構模型管理組件231負責各種網(wǎng)頁(yè)中各種行業(yè)信息的不同結構形式和頁(yè)面位置的描述、提取、生成和管理任務(wù)。行業(yè)信息存儲模型庫24和行業(yè)信息存儲模型管理組件241負責系統中各種存儲形式和存儲結構的描述,從行業(yè)信息中獲取信息后存儲結構的動(dòng)態(tài)生成和管理任務(wù)。網(wǎng)頁(yè);用戶(hù)系統接口模型庫25和用戶(hù)系統接口模型管理組件251專(zhuān)用于每個(gè)用戶(hù)信息存儲形式和系統間存儲結構轉換、信息傳輸接口、軟件接口關(guān)系形式、接口定義的描述、生成和管理任務(wù)并打電話(huà)。
  網(wǎng)頁(yè)結構信息模型庫22至少收錄行業(yè)及應用、行業(yè)信息分類(lèi)描述、網(wǎng)頁(yè)地址URL、網(wǎng)頁(yè)訪(fǎng)問(wèn)入口參數(用戶(hù)名、密碼、方法代碼等)、網(wǎng)頁(yè)鏈接方法、網(wǎng)頁(yè)鏈接控制參數等信息。網(wǎng)頁(yè)結構信息模型管理組件221至少包括網(wǎng)頁(yè)結構信息模型庫22基本信息的生成和維護、網(wǎng)頁(yè)訪(fǎng)問(wèn)入口參數(用戶(hù)名、密碼、方法代碼等)庫信息的生成和維護,網(wǎng)頁(yè)鏈接方法、網(wǎng)頁(yè)鏈接控制參數庫信息的生成與維護、網(wǎng)頁(yè)鏈接控制代碼片段的提取/轉換/存儲、調用處理等功能處理模塊。行業(yè)信息結構模型庫23至少包括行業(yè)及應用、行業(yè)信息分類(lèi)描述、網(wǎng)頁(yè)地址URL、行業(yè)信息結構類(lèi)型、行業(yè)信息結構初始標識、行業(yè)信息結構描述、行業(yè)信息結構中的元數據屬性描述、行業(yè)信息結構周期捕獲標識、行業(yè)信息結構捕獲端標識、行業(yè)信息結構存儲指令等信息。行業(yè)信息結構模型管理組件231至少包括行業(yè)信息結構模型庫23的基礎信息生成和維護、行業(yè)信息結構模型庫23的信息輔助分析和自動(dòng)提取等功能處理模塊。模型庫24個(gè)至少包括行業(yè)及應用、行業(yè)信息分類(lèi)描述、行業(yè)信息存儲目標庫及基表指令、行業(yè)信息存儲結構類(lèi)型、行業(yè)信息存儲映射描述、行業(yè)信息存儲轉換處理指令、行業(yè)信息存儲相關(guān)處理說(shuō)明和其他信息。
  行業(yè)信息存儲模型管理組件241至少包括行業(yè)信息存儲模型庫24的基礎信息生成與維護、行業(yè)信息存儲結構的動(dòng)態(tài)生成、行業(yè)信息存儲映射控制、行業(yè)信息存儲轉換處理等功能處理模塊。該專(zhuān)利技術(shù)的顯著(zhù)效果在于,該專(zhuān)利技術(shù)從網(wǎng)頁(yè)索引、網(wǎng)頁(yè)結構、行業(yè)信息結構、行業(yè)信息存儲結構和用戶(hù)系統界面五個(gè)層面建立了與行業(yè)應用信息搜索相關(guān)的完整描述和管理。該系統解決了在一個(gè)模型中同時(shí)覆蓋不同行業(yè)應用、不同網(wǎng)頁(yè)、不同行業(yè)信息結構和存儲結構的問(wèn)題,具有全行業(yè)能力。這項專(zhuān)利技術(shù)將使垂直搜索能夠完成對不同行業(yè)、不同結構的互聯(lián)網(wǎng)信息的識別、抓取、組織、存儲和傳輸,從而具備通用垂直搜索引擎的多行業(yè)應用能力。 四. 附圖說(shuō)明圖1為專(zhuān)利技術(shù)示意圖。其中1=垂直搜索核心組件Spider2=行業(yè)應用模型21=互聯(lián)網(wǎng)網(wǎng)頁(yè)庫211=網(wǎng)頁(yè)存儲分類(lèi)索引管理組件212=GoogleAPI22=網(wǎng)頁(yè)結構信息模型庫221=網(wǎng)頁(yè)結構信息模型管理組件23=行業(yè)信息結構模型庫 231 = 行業(yè)信息結構模型管理組件 24 = 行業(yè)信息采集模型庫 241 = 行業(yè)信息采集模型管理組件 25 = 行業(yè)信息存儲模型庫 251 = 行業(yè)信息存儲模型管理組件 26 = 用戶(hù)系統界面模型庫 261 =用戶(hù)系統界面模型管理組件圖2是專(zhuān)利技術(shù)行業(yè)應用模型中網(wǎng)頁(yè)結構信息模型庫的結構示例。
  圖3是專(zhuān)利技術(shù)行業(yè)應用模型中行業(yè)信息結構模型庫的結構示例。圖4是專(zhuān)利技術(shù)行業(yè)應用模型中行業(yè)信息存儲結構模型庫的結構示例。 五.具體實(shí)施方式實(shí)例1如圖1所示。 2、本實(shí)施例舉例說(shuō)明了專(zhuān)利技術(shù)的行業(yè)應用模型中網(wǎng)頁(yè)結構信息模型庫的結構示例。示例二參見(jiàn)圖3。本實(shí)施例舉例說(shuō)明了專(zhuān)利技術(shù)的行業(yè)應用模型中的行業(yè)信息結構模型庫的結構示例。實(shí)施例3參見(jiàn)圖4。本實(shí)施例舉例說(shuō)明了專(zhuān)利技術(shù)的行業(yè)應用模型中的行業(yè)信息存儲結構模型庫的結構示例。權利要求1.,其特征在于垂直搜索核心模塊Spider(I)接入行業(yè)應用模型(2)),實(shí)現不同行業(yè)信息的識別、抓取、組織、存儲和傳輸,行業(yè)應用模型( 2)由互聯(lián)網(wǎng)網(wǎng)頁(yè)庫(21)和網(wǎng)頁(yè)存儲分類(lèi)索引管理組件(211),網(wǎng)頁(yè)結構信息模型庫(22))和網(wǎng)頁(yè)結構信息模型管理組件(22@) k45@,行業(yè)信息結構模型庫(23)和行業(yè)信息結構模型管理組件(231),行業(yè)信息存儲模型庫(24)和行業(yè)信息存儲模型管理組(241),和用戶(hù)系統界面模型庫(2@k53)@和用戶(hù)系統界面模型管理組件(251);互聯(lián)網(wǎng)網(wǎng)頁(yè)庫(21))和web存儲分類(lèi)索引管理組件(211)承擔)一世htemet web library(21)存儲、分類(lèi)和索引)管理任務(wù),包括web存儲分類(lèi)索引管理
  【技術(shù)保護點(diǎn)】
  通用垂直搜索引擎行業(yè)應用模型建模方法的特點(diǎn)是垂直搜索核心模塊Spider(1)Access行業(yè)應用模型(2))實(shí)現識別、捕獲、組織、存儲和傳輸應用、行業(yè)應用模型(2)來(lái)自互聯(lián)網(wǎng)網(wǎng)頁(yè)庫(21))和網(wǎng)頁(yè)存儲分類(lèi)索引管理組件(211)、網(wǎng)頁(yè)結構信息模型庫(22)和網(wǎng)頁(yè)結構信息模型管理組件) (221),行業(yè)信息結構模型庫(23)和行業(yè)信息結構模型管理組件(231),行業(yè)信息存儲模型庫(24)和行業(yè)信息存儲模型管理組(24@k21) @)) ,以及用戶(hù)系統界面模型庫(25)和用戶(hù)系統界面模型管理組件(251));其中:Internet web庫(21)和web存儲分類(lèi)索引man agement組件(211))網(wǎng)頁(yè)庫(21)存儲分類(lèi)索引管理任務(wù),包括網(wǎng)頁(yè)存儲分類(lèi)索引管理組件(211)調用GoogleAPI(212))實(shí)現行業(yè)應用web頁(yè)面網(wǎng)址集合搜索;網(wǎng)頁(yè)結構信息模型庫(22)和網(wǎng)頁(yè)結構信息模型管理組件(221)承擔頁(yè)面之間關(guān)系的分析、描述、頁(yè)面訪(fǎng)問(wèn)控制、頁(yè)面轉換鏈接控制、描述和管理任務(wù))和行業(yè)應用;行業(yè)信息結構模型庫(221)23)和行業(yè)信息結構模型管理組件(231),負責不同結構形式和頁(yè)面的描述、提取、生成和管理任務(wù))各種行業(yè)信息在各種網(wǎng)頁(yè)中的位置;行業(yè)信息存儲模型庫(24)和行業(yè)信息存儲模型管理組件(241),負責捕獲各種信息后系統中存儲結構的存儲形式和描述)來(lái)自各種網(wǎng)頁(yè)的行業(yè)信息,以及存儲結構Task的動(dòng)態(tài)生成和管理;用戶(hù)系統int erface模型庫(25)和用戶(hù)系統接口模型管理組件(251),負責信息存儲形式與存儲結構、信息傳輸接口、軟件之間的轉換關(guān)系),每個(gè)用戶(hù)特定的系統描述,接口關(guān)系表、接口定義和調用的生成和管理任務(wù)。
  [技術(shù)特點(diǎn)總結]
  [專(zhuān)利技術(shù)屬性]
  技術(shù)研發(fā)人員:劉學(xué)明、錢(qián)宇、張康、
  申請人(專(zhuān)利權):,
  類(lèi)型:發(fā)明
  國家、省市:32個(gè)
  下載所有詳細技術(shù)資料我是此專(zhuān)利的所有者 查看全部

 ?。和ㄓ眯痛怪彼阉饕娴男袠I(yè)應用模型建模方法
  通用垂直搜索引擎的行業(yè)應用模型建模方法,垂直搜索核心模塊Spider(1)Access Industry Application Model(2))實(shí)現對不同數據的識別、捕獲、組織、存儲和傳輸。行業(yè)信息、行業(yè)應用模型(2)山互聯(lián)網(wǎng)web庫(21))和web存儲分類(lèi)索引管理組件(211)、web結構信息模型庫(22)和web結構信息模型管理組件) (22@k21)@、行業(yè)信息結構模型庫(23)和行業(yè)信息結構模型管理組件(231))、行業(yè)信息存儲模型庫(24)和行業(yè)信息存儲模型管理組件(24) 1),和用戶(hù)系統界面模型庫(25)和用戶(hù)系統界面模型管理組件(251))。本發(fā)明的專(zhuān)利技術(shù)解決了同時(shí)覆蓋不同行業(yè)應用、不同的網(wǎng)頁(yè)、不同的行業(yè)信息結構和存儲結構在一個(gè)模型中。它使垂直搜索能夠完成對不同行業(yè)、不同結構的互聯(lián)網(wǎng)信息的識別、捕獲、組織、存儲和傳輸,從而具備通用垂直搜索引擎的多行業(yè)應用能力。
  下載所有詳細的技術(shù)資料
  【技術(shù)實(shí)現步驟總結】
  該專(zhuān)利技術(shù)公開(kāi)了一種基于。 二.
  技術(shù)介紹
  許多文檔將垂直搜索定義為針對單個(gè)應用程序或單個(gè)功能的搜索技術(shù)?,F實(shí)中,垂直搜索產(chǎn)品和門(mén)戶(hù)網(wǎng)站就是按照這個(gè)定義布局的,或者房地產(chǎn)信息搜索門(mén)戶(hù),或者博客信息搜索門(mén)戶(hù),或者音樂(lè )信息搜索門(mén)戶(hù),或者專(zhuān)利信息搜索門(mén)戶(hù)。所有這些都是如此。之所以出現這種現象,是因為垂直搜索互聯(lián)網(wǎng)信息具有明顯的行業(yè)應用特征、功能應用特征和結構特征。也就是說(shuō),由于垂直搜索面臨的互聯(lián)網(wǎng)信息具有明顯的行業(yè)應用特征、功能應用特征和結構特征,這些千差萬(wàn)別的信息特征導致垂直搜索門(mén)戶(hù)具有明顯的單一行業(yè)或功能。事實(shí)上,垂直搜索引擎的核心模塊——數據爬取模塊蜘蛛本身可以作為通用技術(shù),并沒(méi)有嚴格的行業(yè)應用或功能應用邊界。原則上,一款好的數據爬蟲(chóng)軟件可以完成任何網(wǎng)頁(yè)、任何行業(yè)信息的數據爬取任務(wù)。由此看來(lái),垂直搜索技術(shù)只適用于單一行業(yè)或功能門(mén)戶(hù)的事實(shí)并不在于垂直搜索的核心技術(shù)——數據爬蟲(chóng)軟件蜘蛛,而是來(lái)自于核心技術(shù)之外。的元素。所以,要搭建一個(gè)像谷歌、百度這樣的通用垂直搜索平臺,垂直搜索的核心技術(shù)——數據爬蟲(chóng)軟件蜘蛛,就有了這個(gè)基礎。問(wèn)題在于,如何圍繞具有通用能力的數據爬蟲(chóng)軟件構建具有通用能力的外圍系統,是實(shí)現通用垂直搜索引擎的關(guān)鍵。構建與通用數據爬蟲(chóng)軟件蜘蛛相匹配、具有通用能力的行業(yè)應用模型是系統研究的重要課題之一。 三.
  技術(shù)實(shí)現思路
  該專(zhuān)利技術(shù)的目的是提供一種用于一般垂直搜索系統中描述不同行業(yè)應用或功能應用特征的方法,使垂直搜索能夠完成對互聯(lián)網(wǎng)信息的識別、抓取和檢索。其行業(yè)模式。組織、存儲和傳輸應用程序,使它們能夠成為通用的垂直搜索引擎。該專(zhuān)利技術(shù)的技術(shù)方案就是該專(zhuān)利技術(shù)。垂直搜索核心模塊Spider 1接入行業(yè)應用模型2,實(shí)現對不同行業(yè)信息的識別、抓取、組織、存儲和傳輸。行業(yè)應用模型2由互聯(lián)網(wǎng)網(wǎng)頁(yè)庫21和網(wǎng)頁(yè)組成。存儲分類(lèi)索引管理組件211、網(wǎng)頁(yè)結構信息模型庫22和頁(yè)面結構信息模型管理組件221、工業(yè)信息結構模型庫23和行業(yè)信息結構模型管理組件231、工業(yè)信息存儲模型庫24和行業(yè)信息存儲模型管理組件241、、用戶(hù)系統界面模型庫25和用戶(hù)系統界面模型管理組件251構成?;ヂ?lián)網(wǎng)網(wǎng)頁(yè)庫21和網(wǎng)頁(yè)存儲分類(lèi)索引管理組件211負責互聯(lián)網(wǎng)網(wǎng)頁(yè)庫21的存儲、分類(lèi)和索引管理任務(wù)。網(wǎng)頁(yè)存儲分類(lèi)索引管理組件211調用G00gleAPI212進(jìn)行行業(yè)搜索應用程序網(wǎng)頁(yè) URL 集合;網(wǎng)頁(yè)結構信息模型庫22和網(wǎng)頁(yè)結構信息模型管理組件221承擔頁(yè)面和行業(yè)應用關(guān)系的分析、描述、頁(yè)面訪(fǎng)問(wèn)控制、頁(yè)面轉換鏈接控制、描述和管理等任務(wù)。行業(yè)信息結構模型庫23及行業(yè)信息結構模型管理組件231負責各種網(wǎng)頁(yè)中各種行業(yè)信息的不同結構形式和頁(yè)面位置的描述、提取、生成和管理任務(wù)。行業(yè)信息存儲模型庫24和行業(yè)信息存儲模型管理組件241負責系統中各種存儲形式和存儲結構的描述,從行業(yè)信息中獲取信息后存儲結構的動(dòng)態(tài)生成和管理任務(wù)。網(wǎng)頁(yè);用戶(hù)系統接口模型庫25和用戶(hù)系統接口模型管理組件251專(zhuān)用于每個(gè)用戶(hù)信息存儲形式和系統間存儲結構轉換、信息傳輸接口、軟件接口關(guān)系形式、接口定義的描述、生成和管理任務(wù)并打電話(huà)。
  網(wǎng)頁(yè)結構信息模型庫22至少收錄行業(yè)及應用、行業(yè)信息分類(lèi)描述、網(wǎng)頁(yè)地址URL、網(wǎng)頁(yè)訪(fǎng)問(wèn)入口參數(用戶(hù)名、密碼、方法代碼等)、網(wǎng)頁(yè)鏈接方法、網(wǎng)頁(yè)鏈接控制參數等信息。網(wǎng)頁(yè)結構信息模型管理組件221至少包括網(wǎng)頁(yè)結構信息模型庫22基本信息的生成和維護、網(wǎng)頁(yè)訪(fǎng)問(wèn)入口參數(用戶(hù)名、密碼、方法代碼等)庫信息的生成和維護,網(wǎng)頁(yè)鏈接方法、網(wǎng)頁(yè)鏈接控制參數庫信息的生成與維護、網(wǎng)頁(yè)鏈接控制代碼片段的提取/轉換/存儲、調用處理等功能處理模塊。行業(yè)信息結構模型庫23至少包括行業(yè)及應用、行業(yè)信息分類(lèi)描述、網(wǎng)頁(yè)地址URL、行業(yè)信息結構類(lèi)型、行業(yè)信息結構初始標識、行業(yè)信息結構描述、行業(yè)信息結構中的元數據屬性描述、行業(yè)信息結構周期捕獲標識、行業(yè)信息結構捕獲端標識、行業(yè)信息結構存儲指令等信息。行業(yè)信息結構模型管理組件231至少包括行業(yè)信息結構模型庫23的基礎信息生成和維護、行業(yè)信息結構模型庫23的信息輔助分析和自動(dòng)提取等功能處理模塊。模型庫24個(gè)至少包括行業(yè)及應用、行業(yè)信息分類(lèi)描述、行業(yè)信息存儲目標庫及基表指令、行業(yè)信息存儲結構類(lèi)型、行業(yè)信息存儲映射描述、行業(yè)信息存儲轉換處理指令、行業(yè)信息存儲相關(guān)處理說(shuō)明和其他信息。
  行業(yè)信息存儲模型管理組件241至少包括行業(yè)信息存儲模型庫24的基礎信息生成與維護、行業(yè)信息存儲結構的動(dòng)態(tài)生成、行業(yè)信息存儲映射控制、行業(yè)信息存儲轉換處理等功能處理模塊。該專(zhuān)利技術(shù)的顯著(zhù)效果在于,該專(zhuān)利技術(shù)從網(wǎng)頁(yè)索引、網(wǎng)頁(yè)結構、行業(yè)信息結構、行業(yè)信息存儲結構和用戶(hù)系統界面五個(gè)層面建立了與行業(yè)應用信息搜索相關(guān)的完整描述和管理。該系統解決了在一個(gè)模型中同時(shí)覆蓋不同行業(yè)應用、不同網(wǎng)頁(yè)、不同行業(yè)信息結構和存儲結構的問(wèn)題,具有全行業(yè)能力。這項專(zhuān)利技術(shù)將使垂直搜索能夠完成對不同行業(yè)、不同結構的互聯(lián)網(wǎng)信息的識別、抓取、組織、存儲和傳輸,從而具備通用垂直搜索引擎的多行業(yè)應用能力。 四. 附圖說(shuō)明圖1為專(zhuān)利技術(shù)示意圖。其中1=垂直搜索核心組件Spider2=行業(yè)應用模型21=互聯(lián)網(wǎng)網(wǎng)頁(yè)庫211=網(wǎng)頁(yè)存儲分類(lèi)索引管理組件212=GoogleAPI22=網(wǎng)頁(yè)結構信息模型庫221=網(wǎng)頁(yè)結構信息模型管理組件23=行業(yè)信息結構模型庫 231 = 行業(yè)信息結構模型管理組件 24 = 行業(yè)信息采集模型庫 241 = 行業(yè)信息采集模型管理組件 25 = 行業(yè)信息存儲模型庫 251 = 行業(yè)信息存儲模型管理組件 26 = 用戶(hù)系統界面模型庫 261 =用戶(hù)系統界面模型管理組件圖2是專(zhuān)利技術(shù)行業(yè)應用模型中網(wǎng)頁(yè)結構信息模型庫的結構示例。
  圖3是專(zhuān)利技術(shù)行業(yè)應用模型中行業(yè)信息結構模型庫的結構示例。圖4是專(zhuān)利技術(shù)行業(yè)應用模型中行業(yè)信息存儲結構模型庫的結構示例。 五.具體實(shí)施方式實(shí)例1如圖1所示。 2、本實(shí)施例舉例說(shuō)明了專(zhuān)利技術(shù)的行業(yè)應用模型中網(wǎng)頁(yè)結構信息模型庫的結構示例。示例二參見(jiàn)圖3。本實(shí)施例舉例說(shuō)明了專(zhuān)利技術(shù)的行業(yè)應用模型中的行業(yè)信息結構模型庫的結構示例。實(shí)施例3參見(jiàn)圖4。本實(shí)施例舉例說(shuō)明了專(zhuān)利技術(shù)的行業(yè)應用模型中的行業(yè)信息存儲結構模型庫的結構示例。權利要求1.,其特征在于垂直搜索核心模塊Spider(I)接入行業(yè)應用模型(2)),實(shí)現不同行業(yè)信息的識別、抓取、組織、存儲和傳輸,行業(yè)應用模型( 2)由互聯(lián)網(wǎng)網(wǎng)頁(yè)庫(21)和網(wǎng)頁(yè)存儲分類(lèi)索引管理組件(211),網(wǎng)頁(yè)結構信息模型庫(22))和網(wǎng)頁(yè)結構信息模型管理組件(22@) k45@,行業(yè)信息結構模型庫(23)和行業(yè)信息結構模型管理組件(231),行業(yè)信息存儲模型庫(24)和行業(yè)信息存儲模型管理組(241),和用戶(hù)系統界面模型庫(2@k53)@和用戶(hù)系統界面模型管理組件(251);互聯(lián)網(wǎng)網(wǎng)頁(yè)庫(21))和web存儲分類(lèi)索引管理組件(211)承擔)一世htemet web library(21)存儲、分類(lèi)和索引)管理任務(wù),包括web存儲分類(lèi)索引管理
  【技術(shù)保護點(diǎn)】
  通用垂直搜索引擎行業(yè)應用模型建模方法的特點(diǎn)是垂直搜索核心模塊Spider(1)Access行業(yè)應用模型(2))實(shí)現識別、捕獲、組織、存儲和傳輸應用、行業(yè)應用模型(2)來(lái)自互聯(lián)網(wǎng)網(wǎng)頁(yè)庫(21))和網(wǎng)頁(yè)存儲分類(lèi)索引管理組件(211)、網(wǎng)頁(yè)結構信息模型庫(22)和網(wǎng)頁(yè)結構信息模型管理組件) (221),行業(yè)信息結構模型庫(23)和行業(yè)信息結構模型管理組件(231),行業(yè)信息存儲模型庫(24)和行業(yè)信息存儲模型管理組(24@k21) @)) ,以及用戶(hù)系統界面模型庫(25)和用戶(hù)系統界面模型管理組件(251));其中:Internet web庫(21)和web存儲分類(lèi)索引man agement組件(211))網(wǎng)頁(yè)庫(21)存儲分類(lèi)索引管理任務(wù),包括網(wǎng)頁(yè)存儲分類(lèi)索引管理組件(211)調用GoogleAPI(212))實(shí)現行業(yè)應用web頁(yè)面網(wǎng)址集合搜索;網(wǎng)頁(yè)結構信息模型庫(22)和網(wǎng)頁(yè)結構信息模型管理組件(221)承擔頁(yè)面之間關(guān)系的分析、描述、頁(yè)面訪(fǎng)問(wèn)控制、頁(yè)面轉換鏈接控制、描述和管理任務(wù))和行業(yè)應用;行業(yè)信息結構模型庫(221)23)和行業(yè)信息結構模型管理組件(231),負責不同結構形式和頁(yè)面的描述、提取、生成和管理任務(wù))各種行業(yè)信息在各種網(wǎng)頁(yè)中的位置;行業(yè)信息存儲模型庫(24)和行業(yè)信息存儲模型管理組件(241),負責捕獲各種信息后系統中存儲結構的存儲形式和描述)來(lái)自各種網(wǎng)頁(yè)的行業(yè)信息,以及存儲結構Task的動(dòng)態(tài)生成和管理;用戶(hù)系統int erface模型庫(25)和用戶(hù)系統接口模型管理組件(251),負責信息存儲形式與存儲結構、信息傳輸接口、軟件之間的轉換關(guān)系),每個(gè)用戶(hù)特定的系統描述,接口關(guān)系表、接口定義和調用的生成和管理任務(wù)。
  [技術(shù)特點(diǎn)總結]
  [專(zhuān)利技術(shù)屬性]
  技術(shù)研發(fā)人員:劉學(xué)明、錢(qián)宇、張康、
  申請人(專(zhuān)利權):,
  類(lèi)型:發(fā)明
  國家、省市:32個(gè)
  下載所有詳細技術(shù)資料我是此專(zhuān)利的所有者

網(wǎng)站參觀(guān)者的指標數據(UV、IP)背后都是互聯(lián)網(wǎng)使用者

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 96 次瀏覽 ? 2021-07-06 23:22 ? 來(lái)自相關(guān)話(huà)題

  
網(wǎng)站參觀(guān)者的指標數據(UV、IP)背后都是互聯(lián)網(wǎng)使用者
  
  我推薦一個(gè)例子。 “groceries網(wǎng)站”這個(gè)詞經(jīng)常出現在我的一篇博客中。當然,這只是推薦的一個(gè)例子。
  Overture 使要價(jià)半透明,在競爭激烈的關(guān)鍵詞 中,它將確保您的頁(yè)面成本接近您的最低要價(jià)。
  搜索引擎會(huì )不斷調整其算法。因此,成功的 SEO 專(zhuān)家必須不斷研究搜索引擎的不道德行為并自學(xué)其工作原理。
  如果你已經(jīng)為網(wǎng)站積極制定了搜索引擎策略,并投入了適當的人力、物力和財力,此時(shí)你必須忘記:代價(jià)是堅決。
  網(wǎng)站visitor網(wǎng)站visitor:網(wǎng)站visitor的指標數據(UV、IP)都是具有不同分析屬性(新/現有訪(fǎng)問(wèn)者)、地區)和人口統計屬性(性別、年齡、教育等);目的不同,來(lái)源不同,采訪(fǎng)軌跡也不同,在第2章SEO基礎教程|50谷歌優(yōu)化搜索引擎搜索鏈接百度搜索引擎分析應該對符合市場(chǎng)定位的訪(fǎng)問(wèn)者進(jìn)行細分,并做有針對性的比較學(xué)習。
  然而,事實(shí)上,許多消費者甚至商業(yè)搜索者都將搜索中的高排名視為表示接受。
  更何況普通百度員工也不敢問(wèn)這個(gè)事情。
  在打開(kāi)寬泛的給定部分之前,您要求檢查同義詞等的搜索結果是否浪費。
  查找僅限訂閱者或已被刪除的內容。您可以在 SERP 列表中查看限制訂閱者或已從內存鏈接中刪除的內容或使用 cache: 運算符。
  例如,訪(fǎng)問(wèn)者通過(guò)搜索引擎轉至電子商務(wù)網(wǎng)站。指定了一個(gè)流暢的頁(yè)面,一個(gè)商品庫頁(yè)面,一個(gè)購物車(chē)頁(yè)面,一個(gè)收費的流暢頁(yè)面,整個(gè)銷(xiāo)售結束,離開(kāi)網(wǎng)站,只為最后一個(gè)支付流暢頁(yè)面,這是一個(gè)解散,但它是未因本次訪(fǎng)問(wèn)的其他頁(yè)面解散。
  如果您不建立銷(xiāo)售開(kāi)關(guān),那么流量就沒(méi)有任何意義。
  網(wǎng)站競價(jià)對數搜索引擎關(guān)鍵詞優(yōu)化排名公司網(wǎng)站根據內容介紹和展示烏龜,更新快。它還有一個(gè)站點(diǎn)跟蹤程序。
  如果您的網(wǎng)站在 30 天內沒(méi)有被收錄于,您可以在幾個(gè)月后通知您的網(wǎng)站。
  最重要的是,對于我們通過(guò)這種方式發(fā)送給我們的數據,Alexa與我們無(wú)關(guān),程序無(wú)法將我們與正常訪(fǎng)問(wèn)的數據區分開(kāi)來(lái)。作弊示例1:·另外:Alexa被列入一兩年前,現在,已經(jīng)列出了許多副站長(cháng)的執著(zhù)目標之一。很多論壇的副站長(cháng)為了提高網(wǎng)站排名,拒絕版主安裝Alexa工具欄。
  這項研究揭示了將自然搜索重新添加到現有付費搜索活動(dòng)的效果,并將這樣做的效果與單獨的付費搜索活動(dòng)進(jìn)行比較。
  其他網(wǎng)站 內容的一些不道德副本。
  搜索引擎還可以檢查登錄用戶(hù)的搜索歷史。
  3612、 與地理位置相關(guān)的詞匯 如果您的產(chǎn)品或服務(wù)針對特定區域的搜索引擎優(yōu)化操作。頁(yè)面域用戶(hù)的操作步驟是什么,可以在關(guān)鍵詞前加上地區名稱(chēng),如省或城市名稱(chēng)等
  什么是seo搜索引擎優(yōu)化(SearchEngineOptimization,全稱(chēng)SEO)是一種利用搜索引擎的搜索規則來(lái)提高網(wǎng)站在相關(guān)搜索引擎中的目的的方式。
  圖 1-13 總結了結果的改進(jìn)。
  網(wǎng)站Interviewer Times Ranking (Reachrank):根據采訪(fǎng)次數排名。
  以下是一些基本運算符。
  一些罕見(jiàn)的代碼用斜體表示。
  2.降低信息檢索難度雅虎的數據庫分為14個(gè)類(lèi)別(每個(gè)類(lèi)別還包括平均數量的小類(lèi)別),其分類(lèi)系統非常詳細,所以最好進(jìn)行明確的主題搜索起點(diǎn),特別是對于那些新用戶(hù)和對市場(chǎng)需求知之甚少的用戶(hù),比起結構化的搜索風(fēng)格,自由選擇要按主題逐級編入索引的網(wǎng)頁(yè)要自然得多。
  Invisable/hiddentext 隱藏搜索引擎和搜索引擎隱藏文本內容的優(yōu)化旨在通過(guò)收錄大量關(guān)鍵詞的網(wǎng)頁(yè)增加關(guān)鍵詞相關(guān)性分數而不影響網(wǎng)站美的目標。
  9 變化:互聯(lián)網(wǎng)是一種非常脆弱的媒介。
  雅虎!編輯程序可能會(huì )將您網(wǎng)站的新原創(chuàng )頁(yè)面從其搜索索引中刪除。
  自由選擇系統部署網(wǎng)站 這個(gè)鏈接是網(wǎng)站數據分析實(shí)踐的開(kāi)始。它是采集和獲取數據的過(guò)程。您必須自由選擇合適的網(wǎng)站分析系統,以滿(mǎn)足分析計劃的市場(chǎng)需求。從滿(mǎn)足網(wǎng)站分析基礎市場(chǎng)的需求來(lái)看,以下幾點(diǎn)可供大家參考: 第二章SEO基礎教程|48 部署非常簡(jiǎn)單。盡量自由選擇方便的網(wǎng)站分析系統,尤其是中小網(wǎng)站技術(shù),在人不多的情況下,標準化代碼最壞的情況和全站安裝代碼一樣,沒(méi)有必要調整轉成追蹤等功能的代碼,也有利于提高之前簡(jiǎn)單的網(wǎng)站分析的可擴展性。
  網(wǎng)站 與清醫院相關(guān)的請求提交到“區域”類(lèi)別下的相關(guān)類(lèi)別。
  2、在 JAVA 腳本中重用擴展名為 .js 的文件。
  搜索算法指出的關(guān)鍵字搜索最多的頁(yè)面將按順序排列。
  那么,網(wǎng)站移動(dòng)搜索引擎的構建主要分為三個(gè)部分:如何在百度上更好地搜索收錄于網(wǎng)站中的內容,以及如何在移動(dòng)搜索列表中獲得更好的名稱(chēng),如何讓用戶(hù)從海量的搜索結果中快速找到并分頁(yè)你的網(wǎng)站。
  快速“xyz技巧”排名第一,他從這個(gè)相似的關(guān)鍵字中獲得了一些不錯的流量。
  當您輸入錯誤的鏈接組鏈接時(shí),您可能會(huì )鏈接到它們而不是作弊。
  但是如果使用網(wǎng)站background日志來(lái)分析,因為內存頁(yè)可能需要在沒(méi)有服務(wù)器催促的情況下進(jìn)行指示,所以會(huì )被記錄為PV。
  以動(dòng)詞開(kāi)頭:如果您以強有力且主動(dòng)的動(dòng)詞開(kāi)頭,則可以顯著(zhù)降低頁(yè)面訪(fǎng)問(wèn)率。
  如果您的網(wǎng)站已經(jīng)創(chuàng )建,更改文件名只是一個(gè)小因素,但如果您正在構建一個(gè)新網(wǎng)站,只需一點(diǎn)時(shí)間將關(guān)鍵字重新添加到文件名中即可。
  這些廣告將訪(fǎng)問(wèn)者引導至您的營(yíng)業(yè)地點(diǎn)。
  2.4.1 負面列表因素 SEOmoz 的調查也證實(shí)了一些負面列表因素。
  第四章移動(dòng)搜索|104 第四部分:更好的排名如何在百度移動(dòng)搜索中獲得更好的排名與PC端的市場(chǎng)需求相同。 收錄于問(wèn)題解問(wèn)題是排名問(wèn)題。 查看全部

  
網(wǎng)站參觀(guān)者的指標數據(UV、IP)背后都是互聯(lián)網(wǎng)使用者
  
  我推薦一個(gè)例子。 “groceries網(wǎng)站”這個(gè)詞經(jīng)常出現在我的一篇博客中。當然,這只是推薦的一個(gè)例子。
  Overture 使要價(jià)半透明,在競爭激烈的關(guān)鍵詞 中,它將確保您的頁(yè)面成本接近您的最低要價(jià)。
  搜索引擎會(huì )不斷調整其算法。因此,成功的 SEO 專(zhuān)家必須不斷研究搜索引擎的不道德行為并自學(xué)其工作原理。
  如果你已經(jīng)為網(wǎng)站積極制定了搜索引擎策略,并投入了適當的人力、物力和財力,此時(shí)你必須忘記:代價(jià)是堅決。
  網(wǎng)站visitor網(wǎng)站visitor:網(wǎng)站visitor的指標數據(UV、IP)都是具有不同分析屬性(新/現有訪(fǎng)問(wèn)者)、地區)和人口統計屬性(性別、年齡、教育等);目的不同,來(lái)源不同,采訪(fǎng)軌跡也不同,在第2章SEO基礎教程|50谷歌優(yōu)化搜索引擎搜索鏈接百度搜索引擎分析應該對符合市場(chǎng)定位的訪(fǎng)問(wèn)者進(jìn)行細分,并做有針對性的比較學(xué)習。
  然而,事實(shí)上,許多消費者甚至商業(yè)搜索者都將搜索中的高排名視為表示接受。
  更何況普通百度員工也不敢問(wèn)這個(gè)事情。
  在打開(kāi)寬泛的給定部分之前,您要求檢查同義詞等的搜索結果是否浪費。
  查找僅限訂閱者或已被刪除的內容。您可以在 SERP 列表中查看限制訂閱者或已從內存鏈接中刪除的內容或使用 cache: 運算符。
  例如,訪(fǎng)問(wèn)者通過(guò)搜索引擎轉至電子商務(wù)網(wǎng)站。指定了一個(gè)流暢的頁(yè)面,一個(gè)商品庫頁(yè)面,一個(gè)購物車(chē)頁(yè)面,一個(gè)收費的流暢頁(yè)面,整個(gè)銷(xiāo)售結束,離開(kāi)網(wǎng)站,只為最后一個(gè)支付流暢頁(yè)面,這是一個(gè)解散,但它是未因本次訪(fǎng)問(wèn)的其他頁(yè)面解散。
  如果您不建立銷(xiāo)售開(kāi)關(guān),那么流量就沒(méi)有任何意義。
  網(wǎng)站競價(jià)對數搜索引擎關(guān)鍵詞優(yōu)化排名公司網(wǎng)站根據內容介紹和展示烏龜,更新快。它還有一個(gè)站點(diǎn)跟蹤程序。
  如果您的網(wǎng)站在 30 天內沒(méi)有被收錄于,您可以在幾個(gè)月后通知您的網(wǎng)站。
  最重要的是,對于我們通過(guò)這種方式發(fā)送給我們的數據,Alexa與我們無(wú)關(guān),程序無(wú)法將我們與正常訪(fǎng)問(wèn)的數據區分開(kāi)來(lái)。作弊示例1:·另外:Alexa被列入一兩年前,現在,已經(jīng)列出了許多副站長(cháng)的執著(zhù)目標之一。很多論壇的副站長(cháng)為了提高網(wǎng)站排名,拒絕版主安裝Alexa工具欄。
  這項研究揭示了將自然搜索重新添加到現有付費搜索活動(dòng)的效果,并將這樣做的效果與單獨的付費搜索活動(dòng)進(jìn)行比較。
  其他網(wǎng)站 內容的一些不道德副本。
  搜索引擎還可以檢查登錄用戶(hù)的搜索歷史。
  3612、 與地理位置相關(guān)的詞匯 如果您的產(chǎn)品或服務(wù)針對特定區域的搜索引擎優(yōu)化操作。頁(yè)面域用戶(hù)的操作步驟是什么,可以在關(guān)鍵詞前加上地區名稱(chēng),如省或城市名稱(chēng)等
  什么是seo搜索引擎優(yōu)化(SearchEngineOptimization,全稱(chēng)SEO)是一種利用搜索引擎的搜索規則來(lái)提高網(wǎng)站在相關(guān)搜索引擎中的目的的方式。
  圖 1-13 總結了結果的改進(jìn)。
  網(wǎng)站Interviewer Times Ranking (Reachrank):根據采訪(fǎng)次數排名。
  以下是一些基本運算符。
  一些罕見(jiàn)的代碼用斜體表示。
  2.降低信息檢索難度雅虎的數據庫分為14個(gè)類(lèi)別(每個(gè)類(lèi)別還包括平均數量的小類(lèi)別),其分類(lèi)系統非常詳細,所以最好進(jìn)行明確的主題搜索起點(diǎn),特別是對于那些新用戶(hù)和對市場(chǎng)需求知之甚少的用戶(hù),比起結構化的搜索風(fēng)格,自由選擇要按主題逐級編入索引的網(wǎng)頁(yè)要自然得多。
  Invisable/hiddentext 隱藏搜索引擎和搜索引擎隱藏文本內容的優(yōu)化旨在通過(guò)收錄大量關(guān)鍵詞的網(wǎng)頁(yè)增加關(guān)鍵詞相關(guān)性分數而不影響網(wǎng)站美的目標。
  9 變化:互聯(lián)網(wǎng)是一種非常脆弱的媒介。
  雅虎!編輯程序可能會(huì )將您網(wǎng)站的新原創(chuàng )頁(yè)面從其搜索索引中刪除。
  自由選擇系統部署網(wǎng)站 這個(gè)鏈接是網(wǎng)站數據分析實(shí)踐的開(kāi)始。它是采集和獲取數據的過(guò)程。您必須自由選擇合適的網(wǎng)站分析系統,以滿(mǎn)足分析計劃的市場(chǎng)需求。從滿(mǎn)足網(wǎng)站分析基礎市場(chǎng)的需求來(lái)看,以下幾點(diǎn)可供大家參考: 第二章SEO基礎教程|48 部署非常簡(jiǎn)單。盡量自由選擇方便的網(wǎng)站分析系統,尤其是中小網(wǎng)站技術(shù),在人不多的情況下,標準化代碼最壞的情況和全站安裝代碼一樣,沒(méi)有必要調整轉成追蹤等功能的代碼,也有利于提高之前簡(jiǎn)單的網(wǎng)站分析的可擴展性。
  網(wǎng)站 與清醫院相關(guān)的請求提交到“區域”類(lèi)別下的相關(guān)類(lèi)別。
  2、在 JAVA 腳本中重用擴展名為 .js 的文件。
  搜索算法指出的關(guān)鍵字搜索最多的頁(yè)面將按順序排列。
  那么,網(wǎng)站移動(dòng)搜索引擎的構建主要分為三個(gè)部分:如何在百度上更好地搜索收錄于網(wǎng)站中的內容,以及如何在移動(dòng)搜索列表中獲得更好的名稱(chēng),如何讓用戶(hù)從海量的搜索結果中快速找到并分頁(yè)你的網(wǎng)站。
  快速“xyz技巧”排名第一,他從這個(gè)相似的關(guān)鍵字中獲得了一些不錯的流量。
  當您輸入錯誤的鏈接組鏈接時(shí),您可能會(huì )鏈接到它們而不是作弊。
  但是如果使用網(wǎng)站background日志來(lái)分析,因為內存頁(yè)可能需要在沒(méi)有服務(wù)器催促的情況下進(jìn)行指示,所以會(huì )被記錄為PV。
  以動(dòng)詞開(kāi)頭:如果您以強有力且主動(dòng)的動(dòng)詞開(kāi)頭,則可以顯著(zhù)降低頁(yè)面訪(fǎng)問(wèn)率。
  如果您的網(wǎng)站已經(jīng)創(chuàng )建,更改文件名只是一個(gè)小因素,但如果您正在構建一個(gè)新網(wǎng)站,只需一點(diǎn)時(shí)間將關(guān)鍵字重新添加到文件名中即可。
  這些廣告將訪(fǎng)問(wèn)者引導至您的營(yíng)業(yè)地點(diǎn)。
  2.4.1 負面列表因素 SEOmoz 的調查也證實(shí)了一些負面列表因素。
  第四章移動(dòng)搜索|104 第四部分:更好的排名如何在百度移動(dòng)搜索中獲得更好的排名與PC端的市場(chǎng)需求相同。 收錄于問(wèn)題解問(wèn)題是排名問(wèn)題。

如何使用戶(hù)關(guān)注的網(wǎng)頁(yè)排列在搜索引擎的排序技術(shù)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 99 次瀏覽 ? 2021-07-06 01:08 ? 來(lái)自相關(guān)話(huà)題

  如何使用戶(hù)關(guān)注的網(wǎng)頁(yè)排列在搜索引擎的排序技術(shù)
  搜索引擎的排序技術(shù)
  摘要:本文簡(jiǎn)要介紹和比較了搜索引擎目前使用的排序算法,包括詞頻位置加權排序算法、鏈接分析排序算法,并著(zhù)重介紹了PageRank算法和HITS算法的思想及其比較優(yōu)勢和劣勢。
  關(guān)鍵詞:搜索引擎;排行;網(wǎng)頁(yè)排名;命中
  1 前言
  谷歌和百度的崛起很大程度上是由于它們使用了比以前的搜索引擎更好的排序技術(shù)。由于人們通常只關(guān)注搜索結果的前 10 或 20 項,因此將與用戶(hù)查詢(xún)結果最相關(guān)的信息排在結果的前排尤為重要。例如,.jp、.de 和.edu 域名下的網(wǎng)頁(yè)通常比.com 和.net 域名下的網(wǎng)頁(yè)更有用[1]。如何讓用戶(hù)關(guān)注的網(wǎng)頁(yè)在搜索結果中排名靠前,讓各家搜索引擎公司不斷完善優(yōu)化方向。筆者將通過(guò)閱讀論文和網(wǎng)絡(luò )資料總結介紹幾種主要的排序算法:詞頻位置加權排序算法、鏈接分析排序算法。
  2 詞頻位置加權排序算法
  這類(lèi)技術(shù)是在傳統信息檢索技術(shù)的基礎上發(fā)展起來(lái)的,即用戶(hù)在網(wǎng)頁(yè)中輸入的搜索詞的頻率越高,搜索詞的位置越重要,則該網(wǎng)頁(yè)被認為與本次搜索相關(guān)。一個(gè)詞的相關(guān)性越高,它在搜索結果中出現的位置就越高。 InfoSeek、Excite、Lycos等早期搜索引擎都采用了這種排序方式。
  2.1 詞頻加權
  詞頻加權是以用戶(hù)提供的搜索詞在網(wǎng)頁(yè)中出現的次數作為確定網(wǎng)頁(yè)相關(guān)性權重的依據。詞頻加權方法包括絕對詞頻加權、相對詞頻加權、逆詞頻加權、基于詞判別值的加權等。對于單詞搜索引擎,可以通過(guò)簡(jiǎn)單地計算一個(gè)詞在網(wǎng)頁(yè)中出現的頻率來(lái)給出??權重。對于具有邏輯組裝功能的搜索引擎,必須使用其他加權方法。因為在使用組合搜索查詢(xún)時(shí),搜索結果與搜索查詢(xún)中的每個(gè)搜索詞相關(guān),并且每個(gè)搜索詞在所有網(wǎng)頁(yè)中的總頻率是不同的。如果按總重量排序, 會(huì )造成結果無(wú)關(guān)緊要。這可以通過(guò)多種其他方式解決。例如,利用相對詞頻加權的原理,可以統計大量網(wǎng)頁(yè),為所有網(wǎng)頁(yè)中出現頻率較高的詞分配一個(gè)較低的初始值。相對而言,所有網(wǎng)頁(yè)中出現頻率較低的詞被賦予較低的初始值。更高的權重 [2]。
  2.2 詞位權重
  通過(guò)為網(wǎng)頁(yè)中不同位置和布局的詞分配不同的權重,可以根據權重確定搜索結果和搜索詞的相關(guān)程度。字的位置包括頁(yè)面標題元素、頁(yè)面描述關(guān)鍵字元素、正文標題、正文內容、正文鏈接、logo等。布局包括字體、字號、是否加粗或者強調等。比如理解排序技術(shù),搜索“排序技術(shù)”時(shí),有兩個(gè)結果,一個(gè)標題是“搜索引擎的排序技術(shù)”,另一個(gè)文章的標題是“Web Information Retrieval”,但內容有部分 說(shuō)到搜索引擎的排名技術(shù),顯然第一個(gè)結果更相關(guān)。 “排名技術(shù)”這個(gè)詞應該在第一個(gè)結果中給予更大的權重。
  2.3 此類(lèi)算法的優(yōu)缺點(diǎn)
  這種方法的主要優(yōu)點(diǎn)是使用方便,易于實(shí)現,最成熟的發(fā)展基本上是目前所有搜索引擎排名核心技術(shù)的基礎。但是,由于現網(wǎng)內容的質(zhì)量無(wú)法保證,為了使網(wǎng)頁(yè)在搜索引擎中排名靠前,在網(wǎng)頁(yè)中添加了相同背景色的圖層,并填寫(xiě)了大量的熱門(mén)關(guān)鍵詞,當人們來(lái)瀏覽網(wǎng)頁(yè)時(shí)完全被查看。不,但搜索引擎可以在索引時(shí)找到它。這個(gè)問(wèn)題在一定程度上得到了改善,但并沒(méi)有完全根除。
  3 鏈接分析排名
  鏈接分析排序算法的思想其實(shí)來(lái)源于紙質(zhì)文獻索引機制,即一篇論文或文獻被引用次數越多,其學(xué)術(shù)價(jià)值就越高。同一個(gè)網(wǎng)頁(yè)類(lèi)比,如果一個(gè)網(wǎng)頁(yè)的鏈接越多,該網(wǎng)頁(yè)的重要性就越高。鏈路分析算法主要分為隨機漫游模型,如PageRank算法;基于Hub和Authority的相互強化模型,如HITS及其變體;基于概率模型,如 SALSA;基于貝葉斯模型,如貝葉斯算法及其簡(jiǎn)化版本。下面將分別介紹這些算法。
  3.1 PageRank 算法
  Google 搜索引擎有兩個(gè)重要功能,可以讓您獲得高度準確的結果。首先,它利用網(wǎng)絡(luò )的鏈接特征來(lái)計算網(wǎng)頁(yè)的質(zhì)量排名,即PageRank;其次,它使用鏈接來(lái)改善搜索結果 [3]。
  簡(jiǎn)單的PageRank原理即如圖1所示的那樣,從網(wǎng)頁(yè)A導向網(wǎng)頁(yè)B的鏈接被看作是對頁(yè)面A對頁(yè)面B的支持投票,Google根據這個(gè)投票數來(lái)判斷頁(yè)面的重要性??墒?Google 不單單只看投票數(即鏈接數),對投票的頁(yè)面也進(jìn)行分析。重要性高的頁(yè)面所投的票的評價(jià)會(huì )更高。
  原創(chuàng )PageRank算法:PR(A) = (1-d) + d (PR(T1)/C(T1) +… + PR(Tn)/C(Tn)))<//p
p其中: PR(A):網(wǎng)頁(yè)A的PageRank值; PR(Ti):鏈接到頁(yè)面A的網(wǎng)頁(yè)Ti的PageRank值; C(Ti):網(wǎng)頁(yè)Ti的出站鏈接數; d:阻尼系數,0/p
p在算法的第二個(gè)版本中:PR(A) = (1-d) / N + d (PR(T1)/C(T1) +... + PR(Tn)/C(Tn) ))/p
p這里 N 是 Internet 頁(yè)面的總數。該算法2與算法1并沒(méi)有完全不同。在隨機沖浪模型中,算法2中頁(yè)面的PageRank值是點(diǎn)擊多個(gè)鏈接后到達該頁(yè)面的實(shí)際概率。因此,互聯(lián)網(wǎng)上所有網(wǎng)頁(yè)的PageRank值形成一個(gè)概率分布,所有RageRank值之和為1。/p
p因為 PR(A) 取決于鏈接到網(wǎng)頁(yè) A 的其他網(wǎng)頁(yè)的 PageRank 值,而其他網(wǎng)頁(yè)的 PR 值也取決于指向該網(wǎng)頁(yè)的網(wǎng)頁(yè)的 PR 值,所以這是一個(gè)遞歸過(guò)程。似乎需要無(wú)窮無(wú)盡的計算才能獲得網(wǎng)頁(yè)的PR值。根據參考文獻5中的實(shí)驗,遞歸計算了網(wǎng)絡(luò )中3.220億個(gè)鏈接,發(fā)現經(jīng)過(guò)52次計算可以得到收斂。穩定的 PageRank 值,在計算一半鏈接的 PageRank 值時(shí),進(jìn)行了 45 次計算。通過(guò)實(shí)驗發(fā)現,遞歸計算次數和鏈接數呈對數比例增加,即要計算N個(gè)鏈接的PageRank值時(shí),只需進(jìn)行logN次遞歸計算即可得到穩定的PageRank值[5] ./p
p3.2 Hits 算法/p
p在PageRank算法中,鏈接被平等對待,每個(gè)鏈接貢獻相同的權重。在現實(shí)生活中,有些鏈接指向廣告,而有些鏈接指向權威網(wǎng)頁(yè)??梢钥闯?,均勻分布的權重不符合實(shí)際情況。所以康奈爾大學(xué)的Jon Kleinberg博士在1998年首先提出了Hits算法。/p
pHITS算法對網(wǎng)頁(yè)質(zhì)量的評價(jià)結果??體現在它賦予每個(gè)網(wǎng)頁(yè)的兩個(gè)評價(jià)值上:內容權限(Authority)和鏈接權限(Hub)。/p
p內容權限與網(wǎng)頁(yè)本身直接提供的內容信息的質(zhì)量有關(guān)。引用的網(wǎng)頁(yè)越多,內容權限越高;相應地,鏈接權限與網(wǎng)頁(yè)提供的超鏈接的質(zhì)量有關(guān)。相關(guān)的。引用高質(zhì)量?jì)热莸捻?yè)面越多,鏈接的權威性就越高。根據關(guān)鍵字匹配將查詢(xún)提交給傳統搜索引擎。搜索引擎返回的網(wǎng)頁(yè)很多,前n個(gè)網(wǎng)頁(yè)作為根集。包括根集合中頁(yè)面所指向的所有頁(yè)面,再包括根集合中指向頁(yè)面的頁(yè)面,從而擴展了基本集合。 HITS算法輸出一組具有較大Hub值的網(wǎng)頁(yè)和具有較大權限值的網(wǎng)頁(yè)[6]。/p
p與PageRank等實(shí)用算法不同,HITS算法更多的是一種實(shí)驗性的嘗試。從表面上看,HITS算法需要排序的頁(yè)面數量很少,但由于需要根據內容分析從搜索引擎中提取根集并擴展基本集,這個(gè)過(guò)程需要相當長(cháng)的時(shí)間,而PageRank算法表面上看,處理的數據量遠遠超過(guò)HITS算法,但是因為在用戶(hù)查詢(xún)的時(shí)候計算量已經(jīng)由服務(wù)器獨立完成,所以用戶(hù)無(wú)需等待。為此,從用戶(hù)的等待時(shí)間來(lái)看,PageRank算法應該優(yōu)于HITS算法。簡(jiǎn)短[7]。/p
p3.3 其他鏈接分析和排序算法/p
pPageRank 算法基于用戶(hù)對網(wǎng)頁(yè)隨機前向瀏覽的直覺(jué),HITS 算法考慮了Authorative 網(wǎng)頁(yè)和Hub 網(wǎng)頁(yè)之間的增強關(guān)系。在實(shí)際應用中,用戶(hù)大部分時(shí)間是向前瀏覽網(wǎng)頁(yè),但在很多情況下,他們會(huì )返回瀏覽網(wǎng)頁(yè)?;谏鲜鲋庇^(guān)認識,R. Lempel 和 S. Moran 提出了 SALSA(Stochastic Approach for Link-Structure Analysis)算法,該算法考慮了用戶(hù)返回瀏覽網(wǎng)頁(yè)的情況,并保留了隨機漫游PageRank 和 HITS 中網(wǎng)頁(yè)的 Authoritive 分類(lèi)與 Hub 的想法取消了 Authoritive 和 Hub 之間的相互加強關(guān)系[8]。/p
p艾倫鮑羅丁等。提出了一種完整的貝葉斯統計方法來(lái)確定 Hub 和 Authoritive 網(wǎng)頁(yè)。假設有M個(gè)Hub網(wǎng)頁(yè)和N個(gè)Authority網(wǎng)頁(yè),可以是同一個(gè)集合。每個(gè)Hub網(wǎng)頁(yè)都有一個(gè)未知實(shí)數參數,表示有超鏈接的總體趨勢,還有一個(gè)未知的非負參數,表示有鏈接到Authority網(wǎng)頁(yè)的趨勢。每個(gè)權威網(wǎng)頁(yè) j 都有一個(gè)未知的非負參數,代表 j 的權限級別。統計模型如下。 Hub 網(wǎng)頁(yè) i 鏈接到權威網(wǎng)頁(yè) j 的先驗概率為:P(i,j)=Exp(+)/(1+Exp(+))。當 Hub 網(wǎng)頁(yè) i 和權威網(wǎng)頁(yè) j 之間沒(méi)有鏈接時(shí),P(i,j)=1/(1+Exp(+))。從上面的公式可以看出,如果非常大(說(shuō)明Hub網(wǎng)頁(yè)i有很高的指向任何網(wǎng)頁(yè)的傾向),或者總和很大(說(shuō)明i是一個(gè)高質(zhì)量的Hub,j是一個(gè)高質(zhì)量的Authority網(wǎng)頁(yè)),那么i ->j的鏈接概率比較大[9]。
  4 其他排序技術(shù)
  除了以上兩類(lèi)排序算法,還有其他排序方式,比如:競價(jià)排名(競價(jià)排名是百度等一些搜索引擎公司推出的一種以?xún)r(jià)格確定排名的在線(xiàn)推廣方式。但是,投標人信息的真實(shí)性需要嚴格篩選,否則用戶(hù)對搜索引擎的信任將被灰色行業(yè)所利用[10])。通過(guò)用戶(hù)反饋提高排序的準確性,通過(guò)理解增加排序的相關(guān)性,通過(guò)智能過(guò)濾減少減少。排序結果的重復性等
  5 結束語(yǔ)
  綜上所述,在目前谷歌等搜索引擎中,排序方式非常復雜,需要綜合考慮多種因素,而不是單一的上述算法。我個(gè)人認為未來(lái)搜索引擎會(huì )變得更加人性化,搜索結果會(huì )根據用戶(hù)喜好進(jìn)行排序和過(guò)濾。此外,特定領(lǐng)域的專(zhuān)業(yè)搜索引擎將逐步發(fā)展,例如金融和體育的專(zhuān)業(yè)搜索。引擎。相信未來(lái)瀏覽器功能越來(lái)越強大,搜索引擎的影響力會(huì )越來(lái)越大。
  參考文獻:
  [1] Dennis Fetterly、Mark Manasse、Marc Najork、Janet Wiener:網(wǎng)頁(yè)演變的大規模研究,In:Proc.of the 12th Int'l World Wide Web Conf.New York:ACM Press ,2003.669-678...
  [2] 楊思洛.搜索引擎排序技術(shù)研究[J].現代圖書(shū)館與信息技術(shù),2005,(01).
  [3] S.Brin 和 L.Page,“大型超文本 Web 搜索引擎的剖析”,發(fā)表在第七屆國際萬(wàn)維網(wǎng)會(huì )議論文集(WWW7)/Computer Networks,阿姆斯特丹, 1998
  [4] Page L, Brin S, etc. PageRank 引文排名:為網(wǎng)絡(luò )帶來(lái)秩序[J].斯坦福數字圖書(shū)館工作論文,1998,(6):102-107.
  [5] T. 有 liwala。 PageRank 的高效計算。 1999-31技術(shù)報告,1999.
  [6]
  [7] 何曉陽(yáng),吳強,吳志榮:HITS算法與PageRank算法對比分析。信息學(xué)報,2004 年第 2 期
  [8]
  [9] 朱偉、王超、李軍等. Web 超鏈分析算法研究。計算機科學(xué), 2003, 30(1)
  [10]常路,夏祖奇;幾種常用的搜索引擎排序算法。圖書(shū)情報工作,2003 年第 6 期
  ———————————————————
  版權聲明:本文為CSDN博主“arthur0808”原創(chuàng )文章,遵循CC4.0 BY-SA版權協(xié)議。轉載請附上原出處鏈接和本聲明。
  原文鏈接: 查看全部

  如何使用戶(hù)關(guān)注的網(wǎng)頁(yè)排列在搜索引擎的排序技術(shù)
  搜索引擎的排序技術(shù)
  摘要:本文簡(jiǎn)要介紹和比較了搜索引擎目前使用的排序算法,包括詞頻位置加權排序算法、鏈接分析排序算法,并著(zhù)重介紹了PageRank算法和HITS算法的思想及其比較優(yōu)勢和劣勢。
  關(guān)鍵詞:搜索引擎;排行;網(wǎng)頁(yè)排名;命中
  1 前言
  谷歌和百度的崛起很大程度上是由于它們使用了比以前的搜索引擎更好的排序技術(shù)。由于人們通常只關(guān)注搜索結果的前 10 或 20 項,因此將與用戶(hù)查詢(xún)結果最相關(guān)的信息排在結果的前排尤為重要。例如,.jp、.de 和.edu 域名下的網(wǎng)頁(yè)通常比.com 和.net 域名下的網(wǎng)頁(yè)更有用[1]。如何讓用戶(hù)關(guān)注的網(wǎng)頁(yè)在搜索結果中排名靠前,讓各家搜索引擎公司不斷完善優(yōu)化方向。筆者將通過(guò)閱讀論文和網(wǎng)絡(luò )資料總結介紹幾種主要的排序算法:詞頻位置加權排序算法、鏈接分析排序算法。
  2 詞頻位置加權排序算法
  這類(lèi)技術(shù)是在傳統信息檢索技術(shù)的基礎上發(fā)展起來(lái)的,即用戶(hù)在網(wǎng)頁(yè)中輸入的搜索詞的頻率越高,搜索詞的位置越重要,則該網(wǎng)頁(yè)被認為與本次搜索相關(guān)。一個(gè)詞的相關(guān)性越高,它在搜索結果中出現的位置就越高。 InfoSeek、Excite、Lycos等早期搜索引擎都采用了這種排序方式。
  2.1 詞頻加權
  詞頻加權是以用戶(hù)提供的搜索詞在網(wǎng)頁(yè)中出現的次數作為確定網(wǎng)頁(yè)相關(guān)性權重的依據。詞頻加權方法包括絕對詞頻加權、相對詞頻加權、逆詞頻加權、基于詞判別值的加權等。對于單詞搜索引擎,可以通過(guò)簡(jiǎn)單地計算一個(gè)詞在網(wǎng)頁(yè)中出現的頻率來(lái)給出??權重。對于具有邏輯組裝功能的搜索引擎,必須使用其他加權方法。因為在使用組合搜索查詢(xún)時(shí),搜索結果與搜索查詢(xún)中的每個(gè)搜索詞相關(guān),并且每個(gè)搜索詞在所有網(wǎng)頁(yè)中的總頻率是不同的。如果按總重量排序, 會(huì )造成結果無(wú)關(guān)緊要。這可以通過(guò)多種其他方式解決。例如,利用相對詞頻加權的原理,可以統計大量網(wǎng)頁(yè),為所有網(wǎng)頁(yè)中出現頻率較高的詞分配一個(gè)較低的初始值。相對而言,所有網(wǎng)頁(yè)中出現頻率較低的詞被賦予較低的初始值。更高的權重 [2]。
  2.2 詞位權重
  通過(guò)為網(wǎng)頁(yè)中不同位置和布局的詞分配不同的權重,可以根據權重確定搜索結果和搜索詞的相關(guān)程度。字的位置包括頁(yè)面標題元素、頁(yè)面描述關(guān)鍵字元素、正文標題、正文內容、正文鏈接、logo等。布局包括字體、字號、是否加粗或者強調等。比如理解排序技術(shù),搜索“排序技術(shù)”時(shí),有兩個(gè)結果,一個(gè)標題是“搜索引擎的排序技術(shù)”,另一個(gè)文章的標題是“Web Information Retrieval”,但內容有部分 說(shuō)到搜索引擎的排名技術(shù),顯然第一個(gè)結果更相關(guān)。 “排名技術(shù)”這個(gè)詞應該在第一個(gè)結果中給予更大的權重。
  2.3 此類(lèi)算法的優(yōu)缺點(diǎn)
  這種方法的主要優(yōu)點(diǎn)是使用方便,易于實(shí)現,最成熟的發(fā)展基本上是目前所有搜索引擎排名核心技術(shù)的基礎。但是,由于現網(wǎng)內容的質(zhì)量無(wú)法保證,為了使網(wǎng)頁(yè)在搜索引擎中排名靠前,在網(wǎng)頁(yè)中添加了相同背景色的圖層,并填寫(xiě)了大量的熱門(mén)關(guān)鍵詞,當人們來(lái)瀏覽網(wǎng)頁(yè)時(shí)完全被查看。不,但搜索引擎可以在索引時(shí)找到它。這個(gè)問(wèn)題在一定程度上得到了改善,但并沒(méi)有完全根除。
  3 鏈接分析排名
  鏈接分析排序算法的思想其實(shí)來(lái)源于紙質(zhì)文獻索引機制,即一篇論文或文獻被引用次數越多,其學(xué)術(shù)價(jià)值就越高。同一個(gè)網(wǎng)頁(yè)類(lèi)比,如果一個(gè)網(wǎng)頁(yè)的鏈接越多,該網(wǎng)頁(yè)的重要性就越高。鏈路分析算法主要分為隨機漫游模型,如PageRank算法;基于Hub和Authority的相互強化模型,如HITS及其變體;基于概率模型,如 SALSA;基于貝葉斯模型,如貝葉斯算法及其簡(jiǎn)化版本。下面將分別介紹這些算法。
  3.1 PageRank 算法
  Google 搜索引擎有兩個(gè)重要功能,可以讓您獲得高度準確的結果。首先,它利用網(wǎng)絡(luò )的鏈接特征來(lái)計算網(wǎng)頁(yè)的質(zhì)量排名,即PageRank;其次,它使用鏈接來(lái)改善搜索結果 [3]。
  簡(jiǎn)單的PageRank原理即如圖1所示的那樣,從網(wǎng)頁(yè)A導向網(wǎng)頁(yè)B的鏈接被看作是對頁(yè)面A對頁(yè)面B的支持投票,Google根據這個(gè)投票數來(lái)判斷頁(yè)面的重要性??墒?Google 不單單只看投票數(即鏈接數),對投票的頁(yè)面也進(jìn)行分析。重要性高的頁(yè)面所投的票的評價(jià)會(huì )更高。
  原創(chuàng )PageRank算法:PR(A) = (1-d) + d (PR(T1)/C(T1) +… + PR(Tn)/C(Tn)))<//p
p其中: PR(A):網(wǎng)頁(yè)A的PageRank值; PR(Ti):鏈接到頁(yè)面A的網(wǎng)頁(yè)Ti的PageRank值; C(Ti):網(wǎng)頁(yè)Ti的出站鏈接數; d:阻尼系數,0/p
p在算法的第二個(gè)版本中:PR(A) = (1-d) / N + d (PR(T1)/C(T1) +... + PR(Tn)/C(Tn) ))/p
p這里 N 是 Internet 頁(yè)面的總數。該算法2與算法1并沒(méi)有完全不同。在隨機沖浪模型中,算法2中頁(yè)面的PageRank值是點(diǎn)擊多個(gè)鏈接后到達該頁(yè)面的實(shí)際概率。因此,互聯(lián)網(wǎng)上所有網(wǎng)頁(yè)的PageRank值形成一個(gè)概率分布,所有RageRank值之和為1。/p
p因為 PR(A) 取決于鏈接到網(wǎng)頁(yè) A 的其他網(wǎng)頁(yè)的 PageRank 值,而其他網(wǎng)頁(yè)的 PR 值也取決于指向該網(wǎng)頁(yè)的網(wǎng)頁(yè)的 PR 值,所以這是一個(gè)遞歸過(guò)程。似乎需要無(wú)窮無(wú)盡的計算才能獲得網(wǎng)頁(yè)的PR值。根據參考文獻5中的實(shí)驗,遞歸計算了網(wǎng)絡(luò )中3.220億個(gè)鏈接,發(fā)現經(jīng)過(guò)52次計算可以得到收斂。穩定的 PageRank 值,在計算一半鏈接的 PageRank 值時(shí),進(jìn)行了 45 次計算。通過(guò)實(shí)驗發(fā)現,遞歸計算次數和鏈接數呈對數比例增加,即要計算N個(gè)鏈接的PageRank值時(shí),只需進(jìn)行logN次遞歸計算即可得到穩定的PageRank值[5] ./p
p3.2 Hits 算法/p
p在PageRank算法中,鏈接被平等對待,每個(gè)鏈接貢獻相同的權重。在現實(shí)生活中,有些鏈接指向廣告,而有些鏈接指向權威網(wǎng)頁(yè)??梢钥闯?,均勻分布的權重不符合實(shí)際情況。所以康奈爾大學(xué)的Jon Kleinberg博士在1998年首先提出了Hits算法。/p
pHITS算法對網(wǎng)頁(yè)質(zhì)量的評價(jià)結果??體現在它賦予每個(gè)網(wǎng)頁(yè)的兩個(gè)評價(jià)值上:內容權限(Authority)和鏈接權限(Hub)。/p
p內容權限與網(wǎng)頁(yè)本身直接提供的內容信息的質(zhì)量有關(guān)。引用的網(wǎng)頁(yè)越多,內容權限越高;相應地,鏈接權限與網(wǎng)頁(yè)提供的超鏈接的質(zhì)量有關(guān)。相關(guān)的。引用高質(zhì)量?jì)热莸捻?yè)面越多,鏈接的權威性就越高。根據關(guān)鍵字匹配將查詢(xún)提交給傳統搜索引擎。搜索引擎返回的網(wǎng)頁(yè)很多,前n個(gè)網(wǎng)頁(yè)作為根集。包括根集合中頁(yè)面所指向的所有頁(yè)面,再包括根集合中指向頁(yè)面的頁(yè)面,從而擴展了基本集合。 HITS算法輸出一組具有較大Hub值的網(wǎng)頁(yè)和具有較大權限值的網(wǎng)頁(yè)[6]。/p
p與PageRank等實(shí)用算法不同,HITS算法更多的是一種實(shí)驗性的嘗試。從表面上看,HITS算法需要排序的頁(yè)面數量很少,但由于需要根據內容分析從搜索引擎中提取根集并擴展基本集,這個(gè)過(guò)程需要相當長(cháng)的時(shí)間,而PageRank算法表面上看,處理的數據量遠遠超過(guò)HITS算法,但是因為在用戶(hù)查詢(xún)的時(shí)候計算量已經(jīng)由服務(wù)器獨立完成,所以用戶(hù)無(wú)需等待。為此,從用戶(hù)的等待時(shí)間來(lái)看,PageRank算法應該優(yōu)于HITS算法。簡(jiǎn)短[7]。/p
p3.3 其他鏈接分析和排序算法/p
pPageRank 算法基于用戶(hù)對網(wǎng)頁(yè)隨機前向瀏覽的直覺(jué),HITS 算法考慮了Authorative 網(wǎng)頁(yè)和Hub 網(wǎng)頁(yè)之間的增強關(guān)系。在實(shí)際應用中,用戶(hù)大部分時(shí)間是向前瀏覽網(wǎng)頁(yè),但在很多情況下,他們會(huì )返回瀏覽網(wǎng)頁(yè)?;谏鲜鲋庇^(guān)認識,R. Lempel 和 S. Moran 提出了 SALSA(Stochastic Approach for Link-Structure Analysis)算法,該算法考慮了用戶(hù)返回瀏覽網(wǎng)頁(yè)的情況,并保留了隨機漫游PageRank 和 HITS 中網(wǎng)頁(yè)的 Authoritive 分類(lèi)與 Hub 的想法取消了 Authoritive 和 Hub 之間的相互加強關(guān)系[8]。/p
p艾倫鮑羅丁等。提出了一種完整的貝葉斯統計方法來(lái)確定 Hub 和 Authoritive 網(wǎng)頁(yè)。假設有M個(gè)Hub網(wǎng)頁(yè)和N個(gè)Authority網(wǎng)頁(yè),可以是同一個(gè)集合。每個(gè)Hub網(wǎng)頁(yè)都有一個(gè)未知實(shí)數參數,表示有超鏈接的總體趨勢,還有一個(gè)未知的非負參數,表示有鏈接到Authority網(wǎng)頁(yè)的趨勢。每個(gè)權威網(wǎng)頁(yè) j 都有一個(gè)未知的非負參數,代表 j 的權限級別。統計模型如下。 Hub 網(wǎng)頁(yè) i 鏈接到權威網(wǎng)頁(yè) j 的先驗概率為:P(i,j)=Exp(+)/(1+Exp(+))。當 Hub 網(wǎng)頁(yè) i 和權威網(wǎng)頁(yè) j 之間沒(méi)有鏈接時(shí),P(i,j)=1/(1+Exp(+))。從上面的公式可以看出,如果非常大(說(shuō)明Hub網(wǎng)頁(yè)i有很高的指向任何網(wǎng)頁(yè)的傾向),或者總和很大(說(shuō)明i是一個(gè)高質(zhì)量的Hub,j是一個(gè)高質(zhì)量的Authority網(wǎng)頁(yè)),那么i ->j的鏈接概率比較大[9]。
  4 其他排序技術(shù)
  除了以上兩類(lèi)排序算法,還有其他排序方式,比如:競價(jià)排名(競價(jià)排名是百度等一些搜索引擎公司推出的一種以?xún)r(jià)格確定排名的在線(xiàn)推廣方式。但是,投標人信息的真實(shí)性需要嚴格篩選,否則用戶(hù)對搜索引擎的信任將被灰色行業(yè)所利用[10])。通過(guò)用戶(hù)反饋提高排序的準確性,通過(guò)理解增加排序的相關(guān)性,通過(guò)智能過(guò)濾減少減少。排序結果的重復性等
  5 結束語(yǔ)
  綜上所述,在目前谷歌等搜索引擎中,排序方式非常復雜,需要綜合考慮多種因素,而不是單一的上述算法。我個(gè)人認為未來(lái)搜索引擎會(huì )變得更加人性化,搜索結果會(huì )根據用戶(hù)喜好進(jìn)行排序和過(guò)濾。此外,特定領(lǐng)域的專(zhuān)業(yè)搜索引擎將逐步發(fā)展,例如金融和體育的專(zhuān)業(yè)搜索。引擎。相信未來(lái)瀏覽器功能越來(lái)越強大,搜索引擎的影響力會(huì )越來(lái)越大。
  參考文獻:
  [1] Dennis Fetterly、Mark Manasse、Marc Najork、Janet Wiener:網(wǎng)頁(yè)演變的大規模研究,In:Proc.of the 12th Int'l World Wide Web Conf.New York:ACM Press ,2003.669-678...
  [2] 楊思洛.搜索引擎排序技術(shù)研究[J].現代圖書(shū)館與信息技術(shù),2005,(01).
  [3] S.Brin 和 L.Page,“大型超文本 Web 搜索引擎的剖析”,發(fā)表在第七屆國際萬(wàn)維網(wǎng)會(huì )議論文集(WWW7)/Computer Networks,阿姆斯特丹, 1998
  [4] Page L, Brin S, etc. PageRank 引文排名:為網(wǎng)絡(luò )帶來(lái)秩序[J].斯坦福數字圖書(shū)館工作論文,1998,(6):102-107.
  [5] T. 有 liwala。 PageRank 的高效計算。 1999-31技術(shù)報告,1999.
  [6]
  [7] 何曉陽(yáng),吳強,吳志榮:HITS算法與PageRank算法對比分析。信息學(xué)報,2004 年第 2 期
  [8]
  [9] 朱偉、王超、李軍等. Web 超鏈分析算法研究。計算機科學(xué), 2003, 30(1)
  [10]常路,夏祖奇;幾種常用的搜索引擎排序算法。圖書(shū)情報工作,2003 年第 6 期
  ———————————————————
  版權聲明:本文為CSDN博主“arthur0808”原創(chuàng )文章,遵循CC4.0 BY-SA版權協(xié)議。轉載請附上原出處鏈接和本聲明。
  原文鏈接:

“探索推薦引擎內部的秘密”系列將帶領(lǐng)讀者從淺入深

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 82 次瀏覽 ? 2021-07-06 01:02 ? 來(lái)自相關(guān)話(huà)題

  “探索推薦引擎內部的秘密”系列將帶領(lǐng)讀者從淺入深
  《探索推薦引擎的奧秘》系列將帶領(lǐng)讀者由淺入深,探索推薦引擎的機制和實(shí)現方法,包括一些基本的優(yōu)化方法,如聚類(lèi)、分類(lèi)應用等。同時(shí),在理論講解的基礎上,還將介紹如何在大規模數據上實(shí)現各種推薦策略,優(yōu)化策略,結合Apache Mahout構建高效的推薦引擎。作為本系列的第一篇文章,本文將深入介紹推薦引擎的工作原理,涉及的各種推薦機制,以及各自的優(yōu)缺點(diǎn)和適用場(chǎng)景,幫助用戶(hù)清晰了解并快速構建適合自己推薦引擎。
  信息發(fā)現
  現在我們進(jìn)入了一個(gè)數據爆炸的時(shí)代。隨著(zhù)Web2.0的發(fā)展,Web已經(jīng)成為數據共享的平臺。那么,如何讓人們想要在海量數據中找到自己需要的信息就會(huì )越來(lái)越難。
  在這種情況下,搜索引擎(谷歌、必應、百度等)就成為了大家快速找到目標信息的最佳方式。當用戶(hù)比較清楚自己的需求時(shí),使用搜索引擎通過(guò)關(guān)鍵字搜索快速找到自己需要的信息是非常方便的。然而,搜索引擎并不能完全滿(mǎn)足用戶(hù)對信息發(fā)現的需求,因為在很多情況下,用戶(hù)其實(shí)并不清楚自己的需求,或者用簡(jiǎn)單的關(guān)鍵詞難以表達自己的需求?;蛘咚麄冃枰纤麄儌€(gè)人品味和喜好的結果,于是就有了推薦系統,對應搜索引擎,大家習慣稱(chēng)它為推薦引擎。
  隨著(zhù)推薦引擎的出現,用戶(hù)獲取信息的方式已經(jīng)從簡(jiǎn)單的有針對性的數據搜索轉變?yōu)楦先藗兞晳T的更高級的信息發(fā)現。
  現在,隨著(zhù)推薦技術(shù)的不斷發(fā)展,推薦引擎已經(jīng)在電子商務(wù)(電子商務(wù),如亞馬遜、當當)和一些基于社交的社交網(wǎng)站(包括音樂(lè )、電影和圖書(shū)分享,如如豆瓣、Mtime等)都取得了巨大的成功。這也進(jìn)一步說(shuō)明,在Web2.0環(huán)境下,面對海量數據,用戶(hù)需要這種更智能、更了解自己需求、品味和偏好的信息發(fā)現機制。
  返回頂部
  推薦引擎
  之前介紹了推薦引擎對當前Web2.0站點(diǎn)的重要性。在本章中,我們將討論推薦引擎的工作原理。推薦引擎使用特殊的信息過(guò)濾技術(shù)向可能感興趣的用戶(hù)推薦不同的項目或內容。
  圖1.推薦引擎的工作原理
  
  圖1展示了推薦引擎的工作原理圖。在這里,推薦引擎被視為一個(gè)黑匣子。它接受的輸入是推薦的數據源。一般來(lái)說(shuō),推薦引擎需要的數據源包括:
  顯式的用戶(hù)反饋可以準確反映用戶(hù)對物品的真實(shí)偏好,但需要用戶(hù)付出額外的代價(jià),而隱式的用戶(hù)行為也可以通過(guò)一些分析處理來(lái)反映用戶(hù)的偏好,但數據并不是很準確,并且一些行為分析有很多噪音。但是只要選擇了正確的行為特征,隱含的用戶(hù)反饋也可以得到很好的效果,只是行為特征的選擇在不同的應用中可能會(huì )有很大的不同。比如電商網(wǎng)站,購買(mǎi)行為其實(shí)是一種隱性反饋,可以很好的表達用戶(hù)的喜好。
  推薦引擎可能會(huì )根據不同的推薦機制使用部分數據源,然后基于這些數據,分析某些規則或直接預測和計算用戶(hù)對其他項目的偏好。這樣,推薦引擎就可以在用戶(hù)進(jìn)入時(shí)推薦用戶(hù)可能感興趣的項目。
  推薦引擎分類(lèi)
  推薦引擎的分類(lèi)可以基于很多指標,下面我們一一介紹:
  推薦引擎是否為不同的用戶(hù)推薦不同的數據?
  根據該指標,推薦引擎可分為基于流行行為的推薦引擎和個(gè)性化推薦引擎
  這是推薦引擎最基本的分類(lèi)。事實(shí)上,人們討論的大多數推薦引擎都是個(gè)性化推薦引擎,因為從根本上講,只有個(gè)性化推薦引擎才是更智能的信息發(fā)現過(guò)程。 .
  根據推薦引擎的數據來(lái)源
  其實(shí)這里就是如何發(fā)現數據的相關(guān)性,因為大部分推薦引擎都是基于相似的物品集或者用戶(hù)推薦的。然后參考圖1給出的推薦系統示意圖,根據不同的數據源發(fā)現數據相關(guān)性的方法可以分為以下幾種:
  根據推薦模型的建立
  可以想象,在一個(gè)擁有大量物品和用戶(hù)的系統中,推薦引擎的計算量是相當大的。為了實(shí)現實(shí)時(shí)推薦,必須建立推薦模型。推薦模型的建立可以分為以下幾種:
  事實(shí)上,在目前的推薦系統中,很少有推薦引擎只使用一種推薦策略。一般在不同的場(chǎng)景下使用不同的推薦策略來(lái)達到最好的推薦效果,比如亞馬遜的推薦。它根據用戶(hù)自身的歷史購買(mǎi)數據進(jìn)行推薦,根據用戶(hù)當前瀏覽過(guò)的商品進(jìn)行推薦,根據流行偏好將當前熱門(mén)商品推薦給不同地區的用戶(hù),讓用戶(hù)可以從全方位的推薦中找到適合的商品你真的很感興趣。
  深度推薦機制
  本章的篇幅將詳細介紹每種推薦機制的工作原理、優(yōu)缺點(diǎn)和應用場(chǎng)景。
  基于人口統計的推薦
  基于人口統計的推薦是最容易實(shí)施的推薦方法。它只是根據系統用戶(hù)的基本信息發(fā)現用戶(hù)的相關(guān)性,然后將類(lèi)似用戶(hù)喜歡的其他物品推薦給當前用戶(hù)。圖 2 顯示了此建議的工作原理。
  圖2.基于人口統計的推薦機制的工作原理
  
  從圖中可以清楚地看出,首先,系統對每個(gè)用戶(hù)都有一個(gè)用戶(hù)畫(huà)像建模,其中包括用戶(hù)的基本信息,比如用戶(hù)的年齡、性別等;用戶(hù)畫(huà)像計算用戶(hù)的相似度,可以看到用戶(hù)A的畫(huà)像和用戶(hù)C是一樣的,那么系統就會(huì )認為用戶(hù)A和C是相似的用戶(hù)。在推薦引擎中,他們可以稱(chēng)為“鄰居”;最后,根據“鄰居”用戶(hù)組的偏好,向當前用戶(hù)推薦一些物品,圖中將用戶(hù)A喜歡的物品A推薦給用戶(hù)C。
  這種基于人口統計的推薦機制的好處是:
  因為沒(méi)有使用當前用戶(hù)對物品的偏好歷史數據,所以不存在新用戶(hù)的“冷啟動(dòng)”問(wèn)題。該方法不依賴(lài)于item本身的數據,因此該方法可以用于不同item的域中,并且是域無(wú)關(guān)的。
  那么這種方法有什么缺點(diǎn)和問(wèn)題呢?這種根據用戶(hù)的基本信息對用戶(hù)進(jìn)行分類(lèi)的方法過(guò)于粗糙,尤其是在書(shū)籍、電影、音樂(lè )等對品味要求較高的領(lǐng)域,無(wú)法獲得很好的推薦效果。也許在一些電商網(wǎng)站,這個(gè)方法可以給出一些簡(jiǎn)單的建議。另一個(gè)限制是,這種方法可能涉及到一些與信息發(fā)現問(wèn)題本身無(wú)關(guān)的敏感信息,例如用戶(hù)的年齡等,這些用戶(hù)信息不是很容易獲取。
  基于內容的推薦
  基于內容的推薦是推薦引擎出現之初使用最廣泛的推薦機制。其核心思想是根據推薦的物品或內容的元數據發(fā)現物品或內容的相關(guān)性,然后根據用戶(hù)過(guò)去的喜好進(jìn)行記錄,向用戶(hù)推薦相似的物品。圖3展示了基于內容推薦的基本原理。
  圖3.基于內容推薦機制的基本原理
  
  基于內容的推薦的典型示例如圖 3 所示。在電影推薦系統中,首先我們需要對電影的元數據進(jìn)行建模。這里我們只簡(jiǎn)單描述電影的類(lèi)型;元數據發(fā)現電影之間的相似性,因為類(lèi)型都是“愛(ài)情、浪漫”。電影A和C被認為是相似的電影(當然,獲得更好的推薦還不夠,我們也可以考慮電影導演、演員等);最后,建議實(shí)現。對于用戶(hù)A,他喜歡看電影A,那么系統可以向他推薦類(lèi)似的電影C。
  這種基于內容的推薦機制的優(yōu)勢在于它可以很好地模擬用戶(hù)的口味并提供更準確的推薦。但它也存在以下問(wèn)題:
  文章需要分析建模,推薦質(zhì)量取決于文章模型的完整性和綜合性。在目前的應用中,我們可以觀(guān)察到關(guān)鍵詞和標簽(Tag)被認為是一種簡(jiǎn)單有效的描述item元數據的方式。物品相似度的分析只依賴(lài)物品本身的特征,這里不考慮人們對物品的態(tài)度。由于需要根據用戶(hù)過(guò)去的偏好歷史進(jìn)行推薦,因此新用戶(hù)存在“冷啟動(dòng)”問(wèn)題。
  雖然這種方法有很多缺點(diǎn)和問(wèn)題,但它已經(jīng)成功地應用于一些電影、音樂(lè )和書(shū)籍的社交網(wǎng)站。有的網(wǎng)站還請專(zhuān)業(yè)人士對項目進(jìn)行基因編碼,比如Pandora,在一份報告中說(shuō),在Pandora的推薦引擎中,每首歌曲都有100多個(gè)元數據特征,包括歌曲風(fēng)格、年份、歌手等。
  基于協(xié)同過(guò)濾的推薦
  隨著(zhù)Web2.0的發(fā)展,網(wǎng)站促進(jìn)了用戶(hù)參與和用戶(hù)貢獻。因此,基于協(xié)同過(guò)濾的推薦機制應運而生。它的原理很簡(jiǎn)單,就是根據用戶(hù)對物品或信息的偏好,找到物品或內容本身的相關(guān)性,或者找到用戶(hù)的相關(guān)性,然后根據這些相關(guān)性進(jìn)行推薦?;趨f(xié)同過(guò)濾的推薦可以分為三個(gè)子類(lèi)別:基于用戶(hù)的推薦、基于物品的推薦和基于模型的推薦。下面我們將一一詳細介紹三種協(xié)同過(guò)濾推薦機制。
  基于用戶(hù)的協(xié)同過(guò)濾推薦
  基于用戶(hù)的協(xié)同過(guò)濾推薦的基本原理是根據所有用戶(hù)對物品或信息的偏好,發(fā)現一組與當前用戶(hù)的口味和偏好相似的“鄰居”。一般應用中,計算“K-Neighbors”算法;然后,根據這K個(gè)鄰居的歷史偏好信息,為當前用戶(hù)做出推薦。下圖4為示意圖。
  圖4.基于用戶(hù)的協(xié)同過(guò)濾推薦機制基本原理
  
  上圖說(shuō)明了基于用戶(hù)的協(xié)同過(guò)濾推薦機制的基本原理。假設用戶(hù)A喜歡物品A,物品C,用戶(hù)B喜歡物品B,用戶(hù)C喜歡物品A,物品C和物品D;從這些用戶(hù)的歷史偏好信息中,我們可以發(fā)現用戶(hù)A和用戶(hù)C的品味和偏好比較相似,并且用戶(hù)C也喜歡項目D,那么我們可以推斷用戶(hù)A可能也喜歡項目D,所以項目D可以推薦給用戶(hù)A。
  基于用戶(hù)的協(xié)同過(guò)濾推薦機制和基于人口統計的推薦機制都計算用戶(hù)的相似度,也計算基于“鄰居”用戶(hù)群的推薦,但兩者的區別在于如何計算用戶(hù)的相似度,基于人口統計機制只考慮用戶(hù)的特征,而基于用戶(hù)的協(xié)同過(guò)濾機制根據用戶(hù)的歷史偏好數據計算用戶(hù)的相似度。它的基本假設是喜歡相似物品的用戶(hù)可能相同或相似??谖逗推?。
  基于項目的協(xié)同過(guò)濾推薦
  基于物品的協(xié)同過(guò)濾推薦的基本原理也類(lèi)似,只不過(guò)是利用所有用戶(hù)對物品或信息的偏好來(lái)尋找物品與物品之間的相似度,然后根據用戶(hù)的歷史偏好信息,得出相似的向用戶(hù)推薦項目。圖 5 說(shuō)明了其基本原理。
  假設用戶(hù)A喜歡物品A和物品C,用戶(hù)B喜歡物品A、物品B和物品C,用戶(hù)C喜歡物品A,從這些用戶(hù)的歷史偏好可以分析出物品A和物品C 相似。喜歡物品A的人喜歡物品C。根據這個(gè)數據可以推斷用戶(hù)C很可能也喜歡物品C,所以系統會(huì )向用戶(hù)C推薦物品C。
  與上面類(lèi)似,基于項目的協(xié)同過(guò)濾推薦和基于內容的推薦實(shí)際上都是基于項目相似度預測推薦,只是相似度計算方法不同。前者是從用戶(hù)的歷史偏好中推斷出來(lái)的,而后者則是基于物品本身的屬性特征信息。
  圖5.基于項目的協(xié)同過(guò)濾推薦機制基本原理
  
  同時(shí)協(xié)同過(guò)濾,基于用戶(hù)和基于項目的策略我們應該如何選擇?實(shí)際上,基于物品的協(xié)同過(guò)濾推薦機制是亞馬遜在基于用戶(hù)的機制上改進(jìn)的一種策略,因為在大多數網(wǎng)站中,物品的數量遠小于用戶(hù)的數量,物品的數量是相似度比較穩定,基于項目的機制比基于用戶(hù)的實(shí)時(shí)性能要好。但并非在所有場(chǎng)景中都是如此??梢韵胂?,在一些新聞推薦系統中,也許items的數量,即新聞的數量可能大于用戶(hù)的數量,而且新聞更新的程度也很快,所以它的相似度還是有的不穩定。因此,其實(shí)可以看出,推薦策略的選擇與具體的應用場(chǎng)景有很大關(guān)系。
  基于模型的協(xié)同過(guò)濾推薦
  基于模型的協(xié)同過(guò)濾推薦是基于基于樣本的用戶(hù)偏好信息,訓練推薦模型,然后根據實(shí)時(shí)用戶(hù)偏好信息預測和計算推薦。
  基于協(xié)同過(guò)濾的推薦機制是當今應用最廣泛的推薦機制。它具有以下顯著(zhù)優(yōu)勢:
  它不需要對對象或用戶(hù)進(jìn)行嚴格的建模,也不需要對對象的描述是機器可理解的,所以這種方法也是領(lǐng)域無(wú)關(guān)的。這種方法計算出來(lái)的推薦是公開(kāi)的,可以分享他人的經(jīng)驗,很好的支持用戶(hù)發(fā)現潛在的興趣和偏好
  而且它還存在以下問(wèn)題:
  該方法的核心是基于歷史數據,因此對于新項目和新用戶(hù)存在“冷啟動(dòng)”問(wèn)題。推薦的效果取決于用戶(hù)歷史偏好數據的數量和準確性。在大多數實(shí)現中,用戶(hù)的歷史偏好存儲在一個(gè)稀疏矩陣中,在稀疏矩陣上的計算存在一些明顯的問(wèn)題,包括少數人的錯誤偏好可能會(huì )對計算的準確性產(chǎn)生很大影響。推薦等。對于一些有特殊品味的用戶(hù),我們無(wú)法給出好的建議?;跉v史數據,在對用戶(hù)偏好進(jìn)行捕獲和建模后,很難根據用戶(hù)的使用情況進(jìn)行修改或進(jìn)化,這使得該方法不夠靈活。
  混合推薦機制
  當前網(wǎng)站上的推薦往往不是簡(jiǎn)單地使用某種推薦機制和策略。他們經(jīng)?;旌隙喾N方法來(lái)獲得更好的推薦結果。關(guān)于如何組合各種推薦機制,這里介紹幾種比較流行的組合方式。
  Weighted Hybridization:使用一個(gè)線(xiàn)性公式,根據一定的權重組合幾個(gè)不同的推薦。具體的權重值需要在測試數據集上反復測試才能達到最佳推薦效果。 Switching Hybridization:前面說(shuō)過(guò),其實(shí)對于不同的情況(數據量、系統運行狀態(tài)、用戶(hù)和物品數量等),推薦策略可能會(huì )有很大的不同,所以切換Hybridization的方式是允許選擇的最適合的推薦機制來(lái)計算不同情況下的推薦。 Mixed Hybridization:采用多種推薦機制,向不同區域的用戶(hù)展示不同的推薦結果。事實(shí)上,亞馬遜、當當等眾多電商網(wǎng)站都采用了這種方式,用戶(hù)可以獲得全面的推薦,也更容易找到自己想要的東西。 Meta-Level Hybridization:采用多種推薦機制,將一種推薦機制的結果作為另一種推薦機制的輸入,綜合各推薦機制的優(yōu)缺點(diǎn),獲得更精準的推薦。
  推薦引擎的應用
  在介紹了推薦引擎的基本原理和基本推薦機制后,下面簡(jiǎn)要分析幾個(gè)有代表性的推薦引擎的應用。這里我們選擇兩個(gè)領(lǐng)域:以亞馬遜為代表的電子商務(wù)和以豆瓣為代表的社交網(wǎng)絡(luò )。
  電子商務(wù)中的推薦應用-亞馬遜
  亞馬遜作為推薦引擎的鼻祖,將推薦的思想滲透到了應用的每一個(gè)角落。亞馬遜推薦的核心是通過(guò)數據挖掘算法將用戶(hù)的消費偏好與其他用戶(hù)進(jìn)行比較,從而預測用戶(hù)可能感興趣的產(chǎn)品。 對應上面介紹的各種推薦機制,亞馬遜采用分區混合機制,展示給不同領(lǐng)域的用戶(hù)不同的推薦結果。圖 6 和圖 7 顯示了用戶(hù)可以在亞馬遜上獲得的推薦。
  圖6.亞馬遜的推薦機制-首頁(yè)
  圖7.亞馬遜的推薦機制-瀏覽商品
  
  亞馬遜利用網(wǎng)站上所有可以記錄的用戶(hù)行為,根據不同數據的特點(diǎn)進(jìn)行處理,劃分不同區域為用戶(hù)推送推薦:
  值得一提的是,亞馬遜在做推薦的時(shí)候,設計和用戶(hù)體驗也很獨特:
  亞馬遜利用其大量歷史數據來(lái)量化推薦原因。
  此外,亞馬遜的很多推薦都是根據用戶(hù)的個(gè)人資料計算出來(lái)的。用戶(hù)個(gè)人資料記錄了用戶(hù)在亞馬遜上的行為,包括瀏覽過(guò)的商品、購買(mǎi)過(guò)的商品、采集中的商品和心愿單等。當然,亞馬遜還集成了評分等其他用戶(hù)反饋方式,這些都是用戶(hù)反饋的一部分。輪廓。同時(shí),亞馬遜提供了允許用戶(hù)管理自己的個(gè)人資料的功能。這樣,用戶(hù)可以更清楚地告訴推薦引擎他的品味和意圖是什么。
  社交網(wǎng)站-豆瓣推薦應用
  豆瓣是中國相對成功的社交網(wǎng)絡(luò )網(wǎng)站。形成以圖書(shū)、電影、音樂(lè )、同城活動(dòng)為中心的多元化社交網(wǎng)絡(luò )平臺。自然推薦的功能必不可少。下面我們看看豆瓣是如何推薦的。
  圖8.豆瓣的推薦機制-豆瓣電影
  
  當你在豆瓣電影中加入一些你看過(guò)或者感興趣的電影到你看過(guò)想看的列表中,并給它們相應的評分,那么豆瓣的推薦引擎就已經(jīng)給你一些偏好信息了,那么它將顯示如圖 8 所示的電影推薦。
  圖 9. 豆瓣推薦機制——基于用戶(hù)品味的推薦
  
  豆瓣的推薦是通過(guò)“豆瓣猜”。為了讓用戶(hù)知道這些推薦是怎么來(lái)的,豆瓣還簡(jiǎn)單介紹了“豆瓣猜”。
  “您的個(gè)人推薦是根據您的采集和評論自動(dòng)得出的。每個(gè)人的推薦列表都不一樣。您的采集和評論越多,豆瓣的推薦就越準確和豐富。
  每天推薦的內容可能會(huì )發(fā)生變化。隨著(zhù)豆瓣的成長(cháng),推薦給你的內容會(huì )越來(lái)越精準。 "
  這點(diǎn)讓我們清楚的知道豆瓣一定是基于社交協(xié)同過(guò)濾的推薦。這樣,用戶(hù)越多,用戶(hù)反饋越多,推薦效果就會(huì )越準確。
  相比亞馬遜的用戶(hù)行為模型,豆瓣電影的模型更簡(jiǎn)單,即“看過(guò)”和“想看”,這也使得他們的推薦更注重用戶(hù)的口味,畢竟買(mǎi)東西的動(dòng)機和看電影還是有很大區別的。
  此外,豆瓣也有基于物品本身的推薦。當你查看一些電影的詳細信息時(shí),他會(huì )向你推薦“喜歡這部電影的人也喜歡的電影”,如圖10所示,基于協(xié)同過(guò)濾應用。
  圖10.豆瓣的推薦機制——基于電影本身的推薦
  
  總結
  在網(wǎng)絡(luò )數據爆炸的時(shí)代,如何讓用戶(hù)更快地找到自己想要的數據,如何讓用戶(hù)發(fā)現自己潛在的興趣和需求,對于電子商務(wù)和社交網(wǎng)絡(luò )應用來(lái)說(shuō)都非常重要。隨著(zhù)推薦引擎的出現,這個(gè)問(wèn)題越來(lái)越受到關(guān)注。但是對于大多數人來(lái)說(shuō),可能還在疑惑為什么它總能猜出你想要什么。推薦引擎的神奇之處在于,您不知道引擎在此推薦背后記錄和推斷的內容。
  通過(guò)這篇評論文章,你可以了解到推薦引擎其實(shí)只是在默默的記錄和觀(guān)察你的一舉一動(dòng),然后利用所有用戶(hù)產(chǎn)生的海量數據去分析發(fā)現規律,然后慢慢慢慢了解你,你的需求,你的習慣,默默地幫你快速解決問(wèn)題,找到你想要的。
  實(shí)際上,回過(guò)頭來(lái)看,很多時(shí)候,推薦引擎比你更了解你自己。
  通過(guò)第一篇文章,相信大家對推薦引擎有了清晰的第一印象。本系列下一篇文章將深入介紹基于協(xié)同過(guò)濾的推薦策略。在目前的推薦技術(shù)和算法中,被廣泛認可和采用的方法是基于協(xié)同過(guò)濾的推薦方法。以其簡(jiǎn)單的方法模型、低數據依賴(lài)、便捷的數據采集、優(yōu)越的推薦效果,成為大眾眼中的“No.1”推薦算法。本文將帶你深入了解協(xié)同過(guò)濾的奧秘,并給出基于A(yíng)pache Mahout的協(xié)同過(guò)濾算法的高效實(shí)現。 Apache Mahout 是 ASF 的一個(gè)相對較新的開(kāi)源項目。它源自L(fǎng)ucene,建立在Hadoop之上,專(zhuān)注于經(jīng)典機器學(xué)習算法在海量數據上的高效實(shí)現。
  原文鏈接為:@126/blog/static/24269713813/
  轉載于: 查看全部

  “探索推薦引擎內部的秘密”系列將帶領(lǐng)讀者從淺入深
  《探索推薦引擎的奧秘》系列將帶領(lǐng)讀者由淺入深,探索推薦引擎的機制和實(shí)現方法,包括一些基本的優(yōu)化方法,如聚類(lèi)、分類(lèi)應用等。同時(shí),在理論講解的基礎上,還將介紹如何在大規模數據上實(shí)現各種推薦策略,優(yōu)化策略,結合Apache Mahout構建高效的推薦引擎。作為本系列的第一篇文章,本文將深入介紹推薦引擎的工作原理,涉及的各種推薦機制,以及各自的優(yōu)缺點(diǎn)和適用場(chǎng)景,幫助用戶(hù)清晰了解并快速構建適合自己推薦引擎。
  信息發(fā)現
  現在我們進(jìn)入了一個(gè)數據爆炸的時(shí)代。隨著(zhù)Web2.0的發(fā)展,Web已經(jīng)成為數據共享的平臺。那么,如何讓人們想要在海量數據中找到自己需要的信息就會(huì )越來(lái)越難。
  在這種情況下,搜索引擎(谷歌、必應、百度等)就成為了大家快速找到目標信息的最佳方式。當用戶(hù)比較清楚自己的需求時(shí),使用搜索引擎通過(guò)關(guān)鍵字搜索快速找到自己需要的信息是非常方便的。然而,搜索引擎并不能完全滿(mǎn)足用戶(hù)對信息發(fā)現的需求,因為在很多情況下,用戶(hù)其實(shí)并不清楚自己的需求,或者用簡(jiǎn)單的關(guān)鍵詞難以表達自己的需求?;蛘咚麄冃枰纤麄儌€(gè)人品味和喜好的結果,于是就有了推薦系統,對應搜索引擎,大家習慣稱(chēng)它為推薦引擎。
  隨著(zhù)推薦引擎的出現,用戶(hù)獲取信息的方式已經(jīng)從簡(jiǎn)單的有針對性的數據搜索轉變?yōu)楦先藗兞晳T的更高級的信息發(fā)現。
  現在,隨著(zhù)推薦技術(shù)的不斷發(fā)展,推薦引擎已經(jīng)在電子商務(wù)(電子商務(wù),如亞馬遜、當當)和一些基于社交的社交網(wǎng)站(包括音樂(lè )、電影和圖書(shū)分享,如如豆瓣、Mtime等)都取得了巨大的成功。這也進(jìn)一步說(shuō)明,在Web2.0環(huán)境下,面對海量數據,用戶(hù)需要這種更智能、更了解自己需求、品味和偏好的信息發(fā)現機制。
  返回頂部
  推薦引擎
  之前介紹了推薦引擎對當前Web2.0站點(diǎn)的重要性。在本章中,我們將討論推薦引擎的工作原理。推薦引擎使用特殊的信息過(guò)濾技術(shù)向可能感興趣的用戶(hù)推薦不同的項目或內容。
  圖1.推薦引擎的工作原理
  
  圖1展示了推薦引擎的工作原理圖。在這里,推薦引擎被視為一個(gè)黑匣子。它接受的輸入是推薦的數據源。一般來(lái)說(shuō),推薦引擎需要的數據源包括:
  顯式的用戶(hù)反饋可以準確反映用戶(hù)對物品的真實(shí)偏好,但需要用戶(hù)付出額外的代價(jià),而隱式的用戶(hù)行為也可以通過(guò)一些分析處理來(lái)反映用戶(hù)的偏好,但數據并不是很準確,并且一些行為分析有很多噪音。但是只要選擇了正確的行為特征,隱含的用戶(hù)反饋也可以得到很好的效果,只是行為特征的選擇在不同的應用中可能會(huì )有很大的不同。比如電商網(wǎng)站,購買(mǎi)行為其實(shí)是一種隱性反饋,可以很好的表達用戶(hù)的喜好。
  推薦引擎可能會(huì )根據不同的推薦機制使用部分數據源,然后基于這些數據,分析某些規則或直接預測和計算用戶(hù)對其他項目的偏好。這樣,推薦引擎就可以在用戶(hù)進(jìn)入時(shí)推薦用戶(hù)可能感興趣的項目。
  推薦引擎分類(lèi)
  推薦引擎的分類(lèi)可以基于很多指標,下面我們一一介紹:
  推薦引擎是否為不同的用戶(hù)推薦不同的數據?
  根據該指標,推薦引擎可分為基于流行行為的推薦引擎和個(gè)性化推薦引擎
  這是推薦引擎最基本的分類(lèi)。事實(shí)上,人們討論的大多數推薦引擎都是個(gè)性化推薦引擎,因為從根本上講,只有個(gè)性化推薦引擎才是更智能的信息發(fā)現過(guò)程。 .
  根據推薦引擎的數據來(lái)源
  其實(shí)這里就是如何發(fā)現數據的相關(guān)性,因為大部分推薦引擎都是基于相似的物品集或者用戶(hù)推薦的。然后參考圖1給出的推薦系統示意圖,根據不同的數據源發(fā)現數據相關(guān)性的方法可以分為以下幾種:
  根據推薦模型的建立
  可以想象,在一個(gè)擁有大量物品和用戶(hù)的系統中,推薦引擎的計算量是相當大的。為了實(shí)現實(shí)時(shí)推薦,必須建立推薦模型。推薦模型的建立可以分為以下幾種:
  事實(shí)上,在目前的推薦系統中,很少有推薦引擎只使用一種推薦策略。一般在不同的場(chǎng)景下使用不同的推薦策略來(lái)達到最好的推薦效果,比如亞馬遜的推薦。它根據用戶(hù)自身的歷史購買(mǎi)數據進(jìn)行推薦,根據用戶(hù)當前瀏覽過(guò)的商品進(jìn)行推薦,根據流行偏好將當前熱門(mén)商品推薦給不同地區的用戶(hù),讓用戶(hù)可以從全方位的推薦中找到適合的商品你真的很感興趣。
  深度推薦機制
  本章的篇幅將詳細介紹每種推薦機制的工作原理、優(yōu)缺點(diǎn)和應用場(chǎng)景。
  基于人口統計的推薦
  基于人口統計的推薦是最容易實(shí)施的推薦方法。它只是根據系統用戶(hù)的基本信息發(fā)現用戶(hù)的相關(guān)性,然后將類(lèi)似用戶(hù)喜歡的其他物品推薦給當前用戶(hù)。圖 2 顯示了此建議的工作原理。
  圖2.基于人口統計的推薦機制的工作原理
  
  從圖中可以清楚地看出,首先,系統對每個(gè)用戶(hù)都有一個(gè)用戶(hù)畫(huà)像建模,其中包括用戶(hù)的基本信息,比如用戶(hù)的年齡、性別等;用戶(hù)畫(huà)像計算用戶(hù)的相似度,可以看到用戶(hù)A的畫(huà)像和用戶(hù)C是一樣的,那么系統就會(huì )認為用戶(hù)A和C是相似的用戶(hù)。在推薦引擎中,他們可以稱(chēng)為“鄰居”;最后,根據“鄰居”用戶(hù)組的偏好,向當前用戶(hù)推薦一些物品,圖中將用戶(hù)A喜歡的物品A推薦給用戶(hù)C。
  這種基于人口統計的推薦機制的好處是:
  因為沒(méi)有使用當前用戶(hù)對物品的偏好歷史數據,所以不存在新用戶(hù)的“冷啟動(dòng)”問(wèn)題。該方法不依賴(lài)于item本身的數據,因此該方法可以用于不同item的域中,并且是域無(wú)關(guān)的。
  那么這種方法有什么缺點(diǎn)和問(wèn)題呢?這種根據用戶(hù)的基本信息對用戶(hù)進(jìn)行分類(lèi)的方法過(guò)于粗糙,尤其是在書(shū)籍、電影、音樂(lè )等對品味要求較高的領(lǐng)域,無(wú)法獲得很好的推薦效果。也許在一些電商網(wǎng)站,這個(gè)方法可以給出一些簡(jiǎn)單的建議。另一個(gè)限制是,這種方法可能涉及到一些與信息發(fā)現問(wèn)題本身無(wú)關(guān)的敏感信息,例如用戶(hù)的年齡等,這些用戶(hù)信息不是很容易獲取。
  基于內容的推薦
  基于內容的推薦是推薦引擎出現之初使用最廣泛的推薦機制。其核心思想是根據推薦的物品或內容的元數據發(fā)現物品或內容的相關(guān)性,然后根據用戶(hù)過(guò)去的喜好進(jìn)行記錄,向用戶(hù)推薦相似的物品。圖3展示了基于內容推薦的基本原理。
  圖3.基于內容推薦機制的基本原理
  
  基于內容的推薦的典型示例如圖 3 所示。在電影推薦系統中,首先我們需要對電影的元數據進(jìn)行建模。這里我們只簡(jiǎn)單描述電影的類(lèi)型;元數據發(fā)現電影之間的相似性,因為類(lèi)型都是“愛(ài)情、浪漫”。電影A和C被認為是相似的電影(當然,獲得更好的推薦還不夠,我們也可以考慮電影導演、演員等);最后,建議實(shí)現。對于用戶(hù)A,他喜歡看電影A,那么系統可以向他推薦類(lèi)似的電影C。
  這種基于內容的推薦機制的優(yōu)勢在于它可以很好地模擬用戶(hù)的口味并提供更準確的推薦。但它也存在以下問(wèn)題:
  文章需要分析建模,推薦質(zhì)量取決于文章模型的完整性和綜合性。在目前的應用中,我們可以觀(guān)察到關(guān)鍵詞和標簽(Tag)被認為是一種簡(jiǎn)單有效的描述item元數據的方式。物品相似度的分析只依賴(lài)物品本身的特征,這里不考慮人們對物品的態(tài)度。由于需要根據用戶(hù)過(guò)去的偏好歷史進(jìn)行推薦,因此新用戶(hù)存在“冷啟動(dòng)”問(wèn)題。
  雖然這種方法有很多缺點(diǎn)和問(wèn)題,但它已經(jīng)成功地應用于一些電影、音樂(lè )和書(shū)籍的社交網(wǎng)站。有的網(wǎng)站還請專(zhuān)業(yè)人士對項目進(jìn)行基因編碼,比如Pandora,在一份報告中說(shuō),在Pandora的推薦引擎中,每首歌曲都有100多個(gè)元數據特征,包括歌曲風(fēng)格、年份、歌手等。
  基于協(xié)同過(guò)濾的推薦
  隨著(zhù)Web2.0的發(fā)展,網(wǎng)站促進(jìn)了用戶(hù)參與和用戶(hù)貢獻。因此,基于協(xié)同過(guò)濾的推薦機制應運而生。它的原理很簡(jiǎn)單,就是根據用戶(hù)對物品或信息的偏好,找到物品或內容本身的相關(guān)性,或者找到用戶(hù)的相關(guān)性,然后根據這些相關(guān)性進(jìn)行推薦?;趨f(xié)同過(guò)濾的推薦可以分為三個(gè)子類(lèi)別:基于用戶(hù)的推薦、基于物品的推薦和基于模型的推薦。下面我們將一一詳細介紹三種協(xié)同過(guò)濾推薦機制。
  基于用戶(hù)的協(xié)同過(guò)濾推薦
  基于用戶(hù)的協(xié)同過(guò)濾推薦的基本原理是根據所有用戶(hù)對物品或信息的偏好,發(fā)現一組與當前用戶(hù)的口味和偏好相似的“鄰居”。一般應用中,計算“K-Neighbors”算法;然后,根據這K個(gè)鄰居的歷史偏好信息,為當前用戶(hù)做出推薦。下圖4為示意圖。
  圖4.基于用戶(hù)的協(xié)同過(guò)濾推薦機制基本原理
  
  上圖說(shuō)明了基于用戶(hù)的協(xié)同過(guò)濾推薦機制的基本原理。假設用戶(hù)A喜歡物品A,物品C,用戶(hù)B喜歡物品B,用戶(hù)C喜歡物品A,物品C和物品D;從這些用戶(hù)的歷史偏好信息中,我們可以發(fā)現用戶(hù)A和用戶(hù)C的品味和偏好比較相似,并且用戶(hù)C也喜歡項目D,那么我們可以推斷用戶(hù)A可能也喜歡項目D,所以項目D可以推薦給用戶(hù)A。
  基于用戶(hù)的協(xié)同過(guò)濾推薦機制和基于人口統計的推薦機制都計算用戶(hù)的相似度,也計算基于“鄰居”用戶(hù)群的推薦,但兩者的區別在于如何計算用戶(hù)的相似度,基于人口統計機制只考慮用戶(hù)的特征,而基于用戶(hù)的協(xié)同過(guò)濾機制根據用戶(hù)的歷史偏好數據計算用戶(hù)的相似度。它的基本假設是喜歡相似物品的用戶(hù)可能相同或相似??谖逗推?。
  基于項目的協(xié)同過(guò)濾推薦
  基于物品的協(xié)同過(guò)濾推薦的基本原理也類(lèi)似,只不過(guò)是利用所有用戶(hù)對物品或信息的偏好來(lái)尋找物品與物品之間的相似度,然后根據用戶(hù)的歷史偏好信息,得出相似的向用戶(hù)推薦項目。圖 5 說(shuō)明了其基本原理。
  假設用戶(hù)A喜歡物品A和物品C,用戶(hù)B喜歡物品A、物品B和物品C,用戶(hù)C喜歡物品A,從這些用戶(hù)的歷史偏好可以分析出物品A和物品C 相似。喜歡物品A的人喜歡物品C。根據這個(gè)數據可以推斷用戶(hù)C很可能也喜歡物品C,所以系統會(huì )向用戶(hù)C推薦物品C。
  與上面類(lèi)似,基于項目的協(xié)同過(guò)濾推薦和基于內容的推薦實(shí)際上都是基于項目相似度預測推薦,只是相似度計算方法不同。前者是從用戶(hù)的歷史偏好中推斷出來(lái)的,而后者則是基于物品本身的屬性特征信息。
  圖5.基于項目的協(xié)同過(guò)濾推薦機制基本原理
  
  同時(shí)協(xié)同過(guò)濾,基于用戶(hù)和基于項目的策略我們應該如何選擇?實(shí)際上,基于物品的協(xié)同過(guò)濾推薦機制是亞馬遜在基于用戶(hù)的機制上改進(jìn)的一種策略,因為在大多數網(wǎng)站中,物品的數量遠小于用戶(hù)的數量,物品的數量是相似度比較穩定,基于項目的機制比基于用戶(hù)的實(shí)時(shí)性能要好。但并非在所有場(chǎng)景中都是如此??梢韵胂?,在一些新聞推薦系統中,也許items的數量,即新聞的數量可能大于用戶(hù)的數量,而且新聞更新的程度也很快,所以它的相似度還是有的不穩定。因此,其實(shí)可以看出,推薦策略的選擇與具體的應用場(chǎng)景有很大關(guān)系。
  基于模型的協(xié)同過(guò)濾推薦
  基于模型的協(xié)同過(guò)濾推薦是基于基于樣本的用戶(hù)偏好信息,訓練推薦模型,然后根據實(shí)時(shí)用戶(hù)偏好信息預測和計算推薦。
  基于協(xié)同過(guò)濾的推薦機制是當今應用最廣泛的推薦機制。它具有以下顯著(zhù)優(yōu)勢:
  它不需要對對象或用戶(hù)進(jìn)行嚴格的建模,也不需要對對象的描述是機器可理解的,所以這種方法也是領(lǐng)域無(wú)關(guān)的。這種方法計算出來(lái)的推薦是公開(kāi)的,可以分享他人的經(jīng)驗,很好的支持用戶(hù)發(fā)現潛在的興趣和偏好
  而且它還存在以下問(wèn)題:
  該方法的核心是基于歷史數據,因此對于新項目和新用戶(hù)存在“冷啟動(dòng)”問(wèn)題。推薦的效果取決于用戶(hù)歷史偏好數據的數量和準確性。在大多數實(shí)現中,用戶(hù)的歷史偏好存儲在一個(gè)稀疏矩陣中,在稀疏矩陣上的計算存在一些明顯的問(wèn)題,包括少數人的錯誤偏好可能會(huì )對計算的準確性產(chǎn)生很大影響。推薦等。對于一些有特殊品味的用戶(hù),我們無(wú)法給出好的建議?;跉v史數據,在對用戶(hù)偏好進(jìn)行捕獲和建模后,很難根據用戶(hù)的使用情況進(jìn)行修改或進(jìn)化,這使得該方法不夠靈活。
  混合推薦機制
  當前網(wǎng)站上的推薦往往不是簡(jiǎn)單地使用某種推薦機制和策略。他們經(jīng)?;旌隙喾N方法來(lái)獲得更好的推薦結果。關(guān)于如何組合各種推薦機制,這里介紹幾種比較流行的組合方式。
  Weighted Hybridization:使用一個(gè)線(xiàn)性公式,根據一定的權重組合幾個(gè)不同的推薦。具體的權重值需要在測試數據集上反復測試才能達到最佳推薦效果。 Switching Hybridization:前面說(shuō)過(guò),其實(shí)對于不同的情況(數據量、系統運行狀態(tài)、用戶(hù)和物品數量等),推薦策略可能會(huì )有很大的不同,所以切換Hybridization的方式是允許選擇的最適合的推薦機制來(lái)計算不同情況下的推薦。 Mixed Hybridization:采用多種推薦機制,向不同區域的用戶(hù)展示不同的推薦結果。事實(shí)上,亞馬遜、當當等眾多電商網(wǎng)站都采用了這種方式,用戶(hù)可以獲得全面的推薦,也更容易找到自己想要的東西。 Meta-Level Hybridization:采用多種推薦機制,將一種推薦機制的結果作為另一種推薦機制的輸入,綜合各推薦機制的優(yōu)缺點(diǎn),獲得更精準的推薦。
  推薦引擎的應用
  在介紹了推薦引擎的基本原理和基本推薦機制后,下面簡(jiǎn)要分析幾個(gè)有代表性的推薦引擎的應用。這里我們選擇兩個(gè)領(lǐng)域:以亞馬遜為代表的電子商務(wù)和以豆瓣為代表的社交網(wǎng)絡(luò )。
  電子商務(wù)中的推薦應用-亞馬遜
  亞馬遜作為推薦引擎的鼻祖,將推薦的思想滲透到了應用的每一個(gè)角落。亞馬遜推薦的核心是通過(guò)數據挖掘算法將用戶(hù)的消費偏好與其他用戶(hù)進(jìn)行比較,從而預測用戶(hù)可能感興趣的產(chǎn)品。 對應上面介紹的各種推薦機制,亞馬遜采用分區混合機制,展示給不同領(lǐng)域的用戶(hù)不同的推薦結果。圖 6 和圖 7 顯示了用戶(hù)可以在亞馬遜上獲得的推薦。
  圖6.亞馬遜的推薦機制-首頁(yè)
  圖7.亞馬遜的推薦機制-瀏覽商品
  
  亞馬遜利用網(wǎng)站上所有可以記錄的用戶(hù)行為,根據不同數據的特點(diǎn)進(jìn)行處理,劃分不同區域為用戶(hù)推送推薦:
  值得一提的是,亞馬遜在做推薦的時(shí)候,設計和用戶(hù)體驗也很獨特:
  亞馬遜利用其大量歷史數據來(lái)量化推薦原因。
  此外,亞馬遜的很多推薦都是根據用戶(hù)的個(gè)人資料計算出來(lái)的。用戶(hù)個(gè)人資料記錄了用戶(hù)在亞馬遜上的行為,包括瀏覽過(guò)的商品、購買(mǎi)過(guò)的商品、采集中的商品和心愿單等。當然,亞馬遜還集成了評分等其他用戶(hù)反饋方式,這些都是用戶(hù)反饋的一部分。輪廓。同時(shí),亞馬遜提供了允許用戶(hù)管理自己的個(gè)人資料的功能。這樣,用戶(hù)可以更清楚地告訴推薦引擎他的品味和意圖是什么。
  社交網(wǎng)站-豆瓣推薦應用
  豆瓣是中國相對成功的社交網(wǎng)絡(luò )網(wǎng)站。形成以圖書(shū)、電影、音樂(lè )、同城活動(dòng)為中心的多元化社交網(wǎng)絡(luò )平臺。自然推薦的功能必不可少。下面我們看看豆瓣是如何推薦的。
  圖8.豆瓣的推薦機制-豆瓣電影
  
  當你在豆瓣電影中加入一些你看過(guò)或者感興趣的電影到你看過(guò)想看的列表中,并給它們相應的評分,那么豆瓣的推薦引擎就已經(jīng)給你一些偏好信息了,那么它將顯示如圖 8 所示的電影推薦。
  圖 9. 豆瓣推薦機制——基于用戶(hù)品味的推薦
  
  豆瓣的推薦是通過(guò)“豆瓣猜”。為了讓用戶(hù)知道這些推薦是怎么來(lái)的,豆瓣還簡(jiǎn)單介紹了“豆瓣猜”。
  “您的個(gè)人推薦是根據您的采集和評論自動(dòng)得出的。每個(gè)人的推薦列表都不一樣。您的采集和評論越多,豆瓣的推薦就越準確和豐富。
  每天推薦的內容可能會(huì )發(fā)生變化。隨著(zhù)豆瓣的成長(cháng),推薦給你的內容會(huì )越來(lái)越精準。 "
  這點(diǎn)讓我們清楚的知道豆瓣一定是基于社交協(xié)同過(guò)濾的推薦。這樣,用戶(hù)越多,用戶(hù)反饋越多,推薦效果就會(huì )越準確。
  相比亞馬遜的用戶(hù)行為模型,豆瓣電影的模型更簡(jiǎn)單,即“看過(guò)”和“想看”,這也使得他們的推薦更注重用戶(hù)的口味,畢竟買(mǎi)東西的動(dòng)機和看電影還是有很大區別的。
  此外,豆瓣也有基于物品本身的推薦。當你查看一些電影的詳細信息時(shí),他會(huì )向你推薦“喜歡這部電影的人也喜歡的電影”,如圖10所示,基于協(xié)同過(guò)濾應用。
  圖10.豆瓣的推薦機制——基于電影本身的推薦
  
  總結
  在網(wǎng)絡(luò )數據爆炸的時(shí)代,如何讓用戶(hù)更快地找到自己想要的數據,如何讓用戶(hù)發(fā)現自己潛在的興趣和需求,對于電子商務(wù)和社交網(wǎng)絡(luò )應用來(lái)說(shuō)都非常重要。隨著(zhù)推薦引擎的出現,這個(gè)問(wèn)題越來(lái)越受到關(guān)注。但是對于大多數人來(lái)說(shuō),可能還在疑惑為什么它總能猜出你想要什么。推薦引擎的神奇之處在于,您不知道引擎在此推薦背后記錄和推斷的內容。
  通過(guò)這篇評論文章,你可以了解到推薦引擎其實(shí)只是在默默的記錄和觀(guān)察你的一舉一動(dòng),然后利用所有用戶(hù)產(chǎn)生的海量數據去分析發(fā)現規律,然后慢慢慢慢了解你,你的需求,你的習慣,默默地幫你快速解決問(wèn)題,找到你想要的。
  實(shí)際上,回過(guò)頭來(lái)看,很多時(shí)候,推薦引擎比你更了解你自己。
  通過(guò)第一篇文章,相信大家對推薦引擎有了清晰的第一印象。本系列下一篇文章將深入介紹基于協(xié)同過(guò)濾的推薦策略。在目前的推薦技術(shù)和算法中,被廣泛認可和采用的方法是基于協(xié)同過(guò)濾的推薦方法。以其簡(jiǎn)單的方法模型、低數據依賴(lài)、便捷的數據采集、優(yōu)越的推薦效果,成為大眾眼中的“No.1”推薦算法。本文將帶你深入了解協(xié)同過(guò)濾的奧秘,并給出基于A(yíng)pache Mahout的協(xié)同過(guò)濾算法的高效實(shí)現。 Apache Mahout 是 ASF 的一個(gè)相對較新的開(kāi)源項目。它源自L(fǎng)ucene,建立在Hadoop之上,專(zhuān)注于經(jīng)典機器學(xué)習算法在海量數據上的高效實(shí)現。
  原文鏈接為:@126/blog/static/24269713813/
  轉載于:

如何升級頁(yè)面優(yōu)化以匹配搜索引擎的技術(shù)呢?(圖)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 88 次瀏覽 ? 2021-07-20 02:13 ? 來(lái)自相關(guān)話(huà)題

  如何升級頁(yè)面優(yōu)化以匹配搜索引擎的技術(shù)呢?(圖)
  過(guò)去幾年,搜索引擎工程團隊專(zhuān)注于自然語(yǔ)言處理,對頁(yè)面內容之間的相互關(guān)系有了更深入的了解。神經(jīng)匹配幫助搜索引擎理解同義詞,人工智能幫助搜索引擎理解那些棘手的詞句。
  每次核心更新后,搜索引擎的文學(xué)水平都會(huì )提升。然而,盡管搜索引擎越來(lái)越智能,但許多網(wǎng)站所有者在優(yōu)化網(wǎng)站時(shí)仍然只考慮少數關(guān)鍵詞目標。
  這是一種過(guò)時(shí)的做法,尤其是當我們知道著(zhù)陸頁(yè)通常以數百個(gè)關(guān)鍵詞 排名結束時(shí)。對于自搜索引擎成立以來(lái)一直關(guān)注的我們來(lái)說(shuō),這對于頁(yè)面搜索引擎優(yōu)化來(lái)說(shuō)就像一個(gè)美麗的新世界。
  隨著(zhù)搜索引擎的 NLP(自然語(yǔ)言處理)能力不斷提高,我們的頁(yè)面 SEO 策略也需要制定以反映搜索中的這些進(jìn)步。
  那么,我們如何升級頁(yè)面優(yōu)化以匹配搜索引擎技術(shù)? 關(guān)鍵詞集群就是答案。
  什么是關(guān)鍵詞cluster?
  關(guān)鍵詞群是一個(gè)關(guān)鍵詞群組,代表具有相似購買(mǎi)意向的搜索者。比如“亞麻窗簾”、“亞麻窗簾”、“亞麻窗簾布”和“白色亞麻窗簾”是不同的關(guān)鍵詞詞組,但都代表著(zhù)想要購買(mǎi)亞麻窗簾的搜索者。
  假設您的品牌銷(xiāo)售亞麻窗簾。如果你只嘗試排名第一關(guān)鍵詞,你最終會(huì )限制你的市場(chǎng)份額。
  如果你得到了你的主要關(guān)鍵詞、長(cháng)尾變體和相關(guān)的副主題,你的頁(yè)面最終排名將是關(guān)鍵詞數量的10-20倍,并獲得更多的點(diǎn)擊。
  如何創(chuàng )建關(guān)鍵詞和主題集群
  為了充分利用關(guān)鍵詞集群的功能,需要注意的是,這種策略比一勞永逸的網(wǎng)站優(yōu)化方法需要更多的時(shí)間和資源。
  這需要您的 SEO 和營(yíng)銷(xiāo)團隊進(jìn)行更多 關(guān)鍵詞 研究、更多內容創(chuàng )建和更多工作。
  但最終,在你的網(wǎng)站上設置主題集群會(huì )讓搜索引擎和用戶(hù)更加友好。 關(guān)鍵詞cluster 的好處包括:
  Longtail 關(guān)鍵詞 排名靠前。改進(jìn)了短尾關(guān)鍵詞 的排名。更高的有機流量。更快地提高 SERP 中的排名。內部鏈接的機會(huì )更多。在您的行業(yè)環(huán)境中建立專(zhuān)業(yè)知識和內容權威。這是關(guān)于如何做關(guān)鍵詞集群以及如何圍繞這些集群構建內容策略的簡(jiǎn)要說(shuō)明。
  第一步:創(chuàng )建關(guān)鍵詞list
  關(guān)鍵詞cluster 從關(guān)鍵詞 研究開(kāi)始。想想你想為網(wǎng)站 排名的主要關(guān)鍵詞。
  然后,確定搜索者正在使用的此關(guān)鍵詞 的所有變體、長(cháng)尾短語(yǔ)和子主題。
  首先,讓您的競爭對手了解他們目前為哪個(gè) 關(guān)鍵詞 排名。
  然后,使用關(guān)鍵詞 工具查找相關(guān)的關(guān)鍵詞、自動(dòng)??填充、子主題或搜索者以查找有關(guān)您的產(chǎn)品和服務(wù)的問(wèn)題。
  記錄關(guān)鍵詞研究的方式有很多種,但最簡(jiǎn)單的方法是使用5118關(guān)鍵詞挖礦工具導出對應的關(guān)鍵詞列表。確保在列表中收錄關(guān)鍵詞 的自然難度、搜索量和每次點(diǎn)擊費用指標。
  這些指標將幫助您確定哪些關(guān)鍵詞 具有最高的經(jīng)濟價(jià)值,應該用作集群中的“核心”關(guān)鍵詞。
  一些 SEO 專(zhuān)業(yè)人士在他們的研究中確定了數千個(gè) 關(guān)鍵詞。如果您剛剛開(kāi)始使用此策略,那么一百個(gè)關(guān)鍵詞phrases 可能足以識別可以在您的網(wǎng)站 上建立的幾個(gè)不同的主題集群。
  在生成關(guān)鍵詞lists 時(shí),請記住相關(guān)性和搜索意圖的重要性。您只想加入關(guān)鍵詞,為您的網(wǎng)站 帶來(lái)合適的搜索者,他們實(shí)際上對您提供的產(chǎn)品或服務(wù)感興趣并且可能會(huì )轉化。
  第 2 步:將關(guān)鍵詞 分組
  一旦你有一個(gè)廣泛的關(guān)鍵詞列表,你就會(huì )開(kāi)始注意到關(guān)鍵詞中的模式。
  您可能會(huì )注意到,用戶(hù)在其搜索查詢(xún)中收錄相同的字詞、短語(yǔ)、同義詞或副主題。這些模式代表了您可以聚集和形成關(guān)鍵詞 組的潛在方式。
  這是將這些關(guān)鍵詞劃分為多個(gè)集群時(shí)應該使用的條件。
  語(yǔ)義相關(guān)性
  集群中的關(guān)鍵詞 具有相似的搜索意圖很重要。
  如果您嘗試為不太相似的關(guān)鍵詞 優(yōu)化著(zhù)陸頁(yè),則會(huì )降低內容的可讀性,并使搜索引擎對您的頁(yè)面的真正含義感到困惑。
  搜索量和每次點(diǎn)擊費用
  集群中的核心關(guān)鍵詞應該有合理的搜索量(否則你會(huì )為任何人優(yōu)化)。
  他們還應該具有轉化潛力(每次點(diǎn)擊費用代表他們的經(jīng)濟價(jià)值)。
  有機困難
  是否收錄更難的關(guān)鍵詞取決于您的網(wǎng)站權限、反向鏈接配置文件以及網(wǎng)站的建立方式。
  在您的集群中僅收錄可以對其站點(diǎn)進(jìn)行排名的關(guān)鍵詞。
  仔細研究?jì)蓚€(gè)關(guān)鍵詞群
  找到集群的核心關(guān)鍵詞后,將其與互補的關(guān)鍵詞配對。
  例如,您可以添加一些長(cháng)尾、降低難度或降低搜索量,或者只是在著(zhù)陸頁(yè)上收錄有關(guān)它們的足夠信息以輕松獲勝。
  為什么這些關(guān)鍵詞可以組成一個(gè)好的集群?因為它們共享語(yǔ)義相關(guān)性。這些搜索者都在尋找有助于安排采訪(fǎng)的產(chǎn)品。
  我們的核心關(guān)鍵詞在排名方面更具競爭力,但我們用關(guān)鍵詞填充了集群,難度較低且轉化潛力強。
  如果您對自己的細分市場(chǎng)充滿(mǎn)信心并了解關(guān)鍵詞 指標和搜索意圖的細微差別,您可以手動(dòng)將關(guān)鍵詞 分成幾個(gè)組(如我們上面所述)。
  還有一些關(guān)鍵詞grouping 工具可以自動(dòng)化這個(gè)過(guò)程。他們可以為您將關(guān)鍵詞 細分為多個(gè)類(lèi)別。
  細分時(shí),請記住并非所有列表中的關(guān)鍵詞都需要以集群結束。
  收錄最高值的關(guān)鍵詞是最重要的關(guān)鍵詞。更高的每次點(diǎn)擊費用、更高的搜索量和相關(guān)的搜索意圖使 關(guān)鍵詞 對您的品牌有價(jià)值。
  第 3 步:為您的 關(guān)鍵詞 集群創(chuàng )建和優(yōu)化支柱頁(yè)面
  關(guān)鍵詞 分組后,他們提供了如何在網(wǎng)站 上創(chuàng )建、優(yōu)化和組織內容的路線(xiàn)圖。
  本質(zhì)上,你的關(guān)鍵詞群代表你的網(wǎng)站核心主題。這些也稱(chēng)為“支柱頁(yè)面”。
  為了正確執行關(guān)鍵詞集群,我們需要為每個(gè)關(guān)鍵詞集群創(chuàng )建一個(gè)目標頁(yè)面。
  關(guān)鍵詞群的支柱頁(yè)面應該使用正式的現場(chǎng)搜索引擎優(yōu)化技術(shù)。我們最喜歡的策略之一是使用內容優(yōu)化工具來(lái)幫助您更有效地優(yōu)化內容。
  為了提高支柱頁(yè)面的排名潛力,請優(yōu)先考慮以下幾個(gè)方面:
  主題深度:專(zhuān)注于撰寫(xiě)深入探索主題的長(cháng)篇內容。信息架構:具有清晰的結構,并在 h2 和 h3 中收錄您的 關(guān)鍵詞phrase。頁(yè)面體驗:在交互頁(yè)面添加視頻、跳轉鏈接、輪播等元素,提升用戶(hù)的頁(yè)面體驗。第四步:通過(guò)網(wǎng)站content 增強關(guān)鍵詞cluster
  為了提高支柱頁(yè)面的排名和內容權重,您可以構建內容以增強您的主要關(guān)鍵詞 集群。
  這些文章可以定位與你的核心關(guān)鍵詞相關(guān)的長(cháng)尾關(guān)鍵詞短語(yǔ)、副主題或問(wèn)題。
  隨著(zhù)您開(kāi)發(fā)更多內容,這些頁(yè)面將在您的網(wǎng)站 上形成“主題集群”。
  此內容的內部鏈接系統將在您的網(wǎng)站 著(zhù)陸頁(yè)在搜索引擎中的排名中發(fā)揮重要作用。
  您的文章 應該鏈接回其相應的支柱頁(yè)面,以增加您在這些高價(jià)值關(guān)鍵詞 上排名的機會(huì )。
  如果你的公司有多個(gè)產(chǎn)品或專(zhuān)業(yè)領(lǐng)域,你可以在網(wǎng)站上搭建更多的集群。
  如果你只銷(xiāo)售一種核心產(chǎn)品或服務(wù),你識別的關(guān)鍵詞集群數量會(huì )減少。但是,探索具有豐富有用內容的主要學(xué)科領(lǐng)域可以幫助您在更短的時(shí)間內超越競爭對手。
  建立集群還可以為您提供更多的機會(huì )添加內部鏈接到網(wǎng)站。
  這不僅增加了用戶(hù)在您的網(wǎng)站 上花費的時(shí)間,而且內部鏈接遍布您的網(wǎng)站 并幫助搜索引擎了解您在網(wǎng)站 上最重要的頁(yè)面。
  關(guān)鍵詞group 真的值得所有的工作嗎?
  關(guān)鍵詞群 是一種更高級的 SEO 策略,可以為您提供在垂直競爭中獲勝所需的優(yōu)勢。這是因為它們響應了搜索引擎的兩大超級功能:自然語(yǔ)言處理和無(wú)與倫比的索引。
  想想看,搜索引擎了解各行各業(yè)的搜索者使用的數百萬(wàn)個(gè)關(guān)鍵詞phrases。它還了解這些查詢(xún)之間的細微差別,以及它們的相互關(guān)系或相互關(guān)系。
  搜索引擎花了數年時(shí)間訓練他們的 NLP(自然語(yǔ)言處理)模型來(lái)計算內容質(zhì)量信號并預測哪些網(wǎng)頁(yè)最能向搜索者提供他們需要的信息。當你在落地頁(yè)進(jìn)行關(guān)鍵詞聚類(lèi),你會(huì )向搜索引擎證明你的網(wǎng)站是你所在行業(yè)的權威,展示強大的內容范圍和深度。
  您還可以通過(guò)豐富的內容集群提供搜索引擎的內容信號,這些集群已經(jīng)過(guò)訓練以識別和改進(jìn)搜索結果。 關(guān)鍵詞集群需要網(wǎng)站站長(cháng)多思考自己的內容,這也是SEO的未來(lái)。
  如果您希望您的網(wǎng)頁(yè)長(cháng)期排名,是時(shí)候讓您的網(wǎng)頁(yè)策略趕上搜索引擎了。 查看全部

  如何升級頁(yè)面優(yōu)化以匹配搜索引擎的技術(shù)呢?(圖)
  過(guò)去幾年,搜索引擎工程團隊專(zhuān)注于自然語(yǔ)言處理,對頁(yè)面內容之間的相互關(guān)系有了更深入的了解。神經(jīng)匹配幫助搜索引擎理解同義詞,人工智能幫助搜索引擎理解那些棘手的詞句。
  每次核心更新后,搜索引擎的文學(xué)水平都會(huì )提升。然而,盡管搜索引擎越來(lái)越智能,但許多網(wǎng)站所有者在優(yōu)化網(wǎng)站時(shí)仍然只考慮少數關(guān)鍵詞目標。
  這是一種過(guò)時(shí)的做法,尤其是當我們知道著(zhù)陸頁(yè)通常以數百個(gè)關(guān)鍵詞 排名結束時(shí)。對于自搜索引擎成立以來(lái)一直關(guān)注的我們來(lái)說(shuō),這對于頁(yè)面搜索引擎優(yōu)化來(lái)說(shuō)就像一個(gè)美麗的新世界。
  隨著(zhù)搜索引擎的 NLP(自然語(yǔ)言處理)能力不斷提高,我們的頁(yè)面 SEO 策略也需要制定以反映搜索中的這些進(jìn)步。
  那么,我們如何升級頁(yè)面優(yōu)化以匹配搜索引擎技術(shù)? 關(guān)鍵詞集群就是答案。
  什么是關(guān)鍵詞cluster?
  關(guān)鍵詞群是一個(gè)關(guān)鍵詞群組,代表具有相似購買(mǎi)意向的搜索者。比如“亞麻窗簾”、“亞麻窗簾”、“亞麻窗簾布”和“白色亞麻窗簾”是不同的關(guān)鍵詞詞組,但都代表著(zhù)想要購買(mǎi)亞麻窗簾的搜索者。
  假設您的品牌銷(xiāo)售亞麻窗簾。如果你只嘗試排名第一關(guān)鍵詞,你最終會(huì )限制你的市場(chǎng)份額。
  如果你得到了你的主要關(guān)鍵詞、長(cháng)尾變體和相關(guān)的副主題,你的頁(yè)面最終排名將是關(guān)鍵詞數量的10-20倍,并獲得更多的點(diǎn)擊。
  如何創(chuàng )建關(guān)鍵詞和主題集群
  為了充分利用關(guān)鍵詞集群的功能,需要注意的是,這種策略比一勞永逸的網(wǎng)站優(yōu)化方法需要更多的時(shí)間和資源。
  這需要您的 SEO 和營(yíng)銷(xiāo)團隊進(jìn)行更多 關(guān)鍵詞 研究、更多內容創(chuàng )建和更多工作。
  但最終,在你的網(wǎng)站上設置主題集群會(huì )讓搜索引擎和用戶(hù)更加友好。 關(guān)鍵詞cluster 的好處包括:
  Longtail 關(guān)鍵詞 排名靠前。改進(jìn)了短尾關(guān)鍵詞 的排名。更高的有機流量。更快地提高 SERP 中的排名。內部鏈接的機會(huì )更多。在您的行業(yè)環(huán)境中建立專(zhuān)業(yè)知識和內容權威。這是關(guān)于如何做關(guān)鍵詞集群以及如何圍繞這些集群構建內容策略的簡(jiǎn)要說(shuō)明。
  第一步:創(chuàng )建關(guān)鍵詞list
  關(guān)鍵詞cluster 從關(guān)鍵詞 研究開(kāi)始。想想你想為網(wǎng)站 排名的主要關(guān)鍵詞。
  然后,確定搜索者正在使用的此關(guān)鍵詞 的所有變體、長(cháng)尾短語(yǔ)和子主題。
  首先,讓您的競爭對手了解他們目前為哪個(gè) 關(guān)鍵詞 排名。
  然后,使用關(guān)鍵詞 工具查找相關(guān)的關(guān)鍵詞、自動(dòng)??填充、子主題或搜索者以查找有關(guān)您的產(chǎn)品和服務(wù)的問(wèn)題。
  記錄關(guān)鍵詞研究的方式有很多種,但最簡(jiǎn)單的方法是使用5118關(guān)鍵詞挖礦工具導出對應的關(guān)鍵詞列表。確保在列表中收錄關(guān)鍵詞 的自然難度、搜索量和每次點(diǎn)擊費用指標。
  這些指標將幫助您確定哪些關(guān)鍵詞 具有最高的經(jīng)濟價(jià)值,應該用作集群中的“核心”關(guān)鍵詞。
  一些 SEO 專(zhuān)業(yè)人士在他們的研究中確定了數千個(gè) 關(guān)鍵詞。如果您剛剛開(kāi)始使用此策略,那么一百個(gè)關(guān)鍵詞phrases 可能足以識別可以在您的網(wǎng)站 上建立的幾個(gè)不同的主題集群。
  在生成關(guān)鍵詞lists 時(shí),請記住相關(guān)性和搜索意圖的重要性。您只想加入關(guān)鍵詞,為您的網(wǎng)站 帶來(lái)合適的搜索者,他們實(shí)際上對您提供的產(chǎn)品或服務(wù)感興趣并且可能會(huì )轉化。
  第 2 步:將關(guān)鍵詞 分組
  一旦你有一個(gè)廣泛的關(guān)鍵詞列表,你就會(huì )開(kāi)始注意到關(guān)鍵詞中的模式。
  您可能會(huì )注意到,用戶(hù)在其搜索查詢(xún)中收錄相同的字詞、短語(yǔ)、同義詞或副主題。這些模式代表了您可以聚集和形成關(guān)鍵詞 組的潛在方式。
  這是將這些關(guān)鍵詞劃分為多個(gè)集群時(shí)應該使用的條件。
  語(yǔ)義相關(guān)性
  集群中的關(guān)鍵詞 具有相似的搜索意圖很重要。
  如果您嘗試為不太相似的關(guān)鍵詞 優(yōu)化著(zhù)陸頁(yè),則會(huì )降低內容的可讀性,并使搜索引擎對您的頁(yè)面的真正含義感到困惑。
  搜索量和每次點(diǎn)擊費用
  集群中的核心關(guān)鍵詞應該有合理的搜索量(否則你會(huì )為任何人優(yōu)化)。
  他們還應該具有轉化潛力(每次點(diǎn)擊費用代表他們的經(jīng)濟價(jià)值)。
  有機困難
  是否收錄更難的關(guān)鍵詞取決于您的網(wǎng)站權限、反向鏈接配置文件以及網(wǎng)站的建立方式。
  在您的集群中僅收錄可以對其站點(diǎn)進(jìn)行排名的關(guān)鍵詞。
  仔細研究?jì)蓚€(gè)關(guān)鍵詞群
  找到集群的核心關(guān)鍵詞后,將其與互補的關(guān)鍵詞配對。
  例如,您可以添加一些長(cháng)尾、降低難度或降低搜索量,或者只是在著(zhù)陸頁(yè)上收錄有關(guān)它們的足夠信息以輕松獲勝。
  為什么這些關(guān)鍵詞可以組成一個(gè)好的集群?因為它們共享語(yǔ)義相關(guān)性。這些搜索者都在尋找有助于安排采訪(fǎng)的產(chǎn)品。
  我們的核心關(guān)鍵詞在排名方面更具競爭力,但我們用關(guān)鍵詞填充了集群,難度較低且轉化潛力強。
  如果您對自己的細分市場(chǎng)充滿(mǎn)信心并了解關(guān)鍵詞 指標和搜索意圖的細微差別,您可以手動(dòng)將關(guān)鍵詞 分成幾個(gè)組(如我們上面所述)。
  還有一些關(guān)鍵詞grouping 工具可以自動(dòng)化這個(gè)過(guò)程。他們可以為您將關(guān)鍵詞 細分為多個(gè)類(lèi)別。
  細分時(shí),請記住并非所有列表中的關(guān)鍵詞都需要以集群結束。
  收錄最高值的關(guān)鍵詞是最重要的關(guān)鍵詞。更高的每次點(diǎn)擊費用、更高的搜索量和相關(guān)的搜索意圖使 關(guān)鍵詞 對您的品牌有價(jià)值。
  第 3 步:為您的 關(guān)鍵詞 集群創(chuàng )建和優(yōu)化支柱頁(yè)面
  關(guān)鍵詞 分組后,他們提供了如何在網(wǎng)站 上創(chuàng )建、優(yōu)化和組織內容的路線(xiàn)圖。
  本質(zhì)上,你的關(guān)鍵詞群代表你的網(wǎng)站核心主題。這些也稱(chēng)為“支柱頁(yè)面”。
  為了正確執行關(guān)鍵詞集群,我們需要為每個(gè)關(guān)鍵詞集群創(chuàng )建一個(gè)目標頁(yè)面。
  關(guān)鍵詞群的支柱頁(yè)面應該使用正式的現場(chǎng)搜索引擎優(yōu)化技術(shù)。我們最喜歡的策略之一是使用內容優(yōu)化工具來(lái)幫助您更有效地優(yōu)化內容。
  為了提高支柱頁(yè)面的排名潛力,請優(yōu)先考慮以下幾個(gè)方面:
  主題深度:專(zhuān)注于撰寫(xiě)深入探索主題的長(cháng)篇內容。信息架構:具有清晰的結構,并在 h2 和 h3 中收錄您的 關(guān)鍵詞phrase。頁(yè)面體驗:在交互頁(yè)面添加視頻、跳轉鏈接、輪播等元素,提升用戶(hù)的頁(yè)面體驗。第四步:通過(guò)網(wǎng)站content 增強關(guān)鍵詞cluster
  為了提高支柱頁(yè)面的排名和內容權重,您可以構建內容以增強您的主要關(guān)鍵詞 集群。
  這些文章可以定位與你的核心關(guān)鍵詞相關(guān)的長(cháng)尾關(guān)鍵詞短語(yǔ)、副主題或問(wèn)題。
  隨著(zhù)您開(kāi)發(fā)更多內容,這些頁(yè)面將在您的網(wǎng)站 上形成“主題集群”。
  此內容的內部鏈接系統將在您的網(wǎng)站 著(zhù)陸頁(yè)在搜索引擎中的排名中發(fā)揮重要作用。
  您的文章 應該鏈接回其相應的支柱頁(yè)面,以增加您在這些高價(jià)值關(guān)鍵詞 上排名的機會(huì )。
  如果你的公司有多個(gè)產(chǎn)品或專(zhuān)業(yè)領(lǐng)域,你可以在網(wǎng)站上搭建更多的集群。
  如果你只銷(xiāo)售一種核心產(chǎn)品或服務(wù),你識別的關(guān)鍵詞集群數量會(huì )減少。但是,探索具有豐富有用內容的主要學(xué)科領(lǐng)域可以幫助您在更短的時(shí)間內超越競爭對手。
  建立集群還可以為您提供更多的機會(huì )添加內部鏈接到網(wǎng)站。
  這不僅增加了用戶(hù)在您的網(wǎng)站 上花費的時(shí)間,而且內部鏈接遍布您的網(wǎng)站 并幫助搜索引擎了解您在網(wǎng)站 上最重要的頁(yè)面。
  關(guān)鍵詞group 真的值得所有的工作嗎?
  關(guān)鍵詞群 是一種更高級的 SEO 策略,可以為您提供在垂直競爭中獲勝所需的優(yōu)勢。這是因為它們響應了搜索引擎的兩大超級功能:自然語(yǔ)言處理和無(wú)與倫比的索引。
  想想看,搜索引擎了解各行各業(yè)的搜索者使用的數百萬(wàn)個(gè)關(guān)鍵詞phrases。它還了解這些查詢(xún)之間的細微差別,以及它們的相互關(guān)系或相互關(guān)系。
  搜索引擎花了數年時(shí)間訓練他們的 NLP(自然語(yǔ)言處理)模型來(lái)計算內容質(zhì)量信號并預測哪些網(wǎng)頁(yè)最能向搜索者提供他們需要的信息。當你在落地頁(yè)進(jìn)行關(guān)鍵詞聚類(lèi),你會(huì )向搜索引擎證明你的網(wǎng)站是你所在行業(yè)的權威,展示強大的內容范圍和深度。
  您還可以通過(guò)豐富的內容集群提供搜索引擎的內容信號,這些集群已經(jīng)過(guò)訓練以識別和改進(jìn)搜索結果。 關(guān)鍵詞集群需要網(wǎng)站站長(cháng)多思考自己的內容,這也是SEO的未來(lái)。
  如果您希望您的網(wǎng)頁(yè)長(cháng)期排名,是時(shí)候讓您的網(wǎng)頁(yè)策略趕上搜索引擎了。

搜索引擎結果的好壞與否,Cranfield評價(jià)體系ACranfield-likeapproach

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 187 次瀏覽 ? 2021-07-20 02:09 ? 來(lái)自相關(guān)話(huà)題

  搜索引擎結果的好壞與否,Cranfield評價(jià)體系ACranfield-likeapproach
  大觀(guān)數據CEO陳韻文文
  前言
  搜索質(zhì)量評價(jià)是搜索技術(shù)研究的基礎工作,也是核心任務(wù)之一。度量在搜索技術(shù)的研究和發(fā)展中發(fā)揮著(zhù)重要作用,因此任何新方法都與其評價(jià)方法相結合。
  搜索引擎結果的質(zhì)量反映在業(yè)界所謂的相關(guān)性上。相關(guān)性的定義包括狹義和廣義兩個(gè)方面。狹義的解釋是:搜索結果與用戶(hù)查詢(xún)的相關(guān)程度。從廣義上講,相關(guān)性可以理解為用戶(hù)查詢(xún)的綜合滿(mǎn)意度。直觀(guān)上,從用戶(hù)進(jìn)入搜索框的那一刻到滿(mǎn)足需求的過(guò)程越順暢、方便,搜索相關(guān)性就越好。本文總結了行業(yè)常用的相關(guān)性評價(jià)指標和定量評價(jià)方法。供對此感興趣的朋友參考。
  克蘭菲爾德評估系統
  A Cranfield-like approach這個(gè)名字來(lái)源于英國的克蘭菲爾德大學(xué),因為該大學(xué)在1950年代首先提出了這樣一套評價(jià)體系:一套完整的查詢(xún)樣本集、正確答案集和評價(jià)指標。評價(jià)計劃從此確立了“評價(jià)”在信息檢索研究中的核心地位。
  Cranfield 評價(jià)系統由三個(gè)環(huán)節組成:
  1.提取代表性查詢(xún)詞,形成合適大小的集合
  2.查詢(xún)樣本集合,從檢索系統的語(yǔ)料庫中找到對應的結果并標注(一般是手動(dòng))
  3. 將查詢(xún)詞和帶有標注信息的語(yǔ)料輸入檢索系統,使用預定義的評價(jià)計算公式對檢索系統結果和系統返回的檢索結果標注的理想情況進(jìn)行評價(jià)結果有多接近。
  查詢(xún)詞集的選擇
  Cranfield 評估系統廣泛應用于各大搜索引擎公司。在具體應用中,首先需要解決的問(wèn)題是構建一組測試查詢(xún)詞。
  根據Andrei Broder(原在A(yíng)ltaVista/IBM/Yahoo)的研究,查詢(xún)詞可以分為三類(lèi):尋址查詢(xún)(Navigational)、信息查詢(xún)(Informational)和交易查詢(xún)(Transactional)。對應的比例為:
  Navigational : 12.3%
Informational : 62.0%
Transactional : 25.7%
  為了使評價(jià)符合網(wǎng)上的實(shí)際情況,通常查詢(xún)詞集也是按比例選取的。通常從在線(xiàn)用戶(hù)的查詢(xún)日志文件中自動(dòng)提取。
  另外,在查詢(xún)集的構建中,除了上述查詢(xún)類(lèi)型外,還可以考慮查詢(xún)的頻率,熱點(diǎn)查詢(xún)(高頻查詢(xún))和長(cháng)尾查詢(xún)(中和低頻)分別占特定的比例。
  另外,在抽取Query的時(shí)候,Query的長(cháng)度也是經(jīng)常要考慮的一個(gè)因素。因為短查詢(xún)(單詞查詢(xún))和長(cháng)查詢(xún)(多詞查詢(xún))排序算法往往不同。
  形成查詢(xún)集后,使用這些查詢(xún)詞在不同系統(例如比較百度和谷歌)或不同技術(shù)(新舊排名算法的環(huán)境)之間進(jìn)行搜索,并對結果進(jìn)行評分以確定優(yōu)劣和缺點(diǎn)。
  圖片:同一個(gè)Query:“大觀(guān)數據”,各大搜索引擎結果示意圖。下面詳細說(shuō)一下評分的方法。
  
  
  
  
  
  
  
  
  
  
  Precision-recall(accuracy-recall法)計算方法
  信息檢索領(lǐng)域最廣為人知的評價(jià)指標是Precision-Recall(準確率-召回率)方法。這種方法提出了半個(gè)世紀,已經(jīng)被很多搜索引擎公司的效果評估所采用。
  顧名思義,這種方法由兩個(gè)相互關(guān)聯(lián)的統計數據組成:準確率和召回率:召回率衡量一個(gè)查詢(xún)搜索所有相關(guān)文檔的能力,而Precision衡量搜索系統排除相關(guān)文檔的能力。 (簡(jiǎn)單解釋一下:準確率是計算你從查詢(xún)中得到的結果有多少是可靠的;召回率是指你檢索到的所有可靠結果中有多少)。這兩個(gè)是評價(jià)搜索效果最基本的指標,具體計算方法如下。
  Precision-recall 方法假設給定的查詢(xún)對應于檢索到的文檔集合和不相關(guān)文檔的集合。這里假設相關(guān)性是二元的,用數學(xué)形式化方法描述,它是:
  A 表示相關(guān)文檔的集合
  
  表示不相關(guān)的集合
  B 代表檢索到的文檔集合
  
  表示尚未檢索到的文檔集合
  單個(gè)查詢(xún)的準確率和召回率可以用以下公式表示:
  
  
 ?。ㄟ\算符∩表示兩個(gè)集合的交集。|x|符號表示集合x(chóng)中元素的個(gè)數)
  從上面的定義不難看出召回率和準確率的取值范圍在[0,1]之間。那么不難想象,如果系統檢索到的相關(guān)性越多,召回率就越高。如果所有相關(guān)結果都被召回,那么此時(shí)召回就等于1.0。
  
  
  精度-召回曲線(xiàn)
  召回率和準確率反映了檢索系統最重要的兩個(gè)方面,這兩個(gè)方面相互制約。因為在大規模的數據采集中,如果期望檢索到更多的相關(guān)文檔,搜索條件必須“放寬”,這會(huì )導致一些不相關(guān)的結果混入,影響準確率。同樣,當你想提高準確率,盡可能去除不相關(guān)的文檔時(shí),你必須實(shí)施更“嚴格”的檢索策略,這也會(huì )排除一些相關(guān)的文檔,降低召回率。
  所以為了更清楚地描述兩者之間的關(guān)系,我們通常用曲線(xiàn)來(lái)繪制Precision-Recall,可以簡(jiǎn)稱(chēng)為P-R圖。常見(jiàn)的形式如下圖所示。 (通常曲線(xiàn)是逐漸下降的趨勢,即隨著(zhù)Recall的增加,Precision逐漸降低)
  
  
  其他形式的 P-R
  某些特定的搜索應用程序會(huì )更加關(guān)注搜索結果中的錯誤結果。例如,搜索引擎的反垃圾郵件系統會(huì )更加關(guān)注搜索結果中混入了多少作弊結果。學(xué)術(shù)界將這些錯誤結果稱(chēng)為假陽(yáng)性結果。對于這些應用,他們通常選擇使用誤報率(Fallout)來(lái)統計:
  
  
  Fallout 和 Presion 本質(zhì)上是一樣的。它只是從利弊計算出來(lái)的。它實(shí)際上是 P-R 的變體。
  回到上圖,Presion-Recall是一條曲線(xiàn)。比較兩種方法的效果通常不夠直觀(guān)。你能不能把兩者結合起來(lái),直接反映到一個(gè)單一的值上?為此,IR學(xué)術(shù)界提出了F-Measure方法。 F-Measure由Presion和Recall的調和平均計算得出,公式為:
  
  
  參數λε(0,1)調整系統在Precision和Recall之間的平衡。(通常λ=0.5,此時(shí)
  
  
  )
  這里使用調和平均代替通常的幾何平均或算術(shù)平均。原因是調和平均強調小數的重要性,能靈敏地反映小數的變化,更適合反映搜索效果。
  使用F Measure的好處是只需要一個(gè)數字就可以概括系統的搜索效果,方便比較不同搜索系統的整體效果。
  P@N 方法點(diǎn)擊因素
  傳統的Precision-Recall并不完全適用于搜索引擎的評價(jià),因為搜索引擎用戶(hù)的點(diǎn)擊方式是獨一無(wú)二的,包括:
  A 60-65%的查詢(xún)點(diǎn)擊了名列搜索結果前10條的網(wǎng)頁(yè);
B 20-25%的人會(huì )考慮點(diǎn)擊名列11到20的網(wǎng)頁(yè);
C 僅有3-4%的會(huì )點(diǎn)擊名列搜索結果中列第21到第30名的網(wǎng)頁(yè)
  換句話(huà)說(shuō),大多數用戶(hù)不愿意翻頁(yè)看到搜索引擎給出的后續結果。
  即使在搜索結果的第一頁(yè)(通常會(huì )列出前 10 個(gè)結果),用戶(hù)的點(diǎn)擊行為也很有趣。我們使用下面的谷歌熱圖來(lái)觀(guān)察(這張熱圖在第二個(gè)維度搜索結果頁(yè)面上,可以通過(guò)光譜直觀(guān)地表達用戶(hù)在不同位置的點(diǎn)擊興趣。顏色越接近紅色表示點(diǎn)擊率越高強度):
  
  
  從圖中可以看出,前3個(gè)搜索結果吸引了大量點(diǎn)擊,屬于最受歡迎的部分。也就是說(shuō),對于搜索引擎來(lái)說(shuō),前幾個(gè)結果是最關(guān)鍵的,決定了用戶(hù)的滿(mǎn)意度。
  
  
  康奈爾大學(xué)的研究人員通過(guò)眼動(dòng)追蹤實(shí)驗對 Google 搜索結果中的用戶(hù)行為進(jìn)行了更準確的分析。從這張圖可以看出,第一個(gè)結果已經(jīng)獲得了56.38%的搜索流量,第二、第三個(gè)結果的排名依次下降,但遠低于第一的結果。前三個(gè)結果的點(diǎn)擊率約為 11:3:2。前三個(gè)結果的總點(diǎn)擊量轉移了近 80% 的搜索流量。
  其他一些有趣的結論是點(diǎn)擊次數不會(huì )按順序減少。第七名獲得的點(diǎn)擊次數最少。原因可能是用戶(hù)在瀏覽過(guò)程中將頁(yè)面下拉到底部。這時(shí)候只顯示了網(wǎng)站的最后三名排名,第七名很容易被忽略。而第一屏最后一個(gè)結果獲得的注意力(2.55)大于倒數第二個(gè)(1.45)),因為用戶(hù)在轉屏之前對最后一個(gè)結果的印象比較深page 搜索結果頁(yè)第二頁(yè)第一頁(yè)(也就是第11個(gè)結果)只獲得了第10個(gè)首頁(yè)網(wǎng)站的40%的點(diǎn)擊量,比首頁(yè)第一個(gè)結果還要多其 1/60 到 1/100 的點(diǎn)擊量。
  因此,在定量評估搜索引擎的效果時(shí),往往需要根據上述搜索用戶(hù)的行為特征進(jìn)行針對性的設計。
  P@N 計算方法
  P@N本身是Precision@N的縮寫(xiě),指的是在考慮位置因素的情況下,針對特定查詢(xún)檢測前N個(gè)結果的準確率。比如單次搜索的前5個(gè)結果,如果其中4個(gè)是相關(guān)文檔,則P@5 = 4/5 = 0.8。
  該測試通常使用一個(gè)查詢(xún)集(根據上述方法構建),其中收錄幾個(gè)不同的查詢(xún)詞。在使用P@N的實(shí)際評估中,通常使用所有查詢(xún)的P@N數據計算算術(shù)平均值,用于判斷系統整體搜索結果的質(zhì)量。
  N 的選擇
  對于用戶(hù)來(lái)說(shuō),他們通常只關(guān)注搜索結果的前幾個(gè)結果。因此,搜索引擎的性能評估通常只關(guān)注前5、或前3個(gè)結果,所以我們常用的N取值為P@3或P@5等。
  對于一些特定類(lèi)型的查詢(xún)應用,比如導航搜索,因為目標結果很明確,所以N=1(即在評估中使用P@1)。例如,如果你搜索“新浪網(wǎng)”或“新浪首頁(yè)”,如果第一個(gè)結果不是新浪網(wǎng)(url:),則直接判斷查詢(xún)的準確度不符合要求,即P@1 =0
  MRR
  上面提到的P@N方法很容易計算和理解。但是細心的讀者肯定會(huì )發(fā)現問(wèn)題,就是在前N個(gè)結果中,第一個(gè)和第N個(gè)位置的結果對準確率的影響是一樣的。但實(shí)際情況是,搜索引擎的評價(jià)與排名位置有著(zhù)極大的關(guān)系。也就是說(shuō),第一個(gè)結果錯誤與第 10 個(gè)結果錯誤非常不同。因此,評價(jià)體系中需要引入區位因素。
  MRR 是 Mean Reciprocal Rank 的縮寫(xiě)。 MRR 方法主要用于導航搜索或問(wèn)答。這些檢索方法只需要一個(gè)相關(guān)文檔,這對召回率非常重要。不敏感,但更關(guān)心搜索引擎檢索到的相關(guān)文檔是否排在結果列表的前面。 MRR 方法首先計算每個(gè)查詢(xún)的第一個(gè)相關(guān)文檔位置的倒數,然后對所有倒數取平均值。比如一個(gè)收錄三個(gè)查詢(xún)詞的測試集,前5個(gè)結果是:
  查詢(xún)一結果:1.AN 2.AR 3.AN 4.AN 5.AR
查詢(xún)二結果:1.AN 2.AR 3.AR 4.AR 5.AN
查詢(xún)三結果:1.AR 2.AN 3.AN 4.AN 5.AR
  其中,AN代表無(wú)關(guān)結果,AR代表相關(guān)結果。那么第一次查詢(xún)的Reciprocal Rank(Reciprocal Rank)RR1= 1/2=0.5;第二個(gè)結果 RR2 = 1/2 = 0.5;注意,倒數的值不會(huì )改變,即使得到了第二個(gè)結果更相關(guān)的結果。同理,RR3 = 1/1 = 1,對于這個(gè)測試集,最終的MRR=(RR1+RR2+RR3)/ 3 = 0.67
  然而,對于大多數搜索應用來(lái)說(shuō),只有一個(gè)結果不能滿(mǎn)足需求。在這種情況下,需要更合適的方法來(lái)計算效果。最常用的方法是下面的MAP方法。
  地圖
  MAP方法是Mean Average Precison,是平均準確度法的縮寫(xiě)。它的定義是求檢索到的每個(gè)相關(guān)文檔的平均準確率(即Average Precision)的算術(shù)平均值(Mean)。在這里,準確度取了兩次平均值,因此稱(chēng)為平均平均精度。 (注意:它不叫Average Average Precision,因為它丑陋,而且因為無(wú)法區分兩個(gè)平均值的含義)
  MAP 是一個(gè)單值指標,反映系統在所有相關(guān)文檔上的表現。系統檢索到的相關(guān)文檔越高(等級越高),MAP就應該越高。如果系統沒(méi)有返回相關(guān)文檔,則準確率默認為0。
  例如:假設有兩個(gè)主題:
  主題 1 有 4 個(gè)相關(guān)網(wǎng)頁(yè),主題 2 有 5 個(gè)相關(guān)網(wǎng)頁(yè)。
  系統檢索到主題1的4個(gè)相關(guān)網(wǎng)頁(yè),排名分別為1、2、4、7;
  主題 2 檢索到 3 個(gè)相關(guān)網(wǎng)頁(yè),排名分別為 1、3、5。
  對于topic 1,平均準確率MAP計算公式為:
  (1/1+2/2+3/4+4/7)/4=0.83。
  對于主題2,平均準確率MAP計算公式為:
  (1/1+2/3+3/5+0+0)/5=0.45。
  然后 MAP= (0.83+0.45)/2=0.64。"
  DCG 方法
  DCG是英文Discountedcumulative gain的縮寫(xiě),中文可譯為“折扣累積收益”。 DCG方法的基本思想是:
  1.對每個(gè)結果的相關(guān)性進(jìn)行分級衡量
  2.考慮結果的位置,位置越高,重要性越高
  3.排名越高(即好成績(jì)),成績(jì)排名越高,數值應該越高,否則會(huì )被處罰。
  我們先來(lái)看第一個(gè):相關(guān)性分級。在計算 Precision 時(shí),這比簡(jiǎn)單地計算“準確”或“不準確”更精細。我們可以將結果細分為多個(gè)級別。比如常用的3個(gè)等級:Good、Fair、Bad。對應的分數rel為:Good:3/Fair:2/Bad:1。一些更詳細的評估使用5級分類(lèi):非常好、好、一般、差、非常差,對應的分數rel可以設置為:非常好:2 / 好:1 / 一般:0 / 差:-1 /非常糟糕:-2
  判斷結果的標準可以根據具體的應用來(lái)確定。非常好通常意味著(zhù)結果的主題完全相關(guān),網(wǎng)頁(yè)內容豐富,質(zhì)量高。并且具體到每一位
  
  
  DCG的計算公式不是唯一的。理論上,它只需要對數貼現因子的平滑度。我個(gè)人認為下面的DCG公式更合理,強調相關(guān)性,1、2的結果的折扣因子也更合理:
  
  
  此時(shí)DCG前4個(gè)位置結果的折扣因子值為:
  
  
  基于2的log值也來(lái)自經(jīng)驗公式,沒(méi)有理論依據。實(shí)際上,可以根據平滑要求修改Log的基數。當值增大時(shí)(例如用log5代替log2),折現因子下降得更快,強調了前面結果的權重。
  為了方便不同類(lèi)型查詢(xún)結果的橫向比較,基于DCG,一些評價(jià)系統也對DCG進(jìn)行了歸一化。這些方法統稱(chēng)為nDCG(即歸一化DCG)。最常用的計算方法是除以每個(gè)查詢(xún)的理想值iDCG(ideal DCG)進(jìn)行歸一化,公式為:
  
  
  對于nDCG,需要校準理想的iDCG。在實(shí)際操作中,難度極大,因為每個(gè)人對“最佳結果”的理解往往各不相同,從海量數據中選出最佳結果非常困難。但是,通常比較容易比較兩組結果,因此在實(shí)踐中通常選擇比較結果的方法進(jìn)行評估。
  如何實(shí)現自動(dòng)化評估?
  上面介紹的搜索引擎量化評價(jià)指標在克蘭菲爾德評價(jià)框架中得到了廣泛的應用。業(yè)界知名的TREC(Text Information Retrieval Conference)一直在基于這樣的方法組織信息檢索評估和技術(shù)交流。除了TREC,一些針對不同應用設計的Cranfield評測論壇也在進(jìn)行中(如NTCIR、IREX等)。
  但是 Cranfield 評估框架的問(wèn)題在于查詢(xún)樣本集合的標記。通過(guò)人工標注答案來(lái)評價(jià)網(wǎng)絡(luò )信息檢索是一個(gè)費時(shí)費力的過(guò)程,只有少數大公司可以使用。并且由于搜索引擎算法改進(jìn)和運維的需要,需要盡可能縮短檢索效果評價(jià)和反饋的時(shí)間,因此自動(dòng)化評價(jià)方法對于提高評價(jià)效率非常重要。最常用的自動(dòng)評估方法是 A/B 測試系統。
  A/B 測試
  
  
  A/B 測試系統
  A/B 測試系統在搜索用戶(hù)時(shí)自動(dòng)判斷用戶(hù)的bucket id,并自動(dòng)抽取流量導入不同的分支,讓對應組內的用戶(hù)看到不同的產(chǎn)品版本(或不同版本)。搜索引擎)。將記錄用戶(hù)在不同版本產(chǎn)品中的行為。這些行為數據通過(guò)數據分析形成一系列的指標,通過(guò)這些指標的比較,得出哪個(gè)版本好壞的結論。
  在指標的計算上,可以進(jìn)一步分為兩種方法,一種是基于專(zhuān)家評級;另一種是基于點(diǎn)擊統計。
  專(zhuān)家評分的方法通常由搜索核心技術(shù)研發(fā)和產(chǎn)品人員進(jìn)行。兩種環(huán)境A和B的結果按照預先設定的標準進(jìn)行評分,比較每個(gè)查詢(xún)的結果,并根據nDCG等方法計算整體質(zhì)量。
  點(diǎn)擊評分的自動(dòng)化程度更高。這里有一個(gè)假設:同樣的排序位置,點(diǎn)擊次數多的結果質(zhì)量要好于點(diǎn)擊次數少的結果。 (即A2代表A測試環(huán)境的第二個(gè)結果,如果A2>B2,說(shuō)明A2質(zhì)量較好)。通俗的說(shuō)就是相信群眾(因為群眾的眼睛是有眼光的)。在這個(gè)假設下,我們可以自動(dòng)將 A/B 環(huán)境中前 N 個(gè)結果的點(diǎn)擊率映射到分數上。通過(guò)統計大量的Query點(diǎn)擊結果,可以獲得可靠的分數對比。
  交錯測試
  此外,Thorsten Joachims 等人提出的 Interleaving 測試方法。在2003年也被廣泛使用。這種方法設計了一個(gè)元搜索引擎。用戶(hù)輸入查詢(xún)后,將查詢(xún)在多個(gè)知名搜索引擎中的查詢(xún)結果隨機混合反饋給用戶(hù),進(jìn)而采集用戶(hù)的結果點(diǎn)擊行為信息。根據用戶(hù)不同的點(diǎn)擊傾向,我們可以判斷搜索引擎返回結果的優(yōu)劣。
  如下圖,算法A和B的結果橫放,按流量劃分測試,記錄用戶(hù)點(diǎn)擊信息。根據點(diǎn)擊分布判斷A、B環(huán)境的優(yōu)劣。
  
  
  交錯測試評價(jià)方法
  Joachims 還證明了 Interleaving Testing 評估方法和傳統 Cranfield 評估方法的結果高度相關(guān)。由于記錄用戶(hù)對搜索結果的選擇是一個(gè)省力的過(guò)程,便于實(shí)現自動(dòng)搜索效果評估。
  總結
  沒(méi)有評價(jià)就沒(méi)有進(jìn)步。對搜索結果進(jìn)行定量評價(jià)的目的是準確找出現有搜索系統的不足(沒(méi)有搜索系統是完美的),然后逐步改進(jìn)算法和系統。本文為大家總結了常用的評價(jià)框架和評價(jià)指標。這些技術(shù)就像一把尺子,每次搜索技術(shù)進(jìn)步時(shí)都會(huì )測量距離。 查看全部

  搜索引擎結果的好壞與否,Cranfield評價(jià)體系ACranfield-likeapproach
  大觀(guān)數據CEO陳韻文文
  前言
  搜索質(zhì)量評價(jià)是搜索技術(shù)研究的基礎工作,也是核心任務(wù)之一。度量在搜索技術(shù)的研究和發(fā)展中發(fā)揮著(zhù)重要作用,因此任何新方法都與其評價(jià)方法相結合。
  搜索引擎結果的質(zhì)量反映在業(yè)界所謂的相關(guān)性上。相關(guān)性的定義包括狹義和廣義兩個(gè)方面。狹義的解釋是:搜索結果與用戶(hù)查詢(xún)的相關(guān)程度。從廣義上講,相關(guān)性可以理解為用戶(hù)查詢(xún)的綜合滿(mǎn)意度。直觀(guān)上,從用戶(hù)進(jìn)入搜索框的那一刻到滿(mǎn)足需求的過(guò)程越順暢、方便,搜索相關(guān)性就越好。本文總結了行業(yè)常用的相關(guān)性評價(jià)指標和定量評價(jià)方法。供對此感興趣的朋友參考。
  克蘭菲爾德評估系統
  A Cranfield-like approach這個(gè)名字來(lái)源于英國的克蘭菲爾德大學(xué),因為該大學(xué)在1950年代首先提出了這樣一套評價(jià)體系:一套完整的查詢(xún)樣本集、正確答案集和評價(jià)指標。評價(jià)計劃從此確立了“評價(jià)”在信息檢索研究中的核心地位。
  Cranfield 評價(jià)系統由三個(gè)環(huán)節組成:
  1.提取代表性查詢(xún)詞,形成合適大小的集合
  2.查詢(xún)樣本集合,從檢索系統的語(yǔ)料庫中找到對應的結果并標注(一般是手動(dòng))
  3. 將查詢(xún)詞和帶有標注信息的語(yǔ)料輸入檢索系統,使用預定義的評價(jià)計算公式對檢索系統結果和系統返回的檢索結果標注的理想情況進(jìn)行評價(jià)結果有多接近。
  查詢(xún)詞集的選擇
  Cranfield 評估系統廣泛應用于各大搜索引擎公司。在具體應用中,首先需要解決的問(wèn)題是構建一組測試查詢(xún)詞。
  根據Andrei Broder(原在A(yíng)ltaVista/IBM/Yahoo)的研究,查詢(xún)詞可以分為三類(lèi):尋址查詢(xún)(Navigational)、信息查詢(xún)(Informational)和交易查詢(xún)(Transactional)。對應的比例為:
  Navigational : 12.3%
Informational : 62.0%
Transactional : 25.7%
  為了使評價(jià)符合網(wǎng)上的實(shí)際情況,通常查詢(xún)詞集也是按比例選取的。通常從在線(xiàn)用戶(hù)的查詢(xún)日志文件中自動(dòng)提取。
  另外,在查詢(xún)集的構建中,除了上述查詢(xún)類(lèi)型外,還可以考慮查詢(xún)的頻率,熱點(diǎn)查詢(xún)(高頻查詢(xún))和長(cháng)尾查詢(xún)(中和低頻)分別占特定的比例。
  另外,在抽取Query的時(shí)候,Query的長(cháng)度也是經(jīng)常要考慮的一個(gè)因素。因為短查詢(xún)(單詞查詢(xún))和長(cháng)查詢(xún)(多詞查詢(xún))排序算法往往不同。
  形成查詢(xún)集后,使用這些查詢(xún)詞在不同系統(例如比較百度和谷歌)或不同技術(shù)(新舊排名算法的環(huán)境)之間進(jìn)行搜索,并對結果進(jìn)行評分以確定優(yōu)劣和缺點(diǎn)。
  圖片:同一個(gè)Query:“大觀(guān)數據”,各大搜索引擎結果示意圖。下面詳細說(shuō)一下評分的方法。
  
  
  
  
  
  
  
  
  
  
  Precision-recall(accuracy-recall法)計算方法
  信息檢索領(lǐng)域最廣為人知的評價(jià)指標是Precision-Recall(準確率-召回率)方法。這種方法提出了半個(gè)世紀,已經(jīng)被很多搜索引擎公司的效果評估所采用。
  顧名思義,這種方法由兩個(gè)相互關(guān)聯(lián)的統計數據組成:準確率和召回率:召回率衡量一個(gè)查詢(xún)搜索所有相關(guān)文檔的能力,而Precision衡量搜索系統排除相關(guān)文檔的能力。 (簡(jiǎn)單解釋一下:準確率是計算你從查詢(xún)中得到的結果有多少是可靠的;召回率是指你檢索到的所有可靠結果中有多少)。這兩個(gè)是評價(jià)搜索效果最基本的指標,具體計算方法如下。
  Precision-recall 方法假設給定的查詢(xún)對應于檢索到的文檔集合和不相關(guān)文檔的集合。這里假設相關(guān)性是二元的,用數學(xué)形式化方法描述,它是:
  A 表示相關(guān)文檔的集合
  
  表示不相關(guān)的集合
  B 代表檢索到的文檔集合
  
  表示尚未檢索到的文檔集合
  單個(gè)查詢(xún)的準確率和召回率可以用以下公式表示:
  
  
 ?。ㄟ\算符∩表示兩個(gè)集合的交集。|x|符號表示集合x(chóng)中元素的個(gè)數)
  從上面的定義不難看出召回率和準確率的取值范圍在[0,1]之間。那么不難想象,如果系統檢索到的相關(guān)性越多,召回率就越高。如果所有相關(guān)結果都被召回,那么此時(shí)召回就等于1.0。
  
  
  精度-召回曲線(xiàn)
  召回率和準確率反映了檢索系統最重要的兩個(gè)方面,這兩個(gè)方面相互制約。因為在大規模的數據采集中,如果期望檢索到更多的相關(guān)文檔,搜索條件必須“放寬”,這會(huì )導致一些不相關(guān)的結果混入,影響準確率。同樣,當你想提高準確率,盡可能去除不相關(guān)的文檔時(shí),你必須實(shí)施更“嚴格”的檢索策略,這也會(huì )排除一些相關(guān)的文檔,降低召回率。
  所以為了更清楚地描述兩者之間的關(guān)系,我們通常用曲線(xiàn)來(lái)繪制Precision-Recall,可以簡(jiǎn)稱(chēng)為P-R圖。常見(jiàn)的形式如下圖所示。 (通常曲線(xiàn)是逐漸下降的趨勢,即隨著(zhù)Recall的增加,Precision逐漸降低)
  
  
  其他形式的 P-R
  某些特定的搜索應用程序會(huì )更加關(guān)注搜索結果中的錯誤結果。例如,搜索引擎的反垃圾郵件系統會(huì )更加關(guān)注搜索結果中混入了多少作弊結果。學(xué)術(shù)界將這些錯誤結果稱(chēng)為假陽(yáng)性結果。對于這些應用,他們通常選擇使用誤報率(Fallout)來(lái)統計:
  
  
  Fallout 和 Presion 本質(zhì)上是一樣的。它只是從利弊計算出來(lái)的。它實(shí)際上是 P-R 的變體。
  回到上圖,Presion-Recall是一條曲線(xiàn)。比較兩種方法的效果通常不夠直觀(guān)。你能不能把兩者結合起來(lái),直接反映到一個(gè)單一的值上?為此,IR學(xué)術(shù)界提出了F-Measure方法。 F-Measure由Presion和Recall的調和平均計算得出,公式為:
  
  
  參數λε(0,1)調整系統在Precision和Recall之間的平衡。(通常λ=0.5,此時(shí)
  
  
  )
  這里使用調和平均代替通常的幾何平均或算術(shù)平均。原因是調和平均強調小數的重要性,能靈敏地反映小數的變化,更適合反映搜索效果。
  使用F Measure的好處是只需要一個(gè)數字就可以概括系統的搜索效果,方便比較不同搜索系統的整體效果。
  P@N 方法點(diǎn)擊因素
  傳統的Precision-Recall并不完全適用于搜索引擎的評價(jià),因為搜索引擎用戶(hù)的點(diǎn)擊方式是獨一無(wú)二的,包括:
  A 60-65%的查詢(xún)點(diǎn)擊了名列搜索結果前10條的網(wǎng)頁(yè);
B 20-25%的人會(huì )考慮點(diǎn)擊名列11到20的網(wǎng)頁(yè);
C 僅有3-4%的會(huì )點(diǎn)擊名列搜索結果中列第21到第30名的網(wǎng)頁(yè)
  換句話(huà)說(shuō),大多數用戶(hù)不愿意翻頁(yè)看到搜索引擎給出的后續結果。
  即使在搜索結果的第一頁(yè)(通常會(huì )列出前 10 個(gè)結果),用戶(hù)的點(diǎn)擊行為也很有趣。我們使用下面的谷歌熱圖來(lái)觀(guān)察(這張熱圖在第二個(gè)維度搜索結果頁(yè)面上,可以通過(guò)光譜直觀(guān)地表達用戶(hù)在不同位置的點(diǎn)擊興趣。顏色越接近紅色表示點(diǎn)擊率越高強度):
  
  
  從圖中可以看出,前3個(gè)搜索結果吸引了大量點(diǎn)擊,屬于最受歡迎的部分。也就是說(shuō),對于搜索引擎來(lái)說(shuō),前幾個(gè)結果是最關(guān)鍵的,決定了用戶(hù)的滿(mǎn)意度。
  
  
  康奈爾大學(xué)的研究人員通過(guò)眼動(dòng)追蹤實(shí)驗對 Google 搜索結果中的用戶(hù)行為進(jìn)行了更準確的分析。從這張圖可以看出,第一個(gè)結果已經(jīng)獲得了56.38%的搜索流量,第二、第三個(gè)結果的排名依次下降,但遠低于第一的結果。前三個(gè)結果的點(diǎn)擊率約為 11:3:2。前三個(gè)結果的總點(diǎn)擊量轉移了近 80% 的搜索流量。
  其他一些有趣的結論是點(diǎn)擊次數不會(huì )按順序減少。第七名獲得的點(diǎn)擊次數最少。原因可能是用戶(hù)在瀏覽過(guò)程中將頁(yè)面下拉到底部。這時(shí)候只顯示了網(wǎng)站的最后三名排名,第七名很容易被忽略。而第一屏最后一個(gè)結果獲得的注意力(2.55)大于倒數第二個(gè)(1.45)),因為用戶(hù)在轉屏之前對最后一個(gè)結果的印象比較深page 搜索結果頁(yè)第二頁(yè)第一頁(yè)(也就是第11個(gè)結果)只獲得了第10個(gè)首頁(yè)網(wǎng)站的40%的點(diǎn)擊量,比首頁(yè)第一個(gè)結果還要多其 1/60 到 1/100 的點(diǎn)擊量。
  因此,在定量評估搜索引擎的效果時(shí),往往需要根據上述搜索用戶(hù)的行為特征進(jìn)行針對性的設計。
  P@N 計算方法
  P@N本身是Precision@N的縮寫(xiě),指的是在考慮位置因素的情況下,針對特定查詢(xún)檢測前N個(gè)結果的準確率。比如單次搜索的前5個(gè)結果,如果其中4個(gè)是相關(guān)文檔,則P@5 = 4/5 = 0.8。
  該測試通常使用一個(gè)查詢(xún)集(根據上述方法構建),其中收錄幾個(gè)不同的查詢(xún)詞。在使用P@N的實(shí)際評估中,通常使用所有查詢(xún)的P@N數據計算算術(shù)平均值,用于判斷系統整體搜索結果的質(zhì)量。
  N 的選擇
  對于用戶(hù)來(lái)說(shuō),他們通常只關(guān)注搜索結果的前幾個(gè)結果。因此,搜索引擎的性能評估通常只關(guān)注前5、或前3個(gè)結果,所以我們常用的N取值為P@3或P@5等。
  對于一些特定類(lèi)型的查詢(xún)應用,比如導航搜索,因為目標結果很明確,所以N=1(即在評估中使用P@1)。例如,如果你搜索“新浪網(wǎng)”或“新浪首頁(yè)”,如果第一個(gè)結果不是新浪網(wǎng)(url:),則直接判斷查詢(xún)的準確度不符合要求,即P@1 =0
  MRR
  上面提到的P@N方法很容易計算和理解。但是細心的讀者肯定會(huì )發(fā)現問(wèn)題,就是在前N個(gè)結果中,第一個(gè)和第N個(gè)位置的結果對準確率的影響是一樣的。但實(shí)際情況是,搜索引擎的評價(jià)與排名位置有著(zhù)極大的關(guān)系。也就是說(shuō),第一個(gè)結果錯誤與第 10 個(gè)結果錯誤非常不同。因此,評價(jià)體系中需要引入區位因素。
  MRR 是 Mean Reciprocal Rank 的縮寫(xiě)。 MRR 方法主要用于導航搜索或問(wèn)答。這些檢索方法只需要一個(gè)相關(guān)文檔,這對召回率非常重要。不敏感,但更關(guān)心搜索引擎檢索到的相關(guān)文檔是否排在結果列表的前面。 MRR 方法首先計算每個(gè)查詢(xún)的第一個(gè)相關(guān)文檔位置的倒數,然后對所有倒數取平均值。比如一個(gè)收錄三個(gè)查詢(xún)詞的測試集,前5個(gè)結果是:
  查詢(xún)一結果:1.AN 2.AR 3.AN 4.AN 5.AR
查詢(xún)二結果:1.AN 2.AR 3.AR 4.AR 5.AN
查詢(xún)三結果:1.AR 2.AN 3.AN 4.AN 5.AR
  其中,AN代表無(wú)關(guān)結果,AR代表相關(guān)結果。那么第一次查詢(xún)的Reciprocal Rank(Reciprocal Rank)RR1= 1/2=0.5;第二個(gè)結果 RR2 = 1/2 = 0.5;注意,倒數的值不會(huì )改變,即使得到了第二個(gè)結果更相關(guān)的結果。同理,RR3 = 1/1 = 1,對于這個(gè)測試集,最終的MRR=(RR1+RR2+RR3)/ 3 = 0.67
  然而,對于大多數搜索應用來(lái)說(shuō),只有一個(gè)結果不能滿(mǎn)足需求。在這種情況下,需要更合適的方法來(lái)計算效果。最常用的方法是下面的MAP方法。
  地圖
  MAP方法是Mean Average Precison,是平均準確度法的縮寫(xiě)。它的定義是求檢索到的每個(gè)相關(guān)文檔的平均準確率(即Average Precision)的算術(shù)平均值(Mean)。在這里,準確度取了兩次平均值,因此稱(chēng)為平均平均精度。 (注意:它不叫Average Average Precision,因為它丑陋,而且因為無(wú)法區分兩個(gè)平均值的含義)
  MAP 是一個(gè)單值指標,反映系統在所有相關(guān)文檔上的表現。系統檢索到的相關(guān)文檔越高(等級越高),MAP就應該越高。如果系統沒(méi)有返回相關(guān)文檔,則準確率默認為0。
  例如:假設有兩個(gè)主題:
  主題 1 有 4 個(gè)相關(guān)網(wǎng)頁(yè),主題 2 有 5 個(gè)相關(guān)網(wǎng)頁(yè)。
  系統檢索到主題1的4個(gè)相關(guān)網(wǎng)頁(yè),排名分別為1、2、4、7;
  主題 2 檢索到 3 個(gè)相關(guān)網(wǎng)頁(yè),排名分別為 1、3、5。
  對于topic 1,平均準確率MAP計算公式為:
  (1/1+2/2+3/4+4/7)/4=0.83。
  對于主題2,平均準確率MAP計算公式為:
  (1/1+2/3+3/5+0+0)/5=0.45。
  然后 MAP= (0.83+0.45)/2=0.64。"
  DCG 方法
  DCG是英文Discountedcumulative gain的縮寫(xiě),中文可譯為“折扣累積收益”。 DCG方法的基本思想是:
  1.對每個(gè)結果的相關(guān)性進(jìn)行分級衡量
  2.考慮結果的位置,位置越高,重要性越高
  3.排名越高(即好成績(jì)),成績(jì)排名越高,數值應該越高,否則會(huì )被處罰。
  我們先來(lái)看第一個(gè):相關(guān)性分級。在計算 Precision 時(shí),這比簡(jiǎn)單地計算“準確”或“不準確”更精細。我們可以將結果細分為多個(gè)級別。比如常用的3個(gè)等級:Good、Fair、Bad。對應的分數rel為:Good:3/Fair:2/Bad:1。一些更詳細的評估使用5級分類(lèi):非常好、好、一般、差、非常差,對應的分數rel可以設置為:非常好:2 / 好:1 / 一般:0 / 差:-1 /非常糟糕:-2
  判斷結果的標準可以根據具體的應用來(lái)確定。非常好通常意味著(zhù)結果的主題完全相關(guān),網(wǎng)頁(yè)內容豐富,質(zhì)量高。并且具體到每一位
  
  
  DCG的計算公式不是唯一的。理論上,它只需要對數貼現因子的平滑度。我個(gè)人認為下面的DCG公式更合理,強調相關(guān)性,1、2的結果的折扣因子也更合理:
  
  
  此時(shí)DCG前4個(gè)位置結果的折扣因子值為:
  
  
  基于2的log值也來(lái)自經(jīng)驗公式,沒(méi)有理論依據。實(shí)際上,可以根據平滑要求修改Log的基數。當值增大時(shí)(例如用log5代替log2),折現因子下降得更快,強調了前面結果的權重。
  為了方便不同類(lèi)型查詢(xún)結果的橫向比較,基于DCG,一些評價(jià)系統也對DCG進(jìn)行了歸一化。這些方法統稱(chēng)為nDCG(即歸一化DCG)。最常用的計算方法是除以每個(gè)查詢(xún)的理想值iDCG(ideal DCG)進(jìn)行歸一化,公式為:
  
  
  對于nDCG,需要校準理想的iDCG。在實(shí)際操作中,難度極大,因為每個(gè)人對“最佳結果”的理解往往各不相同,從海量數據中選出最佳結果非常困難。但是,通常比較容易比較兩組結果,因此在實(shí)踐中通常選擇比較結果的方法進(jìn)行評估。
  如何實(shí)現自動(dòng)化評估?
  上面介紹的搜索引擎量化評價(jià)指標在克蘭菲爾德評價(jià)框架中得到了廣泛的應用。業(yè)界知名的TREC(Text Information Retrieval Conference)一直在基于這樣的方法組織信息檢索評估和技術(shù)交流。除了TREC,一些針對不同應用設計的Cranfield評測論壇也在進(jìn)行中(如NTCIR、IREX等)。
  但是 Cranfield 評估框架的問(wèn)題在于查詢(xún)樣本集合的標記。通過(guò)人工標注答案來(lái)評價(jià)網(wǎng)絡(luò )信息檢索是一個(gè)費時(shí)費力的過(guò)程,只有少數大公司可以使用。并且由于搜索引擎算法改進(jìn)和運維的需要,需要盡可能縮短檢索效果評價(jià)和反饋的時(shí)間,因此自動(dòng)化評價(jià)方法對于提高評價(jià)效率非常重要。最常用的自動(dòng)評估方法是 A/B 測試系統。
  A/B 測試
  
  
  A/B 測試系統
  A/B 測試系統在搜索用戶(hù)時(shí)自動(dòng)判斷用戶(hù)的bucket id,并自動(dòng)抽取流量導入不同的分支,讓對應組內的用戶(hù)看到不同的產(chǎn)品版本(或不同版本)。搜索引擎)。將記錄用戶(hù)在不同版本產(chǎn)品中的行為。這些行為數據通過(guò)數據分析形成一系列的指標,通過(guò)這些指標的比較,得出哪個(gè)版本好壞的結論。
  在指標的計算上,可以進(jìn)一步分為兩種方法,一種是基于專(zhuān)家評級;另一種是基于點(diǎn)擊統計。
  專(zhuān)家評分的方法通常由搜索核心技術(shù)研發(fā)和產(chǎn)品人員進(jìn)行。兩種環(huán)境A和B的結果按照預先設定的標準進(jìn)行評分,比較每個(gè)查詢(xún)的結果,并根據nDCG等方法計算整體質(zhì)量。
  點(diǎn)擊評分的自動(dòng)化程度更高。這里有一個(gè)假設:同樣的排序位置,點(diǎn)擊次數多的結果質(zhì)量要好于點(diǎn)擊次數少的結果。 (即A2代表A測試環(huán)境的第二個(gè)結果,如果A2>B2,說(shuō)明A2質(zhì)量較好)。通俗的說(shuō)就是相信群眾(因為群眾的眼睛是有眼光的)。在這個(gè)假設下,我們可以自動(dòng)將 A/B 環(huán)境中前 N 個(gè)結果的點(diǎn)擊率映射到分數上。通過(guò)統計大量的Query點(diǎn)擊結果,可以獲得可靠的分數對比。
  交錯測試
  此外,Thorsten Joachims 等人提出的 Interleaving 測試方法。在2003年也被廣泛使用。這種方法設計了一個(gè)元搜索引擎。用戶(hù)輸入查詢(xún)后,將查詢(xún)在多個(gè)知名搜索引擎中的查詢(xún)結果隨機混合反饋給用戶(hù),進(jìn)而采集用戶(hù)的結果點(diǎn)擊行為信息。根據用戶(hù)不同的點(diǎn)擊傾向,我們可以判斷搜索引擎返回結果的優(yōu)劣。
  如下圖,算法A和B的結果橫放,按流量劃分測試,記錄用戶(hù)點(diǎn)擊信息。根據點(diǎn)擊分布判斷A、B環(huán)境的優(yōu)劣。
  
  
  交錯測試評價(jià)方法
  Joachims 還證明了 Interleaving Testing 評估方法和傳統 Cranfield 評估方法的結果高度相關(guān)。由于記錄用戶(hù)對搜索結果的選擇是一個(gè)省力的過(guò)程,便于實(shí)現自動(dòng)搜索效果評估。
  總結
  沒(méi)有評價(jià)就沒(méi)有進(jìn)步。對搜索結果進(jìn)行定量評價(jià)的目的是準確找出現有搜索系統的不足(沒(méi)有搜索系統是完美的),然后逐步改進(jìn)算法和系統。本文為大家總結了常用的評價(jià)框架和評價(jià)指標。這些技術(shù)就像一把尺子,每次搜索技術(shù)進(jìn)步時(shí)都會(huì )測量距離。

如何根據廣告的業(yè)務(wù)要求設計更高效的索引和檢索

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 85 次瀏覽 ? 2021-07-20 02:05 ? 來(lái)自相關(guān)話(huà)題

  如何根據廣告的業(yè)務(wù)要求設計更高效的索引和檢索
  在競爭性廣告中,大量中小廣告主的搜索規模需要很高的計算效率。如何根據廣告的業(yè)務(wù)需求設計更高效的索引和檢索技術(shù)是競爭廣告系統要解決的關(guān)鍵問(wèn)題。
  要結合廣告檢索的具體需求,重點(diǎn)研究布爾表達式檢索和相關(guān)性檢索兩種場(chǎng)景下的算法
  從定價(jià)過(guò)程的輸入可以看出,對于一個(gè)以CPC結算的競價(jià)廣告系統,首先需要得到候選廣告集合,計算每個(gè)候選的點(diǎn)擊率,對應投標廣告中最關(guān)鍵的兩個(gè)計算問(wèn)題。 , 廣告檢索和廣告排序
  在競價(jià)廣告中,根據不同階段發(fā)生的點(diǎn)擊和轉化操作,根據 eCPM 對廣告進(jìn)行排序
  eCPM 可以分解為點(diǎn)擊率和點(diǎn)擊價(jià)值的乘積,
  搜索廣告系統
  搜索廣告與一般廣告網(wǎng)絡(luò )的主要區別在于上下文信息很強,用戶(hù)標簽的作用受到很大限制。搜索廣告的檢索過(guò)程一般不需要考慮用戶(hù)的影響,上下文信息是通過(guò)用戶(hù)輸入實(shí)時(shí)查詢(xún)和獲取的,所以線(xiàn)下受眾定位的過(guò)程基本可以忽略
  查詢(xún)擴展
  需求方需要通過(guò)關(guān)鍵詞擴容獲得更多流量,供應商需要借此實(shí)現更多流量,加大競價(jià)力度
  基于推薦的方法:
  如果將用戶(hù)在一個(gè)會(huì )話(huà)中的查詢(xún)視為一組具有相同目的的活動(dòng),則可以通過(guò)推薦技術(shù)在矩陣(會(huì )話(huà),查詢(xún))矩陣上生成相同的關(guān)鍵詞。此方法使用搜索日志數據,
  給定一組用戶(hù)會(huì )話(huà)和一組關(guān)鍵詞,可以生成相應的強交互矩陣。如果用戶(hù)搜索過(guò)某個(gè)關(guān)鍵詞,矩陣的對應元素會(huì )設置一個(gè)對應的交互值,比如用戶(hù)在一段時(shí)間內搜索該詞的次數
  顯然,這個(gè)矩陣中的大部分單元格都是空白的,但這并不意味著(zhù)用戶(hù)搜索該詞的可能性為零
  推薦的基本任務(wù)是根據這個(gè)矩陣中的已知元素值,可預測地填充那些歷史上沒(méi)有觀(guān)察到的單元。
  基于主題模型的方法:
  除了使用搜索到的日志數據,一般文檔數據也可以用于查詢(xún)擴展。這種方法本質(zhì)上是利用文檔主題模型將一個(gè)查詢(xún)擴展到其他具有相似主題的查詢(xún)
  基于歷史影響的方法:
  利用廣告歷史eCPM數據挖掘效果更好的相關(guān)查詢(xún),因為廣告主在選擇關(guān)鍵詞出價(jià)時(shí),一般會(huì )選擇多個(gè)組。如果從歷史數據中發(fā)現,一些關(guān)鍵詞對于某些特定的廣告客戶(hù),eCPM較高,因此應該記錄這些結果良好的查詢(xún)組。之后,當另一個(gè)廣告商也選擇了關(guān)鍵詞之一時(shí),它可以根據這些歷史記錄自動(dòng)進(jìn)行。記錄其他查詢(xún)結果更好
  廣告展示位置
  廣告投放是指搜索引擎廣告中確定北區和東區的廣告數量問(wèn)題
  考慮到用戶(hù)體驗,有必要限制北區的廣告數量。因此,這是一個(gè)典型的有約束的優(yōu)化問(wèn)題。約束是一段時(shí)間內北區整體的廣告數量,優(yōu)化目標是搜索廣告系統的整體收入。在廣告投放前的排序過(guò)程中,比較的是單個(gè)廣告,但這里的優(yōu)化需要處理一組廣告,需要考慮位置因素
  廣告網(wǎng)絡(luò )
  廣告網(wǎng)絡(luò )的成本就是對媒體資源的分減。
  廣告投放的決策過(guò)程:
  服務(wù)器接受前端用戶(hù)訪(fǎng)問(wèn)觸發(fā)的廣告請求,首先根據上下文信息和用戶(hù)標識從頁(yè)面標簽和用戶(hù)標簽中找出對應的上下文標簽和用戶(hù)標簽,然后使用這些標簽和其他一些廣告請求條件從廣告中找出符合要求的廣告候選集,最后使用CTR預測模型計算所有候選廣告的eCPM
  根據eCPM排名選擇中標的廣告返回上一階段完成投放
  短期行為反饋與流計算
  雖然用戶(hù)行為導向不適合搜索引擎,但如果可以快速處理會(huì )話(huà)中的一系列用戶(hù)查詢(xún),仍然有助于準確理解用戶(hù)意圖。除了這種短期的用戶(hù)行為反饋,廣告業(yè)務(wù)中還有一些場(chǎng)景需要快速處理在線(xiàn)日志
  實(shí)現反作弊、實(shí)時(shí)計費、短期用戶(hù)標簽和短期動(dòng)態(tài)功能
  MapReduce 使用分布式文件系統盡可能調度計算
  流計算就是在服務(wù)器之間調度數據來(lái)完成計算
  廣告搜索
  檢索布爾表達式
  廣告檢索與普通搜索引擎檢索的第一個(gè)區別是布爾表達式的檢索問(wèn)題。在以受眾為導向的銷(xiāo)售方式下,一個(gè)廣告文件不再可以看作是一個(gè)BoW,而應該看作是一個(gè)目標條件的組合。合成布爾表達式,
  布爾表達式檢索問(wèn)題有兩個(gè)特點(diǎn)。這兩個(gè)特性是設計算法的重要基礎。首先,當廣告請求的目標標簽滿(mǎn)足某個(gè) Conjunction 時(shí),它必須滿(mǎn)足該 Conjunction 的所有廣告。
  相關(guān)性搜索
  在長(cháng)查詢(xún)檢索的情況下,我們實(shí)際上希望查詢(xún)和廣告候選之間的相似度盡可能高,但是文檔中是否出現任何關(guān)鍵詞都沒(méi)有關(guān)系。這樣,針對文檔之間相似度的查詢(xún)和檢索問(wèn)題就變成了相關(guān)查詢(xún)
  解決相關(guān)性檢索的基本思想是在檢索階段引入一定的評價(jià)函數,根據該函數的評價(jià)結果??確定返回哪些候選。評價(jià)函數的設計要求:合理、高效,
  點(diǎn)擊率預測
  廣告點(diǎn)擊率預測的目的是對廣告進(jìn)行排序,但不能應用搜索中的排序問(wèn)題。點(diǎn)擊率預測不能像搜索一樣只要求結果排序的正確性,因為點(diǎn)擊率需要乘以點(diǎn)擊單價(jià)才能得到最終排名。 ,
  關(guān)于點(diǎn)擊率預測的方法,自然會(huì )想到基于統計的估計
  但是如果在某個(gè)組合中,ad a 沒(méi)有展示或者點(diǎn)擊量很少,那么歷史數據就不能用來(lái)統計點(diǎn)擊率。簡(jiǎn)單的解決方案是顯示廣告 a 和已顯示的廣告。類(lèi)似于a·,那么a的點(diǎn)擊率可以估計接近a·,
  大數據機器學(xué)習問(wèn)題往往需要迭代解決,Hadoop上的MapReduce已經(jīng)成為范式約束。每次迭代都需要由一個(gè) MapReduce Hadoop 作業(yè)完成。 Map讀取訓練數據和模型,并將數據分成塊。在集合上計算統計,Reduce聚合統計平臺并更新模型。由于從磁盤(pán)讀取訓練數據時(shí)map會(huì )產(chǎn)生大量的I/O,因此在Hadoop平臺上一次迭代的成本往往非常昂貴,單輪迭代時(shí)間無(wú)法優(yōu)化。如果要減少模型訓練的時(shí)間,只能減少模型訓練的次數。這就引出了以下業(yè)界常用的模型訓練思路:
  如果能降低每次迭代的成本,模型訓練的總時(shí)間也能大大優(yōu)化,于是出現了Spark這樣的平臺,它是一個(gè)將數據集緩存在分布式內存中的計算平臺。如果數據集的規??梢栽趦却嬷锌刂?,那么還是使用MapReduce范式來(lái)解決問(wèn)題,因為每次迭代不需要通過(guò)磁盤(pán)I/o讀取,大大減少了單次迭代的時(shí)間
  點(diǎn)擊率模型的校準
  點(diǎn)擊率預測問(wèn)題的數據挑戰之一是正負樣本嚴重不平衡,尤其是當展示廣告的點(diǎn)擊率只有千分之幾時(shí)。
  點(diǎn)擊率模型的特點(diǎn)
  點(diǎn)擊率預測問(wèn)題的主要挑戰在于,如果模型能夠捕捉到高度動(dòng)態(tài)的市場(chǎng)信號,就達到了更準確預測的目的。
  靜態(tài)特征:
  靜態(tài)特征是某些標簽的值或上下文和用戶(hù)標簽的特征組合,以及特定廣告與用戶(hù)的匹配程度
  動(dòng)態(tài)特性:
  當某個(gè)組合特征被觸發(fā)時(shí),我們不再用1,而是用這個(gè)組合歷史上一段時(shí)間的點(diǎn)擊率作為它的特征值
  可以理解為歷史點(diǎn)擊率作為一個(gè)動(dòng)態(tài)特征:我們最終要預測的是某個(gè)(a, u, c)上的點(diǎn)擊率,以及特征的組合( a, u, c) 點(diǎn)擊率可以看作是關(guān)于最終目標的弱決策者。通過(guò)融合這些特征組合對應的弱決策者,可以更容易地進(jìn)行預測,
  位置偏差
  如何去除位置等因素的影響? 查看全部

  如何根據廣告的業(yè)務(wù)要求設計更高效的索引和檢索
  在競爭性廣告中,大量中小廣告主的搜索規模需要很高的計算效率。如何根據廣告的業(yè)務(wù)需求設計更高效的索引和檢索技術(shù)是競爭廣告系統要解決的關(guān)鍵問(wèn)題。
  要結合廣告檢索的具體需求,重點(diǎn)研究布爾表達式檢索和相關(guān)性檢索兩種場(chǎng)景下的算法
  從定價(jià)過(guò)程的輸入可以看出,對于一個(gè)以CPC結算的競價(jià)廣告系統,首先需要得到候選廣告集合,計算每個(gè)候選的點(diǎn)擊率,對應投標廣告中最關(guān)鍵的兩個(gè)計算問(wèn)題。 , 廣告檢索和廣告排序
  在競價(jià)廣告中,根據不同階段發(fā)生的點(diǎn)擊和轉化操作,根據 eCPM 對廣告進(jìn)行排序
  eCPM 可以分解為點(diǎn)擊率和點(diǎn)擊價(jià)值的乘積,
  搜索廣告系統
  搜索廣告與一般廣告網(wǎng)絡(luò )的主要區別在于上下文信息很強,用戶(hù)標簽的作用受到很大限制。搜索廣告的檢索過(guò)程一般不需要考慮用戶(hù)的影響,上下文信息是通過(guò)用戶(hù)輸入實(shí)時(shí)查詢(xún)和獲取的,所以線(xiàn)下受眾定位的過(guò)程基本可以忽略
  查詢(xún)擴展
  需求方需要通過(guò)關(guān)鍵詞擴容獲得更多流量,供應商需要借此實(shí)現更多流量,加大競價(jià)力度
  基于推薦的方法:
  如果將用戶(hù)在一個(gè)會(huì )話(huà)中的查詢(xún)視為一組具有相同目的的活動(dòng),則可以通過(guò)推薦技術(shù)在矩陣(會(huì )話(huà),查詢(xún))矩陣上生成相同的關(guān)鍵詞。此方法使用搜索日志數據,
  給定一組用戶(hù)會(huì )話(huà)和一組關(guān)鍵詞,可以生成相應的強交互矩陣。如果用戶(hù)搜索過(guò)某個(gè)關(guān)鍵詞,矩陣的對應元素會(huì )設置一個(gè)對應的交互值,比如用戶(hù)在一段時(shí)間內搜索該詞的次數
  顯然,這個(gè)矩陣中的大部分單元格都是空白的,但這并不意味著(zhù)用戶(hù)搜索該詞的可能性為零
  推薦的基本任務(wù)是根據這個(gè)矩陣中的已知元素值,可預測地填充那些歷史上沒(méi)有觀(guān)察到的單元。
  基于主題模型的方法:
  除了使用搜索到的日志數據,一般文檔數據也可以用于查詢(xún)擴展。這種方法本質(zhì)上是利用文檔主題模型將一個(gè)查詢(xún)擴展到其他具有相似主題的查詢(xún)
  基于歷史影響的方法:
  利用廣告歷史eCPM數據挖掘效果更好的相關(guān)查詢(xún),因為廣告主在選擇關(guān)鍵詞出價(jià)時(shí),一般會(huì )選擇多個(gè)組。如果從歷史數據中發(fā)現,一些關(guān)鍵詞對于某些特定的廣告客戶(hù),eCPM較高,因此應該記錄這些結果良好的查詢(xún)組。之后,當另一個(gè)廣告商也選擇了關(guān)鍵詞之一時(shí),它可以根據這些歷史記錄自動(dòng)進(jìn)行。記錄其他查詢(xún)結果更好
  廣告展示位置
  廣告投放是指搜索引擎廣告中確定北區和東區的廣告數量問(wèn)題
  考慮到用戶(hù)體驗,有必要限制北區的廣告數量。因此,這是一個(gè)典型的有約束的優(yōu)化問(wèn)題。約束是一段時(shí)間內北區整體的廣告數量,優(yōu)化目標是搜索廣告系統的整體收入。在廣告投放前的排序過(guò)程中,比較的是單個(gè)廣告,但這里的優(yōu)化需要處理一組廣告,需要考慮位置因素
  廣告網(wǎng)絡(luò )
  廣告網(wǎng)絡(luò )的成本就是對媒體資源的分減。
  廣告投放的決策過(guò)程:
  服務(wù)器接受前端用戶(hù)訪(fǎng)問(wèn)觸發(fā)的廣告請求,首先根據上下文信息和用戶(hù)標識從頁(yè)面標簽和用戶(hù)標簽中找出對應的上下文標簽和用戶(hù)標簽,然后使用這些標簽和其他一些廣告請求條件從廣告中找出符合要求的廣告候選集,最后使用CTR預測模型計算所有候選廣告的eCPM
  根據eCPM排名選擇中標的廣告返回上一階段完成投放
  短期行為反饋與流計算
  雖然用戶(hù)行為導向不適合搜索引擎,但如果可以快速處理會(huì )話(huà)中的一系列用戶(hù)查詢(xún),仍然有助于準確理解用戶(hù)意圖。除了這種短期的用戶(hù)行為反饋,廣告業(yè)務(wù)中還有一些場(chǎng)景需要快速處理在線(xiàn)日志
  實(shí)現反作弊、實(shí)時(shí)計費、短期用戶(hù)標簽和短期動(dòng)態(tài)功能
  MapReduce 使用分布式文件系統盡可能調度計算
  流計算就是在服務(wù)器之間調度數據來(lái)完成計算
  廣告搜索
  檢索布爾表達式
  廣告檢索與普通搜索引擎檢索的第一個(gè)區別是布爾表達式的檢索問(wèn)題。在以受眾為導向的銷(xiāo)售方式下,一個(gè)廣告文件不再可以看作是一個(gè)BoW,而應該看作是一個(gè)目標條件的組合。合成布爾表達式,
  布爾表達式檢索問(wèn)題有兩個(gè)特點(diǎn)。這兩個(gè)特性是設計算法的重要基礎。首先,當廣告請求的目標標簽滿(mǎn)足某個(gè) Conjunction 時(shí),它必須滿(mǎn)足該 Conjunction 的所有廣告。
  相關(guān)性搜索
  在長(cháng)查詢(xún)檢索的情況下,我們實(shí)際上希望查詢(xún)和廣告候選之間的相似度盡可能高,但是文檔中是否出現任何關(guān)鍵詞都沒(méi)有關(guān)系。這樣,針對文檔之間相似度的查詢(xún)和檢索問(wèn)題就變成了相關(guān)查詢(xún)
  解決相關(guān)性檢索的基本思想是在檢索階段引入一定的評價(jià)函數,根據該函數的評價(jià)結果??確定返回哪些候選。評價(jià)函數的設計要求:合理、高效,
  點(diǎn)擊率預測
  廣告點(diǎn)擊率預測的目的是對廣告進(jìn)行排序,但不能應用搜索中的排序問(wèn)題。點(diǎn)擊率預測不能像搜索一樣只要求結果排序的正確性,因為點(diǎn)擊率需要乘以點(diǎn)擊單價(jià)才能得到最終排名。 ,
  關(guān)于點(diǎn)擊率預測的方法,自然會(huì )想到基于統計的估計
  但是如果在某個(gè)組合中,ad a 沒(méi)有展示或者點(diǎn)擊量很少,那么歷史數據就不能用來(lái)統計點(diǎn)擊率。簡(jiǎn)單的解決方案是顯示廣告 a 和已顯示的廣告。類(lèi)似于a·,那么a的點(diǎn)擊率可以估計接近a·,
  大數據機器學(xué)習問(wèn)題往往需要迭代解決,Hadoop上的MapReduce已經(jīng)成為范式約束。每次迭代都需要由一個(gè) MapReduce Hadoop 作業(yè)完成。 Map讀取訓練數據和模型,并將數據分成塊。在集合上計算統計,Reduce聚合統計平臺并更新模型。由于從磁盤(pán)讀取訓練數據時(shí)map會(huì )產(chǎn)生大量的I/O,因此在Hadoop平臺上一次迭代的成本往往非常昂貴,單輪迭代時(shí)間無(wú)法優(yōu)化。如果要減少模型訓練的時(shí)間,只能減少模型訓練的次數。這就引出了以下業(yè)界常用的模型訓練思路:
  如果能降低每次迭代的成本,模型訓練的總時(shí)間也能大大優(yōu)化,于是出現了Spark這樣的平臺,它是一個(gè)將數據集緩存在分布式內存中的計算平臺。如果數據集的規??梢栽趦却嬷锌刂?,那么還是使用MapReduce范式來(lái)解決問(wèn)題,因為每次迭代不需要通過(guò)磁盤(pán)I/o讀取,大大減少了單次迭代的時(shí)間
  點(diǎn)擊率模型的校準
  點(diǎn)擊率預測問(wèn)題的數據挑戰之一是正負樣本嚴重不平衡,尤其是當展示廣告的點(diǎn)擊率只有千分之幾時(shí)。
  點(diǎn)擊率模型的特點(diǎn)
  點(diǎn)擊率預測問(wèn)題的主要挑戰在于,如果模型能夠捕捉到高度動(dòng)態(tài)的市場(chǎng)信號,就達到了更準確預測的目的。
  靜態(tài)特征:
  靜態(tài)特征是某些標簽的值或上下文和用戶(hù)標簽的特征組合,以及特定廣告與用戶(hù)的匹配程度
  動(dòng)態(tài)特性:
  當某個(gè)組合特征被觸發(fā)時(shí),我們不再用1,而是用這個(gè)組合歷史上一段時(shí)間的點(diǎn)擊率作為它的特征值
  可以理解為歷史點(diǎn)擊率作為一個(gè)動(dòng)態(tài)特征:我們最終要預測的是某個(gè)(a, u, c)上的點(diǎn)擊率,以及特征的組合( a, u, c) 點(diǎn)擊率可以看作是關(guān)于最終目標的弱決策者。通過(guò)融合這些特征組合對應的弱決策者,可以更容易地進(jìn)行預測,
  位置偏差
  如何去除位置等因素的影響?

互聯(lián)網(wǎng)時(shí)代后的SEO只有精通這些高水平的技能

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 103 次瀏覽 ? 2021-07-19 00:25 ? 來(lái)自相關(guān)話(huà)題

  互聯(lián)網(wǎng)時(shí)代后的SEO只有精通這些高水平的技能
  互聯(lián)網(wǎng)時(shí)代,從PC到手機,從手機到人工智能,我們進(jìn)入了后互聯(lián)網(wǎng)時(shí)代?;ヂ?lián)網(wǎng)不再是經(jīng)濟發(fā)展的顛覆,也不再是突如其來(lái)的變革。她更像是卷入社會(huì )經(jīng)濟大局的重要一員。然而,PC時(shí)代搜索引擎優(yōu)化的輝煌已經(jīng)不復存在。 SEO在企業(yè)中的地位非常尷尬。牛力搜索引擎優(yōu)化風(fēng)生水起?;ヂ?lián)網(wǎng)時(shí)代后的SEO只需要精通這些高級SEO技巧即可。 ---互聯(lián)網(wǎng)整合營(yíng)銷(xiāo)策劃顧問(wèn)-楊小道
  1、聚合頁(yè)面優(yōu)化
  主題、頻道列、文章list、標簽聚合。
  有些網(wǎng)站權重很高,內容信息量很大,信息量一般在幾萬(wàn)左右。做這種網(wǎng)站通常需要特殊的分析、診斷和設計變更。但是為了增加整體的流量,我們可以簡(jiǎn)單的把這種網(wǎng)站看成只有兩種類(lèi)型的頁(yè)面,即內容頁(yè)面和聚合頁(yè)面?,F在很多大中型網(wǎng)站都會(huì )使用網(wǎng)站中的標簽來(lái)創(chuàng )建一些獨特的頁(yè)面來(lái)獲取一些長(cháng)尾流量,但這應該是基于關(guān)鍵詞的過(guò)濾和控制,因為大量不相關(guān)的聚合搜索流量來(lái)源會(huì )導致整個(gè)網(wǎng)站主題的偏差,可能會(huì )嚴重削弱權益。
  2、泛分析站群+蜘蛛池
  SEO黑客技術(shù)常用,黑客對灰色行業(yè)的影響是毋庸置疑的。一萬(wàn)字保存在這里。
  3、漢密爾頓環(huán)鏈輪基本款
  每個(gè)都有自己的漢密爾頓環(huán)鏈輪基本模型。楊小道也有自己的SEO鏈輪基礎模型
  4、原創(chuàng )Continuous文章技術(shù)
  原創(chuàng )性?什么是創(chuàng )造力?就像一個(gè)人的身份證存在于**上一樣,是最上面的,沒(méi)有重復。原文文章也是一樣,網(wǎng)上只有一篇文章,沒(méi)有重復。那么,作為SEOER,我們應該如何創(chuàng )建文章?
  首先,一個(gè)好的原創(chuàng )文章一定要有一個(gè)好的標題
  一、根據我平時(shí)的經(jīng)驗,想一想我會(huì )在搜索引擎中填寫(xiě)的句子或內容,根據我的實(shí)際情況來(lái)寫(xiě);例如:什么是 SEO?
  二、查看peer網(wǎng)站的關(guān)鍵詞,分析一下,得到適合自己的,有一定熱情的關(guān)鍵詞。將它們插入標題中,并對主關(guān)鍵字和子關(guān)鍵字進(jìn)行排序和組合。比如主關(guān)鍵詞是“SEO”,子關(guān)鍵詞是“原創(chuàng )文章”,組合關(guān)鍵詞是“SEO原創(chuàng )文章”。
  三、 了解用戶(hù)需求,觀(guān)察一些論壇、貼吧、問(wèn)答等交流平臺,了解用戶(hù)平時(shí)喜歡搜索什么,關(guān)心什么?例如:如何創(chuàng )建SEO文章? SEO原創(chuàng )文章怎么寫(xiě)?
  四、在思考的過(guò)程中,查看百度、360、搜狗等與您同名或相關(guān)內容的搜索引擎的搜索結果。如果有更多,我們建議您更改標題,以便百度更快地采集您的文章
  其次,一個(gè)好的原創(chuàng )文章不僅要有原創(chuàng )的標題,還要有原創(chuàng )的內容
  一、寫(xiě)文章時(shí),請注意增加文章前100字關(guān)鍵詞“SEO原創(chuàng )文章”的密度! 100字應該有2-3次。
  二、研究用戶(hù)心理,就像寫(xiě)標題一樣,可以看到用戶(hù)的需求以及用戶(hù)點(diǎn)擊這篇文章想要看到和理解的內容。
  三、正文的內容部分,需要能夠在“SEO原創(chuàng )文章”中搜索相關(guān)信息關(guān)鍵詞。這就是區別于普通原創(chuàng )文章的關(guān)鍵。讓人們可以在不同的相關(guān)關(guān)鍵詞中搜索到相同的文章文章。
  四、原來(lái)文章的內容其實(shí)是為了與你想表達的相處;例如:在原來(lái)的SEO文章寫(xiě)下自己的感受。共同點(diǎn)是寫(xiě)印象。
  之后
  ,結尾也是蜘蛛爬行的關(guān)鍵。結束方式如下:
  關(guān)鍵詞 必須出現在 200 字的末尾,記住。應該有一個(gè)好的開(kāi)始和一個(gè)好的結束。成功的SEO公式=持久化+原創(chuàng )內容+優(yōu)質(zhì)外鏈
  原創(chuàng )性是一個(gè)所謂的工具,它使用你的想法,然后用文字寫(xiě)下來(lái)。這就是創(chuàng )造力??赐曛?,你覺(jué)得創(chuàng )意有那么簡(jiǎn)單嗎?大體意思就是自己寫(xiě)文章。 查看全部

  互聯(lián)網(wǎng)時(shí)代后的SEO只有精通這些高水平的技能
  互聯(lián)網(wǎng)時(shí)代,從PC到手機,從手機到人工智能,我們進(jìn)入了后互聯(lián)網(wǎng)時(shí)代?;ヂ?lián)網(wǎng)不再是經(jīng)濟發(fā)展的顛覆,也不再是突如其來(lái)的變革。她更像是卷入社會(huì )經(jīng)濟大局的重要一員。然而,PC時(shí)代搜索引擎優(yōu)化的輝煌已經(jīng)不復存在。 SEO在企業(yè)中的地位非常尷尬。牛力搜索引擎優(yōu)化風(fēng)生水起?;ヂ?lián)網(wǎng)時(shí)代后的SEO只需要精通這些高級SEO技巧即可。 ---互聯(lián)網(wǎng)整合營(yíng)銷(xiāo)策劃顧問(wèn)-楊小道
  1、聚合頁(yè)面優(yōu)化
  主題、頻道列、文章list、標簽聚合。
  有些網(wǎng)站權重很高,內容信息量很大,信息量一般在幾萬(wàn)左右。做這種網(wǎng)站通常需要特殊的分析、診斷和設計變更。但是為了增加整體的流量,我們可以簡(jiǎn)單的把這種網(wǎng)站看成只有兩種類(lèi)型的頁(yè)面,即內容頁(yè)面和聚合頁(yè)面?,F在很多大中型網(wǎng)站都會(huì )使用網(wǎng)站中的標簽來(lái)創(chuàng )建一些獨特的頁(yè)面來(lái)獲取一些長(cháng)尾流量,但這應該是基于關(guān)鍵詞的過(guò)濾和控制,因為大量不相關(guān)的聚合搜索流量來(lái)源會(huì )導致整個(gè)網(wǎng)站主題的偏差,可能會(huì )嚴重削弱權益。
  2、泛分析站群+蜘蛛池
  SEO黑客技術(shù)常用,黑客對灰色行業(yè)的影響是毋庸置疑的。一萬(wàn)字保存在這里。
  3、漢密爾頓環(huán)鏈輪基本款
  每個(gè)都有自己的漢密爾頓環(huán)鏈輪基本模型。楊小道也有自己的SEO鏈輪基礎模型
  4、原創(chuàng )Continuous文章技術(shù)
  原創(chuàng )性?什么是創(chuàng )造力?就像一個(gè)人的身份證存在于**上一樣,是最上面的,沒(méi)有重復。原文文章也是一樣,網(wǎng)上只有一篇文章,沒(méi)有重復。那么,作為SEOER,我們應該如何創(chuàng )建文章?
  首先,一個(gè)好的原創(chuàng )文章一定要有一個(gè)好的標題
  一、根據我平時(shí)的經(jīng)驗,想一想我會(huì )在搜索引擎中填寫(xiě)的句子或內容,根據我的實(shí)際情況來(lái)寫(xiě);例如:什么是 SEO?
  二、查看peer網(wǎng)站的關(guān)鍵詞,分析一下,得到適合自己的,有一定熱情的關(guān)鍵詞。將它們插入標題中,并對主關(guān)鍵字和子關(guān)鍵字進(jìn)行排序和組合。比如主關(guān)鍵詞是“SEO”,子關(guān)鍵詞是“原創(chuàng )文章”,組合關(guān)鍵詞是“SEO原創(chuàng )文章”。
  三、 了解用戶(hù)需求,觀(guān)察一些論壇、貼吧、問(wèn)答等交流平臺,了解用戶(hù)平時(shí)喜歡搜索什么,關(guān)心什么?例如:如何創(chuàng )建SEO文章? SEO原創(chuàng )文章怎么寫(xiě)?
  四、在思考的過(guò)程中,查看百度、360、搜狗等與您同名或相關(guān)內容的搜索引擎的搜索結果。如果有更多,我們建議您更改標題,以便百度更快地采集您的文章
  其次,一個(gè)好的原創(chuàng )文章不僅要有原創(chuàng )的標題,還要有原創(chuàng )的內容
  一、寫(xiě)文章時(shí),請注意增加文章前100字關(guān)鍵詞“SEO原創(chuàng )文章”的密度! 100字應該有2-3次。
  二、研究用戶(hù)心理,就像寫(xiě)標題一樣,可以看到用戶(hù)的需求以及用戶(hù)點(diǎn)擊這篇文章想要看到和理解的內容。
  三、正文的內容部分,需要能夠在“SEO原創(chuàng )文章”中搜索相關(guān)信息關(guān)鍵詞。這就是區別于普通原創(chuàng )文章的關(guān)鍵。讓人們可以在不同的相關(guān)關(guān)鍵詞中搜索到相同的文章文章。
  四、原來(lái)文章的內容其實(shí)是為了與你想表達的相處;例如:在原來(lái)的SEO文章寫(xiě)下自己的感受。共同點(diǎn)是寫(xiě)印象。
  之后
  ,結尾也是蜘蛛爬行的關(guān)鍵。結束方式如下:
  關(guān)鍵詞 必須出現在 200 字的末尾,記住。應該有一個(gè)好的開(kāi)始和一個(gè)好的結束。成功的SEO公式=持久化+原創(chuàng )內容+優(yōu)質(zhì)外鏈
  原創(chuàng )性是一個(gè)所謂的工具,它使用你的想法,然后用文字寫(xiě)下來(lái)。這就是創(chuàng )造力??赐曛?,你覺(jué)得創(chuàng )意有那么簡(jiǎn)單嗎?大體意思就是自己寫(xiě)文章。

17年SEO搜索引擎:核心技術(shù)詳解--梳理總結

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 109 次瀏覽 ? 2021-07-17 19:00 ? 來(lái)自相關(guān)話(huà)題

  17年SEO搜索引擎:核心技術(shù)詳解--梳理總結
  2017年因項目需要,學(xué)習整理了一些SEO相關(guān)的知識,可以分為兩部分:
  《搜索引擎:核心技術(shù)詳解》---梳理與總結
  SEO 搜索引擎優(yōu)化
  本文主要內容是對閱讀《搜索引擎:核心技術(shù)詳解》時(shí)的一些知識進(jìn)行梳理和總結,包括搜索引擎索引、鏈接分析和網(wǎng)頁(yè)反作弊三部分一、搜索引擎索引
  Index,如書(shū)籍目錄,是一種索引結構,其目的是讓人們更快地搜索相關(guān)章節。搜索引擎索引簡(jiǎn)單的理解就是抓取頁(yè)面后對數據進(jìn)行排序整理的過(guò)程。搜索引擎的索引就是實(shí)現word-document矩陣的數據結構。在實(shí)際應用中實(shí)現的方式有很多種,常見(jiàn)的就是倒排索引。
  索引的基本概念
  引擎的基本索引模型是一個(gè)word-document矩陣,如圖:
  橫向可以看到哪些文檔收錄某個(gè)詞匯,縱向可以看到某個(gè)文檔收錄哪些關(guān)鍵詞
  
  
  在實(shí)際的搜索引擎中,一般記錄的不是文檔編號,而是相鄰兩個(gè)文檔的差值。這樣就將大值轉換成小值,提高了壓縮效率
  創(chuàng )建索引
  
  缺點(diǎn):從磁盤(pán)中讀取文檔并解析文檔基本上是最耗時(shí)的步驟,而且兩次掃描方式在速度上沒(méi)有優(yōu)勢,因為它需要遍歷文檔集合兩次。在實(shí)踐中,這種方法的系統并不常見(jiàn)。
  
  動(dòng)態(tài)索引
  實(shí)時(shí)反映索引變化,3種關(guān)鍵索引結構:倒排索引、臨時(shí)索引、刪除文檔列表。
  索引更新策略
  當臨時(shí)索引越來(lái)越內存不足時(shí),需要將臨時(shí)索引寫(xiě)入disk-index更新策略
  常用的索引更新策略有4種:完全重建策略、重新合并策略、就地更新策略和混合策略。
  完全重構策略----新文檔臨時(shí)索引+舊文檔--------->遍歷生成新索引(放棄舊索引)再合并策略----新文檔索引+舊索引- --->合并生成新索引(拋棄舊索引)原位更新策略--增量索引+舊索引---->舊索引+附加新倒排信息混合策略----一般對詞進(jìn)行分類(lèi),然后使用不同的更新策略
  二、Link 分析概念模型
  隨機游走模型----是一個(gè)概念模型,抽象了兩種用戶(hù)瀏覽行為,直接跳轉和遠程跳轉。許多鏈接分析算法,包括PageRank算法,都是基于隨機游走模型的。
  
  假設互聯(lián)網(wǎng)由3個(gè)網(wǎng)頁(yè)A、B、C組成,圖中頁(yè)面節點(diǎn)之間的有向邊表示相互鏈接關(guān)系。根據鏈接關(guān)系,可以計算出頁(yè)面節點(diǎn)之間的轉移概率。例如,對于節點(diǎn) A,只有一條到節點(diǎn) B 的輸出鏈路,所以從節點(diǎn) A 跳到節點(diǎn) B 的概率為 1,對于節點(diǎn) C,它有到節點(diǎn) A 和 B 的鏈路,所以轉向的概率為任何其他節點(diǎn)都是 1/2。假設在時(shí)間1,用戶(hù)瀏覽頁(yè)面A,然后通過(guò)鏈接進(jìn)入頁(yè)面B,然后進(jìn)入頁(yè)面C,此時(shí)他面臨兩種可能的選擇??梢蕴D到頁(yè)面A或頁(yè)面B,兩者的概率相同,都是1/2。假設示例中的Internet收錄3個(gè)以上的頁(yè)面,但由10個(gè)頁(yè)面組成。這時(shí)候用戶(hù)既不想跳回頁(yè)面A也不想跳回頁(yè)面B,他可以以1/10的概率跳到任何其他頁(yè)面,即遠程跳轉。
  子集傳播模型——將網(wǎng)頁(yè)按照一定的規則分成兩個(gè)甚至多個(gè)子集。某個(gè)子集合具有特殊屬性。許多算法通常從這個(gè)子集合開(kāi)始,并為子集合中的網(wǎng)頁(yè)賦予初始權重。然后,根據該特殊子集合中的網(wǎng)頁(yè)與其他網(wǎng)頁(yè)之間的鏈接關(guān)系,以某種方式分配權重。該值被傳遞到其他網(wǎng)頁(yè)。
  鏈接分析算法
  在眾多算法中,PageRank 和 HITS 可以說(shuō)是最重要的兩種具有代表性的鏈接分析算法。很多后續的鏈接分析算法都是從這兩種算法衍生出來(lái)的改進(jìn)算法。
  
  PageRank 算法
  每個(gè)頁(yè)面都會(huì )將其當前的PageRank值平均分配給該頁(yè)面收錄的傳出鏈接,從而使每個(gè)鏈接獲得相應的權重。并且每個(gè)頁(yè)面將所有指向該頁(yè)面的鏈內傳遞的權重相加,以獲得新的 PageRank 分數。
  HITS 算法
  權威頁(yè)面是指與某個(gè)領(lǐng)域或主題相關(guān)的高質(zhì)量網(wǎng)頁(yè)。例如,在搜索引擎領(lǐng)域,谷歌和百度的主頁(yè)都是該領(lǐng)域的優(yōu)質(zhì)網(wǎng)頁(yè);例如,在視頻領(lǐng)域,優(yōu)酷和土豆主頁(yè)是該領(lǐng)域的優(yōu)質(zhì)網(wǎng)頁(yè)。中心頁(yè)面是指收錄許多指向高質(zhì)量權威頁(yè)面的鏈接的網(wǎng)頁(yè)。
  Hub 和 Authority 之間的相輔相成的關(guān)系。 HITS算法與用戶(hù)輸入的查詢(xún)請求密切相關(guān),而PageRank算法是全局算法,與查詢(xún)無(wú)關(guān)。
  HITS算法的目的是利用一定的技術(shù)手段,在大量網(wǎng)頁(yè)中,特別是Authority頁(yè)面中,找到與用戶(hù)查詢(xún)主題相關(guān)的高質(zhì)量Authority頁(yè)面和Hub頁(yè)面,因為這些頁(yè)面代表了高質(zhì)量可以滿(mǎn)足用戶(hù)的查詢(xún)。內容,搜索引擎以此作為搜索結果返回給用戶(hù)。
  SALSA算法----請求--->擴展網(wǎng)頁(yè)子集----->轉向無(wú)向二部圖---->計算權重--->返回結果
  
  hilltop----專(zhuān)家網(wǎng)絡(luò )搜索---->著(zhù)陸頁(yè)排序
  主題敏感PageRank----離線(xiàn)分類(lèi)主題PR值計算---->請求是相似度比較計算---->前兩者的乘積之和
  HITS算法與PageRank算法對比
  HITS算法與用戶(hù)輸入的查詢(xún)請求密切相關(guān),而PageRank與查詢(xún)請求無(wú)關(guān)。因此,可以單獨使用HITS算法作為相似度計算的評價(jià)標準,而PageRank必須與內容相似度計算相結合,才能用于評價(jià)網(wǎng)頁(yè)的相關(guān)性。由于HITS算法與用戶(hù)查詢(xún)密切相關(guān),必須在收到用戶(hù)查詢(xún)后進(jìn)行實(shí)時(shí)計算,計算效率低;而PageRank可以在爬取完成后離線(xiàn)計算,計算結果可以直接在線(xiàn)使用,計算效率更高。 HITS算法計算對象少,只需要計算擴展集中網(wǎng)頁(yè)之間的鏈接關(guān)系;而 PageRank 是一種全局算法,可以處理所有 Internet 頁(yè)面節點(diǎn)。從兩者的計算效率和處理對象集合大小的比較來(lái)看,PageRank更適合部署在服務(wù)器端,而HITS算法更適合部署在客戶(hù)端。 HITS算法存在話(huà)題泛化的問(wèn)題,所以更適合處理特定的用戶(hù)查詢(xún);而PageRank算法在處理大范圍的用戶(hù)查詢(xún)方面更有優(yōu)勢。 HITS算法需要為每個(gè)頁(yè)面計算兩個(gè)分數,而PageRank算法只需要計算一個(gè)分數;在搜索引擎領(lǐng)域,更多關(guān)注的是HITS算法計算出的權威權重,但在其他很多應用HITS算法的領(lǐng)域,Hub score也很重要。從鏈接防作弊的角度來(lái)看,PageRank在機制上優(yōu)于HITS算法,HITS算法更容易受到鏈接作弊的影響。 HITS算法的結構不穩定。當擴展網(wǎng)頁(yè)集合中的鏈接關(guān)系稍有改動(dòng)時(shí),就會(huì )對最終排名產(chǎn)生很大的影響;而與 HITS 相比,PageRank 算法是穩定的。根本原因是PageRank計算時(shí)的遠程跳轉。 . 三、網(wǎng)絡(luò )作弊
  從大類(lèi)來(lái)看,比較常見(jiàn)的作弊方式有:內容作弊、鏈接作弊、隱藏作弊,以及近年來(lái)興起的Web2.0作弊方式。學(xué)術(shù)界和搜索引擎公司也有針對性地提出了各種反作弊算法。
  內容作弊
  內容作弊的目的是精心修改或規范網(wǎng)頁(yè)內容,使網(wǎng)頁(yè)在與其網(wǎng)頁(yè)不相稱(chēng)的搜索引擎排名中獲得較高的排名。搜索引擎排名一般包括內容相似度和鏈接重要性計算。內容作弊主要針對搜索引擎排名算法的內容相似度計算部分。通過(guò)故意增加目標詞的頻率,或在網(wǎng)頁(yè)重要位置引入網(wǎng)頁(yè)內容不相關(guān)的詞影響搜索結果的排名。
  常見(jiàn)內容作弊方式:關(guān)鍵詞repetition、無(wú)關(guān)查詢(xún)詞作弊、圖片alt標簽文字作弊、網(wǎng)頁(yè)標題作弊、網(wǎng)頁(yè)重要標簽作弊、網(wǎng)頁(yè)元信息作弊
  內容農場(chǎng):內容農場(chǎng)運營(yíng)商廉價(jià)雇用大量自由職業(yè)者來(lái)支持他們的付費寫(xiě)作,但寫(xiě)作內容的質(zhì)量通常較低。很多文章都是通過(guò)復制和稍加修改來(lái)完成的,但是他們會(huì )研究搜索引擎的熱門(mén)搜索詞等,并將這些詞有機地添加到寫(xiě)作內容中。這樣,普通搜索引擎用戶(hù)在搜索時(shí)就會(huì )被吸引到內容農場(chǎng)網(wǎng)站,內容農場(chǎng)可以通過(guò)大量低質(zhì)量?jì)热菸髁縼?lái)賺取廣告費用。
  
  鏈接作弊
  所謂鏈接作弊就是網(wǎng)站owner考慮到在搜索引擎排名中使用鏈接分析技術(shù),所以通過(guò)操縱頁(yè)面之間的鏈接關(guān)系,或者操縱頁(yè)面之間的鏈接錨文本,來(lái)增加鏈接排名因素的得分以及影響搜索結果排名的作弊方式。
  為了提高網(wǎng)頁(yè)的搜索引擎鏈接排名,鏈接農場(chǎng)建立了一個(gè)龐大的網(wǎng)頁(yè)集合,這些網(wǎng)頁(yè)相互之間有著(zhù)密切的聯(lián)系,希望通過(guò)搜索引擎鏈接算法的機制來(lái)提高網(wǎng)頁(yè)排名。大量的相互聯(lián)系。鏈接農場(chǎng)中頁(yè)面的鏈接密度極高,任何兩個(gè)頁(yè)面都可能有相互指向的鏈接。
  
  錨文本是指向某個(gè)網(wǎng)頁(yè)的鏈接的描述文本。這些描述信息往往反映了所指向網(wǎng)頁(yè)的內容主題,因此搜索引擎在排名算法中經(jīng)常使用它。作弊者精心設置錨文本內容,誘使搜索引擎對目標網(wǎng)頁(yè)給予更高的排名。一般來(lái)說(shuō),作弊者設置的錨文本與目標網(wǎng)頁(yè)的內容無(wú)關(guān)。
  幾年前,有一個(gè)著(zhù)名的例子,就是利用谷歌轟炸來(lái)操縱搜索結果的排名。那時(shí),如果你在谷歌上搜索“悲慘的失敗”,你會(huì )發(fā)現第二個(gè)搜索結果是時(shí)任美國總統喬治·W·布什的白宮頁(yè)面。這是通過(guò)構建許多其他網(wǎng)頁(yè),包括指向目標頁(yè)面的鏈接,其鏈接錨文本收錄“悲慘失敗”關(guān)鍵詞 實(shí)現的效果。
  
  “門(mén)頁(yè)”本身不收錄正文內容,而是由大量鏈接組成,而這些鏈接往往指向同一個(gè)網(wǎng)站
  在頁(yè)面中,作弊者創(chuàng )建了大量的“門(mén)頁(yè)”,以提高網(wǎng)站排名。
  頁(yè)面隱藏作弊
  頁(yè)面隱藏作弊利用某種手段欺騙搜索引擎爬蟲(chóng),使搜索引擎爬取的頁(yè)面內容和用戶(hù)點(diǎn)擊查看
  您看到的頁(yè)面內容不同,從而影響搜索引擎的搜索結果。隱藏頁(yè)面和作弊的常見(jiàn)方法
  以下是幾個(gè)。
  1.IP偽裝(IP Cloaking)
  網(wǎng)頁(yè)所有者在服務(wù)器端記錄搜索引擎爬蟲(chóng)的IP地址列表,如果發(fā)現搜索引擎在請求頁(yè)面上
  對于人臉,它會(huì )向爬蟲(chóng)推送一個(gè)虛假的網(wǎng)頁(yè)內容,如果是另一個(gè)IP地址,它會(huì )推送另一個(gè)網(wǎng)頁(yè)
  內容,此頁(yè)面通常是具有商業(yè)目的的營(yíng)銷(xiāo)頁(yè)面。 查看全部

  17年SEO搜索引擎:核心技術(shù)詳解--梳理總結
  2017年因項目需要,學(xué)習整理了一些SEO相關(guān)的知識,可以分為兩部分:
  《搜索引擎:核心技術(shù)詳解》---梳理與總結
  SEO 搜索引擎優(yōu)化
  本文主要內容是對閱讀《搜索引擎:核心技術(shù)詳解》時(shí)的一些知識進(jìn)行梳理和總結,包括搜索引擎索引、鏈接分析和網(wǎng)頁(yè)反作弊三部分一、搜索引擎索引
  Index,如書(shū)籍目錄,是一種索引結構,其目的是讓人們更快地搜索相關(guān)章節。搜索引擎索引簡(jiǎn)單的理解就是抓取頁(yè)面后對數據進(jìn)行排序整理的過(guò)程。搜索引擎的索引就是實(shí)現word-document矩陣的數據結構。在實(shí)際應用中實(shí)現的方式有很多種,常見(jiàn)的就是倒排索引。
  索引的基本概念
  引擎的基本索引模型是一個(gè)word-document矩陣,如圖:
  橫向可以看到哪些文檔收錄某個(gè)詞匯,縱向可以看到某個(gè)文檔收錄哪些關(guān)鍵詞
  
  
  在實(shí)際的搜索引擎中,一般記錄的不是文檔編號,而是相鄰兩個(gè)文檔的差值。這樣就將大值轉換成小值,提高了壓縮效率
  創(chuàng )建索引
  
  缺點(diǎn):從磁盤(pán)中讀取文檔并解析文檔基本上是最耗時(shí)的步驟,而且兩次掃描方式在速度上沒(méi)有優(yōu)勢,因為它需要遍歷文檔集合兩次。在實(shí)踐中,這種方法的系統并不常見(jiàn)。
  
  動(dòng)態(tài)索引
  實(shí)時(shí)反映索引變化,3種關(guān)鍵索引結構:倒排索引、臨時(shí)索引、刪除文檔列表。
  索引更新策略
  當臨時(shí)索引越來(lái)越內存不足時(shí),需要將臨時(shí)索引寫(xiě)入disk-index更新策略
  常用的索引更新策略有4種:完全重建策略、重新合并策略、就地更新策略和混合策略。
  完全重構策略----新文檔臨時(shí)索引+舊文檔--------->遍歷生成新索引(放棄舊索引)再合并策略----新文檔索引+舊索引- --->合并生成新索引(拋棄舊索引)原位更新策略--增量索引+舊索引---->舊索引+附加新倒排信息混合策略----一般對詞進(jìn)行分類(lèi),然后使用不同的更新策略
  二、Link 分析概念模型
  隨機游走模型----是一個(gè)概念模型,抽象了兩種用戶(hù)瀏覽行為,直接跳轉和遠程跳轉。許多鏈接分析算法,包括PageRank算法,都是基于隨機游走模型的。
  
  假設互聯(lián)網(wǎng)由3個(gè)網(wǎng)頁(yè)A、B、C組成,圖中頁(yè)面節點(diǎn)之間的有向邊表示相互鏈接關(guān)系。根據鏈接關(guān)系,可以計算出頁(yè)面節點(diǎn)之間的轉移概率。例如,對于節點(diǎn) A,只有一條到節點(diǎn) B 的輸出鏈路,所以從節點(diǎn) A 跳到節點(diǎn) B 的概率為 1,對于節點(diǎn) C,它有到節點(diǎn) A 和 B 的鏈路,所以轉向的概率為任何其他節點(diǎn)都是 1/2。假設在時(shí)間1,用戶(hù)瀏覽頁(yè)面A,然后通過(guò)鏈接進(jìn)入頁(yè)面B,然后進(jìn)入頁(yè)面C,此時(shí)他面臨兩種可能的選擇??梢蕴D到頁(yè)面A或頁(yè)面B,兩者的概率相同,都是1/2。假設示例中的Internet收錄3個(gè)以上的頁(yè)面,但由10個(gè)頁(yè)面組成。這時(shí)候用戶(hù)既不想跳回頁(yè)面A也不想跳回頁(yè)面B,他可以以1/10的概率跳到任何其他頁(yè)面,即遠程跳轉。
  子集傳播模型——將網(wǎng)頁(yè)按照一定的規則分成兩個(gè)甚至多個(gè)子集。某個(gè)子集合具有特殊屬性。許多算法通常從這個(gè)子集合開(kāi)始,并為子集合中的網(wǎng)頁(yè)賦予初始權重。然后,根據該特殊子集合中的網(wǎng)頁(yè)與其他網(wǎng)頁(yè)之間的鏈接關(guān)系,以某種方式分配權重。該值被傳遞到其他網(wǎng)頁(yè)。
  鏈接分析算法
  在眾多算法中,PageRank 和 HITS 可以說(shuō)是最重要的兩種具有代表性的鏈接分析算法。很多后續的鏈接分析算法都是從這兩種算法衍生出來(lái)的改進(jìn)算法。
  
  PageRank 算法
  每個(gè)頁(yè)面都會(huì )將其當前的PageRank值平均分配給該頁(yè)面收錄的傳出鏈接,從而使每個(gè)鏈接獲得相應的權重。并且每個(gè)頁(yè)面將所有指向該頁(yè)面的鏈內傳遞的權重相加,以獲得新的 PageRank 分數。
  HITS 算法
  權威頁(yè)面是指與某個(gè)領(lǐng)域或主題相關(guān)的高質(zhì)量網(wǎng)頁(yè)。例如,在搜索引擎領(lǐng)域,谷歌和百度的主頁(yè)都是該領(lǐng)域的優(yōu)質(zhì)網(wǎng)頁(yè);例如,在視頻領(lǐng)域,優(yōu)酷和土豆主頁(yè)是該領(lǐng)域的優(yōu)質(zhì)網(wǎng)頁(yè)。中心頁(yè)面是指收錄許多指向高質(zhì)量權威頁(yè)面的鏈接的網(wǎng)頁(yè)。
  Hub 和 Authority 之間的相輔相成的關(guān)系。 HITS算法與用戶(hù)輸入的查詢(xún)請求密切相關(guān),而PageRank算法是全局算法,與查詢(xún)無(wú)關(guān)。
  HITS算法的目的是利用一定的技術(shù)手段,在大量網(wǎng)頁(yè)中,特別是Authority頁(yè)面中,找到與用戶(hù)查詢(xún)主題相關(guān)的高質(zhì)量Authority頁(yè)面和Hub頁(yè)面,因為這些頁(yè)面代表了高質(zhì)量可以滿(mǎn)足用戶(hù)的查詢(xún)。內容,搜索引擎以此作為搜索結果返回給用戶(hù)。
  SALSA算法----請求--->擴展網(wǎng)頁(yè)子集----->轉向無(wú)向二部圖---->計算權重--->返回結果
  
  hilltop----專(zhuān)家網(wǎng)絡(luò )搜索---->著(zhù)陸頁(yè)排序
  主題敏感PageRank----離線(xiàn)分類(lèi)主題PR值計算---->請求是相似度比較計算---->前兩者的乘積之和
  HITS算法與PageRank算法對比
  HITS算法與用戶(hù)輸入的查詢(xún)請求密切相關(guān),而PageRank與查詢(xún)請求無(wú)關(guān)。因此,可以單獨使用HITS算法作為相似度計算的評價(jià)標準,而PageRank必須與內容相似度計算相結合,才能用于評價(jià)網(wǎng)頁(yè)的相關(guān)性。由于HITS算法與用戶(hù)查詢(xún)密切相關(guān),必須在收到用戶(hù)查詢(xún)后進(jìn)行實(shí)時(shí)計算,計算效率低;而PageRank可以在爬取完成后離線(xiàn)計算,計算結果可以直接在線(xiàn)使用,計算效率更高。 HITS算法計算對象少,只需要計算擴展集中網(wǎng)頁(yè)之間的鏈接關(guān)系;而 PageRank 是一種全局算法,可以處理所有 Internet 頁(yè)面節點(diǎn)。從兩者的計算效率和處理對象集合大小的比較來(lái)看,PageRank更適合部署在服務(wù)器端,而HITS算法更適合部署在客戶(hù)端。 HITS算法存在話(huà)題泛化的問(wèn)題,所以更適合處理特定的用戶(hù)查詢(xún);而PageRank算法在處理大范圍的用戶(hù)查詢(xún)方面更有優(yōu)勢。 HITS算法需要為每個(gè)頁(yè)面計算兩個(gè)分數,而PageRank算法只需要計算一個(gè)分數;在搜索引擎領(lǐng)域,更多關(guān)注的是HITS算法計算出的權威權重,但在其他很多應用HITS算法的領(lǐng)域,Hub score也很重要。從鏈接防作弊的角度來(lái)看,PageRank在機制上優(yōu)于HITS算法,HITS算法更容易受到鏈接作弊的影響。 HITS算法的結構不穩定。當擴展網(wǎng)頁(yè)集合中的鏈接關(guān)系稍有改動(dòng)時(shí),就會(huì )對最終排名產(chǎn)生很大的影響;而與 HITS 相比,PageRank 算法是穩定的。根本原因是PageRank計算時(shí)的遠程跳轉。 . 三、網(wǎng)絡(luò )作弊
  從大類(lèi)來(lái)看,比較常見(jiàn)的作弊方式有:內容作弊、鏈接作弊、隱藏作弊,以及近年來(lái)興起的Web2.0作弊方式。學(xué)術(shù)界和搜索引擎公司也有針對性地提出了各種反作弊算法。
  內容作弊
  內容作弊的目的是精心修改或規范網(wǎng)頁(yè)內容,使網(wǎng)頁(yè)在與其網(wǎng)頁(yè)不相稱(chēng)的搜索引擎排名中獲得較高的排名。搜索引擎排名一般包括內容相似度和鏈接重要性計算。內容作弊主要針對搜索引擎排名算法的內容相似度計算部分。通過(guò)故意增加目標詞的頻率,或在網(wǎng)頁(yè)重要位置引入網(wǎng)頁(yè)內容不相關(guān)的詞影響搜索結果的排名。
  常見(jiàn)內容作弊方式:關(guān)鍵詞repetition、無(wú)關(guān)查詢(xún)詞作弊、圖片alt標簽文字作弊、網(wǎng)頁(yè)標題作弊、網(wǎng)頁(yè)重要標簽作弊、網(wǎng)頁(yè)元信息作弊
  內容農場(chǎng):內容農場(chǎng)運營(yíng)商廉價(jià)雇用大量自由職業(yè)者來(lái)支持他們的付費寫(xiě)作,但寫(xiě)作內容的質(zhì)量通常較低。很多文章都是通過(guò)復制和稍加修改來(lái)完成的,但是他們會(huì )研究搜索引擎的熱門(mén)搜索詞等,并將這些詞有機地添加到寫(xiě)作內容中。這樣,普通搜索引擎用戶(hù)在搜索時(shí)就會(huì )被吸引到內容農場(chǎng)網(wǎng)站,內容農場(chǎng)可以通過(guò)大量低質(zhì)量?jì)热菸髁縼?lái)賺取廣告費用。
  
  鏈接作弊
  所謂鏈接作弊就是網(wǎng)站owner考慮到在搜索引擎排名中使用鏈接分析技術(shù),所以通過(guò)操縱頁(yè)面之間的鏈接關(guān)系,或者操縱頁(yè)面之間的鏈接錨文本,來(lái)增加鏈接排名因素的得分以及影響搜索結果排名的作弊方式。
  為了提高網(wǎng)頁(yè)的搜索引擎鏈接排名,鏈接農場(chǎng)建立了一個(gè)龐大的網(wǎng)頁(yè)集合,這些網(wǎng)頁(yè)相互之間有著(zhù)密切的聯(lián)系,希望通過(guò)搜索引擎鏈接算法的機制來(lái)提高網(wǎng)頁(yè)排名。大量的相互聯(lián)系。鏈接農場(chǎng)中頁(yè)面的鏈接密度極高,任何兩個(gè)頁(yè)面都可能有相互指向的鏈接。
  
  錨文本是指向某個(gè)網(wǎng)頁(yè)的鏈接的描述文本。這些描述信息往往反映了所指向網(wǎng)頁(yè)的內容主題,因此搜索引擎在排名算法中經(jīng)常使用它。作弊者精心設置錨文本內容,誘使搜索引擎對目標網(wǎng)頁(yè)給予更高的排名。一般來(lái)說(shuō),作弊者設置的錨文本與目標網(wǎng)頁(yè)的內容無(wú)關(guān)。
  幾年前,有一個(gè)著(zhù)名的例子,就是利用谷歌轟炸來(lái)操縱搜索結果的排名。那時(shí),如果你在谷歌上搜索“悲慘的失敗”,你會(huì )發(fā)現第二個(gè)搜索結果是時(shí)任美國總統喬治·W·布什的白宮頁(yè)面。這是通過(guò)構建許多其他網(wǎng)頁(yè),包括指向目標頁(yè)面的鏈接,其鏈接錨文本收錄“悲慘失敗”關(guān)鍵詞 實(shí)現的效果。
  
  “門(mén)頁(yè)”本身不收錄正文內容,而是由大量鏈接組成,而這些鏈接往往指向同一個(gè)網(wǎng)站
  在頁(yè)面中,作弊者創(chuàng )建了大量的“門(mén)頁(yè)”,以提高網(wǎng)站排名。
  頁(yè)面隱藏作弊
  頁(yè)面隱藏作弊利用某種手段欺騙搜索引擎爬蟲(chóng),使搜索引擎爬取的頁(yè)面內容和用戶(hù)點(diǎn)擊查看
  您看到的頁(yè)面內容不同,從而影響搜索引擎的搜索結果。隱藏頁(yè)面和作弊的常見(jiàn)方法
  以下是幾個(gè)。
  1.IP偽裝(IP Cloaking)
  網(wǎng)頁(yè)所有者在服務(wù)器端記錄搜索引擎爬蟲(chóng)的IP地址列表,如果發(fā)現搜索引擎在請求頁(yè)面上
  對于人臉,它會(huì )向爬蟲(chóng)推送一個(gè)虛假的網(wǎng)頁(yè)內容,如果是另一個(gè)IP地址,它會(huì )推送另一個(gè)網(wǎng)頁(yè)
  內容,此頁(yè)面通常是具有商業(yè)目的的營(yíng)銷(xiāo)頁(yè)面。

一個(gè)語(yǔ)義挖掘的利器——主題模型(組圖)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 79 次瀏覽 ? 2021-07-17 00:07 ? 來(lái)自相關(guān)話(huà)題

  一個(gè)語(yǔ)義挖掘的利器——主題模型(組圖)
  來(lái)自:
  總結:
  兩個(gè)文檔是否相關(guān),往往不僅取決于字面上的重復,還取決于文本背后的語(yǔ)義聯(lián)系。語(yǔ)義關(guān)聯(lián)的挖掘可以使我們的搜索更加智能。本文重點(diǎn)介紹一個(gè)強大的語(yǔ)義挖掘工具:主題模型。主題模型是一種對文本隱含主題進(jìn)行建模的方法。它克服了傳統信息檢索中文檔相似度計算方法的不足,能夠在海量互聯(lián)網(wǎng)數據中自動(dòng)找到文本之間的語(yǔ)義主題。近年來(lái),各大互聯(lián)網(wǎng)公司都開(kāi)始了這方面的探索和嘗試。讓我們看看會(huì )發(fā)生什么。
  關(guān)鍵詞:主題模型
  技術(shù)領(lǐng)域:搜索技術(shù)、自然語(yǔ)言處理
  假設有兩個(gè)句子,我們想知道它們是否相關(guān):
  第一個(gè)是:“工作沒(méi)了?!?br />   第二個(gè)是:“蘋(píng)果會(huì )降價(jià)嗎?”
  如果是人來(lái)判斷的話(huà),我們一看就知道,這兩個(gè)句子雖然沒(méi)有共同的詞,但還是很有關(guān)聯(lián)的。這是因為,雖然第二句中的“apple”可能指的是我們吃的蘋(píng)果,但因為第一句中有“Jobs”,我們自然會(huì )將“apple”解釋為蘋(píng)果產(chǎn)品。事實(shí)上,這種文本句子之間的相關(guān)性和相似性在搜索引擎算法中經(jīng)常遇到。例如,如果用戶(hù)輸入一個(gè)查詢(xún),我們需要從海量的網(wǎng)頁(yè)庫中找到最相關(guān)的結果。下面是如何衡量查詢(xún)和網(wǎng)頁(yè)之間的相似度。對于此類(lèi)問(wèn)題,人們可以根據上下文進(jìn)行判斷。但是機器還好嗎?
  在傳統信息檢索領(lǐng)域,測量文檔相似度的方法其實(shí)有很多,比如經(jīng)典的VSM模型。但是,這些方法通?;谝粋€(gè)基本假設:文檔之間重復的單詞越多,它們相似的可能性就越大。這在實(shí)踐中并不總是正確的。在很多情況下,相關(guān)程度取決于背后的語(yǔ)義聯(lián)系,而不是表面的單詞重復。
  那么,這種語(yǔ)義關(guān)系應該如何衡量呢?事實(shí)上,在自然語(yǔ)言處理領(lǐng)域,已經(jīng)有很多方法可以從單詞、短語(yǔ)、句子和文本的角度來(lái)衡量。本文將介紹語(yǔ)義挖掘的強大工具之一:主題模型。
  什么是主題模型?
  主題模型,顧名思義,就是對文本中隱藏主題的一種建模方法。還是在上面的例子中,單詞“apple”同時(shí)收錄了Apple的主題和fruit的主題。對比第一句,蘋(píng)果的主題與“喬布斯”所代表的主題相匹配,所以我們認為它們是相關(guān)的。
  在這里,讓我們先定義一下主題是什么。主題是一個(gè)概念,一個(gè)方面。它表現為一系列相關(guān)的詞。例如,如果文章與“百度”主題相關(guān),“中文搜索”、“李彥宏”等詞出現的頻率會(huì )更高,如果涉及“IBM”主題,則“筆記本”等會(huì )很頻繁地出現。如果用數學(xué)來(lái)描述的話(huà),題目就是單詞在詞匯表上的條件概率分布。詞的相關(guān)性越近,其條件概率越大,反之亦然。
  例如:
  
  通俗地說(shuō),一個(gè)話(huà)題就像一個(gè)“桶”,里面收錄了一些出現概率較高的詞。這些詞與主題有很強的相關(guān)性,或者正是這些詞共同定義了主題。對于一個(gè)段落,有些詞可能來(lái)自這個(gè)“桶”,有些可能來(lái)自那個(gè)“桶”,而一個(gè)文本往往是幾個(gè)主題的混合體。舉個(gè)簡(jiǎn)單的例子,見(jiàn)下圖。
  
  以上內容摘自網(wǎng)絡(luò )新聞。我們劃分了4個(gè)桶(主題),百度(紅色),微軟(紫色),谷歌(藍色)和市場(chǎng)(綠色)。段落中收錄的每個(gè)主題的單詞都用顏色標記。從顏色分布我們可以看出,文中的主要思想是談?wù)摪俣群褪袌?chǎng)發(fā)展。在這方面,谷歌和微軟的兩個(gè)主題也出現了,但不是主要的語(yǔ)義。值得注意的是,像“搜索引擎”這樣的詞極有可能出現在百度、微軟、谷歌這三個(gè)主題上??梢哉J為一個(gè)詞被放入多個(gè)“桶”中。當它出現在文本中時(shí),這三個(gè)主題在一定程度上得到了體現。
  有了主題的概念,我們不禁要問(wèn),這些主題是怎么得到的?如何分析文章中的話(huà)題?這正是主題模型想要解決的問(wèn)題。讓我簡(jiǎn)單介紹一下主題模型的工作原理。
  主題模型的工作原理
  首先,我們從生成模型的角度來(lái)看文檔和主題這兩個(gè)東西。所謂生成模型,是指我們認為一個(gè)文章中的每個(gè)詞都是通過(guò)“以一定概率選擇某個(gè)主題,并以一定概率從該主題中選擇某個(gè)詞”的過(guò)程獲得的。那么,如果我們要生成一個(gè)文檔,其中每個(gè)詞出現的概率為:
  
  上式可以用矩陣乘法表示,如下圖所示:
  
  左
  
  矩陣表示每個(gè)詞在每個(gè)文章中的概率;中間的Φ矩陣代表每個(gè)話(huà)題中每個(gè)詞的概率
  
  ,即每個(gè)“桶
  表示每個(gè)文檔中每個(gè)主題的概率
  
  ,可以理解為每個(gè)主題在一個(gè)段落中所占的比例。
  如果我們有很多文檔,比如很多網(wǎng)頁(yè),我們首先將所有文檔進(jìn)行分割,得到一個(gè)詞匯表。這樣,每個(gè)文檔都可以表示為一個(gè)詞的集合。對于每個(gè)單詞,我們可以用它在文檔中出現的次數除以文檔中的單詞數作為它在文檔中出現的概率
  
  。這樣,對于任何文檔,
  左邊
  
  矩陣已知,右邊兩個(gè)矩陣未知。主題模型是使用大量已知的“words-documents”
  
  Matrix,通過(guò)一系列的訓練,推斷出右邊的“word-topic”矩陣Φ和“主題文檔”矩陣Θ。
  主題模型訓練和推理主要有兩種方法,一種是pLSA(Probabilistic Latent Semantic Analysis),另一種是LDA(Latent Dirichlet Allocation)。 pLSA主要使用EM(Expectation Maximization)算法; LDA 使用 Gibbs 采樣方法。由于它們比較復雜,篇幅有限,這里只簡(jiǎn)單介紹一下pLSA的思想,其他具體的方法和公式,讀者可以參考相關(guān)資料。
  pLSA采用的方法稱(chēng)為EM(Expectation Maximization)算法,它由兩個(gè)不斷迭代的過(guò)程組成:E(期望)過(guò)程和M(最大化)過(guò)程。舉個(gè)形象例子:假設食堂的廚師炸一道菜,需要分成兩個(gè)人吃。顯然,沒(méi)有必要使用天平來(lái)準確稱(chēng)重。最簡(jiǎn)單的方法是先將菜品隨機分成兩個(gè)碗,然后觀(guān)察數量是否相同,取較多的部分放入另一個(gè)碗中。重復這個(gè)過(guò)程,直到大家都看不到兩個(gè)碗里的菜。到目前為止有何不同。
  對于主題模型訓練,“計算每個(gè)主題的詞分布”和“計算訓練文檔中的主題分布”就像兩個(gè)人分享食物。在E過(guò)程中,我們可以使用貝葉斯公式從“word-topic”矩陣中計算出“topic-document”矩陣。在M過(guò)程中,我們使用“topic-document”矩陣重新計算“term-topic”矩陣。這個(gè)過(guò)程一直是這樣迭代的。 EM 算法的神奇之處在于它可以保證這個(gè)迭代過(guò)程是收斂的。也就是說(shuō),經(jīng)過(guò)反復迭代,我們肯定可以得到趨于真實(shí)值的Φ和Θ。
  如何使用主題模型?
  有了主題模型,我們如何使用它?它的優(yōu)點(diǎn)是什么?我總結了以下幾點(diǎn):
  1) 可以衡量文檔之間的語(yǔ)義相似度。對于一個(gè)文檔,我們找到的主題分布可以看作是它的一個(gè)抽象表示。對于概率分布,我們可以使用一些距離公式(如KL距離)來(lái)計算兩個(gè)文檔的語(yǔ)義距離,從而得到它們之間的相似度。
  2)可以解決多義詞的問(wèn)題?;叵氲谝粋€(gè)例子,“Apple”可能是水果,也可能指蘋(píng)果。通過(guò)我們得到的“word-topic”的概率分布,我們可以知道“apple”屬于哪個(gè)主題,然后我們可以通過(guò)主題的匹配來(lái)計算它與其他文本的相似度。
  3) 可以消除文檔中噪聲的影響。一般來(lái)說(shuō),文檔中的雜音往往出現在次要主題中,我們可以忽略它們,只保留文檔中的主題。
  4) 它是無(wú)人監督且完全自動(dòng)化的。我們只需要提供訓練文檔,它就可以自動(dòng)訓練各種概率,無(wú)需任何人工標注過(guò)程。
  5) 與語(yǔ)言無(wú)關(guān)。只要任何語(yǔ)言都可以對其進(jìn)行分割,就可以訓練得到它的主題分布。
  綜上所述,主題模型是一個(gè)強大的工具,可以挖掘語(yǔ)言背后的隱藏信息。近年來(lái),各大搜索引擎公司開(kāi)始重視這方面的研發(fā)。語(yǔ)義分析技術(shù)正逐漸滲透到搜索領(lǐng)域的各種產(chǎn)品中。在不久的將來(lái),我們的搜索將變得更加智能,讓我們拭目以待。
  紡紗世界 查看全部

  一個(gè)語(yǔ)義挖掘的利器——主題模型(組圖)
  來(lái)自:
  總結:
  兩個(gè)文檔是否相關(guān),往往不僅取決于字面上的重復,還取決于文本背后的語(yǔ)義聯(lián)系。語(yǔ)義關(guān)聯(lián)的挖掘可以使我們的搜索更加智能。本文重點(diǎn)介紹一個(gè)強大的語(yǔ)義挖掘工具:主題模型。主題模型是一種對文本隱含主題進(jìn)行建模的方法。它克服了傳統信息檢索中文檔相似度計算方法的不足,能夠在海量互聯(lián)網(wǎng)數據中自動(dòng)找到文本之間的語(yǔ)義主題。近年來(lái),各大互聯(lián)網(wǎng)公司都開(kāi)始了這方面的探索和嘗試。讓我們看看會(huì )發(fā)生什么。
  關(guān)鍵詞:主題模型
  技術(shù)領(lǐng)域:搜索技術(shù)、自然語(yǔ)言處理
  假設有兩個(gè)句子,我們想知道它們是否相關(guān):
  第一個(gè)是:“工作沒(méi)了?!?br />   第二個(gè)是:“蘋(píng)果會(huì )降價(jià)嗎?”
  如果是人來(lái)判斷的話(huà),我們一看就知道,這兩個(gè)句子雖然沒(méi)有共同的詞,但還是很有關(guān)聯(lián)的。這是因為,雖然第二句中的“apple”可能指的是我們吃的蘋(píng)果,但因為第一句中有“Jobs”,我們自然會(huì )將“apple”解釋為蘋(píng)果產(chǎn)品。事實(shí)上,這種文本句子之間的相關(guān)性和相似性在搜索引擎算法中經(jīng)常遇到。例如,如果用戶(hù)輸入一個(gè)查詢(xún),我們需要從海量的網(wǎng)頁(yè)庫中找到最相關(guān)的結果。下面是如何衡量查詢(xún)和網(wǎng)頁(yè)之間的相似度。對于此類(lèi)問(wèn)題,人們可以根據上下文進(jìn)行判斷。但是機器還好嗎?
  在傳統信息檢索領(lǐng)域,測量文檔相似度的方法其實(shí)有很多,比如經(jīng)典的VSM模型。但是,這些方法通?;谝粋€(gè)基本假設:文檔之間重復的單詞越多,它們相似的可能性就越大。這在實(shí)踐中并不總是正確的。在很多情況下,相關(guān)程度取決于背后的語(yǔ)義聯(lián)系,而不是表面的單詞重復。
  那么,這種語(yǔ)義關(guān)系應該如何衡量呢?事實(shí)上,在自然語(yǔ)言處理領(lǐng)域,已經(jīng)有很多方法可以從單詞、短語(yǔ)、句子和文本的角度來(lái)衡量。本文將介紹語(yǔ)義挖掘的強大工具之一:主題模型。
  什么是主題模型?
  主題模型,顧名思義,就是對文本中隱藏主題的一種建模方法。還是在上面的例子中,單詞“apple”同時(shí)收錄了Apple的主題和fruit的主題。對比第一句,蘋(píng)果的主題與“喬布斯”所代表的主題相匹配,所以我們認為它們是相關(guān)的。
  在這里,讓我們先定義一下主題是什么。主題是一個(gè)概念,一個(gè)方面。它表現為一系列相關(guān)的詞。例如,如果文章與“百度”主題相關(guān),“中文搜索”、“李彥宏”等詞出現的頻率會(huì )更高,如果涉及“IBM”主題,則“筆記本”等會(huì )很頻繁地出現。如果用數學(xué)來(lái)描述的話(huà),題目就是單詞在詞匯表上的條件概率分布。詞的相關(guān)性越近,其條件概率越大,反之亦然。
  例如:
  
  通俗地說(shuō),一個(gè)話(huà)題就像一個(gè)“桶”,里面收錄了一些出現概率較高的詞。這些詞與主題有很強的相關(guān)性,或者正是這些詞共同定義了主題。對于一個(gè)段落,有些詞可能來(lái)自這個(gè)“桶”,有些可能來(lái)自那個(gè)“桶”,而一個(gè)文本往往是幾個(gè)主題的混合體。舉個(gè)簡(jiǎn)單的例子,見(jiàn)下圖。
  
  以上內容摘自網(wǎng)絡(luò )新聞。我們劃分了4個(gè)桶(主題),百度(紅色),微軟(紫色),谷歌(藍色)和市場(chǎng)(綠色)。段落中收錄的每個(gè)主題的單詞都用顏色標記。從顏色分布我們可以看出,文中的主要思想是談?wù)摪俣群褪袌?chǎng)發(fā)展。在這方面,谷歌和微軟的兩個(gè)主題也出現了,但不是主要的語(yǔ)義。值得注意的是,像“搜索引擎”這樣的詞極有可能出現在百度、微軟、谷歌這三個(gè)主題上??梢哉J為一個(gè)詞被放入多個(gè)“桶”中。當它出現在文本中時(shí),這三個(gè)主題在一定程度上得到了體現。
  有了主題的概念,我們不禁要問(wèn),這些主題是怎么得到的?如何分析文章中的話(huà)題?這正是主題模型想要解決的問(wèn)題。讓我簡(jiǎn)單介紹一下主題模型的工作原理。
  主題模型的工作原理
  首先,我們從生成模型的角度來(lái)看文檔和主題這兩個(gè)東西。所謂生成模型,是指我們認為一個(gè)文章中的每個(gè)詞都是通過(guò)“以一定概率選擇某個(gè)主題,并以一定概率從該主題中選擇某個(gè)詞”的過(guò)程獲得的。那么,如果我們要生成一個(gè)文檔,其中每個(gè)詞出現的概率為:
  
  上式可以用矩陣乘法表示,如下圖所示:
  
  左
  
  矩陣表示每個(gè)詞在每個(gè)文章中的概率;中間的Φ矩陣代表每個(gè)話(huà)題中每個(gè)詞的概率
  
  ,即每個(gè)“桶
  表示每個(gè)文檔中每個(gè)主題的概率
  
  ,可以理解為每個(gè)主題在一個(gè)段落中所占的比例。
  如果我們有很多文檔,比如很多網(wǎng)頁(yè),我們首先將所有文檔進(jìn)行分割,得到一個(gè)詞匯表。這樣,每個(gè)文檔都可以表示為一個(gè)詞的集合。對于每個(gè)單詞,我們可以用它在文檔中出現的次數除以文檔中的單詞數作為它在文檔中出現的概率
  
  。這樣,對于任何文檔,
  左邊
  
  矩陣已知,右邊兩個(gè)矩陣未知。主題模型是使用大量已知的“words-documents”
  
  Matrix,通過(guò)一系列的訓練,推斷出右邊的“word-topic”矩陣Φ和“主題文檔”矩陣Θ。
  主題模型訓練和推理主要有兩種方法,一種是pLSA(Probabilistic Latent Semantic Analysis),另一種是LDA(Latent Dirichlet Allocation)。 pLSA主要使用EM(Expectation Maximization)算法; LDA 使用 Gibbs 采樣方法。由于它們比較復雜,篇幅有限,這里只簡(jiǎn)單介紹一下pLSA的思想,其他具體的方法和公式,讀者可以參考相關(guān)資料。
  pLSA采用的方法稱(chēng)為EM(Expectation Maximization)算法,它由兩個(gè)不斷迭代的過(guò)程組成:E(期望)過(guò)程和M(最大化)過(guò)程。舉個(gè)形象例子:假設食堂的廚師炸一道菜,需要分成兩個(gè)人吃。顯然,沒(méi)有必要使用天平來(lái)準確稱(chēng)重。最簡(jiǎn)單的方法是先將菜品隨機分成兩個(gè)碗,然后觀(guān)察數量是否相同,取較多的部分放入另一個(gè)碗中。重復這個(gè)過(guò)程,直到大家都看不到兩個(gè)碗里的菜。到目前為止有何不同。
  對于主題模型訓練,“計算每個(gè)主題的詞分布”和“計算訓練文檔中的主題分布”就像兩個(gè)人分享食物。在E過(guò)程中,我們可以使用貝葉斯公式從“word-topic”矩陣中計算出“topic-document”矩陣。在M過(guò)程中,我們使用“topic-document”矩陣重新計算“term-topic”矩陣。這個(gè)過(guò)程一直是這樣迭代的。 EM 算法的神奇之處在于它可以保證這個(gè)迭代過(guò)程是收斂的。也就是說(shuō),經(jīng)過(guò)反復迭代,我們肯定可以得到趨于真實(shí)值的Φ和Θ。
  如何使用主題模型?
  有了主題模型,我們如何使用它?它的優(yōu)點(diǎn)是什么?我總結了以下幾點(diǎn):
  1) 可以衡量文檔之間的語(yǔ)義相似度。對于一個(gè)文檔,我們找到的主題分布可以看作是它的一個(gè)抽象表示。對于概率分布,我們可以使用一些距離公式(如KL距離)來(lái)計算兩個(gè)文檔的語(yǔ)義距離,從而得到它們之間的相似度。
  2)可以解決多義詞的問(wèn)題?;叵氲谝粋€(gè)例子,“Apple”可能是水果,也可能指蘋(píng)果。通過(guò)我們得到的“word-topic”的概率分布,我們可以知道“apple”屬于哪個(gè)主題,然后我們可以通過(guò)主題的匹配來(lái)計算它與其他文本的相似度。
  3) 可以消除文檔中噪聲的影響。一般來(lái)說(shuō),文檔中的雜音往往出現在次要主題中,我們可以忽略它們,只保留文檔中的主題。
  4) 它是無(wú)人監督且完全自動(dòng)化的。我們只需要提供訓練文檔,它就可以自動(dòng)訓練各種概率,無(wú)需任何人工標注過(guò)程。
  5) 與語(yǔ)言無(wú)關(guān)。只要任何語(yǔ)言都可以對其進(jìn)行分割,就可以訓練得到它的主題分布。
  綜上所述,主題模型是一個(gè)強大的工具,可以挖掘語(yǔ)言背后的隱藏信息。近年來(lái),各大搜索引擎公司開(kāi)始重視這方面的研發(fā)。語(yǔ)義分析技術(shù)正逐漸滲透到搜索領(lǐng)域的各種產(chǎn)品中。在不久的將來(lái),我們的搜索將變得更加智能,讓我們拭目以待。
  紡紗世界

原始軟文區(智能偽原創(chuàng ))SEO說(shuō)難不難,說(shuō)簡(jiǎn)單也不是那么簡(jiǎn)單

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 91 次瀏覽 ? 2021-07-16 23:36 ? 來(lái)自相關(guān)話(huà)題

  原始軟文區(智能偽原創(chuàng ))SEO說(shuō)難不難,說(shuō)簡(jiǎn)單也不是那么簡(jiǎn)單
 ?。?),詞頻控制:關(guān)鍵詞密度,比同行高一點(diǎn)
  (7),內鏈:錨文本方向
 ?。?)、robots和nofollow的使用:引導網(wǎng)絡(luò )蜘蛛,控制權重信息的丟失
  (9),網(wǎng)站來(lái)映射:使用網(wǎng)絡(luò )蜘蛛爬取
 ?。?0),設置404錯誤頁(yè)面和301跳轉:搜索引擎友好和用戶(hù)友好
  (11),網(wǎng)站結構:樹(shù)狀結構,有利于搜索引擎蜘蛛和用戶(hù)判斷的邏輯結構
 ?。?2),網(wǎng)站 主要內容:原創(chuàng ),獨特,有價(jià)值
  (13), 網(wǎng)站description, 圖片標簽
 ?。?4),靜態(tài)頁(yè)面)
  (15),網(wǎng)站行為結構(目錄管理結構)
 ?。?6),快速連接
  (17)TDK 分頁(yè)健康,分頁(yè)
 ?。?8),友情鏈接
  以上幾點(diǎn)雖然很簡(jiǎn)單,但確實(shí)需要一些努力才能做好。同時(shí),這幾點(diǎn)也總結了網(wǎng)站的內容優(yōu)化。做好以上幾點(diǎn),網(wǎng)站的優(yōu)化就基本搞定了。
  總結:
  網(wǎng)站Optimization,網(wǎng)站優(yōu)化很重要,可以說(shuō)直接影響網(wǎng)站的排名,所以做SEO的時(shí)候一定要注意網(wǎng)站優(yōu)化。 網(wǎng)站optimization 是我們一直堅持的工作,搜索引擎優(yōu)化好你的毅力。如果你不堅持每天都做,你就得不到好的排名。
  原創(chuàng )軟文區(smart偽原創(chuàng ))
  SEO難說(shuō),簡(jiǎn)單沒(méi)那么簡(jiǎn)單,很多人問(wèn)我,網(wǎng)站SEO優(yōu)化應該怎么做?但是當我說(shuō)出來(lái)的時(shí)候,他們想:就是這樣?沒(méi)有一點(diǎn)內容是不可能的!事實(shí)上,目前網(wǎng)站上的SEO確實(shí)沒(méi)有太多內容。更多的是細節處理和用戶(hù)體驗。
  有的朋友認為網(wǎng)站優(yōu)化難,因為不知道里面的路,不知道從哪里開(kāi)始。其他人認為優(yōu)化網(wǎng)站和更新文章很容易。這也是因為他們對網(wǎng)站非常感興趣。 SEO不明白。很多培訓機構在關(guān)鍵詞成立后就開(kāi)始更新文章教網(wǎng)站優(yōu)化。沒(méi)有涉及其他內容,所以很多人認為網(wǎng)站優(yōu)化實(shí)際上是更新文章。
  1、提高網(wǎng)站的加載速度
  在這個(gè)信息碎片化的時(shí)代,沒(méi)有人愿意給你等待的機會(huì ),所以網(wǎng)站open加載速度比任何優(yōu)化點(diǎn)都重要。開(kāi)放時(shí)間越短,用戶(hù)滿(mǎn)意度越高。
  搜索引擎也是一樣,所以在優(yōu)化的時(shí)候,考慮可以做些什么來(lái)加速,比如CDN、無(wú)用代碼清除、服務(wù)器寬帶升級、緩存、頁(yè)面瘦身、純靜態(tài)頁(yè)面等優(yōu)化動(dòng)作(具體可查看編輯器介紹《提高網(wǎng)站速度的六種網(wǎng)站前端優(yōu)化方法》)。
  2、title 標題定位
  網(wǎng)站title 標題,也就是你的網(wǎng)站叫什么,通常為了SEO優(yōu)化,會(huì )選擇三到五個(gè)關(guān)鍵詞作為標題,所以標題的順序也是有規律的。權重從左到右依次遞減(詳見(jiàn)“網(wǎng)站頁(yè)面標題設置方法及技巧”介紹)。
  標題需要收錄優(yōu)化關(guān)鍵詞的內容。同時(shí)網(wǎng)站中的多個(gè)頁(yè)面標題不能相同,至少要能閃現“關(guān)鍵詞——網(wǎng)站主頁(yè)——關(guān)鍵詞的簡(jiǎn)要說(shuō)明?!陛斎?,一旦判斷標題,不要再做任何更正了!
  3、 是增強 UI、UX 和品牌的信任感和參與感
  很多用戶(hù)打開(kāi)網(wǎng)站后會(huì )有第一印象。山寨好,當地人好,是否專(zhuān)業(yè)也不是我們想要的結果。頁(yè)面設計需要 UI & UX 投資和品牌自己的口碑來(lái)背書(shū)。否則,用戶(hù)在網(wǎng)站中更難產(chǎn)生信任感和參與感。
  最實(shí)用的做法是參考業(yè)內比較好的網(wǎng)站進(jìn)行模仿,購買(mǎi)付費版網(wǎng)站模板,或者讓用戶(hù)參與每一個(gè)設計過(guò)程。
  4、避免各種促使用戶(hù)離開(kāi)頁(yè)面的元素
  很多彈窗、固定凸窗、廣告位都會(huì )讓用戶(hù)反感,從而放棄整個(gè)瀏覽過(guò)程。這是優(yōu)化過(guò)程中要避免和去除的部分??紤]更多原生方式植入這些元素或獎勵用戶(hù)完成過(guò)程,同時(shí)避免蜘蛛在使用代碼中被禁止或難以捕捉從而被搜索引擎降級的可能性。
  5、關(guān)鍵詞植入
  常規的關(guān)鍵詞植入要繼續做,比如Title、H1、文章內關(guān)鍵詞、外鏈錨文本、內鏈錨文本、圖片ALT、URL、圖片命名等,這個(gè)就不多說(shuō)了,大家懂的,不懂的朋友可以查看小編的介紹《網(wǎng)站上SEO最容易忽略的一些優(yōu)化細節》。
  6、主題模型的注入
  關(guān)鍵詞植入是不夠的,因為那太機械化了,會(huì )失去文字的用戶(hù)體驗,所以我們要做一個(gè)主題模型,比如關(guān)鍵詞“婚紗搭配”我們可以延伸到燕尾服,婚紗禮服、婚紗背心、婚紗套裝、婚禮展銷(xiāo)會(huì )等相關(guān)詞構成一個(gè)大主題。這樣的頁(yè)面內容將使關(guān)鍵詞排名更全面,對更多用戶(hù)有幫助。同時(shí),搜索引擎可以解讀為您要推送的主題內容是與婚紗禮服相關(guān)的內容(具體請參考小編的相關(guān)介紹《如何做好婚禮服裝的SEO優(yōu)化》)網(wǎng)站主題內容模型”)。
  7、顯示文字深度優(yōu)化
  排名顯示的信息對點(diǎn)擊率非常重要,所以我們可能要影響這些顯示的信息(主要是標題、描述、url),這些元素需要在內容上進(jìn)行優(yōu)化:標題創(chuàng )意、描述飄紅、 url規范、文章日期、結構化數據的使用、在線(xiàn)對話(huà)等
  8、創(chuàng )造獨特有價(jià)值的內容
  歸根結底,營(yíng)銷(xiāo)離不開(kāi)內容質(zhì)量。好的內容包括:
 ?。?),提供獨特的視覺(jué)體驗、前端界面、合適的字體和功能按鈕。
 ?。?),內容一定要實(shí)用,高價(jià)值,高可靠,很有趣,值得采集的點(diǎn)都在里面。
 ?。?),與其他內容相比沒(méi)有重復,深度更強大。
 ?。?),打開(kāi)速度快(無(wú)廣告),可在不同終端閱讀。
 ?。?),可以產(chǎn)生贊許、驚喜、快樂(lè )、思考等情緒化的想法。
 ?。?),可以達到一定的轉發(fā)和傳播力。
 ?。?),可以使用完整、準確和獨特的信息來(lái)解決或回答問(wèn)題。
  9、網(wǎng)站規劃調整
  假設原來(lái)的網(wǎng)站是圖片頁(yè)面,使用較多的flash和圖片,這些頁(yè)面元素不利于搜索引擎的進(jìn)入,所以在頁(yè)面底部增加了三列,分別是相關(guān)公司簡(jiǎn)介。 , 關(guān)鍵詞產(chǎn)品新聞和公司關(guān)鍵詞產(chǎn)品列表,三欄內容添加url。
  當然,最好的方法是使用新聞系統更新關(guān)鍵字產(chǎn)品新聞,可以將關(guān)鍵字的具體描述作為從首頁(yè)到單個(gè)頁(yè)面的鏈接,頁(yè)面的描述收錄公司關(guān)鍵詞產(chǎn)品列表連接,這些都是為了形成公司網(wǎng)站內部的網(wǎng)絡(luò )規劃(詳見(jiàn)小編的介紹《從SEO角度優(yōu)化網(wǎng)站首頁(yè)結構布局》)。
  另外,頁(yè)面沒(méi)有必要靜態(tài)化,靜態(tài)化也不一定是整個(gè)網(wǎng)站,你可以只靜態(tài)化最重要的首頁(yè)。對于不同程序的處理,頁(yè)面的執行時(shí)間是不同的。對于互聯(lián)網(wǎng)上成熟的建站系統來(lái)說(shuō),執行效率不用多說(shuō),相信是一個(gè)比較優(yōu)化的水平。
  10、網(wǎng)站SEO優(yōu)化的一些要點(diǎn)
  對于網(wǎng)站SEO優(yōu)化,如果你還是一頭霧水,不妨從以下方便入手,具體內容如下:
  (1), URL: 標準化、唯一性、靜態(tài)化
  (2),導航:主導航、面包屑導航、二級導航
  (3),關(guān)鍵詞:main關(guān)鍵詞(首頁(yè)),副關(guān)鍵詞(專(zhuān)欄),長(cháng)尾關(guān)鍵詞(內容頁(yè))
  (4),標簽:標題、關(guān)鍵詞、描述
  (5),權重標簽:h1-h6 標簽,b 標簽,強標簽
 ?。?),詞頻控制:關(guān)鍵詞密度,略高于同行
  (7),內鏈:定向錨文本
 ?。?),機器人和nofollow使用:引導蜘蛛,控制減肥
  (9),網(wǎng)站Map: 用蜘蛛爬行
 ?。?0),設置404錯誤頁(yè)面和301跳轉:搜索引擎好友和用戶(hù)的友好度
  (11),網(wǎng)站結構:樹(shù)狀結構,利于搜索引擎抓取和用戶(hù)判斷邏輯結構
 ?。?2),網(wǎng)站 內容:原創(chuàng ),獨特,有價(jià)值
  (13), 網(wǎng)站description, 圖片標簽
 ?。?4),靜態(tài)頁(yè)面)
  (15),網(wǎng)站結構(目錄結構)
 ?。?6),快速連接
 ?。?7),子頁(yè)面TDK,子頁(yè)面健康等級
 ?。?8),友情鏈接
  以上幾點(diǎn)雖然簡(jiǎn)單,但要細化,確實(shí)需要一些功夫。同時(shí),這些點(diǎn)也總結了網(wǎng)站優(yōu)化的內容。做好以上幾點(diǎn),網(wǎng)站的優(yōu)化基本就大功告成了。
  總結:
  在網(wǎng)站optimization中,網(wǎng)站的站點(diǎn)優(yōu)化非常重要??梢哉f(shuō)直接影響了網(wǎng)站的排名。所以,SEO一定要重視網(wǎng)站優(yōu)化。 網(wǎng)站optimization 永遠是你做的工作,SEO靠的是毅力。如果你不堅持每天都做好,你就不會(huì )排名好。
  分享了很多SEO優(yōu)化的東西,深刻描繪了一個(gè)SEO站長(cháng)的苦澀成長(cháng)經(jīng)歷。如果你想學(xué)習更多的SEO優(yōu)化技巧,可以在我的專(zhuān)欄里找到更多干貨文章:seo Spark:SEO干貨筆記:SEO站長(cháng)的苦澀成長(cháng)史!
  搜索引擎優(yōu)化
  
  
   查看全部

  原始軟文區(智能偽原創(chuàng ))SEO說(shuō)難不難,說(shuō)簡(jiǎn)單也不是那么簡(jiǎn)單
 ?。?),詞頻控制:關(guān)鍵詞密度,比同行高一點(diǎn)
  (7),內鏈:錨文本方向
 ?。?)、robots和nofollow的使用:引導網(wǎng)絡(luò )蜘蛛,控制權重信息的丟失
  (9),網(wǎng)站來(lái)映射:使用網(wǎng)絡(luò )蜘蛛爬取
 ?。?0),設置404錯誤頁(yè)面和301跳轉:搜索引擎友好和用戶(hù)友好
  (11),網(wǎng)站結構:樹(shù)狀結構,有利于搜索引擎蜘蛛和用戶(hù)判斷的邏輯結構
 ?。?2),網(wǎng)站 主要內容:原創(chuàng ),獨特,有價(jià)值
  (13), 網(wǎng)站description, 圖片標簽
 ?。?4),靜態(tài)頁(yè)面)
  (15),網(wǎng)站行為結構(目錄管理結構)
 ?。?6),快速連接
  (17)TDK 分頁(yè)健康,分頁(yè)
 ?。?8),友情鏈接
  以上幾點(diǎn)雖然很簡(jiǎn)單,但確實(shí)需要一些努力才能做好。同時(shí),這幾點(diǎn)也總結了網(wǎng)站的內容優(yōu)化。做好以上幾點(diǎn),網(wǎng)站的優(yōu)化就基本搞定了。
  總結:
  網(wǎng)站Optimization,網(wǎng)站優(yōu)化很重要,可以說(shuō)直接影響網(wǎng)站的排名,所以做SEO的時(shí)候一定要注意網(wǎng)站優(yōu)化。 網(wǎng)站optimization 是我們一直堅持的工作,搜索引擎優(yōu)化好你的毅力。如果你不堅持每天都做,你就得不到好的排名。
  原創(chuàng )軟文區(smart偽原創(chuàng ))
  SEO難說(shuō),簡(jiǎn)單沒(méi)那么簡(jiǎn)單,很多人問(wèn)我,網(wǎng)站SEO優(yōu)化應該怎么做?但是當我說(shuō)出來(lái)的時(shí)候,他們想:就是這樣?沒(méi)有一點(diǎn)內容是不可能的!事實(shí)上,目前網(wǎng)站上的SEO確實(shí)沒(méi)有太多內容。更多的是細節處理和用戶(hù)體驗。
  有的朋友認為網(wǎng)站優(yōu)化難,因為不知道里面的路,不知道從哪里開(kāi)始。其他人認為優(yōu)化網(wǎng)站和更新文章很容易。這也是因為他們對網(wǎng)站非常感興趣。 SEO不明白。很多培訓機構在關(guān)鍵詞成立后就開(kāi)始更新文章教網(wǎng)站優(yōu)化。沒(méi)有涉及其他內容,所以很多人認為網(wǎng)站優(yōu)化實(shí)際上是更新文章。
  1、提高網(wǎng)站的加載速度
  在這個(gè)信息碎片化的時(shí)代,沒(méi)有人愿意給你等待的機會(huì ),所以網(wǎng)站open加載速度比任何優(yōu)化點(diǎn)都重要。開(kāi)放時(shí)間越短,用戶(hù)滿(mǎn)意度越高。
  搜索引擎也是一樣,所以在優(yōu)化的時(shí)候,考慮可以做些什么來(lái)加速,比如CDN、無(wú)用代碼清除、服務(wù)器寬帶升級、緩存、頁(yè)面瘦身、純靜態(tài)頁(yè)面等優(yōu)化動(dòng)作(具體可查看編輯器介紹《提高網(wǎng)站速度的六種網(wǎng)站前端優(yōu)化方法》)。
  2、title 標題定位
  網(wǎng)站title 標題,也就是你的網(wǎng)站叫什么,通常為了SEO優(yōu)化,會(huì )選擇三到五個(gè)關(guān)鍵詞作為標題,所以標題的順序也是有規律的。權重從左到右依次遞減(詳見(jiàn)“網(wǎng)站頁(yè)面標題設置方法及技巧”介紹)。
  標題需要收錄優(yōu)化關(guān)鍵詞的內容。同時(shí)網(wǎng)站中的多個(gè)頁(yè)面標題不能相同,至少要能閃現“關(guān)鍵詞——網(wǎng)站主頁(yè)——關(guān)鍵詞的簡(jiǎn)要說(shuō)明?!陛斎?,一旦判斷標題,不要再做任何更正了!
  3、 是增強 UI、UX 和品牌的信任感和參與感
  很多用戶(hù)打開(kāi)網(wǎng)站后會(huì )有第一印象。山寨好,當地人好,是否專(zhuān)業(yè)也不是我們想要的結果。頁(yè)面設計需要 UI & UX 投資和品牌自己的口碑來(lái)背書(shū)。否則,用戶(hù)在網(wǎng)站中更難產(chǎn)生信任感和參與感。
  最實(shí)用的做法是參考業(yè)內比較好的網(wǎng)站進(jìn)行模仿,購買(mǎi)付費版網(wǎng)站模板,或者讓用戶(hù)參與每一個(gè)設計過(guò)程。
  4、避免各種促使用戶(hù)離開(kāi)頁(yè)面的元素
  很多彈窗、固定凸窗、廣告位都會(huì )讓用戶(hù)反感,從而放棄整個(gè)瀏覽過(guò)程。這是優(yōu)化過(guò)程中要避免和去除的部分??紤]更多原生方式植入這些元素或獎勵用戶(hù)完成過(guò)程,同時(shí)避免蜘蛛在使用代碼中被禁止或難以捕捉從而被搜索引擎降級的可能性。
  5、關(guān)鍵詞植入
  常規的關(guān)鍵詞植入要繼續做,比如Title、H1、文章內關(guān)鍵詞、外鏈錨文本、內鏈錨文本、圖片ALT、URL、圖片命名等,這個(gè)就不多說(shuō)了,大家懂的,不懂的朋友可以查看小編的介紹《網(wǎng)站上SEO最容易忽略的一些優(yōu)化細節》。
  6、主題模型的注入
  關(guān)鍵詞植入是不夠的,因為那太機械化了,會(huì )失去文字的用戶(hù)體驗,所以我們要做一個(gè)主題模型,比如關(guān)鍵詞“婚紗搭配”我們可以延伸到燕尾服,婚紗禮服、婚紗背心、婚紗套裝、婚禮展銷(xiāo)會(huì )等相關(guān)詞構成一個(gè)大主題。這樣的頁(yè)面內容將使關(guān)鍵詞排名更全面,對更多用戶(hù)有幫助。同時(shí),搜索引擎可以解讀為您要推送的主題內容是與婚紗禮服相關(guān)的內容(具體請參考小編的相關(guān)介紹《如何做好婚禮服裝的SEO優(yōu)化》)網(wǎng)站主題內容模型”)。
  7、顯示文字深度優(yōu)化
  排名顯示的信息對點(diǎn)擊率非常重要,所以我們可能要影響這些顯示的信息(主要是標題、描述、url),這些元素需要在內容上進(jìn)行優(yōu)化:標題創(chuàng )意、描述飄紅、 url規范、文章日期、結構化數據的使用、在線(xiàn)對話(huà)等
  8、創(chuàng )造獨特有價(jià)值的內容
  歸根結底,營(yíng)銷(xiāo)離不開(kāi)內容質(zhì)量。好的內容包括:
 ?。?),提供獨特的視覺(jué)體驗、前端界面、合適的字體和功能按鈕。
 ?。?),內容一定要實(shí)用,高價(jià)值,高可靠,很有趣,值得采集的點(diǎn)都在里面。
 ?。?),與其他內容相比沒(méi)有重復,深度更強大。
 ?。?),打開(kāi)速度快(無(wú)廣告),可在不同終端閱讀。
 ?。?),可以產(chǎn)生贊許、驚喜、快樂(lè )、思考等情緒化的想法。
 ?。?),可以達到一定的轉發(fā)和傳播力。
 ?。?),可以使用完整、準確和獨特的信息來(lái)解決或回答問(wèn)題。
  9、網(wǎng)站規劃調整
  假設原來(lái)的網(wǎng)站是圖片頁(yè)面,使用較多的flash和圖片,這些頁(yè)面元素不利于搜索引擎的進(jìn)入,所以在頁(yè)面底部增加了三列,分別是相關(guān)公司簡(jiǎn)介。 , 關(guān)鍵詞產(chǎn)品新聞和公司關(guān)鍵詞產(chǎn)品列表,三欄內容添加url。
  當然,最好的方法是使用新聞系統更新關(guān)鍵字產(chǎn)品新聞,可以將關(guān)鍵字的具體描述作為從首頁(yè)到單個(gè)頁(yè)面的鏈接,頁(yè)面的描述收錄公司關(guān)鍵詞產(chǎn)品列表連接,這些都是為了形成公司網(wǎng)站內部的網(wǎng)絡(luò )規劃(詳見(jiàn)小編的介紹《從SEO角度優(yōu)化網(wǎng)站首頁(yè)結構布局》)。
  另外,頁(yè)面沒(méi)有必要靜態(tài)化,靜態(tài)化也不一定是整個(gè)網(wǎng)站,你可以只靜態(tài)化最重要的首頁(yè)。對于不同程序的處理,頁(yè)面的執行時(shí)間是不同的。對于互聯(lián)網(wǎng)上成熟的建站系統來(lái)說(shuō),執行效率不用多說(shuō),相信是一個(gè)比較優(yōu)化的水平。
  10、網(wǎng)站SEO優(yōu)化的一些要點(diǎn)
  對于網(wǎng)站SEO優(yōu)化,如果你還是一頭霧水,不妨從以下方便入手,具體內容如下:
  (1), URL: 標準化、唯一性、靜態(tài)化
  (2),導航:主導航、面包屑導航、二級導航
  (3),關(guān)鍵詞:main關(guān)鍵詞(首頁(yè)),副關(guān)鍵詞(專(zhuān)欄),長(cháng)尾關(guān)鍵詞(內容頁(yè))
  (4),標簽:標題、關(guān)鍵詞、描述
  (5),權重標簽:h1-h6 標簽,b 標簽,強標簽
 ?。?),詞頻控制:關(guān)鍵詞密度,略高于同行
  (7),內鏈:定向錨文本
 ?。?),機器人和nofollow使用:引導蜘蛛,控制減肥
  (9),網(wǎng)站Map: 用蜘蛛爬行
 ?。?0),設置404錯誤頁(yè)面和301跳轉:搜索引擎好友和用戶(hù)的友好度
  (11),網(wǎng)站結構:樹(shù)狀結構,利于搜索引擎抓取和用戶(hù)判斷邏輯結構
 ?。?2),網(wǎng)站 內容:原創(chuàng ),獨特,有價(jià)值
  (13), 網(wǎng)站description, 圖片標簽
 ?。?4),靜態(tài)頁(yè)面)
  (15),網(wǎng)站結構(目錄結構)
 ?。?6),快速連接
 ?。?7),子頁(yè)面TDK,子頁(yè)面健康等級
 ?。?8),友情鏈接
  以上幾點(diǎn)雖然簡(jiǎn)單,但要細化,確實(shí)需要一些功夫。同時(shí),這些點(diǎn)也總結了網(wǎng)站優(yōu)化的內容。做好以上幾點(diǎn),網(wǎng)站的優(yōu)化基本就大功告成了。
  總結:
  在網(wǎng)站optimization中,網(wǎng)站的站點(diǎn)優(yōu)化非常重要??梢哉f(shuō)直接影響了網(wǎng)站的排名。所以,SEO一定要重視網(wǎng)站優(yōu)化。 網(wǎng)站optimization 永遠是你做的工作,SEO靠的是毅力。如果你不堅持每天都做好,你就不會(huì )排名好。
  分享了很多SEO優(yōu)化的東西,深刻描繪了一個(gè)SEO站長(cháng)的苦澀成長(cháng)經(jīng)歷。如果你想學(xué)習更多的SEO優(yōu)化技巧,可以在我的專(zhuān)欄里找到更多干貨文章:seo Spark:SEO干貨筆記:SEO站長(cháng)的苦澀成長(cháng)史!
  搜索引擎優(yōu)化
  
  
  

電話(huà)拒絕率低客戶(hù)興趣度高容易成交物超所值

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 69 次瀏覽 ? 2021-07-14 22:54 ? 來(lái)自相關(guān)話(huà)題

  電話(huà)拒絕率低客戶(hù)興趣度高容易成交物超所值
  **SEO優(yōu)化,G3云推廣7.0的**優(yōu)勢:來(lái)電拒絕率低,客戶(hù)興趣高,銷(xiāo)售預約高,產(chǎn)品性?xún)r(jià)比高,交易方便,性?xún)r(jià)比好,單價(jià)高,簡(jiǎn)單的售后。
  大量的彈窗、固定凸窗、廣告位會(huì )讓用戶(hù)反感,放棄整個(gè)瀏覽過(guò)程。這是網(wǎng)站seo優(yōu)化過(guò)程中需要避免和去除的部分??紤]一種更原生的方式來(lái)植入這些元素或獎勵用戶(hù)完成這個(gè)過(guò)程。同時(shí),避免蜘蛛在代碼使用過(guò)程中被搜索引擎禁止或難以捕捉和降級的可能。 , 常規的關(guān)鍵詞 布局。常規的關(guān)鍵詞植入(爆老師稱(chēng)之為填詞)也要繼續做,比如Title、H1、文章內關(guān)鍵詞、外鏈錨文本、內鏈錨文本、圖片ALT、URL ,圖片命名等等。這個(gè)我就不重復了,大家都明白。 ,使用相關(guān)主題模型。僅僅填寫(xiě)文字是不夠的,因為那太機械了,失去了文字用戶(hù)體驗。所以我們要做一個(gè)主題模型,比如關(guān)鍵詞我們可以擴展到燕尾服、婚紗、婚紗背心、婚紗、婚禮展銷(xiāo)會(huì )等相關(guān)詞。
  付費搜索營(yíng)銷(xiāo)不會(huì )增加您的自然流量,但您可以使用入站營(yíng)銷(xiāo)軟件來(lái)優(yōu)化您的網(wǎng)站 以獲得更多訪(fǎng)問(wèn)者。今天,社交媒體可以對您的自然流量趨勢線(xiàn)產(chǎn)生重大影響。即使在幾年前,通過(guò)社交搜索找到您的內容也不例外。但現在 SEO 將考慮推文、轉推、Google+ 作者身份和其他社交信號。社交搜索還將優(yōu)先考慮與您相關(guān)的內容和人員。這可能意味著(zhù)通過(guò) Facebook 交朋友、在 Twitter 上關(guān)注粉絲或通過(guò)其他社交網(wǎng)絡(luò )聯(lián)系。有時(shí),社交搜索甚至會(huì )優(yōu)先考慮影響者分享的內容。所有這一切意味著(zhù),當您考慮 SEO 策略時(shí),您需要考慮您的社交媒體策略如何適應這個(gè)難題。深入思考:將搜索引擎優(yōu)化視為“搜索體驗優(yōu)化”。對他們來(lái)說(shuō),留在您的網(wǎng)站、與您的內容互動(dòng)并稍后回來(lái)非常重要。
  購買(mǎi)入站營(yíng)銷(xiāo)或 SEO 優(yōu)化軟件。檢查表現良好的頁(yè)面。尋找獲得入站鏈接的機會(huì ),例如網(wǎng)站。監控排名和流量的變化。一系列策略,如果您使用它們,將幫助您在搜索引擎中排名更高。
  為了滿(mǎn)足長(cháng)期意圖和排名,圍繞主題而非關(guān)鍵字建立 SEO 營(yíng)銷(xiāo)策略。如果你這樣做,不管怎樣,你會(huì )發(fā)現你自然可以針對重要的關(guān)鍵字進(jìn)行優(yōu)化。了解您的目標受眾(又名買(mǎi)家角色)以及他們對什么感興趣是通過(guò)搜索引擎將相關(guān)訪(fǎng)問(wèn)者吸引到您的 網(wǎng)站 的關(guān)鍵。自然流量是來(lái)自 Google 或 Bing 等搜索引擎的無(wú)償流量。付費搜索營(yíng)銷(xiāo)不會(huì )增加您的自然流量,但您可以使用入站營(yíng)銷(xiāo)軟件來(lái)優(yōu)化您的網(wǎng)站 以獲得更多訪(fǎng)問(wèn)者。今天,社交媒體可以對您的自然流量趨勢線(xiàn)產(chǎn)生重大影響。即使在幾年前,通過(guò)社交搜索找到您的內容也不例外。但現在 SEO 將考慮推文、轉推、Google+ 作者身份和其他社交信號。社交搜索還會(huì )優(yōu)先考慮與您相關(guān)的內容和人員。 查看全部

  電話(huà)拒絕率低客戶(hù)興趣度高容易成交物超所值
  **SEO優(yōu)化,G3云推廣7.0的**優(yōu)勢:來(lái)電拒絕率低,客戶(hù)興趣高,銷(xiāo)售預約高,產(chǎn)品性?xún)r(jià)比高,交易方便,性?xún)r(jià)比好,單價(jià)高,簡(jiǎn)單的售后。
  大量的彈窗、固定凸窗、廣告位會(huì )讓用戶(hù)反感,放棄整個(gè)瀏覽過(guò)程。這是網(wǎng)站seo優(yōu)化過(guò)程中需要避免和去除的部分??紤]一種更原生的方式來(lái)植入這些元素或獎勵用戶(hù)完成這個(gè)過(guò)程。同時(shí),避免蜘蛛在代碼使用過(guò)程中被搜索引擎禁止或難以捕捉和降級的可能。 , 常規的關(guān)鍵詞 布局。常規的關(guān)鍵詞植入(爆老師稱(chēng)之為填詞)也要繼續做,比如Title、H1、文章內關(guān)鍵詞、外鏈錨文本、內鏈錨文本、圖片ALT、URL ,圖片命名等等。這個(gè)我就不重復了,大家都明白。 ,使用相關(guān)主題模型。僅僅填寫(xiě)文字是不夠的,因為那太機械了,失去了文字用戶(hù)體驗。所以我們要做一個(gè)主題模型,比如關(guān)鍵詞我們可以擴展到燕尾服、婚紗、婚紗背心、婚紗、婚禮展銷(xiāo)會(huì )等相關(guān)詞。
  付費搜索營(yíng)銷(xiāo)不會(huì )增加您的自然流量,但您可以使用入站營(yíng)銷(xiāo)軟件來(lái)優(yōu)化您的網(wǎng)站 以獲得更多訪(fǎng)問(wèn)者。今天,社交媒體可以對您的自然流量趨勢線(xiàn)產(chǎn)生重大影響。即使在幾年前,通過(guò)社交搜索找到您的內容也不例外。但現在 SEO 將考慮推文、轉推、Google+ 作者身份和其他社交信號。社交搜索還將優(yōu)先考慮與您相關(guān)的內容和人員。這可能意味著(zhù)通過(guò) Facebook 交朋友、在 Twitter 上關(guān)注粉絲或通過(guò)其他社交網(wǎng)絡(luò )聯(lián)系。有時(shí),社交搜索甚至會(huì )優(yōu)先考慮影響者分享的內容。所有這一切意味著(zhù),當您考慮 SEO 策略時(shí),您需要考慮您的社交媒體策略如何適應這個(gè)難題。深入思考:將搜索引擎優(yōu)化視為“搜索體驗優(yōu)化”。對他們來(lái)說(shuō),留在您的網(wǎng)站、與您的內容互動(dòng)并稍后回來(lái)非常重要。
  購買(mǎi)入站營(yíng)銷(xiāo)或 SEO 優(yōu)化軟件。檢查表現良好的頁(yè)面。尋找獲得入站鏈接的機會(huì ),例如網(wǎng)站。監控排名和流量的變化。一系列策略,如果您使用它們,將幫助您在搜索引擎中排名更高。
  為了滿(mǎn)足長(cháng)期意圖和排名,圍繞主題而非關(guān)鍵字建立 SEO 營(yíng)銷(xiāo)策略。如果你這樣做,不管怎樣,你會(huì )發(fā)現你自然可以針對重要的關(guān)鍵字進(jìn)行優(yōu)化。了解您的目標受眾(又名買(mǎi)家角色)以及他們對什么感興趣是通過(guò)搜索引擎將相關(guān)訪(fǎng)問(wèn)者吸引到您的 網(wǎng)站 的關(guān)鍵。自然流量是來(lái)自 Google 或 Bing 等搜索引擎的無(wú)償流量。付費搜索營(yíng)銷(xiāo)不會(huì )增加您的自然流量,但您可以使用入站營(yíng)銷(xiāo)軟件來(lái)優(yōu)化您的網(wǎng)站 以獲得更多訪(fǎng)問(wèn)者。今天,社交媒體可以對您的自然流量趨勢線(xiàn)產(chǎn)生重大影響。即使在幾年前,通過(guò)社交搜索找到您的內容也不例外。但現在 SEO 將考慮推文、轉推、Google+ 作者身份和其他社交信號。社交搜索還會(huì )優(yōu)先考慮與您相關(guān)的內容和人員。

如何做好seo相關(guān)性?xún)热萏嵘W(wǎng)站自身權重排名與流量

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 66 次瀏覽 ? 2021-07-14 22:49 ? 來(lái)自相關(guān)話(huà)題

  如何做好seo相關(guān)性?xún)热萏嵘W(wǎng)站自身權重排名與流量
  也許對于網(wǎng)站,seo 不是最好的營(yíng)銷(xiāo)策略。無(wú)需競標一系列按點(diǎn)擊付費的廣告更直接,但優(yōu)化一個(gè)網(wǎng)站對企業(yè)無(wú)害。如果搜索引擎營(yíng)銷(xiāo) (SEM) 是設計、運行和優(yōu)化搜索引擎廣告活動(dòng)的實(shí)踐,那么做網(wǎng)站 的基本工作就更好了。它與SEO區別的最簡(jiǎn)單描述是搜索結果中付費和未付費優(yōu)先級排名的差異。它的目的比相關(guān)性更突出。但是做seo相關(guān)的內容也是提升網(wǎng)站自身權重排名和流量的關(guān)鍵。
  產(chǎn)生足夠的投資回報。當然網(wǎng)站內容質(zhì)量?jì)?yōu)化是少不了的。 網(wǎng)站內容優(yōu)化是對頁(yè)面內容和編碼的更新和調整,使內容對搜索引擎更具吸引力,使搜索者能夠快速找到自己想要的內容。在大多數情況下,我們不可能 100% 優(yōu)化每個(gè)頁(yè)面。隨著(zhù)百度算法的不斷更新,內容質(zhì)量是一個(gè)長(cháng)期持續的過(guò)程。
  
  那么如何優(yōu)化頁(yè)面內容呢?以下是我們需要考慮的主要因素:
  標題標簽。
  元描述。
  ALT 標簽。
  網(wǎng)址結構。
  媒體(圖片、視頻)。
  H1、H2 和 H3 標簽。
  內部鏈接。
  出站鏈接。
  移動(dòng)響應
  這些因素是第一步,SEO技巧不假思索。但內容,即占據網(wǎng)頁(yè)大部分的博客、圖片、視頻,也必須進(jìn)行優(yōu)化。優(yōu)化舊帖子而不是創(chuàng )建新帖子會(huì )對自然排名和搜索存在產(chǎn)生重大影響。
  
  內容優(yōu)化優(yōu)先級:從哪里開(kāi)始,做什么?
  優(yōu)化內容時(shí),您應該針對單個(gè)關(guān)鍵字優(yōu)化整個(gè)頁(yè)面。二級和潛在語(yǔ)義索引 (LSI) 關(guān)鍵字將起作用,但搜索引擎和消費者需要絕對清楚您的頁(yè)面(博客)是什么,以及它與主題、標題、副標題和元模型相關(guān)性的關(guān)系。為此,激光只關(guān)注一個(gè)關(guān)鍵字。
  然后我們需要提高頁(yè)面的準確率。如果您的頁(yè)面在后臺正確標記并且所有元數據都與關(guān)鍵字相關(guān),那么我們需要更新副本的深度。我們稱(chēng)之為“內容深度”。內容差距分析表明,您需要在更新的內容中收錄好主意,以滿(mǎn)足搜索者的意圖。這是一個(gè)分步藍圖,用于為您保留哪些內容以及更改哪些內容。增加讀者價(jià)值:不要忽視關(guān)鍵詞的重要方面。我們還需要對關(guān)鍵詞進(jìn)行適當的擴展,試圖找出用戶(hù)搜索需求的可能性。
  網(wǎng)站中的每一個(gè)內容都有內在價(jià)值。做好優(yōu)化不是一天就能完成的,必須持續跟進(jìn)完善網(wǎng)站數據。您的網(wǎng)站可以在眾多同行中脫穎而出,達到網(wǎng)站推廣排名的理想位置,做更多有價(jià)值的內容營(yíng)銷(xiāo)。 查看全部

  如何做好seo相關(guān)性?xún)热萏嵘W(wǎng)站自身權重排名與流量
  也許對于網(wǎng)站,seo 不是最好的營(yíng)銷(xiāo)策略。無(wú)需競標一系列按點(diǎn)擊付費的廣告更直接,但優(yōu)化一個(gè)網(wǎng)站對企業(yè)無(wú)害。如果搜索引擎營(yíng)銷(xiāo) (SEM) 是設計、運行和優(yōu)化搜索引擎廣告活動(dòng)的實(shí)踐,那么做網(wǎng)站 的基本工作就更好了。它與SEO區別的最簡(jiǎn)單描述是搜索結果中付費和未付費優(yōu)先級排名的差異。它的目的比相關(guān)性更突出。但是做seo相關(guān)的內容也是提升網(wǎng)站自身權重排名和流量的關(guān)鍵。
  產(chǎn)生足夠的投資回報。當然網(wǎng)站內容質(zhì)量?jì)?yōu)化是少不了的。 網(wǎng)站內容優(yōu)化是對頁(yè)面內容和編碼的更新和調整,使內容對搜索引擎更具吸引力,使搜索者能夠快速找到自己想要的內容。在大多數情況下,我們不可能 100% 優(yōu)化每個(gè)頁(yè)面。隨著(zhù)百度算法的不斷更新,內容質(zhì)量是一個(gè)長(cháng)期持續的過(guò)程。
  
  那么如何優(yōu)化頁(yè)面內容呢?以下是我們需要考慮的主要因素:
  標題標簽。
  元描述。
  ALT 標簽。
  網(wǎng)址結構。
  媒體(圖片、視頻)。
  H1、H2 和 H3 標簽。
  內部鏈接。
  出站鏈接。
  移動(dòng)響應
  這些因素是第一步,SEO技巧不假思索。但內容,即占據網(wǎng)頁(yè)大部分的博客、圖片、視頻,也必須進(jìn)行優(yōu)化。優(yōu)化舊帖子而不是創(chuàng )建新帖子會(huì )對自然排名和搜索存在產(chǎn)生重大影響。
  
  內容優(yōu)化優(yōu)先級:從哪里開(kāi)始,做什么?
  優(yōu)化內容時(shí),您應該針對單個(gè)關(guān)鍵字優(yōu)化整個(gè)頁(yè)面。二級和潛在語(yǔ)義索引 (LSI) 關(guān)鍵字將起作用,但搜索引擎和消費者需要絕對清楚您的頁(yè)面(博客)是什么,以及它與主題、標題、副標題和元模型相關(guān)性的關(guān)系。為此,激光只關(guān)注一個(gè)關(guān)鍵字。
  然后我們需要提高頁(yè)面的準確率。如果您的頁(yè)面在后臺正確標記并且所有元數據都與關(guān)鍵字相關(guān),那么我們需要更新副本的深度。我們稱(chēng)之為“內容深度”。內容差距分析表明,您需要在更新的內容中收錄好主意,以滿(mǎn)足搜索者的意圖。這是一個(gè)分步藍圖,用于為您保留哪些內容以及更改哪些內容。增加讀者價(jià)值:不要忽視關(guān)鍵詞的重要方面。我們還需要對關(guān)鍵詞進(jìn)行適當的擴展,試圖找出用戶(hù)搜索需求的可能性。
  網(wǎng)站中的每一個(gè)內容都有內在價(jià)值。做好優(yōu)化不是一天就能完成的,必須持續跟進(jìn)完善網(wǎng)站數據。您的網(wǎng)站可以在眾多同行中脫穎而出,達到網(wǎng)站推廣排名的理想位置,做更多有價(jià)值的內容營(yíng)銷(xiāo)。

編輯推薦《這就是搜索引擎:核心技術(shù)詳解》

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 121 次瀏覽 ? 2021-07-11 07:01 ? 來(lái)自相關(guān)話(huà)題

  
編輯推薦《這就是搜索引擎:核心技術(shù)詳解》
  
  編輯推薦
  《這就是搜索引擎:核心技術(shù)詳解》適合所有對搜索引擎技術(shù)感興趣的人,尤其是相關(guān)領(lǐng)域的學(xué)生、對搜索引擎核心技術(shù)感興趣的技術(shù)人員、相關(guān)從業(yè)人員在搜索引擎優(yōu)化方面,中小網(wǎng)站站長(cháng)等更有參考價(jià)值。
  作者其他作品《大數據日常知識:架構與算法》
  內容介紹
  搜索引擎作為互聯(lián)網(wǎng)發(fā)展中至關(guān)重要的應用,已經(jīng)成為互聯(lián)網(wǎng)各個(gè)領(lǐng)域的制高點(diǎn),其重要性不言而喻。搜索引擎領(lǐng)域也是互聯(lián)網(wǎng)應用中少有的以核心技術(shù)為命脈的領(lǐng)域。搜索引擎的各個(gè)子系統是如何設計的?這已成為廣大技術(shù)人員和搜索引擎優(yōu)化者關(guān)注的內容。
  《這就是搜索引擎:核心技術(shù)詳解》的特點(diǎn)是內容新穎、全面、通俗易懂。對實(shí)際搜索引擎中涉及的各種核心技術(shù)進(jìn)行了全面詳細的介紹。除了以網(wǎng)絡(luò )爬蟲(chóng)、索引系統、排名系統、鏈接分析和用戶(hù)分析為核心的搜索系統外,還包括網(wǎng)頁(yè)反作弊、緩存管理、網(wǎng)頁(yè)重復數據刪除技術(shù)等實(shí)際搜索引擎必須具備的技術(shù)。關(guān)注,同時(shí)在相當大的篇幅中講解了云計算和云存儲的核心技術(shù)原理。此外,本書(shū)還密切關(guān)注搜索引擎開(kāi)發(fā)的前沿技術(shù):谷歌的咖啡因系統和Megastore等新的云計算技術(shù)、百度的暗網(wǎng)爬蟲(chóng)技術(shù)阿拉丁計劃、內容農場(chǎng)作弊、機器學(xué)習排序等。許多新技術(shù)在相關(guān)章節中有詳細的講解,同時(shí)對社交搜索、實(shí)時(shí)搜索、上下文搜索等搜索引擎未來(lái)的發(fā)展方向給出了技術(shù)展望。為了加深讀者的理解,書(shū)中引入了大量生動(dòng)的圖片來(lái)講解算法的原理。相信讀者會(huì )發(fā)現,原來(lái)搜索引擎的核心技術(shù)比原先想象的要簡(jiǎn)單得多。
  作者簡(jiǎn)介
  張俊林著(zhù)有技術(shù)書(shū)籍《這就是搜索引擎:核心技術(shù)詳解》,現任暢捷通智能平臺總監。在此之前,張君林曾任阿里巴巴風(fēng)潮廣告平臺、百度商業(yè)搜索部、新浪微博搜索部和數據系統部高級技術(shù)專(zhuān)家,新浪微博技術(shù)委員會(huì )委員,負責方向算法策略。張君林也是智能信息聚合網(wǎng)站“玩聚網(wǎng)”的聯(lián)合創(chuàng )始人之一。他的研發(fā)興趣集中在:搜索技術(shù)、推薦系統、社交挖掘、自然語(yǔ)言處理和大數據算法架構等,在上述領(lǐng)域有多年的行業(yè)實(shí)踐經(jīng)驗。張君林畢業(yè)于天津大學(xué)管理學(xué)院,獲學(xué)士學(xué)位。 1999年至2004年在中國科學(xué)院軟件研究所直接攻讀博士學(xué)位。研究方向為信息檢索理論和自然語(yǔ)言處理。學(xué)習期間,在A(yíng)CL/COLING/IJCNLP等頂級國際會(huì )議上發(fā)表多篇文章。學(xué)術(shù)論文。此外,他在此期間設計的搜索系統贏(yíng)得了17個(gè)國際高水平研究團隊的激烈競爭,并在美國國防部DARPA主辦的第二屆TREC高精度檢索系統評估中排名第一。取名效果極佳。
  內容
  第一章搜索引擎及其技術(shù)架構
  1.1 為什么搜索引擎很重要
  1.1.1 互聯(lián)網(wǎng)的發(fā)展
  1.1.2 商業(yè)搜索引擎公司的發(fā)展
  1.1.3 搜索引擎的重要地位
  1.2搜索引擎技術(shù)發(fā)展歷程
  1.2.1史前時(shí)代:目錄的產(chǎn)生
  1.2.2 第一代:文本檢索的產(chǎn)生
  1.2.3 第二代:鏈路分析的產(chǎn)生
  1.2.4 第三代:以用戶(hù)為中心的一代
  1.3 搜索引擎的3個(gè)目標
  1.4 搜索引擎的3個(gè)核心問(wèn)題
  1.4.13個(gè)核心問(wèn)題
  1.4.2 與技術(shù)發(fā)展的關(guān)系
  1.5搜索引擎技術(shù)架構
  第 2 章網(wǎng)絡(luò )爬蟲(chóng)
  2.1 通用爬蟲(chóng)框架
  2.2 優(yōu)秀爬蟲(chóng)的特點(diǎn)
  2.3 爬蟲(chóng)質(zhì)量評價(jià)標準
  2.4 爬取策略
  2.4.1 廣度優(yōu)先遍歷策略(BreathFirst)
  2.4.2 部分 PageRank 策略(PartialPageRank)
  2.4.3OCIP 策略(OnlinePageImportanceComputation)
  2.4.4LargerSitesFirst 策略(LargerSitesFirst)
  2.5網(wǎng)頁(yè)更新策略
  2.5.1歷史參考策略
  2.5.2用戶(hù)體驗策略
  2.5.3 聚類(lèi)抽樣策略
  2.6DeepWebCrawling(DeepWebCrawling)
  2.6.1 查詢(xún)組合問(wèn)題
  2.6.2 在文本框中填寫(xiě)問(wèn)題
  2.7 分布式爬蟲(chóng)
  2.7.1 主從分發(fā)爬蟲(chóng)(Master-Slave)
  2.7.2 點(diǎn)對點(diǎn)(PeertoPeer)
  本章總結
  本章參考資料
  第 3 章搜索引擎索引
  3.1索引基礎
  3.1.1 字——文檔矩陣
  3.1.2 倒排索引的基本概念
  3.1.3 倒排索引的簡(jiǎn)單例子
  3.2 詞詞典
  3.2.1 哈希加鏈表
  3.2.2樹(shù)結構
  3.3PostingList
  3.4創(chuàng )建索引
  3.4.1 兩遍文檔遍歷方法(2-PassIn-MemoryInversion)
  3.4.2Sort-basedInversion(Sort-basedInversion)
  3.4.3Merge-basedInversion(Merge-basedInversion)
  3.5動(dòng)態(tài)索引
  3.6 索引更新策略
  3.6.1 完整重建策略(CompleteRe-Build)
  3.6.2 重新合并策略(Re-Merge)
  3.6.3 就地更新策略(In-Place)
  3.6.4 混合策略(Hybrid)
  3.7查詢(xún)處理
  3.7.1 一次一個(gè)文檔(DocataTime)
  3.7.2 一次一個(gè)字(TermataTime)
  3.7.3SkipPointers(SkipPointers)
  3.8多字段索引
  3.8.1多索引法
  3.8.2倒排列表法
  3.8.3擴展列表方法(ExtentList)
  3.9phrase 查詢(xún)
  3.9.1位置索引(PositionIndex)
  3.9.2 二字索引(NextwordIndex)
  3.9.3 PhraseIndex (PhraseIndex)
  3.9.4 混合方法
  3.10分布式索引(ParallelIndexing)
  3.10.??1 按文檔劃分(DocumentPartitioning)
  3.10.??2 按詞劃分(TermPartitioning)
  3.10.??3 兩種方案對比
  本章總結
  本章參考資料
  第 4 章索引壓縮
  4.1 字典壓縮
  4.2倒列表壓縮算法
  4.2.1 評價(jià)指標壓縮算法指標
  4.2.2 一元編碼和二進(jìn)制編碼
  4.2.3EliasGamma 算法和 EliasDelta 算法
  4.2.4Golomb 算法和 Rice 算法
  4.2.5 變長(cháng)字節算法(VariableByte)
  4.2.6SimpleX 系列算法
  4.2.7PForDelta 算法
  4.3 DocIDReordering(DocIDReordering)
  4.4StaticIndexPruning (StaticIndexPruning)
  4.4.1 以詞為中心的索引剪裁
  4.4.2 以文檔為中心的索引裁剪
  本章總結
  本章參考資料
  第 5 章搜索模型和搜索排序
  5.1BooleanModel (BooleanModel)
  5.2VectorSpaceModel (VectorSpaceModel)
  5.2.1文檔表示
  5.2.2 相似度計算
  5.2.3特征權重計算
  5.3概率檢索模型
  5.3.1 概率排序原則
  5.3.2BinaryIndependentModel(BinaryIndependentModel)
  5.3.3BM25 模型
  5.3.4BM25F 模型
  5.4 語(yǔ)言模型方法
  5.5 機器學(xué)習排名(LearningtoRank)
  5.5.1機器學(xué)習排序的基本思路
  5.5.2 單文檔方法(PointWiseApproach)
  5.5.3文檔對方法(PairWiseApproach)
  5.5.4 文檔列表方法(ListWiseApproach)
  5.6 搜索質(zhì)量評價(jià)標準
  5.6.1準確率和召回率
  5.6.2P@10個(gè)指標
  5.6.3MAP 指標(MeanAveragePrecision)
  本章總結
  本章參考資料
  第六章鏈接分析
  6.1網(wǎng)頁(yè)圖片
  6.2 兩個(gè)概念模型和算法的關(guān)系
  6.2.1RandomSurferModel (RandomSurferModel)
  6.2.2 子集傳播模型
  6.2.3 鏈接分析算法之間的關(guān)系
  6.3PageRank 算法
  6.3.1 從鏈內數到PageRank
  6.3.2PageRank 計算
  6.3.3 鏈接陷阱(LinkSink)和遠程跳轉(Teleporting)
  6.4HITS 算法(HypertextInducedTopicSelection)
  6.4.1Hub 頁(yè)面和權限頁(yè)面
  6.4.2 互增關(guān)系
  6.4.3HITS 算法
  6.4.4HITS 算法問(wèn)題
  6.4.5HITS算法與PageRank算法對比
  6.5SALSA 算法
  6.5.1 確定計算對象集
  6.5.2 鏈接關(guān)系傳播
  6.5.3權限權重計算
  6.6 主題敏感頁(yè)面排名(TopicSensitivePageRank)
  6.6.1 主題敏感的PageRank和PageRank的區別
  6.6.2 主題敏感的PageRank計算過(guò)程
  6.6.3 使用主題敏感的PageRank構建個(gè)性化搜索
  6.7Hilltop 算法
  6.7.1 Hilltop 算法的一些基本定義
  6.7.2Hilltop 算法
  6.8 其他改進(jìn)算法
  6.8.1IntelligentSurferModel(智能沖浪模型)
  6.8.2 BiasedSurferModel(BiasedSurferModel)
  6.8.3PHITS 算法(ProbabilityAnalogyofHITS)
  6.8.4BFS 算法(BackwardForwardStep)
  本章總結
  本章參考資料
  第 7 章云存儲和云計算
  7.1 云存儲和云計算概述
  7.1.1 基本假設
  7.1.2理論基礎
  7.1.3 數據模型
  7.1.4 基本問(wèn)題
  7.1.5Google 的云存儲和云計算架構
  7.2Google 文件系統 (GFS)
  7.2.1GFS 設計原則
  7.2.2GFS 整體架構
  7.2.3GFS 主控服務(wù)器
  7.2.4 系統交互行為
  7.3Chubby 鎖服務(wù)
  7.4BigTable
  7.4.1BigTable 的數據模型
  7.4.2BigTable 整體結構
  7.4.3BigTable 的管理數據
  7.4.4MasterServer
  7.4.5 分表服務(wù)器(TabletServer)
  7.5Megastore 系統
  7.5.1 實(shí)體組切分
  7.5.2數據模型
  7.5.3數據讀寫(xiě)與備份
  7.6Map/Reduce 云計算模型
  7.6.1計算模型
  7.6.2 整體邏輯流程
  7.6.3 應用實(shí)例
  7.7Caffeine System-Percolator
  7.7.1 事務(wù)支持
  7.7.2 觀(guān)察/通知架構
  7.8Pregel 圖計算模型
  7.9Dynomo 云存儲系統
  7.9.1 數據分區算法(PartitioningAlgorithm)
  7.9.2數據備份(復制)
  7.9.3數據讀寫(xiě)
  7.9.4數據版本控制
  7.10PNUTS 云存儲系統
  7.10.??1PNUTS 整體架構
  7.10.??2 存儲單元
  7.10.??3 分表控制器和數據路由器
  7.10.??4 雅虎通訊社
  7.10.??5 數據一致性
  7.11HayStack 存儲系統
  7.11.1HayStack 整體架構
  7.11.2 目錄服務(wù)
  7.11.3HayStack 緩存
  7.11.4HayStack 存儲系統
  本章總結
  本章參考資料
  第8章網(wǎng)絡(luò )反作弊
  8.1內容作弊
  8.1.1常見(jiàn)的內容作弊方法
  8.1.2內容農場(chǎng)(ContentFarm)
  8.2 鏈接作弊
  8.3 頁(yè)面隱藏作弊
  8.4Web2.0 作弊方法
  8.5反作弊技術(shù)總體思路
  8.5.1 信任傳播模型
  8.5.2 不信任傳播模型
  8.5.3 異常發(fā)現模型
  8.6 萬(wàn)能鏈接反作弊方法
  8.6.1TrustRank 算法
  8.6.2BadRank 算法
  8.6.3SpamRank
  8.7 專(zhuān)用鏈接防作弊技術(shù)
  8.7.1 識別鏈接農場(chǎng)
  8.7.2 識別谷歌轟炸
  8.8 識別內容作弊
  8.9反隱藏作弊
  8.9.1 識別頁(yè)面隱藏
  8.9.2 識別網(wǎng)頁(yè)重定向
  8.10 搜索引擎反作弊綜合框架
  本章總結
  本章參考資料
  第九章用戶(hù)查詢(xún)意圖分析
  9.1搜索行為及其意圖
  9.1.1用戶(hù)搜索行為
  9.1.2用戶(hù)搜索意圖分類(lèi)
  9.2搜索日志挖掘
  9.2.1查詢(xún)會(huì )話(huà)(QuerySession)
  9.2.2ClickGraph (ClickGraph)
  9.2.3查詢(xún)圖(QueryGraph)
  9.3 相關(guān)搜索
  9.3.1 基于查詢(xún)會(huì )話(huà)的方法
  9.3.2 基于點(diǎn)擊圖的方法
  9.4檢查糾錯
  9.4.1EditDistance(編輯距離)
  9.4.2 噪聲通道模型(NoiseChannelModel)
  本章總結
  本章參考資料
  第十章網(wǎng)頁(yè)去重
  10.??1 通用去重算法框架
  10.??2Shingling 算法
  10.??3I-Match 算法
  10.??4SimHash 算法
  10.??4.1 文檔指紋計算
  10.??4.2 搜索類(lèi)似文檔
  10.??5SpotSig 算法
  10.??5.1 特征提取
  10.??5.2 搜索類(lèi)似文檔
  本章總結
  本章參考資料
  第11章搜索引擎緩存機制
  11.1搜索引擎緩存系統架構
  11.2Cache 對象
  11.3緩存結構
  11.4緩存消除策略(EvictPolicy)
  11.4.1 動(dòng)態(tài)策略
  11.4.2 混合策略
  11.5緩存更新策略(RefreshPolicy)
  本章總結
  本章參考資料
  第十二章搜索引擎發(fā)展趨勢
  12.1個(gè)性化搜索
  12.2社交搜索
  12.3 實(shí)時(shí)搜索
  12.4手機搜索
  12.5 位置感知搜索
  12.6跨語(yǔ)言搜索
  12.7多媒體搜索
  12.8情況搜索
  前言
  互聯(lián)網(wǎng)產(chǎn)品種類(lèi)繁多,以產(chǎn)品為導向,以營(yíng)銷(xiāo)為導向,以技術(shù)為導向,但精通技術(shù)的互聯(lián)網(wǎng)產(chǎn)品比例相對較小。搜索引擎是當前互聯(lián)網(wǎng)產(chǎn)品中具有技術(shù)含量的產(chǎn)品,如果不是唯一的,至少是其中之一。
  經(jīng)過(guò)十多年的發(fā)展,搜索引擎已經(jīng)成為互聯(lián)網(wǎng)的重要門(mén)戶(hù)之一。 Twitter聯(lián)合創(chuàng )始人埃文威廉姆斯提出“域名已死理論”:容易記住的域名不再重要,因為人們會(huì )通過(guò)搜索輸入網(wǎng)站。搜索引擎排名對于中小網(wǎng)站流量非常重要。了解搜索引擎簡(jiǎn)單界面背后的技術(shù)原理,對很多人來(lái)說(shuō)其實(shí)很重要。
  為什么會(huì )有這本書(shū)
  寫(xiě)搜索引擎技術(shù)書(shū)籍的最初想法是兩年前誕生的。當時(shí)的場(chǎng)景是對團隊成員進(jìn)行搜索技術(shù)培訓,但是我搜索了相關(guān)書(shū)籍,卻沒(méi)有找到一本非常合適的搜索技術(shù)入門(mén)書(shū)籍。當時(shí)市場(chǎng)上的書(shū)籍,要么是信息檢索理論的專(zhuān)著(zhù),理論性太強,不易理解,真正講搜索引擎技術(shù)的章節也不多;或者它們是太實(shí)用的書(shū),比如 Lucene 代碼分析,比如搜索引擎。這種直接分析開(kāi)源系統代碼的算法應用并不是一種非常高效的學(xué)習方法。所以當時(shí)就誕生了寫(xiě)一本通俗易懂,適合沒(méi)有相關(guān)技術(shù)背景的人,比較全面,融合新技術(shù)的搜索引擎書(shū)籍。但我是在一年前開(kāi)始寫(xiě)作的。
  在寫(xiě)這本書(shū)之前,我為自己設定了一些目標。首先,內容要全面,即全面覆蓋搜索引擎相關(guān)技術(shù)的主要方面。不僅要收錄倒排索引、檢索模型、爬蟲(chóng)等常用內容,還要詳細講解鏈接分析、網(wǎng)頁(yè)反作弊、用戶(hù)搜索意圖分析、網(wǎng)頁(yè)云存儲和去重甚至搜索引擎緩存都是有機的一個(gè)完整的搜索引擎的組成部分,但詳細介紹其原理的書(shū)籍并不多。我希望盡可能全面。
  第二個(gè)目標很容易理解。我希望沒(méi)有任何相關(guān)技術(shù)背景的人可以從閱讀本書(shū)中學(xué)到一些東西,不了解技術(shù)的學(xué)生可以大致理解。這個(gè)目標看似簡(jiǎn)單,但實(shí)際上實(shí)現起來(lái)并不容易。我不敢說(shuō)這本書(shū)達到了這個(gè)目標,但我已經(jīng)盡力了。具體措施包括以下三個(gè)方面。
  一是盡可能減少數學(xué)公式的數量,除非公式?jīng)]有列出。盡管數學(xué)公式具有簡(jiǎn)單之美,但大多數人實(shí)際上對數學(xué)符號存在恐懼和回避。多年前我也有類(lèi)似的心理,所以盡可能不要使用數學(xué)公式。
  一是盡量多舉例,特別是一些比較難理解的地方。需要舉例來(lái)加深理解。
  還有更多的繪圖。就我個(gè)人的經(jīng)驗而言,雖然算法或技術(shù)很抽象,但如果深入理解原理,將復雜的化簡(jiǎn),絕對可以將算法轉化為生動(dòng)的畫(huà)面。如果你無(wú)法在腦海中形成算法的直觀(guān)圖形表示,則說(shuō)明你對其原理沒(méi)有透徹的理解。這是我判斷自己是否深刻理解算法的一個(gè)私人標準。鑒于此,本書(shū)在講解算法的地方,使用了大量的算法示意圖。全書(shū)收錄300多幅算法原理解釋圖。相信這對讀者深入理解算法有很大幫助。
  第三個(gè)目標是強調新現象和新技術(shù),比如谷歌的caffeine系統和Megastore等云存儲系統、Pregel云圖計算模型、暗網(wǎng)爬取技術(shù)、Web2.0網(wǎng)絡(luò )作弊、機器學(xué)習排序、上下文搜索、社交搜索等在相關(guān)章節中有說(shuō)明。
  第四個(gè)目標是強調原則,而不是停留在技術(shù)細節上。對于新手來(lái)說(shuō),一個(gè)容易解決的問(wèn)題是他們喜歡挖掘細節,只見(jiàn)樹(shù)木不見(jiàn)森林,懂一個(gè)公式卻不懂背后的基本思想和出發(fā)點(diǎn)。我接觸過(guò)很多技術(shù)人員,七八歲就會(huì )有這個(gè)特點(diǎn)。有一個(gè)問(wèn)題“道家哪個(gè)好?” “道”是什么?什么是“手術(shù)”?比如《孫子兵法》就是道,《三十六計》就是戰術(shù)。 “道”是宏觀(guān)的、有原則的、經(jīng)久不衰的基本原則,而“技術(shù)”是遵循基本原則的具體方法和措施,是變化無(wú)常的。技術(shù)也是如此。算法本身的細節就是“技巧”,算法所體現的基本思想就是“道”。知“道”、學(xué)“技”,雖然兩者不能偏,但如果要選擇優(yōu)先級,毫無(wú)疑問(wèn)我會(huì )先選擇“道”再選擇“術(shù)”。
  以上四點(diǎn)是寫(xiě)書(shū)之前設定的目標?,F在寫(xiě)完了,可能很多地方都達不到當初的期待,但是我會(huì )努力的。寫(xiě)書(shū)的過(guò)程很辛苦,至少比我想象的要難。因為工作忙,每天只能早起,加上周末和節假日。也許書(shū)中有這樣的缺點(diǎn),但我可以說(shuō)我是真誠地寫(xiě)這本書(shū)的。
  這本書(shū)是給誰(shuí)看的?
  如果您是以下其中一種,那么這本書(shū)適合您。
  1.對搜索引擎核心算法感興趣的技術(shù)人員
  搜索引擎的整體框架是什么?收錄哪些核心技術(shù)?
  網(wǎng)絡(luò )爬蟲(chóng)的基本結構是什么?常見(jiàn)的爬取策略有哪些?什么是暗網(wǎng)爬行?如何構建分布式爬蟲(chóng)?百度的阿拉丁計劃是什么?
  什么是倒排索引?如何對倒排索引進(jìn)行數據壓縮?
  搜索引擎如何對搜索結果進(jìn)行排序?
  什么是向量空間模型?什么是概率模型?什么是BM25型號?什么是機器學(xué)習排序?它們之間有什么異同?
  PageRank和HITS算法有什么關(guān)系?有哪些相同點(diǎn)和不同點(diǎn)?什么是 SALSA 算法?什么是山頂算法?各種鏈接分析算法之間的關(guān)系是什么?
  如何識別搜索用戶(hù)的真實(shí)搜索意圖?用戶(hù)可以搜索多少個(gè)類(lèi)別?什么是點(diǎn)擊圖表?什么是查詢(xún)會(huì )話(huà)?相關(guān)搜索是如何完成的?
  為什么我們需要去重復網(wǎng)頁(yè)?如何去重復網(wǎng)頁(yè)?哪種算法效果更好?
  搜索引擎緩存有多少級?核心戰略是什么?
  什么是上下文搜索?什么是社交搜索?什么是實(shí)時(shí)搜索?
  搜索引擎的發(fā)展趨勢是什么?
  如果你對三個(gè)以上的問(wèn)題感興趣,那么這本書(shū)就是為你而寫(xiě)的。
  2.對云計算和云存儲感興趣的技術(shù)人員
  CAP的原理是什么?什么是 ACID 原理?它們之間有什么異同?
  Google 的云計算框架包括哪些技術(shù)? Hadoop系列和谷歌的云計算框架有什么關(guān)系?
  Google 的三駕馬車(chē) GFS、BigTable 和 MapReduce 是什么意思?有什么關(guān)系?
  谷歌咖啡因系統的基本原理是什么?
  Google 的 Pregel 計算模型和 MapReduce 計算模型有什么區別?
  Google 的 Megastore 云存儲系統和 BigTable 是什么關(guān)系?
  什么是亞馬遜的 Dynamo 系統?
  雅虎的 PNUTS 系統是什么?
  Haystack 存儲系統適用于哪些地方?
  如果你對以上問(wèn)題感興趣,相信你可以在書(shū)中找到答案。
  3.互聯(lián)網(wǎng)營(yíng)銷(xiāo)人員從事搜索引擎優(yōu)化和中小網(wǎng)站站長(cháng)
  搜索引擎的反作弊策略是什么?如何優(yōu)化以避免被認為作弊?
  搜索引擎如何對搜索結果進(jìn)行排序?鏈接分析和內容排名有什么關(guān)系?
  什么是內容農場(chǎng)?什么是鏈接農場(chǎng)?他們是什么關(guān)系?
  什么是 Web 2.0 作弊?常用的方法有哪些?
  什么是 SpamRank?什么是信任等級?什么是壞排名?他們是什么關(guān)系?
  咖啡因系統如何影響頁(yè)面排名?
  最近一批電商網(wǎng)站針對搜索引擎優(yōu)化,結果被谷歌認定為黑帽SEO,導致搜索排名權降低。如何避免這種情況?從事相關(guān)行業(yè)的營(yíng)銷(xiāo)人員和網(wǎng)站webmasters應該對反作弊搜索引擎的基本策略和方法,甚至頁(yè)面排名算法等搜索引擎的核心技術(shù)有深入的了解。 SEO技術(shù)歸根結底其實(shí)很簡(jiǎn)單。盡管它在不斷變化,但許多原則和策略總是相似而密不可分的。深入了解搜索引擎相關(guān)技術(shù)原理,將形成您所在行業(yè)的競爭優(yōu)勢。
  4.作者本人
  我的記憶力不是很好,一段時(shí)間內學(xué)到的技術(shù)往往幾年后就模糊了,所以這本書(shū)也是給自己寫(xiě)的,作為技術(shù)參考手冊。沉力也參與了本書(shū)的部分編寫(xiě)。
  謝謝
  感謝博文的編輯傅銳。沒(méi)有她,這本書(shū)就不會(huì )出版。傅主編在審稿過(guò)程中提出的細致的改進(jìn)點(diǎn)對我幫助很大。
  特別感謝我的妻子。在將近一年的寫(xiě)作過(guò)程中,我幾乎把所有的空閑時(shí)間都花在了這本書(shū)的寫(xiě)作上。她承擔了所有的家務(wù),以免分散我的注意力。沒(méi)時(shí)間陪她也沒(méi)關(guān)系,這本書(shū)的誕生也算是送給她的禮物。
  對我來(lái)說(shuō),寫(xiě)這本書(shū)是一個(gè)辛苦而快樂(lè )的過(guò)程。就像一個(gè)遠行的旅人。當你從水和山上仰望時(shí),你總能看到你所忽略的美麗景色。如果您在閱讀本書(shū),我很榮幸能有這樣的體驗。
  張俊林
  2011 年 6 月
  獲取正版《這就是搜索引擎:核心技術(shù)詳解》 查看全部

  
編輯推薦《這就是搜索引擎:核心技術(shù)詳解》
  
  編輯推薦
  《這就是搜索引擎:核心技術(shù)詳解》適合所有對搜索引擎技術(shù)感興趣的人,尤其是相關(guān)領(lǐng)域的學(xué)生、對搜索引擎核心技術(shù)感興趣的技術(shù)人員、相關(guān)從業(yè)人員在搜索引擎優(yōu)化方面,中小網(wǎng)站站長(cháng)等更有參考價(jià)值。
  作者其他作品《大數據日常知識:架構與算法》
  內容介紹
  搜索引擎作為互聯(lián)網(wǎng)發(fā)展中至關(guān)重要的應用,已經(jīng)成為互聯(lián)網(wǎng)各個(gè)領(lǐng)域的制高點(diǎn),其重要性不言而喻。搜索引擎領(lǐng)域也是互聯(lián)網(wǎng)應用中少有的以核心技術(shù)為命脈的領(lǐng)域。搜索引擎的各個(gè)子系統是如何設計的?這已成為廣大技術(shù)人員和搜索引擎優(yōu)化者關(guān)注的內容。
  《這就是搜索引擎:核心技術(shù)詳解》的特點(diǎn)是內容新穎、全面、通俗易懂。對實(shí)際搜索引擎中涉及的各種核心技術(shù)進(jìn)行了全面詳細的介紹。除了以網(wǎng)絡(luò )爬蟲(chóng)、索引系統、排名系統、鏈接分析和用戶(hù)分析為核心的搜索系統外,還包括網(wǎng)頁(yè)反作弊、緩存管理、網(wǎng)頁(yè)重復數據刪除技術(shù)等實(shí)際搜索引擎必須具備的技術(shù)。關(guān)注,同時(shí)在相當大的篇幅中講解了云計算和云存儲的核心技術(shù)原理。此外,本書(shū)還密切關(guān)注搜索引擎開(kāi)發(fā)的前沿技術(shù):谷歌的咖啡因系統和Megastore等新的云計算技術(shù)、百度的暗網(wǎng)爬蟲(chóng)技術(shù)阿拉丁計劃、內容農場(chǎng)作弊、機器學(xué)習排序等。許多新技術(shù)在相關(guān)章節中有詳細的講解,同時(shí)對社交搜索、實(shí)時(shí)搜索、上下文搜索等搜索引擎未來(lái)的發(fā)展方向給出了技術(shù)展望。為了加深讀者的理解,書(shū)中引入了大量生動(dòng)的圖片來(lái)講解算法的原理。相信讀者會(huì )發(fā)現,原來(lái)搜索引擎的核心技術(shù)比原先想象的要簡(jiǎn)單得多。
  作者簡(jiǎn)介
  張俊林著(zhù)有技術(shù)書(shū)籍《這就是搜索引擎:核心技術(shù)詳解》,現任暢捷通智能平臺總監。在此之前,張君林曾任阿里巴巴風(fēng)潮廣告平臺、百度商業(yè)搜索部、新浪微博搜索部和數據系統部高級技術(shù)專(zhuān)家,新浪微博技術(shù)委員會(huì )委員,負責方向算法策略。張君林也是智能信息聚合網(wǎng)站“玩聚網(wǎng)”的聯(lián)合創(chuàng )始人之一。他的研發(fā)興趣集中在:搜索技術(shù)、推薦系統、社交挖掘、自然語(yǔ)言處理和大數據算法架構等,在上述領(lǐng)域有多年的行業(yè)實(shí)踐經(jīng)驗。張君林畢業(yè)于天津大學(xué)管理學(xué)院,獲學(xué)士學(xué)位。 1999年至2004年在中國科學(xué)院軟件研究所直接攻讀博士學(xué)位。研究方向為信息檢索理論和自然語(yǔ)言處理。學(xué)習期間,在A(yíng)CL/COLING/IJCNLP等頂級國際會(huì )議上發(fā)表多篇文章。學(xué)術(shù)論文。此外,他在此期間設計的搜索系統贏(yíng)得了17個(gè)國際高水平研究團隊的激烈競爭,并在美國國防部DARPA主辦的第二屆TREC高精度檢索系統評估中排名第一。取名效果極佳。
  內容
  第一章搜索引擎及其技術(shù)架構
  1.1 為什么搜索引擎很重要
  1.1.1 互聯(lián)網(wǎng)的發(fā)展
  1.1.2 商業(yè)搜索引擎公司的發(fā)展
  1.1.3 搜索引擎的重要地位
  1.2搜索引擎技術(shù)發(fā)展歷程
  1.2.1史前時(shí)代:目錄的產(chǎn)生
  1.2.2 第一代:文本檢索的產(chǎn)生
  1.2.3 第二代:鏈路分析的產(chǎn)生
  1.2.4 第三代:以用戶(hù)為中心的一代
  1.3 搜索引擎的3個(gè)目標
  1.4 搜索引擎的3個(gè)核心問(wèn)題
  1.4.13個(gè)核心問(wèn)題
  1.4.2 與技術(shù)發(fā)展的關(guān)系
  1.5搜索引擎技術(shù)架構
  第 2 章網(wǎng)絡(luò )爬蟲(chóng)
  2.1 通用爬蟲(chóng)框架
  2.2 優(yōu)秀爬蟲(chóng)的特點(diǎn)
  2.3 爬蟲(chóng)質(zhì)量評價(jià)標準
  2.4 爬取策略
  2.4.1 廣度優(yōu)先遍歷策略(BreathFirst)
  2.4.2 部分 PageRank 策略(PartialPageRank)
  2.4.3OCIP 策略(OnlinePageImportanceComputation)
  2.4.4LargerSitesFirst 策略(LargerSitesFirst)
  2.5網(wǎng)頁(yè)更新策略
  2.5.1歷史參考策略
  2.5.2用戶(hù)體驗策略
  2.5.3 聚類(lèi)抽樣策略
  2.6DeepWebCrawling(DeepWebCrawling)
  2.6.1 查詢(xún)組合問(wèn)題
  2.6.2 在文本框中填寫(xiě)問(wèn)題
  2.7 分布式爬蟲(chóng)
  2.7.1 主從分發(fā)爬蟲(chóng)(Master-Slave)
  2.7.2 點(diǎn)對點(diǎn)(PeertoPeer)
  本章總結
  本章參考資料
  第 3 章搜索引擎索引
  3.1索引基礎
  3.1.1 字——文檔矩陣
  3.1.2 倒排索引的基本概念
  3.1.3 倒排索引的簡(jiǎn)單例子
  3.2 詞詞典
  3.2.1 哈希加鏈表
  3.2.2樹(shù)結構
  3.3PostingList
  3.4創(chuàng )建索引
  3.4.1 兩遍文檔遍歷方法(2-PassIn-MemoryInversion)
  3.4.2Sort-basedInversion(Sort-basedInversion)
  3.4.3Merge-basedInversion(Merge-basedInversion)
  3.5動(dòng)態(tài)索引
  3.6 索引更新策略
  3.6.1 完整重建策略(CompleteRe-Build)
  3.6.2 重新合并策略(Re-Merge)
  3.6.3 就地更新策略(In-Place)
  3.6.4 混合策略(Hybrid)
  3.7查詢(xún)處理
  3.7.1 一次一個(gè)文檔(DocataTime)
  3.7.2 一次一個(gè)字(TermataTime)
  3.7.3SkipPointers(SkipPointers)
  3.8多字段索引
  3.8.1多索引法
  3.8.2倒排列表法
  3.8.3擴展列表方法(ExtentList)
  3.9phrase 查詢(xún)
  3.9.1位置索引(PositionIndex)
  3.9.2 二字索引(NextwordIndex)
  3.9.3 PhraseIndex (PhraseIndex)
  3.9.4 混合方法
  3.10分布式索引(ParallelIndexing)
  3.10.??1 按文檔劃分(DocumentPartitioning)
  3.10.??2 按詞劃分(TermPartitioning)
  3.10.??3 兩種方案對比
  本章總結
  本章參考資料
  第 4 章索引壓縮
  4.1 字典壓縮
  4.2倒列表壓縮算法
  4.2.1 評價(jià)指標壓縮算法指標
  4.2.2 一元編碼和二進(jìn)制編碼
  4.2.3EliasGamma 算法和 EliasDelta 算法
  4.2.4Golomb 算法和 Rice 算法
  4.2.5 變長(cháng)字節算法(VariableByte)
  4.2.6SimpleX 系列算法
  4.2.7PForDelta 算法
  4.3 DocIDReordering(DocIDReordering)
  4.4StaticIndexPruning (StaticIndexPruning)
  4.4.1 以詞為中心的索引剪裁
  4.4.2 以文檔為中心的索引裁剪
  本章總結
  本章參考資料
  第 5 章搜索模型和搜索排序
  5.1BooleanModel (BooleanModel)
  5.2VectorSpaceModel (VectorSpaceModel)
  5.2.1文檔表示
  5.2.2 相似度計算
  5.2.3特征權重計算
  5.3概率檢索模型
  5.3.1 概率排序原則
  5.3.2BinaryIndependentModel(BinaryIndependentModel)
  5.3.3BM25 模型
  5.3.4BM25F 模型
  5.4 語(yǔ)言模型方法
  5.5 機器學(xué)習排名(LearningtoRank)
  5.5.1機器學(xué)習排序的基本思路
  5.5.2 單文檔方法(PointWiseApproach)
  5.5.3文檔對方法(PairWiseApproach)
  5.5.4 文檔列表方法(ListWiseApproach)
  5.6 搜索質(zhì)量評價(jià)標準
  5.6.1準確率和召回率
  5.6.2P@10個(gè)指標
  5.6.3MAP 指標(MeanAveragePrecision)
  本章總結
  本章參考資料
  第六章鏈接分析
  6.1網(wǎng)頁(yè)圖片
  6.2 兩個(gè)概念模型和算法的關(guān)系
  6.2.1RandomSurferModel (RandomSurferModel)
  6.2.2 子集傳播模型
  6.2.3 鏈接分析算法之間的關(guān)系
  6.3PageRank 算法
  6.3.1 從鏈內數到PageRank
  6.3.2PageRank 計算
  6.3.3 鏈接陷阱(LinkSink)和遠程跳轉(Teleporting)
  6.4HITS 算法(HypertextInducedTopicSelection)
  6.4.1Hub 頁(yè)面和權限頁(yè)面
  6.4.2 互增關(guān)系
  6.4.3HITS 算法
  6.4.4HITS 算法問(wèn)題
  6.4.5HITS算法與PageRank算法對比
  6.5SALSA 算法
  6.5.1 確定計算對象集
  6.5.2 鏈接關(guān)系傳播
  6.5.3權限權重計算
  6.6 主題敏感頁(yè)面排名(TopicSensitivePageRank)
  6.6.1 主題敏感的PageRank和PageRank的區別
  6.6.2 主題敏感的PageRank計算過(guò)程
  6.6.3 使用主題敏感的PageRank構建個(gè)性化搜索
  6.7Hilltop 算法
  6.7.1 Hilltop 算法的一些基本定義
  6.7.2Hilltop 算法
  6.8 其他改進(jìn)算法
  6.8.1IntelligentSurferModel(智能沖浪模型)
  6.8.2 BiasedSurferModel(BiasedSurferModel)
  6.8.3PHITS 算法(ProbabilityAnalogyofHITS)
  6.8.4BFS 算法(BackwardForwardStep)
  本章總結
  本章參考資料
  第 7 章云存儲和云計算
  7.1 云存儲和云計算概述
  7.1.1 基本假設
  7.1.2理論基礎
  7.1.3 數據模型
  7.1.4 基本問(wèn)題
  7.1.5Google 的云存儲和云計算架構
  7.2Google 文件系統 (GFS)
  7.2.1GFS 設計原則
  7.2.2GFS 整體架構
  7.2.3GFS 主控服務(wù)器
  7.2.4 系統交互行為
  7.3Chubby 鎖服務(wù)
  7.4BigTable
  7.4.1BigTable 的數據模型
  7.4.2BigTable 整體結構
  7.4.3BigTable 的管理數據
  7.4.4MasterServer
  7.4.5 分表服務(wù)器(TabletServer)
  7.5Megastore 系統
  7.5.1 實(shí)體組切分
  7.5.2數據模型
  7.5.3數據讀寫(xiě)與備份
  7.6Map/Reduce 云計算模型
  7.6.1計算模型
  7.6.2 整體邏輯流程
  7.6.3 應用實(shí)例
  7.7Caffeine System-Percolator
  7.7.1 事務(wù)支持
  7.7.2 觀(guān)察/通知架構
  7.8Pregel 圖計算模型
  7.9Dynomo 云存儲系統
  7.9.1 數據分區算法(PartitioningAlgorithm)
  7.9.2數據備份(復制)
  7.9.3數據讀寫(xiě)
  7.9.4數據版本控制
  7.10PNUTS 云存儲系統
  7.10.??1PNUTS 整體架構
  7.10.??2 存儲單元
  7.10.??3 分表控制器和數據路由器
  7.10.??4 雅虎通訊社
  7.10.??5 數據一致性
  7.11HayStack 存儲系統
  7.11.1HayStack 整體架構
  7.11.2 目錄服務(wù)
  7.11.3HayStack 緩存
  7.11.4HayStack 存儲系統
  本章總結
  本章參考資料
  第8章網(wǎng)絡(luò )反作弊
  8.1內容作弊
  8.1.1常見(jiàn)的內容作弊方法
  8.1.2內容農場(chǎng)(ContentFarm)
  8.2 鏈接作弊
  8.3 頁(yè)面隱藏作弊
  8.4Web2.0 作弊方法
  8.5反作弊技術(shù)總體思路
  8.5.1 信任傳播模型
  8.5.2 不信任傳播模型
  8.5.3 異常發(fā)現模型
  8.6 萬(wàn)能鏈接反作弊方法
  8.6.1TrustRank 算法
  8.6.2BadRank 算法
  8.6.3SpamRank
  8.7 專(zhuān)用鏈接防作弊技術(shù)
  8.7.1 識別鏈接農場(chǎng)
  8.7.2 識別谷歌轟炸
  8.8 識別內容作弊
  8.9反隱藏作弊
  8.9.1 識別頁(yè)面隱藏
  8.9.2 識別網(wǎng)頁(yè)重定向
  8.10 搜索引擎反作弊綜合框架
  本章總結
  本章參考資料
  第九章用戶(hù)查詢(xún)意圖分析
  9.1搜索行為及其意圖
  9.1.1用戶(hù)搜索行為
  9.1.2用戶(hù)搜索意圖分類(lèi)
  9.2搜索日志挖掘
  9.2.1查詢(xún)會(huì )話(huà)(QuerySession)
  9.2.2ClickGraph (ClickGraph)
  9.2.3查詢(xún)圖(QueryGraph)
  9.3 相關(guān)搜索
  9.3.1 基于查詢(xún)會(huì )話(huà)的方法
  9.3.2 基于點(diǎn)擊圖的方法
  9.4檢查糾錯
  9.4.1EditDistance(編輯距離)
  9.4.2 噪聲通道模型(NoiseChannelModel)
  本章總結
  本章參考資料
  第十章網(wǎng)頁(yè)去重
  10.??1 通用去重算法框架
  10.??2Shingling 算法
  10.??3I-Match 算法
  10.??4SimHash 算法
  10.??4.1 文檔指紋計算
  10.??4.2 搜索類(lèi)似文檔
  10.??5SpotSig 算法
  10.??5.1 特征提取
  10.??5.2 搜索類(lèi)似文檔
  本章總結
  本章參考資料
  第11章搜索引擎緩存機制
  11.1搜索引擎緩存系統架構
  11.2Cache 對象
  11.3緩存結構
  11.4緩存消除策略(EvictPolicy)
  11.4.1 動(dòng)態(tài)策略
  11.4.2 混合策略
  11.5緩存更新策略(RefreshPolicy)
  本章總結
  本章參考資料
  第十二章搜索引擎發(fā)展趨勢
  12.1個(gè)性化搜索
  12.2社交搜索
  12.3 實(shí)時(shí)搜索
  12.4手機搜索
  12.5 位置感知搜索
  12.6跨語(yǔ)言搜索
  12.7多媒體搜索
  12.8情況搜索
  前言
  互聯(lián)網(wǎng)產(chǎn)品種類(lèi)繁多,以產(chǎn)品為導向,以營(yíng)銷(xiāo)為導向,以技術(shù)為導向,但精通技術(shù)的互聯(lián)網(wǎng)產(chǎn)品比例相對較小。搜索引擎是當前互聯(lián)網(wǎng)產(chǎn)品中具有技術(shù)含量的產(chǎn)品,如果不是唯一的,至少是其中之一。
  經(jīng)過(guò)十多年的發(fā)展,搜索引擎已經(jīng)成為互聯(lián)網(wǎng)的重要門(mén)戶(hù)之一。 Twitter聯(lián)合創(chuàng )始人埃文威廉姆斯提出“域名已死理論”:容易記住的域名不再重要,因為人們會(huì )通過(guò)搜索輸入網(wǎng)站。搜索引擎排名對于中小網(wǎng)站流量非常重要。了解搜索引擎簡(jiǎn)單界面背后的技術(shù)原理,對很多人來(lái)說(shuō)其實(shí)很重要。
  為什么會(huì )有這本書(shū)
  寫(xiě)搜索引擎技術(shù)書(shū)籍的最初想法是兩年前誕生的。當時(shí)的場(chǎng)景是對團隊成員進(jìn)行搜索技術(shù)培訓,但是我搜索了相關(guān)書(shū)籍,卻沒(méi)有找到一本非常合適的搜索技術(shù)入門(mén)書(shū)籍。當時(shí)市場(chǎng)上的書(shū)籍,要么是信息檢索理論的專(zhuān)著(zhù),理論性太強,不易理解,真正講搜索引擎技術(shù)的章節也不多;或者它們是太實(shí)用的書(shū),比如 Lucene 代碼分析,比如搜索引擎。這種直接分析開(kāi)源系統代碼的算法應用并不是一種非常高效的學(xué)習方法。所以當時(shí)就誕生了寫(xiě)一本通俗易懂,適合沒(méi)有相關(guān)技術(shù)背景的人,比較全面,融合新技術(shù)的搜索引擎書(shū)籍。但我是在一年前開(kāi)始寫(xiě)作的。
  在寫(xiě)這本書(shū)之前,我為自己設定了一些目標。首先,內容要全面,即全面覆蓋搜索引擎相關(guān)技術(shù)的主要方面。不僅要收錄倒排索引、檢索模型、爬蟲(chóng)等常用內容,還要詳細講解鏈接分析、網(wǎng)頁(yè)反作弊、用戶(hù)搜索意圖分析、網(wǎng)頁(yè)云存儲和去重甚至搜索引擎緩存都是有機的一個(gè)完整的搜索引擎的組成部分,但詳細介紹其原理的書(shū)籍并不多。我希望盡可能全面。
  第二個(gè)目標很容易理解。我希望沒(méi)有任何相關(guān)技術(shù)背景的人可以從閱讀本書(shū)中學(xué)到一些東西,不了解技術(shù)的學(xué)生可以大致理解。這個(gè)目標看似簡(jiǎn)單,但實(shí)際上實(shí)現起來(lái)并不容易。我不敢說(shuō)這本書(shū)達到了這個(gè)目標,但我已經(jīng)盡力了。具體措施包括以下三個(gè)方面。
  一是盡可能減少數學(xué)公式的數量,除非公式?jīng)]有列出。盡管數學(xué)公式具有簡(jiǎn)單之美,但大多數人實(shí)際上對數學(xué)符號存在恐懼和回避。多年前我也有類(lèi)似的心理,所以盡可能不要使用數學(xué)公式。
  一是盡量多舉例,特別是一些比較難理解的地方。需要舉例來(lái)加深理解。
  還有更多的繪圖。就我個(gè)人的經(jīng)驗而言,雖然算法或技術(shù)很抽象,但如果深入理解原理,將復雜的化簡(jiǎn),絕對可以將算法轉化為生動(dòng)的畫(huà)面。如果你無(wú)法在腦海中形成算法的直觀(guān)圖形表示,則說(shuō)明你對其原理沒(méi)有透徹的理解。這是我判斷自己是否深刻理解算法的一個(gè)私人標準。鑒于此,本書(shū)在講解算法的地方,使用了大量的算法示意圖。全書(shū)收錄300多幅算法原理解釋圖。相信這對讀者深入理解算法有很大幫助。
  第三個(gè)目標是強調新現象和新技術(shù),比如谷歌的caffeine系統和Megastore等云存儲系統、Pregel云圖計算模型、暗網(wǎng)爬取技術(shù)、Web2.0網(wǎng)絡(luò )作弊、機器學(xué)習排序、上下文搜索、社交搜索等在相關(guān)章節中有說(shuō)明。
  第四個(gè)目標是強調原則,而不是停留在技術(shù)細節上。對于新手來(lái)說(shuō),一個(gè)容易解決的問(wèn)題是他們喜歡挖掘細節,只見(jiàn)樹(shù)木不見(jiàn)森林,懂一個(gè)公式卻不懂背后的基本思想和出發(fā)點(diǎn)。我接觸過(guò)很多技術(shù)人員,七八歲就會(huì )有這個(gè)特點(diǎn)。有一個(gè)問(wèn)題“道家哪個(gè)好?” “道”是什么?什么是“手術(shù)”?比如《孫子兵法》就是道,《三十六計》就是戰術(shù)。 “道”是宏觀(guān)的、有原則的、經(jīng)久不衰的基本原則,而“技術(shù)”是遵循基本原則的具體方法和措施,是變化無(wú)常的。技術(shù)也是如此。算法本身的細節就是“技巧”,算法所體現的基本思想就是“道”。知“道”、學(xué)“技”,雖然兩者不能偏,但如果要選擇優(yōu)先級,毫無(wú)疑問(wèn)我會(huì )先選擇“道”再選擇“術(shù)”。
  以上四點(diǎn)是寫(xiě)書(shū)之前設定的目標?,F在寫(xiě)完了,可能很多地方都達不到當初的期待,但是我會(huì )努力的。寫(xiě)書(shū)的過(guò)程很辛苦,至少比我想象的要難。因為工作忙,每天只能早起,加上周末和節假日。也許書(shū)中有這樣的缺點(diǎn),但我可以說(shuō)我是真誠地寫(xiě)這本書(shū)的。
  這本書(shū)是給誰(shuí)看的?
  如果您是以下其中一種,那么這本書(shū)適合您。
  1.對搜索引擎核心算法感興趣的技術(shù)人員
  搜索引擎的整體框架是什么?收錄哪些核心技術(shù)?
  網(wǎng)絡(luò )爬蟲(chóng)的基本結構是什么?常見(jiàn)的爬取策略有哪些?什么是暗網(wǎng)爬行?如何構建分布式爬蟲(chóng)?百度的阿拉丁計劃是什么?
  什么是倒排索引?如何對倒排索引進(jìn)行數據壓縮?
  搜索引擎如何對搜索結果進(jìn)行排序?
  什么是向量空間模型?什么是概率模型?什么是BM25型號?什么是機器學(xué)習排序?它們之間有什么異同?
  PageRank和HITS算法有什么關(guān)系?有哪些相同點(diǎn)和不同點(diǎn)?什么是 SALSA 算法?什么是山頂算法?各種鏈接分析算法之間的關(guān)系是什么?
  如何識別搜索用戶(hù)的真實(shí)搜索意圖?用戶(hù)可以搜索多少個(gè)類(lèi)別?什么是點(diǎn)擊圖表?什么是查詢(xún)會(huì )話(huà)?相關(guān)搜索是如何完成的?
  為什么我們需要去重復網(wǎng)頁(yè)?如何去重復網(wǎng)頁(yè)?哪種算法效果更好?
  搜索引擎緩存有多少級?核心戰略是什么?
  什么是上下文搜索?什么是社交搜索?什么是實(shí)時(shí)搜索?
  搜索引擎的發(fā)展趨勢是什么?
  如果你對三個(gè)以上的問(wèn)題感興趣,那么這本書(shū)就是為你而寫(xiě)的。
  2.對云計算和云存儲感興趣的技術(shù)人員
  CAP的原理是什么?什么是 ACID 原理?它們之間有什么異同?
  Google 的云計算框架包括哪些技術(shù)? Hadoop系列和谷歌的云計算框架有什么關(guān)系?
  Google 的三駕馬車(chē) GFS、BigTable 和 MapReduce 是什么意思?有什么關(guān)系?
  谷歌咖啡因系統的基本原理是什么?
  Google 的 Pregel 計算模型和 MapReduce 計算模型有什么區別?
  Google 的 Megastore 云存儲系統和 BigTable 是什么關(guān)系?
  什么是亞馬遜的 Dynamo 系統?
  雅虎的 PNUTS 系統是什么?
  Haystack 存儲系統適用于哪些地方?
  如果你對以上問(wèn)題感興趣,相信你可以在書(shū)中找到答案。
  3.互聯(lián)網(wǎng)營(yíng)銷(xiāo)人員從事搜索引擎優(yōu)化和中小網(wǎng)站站長(cháng)
  搜索引擎的反作弊策略是什么?如何優(yōu)化以避免被認為作弊?
  搜索引擎如何對搜索結果進(jìn)行排序?鏈接分析和內容排名有什么關(guān)系?
  什么是內容農場(chǎng)?什么是鏈接農場(chǎng)?他們是什么關(guān)系?
  什么是 Web 2.0 作弊?常用的方法有哪些?
  什么是 SpamRank?什么是信任等級?什么是壞排名?他們是什么關(guān)系?
  咖啡因系統如何影響頁(yè)面排名?
  最近一批電商網(wǎng)站針對搜索引擎優(yōu)化,結果被谷歌認定為黑帽SEO,導致搜索排名權降低。如何避免這種情況?從事相關(guān)行業(yè)的營(yíng)銷(xiāo)人員和網(wǎng)站webmasters應該對反作弊搜索引擎的基本策略和方法,甚至頁(yè)面排名算法等搜索引擎的核心技術(shù)有深入的了解。 SEO技術(shù)歸根結底其實(shí)很簡(jiǎn)單。盡管它在不斷變化,但許多原則和策略總是相似而密不可分的。深入了解搜索引擎相關(guān)技術(shù)原理,將形成您所在行業(yè)的競爭優(yōu)勢。
  4.作者本人
  我的記憶力不是很好,一段時(shí)間內學(xué)到的技術(shù)往往幾年后就模糊了,所以這本書(shū)也是給自己寫(xiě)的,作為技術(shù)參考手冊。沉力也參與了本書(shū)的部分編寫(xiě)。
  謝謝
  感謝博文的編輯傅銳。沒(méi)有她,這本書(shū)就不會(huì )出版。傅主編在審稿過(guò)程中提出的細致的改進(jìn)點(diǎn)對我幫助很大。
  特別感謝我的妻子。在將近一年的寫(xiě)作過(guò)程中,我幾乎把所有的空閑時(shí)間都花在了這本書(shū)的寫(xiě)作上。她承擔了所有的家務(wù),以免分散我的注意力。沒(méi)時(shí)間陪她也沒(méi)關(guān)系,這本書(shū)的誕生也算是送給她的禮物。
  對我來(lái)說(shuō),寫(xiě)這本書(shū)是一個(gè)辛苦而快樂(lè )的過(guò)程。就像一個(gè)遠行的旅人。當你從水和山上仰望時(shí),你總能看到你所忽略的美麗景色。如果您在閱讀本書(shū),我很榮幸能有這樣的體驗。
  張俊林
  2011 年 6 月
  獲取正版《這就是搜索引擎:核心技術(shù)詳解》

為什么“常規”SEO文章收取更多費用-低端文章50到75美元

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 90 次瀏覽 ? 2021-07-11 06:44 ? 來(lái)自相關(guān)話(huà)題

  為什么“常規”SEO文章收取更多費用-低端文章50到75美元
  自 2011 年 2 月 Google 發(fā)布熊貓更新以來(lái),網(wǎng)站administrators 已從面向關(guān)鍵字密度的內容轉變?yōu)橹黝}內容。如果您是一名自由 SEO 內容作家并且還沒(méi)有開(kāi)始為客戶(hù)提供這種類(lèi)型的副本,那么您可能會(huì )對他們造成很大的傷害。在這里,我們討論原因。
  僅供參考,主題SEO文章-low-end 文章50 至 75 美元/篇,最高可達數百美元。
  為什么“常規”SEO 網(wǎng)頁(yè)內容不夠好
  為了擺脫為 AdSense網(wǎng)站 制作的許多 MFA(其中許多是垃圾郵件發(fā)送者設置的只是為了獲得這些 Google 廣告的點(diǎn)擊量),Google 打擊了由關(guān)鍵字密度驅動(dòng)的內容。要知道,那些短垃圾文章一遍遍重復同樣的關(guān)鍵詞,卻在搜索引擎中排名靠前。
  搜索引擎的工作是返回最相關(guān)的“質(zhì)量”。一般來(lái)說(shuō),大多數填了關(guān)鍵字的文章都不會(huì )這樣做。其中許多只是您可以在 Internet 上找到的一般信息。但是相關(guān)的關(guān)鍵詞卻是一遍遍地重復。
  為了防止這種情況發(fā)生,谷歌在其熊貓更新中丟棄了許多收錄此類(lèi)內容的網(wǎng)站,以支持那些遵循我所謂的“SEO 寫(xiě)作指南”的網(wǎng)站。
  這些指南可被視為撰寫(xiě)主題 SEO 內容的基礎。順便說(shuō)一句,我在這里引用谷歌是因為它是整體上最受歡迎的搜索引擎。僅供參考,最大的三個(gè)是谷歌、必應和雅虎!
  什么是主題 SEO 內容寫(xiě)作?
  比如在同一篇文章文章中,主題網(wǎng)頁(yè)內容并沒(méi)有針對特定的關(guān)鍵詞詞組,而是針對無(wú)數的關(guān)鍵詞詞組。
  記住,搜索引擎只是機器人,不是人。因此,如果他們閱讀收錄“Apple”一詞的內容塊,他們將不知道您在談?wù)?Apple Pie 還是 Apple Computer。這是主題SEO內容的全部?jì)热???梢詭椭阉饕鏈蚀_識別內容的全部?jì)热?,使關(guān)鍵字填充的內容不會(huì )上升到搜索引擎結果的頂部。
  SEO主題文章和普通SEO文章的區別
  讓我們通過(guò)一個(gè)例子來(lái)解釋。假設你寫(xiě)了一篇關(guān)于自制蘋(píng)果派的博客,并寫(xiě)了一篇關(guān)于如何制作蘋(píng)果派的文章。搜索引擎希望在這篇文章中找到的一些“關(guān)鍵字”短語(yǔ)包括如何烤蘋(píng)果派、蘋(píng)果派食譜、如何制作蘋(píng)果派、如何從頭開(kāi)始制作蘋(píng)果派等。
  看看有多少不同的“關(guān)鍵詞phrases”以及它們之間的關(guān)系?反之,這個(gè)話(huà)題的關(guān)鍵字填充的SEO文章可能只是一遍遍地重復“蘋(píng)果派食譜”這個(gè)詞。
  因為主題SEO網(wǎng)站的內容寫(xiě)的時(shí)間長(cháng),在搜索引擎結果中排名靠前,作為SEO作者,你可以為此付出更多——甚至更多。
  詳細了解如何撰寫(xiě)主題 SEO 內容、Google 的 SEO 寫(xiě)作指南,以及要在 2013 年成為一名成功的 SEO 撰稿人,您需要了解的其他 11 件事。
  原創(chuàng )文章,作者:WPJIAN,如轉載請注明出處: 查看全部

  為什么“常規”SEO文章收取更多費用-低端文章50到75美元
  自 2011 年 2 月 Google 發(fā)布熊貓更新以來(lái),網(wǎng)站administrators 已從面向關(guān)鍵字密度的內容轉變?yōu)橹黝}內容。如果您是一名自由 SEO 內容作家并且還沒(méi)有開(kāi)始為客戶(hù)提供這種類(lèi)型的副本,那么您可能會(huì )對他們造成很大的傷害。在這里,我們討論原因。
  僅供參考,主題SEO文章-low-end 文章50 至 75 美元/篇,最高可達數百美元。
  為什么“常規”SEO 網(wǎng)頁(yè)內容不夠好
  為了擺脫為 AdSense網(wǎng)站 制作的許多 MFA(其中許多是垃圾郵件發(fā)送者設置的只是為了獲得這些 Google 廣告的點(diǎn)擊量),Google 打擊了由關(guān)鍵字密度驅動(dòng)的內容。要知道,那些短垃圾文章一遍遍重復同樣的關(guān)鍵詞,卻在搜索引擎中排名靠前。
  搜索引擎的工作是返回最相關(guān)的“質(zhì)量”。一般來(lái)說(shuō),大多數填了關(guān)鍵字的文章都不會(huì )這樣做。其中許多只是您可以在 Internet 上找到的一般信息。但是相關(guān)的關(guān)鍵詞卻是一遍遍地重復。
  為了防止這種情況發(fā)生,谷歌在其熊貓更新中丟棄了許多收錄此類(lèi)內容的網(wǎng)站,以支持那些遵循我所謂的“SEO 寫(xiě)作指南”的網(wǎng)站。
  這些指南可被視為撰寫(xiě)主題 SEO 內容的基礎。順便說(shuō)一句,我在這里引用谷歌是因為它是整體上最受歡迎的搜索引擎。僅供參考,最大的三個(gè)是谷歌、必應和雅虎!
  什么是主題 SEO 內容寫(xiě)作?
  比如在同一篇文章文章中,主題網(wǎng)頁(yè)內容并沒(méi)有針對特定的關(guān)鍵詞詞組,而是針對無(wú)數的關(guān)鍵詞詞組。
  記住,搜索引擎只是機器人,不是人。因此,如果他們閱讀收錄“Apple”一詞的內容塊,他們將不知道您在談?wù)?Apple Pie 還是 Apple Computer。這是主題SEO內容的全部?jì)热???梢詭椭阉饕鏈蚀_識別內容的全部?jì)热?,使關(guān)鍵字填充的內容不會(huì )上升到搜索引擎結果的頂部。
  SEO主題文章和普通SEO文章的區別
  讓我們通過(guò)一個(gè)例子來(lái)解釋。假設你寫(xiě)了一篇關(guān)于自制蘋(píng)果派的博客,并寫(xiě)了一篇關(guān)于如何制作蘋(píng)果派的文章。搜索引擎希望在這篇文章中找到的一些“關(guān)鍵字”短語(yǔ)包括如何烤蘋(píng)果派、蘋(píng)果派食譜、如何制作蘋(píng)果派、如何從頭開(kāi)始制作蘋(píng)果派等。
  看看有多少不同的“關(guān)鍵詞phrases”以及它們之間的關(guān)系?反之,這個(gè)話(huà)題的關(guān)鍵字填充的SEO文章可能只是一遍遍地重復“蘋(píng)果派食譜”這個(gè)詞。
  因為主題SEO網(wǎng)站的內容寫(xiě)的時(shí)間長(cháng),在搜索引擎結果中排名靠前,作為SEO作者,你可以為此付出更多——甚至更多。
  詳細了解如何撰寫(xiě)主題 SEO 內容、Google 的 SEO 寫(xiě)作指南,以及要在 2013 年成為一名成功的 SEO 撰稿人,您需要了解的其他 11 件事。
  原創(chuàng )文章,作者:WPJIAN,如轉載請注明出處:

簡(jiǎn)述簡(jiǎn)述搜索引擎如何判斷網(wǎng)頁(yè)和查詢(xún)的相關(guān)性?

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 100 次瀏覽 ? 2021-07-10 03:16 ? 來(lái)自相關(guān)話(huà)題

  簡(jiǎn)述簡(jiǎn)述搜索引擎如何判斷網(wǎng)頁(yè)和查詢(xún)的相關(guān)性?
  搜索引擎的質(zhì)量在很大程度上取決于搜索結果的網(wǎng)絡(luò )內容和用戶(hù)體驗。搜索引擎在搜索能夠滿(mǎn)足用戶(hù)需求的網(wǎng)頁(yè)時(shí),主要考慮兩個(gè)方面:網(wǎng)頁(yè)與查詢(xún)的相關(guān)性,以及網(wǎng)頁(yè)的重要性。網(wǎng)頁(yè)與查詢(xún)的相關(guān)性是指用戶(hù)的搜索查詢(xún)與網(wǎng)頁(yè)內容之間的內容相似度得分,通常通過(guò)鏈接分析計算方法來(lái)評估網(wǎng)頁(yè)的重要性;本文主要簡(jiǎn)要介紹搜索引擎如何判斷網(wǎng)頁(yè)與查詢(xún)的相關(guān)性?
  
  判斷網(wǎng)頁(yè)內容是否與用戶(hù)查詢(xún)的關(guān)鍵詞相關(guān),取決于搜索引擎采用的檢索模型。幾種常用的檢索模型:布爾模型、向量空間模型、概率模型、語(yǔ)言模型和機器學(xué)習排序算法。
  1.Boolean 模型
  布爾模型簡(jiǎn)單來(lái)說(shuō)就是用戶(hù)查詢(xún)的詞是否出現在網(wǎng)頁(yè)中,是對是錯,是否收錄在非收錄中。比如用戶(hù)搜索的關(guān)鍵詞是SEO,他們希望得到與SEO相關(guān)的信息。當網(wǎng)頁(yè)內容中出現SEO這個(gè)詞時(shí),就意味著(zhù)該網(wǎng)頁(yè)與用戶(hù)的查詢(xún)相關(guān)。布爾模型也是檢索模型中最簡(jiǎn)單的一種,其優(yōu)缺點(diǎn)也非常直觀(guān)。
  2.矢量空間模型
  向量空間模型將查詢(xún)詞和文檔中的關(guān)鍵詞轉換為特征向量,然后使用余弦公式計算文檔與查詢(xún)的相似度并對輸出結果進(jìn)行排序。主要介紹了TF-IDF算法、TF詞頻和IDF逆文檔頻率。
  TF詞頻,即一個(gè)詞在內容中出現的次數。出現次數較多的詞往往可以說(shuō)明內容的主題信息。 IDF逆文檔頻率是衡量單詞普遍重要性的指標,突出特征詞。如果某個(gè)關(guān)鍵詞在某個(gè)網(wǎng)頁(yè)內容中的詞頻很高,而這個(gè)詞很少出現在網(wǎng)頁(yè)搜索結果和其他網(wǎng)頁(yè)內容中,那么這個(gè)關(guān)鍵詞的權重就會(huì )很高。 SEO常用的是關(guān)鍵詞密度,但是沒(méi)有統一的衡量標準。不要使用 2%~8% 作為關(guān)鍵詞密度標準。
  3.probability 模型
  最成功的概率模型是 BM25 模型,目前被大多數商業(yè)搜索引擎用作相關(guān)性排名模型。在TF-IDF算法的基礎上,擴展了相關(guān)的概率后續詞,比如搜索詞條SEO,大部分可能會(huì )搜索SEO培訓、SEO服務(wù)等。用戶(hù)后續需求源自海量大數據,多維度滿(mǎn)足用戶(hù)需求。目前百度官方參考的是百度指數的相關(guān)需求圖。一些后續條款以它們?yōu)榛A,但僅供參考;不限于百度下拉框等后續查詢(xún)詞和相關(guān)搜索。
  網(wǎng)頁(yè)是指整體,一個(gè)網(wǎng)頁(yè)可以分為不同的區域。例如,網(wǎng)頁(yè)標題、描述、網(wǎng)頁(yè)內容、網(wǎng)頁(yè)底部標題等,不同的區域有不同的權重。經(jīng)常說(shuō)的網(wǎng)頁(yè)標題必須具有很高的權重。標題收錄相關(guān)的關(guān)鍵詞,很大程度上說(shuō)明了網(wǎng)頁(yè)內容的中心思想。我對搜索引擎判斷網(wǎng)頁(yè)和查詢(xún)的相關(guān)性有一個(gè)基本的了解,所以我不需要把關(guān)鍵詞和許摩關(guān)鍵詞密度堆在一起。
 ?。ㄘ熑尉庉嫞核阉饕婢W(wǎng)站optimizationSEO外包-,原創(chuàng )不易,轉載時(shí)必須以鏈接形式注明作者、原出處及本聲明。) 查看全部

  簡(jiǎn)述簡(jiǎn)述搜索引擎如何判斷網(wǎng)頁(yè)和查詢(xún)的相關(guān)性?
  搜索引擎的質(zhì)量在很大程度上取決于搜索結果的網(wǎng)絡(luò )內容和用戶(hù)體驗。搜索引擎在搜索能夠滿(mǎn)足用戶(hù)需求的網(wǎng)頁(yè)時(shí),主要考慮兩個(gè)方面:網(wǎng)頁(yè)與查詢(xún)的相關(guān)性,以及網(wǎng)頁(yè)的重要性。網(wǎng)頁(yè)與查詢(xún)的相關(guān)性是指用戶(hù)的搜索查詢(xún)與網(wǎng)頁(yè)內容之間的內容相似度得分,通常通過(guò)鏈接分析計算方法來(lái)評估網(wǎng)頁(yè)的重要性;本文主要簡(jiǎn)要介紹搜索引擎如何判斷網(wǎng)頁(yè)與查詢(xún)的相關(guān)性?
  
  判斷網(wǎng)頁(yè)內容是否與用戶(hù)查詢(xún)的關(guān)鍵詞相關(guān),取決于搜索引擎采用的檢索模型。幾種常用的檢索模型:布爾模型、向量空間模型、概率模型、語(yǔ)言模型和機器學(xué)習排序算法。
  1.Boolean 模型
  布爾模型簡(jiǎn)單來(lái)說(shuō)就是用戶(hù)查詢(xún)的詞是否出現在網(wǎng)頁(yè)中,是對是錯,是否收錄在非收錄中。比如用戶(hù)搜索的關(guān)鍵詞是SEO,他們希望得到與SEO相關(guān)的信息。當網(wǎng)頁(yè)內容中出現SEO這個(gè)詞時(shí),就意味著(zhù)該網(wǎng)頁(yè)與用戶(hù)的查詢(xún)相關(guān)。布爾模型也是檢索模型中最簡(jiǎn)單的一種,其優(yōu)缺點(diǎn)也非常直觀(guān)。
  2.矢量空間模型
  向量空間模型將查詢(xún)詞和文檔中的關(guān)鍵詞轉換為特征向量,然后使用余弦公式計算文檔與查詢(xún)的相似度并對輸出結果進(jìn)行排序。主要介紹了TF-IDF算法、TF詞頻和IDF逆文檔頻率。
  TF詞頻,即一個(gè)詞在內容中出現的次數。出現次數較多的詞往往可以說(shuō)明內容的主題信息。 IDF逆文檔頻率是衡量單詞普遍重要性的指標,突出特征詞。如果某個(gè)關(guān)鍵詞在某個(gè)網(wǎng)頁(yè)內容中的詞頻很高,而這個(gè)詞很少出現在網(wǎng)頁(yè)搜索結果和其他網(wǎng)頁(yè)內容中,那么這個(gè)關(guān)鍵詞的權重就會(huì )很高。 SEO常用的是關(guān)鍵詞密度,但是沒(méi)有統一的衡量標準。不要使用 2%~8% 作為關(guān)鍵詞密度標準。
  3.probability 模型
  最成功的概率模型是 BM25 模型,目前被大多數商業(yè)搜索引擎用作相關(guān)性排名模型。在TF-IDF算法的基礎上,擴展了相關(guān)的概率后續詞,比如搜索詞條SEO,大部分可能會(huì )搜索SEO培訓、SEO服務(wù)等。用戶(hù)后續需求源自海量大數據,多維度滿(mǎn)足用戶(hù)需求。目前百度官方參考的是百度指數的相關(guān)需求圖。一些后續條款以它們?yōu)榛A,但僅供參考;不限于百度下拉框等后續查詢(xún)詞和相關(guān)搜索。
  網(wǎng)頁(yè)是指整體,一個(gè)網(wǎng)頁(yè)可以分為不同的區域。例如,網(wǎng)頁(yè)標題、描述、網(wǎng)頁(yè)內容、網(wǎng)頁(yè)底部標題等,不同的區域有不同的權重。經(jīng)常說(shuō)的網(wǎng)頁(yè)標題必須具有很高的權重。標題收錄相關(guān)的關(guān)鍵詞,很大程度上說(shuō)明了網(wǎng)頁(yè)內容的中心思想。我對搜索引擎判斷網(wǎng)頁(yè)和查詢(xún)的相關(guān)性有一個(gè)基本的了解,所以我不需要把關(guān)鍵詞和許摩關(guān)鍵詞密度堆在一起。
 ?。ㄘ熑尉庉嫞核阉饕婢W(wǎng)站optimizationSEO外包-,原創(chuàng )不易,轉載時(shí)必須以鏈接形式注明作者、原出處及本聲明。)

簡(jiǎn)化雙因素算法,你的搜索引擎優(yōu)化會(huì )嗎?

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 105 次瀏覽 ? 2021-07-10 03:10 ? 來(lái)自相關(guān)話(huà)題

  簡(jiǎn)化雙因素算法,你的搜索引擎優(yōu)化會(huì )嗎?
  在排名方面尋找一個(gè)簡(jiǎn)單的答案,但這兩項研究和 Google 本身都表示,鏈接和內容是所涉及的最大因素。如果您更多地關(guān)注簡(jiǎn)化的雙因素算法,您的 SEO 會(huì )奏效嗎?
  
  網(wǎng)站設計公司
  搜索引擎優(yōu)化排名肯定有很多感興趣的因素:
  有了這個(gè)專(zhuān)業(yè)的研究,尤其是 Moz 和 searchmetrics。這些都是開(kāi)創(chuàng )性的研究,如果您認真對待搜索引擎優(yōu)化,您需要了解這些研究的內容。這些太復雜了。他們需要一種簡(jiǎn)單的方式來(lái)看待事物,包括一些世界上最大的公司,以及一些世界上最高的網(wǎng)站。對于這些公司中的大多數,有超過(guò) 200 個(gè)排名因素。
  這些干擾最終會(huì )集中在兩個(gè)最重要的事情上:構建大量?jì)热莺统錾膬热蒹w驗,并促進(jìn)其發(fā)展。
  今天的重點(diǎn)是開(kāi)發(fā)一種基本方法,大多數公司都可以使用它來(lái)簡(jiǎn)化搜索引擎優(yōu)化的想法,并將重點(diǎn)放在最高優(yōu)先級上。
  Google 最近所說(shuō)的兩個(gè)最重要的排名因素是什么:
  我可以告訴你它們是什么。這是輸入網(wǎng)站的內容和鏈接。
  我們走了,這是開(kāi)始。據谷歌稱(chēng),其鏈接和內容是最大的兩個(gè)。希望內容是一個(gè)重要因素的想法是顯而易見(jiàn)的,但下面我將分解更多優(yōu)秀內容真正需要的內容。另外,可以看到一些備份鏈接的威力,在研究中,我最近發(fā)布了鏈接作為排名因素。
  我們是否應該認為世界是由這兩個(gè)因素組成的?這很簡(jiǎn)單,可能太多了,所以讓我們嘗試進(jìn)一步簡(jiǎn)化它。如果專(zhuān)注于創(chuàng )建優(yōu)質(zhì)內容并有效推廣,有多少組織會(huì )顯著(zhù)改善其搜索引擎優(yōu)化?我可以告訴你,根據我的經(jīng)驗,這是許多組織根本不做的兩件事。
  這是否意味著(zhù)我們可以將我們的兩個(gè)因素變成一個(gè)(純)假設的排名評分方程,看起來(lái)像這樣?
  
  html5 設計
  我真的認為這個(gè)方程相當有效,雖然它有一些限制和遺漏,我會(huì )在下面更詳細地描述。您還需要考慮“優(yōu)質(zhì)內容”的概念,以正確的方式獲得較高的內容分數。
  什么是“精彩內容?”
  如果我們退后一步思考什么是優(yōu)質(zhì)內容,在我看來(lái),主要由三個(gè)組成部分組成:
  協(xié)會(huì )
  質(zhì)量
  整體內容體驗
  這部分的第一部分很簡(jiǎn)單。如果內容與查詢(xún)無(wú)關(guān),則不應為查詢(xún)排名,如果。這是有道理的,對吧?
  第二部分也很簡(jiǎn)單。這就是質(zhì)量的概念。它提供了人們正在尋找的信息?那是你的網(wǎng)站 更獨特的信息嗎?顯然,這對內容的質(zhì)量很有意義。
  我們可以將質(zhì)量和相對獨特性的概念合并為物質(zhì)區分的概念。蘭德在他的白板上精彩地闡述了這一點(diǎn),并在周五創(chuàng )作了 10 次內容。
  
  你需要創(chuàng )造出新的、引人注目的東西,并提供很多價(jià)值。這可能并不容易,但最好的事情從來(lái)沒(méi)有發(fā)生過(guò)。
<p>如果您處于競爭激烈的市場(chǎng)中,可以合理猜測您的頂級競爭對手正在制作出色的內容主題及其目標受眾。對于最重要的查詢(xún),很有可能空間前5(可能更多)的內容是真實(shí)的,真的很好(即比其他文章主題更全面,或者帶來(lái)新信息,其他人沒(méi)有)。 查看全部

  簡(jiǎn)化雙因素算法,你的搜索引擎優(yōu)化會(huì )嗎?
  在排名方面尋找一個(gè)簡(jiǎn)單的答案,但這兩項研究和 Google 本身都表示,鏈接和內容是所涉及的最大因素。如果您更多地關(guān)注簡(jiǎn)化的雙因素算法,您的 SEO 會(huì )奏效嗎?
  
  網(wǎng)站設計公司
  搜索引擎優(yōu)化排名肯定有很多感興趣的因素:
  有了這個(gè)專(zhuān)業(yè)的研究,尤其是 Moz 和 searchmetrics。這些都是開(kāi)創(chuàng )性的研究,如果您認真對待搜索引擎優(yōu)化,您需要了解這些研究的內容。這些太復雜了。他們需要一種簡(jiǎn)單的方式來(lái)看待事物,包括一些世界上最大的公司,以及一些世界上最高的網(wǎng)站。對于這些公司中的大多數,有超過(guò) 200 個(gè)排名因素。
  這些干擾最終會(huì )集中在兩個(gè)最重要的事情上:構建大量?jì)热莺统錾膬热蒹w驗,并促進(jìn)其發(fā)展。
  今天的重點(diǎn)是開(kāi)發(fā)一種基本方法,大多數公司都可以使用它來(lái)簡(jiǎn)化搜索引擎優(yōu)化的想法,并將重點(diǎn)放在最高優(yōu)先級上。
  Google 最近所說(shuō)的兩個(gè)最重要的排名因素是什么:
  我可以告訴你它們是什么。這是輸入網(wǎng)站的內容和鏈接。
  我們走了,這是開(kāi)始。據谷歌稱(chēng),其鏈接和內容是最大的兩個(gè)。希望內容是一個(gè)重要因素的想法是顯而易見(jiàn)的,但下面我將分解更多優(yōu)秀內容真正需要的內容。另外,可以看到一些備份鏈接的威力,在研究中,我最近發(fā)布了鏈接作為排名因素。
  我們是否應該認為世界是由這兩個(gè)因素組成的?這很簡(jiǎn)單,可能太多了,所以讓我們嘗試進(jìn)一步簡(jiǎn)化它。如果專(zhuān)注于創(chuàng )建優(yōu)質(zhì)內容并有效推廣,有多少組織會(huì )顯著(zhù)改善其搜索引擎優(yōu)化?我可以告訴你,根據我的經(jīng)驗,這是許多組織根本不做的兩件事。
  這是否意味著(zhù)我們可以將我們的兩個(gè)因素變成一個(gè)(純)假設的排名評分方程,看起來(lái)像這樣?
  
  html5 設計
  我真的認為這個(gè)方程相當有效,雖然它有一些限制和遺漏,我會(huì )在下面更詳細地描述。您還需要考慮“優(yōu)質(zhì)內容”的概念,以正確的方式獲得較高的內容分數。
  什么是“精彩內容?”
  如果我們退后一步思考什么是優(yōu)質(zhì)內容,在我看來(lái),主要由三個(gè)組成部分組成:
  協(xié)會(huì )
  質(zhì)量
  整體內容體驗
  這部分的第一部分很簡(jiǎn)單。如果內容與查詢(xún)無(wú)關(guān),則不應為查詢(xún)排名,如果。這是有道理的,對吧?
  第二部分也很簡(jiǎn)單。這就是質(zhì)量的概念。它提供了人們正在尋找的信息?那是你的網(wǎng)站 更獨特的信息嗎?顯然,這對內容的質(zhì)量很有意義。
  我們可以將質(zhì)量和相對獨特性的概念合并為物質(zhì)區分的概念。蘭德在他的白板上精彩地闡述了這一點(diǎn),并在周五創(chuàng )作了 10 次內容。
  
  你需要創(chuàng )造出新的、引人注目的東西,并提供很多價(jià)值。這可能并不容易,但最好的事情從來(lái)沒(méi)有發(fā)生過(guò)。
<p>如果您處于競爭激烈的市場(chǎng)中,可以合理猜測您的頂級競爭對手正在制作出色的內容主題及其目標受眾。對于最重要的查詢(xún),很有可能空間前5(可能更多)的內容是真實(shí)的,真的很好(即比其他文章主題更全面,或者帶來(lái)新信息,其他人沒(méi)有)。

陽(yáng)光創(chuàng )信云推廣的方法,提高網(wǎng)站排名必備!

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 76 次瀏覽 ? 2021-07-07 19:24 ? 來(lái)自相關(guān)話(huà)題

  陽(yáng)光創(chuàng )信云推廣的方法,提高網(wǎng)站排名必備!
  網(wǎng)站optimization,貴州陽(yáng)光創(chuàng )信云推廣是一家專(zhuān)業(yè)的網(wǎng)絡(luò )營(yíng)銷(xiāo)外包代理運營(yíng)商,專(zhuān)注于為中小企業(yè)提供網(wǎng)絡(luò )營(yíng)銷(xiāo)整體戰略解決方案,包括網(wǎng)絡(luò )營(yíng)銷(xiāo)方案、網(wǎng)絡(luò )營(yíng)銷(xiāo)策劃、網(wǎng)絡(luò )營(yíng)銷(xiāo)外包、SEM/SEO優(yōu)化、搜索引擎自動(dòng)推廣、網(wǎng)站建筑、網(wǎng)站設計、網(wǎng)站開(kāi)發(fā)等綜合服務(wù),牛推網(wǎng)是一家多元化的現代網(wǎng)絡(luò )信息技術(shù)企業(yè);公司自主研發(fā)的新一代網(wǎng)絡(luò )營(yíng)銷(xiāo)優(yōu)化推廣系統-【陽(yáng)光創(chuàng )信云推廣-中國**新聞源媒體營(yíng)銷(xiāo)推廣平臺】,旨在為廣大商家提供全方位的免費差異化營(yíng)銷(xiāo)推廣服務(wù), 陽(yáng)光創(chuàng )信精兵將協(xié)助企業(yè)管理所有市場(chǎng)運營(yíng),深入挖掘更新、更全、更快的業(yè)務(wù)資源,通過(guò)陽(yáng)光創(chuàng )信云的營(yíng)銷(xiāo)策略快速推廣企業(yè)產(chǎn)品和服務(wù)。
  隨著(zhù)互聯(lián)網(wǎng)業(yè)務(wù)越來(lái)越火爆,市場(chǎng)上有很多公司想要進(jìn)入互聯(lián)網(wǎng)行業(yè)。 網(wǎng)站排名優(yōu)化方法,提升網(wǎng)站排名必備!
  今日頭條后臺自帶手機建站工具,使用起來(lái)非常方便??梢哉f(shuō)就像搭積木來(lái)堆疊頁(yè)面一樣。類(lèi)似于今日頭條的移動(dòng)網(wǎng)站建設,但行為數據的來(lái)源無(wú)法統計。還有很多改進(jìn)和優(yōu)化的空間。我們都知道流量是競價(jià)的核心,但數據是明確流量控制的方向。所以小編在這里整理了幾個(gè)投標人必備的表單模板。函數:是excel中的一個(gè)函數,用于對某個(gè)項目的總價(jià)值進(jìn)行具體統計。用途:常用于多維數據分析。功能:主要用于統計一個(gè)詞組或單詞中的字符數。用途:多用于過(guò)濾長(cháng)尾詞、短尾詞,或者比較雜亂的一般詞等。 功能:統計一組數據中滿(mǎn)足一定條件的值的總數。用途:用于計算咨詢(xún)工具中關(guān)鍵詞帶來(lái)的會(huì )話(huà)數、地區、時(shí)間段等。
  網(wǎng)站Optimization,在互聯(lián)網(wǎng)+時(shí)代,網(wǎng)站是每個(gè)大中型企業(yè)的必備工具。有了這把武器,我們如何才能帶來(lái)實(shí)際利益?搜索引擎網(wǎng)站收錄 和排名很重要。這將大大增加公司的曝光率,帶來(lái)更多的流量。關(guān)于網(wǎng)站搜索引擎優(yōu)化和搜索引擎,一直是商談的話(huà)題。我們都知道搜索引擎優(yōu)化是否合理,搜索引擎也會(huì )如此,直接帶來(lái)難以想象的客流。海創(chuàng )h5自助建站6年專(zhuān)注建站。擁有國內外領(lǐng)先的技術(shù)和網(wǎng)站marketing技術(shù),打造免費、易用的網(wǎng)站。輕松拖拽一鍵發(fā)布和上線(xiàn),快速獲取搜索引擎收錄和排名。
  想要網(wǎng)站排名好,一定是網(wǎng)站的具體方向。這個(gè)方向就是營(yíng)銷(xiāo)的方向。有了這個(gè)具體點(diǎn),我們就可以更有選擇性的結合用戶(hù)的需求,給網(wǎng)站帶來(lái)更多的水分和轉化率,從而提升SEO管理的視覺(jué)效果。通過(guò)LSI和TF-IDF關(guān)鍵詞分析,我們可以找出符合搜索者意圖的關(guān)鍵詞和URL,并將它們組織成Excel表格,然后創(chuàng )建符合搜索者意圖的高質(zhì)量文案。單頁(yè)速度測試單頁(yè)速度測試推薦使用googlespeedtest。分數越高越好,分數越高表示網(wǎng)速越快,跳出率越低。
  網(wǎng)站Optimization,在互聯(lián)網(wǎng)+時(shí)代,網(wǎng)站是每個(gè)大中型企業(yè)的必備工具。有了這把武器,我們如何才能帶來(lái)實(shí)際利益?搜索引擎網(wǎng)站收錄 和排名很重要。這將大大增加公司的曝光率,帶來(lái)更多的流量。關(guān)于網(wǎng)站搜索引擎優(yōu)化和搜索引擎,一直是商談的話(huà)題。搜索引擎優(yōu)化是否合理大家都知道,搜索引擎也會(huì )如此,直接帶來(lái)難以想象的客流量。
  掌握的基礎如下: 1、掌握后端CSS語(yǔ)法,類(lèi)似DIV+HTML等。在做seo的時(shí)候,我們經(jīng)常需要做的一件事就是看@k14的源碼@。如果連基本的html都不懂,操作起來(lái)會(huì )很困難。我們以 URL 為例。有些人不會(huì )在您的朋友鏈上列出 nofollow。有些人可能會(huì )在 KM 中添加 URL。如果你不了解html的基礎知識,你是看不到這些的。不懂html的你還是主動(dòng)發(fā)這些網(wǎng)站友情鏈接,但是視覺(jué)效果根本不行。微聯(lián)世創(chuàng )專(zhuān)注網(wǎng)絡(luò )營(yíng)銷(xiāo)服務(wù),用數據說(shuō)話(huà),用結果說(shuō)話(huà)。同時(shí)是多家搜索、互聯(lián)網(wǎng)巨頭認證的合作伙伴,擁有包括搜索引擎(百度、搜狗、360)等)認證合作伙伴資質(zhì)的專(zhuān)業(yè)互聯(lián)網(wǎng)營(yíng)銷(xiāo)服務(wù)商。
  網(wǎng)站optimization,adaptability網(wǎng)站搜索引擎優(yōu)化有什么優(yōu)勢?自適應網(wǎng)站開(kāi)發(fā)seo規范比較簡(jiǎn)單,這樣的模型也挺好的。 URL可以隨時(shí)同步數據,因為這樣網(wǎng)站可以在手機上及時(shí)調整頁(yè)面,保持良好的顯示效果。還應該發(fā)現,這樣的網(wǎng)頁(yè)是兼容的,所以更容易保持良好的狀態(tài)。
  友情鏈接是合適的,所以我投票給了我的網(wǎng)站,但不僅僅是網(wǎng)站可以成為友情鏈接。一個(gè)低質(zhì)量的友情鏈接不僅對網(wǎng)站有幫助,而且也無(wú)濟于事。吸引蜘蛛:當我們和一個(gè)排名靠前的網(wǎng)站進(jìn)行友情鏈接時(shí),當搜索蜘蛛來(lái)到另一個(gè)網(wǎng)站時(shí),他會(huì )跟隨友情鏈接到我們自己的網(wǎng)站,并且還會(huì )加我們網(wǎng)站有機會(huì )進(jìn)入。相關(guān)閱讀:網(wǎng)站SEO優(yōu)化**如何估算關(guān)鍵詞的排名?權重轉移:當我們得到一個(gè)高質(zhì)量的友情鏈接時(shí),我們已經(jīng)投票支持我們自己的網(wǎng)站推廣。比如你的網(wǎng)站和食物有關(guān),那么這個(gè)友情鏈接幾乎是在告訴搜索引擎。您的網(wǎng)站 與食物有關(guān)。所以在做友情鏈接的時(shí)候一定要找到和我們主題相似的網(wǎng)站,這樣搜索引擎才能更快的提升我們網(wǎng)站的權重。 查看全部

  陽(yáng)光創(chuàng )信云推廣的方法,提高網(wǎng)站排名必備!
  網(wǎng)站optimization,貴州陽(yáng)光創(chuàng )信云推廣是一家專(zhuān)業(yè)的網(wǎng)絡(luò )營(yíng)銷(xiāo)外包代理運營(yíng)商,專(zhuān)注于為中小企業(yè)提供網(wǎng)絡(luò )營(yíng)銷(xiāo)整體戰略解決方案,包括網(wǎng)絡(luò )營(yíng)銷(xiāo)方案、網(wǎng)絡(luò )營(yíng)銷(xiāo)策劃、網(wǎng)絡(luò )營(yíng)銷(xiāo)外包、SEM/SEO優(yōu)化、搜索引擎自動(dòng)推廣、網(wǎng)站建筑、網(wǎng)站設計、網(wǎng)站開(kāi)發(fā)等綜合服務(wù),牛推網(wǎng)是一家多元化的現代網(wǎng)絡(luò )信息技術(shù)企業(yè);公司自主研發(fā)的新一代網(wǎng)絡(luò )營(yíng)銷(xiāo)優(yōu)化推廣系統-【陽(yáng)光創(chuàng )信云推廣-中國**新聞源媒體營(yíng)銷(xiāo)推廣平臺】,旨在為廣大商家提供全方位的免費差異化營(yíng)銷(xiāo)推廣服務(wù), 陽(yáng)光創(chuàng )信精兵將協(xié)助企業(yè)管理所有市場(chǎng)運營(yíng),深入挖掘更新、更全、更快的業(yè)務(wù)資源,通過(guò)陽(yáng)光創(chuàng )信云的營(yíng)銷(xiāo)策略快速推廣企業(yè)產(chǎn)品和服務(wù)。
  隨著(zhù)互聯(lián)網(wǎng)業(yè)務(wù)越來(lái)越火爆,市場(chǎng)上有很多公司想要進(jìn)入互聯(lián)網(wǎng)行業(yè)。 網(wǎng)站排名優(yōu)化方法,提升網(wǎng)站排名必備!
  今日頭條后臺自帶手機建站工具,使用起來(lái)非常方便??梢哉f(shuō)就像搭積木來(lái)堆疊頁(yè)面一樣。類(lèi)似于今日頭條的移動(dòng)網(wǎng)站建設,但行為數據的來(lái)源無(wú)法統計。還有很多改進(jìn)和優(yōu)化的空間。我們都知道流量是競價(jià)的核心,但數據是明確流量控制的方向。所以小編在這里整理了幾個(gè)投標人必備的表單模板。函數:是excel中的一個(gè)函數,用于對某個(gè)項目的總價(jià)值進(jìn)行具體統計。用途:常用于多維數據分析。功能:主要用于統計一個(gè)詞組或單詞中的字符數。用途:多用于過(guò)濾長(cháng)尾詞、短尾詞,或者比較雜亂的一般詞等。 功能:統計一組數據中滿(mǎn)足一定條件的值的總數。用途:用于計算咨詢(xún)工具中關(guān)鍵詞帶來(lái)的會(huì )話(huà)數、地區、時(shí)間段等。
  網(wǎng)站Optimization,在互聯(lián)網(wǎng)+時(shí)代,網(wǎng)站是每個(gè)大中型企業(yè)的必備工具。有了這把武器,我們如何才能帶來(lái)實(shí)際利益?搜索引擎網(wǎng)站收錄 和排名很重要。這將大大增加公司的曝光率,帶來(lái)更多的流量。關(guān)于網(wǎng)站搜索引擎優(yōu)化和搜索引擎,一直是商談的話(huà)題。我們都知道搜索引擎優(yōu)化是否合理,搜索引擎也會(huì )如此,直接帶來(lái)難以想象的客流。海創(chuàng )h5自助建站6年專(zhuān)注建站。擁有國內外領(lǐng)先的技術(shù)和網(wǎng)站marketing技術(shù),打造免費、易用的網(wǎng)站。輕松拖拽一鍵發(fā)布和上線(xiàn),快速獲取搜索引擎收錄和排名。
  想要網(wǎng)站排名好,一定是網(wǎng)站的具體方向。這個(gè)方向就是營(yíng)銷(xiāo)的方向。有了這個(gè)具體點(diǎn),我們就可以更有選擇性的結合用戶(hù)的需求,給網(wǎng)站帶來(lái)更多的水分和轉化率,從而提升SEO管理的視覺(jué)效果。通過(guò)LSI和TF-IDF關(guān)鍵詞分析,我們可以找出符合搜索者意圖的關(guān)鍵詞和URL,并將它們組織成Excel表格,然后創(chuàng )建符合搜索者意圖的高質(zhì)量文案。單頁(yè)速度測試單頁(yè)速度測試推薦使用googlespeedtest。分數越高越好,分數越高表示網(wǎng)速越快,跳出率越低。
  網(wǎng)站Optimization,在互聯(lián)網(wǎng)+時(shí)代,網(wǎng)站是每個(gè)大中型企業(yè)的必備工具。有了這把武器,我們如何才能帶來(lái)實(shí)際利益?搜索引擎網(wǎng)站收錄 和排名很重要。這將大大增加公司的曝光率,帶來(lái)更多的流量。關(guān)于網(wǎng)站搜索引擎優(yōu)化和搜索引擎,一直是商談的話(huà)題。搜索引擎優(yōu)化是否合理大家都知道,搜索引擎也會(huì )如此,直接帶來(lái)難以想象的客流量。
  掌握的基礎如下: 1、掌握后端CSS語(yǔ)法,類(lèi)似DIV+HTML等。在做seo的時(shí)候,我們經(jīng)常需要做的一件事就是看@k14的源碼@。如果連基本的html都不懂,操作起來(lái)會(huì )很困難。我們以 URL 為例。有些人不會(huì )在您的朋友鏈上列出 nofollow。有些人可能會(huì )在 KM 中添加 URL。如果你不了解html的基礎知識,你是看不到這些的。不懂html的你還是主動(dòng)發(fā)這些網(wǎng)站友情鏈接,但是視覺(jué)效果根本不行。微聯(lián)世創(chuàng )專(zhuān)注網(wǎng)絡(luò )營(yíng)銷(xiāo)服務(wù),用數據說(shuō)話(huà),用結果說(shuō)話(huà)。同時(shí)是多家搜索、互聯(lián)網(wǎng)巨頭認證的合作伙伴,擁有包括搜索引擎(百度、搜狗、360)等)認證合作伙伴資質(zhì)的專(zhuān)業(yè)互聯(lián)網(wǎng)營(yíng)銷(xiāo)服務(wù)商。
  網(wǎng)站optimization,adaptability網(wǎng)站搜索引擎優(yōu)化有什么優(yōu)勢?自適應網(wǎng)站開(kāi)發(fā)seo規范比較簡(jiǎn)單,這樣的模型也挺好的。 URL可以隨時(shí)同步數據,因為這樣網(wǎng)站可以在手機上及時(shí)調整頁(yè)面,保持良好的顯示效果。還應該發(fā)現,這樣的網(wǎng)頁(yè)是兼容的,所以更容易保持良好的狀態(tài)。
  友情鏈接是合適的,所以我投票給了我的網(wǎng)站,但不僅僅是網(wǎng)站可以成為友情鏈接。一個(gè)低質(zhì)量的友情鏈接不僅對網(wǎng)站有幫助,而且也無(wú)濟于事。吸引蜘蛛:當我們和一個(gè)排名靠前的網(wǎng)站進(jìn)行友情鏈接時(shí),當搜索蜘蛛來(lái)到另一個(gè)網(wǎng)站時(shí),他會(huì )跟隨友情鏈接到我們自己的網(wǎng)站,并且還會(huì )加我們網(wǎng)站有機會(huì )進(jìn)入。相關(guān)閱讀:網(wǎng)站SEO優(yōu)化**如何估算關(guān)鍵詞的排名?權重轉移:當我們得到一個(gè)高質(zhì)量的友情鏈接時(shí),我們已經(jīng)投票支持我們自己的網(wǎng)站推廣。比如你的網(wǎng)站和食物有關(guān),那么這個(gè)友情鏈接幾乎是在告訴搜索引擎。您的網(wǎng)站 與食物有關(guān)。所以在做友情鏈接的時(shí)候一定要找到和我們主題相似的網(wǎng)站,這樣搜索引擎才能更快的提升我們網(wǎng)站的權重。

SEO優(yōu)化的新思路——SEO站內優(yōu)化之主題模型

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 93 次瀏覽 ? 2021-07-07 03:03 ? 來(lái)自相關(guān)話(huà)題

  SEO優(yōu)化的新思路——SEO站內優(yōu)化之主題模型
  今天和大家分享SEO優(yōu)化的新思路。昨天家里有事,所以沒(méi)有急著(zhù)更新微博。我特地再次說(shuō)聲抱歉。
  隨著(zhù)互聯(lián)網(wǎng)時(shí)代的飛速發(fā)展,現在網(wǎng)站的種類(lèi)越來(lái)越多。隨著(zhù)搜索引擎系統越來(lái)越完善,也趨向于更加人性化和用戶(hù)體驗。 SEO 現在不同于以前的優(yōu)化規則。我們需要開(kāi)始了解我們的網(wǎng)站 應該如何優(yōu)化以獲得更好的排名。
  之前我們講SEO優(yōu)化的時(shí)候,會(huì )很不自然地想到,網(wǎng)站的關(guān)鍵詞密度,頁(yè)面內容是否原創(chuàng ),是否有很多導入鏈接(外部鏈接),是否TDK關(guān)鍵詞設置精準匹配等做法?,F在那是幾年前的舊 SEO 優(yōu)化方法。
  今天偶然看到一篇文章的文章,里面講了SEO網(wǎng)站優(yōu)化的新思路和SEO網(wǎng)站優(yōu)化的話(huà)題模型?,F在搜索引擎可以通過(guò)內容上下文和內容實(shí)體屬性來(lái)處理排名,讓用戶(hù)得到更準確的結果。搜索結果。對于優(yōu)化者來(lái)說(shuō),網(wǎng)站優(yōu)化不再是簡(jiǎn)單的內容填充。我們要做的是如何讓搜索引擎明白我們網(wǎng)站有真實(shí)的內容和實(shí)體屬性。
  首先,它被稱(chēng)為詞匯關(guān)聯(lián)。我們在寫(xiě)網(wǎng)站內容的時(shí)候,一定要關(guān)注如何關(guān)聯(lián)詞句。使用關(guān)鍵詞查找同義詞和異體詞,查找與主題內容相關(guān)的二類(lèi)詞,查找與二類(lèi)詞相關(guān)的三類(lèi)詞,發(fā)現內容屬性與主題內容相關(guān)主題(人、地點(diǎn)、事物)。
  其次,稱(chēng)為詞法布局。頁(yè)面的布局對于搜索引擎了解我們頁(yè)面的內容和主題也很重要。蜘蛛來(lái)到頁(yè)面后,發(fā)現這么多關(guān)鍵詞,需要區分哪些是重要的,哪些是與詞組相關(guān)的,所以詞系統布局就是區分核心詞和相關(guān)性。區域:關(guān)鍵詞 必須出現在標題、標題和主要段落中。頻率:重要短語(yǔ)或其變體的出現頻率可能高于平均水平。距離:相關(guān)詞或短語(yǔ)應彼此靠近或使用 HTML 元素(如 ALT)。
  第三個(gè)叫做補充內容?;蛟S還有很多人認為外鏈是最有力的信號提醒,告訴搜索引擎這個(gè)頁(yè)面的主題是什么。搜索引擎希望大家可以同時(shí)使用內鏈和外鏈,積極向好三方網(wǎng)站進(jìn)行推薦,并引導相關(guān)網(wǎng)站內容。健康的網(wǎng)站應該進(jìn)進(jìn)出出,讓用戶(hù)得到更多更好的信息。頁(yè)面底部添加相關(guān)資源鏈接(推薦站內鏈接),文中引用,如業(yè)內知名人士的話(huà)或圖標、視頻,文中使用導出鏈接去第三方網(wǎng)站(你不是100顆心會(huì )被K's放)。
  第四個(gè)稱(chēng)為內容實(shí)體。強大的搜索引擎會(huì )在抓取頁(yè)面時(shí)自動(dòng)解釋內容實(shí)體,或作為內容屬性。用一個(gè)很籠統的Title來(lái)描述頁(yè)面的主題,加上一個(gè)開(kāi)頭(簡(jiǎn)要)來(lái)描述頁(yè)面的內容,把內容分成幾段,每段都有自己的主題,盡量擴大主題角度,并添加相關(guān)的提供額外的答案 不關(guān)心一個(gè)詞的權重,而是建立內容實(shí)體而不是站內或站外的輔助資源。 查看全部

  SEO優(yōu)化的新思路——SEO站內優(yōu)化之主題模型
  今天和大家分享SEO優(yōu)化的新思路。昨天家里有事,所以沒(méi)有急著(zhù)更新微博。我特地再次說(shuō)聲抱歉。
  隨著(zhù)互聯(lián)網(wǎng)時(shí)代的飛速發(fā)展,現在網(wǎng)站的種類(lèi)越來(lái)越多。隨著(zhù)搜索引擎系統越來(lái)越完善,也趨向于更加人性化和用戶(hù)體驗。 SEO 現在不同于以前的優(yōu)化規則。我們需要開(kāi)始了解我們的網(wǎng)站 應該如何優(yōu)化以獲得更好的排名。
  之前我們講SEO優(yōu)化的時(shí)候,會(huì )很不自然地想到,網(wǎng)站的關(guān)鍵詞密度,頁(yè)面內容是否原創(chuàng ),是否有很多導入鏈接(外部鏈接),是否TDK關(guān)鍵詞設置精準匹配等做法?,F在那是幾年前的舊 SEO 優(yōu)化方法。
  今天偶然看到一篇文章的文章,里面講了SEO網(wǎng)站優(yōu)化的新思路和SEO網(wǎng)站優(yōu)化的話(huà)題模型?,F在搜索引擎可以通過(guò)內容上下文和內容實(shí)體屬性來(lái)處理排名,讓用戶(hù)得到更準確的結果。搜索結果。對于優(yōu)化者來(lái)說(shuō),網(wǎng)站優(yōu)化不再是簡(jiǎn)單的內容填充。我們要做的是如何讓搜索引擎明白我們網(wǎng)站有真實(shí)的內容和實(shí)體屬性。
  首先,它被稱(chēng)為詞匯關(guān)聯(lián)。我們在寫(xiě)網(wǎng)站內容的時(shí)候,一定要關(guān)注如何關(guān)聯(lián)詞句。使用關(guān)鍵詞查找同義詞和異體詞,查找與主題內容相關(guān)的二類(lèi)詞,查找與二類(lèi)詞相關(guān)的三類(lèi)詞,發(fā)現內容屬性與主題內容相關(guān)主題(人、地點(diǎn)、事物)。
  其次,稱(chēng)為詞法布局。頁(yè)面的布局對于搜索引擎了解我們頁(yè)面的內容和主題也很重要。蜘蛛來(lái)到頁(yè)面后,發(fā)現這么多關(guān)鍵詞,需要區分哪些是重要的,哪些是與詞組相關(guān)的,所以詞系統布局就是區分核心詞和相關(guān)性。區域:關(guān)鍵詞 必須出現在標題、標題和主要段落中。頻率:重要短語(yǔ)或其變體的出現頻率可能高于平均水平。距離:相關(guān)詞或短語(yǔ)應彼此靠近或使用 HTML 元素(如 ALT)。
  第三個(gè)叫做補充內容?;蛟S還有很多人認為外鏈是最有力的信號提醒,告訴搜索引擎這個(gè)頁(yè)面的主題是什么。搜索引擎希望大家可以同時(shí)使用內鏈和外鏈,積極向好三方網(wǎng)站進(jìn)行推薦,并引導相關(guān)網(wǎng)站內容。健康的網(wǎng)站應該進(jìn)進(jìn)出出,讓用戶(hù)得到更多更好的信息。頁(yè)面底部添加相關(guān)資源鏈接(推薦站內鏈接),文中引用,如業(yè)內知名人士的話(huà)或圖標、視頻,文中使用導出鏈接去第三方網(wǎng)站(你不是100顆心會(huì )被K's放)。
  第四個(gè)稱(chēng)為內容實(shí)體。強大的搜索引擎會(huì )在抓取頁(yè)面時(shí)自動(dòng)解釋內容實(shí)體,或作為內容屬性。用一個(gè)很籠統的Title來(lái)描述頁(yè)面的主題,加上一個(gè)開(kāi)頭(簡(jiǎn)要)來(lái)描述頁(yè)面的內容,把內容分成幾段,每段都有自己的主題,盡量擴大主題角度,并添加相關(guān)的提供額外的答案 不關(guān)心一個(gè)詞的權重,而是建立內容實(shí)體而不是站內或站外的輔助資源。

專(zhuān)門(mén)探索JavaScript及其所構建的組件系列文章第11篇

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 106 次瀏覽 ? 2021-07-07 02:36 ? 來(lái)自相關(guān)話(huà)題

  專(zhuān)門(mén)探索JavaScript及其所構建的組件系列文章第11篇
  這是文章 致力于探索 JavaScript 及其構建的組件的系列中的第 11 篇文章。
  如果你錯過(guò)了前面的章節,你可以在這里找到它們:
  JavaScript 的工作原理:引擎、運行時(shí)和調用堆棧概述! JavaScript 的工作原理:深入了解 V8 引擎和編寫(xiě)優(yōu)化代碼的 5 個(gè)技巧! JavaScript 是如何工作的:內存管理 + 如何處理 4 種常見(jiàn)的內存泄漏! JavaScript 是如何工作的:事件循環(huán)和異步編程的興起 + 5 種使用 async/await 進(jìn)行更好編碼的方法! JavaScript 是如何工作的:探索 websocket 和 HTTP/2 和 SSE + 如何選擇正確的路徑! JavaScript 是如何工作的:與 WebAssembly 及其使用場(chǎng)景的比較! JavaScript 是如何工作的:Web Workers 的構建塊 + 5 個(gè)使用它們的場(chǎng)景! JavaScript 是如何工作的:Service Worker 生命周期和使用場(chǎng)景! JavaScript 是如何工作的:Web 推送通知機制! JavaScript 的工作原理:使用 MutationObserver 跟蹤 DOM 變化
  當您構建 Web 應用程序時(shí),您不僅僅是編寫(xiě)單獨運行的 JavaScript 代碼,您編寫(xiě)的 JavaScript 還與環(huán)境進(jìn)行交互。了解此環(huán)境、它的工作原理及其組將幫助您構建更好的應用程序,并為應用程序發(fā)布后可能出現的潛在問(wèn)題做好充分準備。
  
  瀏覽器的主要組件包括:
  在這個(gè)文章 中,我將重點(diǎn)介紹渲染引擎,因為它處理 HTML 和 CSS 的解析和可視化,這是大多數 JavaScript 應用程序經(jīng)常與之交互的東西。
  渲染引擎概述
  渲染引擎的職責是渲染,即在瀏覽器窗口中顯示請求的內容。
  渲染引擎可以顯示 HTML 和 XML 文檔和圖像。如果您使用其他插件,渲染引擎還可以顯示不同類(lèi)型的文檔,例如 PDF。
  渲染引擎
  與 JavaScript 引擎類(lèi)似,不同的瀏覽器也使用不同的渲染引擎。以下是一些最受歡迎的:
  Firefox、Chrome 和 Safari 基于兩個(gè)渲染引擎。 Firefox 使用由 Mozilla 自主開(kāi)發(fā)的渲染引擎 Geoko。 Safari 和 Chrome 都使用 Webkit。 Blink 是 Chrome 基于 WebKit 的自主渲染引擎。
  渲染過(guò)程
  渲染引擎從網(wǎng)絡(luò )層接收請求文檔的內容。
  
  解析HTML構建Dom樹(shù)->構建渲染樹(shù)->布局渲染樹(shù)->繪制渲染樹(shù)
  構建 Dom 樹(shù)
  渲染引擎的第一步是解析 HTML 文檔并將解析的元素轉換為 DOM 樹(shù)中的實(shí)際 DOM 節點(diǎn)。
  如果有以下Html結構
  





<p> Hello, friend!

smiley.gif


</p>
  對應的DOM樹(shù)如下:
  
  基本上,每個(gè)元素都表示為所有元素的父節點(diǎn),而這些元素直接收錄在元素中。
  構建 CSSOM
  CSSOM 指的是 CSS 對象模型。瀏覽器在構建頁(yè)面的DOM時(shí),遇到head標簽下的link標簽,引用了外部的theme.css CSS樣式表。瀏覽器預計可能需要資源來(lái)呈現頁(yè)面,并立即發(fā)送請求。假設theme.css文件的內容如下:
  body {
font-size: 16px;
}
p {
font-weight: bold;
}
span {
color: red;
}
p span {
display: none;
}
img {
float: right;
}
  和 HTML 一樣,渲染引擎需要將 CSS 轉換成瀏覽器可以使用的東西——CSSOM。 CSSOM 結構如下:
  
  你想知道為什么 CSSOM 是一個(gè)樹(shù)狀結構嗎?在計算頁(yè)面上任何對象的最終樣式集時(shí),瀏覽器從適用于該節點(diǎn)的最通用規則開(kāi)始(例如,如果它是 body 元素的子元素,則應用所有的 body 樣式),然后細化遞歸地,通過(guò)應用更具體的規則來(lái)計算樣式。
  我們來(lái)看一個(gè)具體的例子。 body 元素內 span 標簽中收錄的任何文本的字體大小為 16 像素,并且是紅色的。這些樣式繼承自 body 元素。如果 span 元素是 p 元素的子元素,則不會(huì )顯示其內容,因為它應用了更具體的樣式(display: none)。
  另請注意,上面的樹(shù)不是完整的 CSSOM 樹(shù),只是我們決定在樣式表中涵蓋的樣式。每個(gè)瀏覽器都提供一組默認樣式,也稱(chēng)為“用戶(hù)代理樣式表”。這是我們在沒(méi)有明確指定樣式時(shí)看到的樣式,我們的樣式將覆蓋這些默認值。
  
  不同的瀏覽器對相同的元素有不同的默認樣式,這就是為什么我們寫(xiě) *{padding:0;marging:0};在 CSS 的最開(kāi)始,也就是我們要重置 CSS 默認樣式。
  構建渲染樹(shù)
  CSSOM 樹(shù)和 DOM 樹(shù)連接在一起形成渲染樹(shù),用于計算可見(jiàn)元素的布局,并作為將像素渲染到屏幕的過(guò)程的輸入。
  渲染樹(shù)中的每個(gè)節點(diǎn)在 Webkit 中稱(chēng)為渲染器或渲染對象。
  下面是上面DOM和CSSOM樹(shù)的渲染樹(shù)的樣子:
  
  為了構建渲染樹(shù),瀏覽器大致執行以下操作:
  對于每個(gè)可見(jiàn)節點(diǎn),找到一個(gè)合適的匹配CSSOM規則,并應用一個(gè)樣式來(lái)顯示可見(jiàn)節點(diǎn)之間的差異(節點(diǎn)包括內容和計算樣式)“visibility: hidden”和“display: none”,“ Visibility: hidden" 將元素設置為不可見(jiàn),但也會(huì )在布局上占據一定的空間(例如,它會(huì )被渲染為一個(gè)空框),但是"display: none" 元素將節點(diǎn)從整個(gè)渲染樹(shù)中移除, 所以它不是布局的一部分。
  您可以在此處查看 RenderObject(在 WebKit 中)的源代碼:
  先來(lái)看看這個(gè)類(lèi)的一些核心內容:
  
  每個(gè)渲染器代表一個(gè)矩形區域,通常對應一個(gè)節點(diǎn)的CSS盒模型。它收錄寬度、高度和位置等幾何信息。
  渲染樹(shù)的布局
  當您創(chuàng )建渲染器并將其添加到樹(shù)中時(shí),它沒(méi)有位置和大小。計算這些值稱(chēng)為布局。
  HTML 使用基于流的布局模型,這意味著(zhù)大多數時(shí)候它可以一次性計算幾何。坐標系相對于根渲染器,使用左上角的原點(diǎn)坐標。
  Layout 是一個(gè)遞歸過(guò)程——它從根渲染器開(kāi)始,它對應于 HTML 文檔的元素。布局通過(guò)組件或整個(gè)渲染器層次結構遞歸地繼續,為需要它的每個(gè)渲染器計算幾何信息。
  根渲染器的位置為0,0,其大小與瀏覽器窗口可見(jiàn)部分(即視口)的大小相同。開(kāi)始布局過(guò)程意味著(zhù)為每個(gè)節點(diǎn)提供它應該出現在屏幕上的確切坐標。
  繪制渲染樹(shù)
  在這里繪制,遍歷渲染樹(shù)并調用渲染器的paint()方法在屏幕上顯示內容。
  繪圖可以是全局的或增量的(類(lèi)似于布局):
  一般來(lái)說(shuō),重要的是要了解繪圖是一個(gè)漸進(jìn)的過(guò)程。為了獲得更好的用戶(hù)體驗,渲染引擎會(huì )盡快在屏幕上顯示內容。它不會(huì )等到所有 HTML 都被解析后才開(kāi)始構建和布局渲染樹(shù)。相反,它會(huì )解析并顯示部分內容,同時(shí)繼續處理來(lái)自網(wǎng)絡(luò )的其余內容項。
  處理腳本和樣式表的順序
  解析器到達時(shí) 查看全部

  專(zhuān)門(mén)探索JavaScript及其所構建的組件系列文章第11篇
  這是文章 致力于探索 JavaScript 及其構建的組件的系列中的第 11 篇文章。
  如果你錯過(guò)了前面的章節,你可以在這里找到它們:
  JavaScript 的工作原理:引擎、運行時(shí)和調用堆棧概述! JavaScript 的工作原理:深入了解 V8 引擎和編寫(xiě)優(yōu)化代碼的 5 個(gè)技巧! JavaScript 是如何工作的:內存管理 + 如何處理 4 種常見(jiàn)的內存泄漏! JavaScript 是如何工作的:事件循環(huán)和異步編程的興起 + 5 種使用 async/await 進(jìn)行更好編碼的方法! JavaScript 是如何工作的:探索 websocket 和 HTTP/2 和 SSE + 如何選擇正確的路徑! JavaScript 是如何工作的:與 WebAssembly 及其使用場(chǎng)景的比較! JavaScript 是如何工作的:Web Workers 的構建塊 + 5 個(gè)使用它們的場(chǎng)景! JavaScript 是如何工作的:Service Worker 生命周期和使用場(chǎng)景! JavaScript 是如何工作的:Web 推送通知機制! JavaScript 的工作原理:使用 MutationObserver 跟蹤 DOM 變化
  當您構建 Web 應用程序時(shí),您不僅僅是編寫(xiě)單獨運行的 JavaScript 代碼,您編寫(xiě)的 JavaScript 還與環(huán)境進(jìn)行交互。了解此環(huán)境、它的工作原理及其組將幫助您構建更好的應用程序,并為應用程序發(fā)布后可能出現的潛在問(wèn)題做好充分準備。
  
  瀏覽器的主要組件包括:
  在這個(gè)文章 中,我將重點(diǎn)介紹渲染引擎,因為它處理 HTML 和 CSS 的解析和可視化,這是大多數 JavaScript 應用程序經(jīng)常與之交互的東西。
  渲染引擎概述
  渲染引擎的職責是渲染,即在瀏覽器窗口中顯示請求的內容。
  渲染引擎可以顯示 HTML 和 XML 文檔和圖像。如果您使用其他插件,渲染引擎還可以顯示不同類(lèi)型的文檔,例如 PDF。
  渲染引擎
  與 JavaScript 引擎類(lèi)似,不同的瀏覽器也使用不同的渲染引擎。以下是一些最受歡迎的:
  Firefox、Chrome 和 Safari 基于兩個(gè)渲染引擎。 Firefox 使用由 Mozilla 自主開(kāi)發(fā)的渲染引擎 Geoko。 Safari 和 Chrome 都使用 Webkit。 Blink 是 Chrome 基于 WebKit 的自主渲染引擎。
  渲染過(guò)程
  渲染引擎從網(wǎng)絡(luò )層接收請求文檔的內容。
  
  解析HTML構建Dom樹(shù)->構建渲染樹(shù)->布局渲染樹(shù)->繪制渲染樹(shù)
  構建 Dom 樹(shù)
  渲染引擎的第一步是解析 HTML 文檔并將解析的元素轉換為 DOM 樹(shù)中的實(shí)際 DOM 節點(diǎn)。
  如果有以下Html結構
  





<p> Hello, friend!

smiley.gif


</p>
  對應的DOM樹(shù)如下:
  
  基本上,每個(gè)元素都表示為所有元素的父節點(diǎn),而這些元素直接收錄在元素中。
  構建 CSSOM
  CSSOM 指的是 CSS 對象模型。瀏覽器在構建頁(yè)面的DOM時(shí),遇到head標簽下的link標簽,引用了外部的theme.css CSS樣式表。瀏覽器預計可能需要資源來(lái)呈現頁(yè)面,并立即發(fā)送請求。假設theme.css文件的內容如下:
  body {
font-size: 16px;
}
p {
font-weight: bold;
}
span {
color: red;
}
p span {
display: none;
}
img {
float: right;
}
  和 HTML 一樣,渲染引擎需要將 CSS 轉換成瀏覽器可以使用的東西——CSSOM。 CSSOM 結構如下:
  
  你想知道為什么 CSSOM 是一個(gè)樹(shù)狀結構嗎?在計算頁(yè)面上任何對象的最終樣式集時(shí),瀏覽器從適用于該節點(diǎn)的最通用規則開(kāi)始(例如,如果它是 body 元素的子元素,則應用所有的 body 樣式),然后細化遞歸地,通過(guò)應用更具體的規則來(lái)計算樣式。
  我們來(lái)看一個(gè)具體的例子。 body 元素內 span 標簽中收錄的任何文本的字體大小為 16 像素,并且是紅色的。這些樣式繼承自 body 元素。如果 span 元素是 p 元素的子元素,則不會(huì )顯示其內容,因為它應用了更具體的樣式(display: none)。
  另請注意,上面的樹(shù)不是完整的 CSSOM 樹(shù),只是我們決定在樣式表中涵蓋的樣式。每個(gè)瀏覽器都提供一組默認樣式,也稱(chēng)為“用戶(hù)代理樣式表”。這是我們在沒(méi)有明確指定樣式時(shí)看到的樣式,我們的樣式將覆蓋這些默認值。
  
  不同的瀏覽器對相同的元素有不同的默認樣式,這就是為什么我們寫(xiě) *{padding:0;marging:0};在 CSS 的最開(kāi)始,也就是我們要重置 CSS 默認樣式。
  構建渲染樹(shù)
  CSSOM 樹(shù)和 DOM 樹(shù)連接在一起形成渲染樹(shù),用于計算可見(jiàn)元素的布局,并作為將像素渲染到屏幕的過(guò)程的輸入。
  渲染樹(shù)中的每個(gè)節點(diǎn)在 Webkit 中稱(chēng)為渲染器或渲染對象。
  下面是上面DOM和CSSOM樹(shù)的渲染樹(shù)的樣子:
  
  為了構建渲染樹(shù),瀏覽器大致執行以下操作:
  對于每個(gè)可見(jiàn)節點(diǎn),找到一個(gè)合適的匹配CSSOM規則,并應用一個(gè)樣式來(lái)顯示可見(jiàn)節點(diǎn)之間的差異(節點(diǎn)包括內容和計算樣式)“visibility: hidden”和“display: none”,“ Visibility: hidden" 將元素設置為不可見(jiàn),但也會(huì )在布局上占據一定的空間(例如,它會(huì )被渲染為一個(gè)空框),但是"display: none" 元素將節點(diǎn)從整個(gè)渲染樹(shù)中移除, 所以它不是布局的一部分。
  您可以在此處查看 RenderObject(在 WebKit 中)的源代碼:
  先來(lái)看看這個(gè)類(lèi)的一些核心內容:
  
  每個(gè)渲染器代表一個(gè)矩形區域,通常對應一個(gè)節點(diǎn)的CSS盒模型。它收錄寬度、高度和位置等幾何信息。
  渲染樹(shù)的布局
  當您創(chuàng )建渲染器并將其添加到樹(shù)中時(shí),它沒(méi)有位置和大小。計算這些值稱(chēng)為布局。
  HTML 使用基于流的布局模型,這意味著(zhù)大多數時(shí)候它可以一次性計算幾何。坐標系相對于根渲染器,使用左上角的原點(diǎn)坐標。
  Layout 是一個(gè)遞歸過(guò)程——它從根渲染器開(kāi)始,它對應于 HTML 文檔的元素。布局通過(guò)組件或整個(gè)渲染器層次結構遞歸地繼續,為需要它的每個(gè)渲染器計算幾何信息。
  根渲染器的位置為0,0,其大小與瀏覽器窗口可見(jiàn)部分(即視口)的大小相同。開(kāi)始布局過(guò)程意味著(zhù)為每個(gè)節點(diǎn)提供它應該出現在屏幕上的確切坐標。
  繪制渲染樹(shù)
  在這里繪制,遍歷渲染樹(shù)并調用渲染器的paint()方法在屏幕上顯示內容。
  繪圖可以是全局的或增量的(類(lèi)似于布局):
  一般來(lái)說(shuō),重要的是要了解繪圖是一個(gè)漸進(jìn)的過(guò)程。為了獲得更好的用戶(hù)體驗,渲染引擎會(huì )盡快在屏幕上顯示內容。它不會(huì )等到所有 HTML 都被解析后才開(kāi)始構建和布局渲染樹(shù)。相反,它會(huì )解析并顯示部分內容,同時(shí)繼續處理來(lái)自網(wǎng)絡(luò )的其余內容項。
  處理腳本和樣式表的順序
  解析器到達時(shí)

:通用型垂直搜索引擎的行業(yè)應用模型建模方法

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 88 次瀏覽 ? 2021-07-06 23:25 ? 來(lái)自相關(guān)話(huà)題

 ?。和ㄓ眯痛怪彼阉饕娴男袠I(yè)應用模型建模方法
  通用垂直搜索引擎的行業(yè)應用模型建模方法,垂直搜索核心模塊Spider(1)Access Industry Application Model(2))實(shí)現對不同數據的識別、捕獲、組織、存儲和傳輸。行業(yè)信息、行業(yè)應用模型(2)山互聯(lián)網(wǎng)web庫(21))和web存儲分類(lèi)索引管理組件(211)、web結構信息模型庫(22)和web結構信息模型管理組件) (22@k21)@、行業(yè)信息結構模型庫(23)和行業(yè)信息結構模型管理組件(231))、行業(yè)信息存儲模型庫(24)和行業(yè)信息存儲模型管理組件(24) 1),和用戶(hù)系統界面模型庫(25)和用戶(hù)系統界面模型管理組件(251))。本發(fā)明的專(zhuān)利技術(shù)解決了同時(shí)覆蓋不同行業(yè)應用、不同的網(wǎng)頁(yè)、不同的行業(yè)信息結構和存儲結構在一個(gè)模型中。它使垂直搜索能夠完成對不同行業(yè)、不同結構的互聯(lián)網(wǎng)信息的識別、捕獲、組織、存儲和傳輸,從而具備通用垂直搜索引擎的多行業(yè)應用能力。
  下載所有詳細的技術(shù)資料
  【技術(shù)實(shí)現步驟總結】
  該專(zhuān)利技術(shù)公開(kāi)了一種基于。 二.
  技術(shù)介紹
  許多文檔將垂直搜索定義為針對單個(gè)應用程序或單個(gè)功能的搜索技術(shù)?,F實(shí)中,垂直搜索產(chǎn)品和門(mén)戶(hù)網(wǎng)站就是按照這個(gè)定義布局的,或者房地產(chǎn)信息搜索門(mén)戶(hù),或者博客信息搜索門(mén)戶(hù),或者音樂(lè )信息搜索門(mén)戶(hù),或者專(zhuān)利信息搜索門(mén)戶(hù)。所有這些都是如此。之所以出現這種現象,是因為垂直搜索互聯(lián)網(wǎng)信息具有明顯的行業(yè)應用特征、功能應用特征和結構特征。也就是說(shuō),由于垂直搜索面臨的互聯(lián)網(wǎng)信息具有明顯的行業(yè)應用特征、功能應用特征和結構特征,這些千差萬(wàn)別的信息特征導致垂直搜索門(mén)戶(hù)具有明顯的單一行業(yè)或功能。事實(shí)上,垂直搜索引擎的核心模塊——數據爬取模塊蜘蛛本身可以作為通用技術(shù),并沒(méi)有嚴格的行業(yè)應用或功能應用邊界。原則上,一款好的數據爬蟲(chóng)軟件可以完成任何網(wǎng)頁(yè)、任何行業(yè)信息的數據爬取任務(wù)。由此看來(lái),垂直搜索技術(shù)只適用于單一行業(yè)或功能門(mén)戶(hù)的事實(shí)并不在于垂直搜索的核心技術(shù)——數據爬蟲(chóng)軟件蜘蛛,而是來(lái)自于核心技術(shù)之外。的元素。所以,要搭建一個(gè)像谷歌、百度這樣的通用垂直搜索平臺,垂直搜索的核心技術(shù)——數據爬蟲(chóng)軟件蜘蛛,就有了這個(gè)基礎。問(wèn)題在于,如何圍繞具有通用能力的數據爬蟲(chóng)軟件構建具有通用能力的外圍系統,是實(shí)現通用垂直搜索引擎的關(guān)鍵。構建與通用數據爬蟲(chóng)軟件蜘蛛相匹配、具有通用能力的行業(yè)應用模型是系統研究的重要課題之一。 三.
  技術(shù)實(shí)現思路
  該專(zhuān)利技術(shù)的目的是提供一種用于一般垂直搜索系統中描述不同行業(yè)應用或功能應用特征的方法,使垂直搜索能夠完成對互聯(lián)網(wǎng)信息的識別、抓取和檢索。其行業(yè)模式。組織、存儲和傳輸應用程序,使它們能夠成為通用的垂直搜索引擎。該專(zhuān)利技術(shù)的技術(shù)方案就是該專(zhuān)利技術(shù)。垂直搜索核心模塊Spider 1接入行業(yè)應用模型2,實(shí)現對不同行業(yè)信息的識別、抓取、組織、存儲和傳輸。行業(yè)應用模型2由互聯(lián)網(wǎng)網(wǎng)頁(yè)庫21和網(wǎng)頁(yè)組成。存儲分類(lèi)索引管理組件211、網(wǎng)頁(yè)結構信息模型庫22和頁(yè)面結構信息模型管理組件221、工業(yè)信息結構模型庫23和行業(yè)信息結構模型管理組件231、工業(yè)信息存儲模型庫24和行業(yè)信息存儲模型管理組件241、、用戶(hù)系統界面模型庫25和用戶(hù)系統界面模型管理組件251構成?;ヂ?lián)網(wǎng)網(wǎng)頁(yè)庫21和網(wǎng)頁(yè)存儲分類(lèi)索引管理組件211負責互聯(lián)網(wǎng)網(wǎng)頁(yè)庫21的存儲、分類(lèi)和索引管理任務(wù)。網(wǎng)頁(yè)存儲分類(lèi)索引管理組件211調用G00gleAPI212進(jìn)行行業(yè)搜索應用程序網(wǎng)頁(yè) URL 集合;網(wǎng)頁(yè)結構信息模型庫22和網(wǎng)頁(yè)結構信息模型管理組件221承擔頁(yè)面和行業(yè)應用關(guān)系的分析、描述、頁(yè)面訪(fǎng)問(wèn)控制、頁(yè)面轉換鏈接控制、描述和管理等任務(wù)。行業(yè)信息結構模型庫23及行業(yè)信息結構模型管理組件231負責各種網(wǎng)頁(yè)中各種行業(yè)信息的不同結構形式和頁(yè)面位置的描述、提取、生成和管理任務(wù)。行業(yè)信息存儲模型庫24和行業(yè)信息存儲模型管理組件241負責系統中各種存儲形式和存儲結構的描述,從行業(yè)信息中獲取信息后存儲結構的動(dòng)態(tài)生成和管理任務(wù)。網(wǎng)頁(yè);用戶(hù)系統接口模型庫25和用戶(hù)系統接口模型管理組件251專(zhuān)用于每個(gè)用戶(hù)信息存儲形式和系統間存儲結構轉換、信息傳輸接口、軟件接口關(guān)系形式、接口定義的描述、生成和管理任務(wù)并打電話(huà)。
  網(wǎng)頁(yè)結構信息模型庫22至少收錄行業(yè)及應用、行業(yè)信息分類(lèi)描述、網(wǎng)頁(yè)地址URL、網(wǎng)頁(yè)訪(fǎng)問(wèn)入口參數(用戶(hù)名、密碼、方法代碼等)、網(wǎng)頁(yè)鏈接方法、網(wǎng)頁(yè)鏈接控制參數等信息。網(wǎng)頁(yè)結構信息模型管理組件221至少包括網(wǎng)頁(yè)結構信息模型庫22基本信息的生成和維護、網(wǎng)頁(yè)訪(fǎng)問(wèn)入口參數(用戶(hù)名、密碼、方法代碼等)庫信息的生成和維護,網(wǎng)頁(yè)鏈接方法、網(wǎng)頁(yè)鏈接控制參數庫信息的生成與維護、網(wǎng)頁(yè)鏈接控制代碼片段的提取/轉換/存儲、調用處理等功能處理模塊。行業(yè)信息結構模型庫23至少包括行業(yè)及應用、行業(yè)信息分類(lèi)描述、網(wǎng)頁(yè)地址URL、行業(yè)信息結構類(lèi)型、行業(yè)信息結構初始標識、行業(yè)信息結構描述、行業(yè)信息結構中的元數據屬性描述、行業(yè)信息結構周期捕獲標識、行業(yè)信息結構捕獲端標識、行業(yè)信息結構存儲指令等信息。行業(yè)信息結構模型管理組件231至少包括行業(yè)信息結構模型庫23的基礎信息生成和維護、行業(yè)信息結構模型庫23的信息輔助分析和自動(dòng)提取等功能處理模塊。模型庫24個(gè)至少包括行業(yè)及應用、行業(yè)信息分類(lèi)描述、行業(yè)信息存儲目標庫及基表指令、行業(yè)信息存儲結構類(lèi)型、行業(yè)信息存儲映射描述、行業(yè)信息存儲轉換處理指令、行業(yè)信息存儲相關(guān)處理說(shuō)明和其他信息。
  行業(yè)信息存儲模型管理組件241至少包括行業(yè)信息存儲模型庫24的基礎信息生成與維護、行業(yè)信息存儲結構的動(dòng)態(tài)生成、行業(yè)信息存儲映射控制、行業(yè)信息存儲轉換處理等功能處理模塊。該專(zhuān)利技術(shù)的顯著(zhù)效果在于,該專(zhuān)利技術(shù)從網(wǎng)頁(yè)索引、網(wǎng)頁(yè)結構、行業(yè)信息結構、行業(yè)信息存儲結構和用戶(hù)系統界面五個(gè)層面建立了與行業(yè)應用信息搜索相關(guān)的完整描述和管理。該系統解決了在一個(gè)模型中同時(shí)覆蓋不同行業(yè)應用、不同網(wǎng)頁(yè)、不同行業(yè)信息結構和存儲結構的問(wèn)題,具有全行業(yè)能力。這項專(zhuān)利技術(shù)將使垂直搜索能夠完成對不同行業(yè)、不同結構的互聯(lián)網(wǎng)信息的識別、抓取、組織、存儲和傳輸,從而具備通用垂直搜索引擎的多行業(yè)應用能力。 四. 附圖說(shuō)明圖1為專(zhuān)利技術(shù)示意圖。其中1=垂直搜索核心組件Spider2=行業(yè)應用模型21=互聯(lián)網(wǎng)網(wǎng)頁(yè)庫211=網(wǎng)頁(yè)存儲分類(lèi)索引管理組件212=GoogleAPI22=網(wǎng)頁(yè)結構信息模型庫221=網(wǎng)頁(yè)結構信息模型管理組件23=行業(yè)信息結構模型庫 231 = 行業(yè)信息結構模型管理組件 24 = 行業(yè)信息采集模型庫 241 = 行業(yè)信息采集模型管理組件 25 = 行業(yè)信息存儲模型庫 251 = 行業(yè)信息存儲模型管理組件 26 = 用戶(hù)系統界面模型庫 261 =用戶(hù)系統界面模型管理組件圖2是專(zhuān)利技術(shù)行業(yè)應用模型中網(wǎng)頁(yè)結構信息模型庫的結構示例。
  圖3是專(zhuān)利技術(shù)行業(yè)應用模型中行業(yè)信息結構模型庫的結構示例。圖4是專(zhuān)利技術(shù)行業(yè)應用模型中行業(yè)信息存儲結構模型庫的結構示例。 五.具體實(shí)施方式實(shí)例1如圖1所示。 2、本實(shí)施例舉例說(shuō)明了專(zhuān)利技術(shù)的行業(yè)應用模型中網(wǎng)頁(yè)結構信息模型庫的結構示例。示例二參見(jiàn)圖3。本實(shí)施例舉例說(shuō)明了專(zhuān)利技術(shù)的行業(yè)應用模型中的行業(yè)信息結構模型庫的結構示例。實(shí)施例3參見(jiàn)圖4。本實(shí)施例舉例說(shuō)明了專(zhuān)利技術(shù)的行業(yè)應用模型中的行業(yè)信息存儲結構模型庫的結構示例。權利要求1.,其特征在于垂直搜索核心模塊Spider(I)接入行業(yè)應用模型(2)),實(shí)現不同行業(yè)信息的識別、抓取、組織、存儲和傳輸,行業(yè)應用模型( 2)由互聯(lián)網(wǎng)網(wǎng)頁(yè)庫(21)和網(wǎng)頁(yè)存儲分類(lèi)索引管理組件(211),網(wǎng)頁(yè)結構信息模型庫(22))和網(wǎng)頁(yè)結構信息模型管理組件(22@) k45@,行業(yè)信息結構模型庫(23)和行業(yè)信息結構模型管理組件(231),行業(yè)信息存儲模型庫(24)和行業(yè)信息存儲模型管理組(241),和用戶(hù)系統界面模型庫(2@k53)@和用戶(hù)系統界面模型管理組件(251);互聯(lián)網(wǎng)網(wǎng)頁(yè)庫(21))和web存儲分類(lèi)索引管理組件(211)承擔)一世htemet web library(21)存儲、分類(lèi)和索引)管理任務(wù),包括web存儲分類(lèi)索引管理
  【技術(shù)保護點(diǎn)】
  通用垂直搜索引擎行業(yè)應用模型建模方法的特點(diǎn)是垂直搜索核心模塊Spider(1)Access行業(yè)應用模型(2))實(shí)現識別、捕獲、組織、存儲和傳輸應用、行業(yè)應用模型(2)來(lái)自互聯(lián)網(wǎng)網(wǎng)頁(yè)庫(21))和網(wǎng)頁(yè)存儲分類(lèi)索引管理組件(211)、網(wǎng)頁(yè)結構信息模型庫(22)和網(wǎng)頁(yè)結構信息模型管理組件) (221),行業(yè)信息結構模型庫(23)和行業(yè)信息結構模型管理組件(231),行業(yè)信息存儲模型庫(24)和行業(yè)信息存儲模型管理組(24@k21) @)) ,以及用戶(hù)系統界面模型庫(25)和用戶(hù)系統界面模型管理組件(251));其中:Internet web庫(21)和web存儲分類(lèi)索引man agement組件(211))網(wǎng)頁(yè)庫(21)存儲分類(lèi)索引管理任務(wù),包括網(wǎng)頁(yè)存儲分類(lèi)索引管理組件(211)調用GoogleAPI(212))實(shí)現行業(yè)應用web頁(yè)面網(wǎng)址集合搜索;網(wǎng)頁(yè)結構信息模型庫(22)和網(wǎng)頁(yè)結構信息模型管理組件(221)承擔頁(yè)面之間關(guān)系的分析、描述、頁(yè)面訪(fǎng)問(wèn)控制、頁(yè)面轉換鏈接控制、描述和管理任務(wù))和行業(yè)應用;行業(yè)信息結構模型庫(221)23)和行業(yè)信息結構模型管理組件(231),負責不同結構形式和頁(yè)面的描述、提取、生成和管理任務(wù))各種行業(yè)信息在各種網(wǎng)頁(yè)中的位置;行業(yè)信息存儲模型庫(24)和行業(yè)信息存儲模型管理組件(241),負責捕獲各種信息后系統中存儲結構的存儲形式和描述)來(lái)自各種網(wǎng)頁(yè)的行業(yè)信息,以及存儲結構Task的動(dòng)態(tài)生成和管理;用戶(hù)系統int erface模型庫(25)和用戶(hù)系統接口模型管理組件(251),負責信息存儲形式與存儲結構、信息傳輸接口、軟件之間的轉換關(guān)系),每個(gè)用戶(hù)特定的系統描述,接口關(guān)系表、接口定義和調用的生成和管理任務(wù)。
  [技術(shù)特點(diǎn)總結]
  [專(zhuān)利技術(shù)屬性]
  技術(shù)研發(fā)人員:劉學(xué)明、錢(qián)宇、張康、
  申請人(專(zhuān)利權):,
  類(lèi)型:發(fā)明
  國家、省市:32個(gè)
  下載所有詳細技術(shù)資料我是此專(zhuān)利的所有者 查看全部

 ?。和ㄓ眯痛怪彼阉饕娴男袠I(yè)應用模型建模方法
  通用垂直搜索引擎的行業(yè)應用模型建模方法,垂直搜索核心模塊Spider(1)Access Industry Application Model(2))實(shí)現對不同數據的識別、捕獲、組織、存儲和傳輸。行業(yè)信息、行業(yè)應用模型(2)山互聯(lián)網(wǎng)web庫(21))和web存儲分類(lèi)索引管理組件(211)、web結構信息模型庫(22)和web結構信息模型管理組件) (22@k21)@、行業(yè)信息結構模型庫(23)和行業(yè)信息結構模型管理組件(231))、行業(yè)信息存儲模型庫(24)和行業(yè)信息存儲模型管理組件(24) 1),和用戶(hù)系統界面模型庫(25)和用戶(hù)系統界面模型管理組件(251))。本發(fā)明的專(zhuān)利技術(shù)解決了同時(shí)覆蓋不同行業(yè)應用、不同的網(wǎng)頁(yè)、不同的行業(yè)信息結構和存儲結構在一個(gè)模型中。它使垂直搜索能夠完成對不同行業(yè)、不同結構的互聯(lián)網(wǎng)信息的識別、捕獲、組織、存儲和傳輸,從而具備通用垂直搜索引擎的多行業(yè)應用能力。
  下載所有詳細的技術(shù)資料
  【技術(shù)實(shí)現步驟總結】
  該專(zhuān)利技術(shù)公開(kāi)了一種基于。 二.
  技術(shù)介紹
  許多文檔將垂直搜索定義為針對單個(gè)應用程序或單個(gè)功能的搜索技術(shù)?,F實(shí)中,垂直搜索產(chǎn)品和門(mén)戶(hù)網(wǎng)站就是按照這個(gè)定義布局的,或者房地產(chǎn)信息搜索門(mén)戶(hù),或者博客信息搜索門(mén)戶(hù),或者音樂(lè )信息搜索門(mén)戶(hù),或者專(zhuān)利信息搜索門(mén)戶(hù)。所有這些都是如此。之所以出現這種現象,是因為垂直搜索互聯(lián)網(wǎng)信息具有明顯的行業(yè)應用特征、功能應用特征和結構特征。也就是說(shuō),由于垂直搜索面臨的互聯(lián)網(wǎng)信息具有明顯的行業(yè)應用特征、功能應用特征和結構特征,這些千差萬(wàn)別的信息特征導致垂直搜索門(mén)戶(hù)具有明顯的單一行業(yè)或功能。事實(shí)上,垂直搜索引擎的核心模塊——數據爬取模塊蜘蛛本身可以作為通用技術(shù),并沒(méi)有嚴格的行業(yè)應用或功能應用邊界。原則上,一款好的數據爬蟲(chóng)軟件可以完成任何網(wǎng)頁(yè)、任何行業(yè)信息的數據爬取任務(wù)。由此看來(lái),垂直搜索技術(shù)只適用于單一行業(yè)或功能門(mén)戶(hù)的事實(shí)并不在于垂直搜索的核心技術(shù)——數據爬蟲(chóng)軟件蜘蛛,而是來(lái)自于核心技術(shù)之外。的元素。所以,要搭建一個(gè)像谷歌、百度這樣的通用垂直搜索平臺,垂直搜索的核心技術(shù)——數據爬蟲(chóng)軟件蜘蛛,就有了這個(gè)基礎。問(wèn)題在于,如何圍繞具有通用能力的數據爬蟲(chóng)軟件構建具有通用能力的外圍系統,是實(shí)現通用垂直搜索引擎的關(guān)鍵。構建與通用數據爬蟲(chóng)軟件蜘蛛相匹配、具有通用能力的行業(yè)應用模型是系統研究的重要課題之一。 三.
  技術(shù)實(shí)現思路
  該專(zhuān)利技術(shù)的目的是提供一種用于一般垂直搜索系統中描述不同行業(yè)應用或功能應用特征的方法,使垂直搜索能夠完成對互聯(lián)網(wǎng)信息的識別、抓取和檢索。其行業(yè)模式。組織、存儲和傳輸應用程序,使它們能夠成為通用的垂直搜索引擎。該專(zhuān)利技術(shù)的技術(shù)方案就是該專(zhuān)利技術(shù)。垂直搜索核心模塊Spider 1接入行業(yè)應用模型2,實(shí)現對不同行業(yè)信息的識別、抓取、組織、存儲和傳輸。行業(yè)應用模型2由互聯(lián)網(wǎng)網(wǎng)頁(yè)庫21和網(wǎng)頁(yè)組成。存儲分類(lèi)索引管理組件211、網(wǎng)頁(yè)結構信息模型庫22和頁(yè)面結構信息模型管理組件221、工業(yè)信息結構模型庫23和行業(yè)信息結構模型管理組件231、工業(yè)信息存儲模型庫24和行業(yè)信息存儲模型管理組件241、、用戶(hù)系統界面模型庫25和用戶(hù)系統界面模型管理組件251構成?;ヂ?lián)網(wǎng)網(wǎng)頁(yè)庫21和網(wǎng)頁(yè)存儲分類(lèi)索引管理組件211負責互聯(lián)網(wǎng)網(wǎng)頁(yè)庫21的存儲、分類(lèi)和索引管理任務(wù)。網(wǎng)頁(yè)存儲分類(lèi)索引管理組件211調用G00gleAPI212進(jìn)行行業(yè)搜索應用程序網(wǎng)頁(yè) URL 集合;網(wǎng)頁(yè)結構信息模型庫22和網(wǎng)頁(yè)結構信息模型管理組件221承擔頁(yè)面和行業(yè)應用關(guān)系的分析、描述、頁(yè)面訪(fǎng)問(wèn)控制、頁(yè)面轉換鏈接控制、描述和管理等任務(wù)。行業(yè)信息結構模型庫23及行業(yè)信息結構模型管理組件231負責各種網(wǎng)頁(yè)中各種行業(yè)信息的不同結構形式和頁(yè)面位置的描述、提取、生成和管理任務(wù)。行業(yè)信息存儲模型庫24和行業(yè)信息存儲模型管理組件241負責系統中各種存儲形式和存儲結構的描述,從行業(yè)信息中獲取信息后存儲結構的動(dòng)態(tài)生成和管理任務(wù)。網(wǎng)頁(yè);用戶(hù)系統接口模型庫25和用戶(hù)系統接口模型管理組件251專(zhuān)用于每個(gè)用戶(hù)信息存儲形式和系統間存儲結構轉換、信息傳輸接口、軟件接口關(guān)系形式、接口定義的描述、生成和管理任務(wù)并打電話(huà)。
  網(wǎng)頁(yè)結構信息模型庫22至少收錄行業(yè)及應用、行業(yè)信息分類(lèi)描述、網(wǎng)頁(yè)地址URL、網(wǎng)頁(yè)訪(fǎng)問(wèn)入口參數(用戶(hù)名、密碼、方法代碼等)、網(wǎng)頁(yè)鏈接方法、網(wǎng)頁(yè)鏈接控制參數等信息。網(wǎng)頁(yè)結構信息模型管理組件221至少包括網(wǎng)頁(yè)結構信息模型庫22基本信息的生成和維護、網(wǎng)頁(yè)訪(fǎng)問(wèn)入口參數(用戶(hù)名、密碼、方法代碼等)庫信息的生成和維護,網(wǎng)頁(yè)鏈接方法、網(wǎng)頁(yè)鏈接控制參數庫信息的生成與維護、網(wǎng)頁(yè)鏈接控制代碼片段的提取/轉換/存儲、調用處理等功能處理模塊。行業(yè)信息結構模型庫23至少包括行業(yè)及應用、行業(yè)信息分類(lèi)描述、網(wǎng)頁(yè)地址URL、行業(yè)信息結構類(lèi)型、行業(yè)信息結構初始標識、行業(yè)信息結構描述、行業(yè)信息結構中的元數據屬性描述、行業(yè)信息結構周期捕獲標識、行業(yè)信息結構捕獲端標識、行業(yè)信息結構存儲指令等信息。行業(yè)信息結構模型管理組件231至少包括行業(yè)信息結構模型庫23的基礎信息生成和維護、行業(yè)信息結構模型庫23的信息輔助分析和自動(dòng)提取等功能處理模塊。模型庫24個(gè)至少包括行業(yè)及應用、行業(yè)信息分類(lèi)描述、行業(yè)信息存儲目標庫及基表指令、行業(yè)信息存儲結構類(lèi)型、行業(yè)信息存儲映射描述、行業(yè)信息存儲轉換處理指令、行業(yè)信息存儲相關(guān)處理說(shuō)明和其他信息。
  行業(yè)信息存儲模型管理組件241至少包括行業(yè)信息存儲模型庫24的基礎信息生成與維護、行業(yè)信息存儲結構的動(dòng)態(tài)生成、行業(yè)信息存儲映射控制、行業(yè)信息存儲轉換處理等功能處理模塊。該專(zhuān)利技術(shù)的顯著(zhù)效果在于,該專(zhuān)利技術(shù)從網(wǎng)頁(yè)索引、網(wǎng)頁(yè)結構、行業(yè)信息結構、行業(yè)信息存儲結構和用戶(hù)系統界面五個(gè)層面建立了與行業(yè)應用信息搜索相關(guān)的完整描述和管理。該系統解決了在一個(gè)模型中同時(shí)覆蓋不同行業(yè)應用、不同網(wǎng)頁(yè)、不同行業(yè)信息結構和存儲結構的問(wèn)題,具有全行業(yè)能力。這項專(zhuān)利技術(shù)將使垂直搜索能夠完成對不同行業(yè)、不同結構的互聯(lián)網(wǎng)信息的識別、抓取、組織、存儲和傳輸,從而具備通用垂直搜索引擎的多行業(yè)應用能力。 四. 附圖說(shuō)明圖1為專(zhuān)利技術(shù)示意圖。其中1=垂直搜索核心組件Spider2=行業(yè)應用模型21=互聯(lián)網(wǎng)網(wǎng)頁(yè)庫211=網(wǎng)頁(yè)存儲分類(lèi)索引管理組件212=GoogleAPI22=網(wǎng)頁(yè)結構信息模型庫221=網(wǎng)頁(yè)結構信息模型管理組件23=行業(yè)信息結構模型庫 231 = 行業(yè)信息結構模型管理組件 24 = 行業(yè)信息采集模型庫 241 = 行業(yè)信息采集模型管理組件 25 = 行業(yè)信息存儲模型庫 251 = 行業(yè)信息存儲模型管理組件 26 = 用戶(hù)系統界面模型庫 261 =用戶(hù)系統界面模型管理組件圖2是專(zhuān)利技術(shù)行業(yè)應用模型中網(wǎng)頁(yè)結構信息模型庫的結構示例。
  圖3是專(zhuān)利技術(shù)行業(yè)應用模型中行業(yè)信息結構模型庫的結構示例。圖4是專(zhuān)利技術(shù)行業(yè)應用模型中行業(yè)信息存儲結構模型庫的結構示例。 五.具體實(shí)施方式實(shí)例1如圖1所示。 2、本實(shí)施例舉例說(shuō)明了專(zhuān)利技術(shù)的行業(yè)應用模型中網(wǎng)頁(yè)結構信息模型庫的結構示例。示例二參見(jiàn)圖3。本實(shí)施例舉例說(shuō)明了專(zhuān)利技術(shù)的行業(yè)應用模型中的行業(yè)信息結構模型庫的結構示例。實(shí)施例3參見(jiàn)圖4。本實(shí)施例舉例說(shuō)明了專(zhuān)利技術(shù)的行業(yè)應用模型中的行業(yè)信息存儲結構模型庫的結構示例。權利要求1.,其特征在于垂直搜索核心模塊Spider(I)接入行業(yè)應用模型(2)),實(shí)現不同行業(yè)信息的識別、抓取、組織、存儲和傳輸,行業(yè)應用模型( 2)由互聯(lián)網(wǎng)網(wǎng)頁(yè)庫(21)和網(wǎng)頁(yè)存儲分類(lèi)索引管理組件(211),網(wǎng)頁(yè)結構信息模型庫(22))和網(wǎng)頁(yè)結構信息模型管理組件(22@) k45@,行業(yè)信息結構模型庫(23)和行業(yè)信息結構模型管理組件(231),行業(yè)信息存儲模型庫(24)和行業(yè)信息存儲模型管理組(241),和用戶(hù)系統界面模型庫(2@k53)@和用戶(hù)系統界面模型管理組件(251);互聯(lián)網(wǎng)網(wǎng)頁(yè)庫(21))和web存儲分類(lèi)索引管理組件(211)承擔)一世htemet web library(21)存儲、分類(lèi)和索引)管理任務(wù),包括web存儲分類(lèi)索引管理
  【技術(shù)保護點(diǎn)】
  通用垂直搜索引擎行業(yè)應用模型建模方法的特點(diǎn)是垂直搜索核心模塊Spider(1)Access行業(yè)應用模型(2))實(shí)現識別、捕獲、組織、存儲和傳輸應用、行業(yè)應用模型(2)來(lái)自互聯(lián)網(wǎng)網(wǎng)頁(yè)庫(21))和網(wǎng)頁(yè)存儲分類(lèi)索引管理組件(211)、網(wǎng)頁(yè)結構信息模型庫(22)和網(wǎng)頁(yè)結構信息模型管理組件) (221),行業(yè)信息結構模型庫(23)和行業(yè)信息結構模型管理組件(231),行業(yè)信息存儲模型庫(24)和行業(yè)信息存儲模型管理組(24@k21) @)) ,以及用戶(hù)系統界面模型庫(25)和用戶(hù)系統界面模型管理組件(251));其中:Internet web庫(21)和web存儲分類(lèi)索引man agement組件(211))網(wǎng)頁(yè)庫(21)存儲分類(lèi)索引管理任務(wù),包括網(wǎng)頁(yè)存儲分類(lèi)索引管理組件(211)調用GoogleAPI(212))實(shí)現行業(yè)應用web頁(yè)面網(wǎng)址集合搜索;網(wǎng)頁(yè)結構信息模型庫(22)和網(wǎng)頁(yè)結構信息模型管理組件(221)承擔頁(yè)面之間關(guān)系的分析、描述、頁(yè)面訪(fǎng)問(wèn)控制、頁(yè)面轉換鏈接控制、描述和管理任務(wù))和行業(yè)應用;行業(yè)信息結構模型庫(221)23)和行業(yè)信息結構模型管理組件(231),負責不同結構形式和頁(yè)面的描述、提取、生成和管理任務(wù))各種行業(yè)信息在各種網(wǎng)頁(yè)中的位置;行業(yè)信息存儲模型庫(24)和行業(yè)信息存儲模型管理組件(241),負責捕獲各種信息后系統中存儲結構的存儲形式和描述)來(lái)自各種網(wǎng)頁(yè)的行業(yè)信息,以及存儲結構Task的動(dòng)態(tài)生成和管理;用戶(hù)系統int erface模型庫(25)和用戶(hù)系統接口模型管理組件(251),負責信息存儲形式與存儲結構、信息傳輸接口、軟件之間的轉換關(guān)系),每個(gè)用戶(hù)特定的系統描述,接口關(guān)系表、接口定義和調用的生成和管理任務(wù)。
  [技術(shù)特點(diǎn)總結]
  [專(zhuān)利技術(shù)屬性]
  技術(shù)研發(fā)人員:劉學(xué)明、錢(qián)宇、張康、
  申請人(專(zhuān)利權):,
  類(lèi)型:發(fā)明
  國家、省市:32個(gè)
  下載所有詳細技術(shù)資料我是此專(zhuān)利的所有者

網(wǎng)站參觀(guān)者的指標數據(UV、IP)背后都是互聯(lián)網(wǎng)使用者

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 96 次瀏覽 ? 2021-07-06 23:22 ? 來(lái)自相關(guān)話(huà)題

  
網(wǎng)站參觀(guān)者的指標數據(UV、IP)背后都是互聯(lián)網(wǎng)使用者
  
  我推薦一個(gè)例子。 “groceries網(wǎng)站”這個(gè)詞經(jīng)常出現在我的一篇博客中。當然,這只是推薦的一個(gè)例子。
  Overture 使要價(jià)半透明,在競爭激烈的關(guān)鍵詞 中,它將確保您的頁(yè)面成本接近您的最低要價(jià)。
  搜索引擎會(huì )不斷調整其算法。因此,成功的 SEO 專(zhuān)家必須不斷研究搜索引擎的不道德行為并自學(xué)其工作原理。
  如果你已經(jīng)為網(wǎng)站積極制定了搜索引擎策略,并投入了適當的人力、物力和財力,此時(shí)你必須忘記:代價(jià)是堅決。
  網(wǎng)站visitor網(wǎng)站visitor:網(wǎng)站visitor的指標數據(UV、IP)都是具有不同分析屬性(新/現有訪(fǎng)問(wèn)者)、地區)和人口統計屬性(性別、年齡、教育等);目的不同,來(lái)源不同,采訪(fǎng)軌跡也不同,在第2章SEO基礎教程|50谷歌優(yōu)化搜索引擎搜索鏈接百度搜索引擎分析應該對符合市場(chǎng)定位的訪(fǎng)問(wèn)者進(jìn)行細分,并做有針對性的比較學(xué)習。
  然而,事實(shí)上,許多消費者甚至商業(yè)搜索者都將搜索中的高排名視為表示接受。
  更何況普通百度員工也不敢問(wèn)這個(gè)事情。
  在打開(kāi)寬泛的給定部分之前,您要求檢查同義詞等的搜索結果是否浪費。
  查找僅限訂閱者或已被刪除的內容。您可以在 SERP 列表中查看限制訂閱者或已從內存鏈接中刪除的內容或使用 cache: 運算符。
  例如,訪(fǎng)問(wèn)者通過(guò)搜索引擎轉至電子商務(wù)網(wǎng)站。指定了一個(gè)流暢的頁(yè)面,一個(gè)商品庫頁(yè)面,一個(gè)購物車(chē)頁(yè)面,一個(gè)收費的流暢頁(yè)面,整個(gè)銷(xiāo)售結束,離開(kāi)網(wǎng)站,只為最后一個(gè)支付流暢頁(yè)面,這是一個(gè)解散,但它是未因本次訪(fǎng)問(wèn)的其他頁(yè)面解散。
  如果您不建立銷(xiāo)售開(kāi)關(guān),那么流量就沒(méi)有任何意義。
  網(wǎng)站競價(jià)對數搜索引擎關(guān)鍵詞優(yōu)化排名公司網(wǎng)站根據內容介紹和展示烏龜,更新快。它還有一個(gè)站點(diǎn)跟蹤程序。
  如果您的網(wǎng)站在 30 天內沒(méi)有被收錄于,您可以在幾個(gè)月后通知您的網(wǎng)站。
  最重要的是,對于我們通過(guò)這種方式發(fā)送給我們的數據,Alexa與我們無(wú)關(guān),程序無(wú)法將我們與正常訪(fǎng)問(wèn)的數據區分開(kāi)來(lái)。作弊示例1:·另外:Alexa被列入一兩年前,現在,已經(jīng)列出了許多副站長(cháng)的執著(zhù)目標之一。很多論壇的副站長(cháng)為了提高網(wǎng)站排名,拒絕版主安裝Alexa工具欄。
  這項研究揭示了將自然搜索重新添加到現有付費搜索活動(dòng)的效果,并將這樣做的效果與單獨的付費搜索活動(dòng)進(jìn)行比較。
  其他網(wǎng)站 內容的一些不道德副本。
  搜索引擎還可以檢查登錄用戶(hù)的搜索歷史。
  3612、 與地理位置相關(guān)的詞匯 如果您的產(chǎn)品或服務(wù)針對特定區域的搜索引擎優(yōu)化操作。頁(yè)面域用戶(hù)的操作步驟是什么,可以在關(guān)鍵詞前加上地區名稱(chēng),如省或城市名稱(chēng)等
  什么是seo搜索引擎優(yōu)化(SearchEngineOptimization,全稱(chēng)SEO)是一種利用搜索引擎的搜索規則來(lái)提高網(wǎng)站在相關(guān)搜索引擎中的目的的方式。
  圖 1-13 總結了結果的改進(jìn)。
  網(wǎng)站Interviewer Times Ranking (Reachrank):根據采訪(fǎng)次數排名。
  以下是一些基本運算符。
  一些罕見(jiàn)的代碼用斜體表示。
  2.降低信息檢索難度雅虎的數據庫分為14個(gè)類(lèi)別(每個(gè)類(lèi)別還包括平均數量的小類(lèi)別),其分類(lèi)系統非常詳細,所以最好進(jìn)行明確的主題搜索起點(diǎn),特別是對于那些新用戶(hù)和對市場(chǎng)需求知之甚少的用戶(hù),比起結構化的搜索風(fēng)格,自由選擇要按主題逐級編入索引的網(wǎng)頁(yè)要自然得多。
  Invisable/hiddentext 隱藏搜索引擎和搜索引擎隱藏文本內容的優(yōu)化旨在通過(guò)收錄大量關(guān)鍵詞的網(wǎng)頁(yè)增加關(guān)鍵詞相關(guān)性分數而不影響網(wǎng)站美的目標。
  9 變化:互聯(lián)網(wǎng)是一種非常脆弱的媒介。
  雅虎!編輯程序可能會(huì )將您網(wǎng)站的新原創(chuàng )頁(yè)面從其搜索索引中刪除。
  自由選擇系統部署網(wǎng)站 這個(gè)鏈接是網(wǎng)站數據分析實(shí)踐的開(kāi)始。它是采集和獲取數據的過(guò)程。您必須自由選擇合適的網(wǎng)站分析系統,以滿(mǎn)足分析計劃的市場(chǎng)需求。從滿(mǎn)足網(wǎng)站分析基礎市場(chǎng)的需求來(lái)看,以下幾點(diǎn)可供大家參考: 第二章SEO基礎教程|48 部署非常簡(jiǎn)單。盡量自由選擇方便的網(wǎng)站分析系統,尤其是中小網(wǎng)站技術(shù),在人不多的情況下,標準化代碼最壞的情況和全站安裝代碼一樣,沒(méi)有必要調整轉成追蹤等功能的代碼,也有利于提高之前簡(jiǎn)單的網(wǎng)站分析的可擴展性。
  網(wǎng)站 與清醫院相關(guān)的請求提交到“區域”類(lèi)別下的相關(guān)類(lèi)別。
  2、在 JAVA 腳本中重用擴展名為 .js 的文件。
  搜索算法指出的關(guān)鍵字搜索最多的頁(yè)面將按順序排列。
  那么,網(wǎng)站移動(dòng)搜索引擎的構建主要分為三個(gè)部分:如何在百度上更好地搜索收錄于網(wǎng)站中的內容,以及如何在移動(dòng)搜索列表中獲得更好的名稱(chēng),如何讓用戶(hù)從海量的搜索結果中快速找到并分頁(yè)你的網(wǎng)站。
  快速“xyz技巧”排名第一,他從這個(gè)相似的關(guān)鍵字中獲得了一些不錯的流量。
  當您輸入錯誤的鏈接組鏈接時(shí),您可能會(huì )鏈接到它們而不是作弊。
  但是如果使用網(wǎng)站background日志來(lái)分析,因為內存頁(yè)可能需要在沒(méi)有服務(wù)器催促的情況下進(jìn)行指示,所以會(huì )被記錄為PV。
  以動(dòng)詞開(kāi)頭:如果您以強有力且主動(dòng)的動(dòng)詞開(kāi)頭,則可以顯著(zhù)降低頁(yè)面訪(fǎng)問(wèn)率。
  如果您的網(wǎng)站已經(jīng)創(chuàng )建,更改文件名只是一個(gè)小因素,但如果您正在構建一個(gè)新網(wǎng)站,只需一點(diǎn)時(shí)間將關(guān)鍵字重新添加到文件名中即可。
  這些廣告將訪(fǎng)問(wèn)者引導至您的營(yíng)業(yè)地點(diǎn)。
  2.4.1 負面列表因素 SEOmoz 的調查也證實(shí)了一些負面列表因素。
  第四章移動(dòng)搜索|104 第四部分:更好的排名如何在百度移動(dòng)搜索中獲得更好的排名與PC端的市場(chǎng)需求相同。 收錄于問(wèn)題解問(wèn)題是排名問(wèn)題。 查看全部

  
網(wǎng)站參觀(guān)者的指標數據(UV、IP)背后都是互聯(lián)網(wǎng)使用者
  
  我推薦一個(gè)例子。 “groceries網(wǎng)站”這個(gè)詞經(jīng)常出現在我的一篇博客中。當然,這只是推薦的一個(gè)例子。
  Overture 使要價(jià)半透明,在競爭激烈的關(guān)鍵詞 中,它將確保您的頁(yè)面成本接近您的最低要價(jià)。
  搜索引擎會(huì )不斷調整其算法。因此,成功的 SEO 專(zhuān)家必須不斷研究搜索引擎的不道德行為并自學(xué)其工作原理。
  如果你已經(jīng)為網(wǎng)站積極制定了搜索引擎策略,并投入了適當的人力、物力和財力,此時(shí)你必須忘記:代價(jià)是堅決。
  網(wǎng)站visitor網(wǎng)站visitor:網(wǎng)站visitor的指標數據(UV、IP)都是具有不同分析屬性(新/現有訪(fǎng)問(wèn)者)、地區)和人口統計屬性(性別、年齡、教育等);目的不同,來(lái)源不同,采訪(fǎng)軌跡也不同,在第2章SEO基礎教程|50谷歌優(yōu)化搜索引擎搜索鏈接百度搜索引擎分析應該對符合市場(chǎng)定位的訪(fǎng)問(wèn)者進(jìn)行細分,并做有針對性的比較學(xué)習。
  然而,事實(shí)上,許多消費者甚至商業(yè)搜索者都將搜索中的高排名視為表示接受。
  更何況普通百度員工也不敢問(wèn)這個(gè)事情。
  在打開(kāi)寬泛的給定部分之前,您要求檢查同義詞等的搜索結果是否浪費。
  查找僅限訂閱者或已被刪除的內容。您可以在 SERP 列表中查看限制訂閱者或已從內存鏈接中刪除的內容或使用 cache: 運算符。
  例如,訪(fǎng)問(wèn)者通過(guò)搜索引擎轉至電子商務(wù)網(wǎng)站。指定了一個(gè)流暢的頁(yè)面,一個(gè)商品庫頁(yè)面,一個(gè)購物車(chē)頁(yè)面,一個(gè)收費的流暢頁(yè)面,整個(gè)銷(xiāo)售結束,離開(kāi)網(wǎng)站,只為最后一個(gè)支付流暢頁(yè)面,這是一個(gè)解散,但它是未因本次訪(fǎng)問(wèn)的其他頁(yè)面解散。
  如果您不建立銷(xiāo)售開(kāi)關(guān),那么流量就沒(méi)有任何意義。
  網(wǎng)站競價(jià)對數搜索引擎關(guān)鍵詞優(yōu)化排名公司網(wǎng)站根據內容介紹和展示烏龜,更新快。它還有一個(gè)站點(diǎn)跟蹤程序。
  如果您的網(wǎng)站在 30 天內沒(méi)有被收錄于,您可以在幾個(gè)月后通知您的網(wǎng)站。
  最重要的是,對于我們通過(guò)這種方式發(fā)送給我們的數據,Alexa與我們無(wú)關(guān),程序無(wú)法將我們與正常訪(fǎng)問(wèn)的數據區分開(kāi)來(lái)。作弊示例1:·另外:Alexa被列入一兩年前,現在,已經(jīng)列出了許多副站長(cháng)的執著(zhù)目標之一。很多論壇的副站長(cháng)為了提高網(wǎng)站排名,拒絕版主安裝Alexa工具欄。
  這項研究揭示了將自然搜索重新添加到現有付費搜索活動(dòng)的效果,并將這樣做的效果與單獨的付費搜索活動(dòng)進(jìn)行比較。
  其他網(wǎng)站 內容的一些不道德副本。
  搜索引擎還可以檢查登錄用戶(hù)的搜索歷史。
  3612、 與地理位置相關(guān)的詞匯 如果您的產(chǎn)品或服務(wù)針對特定區域的搜索引擎優(yōu)化操作。頁(yè)面域用戶(hù)的操作步驟是什么,可以在關(guān)鍵詞前加上地區名稱(chēng),如省或城市名稱(chēng)等
  什么是seo搜索引擎優(yōu)化(SearchEngineOptimization,全稱(chēng)SEO)是一種利用搜索引擎的搜索規則來(lái)提高網(wǎng)站在相關(guān)搜索引擎中的目的的方式。
  圖 1-13 總結了結果的改進(jìn)。
  網(wǎng)站Interviewer Times Ranking (Reachrank):根據采訪(fǎng)次數排名。
  以下是一些基本運算符。
  一些罕見(jiàn)的代碼用斜體表示。
  2.降低信息檢索難度雅虎的數據庫分為14個(gè)類(lèi)別(每個(gè)類(lèi)別還包括平均數量的小類(lèi)別),其分類(lèi)系統非常詳細,所以最好進(jìn)行明確的主題搜索起點(diǎn),特別是對于那些新用戶(hù)和對市場(chǎng)需求知之甚少的用戶(hù),比起結構化的搜索風(fēng)格,自由選擇要按主題逐級編入索引的網(wǎng)頁(yè)要自然得多。
  Invisable/hiddentext 隱藏搜索引擎和搜索引擎隱藏文本內容的優(yōu)化旨在通過(guò)收錄大量關(guān)鍵詞的網(wǎng)頁(yè)增加關(guān)鍵詞相關(guān)性分數而不影響網(wǎng)站美的目標。
  9 變化:互聯(lián)網(wǎng)是一種非常脆弱的媒介。
  雅虎!編輯程序可能會(huì )將您網(wǎng)站的新原創(chuàng )頁(yè)面從其搜索索引中刪除。
  自由選擇系統部署網(wǎng)站 這個(gè)鏈接是網(wǎng)站數據分析實(shí)踐的開(kāi)始。它是采集和獲取數據的過(guò)程。您必須自由選擇合適的網(wǎng)站分析系統,以滿(mǎn)足分析計劃的市場(chǎng)需求。從滿(mǎn)足網(wǎng)站分析基礎市場(chǎng)的需求來(lái)看,以下幾點(diǎn)可供大家參考: 第二章SEO基礎教程|48 部署非常簡(jiǎn)單。盡量自由選擇方便的網(wǎng)站分析系統,尤其是中小網(wǎng)站技術(shù),在人不多的情況下,標準化代碼最壞的情況和全站安裝代碼一樣,沒(méi)有必要調整轉成追蹤等功能的代碼,也有利于提高之前簡(jiǎn)單的網(wǎng)站分析的可擴展性。
  網(wǎng)站 與清醫院相關(guān)的請求提交到“區域”類(lèi)別下的相關(guān)類(lèi)別。
  2、在 JAVA 腳本中重用擴展名為 .js 的文件。
  搜索算法指出的關(guān)鍵字搜索最多的頁(yè)面將按順序排列。
  那么,網(wǎng)站移動(dòng)搜索引擎的構建主要分為三個(gè)部分:如何在百度上更好地搜索收錄于網(wǎng)站中的內容,以及如何在移動(dòng)搜索列表中獲得更好的名稱(chēng),如何讓用戶(hù)從海量的搜索結果中快速找到并分頁(yè)你的網(wǎng)站。
  快速“xyz技巧”排名第一,他從這個(gè)相似的關(guān)鍵字中獲得了一些不錯的流量。
  當您輸入錯誤的鏈接組鏈接時(shí),您可能會(huì )鏈接到它們而不是作弊。
  但是如果使用網(wǎng)站background日志來(lái)分析,因為內存頁(yè)可能需要在沒(méi)有服務(wù)器催促的情況下進(jìn)行指示,所以會(huì )被記錄為PV。
  以動(dòng)詞開(kāi)頭:如果您以強有力且主動(dòng)的動(dòng)詞開(kāi)頭,則可以顯著(zhù)降低頁(yè)面訪(fǎng)問(wèn)率。
  如果您的網(wǎng)站已經(jīng)創(chuàng )建,更改文件名只是一個(gè)小因素,但如果您正在構建一個(gè)新網(wǎng)站,只需一點(diǎn)時(shí)間將關(guān)鍵字重新添加到文件名中即可。
  這些廣告將訪(fǎng)問(wèn)者引導至您的營(yíng)業(yè)地點(diǎn)。
  2.4.1 負面列表因素 SEOmoz 的調查也證實(shí)了一些負面列表因素。
  第四章移動(dòng)搜索|104 第四部分:更好的排名如何在百度移動(dòng)搜索中獲得更好的排名與PC端的市場(chǎng)需求相同。 收錄于問(wèn)題解問(wèn)題是排名問(wèn)題。

如何使用戶(hù)關(guān)注的網(wǎng)頁(yè)排列在搜索引擎的排序技術(shù)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 99 次瀏覽 ? 2021-07-06 01:08 ? 來(lái)自相關(guān)話(huà)題

  如何使用戶(hù)關(guān)注的網(wǎng)頁(yè)排列在搜索引擎的排序技術(shù)
  搜索引擎的排序技術(shù)
  摘要:本文簡(jiǎn)要介紹和比較了搜索引擎目前使用的排序算法,包括詞頻位置加權排序算法、鏈接分析排序算法,并著(zhù)重介紹了PageRank算法和HITS算法的思想及其比較優(yōu)勢和劣勢。
  關(guān)鍵詞:搜索引擎;排行;網(wǎng)頁(yè)排名;命中
  1 前言
  谷歌和百度的崛起很大程度上是由于它們使用了比以前的搜索引擎更好的排序技術(shù)。由于人們通常只關(guān)注搜索結果的前 10 或 20 項,因此將與用戶(hù)查詢(xún)結果最相關(guān)的信息排在結果的前排尤為重要。例如,.jp、.de 和.edu 域名下的網(wǎng)頁(yè)通常比.com 和.net 域名下的網(wǎng)頁(yè)更有用[1]。如何讓用戶(hù)關(guān)注的網(wǎng)頁(yè)在搜索結果中排名靠前,讓各家搜索引擎公司不斷完善優(yōu)化方向。筆者將通過(guò)閱讀論文和網(wǎng)絡(luò )資料總結介紹幾種主要的排序算法:詞頻位置加權排序算法、鏈接分析排序算法。
  2 詞頻位置加權排序算法
  這類(lèi)技術(shù)是在傳統信息檢索技術(shù)的基礎上發(fā)展起來(lái)的,即用戶(hù)在網(wǎng)頁(yè)中輸入的搜索詞的頻率越高,搜索詞的位置越重要,則該網(wǎng)頁(yè)被認為與本次搜索相關(guān)。一個(gè)詞的相關(guān)性越高,它在搜索結果中出現的位置就越高。 InfoSeek、Excite、Lycos等早期搜索引擎都采用了這種排序方式。
  2.1 詞頻加權
  詞頻加權是以用戶(hù)提供的搜索詞在網(wǎng)頁(yè)中出現的次數作為確定網(wǎng)頁(yè)相關(guān)性權重的依據。詞頻加權方法包括絕對詞頻加權、相對詞頻加權、逆詞頻加權、基于詞判別值的加權等。對于單詞搜索引擎,可以通過(guò)簡(jiǎn)單地計算一個(gè)詞在網(wǎng)頁(yè)中出現的頻率來(lái)給出??權重。對于具有邏輯組裝功能的搜索引擎,必須使用其他加權方法。因為在使用組合搜索查詢(xún)時(shí),搜索結果與搜索查詢(xún)中的每個(gè)搜索詞相關(guān),并且每個(gè)搜索詞在所有網(wǎng)頁(yè)中的總頻率是不同的。如果按總重量排序, 會(huì )造成結果無(wú)關(guān)緊要。這可以通過(guò)多種其他方式解決。例如,利用相對詞頻加權的原理,可以統計大量網(wǎng)頁(yè),為所有網(wǎng)頁(yè)中出現頻率較高的詞分配一個(gè)較低的初始值。相對而言,所有網(wǎng)頁(yè)中出現頻率較低的詞被賦予較低的初始值。更高的權重 [2]。
  2.2 詞位權重
  通過(guò)為網(wǎng)頁(yè)中不同位置和布局的詞分配不同的權重,可以根據權重確定搜索結果和搜索詞的相關(guān)程度。字的位置包括頁(yè)面標題元素、頁(yè)面描述關(guān)鍵字元素、正文標題、正文內容、正文鏈接、logo等。布局包括字體、字號、是否加粗或者強調等。比如理解排序技術(shù),搜索“排序技術(shù)”時(shí),有兩個(gè)結果,一個(gè)標題是“搜索引擎的排序技術(shù)”,另一個(gè)文章的標題是“Web Information Retrieval”,但內容有部分 說(shuō)到搜索引擎的排名技術(shù),顯然第一個(gè)結果更相關(guān)。 “排名技術(shù)”這個(gè)詞應該在第一個(gè)結果中給予更大的權重。
  2.3 此類(lèi)算法的優(yōu)缺點(diǎn)
  這種方法的主要優(yōu)點(diǎn)是使用方便,易于實(shí)現,最成熟的發(fā)展基本上是目前所有搜索引擎排名核心技術(shù)的基礎。但是,由于現網(wǎng)內容的質(zhì)量無(wú)法保證,為了使網(wǎng)頁(yè)在搜索引擎中排名靠前,在網(wǎng)頁(yè)中添加了相同背景色的圖層,并填寫(xiě)了大量的熱門(mén)關(guān)鍵詞,當人們來(lái)瀏覽網(wǎng)頁(yè)時(shí)完全被查看。不,但搜索引擎可以在索引時(shí)找到它。這個(gè)問(wèn)題在一定程度上得到了改善,但并沒(méi)有完全根除。
  3 鏈接分析排名
  鏈接分析排序算法的思想其實(shí)來(lái)源于紙質(zhì)文獻索引機制,即一篇論文或文獻被引用次數越多,其學(xué)術(shù)價(jià)值就越高。同一個(gè)網(wǎng)頁(yè)類(lèi)比,如果一個(gè)網(wǎng)頁(yè)的鏈接越多,該網(wǎng)頁(yè)的重要性就越高。鏈路分析算法主要分為隨機漫游模型,如PageRank算法;基于Hub和Authority的相互強化模型,如HITS及其變體;基于概率模型,如 SALSA;基于貝葉斯模型,如貝葉斯算法及其簡(jiǎn)化版本。下面將分別介紹這些算法。
  3.1 PageRank 算法
  Google 搜索引擎有兩個(gè)重要功能,可以讓您獲得高度準確的結果。首先,它利用網(wǎng)絡(luò )的鏈接特征來(lái)計算網(wǎng)頁(yè)的質(zhì)量排名,即PageRank;其次,它使用鏈接來(lái)改善搜索結果 [3]。
  簡(jiǎn)單的PageRank原理即如圖1所示的那樣,從網(wǎng)頁(yè)A導向網(wǎng)頁(yè)B的鏈接被看作是對頁(yè)面A對頁(yè)面B的支持投票,Google根據這個(gè)投票數來(lái)判斷頁(yè)面的重要性??墒?Google 不單單只看投票數(即鏈接數),對投票的頁(yè)面也進(jìn)行分析。重要性高的頁(yè)面所投的票的評價(jià)會(huì )更高。
  原創(chuàng )PageRank算法:PR(A) = (1-d) + d (PR(T1)/C(T1) +… + PR(Tn)/C(Tn)))<//p
p其中: PR(A):網(wǎng)頁(yè)A的PageRank值; PR(Ti):鏈接到頁(yè)面A的網(wǎng)頁(yè)Ti的PageRank值; C(Ti):網(wǎng)頁(yè)Ti的出站鏈接數; d:阻尼系數,0/p
p在算法的第二個(gè)版本中:PR(A) = (1-d) / N + d (PR(T1)/C(T1) +... + PR(Tn)/C(Tn) ))/p
p這里 N 是 Internet 頁(yè)面的總數。該算法2與算法1并沒(méi)有完全不同。在隨機沖浪模型中,算法2中頁(yè)面的PageRank值是點(diǎn)擊多個(gè)鏈接后到達該頁(yè)面的實(shí)際概率。因此,互聯(lián)網(wǎng)上所有網(wǎng)頁(yè)的PageRank值形成一個(gè)概率分布,所有RageRank值之和為1。/p
p因為 PR(A) 取決于鏈接到網(wǎng)頁(yè) A 的其他網(wǎng)頁(yè)的 PageRank 值,而其他網(wǎng)頁(yè)的 PR 值也取決于指向該網(wǎng)頁(yè)的網(wǎng)頁(yè)的 PR 值,所以這是一個(gè)遞歸過(guò)程。似乎需要無(wú)窮無(wú)盡的計算才能獲得網(wǎng)頁(yè)的PR值。根據參考文獻5中的實(shí)驗,遞歸計算了網(wǎng)絡(luò )中3.220億個(gè)鏈接,發(fā)現經(jīng)過(guò)52次計算可以得到收斂。穩定的 PageRank 值,在計算一半鏈接的 PageRank 值時(shí),進(jìn)行了 45 次計算。通過(guò)實(shí)驗發(fā)現,遞歸計算次數和鏈接數呈對數比例增加,即要計算N個(gè)鏈接的PageRank值時(shí),只需進(jìn)行logN次遞歸計算即可得到穩定的PageRank值[5] ./p
p3.2 Hits 算法/p
p在PageRank算法中,鏈接被平等對待,每個(gè)鏈接貢獻相同的權重。在現實(shí)生活中,有些鏈接指向廣告,而有些鏈接指向權威網(wǎng)頁(yè)??梢钥闯?,均勻分布的權重不符合實(shí)際情況。所以康奈爾大學(xué)的Jon Kleinberg博士在1998年首先提出了Hits算法。/p
pHITS算法對網(wǎng)頁(yè)質(zhì)量的評價(jià)結果??體現在它賦予每個(gè)網(wǎng)頁(yè)的兩個(gè)評價(jià)值上:內容權限(Authority)和鏈接權限(Hub)。/p
p內容權限與網(wǎng)頁(yè)本身直接提供的內容信息的質(zhì)量有關(guān)。引用的網(wǎng)頁(yè)越多,內容權限越高;相應地,鏈接權限與網(wǎng)頁(yè)提供的超鏈接的質(zhì)量有關(guān)。相關(guān)的。引用高質(zhì)量?jì)热莸捻?yè)面越多,鏈接的權威性就越高。根據關(guān)鍵字匹配將查詢(xún)提交給傳統搜索引擎。搜索引擎返回的網(wǎng)頁(yè)很多,前n個(gè)網(wǎng)頁(yè)作為根集。包括根集合中頁(yè)面所指向的所有頁(yè)面,再包括根集合中指向頁(yè)面的頁(yè)面,從而擴展了基本集合。 HITS算法輸出一組具有較大Hub值的網(wǎng)頁(yè)和具有較大權限值的網(wǎng)頁(yè)[6]。/p
p與PageRank等實(shí)用算法不同,HITS算法更多的是一種實(shí)驗性的嘗試。從表面上看,HITS算法需要排序的頁(yè)面數量很少,但由于需要根據內容分析從搜索引擎中提取根集并擴展基本集,這個(gè)過(guò)程需要相當長(cháng)的時(shí)間,而PageRank算法表面上看,處理的數據量遠遠超過(guò)HITS算法,但是因為在用戶(hù)查詢(xún)的時(shí)候計算量已經(jīng)由服務(wù)器獨立完成,所以用戶(hù)無(wú)需等待。為此,從用戶(hù)的等待時(shí)間來(lái)看,PageRank算法應該優(yōu)于HITS算法。簡(jiǎn)短[7]。/p
p3.3 其他鏈接分析和排序算法/p
pPageRank 算法基于用戶(hù)對網(wǎng)頁(yè)隨機前向瀏覽的直覺(jué),HITS 算法考慮了Authorative 網(wǎng)頁(yè)和Hub 網(wǎng)頁(yè)之間的增強關(guān)系。在實(shí)際應用中,用戶(hù)大部分時(shí)間是向前瀏覽網(wǎng)頁(yè),但在很多情況下,他們會(huì )返回瀏覽網(wǎng)頁(yè)?;谏鲜鲋庇^(guān)認識,R. Lempel 和 S. Moran 提出了 SALSA(Stochastic Approach for Link-Structure Analysis)算法,該算法考慮了用戶(hù)返回瀏覽網(wǎng)頁(yè)的情況,并保留了隨機漫游PageRank 和 HITS 中網(wǎng)頁(yè)的 Authoritive 分類(lèi)與 Hub 的想法取消了 Authoritive 和 Hub 之間的相互加強關(guān)系[8]。/p
p艾倫鮑羅丁等。提出了一種完整的貝葉斯統計方法來(lái)確定 Hub 和 Authoritive 網(wǎng)頁(yè)。假設有M個(gè)Hub網(wǎng)頁(yè)和N個(gè)Authority網(wǎng)頁(yè),可以是同一個(gè)集合。每個(gè)Hub網(wǎng)頁(yè)都有一個(gè)未知實(shí)數參數,表示有超鏈接的總體趨勢,還有一個(gè)未知的非負參數,表示有鏈接到Authority網(wǎng)頁(yè)的趨勢。每個(gè)權威網(wǎng)頁(yè) j 都有一個(gè)未知的非負參數,代表 j 的權限級別。統計模型如下。 Hub 網(wǎng)頁(yè) i 鏈接到權威網(wǎng)頁(yè) j 的先驗概率為:P(i,j)=Exp(+)/(1+Exp(+))。當 Hub 網(wǎng)頁(yè) i 和權威網(wǎng)頁(yè) j 之間沒(méi)有鏈接時(shí),P(i,j)=1/(1+Exp(+))。從上面的公式可以看出,如果非常大(說(shuō)明Hub網(wǎng)頁(yè)i有很高的指向任何網(wǎng)頁(yè)的傾向),或者總和很大(說(shuō)明i是一個(gè)高質(zhì)量的Hub,j是一個(gè)高質(zhì)量的Authority網(wǎng)頁(yè)),那么i ->j的鏈接概率比較大[9]。
  4 其他排序技術(shù)
  除了以上兩類(lèi)排序算法,還有其他排序方式,比如:競價(jià)排名(競價(jià)排名是百度等一些搜索引擎公司推出的一種以?xún)r(jià)格確定排名的在線(xiàn)推廣方式。但是,投標人信息的真實(shí)性需要嚴格篩選,否則用戶(hù)對搜索引擎的信任將被灰色行業(yè)所利用[10])。通過(guò)用戶(hù)反饋提高排序的準確性,通過(guò)理解增加排序的相關(guān)性,通過(guò)智能過(guò)濾減少減少。排序結果的重復性等
  5 結束語(yǔ)
  綜上所述,在目前谷歌等搜索引擎中,排序方式非常復雜,需要綜合考慮多種因素,而不是單一的上述算法。我個(gè)人認為未來(lái)搜索引擎會(huì )變得更加人性化,搜索結果會(huì )根據用戶(hù)喜好進(jìn)行排序和過(guò)濾。此外,特定領(lǐng)域的專(zhuān)業(yè)搜索引擎將逐步發(fā)展,例如金融和體育的專(zhuān)業(yè)搜索。引擎。相信未來(lái)瀏覽器功能越來(lái)越強大,搜索引擎的影響力會(huì )越來(lái)越大。
  參考文獻:
  [1] Dennis Fetterly、Mark Manasse、Marc Najork、Janet Wiener:網(wǎng)頁(yè)演變的大規模研究,In:Proc.of the 12th Int'l World Wide Web Conf.New York:ACM Press ,2003.669-678...
  [2] 楊思洛.搜索引擎排序技術(shù)研究[J].現代圖書(shū)館與信息技術(shù),2005,(01).
  [3] S.Brin 和 L.Page,“大型超文本 Web 搜索引擎的剖析”,發(fā)表在第七屆國際萬(wàn)維網(wǎng)會(huì )議論文集(WWW7)/Computer Networks,阿姆斯特丹, 1998
  [4] Page L, Brin S, etc. PageRank 引文排名:為網(wǎng)絡(luò )帶來(lái)秩序[J].斯坦福數字圖書(shū)館工作論文,1998,(6):102-107.
  [5] T. 有 liwala。 PageRank 的高效計算。 1999-31技術(shù)報告,1999.
  [6]
  [7] 何曉陽(yáng),吳強,吳志榮:HITS算法與PageRank算法對比分析。信息學(xué)報,2004 年第 2 期
  [8]
  [9] 朱偉、王超、李軍等. Web 超鏈分析算法研究。計算機科學(xué), 2003, 30(1)
  [10]常路,夏祖奇;幾種常用的搜索引擎排序算法。圖書(shū)情報工作,2003 年第 6 期
  ———————————————————
  版權聲明:本文為CSDN博主“arthur0808”原創(chuàng )文章,遵循CC4.0 BY-SA版權協(xié)議。轉載請附上原出處鏈接和本聲明。
  原文鏈接: 查看全部

  如何使用戶(hù)關(guān)注的網(wǎng)頁(yè)排列在搜索引擎的排序技術(shù)
  搜索引擎的排序技術(shù)
  摘要:本文簡(jiǎn)要介紹和比較了搜索引擎目前使用的排序算法,包括詞頻位置加權排序算法、鏈接分析排序算法,并著(zhù)重介紹了PageRank算法和HITS算法的思想及其比較優(yōu)勢和劣勢。
  關(guān)鍵詞:搜索引擎;排行;網(wǎng)頁(yè)排名;命中
  1 前言
  谷歌和百度的崛起很大程度上是由于它們使用了比以前的搜索引擎更好的排序技術(shù)。由于人們通常只關(guān)注搜索結果的前 10 或 20 項,因此將與用戶(hù)查詢(xún)結果最相關(guān)的信息排在結果的前排尤為重要。例如,.jp、.de 和.edu 域名下的網(wǎng)頁(yè)通常比.com 和.net 域名下的網(wǎng)頁(yè)更有用[1]。如何讓用戶(hù)關(guān)注的網(wǎng)頁(yè)在搜索結果中排名靠前,讓各家搜索引擎公司不斷完善優(yōu)化方向。筆者將通過(guò)閱讀論文和網(wǎng)絡(luò )資料總結介紹幾種主要的排序算法:詞頻位置加權排序算法、鏈接分析排序算法。
  2 詞頻位置加權排序算法
  這類(lèi)技術(shù)是在傳統信息檢索技術(shù)的基礎上發(fā)展起來(lái)的,即用戶(hù)在網(wǎng)頁(yè)中輸入的搜索詞的頻率越高,搜索詞的位置越重要,則該網(wǎng)頁(yè)被認為與本次搜索相關(guān)。一個(gè)詞的相關(guān)性越高,它在搜索結果中出現的位置就越高。 InfoSeek、Excite、Lycos等早期搜索引擎都采用了這種排序方式。
  2.1 詞頻加權
  詞頻加權是以用戶(hù)提供的搜索詞在網(wǎng)頁(yè)中出現的次數作為確定網(wǎng)頁(yè)相關(guān)性權重的依據。詞頻加權方法包括絕對詞頻加權、相對詞頻加權、逆詞頻加權、基于詞判別值的加權等。對于單詞搜索引擎,可以通過(guò)簡(jiǎn)單地計算一個(gè)詞在網(wǎng)頁(yè)中出現的頻率來(lái)給出??權重。對于具有邏輯組裝功能的搜索引擎,必須使用其他加權方法。因為在使用組合搜索查詢(xún)時(shí),搜索結果與搜索查詢(xún)中的每個(gè)搜索詞相關(guān),并且每個(gè)搜索詞在所有網(wǎng)頁(yè)中的總頻率是不同的。如果按總重量排序, 會(huì )造成結果無(wú)關(guān)緊要。這可以通過(guò)多種其他方式解決。例如,利用相對詞頻加權的原理,可以統計大量網(wǎng)頁(yè),為所有網(wǎng)頁(yè)中出現頻率較高的詞分配一個(gè)較低的初始值。相對而言,所有網(wǎng)頁(yè)中出現頻率較低的詞被賦予較低的初始值。更高的權重 [2]。
  2.2 詞位權重
  通過(guò)為網(wǎng)頁(yè)中不同位置和布局的詞分配不同的權重,可以根據權重確定搜索結果和搜索詞的相關(guān)程度。字的位置包括頁(yè)面標題元素、頁(yè)面描述關(guān)鍵字元素、正文標題、正文內容、正文鏈接、logo等。布局包括字體、字號、是否加粗或者強調等。比如理解排序技術(shù),搜索“排序技術(shù)”時(shí),有兩個(gè)結果,一個(gè)標題是“搜索引擎的排序技術(shù)”,另一個(gè)文章的標題是“Web Information Retrieval”,但內容有部分 說(shuō)到搜索引擎的排名技術(shù),顯然第一個(gè)結果更相關(guān)。 “排名技術(shù)”這個(gè)詞應該在第一個(gè)結果中給予更大的權重。
  2.3 此類(lèi)算法的優(yōu)缺點(diǎn)
  這種方法的主要優(yōu)點(diǎn)是使用方便,易于實(shí)現,最成熟的發(fā)展基本上是目前所有搜索引擎排名核心技術(shù)的基礎。但是,由于現網(wǎng)內容的質(zhì)量無(wú)法保證,為了使網(wǎng)頁(yè)在搜索引擎中排名靠前,在網(wǎng)頁(yè)中添加了相同背景色的圖層,并填寫(xiě)了大量的熱門(mén)關(guān)鍵詞,當人們來(lái)瀏覽網(wǎng)頁(yè)時(shí)完全被查看。不,但搜索引擎可以在索引時(shí)找到它。這個(gè)問(wèn)題在一定程度上得到了改善,但并沒(méi)有完全根除。
  3 鏈接分析排名
  鏈接分析排序算法的思想其實(shí)來(lái)源于紙質(zhì)文獻索引機制,即一篇論文或文獻被引用次數越多,其學(xué)術(shù)價(jià)值就越高。同一個(gè)網(wǎng)頁(yè)類(lèi)比,如果一個(gè)網(wǎng)頁(yè)的鏈接越多,該網(wǎng)頁(yè)的重要性就越高。鏈路分析算法主要分為隨機漫游模型,如PageRank算法;基于Hub和Authority的相互強化模型,如HITS及其變體;基于概率模型,如 SALSA;基于貝葉斯模型,如貝葉斯算法及其簡(jiǎn)化版本。下面將分別介紹這些算法。
  3.1 PageRank 算法
  Google 搜索引擎有兩個(gè)重要功能,可以讓您獲得高度準確的結果。首先,它利用網(wǎng)絡(luò )的鏈接特征來(lái)計算網(wǎng)頁(yè)的質(zhì)量排名,即PageRank;其次,它使用鏈接來(lái)改善搜索結果 [3]。
  簡(jiǎn)單的PageRank原理即如圖1所示的那樣,從網(wǎng)頁(yè)A導向網(wǎng)頁(yè)B的鏈接被看作是對頁(yè)面A對頁(yè)面B的支持投票,Google根據這個(gè)投票數來(lái)判斷頁(yè)面的重要性??墒?Google 不單單只看投票數(即鏈接數),對投票的頁(yè)面也進(jìn)行分析。重要性高的頁(yè)面所投的票的評價(jià)會(huì )更高。
  原創(chuàng )PageRank算法:PR(A) = (1-d) + d (PR(T1)/C(T1) +… + PR(Tn)/C(Tn)))<//p
p其中: PR(A):網(wǎng)頁(yè)A的PageRank值; PR(Ti):鏈接到頁(yè)面A的網(wǎng)頁(yè)Ti的PageRank值; C(Ti):網(wǎng)頁(yè)Ti的出站鏈接數; d:阻尼系數,0/p
p在算法的第二個(gè)版本中:PR(A) = (1-d) / N + d (PR(T1)/C(T1) +... + PR(Tn)/C(Tn) ))/p
p這里 N 是 Internet 頁(yè)面的總數。該算法2與算法1并沒(méi)有完全不同。在隨機沖浪模型中,算法2中頁(yè)面的PageRank值是點(diǎn)擊多個(gè)鏈接后到達該頁(yè)面的實(shí)際概率。因此,互聯(lián)網(wǎng)上所有網(wǎng)頁(yè)的PageRank值形成一個(gè)概率分布,所有RageRank值之和為1。/p
p因為 PR(A) 取決于鏈接到網(wǎng)頁(yè) A 的其他網(wǎng)頁(yè)的 PageRank 值,而其他網(wǎng)頁(yè)的 PR 值也取決于指向該網(wǎng)頁(yè)的網(wǎng)頁(yè)的 PR 值,所以這是一個(gè)遞歸過(guò)程。似乎需要無(wú)窮無(wú)盡的計算才能獲得網(wǎng)頁(yè)的PR值。根據參考文獻5中的實(shí)驗,遞歸計算了網(wǎng)絡(luò )中3.220億個(gè)鏈接,發(fā)現經(jīng)過(guò)52次計算可以得到收斂。穩定的 PageRank 值,在計算一半鏈接的 PageRank 值時(shí),進(jìn)行了 45 次計算。通過(guò)實(shí)驗發(fā)現,遞歸計算次數和鏈接數呈對數比例增加,即要計算N個(gè)鏈接的PageRank值時(shí),只需進(jìn)行logN次遞歸計算即可得到穩定的PageRank值[5] ./p
p3.2 Hits 算法/p
p在PageRank算法中,鏈接被平等對待,每個(gè)鏈接貢獻相同的權重。在現實(shí)生活中,有些鏈接指向廣告,而有些鏈接指向權威網(wǎng)頁(yè)??梢钥闯?,均勻分布的權重不符合實(shí)際情況。所以康奈爾大學(xué)的Jon Kleinberg博士在1998年首先提出了Hits算法。/p
pHITS算法對網(wǎng)頁(yè)質(zhì)量的評價(jià)結果??體現在它賦予每個(gè)網(wǎng)頁(yè)的兩個(gè)評價(jià)值上:內容權限(Authority)和鏈接權限(Hub)。/p
p內容權限與網(wǎng)頁(yè)本身直接提供的內容信息的質(zhì)量有關(guān)。引用的網(wǎng)頁(yè)越多,內容權限越高;相應地,鏈接權限與網(wǎng)頁(yè)提供的超鏈接的質(zhì)量有關(guān)。相關(guān)的。引用高質(zhì)量?jì)热莸捻?yè)面越多,鏈接的權威性就越高。根據關(guān)鍵字匹配將查詢(xún)提交給傳統搜索引擎。搜索引擎返回的網(wǎng)頁(yè)很多,前n個(gè)網(wǎng)頁(yè)作為根集。包括根集合中頁(yè)面所指向的所有頁(yè)面,再包括根集合中指向頁(yè)面的頁(yè)面,從而擴展了基本集合。 HITS算法輸出一組具有較大Hub值的網(wǎng)頁(yè)和具有較大權限值的網(wǎng)頁(yè)[6]。/p
p與PageRank等實(shí)用算法不同,HITS算法更多的是一種實(shí)驗性的嘗試。從表面上看,HITS算法需要排序的頁(yè)面數量很少,但由于需要根據內容分析從搜索引擎中提取根集并擴展基本集,這個(gè)過(guò)程需要相當長(cháng)的時(shí)間,而PageRank算法表面上看,處理的數據量遠遠超過(guò)HITS算法,但是因為在用戶(hù)查詢(xún)的時(shí)候計算量已經(jīng)由服務(wù)器獨立完成,所以用戶(hù)無(wú)需等待。為此,從用戶(hù)的等待時(shí)間來(lái)看,PageRank算法應該優(yōu)于HITS算法。簡(jiǎn)短[7]。/p
p3.3 其他鏈接分析和排序算法/p
pPageRank 算法基于用戶(hù)對網(wǎng)頁(yè)隨機前向瀏覽的直覺(jué),HITS 算法考慮了Authorative 網(wǎng)頁(yè)和Hub 網(wǎng)頁(yè)之間的增強關(guān)系。在實(shí)際應用中,用戶(hù)大部分時(shí)間是向前瀏覽網(wǎng)頁(yè),但在很多情況下,他們會(huì )返回瀏覽網(wǎng)頁(yè)?;谏鲜鲋庇^(guān)認識,R. Lempel 和 S. Moran 提出了 SALSA(Stochastic Approach for Link-Structure Analysis)算法,該算法考慮了用戶(hù)返回瀏覽網(wǎng)頁(yè)的情況,并保留了隨機漫游PageRank 和 HITS 中網(wǎng)頁(yè)的 Authoritive 分類(lèi)與 Hub 的想法取消了 Authoritive 和 Hub 之間的相互加強關(guān)系[8]。/p
p艾倫鮑羅丁等。提出了一種完整的貝葉斯統計方法來(lái)確定 Hub 和 Authoritive 網(wǎng)頁(yè)。假設有M個(gè)Hub網(wǎng)頁(yè)和N個(gè)Authority網(wǎng)頁(yè),可以是同一個(gè)集合。每個(gè)Hub網(wǎng)頁(yè)都有一個(gè)未知實(shí)數參數,表示有超鏈接的總體趨勢,還有一個(gè)未知的非負參數,表示有鏈接到Authority網(wǎng)頁(yè)的趨勢。每個(gè)權威網(wǎng)頁(yè) j 都有一個(gè)未知的非負參數,代表 j 的權限級別。統計模型如下。 Hub 網(wǎng)頁(yè) i 鏈接到權威網(wǎng)頁(yè) j 的先驗概率為:P(i,j)=Exp(+)/(1+Exp(+))。當 Hub 網(wǎng)頁(yè) i 和權威網(wǎng)頁(yè) j 之間沒(méi)有鏈接時(shí),P(i,j)=1/(1+Exp(+))。從上面的公式可以看出,如果非常大(說(shuō)明Hub網(wǎng)頁(yè)i有很高的指向任何網(wǎng)頁(yè)的傾向),或者總和很大(說(shuō)明i是一個(gè)高質(zhì)量的Hub,j是一個(gè)高質(zhì)量的Authority網(wǎng)頁(yè)),那么i ->j的鏈接概率比較大[9]。
  4 其他排序技術(shù)
  除了以上兩類(lèi)排序算法,還有其他排序方式,比如:競價(jià)排名(競價(jià)排名是百度等一些搜索引擎公司推出的一種以?xún)r(jià)格確定排名的在線(xiàn)推廣方式。但是,投標人信息的真實(shí)性需要嚴格篩選,否則用戶(hù)對搜索引擎的信任將被灰色行業(yè)所利用[10])。通過(guò)用戶(hù)反饋提高排序的準確性,通過(guò)理解增加排序的相關(guān)性,通過(guò)智能過(guò)濾減少減少。排序結果的重復性等
  5 結束語(yǔ)
  綜上所述,在目前谷歌等搜索引擎中,排序方式非常復雜,需要綜合考慮多種因素,而不是單一的上述算法。我個(gè)人認為未來(lái)搜索引擎會(huì )變得更加人性化,搜索結果會(huì )根據用戶(hù)喜好進(jìn)行排序和過(guò)濾。此外,特定領(lǐng)域的專(zhuān)業(yè)搜索引擎將逐步發(fā)展,例如金融和體育的專(zhuān)業(yè)搜索。引擎。相信未來(lái)瀏覽器功能越來(lái)越強大,搜索引擎的影響力會(huì )越來(lái)越大。
  參考文獻:
  [1] Dennis Fetterly、Mark Manasse、Marc Najork、Janet Wiener:網(wǎng)頁(yè)演變的大規模研究,In:Proc.of the 12th Int'l World Wide Web Conf.New York:ACM Press ,2003.669-678...
  [2] 楊思洛.搜索引擎排序技術(shù)研究[J].現代圖書(shū)館與信息技術(shù),2005,(01).
  [3] S.Brin 和 L.Page,“大型超文本 Web 搜索引擎的剖析”,發(fā)表在第七屆國際萬(wàn)維網(wǎng)會(huì )議論文集(WWW7)/Computer Networks,阿姆斯特丹, 1998
  [4] Page L, Brin S, etc. PageRank 引文排名:為網(wǎng)絡(luò )帶來(lái)秩序[J].斯坦福數字圖書(shū)館工作論文,1998,(6):102-107.
  [5] T. 有 liwala。 PageRank 的高效計算。 1999-31技術(shù)報告,1999.
  [6]
  [7] 何曉陽(yáng),吳強,吳志榮:HITS算法與PageRank算法對比分析。信息學(xué)報,2004 年第 2 期
  [8]
  [9] 朱偉、王超、李軍等. Web 超鏈分析算法研究。計算機科學(xué), 2003, 30(1)
  [10]常路,夏祖奇;幾種常用的搜索引擎排序算法。圖書(shū)情報工作,2003 年第 6 期
  ———————————————————
  版權聲明:本文為CSDN博主“arthur0808”原創(chuàng )文章,遵循CC4.0 BY-SA版權協(xié)議。轉載請附上原出處鏈接和本聲明。
  原文鏈接:

“探索推薦引擎內部的秘密”系列將帶領(lǐng)讀者從淺入深

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 82 次瀏覽 ? 2021-07-06 01:02 ? 來(lái)自相關(guān)話(huà)題

  “探索推薦引擎內部的秘密”系列將帶領(lǐng)讀者從淺入深
  《探索推薦引擎的奧秘》系列將帶領(lǐng)讀者由淺入深,探索推薦引擎的機制和實(shí)現方法,包括一些基本的優(yōu)化方法,如聚類(lèi)、分類(lèi)應用等。同時(shí),在理論講解的基礎上,還將介紹如何在大規模數據上實(shí)現各種推薦策略,優(yōu)化策略,結合Apache Mahout構建高效的推薦引擎。作為本系列的第一篇文章,本文將深入介紹推薦引擎的工作原理,涉及的各種推薦機制,以及各自的優(yōu)缺點(diǎn)和適用場(chǎng)景,幫助用戶(hù)清晰了解并快速構建適合自己推薦引擎。
  信息發(fā)現
  現在我們進(jìn)入了一個(gè)數據爆炸的時(shí)代。隨著(zhù)Web2.0的發(fā)展,Web已經(jīng)成為數據共享的平臺。那么,如何讓人們想要在海量數據中找到自己需要的信息就會(huì )越來(lái)越難。
  在這種情況下,搜索引擎(谷歌、必應、百度等)就成為了大家快速找到目標信息的最佳方式。當用戶(hù)比較清楚自己的需求時(shí),使用搜索引擎通過(guò)關(guān)鍵字搜索快速找到自己需要的信息是非常方便的。然而,搜索引擎并不能完全滿(mǎn)足用戶(hù)對信息發(fā)現的需求,因為在很多情況下,用戶(hù)其實(shí)并不清楚自己的需求,或者用簡(jiǎn)單的關(guān)鍵詞難以表達自己的需求?;蛘咚麄冃枰纤麄儌€(gè)人品味和喜好的結果,于是就有了推薦系統,對應搜索引擎,大家習慣稱(chēng)它為推薦引擎。
  隨著(zhù)推薦引擎的出現,用戶(hù)獲取信息的方式已經(jīng)從簡(jiǎn)單的有針對性的數據搜索轉變?yōu)楦先藗兞晳T的更高級的信息發(fā)現。
  現在,隨著(zhù)推薦技術(shù)的不斷發(fā)展,推薦引擎已經(jīng)在電子商務(wù)(電子商務(wù),如亞馬遜、當當)和一些基于社交的社交網(wǎng)站(包括音樂(lè )、電影和圖書(shū)分享,如如豆瓣、Mtime等)都取得了巨大的成功。這也進(jìn)一步說(shuō)明,在Web2.0環(huán)境下,面對海量數據,用戶(hù)需要這種更智能、更了解自己需求、品味和偏好的信息發(fā)現機制。
  返回頂部
  推薦引擎
  之前介紹了推薦引擎對當前Web2.0站點(diǎn)的重要性。在本章中,我們將討論推薦引擎的工作原理。推薦引擎使用特殊的信息過(guò)濾技術(shù)向可能感興趣的用戶(hù)推薦不同的項目或內容。
  圖1.推薦引擎的工作原理
  
  圖1展示了推薦引擎的工作原理圖。在這里,推薦引擎被視為一個(gè)黑匣子。它接受的輸入是推薦的數據源。一般來(lái)說(shuō),推薦引擎需要的數據源包括:
  顯式的用戶(hù)反饋可以準確反映用戶(hù)對物品的真實(shí)偏好,但需要用戶(hù)付出額外的代價(jià),而隱式的用戶(hù)行為也可以通過(guò)一些分析處理來(lái)反映用戶(hù)的偏好,但數據并不是很準確,并且一些行為分析有很多噪音。但是只要選擇了正確的行為特征,隱含的用戶(hù)反饋也可以得到很好的效果,只是行為特征的選擇在不同的應用中可能會(huì )有很大的不同。比如電商網(wǎng)站,購買(mǎi)行為其實(shí)是一種隱性反饋,可以很好的表達用戶(hù)的喜好。
  推薦引擎可能會(huì )根據不同的推薦機制使用部分數據源,然后基于這些數據,分析某些規則或直接預測和計算用戶(hù)對其他項目的偏好。這樣,推薦引擎就可以在用戶(hù)進(jìn)入時(shí)推薦用戶(hù)可能感興趣的項目。
  推薦引擎分類(lèi)
  推薦引擎的分類(lèi)可以基于很多指標,下面我們一一介紹:
  推薦引擎是否為不同的用戶(hù)推薦不同的數據?
  根據該指標,推薦引擎可分為基于流行行為的推薦引擎和個(gè)性化推薦引擎
  這是推薦引擎最基本的分類(lèi)。事實(shí)上,人們討論的大多數推薦引擎都是個(gè)性化推薦引擎,因為從根本上講,只有個(gè)性化推薦引擎才是更智能的信息發(fā)現過(guò)程。 .
  根據推薦引擎的數據來(lái)源
  其實(shí)這里就是如何發(fā)現數據的相關(guān)性,因為大部分推薦引擎都是基于相似的物品集或者用戶(hù)推薦的。然后參考圖1給出的推薦系統示意圖,根據不同的數據源發(fā)現數據相關(guān)性的方法可以分為以下幾種:
  根據推薦模型的建立
  可以想象,在一個(gè)擁有大量物品和用戶(hù)的系統中,推薦引擎的計算量是相當大的。為了實(shí)現實(shí)時(shí)推薦,必須建立推薦模型。推薦模型的建立可以分為以下幾種:
  事實(shí)上,在目前的推薦系統中,很少有推薦引擎只使用一種推薦策略。一般在不同的場(chǎng)景下使用不同的推薦策略來(lái)達到最好的推薦效果,比如亞馬遜的推薦。它根據用戶(hù)自身的歷史購買(mǎi)數據進(jìn)行推薦,根據用戶(hù)當前瀏覽過(guò)的商品進(jìn)行推薦,根據流行偏好將當前熱門(mén)商品推薦給不同地區的用戶(hù),讓用戶(hù)可以從全方位的推薦中找到適合的商品你真的很感興趣。
  深度推薦機制
  本章的篇幅將詳細介紹每種推薦機制的工作原理、優(yōu)缺點(diǎn)和應用場(chǎng)景。
  基于人口統計的推薦
  基于人口統計的推薦是最容易實(shí)施的推薦方法。它只是根據系統用戶(hù)的基本信息發(fā)現用戶(hù)的相關(guān)性,然后將類(lèi)似用戶(hù)喜歡的其他物品推薦給當前用戶(hù)。圖 2 顯示了此建議的工作原理。
  圖2.基于人口統計的推薦機制的工作原理
  
  從圖中可以清楚地看出,首先,系統對每個(gè)用戶(hù)都有一個(gè)用戶(hù)畫(huà)像建模,其中包括用戶(hù)的基本信息,比如用戶(hù)的年齡、性別等;用戶(hù)畫(huà)像計算用戶(hù)的相似度,可以看到用戶(hù)A的畫(huà)像和用戶(hù)C是一樣的,那么系統就會(huì )認為用戶(hù)A和C是相似的用戶(hù)。在推薦引擎中,他們可以稱(chēng)為“鄰居”;最后,根據“鄰居”用戶(hù)組的偏好,向當前用戶(hù)推薦一些物品,圖中將用戶(hù)A喜歡的物品A推薦給用戶(hù)C。
  這種基于人口統計的推薦機制的好處是:
  因為沒(méi)有使用當前用戶(hù)對物品的偏好歷史數據,所以不存在新用戶(hù)的“冷啟動(dòng)”問(wèn)題。該方法不依賴(lài)于item本身的數據,因此該方法可以用于不同item的域中,并且是域無(wú)關(guān)的。
  那么這種方法有什么缺點(diǎn)和問(wèn)題呢?這種根據用戶(hù)的基本信息對用戶(hù)進(jìn)行分類(lèi)的方法過(guò)于粗糙,尤其是在書(shū)籍、電影、音樂(lè )等對品味要求較高的領(lǐng)域,無(wú)法獲得很好的推薦效果。也許在一些電商網(wǎng)站,這個(gè)方法可以給出一些簡(jiǎn)單的建議。另一個(gè)限制是,這種方法可能涉及到一些與信息發(fā)現問(wèn)題本身無(wú)關(guān)的敏感信息,例如用戶(hù)的年齡等,這些用戶(hù)信息不是很容易獲取。
  基于內容的推薦
  基于內容的推薦是推薦引擎出現之初使用最廣泛的推薦機制。其核心思想是根據推薦的物品或內容的元數據發(fā)現物品或內容的相關(guān)性,然后根據用戶(hù)過(guò)去的喜好進(jìn)行記錄,向用戶(hù)推薦相似的物品。圖3展示了基于內容推薦的基本原理。
  圖3.基于內容推薦機制的基本原理
  
  基于內容的推薦的典型示例如圖 3 所示。在電影推薦系統中,首先我們需要對電影的元數據進(jìn)行建模。這里我們只簡(jiǎn)單描述電影的類(lèi)型;元數據發(fā)現電影之間的相似性,因為類(lèi)型都是“愛(ài)情、浪漫”。電影A和C被認為是相似的電影(當然,獲得更好的推薦還不夠,我們也可以考慮電影導演、演員等);最后,建議實(shí)現。對于用戶(hù)A,他喜歡看電影A,那么系統可以向他推薦類(lèi)似的電影C。
  這種基于內容的推薦機制的優(yōu)勢在于它可以很好地模擬用戶(hù)的口味并提供更準確的推薦。但它也存在以下問(wèn)題:
  文章需要分析建模,推薦質(zhì)量取決于文章模型的完整性和綜合性。在目前的應用中,我們可以觀(guān)察到關(guān)鍵詞和標簽(Tag)被認為是一種簡(jiǎn)單有效的描述item元數據的方式。物品相似度的分析只依賴(lài)物品本身的特征,這里不考慮人們對物品的態(tài)度。由于需要根據用戶(hù)過(guò)去的偏好歷史進(jìn)行推薦,因此新用戶(hù)存在“冷啟動(dòng)”問(wèn)題。
  雖然這種方法有很多缺點(diǎn)和問(wèn)題,但它已經(jīng)成功地應用于一些電影、音樂(lè )和書(shū)籍的社交網(wǎng)站。有的網(wǎng)站還請專(zhuān)業(yè)人士對項目進(jìn)行基因編碼,比如Pandora,在一份報告中說(shuō),在Pandora的推薦引擎中,每首歌曲都有100多個(gè)元數據特征,包括歌曲風(fēng)格、年份、歌手等。
  基于協(xié)同過(guò)濾的推薦
  隨著(zhù)Web2.0的發(fā)展,網(wǎng)站促進(jìn)了用戶(hù)參與和用戶(hù)貢獻。因此,基于協(xié)同過(guò)濾的推薦機制應運而生。它的原理很簡(jiǎn)單,就是根據用戶(hù)對物品或信息的偏好,找到物品或內容本身的相關(guān)性,或者找到用戶(hù)的相關(guān)性,然后根據這些相關(guān)性進(jìn)行推薦?;趨f(xié)同過(guò)濾的推薦可以分為三個(gè)子類(lèi)別:基于用戶(hù)的推薦、基于物品的推薦和基于模型的推薦。下面我們將一一詳細介紹三種協(xié)同過(guò)濾推薦機制。
  基于用戶(hù)的協(xié)同過(guò)濾推薦
  基于用戶(hù)的協(xié)同過(guò)濾推薦的基本原理是根據所有用戶(hù)對物品或信息的偏好,發(fā)現一組與當前用戶(hù)的口味和偏好相似的“鄰居”。一般應用中,計算“K-Neighbors”算法;然后,根據這K個(gè)鄰居的歷史偏好信息,為當前用戶(hù)做出推薦。下圖4為示意圖。
  圖4.基于用戶(hù)的協(xié)同過(guò)濾推薦機制基本原理
  
  上圖說(shuō)明了基于用戶(hù)的協(xié)同過(guò)濾推薦機制的基本原理。假設用戶(hù)A喜歡物品A,物品C,用戶(hù)B喜歡物品B,用戶(hù)C喜歡物品A,物品C和物品D;從這些用戶(hù)的歷史偏好信息中,我們可以發(fā)現用戶(hù)A和用戶(hù)C的品味和偏好比較相似,并且用戶(hù)C也喜歡項目D,那么我們可以推斷用戶(hù)A可能也喜歡項目D,所以項目D可以推薦給用戶(hù)A。
  基于用戶(hù)的協(xié)同過(guò)濾推薦機制和基于人口統計的推薦機制都計算用戶(hù)的相似度,也計算基于“鄰居”用戶(hù)群的推薦,但兩者的區別在于如何計算用戶(hù)的相似度,基于人口統計機制只考慮用戶(hù)的特征,而基于用戶(hù)的協(xié)同過(guò)濾機制根據用戶(hù)的歷史偏好數據計算用戶(hù)的相似度。它的基本假設是喜歡相似物品的用戶(hù)可能相同或相似??谖逗推?。
  基于項目的協(xié)同過(guò)濾推薦
  基于物品的協(xié)同過(guò)濾推薦的基本原理也類(lèi)似,只不過(guò)是利用所有用戶(hù)對物品或信息的偏好來(lái)尋找物品與物品之間的相似度,然后根據用戶(hù)的歷史偏好信息,得出相似的向用戶(hù)推薦項目。圖 5 說(shuō)明了其基本原理。
  假設用戶(hù)A喜歡物品A和物品C,用戶(hù)B喜歡物品A、物品B和物品C,用戶(hù)C喜歡物品A,從這些用戶(hù)的歷史偏好可以分析出物品A和物品C 相似。喜歡物品A的人喜歡物品C。根據這個(gè)數據可以推斷用戶(hù)C很可能也喜歡物品C,所以系統會(huì )向用戶(hù)C推薦物品C。
  與上面類(lèi)似,基于項目的協(xié)同過(guò)濾推薦和基于內容的推薦實(shí)際上都是基于項目相似度預測推薦,只是相似度計算方法不同。前者是從用戶(hù)的歷史偏好中推斷出來(lái)的,而后者則是基于物品本身的屬性特征信息。
  圖5.基于項目的協(xié)同過(guò)濾推薦機制基本原理
  
  同時(shí)協(xié)同過(guò)濾,基于用戶(hù)和基于項目的策略我們應該如何選擇?實(shí)際上,基于物品的協(xié)同過(guò)濾推薦機制是亞馬遜在基于用戶(hù)的機制上改進(jìn)的一種策略,因為在大多數網(wǎng)站中,物品的數量遠小于用戶(hù)的數量,物品的數量是相似度比較穩定,基于項目的機制比基于用戶(hù)的實(shí)時(shí)性能要好。但并非在所有場(chǎng)景中都是如此??梢韵胂?,在一些新聞推薦系統中,也許items的數量,即新聞的數量可能大于用戶(hù)的數量,而且新聞更新的程度也很快,所以它的相似度還是有的不穩定。因此,其實(shí)可以看出,推薦策略的選擇與具體的應用場(chǎng)景有很大關(guān)系。
  基于模型的協(xié)同過(guò)濾推薦
  基于模型的協(xié)同過(guò)濾推薦是基于基于樣本的用戶(hù)偏好信息,訓練推薦模型,然后根據實(shí)時(shí)用戶(hù)偏好信息預測和計算推薦。
  基于協(xié)同過(guò)濾的推薦機制是當今應用最廣泛的推薦機制。它具有以下顯著(zhù)優(yōu)勢:
  它不需要對對象或用戶(hù)進(jìn)行嚴格的建模,也不需要對對象的描述是機器可理解的,所以這種方法也是領(lǐng)域無(wú)關(guān)的。這種方法計算出來(lái)的推薦是公開(kāi)的,可以分享他人的經(jīng)驗,很好的支持用戶(hù)發(fā)現潛在的興趣和偏好
  而且它還存在以下問(wèn)題:
  該方法的核心是基于歷史數據,因此對于新項目和新用戶(hù)存在“冷啟動(dòng)”問(wèn)題。推薦的效果取決于用戶(hù)歷史偏好數據的數量和準確性。在大多數實(shí)現中,用戶(hù)的歷史偏好存儲在一個(gè)稀疏矩陣中,在稀疏矩陣上的計算存在一些明顯的問(wèn)題,包括少數人的錯誤偏好可能會(huì )對計算的準確性產(chǎn)生很大影響。推薦等。對于一些有特殊品味的用戶(hù),我們無(wú)法給出好的建議?;跉v史數據,在對用戶(hù)偏好進(jìn)行捕獲和建模后,很難根據用戶(hù)的使用情況進(jìn)行修改或進(jìn)化,這使得該方法不夠靈活。
  混合推薦機制
  當前網(wǎng)站上的推薦往往不是簡(jiǎn)單地使用某種推薦機制和策略。他們經(jīng)?;旌隙喾N方法來(lái)獲得更好的推薦結果。關(guān)于如何組合各種推薦機制,這里介紹幾種比較流行的組合方式。
  Weighted Hybridization:使用一個(gè)線(xiàn)性公式,根據一定的權重組合幾個(gè)不同的推薦。具體的權重值需要在測試數據集上反復測試才能達到最佳推薦效果。 Switching Hybridization:前面說(shuō)過(guò),其實(shí)對于不同的情況(數據量、系統運行狀態(tài)、用戶(hù)和物品數量等),推薦策略可能會(huì )有很大的不同,所以切換Hybridization的方式是允許選擇的最適合的推薦機制來(lái)計算不同情況下的推薦。 Mixed Hybridization:采用多種推薦機制,向不同區域的用戶(hù)展示不同的推薦結果。事實(shí)上,亞馬遜、當當等眾多電商網(wǎng)站都采用了這種方式,用戶(hù)可以獲得全面的推薦,也更容易找到自己想要的東西。 Meta-Level Hybridization:采用多種推薦機制,將一種推薦機制的結果作為另一種推薦機制的輸入,綜合各推薦機制的優(yōu)缺點(diǎn),獲得更精準的推薦。
  推薦引擎的應用
  在介紹了推薦引擎的基本原理和基本推薦機制后,下面簡(jiǎn)要分析幾個(gè)有代表性的推薦引擎的應用。這里我們選擇兩個(gè)領(lǐng)域:以亞馬遜為代表的電子商務(wù)和以豆瓣為代表的社交網(wǎng)絡(luò )。
  電子商務(wù)中的推薦應用-亞馬遜
  亞馬遜作為推薦引擎的鼻祖,將推薦的思想滲透到了應用的每一個(gè)角落。亞馬遜推薦的核心是通過(guò)數據挖掘算法將用戶(hù)的消費偏好與其他用戶(hù)進(jìn)行比較,從而預測用戶(hù)可能感興趣的產(chǎn)品。 對應上面介紹的各種推薦機制,亞馬遜采用分區混合機制,展示給不同領(lǐng)域的用戶(hù)不同的推薦結果。圖 6 和圖 7 顯示了用戶(hù)可以在亞馬遜上獲得的推薦。
  圖6.亞馬遜的推薦機制-首頁(yè)
  圖7.亞馬遜的推薦機制-瀏覽商品
  
  亞馬遜利用網(wǎng)站上所有可以記錄的用戶(hù)行為,根據不同數據的特點(diǎn)進(jìn)行處理,劃分不同區域為用戶(hù)推送推薦:
  值得一提的是,亞馬遜在做推薦的時(shí)候,設計和用戶(hù)體驗也很獨特:
  亞馬遜利用其大量歷史數據來(lái)量化推薦原因。
  此外,亞馬遜的很多推薦都是根據用戶(hù)的個(gè)人資料計算出來(lái)的。用戶(hù)個(gè)人資料記錄了用戶(hù)在亞馬遜上的行為,包括瀏覽過(guò)的商品、購買(mǎi)過(guò)的商品、采集中的商品和心愿單等。當然,亞馬遜還集成了評分等其他用戶(hù)反饋方式,這些都是用戶(hù)反饋的一部分。輪廓。同時(shí),亞馬遜提供了允許用戶(hù)管理自己的個(gè)人資料的功能。這樣,用戶(hù)可以更清楚地告訴推薦引擎他的品味和意圖是什么。
  社交網(wǎng)站-豆瓣推薦應用
  豆瓣是中國相對成功的社交網(wǎng)絡(luò )網(wǎng)站。形成以圖書(shū)、電影、音樂(lè )、同城活動(dòng)為中心的多元化社交網(wǎng)絡(luò )平臺。自然推薦的功能必不可少。下面我們看看豆瓣是如何推薦的。
  圖8.豆瓣的推薦機制-豆瓣電影
  
  當你在豆瓣電影中加入一些你看過(guò)或者感興趣的電影到你看過(guò)想看的列表中,并給它們相應的評分,那么豆瓣的推薦引擎就已經(jīng)給你一些偏好信息了,那么它將顯示如圖 8 所示的電影推薦。
  圖 9. 豆瓣推薦機制——基于用戶(hù)品味的推薦
  
  豆瓣的推薦是通過(guò)“豆瓣猜”。為了讓用戶(hù)知道這些推薦是怎么來(lái)的,豆瓣還簡(jiǎn)單介紹了“豆瓣猜”。
  “您的個(gè)人推薦是根據您的采集和評論自動(dòng)得出的。每個(gè)人的推薦列表都不一樣。您的采集和評論越多,豆瓣的推薦就越準確和豐富。
  每天推薦的內容可能會(huì )發(fā)生變化。隨著(zhù)豆瓣的成長(cháng),推薦給你的內容會(huì )越來(lái)越精準。 "
  這點(diǎn)讓我們清楚的知道豆瓣一定是基于社交協(xié)同過(guò)濾的推薦。這樣,用戶(hù)越多,用戶(hù)反饋越多,推薦效果就會(huì )越準確。
  相比亞馬遜的用戶(hù)行為模型,豆瓣電影的模型更簡(jiǎn)單,即“看過(guò)”和“想看”,這也使得他們的推薦更注重用戶(hù)的口味,畢竟買(mǎi)東西的動(dòng)機和看電影還是有很大區別的。
  此外,豆瓣也有基于物品本身的推薦。當你查看一些電影的詳細信息時(shí),他會(huì )向你推薦“喜歡這部電影的人也喜歡的電影”,如圖10所示,基于協(xié)同過(guò)濾應用。
  圖10.豆瓣的推薦機制——基于電影本身的推薦
  
  總結
  在網(wǎng)絡(luò )數據爆炸的時(shí)代,如何讓用戶(hù)更快地找到自己想要的數據,如何讓用戶(hù)發(fā)現自己潛在的興趣和需求,對于電子商務(wù)和社交網(wǎng)絡(luò )應用來(lái)說(shuō)都非常重要。隨著(zhù)推薦引擎的出現,這個(gè)問(wèn)題越來(lái)越受到關(guān)注。但是對于大多數人來(lái)說(shuō),可能還在疑惑為什么它總能猜出你想要什么。推薦引擎的神奇之處在于,您不知道引擎在此推薦背后記錄和推斷的內容。
  通過(guò)這篇評論文章,你可以了解到推薦引擎其實(shí)只是在默默的記錄和觀(guān)察你的一舉一動(dòng),然后利用所有用戶(hù)產(chǎn)生的海量數據去分析發(fā)現規律,然后慢慢慢慢了解你,你的需求,你的習慣,默默地幫你快速解決問(wèn)題,找到你想要的。
  實(shí)際上,回過(guò)頭來(lái)看,很多時(shí)候,推薦引擎比你更了解你自己。
  通過(guò)第一篇文章,相信大家對推薦引擎有了清晰的第一印象。本系列下一篇文章將深入介紹基于協(xié)同過(guò)濾的推薦策略。在目前的推薦技術(shù)和算法中,被廣泛認可和采用的方法是基于協(xié)同過(guò)濾的推薦方法。以其簡(jiǎn)單的方法模型、低數據依賴(lài)、便捷的數據采集、優(yōu)越的推薦效果,成為大眾眼中的“No.1”推薦算法。本文將帶你深入了解協(xié)同過(guò)濾的奧秘,并給出基于A(yíng)pache Mahout的協(xié)同過(guò)濾算法的高效實(shí)現。 Apache Mahout 是 ASF 的一個(gè)相對較新的開(kāi)源項目。它源自L(fǎng)ucene,建立在Hadoop之上,專(zhuān)注于經(jīng)典機器學(xué)習算法在海量數據上的高效實(shí)現。
  原文鏈接為:@126/blog/static/24269713813/
  轉載于: 查看全部

  “探索推薦引擎內部的秘密”系列將帶領(lǐng)讀者從淺入深
  《探索推薦引擎的奧秘》系列將帶領(lǐng)讀者由淺入深,探索推薦引擎的機制和實(shí)現方法,包括一些基本的優(yōu)化方法,如聚類(lèi)、分類(lèi)應用等。同時(shí),在理論講解的基礎上,還將介紹如何在大規模數據上實(shí)現各種推薦策略,優(yōu)化策略,結合Apache Mahout構建高效的推薦引擎。作為本系列的第一篇文章,本文將深入介紹推薦引擎的工作原理,涉及的各種推薦機制,以及各自的優(yōu)缺點(diǎn)和適用場(chǎng)景,幫助用戶(hù)清晰了解并快速構建適合自己推薦引擎。
  信息發(fā)現
  現在我們進(jìn)入了一個(gè)數據爆炸的時(shí)代。隨著(zhù)Web2.0的發(fā)展,Web已經(jīng)成為數據共享的平臺。那么,如何讓人們想要在海量數據中找到自己需要的信息就會(huì )越來(lái)越難。
  在這種情況下,搜索引擎(谷歌、必應、百度等)就成為了大家快速找到目標信息的最佳方式。當用戶(hù)比較清楚自己的需求時(shí),使用搜索引擎通過(guò)關(guān)鍵字搜索快速找到自己需要的信息是非常方便的。然而,搜索引擎并不能完全滿(mǎn)足用戶(hù)對信息發(fā)現的需求,因為在很多情況下,用戶(hù)其實(shí)并不清楚自己的需求,或者用簡(jiǎn)單的關(guān)鍵詞難以表達自己的需求?;蛘咚麄冃枰纤麄儌€(gè)人品味和喜好的結果,于是就有了推薦系統,對應搜索引擎,大家習慣稱(chēng)它為推薦引擎。
  隨著(zhù)推薦引擎的出現,用戶(hù)獲取信息的方式已經(jīng)從簡(jiǎn)單的有針對性的數據搜索轉變?yōu)楦先藗兞晳T的更高級的信息發(fā)現。
  現在,隨著(zhù)推薦技術(shù)的不斷發(fā)展,推薦引擎已經(jīng)在電子商務(wù)(電子商務(wù),如亞馬遜、當當)和一些基于社交的社交網(wǎng)站(包括音樂(lè )、電影和圖書(shū)分享,如如豆瓣、Mtime等)都取得了巨大的成功。這也進(jìn)一步說(shuō)明,在Web2.0環(huán)境下,面對海量數據,用戶(hù)需要這種更智能、更了解自己需求、品味和偏好的信息發(fā)現機制。
  返回頂部
  推薦引擎
  之前介紹了推薦引擎對當前Web2.0站點(diǎn)的重要性。在本章中,我們將討論推薦引擎的工作原理。推薦引擎使用特殊的信息過(guò)濾技術(shù)向可能感興趣的用戶(hù)推薦不同的項目或內容。
  圖1.推薦引擎的工作原理
  
  圖1展示了推薦引擎的工作原理圖。在這里,推薦引擎被視為一個(gè)黑匣子。它接受的輸入是推薦的數據源。一般來(lái)說(shuō),推薦引擎需要的數據源包括:
  顯式的用戶(hù)反饋可以準確反映用戶(hù)對物品的真實(shí)偏好,但需要用戶(hù)付出額外的代價(jià),而隱式的用戶(hù)行為也可以通過(guò)一些分析處理來(lái)反映用戶(hù)的偏好,但數據并不是很準確,并且一些行為分析有很多噪音。但是只要選擇了正確的行為特征,隱含的用戶(hù)反饋也可以得到很好的效果,只是行為特征的選擇在不同的應用中可能會(huì )有很大的不同。比如電商網(wǎng)站,購買(mǎi)行為其實(shí)是一種隱性反饋,可以很好的表達用戶(hù)的喜好。
  推薦引擎可能會(huì )根據不同的推薦機制使用部分數據源,然后基于這些數據,分析某些規則或直接預測和計算用戶(hù)對其他項目的偏好。這樣,推薦引擎就可以在用戶(hù)進(jìn)入時(shí)推薦用戶(hù)可能感興趣的項目。
  推薦引擎分類(lèi)
  推薦引擎的分類(lèi)可以基于很多指標,下面我們一一介紹:
  推薦引擎是否為不同的用戶(hù)推薦不同的數據?
  根據該指標,推薦引擎可分為基于流行行為的推薦引擎和個(gè)性化推薦引擎
  這是推薦引擎最基本的分類(lèi)。事實(shí)上,人們討論的大多數推薦引擎都是個(gè)性化推薦引擎,因為從根本上講,只有個(gè)性化推薦引擎才是更智能的信息發(fā)現過(guò)程。 .
  根據推薦引擎的數據來(lái)源
  其實(shí)這里就是如何發(fā)現數據的相關(guān)性,因為大部分推薦引擎都是基于相似的物品集或者用戶(hù)推薦的。然后參考圖1給出的推薦系統示意圖,根據不同的數據源發(fā)現數據相關(guān)性的方法可以分為以下幾種:
  根據推薦模型的建立
  可以想象,在一個(gè)擁有大量物品和用戶(hù)的系統中,推薦引擎的計算量是相當大的。為了實(shí)現實(shí)時(shí)推薦,必須建立推薦模型。推薦模型的建立可以分為以下幾種:
  事實(shí)上,在目前的推薦系統中,很少有推薦引擎只使用一種推薦策略。一般在不同的場(chǎng)景下使用不同的推薦策略來(lái)達到最好的推薦效果,比如亞馬遜的推薦。它根據用戶(hù)自身的歷史購買(mǎi)數據進(jìn)行推薦,根據用戶(hù)當前瀏覽過(guò)的商品進(jìn)行推薦,根據流行偏好將當前熱門(mén)商品推薦給不同地區的用戶(hù),讓用戶(hù)可以從全方位的推薦中找到適合的商品你真的很感興趣。
  深度推薦機制
  本章的篇幅將詳細介紹每種推薦機制的工作原理、優(yōu)缺點(diǎn)和應用場(chǎng)景。
  基于人口統計的推薦
  基于人口統計的推薦是最容易實(shí)施的推薦方法。它只是根據系統用戶(hù)的基本信息發(fā)現用戶(hù)的相關(guān)性,然后將類(lèi)似用戶(hù)喜歡的其他物品推薦給當前用戶(hù)。圖 2 顯示了此建議的工作原理。
  圖2.基于人口統計的推薦機制的工作原理
  
  從圖中可以清楚地看出,首先,系統對每個(gè)用戶(hù)都有一個(gè)用戶(hù)畫(huà)像建模,其中包括用戶(hù)的基本信息,比如用戶(hù)的年齡、性別等;用戶(hù)畫(huà)像計算用戶(hù)的相似度,可以看到用戶(hù)A的畫(huà)像和用戶(hù)C是一樣的,那么系統就會(huì )認為用戶(hù)A和C是相似的用戶(hù)。在推薦引擎中,他們可以稱(chēng)為“鄰居”;最后,根據“鄰居”用戶(hù)組的偏好,向當前用戶(hù)推薦一些物品,圖中將用戶(hù)A喜歡的物品A推薦給用戶(hù)C。
  這種基于人口統計的推薦機制的好處是:
  因為沒(méi)有使用當前用戶(hù)對物品的偏好歷史數據,所以不存在新用戶(hù)的“冷啟動(dòng)”問(wèn)題。該方法不依賴(lài)于item本身的數據,因此該方法可以用于不同item的域中,并且是域無(wú)關(guān)的。
  那么這種方法有什么缺點(diǎn)和問(wèn)題呢?這種根據用戶(hù)的基本信息對用戶(hù)進(jìn)行分類(lèi)的方法過(guò)于粗糙,尤其是在書(shū)籍、電影、音樂(lè )等對品味要求較高的領(lǐng)域,無(wú)法獲得很好的推薦效果。也許在一些電商網(wǎng)站,這個(gè)方法可以給出一些簡(jiǎn)單的建議。另一個(gè)限制是,這種方法可能涉及到一些與信息發(fā)現問(wèn)題本身無(wú)關(guān)的敏感信息,例如用戶(hù)的年齡等,這些用戶(hù)信息不是很容易獲取。
  基于內容的推薦
  基于內容的推薦是推薦引擎出現之初使用最廣泛的推薦機制。其核心思想是根據推薦的物品或內容的元數據發(fā)現物品或內容的相關(guān)性,然后根據用戶(hù)過(guò)去的喜好進(jìn)行記錄,向用戶(hù)推薦相似的物品。圖3展示了基于內容推薦的基本原理。
  圖3.基于內容推薦機制的基本原理
  
  基于內容的推薦的典型示例如圖 3 所示。在電影推薦系統中,首先我們需要對電影的元數據進(jìn)行建模。這里我們只簡(jiǎn)單描述電影的類(lèi)型;元數據發(fā)現電影之間的相似性,因為類(lèi)型都是“愛(ài)情、浪漫”。電影A和C被認為是相似的電影(當然,獲得更好的推薦還不夠,我們也可以考慮電影導演、演員等);最后,建議實(shí)現。對于用戶(hù)A,他喜歡看電影A,那么系統可以向他推薦類(lèi)似的電影C。
  這種基于內容的推薦機制的優(yōu)勢在于它可以很好地模擬用戶(hù)的口味并提供更準確的推薦。但它也存在以下問(wèn)題:
  文章需要分析建模,推薦質(zhì)量取決于文章模型的完整性和綜合性。在目前的應用中,我們可以觀(guān)察到關(guān)鍵詞和標簽(Tag)被認為是一種簡(jiǎn)單有效的描述item元數據的方式。物品相似度的分析只依賴(lài)物品本身的特征,這里不考慮人們對物品的態(tài)度。由于需要根據用戶(hù)過(guò)去的偏好歷史進(jìn)行推薦,因此新用戶(hù)存在“冷啟動(dòng)”問(wèn)題。
  雖然這種方法有很多缺點(diǎn)和問(wèn)題,但它已經(jīng)成功地應用于一些電影、音樂(lè )和書(shū)籍的社交網(wǎng)站。有的網(wǎng)站還請專(zhuān)業(yè)人士對項目進(jìn)行基因編碼,比如Pandora,在一份報告中說(shuō),在Pandora的推薦引擎中,每首歌曲都有100多個(gè)元數據特征,包括歌曲風(fēng)格、年份、歌手等。
  基于協(xié)同過(guò)濾的推薦
  隨著(zhù)Web2.0的發(fā)展,網(wǎng)站促進(jìn)了用戶(hù)參與和用戶(hù)貢獻。因此,基于協(xié)同過(guò)濾的推薦機制應運而生。它的原理很簡(jiǎn)單,就是根據用戶(hù)對物品或信息的偏好,找到物品或內容本身的相關(guān)性,或者找到用戶(hù)的相關(guān)性,然后根據這些相關(guān)性進(jìn)行推薦?;趨f(xié)同過(guò)濾的推薦可以分為三個(gè)子類(lèi)別:基于用戶(hù)的推薦、基于物品的推薦和基于模型的推薦。下面我們將一一詳細介紹三種協(xié)同過(guò)濾推薦機制。
  基于用戶(hù)的協(xié)同過(guò)濾推薦
  基于用戶(hù)的協(xié)同過(guò)濾推薦的基本原理是根據所有用戶(hù)對物品或信息的偏好,發(fā)現一組與當前用戶(hù)的口味和偏好相似的“鄰居”。一般應用中,計算“K-Neighbors”算法;然后,根據這K個(gè)鄰居的歷史偏好信息,為當前用戶(hù)做出推薦。下圖4為示意圖。
  圖4.基于用戶(hù)的協(xié)同過(guò)濾推薦機制基本原理
  
  上圖說(shuō)明了基于用戶(hù)的協(xié)同過(guò)濾推薦機制的基本原理。假設用戶(hù)A喜歡物品A,物品C,用戶(hù)B喜歡物品B,用戶(hù)C喜歡物品A,物品C和物品D;從這些用戶(hù)的歷史偏好信息中,我們可以發(fā)現用戶(hù)A和用戶(hù)C的品味和偏好比較相似,并且用戶(hù)C也喜歡項目D,那么我們可以推斷用戶(hù)A可能也喜歡項目D,所以項目D可以推薦給用戶(hù)A。
  基于用戶(hù)的協(xié)同過(guò)濾推薦機制和基于人口統計的推薦機制都計算用戶(hù)的相似度,也計算基于“鄰居”用戶(hù)群的推薦,但兩者的區別在于如何計算用戶(hù)的相似度,基于人口統計機制只考慮用戶(hù)的特征,而基于用戶(hù)的協(xié)同過(guò)濾機制根據用戶(hù)的歷史偏好數據計算用戶(hù)的相似度。它的基本假設是喜歡相似物品的用戶(hù)可能相同或相似??谖逗推?。
  基于項目的協(xié)同過(guò)濾推薦
  基于物品的協(xié)同過(guò)濾推薦的基本原理也類(lèi)似,只不過(guò)是利用所有用戶(hù)對物品或信息的偏好來(lái)尋找物品與物品之間的相似度,然后根據用戶(hù)的歷史偏好信息,得出相似的向用戶(hù)推薦項目。圖 5 說(shuō)明了其基本原理。
  假設用戶(hù)A喜歡物品A和物品C,用戶(hù)B喜歡物品A、物品B和物品C,用戶(hù)C喜歡物品A,從這些用戶(hù)的歷史偏好可以分析出物品A和物品C 相似。喜歡物品A的人喜歡物品C。根據這個(gè)數據可以推斷用戶(hù)C很可能也喜歡物品C,所以系統會(huì )向用戶(hù)C推薦物品C。
  與上面類(lèi)似,基于項目的協(xié)同過(guò)濾推薦和基于內容的推薦實(shí)際上都是基于項目相似度預測推薦,只是相似度計算方法不同。前者是從用戶(hù)的歷史偏好中推斷出來(lái)的,而后者則是基于物品本身的屬性特征信息。
  圖5.基于項目的協(xié)同過(guò)濾推薦機制基本原理
  
  同時(shí)協(xié)同過(guò)濾,基于用戶(hù)和基于項目的策略我們應該如何選擇?實(shí)際上,基于物品的協(xié)同過(guò)濾推薦機制是亞馬遜在基于用戶(hù)的機制上改進(jìn)的一種策略,因為在大多數網(wǎng)站中,物品的數量遠小于用戶(hù)的數量,物品的數量是相似度比較穩定,基于項目的機制比基于用戶(hù)的實(shí)時(shí)性能要好。但并非在所有場(chǎng)景中都是如此??梢韵胂?,在一些新聞推薦系統中,也許items的數量,即新聞的數量可能大于用戶(hù)的數量,而且新聞更新的程度也很快,所以它的相似度還是有的不穩定。因此,其實(shí)可以看出,推薦策略的選擇與具體的應用場(chǎng)景有很大關(guān)系。
  基于模型的協(xié)同過(guò)濾推薦
  基于模型的協(xié)同過(guò)濾推薦是基于基于樣本的用戶(hù)偏好信息,訓練推薦模型,然后根據實(shí)時(shí)用戶(hù)偏好信息預測和計算推薦。
  基于協(xié)同過(guò)濾的推薦機制是當今應用最廣泛的推薦機制。它具有以下顯著(zhù)優(yōu)勢:
  它不需要對對象或用戶(hù)進(jìn)行嚴格的建模,也不需要對對象的描述是機器可理解的,所以這種方法也是領(lǐng)域無(wú)關(guān)的。這種方法計算出來(lái)的推薦是公開(kāi)的,可以分享他人的經(jīng)驗,很好的支持用戶(hù)發(fā)現潛在的興趣和偏好
  而且它還存在以下問(wèn)題:
  該方法的核心是基于歷史數據,因此對于新項目和新用戶(hù)存在“冷啟動(dòng)”問(wèn)題。推薦的效果取決于用戶(hù)歷史偏好數據的數量和準確性。在大多數實(shí)現中,用戶(hù)的歷史偏好存儲在一個(gè)稀疏矩陣中,在稀疏矩陣上的計算存在一些明顯的問(wèn)題,包括少數人的錯誤偏好可能會(huì )對計算的準確性產(chǎn)生很大影響。推薦等。對于一些有特殊品味的用戶(hù),我們無(wú)法給出好的建議?;跉v史數據,在對用戶(hù)偏好進(jìn)行捕獲和建模后,很難根據用戶(hù)的使用情況進(jìn)行修改或進(jìn)化,這使得該方法不夠靈活。
  混合推薦機制
  當前網(wǎng)站上的推薦往往不是簡(jiǎn)單地使用某種推薦機制和策略。他們經(jīng)?;旌隙喾N方法來(lái)獲得更好的推薦結果。關(guān)于如何組合各種推薦機制,這里介紹幾種比較流行的組合方式。
  Weighted Hybridization:使用一個(gè)線(xiàn)性公式,根據一定的權重組合幾個(gè)不同的推薦。具體的權重值需要在測試數據集上反復測試才能達到最佳推薦效果。 Switching Hybridization:前面說(shuō)過(guò),其實(shí)對于不同的情況(數據量、系統運行狀態(tài)、用戶(hù)和物品數量等),推薦策略可能會(huì )有很大的不同,所以切換Hybridization的方式是允許選擇的最適合的推薦機制來(lái)計算不同情況下的推薦。 Mixed Hybridization:采用多種推薦機制,向不同區域的用戶(hù)展示不同的推薦結果。事實(shí)上,亞馬遜、當當等眾多電商網(wǎng)站都采用了這種方式,用戶(hù)可以獲得全面的推薦,也更容易找到自己想要的東西。 Meta-Level Hybridization:采用多種推薦機制,將一種推薦機制的結果作為另一種推薦機制的輸入,綜合各推薦機制的優(yōu)缺點(diǎn),獲得更精準的推薦。
  推薦引擎的應用
  在介紹了推薦引擎的基本原理和基本推薦機制后,下面簡(jiǎn)要分析幾個(gè)有代表性的推薦引擎的應用。這里我們選擇兩個(gè)領(lǐng)域:以亞馬遜為代表的電子商務(wù)和以豆瓣為代表的社交網(wǎng)絡(luò )。
  電子商務(wù)中的推薦應用-亞馬遜
  亞馬遜作為推薦引擎的鼻祖,將推薦的思想滲透到了應用的每一個(gè)角落。亞馬遜推薦的核心是通過(guò)數據挖掘算法將用戶(hù)的消費偏好與其他用戶(hù)進(jìn)行比較,從而預測用戶(hù)可能感興趣的產(chǎn)品。 對應上面介紹的各種推薦機制,亞馬遜采用分區混合機制,展示給不同領(lǐng)域的用戶(hù)不同的推薦結果。圖 6 和圖 7 顯示了用戶(hù)可以在亞馬遜上獲得的推薦。
  圖6.亞馬遜的推薦機制-首頁(yè)
  圖7.亞馬遜的推薦機制-瀏覽商品
  
  亞馬遜利用網(wǎng)站上所有可以記錄的用戶(hù)行為,根據不同數據的特點(diǎn)進(jìn)行處理,劃分不同區域為用戶(hù)推送推薦:
  值得一提的是,亞馬遜在做推薦的時(shí)候,設計和用戶(hù)體驗也很獨特:
  亞馬遜利用其大量歷史數據來(lái)量化推薦原因。
  此外,亞馬遜的很多推薦都是根據用戶(hù)的個(gè)人資料計算出來(lái)的。用戶(hù)個(gè)人資料記錄了用戶(hù)在亞馬遜上的行為,包括瀏覽過(guò)的商品、購買(mǎi)過(guò)的商品、采集中的商品和心愿單等。當然,亞馬遜還集成了評分等其他用戶(hù)反饋方式,這些都是用戶(hù)反饋的一部分。輪廓。同時(shí),亞馬遜提供了允許用戶(hù)管理自己的個(gè)人資料的功能。這樣,用戶(hù)可以更清楚地告訴推薦引擎他的品味和意圖是什么。
  社交網(wǎng)站-豆瓣推薦應用
  豆瓣是中國相對成功的社交網(wǎng)絡(luò )網(wǎng)站。形成以圖書(shū)、電影、音樂(lè )、同城活動(dòng)為中心的多元化社交網(wǎng)絡(luò )平臺。自然推薦的功能必不可少。下面我們看看豆瓣是如何推薦的。
  圖8.豆瓣的推薦機制-豆瓣電影
  
  當你在豆瓣電影中加入一些你看過(guò)或者感興趣的電影到你看過(guò)想看的列表中,并給它們相應的評分,那么豆瓣的推薦引擎就已經(jīng)給你一些偏好信息了,那么它將顯示如圖 8 所示的電影推薦。
  圖 9. 豆瓣推薦機制——基于用戶(hù)品味的推薦
  
  豆瓣的推薦是通過(guò)“豆瓣猜”。為了讓用戶(hù)知道這些推薦是怎么來(lái)的,豆瓣還簡(jiǎn)單介紹了“豆瓣猜”。
  “您的個(gè)人推薦是根據您的采集和評論自動(dòng)得出的。每個(gè)人的推薦列表都不一樣。您的采集和評論越多,豆瓣的推薦就越準確和豐富。
  每天推薦的內容可能會(huì )發(fā)生變化。隨著(zhù)豆瓣的成長(cháng),推薦給你的內容會(huì )越來(lái)越精準。 "
  這點(diǎn)讓我們清楚的知道豆瓣一定是基于社交協(xié)同過(guò)濾的推薦。這樣,用戶(hù)越多,用戶(hù)反饋越多,推薦效果就會(huì )越準確。
  相比亞馬遜的用戶(hù)行為模型,豆瓣電影的模型更簡(jiǎn)單,即“看過(guò)”和“想看”,這也使得他們的推薦更注重用戶(hù)的口味,畢竟買(mǎi)東西的動(dòng)機和看電影還是有很大區別的。
  此外,豆瓣也有基于物品本身的推薦。當你查看一些電影的詳細信息時(shí),他會(huì )向你推薦“喜歡這部電影的人也喜歡的電影”,如圖10所示,基于協(xié)同過(guò)濾應用。
  圖10.豆瓣的推薦機制——基于電影本身的推薦
  
  總結
  在網(wǎng)絡(luò )數據爆炸的時(shí)代,如何讓用戶(hù)更快地找到自己想要的數據,如何讓用戶(hù)發(fā)現自己潛在的興趣和需求,對于電子商務(wù)和社交網(wǎng)絡(luò )應用來(lái)說(shuō)都非常重要。隨著(zhù)推薦引擎的出現,這個(gè)問(wèn)題越來(lái)越受到關(guān)注。但是對于大多數人來(lái)說(shuō),可能還在疑惑為什么它總能猜出你想要什么。推薦引擎的神奇之處在于,您不知道引擎在此推薦背后記錄和推斷的內容。
  通過(guò)這篇評論文章,你可以了解到推薦引擎其實(shí)只是在默默的記錄和觀(guān)察你的一舉一動(dòng),然后利用所有用戶(hù)產(chǎn)生的海量數據去分析發(fā)現規律,然后慢慢慢慢了解你,你的需求,你的習慣,默默地幫你快速解決問(wèn)題,找到你想要的。
  實(shí)際上,回過(guò)頭來(lái)看,很多時(shí)候,推薦引擎比你更了解你自己。
  通過(guò)第一篇文章,相信大家對推薦引擎有了清晰的第一印象。本系列下一篇文章將深入介紹基于協(xié)同過(guò)濾的推薦策略。在目前的推薦技術(shù)和算法中,被廣泛認可和采用的方法是基于協(xié)同過(guò)濾的推薦方法。以其簡(jiǎn)單的方法模型、低數據依賴(lài)、便捷的數據采集、優(yōu)越的推薦效果,成為大眾眼中的“No.1”推薦算法。本文將帶你深入了解協(xié)同過(guò)濾的奧秘,并給出基于A(yíng)pache Mahout的協(xié)同過(guò)濾算法的高效實(shí)現。 Apache Mahout 是 ASF 的一個(gè)相對較新的開(kāi)源項目。它源自L(fǎng)ucene,建立在Hadoop之上,專(zhuān)注于經(jīng)典機器學(xué)習算法在海量數據上的高效實(shí)現。
  原文鏈接為:@126/blog/static/24269713813/
  轉載于:

官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久