亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

核心方法:搜索引擎算法中TF-IDF是什么意思

優(yōu)采云 發(fā)布時(shí)間: 2022-09-21 22:05

  核心方法:搜索引擎算法中TF-IDF是什么意思

  真正掌握seo優(yōu)化技術(shù)的唯一途徑是充分了解搜索引擎算法,所以在學(xué)習seo技術(shù)之初,要不斷地從淺入深地構建這方面更專(zhuān)業(yè)的認知。更深。在seo基礎學(xué)習中,如果對搜索引擎不了解和了解,確實(shí)是不可能通過(guò)純白帽seo完成一個(gè)網(wǎng)站優(yōu)化的。今天wp自學(xué)筆記和小伙伴們分享一下TF-IDF在搜索引擎算法中是什么意思?以下內容轉載自百度百科。

  

  TF-IDF(詞頻-逆文檔頻率)是一種常用的信息檢索和數據挖掘加權技術(shù)。 TF 是詞頻,IDF 是逆文檔頻率。 TF-IDF 是一種統計方法,用于評估單詞對文檔集或語(yǔ)料庫中的一個(gè)文檔的重要性。一個(gè)詞的重要性與它在文檔中出現的次數成正比,但與它在語(yǔ)料庫中出現的頻率成反比。搜索引擎經(jīng)常應用各種形式的 TF-IDF 加權作為文檔和用戶(hù)查詢(xún)之間相關(guān)程度的度量或評級。除了 TF-IDF,互聯(lián)網(wǎng)上的搜索引擎還使用基于鏈接分析的排名方法來(lái)確定文檔在搜索結果中出現的順序。

  TFIDF的主要思想是:如果一個(gè)詞或詞組在一個(gè)文章中頻繁出現TF,而在其他文章中很少出現,則認為這個(gè)詞或詞組有Good category辨別能力,適合分類(lèi)。 TFIDF其實(shí)就是:TF * IDF,TF Term Frequency,IDF逆文檔頻率。 TF 表示詞條在文檔 d 中出現的頻率。 IDF的主要思想是:如果收錄term t的文檔較少,即n越小,IDF越大,說(shuō)明term t有很好的分類(lèi)能力。如果某類(lèi)文檔 C 中收錄詞條 t 的文檔數為 m,其他類(lèi)型中收錄 t 的文檔總數為 k,顯然收錄 t 的文檔數為 n=m+k。當m很大時(shí),n也很大。 ,根據IDF公式得到的IDF值會(huì )很小,說(shuō)明條目t的分類(lèi)能力不強。但實(shí)際上,如果某個(gè)詞條在一類(lèi)文檔中頻繁出現,則說(shuō)明該詞條能夠很好地代表該類(lèi)文本的特征,應該賦予此類(lèi)詞條更高的權重,并選擇該詞條作為該類(lèi)文本的特征詞將其與其他類(lèi)型的文檔區分開(kāi)來(lái)。這就是 IDF 的不足之處。在給定文檔中,詞頻 (TF) 是指給定詞在文檔中出現的頻率。這個(gè)數字被標準化為術(shù)語(yǔ)計數,以防止它偏向長(cháng)文件。 (同一個(gè)詞在長(cháng)文件中的字數可能比在短文件中的字數高,不管這個(gè)詞是否重要。)

  TFIDF算法是基于這樣一個(gè)假設,即對于區分文檔最有意義的詞應該是那些在整個(gè)文檔集合中經(jīng)常出現在文檔中而在其他文檔中不經(jīng)常出現的詞,所以如果特征空間坐標系取TF詞頻作為衡量標準,可以反映相似文本的特征。此外,考慮到詞區分不同類(lèi)別的能力,TFIDF 方法認為詞的文本頻率越小,其區分不同類(lèi)別文本的能力就越大。因此,引入了逆文本頻率IDF的概念,將TF與IDF的乘積作為特征空間坐標系的值度量,用于調整權重TF。調整權重的目的是突出重要的詞,抑制次要的詞。單詞。但本質(zhì)上IDF是一種試圖抑制噪聲的加權,簡(jiǎn)單地認為文本頻率低的詞更重要,文本頻率高的詞沒(méi)用是不完全正確的。 IDF結構簡(jiǎn)單,不能有效反映詞的重要性和特征詞的分布,不能很好地發(fā)揮調整權重的功能,因此TFIDF方法的準確率不是很高。

  

  另外,單詞的位置信息并沒(méi)有反映在TFIDF算法中。對于 Web 文檔,權重計算方法應該反映 HTML 的結構特征。特征詞在不同的標簽中反映文章的內容不同,其權重的計算方法也應該不同。因此,應為網(wǎng)頁(yè)不同位置的特征詞分配不同的系數,然后乘以特征詞的詞頻,以提高文本表示的效果。

  TF-IDF模型是搜索引擎等實(shí)際應用中廣泛使用的信息檢索模型,但對于TF-IDF模型一直存在各種疑問(wèn)。本文是針對信息檢索問(wèn)題的基于條件概率的 box-and-ball 模型。核心思想是將“查詢(xún)字符串q與文檔d的匹配度問(wèn)題”轉化為“查詢(xún)字符串q來(lái)自文檔d的條件概率問(wèn)題”。它從概率的角度定義了比 TF-IDF 模型表達的信息檢索問(wèn)題更明確的匹配目標。該模型可以結合TF-IDF模型,一方面解釋其合理性,另一方面發(fā)現其缺陷。此外,該模型還可以解釋 PageRank 的含義,以及為什么 PageRank 權重和 TF-IDF 權重之間存在乘積關(guān)系。

  事實(shí):搜索引擎優(yōu)化?和俺本地化有什么關(guān)系?(一)

  前言

  如果你去一些LSP(Language Service Provider)的官網(wǎng),你會(huì )發(fā)現他們經(jīng)常在網(wǎng)站本地化業(yè)務(wù)下覆蓋一個(gè)叫“搜索引擎優(yōu)化”的服務(wù)。

  T先生文章的這篇文章將簡(jiǎn)要介紹搜索引擎優(yōu)化(SEO)的概念及其與本地化的關(guān)系,然后介紹SEO的實(shí)現方法。 T先生預計用2-3次推送來(lái)介紹SEO的難點(diǎn)。

  本文以科普為主。所有信息均來(lái)自互聯(lián)網(wǎng)采集、匯總、篩選和匯編。如有錯誤請后臺留言。感謝您的支持。

  本地化的概念可以簡(jiǎn)單地解釋為“調整產(chǎn)品以適應目標區域用戶(hù)的使用習慣”。本地化的存在是為了服務(wù)于“最大化產(chǎn)品利潤”的目的。對于國際產(chǎn)品,本地化過(guò)程中最重要的一點(diǎn)(一) 是語(yǔ)言。

  Common Sense Advisory (CSA) 和 Lionbridge 曾進(jìn)行過(guò)市場(chǎng)調查,發(fā)現 72.4% 的消費者傾向于購買(mǎi)以母語(yǔ)提供產(chǎn)品信息的產(chǎn)品。 72.1% 的消費者在購買(mǎi)產(chǎn)品時(shí)只瀏覽 網(wǎng)站 母語(yǔ)的內容。

  本地化行業(yè)標準委員會(huì ) (LISA) 的一項研究還指出,公司每在本地化內容上花費 1 美元,就可以收回 25 美元。

  上述兩項研究強烈支持內容本地化的重要性,但它們忽略了一點(diǎn):如何讓您精心本地化的產(chǎn)品被廣泛的潛在用戶(hù)群發(fā)現?

  在互聯(lián)網(wǎng)時(shí)代,消費者查找信息的首選是使用搜索引擎。但是,搜索引擎不一定會(huì )立即在搜索結果的首頁(yè)上展示公司的產(chǎn)品。如果我們自己的產(chǎn)品不能出現在首頁(yè)怎么辦——換個(gè)角度看,作為消費者,我們需要多少耐心和時(shí)間來(lái)翻頁(yè)?

  這就是需要搜索引擎優(yōu)化 (SEO) 的地方。這是一種通過(guò)提高在無(wú)償搜索引擎結果中的排名來(lái)增加網(wǎng)站流量和品牌曝光度的技術(shù)。

  SEO 不僅依靠搜索引擎原理來(lái)提高排名,更重要的是,它研究人們在網(wǎng)上搜索什么,人們期望得到什么樣的答案,人們使用什么樣的 關(guān)鍵詞,以及想要獲得服務(wù)內容的人。如果了解所有這些,公司就可以定制他們的產(chǎn)品,以更好地匹配潛在用戶(hù)群的搜索習慣——理想情況下,用戶(hù)會(huì )在主頁(yè)上看到您為他們提供的內容。

  除了了解用戶(hù)之外,您還需要了解機器。搜索引擎就像一個(gè)黑匣子——我們一直在使用它,卻不知道它是如何工作的。這一次,T先生盡量用簡(jiǎn)單的語(yǔ)言解釋清楚。

  1 搜索引擎原理簡(jiǎn)介

  搜索引擎的工作原理大致可以分為三個(gè)部分:

  1.爬?。涸诰W(wǎng)上檢索內容,找到內容對應的代碼/URL。

  2.索引:將爬取過(guò)程中找到的內容有序存儲;如果頁(yè)面在索引中,它將顯示為相關(guān)的搜索結果。

  3.排名:按相關(guān)性降序排列搜索結果。

  在抓取過(guò)程中,搜索引擎通過(guò)一組程序(稱(chēng)為“爬蟲(chóng)”或“蜘蛛”)發(fā)現/更新互聯(lián)網(wǎng)上的內容。所謂內容,可以指網(wǎng)頁(yè)、圖片、視頻、網(wǎng)頁(yè)附件——它們都有一個(gè)叫做統一資源定位器(Uniform Resource Locator,URL)的“ID號”。爬蟲(chóng)找到網(wǎng)頁(yè)內容和對應的URL并存儲,然后根據網(wǎng)頁(yè)內容中的其他URL跳轉到其他內容。

  搜索引擎存儲的內容就像一本字典,索引是拼音或部首搜索。爬取的內容需要分析并存儲在索引數據庫中。專(zhuān)門(mén)分析數據庫中網(wǎng)頁(yè)的文本內容。

  當用戶(hù)進(jìn)行搜索時(shí),搜索引擎會(huì )從索引數據庫中檢索高度相關(guān)的內容并對其進(jìn)行排名。這種基于相關(guān)性對搜索結果進(jìn)行排名的方法稱(chēng)為排名。一般認為網(wǎng)站的排名越高,搜索引擎認為網(wǎng)站與查詢(xún)的相關(guān)性越高。

  

  1.1 告訴搜索引擎:“過(guò)來(lái)”

  有時(shí)公司不希望某些頁(yè)面出現在搜索引擎中,例如頁(yè)內廣告、過(guò)期內容、私有內容等。網(wǎng)站開(kāi)發(fā)人員可以使用一些方法(例如robots.txt)來(lái)告訴爬蟲(chóng)不要爬取此類(lèi)頁(yè)面的內容。當然,公司在推廣產(chǎn)品時(shí),肯定希望產(chǎn)品描述頁(yè)面被搜索引擎抓取。因此,如果您希望內容被搜索引擎發(fā)現,首先要確保它可以被爬蟲(chóng)訪(fǎng)問(wèn)并且可以索引。否則,就像隱身一樣。

  以谷歌為例,使用高級搜索方式“site:”可以返回一個(gè)站點(diǎn)在谷歌索引中的所有結果。通過(guò)谷歌搜索控制臺(Google Search Console)還可以實(shí)現更準確的索引結果查詢(xún)和監控。這其實(shí)是搜索引擎優(yōu)化的第一步:檢查你的網(wǎng)頁(yè)是否被索引,哪些被索引,重要頁(yè)面是否被索引。

  抓取預算

  抓取預算(crawl budget)可以理解為搜索引擎爬蟲(chóng)在離開(kāi)一個(gè)站??點(diǎn)之前抓取的平均網(wǎng)址數。合理的爬取預算可以讓爬蟲(chóng)爬取更重要的頁(yè)面,避免在無(wú)用的信息/頁(yè)面上浪費時(shí)間。同時(shí),這也意味著(zhù)用戶(hù)搜索時(shí)內容相關(guān)性可以更加集中。

  用戶(hù)在構建網(wǎng)站時(shí)仍然需要通過(guò)HTML代碼來(lái)指導搜索引擎如何處理你的頁(yè)面。這樣的指令稱(chēng)為元指令或元標記。它們通常存在于 HTML 頁(yè)面的標簽中。有興趣的讀者可以自行了解。

  1.2 搜索引擎:坐成一排吃水果水果

  搜索引擎用于根據內容相關(guān)性對結果進(jìn)行排名的技術(shù)基于復雜的算法。谷歌幾乎每周甚至每隔幾天都會(huì )更新其排名算法。如今,機器學(xué)習和自然語(yǔ)言處理也在幫助搜索引擎獲得更好的排名。

  RankBrain 是 Google 搜索引擎核心算法的機器學(xué)習組件。機器學(xué)習也是一種通過(guò)大量數據不斷改進(jìn)預測的技術(shù)。換句話(huà)說(shuō),它總是在學(xué)習。因為它一直在學(xué)習,所以搜索排名結果會(huì )不斷提高。

  用戶(hù)與搜索結果的交互也會(huì )影響搜索引擎的改進(jìn)。一般有四個(gè)因素:

  這四個(gè)指標構成參與度指標。

  不同的搜索引擎需要自己的 SEO

  不同的搜索引擎有不同的排名算法。理論上,國際產(chǎn)品的本地化需要針對不同的搜索引擎實(shí)施SEO策略,但谷歌占據了國際市場(chǎng)的絕大部分份額。在預算有限的情況下,產(chǎn)品優(yōu)先為谷歌做SEO。但放眼中國大陸,SEO需要瞄準百度。

  讀完后,公司可以通過(guò)一些方法讓自己的網(wǎng)站被搜索引擎捕獲,檢測網(wǎng)站的流量。接下來(lái),T先生將介紹如何合理安排網(wǎng)站的內容,讓用戶(hù)在使用關(guān)鍵詞進(jìn)行搜索時(shí),網(wǎng)站能被搜索引擎準確捕捉并呈現給用戶(hù)- 滿(mǎn)意的內容。

  2 關(guān)鍵詞研究

  在搜索引擎輸入框中輸入關(guān)鍵詞,回車(chē),會(huì )呈現上千條結果,而我們往往只瀏覽前一兩頁(yè)的結果。

  關(guān)鍵詞研究有助于產(chǎn)品本地化過(guò)程,提高對目標市場(chǎng)的了解,了解客戶(hù)如何搜索內容、服務(wù)和產(chǎn)品。一般關(guān)鍵詞研究主要是回答以下三個(gè)問(wèn)題:

  人們搜索什么?

  有多少人搜索過(guò)它?

  想要的信息如何呈現?

  

  在我們進(jìn)行關(guān)鍵詞 研究以?xún)?yōu)化搜索結果之前,我們需要知道的第一件事是,我們的產(chǎn)品是做什么的?我們的客戶(hù)是什么樣的?我們的目標是什么(高點(diǎn)擊率?高銷(xiāo)量?高下載量?)?

  例如,美國西雅圖的一家素食無(wú)麩質(zhì)“健康”冰淇淋連鎖店計劃進(jìn)行 SEO。需要考慮的關(guān)鍵點(diǎn)是什么?

  人們在尋找什么冰淇淋、甜點(diǎn)、小吃?

  誰(shuí)在搜索這些產(chǎn)品?

  人們什么時(shí)候在尋找冰淇淋、小吃、甜點(diǎn)等?

  人們如何找到冰淇淋?

  人們?yōu)槭裁匆獙ふ冶苛埽?/p>

  潛在客戶(hù)在哪里 - 本地?全國?全球?

  雖然產(chǎn)品制造商有 10,000 種方式來(lái)宣傳他們的產(chǎn)品,但重要的是客戶(hù)的搜索方式。有一個(gè)用于分析 關(guān)鍵詞 搜索的工具。輸入一個(gè)關(guān)鍵詞后,會(huì )給出幾個(gè)相似的關(guān)鍵詞/短語(yǔ),并呈現它們的月平均搜索量變化圖。

  2.1 關(guān)鍵詞,長(cháng)尾,季節和地區

  數量關(guān)系

  關(guān)鍵詞 和平均每月搜索頻率符合長(cháng)尾理論。 20% 的 關(guān)鍵詞 每月的搜索量可以達到 10 萬(wàn)次或更多,而其余 80% 的 關(guān)鍵詞(它們是長(cháng)尾)的平均每月搜索量可能不到 1 萬(wàn)次。因此,專(zhuān)注于幾個(gè)關(guān)鍵詞進(jìn)行內容優(yōu)化是一個(gè)合理的選擇。

  同時(shí),大廠(chǎng)已經(jīng)占據了最高頻率關(guān)鍵詞。作為小型企業(yè)/初創(chuàng )公司,選擇頻率稍低的關(guān)鍵詞/短語(yǔ)會(huì )獲得更好的收益效果。例如,一家小型冰淇淋店完全有理由放棄冰淇淋等高頻詞,并投資于更具體的關(guān)鍵詞如有機牛奶和*敏*感*詞*淇淋進(jìn)行優(yōu)化。

  季節和地區也可能影響 關(guān)鍵詞 研究。例如,《送給女朋友的圣誕禮物》的檢索量在10-12月勢必會(huì )大幅增加。提前計劃更新內容 網(wǎng)站 可以讓企業(yè)搶占先機。谷歌的關(guān)鍵詞分析工具Google Keyword Planner,可以細化到市、省、國家三級,讓開(kāi)發(fā)者進(jìn)行關(guān)鍵詞研究。例如,半掛車(chē)在德克薩斯更常被稱(chēng)為“大型鉆機”,在紐約被稱(chēng)為“拖拉機拖車(chē)”,顯示了術(shù)語(yǔ)對 SEO 策略的影響。

  2.2 消費者目的

  谷歌將用戶(hù)的搜索行為概括為大致四種,分別對應用戶(hù)的各種檢索目的,即:

  當用戶(hù)把目的放在輸入框的搜索格式上時(shí),谷歌總結了以下五種:

  根據以上幾類(lèi),可以繪制出更精細的用戶(hù)意圖,進(jìn)而布局SEO策略。自搜索引擎誕生以來(lái),全球所有互聯(lián)網(wǎng)用戶(hù)的搜索行為已經(jīng)進(jìn)行了數萬(wàn)億次。 Google 可以依靠這些數據提供幾乎完美的搜索結果,商家也可以使用這些數據進(jìn)行“完美”的 SEO。

  本節中的信息取自 Google 質(zhì)量評估指南:

  本文文章T先生分兩章簡(jiǎn)單介紹了SEO的準備工作,下一篇文章與SEO實(shí)踐相關(guān):通過(guò)安排網(wǎng)頁(yè)內容和代碼設計進(jìn)行SEO 請期待它。謝謝~

0 個(gè)評論

要回復文章請先登錄注冊


官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久