亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

全自動(dòng)文章采集、AI生成、自動(dòng)發(fā)布，網(wǎng)站自媒體全搞定！立即注冊

核心方法:搜索引擎算法中TF-IDF是什么意思

優(yōu)采云發(fā)布時(shí)間: 2022-09-21 22:05

　　核心方法:搜索引擎算法中TF-IDF是什么意思

　　真正掌握seo優(yōu)化技術(shù)的唯一途徑是充分了解搜索引擎算法，所以在學(xué)習seo技術(shù)之初，要不斷地從淺入深地構建這方面更專(zhuān)業(yè)的認知。更深。在seo基礎學(xué)習中，如果對搜索引擎不了解和了解，確實(shí)是不可能通過(guò)純白帽seo完成一個(gè)網(wǎng)站優(yōu)化的。今天wp自學(xué)筆記和小伙伴們分享一下TF-IDF在搜索引擎算法中是什么意思？以下內容轉載自百度百科。

　　

　　TF-IDF（詞頻-逆文檔頻率）是一種常用的信息檢索和數據挖掘加權技術(shù)。 TF 是詞頻，IDF 是逆文檔頻率。 TF-IDF 是一種統計方法，用于評估單詞對文檔集或語(yǔ)料庫中的一個(gè)文檔的重要性。一個(gè)詞的重要性與它在文檔中出現的次數成正比，但與它在語(yǔ)料庫中出現的頻率成反比。搜索引擎經(jīng)常應用各種形式的 TF-IDF 加權作為文檔和用戶(hù)查詢(xún)之間相關(guān)程度的度量或評級。除了 TF-IDF，互聯(lián)網(wǎng)上的搜索引擎還使用基于鏈接分析的排名方法來(lái)確定文檔在搜索結果中出現的順序。

　　TFIDF的主要思想是：如果一個(gè)詞或詞組在一個(gè)文章中頻繁出現TF，而在其他文章中很少出現，則認為這個(gè)詞或詞組有Good category辨別能力，適合分類(lèi)。 TFIDF其實(shí)就是：TF * IDF，TF Term Frequency，IDF逆文檔頻率。 TF 表示詞條在文檔 d 中出現的頻率。 IDF的主要思想是：如果收錄term t的文檔較少，即n越小，IDF越大，說(shuō)明term t有很好的分類(lèi)能力。如果某類(lèi)文檔 C 中收錄詞條 t 的文檔數為 m，其他類(lèi)型中收錄 t 的文檔總數為 k，顯然收錄 t 的文檔數為 n=m+k。當m很大時(shí)，n也很大。，根據IDF公式得到的IDF值會(huì )很小，說(shuō)明條目t的分類(lèi)能力不強。但實(shí)際上，如果某個(gè)詞條在一類(lèi)文檔中頻繁出現，則說(shuō)明該詞條能夠很好地代表該類(lèi)文本的特征，應該賦予此類(lèi)詞條更高的權重，并選擇該詞條作為該類(lèi)文本的特征詞將其與其他類(lèi)型的文檔區分開(kāi)來(lái)。這就是 IDF 的不足之處。在給定文檔中，詞頻 (TF) 是指給定詞在文檔中出現的頻率。這個(gè)數字被標準化為術(shù)語(yǔ)計數，以防止它偏向長(cháng)文件。（同一個(gè)詞在長(cháng)文件中的字數可能比在短文件中的字數高，不管這個(gè)詞是否重要。）

　　TFIDF算法是基于這樣一個(gè)假設，即對于區分文檔最有意義的詞應該是那些在整個(gè)文檔集合中經(jīng)常出現在文檔中而在其他文檔中不經(jīng)常出現的詞，所以如果特征空間坐標系取TF詞頻作為衡量標準，可以反映相似文本的特征。此外，考慮到詞區分不同類(lèi)別的能力，TFIDF 方法認為詞的文本頻率越小，其區分不同類(lèi)別文本的能力就越大。因此，引入了逆文本頻率IDF的概念，將TF與IDF的乘積作為特征空間坐標系的值度量，用于調整權重TF。調整權重的目的是突出重要的詞，抑制次要的詞。單詞。但本質(zhì)上IDF是一種試圖抑制噪聲的加權，簡(jiǎn)單地認為文本頻率低的詞更重要，文本頻率高的詞沒(méi)用是不完全正確的。 IDF結構簡(jiǎn)單，不能有效反映詞的重要性和特征詞的分布，不能很好地發(fā)揮調整權重的功能，因此TFIDF方法的準確率不是很高。

　　

　　另外，單詞的位置信息并沒(méi)有反映在TFIDF算法中。對于 Web 文檔，權重計算方法應該反映 HTML 的結構特征。特征詞在不同的標簽中反映文章的內容不同，其權重的計算方法也應該不同。因此，應為網(wǎng)頁(yè)不同位置的特征詞分配不同的系數，然后乘以特征詞的詞頻，以提高文本表示的效果。

　　TF-IDF模型是搜索引擎等實(shí)際應用中廣泛使用的信息檢索模型，但對于TF-IDF模型一直存在各種疑問(wèn)。本文是針對信息檢索問(wèn)題的基于條件概率的 box-and-ball 模型。核心思想是將“查詢(xún)字符串q與文檔d的匹配度問(wèn)題”轉化為“查詢(xún)字符串q來(lái)自文檔d的條件概率問(wèn)題”。它從概率的角度定義了比 TF-IDF 模型表達的信息檢索問(wèn)題更明確的匹配目標。該模型可以結合TF-IDF模型，一方面解釋其合理性，另一方面發(fā)現其缺陷。此外，該模型還可以解釋 PageRank 的含義，以及為什么 PageRank 權重和 TF-IDF 權重之間存在乘積關(guān)系。

　　事實(shí):搜索引擎優(yōu)化？和俺本地化有什么關(guān)系？(一)

　　前言

　　如果你去一些LSP（Language Service Provider）的官網(wǎng)，你會(huì )發(fā)現他們經(jīng)常在網(wǎng)站本地化業(yè)務(wù)下覆蓋一個(gè)叫“搜索引擎優(yōu)化”的服務(wù)。

　　T先生文章的這篇文章將簡(jiǎn)要介紹搜索引擎優(yōu)化（SEO）的概念及其與本地化的關(guān)系，然后介紹SEO的實(shí)現方法。 T先生預計用2-3次推送來(lái)介紹SEO的難點(diǎn)。

　　本文以科普為主。所有信息均來(lái)自互聯(lián)網(wǎng)采集、匯總、篩選和匯編。如有錯誤請后臺留言。感謝您的支持。

　　本地化的概念可以簡(jiǎn)單地解釋為“調整產(chǎn)品以適應目標區域用戶(hù)的使用習慣”。本地化的存在是為了服務(wù)于“最大化產(chǎn)品利潤”的目的。對于國際產(chǎn)品，本地化過(guò)程中最重要的一點(diǎn)（一) 是語(yǔ)言。

　　Common Sense Advisory (CSA) 和 Lionbridge 曾進(jìn)行過(guò)市場(chǎng)調查，發(fā)現 72.4% 的消費者傾向于購買(mǎi)以母語(yǔ)提供產(chǎn)品信息的產(chǎn)品。 72.1% 的消費者在購買(mǎi)產(chǎn)品時(shí)只瀏覽網(wǎng)站母語(yǔ)的內容。

　　本地化行業(yè)標準委員會(huì ) (LISA) 的一項研究還指出，公司每在本地化內容上花費 1 美元，就可以收回 25 美元。

　　上述兩項研究強烈支持內容本地化的重要性，但它們忽略了一點(diǎn)：如何讓您精心本地化的產(chǎn)品被廣泛的潛在用戶(hù)群發(fā)現？

　　在互聯(lián)網(wǎng)時(shí)代，消費者查找信息的首選是使用搜索引擎。但是，搜索引擎不一定會(huì )立即在搜索結果的首頁(yè)上展示公司的產(chǎn)品。如果我們自己的產(chǎn)品不能出現在首頁(yè)怎么辦——換個(gè)角度看，作為消費者，我們需要多少耐心和時(shí)間來(lái)翻頁(yè)？

　　這就是需要搜索引擎優(yōu)化 (SEO) 的地方。這是一種通過(guò)提高在無(wú)償搜索引擎結果中的排名來(lái)增加網(wǎng)站流量和品牌曝光度的技術(shù)。

　　SEO 不僅依靠搜索引擎原理來(lái)提高排名，更重要的是，它研究人們在網(wǎng)上搜索什么，人們期望得到什么樣的答案，人們使用什么樣的關(guān)鍵詞，以及想要獲得服務(wù)內容的人。如果了解所有這些，公司就可以定制他們的產(chǎn)品，以更好地匹配潛在用戶(hù)群的搜索習慣——理想情況下，用戶(hù)會(huì )在主頁(yè)上看到您為他們提供的內容。

　　除了了解用戶(hù)之外，您還需要了解機器。搜索引擎就像一個(gè)黑匣子——我們一直在使用它，卻不知道它是如何工作的。這一次，T先生盡量用簡(jiǎn)單的語(yǔ)言解釋清楚。

　　1 搜索引擎原理簡(jiǎn)介

　　搜索引擎的工作原理大致可以分為三個(gè)部分：

　　1.爬?。涸诰W(wǎng)上檢索內容，找到內容對應的代碼/URL。

　　2.索引：將爬取過(guò)程中找到的內容有序存儲；如果頁(yè)面在索引中，它將顯示為相關(guān)的搜索結果。

　　3.排名：按相關(guān)性降序排列搜索結果。

　　在抓取過(guò)程中，搜索引擎通過(guò)一組程序（稱(chēng)為“爬蟲(chóng)”或“蜘蛛”）發(fā)現/更新互聯(lián)網(wǎng)上的內容。所謂內容，可以指網(wǎng)頁(yè)、圖片、視頻、網(wǎng)頁(yè)附件——它們都有一個(gè)叫做統一資源定位器（Uniform Resource Locator，URL）的“ID號”。爬蟲(chóng)找到網(wǎng)頁(yè)內容和對應的URL并存儲，然后根據網(wǎng)頁(yè)內容中的其他URL跳轉到其他內容。

　　搜索引擎存儲的內容就像一本字典，索引是拼音或部首搜索。爬取的內容需要分析并存儲在索引數據庫中。專(zhuān)門(mén)分析數據庫中網(wǎng)頁(yè)的文本內容。

　　當用戶(hù)進(jìn)行搜索時(shí)，搜索引擎會(huì )從索引數據庫中檢索高度相關(guān)的內容并對其進(jìn)行排名。這種基于相關(guān)性對搜索結果進(jìn)行排名的方法稱(chēng)為排名。一般認為網(wǎng)站的排名越高，搜索引擎認為網(wǎng)站與查詢(xún)的相關(guān)性越高。

　　

　　1.1 告訴搜索引擎：“過(guò)來(lái)”

　　有時(shí)公司不希望某些頁(yè)面出現在搜索引擎中，例如頁(yè)內廣告、過(guò)期內容、私有內容等。網(wǎng)站開(kāi)發(fā)人員可以使用一些方法（例如robots.txt）來(lái)告訴爬蟲(chóng)不要爬取此類(lèi)頁(yè)面的內容。當然，公司在推廣產(chǎn)品時(shí)，肯定希望產(chǎn)品描述頁(yè)面被搜索引擎抓取。因此，如果您希望內容被搜索引擎發(fā)現，首先要確保它可以被爬蟲(chóng)訪(fǎng)問(wèn)并且可以索引。否則，就像隱身一樣。

　　以谷歌為例，使用高級搜索方式“site:”可以返回一個(gè)站點(diǎn)在谷歌索引中的所有結果。通過(guò)谷歌搜索控制臺（Google Search Console）還可以實(shí)現更準確的索引結果查詢(xún)和監控。這其實(shí)是搜索引擎優(yōu)化的第一步：檢查你的網(wǎng)頁(yè)是否被索引，哪些被索引，重要頁(yè)面是否被索引。

　　抓取預算

　　抓取預算（crawl budget）可以理解為搜索引擎爬蟲(chóng)在離開(kāi)一個(gè)站??點(diǎn)之前抓取的平均網(wǎng)址數。合理的爬取預算可以讓爬蟲(chóng)爬取更重要的頁(yè)面，避免在無(wú)用的信息/頁(yè)面上浪費時(shí)間。同時(shí)，這也意味著(zhù)用戶(hù)搜索時(shí)內容相關(guān)性可以更加集中。

　　用戶(hù)在構建網(wǎng)站時(shí)仍然需要通過(guò)HTML代碼來(lái)指導搜索引擎如何處理你的頁(yè)面。這樣的指令稱(chēng)為元指令或元標記。它們通常存在于 HTML 頁(yè)面的標簽中。有興趣的讀者可以自行了解。

　　1.2 搜索引擎：坐成一排吃水果水果

　　搜索引擎用于根據內容相關(guān)性對結果進(jìn)行排名的技術(shù)基于復雜的算法。谷歌幾乎每周甚至每隔幾天都會(huì )更新其排名算法。如今，機器學(xué)習和自然語(yǔ)言處理也在幫助搜索引擎獲得更好的排名。

　　RankBrain 是 Google 搜索引擎核心算法的機器學(xué)習組件。機器學(xué)習也是一種通過(guò)大量數據不斷改進(jìn)預測的技術(shù)。換句話(huà)說(shuō)，它總是在學(xué)習。因為它一直在學(xué)習，所以搜索排名結果會(huì )不斷提高。

　　用戶(hù)與搜索結果的交互也會(huì )影響搜索引擎的改進(jìn)。一般有四個(gè)因素：

　　這四個(gè)指標構成參與度指標。

　　不同的搜索引擎需要自己的 SEO

　　不同的搜索引擎有不同的排名算法。理論上，國際產(chǎn)品的本地化需要針對不同的搜索引擎實(shí)施SEO策略，但谷歌占據了國際市場(chǎng)的絕大部分份額。在預算有限的情況下，產(chǎn)品優(yōu)先為谷歌做SEO。但放眼中國大陸，SEO需要瞄準百度。

　　讀完后，公司可以通過(guò)一些方法讓自己的網(wǎng)站被搜索引擎捕獲，檢測網(wǎng)站的流量。接下來(lái)，T先生將介紹如何合理安排網(wǎng)站的內容，讓用戶(hù)在使用關(guān)鍵詞進(jìn)行搜索時(shí)，網(wǎng)站能被搜索引擎準確捕捉并呈現給用戶(hù)- 滿(mǎn)意的內容。

　　2 關(guān)鍵詞研究

　　在搜索引擎輸入框中輸入關(guān)鍵詞，回車(chē)，會(huì )呈現上千條結果，而我們往往只瀏覽前一兩頁(yè)的結果。

　　關(guān)鍵詞研究有助于產(chǎn)品本地化過(guò)程，提高對目標市場(chǎng)的了解，了解客戶(hù)如何搜索內容、服務(wù)和產(chǎn)品。一般關(guān)鍵詞研究主要是回答以下三個(gè)問(wèn)題：

　　人們搜索什么？

　　有多少人搜索過(guò)它？

　　想要的信息如何呈現？

　　

　　在我們進(jìn)行關(guān)鍵詞研究以?xún)?yōu)化搜索結果之前，我們需要知道的第一件事是，我們的產(chǎn)品是做什么的？我們的客戶(hù)是什么樣的？我們的目標是什么（高點(diǎn)擊率？高銷(xiāo)量？高下載量？）？

　　例如，美國西雅圖的一家素食無(wú)麩質(zhì)“健康”冰淇淋連鎖店計劃進(jìn)行 SEO。需要考慮的關(guān)鍵點(diǎn)是什么？

　　人們在尋找什么冰淇淋、甜點(diǎn)、小吃？

　　誰(shuí)在搜索這些產(chǎn)品？

　　人們什么時(shí)候在尋找冰淇淋、小吃、甜點(diǎn)等？

　　人們如何找到冰淇淋？

　　人們?yōu)槭裁匆獙ふ冶苛埽?/p>

　　潛在客戶(hù)在哪里 - 本地？全國？全球？

　　雖然產(chǎn)品制造商有 10,000 種方式來(lái)宣傳他們的產(chǎn)品，但重要的是客戶(hù)的搜索方式。有一個(gè)用于分析關(guān)鍵詞搜索的工具。輸入一個(gè)關(guān)鍵詞后，會(huì )給出幾個(gè)相似的關(guān)鍵詞/短語(yǔ)，并呈現它們的月平均搜索量變化圖。

　　2.1 關(guān)鍵詞，長(cháng)尾，季節和地區

　　數量關(guān)系

　　關(guān)鍵詞和平均每月搜索頻率符合長(cháng)尾理論。 20% 的關(guān)鍵詞每月的搜索量可以達到 10 萬(wàn)次或更多，而其余 80% 的關(guān)鍵詞（它們是長(cháng)尾）的平均每月搜索量可能不到 1 萬(wàn)次。因此，專(zhuān)注于幾個(gè)關(guān)鍵詞進(jìn)行內容優(yōu)化是一個(gè)合理的選擇。

　　同時(shí)，大廠(chǎng)已經(jīng)占據了最高頻率關(guān)鍵詞。作為小型企業(yè)/初創(chuàng )公司，選擇頻率稍低的關(guān)鍵詞/短語(yǔ)會(huì )獲得更好的收益效果。例如，一家小型冰淇淋店完全有理由放棄冰淇淋等高頻詞，并投資于更具體的關(guān)鍵詞如有機牛奶和*敏*感*詞*淇淋進(jìn)行優(yōu)化。

　　季節和地區也可能影響關(guān)鍵詞研究。例如，《送給女朋友的圣誕禮物》的檢索量在10-12月勢必會(huì )大幅增加。提前計劃更新內容網(wǎng)站可以讓企業(yè)搶占先機。谷歌的關(guān)鍵詞分析工具Google Keyword Planner，可以細化到市、省、國家三級，讓開(kāi)發(fā)者進(jìn)行關(guān)鍵詞研究。例如，半掛車(chē)在德克薩斯更常被稱(chēng)為“大型鉆機”，在紐約被稱(chēng)為“拖拉機拖車(chē)”，顯示了術(shù)語(yǔ)對 SEO 策略的影響。

　　2.2 消費者目的

　　谷歌將用戶(hù)的搜索行為概括為大致四種，分別對應用戶(hù)的各種檢索目的，即：

　　當用戶(hù)把目的放在輸入框的搜索格式上時(shí)，谷歌總結了以下五種：

　　根據以上幾類(lèi)，可以繪制出更精細的用戶(hù)意圖，進(jìn)而布局SEO策略。自搜索引擎誕生以來(lái)，全球所有互聯(lián)網(wǎng)用戶(hù)的搜索行為已經(jīng)進(jìn)行了數萬(wàn)億次。 Google 可以依靠這些數據提供幾乎完美的搜索結果，商家也可以使用這些數據進(jìn)行“完美”的 SEO。

　　本節中的信息取自 Google 質(zhì)量評估指南：

　　本文文章T先生分兩章簡(jiǎn)單介紹了SEO的準備工作，下一篇文章與SEO實(shí)踐相關(guān)：通過(guò)安排網(wǎng)頁(yè)內容和代碼設計進(jìn)行SEO 請期待它。謝謝~

0

2022-09-21

搜索引擎主題模型優(yōu)化

0 個(gè)評論

要回復文章請先登錄或注冊

視
頻
教
程

官方客服QQ群

在
線(xiàn)
客
服

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久