基于主題的網(wǎng)絡(luò )爬蟲(chóng)在主題搜索中的作用是什么
優(yōu)采云 發(fā)布時(shí)間: 2021-06-02 06:18基于主題的網(wǎng)絡(luò )爬蟲(chóng)在主題搜索中的作用是什么
尋呼機來(lái)建立數據庫。比如雅虎搜索。這種類(lèi)型的搜索引擎的優(yōu)點(diǎn)是頁(yè)面的準確率非常高。缺點(diǎn)是索引庫的更新需要人工干預,速度慢,覆蓋面小,成本高?;跈C器人的搜索引擎。其特點(diǎn)是網(wǎng)頁(yè)信息采集不需要人工干預。它主要利用一個(gè)叫Robot的軟件程序在網(wǎng)絡(luò )上自動(dòng)爬取信息采集,處理并提供查詢(xún)服務(wù),并能自動(dòng)更新索引數據庫。這類(lèi)搜索引擎的典型代表是谷歌,它利用互聯(lián)網(wǎng)中無(wú)處不在的超鏈接結構來(lái)自動(dòng)抓取網(wǎng)頁(yè)。其優(yōu)點(diǎn)是成本低,缺點(diǎn)是分類(lèi)不準確,誤檢和漏檢率高。智能檢索的搜索引擎。第三代搜索引擎的特點(diǎn)是增加了人工智能結果。利用Web數據挖掘技術(shù),利用分詞詞典和同音詞詞典來(lái)提高搜索結果。此外,它還可以輔助知識層面或概念層面的查詢(xún)。通過(guò)學(xué)科詞典,上下位詞典和相關(guān)詞典的搜索處理形成一個(gè)知識體系或概念網(wǎng)絡(luò ),給用戶(hù)智能的知識提示,最終幫助用戶(hù)獲得最佳的搜索結果。出現主題和地理搜索服務(wù)。搜索平臺逐漸向桌面、移動(dòng)等方向擴展,向智能化、個(gè)性化方向發(fā)展。主題搜索引擎。在本文中也稱(chēng)為“專(zhuān)業(yè)搜索引擎”和“主題搜索引擎”,簡(jiǎn)稱(chēng)主題搜索引擎。主要是為用戶(hù)提供某一主題或某一領(lǐng)域的網(wǎng)頁(yè)資源的檢索服務(wù)。它提供的資源與某個(gè)主題相關(guān)。服務(wù)更專(zhuān)業(yè),具有一定的個(gè)性化。
因此,它比前三代搜索引文更有效、更準確。具有話(huà)題覆蓋率高、話(huà)題爬蟲(chóng)在智能搜索引擎中的研究和實(shí)現程度高、搜索對象多樣化、服務(wù)個(gè)性化、專(zhuān)業(yè)化等特點(diǎn)。事實(shí)上,話(huà)題搜索引擎涵蓋了機器人搜索、人工智能等技術(shù),在使用上更具有現實(shí)意義?;谥黝}的網(wǎng)絡(luò )爬蟲(chóng)在主題搜索中的作用是根據啟發(fā)式搜索策略從網(wǎng)絡(luò )中獲取相關(guān)資源,這在很大程度上緩解了用戶(hù)使用搜索引擎獲取大量不相關(guān)頁(yè)面的問(wèn)題。因此,針對當今用戶(hù)對搜索引擎的實(shí)際需求,對主題爬蟲(chóng)進(jìn)行研究是非常有用的。隨著(zhù)互聯(lián)網(wǎng)服務(wù)的多元化,用戶(hù)獲取信息方式的變化以及服務(wù)商的技術(shù)創(chuàng )新,推動(dòng)了搜索模式的變化,這也是不同搜索服務(wù)商之間競爭的核心。用戶(hù)對搜索引擎的認知度和使用率持續快速提升,對搜索引擎的要求也越來(lái)越高。這將不可避免地加劇搜索服務(wù)提供商之間的競爭。但是,只有進(jìn)步才會(huì )有競爭。搜索引擎肯定會(huì )向前發(fā)展。向更人性化、更實(shí)用的方向發(fā)展。為了跟上網(wǎng)絡(luò )發(fā)展的速度,構建一個(gè)能夠適應網(wǎng)絡(luò )的基于主題的搜索引擎將面臨許多挑戰。網(wǎng)絡(luò )文檔采集所需的快速爬取技術(shù)存儲索引和網(wǎng)絡(luò )文檔所需的大存儲空間必須有效處理數據索引系統、快速查詢(xún)檢索系統等,隨著(zhù)網(wǎng)絡(luò )的擴大,成為搜索的難點(diǎn)技術(shù)。
但是,隨著(zhù)時(shí)代的發(fā)展,硬件的效率也隨著(zhù)計算機技術(shù)的更新而迅速提高,這在一定程度上緩解了軟件的難度。在此基礎上,我們希望主題搜索引擎中的爬蟲(chóng)技術(shù)能夠保證下載頁(yè)面存儲和索引的成本盡可能小,查詢(xún)處理速度盡可能快。搜索引擎盡可能對用戶(hù)友好。國外搜索引擎技術(shù)的發(fā)展已有十多年的歷史。雅虎是第一個(gè)提供目錄指南的搜索引擎。根據用戶(hù)輸入的搜索公式,雅虎會(huì )返回相關(guān)的雅虎分類(lèi)、Web網(wǎng)站、網(wǎng)頁(yè)和新聞。目前,AlatVisat 是互聯(lián)網(wǎng)上最大的搜索引擎之一。它提供常規搜索、高級搜索和主題搜索,包括圖像、視頻和音頻。 AlatVista 擁有的龐大數據庫大大增加了用戶(hù)查找所需信息的可能性。 Google 擁有 40 億個(gè)可搜索網(wǎng)頁(yè),每天處理 2 億個(gè)搜索請求。操作界面提供30多種語(yǔ)言選擇,包括英語(yǔ)、歐洲主要語(yǔ)言、日語(yǔ)、中文簡(jiǎn)繁體、韓語(yǔ)等。 目前*敏*感*詞*對搜索引擎的研究始于上世紀末和本世紀初。雖然國內起步較晚,但也出現了一些優(yōu)秀的產(chǎn)品。目前,中國技術(shù)最先進(jìn)的搜索引擎是百度。功能齊全,包括新聞搜索、網(wǎng)站搜索、MP3搜索、圖片搜索等。在中文搜索支持方面,在某些地方甚至超過(guò)了谷歌的更新速度。
在搜索結果中,百度也設置了相關(guān)搜索功能,可以為用戶(hù)提供與查詢(xún)相關(guān)的信息關(guān)鍵詞,從而進(jìn)一步提高查詢(xún)的準確率。隨著(zhù)搜索市場(chǎng)價(jià)值的不斷提升,越來(lái)越多的公司開(kāi)發(fā)了自己的搜索頁(yè)面引擎,如中國搜索、搜狐的搜狗、網(wǎng)易有道、阿里巴巴的商機搜索等,也紛紛出現。自然搜索引擎技術(shù)成為了技術(shù)員。關(guān)注的焦點(diǎn)。近年來(lái),隨著(zhù)WWW技術(shù)的廣泛應用,上面介紹的一些傳統的通用搜索引擎面臨著(zhù)巨大的挑戰。一是網(wǎng)絡(luò )信息資源呈指數級增長(cháng)。傳統搜索引擎無(wú)法覆蓋網(wǎng)絡(luò )中的所有頁(yè)面。然后,Web信息資源的動(dòng)態(tài)變化。搜索引擎無(wú)法保證所有信息的及時(shí)更新。最后,傳統搜索引擎提供的信息檢索服務(wù)是做不到的。滿(mǎn)足人們對個(gè)性化服務(wù)日益增長(cháng)的需求。面對這些挑戰,為了滿(mǎn)足不同人群的需求,各種“話(huà)題搜索引擎”應運而生。主題特定搜索引擎引起了研究人員的注意。已成為當今社會(huì )的研究熱點(diǎn)。新一代搜索引擎的研究正成為熱點(diǎn)。這里是一個(gè)代表性的系統。 Scirus 是科學(xué)文獻的主題搜索引擎。其信息來(lái)源主要包括網(wǎng)頁(yè)和期刊兩部分。它首先過(guò)濾網(wǎng)絡(luò )中找到的結果,然后只列出收錄科學(xué)信息的組件,方便科研人員。
伯克利的 Focused Project 系統使用兩個(gè)程序來(lái)引導爬蟲(chóng)。一個(gè)是分類(lèi)器,用于計算下載的文檔與預定主題的相關(guān)性,另一個(gè)是凈化器,用于識別指向許多相關(guān)資源的頁(yè)面?;诟拍钏阉鞯膕jeevs搜索引擎將用戶(hù)的問(wèn)題轉化為系統已知的問(wèn)題。在分析問(wèn)題的結構和內容后,它要么直接給出問(wèn)題的答案,要么引導用戶(hù)從幾個(gè)可選擇的問(wèn)題中進(jìn)行選擇。用戶(hù)只需要輸入一個(gè)簡(jiǎn)單的問(wèn)句,比如等價(jià)句,就可以直接得到結果。 4 基于電路課程的主題搜索引擎的設計和本文的組織結構 本文的研究目標是提出適合主題搜索引擎的網(wǎng)絡(luò )爬蟲(chóng)技術(shù)和優(yōu)化索引技術(shù),構建主題搜索引擎系統基于電路課程,為今后某一領(lǐng)域的搜索引擎研究做準備工作。本文的研究思路是從話(huà)題搜索引擎網(wǎng)頁(yè)爬取技術(shù)入手,在現有原有算法的基礎上提出改進(jìn)算法,并通過(guò)相應的測試對比應用到搜索引擎中的話(huà)題搜索引擎設計??紤]到人性化的特點(diǎn),選擇了AJAX自動(dòng)顯示技術(shù)域名過(guò)濾等優(yōu)化方式,提高相應的訪(fǎng)問(wèn)效率。本文的內容共分為五章。第一章全面介紹了搜索引擎的起源、發(fā)展現狀和趨勢。針對通用搜索引擎存在的問(wèn)題,提出了本論文的研究方向。主題搜索引擎。介紹了主題搜索引擎的背景和實(shí)用價(jià)值及理論意義。研究現狀。
第二章介紹了主題搜索引擎的關(guān)鍵技術(shù)。主要介紹專(zhuān)業(yè)爬蟲(chóng)技術(shù)、中文分詞技術(shù)、網(wǎng)頁(yè)提取技術(shù)。本文主要選用ICTCLAS中文分詞系統對網(wǎng)頁(yè)自動(dòng)分類(lèi)聚類(lèi)的一般步驟和方法進(jìn)行總結比較。介紹了常用爬蟲(chóng)技術(shù)與專(zhuān)業(yè)爬蟲(chóng)技術(shù)的比較。網(wǎng)頁(yè)提取技術(shù)為網(wǎng)絡(luò )爬蟲(chóng)技術(shù)提供了鋪墊。以上三項技術(shù)為第3章和第4章的詳細設計和實(shí)現做準備。第三章主要是對主題搜索引擎系統的整體框架進(jìn)行設計。首先介紹了專(zhuān)題搜索引擎和通用搜索引擎的框架結構以及本章主要重點(diǎn)工作的比較與選擇。還詳細介紹了網(wǎng)頁(yè)抓取模塊中的參數設置、主題詞的選擇、加權網(wǎng)頁(yè)和聚合網(wǎng)頁(yè)的選擇。在此基礎上,對主題搜索引擎系統的整體結構設計及相應的詳細設計進(jìn)行了分析和建議。第四章主要詳細介紹了基于電路課程的主題搜索引擎的應用效果展示。真正實(shí)現有效、人性化的搜索結果,選擇優(yōu)化算法有效抓取網(wǎng)頁(yè)的主題爬蟲(chóng)的設計和應用效果對比,為搜索引擎的應用做好必要的準備。第五章總結與展望 對該搜索引擎運行的測試結果和存在的不足進(jìn)行進(jìn)一步討論。第二章主題搜索引擎關(guān)鍵技術(shù)主題搜索引擎是為特定領(lǐng)域、特定人群或特定需求提供有價(jià)值的信息和相關(guān)服務(wù)。
它的特點(diǎn)是專(zhuān)業(yè)、成熟、深入和行業(yè)特定。它是一種與一般搜索引擎截然不同的引擎。主題搜索引擎專(zhuān)注于特定深度的垂直服務(wù),致力于信息的全面性和特定領(lǐng)域的深度內容。此字段之外沒(méi)有其他信息 收錄。搜索領(lǐng)域有句名言。用戶(hù)不能描述他正在尋找什么,除非他被顯示他正在尋找什么。來(lái)自微軟研究院的一位技術(shù)專(zhuān)家表示,“一般搜索引擎無(wú)法搜索到 75 項內容”。話(huà)題搜索引擎的誕生是為了更大程度上提高搜索的“召回率”和“準確率”。主題搜索引擎通過(guò)對行業(yè)信息模型和用戶(hù)模型的結構化采集或重組,提供更多、更專(zhuān)業(yè)、更個(gè)性化的行業(yè)相關(guān)服務(wù)。 1 主題搜索引擎功能模塊 主題搜索引擎的主要主要結構和結構模塊如圖1所示。網(wǎng)絡(luò )爬取模塊Web Spider是主題搜索引擎的第一步。本模塊從互聯(lián)網(wǎng)海量信息中抓取,與搜索引擎的主題相關(guān)。比如你設計了一個(gè)電路理論學(xué)習的話(huà)題搜索引擎,你可以根據話(huà)題詞抓取到教育網(wǎng)站或相關(guān)網(wǎng)站。該模塊還包括對網(wǎng)頁(yè)進(jìn)行預處理,去除一些不符合主題規范的網(wǎng)頁(yè),然后進(jìn)行網(wǎng)頁(yè)凈化,使其符合提取規范。第二步是信息提取和索引模塊。該模塊的主要目的是生成倒排索引并存儲。在數據庫中,方便在查詢(xún)模塊中提高查全率和查準率。該模塊是主題搜索引擎中最重要的部分。最關(guān)鍵的一步是從第一步得到的大量網(wǎng)頁(yè)中提取信息。從大量結構化和非結構化數據中提取信息。
然后對提取的信息進(jìn)行中文分詞,建立倒排索引,生成索引文件,存入數??據庫。第三步是設計查詢(xún)頁(yè)面和查詢(xún)算法,讓用戶(hù)可以根據第二步得到的索引文件進(jìn)行查詢(xún)。這一步的關(guān)鍵是如何設計一個(gè)優(yōu)秀的查詢(xún)算法來(lái)評估網(wǎng)頁(yè)的“重要性”。搜索引擎針對以上三個(gè)模塊選擇相應的關(guān)鍵技術(shù)進(jìn)行相應搜索引擎的研發(fā)。這里選取三項關(guān)鍵技術(shù)進(jìn)行詳細介紹。分別是網(wǎng)絡(luò )爬蟲(chóng)技術(shù)、中文分詞技術(shù)、信息抽取技術(shù)。 2 中文分詞技術(shù) 10 英語(yǔ)和其他西方語(yǔ)言使用空格將單個(gè)單詞分隔成句子。分詞比較簡(jiǎn)單,但中文以漢字為單位。句子中的詞與詞之間沒(méi)有空格,漢字使用“一字多義”,不同字符組合中詞的含義多種多樣,給分詞造成很大困難,對漢語(yǔ)詞匯識別也造成很大困難。常用詞約30,000個(gè)。詞可分為單字詞、二字詞、……七字詞等。據統計,雙音節詞約占73個(gè)。單音節詞約占9個(gè)。三音節詞占約17個(gè) 四個(gè)音節以上的詞占約5個(gè) 現有的分詞算法可分為三類(lèi):基于字符串匹配的分詞方法、基于統計的分詞方法和給予理解的分詞方法。機械分詞方法需要分詞詞典的支持。它具有效率高、算法簡(jiǎn)單的特點(diǎn),但難以消除機械分割帶來(lái)的歧義。準確率很差。統計分詞法根據詞的出現頻率來(lái)判斷該詞出現的概率。這種方法可以有效地識別新詞。分詞方法耗費大量時(shí)間和空間,效率有限,可以讓計算機模擬人類(lèi)對句子的理解來(lái)識別單詞。由于語(yǔ)言知識和語(yǔ)言規則的復雜性,該方法仍處于研究階段。
基于字符串匹配的分詞方法。這種方法也稱(chēng)為機械分詞方法。它按照一定的策略將要分詞的漢字字符串與分詞詞典中的詞條進(jìn)行匹配。如果你在字典中找到了一些如果字符串匹配成功,則識別出一個(gè)單詞。根據掃描方向的串匹配方式不同,可分為正向匹配和反向匹配。根據不同長(cháng)度的優(yōu)先匹配,可以分為最大最長(cháng)匹配和最小最短匹配。根據是否結合詞性標注過(guò)程,可分為簡(jiǎn)單分詞。方法和分詞與標注相結合的集成方法。幾種常用的機械分詞方法如下: 正向最大匹配法的方向是從左到右,反向最大匹配法的方向是從右到左。最小分割是從右到左,以盡量減少每個(gè)句子中切出的單詞數。上述方法也可以相互組合。中文單字構詞的特點(diǎn),正向最小匹配和反向最小匹配,一般很少用到。一般來(lái)說(shuō),反向匹配的分割精度略高于正向匹配,二義性較少。另一種方法是改進(jìn)稱(chēng)為特征掃描或標記分割的掃描方法。優(yōu)先識別和切分待分析字符串中一些特征明顯的詞。這些詞可以作為斷點(diǎn),將原創(chuàng )字符串分割成幾個(gè)較短的子字符串,然后機械分割,以降低匹配的錯誤率。另一種方法是將分詞和詞性標注相結合,利用豐富的詞性信息幫助分詞決策,并在標注過(guò)程中依次檢查和調整分詞結果,從而大大提高提高分割的準確性。
對于機械分詞方法,可以建立一個(gè)通用的模型,正式表示為ASM或Automatic Segmentation Model。其中,匹配方向1表示正向,1表示反向。每次匹配失敗后增加和減少字符串的長(cháng)度。最大和最小匹配標志為 1 為最大匹配,1 為最小匹配。比如ASM就是前向減法最大匹配法,即MM法。 ASM就是逆減最大匹配法,即RMM法,等等。對于現代漢語(yǔ),只有m 1 是一種實(shí)用的方法。該模型可用于比較各種方法的復雜性。假設字典的匹配過(guò)程采用順序搜索和相同的初始詞索引搜索方法,沒(méi)有初始詞索引的最小搜索次數為log。漢字總字數為12 14 并且將詞典讀入內存時(shí),對于典型的詞頻分布減去詞匹配ASM,基于統計的分詞方法從形式上看是詞的穩定組合,所以在上下文中同時(shí)出現的相鄰詞越多,就越有可能形成一個(gè)詞。因此,字符與字符之間共現的頻率或概率可以更好地反映為單詞的可信度??梢越y計語(yǔ)料中相鄰共現字符的組合頻率,計算出它們的相互出現信息。定義兩個(gè)字符的相互出現信息。計算兩個(gè)漢字A B 的相鄰共現概率?;バ畔⒎从碀h字之間組合關(guān)系的緊密程度。當接近度高于某個(gè)閉合值時(shí),可以認為該詞組可以構成一個(gè)詞。
這種方法只需要統計語(yǔ)料中詞組出現的頻率,不需要對詞典進(jìn)行切分,所以也稱(chēng)為非詞典切分法或統計分詞法。但是,這種方法也有一定的局限性。它經(jīng)常提取一些共現頻率高但不是“this”、“one”、“you”、“my”、“many”等常用詞組。常用詞識別準確率差,時(shí)間和空間成本大。實(shí)際應用的統計分詞系統必須使用一個(gè)基本的分詞詞典,用于字符串匹配和分詞的常用詞詞典。同時(shí),利用統計方法對一些新詞進(jìn)行識別,即串頻統計和串匹配相結合,達到快速匹配分詞的速度和效率。 Gao的特點(diǎn)是利用無(wú)詞典分詞結合上下文的優(yōu)勢,識別新詞,自動(dòng)消除歧義。哪種分詞算法更準確,目前還沒(méi)有定論。一個(gè)成熟的分詞系統一般需要集成不同的算法。例如,有人提出了一種使用改進(jìn)的馬爾可夫N-gram語(yǔ)言模型的統計處理方法來(lái)處理分詞中的歧義問(wèn)題,以提高準確率?;诶斫獾姆衷~方法 這種分詞方法通過(guò)讓計算機模擬人類(lèi)對句子的理解來(lái)達到識別單詞的效果?;舅枷胧窃谇性~的同時(shí)進(jìn)行句法語(yǔ)義分析,利用句法語(yǔ)義信息處理歧義。它通常包括三個(gè)部分:分詞子系統、句法語(yǔ)義子系統和通用控制部分。分詞子系統在總控部分的協(xié)調下,可以獲取單詞、句子等的句法語(yǔ)義信息來(lái)判斷分詞的歧義,即模擬人們對句子的理解過(guò)程。
這種分詞方法需要大量的語(yǔ)言知識和信息。由于漢語(yǔ)知識的普遍性和復雜性,很難將各種語(yǔ)言信息組織成機器可以直接讀取的形式。因此,目前基于理解的分詞系統還處于實(shí)驗階段。本課題選用ICTCLAS Institute Computing Technology Chinese Lexical Analysis System,一個(gè)基于Cascading Hidden Horse Model 10的中文詞法分析系統。該系統的功能包括中文分詞、詞性標注、未注冊詞識別。分詞準確率高達97 58。近期973專(zhuān)家組評價(jià)結果,基于角色標注的未注冊詞識別召回率達到90以上。中文姓名識別召回率接近98,分詞和詞性標注處理速度為543 5KB s。我們使用其完整的動(dòng)態(tài)鏈接庫ICTCLAS dll COM組件和對應的概率字典直接調用ICTCLAS。專(zhuān)業(yè)的爬蟲(chóng)技術(shù)我們把專(zhuān)業(yè)搜索引擎中使用的網(wǎng)絡(luò )蜘蛛稱(chēng)為T(mén)opic Web Spider。主題網(wǎng)絡(luò )蜘蛛只搜索特定領(lǐng)域的信息。它們用于專(zhuān)業(yè)搜索引擎系統,以滿(mǎn)足特定人群的需求。隨著(zhù)人們對特定信息查詢(xún)準確性要求的不斷提高,專(zhuān)業(yè)搜索引擎越來(lái)越受到研究人員的關(guān)注。對于專(zhuān)業(yè)的搜索引擎系統,對主題網(wǎng)絡(luò )蜘蛛的要求更高,搜索策略也更復雜。往往需要引入機器學(xué)習算法,使搜索具有適應性、學(xué)習性和進(jìn)化性,使搜索到的網(wǎng)頁(yè)盡可能接近。主題之間存在高度相關(guān)性。
1 專(zhuān)業(yè)搜索引擎中的網(wǎng)絡(luò )蜘蛛模型。網(wǎng)絡(luò )蜘蛛的任務(wù)是獲取與當前主題相關(guān)的網(wǎng)頁(yè),并確定鏈接訪(fǎng)問(wèn)的順序。它通常從用戶(hù)查詢(xún)、*敏*感*詞*鏈接或*敏*感*詞*頁(yè)面等主題*敏*感*詞*“*敏*感*詞*集”開(kāi)始,以循環(huán)迭代的方式訪(fǎng)問(wèn)互聯(lián)網(wǎng)。在搜索過(guò)程中,網(wǎng)絡(luò )蜘蛛根據鏈接在隊列中的重要性決定下一個(gè)要訪(fǎng)問(wèn)的鏈接。整個(gè)過(guò)程如圖2所示。 2專(zhuān)業(yè)網(wǎng)絡(luò )爬蟲(chóng)模型 圖SpecificSearch Engine 從圖2可以看出,專(zhuān)業(yè)搜索引擎網(wǎng)絡(luò )蜘蛛模型的核心是鏈接值的計算和優(yōu)先級控制器。它的作用是計算鏈接與話(huà)題的相關(guān)性,計算鏈接值來(lái)確定鏈接。訪(fǎng)問(wèn)順序。話(huà)題網(wǎng)蜘蛛必須至少包括以下三個(gè)方面。啟動(dòng)“*敏*感*詞*”鏈接,因為主題網(wǎng)絡(luò )蜘蛛必須抓取盡可能多的與主題相關(guān)的網(wǎng)頁(yè)。這就需要一組非常好的“*敏*感*詞*”作為網(wǎng)絡(luò )蜘蛛爬行的起始頁(yè)面。這些好的“*敏*感*詞*”頁(yè)面和主題是必需的。的相關(guān)性非常高,通過(guò)這些“*敏*感*詞*”頁(yè)面,您可以找到盡可能多的其他主題相關(guān)頁(yè)面。 10 11 話(huà)題關(guān)鍵詞,因為話(huà)題網(wǎng)蜘蛛只抓取話(huà)題相關(guān)的頁(yè)面,過(guò)濾掉與話(huà)題無(wú)關(guān)的頁(yè)面。它需要網(wǎng)絡(luò )蜘蛛以一組主題區分性很強的關(guān)鍵詞進(jìn)入搜索過(guò)程。這組關(guān)鍵詞必須充分體現主題內容,并且能夠區分其他主題,也就是說(shuō)主題關(guān)鍵詞都是