最新版:基于微博數據采集Web信息集成系統研究.doc 13頁(yè)
優(yōu)采云 發(fā)布時(shí)間: 2022-09-29 17:15最新版:基于微博數據采集Web信息集成系統研究.doc 13頁(yè)
基于微博數據的Web信息集成系統摘要采集處理系統,通過(guò)用戶(hù)提供的關(guān)鍵詞,結合人工篩選關(guān)鍵詞擴展,采集提取相關(guān)全網(wǎng)新聞和微博數據。設計并實(shí)現一種基于關(guān)鍵詞和轉發(fā)數的新聞排序方法,對特定字段采集的新聞數據進(jìn)行處理和排序,選擇重要信息進(jìn)行定向推送。以氣候變化領(lǐng)域為例,設計了一個(gè)Web信息集成系統。關(guān)鍵詞:Web信息集成;微博數據采集; 氣候變化;2016)11?0125?04 摘要:針對特定領(lǐng)域的Web信息集成系統采用模塊化構建。
本文研究的特定領(lǐng)域Web信息集成系統,旨在對某一領(lǐng)域的Web信息進(jìn)行深度挖掘,整合與Web領(lǐng)域相關(guān)的新聞和微博數據采集,為該領(lǐng)域的學(xué)者和用戶(hù)提供信息支持。場(chǎng)地。1 特定領(lǐng)域Web信息集成系統設計1.1 特定領(lǐng)域Web信息集成系統Web信息集成系統整合Web上分散、異構、自治站點(diǎn)的數據信息,屏蔽所有數據源的細節. 只有用戶(hù)查詢(xún)的信息以統一的格式返回給用戶(hù)。在設計特定領(lǐng)域的Web信息集成系統時(shí),首先要做的就是分析用戶(hù)對信息集成系統的需求。用戶(hù)關(guān)注某個(gè)領(lǐng)域,掌握該領(lǐng)域比較重要的網(wǎng)站。同時(shí),基于該領(lǐng)域的研究,用戶(hù)可以使用一些領(lǐng)域本體關(guān)鍵詞來(lái)描述該領(lǐng)域的研究熱點(diǎn)、新聞熱點(diǎn)、微博熱點(diǎn)等。圖1描述了用戶(hù)之間的相互需求關(guān)系以及特定領(lǐng)域的Web信息集成系統。進(jìn)一步細化了Web信息集成系統的內部方法流程,輸入關(guān)鍵詞和目標站點(diǎn),輸出三種方式的信息推送。具體方法流程如圖2所示。 1.2 系統結構 為了降低系統設計的復雜度,本文在構建特定領(lǐng)域的Web信息集成系統時(shí)采用了模塊化編程的思想。
根據每個(gè)模塊的功能不同,每個(gè)模塊收錄一個(gè)或多個(gè)子流程。其詳細的系統功能結構如圖3所示。 2 關(guān)鍵技術(shù)2.1 新聞網(wǎng)絡(luò )信息數據采集 與領(lǐng)域相關(guān)的新聞信息數據主要來(lái)自用戶(hù)提供的目標網(wǎng)站,以及全網(wǎng)基于關(guān)鍵詞采集System采集的消息是增量輔助數據。特定域的網(wǎng)絡(luò )信息集成系統爬蟲(chóng)負責下載該域相關(guān)的新聞網(wǎng)頁(yè)源代碼。主要是從系統維護的URL序列中,有序提取URL,獲取相應網(wǎng)頁(yè)的HTML源代碼,提取有用信息并存入數據庫。2. 2 網(wǎng)絡(luò )微博信息數據處理采集 通過(guò)對國內微博平臺的調研,選擇市場(chǎng)份額最大的新浪微博作為特定領(lǐng)域網(wǎng)絡(luò )信息集成系統的微博中文數據源。國外微博輿論選擇推特。圖4以新浪微博為例說(shuō)明了本文提出的信息數據采集提取方法。2.3 數據處理(1)數據去重處理面對的是全網(wǎng)信息采集,必然會(huì )遇到數據重復的問(wèn)題。對重復信息的分析表明,重復的主要來(lái)源數據為:1、同一條新聞存在于同一站點(diǎn)的不同版塊,采集系統下載兩次以上;二、相同的新聞內容在不同的網(wǎng)站上發(fā)表或轉載,新聞內容變化不大。系統有兩個(gè)模塊:采集期間去重和采集之后脫機去重。采集期間的去重模塊主要針對同一個(gè)新聞同一個(gè)URL地址。
對于第二種情況,系統實(shí)現中使用了基于句子的Simhash去重算法。(2)數據過(guò)濾過(guò)程需要對數據庫中已經(jīng)存儲的信息進(jìn)行過(guò)濾,以去除數據處理過(guò)程中不相關(guān)的信息。如果微博內容中收錄用戶(hù)域關(guān)鍵詞相關(guān),則認為過(guò)濾方式為域微博,如果不收錄,則刪除微博信息。(3)數據排序和處理新聞網(wǎng)絡(luò )信息數據排序原理是綜合新聞內容字段的相關(guān)性、時(shí)效性和內容重要性排序。①計算領(lǐng)域相關(guān)性權重新聞內容,在數據處理前,給域關(guān)鍵詞分配相應的權重,然后對新聞內容進(jìn)行切分,與域關(guān)鍵詞匹配,統計匹配字段關(guān)鍵詞及其頻率,計算內容相關(guān)性權重: ②根據新聞轉發(fā)次數計算新聞重要性權重。③經(jīng)過(guò)以上兩步,得到每條新聞的相關(guān)性和重要性,結合新聞時(shí)效性,可以很好地對數據庫中的新聞數據進(jìn)行排序。針對微博信息熱點(diǎn)推薦,設計并實(shí)現了一種改進(jìn)的短文本話(huà)題發(fā)現方法。該方法滿(mǎn)足大量微博數據。微博的處理和傳播特性,首先基于馬爾科夫模型(Hideen Markov Model)發(fā)現新詞。然后利用新詞發(fā)現結果構建LDA模型實(shí)現微博熱點(diǎn)挖掘,最后結合微博發(fā)布時(shí)間和轉發(fā)次數。,
2.4 特定領(lǐng)域信息的監測與自動(dòng)更新模塊 針對新聞網(wǎng)頁(yè)動(dòng)態(tài)性強、數據更新頻率不固定的問(wèn)題,設計了新聞網(wǎng)站監測與自動(dòng)更新模塊并實(shí)施。通過(guò)對目標網(wǎng)站的監控,建立網(wǎng)站信息的快照,并設置更新間隔、增益和下次更新時(shí)間。具體流程信息如下: Step1:針對目標新聞網(wǎng)站索引頁(yè),從數據庫中讀取其網(wǎng)頁(yè)快照更新間隔Gain next update time Step2:通過(guò)比較當前系統時(shí)間判斷是否更新索引頁(yè)以及索引頁(yè)的下一次更新時(shí)間。如果系統當前時(shí)間還沒(méi)有到索引頁(yè)的下一次更新時(shí)間,網(wǎng)站的更新檢查將被忽略;如果當前時(shí)間已經(jīng)過(guò)了下一次更新時(shí)間,則調用系統網(wǎng)絡(luò )爬蟲(chóng)下載索引頁(yè)的網(wǎng)頁(yè)信息,獲取當前網(wǎng)頁(yè)的快照。第三步:將當前網(wǎng)頁(yè)快照與數據庫中的網(wǎng)頁(yè)快照進(jìn)行比較,判斷網(wǎng)頁(yè)是否更新。將步驟2中獲取的索引頁(yè)面的網(wǎng)頁(yè)快照與從數據庫中讀取的最后一個(gè)網(wǎng)頁(yè)快照進(jìn)行比較。如果兩個(gè)網(wǎng)頁(yè)截圖完全相同,則表示該網(wǎng)站的信息沒(méi)有更新;如果它們不同,則表示該網(wǎng)站不一樣。新聞信息已更新,系統自動(dòng)調用網(wǎng)絡(luò )爬蟲(chóng)將更新后的數據下載到數據庫中。Step4:在第三步之后,可以判斷網(wǎng)頁(yè)索引頁(yè)的信息是否更新,然后需要修正相應的更新時(shí)間間隔,計算下一次更新時(shí)間。對于沒(méi)有任何更新的網(wǎng)站,需要動(dòng)態(tài)增加更新間隔,下次更新時(shí)間采用如下表達式: 上述監控程序定期訪(fǎng)問(wèn)更新時(shí)間早于當前時(shí)間的網(wǎng)站,并與網(wǎng)頁(yè)快照判斷是否更新。
通過(guò)動(dòng)態(tài)增加或減少更新間隔時(shí)間,可以保證數據庫中的更新時(shí)間間隔動(dòng)態(tài)逼近網(wǎng)站的真實(shí)更新間隔,計算出的下次更新時(shí)間上下波動(dòng)。這樣,網(wǎng)絡(luò )信息集成系統就可以根據預期的網(wǎng)站更新時(shí)間更新數據采集,合理利用有限的資源,避免大量無(wú)關(guān)的檢索操作,提高檢索效率。 采集。2.5 特定字段的可視化和推送(1)動(dòng)態(tài)網(wǎng)站展示和郵件推送。通過(guò)網(wǎng)站展示,用戶(hù)可以直觀(guān)的獲取整合后或感興趣的新聞內容在微博信息中,但有限制。一旦用戶(hù)離開(kāi)PC,很難獲得有關(guān)系統集成的信息。(2)微信公眾號信息推送。微信公眾平臺是公眾號開(kāi)發(fā)菜單的高級功能之一。為移動(dòng)開(kāi)發(fā)者提供了兩種微信公眾號模式:編輯模式和開(kāi)發(fā)模式。啟用微信公眾號在編輯模式下,管理員可以整合用戶(hù)的關(guān)注點(diǎn)和自己的服務(wù)內容,配置對應的公眾號信息庫。 開(kāi)發(fā)模式是騰訊推出的使用第三方服務(wù)器響應的微信公眾號開(kāi)發(fā)方式3 Web信息集成系統的實(shí)現與分析3.
系統在預處理模塊中將這些配置文件加載到系統中,同時(shí)初始化數據庫、顯示網(wǎng)站、通過(guò)郵件推送訂閱用戶(hù)列表等。在預處理階段,根據關(guān)鍵詞由用戶(hù)和用戶(hù)需要提供,字段關(guān)鍵詞的詞集可以有針對性的擴展,提供后續數據采集,處理提供支持。(3)數據采集及處理模塊①Web數據采集模塊氣候變化領(lǐng)域Web信息集成系統數據源分為新聞數據源和微博數據源,其中新聞Web數據源主要使用用戶(hù)自定義的方式來(lái)指定與領(lǐng)域相關(guān)的Web新聞?wù)军c(diǎn),以保證新聞的準確性和相關(guān)性。微博數據的主要來(lái)源是新浪微博和推特,并將以新浪微博和推特為基礎。微博搜索引擎獲取的騰訊微博和搜狐微博作為微博數據的補充。系統數據信息采集模塊包括領(lǐng)域新聞采集和微博輿情信息采集模塊。領(lǐng)域新聞信息采集分為基于氣候變化領(lǐng)域相關(guān)新聞網(wǎng)站索引頁(yè)的新聞信息采集和基于氣候變化領(lǐng)域的全網(wǎng)新聞信息采集氣候變化領(lǐng)域關(guān)鍵詞,通過(guò)索引頁(yè)面識別和翻頁(yè)模塊,采集提取新聞網(wǎng)頁(yè)鏈接的URL,然后采用文本提取方法提取文本信息采集@ >,
兩者的主要區別在于網(wǎng)站的信息來(lái)源不同。前者有學(xué)者和專(zhuān)家指定氣候變化領(lǐng)域的新聞網(wǎng)站,而后者則依靠搜索引擎在全網(wǎng)搜索氣候變化領(lǐng)域的新聞信息。后者主要作為前者信息的補充,同時(shí)通過(guò)關(guān)鍵詞進(jìn)行擴展,對新聞事件檢索有較好的效果。網(wǎng)絡(luò )爬蟲(chóng)采集過(guò)程中對兩個(gè)新聞URL去重,過(guò)濾重復新聞信息。②Web數據處理模塊信息集成系統采集模塊采集本地數據庫存儲大量氣候變化相關(guān)新聞和微博數據。雖然在采集的過(guò)程中進(jìn)行了URL去重和Simhash指紋算法去重,但是這些數據還需要進(jìn)一步綜合處理才能交給展示推送模塊推送給用戶(hù)。氣候變化領(lǐng)域Web信息集成系統數據處理模塊中收錄的幾個(gè)子模塊如圖5所示。 ③領(lǐng)域信息監測與自動(dòng)更新模塊網(wǎng)站信息更新時(shí)間是不同的。通過(guò)監控和自動(dòng)更新模塊,系統可以調用采集模塊更新相應站點(diǎn)信息中的網(wǎng)站信息采集時(shí)間更新時(shí)間上下波動(dòng),避免過(guò)于頻繁采集 @> 在目標站點(diǎn)的更新周期內進(jìn)行操作,造成不必要的資源浪費。氣候變化領(lǐng)域網(wǎng)絡(luò )信息集成系統運行后,監測與自動(dòng)更新模塊會(huì )為某個(gè)網(wǎng)站的索引頁(yè)面創(chuàng )建網(wǎng)頁(yè)快照,并設置默認更新間隔T和增益K,并在同時(shí)根據當前時(shí)間和更新間隔計算下一個(gè)S,并將這些數據保存到庫下載任務(wù)表中。
域關(guān)鍵詞等信息,方便系統遷移到不同域,滿(mǎn)足不同用戶(hù)的需求。在采集用戶(hù)設置目標站點(diǎn)的同時(shí),系統可以采集處理全網(wǎng)相關(guān)新聞和微博數據,并將相關(guān)信息存入數據庫進(jìn)行展示。推送模塊調用。在介紹系統設計的同時(shí),闡述了各個(gè)模塊的實(shí)現技術(shù)和功能,研究了關(guān)鍵技術(shù),以及基于XPath的索引翻頁(yè)方法、通用新聞網(wǎng)頁(yè)文本方法和采集系統基于關(guān)鍵詞現場(chǎng)新聞數據和微博輿情信息等。參考文獻[1]吳斌杰,徐子偉,于飛華?;贏(yíng)PI的微博信息采集系統設計與實(shí)現[J]. RIBEIRO?NETO BA、DA SILVA AS 等人。Web數據抽取工具概述[J]. ACM SIGMOD record, 2002, 31 (2): 84?93. [7] FLESCA S, MANCO G, MASCIARI E, et al. Web Wrapper Induction: a Brief Survey [J]. AI Communications , 2004, 17 (2): 57?61.
最新發(fā)布:PbootCMS采集插件提升網(wǎng)站收錄排名
在我們選擇了Pbootcms之后,網(wǎng)站內容構建和網(wǎng)站收錄排名是大家比較關(guān)心的問(wèn)題,很多網(wǎng)站在頁(yè)面的過(guò)程中布局,往往更注重布局新穎、氣派,但能否滿(mǎn)足用戶(hù)的實(shí)際需求?搜索引擎可以識別 網(wǎng)站關(guān)鍵詞 主題嗎?這些根本不考慮,如果不能,就堆積關(guān)鍵詞。結果往往是頁(yè)面布局完成后,頁(yè)面上只能找到一些關(guān)鍵詞,既沒(méi)有解決用戶(hù)的相應需求,也沒(méi)有從搜索引擎規則上調整內容,導致沒(méi)有排名,沒(méi)有網(wǎng)站 的轉換。
在我們實(shí)際操作中,要注意關(guān)鍵詞的布局和選擇,可以通過(guò)以下方法進(jìn)行優(yōu)化。
一、明確你想吸引和可以吸引的用戶(hù)群
1、根據用戶(hù)組的特點(diǎn)確定關(guān)鍵詞。
2、網(wǎng)站越小,需要對核心用戶(hù)群進(jìn)行細分越精準,使用的長(cháng)尾關(guān)鍵詞越多。
3、網(wǎng)站 越大,核心用戶(hù)組的范圍越大。您可以更多地使用核心 關(guān)鍵詞。
二、選擇合適的關(guān)鍵詞
1、關(guān)鍵詞選品原則:高人氣、低競爭、高商業(yè)價(jià)值
2、競爭分析
(1)搜索結果首頁(yè)的內容是反映關(guān)鍵詞競爭的重要元素之一。
?。?)進(jìn)行競爭對手分析,估計關(guān)鍵詞優(yōu)化難度,分析首頁(yè)10個(gè)結果和20個(gè)可能與你有競爭關(guān)系的結果。
?。?)收錄在一定程度上反映了競爭的程度。
三、關(guān)鍵詞密度(2%-4%更好)
(1)關(guān)鍵詞一般建議密度為2%-8%。
(2)關(guān)鍵詞密度太低,會(huì )影響關(guān)鍵詞的排名。
(3)任何頁(yè)面都應該盡量保持一個(gè)合理的關(guān)鍵詞密度。
四、長(cháng)尾關(guān)鍵詞布局內頁(yè)
長(cháng)尾 關(guān)鍵詞 理論并不陌生。對于做SEO的人來(lái)說(shuō),重要的是要有長(cháng)尾關(guān)鍵詞意識,在網(wǎng)站結構排列、內部鏈接、文章頁(yè)面原創(chuàng )方面,要考慮長(cháng)尾尾巴的概念就足夠了。真正能充分發(fā)揮長(cháng)尾關(guān)鍵詞優(yōu)勢的網(wǎng)站都需要海量?jì)?yōu)質(zhì)文章的支持。這樣的網(wǎng)站long-tail關(guān)鍵詞效果自然得到,全面的長(cháng)尾關(guān)鍵詞研究是不可能的。所以在小網(wǎng)站的構建過(guò)程中,長(cháng)尾的重點(diǎn)布局不需要太刻意的布置。
五、避免使用相同布局的多個(gè)頁(yè)面關(guān)鍵詞
很多網(wǎng)站SEOER 犯了一個(gè)錯誤,網(wǎng)站具有相同的多個(gè)頁(yè)面目標關(guān)鍵詞??赡苓@些人認為同一組關(guān)鍵詞針對首頁(yè)和幾個(gè)欄目頁(yè)面進(jìn)行了優(yōu)化,這樣排名的機會(huì )就更高了。其實(shí)根本不是這樣的,應該盡量避免。在同一個(gè)網(wǎng)站中競爭一個(gè)關(guān)鍵詞應該只有一頁(yè),目標明確,精力集中。這樣重量就不會(huì )散開(kāi)。
如果覺(jué)得上面的方法太繁瑣,我們也可以通過(guò)Pbootcms采集插件完成上面的關(guān)鍵詞布局。
一、 利用免費的 Pbootcms采集插件采集Industry關(guān)鍵詞
關(guān)鍵詞主要來(lái)自用戶(hù)輸入的行業(yè)關(guān)鍵詞和自動(dòng)生成的下拉詞、相關(guān)搜索詞、長(cháng)尾詞。一次可以創(chuàng )建幾十上百個(gè)采集任務(wù),可以同時(shí)執行多個(gè)域名任務(wù)??梢栽诓寮羞M(jìn)行以下設置:
1、設置屏蔽不相關(guān)的詞,
2、自動(dòng)過(guò)濾其他網(wǎng)站促銷(xiāo)信息
3、多平臺采集(覆蓋全網(wǎng)頭部平臺,不斷更新覆蓋新平臺)
4、支持圖片本地化或存儲到其他云平臺
5、支持各大cms發(fā)布者,采集自動(dòng)發(fā)布推送到搜索引擎
二、Pbootcms采集內容SEO優(yōu)化功能
1、標題前綴和后綴設置(區分標題會(huì )有更好的收錄)
2、在內容中插入關(guān)鍵詞(合理增加關(guān)鍵詞密度)
3、產(chǎn)品圖片隨機自動(dòng)插入(插入自己的產(chǎn)品圖片可以讓內容展示更清晰)
4、搜索引擎主動(dòng)推送(主動(dòng)向搜索引擎推送已發(fā)布的文章,以縮短新鏈接被搜索引擎收錄的時(shí)間)
5、設置隨機點(diǎn)贊-隨機閱讀-隨機作者(增加頁(yè)面度數原創(chuàng ))
6、設置內容匹配標題(讓內容完全匹配標題)
7、設置自動(dòng)內鏈(在執行發(fā)布任務(wù)時(shí)自動(dòng)在文章的內容中生成內鏈,有助于引導頁(yè)面蜘蛛抓取,提高頁(yè)面權限)
8、設置定時(shí)發(fā)布(網(wǎng)站內容的定時(shí)發(fā)布可以讓搜索引擎養成定時(shí)爬取網(wǎng)頁(yè)的習慣,從而提高網(wǎng)站的收錄)
三、免費Pbootcms采集-Visual Batch網(wǎng)站管理
1、批量監控不同的cms網(wǎng)站數據(你的網(wǎng)站是Empire, Yiyou, ZBLOG, 織夢(mèng), WP, Xiaocyclone, 站群 、PB、Apple、搜外等主要cms工具,可同時(shí)管理和批量發(fā)布)
2、設置批量發(fā)布次數(可以設置發(fā)布間隔/單日總發(fā)布次數)
3、不同關(guān)鍵詞文章可設置發(fā)布不同欄目
4、偽原創(chuàng )保留字(當文章原創(chuàng )未被偽原創(chuàng )使用時(shí)設置核心字)
5、軟件直接監控是否已發(fā)布、即將發(fā)布、是否為偽原創(chuàng )、發(fā)布狀態(tài)、URL、節目、發(fā)布時(shí)間等。
6、每日蜘蛛、收錄、網(wǎng)站權重可以通過(guò)軟件直接查看!
Pbootcms采集插件雖然操作簡(jiǎn)單,但功能強大,功能全面??梢詫?shí)現各種復雜的采集需求。*敏*感*詞*采集軟件,可應用于各種場(chǎng)合。復雜采集 需求的首選。






