網(wǎng)站自動(dòng)采集發(fā)布
專(zhuān)業(yè)知識:3人團隊,如何管理10萬(wàn)采集網(wǎng)站?(最全、最細解讀)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 154 次瀏覽 ? 2022-09-27 12:06
人類(lèi)的發(fā)展經(jīng)歷了猿到人的發(fā)展。工業(yè)發(fā)展經(jīng)歷了石器時(shí)代、工業(yè)時(shí)代和智能工業(yè)的發(fā)展。
采集 也經(jīng)歷了從單點(diǎn)到多點(diǎn),再到分布式的發(fā)展。采集來(lái)源也從 10、100、1,000 增長(cháng)到 1W、50,000 和 100,000。這么多網(wǎng)站,怎么保證一直有效(網(wǎng)站可以正常打開(kāi))?
時(shí)代在進(jìn)步,公司在不斷發(fā)展壯大,網(wǎng)站的內容不斷豐富。每年和每個(gè)月,都會(huì )有新的柱子上架,舊的柱子會(huì )下架。我們如何確保我們的 采集 列始終有效?
今天跟大家分享一下我這幾年做采集的心得。
第一:搭建信息源系統
由于我們是做輿情監測服務(wù)的,所以我們的采集覆蓋面比較廣,包括我們經(jīng)營(yíng)所在行業(yè)的所有網(wǎng)站(盡可能的),以及各大媒體發(fā)布的一、二級各大媒體。國家、各類(lèi)黨媒、紙媒、APP等,以及微博、微信、論壇等社交媒體網(wǎng)站。
網(wǎng)站,欄目管理
現在我們采集覆蓋網(wǎng)站大約6W個(gè)家庭,而且每天還在增加。我們應該如何管理這么大量的網(wǎng)站?這就是源系統的價(jià)值!
我們管理源系統中需要采集的網(wǎng)站以及這些網(wǎng)站下需要采集的通道或列。同時(shí),部分網(wǎng)站媒體分類(lèi)、行業(yè)分類(lèi)、網(wǎng)站類(lèi)型等均在系統中進(jìn)行管理。
同時(shí)為了提高網(wǎng)站、欄目等的配置效率,我們支持直接將欄目的HTML源碼復制到系統中,然后自動(dòng)分析欄目名稱(chēng)、欄目網(wǎng)址、列下數據和其他數據的正則表達式。通過(guò)這樣的優(yōu)化,過(guò)去每人每天的網(wǎng)站數量已經(jīng)增加到100多個(gè)。
關(guān)鍵詞搜索
數據采集,除了直接采集發(fā)布信息網(wǎng)站,另一種快速獲取數據的方式是通過(guò)關(guān)鍵詞采集在各大搜索引擎中搜索,如:百度、搜狗、360等搜索引擎。
在源系統中,除了管理上述兩類(lèi)采集源外,還可以管理服務(wù)器,部署采集器等。因為在大批量的采集中,有上百個(gè)的服務(wù)器,每臺服務(wù)器上部署三五個(gè)甚至十個(gè)或二十個(gè)爬蟲(chóng)。這些爬蟲(chóng)的上傳、部署、啟動(dòng)、關(guān)閉也是耗時(shí)耗力的。能源的事。通過(guò)對系統的統一管理,可以大大減少部署、運維時(shí)間,降低很多成本。
二:搭建網(wǎng)站監控系統
這部分主要包括兩部分:一是網(wǎng)站或者列狀態(tài)的監控(可以正常訪(fǎng)問(wèn));二是定期信息的監測;
網(wǎng)站,列狀態(tài)監控
1:自動(dòng)化
通常,所有 網(wǎng)站 都會(huì )以自動(dòng)方式每?jì)芍芑蛞粋€(gè)月檢查一次。
然后,如果返回狀態(tài)碼不是 200,則再次進(jìn)行第二次和第三次檢查。主要目的是防止網(wǎng)絡(luò )問(wèn)題或網(wǎng)站響應問(wèn)題導致的監控失敗,增加人工二次處理。時(shí)間;
根據驗證碼,刪除404、403等類(lèi)型,502、等域名未注冊的類(lèi)型過(guò)一段時(shí)間再驗證。但記得要同步關(guān)閉這些網(wǎng)站的采集,否則會(huì )大大降低采集的效率。
2:傳遞結果數據
如果你有10W的網(wǎng)站,每次進(jìn)行自動(dòng)驗證也是很費時(shí)間的。為了提高效率,我們可以結合采集的結果進(jìn)行處理。從采集的結果數據,我們先分析一下上周哪些列沒(méi)有收到采集數據,然后自動(dòng)校驗這些網(wǎng)站,效率會(huì )大大提高。
3:爬蟲(chóng)監控
當然,我們也可以在解析HTML源碼的時(shí)候標記爬蟲(chóng)數據。如果網(wǎng)站沒(méi)有響應,直接保存任務(wù)的ID,然后在源系統中標記,運維人員可以實(shí)時(shí)看到網(wǎng)站@的狀態(tài)>,及時(shí)處理,提高數據效率采集。
同時(shí),如果網(wǎng)站正常返回數據,但沒(méi)有解析出任何信息,則該任務(wù)可能是常規異常,也可能是網(wǎng)站異常。需要進(jìn)行第二次測試。
正則表達式的驗證
如前所述,在采集的時(shí)候,我們可以通過(guò)當前列或者網(wǎng)站記錄數據是否按照已有的正則表達式解析,如果不是,則標記源系統中的對應數據列上。
同時(shí)需要建立一個(gè)自動(dòng)識別列正則表達式的服務(wù),每隔一段時(shí)間(比如30分鐘)讀取一次識別的記錄,自動(dòng)識別其正則表達式,并同步到采集 隊列。
為了保證正確獲取正則表達式,自動(dòng)識別后同步到采集隊列,如果信息仍然不匹配。此時(shí)系統需要提示運維人員進(jìn)行人工分析。
三:數據補充記錄
在輿情監測中,無(wú)論你對采集的覆蓋范圍有多大,角落里總會(huì )有數據。如果你沒(méi)有 采集,你可以看到。這時(shí)候,為了提升客戶(hù)體驗,我們需要密切關(guān)注人工對系統的補充錄音,然后呢?
那么首先要分析一下我們的網(wǎng)站是否配置,列是否配置正確,正則表達式是否正確。通過(guò)檢查這些步驟,我們就能找到錯過(guò)挖礦的原因。根據原因優(yōu)化源或改進(jìn)采集器。
數據補充記錄可以及時(shí)減少客戶(hù)的不滿(mǎn),同時(shí)可以改善信息來(lái)源和采集,使采集實(shí)現閉環(huán)。
第四:自動(dòng)化
第一:智能識別采集的頻率
目前我們的網(wǎng)站和列采集的頻率還是固定頻率,所以一些更新信息比較少的網(wǎng)站,或者無(wú)效的列采集,會(huì )大大減少采集@的效率>。這導致網(wǎng)站或列采集信息更新頻繁,數據的價(jià)值降低。
我們現在根據每個(gè)網(wǎng)站或采集列的數據分布情況,對采集的頻率進(jìn)行更合適的統計分析,盡量減少服務(wù)器資源的浪費,提高采集 效率和最大化數據價(jià)值。
二:智能識別網(wǎng)站欄目
我們現在的采集的網(wǎng)站有6W左右,列有70W左右。這6W的網(wǎng)站中,每天都有很多網(wǎng)站的升級和改版,大量新柱上架,舊柱下架。一個(gè) 3 人的運維團隊不可能完成這些工作量。
因此,我們根據 6W 網(wǎng)站 中配置的列進(jìn)行訓練,然后每周分析一次 網(wǎng)站 以自動(dòng)識別列。然后,過(guò)濾掉與我的業(yè)務(wù)無(wú)關(guān)的列,最后進(jìn)行人工抽檢,最后發(fā)布到采集隊列中供采集使用。就這樣,我們的運維團隊從9人減少到了現在的3人。并且還可以保證采集的穩定性和效率。
在大數據盛行的今天,一切分析的基礎都是數據。
隨著(zhù)人工智能時(shí)代的到來(lái),人類(lèi)能做的一切,或多或少都可以被機器取代。
那么,30、50 年后,機器人能打敗人類(lèi)嗎?哈哈.....
個(gè)人感悟:軟文發(fā)布平臺的軟文怎樣寫(xiě)才能深入人心
單擊以添加圖像描述(最多 60 個(gè)字符)以進(jìn)行編輯
現在很多公司網(wǎng)站都離不開(kāi)軟文發(fā)布頻道,那么軟文發(fā)布頻道的軟文應該怎么寫(xiě)呢?
首先,軟文發(fā)布頻道的軟文就是要設置好標題。一個(gè)好的標題對于 軟文 發(fā)布頻道非常重要。從軟文發(fā)布頻道開(kāi)始軟文標題一定要務(wù)實(shí),不能虛偽。標題必須內容豐富且與內容一致。抓住軟文發(fā)布頻道軟文的核心內容,可以吸引群眾,抓住群眾的眼球。
其次,設置軟文發(fā)布頻道的軟文的標題,并寫(xiě)入內容。軟文發(fā)布頻道的軟文的內容也很重要,一定要可讀。閱讀門(mén)檻低,還要有趣,內容豐富等,還要注意軟文發(fā)布頻道軟文的內容規劃適合男女老少各年齡段,因為溝通要考慮,內容不能涉及違法和違規等,一旦溝通,后果不堪設想。
最后,在創(chuàng )建軟文發(fā)布頻道的軟文時(shí),廣告要巧妙整合,不要亂插廣告,要能將重要信息正確整合到軟文發(fā)布中channel軟文 可以讓它畫(huà)龍點(diǎn)睛。
做好推廣的第一步就是要有一個(gè)好的軟文,然后再找一個(gè)好的發(fā)布平臺。兩者密不可分,相輔相成。市面上這么多發(fā)布平臺,你怎么選擇?小編推薦一家網(wǎng)絡(luò )媒體機構,一站式發(fā)布平臺,價(jià)格非常便宜。比如新浪、搜狐、騰訊可以發(fā)送低至15、20。它比市場(chǎng)上的其他平臺便宜幾十倍。具體可以百度搜索“網(wǎng)媒代理”自行體驗對比。 查看全部
專(zhuān)業(yè)知識:3人團隊,如何管理10萬(wàn)采集網(wǎng)站?(最全、最細解讀)
人類(lèi)的發(fā)展經(jīng)歷了猿到人的發(fā)展。工業(yè)發(fā)展經(jīng)歷了石器時(shí)代、工業(yè)時(shí)代和智能工業(yè)的發(fā)展。
采集 也經(jīng)歷了從單點(diǎn)到多點(diǎn),再到分布式的發(fā)展。采集來(lái)源也從 10、100、1,000 增長(cháng)到 1W、50,000 和 100,000。這么多網(wǎng)站,怎么保證一直有效(網(wǎng)站可以正常打開(kāi))?
時(shí)代在進(jìn)步,公司在不斷發(fā)展壯大,網(wǎng)站的內容不斷豐富。每年和每個(gè)月,都會(huì )有新的柱子上架,舊的柱子會(huì )下架。我們如何確保我們的 采集 列始終有效?
今天跟大家分享一下我這幾年做采集的心得。
第一:搭建信息源系統
由于我們是做輿情監測服務(wù)的,所以我們的采集覆蓋面比較廣,包括我們經(jīng)營(yíng)所在行業(yè)的所有網(wǎng)站(盡可能的),以及各大媒體發(fā)布的一、二級各大媒體。國家、各類(lèi)黨媒、紙媒、APP等,以及微博、微信、論壇等社交媒體網(wǎng)站。
網(wǎng)站,欄目管理
現在我們采集覆蓋網(wǎng)站大約6W個(gè)家庭,而且每天還在增加。我們應該如何管理這么大量的網(wǎng)站?這就是源系統的價(jià)值!
我們管理源系統中需要采集的網(wǎng)站以及這些網(wǎng)站下需要采集的通道或列。同時(shí),部分網(wǎng)站媒體分類(lèi)、行業(yè)分類(lèi)、網(wǎng)站類(lèi)型等均在系統中進(jìn)行管理。
同時(shí)為了提高網(wǎng)站、欄目等的配置效率,我們支持直接將欄目的HTML源碼復制到系統中,然后自動(dòng)分析欄目名稱(chēng)、欄目網(wǎng)址、列下數據和其他數據的正則表達式。通過(guò)這樣的優(yōu)化,過(guò)去每人每天的網(wǎng)站數量已經(jīng)增加到100多個(gè)。
關(guān)鍵詞搜索
數據采集,除了直接采集發(fā)布信息網(wǎng)站,另一種快速獲取數據的方式是通過(guò)關(guān)鍵詞采集在各大搜索引擎中搜索,如:百度、搜狗、360等搜索引擎。
在源系統中,除了管理上述兩類(lèi)采集源外,還可以管理服務(wù)器,部署采集器等。因為在大批量的采集中,有上百個(gè)的服務(wù)器,每臺服務(wù)器上部署三五個(gè)甚至十個(gè)或二十個(gè)爬蟲(chóng)。這些爬蟲(chóng)的上傳、部署、啟動(dòng)、關(guān)閉也是耗時(shí)耗力的。能源的事。通過(guò)對系統的統一管理,可以大大減少部署、運維時(shí)間,降低很多成本。

二:搭建網(wǎng)站監控系統
這部分主要包括兩部分:一是網(wǎng)站或者列狀態(tài)的監控(可以正常訪(fǎng)問(wèn));二是定期信息的監測;
網(wǎng)站,列狀態(tài)監控
1:自動(dòng)化
通常,所有 網(wǎng)站 都會(huì )以自動(dòng)方式每?jì)芍芑蛞粋€(gè)月檢查一次。
然后,如果返回狀態(tài)碼不是 200,則再次進(jìn)行第二次和第三次檢查。主要目的是防止網(wǎng)絡(luò )問(wèn)題或網(wǎng)站響應問(wèn)題導致的監控失敗,增加人工二次處理。時(shí)間;
根據驗證碼,刪除404、403等類(lèi)型,502、等域名未注冊的類(lèi)型過(guò)一段時(shí)間再驗證。但記得要同步關(guān)閉這些網(wǎng)站的采集,否則會(huì )大大降低采集的效率。
2:傳遞結果數據
如果你有10W的網(wǎng)站,每次進(jìn)行自動(dòng)驗證也是很費時(shí)間的。為了提高效率,我們可以結合采集的結果進(jìn)行處理。從采集的結果數據,我們先分析一下上周哪些列沒(méi)有收到采集數據,然后自動(dòng)校驗這些網(wǎng)站,效率會(huì )大大提高。
3:爬蟲(chóng)監控
當然,我們也可以在解析HTML源碼的時(shí)候標記爬蟲(chóng)數據。如果網(wǎng)站沒(méi)有響應,直接保存任務(wù)的ID,然后在源系統中標記,運維人員可以實(shí)時(shí)看到網(wǎng)站@的狀態(tài)>,及時(shí)處理,提高數據效率采集。
同時(shí),如果網(wǎng)站正常返回數據,但沒(méi)有解析出任何信息,則該任務(wù)可能是常規異常,也可能是網(wǎng)站異常。需要進(jìn)行第二次測試。
正則表達式的驗證
如前所述,在采集的時(shí)候,我們可以通過(guò)當前列或者網(wǎng)站記錄數據是否按照已有的正則表達式解析,如果不是,則標記源系統中的對應數據列上。
同時(shí)需要建立一個(gè)自動(dòng)識別列正則表達式的服務(wù),每隔一段時(shí)間(比如30分鐘)讀取一次識別的記錄,自動(dòng)識別其正則表達式,并同步到采集 隊列。

為了保證正確獲取正則表達式,自動(dòng)識別后同步到采集隊列,如果信息仍然不匹配。此時(shí)系統需要提示運維人員進(jìn)行人工分析。
三:數據補充記錄
在輿情監測中,無(wú)論你對采集的覆蓋范圍有多大,角落里總會(huì )有數據。如果你沒(méi)有 采集,你可以看到。這時(shí)候,為了提升客戶(hù)體驗,我們需要密切關(guān)注人工對系統的補充錄音,然后呢?
那么首先要分析一下我們的網(wǎng)站是否配置,列是否配置正確,正則表達式是否正確。通過(guò)檢查這些步驟,我們就能找到錯過(guò)挖礦的原因。根據原因優(yōu)化源或改進(jìn)采集器。
數據補充記錄可以及時(shí)減少客戶(hù)的不滿(mǎn),同時(shí)可以改善信息來(lái)源和采集,使采集實(shí)現閉環(huán)。
第四:自動(dòng)化
第一:智能識別采集的頻率
目前我們的網(wǎng)站和列采集的頻率還是固定頻率,所以一些更新信息比較少的網(wǎng)站,或者無(wú)效的列采集,會(huì )大大減少采集@的效率>。這導致網(wǎng)站或列采集信息更新頻繁,數據的價(jià)值降低。
我們現在根據每個(gè)網(wǎng)站或采集列的數據分布情況,對采集的頻率進(jìn)行更合適的統計分析,盡量減少服務(wù)器資源的浪費,提高采集 效率和最大化數據價(jià)值。
二:智能識別網(wǎng)站欄目
我們現在的采集的網(wǎng)站有6W左右,列有70W左右。這6W的網(wǎng)站中,每天都有很多網(wǎng)站的升級和改版,大量新柱上架,舊柱下架。一個(gè) 3 人的運維團隊不可能完成這些工作量。
因此,我們根據 6W 網(wǎng)站 中配置的列進(jìn)行訓練,然后每周分析一次 網(wǎng)站 以自動(dòng)識別列。然后,過(guò)濾掉與我的業(yè)務(wù)無(wú)關(guān)的列,最后進(jìn)行人工抽檢,最后發(fā)布到采集隊列中供采集使用。就這樣,我們的運維團隊從9人減少到了現在的3人。并且還可以保證采集的穩定性和效率。
在大數據盛行的今天,一切分析的基礎都是數據。
隨著(zhù)人工智能時(shí)代的到來(lái),人類(lèi)能做的一切,或多或少都可以被機器取代。
那么,30、50 年后,機器人能打敗人類(lèi)嗎?哈哈.....
個(gè)人感悟:軟文發(fā)布平臺的軟文怎樣寫(xiě)才能深入人心
單擊以添加圖像描述(最多 60 個(gè)字符)以進(jìn)行編輯

現在很多公司網(wǎng)站都離不開(kāi)軟文發(fā)布頻道,那么軟文發(fā)布頻道的軟文應該怎么寫(xiě)呢?
首先,軟文發(fā)布頻道的軟文就是要設置好標題。一個(gè)好的標題對于 軟文 發(fā)布頻道非常重要。從軟文發(fā)布頻道開(kāi)始軟文標題一定要務(wù)實(shí),不能虛偽。標題必須內容豐富且與內容一致。抓住軟文發(fā)布頻道軟文的核心內容,可以吸引群眾,抓住群眾的眼球。
其次,設置軟文發(fā)布頻道的軟文的標題,并寫(xiě)入內容。軟文發(fā)布頻道的軟文的內容也很重要,一定要可讀。閱讀門(mén)檻低,還要有趣,內容豐富等,還要注意軟文發(fā)布頻道軟文的內容規劃適合男女老少各年齡段,因為溝通要考慮,內容不能涉及違法和違規等,一旦溝通,后果不堪設想。

最后,在創(chuàng )建軟文發(fā)布頻道的軟文時(shí),廣告要巧妙整合,不要亂插廣告,要能將重要信息正確整合到軟文發(fā)布中channel軟文 可以讓它畫(huà)龍點(diǎn)睛。
做好推廣的第一步就是要有一個(gè)好的軟文,然后再找一個(gè)好的發(fā)布平臺。兩者密不可分,相輔相成。市面上這么多發(fā)布平臺,你怎么選擇?小編推薦一家網(wǎng)絡(luò )媒體機構,一站式發(fā)布平臺,價(jià)格非常便宜。比如新浪、搜狐、騰訊可以發(fā)送低至15、20。它比市場(chǎng)上的其他平臺便宜幾十倍。具體可以百度搜索“網(wǎng)媒代理”自行體驗對比。
教程:手動(dòng)采集太耗時(shí)?這兩個(gè)Power Query技巧輕松實(shí)現網(wǎng)頁(yè)批量采集!
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 238 次瀏覽 ? 2022-09-27 12:05
最近收到群里很多小伙伴的提問(wèn),分享一些關(guān)于Python爬蟲(chóng)的知識。其實(shí)如果只是單純的采集數據,可以用Excel。
在Excel 2016及以后的版本中,內置了一個(gè)非常強大的數據處理神器Power Query。無(wú)論是數據采集還是基礎數據處理/分析,實(shí)現起來(lái)都非常簡(jiǎn)單。
最重要的是,相比Python需要很強的數學(xué)邏輯+編程能力,Power Query幾乎不用寫(xiě)代碼就可以實(shí)現數據采集!
今天小北給大家分享2種不同結構的PQ采集大法,拒絕低效數據采集!
- 01-
帶表格的網(wǎng)絡(luò )表單
First是第一個(gè)采集方法,它們的主要區別在于網(wǎng)頁(yè)的結構。如果網(wǎng)頁(yè)中使用了“表格標簽”,則可以直接將網(wǎng)頁(yè)導入Excel,自動(dòng)提取表格。
如何檢查網(wǎng)頁(yè)是否使用了table標簽?很簡(jiǎn)單,選擇任意數據,右擊,選擇“檢查”。
這里我們以“豆瓣電影”為例。即將上映的電影列表是一個(gè)帶有表格標簽布局的網(wǎng)頁(yè)。
采集網(wǎng)址:
首先,在“數據”選項卡下選擇“新查詢(xún)”-“來(lái)自 Web”。在彈出的對話(huà)框中粘貼需要為采集的URL,點(diǎn)擊“確定”,如下:
此時(shí)Excel會(huì )打開(kāi)一個(gè)“導航器”,選擇左側的table0,可以看到PQ自動(dòng)識別右側的表格數據。
接下來(lái)點(diǎn)擊“加載”,將網(wǎng)頁(yè)數據自動(dòng)加載到Excel中,也是智能表格。
使用PQ加載的表格數據,如果網(wǎng)頁(yè)的數據有更新,則無(wú)需再次加載數據。只需右鍵“刷新”即可快速同步數據。
這是PQ的第一個(gè)采集數據方法。不是很簡(jiǎn)單嗎?無(wú)需編寫(xiě)一行代碼,即可輕松將數據導入Excel。
但是使用上有很多限制,必須在網(wǎng)頁(yè)中使用table標簽(table、td、tr等)才能使用。
- 02-
非表格結構化網(wǎng)頁(yè)
但是,使用表格來(lái)顯示數據已被淘汰。在 80% 以上的網(wǎng)頁(yè)中,使用 div、ul、span 等標簽更靈活地呈現數據。
此時(shí),第一種方法將無(wú)效。比如小北經(jīng)常訪(fǎng)問(wèn)知乎。如果要使用Excel下載知乎采集的信息,第一種方法無(wú)效。 .
由于本網(wǎng)頁(yè)沒(méi)有使用“table標簽”,所以導入時(shí)看不到table0選項:
此時(shí)我能做什么?事實(shí)上,大多數現代網(wǎng)頁(yè)都使用 API 接口來(lái)獲取渲染數據。這句話(huà)怎么理解?
會(huì )先加載網(wǎng)頁(yè),然后向后臺發(fā)起請求,簡(jiǎn)單獲取數據,常用的數據格式為JSON。
那么您如何看待這些數據?很簡(jiǎn)單,還是打開(kāi)“check”,在“network”下找到“xhr”,這里就是請求的數據。
比如搜索知乎:芒果學(xué)院,可以在這里找到對應的請求數據。
頁(yè)面滾動(dòng)時(shí),可以發(fā)現多了一個(gè)“search_v3?”在列表中,點(diǎn)擊查看我們想要的數據:
然后我們右鍵點(diǎn)擊鏈接,選擇“復制鏈接地址”復制鏈接。
按照方法一再次將此網(wǎng)址導入Excel,如下:
這里得到的數據是json的結構數據,可以看到分頁(yè)、數據等。
因為數據在data里面,所以我們右鍵點(diǎn)擊“data”,選擇“Drill down”,然后點(diǎn)擊“Into Table”。這是我們想要的數據列表。
然后詳細展開(kāi)“數據”,如下,得到我們的詳細數據:
是不是很簡(jiǎn)單?可以看到界面中的所有數據都是采集出來(lái)的,但是我們一句代碼都沒(méi)寫(xiě)。
當然,這里有很多我們不需要的標簽等等。如果我們想干凈利落地處理它,我們需要為 PQ 編寫(xiě)一個(gè)自定義函數。
最后,如果你是針對比較復雜的場(chǎng)景,不建議使用Power Query采集,嘗試使用Python或者可視化專(zhuān)業(yè)爬蟲(chóng)工具來(lái)實(shí)現~
如果對你有幫助,記得點(diǎn)擊“好看”。如果你有想要學(xué)習的Excel技能,可以在下方留言~
想要更多關(guān)于數據處理和信息圖表的想法和技術(shù)嗎? 《Excel實(shí)戰課程,讓圖表說(shuō)話(huà)》Excel增值課程學(xué)習——
從零開(kāi)始的Excel商業(yè)圖表訓練營(yíng),教你如何快速拆分數據,如何制作精美的動(dòng)態(tài)圖表報表,搞定你的老板,加速你的升職加薪!
新課發(fā)布,更新完成,打卡作業(yè),5小時(shí)你就成為圖表大師!
今天咨詢(xún)報名,僅需69元,5小時(shí)共58節課,教你如何制作高級Excel商業(yè)圖表!
↑解決圖表問(wèn)題的一課
掌握真正的視覺(jué)表達,并制作正確的圖表,您可以脫穎而出并給周?chē)娜肆粝律羁逃∠蟆?br /> 完成課程后,你也可以在10分鐘內制作出這種動(dòng)態(tài)儀表盤(pán)(課程示例):
————常見(jiàn)問(wèn)題————
問(wèn):課程有時(shí)間限制嗎?
A:課程不限時(shí)間和頻次,可隨時(shí)學(xué)習,長(cháng)期有效。
問(wèn):我可以在手機上學(xué)習嗎?
A:可以,你可以在手機上安裝網(wǎng)易云課堂APP,登錄賬號學(xué)習。
Q:課程中會(huì )有老師回答問(wèn)題嗎?
A:當然,課程里有功課復習和長(cháng)期問(wèn)答。
問(wèn):除了課程還有其他學(xué)習資料嗎?
A:課程結束后,您還會(huì )看到一套完整的 Excel 圖表。如果遇到不理解的數據結構,可以直接查詢(xún)使用哪個(gè)圖表。此外,還有16種配色模板,讓你一鍵配色。
Q:如何添加助教的微信賬號?
A:您可以直接掃描下方二維碼,或者直接搜索:mongjoy001,可以添加打卡答題助教。
掃碼添加助教/課程咨詢(xún)&問(wèn)答
新班會(huì )在網(wǎng)上購買(mǎi),還會(huì )送色卡和圖表……
完全免費:SEO技術(shù)軟件-免費SEO技術(shù)管理軟件-自動(dòng)SEO優(yōu)化軟件下載免費
SEO技術(shù)軟件,什么是SEO技術(shù)軟件,SEO技術(shù)軟件有什么用?首先,SEO技術(shù)軟件就是用軟件來(lái)代替一些日常的SEO工具。今天給大家分享一個(gè)多功能的SEO技術(shù)工具。涵蓋所有 SEO 功能,例如常見(jiàn)的:雙標題、文章聚合收錄、文章內部排名、文章滾動(dòng)鏈接收錄和網(wǎng)站地圖生成,文章自動(dòng)更新,文章自動(dòng)偽原創(chuàng ),預定發(fā)布,關(guān)鍵詞粗體,圖片ALT屬性,網(wǎng)站關(guān)鍵詞提取等詳細參考圖片一、二、三、四、五、六
為了使 網(wǎng)站 排名 關(guān)鍵詞,它必須首先是 收錄!同一篇文章文章,收錄fast 網(wǎng)站,一般排名優(yōu)于收錄slow 網(wǎng)站(也有特殊情況)。因此,作為一個(gè)SEOer,我認為網(wǎng)站SEO優(yōu)化的中心目的是達到網(wǎng)站文章秒收錄。
一個(gè)網(wǎng)站在幾分鐘內就被百度了收錄。這能反映什么問(wèn)題?我總結了四點(diǎn):
?、侔俣确浅?春眠@個(gè)站點(diǎn),對這個(gè)有很高的信任度網(wǎng)站:普通新站點(diǎn)很難做到這一點(diǎn)(PS:快消品是新站點(diǎn),為什么能秒關(guān)?下面)繼續講述),澄清這個(gè)網(wǎng)站有一定的歷史。上面說(shuō)的信任度不是指網(wǎng)站的權重,是兩個(gè)不同的東西。記住,收錄fast,也就是秒收到的網(wǎng)站不一定有很高的權重。
?、诰W(wǎng)站內容質(zhì)量比較高:可能有人對此有疑問(wèn)。一些權重較高的網(wǎng)站可以直接復制其他網(wǎng)站的內容,也可以秒收,所以我這里加了2。詞:相對!但我們都知道,百度秒接收后,并不代表一定要對內容進(jìn)行排名,而且排名后也不能保證一定會(huì )維持。很多網(wǎng)站今天都在看某一個(gè)有排名的關(guān)鍵詞,但是過(guò)幾天就會(huì )消失。這種情況很常見(jiàn),因為百度會(huì )再次停止算法過(guò)濾!
?、劬W(wǎng)站內容更新頻率高:網(wǎng)站正常更新頻率,網(wǎng)站的收錄音量會(huì )增加,并持續很長(cháng)時(shí)間,也就是我們所說(shuō)的修煉站,再過(guò)幾個(gè)月,普通人就能達到第二關(guān)。
?、馨俣扰老x(chóng)爬取頻率高:這里可能需要了解百度的原理,網(wǎng)站內容可以是收錄,首先百度的爬蟲(chóng)必須先抓取你的網(wǎng)站內容,爬取次數越多,越容易發(fā)現新發(fā)布的網(wǎng)站內容,也就越容易成為收錄。因此,這與第3點(diǎn)中網(wǎng)站的內容更新頻率密切相關(guān)。養蜘蛛就是養蜘蛛爬行頻率和權重積累。
這類(lèi)網(wǎng)站最突出的特點(diǎn)之一就是每天都有大量的優(yōu)質(zhì)信息和內容發(fā)布。是的,這些平臺是蜘蛛的“人間天堂”和“香格里拉”,溫暖的陽(yáng)光,新穎豐富的食物和大眾的支持,形成了百度、360、谷歌、搜狗等蜘蛛搜索食物并停留在上面,以便盡快抓取內容供網(wǎng)友閱讀。
但是很多網(wǎng)站,大家面臨的更多情況是發(fā)布的內容不是百度收錄,很多SEOer不禁要問(wèn),是不是“百度第二收錄”只能和我們一起擦過(guò)肩?我的回答是非??隙ǖ摹安弧?。接下來(lái),做6個(gè)鏈接。我想即使是一個(gè)新站也可以讓你完成百度二次采集:
?、倬W(wǎng)站構造與URL設計
這個(gè)非常重要。一個(gè)好的網(wǎng)站結構會(huì )幫助訪(fǎng)問(wèn)者了解你的網(wǎng)站結構和層次結構,更有利于蜘蛛爬取和索引。這里我們推薦“首頁(yè)-欄目-(列表頁(yè)面)-內容”像“頁(yè)面”這樣的樹(shù)形結構應該簡(jiǎn)單而不是復雜。
更別說(shuō)網(wǎng)址設計了,只要你的網(wǎng)站不是很大,沒(méi)必要設計這么多層次。另外,網(wǎng)址可以收錄關(guān)鍵詞拼音或英文,效果更佳。為了提高蜘蛛的爬取效率,制作網(wǎng)站的地圖和robots文件給網(wǎng)站來(lái)引導蜘蛛是非常有必要的。有條件的朋友盡量選擇使用靜態(tài)頁(yè)面,對蜘蛛比較友好。
?、?定期量化發(fā)布文章
定期發(fā)布新內容,讓網(wǎng)站形成一個(gè)持續穩定的更新規則,讓蜘蛛發(fā)現這個(gè)規則完成定期爬取,這是百度二次采集非常關(guān)鍵的元素。就像定餐約會(huì )一樣,在形成這樣的更新規則后,蜘蛛會(huì )在這段時(shí)間定期去約會(huì )。另一種是量化發(fā)布,每天堅持一個(gè)恒定的數字,避免今天一個(gè)明天十個(gè),這樣會(huì )讓百度認為你的網(wǎng)站不穩定且討人喜歡,防止你被降級進(jìn)入沙盒。
關(guān)于SEO優(yōu)化網(wǎng)站,應該理解,瀏覽量也是網(wǎng)站的重點(diǎn),因為相比網(wǎng)站,需要的是流量,只要有流量,排名也會(huì )進(jìn)行優(yōu)化。這相對容易。通常,網(wǎng)站traffic 是指網(wǎng)站 的訪(fǎng)問(wèn)量,用來(lái)描述訪(fǎng)問(wèn)一個(gè)網(wǎng)站 的用戶(hù)數和用戶(hù)瀏覽的網(wǎng)頁(yè)數。那么小編就告訴大家,想要增加網(wǎng)站的流量,只需要注意這幾點(diǎn)就OK了!
一、 網(wǎng)站結構要清晰
網(wǎng)站的結構清晰,有利于節省搜索蜘蛛爬取的時(shí)間。同時(shí),潛在客戶(hù)在瀏覽網(wǎng)站時(shí)可以清晰、簡(jiǎn)單地找到他們正在尋找的目標頁(yè)面或產(chǎn)品,可以提高用戶(hù)體驗。感覺(jué)。
二、 網(wǎng)站頁(yè)面設置標題,關(guān)鍵詞,描述
這幾點(diǎn)是網(wǎng)站優(yōu)化的最基本步驟。只有把這些最基本的步驟一步步設置好,才能優(yōu)化網(wǎng)站。
三、 原創(chuàng )文章
根據百度搜索引擎的算法和規則,只有網(wǎng)站不斷進(jìn)行高質(zhì)量的定期更新,才有利于搜索蜘蛛的爬取,也可以提升用戶(hù)體驗。所以大家千萬(wàn)不要采集質(zhì)量不好文章復制別人的內容,這樣會(huì )讓搜索引擎拒絕抓取你的網(wǎng)站。
四、 網(wǎng)站 的內部鏈接
合理設置網(wǎng)站內鏈可以增加網(wǎng)站的搜索權重,也可以提升用戶(hù)體驗。但是在做內鏈的時(shí)候要注意,內鏈需要和內容相關(guān),并且指向內容頁(yè)面,才能讓內鏈發(fā)揮作用。 查看全部
教程:手動(dòng)采集太耗時(shí)?這兩個(gè)Power Query技巧輕松實(shí)現網(wǎng)頁(yè)批量采集!
最近收到群里很多小伙伴的提問(wèn),分享一些關(guān)于Python爬蟲(chóng)的知識。其實(shí)如果只是單純的采集數據,可以用Excel。
在Excel 2016及以后的版本中,內置了一個(gè)非常強大的數據處理神器Power Query。無(wú)論是數據采集還是基礎數據處理/分析,實(shí)現起來(lái)都非常簡(jiǎn)單。
最重要的是,相比Python需要很強的數學(xué)邏輯+編程能力,Power Query幾乎不用寫(xiě)代碼就可以實(shí)現數據采集!
今天小北給大家分享2種不同結構的PQ采集大法,拒絕低效數據采集!
- 01-
帶表格的網(wǎng)絡(luò )表單
First是第一個(gè)采集方法,它們的主要區別在于網(wǎng)頁(yè)的結構。如果網(wǎng)頁(yè)中使用了“表格標簽”,則可以直接將網(wǎng)頁(yè)導入Excel,自動(dòng)提取表格。
如何檢查網(wǎng)頁(yè)是否使用了table標簽?很簡(jiǎn)單,選擇任意數據,右擊,選擇“檢查”。
這里我們以“豆瓣電影”為例。即將上映的電影列表是一個(gè)帶有表格標簽布局的網(wǎng)頁(yè)。
采集網(wǎng)址:
首先,在“數據”選項卡下選擇“新查詢(xún)”-“來(lái)自 Web”。在彈出的對話(huà)框中粘貼需要為采集的URL,點(diǎn)擊“確定”,如下:
此時(shí)Excel會(huì )打開(kāi)一個(gè)“導航器”,選擇左側的table0,可以看到PQ自動(dòng)識別右側的表格數據。
接下來(lái)點(diǎn)擊“加載”,將網(wǎng)頁(yè)數據自動(dòng)加載到Excel中,也是智能表格。
使用PQ加載的表格數據,如果網(wǎng)頁(yè)的數據有更新,則無(wú)需再次加載數據。只需右鍵“刷新”即可快速同步數據。
這是PQ的第一個(gè)采集數據方法。不是很簡(jiǎn)單嗎?無(wú)需編寫(xiě)一行代碼,即可輕松將數據導入Excel。
但是使用上有很多限制,必須在網(wǎng)頁(yè)中使用table標簽(table、td、tr等)才能使用。
- 02-
非表格結構化網(wǎng)頁(yè)

但是,使用表格來(lái)顯示數據已被淘汰。在 80% 以上的網(wǎng)頁(yè)中,使用 div、ul、span 等標簽更靈活地呈現數據。
此時(shí),第一種方法將無(wú)效。比如小北經(jīng)常訪(fǎng)問(wèn)知乎。如果要使用Excel下載知乎采集的信息,第一種方法無(wú)效。 .
由于本網(wǎng)頁(yè)沒(méi)有使用“table標簽”,所以導入時(shí)看不到table0選項:
此時(shí)我能做什么?事實(shí)上,大多數現代網(wǎng)頁(yè)都使用 API 接口來(lái)獲取渲染數據。這句話(huà)怎么理解?
會(huì )先加載網(wǎng)頁(yè),然后向后臺發(fā)起請求,簡(jiǎn)單獲取數據,常用的數據格式為JSON。
那么您如何看待這些數據?很簡(jiǎn)單,還是打開(kāi)“check”,在“network”下找到“xhr”,這里就是請求的數據。
比如搜索知乎:芒果學(xué)院,可以在這里找到對應的請求數據。
頁(yè)面滾動(dòng)時(shí),可以發(fā)現多了一個(gè)“search_v3?”在列表中,點(diǎn)擊查看我們想要的數據:
然后我們右鍵點(diǎn)擊鏈接,選擇“復制鏈接地址”復制鏈接。
按照方法一再次將此網(wǎng)址導入Excel,如下:
這里得到的數據是json的結構數據,可以看到分頁(yè)、數據等。
因為數據在data里面,所以我們右鍵點(diǎn)擊“data”,選擇“Drill down”,然后點(diǎn)擊“Into Table”。這是我們想要的數據列表。
然后詳細展開(kāi)“數據”,如下,得到我們的詳細數據:
是不是很簡(jiǎn)單?可以看到界面中的所有數據都是采集出來(lái)的,但是我們一句代碼都沒(méi)寫(xiě)。
當然,這里有很多我們不需要的標簽等等。如果我們想干凈利落地處理它,我們需要為 PQ 編寫(xiě)一個(gè)自定義函數。
最后,如果你是針對比較復雜的場(chǎng)景,不建議使用Power Query采集,嘗試使用Python或者可視化專(zhuān)業(yè)爬蟲(chóng)工具來(lái)實(shí)現~
如果對你有幫助,記得點(diǎn)擊“好看”。如果你有想要學(xué)習的Excel技能,可以在下方留言~

想要更多關(guān)于數據處理和信息圖表的想法和技術(shù)嗎? 《Excel實(shí)戰課程,讓圖表說(shuō)話(huà)》Excel增值課程學(xué)習——
從零開(kāi)始的Excel商業(yè)圖表訓練營(yíng),教你如何快速拆分數據,如何制作精美的動(dòng)態(tài)圖表報表,搞定你的老板,加速你的升職加薪!
新課發(fā)布,更新完成,打卡作業(yè),5小時(shí)你就成為圖表大師!
今天咨詢(xún)報名,僅需69元,5小時(shí)共58節課,教你如何制作高級Excel商業(yè)圖表!
↑解決圖表問(wèn)題的一課
掌握真正的視覺(jué)表達,并制作正確的圖表,您可以脫穎而出并給周?chē)娜肆粝律羁逃∠蟆?br /> 完成課程后,你也可以在10分鐘內制作出這種動(dòng)態(tài)儀表盤(pán)(課程示例):
————常見(jiàn)問(wèn)題————
問(wèn):課程有時(shí)間限制嗎?
A:課程不限時(shí)間和頻次,可隨時(shí)學(xué)習,長(cháng)期有效。
問(wèn):我可以在手機上學(xué)習嗎?
A:可以,你可以在手機上安裝網(wǎng)易云課堂APP,登錄賬號學(xué)習。
Q:課程中會(huì )有老師回答問(wèn)題嗎?
A:當然,課程里有功課復習和長(cháng)期問(wèn)答。
問(wèn):除了課程還有其他學(xué)習資料嗎?
A:課程結束后,您還會(huì )看到一套完整的 Excel 圖表。如果遇到不理解的數據結構,可以直接查詢(xún)使用哪個(gè)圖表。此外,還有16種配色模板,讓你一鍵配色。
Q:如何添加助教的微信賬號?
A:您可以直接掃描下方二維碼,或者直接搜索:mongjoy001,可以添加打卡答題助教。
掃碼添加助教/課程咨詢(xún)&問(wèn)答
新班會(huì )在網(wǎng)上購買(mǎi),還會(huì )送色卡和圖表……
完全免費:SEO技術(shù)軟件-免費SEO技術(shù)管理軟件-自動(dòng)SEO優(yōu)化軟件下載免費
SEO技術(shù)軟件,什么是SEO技術(shù)軟件,SEO技術(shù)軟件有什么用?首先,SEO技術(shù)軟件就是用軟件來(lái)代替一些日常的SEO工具。今天給大家分享一個(gè)多功能的SEO技術(shù)工具。涵蓋所有 SEO 功能,例如常見(jiàn)的:雙標題、文章聚合收錄、文章內部排名、文章滾動(dòng)鏈接收錄和網(wǎng)站地圖生成,文章自動(dòng)更新,文章自動(dòng)偽原創(chuàng ),預定發(fā)布,關(guān)鍵詞粗體,圖片ALT屬性,網(wǎng)站關(guān)鍵詞提取等詳細參考圖片一、二、三、四、五、六
為了使 網(wǎng)站 排名 關(guān)鍵詞,它必須首先是 收錄!同一篇文章文章,收錄fast 網(wǎng)站,一般排名優(yōu)于收錄slow 網(wǎng)站(也有特殊情況)。因此,作為一個(gè)SEOer,我認為網(wǎng)站SEO優(yōu)化的中心目的是達到網(wǎng)站文章秒收錄。
一個(gè)網(wǎng)站在幾分鐘內就被百度了收錄。這能反映什么問(wèn)題?我總結了四點(diǎn):
?、侔俣确浅?春眠@個(gè)站點(diǎn),對這個(gè)有很高的信任度網(wǎng)站:普通新站點(diǎn)很難做到這一點(diǎn)(PS:快消品是新站點(diǎn),為什么能秒關(guān)?下面)繼續講述),澄清這個(gè)網(wǎng)站有一定的歷史。上面說(shuō)的信任度不是指網(wǎng)站的權重,是兩個(gè)不同的東西。記住,收錄fast,也就是秒收到的網(wǎng)站不一定有很高的權重。
?、诰W(wǎng)站內容質(zhì)量比較高:可能有人對此有疑問(wèn)。一些權重較高的網(wǎng)站可以直接復制其他網(wǎng)站的內容,也可以秒收,所以我這里加了2。詞:相對!但我們都知道,百度秒接收后,并不代表一定要對內容進(jìn)行排名,而且排名后也不能保證一定會(huì )維持。很多網(wǎng)站今天都在看某一個(gè)有排名的關(guān)鍵詞,但是過(guò)幾天就會(huì )消失。這種情況很常見(jiàn),因為百度會(huì )再次停止算法過(guò)濾!
?、劬W(wǎng)站內容更新頻率高:網(wǎng)站正常更新頻率,網(wǎng)站的收錄音量會(huì )增加,并持續很長(cháng)時(shí)間,也就是我們所說(shuō)的修煉站,再過(guò)幾個(gè)月,普通人就能達到第二關(guān)。

?、馨俣扰老x(chóng)爬取頻率高:這里可能需要了解百度的原理,網(wǎng)站內容可以是收錄,首先百度的爬蟲(chóng)必須先抓取你的網(wǎng)站內容,爬取次數越多,越容易發(fā)現新發(fā)布的網(wǎng)站內容,也就越容易成為收錄。因此,這與第3點(diǎn)中網(wǎng)站的內容更新頻率密切相關(guān)。養蜘蛛就是養蜘蛛爬行頻率和權重積累。
這類(lèi)網(wǎng)站最突出的特點(diǎn)之一就是每天都有大量的優(yōu)質(zhì)信息和內容發(fā)布。是的,這些平臺是蜘蛛的“人間天堂”和“香格里拉”,溫暖的陽(yáng)光,新穎豐富的食物和大眾的支持,形成了百度、360、谷歌、搜狗等蜘蛛搜索食物并停留在上面,以便盡快抓取內容供網(wǎng)友閱讀。
但是很多網(wǎng)站,大家面臨的更多情況是發(fā)布的內容不是百度收錄,很多SEOer不禁要問(wèn),是不是“百度第二收錄”只能和我們一起擦過(guò)肩?我的回答是非??隙ǖ摹安弧?。接下來(lái),做6個(gè)鏈接。我想即使是一個(gè)新站也可以讓你完成百度二次采集:
?、倬W(wǎng)站構造與URL設計
這個(gè)非常重要。一個(gè)好的網(wǎng)站結構會(huì )幫助訪(fǎng)問(wèn)者了解你的網(wǎng)站結構和層次結構,更有利于蜘蛛爬取和索引。這里我們推薦“首頁(yè)-欄目-(列表頁(yè)面)-內容”像“頁(yè)面”這樣的樹(shù)形結構應該簡(jiǎn)單而不是復雜。
更別說(shuō)網(wǎng)址設計了,只要你的網(wǎng)站不是很大,沒(méi)必要設計這么多層次。另外,網(wǎng)址可以收錄關(guān)鍵詞拼音或英文,效果更佳。為了提高蜘蛛的爬取效率,制作網(wǎng)站的地圖和robots文件給網(wǎng)站來(lái)引導蜘蛛是非常有必要的。有條件的朋友盡量選擇使用靜態(tài)頁(yè)面,對蜘蛛比較友好。
?、?定期量化發(fā)布文章
定期發(fā)布新內容,讓網(wǎng)站形成一個(gè)持續穩定的更新規則,讓蜘蛛發(fā)現這個(gè)規則完成定期爬取,這是百度二次采集非常關(guān)鍵的元素。就像定餐約會(huì )一樣,在形成這樣的更新規則后,蜘蛛會(huì )在這段時(shí)間定期去約會(huì )。另一種是量化發(fā)布,每天堅持一個(gè)恒定的數字,避免今天一個(gè)明天十個(gè),這樣會(huì )讓百度認為你的網(wǎng)站不穩定且討人喜歡,防止你被降級進(jìn)入沙盒。

關(guān)于SEO優(yōu)化網(wǎng)站,應該理解,瀏覽量也是網(wǎng)站的重點(diǎn),因為相比網(wǎng)站,需要的是流量,只要有流量,排名也會(huì )進(jìn)行優(yōu)化。這相對容易。通常,網(wǎng)站traffic 是指網(wǎng)站 的訪(fǎng)問(wèn)量,用來(lái)描述訪(fǎng)問(wèn)一個(gè)網(wǎng)站 的用戶(hù)數和用戶(hù)瀏覽的網(wǎng)頁(yè)數。那么小編就告訴大家,想要增加網(wǎng)站的流量,只需要注意這幾點(diǎn)就OK了!
一、 網(wǎng)站結構要清晰
網(wǎng)站的結構清晰,有利于節省搜索蜘蛛爬取的時(shí)間。同時(shí),潛在客戶(hù)在瀏覽網(wǎng)站時(shí)可以清晰、簡(jiǎn)單地找到他們正在尋找的目標頁(yè)面或產(chǎn)品,可以提高用戶(hù)體驗。感覺(jué)。
二、 網(wǎng)站頁(yè)面設置標題,關(guān)鍵詞,描述
這幾點(diǎn)是網(wǎng)站優(yōu)化的最基本步驟。只有把這些最基本的步驟一步步設置好,才能優(yōu)化網(wǎng)站。
三、 原創(chuàng )文章
根據百度搜索引擎的算法和規則,只有網(wǎng)站不斷進(jìn)行高質(zhì)量的定期更新,才有利于搜索蜘蛛的爬取,也可以提升用戶(hù)體驗。所以大家千萬(wàn)不要采集質(zhì)量不好文章復制別人的內容,這樣會(huì )讓搜索引擎拒絕抓取你的網(wǎng)站。
四、 網(wǎng)站 的內部鏈接
合理設置網(wǎng)站內鏈可以增加網(wǎng)站的搜索權重,也可以提升用戶(hù)體驗。但是在做內鏈的時(shí)候要注意,內鏈需要和內容相關(guān),并且指向內容頁(yè)面,才能讓內鏈發(fā)揮作用。
匯總:ET2全自動(dòng)采集與利商網(wǎng)絡(luò )信息發(fā)布軟件下載評論軟件詳情對比
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 199 次瀏覽 ? 2022-09-26 04:07
免費采集軟件EditorTools是一款面向中小型網(wǎng)站的自動(dòng)更新工具,全自動(dòng)采集發(fā)布,靜默工作,無(wú)需人工干預;獨立軟件消除網(wǎng)站性能消耗;安全穩定,可多年不間斷工作;支持任意網(wǎng)站和數據庫采集版本,軟件內置discuzX、phpwind、dedecms、wordpress、phpcms、empirecms、東易, joomla, pbdigg, php168, bbsxp, phpbb, dvbbs, typecho, emblog 等很多常用系統的例子。
本軟件適合需要長(cháng)期更新的網(wǎng)站使用,不需要您對現有論壇或網(wǎng)站做任何改動(dòng)。
解放網(wǎng)站管理員和管理員
網(wǎng)站要保持活力,每日內容更新是基礎。一個(gè)小網(wǎng)站保證每日更新,通常要求站長(cháng)承擔每天8小時(shí)的更新工作,周末開(kāi)放;一個(gè)媒體網(wǎng)站全天維護內容更新,通常需要一天3班,每個(gè)Admin勞動(dòng)力為一個(gè)班2-3人。如果按照普通月薪1500元計算,即使不包括周末加班,一個(gè)小網(wǎng)站每月至少要花1500元,而一個(gè)中型網(wǎng)站要花費超過(guò)一萬(wàn)元。 ET的出現將為您省下這筆費用!從繁瑣的 網(wǎng)站 更新工作中解放網(wǎng)站管理員和管理員!
獨特的無(wú)人值守
ET的設計以提高軟件自動(dòng)化程度為突破口,以達到無(wú)人值守、24小時(shí)自動(dòng)化工作的目的。經(jīng)過(guò)測試,ET可以自動(dòng)運行很長(cháng)時(shí)間,甚至幾年。
超高穩定性
為了達到無(wú)人值守軟件的目的,需要長(cháng)時(shí)間穩定運行。 ET在這方面做了很多優(yōu)化,保證軟件可以穩定連續工作,不會(huì )出現采集軟件。崩潰本身,甚至導致 網(wǎng)站 崩潰。
最低資源使用率
ET獨立于網(wǎng)站,不消耗寶貴的服務(wù)器WEB處理資源,可以在服務(wù)器或站長(cháng)的工作機上工作。
嚴格的數據和網(wǎng)絡(luò )安全
ET使用網(wǎng)站自己的數據發(fā)布接口或程序代碼來(lái)處理發(fā)布信息內容,不直接操作網(wǎng)站數據庫,避免了任何可能由ET引起的數據安全問(wèn)題. 采集信息,ET使用標準HTTP端口,不會(huì )造成網(wǎng)絡(luò )安全漏洞。
強大而靈活的功能
ET除了一般采集工具的功能外,還可以進(jìn)行圖片水印、防盜鏈、分頁(yè)采集、回復采集、登錄采集@ >、自定義物品、UTF-8、UBB、模擬發(fā)布...,讓用戶(hù)靈活實(shí)現各種毛發(fā)采集需求。
EditorTools 2 功能介紹
【特點(diǎn)】設置好計劃后,無(wú)需人工干預,24小時(shí)自動(dòng)工作
【特點(diǎn)】與網(wǎng)站分離,可支持任意網(wǎng)站或數據庫
通過(guò)獨立制作的界面
[特點(diǎn)]靈活強大采集規則不僅是采集文章,還可以是采集任何類(lèi)型的信息
【特點(diǎn)】體積小、功耗低、穩定性好,非常適合在服務(wù)器上運行
【特點(diǎn)】所有規則均可導入導出,資源復用靈活
【特點(diǎn)】使用FTP上傳文件,穩定安全
【特點(diǎn)】下載上傳支持斷點(diǎn)續傳
[特點(diǎn)] 高速偽原創(chuàng )
【采集】可以選擇倒序、順序、隨機采集文章
【采集】支持自動(dòng)列出網(wǎng)址
[采集] 支持 采集
對于網(wǎng)站的數據分布在多個(gè)頁(yè)面
【采集】自由設置采集數據項,并可對每個(gè)數據項進(jìn)行單獨過(guò)濾整理
【采集】支持分頁(yè)內容采集
【采集】支持任意格式和類(lèi)型的文件(包括圖片、視頻)下載
【采集】可以突破防盜鏈文件
【采集】支持動(dòng)態(tài)文件URL解析
【采集】支持采集
對于需要登錄訪(fǎng)問(wèn)的網(wǎng)頁(yè)
【支持】可設置關(guān)鍵詞采集
[支持] 可以設置敏感詞防止采集
[支持]圖片水印可設置
[發(fā)布]支持發(fā)布文章帶回復,可廣泛應用于論壇、博客等項目
【發(fā)布】與采集數據分離的發(fā)布參數項可以自由對應采集數據或預設值,大大增強了發(fā)布規則的復用性
[發(fā)布]支持隨機選擇發(fā)布賬號
【發(fā)布】支持任何語(yǔ)言的已發(fā)布項目翻譯
[發(fā)布]支持編碼轉換,支持UBB碼
【發(fā)布】文件上傳可以選擇自動(dòng)創(chuàng )建年月日目錄
[Release]模擬發(fā)布支持網(wǎng)站無(wú)法安裝接口的發(fā)布操作
【支持】程序可以正常運行
[支持]防止網(wǎng)絡(luò )運營(yíng)商劫持HTTP函數
[支持]手冊采集發(fā)布
【支持】詳細的工作流程監控和信息反饋,讓您快速了解工作狀態(tài)
最新信息:web信息發(fā)布的“自動(dòng)采集”方案研究.pdf
1 1
Ξ
第22卷第3期西安航空技術(shù)學(xué)院學(xué)報第2卷第2期第3期
2004年5月西安航空技術(shù)學(xué)院學(xué)報2004年5月
WEB信息發(fā)布“自動(dòng)采集”方案研究
王濤
Ξ
(江蘇廣播電視大學(xué)武進(jìn)學(xué)院,江蘇武進(jìn) 231000)
摘要:目前大部分網(wǎng)站以“留言板”的形式發(fā)布信息,也就是由負責發(fā)布信息的人員以特定的方式發(fā)布信息。
在WEB頁(yè)面,將要發(fā)布的信息輸入到一個(gè)錄入窗口,然后提交到數據庫發(fā)布到網(wǎng)站---信息只能一一發(fā)布。
加,效率低。作者提出了使用程序自動(dòng)采集信息的思路,并給出了詳細的解決方案。
關(guān)鍵詞 :WEB信息發(fā)布;逐項添加;自動(dòng)采集
CLC 編號:TP393. 02 文件識別碼:A 文章 編號:1008 - 9233 (2004) 03 - 0050 - 03
1 提出的問(wèn)題 2 初步想法
現在互聯(lián)網(wǎng)盛行,很多單位都有自己的假設:寫(xiě)一個(gè)常駐程序,讓它運行很長(cháng)時(shí)間
網(wǎng)站 的。通常網(wǎng)站會(huì )在某臺計算機(通常是服務(wù)器)上發(fā)布一些信息,按照一定的周期,
它一般以后臺數據庫的形式存在。目前大部分網(wǎng)站會(huì )定期檢索要發(fā)布到指定目錄的信息,并存儲起來(lái)
在發(fā)布信息時(shí),采用類(lèi)似于“留言板”的形式,即通過(guò)特殊的負分類(lèi)添加到數據庫中。
在具體的WEB頁(yè)面中,負責發(fā)布信息的人可以參考如下方案(如圖1):
將要發(fā)布的信息輸入到一個(gè)錄入窗口,然后提交給數據(注:現實(shí)中FTP服務(wù)器、數據庫服務(wù)器和
圖書(shū)館,用于發(fā)布在網(wǎng)站,信息只能一一添加。但是,真正的WEB服務(wù)器可以用物理計算機來(lái)實(shí)現。
,一個(gè)部門(mén)想要在線(xiàn)發(fā)布信息,可能有三個(gè)獨立的職能部門(mén) 查看全部
匯總:ET2全自動(dòng)采集與利商網(wǎng)絡(luò )信息發(fā)布軟件下載評論軟件詳情對比
免費采集軟件EditorTools是一款面向中小型網(wǎng)站的自動(dòng)更新工具,全自動(dòng)采集發(fā)布,靜默工作,無(wú)需人工干預;獨立軟件消除網(wǎng)站性能消耗;安全穩定,可多年不間斷工作;支持任意網(wǎng)站和數據庫采集版本,軟件內置discuzX、phpwind、dedecms、wordpress、phpcms、empirecms、東易, joomla, pbdigg, php168, bbsxp, phpbb, dvbbs, typecho, emblog 等很多常用系統的例子。
本軟件適合需要長(cháng)期更新的網(wǎng)站使用,不需要您對現有論壇或網(wǎng)站做任何改動(dòng)。
解放網(wǎng)站管理員和管理員
網(wǎng)站要保持活力,每日內容更新是基礎。一個(gè)小網(wǎng)站保證每日更新,通常要求站長(cháng)承擔每天8小時(shí)的更新工作,周末開(kāi)放;一個(gè)媒體網(wǎng)站全天維護內容更新,通常需要一天3班,每個(gè)Admin勞動(dòng)力為一個(gè)班2-3人。如果按照普通月薪1500元計算,即使不包括周末加班,一個(gè)小網(wǎng)站每月至少要花1500元,而一個(gè)中型網(wǎng)站要花費超過(guò)一萬(wàn)元。 ET的出現將為您省下這筆費用!從繁瑣的 網(wǎng)站 更新工作中解放網(wǎng)站管理員和管理員!
獨特的無(wú)人值守
ET的設計以提高軟件自動(dòng)化程度為突破口,以達到無(wú)人值守、24小時(shí)自動(dòng)化工作的目的。經(jīng)過(guò)測試,ET可以自動(dòng)運行很長(cháng)時(shí)間,甚至幾年。
超高穩定性
為了達到無(wú)人值守軟件的目的,需要長(cháng)時(shí)間穩定運行。 ET在這方面做了很多優(yōu)化,保證軟件可以穩定連續工作,不會(huì )出現采集軟件。崩潰本身,甚至導致 網(wǎng)站 崩潰。
最低資源使用率
ET獨立于網(wǎng)站,不消耗寶貴的服務(wù)器WEB處理資源,可以在服務(wù)器或站長(cháng)的工作機上工作。
嚴格的數據和網(wǎng)絡(luò )安全
ET使用網(wǎng)站自己的數據發(fā)布接口或程序代碼來(lái)處理發(fā)布信息內容,不直接操作網(wǎng)站數據庫,避免了任何可能由ET引起的數據安全問(wèn)題. 采集信息,ET使用標準HTTP端口,不會(huì )造成網(wǎng)絡(luò )安全漏洞。
強大而靈活的功能
ET除了一般采集工具的功能外,還可以進(jìn)行圖片水印、防盜鏈、分頁(yè)采集、回復采集、登錄采集@ >、自定義物品、UTF-8、UBB、模擬發(fā)布...,讓用戶(hù)靈活實(shí)現各種毛發(fā)采集需求。
EditorTools 2 功能介紹
【特點(diǎn)】設置好計劃后,無(wú)需人工干預,24小時(shí)自動(dòng)工作

【特點(diǎn)】與網(wǎng)站分離,可支持任意網(wǎng)站或數據庫
通過(guò)獨立制作的界面
[特點(diǎn)]靈活強大采集規則不僅是采集文章,還可以是采集任何類(lèi)型的信息
【特點(diǎn)】體積小、功耗低、穩定性好,非常適合在服務(wù)器上運行
【特點(diǎn)】所有規則均可導入導出,資源復用靈活
【特點(diǎn)】使用FTP上傳文件,穩定安全
【特點(diǎn)】下載上傳支持斷點(diǎn)續傳
[特點(diǎn)] 高速偽原創(chuàng )
【采集】可以選擇倒序、順序、隨機采集文章
【采集】支持自動(dòng)列出網(wǎng)址
[采集] 支持 采集
對于網(wǎng)站的數據分布在多個(gè)頁(yè)面
【采集】自由設置采集數據項,并可對每個(gè)數據項進(jìn)行單獨過(guò)濾整理
【采集】支持分頁(yè)內容采集
【采集】支持任意格式和類(lèi)型的文件(包括圖片、視頻)下載
【采集】可以突破防盜鏈文件
【采集】支持動(dòng)態(tài)文件URL解析

【采集】支持采集
對于需要登錄訪(fǎng)問(wèn)的網(wǎng)頁(yè)
【支持】可設置關(guān)鍵詞采集
[支持] 可以設置敏感詞防止采集
[支持]圖片水印可設置
[發(fā)布]支持發(fā)布文章帶回復,可廣泛應用于論壇、博客等項目
【發(fā)布】與采集數據分離的發(fā)布參數項可以自由對應采集數據或預設值,大大增強了發(fā)布規則的復用性
[發(fā)布]支持隨機選擇發(fā)布賬號
【發(fā)布】支持任何語(yǔ)言的已發(fā)布項目翻譯
[發(fā)布]支持編碼轉換,支持UBB碼
【發(fā)布】文件上傳可以選擇自動(dòng)創(chuàng )建年月日目錄
[Release]模擬發(fā)布支持網(wǎng)站無(wú)法安裝接口的發(fā)布操作
【支持】程序可以正常運行
[支持]防止網(wǎng)絡(luò )運營(yíng)商劫持HTTP函數
[支持]手冊采集發(fā)布
【支持】詳細的工作流程監控和信息反饋,讓您快速了解工作狀態(tài)
最新信息:web信息發(fā)布的“自動(dòng)采集”方案研究.pdf
1 1
Ξ
第22卷第3期西安航空技術(shù)學(xué)院學(xué)報第2卷第2期第3期
2004年5月西安航空技術(shù)學(xué)院學(xué)報2004年5月
WEB信息發(fā)布“自動(dòng)采集”方案研究
王濤
Ξ

(江蘇廣播電視大學(xué)武進(jìn)學(xué)院,江蘇武進(jìn) 231000)
摘要:目前大部分網(wǎng)站以“留言板”的形式發(fā)布信息,也就是由負責發(fā)布信息的人員以特定的方式發(fā)布信息。
在WEB頁(yè)面,將要發(fā)布的信息輸入到一個(gè)錄入窗口,然后提交到數據庫發(fā)布到網(wǎng)站---信息只能一一發(fā)布。
加,效率低。作者提出了使用程序自動(dòng)采集信息的思路,并給出了詳細的解決方案。
關(guān)鍵詞 :WEB信息發(fā)布;逐項添加;自動(dòng)采集
CLC 編號:TP393. 02 文件識別碼:A 文章 編號:1008 - 9233 (2004) 03 - 0050 - 03
1 提出的問(wèn)題 2 初步想法
現在互聯(lián)網(wǎng)盛行,很多單位都有自己的假設:寫(xiě)一個(gè)常駐程序,讓它運行很長(cháng)時(shí)間

網(wǎng)站 的。通常網(wǎng)站會(huì )在某臺計算機(通常是服務(wù)器)上發(fā)布一些信息,按照一定的周期,
它一般以后臺數據庫的形式存在。目前大部分網(wǎng)站會(huì )定期檢索要發(fā)布到指定目錄的信息,并存儲起來(lái)
在發(fā)布信息時(shí),采用類(lèi)似于“留言板”的形式,即通過(guò)特殊的負分類(lèi)添加到數據庫中。
在具體的WEB頁(yè)面中,負責發(fā)布信息的人可以參考如下方案(如圖1):
將要發(fā)布的信息輸入到一個(gè)錄入窗口,然后提交給數據(注:現實(shí)中FTP服務(wù)器、數據庫服務(wù)器和
圖書(shū)館,用于發(fā)布在網(wǎng)站,信息只能一一添加。但是,真正的WEB服務(wù)器可以用物理計算機來(lái)實(shí)現。
,一個(gè)部門(mén)想要在線(xiàn)發(fā)布信息,可能有三個(gè)獨立的職能部門(mén)
推薦文章:站群外鏈免費批量發(fā)布到愛(ài)站等高權重網(wǎng)站
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 133 次瀏覽 ? 2022-09-24 16:14
站群外鏈批量發(fā)布到愛(ài)站等高權重網(wǎng)站,這樣我們的網(wǎng)站可以快速獲取收錄,站群 手動(dòng)發(fā)布外鏈是一項耗時(shí)耗力的工作。 站群外鏈批量發(fā)布工具可以模擬手動(dòng)完成機械站群外鏈發(fā)布操作。
在站群外鏈的建設中,理論上可以利用站群大量的主域來(lái)提高整個(gè)外鏈的廣度。 站群外鏈工具免費,操作簡(jiǎn)單。只需簡(jiǎn)單的點(diǎn)擊,即可完成外鏈的批量發(fā)布。我們需要控制站群外鏈的比例,尤其是當我們主域的外鏈數量比較有限的時(shí)候。
發(fā)布外鏈的方式有很多種,但我們需要選擇高質(zhì)量的外鏈。高權重的外部鏈接是我們的首選。我們可以使用我們自己的高權重網(wǎng)站、論壇、愛(ài)站站長(cháng)主頁(yè)等
我們擁有的高質(zhì)量反向鏈接越多,搜索引擎就越會(huì )將我們視為專(zhuān)家。搜索引擎認為我們擁有的專(zhuān)業(yè)知識越多,我們的頁(yè)面排名就越高。我們甚至可以與我們在同一領(lǐng)域的其他網(wǎng)站合作,交換反向鏈接和來(lái)賓帖子。我們可以通過(guò)加入 Slack 社區來(lái)建立聯(lián)系來(lái)找到這些網(wǎng)站。
通過(guò)訪(fǎng)客發(fā)布和協(xié)作鏈接構建增加反向鏈接,我們已經(jīng)向我們展示了如何通過(guò)我們自己的頁(yè)面增加自然流量,但是我們是否知道其他可以提高我們排名的 網(wǎng)站s ?當其他 網(wǎng)站 鏈接到我們的內容或將我們列為客座博主時(shí),他們正在為我們的 網(wǎng)站 創(chuàng )建便于搜索的“反向鏈接”。
使用內部鏈接,這有助于搜索者更多地了解他們感興趣的主題。我們可以通過(guò)在其自然有意義的內容中嵌入內部鏈接來(lái)利用它們。嵌入內部鏈接時(shí),選擇與我們?yōu)樵擁?yè)面定位的關(guān)鍵字接近的錨文本。例如,如果我們的目標是“Wallet 采集”和“Watch 采集”,請使用“Wallet 采集”和“Watch Set”等變體。
主題集群是與整體主題或主題相關(guān)的內容集群。對于主題集群,通常有稱(chēng)為“父頁(yè)面”的主頁(yè)面和稱(chēng)為“子頁(yè)面”的子頁(yè)面。父頁(yè)面涵蓋了一般主題和指向具有更具體內容的子頁(yè)面的鏈接。
搜索引擎的算法偏愛(ài)主題集群,因為它們可以幫助搜索者深入了解他們感興趣的主題。因此,如果搜索者渴望了解有關(guān)巧克力蛋糕的所有信息,搜索引擎會(huì )很樂(lè )意分享我們采集的巧克力蛋糕帖子。
長(cháng)期 SEO 成功的關(guān)鍵是增加自然流量。為了提高我們頁(yè)面的SEO,站群外鏈工具還支持自動(dòng)采集偽原創(chuàng )發(fā)布和關(guān)鍵詞挖掘功能。通過(guò)關(guān)鍵詞挖礦,你可以讓我們獲得海量行業(yè)相關(guān)的關(guān)鍵詞、流行語(yǔ)和下拉菜單。
站群在搭建外鏈的同時(shí),也要注意網(wǎng)站的優(yōu)化。 站群外鏈工具可以讓我們的站群內容快速填充更新,同時(shí)可以批量發(fā)布外鏈。管理??梢暬?yè)面讓我們可以在一個(gè)顯示中查看管理站群的多個(gè)數據信息,無(wú)論是網(wǎng)站收錄、內部鏈接數、蜘蛛光顧曲線(xiàn)還是關(guān)鍵詞排名可以輕松管理。
站群外鏈搭建的分享到此結束。通過(guò)不斷增加反向鏈接和友情鏈接的建設,可以快速獲得搜索引擎平臺的信任,讓我們的收錄排名不斷提升。如果您對站群外部鏈接的搭建感興趣,不妨點(diǎn)擊三個(gè)鏈接留言討論。
推薦文章:API_短信測壓_偽原創(chuàng )工具_seo外鏈推廣,免費名片贊
API_短信壓測_偽原創(chuàng )tool_seo外鏈推廣,免費名片點(diǎn)贊數達到4014。如需查詢(xún)本站相關(guān)重量信息,可點(diǎn)擊“愛(ài)站數據”“Chinaz“數據”輸入;參考當前網(wǎng)站數據,建議大家參考愛(ài)站數據,更多網(wǎng)站價(jià)值評價(jià)因素如:API_SMS壓測_偽原創(chuàng )Tools_seo外鏈推廣、免費名片點(diǎn)贊訪(fǎng)問(wèn)速度、搜索引擎收錄、索引量、用戶(hù)體驗等;當然要評價(jià)一個(gè)網(wǎng)站的價(jià)值,最重要的還是要評價(jià)自己的需求和需求,一些準確的數據,需要找API_SMS壓測_偽原創(chuàng )tool_seo外鏈推廣,免費名片像站長(cháng)協(xié)商提供。比如站內IP、PV、跳出率等!
關(guān)于A(yíng)PI_短信壓測_偽原創(chuàng )tool_seo外鏈推廣,免費名片樣特別聲明
本站小島導航網(wǎng)提供的API_SMS壓測_偽原創(chuàng )tool_seo外鏈推廣,免費名片點(diǎn)贊均來(lái)自網(wǎng)絡(luò ),不保證外鏈的準確性和完整性。同時(shí),對于外部鏈接網(wǎng)站的指向,實(shí)際上并不受小島導航網(wǎng)絡(luò )的控制。2022年4月3日下午3點(diǎn)24分收錄,本網(wǎng)頁(yè)內容全部合規合法。后期網(wǎng)頁(yè)內容如有侵權,可直接聯(lián)系網(wǎng)站管理員刪除,小島導航網(wǎng)不承擔任何責任。 查看全部
推薦文章:站群外鏈免費批量發(fā)布到愛(ài)站等高權重網(wǎng)站
站群外鏈批量發(fā)布到愛(ài)站等高權重網(wǎng)站,這樣我們的網(wǎng)站可以快速獲取收錄,站群 手動(dòng)發(fā)布外鏈是一項耗時(shí)耗力的工作。 站群外鏈批量發(fā)布工具可以模擬手動(dòng)完成機械站群外鏈發(fā)布操作。
在站群外鏈的建設中,理論上可以利用站群大量的主域來(lái)提高整個(gè)外鏈的廣度。 站群外鏈工具免費,操作簡(jiǎn)單。只需簡(jiǎn)單的點(diǎn)擊,即可完成外鏈的批量發(fā)布。我們需要控制站群外鏈的比例,尤其是當我們主域的外鏈數量比較有限的時(shí)候。
發(fā)布外鏈的方式有很多種,但我們需要選擇高質(zhì)量的外鏈。高權重的外部鏈接是我們的首選。我們可以使用我們自己的高權重網(wǎng)站、論壇、愛(ài)站站長(cháng)主頁(yè)等
我們擁有的高質(zhì)量反向鏈接越多,搜索引擎就越會(huì )將我們視為專(zhuān)家。搜索引擎認為我們擁有的專(zhuān)業(yè)知識越多,我們的頁(yè)面排名就越高。我們甚至可以與我們在同一領(lǐng)域的其他網(wǎng)站合作,交換反向鏈接和來(lái)賓帖子。我們可以通過(guò)加入 Slack 社區來(lái)建立聯(lián)系來(lái)找到這些網(wǎng)站。

通過(guò)訪(fǎng)客發(fā)布和協(xié)作鏈接構建增加反向鏈接,我們已經(jīng)向我們展示了如何通過(guò)我們自己的頁(yè)面增加自然流量,但是我們是否知道其他可以提高我們排名的 網(wǎng)站s ?當其他 網(wǎng)站 鏈接到我們的內容或將我們列為客座博主時(shí),他們正在為我們的 網(wǎng)站 創(chuàng )建便于搜索的“反向鏈接”。
使用內部鏈接,這有助于搜索者更多地了解他們感興趣的主題。我們可以通過(guò)在其自然有意義的內容中嵌入內部鏈接來(lái)利用它們。嵌入內部鏈接時(shí),選擇與我們?yōu)樵擁?yè)面定位的關(guān)鍵字接近的錨文本。例如,如果我們的目標是“Wallet 采集”和“Watch 采集”,請使用“Wallet 采集”和“Watch Set”等變體。
主題集群是與整體主題或主題相關(guān)的內容集群。對于主題集群,通常有稱(chēng)為“父頁(yè)面”的主頁(yè)面和稱(chēng)為“子頁(yè)面”的子頁(yè)面。父頁(yè)面涵蓋了一般主題和指向具有更具體內容的子頁(yè)面的鏈接。
搜索引擎的算法偏愛(ài)主題集群,因為它們可以幫助搜索者深入了解他們感興趣的主題。因此,如果搜索者渴望了解有關(guān)巧克力蛋糕的所有信息,搜索引擎會(huì )很樂(lè )意分享我們采集的巧克力蛋糕帖子。

長(cháng)期 SEO 成功的關(guān)鍵是增加自然流量。為了提高我們頁(yè)面的SEO,站群外鏈工具還支持自動(dòng)采集偽原創(chuàng )發(fā)布和關(guān)鍵詞挖掘功能。通過(guò)關(guān)鍵詞挖礦,你可以讓我們獲得海量行業(yè)相關(guān)的關(guān)鍵詞、流行語(yǔ)和下拉菜單。
站群在搭建外鏈的同時(shí),也要注意網(wǎng)站的優(yōu)化。 站群外鏈工具可以讓我們的站群內容快速填充更新,同時(shí)可以批量發(fā)布外鏈。管理??梢暬?yè)面讓我們可以在一個(gè)顯示中查看管理站群的多個(gè)數據信息,無(wú)論是網(wǎng)站收錄、內部鏈接數、蜘蛛光顧曲線(xiàn)還是關(guān)鍵詞排名可以輕松管理。
站群外鏈搭建的分享到此結束。通過(guò)不斷增加反向鏈接和友情鏈接的建設,可以快速獲得搜索引擎平臺的信任,讓我們的收錄排名不斷提升。如果您對站群外部鏈接的搭建感興趣,不妨點(diǎn)擊三個(gè)鏈接留言討論。
推薦文章:API_短信測壓_偽原創(chuàng )工具_seo外鏈推廣,免費名片贊
API_短信壓測_偽原創(chuàng )tool_seo外鏈推廣,免費名片點(diǎn)贊數達到4014。如需查詢(xún)本站相關(guān)重量信息,可點(diǎn)擊“愛(ài)站數據”“Chinaz“數據”輸入;參考當前網(wǎng)站數據,建議大家參考愛(ài)站數據,更多網(wǎng)站價(jià)值評價(jià)因素如:API_SMS壓測_偽原創(chuàng )Tools_seo外鏈推廣、免費名片點(diǎn)贊訪(fǎng)問(wèn)速度、搜索引擎收錄、索引量、用戶(hù)體驗等;當然要評價(jià)一個(gè)網(wǎng)站的價(jià)值,最重要的還是要評價(jià)自己的需求和需求,一些準確的數據,需要找API_SMS壓測_偽原創(chuàng )tool_seo外鏈推廣,免費名片像站長(cháng)協(xié)商提供。比如站內IP、PV、跳出率等!

關(guān)于A(yíng)PI_短信壓測_偽原創(chuàng )tool_seo外鏈推廣,免費名片樣特別聲明

本站小島導航網(wǎng)提供的API_SMS壓測_偽原創(chuàng )tool_seo外鏈推廣,免費名片點(diǎn)贊均來(lái)自網(wǎng)絡(luò ),不保證外鏈的準確性和完整性。同時(shí),對于外部鏈接網(wǎng)站的指向,實(shí)際上并不受小島導航網(wǎng)絡(luò )的控制。2022年4月3日下午3點(diǎn)24分收錄,本網(wǎng)頁(yè)內容全部合規合法。后期網(wǎng)頁(yè)內容如有侵權,可直接聯(lián)系網(wǎng)站管理員刪除,小島導航網(wǎng)不承擔任何責任。
網(wǎng)站自動(dòng)采集發(fā)布,一鍵標題提取,自動(dòng)上傳(圖)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 124 次瀏覽 ? 2022-08-26 03:03
網(wǎng)站自動(dòng)采集發(fā)布,一鍵標題提取,自動(dòng)上傳,內容全網(wǎng)監控,關(guān)鍵詞批量定位,使用后效果有目共睹,
數據魔方,這個(gè)基本滿(mǎn)足國內用戶(hù)的需求了。
你可以用百度站長(cháng)平臺的統計模塊,將需要的數據添加進(jìn)去就可以了。
阿里指數或億邦動(dòng)力,
用傳統的baidu統計什么的很多呀。
量子統計數據。還有一家叫bi大數據,不過(guò)我沒(méi)用過(guò)。
blink或者網(wǎng)站流量魔方
流量魔方不錯,
官網(wǎng),量子統計,
可以用blink的流量統計,量子統計(更新太慢,
定位目標用戶(hù)在哪里
他們家官網(wǎng)上的量子統計,
看好blink的流量統計
行云分析
流量魔方挺不錯的,適合用blink的,
百度統計的本地版——流量魔方,
用自己的數據做網(wǎng)站數據統計。不是大站,也沒(méi)有人投訴。
如果國內的數據質(zhì)量還可以的話(huà),可以用友盟,百度統計和站長(cháng)平臺這種,另外,我覺(jué)得還可以用麥子數據的infostation,支持按設備分配,為網(wǎng)站提供全網(wǎng)服務(wù)。
無(wú)覓網(wǎng),
&ucgroups.urlzistheleadingwebdatamarketplace,whichisdesignedtomeetclients,includingsemanticanalytics,googleanalyticsandbinganalytics 查看全部
網(wǎng)站自動(dòng)采集發(fā)布,一鍵標題提取,自動(dòng)上傳(圖)
網(wǎng)站自動(dòng)采集發(fā)布,一鍵標題提取,自動(dòng)上傳,內容全網(wǎng)監控,關(guān)鍵詞批量定位,使用后效果有目共睹,
數據魔方,這個(gè)基本滿(mǎn)足國內用戶(hù)的需求了。
你可以用百度站長(cháng)平臺的統計模塊,將需要的數據添加進(jìn)去就可以了。
阿里指數或億邦動(dòng)力,
用傳統的baidu統計什么的很多呀。
量子統計數據。還有一家叫bi大數據,不過(guò)我沒(méi)用過(guò)。

blink或者網(wǎng)站流量魔方
流量魔方不錯,
官網(wǎng),量子統計,
可以用blink的流量統計,量子統計(更新太慢,
定位目標用戶(hù)在哪里
他們家官網(wǎng)上的量子統計,
看好blink的流量統計

行云分析
流量魔方挺不錯的,適合用blink的,
百度統計的本地版——流量魔方,
用自己的數據做網(wǎng)站數據統計。不是大站,也沒(méi)有人投訴。
如果國內的數據質(zhì)量還可以的話(huà),可以用友盟,百度統計和站長(cháng)平臺這種,另外,我覺(jué)得還可以用麥子數據的infostation,支持按設備分配,為網(wǎng)站提供全網(wǎng)服務(wù)。
無(wú)覓網(wǎng),
&ucgroups.urlzistheleadingwebdatamarketplace,whichisdesignedtomeetclients,includingsemanticanalytics,googleanalyticsandbinganalytics
搭建一個(gè)小說(shuō)網(wǎng)站:附帶全自動(dòng)采集 流量來(lái)得快、變現容易(搭建教程 源碼)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 124 次瀏覽 ? 2022-08-25 20:31
一、課程介紹
小說(shuō)網(wǎng)主要特點(diǎn)就是資源豐富,上萬(wàn)本的小說(shuō)只是起步,每天還要保持不斷的更新最新的小說(shuō)資源庫,除了大牌,其他幾乎都是批量采集的
網(wǎng)站想要做好就必須要有龐大的資源量來(lái)支撐,作為一種古老的信息載體是非常適合進(jìn)行流量變現的,這類(lèi)看書(shū)人群還有一個(gè)顯著(zhù)特征就是極其有耐心
優(yōu)勢就是流量來(lái)得快、變現容易、網(wǎng)站維護簡(jiǎn)單
那么今天阿風(fēng)會(huì )和大家一起搭建出一個(gè)和視頻一模一樣的小說(shuō)站點(diǎn)
所有的實(shí)操步驟我將會(huì )在視頻中帶著(zhù)大家一同實(shí)操,沒(méi)有基礎,你們只需要跟著(zhù)做就可以了
二、實(shí)操教學(xué)
此程序是快速架設小說(shuō)類(lèi)網(wǎng)站首選,靈活,方便,人性化設計簡(jiǎn)單易用是最大的特色,批量采集目標網(wǎng)站數據或使用數據聯(lián)盟,即可自動(dòng)采集獲取大量數據
1、安裝寶塔面板PHP7.2
2、軟件商店中PHP拓展安裝:fileinfo3、網(wǎng)站偽靜態(tài)設置:Tinkphp
4、小說(shuō)源碼上傳到寶塔域名文件夾根目錄
5、訪(fǎng)問(wèn):站點(diǎn)域名/install,進(jìn)行安裝
6、設置網(wǎng)站基本信息,選擇性手動(dòng)發(fā)布和自動(dòng)采集
三、盈利變現
1、廣告聯(lián)盟(最常見(jiàn))
2、收取會(huì )員費(不推薦使用) 查看全部
搭建一個(gè)小說(shuō)網(wǎng)站:附帶全自動(dòng)采集 流量來(lái)得快、變現容易(搭建教程 源碼)
一、課程介紹
小說(shuō)網(wǎng)主要特點(diǎn)就是資源豐富,上萬(wàn)本的小說(shuō)只是起步,每天還要保持不斷的更新最新的小說(shuō)資源庫,除了大牌,其他幾乎都是批量采集的
網(wǎng)站想要做好就必須要有龐大的資源量來(lái)支撐,作為一種古老的信息載體是非常適合進(jìn)行流量變現的,這類(lèi)看書(shū)人群還有一個(gè)顯著(zhù)特征就是極其有耐心
優(yōu)勢就是流量來(lái)得快、變現容易、網(wǎng)站維護簡(jiǎn)單

那么今天阿風(fēng)會(huì )和大家一起搭建出一個(gè)和視頻一模一樣的小說(shuō)站點(diǎn)
所有的實(shí)操步驟我將會(huì )在視頻中帶著(zhù)大家一同實(shí)操,沒(méi)有基礎,你們只需要跟著(zhù)做就可以了
二、實(shí)操教學(xué)
此程序是快速架設小說(shuō)類(lèi)網(wǎng)站首選,靈活,方便,人性化設計簡(jiǎn)單易用是最大的特色,批量采集目標網(wǎng)站數據或使用數據聯(lián)盟,即可自動(dòng)采集獲取大量數據
1、安裝寶塔面板PHP7.2
2、軟件商店中PHP拓展安裝:fileinfo3、網(wǎng)站偽靜態(tài)設置:Tinkphp

4、小說(shuō)源碼上傳到寶塔域名文件夾根目錄
5、訪(fǎng)問(wèn):站點(diǎn)域名/install,進(jìn)行安裝
6、設置網(wǎng)站基本信息,選擇性手動(dòng)發(fā)布和自動(dòng)采集
三、盈利變現
1、廣告聯(lián)盟(最常見(jiàn))
2、收取會(huì )員費(不推薦使用)
搭建一個(gè)小說(shuō)網(wǎng)站:附帶全自動(dòng)采集 流量來(lái)得快、變現容易(搭建教程+源碼
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 264 次瀏覽 ? 2022-08-19 13:22
一、課程介紹
小說(shuō)網(wǎng)主要特點(diǎn)就是資源豐富,上萬(wàn)本的小說(shuō)只是起步,每天還要保持不斷的更新最新的小說(shuō)資源庫,除了大牌,其他幾乎都是批量采集的
網(wǎng)站想要做好就必須要有龐大的資源量來(lái)支撐,作為一種古老的信息載體是非常適合進(jìn)行流量變現的,這類(lèi)看書(shū)人群還有一個(gè)顯著(zhù)特征就是極其有耐心
優(yōu)勢就是流量來(lái)得快、變現容易、網(wǎng)站維護簡(jiǎn)單
那么今天阿風(fēng)會(huì )和大家一起搭建出一個(gè)和視頻一模一樣的小說(shuō)站點(diǎn)
所有的實(shí)操步驟我將會(huì )在視頻中帶著(zhù)大家一同實(shí)操,沒(méi)有基礎,你們只需要跟著(zhù)做就可以了
二、實(shí)操教學(xué)
此程序是快速架設小說(shuō)類(lèi)網(wǎng)站首選,靈活,方便,人性化設計簡(jiǎn)單易用是最大的特色,批量采集目標網(wǎng)站數據或使用數據聯(lián)盟,即可自動(dòng)采集獲取大量數據
1、安裝寶塔面板PHP7.2
2、軟件商店中PHP拓展安裝:fileinfo
3、網(wǎng)站偽靜態(tài)設置:Tinkphp
4、小說(shuō)源碼上傳到寶塔域名文件夾根目錄
5、訪(fǎng)問(wèn):站點(diǎn)域名/install,進(jìn)行安裝
6、設置網(wǎng)站基本信息,選擇性手動(dòng)發(fā)布和自動(dòng)采集
三、盈利變現
1、廣告聯(lián)盟(最常見(jiàn))
2、收取會(huì )員費(不推薦
? 查看全部
搭建一個(gè)小說(shuō)網(wǎng)站:附帶全自動(dòng)采集 流量來(lái)得快、變現容易(搭建教程+源碼
一、課程介紹
小說(shuō)網(wǎng)主要特點(diǎn)就是資源豐富,上萬(wàn)本的小說(shuō)只是起步,每天還要保持不斷的更新最新的小說(shuō)資源庫,除了大牌,其他幾乎都是批量采集的
網(wǎng)站想要做好就必須要有龐大的資源量來(lái)支撐,作為一種古老的信息載體是非常適合進(jìn)行流量變現的,這類(lèi)看書(shū)人群還有一個(gè)顯著(zhù)特征就是極其有耐心
優(yōu)勢就是流量來(lái)得快、變現容易、網(wǎng)站維護簡(jiǎn)單
那么今天阿風(fēng)會(huì )和大家一起搭建出一個(gè)和視頻一模一樣的小說(shuō)站點(diǎn)
所有的實(shí)操步驟我將會(huì )在視頻中帶著(zhù)大家一同實(shí)操,沒(méi)有基礎,你們只需要跟著(zhù)做就可以了

二、實(shí)操教學(xué)
此程序是快速架設小說(shuō)類(lèi)網(wǎng)站首選,靈活,方便,人性化設計簡(jiǎn)單易用是最大的特色,批量采集目標網(wǎng)站數據或使用數據聯(lián)盟,即可自動(dòng)采集獲取大量數據
1、安裝寶塔面板PHP7.2
2、軟件商店中PHP拓展安裝:fileinfo
3、網(wǎng)站偽靜態(tài)設置:Tinkphp
4、小說(shuō)源碼上傳到寶塔域名文件夾根目錄

5、訪(fǎng)問(wèn):站點(diǎn)域名/install,進(jìn)行安裝
6、設置網(wǎng)站基本信息,選擇性手動(dòng)發(fā)布和自動(dòng)采集
三、盈利變現
1、廣告聯(lián)盟(最常見(jiàn))
2、收取會(huì )員費(不推薦
?
跨境電商網(wǎng)站自動(dòng)采集發(fā)布到、亞馬遜賣(mài)家薈聚
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 148 次瀏覽 ? 2022-08-13 15:02
網(wǎng)站自動(dòng)采集發(fā)布到、亞馬遜賣(mài)家薈聚薈聚是一家專(zhuān)注于亞馬遜、速賣(mài)通、wish,東南亞lazada,shopee、priceminister、newegg等平臺運營(yíng)的跨境電商企業(yè)。
現在我們可以發(fā)布訂單啊,我們做的是廣告推廣,可以自定義搜索,自動(dòng)將搜索結果顯示在我們的shopify店鋪上,顧客購買(mǎi)后自動(dòng)發(fā)送到亞馬遜站點(diǎn)去面單提交商品發(fā)布到亞馬遜,
有利可圖就可以,自己用心經(jīng)營(yíng)做淘寶、天貓。這不是什么大不了的事情,真正的大數據是不能被操縱的,你的上家可以天天刷單讓你多銷(xiāo)量,為了得到你的資源,發(fā)高價(jià)格給你,但那都是別人。真正的大數據是可以對你搜索過(guò)的內容幫你分析出產(chǎn)品潛力、市場(chǎng)潛力等等。還是不懂的話(huà),
要看你發(fā)布什么產(chǎn)品,多大平臺,亞馬遜還是速賣(mài)通,還是獨立站,那么大平臺一般來(lái)說(shuō)你做站內廣告推廣比較好,因為競爭激烈,首頁(yè)必有你的產(chǎn)品,站外可以做一些上搜索引擎知名度的seo,現在做黑科技,你可以搜索一下看看有沒(méi)有你發(fā)布的產(chǎn)品,只是上架要注意一下關(guān)鍵詞,不要重復或者一字不錯的去填寫(xiě)就行。獨立站就是在站外做上去,這個(gè)看有沒(méi)有銷(xiāo)量粉絲,
從我目前從事的網(wǎng)站營(yíng)銷(xiāo)的操作習慣來(lái)看,一般建議優(yōu)先使用自然搜索引擎優(yōu)化,因為這些是最優(yōu)的roi最高的推廣,基本做到這樣已經(jīng)可以達到營(yíng)銷(xiāo)很好的效果了。獨立站我倒覺(jué)得可以不必去花大量精力在這上面。當然如果你的產(chǎn)品能夠通過(guò)網(wǎng)站廣告帶到大網(wǎng)站或者小網(wǎng)站,那么流量效果會(huì )明顯高于你在其他平臺推廣。網(wǎng)站廣告如果能夠達到效果的最大化應該是把投入的金錢(qián)盡可能的效用在獲取網(wǎng)站流量而不是在獲取廣告點(diǎn)擊上面。 查看全部
跨境電商網(wǎng)站自動(dòng)采集發(fā)布到、亞馬遜賣(mài)家薈聚
網(wǎng)站自動(dòng)采集發(fā)布到、亞馬遜賣(mài)家薈聚薈聚是一家專(zhuān)注于亞馬遜、速賣(mài)通、wish,東南亞lazada,shopee、priceminister、newegg等平臺運營(yíng)的跨境電商企業(yè)。

現在我們可以發(fā)布訂單啊,我們做的是廣告推廣,可以自定義搜索,自動(dòng)將搜索結果顯示在我們的shopify店鋪上,顧客購買(mǎi)后自動(dòng)發(fā)送到亞馬遜站點(diǎn)去面單提交商品發(fā)布到亞馬遜,
有利可圖就可以,自己用心經(jīng)營(yíng)做淘寶、天貓。這不是什么大不了的事情,真正的大數據是不能被操縱的,你的上家可以天天刷單讓你多銷(xiāo)量,為了得到你的資源,發(fā)高價(jià)格給你,但那都是別人。真正的大數據是可以對你搜索過(guò)的內容幫你分析出產(chǎn)品潛力、市場(chǎng)潛力等等。還是不懂的話(huà),

要看你發(fā)布什么產(chǎn)品,多大平臺,亞馬遜還是速賣(mài)通,還是獨立站,那么大平臺一般來(lái)說(shuō)你做站內廣告推廣比較好,因為競爭激烈,首頁(yè)必有你的產(chǎn)品,站外可以做一些上搜索引擎知名度的seo,現在做黑科技,你可以搜索一下看看有沒(méi)有你發(fā)布的產(chǎn)品,只是上架要注意一下關(guān)鍵詞,不要重復或者一字不錯的去填寫(xiě)就行。獨立站就是在站外做上去,這個(gè)看有沒(méi)有銷(xiāo)量粉絲,
從我目前從事的網(wǎng)站營(yíng)銷(xiāo)的操作習慣來(lái)看,一般建議優(yōu)先使用自然搜索引擎優(yōu)化,因為這些是最優(yōu)的roi最高的推廣,基本做到這樣已經(jīng)可以達到營(yíng)銷(xiāo)很好的效果了。獨立站我倒覺(jué)得可以不必去花大量精力在這上面。當然如果你的產(chǎn)品能夠通過(guò)網(wǎng)站廣告帶到大網(wǎng)站或者小網(wǎng)站,那么流量效果會(huì )明顯高于你在其他平臺推廣。網(wǎng)站廣告如果能夠達到效果的最大化應該是把投入的金錢(qián)盡可能的效用在獲取網(wǎng)站流量而不是在獲取廣告點(diǎn)擊上面。
搭建一個(gè)小說(shuō)網(wǎng)站:附帶全自動(dòng)采集 流量來(lái)得快、變現容易(搭建教程+源碼)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 185 次瀏覽 ? 2022-08-08 01:47
一、課程介紹
小說(shuō)網(wǎng)主要特點(diǎn)就是資源豐富,上萬(wàn)本的小說(shuō)只是起步,每天還要保持不斷的更新最新的小說(shuō)資源庫,除了大牌,其他幾乎都是批量采集的
網(wǎng)站想要做好就必須要有龐大的資源量來(lái)支撐,作為一種古老的信息載體是非常適合進(jìn)行流量變現的,這類(lèi)看書(shū)人群還有一個(gè)顯著(zhù)特征就是極其有耐心
優(yōu)勢就是流量來(lái)得快、變現容易、網(wǎng)站維護簡(jiǎn)單
那么今天阿風(fēng)會(huì )和大家一起搭建出一個(gè)和視頻一模一樣的小說(shuō)站點(diǎn)
所有的實(shí)操步驟我將會(huì )在視頻中帶著(zhù)大家一同實(shí)操,沒(méi)有基礎,你們只需要跟著(zhù)做就可以了
二、實(shí)操教學(xué)
此程序是快速架設小說(shuō)類(lèi)網(wǎng)站首選,靈活,方便,人性化設計簡(jiǎn)單易用是最大的特色,批量采集目標網(wǎng)站數據或使用數據聯(lián)盟,即可自動(dòng)采集獲取大量數據
1、安裝寶塔面板PHP7.2
2、軟件商店中PHP拓展安裝:fileinfo3、網(wǎng)站偽靜態(tài)設置:Tinkphp
4、小說(shuō)源碼上傳到寶塔域名文件夾根目錄
5、訪(fǎng)問(wèn):站點(diǎn)域名/install,進(jìn)行安裝
6、設置網(wǎng)站基本信息,選擇性手動(dòng)發(fā)布和自動(dòng)采集
三、盈利變現
1、廣告聯(lián)盟(最常見(jiàn))
2、收取會(huì )員費(不推薦使用) 查看全部
搭建一個(gè)小說(shuō)網(wǎng)站:附帶全自動(dòng)采集 流量來(lái)得快、變現容易(搭建教程+源碼)
一、課程介紹
小說(shuō)網(wǎng)主要特點(diǎn)就是資源豐富,上萬(wàn)本的小說(shuō)只是起步,每天還要保持不斷的更新最新的小說(shuō)資源庫,除了大牌,其他幾乎都是批量采集的
網(wǎng)站想要做好就必須要有龐大的資源量來(lái)支撐,作為一種古老的信息載體是非常適合進(jìn)行流量變現的,這類(lèi)看書(shū)人群還有一個(gè)顯著(zhù)特征就是極其有耐心
優(yōu)勢就是流量來(lái)得快、變現容易、網(wǎng)站維護簡(jiǎn)單
那么今天阿風(fēng)會(huì )和大家一起搭建出一個(gè)和視頻一模一樣的小說(shuō)站點(diǎn)

所有的實(shí)操步驟我將會(huì )在視頻中帶著(zhù)大家一同實(shí)操,沒(méi)有基礎,你們只需要跟著(zhù)做就可以了
二、實(shí)操教學(xué)
此程序是快速架設小說(shuō)類(lèi)網(wǎng)站首選,靈活,方便,人性化設計簡(jiǎn)單易用是最大的特色,批量采集目標網(wǎng)站數據或使用數據聯(lián)盟,即可自動(dòng)采集獲取大量數據
1、安裝寶塔面板PHP7.2
2、軟件商店中PHP拓展安裝:fileinfo3、網(wǎng)站偽靜態(tài)設置:Tinkphp

4、小說(shuō)源碼上傳到寶塔域名文件夾根目錄
5、訪(fǎng)問(wèn):站點(diǎn)域名/install,進(jìn)行安裝
6、設置網(wǎng)站基本信息,選擇性手動(dòng)發(fā)布和自動(dòng)采集
三、盈利變現
1、廣告聯(lián)盟(最常見(jiàn))
2、收取會(huì )員費(不推薦使用)
網(wǎng)站自動(dòng)采集發(fā)布情況下如何提高采集采集成功率?
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 128 次瀏覽 ? 2022-07-30 02:01
網(wǎng)站自動(dòng)采集發(fā)布情況下,除了第一個(gè),后面會(huì )有無(wú)數個(gè)一樣的,都會(huì )選這個(gè),只是重復程度不同,來(lái)提高采集成功率。用些程序根據重復率判斷用戶(hù)是否已經(jīng)采集完成。
這個(gè)問(wèn)題基本無(wú)解,ai都不行,只能靠人工來(lái)識別,
如果覺(jué)得自己的手工工作太繁瑣??梢越柚W(wǎng)站數據采集軟件采集相關(guān)網(wǎng)站的信息。
根據這個(gè)情況,
原則上只能對無(wú)關(guān)聯(lián)的網(wǎng)站進(jìn)行采集,如果你想采集這個(gè)系列網(wǎng)站的所有內容,要么找人寫(xiě)爬蟲(chóng),
真心推薦佳互動(dòng)的gtk自動(dòng)采集器功能強大容易用本地采集,可按條件直接自動(dòng)下載。還有自定義篩選。
從一個(gè)頁(yè)面去搜索去爬取基本做不到,因為每個(gè)網(wǎng)站的功能都不一樣。你找一個(gè)程序就可以了,現在免費的好多,
自動(dòng)采集推薦你爬蟲(chóng)采集的,
這個(gè)很簡(jiǎn)單,準備工作就是先下載網(wǎng)頁(yè)后不能cookie直接上網(wǎng)站搜索,然后很多網(wǎng)站都用了flash的api,
每個(gè)網(wǎng)站的具體網(wǎng)址我都想不出來(lái),而且你提到這個(gè)網(wǎng)站標題就是導入數據的,跟你這個(gè)中文介紹完全沒(méi)關(guān)系。這種情況下搜索引擎爬蟲(chóng)爬取到哪個(gè)頁(yè)面就會(huì )采哪個(gè)頁(yè)面,所以你可以嘗試看看搜索“pw#xx#zz#qz”是不是也可以搜索到她們的內容。如果也可以我推薦你爬取一下的在線(xiàn)幫助更新報告。 查看全部
網(wǎng)站自動(dòng)采集發(fā)布情況下如何提高采集采集成功率?
網(wǎng)站自動(dòng)采集發(fā)布情況下,除了第一個(gè),后面會(huì )有無(wú)數個(gè)一樣的,都會(huì )選這個(gè),只是重復程度不同,來(lái)提高采集成功率。用些程序根據重復率判斷用戶(hù)是否已經(jīng)采集完成。
這個(gè)問(wèn)題基本無(wú)解,ai都不行,只能靠人工來(lái)識別,
如果覺(jué)得自己的手工工作太繁瑣??梢越柚W(wǎng)站數據采集軟件采集相關(guān)網(wǎng)站的信息。

根據這個(gè)情況,
原則上只能對無(wú)關(guān)聯(lián)的網(wǎng)站進(jìn)行采集,如果你想采集這個(gè)系列網(wǎng)站的所有內容,要么找人寫(xiě)爬蟲(chóng),
真心推薦佳互動(dòng)的gtk自動(dòng)采集器功能強大容易用本地采集,可按條件直接自動(dòng)下載。還有自定義篩選。

從一個(gè)頁(yè)面去搜索去爬取基本做不到,因為每個(gè)網(wǎng)站的功能都不一樣。你找一個(gè)程序就可以了,現在免費的好多,
自動(dòng)采集推薦你爬蟲(chóng)采集的,
這個(gè)很簡(jiǎn)單,準備工作就是先下載網(wǎng)頁(yè)后不能cookie直接上網(wǎng)站搜索,然后很多網(wǎng)站都用了flash的api,
每個(gè)網(wǎng)站的具體網(wǎng)址我都想不出來(lái),而且你提到這個(gè)網(wǎng)站標題就是導入數據的,跟你這個(gè)中文介紹完全沒(méi)關(guān)系。這種情況下搜索引擎爬蟲(chóng)爬取到哪個(gè)頁(yè)面就會(huì )采哪個(gè)頁(yè)面,所以你可以嘗試看看搜索“pw#xx#zz#qz”是不是也可以搜索到她們的內容。如果也可以我推薦你爬取一下的在線(xiàn)幫助更新報告。
網(wǎng)站自動(dòng)采集發(fā)布最好用自動(dòng)發(fā)布工具采集(組圖)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 168 次瀏覽 ? 2022-07-21 22:01
網(wǎng)站自動(dòng)采集發(fā)布最好用自動(dòng)發(fā)布工具采集網(wǎng)站新聞客戶(hù)端自動(dòng)發(fā)布網(wǎng)站各個(gè)主流平臺的推送推送所有關(guān)鍵詞,用amazon推送就發(fā)布亞馬遜amazon上發(fā)布ebay平臺的東西,用速賣(mài)通,速賣(mài)通上發(fā)布英國東西只能用facebook,google等一些平臺的賬號,把這些人發(fā)布到這些地方facebook:@你同事發(fā)布到小站shopify:@你同事發(fā)布到小站paypal:@你同事你同事發(fā)布到小站facebook我們可以發(fā)布各個(gè)地區的一些模特類(lèi)的,然后通過(guò)購買(mǎi)channel發(fā)布到亞馬遜首頁(yè)速賣(mài)通我們可以把他們發(fā)布到速賣(mài)通首頁(yè)ebay我們可以把他們發(fā)布到ebay首頁(yè)而你同事發(fā)布在listing中你通過(guò)他們一鍵發(fā)布到亞馬遜就是自動(dòng)采集工具自動(dòng)發(fā)布工具發(fā)布地址:百度搜索“發(fā)布機器人”。
注冊小豬短租在簡(jiǎn)介里搜索“自動(dòng)化”可以看到各式各樣的自動(dòng)化軟件以及針對性解決方案。這么來(lái)看就算我沒(méi)理解錯的話(huà),提主應該是希望能夠快速發(fā)布公寓信息。這個(gè)項目很簡(jiǎn)單,目標人群是“中國人”。我當初也是做了個(gè)假房源,也提供自動(dòng)化發(fā)布服務(wù),效果我看了下是真的不怎么樣。后來(lái)我嘗試讓客戶(hù)直接聯(lián)系我們的發(fā)布機器人,效果還行。
這就是一個(gè)發(fā)布信息的開(kāi)發(fā)工具,針對中國人發(fā)布信息。效果如圖:很簡(jiǎn)單吧?做信息流的,如果是我,就加入百度信息流推薦的那些信息源。數據會(huì )定期更新,如果你的產(chǎn)品你是大大大頭頭,自然會(huì )有很多人來(lái)找你聯(lián)系你。也就是說(shuō),你就算發(fā)布的信息是在墻外的網(wǎng)站你也可以發(fā)布在我們平臺上。他這邊接收簡(jiǎn)單的工具,就可以按照你想要的發(fā)布效果,制定推薦算法模型,給你發(fā)布成功。
說(shuō)到這里就可以閉眼隨便玩玩自動(dòng)化發(fā)布軟件,弄點(diǎn)輔助工具了,發(fā)布文章有配圖插件、翻譯的話(huà)也是可以直接插語(yǔ)音(每條至少15秒)。一鍵發(fā)布的話(huà),你就只需要按照接下來(lái)說(shuō)的,去做就行了。當然,如果你需要的是公寓產(chǎn)品的深度分析和深度定位,那就難些了。如果你只是普通的用戶(hù),就會(huì )比較簡(jiǎn)單,用一個(gè)公寓點(diǎn)點(diǎn)鼠標就行了。你要是需要我直接發(fā)給你教程,怕引起大家的不適。你可以私信我。 查看全部
網(wǎng)站自動(dòng)采集發(fā)布最好用自動(dòng)發(fā)布工具采集(組圖)
網(wǎng)站自動(dòng)采集發(fā)布最好用自動(dòng)發(fā)布工具采集網(wǎng)站新聞客戶(hù)端自動(dòng)發(fā)布網(wǎng)站各個(gè)主流平臺的推送推送所有關(guān)鍵詞,用amazon推送就發(fā)布亞馬遜amazon上發(fā)布ebay平臺的東西,用速賣(mài)通,速賣(mài)通上發(fā)布英國東西只能用facebook,google等一些平臺的賬號,把這些人發(fā)布到這些地方facebook:@你同事發(fā)布到小站shopify:@你同事發(fā)布到小站paypal:@你同事你同事發(fā)布到小站facebook我們可以發(fā)布各個(gè)地區的一些模特類(lèi)的,然后通過(guò)購買(mǎi)channel發(fā)布到亞馬遜首頁(yè)速賣(mài)通我們可以把他們發(fā)布到速賣(mài)通首頁(yè)ebay我們可以把他們發(fā)布到ebay首頁(yè)而你同事發(fā)布在listing中你通過(guò)他們一鍵發(fā)布到亞馬遜就是自動(dòng)采集工具自動(dòng)發(fā)布工具發(fā)布地址:百度搜索“發(fā)布機器人”。

注冊小豬短租在簡(jiǎn)介里搜索“自動(dòng)化”可以看到各式各樣的自動(dòng)化軟件以及針對性解決方案。這么來(lái)看就算我沒(méi)理解錯的話(huà),提主應該是希望能夠快速發(fā)布公寓信息。這個(gè)項目很簡(jiǎn)單,目標人群是“中國人”。我當初也是做了個(gè)假房源,也提供自動(dòng)化發(fā)布服務(wù),效果我看了下是真的不怎么樣。后來(lái)我嘗試讓客戶(hù)直接聯(lián)系我們的發(fā)布機器人,效果還行。

這就是一個(gè)發(fā)布信息的開(kāi)發(fā)工具,針對中國人發(fā)布信息。效果如圖:很簡(jiǎn)單吧?做信息流的,如果是我,就加入百度信息流推薦的那些信息源。數據會(huì )定期更新,如果你的產(chǎn)品你是大大大頭頭,自然會(huì )有很多人來(lái)找你聯(lián)系你。也就是說(shuō),你就算發(fā)布的信息是在墻外的網(wǎng)站你也可以發(fā)布在我們平臺上。他這邊接收簡(jiǎn)單的工具,就可以按照你想要的發(fā)布效果,制定推薦算法模型,給你發(fā)布成功。
說(shuō)到這里就可以閉眼隨便玩玩自動(dòng)化發(fā)布軟件,弄點(diǎn)輔助工具了,發(fā)布文章有配圖插件、翻譯的話(huà)也是可以直接插語(yǔ)音(每條至少15秒)。一鍵發(fā)布的話(huà),你就只需要按照接下來(lái)說(shuō)的,去做就行了。當然,如果你需要的是公寓產(chǎn)品的深度分析和深度定位,那就難些了。如果你只是普通的用戶(hù),就會(huì )比較簡(jiǎn)單,用一個(gè)公寓點(diǎn)點(diǎn)鼠標就行了。你要是需要我直接發(fā)給你教程,怕引起大家的不適。你可以私信我。
產(chǎn)品發(fā)布會(huì )第六期|探索“視覺(jué)智能”關(guān)鍵技術(shù) 實(shí)現大數據深度應用
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 131 次瀏覽 ? 2022-07-20 18:01
7月15日,潤建股份2022年產(chǎn)品發(fā)布會(huì )第六期順利舉辦,公司技術(shù)骨干就“視覺(jué)智能”、“大數據”等領(lǐng)域展開(kāi)了深入探索,向全國23+個(gè)省份市場(chǎng)人員發(fā)布最新研發(fā)成果,并通過(guò)線(xiàn)上互動(dòng),圍繞產(chǎn)品功能亮點(diǎn)、市場(chǎng)潛力、客戶(hù)價(jià)值等話(huà)題內容進(jìn)行溝通交流。
本次發(fā)布會(huì )共發(fā)布兩款產(chǎn)品,分別為“曲尺”視覺(jué)智能開(kāi)放平臺、大數據管家。
“曲尺”視覺(jué)智能開(kāi)放平臺
基于潤建股份在建維行業(yè)豐富的實(shí)踐經(jīng)驗,結合大數據和計算機視覺(jué)AI技術(shù),面向建維公司和行業(yè)應用開(kāi)發(fā)商,提供高效易用的視覺(jué)算法API服務(wù),幫助企業(yè)快速實(shí)現視覺(jué)智能軟硬件解決方案。
▲系統平臺操作演示
產(chǎn)品優(yōu)勢
●基于豐富建維實(shí)踐的視覺(jué)算法平臺
基于潤建股份在建維行業(yè)近20年實(shí)踐經(jīng)驗,安全風(fēng)險意識深刻企業(yè)基因,眾多的項目實(shí)踐有條件收集海量數據素材,為建維細分領(lǐng)域算法提供豐厚的土壤。
●提供高性?xún)r(jià)比的私有化平臺
基于潤建貼地服務(wù)的能力,“曲尺”既可以提供云端API接口(未來(lái)基于五象云谷),也可以提供算法終身授權,又可以針對客戶(hù)需求定制高性?xún)r(jià)比的私有化平臺,為用戶(hù)提供條件,自己“玩轉”算法
●靈活的軟硬一體解決方案
“曲尺”平臺選用通用技術(shù)框架,既可以搭配專(zhuān)用硬件,也可以適配用戶(hù)的硬件(定制芯片量化算法),解決方案靈活。
客戶(hù)價(jià)值
● 快速
一站式算法訓練,顯著(zhù)降低開(kāi)發(fā)周期
基于可視化操作和管理界面,集團隊標注、算力管理、模型訓練于一體,數小時(shí)便可構建自定義模型,顯著(zhù)縮短算法開(kāi)發(fā)周期,滿(mǎn)足應用快速上線(xiàn)的需求。
● 易成
云/臺/端開(kāi)放能力,易于應用開(kāi)發(fā)集成
提供云端、平臺端API和邊緣端SDK的三層開(kāi)放能力,適配pyhton/Java/C++等多種開(kāi)發(fā)語(yǔ)言,便于算法的集成和二次開(kāi)發(fā),解決AI應用“最后一公里”問(wèn)題。
● 增效
自動(dòng)運行,全天不休
使用算法接管人工值守,實(shí)現7*24不間斷,無(wú)論是監控時(shí)長(cháng)和風(fēng)險判斷的準確性上,都超越人工監控,可以大大提升安全防范的效率,有效避免漏判、錯判現象
● 降本
一次付費,終身授權
可根據實(shí)際需求選擇最具性?xún)r(jià)比的軟硬件解決方案,軟硬件不捆綁銷(xiāo)售;定制算法開(kāi)發(fā)一次付費,終身可以使用,無(wú)需按年付費(限制終端),免去長(cháng)期被授權限制的煩惱。
● 安全
平臺私有化部署,保障數據安全
全部平臺可部署于用戶(hù)內網(wǎng),數據集、代碼、算力資源等統一管理,數據資產(chǎn)不外流,核心接口可加密,全面保障用戶(hù)數據安全。
● 自主
適配國產(chǎn)化生態(tài),助力信創(chuàng )自主
平臺端、邊緣端可以根據場(chǎng)景需求,針對國產(chǎn)化硬件進(jìn)行優(yōu)化適配,封裝專(zhuān)用API和SDK,不降低算法精度和效率,滿(mǎn)足各類(lèi)項目信創(chuàng )要求。
大數據管家
通過(guò)采集互聯(lián)網(wǎng)官方媒體、商業(yè)媒體、社交媒體數據,解決用戶(hù)輿情收集效率低、發(fā)布內容錯誤、宣傳效果不達預期的問(wèn)題,提升用戶(hù)單位形象,提高用戶(hù)輿情應急、輿情分析能力,提高宣傳效果。
▲大數據管家—輿情中心應用示意
產(chǎn)品優(yōu)勢
● 數據統計全面
?、俑采w范圍廣
國內數據采集類(lèi)型包含網(wǎng)站、論壇、博客、微博、微信、客戶(hù)端、電子報、長(cháng)視頻、短視頻9個(gè)平臺,境外采集類(lèi)型包含境外、外文、推特、臉書(shū)4個(gè)平臺。
?、诓杉侄锡R全 查看全部
產(chǎn)品發(fā)布會(huì )第六期|探索“視覺(jué)智能”關(guān)鍵技術(shù) 實(shí)現大數據深度應用
7月15日,潤建股份2022年產(chǎn)品發(fā)布會(huì )第六期順利舉辦,公司技術(shù)骨干就“視覺(jué)智能”、“大數據”等領(lǐng)域展開(kāi)了深入探索,向全國23+個(gè)省份市場(chǎng)人員發(fā)布最新研發(fā)成果,并通過(guò)線(xiàn)上互動(dòng),圍繞產(chǎn)品功能亮點(diǎn)、市場(chǎng)潛力、客戶(hù)價(jià)值等話(huà)題內容進(jìn)行溝通交流。
本次發(fā)布會(huì )共發(fā)布兩款產(chǎn)品,分別為“曲尺”視覺(jué)智能開(kāi)放平臺、大數據管家。
“曲尺”視覺(jué)智能開(kāi)放平臺
基于潤建股份在建維行業(yè)豐富的實(shí)踐經(jīng)驗,結合大數據和計算機視覺(jué)AI技術(shù),面向建維公司和行業(yè)應用開(kāi)發(fā)商,提供高效易用的視覺(jué)算法API服務(wù),幫助企業(yè)快速實(shí)現視覺(jué)智能軟硬件解決方案。
▲系統平臺操作演示
產(chǎn)品優(yōu)勢
●基于豐富建維實(shí)踐的視覺(jué)算法平臺
基于潤建股份在建維行業(yè)近20年實(shí)踐經(jīng)驗,安全風(fēng)險意識深刻企業(yè)基因,眾多的項目實(shí)踐有條件收集海量數據素材,為建維細分領(lǐng)域算法提供豐厚的土壤。
●提供高性?xún)r(jià)比的私有化平臺
基于潤建貼地服務(wù)的能力,“曲尺”既可以提供云端API接口(未來(lái)基于五象云谷),也可以提供算法終身授權,又可以針對客戶(hù)需求定制高性?xún)r(jià)比的私有化平臺,為用戶(hù)提供條件,自己“玩轉”算法
●靈活的軟硬一體解決方案
“曲尺”平臺選用通用技術(shù)框架,既可以搭配專(zhuān)用硬件,也可以適配用戶(hù)的硬件(定制芯片量化算法),解決方案靈活。

客戶(hù)價(jià)值
● 快速
一站式算法訓練,顯著(zhù)降低開(kāi)發(fā)周期
基于可視化操作和管理界面,集團隊標注、算力管理、模型訓練于一體,數小時(shí)便可構建自定義模型,顯著(zhù)縮短算法開(kāi)發(fā)周期,滿(mǎn)足應用快速上線(xiàn)的需求。
● 易成
云/臺/端開(kāi)放能力,易于應用開(kāi)發(fā)集成
提供云端、平臺端API和邊緣端SDK的三層開(kāi)放能力,適配pyhton/Java/C++等多種開(kāi)發(fā)語(yǔ)言,便于算法的集成和二次開(kāi)發(fā),解決AI應用“最后一公里”問(wèn)題。
● 增效
自動(dòng)運行,全天不休
使用算法接管人工值守,實(shí)現7*24不間斷,無(wú)論是監控時(shí)長(cháng)和風(fēng)險判斷的準確性上,都超越人工監控,可以大大提升安全防范的效率,有效避免漏判、錯判現象
● 降本
一次付費,終身授權
可根據實(shí)際需求選擇最具性?xún)r(jià)比的軟硬件解決方案,軟硬件不捆綁銷(xiāo)售;定制算法開(kāi)發(fā)一次付費,終身可以使用,無(wú)需按年付費(限制終端),免去長(cháng)期被授權限制的煩惱。
● 安全

平臺私有化部署,保障數據安全
全部平臺可部署于用戶(hù)內網(wǎng),數據集、代碼、算力資源等統一管理,數據資產(chǎn)不外流,核心接口可加密,全面保障用戶(hù)數據安全。
● 自主
適配國產(chǎn)化生態(tài),助力信創(chuàng )自主
平臺端、邊緣端可以根據場(chǎng)景需求,針對國產(chǎn)化硬件進(jìn)行優(yōu)化適配,封裝專(zhuān)用API和SDK,不降低算法精度和效率,滿(mǎn)足各類(lèi)項目信創(chuàng )要求。
大數據管家
通過(guò)采集互聯(lián)網(wǎng)官方媒體、商業(yè)媒體、社交媒體數據,解決用戶(hù)輿情收集效率低、發(fā)布內容錯誤、宣傳效果不達預期的問(wèn)題,提升用戶(hù)單位形象,提高用戶(hù)輿情應急、輿情分析能力,提高宣傳效果。
▲大數據管家—輿情中心應用示意
產(chǎn)品優(yōu)勢
● 數據統計全面
?、俑采w范圍廣
國內數據采集類(lèi)型包含網(wǎng)站、論壇、博客、微博、微信、客戶(hù)端、電子報、長(cháng)視頻、短視頻9個(gè)平臺,境外采集類(lèi)型包含境外、外文、推特、臉書(shū)4個(gè)平臺。
?、诓杉侄锡R全
【轉發(fā)】互聯(lián)網(wǎng)開(kāi)放探針資源自動(dòng)發(fā)現和自動(dòng)訪(fǎng)問(wèn)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 124 次瀏覽 ? 2022-07-16 06:57
構建一個(gè)完整、準確的互聯(lián)網(wǎng)域間拓撲對于協(xié)議設計、故障診斷、安全分析等具有十分重要的意義。然而,互聯(lián)網(wǎng)拓撲構建需要依賴(lài)大規模、分布式的探針。近年來(lái),雖然一些測量平臺致力于部署探針,但是這些探針的數量和覆蓋范圍有限。如果能發(fā)現并利用更多的互聯(lián)網(wǎng)開(kāi)放探針資源,無(wú)疑對于互聯(lián)網(wǎng)拓撲測量而言具有十分重要的意義。
多家互聯(lián)網(wǎng)服務(wù)提供商積極部署Looking Glass (LG) 探針并允許用戶(hù)在這些探針上運行一些測量命令,例如traceroute或BGP。服務(wù)提供商部署LG探針用于提供觀(guān)察其網(wǎng)絡(luò )狀況的窗口以吸引客戶(hù)使用他們的網(wǎng)絡(luò )服務(wù),并幫助調試和解決互聯(lián)網(wǎng)連接和性能問(wèn)題。這些LG探針為研究人員提供了從不同位置(例如核心路由器、邊界路由器等)觀(guān)察互聯(lián)網(wǎng)的機會(huì )。盡管LG探針具有一定的優(yōu)勢,但由于每個(gè)LG網(wǎng)頁(yè)都是獨立運營(yíng)和管理的,缺乏關(guān)于所有可用LG網(wǎng)頁(yè)的集中索引,難以充分發(fā)揮LG探針的價(jià)值。目前研究人員往往使用一些非權威性的web源(包括, PeeringDB, BGP4.as, )發(fā)布的部分LG網(wǎng)頁(yè)的列表,很多LG網(wǎng)頁(yè)可能并沒(méi)有整合到列表中。
為了發(fā)現更多的互聯(lián)網(wǎng)開(kāi)放探針資源,我們提出了一種高效的聚焦爬蟲(chóng)方法用于發(fā)現互聯(lián)網(wǎng)中的LG網(wǎng)站。進(jìn)一步地,為了幫助研究人員更便利地使用LG探針,我們設計了用于自動(dòng)訪(fǎng)問(wèn)LG探針的工具,并公開(kāi)提供了關(guān)于可自動(dòng)訪(fǎng)問(wèn)的LG探針列表。從實(shí)驗結果來(lái)看,相比于之前廣泛使用的1446個(gè)LG探針,我們新發(fā)現的910個(gè)LG探針極大的提升了可用探針的數量(提升62.9%)以及地理和網(wǎng)絡(luò )覆蓋范圍。除此之外,我們還利用部分新發(fā)現的LG探針幫助提升AS拓撲的完整性,實(shí)驗發(fā)現僅用8個(gè)新發(fā)現的LG探針可以幫助補充1428個(gè)新的AS鏈路和10個(gè)新的AS。接下來(lái)將詳細介紹我們的設計思路和實(shí)驗結果。
LG聚焦爬蟲(chóng)設計
1.1概述 萬(wàn)維網(wǎng)中有海量的網(wǎng)站,如果我們爬取每個(gè)網(wǎng)頁(yè)并判斷其是否提供LG服務(wù)來(lái)尋找LG網(wǎng)頁(yè),無(wú)異于大海撈針。因此,我們提出了LG聚焦爬蟲(chóng)方案,其基本思想是只爬取有可能提供LG服務(wù)的網(wǎng)頁(yè),然后再判斷其是否確實(shí)是LG網(wǎng)頁(yè)。通過(guò)這種方式,我們能有效地縮小搜索的范圍,避免訪(fǎng)問(wèn)大量無(wú)關(guān)網(wǎng)頁(yè)所消耗的資源。如圖1所示,LG聚焦爬蟲(chóng)主要包含兩個(gè)關(guān)鍵的組件:爬取過(guò)程和分類(lèi)過(guò)程。
具體地,以已知的LG網(wǎng)頁(yè)集合(我們將其稱(chēng)之為L(cháng)G種子集)為起始,爬取過(guò)程主要負責尋找有可能提供LG服務(wù)的網(wǎng)頁(yè)(我們稱(chēng)其為候選URL)??紤]到LG網(wǎng)頁(yè)之間的鏈接比較少,爬取過(guò)程主要采用基于超鏈接指導的和基于相似性指導的兩種搜索方法來(lái)幫助找到更多的LG網(wǎng)頁(yè)。顯然,爬取過(guò)程采集的候選URL并不一定都是LG URL,仍需設計一個(gè)高性能的分類(lèi)器用于進(jìn)一步將其分類(lèi)為相關(guān)還是不相關(guān)。為此,我們設計了一個(gè)兩步分類(lèi)器用于分類(lèi)過(guò)程,具體包括基于URL特征的預過(guò)濾器和基于網(wǎng)頁(yè)內容特征的分類(lèi)器。
其中,預過(guò)濾器可以過(guò)濾掉85%不相關(guān)的URL,避免了大量消耗在無(wú)關(guān)URL上的資源。至于剩下的URLs(我們稱(chēng)其為預過(guò)濾URL),我們下載其網(wǎng)頁(yè)內容并利用基于內容特征的分類(lèi)器實(shí)現更準確的分類(lèi)效果,進(jìn)而得到相關(guān)URL(即被分類(lèi)器確認為L(cháng)G頁(yè)面的URL)。需要說(shuō)明的是,無(wú)論是預過(guò)濾器還是過(guò)濾器,我們均采用針對只有正樣本和無(wú)標簽樣本的場(chǎng)景提出的機器學(xué)習方法,即PU學(xué)習算法,來(lái)解決缺乏標注的負樣本這一問(wèn)題。每當新的相關(guān)URL被發(fā)現時(shí),其可作為已知LG網(wǎng)頁(yè)開(kāi)啟新一輪的迭代爬蟲(chóng),該迭代探索過(guò)程可以幫助找到更多相關(guān)URL。
圖1 LG聚焦爬蟲(chóng)架構
1.2種子集
我們從公開(kāi)的web源(包括,PeeringDB,BGP4.as, )采集了2991個(gè)已知的LG URL。其中,1736個(gè)URL可以成功下載html網(wǎng)頁(yè)內容,其余的URL響應HTTP錯誤消息。經(jīng)過(guò)人工檢查,我們發(fā)現部分LG網(wǎng)頁(yè)已經(jīng)過(guò)期且不再提供LG服務(wù),刪除之后我們共得到1085個(gè)提供LG服務(wù)的有效網(wǎng)頁(yè)。
1.3爬取過(guò)程
許多之前的研究注意到,網(wǎng)頁(yè)通常會(huì )包含一些指向相關(guān)主題網(wǎng)頁(yè)的超鏈接[1],因此常用基于超鏈接指導的搜索方法完成爬取過(guò)程。本文也實(shí)現了該搜索方法,即提取已知LG網(wǎng)頁(yè)中包含的內外鏈接作為候選URL。但由于很多LG網(wǎng)頁(yè)并沒(méi)有鏈接到任何其他的LG網(wǎng)頁(yè),僅采用這種搜索方法難以發(fā)現他們。為了發(fā)現更多的LG網(wǎng)頁(yè),我們設計了一種基于相似性指導的搜索方法??紤]到LG網(wǎng)頁(yè)之間在某些方面很可能是相似的,該搜索方法主要借助搜索引擎幫助找到和已知LG網(wǎng)頁(yè)相似的網(wǎng)頁(yè)作為候選URL,之所以選擇搜索引擎是因為他們部署了強大的爬蟲(chóng)基礎設施并提供成熟的搜索算法。關(guān)鍵問(wèn)題是如何得到有價(jià)值的搜索條目,我們利用合適的方法分析已知LG網(wǎng)頁(yè)URL,標題和主體部分提取共享特征,進(jìn)而構建有效的搜索條目。
1.3.1 基于標題的搜索條目
考慮到網(wǎng)頁(yè)標題是關(guān)于網(wǎng)頁(yè)內容的簡(jiǎn)短描述且通常包含較少的單詞,我們采用頻繁項集挖掘算法Apriori[2]從已知LG網(wǎng)頁(yè)標題中提取頻繁出現的單詞或短語(yǔ)作為共享特征。需要注意的是,一些LG網(wǎng)頁(yè)標題中包含部署該網(wǎng)頁(yè)的運營(yíng)商的組織名稱(chēng)或者AS編號,將這些名稱(chēng)或者編號視為相同的關(guān)鍵字可為我們提供更具價(jià)值的信息。具體來(lái)說(shuō),在提取頻繁項集之前,我們將所有組織名稱(chēng)和AS編號替換為兩個(gè)虛擬詞,即ORG和ASN。提取頻繁項集后,如果發(fā)現這兩個(gè)虛擬詞出現在頻繁項集中,則將其替換為每個(gè)AS的組織名稱(chēng)和AS編號,進(jìn)而構建一系列的搜索條目。
在上述過(guò)程中,確定標題中哪些詞代表組織名稱(chēng)是比較困難的。雖然CAIDA提供了關(guān)于A(yíng)S與組織名稱(chēng)映射的數據集[3],但不同的組織在將其名稱(chēng)嵌入LG網(wǎng)頁(yè)標題時(shí)可能會(huì )有不同的命名規范,例如全稱(chēng)、首字母縮寫(xiě)或其他縮寫(xiě)等。錯誤的匹配和替換會(huì )導致提取出的共享特征存在偏差。針對這一問(wèn)題,我們發(fā)現LG頁(yè)面標題往往采用公司網(wǎng)站的二級域名來(lái)表示組織名稱(chēng),因此我們從PeeringDB中收集每個(gè)AS的公司網(wǎng)站URL,并使用Tldextract python庫解析得到一個(gè)二級域名列表,然后將已知LG網(wǎng)頁(yè)標題中匹配二級域名的單詞或短語(yǔ)替換為虛擬詞ORG。
替換之后,我們采用頻繁項集挖掘算法從已知LG網(wǎng)頁(yè)標題中尋找頻繁項集。表1顯示了當支持度閾值設為0.12時(shí)的頻繁項集及其對應的支持度。從表中可知,頻繁1-項集和2-項集都是頻繁3-項集的真子集,這意味著(zhù)將頻繁1-項集和2-項集作為搜索條目得到的搜索結果是頻繁3-項集得到的搜索結果的超集。為了平衡召回率和準確率,本文選擇頻繁3-項集來(lái)構建搜索詞。
表1頻繁項集及其對應的支持度
(支持度閾值設為0.12)
1.3.2基于主體的搜索條目
與URL和標題相比,LG網(wǎng)頁(yè)的主體部分通常包含更豐富的信息,這意味著(zhù)分析主體部分雖然復雜但是能幫助構建更有效的搜索條目。通常LG網(wǎng)頁(yè)主體包含很多單詞,其中有些單詞雖然出現頻率很高,但并不代表LG頁(yè)面的任何共同特征。因此,我們采用TF-IDF(Term Frequency-Inverse Document Frequency)[4]加權模型來(lái)分析已知LG頁(yè)面主體部分。該模型可識別出在已知LG頁(yè)面主體中經(jīng)常出現但在非LG頁(yè)面中不常出現的詞,將其作為L(cháng)G網(wǎng)頁(yè)共享特征,從而構建有效的搜索條目。
通過(guò)分析LG頁(yè)面主體,我們發(fā)現其通常包含一些控制元素,例如輸入、選擇和按鈕元素,用于支持用戶(hù)執行測量任務(wù)。為了降低計算復雜度,我們從有效LG網(wǎng)頁(yè)中提取信息含量豐富的文本(即上述三個(gè)元素的開(kāi)始和結束標記之間的內容),并將其合并成一個(gè)文檔。接著(zhù)我們使用TF-IDF模型進(jìn)行分析,該模型需要使用逆向文件頻率(IDF)文本語(yǔ)料庫來(lái)排除頻繁出現在其他各類(lèi)文檔中的單詞。為此,我們從新聞組數據集[5]收集了11314份文檔作為IDF語(yǔ)料庫。根據合并的主體文檔和IDF語(yǔ)料庫,TF-IDF模型會(huì )為文檔中每個(gè)單詞計算如下權重值:
其中(詞頻)意味著(zhù)單詞在主體文檔中出現的頻率,(逆向文件頻率)代表單詞在其他文檔中出現頻率的倒數,這里的為11314,是IDF語(yǔ)料庫中包含單詞的文檔數量。
顯然,IF-IDF權重較高意味著(zhù)單詞經(jīng)常出現在LG網(wǎng)頁(yè)主體中但不常出現在其他類(lèi)型的文檔中。因此具有較高權重的單詞可作為L(cháng)G網(wǎng)頁(yè)的共享特征,我們提取了49個(gè)權重大于0.05的單詞(包括ip_address、router、traceroute等),并將每個(gè)單詞分別與“l(fā)ooking glass”組合構成搜索條目。
1.3.3 基于URL的搜索條目
事實(shí)上,搜索引擎提供的搜索算法支持根據頁(yè)面與搜索條目的相關(guān)性對搜索結果進(jìn)行排名。因此,我們可以直接以2991個(gè)已知的LG URL作為搜索條目并借助搜索算法得到候選URL。例如,如果我們在必應中使用作為搜索條目,返回的搜索結果中包含其余LG URL,例如。因此,每個(gè)已知的LG URL都可用作一個(gè)搜索條目。
1.3.4 討論
除了搜索條目之外,搜索引擎對基于相似性指導的搜索方法采集的候選URL也存在一定的影響。我們采用谷歌、必應和百度做了一些簡(jiǎn)單的實(shí)驗,發(fā)現谷歌限制了單一用戶(hù)的請求頻率,而必應沒(méi)有限制。至于百度,我們簡(jiǎn)單地搜索了一些條目并將返回的搜索結果與必應搜索結果進(jìn)行比較,發(fā)現必應返回的搜索結果與我們的搜索詞更相關(guān)。因此,我們在論文中選擇使用必應。當然,這些搜索引擎未來(lái)都可以充分利用以發(fā)現更多的LG網(wǎng)頁(yè)。以谷歌為例,我們可以通過(guò)協(xié)商達成定期使用搜索引擎的協(xié)議。此外,我們計劃與必應進(jìn)行協(xié)商以應對被封鎖的風(fēng)險。
1.4分類(lèi)過(guò)程
上述爬取過(guò)程采集的候選URL并不一定都提供LG服務(wù)。在本章節,我們設計了一個(gè)分類(lèi)器將所有的候選URL分類(lèi)為相關(guān)還是不相關(guān)。不相關(guān)的URL將被丟棄,以避免進(jìn)一步深入分析它們而消耗不必要的資源。
1.4.1 設計考慮
在設計分類(lèi)器時(shí)主要有兩點(diǎn)考慮:
?。?)選擇的分類(lèi)算法必須能夠處理缺乏標注的負樣本(非LG頁(yè)面)這一問(wèn)題。將候選URL分類(lèi)為相關(guān)還是不相關(guān)可以看作是一個(gè)二分類(lèi)問(wèn)題。傳統的有監督分類(lèi)算法(例如決策樹(shù),支持向量機)需要正負標記樣本進(jìn)行訓練,然而在這項工作中,我們只有少量已知LG 頁(yè)面(正樣本)和大量無(wú)標記的候選URL,使得傳統的有監督分類(lèi)方法難以解決我們的分類(lèi)問(wèn)題。另一方面,無(wú)監督分類(lèi)方法沒(méi)有充分利用已知LG頁(yè)面的標記信息,其對應的分類(lèi)結果可能并不理想。為此,我們采用一種半監督分類(lèi)方法-PU學(xué)習[6],在給定少量正樣本和大量無(wú)標記樣本的情況下,該方法可以訓練分類(lèi)器用于區分未標記樣本中的正樣本和負樣本。
?。?)實(shí)現高效且準確的分類(lèi)效果需要選擇合適的分類(lèi)特征。為了準確地對候選URL進(jìn)行分類(lèi),我們應該充分利用所有可用的信息,例如網(wǎng)頁(yè)內容。但是,爬取過(guò)程得到的候選URL不包含相應的網(wǎng)頁(yè)內容,下載大量候選URL對應的HTML文件既耗時(shí)又占用帶寬,導致分類(lèi)過(guò)程效率低下。我們注意到LG頁(yè)面的URL通常區別于非LG頁(yè)面的URL,因此,我們考慮僅根據URL特征預先過(guò)濾掉一些不相關(guān)的候選URL,對于剩下的候選URL,再下載其HTML頁(yè)面并根據URL和選定的HTML內容特征進(jìn)一步分類(lèi)。具體來(lái)說(shuō),我們設計了一個(gè)兩步分類(lèi)器,包括基于URL特征的預過(guò)濾器和基于網(wǎng)頁(yè)內容特征的分類(lèi)器,可以實(shí)現較高的分類(lèi)效率和準確率。
1.4.2 特征提取
PU學(xué)習模型僅能處理固定長(cháng)度的數字輸入,而網(wǎng)頁(yè)URL和HTML文件都由變長(cháng)的字符串組成。因此,我們需要進(jìn)行特征提取,即從URL或HTML文件中構建合適的特征向量,需要說(shuō)明的是特征向量應該是包含豐富且非冗余的信息,以促進(jìn)后續的訓練和分類(lèi)步驟。
URL特征提取。本文采用詞袋模型將一組URL轉換為固定長(cháng)度的特征向量。具體地,該模型首先創(chuàng )建一個(gè)包含URL集合所有單詞的有序詞匯表,并為每個(gè)單詞賦予一個(gè)整數索引,接著(zhù)為每個(gè)URL構建其特征向量,其中為整數索引為的單詞在當前URL中出現的次數。
網(wǎng)頁(yè)內容特征提取。直觀(guān)上,HTML文件相比于URL包含更豐富的信息,因此通過(guò)預過(guò)濾器的候選URL將交由基于內容特征的分類(lèi)器進(jìn)行進(jìn)一步檢查。當然,并非HTML文件中所有文本都包含有價(jià)值的信息,無(wú)信息含量的文本可能會(huì )對PU學(xué)習算法產(chǎn)生負面影響。正如之前在2.3中介紹的,頁(yè)面標題和頁(yè)面主體中輸入、選擇和按鈕元素內的文本內容對于區分相關(guān)和不相關(guān)的URL有一定的價(jià)值。此外,上述三個(gè)元素中ID屬性、NAME屬性和VALUE屬性的值也包含有價(jià)值的信息。對于每個(gè)LG網(wǎng)頁(yè),我們將網(wǎng)址和HTML文件中具有信息含量的本文結合起來(lái),并利用詞袋模型將其轉化為特征向量以表示該頁(yè)面。
1.4.3 PU-Bagging模型訓練
為了應對缺乏標注的負樣本這一問(wèn)題,我們選擇一種典型的PU學(xué)習方法,即PU-Bagging算法[7],幫助構建基于URL特征的預過(guò)濾以及基于內容特征的分類(lèi)器。PU-Bagging算法采用引導聚合技術(shù)(稱(chēng)為bagging)從正樣本和未標記樣本中學(xué)習分類(lèi)器。具體地,該算法重復N輪以訓練N個(gè)基分類(lèi)器,其中每一輪訓練過(guò)程中,為了解決缺乏標注的負樣本這一問(wèn)題,該算法從未標記樣本中隨機抽取部分樣本作為“負樣本”,并基于抽取的負樣本和已知的正樣本訓練有監督分類(lèi)器。然后將多個(gè)分類(lèi)器的預測結果聚合作為最終的分類(lèi)結果,這樣可以減少隨機選擇“負樣本”引入的方差。有研究[7]表明PU-Bagging算法可以獲得出色的性能表現,且相比于有偏SVM方法可以在較短的時(shí)間內完成訓練(尤其是在未標記樣本集較大的情況下)。
實(shí)驗和評估結果2.1基于相似性指導的搜索方法的有效性
以第一輪迭代為例(LG種子集作為輸入),我們采用基于超鏈接指導的搜索方法從1736個(gè)成功下載網(wǎng)頁(yè)內容的種子頁(yè)面中提取超鏈接作為候選URL。同時(shí),我們采用基于相似性指導的搜索方法對已知LG網(wǎng)頁(yè)URL,標題和主體進(jìn)行分析,構建100987個(gè)搜索條目。然后將每個(gè)搜索條目輸入到必應搜索引擎中,采集前10500個(gè)搜索結果作為候選LG URL。
為了評估基于相似性指導的搜索方法的有效性,我們定義四個(gè)指標:候選URL中相關(guān)URL的數量,相關(guān)URL的濃度(候選URL中被分類(lèi)為相關(guān)URL占候選URL的比例),候選URL 中發(fā)現的新的可自動(dòng)化使用的LG探針數量(在4.1章的過(guò)程之后),新的可自動(dòng)化使用的探針濃度(新的可自動(dòng)化使用的探針數量除以候選URL的數量)。這些指標可以較好地衡量基于相似性指導的搜索方法的收益和效率。
表2 實(shí)驗結果
從表2可知,基于相似性指導的搜索方法共獲得了4111個(gè)相關(guān)的URL和608個(gè)新的可自動(dòng)化使用的LG探針,這比基于超鏈接指導的搜索方法得到的相關(guān)URL(新的可自動(dòng)化使用的LG探針)多約28(13)倍。結果表明,受益于搜索引擎和精心構建的搜索條目,我們提出的基于相似性指導的搜索方法可以有效地找到許多相關(guān)頁(yè)面和新的LG探針。此外,我們發(fā)現相比于基于網(wǎng)址和標題的搜索條目,基于主體的搜索條目得到的搜索結果中相關(guān)URL濃度以及探針濃度更高。當然,這并不意味著(zhù)基于網(wǎng)址和標題的搜索條目沒(méi)有價(jià)值,它們還是可以幫助找到許多基于主體的搜索條目無(wú)法找的相關(guān)頁(yè)面和新的LG探針。
每當新的相關(guān)URL被發(fā)現時(shí),其可作為已知LG網(wǎng)頁(yè)開(kāi)啟新一輪的迭代爬蟲(chóng)。實(shí)驗表明迭代對于獲取更多相關(guān)URL以及新的可自動(dòng)化使用的LG探針是有意義的。除了上述第一輪迭代的實(shí)驗結果外,在后續的三輪迭代中,我們額外采集了2047333個(gè)候選URL,并獲得了 46551個(gè)相關(guān)URL以及280個(gè)新的可自動(dòng)化使用的LG探針。
2.2兩部分類(lèi)器的有效性
為了評估基于URL特征的預過(guò)濾器和基于內容特征的分類(lèi)器的性能,我們采用接收器操作曲線(xiàn)下面積接收者操作特征曲線(xiàn)(AUC)、真陽(yáng)性率(TPR)和假陽(yáng)性率(FPR)作為評估指標。其中AUC越高,說(shuō)明分類(lèi)器在區分正樣本和負樣本方面的性能表現越好。
2.2.1 評估基于URL特征的預過(guò)濾器
我們將第一輪迭代得到的數據集(包含2991個(gè)LG種子URL和919893個(gè)未標記的候選URL)隨機拆分為三個(gè)子集:訓練數據集(98%)、驗證數據集(1%)和測試數據集(1%),其中驗證和測試集中未標記的候選URL被手工標記,從而用于調整超參數和評估模型泛化能力??紤]到PU-bagging算法中超參數數量較少,易于驗證和調整,我們僅采用了上述簡(jiǎn)單的驗證方法而非使用N折交叉驗證(需要手工標記整個(gè)數據集),而且考慮到整個(gè)數據集足夠大,隨機選取的1%驗證集和1%測試集已經(jīng)包含足夠的樣本用于調參和評估。
超參數調整。PU-Bagging模型中有一些超參數(例如集分類(lèi)器的數量N、引導樣本的大小K和分類(lèi)閾值T)會(huì )影響預過(guò)濾器的分類(lèi)性能,需要進(jìn)行仔細選擇。為此,我們利用訓練集訓練在不同的超參數下的基于URL特征的預過(guò)濾器,并得到一系列經(jīng)過(guò)訓練的預過(guò)濾器,然后根據其在驗證集上的AUC性能表現,選擇N為100,K等于訓練集中正樣本的數量(即2931)作為最優(yōu)超參數。
另外,閾值T對于分類(lèi)結果也有較大的影響,具體可以通過(guò)TPR和FPR來(lái)衡量。TPR高意味著(zhù)大多數真正提供LG服務(wù)的候選URL能成功地被分類(lèi)為相關(guān)URL,FPR低意味著(zhù)少數并不提供LG服務(wù)的候選URL被錯誤地分類(lèi)為相關(guān)URL。對于預過(guò)濾器而言,在某種程度上,保證較高的TPR比實(shí)現較低的FPR更重要,因為T(mén)PR低意味著(zhù)很多LG網(wǎng)頁(yè)會(huì )被錯誤過(guò)濾掉,而FPR低僅僅導致后續基于內容特征的分類(lèi)器消耗較多的資源開(kāi)銷(xiāo)。圖2(a)繪制了當K=2931,N=100時(shí),不同閾值T下經(jīng)過(guò)訓練的預過(guò)濾器在驗證集上的FPR和TPR分布??梢园l(fā)現,T為0.2072能實(shí)現較高的TPR(99.07%)以及可接受的FPR(15.54%),因此我們選擇T=0.2072。
圖2(a)不同閾值T下經(jīng)過(guò)訓練的預過(guò)濾器的TPR和FPR分布
?。╞)不同閾值T下經(jīng)過(guò)訓練的分類(lèi)器的TPR和FPR分布
分類(lèi)結果。接著(zhù)我們利用測試集(包含102個(gè)正樣本和9127個(gè)負樣本)評估具有最佳超參數的預過(guò)濾器的泛化能力,發(fā)現能達到FPR為15.36%,TPR為96.08%的分類(lèi)性能,與上述在驗證集上的性能表現基本一致。具體而言,在測試集中,預過(guò)濾器成功過(guò)濾掉7725個(gè)非LG網(wǎng)址,節省了下載相應的HTML文件的資源。同時(shí),它只過(guò)濾掉4個(gè)LG網(wǎng)址,對最終結果的影響相對較小。
鑒于上述訓練的預過(guò)濾器性能表現良好,我們用其對所有919893個(gè)候選URL進(jìn)行分類(lèi)。789967個(gè)候選URL被分類(lèi)為不相關(guān)并立即被過(guò)濾掉,剩余的12992個(gè)候選URL被分類(lèi)為相關(guān),我們稱(chēng)之為預過(guò)濾URL。為了評估預過(guò)濾器帶來(lái)的收益,我們將其過(guò)濾掉的無(wú)關(guān)URL的數量作為評價(jià)指標,發(fā)現預過(guò)濾器可以在損失較少LG網(wǎng)址(1-TPR)的同時(shí)將需要下載HTML文件的候選URL數量減少約85%,顯著(zhù)提高了分類(lèi)效率。
2.2.2評估基于網(wǎng)頁(yè)內容特征的分類(lèi)器
對于上述預過(guò)濾器得到的12992個(gè)預過(guò)濾URL,我們成功下載了其中77113個(gè)URL對應的HTML文件。另外,正如章節2.2所述,目前有1085個(gè)提供LG服務(wù)的種子頁(yè)面。由成功下載的未標記的HTML文件和種子頁(yè)面構成的數據集被隨機拆分為三個(gè)子集:訓練集(94%)、驗證集(3%)和測試集(3%),其中驗證和測試集中未標記的候選URL被手工標記,從而用于調整超參數和評估模型泛化能力。
超參數調整。和上述確定預過(guò)濾器的超參數過(guò)程類(lèi)似,我們選擇N為100,K為1020作為基于內容特征的分類(lèi)器的最優(yōu)超參數。進(jìn)一步地為了確定T,我們繪制了不同閾值T下經(jīng)過(guò)訓練的分類(lèi)器在驗證集上的TPR和FPR分布,如圖2(b)所示。對于基于內容特征的分類(lèi)器而言,我們希望能同時(shí)實(shí)現較高的TPR和較低的FPR,這意味著(zhù)得到的相關(guān)頁(yè)面是LG頁(yè)面的概率較高。從圖2(b)可知,T為0.4292時(shí)的分類(lèi)器可以達到較高的TPR(95.24%)以及較低的FPR(4.25%),所以我們選擇T為0.4292。
分類(lèi)結果。接著(zhù)我們利用測試集(包含77個(gè)正樣本和2269個(gè)負樣本)評估具有最佳超參數的分類(lèi)器的泛化能力,發(fā)現其能實(shí)現較高的TPR(96.10%)和較低的FPR(4.10%)。換句話(huà)說(shuō),在測試集中,分類(lèi)器成功過(guò)濾掉了2176個(gè)非LG頁(yè)面,節省了嘗試從中提取探針的資源消耗。同時(shí),它只丟棄3個(gè)LG頁(yè)面。
接著(zhù),我們使用訓練好的基于內容特征的分類(lèi)器對77113個(gè)預過(guò)濾URL進(jìn)行分類(lèi),其中4226個(gè)URL被分類(lèi)器分類(lèi)為相關(guān),我們稱(chēng)之為相關(guān)URL。值得注意的是,所有相關(guān)URL將作為新的已知LG頁(yè)面開(kāi)啟新一輪的迭代。四輪迭代后,我們得到了50777個(gè)相關(guān)頁(yè)面,用于后續的分析和實(shí)際應用。
實(shí)際應用
通過(guò)聚焦爬蟲(chóng),我們得到了很有可能是LG頁(yè)面的相關(guān)頁(yè)面,其對于測量研究非常有用。例如,研究人員可以手工分析每個(gè)相關(guān)頁(yè)面提取可用的探針列表,并手動(dòng)使用這些探針執行測量命令。但是對于想要以更具擴展性的方式完成測量任務(wù)的研究人員而言,如果我們能自動(dòng)化地使用這些LG探針,將會(huì )更加實(shí)用。在本節中,我們開(kāi)發(fā)了一種工具用于提取可自動(dòng)化使用的LG探針,并展示這些探針在促進(jìn)測量研究方面的實(shí)用價(jià)值。
3.1提取可自動(dòng)化使用的LG探針
LG網(wǎng)站通常具有不同的輸入接口來(lái)收集和解析測量請求,缺乏輸入接口規范阻礙了LG探針的自動(dòng)使用。因此,我們需要開(kāi)發(fā)一種工具來(lái)自動(dòng)提取探針的輸入接口信息,并通過(guò)發(fā)送測量請求以及分析測量響應來(lái)檢查這些LG探針是否支持自動(dòng)化使用。
3.1.1提取探針輸入接口信息
我們設計了基于模板匹配和基于關(guān)鍵詞匹配的方法用于提取探針的輸入接口信息。
模板匹配。有研究[8,9]發(fā)現LG服務(wù)的部署往往基于幾個(gè)流行的開(kāi)源項目,且這些開(kāi)源項目有不同的輸入接口規范。本文通過(guò)分析論文[8]和[9]中提到的開(kāi)源項目所創(chuàng )建的 HTML文件,推導出八個(gè)輸入接口模板,其中每個(gè)模板均記錄了表單元素中輸入字段的名稱(chēng)、類(lèi)型和用途。接著(zhù),我們遍歷相關(guān)頁(yè)面,檢查其表單元素中輸入字段名稱(chēng)和類(lèi)型是否與模板相同,最終共發(fā)現1302個(gè)相關(guān)頁(yè)面與模板成功匹配。
關(guān)鍵詞匹配。至于剩余的相關(guān)頁(yè)面,我們檢查其表單元素中是否包含特定關(guān)鍵字(例如ping、trace、BGP或Bird、Router ID),發(fā)現516個(gè)相關(guān)頁(yè)面是關(guān)鍵字匹配頁(yè)面。
對于模板匹配和關(guān)鍵詞匹配頁(yè)面,我們自動(dòng)將每個(gè)探針的信息(即它支持的所有命令以及運行每個(gè)命令所需的輸入字段)匯總到一個(gè)文件中,總的來(lái)說(shuō),我們提取了4980個(gè)探針的輸入接口信息。作為比較,我們使用上述匹配方法對1085個(gè)提供LG服務(wù)的種子頁(yè)面進(jìn)行分析,發(fā)現792個(gè)種子頁(yè)面是模板匹配或關(guān)鍵字匹配頁(yè)面,共提取了4450 個(gè)探針的輸入接口信息。
3.1.2自動(dòng)發(fā)布測量請求
在上述提取的探針輸入接口信息的基礎上,每個(gè)測量請求可以轉換為將特定值填入相應的表單輸入字段的操作。具體地,我們采用Mechanize庫以編程的方式填寫(xiě)表單所需的輸入字段并將表單提交到相應的Web服務(wù)器。服務(wù)器收到表單數據后,會(huì )響應測量請求并返回測量結果。
3.1.3分析測量響應以確定支持自動(dòng)化使用的探針
如果探針能成功響應自動(dòng)化發(fā)送的測量請求,我們將其稱(chēng)為支持自動(dòng)化使用的探針。具體地,我們自動(dòng)發(fā)布ping測量請求依次要求每個(gè)探針發(fā)送ping數據包到一個(gè)受控主機(運行tcpdump以捕獲收到的ICMP數據包)。如果該主機可以接收到ICMP ping數據包,則表示對應的探針是支持自動(dòng)化使用的。同時(shí),可以從ICMP數據包中提取探針的IP地址,然后通過(guò)查詢(xún)IP2AS以及地理定位數據庫了解探針的網(wǎng)絡(luò )和地理位置,方便研究人員選擇特定區域的探針完成測量任務(wù)。
使用上述方法,我們成功地從種子頁(yè)面中確定了1446個(gè)可自動(dòng)化使用的探針,并從相關(guān)頁(yè)面中確定了1296個(gè)可自動(dòng)化使用的探針。去重后,我們發(fā)現相關(guān)頁(yè)面中有910個(gè)可自動(dòng)化使用的探針沒(méi)有包含在任何種子頁(yè)面中,這些探針被稱(chēng)為新發(fā)現的可自動(dòng)化使用的探針。
3.2LG探針的分析和應用
研究人員已經(jīng)注意到當前可用探針的地理和網(wǎng)絡(luò )覆蓋范圍有限阻礙了我們對互聯(lián)網(wǎng)的全面了解[10],如果我們新發(fā)現可自動(dòng)化使用的探針能實(shí)現地理和網(wǎng)絡(luò )覆蓋改進(jìn),將會(huì )很有價(jià)值。此外,我們還進(jìn)行了一個(gè)簡(jiǎn)單的案例研究來(lái)證明這些探針在提升互聯(lián)網(wǎng)拓撲完整性方面的潛在價(jià)值。
3.2.1地理覆蓋范圍改進(jìn)
雖然有一些公開(kāi)的IP地理定位數據庫,但眾所周知,獲得準確的IP地址到地理定位映射仍然是一個(gè)挑戰。我們發(fā)現有些LG網(wǎng)頁(yè)中會(huì )給出探針的地理位置,相對而言比較可靠。通過(guò)正則表達式匹配,我們成功提取了390個(gè)探針的國家級定位信息以及316個(gè)探針的城市級定位信息。對于其余探針,我們購買(mǎi)IP2location DB9數據庫來(lái)將其映射到國家和城市級位置。需要說(shuō)明的是,我們將DB9數據庫與網(wǎng)頁(yè)中提取的可靠定位信息進(jìn)行比較,發(fā)現DB9數據庫的國家級定位的準確率能達到97%,還是可以接受的。
圖3 探針地理分布
圖2繪制了1446個(gè)已知的可自動(dòng)化使用的LG探針(藍點(diǎn))和 910個(gè)新發(fā)現的可自動(dòng)化使用的LG探針(紅點(diǎn))的地理覆蓋范圍,其中點(diǎn)的大小代表相應地理區域中探針的數量。1446個(gè)已知的可自動(dòng)化使用的探針?lè )植荚?5個(gè)國家,386個(gè)城市,910個(gè)新發(fā)現的可自動(dòng)化使用的探針覆蓋了55個(gè)國家,282個(gè)城市。新發(fā)現的探針使得研究人員能從8個(gè)新的國家和160個(gè)新的城市執行測量命令,而在這些區域未發(fā)現已知的LG探針。尤其,這8個(gè)新的國家主要分布在東非和南亞,其網(wǎng)絡(luò )連通性和性能近年來(lái)引起了很多研究人員的關(guān)注。
3.2.2網(wǎng)絡(luò )覆蓋范圍改進(jìn)
推斷路由器所的網(wǎng)絡(luò )歸屬也并非易事,我們注意到一些LG頁(yè)面會(huì )給出探針所在的自治域信息,通過(guò)正則匹配,我們提取了526個(gè)探針的自治域信息。然后我們使用bdrmapIT[11]工具構建一個(gè)IP2AS數據集,幫助獲取323個(gè)探針的自治域信息。對于剩余探針,我們進(jìn)一步查詢(xún)路由表前綴獲取自治域信息。
經(jīng)分析發(fā)現,新發(fā)現的探針使得研究人員能從288個(gè)新的自治域執行測量命令,而在這些AS內未發(fā)現已知的LG探針。進(jìn)一步地,我們將這些自治域根據其在互聯(lián)網(wǎng)中的層次結構進(jìn)行分層,發(fā)現絕大部分新的自治域(287個(gè))都分布在互聯(lián)網(wǎng)邊緣。之前的研究[12]表明可以通過(guò)將探針?lè )胖迷诨ヂ?lián)網(wǎng)邊緣來(lái)改善AS級拓撲的完整性,這也說(shuō)明我們新發(fā)現的LG探針對于提高互聯(lián)網(wǎng)拓撲的完整性具有一定的價(jià)值。
3.2.3提升拓撲完整性的案例研究
為了說(shuō)明新發(fā)現的LG探針的潛在價(jià)值,我們利用支持顯示BGP鄰居IP宣告(或接收)路由這一測量命令的探針采集大量的BGP路由表信息,并將獲取的AS級別拓撲數據和其他常用的測量平臺采集的數據比較,發(fā)現了10個(gè)新的AS以及1428個(gè)新的AS鏈路。
利用LG探針采集AS路徑信息。運行顯示BGP鄰居IP宣告(或接收)路由測量命令返回的AS路徑可以幫助構建AS級互聯(lián)網(wǎng)拓撲。我們注意到一些常用的LG開(kāi)源項目模板(例如HSDN[14]和Cougar[13])通常在show BGP summary測量命令的響應頁(yè)面中提供顯示BGP鄰居IP宣告(或接收)路由這一測量命令的輸入接口。
借助章節4.1中提出的自動(dòng)發(fā)布測量請求的方法,我們可以自動(dòng)控制探針收集AS路徑信息。具體而言,在提取的探針輸入接口信息的基礎上,我們以編程的方式填寫(xiě)所需的輸入字段,向每個(gè)探針發(fā)送show ip BGP summary測量請求。返回的響應網(wǎng)頁(yè)會(huì )給出與探針相連的每個(gè)BGP連接的狀態(tài),以及相鄰的BGP路由器IP地址和所屬自治域。然后,通過(guò)點(diǎn)擊每個(gè)相鄰IP所對應超鏈接,我們可以控制探針運行顯示BGP鄰居IP這一測量命令來(lái)收集有關(guān)鄰居IP的詳細信息,包括顯示其宣告(或接收)路由的超鏈接。通過(guò)進(jìn)一步訪(fǎng)問(wèn)這一超鏈接,我們可以控制探針運行顯示BGP鄰居IP宣告(或接收)路由測量命令獲取BGP路由表,再使用正則匹配提取AS路徑。
提升AS拓撲完整性。使用上述方法,我們成功地從14個(gè)LG探針和8個(gè)新發(fā)現的LG探針中提取了AS路徑信息。作為比較,我們還從兩個(gè)流行的BGP采集項目(RIPE RIS和RouteViews)下載了2020年12月的路由表快照構建AS拓撲。對比發(fā)現這8個(gè)新發(fā)現的LG探針可以幫助觀(guān)察到10個(gè)新的AS以及1428個(gè)新的AS鏈路。這一結果與以往研究的結論一致[12],常用的BGP探針數量有限且通常集中在互聯(lián)網(wǎng)核心導致存在許多無(wú)法直接觀(guān)察到的“陰影區域”,更多的BGP探針(尤其是分布在互聯(lián)網(wǎng)邊緣的探針)對于發(fā)現更多的 AS鏈路很有價(jià)值。
討論:其他的新發(fā)現LG探針對于提升AS級拓撲的完整性也有十分重要的意義。實(shí)際上,支持traceroute或顯示BGP路由測量命令的探針的數量比上述案例研究中使用測量點(diǎn)數量多很多。對于支持traceroute的探針,我們可以自動(dòng)地控制他們traceroute到目標IP地址,得到IP級別的路徑。對于支持顯示BGP路由的探針,我們可以控制他們返回到達指定網(wǎng)絡(luò )前綴的BGP路由信息。這里需要解決的問(wèn)題是如何為支持traceroute測量命令的探針選擇合適目標IP地址以及如何為支持顯示BGP路由測量命令的探針指定目標網(wǎng)絡(luò )前綴。由于一些LG探針限制用戶(hù)請求速率,我們需要仔細選擇目標IP和目標網(wǎng)絡(luò )前綴以在提高拓撲完整性方面取得高效的性能,這將作為我們的后續工作進(jìn)一步開(kāi)展。
參考文獻:
[1] Brian D Davison. 2000. Topical locality in the web. In Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval. 272–279.
[2] Rakesh Agrawal, Tomasz Imieliński, and Arun Swami. 1993. Mining association rules between sets of items in large databases. In Proceedings of the 1993 ACM SIGMOD international conference on Management of data. 207–216.
[3] [n.d.]. The CAIDA UCSD AS to Organization Mapping Dataset. Retrieved April, 2020 from
[4] Juan Ramos et al. 2003. Using TF-IDF to determine word relevance in document queries. In Proceedings of the first instructional conference on machine learning, Vol. 242. New Jersey, USA, 133–142.
[5] Ken Lang. 1995. Newsweeder: Learning to filter netnews. In Machine Learning Proceedings 1995. Elsevier, 331–339.
[6] Charles Elkan and Keith Noto. 2008. Learning classifiers from only positive and unlabeled data. In Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining. 213–220.
[7] Fantine Mordelet and J-P Vert. 2014. A bagging SVM to learn from positive and unlabeled examples. Pattern Recognition Letters 37 (2014), 201–209.
[8] Luca Bruno, Mariano Graziano, Davide Balzarotti, and Aurélien Francillon. 2014. Through the looking-glass, and what eve found there. In 8th USENIX Workshop on Offensive Technologies (WOOT 14).
[9] Vasileios Giotsas, Amogh Dhamdhere, and Kimberly C Claffy. 2016. Periscope: Unifying looking glass querying. In International Conference on Passive and Active Network Measurement. Springer, 177–189.
[10] Enrico Gregori, Alessandro Improta, Luciano Lenzini, Lorenzo Rossi, and Luca Sani. 2014. A novel methodology to address the Internet AS-level data incompleteness. IEEE/ACM Transactions on Networking 23, 4, 1314–1327
[11] Alexander Marder, Matthew Luckie, Amogh Dhamdhere, Bradley Huffaker, KC Claffy, and Jonathan M Smith. 2018. Pushing the boundaries with bdrmapit: Mapping router ownership at Internet scale. In Proceedings of the 2018 conference on Internet Measurement Conference (IMC). 56–69.
[12] Enrico Gregori, Alessandro Improta, Luciano Lenzini, Lorenzo Rossi, and Luca Sani. 2012. On the incompleteness of the AS-level graph: a novel methodology for BGP route collector placement. In Proceedings of the 2012 Conference on Internet Measurement Conference (IMC). 253–264.
[13] [n.d.]. Cougar Looking Glass. Retrieved September, 2020 from
[14] [n.d.]. HSDN Looking Glass. Retrieved September, 2020 from 查看全部
【轉發(fā)】互聯(lián)網(wǎng)開(kāi)放探針資源自動(dòng)發(fā)現和自動(dòng)訪(fǎng)問(wèn)
構建一個(gè)完整、準確的互聯(lián)網(wǎng)域間拓撲對于協(xié)議設計、故障診斷、安全分析等具有十分重要的意義。然而,互聯(lián)網(wǎng)拓撲構建需要依賴(lài)大規模、分布式的探針。近年來(lái),雖然一些測量平臺致力于部署探針,但是這些探針的數量和覆蓋范圍有限。如果能發(fā)現并利用更多的互聯(lián)網(wǎng)開(kāi)放探針資源,無(wú)疑對于互聯(lián)網(wǎng)拓撲測量而言具有十分重要的意義。
多家互聯(lián)網(wǎng)服務(wù)提供商積極部署Looking Glass (LG) 探針并允許用戶(hù)在這些探針上運行一些測量命令,例如traceroute或BGP。服務(wù)提供商部署LG探針用于提供觀(guān)察其網(wǎng)絡(luò )狀況的窗口以吸引客戶(hù)使用他們的網(wǎng)絡(luò )服務(wù),并幫助調試和解決互聯(lián)網(wǎng)連接和性能問(wèn)題。這些LG探針為研究人員提供了從不同位置(例如核心路由器、邊界路由器等)觀(guān)察互聯(lián)網(wǎng)的機會(huì )。盡管LG探針具有一定的優(yōu)勢,但由于每個(gè)LG網(wǎng)頁(yè)都是獨立運營(yíng)和管理的,缺乏關(guān)于所有可用LG網(wǎng)頁(yè)的集中索引,難以充分發(fā)揮LG探針的價(jià)值。目前研究人員往往使用一些非權威性的web源(包括, PeeringDB, BGP4.as, )發(fā)布的部分LG網(wǎng)頁(yè)的列表,很多LG網(wǎng)頁(yè)可能并沒(méi)有整合到列表中。
為了發(fā)現更多的互聯(lián)網(wǎng)開(kāi)放探針資源,我們提出了一種高效的聚焦爬蟲(chóng)方法用于發(fā)現互聯(lián)網(wǎng)中的LG網(wǎng)站。進(jìn)一步地,為了幫助研究人員更便利地使用LG探針,我們設計了用于自動(dòng)訪(fǎng)問(wèn)LG探針的工具,并公開(kāi)提供了關(guān)于可自動(dòng)訪(fǎng)問(wèn)的LG探針列表。從實(shí)驗結果來(lái)看,相比于之前廣泛使用的1446個(gè)LG探針,我們新發(fā)現的910個(gè)LG探針極大的提升了可用探針的數量(提升62.9%)以及地理和網(wǎng)絡(luò )覆蓋范圍。除此之外,我們還利用部分新發(fā)現的LG探針幫助提升AS拓撲的完整性,實(shí)驗發(fā)現僅用8個(gè)新發(fā)現的LG探針可以幫助補充1428個(gè)新的AS鏈路和10個(gè)新的AS。接下來(lái)將詳細介紹我們的設計思路和實(shí)驗結果。
LG聚焦爬蟲(chóng)設計
1.1概述 萬(wàn)維網(wǎng)中有海量的網(wǎng)站,如果我們爬取每個(gè)網(wǎng)頁(yè)并判斷其是否提供LG服務(wù)來(lái)尋找LG網(wǎng)頁(yè),無(wú)異于大海撈針。因此,我們提出了LG聚焦爬蟲(chóng)方案,其基本思想是只爬取有可能提供LG服務(wù)的網(wǎng)頁(yè),然后再判斷其是否確實(shí)是LG網(wǎng)頁(yè)。通過(guò)這種方式,我們能有效地縮小搜索的范圍,避免訪(fǎng)問(wèn)大量無(wú)關(guān)網(wǎng)頁(yè)所消耗的資源。如圖1所示,LG聚焦爬蟲(chóng)主要包含兩個(gè)關(guān)鍵的組件:爬取過(guò)程和分類(lèi)過(guò)程。
具體地,以已知的LG網(wǎng)頁(yè)集合(我們將其稱(chēng)之為L(cháng)G種子集)為起始,爬取過(guò)程主要負責尋找有可能提供LG服務(wù)的網(wǎng)頁(yè)(我們稱(chēng)其為候選URL)??紤]到LG網(wǎng)頁(yè)之間的鏈接比較少,爬取過(guò)程主要采用基于超鏈接指導的和基于相似性指導的兩種搜索方法來(lái)幫助找到更多的LG網(wǎng)頁(yè)。顯然,爬取過(guò)程采集的候選URL并不一定都是LG URL,仍需設計一個(gè)高性能的分類(lèi)器用于進(jìn)一步將其分類(lèi)為相關(guān)還是不相關(guān)。為此,我們設計了一個(gè)兩步分類(lèi)器用于分類(lèi)過(guò)程,具體包括基于URL特征的預過(guò)濾器和基于網(wǎng)頁(yè)內容特征的分類(lèi)器。
其中,預過(guò)濾器可以過(guò)濾掉85%不相關(guān)的URL,避免了大量消耗在無(wú)關(guān)URL上的資源。至于剩下的URLs(我們稱(chēng)其為預過(guò)濾URL),我們下載其網(wǎng)頁(yè)內容并利用基于內容特征的分類(lèi)器實(shí)現更準確的分類(lèi)效果,進(jìn)而得到相關(guān)URL(即被分類(lèi)器確認為L(cháng)G頁(yè)面的URL)。需要說(shuō)明的是,無(wú)論是預過(guò)濾器還是過(guò)濾器,我們均采用針對只有正樣本和無(wú)標簽樣本的場(chǎng)景提出的機器學(xué)習方法,即PU學(xué)習算法,來(lái)解決缺乏標注的負樣本這一問(wèn)題。每當新的相關(guān)URL被發(fā)現時(shí),其可作為已知LG網(wǎng)頁(yè)開(kāi)啟新一輪的迭代爬蟲(chóng),該迭代探索過(guò)程可以幫助找到更多相關(guān)URL。
圖1 LG聚焦爬蟲(chóng)架構
1.2種子集
我們從公開(kāi)的web源(包括,PeeringDB,BGP4.as, )采集了2991個(gè)已知的LG URL。其中,1736個(gè)URL可以成功下載html網(wǎng)頁(yè)內容,其余的URL響應HTTP錯誤消息。經(jīng)過(guò)人工檢查,我們發(fā)現部分LG網(wǎng)頁(yè)已經(jīng)過(guò)期且不再提供LG服務(wù),刪除之后我們共得到1085個(gè)提供LG服務(wù)的有效網(wǎng)頁(yè)。
1.3爬取過(guò)程
許多之前的研究注意到,網(wǎng)頁(yè)通常會(huì )包含一些指向相關(guān)主題網(wǎng)頁(yè)的超鏈接[1],因此常用基于超鏈接指導的搜索方法完成爬取過(guò)程。本文也實(shí)現了該搜索方法,即提取已知LG網(wǎng)頁(yè)中包含的內外鏈接作為候選URL。但由于很多LG網(wǎng)頁(yè)并沒(méi)有鏈接到任何其他的LG網(wǎng)頁(yè),僅采用這種搜索方法難以發(fā)現他們。為了發(fā)現更多的LG網(wǎng)頁(yè),我們設計了一種基于相似性指導的搜索方法??紤]到LG網(wǎng)頁(yè)之間在某些方面很可能是相似的,該搜索方法主要借助搜索引擎幫助找到和已知LG網(wǎng)頁(yè)相似的網(wǎng)頁(yè)作為候選URL,之所以選擇搜索引擎是因為他們部署了強大的爬蟲(chóng)基礎設施并提供成熟的搜索算法。關(guān)鍵問(wèn)題是如何得到有價(jià)值的搜索條目,我們利用合適的方法分析已知LG網(wǎng)頁(yè)URL,標題和主體部分提取共享特征,進(jìn)而構建有效的搜索條目。
1.3.1 基于標題的搜索條目
考慮到網(wǎng)頁(yè)標題是關(guān)于網(wǎng)頁(yè)內容的簡(jiǎn)短描述且通常包含較少的單詞,我們采用頻繁項集挖掘算法Apriori[2]從已知LG網(wǎng)頁(yè)標題中提取頻繁出現的單詞或短語(yǔ)作為共享特征。需要注意的是,一些LG網(wǎng)頁(yè)標題中包含部署該網(wǎng)頁(yè)的運營(yíng)商的組織名稱(chēng)或者AS編號,將這些名稱(chēng)或者編號視為相同的關(guān)鍵字可為我們提供更具價(jià)值的信息。具體來(lái)說(shuō),在提取頻繁項集之前,我們將所有組織名稱(chēng)和AS編號替換為兩個(gè)虛擬詞,即ORG和ASN。提取頻繁項集后,如果發(fā)現這兩個(gè)虛擬詞出現在頻繁項集中,則將其替換為每個(gè)AS的組織名稱(chēng)和AS編號,進(jìn)而構建一系列的搜索條目。
在上述過(guò)程中,確定標題中哪些詞代表組織名稱(chēng)是比較困難的。雖然CAIDA提供了關(guān)于A(yíng)S與組織名稱(chēng)映射的數據集[3],但不同的組織在將其名稱(chēng)嵌入LG網(wǎng)頁(yè)標題時(shí)可能會(huì )有不同的命名規范,例如全稱(chēng)、首字母縮寫(xiě)或其他縮寫(xiě)等。錯誤的匹配和替換會(huì )導致提取出的共享特征存在偏差。針對這一問(wèn)題,我們發(fā)現LG頁(yè)面標題往往采用公司網(wǎng)站的二級域名來(lái)表示組織名稱(chēng),因此我們從PeeringDB中收集每個(gè)AS的公司網(wǎng)站URL,并使用Tldextract python庫解析得到一個(gè)二級域名列表,然后將已知LG網(wǎng)頁(yè)標題中匹配二級域名的單詞或短語(yǔ)替換為虛擬詞ORG。
替換之后,我們采用頻繁項集挖掘算法從已知LG網(wǎng)頁(yè)標題中尋找頻繁項集。表1顯示了當支持度閾值設為0.12時(shí)的頻繁項集及其對應的支持度。從表中可知,頻繁1-項集和2-項集都是頻繁3-項集的真子集,這意味著(zhù)將頻繁1-項集和2-項集作為搜索條目得到的搜索結果是頻繁3-項集得到的搜索結果的超集。為了平衡召回率和準確率,本文選擇頻繁3-項集來(lái)構建搜索詞。
表1頻繁項集及其對應的支持度
(支持度閾值設為0.12)
1.3.2基于主體的搜索條目
與URL和標題相比,LG網(wǎng)頁(yè)的主體部分通常包含更豐富的信息,這意味著(zhù)分析主體部分雖然復雜但是能幫助構建更有效的搜索條目。通常LG網(wǎng)頁(yè)主體包含很多單詞,其中有些單詞雖然出現頻率很高,但并不代表LG頁(yè)面的任何共同特征。因此,我們采用TF-IDF(Term Frequency-Inverse Document Frequency)[4]加權模型來(lái)分析已知LG頁(yè)面主體部分。該模型可識別出在已知LG頁(yè)面主體中經(jīng)常出現但在非LG頁(yè)面中不常出現的詞,將其作為L(cháng)G網(wǎng)頁(yè)共享特征,從而構建有效的搜索條目。
通過(guò)分析LG頁(yè)面主體,我們發(fā)現其通常包含一些控制元素,例如輸入、選擇和按鈕元素,用于支持用戶(hù)執行測量任務(wù)。為了降低計算復雜度,我們從有效LG網(wǎng)頁(yè)中提取信息含量豐富的文本(即上述三個(gè)元素的開(kāi)始和結束標記之間的內容),并將其合并成一個(gè)文檔。接著(zhù)我們使用TF-IDF模型進(jìn)行分析,該模型需要使用逆向文件頻率(IDF)文本語(yǔ)料庫來(lái)排除頻繁出現在其他各類(lèi)文檔中的單詞。為此,我們從新聞組數據集[5]收集了11314份文檔作為IDF語(yǔ)料庫。根據合并的主體文檔和IDF語(yǔ)料庫,TF-IDF模型會(huì )為文檔中每個(gè)單詞計算如下權重值:
其中(詞頻)意味著(zhù)單詞在主體文檔中出現的頻率,(逆向文件頻率)代表單詞在其他文檔中出現頻率的倒數,這里的為11314,是IDF語(yǔ)料庫中包含單詞的文檔數量。
顯然,IF-IDF權重較高意味著(zhù)單詞經(jīng)常出現在LG網(wǎng)頁(yè)主體中但不常出現在其他類(lèi)型的文檔中。因此具有較高權重的單詞可作為L(cháng)G網(wǎng)頁(yè)的共享特征,我們提取了49個(gè)權重大于0.05的單詞(包括ip_address、router、traceroute等),并將每個(gè)單詞分別與“l(fā)ooking glass”組合構成搜索條目。
1.3.3 基于URL的搜索條目
事實(shí)上,搜索引擎提供的搜索算法支持根據頁(yè)面與搜索條目的相關(guān)性對搜索結果進(jìn)行排名。因此,我們可以直接以2991個(gè)已知的LG URL作為搜索條目并借助搜索算法得到候選URL。例如,如果我們在必應中使用作為搜索條目,返回的搜索結果中包含其余LG URL,例如。因此,每個(gè)已知的LG URL都可用作一個(gè)搜索條目。
1.3.4 討論
除了搜索條目之外,搜索引擎對基于相似性指導的搜索方法采集的候選URL也存在一定的影響。我們采用谷歌、必應和百度做了一些簡(jiǎn)單的實(shí)驗,發(fā)現谷歌限制了單一用戶(hù)的請求頻率,而必應沒(méi)有限制。至于百度,我們簡(jiǎn)單地搜索了一些條目并將返回的搜索結果與必應搜索結果進(jìn)行比較,發(fā)現必應返回的搜索結果與我們的搜索詞更相關(guān)。因此,我們在論文中選擇使用必應。當然,這些搜索引擎未來(lái)都可以充分利用以發(fā)現更多的LG網(wǎng)頁(yè)。以谷歌為例,我們可以通過(guò)協(xié)商達成定期使用搜索引擎的協(xié)議。此外,我們計劃與必應進(jìn)行協(xié)商以應對被封鎖的風(fēng)險。
1.4分類(lèi)過(guò)程
上述爬取過(guò)程采集的候選URL并不一定都提供LG服務(wù)。在本章節,我們設計了一個(gè)分類(lèi)器將所有的候選URL分類(lèi)為相關(guān)還是不相關(guān)。不相關(guān)的URL將被丟棄,以避免進(jìn)一步深入分析它們而消耗不必要的資源。
1.4.1 設計考慮
在設計分類(lèi)器時(shí)主要有兩點(diǎn)考慮:
?。?)選擇的分類(lèi)算法必須能夠處理缺乏標注的負樣本(非LG頁(yè)面)這一問(wèn)題。將候選URL分類(lèi)為相關(guān)還是不相關(guān)可以看作是一個(gè)二分類(lèi)問(wèn)題。傳統的有監督分類(lèi)算法(例如決策樹(shù),支持向量機)需要正負標記樣本進(jìn)行訓練,然而在這項工作中,我們只有少量已知LG 頁(yè)面(正樣本)和大量無(wú)標記的候選URL,使得傳統的有監督分類(lèi)方法難以解決我們的分類(lèi)問(wèn)題。另一方面,無(wú)監督分類(lèi)方法沒(méi)有充分利用已知LG頁(yè)面的標記信息,其對應的分類(lèi)結果可能并不理想。為此,我們采用一種半監督分類(lèi)方法-PU學(xué)習[6],在給定少量正樣本和大量無(wú)標記樣本的情況下,該方法可以訓練分類(lèi)器用于區分未標記樣本中的正樣本和負樣本。
?。?)實(shí)現高效且準確的分類(lèi)效果需要選擇合適的分類(lèi)特征。為了準確地對候選URL進(jìn)行分類(lèi),我們應該充分利用所有可用的信息,例如網(wǎng)頁(yè)內容。但是,爬取過(guò)程得到的候選URL不包含相應的網(wǎng)頁(yè)內容,下載大量候選URL對應的HTML文件既耗時(shí)又占用帶寬,導致分類(lèi)過(guò)程效率低下。我們注意到LG頁(yè)面的URL通常區別于非LG頁(yè)面的URL,因此,我們考慮僅根據URL特征預先過(guò)濾掉一些不相關(guān)的候選URL,對于剩下的候選URL,再下載其HTML頁(yè)面并根據URL和選定的HTML內容特征進(jìn)一步分類(lèi)。具體來(lái)說(shuō),我們設計了一個(gè)兩步分類(lèi)器,包括基于URL特征的預過(guò)濾器和基于網(wǎng)頁(yè)內容特征的分類(lèi)器,可以實(shí)現較高的分類(lèi)效率和準確率。

1.4.2 特征提取
PU學(xué)習模型僅能處理固定長(cháng)度的數字輸入,而網(wǎng)頁(yè)URL和HTML文件都由變長(cháng)的字符串組成。因此,我們需要進(jìn)行特征提取,即從URL或HTML文件中構建合適的特征向量,需要說(shuō)明的是特征向量應該是包含豐富且非冗余的信息,以促進(jìn)后續的訓練和分類(lèi)步驟。
URL特征提取。本文采用詞袋模型將一組URL轉換為固定長(cháng)度的特征向量。具體地,該模型首先創(chuàng )建一個(gè)包含URL集合所有單詞的有序詞匯表,并為每個(gè)單詞賦予一個(gè)整數索引,接著(zhù)為每個(gè)URL構建其特征向量,其中為整數索引為的單詞在當前URL中出現的次數。
網(wǎng)頁(yè)內容特征提取。直觀(guān)上,HTML文件相比于URL包含更豐富的信息,因此通過(guò)預過(guò)濾器的候選URL將交由基于內容特征的分類(lèi)器進(jìn)行進(jìn)一步檢查。當然,并非HTML文件中所有文本都包含有價(jià)值的信息,無(wú)信息含量的文本可能會(huì )對PU學(xué)習算法產(chǎn)生負面影響。正如之前在2.3中介紹的,頁(yè)面標題和頁(yè)面主體中輸入、選擇和按鈕元素內的文本內容對于區分相關(guān)和不相關(guān)的URL有一定的價(jià)值。此外,上述三個(gè)元素中ID屬性、NAME屬性和VALUE屬性的值也包含有價(jià)值的信息。對于每個(gè)LG網(wǎng)頁(yè),我們將網(wǎng)址和HTML文件中具有信息含量的本文結合起來(lái),并利用詞袋模型將其轉化為特征向量以表示該頁(yè)面。
1.4.3 PU-Bagging模型訓練
為了應對缺乏標注的負樣本這一問(wèn)題,我們選擇一種典型的PU學(xué)習方法,即PU-Bagging算法[7],幫助構建基于URL特征的預過(guò)濾以及基于內容特征的分類(lèi)器。PU-Bagging算法采用引導聚合技術(shù)(稱(chēng)為bagging)從正樣本和未標記樣本中學(xué)習分類(lèi)器。具體地,該算法重復N輪以訓練N個(gè)基分類(lèi)器,其中每一輪訓練過(guò)程中,為了解決缺乏標注的負樣本這一問(wèn)題,該算法從未標記樣本中隨機抽取部分樣本作為“負樣本”,并基于抽取的負樣本和已知的正樣本訓練有監督分類(lèi)器。然后將多個(gè)分類(lèi)器的預測結果聚合作為最終的分類(lèi)結果,這樣可以減少隨機選擇“負樣本”引入的方差。有研究[7]表明PU-Bagging算法可以獲得出色的性能表現,且相比于有偏SVM方法可以在較短的時(shí)間內完成訓練(尤其是在未標記樣本集較大的情況下)。
實(shí)驗和評估結果2.1基于相似性指導的搜索方法的有效性
以第一輪迭代為例(LG種子集作為輸入),我們采用基于超鏈接指導的搜索方法從1736個(gè)成功下載網(wǎng)頁(yè)內容的種子頁(yè)面中提取超鏈接作為候選URL。同時(shí),我們采用基于相似性指導的搜索方法對已知LG網(wǎng)頁(yè)URL,標題和主體進(jìn)行分析,構建100987個(gè)搜索條目。然后將每個(gè)搜索條目輸入到必應搜索引擎中,采集前10500個(gè)搜索結果作為候選LG URL。
為了評估基于相似性指導的搜索方法的有效性,我們定義四個(gè)指標:候選URL中相關(guān)URL的數量,相關(guān)URL的濃度(候選URL中被分類(lèi)為相關(guān)URL占候選URL的比例),候選URL 中發(fā)現的新的可自動(dòng)化使用的LG探針數量(在4.1章的過(guò)程之后),新的可自動(dòng)化使用的探針濃度(新的可自動(dòng)化使用的探針數量除以候選URL的數量)。這些指標可以較好地衡量基于相似性指導的搜索方法的收益和效率。
表2 實(shí)驗結果
從表2可知,基于相似性指導的搜索方法共獲得了4111個(gè)相關(guān)的URL和608個(gè)新的可自動(dòng)化使用的LG探針,這比基于超鏈接指導的搜索方法得到的相關(guān)URL(新的可自動(dòng)化使用的LG探針)多約28(13)倍。結果表明,受益于搜索引擎和精心構建的搜索條目,我們提出的基于相似性指導的搜索方法可以有效地找到許多相關(guān)頁(yè)面和新的LG探針。此外,我們發(fā)現相比于基于網(wǎng)址和標題的搜索條目,基于主體的搜索條目得到的搜索結果中相關(guān)URL濃度以及探針濃度更高。當然,這并不意味著(zhù)基于網(wǎng)址和標題的搜索條目沒(méi)有價(jià)值,它們還是可以幫助找到許多基于主體的搜索條目無(wú)法找的相關(guān)頁(yè)面和新的LG探針。
每當新的相關(guān)URL被發(fā)現時(shí),其可作為已知LG網(wǎng)頁(yè)開(kāi)啟新一輪的迭代爬蟲(chóng)。實(shí)驗表明迭代對于獲取更多相關(guān)URL以及新的可自動(dòng)化使用的LG探針是有意義的。除了上述第一輪迭代的實(shí)驗結果外,在后續的三輪迭代中,我們額外采集了2047333個(gè)候選URL,并獲得了 46551個(gè)相關(guān)URL以及280個(gè)新的可自動(dòng)化使用的LG探針。
2.2兩部分類(lèi)器的有效性
為了評估基于URL特征的預過(guò)濾器和基于內容特征的分類(lèi)器的性能,我們采用接收器操作曲線(xiàn)下面積接收者操作特征曲線(xiàn)(AUC)、真陽(yáng)性率(TPR)和假陽(yáng)性率(FPR)作為評估指標。其中AUC越高,說(shuō)明分類(lèi)器在區分正樣本和負樣本方面的性能表現越好。
2.2.1 評估基于URL特征的預過(guò)濾器
我們將第一輪迭代得到的數據集(包含2991個(gè)LG種子URL和919893個(gè)未標記的候選URL)隨機拆分為三個(gè)子集:訓練數據集(98%)、驗證數據集(1%)和測試數據集(1%),其中驗證和測試集中未標記的候選URL被手工標記,從而用于調整超參數和評估模型泛化能力??紤]到PU-bagging算法中超參數數量較少,易于驗證和調整,我們僅采用了上述簡(jiǎn)單的驗證方法而非使用N折交叉驗證(需要手工標記整個(gè)數據集),而且考慮到整個(gè)數據集足夠大,隨機選取的1%驗證集和1%測試集已經(jīng)包含足夠的樣本用于調參和評估。
超參數調整。PU-Bagging模型中有一些超參數(例如集分類(lèi)器的數量N、引導樣本的大小K和分類(lèi)閾值T)會(huì )影響預過(guò)濾器的分類(lèi)性能,需要進(jìn)行仔細選擇。為此,我們利用訓練集訓練在不同的超參數下的基于URL特征的預過(guò)濾器,并得到一系列經(jīng)過(guò)訓練的預過(guò)濾器,然后根據其在驗證集上的AUC性能表現,選擇N為100,K等于訓練集中正樣本的數量(即2931)作為最優(yōu)超參數。
另外,閾值T對于分類(lèi)結果也有較大的影響,具體可以通過(guò)TPR和FPR來(lái)衡量。TPR高意味著(zhù)大多數真正提供LG服務(wù)的候選URL能成功地被分類(lèi)為相關(guān)URL,FPR低意味著(zhù)少數并不提供LG服務(wù)的候選URL被錯誤地分類(lèi)為相關(guān)URL。對于預過(guò)濾器而言,在某種程度上,保證較高的TPR比實(shí)現較低的FPR更重要,因為T(mén)PR低意味著(zhù)很多LG網(wǎng)頁(yè)會(huì )被錯誤過(guò)濾掉,而FPR低僅僅導致后續基于內容特征的分類(lèi)器消耗較多的資源開(kāi)銷(xiāo)。圖2(a)繪制了當K=2931,N=100時(shí),不同閾值T下經(jīng)過(guò)訓練的預過(guò)濾器在驗證集上的FPR和TPR分布??梢园l(fā)現,T為0.2072能實(shí)現較高的TPR(99.07%)以及可接受的FPR(15.54%),因此我們選擇T=0.2072。
圖2(a)不同閾值T下經(jīng)過(guò)訓練的預過(guò)濾器的TPR和FPR分布
?。╞)不同閾值T下經(jīng)過(guò)訓練的分類(lèi)器的TPR和FPR分布
分類(lèi)結果。接著(zhù)我們利用測試集(包含102個(gè)正樣本和9127個(gè)負樣本)評估具有最佳超參數的預過(guò)濾器的泛化能力,發(fā)現能達到FPR為15.36%,TPR為96.08%的分類(lèi)性能,與上述在驗證集上的性能表現基本一致。具體而言,在測試集中,預過(guò)濾器成功過(guò)濾掉7725個(gè)非LG網(wǎng)址,節省了下載相應的HTML文件的資源。同時(shí),它只過(guò)濾掉4個(gè)LG網(wǎng)址,對最終結果的影響相對較小。
鑒于上述訓練的預過(guò)濾器性能表現良好,我們用其對所有919893個(gè)候選URL進(jìn)行分類(lèi)。789967個(gè)候選URL被分類(lèi)為不相關(guān)并立即被過(guò)濾掉,剩余的12992個(gè)候選URL被分類(lèi)為相關(guān),我們稱(chēng)之為預過(guò)濾URL。為了評估預過(guò)濾器帶來(lái)的收益,我們將其過(guò)濾掉的無(wú)關(guān)URL的數量作為評價(jià)指標,發(fā)現預過(guò)濾器可以在損失較少LG網(wǎng)址(1-TPR)的同時(shí)將需要下載HTML文件的候選URL數量減少約85%,顯著(zhù)提高了分類(lèi)效率。
2.2.2評估基于網(wǎng)頁(yè)內容特征的分類(lèi)器
對于上述預過(guò)濾器得到的12992個(gè)預過(guò)濾URL,我們成功下載了其中77113個(gè)URL對應的HTML文件。另外,正如章節2.2所述,目前有1085個(gè)提供LG服務(wù)的種子頁(yè)面。由成功下載的未標記的HTML文件和種子頁(yè)面構成的數據集被隨機拆分為三個(gè)子集:訓練集(94%)、驗證集(3%)和測試集(3%),其中驗證和測試集中未標記的候選URL被手工標記,從而用于調整超參數和評估模型泛化能力。
超參數調整。和上述確定預過(guò)濾器的超參數過(guò)程類(lèi)似,我們選擇N為100,K為1020作為基于內容特征的分類(lèi)器的最優(yōu)超參數。進(jìn)一步地為了確定T,我們繪制了不同閾值T下經(jīng)過(guò)訓練的分類(lèi)器在驗證集上的TPR和FPR分布,如圖2(b)所示。對于基于內容特征的分類(lèi)器而言,我們希望能同時(shí)實(shí)現較高的TPR和較低的FPR,這意味著(zhù)得到的相關(guān)頁(yè)面是LG頁(yè)面的概率較高。從圖2(b)可知,T為0.4292時(shí)的分類(lèi)器可以達到較高的TPR(95.24%)以及較低的FPR(4.25%),所以我們選擇T為0.4292。
分類(lèi)結果。接著(zhù)我們利用測試集(包含77個(gè)正樣本和2269個(gè)負樣本)評估具有最佳超參數的分類(lèi)器的泛化能力,發(fā)現其能實(shí)現較高的TPR(96.10%)和較低的FPR(4.10%)。換句話(huà)說(shuō),在測試集中,分類(lèi)器成功過(guò)濾掉了2176個(gè)非LG頁(yè)面,節省了嘗試從中提取探針的資源消耗。同時(shí),它只丟棄3個(gè)LG頁(yè)面。
接著(zhù),我們使用訓練好的基于內容特征的分類(lèi)器對77113個(gè)預過(guò)濾URL進(jìn)行分類(lèi),其中4226個(gè)URL被分類(lèi)器分類(lèi)為相關(guān),我們稱(chēng)之為相關(guān)URL。值得注意的是,所有相關(guān)URL將作為新的已知LG頁(yè)面開(kāi)啟新一輪的迭代。四輪迭代后,我們得到了50777個(gè)相關(guān)頁(yè)面,用于后續的分析和實(shí)際應用。
實(shí)際應用
通過(guò)聚焦爬蟲(chóng),我們得到了很有可能是LG頁(yè)面的相關(guān)頁(yè)面,其對于測量研究非常有用。例如,研究人員可以手工分析每個(gè)相關(guān)頁(yè)面提取可用的探針列表,并手動(dòng)使用這些探針執行測量命令。但是對于想要以更具擴展性的方式完成測量任務(wù)的研究人員而言,如果我們能自動(dòng)化地使用這些LG探針,將會(huì )更加實(shí)用。在本節中,我們開(kāi)發(fā)了一種工具用于提取可自動(dòng)化使用的LG探針,并展示這些探針在促進(jìn)測量研究方面的實(shí)用價(jià)值。
3.1提取可自動(dòng)化使用的LG探針
LG網(wǎng)站通常具有不同的輸入接口來(lái)收集和解析測量請求,缺乏輸入接口規范阻礙了LG探針的自動(dòng)使用。因此,我們需要開(kāi)發(fā)一種工具來(lái)自動(dòng)提取探針的輸入接口信息,并通過(guò)發(fā)送測量請求以及分析測量響應來(lái)檢查這些LG探針是否支持自動(dòng)化使用。
3.1.1提取探針輸入接口信息
我們設計了基于模板匹配和基于關(guān)鍵詞匹配的方法用于提取探針的輸入接口信息。
模板匹配。有研究[8,9]發(fā)現LG服務(wù)的部署往往基于幾個(gè)流行的開(kāi)源項目,且這些開(kāi)源項目有不同的輸入接口規范。本文通過(guò)分析論文[8]和[9]中提到的開(kāi)源項目所創(chuàng )建的 HTML文件,推導出八個(gè)輸入接口模板,其中每個(gè)模板均記錄了表單元素中輸入字段的名稱(chēng)、類(lèi)型和用途。接著(zhù),我們遍歷相關(guān)頁(yè)面,檢查其表單元素中輸入字段名稱(chēng)和類(lèi)型是否與模板相同,最終共發(fā)現1302個(gè)相關(guān)頁(yè)面與模板成功匹配。

關(guān)鍵詞匹配。至于剩余的相關(guān)頁(yè)面,我們檢查其表單元素中是否包含特定關(guān)鍵字(例如ping、trace、BGP或Bird、Router ID),發(fā)現516個(gè)相關(guān)頁(yè)面是關(guān)鍵字匹配頁(yè)面。
對于模板匹配和關(guān)鍵詞匹配頁(yè)面,我們自動(dòng)將每個(gè)探針的信息(即它支持的所有命令以及運行每個(gè)命令所需的輸入字段)匯總到一個(gè)文件中,總的來(lái)說(shuō),我們提取了4980個(gè)探針的輸入接口信息。作為比較,我們使用上述匹配方法對1085個(gè)提供LG服務(wù)的種子頁(yè)面進(jìn)行分析,發(fā)現792個(gè)種子頁(yè)面是模板匹配或關(guān)鍵字匹配頁(yè)面,共提取了4450 個(gè)探針的輸入接口信息。
3.1.2自動(dòng)發(fā)布測量請求
在上述提取的探針輸入接口信息的基礎上,每個(gè)測量請求可以轉換為將特定值填入相應的表單輸入字段的操作。具體地,我們采用Mechanize庫以編程的方式填寫(xiě)表單所需的輸入字段并將表單提交到相應的Web服務(wù)器。服務(wù)器收到表單數據后,會(huì )響應測量請求并返回測量結果。
3.1.3分析測量響應以確定支持自動(dòng)化使用的探針
如果探針能成功響應自動(dòng)化發(fā)送的測量請求,我們將其稱(chēng)為支持自動(dòng)化使用的探針。具體地,我們自動(dòng)發(fā)布ping測量請求依次要求每個(gè)探針發(fā)送ping數據包到一個(gè)受控主機(運行tcpdump以捕獲收到的ICMP數據包)。如果該主機可以接收到ICMP ping數據包,則表示對應的探針是支持自動(dòng)化使用的。同時(shí),可以從ICMP數據包中提取探針的IP地址,然后通過(guò)查詢(xún)IP2AS以及地理定位數據庫了解探針的網(wǎng)絡(luò )和地理位置,方便研究人員選擇特定區域的探針完成測量任務(wù)。
使用上述方法,我們成功地從種子頁(yè)面中確定了1446個(gè)可自動(dòng)化使用的探針,并從相關(guān)頁(yè)面中確定了1296個(gè)可自動(dòng)化使用的探針。去重后,我們發(fā)現相關(guān)頁(yè)面中有910個(gè)可自動(dòng)化使用的探針沒(méi)有包含在任何種子頁(yè)面中,這些探針被稱(chēng)為新發(fā)現的可自動(dòng)化使用的探針。
3.2LG探針的分析和應用
研究人員已經(jīng)注意到當前可用探針的地理和網(wǎng)絡(luò )覆蓋范圍有限阻礙了我們對互聯(lián)網(wǎng)的全面了解[10],如果我們新發(fā)現可自動(dòng)化使用的探針能實(shí)現地理和網(wǎng)絡(luò )覆蓋改進(jìn),將會(huì )很有價(jià)值。此外,我們還進(jìn)行了一個(gè)簡(jiǎn)單的案例研究來(lái)證明這些探針在提升互聯(lián)網(wǎng)拓撲完整性方面的潛在價(jià)值。
3.2.1地理覆蓋范圍改進(jìn)
雖然有一些公開(kāi)的IP地理定位數據庫,但眾所周知,獲得準確的IP地址到地理定位映射仍然是一個(gè)挑戰。我們發(fā)現有些LG網(wǎng)頁(yè)中會(huì )給出探針的地理位置,相對而言比較可靠。通過(guò)正則表達式匹配,我們成功提取了390個(gè)探針的國家級定位信息以及316個(gè)探針的城市級定位信息。對于其余探針,我們購買(mǎi)IP2location DB9數據庫來(lái)將其映射到國家和城市級位置。需要說(shuō)明的是,我們將DB9數據庫與網(wǎng)頁(yè)中提取的可靠定位信息進(jìn)行比較,發(fā)現DB9數據庫的國家級定位的準確率能達到97%,還是可以接受的。
圖3 探針地理分布
圖2繪制了1446個(gè)已知的可自動(dòng)化使用的LG探針(藍點(diǎn))和 910個(gè)新發(fā)現的可自動(dòng)化使用的LG探針(紅點(diǎn))的地理覆蓋范圍,其中點(diǎn)的大小代表相應地理區域中探針的數量。1446個(gè)已知的可自動(dòng)化使用的探針?lè )植荚?5個(gè)國家,386個(gè)城市,910個(gè)新發(fā)現的可自動(dòng)化使用的探針覆蓋了55個(gè)國家,282個(gè)城市。新發(fā)現的探針使得研究人員能從8個(gè)新的國家和160個(gè)新的城市執行測量命令,而在這些區域未發(fā)現已知的LG探針。尤其,這8個(gè)新的國家主要分布在東非和南亞,其網(wǎng)絡(luò )連通性和性能近年來(lái)引起了很多研究人員的關(guān)注。
3.2.2網(wǎng)絡(luò )覆蓋范圍改進(jìn)
推斷路由器所的網(wǎng)絡(luò )歸屬也并非易事,我們注意到一些LG頁(yè)面會(huì )給出探針所在的自治域信息,通過(guò)正則匹配,我們提取了526個(gè)探針的自治域信息。然后我們使用bdrmapIT[11]工具構建一個(gè)IP2AS數據集,幫助獲取323個(gè)探針的自治域信息。對于剩余探針,我們進(jìn)一步查詢(xún)路由表前綴獲取自治域信息。
經(jīng)分析發(fā)現,新發(fā)現的探針使得研究人員能從288個(gè)新的自治域執行測量命令,而在這些AS內未發(fā)現已知的LG探針。進(jìn)一步地,我們將這些自治域根據其在互聯(lián)網(wǎng)中的層次結構進(jìn)行分層,發(fā)現絕大部分新的自治域(287個(gè))都分布在互聯(lián)網(wǎng)邊緣。之前的研究[12]表明可以通過(guò)將探針?lè )胖迷诨ヂ?lián)網(wǎng)邊緣來(lái)改善AS級拓撲的完整性,這也說(shuō)明我們新發(fā)現的LG探針對于提高互聯(lián)網(wǎng)拓撲的完整性具有一定的價(jià)值。
3.2.3提升拓撲完整性的案例研究
為了說(shuō)明新發(fā)現的LG探針的潛在價(jià)值,我們利用支持顯示BGP鄰居IP宣告(或接收)路由這一測量命令的探針采集大量的BGP路由表信息,并將獲取的AS級別拓撲數據和其他常用的測量平臺采集的數據比較,發(fā)現了10個(gè)新的AS以及1428個(gè)新的AS鏈路。
利用LG探針采集AS路徑信息。運行顯示BGP鄰居IP宣告(或接收)路由測量命令返回的AS路徑可以幫助構建AS級互聯(lián)網(wǎng)拓撲。我們注意到一些常用的LG開(kāi)源項目模板(例如HSDN[14]和Cougar[13])通常在show BGP summary測量命令的響應頁(yè)面中提供顯示BGP鄰居IP宣告(或接收)路由這一測量命令的輸入接口。
借助章節4.1中提出的自動(dòng)發(fā)布測量請求的方法,我們可以自動(dòng)控制探針收集AS路徑信息。具體而言,在提取的探針輸入接口信息的基礎上,我們以編程的方式填寫(xiě)所需的輸入字段,向每個(gè)探針發(fā)送show ip BGP summary測量請求。返回的響應網(wǎng)頁(yè)會(huì )給出與探針相連的每個(gè)BGP連接的狀態(tài),以及相鄰的BGP路由器IP地址和所屬自治域。然后,通過(guò)點(diǎn)擊每個(gè)相鄰IP所對應超鏈接,我們可以控制探針運行顯示BGP鄰居IP這一測量命令來(lái)收集有關(guān)鄰居IP的詳細信息,包括顯示其宣告(或接收)路由的超鏈接。通過(guò)進(jìn)一步訪(fǎng)問(wèn)這一超鏈接,我們可以控制探針運行顯示BGP鄰居IP宣告(或接收)路由測量命令獲取BGP路由表,再使用正則匹配提取AS路徑。
提升AS拓撲完整性。使用上述方法,我們成功地從14個(gè)LG探針和8個(gè)新發(fā)現的LG探針中提取了AS路徑信息。作為比較,我們還從兩個(gè)流行的BGP采集項目(RIPE RIS和RouteViews)下載了2020年12月的路由表快照構建AS拓撲。對比發(fā)現這8個(gè)新發(fā)現的LG探針可以幫助觀(guān)察到10個(gè)新的AS以及1428個(gè)新的AS鏈路。這一結果與以往研究的結論一致[12],常用的BGP探針數量有限且通常集中在互聯(lián)網(wǎng)核心導致存在許多無(wú)法直接觀(guān)察到的“陰影區域”,更多的BGP探針(尤其是分布在互聯(lián)網(wǎng)邊緣的探針)對于發(fā)現更多的 AS鏈路很有價(jià)值。
討論:其他的新發(fā)現LG探針對于提升AS級拓撲的完整性也有十分重要的意義。實(shí)際上,支持traceroute或顯示BGP路由測量命令的探針的數量比上述案例研究中使用測量點(diǎn)數量多很多。對于支持traceroute的探針,我們可以自動(dòng)地控制他們traceroute到目標IP地址,得到IP級別的路徑。對于支持顯示BGP路由的探針,我們可以控制他們返回到達指定網(wǎng)絡(luò )前綴的BGP路由信息。這里需要解決的問(wèn)題是如何為支持traceroute測量命令的探針選擇合適目標IP地址以及如何為支持顯示BGP路由測量命令的探針指定目標網(wǎng)絡(luò )前綴。由于一些LG探針限制用戶(hù)請求速率,我們需要仔細選擇目標IP和目標網(wǎng)絡(luò )前綴以在提高拓撲完整性方面取得高效的性能,這將作為我們的后續工作進(jìn)一步開(kāi)展。
參考文獻:
[1] Brian D Davison. 2000. Topical locality in the web. In Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval. 272–279.
[2] Rakesh Agrawal, Tomasz Imieliński, and Arun Swami. 1993. Mining association rules between sets of items in large databases. In Proceedings of the 1993 ACM SIGMOD international conference on Management of data. 207–216.
[3] [n.d.]. The CAIDA UCSD AS to Organization Mapping Dataset. Retrieved April, 2020 from
[4] Juan Ramos et al. 2003. Using TF-IDF to determine word relevance in document queries. In Proceedings of the first instructional conference on machine learning, Vol. 242. New Jersey, USA, 133–142.
[5] Ken Lang. 1995. Newsweeder: Learning to filter netnews. In Machine Learning Proceedings 1995. Elsevier, 331–339.
[6] Charles Elkan and Keith Noto. 2008. Learning classifiers from only positive and unlabeled data. In Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining. 213–220.
[7] Fantine Mordelet and J-P Vert. 2014. A bagging SVM to learn from positive and unlabeled examples. Pattern Recognition Letters 37 (2014), 201–209.
[8] Luca Bruno, Mariano Graziano, Davide Balzarotti, and Aurélien Francillon. 2014. Through the looking-glass, and what eve found there. In 8th USENIX Workshop on Offensive Technologies (WOOT 14).
[9] Vasileios Giotsas, Amogh Dhamdhere, and Kimberly C Claffy. 2016. Periscope: Unifying looking glass querying. In International Conference on Passive and Active Network Measurement. Springer, 177–189.
[10] Enrico Gregori, Alessandro Improta, Luciano Lenzini, Lorenzo Rossi, and Luca Sani. 2014. A novel methodology to address the Internet AS-level data incompleteness. IEEE/ACM Transactions on Networking 23, 4, 1314–1327
[11] Alexander Marder, Matthew Luckie, Amogh Dhamdhere, Bradley Huffaker, KC Claffy, and Jonathan M Smith. 2018. Pushing the boundaries with bdrmapit: Mapping router ownership at Internet scale. In Proceedings of the 2018 conference on Internet Measurement Conference (IMC). 56–69.
[12] Enrico Gregori, Alessandro Improta, Luciano Lenzini, Lorenzo Rossi, and Luca Sani. 2012. On the incompleteness of the AS-level graph: a novel methodology for BGP route collector placement. In Proceedings of the 2012 Conference on Internet Measurement Conference (IMC). 253–264.
[13] [n.d.]. Cougar Looking Glass. Retrieved September, 2020 from
[14] [n.d.]. HSDN Looking Glass. Retrieved September, 2020 from
新手如何快速搭建一個(gè)網(wǎng)站?新手使用推薦第一種方法
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 113 次瀏覽 ? 2022-07-15 08:00
網(wǎng)站自動(dòng)采集發(fā)布機器人,通過(guò)發(fā)布機器人自動(dòng)采集信息,機器人會(huì )自動(dòng)加入你的站點(diǎn),當用戶(hù)查詢(xún)的時(shí)候,比如搜索“婚紗”“寶寶”等關(guān)鍵詞,就會(huì )跳轉到該網(wǎng)站。
百度推廣有一種關(guān)鍵詞密鑰,你注冊百度推廣的時(shí)候填寫(xiě)你的網(wǎng)站域名和郵箱。
我看到有人說(shuō)用robots協(xié)議和disallow、extra字段,
我看到有人說(shuō)用代理服務(wù)器、sso這種都是高大上的服務(wù)器但是都需要購買(mǎi)域名是很貴的其實(shí)現在已經(jīng)有像騰訊一樣低廉的服務(wù)器max(可提供免費搭建網(wǎng)站的)而且不止在網(wǎng)站投放廣告可以做其他的比如媒體類(lèi)頁(yè)面制作啊app上架啊人力物力都不需要花錢(qián)的
想要快速搭建一個(gè)網(wǎng)站,不像微信的app那么麻煩,不用技術(shù)太復雜,請問(wèn)一下新手如何快速搭建一個(gè)網(wǎng)站?根據我的了解方法如下:1.主題搭建。用戶(hù)點(diǎn)擊某一主題,會(huì )導致網(wǎng)站被展示,那就要求網(wǎng)站分主題展示,再把主題的內容通過(guò)跳轉鏈接呈現給用戶(hù)。2.人力手動(dòng)點(diǎn)。如果沒(méi)有好的線(xiàn)上支持系統(大多新手使用),手動(dòng)點(diǎn)中你可能會(huì )遇到各種困難,不但要進(jìn)行網(wǎng)站聯(lián)合,而且還要加班到凌晨5點(diǎn)才能搞定。
3.其他方法。通過(guò)配置,可以看到聯(lián)合的網(wǎng)站已有該主題的用戶(hù)無(wú)需做任何操作,直接在網(wǎng)站下方顯示該主題的分享鏈接。這種方法簡(jiǎn)單快捷。這幾種方法是我的搭建網(wǎng)站方法,新手使用推薦第一種方法。我想法也許一直有變化,歡迎大家在留言探討。 查看全部
新手如何快速搭建一個(gè)網(wǎng)站?新手使用推薦第一種方法
網(wǎng)站自動(dòng)采集發(fā)布機器人,通過(guò)發(fā)布機器人自動(dòng)采集信息,機器人會(huì )自動(dòng)加入你的站點(diǎn),當用戶(hù)查詢(xún)的時(shí)候,比如搜索“婚紗”“寶寶”等關(guān)鍵詞,就會(huì )跳轉到該網(wǎng)站。

百度推廣有一種關(guān)鍵詞密鑰,你注冊百度推廣的時(shí)候填寫(xiě)你的網(wǎng)站域名和郵箱。
我看到有人說(shuō)用robots協(xié)議和disallow、extra字段,

我看到有人說(shuō)用代理服務(wù)器、sso這種都是高大上的服務(wù)器但是都需要購買(mǎi)域名是很貴的其實(shí)現在已經(jīng)有像騰訊一樣低廉的服務(wù)器max(可提供免費搭建網(wǎng)站的)而且不止在網(wǎng)站投放廣告可以做其他的比如媒體類(lèi)頁(yè)面制作啊app上架啊人力物力都不需要花錢(qián)的
想要快速搭建一個(gè)網(wǎng)站,不像微信的app那么麻煩,不用技術(shù)太復雜,請問(wèn)一下新手如何快速搭建一個(gè)網(wǎng)站?根據我的了解方法如下:1.主題搭建。用戶(hù)點(diǎn)擊某一主題,會(huì )導致網(wǎng)站被展示,那就要求網(wǎng)站分主題展示,再把主題的內容通過(guò)跳轉鏈接呈現給用戶(hù)。2.人力手動(dòng)點(diǎn)。如果沒(méi)有好的線(xiàn)上支持系統(大多新手使用),手動(dòng)點(diǎn)中你可能會(huì )遇到各種困難,不但要進(jìn)行網(wǎng)站聯(lián)合,而且還要加班到凌晨5點(diǎn)才能搞定。
3.其他方法。通過(guò)配置,可以看到聯(lián)合的網(wǎng)站已有該主題的用戶(hù)無(wú)需做任何操作,直接在網(wǎng)站下方顯示該主題的分享鏈接。這種方法簡(jiǎn)單快捷。這幾種方法是我的搭建網(wǎng)站方法,新手使用推薦第一種方法。我想法也許一直有變化,歡迎大家在留言探討。
優(yōu)采云談網(wǎng)站的采集與防采集
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 121 次瀏覽 ? 2022-07-15 05:59
一、談優(yōu)采云采集器的由來(lái)
優(yōu)采云:我們的這個(gè)采集器最早是從05年底開(kāi)始有這個(gè)想法的,當時(shí)也是和大家一樣,個(gè)人站長(cháng),添加管理維護網(wǎng)站很辛苦,一篇篇修改復制發(fā)布最開(kāi)始也是 接觸dede 然后發(fā)現他有個(gè)外部的c#采集器。不知道有多少人也記得,我的思路基本是從這個(gè)dedespider學(xué)來(lái)的,原來(lái)真的不懂什么,到后來(lái)學(xué)會(huì )php 和.net,所以只要大家有興趣,技術(shù)上的問(wèn)題都可以克服,講到現在的采集,其實(shí)采集只能替代站長(cháng)部分手工的操作。我們不建議大規模得制造垃圾站(全盤(pán)得 采集復制別人的站點(diǎn)),所以我們現在的軟件的功能越做越多,但新用戶(hù)缺越來(lái)越不會(huì )用了。
我們現在有一批很忠實(shí)的會(huì )員,他們一直在靠采集器更新網(wǎng)站。迅速的采集然后百度搜錄帶來(lái)巨大的流量的時(shí)代已經(jīng)不在,站長(cháng)還是要關(guān)注內容,靠采集器采集 的數據一樣要注意,前期只能做為一個(gè)數據填充,可以稍微大的。但時(shí)間長(cháng)了,目標就要把垃圾數據也要變成精品,否則做不長(cháng)久
二、關(guān)于采集網(wǎng)站的經(jīng)驗
優(yōu)采云:我們現在在更新這個(gè)采集器,在數據采集方面也積累了一些經(jīng)驗,增加更多功能以適應新形式下的采集
1.別人經(jīng)常采的網(wǎng)站不要去采
2.太容易采的網(wǎng)站不要去采
3.不要一次性采集太多,一定要注意后期處理(后面詳續)
4.做好關(guān)鍵詞,tag的采集分析
5.自己網(wǎng)站要有自己的定位,不采與自己網(wǎng)站無(wú)關(guān)的內容
6.采集也要有持續性,經(jīng)常更新,自動(dòng)采集功能我們也有,但還是建議大家人工也參與一些審核,或定時(shí),亂序發(fā)布
后期處理,要想法子做到讓搜索引擎那看不出來(lái)兩片文章的相同,這里面應該有很多SEO高手,那我不獻丑了。我說(shuō)下我們現在實(shí)現的功能,大家可以把這些混用,達到改變內容偽原創(chuàng ):
1.給標題。內容分詞
2.使用同義詞近義詞替換,排除敏感詞,不同的標簽之間數據融合,指如標題內容之間數據的相互替換
3.給文章加上摘要
4.為文章標題等生成拼音地址
5.采集一些其他編碼的網(wǎng)站,我們可以做到簡(jiǎn)繁體轉化,可以采集中文網(wǎng)站翻譯成英文(雖然比較垃圾,但應該可以算是原創(chuàng ))
我們也發(fā)現,高難度采集的網(wǎng)站一般內容質(zhì)量都非常好,采集其實(shí)有時(shí)也是一件很有樂(lè )趣的事情,需要你學(xué)習一些采集相關(guān)的知識。
三、關(guān)于防采集的方法
優(yōu)采云:下面講一些主要的防采集方法??梢哉f(shuō)是攻防對戰吧。打開(kāi)一個(gè)網(wǎng)頁(yè)實(shí)際就是一個(gè)Http請求瀏覽器。百度蜘蛛,小到我們的采集器使用的都是一個(gè) 原理,模擬http請求,所以我們同樣能模擬出瀏覽器。百度蜘蛛出來(lái)所以絕對的防采集根本不存在,只是難度的高低?;蛘吣阏J為搜索引擎的搜錄也無(wú)所謂了。 你可以用一些非常強大的activex,flash,全圖片文字的形式,這個(gè)我們無(wú)能為力。
普通的防采集方法有
1、來(lái)源判斷
2、登錄信息判斷 Cookie
3、請求次數判斷。如一段時(shí)間內請求多少,非常規操作則封IP
4、發(fā)送方式判斷 POST GET 使用JS,Ajax等請求內容
舉例:
1.2不用說(shuō)了,論壇,下載站等。。
3、一些大網(wǎng)站,需要配置服務(wù)器,單純靠腳本判斷資源消耗比較大
4、如一些招聘站,的分頁(yè),Web2.0站的ajax請求內容
當然我們后面還發(fā)現一些殺手锏,今天第一次在這里給大家公布出來(lái)~~ 有優(yōu)質(zhì)內容需要防采集的朋友可以考慮試下
1、網(wǎng)頁(yè)默認deflate壓縮輸出(gzip容易一點(diǎn),容易解壓) 我們普通的瀏覽器和baidu支持識別gzip,deflate輸出內容
2、網(wǎng)頁(yè)內容不定時(shí) ? 內容自動(dòng)截斷,這兩點(diǎn)基本可以防主大部分主流軟件采集及web采集程序了~
今天主要想要表達的一點(diǎn),大家在做站時(shí)一定要注意技術(shù)的提高,比如我們里面有后期外部php及.net接口處理采集數據?;蛘吒纱嗄阕约鹤鲆粋€(gè)發(fā)布時(shí) 的接口程序自己入庫。我們偽原創(chuàng )做得再好,一樣有非常多的會(huì )員使用,那樣又不原創(chuàng )了,采集一樣需要技術(shù),只有你通過(guò)采集器獲得了沒(méi)有多少人有的數據,你才 是唯一了??赡苁俏易顬榧夹g(shù)型人的一個(gè)通病,謝謝大家! 查看全部
優(yōu)采云談網(wǎng)站的采集與防采集
一、談優(yōu)采云采集器的由來(lái)
優(yōu)采云:我們的這個(gè)采集器最早是從05年底開(kāi)始有這個(gè)想法的,當時(shí)也是和大家一樣,個(gè)人站長(cháng),添加管理維護網(wǎng)站很辛苦,一篇篇修改復制發(fā)布最開(kāi)始也是 接觸dede 然后發(fā)現他有個(gè)外部的c#采集器。不知道有多少人也記得,我的思路基本是從這個(gè)dedespider學(xué)來(lái)的,原來(lái)真的不懂什么,到后來(lái)學(xué)會(huì )php 和.net,所以只要大家有興趣,技術(shù)上的問(wèn)題都可以克服,講到現在的采集,其實(shí)采集只能替代站長(cháng)部分手工的操作。我們不建議大規模得制造垃圾站(全盤(pán)得 采集復制別人的站點(diǎn)),所以我們現在的軟件的功能越做越多,但新用戶(hù)缺越來(lái)越不會(huì )用了。
我們現在有一批很忠實(shí)的會(huì )員,他們一直在靠采集器更新網(wǎng)站。迅速的采集然后百度搜錄帶來(lái)巨大的流量的時(shí)代已經(jīng)不在,站長(cháng)還是要關(guān)注內容,靠采集器采集 的數據一樣要注意,前期只能做為一個(gè)數據填充,可以稍微大的。但時(shí)間長(cháng)了,目標就要把垃圾數據也要變成精品,否則做不長(cháng)久
二、關(guān)于采集網(wǎng)站的經(jīng)驗
優(yōu)采云:我們現在在更新這個(gè)采集器,在數據采集方面也積累了一些經(jīng)驗,增加更多功能以適應新形式下的采集
1.別人經(jīng)常采的網(wǎng)站不要去采
2.太容易采的網(wǎng)站不要去采
3.不要一次性采集太多,一定要注意后期處理(后面詳續)
4.做好關(guān)鍵詞,tag的采集分析
5.自己網(wǎng)站要有自己的定位,不采與自己網(wǎng)站無(wú)關(guān)的內容

6.采集也要有持續性,經(jīng)常更新,自動(dòng)采集功能我們也有,但還是建議大家人工也參與一些審核,或定時(shí),亂序發(fā)布
后期處理,要想法子做到讓搜索引擎那看不出來(lái)兩片文章的相同,這里面應該有很多SEO高手,那我不獻丑了。我說(shuō)下我們現在實(shí)現的功能,大家可以把這些混用,達到改變內容偽原創(chuàng ):
1.給標題。內容分詞
2.使用同義詞近義詞替換,排除敏感詞,不同的標簽之間數據融合,指如標題內容之間數據的相互替換
3.給文章加上摘要
4.為文章標題等生成拼音地址
5.采集一些其他編碼的網(wǎng)站,我們可以做到簡(jiǎn)繁體轉化,可以采集中文網(wǎng)站翻譯成英文(雖然比較垃圾,但應該可以算是原創(chuàng ))
我們也發(fā)現,高難度采集的網(wǎng)站一般內容質(zhì)量都非常好,采集其實(shí)有時(shí)也是一件很有樂(lè )趣的事情,需要你學(xué)習一些采集相關(guān)的知識。
三、關(guān)于防采集的方法
優(yōu)采云:下面講一些主要的防采集方法??梢哉f(shuō)是攻防對戰吧。打開(kāi)一個(gè)網(wǎng)頁(yè)實(shí)際就是一個(gè)Http請求瀏覽器。百度蜘蛛,小到我們的采集器使用的都是一個(gè) 原理,模擬http請求,所以我們同樣能模擬出瀏覽器。百度蜘蛛出來(lái)所以絕對的防采集根本不存在,只是難度的高低?;蛘吣阏J為搜索引擎的搜錄也無(wú)所謂了。 你可以用一些非常強大的activex,flash,全圖片文字的形式,這個(gè)我們無(wú)能為力。
普通的防采集方法有

1、來(lái)源判斷
2、登錄信息判斷 Cookie
3、請求次數判斷。如一段時(shí)間內請求多少,非常規操作則封IP
4、發(fā)送方式判斷 POST GET 使用JS,Ajax等請求內容
舉例:
1.2不用說(shuō)了,論壇,下載站等。。
3、一些大網(wǎng)站,需要配置服務(wù)器,單純靠腳本判斷資源消耗比較大
4、如一些招聘站,的分頁(yè),Web2.0站的ajax請求內容
當然我們后面還發(fā)現一些殺手锏,今天第一次在這里給大家公布出來(lái)~~ 有優(yōu)質(zhì)內容需要防采集的朋友可以考慮試下
1、網(wǎng)頁(yè)默認deflate壓縮輸出(gzip容易一點(diǎn),容易解壓) 我們普通的瀏覽器和baidu支持識別gzip,deflate輸出內容
2、網(wǎng)頁(yè)內容不定時(shí) ? 內容自動(dòng)截斷,這兩點(diǎn)基本可以防主大部分主流軟件采集及web采集程序了~
今天主要想要表達的一點(diǎn),大家在做站時(shí)一定要注意技術(shù)的提高,比如我們里面有后期外部php及.net接口處理采集數據?;蛘吒纱嗄阕约鹤鲆粋€(gè)發(fā)布時(shí) 的接口程序自己入庫。我們偽原創(chuàng )做得再好,一樣有非常多的會(huì )員使用,那樣又不原創(chuàng )了,采集一樣需要技術(shù),只有你通過(guò)采集器獲得了沒(méi)有多少人有的數據,你才 是唯一了??赡苁俏易顬榧夹g(shù)型人的一個(gè)通病,謝謝大家!
網(wǎng)站自動(dòng)采集發(fā)布商品的利弊及應對措施??!!
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 158 次瀏覽 ? 2022-07-14 09:06
網(wǎng)站自動(dòng)采集發(fā)布商品的利弊?:顧客的關(guān)注度會(huì )有所下降,點(diǎn)擊多了,然后瀏覽量多了,頁(yè)面的跳出率就高了,這樣就增加了賬號的被凍結的機率,對用戶(hù)體驗度也會(huì )降低網(wǎng)站的一個(gè)安全性:首先我們會(huì )通過(guò)網(wǎng)站監控網(wǎng)站后臺的一些數據,當這些數據出現異常的時(shí)候,從而進(jìn)行及時(shí)的告警,這些數據監控以及預警的數據是存在各個(gè)接口地方的,而且數據量比較大,這樣就增加了服務(wù)器的負擔和經(jīng)濟成本。
平臺應對措施:整理了目前可以自動(dòng)采集發(fā)布商品的方式有哪些?網(wǎng)站自動(dòng)發(fā)布商品的利弊?從本質(zhì)上來(lái)說(shuō),我們就是給商家打廣告,接受人們的點(diǎn)擊與瀏覽流量。對于已有的商品來(lái)說(shuō),我們需要點(diǎn)擊收藏、評論以及其他豐富的功能如果這些已有商品的網(wǎng)站還允許對外發(fā)布商品,那么可以參考淘寶的做法,商家在上面發(fā)布他們的一些產(chǎn)品或服務(wù),然后用戶(hù)通過(guò)這些鏈接進(jìn)入到實(shí)際商家的網(wǎng)站就可以購買(mǎi)到商品了。
廣告主通過(guò)購買(mǎi)這種商業(yè)宣傳推廣的模式,可以直接解決商家本身的盈利問(wèn)題。對于商家來(lái)說(shuō),是一種很好的營(yíng)銷(xiāo)模式。平臺應對措施:廣告宣傳推廣可以進(jìn)行精準的投放,最終實(shí)現精準的廣告投放,實(shí)現網(wǎng)站自動(dòng)發(fā)布商品的目的。具體來(lái)說(shuō)有兩種方式:。
1、電子商務(wù)的話(huà),可以把網(wǎng)站里的商品做一個(gè)排序,可以做到精準的廣告投放。
2、如果你的網(wǎng)站上還有很多商品沒(méi)有到訪(fǎng),只做類(lèi)似rss一樣的分類(lèi)功能進(jìn)行合理的分類(lèi),這樣整理在一起,可以對廣告的投放一個(gè)更好的收口來(lái)。
自動(dòng)采集發(fā)布商品的利弊?
一、自動(dòng)采集發(fā)布商品的弊端首先,無(wú)論是發(fā)布什么類(lèi)型的商品,都不能保證整理在一起,實(shí)現永久性的商品可見(jiàn)性,而網(wǎng)站自動(dòng)發(fā)布商品,可以實(shí)現精準的商品推廣和自動(dòng)發(fā)布,加大了商家的推廣力度,降低了營(yíng)銷(xiāo)成本,可以有效的降低對于商家的經(jīng)濟負擔。
二、網(wǎng)站自動(dòng)發(fā)布商品的利弊分析
1、自動(dòng)發(fā)布商品不能保證產(chǎn)品的銷(xiāo)量,銷(xiāo)量相對于產(chǎn)品來(lái)說(shuō)是比較難掌握的一件事情,但是商家做得并不全面,有可能是把商品做的比較好,一般很少看到有網(wǎng)站自動(dòng)發(fā)布,這樣可以實(shí)現銷(xiāo)量上的一個(gè)保證。
2、商家在上傳產(chǎn)品的時(shí)候要注意,既要對于產(chǎn)品的定位、質(zhì)量、顏色、尺寸等有一個(gè)相應的要求,也要對于產(chǎn)品賣(mài)出去的目的有一個(gè)相應的要求,在上傳商品的時(shí)候,要有一個(gè)嚴格的要求,確保是原創(chuàng )產(chǎn)品,如果是模仿別人的產(chǎn)品就很容易被人舉報,就很難被識別了。以上就是在梳理的網(wǎng)站自動(dòng)發(fā)布商品的弊端的相關(guān)內容,希望能夠對大家提供到一些幫助。
網(wǎng)站怎么發(fā)布商品,我們可以借助一些社會(huì )化媒體,然后先將各個(gè)渠道的數據傳到自己的網(wǎng)站。當客戶(hù)進(jìn)入到網(wǎng)站以后,可以。 查看全部
網(wǎng)站自動(dòng)采集發(fā)布商品的利弊及應對措施??!!
網(wǎng)站自動(dòng)采集發(fā)布商品的利弊?:顧客的關(guān)注度會(huì )有所下降,點(diǎn)擊多了,然后瀏覽量多了,頁(yè)面的跳出率就高了,這樣就增加了賬號的被凍結的機率,對用戶(hù)體驗度也會(huì )降低網(wǎng)站的一個(gè)安全性:首先我們會(huì )通過(guò)網(wǎng)站監控網(wǎng)站后臺的一些數據,當這些數據出現異常的時(shí)候,從而進(jìn)行及時(shí)的告警,這些數據監控以及預警的數據是存在各個(gè)接口地方的,而且數據量比較大,這樣就增加了服務(wù)器的負擔和經(jīng)濟成本。
平臺應對措施:整理了目前可以自動(dòng)采集發(fā)布商品的方式有哪些?網(wǎng)站自動(dòng)發(fā)布商品的利弊?從本質(zhì)上來(lái)說(shuō),我們就是給商家打廣告,接受人們的點(diǎn)擊與瀏覽流量。對于已有的商品來(lái)說(shuō),我們需要點(diǎn)擊收藏、評論以及其他豐富的功能如果這些已有商品的網(wǎng)站還允許對外發(fā)布商品,那么可以參考淘寶的做法,商家在上面發(fā)布他們的一些產(chǎn)品或服務(wù),然后用戶(hù)通過(guò)這些鏈接進(jìn)入到實(shí)際商家的網(wǎng)站就可以購買(mǎi)到商品了。
廣告主通過(guò)購買(mǎi)這種商業(yè)宣傳推廣的模式,可以直接解決商家本身的盈利問(wèn)題。對于商家來(lái)說(shuō),是一種很好的營(yíng)銷(xiāo)模式。平臺應對措施:廣告宣傳推廣可以進(jìn)行精準的投放,最終實(shí)現精準的廣告投放,實(shí)現網(wǎng)站自動(dòng)發(fā)布商品的目的。具體來(lái)說(shuō)有兩種方式:。

1、電子商務(wù)的話(huà),可以把網(wǎng)站里的商品做一個(gè)排序,可以做到精準的廣告投放。
2、如果你的網(wǎng)站上還有很多商品沒(méi)有到訪(fǎng),只做類(lèi)似rss一樣的分類(lèi)功能進(jìn)行合理的分類(lèi),這樣整理在一起,可以對廣告的投放一個(gè)更好的收口來(lái)。
自動(dòng)采集發(fā)布商品的利弊?
一、自動(dòng)采集發(fā)布商品的弊端首先,無(wú)論是發(fā)布什么類(lèi)型的商品,都不能保證整理在一起,實(shí)現永久性的商品可見(jiàn)性,而網(wǎng)站自動(dòng)發(fā)布商品,可以實(shí)現精準的商品推廣和自動(dòng)發(fā)布,加大了商家的推廣力度,降低了營(yíng)銷(xiāo)成本,可以有效的降低對于商家的經(jīng)濟負擔。

二、網(wǎng)站自動(dòng)發(fā)布商品的利弊分析
1、自動(dòng)發(fā)布商品不能保證產(chǎn)品的銷(xiāo)量,銷(xiāo)量相對于產(chǎn)品來(lái)說(shuō)是比較難掌握的一件事情,但是商家做得并不全面,有可能是把商品做的比較好,一般很少看到有網(wǎng)站自動(dòng)發(fā)布,這樣可以實(shí)現銷(xiāo)量上的一個(gè)保證。
2、商家在上傳產(chǎn)品的時(shí)候要注意,既要對于產(chǎn)品的定位、質(zhì)量、顏色、尺寸等有一個(gè)相應的要求,也要對于產(chǎn)品賣(mài)出去的目的有一個(gè)相應的要求,在上傳商品的時(shí)候,要有一個(gè)嚴格的要求,確保是原創(chuàng )產(chǎn)品,如果是模仿別人的產(chǎn)品就很容易被人舉報,就很難被識別了。以上就是在梳理的網(wǎng)站自動(dòng)發(fā)布商品的弊端的相關(guān)內容,希望能夠對大家提供到一些幫助。
網(wǎng)站怎么發(fā)布商品,我們可以借助一些社會(huì )化媒體,然后先將各個(gè)渠道的數據傳到自己的網(wǎng)站。當客戶(hù)進(jìn)入到網(wǎng)站以后,可以。
優(yōu)采云談網(wǎng)站的采集與防采集
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 120 次瀏覽 ? 2022-06-25 17:44
一、談優(yōu)采云采集器的由來(lái)
優(yōu)采云:我們的這個(gè)采集器最早是從05年底開(kāi)始有這個(gè)想法的,當時(shí)也是和大家一樣,個(gè)人站長(cháng),添加管理維護網(wǎng)站很辛苦,一篇篇修改復制發(fā)布最開(kāi)始也是 接觸dede 然后發(fā)現他有個(gè)外部的c#采集器。不知道有多少人也記得,我的思路基本是從這個(gè)dedespider學(xué)來(lái)的,原來(lái)真的不懂什么,到后來(lái)學(xué)會(huì )php 和.net,所以只要大家有興趣,技術(shù)上的問(wèn)題都可以克服,講到現在的采集,其實(shí)采集只能替代站長(cháng)部分手工的操作。我們不建議大規模得制造垃圾站(全盤(pán)得 采集復制別人的站點(diǎn)),所以我們現在的軟件的功能越做越多,但新用戶(hù)缺越來(lái)越不會(huì )用了。
我們現在有一批很忠實(shí)的會(huì )員,他們一直在靠采集器更新網(wǎng)站。迅速的采集然后百度搜錄帶來(lái)巨大的流量的時(shí)代已經(jīng)不在,站長(cháng)還是要關(guān)注內容,靠采集器采集 的數據一樣要注意,前期只能做為一個(gè)數據填充,可以稍微大的。但時(shí)間長(cháng)了,目標就要把垃圾數據也要變成精品,否則做不長(cháng)久
二、關(guān)于采集網(wǎng)站的經(jīng)驗
優(yōu)采云:我們現在在更新這個(gè)采集器,在數據采集方面也積累了一些經(jīng)驗,增加更多功能以適應新形式下的采集
1.別人經(jīng)常采的網(wǎng)站不要去采
2.太容易采的網(wǎng)站不要去采
3.不要一次性采集太多,一定要注意后期處理(后面詳續)
4.做好關(guān)鍵詞,tag的采集分析
5.自己網(wǎng)站要有自己的定位,不采與自己網(wǎng)站無(wú)關(guān)的內容
6.采集也要有持續性,經(jīng)常更新,自動(dòng)采集功能我們也有,但還是建議大家人工也參與一些審核,或定時(shí),亂序發(fā)布
后期處理,要想法子做到讓搜索引擎那看不出來(lái)兩片文章的相同,這里面應該有很多SEO高手,那我不獻丑了。我說(shuō)下我們現在實(shí)現的功能,大家可以把這些混用,達到改變內容偽原創(chuàng ):
1.給標題。內容分詞
2.使用同義詞近義詞替換,排除敏感詞,不同的標簽之間數據融合,指如標題內容之間數據的相互替換
3.給文章加上摘要
4.為文章標題等生成拼音地址
5.采集一些其他編碼的網(wǎng)站,我們可以做到簡(jiǎn)繁體轉化,可以采集中文網(wǎng)站翻譯成英文(雖然比較垃圾,但應該可以算是原創(chuàng ))
我們也發(fā)現,高難度采集的網(wǎng)站一般內容質(zhì)量都非常好,采集其實(shí)有時(shí)也是一件很有樂(lè )趣的事情,需要你學(xué)習一些采集相關(guān)的知識。
三、關(guān)于防采集的方法
優(yōu)采云:下面講一些主要的防采集方法??梢哉f(shuō)是攻防對戰吧。打開(kāi)一個(gè)網(wǎng)頁(yè)實(shí)際就是一個(gè)Http請求瀏覽器。百度蜘蛛,小到我們的采集器使用的都是一個(gè) 原理,模擬http請求,所以我們同樣能模擬出瀏覽器。百度蜘蛛出來(lái)所以絕對的防采集根本不存在,只是難度的高低?;蛘吣阏J為搜索引擎的搜錄也無(wú)所謂了。 你可以用一些非常強大的activex,flash,全圖片文字的形式,這個(gè)我們無(wú)能為力。
普通的防采集方法有
1、來(lái)源判斷
2、登錄信息判斷 Cookie
3、請求次數判斷。如一段時(shí)間內請求多少,非常規操作則封IP
4、發(fā)送方式判斷 POST GET 使用JS,Ajax等請求內容
舉例:
1.2不用說(shuō)了,論壇,下載站等。。
3、一些大網(wǎng)站,需要配置服務(wù)器,單純靠腳本判斷資源消耗比較大
4、如一些招聘站,的分頁(yè),Web2.0站的ajax請求內容
當然我們后面還發(fā)現一些殺手锏,今天第一次在這里給大家公布出來(lái)~~ 有優(yōu)質(zhì)內容需要防采集的朋友可以考慮試下
1、網(wǎng)頁(yè)默認deflate壓縮輸出(gzip容易一點(diǎn),容易解壓) 我們普通的瀏覽器和baidu支持識別gzip,deflate輸出內容
2、網(wǎng)頁(yè)內容不定時(shí) ? 內容自動(dòng)截斷,這兩點(diǎn)基本可以防主大部分主流軟件采集及web采集程序了~
今天主要想要表達的一點(diǎn),大家在做站時(shí)一定要注意技術(shù)的提高,比如我們里面有后期外部php及.net接口處理采集數據?;蛘吒纱嗄阕约鹤鲆粋€(gè)發(fā)布時(shí) 的接口程序自己入庫。我們偽原創(chuàng )做得再好,一樣有非常多的會(huì )員使用,那樣又不原創(chuàng )了,采集一樣需要技術(shù),只有你通過(guò)采集器獲得了沒(méi)有多少人有的數據,你才 是唯一了??赡苁俏易顬榧夹g(shù)型人的一個(gè)通病,謝謝大家! 查看全部
優(yōu)采云談網(wǎng)站的采集與防采集
一、談優(yōu)采云采集器的由來(lái)
優(yōu)采云:我們的這個(gè)采集器最早是從05年底開(kāi)始有這個(gè)想法的,當時(shí)也是和大家一樣,個(gè)人站長(cháng),添加管理維護網(wǎng)站很辛苦,一篇篇修改復制發(fā)布最開(kāi)始也是 接觸dede 然后發(fā)現他有個(gè)外部的c#采集器。不知道有多少人也記得,我的思路基本是從這個(gè)dedespider學(xué)來(lái)的,原來(lái)真的不懂什么,到后來(lái)學(xué)會(huì )php 和.net,所以只要大家有興趣,技術(shù)上的問(wèn)題都可以克服,講到現在的采集,其實(shí)采集只能替代站長(cháng)部分手工的操作。我們不建議大規模得制造垃圾站(全盤(pán)得 采集復制別人的站點(diǎn)),所以我們現在的軟件的功能越做越多,但新用戶(hù)缺越來(lái)越不會(huì )用了。
我們現在有一批很忠實(shí)的會(huì )員,他們一直在靠采集器更新網(wǎng)站。迅速的采集然后百度搜錄帶來(lái)巨大的流量的時(shí)代已經(jīng)不在,站長(cháng)還是要關(guān)注內容,靠采集器采集 的數據一樣要注意,前期只能做為一個(gè)數據填充,可以稍微大的。但時(shí)間長(cháng)了,目標就要把垃圾數據也要變成精品,否則做不長(cháng)久
二、關(guān)于采集網(wǎng)站的經(jīng)驗
優(yōu)采云:我們現在在更新這個(gè)采集器,在數據采集方面也積累了一些經(jīng)驗,增加更多功能以適應新形式下的采集
1.別人經(jīng)常采的網(wǎng)站不要去采
2.太容易采的網(wǎng)站不要去采
3.不要一次性采集太多,一定要注意后期處理(后面詳續)
4.做好關(guān)鍵詞,tag的采集分析
5.自己網(wǎng)站要有自己的定位,不采與自己網(wǎng)站無(wú)關(guān)的內容
6.采集也要有持續性,經(jīng)常更新,自動(dòng)采集功能我們也有,但還是建議大家人工也參與一些審核,或定時(shí),亂序發(fā)布
后期處理,要想法子做到讓搜索引擎那看不出來(lái)兩片文章的相同,這里面應該有很多SEO高手,那我不獻丑了。我說(shuō)下我們現在實(shí)現的功能,大家可以把這些混用,達到改變內容偽原創(chuàng ):
1.給標題。內容分詞
2.使用同義詞近義詞替換,排除敏感詞,不同的標簽之間數據融合,指如標題內容之間數據的相互替換
3.給文章加上摘要
4.為文章標題等生成拼音地址

5.采集一些其他編碼的網(wǎng)站,我們可以做到簡(jiǎn)繁體轉化,可以采集中文網(wǎng)站翻譯成英文(雖然比較垃圾,但應該可以算是原創(chuàng ))
我們也發(fā)現,高難度采集的網(wǎng)站一般內容質(zhì)量都非常好,采集其實(shí)有時(shí)也是一件很有樂(lè )趣的事情,需要你學(xué)習一些采集相關(guān)的知識。
三、關(guān)于防采集的方法
優(yōu)采云:下面講一些主要的防采集方法??梢哉f(shuō)是攻防對戰吧。打開(kāi)一個(gè)網(wǎng)頁(yè)實(shí)際就是一個(gè)Http請求瀏覽器。百度蜘蛛,小到我們的采集器使用的都是一個(gè) 原理,模擬http請求,所以我們同樣能模擬出瀏覽器。百度蜘蛛出來(lái)所以絕對的防采集根本不存在,只是難度的高低?;蛘吣阏J為搜索引擎的搜錄也無(wú)所謂了。 你可以用一些非常強大的activex,flash,全圖片文字的形式,這個(gè)我們無(wú)能為力。
普通的防采集方法有
1、來(lái)源判斷
2、登錄信息判斷 Cookie
3、請求次數判斷。如一段時(shí)間內請求多少,非常規操作則封IP
4、發(fā)送方式判斷 POST GET 使用JS,Ajax等請求內容
舉例:
1.2不用說(shuō)了,論壇,下載站等。。
3、一些大網(wǎng)站,需要配置服務(wù)器,單純靠腳本判斷資源消耗比較大
4、如一些招聘站,的分頁(yè),Web2.0站的ajax請求內容
當然我們后面還發(fā)現一些殺手锏,今天第一次在這里給大家公布出來(lái)~~ 有優(yōu)質(zhì)內容需要防采集的朋友可以考慮試下
1、網(wǎng)頁(yè)默認deflate壓縮輸出(gzip容易一點(diǎn),容易解壓) 我們普通的瀏覽器和baidu支持識別gzip,deflate輸出內容
2、網(wǎng)頁(yè)內容不定時(shí) ? 內容自動(dòng)截斷,這兩點(diǎn)基本可以防主大部分主流軟件采集及web采集程序了~
今天主要想要表達的一點(diǎn),大家在做站時(shí)一定要注意技術(shù)的提高,比如我們里面有后期外部php及.net接口處理采集數據?;蛘吒纱嗄阕约鹤鲆粋€(gè)發(fā)布時(shí) 的接口程序自己入庫。我們偽原創(chuàng )做得再好,一樣有非常多的會(huì )員使用,那樣又不原創(chuàng )了,采集一樣需要技術(shù),只有你通過(guò)采集器獲得了沒(méi)有多少人有的數據,你才 是唯一了??赡苁俏易顬榧夹g(shù)型人的一個(gè)通病,謝謝大家!
ai智能詞云會(huì )根據語(yǔ)言,自動(dòng)采集發(fā)布一般是重復信息庫
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 155 次瀏覽 ? 2022-06-23 16:01
網(wǎng)站自動(dòng)采集發(fā)布一般是重復信息庫。ai智能詞云會(huì )根據語(yǔ)言,場(chǎng)景,分詞等一系列系統文本分析自動(dòng)合并相似度評分大的關(guān)鍵詞。還可以看到精準匹配的群體喜好行為分析。搜索引擎是人的工具,比如百度根據你的所在地,興趣愛(ài)好,行為習慣等等都能定制出最符合你用戶(hù)情況的搜索詞匯。更科學(xué)的搜索推薦也是一種合作和信息交換。比如搜索你喜歡的景點(diǎn),大眾點(diǎn)評會(huì )給你打出評分并加上tag。
假如你正好今年春節想去成都重慶逛逛,這種信息交換市場(chǎng)一般不大,但是要有。非常大。ai+大數據對于當今已有的客戶(hù),競爭對手分析主要是對企業(yè)產(chǎn)品運營(yíng)業(yè)務(wù)等提升的,對行業(yè)內其他企業(yè)還沒(méi)有特別明顯的效果。為什么還有這個(gè)領(lǐng)域呢?因為用戶(hù)是不變的,但是人(而且是聰明人)的使用習慣,屬性和用戶(hù)態(tài)度卻可以變化的。ai主要做兩件事,一件事是建模,一件事是分析。
建模就是你的信息越來(lái)越精準。分析就是你的客戶(hù)逐漸精準化(形成自己的價(jià)值)。而web/app還沒(méi)有辦法做到客戶(hù)精準化,因為人的使用習慣不可能每時(shí)每刻都很精準。
首先,這種頁(yè)面,如果廣泛的使用需要人工合成?,F在全國各地已經(jīng)有很多人工合成專(zhuān)家,可以拿過(guò)來(lái)參考一下。還有一種是大數據。這個(gè)行業(yè)目前的人工智能還遠遠沒(méi)有落地。最后一種,針對場(chǎng)景,找到需求方的痛點(diǎn),利用大數據,自動(dòng)化響應,從海量數據中挖掘出對應的數據來(lái)解決實(shí)際問(wèn)題。 查看全部
ai智能詞云會(huì )根據語(yǔ)言,自動(dòng)采集發(fā)布一般是重復信息庫
網(wǎng)站自動(dòng)采集發(fā)布一般是重復信息庫。ai智能詞云會(huì )根據語(yǔ)言,場(chǎng)景,分詞等一系列系統文本分析自動(dòng)合并相似度評分大的關(guān)鍵詞。還可以看到精準匹配的群體喜好行為分析。搜索引擎是人的工具,比如百度根據你的所在地,興趣愛(ài)好,行為習慣等等都能定制出最符合你用戶(hù)情況的搜索詞匯。更科學(xué)的搜索推薦也是一種合作和信息交換。比如搜索你喜歡的景點(diǎn),大眾點(diǎn)評會(huì )給你打出評分并加上tag。
假如你正好今年春節想去成都重慶逛逛,這種信息交換市場(chǎng)一般不大,但是要有。非常大。ai+大數據對于當今已有的客戶(hù),競爭對手分析主要是對企業(yè)產(chǎn)品運營(yíng)業(yè)務(wù)等提升的,對行業(yè)內其他企業(yè)還沒(méi)有特別明顯的效果。為什么還有這個(gè)領(lǐng)域呢?因為用戶(hù)是不變的,但是人(而且是聰明人)的使用習慣,屬性和用戶(hù)態(tài)度卻可以變化的。ai主要做兩件事,一件事是建模,一件事是分析。
建模就是你的信息越來(lái)越精準。分析就是你的客戶(hù)逐漸精準化(形成自己的價(jià)值)。而web/app還沒(méi)有辦法做到客戶(hù)精準化,因為人的使用習慣不可能每時(shí)每刻都很精準。
首先,這種頁(yè)面,如果廣泛的使用需要人工合成?,F在全國各地已經(jīng)有很多人工合成專(zhuān)家,可以拿過(guò)來(lái)參考一下。還有一種是大數據。這個(gè)行業(yè)目前的人工智能還遠遠沒(méi)有落地。最后一種,針對場(chǎng)景,找到需求方的痛點(diǎn),利用大數據,自動(dòng)化響應,從海量數據中挖掘出對應的數據來(lái)解決實(shí)際問(wèn)題。
手動(dòng)采集太耗時(shí)?這兩個(gè)Power Query技巧輕松實(shí)現網(wǎng)頁(yè)批量采集!
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 575 次瀏覽 ? 2022-06-19 15:34
最近在群里收到非常多的小伙伴提問(wèn)分享一些關(guān)于Python爬蟲(chóng)相關(guān)的知識,其實(shí)如果是單純的想簡(jiǎn)單采集數據,利用Excel就可以了。
在Excel 2016及之后的版本就內置了一個(gè)非常強大的數據處理神器——Power Query,無(wú)論是數據采集還是基礎的數據處理/分析,實(shí)現起來(lái)都非常簡(jiǎn)單。
最重要的是相比Python需要強大的數學(xué)邏輯+編程功底,Power Query幾乎無(wú)需寫(xiě)代碼就能實(shí)現數據采集!
今天小北就來(lái)給大家分享 2 種不同結構的PQ采集大法,拒絕低效率數據采集!
- 01 -
帶有table的網(wǎng)頁(yè)表格
首先是第一種采集的辦法,它們的最主要區別是看網(wǎng)頁(yè)的結構。如果在網(wǎng)頁(yè)中,使用的是「table標簽」,那么就可以直接講網(wǎng)頁(yè)導入到Excel中自動(dòng)提取出表格。
如何查看網(wǎng)頁(yè)使用的是否是table標簽呢?很簡(jiǎn)單,選中任意一個(gè)數據,右擊,選擇「檢查」即可。
這里我們以「豆瓣電影」為例子,即將上映的電影列表就是一個(gè)以table標簽布局的網(wǎng)頁(yè)。
采集的網(wǎng)址:
首先選擇「數據」選項卡下的「新建查詢(xún)」-「自Web」,在彈出的對話(huà)框中,粘貼需要采集的網(wǎng)址,點(diǎn)擊「確定」,如下:
這個(gè)時(shí)候Excel會(huì )打開(kāi)一個(gè)「導航器」,在左邊的選擇table0,右側就可以看到PQ自動(dòng)將表格數據識別出來(lái)了。
接下來(lái)點(diǎn)擊「加載」,就可以將網(wǎng)頁(yè)數據自動(dòng)加載到Excel中了,并且還是一個(gè)智能表格。
使用PQ加載的表格數據,如果網(wǎng)頁(yè)的數據更新了,也不需重復再次加載數據,直接右鍵「刷新」既可以快速同步數據了。
這是PQ的第一種采集數據的辦法,是不是非常簡(jiǎn)單呢,一行代碼都不用寫(xiě),輕松將數據導入到Excel中。
但是使用的限制也非常多,網(wǎng)頁(yè)中必須使用table標簽(table、td、tr等等)才可以使用。
- 02 -
非table結構的網(wǎng)頁(yè)
然而使用table來(lái)展示數據已經(jīng)組件被淘汰,在80%甚至更多的網(wǎng)頁(yè)中,都會(huì )使用div、ul、span等標簽來(lái)更加靈活的呈現數據。
這個(gè)時(shí)候使用第一種辦法就失效了,例如小北經(jīng)常逛知乎,如果想利用 Excel 將知乎的信息采集下來(lái),第 1 種辦法就失效了。
因為在這個(gè)網(wǎng)頁(yè)中,并沒(méi)有用到「table標簽」,導進(jìn)去的時(shí)候也看不到table0這個(gè)選項:
這個(gè)時(shí)候可以怎么做呢?其實(shí)現代的絕大部分網(wǎng)頁(yè)都是利用API接口來(lái)獲取渲染數據的,這句話(huà)怎么理解呢?
網(wǎng)頁(yè)會(huì )先加載出來(lái),然后再向后臺發(fā)起一個(gè)請求,單純獲取數據,而這些常用的數據格式為JSON。
那么怎么看到這些數據呢?很簡(jiǎn)單,仍然打開(kāi)「檢查」,在「network」下找到「xhr」,這里都是請求的數據。
例如在知乎搜索:芒種學(xué)院,這里就可以找到對應的請求數據。
在頁(yè)面滾動(dòng)的時(shí)候,可以發(fā)現,列表里多了一個(gè)「search_v3?」,點(diǎn)開(kāi)來(lái)查看發(fā)現是我們想要的數據:
接著(zhù)我們右擊鏈接,選擇「copy link address」將鏈接復制出來(lái)。
將這個(gè)鏈接按照方法 1 再次將這個(gè)網(wǎng)址導入到Excel中,如下:
這里獲取的數據就是json的結構數據,可以看到有paging、data等等。
因為數據是在data中,所以我們右擊「data」,選擇「深化」,然后點(diǎn)擊「到表中」。這里就是我們想要的數據列表。
然后一次將「數據」詳細展開(kāi),如下,就得到我們的明細數據:
是不是非常簡(jiǎn)單呢?可以看到,接口里的數據全部被采集出來(lái)了,但是我們一句代碼也沒(méi)有寫(xiě)。
當然在這里面的話(huà)還有非常多的一些標簽等等是我們不需要的,這里如果要處理干凈就需要我們去寫(xiě)PQ的自定義函數了。
最后,如果針對一些更加復雜的場(chǎng)景,就不推薦使用Power Query去采集了,盡量可以使用Python或者是可視化的專(zhuān)業(yè)爬蟲(chóng)工具來(lái)實(shí)現~
如果對你有幫助,記得點(diǎn)個(gè)「好看」哦,如果你有想學(xué)的Excel技巧,不妨在下方留言哦~
還想了解數據處理和信息圖表的更多思路與技巧?「Excel實(shí)戰課,讓你的圖表會(huì )說(shuō)話(huà)」超值 Excel 課程了解一下——
芒種零基礎 Excel 商務(wù)圖表訓練營(yíng),教你如何快速拆分數據、如何制作美觀(guān)大方的動(dòng)態(tài)圖表報告,搞定你的老板,為升職加薪提速!
新課發(fā)布,更新完畢,作業(yè)打卡,5小時(shí)成為圖表高手!
今天咨詢(xún)報名,僅需69 元,5小時(shí)共計58節課教你零基礎學(xué)會(huì )制作高大上的Excel商務(wù)圖表!
↑一課解決你的圖表問(wèn)題
掌握真正的可視化表達思維,并且做出合適的圖表,你就能脫穎而出,讓身邊的人眼前一亮。
學(xué)完課程,你也能在10分鐘內做出這種動(dòng)態(tài)儀表盤(pán)(課程案例):
————— 常見(jiàn)問(wèn)題 —————
Q:課程有時(shí)間、次數限制嗎?
A:課程不限時(shí)間和次數,隨時(shí)可學(xué),長(cháng)期有效。
Q:手機上可以學(xué)習嗎?
A:可以,手機上安裝網(wǎng)易云課堂 APP,登錄賬號即可學(xué)習。
Q:課程學(xué)不會(huì )有老師答疑嗎?
A:當然有,作業(yè)點(diǎn)評,課程長(cháng)期答疑,不怕學(xué)不下去。
Q: 除了課程還有其他學(xué)習資料么?
A:課程學(xué)習完后,還會(huì )贈送你一份Excel圖表大全,碰上不懂的數據結構,可以直接查詢(xún)使用什么圖表,另外還有16種配色方案模板,讓你一鍵配色。
Q:如何添加助理老師的微信?
A:可以直接掃描下方的二維碼,或者直接搜索:mongjoy001,即可添加助理老師進(jìn)行打卡和答疑。
掃碼添加助理老師/課程咨詢(xún)&答疑
新課上線(xiàn)購課,還送配色卡、送圖表大全…… 查看全部
手動(dòng)采集太耗時(shí)?這兩個(gè)Power Query技巧輕松實(shí)現網(wǎng)頁(yè)批量采集!
最近在群里收到非常多的小伙伴提問(wèn)分享一些關(guān)于Python爬蟲(chóng)相關(guān)的知識,其實(shí)如果是單純的想簡(jiǎn)單采集數據,利用Excel就可以了。
在Excel 2016及之后的版本就內置了一個(gè)非常強大的數據處理神器——Power Query,無(wú)論是數據采集還是基礎的數據處理/分析,實(shí)現起來(lái)都非常簡(jiǎn)單。
最重要的是相比Python需要強大的數學(xué)邏輯+編程功底,Power Query幾乎無(wú)需寫(xiě)代碼就能實(shí)現數據采集!
今天小北就來(lái)給大家分享 2 種不同結構的PQ采集大法,拒絕低效率數據采集!
- 01 -
帶有table的網(wǎng)頁(yè)表格
首先是第一種采集的辦法,它們的最主要區別是看網(wǎng)頁(yè)的結構。如果在網(wǎng)頁(yè)中,使用的是「table標簽」,那么就可以直接講網(wǎng)頁(yè)導入到Excel中自動(dòng)提取出表格。
如何查看網(wǎng)頁(yè)使用的是否是table標簽呢?很簡(jiǎn)單,選中任意一個(gè)數據,右擊,選擇「檢查」即可。
這里我們以「豆瓣電影」為例子,即將上映的電影列表就是一個(gè)以table標簽布局的網(wǎng)頁(yè)。
采集的網(wǎng)址:
首先選擇「數據」選項卡下的「新建查詢(xún)」-「自Web」,在彈出的對話(huà)框中,粘貼需要采集的網(wǎng)址,點(diǎn)擊「確定」,如下:
這個(gè)時(shí)候Excel會(huì )打開(kāi)一個(gè)「導航器」,在左邊的選擇table0,右側就可以看到PQ自動(dòng)將表格數據識別出來(lái)了。
接下來(lái)點(diǎn)擊「加載」,就可以將網(wǎng)頁(yè)數據自動(dòng)加載到Excel中了,并且還是一個(gè)智能表格。
使用PQ加載的表格數據,如果網(wǎng)頁(yè)的數據更新了,也不需重復再次加載數據,直接右鍵「刷新」既可以快速同步數據了。
這是PQ的第一種采集數據的辦法,是不是非常簡(jiǎn)單呢,一行代碼都不用寫(xiě),輕松將數據導入到Excel中。
但是使用的限制也非常多,網(wǎng)頁(yè)中必須使用table標簽(table、td、tr等等)才可以使用。
- 02 -
非table結構的網(wǎng)頁(yè)
然而使用table來(lái)展示數據已經(jīng)組件被淘汰,在80%甚至更多的網(wǎng)頁(yè)中,都會(huì )使用div、ul、span等標簽來(lái)更加靈活的呈現數據。
這個(gè)時(shí)候使用第一種辦法就失效了,例如小北經(jīng)常逛知乎,如果想利用 Excel 將知乎的信息采集下來(lái),第 1 種辦法就失效了。
因為在這個(gè)網(wǎng)頁(yè)中,并沒(méi)有用到「table標簽」,導進(jìn)去的時(shí)候也看不到table0這個(gè)選項:
這個(gè)時(shí)候可以怎么做呢?其實(shí)現代的絕大部分網(wǎng)頁(yè)都是利用API接口來(lái)獲取渲染數據的,這句話(huà)怎么理解呢?
網(wǎng)頁(yè)會(huì )先加載出來(lái),然后再向后臺發(fā)起一個(gè)請求,單純獲取數據,而這些常用的數據格式為JSON。
那么怎么看到這些數據呢?很簡(jiǎn)單,仍然打開(kāi)「檢查」,在「network」下找到「xhr」,這里都是請求的數據。
例如在知乎搜索:芒種學(xué)院,這里就可以找到對應的請求數據。
在頁(yè)面滾動(dòng)的時(shí)候,可以發(fā)現,列表里多了一個(gè)「search_v3?」,點(diǎn)開(kāi)來(lái)查看發(fā)現是我們想要的數據:
接著(zhù)我們右擊鏈接,選擇「copy link address」將鏈接復制出來(lái)。
將這個(gè)鏈接按照方法 1 再次將這個(gè)網(wǎng)址導入到Excel中,如下:
這里獲取的數據就是json的結構數據,可以看到有paging、data等等。
因為數據是在data中,所以我們右擊「data」,選擇「深化」,然后點(diǎn)擊「到表中」。這里就是我們想要的數據列表。
然后一次將「數據」詳細展開(kāi),如下,就得到我們的明細數據:
是不是非常簡(jiǎn)單呢?可以看到,接口里的數據全部被采集出來(lái)了,但是我們一句代碼也沒(méi)有寫(xiě)。
當然在這里面的話(huà)還有非常多的一些標簽等等是我們不需要的,這里如果要處理干凈就需要我們去寫(xiě)PQ的自定義函數了。
最后,如果針對一些更加復雜的場(chǎng)景,就不推薦使用Power Query去采集了,盡量可以使用Python或者是可視化的專(zhuān)業(yè)爬蟲(chóng)工具來(lái)實(shí)現~
如果對你有幫助,記得點(diǎn)個(gè)「好看」哦,如果你有想學(xué)的Excel技巧,不妨在下方留言哦~
還想了解數據處理和信息圖表的更多思路與技巧?「Excel實(shí)戰課,讓你的圖表會(huì )說(shuō)話(huà)」超值 Excel 課程了解一下——
芒種零基礎 Excel 商務(wù)圖表訓練營(yíng),教你如何快速拆分數據、如何制作美觀(guān)大方的動(dòng)態(tài)圖表報告,搞定你的老板,為升職加薪提速!
新課發(fā)布,更新完畢,作業(yè)打卡,5小時(shí)成為圖表高手!
今天咨詢(xún)報名,僅需69 元,5小時(shí)共計58節課教你零基礎學(xué)會(huì )制作高大上的Excel商務(wù)圖表!
↑一課解決你的圖表問(wèn)題
掌握真正的可視化表達思維,并且做出合適的圖表,你就能脫穎而出,讓身邊的人眼前一亮。
學(xué)完課程,你也能在10分鐘內做出這種動(dòng)態(tài)儀表盤(pán)(課程案例):
————— 常見(jiàn)問(wèn)題 —————
Q:課程有時(shí)間、次數限制嗎?
A:課程不限時(shí)間和次數,隨時(shí)可學(xué),長(cháng)期有效。
Q:手機上可以學(xué)習嗎?
A:可以,手機上安裝網(wǎng)易云課堂 APP,登錄賬號即可學(xué)習。
Q:課程學(xué)不會(huì )有老師答疑嗎?
A:當然有,作業(yè)點(diǎn)評,課程長(cháng)期答疑,不怕學(xué)不下去。
Q: 除了課程還有其他學(xué)習資料么?
A:課程學(xué)習完后,還會(huì )贈送你一份Excel圖表大全,碰上不懂的數據結構,可以直接查詢(xún)使用什么圖表,另外還有16種配色方案模板,讓你一鍵配色。
Q:如何添加助理老師的微信?
A:可以直接掃描下方的二維碼,或者直接搜索:mongjoy001,即可添加助理老師進(jìn)行打卡和答疑。
掃碼添加助理老師/課程咨詢(xún)&答疑
新課上線(xiàn)購課,還送配色卡、送圖表大全……
優(yōu)采云談網(wǎng)站的采集與防采集
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 136 次瀏覽 ? 2022-06-10 10:52
一、談優(yōu)采云采集器的由來(lái)
優(yōu)采云:我們的這個(gè)采集器最早是從05年底開(kāi)始有這個(gè)想法的,當時(shí)也是和大家一樣,個(gè)人站長(cháng),添加管理維護網(wǎng)站很辛苦,一篇篇修改復制發(fā)布最開(kāi)始也是 接觸dede 然后發(fā)現他有個(gè)外部的c#采集器。不知道有多少人也記得,我的思路基本是從這個(gè)dedespider學(xué)來(lái)的,原來(lái)真的不懂什么,到后來(lái)學(xué)會(huì )php 和.net,所以只要大家有興趣,技術(shù)上的問(wèn)題都可以克服,講到現在的采集,其實(shí)采集只能替代站長(cháng)部分手工的操作。我們不建議大規模得制造垃圾站(全盤(pán)得 采集復制別人的站點(diǎn)),所以我們現在的軟件的功能越做越多,但新用戶(hù)缺越來(lái)越不會(huì )用了。
我們現在有一批很忠實(shí)的會(huì )員,他們一直在靠采集器更新網(wǎng)站。迅速的采集然后百度搜錄帶來(lái)巨大的流量的時(shí)代已經(jīng)不在,站長(cháng)還是要關(guān)注內容,靠采集器采集 的數據一樣要注意,前期只能做為一個(gè)數據填充,可以稍微大的。但時(shí)間長(cháng)了,目標就要把垃圾數據也要變成精品,否則做不長(cháng)久
二、關(guān)于采集網(wǎng)站的經(jīng)驗
優(yōu)采云:我們現在在更新這個(gè)采集器,在數據采集方面也積累了一些經(jīng)驗,增加更多功能以適應新形式下的采集
1.別人經(jīng)常采的網(wǎng)站不要去采
2.太容易采的網(wǎng)站不要去采
3.不要一次性采集太多,一定要注意后期處理(后面詳續)
4.做好關(guān)鍵詞,tag的采集分析
5.自己網(wǎng)站要有自己的定位,不采與自己網(wǎng)站無(wú)關(guān)的內容
6.采集也要有持續性,經(jīng)常更新,自動(dòng)采集功能我們也有,但還是建議大家人工也參與一些審核,或定時(shí),亂序發(fā)布
后期處理,要想法子做到讓搜索引擎那看不出來(lái)兩片文章的相同,這里面應該有很多SEO高手,那我不獻丑了。我說(shuō)下我們現在實(shí)現的功能,大家可以把這些混用,達到改變內容偽原創(chuàng ):
1.給標題。內容分詞
2.使用同義詞近義詞替換,排除敏感詞,不同的標簽之間數據融合,指如標題內容之間數據的相互替換
3.給文章加上摘要
4.為文章標題等生成拼音地址
5.采集一些其他編碼的網(wǎng)站,我們可以做到簡(jiǎn)繁體轉化,可以采集中文網(wǎng)站翻譯成英文(雖然比較垃圾,但應該可以算是原創(chuàng ))
我們也發(fā)現,高難度采集的網(wǎng)站一般內容質(zhì)量都非常好,采集其實(shí)有時(shí)也是一件很有樂(lè )趣的事情,需要你學(xué)習一些采集相關(guān)的知識。
三、關(guān)于防采集的方法
優(yōu)采云:下面講一些主要的防采集方法??梢哉f(shuō)是攻防對戰吧。打開(kāi)一個(gè)網(wǎng)頁(yè)實(shí)際就是一個(gè)Http請求瀏覽器。百度蜘蛛,小到我們的采集器使用的都是一個(gè) 原理,模擬http請求,所以我們同樣能模擬出瀏覽器。百度蜘蛛出來(lái)所以絕對的防采集根本不存在,只是難度的高低?;蛘吣阏J為搜索引擎的搜錄也無(wú)所謂了。 你可以用一些非常強大的activex,flash,全圖片文字的形式,這個(gè)我們無(wú)能為力。
普通的防采集方法有
1、來(lái)源判斷
2、登錄信息判斷 Cookie
3、請求次數判斷。如一段時(shí)間內請求多少,非常規操作則封IP
4、發(fā)送方式判斷 POST GET 使用JS,Ajax等請求內容
舉例:
1.2不用說(shuō)了,論壇,下載站等。。
3、一些大網(wǎng)站,需要配置服務(wù)器,單純靠腳本判斷資源消耗比較大
4、如一些招聘站,的分頁(yè),Web2.0站的ajax請求內容
當然我們后面還發(fā)現一些殺手锏,今天第一次在這里給大家公布出來(lái)~~ 有優(yōu)質(zhì)內容需要防采集的朋友可以考慮試下
1、網(wǎng)頁(yè)默認deflate壓縮輸出(gzip容易一點(diǎn),容易解壓) 我們普通的瀏覽器和baidu支持識別gzip,deflate輸出內容
2、網(wǎng)頁(yè)內容不定時(shí) ? 內容自動(dòng)截斷,這兩點(diǎn)基本可以防主大部分主流軟件采集及web采集程序了~
今天主要想要表達的一點(diǎn),大家在做站時(shí)一定要注意技術(shù)的提高,比如我們里面有后期外部php及.net接口處理采集數據?;蛘吒纱嗄阕约鹤鲆粋€(gè)發(fā)布時(shí) 的接口程序自己入庫。我們偽原創(chuàng )做得再好,一樣有非常多的會(huì )員使用,那樣又不原創(chuàng )了,采集一樣需要技術(shù),只有你通過(guò)采集器獲得了沒(méi)有多少人有的數據,你才 是唯一了??赡苁俏易顬榧夹g(shù)型人的一個(gè)通病,謝謝大家! 查看全部
優(yōu)采云談網(wǎng)站的采集與防采集
一、談優(yōu)采云采集器的由來(lái)
優(yōu)采云:我們的這個(gè)采集器最早是從05年底開(kāi)始有這個(gè)想法的,當時(shí)也是和大家一樣,個(gè)人站長(cháng),添加管理維護網(wǎng)站很辛苦,一篇篇修改復制發(fā)布最開(kāi)始也是 接觸dede 然后發(fā)現他有個(gè)外部的c#采集器。不知道有多少人也記得,我的思路基本是從這個(gè)dedespider學(xué)來(lái)的,原來(lái)真的不懂什么,到后來(lái)學(xué)會(huì )php 和.net,所以只要大家有興趣,技術(shù)上的問(wèn)題都可以克服,講到現在的采集,其實(shí)采集只能替代站長(cháng)部分手工的操作。我們不建議大規模得制造垃圾站(全盤(pán)得 采集復制別人的站點(diǎn)),所以我們現在的軟件的功能越做越多,但新用戶(hù)缺越來(lái)越不會(huì )用了。
我們現在有一批很忠實(shí)的會(huì )員,他們一直在靠采集器更新網(wǎng)站。迅速的采集然后百度搜錄帶來(lái)巨大的流量的時(shí)代已經(jīng)不在,站長(cháng)還是要關(guān)注內容,靠采集器采集 的數據一樣要注意,前期只能做為一個(gè)數據填充,可以稍微大的。但時(shí)間長(cháng)了,目標就要把垃圾數據也要變成精品,否則做不長(cháng)久
二、關(guān)于采集網(wǎng)站的經(jīng)驗
優(yōu)采云:我們現在在更新這個(gè)采集器,在數據采集方面也積累了一些經(jīng)驗,增加更多功能以適應新形式下的采集
1.別人經(jīng)常采的網(wǎng)站不要去采
2.太容易采的網(wǎng)站不要去采
3.不要一次性采集太多,一定要注意后期處理(后面詳續)
4.做好關(guān)鍵詞,tag的采集分析
5.自己網(wǎng)站要有自己的定位,不采與自己網(wǎng)站無(wú)關(guān)的內容
6.采集也要有持續性,經(jīng)常更新,自動(dòng)采集功能我們也有,但還是建議大家人工也參與一些審核,或定時(shí),亂序發(fā)布
后期處理,要想法子做到讓搜索引擎那看不出來(lái)兩片文章的相同,這里面應該有很多SEO高手,那我不獻丑了。我說(shuō)下我們現在實(shí)現的功能,大家可以把這些混用,達到改變內容偽原創(chuàng ):
1.給標題。內容分詞
2.使用同義詞近義詞替換,排除敏感詞,不同的標簽之間數據融合,指如標題內容之間數據的相互替換
3.給文章加上摘要
4.為文章標題等生成拼音地址
5.采集一些其他編碼的網(wǎng)站,我們可以做到簡(jiǎn)繁體轉化,可以采集中文網(wǎng)站翻譯成英文(雖然比較垃圾,但應該可以算是原創(chuàng ))
我們也發(fā)現,高難度采集的網(wǎng)站一般內容質(zhì)量都非常好,采集其實(shí)有時(shí)也是一件很有樂(lè )趣的事情,需要你學(xué)習一些采集相關(guān)的知識。
三、關(guān)于防采集的方法
優(yōu)采云:下面講一些主要的防采集方法??梢哉f(shuō)是攻防對戰吧。打開(kāi)一個(gè)網(wǎng)頁(yè)實(shí)際就是一個(gè)Http請求瀏覽器。百度蜘蛛,小到我們的采集器使用的都是一個(gè) 原理,模擬http請求,所以我們同樣能模擬出瀏覽器。百度蜘蛛出來(lái)所以絕對的防采集根本不存在,只是難度的高低?;蛘吣阏J為搜索引擎的搜錄也無(wú)所謂了。 你可以用一些非常強大的activex,flash,全圖片文字的形式,這個(gè)我們無(wú)能為力。
普通的防采集方法有
1、來(lái)源判斷
2、登錄信息判斷 Cookie
3、請求次數判斷。如一段時(shí)間內請求多少,非常規操作則封IP
4、發(fā)送方式判斷 POST GET 使用JS,Ajax等請求內容
舉例:
1.2不用說(shuō)了,論壇,下載站等。。
3、一些大網(wǎng)站,需要配置服務(wù)器,單純靠腳本判斷資源消耗比較大
4、如一些招聘站,的分頁(yè),Web2.0站的ajax請求內容
當然我們后面還發(fā)現一些殺手锏,今天第一次在這里給大家公布出來(lái)~~ 有優(yōu)質(zhì)內容需要防采集的朋友可以考慮試下
1、網(wǎng)頁(yè)默認deflate壓縮輸出(gzip容易一點(diǎn),容易解壓) 我們普通的瀏覽器和baidu支持識別gzip,deflate輸出內容
2、網(wǎng)頁(yè)內容不定時(shí) ? 內容自動(dòng)截斷,這兩點(diǎn)基本可以防主大部分主流軟件采集及web采集程序了~
今天主要想要表達的一點(diǎn),大家在做站時(shí)一定要注意技術(shù)的提高,比如我們里面有后期外部php及.net接口處理采集數據?;蛘吒纱嗄阕约鹤鲆粋€(gè)發(fā)布時(shí) 的接口程序自己入庫。我們偽原創(chuàng )做得再好,一樣有非常多的會(huì )員使用,那樣又不原創(chuàng )了,采集一樣需要技術(shù),只有你通過(guò)采集器獲得了沒(méi)有多少人有的數據,你才 是唯一了??赡苁俏易顬榧夹g(shù)型人的一個(gè)通病,謝謝大家!
專(zhuān)業(yè)知識:3人團隊,如何管理10萬(wàn)采集網(wǎng)站?(最全、最細解讀)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 154 次瀏覽 ? 2022-09-27 12:06
人類(lèi)的發(fā)展經(jīng)歷了猿到人的發(fā)展。工業(yè)發(fā)展經(jīng)歷了石器時(shí)代、工業(yè)時(shí)代和智能工業(yè)的發(fā)展。
采集 也經(jīng)歷了從單點(diǎn)到多點(diǎn),再到分布式的發(fā)展。采集來(lái)源也從 10、100、1,000 增長(cháng)到 1W、50,000 和 100,000。這么多網(wǎng)站,怎么保證一直有效(網(wǎng)站可以正常打開(kāi))?
時(shí)代在進(jìn)步,公司在不斷發(fā)展壯大,網(wǎng)站的內容不斷豐富。每年和每個(gè)月,都會(huì )有新的柱子上架,舊的柱子會(huì )下架。我們如何確保我們的 采集 列始終有效?
今天跟大家分享一下我這幾年做采集的心得。
第一:搭建信息源系統
由于我們是做輿情監測服務(wù)的,所以我們的采集覆蓋面比較廣,包括我們經(jīng)營(yíng)所在行業(yè)的所有網(wǎng)站(盡可能的),以及各大媒體發(fā)布的一、二級各大媒體。國家、各類(lèi)黨媒、紙媒、APP等,以及微博、微信、論壇等社交媒體網(wǎng)站。
網(wǎng)站,欄目管理
現在我們采集覆蓋網(wǎng)站大約6W個(gè)家庭,而且每天還在增加。我們應該如何管理這么大量的網(wǎng)站?這就是源系統的價(jià)值!
我們管理源系統中需要采集的網(wǎng)站以及這些網(wǎng)站下需要采集的通道或列。同時(shí),部分網(wǎng)站媒體分類(lèi)、行業(yè)分類(lèi)、網(wǎng)站類(lèi)型等均在系統中進(jìn)行管理。
同時(shí)為了提高網(wǎng)站、欄目等的配置效率,我們支持直接將欄目的HTML源碼復制到系統中,然后自動(dòng)分析欄目名稱(chēng)、欄目網(wǎng)址、列下數據和其他數據的正則表達式。通過(guò)這樣的優(yōu)化,過(guò)去每人每天的網(wǎng)站數量已經(jīng)增加到100多個(gè)。
關(guān)鍵詞搜索
數據采集,除了直接采集發(fā)布信息網(wǎng)站,另一種快速獲取數據的方式是通過(guò)關(guān)鍵詞采集在各大搜索引擎中搜索,如:百度、搜狗、360等搜索引擎。
在源系統中,除了管理上述兩類(lèi)采集源外,還可以管理服務(wù)器,部署采集器等。因為在大批量的采集中,有上百個(gè)的服務(wù)器,每臺服務(wù)器上部署三五個(gè)甚至十個(gè)或二十個(gè)爬蟲(chóng)。這些爬蟲(chóng)的上傳、部署、啟動(dòng)、關(guān)閉也是耗時(shí)耗力的。能源的事。通過(guò)對系統的統一管理,可以大大減少部署、運維時(shí)間,降低很多成本。
二:搭建網(wǎng)站監控系統
這部分主要包括兩部分:一是網(wǎng)站或者列狀態(tài)的監控(可以正常訪(fǎng)問(wèn));二是定期信息的監測;
網(wǎng)站,列狀態(tài)監控
1:自動(dòng)化
通常,所有 網(wǎng)站 都會(huì )以自動(dòng)方式每?jì)芍芑蛞粋€(gè)月檢查一次。
然后,如果返回狀態(tài)碼不是 200,則再次進(jìn)行第二次和第三次檢查。主要目的是防止網(wǎng)絡(luò )問(wèn)題或網(wǎng)站響應問(wèn)題導致的監控失敗,增加人工二次處理。時(shí)間;
根據驗證碼,刪除404、403等類(lèi)型,502、等域名未注冊的類(lèi)型過(guò)一段時(shí)間再驗證。但記得要同步關(guān)閉這些網(wǎng)站的采集,否則會(huì )大大降低采集的效率。
2:傳遞結果數據
如果你有10W的網(wǎng)站,每次進(jìn)行自動(dòng)驗證也是很費時(shí)間的。為了提高效率,我們可以結合采集的結果進(jìn)行處理。從采集的結果數據,我們先分析一下上周哪些列沒(méi)有收到采集數據,然后自動(dòng)校驗這些網(wǎng)站,效率會(huì )大大提高。
3:爬蟲(chóng)監控
當然,我們也可以在解析HTML源碼的時(shí)候標記爬蟲(chóng)數據。如果網(wǎng)站沒(méi)有響應,直接保存任務(wù)的ID,然后在源系統中標記,運維人員可以實(shí)時(shí)看到網(wǎng)站@的狀態(tài)>,及時(shí)處理,提高數據效率采集。
同時(shí),如果網(wǎng)站正常返回數據,但沒(méi)有解析出任何信息,則該任務(wù)可能是常規異常,也可能是網(wǎng)站異常。需要進(jìn)行第二次測試。
正則表達式的驗證
如前所述,在采集的時(shí)候,我們可以通過(guò)當前列或者網(wǎng)站記錄數據是否按照已有的正則表達式解析,如果不是,則標記源系統中的對應數據列上。
同時(shí)需要建立一個(gè)自動(dòng)識別列正則表達式的服務(wù),每隔一段時(shí)間(比如30分鐘)讀取一次識別的記錄,自動(dòng)識別其正則表達式,并同步到采集 隊列。
為了保證正確獲取正則表達式,自動(dòng)識別后同步到采集隊列,如果信息仍然不匹配。此時(shí)系統需要提示運維人員進(jìn)行人工分析。
三:數據補充記錄
在輿情監測中,無(wú)論你對采集的覆蓋范圍有多大,角落里總會(huì )有數據。如果你沒(méi)有 采集,你可以看到。這時(shí)候,為了提升客戶(hù)體驗,我們需要密切關(guān)注人工對系統的補充錄音,然后呢?
那么首先要分析一下我們的網(wǎng)站是否配置,列是否配置正確,正則表達式是否正確。通過(guò)檢查這些步驟,我們就能找到錯過(guò)挖礦的原因。根據原因優(yōu)化源或改進(jìn)采集器。
數據補充記錄可以及時(shí)減少客戶(hù)的不滿(mǎn),同時(shí)可以改善信息來(lái)源和采集,使采集實(shí)現閉環(huán)。
第四:自動(dòng)化
第一:智能識別采集的頻率
目前我們的網(wǎng)站和列采集的頻率還是固定頻率,所以一些更新信息比較少的網(wǎng)站,或者無(wú)效的列采集,會(huì )大大減少采集@的效率>。這導致網(wǎng)站或列采集信息更新頻繁,數據的價(jià)值降低。
我們現在根據每個(gè)網(wǎng)站或采集列的數據分布情況,對采集的頻率進(jìn)行更合適的統計分析,盡量減少服務(wù)器資源的浪費,提高采集 效率和最大化數據價(jià)值。
二:智能識別網(wǎng)站欄目
我們現在的采集的網(wǎng)站有6W左右,列有70W左右。這6W的網(wǎng)站中,每天都有很多網(wǎng)站的升級和改版,大量新柱上架,舊柱下架。一個(gè) 3 人的運維團隊不可能完成這些工作量。
因此,我們根據 6W 網(wǎng)站 中配置的列進(jìn)行訓練,然后每周分析一次 網(wǎng)站 以自動(dòng)識別列。然后,過(guò)濾掉與我的業(yè)務(wù)無(wú)關(guān)的列,最后進(jìn)行人工抽檢,最后發(fā)布到采集隊列中供采集使用。就這樣,我們的運維團隊從9人減少到了現在的3人。并且還可以保證采集的穩定性和效率。
在大數據盛行的今天,一切分析的基礎都是數據。
隨著(zhù)人工智能時(shí)代的到來(lái),人類(lèi)能做的一切,或多或少都可以被機器取代。
那么,30、50 年后,機器人能打敗人類(lèi)嗎?哈哈.....
個(gè)人感悟:軟文發(fā)布平臺的軟文怎樣寫(xiě)才能深入人心
單擊以添加圖像描述(最多 60 個(gè)字符)以進(jìn)行編輯
現在很多公司網(wǎng)站都離不開(kāi)軟文發(fā)布頻道,那么軟文發(fā)布頻道的軟文應該怎么寫(xiě)呢?
首先,軟文發(fā)布頻道的軟文就是要設置好標題。一個(gè)好的標題對于 軟文 發(fā)布頻道非常重要。從軟文發(fā)布頻道開(kāi)始軟文標題一定要務(wù)實(shí),不能虛偽。標題必須內容豐富且與內容一致。抓住軟文發(fā)布頻道軟文的核心內容,可以吸引群眾,抓住群眾的眼球。
其次,設置軟文發(fā)布頻道的軟文的標題,并寫(xiě)入內容。軟文發(fā)布頻道的軟文的內容也很重要,一定要可讀。閱讀門(mén)檻低,還要有趣,內容豐富等,還要注意軟文發(fā)布頻道軟文的內容規劃適合男女老少各年齡段,因為溝通要考慮,內容不能涉及違法和違規等,一旦溝通,后果不堪設想。
最后,在創(chuàng )建軟文發(fā)布頻道的軟文時(shí),廣告要巧妙整合,不要亂插廣告,要能將重要信息正確整合到軟文發(fā)布中channel軟文 可以讓它畫(huà)龍點(diǎn)睛。
做好推廣的第一步就是要有一個(gè)好的軟文,然后再找一個(gè)好的發(fā)布平臺。兩者密不可分,相輔相成。市面上這么多發(fā)布平臺,你怎么選擇?小編推薦一家網(wǎng)絡(luò )媒體機構,一站式發(fā)布平臺,價(jià)格非常便宜。比如新浪、搜狐、騰訊可以發(fā)送低至15、20。它比市場(chǎng)上的其他平臺便宜幾十倍。具體可以百度搜索“網(wǎng)媒代理”自行體驗對比。 查看全部
專(zhuān)業(yè)知識:3人團隊,如何管理10萬(wàn)采集網(wǎng)站?(最全、最細解讀)
人類(lèi)的發(fā)展經(jīng)歷了猿到人的發(fā)展。工業(yè)發(fā)展經(jīng)歷了石器時(shí)代、工業(yè)時(shí)代和智能工業(yè)的發(fā)展。
采集 也經(jīng)歷了從單點(diǎn)到多點(diǎn),再到分布式的發(fā)展。采集來(lái)源也從 10、100、1,000 增長(cháng)到 1W、50,000 和 100,000。這么多網(wǎng)站,怎么保證一直有效(網(wǎng)站可以正常打開(kāi))?
時(shí)代在進(jìn)步,公司在不斷發(fā)展壯大,網(wǎng)站的內容不斷豐富。每年和每個(gè)月,都會(huì )有新的柱子上架,舊的柱子會(huì )下架。我們如何確保我們的 采集 列始終有效?
今天跟大家分享一下我這幾年做采集的心得。
第一:搭建信息源系統
由于我們是做輿情監測服務(wù)的,所以我們的采集覆蓋面比較廣,包括我們經(jīng)營(yíng)所在行業(yè)的所有網(wǎng)站(盡可能的),以及各大媒體發(fā)布的一、二級各大媒體。國家、各類(lèi)黨媒、紙媒、APP等,以及微博、微信、論壇等社交媒體網(wǎng)站。
網(wǎng)站,欄目管理
現在我們采集覆蓋網(wǎng)站大約6W個(gè)家庭,而且每天還在增加。我們應該如何管理這么大量的網(wǎng)站?這就是源系統的價(jià)值!
我們管理源系統中需要采集的網(wǎng)站以及這些網(wǎng)站下需要采集的通道或列。同時(shí),部分網(wǎng)站媒體分類(lèi)、行業(yè)分類(lèi)、網(wǎng)站類(lèi)型等均在系統中進(jìn)行管理。
同時(shí)為了提高網(wǎng)站、欄目等的配置效率,我們支持直接將欄目的HTML源碼復制到系統中,然后自動(dòng)分析欄目名稱(chēng)、欄目網(wǎng)址、列下數據和其他數據的正則表達式。通過(guò)這樣的優(yōu)化,過(guò)去每人每天的網(wǎng)站數量已經(jīng)增加到100多個(gè)。
關(guān)鍵詞搜索
數據采集,除了直接采集發(fā)布信息網(wǎng)站,另一種快速獲取數據的方式是通過(guò)關(guān)鍵詞采集在各大搜索引擎中搜索,如:百度、搜狗、360等搜索引擎。
在源系統中,除了管理上述兩類(lèi)采集源外,還可以管理服務(wù)器,部署采集器等。因為在大批量的采集中,有上百個(gè)的服務(wù)器,每臺服務(wù)器上部署三五個(gè)甚至十個(gè)或二十個(gè)爬蟲(chóng)。這些爬蟲(chóng)的上傳、部署、啟動(dòng)、關(guān)閉也是耗時(shí)耗力的。能源的事。通過(guò)對系統的統一管理,可以大大減少部署、運維時(shí)間,降低很多成本。

二:搭建網(wǎng)站監控系統
這部分主要包括兩部分:一是網(wǎng)站或者列狀態(tài)的監控(可以正常訪(fǎng)問(wèn));二是定期信息的監測;
網(wǎng)站,列狀態(tài)監控
1:自動(dòng)化
通常,所有 網(wǎng)站 都會(huì )以自動(dòng)方式每?jì)芍芑蛞粋€(gè)月檢查一次。
然后,如果返回狀態(tài)碼不是 200,則再次進(jìn)行第二次和第三次檢查。主要目的是防止網(wǎng)絡(luò )問(wèn)題或網(wǎng)站響應問(wèn)題導致的監控失敗,增加人工二次處理。時(shí)間;
根據驗證碼,刪除404、403等類(lèi)型,502、等域名未注冊的類(lèi)型過(guò)一段時(shí)間再驗證。但記得要同步關(guān)閉這些網(wǎng)站的采集,否則會(huì )大大降低采集的效率。
2:傳遞結果數據
如果你有10W的網(wǎng)站,每次進(jìn)行自動(dòng)驗證也是很費時(shí)間的。為了提高效率,我們可以結合采集的結果進(jìn)行處理。從采集的結果數據,我們先分析一下上周哪些列沒(méi)有收到采集數據,然后自動(dòng)校驗這些網(wǎng)站,效率會(huì )大大提高。
3:爬蟲(chóng)監控
當然,我們也可以在解析HTML源碼的時(shí)候標記爬蟲(chóng)數據。如果網(wǎng)站沒(méi)有響應,直接保存任務(wù)的ID,然后在源系統中標記,運維人員可以實(shí)時(shí)看到網(wǎng)站@的狀態(tài)>,及時(shí)處理,提高數據效率采集。
同時(shí),如果網(wǎng)站正常返回數據,但沒(méi)有解析出任何信息,則該任務(wù)可能是常規異常,也可能是網(wǎng)站異常。需要進(jìn)行第二次測試。
正則表達式的驗證
如前所述,在采集的時(shí)候,我們可以通過(guò)當前列或者網(wǎng)站記錄數據是否按照已有的正則表達式解析,如果不是,則標記源系統中的對應數據列上。
同時(shí)需要建立一個(gè)自動(dòng)識別列正則表達式的服務(wù),每隔一段時(shí)間(比如30分鐘)讀取一次識別的記錄,自動(dòng)識別其正則表達式,并同步到采集 隊列。

為了保證正確獲取正則表達式,自動(dòng)識別后同步到采集隊列,如果信息仍然不匹配。此時(shí)系統需要提示運維人員進(jìn)行人工分析。
三:數據補充記錄
在輿情監測中,無(wú)論你對采集的覆蓋范圍有多大,角落里總會(huì )有數據。如果你沒(méi)有 采集,你可以看到。這時(shí)候,為了提升客戶(hù)體驗,我們需要密切關(guān)注人工對系統的補充錄音,然后呢?
那么首先要分析一下我們的網(wǎng)站是否配置,列是否配置正確,正則表達式是否正確。通過(guò)檢查這些步驟,我們就能找到錯過(guò)挖礦的原因。根據原因優(yōu)化源或改進(jìn)采集器。
數據補充記錄可以及時(shí)減少客戶(hù)的不滿(mǎn),同時(shí)可以改善信息來(lái)源和采集,使采集實(shí)現閉環(huán)。
第四:自動(dòng)化
第一:智能識別采集的頻率
目前我們的網(wǎng)站和列采集的頻率還是固定頻率,所以一些更新信息比較少的網(wǎng)站,或者無(wú)效的列采集,會(huì )大大減少采集@的效率>。這導致網(wǎng)站或列采集信息更新頻繁,數據的價(jià)值降低。
我們現在根據每個(gè)網(wǎng)站或采集列的數據分布情況,對采集的頻率進(jìn)行更合適的統計分析,盡量減少服務(wù)器資源的浪費,提高采集 效率和最大化數據價(jià)值。
二:智能識別網(wǎng)站欄目
我們現在的采集的網(wǎng)站有6W左右,列有70W左右。這6W的網(wǎng)站中,每天都有很多網(wǎng)站的升級和改版,大量新柱上架,舊柱下架。一個(gè) 3 人的運維團隊不可能完成這些工作量。
因此,我們根據 6W 網(wǎng)站 中配置的列進(jìn)行訓練,然后每周分析一次 網(wǎng)站 以自動(dòng)識別列。然后,過(guò)濾掉與我的業(yè)務(wù)無(wú)關(guān)的列,最后進(jìn)行人工抽檢,最后發(fā)布到采集隊列中供采集使用。就這樣,我們的運維團隊從9人減少到了現在的3人。并且還可以保證采集的穩定性和效率。
在大數據盛行的今天,一切分析的基礎都是數據。
隨著(zhù)人工智能時(shí)代的到來(lái),人類(lèi)能做的一切,或多或少都可以被機器取代。
那么,30、50 年后,機器人能打敗人類(lèi)嗎?哈哈.....
個(gè)人感悟:軟文發(fā)布平臺的軟文怎樣寫(xiě)才能深入人心
單擊以添加圖像描述(最多 60 個(gè)字符)以進(jìn)行編輯

現在很多公司網(wǎng)站都離不開(kāi)軟文發(fā)布頻道,那么軟文發(fā)布頻道的軟文應該怎么寫(xiě)呢?
首先,軟文發(fā)布頻道的軟文就是要設置好標題。一個(gè)好的標題對于 軟文 發(fā)布頻道非常重要。從軟文發(fā)布頻道開(kāi)始軟文標題一定要務(wù)實(shí),不能虛偽。標題必須內容豐富且與內容一致。抓住軟文發(fā)布頻道軟文的核心內容,可以吸引群眾,抓住群眾的眼球。
其次,設置軟文發(fā)布頻道的軟文的標題,并寫(xiě)入內容。軟文發(fā)布頻道的軟文的內容也很重要,一定要可讀。閱讀門(mén)檻低,還要有趣,內容豐富等,還要注意軟文發(fā)布頻道軟文的內容規劃適合男女老少各年齡段,因為溝通要考慮,內容不能涉及違法和違規等,一旦溝通,后果不堪設想。

最后,在創(chuàng )建軟文發(fā)布頻道的軟文時(shí),廣告要巧妙整合,不要亂插廣告,要能將重要信息正確整合到軟文發(fā)布中channel軟文 可以讓它畫(huà)龍點(diǎn)睛。
做好推廣的第一步就是要有一個(gè)好的軟文,然后再找一個(gè)好的發(fā)布平臺。兩者密不可分,相輔相成。市面上這么多發(fā)布平臺,你怎么選擇?小編推薦一家網(wǎng)絡(luò )媒體機構,一站式發(fā)布平臺,價(jià)格非常便宜。比如新浪、搜狐、騰訊可以發(fā)送低至15、20。它比市場(chǎng)上的其他平臺便宜幾十倍。具體可以百度搜索“網(wǎng)媒代理”自行體驗對比。
教程:手動(dòng)采集太耗時(shí)?這兩個(gè)Power Query技巧輕松實(shí)現網(wǎng)頁(yè)批量采集!
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 238 次瀏覽 ? 2022-09-27 12:05
最近收到群里很多小伙伴的提問(wèn),分享一些關(guān)于Python爬蟲(chóng)的知識。其實(shí)如果只是單純的采集數據,可以用Excel。
在Excel 2016及以后的版本中,內置了一個(gè)非常強大的數據處理神器Power Query。無(wú)論是數據采集還是基礎數據處理/分析,實(shí)現起來(lái)都非常簡(jiǎn)單。
最重要的是,相比Python需要很強的數學(xué)邏輯+編程能力,Power Query幾乎不用寫(xiě)代碼就可以實(shí)現數據采集!
今天小北給大家分享2種不同結構的PQ采集大法,拒絕低效數據采集!
- 01-
帶表格的網(wǎng)絡(luò )表單
First是第一個(gè)采集方法,它們的主要區別在于網(wǎng)頁(yè)的結構。如果網(wǎng)頁(yè)中使用了“表格標簽”,則可以直接將網(wǎng)頁(yè)導入Excel,自動(dòng)提取表格。
如何檢查網(wǎng)頁(yè)是否使用了table標簽?很簡(jiǎn)單,選擇任意數據,右擊,選擇“檢查”。
這里我們以“豆瓣電影”為例。即將上映的電影列表是一個(gè)帶有表格標簽布局的網(wǎng)頁(yè)。
采集網(wǎng)址:
首先,在“數據”選項卡下選擇“新查詢(xún)”-“來(lái)自 Web”。在彈出的對話(huà)框中粘貼需要為采集的URL,點(diǎn)擊“確定”,如下:
此時(shí)Excel會(huì )打開(kāi)一個(gè)“導航器”,選擇左側的table0,可以看到PQ自動(dòng)識別右側的表格數據。
接下來(lái)點(diǎn)擊“加載”,將網(wǎng)頁(yè)數據自動(dòng)加載到Excel中,也是智能表格。
使用PQ加載的表格數據,如果網(wǎng)頁(yè)的數據有更新,則無(wú)需再次加載數據。只需右鍵“刷新”即可快速同步數據。
這是PQ的第一個(gè)采集數據方法。不是很簡(jiǎn)單嗎?無(wú)需編寫(xiě)一行代碼,即可輕松將數據導入Excel。
但是使用上有很多限制,必須在網(wǎng)頁(yè)中使用table標簽(table、td、tr等)才能使用。
- 02-
非表格結構化網(wǎng)頁(yè)
但是,使用表格來(lái)顯示數據已被淘汰。在 80% 以上的網(wǎng)頁(yè)中,使用 div、ul、span 等標簽更靈活地呈現數據。
此時(shí),第一種方法將無(wú)效。比如小北經(jīng)常訪(fǎng)問(wèn)知乎。如果要使用Excel下載知乎采集的信息,第一種方法無(wú)效。 .
由于本網(wǎng)頁(yè)沒(méi)有使用“table標簽”,所以導入時(shí)看不到table0選項:
此時(shí)我能做什么?事實(shí)上,大多數現代網(wǎng)頁(yè)都使用 API 接口來(lái)獲取渲染數據。這句話(huà)怎么理解?
會(huì )先加載網(wǎng)頁(yè),然后向后臺發(fā)起請求,簡(jiǎn)單獲取數據,常用的數據格式為JSON。
那么您如何看待這些數據?很簡(jiǎn)單,還是打開(kāi)“check”,在“network”下找到“xhr”,這里就是請求的數據。
比如搜索知乎:芒果學(xué)院,可以在這里找到對應的請求數據。
頁(yè)面滾動(dòng)時(shí),可以發(fā)現多了一個(gè)“search_v3?”在列表中,點(diǎn)擊查看我們想要的數據:
然后我們右鍵點(diǎn)擊鏈接,選擇“復制鏈接地址”復制鏈接。
按照方法一再次將此網(wǎng)址導入Excel,如下:
這里得到的數據是json的結構數據,可以看到分頁(yè)、數據等。
因為數據在data里面,所以我們右鍵點(diǎn)擊“data”,選擇“Drill down”,然后點(diǎn)擊“Into Table”。這是我們想要的數據列表。
然后詳細展開(kāi)“數據”,如下,得到我們的詳細數據:
是不是很簡(jiǎn)單?可以看到界面中的所有數據都是采集出來(lái)的,但是我們一句代碼都沒(méi)寫(xiě)。
當然,這里有很多我們不需要的標簽等等。如果我們想干凈利落地處理它,我們需要為 PQ 編寫(xiě)一個(gè)自定義函數。
最后,如果你是針對比較復雜的場(chǎng)景,不建議使用Power Query采集,嘗試使用Python或者可視化專(zhuān)業(yè)爬蟲(chóng)工具來(lái)實(shí)現~
如果對你有幫助,記得點(diǎn)擊“好看”。如果你有想要學(xué)習的Excel技能,可以在下方留言~
想要更多關(guān)于數據處理和信息圖表的想法和技術(shù)嗎? 《Excel實(shí)戰課程,讓圖表說(shuō)話(huà)》Excel增值課程學(xué)習——
從零開(kāi)始的Excel商業(yè)圖表訓練營(yíng),教你如何快速拆分數據,如何制作精美的動(dòng)態(tài)圖表報表,搞定你的老板,加速你的升職加薪!
新課發(fā)布,更新完成,打卡作業(yè),5小時(shí)你就成為圖表大師!
今天咨詢(xún)報名,僅需69元,5小時(shí)共58節課,教你如何制作高級Excel商業(yè)圖表!
↑解決圖表問(wèn)題的一課
掌握真正的視覺(jué)表達,并制作正確的圖表,您可以脫穎而出并給周?chē)娜肆粝律羁逃∠蟆?br /> 完成課程后,你也可以在10分鐘內制作出這種動(dòng)態(tài)儀表盤(pán)(課程示例):
————常見(jiàn)問(wèn)題————
問(wèn):課程有時(shí)間限制嗎?
A:課程不限時(shí)間和頻次,可隨時(shí)學(xué)習,長(cháng)期有效。
問(wèn):我可以在手機上學(xué)習嗎?
A:可以,你可以在手機上安裝網(wǎng)易云課堂APP,登錄賬號學(xué)習。
Q:課程中會(huì )有老師回答問(wèn)題嗎?
A:當然,課程里有功課復習和長(cháng)期問(wèn)答。
問(wèn):除了課程還有其他學(xué)習資料嗎?
A:課程結束后,您還會(huì )看到一套完整的 Excel 圖表。如果遇到不理解的數據結構,可以直接查詢(xún)使用哪個(gè)圖表。此外,還有16種配色模板,讓你一鍵配色。
Q:如何添加助教的微信賬號?
A:您可以直接掃描下方二維碼,或者直接搜索:mongjoy001,可以添加打卡答題助教。
掃碼添加助教/課程咨詢(xún)&問(wèn)答
新班會(huì )在網(wǎng)上購買(mǎi),還會(huì )送色卡和圖表……
完全免費:SEO技術(shù)軟件-免費SEO技術(shù)管理軟件-自動(dòng)SEO優(yōu)化軟件下載免費
SEO技術(shù)軟件,什么是SEO技術(shù)軟件,SEO技術(shù)軟件有什么用?首先,SEO技術(shù)軟件就是用軟件來(lái)代替一些日常的SEO工具。今天給大家分享一個(gè)多功能的SEO技術(shù)工具。涵蓋所有 SEO 功能,例如常見(jiàn)的:雙標題、文章聚合收錄、文章內部排名、文章滾動(dòng)鏈接收錄和網(wǎng)站地圖生成,文章自動(dòng)更新,文章自動(dòng)偽原創(chuàng ),預定發(fā)布,關(guān)鍵詞粗體,圖片ALT屬性,網(wǎng)站關(guān)鍵詞提取等詳細參考圖片一、二、三、四、五、六
為了使 網(wǎng)站 排名 關(guān)鍵詞,它必須首先是 收錄!同一篇文章文章,收錄fast 網(wǎng)站,一般排名優(yōu)于收錄slow 網(wǎng)站(也有特殊情況)。因此,作為一個(gè)SEOer,我認為網(wǎng)站SEO優(yōu)化的中心目的是達到網(wǎng)站文章秒收錄。
一個(gè)網(wǎng)站在幾分鐘內就被百度了收錄。這能反映什么問(wèn)題?我總結了四點(diǎn):
?、侔俣确浅?春眠@個(gè)站點(diǎn),對這個(gè)有很高的信任度網(wǎng)站:普通新站點(diǎn)很難做到這一點(diǎn)(PS:快消品是新站點(diǎn),為什么能秒關(guān)?下面)繼續講述),澄清這個(gè)網(wǎng)站有一定的歷史。上面說(shuō)的信任度不是指網(wǎng)站的權重,是兩個(gè)不同的東西。記住,收錄fast,也就是秒收到的網(wǎng)站不一定有很高的權重。
?、诰W(wǎng)站內容質(zhì)量比較高:可能有人對此有疑問(wèn)。一些權重較高的網(wǎng)站可以直接復制其他網(wǎng)站的內容,也可以秒收,所以我這里加了2。詞:相對!但我們都知道,百度秒接收后,并不代表一定要對內容進(jìn)行排名,而且排名后也不能保證一定會(huì )維持。很多網(wǎng)站今天都在看某一個(gè)有排名的關(guān)鍵詞,但是過(guò)幾天就會(huì )消失。這種情況很常見(jiàn),因為百度會(huì )再次停止算法過(guò)濾!
?、劬W(wǎng)站內容更新頻率高:網(wǎng)站正常更新頻率,網(wǎng)站的收錄音量會(huì )增加,并持續很長(cháng)時(shí)間,也就是我們所說(shuō)的修煉站,再過(guò)幾個(gè)月,普通人就能達到第二關(guān)。
?、馨俣扰老x(chóng)爬取頻率高:這里可能需要了解百度的原理,網(wǎng)站內容可以是收錄,首先百度的爬蟲(chóng)必須先抓取你的網(wǎng)站內容,爬取次數越多,越容易發(fā)現新發(fā)布的網(wǎng)站內容,也就越容易成為收錄。因此,這與第3點(diǎn)中網(wǎng)站的內容更新頻率密切相關(guān)。養蜘蛛就是養蜘蛛爬行頻率和權重積累。
這類(lèi)網(wǎng)站最突出的特點(diǎn)之一就是每天都有大量的優(yōu)質(zhì)信息和內容發(fā)布。是的,這些平臺是蜘蛛的“人間天堂”和“香格里拉”,溫暖的陽(yáng)光,新穎豐富的食物和大眾的支持,形成了百度、360、谷歌、搜狗等蜘蛛搜索食物并停留在上面,以便盡快抓取內容供網(wǎng)友閱讀。
但是很多網(wǎng)站,大家面臨的更多情況是發(fā)布的內容不是百度收錄,很多SEOer不禁要問(wèn),是不是“百度第二收錄”只能和我們一起擦過(guò)肩?我的回答是非??隙ǖ摹安弧?。接下來(lái),做6個(gè)鏈接。我想即使是一個(gè)新站也可以讓你完成百度二次采集:
?、倬W(wǎng)站構造與URL設計
這個(gè)非常重要。一個(gè)好的網(wǎng)站結構會(huì )幫助訪(fǎng)問(wèn)者了解你的網(wǎng)站結構和層次結構,更有利于蜘蛛爬取和索引。這里我們推薦“首頁(yè)-欄目-(列表頁(yè)面)-內容”像“頁(yè)面”這樣的樹(shù)形結構應該簡(jiǎn)單而不是復雜。
更別說(shuō)網(wǎng)址設計了,只要你的網(wǎng)站不是很大,沒(méi)必要設計這么多層次。另外,網(wǎng)址可以收錄關(guān)鍵詞拼音或英文,效果更佳。為了提高蜘蛛的爬取效率,制作網(wǎng)站的地圖和robots文件給網(wǎng)站來(lái)引導蜘蛛是非常有必要的。有條件的朋友盡量選擇使用靜態(tài)頁(yè)面,對蜘蛛比較友好。
?、?定期量化發(fā)布文章
定期發(fā)布新內容,讓網(wǎng)站形成一個(gè)持續穩定的更新規則,讓蜘蛛發(fā)現這個(gè)規則完成定期爬取,這是百度二次采集非常關(guān)鍵的元素。就像定餐約會(huì )一樣,在形成這樣的更新規則后,蜘蛛會(huì )在這段時(shí)間定期去約會(huì )。另一種是量化發(fā)布,每天堅持一個(gè)恒定的數字,避免今天一個(gè)明天十個(gè),這樣會(huì )讓百度認為你的網(wǎng)站不穩定且討人喜歡,防止你被降級進(jìn)入沙盒。
關(guān)于SEO優(yōu)化網(wǎng)站,應該理解,瀏覽量也是網(wǎng)站的重點(diǎn),因為相比網(wǎng)站,需要的是流量,只要有流量,排名也會(huì )進(jìn)行優(yōu)化。這相對容易。通常,網(wǎng)站traffic 是指網(wǎng)站 的訪(fǎng)問(wèn)量,用來(lái)描述訪(fǎng)問(wèn)一個(gè)網(wǎng)站 的用戶(hù)數和用戶(hù)瀏覽的網(wǎng)頁(yè)數。那么小編就告訴大家,想要增加網(wǎng)站的流量,只需要注意這幾點(diǎn)就OK了!
一、 網(wǎng)站結構要清晰
網(wǎng)站的結構清晰,有利于節省搜索蜘蛛爬取的時(shí)間。同時(shí),潛在客戶(hù)在瀏覽網(wǎng)站時(shí)可以清晰、簡(jiǎn)單地找到他們正在尋找的目標頁(yè)面或產(chǎn)品,可以提高用戶(hù)體驗。感覺(jué)。
二、 網(wǎng)站頁(yè)面設置標題,關(guān)鍵詞,描述
這幾點(diǎn)是網(wǎng)站優(yōu)化的最基本步驟。只有把這些最基本的步驟一步步設置好,才能優(yōu)化網(wǎng)站。
三、 原創(chuàng )文章
根據百度搜索引擎的算法和規則,只有網(wǎng)站不斷進(jìn)行高質(zhì)量的定期更新,才有利于搜索蜘蛛的爬取,也可以提升用戶(hù)體驗。所以大家千萬(wàn)不要采集質(zhì)量不好文章復制別人的內容,這樣會(huì )讓搜索引擎拒絕抓取你的網(wǎng)站。
四、 網(wǎng)站 的內部鏈接
合理設置網(wǎng)站內鏈可以增加網(wǎng)站的搜索權重,也可以提升用戶(hù)體驗。但是在做內鏈的時(shí)候要注意,內鏈需要和內容相關(guān),并且指向內容頁(yè)面,才能讓內鏈發(fā)揮作用。 查看全部
教程:手動(dòng)采集太耗時(shí)?這兩個(gè)Power Query技巧輕松實(shí)現網(wǎng)頁(yè)批量采集!
最近收到群里很多小伙伴的提問(wèn),分享一些關(guān)于Python爬蟲(chóng)的知識。其實(shí)如果只是單純的采集數據,可以用Excel。
在Excel 2016及以后的版本中,內置了一個(gè)非常強大的數據處理神器Power Query。無(wú)論是數據采集還是基礎數據處理/分析,實(shí)現起來(lái)都非常簡(jiǎn)單。
最重要的是,相比Python需要很強的數學(xué)邏輯+編程能力,Power Query幾乎不用寫(xiě)代碼就可以實(shí)現數據采集!
今天小北給大家分享2種不同結構的PQ采集大法,拒絕低效數據采集!
- 01-
帶表格的網(wǎng)絡(luò )表單
First是第一個(gè)采集方法,它們的主要區別在于網(wǎng)頁(yè)的結構。如果網(wǎng)頁(yè)中使用了“表格標簽”,則可以直接將網(wǎng)頁(yè)導入Excel,自動(dòng)提取表格。
如何檢查網(wǎng)頁(yè)是否使用了table標簽?很簡(jiǎn)單,選擇任意數據,右擊,選擇“檢查”。
這里我們以“豆瓣電影”為例。即將上映的電影列表是一個(gè)帶有表格標簽布局的網(wǎng)頁(yè)。
采集網(wǎng)址:
首先,在“數據”選項卡下選擇“新查詢(xún)”-“來(lái)自 Web”。在彈出的對話(huà)框中粘貼需要為采集的URL,點(diǎn)擊“確定”,如下:
此時(shí)Excel會(huì )打開(kāi)一個(gè)“導航器”,選擇左側的table0,可以看到PQ自動(dòng)識別右側的表格數據。
接下來(lái)點(diǎn)擊“加載”,將網(wǎng)頁(yè)數據自動(dòng)加載到Excel中,也是智能表格。
使用PQ加載的表格數據,如果網(wǎng)頁(yè)的數據有更新,則無(wú)需再次加載數據。只需右鍵“刷新”即可快速同步數據。
這是PQ的第一個(gè)采集數據方法。不是很簡(jiǎn)單嗎?無(wú)需編寫(xiě)一行代碼,即可輕松將數據導入Excel。
但是使用上有很多限制,必須在網(wǎng)頁(yè)中使用table標簽(table、td、tr等)才能使用。
- 02-
非表格結構化網(wǎng)頁(yè)

但是,使用表格來(lái)顯示數據已被淘汰。在 80% 以上的網(wǎng)頁(yè)中,使用 div、ul、span 等標簽更靈活地呈現數據。
此時(shí),第一種方法將無(wú)效。比如小北經(jīng)常訪(fǎng)問(wèn)知乎。如果要使用Excel下載知乎采集的信息,第一種方法無(wú)效。 .
由于本網(wǎng)頁(yè)沒(méi)有使用“table標簽”,所以導入時(shí)看不到table0選項:
此時(shí)我能做什么?事實(shí)上,大多數現代網(wǎng)頁(yè)都使用 API 接口來(lái)獲取渲染數據。這句話(huà)怎么理解?
會(huì )先加載網(wǎng)頁(yè),然后向后臺發(fā)起請求,簡(jiǎn)單獲取數據,常用的數據格式為JSON。
那么您如何看待這些數據?很簡(jiǎn)單,還是打開(kāi)“check”,在“network”下找到“xhr”,這里就是請求的數據。
比如搜索知乎:芒果學(xué)院,可以在這里找到對應的請求數據。
頁(yè)面滾動(dòng)時(shí),可以發(fā)現多了一個(gè)“search_v3?”在列表中,點(diǎn)擊查看我們想要的數據:
然后我們右鍵點(diǎn)擊鏈接,選擇“復制鏈接地址”復制鏈接。
按照方法一再次將此網(wǎng)址導入Excel,如下:
這里得到的數據是json的結構數據,可以看到分頁(yè)、數據等。
因為數據在data里面,所以我們右鍵點(diǎn)擊“data”,選擇“Drill down”,然后點(diǎn)擊“Into Table”。這是我們想要的數據列表。
然后詳細展開(kāi)“數據”,如下,得到我們的詳細數據:
是不是很簡(jiǎn)單?可以看到界面中的所有數據都是采集出來(lái)的,但是我們一句代碼都沒(méi)寫(xiě)。
當然,這里有很多我們不需要的標簽等等。如果我們想干凈利落地處理它,我們需要為 PQ 編寫(xiě)一個(gè)自定義函數。
最后,如果你是針對比較復雜的場(chǎng)景,不建議使用Power Query采集,嘗試使用Python或者可視化專(zhuān)業(yè)爬蟲(chóng)工具來(lái)實(shí)現~
如果對你有幫助,記得點(diǎn)擊“好看”。如果你有想要學(xué)習的Excel技能,可以在下方留言~

想要更多關(guān)于數據處理和信息圖表的想法和技術(shù)嗎? 《Excel實(shí)戰課程,讓圖表說(shuō)話(huà)》Excel增值課程學(xué)習——
從零開(kāi)始的Excel商業(yè)圖表訓練營(yíng),教你如何快速拆分數據,如何制作精美的動(dòng)態(tài)圖表報表,搞定你的老板,加速你的升職加薪!
新課發(fā)布,更新完成,打卡作業(yè),5小時(shí)你就成為圖表大師!
今天咨詢(xún)報名,僅需69元,5小時(shí)共58節課,教你如何制作高級Excel商業(yè)圖表!
↑解決圖表問(wèn)題的一課
掌握真正的視覺(jué)表達,并制作正確的圖表,您可以脫穎而出并給周?chē)娜肆粝律羁逃∠蟆?br /> 完成課程后,你也可以在10分鐘內制作出這種動(dòng)態(tài)儀表盤(pán)(課程示例):
————常見(jiàn)問(wèn)題————
問(wèn):課程有時(shí)間限制嗎?
A:課程不限時(shí)間和頻次,可隨時(shí)學(xué)習,長(cháng)期有效。
問(wèn):我可以在手機上學(xué)習嗎?
A:可以,你可以在手機上安裝網(wǎng)易云課堂APP,登錄賬號學(xué)習。
Q:課程中會(huì )有老師回答問(wèn)題嗎?
A:當然,課程里有功課復習和長(cháng)期問(wèn)答。
問(wèn):除了課程還有其他學(xué)習資料嗎?
A:課程結束后,您還會(huì )看到一套完整的 Excel 圖表。如果遇到不理解的數據結構,可以直接查詢(xún)使用哪個(gè)圖表。此外,還有16種配色模板,讓你一鍵配色。
Q:如何添加助教的微信賬號?
A:您可以直接掃描下方二維碼,或者直接搜索:mongjoy001,可以添加打卡答題助教。
掃碼添加助教/課程咨詢(xún)&問(wèn)答
新班會(huì )在網(wǎng)上購買(mǎi),還會(huì )送色卡和圖表……
完全免費:SEO技術(shù)軟件-免費SEO技術(shù)管理軟件-自動(dòng)SEO優(yōu)化軟件下載免費
SEO技術(shù)軟件,什么是SEO技術(shù)軟件,SEO技術(shù)軟件有什么用?首先,SEO技術(shù)軟件就是用軟件來(lái)代替一些日常的SEO工具。今天給大家分享一個(gè)多功能的SEO技術(shù)工具。涵蓋所有 SEO 功能,例如常見(jiàn)的:雙標題、文章聚合收錄、文章內部排名、文章滾動(dòng)鏈接收錄和網(wǎng)站地圖生成,文章自動(dòng)更新,文章自動(dòng)偽原創(chuàng ),預定發(fā)布,關(guān)鍵詞粗體,圖片ALT屬性,網(wǎng)站關(guān)鍵詞提取等詳細參考圖片一、二、三、四、五、六
為了使 網(wǎng)站 排名 關(guān)鍵詞,它必須首先是 收錄!同一篇文章文章,收錄fast 網(wǎng)站,一般排名優(yōu)于收錄slow 網(wǎng)站(也有特殊情況)。因此,作為一個(gè)SEOer,我認為網(wǎng)站SEO優(yōu)化的中心目的是達到網(wǎng)站文章秒收錄。
一個(gè)網(wǎng)站在幾分鐘內就被百度了收錄。這能反映什么問(wèn)題?我總結了四點(diǎn):
?、侔俣确浅?春眠@個(gè)站點(diǎn),對這個(gè)有很高的信任度網(wǎng)站:普通新站點(diǎn)很難做到這一點(diǎn)(PS:快消品是新站點(diǎn),為什么能秒關(guān)?下面)繼續講述),澄清這個(gè)網(wǎng)站有一定的歷史。上面說(shuō)的信任度不是指網(wǎng)站的權重,是兩個(gè)不同的東西。記住,收錄fast,也就是秒收到的網(wǎng)站不一定有很高的權重。
?、诰W(wǎng)站內容質(zhì)量比較高:可能有人對此有疑問(wèn)。一些權重較高的網(wǎng)站可以直接復制其他網(wǎng)站的內容,也可以秒收,所以我這里加了2。詞:相對!但我們都知道,百度秒接收后,并不代表一定要對內容進(jìn)行排名,而且排名后也不能保證一定會(huì )維持。很多網(wǎng)站今天都在看某一個(gè)有排名的關(guān)鍵詞,但是過(guò)幾天就會(huì )消失。這種情況很常見(jiàn),因為百度會(huì )再次停止算法過(guò)濾!
?、劬W(wǎng)站內容更新頻率高:網(wǎng)站正常更新頻率,網(wǎng)站的收錄音量會(huì )增加,并持續很長(cháng)時(shí)間,也就是我們所說(shuō)的修煉站,再過(guò)幾個(gè)月,普通人就能達到第二關(guān)。

?、馨俣扰老x(chóng)爬取頻率高:這里可能需要了解百度的原理,網(wǎng)站內容可以是收錄,首先百度的爬蟲(chóng)必須先抓取你的網(wǎng)站內容,爬取次數越多,越容易發(fā)現新發(fā)布的網(wǎng)站內容,也就越容易成為收錄。因此,這與第3點(diǎn)中網(wǎng)站的內容更新頻率密切相關(guān)。養蜘蛛就是養蜘蛛爬行頻率和權重積累。
這類(lèi)網(wǎng)站最突出的特點(diǎn)之一就是每天都有大量的優(yōu)質(zhì)信息和內容發(fā)布。是的,這些平臺是蜘蛛的“人間天堂”和“香格里拉”,溫暖的陽(yáng)光,新穎豐富的食物和大眾的支持,形成了百度、360、谷歌、搜狗等蜘蛛搜索食物并停留在上面,以便盡快抓取內容供網(wǎng)友閱讀。
但是很多網(wǎng)站,大家面臨的更多情況是發(fā)布的內容不是百度收錄,很多SEOer不禁要問(wèn),是不是“百度第二收錄”只能和我們一起擦過(guò)肩?我的回答是非??隙ǖ摹安弧?。接下來(lái),做6個(gè)鏈接。我想即使是一個(gè)新站也可以讓你完成百度二次采集:
?、倬W(wǎng)站構造與URL設計
這個(gè)非常重要。一個(gè)好的網(wǎng)站結構會(huì )幫助訪(fǎng)問(wèn)者了解你的網(wǎng)站結構和層次結構,更有利于蜘蛛爬取和索引。這里我們推薦“首頁(yè)-欄目-(列表頁(yè)面)-內容”像“頁(yè)面”這樣的樹(shù)形結構應該簡(jiǎn)單而不是復雜。
更別說(shuō)網(wǎng)址設計了,只要你的網(wǎng)站不是很大,沒(méi)必要設計這么多層次。另外,網(wǎng)址可以收錄關(guān)鍵詞拼音或英文,效果更佳。為了提高蜘蛛的爬取效率,制作網(wǎng)站的地圖和robots文件給網(wǎng)站來(lái)引導蜘蛛是非常有必要的。有條件的朋友盡量選擇使用靜態(tài)頁(yè)面,對蜘蛛比較友好。
?、?定期量化發(fā)布文章
定期發(fā)布新內容,讓網(wǎng)站形成一個(gè)持續穩定的更新規則,讓蜘蛛發(fā)現這個(gè)規則完成定期爬取,這是百度二次采集非常關(guān)鍵的元素。就像定餐約會(huì )一樣,在形成這樣的更新規則后,蜘蛛會(huì )在這段時(shí)間定期去約會(huì )。另一種是量化發(fā)布,每天堅持一個(gè)恒定的數字,避免今天一個(gè)明天十個(gè),這樣會(huì )讓百度認為你的網(wǎng)站不穩定且討人喜歡,防止你被降級進(jìn)入沙盒。

關(guān)于SEO優(yōu)化網(wǎng)站,應該理解,瀏覽量也是網(wǎng)站的重點(diǎn),因為相比網(wǎng)站,需要的是流量,只要有流量,排名也會(huì )進(jìn)行優(yōu)化。這相對容易。通常,網(wǎng)站traffic 是指網(wǎng)站 的訪(fǎng)問(wèn)量,用來(lái)描述訪(fǎng)問(wèn)一個(gè)網(wǎng)站 的用戶(hù)數和用戶(hù)瀏覽的網(wǎng)頁(yè)數。那么小編就告訴大家,想要增加網(wǎng)站的流量,只需要注意這幾點(diǎn)就OK了!
一、 網(wǎng)站結構要清晰
網(wǎng)站的結構清晰,有利于節省搜索蜘蛛爬取的時(shí)間。同時(shí),潛在客戶(hù)在瀏覽網(wǎng)站時(shí)可以清晰、簡(jiǎn)單地找到他們正在尋找的目標頁(yè)面或產(chǎn)品,可以提高用戶(hù)體驗。感覺(jué)。
二、 網(wǎng)站頁(yè)面設置標題,關(guān)鍵詞,描述
這幾點(diǎn)是網(wǎng)站優(yōu)化的最基本步驟。只有把這些最基本的步驟一步步設置好,才能優(yōu)化網(wǎng)站。
三、 原創(chuàng )文章
根據百度搜索引擎的算法和規則,只有網(wǎng)站不斷進(jìn)行高質(zhì)量的定期更新,才有利于搜索蜘蛛的爬取,也可以提升用戶(hù)體驗。所以大家千萬(wàn)不要采集質(zhì)量不好文章復制別人的內容,這樣會(huì )讓搜索引擎拒絕抓取你的網(wǎng)站。
四、 網(wǎng)站 的內部鏈接
合理設置網(wǎng)站內鏈可以增加網(wǎng)站的搜索權重,也可以提升用戶(hù)體驗。但是在做內鏈的時(shí)候要注意,內鏈需要和內容相關(guān),并且指向內容頁(yè)面,才能讓內鏈發(fā)揮作用。
匯總:ET2全自動(dòng)采集與利商網(wǎng)絡(luò )信息發(fā)布軟件下載評論軟件詳情對比
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 199 次瀏覽 ? 2022-09-26 04:07
免費采集軟件EditorTools是一款面向中小型網(wǎng)站的自動(dòng)更新工具,全自動(dòng)采集發(fā)布,靜默工作,無(wú)需人工干預;獨立軟件消除網(wǎng)站性能消耗;安全穩定,可多年不間斷工作;支持任意網(wǎng)站和數據庫采集版本,軟件內置discuzX、phpwind、dedecms、wordpress、phpcms、empirecms、東易, joomla, pbdigg, php168, bbsxp, phpbb, dvbbs, typecho, emblog 等很多常用系統的例子。
本軟件適合需要長(cháng)期更新的網(wǎng)站使用,不需要您對現有論壇或網(wǎng)站做任何改動(dòng)。
解放網(wǎng)站管理員和管理員
網(wǎng)站要保持活力,每日內容更新是基礎。一個(gè)小網(wǎng)站保證每日更新,通常要求站長(cháng)承擔每天8小時(shí)的更新工作,周末開(kāi)放;一個(gè)媒體網(wǎng)站全天維護內容更新,通常需要一天3班,每個(gè)Admin勞動(dòng)力為一個(gè)班2-3人。如果按照普通月薪1500元計算,即使不包括周末加班,一個(gè)小網(wǎng)站每月至少要花1500元,而一個(gè)中型網(wǎng)站要花費超過(guò)一萬(wàn)元。 ET的出現將為您省下這筆費用!從繁瑣的 網(wǎng)站 更新工作中解放網(wǎng)站管理員和管理員!
獨特的無(wú)人值守
ET的設計以提高軟件自動(dòng)化程度為突破口,以達到無(wú)人值守、24小時(shí)自動(dòng)化工作的目的。經(jīng)過(guò)測試,ET可以自動(dòng)運行很長(cháng)時(shí)間,甚至幾年。
超高穩定性
為了達到無(wú)人值守軟件的目的,需要長(cháng)時(shí)間穩定運行。 ET在這方面做了很多優(yōu)化,保證軟件可以穩定連續工作,不會(huì )出現采集軟件。崩潰本身,甚至導致 網(wǎng)站 崩潰。
最低資源使用率
ET獨立于網(wǎng)站,不消耗寶貴的服務(wù)器WEB處理資源,可以在服務(wù)器或站長(cháng)的工作機上工作。
嚴格的數據和網(wǎng)絡(luò )安全
ET使用網(wǎng)站自己的數據發(fā)布接口或程序代碼來(lái)處理發(fā)布信息內容,不直接操作網(wǎng)站數據庫,避免了任何可能由ET引起的數據安全問(wèn)題. 采集信息,ET使用標準HTTP端口,不會(huì )造成網(wǎng)絡(luò )安全漏洞。
強大而靈活的功能
ET除了一般采集工具的功能外,還可以進(jìn)行圖片水印、防盜鏈、分頁(yè)采集、回復采集、登錄采集@ >、自定義物品、UTF-8、UBB、模擬發(fā)布...,讓用戶(hù)靈活實(shí)現各種毛發(fā)采集需求。
EditorTools 2 功能介紹
【特點(diǎn)】設置好計劃后,無(wú)需人工干預,24小時(shí)自動(dòng)工作
【特點(diǎn)】與網(wǎng)站分離,可支持任意網(wǎng)站或數據庫
通過(guò)獨立制作的界面
[特點(diǎn)]靈活強大采集規則不僅是采集文章,還可以是采集任何類(lèi)型的信息
【特點(diǎn)】體積小、功耗低、穩定性好,非常適合在服務(wù)器上運行
【特點(diǎn)】所有規則均可導入導出,資源復用靈活
【特點(diǎn)】使用FTP上傳文件,穩定安全
【特點(diǎn)】下載上傳支持斷點(diǎn)續傳
[特點(diǎn)] 高速偽原創(chuàng )
【采集】可以選擇倒序、順序、隨機采集文章
【采集】支持自動(dòng)列出網(wǎng)址
[采集] 支持 采集
對于網(wǎng)站的數據分布在多個(gè)頁(yè)面
【采集】自由設置采集數據項,并可對每個(gè)數據項進(jìn)行單獨過(guò)濾整理
【采集】支持分頁(yè)內容采集
【采集】支持任意格式和類(lèi)型的文件(包括圖片、視頻)下載
【采集】可以突破防盜鏈文件
【采集】支持動(dòng)態(tài)文件URL解析
【采集】支持采集
對于需要登錄訪(fǎng)問(wèn)的網(wǎng)頁(yè)
【支持】可設置關(guān)鍵詞采集
[支持] 可以設置敏感詞防止采集
[支持]圖片水印可設置
[發(fā)布]支持發(fā)布文章帶回復,可廣泛應用于論壇、博客等項目
【發(fā)布】與采集數據分離的發(fā)布參數項可以自由對應采集數據或預設值,大大增強了發(fā)布規則的復用性
[發(fā)布]支持隨機選擇發(fā)布賬號
【發(fā)布】支持任何語(yǔ)言的已發(fā)布項目翻譯
[發(fā)布]支持編碼轉換,支持UBB碼
【發(fā)布】文件上傳可以選擇自動(dòng)創(chuàng )建年月日目錄
[Release]模擬發(fā)布支持網(wǎng)站無(wú)法安裝接口的發(fā)布操作
【支持】程序可以正常運行
[支持]防止網(wǎng)絡(luò )運營(yíng)商劫持HTTP函數
[支持]手冊采集發(fā)布
【支持】詳細的工作流程監控和信息反饋,讓您快速了解工作狀態(tài)
最新信息:web信息發(fā)布的“自動(dòng)采集”方案研究.pdf
1 1
Ξ
第22卷第3期西安航空技術(shù)學(xué)院學(xué)報第2卷第2期第3期
2004年5月西安航空技術(shù)學(xué)院學(xué)報2004年5月
WEB信息發(fā)布“自動(dòng)采集”方案研究
王濤
Ξ
(江蘇廣播電視大學(xué)武進(jìn)學(xué)院,江蘇武進(jìn) 231000)
摘要:目前大部分網(wǎng)站以“留言板”的形式發(fā)布信息,也就是由負責發(fā)布信息的人員以特定的方式發(fā)布信息。
在WEB頁(yè)面,將要發(fā)布的信息輸入到一個(gè)錄入窗口,然后提交到數據庫發(fā)布到網(wǎng)站---信息只能一一發(fā)布。
加,效率低。作者提出了使用程序自動(dòng)采集信息的思路,并給出了詳細的解決方案。
關(guān)鍵詞 :WEB信息發(fā)布;逐項添加;自動(dòng)采集
CLC 編號:TP393. 02 文件識別碼:A 文章 編號:1008 - 9233 (2004) 03 - 0050 - 03
1 提出的問(wèn)題 2 初步想法
現在互聯(lián)網(wǎng)盛行,很多單位都有自己的假設:寫(xiě)一個(gè)常駐程序,讓它運行很長(cháng)時(shí)間
網(wǎng)站 的。通常網(wǎng)站會(huì )在某臺計算機(通常是服務(wù)器)上發(fā)布一些信息,按照一定的周期,
它一般以后臺數據庫的形式存在。目前大部分網(wǎng)站會(huì )定期檢索要發(fā)布到指定目錄的信息,并存儲起來(lái)
在發(fā)布信息時(shí),采用類(lèi)似于“留言板”的形式,即通過(guò)特殊的負分類(lèi)添加到數據庫中。
在具體的WEB頁(yè)面中,負責發(fā)布信息的人可以參考如下方案(如圖1):
將要發(fā)布的信息輸入到一個(gè)錄入窗口,然后提交給數據(注:現實(shí)中FTP服務(wù)器、數據庫服務(wù)器和
圖書(shū)館,用于發(fā)布在網(wǎng)站,信息只能一一添加。但是,真正的WEB服務(wù)器可以用物理計算機來(lái)實(shí)現。
,一個(gè)部門(mén)想要在線(xiàn)發(fā)布信息,可能有三個(gè)獨立的職能部門(mén) 查看全部
匯總:ET2全自動(dòng)采集與利商網(wǎng)絡(luò )信息發(fā)布軟件下載評論軟件詳情對比
免費采集軟件EditorTools是一款面向中小型網(wǎng)站的自動(dòng)更新工具,全自動(dòng)采集發(fā)布,靜默工作,無(wú)需人工干預;獨立軟件消除網(wǎng)站性能消耗;安全穩定,可多年不間斷工作;支持任意網(wǎng)站和數據庫采集版本,軟件內置discuzX、phpwind、dedecms、wordpress、phpcms、empirecms、東易, joomla, pbdigg, php168, bbsxp, phpbb, dvbbs, typecho, emblog 等很多常用系統的例子。
本軟件適合需要長(cháng)期更新的網(wǎng)站使用,不需要您對現有論壇或網(wǎng)站做任何改動(dòng)。
解放網(wǎng)站管理員和管理員
網(wǎng)站要保持活力,每日內容更新是基礎。一個(gè)小網(wǎng)站保證每日更新,通常要求站長(cháng)承擔每天8小時(shí)的更新工作,周末開(kāi)放;一個(gè)媒體網(wǎng)站全天維護內容更新,通常需要一天3班,每個(gè)Admin勞動(dòng)力為一個(gè)班2-3人。如果按照普通月薪1500元計算,即使不包括周末加班,一個(gè)小網(wǎng)站每月至少要花1500元,而一個(gè)中型網(wǎng)站要花費超過(guò)一萬(wàn)元。 ET的出現將為您省下這筆費用!從繁瑣的 網(wǎng)站 更新工作中解放網(wǎng)站管理員和管理員!
獨特的無(wú)人值守
ET的設計以提高軟件自動(dòng)化程度為突破口,以達到無(wú)人值守、24小時(shí)自動(dòng)化工作的目的。經(jīng)過(guò)測試,ET可以自動(dòng)運行很長(cháng)時(shí)間,甚至幾年。
超高穩定性
為了達到無(wú)人值守軟件的目的,需要長(cháng)時(shí)間穩定運行。 ET在這方面做了很多優(yōu)化,保證軟件可以穩定連續工作,不會(huì )出現采集軟件。崩潰本身,甚至導致 網(wǎng)站 崩潰。
最低資源使用率
ET獨立于網(wǎng)站,不消耗寶貴的服務(wù)器WEB處理資源,可以在服務(wù)器或站長(cháng)的工作機上工作。
嚴格的數據和網(wǎng)絡(luò )安全
ET使用網(wǎng)站自己的數據發(fā)布接口或程序代碼來(lái)處理發(fā)布信息內容,不直接操作網(wǎng)站數據庫,避免了任何可能由ET引起的數據安全問(wèn)題. 采集信息,ET使用標準HTTP端口,不會(huì )造成網(wǎng)絡(luò )安全漏洞。
強大而靈活的功能
ET除了一般采集工具的功能外,還可以進(jìn)行圖片水印、防盜鏈、分頁(yè)采集、回復采集、登錄采集@ >、自定義物品、UTF-8、UBB、模擬發(fā)布...,讓用戶(hù)靈活實(shí)現各種毛發(fā)采集需求。
EditorTools 2 功能介紹
【特點(diǎn)】設置好計劃后,無(wú)需人工干預,24小時(shí)自動(dòng)工作

【特點(diǎn)】與網(wǎng)站分離,可支持任意網(wǎng)站或數據庫
通過(guò)獨立制作的界面
[特點(diǎn)]靈活強大采集規則不僅是采集文章,還可以是采集任何類(lèi)型的信息
【特點(diǎn)】體積小、功耗低、穩定性好,非常適合在服務(wù)器上運行
【特點(diǎn)】所有規則均可導入導出,資源復用靈活
【特點(diǎn)】使用FTP上傳文件,穩定安全
【特點(diǎn)】下載上傳支持斷點(diǎn)續傳
[特點(diǎn)] 高速偽原創(chuàng )
【采集】可以選擇倒序、順序、隨機采集文章
【采集】支持自動(dòng)列出網(wǎng)址
[采集] 支持 采集
對于網(wǎng)站的數據分布在多個(gè)頁(yè)面
【采集】自由設置采集數據項,并可對每個(gè)數據項進(jìn)行單獨過(guò)濾整理
【采集】支持分頁(yè)內容采集
【采集】支持任意格式和類(lèi)型的文件(包括圖片、視頻)下載
【采集】可以突破防盜鏈文件
【采集】支持動(dòng)態(tài)文件URL解析

【采集】支持采集
對于需要登錄訪(fǎng)問(wèn)的網(wǎng)頁(yè)
【支持】可設置關(guān)鍵詞采集
[支持] 可以設置敏感詞防止采集
[支持]圖片水印可設置
[發(fā)布]支持發(fā)布文章帶回復,可廣泛應用于論壇、博客等項目
【發(fā)布】與采集數據分離的發(fā)布參數項可以自由對應采集數據或預設值,大大增強了發(fā)布規則的復用性
[發(fā)布]支持隨機選擇發(fā)布賬號
【發(fā)布】支持任何語(yǔ)言的已發(fā)布項目翻譯
[發(fā)布]支持編碼轉換,支持UBB碼
【發(fā)布】文件上傳可以選擇自動(dòng)創(chuàng )建年月日目錄
[Release]模擬發(fā)布支持網(wǎng)站無(wú)法安裝接口的發(fā)布操作
【支持】程序可以正常運行
[支持]防止網(wǎng)絡(luò )運營(yíng)商劫持HTTP函數
[支持]手冊采集發(fā)布
【支持】詳細的工作流程監控和信息反饋,讓您快速了解工作狀態(tài)
最新信息:web信息發(fā)布的“自動(dòng)采集”方案研究.pdf
1 1
Ξ
第22卷第3期西安航空技術(shù)學(xué)院學(xué)報第2卷第2期第3期
2004年5月西安航空技術(shù)學(xué)院學(xué)報2004年5月
WEB信息發(fā)布“自動(dòng)采集”方案研究
王濤
Ξ

(江蘇廣播電視大學(xué)武進(jìn)學(xué)院,江蘇武進(jìn) 231000)
摘要:目前大部分網(wǎng)站以“留言板”的形式發(fā)布信息,也就是由負責發(fā)布信息的人員以特定的方式發(fā)布信息。
在WEB頁(yè)面,將要發(fā)布的信息輸入到一個(gè)錄入窗口,然后提交到數據庫發(fā)布到網(wǎng)站---信息只能一一發(fā)布。
加,效率低。作者提出了使用程序自動(dòng)采集信息的思路,并給出了詳細的解決方案。
關(guān)鍵詞 :WEB信息發(fā)布;逐項添加;自動(dòng)采集
CLC 編號:TP393. 02 文件識別碼:A 文章 編號:1008 - 9233 (2004) 03 - 0050 - 03
1 提出的問(wèn)題 2 初步想法
現在互聯(lián)網(wǎng)盛行,很多單位都有自己的假設:寫(xiě)一個(gè)常駐程序,讓它運行很長(cháng)時(shí)間

網(wǎng)站 的。通常網(wǎng)站會(huì )在某臺計算機(通常是服務(wù)器)上發(fā)布一些信息,按照一定的周期,
它一般以后臺數據庫的形式存在。目前大部分網(wǎng)站會(huì )定期檢索要發(fā)布到指定目錄的信息,并存儲起來(lái)
在發(fā)布信息時(shí),采用類(lèi)似于“留言板”的形式,即通過(guò)特殊的負分類(lèi)添加到數據庫中。
在具體的WEB頁(yè)面中,負責發(fā)布信息的人可以參考如下方案(如圖1):
將要發(fā)布的信息輸入到一個(gè)錄入窗口,然后提交給數據(注:現實(shí)中FTP服務(wù)器、數據庫服務(wù)器和
圖書(shū)館,用于發(fā)布在網(wǎng)站,信息只能一一添加。但是,真正的WEB服務(wù)器可以用物理計算機來(lái)實(shí)現。
,一個(gè)部門(mén)想要在線(xiàn)發(fā)布信息,可能有三個(gè)獨立的職能部門(mén)
推薦文章:站群外鏈免費批量發(fā)布到愛(ài)站等高權重網(wǎng)站
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 133 次瀏覽 ? 2022-09-24 16:14
站群外鏈批量發(fā)布到愛(ài)站等高權重網(wǎng)站,這樣我們的網(wǎng)站可以快速獲取收錄,站群 手動(dòng)發(fā)布外鏈是一項耗時(shí)耗力的工作。 站群外鏈批量發(fā)布工具可以模擬手動(dòng)完成機械站群外鏈發(fā)布操作。
在站群外鏈的建設中,理論上可以利用站群大量的主域來(lái)提高整個(gè)外鏈的廣度。 站群外鏈工具免費,操作簡(jiǎn)單。只需簡(jiǎn)單的點(diǎn)擊,即可完成外鏈的批量發(fā)布。我們需要控制站群外鏈的比例,尤其是當我們主域的外鏈數量比較有限的時(shí)候。
發(fā)布外鏈的方式有很多種,但我們需要選擇高質(zhì)量的外鏈。高權重的外部鏈接是我們的首選。我們可以使用我們自己的高權重網(wǎng)站、論壇、愛(ài)站站長(cháng)主頁(yè)等
我們擁有的高質(zhì)量反向鏈接越多,搜索引擎就越會(huì )將我們視為專(zhuān)家。搜索引擎認為我們擁有的專(zhuān)業(yè)知識越多,我們的頁(yè)面排名就越高。我們甚至可以與我們在同一領(lǐng)域的其他網(wǎng)站合作,交換反向鏈接和來(lái)賓帖子。我們可以通過(guò)加入 Slack 社區來(lái)建立聯(lián)系來(lái)找到這些網(wǎng)站。
通過(guò)訪(fǎng)客發(fā)布和協(xié)作鏈接構建增加反向鏈接,我們已經(jīng)向我們展示了如何通過(guò)我們自己的頁(yè)面增加自然流量,但是我們是否知道其他可以提高我們排名的 網(wǎng)站s ?當其他 網(wǎng)站 鏈接到我們的內容或將我們列為客座博主時(shí),他們正在為我們的 網(wǎng)站 創(chuàng )建便于搜索的“反向鏈接”。
使用內部鏈接,這有助于搜索者更多地了解他們感興趣的主題。我們可以通過(guò)在其自然有意義的內容中嵌入內部鏈接來(lái)利用它們。嵌入內部鏈接時(shí),選擇與我們?yōu)樵擁?yè)面定位的關(guān)鍵字接近的錨文本。例如,如果我們的目標是“Wallet 采集”和“Watch 采集”,請使用“Wallet 采集”和“Watch Set”等變體。
主題集群是與整體主題或主題相關(guān)的內容集群。對于主題集群,通常有稱(chēng)為“父頁(yè)面”的主頁(yè)面和稱(chēng)為“子頁(yè)面”的子頁(yè)面。父頁(yè)面涵蓋了一般主題和指向具有更具體內容的子頁(yè)面的鏈接。
搜索引擎的算法偏愛(ài)主題集群,因為它們可以幫助搜索者深入了解他們感興趣的主題。因此,如果搜索者渴望了解有關(guān)巧克力蛋糕的所有信息,搜索引擎會(huì )很樂(lè )意分享我們采集的巧克力蛋糕帖子。
長(cháng)期 SEO 成功的關(guān)鍵是增加自然流量。為了提高我們頁(yè)面的SEO,站群外鏈工具還支持自動(dòng)采集偽原創(chuàng )發(fā)布和關(guān)鍵詞挖掘功能。通過(guò)關(guān)鍵詞挖礦,你可以讓我們獲得海量行業(yè)相關(guān)的關(guān)鍵詞、流行語(yǔ)和下拉菜單。
站群在搭建外鏈的同時(shí),也要注意網(wǎng)站的優(yōu)化。 站群外鏈工具可以讓我們的站群內容快速填充更新,同時(shí)可以批量發(fā)布外鏈。管理??梢暬?yè)面讓我們可以在一個(gè)顯示中查看管理站群的多個(gè)數據信息,無(wú)論是網(wǎng)站收錄、內部鏈接數、蜘蛛光顧曲線(xiàn)還是關(guān)鍵詞排名可以輕松管理。
站群外鏈搭建的分享到此結束。通過(guò)不斷增加反向鏈接和友情鏈接的建設,可以快速獲得搜索引擎平臺的信任,讓我們的收錄排名不斷提升。如果您對站群外部鏈接的搭建感興趣,不妨點(diǎn)擊三個(gè)鏈接留言討論。
推薦文章:API_短信測壓_偽原創(chuàng )工具_seo外鏈推廣,免費名片贊
API_短信壓測_偽原創(chuàng )tool_seo外鏈推廣,免費名片點(diǎn)贊數達到4014。如需查詢(xún)本站相關(guān)重量信息,可點(diǎn)擊“愛(ài)站數據”“Chinaz“數據”輸入;參考當前網(wǎng)站數據,建議大家參考愛(ài)站數據,更多網(wǎng)站價(jià)值評價(jià)因素如:API_SMS壓測_偽原創(chuàng )Tools_seo外鏈推廣、免費名片點(diǎn)贊訪(fǎng)問(wèn)速度、搜索引擎收錄、索引量、用戶(hù)體驗等;當然要評價(jià)一個(gè)網(wǎng)站的價(jià)值,最重要的還是要評價(jià)自己的需求和需求,一些準確的數據,需要找API_SMS壓測_偽原創(chuàng )tool_seo外鏈推廣,免費名片像站長(cháng)協(xié)商提供。比如站內IP、PV、跳出率等!
關(guān)于A(yíng)PI_短信壓測_偽原創(chuàng )tool_seo外鏈推廣,免費名片樣特別聲明
本站小島導航網(wǎng)提供的API_SMS壓測_偽原創(chuàng )tool_seo外鏈推廣,免費名片點(diǎn)贊均來(lái)自網(wǎng)絡(luò ),不保證外鏈的準確性和完整性。同時(shí),對于外部鏈接網(wǎng)站的指向,實(shí)際上并不受小島導航網(wǎng)絡(luò )的控制。2022年4月3日下午3點(diǎn)24分收錄,本網(wǎng)頁(yè)內容全部合規合法。后期網(wǎng)頁(yè)內容如有侵權,可直接聯(lián)系網(wǎng)站管理員刪除,小島導航網(wǎng)不承擔任何責任。 查看全部
推薦文章:站群外鏈免費批量發(fā)布到愛(ài)站等高權重網(wǎng)站
站群外鏈批量發(fā)布到愛(ài)站等高權重網(wǎng)站,這樣我們的網(wǎng)站可以快速獲取收錄,站群 手動(dòng)發(fā)布外鏈是一項耗時(shí)耗力的工作。 站群外鏈批量發(fā)布工具可以模擬手動(dòng)完成機械站群外鏈發(fā)布操作。
在站群外鏈的建設中,理論上可以利用站群大量的主域來(lái)提高整個(gè)外鏈的廣度。 站群外鏈工具免費,操作簡(jiǎn)單。只需簡(jiǎn)單的點(diǎn)擊,即可完成外鏈的批量發(fā)布。我們需要控制站群外鏈的比例,尤其是當我們主域的外鏈數量比較有限的時(shí)候。
發(fā)布外鏈的方式有很多種,但我們需要選擇高質(zhì)量的外鏈。高權重的外部鏈接是我們的首選。我們可以使用我們自己的高權重網(wǎng)站、論壇、愛(ài)站站長(cháng)主頁(yè)等
我們擁有的高質(zhì)量反向鏈接越多,搜索引擎就越會(huì )將我們視為專(zhuān)家。搜索引擎認為我們擁有的專(zhuān)業(yè)知識越多,我們的頁(yè)面排名就越高。我們甚至可以與我們在同一領(lǐng)域的其他網(wǎng)站合作,交換反向鏈接和來(lái)賓帖子。我們可以通過(guò)加入 Slack 社區來(lái)建立聯(lián)系來(lái)找到這些網(wǎng)站。

通過(guò)訪(fǎng)客發(fā)布和協(xié)作鏈接構建增加反向鏈接,我們已經(jīng)向我們展示了如何通過(guò)我們自己的頁(yè)面增加自然流量,但是我們是否知道其他可以提高我們排名的 網(wǎng)站s ?當其他 網(wǎng)站 鏈接到我們的內容或將我們列為客座博主時(shí),他們正在為我們的 網(wǎng)站 創(chuàng )建便于搜索的“反向鏈接”。
使用內部鏈接,這有助于搜索者更多地了解他們感興趣的主題。我們可以通過(guò)在其自然有意義的內容中嵌入內部鏈接來(lái)利用它們。嵌入內部鏈接時(shí),選擇與我們?yōu)樵擁?yè)面定位的關(guān)鍵字接近的錨文本。例如,如果我們的目標是“Wallet 采集”和“Watch 采集”,請使用“Wallet 采集”和“Watch Set”等變體。
主題集群是與整體主題或主題相關(guān)的內容集群。對于主題集群,通常有稱(chēng)為“父頁(yè)面”的主頁(yè)面和稱(chēng)為“子頁(yè)面”的子頁(yè)面。父頁(yè)面涵蓋了一般主題和指向具有更具體內容的子頁(yè)面的鏈接。
搜索引擎的算法偏愛(ài)主題集群,因為它們可以幫助搜索者深入了解他們感興趣的主題。因此,如果搜索者渴望了解有關(guān)巧克力蛋糕的所有信息,搜索引擎會(huì )很樂(lè )意分享我們采集的巧克力蛋糕帖子。

長(cháng)期 SEO 成功的關(guān)鍵是增加自然流量。為了提高我們頁(yè)面的SEO,站群外鏈工具還支持自動(dòng)采集偽原創(chuàng )發(fā)布和關(guān)鍵詞挖掘功能。通過(guò)關(guān)鍵詞挖礦,你可以讓我們獲得海量行業(yè)相關(guān)的關(guān)鍵詞、流行語(yǔ)和下拉菜單。
站群在搭建外鏈的同時(shí),也要注意網(wǎng)站的優(yōu)化。 站群外鏈工具可以讓我們的站群內容快速填充更新,同時(shí)可以批量發(fā)布外鏈。管理??梢暬?yè)面讓我們可以在一個(gè)顯示中查看管理站群的多個(gè)數據信息,無(wú)論是網(wǎng)站收錄、內部鏈接數、蜘蛛光顧曲線(xiàn)還是關(guān)鍵詞排名可以輕松管理。
站群外鏈搭建的分享到此結束。通過(guò)不斷增加反向鏈接和友情鏈接的建設,可以快速獲得搜索引擎平臺的信任,讓我們的收錄排名不斷提升。如果您對站群外部鏈接的搭建感興趣,不妨點(diǎn)擊三個(gè)鏈接留言討論。
推薦文章:API_短信測壓_偽原創(chuàng )工具_seo外鏈推廣,免費名片贊
API_短信壓測_偽原創(chuàng )tool_seo外鏈推廣,免費名片點(diǎn)贊數達到4014。如需查詢(xún)本站相關(guān)重量信息,可點(diǎn)擊“愛(ài)站數據”“Chinaz“數據”輸入;參考當前網(wǎng)站數據,建議大家參考愛(ài)站數據,更多網(wǎng)站價(jià)值評價(jià)因素如:API_SMS壓測_偽原創(chuàng )Tools_seo外鏈推廣、免費名片點(diǎn)贊訪(fǎng)問(wèn)速度、搜索引擎收錄、索引量、用戶(hù)體驗等;當然要評價(jià)一個(gè)網(wǎng)站的價(jià)值,最重要的還是要評價(jià)自己的需求和需求,一些準確的數據,需要找API_SMS壓測_偽原創(chuàng )tool_seo外鏈推廣,免費名片像站長(cháng)協(xié)商提供。比如站內IP、PV、跳出率等!

關(guān)于A(yíng)PI_短信壓測_偽原創(chuàng )tool_seo外鏈推廣,免費名片樣特別聲明

本站小島導航網(wǎng)提供的API_SMS壓測_偽原創(chuàng )tool_seo外鏈推廣,免費名片點(diǎn)贊均來(lái)自網(wǎng)絡(luò ),不保證外鏈的準確性和完整性。同時(shí),對于外部鏈接網(wǎng)站的指向,實(shí)際上并不受小島導航網(wǎng)絡(luò )的控制。2022年4月3日下午3點(diǎn)24分收錄,本網(wǎng)頁(yè)內容全部合規合法。后期網(wǎng)頁(yè)內容如有侵權,可直接聯(lián)系網(wǎng)站管理員刪除,小島導航網(wǎng)不承擔任何責任。
網(wǎng)站自動(dòng)采集發(fā)布,一鍵標題提取,自動(dòng)上傳(圖)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 124 次瀏覽 ? 2022-08-26 03:03
網(wǎng)站自動(dòng)采集發(fā)布,一鍵標題提取,自動(dòng)上傳,內容全網(wǎng)監控,關(guān)鍵詞批量定位,使用后效果有目共睹,
數據魔方,這個(gè)基本滿(mǎn)足國內用戶(hù)的需求了。
你可以用百度站長(cháng)平臺的統計模塊,將需要的數據添加進(jìn)去就可以了。
阿里指數或億邦動(dòng)力,
用傳統的baidu統計什么的很多呀。
量子統計數據。還有一家叫bi大數據,不過(guò)我沒(méi)用過(guò)。
blink或者網(wǎng)站流量魔方
流量魔方不錯,
官網(wǎng),量子統計,
可以用blink的流量統計,量子統計(更新太慢,
定位目標用戶(hù)在哪里
他們家官網(wǎng)上的量子統計,
看好blink的流量統計
行云分析
流量魔方挺不錯的,適合用blink的,
百度統計的本地版——流量魔方,
用自己的數據做網(wǎng)站數據統計。不是大站,也沒(méi)有人投訴。
如果國內的數據質(zhì)量還可以的話(huà),可以用友盟,百度統計和站長(cháng)平臺這種,另外,我覺(jué)得還可以用麥子數據的infostation,支持按設備分配,為網(wǎng)站提供全網(wǎng)服務(wù)。
無(wú)覓網(wǎng),
&ucgroups.urlzistheleadingwebdatamarketplace,whichisdesignedtomeetclients,includingsemanticanalytics,googleanalyticsandbinganalytics 查看全部
網(wǎng)站自動(dòng)采集發(fā)布,一鍵標題提取,自動(dòng)上傳(圖)
網(wǎng)站自動(dòng)采集發(fā)布,一鍵標題提取,自動(dòng)上傳,內容全網(wǎng)監控,關(guān)鍵詞批量定位,使用后效果有目共睹,
數據魔方,這個(gè)基本滿(mǎn)足國內用戶(hù)的需求了。
你可以用百度站長(cháng)平臺的統計模塊,將需要的數據添加進(jìn)去就可以了。
阿里指數或億邦動(dòng)力,
用傳統的baidu統計什么的很多呀。
量子統計數據。還有一家叫bi大數據,不過(guò)我沒(méi)用過(guò)。

blink或者網(wǎng)站流量魔方
流量魔方不錯,
官網(wǎng),量子統計,
可以用blink的流量統計,量子統計(更新太慢,
定位目標用戶(hù)在哪里
他們家官網(wǎng)上的量子統計,
看好blink的流量統計

行云分析
流量魔方挺不錯的,適合用blink的,
百度統計的本地版——流量魔方,
用自己的數據做網(wǎng)站數據統計。不是大站,也沒(méi)有人投訴。
如果國內的數據質(zhì)量還可以的話(huà),可以用友盟,百度統計和站長(cháng)平臺這種,另外,我覺(jué)得還可以用麥子數據的infostation,支持按設備分配,為網(wǎng)站提供全網(wǎng)服務(wù)。
無(wú)覓網(wǎng),
&ucgroups.urlzistheleadingwebdatamarketplace,whichisdesignedtomeetclients,includingsemanticanalytics,googleanalyticsandbinganalytics
搭建一個(gè)小說(shuō)網(wǎng)站:附帶全自動(dòng)采集 流量來(lái)得快、變現容易(搭建教程 源碼)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 124 次瀏覽 ? 2022-08-25 20:31
一、課程介紹
小說(shuō)網(wǎng)主要特點(diǎn)就是資源豐富,上萬(wàn)本的小說(shuō)只是起步,每天還要保持不斷的更新最新的小說(shuō)資源庫,除了大牌,其他幾乎都是批量采集的
網(wǎng)站想要做好就必須要有龐大的資源量來(lái)支撐,作為一種古老的信息載體是非常適合進(jìn)行流量變現的,這類(lèi)看書(shū)人群還有一個(gè)顯著(zhù)特征就是極其有耐心
優(yōu)勢就是流量來(lái)得快、變現容易、網(wǎng)站維護簡(jiǎn)單
那么今天阿風(fēng)會(huì )和大家一起搭建出一個(gè)和視頻一模一樣的小說(shuō)站點(diǎn)
所有的實(shí)操步驟我將會(huì )在視頻中帶著(zhù)大家一同實(shí)操,沒(méi)有基礎,你們只需要跟著(zhù)做就可以了
二、實(shí)操教學(xué)
此程序是快速架設小說(shuō)類(lèi)網(wǎng)站首選,靈活,方便,人性化設計簡(jiǎn)單易用是最大的特色,批量采集目標網(wǎng)站數據或使用數據聯(lián)盟,即可自動(dòng)采集獲取大量數據
1、安裝寶塔面板PHP7.2
2、軟件商店中PHP拓展安裝:fileinfo3、網(wǎng)站偽靜態(tài)設置:Tinkphp
4、小說(shuō)源碼上傳到寶塔域名文件夾根目錄
5、訪(fǎng)問(wèn):站點(diǎn)域名/install,進(jìn)行安裝
6、設置網(wǎng)站基本信息,選擇性手動(dòng)發(fā)布和自動(dòng)采集
三、盈利變現
1、廣告聯(lián)盟(最常見(jiàn))
2、收取會(huì )員費(不推薦使用) 查看全部
搭建一個(gè)小說(shuō)網(wǎng)站:附帶全自動(dòng)采集 流量來(lái)得快、變現容易(搭建教程 源碼)
一、課程介紹
小說(shuō)網(wǎng)主要特點(diǎn)就是資源豐富,上萬(wàn)本的小說(shuō)只是起步,每天還要保持不斷的更新最新的小說(shuō)資源庫,除了大牌,其他幾乎都是批量采集的
網(wǎng)站想要做好就必須要有龐大的資源量來(lái)支撐,作為一種古老的信息載體是非常適合進(jìn)行流量變現的,這類(lèi)看書(shū)人群還有一個(gè)顯著(zhù)特征就是極其有耐心
優(yōu)勢就是流量來(lái)得快、變現容易、網(wǎng)站維護簡(jiǎn)單

那么今天阿風(fēng)會(huì )和大家一起搭建出一個(gè)和視頻一模一樣的小說(shuō)站點(diǎn)
所有的實(shí)操步驟我將會(huì )在視頻中帶著(zhù)大家一同實(shí)操,沒(méi)有基礎,你們只需要跟著(zhù)做就可以了
二、實(shí)操教學(xué)
此程序是快速架設小說(shuō)類(lèi)網(wǎng)站首選,靈活,方便,人性化設計簡(jiǎn)單易用是最大的特色,批量采集目標網(wǎng)站數據或使用數據聯(lián)盟,即可自動(dòng)采集獲取大量數據
1、安裝寶塔面板PHP7.2
2、軟件商店中PHP拓展安裝:fileinfo3、網(wǎng)站偽靜態(tài)設置:Tinkphp

4、小說(shuō)源碼上傳到寶塔域名文件夾根目錄
5、訪(fǎng)問(wèn):站點(diǎn)域名/install,進(jìn)行安裝
6、設置網(wǎng)站基本信息,選擇性手動(dòng)發(fā)布和自動(dòng)采集
三、盈利變現
1、廣告聯(lián)盟(最常見(jiàn))
2、收取會(huì )員費(不推薦使用)
搭建一個(gè)小說(shuō)網(wǎng)站:附帶全自動(dòng)采集 流量來(lái)得快、變現容易(搭建教程+源碼
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 264 次瀏覽 ? 2022-08-19 13:22
一、課程介紹
小說(shuō)網(wǎng)主要特點(diǎn)就是資源豐富,上萬(wàn)本的小說(shuō)只是起步,每天還要保持不斷的更新最新的小說(shuō)資源庫,除了大牌,其他幾乎都是批量采集的
網(wǎng)站想要做好就必須要有龐大的資源量來(lái)支撐,作為一種古老的信息載體是非常適合進(jìn)行流量變現的,這類(lèi)看書(shū)人群還有一個(gè)顯著(zhù)特征就是極其有耐心
優(yōu)勢就是流量來(lái)得快、變現容易、網(wǎng)站維護簡(jiǎn)單
那么今天阿風(fēng)會(huì )和大家一起搭建出一個(gè)和視頻一模一樣的小說(shuō)站點(diǎn)
所有的實(shí)操步驟我將會(huì )在視頻中帶著(zhù)大家一同實(shí)操,沒(méi)有基礎,你們只需要跟著(zhù)做就可以了
二、實(shí)操教學(xué)
此程序是快速架設小說(shuō)類(lèi)網(wǎng)站首選,靈活,方便,人性化設計簡(jiǎn)單易用是最大的特色,批量采集目標網(wǎng)站數據或使用數據聯(lián)盟,即可自動(dòng)采集獲取大量數據
1、安裝寶塔面板PHP7.2
2、軟件商店中PHP拓展安裝:fileinfo
3、網(wǎng)站偽靜態(tài)設置:Tinkphp
4、小說(shuō)源碼上傳到寶塔域名文件夾根目錄
5、訪(fǎng)問(wèn):站點(diǎn)域名/install,進(jìn)行安裝
6、設置網(wǎng)站基本信息,選擇性手動(dòng)發(fā)布和自動(dòng)采集
三、盈利變現
1、廣告聯(lián)盟(最常見(jiàn))
2、收取會(huì )員費(不推薦
? 查看全部
搭建一個(gè)小說(shuō)網(wǎng)站:附帶全自動(dòng)采集 流量來(lái)得快、變現容易(搭建教程+源碼
一、課程介紹
小說(shuō)網(wǎng)主要特點(diǎn)就是資源豐富,上萬(wàn)本的小說(shuō)只是起步,每天還要保持不斷的更新最新的小說(shuō)資源庫,除了大牌,其他幾乎都是批量采集的
網(wǎng)站想要做好就必須要有龐大的資源量來(lái)支撐,作為一種古老的信息載體是非常適合進(jìn)行流量變現的,這類(lèi)看書(shū)人群還有一個(gè)顯著(zhù)特征就是極其有耐心
優(yōu)勢就是流量來(lái)得快、變現容易、網(wǎng)站維護簡(jiǎn)單
那么今天阿風(fēng)會(huì )和大家一起搭建出一個(gè)和視頻一模一樣的小說(shuō)站點(diǎn)
所有的實(shí)操步驟我將會(huì )在視頻中帶著(zhù)大家一同實(shí)操,沒(méi)有基礎,你們只需要跟著(zhù)做就可以了

二、實(shí)操教學(xué)
此程序是快速架設小說(shuō)類(lèi)網(wǎng)站首選,靈活,方便,人性化設計簡(jiǎn)單易用是最大的特色,批量采集目標網(wǎng)站數據或使用數據聯(lián)盟,即可自動(dòng)采集獲取大量數據
1、安裝寶塔面板PHP7.2
2、軟件商店中PHP拓展安裝:fileinfo
3、網(wǎng)站偽靜態(tài)設置:Tinkphp
4、小說(shuō)源碼上傳到寶塔域名文件夾根目錄

5、訪(fǎng)問(wèn):站點(diǎn)域名/install,進(jìn)行安裝
6、設置網(wǎng)站基本信息,選擇性手動(dòng)發(fā)布和自動(dòng)采集
三、盈利變現
1、廣告聯(lián)盟(最常見(jiàn))
2、收取會(huì )員費(不推薦
?
跨境電商網(wǎng)站自動(dòng)采集發(fā)布到、亞馬遜賣(mài)家薈聚
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 148 次瀏覽 ? 2022-08-13 15:02
網(wǎng)站自動(dòng)采集發(fā)布到、亞馬遜賣(mài)家薈聚薈聚是一家專(zhuān)注于亞馬遜、速賣(mài)通、wish,東南亞lazada,shopee、priceminister、newegg等平臺運營(yíng)的跨境電商企業(yè)。
現在我們可以發(fā)布訂單啊,我們做的是廣告推廣,可以自定義搜索,自動(dòng)將搜索結果顯示在我們的shopify店鋪上,顧客購買(mǎi)后自動(dòng)發(fā)送到亞馬遜站點(diǎn)去面單提交商品發(fā)布到亞馬遜,
有利可圖就可以,自己用心經(jīng)營(yíng)做淘寶、天貓。這不是什么大不了的事情,真正的大數據是不能被操縱的,你的上家可以天天刷單讓你多銷(xiāo)量,為了得到你的資源,發(fā)高價(jià)格給你,但那都是別人。真正的大數據是可以對你搜索過(guò)的內容幫你分析出產(chǎn)品潛力、市場(chǎng)潛力等等。還是不懂的話(huà),
要看你發(fā)布什么產(chǎn)品,多大平臺,亞馬遜還是速賣(mài)通,還是獨立站,那么大平臺一般來(lái)說(shuō)你做站內廣告推廣比較好,因為競爭激烈,首頁(yè)必有你的產(chǎn)品,站外可以做一些上搜索引擎知名度的seo,現在做黑科技,你可以搜索一下看看有沒(méi)有你發(fā)布的產(chǎn)品,只是上架要注意一下關(guān)鍵詞,不要重復或者一字不錯的去填寫(xiě)就行。獨立站就是在站外做上去,這個(gè)看有沒(méi)有銷(xiāo)量粉絲,
從我目前從事的網(wǎng)站營(yíng)銷(xiāo)的操作習慣來(lái)看,一般建議優(yōu)先使用自然搜索引擎優(yōu)化,因為這些是最優(yōu)的roi最高的推廣,基本做到這樣已經(jīng)可以達到營(yíng)銷(xiāo)很好的效果了。獨立站我倒覺(jué)得可以不必去花大量精力在這上面。當然如果你的產(chǎn)品能夠通過(guò)網(wǎng)站廣告帶到大網(wǎng)站或者小網(wǎng)站,那么流量效果會(huì )明顯高于你在其他平臺推廣。網(wǎng)站廣告如果能夠達到效果的最大化應該是把投入的金錢(qián)盡可能的效用在獲取網(wǎng)站流量而不是在獲取廣告點(diǎn)擊上面。 查看全部
跨境電商網(wǎng)站自動(dòng)采集發(fā)布到、亞馬遜賣(mài)家薈聚
網(wǎng)站自動(dòng)采集發(fā)布到、亞馬遜賣(mài)家薈聚薈聚是一家專(zhuān)注于亞馬遜、速賣(mài)通、wish,東南亞lazada,shopee、priceminister、newegg等平臺運營(yíng)的跨境電商企業(yè)。

現在我們可以發(fā)布訂單啊,我們做的是廣告推廣,可以自定義搜索,自動(dòng)將搜索結果顯示在我們的shopify店鋪上,顧客購買(mǎi)后自動(dòng)發(fā)送到亞馬遜站點(diǎn)去面單提交商品發(fā)布到亞馬遜,
有利可圖就可以,自己用心經(jīng)營(yíng)做淘寶、天貓。這不是什么大不了的事情,真正的大數據是不能被操縱的,你的上家可以天天刷單讓你多銷(xiāo)量,為了得到你的資源,發(fā)高價(jià)格給你,但那都是別人。真正的大數據是可以對你搜索過(guò)的內容幫你分析出產(chǎn)品潛力、市場(chǎng)潛力等等。還是不懂的話(huà),

要看你發(fā)布什么產(chǎn)品,多大平臺,亞馬遜還是速賣(mài)通,還是獨立站,那么大平臺一般來(lái)說(shuō)你做站內廣告推廣比較好,因為競爭激烈,首頁(yè)必有你的產(chǎn)品,站外可以做一些上搜索引擎知名度的seo,現在做黑科技,你可以搜索一下看看有沒(méi)有你發(fā)布的產(chǎn)品,只是上架要注意一下關(guān)鍵詞,不要重復或者一字不錯的去填寫(xiě)就行。獨立站就是在站外做上去,這個(gè)看有沒(méi)有銷(xiāo)量粉絲,
從我目前從事的網(wǎng)站營(yíng)銷(xiāo)的操作習慣來(lái)看,一般建議優(yōu)先使用自然搜索引擎優(yōu)化,因為這些是最優(yōu)的roi最高的推廣,基本做到這樣已經(jīng)可以達到營(yíng)銷(xiāo)很好的效果了。獨立站我倒覺(jué)得可以不必去花大量精力在這上面。當然如果你的產(chǎn)品能夠通過(guò)網(wǎng)站廣告帶到大網(wǎng)站或者小網(wǎng)站,那么流量效果會(huì )明顯高于你在其他平臺推廣。網(wǎng)站廣告如果能夠達到效果的最大化應該是把投入的金錢(qián)盡可能的效用在獲取網(wǎng)站流量而不是在獲取廣告點(diǎn)擊上面。
搭建一個(gè)小說(shuō)網(wǎng)站:附帶全自動(dòng)采集 流量來(lái)得快、變現容易(搭建教程+源碼)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 185 次瀏覽 ? 2022-08-08 01:47
一、課程介紹
小說(shuō)網(wǎng)主要特點(diǎn)就是資源豐富,上萬(wàn)本的小說(shuō)只是起步,每天還要保持不斷的更新最新的小說(shuō)資源庫,除了大牌,其他幾乎都是批量采集的
網(wǎng)站想要做好就必須要有龐大的資源量來(lái)支撐,作為一種古老的信息載體是非常適合進(jìn)行流量變現的,這類(lèi)看書(shū)人群還有一個(gè)顯著(zhù)特征就是極其有耐心
優(yōu)勢就是流量來(lái)得快、變現容易、網(wǎng)站維護簡(jiǎn)單
那么今天阿風(fēng)會(huì )和大家一起搭建出一個(gè)和視頻一模一樣的小說(shuō)站點(diǎn)
所有的實(shí)操步驟我將會(huì )在視頻中帶著(zhù)大家一同實(shí)操,沒(méi)有基礎,你們只需要跟著(zhù)做就可以了
二、實(shí)操教學(xué)
此程序是快速架設小說(shuō)類(lèi)網(wǎng)站首選,靈活,方便,人性化設計簡(jiǎn)單易用是最大的特色,批量采集目標網(wǎng)站數據或使用數據聯(lián)盟,即可自動(dòng)采集獲取大量數據
1、安裝寶塔面板PHP7.2
2、軟件商店中PHP拓展安裝:fileinfo3、網(wǎng)站偽靜態(tài)設置:Tinkphp
4、小說(shuō)源碼上傳到寶塔域名文件夾根目錄
5、訪(fǎng)問(wèn):站點(diǎn)域名/install,進(jìn)行安裝
6、設置網(wǎng)站基本信息,選擇性手動(dòng)發(fā)布和自動(dòng)采集
三、盈利變現
1、廣告聯(lián)盟(最常見(jiàn))
2、收取會(huì )員費(不推薦使用) 查看全部
搭建一個(gè)小說(shuō)網(wǎng)站:附帶全自動(dòng)采集 流量來(lái)得快、變現容易(搭建教程+源碼)
一、課程介紹
小說(shuō)網(wǎng)主要特點(diǎn)就是資源豐富,上萬(wàn)本的小說(shuō)只是起步,每天還要保持不斷的更新最新的小說(shuō)資源庫,除了大牌,其他幾乎都是批量采集的
網(wǎng)站想要做好就必須要有龐大的資源量來(lái)支撐,作為一種古老的信息載體是非常適合進(jìn)行流量變現的,這類(lèi)看書(shū)人群還有一個(gè)顯著(zhù)特征就是極其有耐心
優(yōu)勢就是流量來(lái)得快、變現容易、網(wǎng)站維護簡(jiǎn)單
那么今天阿風(fēng)會(huì )和大家一起搭建出一個(gè)和視頻一模一樣的小說(shuō)站點(diǎn)

所有的實(shí)操步驟我將會(huì )在視頻中帶著(zhù)大家一同實(shí)操,沒(méi)有基礎,你們只需要跟著(zhù)做就可以了
二、實(shí)操教學(xué)
此程序是快速架設小說(shuō)類(lèi)網(wǎng)站首選,靈活,方便,人性化設計簡(jiǎn)單易用是最大的特色,批量采集目標網(wǎng)站數據或使用數據聯(lián)盟,即可自動(dòng)采集獲取大量數據
1、安裝寶塔面板PHP7.2
2、軟件商店中PHP拓展安裝:fileinfo3、網(wǎng)站偽靜態(tài)設置:Tinkphp

4、小說(shuō)源碼上傳到寶塔域名文件夾根目錄
5、訪(fǎng)問(wèn):站點(diǎn)域名/install,進(jìn)行安裝
6、設置網(wǎng)站基本信息,選擇性手動(dòng)發(fā)布和自動(dòng)采集
三、盈利變現
1、廣告聯(lián)盟(最常見(jiàn))
2、收取會(huì )員費(不推薦使用)
網(wǎng)站自動(dòng)采集發(fā)布情況下如何提高采集采集成功率?
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 128 次瀏覽 ? 2022-07-30 02:01
網(wǎng)站自動(dòng)采集發(fā)布情況下,除了第一個(gè),后面會(huì )有無(wú)數個(gè)一樣的,都會(huì )選這個(gè),只是重復程度不同,來(lái)提高采集成功率。用些程序根據重復率判斷用戶(hù)是否已經(jīng)采集完成。
這個(gè)問(wèn)題基本無(wú)解,ai都不行,只能靠人工來(lái)識別,
如果覺(jué)得自己的手工工作太繁瑣??梢越柚W(wǎng)站數據采集軟件采集相關(guān)網(wǎng)站的信息。
根據這個(gè)情況,
原則上只能對無(wú)關(guān)聯(lián)的網(wǎng)站進(jìn)行采集,如果你想采集這個(gè)系列網(wǎng)站的所有內容,要么找人寫(xiě)爬蟲(chóng),
真心推薦佳互動(dòng)的gtk自動(dòng)采集器功能強大容易用本地采集,可按條件直接自動(dòng)下載。還有自定義篩選。
從一個(gè)頁(yè)面去搜索去爬取基本做不到,因為每個(gè)網(wǎng)站的功能都不一樣。你找一個(gè)程序就可以了,現在免費的好多,
自動(dòng)采集推薦你爬蟲(chóng)采集的,
這個(gè)很簡(jiǎn)單,準備工作就是先下載網(wǎng)頁(yè)后不能cookie直接上網(wǎng)站搜索,然后很多網(wǎng)站都用了flash的api,
每個(gè)網(wǎng)站的具體網(wǎng)址我都想不出來(lái),而且你提到這個(gè)網(wǎng)站標題就是導入數據的,跟你這個(gè)中文介紹完全沒(méi)關(guān)系。這種情況下搜索引擎爬蟲(chóng)爬取到哪個(gè)頁(yè)面就會(huì )采哪個(gè)頁(yè)面,所以你可以嘗試看看搜索“pw#xx#zz#qz”是不是也可以搜索到她們的內容。如果也可以我推薦你爬取一下的在線(xiàn)幫助更新報告。 查看全部
網(wǎng)站自動(dòng)采集發(fā)布情況下如何提高采集采集成功率?
網(wǎng)站自動(dòng)采集發(fā)布情況下,除了第一個(gè),后面會(huì )有無(wú)數個(gè)一樣的,都會(huì )選這個(gè),只是重復程度不同,來(lái)提高采集成功率。用些程序根據重復率判斷用戶(hù)是否已經(jīng)采集完成。
這個(gè)問(wèn)題基本無(wú)解,ai都不行,只能靠人工來(lái)識別,
如果覺(jué)得自己的手工工作太繁瑣??梢越柚W(wǎng)站數據采集軟件采集相關(guān)網(wǎng)站的信息。

根據這個(gè)情況,
原則上只能對無(wú)關(guān)聯(lián)的網(wǎng)站進(jìn)行采集,如果你想采集這個(gè)系列網(wǎng)站的所有內容,要么找人寫(xiě)爬蟲(chóng),
真心推薦佳互動(dòng)的gtk自動(dòng)采集器功能強大容易用本地采集,可按條件直接自動(dòng)下載。還有自定義篩選。

從一個(gè)頁(yè)面去搜索去爬取基本做不到,因為每個(gè)網(wǎng)站的功能都不一樣。你找一個(gè)程序就可以了,現在免費的好多,
自動(dòng)采集推薦你爬蟲(chóng)采集的,
這個(gè)很簡(jiǎn)單,準備工作就是先下載網(wǎng)頁(yè)后不能cookie直接上網(wǎng)站搜索,然后很多網(wǎng)站都用了flash的api,
每個(gè)網(wǎng)站的具體網(wǎng)址我都想不出來(lái),而且你提到這個(gè)網(wǎng)站標題就是導入數據的,跟你這個(gè)中文介紹完全沒(méi)關(guān)系。這種情況下搜索引擎爬蟲(chóng)爬取到哪個(gè)頁(yè)面就會(huì )采哪個(gè)頁(yè)面,所以你可以嘗試看看搜索“pw#xx#zz#qz”是不是也可以搜索到她們的內容。如果也可以我推薦你爬取一下的在線(xiàn)幫助更新報告。
網(wǎng)站自動(dòng)采集發(fā)布最好用自動(dòng)發(fā)布工具采集(組圖)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 168 次瀏覽 ? 2022-07-21 22:01
網(wǎng)站自動(dòng)采集發(fā)布最好用自動(dòng)發(fā)布工具采集網(wǎng)站新聞客戶(hù)端自動(dòng)發(fā)布網(wǎng)站各個(gè)主流平臺的推送推送所有關(guān)鍵詞,用amazon推送就發(fā)布亞馬遜amazon上發(fā)布ebay平臺的東西,用速賣(mài)通,速賣(mài)通上發(fā)布英國東西只能用facebook,google等一些平臺的賬號,把這些人發(fā)布到這些地方facebook:@你同事發(fā)布到小站shopify:@你同事發(fā)布到小站paypal:@你同事你同事發(fā)布到小站facebook我們可以發(fā)布各個(gè)地區的一些模特類(lèi)的,然后通過(guò)購買(mǎi)channel發(fā)布到亞馬遜首頁(yè)速賣(mài)通我們可以把他們發(fā)布到速賣(mài)通首頁(yè)ebay我們可以把他們發(fā)布到ebay首頁(yè)而你同事發(fā)布在listing中你通過(guò)他們一鍵發(fā)布到亞馬遜就是自動(dòng)采集工具自動(dòng)發(fā)布工具發(fā)布地址:百度搜索“發(fā)布機器人”。
注冊小豬短租在簡(jiǎn)介里搜索“自動(dòng)化”可以看到各式各樣的自動(dòng)化軟件以及針對性解決方案。這么來(lái)看就算我沒(méi)理解錯的話(huà),提主應該是希望能夠快速發(fā)布公寓信息。這個(gè)項目很簡(jiǎn)單,目標人群是“中國人”。我當初也是做了個(gè)假房源,也提供自動(dòng)化發(fā)布服務(wù),效果我看了下是真的不怎么樣。后來(lái)我嘗試讓客戶(hù)直接聯(lián)系我們的發(fā)布機器人,效果還行。
這就是一個(gè)發(fā)布信息的開(kāi)發(fā)工具,針對中國人發(fā)布信息。效果如圖:很簡(jiǎn)單吧?做信息流的,如果是我,就加入百度信息流推薦的那些信息源。數據會(huì )定期更新,如果你的產(chǎn)品你是大大大頭頭,自然會(huì )有很多人來(lái)找你聯(lián)系你。也就是說(shuō),你就算發(fā)布的信息是在墻外的網(wǎng)站你也可以發(fā)布在我們平臺上。他這邊接收簡(jiǎn)單的工具,就可以按照你想要的發(fā)布效果,制定推薦算法模型,給你發(fā)布成功。
說(shuō)到這里就可以閉眼隨便玩玩自動(dòng)化發(fā)布軟件,弄點(diǎn)輔助工具了,發(fā)布文章有配圖插件、翻譯的話(huà)也是可以直接插語(yǔ)音(每條至少15秒)。一鍵發(fā)布的話(huà),你就只需要按照接下來(lái)說(shuō)的,去做就行了。當然,如果你需要的是公寓產(chǎn)品的深度分析和深度定位,那就難些了。如果你只是普通的用戶(hù),就會(huì )比較簡(jiǎn)單,用一個(gè)公寓點(diǎn)點(diǎn)鼠標就行了。你要是需要我直接發(fā)給你教程,怕引起大家的不適。你可以私信我。 查看全部
網(wǎng)站自動(dòng)采集發(fā)布最好用自動(dòng)發(fā)布工具采集(組圖)
網(wǎng)站自動(dòng)采集發(fā)布最好用自動(dòng)發(fā)布工具采集網(wǎng)站新聞客戶(hù)端自動(dòng)發(fā)布網(wǎng)站各個(gè)主流平臺的推送推送所有關(guān)鍵詞,用amazon推送就發(fā)布亞馬遜amazon上發(fā)布ebay平臺的東西,用速賣(mài)通,速賣(mài)通上發(fā)布英國東西只能用facebook,google等一些平臺的賬號,把這些人發(fā)布到這些地方facebook:@你同事發(fā)布到小站shopify:@你同事發(fā)布到小站paypal:@你同事你同事發(fā)布到小站facebook我們可以發(fā)布各個(gè)地區的一些模特類(lèi)的,然后通過(guò)購買(mǎi)channel發(fā)布到亞馬遜首頁(yè)速賣(mài)通我們可以把他們發(fā)布到速賣(mài)通首頁(yè)ebay我們可以把他們發(fā)布到ebay首頁(yè)而你同事發(fā)布在listing中你通過(guò)他們一鍵發(fā)布到亞馬遜就是自動(dòng)采集工具自動(dòng)發(fā)布工具發(fā)布地址:百度搜索“發(fā)布機器人”。

注冊小豬短租在簡(jiǎn)介里搜索“自動(dòng)化”可以看到各式各樣的自動(dòng)化軟件以及針對性解決方案。這么來(lái)看就算我沒(méi)理解錯的話(huà),提主應該是希望能夠快速發(fā)布公寓信息。這個(gè)項目很簡(jiǎn)單,目標人群是“中國人”。我當初也是做了個(gè)假房源,也提供自動(dòng)化發(fā)布服務(wù),效果我看了下是真的不怎么樣。后來(lái)我嘗試讓客戶(hù)直接聯(lián)系我們的發(fā)布機器人,效果還行。

這就是一個(gè)發(fā)布信息的開(kāi)發(fā)工具,針對中國人發(fā)布信息。效果如圖:很簡(jiǎn)單吧?做信息流的,如果是我,就加入百度信息流推薦的那些信息源。數據會(huì )定期更新,如果你的產(chǎn)品你是大大大頭頭,自然會(huì )有很多人來(lái)找你聯(lián)系你。也就是說(shuō),你就算發(fā)布的信息是在墻外的網(wǎng)站你也可以發(fā)布在我們平臺上。他這邊接收簡(jiǎn)單的工具,就可以按照你想要的發(fā)布效果,制定推薦算法模型,給你發(fā)布成功。
說(shuō)到這里就可以閉眼隨便玩玩自動(dòng)化發(fā)布軟件,弄點(diǎn)輔助工具了,發(fā)布文章有配圖插件、翻譯的話(huà)也是可以直接插語(yǔ)音(每條至少15秒)。一鍵發(fā)布的話(huà),你就只需要按照接下來(lái)說(shuō)的,去做就行了。當然,如果你需要的是公寓產(chǎn)品的深度分析和深度定位,那就難些了。如果你只是普通的用戶(hù),就會(huì )比較簡(jiǎn)單,用一個(gè)公寓點(diǎn)點(diǎn)鼠標就行了。你要是需要我直接發(fā)給你教程,怕引起大家的不適。你可以私信我。
產(chǎn)品發(fā)布會(huì )第六期|探索“視覺(jué)智能”關(guān)鍵技術(shù) 實(shí)現大數據深度應用
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 131 次瀏覽 ? 2022-07-20 18:01
7月15日,潤建股份2022年產(chǎn)品發(fā)布會(huì )第六期順利舉辦,公司技術(shù)骨干就“視覺(jué)智能”、“大數據”等領(lǐng)域展開(kāi)了深入探索,向全國23+個(gè)省份市場(chǎng)人員發(fā)布最新研發(fā)成果,并通過(guò)線(xiàn)上互動(dòng),圍繞產(chǎn)品功能亮點(diǎn)、市場(chǎng)潛力、客戶(hù)價(jià)值等話(huà)題內容進(jìn)行溝通交流。
本次發(fā)布會(huì )共發(fā)布兩款產(chǎn)品,分別為“曲尺”視覺(jué)智能開(kāi)放平臺、大數據管家。
“曲尺”視覺(jué)智能開(kāi)放平臺
基于潤建股份在建維行業(yè)豐富的實(shí)踐經(jīng)驗,結合大數據和計算機視覺(jué)AI技術(shù),面向建維公司和行業(yè)應用開(kāi)發(fā)商,提供高效易用的視覺(jué)算法API服務(wù),幫助企業(yè)快速實(shí)現視覺(jué)智能軟硬件解決方案。
▲系統平臺操作演示
產(chǎn)品優(yōu)勢
●基于豐富建維實(shí)踐的視覺(jué)算法平臺
基于潤建股份在建維行業(yè)近20年實(shí)踐經(jīng)驗,安全風(fēng)險意識深刻企業(yè)基因,眾多的項目實(shí)踐有條件收集海量數據素材,為建維細分領(lǐng)域算法提供豐厚的土壤。
●提供高性?xún)r(jià)比的私有化平臺
基于潤建貼地服務(wù)的能力,“曲尺”既可以提供云端API接口(未來(lái)基于五象云谷),也可以提供算法終身授權,又可以針對客戶(hù)需求定制高性?xún)r(jià)比的私有化平臺,為用戶(hù)提供條件,自己“玩轉”算法
●靈活的軟硬一體解決方案
“曲尺”平臺選用通用技術(shù)框架,既可以搭配專(zhuān)用硬件,也可以適配用戶(hù)的硬件(定制芯片量化算法),解決方案靈活。
客戶(hù)價(jià)值
● 快速
一站式算法訓練,顯著(zhù)降低開(kāi)發(fā)周期
基于可視化操作和管理界面,集團隊標注、算力管理、模型訓練于一體,數小時(shí)便可構建自定義模型,顯著(zhù)縮短算法開(kāi)發(fā)周期,滿(mǎn)足應用快速上線(xiàn)的需求。
● 易成
云/臺/端開(kāi)放能力,易于應用開(kāi)發(fā)集成
提供云端、平臺端API和邊緣端SDK的三層開(kāi)放能力,適配pyhton/Java/C++等多種開(kāi)發(fā)語(yǔ)言,便于算法的集成和二次開(kāi)發(fā),解決AI應用“最后一公里”問(wèn)題。
● 增效
自動(dòng)運行,全天不休
使用算法接管人工值守,實(shí)現7*24不間斷,無(wú)論是監控時(shí)長(cháng)和風(fēng)險判斷的準確性上,都超越人工監控,可以大大提升安全防范的效率,有效避免漏判、錯判現象
● 降本
一次付費,終身授權
可根據實(shí)際需求選擇最具性?xún)r(jià)比的軟硬件解決方案,軟硬件不捆綁銷(xiāo)售;定制算法開(kāi)發(fā)一次付費,終身可以使用,無(wú)需按年付費(限制終端),免去長(cháng)期被授權限制的煩惱。
● 安全
平臺私有化部署,保障數據安全
全部平臺可部署于用戶(hù)內網(wǎng),數據集、代碼、算力資源等統一管理,數據資產(chǎn)不外流,核心接口可加密,全面保障用戶(hù)數據安全。
● 自主
適配國產(chǎn)化生態(tài),助力信創(chuàng )自主
平臺端、邊緣端可以根據場(chǎng)景需求,針對國產(chǎn)化硬件進(jìn)行優(yōu)化適配,封裝專(zhuān)用API和SDK,不降低算法精度和效率,滿(mǎn)足各類(lèi)項目信創(chuàng )要求。
大數據管家
通過(guò)采集互聯(lián)網(wǎng)官方媒體、商業(yè)媒體、社交媒體數據,解決用戶(hù)輿情收集效率低、發(fā)布內容錯誤、宣傳效果不達預期的問(wèn)題,提升用戶(hù)單位形象,提高用戶(hù)輿情應急、輿情分析能力,提高宣傳效果。
▲大數據管家—輿情中心應用示意
產(chǎn)品優(yōu)勢
● 數據統計全面
?、俑采w范圍廣
國內數據采集類(lèi)型包含網(wǎng)站、論壇、博客、微博、微信、客戶(hù)端、電子報、長(cháng)視頻、短視頻9個(gè)平臺,境外采集類(lèi)型包含境外、外文、推特、臉書(shū)4個(gè)平臺。
?、诓杉侄锡R全 查看全部
產(chǎn)品發(fā)布會(huì )第六期|探索“視覺(jué)智能”關(guān)鍵技術(shù) 實(shí)現大數據深度應用
7月15日,潤建股份2022年產(chǎn)品發(fā)布會(huì )第六期順利舉辦,公司技術(shù)骨干就“視覺(jué)智能”、“大數據”等領(lǐng)域展開(kāi)了深入探索,向全國23+個(gè)省份市場(chǎng)人員發(fā)布最新研發(fā)成果,并通過(guò)線(xiàn)上互動(dòng),圍繞產(chǎn)品功能亮點(diǎn)、市場(chǎng)潛力、客戶(hù)價(jià)值等話(huà)題內容進(jìn)行溝通交流。
本次發(fā)布會(huì )共發(fā)布兩款產(chǎn)品,分別為“曲尺”視覺(jué)智能開(kāi)放平臺、大數據管家。
“曲尺”視覺(jué)智能開(kāi)放平臺
基于潤建股份在建維行業(yè)豐富的實(shí)踐經(jīng)驗,結合大數據和計算機視覺(jué)AI技術(shù),面向建維公司和行業(yè)應用開(kāi)發(fā)商,提供高效易用的視覺(jué)算法API服務(wù),幫助企業(yè)快速實(shí)現視覺(jué)智能軟硬件解決方案。
▲系統平臺操作演示
產(chǎn)品優(yōu)勢
●基于豐富建維實(shí)踐的視覺(jué)算法平臺
基于潤建股份在建維行業(yè)近20年實(shí)踐經(jīng)驗,安全風(fēng)險意識深刻企業(yè)基因,眾多的項目實(shí)踐有條件收集海量數據素材,為建維細分領(lǐng)域算法提供豐厚的土壤。
●提供高性?xún)r(jià)比的私有化平臺
基于潤建貼地服務(wù)的能力,“曲尺”既可以提供云端API接口(未來(lái)基于五象云谷),也可以提供算法終身授權,又可以針對客戶(hù)需求定制高性?xún)r(jià)比的私有化平臺,為用戶(hù)提供條件,自己“玩轉”算法
●靈活的軟硬一體解決方案
“曲尺”平臺選用通用技術(shù)框架,既可以搭配專(zhuān)用硬件,也可以適配用戶(hù)的硬件(定制芯片量化算法),解決方案靈活。

客戶(hù)價(jià)值
● 快速
一站式算法訓練,顯著(zhù)降低開(kāi)發(fā)周期
基于可視化操作和管理界面,集團隊標注、算力管理、模型訓練于一體,數小時(shí)便可構建自定義模型,顯著(zhù)縮短算法開(kāi)發(fā)周期,滿(mǎn)足應用快速上線(xiàn)的需求。
● 易成
云/臺/端開(kāi)放能力,易于應用開(kāi)發(fā)集成
提供云端、平臺端API和邊緣端SDK的三層開(kāi)放能力,適配pyhton/Java/C++等多種開(kāi)發(fā)語(yǔ)言,便于算法的集成和二次開(kāi)發(fā),解決AI應用“最后一公里”問(wèn)題。
● 增效
自動(dòng)運行,全天不休
使用算法接管人工值守,實(shí)現7*24不間斷,無(wú)論是監控時(shí)長(cháng)和風(fēng)險判斷的準確性上,都超越人工監控,可以大大提升安全防范的效率,有效避免漏判、錯判現象
● 降本
一次付費,終身授權
可根據實(shí)際需求選擇最具性?xún)r(jià)比的軟硬件解決方案,軟硬件不捆綁銷(xiāo)售;定制算法開(kāi)發(fā)一次付費,終身可以使用,無(wú)需按年付費(限制終端),免去長(cháng)期被授權限制的煩惱。
● 安全

平臺私有化部署,保障數據安全
全部平臺可部署于用戶(hù)內網(wǎng),數據集、代碼、算力資源等統一管理,數據資產(chǎn)不外流,核心接口可加密,全面保障用戶(hù)數據安全。
● 自主
適配國產(chǎn)化生態(tài),助力信創(chuàng )自主
平臺端、邊緣端可以根據場(chǎng)景需求,針對國產(chǎn)化硬件進(jìn)行優(yōu)化適配,封裝專(zhuān)用API和SDK,不降低算法精度和效率,滿(mǎn)足各類(lèi)項目信創(chuàng )要求。
大數據管家
通過(guò)采集互聯(lián)網(wǎng)官方媒體、商業(yè)媒體、社交媒體數據,解決用戶(hù)輿情收集效率低、發(fā)布內容錯誤、宣傳效果不達預期的問(wèn)題,提升用戶(hù)單位形象,提高用戶(hù)輿情應急、輿情分析能力,提高宣傳效果。
▲大數據管家—輿情中心應用示意
產(chǎn)品優(yōu)勢
● 數據統計全面
?、俑采w范圍廣
國內數據采集類(lèi)型包含網(wǎng)站、論壇、博客、微博、微信、客戶(hù)端、電子報、長(cháng)視頻、短視頻9個(gè)平臺,境外采集類(lèi)型包含境外、外文、推特、臉書(shū)4個(gè)平臺。
?、诓杉侄锡R全
【轉發(fā)】互聯(lián)網(wǎng)開(kāi)放探針資源自動(dòng)發(fā)現和自動(dòng)訪(fǎng)問(wèn)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 124 次瀏覽 ? 2022-07-16 06:57
構建一個(gè)完整、準確的互聯(lián)網(wǎng)域間拓撲對于協(xié)議設計、故障診斷、安全分析等具有十分重要的意義。然而,互聯(lián)網(wǎng)拓撲構建需要依賴(lài)大規模、分布式的探針。近年來(lái),雖然一些測量平臺致力于部署探針,但是這些探針的數量和覆蓋范圍有限。如果能發(fā)現并利用更多的互聯(lián)網(wǎng)開(kāi)放探針資源,無(wú)疑對于互聯(lián)網(wǎng)拓撲測量而言具有十分重要的意義。
多家互聯(lián)網(wǎng)服務(wù)提供商積極部署Looking Glass (LG) 探針并允許用戶(hù)在這些探針上運行一些測量命令,例如traceroute或BGP。服務(wù)提供商部署LG探針用于提供觀(guān)察其網(wǎng)絡(luò )狀況的窗口以吸引客戶(hù)使用他們的網(wǎng)絡(luò )服務(wù),并幫助調試和解決互聯(lián)網(wǎng)連接和性能問(wèn)題。這些LG探針為研究人員提供了從不同位置(例如核心路由器、邊界路由器等)觀(guān)察互聯(lián)網(wǎng)的機會(huì )。盡管LG探針具有一定的優(yōu)勢,但由于每個(gè)LG網(wǎng)頁(yè)都是獨立運營(yíng)和管理的,缺乏關(guān)于所有可用LG網(wǎng)頁(yè)的集中索引,難以充分發(fā)揮LG探針的價(jià)值。目前研究人員往往使用一些非權威性的web源(包括, PeeringDB, BGP4.as, )發(fā)布的部分LG網(wǎng)頁(yè)的列表,很多LG網(wǎng)頁(yè)可能并沒(méi)有整合到列表中。
為了發(fā)現更多的互聯(lián)網(wǎng)開(kāi)放探針資源,我們提出了一種高效的聚焦爬蟲(chóng)方法用于發(fā)現互聯(lián)網(wǎng)中的LG網(wǎng)站。進(jìn)一步地,為了幫助研究人員更便利地使用LG探針,我們設計了用于自動(dòng)訪(fǎng)問(wèn)LG探針的工具,并公開(kāi)提供了關(guān)于可自動(dòng)訪(fǎng)問(wèn)的LG探針列表。從實(shí)驗結果來(lái)看,相比于之前廣泛使用的1446個(gè)LG探針,我們新發(fā)現的910個(gè)LG探針極大的提升了可用探針的數量(提升62.9%)以及地理和網(wǎng)絡(luò )覆蓋范圍。除此之外,我們還利用部分新發(fā)現的LG探針幫助提升AS拓撲的完整性,實(shí)驗發(fā)現僅用8個(gè)新發(fā)現的LG探針可以幫助補充1428個(gè)新的AS鏈路和10個(gè)新的AS。接下來(lái)將詳細介紹我們的設計思路和實(shí)驗結果。
LG聚焦爬蟲(chóng)設計
1.1概述 萬(wàn)維網(wǎng)中有海量的網(wǎng)站,如果我們爬取每個(gè)網(wǎng)頁(yè)并判斷其是否提供LG服務(wù)來(lái)尋找LG網(wǎng)頁(yè),無(wú)異于大海撈針。因此,我們提出了LG聚焦爬蟲(chóng)方案,其基本思想是只爬取有可能提供LG服務(wù)的網(wǎng)頁(yè),然后再判斷其是否確實(shí)是LG網(wǎng)頁(yè)。通過(guò)這種方式,我們能有效地縮小搜索的范圍,避免訪(fǎng)問(wèn)大量無(wú)關(guān)網(wǎng)頁(yè)所消耗的資源。如圖1所示,LG聚焦爬蟲(chóng)主要包含兩個(gè)關(guān)鍵的組件:爬取過(guò)程和分類(lèi)過(guò)程。
具體地,以已知的LG網(wǎng)頁(yè)集合(我們將其稱(chēng)之為L(cháng)G種子集)為起始,爬取過(guò)程主要負責尋找有可能提供LG服務(wù)的網(wǎng)頁(yè)(我們稱(chēng)其為候選URL)??紤]到LG網(wǎng)頁(yè)之間的鏈接比較少,爬取過(guò)程主要采用基于超鏈接指導的和基于相似性指導的兩種搜索方法來(lái)幫助找到更多的LG網(wǎng)頁(yè)。顯然,爬取過(guò)程采集的候選URL并不一定都是LG URL,仍需設計一個(gè)高性能的分類(lèi)器用于進(jìn)一步將其分類(lèi)為相關(guān)還是不相關(guān)。為此,我們設計了一個(gè)兩步分類(lèi)器用于分類(lèi)過(guò)程,具體包括基于URL特征的預過(guò)濾器和基于網(wǎng)頁(yè)內容特征的分類(lèi)器。
其中,預過(guò)濾器可以過(guò)濾掉85%不相關(guān)的URL,避免了大量消耗在無(wú)關(guān)URL上的資源。至于剩下的URLs(我們稱(chēng)其為預過(guò)濾URL),我們下載其網(wǎng)頁(yè)內容并利用基于內容特征的分類(lèi)器實(shí)現更準確的分類(lèi)效果,進(jìn)而得到相關(guān)URL(即被分類(lèi)器確認為L(cháng)G頁(yè)面的URL)。需要說(shuō)明的是,無(wú)論是預過(guò)濾器還是過(guò)濾器,我們均采用針對只有正樣本和無(wú)標簽樣本的場(chǎng)景提出的機器學(xué)習方法,即PU學(xué)習算法,來(lái)解決缺乏標注的負樣本這一問(wèn)題。每當新的相關(guān)URL被發(fā)現時(shí),其可作為已知LG網(wǎng)頁(yè)開(kāi)啟新一輪的迭代爬蟲(chóng),該迭代探索過(guò)程可以幫助找到更多相關(guān)URL。
圖1 LG聚焦爬蟲(chóng)架構
1.2種子集
我們從公開(kāi)的web源(包括,PeeringDB,BGP4.as, )采集了2991個(gè)已知的LG URL。其中,1736個(gè)URL可以成功下載html網(wǎng)頁(yè)內容,其余的URL響應HTTP錯誤消息。經(jīng)過(guò)人工檢查,我們發(fā)現部分LG網(wǎng)頁(yè)已經(jīng)過(guò)期且不再提供LG服務(wù),刪除之后我們共得到1085個(gè)提供LG服務(wù)的有效網(wǎng)頁(yè)。
1.3爬取過(guò)程
許多之前的研究注意到,網(wǎng)頁(yè)通常會(huì )包含一些指向相關(guān)主題網(wǎng)頁(yè)的超鏈接[1],因此常用基于超鏈接指導的搜索方法完成爬取過(guò)程。本文也實(shí)現了該搜索方法,即提取已知LG網(wǎng)頁(yè)中包含的內外鏈接作為候選URL。但由于很多LG網(wǎng)頁(yè)并沒(méi)有鏈接到任何其他的LG網(wǎng)頁(yè),僅采用這種搜索方法難以發(fā)現他們。為了發(fā)現更多的LG網(wǎng)頁(yè),我們設計了一種基于相似性指導的搜索方法??紤]到LG網(wǎng)頁(yè)之間在某些方面很可能是相似的,該搜索方法主要借助搜索引擎幫助找到和已知LG網(wǎng)頁(yè)相似的網(wǎng)頁(yè)作為候選URL,之所以選擇搜索引擎是因為他們部署了強大的爬蟲(chóng)基礎設施并提供成熟的搜索算法。關(guān)鍵問(wèn)題是如何得到有價(jià)值的搜索條目,我們利用合適的方法分析已知LG網(wǎng)頁(yè)URL,標題和主體部分提取共享特征,進(jìn)而構建有效的搜索條目。
1.3.1 基于標題的搜索條目
考慮到網(wǎng)頁(yè)標題是關(guān)于網(wǎng)頁(yè)內容的簡(jiǎn)短描述且通常包含較少的單詞,我們采用頻繁項集挖掘算法Apriori[2]從已知LG網(wǎng)頁(yè)標題中提取頻繁出現的單詞或短語(yǔ)作為共享特征。需要注意的是,一些LG網(wǎng)頁(yè)標題中包含部署該網(wǎng)頁(yè)的運營(yíng)商的組織名稱(chēng)或者AS編號,將這些名稱(chēng)或者編號視為相同的關(guān)鍵字可為我們提供更具價(jià)值的信息。具體來(lái)說(shuō),在提取頻繁項集之前,我們將所有組織名稱(chēng)和AS編號替換為兩個(gè)虛擬詞,即ORG和ASN。提取頻繁項集后,如果發(fā)現這兩個(gè)虛擬詞出現在頻繁項集中,則將其替換為每個(gè)AS的組織名稱(chēng)和AS編號,進(jìn)而構建一系列的搜索條目。
在上述過(guò)程中,確定標題中哪些詞代表組織名稱(chēng)是比較困難的。雖然CAIDA提供了關(guān)于A(yíng)S與組織名稱(chēng)映射的數據集[3],但不同的組織在將其名稱(chēng)嵌入LG網(wǎng)頁(yè)標題時(shí)可能會(huì )有不同的命名規范,例如全稱(chēng)、首字母縮寫(xiě)或其他縮寫(xiě)等。錯誤的匹配和替換會(huì )導致提取出的共享特征存在偏差。針對這一問(wèn)題,我們發(fā)現LG頁(yè)面標題往往采用公司網(wǎng)站的二級域名來(lái)表示組織名稱(chēng),因此我們從PeeringDB中收集每個(gè)AS的公司網(wǎng)站URL,并使用Tldextract python庫解析得到一個(gè)二級域名列表,然后將已知LG網(wǎng)頁(yè)標題中匹配二級域名的單詞或短語(yǔ)替換為虛擬詞ORG。
替換之后,我們采用頻繁項集挖掘算法從已知LG網(wǎng)頁(yè)標題中尋找頻繁項集。表1顯示了當支持度閾值設為0.12時(shí)的頻繁項集及其對應的支持度。從表中可知,頻繁1-項集和2-項集都是頻繁3-項集的真子集,這意味著(zhù)將頻繁1-項集和2-項集作為搜索條目得到的搜索結果是頻繁3-項集得到的搜索結果的超集。為了平衡召回率和準確率,本文選擇頻繁3-項集來(lái)構建搜索詞。
表1頻繁項集及其對應的支持度
(支持度閾值設為0.12)
1.3.2基于主體的搜索條目
與URL和標題相比,LG網(wǎng)頁(yè)的主體部分通常包含更豐富的信息,這意味著(zhù)分析主體部分雖然復雜但是能幫助構建更有效的搜索條目。通常LG網(wǎng)頁(yè)主體包含很多單詞,其中有些單詞雖然出現頻率很高,但并不代表LG頁(yè)面的任何共同特征。因此,我們采用TF-IDF(Term Frequency-Inverse Document Frequency)[4]加權模型來(lái)分析已知LG頁(yè)面主體部分。該模型可識別出在已知LG頁(yè)面主體中經(jīng)常出現但在非LG頁(yè)面中不常出現的詞,將其作為L(cháng)G網(wǎng)頁(yè)共享特征,從而構建有效的搜索條目。
通過(guò)分析LG頁(yè)面主體,我們發(fā)現其通常包含一些控制元素,例如輸入、選擇和按鈕元素,用于支持用戶(hù)執行測量任務(wù)。為了降低計算復雜度,我們從有效LG網(wǎng)頁(yè)中提取信息含量豐富的文本(即上述三個(gè)元素的開(kāi)始和結束標記之間的內容),并將其合并成一個(gè)文檔。接著(zhù)我們使用TF-IDF模型進(jìn)行分析,該模型需要使用逆向文件頻率(IDF)文本語(yǔ)料庫來(lái)排除頻繁出現在其他各類(lèi)文檔中的單詞。為此,我們從新聞組數據集[5]收集了11314份文檔作為IDF語(yǔ)料庫。根據合并的主體文檔和IDF語(yǔ)料庫,TF-IDF模型會(huì )為文檔中每個(gè)單詞計算如下權重值:
其中(詞頻)意味著(zhù)單詞在主體文檔中出現的頻率,(逆向文件頻率)代表單詞在其他文檔中出現頻率的倒數,這里的為11314,是IDF語(yǔ)料庫中包含單詞的文檔數量。
顯然,IF-IDF權重較高意味著(zhù)單詞經(jīng)常出現在LG網(wǎng)頁(yè)主體中但不常出現在其他類(lèi)型的文檔中。因此具有較高權重的單詞可作為L(cháng)G網(wǎng)頁(yè)的共享特征,我們提取了49個(gè)權重大于0.05的單詞(包括ip_address、router、traceroute等),并將每個(gè)單詞分別與“l(fā)ooking glass”組合構成搜索條目。
1.3.3 基于URL的搜索條目
事實(shí)上,搜索引擎提供的搜索算法支持根據頁(yè)面與搜索條目的相關(guān)性對搜索結果進(jìn)行排名。因此,我們可以直接以2991個(gè)已知的LG URL作為搜索條目并借助搜索算法得到候選URL。例如,如果我們在必應中使用作為搜索條目,返回的搜索結果中包含其余LG URL,例如。因此,每個(gè)已知的LG URL都可用作一個(gè)搜索條目。
1.3.4 討論
除了搜索條目之外,搜索引擎對基于相似性指導的搜索方法采集的候選URL也存在一定的影響。我們采用谷歌、必應和百度做了一些簡(jiǎn)單的實(shí)驗,發(fā)現谷歌限制了單一用戶(hù)的請求頻率,而必應沒(méi)有限制。至于百度,我們簡(jiǎn)單地搜索了一些條目并將返回的搜索結果與必應搜索結果進(jìn)行比較,發(fā)現必應返回的搜索結果與我們的搜索詞更相關(guān)。因此,我們在論文中選擇使用必應。當然,這些搜索引擎未來(lái)都可以充分利用以發(fā)現更多的LG網(wǎng)頁(yè)。以谷歌為例,我們可以通過(guò)協(xié)商達成定期使用搜索引擎的協(xié)議。此外,我們計劃與必應進(jìn)行協(xié)商以應對被封鎖的風(fēng)險。
1.4分類(lèi)過(guò)程
上述爬取過(guò)程采集的候選URL并不一定都提供LG服務(wù)。在本章節,我們設計了一個(gè)分類(lèi)器將所有的候選URL分類(lèi)為相關(guān)還是不相關(guān)。不相關(guān)的URL將被丟棄,以避免進(jìn)一步深入分析它們而消耗不必要的資源。
1.4.1 設計考慮
在設計分類(lèi)器時(shí)主要有兩點(diǎn)考慮:
?。?)選擇的分類(lèi)算法必須能夠處理缺乏標注的負樣本(非LG頁(yè)面)這一問(wèn)題。將候選URL分類(lèi)為相關(guān)還是不相關(guān)可以看作是一個(gè)二分類(lèi)問(wèn)題。傳統的有監督分類(lèi)算法(例如決策樹(shù),支持向量機)需要正負標記樣本進(jìn)行訓練,然而在這項工作中,我們只有少量已知LG 頁(yè)面(正樣本)和大量無(wú)標記的候選URL,使得傳統的有監督分類(lèi)方法難以解決我們的分類(lèi)問(wèn)題。另一方面,無(wú)監督分類(lèi)方法沒(méi)有充分利用已知LG頁(yè)面的標記信息,其對應的分類(lèi)結果可能并不理想。為此,我們采用一種半監督分類(lèi)方法-PU學(xué)習[6],在給定少量正樣本和大量無(wú)標記樣本的情況下,該方法可以訓練分類(lèi)器用于區分未標記樣本中的正樣本和負樣本。
?。?)實(shí)現高效且準確的分類(lèi)效果需要選擇合適的分類(lèi)特征。為了準確地對候選URL進(jìn)行分類(lèi),我們應該充分利用所有可用的信息,例如網(wǎng)頁(yè)內容。但是,爬取過(guò)程得到的候選URL不包含相應的網(wǎng)頁(yè)內容,下載大量候選URL對應的HTML文件既耗時(shí)又占用帶寬,導致分類(lèi)過(guò)程效率低下。我們注意到LG頁(yè)面的URL通常區別于非LG頁(yè)面的URL,因此,我們考慮僅根據URL特征預先過(guò)濾掉一些不相關(guān)的候選URL,對于剩下的候選URL,再下載其HTML頁(yè)面并根據URL和選定的HTML內容特征進(jìn)一步分類(lèi)。具體來(lái)說(shuō),我們設計了一個(gè)兩步分類(lèi)器,包括基于URL特征的預過(guò)濾器和基于網(wǎng)頁(yè)內容特征的分類(lèi)器,可以實(shí)現較高的分類(lèi)效率和準確率。
1.4.2 特征提取
PU學(xué)習模型僅能處理固定長(cháng)度的數字輸入,而網(wǎng)頁(yè)URL和HTML文件都由變長(cháng)的字符串組成。因此,我們需要進(jìn)行特征提取,即從URL或HTML文件中構建合適的特征向量,需要說(shuō)明的是特征向量應該是包含豐富且非冗余的信息,以促進(jìn)后續的訓練和分類(lèi)步驟。
URL特征提取。本文采用詞袋模型將一組URL轉換為固定長(cháng)度的特征向量。具體地,該模型首先創(chuàng )建一個(gè)包含URL集合所有單詞的有序詞匯表,并為每個(gè)單詞賦予一個(gè)整數索引,接著(zhù)為每個(gè)URL構建其特征向量,其中為整數索引為的單詞在當前URL中出現的次數。
網(wǎng)頁(yè)內容特征提取。直觀(guān)上,HTML文件相比于URL包含更豐富的信息,因此通過(guò)預過(guò)濾器的候選URL將交由基于內容特征的分類(lèi)器進(jìn)行進(jìn)一步檢查。當然,并非HTML文件中所有文本都包含有價(jià)值的信息,無(wú)信息含量的文本可能會(huì )對PU學(xué)習算法產(chǎn)生負面影響。正如之前在2.3中介紹的,頁(yè)面標題和頁(yè)面主體中輸入、選擇和按鈕元素內的文本內容對于區分相關(guān)和不相關(guān)的URL有一定的價(jià)值。此外,上述三個(gè)元素中ID屬性、NAME屬性和VALUE屬性的值也包含有價(jià)值的信息。對于每個(gè)LG網(wǎng)頁(yè),我們將網(wǎng)址和HTML文件中具有信息含量的本文結合起來(lái),并利用詞袋模型將其轉化為特征向量以表示該頁(yè)面。
1.4.3 PU-Bagging模型訓練
為了應對缺乏標注的負樣本這一問(wèn)題,我們選擇一種典型的PU學(xué)習方法,即PU-Bagging算法[7],幫助構建基于URL特征的預過(guò)濾以及基于內容特征的分類(lèi)器。PU-Bagging算法采用引導聚合技術(shù)(稱(chēng)為bagging)從正樣本和未標記樣本中學(xué)習分類(lèi)器。具體地,該算法重復N輪以訓練N個(gè)基分類(lèi)器,其中每一輪訓練過(guò)程中,為了解決缺乏標注的負樣本這一問(wèn)題,該算法從未標記樣本中隨機抽取部分樣本作為“負樣本”,并基于抽取的負樣本和已知的正樣本訓練有監督分類(lèi)器。然后將多個(gè)分類(lèi)器的預測結果聚合作為最終的分類(lèi)結果,這樣可以減少隨機選擇“負樣本”引入的方差。有研究[7]表明PU-Bagging算法可以獲得出色的性能表現,且相比于有偏SVM方法可以在較短的時(shí)間內完成訓練(尤其是在未標記樣本集較大的情況下)。
實(shí)驗和評估結果2.1基于相似性指導的搜索方法的有效性
以第一輪迭代為例(LG種子集作為輸入),我們采用基于超鏈接指導的搜索方法從1736個(gè)成功下載網(wǎng)頁(yè)內容的種子頁(yè)面中提取超鏈接作為候選URL。同時(shí),我們采用基于相似性指導的搜索方法對已知LG網(wǎng)頁(yè)URL,標題和主體進(jìn)行分析,構建100987個(gè)搜索條目。然后將每個(gè)搜索條目輸入到必應搜索引擎中,采集前10500個(gè)搜索結果作為候選LG URL。
為了評估基于相似性指導的搜索方法的有效性,我們定義四個(gè)指標:候選URL中相關(guān)URL的數量,相關(guān)URL的濃度(候選URL中被分類(lèi)為相關(guān)URL占候選URL的比例),候選URL 中發(fā)現的新的可自動(dòng)化使用的LG探針數量(在4.1章的過(guò)程之后),新的可自動(dòng)化使用的探針濃度(新的可自動(dòng)化使用的探針數量除以候選URL的數量)。這些指標可以較好地衡量基于相似性指導的搜索方法的收益和效率。
表2 實(shí)驗結果
從表2可知,基于相似性指導的搜索方法共獲得了4111個(gè)相關(guān)的URL和608個(gè)新的可自動(dòng)化使用的LG探針,這比基于超鏈接指導的搜索方法得到的相關(guān)URL(新的可自動(dòng)化使用的LG探針)多約28(13)倍。結果表明,受益于搜索引擎和精心構建的搜索條目,我們提出的基于相似性指導的搜索方法可以有效地找到許多相關(guān)頁(yè)面和新的LG探針。此外,我們發(fā)現相比于基于網(wǎng)址和標題的搜索條目,基于主體的搜索條目得到的搜索結果中相關(guān)URL濃度以及探針濃度更高。當然,這并不意味著(zhù)基于網(wǎng)址和標題的搜索條目沒(méi)有價(jià)值,它們還是可以幫助找到許多基于主體的搜索條目無(wú)法找的相關(guān)頁(yè)面和新的LG探針。
每當新的相關(guān)URL被發(fā)現時(shí),其可作為已知LG網(wǎng)頁(yè)開(kāi)啟新一輪的迭代爬蟲(chóng)。實(shí)驗表明迭代對于獲取更多相關(guān)URL以及新的可自動(dòng)化使用的LG探針是有意義的。除了上述第一輪迭代的實(shí)驗結果外,在后續的三輪迭代中,我們額外采集了2047333個(gè)候選URL,并獲得了 46551個(gè)相關(guān)URL以及280個(gè)新的可自動(dòng)化使用的LG探針。
2.2兩部分類(lèi)器的有效性
為了評估基于URL特征的預過(guò)濾器和基于內容特征的分類(lèi)器的性能,我們采用接收器操作曲線(xiàn)下面積接收者操作特征曲線(xiàn)(AUC)、真陽(yáng)性率(TPR)和假陽(yáng)性率(FPR)作為評估指標。其中AUC越高,說(shuō)明分類(lèi)器在區分正樣本和負樣本方面的性能表現越好。
2.2.1 評估基于URL特征的預過(guò)濾器
我們將第一輪迭代得到的數據集(包含2991個(gè)LG種子URL和919893個(gè)未標記的候選URL)隨機拆分為三個(gè)子集:訓練數據集(98%)、驗證數據集(1%)和測試數據集(1%),其中驗證和測試集中未標記的候選URL被手工標記,從而用于調整超參數和評估模型泛化能力??紤]到PU-bagging算法中超參數數量較少,易于驗證和調整,我們僅采用了上述簡(jiǎn)單的驗證方法而非使用N折交叉驗證(需要手工標記整個(gè)數據集),而且考慮到整個(gè)數據集足夠大,隨機選取的1%驗證集和1%測試集已經(jīng)包含足夠的樣本用于調參和評估。
超參數調整。PU-Bagging模型中有一些超參數(例如集分類(lèi)器的數量N、引導樣本的大小K和分類(lèi)閾值T)會(huì )影響預過(guò)濾器的分類(lèi)性能,需要進(jìn)行仔細選擇。為此,我們利用訓練集訓練在不同的超參數下的基于URL特征的預過(guò)濾器,并得到一系列經(jīng)過(guò)訓練的預過(guò)濾器,然后根據其在驗證集上的AUC性能表現,選擇N為100,K等于訓練集中正樣本的數量(即2931)作為最優(yōu)超參數。
另外,閾值T對于分類(lèi)結果也有較大的影響,具體可以通過(guò)TPR和FPR來(lái)衡量。TPR高意味著(zhù)大多數真正提供LG服務(wù)的候選URL能成功地被分類(lèi)為相關(guān)URL,FPR低意味著(zhù)少數并不提供LG服務(wù)的候選URL被錯誤地分類(lèi)為相關(guān)URL。對于預過(guò)濾器而言,在某種程度上,保證較高的TPR比實(shí)現較低的FPR更重要,因為T(mén)PR低意味著(zhù)很多LG網(wǎng)頁(yè)會(huì )被錯誤過(guò)濾掉,而FPR低僅僅導致后續基于內容特征的分類(lèi)器消耗較多的資源開(kāi)銷(xiāo)。圖2(a)繪制了當K=2931,N=100時(shí),不同閾值T下經(jīng)過(guò)訓練的預過(guò)濾器在驗證集上的FPR和TPR分布??梢园l(fā)現,T為0.2072能實(shí)現較高的TPR(99.07%)以及可接受的FPR(15.54%),因此我們選擇T=0.2072。
圖2(a)不同閾值T下經(jīng)過(guò)訓練的預過(guò)濾器的TPR和FPR分布
?。╞)不同閾值T下經(jīng)過(guò)訓練的分類(lèi)器的TPR和FPR分布
分類(lèi)結果。接著(zhù)我們利用測試集(包含102個(gè)正樣本和9127個(gè)負樣本)評估具有最佳超參數的預過(guò)濾器的泛化能力,發(fā)現能達到FPR為15.36%,TPR為96.08%的分類(lèi)性能,與上述在驗證集上的性能表現基本一致。具體而言,在測試集中,預過(guò)濾器成功過(guò)濾掉7725個(gè)非LG網(wǎng)址,節省了下載相應的HTML文件的資源。同時(shí),它只過(guò)濾掉4個(gè)LG網(wǎng)址,對最終結果的影響相對較小。
鑒于上述訓練的預過(guò)濾器性能表現良好,我們用其對所有919893個(gè)候選URL進(jìn)行分類(lèi)。789967個(gè)候選URL被分類(lèi)為不相關(guān)并立即被過(guò)濾掉,剩余的12992個(gè)候選URL被分類(lèi)為相關(guān),我們稱(chēng)之為預過(guò)濾URL。為了評估預過(guò)濾器帶來(lái)的收益,我們將其過(guò)濾掉的無(wú)關(guān)URL的數量作為評價(jià)指標,發(fā)現預過(guò)濾器可以在損失較少LG網(wǎng)址(1-TPR)的同時(shí)將需要下載HTML文件的候選URL數量減少約85%,顯著(zhù)提高了分類(lèi)效率。
2.2.2評估基于網(wǎng)頁(yè)內容特征的分類(lèi)器
對于上述預過(guò)濾器得到的12992個(gè)預過(guò)濾URL,我們成功下載了其中77113個(gè)URL對應的HTML文件。另外,正如章節2.2所述,目前有1085個(gè)提供LG服務(wù)的種子頁(yè)面。由成功下載的未標記的HTML文件和種子頁(yè)面構成的數據集被隨機拆分為三個(gè)子集:訓練集(94%)、驗證集(3%)和測試集(3%),其中驗證和測試集中未標記的候選URL被手工標記,從而用于調整超參數和評估模型泛化能力。
超參數調整。和上述確定預過(guò)濾器的超參數過(guò)程類(lèi)似,我們選擇N為100,K為1020作為基于內容特征的分類(lèi)器的最優(yōu)超參數。進(jìn)一步地為了確定T,我們繪制了不同閾值T下經(jīng)過(guò)訓練的分類(lèi)器在驗證集上的TPR和FPR分布,如圖2(b)所示。對于基于內容特征的分類(lèi)器而言,我們希望能同時(shí)實(shí)現較高的TPR和較低的FPR,這意味著(zhù)得到的相關(guān)頁(yè)面是LG頁(yè)面的概率較高。從圖2(b)可知,T為0.4292時(shí)的分類(lèi)器可以達到較高的TPR(95.24%)以及較低的FPR(4.25%),所以我們選擇T為0.4292。
分類(lèi)結果。接著(zhù)我們利用測試集(包含77個(gè)正樣本和2269個(gè)負樣本)評估具有最佳超參數的分類(lèi)器的泛化能力,發(fā)現其能實(shí)現較高的TPR(96.10%)和較低的FPR(4.10%)。換句話(huà)說(shuō),在測試集中,分類(lèi)器成功過(guò)濾掉了2176個(gè)非LG頁(yè)面,節省了嘗試從中提取探針的資源消耗。同時(shí),它只丟棄3個(gè)LG頁(yè)面。
接著(zhù),我們使用訓練好的基于內容特征的分類(lèi)器對77113個(gè)預過(guò)濾URL進(jìn)行分類(lèi),其中4226個(gè)URL被分類(lèi)器分類(lèi)為相關(guān),我們稱(chēng)之為相關(guān)URL。值得注意的是,所有相關(guān)URL將作為新的已知LG頁(yè)面開(kāi)啟新一輪的迭代。四輪迭代后,我們得到了50777個(gè)相關(guān)頁(yè)面,用于后續的分析和實(shí)際應用。
實(shí)際應用
通過(guò)聚焦爬蟲(chóng),我們得到了很有可能是LG頁(yè)面的相關(guān)頁(yè)面,其對于測量研究非常有用。例如,研究人員可以手工分析每個(gè)相關(guān)頁(yè)面提取可用的探針列表,并手動(dòng)使用這些探針執行測量命令。但是對于想要以更具擴展性的方式完成測量任務(wù)的研究人員而言,如果我們能自動(dòng)化地使用這些LG探針,將會(huì )更加實(shí)用。在本節中,我們開(kāi)發(fā)了一種工具用于提取可自動(dòng)化使用的LG探針,并展示這些探針在促進(jìn)測量研究方面的實(shí)用價(jià)值。
3.1提取可自動(dòng)化使用的LG探針
LG網(wǎng)站通常具有不同的輸入接口來(lái)收集和解析測量請求,缺乏輸入接口規范阻礙了LG探針的自動(dòng)使用。因此,我們需要開(kāi)發(fā)一種工具來(lái)自動(dòng)提取探針的輸入接口信息,并通過(guò)發(fā)送測量請求以及分析測量響應來(lái)檢查這些LG探針是否支持自動(dòng)化使用。
3.1.1提取探針輸入接口信息
我們設計了基于模板匹配和基于關(guān)鍵詞匹配的方法用于提取探針的輸入接口信息。
模板匹配。有研究[8,9]發(fā)現LG服務(wù)的部署往往基于幾個(gè)流行的開(kāi)源項目,且這些開(kāi)源項目有不同的輸入接口規范。本文通過(guò)分析論文[8]和[9]中提到的開(kāi)源項目所創(chuàng )建的 HTML文件,推導出八個(gè)輸入接口模板,其中每個(gè)模板均記錄了表單元素中輸入字段的名稱(chēng)、類(lèi)型和用途。接著(zhù),我們遍歷相關(guān)頁(yè)面,檢查其表單元素中輸入字段名稱(chēng)和類(lèi)型是否與模板相同,最終共發(fā)現1302個(gè)相關(guān)頁(yè)面與模板成功匹配。
關(guān)鍵詞匹配。至于剩余的相關(guān)頁(yè)面,我們檢查其表單元素中是否包含特定關(guān)鍵字(例如ping、trace、BGP或Bird、Router ID),發(fā)現516個(gè)相關(guān)頁(yè)面是關(guān)鍵字匹配頁(yè)面。
對于模板匹配和關(guān)鍵詞匹配頁(yè)面,我們自動(dòng)將每個(gè)探針的信息(即它支持的所有命令以及運行每個(gè)命令所需的輸入字段)匯總到一個(gè)文件中,總的來(lái)說(shuō),我們提取了4980個(gè)探針的輸入接口信息。作為比較,我們使用上述匹配方法對1085個(gè)提供LG服務(wù)的種子頁(yè)面進(jìn)行分析,發(fā)現792個(gè)種子頁(yè)面是模板匹配或關(guān)鍵字匹配頁(yè)面,共提取了4450 個(gè)探針的輸入接口信息。
3.1.2自動(dòng)發(fā)布測量請求
在上述提取的探針輸入接口信息的基礎上,每個(gè)測量請求可以轉換為將特定值填入相應的表單輸入字段的操作。具體地,我們采用Mechanize庫以編程的方式填寫(xiě)表單所需的輸入字段并將表單提交到相應的Web服務(wù)器。服務(wù)器收到表單數據后,會(huì )響應測量請求并返回測量結果。
3.1.3分析測量響應以確定支持自動(dòng)化使用的探針
如果探針能成功響應自動(dòng)化發(fā)送的測量請求,我們將其稱(chēng)為支持自動(dòng)化使用的探針。具體地,我們自動(dòng)發(fā)布ping測量請求依次要求每個(gè)探針發(fā)送ping數據包到一個(gè)受控主機(運行tcpdump以捕獲收到的ICMP數據包)。如果該主機可以接收到ICMP ping數據包,則表示對應的探針是支持自動(dòng)化使用的。同時(shí),可以從ICMP數據包中提取探針的IP地址,然后通過(guò)查詢(xún)IP2AS以及地理定位數據庫了解探針的網(wǎng)絡(luò )和地理位置,方便研究人員選擇特定區域的探針完成測量任務(wù)。
使用上述方法,我們成功地從種子頁(yè)面中確定了1446個(gè)可自動(dòng)化使用的探針,并從相關(guān)頁(yè)面中確定了1296個(gè)可自動(dòng)化使用的探針。去重后,我們發(fā)現相關(guān)頁(yè)面中有910個(gè)可自動(dòng)化使用的探針沒(méi)有包含在任何種子頁(yè)面中,這些探針被稱(chēng)為新發(fā)現的可自動(dòng)化使用的探針。
3.2LG探針的分析和應用
研究人員已經(jīng)注意到當前可用探針的地理和網(wǎng)絡(luò )覆蓋范圍有限阻礙了我們對互聯(lián)網(wǎng)的全面了解[10],如果我們新發(fā)現可自動(dòng)化使用的探針能實(shí)現地理和網(wǎng)絡(luò )覆蓋改進(jìn),將會(huì )很有價(jià)值。此外,我們還進(jìn)行了一個(gè)簡(jiǎn)單的案例研究來(lái)證明這些探針在提升互聯(lián)網(wǎng)拓撲完整性方面的潛在價(jià)值。
3.2.1地理覆蓋范圍改進(jìn)
雖然有一些公開(kāi)的IP地理定位數據庫,但眾所周知,獲得準確的IP地址到地理定位映射仍然是一個(gè)挑戰。我們發(fā)現有些LG網(wǎng)頁(yè)中會(huì )給出探針的地理位置,相對而言比較可靠。通過(guò)正則表達式匹配,我們成功提取了390個(gè)探針的國家級定位信息以及316個(gè)探針的城市級定位信息。對于其余探針,我們購買(mǎi)IP2location DB9數據庫來(lái)將其映射到國家和城市級位置。需要說(shuō)明的是,我們將DB9數據庫與網(wǎng)頁(yè)中提取的可靠定位信息進(jìn)行比較,發(fā)現DB9數據庫的國家級定位的準確率能達到97%,還是可以接受的。
圖3 探針地理分布
圖2繪制了1446個(gè)已知的可自動(dòng)化使用的LG探針(藍點(diǎn))和 910個(gè)新發(fā)現的可自動(dòng)化使用的LG探針(紅點(diǎn))的地理覆蓋范圍,其中點(diǎn)的大小代表相應地理區域中探針的數量。1446個(gè)已知的可自動(dòng)化使用的探針?lè )植荚?5個(gè)國家,386個(gè)城市,910個(gè)新發(fā)現的可自動(dòng)化使用的探針覆蓋了55個(gè)國家,282個(gè)城市。新發(fā)現的探針使得研究人員能從8個(gè)新的國家和160個(gè)新的城市執行測量命令,而在這些區域未發(fā)現已知的LG探針。尤其,這8個(gè)新的國家主要分布在東非和南亞,其網(wǎng)絡(luò )連通性和性能近年來(lái)引起了很多研究人員的關(guān)注。
3.2.2網(wǎng)絡(luò )覆蓋范圍改進(jìn)
推斷路由器所的網(wǎng)絡(luò )歸屬也并非易事,我們注意到一些LG頁(yè)面會(huì )給出探針所在的自治域信息,通過(guò)正則匹配,我們提取了526個(gè)探針的自治域信息。然后我們使用bdrmapIT[11]工具構建一個(gè)IP2AS數據集,幫助獲取323個(gè)探針的自治域信息。對于剩余探針,我們進(jìn)一步查詢(xún)路由表前綴獲取自治域信息。
經(jīng)分析發(fā)現,新發(fā)現的探針使得研究人員能從288個(gè)新的自治域執行測量命令,而在這些AS內未發(fā)現已知的LG探針。進(jìn)一步地,我們將這些自治域根據其在互聯(lián)網(wǎng)中的層次結構進(jìn)行分層,發(fā)現絕大部分新的自治域(287個(gè))都分布在互聯(lián)網(wǎng)邊緣。之前的研究[12]表明可以通過(guò)將探針?lè )胖迷诨ヂ?lián)網(wǎng)邊緣來(lái)改善AS級拓撲的完整性,這也說(shuō)明我們新發(fā)現的LG探針對于提高互聯(lián)網(wǎng)拓撲的完整性具有一定的價(jià)值。
3.2.3提升拓撲完整性的案例研究
為了說(shuō)明新發(fā)現的LG探針的潛在價(jià)值,我們利用支持顯示BGP鄰居IP宣告(或接收)路由這一測量命令的探針采集大量的BGP路由表信息,并將獲取的AS級別拓撲數據和其他常用的測量平臺采集的數據比較,發(fā)現了10個(gè)新的AS以及1428個(gè)新的AS鏈路。
利用LG探針采集AS路徑信息。運行顯示BGP鄰居IP宣告(或接收)路由測量命令返回的AS路徑可以幫助構建AS級互聯(lián)網(wǎng)拓撲。我們注意到一些常用的LG開(kāi)源項目模板(例如HSDN[14]和Cougar[13])通常在show BGP summary測量命令的響應頁(yè)面中提供顯示BGP鄰居IP宣告(或接收)路由這一測量命令的輸入接口。
借助章節4.1中提出的自動(dòng)發(fā)布測量請求的方法,我們可以自動(dòng)控制探針收集AS路徑信息。具體而言,在提取的探針輸入接口信息的基礎上,我們以編程的方式填寫(xiě)所需的輸入字段,向每個(gè)探針發(fā)送show ip BGP summary測量請求。返回的響應網(wǎng)頁(yè)會(huì )給出與探針相連的每個(gè)BGP連接的狀態(tài),以及相鄰的BGP路由器IP地址和所屬自治域。然后,通過(guò)點(diǎn)擊每個(gè)相鄰IP所對應超鏈接,我們可以控制探針運行顯示BGP鄰居IP這一測量命令來(lái)收集有關(guān)鄰居IP的詳細信息,包括顯示其宣告(或接收)路由的超鏈接。通過(guò)進(jìn)一步訪(fǎng)問(wèn)這一超鏈接,我們可以控制探針運行顯示BGP鄰居IP宣告(或接收)路由測量命令獲取BGP路由表,再使用正則匹配提取AS路徑。
提升AS拓撲完整性。使用上述方法,我們成功地從14個(gè)LG探針和8個(gè)新發(fā)現的LG探針中提取了AS路徑信息。作為比較,我們還從兩個(gè)流行的BGP采集項目(RIPE RIS和RouteViews)下載了2020年12月的路由表快照構建AS拓撲。對比發(fā)現這8個(gè)新發(fā)現的LG探針可以幫助觀(guān)察到10個(gè)新的AS以及1428個(gè)新的AS鏈路。這一結果與以往研究的結論一致[12],常用的BGP探針數量有限且通常集中在互聯(lián)網(wǎng)核心導致存在許多無(wú)法直接觀(guān)察到的“陰影區域”,更多的BGP探針(尤其是分布在互聯(lián)網(wǎng)邊緣的探針)對于發(fā)現更多的 AS鏈路很有價(jià)值。
討論:其他的新發(fā)現LG探針對于提升AS級拓撲的完整性也有十分重要的意義。實(shí)際上,支持traceroute或顯示BGP路由測量命令的探針的數量比上述案例研究中使用測量點(diǎn)數量多很多。對于支持traceroute的探針,我們可以自動(dòng)地控制他們traceroute到目標IP地址,得到IP級別的路徑。對于支持顯示BGP路由的探針,我們可以控制他們返回到達指定網(wǎng)絡(luò )前綴的BGP路由信息。這里需要解決的問(wèn)題是如何為支持traceroute測量命令的探針選擇合適目標IP地址以及如何為支持顯示BGP路由測量命令的探針指定目標網(wǎng)絡(luò )前綴。由于一些LG探針限制用戶(hù)請求速率,我們需要仔細選擇目標IP和目標網(wǎng)絡(luò )前綴以在提高拓撲完整性方面取得高效的性能,這將作為我們的后續工作進(jìn)一步開(kāi)展。
參考文獻:
[1] Brian D Davison. 2000. Topical locality in the web. In Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval. 272–279.
[2] Rakesh Agrawal, Tomasz Imieliński, and Arun Swami. 1993. Mining association rules between sets of items in large databases. In Proceedings of the 1993 ACM SIGMOD international conference on Management of data. 207–216.
[3] [n.d.]. The CAIDA UCSD AS to Organization Mapping Dataset. Retrieved April, 2020 from
[4] Juan Ramos et al. 2003. Using TF-IDF to determine word relevance in document queries. In Proceedings of the first instructional conference on machine learning, Vol. 242. New Jersey, USA, 133–142.
[5] Ken Lang. 1995. Newsweeder: Learning to filter netnews. In Machine Learning Proceedings 1995. Elsevier, 331–339.
[6] Charles Elkan and Keith Noto. 2008. Learning classifiers from only positive and unlabeled data. In Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining. 213–220.
[7] Fantine Mordelet and J-P Vert. 2014. A bagging SVM to learn from positive and unlabeled examples. Pattern Recognition Letters 37 (2014), 201–209.
[8] Luca Bruno, Mariano Graziano, Davide Balzarotti, and Aurélien Francillon. 2014. Through the looking-glass, and what eve found there. In 8th USENIX Workshop on Offensive Technologies (WOOT 14).
[9] Vasileios Giotsas, Amogh Dhamdhere, and Kimberly C Claffy. 2016. Periscope: Unifying looking glass querying. In International Conference on Passive and Active Network Measurement. Springer, 177–189.
[10] Enrico Gregori, Alessandro Improta, Luciano Lenzini, Lorenzo Rossi, and Luca Sani. 2014. A novel methodology to address the Internet AS-level data incompleteness. IEEE/ACM Transactions on Networking 23, 4, 1314–1327
[11] Alexander Marder, Matthew Luckie, Amogh Dhamdhere, Bradley Huffaker, KC Claffy, and Jonathan M Smith. 2018. Pushing the boundaries with bdrmapit: Mapping router ownership at Internet scale. In Proceedings of the 2018 conference on Internet Measurement Conference (IMC). 56–69.
[12] Enrico Gregori, Alessandro Improta, Luciano Lenzini, Lorenzo Rossi, and Luca Sani. 2012. On the incompleteness of the AS-level graph: a novel methodology for BGP route collector placement. In Proceedings of the 2012 Conference on Internet Measurement Conference (IMC). 253–264.
[13] [n.d.]. Cougar Looking Glass. Retrieved September, 2020 from
[14] [n.d.]. HSDN Looking Glass. Retrieved September, 2020 from 查看全部
【轉發(fā)】互聯(lián)網(wǎng)開(kāi)放探針資源自動(dòng)發(fā)現和自動(dòng)訪(fǎng)問(wèn)
構建一個(gè)完整、準確的互聯(lián)網(wǎng)域間拓撲對于協(xié)議設計、故障診斷、安全分析等具有十分重要的意義。然而,互聯(lián)網(wǎng)拓撲構建需要依賴(lài)大規模、分布式的探針。近年來(lái),雖然一些測量平臺致力于部署探針,但是這些探針的數量和覆蓋范圍有限。如果能發(fā)現并利用更多的互聯(lián)網(wǎng)開(kāi)放探針資源,無(wú)疑對于互聯(lián)網(wǎng)拓撲測量而言具有十分重要的意義。
多家互聯(lián)網(wǎng)服務(wù)提供商積極部署Looking Glass (LG) 探針并允許用戶(hù)在這些探針上運行一些測量命令,例如traceroute或BGP。服務(wù)提供商部署LG探針用于提供觀(guān)察其網(wǎng)絡(luò )狀況的窗口以吸引客戶(hù)使用他們的網(wǎng)絡(luò )服務(wù),并幫助調試和解決互聯(lián)網(wǎng)連接和性能問(wèn)題。這些LG探針為研究人員提供了從不同位置(例如核心路由器、邊界路由器等)觀(guān)察互聯(lián)網(wǎng)的機會(huì )。盡管LG探針具有一定的優(yōu)勢,但由于每個(gè)LG網(wǎng)頁(yè)都是獨立運營(yíng)和管理的,缺乏關(guān)于所有可用LG網(wǎng)頁(yè)的集中索引,難以充分發(fā)揮LG探針的價(jià)值。目前研究人員往往使用一些非權威性的web源(包括, PeeringDB, BGP4.as, )發(fā)布的部分LG網(wǎng)頁(yè)的列表,很多LG網(wǎng)頁(yè)可能并沒(méi)有整合到列表中。
為了發(fā)現更多的互聯(lián)網(wǎng)開(kāi)放探針資源,我們提出了一種高效的聚焦爬蟲(chóng)方法用于發(fā)現互聯(lián)網(wǎng)中的LG網(wǎng)站。進(jìn)一步地,為了幫助研究人員更便利地使用LG探針,我們設計了用于自動(dòng)訪(fǎng)問(wèn)LG探針的工具,并公開(kāi)提供了關(guān)于可自動(dòng)訪(fǎng)問(wèn)的LG探針列表。從實(shí)驗結果來(lái)看,相比于之前廣泛使用的1446個(gè)LG探針,我們新發(fā)現的910個(gè)LG探針極大的提升了可用探針的數量(提升62.9%)以及地理和網(wǎng)絡(luò )覆蓋范圍。除此之外,我們還利用部分新發(fā)現的LG探針幫助提升AS拓撲的完整性,實(shí)驗發(fā)現僅用8個(gè)新發(fā)現的LG探針可以幫助補充1428個(gè)新的AS鏈路和10個(gè)新的AS。接下來(lái)將詳細介紹我們的設計思路和實(shí)驗結果。
LG聚焦爬蟲(chóng)設計
1.1概述 萬(wàn)維網(wǎng)中有海量的網(wǎng)站,如果我們爬取每個(gè)網(wǎng)頁(yè)并判斷其是否提供LG服務(wù)來(lái)尋找LG網(wǎng)頁(yè),無(wú)異于大海撈針。因此,我們提出了LG聚焦爬蟲(chóng)方案,其基本思想是只爬取有可能提供LG服務(wù)的網(wǎng)頁(yè),然后再判斷其是否確實(shí)是LG網(wǎng)頁(yè)。通過(guò)這種方式,我們能有效地縮小搜索的范圍,避免訪(fǎng)問(wèn)大量無(wú)關(guān)網(wǎng)頁(yè)所消耗的資源。如圖1所示,LG聚焦爬蟲(chóng)主要包含兩個(gè)關(guān)鍵的組件:爬取過(guò)程和分類(lèi)過(guò)程。
具體地,以已知的LG網(wǎng)頁(yè)集合(我們將其稱(chēng)之為L(cháng)G種子集)為起始,爬取過(guò)程主要負責尋找有可能提供LG服務(wù)的網(wǎng)頁(yè)(我們稱(chēng)其為候選URL)??紤]到LG網(wǎng)頁(yè)之間的鏈接比較少,爬取過(guò)程主要采用基于超鏈接指導的和基于相似性指導的兩種搜索方法來(lái)幫助找到更多的LG網(wǎng)頁(yè)。顯然,爬取過(guò)程采集的候選URL并不一定都是LG URL,仍需設計一個(gè)高性能的分類(lèi)器用于進(jìn)一步將其分類(lèi)為相關(guān)還是不相關(guān)。為此,我們設計了一個(gè)兩步分類(lèi)器用于分類(lèi)過(guò)程,具體包括基于URL特征的預過(guò)濾器和基于網(wǎng)頁(yè)內容特征的分類(lèi)器。
其中,預過(guò)濾器可以過(guò)濾掉85%不相關(guān)的URL,避免了大量消耗在無(wú)關(guān)URL上的資源。至于剩下的URLs(我們稱(chēng)其為預過(guò)濾URL),我們下載其網(wǎng)頁(yè)內容并利用基于內容特征的分類(lèi)器實(shí)現更準確的分類(lèi)效果,進(jìn)而得到相關(guān)URL(即被分類(lèi)器確認為L(cháng)G頁(yè)面的URL)。需要說(shuō)明的是,無(wú)論是預過(guò)濾器還是過(guò)濾器,我們均采用針對只有正樣本和無(wú)標簽樣本的場(chǎng)景提出的機器學(xué)習方法,即PU學(xué)習算法,來(lái)解決缺乏標注的負樣本這一問(wèn)題。每當新的相關(guān)URL被發(fā)現時(shí),其可作為已知LG網(wǎng)頁(yè)開(kāi)啟新一輪的迭代爬蟲(chóng),該迭代探索過(guò)程可以幫助找到更多相關(guān)URL。
圖1 LG聚焦爬蟲(chóng)架構
1.2種子集
我們從公開(kāi)的web源(包括,PeeringDB,BGP4.as, )采集了2991個(gè)已知的LG URL。其中,1736個(gè)URL可以成功下載html網(wǎng)頁(yè)內容,其余的URL響應HTTP錯誤消息。經(jīng)過(guò)人工檢查,我們發(fā)現部分LG網(wǎng)頁(yè)已經(jīng)過(guò)期且不再提供LG服務(wù),刪除之后我們共得到1085個(gè)提供LG服務(wù)的有效網(wǎng)頁(yè)。
1.3爬取過(guò)程
許多之前的研究注意到,網(wǎng)頁(yè)通常會(huì )包含一些指向相關(guān)主題網(wǎng)頁(yè)的超鏈接[1],因此常用基于超鏈接指導的搜索方法完成爬取過(guò)程。本文也實(shí)現了該搜索方法,即提取已知LG網(wǎng)頁(yè)中包含的內外鏈接作為候選URL。但由于很多LG網(wǎng)頁(yè)并沒(méi)有鏈接到任何其他的LG網(wǎng)頁(yè),僅采用這種搜索方法難以發(fā)現他們。為了發(fā)現更多的LG網(wǎng)頁(yè),我們設計了一種基于相似性指導的搜索方法??紤]到LG網(wǎng)頁(yè)之間在某些方面很可能是相似的,該搜索方法主要借助搜索引擎幫助找到和已知LG網(wǎng)頁(yè)相似的網(wǎng)頁(yè)作為候選URL,之所以選擇搜索引擎是因為他們部署了強大的爬蟲(chóng)基礎設施并提供成熟的搜索算法。關(guān)鍵問(wèn)題是如何得到有價(jià)值的搜索條目,我們利用合適的方法分析已知LG網(wǎng)頁(yè)URL,標題和主體部分提取共享特征,進(jìn)而構建有效的搜索條目。
1.3.1 基于標題的搜索條目
考慮到網(wǎng)頁(yè)標題是關(guān)于網(wǎng)頁(yè)內容的簡(jiǎn)短描述且通常包含較少的單詞,我們采用頻繁項集挖掘算法Apriori[2]從已知LG網(wǎng)頁(yè)標題中提取頻繁出現的單詞或短語(yǔ)作為共享特征。需要注意的是,一些LG網(wǎng)頁(yè)標題中包含部署該網(wǎng)頁(yè)的運營(yíng)商的組織名稱(chēng)或者AS編號,將這些名稱(chēng)或者編號視為相同的關(guān)鍵字可為我們提供更具價(jià)值的信息。具體來(lái)說(shuō),在提取頻繁項集之前,我們將所有組織名稱(chēng)和AS編號替換為兩個(gè)虛擬詞,即ORG和ASN。提取頻繁項集后,如果發(fā)現這兩個(gè)虛擬詞出現在頻繁項集中,則將其替換為每個(gè)AS的組織名稱(chēng)和AS編號,進(jìn)而構建一系列的搜索條目。
在上述過(guò)程中,確定標題中哪些詞代表組織名稱(chēng)是比較困難的。雖然CAIDA提供了關(guān)于A(yíng)S與組織名稱(chēng)映射的數據集[3],但不同的組織在將其名稱(chēng)嵌入LG網(wǎng)頁(yè)標題時(shí)可能會(huì )有不同的命名規范,例如全稱(chēng)、首字母縮寫(xiě)或其他縮寫(xiě)等。錯誤的匹配和替換會(huì )導致提取出的共享特征存在偏差。針對這一問(wèn)題,我們發(fā)現LG頁(yè)面標題往往采用公司網(wǎng)站的二級域名來(lái)表示組織名稱(chēng),因此我們從PeeringDB中收集每個(gè)AS的公司網(wǎng)站URL,并使用Tldextract python庫解析得到一個(gè)二級域名列表,然后將已知LG網(wǎng)頁(yè)標題中匹配二級域名的單詞或短語(yǔ)替換為虛擬詞ORG。
替換之后,我們采用頻繁項集挖掘算法從已知LG網(wǎng)頁(yè)標題中尋找頻繁項集。表1顯示了當支持度閾值設為0.12時(shí)的頻繁項集及其對應的支持度。從表中可知,頻繁1-項集和2-項集都是頻繁3-項集的真子集,這意味著(zhù)將頻繁1-項集和2-項集作為搜索條目得到的搜索結果是頻繁3-項集得到的搜索結果的超集。為了平衡召回率和準確率,本文選擇頻繁3-項集來(lái)構建搜索詞。
表1頻繁項集及其對應的支持度
(支持度閾值設為0.12)
1.3.2基于主體的搜索條目
與URL和標題相比,LG網(wǎng)頁(yè)的主體部分通常包含更豐富的信息,這意味著(zhù)分析主體部分雖然復雜但是能幫助構建更有效的搜索條目。通常LG網(wǎng)頁(yè)主體包含很多單詞,其中有些單詞雖然出現頻率很高,但并不代表LG頁(yè)面的任何共同特征。因此,我們采用TF-IDF(Term Frequency-Inverse Document Frequency)[4]加權模型來(lái)分析已知LG頁(yè)面主體部分。該模型可識別出在已知LG頁(yè)面主體中經(jīng)常出現但在非LG頁(yè)面中不常出現的詞,將其作為L(cháng)G網(wǎng)頁(yè)共享特征,從而構建有效的搜索條目。
通過(guò)分析LG頁(yè)面主體,我們發(fā)現其通常包含一些控制元素,例如輸入、選擇和按鈕元素,用于支持用戶(hù)執行測量任務(wù)。為了降低計算復雜度,我們從有效LG網(wǎng)頁(yè)中提取信息含量豐富的文本(即上述三個(gè)元素的開(kāi)始和結束標記之間的內容),并將其合并成一個(gè)文檔。接著(zhù)我們使用TF-IDF模型進(jìn)行分析,該模型需要使用逆向文件頻率(IDF)文本語(yǔ)料庫來(lái)排除頻繁出現在其他各類(lèi)文檔中的單詞。為此,我們從新聞組數據集[5]收集了11314份文檔作為IDF語(yǔ)料庫。根據合并的主體文檔和IDF語(yǔ)料庫,TF-IDF模型會(huì )為文檔中每個(gè)單詞計算如下權重值:
其中(詞頻)意味著(zhù)單詞在主體文檔中出現的頻率,(逆向文件頻率)代表單詞在其他文檔中出現頻率的倒數,這里的為11314,是IDF語(yǔ)料庫中包含單詞的文檔數量。
顯然,IF-IDF權重較高意味著(zhù)單詞經(jīng)常出現在LG網(wǎng)頁(yè)主體中但不常出現在其他類(lèi)型的文檔中。因此具有較高權重的單詞可作為L(cháng)G網(wǎng)頁(yè)的共享特征,我們提取了49個(gè)權重大于0.05的單詞(包括ip_address、router、traceroute等),并將每個(gè)單詞分別與“l(fā)ooking glass”組合構成搜索條目。
1.3.3 基于URL的搜索條目
事實(shí)上,搜索引擎提供的搜索算法支持根據頁(yè)面與搜索條目的相關(guān)性對搜索結果進(jìn)行排名。因此,我們可以直接以2991個(gè)已知的LG URL作為搜索條目并借助搜索算法得到候選URL。例如,如果我們在必應中使用作為搜索條目,返回的搜索結果中包含其余LG URL,例如。因此,每個(gè)已知的LG URL都可用作一個(gè)搜索條目。
1.3.4 討論
除了搜索條目之外,搜索引擎對基于相似性指導的搜索方法采集的候選URL也存在一定的影響。我們采用谷歌、必應和百度做了一些簡(jiǎn)單的實(shí)驗,發(fā)現谷歌限制了單一用戶(hù)的請求頻率,而必應沒(méi)有限制。至于百度,我們簡(jiǎn)單地搜索了一些條目并將返回的搜索結果與必應搜索結果進(jìn)行比較,發(fā)現必應返回的搜索結果與我們的搜索詞更相關(guān)。因此,我們在論文中選擇使用必應。當然,這些搜索引擎未來(lái)都可以充分利用以發(fā)現更多的LG網(wǎng)頁(yè)。以谷歌為例,我們可以通過(guò)協(xié)商達成定期使用搜索引擎的協(xié)議。此外,我們計劃與必應進(jìn)行協(xié)商以應對被封鎖的風(fēng)險。
1.4分類(lèi)過(guò)程
上述爬取過(guò)程采集的候選URL并不一定都提供LG服務(wù)。在本章節,我們設計了一個(gè)分類(lèi)器將所有的候選URL分類(lèi)為相關(guān)還是不相關(guān)。不相關(guān)的URL將被丟棄,以避免進(jìn)一步深入分析它們而消耗不必要的資源。
1.4.1 設計考慮
在設計分類(lèi)器時(shí)主要有兩點(diǎn)考慮:
?。?)選擇的分類(lèi)算法必須能夠處理缺乏標注的負樣本(非LG頁(yè)面)這一問(wèn)題。將候選URL分類(lèi)為相關(guān)還是不相關(guān)可以看作是一個(gè)二分類(lèi)問(wèn)題。傳統的有監督分類(lèi)算法(例如決策樹(shù),支持向量機)需要正負標記樣本進(jìn)行訓練,然而在這項工作中,我們只有少量已知LG 頁(yè)面(正樣本)和大量無(wú)標記的候選URL,使得傳統的有監督分類(lèi)方法難以解決我們的分類(lèi)問(wèn)題。另一方面,無(wú)監督分類(lèi)方法沒(méi)有充分利用已知LG頁(yè)面的標記信息,其對應的分類(lèi)結果可能并不理想。為此,我們采用一種半監督分類(lèi)方法-PU學(xué)習[6],在給定少量正樣本和大量無(wú)標記樣本的情況下,該方法可以訓練分類(lèi)器用于區分未標記樣本中的正樣本和負樣本。
?。?)實(shí)現高效且準確的分類(lèi)效果需要選擇合適的分類(lèi)特征。為了準確地對候選URL進(jìn)行分類(lèi),我們應該充分利用所有可用的信息,例如網(wǎng)頁(yè)內容。但是,爬取過(guò)程得到的候選URL不包含相應的網(wǎng)頁(yè)內容,下載大量候選URL對應的HTML文件既耗時(shí)又占用帶寬,導致分類(lèi)過(guò)程效率低下。我們注意到LG頁(yè)面的URL通常區別于非LG頁(yè)面的URL,因此,我們考慮僅根據URL特征預先過(guò)濾掉一些不相關(guān)的候選URL,對于剩下的候選URL,再下載其HTML頁(yè)面并根據URL和選定的HTML內容特征進(jìn)一步分類(lèi)。具體來(lái)說(shuō),我們設計了一個(gè)兩步分類(lèi)器,包括基于URL特征的預過(guò)濾器和基于網(wǎng)頁(yè)內容特征的分類(lèi)器,可以實(shí)現較高的分類(lèi)效率和準確率。

1.4.2 特征提取
PU學(xué)習模型僅能處理固定長(cháng)度的數字輸入,而網(wǎng)頁(yè)URL和HTML文件都由變長(cháng)的字符串組成。因此,我們需要進(jìn)行特征提取,即從URL或HTML文件中構建合適的特征向量,需要說(shuō)明的是特征向量應該是包含豐富且非冗余的信息,以促進(jìn)后續的訓練和分類(lèi)步驟。
URL特征提取。本文采用詞袋模型將一組URL轉換為固定長(cháng)度的特征向量。具體地,該模型首先創(chuàng )建一個(gè)包含URL集合所有單詞的有序詞匯表,并為每個(gè)單詞賦予一個(gè)整數索引,接著(zhù)為每個(gè)URL構建其特征向量,其中為整數索引為的單詞在當前URL中出現的次數。
網(wǎng)頁(yè)內容特征提取。直觀(guān)上,HTML文件相比于URL包含更豐富的信息,因此通過(guò)預過(guò)濾器的候選URL將交由基于內容特征的分類(lèi)器進(jìn)行進(jìn)一步檢查。當然,并非HTML文件中所有文本都包含有價(jià)值的信息,無(wú)信息含量的文本可能會(huì )對PU學(xué)習算法產(chǎn)生負面影響。正如之前在2.3中介紹的,頁(yè)面標題和頁(yè)面主體中輸入、選擇和按鈕元素內的文本內容對于區分相關(guān)和不相關(guān)的URL有一定的價(jià)值。此外,上述三個(gè)元素中ID屬性、NAME屬性和VALUE屬性的值也包含有價(jià)值的信息。對于每個(gè)LG網(wǎng)頁(yè),我們將網(wǎng)址和HTML文件中具有信息含量的本文結合起來(lái),并利用詞袋模型將其轉化為特征向量以表示該頁(yè)面。
1.4.3 PU-Bagging模型訓練
為了應對缺乏標注的負樣本這一問(wèn)題,我們選擇一種典型的PU學(xué)習方法,即PU-Bagging算法[7],幫助構建基于URL特征的預過(guò)濾以及基于內容特征的分類(lèi)器。PU-Bagging算法采用引導聚合技術(shù)(稱(chēng)為bagging)從正樣本和未標記樣本中學(xué)習分類(lèi)器。具體地,該算法重復N輪以訓練N個(gè)基分類(lèi)器,其中每一輪訓練過(guò)程中,為了解決缺乏標注的負樣本這一問(wèn)題,該算法從未標記樣本中隨機抽取部分樣本作為“負樣本”,并基于抽取的負樣本和已知的正樣本訓練有監督分類(lèi)器。然后將多個(gè)分類(lèi)器的預測結果聚合作為最終的分類(lèi)結果,這樣可以減少隨機選擇“負樣本”引入的方差。有研究[7]表明PU-Bagging算法可以獲得出色的性能表現,且相比于有偏SVM方法可以在較短的時(shí)間內完成訓練(尤其是在未標記樣本集較大的情況下)。
實(shí)驗和評估結果2.1基于相似性指導的搜索方法的有效性
以第一輪迭代為例(LG種子集作為輸入),我們采用基于超鏈接指導的搜索方法從1736個(gè)成功下載網(wǎng)頁(yè)內容的種子頁(yè)面中提取超鏈接作為候選URL。同時(shí),我們采用基于相似性指導的搜索方法對已知LG網(wǎng)頁(yè)URL,標題和主體進(jìn)行分析,構建100987個(gè)搜索條目。然后將每個(gè)搜索條目輸入到必應搜索引擎中,采集前10500個(gè)搜索結果作為候選LG URL。
為了評估基于相似性指導的搜索方法的有效性,我們定義四個(gè)指標:候選URL中相關(guān)URL的數量,相關(guān)URL的濃度(候選URL中被分類(lèi)為相關(guān)URL占候選URL的比例),候選URL 中發(fā)現的新的可自動(dòng)化使用的LG探針數量(在4.1章的過(guò)程之后),新的可自動(dòng)化使用的探針濃度(新的可自動(dòng)化使用的探針數量除以候選URL的數量)。這些指標可以較好地衡量基于相似性指導的搜索方法的收益和效率。
表2 實(shí)驗結果
從表2可知,基于相似性指導的搜索方法共獲得了4111個(gè)相關(guān)的URL和608個(gè)新的可自動(dòng)化使用的LG探針,這比基于超鏈接指導的搜索方法得到的相關(guān)URL(新的可自動(dòng)化使用的LG探針)多約28(13)倍。結果表明,受益于搜索引擎和精心構建的搜索條目,我們提出的基于相似性指導的搜索方法可以有效地找到許多相關(guān)頁(yè)面和新的LG探針。此外,我們發(fā)現相比于基于網(wǎng)址和標題的搜索條目,基于主體的搜索條目得到的搜索結果中相關(guān)URL濃度以及探針濃度更高。當然,這并不意味著(zhù)基于網(wǎng)址和標題的搜索條目沒(méi)有價(jià)值,它們還是可以幫助找到許多基于主體的搜索條目無(wú)法找的相關(guān)頁(yè)面和新的LG探針。
每當新的相關(guān)URL被發(fā)現時(shí),其可作為已知LG網(wǎng)頁(yè)開(kāi)啟新一輪的迭代爬蟲(chóng)。實(shí)驗表明迭代對于獲取更多相關(guān)URL以及新的可自動(dòng)化使用的LG探針是有意義的。除了上述第一輪迭代的實(shí)驗結果外,在后續的三輪迭代中,我們額外采集了2047333個(gè)候選URL,并獲得了 46551個(gè)相關(guān)URL以及280個(gè)新的可自動(dòng)化使用的LG探針。
2.2兩部分類(lèi)器的有效性
為了評估基于URL特征的預過(guò)濾器和基于內容特征的分類(lèi)器的性能,我們采用接收器操作曲線(xiàn)下面積接收者操作特征曲線(xiàn)(AUC)、真陽(yáng)性率(TPR)和假陽(yáng)性率(FPR)作為評估指標。其中AUC越高,說(shuō)明分類(lèi)器在區分正樣本和負樣本方面的性能表現越好。
2.2.1 評估基于URL特征的預過(guò)濾器
我們將第一輪迭代得到的數據集(包含2991個(gè)LG種子URL和919893個(gè)未標記的候選URL)隨機拆分為三個(gè)子集:訓練數據集(98%)、驗證數據集(1%)和測試數據集(1%),其中驗證和測試集中未標記的候選URL被手工標記,從而用于調整超參數和評估模型泛化能力??紤]到PU-bagging算法中超參數數量較少,易于驗證和調整,我們僅采用了上述簡(jiǎn)單的驗證方法而非使用N折交叉驗證(需要手工標記整個(gè)數據集),而且考慮到整個(gè)數據集足夠大,隨機選取的1%驗證集和1%測試集已經(jīng)包含足夠的樣本用于調參和評估。
超參數調整。PU-Bagging模型中有一些超參數(例如集分類(lèi)器的數量N、引導樣本的大小K和分類(lèi)閾值T)會(huì )影響預過(guò)濾器的分類(lèi)性能,需要進(jìn)行仔細選擇。為此,我們利用訓練集訓練在不同的超參數下的基于URL特征的預過(guò)濾器,并得到一系列經(jīng)過(guò)訓練的預過(guò)濾器,然后根據其在驗證集上的AUC性能表現,選擇N為100,K等于訓練集中正樣本的數量(即2931)作為最優(yōu)超參數。
另外,閾值T對于分類(lèi)結果也有較大的影響,具體可以通過(guò)TPR和FPR來(lái)衡量。TPR高意味著(zhù)大多數真正提供LG服務(wù)的候選URL能成功地被分類(lèi)為相關(guān)URL,FPR低意味著(zhù)少數并不提供LG服務(wù)的候選URL被錯誤地分類(lèi)為相關(guān)URL。對于預過(guò)濾器而言,在某種程度上,保證較高的TPR比實(shí)現較低的FPR更重要,因為T(mén)PR低意味著(zhù)很多LG網(wǎng)頁(yè)會(huì )被錯誤過(guò)濾掉,而FPR低僅僅導致后續基于內容特征的分類(lèi)器消耗較多的資源開(kāi)銷(xiāo)。圖2(a)繪制了當K=2931,N=100時(shí),不同閾值T下經(jīng)過(guò)訓練的預過(guò)濾器在驗證集上的FPR和TPR分布??梢园l(fā)現,T為0.2072能實(shí)現較高的TPR(99.07%)以及可接受的FPR(15.54%),因此我們選擇T=0.2072。
圖2(a)不同閾值T下經(jīng)過(guò)訓練的預過(guò)濾器的TPR和FPR分布
?。╞)不同閾值T下經(jīng)過(guò)訓練的分類(lèi)器的TPR和FPR分布
分類(lèi)結果。接著(zhù)我們利用測試集(包含102個(gè)正樣本和9127個(gè)負樣本)評估具有最佳超參數的預過(guò)濾器的泛化能力,發(fā)現能達到FPR為15.36%,TPR為96.08%的分類(lèi)性能,與上述在驗證集上的性能表現基本一致。具體而言,在測試集中,預過(guò)濾器成功過(guò)濾掉7725個(gè)非LG網(wǎng)址,節省了下載相應的HTML文件的資源。同時(shí),它只過(guò)濾掉4個(gè)LG網(wǎng)址,對最終結果的影響相對較小。
鑒于上述訓練的預過(guò)濾器性能表現良好,我們用其對所有919893個(gè)候選URL進(jìn)行分類(lèi)。789967個(gè)候選URL被分類(lèi)為不相關(guān)并立即被過(guò)濾掉,剩余的12992個(gè)候選URL被分類(lèi)為相關(guān),我們稱(chēng)之為預過(guò)濾URL。為了評估預過(guò)濾器帶來(lái)的收益,我們將其過(guò)濾掉的無(wú)關(guān)URL的數量作為評價(jià)指標,發(fā)現預過(guò)濾器可以在損失較少LG網(wǎng)址(1-TPR)的同時(shí)將需要下載HTML文件的候選URL數量減少約85%,顯著(zhù)提高了分類(lèi)效率。
2.2.2評估基于網(wǎng)頁(yè)內容特征的分類(lèi)器
對于上述預過(guò)濾器得到的12992個(gè)預過(guò)濾URL,我們成功下載了其中77113個(gè)URL對應的HTML文件。另外,正如章節2.2所述,目前有1085個(gè)提供LG服務(wù)的種子頁(yè)面。由成功下載的未標記的HTML文件和種子頁(yè)面構成的數據集被隨機拆分為三個(gè)子集:訓練集(94%)、驗證集(3%)和測試集(3%),其中驗證和測試集中未標記的候選URL被手工標記,從而用于調整超參數和評估模型泛化能力。
超參數調整。和上述確定預過(guò)濾器的超參數過(guò)程類(lèi)似,我們選擇N為100,K為1020作為基于內容特征的分類(lèi)器的最優(yōu)超參數。進(jìn)一步地為了確定T,我們繪制了不同閾值T下經(jīng)過(guò)訓練的分類(lèi)器在驗證集上的TPR和FPR分布,如圖2(b)所示。對于基于內容特征的分類(lèi)器而言,我們希望能同時(shí)實(shí)現較高的TPR和較低的FPR,這意味著(zhù)得到的相關(guān)頁(yè)面是LG頁(yè)面的概率較高。從圖2(b)可知,T為0.4292時(shí)的分類(lèi)器可以達到較高的TPR(95.24%)以及較低的FPR(4.25%),所以我們選擇T為0.4292。
分類(lèi)結果。接著(zhù)我們利用測試集(包含77個(gè)正樣本和2269個(gè)負樣本)評估具有最佳超參數的分類(lèi)器的泛化能力,發(fā)現其能實(shí)現較高的TPR(96.10%)和較低的FPR(4.10%)。換句話(huà)說(shuō),在測試集中,分類(lèi)器成功過(guò)濾掉了2176個(gè)非LG頁(yè)面,節省了嘗試從中提取探針的資源消耗。同時(shí),它只丟棄3個(gè)LG頁(yè)面。
接著(zhù),我們使用訓練好的基于內容特征的分類(lèi)器對77113個(gè)預過(guò)濾URL進(jìn)行分類(lèi),其中4226個(gè)URL被分類(lèi)器分類(lèi)為相關(guān),我們稱(chēng)之為相關(guān)URL。值得注意的是,所有相關(guān)URL將作為新的已知LG頁(yè)面開(kāi)啟新一輪的迭代。四輪迭代后,我們得到了50777個(gè)相關(guān)頁(yè)面,用于后續的分析和實(shí)際應用。
實(shí)際應用
通過(guò)聚焦爬蟲(chóng),我們得到了很有可能是LG頁(yè)面的相關(guān)頁(yè)面,其對于測量研究非常有用。例如,研究人員可以手工分析每個(gè)相關(guān)頁(yè)面提取可用的探針列表,并手動(dòng)使用這些探針執行測量命令。但是對于想要以更具擴展性的方式完成測量任務(wù)的研究人員而言,如果我們能自動(dòng)化地使用這些LG探針,將會(huì )更加實(shí)用。在本節中,我們開(kāi)發(fā)了一種工具用于提取可自動(dòng)化使用的LG探針,并展示這些探針在促進(jìn)測量研究方面的實(shí)用價(jià)值。
3.1提取可自動(dòng)化使用的LG探針
LG網(wǎng)站通常具有不同的輸入接口來(lái)收集和解析測量請求,缺乏輸入接口規范阻礙了LG探針的自動(dòng)使用。因此,我們需要開(kāi)發(fā)一種工具來(lái)自動(dòng)提取探針的輸入接口信息,并通過(guò)發(fā)送測量請求以及分析測量響應來(lái)檢查這些LG探針是否支持自動(dòng)化使用。
3.1.1提取探針輸入接口信息
我們設計了基于模板匹配和基于關(guān)鍵詞匹配的方法用于提取探針的輸入接口信息。
模板匹配。有研究[8,9]發(fā)現LG服務(wù)的部署往往基于幾個(gè)流行的開(kāi)源項目,且這些開(kāi)源項目有不同的輸入接口規范。本文通過(guò)分析論文[8]和[9]中提到的開(kāi)源項目所創(chuàng )建的 HTML文件,推導出八個(gè)輸入接口模板,其中每個(gè)模板均記錄了表單元素中輸入字段的名稱(chēng)、類(lèi)型和用途。接著(zhù),我們遍歷相關(guān)頁(yè)面,檢查其表單元素中輸入字段名稱(chēng)和類(lèi)型是否與模板相同,最終共發(fā)現1302個(gè)相關(guān)頁(yè)面與模板成功匹配。

關(guān)鍵詞匹配。至于剩余的相關(guān)頁(yè)面,我們檢查其表單元素中是否包含特定關(guān)鍵字(例如ping、trace、BGP或Bird、Router ID),發(fā)現516個(gè)相關(guān)頁(yè)面是關(guān)鍵字匹配頁(yè)面。
對于模板匹配和關(guān)鍵詞匹配頁(yè)面,我們自動(dòng)將每個(gè)探針的信息(即它支持的所有命令以及運行每個(gè)命令所需的輸入字段)匯總到一個(gè)文件中,總的來(lái)說(shuō),我們提取了4980個(gè)探針的輸入接口信息。作為比較,我們使用上述匹配方法對1085個(gè)提供LG服務(wù)的種子頁(yè)面進(jìn)行分析,發(fā)現792個(gè)種子頁(yè)面是模板匹配或關(guān)鍵字匹配頁(yè)面,共提取了4450 個(gè)探針的輸入接口信息。
3.1.2自動(dòng)發(fā)布測量請求
在上述提取的探針輸入接口信息的基礎上,每個(gè)測量請求可以轉換為將特定值填入相應的表單輸入字段的操作。具體地,我們采用Mechanize庫以編程的方式填寫(xiě)表單所需的輸入字段并將表單提交到相應的Web服務(wù)器。服務(wù)器收到表單數據后,會(huì )響應測量請求并返回測量結果。
3.1.3分析測量響應以確定支持自動(dòng)化使用的探針
如果探針能成功響應自動(dòng)化發(fā)送的測量請求,我們將其稱(chēng)為支持自動(dòng)化使用的探針。具體地,我們自動(dòng)發(fā)布ping測量請求依次要求每個(gè)探針發(fā)送ping數據包到一個(gè)受控主機(運行tcpdump以捕獲收到的ICMP數據包)。如果該主機可以接收到ICMP ping數據包,則表示對應的探針是支持自動(dòng)化使用的。同時(shí),可以從ICMP數據包中提取探針的IP地址,然后通過(guò)查詢(xún)IP2AS以及地理定位數據庫了解探針的網(wǎng)絡(luò )和地理位置,方便研究人員選擇特定區域的探針完成測量任務(wù)。
使用上述方法,我們成功地從種子頁(yè)面中確定了1446個(gè)可自動(dòng)化使用的探針,并從相關(guān)頁(yè)面中確定了1296個(gè)可自動(dòng)化使用的探針。去重后,我們發(fā)現相關(guān)頁(yè)面中有910個(gè)可自動(dòng)化使用的探針沒(méi)有包含在任何種子頁(yè)面中,這些探針被稱(chēng)為新發(fā)現的可自動(dòng)化使用的探針。
3.2LG探針的分析和應用
研究人員已經(jīng)注意到當前可用探針的地理和網(wǎng)絡(luò )覆蓋范圍有限阻礙了我們對互聯(lián)網(wǎng)的全面了解[10],如果我們新發(fā)現可自動(dòng)化使用的探針能實(shí)現地理和網(wǎng)絡(luò )覆蓋改進(jìn),將會(huì )很有價(jià)值。此外,我們還進(jìn)行了一個(gè)簡(jiǎn)單的案例研究來(lái)證明這些探針在提升互聯(lián)網(wǎng)拓撲完整性方面的潛在價(jià)值。
3.2.1地理覆蓋范圍改進(jìn)
雖然有一些公開(kāi)的IP地理定位數據庫,但眾所周知,獲得準確的IP地址到地理定位映射仍然是一個(gè)挑戰。我們發(fā)現有些LG網(wǎng)頁(yè)中會(huì )給出探針的地理位置,相對而言比較可靠。通過(guò)正則表達式匹配,我們成功提取了390個(gè)探針的國家級定位信息以及316個(gè)探針的城市級定位信息。對于其余探針,我們購買(mǎi)IP2location DB9數據庫來(lái)將其映射到國家和城市級位置。需要說(shuō)明的是,我們將DB9數據庫與網(wǎng)頁(yè)中提取的可靠定位信息進(jìn)行比較,發(fā)現DB9數據庫的國家級定位的準確率能達到97%,還是可以接受的。
圖3 探針地理分布
圖2繪制了1446個(gè)已知的可自動(dòng)化使用的LG探針(藍點(diǎn))和 910個(gè)新發(fā)現的可自動(dòng)化使用的LG探針(紅點(diǎn))的地理覆蓋范圍,其中點(diǎn)的大小代表相應地理區域中探針的數量。1446個(gè)已知的可自動(dòng)化使用的探針?lè )植荚?5個(gè)國家,386個(gè)城市,910個(gè)新發(fā)現的可自動(dòng)化使用的探針覆蓋了55個(gè)國家,282個(gè)城市。新發(fā)現的探針使得研究人員能從8個(gè)新的國家和160個(gè)新的城市執行測量命令,而在這些區域未發(fā)現已知的LG探針。尤其,這8個(gè)新的國家主要分布在東非和南亞,其網(wǎng)絡(luò )連通性和性能近年來(lái)引起了很多研究人員的關(guān)注。
3.2.2網(wǎng)絡(luò )覆蓋范圍改進(jìn)
推斷路由器所的網(wǎng)絡(luò )歸屬也并非易事,我們注意到一些LG頁(yè)面會(huì )給出探針所在的自治域信息,通過(guò)正則匹配,我們提取了526個(gè)探針的自治域信息。然后我們使用bdrmapIT[11]工具構建一個(gè)IP2AS數據集,幫助獲取323個(gè)探針的自治域信息。對于剩余探針,我們進(jìn)一步查詢(xún)路由表前綴獲取自治域信息。
經(jīng)分析發(fā)現,新發(fā)現的探針使得研究人員能從288個(gè)新的自治域執行測量命令,而在這些AS內未發(fā)現已知的LG探針。進(jìn)一步地,我們將這些自治域根據其在互聯(lián)網(wǎng)中的層次結構進(jìn)行分層,發(fā)現絕大部分新的自治域(287個(gè))都分布在互聯(lián)網(wǎng)邊緣。之前的研究[12]表明可以通過(guò)將探針?lè )胖迷诨ヂ?lián)網(wǎng)邊緣來(lái)改善AS級拓撲的完整性,這也說(shuō)明我們新發(fā)現的LG探針對于提高互聯(lián)網(wǎng)拓撲的完整性具有一定的價(jià)值。
3.2.3提升拓撲完整性的案例研究
為了說(shuō)明新發(fā)現的LG探針的潛在價(jià)值,我們利用支持顯示BGP鄰居IP宣告(或接收)路由這一測量命令的探針采集大量的BGP路由表信息,并將獲取的AS級別拓撲數據和其他常用的測量平臺采集的數據比較,發(fā)現了10個(gè)新的AS以及1428個(gè)新的AS鏈路。
利用LG探針采集AS路徑信息。運行顯示BGP鄰居IP宣告(或接收)路由測量命令返回的AS路徑可以幫助構建AS級互聯(lián)網(wǎng)拓撲。我們注意到一些常用的LG開(kāi)源項目模板(例如HSDN[14]和Cougar[13])通常在show BGP summary測量命令的響應頁(yè)面中提供顯示BGP鄰居IP宣告(或接收)路由這一測量命令的輸入接口。
借助章節4.1中提出的自動(dòng)發(fā)布測量請求的方法,我們可以自動(dòng)控制探針收集AS路徑信息。具體而言,在提取的探針輸入接口信息的基礎上,我們以編程的方式填寫(xiě)所需的輸入字段,向每個(gè)探針發(fā)送show ip BGP summary測量請求。返回的響應網(wǎng)頁(yè)會(huì )給出與探針相連的每個(gè)BGP連接的狀態(tài),以及相鄰的BGP路由器IP地址和所屬自治域。然后,通過(guò)點(diǎn)擊每個(gè)相鄰IP所對應超鏈接,我們可以控制探針運行顯示BGP鄰居IP這一測量命令來(lái)收集有關(guān)鄰居IP的詳細信息,包括顯示其宣告(或接收)路由的超鏈接。通過(guò)進(jìn)一步訪(fǎng)問(wèn)這一超鏈接,我們可以控制探針運行顯示BGP鄰居IP宣告(或接收)路由測量命令獲取BGP路由表,再使用正則匹配提取AS路徑。
提升AS拓撲完整性。使用上述方法,我們成功地從14個(gè)LG探針和8個(gè)新發(fā)現的LG探針中提取了AS路徑信息。作為比較,我們還從兩個(gè)流行的BGP采集項目(RIPE RIS和RouteViews)下載了2020年12月的路由表快照構建AS拓撲。對比發(fā)現這8個(gè)新發(fā)現的LG探針可以幫助觀(guān)察到10個(gè)新的AS以及1428個(gè)新的AS鏈路。這一結果與以往研究的結論一致[12],常用的BGP探針數量有限且通常集中在互聯(lián)網(wǎng)核心導致存在許多無(wú)法直接觀(guān)察到的“陰影區域”,更多的BGP探針(尤其是分布在互聯(lián)網(wǎng)邊緣的探針)對于發(fā)現更多的 AS鏈路很有價(jià)值。
討論:其他的新發(fā)現LG探針對于提升AS級拓撲的完整性也有十分重要的意義。實(shí)際上,支持traceroute或顯示BGP路由測量命令的探針的數量比上述案例研究中使用測量點(diǎn)數量多很多。對于支持traceroute的探針,我們可以自動(dòng)地控制他們traceroute到目標IP地址,得到IP級別的路徑。對于支持顯示BGP路由的探針,我們可以控制他們返回到達指定網(wǎng)絡(luò )前綴的BGP路由信息。這里需要解決的問(wèn)題是如何為支持traceroute測量命令的探針選擇合適目標IP地址以及如何為支持顯示BGP路由測量命令的探針指定目標網(wǎng)絡(luò )前綴。由于一些LG探針限制用戶(hù)請求速率,我們需要仔細選擇目標IP和目標網(wǎng)絡(luò )前綴以在提高拓撲完整性方面取得高效的性能,這將作為我們的后續工作進(jìn)一步開(kāi)展。
參考文獻:
[1] Brian D Davison. 2000. Topical locality in the web. In Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval. 272–279.
[2] Rakesh Agrawal, Tomasz Imieliński, and Arun Swami. 1993. Mining association rules between sets of items in large databases. In Proceedings of the 1993 ACM SIGMOD international conference on Management of data. 207–216.
[3] [n.d.]. The CAIDA UCSD AS to Organization Mapping Dataset. Retrieved April, 2020 from
[4] Juan Ramos et al. 2003. Using TF-IDF to determine word relevance in document queries. In Proceedings of the first instructional conference on machine learning, Vol. 242. New Jersey, USA, 133–142.
[5] Ken Lang. 1995. Newsweeder: Learning to filter netnews. In Machine Learning Proceedings 1995. Elsevier, 331–339.
[6] Charles Elkan and Keith Noto. 2008. Learning classifiers from only positive and unlabeled data. In Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining. 213–220.
[7] Fantine Mordelet and J-P Vert. 2014. A bagging SVM to learn from positive and unlabeled examples. Pattern Recognition Letters 37 (2014), 201–209.
[8] Luca Bruno, Mariano Graziano, Davide Balzarotti, and Aurélien Francillon. 2014. Through the looking-glass, and what eve found there. In 8th USENIX Workshop on Offensive Technologies (WOOT 14).
[9] Vasileios Giotsas, Amogh Dhamdhere, and Kimberly C Claffy. 2016. Periscope: Unifying looking glass querying. In International Conference on Passive and Active Network Measurement. Springer, 177–189.
[10] Enrico Gregori, Alessandro Improta, Luciano Lenzini, Lorenzo Rossi, and Luca Sani. 2014. A novel methodology to address the Internet AS-level data incompleteness. IEEE/ACM Transactions on Networking 23, 4, 1314–1327
[11] Alexander Marder, Matthew Luckie, Amogh Dhamdhere, Bradley Huffaker, KC Claffy, and Jonathan M Smith. 2018. Pushing the boundaries with bdrmapit: Mapping router ownership at Internet scale. In Proceedings of the 2018 conference on Internet Measurement Conference (IMC). 56–69.
[12] Enrico Gregori, Alessandro Improta, Luciano Lenzini, Lorenzo Rossi, and Luca Sani. 2012. On the incompleteness of the AS-level graph: a novel methodology for BGP route collector placement. In Proceedings of the 2012 Conference on Internet Measurement Conference (IMC). 253–264.
[13] [n.d.]. Cougar Looking Glass. Retrieved September, 2020 from
[14] [n.d.]. HSDN Looking Glass. Retrieved September, 2020 from
新手如何快速搭建一個(gè)網(wǎng)站?新手使用推薦第一種方法
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 113 次瀏覽 ? 2022-07-15 08:00
網(wǎng)站自動(dòng)采集發(fā)布機器人,通過(guò)發(fā)布機器人自動(dòng)采集信息,機器人會(huì )自動(dòng)加入你的站點(diǎn),當用戶(hù)查詢(xún)的時(shí)候,比如搜索“婚紗”“寶寶”等關(guān)鍵詞,就會(huì )跳轉到該網(wǎng)站。
百度推廣有一種關(guān)鍵詞密鑰,你注冊百度推廣的時(shí)候填寫(xiě)你的網(wǎng)站域名和郵箱。
我看到有人說(shuō)用robots協(xié)議和disallow、extra字段,
我看到有人說(shuō)用代理服務(wù)器、sso這種都是高大上的服務(wù)器但是都需要購買(mǎi)域名是很貴的其實(shí)現在已經(jīng)有像騰訊一樣低廉的服務(wù)器max(可提供免費搭建網(wǎng)站的)而且不止在網(wǎng)站投放廣告可以做其他的比如媒體類(lèi)頁(yè)面制作啊app上架啊人力物力都不需要花錢(qián)的
想要快速搭建一個(gè)網(wǎng)站,不像微信的app那么麻煩,不用技術(shù)太復雜,請問(wèn)一下新手如何快速搭建一個(gè)網(wǎng)站?根據我的了解方法如下:1.主題搭建。用戶(hù)點(diǎn)擊某一主題,會(huì )導致網(wǎng)站被展示,那就要求網(wǎng)站分主題展示,再把主題的內容通過(guò)跳轉鏈接呈現給用戶(hù)。2.人力手動(dòng)點(diǎn)。如果沒(méi)有好的線(xiàn)上支持系統(大多新手使用),手動(dòng)點(diǎn)中你可能會(huì )遇到各種困難,不但要進(jìn)行網(wǎng)站聯(lián)合,而且還要加班到凌晨5點(diǎn)才能搞定。
3.其他方法。通過(guò)配置,可以看到聯(lián)合的網(wǎng)站已有該主題的用戶(hù)無(wú)需做任何操作,直接在網(wǎng)站下方顯示該主題的分享鏈接。這種方法簡(jiǎn)單快捷。這幾種方法是我的搭建網(wǎng)站方法,新手使用推薦第一種方法。我想法也許一直有變化,歡迎大家在留言探討。 查看全部
新手如何快速搭建一個(gè)網(wǎng)站?新手使用推薦第一種方法
網(wǎng)站自動(dòng)采集發(fā)布機器人,通過(guò)發(fā)布機器人自動(dòng)采集信息,機器人會(huì )自動(dòng)加入你的站點(diǎn),當用戶(hù)查詢(xún)的時(shí)候,比如搜索“婚紗”“寶寶”等關(guān)鍵詞,就會(huì )跳轉到該網(wǎng)站。

百度推廣有一種關(guān)鍵詞密鑰,你注冊百度推廣的時(shí)候填寫(xiě)你的網(wǎng)站域名和郵箱。
我看到有人說(shuō)用robots協(xié)議和disallow、extra字段,

我看到有人說(shuō)用代理服務(wù)器、sso這種都是高大上的服務(wù)器但是都需要購買(mǎi)域名是很貴的其實(shí)現在已經(jīng)有像騰訊一樣低廉的服務(wù)器max(可提供免費搭建網(wǎng)站的)而且不止在網(wǎng)站投放廣告可以做其他的比如媒體類(lèi)頁(yè)面制作啊app上架啊人力物力都不需要花錢(qián)的
想要快速搭建一個(gè)網(wǎng)站,不像微信的app那么麻煩,不用技術(shù)太復雜,請問(wèn)一下新手如何快速搭建一個(gè)網(wǎng)站?根據我的了解方法如下:1.主題搭建。用戶(hù)點(diǎn)擊某一主題,會(huì )導致網(wǎng)站被展示,那就要求網(wǎng)站分主題展示,再把主題的內容通過(guò)跳轉鏈接呈現給用戶(hù)。2.人力手動(dòng)點(diǎn)。如果沒(méi)有好的線(xiàn)上支持系統(大多新手使用),手動(dòng)點(diǎn)中你可能會(huì )遇到各種困難,不但要進(jìn)行網(wǎng)站聯(lián)合,而且還要加班到凌晨5點(diǎn)才能搞定。
3.其他方法。通過(guò)配置,可以看到聯(lián)合的網(wǎng)站已有該主題的用戶(hù)無(wú)需做任何操作,直接在網(wǎng)站下方顯示該主題的分享鏈接。這種方法簡(jiǎn)單快捷。這幾種方法是我的搭建網(wǎng)站方法,新手使用推薦第一種方法。我想法也許一直有變化,歡迎大家在留言探討。
優(yōu)采云談網(wǎng)站的采集與防采集
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 121 次瀏覽 ? 2022-07-15 05:59
一、談優(yōu)采云采集器的由來(lái)
優(yōu)采云:我們的這個(gè)采集器最早是從05年底開(kāi)始有這個(gè)想法的,當時(shí)也是和大家一樣,個(gè)人站長(cháng),添加管理維護網(wǎng)站很辛苦,一篇篇修改復制發(fā)布最開(kāi)始也是 接觸dede 然后發(fā)現他有個(gè)外部的c#采集器。不知道有多少人也記得,我的思路基本是從這個(gè)dedespider學(xué)來(lái)的,原來(lái)真的不懂什么,到后來(lái)學(xué)會(huì )php 和.net,所以只要大家有興趣,技術(shù)上的問(wèn)題都可以克服,講到現在的采集,其實(shí)采集只能替代站長(cháng)部分手工的操作。我們不建議大規模得制造垃圾站(全盤(pán)得 采集復制別人的站點(diǎn)),所以我們現在的軟件的功能越做越多,但新用戶(hù)缺越來(lái)越不會(huì )用了。
我們現在有一批很忠實(shí)的會(huì )員,他們一直在靠采集器更新網(wǎng)站。迅速的采集然后百度搜錄帶來(lái)巨大的流量的時(shí)代已經(jīng)不在,站長(cháng)還是要關(guān)注內容,靠采集器采集 的數據一樣要注意,前期只能做為一個(gè)數據填充,可以稍微大的。但時(shí)間長(cháng)了,目標就要把垃圾數據也要變成精品,否則做不長(cháng)久
二、關(guān)于采集網(wǎng)站的經(jīng)驗
優(yōu)采云:我們現在在更新這個(gè)采集器,在數據采集方面也積累了一些經(jīng)驗,增加更多功能以適應新形式下的采集
1.別人經(jīng)常采的網(wǎng)站不要去采
2.太容易采的網(wǎng)站不要去采
3.不要一次性采集太多,一定要注意后期處理(后面詳續)
4.做好關(guān)鍵詞,tag的采集分析
5.自己網(wǎng)站要有自己的定位,不采與自己網(wǎng)站無(wú)關(guān)的內容
6.采集也要有持續性,經(jīng)常更新,自動(dòng)采集功能我們也有,但還是建議大家人工也參與一些審核,或定時(shí),亂序發(fā)布
后期處理,要想法子做到讓搜索引擎那看不出來(lái)兩片文章的相同,這里面應該有很多SEO高手,那我不獻丑了。我說(shuō)下我們現在實(shí)現的功能,大家可以把這些混用,達到改變內容偽原創(chuàng ):
1.給標題。內容分詞
2.使用同義詞近義詞替換,排除敏感詞,不同的標簽之間數據融合,指如標題內容之間數據的相互替換
3.給文章加上摘要
4.為文章標題等生成拼音地址
5.采集一些其他編碼的網(wǎng)站,我們可以做到簡(jiǎn)繁體轉化,可以采集中文網(wǎng)站翻譯成英文(雖然比較垃圾,但應該可以算是原創(chuàng ))
我們也發(fā)現,高難度采集的網(wǎng)站一般內容質(zhì)量都非常好,采集其實(shí)有時(shí)也是一件很有樂(lè )趣的事情,需要你學(xué)習一些采集相關(guān)的知識。
三、關(guān)于防采集的方法
優(yōu)采云:下面講一些主要的防采集方法??梢哉f(shuō)是攻防對戰吧。打開(kāi)一個(gè)網(wǎng)頁(yè)實(shí)際就是一個(gè)Http請求瀏覽器。百度蜘蛛,小到我們的采集器使用的都是一個(gè) 原理,模擬http請求,所以我們同樣能模擬出瀏覽器。百度蜘蛛出來(lái)所以絕對的防采集根本不存在,只是難度的高低?;蛘吣阏J為搜索引擎的搜錄也無(wú)所謂了。 你可以用一些非常強大的activex,flash,全圖片文字的形式,這個(gè)我們無(wú)能為力。
普通的防采集方法有
1、來(lái)源判斷
2、登錄信息判斷 Cookie
3、請求次數判斷。如一段時(shí)間內請求多少,非常規操作則封IP
4、發(fā)送方式判斷 POST GET 使用JS,Ajax等請求內容
舉例:
1.2不用說(shuō)了,論壇,下載站等。。
3、一些大網(wǎng)站,需要配置服務(wù)器,單純靠腳本判斷資源消耗比較大
4、如一些招聘站,的分頁(yè),Web2.0站的ajax請求內容
當然我們后面還發(fā)現一些殺手锏,今天第一次在這里給大家公布出來(lái)~~ 有優(yōu)質(zhì)內容需要防采集的朋友可以考慮試下
1、網(wǎng)頁(yè)默認deflate壓縮輸出(gzip容易一點(diǎn),容易解壓) 我們普通的瀏覽器和baidu支持識別gzip,deflate輸出內容
2、網(wǎng)頁(yè)內容不定時(shí) ? 內容自動(dòng)截斷,這兩點(diǎn)基本可以防主大部分主流軟件采集及web采集程序了~
今天主要想要表達的一點(diǎn),大家在做站時(shí)一定要注意技術(shù)的提高,比如我們里面有后期外部php及.net接口處理采集數據?;蛘吒纱嗄阕约鹤鲆粋€(gè)發(fā)布時(shí) 的接口程序自己入庫。我們偽原創(chuàng )做得再好,一樣有非常多的會(huì )員使用,那樣又不原創(chuàng )了,采集一樣需要技術(shù),只有你通過(guò)采集器獲得了沒(méi)有多少人有的數據,你才 是唯一了??赡苁俏易顬榧夹g(shù)型人的一個(gè)通病,謝謝大家! 查看全部
優(yōu)采云談網(wǎng)站的采集與防采集
一、談優(yōu)采云采集器的由來(lái)
優(yōu)采云:我們的這個(gè)采集器最早是從05年底開(kāi)始有這個(gè)想法的,當時(shí)也是和大家一樣,個(gè)人站長(cháng),添加管理維護網(wǎng)站很辛苦,一篇篇修改復制發(fā)布最開(kāi)始也是 接觸dede 然后發(fā)現他有個(gè)外部的c#采集器。不知道有多少人也記得,我的思路基本是從這個(gè)dedespider學(xué)來(lái)的,原來(lái)真的不懂什么,到后來(lái)學(xué)會(huì )php 和.net,所以只要大家有興趣,技術(shù)上的問(wèn)題都可以克服,講到現在的采集,其實(shí)采集只能替代站長(cháng)部分手工的操作。我們不建議大規模得制造垃圾站(全盤(pán)得 采集復制別人的站點(diǎn)),所以我們現在的軟件的功能越做越多,但新用戶(hù)缺越來(lái)越不會(huì )用了。
我們現在有一批很忠實(shí)的會(huì )員,他們一直在靠采集器更新網(wǎng)站。迅速的采集然后百度搜錄帶來(lái)巨大的流量的時(shí)代已經(jīng)不在,站長(cháng)還是要關(guān)注內容,靠采集器采集 的數據一樣要注意,前期只能做為一個(gè)數據填充,可以稍微大的。但時(shí)間長(cháng)了,目標就要把垃圾數據也要變成精品,否則做不長(cháng)久
二、關(guān)于采集網(wǎng)站的經(jīng)驗
優(yōu)采云:我們現在在更新這個(gè)采集器,在數據采集方面也積累了一些經(jīng)驗,增加更多功能以適應新形式下的采集
1.別人經(jīng)常采的網(wǎng)站不要去采
2.太容易采的網(wǎng)站不要去采
3.不要一次性采集太多,一定要注意后期處理(后面詳續)
4.做好關(guān)鍵詞,tag的采集分析
5.自己網(wǎng)站要有自己的定位,不采與自己網(wǎng)站無(wú)關(guān)的內容

6.采集也要有持續性,經(jīng)常更新,自動(dòng)采集功能我們也有,但還是建議大家人工也參與一些審核,或定時(shí),亂序發(fā)布
后期處理,要想法子做到讓搜索引擎那看不出來(lái)兩片文章的相同,這里面應該有很多SEO高手,那我不獻丑了。我說(shuō)下我們現在實(shí)現的功能,大家可以把這些混用,達到改變內容偽原創(chuàng ):
1.給標題。內容分詞
2.使用同義詞近義詞替換,排除敏感詞,不同的標簽之間數據融合,指如標題內容之間數據的相互替換
3.給文章加上摘要
4.為文章標題等生成拼音地址
5.采集一些其他編碼的網(wǎng)站,我們可以做到簡(jiǎn)繁體轉化,可以采集中文網(wǎng)站翻譯成英文(雖然比較垃圾,但應該可以算是原創(chuàng ))
我們也發(fā)現,高難度采集的網(wǎng)站一般內容質(zhì)量都非常好,采集其實(shí)有時(shí)也是一件很有樂(lè )趣的事情,需要你學(xué)習一些采集相關(guān)的知識。
三、關(guān)于防采集的方法
優(yōu)采云:下面講一些主要的防采集方法??梢哉f(shuō)是攻防對戰吧。打開(kāi)一個(gè)網(wǎng)頁(yè)實(shí)際就是一個(gè)Http請求瀏覽器。百度蜘蛛,小到我們的采集器使用的都是一個(gè) 原理,模擬http請求,所以我們同樣能模擬出瀏覽器。百度蜘蛛出來(lái)所以絕對的防采集根本不存在,只是難度的高低?;蛘吣阏J為搜索引擎的搜錄也無(wú)所謂了。 你可以用一些非常強大的activex,flash,全圖片文字的形式,這個(gè)我們無(wú)能為力。
普通的防采集方法有

1、來(lái)源判斷
2、登錄信息判斷 Cookie
3、請求次數判斷。如一段時(shí)間內請求多少,非常規操作則封IP
4、發(fā)送方式判斷 POST GET 使用JS,Ajax等請求內容
舉例:
1.2不用說(shuō)了,論壇,下載站等。。
3、一些大網(wǎng)站,需要配置服務(wù)器,單純靠腳本判斷資源消耗比較大
4、如一些招聘站,的分頁(yè),Web2.0站的ajax請求內容
當然我們后面還發(fā)現一些殺手锏,今天第一次在這里給大家公布出來(lái)~~ 有優(yōu)質(zhì)內容需要防采集的朋友可以考慮試下
1、網(wǎng)頁(yè)默認deflate壓縮輸出(gzip容易一點(diǎn),容易解壓) 我們普通的瀏覽器和baidu支持識別gzip,deflate輸出內容
2、網(wǎng)頁(yè)內容不定時(shí) ? 內容自動(dòng)截斷,這兩點(diǎn)基本可以防主大部分主流軟件采集及web采集程序了~
今天主要想要表達的一點(diǎn),大家在做站時(shí)一定要注意技術(shù)的提高,比如我們里面有后期外部php及.net接口處理采集數據?;蛘吒纱嗄阕约鹤鲆粋€(gè)發(fā)布時(shí) 的接口程序自己入庫。我們偽原創(chuàng )做得再好,一樣有非常多的會(huì )員使用,那樣又不原創(chuàng )了,采集一樣需要技術(shù),只有你通過(guò)采集器獲得了沒(méi)有多少人有的數據,你才 是唯一了??赡苁俏易顬榧夹g(shù)型人的一個(gè)通病,謝謝大家!
網(wǎng)站自動(dòng)采集發(fā)布商品的利弊及應對措施??!!
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 158 次瀏覽 ? 2022-07-14 09:06
網(wǎng)站自動(dòng)采集發(fā)布商品的利弊?:顧客的關(guān)注度會(huì )有所下降,點(diǎn)擊多了,然后瀏覽量多了,頁(yè)面的跳出率就高了,這樣就增加了賬號的被凍結的機率,對用戶(hù)體驗度也會(huì )降低網(wǎng)站的一個(gè)安全性:首先我們會(huì )通過(guò)網(wǎng)站監控網(wǎng)站后臺的一些數據,當這些數據出現異常的時(shí)候,從而進(jìn)行及時(shí)的告警,這些數據監控以及預警的數據是存在各個(gè)接口地方的,而且數據量比較大,這樣就增加了服務(wù)器的負擔和經(jīng)濟成本。
平臺應對措施:整理了目前可以自動(dòng)采集發(fā)布商品的方式有哪些?網(wǎng)站自動(dòng)發(fā)布商品的利弊?從本質(zhì)上來(lái)說(shuō),我們就是給商家打廣告,接受人們的點(diǎn)擊與瀏覽流量。對于已有的商品來(lái)說(shuō),我們需要點(diǎn)擊收藏、評論以及其他豐富的功能如果這些已有商品的網(wǎng)站還允許對外發(fā)布商品,那么可以參考淘寶的做法,商家在上面發(fā)布他們的一些產(chǎn)品或服務(wù),然后用戶(hù)通過(guò)這些鏈接進(jìn)入到實(shí)際商家的網(wǎng)站就可以購買(mǎi)到商品了。
廣告主通過(guò)購買(mǎi)這種商業(yè)宣傳推廣的模式,可以直接解決商家本身的盈利問(wèn)題。對于商家來(lái)說(shuō),是一種很好的營(yíng)銷(xiāo)模式。平臺應對措施:廣告宣傳推廣可以進(jìn)行精準的投放,最終實(shí)現精準的廣告投放,實(shí)現網(wǎng)站自動(dòng)發(fā)布商品的目的。具體來(lái)說(shuō)有兩種方式:。
1、電子商務(wù)的話(huà),可以把網(wǎng)站里的商品做一個(gè)排序,可以做到精準的廣告投放。
2、如果你的網(wǎng)站上還有很多商品沒(méi)有到訪(fǎng),只做類(lèi)似rss一樣的分類(lèi)功能進(jìn)行合理的分類(lèi),這樣整理在一起,可以對廣告的投放一個(gè)更好的收口來(lái)。
自動(dòng)采集發(fā)布商品的利弊?
一、自動(dòng)采集發(fā)布商品的弊端首先,無(wú)論是發(fā)布什么類(lèi)型的商品,都不能保證整理在一起,實(shí)現永久性的商品可見(jiàn)性,而網(wǎng)站自動(dòng)發(fā)布商品,可以實(shí)現精準的商品推廣和自動(dòng)發(fā)布,加大了商家的推廣力度,降低了營(yíng)銷(xiāo)成本,可以有效的降低對于商家的經(jīng)濟負擔。
二、網(wǎng)站自動(dòng)發(fā)布商品的利弊分析
1、自動(dòng)發(fā)布商品不能保證產(chǎn)品的銷(xiāo)量,銷(xiāo)量相對于產(chǎn)品來(lái)說(shuō)是比較難掌握的一件事情,但是商家做得并不全面,有可能是把商品做的比較好,一般很少看到有網(wǎng)站自動(dòng)發(fā)布,這樣可以實(shí)現銷(xiāo)量上的一個(gè)保證。
2、商家在上傳產(chǎn)品的時(shí)候要注意,既要對于產(chǎn)品的定位、質(zhì)量、顏色、尺寸等有一個(gè)相應的要求,也要對于產(chǎn)品賣(mài)出去的目的有一個(gè)相應的要求,在上傳商品的時(shí)候,要有一個(gè)嚴格的要求,確保是原創(chuàng )產(chǎn)品,如果是模仿別人的產(chǎn)品就很容易被人舉報,就很難被識別了。以上就是在梳理的網(wǎng)站自動(dòng)發(fā)布商品的弊端的相關(guān)內容,希望能夠對大家提供到一些幫助。
網(wǎng)站怎么發(fā)布商品,我們可以借助一些社會(huì )化媒體,然后先將各個(gè)渠道的數據傳到自己的網(wǎng)站。當客戶(hù)進(jìn)入到網(wǎng)站以后,可以。 查看全部
網(wǎng)站自動(dòng)采集發(fā)布商品的利弊及應對措施??!!
網(wǎng)站自動(dòng)采集發(fā)布商品的利弊?:顧客的關(guān)注度會(huì )有所下降,點(diǎn)擊多了,然后瀏覽量多了,頁(yè)面的跳出率就高了,這樣就增加了賬號的被凍結的機率,對用戶(hù)體驗度也會(huì )降低網(wǎng)站的一個(gè)安全性:首先我們會(huì )通過(guò)網(wǎng)站監控網(wǎng)站后臺的一些數據,當這些數據出現異常的時(shí)候,從而進(jìn)行及時(shí)的告警,這些數據監控以及預警的數據是存在各個(gè)接口地方的,而且數據量比較大,這樣就增加了服務(wù)器的負擔和經(jīng)濟成本。
平臺應對措施:整理了目前可以自動(dòng)采集發(fā)布商品的方式有哪些?網(wǎng)站自動(dòng)發(fā)布商品的利弊?從本質(zhì)上來(lái)說(shuō),我們就是給商家打廣告,接受人們的點(diǎn)擊與瀏覽流量。對于已有的商品來(lái)說(shuō),我們需要點(diǎn)擊收藏、評論以及其他豐富的功能如果這些已有商品的網(wǎng)站還允許對外發(fā)布商品,那么可以參考淘寶的做法,商家在上面發(fā)布他們的一些產(chǎn)品或服務(wù),然后用戶(hù)通過(guò)這些鏈接進(jìn)入到實(shí)際商家的網(wǎng)站就可以購買(mǎi)到商品了。
廣告主通過(guò)購買(mǎi)這種商業(yè)宣傳推廣的模式,可以直接解決商家本身的盈利問(wèn)題。對于商家來(lái)說(shuō),是一種很好的營(yíng)銷(xiāo)模式。平臺應對措施:廣告宣傳推廣可以進(jìn)行精準的投放,最終實(shí)現精準的廣告投放,實(shí)現網(wǎng)站自動(dòng)發(fā)布商品的目的。具體來(lái)說(shuō)有兩種方式:。

1、電子商務(wù)的話(huà),可以把網(wǎng)站里的商品做一個(gè)排序,可以做到精準的廣告投放。
2、如果你的網(wǎng)站上還有很多商品沒(méi)有到訪(fǎng),只做類(lèi)似rss一樣的分類(lèi)功能進(jìn)行合理的分類(lèi),這樣整理在一起,可以對廣告的投放一個(gè)更好的收口來(lái)。
自動(dòng)采集發(fā)布商品的利弊?
一、自動(dòng)采集發(fā)布商品的弊端首先,無(wú)論是發(fā)布什么類(lèi)型的商品,都不能保證整理在一起,實(shí)現永久性的商品可見(jiàn)性,而網(wǎng)站自動(dòng)發(fā)布商品,可以實(shí)現精準的商品推廣和自動(dòng)發(fā)布,加大了商家的推廣力度,降低了營(yíng)銷(xiāo)成本,可以有效的降低對于商家的經(jīng)濟負擔。

二、網(wǎng)站自動(dòng)發(fā)布商品的利弊分析
1、自動(dòng)發(fā)布商品不能保證產(chǎn)品的銷(xiāo)量,銷(xiāo)量相對于產(chǎn)品來(lái)說(shuō)是比較難掌握的一件事情,但是商家做得并不全面,有可能是把商品做的比較好,一般很少看到有網(wǎng)站自動(dòng)發(fā)布,這樣可以實(shí)現銷(xiāo)量上的一個(gè)保證。
2、商家在上傳產(chǎn)品的時(shí)候要注意,既要對于產(chǎn)品的定位、質(zhì)量、顏色、尺寸等有一個(gè)相應的要求,也要對于產(chǎn)品賣(mài)出去的目的有一個(gè)相應的要求,在上傳商品的時(shí)候,要有一個(gè)嚴格的要求,確保是原創(chuàng )產(chǎn)品,如果是模仿別人的產(chǎn)品就很容易被人舉報,就很難被識別了。以上就是在梳理的網(wǎng)站自動(dòng)發(fā)布商品的弊端的相關(guān)內容,希望能夠對大家提供到一些幫助。
網(wǎng)站怎么發(fā)布商品,我們可以借助一些社會(huì )化媒體,然后先將各個(gè)渠道的數據傳到自己的網(wǎng)站。當客戶(hù)進(jìn)入到網(wǎng)站以后,可以。
優(yōu)采云談網(wǎng)站的采集與防采集
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 120 次瀏覽 ? 2022-06-25 17:44
一、談優(yōu)采云采集器的由來(lái)
優(yōu)采云:我們的這個(gè)采集器最早是從05年底開(kāi)始有這個(gè)想法的,當時(shí)也是和大家一樣,個(gè)人站長(cháng),添加管理維護網(wǎng)站很辛苦,一篇篇修改復制發(fā)布最開(kāi)始也是 接觸dede 然后發(fā)現他有個(gè)外部的c#采集器。不知道有多少人也記得,我的思路基本是從這個(gè)dedespider學(xué)來(lái)的,原來(lái)真的不懂什么,到后來(lái)學(xué)會(huì )php 和.net,所以只要大家有興趣,技術(shù)上的問(wèn)題都可以克服,講到現在的采集,其實(shí)采集只能替代站長(cháng)部分手工的操作。我們不建議大規模得制造垃圾站(全盤(pán)得 采集復制別人的站點(diǎn)),所以我們現在的軟件的功能越做越多,但新用戶(hù)缺越來(lái)越不會(huì )用了。
我們現在有一批很忠實(shí)的會(huì )員,他們一直在靠采集器更新網(wǎng)站。迅速的采集然后百度搜錄帶來(lái)巨大的流量的時(shí)代已經(jīng)不在,站長(cháng)還是要關(guān)注內容,靠采集器采集 的數據一樣要注意,前期只能做為一個(gè)數據填充,可以稍微大的。但時(shí)間長(cháng)了,目標就要把垃圾數據也要變成精品,否則做不長(cháng)久
二、關(guān)于采集網(wǎng)站的經(jīng)驗
優(yōu)采云:我們現在在更新這個(gè)采集器,在數據采集方面也積累了一些經(jīng)驗,增加更多功能以適應新形式下的采集
1.別人經(jīng)常采的網(wǎng)站不要去采
2.太容易采的網(wǎng)站不要去采
3.不要一次性采集太多,一定要注意后期處理(后面詳續)
4.做好關(guān)鍵詞,tag的采集分析
5.自己網(wǎng)站要有自己的定位,不采與自己網(wǎng)站無(wú)關(guān)的內容
6.采集也要有持續性,經(jīng)常更新,自動(dòng)采集功能我們也有,但還是建議大家人工也參與一些審核,或定時(shí),亂序發(fā)布
后期處理,要想法子做到讓搜索引擎那看不出來(lái)兩片文章的相同,這里面應該有很多SEO高手,那我不獻丑了。我說(shuō)下我們現在實(shí)現的功能,大家可以把這些混用,達到改變內容偽原創(chuàng ):
1.給標題。內容分詞
2.使用同義詞近義詞替換,排除敏感詞,不同的標簽之間數據融合,指如標題內容之間數據的相互替換
3.給文章加上摘要
4.為文章標題等生成拼音地址
5.采集一些其他編碼的網(wǎng)站,我們可以做到簡(jiǎn)繁體轉化,可以采集中文網(wǎng)站翻譯成英文(雖然比較垃圾,但應該可以算是原創(chuàng ))
我們也發(fā)現,高難度采集的網(wǎng)站一般內容質(zhì)量都非常好,采集其實(shí)有時(shí)也是一件很有樂(lè )趣的事情,需要你學(xué)習一些采集相關(guān)的知識。
三、關(guān)于防采集的方法
優(yōu)采云:下面講一些主要的防采集方法??梢哉f(shuō)是攻防對戰吧。打開(kāi)一個(gè)網(wǎng)頁(yè)實(shí)際就是一個(gè)Http請求瀏覽器。百度蜘蛛,小到我們的采集器使用的都是一個(gè) 原理,模擬http請求,所以我們同樣能模擬出瀏覽器。百度蜘蛛出來(lái)所以絕對的防采集根本不存在,只是難度的高低?;蛘吣阏J為搜索引擎的搜錄也無(wú)所謂了。 你可以用一些非常強大的activex,flash,全圖片文字的形式,這個(gè)我們無(wú)能為力。
普通的防采集方法有
1、來(lái)源判斷
2、登錄信息判斷 Cookie
3、請求次數判斷。如一段時(shí)間內請求多少,非常規操作則封IP
4、發(fā)送方式判斷 POST GET 使用JS,Ajax等請求內容
舉例:
1.2不用說(shuō)了,論壇,下載站等。。
3、一些大網(wǎng)站,需要配置服務(wù)器,單純靠腳本判斷資源消耗比較大
4、如一些招聘站,的分頁(yè),Web2.0站的ajax請求內容
當然我們后面還發(fā)現一些殺手锏,今天第一次在這里給大家公布出來(lái)~~ 有優(yōu)質(zhì)內容需要防采集的朋友可以考慮試下
1、網(wǎng)頁(yè)默認deflate壓縮輸出(gzip容易一點(diǎn),容易解壓) 我們普通的瀏覽器和baidu支持識別gzip,deflate輸出內容
2、網(wǎng)頁(yè)內容不定時(shí) ? 內容自動(dòng)截斷,這兩點(diǎn)基本可以防主大部分主流軟件采集及web采集程序了~
今天主要想要表達的一點(diǎn),大家在做站時(shí)一定要注意技術(shù)的提高,比如我們里面有后期外部php及.net接口處理采集數據?;蛘吒纱嗄阕约鹤鲆粋€(gè)發(fā)布時(shí) 的接口程序自己入庫。我們偽原創(chuàng )做得再好,一樣有非常多的會(huì )員使用,那樣又不原創(chuàng )了,采集一樣需要技術(shù),只有你通過(guò)采集器獲得了沒(méi)有多少人有的數據,你才 是唯一了??赡苁俏易顬榧夹g(shù)型人的一個(gè)通病,謝謝大家! 查看全部
優(yōu)采云談網(wǎng)站的采集與防采集
一、談優(yōu)采云采集器的由來(lái)
優(yōu)采云:我們的這個(gè)采集器最早是從05年底開(kāi)始有這個(gè)想法的,當時(shí)也是和大家一樣,個(gè)人站長(cháng),添加管理維護網(wǎng)站很辛苦,一篇篇修改復制發(fā)布最開(kāi)始也是 接觸dede 然后發(fā)現他有個(gè)外部的c#采集器。不知道有多少人也記得,我的思路基本是從這個(gè)dedespider學(xué)來(lái)的,原來(lái)真的不懂什么,到后來(lái)學(xué)會(huì )php 和.net,所以只要大家有興趣,技術(shù)上的問(wèn)題都可以克服,講到現在的采集,其實(shí)采集只能替代站長(cháng)部分手工的操作。我們不建議大規模得制造垃圾站(全盤(pán)得 采集復制別人的站點(diǎn)),所以我們現在的軟件的功能越做越多,但新用戶(hù)缺越來(lái)越不會(huì )用了。
我們現在有一批很忠實(shí)的會(huì )員,他們一直在靠采集器更新網(wǎng)站。迅速的采集然后百度搜錄帶來(lái)巨大的流量的時(shí)代已經(jīng)不在,站長(cháng)還是要關(guān)注內容,靠采集器采集 的數據一樣要注意,前期只能做為一個(gè)數據填充,可以稍微大的。但時(shí)間長(cháng)了,目標就要把垃圾數據也要變成精品,否則做不長(cháng)久
二、關(guān)于采集網(wǎng)站的經(jīng)驗
優(yōu)采云:我們現在在更新這個(gè)采集器,在數據采集方面也積累了一些經(jīng)驗,增加更多功能以適應新形式下的采集
1.別人經(jīng)常采的網(wǎng)站不要去采
2.太容易采的網(wǎng)站不要去采
3.不要一次性采集太多,一定要注意后期處理(后面詳續)
4.做好關(guān)鍵詞,tag的采集分析
5.自己網(wǎng)站要有自己的定位,不采與自己網(wǎng)站無(wú)關(guān)的內容
6.采集也要有持續性,經(jīng)常更新,自動(dòng)采集功能我們也有,但還是建議大家人工也參與一些審核,或定時(shí),亂序發(fā)布
后期處理,要想法子做到讓搜索引擎那看不出來(lái)兩片文章的相同,這里面應該有很多SEO高手,那我不獻丑了。我說(shuō)下我們現在實(shí)現的功能,大家可以把這些混用,達到改變內容偽原創(chuàng ):
1.給標題。內容分詞
2.使用同義詞近義詞替換,排除敏感詞,不同的標簽之間數據融合,指如標題內容之間數據的相互替換
3.給文章加上摘要
4.為文章標題等生成拼音地址

5.采集一些其他編碼的網(wǎng)站,我們可以做到簡(jiǎn)繁體轉化,可以采集中文網(wǎng)站翻譯成英文(雖然比較垃圾,但應該可以算是原創(chuàng ))
我們也發(fā)現,高難度采集的網(wǎng)站一般內容質(zhì)量都非常好,采集其實(shí)有時(shí)也是一件很有樂(lè )趣的事情,需要你學(xué)習一些采集相關(guān)的知識。
三、關(guān)于防采集的方法
優(yōu)采云:下面講一些主要的防采集方法??梢哉f(shuō)是攻防對戰吧。打開(kāi)一個(gè)網(wǎng)頁(yè)實(shí)際就是一個(gè)Http請求瀏覽器。百度蜘蛛,小到我們的采集器使用的都是一個(gè) 原理,模擬http請求,所以我們同樣能模擬出瀏覽器。百度蜘蛛出來(lái)所以絕對的防采集根本不存在,只是難度的高低?;蛘吣阏J為搜索引擎的搜錄也無(wú)所謂了。 你可以用一些非常強大的activex,flash,全圖片文字的形式,這個(gè)我們無(wú)能為力。
普通的防采集方法有
1、來(lái)源判斷
2、登錄信息判斷 Cookie
3、請求次數判斷。如一段時(shí)間內請求多少,非常規操作則封IP
4、發(fā)送方式判斷 POST GET 使用JS,Ajax等請求內容
舉例:
1.2不用說(shuō)了,論壇,下載站等。。
3、一些大網(wǎng)站,需要配置服務(wù)器,單純靠腳本判斷資源消耗比較大
4、如一些招聘站,的分頁(yè),Web2.0站的ajax請求內容
當然我們后面還發(fā)現一些殺手锏,今天第一次在這里給大家公布出來(lái)~~ 有優(yōu)質(zhì)內容需要防采集的朋友可以考慮試下
1、網(wǎng)頁(yè)默認deflate壓縮輸出(gzip容易一點(diǎn),容易解壓) 我們普通的瀏覽器和baidu支持識別gzip,deflate輸出內容
2、網(wǎng)頁(yè)內容不定時(shí) ? 內容自動(dòng)截斷,這兩點(diǎn)基本可以防主大部分主流軟件采集及web采集程序了~
今天主要想要表達的一點(diǎn),大家在做站時(shí)一定要注意技術(shù)的提高,比如我們里面有后期外部php及.net接口處理采集數據?;蛘吒纱嗄阕约鹤鲆粋€(gè)發(fā)布時(shí) 的接口程序自己入庫。我們偽原創(chuàng )做得再好,一樣有非常多的會(huì )員使用,那樣又不原創(chuàng )了,采集一樣需要技術(shù),只有你通過(guò)采集器獲得了沒(méi)有多少人有的數據,你才 是唯一了??赡苁俏易顬榧夹g(shù)型人的一個(gè)通病,謝謝大家!
ai智能詞云會(huì )根據語(yǔ)言,自動(dòng)采集發(fā)布一般是重復信息庫
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 155 次瀏覽 ? 2022-06-23 16:01
網(wǎng)站自動(dòng)采集發(fā)布一般是重復信息庫。ai智能詞云會(huì )根據語(yǔ)言,場(chǎng)景,分詞等一系列系統文本分析自動(dòng)合并相似度評分大的關(guān)鍵詞。還可以看到精準匹配的群體喜好行為分析。搜索引擎是人的工具,比如百度根據你的所在地,興趣愛(ài)好,行為習慣等等都能定制出最符合你用戶(hù)情況的搜索詞匯。更科學(xué)的搜索推薦也是一種合作和信息交換。比如搜索你喜歡的景點(diǎn),大眾點(diǎn)評會(huì )給你打出評分并加上tag。
假如你正好今年春節想去成都重慶逛逛,這種信息交換市場(chǎng)一般不大,但是要有。非常大。ai+大數據對于當今已有的客戶(hù),競爭對手分析主要是對企業(yè)產(chǎn)品運營(yíng)業(yè)務(wù)等提升的,對行業(yè)內其他企業(yè)還沒(méi)有特別明顯的效果。為什么還有這個(gè)領(lǐng)域呢?因為用戶(hù)是不變的,但是人(而且是聰明人)的使用習慣,屬性和用戶(hù)態(tài)度卻可以變化的。ai主要做兩件事,一件事是建模,一件事是分析。
建模就是你的信息越來(lái)越精準。分析就是你的客戶(hù)逐漸精準化(形成自己的價(jià)值)。而web/app還沒(méi)有辦法做到客戶(hù)精準化,因為人的使用習慣不可能每時(shí)每刻都很精準。
首先,這種頁(yè)面,如果廣泛的使用需要人工合成?,F在全國各地已經(jīng)有很多人工合成專(zhuān)家,可以拿過(guò)來(lái)參考一下。還有一種是大數據。這個(gè)行業(yè)目前的人工智能還遠遠沒(méi)有落地。最后一種,針對場(chǎng)景,找到需求方的痛點(diǎn),利用大數據,自動(dòng)化響應,從海量數據中挖掘出對應的數據來(lái)解決實(shí)際問(wèn)題。 查看全部
ai智能詞云會(huì )根據語(yǔ)言,自動(dòng)采集發(fā)布一般是重復信息庫
網(wǎng)站自動(dòng)采集發(fā)布一般是重復信息庫。ai智能詞云會(huì )根據語(yǔ)言,場(chǎng)景,分詞等一系列系統文本分析自動(dòng)合并相似度評分大的關(guān)鍵詞。還可以看到精準匹配的群體喜好行為分析。搜索引擎是人的工具,比如百度根據你的所在地,興趣愛(ài)好,行為習慣等等都能定制出最符合你用戶(hù)情況的搜索詞匯。更科學(xué)的搜索推薦也是一種合作和信息交換。比如搜索你喜歡的景點(diǎn),大眾點(diǎn)評會(huì )給你打出評分并加上tag。
假如你正好今年春節想去成都重慶逛逛,這種信息交換市場(chǎng)一般不大,但是要有。非常大。ai+大數據對于當今已有的客戶(hù),競爭對手分析主要是對企業(yè)產(chǎn)品運營(yíng)業(yè)務(wù)等提升的,對行業(yè)內其他企業(yè)還沒(méi)有特別明顯的效果。為什么還有這個(gè)領(lǐng)域呢?因為用戶(hù)是不變的,但是人(而且是聰明人)的使用習慣,屬性和用戶(hù)態(tài)度卻可以變化的。ai主要做兩件事,一件事是建模,一件事是分析。
建模就是你的信息越來(lái)越精準。分析就是你的客戶(hù)逐漸精準化(形成自己的價(jià)值)。而web/app還沒(méi)有辦法做到客戶(hù)精準化,因為人的使用習慣不可能每時(shí)每刻都很精準。
首先,這種頁(yè)面,如果廣泛的使用需要人工合成?,F在全國各地已經(jīng)有很多人工合成專(zhuān)家,可以拿過(guò)來(lái)參考一下。還有一種是大數據。這個(gè)行業(yè)目前的人工智能還遠遠沒(méi)有落地。最后一種,針對場(chǎng)景,找到需求方的痛點(diǎn),利用大數據,自動(dòng)化響應,從海量數據中挖掘出對應的數據來(lái)解決實(shí)際問(wèn)題。
手動(dòng)采集太耗時(shí)?這兩個(gè)Power Query技巧輕松實(shí)現網(wǎng)頁(yè)批量采集!
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 575 次瀏覽 ? 2022-06-19 15:34
最近在群里收到非常多的小伙伴提問(wèn)分享一些關(guān)于Python爬蟲(chóng)相關(guān)的知識,其實(shí)如果是單純的想簡(jiǎn)單采集數據,利用Excel就可以了。
在Excel 2016及之后的版本就內置了一個(gè)非常強大的數據處理神器——Power Query,無(wú)論是數據采集還是基礎的數據處理/分析,實(shí)現起來(lái)都非常簡(jiǎn)單。
最重要的是相比Python需要強大的數學(xué)邏輯+編程功底,Power Query幾乎無(wú)需寫(xiě)代碼就能實(shí)現數據采集!
今天小北就來(lái)給大家分享 2 種不同結構的PQ采集大法,拒絕低效率數據采集!
- 01 -
帶有table的網(wǎng)頁(yè)表格
首先是第一種采集的辦法,它們的最主要區別是看網(wǎng)頁(yè)的結構。如果在網(wǎng)頁(yè)中,使用的是「table標簽」,那么就可以直接講網(wǎng)頁(yè)導入到Excel中自動(dòng)提取出表格。
如何查看網(wǎng)頁(yè)使用的是否是table標簽呢?很簡(jiǎn)單,選中任意一個(gè)數據,右擊,選擇「檢查」即可。
這里我們以「豆瓣電影」為例子,即將上映的電影列表就是一個(gè)以table標簽布局的網(wǎng)頁(yè)。
采集的網(wǎng)址:
首先選擇「數據」選項卡下的「新建查詢(xún)」-「自Web」,在彈出的對話(huà)框中,粘貼需要采集的網(wǎng)址,點(diǎn)擊「確定」,如下:
這個(gè)時(shí)候Excel會(huì )打開(kāi)一個(gè)「導航器」,在左邊的選擇table0,右側就可以看到PQ自動(dòng)將表格數據識別出來(lái)了。
接下來(lái)點(diǎn)擊「加載」,就可以將網(wǎng)頁(yè)數據自動(dòng)加載到Excel中了,并且還是一個(gè)智能表格。
使用PQ加載的表格數據,如果網(wǎng)頁(yè)的數據更新了,也不需重復再次加載數據,直接右鍵「刷新」既可以快速同步數據了。
這是PQ的第一種采集數據的辦法,是不是非常簡(jiǎn)單呢,一行代碼都不用寫(xiě),輕松將數據導入到Excel中。
但是使用的限制也非常多,網(wǎng)頁(yè)中必須使用table標簽(table、td、tr等等)才可以使用。
- 02 -
非table結構的網(wǎng)頁(yè)
然而使用table來(lái)展示數據已經(jīng)組件被淘汰,在80%甚至更多的網(wǎng)頁(yè)中,都會(huì )使用div、ul、span等標簽來(lái)更加靈活的呈現數據。
這個(gè)時(shí)候使用第一種辦法就失效了,例如小北經(jīng)常逛知乎,如果想利用 Excel 將知乎的信息采集下來(lái),第 1 種辦法就失效了。
因為在這個(gè)網(wǎng)頁(yè)中,并沒(méi)有用到「table標簽」,導進(jìn)去的時(shí)候也看不到table0這個(gè)選項:
這個(gè)時(shí)候可以怎么做呢?其實(shí)現代的絕大部分網(wǎng)頁(yè)都是利用API接口來(lái)獲取渲染數據的,這句話(huà)怎么理解呢?
網(wǎng)頁(yè)會(huì )先加載出來(lái),然后再向后臺發(fā)起一個(gè)請求,單純獲取數據,而這些常用的數據格式為JSON。
那么怎么看到這些數據呢?很簡(jiǎn)單,仍然打開(kāi)「檢查」,在「network」下找到「xhr」,這里都是請求的數據。
例如在知乎搜索:芒種學(xué)院,這里就可以找到對應的請求數據。
在頁(yè)面滾動(dòng)的時(shí)候,可以發(fā)現,列表里多了一個(gè)「search_v3?」,點(diǎn)開(kāi)來(lái)查看發(fā)現是我們想要的數據:
接著(zhù)我們右擊鏈接,選擇「copy link address」將鏈接復制出來(lái)。
將這個(gè)鏈接按照方法 1 再次將這個(gè)網(wǎng)址導入到Excel中,如下:
這里獲取的數據就是json的結構數據,可以看到有paging、data等等。
因為數據是在data中,所以我們右擊「data」,選擇「深化」,然后點(diǎn)擊「到表中」。這里就是我們想要的數據列表。
然后一次將「數據」詳細展開(kāi),如下,就得到我們的明細數據:
是不是非常簡(jiǎn)單呢?可以看到,接口里的數據全部被采集出來(lái)了,但是我們一句代碼也沒(méi)有寫(xiě)。
當然在這里面的話(huà)還有非常多的一些標簽等等是我們不需要的,這里如果要處理干凈就需要我們去寫(xiě)PQ的自定義函數了。
最后,如果針對一些更加復雜的場(chǎng)景,就不推薦使用Power Query去采集了,盡量可以使用Python或者是可視化的專(zhuān)業(yè)爬蟲(chóng)工具來(lái)實(shí)現~
如果對你有幫助,記得點(diǎn)個(gè)「好看」哦,如果你有想學(xué)的Excel技巧,不妨在下方留言哦~
還想了解數據處理和信息圖表的更多思路與技巧?「Excel實(shí)戰課,讓你的圖表會(huì )說(shuō)話(huà)」超值 Excel 課程了解一下——
芒種零基礎 Excel 商務(wù)圖表訓練營(yíng),教你如何快速拆分數據、如何制作美觀(guān)大方的動(dòng)態(tài)圖表報告,搞定你的老板,為升職加薪提速!
新課發(fā)布,更新完畢,作業(yè)打卡,5小時(shí)成為圖表高手!
今天咨詢(xún)報名,僅需69 元,5小時(shí)共計58節課教你零基礎學(xué)會(huì )制作高大上的Excel商務(wù)圖表!
↑一課解決你的圖表問(wèn)題
掌握真正的可視化表達思維,并且做出合適的圖表,你就能脫穎而出,讓身邊的人眼前一亮。
學(xué)完課程,你也能在10分鐘內做出這種動(dòng)態(tài)儀表盤(pán)(課程案例):
————— 常見(jiàn)問(wèn)題 —————
Q:課程有時(shí)間、次數限制嗎?
A:課程不限時(shí)間和次數,隨時(shí)可學(xué),長(cháng)期有效。
Q:手機上可以學(xué)習嗎?
A:可以,手機上安裝網(wǎng)易云課堂 APP,登錄賬號即可學(xué)習。
Q:課程學(xué)不會(huì )有老師答疑嗎?
A:當然有,作業(yè)點(diǎn)評,課程長(cháng)期答疑,不怕學(xué)不下去。
Q: 除了課程還有其他學(xué)習資料么?
A:課程學(xué)習完后,還會(huì )贈送你一份Excel圖表大全,碰上不懂的數據結構,可以直接查詢(xún)使用什么圖表,另外還有16種配色方案模板,讓你一鍵配色。
Q:如何添加助理老師的微信?
A:可以直接掃描下方的二維碼,或者直接搜索:mongjoy001,即可添加助理老師進(jìn)行打卡和答疑。
掃碼添加助理老師/課程咨詢(xún)&答疑
新課上線(xiàn)購課,還送配色卡、送圖表大全…… 查看全部
手動(dòng)采集太耗時(shí)?這兩個(gè)Power Query技巧輕松實(shí)現網(wǎng)頁(yè)批量采集!
最近在群里收到非常多的小伙伴提問(wèn)分享一些關(guān)于Python爬蟲(chóng)相關(guān)的知識,其實(shí)如果是單純的想簡(jiǎn)單采集數據,利用Excel就可以了。
在Excel 2016及之后的版本就內置了一個(gè)非常強大的數據處理神器——Power Query,無(wú)論是數據采集還是基礎的數據處理/分析,實(shí)現起來(lái)都非常簡(jiǎn)單。
最重要的是相比Python需要強大的數學(xué)邏輯+編程功底,Power Query幾乎無(wú)需寫(xiě)代碼就能實(shí)現數據采集!
今天小北就來(lái)給大家分享 2 種不同結構的PQ采集大法,拒絕低效率數據采集!
- 01 -
帶有table的網(wǎng)頁(yè)表格
首先是第一種采集的辦法,它們的最主要區別是看網(wǎng)頁(yè)的結構。如果在網(wǎng)頁(yè)中,使用的是「table標簽」,那么就可以直接講網(wǎng)頁(yè)導入到Excel中自動(dòng)提取出表格。
如何查看網(wǎng)頁(yè)使用的是否是table標簽呢?很簡(jiǎn)單,選中任意一個(gè)數據,右擊,選擇「檢查」即可。
這里我們以「豆瓣電影」為例子,即將上映的電影列表就是一個(gè)以table標簽布局的網(wǎng)頁(yè)。
采集的網(wǎng)址:
首先選擇「數據」選項卡下的「新建查詢(xún)」-「自Web」,在彈出的對話(huà)框中,粘貼需要采集的網(wǎng)址,點(diǎn)擊「確定」,如下:
這個(gè)時(shí)候Excel會(huì )打開(kāi)一個(gè)「導航器」,在左邊的選擇table0,右側就可以看到PQ自動(dòng)將表格數據識別出來(lái)了。
接下來(lái)點(diǎn)擊「加載」,就可以將網(wǎng)頁(yè)數據自動(dòng)加載到Excel中了,并且還是一個(gè)智能表格。
使用PQ加載的表格數據,如果網(wǎng)頁(yè)的數據更新了,也不需重復再次加載數據,直接右鍵「刷新」既可以快速同步數據了。
這是PQ的第一種采集數據的辦法,是不是非常簡(jiǎn)單呢,一行代碼都不用寫(xiě),輕松將數據導入到Excel中。
但是使用的限制也非常多,網(wǎng)頁(yè)中必須使用table標簽(table、td、tr等等)才可以使用。
- 02 -
非table結構的網(wǎng)頁(yè)
然而使用table來(lái)展示數據已經(jīng)組件被淘汰,在80%甚至更多的網(wǎng)頁(yè)中,都會(huì )使用div、ul、span等標簽來(lái)更加靈活的呈現數據。
這個(gè)時(shí)候使用第一種辦法就失效了,例如小北經(jīng)常逛知乎,如果想利用 Excel 將知乎的信息采集下來(lái),第 1 種辦法就失效了。
因為在這個(gè)網(wǎng)頁(yè)中,并沒(méi)有用到「table標簽」,導進(jìn)去的時(shí)候也看不到table0這個(gè)選項:
這個(gè)時(shí)候可以怎么做呢?其實(shí)現代的絕大部分網(wǎng)頁(yè)都是利用API接口來(lái)獲取渲染數據的,這句話(huà)怎么理解呢?
網(wǎng)頁(yè)會(huì )先加載出來(lái),然后再向后臺發(fā)起一個(gè)請求,單純獲取數據,而這些常用的數據格式為JSON。
那么怎么看到這些數據呢?很簡(jiǎn)單,仍然打開(kāi)「檢查」,在「network」下找到「xhr」,這里都是請求的數據。
例如在知乎搜索:芒種學(xué)院,這里就可以找到對應的請求數據。
在頁(yè)面滾動(dòng)的時(shí)候,可以發(fā)現,列表里多了一個(gè)「search_v3?」,點(diǎn)開(kāi)來(lái)查看發(fā)現是我們想要的數據:
接著(zhù)我們右擊鏈接,選擇「copy link address」將鏈接復制出來(lái)。
將這個(gè)鏈接按照方法 1 再次將這個(gè)網(wǎng)址導入到Excel中,如下:
這里獲取的數據就是json的結構數據,可以看到有paging、data等等。
因為數據是在data中,所以我們右擊「data」,選擇「深化」,然后點(diǎn)擊「到表中」。這里就是我們想要的數據列表。
然后一次將「數據」詳細展開(kāi),如下,就得到我們的明細數據:
是不是非常簡(jiǎn)單呢?可以看到,接口里的數據全部被采集出來(lái)了,但是我們一句代碼也沒(méi)有寫(xiě)。
當然在這里面的話(huà)還有非常多的一些標簽等等是我們不需要的,這里如果要處理干凈就需要我們去寫(xiě)PQ的自定義函數了。
最后,如果針對一些更加復雜的場(chǎng)景,就不推薦使用Power Query去采集了,盡量可以使用Python或者是可視化的專(zhuān)業(yè)爬蟲(chóng)工具來(lái)實(shí)現~
如果對你有幫助,記得點(diǎn)個(gè)「好看」哦,如果你有想學(xué)的Excel技巧,不妨在下方留言哦~
還想了解數據處理和信息圖表的更多思路與技巧?「Excel實(shí)戰課,讓你的圖表會(huì )說(shuō)話(huà)」超值 Excel 課程了解一下——
芒種零基礎 Excel 商務(wù)圖表訓練營(yíng),教你如何快速拆分數據、如何制作美觀(guān)大方的動(dòng)態(tài)圖表報告,搞定你的老板,為升職加薪提速!
新課發(fā)布,更新完畢,作業(yè)打卡,5小時(shí)成為圖表高手!
今天咨詢(xún)報名,僅需69 元,5小時(shí)共計58節課教你零基礎學(xué)會(huì )制作高大上的Excel商務(wù)圖表!
↑一課解決你的圖表問(wèn)題
掌握真正的可視化表達思維,并且做出合適的圖表,你就能脫穎而出,讓身邊的人眼前一亮。
學(xué)完課程,你也能在10分鐘內做出這種動(dòng)態(tài)儀表盤(pán)(課程案例):
————— 常見(jiàn)問(wèn)題 —————
Q:課程有時(shí)間、次數限制嗎?
A:課程不限時(shí)間和次數,隨時(shí)可學(xué),長(cháng)期有效。
Q:手機上可以學(xué)習嗎?
A:可以,手機上安裝網(wǎng)易云課堂 APP,登錄賬號即可學(xué)習。
Q:課程學(xué)不會(huì )有老師答疑嗎?
A:當然有,作業(yè)點(diǎn)評,課程長(cháng)期答疑,不怕學(xué)不下去。
Q: 除了課程還有其他學(xué)習資料么?
A:課程學(xué)習完后,還會(huì )贈送你一份Excel圖表大全,碰上不懂的數據結構,可以直接查詢(xún)使用什么圖表,另外還有16種配色方案模板,讓你一鍵配色。
Q:如何添加助理老師的微信?
A:可以直接掃描下方的二維碼,或者直接搜索:mongjoy001,即可添加助理老師進(jìn)行打卡和答疑。
掃碼添加助理老師/課程咨詢(xún)&答疑
新課上線(xiàn)購課,還送配色卡、送圖表大全……
優(yōu)采云談網(wǎng)站的采集與防采集
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 136 次瀏覽 ? 2022-06-10 10:52
一、談優(yōu)采云采集器的由來(lái)
優(yōu)采云:我們的這個(gè)采集器最早是從05年底開(kāi)始有這個(gè)想法的,當時(shí)也是和大家一樣,個(gè)人站長(cháng),添加管理維護網(wǎng)站很辛苦,一篇篇修改復制發(fā)布最開(kāi)始也是 接觸dede 然后發(fā)現他有個(gè)外部的c#采集器。不知道有多少人也記得,我的思路基本是從這個(gè)dedespider學(xué)來(lái)的,原來(lái)真的不懂什么,到后來(lái)學(xué)會(huì )php 和.net,所以只要大家有興趣,技術(shù)上的問(wèn)題都可以克服,講到現在的采集,其實(shí)采集只能替代站長(cháng)部分手工的操作。我們不建議大規模得制造垃圾站(全盤(pán)得 采集復制別人的站點(diǎn)),所以我們現在的軟件的功能越做越多,但新用戶(hù)缺越來(lái)越不會(huì )用了。
我們現在有一批很忠實(shí)的會(huì )員,他們一直在靠采集器更新網(wǎng)站。迅速的采集然后百度搜錄帶來(lái)巨大的流量的時(shí)代已經(jīng)不在,站長(cháng)還是要關(guān)注內容,靠采集器采集 的數據一樣要注意,前期只能做為一個(gè)數據填充,可以稍微大的。但時(shí)間長(cháng)了,目標就要把垃圾數據也要變成精品,否則做不長(cháng)久
二、關(guān)于采集網(wǎng)站的經(jīng)驗
優(yōu)采云:我們現在在更新這個(gè)采集器,在數據采集方面也積累了一些經(jīng)驗,增加更多功能以適應新形式下的采集
1.別人經(jīng)常采的網(wǎng)站不要去采
2.太容易采的網(wǎng)站不要去采
3.不要一次性采集太多,一定要注意后期處理(后面詳續)
4.做好關(guān)鍵詞,tag的采集分析
5.自己網(wǎng)站要有自己的定位,不采與自己網(wǎng)站無(wú)關(guān)的內容
6.采集也要有持續性,經(jīng)常更新,自動(dòng)采集功能我們也有,但還是建議大家人工也參與一些審核,或定時(shí),亂序發(fā)布
后期處理,要想法子做到讓搜索引擎那看不出來(lái)兩片文章的相同,這里面應該有很多SEO高手,那我不獻丑了。我說(shuō)下我們現在實(shí)現的功能,大家可以把這些混用,達到改變內容偽原創(chuàng ):
1.給標題。內容分詞
2.使用同義詞近義詞替換,排除敏感詞,不同的標簽之間數據融合,指如標題內容之間數據的相互替換
3.給文章加上摘要
4.為文章標題等生成拼音地址
5.采集一些其他編碼的網(wǎng)站,我們可以做到簡(jiǎn)繁體轉化,可以采集中文網(wǎng)站翻譯成英文(雖然比較垃圾,但應該可以算是原創(chuàng ))
我們也發(fā)現,高難度采集的網(wǎng)站一般內容質(zhì)量都非常好,采集其實(shí)有時(shí)也是一件很有樂(lè )趣的事情,需要你學(xué)習一些采集相關(guān)的知識。
三、關(guān)于防采集的方法
優(yōu)采云:下面講一些主要的防采集方法??梢哉f(shuō)是攻防對戰吧。打開(kāi)一個(gè)網(wǎng)頁(yè)實(shí)際就是一個(gè)Http請求瀏覽器。百度蜘蛛,小到我們的采集器使用的都是一個(gè) 原理,模擬http請求,所以我們同樣能模擬出瀏覽器。百度蜘蛛出來(lái)所以絕對的防采集根本不存在,只是難度的高低?;蛘吣阏J為搜索引擎的搜錄也無(wú)所謂了。 你可以用一些非常強大的activex,flash,全圖片文字的形式,這個(gè)我們無(wú)能為力。
普通的防采集方法有
1、來(lái)源判斷
2、登錄信息判斷 Cookie
3、請求次數判斷。如一段時(shí)間內請求多少,非常規操作則封IP
4、發(fā)送方式判斷 POST GET 使用JS,Ajax等請求內容
舉例:
1.2不用說(shuō)了,論壇,下載站等。。
3、一些大網(wǎng)站,需要配置服務(wù)器,單純靠腳本判斷資源消耗比較大
4、如一些招聘站,的分頁(yè),Web2.0站的ajax請求內容
當然我們后面還發(fā)現一些殺手锏,今天第一次在這里給大家公布出來(lái)~~ 有優(yōu)質(zhì)內容需要防采集的朋友可以考慮試下
1、網(wǎng)頁(yè)默認deflate壓縮輸出(gzip容易一點(diǎn),容易解壓) 我們普通的瀏覽器和baidu支持識別gzip,deflate輸出內容
2、網(wǎng)頁(yè)內容不定時(shí) ? 內容自動(dòng)截斷,這兩點(diǎn)基本可以防主大部分主流軟件采集及web采集程序了~
今天主要想要表達的一點(diǎn),大家在做站時(shí)一定要注意技術(shù)的提高,比如我們里面有后期外部php及.net接口處理采集數據?;蛘吒纱嗄阕约鹤鲆粋€(gè)發(fā)布時(shí) 的接口程序自己入庫。我們偽原創(chuàng )做得再好,一樣有非常多的會(huì )員使用,那樣又不原創(chuàng )了,采集一樣需要技術(shù),只有你通過(guò)采集器獲得了沒(méi)有多少人有的數據,你才 是唯一了??赡苁俏易顬榧夹g(shù)型人的一個(gè)通病,謝謝大家! 查看全部
優(yōu)采云談網(wǎng)站的采集與防采集
一、談優(yōu)采云采集器的由來(lái)
優(yōu)采云:我們的這個(gè)采集器最早是從05年底開(kāi)始有這個(gè)想法的,當時(shí)也是和大家一樣,個(gè)人站長(cháng),添加管理維護網(wǎng)站很辛苦,一篇篇修改復制發(fā)布最開(kāi)始也是 接觸dede 然后發(fā)現他有個(gè)外部的c#采集器。不知道有多少人也記得,我的思路基本是從這個(gè)dedespider學(xué)來(lái)的,原來(lái)真的不懂什么,到后來(lái)學(xué)會(huì )php 和.net,所以只要大家有興趣,技術(shù)上的問(wèn)題都可以克服,講到現在的采集,其實(shí)采集只能替代站長(cháng)部分手工的操作。我們不建議大規模得制造垃圾站(全盤(pán)得 采集復制別人的站點(diǎn)),所以我們現在的軟件的功能越做越多,但新用戶(hù)缺越來(lái)越不會(huì )用了。
我們現在有一批很忠實(shí)的會(huì )員,他們一直在靠采集器更新網(wǎng)站。迅速的采集然后百度搜錄帶來(lái)巨大的流量的時(shí)代已經(jīng)不在,站長(cháng)還是要關(guān)注內容,靠采集器采集 的數據一樣要注意,前期只能做為一個(gè)數據填充,可以稍微大的。但時(shí)間長(cháng)了,目標就要把垃圾數據也要變成精品,否則做不長(cháng)久
二、關(guān)于采集網(wǎng)站的經(jīng)驗
優(yōu)采云:我們現在在更新這個(gè)采集器,在數據采集方面也積累了一些經(jīng)驗,增加更多功能以適應新形式下的采集
1.別人經(jīng)常采的網(wǎng)站不要去采
2.太容易采的網(wǎng)站不要去采
3.不要一次性采集太多,一定要注意后期處理(后面詳續)
4.做好關(guān)鍵詞,tag的采集分析
5.自己網(wǎng)站要有自己的定位,不采與自己網(wǎng)站無(wú)關(guān)的內容
6.采集也要有持續性,經(jīng)常更新,自動(dòng)采集功能我們也有,但還是建議大家人工也參與一些審核,或定時(shí),亂序發(fā)布
后期處理,要想法子做到讓搜索引擎那看不出來(lái)兩片文章的相同,這里面應該有很多SEO高手,那我不獻丑了。我說(shuō)下我們現在實(shí)現的功能,大家可以把這些混用,達到改變內容偽原創(chuàng ):
1.給標題。內容分詞
2.使用同義詞近義詞替換,排除敏感詞,不同的標簽之間數據融合,指如標題內容之間數據的相互替換
3.給文章加上摘要
4.為文章標題等生成拼音地址
5.采集一些其他編碼的網(wǎng)站,我們可以做到簡(jiǎn)繁體轉化,可以采集中文網(wǎng)站翻譯成英文(雖然比較垃圾,但應該可以算是原創(chuàng ))
我們也發(fā)現,高難度采集的網(wǎng)站一般內容質(zhì)量都非常好,采集其實(shí)有時(shí)也是一件很有樂(lè )趣的事情,需要你學(xué)習一些采集相關(guān)的知識。
三、關(guān)于防采集的方法
優(yōu)采云:下面講一些主要的防采集方法??梢哉f(shuō)是攻防對戰吧。打開(kāi)一個(gè)網(wǎng)頁(yè)實(shí)際就是一個(gè)Http請求瀏覽器。百度蜘蛛,小到我們的采集器使用的都是一個(gè) 原理,模擬http請求,所以我們同樣能模擬出瀏覽器。百度蜘蛛出來(lái)所以絕對的防采集根本不存在,只是難度的高低?;蛘吣阏J為搜索引擎的搜錄也無(wú)所謂了。 你可以用一些非常強大的activex,flash,全圖片文字的形式,這個(gè)我們無(wú)能為力。
普通的防采集方法有
1、來(lái)源判斷
2、登錄信息判斷 Cookie
3、請求次數判斷。如一段時(shí)間內請求多少,非常規操作則封IP
4、發(fā)送方式判斷 POST GET 使用JS,Ajax等請求內容
舉例:
1.2不用說(shuō)了,論壇,下載站等。。
3、一些大網(wǎng)站,需要配置服務(wù)器,單純靠腳本判斷資源消耗比較大
4、如一些招聘站,的分頁(yè),Web2.0站的ajax請求內容
當然我們后面還發(fā)現一些殺手锏,今天第一次在這里給大家公布出來(lái)~~ 有優(yōu)質(zhì)內容需要防采集的朋友可以考慮試下
1、網(wǎng)頁(yè)默認deflate壓縮輸出(gzip容易一點(diǎn),容易解壓) 我們普通的瀏覽器和baidu支持識別gzip,deflate輸出內容
2、網(wǎng)頁(yè)內容不定時(shí) ? 內容自動(dòng)截斷,這兩點(diǎn)基本可以防主大部分主流軟件采集及web采集程序了~
今天主要想要表達的一點(diǎn),大家在做站時(shí)一定要注意技術(shù)的提高,比如我們里面有后期外部php及.net接口處理采集數據?;蛘吒纱嗄阕约鹤鲆粋€(gè)發(fā)布時(shí) 的接口程序自己入庫。我們偽原創(chuàng )做得再好,一樣有非常多的會(huì )員使用,那樣又不原創(chuàng )了,采集一樣需要技術(shù),只有你通過(guò)采集器獲得了沒(méi)有多少人有的數據,你才 是唯一了??赡苁俏易顬榧夹g(shù)型人的一個(gè)通病,謝謝大家!


