亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

搜狗

全部?jì)热?/a>

精華
推薦
我的收藏
關(guān)于話(huà)題

好搜seo軟件有什么！

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 675 次瀏覽 ? 2020-07-09 08:01 ? 來(lái)自相關(guān)話(huà)題

　　史上最全面最詳盡的百度、搜狗、好搜三大搜索引擎站長(cháng)平臺SEO應用剖析（請看官老爺們諒解標題過(guò)長(cháng)難以寫(xiě)全）
　　雖然談及搜索，首先想到是度娘，但畢竟國外是存有三大主流的搜索引擎：百度（Baidu）、搜狗（sogou）、好搜（so）的，雖然所占份額兩極分化非常大：
　　
　　百度仍然攥有廣大的資源優(yōu)勢，360也在憑著(zhù)自己的殺毒和瀏覽器在一步步占領(lǐng)市場(chǎng)，搜狗從去年的“歡樂(lè )頌”等影視廣告加上陌陌搜索的優(yōu)勢看也不會(huì )落后。所以對我們我們做SEO想要全面不流失顧客，一定不要輕易忽視了好搜和搜狗這兩個(gè)小搜索引擎，其實(shí)也不見(jiàn)得象你想像的這么“小”，畢竟俺中國的人口基數而且足夠“大”的?。?！
　　好了，俗話(huà)說(shuō)“工欲善其事，必先利其器”，所以我們計劃或初入門(mén)SEO的同學(xué)，一定要十分清楚的了解站長(cháng)平臺工具，本文主要介紹這三大主流搜索引擎站長(cháng)平臺的驗證及功能介紹和使用方式。
　　一、【百度站長(cháng)平臺】
　　地址：
　　百度SEO是目前做的最多的，所以百度站長(cháng)平臺目前使用的人數也是最多的，所以百度站長(cháng)平臺也是在一步一步建立，功能也十分多。
　　百度站長(cháng)平臺驗證
　　打開(kāi)百度站長(cháng)平臺，登錄百度賬號，點(diǎn)擊底部導航【工具】進(jìn)入百度站長(cháng)平臺工具頁(yè)面。
　　點(diǎn)擊兩側導航【我的網(wǎng)站】-【站點(diǎn)管理】然后添加你的網(wǎng)站，如下圖所示：
　　
　　文件驗證：在輸入框輸入須要驗證的域名，這里有三種模式可以驗證，建議使用文件驗證，文件驗證的方法時(shí)間最快，操作相對簡(jiǎn)單，下載文件好搜seo軟件，上傳到網(wǎng)站的根目錄即可點(diǎn)擊【完成驗證】。
　　HTML驗證：把代碼復制到網(wǎng)頁(yè)代碼的腹部文件上面，標簽與標簽之間，不懂代碼的同學(xué)最好不要使用這些方法。
　　CNAME驗證：將指定解析到百度站長(cháng)平臺指定的別稱(chēng)中，等待解析生效即可點(diǎn)擊【完成驗證】，通常解析生效時(shí)間是20分鐘，具體看運氣。
　　百度站長(cháng)平臺功能介紹
　　百度站長(cháng)工具有6個(gè)大導航，分別有抓取、移動(dòng)、排名、維護等功能，相對傳統做優(yōu)化來(lái)說(shuō)，有了百度站長(cháng)平臺這個(gè)權威的工具便捷多了。
　　站點(diǎn)信息：展現一個(gè)站點(diǎn)的輪廓，包含索引量、關(guān)鍵詞搜索量、抓取、移動(dòng)、外鏈、優(yōu)化建議等。
　　站點(diǎn)管理：主要應用于添加網(wǎng)站而用，一個(gè)百度賬號是不限制添加網(wǎng)站的數目，如果你有多個(gè)網(wǎng)站，這里也可以添加多個(gè)網(wǎng)站，不需要注冊多個(gè)賬號。
　　消息提醒：消息提醒對于SEO站長(cháng)來(lái)說(shuō)，最重要的是提醒網(wǎng)站是否作弊，當網(wǎng)站出現作弊現象，這里會(huì )提醒下來(lái)，比如網(wǎng)站被黑提醒，另外一個(gè)是站長(cháng)申請使用百度站長(cháng)平臺公測工具的時(shí)侯，會(huì )給出消息提醒。對我而言，這個(gè)功能就這兩個(gè)重點(diǎn)好處，其他的消息看了也是多余的！
　　移動(dòng)適配：目前部份網(wǎng)站html5技術(shù)還不夠成熟，所以大多不是使用手動(dòng)響應，都有自己聯(lián)通網(wǎng)站模版，那么百度是難以辨識下來(lái)PC與聯(lián)通對于的URL，這里只有借助自動(dòng)遞交對于的聯(lián)通適配URL了，這里的操作十分簡(jiǎn)單，移動(dòng)站和PC站的URL是統一的，無(wú)非就是多了一個(gè)文件名或域名不一樣，在這個(gè)工具上遞交三個(gè)對于的URL即可手動(dòng)辨識下來(lái)。
　　應用內搜索：目前工具還在公測，我的個(gè)人博客也用不著(zhù)這個(gè)工具，不過(guò)還是介紹一下，當你的網(wǎng)站與APP內容上才能對應時(shí)侯，提交應用內搜索，當用戶(hù)搜索某個(gè)關(guān)鍵詞出現你網(wǎng)站的時(shí)侯好搜seo軟件，你網(wǎng)站下方會(huì )推薦出你的APP。
　　Site App：免費制做APP、移動(dòng)網(wǎng)站的功能，如果你沒(méi)有更好的辦法作出聯(lián)通網(wǎng)站來(lái)，還是推薦使用百度Site App工具，不過(guò)聯(lián)通APP話(huà)，個(gè)人還是推薦使用追信魔盒，我也是用這一款軟件，趕腳還是挺不錯的，權限方面放的比較開(kāi)！
　　鏈接遞交：鏈接遞交分為手動(dòng)遞交和自動(dòng)遞交，當然手動(dòng)遞交的形式好些，不需要人工來(lái)麻煩，但是須要程序有插件支持，自動(dòng)遞交有網(wǎng)站地圖sitemap和主動(dòng)推送的方式，主動(dòng)推送須要插件支持，網(wǎng)站地圖可以使用軟件生成后上傳到網(wǎng)站根目錄之后遞交即可。
　　手動(dòng)遞交的形式比較簡(jiǎn)單了，把你網(wǎng)站所有鏈接整理正一個(gè)txt文檔，然后上傳到網(wǎng)站根目錄，提交到搜索引擎自動(dòng)遞交入口即可，當然格式還可以是xml、html、htm、php等。
　　死鏈遞交：如果你網(wǎng)站改版出現多個(gè)死鏈接，最快速的方式就是把死鏈接檢查下來(lái)，整體成一個(gè)txt文檔，然后遞交到死鏈接到百度站長(cháng)平臺既可。
　　ROBOTS：為遵循互聯(lián)網(wǎng)規則，搜索引擎用robots來(lái)限制，如果你有某個(gè)頁(yè)面不容許搜索引擎抓?。ㄈ纾壕W(wǎng)站后臺），那么即可在robots上面寫(xiě)上規則，如果你不會(huì )寫(xiě)robots文件，那么借助這個(gè)工具，新建一個(gè)robots之后填寫(xiě)不容許抓取的頁(yè)面，然后更新是否有錯誤，沒(méi)錯誤即可上傳了。
　　抓取頻度：當你網(wǎng)站收錄慢的時(shí)侯，可以適當的看一下網(wǎng)站的抓取頻度，通常一個(gè)企業(yè)網(wǎng)站抓取頻度不會(huì )超過(guò)500，當然具體依據網(wǎng)站的更新速率來(lái)決定的，這里也可以調整抓取頻度的次數，并不是調整的越大越好，調整的越大，服務(wù)器壓力也就越大，網(wǎng)站也就越卡。
　　抓取確診：類(lèi)似于一個(gè)百度蜘蛛模擬抓取的工具，當網(wǎng)站出現問(wèn)題或則某地域出現打開(kāi)的現象，而你自己可以打開(kāi)，這里可以使用抓取確診工具來(lái)測試網(wǎng)站是否抓取正常。
　　抓取異常：抓取異常工具主要包括：404、503、502等錯誤時(shí)侯的提醒。比如說(shuō)網(wǎng)站改版出現多個(gè)死鏈接，但人工統計不出，那么在這里查找下載下來(lái)，整體成TXT遞交到搜索引擎。
　　索引量：百度索引量是站長(cháng)最值得關(guān)注的一個(gè)數據，網(wǎng)站收錄的前提是構建索引，所以索引量在上升這也說(shuō)明，你網(wǎng)站會(huì )漸漸被收錄！當然穩定上升是最好的現象！
　　站點(diǎn)屬性：為保護小網(wǎng)站的品牌，百度工具推出站點(diǎn)屬性功能，像客服電話(huà)、站點(diǎn)LOGO、站點(diǎn)中文名等均可以在這里設置，目前最容易通過(guò)的是站點(diǎn)LOGO。后續會(huì )越來(lái)越開(kāi)放！
　　站點(diǎn)子鏈：目前工具在公測，意思就是搜索你的品牌詞，下方出現你二級域名的網(wǎng)站，如果你網(wǎng)站有多個(gè)二級域名，可以申請使用。
　　數據標明：對博客來(lái)說(shuō)數據標明沒(méi)哪些用，主要針對軟件、電影、小游戲的網(wǎng)站，標注后，用在搜索結果頁(yè)面可以直接點(diǎn)開(kāi)見(jiàn)到小說(shuō)、電影、小游戲，無(wú)需步入你的網(wǎng)站列表，然后選擇某個(gè)游戲或則影片。在點(diǎn)擊開(kāi)始播放這么復雜的流程！
　　結構化數據：與數據標明的一樣，但是整合了其他的，比如問(wèn)答、資料下載、文庫、軟件下載，用戶(hù)在搜索結果頁(yè)面可以直接看見(jiàn)下載的按鍵，點(diǎn)擊下載即可，就不需要步入你網(wǎng)站，然后找到下載按鍵在下載了！另外下邊一個(gè)是結構化數據下載的插件，目前只有Discuz和WordPress！
　　流量與關(guān)鍵詞：實(shí)時(shí)監控關(guān)鍵詞的排行情況和關(guān)鍵詞的點(diǎn)擊情況，展現量與點(diǎn)擊率的數據可以告訴我們網(wǎng)站是否夠吸引用戶(hù)點(diǎn)擊，另外決定百度排行的重點(diǎn)誘因是用戶(hù)的點(diǎn)擊率。
　　頁(yè)面優(yōu)化建議：這里主要針對的是網(wǎng)站打開(kāi)速率優(yōu)化的建議，比如CSS壓縮、圖片壓縮的建議，這里的CSS壓縮不必并不是太人性化，因為好多未能不必，不過(guò)圖片壓縮工具不錯，直接下載壓縮后的圖片替換老圖片即可。
　　鏈接剖析：鏈接剖析主要是剖析外鏈的數據，不過(guò)近來(lái)百度拒絕外鏈工具下線(xiàn)了，這也說(shuō)明，百度有能力辨識垃圾外鏈，所以這一數據，我們不需要操勞了！
　　安全檢查：安全檢查和漏洞檢查主要是針對網(wǎng)站漏洞檢查的，不過(guò)要防御網(wǎng)站的話(huà)，這一點(diǎn)點(diǎn)還是不夠的，所以這個(gè)工具好處不大，大多是給創(chuàng )宇信息技術(shù)有限公司和百度云加速做廣告而用的。
　　網(wǎng)站改版：網(wǎng)站改版對站長(cháng)來(lái)說(shuō)十分重要，在更換模版后，提交到搜索引擎站長(cháng)平臺，他們會(huì )一個(gè)URL一個(gè)URL的處理，降低網(wǎng)站改版的風(fēng)險。
　　閉站保護：如若網(wǎng)站備案或網(wǎng)站暫時(shí)關(guān)掉，可以申請閉站保護后關(guān)掉網(wǎng)站，備案完畢后在打開(kāi)網(wǎng)站，對網(wǎng)站的SEO是完全沒(méi)有影響的！
　　百度站長(cháng)平臺就介紹的差不多了，至于下邊的網(wǎng)站組件基本是給百度做廣告的，使用的意義不大，下面在來(lái)說(shuō)說(shuō)搜狗站長(cháng)平臺。
　　二、【搜狗站長(cháng)平臺】
　　地址：
　　搜狗站長(cháng)平臺功能相對比百度少一點(diǎn)，但是功能都十分實(shí)用，沒(méi)有象百度那么多沒(méi)用的功能，另外搜狗使用權限的門(mén)檻相對比百度門(mén)檻低，至少不需要發(fā)郵件申請公測資格！
　　1.搜狗站長(cháng)平臺驗證
　　打開(kāi)搜狗站長(cháng)平臺，點(diǎn)擊底部導航【站長(cháng)工具】，在左上角有一個(gè)【站點(diǎn)管理】的按鍵，點(diǎn)擊后添加網(wǎng)站即可。如下圖所示：
　　
　　驗證的方法有兩種，一種文件驗證和代碼驗證，建議使用文件驗證，方法與百度驗證的方式一樣，這里不多說(shuō)了！
　　2.搜狗站長(cháng)平臺功能介紹
　　Sitemap遞交：與百度的網(wǎng)站地圖遞交功能一模一樣，但是沒(méi)有手動(dòng)推進(jìn)的功能，不過(guò)搜索收錄相對百度簡(jiǎn)單。
　　死鏈接遞交：形式與百度遞交的方式一模一樣，建立一個(gè)txt文檔，把死鏈接保存上去，上傳到服務(wù)器根目錄，提交起來(lái)即可。
　　域名變更：比如啟用新域名而且做好了301，但是搜索引擎辨識很慢，所以這兒可以添加規則，更快的使搜索引擎辨識下來(lái)你的新域名。
　　中英文站點(diǎn)匹配：當輸入你的品牌詞后，在顯示域名的地域顯示你的英文品牌詞，這是中英文站點(diǎn)匹配的療效，沒(méi)哪些卵用！
　　匹配網(wǎng)站ICO：在百度是沒(méi)有這個(gè)功能的，當網(wǎng)站達到一定知名度后，會(huì )手動(dòng)顯示ICO的圖標，搜狗這兒可以自動(dòng)遞交ICO的圖標，搜索結果頁(yè)面直接顯示你網(wǎng)站的ICO圖標。
　　匹配網(wǎng)站LOGO：與百度站長(cháng)LOGO功能一模一樣，但是搜狗的LOGO初審是很難通過(guò)的。
　　參數設置：說(shuō)白了就是一個(gè)山寨版的ROBOTS，不過(guò)這個(gè)比ROBOTS文件麻煩，另外假如你網(wǎng)站自己寫(xiě)了robots文件，他們還是一樣違背規則的！
　　官網(wǎng)認證：提交基本是顯示初審中，看到太多人遞交了，最終就沒(méi)有療效了，可能是知名度不夠，建議遞交之前多發(fā)幾條新聞源！
　　開(kāi)放適配：為了使搜索引擎更容易辨識出你網(wǎng)站PC與移動(dòng)端的關(guān)系，這里可以遞交開(kāi)放適配的數據。
　　索引量查詢(xún)：搜狗的索引量基本比較亂，我多個(gè)站點(diǎn)索引量才100多，而網(wǎng)站收錄卻3000多。這個(gè)功能基本被搜狗做廢了。
　　關(guān)鍵詞查詢(xún)：最高可以查詢(xún)50個(gè)關(guān)鍵詞，查詢(xún)的網(wǎng)站必須驗證搜狗站長(cháng)平臺，查詢(xún)下來(lái)的都是搜狗搜索數比較多的詞。
　　三、【好搜站長(cháng)平臺】
　　地址：
　　沒(méi)哪些卵用，大多的功能都與百度搜狗差不多，驗證方法一模一樣，個(gè)人把好搜站長(cháng)平臺的幾個(gè)亮點(diǎn)給你們介紹下來(lái)。
　　智能摘要：智能摘要與結構化數據差不多，不過(guò)這兒比百度結構化數據更人性化了，包括新聞網(wǎng)站也可以設置了。比如問(wèn)答摘要上面直接顯示答案，論壇直接顯示核心點(diǎn)之類(lèi)的，對用戶(hù)來(lái)說(shuō)，是一個(gè)挺好的體驗。
　　Ping收錄：ping收錄主要針對博客網(wǎng)站，在網(wǎng)站安裝了插件后，可以手動(dòng)遞交新的內容到搜索引擎上，因為博客均是原創(chuàng )內容，這個(gè)功能是十分有必要的。
　　原創(chuàng )收錄：與百度星火計劃差不多，不過(guò)百度的星火計劃只是嘴上談?wù)?，這里好搜做的更實(shí)際了，每個(gè)網(wǎng)站每天僅限遞交或更新三次。查看全部

　　史上最全面最詳盡的百度、搜狗、好搜三大搜索引擎站長(cháng)平臺SEO應用剖析（請看官老爺們諒解標題過(guò)長(cháng)難以寫(xiě)全）
　　雖然談及搜索，首先想到是度娘，但畢竟國外是存有三大主流的搜索引擎：百度（Baidu）、搜狗（sogou）、好搜（so）的，雖然所占份額兩極分化非常大：
　　

　　百度仍然攥有廣大的資源優(yōu)勢，360也在憑著(zhù)自己的殺毒和瀏覽器在一步步占領(lǐng)市場(chǎng)，搜狗從去年的“歡樂(lè )頌”等影視廣告加上陌陌搜索的優(yōu)勢看也不會(huì )落后。所以對我們我們做SEO想要全面不流失顧客，一定不要輕易忽視了好搜和搜狗這兩個(gè)小搜索引擎，其實(shí)也不見(jiàn)得象你想像的這么“小”，畢竟俺中國的人口基數而且足夠“大”的?。?！
　　好了，俗話(huà)說(shuō)“工欲善其事，必先利其器”，所以我們計劃或初入門(mén)SEO的同學(xué)，一定要十分清楚的了解站長(cháng)平臺工具，本文主要介紹這三大主流搜索引擎站長(cháng)平臺的驗證及功能介紹和使用方式。
　　一、【百度站長(cháng)平臺】
　　地址：
　　百度SEO是目前做的最多的，所以百度站長(cháng)平臺目前使用的人數也是最多的，所以百度站長(cháng)平臺也是在一步一步建立，功能也十分多。
　　百度站長(cháng)平臺驗證
　　打開(kāi)百度站長(cháng)平臺，登錄百度賬號，點(diǎn)擊底部導航【工具】進(jìn)入百度站長(cháng)平臺工具頁(yè)面。
　　點(diǎn)擊兩側導航【我的網(wǎng)站】-【站點(diǎn)管理】然后添加你的網(wǎng)站，如下圖所示：
　　

　　文件驗證：在輸入框輸入須要驗證的域名，這里有三種模式可以驗證，建議使用文件驗證，文件驗證的方法時(shí)間最快，操作相對簡(jiǎn)單，下載文件好搜seo軟件，上傳到網(wǎng)站的根目錄即可點(diǎn)擊【完成驗證】。
　　HTML驗證：把代碼復制到網(wǎng)頁(yè)代碼的腹部文件上面，標簽與標簽之間，不懂代碼的同學(xué)最好不要使用這些方法。
　　CNAME驗證：將指定解析到百度站長(cháng)平臺指定的別稱(chēng)中，等待解析生效即可點(diǎn)擊【完成驗證】，通常解析生效時(shí)間是20分鐘，具體看運氣。
　　百度站長(cháng)平臺功能介紹
　　百度站長(cháng)工具有6個(gè)大導航，分別有抓取、移動(dòng)、排名、維護等功能，相對傳統做優(yōu)化來(lái)說(shuō)，有了百度站長(cháng)平臺這個(gè)權威的工具便捷多了。
　　站點(diǎn)信息：展現一個(gè)站點(diǎn)的輪廓，包含索引量、關(guān)鍵詞搜索量、抓取、移動(dòng)、外鏈、優(yōu)化建議等。
　　站點(diǎn)管理：主要應用于添加網(wǎng)站而用，一個(gè)百度賬號是不限制添加網(wǎng)站的數目，如果你有多個(gè)網(wǎng)站，這里也可以添加多個(gè)網(wǎng)站，不需要注冊多個(gè)賬號。
　　消息提醒：消息提醒對于SEO站長(cháng)來(lái)說(shuō)，最重要的是提醒網(wǎng)站是否作弊，當網(wǎng)站出現作弊現象，這里會(huì )提醒下來(lái)，比如網(wǎng)站被黑提醒，另外一個(gè)是站長(cháng)申請使用百度站長(cháng)平臺公測工具的時(shí)侯，會(huì )給出消息提醒。對我而言，這個(gè)功能就這兩個(gè)重點(diǎn)好處，其他的消息看了也是多余的！
　　移動(dòng)適配：目前部份網(wǎng)站html5技術(shù)還不夠成熟，所以大多不是使用手動(dòng)響應，都有自己聯(lián)通網(wǎng)站模版，那么百度是難以辨識下來(lái)PC與聯(lián)通對于的URL，這里只有借助自動(dòng)遞交對于的聯(lián)通適配URL了，這里的操作十分簡(jiǎn)單，移動(dòng)站和PC站的URL是統一的，無(wú)非就是多了一個(gè)文件名或域名不一樣，在這個(gè)工具上遞交三個(gè)對于的URL即可手動(dòng)辨識下來(lái)。
　　應用內搜索：目前工具還在公測，我的個(gè)人博客也用不著(zhù)這個(gè)工具，不過(guò)還是介紹一下，當你的網(wǎng)站與APP內容上才能對應時(shí)侯，提交應用內搜索，當用戶(hù)搜索某個(gè)關(guān)鍵詞出現你網(wǎng)站的時(shí)侯好搜seo軟件，你網(wǎng)站下方會(huì )推薦出你的APP。
　　Site App：免費制做APP、移動(dòng)網(wǎng)站的功能，如果你沒(méi)有更好的辦法作出聯(lián)通網(wǎng)站來(lái)，還是推薦使用百度Site App工具，不過(guò)聯(lián)通APP話(huà)，個(gè)人還是推薦使用追信魔盒，我也是用這一款軟件，趕腳還是挺不錯的，權限方面放的比較開(kāi)！
　　鏈接遞交：鏈接遞交分為手動(dòng)遞交和自動(dòng)遞交，當然手動(dòng)遞交的形式好些，不需要人工來(lái)麻煩，但是須要程序有插件支持，自動(dòng)遞交有網(wǎng)站地圖sitemap和主動(dòng)推送的方式，主動(dòng)推送須要插件支持，網(wǎng)站地圖可以使用軟件生成后上傳到網(wǎng)站根目錄之后遞交即可。
　　手動(dòng)遞交的形式比較簡(jiǎn)單了，把你網(wǎng)站所有鏈接整理正一個(gè)txt文檔，然后上傳到網(wǎng)站根目錄，提交到搜索引擎自動(dòng)遞交入口即可，當然格式還可以是xml、html、htm、php等。
　　死鏈遞交：如果你網(wǎng)站改版出現多個(gè)死鏈接，最快速的方式就是把死鏈接檢查下來(lái)，整體成一個(gè)txt文檔，然后遞交到死鏈接到百度站長(cháng)平臺既可。
　　ROBOTS：為遵循互聯(lián)網(wǎng)規則，搜索引擎用robots來(lái)限制，如果你有某個(gè)頁(yè)面不容許搜索引擎抓?。ㄈ纾壕W(wǎng)站后臺），那么即可在robots上面寫(xiě)上規則，如果你不會(huì )寫(xiě)robots文件，那么借助這個(gè)工具，新建一個(gè)robots之后填寫(xiě)不容許抓取的頁(yè)面，然后更新是否有錯誤，沒(méi)錯誤即可上傳了。
　　抓取頻度：當你網(wǎng)站收錄慢的時(shí)侯，可以適當的看一下網(wǎng)站的抓取頻度，通常一個(gè)企業(yè)網(wǎng)站抓取頻度不會(huì )超過(guò)500，當然具體依據網(wǎng)站的更新速率來(lái)決定的，這里也可以調整抓取頻度的次數，并不是調整的越大越好，調整的越大，服務(wù)器壓力也就越大，網(wǎng)站也就越卡。
　　抓取確診：類(lèi)似于一個(gè)百度蜘蛛模擬抓取的工具，當網(wǎng)站出現問(wèn)題或則某地域出現打開(kāi)的現象，而你自己可以打開(kāi)，這里可以使用抓取確診工具來(lái)測試網(wǎng)站是否抓取正常。
　　抓取異常：抓取異常工具主要包括：404、503、502等錯誤時(shí)侯的提醒。比如說(shuō)網(wǎng)站改版出現多個(gè)死鏈接，但人工統計不出，那么在這里查找下載下來(lái)，整體成TXT遞交到搜索引擎。
　　索引量：百度索引量是站長(cháng)最值得關(guān)注的一個(gè)數據，網(wǎng)站收錄的前提是構建索引，所以索引量在上升這也說(shuō)明，你網(wǎng)站會(huì )漸漸被收錄！當然穩定上升是最好的現象！
　　站點(diǎn)屬性：為保護小網(wǎng)站的品牌，百度工具推出站點(diǎn)屬性功能，像客服電話(huà)、站點(diǎn)LOGO、站點(diǎn)中文名等均可以在這里設置，目前最容易通過(guò)的是站點(diǎn)LOGO。后續會(huì )越來(lái)越開(kāi)放！
　　站點(diǎn)子鏈：目前工具在公測，意思就是搜索你的品牌詞，下方出現你二級域名的網(wǎng)站，如果你網(wǎng)站有多個(gè)二級域名，可以申請使用。
　　數據標明：對博客來(lái)說(shuō)數據標明沒(méi)哪些用，主要針對軟件、電影、小游戲的網(wǎng)站，標注后，用在搜索結果頁(yè)面可以直接點(diǎn)開(kāi)見(jiàn)到小說(shuō)、電影、小游戲，無(wú)需步入你的網(wǎng)站列表，然后選擇某個(gè)游戲或則影片。在點(diǎn)擊開(kāi)始播放這么復雜的流程！
　　結構化數據：與數據標明的一樣，但是整合了其他的，比如問(wèn)答、資料下載、文庫、軟件下載，用戶(hù)在搜索結果頁(yè)面可以直接看見(jiàn)下載的按鍵，點(diǎn)擊下載即可，就不需要步入你網(wǎng)站，然后找到下載按鍵在下載了！另外下邊一個(gè)是結構化數據下載的插件，目前只有Discuz和WordPress！
　　流量與關(guān)鍵詞：實(shí)時(shí)監控關(guān)鍵詞的排行情況和關(guān)鍵詞的點(diǎn)擊情況，展現量與點(diǎn)擊率的數據可以告訴我們網(wǎng)站是否夠吸引用戶(hù)點(diǎn)擊，另外決定百度排行的重點(diǎn)誘因是用戶(hù)的點(diǎn)擊率。
　　頁(yè)面優(yōu)化建議：這里主要針對的是網(wǎng)站打開(kāi)速率優(yōu)化的建議，比如CSS壓縮、圖片壓縮的建議，這里的CSS壓縮不必并不是太人性化，因為好多未能不必，不過(guò)圖片壓縮工具不錯，直接下載壓縮后的圖片替換老圖片即可。
　　鏈接剖析：鏈接剖析主要是剖析外鏈的數據，不過(guò)近來(lái)百度拒絕外鏈工具下線(xiàn)了，這也說(shuō)明，百度有能力辨識垃圾外鏈，所以這一數據，我們不需要操勞了！
　　安全檢查：安全檢查和漏洞檢查主要是針對網(wǎng)站漏洞檢查的，不過(guò)要防御網(wǎng)站的話(huà)，這一點(diǎn)點(diǎn)還是不夠的，所以這個(gè)工具好處不大，大多是給創(chuàng )宇信息技術(shù)有限公司和百度云加速做廣告而用的。
　　網(wǎng)站改版：網(wǎng)站改版對站長(cháng)來(lái)說(shuō)十分重要，在更換模版后，提交到搜索引擎站長(cháng)平臺，他們會(huì )一個(gè)URL一個(gè)URL的處理，降低網(wǎng)站改版的風(fēng)險。
　　閉站保護：如若網(wǎng)站備案或網(wǎng)站暫時(shí)關(guān)掉，可以申請閉站保護后關(guān)掉網(wǎng)站，備案完畢后在打開(kāi)網(wǎng)站，對網(wǎng)站的SEO是完全沒(méi)有影響的！
　　百度站長(cháng)平臺就介紹的差不多了，至于下邊的網(wǎng)站組件基本是給百度做廣告的，使用的意義不大，下面在來(lái)說(shuō)說(shuō)搜狗站長(cháng)平臺。
　　二、【搜狗站長(cháng)平臺】
　　地址：
　　搜狗站長(cháng)平臺功能相對比百度少一點(diǎn)，但是功能都十分實(shí)用，沒(méi)有象百度那么多沒(méi)用的功能，另外搜狗使用權限的門(mén)檻相對比百度門(mén)檻低，至少不需要發(fā)郵件申請公測資格！
　　1.搜狗站長(cháng)平臺驗證
　　打開(kāi)搜狗站長(cháng)平臺，點(diǎn)擊底部導航【站長(cháng)工具】，在左上角有一個(gè)【站點(diǎn)管理】的按鍵，點(diǎn)擊后添加網(wǎng)站即可。如下圖所示：
　　

　　驗證的方法有兩種，一種文件驗證和代碼驗證，建議使用文件驗證，方法與百度驗證的方式一樣，這里不多說(shuō)了！
　　2.搜狗站長(cháng)平臺功能介紹
　　Sitemap遞交：與百度的網(wǎng)站地圖遞交功能一模一樣，但是沒(méi)有手動(dòng)推進(jìn)的功能，不過(guò)搜索收錄相對百度簡(jiǎn)單。
　　死鏈接遞交：形式與百度遞交的方式一模一樣，建立一個(gè)txt文檔，把死鏈接保存上去，上傳到服務(wù)器根目錄，提交起來(lái)即可。
　　域名變更：比如啟用新域名而且做好了301，但是搜索引擎辨識很慢，所以這兒可以添加規則，更快的使搜索引擎辨識下來(lái)你的新域名。
　　中英文站點(diǎn)匹配：當輸入你的品牌詞后，在顯示域名的地域顯示你的英文品牌詞，這是中英文站點(diǎn)匹配的療效，沒(méi)哪些卵用！
　　匹配網(wǎng)站ICO：在百度是沒(méi)有這個(gè)功能的，當網(wǎng)站達到一定知名度后，會(huì )手動(dòng)顯示ICO的圖標，搜狗這兒可以自動(dòng)遞交ICO的圖標，搜索結果頁(yè)面直接顯示你網(wǎng)站的ICO圖標。
　　匹配網(wǎng)站LOGO：與百度站長(cháng)LOGO功能一模一樣，但是搜狗的LOGO初審是很難通過(guò)的。
　　參數設置：說(shuō)白了就是一個(gè)山寨版的ROBOTS，不過(guò)這個(gè)比ROBOTS文件麻煩，另外假如你網(wǎng)站自己寫(xiě)了robots文件，他們還是一樣違背規則的！
　　官網(wǎng)認證：提交基本是顯示初審中，看到太多人遞交了，最終就沒(méi)有療效了，可能是知名度不夠，建議遞交之前多發(fā)幾條新聞源！
　　開(kāi)放適配：為了使搜索引擎更容易辨識出你網(wǎng)站PC與移動(dòng)端的關(guān)系，這里可以遞交開(kāi)放適配的數據。
　　索引量查詢(xún)：搜狗的索引量基本比較亂，我多個(gè)站點(diǎn)索引量才100多，而網(wǎng)站收錄卻3000多。這個(gè)功能基本被搜狗做廢了。
　　關(guān)鍵詞查詢(xún)：最高可以查詢(xún)50個(gè)關(guān)鍵詞，查詢(xún)的網(wǎng)站必須驗證搜狗站長(cháng)平臺，查詢(xún)下來(lái)的都是搜狗搜索數比較多的詞。
　　三、【好搜站長(cháng)平臺】
　　地址：
　　沒(méi)哪些卵用，大多的功能都與百度搜狗差不多，驗證方法一模一樣，個(gè)人把好搜站長(cháng)平臺的幾個(gè)亮點(diǎn)給你們介紹下來(lái)。
　　智能摘要：智能摘要與結構化數據差不多，不過(guò)這兒比百度結構化數據更人性化了，包括新聞網(wǎng)站也可以設置了。比如問(wèn)答摘要上面直接顯示答案，論壇直接顯示核心點(diǎn)之類(lèi)的，對用戶(hù)來(lái)說(shuō)，是一個(gè)挺好的體驗。
　　Ping收錄：ping收錄主要針對博客網(wǎng)站，在網(wǎng)站安裝了插件后，可以手動(dòng)遞交新的內容到搜索引擎上，因為博客均是原創(chuàng )內容，這個(gè)功能是十分有必要的。
　　原創(chuàng )收錄：與百度星火計劃差不多，不過(guò)百度的星火計劃只是嘴上談?wù)?，這里好搜做的更實(shí)際了，每個(gè)網(wǎng)站每天僅限遞交或更新三次。

SEO實(shí)驗室第十一期：研究搜狗微信搜索數據源 - 搜外問(wèn)答

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 480 次瀏覽 ? 2020-06-28 08:02 ? 來(lái)自相關(guān)話(huà)題

　　我們曉得，搜狗和騰訊進(jìn)行了戰略合作，并將獲得騰訊的眾多資源。近日搜狗推出了陌陌搜索，其中微信公眾號搜索在目前為止，發(fā)現僅搜狗可以搜索到，其他搜索引擎，百度、360、神馬等都沒(méi)這個(gè)渠道。
　　那么，搜狗是采用了騰訊提供的直接數據源，還是依舊是通過(guò)搜狗“微信蜘蛛”千里跋涉去抓取、緩存、分析、排序、展示的呢？
　　前者情況下，我們可以看見(jiàn)，公眾號和簡(jiǎn)介更新將是實(shí)時(shí)的；
　　后者情況下，則須要滯后一段時(shí)間，類(lèi)似俺們SEOer常說(shuō)的“快照更新”時(shí)間。
　　本實(shí)驗即拿來(lái)做一個(gè)測試，研究搜狗微信搜索數據源是否采用騰訊的“直接通道”。
　　6月10日，在搜狗微信搜索上，搜索 “SEOWHY” （bug存在，需要多點(diǎn)擊幾次搜索按鍵方會(huì )出現）
　　出現右圖：
　　
　　內容與目前的微信公眾號簡(jiǎn)介一致：
　　
　　當日，我在微信公眾號后臺，提交更改公眾號簡(jiǎn)介。內容如下：
　　
　　這個(gè)遞交更改初審，需要3天時(shí)間搜狗微信搜索反爬蟲(chóng)，大約在6月13日會(huì )生效，屆時(shí)，我們共同來(lái)觀(guān)察下，搜狗微信搜索這邊的更新情況。
　　歡迎，大家共同關(guān)注這個(gè)實(shí)驗，也歡迎童鞋們遞交自己的案例。
　　========我是飽含激情的分割線(xiàn)===========
　　6月11日搜狗微信搜索反爬蟲(chóng)，答案早已提早到來(lái)。
　　微信公眾號這邊的簡(jiǎn)介早已更新，但搜狗微信搜索那兒仍未更新。抓圖如下：
　　
　　
　　所以，搜狗微信搜索采用的數據源不是來(lái)自騰訊直接通道，依然采用爬取所得，但這個(gè)爬取的入口，騰訊可以只給搜狗開(kāi)放。查看全部

　　我們曉得，搜狗和騰訊進(jìn)行了戰略合作，并將獲得騰訊的眾多資源。近日搜狗推出了陌陌搜索，其中微信公眾號搜索在目前為止，發(fā)現僅搜狗可以搜索到，其他搜索引擎，百度、360、神馬等都沒(méi)這個(gè)渠道。
　　那么，搜狗是采用了騰訊提供的直接數據源，還是依舊是通過(guò)搜狗“微信蜘蛛”千里跋涉去抓取、緩存、分析、排序、展示的呢？
　　前者情況下，我們可以看見(jiàn)，公眾號和簡(jiǎn)介更新將是實(shí)時(shí)的；
　　后者情況下，則須要滯后一段時(shí)間，類(lèi)似俺們SEOer常說(shuō)的“快照更新”時(shí)間。
　　本實(shí)驗即拿來(lái)做一個(gè)測試，研究搜狗微信搜索數據源是否采用騰訊的“直接通道”。
　　6月10日，在搜狗微信搜索上，搜索 “SEOWHY” （bug存在，需要多點(diǎn)擊幾次搜索按鍵方會(huì )出現）
　　出現右圖：
　　

　　內容與目前的微信公眾號簡(jiǎn)介一致：
　　

　　當日，我在微信公眾號后臺，提交更改公眾號簡(jiǎn)介。內容如下：
　　

　　這個(gè)遞交更改初審，需要3天時(shí)間搜狗微信搜索反爬蟲(chóng)，大約在6月13日會(huì )生效，屆時(shí)，我們共同來(lái)觀(guān)察下，搜狗微信搜索這邊的更新情況。
　　歡迎，大家共同關(guān)注這個(gè)實(shí)驗，也歡迎童鞋們遞交自己的案例。
　　========我是飽含激情的分割線(xiàn)===========
　　6月11日搜狗微信搜索反爬蟲(chóng)，答案早已提早到來(lái)。
　　微信公眾號這邊的簡(jiǎn)介早已更新，但搜狗微信搜索那兒仍未更新。抓圖如下：
　　

　　

　　所以，搜狗微信搜索采用的數據源不是來(lái)自騰訊直接通道，依然采用爬取所得，但這個(gè)爬取的入口，騰訊可以只給搜狗開(kāi)放。

python爬蟲(chóng)js加密篇—搜狗微信公號文章的爬取

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 468 次瀏覽 ? 2020-05-24 08:01 ? 來(lái)自相關(guān)話(huà)題

　　今天這篇文章主要介紹的是關(guān)于微信公眾號文章的爬取，其中上面主要涉及的反爬機制就是 js加密與cookies的設置；
　　微信公眾號的上一個(gè)版本中的反爬機制中并沒(méi)有涉及到j(luò )s加密，僅通過(guò)監控用戶(hù)ip，單個(gè)ip訪(fǎng)問(wèn)很頻繁會(huì )面臨被封的風(fēng)險；在新的版本中加入了js加密反爬機制，接下來(lái)我們來(lái)逐漸剖析一下文章爬取過(guò)程
　　打開(kāi)搜狗頁(yè)面搜狗陌陌頁(yè)面，在輸入框中輸入任意關(guān)鍵詞比如列車(chē)隧洞大火，搜下來(lái)的都是涉及關(guān)鍵詞的公號文章列表
　　
　　私信小編01 獲取全套學(xué)習教程！
　　這里根據平時(shí)套路，直接借助開(kāi)發(fā)者工具的選擇工具，查看源碼中列表中整篇文章的url，就是下邊這個(gè) href屬性標簽
　　
　　看到這個(gè)url,按照正常思路的話(huà)，就是直接做url拼接：搜狗主域名 + href 就是陌陌主要內容的url,形式如下
　　https
:
//weixin.sogou.com/link?url=dn9a_-gY295K0Rci_xozVXfdMkSQTLW6cwJThYulHEtVjXrGTiVgS_yBZajb90fWf-LwgFP7QmnFtbELADqFzFqXa8Fplpd9nrYbnf-BG6fJQmhdTDKRUQC_zVYwjAHQRnKwtfQUOD-aNBz2bhtCuShQywQb837B12cBkYFsYkKXir7Y9WqlRBcZIrhUAYmFlBSVIg7YGFbBdu4rXklGlRslEFpw0lTmIX8pHfpQ9x6clCHaA92qoA9YOaIV2yOyrE-focNFXq7wdVqCwyPdzA..&type=2&query=%E7%81%AB%E8%BD%A6%E9%9A%A7%E9%81%93%E8%B5%B7%E7%81%AB
　　但是直接點(diǎn)這個(gè)鏈接返回的是402頁(yè)面，需要輸入驗證碼進(jìn)行驗證，而且驗證碼通過(guò)后仍然進(jìn)不去；很明顯這個(gè)url并不是文章的訪(fǎng)問(wèn)入口
　　
　　經(jīng)過(guò)測試，這篇文章的真實(shí)url是下邊這些方式（直接通過(guò)點(diǎn)擊頁(yè)面標簽打開(kāi)即可）：
　　https
:
//mp.weixin.qq.com/s?src=11&timestamp=1567073292&ver=1820&signature=z2h7E*HznopGFidmtUA4PmXgi3ioRqV7XiYIqn9asMT3RCMKss6Y2nPUh7RG63nrwmRii77cL9LyDNJIVp1qpo5LHvQ8s754Q9HtCgbp5EPUP9HjosY7HWDwze6A2Qi7&new=1
　　是不是太太意外；這里開(kāi)始就須要轉變思路：不管怎樣最好先抓一下包，這里我借助的工具是Fidder，關(guān)于Fidder怎樣使用，可以參照這篇文章：
　　先從搜索頁(yè)面的文章列表中步入文章的詳情頁(yè)，我們須要通過(guò)Fidder來(lái)監控一下文章的跳轉情況：
　　看到?jīng)]，驚奇地發(fā)覺(jué)有個(gè) /link?url 開(kāi)頭的url跳轉成功了，深入一下，我們再看一下這個(gè)鏈接返回的是哪些，點(diǎn)一下response部份的TextView；
　　
　　返回的text文本是一串字符串組成的，即使不懂javascript，但上面大約意思就是構造一個(gè)url,格式與后面那種真實(shí)的url有一些相像呢，經(jīng)測試以后發(fā)覺(jué)，返回的這個(gè)url就是獲取文章內容的真實(shí)url
　　把這個(gè)訪(fǎng)問(wèn)成功的而且以link?url開(kāi)頭的url完整復制出來(lái)，與源碼中的那種 link?url 放在一起，發(fā)現這個(gè)訪(fǎng)問(wèn)成功的url中多了兩個(gè)參數一個(gè)是k一個(gè)是h
　　# 訪(fǎng)問(wèn)成功的：https://weixin.sogou.com/link% ... h%3Df
# 訪(fǎng)問(wèn)失敗的：https://weixin.sogou.com/link% ... %25AB
　　現在基本爬取核心思路早已曉得了，主要就是破解這兩個(gè)參數k和h，拼接成'真'的url（以/cl.gif開(kāi)頭的）,然后獲取真url; 關(guān)于這兩個(gè)參數的破解就是涉及到了js加密，需要進(jìn)行調試，不懂的可以參考這篇文章：Chrome DevTools 中調試 JavaScript 入門(mén);
　　第一步，回到源碼中 link?url 位置的地方，因為前面兩個(gè)參數的降低是因為我們觸發(fā)了這個(gè)假的url，所以這兒須要對假的url進(jìn)行竊聽(tīng)：
　　開(kāi)發(fā)者工具[Elements] -> 右上角處的[Event Listeners] -> [click] -> 你須要監控的元素標簽；
　　
　　第二步,按流程瀏覽完前面所有過(guò)程時(shí)下邊會(huì )有個(gè)js文件，點(diǎn)進(jìn)去，并對js代碼進(jìn)行低格，發(fā)現參數k與h的構造方式：
　　
　　其實(shí)還有一種參數定位的方式，在Google開(kāi)發(fā)者選項中借助全局搜索[Search]就能快速定位,但是并不適用于這兒，因為這兒我們定位的參數都是單個(gè)元素，定位的準確度非常低
　　定位以后，參數k與h的定義十分清楚，沒(méi)有過(guò)多函數嵌套，就是在一個(gè)簡(jiǎn)單的函數中，一個(gè)是生成一個(gè)隨機數字，另一個(gè)在這個(gè)href標簽的鏈接中獲取其中的某一個(gè)字符，這里我們可以直python把這個(gè)功能實(shí)現：
　　 url_list11
=
pq
(
res
.
text
)(
'.news-list li'
).
items
()
for
i
in
url_list11
:
url_list12
=
pq
(
i
(
'.img-box a'
).
attr
(
'href'
))
url_list12
=
str
(
url_list12
).
replace
(
'
'
,
''
).
replace
(
'
'
,
''
).
replace
(
'amp;'
,
''
)
print
(
url_list12
)
b
=
int
(
random
.
random
()
*
100
)
+
1
a
=
url_list12
.
find
(
"url="
)
result_link
=
url_list12
+
"&k="
+
str
(
b
)
+
"&h="
+
url_list12
[
a
+
4
+
21
+
b
:
a
+
4
+
21
+
b
+
1
]
a_url
=
"https://weixin.sogou.com"
+
result_link
　　好了，‘真’url也就能構造成功了，通過(guò)訪(fǎng)問(wèn)‘真’url來(lái)獲取真url（訪(fǎng)問(wèn)時(shí)記得加上headers），然后再獲取我們須要的信息；然而結果卻是下邊這樣的：
　　
　　經(jīng)測試發(fā)覺(jué)，原因是因為Cookie中最為核心的兩個(gè)參數SUV和SUNID搜狗微信反爬蟲(chóng)，而這兩個(gè)參數在不斷地發(fā)生改變
　　其中SUNID有固定得訪(fǎng)問(wèn)次數/時(shí)間限制，超過(guò)了限制直接變?yōu)闊o(wú)效，并且當訪(fǎng)問(wèn)網(wǎng)頁(yè)懇求失敗后，SUNID與SUV須要更換能夠再度正常訪(fǎng)問(wèn)
　　SUV參數是在 ‘真’url 過(guò)度到真url 中某個(gè)網(wǎng)頁(yè)中Response里的Set-Cookie中生成的，也就是下邊這個(gè)網(wǎng)頁(yè)：
　　
　　需要我們懇求這個(gè)鏈接，通過(guò)這個(gè)鏈接返回的Cookie,我們領(lǐng)到這個(gè)Cookie裝入懇求頭上面，再訪(fǎng)問(wèn)拼接好的 * ‘真’ url*
　　最后能夠獲取到真url最后懇求這個(gè)鏈接，解析出我們想要的數據( 注意用懇求頭的時(shí)侯最好不要加Cookies搜狗微信反爬蟲(chóng)，否則會(huì )導致訪(fǎng)問(wèn)失敗 ) 當解決以上所有問(wèn)題了，這里再測試一下，已經(jīng)才能成功地領(lǐng)到我們想要的數據：查看全部

　　今天這篇文章主要介紹的是關(guān)于微信公眾號文章的爬取，其中上面主要涉及的反爬機制就是 js加密與cookies的設置；
　　微信公眾號的上一個(gè)版本中的反爬機制中并沒(méi)有涉及到j(luò )s加密，僅通過(guò)監控用戶(hù)ip，單個(gè)ip訪(fǎng)問(wèn)很頻繁會(huì )面臨被封的風(fēng)險；在新的版本中加入了js加密反爬機制，接下來(lái)我們來(lái)逐漸剖析一下文章爬取過(guò)程
　　打開(kāi)搜狗頁(yè)面搜狗陌陌頁(yè)面，在輸入框中輸入任意關(guān)鍵詞比如列車(chē)隧洞大火，搜下來(lái)的都是涉及關(guān)鍵詞的公號文章列表
　　

　　私信小編01 獲取全套學(xué)習教程！
　　這里根據平時(shí)套路，直接借助開(kāi)發(fā)者工具的選擇工具，查看源碼中列表中整篇文章的url，就是下邊這個(gè) href屬性標簽
　　

　　看到這個(gè)url,按照正常思路的話(huà)，就是直接做url拼接：搜狗主域名 + href 就是陌陌主要內容的url,形式如下
　　https
:
//weixin.sogou.com/link?url=dn9a_-gY295K0Rci_xozVXfdMkSQTLW6cwJThYulHEtVjXrGTiVgS_yBZajb90fWf-LwgFP7QmnFtbELADqFzFqXa8Fplpd9nrYbnf-BG6fJQmhdTDKRUQC_zVYwjAHQRnKwtfQUOD-aNBz2bhtCuShQywQb837B12cBkYFsYkKXir7Y9WqlRBcZIrhUAYmFlBSVIg7YGFbBdu4rXklGlRslEFpw0lTmIX8pHfpQ9x6clCHaA92qoA9YOaIV2yOyrE-focNFXq7wdVqCwyPdzA..&type=2&query=%E7%81%AB%E8%BD%A6%E9%9A%A7%E9%81%93%E8%B5%B7%E7%81%AB
　　但是直接點(diǎn)這個(gè)鏈接返回的是402頁(yè)面，需要輸入驗證碼進(jìn)行驗證，而且驗證碼通過(guò)后仍然進(jìn)不去；很明顯這個(gè)url并不是文章的訪(fǎng)問(wèn)入口
　　

　　經(jīng)過(guò)測試，這篇文章的真實(shí)url是下邊這些方式（直接通過(guò)點(diǎn)擊頁(yè)面標簽打開(kāi)即可）：
　　https
:
//mp.weixin.qq.com/s?src=11&timestamp=1567073292&ver=1820&signature=z2h7E*HznopGFidmtUA4PmXgi3ioRqV7XiYIqn9asMT3RCMKss6Y2nPUh7RG63nrwmRii77cL9LyDNJIVp1qpo5LHvQ8s754Q9HtCgbp5EPUP9HjosY7HWDwze6A2Qi7&new=1
　　是不是太太意外；這里開(kāi)始就須要轉變思路：不管怎樣最好先抓一下包，這里我借助的工具是Fidder，關(guān)于Fidder怎樣使用，可以參照這篇文章：
　　先從搜索頁(yè)面的文章列表中步入文章的詳情頁(yè)，我們須要通過(guò)Fidder來(lái)監控一下文章的跳轉情況：
　　看到?jīng)]，驚奇地發(fā)覺(jué)有個(gè) /link?url 開(kāi)頭的url跳轉成功了，深入一下，我們再看一下這個(gè)鏈接返回的是哪些，點(diǎn)一下response部份的TextView；
　　

　　返回的text文本是一串字符串組成的，即使不懂javascript，但上面大約意思就是構造一個(gè)url,格式與后面那種真實(shí)的url有一些相像呢，經(jīng)測試以后發(fā)覺(jué)，返回的這個(gè)url就是獲取文章內容的真實(shí)url
　　把這個(gè)訪(fǎng)問(wèn)成功的而且以link?url開(kāi)頭的url完整復制出來(lái)，與源碼中的那種 link?url 放在一起，發(fā)現這個(gè)訪(fǎng)問(wèn)成功的url中多了兩個(gè)參數一個(gè)是k一個(gè)是h
　　# 訪(fǎng)問(wèn)成功的：https://weixin.sogou.com/link% ... h%3Df
# 訪(fǎng)問(wèn)失敗的：https://weixin.sogou.com/link% ... %25AB
　　現在基本爬取核心思路早已曉得了，主要就是破解這兩個(gè)參數k和h，拼接成'真'的url（以/cl.gif開(kāi)頭的）,然后獲取真url; 關(guān)于這兩個(gè)參數的破解就是涉及到了js加密，需要進(jìn)行調試，不懂的可以參考這篇文章：Chrome DevTools 中調試 JavaScript 入門(mén);
　　第一步，回到源碼中 link?url 位置的地方，因為前面兩個(gè)參數的降低是因為我們觸發(fā)了這個(gè)假的url，所以這兒須要對假的url進(jìn)行竊聽(tīng)：
　　開(kāi)發(fā)者工具[Elements] -> 右上角處的[Event Listeners] -> [click] -> 你須要監控的元素標簽；
　　

　　第二步,按流程瀏覽完前面所有過(guò)程時(shí)下邊會(huì )有個(gè)js文件，點(diǎn)進(jìn)去，并對js代碼進(jìn)行低格，發(fā)現參數k與h的構造方式：
　　

　　其實(shí)還有一種參數定位的方式，在Google開(kāi)發(fā)者選項中借助全局搜索[Search]就能快速定位,但是并不適用于這兒，因為這兒我們定位的參數都是單個(gè)元素，定位的準確度非常低
　　定位以后，參數k與h的定義十分清楚，沒(méi)有過(guò)多函數嵌套，就是在一個(gè)簡(jiǎn)單的函數中，一個(gè)是生成一個(gè)隨機數字，另一個(gè)在這個(gè)href標簽的鏈接中獲取其中的某一個(gè)字符，這里我們可以直python把這個(gè)功能實(shí)現：
　　 url_list11
=
pq
(
res
.
text
)(
'.news-list li'
).
items
()
for
i
in
url_list11
:
url_list12
=
pq
(
i
(
'.img-box a'
).
attr
(
'href'
))
url_list12
=
str
(
url_list12
).
replace
(
'
'
,
''
).
replace
(
'
'
,
''
).
replace
(
'amp;'
,
''
)
print
(
url_list12
)
b
=
int
(
random
.
random
()
*
100
)
+
1
a
=
url_list12
.
find
(
"url="
)
result_link
=
url_list12
+
"&k="
+
str
(
b
)
+
"&h="
+
url_list12
[
a
+
4
+
21
+
b
:
a
+
4
+
21
+
b
+
1
]
a_url
=
"https://weixin.sogou.com"
+
result_link
　　好了，‘真’url也就能構造成功了，通過(guò)訪(fǎng)問(wèn)‘真’url來(lái)獲取真url（訪(fǎng)問(wèn)時(shí)記得加上headers），然后再獲取我們須要的信息；然而結果卻是下邊這樣的：
　　

　　經(jīng)測試發(fā)覺(jué)，原因是因為Cookie中最為核心的兩個(gè)參數SUV和SUNID搜狗微信反爬蟲(chóng)，而這兩個(gè)參數在不斷地發(fā)生改變
　　其中SUNID有固定得訪(fǎng)問(wèn)次數/時(shí)間限制，超過(guò)了限制直接變?yōu)闊o(wú)效，并且當訪(fǎng)問(wèn)網(wǎng)頁(yè)懇求失敗后，SUNID與SUV須要更換能夠再度正常訪(fǎng)問(wèn)
　　SUV參數是在 ‘真’url 過(guò)度到真url 中某個(gè)網(wǎng)頁(yè)中Response里的Set-Cookie中生成的，也就是下邊這個(gè)網(wǎng)頁(yè)：
　　

　　需要我們懇求這個(gè)鏈接，通過(guò)這個(gè)鏈接返回的Cookie,我們領(lǐng)到這個(gè)Cookie裝入懇求頭上面，再訪(fǎng)問(wèn)拼接好的 * ‘真’ url*
　　最后能夠獲取到真url最后懇求這個(gè)鏈接，解析出我們想要的數據( 注意用懇求頭的時(shí)侯最好不要加Cookies搜狗微信反爬蟲(chóng)，否則會(huì )導致訪(fǎng)問(wèn)失敗 ) 當解決以上所有問(wèn)題了，這里再測試一下，已經(jīng)才能成功地領(lǐng)到我們想要的數據：

微信公眾號采集文章的幾種方案

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 620 次瀏覽 ? 2020-04-18 09:52 ? 來(lái)自相關(guān)話(huà)題

　　
　　以下是幾種微信公眾號采集文章的幾種方案，供你們參考!
　　
　　微信公眾號采集
　　方案一：基于搜狗入口
　　在網(wǎng)上能搜索到的公眾號文章采集相關(guān)的信息來(lái)看來(lái)看，這是最多、最直接、也是最簡(jiǎn)單的一種方案。
　　一般流程是：
　　1、搜狗微信搜索入口進(jìn)行公眾號搜索
　　2、選取公眾號步入公眾號歷史文章列表3、對文章內容進(jìn)行解析入庫
　　采集過(guò)于頻繁的話(huà)，搜狗搜索和公眾號歷史文章列表訪(fǎng)問(wèn)就會(huì )出現驗證碼。直接采用通常的腳本采集是難以領(lǐng)到驗證碼的。這里可以使用無(wú)頭瀏覽器來(lái)進(jìn)行訪(fǎng)問(wèn),通過(guò)對接打碼平臺識別驗證碼。無(wú)頭瀏覽器可采用selenium。
　　即便采用無(wú)頭瀏覽器同樣存在問(wèn)題：
　　1、效率低下（實(shí)際上就是在跑一個(gè)完整的瀏覽器來(lái)模擬人類(lèi)操作）
　　2、網(wǎng)頁(yè)資源瀏覽器加載難以控制，腳本對瀏覽器加載很難控制3、驗證碼識別也未能做到100%，中途太可能會(huì )打斷抓取流程
　　如果堅持使用搜狗入口并想進(jìn)行完美采集的話(huà)只有降低代理IP。順便說(shuō)一句，公開(kāi)免費的IP地址就別想了微信文章采集，非常不穩定，而且基本都被陌陌給封了。
　　除了面臨搜狗/微信的反爬蟲(chóng)機制之外，采用此方案還有其他的缺點(diǎn)：
　　無(wú)法獲得閱讀數、點(diǎn)贊數等用于評估文章質(zhì)量的關(guān)鍵信息
　　無(wú)法及時(shí)獲得早已發(fā)布公眾號文章，只能作定期的重復爬取只能獲得近來(lái)十條群發(fā)文章
　　方案二：對手機陌陌進(jìn)行中間人攻擊
　　中間人攻擊本是某種黑客手法，用于截取客戶(hù)端與服務(wù)端之間的通訊信息。這種方案的思路是在手機陌陌和陌陌服務(wù)器之間搭建一個(gè)"HTTPS代理"，用于查獲手機陌陌獲取的公眾號文章信息。一般性步驟是：
　　1、手機陌陌搜索一個(gè)公眾號
　　2、點(diǎn)擊步入公眾號歷史文章頁(yè)面3、代理辨識早已步入列表頁(yè)，進(jìn)行內容查獲，同時(shí)按照實(shí)際情況返回繼續下拉或爬取新的公眾號的js代碼
　　這種方案才能實(shí)現自動(dòng)化的緣由是：
　　1、微信公眾號使用的是HTTPS合同，且內容未加密
　　2、微信公眾號文章列表和詳情本質(zhì)上是個(gè)Web頁(yè)面，可以嵌入js代碼進(jìn)行控制這些方案的優(yōu)點(diǎn)：
　　1、一般情況下不會(huì )被屏蔽
　　2、能領(lǐng)到點(diǎn)贊數和閱讀數等文章評估信息3、能領(lǐng)到公眾號全部的歷史文章
　　當然，也存在好多缺點(diǎn)：
　　1、需要一個(gè)常年聯(lián)網(wǎng)的實(shí)體手機
　　2、前期須要設置代理，工作量比較大3、本質(zhì)上還是個(gè)輪查的過(guò)程，而不是實(shí)時(shí)推送4、同樣有Web加載難以控制的風(fēng)險，且本地網(wǎng)路環(huán)境對其影響特別大5、存在著(zhù)陌陌插口發(fā)生變更代碼不再適應的情況
　　這種方案還存在著(zhù)一些變種，比如：
　　1、通過(guò)lua腳本控制公眾號搜索而不是靠代理返回嵌入的js代碼
　　2、通過(guò)GUI操作腳本控制PC端陌陌
　　但都存在"不能精確穩定控制"的缺點(diǎn)
　　方案三：網(wǎng)頁(yè)陌陌抓包剖析
　　在被陌陌反爬蟲(chóng)虐了很長(cháng)時(shí)間以后，和同學(xué)腦部風(fēng)暴找尋新的微信公眾號采集文章爬取方案。就剖析有什么能獲得數據的入口。模糊記得網(wǎng)頁(yè)陌陌是有公眾號文章閱讀功能的，正好我曾把玩過(guò)一段時(shí)間個(gè)人陌陌機器人，主要使用的是ItChat這個(gè)Python包。它實(shí)現的原理就是對網(wǎng)頁(yè)陌陌進(jìn)行抓包剖析，匯總成個(gè)人陌陌插口，目標就是所有網(wǎng)頁(yè)陌陌能實(shí)現的功能它都能實(shí)現。。所以就有了一個(gè)初步的方案——通過(guò)ItChat使微信公眾號文章自己推送過(guò)來(lái)?？旆艑W(xué)的時(shí)侯和朋友提了一下，他也很感興趣，第二天就實(shí)現下來(lái)了驗證代碼（ItChat實(shí)現相應功能代碼十分簡(jiǎn)略微信文章采集，內容解析部份之前就做了，可以直接用）。
　　這種方案的主要流程是：
　　1、服務(wù)器端通過(guò)ItChat登入網(wǎng)頁(yè)陌陌
　　2、當公眾號發(fā)布新文章推送的時(shí)侯，會(huì )被服務(wù)端查獲進(jìn)行后續的解析入庫
　　這種方案的優(yōu)點(diǎn)是：
　　1、基本零間隔獲取早已發(fā)布的公眾號文章
　　2、能獲取點(diǎn)贊數、閱讀數3、只需手機陌陌保持登入，不用其他操作
　　當然缺點(diǎn)也是有的：
　　1、需要一臺常年聯(lián)網(wǎng)的手機
　　2、手機陌陌不能主動(dòng)退出，或長(cháng)時(shí)間死機
　　微信公眾號采集文章基本上就是和騰訊斗智斗勇，費心吃力。直到如今也沒(méi)能找到一個(gè)完美的解決方案，只能按照實(shí)際的采集目標，擇優(yōu)選定。要完全服務(wù)端，不依賴(lài)手機陌陌，不需要點(diǎn)贊數閱讀數，有大量代理IP就采用方案一；本地網(wǎng)路穩定且有富裕的手機就用方案二；需要及時(shí)獲得公眾號發(fā)布的最新文章的話(huà)就用方案三。查看全部

　　

　　以下是幾種微信公眾號采集文章的幾種方案，供你們參考!
　　

　　微信公眾號采集
　　方案一：基于搜狗入口
　　在網(wǎng)上能搜索到的公眾號文章采集相關(guān)的信息來(lái)看來(lái)看，這是最多、最直接、也是最簡(jiǎn)單的一種方案。
　　一般流程是：
　　1、搜狗微信搜索入口進(jìn)行公眾號搜索
　　2、選取公眾號步入公眾號歷史文章列表3、對文章內容進(jìn)行解析入庫
　　采集過(guò)于頻繁的話(huà)，搜狗搜索和公眾號歷史文章列表訪(fǎng)問(wèn)就會(huì )出現驗證碼。直接采用通常的腳本采集是難以領(lǐng)到驗證碼的。這里可以使用無(wú)頭瀏覽器來(lái)進(jìn)行訪(fǎng)問(wèn),通過(guò)對接打碼平臺識別驗證碼。無(wú)頭瀏覽器可采用selenium。
　　即便采用無(wú)頭瀏覽器同樣存在問(wèn)題：
　　1、效率低下（實(shí)際上就是在跑一個(gè)完整的瀏覽器來(lái)模擬人類(lèi)操作）
　　2、網(wǎng)頁(yè)資源瀏覽器加載難以控制，腳本對瀏覽器加載很難控制3、驗證碼識別也未能做到100%，中途太可能會(huì )打斷抓取流程
　　如果堅持使用搜狗入口并想進(jìn)行完美采集的話(huà)只有降低代理IP。順便說(shuō)一句，公開(kāi)免費的IP地址就別想了微信文章采集，非常不穩定，而且基本都被陌陌給封了。
　　除了面臨搜狗/微信的反爬蟲(chóng)機制之外，采用此方案還有其他的缺點(diǎn)：
　　無(wú)法獲得閱讀數、點(diǎn)贊數等用于評估文章質(zhì)量的關(guān)鍵信息
　　無(wú)法及時(shí)獲得早已發(fā)布公眾號文章，只能作定期的重復爬取只能獲得近來(lái)十條群發(fā)文章
　　方案二：對手機陌陌進(jìn)行中間人攻擊
　　中間人攻擊本是某種黑客手法，用于截取客戶(hù)端與服務(wù)端之間的通訊信息。這種方案的思路是在手機陌陌和陌陌服務(wù)器之間搭建一個(gè)"HTTPS代理"，用于查獲手機陌陌獲取的公眾號文章信息。一般性步驟是：
　　1、手機陌陌搜索一個(gè)公眾號
　　2、點(diǎn)擊步入公眾號歷史文章頁(yè)面3、代理辨識早已步入列表頁(yè)，進(jìn)行內容查獲，同時(shí)按照實(shí)際情況返回繼續下拉或爬取新的公眾號的js代碼
　　這種方案才能實(shí)現自動(dòng)化的緣由是：
　　1、微信公眾號使用的是HTTPS合同，且內容未加密
　　2、微信公眾號文章列表和詳情本質(zhì)上是個(gè)Web頁(yè)面，可以嵌入js代碼進(jìn)行控制這些方案的優(yōu)點(diǎn)：
　　1、一般情況下不會(huì )被屏蔽
　　2、能領(lǐng)到點(diǎn)贊數和閱讀數等文章評估信息3、能領(lǐng)到公眾號全部的歷史文章
　　當然，也存在好多缺點(diǎn)：
　　1、需要一個(gè)常年聯(lián)網(wǎng)的實(shí)體手機
　　2、前期須要設置代理，工作量比較大3、本質(zhì)上還是個(gè)輪查的過(guò)程，而不是實(shí)時(shí)推送4、同樣有Web加載難以控制的風(fēng)險，且本地網(wǎng)路環(huán)境對其影響特別大5、存在著(zhù)陌陌插口發(fā)生變更代碼不再適應的情況
　　這種方案還存在著(zhù)一些變種，比如：
　　1、通過(guò)lua腳本控制公眾號搜索而不是靠代理返回嵌入的js代碼
　　2、通過(guò)GUI操作腳本控制PC端陌陌
　　但都存在"不能精確穩定控制"的缺點(diǎn)
　　方案三：網(wǎng)頁(yè)陌陌抓包剖析
　　在被陌陌反爬蟲(chóng)虐了很長(cháng)時(shí)間以后，和同學(xué)腦部風(fēng)暴找尋新的微信公眾號采集文章爬取方案。就剖析有什么能獲得數據的入口。模糊記得網(wǎng)頁(yè)陌陌是有公眾號文章閱讀功能的，正好我曾把玩過(guò)一段時(shí)間個(gè)人陌陌機器人，主要使用的是ItChat這個(gè)Python包。它實(shí)現的原理就是對網(wǎng)頁(yè)陌陌進(jìn)行抓包剖析，匯總成個(gè)人陌陌插口，目標就是所有網(wǎng)頁(yè)陌陌能實(shí)現的功能它都能實(shí)現。。所以就有了一個(gè)初步的方案——通過(guò)ItChat使微信公眾號文章自己推送過(guò)來(lái)?？旆艑W(xué)的時(shí)侯和朋友提了一下，他也很感興趣，第二天就實(shí)現下來(lái)了驗證代碼（ItChat實(shí)現相應功能代碼十分簡(jiǎn)略微信文章采集，內容解析部份之前就做了，可以直接用）。
　　這種方案的主要流程是：
　　1、服務(wù)器端通過(guò)ItChat登入網(wǎng)頁(yè)陌陌
　　2、當公眾號發(fā)布新文章推送的時(shí)侯，會(huì )被服務(wù)端查獲進(jìn)行后續的解析入庫
　　這種方案的優(yōu)點(diǎn)是：
　　1、基本零間隔獲取早已發(fā)布的公眾號文章
　　2、能獲取點(diǎn)贊數、閱讀數3、只需手機陌陌保持登入，不用其他操作
　　當然缺點(diǎn)也是有的：
　　1、需要一臺常年聯(lián)網(wǎng)的手機
　　2、手機陌陌不能主動(dòng)退出，或長(cháng)時(shí)間死機
　　微信公眾號采集文章基本上就是和騰訊斗智斗勇，費心吃力。直到如今也沒(méi)能找到一個(gè)完美的解決方案，只能按照實(shí)際的采集目標，擇優(yōu)選定。要完全服務(wù)端，不依賴(lài)手機陌陌，不需要點(diǎn)贊數閱讀數，有大量代理IP就采用方案一；本地網(wǎng)路穩定且有富裕的手機就用方案二；需要及時(shí)獲得公眾號發(fā)布的最新文章的話(huà)就用方案三。

好搜seo軟件有什么！

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 675 次瀏覽 ? 2020-07-09 08:01 ? 來(lái)自相關(guān)話(huà)題

　　史上最全面最詳盡的百度、搜狗、好搜三大搜索引擎站長(cháng)平臺SEO應用剖析（請看官老爺們諒解標題過(guò)長(cháng)難以寫(xiě)全）
　　雖然談及搜索，首先想到是度娘，但畢竟國外是存有三大主流的搜索引擎：百度（Baidu）、搜狗（sogou）、好搜（so）的，雖然所占份額兩極分化非常大：
　　
　　百度仍然攥有廣大的資源優(yōu)勢，360也在憑著(zhù)自己的殺毒和瀏覽器在一步步占領(lǐng)市場(chǎng)，搜狗從去年的“歡樂(lè )頌”等影視廣告加上陌陌搜索的優(yōu)勢看也不會(huì )落后。所以對我們我們做SEO想要全面不流失顧客，一定不要輕易忽視了好搜和搜狗這兩個(gè)小搜索引擎，其實(shí)也不見(jiàn)得象你想像的這么“小”，畢竟俺中國的人口基數而且足夠“大”的?。?！
　　好了，俗話(huà)說(shuō)“工欲善其事，必先利其器”，所以我們計劃或初入門(mén)SEO的同學(xué)，一定要十分清楚的了解站長(cháng)平臺工具，本文主要介紹這三大主流搜索引擎站長(cháng)平臺的驗證及功能介紹和使用方式。
　　一、【百度站長(cháng)平臺】
　　地址：
　　百度SEO是目前做的最多的，所以百度站長(cháng)平臺目前使用的人數也是最多的，所以百度站長(cháng)平臺也是在一步一步建立，功能也十分多。
　　百度站長(cháng)平臺驗證
　　打開(kāi)百度站長(cháng)平臺，登錄百度賬號，點(diǎn)擊底部導航【工具】進(jìn)入百度站長(cháng)平臺工具頁(yè)面。
　　點(diǎn)擊兩側導航【我的網(wǎng)站】-【站點(diǎn)管理】然后添加你的網(wǎng)站，如下圖所示：
　　
　　文件驗證：在輸入框輸入須要驗證的域名，這里有三種模式可以驗證，建議使用文件驗證，文件驗證的方法時(shí)間最快，操作相對簡(jiǎn)單，下載文件好搜seo軟件，上傳到網(wǎng)站的根目錄即可點(diǎn)擊【完成驗證】。
　　HTML驗證：把代碼復制到網(wǎng)頁(yè)代碼的腹部文件上面，標簽與標簽之間，不懂代碼的同學(xué)最好不要使用這些方法。
　　CNAME驗證：將指定解析到百度站長(cháng)平臺指定的別稱(chēng)中，等待解析生效即可點(diǎn)擊【完成驗證】，通常解析生效時(shí)間是20分鐘，具體看運氣。
　　百度站長(cháng)平臺功能介紹
　　百度站長(cháng)工具有6個(gè)大導航，分別有抓取、移動(dòng)、排名、維護等功能，相對傳統做優(yōu)化來(lái)說(shuō)，有了百度站長(cháng)平臺這個(gè)權威的工具便捷多了。
　　站點(diǎn)信息：展現一個(gè)站點(diǎn)的輪廓，包含索引量、關(guān)鍵詞搜索量、抓取、移動(dòng)、外鏈、優(yōu)化建議等。
　　站點(diǎn)管理：主要應用于添加網(wǎng)站而用，一個(gè)百度賬號是不限制添加網(wǎng)站的數目，如果你有多個(gè)網(wǎng)站，這里也可以添加多個(gè)網(wǎng)站，不需要注冊多個(gè)賬號。
　　消息提醒：消息提醒對于SEO站長(cháng)來(lái)說(shuō)，最重要的是提醒網(wǎng)站是否作弊，當網(wǎng)站出現作弊現象，這里會(huì )提醒下來(lái)，比如網(wǎng)站被黑提醒，另外一個(gè)是站長(cháng)申請使用百度站長(cháng)平臺公測工具的時(shí)侯，會(huì )給出消息提醒。對我而言，這個(gè)功能就這兩個(gè)重點(diǎn)好處，其他的消息看了也是多余的！
　　移動(dòng)適配：目前部份網(wǎng)站html5技術(shù)還不夠成熟，所以大多不是使用手動(dòng)響應，都有自己聯(lián)通網(wǎng)站模版，那么百度是難以辨識下來(lái)PC與聯(lián)通對于的URL，這里只有借助自動(dòng)遞交對于的聯(lián)通適配URL了，這里的操作十分簡(jiǎn)單，移動(dòng)站和PC站的URL是統一的，無(wú)非就是多了一個(gè)文件名或域名不一樣，在這個(gè)工具上遞交三個(gè)對于的URL即可手動(dòng)辨識下來(lái)。
　　應用內搜索：目前工具還在公測，我的個(gè)人博客也用不著(zhù)這個(gè)工具，不過(guò)還是介紹一下，當你的網(wǎng)站與APP內容上才能對應時(shí)侯，提交應用內搜索，當用戶(hù)搜索某個(gè)關(guān)鍵詞出現你網(wǎng)站的時(shí)侯好搜seo軟件，你網(wǎng)站下方會(huì )推薦出你的APP。
　　Site App：免費制做APP、移動(dòng)網(wǎng)站的功能，如果你沒(méi)有更好的辦法作出聯(lián)通網(wǎng)站來(lái)，還是推薦使用百度Site App工具，不過(guò)聯(lián)通APP話(huà)，個(gè)人還是推薦使用追信魔盒，我也是用這一款軟件，趕腳還是挺不錯的，權限方面放的比較開(kāi)！
　　鏈接遞交：鏈接遞交分為手動(dòng)遞交和自動(dòng)遞交，當然手動(dòng)遞交的形式好些，不需要人工來(lái)麻煩，但是須要程序有插件支持，自動(dòng)遞交有網(wǎng)站地圖sitemap和主動(dòng)推送的方式，主動(dòng)推送須要插件支持，網(wǎng)站地圖可以使用軟件生成后上傳到網(wǎng)站根目錄之后遞交即可。
　　手動(dòng)遞交的形式比較簡(jiǎn)單了，把你網(wǎng)站所有鏈接整理正一個(gè)txt文檔，然后上傳到網(wǎng)站根目錄，提交到搜索引擎自動(dòng)遞交入口即可，當然格式還可以是xml、html、htm、php等。
　　死鏈遞交：如果你網(wǎng)站改版出現多個(gè)死鏈接，最快速的方式就是把死鏈接檢查下來(lái)，整體成一個(gè)txt文檔，然后遞交到死鏈接到百度站長(cháng)平臺既可。
　　ROBOTS：為遵循互聯(lián)網(wǎng)規則，搜索引擎用robots來(lái)限制，如果你有某個(gè)頁(yè)面不容許搜索引擎抓?。ㄈ纾壕W(wǎng)站后臺），那么即可在robots上面寫(xiě)上規則，如果你不會(huì )寫(xiě)robots文件，那么借助這個(gè)工具，新建一個(gè)robots之后填寫(xiě)不容許抓取的頁(yè)面，然后更新是否有錯誤，沒(méi)錯誤即可上傳了。
　　抓取頻度：當你網(wǎng)站收錄慢的時(shí)侯，可以適當的看一下網(wǎng)站的抓取頻度，通常一個(gè)企業(yè)網(wǎng)站抓取頻度不會(huì )超過(guò)500，當然具體依據網(wǎng)站的更新速率來(lái)決定的，這里也可以調整抓取頻度的次數，并不是調整的越大越好，調整的越大，服務(wù)器壓力也就越大，網(wǎng)站也就越卡。
　　抓取確診：類(lèi)似于一個(gè)百度蜘蛛模擬抓取的工具，當網(wǎng)站出現問(wèn)題或則某地域出現打開(kāi)的現象，而你自己可以打開(kāi)，這里可以使用抓取確診工具來(lái)測試網(wǎng)站是否抓取正常。
　　抓取異常：抓取異常工具主要包括：404、503、502等錯誤時(shí)侯的提醒。比如說(shuō)網(wǎng)站改版出現多個(gè)死鏈接，但人工統計不出，那么在這里查找下載下來(lái)，整體成TXT遞交到搜索引擎。
　　索引量：百度索引量是站長(cháng)最值得關(guān)注的一個(gè)數據，網(wǎng)站收錄的前提是構建索引，所以索引量在上升這也說(shuō)明，你網(wǎng)站會(huì )漸漸被收錄！當然穩定上升是最好的現象！
　　站點(diǎn)屬性：為保護小網(wǎng)站的品牌，百度工具推出站點(diǎn)屬性功能，像客服電話(huà)、站點(diǎn)LOGO、站點(diǎn)中文名等均可以在這里設置，目前最容易通過(guò)的是站點(diǎn)LOGO。后續會(huì )越來(lái)越開(kāi)放！
　　站點(diǎn)子鏈：目前工具在公測，意思就是搜索你的品牌詞，下方出現你二級域名的網(wǎng)站，如果你網(wǎng)站有多個(gè)二級域名，可以申請使用。
　　數據標明：對博客來(lái)說(shuō)數據標明沒(méi)哪些用，主要針對軟件、電影、小游戲的網(wǎng)站，標注后，用在搜索結果頁(yè)面可以直接點(diǎn)開(kāi)見(jiàn)到小說(shuō)、電影、小游戲，無(wú)需步入你的網(wǎng)站列表，然后選擇某個(gè)游戲或則影片。在點(diǎn)擊開(kāi)始播放這么復雜的流程！
　　結構化數據：與數據標明的一樣，但是整合了其他的，比如問(wèn)答、資料下載、文庫、軟件下載，用戶(hù)在搜索結果頁(yè)面可以直接看見(jiàn)下載的按鍵，點(diǎn)擊下載即可，就不需要步入你網(wǎng)站，然后找到下載按鍵在下載了！另外下邊一個(gè)是結構化數據下載的插件，目前只有Discuz和WordPress！
　　流量與關(guān)鍵詞：實(shí)時(shí)監控關(guān)鍵詞的排行情況和關(guān)鍵詞的點(diǎn)擊情況，展現量與點(diǎn)擊率的數據可以告訴我們網(wǎng)站是否夠吸引用戶(hù)點(diǎn)擊，另外決定百度排行的重點(diǎn)誘因是用戶(hù)的點(diǎn)擊率。
　　頁(yè)面優(yōu)化建議：這里主要針對的是網(wǎng)站打開(kāi)速率優(yōu)化的建議，比如CSS壓縮、圖片壓縮的建議，這里的CSS壓縮不必并不是太人性化，因為好多未能不必，不過(guò)圖片壓縮工具不錯，直接下載壓縮后的圖片替換老圖片即可。
　　鏈接剖析：鏈接剖析主要是剖析外鏈的數據，不過(guò)近來(lái)百度拒絕外鏈工具下線(xiàn)了，這也說(shuō)明，百度有能力辨識垃圾外鏈，所以這一數據，我們不需要操勞了！
　　安全檢查：安全檢查和漏洞檢查主要是針對網(wǎng)站漏洞檢查的，不過(guò)要防御網(wǎng)站的話(huà)，這一點(diǎn)點(diǎn)還是不夠的，所以這個(gè)工具好處不大，大多是給創(chuàng )宇信息技術(shù)有限公司和百度云加速做廣告而用的。
　　網(wǎng)站改版：網(wǎng)站改版對站長(cháng)來(lái)說(shuō)十分重要，在更換模版后，提交到搜索引擎站長(cháng)平臺，他們會(huì )一個(gè)URL一個(gè)URL的處理，降低網(wǎng)站改版的風(fēng)險。
　　閉站保護：如若網(wǎng)站備案或網(wǎng)站暫時(shí)關(guān)掉，可以申請閉站保護后關(guān)掉網(wǎng)站，備案完畢后在打開(kāi)網(wǎng)站，對網(wǎng)站的SEO是完全沒(méi)有影響的！
　　百度站長(cháng)平臺就介紹的差不多了，至于下邊的網(wǎng)站組件基本是給百度做廣告的，使用的意義不大，下面在來(lái)說(shuō)說(shuō)搜狗站長(cháng)平臺。
　　二、【搜狗站長(cháng)平臺】
　　地址：
　　搜狗站長(cháng)平臺功能相對比百度少一點(diǎn)，但是功能都十分實(shí)用，沒(méi)有象百度那么多沒(méi)用的功能，另外搜狗使用權限的門(mén)檻相對比百度門(mén)檻低，至少不需要發(fā)郵件申請公測資格！
　　1.搜狗站長(cháng)平臺驗證
　　打開(kāi)搜狗站長(cháng)平臺，點(diǎn)擊底部導航【站長(cháng)工具】，在左上角有一個(gè)【站點(diǎn)管理】的按鍵，點(diǎn)擊后添加網(wǎng)站即可。如下圖所示：
　　
　　驗證的方法有兩種，一種文件驗證和代碼驗證，建議使用文件驗證，方法與百度驗證的方式一樣，這里不多說(shuō)了！
　　2.搜狗站長(cháng)平臺功能介紹
　　Sitemap遞交：與百度的網(wǎng)站地圖遞交功能一模一樣，但是沒(méi)有手動(dòng)推進(jìn)的功能，不過(guò)搜索收錄相對百度簡(jiǎn)單。
　　死鏈接遞交：形式與百度遞交的方式一模一樣，建立一個(gè)txt文檔，把死鏈接保存上去，上傳到服務(wù)器根目錄，提交起來(lái)即可。
　　域名變更：比如啟用新域名而且做好了301，但是搜索引擎辨識很慢，所以這兒可以添加規則，更快的使搜索引擎辨識下來(lái)你的新域名。
　　中英文站點(diǎn)匹配：當輸入你的品牌詞后，在顯示域名的地域顯示你的英文品牌詞，這是中英文站點(diǎn)匹配的療效，沒(méi)哪些卵用！
　　匹配網(wǎng)站ICO：在百度是沒(méi)有這個(gè)功能的，當網(wǎng)站達到一定知名度后，會(huì )手動(dòng)顯示ICO的圖標，搜狗這兒可以自動(dòng)遞交ICO的圖標，搜索結果頁(yè)面直接顯示你網(wǎng)站的ICO圖標。
　　匹配網(wǎng)站LOGO：與百度站長(cháng)LOGO功能一模一樣，但是搜狗的LOGO初審是很難通過(guò)的。
　　參數設置：說(shuō)白了就是一個(gè)山寨版的ROBOTS，不過(guò)這個(gè)比ROBOTS文件麻煩，另外假如你網(wǎng)站自己寫(xiě)了robots文件，他們還是一樣違背規則的！
　　官網(wǎng)認證：提交基本是顯示初審中，看到太多人遞交了，最終就沒(méi)有療效了，可能是知名度不夠，建議遞交之前多發(fā)幾條新聞源！
　　開(kāi)放適配：為了使搜索引擎更容易辨識出你網(wǎng)站PC與移動(dòng)端的關(guān)系，這里可以遞交開(kāi)放適配的數據。
　　索引量查詢(xún)：搜狗的索引量基本比較亂，我多個(gè)站點(diǎn)索引量才100多，而網(wǎng)站收錄卻3000多。這個(gè)功能基本被搜狗做廢了。
　　關(guān)鍵詞查詢(xún)：最高可以查詢(xún)50個(gè)關(guān)鍵詞，查詢(xún)的網(wǎng)站必須驗證搜狗站長(cháng)平臺，查詢(xún)下來(lái)的都是搜狗搜索數比較多的詞。
　　三、【好搜站長(cháng)平臺】
　　地址：
　　沒(méi)哪些卵用，大多的功能都與百度搜狗差不多，驗證方法一模一樣，個(gè)人把好搜站長(cháng)平臺的幾個(gè)亮點(diǎn)給你們介紹下來(lái)。
　　智能摘要：智能摘要與結構化數據差不多，不過(guò)這兒比百度結構化數據更人性化了，包括新聞網(wǎng)站也可以設置了。比如問(wèn)答摘要上面直接顯示答案，論壇直接顯示核心點(diǎn)之類(lèi)的，對用戶(hù)來(lái)說(shuō)，是一個(gè)挺好的體驗。
　　Ping收錄：ping收錄主要針對博客網(wǎng)站，在網(wǎng)站安裝了插件后，可以手動(dòng)遞交新的內容到搜索引擎上，因為博客均是原創(chuàng )內容，這個(gè)功能是十分有必要的。
　　原創(chuàng )收錄：與百度星火計劃差不多，不過(guò)百度的星火計劃只是嘴上談?wù)?，這里好搜做的更實(shí)際了，每個(gè)網(wǎng)站每天僅限遞交或更新三次。查看全部

　　史上最全面最詳盡的百度、搜狗、好搜三大搜索引擎站長(cháng)平臺SEO應用剖析（請看官老爺們諒解標題過(guò)長(cháng)難以寫(xiě)全）
　　雖然談及搜索，首先想到是度娘，但畢竟國外是存有三大主流的搜索引擎：百度（Baidu）、搜狗（sogou）、好搜（so）的，雖然所占份額兩極分化非常大：
　　

　　百度仍然攥有廣大的資源優(yōu)勢，360也在憑著(zhù)自己的殺毒和瀏覽器在一步步占領(lǐng)市場(chǎng)，搜狗從去年的“歡樂(lè )頌”等影視廣告加上陌陌搜索的優(yōu)勢看也不會(huì )落后。所以對我們我們做SEO想要全面不流失顧客，一定不要輕易忽視了好搜和搜狗這兩個(gè)小搜索引擎，其實(shí)也不見(jiàn)得象你想像的這么“小”，畢竟俺中國的人口基數而且足夠“大”的?。?！
　　好了，俗話(huà)說(shuō)“工欲善其事，必先利其器”，所以我們計劃或初入門(mén)SEO的同學(xué)，一定要十分清楚的了解站長(cháng)平臺工具，本文主要介紹這三大主流搜索引擎站長(cháng)平臺的驗證及功能介紹和使用方式。
　　一、【百度站長(cháng)平臺】
　　地址：
　　百度SEO是目前做的最多的，所以百度站長(cháng)平臺目前使用的人數也是最多的，所以百度站長(cháng)平臺也是在一步一步建立，功能也十分多。
　　百度站長(cháng)平臺驗證
　　打開(kāi)百度站長(cháng)平臺，登錄百度賬號，點(diǎn)擊底部導航【工具】進(jìn)入百度站長(cháng)平臺工具頁(yè)面。
　　點(diǎn)擊兩側導航【我的網(wǎng)站】-【站點(diǎn)管理】然后添加你的網(wǎng)站，如下圖所示：
　　

　　文件驗證：在輸入框輸入須要驗證的域名，這里有三種模式可以驗證，建議使用文件驗證，文件驗證的方法時(shí)間最快，操作相對簡(jiǎn)單，下載文件好搜seo軟件，上傳到網(wǎng)站的根目錄即可點(diǎn)擊【完成驗證】。
　　HTML驗證：把代碼復制到網(wǎng)頁(yè)代碼的腹部文件上面，標簽與標簽之間，不懂代碼的同學(xué)最好不要使用這些方法。
　　CNAME驗證：將指定解析到百度站長(cháng)平臺指定的別稱(chēng)中，等待解析生效即可點(diǎn)擊【完成驗證】，通常解析生效時(shí)間是20分鐘，具體看運氣。
　　百度站長(cháng)平臺功能介紹
　　百度站長(cháng)工具有6個(gè)大導航，分別有抓取、移動(dòng)、排名、維護等功能，相對傳統做優(yōu)化來(lái)說(shuō)，有了百度站長(cháng)平臺這個(gè)權威的工具便捷多了。
　　站點(diǎn)信息：展現一個(gè)站點(diǎn)的輪廓，包含索引量、關(guān)鍵詞搜索量、抓取、移動(dòng)、外鏈、優(yōu)化建議等。
　　站點(diǎn)管理：主要應用于添加網(wǎng)站而用，一個(gè)百度賬號是不限制添加網(wǎng)站的數目，如果你有多個(gè)網(wǎng)站，這里也可以添加多個(gè)網(wǎng)站，不需要注冊多個(gè)賬號。
　　消息提醒：消息提醒對于SEO站長(cháng)來(lái)說(shuō)，最重要的是提醒網(wǎng)站是否作弊，當網(wǎng)站出現作弊現象，這里會(huì )提醒下來(lái)，比如網(wǎng)站被黑提醒，另外一個(gè)是站長(cháng)申請使用百度站長(cháng)平臺公測工具的時(shí)侯，會(huì )給出消息提醒。對我而言，這個(gè)功能就這兩個(gè)重點(diǎn)好處，其他的消息看了也是多余的！
　　移動(dòng)適配：目前部份網(wǎng)站html5技術(shù)還不夠成熟，所以大多不是使用手動(dòng)響應，都有自己聯(lián)通網(wǎng)站模版，那么百度是難以辨識下來(lái)PC與聯(lián)通對于的URL，這里只有借助自動(dòng)遞交對于的聯(lián)通適配URL了，這里的操作十分簡(jiǎn)單，移動(dòng)站和PC站的URL是統一的，無(wú)非就是多了一個(gè)文件名或域名不一樣，在這個(gè)工具上遞交三個(gè)對于的URL即可手動(dòng)辨識下來(lái)。
　　應用內搜索：目前工具還在公測，我的個(gè)人博客也用不著(zhù)這個(gè)工具，不過(guò)還是介紹一下，當你的網(wǎng)站與APP內容上才能對應時(shí)侯，提交應用內搜索，當用戶(hù)搜索某個(gè)關(guān)鍵詞出現你網(wǎng)站的時(shí)侯好搜seo軟件，你網(wǎng)站下方會(huì )推薦出你的APP。
　　Site App：免費制做APP、移動(dòng)網(wǎng)站的功能，如果你沒(méi)有更好的辦法作出聯(lián)通網(wǎng)站來(lái)，還是推薦使用百度Site App工具，不過(guò)聯(lián)通APP話(huà)，個(gè)人還是推薦使用追信魔盒，我也是用這一款軟件，趕腳還是挺不錯的，權限方面放的比較開(kāi)！
　　鏈接遞交：鏈接遞交分為手動(dòng)遞交和自動(dòng)遞交，當然手動(dòng)遞交的形式好些，不需要人工來(lái)麻煩，但是須要程序有插件支持，自動(dòng)遞交有網(wǎng)站地圖sitemap和主動(dòng)推送的方式，主動(dòng)推送須要插件支持，網(wǎng)站地圖可以使用軟件生成后上傳到網(wǎng)站根目錄之后遞交即可。
　　手動(dòng)遞交的形式比較簡(jiǎn)單了，把你網(wǎng)站所有鏈接整理正一個(gè)txt文檔，然后上傳到網(wǎng)站根目錄，提交到搜索引擎自動(dòng)遞交入口即可，當然格式還可以是xml、html、htm、php等。
　　死鏈遞交：如果你網(wǎng)站改版出現多個(gè)死鏈接，最快速的方式就是把死鏈接檢查下來(lái)，整體成一個(gè)txt文檔，然后遞交到死鏈接到百度站長(cháng)平臺既可。
　　ROBOTS：為遵循互聯(lián)網(wǎng)規則，搜索引擎用robots來(lái)限制，如果你有某個(gè)頁(yè)面不容許搜索引擎抓?。ㄈ纾壕W(wǎng)站后臺），那么即可在robots上面寫(xiě)上規則，如果你不會(huì )寫(xiě)robots文件，那么借助這個(gè)工具，新建一個(gè)robots之后填寫(xiě)不容許抓取的頁(yè)面，然后更新是否有錯誤，沒(méi)錯誤即可上傳了。
　　抓取頻度：當你網(wǎng)站收錄慢的時(shí)侯，可以適當的看一下網(wǎng)站的抓取頻度，通常一個(gè)企業(yè)網(wǎng)站抓取頻度不會(huì )超過(guò)500，當然具體依據網(wǎng)站的更新速率來(lái)決定的，這里也可以調整抓取頻度的次數，并不是調整的越大越好，調整的越大，服務(wù)器壓力也就越大，網(wǎng)站也就越卡。
　　抓取確診：類(lèi)似于一個(gè)百度蜘蛛模擬抓取的工具，當網(wǎng)站出現問(wèn)題或則某地域出現打開(kāi)的現象，而你自己可以打開(kāi)，這里可以使用抓取確診工具來(lái)測試網(wǎng)站是否抓取正常。
　　抓取異常：抓取異常工具主要包括：404、503、502等錯誤時(shí)侯的提醒。比如說(shuō)網(wǎng)站改版出現多個(gè)死鏈接，但人工統計不出，那么在這里查找下載下來(lái)，整體成TXT遞交到搜索引擎。
　　索引量：百度索引量是站長(cháng)最值得關(guān)注的一個(gè)數據，網(wǎng)站收錄的前提是構建索引，所以索引量在上升這也說(shuō)明，你網(wǎng)站會(huì )漸漸被收錄！當然穩定上升是最好的現象！
　　站點(diǎn)屬性：為保護小網(wǎng)站的品牌，百度工具推出站點(diǎn)屬性功能，像客服電話(huà)、站點(diǎn)LOGO、站點(diǎn)中文名等均可以在這里設置，目前最容易通過(guò)的是站點(diǎn)LOGO。后續會(huì )越來(lái)越開(kāi)放！
　　站點(diǎn)子鏈：目前工具在公測，意思就是搜索你的品牌詞，下方出現你二級域名的網(wǎng)站，如果你網(wǎng)站有多個(gè)二級域名，可以申請使用。
　　數據標明：對博客來(lái)說(shuō)數據標明沒(méi)哪些用，主要針對軟件、電影、小游戲的網(wǎng)站，標注后，用在搜索結果頁(yè)面可以直接點(diǎn)開(kāi)見(jiàn)到小說(shuō)、電影、小游戲，無(wú)需步入你的網(wǎng)站列表，然后選擇某個(gè)游戲或則影片。在點(diǎn)擊開(kāi)始播放這么復雜的流程！
　　結構化數據：與數據標明的一樣，但是整合了其他的，比如問(wèn)答、資料下載、文庫、軟件下載，用戶(hù)在搜索結果頁(yè)面可以直接看見(jiàn)下載的按鍵，點(diǎn)擊下載即可，就不需要步入你網(wǎng)站，然后找到下載按鍵在下載了！另外下邊一個(gè)是結構化數據下載的插件，目前只有Discuz和WordPress！
　　流量與關(guān)鍵詞：實(shí)時(shí)監控關(guān)鍵詞的排行情況和關(guān)鍵詞的點(diǎn)擊情況，展現量與點(diǎn)擊率的數據可以告訴我們網(wǎng)站是否夠吸引用戶(hù)點(diǎn)擊，另外決定百度排行的重點(diǎn)誘因是用戶(hù)的點(diǎn)擊率。
　　頁(yè)面優(yōu)化建議：這里主要針對的是網(wǎng)站打開(kāi)速率優(yōu)化的建議，比如CSS壓縮、圖片壓縮的建議，這里的CSS壓縮不必并不是太人性化，因為好多未能不必，不過(guò)圖片壓縮工具不錯，直接下載壓縮后的圖片替換老圖片即可。
　　鏈接剖析：鏈接剖析主要是剖析外鏈的數據，不過(guò)近來(lái)百度拒絕外鏈工具下線(xiàn)了，這也說(shuō)明，百度有能力辨識垃圾外鏈，所以這一數據，我們不需要操勞了！
　　安全檢查：安全檢查和漏洞檢查主要是針對網(wǎng)站漏洞檢查的，不過(guò)要防御網(wǎng)站的話(huà)，這一點(diǎn)點(diǎn)還是不夠的，所以這個(gè)工具好處不大，大多是給創(chuàng )宇信息技術(shù)有限公司和百度云加速做廣告而用的。
　　網(wǎng)站改版：網(wǎng)站改版對站長(cháng)來(lái)說(shuō)十分重要，在更換模版后，提交到搜索引擎站長(cháng)平臺，他們會(huì )一個(gè)URL一個(gè)URL的處理，降低網(wǎng)站改版的風(fēng)險。
　　閉站保護：如若網(wǎng)站備案或網(wǎng)站暫時(shí)關(guān)掉，可以申請閉站保護后關(guān)掉網(wǎng)站，備案完畢后在打開(kāi)網(wǎng)站，對網(wǎng)站的SEO是完全沒(méi)有影響的！
　　百度站長(cháng)平臺就介紹的差不多了，至于下邊的網(wǎng)站組件基本是給百度做廣告的，使用的意義不大，下面在來(lái)說(shuō)說(shuō)搜狗站長(cháng)平臺。
　　二、【搜狗站長(cháng)平臺】
　　地址：
　　搜狗站長(cháng)平臺功能相對比百度少一點(diǎn)，但是功能都十分實(shí)用，沒(méi)有象百度那么多沒(méi)用的功能，另外搜狗使用權限的門(mén)檻相對比百度門(mén)檻低，至少不需要發(fā)郵件申請公測資格！
　　1.搜狗站長(cháng)平臺驗證
　　打開(kāi)搜狗站長(cháng)平臺，點(diǎn)擊底部導航【站長(cháng)工具】，在左上角有一個(gè)【站點(diǎn)管理】的按鍵，點(diǎn)擊后添加網(wǎng)站即可。如下圖所示：
　　

　　驗證的方法有兩種，一種文件驗證和代碼驗證，建議使用文件驗證，方法與百度驗證的方式一樣，這里不多說(shuō)了！
　　2.搜狗站長(cháng)平臺功能介紹
　　Sitemap遞交：與百度的網(wǎng)站地圖遞交功能一模一樣，但是沒(méi)有手動(dòng)推進(jìn)的功能，不過(guò)搜索收錄相對百度簡(jiǎn)單。
　　死鏈接遞交：形式與百度遞交的方式一模一樣，建立一個(gè)txt文檔，把死鏈接保存上去，上傳到服務(wù)器根目錄，提交起來(lái)即可。
　　域名變更：比如啟用新域名而且做好了301，但是搜索引擎辨識很慢，所以這兒可以添加規則，更快的使搜索引擎辨識下來(lái)你的新域名。
　　中英文站點(diǎn)匹配：當輸入你的品牌詞后，在顯示域名的地域顯示你的英文品牌詞，這是中英文站點(diǎn)匹配的療效，沒(méi)哪些卵用！
　　匹配網(wǎng)站ICO：在百度是沒(méi)有這個(gè)功能的，當網(wǎng)站達到一定知名度后，會(huì )手動(dòng)顯示ICO的圖標，搜狗這兒可以自動(dòng)遞交ICO的圖標，搜索結果頁(yè)面直接顯示你網(wǎng)站的ICO圖標。
　　匹配網(wǎng)站LOGO：與百度站長(cháng)LOGO功能一模一樣，但是搜狗的LOGO初審是很難通過(guò)的。
　　參數設置：說(shuō)白了就是一個(gè)山寨版的ROBOTS，不過(guò)這個(gè)比ROBOTS文件麻煩，另外假如你網(wǎng)站自己寫(xiě)了robots文件，他們還是一樣違背規則的！
　　官網(wǎng)認證：提交基本是顯示初審中，看到太多人遞交了，最終就沒(méi)有療效了，可能是知名度不夠，建議遞交之前多發(fā)幾條新聞源！
　　開(kāi)放適配：為了使搜索引擎更容易辨識出你網(wǎng)站PC與移動(dòng)端的關(guān)系，這里可以遞交開(kāi)放適配的數據。
　　索引量查詢(xún)：搜狗的索引量基本比較亂，我多個(gè)站點(diǎn)索引量才100多，而網(wǎng)站收錄卻3000多。這個(gè)功能基本被搜狗做廢了。
　　關(guān)鍵詞查詢(xún)：最高可以查詢(xún)50個(gè)關(guān)鍵詞，查詢(xún)的網(wǎng)站必須驗證搜狗站長(cháng)平臺，查詢(xún)下來(lái)的都是搜狗搜索數比較多的詞。
　　三、【好搜站長(cháng)平臺】
　　地址：
　　沒(méi)哪些卵用，大多的功能都與百度搜狗差不多，驗證方法一模一樣，個(gè)人把好搜站長(cháng)平臺的幾個(gè)亮點(diǎn)給你們介紹下來(lái)。
　　智能摘要：智能摘要與結構化數據差不多，不過(guò)這兒比百度結構化數據更人性化了，包括新聞網(wǎng)站也可以設置了。比如問(wèn)答摘要上面直接顯示答案，論壇直接顯示核心點(diǎn)之類(lèi)的，對用戶(hù)來(lái)說(shuō)，是一個(gè)挺好的體驗。
　　Ping收錄：ping收錄主要針對博客網(wǎng)站，在網(wǎng)站安裝了插件后，可以手動(dòng)遞交新的內容到搜索引擎上，因為博客均是原創(chuàng )內容，這個(gè)功能是十分有必要的。
　　原創(chuàng )收錄：與百度星火計劃差不多，不過(guò)百度的星火計劃只是嘴上談?wù)?，這里好搜做的更實(shí)際了，每個(gè)網(wǎng)站每天僅限遞交或更新三次。

SEO實(shí)驗室第十一期：研究搜狗微信搜索數據源 - 搜外問(wèn)答

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 480 次瀏覽 ? 2020-06-28 08:02 ? 來(lái)自相關(guān)話(huà)題

　　我們曉得，搜狗和騰訊進(jìn)行了戰略合作，并將獲得騰訊的眾多資源。近日搜狗推出了陌陌搜索，其中微信公眾號搜索在目前為止，發(fā)現僅搜狗可以搜索到，其他搜索引擎，百度、360、神馬等都沒(méi)這個(gè)渠道。
　　那么，搜狗是采用了騰訊提供的直接數據源，還是依舊是通過(guò)搜狗“微信蜘蛛”千里跋涉去抓取、緩存、分析、排序、展示的呢？
　　前者情況下，我們可以看見(jiàn)，公眾號和簡(jiǎn)介更新將是實(shí)時(shí)的；
　　后者情況下，則須要滯后一段時(shí)間，類(lèi)似俺們SEOer常說(shuō)的“快照更新”時(shí)間。
　　本實(shí)驗即拿來(lái)做一個(gè)測試，研究搜狗微信搜索數據源是否采用騰訊的“直接通道”。
　　6月10日，在搜狗微信搜索上，搜索 “SEOWHY” （bug存在，需要多點(diǎn)擊幾次搜索按鍵方會(huì )出現）
　　出現右圖：
　　
　　內容與目前的微信公眾號簡(jiǎn)介一致：
　　
　　當日，我在微信公眾號后臺，提交更改公眾號簡(jiǎn)介。內容如下：
　　
　　這個(gè)遞交更改初審，需要3天時(shí)間搜狗微信搜索反爬蟲(chóng)，大約在6月13日會(huì )生效，屆時(shí)，我們共同來(lái)觀(guān)察下，搜狗微信搜索這邊的更新情況。
　　歡迎，大家共同關(guān)注這個(gè)實(shí)驗，也歡迎童鞋們遞交自己的案例。
　　========我是飽含激情的分割線(xiàn)===========
　　6月11日搜狗微信搜索反爬蟲(chóng)，答案早已提早到來(lái)。
　　微信公眾號這邊的簡(jiǎn)介早已更新，但搜狗微信搜索那兒仍未更新。抓圖如下：
　　
　　
　　所以，搜狗微信搜索采用的數據源不是來(lái)自騰訊直接通道，依然采用爬取所得，但這個(gè)爬取的入口，騰訊可以只給搜狗開(kāi)放。查看全部

　　我們曉得，搜狗和騰訊進(jìn)行了戰略合作，并將獲得騰訊的眾多資源。近日搜狗推出了陌陌搜索，其中微信公眾號搜索在目前為止，發(fā)現僅搜狗可以搜索到，其他搜索引擎，百度、360、神馬等都沒(méi)這個(gè)渠道。
　　那么，搜狗是采用了騰訊提供的直接數據源，還是依舊是通過(guò)搜狗“微信蜘蛛”千里跋涉去抓取、緩存、分析、排序、展示的呢？
　　前者情況下，我們可以看見(jiàn)，公眾號和簡(jiǎn)介更新將是實(shí)時(shí)的；
　　后者情況下，則須要滯后一段時(shí)間，類(lèi)似俺們SEOer常說(shuō)的“快照更新”時(shí)間。
　　本實(shí)驗即拿來(lái)做一個(gè)測試，研究搜狗微信搜索數據源是否采用騰訊的“直接通道”。
　　6月10日，在搜狗微信搜索上，搜索 “SEOWHY” （bug存在，需要多點(diǎn)擊幾次搜索按鍵方會(huì )出現）
　　出現右圖：
　　

　　內容與目前的微信公眾號簡(jiǎn)介一致：
　　

　　當日，我在微信公眾號后臺，提交更改公眾號簡(jiǎn)介。內容如下：
　　

　　這個(gè)遞交更改初審，需要3天時(shí)間搜狗微信搜索反爬蟲(chóng)，大約在6月13日會(huì )生效，屆時(shí)，我們共同來(lái)觀(guān)察下，搜狗微信搜索這邊的更新情況。
　　歡迎，大家共同關(guān)注這個(gè)實(shí)驗，也歡迎童鞋們遞交自己的案例。
　　========我是飽含激情的分割線(xiàn)===========
　　6月11日搜狗微信搜索反爬蟲(chóng)，答案早已提早到來(lái)。
　　微信公眾號這邊的簡(jiǎn)介早已更新，但搜狗微信搜索那兒仍未更新。抓圖如下：
　　

　　

　　所以，搜狗微信搜索采用的數據源不是來(lái)自騰訊直接通道，依然采用爬取所得，但這個(gè)爬取的入口，騰訊可以只給搜狗開(kāi)放。

python爬蟲(chóng)js加密篇—搜狗微信公號文章的爬取

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 468 次瀏覽 ? 2020-05-24 08:01 ? 來(lái)自相關(guān)話(huà)題

　　今天這篇文章主要介紹的是關(guān)于微信公眾號文章的爬取，其中上面主要涉及的反爬機制就是 js加密與cookies的設置；
　　微信公眾號的上一個(gè)版本中的反爬機制中并沒(méi)有涉及到j(luò )s加密，僅通過(guò)監控用戶(hù)ip，單個(gè)ip訪(fǎng)問(wèn)很頻繁會(huì )面臨被封的風(fēng)險；在新的版本中加入了js加密反爬機制，接下來(lái)我們來(lái)逐漸剖析一下文章爬取過(guò)程
　　打開(kāi)搜狗頁(yè)面搜狗陌陌頁(yè)面，在輸入框中輸入任意關(guān)鍵詞比如列車(chē)隧洞大火，搜下來(lái)的都是涉及關(guān)鍵詞的公號文章列表
　　
　　私信小編01 獲取全套學(xué)習教程！
　　這里根據平時(shí)套路，直接借助開(kāi)發(fā)者工具的選擇工具，查看源碼中列表中整篇文章的url，就是下邊這個(gè) href屬性標簽
　　
　　看到這個(gè)url,按照正常思路的話(huà)，就是直接做url拼接：搜狗主域名 + href 就是陌陌主要內容的url,形式如下
　　https
:
//weixin.sogou.com/link?url=dn9a_-gY295K0Rci_xozVXfdMkSQTLW6cwJThYulHEtVjXrGTiVgS_yBZajb90fWf-LwgFP7QmnFtbELADqFzFqXa8Fplpd9nrYbnf-BG6fJQmhdTDKRUQC_zVYwjAHQRnKwtfQUOD-aNBz2bhtCuShQywQb837B12cBkYFsYkKXir7Y9WqlRBcZIrhUAYmFlBSVIg7YGFbBdu4rXklGlRslEFpw0lTmIX8pHfpQ9x6clCHaA92qoA9YOaIV2yOyrE-focNFXq7wdVqCwyPdzA..&type=2&query=%E7%81%AB%E8%BD%A6%E9%9A%A7%E9%81%93%E8%B5%B7%E7%81%AB
　　但是直接點(diǎn)這個(gè)鏈接返回的是402頁(yè)面，需要輸入驗證碼進(jìn)行驗證，而且驗證碼通過(guò)后仍然進(jìn)不去；很明顯這個(gè)url并不是文章的訪(fǎng)問(wèn)入口
　　
　　經(jīng)過(guò)測試，這篇文章的真實(shí)url是下邊這些方式（直接通過(guò)點(diǎn)擊頁(yè)面標簽打開(kāi)即可）：
　　https
:
//mp.weixin.qq.com/s?src=11&timestamp=1567073292&ver=1820&signature=z2h7E*HznopGFidmtUA4PmXgi3ioRqV7XiYIqn9asMT3RCMKss6Y2nPUh7RG63nrwmRii77cL9LyDNJIVp1qpo5LHvQ8s754Q9HtCgbp5EPUP9HjosY7HWDwze6A2Qi7&new=1
　　是不是太太意外；這里開(kāi)始就須要轉變思路：不管怎樣最好先抓一下包，這里我借助的工具是Fidder，關(guān)于Fidder怎樣使用，可以參照這篇文章：
　　先從搜索頁(yè)面的文章列表中步入文章的詳情頁(yè)，我們須要通過(guò)Fidder來(lái)監控一下文章的跳轉情況：
　　看到?jīng)]，驚奇地發(fā)覺(jué)有個(gè) /link?url 開(kāi)頭的url跳轉成功了，深入一下，我們再看一下這個(gè)鏈接返回的是哪些，點(diǎn)一下response部份的TextView；
　　
　　返回的text文本是一串字符串組成的，即使不懂javascript，但上面大約意思就是構造一個(gè)url,格式與后面那種真實(shí)的url有一些相像呢，經(jīng)測試以后發(fā)覺(jué)，返回的這個(gè)url就是獲取文章內容的真實(shí)url
　　把這個(gè)訪(fǎng)問(wèn)成功的而且以link?url開(kāi)頭的url完整復制出來(lái)，與源碼中的那種 link?url 放在一起，發(fā)現這個(gè)訪(fǎng)問(wèn)成功的url中多了兩個(gè)參數一個(gè)是k一個(gè)是h
　　# 訪(fǎng)問(wèn)成功的：https://weixin.sogou.com/link% ... h%3Df
# 訪(fǎng)問(wèn)失敗的：https://weixin.sogou.com/link% ... %25AB
　　現在基本爬取核心思路早已曉得了，主要就是破解這兩個(gè)參數k和h，拼接成'真'的url（以/cl.gif開(kāi)頭的）,然后獲取真url; 關(guān)于這兩個(gè)參數的破解就是涉及到了js加密，需要進(jìn)行調試，不懂的可以參考這篇文章：Chrome DevTools 中調試 JavaScript 入門(mén);
　　第一步，回到源碼中 link?url 位置的地方，因為前面兩個(gè)參數的降低是因為我們觸發(fā)了這個(gè)假的url，所以這兒須要對假的url進(jìn)行竊聽(tīng)：
　　開(kāi)發(fā)者工具[Elements] -> 右上角處的[Event Listeners] -> [click] -> 你須要監控的元素標簽；
　　
　　第二步,按流程瀏覽完前面所有過(guò)程時(shí)下邊會(huì )有個(gè)js文件，點(diǎn)進(jìn)去，并對js代碼進(jìn)行低格，發(fā)現參數k與h的構造方式：
　　
　　其實(shí)還有一種參數定位的方式，在Google開(kāi)發(fā)者選項中借助全局搜索[Search]就能快速定位,但是并不適用于這兒，因為這兒我們定位的參數都是單個(gè)元素，定位的準確度非常低
　　定位以后，參數k與h的定義十分清楚，沒(méi)有過(guò)多函數嵌套，就是在一個(gè)簡(jiǎn)單的函數中，一個(gè)是生成一個(gè)隨機數字，另一個(gè)在這個(gè)href標簽的鏈接中獲取其中的某一個(gè)字符，這里我們可以直python把這個(gè)功能實(shí)現：
　　 url_list11
=
pq
(
res
.
text
)(
'.news-list li'
).
items
()
for
i
in
url_list11
:
url_list12
=
pq
(
i
(
'.img-box a'
).
attr
(
'href'
))
url_list12
=
str
(
url_list12
).
replace
(
'
'
,
''
).
replace
(
'
'
,
''
).
replace
(
'amp;'
,
''
)
print
(
url_list12
)
b
=
int
(
random
.
random
()
*
100
)
+
1
a
=
url_list12
.
find
(
"url="
)
result_link
=
url_list12
+
"&k="
+
str
(
b
)
+
"&h="
+
url_list12
[
a
+
4
+
21
+
b
:
a
+
4
+
21
+
b
+
1
]
a_url
=
"https://weixin.sogou.com"
+
result_link
　　好了，‘真’url也就能構造成功了，通過(guò)訪(fǎng)問(wèn)‘真’url來(lái)獲取真url（訪(fǎng)問(wèn)時(shí)記得加上headers），然后再獲取我們須要的信息；然而結果卻是下邊這樣的：
　　
　　經(jīng)測試發(fā)覺(jué)，原因是因為Cookie中最為核心的兩個(gè)參數SUV和SUNID搜狗微信反爬蟲(chóng)，而這兩個(gè)參數在不斷地發(fā)生改變
　　其中SUNID有固定得訪(fǎng)問(wèn)次數/時(shí)間限制，超過(guò)了限制直接變?yōu)闊o(wú)效，并且當訪(fǎng)問(wèn)網(wǎng)頁(yè)懇求失敗后，SUNID與SUV須要更換能夠再度正常訪(fǎng)問(wèn)
　　SUV參數是在 ‘真’url 過(guò)度到真url 中某個(gè)網(wǎng)頁(yè)中Response里的Set-Cookie中生成的，也就是下邊這個(gè)網(wǎng)頁(yè)：
　　
　　需要我們懇求這個(gè)鏈接，通過(guò)這個(gè)鏈接返回的Cookie,我們領(lǐng)到這個(gè)Cookie裝入懇求頭上面，再訪(fǎng)問(wèn)拼接好的 * ‘真’ url*
　　最后能夠獲取到真url最后懇求這個(gè)鏈接，解析出我們想要的數據( 注意用懇求頭的時(shí)侯最好不要加Cookies搜狗微信反爬蟲(chóng)，否則會(huì )導致訪(fǎng)問(wèn)失敗 ) 當解決以上所有問(wèn)題了，這里再測試一下，已經(jīng)才能成功地領(lǐng)到我們想要的數據：查看全部

　　今天這篇文章主要介紹的是關(guān)于微信公眾號文章的爬取，其中上面主要涉及的反爬機制就是 js加密與cookies的設置；
　　微信公眾號的上一個(gè)版本中的反爬機制中并沒(méi)有涉及到j(luò )s加密，僅通過(guò)監控用戶(hù)ip，單個(gè)ip訪(fǎng)問(wèn)很頻繁會(huì )面臨被封的風(fēng)險；在新的版本中加入了js加密反爬機制，接下來(lái)我們來(lái)逐漸剖析一下文章爬取過(guò)程
　　打開(kāi)搜狗頁(yè)面搜狗陌陌頁(yè)面，在輸入框中輸入任意關(guān)鍵詞比如列車(chē)隧洞大火，搜下來(lái)的都是涉及關(guān)鍵詞的公號文章列表
　　

　　私信小編01 獲取全套學(xué)習教程！
　　這里根據平時(shí)套路，直接借助開(kāi)發(fā)者工具的選擇工具，查看源碼中列表中整篇文章的url，就是下邊這個(gè) href屬性標簽
　　

　　看到這個(gè)url,按照正常思路的話(huà)，就是直接做url拼接：搜狗主域名 + href 就是陌陌主要內容的url,形式如下
　　https
:
//weixin.sogou.com/link?url=dn9a_-gY295K0Rci_xozVXfdMkSQTLW6cwJThYulHEtVjXrGTiVgS_yBZajb90fWf-LwgFP7QmnFtbELADqFzFqXa8Fplpd9nrYbnf-BG6fJQmhdTDKRUQC_zVYwjAHQRnKwtfQUOD-aNBz2bhtCuShQywQb837B12cBkYFsYkKXir7Y9WqlRBcZIrhUAYmFlBSVIg7YGFbBdu4rXklGlRslEFpw0lTmIX8pHfpQ9x6clCHaA92qoA9YOaIV2yOyrE-focNFXq7wdVqCwyPdzA..&type=2&query=%E7%81%AB%E8%BD%A6%E9%9A%A7%E9%81%93%E8%B5%B7%E7%81%AB
　　但是直接點(diǎn)這個(gè)鏈接返回的是402頁(yè)面，需要輸入驗證碼進(jìn)行驗證，而且驗證碼通過(guò)后仍然進(jìn)不去；很明顯這個(gè)url并不是文章的訪(fǎng)問(wèn)入口
　　

　　經(jīng)過(guò)測試，這篇文章的真實(shí)url是下邊這些方式（直接通過(guò)點(diǎn)擊頁(yè)面標簽打開(kāi)即可）：
　　https
:
//mp.weixin.qq.com/s?src=11&timestamp=1567073292&ver=1820&signature=z2h7E*HznopGFidmtUA4PmXgi3ioRqV7XiYIqn9asMT3RCMKss6Y2nPUh7RG63nrwmRii77cL9LyDNJIVp1qpo5LHvQ8s754Q9HtCgbp5EPUP9HjosY7HWDwze6A2Qi7&new=1
　　是不是太太意外；這里開(kāi)始就須要轉變思路：不管怎樣最好先抓一下包，這里我借助的工具是Fidder，關(guān)于Fidder怎樣使用，可以參照這篇文章：
　　先從搜索頁(yè)面的文章列表中步入文章的詳情頁(yè)，我們須要通過(guò)Fidder來(lái)監控一下文章的跳轉情況：
　　看到?jīng)]，驚奇地發(fā)覺(jué)有個(gè) /link?url 開(kāi)頭的url跳轉成功了，深入一下，我們再看一下這個(gè)鏈接返回的是哪些，點(diǎn)一下response部份的TextView；
　　

　　返回的text文本是一串字符串組成的，即使不懂javascript，但上面大約意思就是構造一個(gè)url,格式與后面那種真實(shí)的url有一些相像呢，經(jīng)測試以后發(fā)覺(jué)，返回的這個(gè)url就是獲取文章內容的真實(shí)url
　　把這個(gè)訪(fǎng)問(wèn)成功的而且以link?url開(kāi)頭的url完整復制出來(lái)，與源碼中的那種 link?url 放在一起，發(fā)現這個(gè)訪(fǎng)問(wèn)成功的url中多了兩個(gè)參數一個(gè)是k一個(gè)是h
　　# 訪(fǎng)問(wèn)成功的：https://weixin.sogou.com/link% ... h%3Df
# 訪(fǎng)問(wèn)失敗的：https://weixin.sogou.com/link% ... %25AB
　　現在基本爬取核心思路早已曉得了，主要就是破解這兩個(gè)參數k和h，拼接成'真'的url（以/cl.gif開(kāi)頭的）,然后獲取真url; 關(guān)于這兩個(gè)參數的破解就是涉及到了js加密，需要進(jìn)行調試，不懂的可以參考這篇文章：Chrome DevTools 中調試 JavaScript 入門(mén);
　　第一步，回到源碼中 link?url 位置的地方，因為前面兩個(gè)參數的降低是因為我們觸發(fā)了這個(gè)假的url，所以這兒須要對假的url進(jìn)行竊聽(tīng)：
　　開(kāi)發(fā)者工具[Elements] -> 右上角處的[Event Listeners] -> [click] -> 你須要監控的元素標簽；
　　

　　第二步,按流程瀏覽完前面所有過(guò)程時(shí)下邊會(huì )有個(gè)js文件，點(diǎn)進(jìn)去，并對js代碼進(jìn)行低格，發(fā)現參數k與h的構造方式：
　　

　　其實(shí)還有一種參數定位的方式，在Google開(kāi)發(fā)者選項中借助全局搜索[Search]就能快速定位,但是并不適用于這兒，因為這兒我們定位的參數都是單個(gè)元素，定位的準確度非常低
　　定位以后，參數k與h的定義十分清楚，沒(méi)有過(guò)多函數嵌套，就是在一個(gè)簡(jiǎn)單的函數中，一個(gè)是生成一個(gè)隨機數字，另一個(gè)在這個(gè)href標簽的鏈接中獲取其中的某一個(gè)字符，這里我們可以直python把這個(gè)功能實(shí)現：
　　 url_list11
=
pq
(
res
.
text
)(
'.news-list li'
).
items
()
for
i
in
url_list11
:
url_list12
=
pq
(
i
(
'.img-box a'
).
attr
(
'href'
))
url_list12
=
str
(
url_list12
).
replace
(
'
'
,
''
).
replace
(
'
'
,
''
).
replace
(
'amp;'
,
''
)
print
(
url_list12
)
b
=
int
(
random
.
random
()
*
100
)
+
1
a
=
url_list12
.
find
(
"url="
)
result_link
=
url_list12
+
"&k="
+
str
(
b
)
+
"&h="
+
url_list12
[
a
+
4
+
21
+
b
:
a
+
4
+
21
+
b
+
1
]
a_url
=
"https://weixin.sogou.com"
+
result_link
　　好了，‘真’url也就能構造成功了，通過(guò)訪(fǎng)問(wèn)‘真’url來(lái)獲取真url（訪(fǎng)問(wèn)時(shí)記得加上headers），然后再獲取我們須要的信息；然而結果卻是下邊這樣的：
　　

　　經(jīng)測試發(fā)覺(jué)，原因是因為Cookie中最為核心的兩個(gè)參數SUV和SUNID搜狗微信反爬蟲(chóng)，而這兩個(gè)參數在不斷地發(fā)生改變
　　其中SUNID有固定得訪(fǎng)問(wèn)次數/時(shí)間限制，超過(guò)了限制直接變?yōu)闊o(wú)效，并且當訪(fǎng)問(wèn)網(wǎng)頁(yè)懇求失敗后，SUNID與SUV須要更換能夠再度正常訪(fǎng)問(wèn)
　　SUV參數是在 ‘真’url 過(guò)度到真url 中某個(gè)網(wǎng)頁(yè)中Response里的Set-Cookie中生成的，也就是下邊這個(gè)網(wǎng)頁(yè)：
　　

　　需要我們懇求這個(gè)鏈接，通過(guò)這個(gè)鏈接返回的Cookie,我們領(lǐng)到這個(gè)Cookie裝入懇求頭上面，再訪(fǎng)問(wèn)拼接好的 * ‘真’ url*
　　最后能夠獲取到真url最后懇求這個(gè)鏈接，解析出我們想要的數據( 注意用懇求頭的時(shí)侯最好不要加Cookies搜狗微信反爬蟲(chóng)，否則會(huì )導致訪(fǎng)問(wèn)失敗 ) 當解決以上所有問(wèn)題了，這里再測試一下，已經(jīng)才能成功地領(lǐng)到我們想要的數據：

微信公眾號采集文章的幾種方案

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 620 次瀏覽 ? 2020-04-18 09:52 ? 來(lái)自相關(guān)話(huà)題

　　
　　以下是幾種微信公眾號采集文章的幾種方案，供你們參考!
　　
　　微信公眾號采集
　　方案一：基于搜狗入口
　　在網(wǎng)上能搜索到的公眾號文章采集相關(guān)的信息來(lái)看來(lái)看，這是最多、最直接、也是最簡(jiǎn)單的一種方案。
　　一般流程是：
　　1、搜狗微信搜索入口進(jìn)行公眾號搜索
　　2、選取公眾號步入公眾號歷史文章列表3、對文章內容進(jìn)行解析入庫
　　采集過(guò)于頻繁的話(huà)，搜狗搜索和公眾號歷史文章列表訪(fǎng)問(wèn)就會(huì )出現驗證碼。直接采用通常的腳本采集是難以領(lǐng)到驗證碼的。這里可以使用無(wú)頭瀏覽器來(lái)進(jìn)行訪(fǎng)問(wèn),通過(guò)對接打碼平臺識別驗證碼。無(wú)頭瀏覽器可采用selenium。
　　即便采用無(wú)頭瀏覽器同樣存在問(wèn)題：
　　1、效率低下（實(shí)際上就是在跑一個(gè)完整的瀏覽器來(lái)模擬人類(lèi)操作）
　　2、網(wǎng)頁(yè)資源瀏覽器加載難以控制，腳本對瀏覽器加載很難控制3、驗證碼識別也未能做到100%，中途太可能會(huì )打斷抓取流程
　　如果堅持使用搜狗入口并想進(jìn)行完美采集的話(huà)只有降低代理IP。順便說(shuō)一句，公開(kāi)免費的IP地址就別想了微信文章采集，非常不穩定，而且基本都被陌陌給封了。
　　除了面臨搜狗/微信的反爬蟲(chóng)機制之外，采用此方案還有其他的缺點(diǎn)：
　　無(wú)法獲得閱讀數、點(diǎn)贊數等用于評估文章質(zhì)量的關(guān)鍵信息
　　無(wú)法及時(shí)獲得早已發(fā)布公眾號文章，只能作定期的重復爬取只能獲得近來(lái)十條群發(fā)文章
　　方案二：對手機陌陌進(jìn)行中間人攻擊
　　中間人攻擊本是某種黑客手法，用于截取客戶(hù)端與服務(wù)端之間的通訊信息。這種方案的思路是在手機陌陌和陌陌服務(wù)器之間搭建一個(gè)"HTTPS代理"，用于查獲手機陌陌獲取的公眾號文章信息。一般性步驟是：
　　1、手機陌陌搜索一個(gè)公眾號
　　2、點(diǎn)擊步入公眾號歷史文章頁(yè)面3、代理辨識早已步入列表頁(yè)，進(jìn)行內容查獲，同時(shí)按照實(shí)際情況返回繼續下拉或爬取新的公眾號的js代碼
　　這種方案才能實(shí)現自動(dòng)化的緣由是：
　　1、微信公眾號使用的是HTTPS合同，且內容未加密
　　2、微信公眾號文章列表和詳情本質(zhì)上是個(gè)Web頁(yè)面，可以嵌入js代碼進(jìn)行控制這些方案的優(yōu)點(diǎn)：
　　1、一般情況下不會(huì )被屏蔽
　　2、能領(lǐng)到點(diǎn)贊數和閱讀數等文章評估信息3、能領(lǐng)到公眾號全部的歷史文章
　　當然，也存在好多缺點(diǎn)：
　　1、需要一個(gè)常年聯(lián)網(wǎng)的實(shí)體手機
　　2、前期須要設置代理，工作量比較大3、本質(zhì)上還是個(gè)輪查的過(guò)程，而不是實(shí)時(shí)推送4、同樣有Web加載難以控制的風(fēng)險，且本地網(wǎng)路環(huán)境對其影響特別大5、存在著(zhù)陌陌插口發(fā)生變更代碼不再適應的情況
　　這種方案還存在著(zhù)一些變種，比如：
　　1、通過(guò)lua腳本控制公眾號搜索而不是靠代理返回嵌入的js代碼
　　2、通過(guò)GUI操作腳本控制PC端陌陌
　　但都存在"不能精確穩定控制"的缺點(diǎn)
　　方案三：網(wǎng)頁(yè)陌陌抓包剖析
　　在被陌陌反爬蟲(chóng)虐了很長(cháng)時(shí)間以后，和同學(xué)腦部風(fēng)暴找尋新的微信公眾號采集文章爬取方案。就剖析有什么能獲得數據的入口。模糊記得網(wǎng)頁(yè)陌陌是有公眾號文章閱讀功能的，正好我曾把玩過(guò)一段時(shí)間個(gè)人陌陌機器人，主要使用的是ItChat這個(gè)Python包。它實(shí)現的原理就是對網(wǎng)頁(yè)陌陌進(jìn)行抓包剖析，匯總成個(gè)人陌陌插口，目標就是所有網(wǎng)頁(yè)陌陌能實(shí)現的功能它都能實(shí)現。。所以就有了一個(gè)初步的方案——通過(guò)ItChat使微信公眾號文章自己推送過(guò)來(lái)?？旆艑W(xué)的時(shí)侯和朋友提了一下，他也很感興趣，第二天就實(shí)現下來(lái)了驗證代碼（ItChat實(shí)現相應功能代碼十分簡(jiǎn)略微信文章采集，內容解析部份之前就做了，可以直接用）。
　　這種方案的主要流程是：
　　1、服務(wù)器端通過(guò)ItChat登入網(wǎng)頁(yè)陌陌
　　2、當公眾號發(fā)布新文章推送的時(shí)侯，會(huì )被服務(wù)端查獲進(jìn)行后續的解析入庫
　　這種方案的優(yōu)點(diǎn)是：
　　1、基本零間隔獲取早已發(fā)布的公眾號文章
　　2、能獲取點(diǎn)贊數、閱讀數3、只需手機陌陌保持登入，不用其他操作
　　當然缺點(diǎn)也是有的：
　　1、需要一臺常年聯(lián)網(wǎng)的手機
　　2、手機陌陌不能主動(dòng)退出，或長(cháng)時(shí)間死機
　　微信公眾號采集文章基本上就是和騰訊斗智斗勇，費心吃力。直到如今也沒(méi)能找到一個(gè)完美的解決方案，只能按照實(shí)際的采集目標，擇優(yōu)選定。要完全服務(wù)端，不依賴(lài)手機陌陌，不需要點(diǎn)贊數閱讀數，有大量代理IP就采用方案一；本地網(wǎng)路穩定且有富裕的手機就用方案二；需要及時(shí)獲得公眾號發(fā)布的最新文章的話(huà)就用方案三。查看全部

　　

　　以下是幾種微信公眾號采集文章的幾種方案，供你們參考!
　　

　　微信公眾號采集
　　方案一：基于搜狗入口
　　在網(wǎng)上能搜索到的公眾號文章采集相關(guān)的信息來(lái)看來(lái)看，這是最多、最直接、也是最簡(jiǎn)單的一種方案。
　　一般流程是：
　　1、搜狗微信搜索入口進(jìn)行公眾號搜索
　　2、選取公眾號步入公眾號歷史文章列表3、對文章內容進(jìn)行解析入庫
　　采集過(guò)于頻繁的話(huà)，搜狗搜索和公眾號歷史文章列表訪(fǎng)問(wèn)就會(huì )出現驗證碼。直接采用通常的腳本采集是難以領(lǐng)到驗證碼的。這里可以使用無(wú)頭瀏覽器來(lái)進(jìn)行訪(fǎng)問(wèn),通過(guò)對接打碼平臺識別驗證碼。無(wú)頭瀏覽器可采用selenium。
　　即便采用無(wú)頭瀏覽器同樣存在問(wèn)題：
　　1、效率低下（實(shí)際上就是在跑一個(gè)完整的瀏覽器來(lái)模擬人類(lèi)操作）
　　2、網(wǎng)頁(yè)資源瀏覽器加載難以控制，腳本對瀏覽器加載很難控制3、驗證碼識別也未能做到100%，中途太可能會(huì )打斷抓取流程
　　如果堅持使用搜狗入口并想進(jìn)行完美采集的話(huà)只有降低代理IP。順便說(shuō)一句，公開(kāi)免費的IP地址就別想了微信文章采集，非常不穩定，而且基本都被陌陌給封了。
　　除了面臨搜狗/微信的反爬蟲(chóng)機制之外，采用此方案還有其他的缺點(diǎn)：
　　無(wú)法獲得閱讀數、點(diǎn)贊數等用于評估文章質(zhì)量的關(guān)鍵信息
　　無(wú)法及時(shí)獲得早已發(fā)布公眾號文章，只能作定期的重復爬取只能獲得近來(lái)十條群發(fā)文章
　　方案二：對手機陌陌進(jìn)行中間人攻擊
　　中間人攻擊本是某種黑客手法，用于截取客戶(hù)端與服務(wù)端之間的通訊信息。這種方案的思路是在手機陌陌和陌陌服務(wù)器之間搭建一個(gè)"HTTPS代理"，用于查獲手機陌陌獲取的公眾號文章信息。一般性步驟是：
　　1、手機陌陌搜索一個(gè)公眾號
　　2、點(diǎn)擊步入公眾號歷史文章頁(yè)面3、代理辨識早已步入列表頁(yè)，進(jìn)行內容查獲，同時(shí)按照實(shí)際情況返回繼續下拉或爬取新的公眾號的js代碼
　　這種方案才能實(shí)現自動(dòng)化的緣由是：
　　1、微信公眾號使用的是HTTPS合同，且內容未加密
　　2、微信公眾號文章列表和詳情本質(zhì)上是個(gè)Web頁(yè)面，可以嵌入js代碼進(jìn)行控制這些方案的優(yōu)點(diǎn)：
　　1、一般情況下不會(huì )被屏蔽
　　2、能領(lǐng)到點(diǎn)贊數和閱讀數等文章評估信息3、能領(lǐng)到公眾號全部的歷史文章
　　當然，也存在好多缺點(diǎn)：
　　1、需要一個(gè)常年聯(lián)網(wǎng)的實(shí)體手機
　　2、前期須要設置代理，工作量比較大3、本質(zhì)上還是個(gè)輪查的過(guò)程，而不是實(shí)時(shí)推送4、同樣有Web加載難以控制的風(fēng)險，且本地網(wǎng)路環(huán)境對其影響特別大5、存在著(zhù)陌陌插口發(fā)生變更代碼不再適應的情況
　　這種方案還存在著(zhù)一些變種，比如：
　　1、通過(guò)lua腳本控制公眾號搜索而不是靠代理返回嵌入的js代碼
　　2、通過(guò)GUI操作腳本控制PC端陌陌
　　但都存在"不能精確穩定控制"的缺點(diǎn)
　　方案三：網(wǎng)頁(yè)陌陌抓包剖析
　　在被陌陌反爬蟲(chóng)虐了很長(cháng)時(shí)間以后，和同學(xué)腦部風(fēng)暴找尋新的微信公眾號采集文章爬取方案。就剖析有什么能獲得數據的入口。模糊記得網(wǎng)頁(yè)陌陌是有公眾號文章閱讀功能的，正好我曾把玩過(guò)一段時(shí)間個(gè)人陌陌機器人，主要使用的是ItChat這個(gè)Python包。它實(shí)現的原理就是對網(wǎng)頁(yè)陌陌進(jìn)行抓包剖析，匯總成個(gè)人陌陌插口，目標就是所有網(wǎng)頁(yè)陌陌能實(shí)現的功能它都能實(shí)現。。所以就有了一個(gè)初步的方案——通過(guò)ItChat使微信公眾號文章自己推送過(guò)來(lái)?？旆艑W(xué)的時(shí)侯和朋友提了一下，他也很感興趣，第二天就實(shí)現下來(lái)了驗證代碼（ItChat實(shí)現相應功能代碼十分簡(jiǎn)略微信文章采集，內容解析部份之前就做了，可以直接用）。
　　這種方案的主要流程是：
　　1、服務(wù)器端通過(guò)ItChat登入網(wǎng)頁(yè)陌陌
　　2、當公眾號發(fā)布新文章推送的時(shí)侯，會(huì )被服務(wù)端查獲進(jìn)行后續的解析入庫
　　這種方案的優(yōu)點(diǎn)是：
　　1、基本零間隔獲取早已發(fā)布的公眾號文章
　　2、能獲取點(diǎn)贊數、閱讀數3、只需手機陌陌保持登入，不用其他操作
　　當然缺點(diǎn)也是有的：
　　1、需要一臺常年聯(lián)網(wǎng)的手機
　　2、手機陌陌不能主動(dòng)退出，或長(cháng)時(shí)間死機
　　微信公眾號采集文章基本上就是和騰訊斗智斗勇，費心吃力。直到如今也沒(méi)能找到一個(gè)完美的解決方案，只能按照實(shí)際的采集目標，擇優(yōu)選定。要完全服務(wù)端，不依賴(lài)手機陌陌，不需要點(diǎn)贊數閱讀數，有大量代理IP就采用方案一；本地網(wǎng)路穩定且有富裕的手機就用方案二；需要及時(shí)獲得公眾號發(fā)布的最新文章的話(huà)就用方案三。

更多...

話(huà)題描述

相關(guān)話(huà)題

最佳回復者

: 優(yōu)采云
獲得 0 次贊同, 0 次感謝

1 人關(guān)注該話(huà)題

視
頻
教
程

在
線(xiàn)
客
服

官方客服QQ群

在
線(xiàn)
客
服

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

<menu id="bwiem"><strong id="bwiem"></strong></menu>

<menu id="bwiem"></menu>

<menu id="bwiem"><source id="bwiem"></source></menu>

<ul id="bwiem"></ul>