文章采集鏈接
爬網(wǎng)址做采集規則的時(shí)候,直觀(guān)標注很方便。
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 155 次瀏覽 ? 2021-08-18 21:30
制作采集規則的時(shí)候,可以很方便的在視覺(jué)上做標記。在網(wǎng)頁(yè)上點(diǎn)擊鼠標標記要抓取的內容。當爬蟲(chóng)運行時(shí),它會(huì )自動(dòng)去采集這些內容。但是,有些內容(如網(wǎng)頁(yè)上的超鏈接)并沒(méi)有直接顯示在網(wǎng)頁(yè)上,或者即使顯示了某些內容,也無(wú)法準確地進(jìn)行視覺(jué)標注。這時(shí)候就需要使用內容映射了。
內容映射必須在對應的DOM節點(diǎn)上進(jìn)行操作。
1.內容映射采集超LINK
下面以京東列表頁(yè)面上的商品鏈接為例,說(shuō)明如何使用內容映射方式將商品鏈接映射到新的內容(字段)。
在定義規則狀態(tài)下,點(diǎn)擊產(chǎn)品名稱(chēng)。在下面的 DOM 列中,光標對應一個(gè) DOM 節點(diǎn)。一般鏈接存放在A(yíng)節點(diǎn)下的屬性節點(diǎn)href中。
右鍵href節點(diǎn),內容映射-新建內容
給新內容起個(gè)名字叫“商品鏈接”,因為采集是一個(gè)URL鏈接,href節點(diǎn)中的URL不完整,所以檢查完整的URL。
大功告成,我們測試一下,看看產(chǎn)品鏈接是否被抓到了。
2.內容映射采集一般網(wǎng)頁(yè)內容
比如我們想要采集this文章,但是在網(wǎng)頁(yè)上只能選擇一個(gè)section進(jìn)行可視化標注,在DOM節點(diǎn)上做內容映射,可以發(fā)送整篇文章至文章采集。
點(diǎn)擊文章的第一段,光標對應下面的節點(diǎn),向上查找節點(diǎn),直到找到一個(gè)節點(diǎn),點(diǎn)擊它,整個(gè)文章在閃亮的框中,表示整個(gè)文章被選中。右擊這個(gè)節點(diǎn),內容映射-新建內容,然后給新建的內容起個(gè)名字。
在這個(gè)例子中,新內容的名稱(chēng)是文章。整個(gè)內容映射到文章。
因為我們的采集是文本內容,所以我們要選擇純文本。
第 1 部分 文章:“爬上 URL 以提高水平 采集”第 2 部分 文章:“定位和映射以改進(jìn)網(wǎng)頁(yè) 采集accuracy” 查看全部
爬網(wǎng)址做采集規則的時(shí)候,直觀(guān)標注很方便。
制作采集規則的時(shí)候,可以很方便的在視覺(jué)上做標記。在網(wǎng)頁(yè)上點(diǎn)擊鼠標標記要抓取的內容。當爬蟲(chóng)運行時(shí),它會(huì )自動(dòng)去采集這些內容。但是,有些內容(如網(wǎng)頁(yè)上的超鏈接)并沒(méi)有直接顯示在網(wǎng)頁(yè)上,或者即使顯示了某些內容,也無(wú)法準確地進(jìn)行視覺(jué)標注。這時(shí)候就需要使用內容映射了。
內容映射必須在對應的DOM節點(diǎn)上進(jìn)行操作。
1.內容映射采集超LINK
下面以京東列表頁(yè)面上的商品鏈接為例,說(shuō)明如何使用內容映射方式將商品鏈接映射到新的內容(字段)。
在定義規則狀態(tài)下,點(diǎn)擊產(chǎn)品名稱(chēng)。在下面的 DOM 列中,光標對應一個(gè) DOM 節點(diǎn)。一般鏈接存放在A(yíng)節點(diǎn)下的屬性節點(diǎn)href中。

右鍵href節點(diǎn),內容映射-新建內容

給新內容起個(gè)名字叫“商品鏈接”,因為采集是一個(gè)URL鏈接,href節點(diǎn)中的URL不完整,所以檢查完整的URL。

大功告成,我們測試一下,看看產(chǎn)品鏈接是否被抓到了。

2.內容映射采集一般網(wǎng)頁(yè)內容
比如我們想要采集this文章,但是在網(wǎng)頁(yè)上只能選擇一個(gè)section進(jìn)行可視化標注,在DOM節點(diǎn)上做內容映射,可以發(fā)送整篇文章至文章采集。

點(diǎn)擊文章的第一段,光標對應下面的節點(diǎn),向上查找節點(diǎn),直到找到一個(gè)節點(diǎn),點(diǎn)擊它,整個(gè)文章在閃亮的框中,表示整個(gè)文章被選中。右擊這個(gè)節點(diǎn),內容映射-新建內容,然后給新建的內容起個(gè)名字。

在這個(gè)例子中,新內容的名稱(chēng)是文章。整個(gè)內容映射到文章。

因為我們的采集是文本內容,所以我們要選擇純文本。

第 1 部分 文章:“爬上 URL 以提高水平 采集”第 2 部分 文章:“定位和映射以改進(jìn)網(wǎng)頁(yè) 采集accuracy”
小說(shuō)漫畫(huà)微信公眾號平臺小程序該怎么形成開(kāi)發(fā)?
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 88 次瀏覽 ? 2021-08-17 20:34
可以使用清博索引進(jìn)行爬取,除了采集到微信公眾號文章,還可以采集到標題,文章序號,原文鏈接,閱讀數,點(diǎn)贊數、發(fā)布時(shí)間等數據,具體步驟如下:
1.采集需要采集的公眾號列表
2.將這些公眾號加入清博指數自定義列表
3.清博Index每天都會(huì )自動(dòng)采集相關(guān)數據,可直接導出
注意:如果沒(méi)有找到相關(guān)公眾號,需要先進(jìn)行存儲操作。
如何建立一個(gè)穩定流暢的微信分發(fā)小說(shuō)源碼系統?
微信小說(shuō)分發(fā)模式的微信版終于出現了!異?;鸨J絹?lái)了。
如何搭建網(wǎng)絡(luò )版小說(shuō)分發(fā)源代碼系統?
微信小說(shuō)分發(fā)閱讀漫畫(huà)源碼小程序,可以實(shí)現各種資源的變現,以及通過(guò)互聯(lián)網(wǎng)對值得閱讀的素材進(jìn)行盈利轉換。新穎的平臺系統在首頁(yè)增加多套模板,自由選擇,隨意切換使用;添加外鏈統計和代理分享統計;給采集 教程。編寫(xiě)win批處理文件可以有效節省從采集到包上傳過(guò)程的操作成本。整個(gè)過(guò)程將有效節省近120倍的工作量(時(shí)間),相當于減少120倍的人工操作成本。
Novel網(wǎng)站開(kāi)發(fā)平臺新增了一套精美時(shí)尚的氛圍模板。
優(yōu)化用戶(hù)進(jìn)入平臺代理渠道的識別問(wèn)題(注意非正品會(huì )導致同一用戶(hù)分別進(jìn)入多個(gè)代理平臺,造成用戶(hù)代理識別混亂)。
如今,大多數企業(yè)家實(shí)際上是使用互聯(lián)網(wǎng)來(lái)創(chuàng )業(yè)。這是目前的創(chuàng )業(yè)趨勢。創(chuàng )業(yè)模式有很多種,比如漫畫(huà)發(fā)行漫畫(huà)源碼代理平臺app應用系統源碼。很多中小企業(yè)和企業(yè)也想搭建自己的平臺,但因為技術(shù)或人力有限,似乎做不到。那么,有沒(méi)有捷徑呢?當然有!當然,在這方面,我們開(kāi)發(fā)的網(wǎng)站系統已經(jīng)注意到了。獨特而精密的算法,讓用戶(hù)買(mǎi)得更放心,玩得更舒心。
小說(shuō)漫畫(huà)微信公眾號平臺如何組建和開(kāi)發(fā)小程序? H5微信開(kāi)發(fā)服務(wù)商應該如何選擇?基于為客戶(hù)帶來(lái)實(shí)質(zhì)性互聯(lián)網(wǎng)經(jīng)濟價(jià)值的能力,我們切實(shí)為客戶(hù)提供網(wǎng)站運營(yíng)內容培訓和交流服務(wù),有效幫助客戶(hù)在網(wǎng)絡(luò )營(yíng)銷(xiāo)中取得實(shí)質(zhì)性成果。目前看來(lái),互聯(lián)網(wǎng)創(chuàng )業(yè)已經(jīng)成為這個(gè)時(shí)代的一個(gè)熱點(diǎn)。不僅是一線(xiàn)城市,很多三四線(xiàn)城市也開(kāi)始了互聯(lián)網(wǎng)創(chuàng )業(yè)熱潮。許多傳統行業(yè)也知道,他們需要結合互聯(lián)網(wǎng)的優(yōu)勢來(lái)發(fā)展。只要他們不斷總結創(chuàng )新,就會(huì )有出路。如果您對此模式感興趣,
有什么辦法可以看到微信安卓版的源碼嗎?
如何閱讀微信小程序的源碼,可以按照以下步驟進(jìn)行:
1、微信小程序是一款無(wú)需下載安裝即可直接使用的應用。您可以通過(guò)微信【掃一掃】或【搜索】打開(kāi)應用。
2、微信小程序現已具備離線(xiàn)掃碼、公眾號關(guān)注、消息通知等多項功能。
3、在微信小程序中,可以向懂的技術(shù)人員求助。他們會(huì )為客戶(hù)查找微信小程序的源代碼,以便我們看到微信小程序的源代碼。
4、 現在各大企業(yè)項目公司都會(huì )培養一些專(zhuān)業(yè)的員工。他們將使用現有技術(shù)查看源代碼。
5、 尋找小程序的源碼很簡(jiǎn)單,源碼會(huì )和銷(xiāo)量成正比。
6、給我們的信息可以告訴我們,查看微信小程序的源代碼是必要和重要的。
7、查看微信小程序源碼及其價(jià)值,與客戶(hù)需求有很大關(guān)系。
8、現在,網(wǎng)絡(luò )市場(chǎng)發(fā)展非常迅速,微信小程序是最受歡迎的市場(chǎng)之一。查看源碼是微信小程序最重要的部分。 查看全部
小說(shuō)漫畫(huà)微信公眾號平臺小程序該怎么形成開(kāi)發(fā)?
可以使用清博索引進(jìn)行爬取,除了采集到微信公眾號文章,還可以采集到標題,文章序號,原文鏈接,閱讀數,點(diǎn)贊數、發(fā)布時(shí)間等數據,具體步驟如下:
1.采集需要采集的公眾號列表
2.將這些公眾號加入清博指數自定義列表

3.清博Index每天都會(huì )自動(dòng)采集相關(guān)數據,可直接導出
注意:如果沒(méi)有找到相關(guān)公眾號,需要先進(jìn)行存儲操作。
如何建立一個(gè)穩定流暢的微信分發(fā)小說(shuō)源碼系統?
微信小說(shuō)分發(fā)模式的微信版終于出現了!異?;鸨J絹?lái)了。
如何搭建網(wǎng)絡(luò )版小說(shuō)分發(fā)源代碼系統?

微信小說(shuō)分發(fā)閱讀漫畫(huà)源碼小程序,可以實(shí)現各種資源的變現,以及通過(guò)互聯(lián)網(wǎng)對值得閱讀的素材進(jìn)行盈利轉換。新穎的平臺系統在首頁(yè)增加多套模板,自由選擇,隨意切換使用;添加外鏈統計和代理分享統計;給采集 教程。編寫(xiě)win批處理文件可以有效節省從采集到包上傳過(guò)程的操作成本。整個(gè)過(guò)程將有效節省近120倍的工作量(時(shí)間),相當于減少120倍的人工操作成本。
Novel網(wǎng)站開(kāi)發(fā)平臺新增了一套精美時(shí)尚的氛圍模板。
優(yōu)化用戶(hù)進(jìn)入平臺代理渠道的識別問(wèn)題(注意非正品會(huì )導致同一用戶(hù)分別進(jìn)入多個(gè)代理平臺,造成用戶(hù)代理識別混亂)。
如今,大多數企業(yè)家實(shí)際上是使用互聯(lián)網(wǎng)來(lái)創(chuàng )業(yè)。這是目前的創(chuàng )業(yè)趨勢。創(chuàng )業(yè)模式有很多種,比如漫畫(huà)發(fā)行漫畫(huà)源碼代理平臺app應用系統源碼。很多中小企業(yè)和企業(yè)也想搭建自己的平臺,但因為技術(shù)或人力有限,似乎做不到。那么,有沒(méi)有捷徑呢?當然有!當然,在這方面,我們開(kāi)發(fā)的網(wǎng)站系統已經(jīng)注意到了。獨特而精密的算法,讓用戶(hù)買(mǎi)得更放心,玩得更舒心。
小說(shuō)漫畫(huà)微信公眾號平臺如何組建和開(kāi)發(fā)小程序? H5微信開(kāi)發(fā)服務(wù)商應該如何選擇?基于為客戶(hù)帶來(lái)實(shí)質(zhì)性互聯(lián)網(wǎng)經(jīng)濟價(jià)值的能力,我們切實(shí)為客戶(hù)提供網(wǎng)站運營(yíng)內容培訓和交流服務(wù),有效幫助客戶(hù)在網(wǎng)絡(luò )營(yíng)銷(xiāo)中取得實(shí)質(zhì)性成果。目前看來(lái),互聯(lián)網(wǎng)創(chuàng )業(yè)已經(jīng)成為這個(gè)時(shí)代的一個(gè)熱點(diǎn)。不僅是一線(xiàn)城市,很多三四線(xiàn)城市也開(kāi)始了互聯(lián)網(wǎng)創(chuàng )業(yè)熱潮。許多傳統行業(yè)也知道,他們需要結合互聯(lián)網(wǎng)的優(yōu)勢來(lái)發(fā)展。只要他們不斷總結創(chuàng )新,就會(huì )有出路。如果您對此模式感興趣,
有什么辦法可以看到微信安卓版的源碼嗎?
如何閱讀微信小程序的源碼,可以按照以下步驟進(jìn)行:
1、微信小程序是一款無(wú)需下載安裝即可直接使用的應用。您可以通過(guò)微信【掃一掃】或【搜索】打開(kāi)應用。
2、微信小程序現已具備離線(xiàn)掃碼、公眾號關(guān)注、消息通知等多項功能。
3、在微信小程序中,可以向懂的技術(shù)人員求助。他們會(huì )為客戶(hù)查找微信小程序的源代碼,以便我們看到微信小程序的源代碼。
4、 現在各大企業(yè)項目公司都會(huì )培養一些專(zhuān)業(yè)的員工。他們將使用現有技術(shù)查看源代碼。
5、 尋找小程序的源碼很簡(jiǎn)單,源碼會(huì )和銷(xiāo)量成正比。
6、給我們的信息可以告訴我們,查看微信小程序的源代碼是必要和重要的。
7、查看微信小程序源碼及其價(jià)值,與客戶(hù)需求有很大關(guān)系。
8、現在,網(wǎng)絡(luò )市場(chǎng)發(fā)展非常迅速,微信小程序是最受歡迎的市場(chǎng)之一。查看源碼是微信小程序最重要的部分。
4大自媒體平臺的爆文標題該怎么寫(xiě)?
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 111 次瀏覽 ? 2021-08-16 21:05
文章采集鏈接:大魚(yú)號、百家號、企鵝號、頭條號這4大自媒體平臺的爆文標題該怎么寫(xiě)?(獲取爆文標題請關(guān)注小編)這是自媒體人的一個(gè)痛處,很多自媒體小伙伴以為文章的標題吸引人,就會(huì )有大把的閱讀量。卻不知道標題只是媒體的開(kāi)始,熱度才是關(guān)鍵。如何寫(xiě)好標題?下面我們來(lái)講講運營(yíng)自媒體的朋友應該注意的幾點(diǎn):一、自媒體文章的定位,興趣指數(興趣度)高不高所謂的定位決定了您讀者對你文章的喜歡程度與平臺的推薦機制。
而興趣高低是決定是否達到爆文的關(guān)鍵因素。1.哪些標題適合運營(yíng)自媒體?中小型自媒體平臺前期主要是以圖文形式展現,推薦機制可能不是很完善,標題和內容是一致的也并不是適合很高的爆文要求,最好都是有個(gè)把觀(guān)點(diǎn)與眾不同,吸引人的標題。2.熱門(mén)標題是誰(shuí)做的?當自媒體平臺剛興起的時(shí)候,肯定會(huì )大量的投入內容創(chuàng )作者,尤其是原創(chuàng )作者和具有社會(huì )價(jià)值或時(shí)事政治價(jià)值的標題黨都會(huì )火一把。
也正是這個(gè)原因,市場(chǎng)上大量的標題黨開(kāi)始火爆起來(lái),但是隨著(zhù)市場(chǎng)的不斷改變,網(wǎng)站的改版,內容創(chuàng )作者的權益提高,大量抄襲的或者沒(méi)有寫(xiě)作實(shí)力的才開(kāi)始在市場(chǎng)上失寵。每個(gè)平臺都會(huì )去核查作者,判斷其身份的真實(shí)性,很多平臺都是支持第三方企業(yè)機構。這就導致很多作者或者一些水平一般的媒體人會(huì )失去曝光的機會(huì )。3.標題需要在標題中加入分號,不加分號的標題有可能影響到搜索引擎對標題的解析,從而導致標題并沒(méi)有被推薦,影響到文章的閱讀量。
從這個(gè)角度考慮,也可以試著(zhù)不加分號。5.標題里要跟主體結合起來(lái),和主體的結合點(diǎn)可以是人名,也可以是地名。小編建議不要使用地名和人名作為標題的關(guān)鍵詞,因為網(wǎng)絡(luò )或者媒體對這些敏感度較高。而是根據自己的地理位置來(lái)解析標題。這樣的好處是當你到一個(gè)陌生的地方時(shí),方便讀者尋找關(guān)鍵詞和主體結合起來(lái)。比如你是在四川成都工作,不用標題寫(xiě)成南充是四川重要城市,而是可以把南充說(shuō)成四川的一個(gè)重要城市。二、自媒體爆文標題寫(xiě)作技巧(下篇)推薦源自:做自媒體一個(gè)月總結。 查看全部
4大自媒體平臺的爆文標題該怎么寫(xiě)?
文章采集鏈接:大魚(yú)號、百家號、企鵝號、頭條號這4大自媒體平臺的爆文標題該怎么寫(xiě)?(獲取爆文標題請關(guān)注小編)這是自媒體人的一個(gè)痛處,很多自媒體小伙伴以為文章的標題吸引人,就會(huì )有大把的閱讀量。卻不知道標題只是媒體的開(kāi)始,熱度才是關(guān)鍵。如何寫(xiě)好標題?下面我們來(lái)講講運營(yíng)自媒體的朋友應該注意的幾點(diǎn):一、自媒體文章的定位,興趣指數(興趣度)高不高所謂的定位決定了您讀者對你文章的喜歡程度與平臺的推薦機制。
而興趣高低是決定是否達到爆文的關(guān)鍵因素。1.哪些標題適合運營(yíng)自媒體?中小型自媒體平臺前期主要是以圖文形式展現,推薦機制可能不是很完善,標題和內容是一致的也并不是適合很高的爆文要求,最好都是有個(gè)把觀(guān)點(diǎn)與眾不同,吸引人的標題。2.熱門(mén)標題是誰(shuí)做的?當自媒體平臺剛興起的時(shí)候,肯定會(huì )大量的投入內容創(chuàng )作者,尤其是原創(chuàng )作者和具有社會(huì )價(jià)值或時(shí)事政治價(jià)值的標題黨都會(huì )火一把。
也正是這個(gè)原因,市場(chǎng)上大量的標題黨開(kāi)始火爆起來(lái),但是隨著(zhù)市場(chǎng)的不斷改變,網(wǎng)站的改版,內容創(chuàng )作者的權益提高,大量抄襲的或者沒(méi)有寫(xiě)作實(shí)力的才開(kāi)始在市場(chǎng)上失寵。每個(gè)平臺都會(huì )去核查作者,判斷其身份的真實(shí)性,很多平臺都是支持第三方企業(yè)機構。這就導致很多作者或者一些水平一般的媒體人會(huì )失去曝光的機會(huì )。3.標題需要在標題中加入分號,不加分號的標題有可能影響到搜索引擎對標題的解析,從而導致標題并沒(méi)有被推薦,影響到文章的閱讀量。
從這個(gè)角度考慮,也可以試著(zhù)不加分號。5.標題里要跟主體結合起來(lái),和主體的結合點(diǎn)可以是人名,也可以是地名。小編建議不要使用地名和人名作為標題的關(guān)鍵詞,因為網(wǎng)絡(luò )或者媒體對這些敏感度較高。而是根據自己的地理位置來(lái)解析標題。這樣的好處是當你到一個(gè)陌生的地方時(shí),方便讀者尋找關(guān)鍵詞和主體結合起來(lái)。比如你是在四川成都工作,不用標題寫(xiě)成南充是四川重要城市,而是可以把南充說(shuō)成四川的一個(gè)重要城市。二、自媒體爆文標題寫(xiě)作技巧(下篇)推薦源自:做自媒體一個(gè)月總結。
客戶(hù)發(fā)過(guò)來(lái)一個(gè)微信公眾號小說(shuō)分析列表頁(yè)的分析方法
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 87 次瀏覽 ? 2021-08-13 23:06
今天有客戶(hù)發(fā)了個(gè)微信公眾號小說(shuō)文章鏈接,讓我看看能不能用優(yōu)采云爬下來(lái),打開(kāi)手機后發(fā)現沒(méi)有問(wèn)題,可以很可能被爬行。搞定了,一般采集微信公眾號小說(shuō)網(wǎng)站,我在PC端從公眾號爬取,抓包很方便,但是在PC端打開(kāi)的時(shí)候是這樣的:
無(wú)法在PC端打開(kāi)。這很麻煩。如果PC客戶(hù)端無(wú)法打開(kāi),則無(wú)法捕獲數據。我該怎么辦?
因為之前在安卓模擬器里抓過(guò)app,微信上沒(méi)抓到。然后我在模擬器里裝了個(gè)微信,登錄,然后就抓包成功了,抓包成功了就隨便說(shuō)什么了。國家隊。
點(diǎn)擊圖片看大圖
題外話(huà):Fiddler還是用來(lái)抓微信數據包的。需要設置fiddler和模擬器,因為細節較多,這里不再贅述。
抓包后開(kāi)始分析,分析列表頁(yè),分析內容頁(yè),這種網(wǎng)站,一般的內容頁(yè)章節需要付費,這種情況可以通過(guò)vipcookies解決,還有章節內容沒(méi)有問(wèn)題。
分析list頁(yè)面的時(shí)候發(fā)現前15章都是get請求,其余都是post請求。其中一半是get,一半是post請求。除非使用插件,否則很難在優(yōu)采云 中設置。 ,陶小白仔細觀(guān)察每一章的特點(diǎn),發(fā)現可以直接跳過(guò)小說(shuō)目錄頁(yè)的請求,直接列舉章節。每章的最后一個(gè)數字在增加,有200章,最后一個(gè)。章節url的最后一個(gè)數字是200,所以就詳盡列舉每部小說(shuō)。
最后填入vipcookies就可以順利爬取了。以上為采集的單本,客戶(hù)端針對采集,將好的、熱門(mén)的小說(shuō)爬下來(lái)上傳到自己的平臺。
需要采集微信公號小說(shuō)站的朋友請聯(lián)系站長(cháng) 查看全部
客戶(hù)發(fā)過(guò)來(lái)一個(gè)微信公眾號小說(shuō)分析列表頁(yè)的分析方法
今天有客戶(hù)發(fā)了個(gè)微信公眾號小說(shuō)文章鏈接,讓我看看能不能用優(yōu)采云爬下來(lái),打開(kāi)手機后發(fā)現沒(méi)有問(wèn)題,可以很可能被爬行。搞定了,一般采集微信公眾號小說(shuō)網(wǎng)站,我在PC端從公眾號爬取,抓包很方便,但是在PC端打開(kāi)的時(shí)候是這樣的:

無(wú)法在PC端打開(kāi)。這很麻煩。如果PC客戶(hù)端無(wú)法打開(kāi),則無(wú)法捕獲數據。我該怎么辦?
因為之前在安卓模擬器里抓過(guò)app,微信上沒(méi)抓到。然后我在模擬器里裝了個(gè)微信,登錄,然后就抓包成功了,抓包成功了就隨便說(shuō)什么了。國家隊。

點(diǎn)擊圖片看大圖
題外話(huà):Fiddler還是用來(lái)抓微信數據包的。需要設置fiddler和模擬器,因為細節較多,這里不再贅述。
抓包后開(kāi)始分析,分析列表頁(yè),分析內容頁(yè),這種網(wǎng)站,一般的內容頁(yè)章節需要付費,這種情況可以通過(guò)vipcookies解決,還有章節內容沒(méi)有問(wèn)題。
分析list頁(yè)面的時(shí)候發(fā)現前15章都是get請求,其余都是post請求。其中一半是get,一半是post請求。除非使用插件,否則很難在優(yōu)采云 中設置。 ,陶小白仔細觀(guān)察每一章的特點(diǎn),發(fā)現可以直接跳過(guò)小說(shuō)目錄頁(yè)的請求,直接列舉章節。每章的最后一個(gè)數字在增加,有200章,最后一個(gè)。章節url的最后一個(gè)數字是200,所以就詳盡列舉每部小說(shuō)。
最后填入vipcookies就可以順利爬取了。以上為采集的單本,客戶(hù)端針對采集,將好的、熱門(mén)的小說(shuō)爬下來(lái)上傳到自己的平臺。
需要采集微信公號小說(shuō)站的朋友請聯(lián)系站長(cháng)
運營(yíng)公眾號怎樣收集素材文章的相關(guān)資料?數據
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 134 次瀏覽 ? 2021-08-11 07:26
運營(yíng)公眾號怎樣收集素材文章的相關(guān)資料?數據
對于公眾號運營(yíng)商來(lái)說(shuō),文章素材的采集非常重要,因為它可以有效提高你文章的質(zhì)量。下面我們就跟著(zhù)拓圖數據來(lái)了解一下公眾號的操作方法。采集素材文章的相關(guān)信息。
公眾號運營(yíng)資料如何采集文章方法一
獲取文章鏈接,電腦用戶(hù)可以直接在瀏覽器地址欄中選擇并復制文章鏈接。手機用戶(hù)可以點(diǎn)擊右上角的菜單按鈕,選擇復制鏈接,將鏈接發(fā)送到電腦。
公眾號運營(yíng)材料如何采集文章
點(diǎn)擊拓圖數據采集文章按鈕,編輯器采集文章有兩個(gè)功能入口:編輯菜單右上角的采集文章按鈕; 采集功能按鈕底部右側@文章 按鈕。粘貼文章 鏈接并單擊采集。 采集完成后可以編輯修改文章。
公眾號運營(yíng)資料如何采集文章方法二
從網(wǎng)上可以搜到的公眾號文章采集,這是最直接、最簡(jiǎn)單的解決方案。
大致流程是:
1、通過(guò)搜索引擎搜索微信搜索入口進(jìn)入公眾號搜索。
2、選擇公眾號進(jìn)入公眾號歷史文章列表和文章內容進(jìn)行分析和存儲。
公眾號運營(yíng)材料如何采集文章
如果采集過(guò)于頻繁,搜狗搜索和公眾賬號歷史文章列表訪(fǎng)問(wèn)會(huì )顯示驗證碼。無(wú)法直接使用通用腳本采集獲取驗證碼。在這里您可以使用無(wú)頭瀏覽器通過(guò)對接打碼平臺訪(fǎng)問(wèn)和識別驗證碼。 Selenium 可以用作無(wú)頭瀏覽器。
如何采集文章公眾號運營(yíng)的素材?其實(shí),拓圖數據認為文章對于微信公眾號運營(yíng)的素材采集是非常重要的,所以大家可以按照上面的方法做好文章素材的采集。 ! 查看全部
運營(yíng)公眾號怎樣收集素材文章的相關(guān)資料?數據
對于公眾號運營(yíng)商來(lái)說(shuō),文章素材的采集非常重要,因為它可以有效提高你文章的質(zhì)量。下面我們就跟著(zhù)拓圖數據來(lái)了解一下公眾號的操作方法。采集素材文章的相關(guān)信息。
公眾號運營(yíng)資料如何采集文章方法一
獲取文章鏈接,電腦用戶(hù)可以直接在瀏覽器地址欄中選擇并復制文章鏈接。手機用戶(hù)可以點(diǎn)擊右上角的菜單按鈕,選擇復制鏈接,將鏈接發(fā)送到電腦。
公眾號運營(yíng)材料如何采集文章
點(diǎn)擊拓圖數據采集文章按鈕,編輯器采集文章有兩個(gè)功能入口:編輯菜單右上角的采集文章按鈕; 采集功能按鈕底部右側@文章 按鈕。粘貼文章 鏈接并單擊采集。 采集完成后可以編輯修改文章。
公眾號運營(yíng)資料如何采集文章方法二
從網(wǎng)上可以搜到的公眾號文章采集,這是最直接、最簡(jiǎn)單的解決方案。
大致流程是:
1、通過(guò)搜索引擎搜索微信搜索入口進(jìn)入公眾號搜索。
2、選擇公眾號進(jìn)入公眾號歷史文章列表和文章內容進(jìn)行分析和存儲。
公眾號運營(yíng)材料如何采集文章
如果采集過(guò)于頻繁,搜狗搜索和公眾賬號歷史文章列表訪(fǎng)問(wèn)會(huì )顯示驗證碼。無(wú)法直接使用通用腳本采集獲取驗證碼。在這里您可以使用無(wú)頭瀏覽器通過(guò)對接打碼平臺訪(fǎng)問(wèn)和識別驗證碼。 Selenium 可以用作無(wú)頭瀏覽器。
如何采集文章公眾號運營(yíng)的素材?其實(shí),拓圖數據認為文章對于微信公眾號運營(yíng)的素材采集是非常重要的,所以大家可以按照上面的方法做好文章素材的采集。 !
講解一下如何把一個(gè)網(wǎng)站的文章采集到自己的網(wǎng)站
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 332 次瀏覽 ? 2021-08-11 04:21
以飄柔博客網(wǎng)站()為例,說(shuō)明如何將一個(gè)網(wǎng)站文章采集轉給自己的網(wǎng)站,同時(shí)下載鏈接網(wǎng)盤(pán)地址為也是你自己的(文件批量傳輸到你自己的網(wǎng)盤(pán))。
其實(shí)采集和發(fā)布文章很簡(jiǎn)單。難點(diǎn)是如何批量轉儲或下載對方的文件到你的網(wǎng)站/SkyDrive,可以對應文章和網(wǎng)盤(pán)下載鏈接。
需要準備:
飄柔博客網(wǎng)站優(yōu)采云采集rule VIP賬號,發(fā)布模塊批量傳輸工具,城市通網(wǎng)盤(pán)VIP賬號(對方網(wǎng)站使用城市通網(wǎng)盤(pán)存儲文件,如果你要轉,只能轉到城通網(wǎng)盤(pán),其他網(wǎng)盤(pán)不能直接轉)
目前本站所有中文電子書(shū)的文件都在800G左右。不買(mǎi)城市通行證VIP就下載這么多文件到本地是不現實(shí)的。我的城市通行證VIP大概一千元,我已經(jīng)從下載中賺回來(lái)了(每次下載2到5美分,超過(guò)100M的文件1美分)。
看到這個(gè),有些同學(xué)可以關(guān)掉網(wǎng)頁(yè)離開(kāi)了。
第一步:
把所有文件都dump到自己的網(wǎng)盤(pán)上,5萬(wàn)多個(gè)文件,當然不是手動(dòng)的。所以我寫(xiě)了一個(gè)轉儲工具,可以批量轉儲,重命名城市通行證文件。
問(wèn)題是,為什么要重命名?重命名是非常重要的一步,因為它可以:
避免因名稱(chēng)問(wèn)題統一導致下載鏈接失敗,發(fā)布文章時(shí),可以關(guān)聯(lián)網(wǎng)盤(pán)文件下載鏈接
傳輸文件時(shí),將文件重命名為目標網(wǎng)站文章的ID。比如這個(gè)文章中的電子書(shū)轉移到自己的網(wǎng)盤(pán)后,文件名應該是96233.epub。為什么?看第二步。
33%
第二步:
批量轉儲文件重命名后,使用優(yōu)采云來(lái)采集城通網(wǎng)盤(pán)下載鏈接和文件名生成html文件,以文件名命名。比如上面提到的96233.epub,采集生成96233.html,文件收錄從城通網(wǎng)盤(pán)下載文件的鏈接。
你可以直接在你的網(wǎng)站文章中鏈接這個(gè)html,用戶(hù)在html頁(yè)面點(diǎn)擊網(wǎng)盤(pán)鏈接下載文件,或者在后面的第三步,你可以使用采集的這個(gè)頁(yè)面@法里采集 用戶(hù)會(huì )直接打開(kāi)網(wǎng)盤(pán)頁(yè)面下載;鏈接html的好處是可以展示廣告位獲得收益,看下面的demo(順便點(diǎn)擊廣告有驚喜):
html 文件演示:
此方法適用于免費下載資源。如果是收費的,當然最好直接采集到網(wǎng)盤(pán)地址,避免別人根據html文件名獲取其他文件下載地址。
66%
第 3 步:
既然你已經(jīng)有了從網(wǎng)盤(pán)下載文件的所有鏈接,并且html文件名對應目標站的文件名,你只需要將生成的html上傳到網(wǎng)站space,就可以了使用目標站的優(yōu)采云@k0 采集文章,文件下載地址為采集上傳的html中的網(wǎng)盤(pán)地址。
100%
明白了嗎?不知道怎么下拉。
上述城市通行證文件及采集規則的轉讓請聯(lián)系站長(cháng)咨詢(xún)購買(mǎi),采集Other網(wǎng)站可查詢(xún)。 查看全部
講解一下如何把一個(gè)網(wǎng)站的文章采集到自己的網(wǎng)站
以飄柔博客網(wǎng)站()為例,說(shuō)明如何將一個(gè)網(wǎng)站文章采集轉給自己的網(wǎng)站,同時(shí)下載鏈接網(wǎng)盤(pán)地址為也是你自己的(文件批量傳輸到你自己的網(wǎng)盤(pán))。
其實(shí)采集和發(fā)布文章很簡(jiǎn)單。難點(diǎn)是如何批量轉儲或下載對方的文件到你的網(wǎng)站/SkyDrive,可以對應文章和網(wǎng)盤(pán)下載鏈接。
需要準備:
飄柔博客網(wǎng)站優(yōu)采云采集rule VIP賬號,發(fā)布模塊批量傳輸工具,城市通網(wǎng)盤(pán)VIP賬號(對方網(wǎng)站使用城市通網(wǎng)盤(pán)存儲文件,如果你要轉,只能轉到城通網(wǎng)盤(pán),其他網(wǎng)盤(pán)不能直接轉)
目前本站所有中文電子書(shū)的文件都在800G左右。不買(mǎi)城市通行證VIP就下載這么多文件到本地是不現實(shí)的。我的城市通行證VIP大概一千元,我已經(jīng)從下載中賺回來(lái)了(每次下載2到5美分,超過(guò)100M的文件1美分)。
看到這個(gè),有些同學(xué)可以關(guān)掉網(wǎng)頁(yè)離開(kāi)了。
第一步:
把所有文件都dump到自己的網(wǎng)盤(pán)上,5萬(wàn)多個(gè)文件,當然不是手動(dòng)的。所以我寫(xiě)了一個(gè)轉儲工具,可以批量轉儲,重命名城市通行證文件。
問(wèn)題是,為什么要重命名?重命名是非常重要的一步,因為它可以:
避免因名稱(chēng)問(wèn)題統一導致下載鏈接失敗,發(fā)布文章時(shí),可以關(guān)聯(lián)網(wǎng)盤(pán)文件下載鏈接
傳輸文件時(shí),將文件重命名為目標網(wǎng)站文章的ID。比如這個(gè)文章中的電子書(shū)轉移到自己的網(wǎng)盤(pán)后,文件名應該是96233.epub。為什么?看第二步。
33%
第二步:
批量轉儲文件重命名后,使用優(yōu)采云來(lái)采集城通網(wǎng)盤(pán)下載鏈接和文件名生成html文件,以文件名命名。比如上面提到的96233.epub,采集生成96233.html,文件收錄從城通網(wǎng)盤(pán)下載文件的鏈接。
你可以直接在你的網(wǎng)站文章中鏈接這個(gè)html,用戶(hù)在html頁(yè)面點(diǎn)擊網(wǎng)盤(pán)鏈接下載文件,或者在后面的第三步,你可以使用采集的這個(gè)頁(yè)面@法里采集 用戶(hù)會(huì )直接打開(kāi)網(wǎng)盤(pán)頁(yè)面下載;鏈接html的好處是可以展示廣告位獲得收益,看下面的demo(順便點(diǎn)擊廣告有驚喜):
html 文件演示:
此方法適用于免費下載資源。如果是收費的,當然最好直接采集到網(wǎng)盤(pán)地址,避免別人根據html文件名獲取其他文件下載地址。
66%
第 3 步:
既然你已經(jīng)有了從網(wǎng)盤(pán)下載文件的所有鏈接,并且html文件名對應目標站的文件名,你只需要將生成的html上傳到網(wǎng)站space,就可以了使用目標站的優(yōu)采云@k0 采集文章,文件下載地址為采集上傳的html中的網(wǎng)盤(pán)地址。
100%
明白了嗎?不知道怎么下拉。
上述城市通行證文件及采集規則的轉讓請聯(lián)系站長(cháng)咨詢(xún)購買(mǎi),采集Other網(wǎng)站可查詢(xún)。
采集某一個(gè)指定頁(yè)面的文章包括(欄目id為57)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 150 次瀏覽 ? 2021-08-08 21:19
任務(wù):
指定頁(yè)面的采集文章包括(標題、圖片、描述、內容)導入到自己的網(wǎng)站數據庫對應列(列id為57),數據庫字段分別為(title、thumb , 描述, 內容).
頁(yè)面第一張圖片是文章縮略圖,這里一個(gè)是獲取縮略圖名稱(chēng)并將對應的網(wǎng)站路徑添加到數據庫的thumb字段中,另一個(gè)是下載到本地上傳到指定文件夾. ,(當然可以根據軟件直接ftp,我還沒(méi)做,以后補充)
1、New group--新任務(wù)
2、添加網(wǎng)址+修改獲取網(wǎng)址的規則
選擇ul中li中的鏈接,注意排除重復地址,可以點(diǎn)擊下方測試網(wǎng)址采集獲取。
你可以看到采集的文章鏈接。
3、采集content 規則
我需要采集顯示下圖中的數據(catid是列id,可以把采集的數據放到對應的列中,設置一個(gè)固定值即可)
關(guān)注內容和圖片的采集,標題和描述與內容采集一致
Content采集:
打開(kāi)一個(gè)采集文章頁(yè)面查看源碼(f11右鍵禁用或者view-source:可以在URL前面查看):
選擇文章開(kāi)頭的一個(gè)位置,截取一段,看是不是ctrl+f下的唯一一段。如果是,可以放在下圖1所示的位置,結尾和開(kāi)頭一樣。
我截取了內容,不想里面有鏈接圖片進(jìn)行數據處理,添加--html標簽排除--選擇OK--OK
還有需要下載頁(yè)面圖片,勾選并填寫(xiě)以下選項
圖片采集:
(1)所選范圍與內容一致(文章內圖片)
(2)數據處理選提取第一張圖片內容為:
(3)只要aa.jpg,常規過(guò)濾
獲取內容:aa.jpg
(4)database 是帶前綴存放的,加進(jìn)去,upload/xxxxx/
找到一個(gè)頁(yè)面并測試它??梢钥吹綄奈锲范极@得了。
4、 發(fā)布內容設置,這里以發(fā)布到數據庫的方式為例,編輯完成后返回這里查看剛剛定義的模塊:
5、我需要把圖片保存到本地,還要設置保存文件的路徑(ftp以后會(huì )嘗試使用)。
6、保存,查看新創(chuàng )建的任務(wù),右鍵啟動(dòng)任務(wù),可以看到這里下載了文字和圖片,在數據庫中可以看到。
查看全部
采集某一個(gè)指定頁(yè)面的文章包括(欄目id為57)
任務(wù):
指定頁(yè)面的采集文章包括(標題、圖片、描述、內容)導入到自己的網(wǎng)站數據庫對應列(列id為57),數據庫字段分別為(title、thumb , 描述, 內容).
頁(yè)面第一張圖片是文章縮略圖,這里一個(gè)是獲取縮略圖名稱(chēng)并將對應的網(wǎng)站路徑添加到數據庫的thumb字段中,另一個(gè)是下載到本地上傳到指定文件夾. ,(當然可以根據軟件直接ftp,我還沒(méi)做,以后補充)
1、New group--新任務(wù)

2、添加網(wǎng)址+修改獲取網(wǎng)址的規則

選擇ul中li中的鏈接,注意排除重復地址,可以點(diǎn)擊下方測試網(wǎng)址采集獲取。

你可以看到采集的文章鏈接。

3、采集content 規則
我需要采集顯示下圖中的數據(catid是列id,可以把采集的數據放到對應的列中,設置一個(gè)固定值即可)

關(guān)注內容和圖片的采集,標題和描述與內容采集一致

Content采集:
打開(kāi)一個(gè)采集文章頁(yè)面查看源碼(f11右鍵禁用或者view-source:可以在URL前面查看):
選擇文章開(kāi)頭的一個(gè)位置,截取一段,看是不是ctrl+f下的唯一一段。如果是,可以放在下圖1所示的位置,結尾和開(kāi)頭一樣。
我截取了內容,不想里面有鏈接圖片進(jìn)行數據處理,添加--html標簽排除--選擇OK--OK

還有需要下載頁(yè)面圖片,勾選并填寫(xiě)以下選項

圖片采集:
(1)所選范圍與內容一致(文章內圖片)
(2)數據處理選提取第一張圖片內容為:
(3)只要aa.jpg,常規過(guò)濾

獲取內容:aa.jpg
(4)database 是帶前綴存放的,加進(jìn)去,upload/xxxxx/

找到一個(gè)頁(yè)面并測試它??梢钥吹綄奈锲范极@得了。

4、 發(fā)布內容設置,這里以發(fā)布到數據庫的方式為例,編輯完成后返回這里查看剛剛定義的模塊:


5、我需要把圖片保存到本地,還要設置保存文件的路徑(ftp以后會(huì )嘗試使用)。

6、保存,查看新創(chuàng )建的任務(wù),右鍵啟動(dòng)任務(wù),可以看到這里下載了文字和圖片,在數據庫中可以看到。
一個(gè)微信公眾號歷史消息頁(yè)面的鏈接地址和采集方法
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 647 次瀏覽 ? 2021-08-08 21:18
2014年開(kāi)始做微信公眾號內容的批量采集,最初的目的是為了制作一個(gè)html5垃圾郵件網(wǎng)站。當時(shí),垃圾站采集到達的微信公眾號內容很容易在公眾號傳播。當時(shí)批量采集特別好做,采集入口就是公眾號的歷史新聞頁(yè)面。這個(gè)條目現在是一樣的,但越來(lái)越難采集。 采集 方法也在很多版本中進(jìn)行了更新。后來(lái)到了2015年,html5垃圾站就不做了。而是將采集目標定位在本地新聞資訊公眾號,前端展示被做成了一個(gè)app。于是一個(gè)可以自動(dòng)采集公號內容的新聞APP就形成了。曾經(jīng)擔心微信技術(shù)升級一天后采集內容不可用,我的新聞應用程序失敗。但是隨著(zhù)微信的不斷技術(shù)升級,采集方式也得到了升級,這讓我越來(lái)越有信心。只要公眾號歷史消息頁(yè)面存在,就可以批量采集內容。所以今天整理了一下,決定把采集方法寫(xiě)下來(lái)。我的方法來(lái)自于很多同事的分享精神,所以我會(huì )延續這種精神,分享我的成果。
本文文章會(huì )持續更新,保證您看到的內容在您看到時(shí)可用。
首先我們來(lái)看一個(gè)微信公眾號歷史消息頁(yè)面的鏈接地址:
http://mp.weixin.qq.com/mp/get ... irect
========2017 年 1 月 11 日更新==========
現在根據不同的微信個(gè)人賬號,會(huì )有兩個(gè)不同的歷史消息頁(yè)面地址。下面是另一個(gè)歷史消息頁(yè)面的地址。第一種地址的鏈接在anyproxy中會(huì )顯示302跳轉:
https://mp.weixin.qq.com/mp/pr ... irect
第一個(gè)鏈接地址的頁(yè)面樣式:
第二個(gè)鏈接地址的頁(yè)面樣式:
根據目前的信息,這兩種頁(yè)面格式在不同的微信賬號中出現不規則。有的微信賬號永遠是第一頁(yè)格式,有的永遠是第二頁(yè)格式。
上面的鏈接是微信公眾號歷史新聞頁(yè)面的真實(shí)鏈接,但是當我們在瀏覽器中輸入這個(gè)鏈接時(shí),會(huì )顯示:請從微信客戶(hù)端訪(fǎng)問(wèn)。這是因為鏈接地址實(shí)際上需要幾個(gè)參數才能正常顯示內容。我們來(lái)看看一個(gè)可以正常顯示內容的完整鏈接是什么樣子的:
//第一種鏈接
http://mp.weixin.qq.com/mp/get ... r%3D1
//第二種
http://mp.weixin.qq.com/mp/pro ... r%3D1
該地址是通過(guò)微信客戶(hù)端打開(kāi)歷史消息頁(yè)面后,使用后面介紹的代理服務(wù)器軟件獲取的。這里有幾個(gè)參數:
action=;__biz=;uin=;key=;devicetype=;version=;lang=;nettype=;scene=;pass_ticket=;wx_header=;
重要的參數是:__biz;uin=;key=;pass_ticket=;這4個(gè)參數。
__biz 是公眾號的類(lèi)似id的參數。每個(gè)公眾號都有一個(gè)微信。目前公眾號的biz變動(dòng)的可能性很??;
剩下的3個(gè)參數與用戶(hù)id和tokenticket的含義有關(guān)。這3個(gè)參數的值在微信客戶(hù)端生成后會(huì )自動(dòng)添加到地址欄。所以我們認為采集公眾號必須通過(guò)微信客戶(hù)端。在之前的微信版本中,這3個(gè)參數也可以一次性獲取,在有效期內可以使用多個(gè)公眾號。在當前版本中,每次訪(fǎng)問(wèn)公眾號都會(huì )更改參數值。
我現在使用的方法只需要關(guān)注__biz參數即可。
我的采集系統由以下部分組成:
1、A 微信客戶(hù)端:可以是安裝了微信應用的手機,也可以是電腦中的安卓模擬器。批量采集測試的ios微信客戶(hù)端崩潰率高于A(yíng)ndroid系統。為了降低成本,我使用了Android模擬器。
2、A微信個(gè)人賬號:采集內容不僅需要微信客戶(hù)端,還需要采集專(zhuān)用的微信個(gè)人賬號,因為這個(gè)微信賬號不能做其他事情。
3、本地代理服務(wù)器系統:目前使用的方法是通過(guò)Anyproxy代理服務(wù)器將公眾號歷史消息頁(yè)面中的文章列表發(fā)送到自己的服務(wù)器。具體安裝方法后面會(huì )詳細介紹。
4、文章List分析入庫系統:本人使用PHP語(yǔ)言編寫(xiě),下篇文章將詳細介紹如何分析文章lists并創(chuàng )建采集queues實(shí)現批量采集內容.
步驟
一、 安裝模擬器或使用手機安裝微信客戶(hù)端APP,申請微信個(gè)人賬號并登錄APP。這個(gè)就不多介紹了,大家自己做。
二、代理服務(wù)器系統安裝
目前我使用 Anyproxy、AnyProxy。這個(gè)軟件的特點(diǎn)是可以獲取https鏈接的內容。 2016年初,微信公眾號和微信文章開(kāi)始使用https鏈接。而Anyproxy可以通過(guò)修改規則配置,在公眾號頁(yè)面插入腳本代碼。下面將介紹安裝和配置過(guò)程。
1、Install NodeJS
2、在命令行或終端運行npm install -g anyproxy,mac系統需要添加sudo;
3、生成RootCA,https需要這個(gè)證書(shū):運行命令sudo anyproxy --root(windows可能不需要sudo);
4、 啟動(dòng) anyproxy 運行命令:sudo anyproxy -i;參數-i表示解析HTTPS;
5、安裝證書(shū),在手機或者安卓模擬器安裝證書(shū):
6、Set proxy:安卓模擬器的代理服務(wù)器地址是wifi鏈接的網(wǎng)關(guān)。通過(guò)dhcp設置為靜態(tài)后就可以看到網(wǎng)關(guān)地址了。閱讀后不要忘記將其設置為自動(dòng)。手機中的代理服務(wù)器地址就是運行anyproxy的電腦的ip地址。代理服務(wù)器默認端口為8001;
現在打開(kāi)微信,點(diǎn)擊任意公眾號歷史消息或者文章,可以看到在終端滾動(dòng)的響應碼。如果沒(méi)有出現,請檢查手機的代理設置是否正確。
現在打開(kāi)瀏覽器地址localhost:8002就可以看到anyproxy的web界面了。微信點(diǎn)擊打開(kāi)一個(gè)歷史消息頁(yè)面,然后在瀏覽器的web界面查看,歷史消息頁(yè)面的地址會(huì )滾動(dòng)。
/mp/getmasssendmsg開(kāi)頭的網(wǎng)址是微信歷史消息頁(yè)面。左邊的小鎖表示這個(gè)頁(yè)面是 https 加密的?,F在我們點(diǎn)擊這一行;
========2017 年 1 月 11 日更新==========
一些以/mp/getmasssendmsg開(kāi)頭的微信網(wǎng)址會(huì )出現302跳轉到以/mp/profile_ext?action=home開(kāi)頭的地址。所以點(diǎn)擊這個(gè)地址可以看到內容。
如果右側出現html文件內容,則表示解密成功。如果沒(méi)有內容,請檢查anyproxy運行方式是否有參數i,是否生成CA證書(shū),是否在手機上正確安裝了證書(shū)。
現在我們手機中的所有內容都可以明文通過(guò)代理服務(wù)器了。接下來(lái),我們需要修改代理服務(wù)器的配置,以便獲取公眾號的內容。
一、找到配置文件:
mac系統中配置文件的位置是/usr/local/lib/node_modules/anyproxy/lib/;對于windows系統,不知道還請見(jiàn)諒。應該可以根據類(lèi)似mac的文件夾地址找到這個(gè)目錄。
二、修改文件 rule_default.js
找到 replaceServerResDataAsync: function(req,res,serverResData,callback) 函數
修改函數內容(請注意詳細閱讀注釋?zhuān)@里只是介紹原理,了解后根據自己的情況修改內容):
========2017 年 1 月 11 日更新==========
因為有兩種頁(yè)面格式,相同的頁(yè)面格式總是在不同的微信賬號中顯示,但是為了兼容兩種頁(yè)面格式,下面的代碼會(huì )保留兩種頁(yè)面格式的判斷。您也可以按照從您自己的頁(yè)面表單中刪除 li
replaceServerResDataAsync: function(req,res,serverResData,callback){
if(/mp\/getmasssendmsg/i.test(req.url)){//當鏈接地址為公眾號歷史消息頁(yè)面時(shí)(第一種頁(yè)面形式)
if(serverResData.toString() !== ""){
try {//防止報錯退出程序
var reg = /msgList = (.*?);/;//定義歷史消息正則匹配規則
var ret = reg.exec(serverResData.toString());//轉換變量為string
HttpPost(ret[1],req.url,"getMsgJson.php");//這個(gè)函數是后文定義的,將匹配到的歷史消息json發(fā)送到自己的服務(wù)器
var http = require('http');
http.get('http://xxx.com/getWxHis.php', function(res) {//這個(gè)地址是自己服務(wù)器上的一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxHis.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);//將返回的代碼插入到歷史消息頁(yè)面中,并返回顯示出來(lái)
})
});
}catch(e){//如果上面的正則沒(méi)有匹配到,那么這個(gè)頁(yè)面內容可能是公眾號歷史消息頁(yè)面向下翻動(dòng)的第二頁(yè),因為歷史消息第一頁(yè)是html格式的,第二頁(yè)就是json格式的。
try {
var json = JSON.parse(serverResData.toString());
if (json.general_msg_list != []) {
HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//這個(gè)函數和上面的一樣是后文定義的,將第二頁(yè)歷史消息的json發(fā)送到自己的服務(wù)器
}
}catch(e){
console.log(e);//錯誤捕捉
}
callback(serverResData);//直接返回第二頁(yè)json內容
}
}
}else if(/mp\/profile_ext\?action=home/i.test(req.url)){//當鏈接地址為公眾號歷史消息頁(yè)面時(shí)(第二種頁(yè)面形式)
try {
var reg = /var msgList = \'(.*?)\';/;//定義歷史消息正則匹配規則(和第一種頁(yè)面形式的正則不同)
var ret = reg.exec(serverResData.toString());//轉換變量為string
HttpPost(ret[1],req.url,"getMsgJson.php");//這個(gè)函數是后文定義的,將匹配到的歷史消息json發(fā)送到自己的服務(wù)器
var http = require('http');
http.get('http://xxx.com/getWxHis', function(res) {//這個(gè)地址是自己服務(wù)器上的一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxHis.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);//將返回的代碼插入到歷史消息頁(yè)面中,并返回顯示出來(lái)
})
});
}catch(e){
callback(serverResData);
}
}else if(/mp\/profile_ext\?action=getmsg/i.test(req.url)){//第二種頁(yè)面表現形式的向下翻頁(yè)后的json
try {
var json = JSON.parse(serverResData.toString());
if (json.general_msg_list != []) {
HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//這個(gè)函數和上面的一樣是后文定義的,將第二頁(yè)歷史消息的json發(fā)送到自己的服務(wù)器
}
}catch(e){
console.log(e);
}
callback(serverResData);
}else if(/mp\/getappmsgext/i.test(req.url)){//當鏈接地址為公眾號文章閱讀量和點(diǎn)贊量時(shí)
try {
HttpPost(serverResData,req.url,"getMsgExt.php");//函數是后文定義的,功能是將文章閱讀量點(diǎn)贊量的json發(fā)送到服務(wù)器
}catch(e){
}
callback(serverResData);
}else if(/s\?__biz/i.test(req.url) || /mp\/rumor/i.test(req.url)){//當鏈接地址為公眾號文章時(shí)(rumor這個(gè)地址是公眾號文章被辟謠了)
try {
var http = require('http');
http.get('http://xxx.com/getWxPost.php', function(res) {//這個(gè)地址是自己服務(wù)器上的另一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxPost.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);
})
});
}catch(e){
callback(serverResData);
}
}else{
callback(serverResData);
}
},
以上代碼是使用anyproxy修改返回頁(yè)面內容、向頁(yè)面注入腳本、將頁(yè)面內容發(fā)送到服務(wù)器的功能。利用這個(gè)原理批量處理采集公眾號內容和閱讀量。該腳本中自定義了一個(gè)函數,詳細說(shuō)明如下:
在 rule_default.js 文件末尾添加以下代碼:
function HttpPost(str,url,path) {//將json發(fā)送到服務(wù)器,str為json內容,url為歷史消息頁(yè)面地址,path是接收程序的路徑和文件名
var http = require('http');
var data = {
str: encodeURIComponent(str),
url: encodeURIComponent(url)
};
content = require('querystring').stringify(data);
var options = {
method: "POST",
host: "www.xxx.com",//注意沒(méi)有http://,這是服務(wù)器的域名。
port: 80,
path: path,//接收程序的路徑和文件名
headers: {
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
"Content-Length": content.length
}
};
var req = http.request(options, function (res) {
res.setEncoding('utf8');
res.on('data', function (chunk) {
console.log('BODY: ' + chunk);
});
});
req.on('error', function (e) {
console.log('problem with request: ' + e.message);
});
req.write(content);
req.end();
}
以上是規則修改的主要部分。您需要將json內容發(fā)送到您自己的服務(wù)器,并從服務(wù)器獲取到下一頁(yè)的跳轉地址。這涉及到四個(gè)php文件:getMsgJson.php、getMsgExt.php、getWxHis.php、getWxPost.php
在詳細介紹這4個(gè)php文件之前,為了提高采集系統性能,降低崩潰率,我們還可以做一些修改:
Android模擬器經(jīng)常訪(fǎng)問(wèn)一些地址,會(huì )導致anyproxy崩潰,找到函數replaceRequestOption:function(req,option),修改函數內容:
replaceRequestOption : function(req,option){
var newOption = option;
if(/google/i.test(newOption.headers.host)){
newOption.hostname = "www.baidu.com";
newOption.port = "80";
}
return newOption;
},
以上是anyproxy的規則文件的修改配置。配置修改完成后,重啟anyproxy。在mac系統下,按control+c中斷程序,然后輸入命令sudo anyproxy -i啟動(dòng);如果報錯,程序可能無(wú)法干凈退出,端口被占用。這時(shí)候輸入命令ps -a查看占用的pid,然后輸入命令“kill -9 pid”將pid替換為查詢(xún)到的pid號。殺掉進(jìn)程后,就可以啟動(dòng)anyproxy了。再次請原諒我不熟悉windows命令。
接下來(lái)詳細介紹服務(wù)器端接收程序的設計原理:
?。ㄒ韵麓a不能直接使用,只介紹原理,部分需要根據自己的服務(wù)器數據庫框架編寫(xiě))
1、getMsgJson.php:該程序負責接收歷史消息的json,解析并存入數據庫
<p> 查看全部
一個(gè)微信公眾號歷史消息頁(yè)面的鏈接地址和采集方法
2014年開(kāi)始做微信公眾號內容的批量采集,最初的目的是為了制作一個(gè)html5垃圾郵件網(wǎng)站。當時(shí),垃圾站采集到達的微信公眾號內容很容易在公眾號傳播。當時(shí)批量采集特別好做,采集入口就是公眾號的歷史新聞頁(yè)面。這個(gè)條目現在是一樣的,但越來(lái)越難采集。 采集 方法也在很多版本中進(jìn)行了更新。后來(lái)到了2015年,html5垃圾站就不做了。而是將采集目標定位在本地新聞資訊公眾號,前端展示被做成了一個(gè)app。于是一個(gè)可以自動(dòng)采集公號內容的新聞APP就形成了。曾經(jīng)擔心微信技術(shù)升級一天后采集內容不可用,我的新聞應用程序失敗。但是隨著(zhù)微信的不斷技術(shù)升級,采集方式也得到了升級,這讓我越來(lái)越有信心。只要公眾號歷史消息頁(yè)面存在,就可以批量采集內容。所以今天整理了一下,決定把采集方法寫(xiě)下來(lái)。我的方法來(lái)自于很多同事的分享精神,所以我會(huì )延續這種精神,分享我的成果。
本文文章會(huì )持續更新,保證您看到的內容在您看到時(shí)可用。
首先我們來(lái)看一個(gè)微信公眾號歷史消息頁(yè)面的鏈接地址:
http://mp.weixin.qq.com/mp/get ... irect
========2017 年 1 月 11 日更新==========
現在根據不同的微信個(gè)人賬號,會(huì )有兩個(gè)不同的歷史消息頁(yè)面地址。下面是另一個(gè)歷史消息頁(yè)面的地址。第一種地址的鏈接在anyproxy中會(huì )顯示302跳轉:
https://mp.weixin.qq.com/mp/pr ... irect
第一個(gè)鏈接地址的頁(yè)面樣式:

第二個(gè)鏈接地址的頁(yè)面樣式:

根據目前的信息,這兩種頁(yè)面格式在不同的微信賬號中出現不規則。有的微信賬號永遠是第一頁(yè)格式,有的永遠是第二頁(yè)格式。
上面的鏈接是微信公眾號歷史新聞頁(yè)面的真實(shí)鏈接,但是當我們在瀏覽器中輸入這個(gè)鏈接時(shí),會(huì )顯示:請從微信客戶(hù)端訪(fǎng)問(wèn)。這是因為鏈接地址實(shí)際上需要幾個(gè)參數才能正常顯示內容。我們來(lái)看看一個(gè)可以正常顯示內容的完整鏈接是什么樣子的:
//第一種鏈接
http://mp.weixin.qq.com/mp/get ... r%3D1
//第二種
http://mp.weixin.qq.com/mp/pro ... r%3D1
該地址是通過(guò)微信客戶(hù)端打開(kāi)歷史消息頁(yè)面后,使用后面介紹的代理服務(wù)器軟件獲取的。這里有幾個(gè)參數:
action=;__biz=;uin=;key=;devicetype=;version=;lang=;nettype=;scene=;pass_ticket=;wx_header=;
重要的參數是:__biz;uin=;key=;pass_ticket=;這4個(gè)參數。
__biz 是公眾號的類(lèi)似id的參數。每個(gè)公眾號都有一個(gè)微信。目前公眾號的biz變動(dòng)的可能性很??;
剩下的3個(gè)參數與用戶(hù)id和tokenticket的含義有關(guān)。這3個(gè)參數的值在微信客戶(hù)端生成后會(huì )自動(dòng)添加到地址欄。所以我們認為采集公眾號必須通過(guò)微信客戶(hù)端。在之前的微信版本中,這3個(gè)參數也可以一次性獲取,在有效期內可以使用多個(gè)公眾號。在當前版本中,每次訪(fǎng)問(wèn)公眾號都會(huì )更改參數值。
我現在使用的方法只需要關(guān)注__biz參數即可。
我的采集系統由以下部分組成:
1、A 微信客戶(hù)端:可以是安裝了微信應用的手機,也可以是電腦中的安卓模擬器。批量采集測試的ios微信客戶(hù)端崩潰率高于A(yíng)ndroid系統。為了降低成本,我使用了Android模擬器。

2、A微信個(gè)人賬號:采集內容不僅需要微信客戶(hù)端,還需要采集專(zhuān)用的微信個(gè)人賬號,因為這個(gè)微信賬號不能做其他事情。
3、本地代理服務(wù)器系統:目前使用的方法是通過(guò)Anyproxy代理服務(wù)器將公眾號歷史消息頁(yè)面中的文章列表發(fā)送到自己的服務(wù)器。具體安裝方法后面會(huì )詳細介紹。
4、文章List分析入庫系統:本人使用PHP語(yǔ)言編寫(xiě),下篇文章將詳細介紹如何分析文章lists并創(chuàng )建采集queues實(shí)現批量采集內容.
步驟
一、 安裝模擬器或使用手機安裝微信客戶(hù)端APP,申請微信個(gè)人賬號并登錄APP。這個(gè)就不多介紹了,大家自己做。
二、代理服務(wù)器系統安裝
目前我使用 Anyproxy、AnyProxy。這個(gè)軟件的特點(diǎn)是可以獲取https鏈接的內容。 2016年初,微信公眾號和微信文章開(kāi)始使用https鏈接。而Anyproxy可以通過(guò)修改規則配置,在公眾號頁(yè)面插入腳本代碼。下面將介紹安裝和配置過(guò)程。
1、Install NodeJS
2、在命令行或終端運行npm install -g anyproxy,mac系統需要添加sudo;
3、生成RootCA,https需要這個(gè)證書(shū):運行命令sudo anyproxy --root(windows可能不需要sudo);
4、 啟動(dòng) anyproxy 運行命令:sudo anyproxy -i;參數-i表示解析HTTPS;
5、安裝證書(shū),在手機或者安卓模擬器安裝證書(shū):
6、Set proxy:安卓模擬器的代理服務(wù)器地址是wifi鏈接的網(wǎng)關(guān)。通過(guò)dhcp設置為靜態(tài)后就可以看到網(wǎng)關(guān)地址了。閱讀后不要忘記將其設置為自動(dòng)。手機中的代理服務(wù)器地址就是運行anyproxy的電腦的ip地址。代理服務(wù)器默認端口為8001;

現在打開(kāi)微信,點(diǎn)擊任意公眾號歷史消息或者文章,可以看到在終端滾動(dòng)的響應碼。如果沒(méi)有出現,請檢查手機的代理設置是否正確。

現在打開(kāi)瀏覽器地址localhost:8002就可以看到anyproxy的web界面了。微信點(diǎn)擊打開(kāi)一個(gè)歷史消息頁(yè)面,然后在瀏覽器的web界面查看,歷史消息頁(yè)面的地址會(huì )滾動(dòng)。

/mp/getmasssendmsg開(kāi)頭的網(wǎng)址是微信歷史消息頁(yè)面。左邊的小鎖表示這個(gè)頁(yè)面是 https 加密的?,F在我們點(diǎn)擊這一行;
========2017 年 1 月 11 日更新==========
一些以/mp/getmasssendmsg開(kāi)頭的微信網(wǎng)址會(huì )出現302跳轉到以/mp/profile_ext?action=home開(kāi)頭的地址。所以點(diǎn)擊這個(gè)地址可以看到內容。

如果右側出現html文件內容,則表示解密成功。如果沒(méi)有內容,請檢查anyproxy運行方式是否有參數i,是否生成CA證書(shū),是否在手機上正確安裝了證書(shū)。
現在我們手機中的所有內容都可以明文通過(guò)代理服務(wù)器了。接下來(lái),我們需要修改代理服務(wù)器的配置,以便獲取公眾號的內容。
一、找到配置文件:
mac系統中配置文件的位置是/usr/local/lib/node_modules/anyproxy/lib/;對于windows系統,不知道還請見(jiàn)諒。應該可以根據類(lèi)似mac的文件夾地址找到這個(gè)目錄。
二、修改文件 rule_default.js
找到 replaceServerResDataAsync: function(req,res,serverResData,callback) 函數
修改函數內容(請注意詳細閱讀注釋?zhuān)@里只是介紹原理,了解后根據自己的情況修改內容):
========2017 年 1 月 11 日更新==========
因為有兩種頁(yè)面格式,相同的頁(yè)面格式總是在不同的微信賬號中顯示,但是為了兼容兩種頁(yè)面格式,下面的代碼會(huì )保留兩種頁(yè)面格式的判斷。您也可以按照從您自己的頁(yè)面表單中刪除 li
replaceServerResDataAsync: function(req,res,serverResData,callback){
if(/mp\/getmasssendmsg/i.test(req.url)){//當鏈接地址為公眾號歷史消息頁(yè)面時(shí)(第一種頁(yè)面形式)
if(serverResData.toString() !== ""){
try {//防止報錯退出程序
var reg = /msgList = (.*?);/;//定義歷史消息正則匹配規則
var ret = reg.exec(serverResData.toString());//轉換變量為string
HttpPost(ret[1],req.url,"getMsgJson.php");//這個(gè)函數是后文定義的,將匹配到的歷史消息json發(fā)送到自己的服務(wù)器
var http = require('http');
http.get('http://xxx.com/getWxHis.php', function(res) {//這個(gè)地址是自己服務(wù)器上的一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxHis.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);//將返回的代碼插入到歷史消息頁(yè)面中,并返回顯示出來(lái)
})
});
}catch(e){//如果上面的正則沒(méi)有匹配到,那么這個(gè)頁(yè)面內容可能是公眾號歷史消息頁(yè)面向下翻動(dòng)的第二頁(yè),因為歷史消息第一頁(yè)是html格式的,第二頁(yè)就是json格式的。
try {
var json = JSON.parse(serverResData.toString());
if (json.general_msg_list != []) {
HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//這個(gè)函數和上面的一樣是后文定義的,將第二頁(yè)歷史消息的json發(fā)送到自己的服務(wù)器
}
}catch(e){
console.log(e);//錯誤捕捉
}
callback(serverResData);//直接返回第二頁(yè)json內容
}
}
}else if(/mp\/profile_ext\?action=home/i.test(req.url)){//當鏈接地址為公眾號歷史消息頁(yè)面時(shí)(第二種頁(yè)面形式)
try {
var reg = /var msgList = \'(.*?)\';/;//定義歷史消息正則匹配規則(和第一種頁(yè)面形式的正則不同)
var ret = reg.exec(serverResData.toString());//轉換變量為string
HttpPost(ret[1],req.url,"getMsgJson.php");//這個(gè)函數是后文定義的,將匹配到的歷史消息json發(fā)送到自己的服務(wù)器
var http = require('http');
http.get('http://xxx.com/getWxHis', function(res) {//這個(gè)地址是自己服務(wù)器上的一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxHis.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);//將返回的代碼插入到歷史消息頁(yè)面中,并返回顯示出來(lái)
})
});
}catch(e){
callback(serverResData);
}
}else if(/mp\/profile_ext\?action=getmsg/i.test(req.url)){//第二種頁(yè)面表現形式的向下翻頁(yè)后的json
try {
var json = JSON.parse(serverResData.toString());
if (json.general_msg_list != []) {
HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//這個(gè)函數和上面的一樣是后文定義的,將第二頁(yè)歷史消息的json發(fā)送到自己的服務(wù)器
}
}catch(e){
console.log(e);
}
callback(serverResData);
}else if(/mp\/getappmsgext/i.test(req.url)){//當鏈接地址為公眾號文章閱讀量和點(diǎn)贊量時(shí)
try {
HttpPost(serverResData,req.url,"getMsgExt.php");//函數是后文定義的,功能是將文章閱讀量點(diǎn)贊量的json發(fā)送到服務(wù)器
}catch(e){
}
callback(serverResData);
}else if(/s\?__biz/i.test(req.url) || /mp\/rumor/i.test(req.url)){//當鏈接地址為公眾號文章時(shí)(rumor這個(gè)地址是公眾號文章被辟謠了)
try {
var http = require('http');
http.get('http://xxx.com/getWxPost.php', function(res) {//這個(gè)地址是自己服務(wù)器上的另一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxPost.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);
})
});
}catch(e){
callback(serverResData);
}
}else{
callback(serverResData);
}
},
以上代碼是使用anyproxy修改返回頁(yè)面內容、向頁(yè)面注入腳本、將頁(yè)面內容發(fā)送到服務(wù)器的功能。利用這個(gè)原理批量處理采集公眾號內容和閱讀量。該腳本中自定義了一個(gè)函數,詳細說(shuō)明如下:
在 rule_default.js 文件末尾添加以下代碼:
function HttpPost(str,url,path) {//將json發(fā)送到服務(wù)器,str為json內容,url為歷史消息頁(yè)面地址,path是接收程序的路徑和文件名
var http = require('http');
var data = {
str: encodeURIComponent(str),
url: encodeURIComponent(url)
};
content = require('querystring').stringify(data);
var options = {
method: "POST",
host: "www.xxx.com",//注意沒(méi)有http://,這是服務(wù)器的域名。
port: 80,
path: path,//接收程序的路徑和文件名
headers: {
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
"Content-Length": content.length
}
};
var req = http.request(options, function (res) {
res.setEncoding('utf8');
res.on('data', function (chunk) {
console.log('BODY: ' + chunk);
});
});
req.on('error', function (e) {
console.log('problem with request: ' + e.message);
});
req.write(content);
req.end();
}
以上是規則修改的主要部分。您需要將json內容發(fā)送到您自己的服務(wù)器,并從服務(wù)器獲取到下一頁(yè)的跳轉地址。這涉及到四個(gè)php文件:getMsgJson.php、getMsgExt.php、getWxHis.php、getWxPost.php
在詳細介紹這4個(gè)php文件之前,為了提高采集系統性能,降低崩潰率,我們還可以做一些修改:
Android模擬器經(jīng)常訪(fǎng)問(wèn)一些地址,會(huì )導致anyproxy崩潰,找到函數replaceRequestOption:function(req,option),修改函數內容:
replaceRequestOption : function(req,option){
var newOption = option;
if(/google/i.test(newOption.headers.host)){
newOption.hostname = "www.baidu.com";
newOption.port = "80";
}
return newOption;
},
以上是anyproxy的規則文件的修改配置。配置修改完成后,重啟anyproxy。在mac系統下,按control+c中斷程序,然后輸入命令sudo anyproxy -i啟動(dòng);如果報錯,程序可能無(wú)法干凈退出,端口被占用。這時(shí)候輸入命令ps -a查看占用的pid,然后輸入命令“kill -9 pid”將pid替換為查詢(xún)到的pid號。殺掉進(jìn)程后,就可以啟動(dòng)anyproxy了。再次請原諒我不熟悉windows命令。
接下來(lái)詳細介紹服務(wù)器端接收程序的設計原理:
?。ㄒ韵麓a不能直接使用,只介紹原理,部分需要根據自己的服務(wù)器數據庫框架編寫(xiě))
1、getMsgJson.php:該程序負責接收歷史消息的json,解析并存入數據庫
<p>
java實(shí)現性能優(yōu)化常用的java代碼片段分享(一)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 80 次瀏覽 ? 2021-08-05 19:01
文章采集鏈接:java實(shí)現性能優(yōu)化常用的java代碼片段分享一些企業(yè)里經(jīng)常采用的性能優(yōu)化代碼片段,實(shí)際開(kāi)發(fā)中是非常有必要去規范。前段時(shí)間看到一篇不錯的關(guān)于設計模式的文章,其中一個(gè)核心就是注意常量。這些常量我們是無(wú)法真正接觸到的,所以很多細節是不必要去注意的。但是,注意這些東西有利于我們學(xué)習企業(yè)級的開(kāi)發(fā)。
企業(yè)級開(kāi)發(fā)一般都是比較簡(jiǎn)單,模塊化的,你沒(méi)辦法隨時(shí)隨地調整所有的模塊和功能。所以,我在這里給大家整理了一些經(jīng)常出現在開(kāi)發(fā)中的性能優(yōu)化細節。上一篇主要講的是spring的回調池,這一篇將會(huì )探討線(xiàn)程池問(wèn)題。主要采取線(xiàn)程池的目的是提高代碼的效率,尤其是在長(cháng)期的離線(xiàn)開(kāi)發(fā)中,提高代碼的效率和可讀性也是比較有必要的。
常量計數器常量是非常常見(jiàn)的一種類(lèi)型,計數器被保存在內存中,但是每次從內存中提取某個(gè)值的時(shí)候,是有規律的,并且規律性的和提取的數量一定要是相同的。通常來(lái)說(shuō),會(huì )使用同步的方式去實(shí)現這一點(diǎn)。但是這并不是絕對的,我們可以嘗試避免同步去實(shí)現,但是并不保證百分百的避免了同步問(wèn)題。作為調度器,我們是可以控制提取數量的時(shí)候盡量的好,但是要是有大量的值是提取到同一個(gè)線(xiàn)程內。
對于一般的情況,其實(shí)不影響性能。不影響性能的情況下,我們就用不同的線(xiàn)程池去處理這一問(wèn)題。不同線(xiàn)程池處理不同數量的值的效率是比較高的。當然,如果我們要實(shí)現高效的線(xiàn)程池,我們可以設置特定的隔離度。但是,這就可能提高了性能,同時(shí)還犧牲了其他功能。我的建議是,我們盡量不要使用同步,盡量用共享的對象和變量來(lái)替換回調池中的回調方法。
在java中,需要不同線(xiàn)程池處理的值是不一樣的,共享變量也是相同的。不同線(xiàn)程池提取同一個(gè)值的方式一樣,如果我們對這個(gè)值進(jìn)行了重寫(xiě),會(huì )降低很多性能。我建議使用java內置的threadlocal來(lái)進(jìn)行存儲,如果沒(méi)有特定的線(xiàn)程池,我們可以使用使用randominitialrange的值。atomicinteger的atomiclynovation機制將會(huì )替換這一數值。
線(xiàn)程池問(wèn)題線(xiàn)程池由于是內置的,我們將無(wú)法通過(guò)我們的方式去修改線(xiàn)程池的性能。于是我們會(huì )采用java標準庫中的threadpoolexecutor或者java的runnable代替內置的threadpoolexecutor。每個(gè)線(xiàn)程池都會(huì )進(jìn)行一些優(yōu)化,在這里,我們主要談?wù)剝戎玫膖hreadpoolexecutor和java內置的runnable。
內置的threadpoolexecutor在執行的時(shí)候,由于他是java提供的,會(huì )直接調用java的類(lèi)去執行,但是java提供的類(lèi)去執行的時(shí)候,會(huì )使用內置的線(xiàn)程池,這意味著(zhù)我們必須也去加入優(yōu)化。這個(gè)問(wèn)題需要用同步實(shí)現的線(xiàn)程池,我。 查看全部
java實(shí)現性能優(yōu)化常用的java代碼片段分享(一)
文章采集鏈接:java實(shí)現性能優(yōu)化常用的java代碼片段分享一些企業(yè)里經(jīng)常采用的性能優(yōu)化代碼片段,實(shí)際開(kāi)發(fā)中是非常有必要去規范。前段時(shí)間看到一篇不錯的關(guān)于設計模式的文章,其中一個(gè)核心就是注意常量。這些常量我們是無(wú)法真正接觸到的,所以很多細節是不必要去注意的。但是,注意這些東西有利于我們學(xué)習企業(yè)級的開(kāi)發(fā)。
企業(yè)級開(kāi)發(fā)一般都是比較簡(jiǎn)單,模塊化的,你沒(méi)辦法隨時(shí)隨地調整所有的模塊和功能。所以,我在這里給大家整理了一些經(jīng)常出現在開(kāi)發(fā)中的性能優(yōu)化細節。上一篇主要講的是spring的回調池,這一篇將會(huì )探討線(xiàn)程池問(wèn)題。主要采取線(xiàn)程池的目的是提高代碼的效率,尤其是在長(cháng)期的離線(xiàn)開(kāi)發(fā)中,提高代碼的效率和可讀性也是比較有必要的。
常量計數器常量是非常常見(jiàn)的一種類(lèi)型,計數器被保存在內存中,但是每次從內存中提取某個(gè)值的時(shí)候,是有規律的,并且規律性的和提取的數量一定要是相同的。通常來(lái)說(shuō),會(huì )使用同步的方式去實(shí)現這一點(diǎn)。但是這并不是絕對的,我們可以嘗試避免同步去實(shí)現,但是并不保證百分百的避免了同步問(wèn)題。作為調度器,我們是可以控制提取數量的時(shí)候盡量的好,但是要是有大量的值是提取到同一個(gè)線(xiàn)程內。
對于一般的情況,其實(shí)不影響性能。不影響性能的情況下,我們就用不同的線(xiàn)程池去處理這一問(wèn)題。不同線(xiàn)程池處理不同數量的值的效率是比較高的。當然,如果我們要實(shí)現高效的線(xiàn)程池,我們可以設置特定的隔離度。但是,這就可能提高了性能,同時(shí)還犧牲了其他功能。我的建議是,我們盡量不要使用同步,盡量用共享的對象和變量來(lái)替換回調池中的回調方法。
在java中,需要不同線(xiàn)程池處理的值是不一樣的,共享變量也是相同的。不同線(xiàn)程池提取同一個(gè)值的方式一樣,如果我們對這個(gè)值進(jìn)行了重寫(xiě),會(huì )降低很多性能。我建議使用java內置的threadlocal來(lái)進(jìn)行存儲,如果沒(méi)有特定的線(xiàn)程池,我們可以使用使用randominitialrange的值。atomicinteger的atomiclynovation機制將會(huì )替換這一數值。
線(xiàn)程池問(wèn)題線(xiàn)程池由于是內置的,我們將無(wú)法通過(guò)我們的方式去修改線(xiàn)程池的性能。于是我們會(huì )采用java標準庫中的threadpoolexecutor或者java的runnable代替內置的threadpoolexecutor。每個(gè)線(xiàn)程池都會(huì )進(jìn)行一些優(yōu)化,在這里,我們主要談?wù)剝戎玫膖hreadpoolexecutor和java內置的runnable。
內置的threadpoolexecutor在執行的時(shí)候,由于他是java提供的,會(huì )直接調用java的類(lèi)去執行,但是java提供的類(lèi)去執行的時(shí)候,會(huì )使用內置的線(xiàn)程池,這意味著(zhù)我們必須也去加入優(yōu)化。這個(gè)問(wèn)題需要用同步實(shí)現的線(xiàn)程池,我。
安卓模擬器+Anyproxy代理抓包分析微信客戶(hù)端解決方案
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 141 次瀏覽 ? 2021-08-01 01:43
安卓模擬器+Anyproxy代理抓包分析微信客戶(hù)端解決方案
一、先說(shuō)整體方案
1、使用搜狗公眾號文章的采集,這樣得到的文章URL是一個(gè)帶有時(shí)間戳的臨時(shí)鏈接。
2、通過(guò)Android模擬器+Anyproxy代理,在微信客戶(hù)端打開(kāi)臨時(shí)鏈接時(shí),捕獲分析微信客戶(hù)端及其服務(wù)器請求的協(xié)議內容,獲取永久鏈接。
3、通過(guò)按鈕向導模擬或Python腳本發(fā)送微信賬號上的臨時(shí)鏈接內容。只有在安卓模擬器的微信賬號上發(fā)送內容時(shí),Anyproxy代理才能抓取到相關(guān)的包內容。
二、說(shuō)說(shuō)具體的解決方法,主要是第二點(diǎn)
1、使用搜狗公眾號文章的采集,這樣得到的文章URL是一個(gè)帶有時(shí)間戳的臨時(shí)鏈接。將此作為數據采集時(shí),經(jīng)常會(huì )出現“請輸入驗證碼”。我嘗試使用IP代理池,但我還沒(méi)有找到可以避免或解決此問(wèn)題的IP代理服務(wù)器。我的處理方式是使用動(dòng)態(tài)IP VPS服務(wù)來(lái)解決。具體步驟我就不細說(shuō)了,因為這不是文章的重點(diǎn)。
2、使用Android模擬器+Anyproxy代理,在微信客戶(hù)端打開(kāi)臨時(shí)鏈接時(shí),對微信客戶(hù)端及其服務(wù)端請求的協(xié)議內容進(jìn)行抓取分析,獲取永久鏈接。我用的是win10系統。
1)微信客戶(hù)端:下載安卓模擬器,并在模擬器上安裝微信應用。
2)A微信個(gè)人賬號:采集內容不僅需要微信客戶(hù)端,還需要一個(gè)專(zhuān)門(mén)發(fā)送臨時(shí)鏈接的微信個(gè)人賬號。
3)Local 代理服務(wù)器系統:采用的方法是通過(guò)Anyproxy代理服務(wù)器將臨時(shí)鏈接和永久鏈接發(fā)送到我們自己的服務(wù)器進(jìn)行替換。具體安裝方法后面會(huì )詳細介紹。
我使用 Anyproxy。這個(gè)軟件的特點(diǎn)是可以獲取https鏈接的內容。 2016年初,微信公眾號和微信文章開(kāi)始使用https鏈接。而 Anyproxy 可以通過(guò)修改規則向服務(wù)器發(fā)送請求。下面將介紹安裝和配置過(guò)程。
1、Install NodeJS
2、在命令行或終端運行 npm install -g anyproxy
3、生成RootCA,https需要這個(gè)證書(shū):運行命令anyproxy --root
4、啟動(dòng)anyproxy運行命令:打開(kāi)win+R,輸入anyproxy -i;參數-i表示解析HTTPS;
5、安裝證書(shū),在安卓模擬器中安裝證書(shū):?jiǎn)?dòng)anyproxy,打開(kāi)瀏覽器:8002/fetchCrtFile,即可得到rootCA.crt文件
6、Set proxy:安卓模擬器的代理服務(wù)器地址是wifi鏈接的網(wǎng)關(guān)。您可以通過(guò)將 dhcp 設置為靜態(tài)來(lái)查看網(wǎng)關(guān)地址。閱讀后不要忘記將其設置為自動(dòng)。代理服務(wù)器的默認端口為 8001。
如何查看是否成功:在模擬器上打開(kāi)微信,點(diǎn)擊任意文章,在終端可以看到滾動(dòng)的響應碼。如果沒(méi)有出現,請檢查手機的代理設置是否正確。下面我的截圖是打開(kāi)瀏覽器地址:8002查看anyproxy的web界面。
我在微信端打開(kāi)了文章的臨時(shí)鏈接。通過(guò)協(xié)議分析,我們可以知道永久鏈接被重定向到了302的位置。
4)修改Anyproxy文件rule_default.js,獲取抓包中的協(xié)議內容。
rule_default.js文件在*\node_modules\anyproxy\lib\rule_default.js,找到replaceServerResDataAsync:function(req,res,serverResData,callback)函數,修改函數內容,劫持需要的內容因為我只需要劫持返回的code內容為302,所以只在statusCode==302時(shí)回調。
找到replaceResponseHeader:function(req,res,header)函數,修改函數內容。獲取永久鏈接,調用我在服務(wù)器上寫(xiě)的http接口。我的界面只有兩個(gè)參數:臨時(shí)鏈接和永久鏈接。在臨時(shí)鏈接的基礎上添加永久鏈接。
好了,到此,使用Anyproxy將臨時(shí)鏈接轉換為永久鏈接的功能介紹完畢。
PS:使用Anyproxy直接獲取微信公眾號的所有文章(永久鏈接),包括點(diǎn)贊數、閱讀數等信息。在這種情況下,您不需要使用搜狗。但是這里會(huì )有一些問(wèn)題。微信這樣做會(huì )屏蔽你的微信個(gè)人賬號,所以我用搜狗爬山文章(急),然后在臨時(shí)鏈接的有效期內用Anyproxy更新為永久鏈接。
3、 使用按鈕精靈模擬點(diǎn)擊微信APP上的臨時(shí)鏈接,也可以通過(guò)python腳本模擬。我正在寫(xiě)這篇文章,完成后我會(huì )更新它。 查看全部
安卓模擬器+Anyproxy代理抓包分析微信客戶(hù)端解決方案
一、先說(shuō)整體方案
1、使用搜狗公眾號文章的采集,這樣得到的文章URL是一個(gè)帶有時(shí)間戳的臨時(shí)鏈接。
2、通過(guò)Android模擬器+Anyproxy代理,在微信客戶(hù)端打開(kāi)臨時(shí)鏈接時(shí),捕獲分析微信客戶(hù)端及其服務(wù)器請求的協(xié)議內容,獲取永久鏈接。
3、通過(guò)按鈕向導模擬或Python腳本發(fā)送微信賬號上的臨時(shí)鏈接內容。只有在安卓模擬器的微信賬號上發(fā)送內容時(shí),Anyproxy代理才能抓取到相關(guān)的包內容。
二、說(shuō)說(shuō)具體的解決方法,主要是第二點(diǎn)
1、使用搜狗公眾號文章的采集,這樣得到的文章URL是一個(gè)帶有時(shí)間戳的臨時(shí)鏈接。將此作為數據采集時(shí),經(jīng)常會(huì )出現“請輸入驗證碼”。我嘗試使用IP代理池,但我還沒(méi)有找到可以避免或解決此問(wèn)題的IP代理服務(wù)器。我的處理方式是使用動(dòng)態(tài)IP VPS服務(wù)來(lái)解決。具體步驟我就不細說(shuō)了,因為這不是文章的重點(diǎn)。
2、使用Android模擬器+Anyproxy代理,在微信客戶(hù)端打開(kāi)臨時(shí)鏈接時(shí),對微信客戶(hù)端及其服務(wù)端請求的協(xié)議內容進(jìn)行抓取分析,獲取永久鏈接。我用的是win10系統。
1)微信客戶(hù)端:下載安卓模擬器,并在模擬器上安裝微信應用。
2)A微信個(gè)人賬號:采集內容不僅需要微信客戶(hù)端,還需要一個(gè)專(zhuān)門(mén)發(fā)送臨時(shí)鏈接的微信個(gè)人賬號。
3)Local 代理服務(wù)器系統:采用的方法是通過(guò)Anyproxy代理服務(wù)器將臨時(shí)鏈接和永久鏈接發(fā)送到我們自己的服務(wù)器進(jìn)行替換。具體安裝方法后面會(huì )詳細介紹。
我使用 Anyproxy。這個(gè)軟件的特點(diǎn)是可以獲取https鏈接的內容。 2016年初,微信公眾號和微信文章開(kāi)始使用https鏈接。而 Anyproxy 可以通過(guò)修改規則向服務(wù)器發(fā)送請求。下面將介紹安裝和配置過(guò)程。
1、Install NodeJS
2、在命令行或終端運行 npm install -g anyproxy
3、生成RootCA,https需要這個(gè)證書(shū):運行命令anyproxy --root
4、啟動(dòng)anyproxy運行命令:打開(kāi)win+R,輸入anyproxy -i;參數-i表示解析HTTPS;
5、安裝證書(shū),在安卓模擬器中安裝證書(shū):?jiǎn)?dòng)anyproxy,打開(kāi)瀏覽器:8002/fetchCrtFile,即可得到rootCA.crt文件
6、Set proxy:安卓模擬器的代理服務(wù)器地址是wifi鏈接的網(wǎng)關(guān)。您可以通過(guò)將 dhcp 設置為靜態(tài)來(lái)查看網(wǎng)關(guān)地址。閱讀后不要忘記將其設置為自動(dòng)。代理服務(wù)器的默認端口為 8001。
如何查看是否成功:在模擬器上打開(kāi)微信,點(diǎn)擊任意文章,在終端可以看到滾動(dòng)的響應碼。如果沒(méi)有出現,請檢查手機的代理設置是否正確。下面我的截圖是打開(kāi)瀏覽器地址:8002查看anyproxy的web界面。
我在微信端打開(kāi)了文章的臨時(shí)鏈接。通過(guò)協(xié)議分析,我們可以知道永久鏈接被重定向到了302的位置。
4)修改Anyproxy文件rule_default.js,獲取抓包中的協(xié)議內容。
rule_default.js文件在*\node_modules\anyproxy\lib\rule_default.js,找到replaceServerResDataAsync:function(req,res,serverResData,callback)函數,修改函數內容,劫持需要的內容因為我只需要劫持返回的code內容為302,所以只在statusCode==302時(shí)回調。
找到replaceResponseHeader:function(req,res,header)函數,修改函數內容。獲取永久鏈接,調用我在服務(wù)器上寫(xiě)的http接口。我的界面只有兩個(gè)參數:臨時(shí)鏈接和永久鏈接。在臨時(shí)鏈接的基礎上添加永久鏈接。
好了,到此,使用Anyproxy將臨時(shí)鏈接轉換為永久鏈接的功能介紹完畢。
PS:使用Anyproxy直接獲取微信公眾號的所有文章(永久鏈接),包括點(diǎn)贊數、閱讀數等信息。在這種情況下,您不需要使用搜狗。但是這里會(huì )有一些問(wèn)題。微信這樣做會(huì )屏蔽你的微信個(gè)人賬號,所以我用搜狗爬山文章(急),然后在臨時(shí)鏈接的有效期內用Anyproxy更新為永久鏈接。
3、 使用按鈕精靈模擬點(diǎn)擊微信APP上的臨時(shí)鏈接,也可以通過(guò)python腳本模擬。我正在寫(xiě)這篇文章,完成后我會(huì )更新它。
爬取網(wǎng)址為一級采集-以京東商品爬蟲(chóng)為例
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 224 次瀏覽 ? 2021-07-29 06:00
第二層采集content:每個(gè)產(chǎn)品的標題、優(yōu)惠券信息
第一步:定義一級任務(wù)
定義任務(wù)的基本操作,例如內容標注。樣例拷貝請參考教程“采集List Data”。翻頁(yè)操作請參考“翻頁(yè)采集List”。這里只講解采集關(guān)卡的關(guān)鍵步驟。
加載之前教程中采集京東List的任務(wù)(京東商品列表采集new)。如果你的工作臺沒(méi)有退出這個(gè)任務(wù),直接做就可以了,不需要額外加載。
第 2 步:設置下級線(xiàn)索
2.1,找到下層(URL)鏈接
網(wǎng)頁(yè)上商品的鏈接通常存儲在DOM中A節點(diǎn)下的@href屬性節點(diǎn)中。
在網(wǎng)頁(yè)上點(diǎn)擊產(chǎn)品的產(chǎn)品名稱(chēng),觀(guān)察下面的DOM窗口。光標位于節點(diǎn)上。如果不是A節點(diǎn),則按照DOM節點(diǎn)向上或向下查找A節點(diǎn)。
點(diǎn)擊A節點(diǎn),觀(guān)察DOM窗口左側的view元素小窗口,找到@href,注意查看其值是否為對應的商品鏈接。
右鍵單擊@href 并選擇“內容映射”->“新建”。這樣@href(產(chǎn)品鏈接)的值就映射到了一個(gè)新的爬取內容。
彈出一個(gè)新窗口,要求為所爬取的內容提供一個(gè)字段名稱(chēng),在本例中為名稱(chēng)“產(chǎn)品詳細信息鏈接”。
2.2,給下級任務(wù)命名
在上面的窗口繼續操作,因為我們觀(guān)察到@href中的商品鏈接缺少前面的“http”部分,這是一個(gè)相對網(wǎng)址,可以勾選“Complete URL”,爬蟲(chóng)采集會(huì )在過(guò)程中自動(dòng)完成。
最重要的一步是檢查“從屬網(wǎng)址”。勾選后,下方會(huì )出現一個(gè)提示框,要求輸入目標任務(wù)的名稱(chēng)。分層抓圖時(shí),這里必須輸入二級任務(wù)的名稱(chēng)。
輸入二級任務(wù)名稱(chēng):京東商品詳情采集new
2.3,現在可以看到左邊的workbench中增加了一條爬取內容:商品詳情鏈接,測試一下是否被抓到。如果沒(méi)有問(wèn)題,保存任務(wù)。
第三步:定義二級任務(wù)
3.1,退出一級任務(wù)
如下圖所示,點(diǎn)擊右上角的“三點(diǎn)”操作按鈕,出現下拉菜單。選擇“退出”后,瀏覽器進(jìn)入正常瀏覽模式。這時(shí),您可以點(diǎn)擊頁(yè)面上的產(chǎn)品。進(jìn)入商品詳情頁(yè)面。
3.2,定義二級任務(wù)
現在您在產(chǎn)品詳情頁(yè)面,點(diǎn)擊左欄中的“+”號進(jìn)入任務(wù)定義狀態(tài),開(kāi)始定義二級任務(wù)。
任務(wù)名稱(chēng)輸入框需要填寫(xiě)二級任務(wù)名稱(chēng)。本例中,一級任務(wù)中已經(jīng)指定二級任務(wù)名稱(chēng):京東商品詳情采集new,那么這里必須填寫(xiě) 必須一致,否則網(wǎng)絡(luò )爬蟲(chóng)連兩級任務(wù)。
接下來(lái),在產(chǎn)品詳細信息頁(yè)面上標記所需的信息。注解的操作類(lèi)似,可以參考“采集網(wǎng)站數據”教程,這里不再贅述。
提醒:這一步最重要的是我們新創(chuàng )建的二級任務(wù)的名稱(chēng)必須和一級任務(wù)指定的目標任務(wù)名稱(chēng)一致,這樣一級任務(wù)才能通過(guò)捕獲的指向一級任務(wù)的 URL 鏈接。次要任務(wù)。
3.3,保存二級任務(wù)
定義二級任務(wù)后,點(diǎn)擊“保存”按鈕,會(huì )看到如下提示。早期版本會(huì )根據第一張圖片彈出提示框,后期版本會(huì )根據第二張圖片彈出提示框。它會(huì )提示用戶(hù)。一級規則的任務(wù)名稱(chēng)已經(jīng)存在,屬于正常提示,因為在定義一級任務(wù)的時(shí)候已經(jīng)指定了二級任務(wù)名稱(chēng)。
第 4 步:捕獲數據
4.1,層級任務(wù)分別獨立運行。先運行一級任務(wù),它會(huì )自動(dòng)將捕獲的下級URL導入二級任務(wù)中。操作方法參考下圖,在任務(wù)管理界面選擇對應任務(wù)的“開(kāi)始采集”菜單即可。
4.2,然后運行二級任務(wù),可以先統計線(xiàn)索數,然后輸入統計的URL個(gè)數進(jìn)行批量采集。
二級任務(wù)也可以同時(shí)運行,實(shí)際上可以沒(méi)有特定的順序。如果兩個(gè)關(guān)卡同時(shí)運行,如下圖所示,在任務(wù)管理界面,點(diǎn)擊每個(gè)任務(wù)的“Start采集”。
4.3、采集完成后直接點(diǎn)擊“導出Excel”按鈕,即可進(jìn)入數據管理下載Excel格式的數據。
tips:在二級任務(wù)中,采集優(yōu)惠券信息是用嵌套示例復制的??梢詤⒖枷旅娴慕坛?。
第 1 部分 文章:“加載、修改和保存爬蟲(chóng)任務(wù)”第 2 部分 文章:“內容映射” 查看全部
爬取網(wǎng)址為一級采集-以京東商品爬蟲(chóng)為例
第二層采集content:每個(gè)產(chǎn)品的標題、優(yōu)惠券信息
第一步:定義一級任務(wù)
定義任務(wù)的基本操作,例如內容標注。樣例拷貝請參考教程“采集List Data”。翻頁(yè)操作請參考“翻頁(yè)采集List”。這里只講解采集關(guān)卡的關(guān)鍵步驟。
加載之前教程中采集京東List的任務(wù)(京東商品列表采集new)。如果你的工作臺沒(méi)有退出這個(gè)任務(wù),直接做就可以了,不需要額外加載。
第 2 步:設置下級線(xiàn)索
2.1,找到下層(URL)鏈接
網(wǎng)頁(yè)上商品的鏈接通常存儲在DOM中A節點(diǎn)下的@href屬性節點(diǎn)中。
在網(wǎng)頁(yè)上點(diǎn)擊產(chǎn)品的產(chǎn)品名稱(chēng),觀(guān)察下面的DOM窗口。光標位于節點(diǎn)上。如果不是A節點(diǎn),則按照DOM節點(diǎn)向上或向下查找A節點(diǎn)。

點(diǎn)擊A節點(diǎn),觀(guān)察DOM窗口左側的view元素小窗口,找到@href,注意查看其值是否為對應的商品鏈接。

右鍵單擊@href 并選擇“內容映射”->“新建”。這樣@href(產(chǎn)品鏈接)的值就映射到了一個(gè)新的爬取內容。

彈出一個(gè)新窗口,要求為所爬取的內容提供一個(gè)字段名稱(chēng),在本例中為名稱(chēng)“產(chǎn)品詳細信息鏈接”。

2.2,給下級任務(wù)命名
在上面的窗口繼續操作,因為我們觀(guān)察到@href中的商品鏈接缺少前面的“http”部分,這是一個(gè)相對網(wǎng)址,可以勾選“Complete URL”,爬蟲(chóng)采集會(huì )在過(guò)程中自動(dòng)完成。
最重要的一步是檢查“從屬網(wǎng)址”。勾選后,下方會(huì )出現一個(gè)提示框,要求輸入目標任務(wù)的名稱(chēng)。分層抓圖時(shí),這里必須輸入二級任務(wù)的名稱(chēng)。
輸入二級任務(wù)名稱(chēng):京東商品詳情采集new

2.3,現在可以看到左邊的workbench中增加了一條爬取內容:商品詳情鏈接,測試一下是否被抓到。如果沒(méi)有問(wèn)題,保存任務(wù)。

第三步:定義二級任務(wù)
3.1,退出一級任務(wù)
如下圖所示,點(diǎn)擊右上角的“三點(diǎn)”操作按鈕,出現下拉菜單。選擇“退出”后,瀏覽器進(jìn)入正常瀏覽模式。這時(shí),您可以點(diǎn)擊頁(yè)面上的產(chǎn)品。進(jìn)入商品詳情頁(yè)面。


3.2,定義二級任務(wù)
現在您在產(chǎn)品詳情頁(yè)面,點(diǎn)擊左欄中的“+”號進(jìn)入任務(wù)定義狀態(tài),開(kāi)始定義二級任務(wù)。
任務(wù)名稱(chēng)輸入框需要填寫(xiě)二級任務(wù)名稱(chēng)。本例中,一級任務(wù)中已經(jīng)指定二級任務(wù)名稱(chēng):京東商品詳情采集new,那么這里必須填寫(xiě) 必須一致,否則網(wǎng)絡(luò )爬蟲(chóng)連兩級任務(wù)。

接下來(lái),在產(chǎn)品詳細信息頁(yè)面上標記所需的信息。注解的操作類(lèi)似,可以參考“采集網(wǎng)站數據”教程,這里不再贅述。
提醒:這一步最重要的是我們新創(chuàng )建的二級任務(wù)的名稱(chēng)必須和一級任務(wù)指定的目標任務(wù)名稱(chēng)一致,這樣一級任務(wù)才能通過(guò)捕獲的指向一級任務(wù)的 URL 鏈接。次要任務(wù)。
3.3,保存二級任務(wù)
定義二級任務(wù)后,點(diǎn)擊“保存”按鈕,會(huì )看到如下提示。早期版本會(huì )根據第一張圖片彈出提示框,后期版本會(huì )根據第二張圖片彈出提示框。它會(huì )提示用戶(hù)。一級規則的任務(wù)名稱(chēng)已經(jīng)存在,屬于正常提示,因為在定義一級任務(wù)的時(shí)候已經(jīng)指定了二級任務(wù)名稱(chēng)。


第 4 步:捕獲數據
4.1,層級任務(wù)分別獨立運行。先運行一級任務(wù),它會(huì )自動(dòng)將捕獲的下級URL導入二級任務(wù)中。操作方法參考下圖,在任務(wù)管理界面選擇對應任務(wù)的“開(kāi)始采集”菜單即可。
4.2,然后運行二級任務(wù),可以先統計線(xiàn)索數,然后輸入統計的URL個(gè)數進(jìn)行批量采集。
二級任務(wù)也可以同時(shí)運行,實(shí)際上可以沒(méi)有特定的順序。如果兩個(gè)關(guān)卡同時(shí)運行,如下圖所示,在任務(wù)管理界面,點(diǎn)擊每個(gè)任務(wù)的“Start采集”。

4.3、采集完成后直接點(diǎn)擊“導出Excel”按鈕,即可進(jìn)入數據管理下載Excel格式的數據。

tips:在二級任務(wù)中,采集優(yōu)惠券信息是用嵌套示例復制的??梢詤⒖枷旅娴慕坛?。
第 1 部分 文章:“加載、修改和保存爬蟲(chóng)任務(wù)”第 2 部分 文章:“內容映射”
ai一點(diǎn):人工智能的發(fā)展是一個(gè)大趨勢
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 75 次瀏覽 ? 2021-07-13 06:04
文章采集鏈接::3月28日,羅胖在羅輯思維新節目里談到了ai一點(diǎn),本次直播留下了問(wèn)題,我們整理了一下老羅談到的一些問(wèn)題,和大家分享。
自ai讓搜索更智能后,再加上lbs,叫車(chē)、游戲、人工智能音樂(lè )等產(chǎn)業(yè)。
去做一個(gè)可以做dota,dota2,實(shí)時(shí)太陽(yáng)系,實(shí)時(shí)太陽(yáng)系軌道,實(shí)時(shí)rx480,百度飛圖,
機器人,智能服務(wù)機器人,互聯(lián)網(wǎng)ai工業(yè)機器人,ai醫療工業(yè)機器人。
人工智能,極智能(指ai)。這個(gè)過(guò)程里會(huì )最大的發(fā)展是人工智能的產(chǎn)業(yè)發(fā)展,是一個(gè)大趨勢。人工智能的發(fā)展對社會(huì )發(fā)展來(lái)說(shuō)是全局性的,可以這么理解人工智能對人類(lèi)社會(huì )來(lái)說(shuō),人工智能就是一個(gè)工具,它來(lái)幫助人類(lèi)解決或者解放人類(lèi)的腦力,比如開(kāi)發(fā)芯片,提升處理速度,解放人類(lèi)的腦力等。
ai與其它大方向發(fā)展可能會(huì )產(chǎn)生裂變式的效應,人工智能有可能成為下一個(gè)大方向,而大方向之下會(huì )繼續分化小方向,比如智能家居,智能醫療,智能金融等等。不過(guò)整體的方向大體不變。
不造啊,
你可以總結一下提問(wèn)者既想問(wèn)效率,又想問(wèn)價(jià)值,既想問(wèn)預期,又想問(wèn)變量。倒是有點(diǎn)經(jīng)濟學(xué)思維。其實(shí)一條路子走到黑可以,1.智能手機2.智能家居3.智能汽車(chē)。這個(gè)方向在市場(chǎng)上有,但效率不高,不符合人性。因為其實(shí)電子商務(wù),大數據處理等等方向,在社會(huì )上都有效率提升。電子商務(wù)應該只是大家今后選擇方向的前置處理手段。
而我國的我應該是一直有提高效率的。但想著(zhù)等一步先發(fā)展,而不是符合人性或者市場(chǎng)規律的。你仔細想想,從人類(lèi)歷史上看,大部分ai創(chuàng )業(yè)最后的落地應用都不是等一步發(fā)展的。而且在歷史上,互聯(lián)網(wǎng)創(chuàng )業(yè)領(lǐng)域,其實(shí)都是淘汰掉大部分思維理念,最后才能飛向銀行,醫院等等。所以不要指望今天的創(chuàng )業(yè)方向,今后是要變成持續發(fā)展的。比如說(shuō),互聯(lián)網(wǎng)帶來(lái)智能手機。
自動(dòng)駕駛帶來(lái)智能汽車(chē),在最早也不是創(chuàng )業(yè),而是有了幾個(gè)重要的行業(yè)標準才會(huì )真正創(chuàng )業(yè)。等于,如果今天有了物聯(lián)網(wǎng),那么物聯(lián)網(wǎng)創(chuàng )業(yè)是有好幾個(gè)方向的。而人工智能開(kāi)發(fā),創(chuàng )業(yè)就簡(jiǎn)單多了。但自己觀(guān)察看,ai創(chuàng )業(yè),最主要的起點(diǎn)其實(shí)是從人工智能人才培養,其實(shí)很多人是自己變來(lái)變去做其他方向,自己搞不懂“需求”。這是這個(gè)方向最主要的矛盾點(diǎn),但今天人工智能人才培養更主要的矛盾點(diǎn),又是我們過(guò)去傳統商業(yè)的弊端。
但這種矛盾總有化解方法。作為從業(yè)者來(lái)說(shuō),只要遵循互聯(lián)網(wǎng)的行業(yè)營(yíng)銷(xiāo)推廣方法,總能把握住用戶(hù),不在乎是傳統方向還是人工智能方向??礈视脩?hù)是關(guān)鍵。而技術(shù)上優(yōu)化,要看如何理解一些“稀缺”資源,最終提升創(chuàng )業(yè)。 查看全部
ai一點(diǎn):人工智能的發(fā)展是一個(gè)大趨勢
文章采集鏈接::3月28日,羅胖在羅輯思維新節目里談到了ai一點(diǎn),本次直播留下了問(wèn)題,我們整理了一下老羅談到的一些問(wèn)題,和大家分享。
自ai讓搜索更智能后,再加上lbs,叫車(chē)、游戲、人工智能音樂(lè )等產(chǎn)業(yè)。
去做一個(gè)可以做dota,dota2,實(shí)時(shí)太陽(yáng)系,實(shí)時(shí)太陽(yáng)系軌道,實(shí)時(shí)rx480,百度飛圖,
機器人,智能服務(wù)機器人,互聯(lián)網(wǎng)ai工業(yè)機器人,ai醫療工業(yè)機器人。
人工智能,極智能(指ai)。這個(gè)過(guò)程里會(huì )最大的發(fā)展是人工智能的產(chǎn)業(yè)發(fā)展,是一個(gè)大趨勢。人工智能的發(fā)展對社會(huì )發(fā)展來(lái)說(shuō)是全局性的,可以這么理解人工智能對人類(lèi)社會(huì )來(lái)說(shuō),人工智能就是一個(gè)工具,它來(lái)幫助人類(lèi)解決或者解放人類(lèi)的腦力,比如開(kāi)發(fā)芯片,提升處理速度,解放人類(lèi)的腦力等。
ai與其它大方向發(fā)展可能會(huì )產(chǎn)生裂變式的效應,人工智能有可能成為下一個(gè)大方向,而大方向之下會(huì )繼續分化小方向,比如智能家居,智能醫療,智能金融等等。不過(guò)整體的方向大體不變。
不造啊,
你可以總結一下提問(wèn)者既想問(wèn)效率,又想問(wèn)價(jià)值,既想問(wèn)預期,又想問(wèn)變量。倒是有點(diǎn)經(jīng)濟學(xué)思維。其實(shí)一條路子走到黑可以,1.智能手機2.智能家居3.智能汽車(chē)。這個(gè)方向在市場(chǎng)上有,但效率不高,不符合人性。因為其實(shí)電子商務(wù),大數據處理等等方向,在社會(huì )上都有效率提升。電子商務(wù)應該只是大家今后選擇方向的前置處理手段。
而我國的我應該是一直有提高效率的。但想著(zhù)等一步先發(fā)展,而不是符合人性或者市場(chǎng)規律的。你仔細想想,從人類(lèi)歷史上看,大部分ai創(chuàng )業(yè)最后的落地應用都不是等一步發(fā)展的。而且在歷史上,互聯(lián)網(wǎng)創(chuàng )業(yè)領(lǐng)域,其實(shí)都是淘汰掉大部分思維理念,最后才能飛向銀行,醫院等等。所以不要指望今天的創(chuàng )業(yè)方向,今后是要變成持續發(fā)展的。比如說(shuō),互聯(lián)網(wǎng)帶來(lái)智能手機。
自動(dòng)駕駛帶來(lái)智能汽車(chē),在最早也不是創(chuàng )業(yè),而是有了幾個(gè)重要的行業(yè)標準才會(huì )真正創(chuàng )業(yè)。等于,如果今天有了物聯(lián)網(wǎng),那么物聯(lián)網(wǎng)創(chuàng )業(yè)是有好幾個(gè)方向的。而人工智能開(kāi)發(fā),創(chuàng )業(yè)就簡(jiǎn)單多了。但自己觀(guān)察看,ai創(chuàng )業(yè),最主要的起點(diǎn)其實(shí)是從人工智能人才培養,其實(shí)很多人是自己變來(lái)變去做其他方向,自己搞不懂“需求”。這是這個(gè)方向最主要的矛盾點(diǎn),但今天人工智能人才培養更主要的矛盾點(diǎn),又是我們過(guò)去傳統商業(yè)的弊端。
但這種矛盾總有化解方法。作為從業(yè)者來(lái)說(shuō),只要遵循互聯(lián)網(wǎng)的行業(yè)營(yíng)銷(xiāo)推廣方法,總能把握住用戶(hù),不在乎是傳統方向還是人工智能方向??礈视脩?hù)是關(guān)鍵。而技術(shù)上優(yōu)化,要看如何理解一些“稀缺”資源,最終提升創(chuàng )業(yè)。
利用Anyproxy爬取微信公眾號文章及臨時(shí)鏈接轉永久鏈接
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 282 次瀏覽 ? 2021-07-05 19:26
在上一篇文章我用Anyproxy爬取了微信公眾號文章和臨時(shí)鏈接到永久鏈接。該方法可以獲得文章的點(diǎn)贊數、閱讀數等信息。如果你只需要獲取某個(gè)微信公眾號的所有文章,并且文章的鏈接是永久鏈接,那么看看我在文章上介紹的方法。
一、先說(shuō)說(shuō)破解方法
破解關(guān)鍵是使用微信公眾號后臺素材管理-新建圖文素材-超鏈接-找到文章(公眾號)的界面。如下圖:
進(jìn)入微信公眾號后臺-素材管理-新圖文素材-新圖文留言
超鏈接-查找文章(公眾號)
二、具體破解方法
2.1 通過(guò)selenium+webdriver獲取公眾號的cookie
因為在公眾號后臺請求“查找文章(公眾號)”接口時(shí)需要一個(gè)微信公眾號cookie,所以在爬取文章內容之前需要獲取一個(gè)可用的cookie。這一段比較簡(jiǎn)單,直接貼上我寫(xiě)的代碼。 PS:享受優(yōu)化和完美。
獲取 Cookie
2.2 微信公眾號獲取公眾號文章interface get文章
1)微信公眾號登錄地址:
2)登錄后獲取token。
3) 使用微信公眾號后臺新建圖文,搜索公眾號名稱(chēng),需要上一步的token。
搜索公眾號
并通過(guò)接口返回的內容獲取公眾號的fakeid。
獲取公眾號的fakeid
4)選擇要爬取的公眾號,獲取文章接口地址,需要上一步的fakeid。
5)文章 列表翻頁(yè)和內容獲取。
文章列表第一頁(yè)
翻頁(yè)和內容
三、完整代碼
完成代碼
四、這在技術(shù)上有難度,請給我點(diǎn)個(gè)贊 查看全部
利用Anyproxy爬取微信公眾號文章及臨時(shí)鏈接轉永久鏈接
在上一篇文章我用Anyproxy爬取了微信公眾號文章和臨時(shí)鏈接到永久鏈接。該方法可以獲得文章的點(diǎn)贊數、閱讀數等信息。如果你只需要獲取某個(gè)微信公眾號的所有文章,并且文章的鏈接是永久鏈接,那么看看我在文章上介紹的方法。
一、先說(shuō)說(shuō)破解方法
破解關(guān)鍵是使用微信公眾號后臺素材管理-新建圖文素材-超鏈接-找到文章(公眾號)的界面。如下圖:
進(jìn)入微信公眾號后臺-素材管理-新圖文素材-新圖文留言
超鏈接-查找文章(公眾號)
二、具體破解方法
2.1 通過(guò)selenium+webdriver獲取公眾號的cookie
因為在公眾號后臺請求“查找文章(公眾號)”接口時(shí)需要一個(gè)微信公眾號cookie,所以在爬取文章內容之前需要獲取一個(gè)可用的cookie。這一段比較簡(jiǎn)單,直接貼上我寫(xiě)的代碼。 PS:享受優(yōu)化和完美。
獲取 Cookie
2.2 微信公眾號獲取公眾號文章interface get文章
1)微信公眾號登錄地址:
2)登錄后獲取token。
3) 使用微信公眾號后臺新建圖文,搜索公眾號名稱(chēng),需要上一步的token。
搜索公眾號
并通過(guò)接口返回的內容獲取公眾號的fakeid。
獲取公眾號的fakeid
4)選擇要爬取的公眾號,獲取文章接口地址,需要上一步的fakeid。
5)文章 列表翻頁(yè)和內容獲取。
文章列表第一頁(yè)
翻頁(yè)和內容
三、完整代碼
完成代碼
四、這在技術(shù)上有難度,請給我點(diǎn)個(gè)贊
內容優(yōu)化篇——保證自己創(chuàng )作不被采集的原創(chuàng )文章
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 215 次瀏覽 ? 2021-07-05 03:44
內容優(yōu)化篇——保證自己創(chuàng )作不被采集的原創(chuàng )文章
站長(cháng),在做網(wǎng)站的時(shí)候,網(wǎng)站的內容有時(shí)候就是采集,尤其是在現在采集成本極低的環(huán)境下,只要懂一點(diǎn)代碼就好了。制作采集 模塊。即使你不知道如何編碼,你也可以以低廉的價(jià)格找人編寫(xiě)。
新站上線(xiàn)了,我正在努力做著(zhù)原創(chuàng )的內容,但是采集工具采集突然占據了全站。沒(méi)有人能忍受。
另外,新站一開(kāi)始沒(méi)有權重,即使你發(fā)布你的原創(chuàng ),加權網(wǎng)站采集和發(fā)布你的文章,蜘蛛爬取網(wǎng)頁(yè)也會(huì )優(yōu)先收錄有一個(gè)高權重的網(wǎng)頁(yè),認為是他的原創(chuàng )文章。
這是別人的典型婚紗。
雖然文章也有版權保護,但面對采集網(wǎng)站有什么用。他既然敢采集,就不怕你維權,現在維權成本高。
之前,熊掌有原創(chuàng )保護功能,但因為百度的業(yè)務(wù),下線(xiàn)了?,F在的原創(chuàng )真的無(wú)法保護。
那么今天五車(chē)兒就給大家分享一下它的方法,盡量保證你的創(chuàng )作不是采集。
內容優(yōu)化章節
1.寫(xiě)作時(shí),在你的作品中插入相關(guān)的品牌詞。如:“XXX網(wǎng)編輯”、“XXX提醒大家”……或者用替代詞,百度知道替代百度知道,百度知道,百度知道等。標記文章以便反饋可以用作稍后提供證據。
當然采集軟件也有過(guò)濾功能,所以你可以為每篇文章文章使用不同的詞匯。雖然有點(diǎn)累,但有些采集人不那么悲傷,總會(huì )錯過(guò)一些細節。
2、圖片水印處理,采集工具無(wú)法識別圖片并過(guò)濾。 原創(chuàng )文章的圖片可以使用水印。就算采集不見(jiàn)了,他要處理,也得重新編輯一下。
更新技能(技術(shù)層面)章節
采集器,會(huì )讓工具通過(guò)網(wǎng)站的URL識別最新的文章。只要我不發(fā)布最新的文章,采集工具將無(wú)法獲取相關(guān)代碼。只要我的文章先行收錄,他在做采集,就會(huì )被搜索引擎判斷為復制轉發(fā)而不是原創(chuàng )。
1、隱藏更新(延遲),你站點(diǎn)的蜘蛛會(huì )爬取站點(diǎn)內所有的URL連接,采集工具不能。所以只要我們隱藏了一個(gè)頁(yè)面,沒(méi)有把它歸入某個(gè)類(lèi)別,就等著(zhù)收錄移入該類(lèi)別。你可以避免第一次成為采集。
2.程序限制頁(yè)面訪(fǎng)問(wèn)(一次只能訪(fǎng)問(wèn)多少頁(yè)),機器速度比人快。一個(gè)人不可能在3分鐘內訪(fǎng)問(wèn)每個(gè)類(lèi)別的每篇文章文章,并且每個(gè)文章都是開(kāi)放的。 (注:一些采集工具可以延遲采集,因為他們也可以設置幾分鐘訪(fǎng)問(wèn)一篇文章。但成本很高。)
3.限制面向用戶(hù)的頁(yè)面顯示。比如我只給你看1頁(yè),第二頁(yè)是用來(lái)驗證的。
4.驗證機制。其實(shí)有些網(wǎng)站可以在用戶(hù)訪(fǎng)問(wèn)異常時(shí)彈出驗證碼框進(jìn)行人機驗證,也可以避免采集tools采集。
5、盡量不要對鏈接進(jìn)行排序。 采集tools 最初使用源代碼來(lái)識別 URL。一些有序的URL鏈接非常喜歡采集人,因為不麻煩,可以采集整站數據。星控站長(cháng)網(wǎng)是/1.html,工具甚至可以直接采集文章1-99999.html 不用進(jìn)分類(lèi)。所以這是一個(gè)糟糕的 URL 設計習慣。
百度站長(cháng)工具篇
百度站長(cháng)工具可以手動(dòng)提交鏈接。
結合上面【技術(shù)層面】章節的第一點(diǎn),我們先延遲更新隱藏頁(yè)面。
然后用百度的站長(cháng)工具收錄submit,提交我們的原創(chuàng )文章網(wǎng)址,等待百度收錄。 查看全部
內容優(yōu)化篇——保證自己創(chuàng )作不被采集的原創(chuàng )文章
站長(cháng),在做網(wǎng)站的時(shí)候,網(wǎng)站的內容有時(shí)候就是采集,尤其是在現在采集成本極低的環(huán)境下,只要懂一點(diǎn)代碼就好了。制作采集 模塊。即使你不知道如何編碼,你也可以以低廉的價(jià)格找人編寫(xiě)。
新站上線(xiàn)了,我正在努力做著(zhù)原創(chuàng )的內容,但是采集工具采集突然占據了全站。沒(méi)有人能忍受。
另外,新站一開(kāi)始沒(méi)有權重,即使你發(fā)布你的原創(chuàng ),加權網(wǎng)站采集和發(fā)布你的文章,蜘蛛爬取網(wǎng)頁(yè)也會(huì )優(yōu)先收錄有一個(gè)高權重的網(wǎng)頁(yè),認為是他的原創(chuàng )文章。
這是別人的典型婚紗。
雖然文章也有版權保護,但面對采集網(wǎng)站有什么用。他既然敢采集,就不怕你維權,現在維權成本高。
之前,熊掌有原創(chuàng )保護功能,但因為百度的業(yè)務(wù),下線(xiàn)了?,F在的原創(chuàng )真的無(wú)法保護。
那么今天五車(chē)兒就給大家分享一下它的方法,盡量保證你的創(chuàng )作不是采集。
內容優(yōu)化章節
1.寫(xiě)作時(shí),在你的作品中插入相關(guān)的品牌詞。如:“XXX網(wǎng)編輯”、“XXX提醒大家”……或者用替代詞,百度知道替代百度知道,百度知道,百度知道等。標記文章以便反饋可以用作稍后提供證據。
當然采集軟件也有過(guò)濾功能,所以你可以為每篇文章文章使用不同的詞匯。雖然有點(diǎn)累,但有些采集人不那么悲傷,總會(huì )錯過(guò)一些細節。
2、圖片水印處理,采集工具無(wú)法識別圖片并過(guò)濾。 原創(chuàng )文章的圖片可以使用水印。就算采集不見(jiàn)了,他要處理,也得重新編輯一下。
更新技能(技術(shù)層面)章節
采集器,會(huì )讓工具通過(guò)網(wǎng)站的URL識別最新的文章。只要我不發(fā)布最新的文章,采集工具將無(wú)法獲取相關(guān)代碼。只要我的文章先行收錄,他在做采集,就會(huì )被搜索引擎判斷為復制轉發(fā)而不是原創(chuàng )。
1、隱藏更新(延遲),你站點(diǎn)的蜘蛛會(huì )爬取站點(diǎn)內所有的URL連接,采集工具不能。所以只要我們隱藏了一個(gè)頁(yè)面,沒(méi)有把它歸入某個(gè)類(lèi)別,就等著(zhù)收錄移入該類(lèi)別。你可以避免第一次成為采集。
2.程序限制頁(yè)面訪(fǎng)問(wèn)(一次只能訪(fǎng)問(wèn)多少頁(yè)),機器速度比人快。一個(gè)人不可能在3分鐘內訪(fǎng)問(wèn)每個(gè)類(lèi)別的每篇文章文章,并且每個(gè)文章都是開(kāi)放的。 (注:一些采集工具可以延遲采集,因為他們也可以設置幾分鐘訪(fǎng)問(wèn)一篇文章。但成本很高。)
3.限制面向用戶(hù)的頁(yè)面顯示。比如我只給你看1頁(yè),第二頁(yè)是用來(lái)驗證的。
4.驗證機制。其實(shí)有些網(wǎng)站可以在用戶(hù)訪(fǎng)問(wèn)異常時(shí)彈出驗證碼框進(jìn)行人機驗證,也可以避免采集tools采集。
5、盡量不要對鏈接進(jìn)行排序。 采集tools 最初使用源代碼來(lái)識別 URL。一些有序的URL鏈接非常喜歡采集人,因為不麻煩,可以采集整站數據。星控站長(cháng)網(wǎng)是/1.html,工具甚至可以直接采集文章1-99999.html 不用進(jìn)分類(lèi)。所以這是一個(gè)糟糕的 URL 設計習慣。
百度站長(cháng)工具篇
百度站長(cháng)工具可以手動(dòng)提交鏈接。
結合上面【技術(shù)層面】章節的第一點(diǎn),我們先延遲更新隱藏頁(yè)面。
然后用百度的站長(cháng)工具收錄submit,提交我們的原創(chuàng )文章網(wǎng)址,等待百度收錄。
【每日一題】如何將獲取的表格直接分詞成語(yǔ)料
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 92 次瀏覽 ? 2021-07-03 22:01
文章采集鏈接:-text/article-extraction-urlonly?__abstract__='如何將獲取的表格直接分詞成語(yǔ)料'導讀這篇文章介紹了如何使用gensim模型構建python文本摘要模型。使用gensim的模型,可以快速實(shí)現摘要與文本生成任務(wù)。在獲取的文本的列表中存放著(zhù)表格,列表中存放著(zhù)每個(gè)列表中的文本,每一行中存放一個(gè)單詞,一行或者多行,如上圖。
目標是評估詞向量應用到摘要任務(wù)中的效果。demo下載-gensim-artificial-recurrent_demo讀取demo:read_gensim.py按照下圖的形式,在list中搜索每個(gè)文本所屬的表格,形成raw_txt。importre,gensim#lib文件fromsklearn.model_selectionimporttrain_test_split#文件為train_test_split.reshape(3,。
3)x=gensim。load_document('train_test_split。txt')doc_dict=x。documentdoc_txt=doc_dict。transform(x)text=gensim。cut("。/recaparsize/{x}/{y}",skip_width=0,skip_height=0,batch_size=。
1)x=doc_dict[text]y=doc_dict[text]predictions=gensim。filter(doc_dict,x)predictions_txt=gensim。filter(doc_dict,y)#顯示摘要demo=predictions_txt+text#打印print(tf。tf。global_variables_info(dummy_name,tf。float3。
2))以上就是對文本進(jìn)行摘要的操作了。生成詞向量詞向量表示文本的信息。語(yǔ)料摘要的最終目的是構建一個(gè)可以從第一行和最后一行構建不同輸出向量的模型。通常使用的方法是將一組詞構建成一個(gè)矩陣。其中每一列表示一個(gè)單詞。這有助于進(jìn)行聚類(lèi)。提取數據使用一組數據構建一個(gè)詞表,作為embeddingvector輸入到gensim.feature_selection進(jìn)行數據清洗。
使用meanerror進(jìn)行第一行的詞的均值和標準差計算embedding。此外,詞向量還需要構建成一個(gè)樣本數據。embedding使用tf.variable進(jìn)行定義。圖片對應詞的類(lèi)型、大小、是否雙向都可以定義。圖片(例如grayscale.jpg)中,像素不對應任何文本的詞向量。顯示文本細節將得到的embedding矩陣存儲在list中,方便后續使用。
使用矩陣tf.tf.global_variables_info(dummy_name,tf.float3
2)來(lái)查看是否有缺失值。保存摘要文本定義一個(gè)有損損失函數(損失函數將損失函數定義為高斯分布),即邏輯回歸。損失函數可以設置為:(注意不要混淆這些概念,損失函數是一個(gè)計算高斯分布的代價(jià)函數。 查看全部
【每日一題】如何將獲取的表格直接分詞成語(yǔ)料
文章采集鏈接:-text/article-extraction-urlonly?__abstract__='如何將獲取的表格直接分詞成語(yǔ)料'導讀這篇文章介紹了如何使用gensim模型構建python文本摘要模型。使用gensim的模型,可以快速實(shí)現摘要與文本生成任務(wù)。在獲取的文本的列表中存放著(zhù)表格,列表中存放著(zhù)每個(gè)列表中的文本,每一行中存放一個(gè)單詞,一行或者多行,如上圖。
目標是評估詞向量應用到摘要任務(wù)中的效果。demo下載-gensim-artificial-recurrent_demo讀取demo:read_gensim.py按照下圖的形式,在list中搜索每個(gè)文本所屬的表格,形成raw_txt。importre,gensim#lib文件fromsklearn.model_selectionimporttrain_test_split#文件為train_test_split.reshape(3,。
3)x=gensim。load_document('train_test_split。txt')doc_dict=x。documentdoc_txt=doc_dict。transform(x)text=gensim。cut("。/recaparsize/{x}/{y}",skip_width=0,skip_height=0,batch_size=。
1)x=doc_dict[text]y=doc_dict[text]predictions=gensim。filter(doc_dict,x)predictions_txt=gensim。filter(doc_dict,y)#顯示摘要demo=predictions_txt+text#打印print(tf。tf。global_variables_info(dummy_name,tf。float3。
2))以上就是對文本進(jìn)行摘要的操作了。生成詞向量詞向量表示文本的信息。語(yǔ)料摘要的最終目的是構建一個(gè)可以從第一行和最后一行構建不同輸出向量的模型。通常使用的方法是將一組詞構建成一個(gè)矩陣。其中每一列表示一個(gè)單詞。這有助于進(jìn)行聚類(lèi)。提取數據使用一組數據構建一個(gè)詞表,作為embeddingvector輸入到gensim.feature_selection進(jìn)行數據清洗。
使用meanerror進(jìn)行第一行的詞的均值和標準差計算embedding。此外,詞向量還需要構建成一個(gè)樣本數據。embedding使用tf.variable進(jìn)行定義。圖片對應詞的類(lèi)型、大小、是否雙向都可以定義。圖片(例如grayscale.jpg)中,像素不對應任何文本的詞向量。顯示文本細節將得到的embedding矩陣存儲在list中,方便后續使用。
使用矩陣tf.tf.global_variables_info(dummy_name,tf.float3
2)來(lái)查看是否有缺失值。保存摘要文本定義一個(gè)有損損失函數(損失函數將損失函數定義為高斯分布),即邏輯回歸。損失函數可以設置為:(注意不要混淆這些概念,損失函數是一個(gè)計算高斯分布的代價(jià)函數。
運營(yíng)公眾號怎樣收集素材文章文章的相關(guān)資料方法介紹
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 87 次瀏覽 ? 2021-07-02 04:08
運營(yíng)公眾號怎樣收集素材文章文章的相關(guān)資料方法介紹
如何操作公眾號采集素材文章兩種獲取熱門(mén)素材的方法詳解
對于公眾號運營(yíng)商來(lái)說(shuō),文章素材的采集非常重要,因為它可以有效提升你文章的質(zhì)量,下面就跟著(zhù)135小編一起來(lái)了解公眾號的運營(yíng)方式吧,采集相關(guān)資料素材文章。
公眾號運營(yíng)資料如何采集文章方法一
獲取文章鏈接,電腦用戶(hù)可以直接在瀏覽器地址欄中選擇并復制文章鏈接。手機用戶(hù)可以點(diǎn)擊右上角的菜單按鈕,選擇復制鏈接,將鏈接發(fā)送到電腦。
公眾號運營(yíng)材料如何采集文章
點(diǎn)擊拓圖數據采集文章按鈕,編輯器采集文章有兩個(gè)功能入口:編輯菜單右上角的采集文章按鈕; @k15 在功能按鈕的底部右側@文章 按鈕。粘貼文章 鏈接并單擊采集。 采集完成后可以編輯修改文章。
公眾號運營(yíng)材料如何采集文章方法二
從網(wǎng)上能搜到的公眾號文章采集,這是最直接、最簡(jiǎn)單的解決方法。
大致流程是:
1、通過(guò)搜索引擎搜索微信搜索入口進(jìn)入公眾號搜索。
2、選擇公眾號進(jìn)入公眾號歷史文章列表和文章內容進(jìn)行分析和存儲。
公眾號運營(yíng)材料如何采集文章
如果采集太頻繁,搜狗搜索和公眾賬號歷史文章list訪(fǎng)問(wèn)都會(huì )顯示驗證碼。無(wú)法直接使用通用腳本采集獲取驗證碼。在這里您可以使用無(wú)頭瀏覽器通過(guò)對接打碼平臺訪(fǎng)問(wèn)和識別驗證碼。 Selenium 可以用作無(wú)頭瀏覽器。
公眾號運營(yíng)如何采集文章資料?其實(shí),拓圖數據認為文章對于微信公眾號運營(yíng)的素材采集是非常重要的,所以大家可以按照上面的方法做好文章的素材采集。 ! 查看全部
運營(yíng)公眾號怎樣收集素材文章文章的相關(guān)資料方法介紹
如何操作公眾號采集素材文章兩種獲取熱門(mén)素材的方法詳解
對于公眾號運營(yíng)商來(lái)說(shuō),文章素材的采集非常重要,因為它可以有效提升你文章的質(zhì)量,下面就跟著(zhù)135小編一起來(lái)了解公眾號的運營(yíng)方式吧,采集相關(guān)資料素材文章。
公眾號運營(yíng)資料如何采集文章方法一
獲取文章鏈接,電腦用戶(hù)可以直接在瀏覽器地址欄中選擇并復制文章鏈接。手機用戶(hù)可以點(diǎn)擊右上角的菜單按鈕,選擇復制鏈接,將鏈接發(fā)送到電腦。

公眾號運營(yíng)材料如何采集文章
點(diǎn)擊拓圖數據采集文章按鈕,編輯器采集文章有兩個(gè)功能入口:編輯菜單右上角的采集文章按鈕; @k15 在功能按鈕的底部右側@文章 按鈕。粘貼文章 鏈接并單擊采集。 采集完成后可以編輯修改文章。
公眾號運營(yíng)材料如何采集文章方法二
從網(wǎng)上能搜到的公眾號文章采集,這是最直接、最簡(jiǎn)單的解決方法。
大致流程是:
1、通過(guò)搜索引擎搜索微信搜索入口進(jìn)入公眾號搜索。
2、選擇公眾號進(jìn)入公眾號歷史文章列表和文章內容進(jìn)行分析和存儲。

公眾號運營(yíng)材料如何采集文章
如果采集太頻繁,搜狗搜索和公眾賬號歷史文章list訪(fǎng)問(wèn)都會(huì )顯示驗證碼。無(wú)法直接使用通用腳本采集獲取驗證碼。在這里您可以使用無(wú)頭瀏覽器通過(guò)對接打碼平臺訪(fǎng)問(wèn)和識別驗證碼。 Selenium 可以用作無(wú)頭瀏覽器。
公眾號運營(yíng)如何采集文章資料?其實(shí),拓圖數據認為文章對于微信公眾號運營(yíng)的素材采集是非常重要的,所以大家可以按照上面的方法做好文章的素材采集。 !
【機械學(xué)堂】單片機控制下的cnc編程速度控制算法
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 103 次瀏覽 ? 2021-07-01 05:02
文章采集鏈接更多優(yōu)質(zhì)原創(chuàng )內容公眾號“機械學(xué)堂”轉載請注明出處cnc控制系統簡(jiǎn)單來(lái)說(shuō)就是通過(guò)編程實(shí)現單片機對模擬量和數字量的控制,其基本原理包括旋轉控制、位置控制和速度控制,下面以單片機控制下的cnc編程速度控制為例。單片機控制速度流程:環(huán)境采樣——快速采樣——在固定點(diǎn)陣中建立坐標系——遍歷坐標網(wǎng)格進(jìn)行壓縮——選擇值——放大——編程速度控制該流程如下圖所示:下面采用循環(huán)壓縮法進(jìn)行編程,首先對模擬量進(jìn)行采樣,比如采集了400次6位有效數據,接著(zhù)通過(guò)fsp算法fastsaw,對400次數據依次進(jìn)行編程獲取模擬量值,并設置控制器產(chǎn)生與模擬量相同的值。
接著(zhù)迭代建立坐標網(wǎng)格,進(jìn)行壓縮、編程速度控制,步驟如下:控制器按下圖方式采集數據,下面采用循環(huán)采集法循環(huán)進(jìn)行下面的數據壓縮,數據壓縮中有采樣次數的設置,循環(huán)壓縮方式如下:循環(huán)壓縮法下的壓縮參數設置完成后,程序就可以開(kāi)始編程了。編程速度控制算法:循環(huán)壓縮法:給定控制器采集數據,循環(huán)壓縮法:速度控制算法:點(diǎn)擊閱讀原文即可獲取,
寫(xiě)這樣一段程序可以參考開(kāi)發(fā)板。每個(gè)adc上連接單片機,判斷動(dòng)作后,返回一個(gè)hal文件,可以是c語(yǔ)言代碼,也可以是rst文件,也可以是ftp文件,或者采用rtp,需要設置精確接收等。編寫(xiě)程序,需要學(xué)習c語(yǔ)言和單片機原理。test01.cs6045/test01.hlimits1000000rawscan=mark3whilelevel(mark3-mark。
1)inrawscan2putslevel(mark1-mark
1)inlevel(mark1-mark
1)inputshalscans1aavgaddressmarkaddress2putsaresulttoadc。adcidentifiers0bs,piandfseachothervalues=mark3scores=br,0。4-allmarkbraggers(a)andmarkactresses(b)aaaaakandabba1aadbscadc。
make_element11(aaaaak,abba1a,allchannels)adc。make_element11(abba1a,aaaaak,allchannels)last_transmissionelseifelementmarkis0elseputselement(element/(elementmark+halidentifiers))prewhenlevelbytes=0,isgpureadandmarkisinitialandsize=1(edge)endlast_transmissionelselevel(mark2-mark3-edge)putsadc_tuple_tdletotargetadc。
fn(initializetransmission)tablet[normal){if(element==。
0){mark=element;adc.fn(initializetransmission)}else{adc.to_direct=flag;//direct=tfmodecasepose=flag;speed 查看全部
【機械學(xué)堂】單片機控制下的cnc編程速度控制算法
文章采集鏈接更多優(yōu)質(zhì)原創(chuàng )內容公眾號“機械學(xué)堂”轉載請注明出處cnc控制系統簡(jiǎn)單來(lái)說(shuō)就是通過(guò)編程實(shí)現單片機對模擬量和數字量的控制,其基本原理包括旋轉控制、位置控制和速度控制,下面以單片機控制下的cnc編程速度控制為例。單片機控制速度流程:環(huán)境采樣——快速采樣——在固定點(diǎn)陣中建立坐標系——遍歷坐標網(wǎng)格進(jìn)行壓縮——選擇值——放大——編程速度控制該流程如下圖所示:下面采用循環(huán)壓縮法進(jìn)行編程,首先對模擬量進(jìn)行采樣,比如采集了400次6位有效數據,接著(zhù)通過(guò)fsp算法fastsaw,對400次數據依次進(jìn)行編程獲取模擬量值,并設置控制器產(chǎn)生與模擬量相同的值。
接著(zhù)迭代建立坐標網(wǎng)格,進(jìn)行壓縮、編程速度控制,步驟如下:控制器按下圖方式采集數據,下面采用循環(huán)采集法循環(huán)進(jìn)行下面的數據壓縮,數據壓縮中有采樣次數的設置,循環(huán)壓縮方式如下:循環(huán)壓縮法下的壓縮參數設置完成后,程序就可以開(kāi)始編程了。編程速度控制算法:循環(huán)壓縮法:給定控制器采集數據,循環(huán)壓縮法:速度控制算法:點(diǎn)擊閱讀原文即可獲取,
寫(xiě)這樣一段程序可以參考開(kāi)發(fā)板。每個(gè)adc上連接單片機,判斷動(dòng)作后,返回一個(gè)hal文件,可以是c語(yǔ)言代碼,也可以是rst文件,也可以是ftp文件,或者采用rtp,需要設置精確接收等。編寫(xiě)程序,需要學(xué)習c語(yǔ)言和單片機原理。test01.cs6045/test01.hlimits1000000rawscan=mark3whilelevel(mark3-mark。
1)inrawscan2putslevel(mark1-mark
1)inlevel(mark1-mark
1)inputshalscans1aavgaddressmarkaddress2putsaresulttoadc。adcidentifiers0bs,piandfseachothervalues=mark3scores=br,0。4-allmarkbraggers(a)andmarkactresses(b)aaaaakandabba1aadbscadc。
make_element11(aaaaak,abba1a,allchannels)adc。make_element11(abba1a,aaaaak,allchannels)last_transmissionelseifelementmarkis0elseputselement(element/(elementmark+halidentifiers))prewhenlevelbytes=0,isgpureadandmarkisinitialandsize=1(edge)endlast_transmissionelselevel(mark2-mark3-edge)putsadc_tuple_tdletotargetadc。
fn(initializetransmission)tablet[normal){if(element==。
0){mark=element;adc.fn(initializetransmission)}else{adc.to_direct=flag;//direct=tfmodecasepose=flag;speed
文章采集鏈接 辦公生活節奏緊張,看看鮮花花會(huì )怎么開(kāi)放(組圖)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 180 次瀏覽 ? 2021-06-26 07:02
文章采集鏈接:【文字采集】泰坦style-微博微信新聞熱搜熱點(diǎn)采集導語(yǔ):辦公生活節奏緊張,各位可以周末過(guò)一下感恩節生活的態(tài)度,看看鮮花花會(huì )怎么開(kāi)放。每年泰坦維度的生日數據都是報告的重要素材,并且讓我們了解到,任何的福利活動(dòng),在辦公環(huán)境中都是必備的了,結合大數據:電話(huà)訪(fǎng)問(wèn)分析,高效分析全新的生日數據全國人民對泰坦的喜愛(ài)程度,結合投票結果:有服務(wù)電話(huà)的是高階粉絲群體,無(wú)服務(wù)電話(huà)的則是對投票結果不太了解的群體,其中產(chǎn)品設計師、項目經(jīng)理對美國色更為偏愛(ài)。
并且還能夠挑選出具備粉絲代表性的粉絲群體,就比如購買(mǎi)泰坦品牌書(shū)籍的粉絲。上千萬(wàn)人認為:泰坦代表大愛(ài)、正義、嚴謹、溫情,解決工作中人際交往,同時(shí)也能讓家人省心,配合最新的時(shí)事發(fā)展,更能夠調動(dòng)員工工作積極性,開(kāi)發(fā)新的人力資源。而對于企業(yè)老板、管理層、銷(xiāo)售人員、品牌運營(yíng)總監、客服人員、數據分析師、電話(huà)訪(fǎng)問(wèn)人員等都是一個(gè)不錯的喜愛(ài),我也是投票者,結果如下:。
有的,不過(guò)泰坦網(wǎng)站的數據,對于我們普通用戶(hù)來(lái)說(shuō)有些問(wèn)題,我用下泰坦,基本上問(wèn)題出現在想買(mǎi)商品時(shí),需要收費購買(mǎi)數據。
剛上線(xiàn),做的非常完善了,用戶(hù)在我這里的反應都很好,客服專(zhuān)業(yè)有耐心,體驗很好,對于辦公效率,付費考慮是非常明智的,畢竟每個(gè)公司的實(shí)際情況和管理是不一樣的。歡迎關(guān)注我們的網(wǎng)站/。 查看全部
文章采集鏈接 辦公生活節奏緊張,看看鮮花花會(huì )怎么開(kāi)放(組圖)
文章采集鏈接:【文字采集】泰坦style-微博微信新聞熱搜熱點(diǎn)采集導語(yǔ):辦公生活節奏緊張,各位可以周末過(guò)一下感恩節生活的態(tài)度,看看鮮花花會(huì )怎么開(kāi)放。每年泰坦維度的生日數據都是報告的重要素材,并且讓我們了解到,任何的福利活動(dòng),在辦公環(huán)境中都是必備的了,結合大數據:電話(huà)訪(fǎng)問(wèn)分析,高效分析全新的生日數據全國人民對泰坦的喜愛(ài)程度,結合投票結果:有服務(wù)電話(huà)的是高階粉絲群體,無(wú)服務(wù)電話(huà)的則是對投票結果不太了解的群體,其中產(chǎn)品設計師、項目經(jīng)理對美國色更為偏愛(ài)。
并且還能夠挑選出具備粉絲代表性的粉絲群體,就比如購買(mǎi)泰坦品牌書(shū)籍的粉絲。上千萬(wàn)人認為:泰坦代表大愛(ài)、正義、嚴謹、溫情,解決工作中人際交往,同時(shí)也能讓家人省心,配合最新的時(shí)事發(fā)展,更能夠調動(dòng)員工工作積極性,開(kāi)發(fā)新的人力資源。而對于企業(yè)老板、管理層、銷(xiāo)售人員、品牌運營(yíng)總監、客服人員、數據分析師、電話(huà)訪(fǎng)問(wèn)人員等都是一個(gè)不錯的喜愛(ài),我也是投票者,結果如下:。
有的,不過(guò)泰坦網(wǎng)站的數據,對于我們普通用戶(hù)來(lái)說(shuō)有些問(wèn)題,我用下泰坦,基本上問(wèn)題出現在想買(mǎi)商品時(shí),需要收費購買(mǎi)數據。
剛上線(xiàn),做的非常完善了,用戶(hù)在我這里的反應都很好,客服專(zhuān)業(yè)有耐心,體驗很好,對于辦公效率,付費考慮是非常明智的,畢竟每個(gè)公司的實(shí)際情況和管理是不一樣的。歡迎關(guān)注我們的網(wǎng)站/。
超速攝像的原理和方法,不用做事后諸葛亮!
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 147 次瀏覽 ? 2021-06-23 21:02
文章采集鏈接::本文為“旅游安全指南”系列其中一篇(第三篇目前還未完成。)想讓大家理解超速攝像的原理和方法,不用做事后諸葛亮!轉個(gè)你熟悉的故事:“我去xxx了,把你家的棺材搬過(guò)來(lái)”還有哪些安全攝像的有趣事例,并給出相應的視頻?每期文章我會(huì )選擇大家都能理解的安全問(wèn)題,用一兩個(gè)故事,首先試著(zhù)把大家熟悉的安全問(wèn)題“講給大家聽(tīng)”。
告訴大家一些“超速攝像”的基本原理,以及每個(gè)問(wèn)題背后其實(shí)是“怎么回事”?;蛟S隨著(zhù)大家越來(lái)越熟悉,會(huì )一直持續下去,或許直到大家看了一篇科普文章后自己也能再讀一遍,或許會(huì )有自己獨到的見(jiàn)解。在一件事物發(fā)生的過(guò)程中,我們看到的只是這個(gè)東西的局部,那么我們都能找到這個(gè)“局部”的同類(lèi)案例。這是我們可以用來(lái)參考的線(xiàn)索,也可以是個(gè)人經(jīng)驗,或者證據。
視頻源自高清落地攝像機和用于懸疑偵探推理的《xxxxx》,侵刪。每一幀觀(guān)看已經(jīng)超過(guò)十分鐘,所以只挑小亮點(diǎn)。小亮點(diǎn)就是“超速攝像”拍攝的那個(gè)片段,在后期剪輯的時(shí)候我也會(huì )把大概的故事講給大家聽(tīng),方便大家理解這個(gè)事件背后的“因果”關(guān)系。如果要更細的了解我故事的詳細內容,請保持關(guān)注后期推出的“安全指南”系列。
這套安全指南里面有很多新聞、影視劇的推理點(diǎn),各位的熱情肯定也很高。同時(shí)大家也可以參加一些有趣的安全體驗活動(dòng),體驗即我們說(shuō)的興趣班,目前我們有三個(gè)體驗名額,開(kāi)始是免費的,就是報了我們才有這個(gè)名額。每期也只安排一天時(shí)間,但是有機會(huì )體驗完后才能報名參加。掃碼識別圖中二維碼報名體驗活動(dòng)。 查看全部
超速攝像的原理和方法,不用做事后諸葛亮!
文章采集鏈接::本文為“旅游安全指南”系列其中一篇(第三篇目前還未完成。)想讓大家理解超速攝像的原理和方法,不用做事后諸葛亮!轉個(gè)你熟悉的故事:“我去xxx了,把你家的棺材搬過(guò)來(lái)”還有哪些安全攝像的有趣事例,并給出相應的視頻?每期文章我會(huì )選擇大家都能理解的安全問(wèn)題,用一兩個(gè)故事,首先試著(zhù)把大家熟悉的安全問(wèn)題“講給大家聽(tīng)”。
告訴大家一些“超速攝像”的基本原理,以及每個(gè)問(wèn)題背后其實(shí)是“怎么回事”?;蛟S隨著(zhù)大家越來(lái)越熟悉,會(huì )一直持續下去,或許直到大家看了一篇科普文章后自己也能再讀一遍,或許會(huì )有自己獨到的見(jiàn)解。在一件事物發(fā)生的過(guò)程中,我們看到的只是這個(gè)東西的局部,那么我們都能找到這個(gè)“局部”的同類(lèi)案例。這是我們可以用來(lái)參考的線(xiàn)索,也可以是個(gè)人經(jīng)驗,或者證據。
視頻源自高清落地攝像機和用于懸疑偵探推理的《xxxxx》,侵刪。每一幀觀(guān)看已經(jīng)超過(guò)十分鐘,所以只挑小亮點(diǎn)。小亮點(diǎn)就是“超速攝像”拍攝的那個(gè)片段,在后期剪輯的時(shí)候我也會(huì )把大概的故事講給大家聽(tīng),方便大家理解這個(gè)事件背后的“因果”關(guān)系。如果要更細的了解我故事的詳細內容,請保持關(guān)注后期推出的“安全指南”系列。
這套安全指南里面有很多新聞、影視劇的推理點(diǎn),各位的熱情肯定也很高。同時(shí)大家也可以參加一些有趣的安全體驗活動(dòng),體驗即我們說(shuō)的興趣班,目前我們有三個(gè)體驗名額,開(kāi)始是免費的,就是報了我們才有這個(gè)名額。每期也只安排一天時(shí)間,但是有機會(huì )體驗完后才能報名參加。掃碼識別圖中二維碼報名體驗活動(dòng)。
原創(chuàng )文章被別人即時(shí)復制怎么辦?如何處理??
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 203 次瀏覽 ? 2021-06-21 21:27
許多人討厭他們的原創(chuàng )文章 被其他人立即復制。有些人甚至用它來(lái)發(fā)送一些垃圾郵件鏈接。尤其相信很多老人都遇到過(guò)這樣的情況。有時(shí)他們的努力還不如采集。我們如何處理這種情況?
首先,在參賽者采集這個(gè)文章之前,盡量讓搜索引擎收錄它。
1、 及時(shí)抓取文章,讓搜索引擎知道這個(gè)文章。
2、Ping在百度網(wǎng)站管理自己的文章鏈接上,這也是百度官方告訴我們的一種方式。
二、文章 標記作者或版本。
萬(wàn)向認為,有時(shí)候阻止別人抄襲你的文章是不可能的,但這也是一種書(shū)面的交流和提醒,總比沒(méi)有強。
三、在文章中添加一些功能。
1、例如文章中的標簽代碼如n1、n2、color,搜索引擎會(huì )對這些內容更加敏感,從而加深對原創(chuàng )的判斷。
2、在文章添加你自己的品牌詞匯
3、加一些內鏈,因為喜歡抄文章的人一般比較懶。不排除有些人可以直接復制粘貼。
4、當文章文章被及時(shí)添加時(shí),搜索引擎會(huì )判斷文章的原創(chuàng )性并參考時(shí)間因素。
四、過(guò)濾網(wǎng)頁(yè)的關(guān)鍵功能
大多數人在使用鼠標右鍵復制文章時(shí),如果技術(shù)不受此功能影響,無(wú)疑會(huì )增加采集的麻煩。
五、night 更新
你害怕的是你的對手知道你的習慣,尤其是在白天。很多人喜歡在白天更新自己的文章,卻被別人盯上了。瞬間文章被抄襲。
在我們的網(wǎng)站上可以看到這些方法之后,相信這樣可以減少文章的集合數量。 查看全部
原創(chuàng )文章被別人即時(shí)復制怎么辦?如何處理??
許多人討厭他們的原創(chuàng )文章 被其他人立即復制。有些人甚至用它來(lái)發(fā)送一些垃圾郵件鏈接。尤其相信很多老人都遇到過(guò)這樣的情況。有時(shí)他們的努力還不如采集。我們如何處理這種情況?
首先,在參賽者采集這個(gè)文章之前,盡量讓搜索引擎收錄它。
1、 及時(shí)抓取文章,讓搜索引擎知道這個(gè)文章。
2、Ping在百度網(wǎng)站管理自己的文章鏈接上,這也是百度官方告訴我們的一種方式。
二、文章 標記作者或版本。
萬(wàn)向認為,有時(shí)候阻止別人抄襲你的文章是不可能的,但這也是一種書(shū)面的交流和提醒,總比沒(méi)有強。

三、在文章中添加一些功能。
1、例如文章中的標簽代碼如n1、n2、color,搜索引擎會(huì )對這些內容更加敏感,從而加深對原創(chuàng )的判斷。
2、在文章添加你自己的品牌詞匯
3、加一些內鏈,因為喜歡抄文章的人一般比較懶。不排除有些人可以直接復制粘貼。
4、當文章文章被及時(shí)添加時(shí),搜索引擎會(huì )判斷文章的原創(chuàng )性并參考時(shí)間因素。
四、過(guò)濾網(wǎng)頁(yè)的關(guān)鍵功能
大多數人在使用鼠標右鍵復制文章時(shí),如果技術(shù)不受此功能影響,無(wú)疑會(huì )增加采集的麻煩。
五、night 更新
你害怕的是你的對手知道你的習慣,尤其是在白天。很多人喜歡在白天更新自己的文章,卻被別人盯上了。瞬間文章被抄襲。
在我們的網(wǎng)站上可以看到這些方法之后,相信這樣可以減少文章的集合數量。
爬網(wǎng)址做采集規則的時(shí)候,直觀(guān)標注很方便。
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 155 次瀏覽 ? 2021-08-18 21:30
制作采集規則的時(shí)候,可以很方便的在視覺(jué)上做標記。在網(wǎng)頁(yè)上點(diǎn)擊鼠標標記要抓取的內容。當爬蟲(chóng)運行時(shí),它會(huì )自動(dòng)去采集這些內容。但是,有些內容(如網(wǎng)頁(yè)上的超鏈接)并沒(méi)有直接顯示在網(wǎng)頁(yè)上,或者即使顯示了某些內容,也無(wú)法準確地進(jìn)行視覺(jué)標注。這時(shí)候就需要使用內容映射了。
內容映射必須在對應的DOM節點(diǎn)上進(jìn)行操作。
1.內容映射采集超LINK
下面以京東列表頁(yè)面上的商品鏈接為例,說(shuō)明如何使用內容映射方式將商品鏈接映射到新的內容(字段)。
在定義規則狀態(tài)下,點(diǎn)擊產(chǎn)品名稱(chēng)。在下面的 DOM 列中,光標對應一個(gè) DOM 節點(diǎn)。一般鏈接存放在A(yíng)節點(diǎn)下的屬性節點(diǎn)href中。
右鍵href節點(diǎn),內容映射-新建內容
給新內容起個(gè)名字叫“商品鏈接”,因為采集是一個(gè)URL鏈接,href節點(diǎn)中的URL不完整,所以檢查完整的URL。
大功告成,我們測試一下,看看產(chǎn)品鏈接是否被抓到了。
2.內容映射采集一般網(wǎng)頁(yè)內容
比如我們想要采集this文章,但是在網(wǎng)頁(yè)上只能選擇一個(gè)section進(jìn)行可視化標注,在DOM節點(diǎn)上做內容映射,可以發(fā)送整篇文章至文章采集。
點(diǎn)擊文章的第一段,光標對應下面的節點(diǎn),向上查找節點(diǎn),直到找到一個(gè)節點(diǎn),點(diǎn)擊它,整個(gè)文章在閃亮的框中,表示整個(gè)文章被選中。右擊這個(gè)節點(diǎn),內容映射-新建內容,然后給新建的內容起個(gè)名字。
在這個(gè)例子中,新內容的名稱(chēng)是文章。整個(gè)內容映射到文章。
因為我們的采集是文本內容,所以我們要選擇純文本。
第 1 部分 文章:“爬上 URL 以提高水平 采集”第 2 部分 文章:“定位和映射以改進(jìn)網(wǎng)頁(yè) 采集accuracy” 查看全部
爬網(wǎng)址做采集規則的時(shí)候,直觀(guān)標注很方便。
制作采集規則的時(shí)候,可以很方便的在視覺(jué)上做標記。在網(wǎng)頁(yè)上點(diǎn)擊鼠標標記要抓取的內容。當爬蟲(chóng)運行時(shí),它會(huì )自動(dòng)去采集這些內容。但是,有些內容(如網(wǎng)頁(yè)上的超鏈接)并沒(méi)有直接顯示在網(wǎng)頁(yè)上,或者即使顯示了某些內容,也無(wú)法準確地進(jìn)行視覺(jué)標注。這時(shí)候就需要使用內容映射了。
內容映射必須在對應的DOM節點(diǎn)上進(jìn)行操作。
1.內容映射采集超LINK
下面以京東列表頁(yè)面上的商品鏈接為例,說(shuō)明如何使用內容映射方式將商品鏈接映射到新的內容(字段)。
在定義規則狀態(tài)下,點(diǎn)擊產(chǎn)品名稱(chēng)。在下面的 DOM 列中,光標對應一個(gè) DOM 節點(diǎn)。一般鏈接存放在A(yíng)節點(diǎn)下的屬性節點(diǎn)href中。

右鍵href節點(diǎn),內容映射-新建內容

給新內容起個(gè)名字叫“商品鏈接”,因為采集是一個(gè)URL鏈接,href節點(diǎn)中的URL不完整,所以檢查完整的URL。

大功告成,我們測試一下,看看產(chǎn)品鏈接是否被抓到了。

2.內容映射采集一般網(wǎng)頁(yè)內容
比如我們想要采集this文章,但是在網(wǎng)頁(yè)上只能選擇一個(gè)section進(jìn)行可視化標注,在DOM節點(diǎn)上做內容映射,可以發(fā)送整篇文章至文章采集。

點(diǎn)擊文章的第一段,光標對應下面的節點(diǎn),向上查找節點(diǎn),直到找到一個(gè)節點(diǎn),點(diǎn)擊它,整個(gè)文章在閃亮的框中,表示整個(gè)文章被選中。右擊這個(gè)節點(diǎn),內容映射-新建內容,然后給新建的內容起個(gè)名字。

在這個(gè)例子中,新內容的名稱(chēng)是文章。整個(gè)內容映射到文章。

因為我們的采集是文本內容,所以我們要選擇純文本。

第 1 部分 文章:“爬上 URL 以提高水平 采集”第 2 部分 文章:“定位和映射以改進(jìn)網(wǎng)頁(yè) 采集accuracy”
小說(shuō)漫畫(huà)微信公眾號平臺小程序該怎么形成開(kāi)發(fā)?
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 88 次瀏覽 ? 2021-08-17 20:34
可以使用清博索引進(jìn)行爬取,除了采集到微信公眾號文章,還可以采集到標題,文章序號,原文鏈接,閱讀數,點(diǎn)贊數、發(fā)布時(shí)間等數據,具體步驟如下:
1.采集需要采集的公眾號列表
2.將這些公眾號加入清博指數自定義列表
3.清博Index每天都會(huì )自動(dòng)采集相關(guān)數據,可直接導出
注意:如果沒(méi)有找到相關(guān)公眾號,需要先進(jìn)行存儲操作。
如何建立一個(gè)穩定流暢的微信分發(fā)小說(shuō)源碼系統?
微信小說(shuō)分發(fā)模式的微信版終于出現了!異?;鸨J絹?lái)了。
如何搭建網(wǎng)絡(luò )版小說(shuō)分發(fā)源代碼系統?
微信小說(shuō)分發(fā)閱讀漫畫(huà)源碼小程序,可以實(shí)現各種資源的變現,以及通過(guò)互聯(lián)網(wǎng)對值得閱讀的素材進(jìn)行盈利轉換。新穎的平臺系統在首頁(yè)增加多套模板,自由選擇,隨意切換使用;添加外鏈統計和代理分享統計;給采集 教程。編寫(xiě)win批處理文件可以有效節省從采集到包上傳過(guò)程的操作成本。整個(gè)過(guò)程將有效節省近120倍的工作量(時(shí)間),相當于減少120倍的人工操作成本。
Novel網(wǎng)站開(kāi)發(fā)平臺新增了一套精美時(shí)尚的氛圍模板。
優(yōu)化用戶(hù)進(jìn)入平臺代理渠道的識別問(wèn)題(注意非正品會(huì )導致同一用戶(hù)分別進(jìn)入多個(gè)代理平臺,造成用戶(hù)代理識別混亂)。
如今,大多數企業(yè)家實(shí)際上是使用互聯(lián)網(wǎng)來(lái)創(chuàng )業(yè)。這是目前的創(chuàng )業(yè)趨勢。創(chuàng )業(yè)模式有很多種,比如漫畫(huà)發(fā)行漫畫(huà)源碼代理平臺app應用系統源碼。很多中小企業(yè)和企業(yè)也想搭建自己的平臺,但因為技術(shù)或人力有限,似乎做不到。那么,有沒(méi)有捷徑呢?當然有!當然,在這方面,我們開(kāi)發(fā)的網(wǎng)站系統已經(jīng)注意到了。獨特而精密的算法,讓用戶(hù)買(mǎi)得更放心,玩得更舒心。
小說(shuō)漫畫(huà)微信公眾號平臺如何組建和開(kāi)發(fā)小程序? H5微信開(kāi)發(fā)服務(wù)商應該如何選擇?基于為客戶(hù)帶來(lái)實(shí)質(zhì)性互聯(lián)網(wǎng)經(jīng)濟價(jià)值的能力,我們切實(shí)為客戶(hù)提供網(wǎng)站運營(yíng)內容培訓和交流服務(wù),有效幫助客戶(hù)在網(wǎng)絡(luò )營(yíng)銷(xiāo)中取得實(shí)質(zhì)性成果。目前看來(lái),互聯(lián)網(wǎng)創(chuàng )業(yè)已經(jīng)成為這個(gè)時(shí)代的一個(gè)熱點(diǎn)。不僅是一線(xiàn)城市,很多三四線(xiàn)城市也開(kāi)始了互聯(lián)網(wǎng)創(chuàng )業(yè)熱潮。許多傳統行業(yè)也知道,他們需要結合互聯(lián)網(wǎng)的優(yōu)勢來(lái)發(fā)展。只要他們不斷總結創(chuàng )新,就會(huì )有出路。如果您對此模式感興趣,
有什么辦法可以看到微信安卓版的源碼嗎?
如何閱讀微信小程序的源碼,可以按照以下步驟進(jìn)行:
1、微信小程序是一款無(wú)需下載安裝即可直接使用的應用。您可以通過(guò)微信【掃一掃】或【搜索】打開(kāi)應用。
2、微信小程序現已具備離線(xiàn)掃碼、公眾號關(guān)注、消息通知等多項功能。
3、在微信小程序中,可以向懂的技術(shù)人員求助。他們會(huì )為客戶(hù)查找微信小程序的源代碼,以便我們看到微信小程序的源代碼。
4、 現在各大企業(yè)項目公司都會(huì )培養一些專(zhuān)業(yè)的員工。他們將使用現有技術(shù)查看源代碼。
5、 尋找小程序的源碼很簡(jiǎn)單,源碼會(huì )和銷(xiāo)量成正比。
6、給我們的信息可以告訴我們,查看微信小程序的源代碼是必要和重要的。
7、查看微信小程序源碼及其價(jià)值,與客戶(hù)需求有很大關(guān)系。
8、現在,網(wǎng)絡(luò )市場(chǎng)發(fā)展非常迅速,微信小程序是最受歡迎的市場(chǎng)之一。查看源碼是微信小程序最重要的部分。 查看全部
小說(shuō)漫畫(huà)微信公眾號平臺小程序該怎么形成開(kāi)發(fā)?
可以使用清博索引進(jìn)行爬取,除了采集到微信公眾號文章,還可以采集到標題,文章序號,原文鏈接,閱讀數,點(diǎn)贊數、發(fā)布時(shí)間等數據,具體步驟如下:
1.采集需要采集的公眾號列表
2.將這些公眾號加入清博指數自定義列表

3.清博Index每天都會(huì )自動(dòng)采集相關(guān)數據,可直接導出
注意:如果沒(méi)有找到相關(guān)公眾號,需要先進(jìn)行存儲操作。
如何建立一個(gè)穩定流暢的微信分發(fā)小說(shuō)源碼系統?
微信小說(shuō)分發(fā)模式的微信版終于出現了!異?;鸨J絹?lái)了。
如何搭建網(wǎng)絡(luò )版小說(shuō)分發(fā)源代碼系統?

微信小說(shuō)分發(fā)閱讀漫畫(huà)源碼小程序,可以實(shí)現各種資源的變現,以及通過(guò)互聯(lián)網(wǎng)對值得閱讀的素材進(jìn)行盈利轉換。新穎的平臺系統在首頁(yè)增加多套模板,自由選擇,隨意切換使用;添加外鏈統計和代理分享統計;給采集 教程。編寫(xiě)win批處理文件可以有效節省從采集到包上傳過(guò)程的操作成本。整個(gè)過(guò)程將有效節省近120倍的工作量(時(shí)間),相當于減少120倍的人工操作成本。
Novel網(wǎng)站開(kāi)發(fā)平臺新增了一套精美時(shí)尚的氛圍模板。
優(yōu)化用戶(hù)進(jìn)入平臺代理渠道的識別問(wèn)題(注意非正品會(huì )導致同一用戶(hù)分別進(jìn)入多個(gè)代理平臺,造成用戶(hù)代理識別混亂)。
如今,大多數企業(yè)家實(shí)際上是使用互聯(lián)網(wǎng)來(lái)創(chuàng )業(yè)。這是目前的創(chuàng )業(yè)趨勢。創(chuàng )業(yè)模式有很多種,比如漫畫(huà)發(fā)行漫畫(huà)源碼代理平臺app應用系統源碼。很多中小企業(yè)和企業(yè)也想搭建自己的平臺,但因為技術(shù)或人力有限,似乎做不到。那么,有沒(méi)有捷徑呢?當然有!當然,在這方面,我們開(kāi)發(fā)的網(wǎng)站系統已經(jīng)注意到了。獨特而精密的算法,讓用戶(hù)買(mǎi)得更放心,玩得更舒心。
小說(shuō)漫畫(huà)微信公眾號平臺如何組建和開(kāi)發(fā)小程序? H5微信開(kāi)發(fā)服務(wù)商應該如何選擇?基于為客戶(hù)帶來(lái)實(shí)質(zhì)性互聯(lián)網(wǎng)經(jīng)濟價(jià)值的能力,我們切實(shí)為客戶(hù)提供網(wǎng)站運營(yíng)內容培訓和交流服務(wù),有效幫助客戶(hù)在網(wǎng)絡(luò )營(yíng)銷(xiāo)中取得實(shí)質(zhì)性成果。目前看來(lái),互聯(lián)網(wǎng)創(chuàng )業(yè)已經(jīng)成為這個(gè)時(shí)代的一個(gè)熱點(diǎn)。不僅是一線(xiàn)城市,很多三四線(xiàn)城市也開(kāi)始了互聯(lián)網(wǎng)創(chuàng )業(yè)熱潮。許多傳統行業(yè)也知道,他們需要結合互聯(lián)網(wǎng)的優(yōu)勢來(lái)發(fā)展。只要他們不斷總結創(chuàng )新,就會(huì )有出路。如果您對此模式感興趣,
有什么辦法可以看到微信安卓版的源碼嗎?
如何閱讀微信小程序的源碼,可以按照以下步驟進(jìn)行:
1、微信小程序是一款無(wú)需下載安裝即可直接使用的應用。您可以通過(guò)微信【掃一掃】或【搜索】打開(kāi)應用。
2、微信小程序現已具備離線(xiàn)掃碼、公眾號關(guān)注、消息通知等多項功能。
3、在微信小程序中,可以向懂的技術(shù)人員求助。他們會(huì )為客戶(hù)查找微信小程序的源代碼,以便我們看到微信小程序的源代碼。
4、 現在各大企業(yè)項目公司都會(huì )培養一些專(zhuān)業(yè)的員工。他們將使用現有技術(shù)查看源代碼。
5、 尋找小程序的源碼很簡(jiǎn)單,源碼會(huì )和銷(xiāo)量成正比。
6、給我們的信息可以告訴我們,查看微信小程序的源代碼是必要和重要的。
7、查看微信小程序源碼及其價(jià)值,與客戶(hù)需求有很大關(guān)系。
8、現在,網(wǎng)絡(luò )市場(chǎng)發(fā)展非常迅速,微信小程序是最受歡迎的市場(chǎng)之一。查看源碼是微信小程序最重要的部分。
4大自媒體平臺的爆文標題該怎么寫(xiě)?
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 111 次瀏覽 ? 2021-08-16 21:05
文章采集鏈接:大魚(yú)號、百家號、企鵝號、頭條號這4大自媒體平臺的爆文標題該怎么寫(xiě)?(獲取爆文標題請關(guān)注小編)這是自媒體人的一個(gè)痛處,很多自媒體小伙伴以為文章的標題吸引人,就會(huì )有大把的閱讀量。卻不知道標題只是媒體的開(kāi)始,熱度才是關(guān)鍵。如何寫(xiě)好標題?下面我們來(lái)講講運營(yíng)自媒體的朋友應該注意的幾點(diǎn):一、自媒體文章的定位,興趣指數(興趣度)高不高所謂的定位決定了您讀者對你文章的喜歡程度與平臺的推薦機制。
而興趣高低是決定是否達到爆文的關(guān)鍵因素。1.哪些標題適合運營(yíng)自媒體?中小型自媒體平臺前期主要是以圖文形式展現,推薦機制可能不是很完善,標題和內容是一致的也并不是適合很高的爆文要求,最好都是有個(gè)把觀(guān)點(diǎn)與眾不同,吸引人的標題。2.熱門(mén)標題是誰(shuí)做的?當自媒體平臺剛興起的時(shí)候,肯定會(huì )大量的投入內容創(chuàng )作者,尤其是原創(chuàng )作者和具有社會(huì )價(jià)值或時(shí)事政治價(jià)值的標題黨都會(huì )火一把。
也正是這個(gè)原因,市場(chǎng)上大量的標題黨開(kāi)始火爆起來(lái),但是隨著(zhù)市場(chǎng)的不斷改變,網(wǎng)站的改版,內容創(chuàng )作者的權益提高,大量抄襲的或者沒(méi)有寫(xiě)作實(shí)力的才開(kāi)始在市場(chǎng)上失寵。每個(gè)平臺都會(huì )去核查作者,判斷其身份的真實(shí)性,很多平臺都是支持第三方企業(yè)機構。這就導致很多作者或者一些水平一般的媒體人會(huì )失去曝光的機會(huì )。3.標題需要在標題中加入分號,不加分號的標題有可能影響到搜索引擎對標題的解析,從而導致標題并沒(méi)有被推薦,影響到文章的閱讀量。
從這個(gè)角度考慮,也可以試著(zhù)不加分號。5.標題里要跟主體結合起來(lái),和主體的結合點(diǎn)可以是人名,也可以是地名。小編建議不要使用地名和人名作為標題的關(guān)鍵詞,因為網(wǎng)絡(luò )或者媒體對這些敏感度較高。而是根據自己的地理位置來(lái)解析標題。這樣的好處是當你到一個(gè)陌生的地方時(shí),方便讀者尋找關(guān)鍵詞和主體結合起來(lái)。比如你是在四川成都工作,不用標題寫(xiě)成南充是四川重要城市,而是可以把南充說(shuō)成四川的一個(gè)重要城市。二、自媒體爆文標題寫(xiě)作技巧(下篇)推薦源自:做自媒體一個(gè)月總結。 查看全部
4大自媒體平臺的爆文標題該怎么寫(xiě)?
文章采集鏈接:大魚(yú)號、百家號、企鵝號、頭條號這4大自媒體平臺的爆文標題該怎么寫(xiě)?(獲取爆文標題請關(guān)注小編)這是自媒體人的一個(gè)痛處,很多自媒體小伙伴以為文章的標題吸引人,就會(huì )有大把的閱讀量。卻不知道標題只是媒體的開(kāi)始,熱度才是關(guān)鍵。如何寫(xiě)好標題?下面我們來(lái)講講運營(yíng)自媒體的朋友應該注意的幾點(diǎn):一、自媒體文章的定位,興趣指數(興趣度)高不高所謂的定位決定了您讀者對你文章的喜歡程度與平臺的推薦機制。
而興趣高低是決定是否達到爆文的關(guān)鍵因素。1.哪些標題適合運營(yíng)自媒體?中小型自媒體平臺前期主要是以圖文形式展現,推薦機制可能不是很完善,標題和內容是一致的也并不是適合很高的爆文要求,最好都是有個(gè)把觀(guān)點(diǎn)與眾不同,吸引人的標題。2.熱門(mén)標題是誰(shuí)做的?當自媒體平臺剛興起的時(shí)候,肯定會(huì )大量的投入內容創(chuàng )作者,尤其是原創(chuàng )作者和具有社會(huì )價(jià)值或時(shí)事政治價(jià)值的標題黨都會(huì )火一把。
也正是這個(gè)原因,市場(chǎng)上大量的標題黨開(kāi)始火爆起來(lái),但是隨著(zhù)市場(chǎng)的不斷改變,網(wǎng)站的改版,內容創(chuàng )作者的權益提高,大量抄襲的或者沒(méi)有寫(xiě)作實(shí)力的才開(kāi)始在市場(chǎng)上失寵。每個(gè)平臺都會(huì )去核查作者,判斷其身份的真實(shí)性,很多平臺都是支持第三方企業(yè)機構。這就導致很多作者或者一些水平一般的媒體人會(huì )失去曝光的機會(huì )。3.標題需要在標題中加入分號,不加分號的標題有可能影響到搜索引擎對標題的解析,從而導致標題并沒(méi)有被推薦,影響到文章的閱讀量。
從這個(gè)角度考慮,也可以試著(zhù)不加分號。5.標題里要跟主體結合起來(lái),和主體的結合點(diǎn)可以是人名,也可以是地名。小編建議不要使用地名和人名作為標題的關(guān)鍵詞,因為網(wǎng)絡(luò )或者媒體對這些敏感度較高。而是根據自己的地理位置來(lái)解析標題。這樣的好處是當你到一個(gè)陌生的地方時(shí),方便讀者尋找關(guān)鍵詞和主體結合起來(lái)。比如你是在四川成都工作,不用標題寫(xiě)成南充是四川重要城市,而是可以把南充說(shuō)成四川的一個(gè)重要城市。二、自媒體爆文標題寫(xiě)作技巧(下篇)推薦源自:做自媒體一個(gè)月總結。
客戶(hù)發(fā)過(guò)來(lái)一個(gè)微信公眾號小說(shuō)分析列表頁(yè)的分析方法
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 87 次瀏覽 ? 2021-08-13 23:06
今天有客戶(hù)發(fā)了個(gè)微信公眾號小說(shuō)文章鏈接,讓我看看能不能用優(yōu)采云爬下來(lái),打開(kāi)手機后發(fā)現沒(méi)有問(wèn)題,可以很可能被爬行。搞定了,一般采集微信公眾號小說(shuō)網(wǎng)站,我在PC端從公眾號爬取,抓包很方便,但是在PC端打開(kāi)的時(shí)候是這樣的:
無(wú)法在PC端打開(kāi)。這很麻煩。如果PC客戶(hù)端無(wú)法打開(kāi),則無(wú)法捕獲數據。我該怎么辦?
因為之前在安卓模擬器里抓過(guò)app,微信上沒(méi)抓到。然后我在模擬器里裝了個(gè)微信,登錄,然后就抓包成功了,抓包成功了就隨便說(shuō)什么了。國家隊。
點(diǎn)擊圖片看大圖
題外話(huà):Fiddler還是用來(lái)抓微信數據包的。需要設置fiddler和模擬器,因為細節較多,這里不再贅述。
抓包后開(kāi)始分析,分析列表頁(yè),分析內容頁(yè),這種網(wǎng)站,一般的內容頁(yè)章節需要付費,這種情況可以通過(guò)vipcookies解決,還有章節內容沒(méi)有問(wèn)題。
分析list頁(yè)面的時(shí)候發(fā)現前15章都是get請求,其余都是post請求。其中一半是get,一半是post請求。除非使用插件,否則很難在優(yōu)采云 中設置。 ,陶小白仔細觀(guān)察每一章的特點(diǎn),發(fā)現可以直接跳過(guò)小說(shuō)目錄頁(yè)的請求,直接列舉章節。每章的最后一個(gè)數字在增加,有200章,最后一個(gè)。章節url的最后一個(gè)數字是200,所以就詳盡列舉每部小說(shuō)。
最后填入vipcookies就可以順利爬取了。以上為采集的單本,客戶(hù)端針對采集,將好的、熱門(mén)的小說(shuō)爬下來(lái)上傳到自己的平臺。
需要采集微信公號小說(shuō)站的朋友請聯(lián)系站長(cháng) 查看全部
客戶(hù)發(fā)過(guò)來(lái)一個(gè)微信公眾號小說(shuō)分析列表頁(yè)的分析方法
今天有客戶(hù)發(fā)了個(gè)微信公眾號小說(shuō)文章鏈接,讓我看看能不能用優(yōu)采云爬下來(lái),打開(kāi)手機后發(fā)現沒(méi)有問(wèn)題,可以很可能被爬行。搞定了,一般采集微信公眾號小說(shuō)網(wǎng)站,我在PC端從公眾號爬取,抓包很方便,但是在PC端打開(kāi)的時(shí)候是這樣的:

無(wú)法在PC端打開(kāi)。這很麻煩。如果PC客戶(hù)端無(wú)法打開(kāi),則無(wú)法捕獲數據。我該怎么辦?
因為之前在安卓模擬器里抓過(guò)app,微信上沒(méi)抓到。然后我在模擬器里裝了個(gè)微信,登錄,然后就抓包成功了,抓包成功了就隨便說(shuō)什么了。國家隊。

點(diǎn)擊圖片看大圖
題外話(huà):Fiddler還是用來(lái)抓微信數據包的。需要設置fiddler和模擬器,因為細節較多,這里不再贅述。
抓包后開(kāi)始分析,分析列表頁(yè),分析內容頁(yè),這種網(wǎng)站,一般的內容頁(yè)章節需要付費,這種情況可以通過(guò)vipcookies解決,還有章節內容沒(méi)有問(wèn)題。
分析list頁(yè)面的時(shí)候發(fā)現前15章都是get請求,其余都是post請求。其中一半是get,一半是post請求。除非使用插件,否則很難在優(yōu)采云 中設置。 ,陶小白仔細觀(guān)察每一章的特點(diǎn),發(fā)現可以直接跳過(guò)小說(shuō)目錄頁(yè)的請求,直接列舉章節。每章的最后一個(gè)數字在增加,有200章,最后一個(gè)。章節url的最后一個(gè)數字是200,所以就詳盡列舉每部小說(shuō)。
最后填入vipcookies就可以順利爬取了。以上為采集的單本,客戶(hù)端針對采集,將好的、熱門(mén)的小說(shuō)爬下來(lái)上傳到自己的平臺。
需要采集微信公號小說(shuō)站的朋友請聯(lián)系站長(cháng)
運營(yíng)公眾號怎樣收集素材文章的相關(guān)資料?數據
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 134 次瀏覽 ? 2021-08-11 07:26
運營(yíng)公眾號怎樣收集素材文章的相關(guān)資料?數據
對于公眾號運營(yíng)商來(lái)說(shuō),文章素材的采集非常重要,因為它可以有效提高你文章的質(zhì)量。下面我們就跟著(zhù)拓圖數據來(lái)了解一下公眾號的操作方法。采集素材文章的相關(guān)信息。
公眾號運營(yíng)資料如何采集文章方法一
獲取文章鏈接,電腦用戶(hù)可以直接在瀏覽器地址欄中選擇并復制文章鏈接。手機用戶(hù)可以點(diǎn)擊右上角的菜單按鈕,選擇復制鏈接,將鏈接發(fā)送到電腦。
公眾號運營(yíng)材料如何采集文章
點(diǎn)擊拓圖數據采集文章按鈕,編輯器采集文章有兩個(gè)功能入口:編輯菜單右上角的采集文章按鈕; 采集功能按鈕底部右側@文章 按鈕。粘貼文章 鏈接并單擊采集。 采集完成后可以編輯修改文章。
公眾號運營(yíng)資料如何采集文章方法二
從網(wǎng)上可以搜到的公眾號文章采集,這是最直接、最簡(jiǎn)單的解決方案。
大致流程是:
1、通過(guò)搜索引擎搜索微信搜索入口進(jìn)入公眾號搜索。
2、選擇公眾號進(jìn)入公眾號歷史文章列表和文章內容進(jìn)行分析和存儲。
公眾號運營(yíng)材料如何采集文章
如果采集過(guò)于頻繁,搜狗搜索和公眾賬號歷史文章列表訪(fǎng)問(wèn)會(huì )顯示驗證碼。無(wú)法直接使用通用腳本采集獲取驗證碼。在這里您可以使用無(wú)頭瀏覽器通過(guò)對接打碼平臺訪(fǎng)問(wèn)和識別驗證碼。 Selenium 可以用作無(wú)頭瀏覽器。
如何采集文章公眾號運營(yíng)的素材?其實(shí),拓圖數據認為文章對于微信公眾號運營(yíng)的素材采集是非常重要的,所以大家可以按照上面的方法做好文章素材的采集。 ! 查看全部
運營(yíng)公眾號怎樣收集素材文章的相關(guān)資料?數據
對于公眾號運營(yíng)商來(lái)說(shuō),文章素材的采集非常重要,因為它可以有效提高你文章的質(zhì)量。下面我們就跟著(zhù)拓圖數據來(lái)了解一下公眾號的操作方法。采集素材文章的相關(guān)信息。
公眾號運營(yíng)資料如何采集文章方法一
獲取文章鏈接,電腦用戶(hù)可以直接在瀏覽器地址欄中選擇并復制文章鏈接。手機用戶(hù)可以點(diǎn)擊右上角的菜單按鈕,選擇復制鏈接,將鏈接發(fā)送到電腦。
公眾號運營(yíng)材料如何采集文章
點(diǎn)擊拓圖數據采集文章按鈕,編輯器采集文章有兩個(gè)功能入口:編輯菜單右上角的采集文章按鈕; 采集功能按鈕底部右側@文章 按鈕。粘貼文章 鏈接并單擊采集。 采集完成后可以編輯修改文章。
公眾號運營(yíng)資料如何采集文章方法二
從網(wǎng)上可以搜到的公眾號文章采集,這是最直接、最簡(jiǎn)單的解決方案。
大致流程是:
1、通過(guò)搜索引擎搜索微信搜索入口進(jìn)入公眾號搜索。
2、選擇公眾號進(jìn)入公眾號歷史文章列表和文章內容進(jìn)行分析和存儲。
公眾號運營(yíng)材料如何采集文章
如果采集過(guò)于頻繁,搜狗搜索和公眾賬號歷史文章列表訪(fǎng)問(wèn)會(huì )顯示驗證碼。無(wú)法直接使用通用腳本采集獲取驗證碼。在這里您可以使用無(wú)頭瀏覽器通過(guò)對接打碼平臺訪(fǎng)問(wèn)和識別驗證碼。 Selenium 可以用作無(wú)頭瀏覽器。
如何采集文章公眾號運營(yíng)的素材?其實(shí),拓圖數據認為文章對于微信公眾號運營(yíng)的素材采集是非常重要的,所以大家可以按照上面的方法做好文章素材的采集。 !
講解一下如何把一個(gè)網(wǎng)站的文章采集到自己的網(wǎng)站
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 332 次瀏覽 ? 2021-08-11 04:21
以飄柔博客網(wǎng)站()為例,說(shuō)明如何將一個(gè)網(wǎng)站文章采集轉給自己的網(wǎng)站,同時(shí)下載鏈接網(wǎng)盤(pán)地址為也是你自己的(文件批量傳輸到你自己的網(wǎng)盤(pán))。
其實(shí)采集和發(fā)布文章很簡(jiǎn)單。難點(diǎn)是如何批量轉儲或下載對方的文件到你的網(wǎng)站/SkyDrive,可以對應文章和網(wǎng)盤(pán)下載鏈接。
需要準備:
飄柔博客網(wǎng)站優(yōu)采云采集rule VIP賬號,發(fā)布模塊批量傳輸工具,城市通網(wǎng)盤(pán)VIP賬號(對方網(wǎng)站使用城市通網(wǎng)盤(pán)存儲文件,如果你要轉,只能轉到城通網(wǎng)盤(pán),其他網(wǎng)盤(pán)不能直接轉)
目前本站所有中文電子書(shū)的文件都在800G左右。不買(mǎi)城市通行證VIP就下載這么多文件到本地是不現實(shí)的。我的城市通行證VIP大概一千元,我已經(jīng)從下載中賺回來(lái)了(每次下載2到5美分,超過(guò)100M的文件1美分)。
看到這個(gè),有些同學(xué)可以關(guān)掉網(wǎng)頁(yè)離開(kāi)了。
第一步:
把所有文件都dump到自己的網(wǎng)盤(pán)上,5萬(wàn)多個(gè)文件,當然不是手動(dòng)的。所以我寫(xiě)了一個(gè)轉儲工具,可以批量轉儲,重命名城市通行證文件。
問(wèn)題是,為什么要重命名?重命名是非常重要的一步,因為它可以:
避免因名稱(chēng)問(wèn)題統一導致下載鏈接失敗,發(fā)布文章時(shí),可以關(guān)聯(lián)網(wǎng)盤(pán)文件下載鏈接
傳輸文件時(shí),將文件重命名為目標網(wǎng)站文章的ID。比如這個(gè)文章中的電子書(shū)轉移到自己的網(wǎng)盤(pán)后,文件名應該是96233.epub。為什么?看第二步。
33%
第二步:
批量轉儲文件重命名后,使用優(yōu)采云來(lái)采集城通網(wǎng)盤(pán)下載鏈接和文件名生成html文件,以文件名命名。比如上面提到的96233.epub,采集生成96233.html,文件收錄從城通網(wǎng)盤(pán)下載文件的鏈接。
你可以直接在你的網(wǎng)站文章中鏈接這個(gè)html,用戶(hù)在html頁(yè)面點(diǎn)擊網(wǎng)盤(pán)鏈接下載文件,或者在后面的第三步,你可以使用采集的這個(gè)頁(yè)面@法里采集 用戶(hù)會(huì )直接打開(kāi)網(wǎng)盤(pán)頁(yè)面下載;鏈接html的好處是可以展示廣告位獲得收益,看下面的demo(順便點(diǎn)擊廣告有驚喜):
html 文件演示:
此方法適用于免費下載資源。如果是收費的,當然最好直接采集到網(wǎng)盤(pán)地址,避免別人根據html文件名獲取其他文件下載地址。
66%
第 3 步:
既然你已經(jīng)有了從網(wǎng)盤(pán)下載文件的所有鏈接,并且html文件名對應目標站的文件名,你只需要將生成的html上傳到網(wǎng)站space,就可以了使用目標站的優(yōu)采云@k0 采集文章,文件下載地址為采集上傳的html中的網(wǎng)盤(pán)地址。
100%
明白了嗎?不知道怎么下拉。
上述城市通行證文件及采集規則的轉讓請聯(lián)系站長(cháng)咨詢(xún)購買(mǎi),采集Other網(wǎng)站可查詢(xún)。 查看全部
講解一下如何把一個(gè)網(wǎng)站的文章采集到自己的網(wǎng)站
以飄柔博客網(wǎng)站()為例,說(shuō)明如何將一個(gè)網(wǎng)站文章采集轉給自己的網(wǎng)站,同時(shí)下載鏈接網(wǎng)盤(pán)地址為也是你自己的(文件批量傳輸到你自己的網(wǎng)盤(pán))。
其實(shí)采集和發(fā)布文章很簡(jiǎn)單。難點(diǎn)是如何批量轉儲或下載對方的文件到你的網(wǎng)站/SkyDrive,可以對應文章和網(wǎng)盤(pán)下載鏈接。
需要準備:
飄柔博客網(wǎng)站優(yōu)采云采集rule VIP賬號,發(fā)布模塊批量傳輸工具,城市通網(wǎng)盤(pán)VIP賬號(對方網(wǎng)站使用城市通網(wǎng)盤(pán)存儲文件,如果你要轉,只能轉到城通網(wǎng)盤(pán),其他網(wǎng)盤(pán)不能直接轉)
目前本站所有中文電子書(shū)的文件都在800G左右。不買(mǎi)城市通行證VIP就下載這么多文件到本地是不現實(shí)的。我的城市通行證VIP大概一千元,我已經(jīng)從下載中賺回來(lái)了(每次下載2到5美分,超過(guò)100M的文件1美分)。
看到這個(gè),有些同學(xué)可以關(guān)掉網(wǎng)頁(yè)離開(kāi)了。
第一步:
把所有文件都dump到自己的網(wǎng)盤(pán)上,5萬(wàn)多個(gè)文件,當然不是手動(dòng)的。所以我寫(xiě)了一個(gè)轉儲工具,可以批量轉儲,重命名城市通行證文件。
問(wèn)題是,為什么要重命名?重命名是非常重要的一步,因為它可以:
避免因名稱(chēng)問(wèn)題統一導致下載鏈接失敗,發(fā)布文章時(shí),可以關(guān)聯(lián)網(wǎng)盤(pán)文件下載鏈接
傳輸文件時(shí),將文件重命名為目標網(wǎng)站文章的ID。比如這個(gè)文章中的電子書(shū)轉移到自己的網(wǎng)盤(pán)后,文件名應該是96233.epub。為什么?看第二步。
33%
第二步:
批量轉儲文件重命名后,使用優(yōu)采云來(lái)采集城通網(wǎng)盤(pán)下載鏈接和文件名生成html文件,以文件名命名。比如上面提到的96233.epub,采集生成96233.html,文件收錄從城通網(wǎng)盤(pán)下載文件的鏈接。
你可以直接在你的網(wǎng)站文章中鏈接這個(gè)html,用戶(hù)在html頁(yè)面點(diǎn)擊網(wǎng)盤(pán)鏈接下載文件,或者在后面的第三步,你可以使用采集的這個(gè)頁(yè)面@法里采集 用戶(hù)會(huì )直接打開(kāi)網(wǎng)盤(pán)頁(yè)面下載;鏈接html的好處是可以展示廣告位獲得收益,看下面的demo(順便點(diǎn)擊廣告有驚喜):
html 文件演示:
此方法適用于免費下載資源。如果是收費的,當然最好直接采集到網(wǎng)盤(pán)地址,避免別人根據html文件名獲取其他文件下載地址。
66%
第 3 步:
既然你已經(jīng)有了從網(wǎng)盤(pán)下載文件的所有鏈接,并且html文件名對應目標站的文件名,你只需要將生成的html上傳到網(wǎng)站space,就可以了使用目標站的優(yōu)采云@k0 采集文章,文件下載地址為采集上傳的html中的網(wǎng)盤(pán)地址。
100%
明白了嗎?不知道怎么下拉。
上述城市通行證文件及采集規則的轉讓請聯(lián)系站長(cháng)咨詢(xún)購買(mǎi),采集Other網(wǎng)站可查詢(xún)。
采集某一個(gè)指定頁(yè)面的文章包括(欄目id為57)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 150 次瀏覽 ? 2021-08-08 21:19
任務(wù):
指定頁(yè)面的采集文章包括(標題、圖片、描述、內容)導入到自己的網(wǎng)站數據庫對應列(列id為57),數據庫字段分別為(title、thumb , 描述, 內容).
頁(yè)面第一張圖片是文章縮略圖,這里一個(gè)是獲取縮略圖名稱(chēng)并將對應的網(wǎng)站路徑添加到數據庫的thumb字段中,另一個(gè)是下載到本地上傳到指定文件夾. ,(當然可以根據軟件直接ftp,我還沒(méi)做,以后補充)
1、New group--新任務(wù)
2、添加網(wǎng)址+修改獲取網(wǎng)址的規則
選擇ul中li中的鏈接,注意排除重復地址,可以點(diǎn)擊下方測試網(wǎng)址采集獲取。
你可以看到采集的文章鏈接。
3、采集content 規則
我需要采集顯示下圖中的數據(catid是列id,可以把采集的數據放到對應的列中,設置一個(gè)固定值即可)
關(guān)注內容和圖片的采集,標題和描述與內容采集一致
Content采集:
打開(kāi)一個(gè)采集文章頁(yè)面查看源碼(f11右鍵禁用或者view-source:可以在URL前面查看):
選擇文章開(kāi)頭的一個(gè)位置,截取一段,看是不是ctrl+f下的唯一一段。如果是,可以放在下圖1所示的位置,結尾和開(kāi)頭一樣。
我截取了內容,不想里面有鏈接圖片進(jìn)行數據處理,添加--html標簽排除--選擇OK--OK
還有需要下載頁(yè)面圖片,勾選并填寫(xiě)以下選項
圖片采集:
(1)所選范圍與內容一致(文章內圖片)
(2)數據處理選提取第一張圖片內容為:
(3)只要aa.jpg,常規過(guò)濾
獲取內容:aa.jpg
(4)database 是帶前綴存放的,加進(jìn)去,upload/xxxxx/
找到一個(gè)頁(yè)面并測試它??梢钥吹綄奈锲范极@得了。
4、 發(fā)布內容設置,這里以發(fā)布到數據庫的方式為例,編輯完成后返回這里查看剛剛定義的模塊:
5、我需要把圖片保存到本地,還要設置保存文件的路徑(ftp以后會(huì )嘗試使用)。
6、保存,查看新創(chuàng )建的任務(wù),右鍵啟動(dòng)任務(wù),可以看到這里下載了文字和圖片,在數據庫中可以看到。
查看全部
采集某一個(gè)指定頁(yè)面的文章包括(欄目id為57)
任務(wù):
指定頁(yè)面的采集文章包括(標題、圖片、描述、內容)導入到自己的網(wǎng)站數據庫對應列(列id為57),數據庫字段分別為(title、thumb , 描述, 內容).
頁(yè)面第一張圖片是文章縮略圖,這里一個(gè)是獲取縮略圖名稱(chēng)并將對應的網(wǎng)站路徑添加到數據庫的thumb字段中,另一個(gè)是下載到本地上傳到指定文件夾. ,(當然可以根據軟件直接ftp,我還沒(méi)做,以后補充)
1、New group--新任務(wù)

2、添加網(wǎng)址+修改獲取網(wǎng)址的規則

選擇ul中li中的鏈接,注意排除重復地址,可以點(diǎn)擊下方測試網(wǎng)址采集獲取。

你可以看到采集的文章鏈接。

3、采集content 規則
我需要采集顯示下圖中的數據(catid是列id,可以把采集的數據放到對應的列中,設置一個(gè)固定值即可)

關(guān)注內容和圖片的采集,標題和描述與內容采集一致

Content采集:
打開(kāi)一個(gè)采集文章頁(yè)面查看源碼(f11右鍵禁用或者view-source:可以在URL前面查看):
選擇文章開(kāi)頭的一個(gè)位置,截取一段,看是不是ctrl+f下的唯一一段。如果是,可以放在下圖1所示的位置,結尾和開(kāi)頭一樣。
我截取了內容,不想里面有鏈接圖片進(jìn)行數據處理,添加--html標簽排除--選擇OK--OK

還有需要下載頁(yè)面圖片,勾選并填寫(xiě)以下選項

圖片采集:
(1)所選范圍與內容一致(文章內圖片)
(2)數據處理選提取第一張圖片內容為:
(3)只要aa.jpg,常規過(guò)濾

獲取內容:aa.jpg
(4)database 是帶前綴存放的,加進(jìn)去,upload/xxxxx/

找到一個(gè)頁(yè)面并測試它??梢钥吹綄奈锲范极@得了。

4、 發(fā)布內容設置,這里以發(fā)布到數據庫的方式為例,編輯完成后返回這里查看剛剛定義的模塊:


5、我需要把圖片保存到本地,還要設置保存文件的路徑(ftp以后會(huì )嘗試使用)。

6、保存,查看新創(chuàng )建的任務(wù),右鍵啟動(dòng)任務(wù),可以看到這里下載了文字和圖片,在數據庫中可以看到。
一個(gè)微信公眾號歷史消息頁(yè)面的鏈接地址和采集方法
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 647 次瀏覽 ? 2021-08-08 21:18
2014年開(kāi)始做微信公眾號內容的批量采集,最初的目的是為了制作一個(gè)html5垃圾郵件網(wǎng)站。當時(shí),垃圾站采集到達的微信公眾號內容很容易在公眾號傳播。當時(shí)批量采集特別好做,采集入口就是公眾號的歷史新聞頁(yè)面。這個(gè)條目現在是一樣的,但越來(lái)越難采集。 采集 方法也在很多版本中進(jìn)行了更新。后來(lái)到了2015年,html5垃圾站就不做了。而是將采集目標定位在本地新聞資訊公眾號,前端展示被做成了一個(gè)app。于是一個(gè)可以自動(dòng)采集公號內容的新聞APP就形成了。曾經(jīng)擔心微信技術(shù)升級一天后采集內容不可用,我的新聞應用程序失敗。但是隨著(zhù)微信的不斷技術(shù)升級,采集方式也得到了升級,這讓我越來(lái)越有信心。只要公眾號歷史消息頁(yè)面存在,就可以批量采集內容。所以今天整理了一下,決定把采集方法寫(xiě)下來(lái)。我的方法來(lái)自于很多同事的分享精神,所以我會(huì )延續這種精神,分享我的成果。
本文文章會(huì )持續更新,保證您看到的內容在您看到時(shí)可用。
首先我們來(lái)看一個(gè)微信公眾號歷史消息頁(yè)面的鏈接地址:
http://mp.weixin.qq.com/mp/get ... irect
========2017 年 1 月 11 日更新==========
現在根據不同的微信個(gè)人賬號,會(huì )有兩個(gè)不同的歷史消息頁(yè)面地址。下面是另一個(gè)歷史消息頁(yè)面的地址。第一種地址的鏈接在anyproxy中會(huì )顯示302跳轉:
https://mp.weixin.qq.com/mp/pr ... irect
第一個(gè)鏈接地址的頁(yè)面樣式:
第二個(gè)鏈接地址的頁(yè)面樣式:
根據目前的信息,這兩種頁(yè)面格式在不同的微信賬號中出現不規則。有的微信賬號永遠是第一頁(yè)格式,有的永遠是第二頁(yè)格式。
上面的鏈接是微信公眾號歷史新聞頁(yè)面的真實(shí)鏈接,但是當我們在瀏覽器中輸入這個(gè)鏈接時(shí),會(huì )顯示:請從微信客戶(hù)端訪(fǎng)問(wèn)。這是因為鏈接地址實(shí)際上需要幾個(gè)參數才能正常顯示內容。我們來(lái)看看一個(gè)可以正常顯示內容的完整鏈接是什么樣子的:
//第一種鏈接
http://mp.weixin.qq.com/mp/get ... r%3D1
//第二種
http://mp.weixin.qq.com/mp/pro ... r%3D1
該地址是通過(guò)微信客戶(hù)端打開(kāi)歷史消息頁(yè)面后,使用后面介紹的代理服務(wù)器軟件獲取的。這里有幾個(gè)參數:
action=;__biz=;uin=;key=;devicetype=;version=;lang=;nettype=;scene=;pass_ticket=;wx_header=;
重要的參數是:__biz;uin=;key=;pass_ticket=;這4個(gè)參數。
__biz 是公眾號的類(lèi)似id的參數。每個(gè)公眾號都有一個(gè)微信。目前公眾號的biz變動(dòng)的可能性很??;
剩下的3個(gè)參數與用戶(hù)id和tokenticket的含義有關(guān)。這3個(gè)參數的值在微信客戶(hù)端生成后會(huì )自動(dòng)添加到地址欄。所以我們認為采集公眾號必須通過(guò)微信客戶(hù)端。在之前的微信版本中,這3個(gè)參數也可以一次性獲取,在有效期內可以使用多個(gè)公眾號。在當前版本中,每次訪(fǎng)問(wèn)公眾號都會(huì )更改參數值。
我現在使用的方法只需要關(guān)注__biz參數即可。
我的采集系統由以下部分組成:
1、A 微信客戶(hù)端:可以是安裝了微信應用的手機,也可以是電腦中的安卓模擬器。批量采集測試的ios微信客戶(hù)端崩潰率高于A(yíng)ndroid系統。為了降低成本,我使用了Android模擬器。
2、A微信個(gè)人賬號:采集內容不僅需要微信客戶(hù)端,還需要采集專(zhuān)用的微信個(gè)人賬號,因為這個(gè)微信賬號不能做其他事情。
3、本地代理服務(wù)器系統:目前使用的方法是通過(guò)Anyproxy代理服務(wù)器將公眾號歷史消息頁(yè)面中的文章列表發(fā)送到自己的服務(wù)器。具體安裝方法后面會(huì )詳細介紹。
4、文章List分析入庫系統:本人使用PHP語(yǔ)言編寫(xiě),下篇文章將詳細介紹如何分析文章lists并創(chuàng )建采集queues實(shí)現批量采集內容.
步驟
一、 安裝模擬器或使用手機安裝微信客戶(hù)端APP,申請微信個(gè)人賬號并登錄APP。這個(gè)就不多介紹了,大家自己做。
二、代理服務(wù)器系統安裝
目前我使用 Anyproxy、AnyProxy。這個(gè)軟件的特點(diǎn)是可以獲取https鏈接的內容。 2016年初,微信公眾號和微信文章開(kāi)始使用https鏈接。而Anyproxy可以通過(guò)修改規則配置,在公眾號頁(yè)面插入腳本代碼。下面將介紹安裝和配置過(guò)程。
1、Install NodeJS
2、在命令行或終端運行npm install -g anyproxy,mac系統需要添加sudo;
3、生成RootCA,https需要這個(gè)證書(shū):運行命令sudo anyproxy --root(windows可能不需要sudo);
4、 啟動(dòng) anyproxy 運行命令:sudo anyproxy -i;參數-i表示解析HTTPS;
5、安裝證書(shū),在手機或者安卓模擬器安裝證書(shū):
6、Set proxy:安卓模擬器的代理服務(wù)器地址是wifi鏈接的網(wǎng)關(guān)。通過(guò)dhcp設置為靜態(tài)后就可以看到網(wǎng)關(guān)地址了。閱讀后不要忘記將其設置為自動(dòng)。手機中的代理服務(wù)器地址就是運行anyproxy的電腦的ip地址。代理服務(wù)器默認端口為8001;
現在打開(kāi)微信,點(diǎn)擊任意公眾號歷史消息或者文章,可以看到在終端滾動(dòng)的響應碼。如果沒(méi)有出現,請檢查手機的代理設置是否正確。
現在打開(kāi)瀏覽器地址localhost:8002就可以看到anyproxy的web界面了。微信點(diǎn)擊打開(kāi)一個(gè)歷史消息頁(yè)面,然后在瀏覽器的web界面查看,歷史消息頁(yè)面的地址會(huì )滾動(dòng)。
/mp/getmasssendmsg開(kāi)頭的網(wǎng)址是微信歷史消息頁(yè)面。左邊的小鎖表示這個(gè)頁(yè)面是 https 加密的?,F在我們點(diǎn)擊這一行;
========2017 年 1 月 11 日更新==========
一些以/mp/getmasssendmsg開(kāi)頭的微信網(wǎng)址會(huì )出現302跳轉到以/mp/profile_ext?action=home開(kāi)頭的地址。所以點(diǎn)擊這個(gè)地址可以看到內容。
如果右側出現html文件內容,則表示解密成功。如果沒(méi)有內容,請檢查anyproxy運行方式是否有參數i,是否生成CA證書(shū),是否在手機上正確安裝了證書(shū)。
現在我們手機中的所有內容都可以明文通過(guò)代理服務(wù)器了。接下來(lái),我們需要修改代理服務(wù)器的配置,以便獲取公眾號的內容。
一、找到配置文件:
mac系統中配置文件的位置是/usr/local/lib/node_modules/anyproxy/lib/;對于windows系統,不知道還請見(jiàn)諒。應該可以根據類(lèi)似mac的文件夾地址找到這個(gè)目錄。
二、修改文件 rule_default.js
找到 replaceServerResDataAsync: function(req,res,serverResData,callback) 函數
修改函數內容(請注意詳細閱讀注釋?zhuān)@里只是介紹原理,了解后根據自己的情況修改內容):
========2017 年 1 月 11 日更新==========
因為有兩種頁(yè)面格式,相同的頁(yè)面格式總是在不同的微信賬號中顯示,但是為了兼容兩種頁(yè)面格式,下面的代碼會(huì )保留兩種頁(yè)面格式的判斷。您也可以按照從您自己的頁(yè)面表單中刪除 li
replaceServerResDataAsync: function(req,res,serverResData,callback){
if(/mp\/getmasssendmsg/i.test(req.url)){//當鏈接地址為公眾號歷史消息頁(yè)面時(shí)(第一種頁(yè)面形式)
if(serverResData.toString() !== ""){
try {//防止報錯退出程序
var reg = /msgList = (.*?);/;//定義歷史消息正則匹配規則
var ret = reg.exec(serverResData.toString());//轉換變量為string
HttpPost(ret[1],req.url,"getMsgJson.php");//這個(gè)函數是后文定義的,將匹配到的歷史消息json發(fā)送到自己的服務(wù)器
var http = require('http');
http.get('http://xxx.com/getWxHis.php', function(res) {//這個(gè)地址是自己服務(wù)器上的一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxHis.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);//將返回的代碼插入到歷史消息頁(yè)面中,并返回顯示出來(lái)
})
});
}catch(e){//如果上面的正則沒(méi)有匹配到,那么這個(gè)頁(yè)面內容可能是公眾號歷史消息頁(yè)面向下翻動(dòng)的第二頁(yè),因為歷史消息第一頁(yè)是html格式的,第二頁(yè)就是json格式的。
try {
var json = JSON.parse(serverResData.toString());
if (json.general_msg_list != []) {
HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//這個(gè)函數和上面的一樣是后文定義的,將第二頁(yè)歷史消息的json發(fā)送到自己的服務(wù)器
}
}catch(e){
console.log(e);//錯誤捕捉
}
callback(serverResData);//直接返回第二頁(yè)json內容
}
}
}else if(/mp\/profile_ext\?action=home/i.test(req.url)){//當鏈接地址為公眾號歷史消息頁(yè)面時(shí)(第二種頁(yè)面形式)
try {
var reg = /var msgList = \'(.*?)\';/;//定義歷史消息正則匹配規則(和第一種頁(yè)面形式的正則不同)
var ret = reg.exec(serverResData.toString());//轉換變量為string
HttpPost(ret[1],req.url,"getMsgJson.php");//這個(gè)函數是后文定義的,將匹配到的歷史消息json發(fā)送到自己的服務(wù)器
var http = require('http');
http.get('http://xxx.com/getWxHis', function(res) {//這個(gè)地址是自己服務(wù)器上的一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxHis.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);//將返回的代碼插入到歷史消息頁(yè)面中,并返回顯示出來(lái)
})
});
}catch(e){
callback(serverResData);
}
}else if(/mp\/profile_ext\?action=getmsg/i.test(req.url)){//第二種頁(yè)面表現形式的向下翻頁(yè)后的json
try {
var json = JSON.parse(serverResData.toString());
if (json.general_msg_list != []) {
HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//這個(gè)函數和上面的一樣是后文定義的,將第二頁(yè)歷史消息的json發(fā)送到自己的服務(wù)器
}
}catch(e){
console.log(e);
}
callback(serverResData);
}else if(/mp\/getappmsgext/i.test(req.url)){//當鏈接地址為公眾號文章閱讀量和點(diǎn)贊量時(shí)
try {
HttpPost(serverResData,req.url,"getMsgExt.php");//函數是后文定義的,功能是將文章閱讀量點(diǎn)贊量的json發(fā)送到服務(wù)器
}catch(e){
}
callback(serverResData);
}else if(/s\?__biz/i.test(req.url) || /mp\/rumor/i.test(req.url)){//當鏈接地址為公眾號文章時(shí)(rumor這個(gè)地址是公眾號文章被辟謠了)
try {
var http = require('http');
http.get('http://xxx.com/getWxPost.php', function(res) {//這個(gè)地址是自己服務(wù)器上的另一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxPost.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);
})
});
}catch(e){
callback(serverResData);
}
}else{
callback(serverResData);
}
},
以上代碼是使用anyproxy修改返回頁(yè)面內容、向頁(yè)面注入腳本、將頁(yè)面內容發(fā)送到服務(wù)器的功能。利用這個(gè)原理批量處理采集公眾號內容和閱讀量。該腳本中自定義了一個(gè)函數,詳細說(shuō)明如下:
在 rule_default.js 文件末尾添加以下代碼:
function HttpPost(str,url,path) {//將json發(fā)送到服務(wù)器,str為json內容,url為歷史消息頁(yè)面地址,path是接收程序的路徑和文件名
var http = require('http');
var data = {
str: encodeURIComponent(str),
url: encodeURIComponent(url)
};
content = require('querystring').stringify(data);
var options = {
method: "POST",
host: "www.xxx.com",//注意沒(méi)有http://,這是服務(wù)器的域名。
port: 80,
path: path,//接收程序的路徑和文件名
headers: {
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
"Content-Length": content.length
}
};
var req = http.request(options, function (res) {
res.setEncoding('utf8');
res.on('data', function (chunk) {
console.log('BODY: ' + chunk);
});
});
req.on('error', function (e) {
console.log('problem with request: ' + e.message);
});
req.write(content);
req.end();
}
以上是規則修改的主要部分。您需要將json內容發(fā)送到您自己的服務(wù)器,并從服務(wù)器獲取到下一頁(yè)的跳轉地址。這涉及到四個(gè)php文件:getMsgJson.php、getMsgExt.php、getWxHis.php、getWxPost.php
在詳細介紹這4個(gè)php文件之前,為了提高采集系統性能,降低崩潰率,我們還可以做一些修改:
Android模擬器經(jīng)常訪(fǎng)問(wèn)一些地址,會(huì )導致anyproxy崩潰,找到函數replaceRequestOption:function(req,option),修改函數內容:
replaceRequestOption : function(req,option){
var newOption = option;
if(/google/i.test(newOption.headers.host)){
newOption.hostname = "www.baidu.com";
newOption.port = "80";
}
return newOption;
},
以上是anyproxy的規則文件的修改配置。配置修改完成后,重啟anyproxy。在mac系統下,按control+c中斷程序,然后輸入命令sudo anyproxy -i啟動(dòng);如果報錯,程序可能無(wú)法干凈退出,端口被占用。這時(shí)候輸入命令ps -a查看占用的pid,然后輸入命令“kill -9 pid”將pid替換為查詢(xún)到的pid號。殺掉進(jìn)程后,就可以啟動(dòng)anyproxy了。再次請原諒我不熟悉windows命令。
接下來(lái)詳細介紹服務(wù)器端接收程序的設計原理:
?。ㄒ韵麓a不能直接使用,只介紹原理,部分需要根據自己的服務(wù)器數據庫框架編寫(xiě))
1、getMsgJson.php:該程序負責接收歷史消息的json,解析并存入數據庫
<p> 查看全部
一個(gè)微信公眾號歷史消息頁(yè)面的鏈接地址和采集方法
2014年開(kāi)始做微信公眾號內容的批量采集,最初的目的是為了制作一個(gè)html5垃圾郵件網(wǎng)站。當時(shí),垃圾站采集到達的微信公眾號內容很容易在公眾號傳播。當時(shí)批量采集特別好做,采集入口就是公眾號的歷史新聞頁(yè)面。這個(gè)條目現在是一樣的,但越來(lái)越難采集。 采集 方法也在很多版本中進(jìn)行了更新。后來(lái)到了2015年,html5垃圾站就不做了。而是將采集目標定位在本地新聞資訊公眾號,前端展示被做成了一個(gè)app。于是一個(gè)可以自動(dòng)采集公號內容的新聞APP就形成了。曾經(jīng)擔心微信技術(shù)升級一天后采集內容不可用,我的新聞應用程序失敗。但是隨著(zhù)微信的不斷技術(shù)升級,采集方式也得到了升級,這讓我越來(lái)越有信心。只要公眾號歷史消息頁(yè)面存在,就可以批量采集內容。所以今天整理了一下,決定把采集方法寫(xiě)下來(lái)。我的方法來(lái)自于很多同事的分享精神,所以我會(huì )延續這種精神,分享我的成果。
本文文章會(huì )持續更新,保證您看到的內容在您看到時(shí)可用。
首先我們來(lái)看一個(gè)微信公眾號歷史消息頁(yè)面的鏈接地址:
http://mp.weixin.qq.com/mp/get ... irect
========2017 年 1 月 11 日更新==========
現在根據不同的微信個(gè)人賬號,會(huì )有兩個(gè)不同的歷史消息頁(yè)面地址。下面是另一個(gè)歷史消息頁(yè)面的地址。第一種地址的鏈接在anyproxy中會(huì )顯示302跳轉:
https://mp.weixin.qq.com/mp/pr ... irect
第一個(gè)鏈接地址的頁(yè)面樣式:

第二個(gè)鏈接地址的頁(yè)面樣式:

根據目前的信息,這兩種頁(yè)面格式在不同的微信賬號中出現不規則。有的微信賬號永遠是第一頁(yè)格式,有的永遠是第二頁(yè)格式。
上面的鏈接是微信公眾號歷史新聞頁(yè)面的真實(shí)鏈接,但是當我們在瀏覽器中輸入這個(gè)鏈接時(shí),會(huì )顯示:請從微信客戶(hù)端訪(fǎng)問(wèn)。這是因為鏈接地址實(shí)際上需要幾個(gè)參數才能正常顯示內容。我們來(lái)看看一個(gè)可以正常顯示內容的完整鏈接是什么樣子的:
//第一種鏈接
http://mp.weixin.qq.com/mp/get ... r%3D1
//第二種
http://mp.weixin.qq.com/mp/pro ... r%3D1
該地址是通過(guò)微信客戶(hù)端打開(kāi)歷史消息頁(yè)面后,使用后面介紹的代理服務(wù)器軟件獲取的。這里有幾個(gè)參數:
action=;__biz=;uin=;key=;devicetype=;version=;lang=;nettype=;scene=;pass_ticket=;wx_header=;
重要的參數是:__biz;uin=;key=;pass_ticket=;這4個(gè)參數。
__biz 是公眾號的類(lèi)似id的參數。每個(gè)公眾號都有一個(gè)微信。目前公眾號的biz變動(dòng)的可能性很??;
剩下的3個(gè)參數與用戶(hù)id和tokenticket的含義有關(guān)。這3個(gè)參數的值在微信客戶(hù)端生成后會(huì )自動(dòng)添加到地址欄。所以我們認為采集公眾號必須通過(guò)微信客戶(hù)端。在之前的微信版本中,這3個(gè)參數也可以一次性獲取,在有效期內可以使用多個(gè)公眾號。在當前版本中,每次訪(fǎng)問(wèn)公眾號都會(huì )更改參數值。
我現在使用的方法只需要關(guān)注__biz參數即可。
我的采集系統由以下部分組成:
1、A 微信客戶(hù)端:可以是安裝了微信應用的手機,也可以是電腦中的安卓模擬器。批量采集測試的ios微信客戶(hù)端崩潰率高于A(yíng)ndroid系統。為了降低成本,我使用了Android模擬器。

2、A微信個(gè)人賬號:采集內容不僅需要微信客戶(hù)端,還需要采集專(zhuān)用的微信個(gè)人賬號,因為這個(gè)微信賬號不能做其他事情。
3、本地代理服務(wù)器系統:目前使用的方法是通過(guò)Anyproxy代理服務(wù)器將公眾號歷史消息頁(yè)面中的文章列表發(fā)送到自己的服務(wù)器。具體安裝方法后面會(huì )詳細介紹。
4、文章List分析入庫系統:本人使用PHP語(yǔ)言編寫(xiě),下篇文章將詳細介紹如何分析文章lists并創(chuàng )建采集queues實(shí)現批量采集內容.
步驟
一、 安裝模擬器或使用手機安裝微信客戶(hù)端APP,申請微信個(gè)人賬號并登錄APP。這個(gè)就不多介紹了,大家自己做。
二、代理服務(wù)器系統安裝
目前我使用 Anyproxy、AnyProxy。這個(gè)軟件的特點(diǎn)是可以獲取https鏈接的內容。 2016年初,微信公眾號和微信文章開(kāi)始使用https鏈接。而Anyproxy可以通過(guò)修改規則配置,在公眾號頁(yè)面插入腳本代碼。下面將介紹安裝和配置過(guò)程。
1、Install NodeJS
2、在命令行或終端運行npm install -g anyproxy,mac系統需要添加sudo;
3、生成RootCA,https需要這個(gè)證書(shū):運行命令sudo anyproxy --root(windows可能不需要sudo);
4、 啟動(dòng) anyproxy 運行命令:sudo anyproxy -i;參數-i表示解析HTTPS;
5、安裝證書(shū),在手機或者安卓模擬器安裝證書(shū):
6、Set proxy:安卓模擬器的代理服務(wù)器地址是wifi鏈接的網(wǎng)關(guān)。通過(guò)dhcp設置為靜態(tài)后就可以看到網(wǎng)關(guān)地址了。閱讀后不要忘記將其設置為自動(dòng)。手機中的代理服務(wù)器地址就是運行anyproxy的電腦的ip地址。代理服務(wù)器默認端口為8001;

現在打開(kāi)微信,點(diǎn)擊任意公眾號歷史消息或者文章,可以看到在終端滾動(dòng)的響應碼。如果沒(méi)有出現,請檢查手機的代理設置是否正確。

現在打開(kāi)瀏覽器地址localhost:8002就可以看到anyproxy的web界面了。微信點(diǎn)擊打開(kāi)一個(gè)歷史消息頁(yè)面,然后在瀏覽器的web界面查看,歷史消息頁(yè)面的地址會(huì )滾動(dòng)。

/mp/getmasssendmsg開(kāi)頭的網(wǎng)址是微信歷史消息頁(yè)面。左邊的小鎖表示這個(gè)頁(yè)面是 https 加密的?,F在我們點(diǎn)擊這一行;
========2017 年 1 月 11 日更新==========
一些以/mp/getmasssendmsg開(kāi)頭的微信網(wǎng)址會(huì )出現302跳轉到以/mp/profile_ext?action=home開(kāi)頭的地址。所以點(diǎn)擊這個(gè)地址可以看到內容。

如果右側出現html文件內容,則表示解密成功。如果沒(méi)有內容,請檢查anyproxy運行方式是否有參數i,是否生成CA證書(shū),是否在手機上正確安裝了證書(shū)。
現在我們手機中的所有內容都可以明文通過(guò)代理服務(wù)器了。接下來(lái),我們需要修改代理服務(wù)器的配置,以便獲取公眾號的內容。
一、找到配置文件:
mac系統中配置文件的位置是/usr/local/lib/node_modules/anyproxy/lib/;對于windows系統,不知道還請見(jiàn)諒。應該可以根據類(lèi)似mac的文件夾地址找到這個(gè)目錄。
二、修改文件 rule_default.js
找到 replaceServerResDataAsync: function(req,res,serverResData,callback) 函數
修改函數內容(請注意詳細閱讀注釋?zhuān)@里只是介紹原理,了解后根據自己的情況修改內容):
========2017 年 1 月 11 日更新==========
因為有兩種頁(yè)面格式,相同的頁(yè)面格式總是在不同的微信賬號中顯示,但是為了兼容兩種頁(yè)面格式,下面的代碼會(huì )保留兩種頁(yè)面格式的判斷。您也可以按照從您自己的頁(yè)面表單中刪除 li
replaceServerResDataAsync: function(req,res,serverResData,callback){
if(/mp\/getmasssendmsg/i.test(req.url)){//當鏈接地址為公眾號歷史消息頁(yè)面時(shí)(第一種頁(yè)面形式)
if(serverResData.toString() !== ""){
try {//防止報錯退出程序
var reg = /msgList = (.*?);/;//定義歷史消息正則匹配規則
var ret = reg.exec(serverResData.toString());//轉換變量為string
HttpPost(ret[1],req.url,"getMsgJson.php");//這個(gè)函數是后文定義的,將匹配到的歷史消息json發(fā)送到自己的服務(wù)器
var http = require('http');
http.get('http://xxx.com/getWxHis.php', function(res) {//這個(gè)地址是自己服務(wù)器上的一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxHis.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);//將返回的代碼插入到歷史消息頁(yè)面中,并返回顯示出來(lái)
})
});
}catch(e){//如果上面的正則沒(méi)有匹配到,那么這個(gè)頁(yè)面內容可能是公眾號歷史消息頁(yè)面向下翻動(dòng)的第二頁(yè),因為歷史消息第一頁(yè)是html格式的,第二頁(yè)就是json格式的。
try {
var json = JSON.parse(serverResData.toString());
if (json.general_msg_list != []) {
HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//這個(gè)函數和上面的一樣是后文定義的,將第二頁(yè)歷史消息的json發(fā)送到自己的服務(wù)器
}
}catch(e){
console.log(e);//錯誤捕捉
}
callback(serverResData);//直接返回第二頁(yè)json內容
}
}
}else if(/mp\/profile_ext\?action=home/i.test(req.url)){//當鏈接地址為公眾號歷史消息頁(yè)面時(shí)(第二種頁(yè)面形式)
try {
var reg = /var msgList = \'(.*?)\';/;//定義歷史消息正則匹配規則(和第一種頁(yè)面形式的正則不同)
var ret = reg.exec(serverResData.toString());//轉換變量為string
HttpPost(ret[1],req.url,"getMsgJson.php");//這個(gè)函數是后文定義的,將匹配到的歷史消息json發(fā)送到自己的服務(wù)器
var http = require('http');
http.get('http://xxx.com/getWxHis', function(res) {//這個(gè)地址是自己服務(wù)器上的一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxHis.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);//將返回的代碼插入到歷史消息頁(yè)面中,并返回顯示出來(lái)
})
});
}catch(e){
callback(serverResData);
}
}else if(/mp\/profile_ext\?action=getmsg/i.test(req.url)){//第二種頁(yè)面表現形式的向下翻頁(yè)后的json
try {
var json = JSON.parse(serverResData.toString());
if (json.general_msg_list != []) {
HttpPost(json.general_msg_list,req.url,"getMsgJson.php");//這個(gè)函數和上面的一樣是后文定義的,將第二頁(yè)歷史消息的json發(fā)送到自己的服務(wù)器
}
}catch(e){
console.log(e);
}
callback(serverResData);
}else if(/mp\/getappmsgext/i.test(req.url)){//當鏈接地址為公眾號文章閱讀量和點(diǎn)贊量時(shí)
try {
HttpPost(serverResData,req.url,"getMsgExt.php");//函數是后文定義的,功能是將文章閱讀量點(diǎn)贊量的json發(fā)送到服務(wù)器
}catch(e){
}
callback(serverResData);
}else if(/s\?__biz/i.test(req.url) || /mp\/rumor/i.test(req.url)){//當鏈接地址為公眾號文章時(shí)(rumor這個(gè)地址是公眾號文章被辟謠了)
try {
var http = require('http');
http.get('http://xxx.com/getWxPost.php', function(res) {//這個(gè)地址是自己服務(wù)器上的另一個(gè)程序,目的是為了獲取到下一個(gè)鏈接地址,將地址放在一個(gè)js腳本中,將頁(yè)面自動(dòng)跳轉到下一頁(yè)。后文將介紹getWxPost.php的原理。
res.on('data', function(chunk){
callback(chunk+serverResData);
})
});
}catch(e){
callback(serverResData);
}
}else{
callback(serverResData);
}
},
以上代碼是使用anyproxy修改返回頁(yè)面內容、向頁(yè)面注入腳本、將頁(yè)面內容發(fā)送到服務(wù)器的功能。利用這個(gè)原理批量處理采集公眾號內容和閱讀量。該腳本中自定義了一個(gè)函數,詳細說(shuō)明如下:
在 rule_default.js 文件末尾添加以下代碼:
function HttpPost(str,url,path) {//將json發(fā)送到服務(wù)器,str為json內容,url為歷史消息頁(yè)面地址,path是接收程序的路徑和文件名
var http = require('http');
var data = {
str: encodeURIComponent(str),
url: encodeURIComponent(url)
};
content = require('querystring').stringify(data);
var options = {
method: "POST",
host: "www.xxx.com",//注意沒(méi)有http://,這是服務(wù)器的域名。
port: 80,
path: path,//接收程序的路徑和文件名
headers: {
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
"Content-Length": content.length
}
};
var req = http.request(options, function (res) {
res.setEncoding('utf8');
res.on('data', function (chunk) {
console.log('BODY: ' + chunk);
});
});
req.on('error', function (e) {
console.log('problem with request: ' + e.message);
});
req.write(content);
req.end();
}
以上是規則修改的主要部分。您需要將json內容發(fā)送到您自己的服務(wù)器,并從服務(wù)器獲取到下一頁(yè)的跳轉地址。這涉及到四個(gè)php文件:getMsgJson.php、getMsgExt.php、getWxHis.php、getWxPost.php
在詳細介紹這4個(gè)php文件之前,為了提高采集系統性能,降低崩潰率,我們還可以做一些修改:
Android模擬器經(jīng)常訪(fǎng)問(wèn)一些地址,會(huì )導致anyproxy崩潰,找到函數replaceRequestOption:function(req,option),修改函數內容:
replaceRequestOption : function(req,option){
var newOption = option;
if(/google/i.test(newOption.headers.host)){
newOption.hostname = "www.baidu.com";
newOption.port = "80";
}
return newOption;
},
以上是anyproxy的規則文件的修改配置。配置修改完成后,重啟anyproxy。在mac系統下,按control+c中斷程序,然后輸入命令sudo anyproxy -i啟動(dòng);如果報錯,程序可能無(wú)法干凈退出,端口被占用。這時(shí)候輸入命令ps -a查看占用的pid,然后輸入命令“kill -9 pid”將pid替換為查詢(xún)到的pid號。殺掉進(jìn)程后,就可以啟動(dòng)anyproxy了。再次請原諒我不熟悉windows命令。
接下來(lái)詳細介紹服務(wù)器端接收程序的設計原理:
?。ㄒ韵麓a不能直接使用,只介紹原理,部分需要根據自己的服務(wù)器數據庫框架編寫(xiě))
1、getMsgJson.php:該程序負責接收歷史消息的json,解析并存入數據庫
<p>
java實(shí)現性能優(yōu)化常用的java代碼片段分享(一)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 80 次瀏覽 ? 2021-08-05 19:01
文章采集鏈接:java實(shí)現性能優(yōu)化常用的java代碼片段分享一些企業(yè)里經(jīng)常采用的性能優(yōu)化代碼片段,實(shí)際開(kāi)發(fā)中是非常有必要去規范。前段時(shí)間看到一篇不錯的關(guān)于設計模式的文章,其中一個(gè)核心就是注意常量。這些常量我們是無(wú)法真正接觸到的,所以很多細節是不必要去注意的。但是,注意這些東西有利于我們學(xué)習企業(yè)級的開(kāi)發(fā)。
企業(yè)級開(kāi)發(fā)一般都是比較簡(jiǎn)單,模塊化的,你沒(méi)辦法隨時(shí)隨地調整所有的模塊和功能。所以,我在這里給大家整理了一些經(jīng)常出現在開(kāi)發(fā)中的性能優(yōu)化細節。上一篇主要講的是spring的回調池,這一篇將會(huì )探討線(xiàn)程池問(wèn)題。主要采取線(xiàn)程池的目的是提高代碼的效率,尤其是在長(cháng)期的離線(xiàn)開(kāi)發(fā)中,提高代碼的效率和可讀性也是比較有必要的。
常量計數器常量是非常常見(jiàn)的一種類(lèi)型,計數器被保存在內存中,但是每次從內存中提取某個(gè)值的時(shí)候,是有規律的,并且規律性的和提取的數量一定要是相同的。通常來(lái)說(shuō),會(huì )使用同步的方式去實(shí)現這一點(diǎn)。但是這并不是絕對的,我們可以嘗試避免同步去實(shí)現,但是并不保證百分百的避免了同步問(wèn)題。作為調度器,我們是可以控制提取數量的時(shí)候盡量的好,但是要是有大量的值是提取到同一個(gè)線(xiàn)程內。
對于一般的情況,其實(shí)不影響性能。不影響性能的情況下,我們就用不同的線(xiàn)程池去處理這一問(wèn)題。不同線(xiàn)程池處理不同數量的值的效率是比較高的。當然,如果我們要實(shí)現高效的線(xiàn)程池,我們可以設置特定的隔離度。但是,這就可能提高了性能,同時(shí)還犧牲了其他功能。我的建議是,我們盡量不要使用同步,盡量用共享的對象和變量來(lái)替換回調池中的回調方法。
在java中,需要不同線(xiàn)程池處理的值是不一樣的,共享變量也是相同的。不同線(xiàn)程池提取同一個(gè)值的方式一樣,如果我們對這個(gè)值進(jìn)行了重寫(xiě),會(huì )降低很多性能。我建議使用java內置的threadlocal來(lái)進(jìn)行存儲,如果沒(méi)有特定的線(xiàn)程池,我們可以使用使用randominitialrange的值。atomicinteger的atomiclynovation機制將會(huì )替換這一數值。
線(xiàn)程池問(wèn)題線(xiàn)程池由于是內置的,我們將無(wú)法通過(guò)我們的方式去修改線(xiàn)程池的性能。于是我們會(huì )采用java標準庫中的threadpoolexecutor或者java的runnable代替內置的threadpoolexecutor。每個(gè)線(xiàn)程池都會(huì )進(jìn)行一些優(yōu)化,在這里,我們主要談?wù)剝戎玫膖hreadpoolexecutor和java內置的runnable。
內置的threadpoolexecutor在執行的時(shí)候,由于他是java提供的,會(huì )直接調用java的類(lèi)去執行,但是java提供的類(lèi)去執行的時(shí)候,會(huì )使用內置的線(xiàn)程池,這意味著(zhù)我們必須也去加入優(yōu)化。這個(gè)問(wèn)題需要用同步實(shí)現的線(xiàn)程池,我。 查看全部
java實(shí)現性能優(yōu)化常用的java代碼片段分享(一)
文章采集鏈接:java實(shí)現性能優(yōu)化常用的java代碼片段分享一些企業(yè)里經(jīng)常采用的性能優(yōu)化代碼片段,實(shí)際開(kāi)發(fā)中是非常有必要去規范。前段時(shí)間看到一篇不錯的關(guān)于設計模式的文章,其中一個(gè)核心就是注意常量。這些常量我們是無(wú)法真正接觸到的,所以很多細節是不必要去注意的。但是,注意這些東西有利于我們學(xué)習企業(yè)級的開(kāi)發(fā)。
企業(yè)級開(kāi)發(fā)一般都是比較簡(jiǎn)單,模塊化的,你沒(méi)辦法隨時(shí)隨地調整所有的模塊和功能。所以,我在這里給大家整理了一些經(jīng)常出現在開(kāi)發(fā)中的性能優(yōu)化細節。上一篇主要講的是spring的回調池,這一篇將會(huì )探討線(xiàn)程池問(wèn)題。主要采取線(xiàn)程池的目的是提高代碼的效率,尤其是在長(cháng)期的離線(xiàn)開(kāi)發(fā)中,提高代碼的效率和可讀性也是比較有必要的。
常量計數器常量是非常常見(jiàn)的一種類(lèi)型,計數器被保存在內存中,但是每次從內存中提取某個(gè)值的時(shí)候,是有規律的,并且規律性的和提取的數量一定要是相同的。通常來(lái)說(shuō),會(huì )使用同步的方式去實(shí)現這一點(diǎn)。但是這并不是絕對的,我們可以嘗試避免同步去實(shí)現,但是并不保證百分百的避免了同步問(wèn)題。作為調度器,我們是可以控制提取數量的時(shí)候盡量的好,但是要是有大量的值是提取到同一個(gè)線(xiàn)程內。
對于一般的情況,其實(shí)不影響性能。不影響性能的情況下,我們就用不同的線(xiàn)程池去處理這一問(wèn)題。不同線(xiàn)程池處理不同數量的值的效率是比較高的。當然,如果我們要實(shí)現高效的線(xiàn)程池,我們可以設置特定的隔離度。但是,這就可能提高了性能,同時(shí)還犧牲了其他功能。我的建議是,我們盡量不要使用同步,盡量用共享的對象和變量來(lái)替換回調池中的回調方法。
在java中,需要不同線(xiàn)程池處理的值是不一樣的,共享變量也是相同的。不同線(xiàn)程池提取同一個(gè)值的方式一樣,如果我們對這個(gè)值進(jìn)行了重寫(xiě),會(huì )降低很多性能。我建議使用java內置的threadlocal來(lái)進(jìn)行存儲,如果沒(méi)有特定的線(xiàn)程池,我們可以使用使用randominitialrange的值。atomicinteger的atomiclynovation機制將會(huì )替換這一數值。
線(xiàn)程池問(wèn)題線(xiàn)程池由于是內置的,我們將無(wú)法通過(guò)我們的方式去修改線(xiàn)程池的性能。于是我們會(huì )采用java標準庫中的threadpoolexecutor或者java的runnable代替內置的threadpoolexecutor。每個(gè)線(xiàn)程池都會(huì )進(jìn)行一些優(yōu)化,在這里,我們主要談?wù)剝戎玫膖hreadpoolexecutor和java內置的runnable。
內置的threadpoolexecutor在執行的時(shí)候,由于他是java提供的,會(huì )直接調用java的類(lèi)去執行,但是java提供的類(lèi)去執行的時(shí)候,會(huì )使用內置的線(xiàn)程池,這意味著(zhù)我們必須也去加入優(yōu)化。這個(gè)問(wèn)題需要用同步實(shí)現的線(xiàn)程池,我。
安卓模擬器+Anyproxy代理抓包分析微信客戶(hù)端解決方案
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 141 次瀏覽 ? 2021-08-01 01:43
安卓模擬器+Anyproxy代理抓包分析微信客戶(hù)端解決方案
一、先說(shuō)整體方案
1、使用搜狗公眾號文章的采集,這樣得到的文章URL是一個(gè)帶有時(shí)間戳的臨時(shí)鏈接。
2、通過(guò)Android模擬器+Anyproxy代理,在微信客戶(hù)端打開(kāi)臨時(shí)鏈接時(shí),捕獲分析微信客戶(hù)端及其服務(wù)器請求的協(xié)議內容,獲取永久鏈接。
3、通過(guò)按鈕向導模擬或Python腳本發(fā)送微信賬號上的臨時(shí)鏈接內容。只有在安卓模擬器的微信賬號上發(fā)送內容時(shí),Anyproxy代理才能抓取到相關(guān)的包內容。
二、說(shuō)說(shuō)具體的解決方法,主要是第二點(diǎn)
1、使用搜狗公眾號文章的采集,這樣得到的文章URL是一個(gè)帶有時(shí)間戳的臨時(shí)鏈接。將此作為數據采集時(shí),經(jīng)常會(huì )出現“請輸入驗證碼”。我嘗試使用IP代理池,但我還沒(méi)有找到可以避免或解決此問(wèn)題的IP代理服務(wù)器。我的處理方式是使用動(dòng)態(tài)IP VPS服務(wù)來(lái)解決。具體步驟我就不細說(shuō)了,因為這不是文章的重點(diǎn)。
2、使用Android模擬器+Anyproxy代理,在微信客戶(hù)端打開(kāi)臨時(shí)鏈接時(shí),對微信客戶(hù)端及其服務(wù)端請求的協(xié)議內容進(jìn)行抓取分析,獲取永久鏈接。我用的是win10系統。
1)微信客戶(hù)端:下載安卓模擬器,并在模擬器上安裝微信應用。
2)A微信個(gè)人賬號:采集內容不僅需要微信客戶(hù)端,還需要一個(gè)專(zhuān)門(mén)發(fā)送臨時(shí)鏈接的微信個(gè)人賬號。
3)Local 代理服務(wù)器系統:采用的方法是通過(guò)Anyproxy代理服務(wù)器將臨時(shí)鏈接和永久鏈接發(fā)送到我們自己的服務(wù)器進(jìn)行替換。具體安裝方法后面會(huì )詳細介紹。
我使用 Anyproxy。這個(gè)軟件的特點(diǎn)是可以獲取https鏈接的內容。 2016年初,微信公眾號和微信文章開(kāi)始使用https鏈接。而 Anyproxy 可以通過(guò)修改規則向服務(wù)器發(fā)送請求。下面將介紹安裝和配置過(guò)程。
1、Install NodeJS
2、在命令行或終端運行 npm install -g anyproxy
3、生成RootCA,https需要這個(gè)證書(shū):運行命令anyproxy --root
4、啟動(dòng)anyproxy運行命令:打開(kāi)win+R,輸入anyproxy -i;參數-i表示解析HTTPS;
5、安裝證書(shū),在安卓模擬器中安裝證書(shū):?jiǎn)?dòng)anyproxy,打開(kāi)瀏覽器:8002/fetchCrtFile,即可得到rootCA.crt文件
6、Set proxy:安卓模擬器的代理服務(wù)器地址是wifi鏈接的網(wǎng)關(guān)。您可以通過(guò)將 dhcp 設置為靜態(tài)來(lái)查看網(wǎng)關(guān)地址。閱讀后不要忘記將其設置為自動(dòng)。代理服務(wù)器的默認端口為 8001。
如何查看是否成功:在模擬器上打開(kāi)微信,點(diǎn)擊任意文章,在終端可以看到滾動(dòng)的響應碼。如果沒(méi)有出現,請檢查手機的代理設置是否正確。下面我的截圖是打開(kāi)瀏覽器地址:8002查看anyproxy的web界面。
我在微信端打開(kāi)了文章的臨時(shí)鏈接。通過(guò)協(xié)議分析,我們可以知道永久鏈接被重定向到了302的位置。
4)修改Anyproxy文件rule_default.js,獲取抓包中的協(xié)議內容。
rule_default.js文件在*\node_modules\anyproxy\lib\rule_default.js,找到replaceServerResDataAsync:function(req,res,serverResData,callback)函數,修改函數內容,劫持需要的內容因為我只需要劫持返回的code內容為302,所以只在statusCode==302時(shí)回調。
找到replaceResponseHeader:function(req,res,header)函數,修改函數內容。獲取永久鏈接,調用我在服務(wù)器上寫(xiě)的http接口。我的界面只有兩個(gè)參數:臨時(shí)鏈接和永久鏈接。在臨時(shí)鏈接的基礎上添加永久鏈接。
好了,到此,使用Anyproxy將臨時(shí)鏈接轉換為永久鏈接的功能介紹完畢。
PS:使用Anyproxy直接獲取微信公眾號的所有文章(永久鏈接),包括點(diǎn)贊數、閱讀數等信息。在這種情況下,您不需要使用搜狗。但是這里會(huì )有一些問(wèn)題。微信這樣做會(huì )屏蔽你的微信個(gè)人賬號,所以我用搜狗爬山文章(急),然后在臨時(shí)鏈接的有效期內用Anyproxy更新為永久鏈接。
3、 使用按鈕精靈模擬點(diǎn)擊微信APP上的臨時(shí)鏈接,也可以通過(guò)python腳本模擬。我正在寫(xiě)這篇文章,完成后我會(huì )更新它。 查看全部
安卓模擬器+Anyproxy代理抓包分析微信客戶(hù)端解決方案
一、先說(shuō)整體方案
1、使用搜狗公眾號文章的采集,這樣得到的文章URL是一個(gè)帶有時(shí)間戳的臨時(shí)鏈接。
2、通過(guò)Android模擬器+Anyproxy代理,在微信客戶(hù)端打開(kāi)臨時(shí)鏈接時(shí),捕獲分析微信客戶(hù)端及其服務(wù)器請求的協(xié)議內容,獲取永久鏈接。
3、通過(guò)按鈕向導模擬或Python腳本發(fā)送微信賬號上的臨時(shí)鏈接內容。只有在安卓模擬器的微信賬號上發(fā)送內容時(shí),Anyproxy代理才能抓取到相關(guān)的包內容。
二、說(shuō)說(shuō)具體的解決方法,主要是第二點(diǎn)
1、使用搜狗公眾號文章的采集,這樣得到的文章URL是一個(gè)帶有時(shí)間戳的臨時(shí)鏈接。將此作為數據采集時(shí),經(jīng)常會(huì )出現“請輸入驗證碼”。我嘗試使用IP代理池,但我還沒(méi)有找到可以避免或解決此問(wèn)題的IP代理服務(wù)器。我的處理方式是使用動(dòng)態(tài)IP VPS服務(wù)來(lái)解決。具體步驟我就不細說(shuō)了,因為這不是文章的重點(diǎn)。
2、使用Android模擬器+Anyproxy代理,在微信客戶(hù)端打開(kāi)臨時(shí)鏈接時(shí),對微信客戶(hù)端及其服務(wù)端請求的協(xié)議內容進(jìn)行抓取分析,獲取永久鏈接。我用的是win10系統。
1)微信客戶(hù)端:下載安卓模擬器,并在模擬器上安裝微信應用。
2)A微信個(gè)人賬號:采集內容不僅需要微信客戶(hù)端,還需要一個(gè)專(zhuān)門(mén)發(fā)送臨時(shí)鏈接的微信個(gè)人賬號。
3)Local 代理服務(wù)器系統:采用的方法是通過(guò)Anyproxy代理服務(wù)器將臨時(shí)鏈接和永久鏈接發(fā)送到我們自己的服務(wù)器進(jìn)行替換。具體安裝方法后面會(huì )詳細介紹。
我使用 Anyproxy。這個(gè)軟件的特點(diǎn)是可以獲取https鏈接的內容。 2016年初,微信公眾號和微信文章開(kāi)始使用https鏈接。而 Anyproxy 可以通過(guò)修改規則向服務(wù)器發(fā)送請求。下面將介紹安裝和配置過(guò)程。
1、Install NodeJS
2、在命令行或終端運行 npm install -g anyproxy
3、生成RootCA,https需要這個(gè)證書(shū):運行命令anyproxy --root
4、啟動(dòng)anyproxy運行命令:打開(kāi)win+R,輸入anyproxy -i;參數-i表示解析HTTPS;
5、安裝證書(shū),在安卓模擬器中安裝證書(shū):?jiǎn)?dòng)anyproxy,打開(kāi)瀏覽器:8002/fetchCrtFile,即可得到rootCA.crt文件
6、Set proxy:安卓模擬器的代理服務(wù)器地址是wifi鏈接的網(wǎng)關(guān)。您可以通過(guò)將 dhcp 設置為靜態(tài)來(lái)查看網(wǎng)關(guān)地址。閱讀后不要忘記將其設置為自動(dòng)。代理服務(wù)器的默認端口為 8001。
如何查看是否成功:在模擬器上打開(kāi)微信,點(diǎn)擊任意文章,在終端可以看到滾動(dòng)的響應碼。如果沒(méi)有出現,請檢查手機的代理設置是否正確。下面我的截圖是打開(kāi)瀏覽器地址:8002查看anyproxy的web界面。
我在微信端打開(kāi)了文章的臨時(shí)鏈接。通過(guò)協(xié)議分析,我們可以知道永久鏈接被重定向到了302的位置。
4)修改Anyproxy文件rule_default.js,獲取抓包中的協(xié)議內容。
rule_default.js文件在*\node_modules\anyproxy\lib\rule_default.js,找到replaceServerResDataAsync:function(req,res,serverResData,callback)函數,修改函數內容,劫持需要的內容因為我只需要劫持返回的code內容為302,所以只在statusCode==302時(shí)回調。
找到replaceResponseHeader:function(req,res,header)函數,修改函數內容。獲取永久鏈接,調用我在服務(wù)器上寫(xiě)的http接口。我的界面只有兩個(gè)參數:臨時(shí)鏈接和永久鏈接。在臨時(shí)鏈接的基礎上添加永久鏈接。
好了,到此,使用Anyproxy將臨時(shí)鏈接轉換為永久鏈接的功能介紹完畢。
PS:使用Anyproxy直接獲取微信公眾號的所有文章(永久鏈接),包括點(diǎn)贊數、閱讀數等信息。在這種情況下,您不需要使用搜狗。但是這里會(huì )有一些問(wèn)題。微信這樣做會(huì )屏蔽你的微信個(gè)人賬號,所以我用搜狗爬山文章(急),然后在臨時(shí)鏈接的有效期內用Anyproxy更新為永久鏈接。
3、 使用按鈕精靈模擬點(diǎn)擊微信APP上的臨時(shí)鏈接,也可以通過(guò)python腳本模擬。我正在寫(xiě)這篇文章,完成后我會(huì )更新它。
爬取網(wǎng)址為一級采集-以京東商品爬蟲(chóng)為例
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 224 次瀏覽 ? 2021-07-29 06:00
第二層采集content:每個(gè)產(chǎn)品的標題、優(yōu)惠券信息
第一步:定義一級任務(wù)
定義任務(wù)的基本操作,例如內容標注。樣例拷貝請參考教程“采集List Data”。翻頁(yè)操作請參考“翻頁(yè)采集List”。這里只講解采集關(guān)卡的關(guān)鍵步驟。
加載之前教程中采集京東List的任務(wù)(京東商品列表采集new)。如果你的工作臺沒(méi)有退出這個(gè)任務(wù),直接做就可以了,不需要額外加載。
第 2 步:設置下級線(xiàn)索
2.1,找到下層(URL)鏈接
網(wǎng)頁(yè)上商品的鏈接通常存儲在DOM中A節點(diǎn)下的@href屬性節點(diǎn)中。
在網(wǎng)頁(yè)上點(diǎn)擊產(chǎn)品的產(chǎn)品名稱(chēng),觀(guān)察下面的DOM窗口。光標位于節點(diǎn)上。如果不是A節點(diǎn),則按照DOM節點(diǎn)向上或向下查找A節點(diǎn)。
點(diǎn)擊A節點(diǎn),觀(guān)察DOM窗口左側的view元素小窗口,找到@href,注意查看其值是否為對應的商品鏈接。
右鍵單擊@href 并選擇“內容映射”->“新建”。這樣@href(產(chǎn)品鏈接)的值就映射到了一個(gè)新的爬取內容。
彈出一個(gè)新窗口,要求為所爬取的內容提供一個(gè)字段名稱(chēng),在本例中為名稱(chēng)“產(chǎn)品詳細信息鏈接”。
2.2,給下級任務(wù)命名
在上面的窗口繼續操作,因為我們觀(guān)察到@href中的商品鏈接缺少前面的“http”部分,這是一個(gè)相對網(wǎng)址,可以勾選“Complete URL”,爬蟲(chóng)采集會(huì )在過(guò)程中自動(dòng)完成。
最重要的一步是檢查“從屬網(wǎng)址”。勾選后,下方會(huì )出現一個(gè)提示框,要求輸入目標任務(wù)的名稱(chēng)。分層抓圖時(shí),這里必須輸入二級任務(wù)的名稱(chēng)。
輸入二級任務(wù)名稱(chēng):京東商品詳情采集new
2.3,現在可以看到左邊的workbench中增加了一條爬取內容:商品詳情鏈接,測試一下是否被抓到。如果沒(méi)有問(wèn)題,保存任務(wù)。
第三步:定義二級任務(wù)
3.1,退出一級任務(wù)
如下圖所示,點(diǎn)擊右上角的“三點(diǎn)”操作按鈕,出現下拉菜單。選擇“退出”后,瀏覽器進(jìn)入正常瀏覽模式。這時(shí),您可以點(diǎn)擊頁(yè)面上的產(chǎn)品。進(jìn)入商品詳情頁(yè)面。
3.2,定義二級任務(wù)
現在您在產(chǎn)品詳情頁(yè)面,點(diǎn)擊左欄中的“+”號進(jìn)入任務(wù)定義狀態(tài),開(kāi)始定義二級任務(wù)。
任務(wù)名稱(chēng)輸入框需要填寫(xiě)二級任務(wù)名稱(chēng)。本例中,一級任務(wù)中已經(jīng)指定二級任務(wù)名稱(chēng):京東商品詳情采集new,那么這里必須填寫(xiě) 必須一致,否則網(wǎng)絡(luò )爬蟲(chóng)連兩級任務(wù)。
接下來(lái),在產(chǎn)品詳細信息頁(yè)面上標記所需的信息。注解的操作類(lèi)似,可以參考“采集網(wǎng)站數據”教程,這里不再贅述。
提醒:這一步最重要的是我們新創(chuàng )建的二級任務(wù)的名稱(chēng)必須和一級任務(wù)指定的目標任務(wù)名稱(chēng)一致,這樣一級任務(wù)才能通過(guò)捕獲的指向一級任務(wù)的 URL 鏈接。次要任務(wù)。
3.3,保存二級任務(wù)
定義二級任務(wù)后,點(diǎn)擊“保存”按鈕,會(huì )看到如下提示。早期版本會(huì )根據第一張圖片彈出提示框,后期版本會(huì )根據第二張圖片彈出提示框。它會(huì )提示用戶(hù)。一級規則的任務(wù)名稱(chēng)已經(jīng)存在,屬于正常提示,因為在定義一級任務(wù)的時(shí)候已經(jīng)指定了二級任務(wù)名稱(chēng)。
第 4 步:捕獲數據
4.1,層級任務(wù)分別獨立運行。先運行一級任務(wù),它會(huì )自動(dòng)將捕獲的下級URL導入二級任務(wù)中。操作方法參考下圖,在任務(wù)管理界面選擇對應任務(wù)的“開(kāi)始采集”菜單即可。
4.2,然后運行二級任務(wù),可以先統計線(xiàn)索數,然后輸入統計的URL個(gè)數進(jìn)行批量采集。
二級任務(wù)也可以同時(shí)運行,實(shí)際上可以沒(méi)有特定的順序。如果兩個(gè)關(guān)卡同時(shí)運行,如下圖所示,在任務(wù)管理界面,點(diǎn)擊每個(gè)任務(wù)的“Start采集”。
4.3、采集完成后直接點(diǎn)擊“導出Excel”按鈕,即可進(jìn)入數據管理下載Excel格式的數據。
tips:在二級任務(wù)中,采集優(yōu)惠券信息是用嵌套示例復制的??梢詤⒖枷旅娴慕坛?。
第 1 部分 文章:“加載、修改和保存爬蟲(chóng)任務(wù)”第 2 部分 文章:“內容映射” 查看全部
爬取網(wǎng)址為一級采集-以京東商品爬蟲(chóng)為例
第二層采集content:每個(gè)產(chǎn)品的標題、優(yōu)惠券信息
第一步:定義一級任務(wù)
定義任務(wù)的基本操作,例如內容標注。樣例拷貝請參考教程“采集List Data”。翻頁(yè)操作請參考“翻頁(yè)采集List”。這里只講解采集關(guān)卡的關(guān)鍵步驟。
加載之前教程中采集京東List的任務(wù)(京東商品列表采集new)。如果你的工作臺沒(méi)有退出這個(gè)任務(wù),直接做就可以了,不需要額外加載。
第 2 步:設置下級線(xiàn)索
2.1,找到下層(URL)鏈接
網(wǎng)頁(yè)上商品的鏈接通常存儲在DOM中A節點(diǎn)下的@href屬性節點(diǎn)中。
在網(wǎng)頁(yè)上點(diǎn)擊產(chǎn)品的產(chǎn)品名稱(chēng),觀(guān)察下面的DOM窗口。光標位于節點(diǎn)上。如果不是A節點(diǎn),則按照DOM節點(diǎn)向上或向下查找A節點(diǎn)。

點(diǎn)擊A節點(diǎn),觀(guān)察DOM窗口左側的view元素小窗口,找到@href,注意查看其值是否為對應的商品鏈接。

右鍵單擊@href 并選擇“內容映射”->“新建”。這樣@href(產(chǎn)品鏈接)的值就映射到了一個(gè)新的爬取內容。

彈出一個(gè)新窗口,要求為所爬取的內容提供一個(gè)字段名稱(chēng),在本例中為名稱(chēng)“產(chǎn)品詳細信息鏈接”。

2.2,給下級任務(wù)命名
在上面的窗口繼續操作,因為我們觀(guān)察到@href中的商品鏈接缺少前面的“http”部分,這是一個(gè)相對網(wǎng)址,可以勾選“Complete URL”,爬蟲(chóng)采集會(huì )在過(guò)程中自動(dòng)完成。
最重要的一步是檢查“從屬網(wǎng)址”。勾選后,下方會(huì )出現一個(gè)提示框,要求輸入目標任務(wù)的名稱(chēng)。分層抓圖時(shí),這里必須輸入二級任務(wù)的名稱(chēng)。
輸入二級任務(wù)名稱(chēng):京東商品詳情采集new

2.3,現在可以看到左邊的workbench中增加了一條爬取內容:商品詳情鏈接,測試一下是否被抓到。如果沒(méi)有問(wèn)題,保存任務(wù)。

第三步:定義二級任務(wù)
3.1,退出一級任務(wù)
如下圖所示,點(diǎn)擊右上角的“三點(diǎn)”操作按鈕,出現下拉菜單。選擇“退出”后,瀏覽器進(jìn)入正常瀏覽模式。這時(shí),您可以點(diǎn)擊頁(yè)面上的產(chǎn)品。進(jìn)入商品詳情頁(yè)面。


3.2,定義二級任務(wù)
現在您在產(chǎn)品詳情頁(yè)面,點(diǎn)擊左欄中的“+”號進(jìn)入任務(wù)定義狀態(tài),開(kāi)始定義二級任務(wù)。
任務(wù)名稱(chēng)輸入框需要填寫(xiě)二級任務(wù)名稱(chēng)。本例中,一級任務(wù)中已經(jīng)指定二級任務(wù)名稱(chēng):京東商品詳情采集new,那么這里必須填寫(xiě) 必須一致,否則網(wǎng)絡(luò )爬蟲(chóng)連兩級任務(wù)。

接下來(lái),在產(chǎn)品詳細信息頁(yè)面上標記所需的信息。注解的操作類(lèi)似,可以參考“采集網(wǎng)站數據”教程,這里不再贅述。
提醒:這一步最重要的是我們新創(chuàng )建的二級任務(wù)的名稱(chēng)必須和一級任務(wù)指定的目標任務(wù)名稱(chēng)一致,這樣一級任務(wù)才能通過(guò)捕獲的指向一級任務(wù)的 URL 鏈接。次要任務(wù)。
3.3,保存二級任務(wù)
定義二級任務(wù)后,點(diǎn)擊“保存”按鈕,會(huì )看到如下提示。早期版本會(huì )根據第一張圖片彈出提示框,后期版本會(huì )根據第二張圖片彈出提示框。它會(huì )提示用戶(hù)。一級規則的任務(wù)名稱(chēng)已經(jīng)存在,屬于正常提示,因為在定義一級任務(wù)的時(shí)候已經(jīng)指定了二級任務(wù)名稱(chēng)。


第 4 步:捕獲數據
4.1,層級任務(wù)分別獨立運行。先運行一級任務(wù),它會(huì )自動(dòng)將捕獲的下級URL導入二級任務(wù)中。操作方法參考下圖,在任務(wù)管理界面選擇對應任務(wù)的“開(kāi)始采集”菜單即可。
4.2,然后運行二級任務(wù),可以先統計線(xiàn)索數,然后輸入統計的URL個(gè)數進(jìn)行批量采集。
二級任務(wù)也可以同時(shí)運行,實(shí)際上可以沒(méi)有特定的順序。如果兩個(gè)關(guān)卡同時(shí)運行,如下圖所示,在任務(wù)管理界面,點(diǎn)擊每個(gè)任務(wù)的“Start采集”。

4.3、采集完成后直接點(diǎn)擊“導出Excel”按鈕,即可進(jìn)入數據管理下載Excel格式的數據。

tips:在二級任務(wù)中,采集優(yōu)惠券信息是用嵌套示例復制的??梢詤⒖枷旅娴慕坛?。
第 1 部分 文章:“加載、修改和保存爬蟲(chóng)任務(wù)”第 2 部分 文章:“內容映射”
ai一點(diǎn):人工智能的發(fā)展是一個(gè)大趨勢
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 75 次瀏覽 ? 2021-07-13 06:04
文章采集鏈接::3月28日,羅胖在羅輯思維新節目里談到了ai一點(diǎn),本次直播留下了問(wèn)題,我們整理了一下老羅談到的一些問(wèn)題,和大家分享。
自ai讓搜索更智能后,再加上lbs,叫車(chē)、游戲、人工智能音樂(lè )等產(chǎn)業(yè)。
去做一個(gè)可以做dota,dota2,實(shí)時(shí)太陽(yáng)系,實(shí)時(shí)太陽(yáng)系軌道,實(shí)時(shí)rx480,百度飛圖,
機器人,智能服務(wù)機器人,互聯(lián)網(wǎng)ai工業(yè)機器人,ai醫療工業(yè)機器人。
人工智能,極智能(指ai)。這個(gè)過(guò)程里會(huì )最大的發(fā)展是人工智能的產(chǎn)業(yè)發(fā)展,是一個(gè)大趨勢。人工智能的發(fā)展對社會(huì )發(fā)展來(lái)說(shuō)是全局性的,可以這么理解人工智能對人類(lèi)社會(huì )來(lái)說(shuō),人工智能就是一個(gè)工具,它來(lái)幫助人類(lèi)解決或者解放人類(lèi)的腦力,比如開(kāi)發(fā)芯片,提升處理速度,解放人類(lèi)的腦力等。
ai與其它大方向發(fā)展可能會(huì )產(chǎn)生裂變式的效應,人工智能有可能成為下一個(gè)大方向,而大方向之下會(huì )繼續分化小方向,比如智能家居,智能醫療,智能金融等等。不過(guò)整體的方向大體不變。
不造啊,
你可以總結一下提問(wèn)者既想問(wèn)效率,又想問(wèn)價(jià)值,既想問(wèn)預期,又想問(wèn)變量。倒是有點(diǎn)經(jīng)濟學(xué)思維。其實(shí)一條路子走到黑可以,1.智能手機2.智能家居3.智能汽車(chē)。這個(gè)方向在市場(chǎng)上有,但效率不高,不符合人性。因為其實(shí)電子商務(wù),大數據處理等等方向,在社會(huì )上都有效率提升。電子商務(wù)應該只是大家今后選擇方向的前置處理手段。
而我國的我應該是一直有提高效率的。但想著(zhù)等一步先發(fā)展,而不是符合人性或者市場(chǎng)規律的。你仔細想想,從人類(lèi)歷史上看,大部分ai創(chuàng )業(yè)最后的落地應用都不是等一步發(fā)展的。而且在歷史上,互聯(lián)網(wǎng)創(chuàng )業(yè)領(lǐng)域,其實(shí)都是淘汰掉大部分思維理念,最后才能飛向銀行,醫院等等。所以不要指望今天的創(chuàng )業(yè)方向,今后是要變成持續發(fā)展的。比如說(shuō),互聯(lián)網(wǎng)帶來(lái)智能手機。
自動(dòng)駕駛帶來(lái)智能汽車(chē),在最早也不是創(chuàng )業(yè),而是有了幾個(gè)重要的行業(yè)標準才會(huì )真正創(chuàng )業(yè)。等于,如果今天有了物聯(lián)網(wǎng),那么物聯(lián)網(wǎng)創(chuàng )業(yè)是有好幾個(gè)方向的。而人工智能開(kāi)發(fā),創(chuàng )業(yè)就簡(jiǎn)單多了。但自己觀(guān)察看,ai創(chuàng )業(yè),最主要的起點(diǎn)其實(shí)是從人工智能人才培養,其實(shí)很多人是自己變來(lái)變去做其他方向,自己搞不懂“需求”。這是這個(gè)方向最主要的矛盾點(diǎn),但今天人工智能人才培養更主要的矛盾點(diǎn),又是我們過(guò)去傳統商業(yè)的弊端。
但這種矛盾總有化解方法。作為從業(yè)者來(lái)說(shuō),只要遵循互聯(lián)網(wǎng)的行業(yè)營(yíng)銷(xiāo)推廣方法,總能把握住用戶(hù),不在乎是傳統方向還是人工智能方向??礈视脩?hù)是關(guān)鍵。而技術(shù)上優(yōu)化,要看如何理解一些“稀缺”資源,最終提升創(chuàng )業(yè)。 查看全部
ai一點(diǎn):人工智能的發(fā)展是一個(gè)大趨勢
文章采集鏈接::3月28日,羅胖在羅輯思維新節目里談到了ai一點(diǎn),本次直播留下了問(wèn)題,我們整理了一下老羅談到的一些問(wèn)題,和大家分享。
自ai讓搜索更智能后,再加上lbs,叫車(chē)、游戲、人工智能音樂(lè )等產(chǎn)業(yè)。
去做一個(gè)可以做dota,dota2,實(shí)時(shí)太陽(yáng)系,實(shí)時(shí)太陽(yáng)系軌道,實(shí)時(shí)rx480,百度飛圖,
機器人,智能服務(wù)機器人,互聯(lián)網(wǎng)ai工業(yè)機器人,ai醫療工業(yè)機器人。
人工智能,極智能(指ai)。這個(gè)過(guò)程里會(huì )最大的發(fā)展是人工智能的產(chǎn)業(yè)發(fā)展,是一個(gè)大趨勢。人工智能的發(fā)展對社會(huì )發(fā)展來(lái)說(shuō)是全局性的,可以這么理解人工智能對人類(lèi)社會(huì )來(lái)說(shuō),人工智能就是一個(gè)工具,它來(lái)幫助人類(lèi)解決或者解放人類(lèi)的腦力,比如開(kāi)發(fā)芯片,提升處理速度,解放人類(lèi)的腦力等。
ai與其它大方向發(fā)展可能會(huì )產(chǎn)生裂變式的效應,人工智能有可能成為下一個(gè)大方向,而大方向之下會(huì )繼續分化小方向,比如智能家居,智能醫療,智能金融等等。不過(guò)整體的方向大體不變。
不造啊,
你可以總結一下提問(wèn)者既想問(wèn)效率,又想問(wèn)價(jià)值,既想問(wèn)預期,又想問(wèn)變量。倒是有點(diǎn)經(jīng)濟學(xué)思維。其實(shí)一條路子走到黑可以,1.智能手機2.智能家居3.智能汽車(chē)。這個(gè)方向在市場(chǎng)上有,但效率不高,不符合人性。因為其實(shí)電子商務(wù),大數據處理等等方向,在社會(huì )上都有效率提升。電子商務(wù)應該只是大家今后選擇方向的前置處理手段。
而我國的我應該是一直有提高效率的。但想著(zhù)等一步先發(fā)展,而不是符合人性或者市場(chǎng)規律的。你仔細想想,從人類(lèi)歷史上看,大部分ai創(chuàng )業(yè)最后的落地應用都不是等一步發(fā)展的。而且在歷史上,互聯(lián)網(wǎng)創(chuàng )業(yè)領(lǐng)域,其實(shí)都是淘汰掉大部分思維理念,最后才能飛向銀行,醫院等等。所以不要指望今天的創(chuàng )業(yè)方向,今后是要變成持續發(fā)展的。比如說(shuō),互聯(lián)網(wǎng)帶來(lái)智能手機。
自動(dòng)駕駛帶來(lái)智能汽車(chē),在最早也不是創(chuàng )業(yè),而是有了幾個(gè)重要的行業(yè)標準才會(huì )真正創(chuàng )業(yè)。等于,如果今天有了物聯(lián)網(wǎng),那么物聯(lián)網(wǎng)創(chuàng )業(yè)是有好幾個(gè)方向的。而人工智能開(kāi)發(fā),創(chuàng )業(yè)就簡(jiǎn)單多了。但自己觀(guān)察看,ai創(chuàng )業(yè),最主要的起點(diǎn)其實(shí)是從人工智能人才培養,其實(shí)很多人是自己變來(lái)變去做其他方向,自己搞不懂“需求”。這是這個(gè)方向最主要的矛盾點(diǎn),但今天人工智能人才培養更主要的矛盾點(diǎn),又是我們過(guò)去傳統商業(yè)的弊端。
但這種矛盾總有化解方法。作為從業(yè)者來(lái)說(shuō),只要遵循互聯(lián)網(wǎng)的行業(yè)營(yíng)銷(xiāo)推廣方法,總能把握住用戶(hù),不在乎是傳統方向還是人工智能方向??礈视脩?hù)是關(guān)鍵。而技術(shù)上優(yōu)化,要看如何理解一些“稀缺”資源,最終提升創(chuàng )業(yè)。
利用Anyproxy爬取微信公眾號文章及臨時(shí)鏈接轉永久鏈接
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 282 次瀏覽 ? 2021-07-05 19:26
在上一篇文章我用Anyproxy爬取了微信公眾號文章和臨時(shí)鏈接到永久鏈接。該方法可以獲得文章的點(diǎn)贊數、閱讀數等信息。如果你只需要獲取某個(gè)微信公眾號的所有文章,并且文章的鏈接是永久鏈接,那么看看我在文章上介紹的方法。
一、先說(shuō)說(shuō)破解方法
破解關(guān)鍵是使用微信公眾號后臺素材管理-新建圖文素材-超鏈接-找到文章(公眾號)的界面。如下圖:
進(jìn)入微信公眾號后臺-素材管理-新圖文素材-新圖文留言
超鏈接-查找文章(公眾號)
二、具體破解方法
2.1 通過(guò)selenium+webdriver獲取公眾號的cookie
因為在公眾號后臺請求“查找文章(公眾號)”接口時(shí)需要一個(gè)微信公眾號cookie,所以在爬取文章內容之前需要獲取一個(gè)可用的cookie。這一段比較簡(jiǎn)單,直接貼上我寫(xiě)的代碼。 PS:享受優(yōu)化和完美。
獲取 Cookie
2.2 微信公眾號獲取公眾號文章interface get文章
1)微信公眾號登錄地址:
2)登錄后獲取token。
3) 使用微信公眾號后臺新建圖文,搜索公眾號名稱(chēng),需要上一步的token。
搜索公眾號
并通過(guò)接口返回的內容獲取公眾號的fakeid。
獲取公眾號的fakeid
4)選擇要爬取的公眾號,獲取文章接口地址,需要上一步的fakeid。
5)文章 列表翻頁(yè)和內容獲取。
文章列表第一頁(yè)
翻頁(yè)和內容
三、完整代碼
完成代碼
四、這在技術(shù)上有難度,請給我點(diǎn)個(gè)贊 查看全部
利用Anyproxy爬取微信公眾號文章及臨時(shí)鏈接轉永久鏈接
在上一篇文章我用Anyproxy爬取了微信公眾號文章和臨時(shí)鏈接到永久鏈接。該方法可以獲得文章的點(diǎn)贊數、閱讀數等信息。如果你只需要獲取某個(gè)微信公眾號的所有文章,并且文章的鏈接是永久鏈接,那么看看我在文章上介紹的方法。
一、先說(shuō)說(shuō)破解方法
破解關(guān)鍵是使用微信公眾號后臺素材管理-新建圖文素材-超鏈接-找到文章(公眾號)的界面。如下圖:
進(jìn)入微信公眾號后臺-素材管理-新圖文素材-新圖文留言
超鏈接-查找文章(公眾號)
二、具體破解方法
2.1 通過(guò)selenium+webdriver獲取公眾號的cookie
因為在公眾號后臺請求“查找文章(公眾號)”接口時(shí)需要一個(gè)微信公眾號cookie,所以在爬取文章內容之前需要獲取一個(gè)可用的cookie。這一段比較簡(jiǎn)單,直接貼上我寫(xiě)的代碼。 PS:享受優(yōu)化和完美。
獲取 Cookie
2.2 微信公眾號獲取公眾號文章interface get文章
1)微信公眾號登錄地址:
2)登錄后獲取token。
3) 使用微信公眾號后臺新建圖文,搜索公眾號名稱(chēng),需要上一步的token。
搜索公眾號
并通過(guò)接口返回的內容獲取公眾號的fakeid。
獲取公眾號的fakeid
4)選擇要爬取的公眾號,獲取文章接口地址,需要上一步的fakeid。
5)文章 列表翻頁(yè)和內容獲取。
文章列表第一頁(yè)
翻頁(yè)和內容
三、完整代碼
完成代碼
四、這在技術(shù)上有難度,請給我點(diǎn)個(gè)贊
內容優(yōu)化篇——保證自己創(chuàng )作不被采集的原創(chuàng )文章
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 215 次瀏覽 ? 2021-07-05 03:44
內容優(yōu)化篇——保證自己創(chuàng )作不被采集的原創(chuàng )文章
站長(cháng),在做網(wǎng)站的時(shí)候,網(wǎng)站的內容有時(shí)候就是采集,尤其是在現在采集成本極低的環(huán)境下,只要懂一點(diǎn)代碼就好了。制作采集 模塊。即使你不知道如何編碼,你也可以以低廉的價(jià)格找人編寫(xiě)。
新站上線(xiàn)了,我正在努力做著(zhù)原創(chuàng )的內容,但是采集工具采集突然占據了全站。沒(méi)有人能忍受。
另外,新站一開(kāi)始沒(méi)有權重,即使你發(fā)布你的原創(chuàng ),加權網(wǎng)站采集和發(fā)布你的文章,蜘蛛爬取網(wǎng)頁(yè)也會(huì )優(yōu)先收錄有一個(gè)高權重的網(wǎng)頁(yè),認為是他的原創(chuàng )文章。
這是別人的典型婚紗。
雖然文章也有版權保護,但面對采集網(wǎng)站有什么用。他既然敢采集,就不怕你維權,現在維權成本高。
之前,熊掌有原創(chuàng )保護功能,但因為百度的業(yè)務(wù),下線(xiàn)了?,F在的原創(chuàng )真的無(wú)法保護。
那么今天五車(chē)兒就給大家分享一下它的方法,盡量保證你的創(chuàng )作不是采集。
內容優(yōu)化章節
1.寫(xiě)作時(shí),在你的作品中插入相關(guān)的品牌詞。如:“XXX網(wǎng)編輯”、“XXX提醒大家”……或者用替代詞,百度知道替代百度知道,百度知道,百度知道等。標記文章以便反饋可以用作稍后提供證據。
當然采集軟件也有過(guò)濾功能,所以你可以為每篇文章文章使用不同的詞匯。雖然有點(diǎn)累,但有些采集人不那么悲傷,總會(huì )錯過(guò)一些細節。
2、圖片水印處理,采集工具無(wú)法識別圖片并過(guò)濾。 原創(chuàng )文章的圖片可以使用水印。就算采集不見(jiàn)了,他要處理,也得重新編輯一下。
更新技能(技術(shù)層面)章節
采集器,會(huì )讓工具通過(guò)網(wǎng)站的URL識別最新的文章。只要我不發(fā)布最新的文章,采集工具將無(wú)法獲取相關(guān)代碼。只要我的文章先行收錄,他在做采集,就會(huì )被搜索引擎判斷為復制轉發(fā)而不是原創(chuàng )。
1、隱藏更新(延遲),你站點(diǎn)的蜘蛛會(huì )爬取站點(diǎn)內所有的URL連接,采集工具不能。所以只要我們隱藏了一個(gè)頁(yè)面,沒(méi)有把它歸入某個(gè)類(lèi)別,就等著(zhù)收錄移入該類(lèi)別。你可以避免第一次成為采集。
2.程序限制頁(yè)面訪(fǎng)問(wèn)(一次只能訪(fǎng)問(wèn)多少頁(yè)),機器速度比人快。一個(gè)人不可能在3分鐘內訪(fǎng)問(wèn)每個(gè)類(lèi)別的每篇文章文章,并且每個(gè)文章都是開(kāi)放的。 (注:一些采集工具可以延遲采集,因為他們也可以設置幾分鐘訪(fǎng)問(wèn)一篇文章。但成本很高。)
3.限制面向用戶(hù)的頁(yè)面顯示。比如我只給你看1頁(yè),第二頁(yè)是用來(lái)驗證的。
4.驗證機制。其實(shí)有些網(wǎng)站可以在用戶(hù)訪(fǎng)問(wèn)異常時(shí)彈出驗證碼框進(jìn)行人機驗證,也可以避免采集tools采集。
5、盡量不要對鏈接進(jìn)行排序。 采集tools 最初使用源代碼來(lái)識別 URL。一些有序的URL鏈接非常喜歡采集人,因為不麻煩,可以采集整站數據。星控站長(cháng)網(wǎng)是/1.html,工具甚至可以直接采集文章1-99999.html 不用進(jìn)分類(lèi)。所以這是一個(gè)糟糕的 URL 設計習慣。
百度站長(cháng)工具篇
百度站長(cháng)工具可以手動(dòng)提交鏈接。
結合上面【技術(shù)層面】章節的第一點(diǎn),我們先延遲更新隱藏頁(yè)面。
然后用百度的站長(cháng)工具收錄submit,提交我們的原創(chuàng )文章網(wǎng)址,等待百度收錄。 查看全部
內容優(yōu)化篇——保證自己創(chuàng )作不被采集的原創(chuàng )文章
站長(cháng),在做網(wǎng)站的時(shí)候,網(wǎng)站的內容有時(shí)候就是采集,尤其是在現在采集成本極低的環(huán)境下,只要懂一點(diǎn)代碼就好了。制作采集 模塊。即使你不知道如何編碼,你也可以以低廉的價(jià)格找人編寫(xiě)。
新站上線(xiàn)了,我正在努力做著(zhù)原創(chuàng )的內容,但是采集工具采集突然占據了全站。沒(méi)有人能忍受。
另外,新站一開(kāi)始沒(méi)有權重,即使你發(fā)布你的原創(chuàng ),加權網(wǎng)站采集和發(fā)布你的文章,蜘蛛爬取網(wǎng)頁(yè)也會(huì )優(yōu)先收錄有一個(gè)高權重的網(wǎng)頁(yè),認為是他的原創(chuàng )文章。
這是別人的典型婚紗。
雖然文章也有版權保護,但面對采集網(wǎng)站有什么用。他既然敢采集,就不怕你維權,現在維權成本高。
之前,熊掌有原創(chuàng )保護功能,但因為百度的業(yè)務(wù),下線(xiàn)了?,F在的原創(chuàng )真的無(wú)法保護。
那么今天五車(chē)兒就給大家分享一下它的方法,盡量保證你的創(chuàng )作不是采集。
內容優(yōu)化章節
1.寫(xiě)作時(shí),在你的作品中插入相關(guān)的品牌詞。如:“XXX網(wǎng)編輯”、“XXX提醒大家”……或者用替代詞,百度知道替代百度知道,百度知道,百度知道等。標記文章以便反饋可以用作稍后提供證據。
當然采集軟件也有過(guò)濾功能,所以你可以為每篇文章文章使用不同的詞匯。雖然有點(diǎn)累,但有些采集人不那么悲傷,總會(huì )錯過(guò)一些細節。
2、圖片水印處理,采集工具無(wú)法識別圖片并過(guò)濾。 原創(chuàng )文章的圖片可以使用水印。就算采集不見(jiàn)了,他要處理,也得重新編輯一下。
更新技能(技術(shù)層面)章節
采集器,會(huì )讓工具通過(guò)網(wǎng)站的URL識別最新的文章。只要我不發(fā)布最新的文章,采集工具將無(wú)法獲取相關(guān)代碼。只要我的文章先行收錄,他在做采集,就會(huì )被搜索引擎判斷為復制轉發(fā)而不是原創(chuàng )。
1、隱藏更新(延遲),你站點(diǎn)的蜘蛛會(huì )爬取站點(diǎn)內所有的URL連接,采集工具不能。所以只要我們隱藏了一個(gè)頁(yè)面,沒(méi)有把它歸入某個(gè)類(lèi)別,就等著(zhù)收錄移入該類(lèi)別。你可以避免第一次成為采集。
2.程序限制頁(yè)面訪(fǎng)問(wèn)(一次只能訪(fǎng)問(wèn)多少頁(yè)),機器速度比人快。一個(gè)人不可能在3分鐘內訪(fǎng)問(wèn)每個(gè)類(lèi)別的每篇文章文章,并且每個(gè)文章都是開(kāi)放的。 (注:一些采集工具可以延遲采集,因為他們也可以設置幾分鐘訪(fǎng)問(wèn)一篇文章。但成本很高。)
3.限制面向用戶(hù)的頁(yè)面顯示。比如我只給你看1頁(yè),第二頁(yè)是用來(lái)驗證的。
4.驗證機制。其實(shí)有些網(wǎng)站可以在用戶(hù)訪(fǎng)問(wèn)異常時(shí)彈出驗證碼框進(jìn)行人機驗證,也可以避免采集tools采集。
5、盡量不要對鏈接進(jìn)行排序。 采集tools 最初使用源代碼來(lái)識別 URL。一些有序的URL鏈接非常喜歡采集人,因為不麻煩,可以采集整站數據。星控站長(cháng)網(wǎng)是/1.html,工具甚至可以直接采集文章1-99999.html 不用進(jìn)分類(lèi)。所以這是一個(gè)糟糕的 URL 設計習慣。
百度站長(cháng)工具篇
百度站長(cháng)工具可以手動(dòng)提交鏈接。
結合上面【技術(shù)層面】章節的第一點(diǎn),我們先延遲更新隱藏頁(yè)面。
然后用百度的站長(cháng)工具收錄submit,提交我們的原創(chuàng )文章網(wǎng)址,等待百度收錄。
【每日一題】如何將獲取的表格直接分詞成語(yǔ)料
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 92 次瀏覽 ? 2021-07-03 22:01
文章采集鏈接:-text/article-extraction-urlonly?__abstract__='如何將獲取的表格直接分詞成語(yǔ)料'導讀這篇文章介紹了如何使用gensim模型構建python文本摘要模型。使用gensim的模型,可以快速實(shí)現摘要與文本生成任務(wù)。在獲取的文本的列表中存放著(zhù)表格,列表中存放著(zhù)每個(gè)列表中的文本,每一行中存放一個(gè)單詞,一行或者多行,如上圖。
目標是評估詞向量應用到摘要任務(wù)中的效果。demo下載-gensim-artificial-recurrent_demo讀取demo:read_gensim.py按照下圖的形式,在list中搜索每個(gè)文本所屬的表格,形成raw_txt。importre,gensim#lib文件fromsklearn.model_selectionimporttrain_test_split#文件為train_test_split.reshape(3,。
3)x=gensim。load_document('train_test_split。txt')doc_dict=x。documentdoc_txt=doc_dict。transform(x)text=gensim。cut("。/recaparsize/{x}/{y}",skip_width=0,skip_height=0,batch_size=。
1)x=doc_dict[text]y=doc_dict[text]predictions=gensim。filter(doc_dict,x)predictions_txt=gensim。filter(doc_dict,y)#顯示摘要demo=predictions_txt+text#打印print(tf。tf。global_variables_info(dummy_name,tf。float3。
2))以上就是對文本進(jìn)行摘要的操作了。生成詞向量詞向量表示文本的信息。語(yǔ)料摘要的最終目的是構建一個(gè)可以從第一行和最后一行構建不同輸出向量的模型。通常使用的方法是將一組詞構建成一個(gè)矩陣。其中每一列表示一個(gè)單詞。這有助于進(jìn)行聚類(lèi)。提取數據使用一組數據構建一個(gè)詞表,作為embeddingvector輸入到gensim.feature_selection進(jìn)行數據清洗。
使用meanerror進(jìn)行第一行的詞的均值和標準差計算embedding。此外,詞向量還需要構建成一個(gè)樣本數據。embedding使用tf.variable進(jìn)行定義。圖片對應詞的類(lèi)型、大小、是否雙向都可以定義。圖片(例如grayscale.jpg)中,像素不對應任何文本的詞向量。顯示文本細節將得到的embedding矩陣存儲在list中,方便后續使用。
使用矩陣tf.tf.global_variables_info(dummy_name,tf.float3
2)來(lái)查看是否有缺失值。保存摘要文本定義一個(gè)有損損失函數(損失函數將損失函數定義為高斯分布),即邏輯回歸。損失函數可以設置為:(注意不要混淆這些概念,損失函數是一個(gè)計算高斯分布的代價(jià)函數。 查看全部
【每日一題】如何將獲取的表格直接分詞成語(yǔ)料
文章采集鏈接:-text/article-extraction-urlonly?__abstract__='如何將獲取的表格直接分詞成語(yǔ)料'導讀這篇文章介紹了如何使用gensim模型構建python文本摘要模型。使用gensim的模型,可以快速實(shí)現摘要與文本生成任務(wù)。在獲取的文本的列表中存放著(zhù)表格,列表中存放著(zhù)每個(gè)列表中的文本,每一行中存放一個(gè)單詞,一行或者多行,如上圖。
目標是評估詞向量應用到摘要任務(wù)中的效果。demo下載-gensim-artificial-recurrent_demo讀取demo:read_gensim.py按照下圖的形式,在list中搜索每個(gè)文本所屬的表格,形成raw_txt。importre,gensim#lib文件fromsklearn.model_selectionimporttrain_test_split#文件為train_test_split.reshape(3,。
3)x=gensim。load_document('train_test_split。txt')doc_dict=x。documentdoc_txt=doc_dict。transform(x)text=gensim。cut("。/recaparsize/{x}/{y}",skip_width=0,skip_height=0,batch_size=。
1)x=doc_dict[text]y=doc_dict[text]predictions=gensim。filter(doc_dict,x)predictions_txt=gensim。filter(doc_dict,y)#顯示摘要demo=predictions_txt+text#打印print(tf。tf。global_variables_info(dummy_name,tf。float3。
2))以上就是對文本進(jìn)行摘要的操作了。生成詞向量詞向量表示文本的信息。語(yǔ)料摘要的最終目的是構建一個(gè)可以從第一行和最后一行構建不同輸出向量的模型。通常使用的方法是將一組詞構建成一個(gè)矩陣。其中每一列表示一個(gè)單詞。這有助于進(jìn)行聚類(lèi)。提取數據使用一組數據構建一個(gè)詞表,作為embeddingvector輸入到gensim.feature_selection進(jìn)行數據清洗。
使用meanerror進(jìn)行第一行的詞的均值和標準差計算embedding。此外,詞向量還需要構建成一個(gè)樣本數據。embedding使用tf.variable進(jìn)行定義。圖片對應詞的類(lèi)型、大小、是否雙向都可以定義。圖片(例如grayscale.jpg)中,像素不對應任何文本的詞向量。顯示文本細節將得到的embedding矩陣存儲在list中,方便后續使用。
使用矩陣tf.tf.global_variables_info(dummy_name,tf.float3
2)來(lái)查看是否有缺失值。保存摘要文本定義一個(gè)有損損失函數(損失函數將損失函數定義為高斯分布),即邏輯回歸。損失函數可以設置為:(注意不要混淆這些概念,損失函數是一個(gè)計算高斯分布的代價(jià)函數。
運營(yíng)公眾號怎樣收集素材文章文章的相關(guān)資料方法介紹
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 87 次瀏覽 ? 2021-07-02 04:08
運營(yíng)公眾號怎樣收集素材文章文章的相關(guān)資料方法介紹
如何操作公眾號采集素材文章兩種獲取熱門(mén)素材的方法詳解
對于公眾號運營(yíng)商來(lái)說(shuō),文章素材的采集非常重要,因為它可以有效提升你文章的質(zhì)量,下面就跟著(zhù)135小編一起來(lái)了解公眾號的運營(yíng)方式吧,采集相關(guān)資料素材文章。
公眾號運營(yíng)資料如何采集文章方法一
獲取文章鏈接,電腦用戶(hù)可以直接在瀏覽器地址欄中選擇并復制文章鏈接。手機用戶(hù)可以點(diǎn)擊右上角的菜單按鈕,選擇復制鏈接,將鏈接發(fā)送到電腦。
公眾號運營(yíng)材料如何采集文章
點(diǎn)擊拓圖數據采集文章按鈕,編輯器采集文章有兩個(gè)功能入口:編輯菜單右上角的采集文章按鈕; @k15 在功能按鈕的底部右側@文章 按鈕。粘貼文章 鏈接并單擊采集。 采集完成后可以編輯修改文章。
公眾號運營(yíng)材料如何采集文章方法二
從網(wǎng)上能搜到的公眾號文章采集,這是最直接、最簡(jiǎn)單的解決方法。
大致流程是:
1、通過(guò)搜索引擎搜索微信搜索入口進(jìn)入公眾號搜索。
2、選擇公眾號進(jìn)入公眾號歷史文章列表和文章內容進(jìn)行分析和存儲。
公眾號運營(yíng)材料如何采集文章
如果采集太頻繁,搜狗搜索和公眾賬號歷史文章list訪(fǎng)問(wèn)都會(huì )顯示驗證碼。無(wú)法直接使用通用腳本采集獲取驗證碼。在這里您可以使用無(wú)頭瀏覽器通過(guò)對接打碼平臺訪(fǎng)問(wèn)和識別驗證碼。 Selenium 可以用作無(wú)頭瀏覽器。
公眾號運營(yíng)如何采集文章資料?其實(shí),拓圖數據認為文章對于微信公眾號運營(yíng)的素材采集是非常重要的,所以大家可以按照上面的方法做好文章的素材采集。 ! 查看全部
運營(yíng)公眾號怎樣收集素材文章文章的相關(guān)資料方法介紹
如何操作公眾號采集素材文章兩種獲取熱門(mén)素材的方法詳解
對于公眾號運營(yíng)商來(lái)說(shuō),文章素材的采集非常重要,因為它可以有效提升你文章的質(zhì)量,下面就跟著(zhù)135小編一起來(lái)了解公眾號的運營(yíng)方式吧,采集相關(guān)資料素材文章。
公眾號運營(yíng)資料如何采集文章方法一
獲取文章鏈接,電腦用戶(hù)可以直接在瀏覽器地址欄中選擇并復制文章鏈接。手機用戶(hù)可以點(diǎn)擊右上角的菜單按鈕,選擇復制鏈接,將鏈接發(fā)送到電腦。

公眾號運營(yíng)材料如何采集文章
點(diǎn)擊拓圖數據采集文章按鈕,編輯器采集文章有兩個(gè)功能入口:編輯菜單右上角的采集文章按鈕; @k15 在功能按鈕的底部右側@文章 按鈕。粘貼文章 鏈接并單擊采集。 采集完成后可以編輯修改文章。
公眾號運營(yíng)材料如何采集文章方法二
從網(wǎng)上能搜到的公眾號文章采集,這是最直接、最簡(jiǎn)單的解決方法。
大致流程是:
1、通過(guò)搜索引擎搜索微信搜索入口進(jìn)入公眾號搜索。
2、選擇公眾號進(jìn)入公眾號歷史文章列表和文章內容進(jìn)行分析和存儲。

公眾號運營(yíng)材料如何采集文章
如果采集太頻繁,搜狗搜索和公眾賬號歷史文章list訪(fǎng)問(wèn)都會(huì )顯示驗證碼。無(wú)法直接使用通用腳本采集獲取驗證碼。在這里您可以使用無(wú)頭瀏覽器通過(guò)對接打碼平臺訪(fǎng)問(wèn)和識別驗證碼。 Selenium 可以用作無(wú)頭瀏覽器。
公眾號運營(yíng)如何采集文章資料?其實(shí),拓圖數據認為文章對于微信公眾號運營(yíng)的素材采集是非常重要的,所以大家可以按照上面的方法做好文章的素材采集。 !
【機械學(xué)堂】單片機控制下的cnc編程速度控制算法
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 103 次瀏覽 ? 2021-07-01 05:02
文章采集鏈接更多優(yōu)質(zhì)原創(chuàng )內容公眾號“機械學(xué)堂”轉載請注明出處cnc控制系統簡(jiǎn)單來(lái)說(shuō)就是通過(guò)編程實(shí)現單片機對模擬量和數字量的控制,其基本原理包括旋轉控制、位置控制和速度控制,下面以單片機控制下的cnc編程速度控制為例。單片機控制速度流程:環(huán)境采樣——快速采樣——在固定點(diǎn)陣中建立坐標系——遍歷坐標網(wǎng)格進(jìn)行壓縮——選擇值——放大——編程速度控制該流程如下圖所示:下面采用循環(huán)壓縮法進(jìn)行編程,首先對模擬量進(jìn)行采樣,比如采集了400次6位有效數據,接著(zhù)通過(guò)fsp算法fastsaw,對400次數據依次進(jìn)行編程獲取模擬量值,并設置控制器產(chǎn)生與模擬量相同的值。
接著(zhù)迭代建立坐標網(wǎng)格,進(jìn)行壓縮、編程速度控制,步驟如下:控制器按下圖方式采集數據,下面采用循環(huán)采集法循環(huán)進(jìn)行下面的數據壓縮,數據壓縮中有采樣次數的設置,循環(huán)壓縮方式如下:循環(huán)壓縮法下的壓縮參數設置完成后,程序就可以開(kāi)始編程了。編程速度控制算法:循環(huán)壓縮法:給定控制器采集數據,循環(huán)壓縮法:速度控制算法:點(diǎn)擊閱讀原文即可獲取,
寫(xiě)這樣一段程序可以參考開(kāi)發(fā)板。每個(gè)adc上連接單片機,判斷動(dòng)作后,返回一個(gè)hal文件,可以是c語(yǔ)言代碼,也可以是rst文件,也可以是ftp文件,或者采用rtp,需要設置精確接收等。編寫(xiě)程序,需要學(xué)習c語(yǔ)言和單片機原理。test01.cs6045/test01.hlimits1000000rawscan=mark3whilelevel(mark3-mark。
1)inrawscan2putslevel(mark1-mark
1)inlevel(mark1-mark
1)inputshalscans1aavgaddressmarkaddress2putsaresulttoadc。adcidentifiers0bs,piandfseachothervalues=mark3scores=br,0。4-allmarkbraggers(a)andmarkactresses(b)aaaaakandabba1aadbscadc。
make_element11(aaaaak,abba1a,allchannels)adc。make_element11(abba1a,aaaaak,allchannels)last_transmissionelseifelementmarkis0elseputselement(element/(elementmark+halidentifiers))prewhenlevelbytes=0,isgpureadandmarkisinitialandsize=1(edge)endlast_transmissionelselevel(mark2-mark3-edge)putsadc_tuple_tdletotargetadc。
fn(initializetransmission)tablet[normal){if(element==。
0){mark=element;adc.fn(initializetransmission)}else{adc.to_direct=flag;//direct=tfmodecasepose=flag;speed 查看全部
【機械學(xué)堂】單片機控制下的cnc編程速度控制算法
文章采集鏈接更多優(yōu)質(zhì)原創(chuàng )內容公眾號“機械學(xué)堂”轉載請注明出處cnc控制系統簡(jiǎn)單來(lái)說(shuō)就是通過(guò)編程實(shí)現單片機對模擬量和數字量的控制,其基本原理包括旋轉控制、位置控制和速度控制,下面以單片機控制下的cnc編程速度控制為例。單片機控制速度流程:環(huán)境采樣——快速采樣——在固定點(diǎn)陣中建立坐標系——遍歷坐標網(wǎng)格進(jìn)行壓縮——選擇值——放大——編程速度控制該流程如下圖所示:下面采用循環(huán)壓縮法進(jìn)行編程,首先對模擬量進(jìn)行采樣,比如采集了400次6位有效數據,接著(zhù)通過(guò)fsp算法fastsaw,對400次數據依次進(jìn)行編程獲取模擬量值,并設置控制器產(chǎn)生與模擬量相同的值。
接著(zhù)迭代建立坐標網(wǎng)格,進(jìn)行壓縮、編程速度控制,步驟如下:控制器按下圖方式采集數據,下面采用循環(huán)采集法循環(huán)進(jìn)行下面的數據壓縮,數據壓縮中有采樣次數的設置,循環(huán)壓縮方式如下:循環(huán)壓縮法下的壓縮參數設置完成后,程序就可以開(kāi)始編程了。編程速度控制算法:循環(huán)壓縮法:給定控制器采集數據,循環(huán)壓縮法:速度控制算法:點(diǎn)擊閱讀原文即可獲取,
寫(xiě)這樣一段程序可以參考開(kāi)發(fā)板。每個(gè)adc上連接單片機,判斷動(dòng)作后,返回一個(gè)hal文件,可以是c語(yǔ)言代碼,也可以是rst文件,也可以是ftp文件,或者采用rtp,需要設置精確接收等。編寫(xiě)程序,需要學(xué)習c語(yǔ)言和單片機原理。test01.cs6045/test01.hlimits1000000rawscan=mark3whilelevel(mark3-mark。
1)inrawscan2putslevel(mark1-mark
1)inlevel(mark1-mark
1)inputshalscans1aavgaddressmarkaddress2putsaresulttoadc。adcidentifiers0bs,piandfseachothervalues=mark3scores=br,0。4-allmarkbraggers(a)andmarkactresses(b)aaaaakandabba1aadbscadc。
make_element11(aaaaak,abba1a,allchannels)adc。make_element11(abba1a,aaaaak,allchannels)last_transmissionelseifelementmarkis0elseputselement(element/(elementmark+halidentifiers))prewhenlevelbytes=0,isgpureadandmarkisinitialandsize=1(edge)endlast_transmissionelselevel(mark2-mark3-edge)putsadc_tuple_tdletotargetadc。
fn(initializetransmission)tablet[normal){if(element==。
0){mark=element;adc.fn(initializetransmission)}else{adc.to_direct=flag;//direct=tfmodecasepose=flag;speed
文章采集鏈接 辦公生活節奏緊張,看看鮮花花會(huì )怎么開(kāi)放(組圖)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 180 次瀏覽 ? 2021-06-26 07:02
文章采集鏈接:【文字采集】泰坦style-微博微信新聞熱搜熱點(diǎn)采集導語(yǔ):辦公生活節奏緊張,各位可以周末過(guò)一下感恩節生活的態(tài)度,看看鮮花花會(huì )怎么開(kāi)放。每年泰坦維度的生日數據都是報告的重要素材,并且讓我們了解到,任何的福利活動(dòng),在辦公環(huán)境中都是必備的了,結合大數據:電話(huà)訪(fǎng)問(wèn)分析,高效分析全新的生日數據全國人民對泰坦的喜愛(ài)程度,結合投票結果:有服務(wù)電話(huà)的是高階粉絲群體,無(wú)服務(wù)電話(huà)的則是對投票結果不太了解的群體,其中產(chǎn)品設計師、項目經(jīng)理對美國色更為偏愛(ài)。
并且還能夠挑選出具備粉絲代表性的粉絲群體,就比如購買(mǎi)泰坦品牌書(shū)籍的粉絲。上千萬(wàn)人認為:泰坦代表大愛(ài)、正義、嚴謹、溫情,解決工作中人際交往,同時(shí)也能讓家人省心,配合最新的時(shí)事發(fā)展,更能夠調動(dòng)員工工作積極性,開(kāi)發(fā)新的人力資源。而對于企業(yè)老板、管理層、銷(xiāo)售人員、品牌運營(yíng)總監、客服人員、數據分析師、電話(huà)訪(fǎng)問(wèn)人員等都是一個(gè)不錯的喜愛(ài),我也是投票者,結果如下:。
有的,不過(guò)泰坦網(wǎng)站的數據,對于我們普通用戶(hù)來(lái)說(shuō)有些問(wèn)題,我用下泰坦,基本上問(wèn)題出現在想買(mǎi)商品時(shí),需要收費購買(mǎi)數據。
剛上線(xiàn),做的非常完善了,用戶(hù)在我這里的反應都很好,客服專(zhuān)業(yè)有耐心,體驗很好,對于辦公效率,付費考慮是非常明智的,畢竟每個(gè)公司的實(shí)際情況和管理是不一樣的。歡迎關(guān)注我們的網(wǎng)站/。 查看全部
文章采集鏈接 辦公生活節奏緊張,看看鮮花花會(huì )怎么開(kāi)放(組圖)
文章采集鏈接:【文字采集】泰坦style-微博微信新聞熱搜熱點(diǎn)采集導語(yǔ):辦公生活節奏緊張,各位可以周末過(guò)一下感恩節生活的態(tài)度,看看鮮花花會(huì )怎么開(kāi)放。每年泰坦維度的生日數據都是報告的重要素材,并且讓我們了解到,任何的福利活動(dòng),在辦公環(huán)境中都是必備的了,結合大數據:電話(huà)訪(fǎng)問(wèn)分析,高效分析全新的生日數據全國人民對泰坦的喜愛(ài)程度,結合投票結果:有服務(wù)電話(huà)的是高階粉絲群體,無(wú)服務(wù)電話(huà)的則是對投票結果不太了解的群體,其中產(chǎn)品設計師、項目經(jīng)理對美國色更為偏愛(ài)。
并且還能夠挑選出具備粉絲代表性的粉絲群體,就比如購買(mǎi)泰坦品牌書(shū)籍的粉絲。上千萬(wàn)人認為:泰坦代表大愛(ài)、正義、嚴謹、溫情,解決工作中人際交往,同時(shí)也能讓家人省心,配合最新的時(shí)事發(fā)展,更能夠調動(dòng)員工工作積極性,開(kāi)發(fā)新的人力資源。而對于企業(yè)老板、管理層、銷(xiāo)售人員、品牌運營(yíng)總監、客服人員、數據分析師、電話(huà)訪(fǎng)問(wèn)人員等都是一個(gè)不錯的喜愛(ài),我也是投票者,結果如下:。
有的,不過(guò)泰坦網(wǎng)站的數據,對于我們普通用戶(hù)來(lái)說(shuō)有些問(wèn)題,我用下泰坦,基本上問(wèn)題出現在想買(mǎi)商品時(shí),需要收費購買(mǎi)數據。
剛上線(xiàn),做的非常完善了,用戶(hù)在我這里的反應都很好,客服專(zhuān)業(yè)有耐心,體驗很好,對于辦公效率,付費考慮是非常明智的,畢竟每個(gè)公司的實(shí)際情況和管理是不一樣的。歡迎關(guān)注我們的網(wǎng)站/。
超速攝像的原理和方法,不用做事后諸葛亮!
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 147 次瀏覽 ? 2021-06-23 21:02
文章采集鏈接::本文為“旅游安全指南”系列其中一篇(第三篇目前還未完成。)想讓大家理解超速攝像的原理和方法,不用做事后諸葛亮!轉個(gè)你熟悉的故事:“我去xxx了,把你家的棺材搬過(guò)來(lái)”還有哪些安全攝像的有趣事例,并給出相應的視頻?每期文章我會(huì )選擇大家都能理解的安全問(wèn)題,用一兩個(gè)故事,首先試著(zhù)把大家熟悉的安全問(wèn)題“講給大家聽(tīng)”。
告訴大家一些“超速攝像”的基本原理,以及每個(gè)問(wèn)題背后其實(shí)是“怎么回事”?;蛟S隨著(zhù)大家越來(lái)越熟悉,會(huì )一直持續下去,或許直到大家看了一篇科普文章后自己也能再讀一遍,或許會(huì )有自己獨到的見(jiàn)解。在一件事物發(fā)生的過(guò)程中,我們看到的只是這個(gè)東西的局部,那么我們都能找到這個(gè)“局部”的同類(lèi)案例。這是我們可以用來(lái)參考的線(xiàn)索,也可以是個(gè)人經(jīng)驗,或者證據。
視頻源自高清落地攝像機和用于懸疑偵探推理的《xxxxx》,侵刪。每一幀觀(guān)看已經(jīng)超過(guò)十分鐘,所以只挑小亮點(diǎn)。小亮點(diǎn)就是“超速攝像”拍攝的那個(gè)片段,在后期剪輯的時(shí)候我也會(huì )把大概的故事講給大家聽(tīng),方便大家理解這個(gè)事件背后的“因果”關(guān)系。如果要更細的了解我故事的詳細內容,請保持關(guān)注后期推出的“安全指南”系列。
這套安全指南里面有很多新聞、影視劇的推理點(diǎn),各位的熱情肯定也很高。同時(shí)大家也可以參加一些有趣的安全體驗活動(dòng),體驗即我們說(shuō)的興趣班,目前我們有三個(gè)體驗名額,開(kāi)始是免費的,就是報了我們才有這個(gè)名額。每期也只安排一天時(shí)間,但是有機會(huì )體驗完后才能報名參加。掃碼識別圖中二維碼報名體驗活動(dòng)。 查看全部
超速攝像的原理和方法,不用做事后諸葛亮!
文章采集鏈接::本文為“旅游安全指南”系列其中一篇(第三篇目前還未完成。)想讓大家理解超速攝像的原理和方法,不用做事后諸葛亮!轉個(gè)你熟悉的故事:“我去xxx了,把你家的棺材搬過(guò)來(lái)”還有哪些安全攝像的有趣事例,并給出相應的視頻?每期文章我會(huì )選擇大家都能理解的安全問(wèn)題,用一兩個(gè)故事,首先試著(zhù)把大家熟悉的安全問(wèn)題“講給大家聽(tīng)”。
告訴大家一些“超速攝像”的基本原理,以及每個(gè)問(wèn)題背后其實(shí)是“怎么回事”?;蛟S隨著(zhù)大家越來(lái)越熟悉,會(huì )一直持續下去,或許直到大家看了一篇科普文章后自己也能再讀一遍,或許會(huì )有自己獨到的見(jiàn)解。在一件事物發(fā)生的過(guò)程中,我們看到的只是這個(gè)東西的局部,那么我們都能找到這個(gè)“局部”的同類(lèi)案例。這是我們可以用來(lái)參考的線(xiàn)索,也可以是個(gè)人經(jīng)驗,或者證據。
視頻源自高清落地攝像機和用于懸疑偵探推理的《xxxxx》,侵刪。每一幀觀(guān)看已經(jīng)超過(guò)十分鐘,所以只挑小亮點(diǎn)。小亮點(diǎn)就是“超速攝像”拍攝的那個(gè)片段,在后期剪輯的時(shí)候我也會(huì )把大概的故事講給大家聽(tīng),方便大家理解這個(gè)事件背后的“因果”關(guān)系。如果要更細的了解我故事的詳細內容,請保持關(guān)注后期推出的“安全指南”系列。
這套安全指南里面有很多新聞、影視劇的推理點(diǎn),各位的熱情肯定也很高。同時(shí)大家也可以參加一些有趣的安全體驗活動(dòng),體驗即我們說(shuō)的興趣班,目前我們有三個(gè)體驗名額,開(kāi)始是免費的,就是報了我們才有這個(gè)名額。每期也只安排一天時(shí)間,但是有機會(huì )體驗完后才能報名參加。掃碼識別圖中二維碼報名體驗活動(dòng)。
原創(chuàng )文章被別人即時(shí)復制怎么辦?如何處理??
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 203 次瀏覽 ? 2021-06-21 21:27
許多人討厭他們的原創(chuàng )文章 被其他人立即復制。有些人甚至用它來(lái)發(fā)送一些垃圾郵件鏈接。尤其相信很多老人都遇到過(guò)這樣的情況。有時(shí)他們的努力還不如采集。我們如何處理這種情況?
首先,在參賽者采集這個(gè)文章之前,盡量讓搜索引擎收錄它。
1、 及時(shí)抓取文章,讓搜索引擎知道這個(gè)文章。
2、Ping在百度網(wǎng)站管理自己的文章鏈接上,這也是百度官方告訴我們的一種方式。
二、文章 標記作者或版本。
萬(wàn)向認為,有時(shí)候阻止別人抄襲你的文章是不可能的,但這也是一種書(shū)面的交流和提醒,總比沒(méi)有強。
三、在文章中添加一些功能。
1、例如文章中的標簽代碼如n1、n2、color,搜索引擎會(huì )對這些內容更加敏感,從而加深對原創(chuàng )的判斷。
2、在文章添加你自己的品牌詞匯
3、加一些內鏈,因為喜歡抄文章的人一般比較懶。不排除有些人可以直接復制粘貼。
4、當文章文章被及時(shí)添加時(shí),搜索引擎會(huì )判斷文章的原創(chuàng )性并參考時(shí)間因素。
四、過(guò)濾網(wǎng)頁(yè)的關(guān)鍵功能
大多數人在使用鼠標右鍵復制文章時(shí),如果技術(shù)不受此功能影響,無(wú)疑會(huì )增加采集的麻煩。
五、night 更新
你害怕的是你的對手知道你的習慣,尤其是在白天。很多人喜歡在白天更新自己的文章,卻被別人盯上了。瞬間文章被抄襲。
在我們的網(wǎng)站上可以看到這些方法之后,相信這樣可以減少文章的集合數量。 查看全部
原創(chuàng )文章被別人即時(shí)復制怎么辦?如何處理??
許多人討厭他們的原創(chuàng )文章 被其他人立即復制。有些人甚至用它來(lái)發(fā)送一些垃圾郵件鏈接。尤其相信很多老人都遇到過(guò)這樣的情況。有時(shí)他們的努力還不如采集。我們如何處理這種情況?
首先,在參賽者采集這個(gè)文章之前,盡量讓搜索引擎收錄它。
1、 及時(shí)抓取文章,讓搜索引擎知道這個(gè)文章。
2、Ping在百度網(wǎng)站管理自己的文章鏈接上,這也是百度官方告訴我們的一種方式。
二、文章 標記作者或版本。
萬(wàn)向認為,有時(shí)候阻止別人抄襲你的文章是不可能的,但這也是一種書(shū)面的交流和提醒,總比沒(méi)有強。

三、在文章中添加一些功能。
1、例如文章中的標簽代碼如n1、n2、color,搜索引擎會(huì )對這些內容更加敏感,從而加深對原創(chuàng )的判斷。
2、在文章添加你自己的品牌詞匯
3、加一些內鏈,因為喜歡抄文章的人一般比較懶。不排除有些人可以直接復制粘貼。
4、當文章文章被及時(shí)添加時(shí),搜索引擎會(huì )判斷文章的原創(chuàng )性并參考時(shí)間因素。
四、過(guò)濾網(wǎng)頁(yè)的關(guān)鍵功能
大多數人在使用鼠標右鍵復制文章時(shí),如果技術(shù)不受此功能影響,無(wú)疑會(huì )增加采集的麻煩。
五、night 更新
你害怕的是你的對手知道你的習慣,尤其是在白天。很多人喜歡在白天更新自己的文章,卻被別人盯上了。瞬間文章被抄襲。
在我們的網(wǎng)站上可以看到這些方法之后,相信這樣可以減少文章的集合數量。


