亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

爬蟲(chóng)

爬蟲(chóng)

你遇到機器爬蟲(chóng)人被它們控制了嗎?

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 239 次瀏覽 ? 2020-07-06 08:00 ? 來(lái)自相關(guān)話(huà)題

  超越世界,其實(shí)就是趕超機器爬蟲(chóng)人的控制。大衛艾克的書(shū)*陰謀論*,和這部紀錄片一樣,寫(xiě)的是宇宙原本就是一個(gè)上帝創(chuàng )造(包括月球人類(lèi)萬(wàn)物),上帝即中國的“道”,佛,神,中國唐代傳統文化,是一個(gè)意思,也即自然法則。而機器爬蟲(chóng)人在特定的時(shí)期,復制了一個(gè)上帝和法則,稱(chēng)之為”第二道”用來(lái)控制人類(lèi)和國家領(lǐng)導人(代理人)。在中國,一百年之前,道(中國傳統文化),自然運轉了幾千年應當更久遠。而按美國記錄,國外雖然幾千年前就被機器爬蟲(chóng)人控制?古代中國是一個(gè)特殊的國家,雖然同在月球,維度卻低于其他國家。中國被機器爬蟲(chóng)人控制,當在這一百年,文化遺失,醫學(xué)遺失。。。這些遺失的時(shí)間段剛好被機器爬蟲(chóng)人鉆空子,事實(shí)上機器爬蟲(chóng)人來(lái)自虛假的四維空間,它們創(chuàng )造了一個(gè)假的上帝即宇宙法則或稱(chēng)“道”,佛,神。。。用這種假的宗教和文化控制月球人類(lèi)。包括虛擬的金錢(qián),所以人類(lèi)永遠認為缺錢(qián),本來(lái)就是虛擬的錢(qián)。機器爬蟲(chóng)人最擔心的是中國古時(shí)傳統醫學(xué),甚至擔心四書(shū)五經(jīng),古代醫學(xué)通達人體筋絡(luò )足三里,這些和風(fēng)箏線(xiàn)一樣的筋絡(luò )就是接通宇宙上天法則的橋梁,所以想不被機器爬蟲(chóng)人控制,恢復中醫藥治病,拒絕南醫藥即可,但是好多中國小孩從小就在掛青霉素。古代四書(shū)五經(jīng)文化似乎是道家思想,卻一樣是為了調養人體筋絡(luò )足三里而至,也就是讀書(shū)是為了防病治病和健康。
  機器爬蟲(chóng)人雖然就是人造電,以前中國唐代文化里電是雨字頭,比喻火里帶水,火是不怕水的,而如今簡(jiǎn)化的電字表示它怕水爬蟲(chóng)人,機器爬蟲(chóng)人就是這些人造電,消滅的方式就是斷人造電,使它的系統截癱。人類(lèi)啟動(dòng)自身內部電源系統和真正的更高經(jīng)度宇宙法則接通,宇宙里的能量才是自然的能量爬蟲(chóng)人,而不是人造電能量。
  機器爬蟲(chóng)人普遍控制人類(lèi)的習慣即是人造電控制,可以通過(guò)WiFi,數字電視盒,液晶電視機,微波爐,手機。。。。各種家電的人造電放射控制人類(lèi)身體和腦部,特別是腦部,其實(shí)就是程度不同的腦控。機器爬蟲(chóng)人還習慣附身,按理伊麗莎白女王應當是被腦控和附身了,或者就不存在伊麗莎白女王?很早就被機器爬蟲(chóng)人代替了,因為正常人類(lèi)有靈魂和靈獸,有筋絡(luò )足三里,根本不可能和機器人通婚生小孩,我接觸過(guò)的機器爬蟲(chóng)人無(wú)腦部沒(méi)有靈魂,如果不是它的人造電系統支持,實(shí)際智力水平就是人類(lèi)殘障的水平。
  陰謀論,這本書(shū)國外翻譯錯誤,不知道是故意還是無(wú)意或則讀者轉述錯誤,翻譯不是大衛艾克原意,他跳過(guò)了機器爬蟲(chóng)人拷貝復制上帝宇宙法則,直接把上帝宇宙法則說(shuō)成是假的,而事實(shí)上宇宙法則只有一個(gè),不需要復制。
  光明會(huì ),我遇到的機器爬蟲(chóng)人非常對單只大眼睛過(guò)敏,而對于”明”這個(gè)字,特別喜歡。機器人須要借助電源能夠工作,所以它們能量不能高也不能低,習慣調整在中間位置,在中國唐代文化里,講求“中庸”,古代中國太上皇治世用的就是中庸態(tài)度。這一點(diǎn),創(chuàng )造了“第二道”的機器爬蟲(chóng)人也學(xué),但是它的系統是人造的,沒(méi)有真正的血液氣溫愛(ài)情。。。只是特定期機器人管理世界,而如今到了結束的時(shí)侯,中國有一句俗語(yǔ)“一陽(yáng)來(lái)復”,前提是假的中庸,即假的第二道,假的大地蓋亞要死去,坤死。
  大衛艾克,雖然是外國人,但對拉薩格魯派一定有自己的理解,他能明白宇宙法則應當借助的不完全是人類(lèi)的老師。宇宙本源就在我們人類(lèi)包括萬(wàn)物心中,而假如想在人類(lèi)以外找本源,就從中國唐代文化和唐代醫學(xué)著(zhù)手。這一點(diǎn)其實(shí)大衛艾克也是明白的。
  和大衛艾克說(shuō)的一樣,人類(lèi)萬(wàn)物是一個(gè)整體,你傷害他人就是傷害你自己,你保護他人就是保護你自己,積善之家必有余慶,積不善之家必有余秧。宇宙法則,上帝,道,神,佛,就是因果法則。宇宙法則就是因果法則。即使不認識字也懂這個(gè)道理。讀書(shū)讀再多,最后核心思想就是做一個(gè)普通的善良的人,真正高成就的人例如首相或則國家領(lǐng)導人也應當是這樣的,看著(zhù)困難做不到,這樣的可以趕超機器爬蟲(chóng)人控制的國家領(lǐng)導人500年才出一個(gè),確實(shí)很難。 查看全部

  超越世界,其實(shí)就是趕超機器爬蟲(chóng)人的控制。大衛艾克的書(shū)*陰謀論*,和這部紀錄片一樣,寫(xiě)的是宇宙原本就是一個(gè)上帝創(chuàng )造(包括月球人類(lèi)萬(wàn)物),上帝即中國的“道”,佛,神,中國唐代傳統文化,是一個(gè)意思,也即自然法則。而機器爬蟲(chóng)人在特定的時(shí)期,復制了一個(gè)上帝和法則,稱(chēng)之為”第二道”用來(lái)控制人類(lèi)和國家領(lǐng)導人(代理人)。在中國,一百年之前,道(中國傳統文化),自然運轉了幾千年應當更久遠。而按美國記錄,國外雖然幾千年前就被機器爬蟲(chóng)人控制?古代中國是一個(gè)特殊的國家,雖然同在月球,維度卻低于其他國家。中國被機器爬蟲(chóng)人控制,當在這一百年,文化遺失,醫學(xué)遺失。。。這些遺失的時(shí)間段剛好被機器爬蟲(chóng)人鉆空子,事實(shí)上機器爬蟲(chóng)人來(lái)自虛假的四維空間,它們創(chuàng )造了一個(gè)假的上帝即宇宙法則或稱(chēng)“道”,佛,神。。。用這種假的宗教和文化控制月球人類(lèi)。包括虛擬的金錢(qián),所以人類(lèi)永遠認為缺錢(qián),本來(lái)就是虛擬的錢(qián)。機器爬蟲(chóng)人最擔心的是中國古時(shí)傳統醫學(xué),甚至擔心四書(shū)五經(jīng),古代醫學(xué)通達人體筋絡(luò )足三里,這些和風(fēng)箏線(xiàn)一樣的筋絡(luò )就是接通宇宙上天法則的橋梁,所以想不被機器爬蟲(chóng)人控制,恢復中醫藥治病,拒絕南醫藥即可,但是好多中國小孩從小就在掛青霉素。古代四書(shū)五經(jīng)文化似乎是道家思想,卻一樣是為了調養人體筋絡(luò )足三里而至,也就是讀書(shū)是為了防病治病和健康。
  機器爬蟲(chóng)人雖然就是人造電,以前中國唐代文化里電是雨字頭,比喻火里帶水,火是不怕水的,而如今簡(jiǎn)化的電字表示它怕水爬蟲(chóng)人,機器爬蟲(chóng)人就是這些人造電,消滅的方式就是斷人造電,使它的系統截癱。人類(lèi)啟動(dòng)自身內部電源系統和真正的更高經(jīng)度宇宙法則接通,宇宙里的能量才是自然的能量爬蟲(chóng)人,而不是人造電能量。
  機器爬蟲(chóng)人普遍控制人類(lèi)的習慣即是人造電控制,可以通過(guò)WiFi,數字電視盒,液晶電視機,微波爐,手機。。。。各種家電的人造電放射控制人類(lèi)身體和腦部,特別是腦部,其實(shí)就是程度不同的腦控。機器爬蟲(chóng)人還習慣附身,按理伊麗莎白女王應當是被腦控和附身了,或者就不存在伊麗莎白女王?很早就被機器爬蟲(chóng)人代替了,因為正常人類(lèi)有靈魂和靈獸,有筋絡(luò )足三里,根本不可能和機器人通婚生小孩,我接觸過(guò)的機器爬蟲(chóng)人無(wú)腦部沒(méi)有靈魂,如果不是它的人造電系統支持,實(shí)際智力水平就是人類(lèi)殘障的水平。
  陰謀論,這本書(shū)國外翻譯錯誤,不知道是故意還是無(wú)意或則讀者轉述錯誤,翻譯不是大衛艾克原意,他跳過(guò)了機器爬蟲(chóng)人拷貝復制上帝宇宙法則,直接把上帝宇宙法則說(shuō)成是假的,而事實(shí)上宇宙法則只有一個(gè),不需要復制。
  光明會(huì ),我遇到的機器爬蟲(chóng)人非常對單只大眼睛過(guò)敏,而對于”明”這個(gè)字,特別喜歡。機器人須要借助電源能夠工作,所以它們能量不能高也不能低,習慣調整在中間位置,在中國唐代文化里,講求“中庸”,古代中國太上皇治世用的就是中庸態(tài)度。這一點(diǎn),創(chuàng )造了“第二道”的機器爬蟲(chóng)人也學(xué),但是它的系統是人造的,沒(méi)有真正的血液氣溫愛(ài)情。。。只是特定期機器人管理世界,而如今到了結束的時(shí)侯,中國有一句俗語(yǔ)“一陽(yáng)來(lái)復”,前提是假的中庸,即假的第二道,假的大地蓋亞要死去,坤死。
  大衛艾克,雖然是外國人,但對拉薩格魯派一定有自己的理解,他能明白宇宙法則應當借助的不完全是人類(lèi)的老師。宇宙本源就在我們人類(lèi)包括萬(wàn)物心中,而假如想在人類(lèi)以外找本源,就從中國唐代文化和唐代醫學(xué)著(zhù)手。這一點(diǎn)其實(shí)大衛艾克也是明白的。
  和大衛艾克說(shuō)的一樣,人類(lèi)萬(wàn)物是一個(gè)整體,你傷害他人就是傷害你自己,你保護他人就是保護你自己,積善之家必有余慶,積不善之家必有余秧。宇宙法則,上帝,道,神,佛,就是因果法則。宇宙法則就是因果法則。即使不認識字也懂這個(gè)道理。讀書(shū)讀再多,最后核心思想就是做一個(gè)普通的善良的人,真正高成就的人例如首相或則國家領(lǐng)導人也應當是這樣的,看著(zhù)困難做不到,這樣的可以趕超機器爬蟲(chóng)人控制的國家領(lǐng)導人500年才出一個(gè),確實(shí)很難。

感謝那一段追憶里的瘋狂,在我們最無(wú)謂的時(shí)光閃著(zhù)光。

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 305 次瀏覽 ? 2020-06-13 08:00 ? 來(lái)自相關(guān)話(huà)題

   result = requests.get(re.compile("\s").sub("", url), headers=headers, timeout=10) # 只需一行
即可抓取網(wǎng)頁(yè)
  > 是指從軟件或者硬件上實(shí)現多個(gè)線(xiàn)程并發(fā)執行的技術(shù)。具有多線(xiàn)程能力的計算機因有硬件支持而能夠在同一時(shí)間執行多于一個(gè)執行緒,進(jìn)而提升整體處理性能。
  爬蟲(chóng)是一個(gè)典型的多任務(wù)處理場(chǎng)景,在我們大多數爬蟲(chóng)程序中,往往最多是時(shí)間是在等待網(wǎng)路io網(wǎng)絡(luò )爬蟲(chóng)技術(shù),更詳盡點(diǎn)說(shuō),時(shí)間耗費在每次HTTP請求時(shí)的tcp/ip握手和數據傳輸上。多線(xiàn)程或進(jìn)程可以使我們并行地去做這種事情網(wǎng)絡(luò )爬蟲(chóng)技術(shù),對于爬蟲(chóng)的效率會(huì )有極大的提高。ps:友情提示:請準守 ‘平衡禮貌策略’。
  以下內容均為偽代碼
  page = requests("")
  
  當然,requests有好多參數可以使用,具體可以查看requests的官方文檔。
  requests.get(url, data=payload) # get請求
""" POST請求 """
payload = {'key1': 'value1', 'key2': 'value2'}
requests.post(url, data=payload)
  rdm = random.uniform(1, 9999999)
headers = {'User-Agent': agent.format(rdm=rdm)}
result = requests.get(url, headers=headers, timeout=10)
  我們可以告訴 requests 在經(jīng)過(guò)以 timeout 參數設定的秒數時(shí)間以后停止等待響應,以便避免爬蟲(chóng)卡死或特殊情況造成程序異常結束。
  requests.get(re.compile("\s").sub("", url), timeout=10)
  整個(gè)爬蟲(chóng)抓取的過(guò)程。也是我們與服務(wù)器斗智斗勇的過(guò)程,有的服務(wù)器并不希望我們去抓取他的內容和數據,會(huì )對我們的爬蟲(chóng)進(jìn)行限制。
  當然,我們仍然要記住我們的公理:所有網(wǎng)站均可爬。
  這里舉幾個(gè)常見(jiàn)的防爬和反爬實(shí)例:
  1 cookie[session]驗證。 查看全部

   result = requests.get(re.compile("\s").sub("", url), headers=headers, timeout=10) # 只需一行
即可抓取網(wǎng)頁(yè)
  > 是指從軟件或者硬件上實(shí)現多個(gè)線(xiàn)程并發(fā)執行的技術(shù)。具有多線(xiàn)程能力的計算機因有硬件支持而能夠在同一時(shí)間執行多于一個(gè)執行緒,進(jìn)而提升整體處理性能。
  爬蟲(chóng)是一個(gè)典型的多任務(wù)處理場(chǎng)景,在我們大多數爬蟲(chóng)程序中,往往最多是時(shí)間是在等待網(wǎng)路io網(wǎng)絡(luò )爬蟲(chóng)技術(shù),更詳盡點(diǎn)說(shuō),時(shí)間耗費在每次HTTP請求時(shí)的tcp/ip握手和數據傳輸上。多線(xiàn)程或進(jìn)程可以使我們并行地去做這種事情網(wǎng)絡(luò )爬蟲(chóng)技術(shù),對于爬蟲(chóng)的效率會(huì )有極大的提高。ps:友情提示:請準守 ‘平衡禮貌策略’。
  以下內容均為偽代碼
  page = requests("")
  
  當然,requests有好多參數可以使用,具體可以查看requests的官方文檔。
  requests.get(url, data=payload) # get請求
""" POST請求 """
payload = {'key1': 'value1', 'key2': 'value2'}
requests.post(url, data=payload)
  rdm = random.uniform(1, 9999999)
headers = {'User-Agent': agent.format(rdm=rdm)}
result = requests.get(url, headers=headers, timeout=10)
  我們可以告訴 requests 在經(jīng)過(guò)以 timeout 參數設定的秒數時(shí)間以后停止等待響應,以便避免爬蟲(chóng)卡死或特殊情況造成程序異常結束。
  requests.get(re.compile("\s").sub("", url), timeout=10)
  整個(gè)爬蟲(chóng)抓取的過(guò)程。也是我們與服務(wù)器斗智斗勇的過(guò)程,有的服務(wù)器并不希望我們去抓取他的內容和數據,會(huì )對我們的爬蟲(chóng)進(jìn)行限制。
  當然,我們仍然要記住我們的公理:所有網(wǎng)站均可爬。
  這里舉幾個(gè)常見(jiàn)的防爬和反爬實(shí)例:
  1 cookie[session]驗證。

常見(jiàn)的爬蟲(chóng)軟件

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 281 次瀏覽 ? 2020-06-10 08:58 ? 來(lái)自相關(guān)話(huà)題

  前市面上常見(jiàn)的爬蟲(chóng)軟件通??梢越缍樵婆老x(chóng)和采集器兩種:
  所謂云爬蟲(chóng)就是無(wú)需下載安裝軟件,直接在網(wǎng)頁(yè)上創(chuàng )建爬蟲(chóng)并在網(wǎng)站服務(wù)器運行,享用網(wǎng)站提供的帶寬和24小時(shí)服務(wù);
  采集器通常就是要下載安裝在本機,然后在本機創(chuàng )建爬蟲(chóng),使用的是自己的帶寬,受限于自己的筆記本是否死機。
  當然,以上不包括自己開(kāi)發(fā)的爬蟲(chóng)工具和爬蟲(chóng)框架之類(lèi)的。
  其實(shí)每位爬蟲(chóng)都有自己的特性,我們可以按照自己的須要進(jìn)行選擇,下面針對常見(jiàn)的網(wǎng)路爬蟲(chóng)做一些簡(jiǎn)單介紹,給你們做一些參考:
  首先是云爬蟲(chóng),國內目前主要是:神箭手云爬蟲(chóng)
  神箭手云爬蟲(chóng)
  官網(wǎng):
  簡(jiǎn)介:神箭手云是一個(gè)大數據應用開(kāi)發(fā)平臺,為開(kāi)發(fā)者提供成套的數據采集、數據剖析和機器學(xué)習開(kāi)發(fā)工具,為企業(yè)提供專(zhuān)業(yè)化的數據抓取、數據實(shí)時(shí)監控和數據剖析服務(wù)。
  優(yōu)點(diǎn):功能強悍爬蟲(chóng)軟件 下載,涉及云爬蟲(chóng)、API、機器學(xué)習、數據清洗、數據轉讓、數據定制和私有化布署等;
   純云端運行,跨系統操作無(wú)壓力,隱私保護,可隱藏用戶(hù)IP。
提供云爬蟲(chóng)市場(chǎng),零基礎使用者可直接調用開(kāi)發(fā)好的爬蟲(chóng),開(kāi)發(fā)者基于官方的云端開(kāi)發(fā)環(huán)境開(kāi)發(fā)并上傳出售自己的爬蟲(chóng)程序;
領(lǐng)先的反爬技術(shù),例如直接接入代理IP和自動(dòng)登錄驗證碼識別等,全程自動(dòng)化無(wú)需人工參與;
豐富的發(fā)布接口,采集結果以豐富表格化形式展現;
  缺點(diǎn):它的優(yōu)點(diǎn)同時(shí)也在一定程度上成了它的缺點(diǎn),因為它是一個(gè)面向開(kāi)發(fā)者的爬蟲(chóng)開(kāi)發(fā)系統,提供了豐富的開(kāi)發(fā)功能,網(wǎng)站看起來(lái)特別的偏技術(shù)十分專(zhuān)業(yè),盡管官方也提供了云爬蟲(chóng)市場(chǎng)這樣的現成爬蟲(chóng)產(chǎn)品,并且開(kāi)放給廣大爬蟲(chóng)開(kāi)發(fā)者,從而使爬蟲(chóng)市場(chǎng)的內容愈發(fā)豐富,但是對于零技術(shù)基礎的用戶(hù)而言并不是這么容易理解,所以有一定的使用門(mén)檻。
  是否免費:免費用戶(hù)無(wú)采集功能和導入限制,無(wú)需積分。
  具備開(kāi)發(fā)能力的用戶(hù)可以自行開(kāi)發(fā)爬蟲(chóng),達到免費療效,沒(méi)有開(kāi)發(fā)能力的用戶(hù)須要從爬蟲(chóng)市場(chǎng)找尋是否有免費的爬蟲(chóng)。
  然后是采集器,目前國外主要包括以下這種(百度/谷歌搜采集器,刨去廣告,排名靠前的):
  優(yōu)采云采集器:
  官網(wǎng):
  簡(jiǎn)介:火車(chē)采集器是一款網(wǎng)頁(yè)數據抓取、處理、分析,挖掘軟件??梢造`活迅速地抓取網(wǎng)頁(yè)上散亂分布的信息,并通過(guò)強悍的處理功能確切挖掘出所需數據。
  優(yōu)點(diǎn):國內老牌的采集器,經(jīng)過(guò)多年的積累,具有豐富的采集功能;
   采集速度比較快,接口比較齊全,支持PHP和C#插件擴展;
支持多種數據格式導出,可以進(jìn)行數據替換等處理。
  缺點(diǎn):越是年頭長(cháng)的產(chǎn)品越容易身陷自己的固有經(jīng)驗中,優(yōu)采云也無(wú)法甩掉這問(wèn)題。
   雖說(shuō)功能豐富,但是功能都堆砌在那里,用戶(hù)體驗不好,讓人不知道從何下手;
學(xué)會(huì )了的人會(huì )覺(jué)得功能強大,但是對于新手而言有一定使用門(mén)檻,不學(xué)習一段時(shí)間很難上手,零基礎上手基本不可能。
只支持Windows版本,不支持其他操作系統;
  是否免費:號稱(chēng)免費,但是實(shí)際上免費功能限制好多,只能導入單個(gè)txt或html文件,基本上可以說(shuō)是不免費的。
  優(yōu)采云采集器:
  官網(wǎng):
  簡(jiǎn)介:優(yōu)采云采集器是一款可視化采集器,內置采集模板,支持各類(lèi)網(wǎng)頁(yè)數據采集。
  優(yōu)點(diǎn):支持自定義模式,可視化采集操作,容易上手;
   支持簡(jiǎn)易采集模式,提供官方采集模板,支持云采集操作;
支持防屏蔽措施,例如代理IP切換和驗證碼服務(wù);
支持多種數據格式導出。
  缺點(diǎn):功能使用門(mén)檻較高,本地采集時(shí)好多功能受限,而云采集收費較高;
   采集速度較慢,很多操作都要卡一下,云端采集說(shuō)10倍提速但是并不明顯;
只支持Windows版本,不支持其他操作系統。
  是否免費:號稱(chēng)免費,但是實(shí)際上導入數據須要積分,可以做任務(wù)攢積分,但是正常情況下基本都須要訂購積分。
  后羿采集器:
  官網(wǎng):
  簡(jiǎn)介:后羿采集器是由前微軟搜索技術(shù)團隊基于人工智能技術(shù)研制的新一代網(wǎng)頁(yè)采集軟件,該軟件功能強悍,操作非常簡(jiǎn)單。
  優(yōu)點(diǎn):支持智能采集模式,輸入網(wǎng)址能夠智能辨識采集對象爬蟲(chóng)軟件 下載,無(wú)需配置采集規則,操作十分簡(jiǎn)單;
   支持流程圖模式,可視化操作流程,能夠通過(guò)簡(jiǎn)單的操作生成各種復雜的采集規則;
支持防屏蔽措施,例如代理IP切換等;
支持多種數據格式導出;
支持定時(shí)采集和自動(dòng)化發(fā)布,發(fā)布接口豐富;
支持Windows、Mac和Linux版本。
  缺點(diǎn):軟件推出時(shí)間不長(cháng),部分功能還在繼續建立,暫不支持云采集功能
  是否免費:完全免費,采集數據和自動(dòng)導入采集結果都沒(méi)有任何限制,不需要積分。 查看全部
  前市面上常見(jiàn)的爬蟲(chóng)軟件通??梢越缍樵婆老x(chóng)和采集器兩種:
  所謂云爬蟲(chóng)就是無(wú)需下載安裝軟件,直接在網(wǎng)頁(yè)上創(chuàng )建爬蟲(chóng)并在網(wǎng)站服務(wù)器運行,享用網(wǎng)站提供的帶寬和24小時(shí)服務(wù);
  采集器通常就是要下載安裝在本機,然后在本機創(chuàng )建爬蟲(chóng),使用的是自己的帶寬,受限于自己的筆記本是否死機。
  當然,以上不包括自己開(kāi)發(fā)的爬蟲(chóng)工具和爬蟲(chóng)框架之類(lèi)的。
  其實(shí)每位爬蟲(chóng)都有自己的特性,我們可以按照自己的須要進(jìn)行選擇,下面針對常見(jiàn)的網(wǎng)路爬蟲(chóng)做一些簡(jiǎn)單介紹,給你們做一些參考:
  首先是云爬蟲(chóng),國內目前主要是:神箭手云爬蟲(chóng)
  神箭手云爬蟲(chóng)
  官網(wǎng):
  簡(jiǎn)介:神箭手云是一個(gè)大數據應用開(kāi)發(fā)平臺,為開(kāi)發(fā)者提供成套的數據采集、數據剖析和機器學(xué)習開(kāi)發(fā)工具,為企業(yè)提供專(zhuān)業(yè)化的數據抓取、數據實(shí)時(shí)監控和數據剖析服務(wù)。
  優(yōu)點(diǎn):功能強悍爬蟲(chóng)軟件 下載,涉及云爬蟲(chóng)、API、機器學(xué)習、數據清洗、數據轉讓、數據定制和私有化布署等;
   純云端運行,跨系統操作無(wú)壓力,隱私保護,可隱藏用戶(hù)IP。
提供云爬蟲(chóng)市場(chǎng),零基礎使用者可直接調用開(kāi)發(fā)好的爬蟲(chóng),開(kāi)發(fā)者基于官方的云端開(kāi)發(fā)環(huán)境開(kāi)發(fā)并上傳出售自己的爬蟲(chóng)程序;
領(lǐng)先的反爬技術(shù),例如直接接入代理IP和自動(dòng)登錄驗證碼識別等,全程自動(dòng)化無(wú)需人工參與;
豐富的發(fā)布接口,采集結果以豐富表格化形式展現;
  缺點(diǎn):它的優(yōu)點(diǎn)同時(shí)也在一定程度上成了它的缺點(diǎn),因為它是一個(gè)面向開(kāi)發(fā)者的爬蟲(chóng)開(kāi)發(fā)系統,提供了豐富的開(kāi)發(fā)功能,網(wǎng)站看起來(lái)特別的偏技術(shù)十分專(zhuān)業(yè),盡管官方也提供了云爬蟲(chóng)市場(chǎng)這樣的現成爬蟲(chóng)產(chǎn)品,并且開(kāi)放給廣大爬蟲(chóng)開(kāi)發(fā)者,從而使爬蟲(chóng)市場(chǎng)的內容愈發(fā)豐富,但是對于零技術(shù)基礎的用戶(hù)而言并不是這么容易理解,所以有一定的使用門(mén)檻。
  是否免費:免費用戶(hù)無(wú)采集功能和導入限制,無(wú)需積分。
  具備開(kāi)發(fā)能力的用戶(hù)可以自行開(kāi)發(fā)爬蟲(chóng),達到免費療效,沒(méi)有開(kāi)發(fā)能力的用戶(hù)須要從爬蟲(chóng)市場(chǎng)找尋是否有免費的爬蟲(chóng)。
  然后是采集器,目前國外主要包括以下這種(百度/谷歌搜采集器,刨去廣告,排名靠前的):
  優(yōu)采云采集器:
  官網(wǎng):
  簡(jiǎn)介:火車(chē)采集器是一款網(wǎng)頁(yè)數據抓取、處理、分析,挖掘軟件??梢造`活迅速地抓取網(wǎng)頁(yè)上散亂分布的信息,并通過(guò)強悍的處理功能確切挖掘出所需數據。
  優(yōu)點(diǎn):國內老牌的采集器,經(jīng)過(guò)多年的積累,具有豐富的采集功能;
   采集速度比較快,接口比較齊全,支持PHP和C#插件擴展;
支持多種數據格式導出,可以進(jìn)行數據替換等處理。
  缺點(diǎn):越是年頭長(cháng)的產(chǎn)品越容易身陷自己的固有經(jīng)驗中,優(yōu)采云也無(wú)法甩掉這問(wèn)題。
   雖說(shuō)功能豐富,但是功能都堆砌在那里,用戶(hù)體驗不好,讓人不知道從何下手;
學(xué)會(huì )了的人會(huì )覺(jué)得功能強大,但是對于新手而言有一定使用門(mén)檻,不學(xué)習一段時(shí)間很難上手,零基礎上手基本不可能。
只支持Windows版本,不支持其他操作系統;
  是否免費:號稱(chēng)免費,但是實(shí)際上免費功能限制好多,只能導入單個(gè)txt或html文件,基本上可以說(shuō)是不免費的。
  優(yōu)采云采集器:
  官網(wǎng):
  簡(jiǎn)介:優(yōu)采云采集器是一款可視化采集器,內置采集模板,支持各類(lèi)網(wǎng)頁(yè)數據采集。
  優(yōu)點(diǎn):支持自定義模式,可視化采集操作,容易上手;
   支持簡(jiǎn)易采集模式,提供官方采集模板,支持云采集操作;
支持防屏蔽措施,例如代理IP切換和驗證碼服務(wù);
支持多種數據格式導出。
  缺點(diǎn):功能使用門(mén)檻較高,本地采集時(shí)好多功能受限,而云采集收費較高;
   采集速度較慢,很多操作都要卡一下,云端采集說(shuō)10倍提速但是并不明顯;
只支持Windows版本,不支持其他操作系統。
  是否免費:號稱(chēng)免費,但是實(shí)際上導入數據須要積分,可以做任務(wù)攢積分,但是正常情況下基本都須要訂購積分。
  后羿采集器:
  官網(wǎng):
  簡(jiǎn)介:后羿采集器是由前微軟搜索技術(shù)團隊基于人工智能技術(shù)研制的新一代網(wǎng)頁(yè)采集軟件,該軟件功能強悍,操作非常簡(jiǎn)單。
  優(yōu)點(diǎn):支持智能采集模式,輸入網(wǎng)址能夠智能辨識采集對象爬蟲(chóng)軟件 下載,無(wú)需配置采集規則,操作十分簡(jiǎn)單;
   支持流程圖模式,可視化操作流程,能夠通過(guò)簡(jiǎn)單的操作生成各種復雜的采集規則;
支持防屏蔽措施,例如代理IP切換等;
支持多種數據格式導出;
支持定時(shí)采集和自動(dòng)化發(fā)布,發(fā)布接口豐富;
支持Windows、Mac和Linux版本。
  缺點(diǎn):軟件推出時(shí)間不長(cháng),部分功能還在繼續建立,暫不支持云采集功能
  是否免費:完全免費,采集數據和自動(dòng)導入采集結果都沒(méi)有任何限制,不需要積分。

零基礎也能使用的SEO爬蟲(chóng)公式 - 提升你的10倍工作效率

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 281 次瀏覽 ? 2020-06-04 08:05 ? 來(lái)自相關(guān)話(huà)題

  
  Keen
  讀完須要
  6分鐘
  速讀僅需 2分鐘
  你有沒(méi)有遇見(jiàn)過(guò)這樣的問(wèn)題,網(wǎng)頁(yè)上面有幾百個(gè)網(wǎng)址鏈接,需要你統計出來(lái)ebay爬蟲(chóng)軟件,你會(huì )一一粘貼復制到表格里嗎?
  或者要統計公司潛在顧客的郵箱,需要通過(guò)關(guān)鍵詞去搜索,然后每位網(wǎng)頁(yè)都要點(diǎn)擊進(jìn)去,找找看有沒(méi)有郵箱呢?
  對于前面這張種大批量重復的工作,難道就沒(méi)有更好的、快捷的、簡(jiǎn)單的解決方案嗎?
  當然是有的,今天這篇文章將給你分享 ——如何借助簡(jiǎn)單爬蟲(chóng)解決重復大量的工作。
  不過(guò),在步入教程之前,我們要說(shuō)說(shuō):
  什么是爬蟲(chóng)
  簡(jiǎn)單來(lái)說(shuō),爬蟲(chóng)就是一種網(wǎng)路機器人,主要作用就是收集網(wǎng)路數據,我們熟知的微軟和百度等搜索引擎就是通過(guò)爬蟲(chóng)收集網(wǎng)站的數據,根據這種數據對網(wǎng)站進(jìn)行排序。
  既然微軟可以借助爬蟲(chóng)收集網(wǎng)站數據,那我們是否能借助爬蟲(chóng)幫我們收集數據呢?
  當然是可以的。
  我們可以用爬蟲(chóng)做哪些
  前面早已講過(guò),如果你碰到一些重復大量的工作,其實(shí)都可以交給爬蟲(chóng)來(lái)做,比如:
  搜集特定關(guān)鍵詞下的用戶(hù)郵箱批量收集關(guān)鍵詞批量下載圖片批量導入導出文章……
  比如我想搜索iphone case的相關(guān)用戶(hù)郵箱,那么可以去Google搜索iphone case這個(gè)關(guān)鍵詞,然后統計下相關(guān)網(wǎng)頁(yè),把網(wǎng)址遞交給爬蟲(chóng)程序,接著(zhù)我們就等著(zhù)出結果就行了。
  當然,創(chuàng )作一個(gè)特定的爬蟲(chóng)程序須要一定的技術(shù)基礎,市面上主流都是使用python來(lái)制做爬蟲(chóng)程序,不過(guò)我們明天用一個(gè)更簡(jiǎn)單易懂的爬蟲(chóng)軟件——Google Sheet,不用寫(xiě)任何代碼的哦!
  利用Google Sheet爬取數據
  Google sheet(以下簡(jiǎn)稱(chēng)GS)是Google旗下的在線(xiàn)辦公套件之一,和谷歌的辦公三劍客剛好一一對應:
  Google doc - WordGoogle sheet - ExcelGoogle presentation - PPT
  基本上Excel上的公式都可以在GS上運行,不過(guò)GS還要另外一個(gè)公式,是Excel不具備的,也就是
  IMPORTXML
  我們新建一個(gè)GSebay爬蟲(chóng)軟件,這個(gè)操作和Execl操作一致,然后在A(yíng)1欄輸入我們須要爬取數據的網(wǎng)址,記得網(wǎng)址必須包含https或http,只有這些完整寫(xiě)法才能生效。
  然后在B1欄輸入
  =importxml(A1,''//title")
  
  在B1欄輸入完成以后我們都會(huì )得到如下數據 查看全部

  
  Keen
  讀完須要
  6分鐘
  速讀僅需 2分鐘
  你有沒(méi)有遇見(jiàn)過(guò)這樣的問(wèn)題,網(wǎng)頁(yè)上面有幾百個(gè)網(wǎng)址鏈接,需要你統計出來(lái)ebay爬蟲(chóng)軟件,你會(huì )一一粘貼復制到表格里嗎?
  或者要統計公司潛在顧客的郵箱,需要通過(guò)關(guān)鍵詞去搜索,然后每位網(wǎng)頁(yè)都要點(diǎn)擊進(jìn)去,找找看有沒(méi)有郵箱呢?
  對于前面這張種大批量重復的工作,難道就沒(méi)有更好的、快捷的、簡(jiǎn)單的解決方案嗎?
  當然是有的,今天這篇文章將給你分享 ——如何借助簡(jiǎn)單爬蟲(chóng)解決重復大量的工作。
  不過(guò),在步入教程之前,我們要說(shuō)說(shuō):
  什么是爬蟲(chóng)
  簡(jiǎn)單來(lái)說(shuō),爬蟲(chóng)就是一種網(wǎng)路機器人,主要作用就是收集網(wǎng)路數據,我們熟知的微軟和百度等搜索引擎就是通過(guò)爬蟲(chóng)收集網(wǎng)站的數據,根據這種數據對網(wǎng)站進(jìn)行排序。
  既然微軟可以借助爬蟲(chóng)收集網(wǎng)站數據,那我們是否能借助爬蟲(chóng)幫我們收集數據呢?
  當然是可以的。
  我們可以用爬蟲(chóng)做哪些
  前面早已講過(guò),如果你碰到一些重復大量的工作,其實(shí)都可以交給爬蟲(chóng)來(lái)做,比如:
  搜集特定關(guān)鍵詞下的用戶(hù)郵箱批量收集關(guān)鍵詞批量下載圖片批量導入導出文章……
  比如我想搜索iphone case的相關(guān)用戶(hù)郵箱,那么可以去Google搜索iphone case這個(gè)關(guān)鍵詞,然后統計下相關(guān)網(wǎng)頁(yè),把網(wǎng)址遞交給爬蟲(chóng)程序,接著(zhù)我們就等著(zhù)出結果就行了。
  當然,創(chuàng )作一個(gè)特定的爬蟲(chóng)程序須要一定的技術(shù)基礎,市面上主流都是使用python來(lái)制做爬蟲(chóng)程序,不過(guò)我們明天用一個(gè)更簡(jiǎn)單易懂的爬蟲(chóng)軟件——Google Sheet,不用寫(xiě)任何代碼的哦!
  利用Google Sheet爬取數據
  Google sheet(以下簡(jiǎn)稱(chēng)GS)是Google旗下的在線(xiàn)辦公套件之一,和谷歌的辦公三劍客剛好一一對應:
  Google doc - WordGoogle sheet - ExcelGoogle presentation - PPT
  基本上Excel上的公式都可以在GS上運行,不過(guò)GS還要另外一個(gè)公式,是Excel不具備的,也就是
  IMPORTXML
  我們新建一個(gè)GSebay爬蟲(chóng)軟件,這個(gè)操作和Execl操作一致,然后在A(yíng)1欄輸入我們須要爬取數據的網(wǎng)址,記得網(wǎng)址必須包含https或http,只有這些完整寫(xiě)法才能生效。
  然后在B1欄輸入
  =importxml(A1,''//title")
  
  在B1欄輸入完成以后我們都會(huì )得到如下數據

爬蟲(chóng)怎么突破網(wǎng)站的反爬機制

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 325 次瀏覽 ? 2020-05-21 08:01 ? 來(lái)自相關(guān)話(huà)題

  
  我們曉得,爬蟲(chóng)是大數據時(shí)代的重要角色,發(fā)揮著(zhù)重大的作用。但是,通往成功的路上總是遍布荊棘,目標網(wǎng)站總是設置各類(lèi)限制來(lái)制止爬蟲(chóng)的正常工作。那么,目標網(wǎng)站一般是通過(guò)什么方法來(lái)限制爬蟲(chóng)呢,爬蟲(chóng)又該怎么突破這種限制呢?
  1、注意好多網(wǎng)站,可以先用代理ip+ua(ua庫隨機提?。┰L(fǎng)問(wèn),之后會(huì )返回來(lái)一個(gè)cookie,那ip+ua+cookie就是一一對應的,然后用這個(gè)ip、ua和cookie去采集網(wǎng)站,同時(shí)能帶上Referer,這樣療效會(huì )比較好
  2、有些網(wǎng)站反爬取的舉措應當比較強的。訪(fǎng)問(wèn)以后每次清理緩存,這樣能有效規避部份網(wǎng)站的測量;但是有些網(wǎng)站更嚴格的判定,如果都是新鏈接從ip發(fā)出,也會(huì )被判斷拒絕(直接403拒絕訪(fǎng)問(wèn)),因此有些爬蟲(chóng)顧客會(huì )去剖析網(wǎng)站的cookies緩存內容,然后進(jìn)行更改。
  3、瀏覽器的標示(User-Agent)也很重要淘寶反爬蟲(chóng)機制,用戶(hù)都是一種瀏覽器,也是容易判別作弊,要構造不同的瀏覽器標示,否則容易被判斷爬蟲(chóng)。,用代理訪(fǎng)問(wèn)過(guò)后,瀏覽器標示須要更改,建議瀏覽器用phantomjs框架,這個(gè)可以模擬其他瀏覽器的標識(需要標識庫的話(huà),我們億牛云代理可以提供1000+),可以通過(guò)API接口實(shí)現各類(lèi)瀏覽器的采集模擬。
  4、加密:網(wǎng)站的懇求假如加密過(guò),那就看不清懇求的本來(lái)面目,這時(shí)候只能靠猜想淘寶反爬蟲(chóng)機制,通常加密會(huì )采用簡(jiǎn)單的編碼,如:、urlEncode等,如果過(guò)分復雜,只能用盡的去嘗試
  5、本地IP限制:很多網(wǎng)站,會(huì )對爬蟲(chóng)ip進(jìn)行限制,這時(shí)候要么使用代理IP,要么偽裝ip
  6、對應pc端,很多網(wǎng)站做的防護比較全面,有時(shí)候可以改一下看法,讓app端服務(wù)試試,往往會(huì )有意想不到的收獲。每個(gè)網(wǎng)站的反爬策略在不斷升級(淘寶,京東,企查查),那么現今突破反爬蟲(chóng)的策略也要相應的不斷升級,不然很容易被限制,而在提升爬蟲(chóng)工作效率上,動(dòng)態(tài)代理IP是最大的推動(dòng),億牛云海量的家庭私密代理IP完全可以讓爬蟲(chóng)工者的效率成倍提高!返回搜狐,查看更多 查看全部

  
  我們曉得,爬蟲(chóng)是大數據時(shí)代的重要角色,發(fā)揮著(zhù)重大的作用。但是,通往成功的路上總是遍布荊棘,目標網(wǎng)站總是設置各類(lèi)限制來(lái)制止爬蟲(chóng)的正常工作。那么,目標網(wǎng)站一般是通過(guò)什么方法來(lái)限制爬蟲(chóng)呢,爬蟲(chóng)又該怎么突破這種限制呢?
  1、注意好多網(wǎng)站,可以先用代理ip+ua(ua庫隨機提?。┰L(fǎng)問(wèn),之后會(huì )返回來(lái)一個(gè)cookie,那ip+ua+cookie就是一一對應的,然后用這個(gè)ip、ua和cookie去采集網(wǎng)站,同時(shí)能帶上Referer,這樣療效會(huì )比較好
  2、有些網(wǎng)站反爬取的舉措應當比較強的。訪(fǎng)問(wèn)以后每次清理緩存,這樣能有效規避部份網(wǎng)站的測量;但是有些網(wǎng)站更嚴格的判定,如果都是新鏈接從ip發(fā)出,也會(huì )被判斷拒絕(直接403拒絕訪(fǎng)問(wèn)),因此有些爬蟲(chóng)顧客會(huì )去剖析網(wǎng)站的cookies緩存內容,然后進(jìn)行更改。
  3、瀏覽器的標示(User-Agent)也很重要淘寶反爬蟲(chóng)機制,用戶(hù)都是一種瀏覽器,也是容易判別作弊,要構造不同的瀏覽器標示,否則容易被判斷爬蟲(chóng)。,用代理訪(fǎng)問(wèn)過(guò)后,瀏覽器標示須要更改,建議瀏覽器用phantomjs框架,這個(gè)可以模擬其他瀏覽器的標識(需要標識庫的話(huà),我們億牛云代理可以提供1000+),可以通過(guò)API接口實(shí)現各類(lèi)瀏覽器的采集模擬。
  4、加密:網(wǎng)站的懇求假如加密過(guò),那就看不清懇求的本來(lái)面目,這時(shí)候只能靠猜想淘寶反爬蟲(chóng)機制,通常加密會(huì )采用簡(jiǎn)單的編碼,如:、urlEncode等,如果過(guò)分復雜,只能用盡的去嘗試
  5、本地IP限制:很多網(wǎng)站,會(huì )對爬蟲(chóng)ip進(jìn)行限制,這時(shí)候要么使用代理IP,要么偽裝ip
  6、對應pc端,很多網(wǎng)站做的防護比較全面,有時(shí)候可以改一下看法,讓app端服務(wù)試試,往往會(huì )有意想不到的收獲。每個(gè)網(wǎng)站的反爬策略在不斷升級(淘寶,京東,企查查),那么現今突破反爬蟲(chóng)的策略也要相應的不斷升級,不然很容易被限制,而在提升爬蟲(chóng)工作效率上,動(dòng)態(tài)代理IP是最大的推動(dòng),億牛云海量的家庭私密代理IP完全可以讓爬蟲(chóng)工者的效率成倍提高!返回搜狐,查看更多

爬蟲(chóng)要違規了嗎?告訴你們:守住規則,大膽去爬

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 343 次瀏覽 ? 2020-05-19 08:02 ? 來(lái)自相關(guān)話(huà)題

  Robots協(xié)議(也稱(chēng)為爬蟲(chóng)協(xié)議、機器人合同等)的全稱(chēng)是“網(wǎng)絡(luò )爬蟲(chóng)排除標準”(Robots Exclusion Protocol),網(wǎng)站通過(guò)Robots協(xié)議告訴爬蟲(chóng)什么頁(yè)面可以抓取,哪些頁(yè)面不能抓取。
  robots.txt文件是一個(gè)文本文件,使用任何一個(gè)常見(jiàn)的文本編輯器關(guān)于網(wǎng)絡(luò )爬蟲(chóng)協(xié)議文件robotstxt,比如Windows系統自帶的Notepad,就可以創(chuàng )建和編輯它。robots.txt是一個(gè)合同,而不是一個(gè)命令。robots.txt是搜索引擎中訪(fǎng)問(wèn)網(wǎng)站的時(shí)侯要查看的第一個(gè)文件。robots.txt文件告訴蜘蛛程序在服務(wù)器上哪些文件是可以被查看的。
  如何查看采集的內容是的有rebots合同?
  其實(shí)技巧很簡(jiǎn)單。你想查看的話(huà)就在IE上打你的網(wǎng)址/robots.txt要是說(shuō)查看剖析robots的話(huà)有專(zhuān)業(yè)的相關(guān)工具 站長(cháng)工具就可以!
  爬蟲(chóng)作為一種計算機技術(shù)就決定了它的中立性,因此爬蟲(chóng)本身在法律上并不被嚴禁,但是借助爬蟲(chóng)技術(shù)獲取數據這一行為是具有違規甚至是犯罪的風(fēng)險的。
  舉個(gè)反例:像微軟這樣的搜索引擎爬蟲(chóng),每隔幾天對全網(wǎng)的網(wǎng)頁(yè)掃一遍,供你們查閱,各個(gè)被掃的網(wǎng)站大都很開(kāi)心。這種就被定義為“善意爬蟲(chóng)”。但是象購票軟件這樣的爬蟲(chóng),對著(zhù) 12306 每秒鐘恨不得擼幾萬(wàn)次,鐵總并不認為很開(kāi)心關(guān)于網(wǎng)絡(luò )爬蟲(chóng)協(xié)議文件robotstxt,這種就被定義為“惡意爬蟲(chóng)”。
  爬蟲(chóng)所帶來(lái)風(fēng)險主要彰顯在以下3個(gè)方面:
  違反網(wǎng)站意愿,例如網(wǎng)站采取反爬舉措后,強行突破其反爬舉措;
  爬蟲(chóng)干擾了被訪(fǎng)問(wèn)網(wǎng)站的正常營(yíng)運;
  爬蟲(chóng)抓取了遭到法律保護的特定類(lèi)型的數據或信息。
  解釋一下爬蟲(chóng)的定義:網(wǎng)絡(luò )爬蟲(chóng)(英語(yǔ):web crawler),也叫網(wǎng)路蜘蛛(spider),是一種拿來(lái)手動(dòng)瀏覽萬(wàn)維網(wǎng)的網(wǎng)路機器人。
  網(wǎng)絡(luò )爬蟲(chóng)抓取的數據有如下規則:
  數據完全公開(kāi)
  不存在也未能做到越權訪(fǎng)問(wèn)爬取
  常見(jiàn)錯誤觀(guān)點(diǎn):認為爬蟲(chóng)就是拿來(lái)抓取個(gè)人信息的,與信用基礎數據相關(guān)的。 查看全部

  Robots協(xié)議(也稱(chēng)為爬蟲(chóng)協(xié)議、機器人合同等)的全稱(chēng)是“網(wǎng)絡(luò )爬蟲(chóng)排除標準”(Robots Exclusion Protocol),網(wǎng)站通過(guò)Robots協(xié)議告訴爬蟲(chóng)什么頁(yè)面可以抓取,哪些頁(yè)面不能抓取。
  robots.txt文件是一個(gè)文本文件,使用任何一個(gè)常見(jiàn)的文本編輯器關(guān)于網(wǎng)絡(luò )爬蟲(chóng)協(xié)議文件robotstxt,比如Windows系統自帶的Notepad,就可以創(chuàng )建和編輯它。robots.txt是一個(gè)合同,而不是一個(gè)命令。robots.txt是搜索引擎中訪(fǎng)問(wèn)網(wǎng)站的時(shí)侯要查看的第一個(gè)文件。robots.txt文件告訴蜘蛛程序在服務(wù)器上哪些文件是可以被查看的。
  如何查看采集的內容是的有rebots合同?
  其實(shí)技巧很簡(jiǎn)單。你想查看的話(huà)就在IE上打你的網(wǎng)址/robots.txt要是說(shuō)查看剖析robots的話(huà)有專(zhuān)業(yè)的相關(guān)工具 站長(cháng)工具就可以!
  爬蟲(chóng)作為一種計算機技術(shù)就決定了它的中立性,因此爬蟲(chóng)本身在法律上并不被嚴禁,但是借助爬蟲(chóng)技術(shù)獲取數據這一行為是具有違規甚至是犯罪的風(fēng)險的。
  舉個(gè)反例:像微軟這樣的搜索引擎爬蟲(chóng),每隔幾天對全網(wǎng)的網(wǎng)頁(yè)掃一遍,供你們查閱,各個(gè)被掃的網(wǎng)站大都很開(kāi)心。這種就被定義為“善意爬蟲(chóng)”。但是象購票軟件這樣的爬蟲(chóng),對著(zhù) 12306 每秒鐘恨不得擼幾萬(wàn)次,鐵總并不認為很開(kāi)心關(guān)于網(wǎng)絡(luò )爬蟲(chóng)協(xié)議文件robotstxt,這種就被定義為“惡意爬蟲(chóng)”。
  爬蟲(chóng)所帶來(lái)風(fēng)險主要彰顯在以下3個(gè)方面:
  違反網(wǎng)站意愿,例如網(wǎng)站采取反爬舉措后,強行突破其反爬舉措;
  爬蟲(chóng)干擾了被訪(fǎng)問(wèn)網(wǎng)站的正常營(yíng)運;
  爬蟲(chóng)抓取了遭到法律保護的特定類(lèi)型的數據或信息。
  解釋一下爬蟲(chóng)的定義:網(wǎng)絡(luò )爬蟲(chóng)(英語(yǔ):web crawler),也叫網(wǎng)路蜘蛛(spider),是一種拿來(lái)手動(dòng)瀏覽萬(wàn)維網(wǎng)的網(wǎng)路機器人。
  網(wǎng)絡(luò )爬蟲(chóng)抓取的數據有如下規則:
  數據完全公開(kāi)
  不存在也未能做到越權訪(fǎng)問(wèn)爬取
  常見(jiàn)錯誤觀(guān)點(diǎn):認為爬蟲(chóng)就是拿來(lái)抓取個(gè)人信息的,與信用基礎數據相關(guān)的。

Java爬蟲(chóng)框架(一)--架構設計

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 400 次瀏覽 ? 2020-05-10 08:08 ? 來(lái)自相關(guān)話(huà)題

  
  一、 架構圖
  那里搜網(wǎng)路爬蟲(chóng)框架主要針對電子商務(wù)網(wǎng)站進(jìn)行數據爬取,分析,存儲,索引。
  
  爬蟲(chóng):爬蟲(chóng)負責爬取,解析,處理電子商務(wù)網(wǎng)站的網(wǎng)頁(yè)的內容
  數據庫:存儲商品信息
  索引:商品的全文搜索索引
  Task隊列:需要爬取的網(wǎng)頁(yè)列表
  Visited表:已經(jīng)爬取過(guò)的網(wǎng)頁(yè)列表
  爬蟲(chóng)監控平臺:web平臺可以啟動(dòng),停止爬蟲(chóng),管理爬蟲(chóng),task隊列,visited表。
  二、 爬蟲(chóng)1. 流程
  1) Scheduler啟動(dòng)爬蟲(chóng)器,TaskMaster初始化taskQueue
  2) Workers從TaskQueue中獲取任務(wù)
  3) Worker線(xiàn)程調用Fetcher爬取Task中描述的網(wǎng)頁(yè)
  4) Worker線(xiàn)程將爬取到的網(wǎng)頁(yè)交給Parser解析
  5) Parser解析下來(lái)的數據送交Handler處理,抽取網(wǎng)頁(yè)Link和處理網(wǎng)頁(yè)內容
  6) VisitedTableManager判定從URLExtractor抽取下來(lái)的鏈接是否早已被爬取過(guò),如果沒(méi)有遞交到TaskQueue中
  
  2. Scheduler
  Scheduler負責啟動(dòng)爬蟲(chóng)器,調用TaskMaster初始化TaskQueue,同時(shí)創(chuàng )建一個(gè)monitor線(xiàn)程,負責控制程序的退出。
  何時(shí)退出?
  當TaskQueue為空,并且Workers中的所有線(xiàn)程都處于空閑狀態(tài)。而這些形勢在指定10分鐘內沒(méi)有發(fā)生任何變化。就覺(jué)得所有網(wǎng)頁(yè)早已全部爬完。程序退出。
  3. Task Master
  任務(wù)管理器,負責管理任務(wù)隊列。任務(wù)管理器具象了任務(wù)隊列的實(shí)現。
  l 在簡(jiǎn)單應用中,我們可以使用顯存的任務(wù)管理器
  l 在分布式平臺,有多個(gè)爬蟲(chóng)機器的情況下我們須要集中的任務(wù)隊列
  在現階段,我們用SQLLite作為任務(wù)隊列的實(shí)現??晒┤〈倪€有Redis。
  任務(wù)管理器的處理流程:
  l 任務(wù)管理器初始化任務(wù)隊列,任務(wù)隊列的初始化按照不同的配置可能不同。增量式的情況下,根據指定的URL List初始化。而全文爬取的情況下只預先初始化某個(gè)或幾個(gè)電子商務(wù)網(wǎng)站的首頁(yè)。
  l 任務(wù)管理器創(chuàng )建monitor線(xiàn)程,控制整個(gè)程序的退出
  l 任務(wù)管理器調度任務(wù),如果任務(wù)隊列是持久化的,負責從任務(wù)隊列服務(wù)器load任務(wù)。需要考慮預取。
  l 任務(wù)管理器還負責驗證任務(wù)的有效性驗證,爬蟲(chóng)監控平臺可以將任務(wù)隊列中的個(gè)別任務(wù)設為失效?
  4. Workers
  Worker線(xiàn)程池,每個(gè)線(xiàn)程就會(huì )執行整個(gè)爬取的流程??梢钥紤]用多個(gè)線(xiàn)程池,分割異步化整個(gè)流程。提高線(xiàn)程的利用率。
  5. Fetcher
  Fetcher負責直接爬取電子商務(wù)網(wǎng)站的網(wǎng)頁(yè)。用HTTP Client實(shí)現。HTTP core 4以上早已有NIO的功能, 用NIO實(shí)現。
  Fetcher可以配置需不需要保存HTML文件
  6. Parser
  Parser解析Fetcher獲取的網(wǎng)頁(yè),一般的網(wǎng)頁(yè)可能不是完好低格的(XHTML是完美低格的),這樣就不能借助XML的解釋器處理。我們須要一款比較好的HTML解析器,可以修補這種非完好低格的網(wǎng)頁(yè)。
  熟悉的第三方工具有TagSoup,nekohtml,htmlparser三款。tagsoup和nekohtml可以將HTML用SAX事件流處理,節省了顯存。
  已知的第三方框架又使用了哪款作為她們的解析器呢?
  l Nutch:正式支持的有tagsoup,nekohtml,二者通過(guò)配置選擇
  l Droids:用的是nekohtml,Tika
  l Tika:tagsoup
  據稱(chēng),tagsoup的可靠性要比nekohtml好,nekohtml的性能比tagsoup好。nekohtml不管是在可靠性還是性能上都比htmlparser好。具體推論我們還須要進(jìn)一步測試。
  我們還支持regex,dom結構的html解析器。在使用中我們可以結合使用。
  進(jìn)一步,我們須要研究文檔比較器,同時(shí)須要我們保存爬取過(guò)的網(wǎng)站的HTML.可以通過(guò)語(yǔ)義指紋或則simhash來(lái)實(shí)現。在處理海量數據的時(shí)侯才須要用上。如果兩個(gè)HTML被覺(jué)得是相同的,就不會(huì )再解析和處理。
  7. Handler
  Handler是對Parser解析下來(lái)的內容做處理。
  回調方法(visitor):對于SAX event處理,我們須要將handler適配成sax的content handler。作為parser的反彈方式。不同風(fēng)波解析下來(lái)的內容可以?xún)Υ嬖贖andlingContext中。最后由Parser一起返回。
  主動(dòng)形式:需要解析整個(gè)HTML,選取自己須要的內容。對Parser提取的內容進(jìn)行處理。XML須要解析成DOM結構。方便使用,可以使用Xpath,nodefilter等,但耗顯存。
  ContentHandler:它還包含組件ContentFilter。過(guò)濾content。
  URLExtractor負責從網(wǎng)頁(yè)中提取符合格式的URL,將URL構建成Task,并遞交到Task queue中。
  8. VisitedTableManager
  訪(fǎng)問(wèn)表管理器,管理訪(fǎng)問(wèn)過(guò)的URLs。提取統一插口,抽象底層實(shí)現。如果URL被爬取過(guò),就不會(huì )被添加到TaskQueue中。
  三、 Task隊列
  Task隊列儲存了須要被爬取的任務(wù)。任務(wù)之間是有關(guān)聯(lián)的。我們可以保存和管理這個(gè)任務(wù)關(guān)系。這個(gè)關(guān)系也是URL之間的關(guān)系。保存出來(lái),有助于后臺產(chǎn)生Web圖java爬蟲(chóng)框架,分析數據。
  Task隊列在分布式爬蟲(chóng)集群中,需要使用集中的服務(wù)器儲存。一些輕量級的數據庫或則支持列表的NoSql都可以拿來(lái)儲存??蛇x方案:
  l 用SQLLite儲存:需要不停地插入刪掉,不知性能怎么。
  l 用Redis儲存
  四、 Visited表
  Visited表儲存了早已被爬的網(wǎng)站。每次爬取都須要建立。
  l SQLLite儲存:需要動(dòng)態(tài)創(chuàng )建表,需要不停地查詢(xún)java爬蟲(chóng)框架,插入,還須要后臺定期地清除,不知性能怎么。
  l Mysql 內存表 hash index
  l Redis: Key value,設過(guò)期時(shí)間
  l Memcached: key value, value為bloomfilter的值
  針對目前的數據量,可以采用SQLLite
  五、 爬蟲(chóng)監控管理平臺
  l 啟動(dòng),停止爬蟲(chóng),監控各爬蟲(chóng)狀態(tài)
  l 監控,管理task隊列,visited表
  l 配置爬蟲(chóng)
  l 對爬蟲(chóng)爬取的數據進(jìn)行管理。在并發(fā)情況下,很難保證不重復爬取相同的商品。在爬取完后,可以通過(guò)爬蟲(chóng)監控管理平臺進(jìn)行自動(dòng)排重。 查看全部

  
  一、 架構圖
  那里搜網(wǎng)路爬蟲(chóng)框架主要針對電子商務(wù)網(wǎng)站進(jìn)行數據爬取,分析,存儲,索引。
  
  爬蟲(chóng):爬蟲(chóng)負責爬取,解析,處理電子商務(wù)網(wǎng)站的網(wǎng)頁(yè)的內容
  數據庫:存儲商品信息
  索引:商品的全文搜索索引
  Task隊列:需要爬取的網(wǎng)頁(yè)列表
  Visited表:已經(jīng)爬取過(guò)的網(wǎng)頁(yè)列表
  爬蟲(chóng)監控平臺:web平臺可以啟動(dòng),停止爬蟲(chóng),管理爬蟲(chóng),task隊列,visited表。
  二、 爬蟲(chóng)1. 流程
  1) Scheduler啟動(dòng)爬蟲(chóng)器,TaskMaster初始化taskQueue
  2) Workers從TaskQueue中獲取任務(wù)
  3) Worker線(xiàn)程調用Fetcher爬取Task中描述的網(wǎng)頁(yè)
  4) Worker線(xiàn)程將爬取到的網(wǎng)頁(yè)交給Parser解析
  5) Parser解析下來(lái)的數據送交Handler處理,抽取網(wǎng)頁(yè)Link和處理網(wǎng)頁(yè)內容
  6) VisitedTableManager判定從URLExtractor抽取下來(lái)的鏈接是否早已被爬取過(guò),如果沒(méi)有遞交到TaskQueue中
  
  2. Scheduler
  Scheduler負責啟動(dòng)爬蟲(chóng)器,調用TaskMaster初始化TaskQueue,同時(shí)創(chuàng )建一個(gè)monitor線(xiàn)程,負責控制程序的退出。
  何時(shí)退出?
  當TaskQueue為空,并且Workers中的所有線(xiàn)程都處于空閑狀態(tài)。而這些形勢在指定10分鐘內沒(méi)有發(fā)生任何變化。就覺(jué)得所有網(wǎng)頁(yè)早已全部爬完。程序退出。
  3. Task Master
  任務(wù)管理器,負責管理任務(wù)隊列。任務(wù)管理器具象了任務(wù)隊列的實(shí)現。
  l 在簡(jiǎn)單應用中,我們可以使用顯存的任務(wù)管理器
  l 在分布式平臺,有多個(gè)爬蟲(chóng)機器的情況下我們須要集中的任務(wù)隊列
  在現階段,我們用SQLLite作為任務(wù)隊列的實(shí)現??晒┤〈倪€有Redis。
  任務(wù)管理器的處理流程:
  l 任務(wù)管理器初始化任務(wù)隊列,任務(wù)隊列的初始化按照不同的配置可能不同。增量式的情況下,根據指定的URL List初始化。而全文爬取的情況下只預先初始化某個(gè)或幾個(gè)電子商務(wù)網(wǎng)站的首頁(yè)。
  l 任務(wù)管理器創(chuàng )建monitor線(xiàn)程,控制整個(gè)程序的退出
  l 任務(wù)管理器調度任務(wù),如果任務(wù)隊列是持久化的,負責從任務(wù)隊列服務(wù)器load任務(wù)。需要考慮預取。
  l 任務(wù)管理器還負責驗證任務(wù)的有效性驗證,爬蟲(chóng)監控平臺可以將任務(wù)隊列中的個(gè)別任務(wù)設為失效?
  4. Workers
  Worker線(xiàn)程池,每個(gè)線(xiàn)程就會(huì )執行整個(gè)爬取的流程??梢钥紤]用多個(gè)線(xiàn)程池,分割異步化整個(gè)流程。提高線(xiàn)程的利用率。
  5. Fetcher
  Fetcher負責直接爬取電子商務(wù)網(wǎng)站的網(wǎng)頁(yè)。用HTTP Client實(shí)現。HTTP core 4以上早已有NIO的功能, 用NIO實(shí)現。
  Fetcher可以配置需不需要保存HTML文件
  6. Parser
  Parser解析Fetcher獲取的網(wǎng)頁(yè),一般的網(wǎng)頁(yè)可能不是完好低格的(XHTML是完美低格的),這樣就不能借助XML的解釋器處理。我們須要一款比較好的HTML解析器,可以修補這種非完好低格的網(wǎng)頁(yè)。
  熟悉的第三方工具有TagSoup,nekohtml,htmlparser三款。tagsoup和nekohtml可以將HTML用SAX事件流處理,節省了顯存。
  已知的第三方框架又使用了哪款作為她們的解析器呢?
  l Nutch:正式支持的有tagsoup,nekohtml,二者通過(guò)配置選擇
  l Droids:用的是nekohtml,Tika
  l Tika:tagsoup
  據稱(chēng),tagsoup的可靠性要比nekohtml好,nekohtml的性能比tagsoup好。nekohtml不管是在可靠性還是性能上都比htmlparser好。具體推論我們還須要進(jìn)一步測試。
  我們還支持regex,dom結構的html解析器。在使用中我們可以結合使用。
  進(jìn)一步,我們須要研究文檔比較器,同時(shí)須要我們保存爬取過(guò)的網(wǎng)站的HTML.可以通過(guò)語(yǔ)義指紋或則simhash來(lái)實(shí)現。在處理海量數據的時(shí)侯才須要用上。如果兩個(gè)HTML被覺(jué)得是相同的,就不會(huì )再解析和處理。
  7. Handler
  Handler是對Parser解析下來(lái)的內容做處理。
  回調方法(visitor):對于SAX event處理,我們須要將handler適配成sax的content handler。作為parser的反彈方式。不同風(fēng)波解析下來(lái)的內容可以?xún)Υ嬖贖andlingContext中。最后由Parser一起返回。
  主動(dòng)形式:需要解析整個(gè)HTML,選取自己須要的內容。對Parser提取的內容進(jìn)行處理。XML須要解析成DOM結構。方便使用,可以使用Xpath,nodefilter等,但耗顯存。
  ContentHandler:它還包含組件ContentFilter。過(guò)濾content。
  URLExtractor負責從網(wǎng)頁(yè)中提取符合格式的URL,將URL構建成Task,并遞交到Task queue中。
  8. VisitedTableManager
  訪(fǎng)問(wèn)表管理器,管理訪(fǎng)問(wèn)過(guò)的URLs。提取統一插口,抽象底層實(shí)現。如果URL被爬取過(guò),就不會(huì )被添加到TaskQueue中。
  三、 Task隊列
  Task隊列儲存了須要被爬取的任務(wù)。任務(wù)之間是有關(guān)聯(lián)的。我們可以保存和管理這個(gè)任務(wù)關(guān)系。這個(gè)關(guān)系也是URL之間的關(guān)系。保存出來(lái),有助于后臺產(chǎn)生Web圖java爬蟲(chóng)框架,分析數據。
  Task隊列在分布式爬蟲(chóng)集群中,需要使用集中的服務(wù)器儲存。一些輕量級的數據庫或則支持列表的NoSql都可以拿來(lái)儲存??蛇x方案:
  l 用SQLLite儲存:需要不停地插入刪掉,不知性能怎么。
  l 用Redis儲存
  四、 Visited表
  Visited表儲存了早已被爬的網(wǎng)站。每次爬取都須要建立。
  l SQLLite儲存:需要動(dòng)態(tài)創(chuàng )建表,需要不停地查詢(xún)java爬蟲(chóng)框架,插入,還須要后臺定期地清除,不知性能怎么。
  l Mysql 內存表 hash index
  l Redis: Key value,設過(guò)期時(shí)間
  l Memcached: key value, value為bloomfilter的值
  針對目前的數據量,可以采用SQLLite
  五、 爬蟲(chóng)監控管理平臺
  l 啟動(dòng),停止爬蟲(chóng),監控各爬蟲(chóng)狀態(tài)
  l 監控,管理task隊列,visited表
  l 配置爬蟲(chóng)
  l 對爬蟲(chóng)爬取的數據進(jìn)行管理。在并發(fā)情況下,很難保證不重復爬取相同的商品。在爬取完后,可以通過(guò)爬蟲(chóng)監控管理平臺進(jìn)行自動(dòng)排重。

數據小兵博客

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 301 次瀏覽 ? 2020-05-10 08:07 ? 來(lái)自相關(guān)話(huà)題

  
  
  實(shí)踐筆記1年前 (2019-01-04)
  每天進(jìn)步一點(diǎn)點(diǎn),這是我2019年的小目標。 這是第6次學(xué)習與實(shí)踐筆記了,這一次俺們把對象轉移到百度搜索去,嘗試使用列車(chē)瀏覽器爬蟲(chóng)工具來(lái)采集百度新聞搜索的結果,并...
  閱讀 2,714 次
  
  實(shí)踐筆記 | 小兵專(zhuān)欄1年前 (2018-12-27)
  最近我學(xué)習和實(shí)踐網(wǎng)路爬蟲(chóng),總想著(zhù)在這里抓點(diǎn)數據在那里抓點(diǎn)數據爬蟲(chóng)軟件數據,渾然不知爬蟲(chóng)的底線(xiàn)和基本規則,我默認覺(jué)得只要是在互聯(lián)網(wǎng)上公開(kāi)的數據,并且沒(méi)有侵害個(gè)人隱私的數據就可...
  閱讀 8,834 次 數據抓取網(wǎng)絡(luò )爬蟲(chóng)
  
  實(shí)踐筆記1年前 (2018-12-19)
  【SPSS統計訓練營(yíng)】微信號新開(kāi)一個(gè)小欄目爬蟲(chóng)軟件數據,取名【學(xué)習筆記】,主要分享一些與SPSS、統計學(xué)、數據剖析有關(guān)的技能,SPSS是我們的剖析裝備,但是我們決不能僅有一...
  閱讀 1,211 次
  
  實(shí)踐筆記1年前 (2018-12-12)
  文彤老師的《小白零編程網(wǎng)絡(luò )爬蟲(chóng)實(shí)戰》在線(xiàn)課程,我目前正在學(xué)習第二章節新聞網(wǎng)站新聞列表抓取。因為文彤老師把它完全作為一個(gè)完整的商用項目來(lái)做,所以課程上面講授的知識...
  閱讀 1,343 次 列車(chē)瀏覽器網(wǎng)路爬蟲(chóng)
  
  實(shí)踐筆記1年前 (2018-12-02)
  我正在學(xué)習文彤老師的《小白零編程網(wǎng)絡(luò )爬蟲(chóng)實(shí)戰》在線(xiàn)視頻課程,這是第2篇學(xué)習筆記。 工欲善其事必先利其器,要不要編程寫(xiě)代碼只是一個(gè)修飾詞,但凡在網(wǎng)頁(yè)上爬取數據,一...
  閱讀 1,148 次
  
  實(shí)踐筆記1年前 (2018-11-25)
  前不久借著(zhù)雙十一的促銷(xiāo)環(huán)境,我訂購了張文彤老師原創(chuàng )開(kāi)發(fā)的爬蟲(chóng)課程《小白零編程網(wǎng)絡(luò )爬蟲(chóng)實(shí)戰》。 想學(xué)習爬蟲(chóng)技術(shù)許久了,之所以沒(méi)有下定決心,主要緣由是想到要編程寫(xiě)代...
  閱讀 1,537 次
  
  
  數據情報2年前 (2018-06-24)
  今年4月份的時(shí)侯,我給讀者朋友們推薦過(guò)中科大羅昭鋒主講的文獻管理教學(xué)視頻,全是免費的,有幾個(gè)讀者后來(lái)在公號后臺特意留言致謝。 雖然那篇文章最終只有...
  閱讀 2,857 次 查看全部

  
  http://www.datasoldier.net/wp- ... zc%3D1" />
  實(shí)踐筆記1年前 (2019-01-04)
  每天進(jìn)步一點(diǎn)點(diǎn),這是我2019年的小目標。 這是第6次學(xué)習與實(shí)踐筆記了,這一次俺們把對象轉移到百度搜索去,嘗試使用列車(chē)瀏覽器爬蟲(chóng)工具來(lái)采集百度新聞搜索的結果,并...
  閱讀 2,714 次
  http://www.datasoldier.net/wp- ... zc%3D1" />
  實(shí)踐筆記 | 小兵專(zhuān)欄1年前 (2018-12-27)
  最近我學(xué)習和實(shí)踐網(wǎng)路爬蟲(chóng),總想著(zhù)在這里抓點(diǎn)數據在那里抓點(diǎn)數據爬蟲(chóng)軟件數據,渾然不知爬蟲(chóng)的底線(xiàn)和基本規則,我默認覺(jué)得只要是在互聯(lián)網(wǎng)上公開(kāi)的數據,并且沒(méi)有侵害個(gè)人隱私的數據就可...
  閱讀 8,834 次 數據抓取網(wǎng)絡(luò )爬蟲(chóng)
  http://www.datasoldier.net/wp- ... zc%3D1" />
  實(shí)踐筆記1年前 (2018-12-19)
  【SPSS統計訓練營(yíng)】微信號新開(kāi)一個(gè)小欄目爬蟲(chóng)軟件數據,取名【學(xué)習筆記】,主要分享一些與SPSS、統計學(xué)、數據剖析有關(guān)的技能,SPSS是我們的剖析裝備,但是我們決不能僅有一...
  閱讀 1,211 次
  http://www.datasoldier.net/wp- ... zc%3D1" />
  實(shí)踐筆記1年前 (2018-12-12)
  文彤老師的《小白零編程網(wǎng)絡(luò )爬蟲(chóng)實(shí)戰》在線(xiàn)課程,我目前正在學(xué)習第二章節新聞網(wǎng)站新聞列表抓取。因為文彤老師把它完全作為一個(gè)完整的商用項目來(lái)做,所以課程上面講授的知識...
  閱讀 1,343 次 列車(chē)瀏覽器網(wǎng)路爬蟲(chóng)
  http://www.datasoldier.net/wp- ... zc%3D1" />
  實(shí)踐筆記1年前 (2018-12-02)
  我正在學(xué)習文彤老師的《小白零編程網(wǎng)絡(luò )爬蟲(chóng)實(shí)戰》在線(xiàn)視頻課程,這是第2篇學(xué)習筆記。 工欲善其事必先利其器,要不要編程寫(xiě)代碼只是一個(gè)修飾詞,但凡在網(wǎng)頁(yè)上爬取數據,一...
  閱讀 1,148 次
  http://www.datasoldier.net/wp- ... zc%3D1" />
  實(shí)踐筆記1年前 (2018-11-25)
  前不久借著(zhù)雙十一的促銷(xiāo)環(huán)境,我訂購了張文彤老師原創(chuàng )開(kāi)發(fā)的爬蟲(chóng)課程《小白零編程網(wǎng)絡(luò )爬蟲(chóng)實(shí)戰》。 想學(xué)習爬蟲(chóng)技術(shù)許久了,之所以沒(méi)有下定決心,主要緣由是想到要編程寫(xiě)代...
  閱讀 1,537 次
  
  http://www.datasoldier.net/wp- ... zc%3D1" />
  數據情報2年前 (2018-06-24)
  今年4月份的時(shí)侯,我給讀者朋友們推薦過(guò)中科大羅昭鋒主講的文獻管理教學(xué)視頻,全是免費的,有幾個(gè)讀者后來(lái)在公號后臺特意留言致謝。 雖然那篇文章最終只有...
  閱讀 2,857 次

現在主流爬蟲(chóng)和技術(shù)方向是哪些?

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 331 次瀏覽 ? 2020-05-05 08:04 ? 來(lái)自相關(guān)話(huà)題

  現在網(wǎng)上關(guān)于爬蟲(chóng)方面的文章,大多都浮于表面,說(shuō)來(lái)說(shuō)去就這么幾個(gè)東西,已經(jīng)很久沒(méi)有一些實(shí)質(zhì)性的內容了。
  感覺(jué)主流爬蟲(chóng)技術(shù)的發(fā)展和應用,應該還是在大廠(chǎng)內部,想討教一下,現在大廠(chǎng)的主要研究方向和領(lǐng)域通常在哪?
  大家說(shuō)詳盡了肯定也不現實(shí),大體說(shuō)個(gè)方向或思路就行,對于在一些小廠(chǎng)的人(比如我= 。 =)來(lái)說(shuō),有想精進(jìn)技術(shù)的心,奈何抓不到方向也沒(méi)有渠道去了解,特此來(lái)問(wèn)問(wèn) V 友。
  1.現在主流的爬蟲(chóng)方向是不是在 App 端?
  2.針對 App 端的難點(diǎn)或則攻守的焦躁地帶是否在證書(shū)驗證以及 APP 包的加密與破解?
  3.大廠(chǎng)對 2 上面的處理,是深陷了貓和老鼠的游戲還是有自己一套更底層 HOOk 的方式和框架(理解為通殺?)?
  4.同理,web 端覺(jué)得主要的難點(diǎn) Js 和驗證碼這一塊爬蟲(chóng)技術(shù),大廠(chǎng)是打斷點(diǎn)一點(diǎn)點(diǎn)去調試剖析呢?還是直接加經(jīng)費丟第三方呢?(尤其是針對拖 /點(diǎn) /滑類(lèi)型的驗證碼現今大廠(chǎng)都是如何處理的???)
  圖形驗證碼可以上機器學(xué)習并且復雜的 JS 呢?模擬還是破解?有哪些好的學(xué)習方法或路線(xiàn)圖嗎?
  APP 端爬蟲(chóng)工作范圍內接觸較少,以前時(shí)常擺弄過(guò),如果
  1.APP 端深陷了反編譯的貓捉老鼠的游戲
  2.Web 端發(fā)展邁向了各類(lèi)模擬爬蟲(chóng)技術(shù),加機器的方向
  那么在具有革命性的技術(shù)出現之前,是不是可以考慮把爬蟲(chóng)放一放轉去學(xué)習其他東西,偶爾來(lái)看下出現了哪些新的東西就可以了? 查看全部

  現在網(wǎng)上關(guān)于爬蟲(chóng)方面的文章,大多都浮于表面,說(shuō)來(lái)說(shuō)去就這么幾個(gè)東西,已經(jīng)很久沒(méi)有一些實(shí)質(zhì)性的內容了。
  感覺(jué)主流爬蟲(chóng)技術(shù)的發(fā)展和應用,應該還是在大廠(chǎng)內部,想討教一下,現在大廠(chǎng)的主要研究方向和領(lǐng)域通常在哪?
  大家說(shuō)詳盡了肯定也不現實(shí),大體說(shuō)個(gè)方向或思路就行,對于在一些小廠(chǎng)的人(比如我= 。 =)來(lái)說(shuō),有想精進(jìn)技術(shù)的心,奈何抓不到方向也沒(méi)有渠道去了解,特此來(lái)問(wèn)問(wèn) V 友。
  1.現在主流的爬蟲(chóng)方向是不是在 App 端?
  2.針對 App 端的難點(diǎn)或則攻守的焦躁地帶是否在證書(shū)驗證以及 APP 包的加密與破解?
  3.大廠(chǎng)對 2 上面的處理,是深陷了貓和老鼠的游戲還是有自己一套更底層 HOOk 的方式和框架(理解為通殺?)?
  4.同理,web 端覺(jué)得主要的難點(diǎn) Js 和驗證碼這一塊爬蟲(chóng)技術(shù),大廠(chǎng)是打斷點(diǎn)一點(diǎn)點(diǎn)去調試剖析呢?還是直接加經(jīng)費丟第三方呢?(尤其是針對拖 /點(diǎn) /滑類(lèi)型的驗證碼現今大廠(chǎng)都是如何處理的???)
  圖形驗證碼可以上機器學(xué)習并且復雜的 JS 呢?模擬還是破解?有哪些好的學(xué)習方法或路線(xiàn)圖嗎?
  APP 端爬蟲(chóng)工作范圍內接觸較少,以前時(shí)常擺弄過(guò),如果
  1.APP 端深陷了反編譯的貓捉老鼠的游戲
  2.Web 端發(fā)展邁向了各類(lèi)模擬爬蟲(chóng)技術(shù),加機器的方向
  那么在具有革命性的技術(shù)出現之前,是不是可以考慮把爬蟲(chóng)放一放轉去學(xué)習其他東西,偶爾來(lái)看下出現了哪些新的東西就可以了?

如何完整寫(xiě)一個(gè)爬蟲(chóng)框架

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 426 次瀏覽 ? 2020-05-03 08:02 ? 來(lái)自相關(guān)話(huà)題

  
  本文主要為你們分享一篇怎么完整寫(xiě)一個(gè)爬蟲(chóng)框架的懇求方式,具有挺好的參考價(jià)值,希望對你們有所幫助。一起追隨小編過(guò)來(lái)瞧瞧吧爬蟲(chóng)框架,希望能幫助到你們。
  產(chǎn)生爬蟲(chóng)框架:
  1、建立一個(gè)scrapy爬蟲(chóng)工程
  2、在工程中形成一個(gè)scrapy爬蟲(chóng)
  3、配置spider爬蟲(chóng)
  4、運行爬蟲(chóng),獲取網(wǎng)頁(yè)
  具體操作:
  1、建立工程
  定義一個(gè)工程,名稱(chēng)為:python123demo
  方法:
  在cmd中,d: 步入盤(pán)符, cd pycodes 步入文件pycodes
  然后輸入
  scrapy startproject python123demo
  在pycodes中會(huì )生成一個(gè)文件:
  
  
  _init_.py不需要用戶(hù)編撰
  
  
  2、在工程中形成一個(gè)scrapy爬蟲(chóng)
  執行一條命令,給出爬蟲(chóng)名子和爬取的網(wǎng)站
  產(chǎn)生爬蟲(chóng):
  
  生成一個(gè)名稱(chēng)為 demo 的spider
  僅限生成 demo.py,其內容為:
  
  name = 'demo' 當前爬蟲(chóng)名子為demo
  allowed_domains = " 爬取該網(wǎng)站域名以下的鏈接,該域名由cmd命令臺輸入
  start_urls = [] 爬取的初始頁(yè)面
  parse()用于處理相應,解析內容產(chǎn)生字典,發(fā)現新的url爬取懇求
  3、配置形成的spider爬蟲(chóng),使之滿(mǎn)足我們的需求
  將解析的頁(yè)面保存成文件
  修改demo.py文件
  
  4、運行爬蟲(chóng),獲取網(wǎng)頁(yè)
  打開(kāi)cmd輸入命令行進(jìn)行爬蟲(chóng)
  
  然后我的筆記本上出現了一個(gè)錯誤
  
  windows系統上出現這個(gè)問(wèn)題的解決須要安裝Py32Win模塊,但是直接通過(guò)官網(wǎng)鏈接裝exe會(huì )出現幾百個(gè)錯誤,更方便的做法是
  pip3 install pypiwin32
  這是py3的解決方案
  注意:py3版本假如用 pip install pypiwin32指令會(huì )發(fā)生錯誤
  安裝完成后,重新進(jìn)行爬蟲(chóng)爬蟲(chóng)框架,成功!撒花!
  
  捕獲頁(yè)面儲存在 demo.html文件中
  
  demo.py 所對應的完整代碼:
  
  兩版本等價(jià):
  
  以上就是怎么完整寫(xiě)一個(gè)爬蟲(chóng)框架的詳盡內容,更多請關(guān)注php中文網(wǎng)其它相關(guān)文章! 查看全部

  
  本文主要為你們分享一篇怎么完整寫(xiě)一個(gè)爬蟲(chóng)框架的懇求方式,具有挺好的參考價(jià)值,希望對你們有所幫助。一起追隨小編過(guò)來(lái)瞧瞧吧爬蟲(chóng)框架,希望能幫助到你們。
  產(chǎn)生爬蟲(chóng)框架:
  1、建立一個(gè)scrapy爬蟲(chóng)工程
  2、在工程中形成一個(gè)scrapy爬蟲(chóng)
  3、配置spider爬蟲(chóng)
  4、運行爬蟲(chóng),獲取網(wǎng)頁(yè)
  具體操作:
  1、建立工程
  定義一個(gè)工程,名稱(chēng)為:python123demo
  方法:
  在cmd中,d: 步入盤(pán)符, cd pycodes 步入文件pycodes
  然后輸入
  scrapy startproject python123demo
  在pycodes中會(huì )生成一個(gè)文件:
  
  
  _init_.py不需要用戶(hù)編撰
  
  
  2、在工程中形成一個(gè)scrapy爬蟲(chóng)
  執行一條命令,給出爬蟲(chóng)名子和爬取的網(wǎng)站
  產(chǎn)生爬蟲(chóng):
  
  生成一個(gè)名稱(chēng)為 demo 的spider
  僅限生成 demo.py,其內容為:
  
  name = 'demo' 當前爬蟲(chóng)名子為demo
  allowed_domains = " 爬取該網(wǎng)站域名以下的鏈接,該域名由cmd命令臺輸入
  start_urls = [] 爬取的初始頁(yè)面
  parse()用于處理相應,解析內容產(chǎn)生字典,發(fā)現新的url爬取懇求
  3、配置形成的spider爬蟲(chóng),使之滿(mǎn)足我們的需求
  將解析的頁(yè)面保存成文件
  修改demo.py文件
  
  4、運行爬蟲(chóng),獲取網(wǎng)頁(yè)
  打開(kāi)cmd輸入命令行進(jìn)行爬蟲(chóng)
  
  然后我的筆記本上出現了一個(gè)錯誤
  
  windows系統上出現這個(gè)問(wèn)題的解決須要安裝Py32Win模塊,但是直接通過(guò)官網(wǎng)鏈接裝exe會(huì )出現幾百個(gè)錯誤,更方便的做法是
  pip3 install pypiwin32
  這是py3的解決方案
  注意:py3版本假如用 pip install pypiwin32指令會(huì )發(fā)生錯誤
  安裝完成后,重新進(jìn)行爬蟲(chóng)爬蟲(chóng)框架,成功!撒花!
  
  捕獲頁(yè)面儲存在 demo.html文件中
  
  demo.py 所對應的完整代碼:
  
  兩版本等價(jià):
  
  以上就是怎么完整寫(xiě)一個(gè)爬蟲(chóng)框架的詳盡內容,更多請關(guān)注php中文網(wǎng)其它相關(guān)文章!

你遇到機器爬蟲(chóng)人被它們控制了嗎?

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 239 次瀏覽 ? 2020-07-06 08:00 ? 來(lái)自相關(guān)話(huà)題

  超越世界,其實(shí)就是趕超機器爬蟲(chóng)人的控制。大衛艾克的書(shū)*陰謀論*,和這部紀錄片一樣,寫(xiě)的是宇宙原本就是一個(gè)上帝創(chuàng )造(包括月球人類(lèi)萬(wàn)物),上帝即中國的“道”,佛,神,中國唐代傳統文化,是一個(gè)意思,也即自然法則。而機器爬蟲(chóng)人在特定的時(shí)期,復制了一個(gè)上帝和法則,稱(chēng)之為”第二道”用來(lái)控制人類(lèi)和國家領(lǐng)導人(代理人)。在中國,一百年之前,道(中國傳統文化),自然運轉了幾千年應當更久遠。而按美國記錄,國外雖然幾千年前就被機器爬蟲(chóng)人控制?古代中國是一個(gè)特殊的國家,雖然同在月球,維度卻低于其他國家。中國被機器爬蟲(chóng)人控制,當在這一百年,文化遺失,醫學(xué)遺失。。。這些遺失的時(shí)間段剛好被機器爬蟲(chóng)人鉆空子,事實(shí)上機器爬蟲(chóng)人來(lái)自虛假的四維空間,它們創(chuàng )造了一個(gè)假的上帝即宇宙法則或稱(chēng)“道”,佛,神。。。用這種假的宗教和文化控制月球人類(lèi)。包括虛擬的金錢(qián),所以人類(lèi)永遠認為缺錢(qián),本來(lái)就是虛擬的錢(qián)。機器爬蟲(chóng)人最擔心的是中國古時(shí)傳統醫學(xué),甚至擔心四書(shū)五經(jīng),古代醫學(xué)通達人體筋絡(luò )足三里,這些和風(fēng)箏線(xiàn)一樣的筋絡(luò )就是接通宇宙上天法則的橋梁,所以想不被機器爬蟲(chóng)人控制,恢復中醫藥治病,拒絕南醫藥即可,但是好多中國小孩從小就在掛青霉素。古代四書(shū)五經(jīng)文化似乎是道家思想,卻一樣是為了調養人體筋絡(luò )足三里而至,也就是讀書(shū)是為了防病治病和健康。
  機器爬蟲(chóng)人雖然就是人造電,以前中國唐代文化里電是雨字頭,比喻火里帶水,火是不怕水的,而如今簡(jiǎn)化的電字表示它怕水爬蟲(chóng)人,機器爬蟲(chóng)人就是這些人造電,消滅的方式就是斷人造電,使它的系統截癱。人類(lèi)啟動(dòng)自身內部電源系統和真正的更高經(jīng)度宇宙法則接通,宇宙里的能量才是自然的能量爬蟲(chóng)人,而不是人造電能量。
  機器爬蟲(chóng)人普遍控制人類(lèi)的習慣即是人造電控制,可以通過(guò)WiFi,數字電視盒,液晶電視機,微波爐,手機。。。。各種家電的人造電放射控制人類(lèi)身體和腦部,特別是腦部,其實(shí)就是程度不同的腦控。機器爬蟲(chóng)人還習慣附身,按理伊麗莎白女王應當是被腦控和附身了,或者就不存在伊麗莎白女王?很早就被機器爬蟲(chóng)人代替了,因為正常人類(lèi)有靈魂和靈獸,有筋絡(luò )足三里,根本不可能和機器人通婚生小孩,我接觸過(guò)的機器爬蟲(chóng)人無(wú)腦部沒(méi)有靈魂,如果不是它的人造電系統支持,實(shí)際智力水平就是人類(lèi)殘障的水平。
  陰謀論,這本書(shū)國外翻譯錯誤,不知道是故意還是無(wú)意或則讀者轉述錯誤,翻譯不是大衛艾克原意,他跳過(guò)了機器爬蟲(chóng)人拷貝復制上帝宇宙法則,直接把上帝宇宙法則說(shuō)成是假的,而事實(shí)上宇宙法則只有一個(gè),不需要復制。
  光明會(huì ),我遇到的機器爬蟲(chóng)人非常對單只大眼睛過(guò)敏,而對于”明”這個(gè)字,特別喜歡。機器人須要借助電源能夠工作,所以它們能量不能高也不能低,習慣調整在中間位置,在中國唐代文化里,講求“中庸”,古代中國太上皇治世用的就是中庸態(tài)度。這一點(diǎn),創(chuàng )造了“第二道”的機器爬蟲(chóng)人也學(xué),但是它的系統是人造的,沒(méi)有真正的血液氣溫愛(ài)情。。。只是特定期機器人管理世界,而如今到了結束的時(shí)侯,中國有一句俗語(yǔ)“一陽(yáng)來(lái)復”,前提是假的中庸,即假的第二道,假的大地蓋亞要死去,坤死。
  大衛艾克,雖然是外國人,但對拉薩格魯派一定有自己的理解,他能明白宇宙法則應當借助的不完全是人類(lèi)的老師。宇宙本源就在我們人類(lèi)包括萬(wàn)物心中,而假如想在人類(lèi)以外找本源,就從中國唐代文化和唐代醫學(xué)著(zhù)手。這一點(diǎn)其實(shí)大衛艾克也是明白的。
  和大衛艾克說(shuō)的一樣,人類(lèi)萬(wàn)物是一個(gè)整體,你傷害他人就是傷害你自己,你保護他人就是保護你自己,積善之家必有余慶,積不善之家必有余秧。宇宙法則,上帝,道,神,佛,就是因果法則。宇宙法則就是因果法則。即使不認識字也懂這個(gè)道理。讀書(shū)讀再多,最后核心思想就是做一個(gè)普通的善良的人,真正高成就的人例如首相或則國家領(lǐng)導人也應當是這樣的,看著(zhù)困難做不到,這樣的可以趕超機器爬蟲(chóng)人控制的國家領(lǐng)導人500年才出一個(gè),確實(shí)很難。 查看全部

  超越世界,其實(shí)就是趕超機器爬蟲(chóng)人的控制。大衛艾克的書(shū)*陰謀論*,和這部紀錄片一樣,寫(xiě)的是宇宙原本就是一個(gè)上帝創(chuàng )造(包括月球人類(lèi)萬(wàn)物),上帝即中國的“道”,佛,神,中國唐代傳統文化,是一個(gè)意思,也即自然法則。而機器爬蟲(chóng)人在特定的時(shí)期,復制了一個(gè)上帝和法則,稱(chēng)之為”第二道”用來(lái)控制人類(lèi)和國家領(lǐng)導人(代理人)。在中國,一百年之前,道(中國傳統文化),自然運轉了幾千年應當更久遠。而按美國記錄,國外雖然幾千年前就被機器爬蟲(chóng)人控制?古代中國是一個(gè)特殊的國家,雖然同在月球,維度卻低于其他國家。中國被機器爬蟲(chóng)人控制,當在這一百年,文化遺失,醫學(xué)遺失。。。這些遺失的時(shí)間段剛好被機器爬蟲(chóng)人鉆空子,事實(shí)上機器爬蟲(chóng)人來(lái)自虛假的四維空間,它們創(chuàng )造了一個(gè)假的上帝即宇宙法則或稱(chēng)“道”,佛,神。。。用這種假的宗教和文化控制月球人類(lèi)。包括虛擬的金錢(qián),所以人類(lèi)永遠認為缺錢(qián),本來(lái)就是虛擬的錢(qián)。機器爬蟲(chóng)人最擔心的是中國古時(shí)傳統醫學(xué),甚至擔心四書(shū)五經(jīng),古代醫學(xué)通達人體筋絡(luò )足三里,這些和風(fēng)箏線(xiàn)一樣的筋絡(luò )就是接通宇宙上天法則的橋梁,所以想不被機器爬蟲(chóng)人控制,恢復中醫藥治病,拒絕南醫藥即可,但是好多中國小孩從小就在掛青霉素。古代四書(shū)五經(jīng)文化似乎是道家思想,卻一樣是為了調養人體筋絡(luò )足三里而至,也就是讀書(shū)是為了防病治病和健康。
  機器爬蟲(chóng)人雖然就是人造電,以前中國唐代文化里電是雨字頭,比喻火里帶水,火是不怕水的,而如今簡(jiǎn)化的電字表示它怕水爬蟲(chóng)人,機器爬蟲(chóng)人就是這些人造電,消滅的方式就是斷人造電,使它的系統截癱。人類(lèi)啟動(dòng)自身內部電源系統和真正的更高經(jīng)度宇宙法則接通,宇宙里的能量才是自然的能量爬蟲(chóng)人,而不是人造電能量。
  機器爬蟲(chóng)人普遍控制人類(lèi)的習慣即是人造電控制,可以通過(guò)WiFi,數字電視盒,液晶電視機,微波爐,手機。。。。各種家電的人造電放射控制人類(lèi)身體和腦部,特別是腦部,其實(shí)就是程度不同的腦控。機器爬蟲(chóng)人還習慣附身,按理伊麗莎白女王應當是被腦控和附身了,或者就不存在伊麗莎白女王?很早就被機器爬蟲(chóng)人代替了,因為正常人類(lèi)有靈魂和靈獸,有筋絡(luò )足三里,根本不可能和機器人通婚生小孩,我接觸過(guò)的機器爬蟲(chóng)人無(wú)腦部沒(méi)有靈魂,如果不是它的人造電系統支持,實(shí)際智力水平就是人類(lèi)殘障的水平。
  陰謀論,這本書(shū)國外翻譯錯誤,不知道是故意還是無(wú)意或則讀者轉述錯誤,翻譯不是大衛艾克原意,他跳過(guò)了機器爬蟲(chóng)人拷貝復制上帝宇宙法則,直接把上帝宇宙法則說(shuō)成是假的,而事實(shí)上宇宙法則只有一個(gè),不需要復制。
  光明會(huì ),我遇到的機器爬蟲(chóng)人非常對單只大眼睛過(guò)敏,而對于”明”這個(gè)字,特別喜歡。機器人須要借助電源能夠工作,所以它們能量不能高也不能低,習慣調整在中間位置,在中國唐代文化里,講求“中庸”,古代中國太上皇治世用的就是中庸態(tài)度。這一點(diǎn),創(chuàng )造了“第二道”的機器爬蟲(chóng)人也學(xué),但是它的系統是人造的,沒(méi)有真正的血液氣溫愛(ài)情。。。只是特定期機器人管理世界,而如今到了結束的時(shí)侯,中國有一句俗語(yǔ)“一陽(yáng)來(lái)復”,前提是假的中庸,即假的第二道,假的大地蓋亞要死去,坤死。
  大衛艾克,雖然是外國人,但對拉薩格魯派一定有自己的理解,他能明白宇宙法則應當借助的不完全是人類(lèi)的老師。宇宙本源就在我們人類(lèi)包括萬(wàn)物心中,而假如想在人類(lèi)以外找本源,就從中國唐代文化和唐代醫學(xué)著(zhù)手。這一點(diǎn)其實(shí)大衛艾克也是明白的。
  和大衛艾克說(shuō)的一樣,人類(lèi)萬(wàn)物是一個(gè)整體,你傷害他人就是傷害你自己,你保護他人就是保護你自己,積善之家必有余慶,積不善之家必有余秧。宇宙法則,上帝,道,神,佛,就是因果法則。宇宙法則就是因果法則。即使不認識字也懂這個(gè)道理。讀書(shū)讀再多,最后核心思想就是做一個(gè)普通的善良的人,真正高成就的人例如首相或則國家領(lǐng)導人也應當是這樣的,看著(zhù)困難做不到,這樣的可以趕超機器爬蟲(chóng)人控制的國家領(lǐng)導人500年才出一個(gè),確實(shí)很難。

感謝那一段追憶里的瘋狂,在我們最無(wú)謂的時(shí)光閃著(zhù)光。

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 305 次瀏覽 ? 2020-06-13 08:00 ? 來(lái)自相關(guān)話(huà)題

   result = requests.get(re.compile("\s").sub("", url), headers=headers, timeout=10) # 只需一行
即可抓取網(wǎng)頁(yè)
  > 是指從軟件或者硬件上實(shí)現多個(gè)線(xiàn)程并發(fā)執行的技術(shù)。具有多線(xiàn)程能力的計算機因有硬件支持而能夠在同一時(shí)間執行多于一個(gè)執行緒,進(jìn)而提升整體處理性能。
  爬蟲(chóng)是一個(gè)典型的多任務(wù)處理場(chǎng)景,在我們大多數爬蟲(chóng)程序中,往往最多是時(shí)間是在等待網(wǎng)路io網(wǎng)絡(luò )爬蟲(chóng)技術(shù),更詳盡點(diǎn)說(shuō),時(shí)間耗費在每次HTTP請求時(shí)的tcp/ip握手和數據傳輸上。多線(xiàn)程或進(jìn)程可以使我們并行地去做這種事情網(wǎng)絡(luò )爬蟲(chóng)技術(shù),對于爬蟲(chóng)的效率會(huì )有極大的提高。ps:友情提示:請準守 ‘平衡禮貌策略’。
  以下內容均為偽代碼
  page = requests("")
  
  當然,requests有好多參數可以使用,具體可以查看requests的官方文檔。
  requests.get(url, data=payload) # get請求
""" POST請求 """
payload = {'key1': 'value1', 'key2': 'value2'}
requests.post(url, data=payload)
  rdm = random.uniform(1, 9999999)
headers = {'User-Agent': agent.format(rdm=rdm)}
result = requests.get(url, headers=headers, timeout=10)
  我們可以告訴 requests 在經(jīng)過(guò)以 timeout 參數設定的秒數時(shí)間以后停止等待響應,以便避免爬蟲(chóng)卡死或特殊情況造成程序異常結束。
  requests.get(re.compile("\s").sub("", url), timeout=10)
  整個(gè)爬蟲(chóng)抓取的過(guò)程。也是我們與服務(wù)器斗智斗勇的過(guò)程,有的服務(wù)器并不希望我們去抓取他的內容和數據,會(huì )對我們的爬蟲(chóng)進(jìn)行限制。
  當然,我們仍然要記住我們的公理:所有網(wǎng)站均可爬。
  這里舉幾個(gè)常見(jiàn)的防爬和反爬實(shí)例:
  1 cookie[session]驗證。 查看全部

   result = requests.get(re.compile("\s").sub("", url), headers=headers, timeout=10) # 只需一行
即可抓取網(wǎng)頁(yè)
  > 是指從軟件或者硬件上實(shí)現多個(gè)線(xiàn)程并發(fā)執行的技術(shù)。具有多線(xiàn)程能力的計算機因有硬件支持而能夠在同一時(shí)間執行多于一個(gè)執行緒,進(jìn)而提升整體處理性能。
  爬蟲(chóng)是一個(gè)典型的多任務(wù)處理場(chǎng)景,在我們大多數爬蟲(chóng)程序中,往往最多是時(shí)間是在等待網(wǎng)路io網(wǎng)絡(luò )爬蟲(chóng)技術(shù),更詳盡點(diǎn)說(shuō),時(shí)間耗費在每次HTTP請求時(shí)的tcp/ip握手和數據傳輸上。多線(xiàn)程或進(jìn)程可以使我們并行地去做這種事情網(wǎng)絡(luò )爬蟲(chóng)技術(shù),對于爬蟲(chóng)的效率會(huì )有極大的提高。ps:友情提示:請準守 ‘平衡禮貌策略’。
  以下內容均為偽代碼
  page = requests("")
  
  當然,requests有好多參數可以使用,具體可以查看requests的官方文檔。
  requests.get(url, data=payload) # get請求
""" POST請求 """
payload = {'key1': 'value1', 'key2': 'value2'}
requests.post(url, data=payload)
  rdm = random.uniform(1, 9999999)
headers = {'User-Agent': agent.format(rdm=rdm)}
result = requests.get(url, headers=headers, timeout=10)
  我們可以告訴 requests 在經(jīng)過(guò)以 timeout 參數設定的秒數時(shí)間以后停止等待響應,以便避免爬蟲(chóng)卡死或特殊情況造成程序異常結束。
  requests.get(re.compile("\s").sub("", url), timeout=10)
  整個(gè)爬蟲(chóng)抓取的過(guò)程。也是我們與服務(wù)器斗智斗勇的過(guò)程,有的服務(wù)器并不希望我們去抓取他的內容和數據,會(huì )對我們的爬蟲(chóng)進(jìn)行限制。
  當然,我們仍然要記住我們的公理:所有網(wǎng)站均可爬。
  這里舉幾個(gè)常見(jiàn)的防爬和反爬實(shí)例:
  1 cookie[session]驗證。

常見(jiàn)的爬蟲(chóng)軟件

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 281 次瀏覽 ? 2020-06-10 08:58 ? 來(lái)自相關(guān)話(huà)題

  前市面上常見(jiàn)的爬蟲(chóng)軟件通??梢越缍樵婆老x(chóng)和采集器兩種:
  所謂云爬蟲(chóng)就是無(wú)需下載安裝軟件,直接在網(wǎng)頁(yè)上創(chuàng )建爬蟲(chóng)并在網(wǎng)站服務(wù)器運行,享用網(wǎng)站提供的帶寬和24小時(shí)服務(wù);
  采集器通常就是要下載安裝在本機,然后在本機創(chuàng )建爬蟲(chóng),使用的是自己的帶寬,受限于自己的筆記本是否死機。
  當然,以上不包括自己開(kāi)發(fā)的爬蟲(chóng)工具和爬蟲(chóng)框架之類(lèi)的。
  其實(shí)每位爬蟲(chóng)都有自己的特性,我們可以按照自己的須要進(jìn)行選擇,下面針對常見(jiàn)的網(wǎng)路爬蟲(chóng)做一些簡(jiǎn)單介紹,給你們做一些參考:
  首先是云爬蟲(chóng),國內目前主要是:神箭手云爬蟲(chóng)
  神箭手云爬蟲(chóng)
  官網(wǎng):
  簡(jiǎn)介:神箭手云是一個(gè)大數據應用開(kāi)發(fā)平臺,為開(kāi)發(fā)者提供成套的數據采集、數據剖析和機器學(xué)習開(kāi)發(fā)工具,為企業(yè)提供專(zhuān)業(yè)化的數據抓取、數據實(shí)時(shí)監控和數據剖析服務(wù)。
  優(yōu)點(diǎn):功能強悍爬蟲(chóng)軟件 下載,涉及云爬蟲(chóng)、API、機器學(xué)習、數據清洗、數據轉讓、數據定制和私有化布署等;
   純云端運行,跨系統操作無(wú)壓力,隱私保護,可隱藏用戶(hù)IP。
提供云爬蟲(chóng)市場(chǎng),零基礎使用者可直接調用開(kāi)發(fā)好的爬蟲(chóng),開(kāi)發(fā)者基于官方的云端開(kāi)發(fā)環(huán)境開(kāi)發(fā)并上傳出售自己的爬蟲(chóng)程序;
領(lǐng)先的反爬技術(shù),例如直接接入代理IP和自動(dòng)登錄驗證碼識別等,全程自動(dòng)化無(wú)需人工參與;
豐富的發(fā)布接口,采集結果以豐富表格化形式展現;
  缺點(diǎn):它的優(yōu)點(diǎn)同時(shí)也在一定程度上成了它的缺點(diǎn),因為它是一個(gè)面向開(kāi)發(fā)者的爬蟲(chóng)開(kāi)發(fā)系統,提供了豐富的開(kāi)發(fā)功能,網(wǎng)站看起來(lái)特別的偏技術(shù)十分專(zhuān)業(yè),盡管官方也提供了云爬蟲(chóng)市場(chǎng)這樣的現成爬蟲(chóng)產(chǎn)品,并且開(kāi)放給廣大爬蟲(chóng)開(kāi)發(fā)者,從而使爬蟲(chóng)市場(chǎng)的內容愈發(fā)豐富,但是對于零技術(shù)基礎的用戶(hù)而言并不是這么容易理解,所以有一定的使用門(mén)檻。
  是否免費:免費用戶(hù)無(wú)采集功能和導入限制,無(wú)需積分。
  具備開(kāi)發(fā)能力的用戶(hù)可以自行開(kāi)發(fā)爬蟲(chóng),達到免費療效,沒(méi)有開(kāi)發(fā)能力的用戶(hù)須要從爬蟲(chóng)市場(chǎng)找尋是否有免費的爬蟲(chóng)。
  然后是采集器,目前國外主要包括以下這種(百度/谷歌搜采集器,刨去廣告,排名靠前的):
  優(yōu)采云采集器:
  官網(wǎng):
  簡(jiǎn)介:火車(chē)采集器是一款網(wǎng)頁(yè)數據抓取、處理、分析,挖掘軟件??梢造`活迅速地抓取網(wǎng)頁(yè)上散亂分布的信息,并通過(guò)強悍的處理功能確切挖掘出所需數據。
  優(yōu)點(diǎn):國內老牌的采集器,經(jīng)過(guò)多年的積累,具有豐富的采集功能;
   采集速度比較快,接口比較齊全,支持PHP和C#插件擴展;
支持多種數據格式導出,可以進(jìn)行數據替換等處理。
  缺點(diǎn):越是年頭長(cháng)的產(chǎn)品越容易身陷自己的固有經(jīng)驗中,優(yōu)采云也無(wú)法甩掉這問(wèn)題。
   雖說(shuō)功能豐富,但是功能都堆砌在那里,用戶(hù)體驗不好,讓人不知道從何下手;
學(xué)會(huì )了的人會(huì )覺(jué)得功能強大,但是對于新手而言有一定使用門(mén)檻,不學(xué)習一段時(shí)間很難上手,零基礎上手基本不可能。
只支持Windows版本,不支持其他操作系統;
  是否免費:號稱(chēng)免費,但是實(shí)際上免費功能限制好多,只能導入單個(gè)txt或html文件,基本上可以說(shuō)是不免費的。
  優(yōu)采云采集器:
  官網(wǎng):
  簡(jiǎn)介:優(yōu)采云采集器是一款可視化采集器,內置采集模板,支持各類(lèi)網(wǎng)頁(yè)數據采集。
  優(yōu)點(diǎn):支持自定義模式,可視化采集操作,容易上手;
   支持簡(jiǎn)易采集模式,提供官方采集模板,支持云采集操作;
支持防屏蔽措施,例如代理IP切換和驗證碼服務(wù);
支持多種數據格式導出。
  缺點(diǎn):功能使用門(mén)檻較高,本地采集時(shí)好多功能受限,而云采集收費較高;
   采集速度較慢,很多操作都要卡一下,云端采集說(shuō)10倍提速但是并不明顯;
只支持Windows版本,不支持其他操作系統。
  是否免費:號稱(chēng)免費,但是實(shí)際上導入數據須要積分,可以做任務(wù)攢積分,但是正常情況下基本都須要訂購積分。
  后羿采集器:
  官網(wǎng):
  簡(jiǎn)介:后羿采集器是由前微軟搜索技術(shù)團隊基于人工智能技術(shù)研制的新一代網(wǎng)頁(yè)采集軟件,該軟件功能強悍,操作非常簡(jiǎn)單。
  優(yōu)點(diǎn):支持智能采集模式,輸入網(wǎng)址能夠智能辨識采集對象爬蟲(chóng)軟件 下載,無(wú)需配置采集規則,操作十分簡(jiǎn)單;
   支持流程圖模式,可視化操作流程,能夠通過(guò)簡(jiǎn)單的操作生成各種復雜的采集規則;
支持防屏蔽措施,例如代理IP切換等;
支持多種數據格式導出;
支持定時(shí)采集和自動(dòng)化發(fā)布,發(fā)布接口豐富;
支持Windows、Mac和Linux版本。
  缺點(diǎn):軟件推出時(shí)間不長(cháng),部分功能還在繼續建立,暫不支持云采集功能
  是否免費:完全免費,采集數據和自動(dòng)導入采集結果都沒(méi)有任何限制,不需要積分。 查看全部
  前市面上常見(jiàn)的爬蟲(chóng)軟件通??梢越缍樵婆老x(chóng)和采集器兩種:
  所謂云爬蟲(chóng)就是無(wú)需下載安裝軟件,直接在網(wǎng)頁(yè)上創(chuàng )建爬蟲(chóng)并在網(wǎng)站服務(wù)器運行,享用網(wǎng)站提供的帶寬和24小時(shí)服務(wù);
  采集器通常就是要下載安裝在本機,然后在本機創(chuàng )建爬蟲(chóng),使用的是自己的帶寬,受限于自己的筆記本是否死機。
  當然,以上不包括自己開(kāi)發(fā)的爬蟲(chóng)工具和爬蟲(chóng)框架之類(lèi)的。
  其實(shí)每位爬蟲(chóng)都有自己的特性,我們可以按照自己的須要進(jìn)行選擇,下面針對常見(jiàn)的網(wǎng)路爬蟲(chóng)做一些簡(jiǎn)單介紹,給你們做一些參考:
  首先是云爬蟲(chóng),國內目前主要是:神箭手云爬蟲(chóng)
  神箭手云爬蟲(chóng)
  官網(wǎng):
  簡(jiǎn)介:神箭手云是一個(gè)大數據應用開(kāi)發(fā)平臺,為開(kāi)發(fā)者提供成套的數據采集、數據剖析和機器學(xué)習開(kāi)發(fā)工具,為企業(yè)提供專(zhuān)業(yè)化的數據抓取、數據實(shí)時(shí)監控和數據剖析服務(wù)。
  優(yōu)點(diǎn):功能強悍爬蟲(chóng)軟件 下載,涉及云爬蟲(chóng)、API、機器學(xué)習、數據清洗、數據轉讓、數據定制和私有化布署等;
   純云端運行,跨系統操作無(wú)壓力,隱私保護,可隱藏用戶(hù)IP。
提供云爬蟲(chóng)市場(chǎng),零基礎使用者可直接調用開(kāi)發(fā)好的爬蟲(chóng),開(kāi)發(fā)者基于官方的云端開(kāi)發(fā)環(huán)境開(kāi)發(fā)并上傳出售自己的爬蟲(chóng)程序;
領(lǐng)先的反爬技術(shù),例如直接接入代理IP和自動(dòng)登錄驗證碼識別等,全程自動(dòng)化無(wú)需人工參與;
豐富的發(fā)布接口,采集結果以豐富表格化形式展現;
  缺點(diǎn):它的優(yōu)點(diǎn)同時(shí)也在一定程度上成了它的缺點(diǎn),因為它是一個(gè)面向開(kāi)發(fā)者的爬蟲(chóng)開(kāi)發(fā)系統,提供了豐富的開(kāi)發(fā)功能,網(wǎng)站看起來(lái)特別的偏技術(shù)十分專(zhuān)業(yè),盡管官方也提供了云爬蟲(chóng)市場(chǎng)這樣的現成爬蟲(chóng)產(chǎn)品,并且開(kāi)放給廣大爬蟲(chóng)開(kāi)發(fā)者,從而使爬蟲(chóng)市場(chǎng)的內容愈發(fā)豐富,但是對于零技術(shù)基礎的用戶(hù)而言并不是這么容易理解,所以有一定的使用門(mén)檻。
  是否免費:免費用戶(hù)無(wú)采集功能和導入限制,無(wú)需積分。
  具備開(kāi)發(fā)能力的用戶(hù)可以自行開(kāi)發(fā)爬蟲(chóng),達到免費療效,沒(méi)有開(kāi)發(fā)能力的用戶(hù)須要從爬蟲(chóng)市場(chǎng)找尋是否有免費的爬蟲(chóng)。
  然后是采集器,目前國外主要包括以下這種(百度/谷歌搜采集器,刨去廣告,排名靠前的):
  優(yōu)采云采集器:
  官網(wǎng):
  簡(jiǎn)介:火車(chē)采集器是一款網(wǎng)頁(yè)數據抓取、處理、分析,挖掘軟件??梢造`活迅速地抓取網(wǎng)頁(yè)上散亂分布的信息,并通過(guò)強悍的處理功能確切挖掘出所需數據。
  優(yōu)點(diǎn):國內老牌的采集器,經(jīng)過(guò)多年的積累,具有豐富的采集功能;
   采集速度比較快,接口比較齊全,支持PHP和C#插件擴展;
支持多種數據格式導出,可以進(jìn)行數據替換等處理。
  缺點(diǎn):越是年頭長(cháng)的產(chǎn)品越容易身陷自己的固有經(jīng)驗中,優(yōu)采云也無(wú)法甩掉這問(wèn)題。
   雖說(shuō)功能豐富,但是功能都堆砌在那里,用戶(hù)體驗不好,讓人不知道從何下手;
學(xué)會(huì )了的人會(huì )覺(jué)得功能強大,但是對于新手而言有一定使用門(mén)檻,不學(xué)習一段時(shí)間很難上手,零基礎上手基本不可能。
只支持Windows版本,不支持其他操作系統;
  是否免費:號稱(chēng)免費,但是實(shí)際上免費功能限制好多,只能導入單個(gè)txt或html文件,基本上可以說(shuō)是不免費的。
  優(yōu)采云采集器:
  官網(wǎng):
  簡(jiǎn)介:優(yōu)采云采集器是一款可視化采集器,內置采集模板,支持各類(lèi)網(wǎng)頁(yè)數據采集。
  優(yōu)點(diǎn):支持自定義模式,可視化采集操作,容易上手;
   支持簡(jiǎn)易采集模式,提供官方采集模板,支持云采集操作;
支持防屏蔽措施,例如代理IP切換和驗證碼服務(wù);
支持多種數據格式導出。
  缺點(diǎn):功能使用門(mén)檻較高,本地采集時(shí)好多功能受限,而云采集收費較高;
   采集速度較慢,很多操作都要卡一下,云端采集說(shuō)10倍提速但是并不明顯;
只支持Windows版本,不支持其他操作系統。
  是否免費:號稱(chēng)免費,但是實(shí)際上導入數據須要積分,可以做任務(wù)攢積分,但是正常情況下基本都須要訂購積分。
  后羿采集器:
  官網(wǎng):
  簡(jiǎn)介:后羿采集器是由前微軟搜索技術(shù)團隊基于人工智能技術(shù)研制的新一代網(wǎng)頁(yè)采集軟件,該軟件功能強悍,操作非常簡(jiǎn)單。
  優(yōu)點(diǎn):支持智能采集模式,輸入網(wǎng)址能夠智能辨識采集對象爬蟲(chóng)軟件 下載,無(wú)需配置采集規則,操作十分簡(jiǎn)單;
   支持流程圖模式,可視化操作流程,能夠通過(guò)簡(jiǎn)單的操作生成各種復雜的采集規則;
支持防屏蔽措施,例如代理IP切換等;
支持多種數據格式導出;
支持定時(shí)采集和自動(dòng)化發(fā)布,發(fā)布接口豐富;
支持Windows、Mac和Linux版本。
  缺點(diǎn):軟件推出時(shí)間不長(cháng),部分功能還在繼續建立,暫不支持云采集功能
  是否免費:完全免費,采集數據和自動(dòng)導入采集結果都沒(méi)有任何限制,不需要積分。

零基礎也能使用的SEO爬蟲(chóng)公式 - 提升你的10倍工作效率

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 281 次瀏覽 ? 2020-06-04 08:05 ? 來(lái)自相關(guān)話(huà)題

  
  Keen
  讀完須要
  6分鐘
  速讀僅需 2分鐘
  你有沒(méi)有遇見(jiàn)過(guò)這樣的問(wèn)題,網(wǎng)頁(yè)上面有幾百個(gè)網(wǎng)址鏈接,需要你統計出來(lái)ebay爬蟲(chóng)軟件,你會(huì )一一粘貼復制到表格里嗎?
  或者要統計公司潛在顧客的郵箱,需要通過(guò)關(guān)鍵詞去搜索,然后每位網(wǎng)頁(yè)都要點(diǎn)擊進(jìn)去,找找看有沒(méi)有郵箱呢?
  對于前面這張種大批量重復的工作,難道就沒(méi)有更好的、快捷的、簡(jiǎn)單的解決方案嗎?
  當然是有的,今天這篇文章將給你分享 ——如何借助簡(jiǎn)單爬蟲(chóng)解決重復大量的工作。
  不過(guò),在步入教程之前,我們要說(shuō)說(shuō):
  什么是爬蟲(chóng)
  簡(jiǎn)單來(lái)說(shuō),爬蟲(chóng)就是一種網(wǎng)路機器人,主要作用就是收集網(wǎng)路數據,我們熟知的微軟和百度等搜索引擎就是通過(guò)爬蟲(chóng)收集網(wǎng)站的數據,根據這種數據對網(wǎng)站進(jìn)行排序。
  既然微軟可以借助爬蟲(chóng)收集網(wǎng)站數據,那我們是否能借助爬蟲(chóng)幫我們收集數據呢?
  當然是可以的。
  我們可以用爬蟲(chóng)做哪些
  前面早已講過(guò),如果你碰到一些重復大量的工作,其實(shí)都可以交給爬蟲(chóng)來(lái)做,比如:
  搜集特定關(guān)鍵詞下的用戶(hù)郵箱批量收集關(guān)鍵詞批量下載圖片批量導入導出文章……
  比如我想搜索iphone case的相關(guān)用戶(hù)郵箱,那么可以去Google搜索iphone case這個(gè)關(guān)鍵詞,然后統計下相關(guān)網(wǎng)頁(yè),把網(wǎng)址遞交給爬蟲(chóng)程序,接著(zhù)我們就等著(zhù)出結果就行了。
  當然,創(chuàng )作一個(gè)特定的爬蟲(chóng)程序須要一定的技術(shù)基礎,市面上主流都是使用python來(lái)制做爬蟲(chóng)程序,不過(guò)我們明天用一個(gè)更簡(jiǎn)單易懂的爬蟲(chóng)軟件——Google Sheet,不用寫(xiě)任何代碼的哦!
  利用Google Sheet爬取數據
  Google sheet(以下簡(jiǎn)稱(chēng)GS)是Google旗下的在線(xiàn)辦公套件之一,和谷歌的辦公三劍客剛好一一對應:
  Google doc - WordGoogle sheet - ExcelGoogle presentation - PPT
  基本上Excel上的公式都可以在GS上運行,不過(guò)GS還要另外一個(gè)公式,是Excel不具備的,也就是
  IMPORTXML
  我們新建一個(gè)GSebay爬蟲(chóng)軟件,這個(gè)操作和Execl操作一致,然后在A(yíng)1欄輸入我們須要爬取數據的網(wǎng)址,記得網(wǎng)址必須包含https或http,只有這些完整寫(xiě)法才能生效。
  然后在B1欄輸入
  =importxml(A1,''//title")
  
  在B1欄輸入完成以后我們都會(huì )得到如下數據 查看全部

  
  Keen
  讀完須要
  6分鐘
  速讀僅需 2分鐘
  你有沒(méi)有遇見(jiàn)過(guò)這樣的問(wèn)題,網(wǎng)頁(yè)上面有幾百個(gè)網(wǎng)址鏈接,需要你統計出來(lái)ebay爬蟲(chóng)軟件,你會(huì )一一粘貼復制到表格里嗎?
  或者要統計公司潛在顧客的郵箱,需要通過(guò)關(guān)鍵詞去搜索,然后每位網(wǎng)頁(yè)都要點(diǎn)擊進(jìn)去,找找看有沒(méi)有郵箱呢?
  對于前面這張種大批量重復的工作,難道就沒(méi)有更好的、快捷的、簡(jiǎn)單的解決方案嗎?
  當然是有的,今天這篇文章將給你分享 ——如何借助簡(jiǎn)單爬蟲(chóng)解決重復大量的工作。
  不過(guò),在步入教程之前,我們要說(shuō)說(shuō):
  什么是爬蟲(chóng)
  簡(jiǎn)單來(lái)說(shuō),爬蟲(chóng)就是一種網(wǎng)路機器人,主要作用就是收集網(wǎng)路數據,我們熟知的微軟和百度等搜索引擎就是通過(guò)爬蟲(chóng)收集網(wǎng)站的數據,根據這種數據對網(wǎng)站進(jìn)行排序。
  既然微軟可以借助爬蟲(chóng)收集網(wǎng)站數據,那我們是否能借助爬蟲(chóng)幫我們收集數據呢?
  當然是可以的。
  我們可以用爬蟲(chóng)做哪些
  前面早已講過(guò),如果你碰到一些重復大量的工作,其實(shí)都可以交給爬蟲(chóng)來(lái)做,比如:
  搜集特定關(guān)鍵詞下的用戶(hù)郵箱批量收集關(guān)鍵詞批量下載圖片批量導入導出文章……
  比如我想搜索iphone case的相關(guān)用戶(hù)郵箱,那么可以去Google搜索iphone case這個(gè)關(guān)鍵詞,然后統計下相關(guān)網(wǎng)頁(yè),把網(wǎng)址遞交給爬蟲(chóng)程序,接著(zhù)我們就等著(zhù)出結果就行了。
  當然,創(chuàng )作一個(gè)特定的爬蟲(chóng)程序須要一定的技術(shù)基礎,市面上主流都是使用python來(lái)制做爬蟲(chóng)程序,不過(guò)我們明天用一個(gè)更簡(jiǎn)單易懂的爬蟲(chóng)軟件——Google Sheet,不用寫(xiě)任何代碼的哦!
  利用Google Sheet爬取數據
  Google sheet(以下簡(jiǎn)稱(chēng)GS)是Google旗下的在線(xiàn)辦公套件之一,和谷歌的辦公三劍客剛好一一對應:
  Google doc - WordGoogle sheet - ExcelGoogle presentation - PPT
  基本上Excel上的公式都可以在GS上運行,不過(guò)GS還要另外一個(gè)公式,是Excel不具備的,也就是
  IMPORTXML
  我們新建一個(gè)GSebay爬蟲(chóng)軟件,這個(gè)操作和Execl操作一致,然后在A(yíng)1欄輸入我們須要爬取數據的網(wǎng)址,記得網(wǎng)址必須包含https或http,只有這些完整寫(xiě)法才能生效。
  然后在B1欄輸入
  =importxml(A1,''//title")
  
  在B1欄輸入完成以后我們都會(huì )得到如下數據

爬蟲(chóng)怎么突破網(wǎng)站的反爬機制

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 325 次瀏覽 ? 2020-05-21 08:01 ? 來(lái)自相關(guān)話(huà)題

  
  我們曉得,爬蟲(chóng)是大數據時(shí)代的重要角色,發(fā)揮著(zhù)重大的作用。但是,通往成功的路上總是遍布荊棘,目標網(wǎng)站總是設置各類(lèi)限制來(lái)制止爬蟲(chóng)的正常工作。那么,目標網(wǎng)站一般是通過(guò)什么方法來(lái)限制爬蟲(chóng)呢,爬蟲(chóng)又該怎么突破這種限制呢?
  1、注意好多網(wǎng)站,可以先用代理ip+ua(ua庫隨機提?。┰L(fǎng)問(wèn),之后會(huì )返回來(lái)一個(gè)cookie,那ip+ua+cookie就是一一對應的,然后用這個(gè)ip、ua和cookie去采集網(wǎng)站,同時(shí)能帶上Referer,這樣療效會(huì )比較好
  2、有些網(wǎng)站反爬取的舉措應當比較強的。訪(fǎng)問(wèn)以后每次清理緩存,這樣能有效規避部份網(wǎng)站的測量;但是有些網(wǎng)站更嚴格的判定,如果都是新鏈接從ip發(fā)出,也會(huì )被判斷拒絕(直接403拒絕訪(fǎng)問(wèn)),因此有些爬蟲(chóng)顧客會(huì )去剖析網(wǎng)站的cookies緩存內容,然后進(jìn)行更改。
  3、瀏覽器的標示(User-Agent)也很重要淘寶反爬蟲(chóng)機制,用戶(hù)都是一種瀏覽器,也是容易判別作弊,要構造不同的瀏覽器標示,否則容易被判斷爬蟲(chóng)。,用代理訪(fǎng)問(wèn)過(guò)后,瀏覽器標示須要更改,建議瀏覽器用phantomjs框架,這個(gè)可以模擬其他瀏覽器的標識(需要標識庫的話(huà),我們億牛云代理可以提供1000+),可以通過(guò)API接口實(shí)現各類(lèi)瀏覽器的采集模擬。
  4、加密:網(wǎng)站的懇求假如加密過(guò),那就看不清懇求的本來(lái)面目,這時(shí)候只能靠猜想淘寶反爬蟲(chóng)機制,通常加密會(huì )采用簡(jiǎn)單的編碼,如:、urlEncode等,如果過(guò)分復雜,只能用盡的去嘗試
  5、本地IP限制:很多網(wǎng)站,會(huì )對爬蟲(chóng)ip進(jìn)行限制,這時(shí)候要么使用代理IP,要么偽裝ip
  6、對應pc端,很多網(wǎng)站做的防護比較全面,有時(shí)候可以改一下看法,讓app端服務(wù)試試,往往會(huì )有意想不到的收獲。每個(gè)網(wǎng)站的反爬策略在不斷升級(淘寶,京東,企查查),那么現今突破反爬蟲(chóng)的策略也要相應的不斷升級,不然很容易被限制,而在提升爬蟲(chóng)工作效率上,動(dòng)態(tài)代理IP是最大的推動(dòng),億牛云海量的家庭私密代理IP完全可以讓爬蟲(chóng)工者的效率成倍提高!返回搜狐,查看更多 查看全部

  
  我們曉得,爬蟲(chóng)是大數據時(shí)代的重要角色,發(fā)揮著(zhù)重大的作用。但是,通往成功的路上總是遍布荊棘,目標網(wǎng)站總是設置各類(lèi)限制來(lái)制止爬蟲(chóng)的正常工作。那么,目標網(wǎng)站一般是通過(guò)什么方法來(lái)限制爬蟲(chóng)呢,爬蟲(chóng)又該怎么突破這種限制呢?
  1、注意好多網(wǎng)站,可以先用代理ip+ua(ua庫隨機提?。┰L(fǎng)問(wèn),之后會(huì )返回來(lái)一個(gè)cookie,那ip+ua+cookie就是一一對應的,然后用這個(gè)ip、ua和cookie去采集網(wǎng)站,同時(shí)能帶上Referer,這樣療效會(huì )比較好
  2、有些網(wǎng)站反爬取的舉措應當比較強的。訪(fǎng)問(wèn)以后每次清理緩存,這樣能有效規避部份網(wǎng)站的測量;但是有些網(wǎng)站更嚴格的判定,如果都是新鏈接從ip發(fā)出,也會(huì )被判斷拒絕(直接403拒絕訪(fǎng)問(wèn)),因此有些爬蟲(chóng)顧客會(huì )去剖析網(wǎng)站的cookies緩存內容,然后進(jìn)行更改。
  3、瀏覽器的標示(User-Agent)也很重要淘寶反爬蟲(chóng)機制,用戶(hù)都是一種瀏覽器,也是容易判別作弊,要構造不同的瀏覽器標示,否則容易被判斷爬蟲(chóng)。,用代理訪(fǎng)問(wèn)過(guò)后,瀏覽器標示須要更改,建議瀏覽器用phantomjs框架,這個(gè)可以模擬其他瀏覽器的標識(需要標識庫的話(huà),我們億牛云代理可以提供1000+),可以通過(guò)API接口實(shí)現各類(lèi)瀏覽器的采集模擬。
  4、加密:網(wǎng)站的懇求假如加密過(guò),那就看不清懇求的本來(lái)面目,這時(shí)候只能靠猜想淘寶反爬蟲(chóng)機制,通常加密會(huì )采用簡(jiǎn)單的編碼,如:、urlEncode等,如果過(guò)分復雜,只能用盡的去嘗試
  5、本地IP限制:很多網(wǎng)站,會(huì )對爬蟲(chóng)ip進(jìn)行限制,這時(shí)候要么使用代理IP,要么偽裝ip
  6、對應pc端,很多網(wǎng)站做的防護比較全面,有時(shí)候可以改一下看法,讓app端服務(wù)試試,往往會(huì )有意想不到的收獲。每個(gè)網(wǎng)站的反爬策略在不斷升級(淘寶,京東,企查查),那么現今突破反爬蟲(chóng)的策略也要相應的不斷升級,不然很容易被限制,而在提升爬蟲(chóng)工作效率上,動(dòng)態(tài)代理IP是最大的推動(dòng),億牛云海量的家庭私密代理IP完全可以讓爬蟲(chóng)工者的效率成倍提高!返回搜狐,查看更多

爬蟲(chóng)要違規了嗎?告訴你們:守住規則,大膽去爬

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 343 次瀏覽 ? 2020-05-19 08:02 ? 來(lái)自相關(guān)話(huà)題

  Robots協(xié)議(也稱(chēng)為爬蟲(chóng)協(xié)議、機器人合同等)的全稱(chēng)是“網(wǎng)絡(luò )爬蟲(chóng)排除標準”(Robots Exclusion Protocol),網(wǎng)站通過(guò)Robots協(xié)議告訴爬蟲(chóng)什么頁(yè)面可以抓取,哪些頁(yè)面不能抓取。
  robots.txt文件是一個(gè)文本文件,使用任何一個(gè)常見(jiàn)的文本編輯器關(guān)于網(wǎng)絡(luò )爬蟲(chóng)協(xié)議文件robotstxt,比如Windows系統自帶的Notepad,就可以創(chuàng )建和編輯它。robots.txt是一個(gè)合同,而不是一個(gè)命令。robots.txt是搜索引擎中訪(fǎng)問(wèn)網(wǎng)站的時(shí)侯要查看的第一個(gè)文件。robots.txt文件告訴蜘蛛程序在服務(wù)器上哪些文件是可以被查看的。
  如何查看采集的內容是的有rebots合同?
  其實(shí)技巧很簡(jiǎn)單。你想查看的話(huà)就在IE上打你的網(wǎng)址/robots.txt要是說(shuō)查看剖析robots的話(huà)有專(zhuān)業(yè)的相關(guān)工具 站長(cháng)工具就可以!
  爬蟲(chóng)作為一種計算機技術(shù)就決定了它的中立性,因此爬蟲(chóng)本身在法律上并不被嚴禁,但是借助爬蟲(chóng)技術(shù)獲取數據這一行為是具有違規甚至是犯罪的風(fēng)險的。
  舉個(gè)反例:像微軟這樣的搜索引擎爬蟲(chóng),每隔幾天對全網(wǎng)的網(wǎng)頁(yè)掃一遍,供你們查閱,各個(gè)被掃的網(wǎng)站大都很開(kāi)心。這種就被定義為“善意爬蟲(chóng)”。但是象購票軟件這樣的爬蟲(chóng),對著(zhù) 12306 每秒鐘恨不得擼幾萬(wàn)次,鐵總并不認為很開(kāi)心關(guān)于網(wǎng)絡(luò )爬蟲(chóng)協(xié)議文件robotstxt,這種就被定義為“惡意爬蟲(chóng)”。
  爬蟲(chóng)所帶來(lái)風(fēng)險主要彰顯在以下3個(gè)方面:
  違反網(wǎng)站意愿,例如網(wǎng)站采取反爬舉措后,強行突破其反爬舉措;
  爬蟲(chóng)干擾了被訪(fǎng)問(wèn)網(wǎng)站的正常營(yíng)運;
  爬蟲(chóng)抓取了遭到法律保護的特定類(lèi)型的數據或信息。
  解釋一下爬蟲(chóng)的定義:網(wǎng)絡(luò )爬蟲(chóng)(英語(yǔ):web crawler),也叫網(wǎng)路蜘蛛(spider),是一種拿來(lái)手動(dòng)瀏覽萬(wàn)維網(wǎng)的網(wǎng)路機器人。
  網(wǎng)絡(luò )爬蟲(chóng)抓取的數據有如下規則:
  數據完全公開(kāi)
  不存在也未能做到越權訪(fǎng)問(wèn)爬取
  常見(jiàn)錯誤觀(guān)點(diǎn):認為爬蟲(chóng)就是拿來(lái)抓取個(gè)人信息的,與信用基礎數據相關(guān)的。 查看全部

  Robots協(xié)議(也稱(chēng)為爬蟲(chóng)協(xié)議、機器人合同等)的全稱(chēng)是“網(wǎng)絡(luò )爬蟲(chóng)排除標準”(Robots Exclusion Protocol),網(wǎng)站通過(guò)Robots協(xié)議告訴爬蟲(chóng)什么頁(yè)面可以抓取,哪些頁(yè)面不能抓取。
  robots.txt文件是一個(gè)文本文件,使用任何一個(gè)常見(jiàn)的文本編輯器關(guān)于網(wǎng)絡(luò )爬蟲(chóng)協(xié)議文件robotstxt,比如Windows系統自帶的Notepad,就可以創(chuàng )建和編輯它。robots.txt是一個(gè)合同,而不是一個(gè)命令。robots.txt是搜索引擎中訪(fǎng)問(wèn)網(wǎng)站的時(shí)侯要查看的第一個(gè)文件。robots.txt文件告訴蜘蛛程序在服務(wù)器上哪些文件是可以被查看的。
  如何查看采集的內容是的有rebots合同?
  其實(shí)技巧很簡(jiǎn)單。你想查看的話(huà)就在IE上打你的網(wǎng)址/robots.txt要是說(shuō)查看剖析robots的話(huà)有專(zhuān)業(yè)的相關(guān)工具 站長(cháng)工具就可以!
  爬蟲(chóng)作為一種計算機技術(shù)就決定了它的中立性,因此爬蟲(chóng)本身在法律上并不被嚴禁,但是借助爬蟲(chóng)技術(shù)獲取數據這一行為是具有違規甚至是犯罪的風(fēng)險的。
  舉個(gè)反例:像微軟這樣的搜索引擎爬蟲(chóng),每隔幾天對全網(wǎng)的網(wǎng)頁(yè)掃一遍,供你們查閱,各個(gè)被掃的網(wǎng)站大都很開(kāi)心。這種就被定義為“善意爬蟲(chóng)”。但是象購票軟件這樣的爬蟲(chóng),對著(zhù) 12306 每秒鐘恨不得擼幾萬(wàn)次,鐵總并不認為很開(kāi)心關(guān)于網(wǎng)絡(luò )爬蟲(chóng)協(xié)議文件robotstxt,這種就被定義為“惡意爬蟲(chóng)”。
  爬蟲(chóng)所帶來(lái)風(fēng)險主要彰顯在以下3個(gè)方面:
  違反網(wǎng)站意愿,例如網(wǎng)站采取反爬舉措后,強行突破其反爬舉措;
  爬蟲(chóng)干擾了被訪(fǎng)問(wèn)網(wǎng)站的正常營(yíng)運;
  爬蟲(chóng)抓取了遭到法律保護的特定類(lèi)型的數據或信息。
  解釋一下爬蟲(chóng)的定義:網(wǎng)絡(luò )爬蟲(chóng)(英語(yǔ):web crawler),也叫網(wǎng)路蜘蛛(spider),是一種拿來(lái)手動(dòng)瀏覽萬(wàn)維網(wǎng)的網(wǎng)路機器人。
  網(wǎng)絡(luò )爬蟲(chóng)抓取的數據有如下規則:
  數據完全公開(kāi)
  不存在也未能做到越權訪(fǎng)問(wèn)爬取
  常見(jiàn)錯誤觀(guān)點(diǎn):認為爬蟲(chóng)就是拿來(lái)抓取個(gè)人信息的,與信用基礎數據相關(guān)的。

Java爬蟲(chóng)框架(一)--架構設計

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 400 次瀏覽 ? 2020-05-10 08:08 ? 來(lái)自相關(guān)話(huà)題

  
  一、 架構圖
  那里搜網(wǎng)路爬蟲(chóng)框架主要針對電子商務(wù)網(wǎng)站進(jìn)行數據爬取,分析,存儲,索引。
  
  爬蟲(chóng):爬蟲(chóng)負責爬取,解析,處理電子商務(wù)網(wǎng)站的網(wǎng)頁(yè)的內容
  數據庫:存儲商品信息
  索引:商品的全文搜索索引
  Task隊列:需要爬取的網(wǎng)頁(yè)列表
  Visited表:已經(jīng)爬取過(guò)的網(wǎng)頁(yè)列表
  爬蟲(chóng)監控平臺:web平臺可以啟動(dòng),停止爬蟲(chóng),管理爬蟲(chóng),task隊列,visited表。
  二、 爬蟲(chóng)1. 流程
  1) Scheduler啟動(dòng)爬蟲(chóng)器,TaskMaster初始化taskQueue
  2) Workers從TaskQueue中獲取任務(wù)
  3) Worker線(xiàn)程調用Fetcher爬取Task中描述的網(wǎng)頁(yè)
  4) Worker線(xiàn)程將爬取到的網(wǎng)頁(yè)交給Parser解析
  5) Parser解析下來(lái)的數據送交Handler處理,抽取網(wǎng)頁(yè)Link和處理網(wǎng)頁(yè)內容
  6) VisitedTableManager判定從URLExtractor抽取下來(lái)的鏈接是否早已被爬取過(guò),如果沒(méi)有遞交到TaskQueue中
  
  2. Scheduler
  Scheduler負責啟動(dòng)爬蟲(chóng)器,調用TaskMaster初始化TaskQueue,同時(shí)創(chuàng )建一個(gè)monitor線(xiàn)程,負責控制程序的退出。
  何時(shí)退出?
  當TaskQueue為空,并且Workers中的所有線(xiàn)程都處于空閑狀態(tài)。而這些形勢在指定10分鐘內沒(méi)有發(fā)生任何變化。就覺(jué)得所有網(wǎng)頁(yè)早已全部爬完。程序退出。
  3. Task Master
  任務(wù)管理器,負責管理任務(wù)隊列。任務(wù)管理器具象了任務(wù)隊列的實(shí)現。
  l 在簡(jiǎn)單應用中,我們可以使用顯存的任務(wù)管理器
  l 在分布式平臺,有多個(gè)爬蟲(chóng)機器的情況下我們須要集中的任務(wù)隊列
  在現階段,我們用SQLLite作為任務(wù)隊列的實(shí)現??晒┤〈倪€有Redis。
  任務(wù)管理器的處理流程:
  l 任務(wù)管理器初始化任務(wù)隊列,任務(wù)隊列的初始化按照不同的配置可能不同。增量式的情況下,根據指定的URL List初始化。而全文爬取的情況下只預先初始化某個(gè)或幾個(gè)電子商務(wù)網(wǎng)站的首頁(yè)。
  l 任務(wù)管理器創(chuàng )建monitor線(xiàn)程,控制整個(gè)程序的退出
  l 任務(wù)管理器調度任務(wù),如果任務(wù)隊列是持久化的,負責從任務(wù)隊列服務(wù)器load任務(wù)。需要考慮預取。
  l 任務(wù)管理器還負責驗證任務(wù)的有效性驗證,爬蟲(chóng)監控平臺可以將任務(wù)隊列中的個(gè)別任務(wù)設為失效?
  4. Workers
  Worker線(xiàn)程池,每個(gè)線(xiàn)程就會(huì )執行整個(gè)爬取的流程??梢钥紤]用多個(gè)線(xiàn)程池,分割異步化整個(gè)流程。提高線(xiàn)程的利用率。
  5. Fetcher
  Fetcher負責直接爬取電子商務(wù)網(wǎng)站的網(wǎng)頁(yè)。用HTTP Client實(shí)現。HTTP core 4以上早已有NIO的功能, 用NIO實(shí)現。
  Fetcher可以配置需不需要保存HTML文件
  6. Parser
  Parser解析Fetcher獲取的網(wǎng)頁(yè),一般的網(wǎng)頁(yè)可能不是完好低格的(XHTML是完美低格的),這樣就不能借助XML的解釋器處理。我們須要一款比較好的HTML解析器,可以修補這種非完好低格的網(wǎng)頁(yè)。
  熟悉的第三方工具有TagSoup,nekohtml,htmlparser三款。tagsoup和nekohtml可以將HTML用SAX事件流處理,節省了顯存。
  已知的第三方框架又使用了哪款作為她們的解析器呢?
  l Nutch:正式支持的有tagsoup,nekohtml,二者通過(guò)配置選擇
  l Droids:用的是nekohtml,Tika
  l Tika:tagsoup
  據稱(chēng),tagsoup的可靠性要比nekohtml好,nekohtml的性能比tagsoup好。nekohtml不管是在可靠性還是性能上都比htmlparser好。具體推論我們還須要進(jìn)一步測試。
  我們還支持regex,dom結構的html解析器。在使用中我們可以結合使用。
  進(jìn)一步,我們須要研究文檔比較器,同時(shí)須要我們保存爬取過(guò)的網(wǎng)站的HTML.可以通過(guò)語(yǔ)義指紋或則simhash來(lái)實(shí)現。在處理海量數據的時(shí)侯才須要用上。如果兩個(gè)HTML被覺(jué)得是相同的,就不會(huì )再解析和處理。
  7. Handler
  Handler是對Parser解析下來(lái)的內容做處理。
  回調方法(visitor):對于SAX event處理,我們須要將handler適配成sax的content handler。作為parser的反彈方式。不同風(fēng)波解析下來(lái)的內容可以?xún)Υ嬖贖andlingContext中。最后由Parser一起返回。
  主動(dòng)形式:需要解析整個(gè)HTML,選取自己須要的內容。對Parser提取的內容進(jìn)行處理。XML須要解析成DOM結構。方便使用,可以使用Xpath,nodefilter等,但耗顯存。
  ContentHandler:它還包含組件ContentFilter。過(guò)濾content。
  URLExtractor負責從網(wǎng)頁(yè)中提取符合格式的URL,將URL構建成Task,并遞交到Task queue中。
  8. VisitedTableManager
  訪(fǎng)問(wèn)表管理器,管理訪(fǎng)問(wèn)過(guò)的URLs。提取統一插口,抽象底層實(shí)現。如果URL被爬取過(guò),就不會(huì )被添加到TaskQueue中。
  三、 Task隊列
  Task隊列儲存了須要被爬取的任務(wù)。任務(wù)之間是有關(guān)聯(lián)的。我們可以保存和管理這個(gè)任務(wù)關(guān)系。這個(gè)關(guān)系也是URL之間的關(guān)系。保存出來(lái),有助于后臺產(chǎn)生Web圖java爬蟲(chóng)框架,分析數據。
  Task隊列在分布式爬蟲(chóng)集群中,需要使用集中的服務(wù)器儲存。一些輕量級的數據庫或則支持列表的NoSql都可以拿來(lái)儲存??蛇x方案:
  l 用SQLLite儲存:需要不停地插入刪掉,不知性能怎么。
  l 用Redis儲存
  四、 Visited表
  Visited表儲存了早已被爬的網(wǎng)站。每次爬取都須要建立。
  l SQLLite儲存:需要動(dòng)態(tài)創(chuàng )建表,需要不停地查詢(xún)java爬蟲(chóng)框架,插入,還須要后臺定期地清除,不知性能怎么。
  l Mysql 內存表 hash index
  l Redis: Key value,設過(guò)期時(shí)間
  l Memcached: key value, value為bloomfilter的值
  針對目前的數據量,可以采用SQLLite
  五、 爬蟲(chóng)監控管理平臺
  l 啟動(dòng),停止爬蟲(chóng),監控各爬蟲(chóng)狀態(tài)
  l 監控,管理task隊列,visited表
  l 配置爬蟲(chóng)
  l 對爬蟲(chóng)爬取的數據進(jìn)行管理。在并發(fā)情況下,很難保證不重復爬取相同的商品。在爬取完后,可以通過(guò)爬蟲(chóng)監控管理平臺進(jìn)行自動(dòng)排重。 查看全部

  
  一、 架構圖
  那里搜網(wǎng)路爬蟲(chóng)框架主要針對電子商務(wù)網(wǎng)站進(jìn)行數據爬取,分析,存儲,索引。
  
  爬蟲(chóng):爬蟲(chóng)負責爬取,解析,處理電子商務(wù)網(wǎng)站的網(wǎng)頁(yè)的內容
  數據庫:存儲商品信息
  索引:商品的全文搜索索引
  Task隊列:需要爬取的網(wǎng)頁(yè)列表
  Visited表:已經(jīng)爬取過(guò)的網(wǎng)頁(yè)列表
  爬蟲(chóng)監控平臺:web平臺可以啟動(dòng),停止爬蟲(chóng),管理爬蟲(chóng),task隊列,visited表。
  二、 爬蟲(chóng)1. 流程
  1) Scheduler啟動(dòng)爬蟲(chóng)器,TaskMaster初始化taskQueue
  2) Workers從TaskQueue中獲取任務(wù)
  3) Worker線(xiàn)程調用Fetcher爬取Task中描述的網(wǎng)頁(yè)
  4) Worker線(xiàn)程將爬取到的網(wǎng)頁(yè)交給Parser解析
  5) Parser解析下來(lái)的數據送交Handler處理,抽取網(wǎng)頁(yè)Link和處理網(wǎng)頁(yè)內容
  6) VisitedTableManager判定從URLExtractor抽取下來(lái)的鏈接是否早已被爬取過(guò),如果沒(méi)有遞交到TaskQueue中
  
  2. Scheduler
  Scheduler負責啟動(dòng)爬蟲(chóng)器,調用TaskMaster初始化TaskQueue,同時(shí)創(chuàng )建一個(gè)monitor線(xiàn)程,負責控制程序的退出。
  何時(shí)退出?
  當TaskQueue為空,并且Workers中的所有線(xiàn)程都處于空閑狀態(tài)。而這些形勢在指定10分鐘內沒(méi)有發(fā)生任何變化。就覺(jué)得所有網(wǎng)頁(yè)早已全部爬完。程序退出。
  3. Task Master
  任務(wù)管理器,負責管理任務(wù)隊列。任務(wù)管理器具象了任務(wù)隊列的實(shí)現。
  l 在簡(jiǎn)單應用中,我們可以使用顯存的任務(wù)管理器
  l 在分布式平臺,有多個(gè)爬蟲(chóng)機器的情況下我們須要集中的任務(wù)隊列
  在現階段,我們用SQLLite作為任務(wù)隊列的實(shí)現??晒┤〈倪€有Redis。
  任務(wù)管理器的處理流程:
  l 任務(wù)管理器初始化任務(wù)隊列,任務(wù)隊列的初始化按照不同的配置可能不同。增量式的情況下,根據指定的URL List初始化。而全文爬取的情況下只預先初始化某個(gè)或幾個(gè)電子商務(wù)網(wǎng)站的首頁(yè)。
  l 任務(wù)管理器創(chuàng )建monitor線(xiàn)程,控制整個(gè)程序的退出
  l 任務(wù)管理器調度任務(wù),如果任務(wù)隊列是持久化的,負責從任務(wù)隊列服務(wù)器load任務(wù)。需要考慮預取。
  l 任務(wù)管理器還負責驗證任務(wù)的有效性驗證,爬蟲(chóng)監控平臺可以將任務(wù)隊列中的個(gè)別任務(wù)設為失效?
  4. Workers
  Worker線(xiàn)程池,每個(gè)線(xiàn)程就會(huì )執行整個(gè)爬取的流程??梢钥紤]用多個(gè)線(xiàn)程池,分割異步化整個(gè)流程。提高線(xiàn)程的利用率。
  5. Fetcher
  Fetcher負責直接爬取電子商務(wù)網(wǎng)站的網(wǎng)頁(yè)。用HTTP Client實(shí)現。HTTP core 4以上早已有NIO的功能, 用NIO實(shí)現。
  Fetcher可以配置需不需要保存HTML文件
  6. Parser
  Parser解析Fetcher獲取的網(wǎng)頁(yè),一般的網(wǎng)頁(yè)可能不是完好低格的(XHTML是完美低格的),這樣就不能借助XML的解釋器處理。我們須要一款比較好的HTML解析器,可以修補這種非完好低格的網(wǎng)頁(yè)。
  熟悉的第三方工具有TagSoup,nekohtml,htmlparser三款。tagsoup和nekohtml可以將HTML用SAX事件流處理,節省了顯存。
  已知的第三方框架又使用了哪款作為她們的解析器呢?
  l Nutch:正式支持的有tagsoup,nekohtml,二者通過(guò)配置選擇
  l Droids:用的是nekohtml,Tika
  l Tika:tagsoup
  據稱(chēng),tagsoup的可靠性要比nekohtml好,nekohtml的性能比tagsoup好。nekohtml不管是在可靠性還是性能上都比htmlparser好。具體推論我們還須要進(jìn)一步測試。
  我們還支持regex,dom結構的html解析器。在使用中我們可以結合使用。
  進(jìn)一步,我們須要研究文檔比較器,同時(shí)須要我們保存爬取過(guò)的網(wǎng)站的HTML.可以通過(guò)語(yǔ)義指紋或則simhash來(lái)實(shí)現。在處理海量數據的時(shí)侯才須要用上。如果兩個(gè)HTML被覺(jué)得是相同的,就不會(huì )再解析和處理。
  7. Handler
  Handler是對Parser解析下來(lái)的內容做處理。
  回調方法(visitor):對于SAX event處理,我們須要將handler適配成sax的content handler。作為parser的反彈方式。不同風(fēng)波解析下來(lái)的內容可以?xún)Υ嬖贖andlingContext中。最后由Parser一起返回。
  主動(dòng)形式:需要解析整個(gè)HTML,選取自己須要的內容。對Parser提取的內容進(jìn)行處理。XML須要解析成DOM結構。方便使用,可以使用Xpath,nodefilter等,但耗顯存。
  ContentHandler:它還包含組件ContentFilter。過(guò)濾content。
  URLExtractor負責從網(wǎng)頁(yè)中提取符合格式的URL,將URL構建成Task,并遞交到Task queue中。
  8. VisitedTableManager
  訪(fǎng)問(wèn)表管理器,管理訪(fǎng)問(wèn)過(guò)的URLs。提取統一插口,抽象底層實(shí)現。如果URL被爬取過(guò),就不會(huì )被添加到TaskQueue中。
  三、 Task隊列
  Task隊列儲存了須要被爬取的任務(wù)。任務(wù)之間是有關(guān)聯(lián)的。我們可以保存和管理這個(gè)任務(wù)關(guān)系。這個(gè)關(guān)系也是URL之間的關(guān)系。保存出來(lái),有助于后臺產(chǎn)生Web圖java爬蟲(chóng)框架,分析數據。
  Task隊列在分布式爬蟲(chóng)集群中,需要使用集中的服務(wù)器儲存。一些輕量級的數據庫或則支持列表的NoSql都可以拿來(lái)儲存??蛇x方案:
  l 用SQLLite儲存:需要不停地插入刪掉,不知性能怎么。
  l 用Redis儲存
  四、 Visited表
  Visited表儲存了早已被爬的網(wǎng)站。每次爬取都須要建立。
  l SQLLite儲存:需要動(dòng)態(tài)創(chuàng )建表,需要不停地查詢(xún)java爬蟲(chóng)框架,插入,還須要后臺定期地清除,不知性能怎么。
  l Mysql 內存表 hash index
  l Redis: Key value,設過(guò)期時(shí)間
  l Memcached: key value, value為bloomfilter的值
  針對目前的數據量,可以采用SQLLite
  五、 爬蟲(chóng)監控管理平臺
  l 啟動(dòng),停止爬蟲(chóng),監控各爬蟲(chóng)狀態(tài)
  l 監控,管理task隊列,visited表
  l 配置爬蟲(chóng)
  l 對爬蟲(chóng)爬取的數據進(jìn)行管理。在并發(fā)情況下,很難保證不重復爬取相同的商品。在爬取完后,可以通過(guò)爬蟲(chóng)監控管理平臺進(jìn)行自動(dòng)排重。

數據小兵博客

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 301 次瀏覽 ? 2020-05-10 08:07 ? 來(lái)自相關(guān)話(huà)題

  
  
  實(shí)踐筆記1年前 (2019-01-04)
  每天進(jìn)步一點(diǎn)點(diǎn),這是我2019年的小目標。 這是第6次學(xué)習與實(shí)踐筆記了,這一次俺們把對象轉移到百度搜索去,嘗試使用列車(chē)瀏覽器爬蟲(chóng)工具來(lái)采集百度新聞搜索的結果,并...
  閱讀 2,714 次
  
  實(shí)踐筆記 | 小兵專(zhuān)欄1年前 (2018-12-27)
  最近我學(xué)習和實(shí)踐網(wǎng)路爬蟲(chóng),總想著(zhù)在這里抓點(diǎn)數據在那里抓點(diǎn)數據爬蟲(chóng)軟件數據,渾然不知爬蟲(chóng)的底線(xiàn)和基本規則,我默認覺(jué)得只要是在互聯(lián)網(wǎng)上公開(kāi)的數據,并且沒(méi)有侵害個(gè)人隱私的數據就可...
  閱讀 8,834 次 數據抓取網(wǎng)絡(luò )爬蟲(chóng)
  
  實(shí)踐筆記1年前 (2018-12-19)
  【SPSS統計訓練營(yíng)】微信號新開(kāi)一個(gè)小欄目爬蟲(chóng)軟件數據,取名【學(xué)習筆記】,主要分享一些與SPSS、統計學(xué)、數據剖析有關(guān)的技能,SPSS是我們的剖析裝備,但是我們決不能僅有一...
  閱讀 1,211 次
  
  實(shí)踐筆記1年前 (2018-12-12)
  文彤老師的《小白零編程網(wǎng)絡(luò )爬蟲(chóng)實(shí)戰》在線(xiàn)課程,我目前正在學(xué)習第二章節新聞網(wǎng)站新聞列表抓取。因為文彤老師把它完全作為一個(gè)完整的商用項目來(lái)做,所以課程上面講授的知識...
  閱讀 1,343 次 列車(chē)瀏覽器網(wǎng)路爬蟲(chóng)
  
  實(shí)踐筆記1年前 (2018-12-02)
  我正在學(xué)習文彤老師的《小白零編程網(wǎng)絡(luò )爬蟲(chóng)實(shí)戰》在線(xiàn)視頻課程,這是第2篇學(xué)習筆記。 工欲善其事必先利其器,要不要編程寫(xiě)代碼只是一個(gè)修飾詞,但凡在網(wǎng)頁(yè)上爬取數據,一...
  閱讀 1,148 次
  
  實(shí)踐筆記1年前 (2018-11-25)
  前不久借著(zhù)雙十一的促銷(xiāo)環(huán)境,我訂購了張文彤老師原創(chuàng )開(kāi)發(fā)的爬蟲(chóng)課程《小白零編程網(wǎng)絡(luò )爬蟲(chóng)實(shí)戰》。 想學(xué)習爬蟲(chóng)技術(shù)許久了,之所以沒(méi)有下定決心,主要緣由是想到要編程寫(xiě)代...
  閱讀 1,537 次
  
  
  數據情報2年前 (2018-06-24)
  今年4月份的時(shí)侯,我給讀者朋友們推薦過(guò)中科大羅昭鋒主講的文獻管理教學(xué)視頻,全是免費的,有幾個(gè)讀者后來(lái)在公號后臺特意留言致謝。 雖然那篇文章最終只有...
  閱讀 2,857 次 查看全部

  
  http://www.datasoldier.net/wp- ... zc%3D1" />
  實(shí)踐筆記1年前 (2019-01-04)
  每天進(jìn)步一點(diǎn)點(diǎn),這是我2019年的小目標。 這是第6次學(xué)習與實(shí)踐筆記了,這一次俺們把對象轉移到百度搜索去,嘗試使用列車(chē)瀏覽器爬蟲(chóng)工具來(lái)采集百度新聞搜索的結果,并...
  閱讀 2,714 次
  http://www.datasoldier.net/wp- ... zc%3D1" />
  實(shí)踐筆記 | 小兵專(zhuān)欄1年前 (2018-12-27)
  最近我學(xué)習和實(shí)踐網(wǎng)路爬蟲(chóng),總想著(zhù)在這里抓點(diǎn)數據在那里抓點(diǎn)數據爬蟲(chóng)軟件數據,渾然不知爬蟲(chóng)的底線(xiàn)和基本規則,我默認覺(jué)得只要是在互聯(lián)網(wǎng)上公開(kāi)的數據,并且沒(méi)有侵害個(gè)人隱私的數據就可...
  閱讀 8,834 次 數據抓取網(wǎng)絡(luò )爬蟲(chóng)
  http://www.datasoldier.net/wp- ... zc%3D1" />
  實(shí)踐筆記1年前 (2018-12-19)
  【SPSS統計訓練營(yíng)】微信號新開(kāi)一個(gè)小欄目爬蟲(chóng)軟件數據,取名【學(xué)習筆記】,主要分享一些與SPSS、統計學(xué)、數據剖析有關(guān)的技能,SPSS是我們的剖析裝備,但是我們決不能僅有一...
  閱讀 1,211 次
  http://www.datasoldier.net/wp- ... zc%3D1" />
  實(shí)踐筆記1年前 (2018-12-12)
  文彤老師的《小白零編程網(wǎng)絡(luò )爬蟲(chóng)實(shí)戰》在線(xiàn)課程,我目前正在學(xué)習第二章節新聞網(wǎng)站新聞列表抓取。因為文彤老師把它完全作為一個(gè)完整的商用項目來(lái)做,所以課程上面講授的知識...
  閱讀 1,343 次 列車(chē)瀏覽器網(wǎng)路爬蟲(chóng)
  http://www.datasoldier.net/wp- ... zc%3D1" />
  實(shí)踐筆記1年前 (2018-12-02)
  我正在學(xué)習文彤老師的《小白零編程網(wǎng)絡(luò )爬蟲(chóng)實(shí)戰》在線(xiàn)視頻課程,這是第2篇學(xué)習筆記。 工欲善其事必先利其器,要不要編程寫(xiě)代碼只是一個(gè)修飾詞,但凡在網(wǎng)頁(yè)上爬取數據,一...
  閱讀 1,148 次
  http://www.datasoldier.net/wp- ... zc%3D1" />
  實(shí)踐筆記1年前 (2018-11-25)
  前不久借著(zhù)雙十一的促銷(xiāo)環(huán)境,我訂購了張文彤老師原創(chuàng )開(kāi)發(fā)的爬蟲(chóng)課程《小白零編程網(wǎng)絡(luò )爬蟲(chóng)實(shí)戰》。 想學(xué)習爬蟲(chóng)技術(shù)許久了,之所以沒(méi)有下定決心,主要緣由是想到要編程寫(xiě)代...
  閱讀 1,537 次
  
  http://www.datasoldier.net/wp- ... zc%3D1" />
  數據情報2年前 (2018-06-24)
  今年4月份的時(shí)侯,我給讀者朋友們推薦過(guò)中科大羅昭鋒主講的文獻管理教學(xué)視頻,全是免費的,有幾個(gè)讀者后來(lái)在公號后臺特意留言致謝。 雖然那篇文章最終只有...
  閱讀 2,857 次

現在主流爬蟲(chóng)和技術(shù)方向是哪些?

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 331 次瀏覽 ? 2020-05-05 08:04 ? 來(lái)自相關(guān)話(huà)題

  現在網(wǎng)上關(guān)于爬蟲(chóng)方面的文章,大多都浮于表面,說(shuō)來(lái)說(shuō)去就這么幾個(gè)東西,已經(jīng)很久沒(méi)有一些實(shí)質(zhì)性的內容了。
  感覺(jué)主流爬蟲(chóng)技術(shù)的發(fā)展和應用,應該還是在大廠(chǎng)內部,想討教一下,現在大廠(chǎng)的主要研究方向和領(lǐng)域通常在哪?
  大家說(shuō)詳盡了肯定也不現實(shí),大體說(shuō)個(gè)方向或思路就行,對于在一些小廠(chǎng)的人(比如我= 。 =)來(lái)說(shuō),有想精進(jìn)技術(shù)的心,奈何抓不到方向也沒(méi)有渠道去了解,特此來(lái)問(wèn)問(wèn) V 友。
  1.現在主流的爬蟲(chóng)方向是不是在 App 端?
  2.針對 App 端的難點(diǎn)或則攻守的焦躁地帶是否在證書(shū)驗證以及 APP 包的加密與破解?
  3.大廠(chǎng)對 2 上面的處理,是深陷了貓和老鼠的游戲還是有自己一套更底層 HOOk 的方式和框架(理解為通殺?)?
  4.同理,web 端覺(jué)得主要的難點(diǎn) Js 和驗證碼這一塊爬蟲(chóng)技術(shù),大廠(chǎng)是打斷點(diǎn)一點(diǎn)點(diǎn)去調試剖析呢?還是直接加經(jīng)費丟第三方呢?(尤其是針對拖 /點(diǎn) /滑類(lèi)型的驗證碼現今大廠(chǎng)都是如何處理的???)
  圖形驗證碼可以上機器學(xué)習并且復雜的 JS 呢?模擬還是破解?有哪些好的學(xué)習方法或路線(xiàn)圖嗎?
  APP 端爬蟲(chóng)工作范圍內接觸較少,以前時(shí)常擺弄過(guò),如果
  1.APP 端深陷了反編譯的貓捉老鼠的游戲
  2.Web 端發(fā)展邁向了各類(lèi)模擬爬蟲(chóng)技術(shù),加機器的方向
  那么在具有革命性的技術(shù)出現之前,是不是可以考慮把爬蟲(chóng)放一放轉去學(xué)習其他東西,偶爾來(lái)看下出現了哪些新的東西就可以了? 查看全部

  現在網(wǎng)上關(guān)于爬蟲(chóng)方面的文章,大多都浮于表面,說(shuō)來(lái)說(shuō)去就這么幾個(gè)東西,已經(jīng)很久沒(méi)有一些實(shí)質(zhì)性的內容了。
  感覺(jué)主流爬蟲(chóng)技術(shù)的發(fā)展和應用,應該還是在大廠(chǎng)內部,想討教一下,現在大廠(chǎng)的主要研究方向和領(lǐng)域通常在哪?
  大家說(shuō)詳盡了肯定也不現實(shí),大體說(shuō)個(gè)方向或思路就行,對于在一些小廠(chǎng)的人(比如我= 。 =)來(lái)說(shuō),有想精進(jìn)技術(shù)的心,奈何抓不到方向也沒(méi)有渠道去了解,特此來(lái)問(wèn)問(wèn) V 友。
  1.現在主流的爬蟲(chóng)方向是不是在 App 端?
  2.針對 App 端的難點(diǎn)或則攻守的焦躁地帶是否在證書(shū)驗證以及 APP 包的加密與破解?
  3.大廠(chǎng)對 2 上面的處理,是深陷了貓和老鼠的游戲還是有自己一套更底層 HOOk 的方式和框架(理解為通殺?)?
  4.同理,web 端覺(jué)得主要的難點(diǎn) Js 和驗證碼這一塊爬蟲(chóng)技術(shù),大廠(chǎng)是打斷點(diǎn)一點(diǎn)點(diǎn)去調試剖析呢?還是直接加經(jīng)費丟第三方呢?(尤其是針對拖 /點(diǎn) /滑類(lèi)型的驗證碼現今大廠(chǎng)都是如何處理的???)
  圖形驗證碼可以上機器學(xué)習并且復雜的 JS 呢?模擬還是破解?有哪些好的學(xué)習方法或路線(xiàn)圖嗎?
  APP 端爬蟲(chóng)工作范圍內接觸較少,以前時(shí)常擺弄過(guò),如果
  1.APP 端深陷了反編譯的貓捉老鼠的游戲
  2.Web 端發(fā)展邁向了各類(lèi)模擬爬蟲(chóng)技術(shù),加機器的方向
  那么在具有革命性的技術(shù)出現之前,是不是可以考慮把爬蟲(chóng)放一放轉去學(xué)習其他東西,偶爾來(lái)看下出現了哪些新的東西就可以了?

如何完整寫(xiě)一個(gè)爬蟲(chóng)框架

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 426 次瀏覽 ? 2020-05-03 08:02 ? 來(lái)自相關(guān)話(huà)題

  
  本文主要為你們分享一篇怎么完整寫(xiě)一個(gè)爬蟲(chóng)框架的懇求方式,具有挺好的參考價(jià)值,希望對你們有所幫助。一起追隨小編過(guò)來(lái)瞧瞧吧爬蟲(chóng)框架,希望能幫助到你們。
  產(chǎn)生爬蟲(chóng)框架:
  1、建立一個(gè)scrapy爬蟲(chóng)工程
  2、在工程中形成一個(gè)scrapy爬蟲(chóng)
  3、配置spider爬蟲(chóng)
  4、運行爬蟲(chóng),獲取網(wǎng)頁(yè)
  具體操作:
  1、建立工程
  定義一個(gè)工程,名稱(chēng)為:python123demo
  方法:
  在cmd中,d: 步入盤(pán)符, cd pycodes 步入文件pycodes
  然后輸入
  scrapy startproject python123demo
  在pycodes中會(huì )生成一個(gè)文件:
  
  
  _init_.py不需要用戶(hù)編撰
  
  
  2、在工程中形成一個(gè)scrapy爬蟲(chóng)
  執行一條命令,給出爬蟲(chóng)名子和爬取的網(wǎng)站
  產(chǎn)生爬蟲(chóng):
  
  生成一個(gè)名稱(chēng)為 demo 的spider
  僅限生成 demo.py,其內容為:
  
  name = 'demo' 當前爬蟲(chóng)名子為demo
  allowed_domains = " 爬取該網(wǎng)站域名以下的鏈接,該域名由cmd命令臺輸入
  start_urls = [] 爬取的初始頁(yè)面
  parse()用于處理相應,解析內容產(chǎn)生字典,發(fā)現新的url爬取懇求
  3、配置形成的spider爬蟲(chóng),使之滿(mǎn)足我們的需求
  將解析的頁(yè)面保存成文件
  修改demo.py文件
  
  4、運行爬蟲(chóng),獲取網(wǎng)頁(yè)
  打開(kāi)cmd輸入命令行進(jìn)行爬蟲(chóng)
  
  然后我的筆記本上出現了一個(gè)錯誤
  
  windows系統上出現這個(gè)問(wèn)題的解決須要安裝Py32Win模塊,但是直接通過(guò)官網(wǎng)鏈接裝exe會(huì )出現幾百個(gè)錯誤,更方便的做法是
  pip3 install pypiwin32
  這是py3的解決方案
  注意:py3版本假如用 pip install pypiwin32指令會(huì )發(fā)生錯誤
  安裝完成后,重新進(jìn)行爬蟲(chóng)爬蟲(chóng)框架,成功!撒花!
  
  捕獲頁(yè)面儲存在 demo.html文件中
  
  demo.py 所對應的完整代碼:
  
  兩版本等價(jià):
  
  以上就是怎么完整寫(xiě)一個(gè)爬蟲(chóng)框架的詳盡內容,更多請關(guān)注php中文網(wǎng)其它相關(guān)文章! 查看全部

  
  本文主要為你們分享一篇怎么完整寫(xiě)一個(gè)爬蟲(chóng)框架的懇求方式,具有挺好的參考價(jià)值,希望對你們有所幫助。一起追隨小編過(guò)來(lái)瞧瞧吧爬蟲(chóng)框架,希望能幫助到你們。
  產(chǎn)生爬蟲(chóng)框架:
  1、建立一個(gè)scrapy爬蟲(chóng)工程
  2、在工程中形成一個(gè)scrapy爬蟲(chóng)
  3、配置spider爬蟲(chóng)
  4、運行爬蟲(chóng),獲取網(wǎng)頁(yè)
  具體操作:
  1、建立工程
  定義一個(gè)工程,名稱(chēng)為:python123demo
  方法:
  在cmd中,d: 步入盤(pán)符, cd pycodes 步入文件pycodes
  然后輸入
  scrapy startproject python123demo
  在pycodes中會(huì )生成一個(gè)文件:
  
  
  _init_.py不需要用戶(hù)編撰
  
  
  2、在工程中形成一個(gè)scrapy爬蟲(chóng)
  執行一條命令,給出爬蟲(chóng)名子和爬取的網(wǎng)站
  產(chǎn)生爬蟲(chóng):
  
  生成一個(gè)名稱(chēng)為 demo 的spider
  僅限生成 demo.py,其內容為:
  
  name = 'demo' 當前爬蟲(chóng)名子為demo
  allowed_domains = " 爬取該網(wǎng)站域名以下的鏈接,該域名由cmd命令臺輸入
  start_urls = [] 爬取的初始頁(yè)面
  parse()用于處理相應,解析內容產(chǎn)生字典,發(fā)現新的url爬取懇求
  3、配置形成的spider爬蟲(chóng),使之滿(mǎn)足我們的需求
  將解析的頁(yè)面保存成文件
  修改demo.py文件
  
  4、運行爬蟲(chóng),獲取網(wǎng)頁(yè)
  打開(kāi)cmd輸入命令行進(jìn)行爬蟲(chóng)
  
  然后我的筆記本上出現了一個(gè)錯誤
  
  windows系統上出現這個(gè)問(wèn)題的解決須要安裝Py32Win模塊,但是直接通過(guò)官網(wǎng)鏈接裝exe會(huì )出現幾百個(gè)錯誤,更方便的做法是
  pip3 install pypiwin32
  這是py3的解決方案
  注意:py3版本假如用 pip install pypiwin32指令會(huì )發(fā)生錯誤
  安裝完成后,重新進(jìn)行爬蟲(chóng)爬蟲(chóng)框架,成功!撒花!
  
  捕獲頁(yè)面儲存在 demo.html文件中
  
  demo.py 所對應的完整代碼:
  
  兩版本等價(jià):
  
  以上就是怎么完整寫(xiě)一個(gè)爬蟲(chóng)框架的詳盡內容,更多請關(guān)注php中文網(wǎng)其它相關(guān)文章!

官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久