優(yōu)采云談網(wǎng)站的采集與防采集
優(yōu)采云 發(fā)布時(shí)間: 2022-05-31 16:54優(yōu)采云談網(wǎng)站的采集與防采集
一、談優(yōu)采云采集器的由來(lái)
優(yōu)采云:我們的這個(gè)采集器最早是從05年底開(kāi)始有這個(gè)想法的,當時(shí)也是和大家一樣,個(gè)人站長(cháng),添加管理維護網(wǎng)站很辛苦,一篇篇修改復制發(fā)布最開(kāi)始也是 接觸dede 然后發(fā)現他有個(gè)外部的c#采集器。不知道有多少人也記得,我的思路基本是從這個(gè)dedespider學(xué)來(lái)的,原來(lái)真的不懂什么,到后來(lái)學(xué)會(huì )php 和.net,所以只要大家有興趣,技術(shù)上的問(wèn)題都可以克服,講到現在的采集,其實(shí)采集只能替代站長(cháng)部分手工的操作。我們不建議*敏*感*詞*得制造垃圾站(全盤(pán)得 采集復制別人的站點(diǎn)),所以我們現在的軟件的功能越做越多,但新用戶(hù)缺越來(lái)越不會(huì )用了。
我們現在有一批很忠實(shí)的會(huì )員,他們一直在靠采集器更新網(wǎng)站。迅速的采集然后百度搜錄帶來(lái)巨大的流量的時(shí)代已經(jīng)不在,站長(cháng)還是要關(guān)注內容,靠采集器采集 的數據一樣要注意,前期只能做為一個(gè)數據填充,可以稍微大的。但時(shí)間長(cháng)了,目標就要把垃圾數據也要變成精品,否則做不長(cháng)久
二、關(guān)于采集網(wǎng)站的經(jīng)驗
優(yōu)采云:我們現在在更新這個(gè)采集器,在數據采集方面也積累了一些經(jīng)驗,增加更*敏*感*詞*以適應新形式下的采集
1.別人經(jīng)常采的網(wǎng)站不要去采
2.太容易采的網(wǎng)站不要去采
3.不要一次性采集太多,一定要注意后期處理(后面詳續)
4.做好關(guān)鍵詞,tag的采集分析
5.自己網(wǎng)站要有自己的定位,不采與自己網(wǎng)站無(wú)關(guān)的內容
6.采集也要有持續性,經(jīng)常更新,自動(dòng)采集功能我們也有,但還是建議大家人工也參與一些審核,或定時(shí),亂序發(fā)布
后期處理,要想法子做到讓搜索引擎那看不出來(lái)兩片文章的相同,這里面應該有很多SEO高手,那我不獻丑了。我說(shuō)下我們現在實(shí)現的功能,大家可以把這些混用,達到改變內容偽原創(chuàng ):
1.給標題。內容分詞
2.使用同義詞近義詞替換,排除敏感詞,不同的標簽之間數據融合,指如標題內容之間數據的相互替換
3.給文章加上摘要
4.為文章標題等生成拼音地址
5.采集一些其他編碼的網(wǎng)站,我們可以做到簡(jiǎn)繁體轉化,可以采集中文網(wǎng)站翻譯成英文(雖然比較垃圾,但應該可以算是原創(chuàng ))
我們也發(fā)現,高難度采集的網(wǎng)站一般內容質(zhì)量都非常好,采集其實(shí)有時(shí)也是一件很有樂(lè )趣的事情,需要你學(xué)習一些采集相關(guān)的知識。
三、關(guān)于防采集的方法
優(yōu)采云:下面講一些主要的防采集方法??梢哉f(shuō)是攻防對戰吧。打開(kāi)一個(gè)網(wǎng)頁(yè)實(shí)際就是一個(gè)Http請求瀏覽器。百度蜘蛛,小到我們的采集器使用的都是一個(gè) 原理,模擬http請求,所以我們同樣能模擬出瀏覽器。百度蜘蛛出來(lái)所以絕對的防采集根本不存在,只是難度的高低?;蛘吣阏J為搜索引擎的搜錄也無(wú)所謂了。 你可以用一些非常強大的activex,flash,全圖片文字的形式,這個(gè)我們無(wú)能為力。
普通的防采集方法有
1、來(lái)源判斷
2、登錄信息判斷 Cookie
3、請求次數判斷。如一段時(shí)間內請求多少,非常規操作則封IP
4、發(fā)送方式判斷 POST GET 使用JS,Ajax等請求內容
舉例:
1.2不用說(shuō)了,論壇,下載站等。。
3、一些大網(wǎng)站,需要配置服務(wù)器,單純靠腳本判斷資源消耗比較大
4、如一些招聘站,的分頁(yè),Web2.0站的ajax請求內容
當然我們后面還發(fā)現一些殺手锏,今天第一次在這里給大家公布出來(lái)~~ 有優(yōu)質(zhì)內容需要防采集的朋友可以考慮試下
1、網(wǎng)頁(yè)默認deflate壓縮輸出(gzip容易一點(diǎn),容易解壓) 我們普通的瀏覽器和baidu支持識別gzip,deflate輸出內容
2、網(wǎng)頁(yè)內容不定時(shí) ? 內容自動(dòng)截斷,這兩點(diǎn)基本可以防主大部分主流軟件采集及web采集程序了~
今天主要想要表達的一點(diǎn),大家在做站時(shí)一定要注意技術(shù)的提高,比如我們里面有后期外部php及.net接口處理采集數據?;蛘吒纱嗄阕约鹤鲆粋€(gè)發(fā)布時(shí) 的接口程序自己入庫。我們偽原創(chuàng )做得再好,一樣有非常多的會(huì )員使用,那樣又不原創(chuàng )了,采集一樣需要技術(shù),只有你通過(guò)采集器獲得了沒(méi)有多少人有的數據,你才 是唯一了??赡苁俏易顬榧夹g(shù)型人的一個(gè)通病,謝謝大家!