解決方案:實(shí)時(shí)文章采集軟件的過(guò)程特征選擇過(guò)程及注意事項介紹
優(yōu)采云 發(fā)布時(shí)間: 2022-11-13 18:30解決方案:實(shí)時(shí)文章采集軟件的過(guò)程特征選擇過(guò)程及注意事項介紹
實(shí)時(shí)文章采集軟件也就是在淘寶server端每秒鐘抓取任意格式文章的所有字段,比如url標題/地址/文章描述/標簽/摘要/評分。然后將所有的字段整合到一個(gè)文件中,然后在server端封裝成html或者xml的形式來(lái)進(jìn)行搜索。所以對于外層的爬蟲(chóng)的要求就是,每秒鐘執行一定數量的get。有代碼可供修改。其他的所有頁(yè)面都是整合,比如輸入一個(gè)ip,輸入一個(gè)標簽,返回一個(gè)dom文件,這個(gè)字段含有dom元素。
這個(gè)dom文件返回一個(gè)xml文件,xml文件里面可以是ajax格式的數據,你可以自己設置一個(gè)外層url。所以實(shí)時(shí)文章采集本質(zhì)是偽代碼。
實(shí)時(shí)采集嘛,restful架構。爬蟲(chóng)本身一般也是restful架構。你需要一個(gè)代理服務(wù)器,來(lái)保證合法性,速度和安全性。url匹配,這就是一個(gè)正則表達式匹配的過(guò)程,特征選擇過(guò)程。一般用beautifulsoup或者xpath之類(lèi)的restfulapi。具體內容自己看githubapi。當然,你如果是用chrome的代理extension和fiddler之類(lèi)的,通過(guò)各種手段firebug也能模擬。
好像,需要一個(gè)集群性質(zhì)的dns請求服務(wù)器可以幫助你實(shí)現抓取。
沒(méi)研究過(guò),我的網(wǎng)站,需要的是一個(gè)node.js+express的web服務(wù)器,
網(wǎng)頁(yè)要有各種元素
正好我們也在做搜索引擎,做下api+搜索然后拼接字段的效果。用api可以實(shí)現非常好的兼容性。直接生成html格式的字段數據。網(wǎng)頁(yè)抓取也可以利用api直接生成content-type正則表達式。