爬一爬數據采集實(shí)戰系列7「調度任務(wù)」:采集微博實(shí)時(shí)熱搜榜信息
優(yōu)采云 發(fā)布時(shí)間: 2020-08-26 07:43爬一爬數據采集實(shí)戰系列7「調度任務(wù)」:采集微博實(shí)時(shí)熱搜榜信息
本篇教程為中級實(shí)戰案例,用【調度】功能多次采集微博實(shí)時(shí)熱搜榜數據。
##插件安裝及菜鳥(niǎo)入門(mén)教程可以看訂閱號第一篇文章 極簡(jiǎn)易用網(wǎng)頁(yè)采集器:爬一爬數據采集實(shí)戰教程
微博實(shí)時(shí)熱搜榜每10min更新一次。如果想采集某個(gè)時(shí)間段內實(shí)時(shí)熱搜榜的完整信息,需每隔十分鐘自動(dòng)運行,這樣的效率極低,不可取。
實(shí)時(shí)熱搜榜的入選規則
今天就教你們一個(gè)方式,用調度器定時(shí)采集數據。這樣,只要我們設置好調度任務(wù),讓任務(wù)手動(dòng)運行,我們就可以高枕無(wú)憂(yōu)的打鬧去了。
本例設置了在19:00--21:00期間每隔10分鐘采集微博熱搜榜數據。
操作步驟
1.確保帳號已登陸,打開(kāi)須要采集的微博實(shí)時(shí)熱搜榜網(wǎng)站,點(diǎn)擊瀏覽器插件欄的“爬”字圖標,啟動(dòng)插件。
2.點(diǎn)擊頁(yè)面上須要采集的信息。如果色調框沒(méi)有收錄所有的任務(wù)數據, 點(diǎn)擊切換按鍵,切換算法,直到選中所有的任務(wù)數據。(注:下載為js-engine)
依次選定要抓取的元素
3.先點(diǎn)擊“完成”按鈕,再點(diǎn)擊“測試”按鈕,測試采集的數據是否就是您想要的。
測試數據
4.確認測試成功后,點(diǎn)擊”OK”關(guān)閉測試窗口。填寫(xiě)任務(wù)名稱(chēng)(長(cháng)度為4-32的字符,必填),并依照個(gè)人須要更改列名。
5.點(diǎn)擊“提交”按鈕,創(chuàng )建任務(wù)。
創(chuàng )建任務(wù)
6.任務(wù)創(chuàng )建成功后,在官網(wǎng)導航欄“任務(wù)”頁(yè)面,點(diǎn)擊”打開(kāi)任務(wù)調度器”,調度頁(yè)面便出現在瀏覽器標簽頁(yè)。
打開(kāi)調度器
7.在所創(chuàng )建的任務(wù)后點(diǎn)擊”管理”選項。
打開(kāi)任務(wù)管理頁(yè)面
8.點(diǎn)擊”調度”選項,新建調度,設置定時(shí)任務(wù)。
新建調度任務(wù)
9.根據Cron表達式,設置任務(wù)抓取頻度,如下圖所示。具體可參考”教程中心”熱門(mén)問(wèn)題中的“什么是Cron表達式”。
?。?注:本例設置的是 在19:00--21:00之間每隔10分抓取頁(yè)面)
設置Cron表達式
10.調度配置成功后,任務(wù)按照設置頻度手動(dòng)運行。我們可在調度管理標簽頁(yè)面,看到任務(wù)的運行狀態(tài)。(#注:在任務(wù)調度期間,該頁(yè)面不關(guān)掉。)
查看調度狀態(tài)
11.點(diǎn)擊任務(wù)”數據”選項,我們可以看見(jiàn)多批次的數據。(#注:數據從19:00開(kāi)始,每個(gè)批次間隔10分鐘)
查看數據
Tips:
?、俦纠螺d器為js-engine
?、跒楸WC數據穩定,可將頻度值大一點(diǎn),預留足夠的抓取時(shí)間。
?、巯肟匆曨l版調度教程,趕緊去官網(wǎng)教程中心吧。
?、芨紺ron表達式的一些事例:
表達式
釋義
提示
0 12 * * ?
每天12:00
相當于’0 12 */1 * ?’
15 10 ? * *
每天10:15
相當于’15 10 * * ?’或’15 10 */1 * ?’
* 14 * * ?
每天14:00到14:59,每隔1分鐘
0/5 14 * * ?
每天14:00到14:59,每隔5分鐘
相當于’*/5 14 * * ?’
0-5 14 * * ?
每天14:00到14:05,每隔1分鐘
10,44 14 ? * 4
每周三14:10和14:44
15 10 15 * ?
每月15日的10:15
15 10 ? * 6L
每月最后一個(gè)周日的10:15
15 10 ? * 6#3
每月第三個(gè)周日的10:15