一款基于多線(xiàn)程爬蟲(chóng)的微博關(guān)注網(wǎng)剖析工具
優(yōu)采云 發(fā)布時(shí)間: 2020-05-04 08:05
由于網(wǎng)路延后和反爬機制的緣由,腳本運行速率仍比較慢,歡迎交流改進(jìn)方案。
簡(jiǎn)要介紹一下腳本的作用:
分析器的基本思想和微博自帶的推薦“你關(guān)注的XX也關(guān)注了YY”類(lèi)似。分析器通過(guò)爬取用戶(hù)關(guān)注列表,利用BFS深入到關(guān)注鏈的任意層,從而挖掘出好多你可能認識的人。同時(shí)通過(guò)簡(jiǎn)單的判斷過(guò)濾掉大V用戶(hù)和其他無(wú)效用戶(hù)。
作為一個(gè)事例,運行分析器微博 爬蟲(chóng)軟件,你將獲得一個(gè)包括如下信息的用戶(hù)列表。Level是指關(guān)注鏈層次微博 爬蟲(chóng)軟件,Level=1表示你直接關(guān)注了該用戶(hù),Level=2表示你直接關(guān)注的用戶(hù)關(guān)注了該用戶(hù),依此類(lèi)推。Score用于表征該用戶(hù)與你的關(guān)系網(wǎng)的相關(guān)程度,你也可以自定義Score的各項因子權重。
Nickname: 興趣作祟的英雄
Gender: 男
Region: 上海 海淀區
Followers: 638
Tweets: 142
Last Tweet: 2019-05-11 04:06
Home Page:
Relation Level: 3
Relation Score: 90
完整源碼及更多相關(guān)信息見(jiàn)附件,也可在GitHub下載完整源碼(trioKun/Weibo-Relation-Analysis-Spider)。
下面給出分析器的核心部份~
[Python] 純文本查看 復制代碼



