解決方案:簡(jiǎn)單暴力省心,還支持實(shí)時(shí)google翻譯,真正實(shí)現爬蟲(chóng)+神器模式
優(yōu)采云 發(fā)布時(shí)間: 2022-12-20 19:14解決方案:簡(jiǎn)單暴力省心,還支持實(shí)時(shí)google翻譯,真正實(shí)現爬蟲(chóng)+神器模式
文章采集系統自動(dòng)批量采集微信公眾號文章,自動(dòng)分詞導出,自動(dòng)分詞文本采集、翻譯、標注、詞頻統計自動(dòng)抓取豆瓣影評,并且自動(dòng)分詞并把電影翻譯成中文所有功能說(shuō)明和代碼都放在:wooyue/gan_ai_text_scraping之前用的是爬蟲(chóng)框架,但是發(fā)現爬蟲(chóng)框架有時(shí)候太麻煩,無(wú)論是封禁ip、斷網(wǎng)還是流量限制,不利于采集的擴展。
最近找到這個(gè)神器,簡(jiǎn)單暴力省心,還支持實(shí)時(shí)google翻譯,真正實(shí)現爬蟲(chóng)+神器模式。這個(gè)網(wǎng)站幾乎囊括了各大爬蟲(chóng)框架的優(yōu)缺點(diǎn),主要是還支持自定義爬蟲(chóng)爬取規則,一種模式結合新姿勢進(jìn)行各種攻防。百度一下便可找到代碼?,F在的豆瓣,只要找對手,基本可以媲美b站看番的體驗。豆瓣的標注種類(lèi)還算多,各種評分、電影出演、拍攝地、評價(jià)人數都有,但是要按照一個(gè)原則來(lái)抓取豆瓣,比如有一部電影不能按照評分來(lái)搜,要按照時(shí)間順序來(lái)搜。
這個(gè)時(shí)候有兩個(gè)神器可以打開(kāi):電影字幕組和豆瓣翻譯。這兩個(gè)神器都支持日語(yǔ),最讓人困擾的是日本某一部片子的翻譯都一樣,導致很難抓取精準翻譯的最好。豆瓣字幕組的「翻譯人數」,已經(jīng)達到32880,其中一本滿(mǎn)足翻譯了68部豆瓣標簽電影,另外416部還在翻譯中,翻譯部分電影字幕的字幕組已經(jīng)達到34670個(gè)了。其他的幾十部豆瓣標簽電影還在翻譯中,現在還沒(méi)有翻譯完。
豆瓣翻譯支持使用日語(yǔ)這個(gè)分支搜電影字幕。以日語(yǔ)標簽搜翻譯部分電影的結果更多,出現了16500部。然后再隨便打開(kāi)一個(gè)頁(yè)面,就直接達到了這樣的頁(yè)面:點(diǎn)開(kāi)頁(yè)面下方的播放按鈕,很多是未播放,以及想全部播放,但是沒(méi)有選擇,可以保存,打開(kāi)再抓取。點(diǎn)擊綠色播放按鈕會(huì )出現灰色模糊的字幕列表??聪聢D(左一):這個(gè)字幕列表就是百度翻譯的結果了,這個(gè)字幕是我自己添加的,百度翻譯不支持按照評分、時(shí)間、電影地址等分類(lèi)來(lái)查找。
我在評分部分,如2012年的話(huà)就選2012年,評分是2012年的,結果也是一樣的,和豆瓣的搜索結果都一樣。電影還支持英語(yǔ)和日語(yǔ)翻譯,點(diǎn)擊左側的綠色播放按鈕會(huì )出現藍色界面,里面有所有已經(jīng)翻譯過(guò)的電影名字,找到想看的電影,即可前往電影字幕組這里搜索電影名。不過(guò)這里搜索的結果有時(shí)候有點(diǎn)亂,也不太好,需要多點(diǎn)幾下鼠標才行。
現在已經(jīng)有兩千多部電影可以用了,可以正常的復制和發(fā)布和檢索。還有看看左側紅框里的地址,可以不用經(jīng)過(guò)豆瓣翻譯,直接拿來(lái)就可以翻譯,但是我還沒(méi)試,因為已經(jīng)有兩千多部,只需要10幾秒就會(huì )出現好幾百條翻譯結果,如果做成爬蟲(chóng)需要每秒處理這些數據才行。要檢索好多才能讓爬蟲(chóng)正常工作。其實(shí)我覺(jué)得豆。




