亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

java爬蟲(chóng)系列第一講

優(yōu)采云 發(fā)布時(shí)間: 2020-05-04 08:02

  java爬蟲(chóng)系列第一講-爬蟲(chóng)入門(mén)1. 概述java爬蟲(chóng)系列包含什么內容?java爬蟲(chóng)框架webmgic入門(mén)使用webmgic爬取 中的影片資源(動(dòng)作影片列表頁(yè)、電影下載地址等信息)使用webmgic爬取 極客時(shí)間 的課程資源(文章系列課程 和 視頻系列的課程)本篇文章主要內容:介紹java中好用的爬蟲(chóng)框架java爬蟲(chóng)框架webmagic介紹使用webgic爬取動(dòng)作影片列表信息2. java中好用的爬蟲(chóng)框架怎樣判別框架是否優(yōu)秀?容易學(xué)習和使用,網(wǎng)上對應的學(xué)習資料比較多,并且比較健全使用的人比較多,存在的坑他人早已幫你填的差不多了,用上去會(huì )更順心一些框架更新比較快,社區活躍,可以快速體驗一些更好的功能,并與作者進(jìn)行交流框架穩定、方便擴充

  按照以上幾點(diǎn)的,推薦一款非常好用的java爬蟲(chóng)框架webmgic

  3. webmgic介紹WebMagic是一個(gè)簡(jiǎn)單靈活的Java爬蟲(chóng)框架?;赪ebMagic,你可以快速開(kāi)發(fā)出一個(gè)高效、易維護的爬蟲(chóng)。webmagic官網(wǎng):webmgic英文學(xué)習文檔:4.使用webgic爬取動(dòng)作影片列表

  使用webgic爬取 愛(ài)影片 電影列表資源信息

  示例源碼地址

  1. 新建springboot項目java-pachong

  2. 導入maven配置

  

org.springframework.boot

spring-boot-starter

org.projectlombok

lombok

true

org.springframework.boot

spring-boot-starter-test

test

us.codecraft

webmagic-core

0.7.3

fastjson

com.alibaba

commons-io

commons-io

commons-io

commons-io

fastjson

com.alibaba

fastjson

com.alibaba

log4j

log4j

slf4j-log4j12

org.slf4j

us.codecraft

webmagic-extension

0.7.3

us.codecraft

webmagic-selenium

0.7.3

net.minidev

json-smart

2.2.1

com.alibaba

fastjson

1.2.49

commons-lang

commons-lang

2.6

commons-io

commons-io

2.6

commons-codec

commons-codec

1.11

commons-collections

commons-collections

3.2.2

  3. 編寫(xiě)抓取影片數據的代碼

  在谷歌瀏覽器中訪(fǎng)問(wèn) 愛(ài)影片動(dòng)作片列表

  F12發(fā)覺(jué)列表頁(yè)中數據是通過(guò)一個(gè)ajax懇求獲取的,我們獲取懇求地址

  編寫(xiě)抓取代碼

  package com.ady01.demo1;

import lombok.extern.slf4j.Slf4j;

import us.codecraft.webmagic.Page;

import us.codecraft.webmagic.Site;

import us.codecraft.webmagic.Spider;

import us.codecraft.webmagic.processor.PageProcessor;

/**

* description:第一個(gè)爬蟲(chóng)示例,爬去動(dòng)作片列表信息

* <b>time:2019/4/20 10:58

* <b>author:ready likun_557@163.com

*/

@Slf4j

public class Ady01comPageProcessor implements PageProcessor {

@Override

public void process(Page page) {

log.info("爬取成功!");

log.info("爬取的內容:" + page.getRawText());

}

@Override

public Site getSite() {

return Site.me().setSleepTime(1000).setRetryTimes(3);

}

public static void main(String args) {

String url = "https://m.ady01.com/rs/film/listJson/1/2?_=1555726508180";

Spider.create(new Ady01comPageProcessor()).addUrl(url).thread(1).run();

}

}

  4. 運行爬蟲(chóng)代碼

  運行Ady01comPageProcessor中的main方式j(luò )ava爬蟲(chóng)超級經(jīng)典,執行結果如下:

  5.總結本文中主要用了一個(gè)示例說(shuō)明webgic是這么簡(jiǎn)單就可以完成數據的抓取工作java爬蟲(chóng)超級經(jīng)典,從代碼中可以看出復雜的代碼webmagic都幫我們屏蔽了,只須要我們去關(guān)注業(yè)務(wù)代碼的編撰。文章中沒(méi)有詳盡介webmagic怎樣使用,至于我為什么沒(méi)有在文檔中去做說(shuō)明,主要是webigc早已提供了十分健全的學(xué)習文檔,可以移步到webgic英文文檔,需要更深入了解的可以研究一下webgic的源碼,對你編撰爬蟲(chóng)是十分有用的。明日我們將爬取每位動(dòng)作影片詳情頁(yè)信息,采集詳情頁(yè)中影片的下載地址示例代碼,導入到idea中運行,idea中須要安裝maven和lombok的支持更多技術(shù)文章請關(guān)注公眾號:javacode2018

0 個(gè)評論

要回復文章請先登錄注冊


官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久