Python爬蟲(chóng)的實(shí)用解釋: 分析某些東部產(chǎn)品評論信息的采集過(guò)程
優(yōu)采云 發(fā)布時(shí)間: 2020-08-08 15:12如果要提取其他字段信息,可以在代碼中自己添加.
搜索界面
一個(gè),界面搜索
搜索以食物為例,輸入食物并點(diǎn)擊搜索
繼續向下滾動(dòng)以查看產(chǎn)品的返回頁(yè)數,這是最大返回100頁(yè)信息
打開(kāi)調試,清除請求內容,然后根據上面發(fā)現的查找注釋界面的方法直接單擊第二頁(yè)以觀(guān)察新請求.
當我單擊紅色框中的s_new界面時(shí),我發(fā)現響應信息是html,并且響應的內容恰好是我們在頁(yè)面上所需的產(chǎn)品信息.
第二,參數搜索
類(lèi)似地,根據向下滑動(dòng),翻頁(yè)以查看參數的更改
單擊頁(yè)面的第二頁(yè),參數如下
頁(yè)面上有很多產(chǎn)品顯示信息,并且可能會(huì )臨時(shí)加載請求. 如果繼續向下滾動(dòng),則可以看到已添加了新請求. 請求參數如下,并增加了參數. (注意: 新參數可以忽略)
然后單擊第三頁(yè)
如果找不到規則,則可以繼續單擊頁(yè)面以查看更改規則.
接口參數的構造邏輯有以下幾點(diǎn):
三,html頁(yè)面分析
直接在頁(yè)面上找到產(chǎn)品位置,您可以看到所有產(chǎn)品信息都在ul標簽下的li標簽中
單擊li標簽,您可以看到div / div下的標簽收錄產(chǎn)品標題信息,產(chǎn)品鏈接信息,并且該鏈接收錄我們需要提取的product_id信息. 右鍵單擊以復制并復制xpath以直接提取位置信息.
四個(gè)代碼測試
代碼如下. 請注意,在標頭中,referer參數需要進(jìn)行url編碼.
執行結果如下:
這里僅提取了兩個(gè)字段title和product_id,并且可以根據需要添加它們.
本文中的文字和圖片來(lái)自Internet,僅用于學(xué)習和交流目的. 它們沒(méi)有任何商業(yè)用途. 版權屬于原創(chuàng )作者. 如有任何疑問(wèn),請及時(shí)與我們聯(lián)系進(jìn)行處理.
作者: 習慣u


