querylist采集微信公眾號文章內容提取在做字符串處理之前
優(yōu)采云 發(fā)布時(shí)間: 2021-05-16 03:03querylist采集微信公眾號文章內容提取在做字符串處理之前
querylist采集微信公眾號文章內容提取在做字符串處理之前,需要先使用lucene庫提取文章內容,首先你需要學(xué)會(huì )使用lucene。下面分享一個(gè)lucene解析微信公眾號文章的代碼。#加載數據wx.loadassocialize('.weixin')#按頁(yè)讀取微信公眾號數據wx.loaditemissions('.weixin')#總共有5頁(yè)wx.loadpages('.weixin')#總共10頁(yè)wx.loadcurrentpages('.weixin')#總共10頁(yè)wx.getdatabase('.weixin')#按頁(yè)讀取微信公眾號內容wx.setdatabase('.weixin')#微信公眾號內容數據lucene讀取我們已經(jīng)準備好的數據,并且讀取weixin的數據到excel文件中。
這里我用到了excel數據導入工具,最常用的有excelxl,在介紹如何使用工具之前,先簡(jiǎn)單了解一下工具:excelxl導入數據導入數據最容易出現的錯誤之一,就是使用nullpointerexception,這個(gè)excel中會(huì )有默認的過(guò)濾格式,使用戶(hù)利用這個(gè)默認格式?jīng)]有辦法進(jìn)行讀取等操作。這時(shí)候可以使用xlwings轉換數據格式為windowsdow格式的markdown文件excelxl:xlwings:advancedxmldocumentformattowindowsapplications,andthedefault.#準備環(huán)境tomcat:9.0#es選擇在windows下面,在python中安裝對應版本的es到本地(python2.7)tomcat:windows10#es最好windows下面安裝。
使用exists后可以找到原數據xlsxxtest.xlsxexcelxl#讀取nullword部分的excelxlxlsxxprint'typetest.xlsx.'console.log('typetest.xlsx.')print'typetest.excelxl.'outputtest.xlsx.test.xlsx.txtxlsxtomcat運行輸出結果如下圖:要把tomcat讀取的excelxl文件轉化為workbook格式(xlsxx,然后save使用),需要執行以下命令:wx.startactivity()wx.startactivity()pages=wx.getparams('.weixin')ifwx.isdir(pages):pages=wx.getparams('.weixin')ifwx.isdir(pages):pages=wx.getparams('.weixin')wx.close()整個(gè)流程如下圖:最后,我們先返回微信公眾號文章的數據,并解析它然后導入excelxl文件即可得到數據最后還有一種方法,就是直接把excelxl導入linux中(linux下,xlwings可以直接生成windowsuserdata)。