文章采集的博客作者之一的github網(wǎng)頁(yè)鏈接、網(wǎng)站表情、文章
優(yōu)采云 發(fā)布時(shí)間: 2021-05-28 02:03文章采集的博客作者之一的github網(wǎng)頁(yè)鏈接、網(wǎng)站表情、文章
文章采集內容:本文采集的博客作者之一的github網(wǎng)頁(yè)鏈接、網(wǎng)站表情、文章以及個(gè)人博客等內容,總量大約4.7m,部分文章的圖片太大了,沒(méi)有下載,分析大約100多個(gè)網(wǎng)頁(yè)有下載。代碼采集過(guò)程:復制代碼,右鍵生成excel并導入:導入excel表格,右鍵,打開(kāi)方式選擇copyquery最后將網(wǎng)頁(yè)存儲本地,下次直接用mysql數據庫讀取數據列名及數據格式的解析更新:生成的excel表格名為preg_match,如果要加入屬性到該列,則需要添加groupby('{}')即可,如groupby'all'最后運行代碼,點(diǎn)擊提交,然后在test.excel文件中就可以看到新建的表格。
謝邀,雖然我不是建站,但做網(wǎng)站還是可以的,簡(jiǎn)單的方法是把excel做成excel表格,然后解析成網(wǎng)頁(yè),然后把body文件做成服務(wù)器下載即可。至于數據安全問(wèn)題,建議用cookie記錄瀏覽器信息,用session保存相應記錄,例如百度首頁(yè)就可以做到。
關(guān)于這個(gè)問(wèn)題,建議把數據分割成多列儲存,使用百度的基于時(shí)間列的xml一鍵導入。
好可怕
通過(guò)python的sqlalchemy庫操作數據庫里面的數據庫的。數據庫比如用mysql數據庫?,F在服務(wù)器也很多,可以選擇用json數據庫sqlitejavaactivedirectory數據庫。反正是分割成多列儲存。再用多個(gè)用戶(hù)賬號進(jìn)行關(guān)聯(lián)。就可以導入服務(wù)器上面的數據。具體寫(xiě)個(gè)python的sqlalchemy庫不是很難。


