抓取網(wǎng)頁(yè)生成電子書(shū)(PostedJanuary14,安裝Bash官網(wǎng)文檔提供的安裝腳本看似簡(jiǎn)單)
優(yōu)采云 發(fā)布時(shí)間: 2022-04-17 15:00抓取網(wǎng)頁(yè)生成電子書(shū)(PostedJanuary14,安裝Bash官網(wǎng)文檔提供的安裝腳本看似簡(jiǎn)單)
Scrapy 抓取熱門(mén)短書(shū)生成電子書(shū)發(fā)送到 Kindle 發(fā)表于 2016 年 1 月 14 日
簡(jiǎn)書(shū)是個(gè)很好的學(xué)習者網(wǎng)站,我大多只關(guān)注首頁(yè)的人文章,但是最近因為忙,錯過(guò)了很多首頁(yè)的文章,所以我有個(gè)想法,把每日熱門(mén)Top生成mobi并推送到kindle。這樣一來(lái),在地鐵上就能很快搞定。
環(huán)境準備:
關(guān)于口徑安裝
重擊
sudo -v && wget -nv -O- https://raw.githubusercontent.com/kovidgoyal/calibre/master/setup/linux-installer.py | sudo python -c "import sys; main=lambda:sys.stderr.write('Download failed\n'); exec(sys.stdin.read()); main()"
官網(wǎng)文檔提供的安裝腳本看似簡(jiǎn)單,執行后即可安裝使用,但調用ebook-convert時(shí)gitbook會(huì )報錯。這里報的錯誤應該是QT錯誤(至少我遇到過(guò),具體錯誤信息忘記截圖了)如果遇到這個(gè)錯誤,直接安裝QT pyQT即可。calibre安裝頁(yè)面有依賴(lài)表
安裝 Gitbook
需要安裝 nodejs 和 npm 然后執行 npm install -g gitbook-cli
安裝建樹(shù)熱
需要強調的是,這部分需要解決很多依賴(lài),
scrapy依賴(lài)的python包有很多,這些依賴(lài)的python大部分都需要一些系統庫。如有需要,需要安裝apt-get和yum,如python-devel libffi-devel libxml-devel等...
peewee(數據庫ORM)需要mysql-devel,上面的例子都知道,這個(gè)是我部署后寫(xiě)的,部署過(guò)程就不詳細記錄了,現在只能憑記憶寫(xiě)這一章了。
重擊
$ git clone https://github.com/jackeyGao/jianshuHot
$ cd jianshuHot
$ pip install -r requirements.txt
初始化器
重擊
$ sh init.sh
郵件配置
這是用于發(fā)送電子郵件的 sendEmail 和下載地址。解壓后將解壓后的sendEmail重命名為/usr/local/bin/sendEmail。理論上可以安裝成功。這是免編譯的,只需要在機器上安裝 perl。
然后修改start.sh郵箱配置,寫(xiě)成自己的163郵箱,也可以用其他品牌郵箱,如果用其他品牌別忘了改,改到對應的smtp服務(wù)器就好了。
注意:無(wú)論您使用哪個(gè)電子郵件地址,您都必須將此電子郵件帳戶(hù)添加到亞馬遜的批準發(fā)件人電子郵件列表中,以確保您發(fā)送的文件可以到達亞馬遜云
重擊
$ vim start.sh
....
YOURKINDLE_MAIL_ADDRESS="[email?protected]"
YOUR_SEND_MAIL_USERNAME="[email?protected]"
YOUR_SEND_MAIL_SECRET = 'xxxxxxxxxxxx'
MOBI_BOOK_PATH='./output/book.mobi'
...
開(kāi)始爬行
重擊
$ sh start.sh
執行后會(huì )自動(dòng)抓取頁(yè)面生成markdown,下載每個(gè)文章的圖片,然后gitbook會(huì )通過(guò)markdown生成這個(gè)文檔列表的book.mobi(output/book.mobi),并在start.sh 的末尾有一個(gè)備份操作會(huì )將這個(gè) mobi 備份到 output/books。然后發(fā)送到指定kindle地址郵箱。