亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

抓取網(wǎng)頁(yè)生成電子書(shū)

抓取網(wǎng)頁(yè)生成電子書(shū)

抓取網(wǎng)頁(yè)生成電子書(shū)(如何將網(wǎng)頁(yè)文章批量抓取、生成電子書(shū)、直接推送到Kindle)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 538 次瀏覽 ? 2021-09-16 16:03 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(如何將網(wǎng)頁(yè)文章批量抓取、生成電子書(shū)、直接推送到Kindle)
  我一直在研究如何將相關(guān)網(wǎng)頁(yè)或文章放入Kindle進(jìn)行認真閱讀,但很長(cháng)一段時(shí)間以來(lái)我沒(méi)有取得任何實(shí)際進(jìn)展。雖然通過(guò)手工排版制作電子書(shū)的方法簡(jiǎn)單易行,但對于簡(jiǎn)短且頻繁更新的網(wǎng)頁(yè)來(lái)說(shuō),這種方法效率低下文章. 如果有一個(gè)工具可以批量抓取文章的網(wǎng)頁(yè),生成電子書(shū)并將其直接推送到Kindle上,那就太好了。涂鴉就是這樣一個(gè)工具
  Doocer是@lepture開(kāi)發(fā)的在線(xiàn)服務(wù)。它允許用戶(hù)提交web地址、RSS提要地址和pocket,以便以后在帳戶(hù)中閱讀文章,然后逐個(gè)或批量制作ePub和Mobi電子書(shū)。您可以直接在doocer中閱讀所有文章,也可以將它們推到kindle或apple books上
  
  閱讀體驗真的很好
  doocer制作的電子書(shū)排版精良,值得稱(chēng)贊。應該有多少內容就有多少內容,不應該有多少內容就有多少內容。這本書(shū)的封面不僅有圖片和文字,還有文章目錄、網(wǎng)站來(lái)源、文章原作者等信息。doocer生成的Mobi電子書(shū)支持kf8標準,因此支持Kindle原生替換自定義字體功能
  由于網(wǎng)站文章通常有標準和通用的排版規范,doocer生成的電子書(shū)文章的大小、標題、列表和圖例與原創(chuàng )網(wǎng)頁(yè)文章. 原創(chuàng )文章中的所有超鏈接也將被保留,而評論、廣告和其他內容將被丟棄。整本書(shū)的閱讀體驗非常友好。(當然,如果原創(chuàng )網(wǎng)頁(yè)文章的布局混亂,生成的電子書(shū)可能無(wú)法識別。)
  
  將網(wǎng)頁(yè)文章制作成電子書(shū)
  在doocer完成注冊和登錄后,我們可以開(kāi)始將網(wǎng)頁(yè)文章制作成電子書(shū)。首先,單擊“新書(shū)”按鈕創(chuàng )建電子書(shū)并輸入電子書(shū)名稱(chēng)。接下來(lái),選擇右上角的“添加”以添加文章web地址或RSS源地址
  
  以少數民族網(wǎng)頁(yè)的文章為例。我們選擇“feed”,在輸入框中粘貼RSS地址,然后點(diǎn)擊“parse”,就會(huì )顯示少數民族文章最近的列表供我們添加。我們可以根據需要選擇,也可以單擊“全選”全選文章. 最后,下拉到頁(yè)面底部并選擇“保存”,然后這些文章將被添加到書(shū)中
  
  實(shí)際上,doocer網(wǎng)頁(yè)與RSS工具非常相似。實(shí)現了從網(wǎng)站批量抓取文章并集中顯示的功能
  
  要將這些文章轉換成電子書(shū)并將它們推到Kindle上,我們需要做一些簡(jiǎn)單的操作
  首先,根據doocer個(gè)人設置頁(yè)面中的提示,打開(kāi)該頁(yè)面,將doocer電子書(shū)的發(fā)送地址添加到個(gè)人文檔的接收地址中。完成后,我們將在輸入框中填寫(xiě)Kindle的個(gè)人文檔接收地址,然后單擊保存
  
  最后,我們在doocer中打開(kāi)“少數派”一書(shū),在頁(yè)面上找到“發(fā)布”,然后選擇send to kindle。大約10-30分鐘后,doocer將完成書(shū)籍制作并將書(shū)籍推到Kindle上
  
  還有一些問(wèn)題需要注意
  Doocer目前正在進(jìn)行beta測試,仍然存在一些bug,尤其是對于中文網(wǎng)站來(lái)說(shuō)。幸運的是,doocer的官方網(wǎng)站為開(kāi)發(fā)者提供了一個(gè)對話(huà)渠道。你可以直接聯(lián)系他來(lái)幫助解決這個(gè)問(wèn)題
  實(shí)現所有操作的自動(dòng)化過(guò)程是我認為doocer最需要努力的。Doocer可以像RSS工具一樣在網(wǎng)頁(yè)中捕獲更新的文章,但它仍然需要手動(dòng)捕獲新的文章,并生成電子書(shū)和推送。如果整個(gè)過(guò)程可以自動(dòng)化,RSS-Mobi-Kindle可以一次性完成,我相信它的實(shí)用性會(huì )得到提高
  目前,所有涂鴉器功能都是免費的 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(如何將網(wǎng)頁(yè)文章批量抓取、生成電子書(shū)、直接推送到Kindle)
  我一直在研究如何將相關(guān)網(wǎng)頁(yè)或文章放入Kindle進(jìn)行認真閱讀,但很長(cháng)一段時(shí)間以來(lái)我沒(méi)有取得任何實(shí)際進(jìn)展。雖然通過(guò)手工排版制作電子書(shū)的方法簡(jiǎn)單易行,但對于簡(jiǎn)短且頻繁更新的網(wǎng)頁(yè)來(lái)說(shuō),這種方法效率低下文章. 如果有一個(gè)工具可以批量抓取文章的網(wǎng)頁(yè),生成電子書(shū)并將其直接推送到Kindle上,那就太好了。涂鴉就是這樣一個(gè)工具
  Doocer是@lepture開(kāi)發(fā)的在線(xiàn)服務(wù)。它允許用戶(hù)提交web地址、RSS提要地址和pocket,以便以后在帳戶(hù)中閱讀文章,然后逐個(gè)或批量制作ePub和Mobi電子書(shū)。您可以直接在doocer中閱讀所有文章,也可以將它們推到kindle或apple books上
  
  閱讀體驗真的很好
  doocer制作的電子書(shū)排版精良,值得稱(chēng)贊。應該有多少內容就有多少內容,不應該有多少內容就有多少內容。這本書(shū)的封面不僅有圖片和文字,還有文章目錄、網(wǎng)站來(lái)源、文章原作者等信息。doocer生成的Mobi電子書(shū)支持kf8標準,因此支持Kindle原生替換自定義字體功能
  由于網(wǎng)站文章通常有標準和通用的排版規范,doocer生成的電子書(shū)文章的大小、標題、列表和圖例與原創(chuàng )網(wǎng)頁(yè)文章. 原創(chuàng )文章中的所有超鏈接也將被保留,而評論、廣告和其他內容將被丟棄。整本書(shū)的閱讀體驗非常友好。(當然,如果原創(chuàng )網(wǎng)頁(yè)文章的布局混亂,生成的電子書(shū)可能無(wú)法識別。)
  
  將網(wǎng)頁(yè)文章制作成電子書(shū)
  在doocer完成注冊和登錄后,我們可以開(kāi)始將網(wǎng)頁(yè)文章制作成電子書(shū)。首先,單擊“新書(shū)”按鈕創(chuàng )建電子書(shū)并輸入電子書(shū)名稱(chēng)。接下來(lái),選擇右上角的“添加”以添加文章web地址或RSS源地址
  
  以少數民族網(wǎng)頁(yè)的文章為例。我們選擇“feed”,在輸入框中粘貼RSS地址,然后點(diǎn)擊“parse”,就會(huì )顯示少數民族文章最近的列表供我們添加。我們可以根據需要選擇,也可以單擊“全選”全選文章. 最后,下拉到頁(yè)面底部并選擇“保存”,然后這些文章將被添加到書(shū)中
  
  實(shí)際上,doocer網(wǎng)頁(yè)與RSS工具非常相似。實(shí)現了從網(wǎng)站批量抓取文章并集中顯示的功能
  
  要將這些文章轉換成電子書(shū)并將它們推到Kindle上,我們需要做一些簡(jiǎn)單的操作
  首先,根據doocer個(gè)人設置頁(yè)面中的提示,打開(kāi)該頁(yè)面,將doocer電子書(shū)的發(fā)送地址添加到個(gè)人文檔的接收地址中。完成后,我們將在輸入框中填寫(xiě)Kindle的個(gè)人文檔接收地址,然后單擊保存
  
  最后,我們在doocer中打開(kāi)“少數派”一書(shū),在頁(yè)面上找到“發(fā)布”,然后選擇send to kindle。大約10-30分鐘后,doocer將完成書(shū)籍制作并將書(shū)籍推到Kindle上
  
  還有一些問(wèn)題需要注意
  Doocer目前正在進(jìn)行beta測試,仍然存在一些bug,尤其是對于中文網(wǎng)站來(lái)說(shuō)。幸運的是,doocer的官方網(wǎng)站為開(kāi)發(fā)者提供了一個(gè)對話(huà)渠道。你可以直接聯(lián)系他來(lái)幫助解決這個(gè)問(wèn)題
  實(shí)現所有操作的自動(dòng)化過(guò)程是我認為doocer最需要努力的。Doocer可以像RSS工具一樣在網(wǎng)頁(yè)中捕獲更新的文章,但它仍然需要手動(dòng)捕獲新的文章,并生成電子書(shū)和推送。如果整個(gè)過(guò)程可以自動(dòng)化,RSS-Mobi-Kindle可以一次性完成,我相信它的實(shí)用性會(huì )得到提高
  目前,所有涂鴉器功能都是免費的

抓取網(wǎng)頁(yè)生成電子書(shū)( 《修真小主播》使用Scrapy抓取電子書(shū)爬蟲(chóng)思路怎么抓取數據 )

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 128 次瀏覽 ? 2021-09-16 15:21 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(
《修真小主播》使用Scrapy抓取電子書(shū)爬蟲(chóng)思路怎么抓取數據
)
  
  用scrapy抓取電子書(shū)
  爬行動(dòng)物思維
  首先,我們需要看看從哪里獲得數據。打開(kāi)秀珍小錨頁(yè)面,如下圖:
  
  有一個(gè)目錄選項卡。單擊此選項卡以查看目錄。使用瀏覽器的元素查看工具,我們可以找到每個(gè)章節的目錄和相關(guān)信息。根據這些信息,我們可以爬到特定頁(yè)面:
  
  獲取章節地址
  現在我們打開(kāi)xzxzb.py文件,它是我們剛剛創(chuàng )建的爬蟲(chóng)程序:
  # -*- coding: utf-8 -*-import scrapyclass XzxzbSpider(scrapy.Spider): name = 'xzxzb' allowed_domains = ['qidian.com'] start_urls = ['http://qidian.com/'] def parse(self, response): pass
  start_uuURL是目錄地址。爬蟲(chóng)程序將自動(dòng)爬網(wǎng)此地址,并在下面的解析中處理結果?,F在,讓我們編寫(xiě)代碼來(lái)處理目錄數據。首先,爬上小說(shuō)的主頁(yè)以獲取目錄列表:
  def parse(self, response): pages = response.xpath('//div[@id="j-catalogWrap"]//ul[@]/li') for page in pages: url = page.xpath('./child::a/attribute::href').extract() print url pass
  在網(wǎng)頁(yè)中獲取DOM數據有兩種方法,一種是使用CSS選擇器,另一種是使用XML XPath查詢(xún)
  這里我們使用XPath。請自行學(xué)習相關(guān)知識。請看上面的代碼。首先,我們通過(guò)ID得到目錄框,得到類(lèi)CF,得到目錄列表:
  pages = response.xpath('//div[@id="j-catalogWrap"]//ul[@]/li')
  接下來(lái),遍歷子節點(diǎn),在Li標記中查詢(xún)子節點(diǎn)的href屬性,最后將其打印出來(lái):
  for page in pages:<br /> url = page.xpath(&#39;./child::a/attribute::href&#39;).extract()<br /> print url
  這樣,可以說(shuō)爬行章節路徑的小爬蟲(chóng)已經(jīng)被編寫(xiě)好了。使用以下命令運行xzzb crawler以查看結果:
  scrapy crawl xzxzb
  此時(shí),我們的程序中可能會(huì )出現以下錯誤:
  …<br />ImportError: No module named win32api<br />…
  運行以下語(yǔ)句:
  pip install pypiwin32
  屏幕輸出如下所示:
  > ...> [u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/wrrduN6auIlOBDFlr9quQA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Jh-J5usgyW62uJcMpdsVgA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/5YXHdBvg1ImaGfXRMrUjdw2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/fw5EBeKat-76ItTi_ILQ7A2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/KsFh5VutI6PwrjbX3WA1AA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/-mpKJ01gPp1p4rPq4Fd4KQ2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/MlZSeYOQxSPM5j8_3RRvhw2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/5TXZqGvLi-3M5j8_3RRvhw2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/sysD-JPiugv4p8iEw--PPw2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/xGckZ01j64-aGfXRMrUjdw2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/72lHOJcgmedOBDFlr9quQA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/cZkHZEYnPl22uJcMpdsVgA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/vkNh45O3JsRMs5iq0oQwLQ2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/ge4m8RjJyPH6ItTi_ILQ7A2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Y33PuxrKT4dp4rPq4Fd4KQ2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/MDQznkrkiyXwrjbX3WA1AA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/A2r-YTzWCYj6ItTi_ILQ7A2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Ng9CuONRKei2uJcMpdsVgA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Q_AxWAge14pMs5iq0oQwLQ2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/ZJshvAu8TVVp4rPq4Fd4KQ2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/hYD2P4c5UB2aGfXRMrUjdw2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/muxiWf_jpqTgn4SMoDUcDQ2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/OQQ5jbADJjVp4rPq4Fd4KQ2&#39;]> ...
  對章節路徑進(jìn)行爬網(wǎng)的小爬蟲(chóng)已經(jīng)編寫(xiě)完成,但我們的目的不僅僅是為了實(shí)現這一點(diǎn),我們接下來(lái)將使用這些地址來(lái)抓取內容:
  章頁(yè)分析
  接下來(lái),讓我們分析章節頁(yè)面。從章節頁(yè)面,我們想要得到標題和內容
  如果章節信息爬行使用parser方法,我們可以編寫(xiě)一個(gè)方法來(lái)爬行每個(gè)章節內容,例如parser_uuChapter,首先查看章節頁(yè)面的詳細信息:
  
  您可以看到,本章的全部?jì)热荻荚赿iv標記中,類(lèi)名為main text wrap,標題是類(lèi)名為J_u,是chaptername的H3標記。具體內容是類(lèi)名為readcontent的readcontent J_uDiv標記
  請嘗試將此打印出來(lái):
  # -*- coding: utf-8 -*-import scrapyclass XzxzbSpider(scrapy.Spider): name = &#39;xzxzb&#39; allowed_domains = [&#39;qidian.com&#39;] start_urls = [&#39;https://book.qidian.com/info/1010780117/&#39;] def parse(self, response): pages = response.xpath(&#39;//div[@id="j-catalogWrap"]//ul[@]/li&#39;) for page in pages: url = page.xpath(&#39;./child::a/attribute::href&#39;).extract_first() # yield scrapy.Request(&#39;https:&#39; + url, callback=self.parse_chapter) yield response.follow(url, callback=self.parse_chapter) pass def parse_chapter(self, response): title = response.xpath(&#39;//div[@]//h3[@]/text()&#39;).extract_first().strip() content = response.xpath(&#39;//div[@]//div[@]&#39;).extract_first().strip() print title # print content pass
  在上一步中,我們獲得了一個(gè)章節地址,這是輸出內容的相對路徑,因此我們使用yield response.follow(URL,callback=self.Parse_chapter)。第二個(gè)參數是處理章節頁(yè)面的回調函數。爬網(wǎng)到章節頁(yè)面后,我們解析頁(yè)面并將標題保存到文件中
  next_page = response.urljoin(url)<br />yield scrapy.Request(next_page, callback=self.parse_chapter)
  與response.follow不同,絕對路徑需要通過(guò)相對路徑構建。Response.follow可以直接使用相對路徑,因此不需要調用urljoin方法
  請注意,response.follow直接返回一個(gè)請求實(shí)例,該實(shí)例可以通過(guò)yield直接返回
  獲得數據后,將其存儲。因為我們想要一個(gè)HTML頁(yè)面,所以我們可以根據標題來(lái)存儲它。代碼如下:
   def parse_chapter(self, response): title = response.xpath(&#39;//div[@]//h3[@]/text()&#39;).extract_first().strip() content = response.xpath(&#39;//div[@]//div[@]&#39;).extract_first().strip() # print title # print content filename = &#39;./down/%s.html&#39; % (title) with open(filename, &#39;wb&#39;) as f: f.write(content.encode(&#39;utf-8&#39;)) pass
  到目前為止,我們已成功捕獲數據,但無(wú)法直接使用。需要對其進(jìn)行分類(lèi)和優(yōu)化
  數據排序
  首先,我們爬下來(lái)的章節和頁(yè)面的排序不是很好。如果我們手工安排,需要花費太多的時(shí)間和精力;另外,章節內容收錄很多附加內容,閱讀體驗不好。我們需要優(yōu)化內容的排版和可讀性
  讓我們先把章節排好。因為目錄中的章節列表是按順序排列的,所以我們只需要在下載頁(yè)面的名稱(chēng)中添加一個(gè)序列號
  但是保存網(wǎng)頁(yè)的代碼是一個(gè)回調函數。只有在處理目錄時(shí)才能確定順序?;卣{函數如何知道順序?因此,我們需要告訴回調函數處理部分的序列號。我們需要將參數傳遞給回調函數。修改后的代碼如下:
  def parse(self, response): pages = response.xpath(&#39;//div[@id="j-catalogWrap"]//ul[@]/li&#39;) for page in pages: url = page.xpath(&#39;./child::a/attribute::href&#39;).extract_first() idx = page.xpath(&#39;./attribute::data-rid&#39;).extract_first() # yield scrapy.Request(&#39;https:&#39; + url, callback=self.parse_chapter) req = response.follow(url, callback=self.parse_chapter) req.meta[&#39;idx&#39;] = idx yield req pass def parse_chapter(self, response): idx = response.meta[&#39;idx&#39;] title = response.xpath(&#39;//div[@]//h3[@]/text()&#39;).extract_first().strip() content = response.xpath(&#39;//div[@]//div[@]&#39;).extract_first().strip() # print title # print content filename = &#39;./down/%s_%s.html&#39; % (idx, title) cnt = &#39;
  %s%s“%”(標題,內容),打開(kāi)的(文件名,'wb')作為f:f.write(cnt.encode('utf-8'))傳遞
  用Sigil制作電子書(shū)
  加載HTML文件
  要制作ePub電子書(shū),我們首先通過(guò)Sigil將捕獲的文件加載到程序中,然后在添加文件對話(huà)框中選擇所有文件:
  
  制作目錄
  當文件中存在HTML的H標記時(shí),單擊generate directory按鈕自動(dòng)生成目錄。我們在之前的數據捕獲中自動(dòng)添加了H1標記:
  
  掩護
  
  封面基本上是HTML,可以從頁(yè)面編輯或爬網(wǎng)。讓我們讓您自己來(lái)實(shí)現它
  
  *聲明:本文在互聯(lián)網(wǎng)上編輯,版權歸原作者所有。如果源信息不正確或侵犯權益,請聯(lián)系我們進(jìn)行刪除或授權
  
  我覺(jué)得很好。點(diǎn)擊“觀(guān)看”并轉發(fā)
   查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(
《修真小主播》使用Scrapy抓取電子書(shū)爬蟲(chóng)思路怎么抓取數據
)
  
  用scrapy抓取電子書(shū)
  爬行動(dòng)物思維
  首先,我們需要看看從哪里獲得數據。打開(kāi)秀珍小錨頁(yè)面,如下圖:
  
  有一個(gè)目錄選項卡。單擊此選項卡以查看目錄。使用瀏覽器的元素查看工具,我們可以找到每個(gè)章節的目錄和相關(guān)信息。根據這些信息,我們可以爬到特定頁(yè)面:
  
  獲取章節地址
  現在我們打開(kāi)xzxzb.py文件,它是我們剛剛創(chuàng )建的爬蟲(chóng)程序:
  # -*- coding: utf-8 -*-import scrapyclass XzxzbSpider(scrapy.Spider): name = &#39;xzxzb&#39; allowed_domains = [&#39;qidian.com&#39;] start_urls = [&#39;http://qidian.com/&#39;] def parse(self, response): pass
  start_uuURL是目錄地址。爬蟲(chóng)程序將自動(dòng)爬網(wǎng)此地址,并在下面的解析中處理結果?,F在,讓我們編寫(xiě)代碼來(lái)處理目錄數據。首先,爬上小說(shuō)的主頁(yè)以獲取目錄列表:
  def parse(self, response): pages = response.xpath(&#39;//div[@id="j-catalogWrap"]//ul[@]/li&#39;) for page in pages: url = page.xpath(&#39;./child::a/attribute::href&#39;).extract() print url pass
  在網(wǎng)頁(yè)中獲取DOM數據有兩種方法,一種是使用CSS選擇器,另一種是使用XML XPath查詢(xún)
  這里我們使用XPath。請自行學(xué)習相關(guān)知識。請看上面的代碼。首先,我們通過(guò)ID得到目錄框,得到類(lèi)CF,得到目錄列表:
  pages = response.xpath(&#39;//div[@id="j-catalogWrap"]//ul[@]/li&#39;)
  接下來(lái),遍歷子節點(diǎn),在Li標記中查詢(xún)子節點(diǎn)的href屬性,最后將其打印出來(lái):
  for page in pages:<br /> url = page.xpath(&#39;./child::a/attribute::href&#39;).extract()<br /> print url
  這樣,可以說(shuō)爬行章節路徑的小爬蟲(chóng)已經(jīng)被編寫(xiě)好了。使用以下命令運行xzzb crawler以查看結果:
  scrapy crawl xzxzb
  此時(shí),我們的程序中可能會(huì )出現以下錯誤:
  …<br />ImportError: No module named win32api<br />…
  運行以下語(yǔ)句:
  pip install pypiwin32
  屏幕輸出如下所示:
  > ...> [u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/wrrduN6auIlOBDFlr9quQA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Jh-J5usgyW62uJcMpdsVgA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/5YXHdBvg1ImaGfXRMrUjdw2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/fw5EBeKat-76ItTi_ILQ7A2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/KsFh5VutI6PwrjbX3WA1AA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/-mpKJ01gPp1p4rPq4Fd4KQ2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/MlZSeYOQxSPM5j8_3RRvhw2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/5TXZqGvLi-3M5j8_3RRvhw2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/sysD-JPiugv4p8iEw--PPw2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/xGckZ01j64-aGfXRMrUjdw2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/72lHOJcgmedOBDFlr9quQA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/cZkHZEYnPl22uJcMpdsVgA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/vkNh45O3JsRMs5iq0oQwLQ2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/ge4m8RjJyPH6ItTi_ILQ7A2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Y33PuxrKT4dp4rPq4Fd4KQ2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/MDQznkrkiyXwrjbX3WA1AA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/A2r-YTzWCYj6ItTi_ILQ7A2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Ng9CuONRKei2uJcMpdsVgA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Q_AxWAge14pMs5iq0oQwLQ2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/ZJshvAu8TVVp4rPq4Fd4KQ2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/hYD2P4c5UB2aGfXRMrUjdw2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/muxiWf_jpqTgn4SMoDUcDQ2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/OQQ5jbADJjVp4rPq4Fd4KQ2&#39;]> ...
  對章節路徑進(jìn)行爬網(wǎng)的小爬蟲(chóng)已經(jīng)編寫(xiě)完成,但我們的目的不僅僅是為了實(shí)現這一點(diǎn),我們接下來(lái)將使用這些地址來(lái)抓取內容:
  章頁(yè)分析
  接下來(lái),讓我們分析章節頁(yè)面。從章節頁(yè)面,我們想要得到標題和內容
  如果章節信息爬行使用parser方法,我們可以編寫(xiě)一個(gè)方法來(lái)爬行每個(gè)章節內容,例如parser_uuChapter,首先查看章節頁(yè)面的詳細信息:
  
  您可以看到,本章的全部?jì)热荻荚赿iv標記中,類(lèi)名為main text wrap,標題是類(lèi)名為J_u,是chaptername的H3標記。具體內容是類(lèi)名為readcontent的readcontent J_uDiv標記
  請嘗試將此打印出來(lái):
  # -*- coding: utf-8 -*-import scrapyclass XzxzbSpider(scrapy.Spider): name = &#39;xzxzb&#39; allowed_domains = [&#39;qidian.com&#39;] start_urls = [&#39;https://book.qidian.com/info/1010780117/&#39;] def parse(self, response): pages = response.xpath(&#39;//div[@id="j-catalogWrap"]//ul[@]/li&#39;) for page in pages: url = page.xpath(&#39;./child::a/attribute::href&#39;).extract_first() # yield scrapy.Request(&#39;https:&#39; + url, callback=self.parse_chapter) yield response.follow(url, callback=self.parse_chapter) pass def parse_chapter(self, response): title = response.xpath(&#39;//div[@]//h3[@]/text()&#39;).extract_first().strip() content = response.xpath(&#39;//div[@]//div[@]&#39;).extract_first().strip() print title # print content pass
  在上一步中,我們獲得了一個(gè)章節地址,這是輸出內容的相對路徑,因此我們使用yield response.follow(URL,callback=self.Parse_chapter)。第二個(gè)參數是處理章節頁(yè)面的回調函數。爬網(wǎng)到章節頁(yè)面后,我們解析頁(yè)面并將標題保存到文件中
  next_page = response.urljoin(url)<br />yield scrapy.Request(next_page, callback=self.parse_chapter)
  與response.follow不同,絕對路徑需要通過(guò)相對路徑構建。Response.follow可以直接使用相對路徑,因此不需要調用urljoin方法
  請注意,response.follow直接返回一個(gè)請求實(shí)例,該實(shí)例可以通過(guò)yield直接返回
  獲得數據后,將其存儲。因為我們想要一個(gè)HTML頁(yè)面,所以我們可以根據標題來(lái)存儲它。代碼如下:
   def parse_chapter(self, response): title = response.xpath(&#39;//div[@]//h3[@]/text()&#39;).extract_first().strip() content = response.xpath(&#39;//div[@]//div[@]&#39;).extract_first().strip() # print title # print content filename = &#39;./down/%s.html&#39; % (title) with open(filename, &#39;wb&#39;) as f: f.write(content.encode(&#39;utf-8&#39;)) pass
  到目前為止,我們已成功捕獲數據,但無(wú)法直接使用。需要對其進(jìn)行分類(lèi)和優(yōu)化
  數據排序
  首先,我們爬下來(lái)的章節和頁(yè)面的排序不是很好。如果我們手工安排,需要花費太多的時(shí)間和精力;另外,章節內容收錄很多附加內容,閱讀體驗不好。我們需要優(yōu)化內容的排版和可讀性
  讓我們先把章節排好。因為目錄中的章節列表是按順序排列的,所以我們只需要在下載頁(yè)面的名稱(chēng)中添加一個(gè)序列號
  但是保存網(wǎng)頁(yè)的代碼是一個(gè)回調函數。只有在處理目錄時(shí)才能確定順序?;卣{函數如何知道順序?因此,我們需要告訴回調函數處理部分的序列號。我們需要將參數傳遞給回調函數。修改后的代碼如下:
  def parse(self, response): pages = response.xpath(&#39;//div[@id="j-catalogWrap"]//ul[@]/li&#39;) for page in pages: url = page.xpath(&#39;./child::a/attribute::href&#39;).extract_first() idx = page.xpath(&#39;./attribute::data-rid&#39;).extract_first() # yield scrapy.Request(&#39;https:&#39; + url, callback=self.parse_chapter) req = response.follow(url, callback=self.parse_chapter) req.meta[&#39;idx&#39;] = idx yield req pass def parse_chapter(self, response): idx = response.meta[&#39;idx&#39;] title = response.xpath(&#39;//div[@]//h3[@]/text()&#39;).extract_first().strip() content = response.xpath(&#39;//div[@]//div[@]&#39;).extract_first().strip() # print title # print content filename = &#39;./down/%s_%s.html&#39; % (idx, title) cnt = &#39;
  %s%s“%”(標題,內容),打開(kāi)的(文件名,'wb')作為f:f.write(cnt.encode('utf-8'))傳遞
  用Sigil制作電子書(shū)
  加載HTML文件
  要制作ePub電子書(shū),我們首先通過(guò)Sigil將捕獲的文件加載到程序中,然后在添加文件對話(huà)框中選擇所有文件:
  
  制作目錄
  當文件中存在HTML的H標記時(shí),單擊generate directory按鈕自動(dòng)生成目錄。我們在之前的數據捕獲中自動(dòng)添加了H1標記:
  
  掩護
  
  封面基本上是HTML,可以從頁(yè)面編輯或爬網(wǎng)。讓我們讓您自己來(lái)實(shí)現它
  
  *聲明:本文在互聯(lián)網(wǎng)上編輯,版權歸原作者所有。如果源信息不正確或侵犯權益,請聯(lián)系我們進(jìn)行刪除或授權
  
  我覺(jué)得很好。點(diǎn)擊“觀(guān)看”并轉發(fā)
  

抓取網(wǎng)頁(yè)生成電子書(shū)(《利用Python進(jìn)行數據分析·第2版》|markdown文件下載)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 171 次瀏覽 ? 2021-09-16 15:17 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(《利用Python進(jìn)行數據分析·第2版》|markdown文件下載)
  降價(jià)至PDF→ 用降價(jià)制作電子書(shū)
  
  前言
  你可以解決你遇到的任何問(wèn)題,學(xué)到你不能學(xué)到的東西
  它是這樣的,因為我正在閱讀《使用python進(jìn)行數據分析》一書(shū),這是原著(zhù)的第二版。這本書(shū)的英文版已經(jīng)有很長(cháng)時(shí)間了,但我在網(wǎng)上找不到英文版,但有人在這本書(shū)上發(fā)表了中文譯本。因為它不是一本電子書(shū),我覺(jué)得閱讀起來(lái)很不方便,攜帶起來(lái)也很困難。簡(jiǎn)單的書(shū)籍有HTML文檔,GitHub有標記文檔翻譯,所以我想知道是否可以將HTML和標記文件轉換成PDF,然后將它們轉換成電子書(shū)。當你有需求時(shí),你就開(kāi)始想方設法?;ヂ?lián)網(wǎng)上有很多方法。我曾經(jīng)使用atom的markdown插件導出它們,但是效果不是很好。有些圖片無(wú)法導出,我無(wú)法生成docx文檔?,F在我將介紹兩種制作電子書(shū)的方法
  工具準備
  
  工具1:pandoc工具2:pypandoc工具3:Adobe Acrobat DC
  下載并安裝:Adobe Acrobat DC PDF編輯器
  建議:如果您不熟悉Python,請使用第一種方法。相對而言,第一種方法簡(jiǎn)單且文檔豐富。第二種方法需要安裝python環(huán)境,這非常麻煩,除非您使用python進(jìn)行開(kāi)發(fā)
  使用方法
  對于特定用途,建議您閱讀文檔操作。畢竟,每個(gè)人的需求都是不同的。pandoc的轉換功能非常強大和實(shí)用
  此外,需要安裝latex將標記文件轉換為PDF文件,但在使用過(guò)程中會(huì )遇到很多麻煩,很難解決
  所以我的想法是將降價(jià)轉換成docx文件,然后合并,最后將合并后的電子書(shū)轉換成PDF文件
  這也可以節省很多不必要的麻煩
  當然,有很多功能。我只是介紹了一些,或者根據我的需要選擇。您也可以選擇其他方法
  “使用Python進(jìn)行數據分析·第二版”?降價(jià)文件下載
  如下所示,我在本地下載了這本書(shū)的降價(jià)文件,共17個(gè)文件
  因為在轉換過(guò)程中文件名收錄中文時(shí)會(huì )出現錯誤,所以我會(huì )將所有文件名修改為數字
  提供一個(gè)工具,單擊即可修改文件名。你可以下載并直接打開(kāi)它
  更多其他使用方法,讓我們自己測試一下
  Freerename下載提取代碼:bg86
  方法1
  開(kāi)始轉換。這里,使用簡(jiǎn)單書(shū)籍作者的代碼生成一個(gè)Windows可處理文件
  簡(jiǎn)單的書(shū)籍÷更優(yōu)雅地將降價(jià)文件轉換為PDF格式
  腳本封裝,支持批量轉換
  將轉換命令封裝到bat批處理腳本中。稍后轉換時(shí),只需雙擊bat腳本,例如,將其轉換為convertpdf.bat文件。內容如下:
  pandoc text.md -o text.docx && pause
  批處理:如果成批將數十個(gè)或數百個(gè)MD文件轉換為docx文件,是否手動(dòng)復制這些文件名和pandoc命令以逐個(gè)轉換?沒(méi)必要。bat腳本(convert.bat):
  @echo off
:: 遍歷當前文件夾下的所有后綴名為md的文件
for /f %%a in ('dir /b *.md') do (
:: 執行pandoc命令,把每個(gè)md文件都轉為docx文件,docx文件的文件名為:md文件名.md.docx
pandoc %%a -o %%a.docx
)
pause
  使用方法非常簡(jiǎn)單。使用文本編輯器創(chuàng )建一個(gè)TXT文檔,復制上面的代碼,保存它,最后退出以修改文件后綴。蝙蝠。將要轉換的標記文件放入文件夾,將convertpdf.bat復制到目錄中,雙擊打開(kāi)它,然后等待轉換完成
  此時(shí),降價(jià)文件將轉換為docx文檔
  方法2
  直接使用pandoc轉換
  pandoc text.md -o text.docx
  注意:要運行此代碼,您需要輸入此目錄
  有關(guān)更多用法,請參閱pandoc演示文檔
  方法3
  使用python進(jìn)行操作
  相對而言,使用pypandoc有很多優(yōu)點(diǎn)。例如,您可以使用該庫輕松開(kāi)發(fā)一個(gè)簡(jiǎn)單的應用程序,也可以使用該庫實(shí)現一些抓取網(wǎng)頁(yè)的功能,因為pandoc可以下載網(wǎng)頁(yè)并將其轉換為docx或其他格式文件,pypandoc提供了pandoc的接口參數,非常方便。當然,對于學(xué)習python的人來(lái)說(shuō),這是相對簡(jiǎn)單的
  import pypandoc
output = pypandoc.convert_file('somefile.md', 'docx', outputfile="somefile.docx")
  最簡(jiǎn)單的例子就是這個(gè)。首先輸入此文件夾或在Python中指定文件目錄,然后運行上述代碼。如果要批量轉換,可以定義相對路徑,編寫(xiě)腳本,將其打包成exe可執行文件,并實(shí)現從markdown到docx的遍歷轉換。此操作將不在此處寫(xiě)入。這是相對簡(jiǎn)單的。對于那些打包為可執行文件的文件,請參考我以前的文章
  使用Python開(kāi)發(fā)圖像下載程序的教程和源代碼共享
  對于學(xué)習python的學(xué)生,我仍然建議使用pypandoc,因為可以調用python程序
  合并docx&amp;轉換為PDF
  您可以轉換為PDF,然后合并PDF,但感覺(jué)它不像一個(gè)完整的PDF文件,而且不夠漂亮。因此考慮首先合并DOXX,然后轉換成PDF,這是更完美的
  合并docx
  我們使用Office2010合并了17個(gè)docx文件
  使用Python轉換為PDF數據分析第二版下載
  
  因為我看不到任何可以下載的免費電子書(shū),所以請在這里分享我制作的這本電子書(shū)
  這本書(shū)非常適合學(xué)習Python數據分析。你可以下載它
  您可以在練習環(huán)境中使用Anaconda|Jupiter筆記本
  潘多克的其他職能
  順便說(shuō)一下,讓我們談?wù)刾andoc的其他一些功能。有關(guān)詳細信息,請參見(jiàn)文檔學(xué)習測試
  例如,我前面提到的那本書(shū)
  《學(xué)刮痧》
  精通Python爬蟲(chóng)框架
  還有一些簡(jiǎn)單的書(shū)籍翻譯
  
  學(xué)習腳本÷短篇小說(shuō)
  不幸的是,作者沒(méi)有給出降價(jià)源文件,所以我們只能在線(xiàn)閱讀。為什么我們需要降價(jià)源文件?因為markdown良好的編輯格式在轉換過(guò)程中保持了層次和書(shū)簽板,這對我們制作電子書(shū)非常方便,并且節省了大量時(shí)間
  幸運的是,pandoc提供了將網(wǎng)頁(yè)轉換為docx的功能
  讓我們試試看
  一個(gè)頁(yè)面在這里被隨機轉換,但是在降價(jià)下的預覽非常糟糕,因為有很多其他冗余內容
  然后我首先將其轉換為docx文檔,然后刪除多余的內容,然后修改并保存它??磥?lái)效果還是很好的
  pandoc doc.md -o doc.docx
  我已經(jīng)測試了多個(gè)頁(yè)面的爬行和轉換,發(fā)現效果仍然很好。在這里,如果您使用Python的pypandoc,您可以生成一個(gè)EXE程序。非常方便。您可以自動(dòng)進(jìn)入WebGurl進(jìn)行抓取和轉換,這仍然是一個(gè)很好的體驗
  讓我們自己測試和思考更多的用法。我在這里不再重復了
  降價(jià)在線(xiàn)生成PDF|網(wǎng)站
  在這里,我們推薦一個(gè)免費的@網(wǎng)站欄,用于自動(dòng)轉換PDF。經(jīng)歷過(guò)之后,我感覺(jué)很好
  Mdtr2pdf降價(jià)在線(xiàn)生成PDF
  簡(jiǎn)介
  推薦免費文檔轉換
  自由變換器
  這種設計非常廣泛,有許多文件和內容可以轉換
  這里我不介紹細節。它真的很富有
  歡迎使用我的個(gè)人公共帳戶(hù):網(wǎng)吧
  目前,涉及的領(lǐng)域有:
  Python、數據庫、C++
  數據分析、網(wǎng)絡(luò )爬蟲(chóng)、GUI開(kāi)發(fā)
  我喜歡學(xué)習我感興趣的東西
  在這里,我將堅持分享許多有用的學(xué)習經(jīng)驗和學(xué)習資源
  你可以在這里找到一些你需要的學(xué)習經(jīng)驗和學(xué)習資源 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(《利用Python進(jìn)行數據分析·第2版》|markdown文件下載)
  降價(jià)至PDF→ 用降價(jià)制作電子書(shū)
  
  前言
  你可以解決你遇到的任何問(wèn)題,學(xué)到你不能學(xué)到的東西
  它是這樣的,因為我正在閱讀《使用python進(jìn)行數據分析》一書(shū),這是原著(zhù)的第二版。這本書(shū)的英文版已經(jīng)有很長(cháng)時(shí)間了,但我在網(wǎng)上找不到英文版,但有人在這本書(shū)上發(fā)表了中文譯本。因為它不是一本電子書(shū),我覺(jué)得閱讀起來(lái)很不方便,攜帶起來(lái)也很困難。簡(jiǎn)單的書(shū)籍有HTML文檔,GitHub有標記文檔翻譯,所以我想知道是否可以將HTML和標記文件轉換成PDF,然后將它們轉換成電子書(shū)。當你有需求時(shí),你就開(kāi)始想方設法?;ヂ?lián)網(wǎng)上有很多方法。我曾經(jīng)使用atom的markdown插件導出它們,但是效果不是很好。有些圖片無(wú)法導出,我無(wú)法生成docx文檔?,F在我將介紹兩種制作電子書(shū)的方法
  工具準備
  
  工具1:pandoc工具2:pypandoc工具3:Adobe Acrobat DC
  下載并安裝:Adobe Acrobat DC PDF編輯器
  建議:如果您不熟悉Python,請使用第一種方法。相對而言,第一種方法簡(jiǎn)單且文檔豐富。第二種方法需要安裝python環(huán)境,這非常麻煩,除非您使用python進(jìn)行開(kāi)發(fā)
  使用方法
  對于特定用途,建議您閱讀文檔操作。畢竟,每個(gè)人的需求都是不同的。pandoc的轉換功能非常強大和實(shí)用
  此外,需要安裝latex將標記文件轉換為PDF文件,但在使用過(guò)程中會(huì )遇到很多麻煩,很難解決
  所以我的想法是將降價(jià)轉換成docx文件,然后合并,最后將合并后的電子書(shū)轉換成PDF文件
  這也可以節省很多不必要的麻煩
  當然,有很多功能。我只是介紹了一些,或者根據我的需要選擇。您也可以選擇其他方法
  “使用Python進(jìn)行數據分析·第二版”?降價(jià)文件下載
  如下所示,我在本地下載了這本書(shū)的降價(jià)文件,共17個(gè)文件
  因為在轉換過(guò)程中文件名收錄中文時(shí)會(huì )出現錯誤,所以我會(huì )將所有文件名修改為數字
  提供一個(gè)工具,單擊即可修改文件名。你可以下載并直接打開(kāi)它
  更多其他使用方法,讓我們自己測試一下
  Freerename下載提取代碼:bg86
  方法1
  開(kāi)始轉換。這里,使用簡(jiǎn)單書(shū)籍作者的代碼生成一個(gè)Windows可處理文件
  簡(jiǎn)單的書(shū)籍÷更優(yōu)雅地將降價(jià)文件轉換為PDF格式
  腳本封裝,支持批量轉換
  將轉換命令封裝到bat批處理腳本中。稍后轉換時(shí),只需雙擊bat腳本,例如,將其轉換為convertpdf.bat文件。內容如下:
  pandoc text.md -o text.docx && pause
  批處理:如果成批將數十個(gè)或數百個(gè)MD文件轉換為docx文件,是否手動(dòng)復制這些文件名和pandoc命令以逐個(gè)轉換?沒(méi)必要。bat腳本(convert.bat):
  @echo off
:: 遍歷當前文件夾下的所有后綴名為md的文件
for /f %%a in ('dir /b *.md') do (
:: 執行pandoc命令,把每個(gè)md文件都轉為docx文件,docx文件的文件名為:md文件名.md.docx
pandoc %%a -o %%a.docx
)
pause
  使用方法非常簡(jiǎn)單。使用文本編輯器創(chuàng )建一個(gè)TXT文檔,復制上面的代碼,保存它,最后退出以修改文件后綴。蝙蝠。將要轉換的標記文件放入文件夾,將convertpdf.bat復制到目錄中,雙擊打開(kāi)它,然后等待轉換完成
  此時(shí),降價(jià)文件將轉換為docx文檔
  方法2
  直接使用pandoc轉換
  pandoc text.md -o text.docx
  注意:要運行此代碼,您需要輸入此目錄
  有關(guān)更多用法,請參閱pandoc演示文檔
  方法3
  使用python進(jìn)行操作
  相對而言,使用pypandoc有很多優(yōu)點(diǎn)。例如,您可以使用該庫輕松開(kāi)發(fā)一個(gè)簡(jiǎn)單的應用程序,也可以使用該庫實(shí)現一些抓取網(wǎng)頁(yè)的功能,因為pandoc可以下載網(wǎng)頁(yè)并將其轉換為docx或其他格式文件,pypandoc提供了pandoc的接口參數,非常方便。當然,對于學(xué)習python的人來(lái)說(shuō),這是相對簡(jiǎn)單的
  import pypandoc
output = pypandoc.convert_file('somefile.md', 'docx', outputfile="somefile.docx")
  最簡(jiǎn)單的例子就是這個(gè)。首先輸入此文件夾或在Python中指定文件目錄,然后運行上述代碼。如果要批量轉換,可以定義相對路徑,編寫(xiě)腳本,將其打包成exe可執行文件,并實(shí)現從markdown到docx的遍歷轉換。此操作將不在此處寫(xiě)入。這是相對簡(jiǎn)單的。對于那些打包為可執行文件的文件,請參考我以前的文章
  使用Python開(kāi)發(fā)圖像下載程序的教程和源代碼共享
  對于學(xué)習python的學(xué)生,我仍然建議使用pypandoc,因為可以調用python程序
  合并docx&amp;轉換為PDF
  您可以轉換為PDF,然后合并PDF,但感覺(jué)它不像一個(gè)完整的PDF文件,而且不夠漂亮。因此考慮首先合并DOXX,然后轉換成PDF,這是更完美的
  合并docx
  我們使用Office2010合并了17個(gè)docx文件
  使用Python轉換為PDF數據分析第二版下載
  
  因為我看不到任何可以下載的免費電子書(shū),所以請在這里分享我制作的這本電子書(shū)
  這本書(shū)非常適合學(xué)習Python數據分析。你可以下載它
  您可以在練習環(huán)境中使用Anaconda|Jupiter筆記本
  潘多克的其他職能
  順便說(shuō)一下,讓我們談?wù)刾andoc的其他一些功能。有關(guān)詳細信息,請參見(jiàn)文檔學(xué)習測試
  例如,我前面提到的那本書(shū)
  《學(xué)刮痧》
  精通Python爬蟲(chóng)框架
  還有一些簡(jiǎn)單的書(shū)籍翻譯
  
  學(xué)習腳本÷短篇小說(shuō)
  不幸的是,作者沒(méi)有給出降價(jià)源文件,所以我們只能在線(xiàn)閱讀。為什么我們需要降價(jià)源文件?因為markdown良好的編輯格式在轉換過(guò)程中保持了層次和書(shū)簽板,這對我們制作電子書(shū)非常方便,并且節省了大量時(shí)間
  幸運的是,pandoc提供了將網(wǎng)頁(yè)轉換為docx的功能
  讓我們試試看
  一個(gè)頁(yè)面在這里被隨機轉換,但是在降價(jià)下的預覽非常糟糕,因為有很多其他冗余內容
  然后我首先將其轉換為docx文檔,然后刪除多余的內容,然后修改并保存它??磥?lái)效果還是很好的
  pandoc doc.md -o doc.docx
  我已經(jīng)測試了多個(gè)頁(yè)面的爬行和轉換,發(fā)現效果仍然很好。在這里,如果您使用Python的pypandoc,您可以生成一個(gè)EXE程序。非常方便。您可以自動(dòng)進(jìn)入WebGurl進(jìn)行抓取和轉換,這仍然是一個(gè)很好的體驗
  讓我們自己測試和思考更多的用法。我在這里不再重復了
  降價(jià)在線(xiàn)生成PDF|網(wǎng)站
  在這里,我們推薦一個(gè)免費的@網(wǎng)站欄,用于自動(dòng)轉換PDF。經(jīng)歷過(guò)之后,我感覺(jué)很好
  Mdtr2pdf降價(jià)在線(xiàn)生成PDF
  簡(jiǎn)介
  推薦免費文檔轉換
  自由變換器
  這種設計非常廣泛,有許多文件和內容可以轉換
  這里我不介紹細節。它真的很富有
  歡迎使用我的個(gè)人公共帳戶(hù):網(wǎng)吧
  目前,涉及的領(lǐng)域有:
  Python、數據庫、C++
  數據分析、網(wǎng)絡(luò )爬蟲(chóng)、GUI開(kāi)發(fā)
  我喜歡學(xué)習我感興趣的東西
  在這里,我將堅持分享許多有用的學(xué)習經(jīng)驗和學(xué)習資源
  你可以在這里找到一些你需要的學(xué)習經(jīng)驗和學(xué)習資源

抓取網(wǎng)頁(yè)生成電子書(shū)(學(xué)校計算機應用專(zhuān)業(yè)及相關(guān)專(zhuān)業(yè)的網(wǎng)頁(yè)制作課程教材)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 104 次瀏覽 ? 2021-09-15 14:01 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(學(xué)校計算機應用專(zhuān)業(yè)及相關(guān)專(zhuān)業(yè)的網(wǎng)頁(yè)制作課程教材)
  基本信息商品名稱(chēng):網(wǎng)頁(yè)制作案例教程出版社:高等教育出版社出版時(shí)間:2013-05-01作者:羅維譯者:開(kāi)本:16開(kāi)定價(jià):25.40頁(yè)數:212印次:1ISBN號:9787040371963商品類(lèi)型:圖書(shū)版次:1內容提要內容提要本書(shū)根據教育部有關(guān)職業(yè)院校計算機應用與軟件技術(shù)專(zhuān)業(yè)領(lǐng)域技能型緊缺人才培養培訓指導方案精神,以任務(wù)驅動(dòng)為導向,根據網(wǎng)站策劃、網(wǎng)頁(yè)設計與制作、網(wǎng)頁(yè)美工、網(wǎng)站管理、網(wǎng)站編輯等五個(gè)崗位的能力要求,以實(shí)用性為原則,循序漸進(jìn)地介紹了網(wǎng)頁(yè)設計與制作的基本方法和技巧。本書(shū)以實(shí)習生小夏在某企業(yè)實(shí)習并參與網(wǎng)站開(kāi)發(fā)項目為主線(xiàn),由淺入深、自上而下地介紹網(wǎng)站建設與網(wǎng)頁(yè)制作的詳細過(guò)程。本書(shū)內容以項目展開(kāi),包括7個(gè)項目,分別為帶你認識生活中的網(wǎng)站、設計我們的網(wǎng)站、搭建網(wǎng)站的基本頁(yè)面、增強網(wǎng)頁(yè)的功能、頁(yè)面的高級應用、發(fā)布網(wǎng)站、增加網(wǎng)站的交互功能;各項目?jì)热葙N近實(shí)際生產(chǎn)流程,以案例展開(kāi)教學(xué)活動(dòng),以工作問(wèn)題激發(fā)學(xué)習興趣,以能力需求引入相關(guān)知識,以拓展任務(wù)來(lái)開(kāi)闊視野,以課后練習來(lái)檢驗學(xué)習效果。通過(guò)本書(shū)的學(xué)習,可以使初學(xué)者迅速掌握網(wǎng)站建設與網(wǎng)頁(yè)制作的方法與技巧。本書(shū)配套網(wǎng)絡(luò )教學(xué)資源,通過(guò)封底所附學(xué)習卡,可登錄網(wǎng)站,獲取相關(guān)教學(xué)資源。本書(shū)可作為中等職業(yè)學(xué)校計算機應用專(zhuān)業(yè)及相關(guān)專(zhuān)業(yè)的網(wǎng)頁(yè)制作課程教材,也可作為各類(lèi)計算機培訓班的教材。 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(學(xué)校計算機應用專(zhuān)業(yè)及相關(guān)專(zhuān)業(yè)的網(wǎng)頁(yè)制作課程教材)
  基本信息商品名稱(chēng):網(wǎng)頁(yè)制作案例教程出版社:高等教育出版社出版時(shí)間:2013-05-01作者:羅維譯者:開(kāi)本:16開(kāi)定價(jià):25.40頁(yè)數:212印次:1ISBN號:9787040371963商品類(lèi)型:圖書(shū)版次:1內容提要內容提要本書(shū)根據教育部有關(guān)職業(yè)院校計算機應用與軟件技術(shù)專(zhuān)業(yè)領(lǐng)域技能型緊缺人才培養培訓指導方案精神,以任務(wù)驅動(dòng)為導向,根據網(wǎng)站策劃、網(wǎng)頁(yè)設計與制作、網(wǎng)頁(yè)美工、網(wǎng)站管理、網(wǎng)站編輯等五個(gè)崗位的能力要求,以實(shí)用性為原則,循序漸進(jìn)地介紹了網(wǎng)頁(yè)設計與制作的基本方法和技巧。本書(shū)以實(shí)習生小夏在某企業(yè)實(shí)習并參與網(wǎng)站開(kāi)發(fā)項目為主線(xiàn),由淺入深、自上而下地介紹網(wǎng)站建設與網(wǎng)頁(yè)制作的詳細過(guò)程。本書(shū)內容以項目展開(kāi),包括7個(gè)項目,分別為帶你認識生活中的網(wǎng)站、設計我們的網(wǎng)站、搭建網(wǎng)站的基本頁(yè)面、增強網(wǎng)頁(yè)的功能、頁(yè)面的高級應用、發(fā)布網(wǎng)站、增加網(wǎng)站的交互功能;各項目?jì)热葙N近實(shí)際生產(chǎn)流程,以案例展開(kāi)教學(xué)活動(dòng),以工作問(wèn)題激發(fā)學(xué)習興趣,以能力需求引入相關(guān)知識,以拓展任務(wù)來(lái)開(kāi)闊視野,以課后練習來(lái)檢驗學(xué)習效果。通過(guò)本書(shū)的學(xué)習,可以使初學(xué)者迅速掌握網(wǎng)站建設與網(wǎng)頁(yè)制作的方法與技巧。本書(shū)配套網(wǎng)絡(luò )教學(xué)資源,通過(guò)封底所附學(xué)習卡,可登錄網(wǎng)站,獲取相關(guān)教學(xué)資源。本書(shū)可作為中等職業(yè)學(xué)校計算機應用專(zhuān)業(yè)及相關(guān)專(zhuān)業(yè)的網(wǎng)頁(yè)制作課程教材,也可作為各類(lèi)計算機培訓班的教材。

抓取網(wǎng)頁(yè)生成電子書(shū)(小說(shuō)下載神器支持各大網(wǎng)站的網(wǎng)絡(luò )小說(shuō),想下°傻瓜模式)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 2073 次瀏覽 ? 2021-09-15 04:08 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(小說(shuō)下載神器支持各大網(wǎng)站的網(wǎng)絡(luò )小說(shuō),想下°傻瓜模式)
  網(wǎng)絡(luò )圖書(shū)抓取器是一款出色的小說(shuō)下載工具。支持網(wǎng)站各大網(wǎng)絡(luò )小說(shuō)。你可以下載任何你想要的。完全免費下載,無(wú)需復雜操作,一鍵抓取,同時(shí)所有章節可以合并為一個(gè)文本,非常方便易用。
  
  網(wǎng)絡(luò )圖書(shū)爬蟲(chóng)基本介紹
  Web Book Crawler是一款免費的網(wǎng)絡(luò )小說(shuō)下載軟件,主要功能是從各大網(wǎng)站抓取需要的網(wǎng)絡(luò )小說(shuō),并自動(dòng)生成txt文本。下載本軟件后,您可以一鍵免費閱讀網(wǎng)站的熱門(mén)小說(shuō),還可以根據用戶(hù)需求自動(dòng)查找相關(guān)書(shū)籍和章節。獨特的內核索引引擎可以幫助用戶(hù)搜索他們想閱讀的小說(shuō)。避免產(chǎn)生無(wú)用數據的章節。清晰的頁(yè)面設計,讓用戶(hù)即刻使用,拒絕各種繁瑣的功能設置,只為用戶(hù)提供更好的閱讀體驗。并且相較于傳統的提取工具,這款網(wǎng)絡(luò )圖書(shū)抓取工具可以基于網(wǎng)絡(luò )小說(shuō)目錄整合文本,讓讀者體驗一流的閱讀體驗。
  網(wǎng)絡(luò )圖書(shū)抓取器功能介紹
  1、章節調整:提取目錄后,可以進(jìn)行移動(dòng)、刪除、倒序等調整操作。調整會(huì )直接影響最終的書(shū)籍,也會(huì )以調整后的章節順序輸出。
  2、Auto-retry:在爬取過(guò)程中,由于網(wǎng)絡(luò )因素,可能會(huì )出現爬取失敗的情況。程序可能會(huì )自動(dòng)重試直到成功,也可以暫時(shí)中斷爬?。ㄖ袛嗪箨P(guān)閉程序不影響進(jìn)度),等網(wǎng)絡(luò )好再試。
  3、Stop and resume:抓取過(guò)程可以隨時(shí)停止,退出程序后不影響進(jìn)度(章節信息會(huì )保存在記錄中,運行后可以恢復抓?。┫麓纬绦?。注意:需要先使用停止鍵中斷然后退出程序,如果直接退出,將不會(huì )恢復)。
  4、一鍵爬?。河址Q(chēng)°傻瓜模式“”,意思是網(wǎng)絡(luò )圖書(shū)爬蟲(chóng)可以實(shí)現自動(dòng)爬取和合并功能,直接輸出最終的文本文件。前面可能需要輸入最基本的網(wǎng)址、保存位置等信息(會(huì )有明顯的操作提示),調整章節后也可以一鍵抓取,抓取合并操作會(huì )自動(dòng)完成.
  5、APPLICATION網(wǎng)站:已經(jīng)輸入了10個(gè)適用的網(wǎng)站(選擇后可以快速打開(kāi)網(wǎng)站找到你需要的書(shū)),也可以自動(dòng)申請相應的代碼,或者申請到其他小說(shuō)網(wǎng)站進(jìn)行測試,如果一起使用,可以手動(dòng)添加到配置文件中以備后用。
  6、電子書(shū)制作方便:可以在設置文件中添加各章節名稱(chēng)的前綴和后綴,為后期制作電子書(shū)目錄帶來(lái)極大的方便。
  網(wǎng)絡(luò )圖書(shū)爬蟲(chóng)亮點(diǎn)
  1、支持多種小說(shuō)平臺的小說(shuō)爬取。
  2、支持多種文字編碼方式,避免文字亂碼。
  3、 一鍵提取查看小說(shuō)所有目錄。
  4、支持調整小說(shuō)章節位置,可上下移動(dòng)。
  5、支持在線(xiàn)查看章節內容,避免提取錯誤章節。
  6、方支持抓取失敗時(shí)手動(dòng)或自動(dòng)重新抓取。
  7、抓取后的小說(shuō)會(huì )以一章一文的形式保存。
  8、—將所有章節合并為一個(gè)文本以便于存儲的關(guān)鍵。
  網(wǎng)絡(luò )圖書(shū)爬蟲(chóng)的主要優(yōu)勢
  1、Web Book Crawler 是一款非常實(shí)用的網(wǎng)絡(luò )小說(shuō)爬蟲(chóng)軟件。有了它,用戶(hù)可以快速提取十多部小說(shuō)的章節和內容網(wǎng)站保存到本地
  2、 這個(gè)爬蟲(chóng)工具功能齊全,也很友好。為用戶(hù)貼心配備了4種文本編碼器,防止用戶(hù)提取小說(shuō)時(shí)出現亂碼,一鍵提取即可。文件合并為一個(gè)文件
  3、 該軟件使用方便,運行流暢,爬行錯誤率極低。如果您是小說(shuō)愛(ài)好者,強烈建議您使用本軟件進(jìn)行小說(shuō)爬取。
  如何使用網(wǎng)絡(luò )圖書(shū)抓取器
  1、 網(wǎng)絡(luò )圖書(shū)抓取器下載后,解壓安裝包后,雙擊使用,第一次運行會(huì )自動(dòng)生成設置文件,用戶(hù)可以手動(dòng)調整文件,打開(kāi)軟件,使用軟件小說(shuō)下載功能,
  2、 首先進(jìn)入要下載小說(shuō)的網(wǎng)頁(yè),輸入書(shū)名,點(diǎn)擊目錄提取,提取目錄后可以移動(dòng)、刪除、倒序等調整操作,設置保存路徑,點(diǎn)擊開(kāi)始爬取開(kāi)始下載。
  3、可以提取指定小說(shuō)目錄頁(yè)的章節信息并進(jìn)行調整,然后按照章節順序抓取小說(shuō)內容,然后合并。抓取過(guò)程可以隨時(shí)中斷,關(guān)閉程序后可以繼續上一個(gè)任務(wù)。
  4、在設置文件中添加了每個(gè)章節名稱(chēng)的前綴和后綴,為后期制作電子書(shū)的目錄布局帶來(lái)了極大的方便。已輸入 10 個(gè)適用的 網(wǎng)站。選擇后可以快速打開(kāi)網(wǎng)站找到你需要的書(shū),并自動(dòng)應用相應的代碼。
  網(wǎng)絡(luò )圖書(shū)爬蟲(chóng)回顧
  支持多種字符編碼方式,避免亂碼。 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(小說(shuō)下載神器支持各大網(wǎng)站的網(wǎng)絡(luò )小說(shuō),想下°傻瓜模式)
  網(wǎng)絡(luò )圖書(shū)抓取器是一款出色的小說(shuō)下載工具。支持網(wǎng)站各大網(wǎng)絡(luò )小說(shuō)。你可以下載任何你想要的。完全免費下載,無(wú)需復雜操作,一鍵抓取,同時(shí)所有章節可以合并為一個(gè)文本,非常方便易用。
  
  網(wǎng)絡(luò )圖書(shū)爬蟲(chóng)基本介紹
  Web Book Crawler是一款免費的網(wǎng)絡(luò )小說(shuō)下載軟件,主要功能是從各大網(wǎng)站抓取需要的網(wǎng)絡(luò )小說(shuō),并自動(dòng)生成txt文本。下載本軟件后,您可以一鍵免費閱讀網(wǎng)站的熱門(mén)小說(shuō),還可以根據用戶(hù)需求自動(dòng)查找相關(guān)書(shū)籍和章節。獨特的內核索引引擎可以幫助用戶(hù)搜索他們想閱讀的小說(shuō)。避免產(chǎn)生無(wú)用數據的章節。清晰的頁(yè)面設計,讓用戶(hù)即刻使用,拒絕各種繁瑣的功能設置,只為用戶(hù)提供更好的閱讀體驗。并且相較于傳統的提取工具,這款網(wǎng)絡(luò )圖書(shū)抓取工具可以基于網(wǎng)絡(luò )小說(shuō)目錄整合文本,讓讀者體驗一流的閱讀體驗。
  網(wǎng)絡(luò )圖書(shū)抓取器功能介紹
  1、章節調整:提取目錄后,可以進(jìn)行移動(dòng)、刪除、倒序等調整操作。調整會(huì )直接影響最終的書(shū)籍,也會(huì )以調整后的章節順序輸出。
  2、Auto-retry:在爬取過(guò)程中,由于網(wǎng)絡(luò )因素,可能會(huì )出現爬取失敗的情況。程序可能會(huì )自動(dòng)重試直到成功,也可以暫時(shí)中斷爬?。ㄖ袛嗪箨P(guān)閉程序不影響進(jìn)度),等網(wǎng)絡(luò )好再試。
  3、Stop and resume:抓取過(guò)程可以隨時(shí)停止,退出程序后不影響進(jìn)度(章節信息會(huì )保存在記錄中,運行后可以恢復抓?。┫麓纬绦?。注意:需要先使用停止鍵中斷然后退出程序,如果直接退出,將不會(huì )恢復)。
  4、一鍵爬?。河址Q(chēng)°傻瓜模式“”,意思是網(wǎng)絡(luò )圖書(shū)爬蟲(chóng)可以實(shí)現自動(dòng)爬取和合并功能,直接輸出最終的文本文件。前面可能需要輸入最基本的網(wǎng)址、保存位置等信息(會(huì )有明顯的操作提示),調整章節后也可以一鍵抓取,抓取合并操作會(huì )自動(dòng)完成.
  5、APPLICATION網(wǎng)站:已經(jīng)輸入了10個(gè)適用的網(wǎng)站(選擇后可以快速打開(kāi)網(wǎng)站找到你需要的書(shū)),也可以自動(dòng)申請相應的代碼,或者申請到其他小說(shuō)網(wǎng)站進(jìn)行測試,如果一起使用,可以手動(dòng)添加到配置文件中以備后用。
  6、電子書(shū)制作方便:可以在設置文件中添加各章節名稱(chēng)的前綴和后綴,為后期制作電子書(shū)目錄帶來(lái)極大的方便。
  網(wǎng)絡(luò )圖書(shū)爬蟲(chóng)亮點(diǎn)
  1、支持多種小說(shuō)平臺的小說(shuō)爬取。
  2、支持多種文字編碼方式,避免文字亂碼。
  3、 一鍵提取查看小說(shuō)所有目錄。
  4、支持調整小說(shuō)章節位置,可上下移動(dòng)。
  5、支持在線(xiàn)查看章節內容,避免提取錯誤章節。
  6、方支持抓取失敗時(shí)手動(dòng)或自動(dòng)重新抓取。
  7、抓取后的小說(shuō)會(huì )以一章一文的形式保存。
  8、—將所有章節合并為一個(gè)文本以便于存儲的關(guān)鍵。
  網(wǎng)絡(luò )圖書(shū)爬蟲(chóng)的主要優(yōu)勢
  1、Web Book Crawler 是一款非常實(shí)用的網(wǎng)絡(luò )小說(shuō)爬蟲(chóng)軟件。有了它,用戶(hù)可以快速提取十多部小說(shuō)的章節和內容網(wǎng)站保存到本地
  2、 這個(gè)爬蟲(chóng)工具功能齊全,也很友好。為用戶(hù)貼心配備了4種文本編碼器,防止用戶(hù)提取小說(shuō)時(shí)出現亂碼,一鍵提取即可。文件合并為一個(gè)文件
  3、 該軟件使用方便,運行流暢,爬行錯誤率極低。如果您是小說(shuō)愛(ài)好者,強烈建議您使用本軟件進(jìn)行小說(shuō)爬取。
  如何使用網(wǎng)絡(luò )圖書(shū)抓取器
  1、 網(wǎng)絡(luò )圖書(shū)抓取器下載后,解壓安裝包后,雙擊使用,第一次運行會(huì )自動(dòng)生成設置文件,用戶(hù)可以手動(dòng)調整文件,打開(kāi)軟件,使用軟件小說(shuō)下載功能,
  2、 首先進(jìn)入要下載小說(shuō)的網(wǎng)頁(yè),輸入書(shū)名,點(diǎn)擊目錄提取,提取目錄后可以移動(dòng)、刪除、倒序等調整操作,設置保存路徑,點(diǎn)擊開(kāi)始爬取開(kāi)始下載。
  3、可以提取指定小說(shuō)目錄頁(yè)的章節信息并進(jìn)行調整,然后按照章節順序抓取小說(shuō)內容,然后合并。抓取過(guò)程可以隨時(shí)中斷,關(guān)閉程序后可以繼續上一個(gè)任務(wù)。
  4、在設置文件中添加了每個(gè)章節名稱(chēng)的前綴和后綴,為后期制作電子書(shū)的目錄布局帶來(lái)了極大的方便。已輸入 10 個(gè)適用的 網(wǎng)站。選擇后可以快速打開(kāi)網(wǎng)站找到你需要的書(shū),并自動(dòng)應用相應的代碼。
  網(wǎng)絡(luò )圖書(shū)爬蟲(chóng)回顧
  支持多種字符編碼方式,避免亂碼。

抓取網(wǎng)頁(yè)生成電子書(shū)(研究網(wǎng)絡(luò )安全epub格式的電子書(shū)折騰的可以直接點(diǎn)擊——下載)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 250 次瀏覽 ? 2021-09-14 08:08 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(研究網(wǎng)絡(luò )安全epub格式的電子書(shū)折騰的可以直接點(diǎn)擊——下載)
  原文鏈接:
  最近在學(xué)習網(wǎng)絡(luò )安全相關(guān)知識??吹轿逶浦R庫有很多優(yōu)質(zhì)的文章。由于網(wǎng)上看文章太麻煩,研究了Calibre寫(xiě)的菜譜,自動(dòng)下載生成電子書(shū)的方法。
  用這種方法把截至2015年2月11日五云知識庫上的400多篇文章文章整理成epub格式的電子書(shū)花了一些時(shí)間。不想折騰的可以直接點(diǎn)擊——五云知識庫總結博客-下載。
  Calibre 的工具介紹和準備
  Calibre 是“一站式”電子書(shū)解決方案,完全可以滿(mǎn)足您的電子書(shū)需求。 Calibre 是免費的,源代碼是開(kāi)放的,具有跨平臺設計,可以在 Linux、OS X 和 Windows 操作系統上運行。
  是一個(gè)完整的電子圖書(shū)館,包括圖書(shū)館管理、格式轉換、新聞、資料轉電子書(shū),以及電子書(shū)閱讀器同步和集成到電子書(shū)閱讀器的功能。
  這里我們使用的是 Calibre 命令行工具中的 ebook-convert 功能,請到這里下載安裝。
  Mac 下的工具收錄在安裝包中。使用該工具前,請執行export PATH="$PATH:/Applications/calibre.app/Contents/MacOS/"將cli工具路徑添加到系統路徑中,或者在.bashrc中添加這一句。
  其他系統尚未測試,請留言補充說(shuō)明。
  鉻
  使用開(kāi)發(fā)者工具分析頁(yè)面結構并在配方中指定下載的內容。
  分析制作過(guò)程中的頁(yè)面結構
  先到五云知識庫頁(yè)面查看。
  
  黑云知識庫界面
  從頁(yè)面底部的信息可以看到知識庫是wordpress生成的,共47頁(yè)。
  點(diǎn)擊查看每個(gè)目錄頁(yè)的格式。
  
  文字
  選擇標題,右鍵單擊查看元素。
  
  標題
  標題結構如下:
  
“暗云”BootKit木馬詳細技術(shù)分析
  可以找到規則。標題的共同特征是收錄在,鏈接地址在href中,標題內容就是收錄的內容。
  任意點(diǎn)打開(kāi)一個(gè)特定的文章,用同樣的方法發(fā)現每個(gè)文章的body都在下面的標簽中。
  寫(xiě)菜譜
  calibre 的配方本質(zhì)上是一個(gè) python 文件。通過(guò)繼承一個(gè)類(lèi),指定一些電子書(shū)元數據和從網(wǎng)頁(yè)中提取內容的方法,達到自動(dòng)下載并集成到電子書(shū)的目的。內容篩選主要是通過(guò)Beautiful Soup來(lái)實(shí)現的。本次任務(wù)使用的配方如下,其他參考鏈接包括:
  #!/usr/bin/python
# encoding: utf-8
from calibre.web.feeds.recipes import BasicNewsRecipe
class wooyun(BasicNewsRecipe):
title = u'烏云知識庫'
__author__ = u'無(wú)關(guān)風(fēng)月'
description = u'''烏云知識庫,最專(zhuān)業(yè)的安全知識分享平臺。本電子書(shū)由無(wú)關(guān)風(fēng)月整理網(wǎng)站 內容而來(lái)。'''
timefmt = '[%Y-%m-%d]'
no_stylesheets = True
INDEX = 'http://drops.wooyun.org/'
# auto_cleanup = True # 如果沒(méi)有手動(dòng)分析文章結構,可以考慮開(kāi)啟該選項自動(dòng)清理正文內容
language = 'zh-CN'
keep_only_tags = [{'class': ['post']}] # 僅保留文章的post中的內容,其中為自己分析得到的正文范圍
max_articles_per_feed = 10000 # 默認最多文章數是100,可改為更大的數字以免下載不全
def parse_index(self):
# soup = self.index_to_soup(self.INDEX)
# pages_info = soup.findALL(**{'class': 'pages'}).text.split()
# print 'pages_info:', pages_info
start_page = 1 # int(pages_info[1])
end_page = 47 # int(pages_info[3])
articles = []
for p in range(start_page, end_page+1): # 處理每一個(gè)目錄頁(yè)
soup_page = self.index_to_soup(self.INDEX + '/page/' + str(p))
soup_titles = soup_page.findAll(**{'class': 'entry-title'}) # 從目錄頁(yè)中提取正文標題和鏈接
for soup_title in soup_titles:
href = soup_title.a
articles.append({'title': href['title'][18:], 'url': href['href']})
print 'page %d done' % p
articles.reverse() # 文章倒序,讓其按照時(shí)間從前到后排列
res = [(u'烏云知識庫', articles)] # 返回tuple,分別是電子書(shū)名字和文章列表
# self.abort_recipe_processing('test') # 用來(lái)中斷電子書(shū)生成,調試用
return res
  生成電子書(shū)
  將上述文件保存為wooyun.recipe,在終端執行命令:
  ebook-convert wooyun.recipe wooyun.epub
  然后你可以去喝一杯水,等待 calibre 自動(dòng)將博客處理成電子書(shū)。這里的epub也可以改成其他格式,比如mobi。
  需要改進(jìn)。 text節點(diǎn)無(wú)法使用calibre內置的soup解析,所以代碼中的start_page和end_page是硬編碼的,需要根據實(shí)際情況修改;同樣文章title使用href['title'][18:],比較粗糙,有待完善; parse_index 解析目錄頁(yè)共40多頁(yè),是單線(xiàn)程同步的,速度比較慢,可以考慮改多線(xiàn)程加快速度。參考鏈接 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(研究網(wǎng)絡(luò )安全epub格式的電子書(shū)折騰的可以直接點(diǎn)擊——下載)
  原文鏈接:
  最近在學(xué)習網(wǎng)絡(luò )安全相關(guān)知識??吹轿逶浦R庫有很多優(yōu)質(zhì)的文章。由于網(wǎng)上看文章太麻煩,研究了Calibre寫(xiě)的菜譜,自動(dòng)下載生成電子書(shū)的方法。
  用這種方法把截至2015年2月11日五云知識庫上的400多篇文章文章整理成epub格式的電子書(shū)花了一些時(shí)間。不想折騰的可以直接點(diǎn)擊——五云知識庫總結博客-下載。
  Calibre 的工具介紹和準備
  Calibre 是“一站式”電子書(shū)解決方案,完全可以滿(mǎn)足您的電子書(shū)需求。 Calibre 是免費的,源代碼是開(kāi)放的,具有跨平臺設計,可以在 Linux、OS X 和 Windows 操作系統上運行。
  是一個(gè)完整的電子圖書(shū)館,包括圖書(shū)館管理、格式轉換、新聞、資料轉電子書(shū),以及電子書(shū)閱讀器同步和集成到電子書(shū)閱讀器的功能。
  這里我們使用的是 Calibre 命令行工具中的 ebook-convert 功能,請到這里下載安裝。
  Mac 下的工具收錄在安裝包中。使用該工具前,請執行export PATH="$PATH:/Applications/calibre.app/Contents/MacOS/"將cli工具路徑添加到系統路徑中,或者在.bashrc中添加這一句。
  其他系統尚未測試,請留言補充說(shuō)明。
  鉻
  使用開(kāi)發(fā)者工具分析頁(yè)面結構并在配方中指定下載的內容。
  分析制作過(guò)程中的頁(yè)面結構
  先到五云知識庫頁(yè)面查看。
  
  黑云知識庫界面
  從頁(yè)面底部的信息可以看到知識庫是wordpress生成的,共47頁(yè)。
  點(diǎn)擊查看每個(gè)目錄頁(yè)的格式。
  
  文字
  選擇標題,右鍵單擊查看元素。
  
  標題
  標題結構如下:
  
“暗云”BootKit木馬詳細技術(shù)分析
  可以找到規則。標題的共同特征是收錄在,鏈接地址在href中,標題內容就是收錄的內容。
  任意點(diǎn)打開(kāi)一個(gè)特定的文章,用同樣的方法發(fā)現每個(gè)文章的body都在下面的標簽中。
  寫(xiě)菜譜
  calibre 的配方本質(zhì)上是一個(gè) python 文件。通過(guò)繼承一個(gè)類(lèi),指定一些電子書(shū)元數據和從網(wǎng)頁(yè)中提取內容的方法,達到自動(dòng)下載并集成到電子書(shū)的目的。內容篩選主要是通過(guò)Beautiful Soup來(lái)實(shí)現的。本次任務(wù)使用的配方如下,其他參考鏈接包括:
  #!/usr/bin/python
# encoding: utf-8
from calibre.web.feeds.recipes import BasicNewsRecipe
class wooyun(BasicNewsRecipe):
title = u'烏云知識庫'
__author__ = u'無(wú)關(guān)風(fēng)月'
description = u'''烏云知識庫,最專(zhuān)業(yè)的安全知識分享平臺。本電子書(shū)由無(wú)關(guān)風(fēng)月整理網(wǎng)站 內容而來(lái)。'''
timefmt = '[%Y-%m-%d]'
no_stylesheets = True
INDEX = 'http://drops.wooyun.org/'
# auto_cleanup = True # 如果沒(méi)有手動(dòng)分析文章結構,可以考慮開(kāi)啟該選項自動(dòng)清理正文內容
language = 'zh-CN'
keep_only_tags = [{'class': ['post']}] # 僅保留文章的post中的內容,其中為自己分析得到的正文范圍
max_articles_per_feed = 10000 # 默認最多文章數是100,可改為更大的數字以免下載不全
def parse_index(self):
# soup = self.index_to_soup(self.INDEX)
# pages_info = soup.findALL(**{'class': 'pages'}).text.split()
# print 'pages_info:', pages_info
start_page = 1 # int(pages_info[1])
end_page = 47 # int(pages_info[3])
articles = []
for p in range(start_page, end_page+1): # 處理每一個(gè)目錄頁(yè)
soup_page = self.index_to_soup(self.INDEX + '/page/' + str(p))
soup_titles = soup_page.findAll(**{'class': 'entry-title'}) # 從目錄頁(yè)中提取正文標題和鏈接
for soup_title in soup_titles:
href = soup_title.a
articles.append({'title': href['title'][18:], 'url': href['href']})
print 'page %d done' % p
articles.reverse() # 文章倒序,讓其按照時(shí)間從前到后排列
res = [(u'烏云知識庫', articles)] # 返回tuple,分別是電子書(shū)名字和文章列表
# self.abort_recipe_processing('test') # 用來(lái)中斷電子書(shū)生成,調試用
return res
  生成電子書(shū)
  將上述文件保存為wooyun.recipe,在終端執行命令:
  ebook-convert wooyun.recipe wooyun.epub
  然后你可以去喝一杯水,等待 calibre 自動(dòng)將博客處理成電子書(shū)。這里的epub也可以改成其他格式,比如mobi。
  需要改進(jìn)。 text節點(diǎn)無(wú)法使用calibre內置的soup解析,所以代碼中的start_page和end_page是硬編碼的,需要根據實(shí)際情況修改;同樣文章title使用href['title'][18:],比較粗糙,有待完善; parse_index 解析目錄頁(yè)共40多頁(yè),是單線(xiàn)程同步的,速度比較慢,可以考慮改多線(xiàn)程加快速度。參考鏈接

抓取網(wǎng)頁(yè)生成電子書(shū)(如何將網(wǎng)頁(yè)文章批量抓取、生成電子書(shū)、直接推送到Kindle)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 347 次瀏覽 ? 2021-09-14 08:07 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(如何將網(wǎng)頁(yè)文章批量抓取、生成電子書(shū)、直接推送到Kindle)
  我一直在研究如何將我關(guān)注的網(wǎng)頁(yè)或文章安裝到Kindle中進(jìn)行認真閱讀,但很長(cháng)時(shí)間沒(méi)有真正的進(jìn)展。手動(dòng)格式化書(shū)籍制作電子書(shū)的方法雖然簡(jiǎn)單易行,但對于短小且更新頻繁的網(wǎng)頁(yè)文章來(lái)說(shuō)效率低下。如果有工具可以批量抓取網(wǎng)頁(yè)文章,生成電子書(shū),直接推送到Kindle上就好了。 Doocer 是一個(gè)非常有用的工具。
  Doocer 是@lepture 開(kāi)發(fā)的在線(xiàn)服務(wù),它允許用戶(hù)在 Pocket 的后期閱讀賬戶(hù)中提交 URL、RSS 提要地址和文章,然后將它們一一制作成 ePub、MOBI 電子書(shū)或在批次??梢灾苯釉?Doocer 中閱讀所有文章,也可以推送到 Kindle、Apple Books 閱讀。
  
  閱讀體驗非常好
  Doocer 生成的電子書(shū)格式良好,值得稱(chēng)贊。應該有的內容就多,不應該的內容也不多。本書(shū)不僅封面有圖文,還有文章directory、網(wǎng)站源、文章原作者等信息。 Doocer生成的MOBI電子書(shū)支持KF8標準,所以支持 Kindle 原生替換自定義字體。
  由于網(wǎng)站文章通常都有標準和通用的排版規范,所以Doocer生成的電子書(shū)文章中的大小、標題和列表圖例與原網(wǎng)頁(yè)文章高度一致@。原文章中的超鏈接也全部保留,評論信息、廣告等內容全部丟棄。全書(shū)的閱讀體驗非常友好。 (當然,如果原網(wǎng)頁(yè)文章的布局亂了,那么生成的電子書(shū)也可能完全不一樣。)
  
  將網(wǎng)頁(yè)文章制作成電子書(shū)
  Doocer 完成注冊和登錄后,我們就可以開(kāi)始將網(wǎng)頁(yè)文章 制作成電子書(shū)了。首先,我們點(diǎn)擊“NEW BOOK”按鈕新建電子書(shū),輸入電子書(shū)書(shū)名。然后在右上角選擇“添加”添加文章 URL或RSS提要地址。
  
  以小眾網(wǎng)頁(yè)的文章為例,我們選擇“FEED”,在輸入框中粘貼RSS地址,然后點(diǎn)擊“PARSE”,那么小眾文章的最近列表就是顯示給我們添加。我們可以根據需要選擇,也可以點(diǎn)擊“全選”來(lái)全選文章。最后,下拉到頁(yè)面底部,選擇“保存”,這些文章就會(huì )被添加到書(shū)中。
  
  實(shí)際上,Doocer 網(wǎng)頁(yè)與 RSS 工具非常相似。實(shí)現了從網(wǎng)站批量抓取文章并集中展示的功能。
  
  要將這些文章轉換成電子書(shū)并推送到Kindle,我們需要進(jìn)行一些簡(jiǎn)單的操作。
  首先,根據Doocer個(gè)人設置頁(yè)面的提示,我們打開(kāi)Doocer電子書(shū)的發(fā)送地址,添加到個(gè)人文檔接收地址。完成后,我們再在輸入框中填寫(xiě)Kindle的個(gè)人文檔接收地址,點(diǎn)擊保存。
  
  最后,我們在 Doocer 中打開(kāi)《少數派》這本書(shū),在頁(yè)面上找到“發(fā)布”,然后選擇發(fā)送到 Kindle。大約 10-30 分鐘,Doocer 將完成圖書(shū)制作并將圖書(shū)推送到 Kindle。
  
  還有一些問(wèn)題需要注意
  Doocer目前處于Beta測試階段,還存在一些bug,尤其是中文網(wǎng)站經(jīng)常出現問(wèn)題。好在Doocer官網(wǎng)有開(kāi)發(fā)者對話(huà)頻道,可以直接聯(lián)系他幫忙解決。
  實(shí)現所有操作的自動(dòng)化流程是我認為Doocer最需要努力的方向。 Doocer可以像RSS工具一樣抓取網(wǎng)頁(yè)中更新的文章,但仍然需要手動(dòng)抓取新的文章抓取并生成電子書(shū)并推送。如果整個(gè)過(guò)程可以自動(dòng)化,RSS-MOBI-Kindle就可以一次搞定,相信實(shí)用性會(huì )更高。
  目前,Doocer 的所有功能均可免費使用。 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(如何將網(wǎng)頁(yè)文章批量抓取、生成電子書(shū)、直接推送到Kindle)
  我一直在研究如何將我關(guān)注的網(wǎng)頁(yè)或文章安裝到Kindle中進(jìn)行認真閱讀,但很長(cháng)時(shí)間沒(méi)有真正的進(jìn)展。手動(dòng)格式化書(shū)籍制作電子書(shū)的方法雖然簡(jiǎn)單易行,但對于短小且更新頻繁的網(wǎng)頁(yè)文章來(lái)說(shuō)效率低下。如果有工具可以批量抓取網(wǎng)頁(yè)文章,生成電子書(shū),直接推送到Kindle上就好了。 Doocer 是一個(gè)非常有用的工具。
  Doocer 是@lepture 開(kāi)發(fā)的在線(xiàn)服務(wù),它允許用戶(hù)在 Pocket 的后期閱讀賬戶(hù)中提交 URL、RSS 提要地址和文章,然后將它們一一制作成 ePub、MOBI 電子書(shū)或在批次??梢灾苯釉?Doocer 中閱讀所有文章,也可以推送到 Kindle、Apple Books 閱讀。
  
  閱讀體驗非常好
  Doocer 生成的電子書(shū)格式良好,值得稱(chēng)贊。應該有的內容就多,不應該的內容也不多。本書(shū)不僅封面有圖文,還有文章directory、網(wǎng)站源、文章原作者等信息。 Doocer生成的MOBI電子書(shū)支持KF8標準,所以支持 Kindle 原生替換自定義字體。
  由于網(wǎng)站文章通常都有標準和通用的排版規范,所以Doocer生成的電子書(shū)文章中的大小、標題和列表圖例與原網(wǎng)頁(yè)文章高度一致@。原文章中的超鏈接也全部保留,評論信息、廣告等內容全部丟棄。全書(shū)的閱讀體驗非常友好。 (當然,如果原網(wǎng)頁(yè)文章的布局亂了,那么生成的電子書(shū)也可能完全不一樣。)
  
  將網(wǎng)頁(yè)文章制作成電子書(shū)
  Doocer 完成注冊和登錄后,我們就可以開(kāi)始將網(wǎng)頁(yè)文章 制作成電子書(shū)了。首先,我們點(diǎn)擊“NEW BOOK”按鈕新建電子書(shū),輸入電子書(shū)書(shū)名。然后在右上角選擇“添加”添加文章 URL或RSS提要地址。
  
  以小眾網(wǎng)頁(yè)的文章為例,我們選擇“FEED”,在輸入框中粘貼RSS地址,然后點(diǎn)擊“PARSE”,那么小眾文章的最近列表就是顯示給我們添加。我們可以根據需要選擇,也可以點(diǎn)擊“全選”來(lái)全選文章。最后,下拉到頁(yè)面底部,選擇“保存”,這些文章就會(huì )被添加到書(shū)中。
  
  實(shí)際上,Doocer 網(wǎng)頁(yè)與 RSS 工具非常相似。實(shí)現了從網(wǎng)站批量抓取文章并集中展示的功能。
  
  要將這些文章轉換成電子書(shū)并推送到Kindle,我們需要進(jìn)行一些簡(jiǎn)單的操作。
  首先,根據Doocer個(gè)人設置頁(yè)面的提示,我們打開(kāi)Doocer電子書(shū)的發(fā)送地址,添加到個(gè)人文檔接收地址。完成后,我們再在輸入框中填寫(xiě)Kindle的個(gè)人文檔接收地址,點(diǎn)擊保存。
  
  最后,我們在 Doocer 中打開(kāi)《少數派》這本書(shū),在頁(yè)面上找到“發(fā)布”,然后選擇發(fā)送到 Kindle。大約 10-30 分鐘,Doocer 將完成圖書(shū)制作并將圖書(shū)推送到 Kindle。
  
  還有一些問(wèn)題需要注意
  Doocer目前處于Beta測試階段,還存在一些bug,尤其是中文網(wǎng)站經(jīng)常出現問(wèn)題。好在Doocer官網(wǎng)有開(kāi)發(fā)者對話(huà)頻道,可以直接聯(lián)系他幫忙解決。
  實(shí)現所有操作的自動(dòng)化流程是我認為Doocer最需要努力的方向。 Doocer可以像RSS工具一樣抓取網(wǎng)頁(yè)中更新的文章,但仍然需要手動(dòng)抓取新的文章抓取并生成電子書(shū)并推送。如果整個(gè)過(guò)程可以自動(dòng)化,RSS-MOBI-Kindle就可以一次搞定,相信實(shí)用性會(huì )更高。
  目前,Doocer 的所有功能均可免費使用。

抓取網(wǎng)頁(yè)生成電子書(shū)(網(wǎng)上無(wú)法下載的“小說(shuō)在線(xiàn)閱讀”內容?有種Python2.7基礎知識 )

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 120 次瀏覽 ? 2021-09-13 20:05 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(網(wǎng)上無(wú)法下載的“小說(shuō)在線(xiàn)閱讀”內容?有種Python2.7基礎知識
)
  您是否擔心“小說(shuō)在線(xiàn)閱讀”內容無(wú)法在網(wǎng)上下載?還是一些文章內容讓你有采集的沖動(dòng),卻找不到下載鏈接?是否有寫(xiě)一個(gè)程序來(lái)完成所有事情的沖動(dòng)?你有沒(méi)有學(xué)過(guò)python,想找個(gè)東西來(lái)展示你的拳頭并告訴別人“兄弟真棒!”?那么讓我們開(kāi)始吧!哈哈~
  嗯,最近剛寫(xiě)了很多Yii,想找點(diǎn)東西調整一下……= =
  這個(gè)項目的目的是研究。對于所有版權問(wèn)題,我們都站在作者一邊。以閱讀盜版小說(shuō)為目的的讀者,請自己面對墻!
  畢竟,我們要做的就是從網(wǎng)頁(yè)中抓取小說(shuō)文本的內容。我們的研究對象是全本小說(shuō)網(wǎng)...再次聲明,我們不對任何版權負責....
  開(kāi)頭最基本的內容就是抓取某一章節的內容。
  環(huán)境:Ubuntu、Python 2.7
  基礎知識
  這個(gè)程序涉及到幾個(gè)知識點(diǎn),這里羅列一下。不細說(shuō),百度上就有很多。
  1.urllib2 模塊的請求對象用于設置HTTP請求,包括爬取的url,以及偽裝成瀏覽器的代理。然后是urlopen和read方法,這兩個(gè)方法都很容易理解。
  2.chardet 模塊,用于檢測網(wǎng)頁(yè)的編碼。網(wǎng)頁(yè)抓取數據時(shí)很容易遇到亂碼的問(wèn)題。為了判斷網(wǎng)頁(yè)是gtk還是utf-8編碼,使用chardet的detect函數來(lái)檢測。使用Windows的同學(xué)可以在這里下載,解壓到python的lib目錄下。
  3.decode函數將字符串從某種編碼轉換為unicode字符,encode將unicode字符轉換為指定編碼格式的字符串。
  4.re 模塊正則表達式應用。搜索功能可以找到匹配正則表達式的項,replace替換匹配的字符串。
  思路分析:
  我們選擇的網(wǎng)址是,斗羅大陸第一章。你可以查看網(wǎng)頁(yè)的源碼,你會(huì )發(fā)現只有一個(gè)內容標簽收錄了所有章節的內容,所以你可以將內容標簽與正則匹配并抓取它。試著(zhù)把這部分內容打印出來(lái),你會(huì )發(fā)現很多
  和 &nbsp,
  用換行符替換,&nbsp是網(wǎng)頁(yè)中的占位符,即空格,用空格替換即可。這一章的內容非常漂亮。為了完整起見(jiàn),我們也使用常規規則爬下標題。
  程序
<p>
# -*- coding: utf-8 -*-

import urllib2
import re
import chardet


class Book_Spider:

def __init__(self):
self.pages = []

# 抓取一個(gè)章節
def GetPage(self):
myUrl = "http://www.quanben.com/xiaoshu ... 3B%3B
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
request = urllib2.Request(myUrl, headers = headers)
myResponse = urllib2.urlopen(request)
myPage = myResponse.read()

#先檢測網(wǎng)頁(yè)的字符編碼,最后統一轉為 utf-8
charset = chardet.detect(myPage)
charset = charset['encoding']
if charset == 'utf-8' or charset == 'UTF-8':
myPage = myPage
else:
myPage = myPage.decode('gb2312','ignore').encode('utf-8')
unicodePage = myPage.decode("utf-8")

try:
#抓取標題
my_title = re.search('(.*?)',unicodePage,re.S)
my_title = my_title.group(1)
except:
print '標題 HTML 變化,請重新分析!'
return False

try:
#抓取章節內容
my_content = re.search('(.*?) 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(網(wǎng)上無(wú)法下載的“小說(shuō)在線(xiàn)閱讀”內容?有種Python2.7基礎知識
)
  您是否擔心“小說(shuō)在線(xiàn)閱讀”內容無(wú)法在網(wǎng)上下載?還是一些文章內容讓你有采集的沖動(dòng),卻找不到下載鏈接?是否有寫(xiě)一個(gè)程序來(lái)完成所有事情的沖動(dòng)?你有沒(méi)有學(xué)過(guò)python,想找個(gè)東西來(lái)展示你的拳頭并告訴別人“兄弟真棒!”?那么讓我們開(kāi)始吧!哈哈~
  嗯,最近剛寫(xiě)了很多Yii,想找點(diǎn)東西調整一下……= =
  這個(gè)項目的目的是研究。對于所有版權問(wèn)題,我們都站在作者一邊。以閱讀盜版小說(shuō)為目的的讀者,請自己面對墻!
  畢竟,我們要做的就是從網(wǎng)頁(yè)中抓取小說(shuō)文本的內容。我們的研究對象是全本小說(shuō)網(wǎng)...再次聲明,我們不對任何版權負責....
  開(kāi)頭最基本的內容就是抓取某一章節的內容。
  環(huán)境:Ubuntu、Python 2.7
  基礎知識
  這個(gè)程序涉及到幾個(gè)知識點(diǎn),這里羅列一下。不細說(shuō),百度上就有很多。
  1.urllib2 模塊的請求對象用于設置HTTP請求,包括爬取的url,以及偽裝成瀏覽器的代理。然后是urlopen和read方法,這兩個(gè)方法都很容易理解。
  2.chardet 模塊,用于檢測網(wǎng)頁(yè)的編碼。網(wǎng)頁(yè)抓取數據時(shí)很容易遇到亂碼的問(wèn)題。為了判斷網(wǎng)頁(yè)是gtk還是utf-8編碼,使用chardet的detect函數來(lái)檢測。使用Windows的同學(xué)可以在這里下載,解壓到python的lib目錄下。
  3.decode函數將字符串從某種編碼轉換為unicode字符,encode將unicode字符轉換為指定編碼格式的字符串。
  4.re 模塊正則表達式應用。搜索功能可以找到匹配正則表達式的項,replace替換匹配的字符串。
  思路分析:
  我們選擇的網(wǎng)址是,斗羅大陸第一章。你可以查看網(wǎng)頁(yè)的源碼,你會(huì )發(fā)現只有一個(gè)內容標簽收錄了所有章節的內容,所以你可以將內容標簽與正則匹配并抓取它。試著(zhù)把這部分內容打印出來(lái),你會(huì )發(fā)現很多
  和 &nbsp,
  用換行符替換,&nbsp是網(wǎng)頁(yè)中的占位符,即空格,用空格替換即可。這一章的內容非常漂亮。為了完整起見(jiàn),我們也使用常規規則爬下標題。
  程序
<p>
# -*- coding: utf-8 -*-

import urllib2
import re
import chardet


class Book_Spider:

def __init__(self):
self.pages = []

# 抓取一個(gè)章節
def GetPage(self):
myUrl = "http://www.quanben.com/xiaoshu ... 3B%3B
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
request = urllib2.Request(myUrl, headers = headers)
myResponse = urllib2.urlopen(request)
myPage = myResponse.read()

#先檢測網(wǎng)頁(yè)的字符編碼,最后統一轉為 utf-8
charset = chardet.detect(myPage)
charset = charset['encoding']
if charset == 'utf-8' or charset == 'UTF-8':
myPage = myPage
else:
myPage = myPage.decode('gb2312','ignore').encode('utf-8')
unicodePage = myPage.decode("utf-8")

try:
#抓取標題
my_title = re.search('(.*?)',unicodePage,re.S)
my_title = my_title.group(1)
except:
print '標題 HTML 變化,請重新分析!'
return False

try:
#抓取章節內容
my_content = re.search('(.*?)

抓取網(wǎng)頁(yè)生成電子書(shū)( 應用CHM制怍精靈制作CHM格式文CHM文件格式格式電子書(shū))

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 128 次瀏覽 ? 2021-09-13 20:03 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(
應用CHM制怍精靈制作CHM格式文CHM文件格式格式電子書(shū))
  互聯(lián)網(wǎng)實(shí)用軟件知識:[1] 抓取網(wǎng)頁(yè)并制作成chm
  工具/材料
  Teleport_Ultra 軟件
  簡(jiǎn)單的 Chm 軟件
  去百度輸入軟件名找軟件,也可以從我的百度云盤(pán)下載(
  
  下載后,安裝軟件。
  打開(kāi) Teleport_Ultra 并創(chuàng )建一個(gè)新項目。
  
  選擇“復制網(wǎng)站”。
  
  輸入要抓取的網(wǎng)址,根據個(gè)人需要選擇搜索深度。
  
  選擇所有文件。
  
  點(diǎn)擊完成以完成新項目。
  
  點(diǎn)擊立即下載開(kāi)始獲取文件。
  
  正在獲取文件,等待完成。
  
  創(chuàng )建一個(gè)新項目。
  
  獲取后選擇本地文件夾。
  
  點(diǎn)擊確定導入文件夾。
  
  
  點(diǎn)擊編譯按鈕。
  
  點(diǎn)擊生成chm文件,自行選擇路徑。
  
  好的,到這里我們已經(jīng)成功地把網(wǎng)站變成了一個(gè)Chm文件。
  
  如果本次體驗對您有幫助,請點(diǎn)擊右上角“關(guān)注”關(guān)注我,關(guān)注后為您提供最新系列體驗更新。
  相關(guān)文章
  使用CHM制作CHM格式文件
  CHM 文件格式在互聯(lián)網(wǎng)上廣為流傳,被稱(chēng)為電子書(shū)格式。下面xp系統首頁(yè)介紹一個(gè)CHM制作精靈,可以輕松制作“CHM電子書(shū)”。希望用戶(hù)能夠掌握CHM系統的應用如何通過(guò)向導制作CHM格式的文??件。方法/步驟 CHM 創(chuàng )建向導的方法/步驟是將網(wǎng)頁(yè)文件(HTML 文檔)轉換為 CHM 文件(編譯后的 H...
  使用htm2chm將網(wǎng)頁(yè)打包成幫助文檔
  --編寫(xiě)CHM電子文檔手冊:手冊編譯完成后以word版提交給客戶(hù),存在很多不足,比如支持軟件的適應性、圖片移位、頁(yè)面突變,等等,等等。因此,有很多。 ,word版可以用來(lái)編譯應用手冊文件,必須轉換成以下三種格式的文本文件才能應用。手冊編譯完成后,提交PDF版本使用。好處很多:適合選擇性瀏覽。 ...
  如何制作 CHM 格式的電子書(shū)
  CHM格式的幫助文件相信大家都很熟悉。 CHM文件形式多樣,使用方便,深受大家喜愛(ài)。今天給大家介紹一種將文本文件轉成CHM格式電子書(shū)的方法。工具/材料已準備好用于生產(chǎn) 將文本文件轉換為電子書(shū)。 QuickCHM v2.6 前期準備過(guò)程 下載QuickCHM v2.6文件,在百度上搜索QuickCHM v2.6...
  優(yōu)化決策離不開(kāi)搜索基礎
  陶醉解讀:百度搜索引擎基礎知識----------- 搜索引擎為用戶(hù)展示的每一個(gè)搜索結果都對應著(zhù)互聯(lián)網(wǎng)上的一個(gè)頁(yè)面。每個(gè)搜索結果從產(chǎn)生到產(chǎn)生搜索引擎通過(guò)四個(gè)過(guò)程呈現給用戶(hù):抓取、過(guò)濾、索引和輸出結果。 >>>>>> ...
  制作chm文件并生成chm目錄
  “.chm”格式的幫助文件,如果有目錄,很容易閱讀。很多初學(xué)者不會(huì )制作相應的目錄。下面簡(jiǎn)單介紹一下目錄制作過(guò)程: Tools/Materials Easy CHM 軟件方法/步驟 打開(kāi)Word文檔,新建5個(gè)文檔,寫(xiě)好相應的內容,分別“另存為html格式”,將chm文件保存在桌面上。 ..
  CHM制作教程(全文中文搜索解決方案)
  我做了一個(gè)CHM文件,發(fā)現不支持中文搜索。找了很久,終于找到了解決辦法。不是網(wǎng)上提到的軟件問(wèn)題引起的。工具/素材網(wǎng)頁(yè)編輯軟件Dreamwearer CHM搭建軟件htmlhelp CHM配置輔助軟件PrecisionHelper方法/使用Dreamwearer制作完整網(wǎng)頁(yè)的步驟注:第三行是...
  制作chm電子書(shū)的完美詳解
  由微軟開(kāi)發(fā)的制作和編譯。 HLP 幫助文件的舊編譯器 Microsoft HTML Help Workshop 收錄三個(gè)軟件:DialogBoxHelpEditor、HelpWorkshop 和 SegmentedHypergraphicsEditor。您可以制作chm電子書(shū)、編輯目錄、插入圖標...
  p>
  chm 電子書(shū)制作工具
  WINDOWS上的幫助文件都是CHM格式的,看起來(lái)簡(jiǎn)單方便,文件小,索引也很方便。那么我們可以自己制作CHM文件嗎,這里我推薦一個(gè)軟件,你也可以自己制作這種文件。工具/材料 EasyCHM 方法/步驟 我們首先在百度上搜索EasyCHM,我在這里下載了3.84 特別版。下載后直接安裝...
  如何制作自己的 CHM 格式的電子書(shū)
  首先要聲明的是,我的經(jīng)驗日志只告訴你如何使用這個(gè)軟件制作你自己的CHM格式的電子書(shū)。只是簡(jiǎn)單好用的關(guān)卡來(lái)演示,高級功能部分需要朋友們。我們自己研究。工具/資料一臺裝有Windows系統的電腦,可以是筆記本或桌面軟件CHM Editor V1.3.3.7,網(wǎng)盤(pán)鏈接地址:方... 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(
應用CHM制怍精靈制作CHM格式文CHM文件格式格式電子書(shū))
  互聯(lián)網(wǎng)實(shí)用軟件知識:[1] 抓取網(wǎng)頁(yè)并制作成chm
  工具/材料
  Teleport_Ultra 軟件
  簡(jiǎn)單的 Chm 軟件
  去百度輸入軟件名找軟件,也可以從我的百度云盤(pán)下載(
  
  下載后,安裝軟件。
  打開(kāi) Teleport_Ultra 并創(chuàng )建一個(gè)新項目。
  
  選擇“復制網(wǎng)站”。
  
  輸入要抓取的網(wǎng)址,根據個(gè)人需要選擇搜索深度。
  
  選擇所有文件。
  
  點(diǎn)擊完成以完成新項目。
  
  點(diǎn)擊立即下載開(kāi)始獲取文件。
  
  正在獲取文件,等待完成。
  
  創(chuàng )建一個(gè)新項目。
  
  獲取后選擇本地文件夾。
  
  點(diǎn)擊確定導入文件夾。
  
  
  點(diǎn)擊編譯按鈕。
  
  點(diǎn)擊生成chm文件,自行選擇路徑。
  
  好的,到這里我們已經(jīng)成功地把網(wǎng)站變成了一個(gè)Chm文件。
  
  如果本次體驗對您有幫助,請點(diǎn)擊右上角“關(guān)注”關(guān)注我,關(guān)注后為您提供最新系列體驗更新。
  相關(guān)文章
  使用CHM制作CHM格式文件
  CHM 文件格式在互聯(lián)網(wǎng)上廣為流傳,被稱(chēng)為電子書(shū)格式。下面xp系統首頁(yè)介紹一個(gè)CHM制作精靈,可以輕松制作“CHM電子書(shū)”。希望用戶(hù)能夠掌握CHM系統的應用如何通過(guò)向導制作CHM格式的文??件。方法/步驟 CHM 創(chuàng )建向導的方法/步驟是將網(wǎng)頁(yè)文件(HTML 文檔)轉換為 CHM 文件(編譯后的 H...
  使用htm2chm將網(wǎng)頁(yè)打包成幫助文檔
  --編寫(xiě)CHM電子文檔手冊:手冊編譯完成后以word版提交給客戶(hù),存在很多不足,比如支持軟件的適應性、圖片移位、頁(yè)面突變,等等,等等。因此,有很多。 ,word版可以用來(lái)編譯應用手冊文件,必須轉換成以下三種格式的文本文件才能應用。手冊編譯完成后,提交PDF版本使用。好處很多:適合選擇性瀏覽。 ...
  如何制作 CHM 格式的電子書(shū)
  CHM格式的幫助文件相信大家都很熟悉。 CHM文件形式多樣,使用方便,深受大家喜愛(ài)。今天給大家介紹一種將文本文件轉成CHM格式電子書(shū)的方法。工具/材料已準備好用于生產(chǎn) 將文本文件轉換為電子書(shū)。 QuickCHM v2.6 前期準備過(guò)程 下載QuickCHM v2.6文件,在百度上搜索QuickCHM v2.6...
  優(yōu)化決策離不開(kāi)搜索基礎
  陶醉解讀:百度搜索引擎基礎知識----------- 搜索引擎為用戶(hù)展示的每一個(gè)搜索結果都對應著(zhù)互聯(lián)網(wǎng)上的一個(gè)頁(yè)面。每個(gè)搜索結果從產(chǎn)生到產(chǎn)生搜索引擎通過(guò)四個(gè)過(guò)程呈現給用戶(hù):抓取、過(guò)濾、索引和輸出結果。 >>>>>> ...
  制作chm文件并生成chm目錄
  “.chm”格式的幫助文件,如果有目錄,很容易閱讀。很多初學(xué)者不會(huì )制作相應的目錄。下面簡(jiǎn)單介紹一下目錄制作過(guò)程: Tools/Materials Easy CHM 軟件方法/步驟 打開(kāi)Word文檔,新建5個(gè)文檔,寫(xiě)好相應的內容,分別“另存為html格式”,將chm文件保存在桌面上。 ..
  CHM制作教程(全文中文搜索解決方案)
  我做了一個(gè)CHM文件,發(fā)現不支持中文搜索。找了很久,終于找到了解決辦法。不是網(wǎng)上提到的軟件問(wèn)題引起的。工具/素材網(wǎng)頁(yè)編輯軟件Dreamwearer CHM搭建軟件htmlhelp CHM配置輔助軟件PrecisionHelper方法/使用Dreamwearer制作完整網(wǎng)頁(yè)的步驟注:第三行是...
  制作chm電子書(shū)的完美詳解
  由微軟開(kāi)發(fā)的制作和編譯。 HLP 幫助文件的舊編譯器 Microsoft HTML Help Workshop 收錄三個(gè)軟件:DialogBoxHelpEditor、HelpWorkshop 和 SegmentedHypergraphicsEditor。您可以制作chm電子書(shū)、編輯目錄、插入圖標...
  p>
  chm 電子書(shū)制作工具
  WINDOWS上的幫助文件都是CHM格式的,看起來(lái)簡(jiǎn)單方便,文件小,索引也很方便。那么我們可以自己制作CHM文件嗎,這里我推薦一個(gè)軟件,你也可以自己制作這種文件。工具/材料 EasyCHM 方法/步驟 我們首先在百度上搜索EasyCHM,我在這里下載了3.84 特別版。下載后直接安裝...
  如何制作自己的 CHM 格式的電子書(shū)
  首先要聲明的是,我的經(jīng)驗日志只告訴你如何使用這個(gè)軟件制作你自己的CHM格式的電子書(shū)。只是簡(jiǎn)單好用的關(guān)卡來(lái)演示,高級功能部分需要朋友們。我們自己研究。工具/資料一臺裝有Windows系統的電腦,可以是筆記本或桌面軟件CHM Editor V1.3.3.7,網(wǎng)盤(pán)鏈接地址:方...

抓取網(wǎng)頁(yè)生成電子書(shū)(烏云知識庫博客匯總——下載格式的電子書(shū))

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 151 次瀏覽 ? 2021-09-13 20:02 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(烏云知識庫博客匯總——下載格式的電子書(shū))
  最近在學(xué)習網(wǎng)絡(luò )安全相關(guān)知識??吹轿逶浦R庫有很多優(yōu)質(zhì)的文章。由于網(wǎng)上看文章太麻煩,研究了Calibre寫(xiě)的菜譜,自動(dòng)下載生成電子書(shū)的方法。
  用這種方法把截至2015年2月11日五云知識庫上的400多篇文章文章整理成epub格式的電子書(shū)花了一些時(shí)間。不想折騰的可以直接點(diǎn)擊——五云知識庫總結博客-下載。
  工具介紹和準備Calibre
  Calibre 是“一站式”電子書(shū)解決方案,完全可以滿(mǎn)足您的電子書(shū)需求。 Calibre 是免費的,源代碼是開(kāi)放的,具有跨平臺設計,可以在 Linux、OS X 和 Windows 操作系統上運行。
  是一個(gè)完整的電子圖書(shū)館,包括圖書(shū)館管理、格式轉換、新聞、資料轉電子書(shū),以及電子書(shū)閱讀器同步和集成到電子書(shū)閱讀器的功能。
  這里我們使用的是 Calibre 命令行工具中的 ebook-convert 功能,請到這里下載安裝。
  Mac 下的工具收錄在安裝包中。使用該工具前,請執行export PATH="$PATH:/Applications/calibre.app/Contents/MacOS/"將cli工具路徑添加到系統路徑中,或者在.bashrc中添加這一句。
  其他系統尚未測試,請留言補充說(shuō)明。
  鉻
  使用開(kāi)發(fā)者工具分析頁(yè)面結構并在配方中指定下載的內容。
  制作過(guò)程分析頁(yè)面結構
  先到五云知識庫頁(yè)面查看。
  
  從頁(yè)面底部的信息可以看到知識庫是wordpress生成的,共47頁(yè)。
  點(diǎn)擊查看每個(gè)目錄頁(yè)的格式。
  
  選擇標題,右鍵單擊查看元素。
  
  標題結構如下:
  可以找到規則。標題的共同特征是收錄在,鏈接地址在href中,標題內容就是收錄的內容。
  任意點(diǎn)打開(kāi)一個(gè)特定的文章,用同樣的方法發(fā)現每個(gè)文章的body都在下面的標簽中。
  寫(xiě)菜譜
  calibre 的配方本質(zhì)上是一個(gè) python 文件。通過(guò)繼承一個(gè)類(lèi),指定一些電子書(shū)元數據和從網(wǎng)頁(yè)中提取內容的方法,達到自動(dòng)下載并集成到電子書(shū)的目的。內容篩選主要是通過(guò)Beautiful Soup來(lái)實(shí)現的。本次任務(wù)使用的配方如下,其他參考鏈接包括:
  #!/usr/bin/python
# encoding: utf-8
from calibre.web.feeds.recipes import BasicNewsRecipe
class wooyun(BasicNewsRecipe):
title = u&#39;烏云知識庫&#39;
__author__ = u&#39;無(wú)關(guān)風(fēng)月&#39;
description = u&#39;&#39;&#39;烏云知識庫,最專(zhuān)業(yè)的安全知識分享平臺。本電子書(shū)由無(wú)關(guān)風(fēng)月整理網(wǎng)站 內容而來(lái)。&#39;&#39;&#39;
timefmt = &#39;[%Y-%m-%d]&#39;
no_stylesheets = True
INDEX = &#39;http://drops.wooyun.org/&#39;
# auto_cleanup = True # 如果沒(méi)有手動(dòng)分析文章結構,可以考慮開(kāi)啟該選項自動(dòng)清理正文內容
language = &#39;zh-CN&#39;
keep_only_tags = [{&#39;class&#39;: [&#39;post&#39;]}] # 僅保留文章的post中的內容,其中為自己分析得到的正文范圍
max_articles_per_feed = 10000 # 默認最多文章數是100,可改為更大的數字以免下載不全
def parse_index(self):
# soup = self.index_to_soup(self.INDEX)
# pages_info = soup.findALL(**{&#39;class&#39;: &#39;pages&#39;}).text.split()
# print &#39;pages_info:&#39;, pages_info
start_page = 1 # int(pages_info[1])
end_page = 47 # int(pages_info[3])
articles = []
for p in range(start_page, end_page+1): # 處理每一個(gè)目錄頁(yè)
soup_page = self.index_to_soup(self.INDEX + &#39;/page/&#39; + str(p))
soup_titles = soup_page.findAll(**{&#39;class&#39;: &#39;entry-title&#39;}) # 從目錄頁(yè)中提取正文標題和鏈接
for soup_title in soup_titles:
href = soup_title.a
articles.append({&#39;title&#39;: href[&#39;title&#39;][18:], &#39;url&#39;: href[&#39;href&#39;]})
print &#39;page %d done&#39; % p
articles.reverse() # 文章倒序,讓其按照時(shí)間從前到后排列
res = [(u&#39;烏云知識庫&#39;, articles)] # 返回tuple,分別是電子書(shū)名字和文章列表
# self.abort_recipe_processing(&#39;test&#39;) # 用來(lái)中斷電子書(shū)生成,調試用
return res
  生成電子書(shū)
  將上述文件保存為wooyun.recipe,在終端執行命令:
  ebook-convert wooyun.recipe wooyun.epub
  然后你可以去喝一杯水,等待 calibre 自動(dòng)將博客處理成電子書(shū)。這里的epub也可以改成其他格式,比如mobi。
  參考鏈接 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(烏云知識庫博客匯總——下載格式的電子書(shū))
  最近在學(xué)習網(wǎng)絡(luò )安全相關(guān)知識??吹轿逶浦R庫有很多優(yōu)質(zhì)的文章。由于網(wǎng)上看文章太麻煩,研究了Calibre寫(xiě)的菜譜,自動(dòng)下載生成電子書(shū)的方法。
  用這種方法把截至2015年2月11日五云知識庫上的400多篇文章文章整理成epub格式的電子書(shū)花了一些時(shí)間。不想折騰的可以直接點(diǎn)擊——五云知識庫總結博客-下載。
  工具介紹和準備Calibre
  Calibre 是“一站式”電子書(shū)解決方案,完全可以滿(mǎn)足您的電子書(shū)需求。 Calibre 是免費的,源代碼是開(kāi)放的,具有跨平臺設計,可以在 Linux、OS X 和 Windows 操作系統上運行。
  是一個(gè)完整的電子圖書(shū)館,包括圖書(shū)館管理、格式轉換、新聞、資料轉電子書(shū),以及電子書(shū)閱讀器同步和集成到電子書(shū)閱讀器的功能。
  這里我們使用的是 Calibre 命令行工具中的 ebook-convert 功能,請到這里下載安裝。
  Mac 下的工具收錄在安裝包中。使用該工具前,請執行export PATH="$PATH:/Applications/calibre.app/Contents/MacOS/"將cli工具路徑添加到系統路徑中,或者在.bashrc中添加這一句。
  其他系統尚未測試,請留言補充說(shuō)明。
  鉻
  使用開(kāi)發(fā)者工具分析頁(yè)面結構并在配方中指定下載的內容。
  制作過(guò)程分析頁(yè)面結構
  先到五云知識庫頁(yè)面查看。
  
  從頁(yè)面底部的信息可以看到知識庫是wordpress生成的,共47頁(yè)。
  點(diǎn)擊查看每個(gè)目錄頁(yè)的格式。
  
  選擇標題,右鍵單擊查看元素。
  
  標題結構如下:
  可以找到規則。標題的共同特征是收錄在,鏈接地址在href中,標題內容就是收錄的內容。
  任意點(diǎn)打開(kāi)一個(gè)特定的文章,用同樣的方法發(fā)現每個(gè)文章的body都在下面的標簽中。
  寫(xiě)菜譜
  calibre 的配方本質(zhì)上是一個(gè) python 文件。通過(guò)繼承一個(gè)類(lèi),指定一些電子書(shū)元數據和從網(wǎng)頁(yè)中提取內容的方法,達到自動(dòng)下載并集成到電子書(shū)的目的。內容篩選主要是通過(guò)Beautiful Soup來(lái)實(shí)現的。本次任務(wù)使用的配方如下,其他參考鏈接包括:
  #!/usr/bin/python
# encoding: utf-8
from calibre.web.feeds.recipes import BasicNewsRecipe
class wooyun(BasicNewsRecipe):
title = u&#39;烏云知識庫&#39;
__author__ = u&#39;無(wú)關(guān)風(fēng)月&#39;
description = u&#39;&#39;&#39;烏云知識庫,最專(zhuān)業(yè)的安全知識分享平臺。本電子書(shū)由無(wú)關(guān)風(fēng)月整理網(wǎng)站 內容而來(lái)。&#39;&#39;&#39;
timefmt = &#39;[%Y-%m-%d]&#39;
no_stylesheets = True
INDEX = &#39;http://drops.wooyun.org/&#39;
# auto_cleanup = True # 如果沒(méi)有手動(dòng)分析文章結構,可以考慮開(kāi)啟該選項自動(dòng)清理正文內容
language = &#39;zh-CN&#39;
keep_only_tags = [{&#39;class&#39;: [&#39;post&#39;]}] # 僅保留文章的post中的內容,其中為自己分析得到的正文范圍
max_articles_per_feed = 10000 # 默認最多文章數是100,可改為更大的數字以免下載不全
def parse_index(self):
# soup = self.index_to_soup(self.INDEX)
# pages_info = soup.findALL(**{&#39;class&#39;: &#39;pages&#39;}).text.split()
# print &#39;pages_info:&#39;, pages_info
start_page = 1 # int(pages_info[1])
end_page = 47 # int(pages_info[3])
articles = []
for p in range(start_page, end_page+1): # 處理每一個(gè)目錄頁(yè)
soup_page = self.index_to_soup(self.INDEX + &#39;/page/&#39; + str(p))
soup_titles = soup_page.findAll(**{&#39;class&#39;: &#39;entry-title&#39;}) # 從目錄頁(yè)中提取正文標題和鏈接
for soup_title in soup_titles:
href = soup_title.a
articles.append({&#39;title&#39;: href[&#39;title&#39;][18:], &#39;url&#39;: href[&#39;href&#39;]})
print &#39;page %d done&#39; % p
articles.reverse() # 文章倒序,讓其按照時(shí)間從前到后排列
res = [(u&#39;烏云知識庫&#39;, articles)] # 返回tuple,分別是電子書(shū)名字和文章列表
# self.abort_recipe_processing(&#39;test&#39;) # 用來(lái)中斷電子書(shū)生成,調試用
return res
  生成電子書(shū)
  將上述文件保存為wooyun.recipe,在終端執行命令:
  ebook-convert wooyun.recipe wooyun.epub
  然后你可以去喝一杯水,等待 calibre 自動(dòng)將博客處理成電子書(shū)。這里的epub也可以改成其他格式,比如mobi。
  參考鏈接

抓取網(wǎng)頁(yè)生成電子書(shū)(本書(shū)易學(xué)易懂即學(xué))

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 163 次瀏覽 ? 2021-09-13 08:12 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(本書(shū)易學(xué)易懂即學(xué))
  本書(shū)語(yǔ)言通俗易懂,內容通俗易懂。適合初學(xué)者和中級讀者學(xué)習網(wǎng)頁(yè)制作。
  本書(shū)以圖文閱讀的形式,通過(guò)任務(wù)驅動(dòng)的方式,以大量實(shí)例為核心,系統地介紹了網(wǎng)頁(yè)制作的關(guān)鍵技術(shù)和操作技巧。主要內容包括網(wǎng)站制作基礎知識、網(wǎng)頁(yè)中文本信息的處理方法、網(wǎng)頁(yè)中圖片的使用方法、頁(yè)面布局和布局方法、添加動(dòng)態(tài)交互效果、使用樣式和模板、上傳網(wǎng)頁(yè)等。本書(shū)易學(xué)易懂。只要按照書(shū)中的步驟,就可以輕松學(xué)會(huì )網(wǎng)頁(yè)制作的方法和技巧。本書(shū)語(yǔ)言通俗易懂,內容通俗易懂。適合初學(xué)者和中級讀者學(xué)習網(wǎng)頁(yè)制作。
  目錄:
  系列單元前言 1 開(kāi)始建站任務(wù) 1 建站任務(wù) 2 制作網(wǎng)頁(yè)任務(wù) 3 使用站點(diǎn)窗口管理文件單元 2 文本處理任務(wù) 1 插入文本信息任務(wù) 2 修改文本任務(wù) 3 創(chuàng )建列表格式任務(wù) 4 創(chuàng )建超鏈接單元 3 使用圖像任務(wù) 1 了解常見(jiàn)的網(wǎng)絡(luò )圖像格式任務(wù) 2 使用圖像任務(wù) 3 創(chuàng )建翻轉地圖和網(wǎng)絡(luò )相冊任務(wù) 4 制作圖像映射任務(wù) 5 使用 Flash 按鈕和文本單元 4 Web頁(yè)面布局與排版任務(wù)1 使用布局形式設計頁(yè)面任務(wù)2 使用表格組織頁(yè)面內容任務(wù)3 網(wǎng)頁(yè)制作示例任務(wù)4 使用圖層定位網(wǎng)頁(yè)內容任務(wù)5 使用框架設計網(wǎng)頁(yè)單元5 制作動(dòng)態(tài)網(wǎng)頁(yè)任務(wù)1 使用表單任務(wù)2 創(chuàng )建時(shí)間線(xiàn)動(dòng)畫(huà)任務(wù)3 使用行為實(shí)現動(dòng)態(tài)效果單元6 使用樣式和模板任務(wù)1 使用HTML 樣式任務(wù)2 使用CSS 樣式任務(wù)3 使用模板單元7 網(wǎng)站上傳任務(wù)1 申請網(wǎng)站空間任務(wù)2上傳網(wǎng)站 到互聯(lián)網(wǎng)rnet 任務(wù) 3 管理遠程站點(diǎn) 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(本書(shū)易學(xué)易懂即學(xué))
  本書(shū)語(yǔ)言通俗易懂,內容通俗易懂。適合初學(xué)者和中級讀者學(xué)習網(wǎng)頁(yè)制作。
  本書(shū)以圖文閱讀的形式,通過(guò)任務(wù)驅動(dòng)的方式,以大量實(shí)例為核心,系統地介紹了網(wǎng)頁(yè)制作的關(guān)鍵技術(shù)和操作技巧。主要內容包括網(wǎng)站制作基礎知識、網(wǎng)頁(yè)中文本信息的處理方法、網(wǎng)頁(yè)中圖片的使用方法、頁(yè)面布局和布局方法、添加動(dòng)態(tài)交互效果、使用樣式和模板、上傳網(wǎng)頁(yè)等。本書(shū)易學(xué)易懂。只要按照書(shū)中的步驟,就可以輕松學(xué)會(huì )網(wǎng)頁(yè)制作的方法和技巧。本書(shū)語(yǔ)言通俗易懂,內容通俗易懂。適合初學(xué)者和中級讀者學(xué)習網(wǎng)頁(yè)制作。
  目錄:
  系列單元前言 1 開(kāi)始建站任務(wù) 1 建站任務(wù) 2 制作網(wǎng)頁(yè)任務(wù) 3 使用站點(diǎn)窗口管理文件單元 2 文本處理任務(wù) 1 插入文本信息任務(wù) 2 修改文本任務(wù) 3 創(chuàng )建列表格式任務(wù) 4 創(chuàng )建超鏈接單元 3 使用圖像任務(wù) 1 了解常見(jiàn)的網(wǎng)絡(luò )圖像格式任務(wù) 2 使用圖像任務(wù) 3 創(chuàng )建翻轉地圖和網(wǎng)絡(luò )相冊任務(wù) 4 制作圖像映射任務(wù) 5 使用 Flash 按鈕和文本單元 4 Web頁(yè)面布局與排版任務(wù)1 使用布局形式設計頁(yè)面任務(wù)2 使用表格組織頁(yè)面內容任務(wù)3 網(wǎng)頁(yè)制作示例任務(wù)4 使用圖層定位網(wǎng)頁(yè)內容任務(wù)5 使用框架設計網(wǎng)頁(yè)單元5 制作動(dòng)態(tài)網(wǎng)頁(yè)任務(wù)1 使用表單任務(wù)2 創(chuàng )建時(shí)間線(xiàn)動(dòng)畫(huà)任務(wù)3 使用行為實(shí)現動(dòng)態(tài)效果單元6 使用樣式和模板任務(wù)1 使用HTML 樣式任務(wù)2 使用CSS 樣式任務(wù)3 使用模板單元7 網(wǎng)站上傳任務(wù)1 申請網(wǎng)站空間任務(wù)2上傳網(wǎng)站 到互聯(lián)網(wǎng)rnet 任務(wù) 3 管理遠程站點(diǎn)

抓取網(wǎng)頁(yè)生成電子書(shū)(對話(huà)即平臺——智能醫療初探應用的挑戰和解決之道(組圖))

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 154 次瀏覽 ? 2021-09-13 08:11 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(對話(huà)即平臺——智能醫療初探應用的挑戰和解決之道(組圖))
  阿里巴巴云>云棲社區>主題地圖>E>小說(shuō)二搶網(wǎng)站
  
  推薦活動(dòng):
  更多優(yōu)惠>
  當前主題:小說(shuō)拍攝兩次網(wǎng)站加入采集
  相關(guān)主題:
  第二抓小說(shuō)網(wǎng)站相關(guān)博文,看更多博文
  博士花了十天時(shí)間。 supervisor 整理出所有的 Python 庫。只希望學(xué)好之后能找到一份高薪的工作!
  
  
  作者:yunqi2 瀏覽評論人數:13年前
  導演辛苦了,我不能辜負!讓我們直接開(kāi)始主題。需要資料可以私信我回復01,還可以得到大量PDF書(shū)籍和視頻! Python常用庫簡(jiǎn)單介紹fuzzywuzzy,模糊字符串匹配。 esmre,正則表達式的加速器。 colorama 主要用于文本
  閱讀全文
  大數據和人工智能分析在內容安全中的應用
  
  
  作者:mongolguier3044 人瀏覽評論:03 年前
  在中國的政策下,互聯(lián)網(wǎng)受益人如何管理內容安全。短信、文章、視頻直播充滿(mǎn)了內容安全隱患。本文詳細介紹了阿里云盾可為客戶(hù)提供內容安全的核心能力、適用的核心場(chǎng)景及相關(guān)案例。希望與合作伙伴生態(tài)共創(chuàng )內容安全風(fēng)險管理。演講者簡(jiǎn)介:張宇,阿里云安全產(chǎn)品專(zhuān)家
  閱讀全文
  微軟誠興:智能醫療產(chǎn)業(yè)化應用的挑戰與解決方案
  
  
  作者:邢哲武松 1470次瀏覽和評論:03年前
  在新智元舉辦的百人峰會(huì )閉門(mén)論壇上,微軟亞太研發(fā)集團創(chuàng )新孵化總監程星帶來(lái)了“對話(huà)為平臺——智慧醫療初探”的分享會(huì )議。以下為程燮講話(huà)實(shí)錄。程協(xié):很高興在這個(gè)場(chǎng)合見(jiàn)到大家,歡迎大家來(lái)到微軟。我講的話(huà)題是對話(huà)和智慧醫療。智慧醫療是一個(gè)很大的話(huà)題,我
  閱讀全文
  60名英語(yǔ)學(xué)生六個(gè)月的努力:機器智能的背后是一群“數字工作者”
  
  
  作者:邢哲武松1022人瀏覽評論:03年前
  本文來(lái)自AI新媒體量子比特(QbitAI)Google Pixel Buds的發(fā)布震驚了很多人。每個(gè)人都希望能戴上這樣的翻譯耳機,就像拿到科幻小說(shuō)《銀河系漫游指南》中的“通天魚(yú)”一樣。從此,不再有跨語(yǔ)言帶來(lái)的障礙和障礙——一切都變得容易了。歷史進(jìn)程中也有翻譯者
  閱讀全文
  大觀(guān)數據新用戶(hù)推薦的三款強大工具
  
  
  作者:Reverse One Sleep 1306人瀏覽評論:03年前
  推薦系統需要根據用戶(hù)的歷史行為和興趣來(lái)預測用戶(hù)未來(lái)的行為和興趣,但是對于新用戶(hù),沒(méi)有任何用戶(hù)行為,如何做出最有效的推薦?這就產(chǎn)生了用戶(hù)的冷啟動(dòng)問(wèn)題。目前,新公司的成本越來(lái)越高,用戶(hù)的選擇也越來(lái)越多。當新用戶(hù)到來(lái)時(shí),如果他們不能快速抓住用戶(hù)興趣,推薦他們。
  閱讀全文
  大數據小說(shuō)|如何看透一個(gè)小時(shí)內剛認識的女孩
  
  
  作者:小軒峰柴金1354人瀏覽評論:04年前
  《科學(xué)算命》“同學(xué),你的背包拉鏈沒(méi)拉好,這個(gè)社會(huì )越來(lái)越險惡,像你這樣可愛(ài)的女孩子要小心了?!毙∨⒆笫趾陀沂帜弥?zhù)一杯焦糖瑪奇朵。他拿著(zhù) iPhone,看了我一眼,摸了摸背包,露出 T 恤后面的艾薇兒。當她的手指觸摸帶有射手座符號的 MacBook Air 時(shí)
  閱讀全文
  新手怎么發(fā)網(wǎng)站外鏈,網(wǎng)站外鏈怎么發(fā),外鏈發(fā)帖方法集合
  
  
  作者:冰點(diǎn)牧雪1420人瀏覽評論:06年前
  給大家分享一下我是怎么做反連接鏈的。一般來(lái)說(shuō),我在反連接中只追求兩件事。 一、數量。 二、穩定性。對于像我這樣的新手和資源匱乏的人,能做的就是增加外鏈的數量,做好外鏈的穩定性。所謂穩定,就是已經(jīng)貼出的外鏈要盡量不讓它們消失。這對于群發(fā)軟件來(lái)說(shuō)是非常困難的,尤其是對于英文站點(diǎn)?,F在
  閱讀全文
  最流行的網(wǎng)站推廣方式總結
  
  
  作者:wenvi_wu2020 瀏覽評論人數:012年前
  1 搜索引擎營(yíng)銷(xiāo)1.1 國內搜索引擎使用率 百度搜索:72.25% GOOGLE 搜索:17.05% 搜索:4.36% 雅虎搜索:3.31%搜狐搜狗:1.81% 其他搜索引擎:1.22% 1.2 頁(yè)
  閱讀全文 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(對話(huà)即平臺——智能醫療初探應用的挑戰和解決之道(組圖))
  阿里巴巴云>云棲社區>主題地圖>E>小說(shuō)二搶網(wǎng)站
  
  推薦活動(dòng):
  更多優(yōu)惠>
  當前主題:小說(shuō)拍攝兩次網(wǎng)站加入采集
  相關(guān)主題:
  第二抓小說(shuō)網(wǎng)站相關(guān)博文,看更多博文
  博士花了十天時(shí)間。 supervisor 整理出所有的 Python 庫。只希望學(xué)好之后能找到一份高薪的工作!
  
  
  作者:yunqi2 瀏覽評論人數:13年前
  導演辛苦了,我不能辜負!讓我們直接開(kāi)始主題。需要資料可以私信我回復01,還可以得到大量PDF書(shū)籍和視頻! Python常用庫簡(jiǎn)單介紹fuzzywuzzy,模糊字符串匹配。 esmre,正則表達式的加速器。 colorama 主要用于文本
  閱讀全文
  大數據和人工智能分析在內容安全中的應用
  
  
  作者:mongolguier3044 人瀏覽評論:03 年前
  在中國的政策下,互聯(lián)網(wǎng)受益人如何管理內容安全。短信、文章、視頻直播充滿(mǎn)了內容安全隱患。本文詳細介紹了阿里云盾可為客戶(hù)提供內容安全的核心能力、適用的核心場(chǎng)景及相關(guān)案例。希望與合作伙伴生態(tài)共創(chuàng )內容安全風(fēng)險管理。演講者簡(jiǎn)介:張宇,阿里云安全產(chǎn)品專(zhuān)家
  閱讀全文
  微軟誠興:智能醫療產(chǎn)業(yè)化應用的挑戰與解決方案
  
  
  作者:邢哲武松 1470次瀏覽和評論:03年前
  在新智元舉辦的百人峰會(huì )閉門(mén)論壇上,微軟亞太研發(fā)集團創(chuàng )新孵化總監程星帶來(lái)了“對話(huà)為平臺——智慧醫療初探”的分享會(huì )議。以下為程燮講話(huà)實(shí)錄。程協(xié):很高興在這個(gè)場(chǎng)合見(jiàn)到大家,歡迎大家來(lái)到微軟。我講的話(huà)題是對話(huà)和智慧醫療。智慧醫療是一個(gè)很大的話(huà)題,我
  閱讀全文
  60名英語(yǔ)學(xué)生六個(gè)月的努力:機器智能的背后是一群“數字工作者”
  
  
  作者:邢哲武松1022人瀏覽評論:03年前
  本文來(lái)自AI新媒體量子比特(QbitAI)Google Pixel Buds的發(fā)布震驚了很多人。每個(gè)人都希望能戴上這樣的翻譯耳機,就像拿到科幻小說(shuō)《銀河系漫游指南》中的“通天魚(yú)”一樣。從此,不再有跨語(yǔ)言帶來(lái)的障礙和障礙——一切都變得容易了。歷史進(jìn)程中也有翻譯者
  閱讀全文
  大觀(guān)數據新用戶(hù)推薦的三款強大工具
  
  
  作者:Reverse One Sleep 1306人瀏覽評論:03年前
  推薦系統需要根據用戶(hù)的歷史行為和興趣來(lái)預測用戶(hù)未來(lái)的行為和興趣,但是對于新用戶(hù),沒(méi)有任何用戶(hù)行為,如何做出最有效的推薦?這就產(chǎn)生了用戶(hù)的冷啟動(dòng)問(wèn)題。目前,新公司的成本越來(lái)越高,用戶(hù)的選擇也越來(lái)越多。當新用戶(hù)到來(lái)時(shí),如果他們不能快速抓住用戶(hù)興趣,推薦他們。
  閱讀全文
  大數據小說(shuō)|如何看透一個(gè)小時(shí)內剛認識的女孩
  
  
  作者:小軒峰柴金1354人瀏覽評論:04年前
  《科學(xué)算命》“同學(xué),你的背包拉鏈沒(méi)拉好,這個(gè)社會(huì )越來(lái)越險惡,像你這樣可愛(ài)的女孩子要小心了?!毙∨⒆笫趾陀沂帜弥?zhù)一杯焦糖瑪奇朵。他拿著(zhù) iPhone,看了我一眼,摸了摸背包,露出 T 恤后面的艾薇兒。當她的手指觸摸帶有射手座符號的 MacBook Air 時(shí)
  閱讀全文
  新手怎么發(fā)網(wǎng)站外鏈,網(wǎng)站外鏈怎么發(fā),外鏈發(fā)帖方法集合
  
  
  作者:冰點(diǎn)牧雪1420人瀏覽評論:06年前
  給大家分享一下我是怎么做反連接鏈的。一般來(lái)說(shuō),我在反連接中只追求兩件事。 一、數量。 二、穩定性。對于像我這樣的新手和資源匱乏的人,能做的就是增加外鏈的數量,做好外鏈的穩定性。所謂穩定,就是已經(jīng)貼出的外鏈要盡量不讓它們消失。這對于群發(fā)軟件來(lái)說(shuō)是非常困難的,尤其是對于英文站點(diǎn)?,F在
  閱讀全文
  最流行的網(wǎng)站推廣方式總結
  
  
  作者:wenvi_wu2020 瀏覽評論人數:012年前
  1 搜索引擎營(yíng)銷(xiāo)1.1 國內搜索引擎使用率 百度搜索:72.25% GOOGLE 搜索:17.05% 搜索:4.36% 雅虎搜索:3.31%搜狐搜狗:1.81% 其他搜索引擎:1.22% 1.2 頁(yè)
  閱讀全文

抓取網(wǎng)頁(yè)生成電子書(shū)(百度一個(gè)小說(shuō)網(wǎng)站,批量下載器聚合閱讀合集(組圖))

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 423 次瀏覽 ? 2021-09-13 01:16 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(百度一個(gè)小說(shuō)網(wǎng)站,批量下載器聚合閱讀合集(組圖))
  批量下載小說(shuō)爬蟲(chóng)是一款專(zhuān)門(mén)用于批量下載小說(shuō)的軟件。通過(guò)小說(shuō)爬蟲(chóng),用戶(hù)可以快速下載自己想要的小說(shuō)的txt文件。
  目的是通過(guò)網(wǎng)站下載一本全分類(lèi)的小說(shuō),并根據分類(lèi)自動(dòng)創(chuàng )建目錄,并根據小說(shuō)名稱(chēng)保存為txt文件。 一、Grab 想法:我的想法是在百度上找一本小說(shuō)網(wǎng)站。對于這本小說(shuō)的章節頁(yè)面,請使用請求。
  本腳本僅針對“玄書(shū)網(wǎng)”小說(shuō)網(wǎng)站“奇幻奇幻”類(lèi)小說(shuō)進(jìn)行拍攝。供網(wǎng)友參考,可自行修改。文筆粗糙,請勿噴...原文鏈接。
  小說(shuō)批量下載器聚合閱讀合集,主要提供小說(shuō)批量下載器相關(guān)的最新資源下載。訂閱小說(shuō)批量下載器標簽主題,您可以第一時(shí)間了解小說(shuō)批量下載器的最新下載資源和主題。包。
  IbookBox 小說(shuō)批量下載閱讀器,讓讀者遠離垃圾廣告。輸入任意網(wǎng)頁(yè)地址,批量抓取下載網(wǎng)頁(yè)上的所有電子書(shū)。
  
  輸入任意網(wǎng)頁(yè)地址,批量抓取下載網(wǎng)絡(luò )上的所有電子書(shū)。 1、支持所有小說(shuō)網(wǎng)站取取。 2、支持生成txt抓取的電子書(shū)發(fā)送到手機。3、支持電子書(shū)自動(dòng)存入自己的郵箱。
  軟件介紹 《批量小說(shuō)下載器精簡(jiǎn)版》是一款非常好用又方便的小說(shuō)批量下載軟件。通過(guò)小說(shuō)爬蟲(chóng),用戶(hù)可以快速下載自己想要的小說(shuō)的txt文件,放到手機上。離線(xiàn)觀(guān)看,軟件抓取。
  
  語(yǔ)言:簡(jiǎn)體中文性質(zhì):國產(chǎn)軟件軟件大?。?3.13IbookBox小說(shuō)批量下載閱讀器,輸入任意網(wǎng)址,批量下載網(wǎng)頁(yè)上的所有電子書(shū)。 IbookBox 小說(shuō)批量下載閱讀。 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(百度一個(gè)小說(shuō)網(wǎng)站,批量下載器聚合閱讀合集(組圖))
  批量下載小說(shuō)爬蟲(chóng)是一款專(zhuān)門(mén)用于批量下載小說(shuō)的軟件。通過(guò)小說(shuō)爬蟲(chóng),用戶(hù)可以快速下載自己想要的小說(shuō)的txt文件。
  目的是通過(guò)網(wǎng)站下載一本全分類(lèi)的小說(shuō),并根據分類(lèi)自動(dòng)創(chuàng )建目錄,并根據小說(shuō)名稱(chēng)保存為txt文件。 一、Grab 想法:我的想法是在百度上找一本小說(shuō)網(wǎng)站。對于這本小說(shuō)的章節頁(yè)面,請使用請求。
  本腳本僅針對“玄書(shū)網(wǎng)”小說(shuō)網(wǎng)站“奇幻奇幻”類(lèi)小說(shuō)進(jìn)行拍攝。供網(wǎng)友參考,可自行修改。文筆粗糙,請勿噴...原文鏈接。
  小說(shuō)批量下載器聚合閱讀合集,主要提供小說(shuō)批量下載器相關(guān)的最新資源下載。訂閱小說(shuō)批量下載器標簽主題,您可以第一時(shí)間了解小說(shuō)批量下載器的最新下載資源和主題。包。
  IbookBox 小說(shuō)批量下載閱讀器,讓讀者遠離垃圾廣告。輸入任意網(wǎng)頁(yè)地址,批量抓取下載網(wǎng)頁(yè)上的所有電子書(shū)。
  
  輸入任意網(wǎng)頁(yè)地址,批量抓取下載網(wǎng)絡(luò )上的所有電子書(shū)。 1、支持所有小說(shuō)網(wǎng)站取取。 2、支持生成txt抓取的電子書(shū)發(fā)送到手機。3、支持電子書(shū)自動(dòng)存入自己的郵箱。
  軟件介紹 《批量小說(shuō)下載器精簡(jiǎn)版》是一款非常好用又方便的小說(shuō)批量下載軟件。通過(guò)小說(shuō)爬蟲(chóng),用戶(hù)可以快速下載自己想要的小說(shuō)的txt文件,放到手機上。離線(xiàn)觀(guān)看,軟件抓取。
  
  語(yǔ)言:簡(jiǎn)體中文性質(zhì):國產(chǎn)軟件軟件大?。?3.13IbookBox小說(shuō)批量下載閱讀器,輸入任意網(wǎng)址,批量下載網(wǎng)頁(yè)上的所有電子書(shū)。 IbookBox 小說(shuō)批量下載閱讀。

抓取網(wǎng)頁(yè)生成電子書(shū)(【IPO】抓取網(wǎng)絡(luò )小說(shuō)生成文本文件的軟件特色及制作方法 )

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 438 次瀏覽 ? 2021-09-13 00:23 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(【IPO】抓取網(wǎng)絡(luò )小說(shuō)生成文本文件的軟件特色及制作方法
)
  網(wǎng)絡(luò )圖書(shū)抓取器主要用于抓取網(wǎng)絡(luò )小說(shuō)生成文本文件。它可以提取和調整指定小說(shuō)目錄頁(yè)面的章節信息,然后按照章節順序抓取小說(shuō)內容,然后進(jìn)行合并。抓取過(guò)程可以隨時(shí)中斷,關(guān)閉程序后可以繼續上一個(gè)任務(wù)。
  相關(guān)軟件軟件大小及版本說(shuō)明下載鏈接
  網(wǎng)絡(luò )圖書(shū)抓取器主要用于抓取網(wǎng)絡(luò )小說(shuō)生成文本文件。它可以提取和調整指定小說(shuō)目錄頁(yè)面的章節信息,然后按照章節順序抓取小說(shuō)內容,然后進(jìn)行合并。抓取過(guò)程可以隨時(shí)中斷,關(guān)閉程序后可以繼續上一個(gè)任務(wù)。
  
  軟件功能
  1、章節調整:提取目錄后,可以進(jìn)行移動(dòng)、刪除、倒序等調整操作。調整會(huì )直接影響最終的書(shū)籍,也會(huì )以調整后的章節順序輸出。
  2、Automatic retry:在爬取過(guò)程中,由于網(wǎng)絡(luò )因素,可能會(huì )出現爬取失敗的情況。程序可能會(huì )自動(dòng)重試直到成功,也可以暫時(shí)中斷爬?。ㄖ袛嗪箨P(guān)閉程序不影響進(jìn)度),待網(wǎng)絡(luò )良好后再試。
  3、Stop and resume:抓取過(guò)程可以隨時(shí)停止,退出程序后不影響進(jìn)度(章節信息會(huì )保存在記錄中,運行后可以恢復抓?。┫麓纬绦?。注意:需要先用停止按鈕中斷然后退出程序,如果直接退出,將不會(huì )恢復)。
  4、 一鍵抓圖:又稱(chēng)“傻瓜模式”,基本可以實(shí)現全自動(dòng)抓圖合并功能,直接輸出最終的文本文件。前面可能需要輸入最基本的網(wǎng)址、保存位置等信息(會(huì )有明顯的操作提示),調整章節后也可以一鍵抓取,抓取合并操作會(huì )自動(dòng)完成.
  5、Applicable網(wǎng)站:已經(jīng)輸入了10個(gè)適用的網(wǎng)站(選擇后可以快速打開(kāi)網(wǎng)站找到需要的書(shū)),也可以自動(dòng)應用相應的代碼,其他小說(shuō)也可以應用網(wǎng)站進(jìn)行測試,如果一起使用,可以手動(dòng)添加到配置文件中以備后用。
  6、電子書(shū)制作方便:可以在設置文件中添加各章節名稱(chēng)的前綴和后綴,為后期制作電子書(shū)目錄帶來(lái)極大的方便。
   查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(【IPO】抓取網(wǎng)絡(luò )小說(shuō)生成文本文件的軟件特色及制作方法
)
  網(wǎng)絡(luò )圖書(shū)抓取器主要用于抓取網(wǎng)絡(luò )小說(shuō)生成文本文件。它可以提取和調整指定小說(shuō)目錄頁(yè)面的章節信息,然后按照章節順序抓取小說(shuō)內容,然后進(jìn)行合并。抓取過(guò)程可以隨時(shí)中斷,關(guān)閉程序后可以繼續上一個(gè)任務(wù)。
  相關(guān)軟件軟件大小及版本說(shuō)明下載鏈接
  網(wǎng)絡(luò )圖書(shū)抓取器主要用于抓取網(wǎng)絡(luò )小說(shuō)生成文本文件。它可以提取和調整指定小說(shuō)目錄頁(yè)面的章節信息,然后按照章節順序抓取小說(shuō)內容,然后進(jìn)行合并。抓取過(guò)程可以隨時(shí)中斷,關(guān)閉程序后可以繼續上一個(gè)任務(wù)。
  
  軟件功能
  1、章節調整:提取目錄后,可以進(jìn)行移動(dòng)、刪除、倒序等調整操作。調整會(huì )直接影響最終的書(shū)籍,也會(huì )以調整后的章節順序輸出。
  2、Automatic retry:在爬取過(guò)程中,由于網(wǎng)絡(luò )因素,可能會(huì )出現爬取失敗的情況。程序可能會(huì )自動(dòng)重試直到成功,也可以暫時(shí)中斷爬?。ㄖ袛嗪箨P(guān)閉程序不影響進(jìn)度),待網(wǎng)絡(luò )良好后再試。
  3、Stop and resume:抓取過(guò)程可以隨時(shí)停止,退出程序后不影響進(jìn)度(章節信息會(huì )保存在記錄中,運行后可以恢復抓?。┫麓纬绦?。注意:需要先用停止按鈕中斷然后退出程序,如果直接退出,將不會(huì )恢復)。
  4、 一鍵抓圖:又稱(chēng)“傻瓜模式”,基本可以實(shí)現全自動(dòng)抓圖合并功能,直接輸出最終的文本文件。前面可能需要輸入最基本的網(wǎng)址、保存位置等信息(會(huì )有明顯的操作提示),調整章節后也可以一鍵抓取,抓取合并操作會(huì )自動(dòng)完成.
  5、Applicable網(wǎng)站:已經(jīng)輸入了10個(gè)適用的網(wǎng)站(選擇后可以快速打開(kāi)網(wǎng)站找到需要的書(shū)),也可以自動(dòng)應用相應的代碼,其他小說(shuō)也可以應用網(wǎng)站進(jìn)行測試,如果一起使用,可以手動(dòng)添加到配置文件中以備后用。
  6、電子書(shū)制作方便:可以在設置文件中添加各章節名稱(chēng)的前綴和后綴,為后期制作電子書(shū)目錄帶來(lái)極大的方便。
  

抓取網(wǎng)頁(yè)生成電子書(shū)(Python軟件體積有點(diǎn)大調用多個(gè)模塊的功能簡(jiǎn)介及下載)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 119 次瀏覽 ? 2021-09-13 00:21 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(Python軟件體積有點(diǎn)大調用多個(gè)模塊的功能簡(jiǎn)介及下載)
  主要功能:
  您可以提取指定小說(shuō)目錄頁(yè)的章節信息并進(jìn)行調整,然后按照章節順序抓取小說(shuō)內容,然后進(jìn)行合并。抓取過(guò)程可以隨時(shí)中斷,關(guān)閉程序后可以繼續上一個(gè)任務(wù)。
  軟件界面:
  
  特點(diǎn)
  1、章節調整:提取目錄后,可以進(jìn)行移動(dòng)、刪除、倒序等調整操作。調整會(huì )直接影響最終的書(shū)籍,也會(huì )以調整后的章節順序輸出。
  2、Automatic retry:在爬取過(guò)程中,由于網(wǎng)絡(luò )因素,可能會(huì )出現爬取失敗的情況。程序可能會(huì )自動(dòng)重試直到成功,也可以暫時(shí)中斷爬?。ㄖ袛嗪箨P(guān)閉程序不影響進(jìn)度),待網(wǎng)絡(luò )良好后再試。
  3、Stop and resume:抓取過(guò)程可以隨時(shí)停止,退出程序后不影響進(jìn)度(章節信息會(huì )保存在記錄中,運行后可以恢復抓?。┫麓纬绦?。注意:需要先用停止按鈕中斷然后退出程序,如果直接退出,將不會(huì )恢復)。
  4、 一鍵抓圖:又稱(chēng)“傻瓜模式”,基本可以實(shí)現全自動(dòng)抓圖合并功能,直接輸出最終的文本文件。前面可能需要輸入最基本的網(wǎng)址、保存位置等信息(會(huì )有明顯的操作提示),調整章節后也可以一鍵抓取,抓取合并操作會(huì )自動(dòng)完成.
  5、Applicable網(wǎng)站:已經(jīng)輸入了10個(gè)適用的網(wǎng)站(選擇后可以快速打開(kāi)網(wǎng)站找到需要的書(shū)),也可以自動(dòng)應用相應的代碼,其他小說(shuō)也可以應用網(wǎng)站進(jìn)行測試,如果一起使用,可以手動(dòng)添加到配置文件中以備后用。
  6、電子書(shū)制作方便:可以在設置文件中添加各章節名稱(chēng)的前綴和后綴,為后期制作電子書(shū)目錄帶來(lái)極大的方便。
  功能介紹:
  簡(jiǎn)介
  
  
  下載鏈接:
  鏈接:提取代碼:caf2是Python寫(xiě)的,調用了多個(gè)模塊,所以軟件有點(diǎn)大 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(Python軟件體積有點(diǎn)大調用多個(gè)模塊的功能簡(jiǎn)介及下載)
  主要功能:
  您可以提取指定小說(shuō)目錄頁(yè)的章節信息并進(jìn)行調整,然后按照章節順序抓取小說(shuō)內容,然后進(jìn)行合并。抓取過(guò)程可以隨時(shí)中斷,關(guān)閉程序后可以繼續上一個(gè)任務(wù)。
  軟件界面:
  
  特點(diǎn)
  1、章節調整:提取目錄后,可以進(jìn)行移動(dòng)、刪除、倒序等調整操作。調整會(huì )直接影響最終的書(shū)籍,也會(huì )以調整后的章節順序輸出。
  2、Automatic retry:在爬取過(guò)程中,由于網(wǎng)絡(luò )因素,可能會(huì )出現爬取失敗的情況。程序可能會(huì )自動(dòng)重試直到成功,也可以暫時(shí)中斷爬?。ㄖ袛嗪箨P(guān)閉程序不影響進(jìn)度),待網(wǎng)絡(luò )良好后再試。
  3、Stop and resume:抓取過(guò)程可以隨時(shí)停止,退出程序后不影響進(jìn)度(章節信息會(huì )保存在記錄中,運行后可以恢復抓?。┫麓纬绦?。注意:需要先用停止按鈕中斷然后退出程序,如果直接退出,將不會(huì )恢復)。
  4、 一鍵抓圖:又稱(chēng)“傻瓜模式”,基本可以實(shí)現全自動(dòng)抓圖合并功能,直接輸出最終的文本文件。前面可能需要輸入最基本的網(wǎng)址、保存位置等信息(會(huì )有明顯的操作提示),調整章節后也可以一鍵抓取,抓取合并操作會(huì )自動(dòng)完成.
  5、Applicable網(wǎng)站:已經(jīng)輸入了10個(gè)適用的網(wǎng)站(選擇后可以快速打開(kāi)網(wǎng)站找到需要的書(shū)),也可以自動(dòng)應用相應的代碼,其他小說(shuō)也可以應用網(wǎng)站進(jìn)行測試,如果一起使用,可以手動(dòng)添加到配置文件中以備后用。
  6、電子書(shū)制作方便:可以在設置文件中添加各章節名稱(chēng)的前綴和后綴,為后期制作電子書(shū)目錄帶來(lái)極大的方便。
  功能介紹:
  簡(jiǎn)介
  
  
  下載鏈接:
  鏈接:提取代碼:caf2是Python寫(xiě)的,調用了多個(gè)模塊,所以軟件有點(diǎn)大

抓取網(wǎng)頁(yè)生成電子書(shū)(通過(guò)Python和爬蟲(chóng),可以完成怎樣的小工具?|知乎)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 218 次瀏覽 ? 2021-09-11 20:00 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(通過(guò)Python和爬蟲(chóng),可以完成怎樣的小工具?|知乎)
  總有同學(xué)問(wèn),在學(xué)習了Python基礎之后,我不知道自己可以做些什么來(lái)提高。今天就用一個(gè)小例子來(lái)告訴大家通過(guò)Python和爬蟲(chóng)可以完成什么樣的小工具。
  在知乎上,你一定關(guān)注了一些不錯的專(zhuān)欄(比如Crossin的編程課堂)。但如果有一天,你最喜歡的受訪(fǎng)者在網(wǎng)上被噴,你一怒之下刪帖,停止更新,你就看不到這些好內容了。雖然這是小概率事件(以前沒(méi)有發(fā)生過(guò)),但你可以準備下雨天。您可以將您關(guān)注的專(zhuān)欄導出到電子書(shū),這樣您就可以離線(xiàn)閱讀,而不必擔心誤刪帖子。
  如果只需要工具和源碼,可以拉到文章底部獲取代碼。
  【最終效果】
  運行程序,輸入欄目id,即網(wǎng)頁(yè)地址上的路徑:
  
  
  之后程序會(huì )自動(dòng)抓取欄目中的文章,并根據發(fā)布時(shí)間合并導出為pdf文件。
  
  [實(shí)現思路]
  本程序主要分為三部分:
  抓取欄目文章地址列表抓取每個(gè)文章導出PDF1.抓取列表的詳細內容
  在之前的文章爬蟲(chóng)必備工具中,掌握了它就解決了一半的問(wèn)題,我介紹了如何分析網(wǎng)頁(yè)上的請求。按照方法,我們可以使用開(kāi)發(fā)者工具的Network功能,找出欄目頁(yè)面的請求,獲取詳細列表:
  https://www.zhihu.com/api/v4/c ... icles
  
  觀(guān)察返回的結果,我們發(fā)現通過(guò)next和is_end的值,可以得到下一個(gè)列表請求的地址(相當于頁(yè)面向下滾動(dòng)的觸發(fā)效果),判斷是否得到了全部文章。
  data中的id、title、url就是我們需要的數據。因為url可以用id拼寫(xiě),所以沒(méi)有保存在我們的代碼中。
  
  使用while循環(huán)直到文章的所有id和title都被捕獲并保存在文件中。
  while True:
resp = requests.get(url, headers=headers)
j = resp.json()
data = j[&#39;data&#39;]
for article in data:
# 保存id和title(略)
if j[&#39;paging&#39;][&#39;is_end&#39;]:
break
url = j[&#39;paging&#39;][&#39;next&#39;]
# 按 id 排序(略)
# 導入文件(略)
  
  2. 搶文章
  有了文章的所有id/url,后面的爬取就很簡(jiǎn)單了。 文章主要內容在Post-RichText標簽中。
  處理一些文字需要一點(diǎn)功夫,比如原頁(yè)面的圖片效果,會(huì )添加noscript標簽和data-actual、src="data:image等屬性,我們需要正常顯示刪除。
  url = &#39;https://zhuanlan.zhihu.com/p/&#39; + id
html = requests.get(url, headers=headers).text
soup = BeautifulSoup(html, &#39;lxml&#39;)
content = soup.find(class_=&#39;Post-RichText&#39;).prettify()
# 對content做處理(略)
with open(file_name, &#39;w&#39;) as f:
f.write(content)
  
  到這一步,所有的內容都已經(jīng)抓取完畢,可以在本地讀取了。
  3. 導出 PDF
  為了方便閱讀,我們使用 wkhtmltopdf + pdfkit 將這些 HTML 文件打包成 PDF。
  wkhtmltopdf 是一個(gè) HTML-to-PDF 工具,需要單獨安裝。詳情請參考其官網(wǎng)。
  pdfkit 是本工具打包的 Python 庫,可以從 pip 安裝:
  pip install pdfkit
  易于使用:
  # 獲取htmls文件名列表(略)
pdfkit.from_file(sorted(htmls), &#39;zhihu.pdf&#39;)
  
  這樣就完成了整列的導出。
  不止知乎columns,幾乎所有的信息網(wǎng)站都使用1.Grab List 2.Grab Details to 采集data 兩步。所以這段代碼只要稍加修改,就可以在許多其他網(wǎng)站中使用。只是有些網(wǎng)站需要登錄訪(fǎng)問(wèn),所以需要在headers中設置cookie信息。另外,不同的網(wǎng)站請求接口、參數、限制都不一樣,具體問(wèn)題還是要具體問(wèn)題具體分析。
  這些爬蟲(chóng)的開(kāi)發(fā)技巧可以在我們的爬蟲(chóng)實(shí)戰課中學(xué)習。如有需要,請在公眾號回復。爬蟲(chóng)實(shí)戰
  [源碼下載]
  獲取知乎專(zhuān)欄下載器源碼,請在公眾號(Crossin的編程課堂)回復關(guān)鍵詞知乎。
  除了代碼,還有本專(zhuān)欄打包好的PDF,歡迎閱讀分享。
  ====
  其他文章和回答:
  歡迎搜索關(guān)注:Crossin的編程課堂 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(通過(guò)Python和爬蟲(chóng),可以完成怎樣的小工具?|知乎)
  總有同學(xué)問(wèn),在學(xué)習了Python基礎之后,我不知道自己可以做些什么來(lái)提高。今天就用一個(gè)小例子來(lái)告訴大家通過(guò)Python和爬蟲(chóng)可以完成什么樣的小工具。
  在知乎上,你一定關(guān)注了一些不錯的專(zhuān)欄(比如Crossin的編程課堂)。但如果有一天,你最喜歡的受訪(fǎng)者在網(wǎng)上被噴,你一怒之下刪帖,停止更新,你就看不到這些好內容了。雖然這是小概率事件(以前沒(méi)有發(fā)生過(guò)),但你可以準備下雨天。您可以將您關(guān)注的專(zhuān)欄導出到電子書(shū),這樣您就可以離線(xiàn)閱讀,而不必擔心誤刪帖子。
  如果只需要工具和源碼,可以拉到文章底部獲取代碼。
  【最終效果】
  運行程序,輸入欄目id,即網(wǎng)頁(yè)地址上的路徑:
  
  
  之后程序會(huì )自動(dòng)抓取欄目中的文章,并根據發(fā)布時(shí)間合并導出為pdf文件。
  
  [實(shí)現思路]
  本程序主要分為三部分:
  抓取欄目文章地址列表抓取每個(gè)文章導出PDF1.抓取列表的詳細內容
  在之前的文章爬蟲(chóng)必備工具中,掌握了它就解決了一半的問(wèn)題,我介紹了如何分析網(wǎng)頁(yè)上的請求。按照方法,我們可以使用開(kāi)發(fā)者工具的Network功能,找出欄目頁(yè)面的請求,獲取詳細列表:
  https://www.zhihu.com/api/v4/c ... icles
  
  觀(guān)察返回的結果,我們發(fā)現通過(guò)next和is_end的值,可以得到下一個(gè)列表請求的地址(相當于頁(yè)面向下滾動(dòng)的觸發(fā)效果),判斷是否得到了全部文章。
  data中的id、title、url就是我們需要的數據。因為url可以用id拼寫(xiě),所以沒(méi)有保存在我們的代碼中。
  
  使用while循環(huán)直到文章的所有id和title都被捕獲并保存在文件中。
  while True:
resp = requests.get(url, headers=headers)
j = resp.json()
data = j[&#39;data&#39;]
for article in data:
# 保存id和title(略)
if j[&#39;paging&#39;][&#39;is_end&#39;]:
break
url = j[&#39;paging&#39;][&#39;next&#39;]
# 按 id 排序(略)
# 導入文件(略)
  
  2. 搶文章
  有了文章的所有id/url,后面的爬取就很簡(jiǎn)單了。 文章主要內容在Post-RichText標簽中。
  處理一些文字需要一點(diǎn)功夫,比如原頁(yè)面的圖片效果,會(huì )添加noscript標簽和data-actual、src="data:image等屬性,我們需要正常顯示刪除。
  url = &#39;https://zhuanlan.zhihu.com/p/&#39; + id
html = requests.get(url, headers=headers).text
soup = BeautifulSoup(html, &#39;lxml&#39;)
content = soup.find(class_=&#39;Post-RichText&#39;).prettify()
# 對content做處理(略)
with open(file_name, &#39;w&#39;) as f:
f.write(content)
  
  到這一步,所有的內容都已經(jīng)抓取完畢,可以在本地讀取了。
  3. 導出 PDF
  為了方便閱讀,我們使用 wkhtmltopdf + pdfkit 將這些 HTML 文件打包成 PDF。
  wkhtmltopdf 是一個(gè) HTML-to-PDF 工具,需要單獨安裝。詳情請參考其官網(wǎng)。
  pdfkit 是本工具打包的 Python 庫,可以從 pip 安裝:
  pip install pdfkit
  易于使用:
  # 獲取htmls文件名列表(略)
pdfkit.from_file(sorted(htmls), &#39;zhihu.pdf&#39;)
  
  這樣就完成了整列的導出。
  不止知乎columns,幾乎所有的信息網(wǎng)站都使用1.Grab List 2.Grab Details to 采集data 兩步。所以這段代碼只要稍加修改,就可以在許多其他網(wǎng)站中使用。只是有些網(wǎng)站需要登錄訪(fǎng)問(wèn),所以需要在headers中設置cookie信息。另外,不同的網(wǎng)站請求接口、參數、限制都不一樣,具體問(wèn)題還是要具體問(wèn)題具體分析。
  這些爬蟲(chóng)的開(kāi)發(fā)技巧可以在我們的爬蟲(chóng)實(shí)戰課中學(xué)習。如有需要,請在公眾號回復。爬蟲(chóng)實(shí)戰
  [源碼下載]
  獲取知乎專(zhuān)欄下載器源碼,請在公眾號(Crossin的編程課堂)回復關(guān)鍵詞知乎。
  除了代碼,還有本專(zhuān)欄打包好的PDF,歡迎閱讀分享。
  ====
  其他文章和回答:
  歡迎搜索關(guān)注:Crossin的編程課堂

抓取網(wǎng)頁(yè)生成電子書(shū)(《修真小主播》使用Scrapy抓取電子書(shū)爬蟲(chóng)思路怎么抓取數據)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 128 次瀏覽 ? 2021-09-11 19:15 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(《修真小主播》使用Scrapy抓取電子書(shū)爬蟲(chóng)思路怎么抓取數據)
  使用 Scrapy 抓取電子書(shū)
  爬蟲(chóng)創(chuàng )意
  如何抓取數據,首先要看從哪里獲取,打開(kāi)“修真小主播”頁(yè)面,如下:
  
  
  有一個(gè)目錄選項卡。單擊此選項卡可查看目錄。使用瀏覽器的元素查看工具,我們可以定位到各章節的目錄和相關(guān)信息。根據這些信息,我們可以抓取到特定的頁(yè)面:
  
  獲取章節地址
  現在我們打開(kāi)xzxzb.py文件,就是我們剛剛創(chuàng )建的爬蟲(chóng):
  # -*- coding: utf-8 -*-
import scrapy
class XzxzbSpider(scrapy.Spider):
name = &#39;xzxzb&#39;
allowed_domains = [&#39;qidian.com&#39;]
start_urls = [&#39;http://qidian.com/&#39;]
def parse(self, response):
pass
  start_urls 是目錄地址,爬蟲(chóng)會(huì )自動(dòng)爬取這個(gè)地址,然后在后面的解析中處理結果?,F在我們來(lái)編寫(xiě)代碼處理目錄數據,首先爬取小說(shuō)首頁(yè)獲取目錄列表:
  def parse(self, response):
pages = response.xpath(&#39;//div[@id="j-catalogWrap"]//ul[@class="cf"]/li&#39;)
for page in pages:
url = page.xpath(&#39;./child::a/attribute::href&#39;).extract()
print url
pass
  獲取網(wǎng)頁(yè)中的 DOM 數據有兩種方式,一種是使用 CSS 選擇器,另一種是使用 XML xPath 查詢(xún)。
  這里我們使用 xPath。請自行研究相關(guān)知識??瓷厦娴拇a。首先我們通過(guò)ID獲取目錄框,獲取類(lèi)cf獲取目錄列表:
  pages = response.xpath(&#39;//div[@id="j-catalogWrap"]//ul[@class="cf"]/li&#39;)
  接下來(lái)遍歷子節點(diǎn),查詢(xún)li標簽中子節點(diǎn)a的href屬性,最后打印出來(lái):
  for page in pages:
url = page.xpath(&#39;./child::a/attribute::href&#39;).extract()
print url
  這樣就可以說(shuō)是爬取章節路徑的小爬蟲(chóng)了。使用如下命令運行xzxzb爬蟲(chóng)查看結果:
  scrapy crawl xzxzb
  此時(shí),我們的程序可能會(huì )出現以下錯誤:
  …
ImportError: No module named win32api

  只需運行以下語(yǔ)句:
  pip install pypiwin32
  屏幕輸出如下:
  > ...
> [u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/wrrduN6auIlOBDFlr9quQA2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Jh-J5usgyW62uJcMpdsVgA2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/5YXHdBvg1ImaGfXRMrUjdw2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/fw5EBeKat-76ItTi_ILQ7A2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/KsFh5VutI6PwrjbX3WA1AA2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/-mpKJ01gPp1p4rPq4Fd4KQ2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/MlZSeYOQxSPM5j8_3RRvhw2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/5TXZqGvLi-3M5j8_3RRvhw2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/sysD-JPiugv4p8iEw--PPw2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/xGckZ01j64-aGfXRMrUjdw2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/72lHOJcgmedOBDFlr9quQA2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/cZkHZEYnPl22uJcMpdsVgA2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/vkNh45O3JsRMs5iq0oQwLQ2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/ge4m8RjJyPH6ItTi_ILQ7A2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Y33PuxrKT4dp4rPq4Fd4KQ2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/MDQznkrkiyXwrjbX3WA1AA2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/A2r-YTzWCYj6ItTi_ILQ7A2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Ng9CuONRKei2uJcMpdsVgA2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Q_AxWAge14pMs5iq0oQwLQ2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/ZJshvAu8TVVp4rPq4Fd4KQ2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/hYD2P4c5UB2aGfXRMrUjdw2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/muxiWf_jpqTgn4SMoDUcDQ2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/OQQ5jbADJjVp4rPq4Fd4KQ2&#39;]
> ...
  爬取章節路徑的小爬蟲(chóng)是寫(xiě)出來(lái)的,但是我們的目的不僅如此,我們會(huì )用這些地址來(lái)爬取內容:
  章節頁(yè)面分析
  接下來(lái)分析章節頁(yè)面。我們需要從章節頁(yè)面獲取標題和內容。
  如果說(shuō)到用于章節信息爬取的解析器方法,那么我們可以寫(xiě)一個(gè)爬取每個(gè)章節內容的方法,比如:parser_chapter,先看章節頁(yè)面的具體情況:
  
  可以看到,章節的全部?jì)热菰陬?lèi)名main-text-wrap的div標簽中,標題是類(lèi)名j_chapterName的h3標簽,具體內容是帶有類(lèi)名的div標簽類(lèi)名讀取內容 j_readContent。
  嘗試打印此內容:
  # -*- coding: utf-8 -*-
import scrapy
class XzxzbSpider(scrapy.Spider):
name = &#39;xzxzb&#39;
allowed_domains = [&#39;qidian.com&#39;]
start_urls = [&#39;https://book.qidian.com/info/1010780117/&#39;]
def parse(self, response):
pages = response.xpath(&#39;//div[@id="j-catalogWrap"]//ul[@class="cf"]/li&#39;)
for page in pages:
url = page.xpath(&#39;./child::a/attribute::href&#39;).extract_first()
# yield scrapy.Request(&#39;https:&#39; + url, callback=self.parse_chapter)
yield response.follow(url, callback=self.parse_chapter)
pass
def parse_chapter(self, response):
title = response.xpath(&#39;//div[@class="main-text-wrap"]//h3[@class="j_chapterName"]/text()&#39;).extract_first().strip()
content = response.xpath(&#39;//div[@class="main-text-wrap"]//div[@class="read-content j_readContent"]&#39;).extract_first().strip()
print title
# print content
pass
  在上一步中,我們得到了一個(gè)章節地址,它是輸出內容的相對路徑,所以我們使用了yield response.follow(url, callback=self.parse_chapter),第二個(gè)參數是一個(gè)回調函數,也就是對章節頁(yè)面進(jìn)行處理,爬到章節頁(yè)面后,我們解析頁(yè)面并將標題保存到文件中。
  next_page = response.urljoin(url)
yield scrapy.Request(next_page, callback=self.parse_chapter)
  Scrapy.Request 與使用 response.follow 不同。它需要通過(guò)相對路徑構造絕對路徑。 Response.follow可以直接使用相對路徑,不需要調用urljoin方法。
  注意response.follow直接返回一個(gè)Request實(shí)例,可以通過(guò)yield直接返回。
  獲取數據后,進(jìn)行存儲。既然我們想要html頁(yè)面,我們可以按標題存儲。代碼如下:
   def parse_chapter(self, response):
title = response.xpath(&#39;//div[@class="main-text-wrap"]//h3[@class="j_chapterName"]/text()&#39;).extract_first().strip()
content = response.xpath(&#39;//div[@class="main-text-wrap"]//div[@class="read-content j_readContent"]&#39;).extract_first().strip()
# print title
# print content
filename = &#39;./down/%s.html&#39; % (title)
with open(filename, &#39;wb&#39;) as f:
f.write(content.encode(&#39;utf-8&#39;))
pass
  到目前為止,我們已經(jīng)成功捕獲了我們的數據,但還不能直接使用,需要進(jìn)行排序和優(yōu)化。
  數據組織
  首先,我們爬下來(lái)的章節頁(yè)面的排序不是很好。如果人工分揀花費太多時(shí)間和精力;另外,章節內容收錄很多額外的東西,閱讀體驗并不好。我們需要對內容的布局和布局進(jìn)行優(yōu)化??勺x性。
  我們先對章節進(jìn)行排序,因為目錄中的章節列表是按順序排列的,所以我們只需要在下載頁(yè)面名稱(chēng)后加上一個(gè)序號即可。
  但是保存網(wǎng)頁(yè)的代碼是一個(gè)回調函數。只有在處理目錄時(shí)才能確定順序?;卣{函數如何知道訂單?因此,我們需要告訴回調函數處理章節的序號,并且需要向回調函數傳遞參數。修改后的代碼如下所示:
  def parse(self, response):
pages = response.xpath(&#39;//div[@id="j-catalogWrap"]//ul[@class="cf"]/li&#39;)
for page in pages:
url = page.xpath(&#39;./child::a/attribute::href&#39;).extract_first()
idx = page.xpath(&#39;./attribute::data-rid&#39;).extract_first()
# yield scrapy.Request(&#39;https:&#39; + url, callback=self.parse_chapter)
req = response.follow(url, callback=self.parse_chapter)
req.meta[&#39;idx&#39;] = idx
yield req
pass
def parse_chapter(self, response):
idx = response.meta[&#39;idx&#39;]
title = response.xpath(&#39;//div[@class="main-text-wrap"]//h3[@class="j_chapterName"]/text()&#39;).extract_first().strip()
content = response.xpath(&#39;//div[@class="main-text-wrap"]//div[@class="read-content j_readContent"]&#39;).extract_first().strip()
# print title
# print content
filename = &#39;./down/%s_%s.html&#39; % (idx, title)
cnt = &#39;%s %s&#39; % (title, content)
with open(filename, &#39;wb&#39;) as f:
f.write(cnt.encode(&#39;utf-8&#39;))
pass
  使用 Sigil 制作電子書(shū)
  加載html文件
  要制作ePub電子書(shū),我們首先通過(guò)Sigil將我們抓取到的文件加載到程序中,在添加文件對話(huà)框中,我們選擇所有文件:
  
  制作目錄
  當文件中存在HTML的h標簽時(shí),點(diǎn)擊Generate Catalog按鈕自動(dòng)生成目錄。我們在之前的數據捕獲過(guò)程中自動(dòng)添加了 h1 標簽:
  
  做個(gè)封面
  
  封面本質(zhì)上是HTML,可以從頁(yè)面中編輯或抓取,就交給你自己實(shí)現吧。
  
  *免責聲明:本文整理于網(wǎng)絡(luò ),版權歸原作者所有。如來(lái)源信息有誤或侵權,請聯(lián)系我們進(jìn)行刪除或授權。 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(《修真小主播》使用Scrapy抓取電子書(shū)爬蟲(chóng)思路怎么抓取數據)
  使用 Scrapy 抓取電子書(shū)
  爬蟲(chóng)創(chuàng )意
  如何抓取數據,首先要看從哪里獲取,打開(kāi)“修真小主播”頁(yè)面,如下:
  
  
  有一個(gè)目錄選項卡。單擊此選項卡可查看目錄。使用瀏覽器的元素查看工具,我們可以定位到各章節的目錄和相關(guān)信息。根據這些信息,我們可以抓取到特定的頁(yè)面:
  
  獲取章節地址
  現在我們打開(kāi)xzxzb.py文件,就是我們剛剛創(chuàng )建的爬蟲(chóng):
  # -*- coding: utf-8 -*-
import scrapy
class XzxzbSpider(scrapy.Spider):
name = &#39;xzxzb&#39;
allowed_domains = [&#39;qidian.com&#39;]
start_urls = [&#39;http://qidian.com/&#39;]
def parse(self, response):
pass
  start_urls 是目錄地址,爬蟲(chóng)會(huì )自動(dòng)爬取這個(gè)地址,然后在后面的解析中處理結果?,F在我們來(lái)編寫(xiě)代碼處理目錄數據,首先爬取小說(shuō)首頁(yè)獲取目錄列表:
  def parse(self, response):
pages = response.xpath(&#39;//div[@id="j-catalogWrap"]//ul[@class="cf"]/li&#39;)
for page in pages:
url = page.xpath(&#39;./child::a/attribute::href&#39;).extract()
print url
pass
  獲取網(wǎng)頁(yè)中的 DOM 數據有兩種方式,一種是使用 CSS 選擇器,另一種是使用 XML xPath 查詢(xún)。
  這里我們使用 xPath。請自行研究相關(guān)知識??瓷厦娴拇a。首先我們通過(guò)ID獲取目錄框,獲取類(lèi)cf獲取目錄列表:
  pages = response.xpath(&#39;//div[@id="j-catalogWrap"]//ul[@class="cf"]/li&#39;)
  接下來(lái)遍歷子節點(diǎn),查詢(xún)li標簽中子節點(diǎn)a的href屬性,最后打印出來(lái):
  for page in pages:
url = page.xpath(&#39;./child::a/attribute::href&#39;).extract()
print url
  這樣就可以說(shuō)是爬取章節路徑的小爬蟲(chóng)了。使用如下命令運行xzxzb爬蟲(chóng)查看結果:
  scrapy crawl xzxzb
  此時(shí),我們的程序可能會(huì )出現以下錯誤:
  …
ImportError: No module named win32api

  只需運行以下語(yǔ)句:
  pip install pypiwin32
  屏幕輸出如下:
  > ...
> [u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/wrrduN6auIlOBDFlr9quQA2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Jh-J5usgyW62uJcMpdsVgA2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/5YXHdBvg1ImaGfXRMrUjdw2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/fw5EBeKat-76ItTi_ILQ7A2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/KsFh5VutI6PwrjbX3WA1AA2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/-mpKJ01gPp1p4rPq4Fd4KQ2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/MlZSeYOQxSPM5j8_3RRvhw2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/5TXZqGvLi-3M5j8_3RRvhw2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/sysD-JPiugv4p8iEw--PPw2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/xGckZ01j64-aGfXRMrUjdw2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/72lHOJcgmedOBDFlr9quQA2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/cZkHZEYnPl22uJcMpdsVgA2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/vkNh45O3JsRMs5iq0oQwLQ2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/ge4m8RjJyPH6ItTi_ILQ7A2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Y33PuxrKT4dp4rPq4Fd4KQ2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/MDQznkrkiyXwrjbX3WA1AA2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/A2r-YTzWCYj6ItTi_ILQ7A2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Ng9CuONRKei2uJcMpdsVgA2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Q_AxWAge14pMs5iq0oQwLQ2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/ZJshvAu8TVVp4rPq4Fd4KQ2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/hYD2P4c5UB2aGfXRMrUjdw2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/muxiWf_jpqTgn4SMoDUcDQ2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/OQQ5jbADJjVp4rPq4Fd4KQ2&#39;]
> ...
  爬取章節路徑的小爬蟲(chóng)是寫(xiě)出來(lái)的,但是我們的目的不僅如此,我們會(huì )用這些地址來(lái)爬取內容:
  章節頁(yè)面分析
  接下來(lái)分析章節頁(yè)面。我們需要從章節頁(yè)面獲取標題和內容。
  如果說(shuō)到用于章節信息爬取的解析器方法,那么我們可以寫(xiě)一個(gè)爬取每個(gè)章節內容的方法,比如:parser_chapter,先看章節頁(yè)面的具體情況:
  
  可以看到,章節的全部?jì)热菰陬?lèi)名main-text-wrap的div標簽中,標題是類(lèi)名j_chapterName的h3標簽,具體內容是帶有類(lèi)名的div標簽類(lèi)名讀取內容 j_readContent。
  嘗試打印此內容:
  # -*- coding: utf-8 -*-
import scrapy
class XzxzbSpider(scrapy.Spider):
name = &#39;xzxzb&#39;
allowed_domains = [&#39;qidian.com&#39;]
start_urls = [&#39;https://book.qidian.com/info/1010780117/&#39;]
def parse(self, response):
pages = response.xpath(&#39;//div[@id="j-catalogWrap"]//ul[@class="cf"]/li&#39;)
for page in pages:
url = page.xpath(&#39;./child::a/attribute::href&#39;).extract_first()
# yield scrapy.Request(&#39;https:&#39; + url, callback=self.parse_chapter)
yield response.follow(url, callback=self.parse_chapter)
pass
def parse_chapter(self, response):
title = response.xpath(&#39;//div[@class="main-text-wrap"]//h3[@class="j_chapterName"]/text()&#39;).extract_first().strip()
content = response.xpath(&#39;//div[@class="main-text-wrap"]//div[@class="read-content j_readContent"]&#39;).extract_first().strip()
print title
# print content
pass
  在上一步中,我們得到了一個(gè)章節地址,它是輸出內容的相對路徑,所以我們使用了yield response.follow(url, callback=self.parse_chapter),第二個(gè)參數是一個(gè)回調函數,也就是對章節頁(yè)面進(jìn)行處理,爬到章節頁(yè)面后,我們解析頁(yè)面并將標題保存到文件中。
  next_page = response.urljoin(url)
yield scrapy.Request(next_page, callback=self.parse_chapter)
  Scrapy.Request 與使用 response.follow 不同。它需要通過(guò)相對路徑構造絕對路徑。 Response.follow可以直接使用相對路徑,不需要調用urljoin方法。
  注意response.follow直接返回一個(gè)Request實(shí)例,可以通過(guò)yield直接返回。
  獲取數據后,進(jìn)行存儲。既然我們想要html頁(yè)面,我們可以按標題存儲。代碼如下:
   def parse_chapter(self, response):
title = response.xpath(&#39;//div[@class="main-text-wrap"]//h3[@class="j_chapterName"]/text()&#39;).extract_first().strip()
content = response.xpath(&#39;//div[@class="main-text-wrap"]//div[@class="read-content j_readContent"]&#39;).extract_first().strip()
# print title
# print content
filename = &#39;./down/%s.html&#39; % (title)
with open(filename, &#39;wb&#39;) as f:
f.write(content.encode(&#39;utf-8&#39;))
pass
  到目前為止,我們已經(jīng)成功捕獲了我們的數據,但還不能直接使用,需要進(jìn)行排序和優(yōu)化。
  數據組織
  首先,我們爬下來(lái)的章節頁(yè)面的排序不是很好。如果人工分揀花費太多時(shí)間和精力;另外,章節內容收錄很多額外的東西,閱讀體驗并不好。我們需要對內容的布局和布局進(jìn)行優(yōu)化??勺x性。
  我們先對章節進(jìn)行排序,因為目錄中的章節列表是按順序排列的,所以我們只需要在下載頁(yè)面名稱(chēng)后加上一個(gè)序號即可。
  但是保存網(wǎng)頁(yè)的代碼是一個(gè)回調函數。只有在處理目錄時(shí)才能確定順序?;卣{函數如何知道訂單?因此,我們需要告訴回調函數處理章節的序號,并且需要向回調函數傳遞參數。修改后的代碼如下所示:
  def parse(self, response):
pages = response.xpath(&#39;//div[@id="j-catalogWrap"]//ul[@class="cf"]/li&#39;)
for page in pages:
url = page.xpath(&#39;./child::a/attribute::href&#39;).extract_first()
idx = page.xpath(&#39;./attribute::data-rid&#39;).extract_first()
# yield scrapy.Request(&#39;https:&#39; + url, callback=self.parse_chapter)
req = response.follow(url, callback=self.parse_chapter)
req.meta[&#39;idx&#39;] = idx
yield req
pass
def parse_chapter(self, response):
idx = response.meta[&#39;idx&#39;]
title = response.xpath(&#39;//div[@class="main-text-wrap"]//h3[@class="j_chapterName"]/text()&#39;).extract_first().strip()
content = response.xpath(&#39;//div[@class="main-text-wrap"]//div[@class="read-content j_readContent"]&#39;).extract_first().strip()
# print title
# print content
filename = &#39;./down/%s_%s.html&#39; % (idx, title)
cnt = &#39;%s %s&#39; % (title, content)
with open(filename, &#39;wb&#39;) as f:
f.write(cnt.encode(&#39;utf-8&#39;))
pass
  使用 Sigil 制作電子書(shū)
  加載html文件
  要制作ePub電子書(shū),我們首先通過(guò)Sigil將我們抓取到的文件加載到程序中,在添加文件對話(huà)框中,我們選擇所有文件:
  
  制作目錄
  當文件中存在HTML的h標簽時(shí),點(diǎn)擊Generate Catalog按鈕自動(dòng)生成目錄。我們在之前的數據捕獲過(guò)程中自動(dòng)添加了 h1 標簽:
  
  做個(gè)封面
  
  封面本質(zhì)上是HTML,可以從頁(yè)面中編輯或抓取,就交給你自己實(shí)現吧。
  
  *免責聲明:本文整理于網(wǎng)絡(luò ),版權歸原作者所有。如來(lái)源信息有誤或侵權,請聯(lián)系我們進(jìn)行刪除或授權。

抓取網(wǎng)頁(yè)生成電子書(shū)(如何將網(wǎng)頁(yè)文章批量抓取、生成電子書(shū)、直接推送到Kindle)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 470 次瀏覽 ? 2021-09-11 19:09 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(如何將網(wǎng)頁(yè)文章批量抓取、生成電子書(shū)、直接推送到Kindle)
  我一直在研究如何將我關(guān)注的網(wǎng)頁(yè)或文章安裝到Kindle中進(jìn)行認真閱讀,但很長(cháng)時(shí)間沒(méi)有真正的進(jìn)展。手動(dòng)格式化書(shū)籍制作電子書(shū)的方法雖然簡(jiǎn)單易行,但對于短小且更新頻繁的網(wǎng)頁(yè)文章來(lái)說(shuō)效率低下。如果有工具可以批量抓取網(wǎng)頁(yè)文章,生成電子書(shū),直接推送到Kindle上就好了。 Doocer 是一個(gè)非常有用的工具。
  Doocer 是@lepture 開(kāi)發(fā)的在線(xiàn)服務(wù),允許用戶(hù)在 Pocket 的后期閱讀賬戶(hù)中提交 URL、RSS 提要地址和文章,然后將它們一一制作成 ePub、MOBI 電子書(shū)或在批次??梢灾苯釉?Doocer 中閱讀所有文章,也可以推送到 Kindle、Apple Books 閱讀。
  
  閱讀體驗非常好
  Doocer 生成的電子書(shū)格式良好且引人注目。應該有的內容就多,不應該的內容也不多。本書(shū)不僅封面有圖文,還有文章directory、網(wǎng)站源、文章原作者等信息。 Doocer生成的MOBI電子書(shū)支持KF8標準,所以支持 Kindle 原生替換自定義字體。
  由于網(wǎng)站文章通常都有標準和通用的排版規范,所以Doocer生成的電子書(shū)文章中的大小、標題和列表圖例與原網(wǎng)頁(yè)文章高度一致@。原文章中的超鏈接也全部保留,評論信息、廣告等內容全部丟棄。全書(shū)的閱讀體驗非常友好。 (當然,如果原網(wǎng)頁(yè)文章的布局亂了,那么生成的電子書(shū)也可能完全不一樣。)
  
  將網(wǎng)頁(yè)文章制作成電子書(shū)
  Doocer 完成注冊和登錄后,我們就可以開(kāi)始將網(wǎng)頁(yè)文章 制作成電子書(shū)了。首先,我們點(diǎn)擊“NEW BOOK”按鈕新建電子書(shū),輸入電子書(shū)書(shū)名。然后在右上角選擇“添加”添加文章 URL或RSS提要地址。
  
  以小眾網(wǎng)頁(yè)的文章為例,我們選擇“FEED”,在輸入框中粘貼RSS地址,然后點(diǎn)擊“PARSE”,那么小眾文章的最近列表就是顯示給我們添加。我們可以根據需要選擇,也可以點(diǎn)擊“全選”來(lái)全選文章。最后,下拉到頁(yè)面底部,選擇“保存”,這些文章就會(huì )被添加到書(shū)中。
  
  實(shí)際上,Doocer 網(wǎng)頁(yè)與 RSS 工具非常相似。實(shí)現了從網(wǎng)站批量抓取文章并集中展示的功能。
  
  要將這些文章轉換成電子書(shū)并推送到Kindle,我們需要進(jìn)行一些簡(jiǎn)單的操作。
  首先,根據Doocer個(gè)人設置頁(yè)面的提示,我們打開(kāi)Amazon Kindle的個(gè)人文檔設置,在個(gè)人文檔接收地址中添加Doocer電子書(shū)的發(fā)送地址。完成后,我們再在輸入框中填寫(xiě)Kindle的個(gè)人文檔接收地址,點(diǎn)擊保存。
  
  最后,我們在 Doocer 中打開(kāi)《少數派》這本書(shū),在頁(yè)面上找到“發(fā)布”,然后選擇發(fā)送到 Kindle。大約 10-30 分鐘,Doocer 將完成圖書(shū)制作并將圖書(shū)推送到 Kindle。
  
  還有一些問(wèn)題需要注意
  Doocer目前處于Beta測試階段,還存在一些bug,尤其是中文網(wǎng)站經(jīng)常出現問(wèn)題。好在Doocer官網(wǎng)有開(kāi)發(fā)者對話(huà)頻道,可以直接聯(lián)系他幫忙解決。
  實(shí)現所有操作的自動(dòng)化流程是我認為Doocer最需要努力的方向。 Doocer可以像RSS工具一樣抓取網(wǎng)頁(yè)中更新的文章,但仍然需要手動(dòng)抓取新的文章抓取并生成電子書(shū)并推送。如果整個(gè)過(guò)程可以自動(dòng)化,RSS-MOBI-Kindle就可以一次搞定,相信實(shí)用性會(huì )更高。
  目前,Doocer 的所有功能均可免費使用。 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(如何將網(wǎng)頁(yè)文章批量抓取、生成電子書(shū)、直接推送到Kindle)
  我一直在研究如何將我關(guān)注的網(wǎng)頁(yè)或文章安裝到Kindle中進(jìn)行認真閱讀,但很長(cháng)時(shí)間沒(méi)有真正的進(jìn)展。手動(dòng)格式化書(shū)籍制作電子書(shū)的方法雖然簡(jiǎn)單易行,但對于短小且更新頻繁的網(wǎng)頁(yè)文章來(lái)說(shuō)效率低下。如果有工具可以批量抓取網(wǎng)頁(yè)文章,生成電子書(shū),直接推送到Kindle上就好了。 Doocer 是一個(gè)非常有用的工具。
  Doocer 是@lepture 開(kāi)發(fā)的在線(xiàn)服務(wù),允許用戶(hù)在 Pocket 的后期閱讀賬戶(hù)中提交 URL、RSS 提要地址和文章,然后將它們一一制作成 ePub、MOBI 電子書(shū)或在批次??梢灾苯釉?Doocer 中閱讀所有文章,也可以推送到 Kindle、Apple Books 閱讀。
  
  閱讀體驗非常好
  Doocer 生成的電子書(shū)格式良好且引人注目。應該有的內容就多,不應該的內容也不多。本書(shū)不僅封面有圖文,還有文章directory、網(wǎng)站源、文章原作者等信息。 Doocer生成的MOBI電子書(shū)支持KF8標準,所以支持 Kindle 原生替換自定義字體。
  由于網(wǎng)站文章通常都有標準和通用的排版規范,所以Doocer生成的電子書(shū)文章中的大小、標題和列表圖例與原網(wǎng)頁(yè)文章高度一致@。原文章中的超鏈接也全部保留,評論信息、廣告等內容全部丟棄。全書(shū)的閱讀體驗非常友好。 (當然,如果原網(wǎng)頁(yè)文章的布局亂了,那么生成的電子書(shū)也可能完全不一樣。)
  
  將網(wǎng)頁(yè)文章制作成電子書(shū)
  Doocer 完成注冊和登錄后,我們就可以開(kāi)始將網(wǎng)頁(yè)文章 制作成電子書(shū)了。首先,我們點(diǎn)擊“NEW BOOK”按鈕新建電子書(shū),輸入電子書(shū)書(shū)名。然后在右上角選擇“添加”添加文章 URL或RSS提要地址。
  
  以小眾網(wǎng)頁(yè)的文章為例,我們選擇“FEED”,在輸入框中粘貼RSS地址,然后點(diǎn)擊“PARSE”,那么小眾文章的最近列表就是顯示給我們添加。我們可以根據需要選擇,也可以點(diǎn)擊“全選”來(lái)全選文章。最后,下拉到頁(yè)面底部,選擇“保存”,這些文章就會(huì )被添加到書(shū)中。
  
  實(shí)際上,Doocer 網(wǎng)頁(yè)與 RSS 工具非常相似。實(shí)現了從網(wǎng)站批量抓取文章并集中展示的功能。
  
  要將這些文章轉換成電子書(shū)并推送到Kindle,我們需要進(jìn)行一些簡(jiǎn)單的操作。
  首先,根據Doocer個(gè)人設置頁(yè)面的提示,我們打開(kāi)Amazon Kindle的個(gè)人文檔設置,在個(gè)人文檔接收地址中添加Doocer電子書(shū)的發(fā)送地址。完成后,我們再在輸入框中填寫(xiě)Kindle的個(gè)人文檔接收地址,點(diǎn)擊保存。
  
  最后,我們在 Doocer 中打開(kāi)《少數派》這本書(shū),在頁(yè)面上找到“發(fā)布”,然后選擇發(fā)送到 Kindle。大約 10-30 分鐘,Doocer 將完成圖書(shū)制作并將圖書(shū)推送到 Kindle。
  
  還有一些問(wèn)題需要注意
  Doocer目前處于Beta測試階段,還存在一些bug,尤其是中文網(wǎng)站經(jīng)常出現問(wèn)題。好在Doocer官網(wǎng)有開(kāi)發(fā)者對話(huà)頻道,可以直接聯(lián)系他幫忙解決。
  實(shí)現所有操作的自動(dòng)化流程是我認為Doocer最需要努力的方向。 Doocer可以像RSS工具一樣抓取網(wǎng)頁(yè)中更新的文章,但仍然需要手動(dòng)抓取新的文章抓取并生成電子書(shū)并推送。如果整個(gè)過(guò)程可以自動(dòng)化,RSS-MOBI-Kindle就可以一次搞定,相信實(shí)用性會(huì )更高。
  目前,Doocer 的所有功能均可免費使用。

抓取網(wǎng)頁(yè)生成電子書(shū)(導入網(wǎng)頁(yè)生成電子書(shū)看書(shū)一個(gè)基于http的任務(wù)(組圖))

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 229 次瀏覽 ? 2021-09-11 05:01 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(導入網(wǎng)頁(yè)生成電子書(shū)看書(shū)一個(gè)基于http的任務(wù)(組圖))
  抓取網(wǎng)頁(yè)生成電子書(shū)看書(shū)一個(gè)基于http的任務(wù),利用這個(gè)電子書(shū)網(wǎng)站可以把所有電子書(shū)導入到kindle中進(jìn)行閱讀第一步,打開(kāi)本地的電子書(shū)首頁(yè),導入本地電子書(shū)一步:select擇取標題、作者、索引、圖書(shū)名、作者簽名二步:add連接電子書(shū)并connect到kindle三步:save把電子書(shū)保存到本地用開(kāi)源的git或者百度云保存,網(wǎng)頁(yè)版瀏覽器還可以直接按圖標搜索打開(kāi)電子書(shū)四步:kindle閱讀本地電子書(shū)的同時(shí)可以給每個(gè)筆記分類(lèi),利用中文書(shū)名去搜索也可以去一個(gè)rss看看全國圖書(shū)館借閱書(shū)庫。
  然后把這些書(shū)直接導入到kindle里面。先不看注冊有很多方法,我選擇最簡(jiǎn)單的就是注冊一個(gè)uac,方便自己折騰。通過(guò)connectuac給電子書(shū)導入:sendmailchrome插件即可導入導出全部電子書(shū):連接之后http,翻頁(yè)操作完畢后f12鍵顯示(顯示或者隱藏::servertimeout),復制轉發(fā)的http響應地址到本地。
  xmarks方法(點(diǎn)擊:獲取kindle書(shū)籍書(shū)名):formattextxxxhttp://|text=xxx{%e5%9b%bd%e5%80%87%e5%9f%8b%e8%8d%90%e7%9a%84%e8%8d%90%e8%8f%a6%e8%ae%9e%e8%ae%8c%e4%b9%88%e8%9f%8b%e8%af%8f%e7%9a%84%e8%80%91%e8%8a%91%e8%81%b3%e4%b9%88%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%8a%81%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%80%91%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%80%91%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%80%91%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%80%91%e8%80%91%e8%80%91%e8%80%91%e8%80%91%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af。 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(導入網(wǎng)頁(yè)生成電子書(shū)看書(shū)一個(gè)基于http的任務(wù)(組圖))
  抓取網(wǎng)頁(yè)生成電子書(shū)看書(shū)一個(gè)基于http的任務(wù),利用這個(gè)電子書(shū)網(wǎng)站可以把所有電子書(shū)導入到kindle中進(jìn)行閱讀第一步,打開(kāi)本地的電子書(shū)首頁(yè),導入本地電子書(shū)一步:select擇取標題、作者、索引、圖書(shū)名、作者簽名二步:add連接電子書(shū)并connect到kindle三步:save把電子書(shū)保存到本地用開(kāi)源的git或者百度云保存,網(wǎng)頁(yè)版瀏覽器還可以直接按圖標搜索打開(kāi)電子書(shū)四步:kindle閱讀本地電子書(shū)的同時(shí)可以給每個(gè)筆記分類(lèi),利用中文書(shū)名去搜索也可以去一個(gè)rss看看全國圖書(shū)館借閱書(shū)庫。
  然后把這些書(shū)直接導入到kindle里面。先不看注冊有很多方法,我選擇最簡(jiǎn)單的就是注冊一個(gè)uac,方便自己折騰。通過(guò)connectuac給電子書(shū)導入:sendmailchrome插件即可導入導出全部電子書(shū):連接之后http,翻頁(yè)操作完畢后f12鍵顯示(顯示或者隱藏::servertimeout),復制轉發(fā)的http響應地址到本地。
  xmarks方法(點(diǎn)擊:獲取kindle書(shū)籍書(shū)名):formattextxxxhttp://|text=xxx{%e5%9b%bd%e5%80%87%e5%9f%8b%e8%8d%90%e7%9a%84%e8%8d%90%e8%8f%a6%e8%ae%9e%e8%ae%8c%e4%b9%88%e8%9f%8b%e8%af%8f%e7%9a%84%e8%80%91%e8%8a%91%e8%81%b3%e4%b9%88%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%8a%81%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%80%91%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%80%91%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%80%91%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%80%91%e8%80%91%e8%80%91%e8%80%91%e8%80%91%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af。

抓取網(wǎng)頁(yè)生成電子書(shū)(如何閱讀第一遍純文本電子書(shū)的app推薦一下?)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 256 次瀏覽 ? 2021-09-09 08:01 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(如何閱讀第一遍純文本電子書(shū)的app推薦一下?)
  抓取網(wǎng)頁(yè)生成電子書(shū)有很多種方法,目前已知的有:1.掃描儀掃描,這種方法大部分可以實(shí)現,適合無(wú)法將書(shū)籍內容重新掃描到電子書(shū)資源的讀者;2.手機,平板等電子產(chǎn)品掃描,這種方法掃描效果極差,會(huì )有廣告,加載時(shí)間等問(wèn)題,適合網(wǎng)絡(luò )不好,電子書(shū)資源量少的讀者。4.云端搜索,將某本電子書(shū)放在云端,找到你要看的電子書(shū),直接訪(fǎng)問(wèn)即可,這種方法是目前最快最方便的方法,很多從事文學(xué)藝術(shù)研究的人,研究生博士生大都采用該方法,原因也在于方便快捷,不用自己爬取。
  搜狗
  小說(shuō)云吧,
  手機可以用下網(wǎng)易云閱讀,電腦可以用ireader,推薦ireader。
  手機安裝app:看書(shū)的星和我!
  搜狐小說(shuō)的免費版可以轉換到電子書(shū),然后電子書(shū)到kindle,kindle看。用金山免費版。
  基本方法:翻譯文本(把原著(zhù)的內容翻譯成中文)再轉換回原文參考:如何閱讀第一遍純文本電子書(shū)
  有沒(méi)有你使用過(guò)的,或者你想把書(shū)轉換成電子書(shū)的app推薦一下?-知乎用戶(hù)的回答目前較好的解決方案有兩個(gè):一、node.js技術(shù)實(shí)現(前后端分離),需要用到express框架;(依賴(lài)node.js并不大?;緅ava/php/.net/python這些語(yǔ)言的都可以。只要做好代碼熱更新。有tomcat和sqlalchemy兩種數據庫或兩種后端語(yǔ)言或兩種數據庫。
 ?。┗谶@個(gè)技術(shù)實(shí)現,github上還有一個(gè)正在維護的express版本的項目:;bootstrap=beautiful-appfirst-personcrawlingphotos二、python+node.js實(shí)現?;陧椖渴醉?yè)上的現成代碼photo(photoior).上,制作了一個(gè)瀏覽器端的實(shí)現,并發(fā)布到了github:主要實(shí)現的依據是:并發(fā)性、體驗也不錯、還有免費版。onedayphotofox.。 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(如何閱讀第一遍純文本電子書(shū)的app推薦一下?)
  抓取網(wǎng)頁(yè)生成電子書(shū)有很多種方法,目前已知的有:1.掃描儀掃描,這種方法大部分可以實(shí)現,適合無(wú)法將書(shū)籍內容重新掃描到電子書(shū)資源的讀者;2.手機,平板等電子產(chǎn)品掃描,這種方法掃描效果極差,會(huì )有廣告,加載時(shí)間等問(wèn)題,適合網(wǎng)絡(luò )不好,電子書(shū)資源量少的讀者。4.云端搜索,將某本電子書(shū)放在云端,找到你要看的電子書(shū),直接訪(fǎng)問(wèn)即可,這種方法是目前最快最方便的方法,很多從事文學(xué)藝術(shù)研究的人,研究生博士生大都采用該方法,原因也在于方便快捷,不用自己爬取。
  搜狗
  小說(shuō)云吧,
  手機可以用下網(wǎng)易云閱讀,電腦可以用ireader,推薦ireader。
  手機安裝app:看書(shū)的星和我!
  搜狐小說(shuō)的免費版可以轉換到電子書(shū),然后電子書(shū)到kindle,kindle看。用金山免費版。
  基本方法:翻譯文本(把原著(zhù)的內容翻譯成中文)再轉換回原文參考:如何閱讀第一遍純文本電子書(shū)
  有沒(méi)有你使用過(guò)的,或者你想把書(shū)轉換成電子書(shū)的app推薦一下?-知乎用戶(hù)的回答目前較好的解決方案有兩個(gè):一、node.js技術(shù)實(shí)現(前后端分離),需要用到express框架;(依賴(lài)node.js并不大?;緅ava/php/.net/python這些語(yǔ)言的都可以。只要做好代碼熱更新。有tomcat和sqlalchemy兩種數據庫或兩種后端語(yǔ)言或兩種數據庫。
 ?。┗谶@個(gè)技術(shù)實(shí)現,github上還有一個(gè)正在維護的express版本的項目:;bootstrap=beautiful-appfirst-personcrawlingphotos二、python+node.js實(shí)現?;陧椖渴醉?yè)上的現成代碼photo(photoior).上,制作了一個(gè)瀏覽器端的實(shí)現,并發(fā)布到了github:主要實(shí)現的依據是:并發(fā)性、體驗也不錯、還有免費版。onedayphotofox.。

抓取網(wǎng)頁(yè)生成電子書(shū)(如何將網(wǎng)頁(yè)文章批量抓取、生成電子書(shū)、直接推送到Kindle)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 538 次瀏覽 ? 2021-09-16 16:03 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(如何將網(wǎng)頁(yè)文章批量抓取、生成電子書(shū)、直接推送到Kindle)
  我一直在研究如何將相關(guān)網(wǎng)頁(yè)或文章放入Kindle進(jìn)行認真閱讀,但很長(cháng)一段時(shí)間以來(lái)我沒(méi)有取得任何實(shí)際進(jìn)展。雖然通過(guò)手工排版制作電子書(shū)的方法簡(jiǎn)單易行,但對于簡(jiǎn)短且頻繁更新的網(wǎng)頁(yè)來(lái)說(shuō),這種方法效率低下文章. 如果有一個(gè)工具可以批量抓取文章的網(wǎng)頁(yè),生成電子書(shū)并將其直接推送到Kindle上,那就太好了。涂鴉就是這樣一個(gè)工具
  Doocer是@lepture開(kāi)發(fā)的在線(xiàn)服務(wù)。它允許用戶(hù)提交web地址、RSS提要地址和pocket,以便以后在帳戶(hù)中閱讀文章,然后逐個(gè)或批量制作ePub和Mobi電子書(shū)。您可以直接在doocer中閱讀所有文章,也可以將它們推到kindle或apple books上
  
  閱讀體驗真的很好
  doocer制作的電子書(shū)排版精良,值得稱(chēng)贊。應該有多少內容就有多少內容,不應該有多少內容就有多少內容。這本書(shū)的封面不僅有圖片和文字,還有文章目錄、網(wǎng)站來(lái)源、文章原作者等信息。doocer生成的Mobi電子書(shū)支持kf8標準,因此支持Kindle原生替換自定義字體功能
  由于網(wǎng)站文章通常有標準和通用的排版規范,doocer生成的電子書(shū)文章的大小、標題、列表和圖例與原創(chuàng )網(wǎng)頁(yè)文章. 原創(chuàng )文章中的所有超鏈接也將被保留,而評論、廣告和其他內容將被丟棄。整本書(shū)的閱讀體驗非常友好。(當然,如果原創(chuàng )網(wǎng)頁(yè)文章的布局混亂,生成的電子書(shū)可能無(wú)法識別。)
  
  將網(wǎng)頁(yè)文章制作成電子書(shū)
  在doocer完成注冊和登錄后,我們可以開(kāi)始將網(wǎng)頁(yè)文章制作成電子書(shū)。首先,單擊“新書(shū)”按鈕創(chuàng )建電子書(shū)并輸入電子書(shū)名稱(chēng)。接下來(lái),選擇右上角的“添加”以添加文章web地址或RSS源地址
  
  以少數民族網(wǎng)頁(yè)的文章為例。我們選擇“feed”,在輸入框中粘貼RSS地址,然后點(diǎn)擊“parse”,就會(huì )顯示少數民族文章最近的列表供我們添加。我們可以根據需要選擇,也可以單擊“全選”全選文章. 最后,下拉到頁(yè)面底部并選擇“保存”,然后這些文章將被添加到書(shū)中
  
  實(shí)際上,doocer網(wǎng)頁(yè)與RSS工具非常相似。實(shí)現了從網(wǎng)站批量抓取文章并集中顯示的功能
  
  要將這些文章轉換成電子書(shū)并將它們推到Kindle上,我們需要做一些簡(jiǎn)單的操作
  首先,根據doocer個(gè)人設置頁(yè)面中的提示,打開(kāi)該頁(yè)面,將doocer電子書(shū)的發(fā)送地址添加到個(gè)人文檔的接收地址中。完成后,我們將在輸入框中填寫(xiě)Kindle的個(gè)人文檔接收地址,然后單擊保存
  
  最后,我們在doocer中打開(kāi)“少數派”一書(shū),在頁(yè)面上找到“發(fā)布”,然后選擇send to kindle。大約10-30分鐘后,doocer將完成書(shū)籍制作并將書(shū)籍推到Kindle上
  
  還有一些問(wèn)題需要注意
  Doocer目前正在進(jìn)行beta測試,仍然存在一些bug,尤其是對于中文網(wǎng)站來(lái)說(shuō)。幸運的是,doocer的官方網(wǎng)站為開(kāi)發(fā)者提供了一個(gè)對話(huà)渠道。你可以直接聯(lián)系他來(lái)幫助解決這個(gè)問(wèn)題
  實(shí)現所有操作的自動(dòng)化過(guò)程是我認為doocer最需要努力的。Doocer可以像RSS工具一樣在網(wǎng)頁(yè)中捕獲更新的文章,但它仍然需要手動(dòng)捕獲新的文章,并生成電子書(shū)和推送。如果整個(gè)過(guò)程可以自動(dòng)化,RSS-Mobi-Kindle可以一次性完成,我相信它的實(shí)用性會(huì )得到提高
  目前,所有涂鴉器功能都是免費的 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(如何將網(wǎng)頁(yè)文章批量抓取、生成電子書(shū)、直接推送到Kindle)
  我一直在研究如何將相關(guān)網(wǎng)頁(yè)或文章放入Kindle進(jìn)行認真閱讀,但很長(cháng)一段時(shí)間以來(lái)我沒(méi)有取得任何實(shí)際進(jìn)展。雖然通過(guò)手工排版制作電子書(shū)的方法簡(jiǎn)單易行,但對于簡(jiǎn)短且頻繁更新的網(wǎng)頁(yè)來(lái)說(shuō),這種方法效率低下文章. 如果有一個(gè)工具可以批量抓取文章的網(wǎng)頁(yè),生成電子書(shū)并將其直接推送到Kindle上,那就太好了。涂鴉就是這樣一個(gè)工具
  Doocer是@lepture開(kāi)發(fā)的在線(xiàn)服務(wù)。它允許用戶(hù)提交web地址、RSS提要地址和pocket,以便以后在帳戶(hù)中閱讀文章,然后逐個(gè)或批量制作ePub和Mobi電子書(shū)。您可以直接在doocer中閱讀所有文章,也可以將它們推到kindle或apple books上
  
  閱讀體驗真的很好
  doocer制作的電子書(shū)排版精良,值得稱(chēng)贊。應該有多少內容就有多少內容,不應該有多少內容就有多少內容。這本書(shū)的封面不僅有圖片和文字,還有文章目錄、網(wǎng)站來(lái)源、文章原作者等信息。doocer生成的Mobi電子書(shū)支持kf8標準,因此支持Kindle原生替換自定義字體功能
  由于網(wǎng)站文章通常有標準和通用的排版規范,doocer生成的電子書(shū)文章的大小、標題、列表和圖例與原創(chuàng )網(wǎng)頁(yè)文章. 原創(chuàng )文章中的所有超鏈接也將被保留,而評論、廣告和其他內容將被丟棄。整本書(shū)的閱讀體驗非常友好。(當然,如果原創(chuàng )網(wǎng)頁(yè)文章的布局混亂,生成的電子書(shū)可能無(wú)法識別。)
  
  將網(wǎng)頁(yè)文章制作成電子書(shū)
  在doocer完成注冊和登錄后,我們可以開(kāi)始將網(wǎng)頁(yè)文章制作成電子書(shū)。首先,單擊“新書(shū)”按鈕創(chuàng )建電子書(shū)并輸入電子書(shū)名稱(chēng)。接下來(lái),選擇右上角的“添加”以添加文章web地址或RSS源地址
  
  以少數民族網(wǎng)頁(yè)的文章為例。我們選擇“feed”,在輸入框中粘貼RSS地址,然后點(diǎn)擊“parse”,就會(huì )顯示少數民族文章最近的列表供我們添加。我們可以根據需要選擇,也可以單擊“全選”全選文章. 最后,下拉到頁(yè)面底部并選擇“保存”,然后這些文章將被添加到書(shū)中
  
  實(shí)際上,doocer網(wǎng)頁(yè)與RSS工具非常相似。實(shí)現了從網(wǎng)站批量抓取文章并集中顯示的功能
  
  要將這些文章轉換成電子書(shū)并將它們推到Kindle上,我們需要做一些簡(jiǎn)單的操作
  首先,根據doocer個(gè)人設置頁(yè)面中的提示,打開(kāi)該頁(yè)面,將doocer電子書(shū)的發(fā)送地址添加到個(gè)人文檔的接收地址中。完成后,我們將在輸入框中填寫(xiě)Kindle的個(gè)人文檔接收地址,然后單擊保存
  
  最后,我們在doocer中打開(kāi)“少數派”一書(shū),在頁(yè)面上找到“發(fā)布”,然后選擇send to kindle。大約10-30分鐘后,doocer將完成書(shū)籍制作并將書(shū)籍推到Kindle上
  
  還有一些問(wèn)題需要注意
  Doocer目前正在進(jìn)行beta測試,仍然存在一些bug,尤其是對于中文網(wǎng)站來(lái)說(shuō)。幸運的是,doocer的官方網(wǎng)站為開(kāi)發(fā)者提供了一個(gè)對話(huà)渠道。你可以直接聯(lián)系他來(lái)幫助解決這個(gè)問(wèn)題
  實(shí)現所有操作的自動(dòng)化過(guò)程是我認為doocer最需要努力的。Doocer可以像RSS工具一樣在網(wǎng)頁(yè)中捕獲更新的文章,但它仍然需要手動(dòng)捕獲新的文章,并生成電子書(shū)和推送。如果整個(gè)過(guò)程可以自動(dòng)化,RSS-Mobi-Kindle可以一次性完成,我相信它的實(shí)用性會(huì )得到提高
  目前,所有涂鴉器功能都是免費的

抓取網(wǎng)頁(yè)生成電子書(shū)( 《修真小主播》使用Scrapy抓取電子書(shū)爬蟲(chóng)思路怎么抓取數據 )

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 128 次瀏覽 ? 2021-09-16 15:21 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(
《修真小主播》使用Scrapy抓取電子書(shū)爬蟲(chóng)思路怎么抓取數據
)
  
  用scrapy抓取電子書(shū)
  爬行動(dòng)物思維
  首先,我們需要看看從哪里獲得數據。打開(kāi)秀珍小錨頁(yè)面,如下圖:
  
  有一個(gè)目錄選項卡。單擊此選項卡以查看目錄。使用瀏覽器的元素查看工具,我們可以找到每個(gè)章節的目錄和相關(guān)信息。根據這些信息,我們可以爬到特定頁(yè)面:
  
  獲取章節地址
  現在我們打開(kāi)xzxzb.py文件,它是我們剛剛創(chuàng )建的爬蟲(chóng)程序:
  # -*- coding: utf-8 -*-import scrapyclass XzxzbSpider(scrapy.Spider): name = &#39;xzxzb&#39; allowed_domains = [&#39;qidian.com&#39;] start_urls = [&#39;http://qidian.com/&#39;] def parse(self, response): pass
  start_uuURL是目錄地址。爬蟲(chóng)程序將自動(dòng)爬網(wǎng)此地址,并在下面的解析中處理結果?,F在,讓我們編寫(xiě)代碼來(lái)處理目錄數據。首先,爬上小說(shuō)的主頁(yè)以獲取目錄列表:
  def parse(self, response): pages = response.xpath(&#39;//div[@id="j-catalogWrap"]//ul[@]/li&#39;) for page in pages: url = page.xpath(&#39;./child::a/attribute::href&#39;).extract() print url pass
  在網(wǎng)頁(yè)中獲取DOM數據有兩種方法,一種是使用CSS選擇器,另一種是使用XML XPath查詢(xún)
  這里我們使用XPath。請自行學(xué)習相關(guān)知識。請看上面的代碼。首先,我們通過(guò)ID得到目錄框,得到類(lèi)CF,得到目錄列表:
  pages = response.xpath(&#39;//div[@id="j-catalogWrap"]//ul[@]/li&#39;)
  接下來(lái),遍歷子節點(diǎn),在Li標記中查詢(xún)子節點(diǎn)的href屬性,最后將其打印出來(lái):
  for page in pages:<br /> url = page.xpath(&#39;./child::a/attribute::href&#39;).extract()<br /> print url
  這樣,可以說(shuō)爬行章節路徑的小爬蟲(chóng)已經(jīng)被編寫(xiě)好了。使用以下命令運行xzzb crawler以查看結果:
  scrapy crawl xzxzb
  此時(shí),我們的程序中可能會(huì )出現以下錯誤:
  …<br />ImportError: No module named win32api<br />…
  運行以下語(yǔ)句:
  pip install pypiwin32
  屏幕輸出如下所示:
  > ...> [u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/wrrduN6auIlOBDFlr9quQA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Jh-J5usgyW62uJcMpdsVgA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/5YXHdBvg1ImaGfXRMrUjdw2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/fw5EBeKat-76ItTi_ILQ7A2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/KsFh5VutI6PwrjbX3WA1AA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/-mpKJ01gPp1p4rPq4Fd4KQ2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/MlZSeYOQxSPM5j8_3RRvhw2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/5TXZqGvLi-3M5j8_3RRvhw2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/sysD-JPiugv4p8iEw--PPw2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/xGckZ01j64-aGfXRMrUjdw2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/72lHOJcgmedOBDFlr9quQA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/cZkHZEYnPl22uJcMpdsVgA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/vkNh45O3JsRMs5iq0oQwLQ2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/ge4m8RjJyPH6ItTi_ILQ7A2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Y33PuxrKT4dp4rPq4Fd4KQ2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/MDQznkrkiyXwrjbX3WA1AA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/A2r-YTzWCYj6ItTi_ILQ7A2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Ng9CuONRKei2uJcMpdsVgA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Q_AxWAge14pMs5iq0oQwLQ2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/ZJshvAu8TVVp4rPq4Fd4KQ2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/hYD2P4c5UB2aGfXRMrUjdw2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/muxiWf_jpqTgn4SMoDUcDQ2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/OQQ5jbADJjVp4rPq4Fd4KQ2&#39;]> ...
  對章節路徑進(jìn)行爬網(wǎng)的小爬蟲(chóng)已經(jīng)編寫(xiě)完成,但我們的目的不僅僅是為了實(shí)現這一點(diǎn),我們接下來(lái)將使用這些地址來(lái)抓取內容:
  章頁(yè)分析
  接下來(lái),讓我們分析章節頁(yè)面。從章節頁(yè)面,我們想要得到標題和內容
  如果章節信息爬行使用parser方法,我們可以編寫(xiě)一個(gè)方法來(lái)爬行每個(gè)章節內容,例如parser_uuChapter,首先查看章節頁(yè)面的詳細信息:
  
  您可以看到,本章的全部?jì)热荻荚赿iv標記中,類(lèi)名為main text wrap,標題是類(lèi)名為J_u,是chaptername的H3標記。具體內容是類(lèi)名為readcontent的readcontent J_uDiv標記
  請嘗試將此打印出來(lái):
  # -*- coding: utf-8 -*-import scrapyclass XzxzbSpider(scrapy.Spider): name = &#39;xzxzb&#39; allowed_domains = [&#39;qidian.com&#39;] start_urls = [&#39;https://book.qidian.com/info/1010780117/&#39;] def parse(self, response): pages = response.xpath(&#39;//div[@id="j-catalogWrap"]//ul[@]/li&#39;) for page in pages: url = page.xpath(&#39;./child::a/attribute::href&#39;).extract_first() # yield scrapy.Request(&#39;https:&#39; + url, callback=self.parse_chapter) yield response.follow(url, callback=self.parse_chapter) pass def parse_chapter(self, response): title = response.xpath(&#39;//div[@]//h3[@]/text()&#39;).extract_first().strip() content = response.xpath(&#39;//div[@]//div[@]&#39;).extract_first().strip() print title # print content pass
  在上一步中,我們獲得了一個(gè)章節地址,這是輸出內容的相對路徑,因此我們使用yield response.follow(URL,callback=self.Parse_chapter)。第二個(gè)參數是處理章節頁(yè)面的回調函數。爬網(wǎng)到章節頁(yè)面后,我們解析頁(yè)面并將標題保存到文件中
  next_page = response.urljoin(url)<br />yield scrapy.Request(next_page, callback=self.parse_chapter)
  與response.follow不同,絕對路徑需要通過(guò)相對路徑構建。Response.follow可以直接使用相對路徑,因此不需要調用urljoin方法
  請注意,response.follow直接返回一個(gè)請求實(shí)例,該實(shí)例可以通過(guò)yield直接返回
  獲得數據后,將其存儲。因為我們想要一個(gè)HTML頁(yè)面,所以我們可以根據標題來(lái)存儲它。代碼如下:
   def parse_chapter(self, response): title = response.xpath(&#39;//div[@]//h3[@]/text()&#39;).extract_first().strip() content = response.xpath(&#39;//div[@]//div[@]&#39;).extract_first().strip() # print title # print content filename = &#39;./down/%s.html&#39; % (title) with open(filename, &#39;wb&#39;) as f: f.write(content.encode(&#39;utf-8&#39;)) pass
  到目前為止,我們已成功捕獲數據,但無(wú)法直接使用。需要對其進(jìn)行分類(lèi)和優(yōu)化
  數據排序
  首先,我們爬下來(lái)的章節和頁(yè)面的排序不是很好。如果我們手工安排,需要花費太多的時(shí)間和精力;另外,章節內容收錄很多附加內容,閱讀體驗不好。我們需要優(yōu)化內容的排版和可讀性
  讓我們先把章節排好。因為目錄中的章節列表是按順序排列的,所以我們只需要在下載頁(yè)面的名稱(chēng)中添加一個(gè)序列號
  但是保存網(wǎng)頁(yè)的代碼是一個(gè)回調函數。只有在處理目錄時(shí)才能確定順序?;卣{函數如何知道順序?因此,我們需要告訴回調函數處理部分的序列號。我們需要將參數傳遞給回調函數。修改后的代碼如下:
  def parse(self, response): pages = response.xpath(&#39;//div[@id="j-catalogWrap"]//ul[@]/li&#39;) for page in pages: url = page.xpath(&#39;./child::a/attribute::href&#39;).extract_first() idx = page.xpath(&#39;./attribute::data-rid&#39;).extract_first() # yield scrapy.Request(&#39;https:&#39; + url, callback=self.parse_chapter) req = response.follow(url, callback=self.parse_chapter) req.meta[&#39;idx&#39;] = idx yield req pass def parse_chapter(self, response): idx = response.meta[&#39;idx&#39;] title = response.xpath(&#39;//div[@]//h3[@]/text()&#39;).extract_first().strip() content = response.xpath(&#39;//div[@]//div[@]&#39;).extract_first().strip() # print title # print content filename = &#39;./down/%s_%s.html&#39; % (idx, title) cnt = &#39;
  %s%s“%”(標題,內容),打開(kāi)的(文件名,'wb')作為f:f.write(cnt.encode('utf-8'))傳遞
  用Sigil制作電子書(shū)
  加載HTML文件
  要制作ePub電子書(shū),我們首先通過(guò)Sigil將捕獲的文件加載到程序中,然后在添加文件對話(huà)框中選擇所有文件:
  
  制作目錄
  當文件中存在HTML的H標記時(shí),單擊generate directory按鈕自動(dòng)生成目錄。我們在之前的數據捕獲中自動(dòng)添加了H1標記:
  
  掩護
  
  封面基本上是HTML,可以從頁(yè)面編輯或爬網(wǎng)。讓我們讓您自己來(lái)實(shí)現它
  
  *聲明:本文在互聯(lián)網(wǎng)上編輯,版權歸原作者所有。如果源信息不正確或侵犯權益,請聯(lián)系我們進(jìn)行刪除或授權
  
  我覺(jué)得很好。點(diǎn)擊“觀(guān)看”并轉發(fā)
   查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(
《修真小主播》使用Scrapy抓取電子書(shū)爬蟲(chóng)思路怎么抓取數據
)
  
  用scrapy抓取電子書(shū)
  爬行動(dòng)物思維
  首先,我們需要看看從哪里獲得數據。打開(kāi)秀珍小錨頁(yè)面,如下圖:
  
  有一個(gè)目錄選項卡。單擊此選項卡以查看目錄。使用瀏覽器的元素查看工具,我們可以找到每個(gè)章節的目錄和相關(guān)信息。根據這些信息,我們可以爬到特定頁(yè)面:
  
  獲取章節地址
  現在我們打開(kāi)xzxzb.py文件,它是我們剛剛創(chuàng )建的爬蟲(chóng)程序:
  # -*- coding: utf-8 -*-import scrapyclass XzxzbSpider(scrapy.Spider): name = &#39;xzxzb&#39; allowed_domains = [&#39;qidian.com&#39;] start_urls = [&#39;http://qidian.com/&#39;] def parse(self, response): pass
  start_uuURL是目錄地址。爬蟲(chóng)程序將自動(dòng)爬網(wǎng)此地址,并在下面的解析中處理結果?,F在,讓我們編寫(xiě)代碼來(lái)處理目錄數據。首先,爬上小說(shuō)的主頁(yè)以獲取目錄列表:
  def parse(self, response): pages = response.xpath(&#39;//div[@id="j-catalogWrap"]//ul[@]/li&#39;) for page in pages: url = page.xpath(&#39;./child::a/attribute::href&#39;).extract() print url pass
  在網(wǎng)頁(yè)中獲取DOM數據有兩種方法,一種是使用CSS選擇器,另一種是使用XML XPath查詢(xún)
  這里我們使用XPath。請自行學(xué)習相關(guān)知識。請看上面的代碼。首先,我們通過(guò)ID得到目錄框,得到類(lèi)CF,得到目錄列表:
  pages = response.xpath(&#39;//div[@id="j-catalogWrap"]//ul[@]/li&#39;)
  接下來(lái),遍歷子節點(diǎn),在Li標記中查詢(xún)子節點(diǎn)的href屬性,最后將其打印出來(lái):
  for page in pages:<br /> url = page.xpath(&#39;./child::a/attribute::href&#39;).extract()<br /> print url
  這樣,可以說(shuō)爬行章節路徑的小爬蟲(chóng)已經(jīng)被編寫(xiě)好了。使用以下命令運行xzzb crawler以查看結果:
  scrapy crawl xzxzb
  此時(shí),我們的程序中可能會(huì )出現以下錯誤:
  …<br />ImportError: No module named win32api<br />…
  運行以下語(yǔ)句:
  pip install pypiwin32
  屏幕輸出如下所示:
  > ...> [u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/wrrduN6auIlOBDFlr9quQA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Jh-J5usgyW62uJcMpdsVgA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/5YXHdBvg1ImaGfXRMrUjdw2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/fw5EBeKat-76ItTi_ILQ7A2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/KsFh5VutI6PwrjbX3WA1AA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/-mpKJ01gPp1p4rPq4Fd4KQ2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/MlZSeYOQxSPM5j8_3RRvhw2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/5TXZqGvLi-3M5j8_3RRvhw2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/sysD-JPiugv4p8iEw--PPw2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/xGckZ01j64-aGfXRMrUjdw2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/72lHOJcgmedOBDFlr9quQA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/cZkHZEYnPl22uJcMpdsVgA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/vkNh45O3JsRMs5iq0oQwLQ2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/ge4m8RjJyPH6ItTi_ILQ7A2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Y33PuxrKT4dp4rPq4Fd4KQ2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/MDQznkrkiyXwrjbX3WA1AA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/A2r-YTzWCYj6ItTi_ILQ7A2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Ng9CuONRKei2uJcMpdsVgA2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Q_AxWAge14pMs5iq0oQwLQ2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/ZJshvAu8TVVp4rPq4Fd4KQ2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/hYD2P4c5UB2aGfXRMrUjdw2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/muxiWf_jpqTgn4SMoDUcDQ2&#39;][u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/OQQ5jbADJjVp4rPq4Fd4KQ2&#39;]> ...
  對章節路徑進(jìn)行爬網(wǎng)的小爬蟲(chóng)已經(jīng)編寫(xiě)完成,但我們的目的不僅僅是為了實(shí)現這一點(diǎn),我們接下來(lái)將使用這些地址來(lái)抓取內容:
  章頁(yè)分析
  接下來(lái),讓我們分析章節頁(yè)面。從章節頁(yè)面,我們想要得到標題和內容
  如果章節信息爬行使用parser方法,我們可以編寫(xiě)一個(gè)方法來(lái)爬行每個(gè)章節內容,例如parser_uuChapter,首先查看章節頁(yè)面的詳細信息:
  
  您可以看到,本章的全部?jì)热荻荚赿iv標記中,類(lèi)名為main text wrap,標題是類(lèi)名為J_u,是chaptername的H3標記。具體內容是類(lèi)名為readcontent的readcontent J_uDiv標記
  請嘗試將此打印出來(lái):
  # -*- coding: utf-8 -*-import scrapyclass XzxzbSpider(scrapy.Spider): name = &#39;xzxzb&#39; allowed_domains = [&#39;qidian.com&#39;] start_urls = [&#39;https://book.qidian.com/info/1010780117/&#39;] def parse(self, response): pages = response.xpath(&#39;//div[@id="j-catalogWrap"]//ul[@]/li&#39;) for page in pages: url = page.xpath(&#39;./child::a/attribute::href&#39;).extract_first() # yield scrapy.Request(&#39;https:&#39; + url, callback=self.parse_chapter) yield response.follow(url, callback=self.parse_chapter) pass def parse_chapter(self, response): title = response.xpath(&#39;//div[@]//h3[@]/text()&#39;).extract_first().strip() content = response.xpath(&#39;//div[@]//div[@]&#39;).extract_first().strip() print title # print content pass
  在上一步中,我們獲得了一個(gè)章節地址,這是輸出內容的相對路徑,因此我們使用yield response.follow(URL,callback=self.Parse_chapter)。第二個(gè)參數是處理章節頁(yè)面的回調函數。爬網(wǎng)到章節頁(yè)面后,我們解析頁(yè)面并將標題保存到文件中
  next_page = response.urljoin(url)<br />yield scrapy.Request(next_page, callback=self.parse_chapter)
  與response.follow不同,絕對路徑需要通過(guò)相對路徑構建。Response.follow可以直接使用相對路徑,因此不需要調用urljoin方法
  請注意,response.follow直接返回一個(gè)請求實(shí)例,該實(shí)例可以通過(guò)yield直接返回
  獲得數據后,將其存儲。因為我們想要一個(gè)HTML頁(yè)面,所以我們可以根據標題來(lái)存儲它。代碼如下:
   def parse_chapter(self, response): title = response.xpath(&#39;//div[@]//h3[@]/text()&#39;).extract_first().strip() content = response.xpath(&#39;//div[@]//div[@]&#39;).extract_first().strip() # print title # print content filename = &#39;./down/%s.html&#39; % (title) with open(filename, &#39;wb&#39;) as f: f.write(content.encode(&#39;utf-8&#39;)) pass
  到目前為止,我們已成功捕獲數據,但無(wú)法直接使用。需要對其進(jìn)行分類(lèi)和優(yōu)化
  數據排序
  首先,我們爬下來(lái)的章節和頁(yè)面的排序不是很好。如果我們手工安排,需要花費太多的時(shí)間和精力;另外,章節內容收錄很多附加內容,閱讀體驗不好。我們需要優(yōu)化內容的排版和可讀性
  讓我們先把章節排好。因為目錄中的章節列表是按順序排列的,所以我們只需要在下載頁(yè)面的名稱(chēng)中添加一個(gè)序列號
  但是保存網(wǎng)頁(yè)的代碼是一個(gè)回調函數。只有在處理目錄時(shí)才能確定順序?;卣{函數如何知道順序?因此,我們需要告訴回調函數處理部分的序列號。我們需要將參數傳遞給回調函數。修改后的代碼如下:
  def parse(self, response): pages = response.xpath(&#39;//div[@id="j-catalogWrap"]//ul[@]/li&#39;) for page in pages: url = page.xpath(&#39;./child::a/attribute::href&#39;).extract_first() idx = page.xpath(&#39;./attribute::data-rid&#39;).extract_first() # yield scrapy.Request(&#39;https:&#39; + url, callback=self.parse_chapter) req = response.follow(url, callback=self.parse_chapter) req.meta[&#39;idx&#39;] = idx yield req pass def parse_chapter(self, response): idx = response.meta[&#39;idx&#39;] title = response.xpath(&#39;//div[@]//h3[@]/text()&#39;).extract_first().strip() content = response.xpath(&#39;//div[@]//div[@]&#39;).extract_first().strip() # print title # print content filename = &#39;./down/%s_%s.html&#39; % (idx, title) cnt = &#39;
  %s%s“%”(標題,內容),打開(kāi)的(文件名,'wb')作為f:f.write(cnt.encode('utf-8'))傳遞
  用Sigil制作電子書(shū)
  加載HTML文件
  要制作ePub電子書(shū),我們首先通過(guò)Sigil將捕獲的文件加載到程序中,然后在添加文件對話(huà)框中選擇所有文件:
  
  制作目錄
  當文件中存在HTML的H標記時(shí),單擊generate directory按鈕自動(dòng)生成目錄。我們在之前的數據捕獲中自動(dòng)添加了H1標記:
  
  掩護
  
  封面基本上是HTML,可以從頁(yè)面編輯或爬網(wǎng)。讓我們讓您自己來(lái)實(shí)現它
  
  *聲明:本文在互聯(lián)網(wǎng)上編輯,版權歸原作者所有。如果源信息不正確或侵犯權益,請聯(lián)系我們進(jìn)行刪除或授權
  
  我覺(jué)得很好。點(diǎn)擊“觀(guān)看”并轉發(fā)
  

抓取網(wǎng)頁(yè)生成電子書(shū)(《利用Python進(jìn)行數據分析·第2版》|markdown文件下載)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 171 次瀏覽 ? 2021-09-16 15:17 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(《利用Python進(jìn)行數據分析·第2版》|markdown文件下載)
  降價(jià)至PDF→ 用降價(jià)制作電子書(shū)
  
  前言
  你可以解決你遇到的任何問(wèn)題,學(xué)到你不能學(xué)到的東西
  它是這樣的,因為我正在閱讀《使用python進(jìn)行數據分析》一書(shū),這是原著(zhù)的第二版。這本書(shū)的英文版已經(jīng)有很長(cháng)時(shí)間了,但我在網(wǎng)上找不到英文版,但有人在這本書(shū)上發(fā)表了中文譯本。因為它不是一本電子書(shū),我覺(jué)得閱讀起來(lái)很不方便,攜帶起來(lái)也很困難。簡(jiǎn)單的書(shū)籍有HTML文檔,GitHub有標記文檔翻譯,所以我想知道是否可以將HTML和標記文件轉換成PDF,然后將它們轉換成電子書(shū)。當你有需求時(shí),你就開(kāi)始想方設法?;ヂ?lián)網(wǎng)上有很多方法。我曾經(jīng)使用atom的markdown插件導出它們,但是效果不是很好。有些圖片無(wú)法導出,我無(wú)法生成docx文檔?,F在我將介紹兩種制作電子書(shū)的方法
  工具準備
  
  工具1:pandoc工具2:pypandoc工具3:Adobe Acrobat DC
  下載并安裝:Adobe Acrobat DC PDF編輯器
  建議:如果您不熟悉Python,請使用第一種方法。相對而言,第一種方法簡(jiǎn)單且文檔豐富。第二種方法需要安裝python環(huán)境,這非常麻煩,除非您使用python進(jìn)行開(kāi)發(fā)
  使用方法
  對于特定用途,建議您閱讀文檔操作。畢竟,每個(gè)人的需求都是不同的。pandoc的轉換功能非常強大和實(shí)用
  此外,需要安裝latex將標記文件轉換為PDF文件,但在使用過(guò)程中會(huì )遇到很多麻煩,很難解決
  所以我的想法是將降價(jià)轉換成docx文件,然后合并,最后將合并后的電子書(shū)轉換成PDF文件
  這也可以節省很多不必要的麻煩
  當然,有很多功能。我只是介紹了一些,或者根據我的需要選擇。您也可以選擇其他方法
  “使用Python進(jìn)行數據分析·第二版”?降價(jià)文件下載
  如下所示,我在本地下載了這本書(shū)的降價(jià)文件,共17個(gè)文件
  因為在轉換過(guò)程中文件名收錄中文時(shí)會(huì )出現錯誤,所以我會(huì )將所有文件名修改為數字
  提供一個(gè)工具,單擊即可修改文件名。你可以下載并直接打開(kāi)它
  更多其他使用方法,讓我們自己測試一下
  Freerename下載提取代碼:bg86
  方法1
  開(kāi)始轉換。這里,使用簡(jiǎn)單書(shū)籍作者的代碼生成一個(gè)Windows可處理文件
  簡(jiǎn)單的書(shū)籍÷更優(yōu)雅地將降價(jià)文件轉換為PDF格式
  腳本封裝,支持批量轉換
  將轉換命令封裝到bat批處理腳本中。稍后轉換時(shí),只需雙擊bat腳本,例如,將其轉換為convertpdf.bat文件。內容如下:
  pandoc text.md -o text.docx && pause
  批處理:如果成批將數十個(gè)或數百個(gè)MD文件轉換為docx文件,是否手動(dòng)復制這些文件名和pandoc命令以逐個(gè)轉換?沒(méi)必要。bat腳本(convert.bat):
  @echo off
:: 遍歷當前文件夾下的所有后綴名為md的文件
for /f %%a in ('dir /b *.md') do (
:: 執行pandoc命令,把每個(gè)md文件都轉為docx文件,docx文件的文件名為:md文件名.md.docx
pandoc %%a -o %%a.docx
)
pause
  使用方法非常簡(jiǎn)單。使用文本編輯器創(chuàng )建一個(gè)TXT文檔,復制上面的代碼,保存它,最后退出以修改文件后綴。蝙蝠。將要轉換的標記文件放入文件夾,將convertpdf.bat復制到目錄中,雙擊打開(kāi)它,然后等待轉換完成
  此時(shí),降價(jià)文件將轉換為docx文檔
  方法2
  直接使用pandoc轉換
  pandoc text.md -o text.docx
  注意:要運行此代碼,您需要輸入此目錄
  有關(guān)更多用法,請參閱pandoc演示文檔
  方法3
  使用python進(jìn)行操作
  相對而言,使用pypandoc有很多優(yōu)點(diǎn)。例如,您可以使用該庫輕松開(kāi)發(fā)一個(gè)簡(jiǎn)單的應用程序,也可以使用該庫實(shí)現一些抓取網(wǎng)頁(yè)的功能,因為pandoc可以下載網(wǎng)頁(yè)并將其轉換為docx或其他格式文件,pypandoc提供了pandoc的接口參數,非常方便。當然,對于學(xué)習python的人來(lái)說(shuō),這是相對簡(jiǎn)單的
  import pypandoc
output = pypandoc.convert_file('somefile.md', 'docx', outputfile="somefile.docx")
  最簡(jiǎn)單的例子就是這個(gè)。首先輸入此文件夾或在Python中指定文件目錄,然后運行上述代碼。如果要批量轉換,可以定義相對路徑,編寫(xiě)腳本,將其打包成exe可執行文件,并實(shí)現從markdown到docx的遍歷轉換。此操作將不在此處寫(xiě)入。這是相對簡(jiǎn)單的。對于那些打包為可執行文件的文件,請參考我以前的文章
  使用Python開(kāi)發(fā)圖像下載程序的教程和源代碼共享
  對于學(xué)習python的學(xué)生,我仍然建議使用pypandoc,因為可以調用python程序
  合并docx&amp;轉換為PDF
  您可以轉換為PDF,然后合并PDF,但感覺(jué)它不像一個(gè)完整的PDF文件,而且不夠漂亮。因此考慮首先合并DOXX,然后轉換成PDF,這是更完美的
  合并docx
  我們使用Office2010合并了17個(gè)docx文件
  使用Python轉換為PDF數據分析第二版下載
  
  因為我看不到任何可以下載的免費電子書(shū),所以請在這里分享我制作的這本電子書(shū)
  這本書(shū)非常適合學(xué)習Python數據分析。你可以下載它
  您可以在練習環(huán)境中使用Anaconda|Jupiter筆記本
  潘多克的其他職能
  順便說(shuō)一下,讓我們談?wù)刾andoc的其他一些功能。有關(guān)詳細信息,請參見(jiàn)文檔學(xué)習測試
  例如,我前面提到的那本書(shū)
  《學(xué)刮痧》
  精通Python爬蟲(chóng)框架
  還有一些簡(jiǎn)單的書(shū)籍翻譯
  
  學(xué)習腳本÷短篇小說(shuō)
  不幸的是,作者沒(méi)有給出降價(jià)源文件,所以我們只能在線(xiàn)閱讀。為什么我們需要降價(jià)源文件?因為markdown良好的編輯格式在轉換過(guò)程中保持了層次和書(shū)簽板,這對我們制作電子書(shū)非常方便,并且節省了大量時(shí)間
  幸運的是,pandoc提供了將網(wǎng)頁(yè)轉換為docx的功能
  讓我們試試看
  一個(gè)頁(yè)面在這里被隨機轉換,但是在降價(jià)下的預覽非常糟糕,因為有很多其他冗余內容
  然后我首先將其轉換為docx文檔,然后刪除多余的內容,然后修改并保存它??磥?lái)效果還是很好的
  pandoc doc.md -o doc.docx
  我已經(jīng)測試了多個(gè)頁(yè)面的爬行和轉換,發(fā)現效果仍然很好。在這里,如果您使用Python的pypandoc,您可以生成一個(gè)EXE程序。非常方便。您可以自動(dòng)進(jìn)入WebGurl進(jìn)行抓取和轉換,這仍然是一個(gè)很好的體驗
  讓我們自己測試和思考更多的用法。我在這里不再重復了
  降價(jià)在線(xiàn)生成PDF|網(wǎng)站
  在這里,我們推薦一個(gè)免費的@網(wǎng)站欄,用于自動(dòng)轉換PDF。經(jīng)歷過(guò)之后,我感覺(jué)很好
  Mdtr2pdf降價(jià)在線(xiàn)生成PDF
  簡(jiǎn)介
  推薦免費文檔轉換
  自由變換器
  這種設計非常廣泛,有許多文件和內容可以轉換
  這里我不介紹細節。它真的很富有
  歡迎使用我的個(gè)人公共帳戶(hù):網(wǎng)吧
  目前,涉及的領(lǐng)域有:
  Python、數據庫、C++
  數據分析、網(wǎng)絡(luò )爬蟲(chóng)、GUI開(kāi)發(fā)
  我喜歡學(xué)習我感興趣的東西
  在這里,我將堅持分享許多有用的學(xué)習經(jīng)驗和學(xué)習資源
  你可以在這里找到一些你需要的學(xué)習經(jīng)驗和學(xué)習資源 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(《利用Python進(jìn)行數據分析·第2版》|markdown文件下載)
  降價(jià)至PDF→ 用降價(jià)制作電子書(shū)
  
  前言
  你可以解決你遇到的任何問(wèn)題,學(xué)到你不能學(xué)到的東西
  它是這樣的,因為我正在閱讀《使用python進(jìn)行數據分析》一書(shū),這是原著(zhù)的第二版。這本書(shū)的英文版已經(jīng)有很長(cháng)時(shí)間了,但我在網(wǎng)上找不到英文版,但有人在這本書(shū)上發(fā)表了中文譯本。因為它不是一本電子書(shū),我覺(jué)得閱讀起來(lái)很不方便,攜帶起來(lái)也很困難。簡(jiǎn)單的書(shū)籍有HTML文檔,GitHub有標記文檔翻譯,所以我想知道是否可以將HTML和標記文件轉換成PDF,然后將它們轉換成電子書(shū)。當你有需求時(shí),你就開(kāi)始想方設法?;ヂ?lián)網(wǎng)上有很多方法。我曾經(jīng)使用atom的markdown插件導出它們,但是效果不是很好。有些圖片無(wú)法導出,我無(wú)法生成docx文檔?,F在我將介紹兩種制作電子書(shū)的方法
  工具準備
  
  工具1:pandoc工具2:pypandoc工具3:Adobe Acrobat DC
  下載并安裝:Adobe Acrobat DC PDF編輯器
  建議:如果您不熟悉Python,請使用第一種方法。相對而言,第一種方法簡(jiǎn)單且文檔豐富。第二種方法需要安裝python環(huán)境,這非常麻煩,除非您使用python進(jìn)行開(kāi)發(fā)
  使用方法
  對于特定用途,建議您閱讀文檔操作。畢竟,每個(gè)人的需求都是不同的。pandoc的轉換功能非常強大和實(shí)用
  此外,需要安裝latex將標記文件轉換為PDF文件,但在使用過(guò)程中會(huì )遇到很多麻煩,很難解決
  所以我的想法是將降價(jià)轉換成docx文件,然后合并,最后將合并后的電子書(shū)轉換成PDF文件
  這也可以節省很多不必要的麻煩
  當然,有很多功能。我只是介紹了一些,或者根據我的需要選擇。您也可以選擇其他方法
  “使用Python進(jìn)行數據分析·第二版”?降價(jià)文件下載
  如下所示,我在本地下載了這本書(shū)的降價(jià)文件,共17個(gè)文件
  因為在轉換過(guò)程中文件名收錄中文時(shí)會(huì )出現錯誤,所以我會(huì )將所有文件名修改為數字
  提供一個(gè)工具,單擊即可修改文件名。你可以下載并直接打開(kāi)它
  更多其他使用方法,讓我們自己測試一下
  Freerename下載提取代碼:bg86
  方法1
  開(kāi)始轉換。這里,使用簡(jiǎn)單書(shū)籍作者的代碼生成一個(gè)Windows可處理文件
  簡(jiǎn)單的書(shū)籍÷更優(yōu)雅地將降價(jià)文件轉換為PDF格式
  腳本封裝,支持批量轉換
  將轉換命令封裝到bat批處理腳本中。稍后轉換時(shí),只需雙擊bat腳本,例如,將其轉換為convertpdf.bat文件。內容如下:
  pandoc text.md -o text.docx && pause
  批處理:如果成批將數十個(gè)或數百個(gè)MD文件轉換為docx文件,是否手動(dòng)復制這些文件名和pandoc命令以逐個(gè)轉換?沒(méi)必要。bat腳本(convert.bat):
  @echo off
:: 遍歷當前文件夾下的所有后綴名為md的文件
for /f %%a in ('dir /b *.md') do (
:: 執行pandoc命令,把每個(gè)md文件都轉為docx文件,docx文件的文件名為:md文件名.md.docx
pandoc %%a -o %%a.docx
)
pause
  使用方法非常簡(jiǎn)單。使用文本編輯器創(chuàng )建一個(gè)TXT文檔,復制上面的代碼,保存它,最后退出以修改文件后綴。蝙蝠。將要轉換的標記文件放入文件夾,將convertpdf.bat復制到目錄中,雙擊打開(kāi)它,然后等待轉換完成
  此時(shí),降價(jià)文件將轉換為docx文檔
  方法2
  直接使用pandoc轉換
  pandoc text.md -o text.docx
  注意:要運行此代碼,您需要輸入此目錄
  有關(guān)更多用法,請參閱pandoc演示文檔
  方法3
  使用python進(jìn)行操作
  相對而言,使用pypandoc有很多優(yōu)點(diǎn)。例如,您可以使用該庫輕松開(kāi)發(fā)一個(gè)簡(jiǎn)單的應用程序,也可以使用該庫實(shí)現一些抓取網(wǎng)頁(yè)的功能,因為pandoc可以下載網(wǎng)頁(yè)并將其轉換為docx或其他格式文件,pypandoc提供了pandoc的接口參數,非常方便。當然,對于學(xué)習python的人來(lái)說(shuō),這是相對簡(jiǎn)單的
  import pypandoc
output = pypandoc.convert_file('somefile.md', 'docx', outputfile="somefile.docx")
  最簡(jiǎn)單的例子就是這個(gè)。首先輸入此文件夾或在Python中指定文件目錄,然后運行上述代碼。如果要批量轉換,可以定義相對路徑,編寫(xiě)腳本,將其打包成exe可執行文件,并實(shí)現從markdown到docx的遍歷轉換。此操作將不在此處寫(xiě)入。這是相對簡(jiǎn)單的。對于那些打包為可執行文件的文件,請參考我以前的文章
  使用Python開(kāi)發(fā)圖像下載程序的教程和源代碼共享
  對于學(xué)習python的學(xué)生,我仍然建議使用pypandoc,因為可以調用python程序
  合并docx&amp;轉換為PDF
  您可以轉換為PDF,然后合并PDF,但感覺(jué)它不像一個(gè)完整的PDF文件,而且不夠漂亮。因此考慮首先合并DOXX,然后轉換成PDF,這是更完美的
  合并docx
  我們使用Office2010合并了17個(gè)docx文件
  使用Python轉換為PDF數據分析第二版下載
  
  因為我看不到任何可以下載的免費電子書(shū),所以請在這里分享我制作的這本電子書(shū)
  這本書(shū)非常適合學(xué)習Python數據分析。你可以下載它
  您可以在練習環(huán)境中使用Anaconda|Jupiter筆記本
  潘多克的其他職能
  順便說(shuō)一下,讓我們談?wù)刾andoc的其他一些功能。有關(guān)詳細信息,請參見(jiàn)文檔學(xué)習測試
  例如,我前面提到的那本書(shū)
  《學(xué)刮痧》
  精通Python爬蟲(chóng)框架
  還有一些簡(jiǎn)單的書(shū)籍翻譯
  
  學(xué)習腳本÷短篇小說(shuō)
  不幸的是,作者沒(méi)有給出降價(jià)源文件,所以我們只能在線(xiàn)閱讀。為什么我們需要降價(jià)源文件?因為markdown良好的編輯格式在轉換過(guò)程中保持了層次和書(shū)簽板,這對我們制作電子書(shū)非常方便,并且節省了大量時(shí)間
  幸運的是,pandoc提供了將網(wǎng)頁(yè)轉換為docx的功能
  讓我們試試看
  一個(gè)頁(yè)面在這里被隨機轉換,但是在降價(jià)下的預覽非常糟糕,因為有很多其他冗余內容
  然后我首先將其轉換為docx文檔,然后刪除多余的內容,然后修改并保存它??磥?lái)效果還是很好的
  pandoc doc.md -o doc.docx
  我已經(jīng)測試了多個(gè)頁(yè)面的爬行和轉換,發(fā)現效果仍然很好。在這里,如果您使用Python的pypandoc,您可以生成一個(gè)EXE程序。非常方便。您可以自動(dòng)進(jìn)入WebGurl進(jìn)行抓取和轉換,這仍然是一個(gè)很好的體驗
  讓我們自己測試和思考更多的用法。我在這里不再重復了
  降價(jià)在線(xiàn)生成PDF|網(wǎng)站
  在這里,我們推薦一個(gè)免費的@網(wǎng)站欄,用于自動(dòng)轉換PDF。經(jīng)歷過(guò)之后,我感覺(jué)很好
  Mdtr2pdf降價(jià)在線(xiàn)生成PDF
  簡(jiǎn)介
  推薦免費文檔轉換
  自由變換器
  這種設計非常廣泛,有許多文件和內容可以轉換
  這里我不介紹細節。它真的很富有
  歡迎使用我的個(gè)人公共帳戶(hù):網(wǎng)吧
  目前,涉及的領(lǐng)域有:
  Python、數據庫、C++
  數據分析、網(wǎng)絡(luò )爬蟲(chóng)、GUI開(kāi)發(fā)
  我喜歡學(xué)習我感興趣的東西
  在這里,我將堅持分享許多有用的學(xué)習經(jīng)驗和學(xué)習資源
  你可以在這里找到一些你需要的學(xué)習經(jīng)驗和學(xué)習資源

抓取網(wǎng)頁(yè)生成電子書(shū)(學(xué)校計算機應用專(zhuān)業(yè)及相關(guān)專(zhuān)業(yè)的網(wǎng)頁(yè)制作課程教材)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 104 次瀏覽 ? 2021-09-15 14:01 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(學(xué)校計算機應用專(zhuān)業(yè)及相關(guān)專(zhuān)業(yè)的網(wǎng)頁(yè)制作課程教材)
  基本信息商品名稱(chēng):網(wǎng)頁(yè)制作案例教程出版社:高等教育出版社出版時(shí)間:2013-05-01作者:羅維譯者:開(kāi)本:16開(kāi)定價(jià):25.40頁(yè)數:212印次:1ISBN號:9787040371963商品類(lèi)型:圖書(shū)版次:1內容提要內容提要本書(shū)根據教育部有關(guān)職業(yè)院校計算機應用與軟件技術(shù)專(zhuān)業(yè)領(lǐng)域技能型緊缺人才培養培訓指導方案精神,以任務(wù)驅動(dòng)為導向,根據網(wǎng)站策劃、網(wǎng)頁(yè)設計與制作、網(wǎng)頁(yè)美工、網(wǎng)站管理、網(wǎng)站編輯等五個(gè)崗位的能力要求,以實(shí)用性為原則,循序漸進(jìn)地介紹了網(wǎng)頁(yè)設計與制作的基本方法和技巧。本書(shū)以實(shí)習生小夏在某企業(yè)實(shí)習并參與網(wǎng)站開(kāi)發(fā)項目為主線(xiàn),由淺入深、自上而下地介紹網(wǎng)站建設與網(wǎng)頁(yè)制作的詳細過(guò)程。本書(shū)內容以項目展開(kāi),包括7個(gè)項目,分別為帶你認識生活中的網(wǎng)站、設計我們的網(wǎng)站、搭建網(wǎng)站的基本頁(yè)面、增強網(wǎng)頁(yè)的功能、頁(yè)面的高級應用、發(fā)布網(wǎng)站、增加網(wǎng)站的交互功能;各項目?jì)热葙N近實(shí)際生產(chǎn)流程,以案例展開(kāi)教學(xué)活動(dòng),以工作問(wèn)題激發(fā)學(xué)習興趣,以能力需求引入相關(guān)知識,以拓展任務(wù)來(lái)開(kāi)闊視野,以課后練習來(lái)檢驗學(xué)習效果。通過(guò)本書(shū)的學(xué)習,可以使初學(xué)者迅速掌握網(wǎng)站建設與網(wǎng)頁(yè)制作的方法與技巧。本書(shū)配套網(wǎng)絡(luò )教學(xué)資源,通過(guò)封底所附學(xué)習卡,可登錄網(wǎng)站,獲取相關(guān)教學(xué)資源。本書(shū)可作為中等職業(yè)學(xué)校計算機應用專(zhuān)業(yè)及相關(guān)專(zhuān)業(yè)的網(wǎng)頁(yè)制作課程教材,也可作為各類(lèi)計算機培訓班的教材。 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(學(xué)校計算機應用專(zhuān)業(yè)及相關(guān)專(zhuān)業(yè)的網(wǎng)頁(yè)制作課程教材)
  基本信息商品名稱(chēng):網(wǎng)頁(yè)制作案例教程出版社:高等教育出版社出版時(shí)間:2013-05-01作者:羅維譯者:開(kāi)本:16開(kāi)定價(jià):25.40頁(yè)數:212印次:1ISBN號:9787040371963商品類(lèi)型:圖書(shū)版次:1內容提要內容提要本書(shū)根據教育部有關(guān)職業(yè)院校計算機應用與軟件技術(shù)專(zhuān)業(yè)領(lǐng)域技能型緊缺人才培養培訓指導方案精神,以任務(wù)驅動(dòng)為導向,根據網(wǎng)站策劃、網(wǎng)頁(yè)設計與制作、網(wǎng)頁(yè)美工、網(wǎng)站管理、網(wǎng)站編輯等五個(gè)崗位的能力要求,以實(shí)用性為原則,循序漸進(jìn)地介紹了網(wǎng)頁(yè)設計與制作的基本方法和技巧。本書(shū)以實(shí)習生小夏在某企業(yè)實(shí)習并參與網(wǎng)站開(kāi)發(fā)項目為主線(xiàn),由淺入深、自上而下地介紹網(wǎng)站建設與網(wǎng)頁(yè)制作的詳細過(guò)程。本書(shū)內容以項目展開(kāi),包括7個(gè)項目,分別為帶你認識生活中的網(wǎng)站、設計我們的網(wǎng)站、搭建網(wǎng)站的基本頁(yè)面、增強網(wǎng)頁(yè)的功能、頁(yè)面的高級應用、發(fā)布網(wǎng)站、增加網(wǎng)站的交互功能;各項目?jì)热葙N近實(shí)際生產(chǎn)流程,以案例展開(kāi)教學(xué)活動(dòng),以工作問(wèn)題激發(fā)學(xué)習興趣,以能力需求引入相關(guān)知識,以拓展任務(wù)來(lái)開(kāi)闊視野,以課后練習來(lái)檢驗學(xué)習效果。通過(guò)本書(shū)的學(xué)習,可以使初學(xué)者迅速掌握網(wǎng)站建設與網(wǎng)頁(yè)制作的方法與技巧。本書(shū)配套網(wǎng)絡(luò )教學(xué)資源,通過(guò)封底所附學(xué)習卡,可登錄網(wǎng)站,獲取相關(guān)教學(xué)資源。本書(shū)可作為中等職業(yè)學(xué)校計算機應用專(zhuān)業(yè)及相關(guān)專(zhuān)業(yè)的網(wǎng)頁(yè)制作課程教材,也可作為各類(lèi)計算機培訓班的教材。

抓取網(wǎng)頁(yè)生成電子書(shū)(小說(shuō)下載神器支持各大網(wǎng)站的網(wǎng)絡(luò )小說(shuō),想下°傻瓜模式)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 2073 次瀏覽 ? 2021-09-15 04:08 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(小說(shuō)下載神器支持各大網(wǎng)站的網(wǎng)絡(luò )小說(shuō),想下°傻瓜模式)
  網(wǎng)絡(luò )圖書(shū)抓取器是一款出色的小說(shuō)下載工具。支持網(wǎng)站各大網(wǎng)絡(luò )小說(shuō)。你可以下載任何你想要的。完全免費下載,無(wú)需復雜操作,一鍵抓取,同時(shí)所有章節可以合并為一個(gè)文本,非常方便易用。
  
  網(wǎng)絡(luò )圖書(shū)爬蟲(chóng)基本介紹
  Web Book Crawler是一款免費的網(wǎng)絡(luò )小說(shuō)下載軟件,主要功能是從各大網(wǎng)站抓取需要的網(wǎng)絡(luò )小說(shuō),并自動(dòng)生成txt文本。下載本軟件后,您可以一鍵免費閱讀網(wǎng)站的熱門(mén)小說(shuō),還可以根據用戶(hù)需求自動(dòng)查找相關(guān)書(shū)籍和章節。獨特的內核索引引擎可以幫助用戶(hù)搜索他們想閱讀的小說(shuō)。避免產(chǎn)生無(wú)用數據的章節。清晰的頁(yè)面設計,讓用戶(hù)即刻使用,拒絕各種繁瑣的功能設置,只為用戶(hù)提供更好的閱讀體驗。并且相較于傳統的提取工具,這款網(wǎng)絡(luò )圖書(shū)抓取工具可以基于網(wǎng)絡(luò )小說(shuō)目錄整合文本,讓讀者體驗一流的閱讀體驗。
  網(wǎng)絡(luò )圖書(shū)抓取器功能介紹
  1、章節調整:提取目錄后,可以進(jìn)行移動(dòng)、刪除、倒序等調整操作。調整會(huì )直接影響最終的書(shū)籍,也會(huì )以調整后的章節順序輸出。
  2、Auto-retry:在爬取過(guò)程中,由于網(wǎng)絡(luò )因素,可能會(huì )出現爬取失敗的情況。程序可能會(huì )自動(dòng)重試直到成功,也可以暫時(shí)中斷爬?。ㄖ袛嗪箨P(guān)閉程序不影響進(jìn)度),等網(wǎng)絡(luò )好再試。
  3、Stop and resume:抓取過(guò)程可以隨時(shí)停止,退出程序后不影響進(jìn)度(章節信息會(huì )保存在記錄中,運行后可以恢復抓?。┫麓纬绦?。注意:需要先使用停止鍵中斷然后退出程序,如果直接退出,將不會(huì )恢復)。
  4、一鍵爬?。河址Q(chēng)°傻瓜模式“”,意思是網(wǎng)絡(luò )圖書(shū)爬蟲(chóng)可以實(shí)現自動(dòng)爬取和合并功能,直接輸出最終的文本文件。前面可能需要輸入最基本的網(wǎng)址、保存位置等信息(會(huì )有明顯的操作提示),調整章節后也可以一鍵抓取,抓取合并操作會(huì )自動(dòng)完成.
  5、APPLICATION網(wǎng)站:已經(jīng)輸入了10個(gè)適用的網(wǎng)站(選擇后可以快速打開(kāi)網(wǎng)站找到你需要的書(shū)),也可以自動(dòng)申請相應的代碼,或者申請到其他小說(shuō)網(wǎng)站進(jìn)行測試,如果一起使用,可以手動(dòng)添加到配置文件中以備后用。
  6、電子書(shū)制作方便:可以在設置文件中添加各章節名稱(chēng)的前綴和后綴,為后期制作電子書(shū)目錄帶來(lái)極大的方便。
  網(wǎng)絡(luò )圖書(shū)爬蟲(chóng)亮點(diǎn)
  1、支持多種小說(shuō)平臺的小說(shuō)爬取。
  2、支持多種文字編碼方式,避免文字亂碼。
  3、 一鍵提取查看小說(shuō)所有目錄。
  4、支持調整小說(shuō)章節位置,可上下移動(dòng)。
  5、支持在線(xiàn)查看章節內容,避免提取錯誤章節。
  6、方支持抓取失敗時(shí)手動(dòng)或自動(dòng)重新抓取。
  7、抓取后的小說(shuō)會(huì )以一章一文的形式保存。
  8、—將所有章節合并為一個(gè)文本以便于存儲的關(guān)鍵。
  網(wǎng)絡(luò )圖書(shū)爬蟲(chóng)的主要優(yōu)勢
  1、Web Book Crawler 是一款非常實(shí)用的網(wǎng)絡(luò )小說(shuō)爬蟲(chóng)軟件。有了它,用戶(hù)可以快速提取十多部小說(shuō)的章節和內容網(wǎng)站保存到本地
  2、 這個(gè)爬蟲(chóng)工具功能齊全,也很友好。為用戶(hù)貼心配備了4種文本編碼器,防止用戶(hù)提取小說(shuō)時(shí)出現亂碼,一鍵提取即可。文件合并為一個(gè)文件
  3、 該軟件使用方便,運行流暢,爬行錯誤率極低。如果您是小說(shuō)愛(ài)好者,強烈建議您使用本軟件進(jìn)行小說(shuō)爬取。
  如何使用網(wǎng)絡(luò )圖書(shū)抓取器
  1、 網(wǎng)絡(luò )圖書(shū)抓取器下載后,解壓安裝包后,雙擊使用,第一次運行會(huì )自動(dòng)生成設置文件,用戶(hù)可以手動(dòng)調整文件,打開(kāi)軟件,使用軟件小說(shuō)下載功能,
  2、 首先進(jìn)入要下載小說(shuō)的網(wǎng)頁(yè),輸入書(shū)名,點(diǎn)擊目錄提取,提取目錄后可以移動(dòng)、刪除、倒序等調整操作,設置保存路徑,點(diǎn)擊開(kāi)始爬取開(kāi)始下載。
  3、可以提取指定小說(shuō)目錄頁(yè)的章節信息并進(jìn)行調整,然后按照章節順序抓取小說(shuō)內容,然后合并。抓取過(guò)程可以隨時(shí)中斷,關(guān)閉程序后可以繼續上一個(gè)任務(wù)。
  4、在設置文件中添加了每個(gè)章節名稱(chēng)的前綴和后綴,為后期制作電子書(shū)的目錄布局帶來(lái)了極大的方便。已輸入 10 個(gè)適用的 網(wǎng)站。選擇后可以快速打開(kāi)網(wǎng)站找到你需要的書(shū),并自動(dòng)應用相應的代碼。
  網(wǎng)絡(luò )圖書(shū)爬蟲(chóng)回顧
  支持多種字符編碼方式,避免亂碼。 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(小說(shuō)下載神器支持各大網(wǎng)站的網(wǎng)絡(luò )小說(shuō),想下°傻瓜模式)
  網(wǎng)絡(luò )圖書(shū)抓取器是一款出色的小說(shuō)下載工具。支持網(wǎng)站各大網(wǎng)絡(luò )小說(shuō)。你可以下載任何你想要的。完全免費下載,無(wú)需復雜操作,一鍵抓取,同時(shí)所有章節可以合并為一個(gè)文本,非常方便易用。
  
  網(wǎng)絡(luò )圖書(shū)爬蟲(chóng)基本介紹
  Web Book Crawler是一款免費的網(wǎng)絡(luò )小說(shuō)下載軟件,主要功能是從各大網(wǎng)站抓取需要的網(wǎng)絡(luò )小說(shuō),并自動(dòng)生成txt文本。下載本軟件后,您可以一鍵免費閱讀網(wǎng)站的熱門(mén)小說(shuō),還可以根據用戶(hù)需求自動(dòng)查找相關(guān)書(shū)籍和章節。獨特的內核索引引擎可以幫助用戶(hù)搜索他們想閱讀的小說(shuō)。避免產(chǎn)生無(wú)用數據的章節。清晰的頁(yè)面設計,讓用戶(hù)即刻使用,拒絕各種繁瑣的功能設置,只為用戶(hù)提供更好的閱讀體驗。并且相較于傳統的提取工具,這款網(wǎng)絡(luò )圖書(shū)抓取工具可以基于網(wǎng)絡(luò )小說(shuō)目錄整合文本,讓讀者體驗一流的閱讀體驗。
  網(wǎng)絡(luò )圖書(shū)抓取器功能介紹
  1、章節調整:提取目錄后,可以進(jìn)行移動(dòng)、刪除、倒序等調整操作。調整會(huì )直接影響最終的書(shū)籍,也會(huì )以調整后的章節順序輸出。
  2、Auto-retry:在爬取過(guò)程中,由于網(wǎng)絡(luò )因素,可能會(huì )出現爬取失敗的情況。程序可能會(huì )自動(dòng)重試直到成功,也可以暫時(shí)中斷爬?。ㄖ袛嗪箨P(guān)閉程序不影響進(jìn)度),等網(wǎng)絡(luò )好再試。
  3、Stop and resume:抓取過(guò)程可以隨時(shí)停止,退出程序后不影響進(jìn)度(章節信息會(huì )保存在記錄中,運行后可以恢復抓?。┫麓纬绦?。注意:需要先使用停止鍵中斷然后退出程序,如果直接退出,將不會(huì )恢復)。
  4、一鍵爬?。河址Q(chēng)°傻瓜模式“”,意思是網(wǎng)絡(luò )圖書(shū)爬蟲(chóng)可以實(shí)現自動(dòng)爬取和合并功能,直接輸出最終的文本文件。前面可能需要輸入最基本的網(wǎng)址、保存位置等信息(會(huì )有明顯的操作提示),調整章節后也可以一鍵抓取,抓取合并操作會(huì )自動(dòng)完成.
  5、APPLICATION網(wǎng)站:已經(jīng)輸入了10個(gè)適用的網(wǎng)站(選擇后可以快速打開(kāi)網(wǎng)站找到你需要的書(shū)),也可以自動(dòng)申請相應的代碼,或者申請到其他小說(shuō)網(wǎng)站進(jìn)行測試,如果一起使用,可以手動(dòng)添加到配置文件中以備后用。
  6、電子書(shū)制作方便:可以在設置文件中添加各章節名稱(chēng)的前綴和后綴,為后期制作電子書(shū)目錄帶來(lái)極大的方便。
  網(wǎng)絡(luò )圖書(shū)爬蟲(chóng)亮點(diǎn)
  1、支持多種小說(shuō)平臺的小說(shuō)爬取。
  2、支持多種文字編碼方式,避免文字亂碼。
  3、 一鍵提取查看小說(shuō)所有目錄。
  4、支持調整小說(shuō)章節位置,可上下移動(dòng)。
  5、支持在線(xiàn)查看章節內容,避免提取錯誤章節。
  6、方支持抓取失敗時(shí)手動(dòng)或自動(dòng)重新抓取。
  7、抓取后的小說(shuō)會(huì )以一章一文的形式保存。
  8、—將所有章節合并為一個(gè)文本以便于存儲的關(guān)鍵。
  網(wǎng)絡(luò )圖書(shū)爬蟲(chóng)的主要優(yōu)勢
  1、Web Book Crawler 是一款非常實(shí)用的網(wǎng)絡(luò )小說(shuō)爬蟲(chóng)軟件。有了它,用戶(hù)可以快速提取十多部小說(shuō)的章節和內容網(wǎng)站保存到本地
  2、 這個(gè)爬蟲(chóng)工具功能齊全,也很友好。為用戶(hù)貼心配備了4種文本編碼器,防止用戶(hù)提取小說(shuō)時(shí)出現亂碼,一鍵提取即可。文件合并為一個(gè)文件
  3、 該軟件使用方便,運行流暢,爬行錯誤率極低。如果您是小說(shuō)愛(ài)好者,強烈建議您使用本軟件進(jìn)行小說(shuō)爬取。
  如何使用網(wǎng)絡(luò )圖書(shū)抓取器
  1、 網(wǎng)絡(luò )圖書(shū)抓取器下載后,解壓安裝包后,雙擊使用,第一次運行會(huì )自動(dòng)生成設置文件,用戶(hù)可以手動(dòng)調整文件,打開(kāi)軟件,使用軟件小說(shuō)下載功能,
  2、 首先進(jìn)入要下載小說(shuō)的網(wǎng)頁(yè),輸入書(shū)名,點(diǎn)擊目錄提取,提取目錄后可以移動(dòng)、刪除、倒序等調整操作,設置保存路徑,點(diǎn)擊開(kāi)始爬取開(kāi)始下載。
  3、可以提取指定小說(shuō)目錄頁(yè)的章節信息并進(jìn)行調整,然后按照章節順序抓取小說(shuō)內容,然后合并。抓取過(guò)程可以隨時(shí)中斷,關(guān)閉程序后可以繼續上一個(gè)任務(wù)。
  4、在設置文件中添加了每個(gè)章節名稱(chēng)的前綴和后綴,為后期制作電子書(shū)的目錄布局帶來(lái)了極大的方便。已輸入 10 個(gè)適用的 網(wǎng)站。選擇后可以快速打開(kāi)網(wǎng)站找到你需要的書(shū),并自動(dòng)應用相應的代碼。
  網(wǎng)絡(luò )圖書(shū)爬蟲(chóng)回顧
  支持多種字符編碼方式,避免亂碼。

抓取網(wǎng)頁(yè)生成電子書(shū)(研究網(wǎng)絡(luò )安全epub格式的電子書(shū)折騰的可以直接點(diǎn)擊——下載)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 250 次瀏覽 ? 2021-09-14 08:08 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(研究網(wǎng)絡(luò )安全epub格式的電子書(shū)折騰的可以直接點(diǎn)擊——下載)
  原文鏈接:
  最近在學(xué)習網(wǎng)絡(luò )安全相關(guān)知識??吹轿逶浦R庫有很多優(yōu)質(zhì)的文章。由于網(wǎng)上看文章太麻煩,研究了Calibre寫(xiě)的菜譜,自動(dòng)下載生成電子書(shū)的方法。
  用這種方法把截至2015年2月11日五云知識庫上的400多篇文章文章整理成epub格式的電子書(shū)花了一些時(shí)間。不想折騰的可以直接點(diǎn)擊——五云知識庫總結博客-下載。
  Calibre 的工具介紹和準備
  Calibre 是“一站式”電子書(shū)解決方案,完全可以滿(mǎn)足您的電子書(shū)需求。 Calibre 是免費的,源代碼是開(kāi)放的,具有跨平臺設計,可以在 Linux、OS X 和 Windows 操作系統上運行。
  是一個(gè)完整的電子圖書(shū)館,包括圖書(shū)館管理、格式轉換、新聞、資料轉電子書(shū),以及電子書(shū)閱讀器同步和集成到電子書(shū)閱讀器的功能。
  這里我們使用的是 Calibre 命令行工具中的 ebook-convert 功能,請到這里下載安裝。
  Mac 下的工具收錄在安裝包中。使用該工具前,請執行export PATH="$PATH:/Applications/calibre.app/Contents/MacOS/"將cli工具路徑添加到系統路徑中,或者在.bashrc中添加這一句。
  其他系統尚未測試,請留言補充說(shuō)明。
  鉻
  使用開(kāi)發(fā)者工具分析頁(yè)面結構并在配方中指定下載的內容。
  分析制作過(guò)程中的頁(yè)面結構
  先到五云知識庫頁(yè)面查看。
  
  黑云知識庫界面
  從頁(yè)面底部的信息可以看到知識庫是wordpress生成的,共47頁(yè)。
  點(diǎn)擊查看每個(gè)目錄頁(yè)的格式。
  
  文字
  選擇標題,右鍵單擊查看元素。
  
  標題
  標題結構如下:
  
“暗云”BootKit木馬詳細技術(shù)分析
  可以找到規則。標題的共同特征是收錄在,鏈接地址在href中,標題內容就是收錄的內容。
  任意點(diǎn)打開(kāi)一個(gè)特定的文章,用同樣的方法發(fā)現每個(gè)文章的body都在下面的標簽中。
  寫(xiě)菜譜
  calibre 的配方本質(zhì)上是一個(gè) python 文件。通過(guò)繼承一個(gè)類(lèi),指定一些電子書(shū)元數據和從網(wǎng)頁(yè)中提取內容的方法,達到自動(dòng)下載并集成到電子書(shū)的目的。內容篩選主要是通過(guò)Beautiful Soup來(lái)實(shí)現的。本次任務(wù)使用的配方如下,其他參考鏈接包括:
  #!/usr/bin/python
# encoding: utf-8
from calibre.web.feeds.recipes import BasicNewsRecipe
class wooyun(BasicNewsRecipe):
title = u'烏云知識庫'
__author__ = u'無(wú)關(guān)風(fēng)月'
description = u'''烏云知識庫,最專(zhuān)業(yè)的安全知識分享平臺。本電子書(shū)由無(wú)關(guān)風(fēng)月整理網(wǎng)站 內容而來(lái)。'''
timefmt = '[%Y-%m-%d]'
no_stylesheets = True
INDEX = 'http://drops.wooyun.org/'
# auto_cleanup = True # 如果沒(méi)有手動(dòng)分析文章結構,可以考慮開(kāi)啟該選項自動(dòng)清理正文內容
language = 'zh-CN'
keep_only_tags = [{'class': ['post']}] # 僅保留文章的post中的內容,其中為自己分析得到的正文范圍
max_articles_per_feed = 10000 # 默認最多文章數是100,可改為更大的數字以免下載不全
def parse_index(self):
# soup = self.index_to_soup(self.INDEX)
# pages_info = soup.findALL(**{'class': 'pages'}).text.split()
# print 'pages_info:', pages_info
start_page = 1 # int(pages_info[1])
end_page = 47 # int(pages_info[3])
articles = []
for p in range(start_page, end_page+1): # 處理每一個(gè)目錄頁(yè)
soup_page = self.index_to_soup(self.INDEX + '/page/' + str(p))
soup_titles = soup_page.findAll(**{'class': 'entry-title'}) # 從目錄頁(yè)中提取正文標題和鏈接
for soup_title in soup_titles:
href = soup_title.a
articles.append({'title': href['title'][18:], 'url': href['href']})
print 'page %d done' % p
articles.reverse() # 文章倒序,讓其按照時(shí)間從前到后排列
res = [(u'烏云知識庫', articles)] # 返回tuple,分別是電子書(shū)名字和文章列表
# self.abort_recipe_processing('test') # 用來(lái)中斷電子書(shū)生成,調試用
return res
  生成電子書(shū)
  將上述文件保存為wooyun.recipe,在終端執行命令:
  ebook-convert wooyun.recipe wooyun.epub
  然后你可以去喝一杯水,等待 calibre 自動(dòng)將博客處理成電子書(shū)。這里的epub也可以改成其他格式,比如mobi。
  需要改進(jìn)。 text節點(diǎn)無(wú)法使用calibre內置的soup解析,所以代碼中的start_page和end_page是硬編碼的,需要根據實(shí)際情況修改;同樣文章title使用href['title'][18:],比較粗糙,有待完善; parse_index 解析目錄頁(yè)共40多頁(yè),是單線(xiàn)程同步的,速度比較慢,可以考慮改多線(xiàn)程加快速度。參考鏈接 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(研究網(wǎng)絡(luò )安全epub格式的電子書(shū)折騰的可以直接點(diǎn)擊——下載)
  原文鏈接:
  最近在學(xué)習網(wǎng)絡(luò )安全相關(guān)知識??吹轿逶浦R庫有很多優(yōu)質(zhì)的文章。由于網(wǎng)上看文章太麻煩,研究了Calibre寫(xiě)的菜譜,自動(dòng)下載生成電子書(shū)的方法。
  用這種方法把截至2015年2月11日五云知識庫上的400多篇文章文章整理成epub格式的電子書(shū)花了一些時(shí)間。不想折騰的可以直接點(diǎn)擊——五云知識庫總結博客-下載。
  Calibre 的工具介紹和準備
  Calibre 是“一站式”電子書(shū)解決方案,完全可以滿(mǎn)足您的電子書(shū)需求。 Calibre 是免費的,源代碼是開(kāi)放的,具有跨平臺設計,可以在 Linux、OS X 和 Windows 操作系統上運行。
  是一個(gè)完整的電子圖書(shū)館,包括圖書(shū)館管理、格式轉換、新聞、資料轉電子書(shū),以及電子書(shū)閱讀器同步和集成到電子書(shū)閱讀器的功能。
  這里我們使用的是 Calibre 命令行工具中的 ebook-convert 功能,請到這里下載安裝。
  Mac 下的工具收錄在安裝包中。使用該工具前,請執行export PATH="$PATH:/Applications/calibre.app/Contents/MacOS/"將cli工具路徑添加到系統路徑中,或者在.bashrc中添加這一句。
  其他系統尚未測試,請留言補充說(shuō)明。
  鉻
  使用開(kāi)發(fā)者工具分析頁(yè)面結構并在配方中指定下載的內容。
  分析制作過(guò)程中的頁(yè)面結構
  先到五云知識庫頁(yè)面查看。
  
  黑云知識庫界面
  從頁(yè)面底部的信息可以看到知識庫是wordpress生成的,共47頁(yè)。
  點(diǎn)擊查看每個(gè)目錄頁(yè)的格式。
  
  文字
  選擇標題,右鍵單擊查看元素。
  
  標題
  標題結構如下:
  
“暗云”BootKit木馬詳細技術(shù)分析
  可以找到規則。標題的共同特征是收錄在,鏈接地址在href中,標題內容就是收錄的內容。
  任意點(diǎn)打開(kāi)一個(gè)特定的文章,用同樣的方法發(fā)現每個(gè)文章的body都在下面的標簽中。
  寫(xiě)菜譜
  calibre 的配方本質(zhì)上是一個(gè) python 文件。通過(guò)繼承一個(gè)類(lèi),指定一些電子書(shū)元數據和從網(wǎng)頁(yè)中提取內容的方法,達到自動(dòng)下載并集成到電子書(shū)的目的。內容篩選主要是通過(guò)Beautiful Soup來(lái)實(shí)現的。本次任務(wù)使用的配方如下,其他參考鏈接包括:
  #!/usr/bin/python
# encoding: utf-8
from calibre.web.feeds.recipes import BasicNewsRecipe
class wooyun(BasicNewsRecipe):
title = u'烏云知識庫'
__author__ = u'無(wú)關(guān)風(fēng)月'
description = u'''烏云知識庫,最專(zhuān)業(yè)的安全知識分享平臺。本電子書(shū)由無(wú)關(guān)風(fēng)月整理網(wǎng)站 內容而來(lái)。'''
timefmt = '[%Y-%m-%d]'
no_stylesheets = True
INDEX = 'http://drops.wooyun.org/'
# auto_cleanup = True # 如果沒(méi)有手動(dòng)分析文章結構,可以考慮開(kāi)啟該選項自動(dòng)清理正文內容
language = 'zh-CN'
keep_only_tags = [{'class': ['post']}] # 僅保留文章的post中的內容,其中為自己分析得到的正文范圍
max_articles_per_feed = 10000 # 默認最多文章數是100,可改為更大的數字以免下載不全
def parse_index(self):
# soup = self.index_to_soup(self.INDEX)
# pages_info = soup.findALL(**{'class': 'pages'}).text.split()
# print 'pages_info:', pages_info
start_page = 1 # int(pages_info[1])
end_page = 47 # int(pages_info[3])
articles = []
for p in range(start_page, end_page+1): # 處理每一個(gè)目錄頁(yè)
soup_page = self.index_to_soup(self.INDEX + '/page/' + str(p))
soup_titles = soup_page.findAll(**{'class': 'entry-title'}) # 從目錄頁(yè)中提取正文標題和鏈接
for soup_title in soup_titles:
href = soup_title.a
articles.append({'title': href['title'][18:], 'url': href['href']})
print 'page %d done' % p
articles.reverse() # 文章倒序,讓其按照時(shí)間從前到后排列
res = [(u'烏云知識庫', articles)] # 返回tuple,分別是電子書(shū)名字和文章列表
# self.abort_recipe_processing('test') # 用來(lái)中斷電子書(shū)生成,調試用
return res
  生成電子書(shū)
  將上述文件保存為wooyun.recipe,在終端執行命令:
  ebook-convert wooyun.recipe wooyun.epub
  然后你可以去喝一杯水,等待 calibre 自動(dòng)將博客處理成電子書(shū)。這里的epub也可以改成其他格式,比如mobi。
  需要改進(jìn)。 text節點(diǎn)無(wú)法使用calibre內置的soup解析,所以代碼中的start_page和end_page是硬編碼的,需要根據實(shí)際情況修改;同樣文章title使用href['title'][18:],比較粗糙,有待完善; parse_index 解析目錄頁(yè)共40多頁(yè),是單線(xiàn)程同步的,速度比較慢,可以考慮改多線(xiàn)程加快速度。參考鏈接

抓取網(wǎng)頁(yè)生成電子書(shū)(如何將網(wǎng)頁(yè)文章批量抓取、生成電子書(shū)、直接推送到Kindle)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 347 次瀏覽 ? 2021-09-14 08:07 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(如何將網(wǎng)頁(yè)文章批量抓取、生成電子書(shū)、直接推送到Kindle)
  我一直在研究如何將我關(guān)注的網(wǎng)頁(yè)或文章安裝到Kindle中進(jìn)行認真閱讀,但很長(cháng)時(shí)間沒(méi)有真正的進(jìn)展。手動(dòng)格式化書(shū)籍制作電子書(shū)的方法雖然簡(jiǎn)單易行,但對于短小且更新頻繁的網(wǎng)頁(yè)文章來(lái)說(shuō)效率低下。如果有工具可以批量抓取網(wǎng)頁(yè)文章,生成電子書(shū),直接推送到Kindle上就好了。 Doocer 是一個(gè)非常有用的工具。
  Doocer 是@lepture 開(kāi)發(fā)的在線(xiàn)服務(wù),它允許用戶(hù)在 Pocket 的后期閱讀賬戶(hù)中提交 URL、RSS 提要地址和文章,然后將它們一一制作成 ePub、MOBI 電子書(shū)或在批次??梢灾苯釉?Doocer 中閱讀所有文章,也可以推送到 Kindle、Apple Books 閱讀。
  
  閱讀體驗非常好
  Doocer 生成的電子書(shū)格式良好,值得稱(chēng)贊。應該有的內容就多,不應該的內容也不多。本書(shū)不僅封面有圖文,還有文章directory、網(wǎng)站源、文章原作者等信息。 Doocer生成的MOBI電子書(shū)支持KF8標準,所以支持 Kindle 原生替換自定義字體。
  由于網(wǎng)站文章通常都有標準和通用的排版規范,所以Doocer生成的電子書(shū)文章中的大小、標題和列表圖例與原網(wǎng)頁(yè)文章高度一致@。原文章中的超鏈接也全部保留,評論信息、廣告等內容全部丟棄。全書(shū)的閱讀體驗非常友好。 (當然,如果原網(wǎng)頁(yè)文章的布局亂了,那么生成的電子書(shū)也可能完全不一樣。)
  
  將網(wǎng)頁(yè)文章制作成電子書(shū)
  Doocer 完成注冊和登錄后,我們就可以開(kāi)始將網(wǎng)頁(yè)文章 制作成電子書(shū)了。首先,我們點(diǎn)擊“NEW BOOK”按鈕新建電子書(shū),輸入電子書(shū)書(shū)名。然后在右上角選擇“添加”添加文章 URL或RSS提要地址。
  
  以小眾網(wǎng)頁(yè)的文章為例,我們選擇“FEED”,在輸入框中粘貼RSS地址,然后點(diǎn)擊“PARSE”,那么小眾文章的最近列表就是顯示給我們添加。我們可以根據需要選擇,也可以點(diǎn)擊“全選”來(lái)全選文章。最后,下拉到頁(yè)面底部,選擇“保存”,這些文章就會(huì )被添加到書(shū)中。
  
  實(shí)際上,Doocer 網(wǎng)頁(yè)與 RSS 工具非常相似。實(shí)現了從網(wǎng)站批量抓取文章并集中展示的功能。
  
  要將這些文章轉換成電子書(shū)并推送到Kindle,我們需要進(jìn)行一些簡(jiǎn)單的操作。
  首先,根據Doocer個(gè)人設置頁(yè)面的提示,我們打開(kāi)Doocer電子書(shū)的發(fā)送地址,添加到個(gè)人文檔接收地址。完成后,我們再在輸入框中填寫(xiě)Kindle的個(gè)人文檔接收地址,點(diǎn)擊保存。
  
  最后,我們在 Doocer 中打開(kāi)《少數派》這本書(shū),在頁(yè)面上找到“發(fā)布”,然后選擇發(fā)送到 Kindle。大約 10-30 分鐘,Doocer 將完成圖書(shū)制作并將圖書(shū)推送到 Kindle。
  
  還有一些問(wèn)題需要注意
  Doocer目前處于Beta測試階段,還存在一些bug,尤其是中文網(wǎng)站經(jīng)常出現問(wèn)題。好在Doocer官網(wǎng)有開(kāi)發(fā)者對話(huà)頻道,可以直接聯(lián)系他幫忙解決。
  實(shí)現所有操作的自動(dòng)化流程是我認為Doocer最需要努力的方向。 Doocer可以像RSS工具一樣抓取網(wǎng)頁(yè)中更新的文章,但仍然需要手動(dòng)抓取新的文章抓取并生成電子書(shū)并推送。如果整個(gè)過(guò)程可以自動(dòng)化,RSS-MOBI-Kindle就可以一次搞定,相信實(shí)用性會(huì )更高。
  目前,Doocer 的所有功能均可免費使用。 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(如何將網(wǎng)頁(yè)文章批量抓取、生成電子書(shū)、直接推送到Kindle)
  我一直在研究如何將我關(guān)注的網(wǎng)頁(yè)或文章安裝到Kindle中進(jìn)行認真閱讀,但很長(cháng)時(shí)間沒(méi)有真正的進(jìn)展。手動(dòng)格式化書(shū)籍制作電子書(shū)的方法雖然簡(jiǎn)單易行,但對于短小且更新頻繁的網(wǎng)頁(yè)文章來(lái)說(shuō)效率低下。如果有工具可以批量抓取網(wǎng)頁(yè)文章,生成電子書(shū),直接推送到Kindle上就好了。 Doocer 是一個(gè)非常有用的工具。
  Doocer 是@lepture 開(kāi)發(fā)的在線(xiàn)服務(wù),它允許用戶(hù)在 Pocket 的后期閱讀賬戶(hù)中提交 URL、RSS 提要地址和文章,然后將它們一一制作成 ePub、MOBI 電子書(shū)或在批次??梢灾苯釉?Doocer 中閱讀所有文章,也可以推送到 Kindle、Apple Books 閱讀。
  
  閱讀體驗非常好
  Doocer 生成的電子書(shū)格式良好,值得稱(chēng)贊。應該有的內容就多,不應該的內容也不多。本書(shū)不僅封面有圖文,還有文章directory、網(wǎng)站源、文章原作者等信息。 Doocer生成的MOBI電子書(shū)支持KF8標準,所以支持 Kindle 原生替換自定義字體。
  由于網(wǎng)站文章通常都有標準和通用的排版規范,所以Doocer生成的電子書(shū)文章中的大小、標題和列表圖例與原網(wǎng)頁(yè)文章高度一致@。原文章中的超鏈接也全部保留,評論信息、廣告等內容全部丟棄。全書(shū)的閱讀體驗非常友好。 (當然,如果原網(wǎng)頁(yè)文章的布局亂了,那么生成的電子書(shū)也可能完全不一樣。)
  
  將網(wǎng)頁(yè)文章制作成電子書(shū)
  Doocer 完成注冊和登錄后,我們就可以開(kāi)始將網(wǎng)頁(yè)文章 制作成電子書(shū)了。首先,我們點(diǎn)擊“NEW BOOK”按鈕新建電子書(shū),輸入電子書(shū)書(shū)名。然后在右上角選擇“添加”添加文章 URL或RSS提要地址。
  
  以小眾網(wǎng)頁(yè)的文章為例,我們選擇“FEED”,在輸入框中粘貼RSS地址,然后點(diǎn)擊“PARSE”,那么小眾文章的最近列表就是顯示給我們添加。我們可以根據需要選擇,也可以點(diǎn)擊“全選”來(lái)全選文章。最后,下拉到頁(yè)面底部,選擇“保存”,這些文章就會(huì )被添加到書(shū)中。
  
  實(shí)際上,Doocer 網(wǎng)頁(yè)與 RSS 工具非常相似。實(shí)現了從網(wǎng)站批量抓取文章并集中展示的功能。
  
  要將這些文章轉換成電子書(shū)并推送到Kindle,我們需要進(jìn)行一些簡(jiǎn)單的操作。
  首先,根據Doocer個(gè)人設置頁(yè)面的提示,我們打開(kāi)Doocer電子書(shū)的發(fā)送地址,添加到個(gè)人文檔接收地址。完成后,我們再在輸入框中填寫(xiě)Kindle的個(gè)人文檔接收地址,點(diǎn)擊保存。
  
  最后,我們在 Doocer 中打開(kāi)《少數派》這本書(shū),在頁(yè)面上找到“發(fā)布”,然后選擇發(fā)送到 Kindle。大約 10-30 分鐘,Doocer 將完成圖書(shū)制作并將圖書(shū)推送到 Kindle。
  
  還有一些問(wèn)題需要注意
  Doocer目前處于Beta測試階段,還存在一些bug,尤其是中文網(wǎng)站經(jīng)常出現問(wèn)題。好在Doocer官網(wǎng)有開(kāi)發(fā)者對話(huà)頻道,可以直接聯(lián)系他幫忙解決。
  實(shí)現所有操作的自動(dòng)化流程是我認為Doocer最需要努力的方向。 Doocer可以像RSS工具一樣抓取網(wǎng)頁(yè)中更新的文章,但仍然需要手動(dòng)抓取新的文章抓取并生成電子書(shū)并推送。如果整個(gè)過(guò)程可以自動(dòng)化,RSS-MOBI-Kindle就可以一次搞定,相信實(shí)用性會(huì )更高。
  目前,Doocer 的所有功能均可免費使用。

抓取網(wǎng)頁(yè)生成電子書(shū)(網(wǎng)上無(wú)法下載的“小說(shuō)在線(xiàn)閱讀”內容?有種Python2.7基礎知識 )

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 120 次瀏覽 ? 2021-09-13 20:05 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(網(wǎng)上無(wú)法下載的“小說(shuō)在線(xiàn)閱讀”內容?有種Python2.7基礎知識
)
  您是否擔心“小說(shuō)在線(xiàn)閱讀”內容無(wú)法在網(wǎng)上下載?還是一些文章內容讓你有采集的沖動(dòng),卻找不到下載鏈接?是否有寫(xiě)一個(gè)程序來(lái)完成所有事情的沖動(dòng)?你有沒(méi)有學(xué)過(guò)python,想找個(gè)東西來(lái)展示你的拳頭并告訴別人“兄弟真棒!”?那么讓我們開(kāi)始吧!哈哈~
  嗯,最近剛寫(xiě)了很多Yii,想找點(diǎn)東西調整一下……= =
  這個(gè)項目的目的是研究。對于所有版權問(wèn)題,我們都站在作者一邊。以閱讀盜版小說(shuō)為目的的讀者,請自己面對墻!
  畢竟,我們要做的就是從網(wǎng)頁(yè)中抓取小說(shuō)文本的內容。我們的研究對象是全本小說(shuō)網(wǎng)...再次聲明,我們不對任何版權負責....
  開(kāi)頭最基本的內容就是抓取某一章節的內容。
  環(huán)境:Ubuntu、Python 2.7
  基礎知識
  這個(gè)程序涉及到幾個(gè)知識點(diǎn),這里羅列一下。不細說(shuō),百度上就有很多。
  1.urllib2 模塊的請求對象用于設置HTTP請求,包括爬取的url,以及偽裝成瀏覽器的代理。然后是urlopen和read方法,這兩個(gè)方法都很容易理解。
  2.chardet 模塊,用于檢測網(wǎng)頁(yè)的編碼。網(wǎng)頁(yè)抓取數據時(shí)很容易遇到亂碼的問(wèn)題。為了判斷網(wǎng)頁(yè)是gtk還是utf-8編碼,使用chardet的detect函數來(lái)檢測。使用Windows的同學(xué)可以在這里下載,解壓到python的lib目錄下。
  3.decode函數將字符串從某種編碼轉換為unicode字符,encode將unicode字符轉換為指定編碼格式的字符串。
  4.re 模塊正則表達式應用。搜索功能可以找到匹配正則表達式的項,replace替換匹配的字符串。
  思路分析:
  我們選擇的網(wǎng)址是,斗羅大陸第一章。你可以查看網(wǎng)頁(yè)的源碼,你會(huì )發(fā)現只有一個(gè)內容標簽收錄了所有章節的內容,所以你可以將內容標簽與正則匹配并抓取它。試著(zhù)把這部分內容打印出來(lái),你會(huì )發(fā)現很多
  和 &nbsp,
  用換行符替換,&nbsp是網(wǎng)頁(yè)中的占位符,即空格,用空格替換即可。這一章的內容非常漂亮。為了完整起見(jiàn),我們也使用常規規則爬下標題。
  程序
<p>
# -*- coding: utf-8 -*-

import urllib2
import re
import chardet


class Book_Spider:

def __init__(self):
self.pages = []

# 抓取一個(gè)章節
def GetPage(self):
myUrl = "http://www.quanben.com/xiaoshu ... 3B%3B
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
request = urllib2.Request(myUrl, headers = headers)
myResponse = urllib2.urlopen(request)
myPage = myResponse.read()

#先檢測網(wǎng)頁(yè)的字符編碼,最后統一轉為 utf-8
charset = chardet.detect(myPage)
charset = charset['encoding']
if charset == 'utf-8' or charset == 'UTF-8':
myPage = myPage
else:
myPage = myPage.decode('gb2312','ignore').encode('utf-8')
unicodePage = myPage.decode("utf-8")

try:
#抓取標題
my_title = re.search('(.*?)',unicodePage,re.S)
my_title = my_title.group(1)
except:
print '標題 HTML 變化,請重新分析!'
return False

try:
#抓取章節內容
my_content = re.search('(.*?) 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(網(wǎng)上無(wú)法下載的“小說(shuō)在線(xiàn)閱讀”內容?有種Python2.7基礎知識
)
  您是否擔心“小說(shuō)在線(xiàn)閱讀”內容無(wú)法在網(wǎng)上下載?還是一些文章內容讓你有采集的沖動(dòng),卻找不到下載鏈接?是否有寫(xiě)一個(gè)程序來(lái)完成所有事情的沖動(dòng)?你有沒(méi)有學(xué)過(guò)python,想找個(gè)東西來(lái)展示你的拳頭并告訴別人“兄弟真棒!”?那么讓我們開(kāi)始吧!哈哈~
  嗯,最近剛寫(xiě)了很多Yii,想找點(diǎn)東西調整一下……= =
  這個(gè)項目的目的是研究。對于所有版權問(wèn)題,我們都站在作者一邊。以閱讀盜版小說(shuō)為目的的讀者,請自己面對墻!
  畢竟,我們要做的就是從網(wǎng)頁(yè)中抓取小說(shuō)文本的內容。我們的研究對象是全本小說(shuō)網(wǎng)...再次聲明,我們不對任何版權負責....
  開(kāi)頭最基本的內容就是抓取某一章節的內容。
  環(huán)境:Ubuntu、Python 2.7
  基礎知識
  這個(gè)程序涉及到幾個(gè)知識點(diǎn),這里羅列一下。不細說(shuō),百度上就有很多。
  1.urllib2 模塊的請求對象用于設置HTTP請求,包括爬取的url,以及偽裝成瀏覽器的代理。然后是urlopen和read方法,這兩個(gè)方法都很容易理解。
  2.chardet 模塊,用于檢測網(wǎng)頁(yè)的編碼。網(wǎng)頁(yè)抓取數據時(shí)很容易遇到亂碼的問(wèn)題。為了判斷網(wǎng)頁(yè)是gtk還是utf-8編碼,使用chardet的detect函數來(lái)檢測。使用Windows的同學(xué)可以在這里下載,解壓到python的lib目錄下。
  3.decode函數將字符串從某種編碼轉換為unicode字符,encode將unicode字符轉換為指定編碼格式的字符串。
  4.re 模塊正則表達式應用。搜索功能可以找到匹配正則表達式的項,replace替換匹配的字符串。
  思路分析:
  我們選擇的網(wǎng)址是,斗羅大陸第一章。你可以查看網(wǎng)頁(yè)的源碼,你會(huì )發(fā)現只有一個(gè)內容標簽收錄了所有章節的內容,所以你可以將內容標簽與正則匹配并抓取它。試著(zhù)把這部分內容打印出來(lái),你會(huì )發(fā)現很多
  和 &nbsp,
  用換行符替換,&nbsp是網(wǎng)頁(yè)中的占位符,即空格,用空格替換即可。這一章的內容非常漂亮。為了完整起見(jiàn),我們也使用常規規則爬下標題。
  程序
<p>
# -*- coding: utf-8 -*-

import urllib2
import re
import chardet


class Book_Spider:

def __init__(self):
self.pages = []

# 抓取一個(gè)章節
def GetPage(self):
myUrl = "http://www.quanben.com/xiaoshu ... 3B%3B
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
request = urllib2.Request(myUrl, headers = headers)
myResponse = urllib2.urlopen(request)
myPage = myResponse.read()

#先檢測網(wǎng)頁(yè)的字符編碼,最后統一轉為 utf-8
charset = chardet.detect(myPage)
charset = charset['encoding']
if charset == 'utf-8' or charset == 'UTF-8':
myPage = myPage
else:
myPage = myPage.decode('gb2312','ignore').encode('utf-8')
unicodePage = myPage.decode("utf-8")

try:
#抓取標題
my_title = re.search('(.*?)',unicodePage,re.S)
my_title = my_title.group(1)
except:
print '標題 HTML 變化,請重新分析!'
return False

try:
#抓取章節內容
my_content = re.search('(.*?)

抓取網(wǎng)頁(yè)生成電子書(shū)( 應用CHM制怍精靈制作CHM格式文CHM文件格式格式電子書(shū))

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 128 次瀏覽 ? 2021-09-13 20:03 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(
應用CHM制怍精靈制作CHM格式文CHM文件格式格式電子書(shū))
  互聯(lián)網(wǎng)實(shí)用軟件知識:[1] 抓取網(wǎng)頁(yè)并制作成chm
  工具/材料
  Teleport_Ultra 軟件
  簡(jiǎn)單的 Chm 軟件
  去百度輸入軟件名找軟件,也可以從我的百度云盤(pán)下載(
  
  下載后,安裝軟件。
  打開(kāi) Teleport_Ultra 并創(chuàng )建一個(gè)新項目。
  
  選擇“復制網(wǎng)站”。
  
  輸入要抓取的網(wǎng)址,根據個(gè)人需要選擇搜索深度。
  
  選擇所有文件。
  
  點(diǎn)擊完成以完成新項目。
  
  點(diǎn)擊立即下載開(kāi)始獲取文件。
  
  正在獲取文件,等待完成。
  
  創(chuàng )建一個(gè)新項目。
  
  獲取后選擇本地文件夾。
  
  點(diǎn)擊確定導入文件夾。
  
  
  點(diǎn)擊編譯按鈕。
  
  點(diǎn)擊生成chm文件,自行選擇路徑。
  
  好的,到這里我們已經(jīng)成功地把網(wǎng)站變成了一個(gè)Chm文件。
  
  如果本次體驗對您有幫助,請點(diǎn)擊右上角“關(guān)注”關(guān)注我,關(guān)注后為您提供最新系列體驗更新。
  相關(guān)文章
  使用CHM制作CHM格式文件
  CHM 文件格式在互聯(lián)網(wǎng)上廣為流傳,被稱(chēng)為電子書(shū)格式。下面xp系統首頁(yè)介紹一個(gè)CHM制作精靈,可以輕松制作“CHM電子書(shū)”。希望用戶(hù)能夠掌握CHM系統的應用如何通過(guò)向導制作CHM格式的文??件。方法/步驟 CHM 創(chuàng )建向導的方法/步驟是將網(wǎng)頁(yè)文件(HTML 文檔)轉換為 CHM 文件(編譯后的 H...
  使用htm2chm將網(wǎng)頁(yè)打包成幫助文檔
  --編寫(xiě)CHM電子文檔手冊:手冊編譯完成后以word版提交給客戶(hù),存在很多不足,比如支持軟件的適應性、圖片移位、頁(yè)面突變,等等,等等。因此,有很多。 ,word版可以用來(lái)編譯應用手冊文件,必須轉換成以下三種格式的文本文件才能應用。手冊編譯完成后,提交PDF版本使用。好處很多:適合選擇性瀏覽。 ...
  如何制作 CHM 格式的電子書(shū)
  CHM格式的幫助文件相信大家都很熟悉。 CHM文件形式多樣,使用方便,深受大家喜愛(ài)。今天給大家介紹一種將文本文件轉成CHM格式電子書(shū)的方法。工具/材料已準備好用于生產(chǎn) 將文本文件轉換為電子書(shū)。 QuickCHM v2.6 前期準備過(guò)程 下載QuickCHM v2.6文件,在百度上搜索QuickCHM v2.6...
  優(yōu)化決策離不開(kāi)搜索基礎
  陶醉解讀:百度搜索引擎基礎知識----------- 搜索引擎為用戶(hù)展示的每一個(gè)搜索結果都對應著(zhù)互聯(lián)網(wǎng)上的一個(gè)頁(yè)面。每個(gè)搜索結果從產(chǎn)生到產(chǎn)生搜索引擎通過(guò)四個(gè)過(guò)程呈現給用戶(hù):抓取、過(guò)濾、索引和輸出結果。 >>>>>> ...
  制作chm文件并生成chm目錄
  “.chm”格式的幫助文件,如果有目錄,很容易閱讀。很多初學(xué)者不會(huì )制作相應的目錄。下面簡(jiǎn)單介紹一下目錄制作過(guò)程: Tools/Materials Easy CHM 軟件方法/步驟 打開(kāi)Word文檔,新建5個(gè)文檔,寫(xiě)好相應的內容,分別“另存為html格式”,將chm文件保存在桌面上。 ..
  CHM制作教程(全文中文搜索解決方案)
  我做了一個(gè)CHM文件,發(fā)現不支持中文搜索。找了很久,終于找到了解決辦法。不是網(wǎng)上提到的軟件問(wèn)題引起的。工具/素材網(wǎng)頁(yè)編輯軟件Dreamwearer CHM搭建軟件htmlhelp CHM配置輔助軟件PrecisionHelper方法/使用Dreamwearer制作完整網(wǎng)頁(yè)的步驟注:第三行是...
  制作chm電子書(shū)的完美詳解
  由微軟開(kāi)發(fā)的制作和編譯。 HLP 幫助文件的舊編譯器 Microsoft HTML Help Workshop 收錄三個(gè)軟件:DialogBoxHelpEditor、HelpWorkshop 和 SegmentedHypergraphicsEditor。您可以制作chm電子書(shū)、編輯目錄、插入圖標...
  p>
  chm 電子書(shū)制作工具
  WINDOWS上的幫助文件都是CHM格式的,看起來(lái)簡(jiǎn)單方便,文件小,索引也很方便。那么我們可以自己制作CHM文件嗎,這里我推薦一個(gè)軟件,你也可以自己制作這種文件。工具/材料 EasyCHM 方法/步驟 我們首先在百度上搜索EasyCHM,我在這里下載了3.84 特別版。下載后直接安裝...
  如何制作自己的 CHM 格式的電子書(shū)
  首先要聲明的是,我的經(jīng)驗日志只告訴你如何使用這個(gè)軟件制作你自己的CHM格式的電子書(shū)。只是簡(jiǎn)單好用的關(guān)卡來(lái)演示,高級功能部分需要朋友們。我們自己研究。工具/資料一臺裝有Windows系統的電腦,可以是筆記本或桌面軟件CHM Editor V1.3.3.7,網(wǎng)盤(pán)鏈接地址:方... 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(
應用CHM制怍精靈制作CHM格式文CHM文件格式格式電子書(shū))
  互聯(lián)網(wǎng)實(shí)用軟件知識:[1] 抓取網(wǎng)頁(yè)并制作成chm
  工具/材料
  Teleport_Ultra 軟件
  簡(jiǎn)單的 Chm 軟件
  去百度輸入軟件名找軟件,也可以從我的百度云盤(pán)下載(
  
  下載后,安裝軟件。
  打開(kāi) Teleport_Ultra 并創(chuàng )建一個(gè)新項目。
  
  選擇“復制網(wǎng)站”。
  
  輸入要抓取的網(wǎng)址,根據個(gè)人需要選擇搜索深度。
  
  選擇所有文件。
  
  點(diǎn)擊完成以完成新項目。
  
  點(diǎn)擊立即下載開(kāi)始獲取文件。
  
  正在獲取文件,等待完成。
  
  創(chuàng )建一個(gè)新項目。
  
  獲取后選擇本地文件夾。
  
  點(diǎn)擊確定導入文件夾。
  
  
  點(diǎn)擊編譯按鈕。
  
  點(diǎn)擊生成chm文件,自行選擇路徑。
  
  好的,到這里我們已經(jīng)成功地把網(wǎng)站變成了一個(gè)Chm文件。
  
  如果本次體驗對您有幫助,請點(diǎn)擊右上角“關(guān)注”關(guān)注我,關(guān)注后為您提供最新系列體驗更新。
  相關(guān)文章
  使用CHM制作CHM格式文件
  CHM 文件格式在互聯(lián)網(wǎng)上廣為流傳,被稱(chēng)為電子書(shū)格式。下面xp系統首頁(yè)介紹一個(gè)CHM制作精靈,可以輕松制作“CHM電子書(shū)”。希望用戶(hù)能夠掌握CHM系統的應用如何通過(guò)向導制作CHM格式的文??件。方法/步驟 CHM 創(chuàng )建向導的方法/步驟是將網(wǎng)頁(yè)文件(HTML 文檔)轉換為 CHM 文件(編譯后的 H...
  使用htm2chm將網(wǎng)頁(yè)打包成幫助文檔
  --編寫(xiě)CHM電子文檔手冊:手冊編譯完成后以word版提交給客戶(hù),存在很多不足,比如支持軟件的適應性、圖片移位、頁(yè)面突變,等等,等等。因此,有很多。 ,word版可以用來(lái)編譯應用手冊文件,必須轉換成以下三種格式的文本文件才能應用。手冊編譯完成后,提交PDF版本使用。好處很多:適合選擇性瀏覽。 ...
  如何制作 CHM 格式的電子書(shū)
  CHM格式的幫助文件相信大家都很熟悉。 CHM文件形式多樣,使用方便,深受大家喜愛(ài)。今天給大家介紹一種將文本文件轉成CHM格式電子書(shū)的方法。工具/材料已準備好用于生產(chǎn) 將文本文件轉換為電子書(shū)。 QuickCHM v2.6 前期準備過(guò)程 下載QuickCHM v2.6文件,在百度上搜索QuickCHM v2.6...
  優(yōu)化決策離不開(kāi)搜索基礎
  陶醉解讀:百度搜索引擎基礎知識----------- 搜索引擎為用戶(hù)展示的每一個(gè)搜索結果都對應著(zhù)互聯(lián)網(wǎng)上的一個(gè)頁(yè)面。每個(gè)搜索結果從產(chǎn)生到產(chǎn)生搜索引擎通過(guò)四個(gè)過(guò)程呈現給用戶(hù):抓取、過(guò)濾、索引和輸出結果。 >>>>>> ...
  制作chm文件并生成chm目錄
  “.chm”格式的幫助文件,如果有目錄,很容易閱讀。很多初學(xué)者不會(huì )制作相應的目錄。下面簡(jiǎn)單介紹一下目錄制作過(guò)程: Tools/Materials Easy CHM 軟件方法/步驟 打開(kāi)Word文檔,新建5個(gè)文檔,寫(xiě)好相應的內容,分別“另存為html格式”,將chm文件保存在桌面上。 ..
  CHM制作教程(全文中文搜索解決方案)
  我做了一個(gè)CHM文件,發(fā)現不支持中文搜索。找了很久,終于找到了解決辦法。不是網(wǎng)上提到的軟件問(wèn)題引起的。工具/素材網(wǎng)頁(yè)編輯軟件Dreamwearer CHM搭建軟件htmlhelp CHM配置輔助軟件PrecisionHelper方法/使用Dreamwearer制作完整網(wǎng)頁(yè)的步驟注:第三行是...
  制作chm電子書(shū)的完美詳解
  由微軟開(kāi)發(fā)的制作和編譯。 HLP 幫助文件的舊編譯器 Microsoft HTML Help Workshop 收錄三個(gè)軟件:DialogBoxHelpEditor、HelpWorkshop 和 SegmentedHypergraphicsEditor。您可以制作chm電子書(shū)、編輯目錄、插入圖標...
  p>
  chm 電子書(shū)制作工具
  WINDOWS上的幫助文件都是CHM格式的,看起來(lái)簡(jiǎn)單方便,文件小,索引也很方便。那么我們可以自己制作CHM文件嗎,這里我推薦一個(gè)軟件,你也可以自己制作這種文件。工具/材料 EasyCHM 方法/步驟 我們首先在百度上搜索EasyCHM,我在這里下載了3.84 特別版。下載后直接安裝...
  如何制作自己的 CHM 格式的電子書(shū)
  首先要聲明的是,我的經(jīng)驗日志只告訴你如何使用這個(gè)軟件制作你自己的CHM格式的電子書(shū)。只是簡(jiǎn)單好用的關(guān)卡來(lái)演示,高級功能部分需要朋友們。我們自己研究。工具/資料一臺裝有Windows系統的電腦,可以是筆記本或桌面軟件CHM Editor V1.3.3.7,網(wǎng)盤(pán)鏈接地址:方...

抓取網(wǎng)頁(yè)生成電子書(shū)(烏云知識庫博客匯總——下載格式的電子書(shū))

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 151 次瀏覽 ? 2021-09-13 20:02 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(烏云知識庫博客匯總——下載格式的電子書(shū))
  最近在學(xué)習網(wǎng)絡(luò )安全相關(guān)知識??吹轿逶浦R庫有很多優(yōu)質(zhì)的文章。由于網(wǎng)上看文章太麻煩,研究了Calibre寫(xiě)的菜譜,自動(dòng)下載生成電子書(shū)的方法。
  用這種方法把截至2015年2月11日五云知識庫上的400多篇文章文章整理成epub格式的電子書(shū)花了一些時(shí)間。不想折騰的可以直接點(diǎn)擊——五云知識庫總結博客-下載。
  工具介紹和準備Calibre
  Calibre 是“一站式”電子書(shū)解決方案,完全可以滿(mǎn)足您的電子書(shū)需求。 Calibre 是免費的,源代碼是開(kāi)放的,具有跨平臺設計,可以在 Linux、OS X 和 Windows 操作系統上運行。
  是一個(gè)完整的電子圖書(shū)館,包括圖書(shū)館管理、格式轉換、新聞、資料轉電子書(shū),以及電子書(shū)閱讀器同步和集成到電子書(shū)閱讀器的功能。
  這里我們使用的是 Calibre 命令行工具中的 ebook-convert 功能,請到這里下載安裝。
  Mac 下的工具收錄在安裝包中。使用該工具前,請執行export PATH="$PATH:/Applications/calibre.app/Contents/MacOS/"將cli工具路徑添加到系統路徑中,或者在.bashrc中添加這一句。
  其他系統尚未測試,請留言補充說(shuō)明。
  鉻
  使用開(kāi)發(fā)者工具分析頁(yè)面結構并在配方中指定下載的內容。
  制作過(guò)程分析頁(yè)面結構
  先到五云知識庫頁(yè)面查看。
  
  從頁(yè)面底部的信息可以看到知識庫是wordpress生成的,共47頁(yè)。
  點(diǎn)擊查看每個(gè)目錄頁(yè)的格式。
  
  選擇標題,右鍵單擊查看元素。
  
  標題結構如下:
  可以找到規則。標題的共同特征是收錄在,鏈接地址在href中,標題內容就是收錄的內容。
  任意點(diǎn)打開(kāi)一個(gè)特定的文章,用同樣的方法發(fā)現每個(gè)文章的body都在下面的標簽中。
  寫(xiě)菜譜
  calibre 的配方本質(zhì)上是一個(gè) python 文件。通過(guò)繼承一個(gè)類(lèi),指定一些電子書(shū)元數據和從網(wǎng)頁(yè)中提取內容的方法,達到自動(dòng)下載并集成到電子書(shū)的目的。內容篩選主要是通過(guò)Beautiful Soup來(lái)實(shí)現的。本次任務(wù)使用的配方如下,其他參考鏈接包括:
  #!/usr/bin/python
# encoding: utf-8
from calibre.web.feeds.recipes import BasicNewsRecipe
class wooyun(BasicNewsRecipe):
title = u&#39;烏云知識庫&#39;
__author__ = u&#39;無(wú)關(guān)風(fēng)月&#39;
description = u&#39;&#39;&#39;烏云知識庫,最專(zhuān)業(yè)的安全知識分享平臺。本電子書(shū)由無(wú)關(guān)風(fēng)月整理網(wǎng)站 內容而來(lái)。&#39;&#39;&#39;
timefmt = &#39;[%Y-%m-%d]&#39;
no_stylesheets = True
INDEX = &#39;http://drops.wooyun.org/&#39;
# auto_cleanup = True # 如果沒(méi)有手動(dòng)分析文章結構,可以考慮開(kāi)啟該選項自動(dòng)清理正文內容
language = &#39;zh-CN&#39;
keep_only_tags = [{&#39;class&#39;: [&#39;post&#39;]}] # 僅保留文章的post中的內容,其中為自己分析得到的正文范圍
max_articles_per_feed = 10000 # 默認最多文章數是100,可改為更大的數字以免下載不全
def parse_index(self):
# soup = self.index_to_soup(self.INDEX)
# pages_info = soup.findALL(**{&#39;class&#39;: &#39;pages&#39;}).text.split()
# print &#39;pages_info:&#39;, pages_info
start_page = 1 # int(pages_info[1])
end_page = 47 # int(pages_info[3])
articles = []
for p in range(start_page, end_page+1): # 處理每一個(gè)目錄頁(yè)
soup_page = self.index_to_soup(self.INDEX + &#39;/page/&#39; + str(p))
soup_titles = soup_page.findAll(**{&#39;class&#39;: &#39;entry-title&#39;}) # 從目錄頁(yè)中提取正文標題和鏈接
for soup_title in soup_titles:
href = soup_title.a
articles.append({&#39;title&#39;: href[&#39;title&#39;][18:], &#39;url&#39;: href[&#39;href&#39;]})
print &#39;page %d done&#39; % p
articles.reverse() # 文章倒序,讓其按照時(shí)間從前到后排列
res = [(u&#39;烏云知識庫&#39;, articles)] # 返回tuple,分別是電子書(shū)名字和文章列表
# self.abort_recipe_processing(&#39;test&#39;) # 用來(lái)中斷電子書(shū)生成,調試用
return res
  生成電子書(shū)
  將上述文件保存為wooyun.recipe,在終端執行命令:
  ebook-convert wooyun.recipe wooyun.epub
  然后你可以去喝一杯水,等待 calibre 自動(dòng)將博客處理成電子書(shū)。這里的epub也可以改成其他格式,比如mobi。
  參考鏈接 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(烏云知識庫博客匯總——下載格式的電子書(shū))
  最近在學(xué)習網(wǎng)絡(luò )安全相關(guān)知識??吹轿逶浦R庫有很多優(yōu)質(zhì)的文章。由于網(wǎng)上看文章太麻煩,研究了Calibre寫(xiě)的菜譜,自動(dòng)下載生成電子書(shū)的方法。
  用這種方法把截至2015年2月11日五云知識庫上的400多篇文章文章整理成epub格式的電子書(shū)花了一些時(shí)間。不想折騰的可以直接點(diǎn)擊——五云知識庫總結博客-下載。
  工具介紹和準備Calibre
  Calibre 是“一站式”電子書(shū)解決方案,完全可以滿(mǎn)足您的電子書(shū)需求。 Calibre 是免費的,源代碼是開(kāi)放的,具有跨平臺設計,可以在 Linux、OS X 和 Windows 操作系統上運行。
  是一個(gè)完整的電子圖書(shū)館,包括圖書(shū)館管理、格式轉換、新聞、資料轉電子書(shū),以及電子書(shū)閱讀器同步和集成到電子書(shū)閱讀器的功能。
  這里我們使用的是 Calibre 命令行工具中的 ebook-convert 功能,請到這里下載安裝。
  Mac 下的工具收錄在安裝包中。使用該工具前,請執行export PATH="$PATH:/Applications/calibre.app/Contents/MacOS/"將cli工具路徑添加到系統路徑中,或者在.bashrc中添加這一句。
  其他系統尚未測試,請留言補充說(shuō)明。
  鉻
  使用開(kāi)發(fā)者工具分析頁(yè)面結構并在配方中指定下載的內容。
  制作過(guò)程分析頁(yè)面結構
  先到五云知識庫頁(yè)面查看。
  
  從頁(yè)面底部的信息可以看到知識庫是wordpress生成的,共47頁(yè)。
  點(diǎn)擊查看每個(gè)目錄頁(yè)的格式。
  
  選擇標題,右鍵單擊查看元素。
  
  標題結構如下:
  可以找到規則。標題的共同特征是收錄在,鏈接地址在href中,標題內容就是收錄的內容。
  任意點(diǎn)打開(kāi)一個(gè)特定的文章,用同樣的方法發(fā)現每個(gè)文章的body都在下面的標簽中。
  寫(xiě)菜譜
  calibre 的配方本質(zhì)上是一個(gè) python 文件。通過(guò)繼承一個(gè)類(lèi),指定一些電子書(shū)元數據和從網(wǎng)頁(yè)中提取內容的方法,達到自動(dòng)下載并集成到電子書(shū)的目的。內容篩選主要是通過(guò)Beautiful Soup來(lái)實(shí)現的。本次任務(wù)使用的配方如下,其他參考鏈接包括:
  #!/usr/bin/python
# encoding: utf-8
from calibre.web.feeds.recipes import BasicNewsRecipe
class wooyun(BasicNewsRecipe):
title = u&#39;烏云知識庫&#39;
__author__ = u&#39;無(wú)關(guān)風(fēng)月&#39;
description = u&#39;&#39;&#39;烏云知識庫,最專(zhuān)業(yè)的安全知識分享平臺。本電子書(shū)由無(wú)關(guān)風(fēng)月整理網(wǎng)站 內容而來(lái)。&#39;&#39;&#39;
timefmt = &#39;[%Y-%m-%d]&#39;
no_stylesheets = True
INDEX = &#39;http://drops.wooyun.org/&#39;
# auto_cleanup = True # 如果沒(méi)有手動(dòng)分析文章結構,可以考慮開(kāi)啟該選項自動(dòng)清理正文內容
language = &#39;zh-CN&#39;
keep_only_tags = [{&#39;class&#39;: [&#39;post&#39;]}] # 僅保留文章的post中的內容,其中為自己分析得到的正文范圍
max_articles_per_feed = 10000 # 默認最多文章數是100,可改為更大的數字以免下載不全
def parse_index(self):
# soup = self.index_to_soup(self.INDEX)
# pages_info = soup.findALL(**{&#39;class&#39;: &#39;pages&#39;}).text.split()
# print &#39;pages_info:&#39;, pages_info
start_page = 1 # int(pages_info[1])
end_page = 47 # int(pages_info[3])
articles = []
for p in range(start_page, end_page+1): # 處理每一個(gè)目錄頁(yè)
soup_page = self.index_to_soup(self.INDEX + &#39;/page/&#39; + str(p))
soup_titles = soup_page.findAll(**{&#39;class&#39;: &#39;entry-title&#39;}) # 從目錄頁(yè)中提取正文標題和鏈接
for soup_title in soup_titles:
href = soup_title.a
articles.append({&#39;title&#39;: href[&#39;title&#39;][18:], &#39;url&#39;: href[&#39;href&#39;]})
print &#39;page %d done&#39; % p
articles.reverse() # 文章倒序,讓其按照時(shí)間從前到后排列
res = [(u&#39;烏云知識庫&#39;, articles)] # 返回tuple,分別是電子書(shū)名字和文章列表
# self.abort_recipe_processing(&#39;test&#39;) # 用來(lái)中斷電子書(shū)生成,調試用
return res
  生成電子書(shū)
  將上述文件保存為wooyun.recipe,在終端執行命令:
  ebook-convert wooyun.recipe wooyun.epub
  然后你可以去喝一杯水,等待 calibre 自動(dòng)將博客處理成電子書(shū)。這里的epub也可以改成其他格式,比如mobi。
  參考鏈接

抓取網(wǎng)頁(yè)生成電子書(shū)(本書(shū)易學(xué)易懂即學(xué))

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 163 次瀏覽 ? 2021-09-13 08:12 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(本書(shū)易學(xué)易懂即學(xué))
  本書(shū)語(yǔ)言通俗易懂,內容通俗易懂。適合初學(xué)者和中級讀者學(xué)習網(wǎng)頁(yè)制作。
  本書(shū)以圖文閱讀的形式,通過(guò)任務(wù)驅動(dòng)的方式,以大量實(shí)例為核心,系統地介紹了網(wǎng)頁(yè)制作的關(guān)鍵技術(shù)和操作技巧。主要內容包括網(wǎng)站制作基礎知識、網(wǎng)頁(yè)中文本信息的處理方法、網(wǎng)頁(yè)中圖片的使用方法、頁(yè)面布局和布局方法、添加動(dòng)態(tài)交互效果、使用樣式和模板、上傳網(wǎng)頁(yè)等。本書(shū)易學(xué)易懂。只要按照書(shū)中的步驟,就可以輕松學(xué)會(huì )網(wǎng)頁(yè)制作的方法和技巧。本書(shū)語(yǔ)言通俗易懂,內容通俗易懂。適合初學(xué)者和中級讀者學(xué)習網(wǎng)頁(yè)制作。
  目錄:
  系列單元前言 1 開(kāi)始建站任務(wù) 1 建站任務(wù) 2 制作網(wǎng)頁(yè)任務(wù) 3 使用站點(diǎn)窗口管理文件單元 2 文本處理任務(wù) 1 插入文本信息任務(wù) 2 修改文本任務(wù) 3 創(chuàng )建列表格式任務(wù) 4 創(chuàng )建超鏈接單元 3 使用圖像任務(wù) 1 了解常見(jiàn)的網(wǎng)絡(luò )圖像格式任務(wù) 2 使用圖像任務(wù) 3 創(chuàng )建翻轉地圖和網(wǎng)絡(luò )相冊任務(wù) 4 制作圖像映射任務(wù) 5 使用 Flash 按鈕和文本單元 4 Web頁(yè)面布局與排版任務(wù)1 使用布局形式設計頁(yè)面任務(wù)2 使用表格組織頁(yè)面內容任務(wù)3 網(wǎng)頁(yè)制作示例任務(wù)4 使用圖層定位網(wǎng)頁(yè)內容任務(wù)5 使用框架設計網(wǎng)頁(yè)單元5 制作動(dòng)態(tài)網(wǎng)頁(yè)任務(wù)1 使用表單任務(wù)2 創(chuàng )建時(shí)間線(xiàn)動(dòng)畫(huà)任務(wù)3 使用行為實(shí)現動(dòng)態(tài)效果單元6 使用樣式和模板任務(wù)1 使用HTML 樣式任務(wù)2 使用CSS 樣式任務(wù)3 使用模板單元7 網(wǎng)站上傳任務(wù)1 申請網(wǎng)站空間任務(wù)2上傳網(wǎng)站 到互聯(lián)網(wǎng)rnet 任務(wù) 3 管理遠程站點(diǎn) 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(本書(shū)易學(xué)易懂即學(xué))
  本書(shū)語(yǔ)言通俗易懂,內容通俗易懂。適合初學(xué)者和中級讀者學(xué)習網(wǎng)頁(yè)制作。
  本書(shū)以圖文閱讀的形式,通過(guò)任務(wù)驅動(dòng)的方式,以大量實(shí)例為核心,系統地介紹了網(wǎng)頁(yè)制作的關(guān)鍵技術(shù)和操作技巧。主要內容包括網(wǎng)站制作基礎知識、網(wǎng)頁(yè)中文本信息的處理方法、網(wǎng)頁(yè)中圖片的使用方法、頁(yè)面布局和布局方法、添加動(dòng)態(tài)交互效果、使用樣式和模板、上傳網(wǎng)頁(yè)等。本書(shū)易學(xué)易懂。只要按照書(shū)中的步驟,就可以輕松學(xué)會(huì )網(wǎng)頁(yè)制作的方法和技巧。本書(shū)語(yǔ)言通俗易懂,內容通俗易懂。適合初學(xué)者和中級讀者學(xué)習網(wǎng)頁(yè)制作。
  目錄:
  系列單元前言 1 開(kāi)始建站任務(wù) 1 建站任務(wù) 2 制作網(wǎng)頁(yè)任務(wù) 3 使用站點(diǎn)窗口管理文件單元 2 文本處理任務(wù) 1 插入文本信息任務(wù) 2 修改文本任務(wù) 3 創(chuàng )建列表格式任務(wù) 4 創(chuàng )建超鏈接單元 3 使用圖像任務(wù) 1 了解常見(jiàn)的網(wǎng)絡(luò )圖像格式任務(wù) 2 使用圖像任務(wù) 3 創(chuàng )建翻轉地圖和網(wǎng)絡(luò )相冊任務(wù) 4 制作圖像映射任務(wù) 5 使用 Flash 按鈕和文本單元 4 Web頁(yè)面布局與排版任務(wù)1 使用布局形式設計頁(yè)面任務(wù)2 使用表格組織頁(yè)面內容任務(wù)3 網(wǎng)頁(yè)制作示例任務(wù)4 使用圖層定位網(wǎng)頁(yè)內容任務(wù)5 使用框架設計網(wǎng)頁(yè)單元5 制作動(dòng)態(tài)網(wǎng)頁(yè)任務(wù)1 使用表單任務(wù)2 創(chuàng )建時(shí)間線(xiàn)動(dòng)畫(huà)任務(wù)3 使用行為實(shí)現動(dòng)態(tài)效果單元6 使用樣式和模板任務(wù)1 使用HTML 樣式任務(wù)2 使用CSS 樣式任務(wù)3 使用模板單元7 網(wǎng)站上傳任務(wù)1 申請網(wǎng)站空間任務(wù)2上傳網(wǎng)站 到互聯(lián)網(wǎng)rnet 任務(wù) 3 管理遠程站點(diǎn)

抓取網(wǎng)頁(yè)生成電子書(shū)(對話(huà)即平臺——智能醫療初探應用的挑戰和解決之道(組圖))

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 154 次瀏覽 ? 2021-09-13 08:11 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(對話(huà)即平臺——智能醫療初探應用的挑戰和解決之道(組圖))
  阿里巴巴云>云棲社區>主題地圖>E>小說(shuō)二搶網(wǎng)站
  
  推薦活動(dòng):
  更多優(yōu)惠>
  當前主題:小說(shuō)拍攝兩次網(wǎng)站加入采集
  相關(guān)主題:
  第二抓小說(shuō)網(wǎng)站相關(guān)博文,看更多博文
  博士花了十天時(shí)間。 supervisor 整理出所有的 Python 庫。只希望學(xué)好之后能找到一份高薪的工作!
  
  
  作者:yunqi2 瀏覽評論人數:13年前
  導演辛苦了,我不能辜負!讓我們直接開(kāi)始主題。需要資料可以私信我回復01,還可以得到大量PDF書(shū)籍和視頻! Python常用庫簡(jiǎn)單介紹fuzzywuzzy,模糊字符串匹配。 esmre,正則表達式的加速器。 colorama 主要用于文本
  閱讀全文
  大數據和人工智能分析在內容安全中的應用
  
  
  作者:mongolguier3044 人瀏覽評論:03 年前
  在中國的政策下,互聯(lián)網(wǎng)受益人如何管理內容安全。短信、文章、視頻直播充滿(mǎn)了內容安全隱患。本文詳細介紹了阿里云盾可為客戶(hù)提供內容安全的核心能力、適用的核心場(chǎng)景及相關(guān)案例。希望與合作伙伴生態(tài)共創(chuàng )內容安全風(fēng)險管理。演講者簡(jiǎn)介:張宇,阿里云安全產(chǎn)品專(zhuān)家
  閱讀全文
  微軟誠興:智能醫療產(chǎn)業(yè)化應用的挑戰與解決方案
  
  
  作者:邢哲武松 1470次瀏覽和評論:03年前
  在新智元舉辦的百人峰會(huì )閉門(mén)論壇上,微軟亞太研發(fā)集團創(chuàng )新孵化總監程星帶來(lái)了“對話(huà)為平臺——智慧醫療初探”的分享會(huì )議。以下為程燮講話(huà)實(shí)錄。程協(xié):很高興在這個(gè)場(chǎng)合見(jiàn)到大家,歡迎大家來(lái)到微軟。我講的話(huà)題是對話(huà)和智慧醫療。智慧醫療是一個(gè)很大的話(huà)題,我
  閱讀全文
  60名英語(yǔ)學(xué)生六個(gè)月的努力:機器智能的背后是一群“數字工作者”
  
  
  作者:邢哲武松1022人瀏覽評論:03年前
  本文來(lái)自AI新媒體量子比特(QbitAI)Google Pixel Buds的發(fā)布震驚了很多人。每個(gè)人都希望能戴上這樣的翻譯耳機,就像拿到科幻小說(shuō)《銀河系漫游指南》中的“通天魚(yú)”一樣。從此,不再有跨語(yǔ)言帶來(lái)的障礙和障礙——一切都變得容易了。歷史進(jìn)程中也有翻譯者
  閱讀全文
  大觀(guān)數據新用戶(hù)推薦的三款強大工具
  
  
  作者:Reverse One Sleep 1306人瀏覽評論:03年前
  推薦系統需要根據用戶(hù)的歷史行為和興趣來(lái)預測用戶(hù)未來(lái)的行為和興趣,但是對于新用戶(hù),沒(méi)有任何用戶(hù)行為,如何做出最有效的推薦?這就產(chǎn)生了用戶(hù)的冷啟動(dòng)問(wèn)題。目前,新公司的成本越來(lái)越高,用戶(hù)的選擇也越來(lái)越多。當新用戶(hù)到來(lái)時(shí),如果他們不能快速抓住用戶(hù)興趣,推薦他們。
  閱讀全文
  大數據小說(shuō)|如何看透一個(gè)小時(shí)內剛認識的女孩
  
  
  作者:小軒峰柴金1354人瀏覽評論:04年前
  《科學(xué)算命》“同學(xué),你的背包拉鏈沒(méi)拉好,這個(gè)社會(huì )越來(lái)越險惡,像你這樣可愛(ài)的女孩子要小心了?!毙∨⒆笫趾陀沂帜弥?zhù)一杯焦糖瑪奇朵。他拿著(zhù) iPhone,看了我一眼,摸了摸背包,露出 T 恤后面的艾薇兒。當她的手指觸摸帶有射手座符號的 MacBook Air 時(shí)
  閱讀全文
  新手怎么發(fā)網(wǎng)站外鏈,網(wǎng)站外鏈怎么發(fā),外鏈發(fā)帖方法集合
  
  
  作者:冰點(diǎn)牧雪1420人瀏覽評論:06年前
  給大家分享一下我是怎么做反連接鏈的。一般來(lái)說(shuō),我在反連接中只追求兩件事。 一、數量。 二、穩定性。對于像我這樣的新手和資源匱乏的人,能做的就是增加外鏈的數量,做好外鏈的穩定性。所謂穩定,就是已經(jīng)貼出的外鏈要盡量不讓它們消失。這對于群發(fā)軟件來(lái)說(shuō)是非常困難的,尤其是對于英文站點(diǎn)?,F在
  閱讀全文
  最流行的網(wǎng)站推廣方式總結
  
  
  作者:wenvi_wu2020 瀏覽評論人數:012年前
  1 搜索引擎營(yíng)銷(xiāo)1.1 國內搜索引擎使用率 百度搜索:72.25% GOOGLE 搜索:17.05% 搜索:4.36% 雅虎搜索:3.31%搜狐搜狗:1.81% 其他搜索引擎:1.22% 1.2 頁(yè)
  閱讀全文 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(對話(huà)即平臺——智能醫療初探應用的挑戰和解決之道(組圖))
  阿里巴巴云>云棲社區>主題地圖>E>小說(shuō)二搶網(wǎng)站
  
  推薦活動(dòng):
  更多優(yōu)惠>
  當前主題:小說(shuō)拍攝兩次網(wǎng)站加入采集
  相關(guān)主題:
  第二抓小說(shuō)網(wǎng)站相關(guān)博文,看更多博文
  博士花了十天時(shí)間。 supervisor 整理出所有的 Python 庫。只希望學(xué)好之后能找到一份高薪的工作!
  
  
  作者:yunqi2 瀏覽評論人數:13年前
  導演辛苦了,我不能辜負!讓我們直接開(kāi)始主題。需要資料可以私信我回復01,還可以得到大量PDF書(shū)籍和視頻! Python常用庫簡(jiǎn)單介紹fuzzywuzzy,模糊字符串匹配。 esmre,正則表達式的加速器。 colorama 主要用于文本
  閱讀全文
  大數據和人工智能分析在內容安全中的應用
  
  
  作者:mongolguier3044 人瀏覽評論:03 年前
  在中國的政策下,互聯(lián)網(wǎng)受益人如何管理內容安全。短信、文章、視頻直播充滿(mǎn)了內容安全隱患。本文詳細介紹了阿里云盾可為客戶(hù)提供內容安全的核心能力、適用的核心場(chǎng)景及相關(guān)案例。希望與合作伙伴生態(tài)共創(chuàng )內容安全風(fēng)險管理。演講者簡(jiǎn)介:張宇,阿里云安全產(chǎn)品專(zhuān)家
  閱讀全文
  微軟誠興:智能醫療產(chǎn)業(yè)化應用的挑戰與解決方案
  
  
  作者:邢哲武松 1470次瀏覽和評論:03年前
  在新智元舉辦的百人峰會(huì )閉門(mén)論壇上,微軟亞太研發(fā)集團創(chuàng )新孵化總監程星帶來(lái)了“對話(huà)為平臺——智慧醫療初探”的分享會(huì )議。以下為程燮講話(huà)實(shí)錄。程協(xié):很高興在這個(gè)場(chǎng)合見(jiàn)到大家,歡迎大家來(lái)到微軟。我講的話(huà)題是對話(huà)和智慧醫療。智慧醫療是一個(gè)很大的話(huà)題,我
  閱讀全文
  60名英語(yǔ)學(xué)生六個(gè)月的努力:機器智能的背后是一群“數字工作者”
  
  
  作者:邢哲武松1022人瀏覽評論:03年前
  本文來(lái)自AI新媒體量子比特(QbitAI)Google Pixel Buds的發(fā)布震驚了很多人。每個(gè)人都希望能戴上這樣的翻譯耳機,就像拿到科幻小說(shuō)《銀河系漫游指南》中的“通天魚(yú)”一樣。從此,不再有跨語(yǔ)言帶來(lái)的障礙和障礙——一切都變得容易了。歷史進(jìn)程中也有翻譯者
  閱讀全文
  大觀(guān)數據新用戶(hù)推薦的三款強大工具
  
  
  作者:Reverse One Sleep 1306人瀏覽評論:03年前
  推薦系統需要根據用戶(hù)的歷史行為和興趣來(lái)預測用戶(hù)未來(lái)的行為和興趣,但是對于新用戶(hù),沒(méi)有任何用戶(hù)行為,如何做出最有效的推薦?這就產(chǎn)生了用戶(hù)的冷啟動(dòng)問(wèn)題。目前,新公司的成本越來(lái)越高,用戶(hù)的選擇也越來(lái)越多。當新用戶(hù)到來(lái)時(shí),如果他們不能快速抓住用戶(hù)興趣,推薦他們。
  閱讀全文
  大數據小說(shuō)|如何看透一個(gè)小時(shí)內剛認識的女孩
  
  
  作者:小軒峰柴金1354人瀏覽評論:04年前
  《科學(xué)算命》“同學(xué),你的背包拉鏈沒(méi)拉好,這個(gè)社會(huì )越來(lái)越險惡,像你這樣可愛(ài)的女孩子要小心了?!毙∨⒆笫趾陀沂帜弥?zhù)一杯焦糖瑪奇朵。他拿著(zhù) iPhone,看了我一眼,摸了摸背包,露出 T 恤后面的艾薇兒。當她的手指觸摸帶有射手座符號的 MacBook Air 時(shí)
  閱讀全文
  新手怎么發(fā)網(wǎng)站外鏈,網(wǎng)站外鏈怎么發(fā),外鏈發(fā)帖方法集合
  
  
  作者:冰點(diǎn)牧雪1420人瀏覽評論:06年前
  給大家分享一下我是怎么做反連接鏈的。一般來(lái)說(shuō),我在反連接中只追求兩件事。 一、數量。 二、穩定性。對于像我這樣的新手和資源匱乏的人,能做的就是增加外鏈的數量,做好外鏈的穩定性。所謂穩定,就是已經(jīng)貼出的外鏈要盡量不讓它們消失。這對于群發(fā)軟件來(lái)說(shuō)是非常困難的,尤其是對于英文站點(diǎn)?,F在
  閱讀全文
  最流行的網(wǎng)站推廣方式總結
  
  
  作者:wenvi_wu2020 瀏覽評論人數:012年前
  1 搜索引擎營(yíng)銷(xiāo)1.1 國內搜索引擎使用率 百度搜索:72.25% GOOGLE 搜索:17.05% 搜索:4.36% 雅虎搜索:3.31%搜狐搜狗:1.81% 其他搜索引擎:1.22% 1.2 頁(yè)
  閱讀全文

抓取網(wǎng)頁(yè)生成電子書(shū)(百度一個(gè)小說(shuō)網(wǎng)站,批量下載器聚合閱讀合集(組圖))

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 423 次瀏覽 ? 2021-09-13 01:16 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(百度一個(gè)小說(shuō)網(wǎng)站,批量下載器聚合閱讀合集(組圖))
  批量下載小說(shuō)爬蟲(chóng)是一款專(zhuān)門(mén)用于批量下載小說(shuō)的軟件。通過(guò)小說(shuō)爬蟲(chóng),用戶(hù)可以快速下載自己想要的小說(shuō)的txt文件。
  目的是通過(guò)網(wǎng)站下載一本全分類(lèi)的小說(shuō),并根據分類(lèi)自動(dòng)創(chuàng )建目錄,并根據小說(shuō)名稱(chēng)保存為txt文件。 一、Grab 想法:我的想法是在百度上找一本小說(shuō)網(wǎng)站。對于這本小說(shuō)的章節頁(yè)面,請使用請求。
  本腳本僅針對“玄書(shū)網(wǎng)”小說(shuō)網(wǎng)站“奇幻奇幻”類(lèi)小說(shuō)進(jìn)行拍攝。供網(wǎng)友參考,可自行修改。文筆粗糙,請勿噴...原文鏈接。
  小說(shuō)批量下載器聚合閱讀合集,主要提供小說(shuō)批量下載器相關(guān)的最新資源下載。訂閱小說(shuō)批量下載器標簽主題,您可以第一時(shí)間了解小說(shuō)批量下載器的最新下載資源和主題。包。
  IbookBox 小說(shuō)批量下載閱讀器,讓讀者遠離垃圾廣告。輸入任意網(wǎng)頁(yè)地址,批量抓取下載網(wǎng)頁(yè)上的所有電子書(shū)。
  
  輸入任意網(wǎng)頁(yè)地址,批量抓取下載網(wǎng)絡(luò )上的所有電子書(shū)。 1、支持所有小說(shuō)網(wǎng)站取取。 2、支持生成txt抓取的電子書(shū)發(fā)送到手機。3、支持電子書(shū)自動(dòng)存入自己的郵箱。
  軟件介紹 《批量小說(shuō)下載器精簡(jiǎn)版》是一款非常好用又方便的小說(shuō)批量下載軟件。通過(guò)小說(shuō)爬蟲(chóng),用戶(hù)可以快速下載自己想要的小說(shuō)的txt文件,放到手機上。離線(xiàn)觀(guān)看,軟件抓取。
  
  語(yǔ)言:簡(jiǎn)體中文性質(zhì):國產(chǎn)軟件軟件大?。?3.13IbookBox小說(shuō)批量下載閱讀器,輸入任意網(wǎng)址,批量下載網(wǎng)頁(yè)上的所有電子書(shū)。 IbookBox 小說(shuō)批量下載閱讀。 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(百度一個(gè)小說(shuō)網(wǎng)站,批量下載器聚合閱讀合集(組圖))
  批量下載小說(shuō)爬蟲(chóng)是一款專(zhuān)門(mén)用于批量下載小說(shuō)的軟件。通過(guò)小說(shuō)爬蟲(chóng),用戶(hù)可以快速下載自己想要的小說(shuō)的txt文件。
  目的是通過(guò)網(wǎng)站下載一本全分類(lèi)的小說(shuō),并根據分類(lèi)自動(dòng)創(chuàng )建目錄,并根據小說(shuō)名稱(chēng)保存為txt文件。 一、Grab 想法:我的想法是在百度上找一本小說(shuō)網(wǎng)站。對于這本小說(shuō)的章節頁(yè)面,請使用請求。
  本腳本僅針對“玄書(shū)網(wǎng)”小說(shuō)網(wǎng)站“奇幻奇幻”類(lèi)小說(shuō)進(jìn)行拍攝。供網(wǎng)友參考,可自行修改。文筆粗糙,請勿噴...原文鏈接。
  小說(shuō)批量下載器聚合閱讀合集,主要提供小說(shuō)批量下載器相關(guān)的最新資源下載。訂閱小說(shuō)批量下載器標簽主題,您可以第一時(shí)間了解小說(shuō)批量下載器的最新下載資源和主題。包。
  IbookBox 小說(shuō)批量下載閱讀器,讓讀者遠離垃圾廣告。輸入任意網(wǎng)頁(yè)地址,批量抓取下載網(wǎng)頁(yè)上的所有電子書(shū)。
  
  輸入任意網(wǎng)頁(yè)地址,批量抓取下載網(wǎng)絡(luò )上的所有電子書(shū)。 1、支持所有小說(shuō)網(wǎng)站取取。 2、支持生成txt抓取的電子書(shū)發(fā)送到手機。3、支持電子書(shū)自動(dòng)存入自己的郵箱。
  軟件介紹 《批量小說(shuō)下載器精簡(jiǎn)版》是一款非常好用又方便的小說(shuō)批量下載軟件。通過(guò)小說(shuō)爬蟲(chóng),用戶(hù)可以快速下載自己想要的小說(shuō)的txt文件,放到手機上。離線(xiàn)觀(guān)看,軟件抓取。
  
  語(yǔ)言:簡(jiǎn)體中文性質(zhì):國產(chǎn)軟件軟件大?。?3.13IbookBox小說(shuō)批量下載閱讀器,輸入任意網(wǎng)址,批量下載網(wǎng)頁(yè)上的所有電子書(shū)。 IbookBox 小說(shuō)批量下載閱讀。

抓取網(wǎng)頁(yè)生成電子書(shū)(【IPO】抓取網(wǎng)絡(luò )小說(shuō)生成文本文件的軟件特色及制作方法 )

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 438 次瀏覽 ? 2021-09-13 00:23 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(【IPO】抓取網(wǎng)絡(luò )小說(shuō)生成文本文件的軟件特色及制作方法
)
  網(wǎng)絡(luò )圖書(shū)抓取器主要用于抓取網(wǎng)絡(luò )小說(shuō)生成文本文件。它可以提取和調整指定小說(shuō)目錄頁(yè)面的章節信息,然后按照章節順序抓取小說(shuō)內容,然后進(jìn)行合并。抓取過(guò)程可以隨時(shí)中斷,關(guān)閉程序后可以繼續上一個(gè)任務(wù)。
  相關(guān)軟件軟件大小及版本說(shuō)明下載鏈接
  網(wǎng)絡(luò )圖書(shū)抓取器主要用于抓取網(wǎng)絡(luò )小說(shuō)生成文本文件。它可以提取和調整指定小說(shuō)目錄頁(yè)面的章節信息,然后按照章節順序抓取小說(shuō)內容,然后進(jìn)行合并。抓取過(guò)程可以隨時(shí)中斷,關(guān)閉程序后可以繼續上一個(gè)任務(wù)。
  
  軟件功能
  1、章節調整:提取目錄后,可以進(jìn)行移動(dòng)、刪除、倒序等調整操作。調整會(huì )直接影響最終的書(shū)籍,也會(huì )以調整后的章節順序輸出。
  2、Automatic retry:在爬取過(guò)程中,由于網(wǎng)絡(luò )因素,可能會(huì )出現爬取失敗的情況。程序可能會(huì )自動(dòng)重試直到成功,也可以暫時(shí)中斷爬?。ㄖ袛嗪箨P(guān)閉程序不影響進(jìn)度),待網(wǎng)絡(luò )良好后再試。
  3、Stop and resume:抓取過(guò)程可以隨時(shí)停止,退出程序后不影響進(jìn)度(章節信息會(huì )保存在記錄中,運行后可以恢復抓?。┫麓纬绦?。注意:需要先用停止按鈕中斷然后退出程序,如果直接退出,將不會(huì )恢復)。
  4、 一鍵抓圖:又稱(chēng)“傻瓜模式”,基本可以實(shí)現全自動(dòng)抓圖合并功能,直接輸出最終的文本文件。前面可能需要輸入最基本的網(wǎng)址、保存位置等信息(會(huì )有明顯的操作提示),調整章節后也可以一鍵抓取,抓取合并操作會(huì )自動(dòng)完成.
  5、Applicable網(wǎng)站:已經(jīng)輸入了10個(gè)適用的網(wǎng)站(選擇后可以快速打開(kāi)網(wǎng)站找到需要的書(shū)),也可以自動(dòng)應用相應的代碼,其他小說(shuō)也可以應用網(wǎng)站進(jìn)行測試,如果一起使用,可以手動(dòng)添加到配置文件中以備后用。
  6、電子書(shū)制作方便:可以在設置文件中添加各章節名稱(chēng)的前綴和后綴,為后期制作電子書(shū)目錄帶來(lái)極大的方便。
   查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(【IPO】抓取網(wǎng)絡(luò )小說(shuō)生成文本文件的軟件特色及制作方法
)
  網(wǎng)絡(luò )圖書(shū)抓取器主要用于抓取網(wǎng)絡(luò )小說(shuō)生成文本文件。它可以提取和調整指定小說(shuō)目錄頁(yè)面的章節信息,然后按照章節順序抓取小說(shuō)內容,然后進(jìn)行合并。抓取過(guò)程可以隨時(shí)中斷,關(guān)閉程序后可以繼續上一個(gè)任務(wù)。
  相關(guān)軟件軟件大小及版本說(shuō)明下載鏈接
  網(wǎng)絡(luò )圖書(shū)抓取器主要用于抓取網(wǎng)絡(luò )小說(shuō)生成文本文件。它可以提取和調整指定小說(shuō)目錄頁(yè)面的章節信息,然后按照章節順序抓取小說(shuō)內容,然后進(jìn)行合并。抓取過(guò)程可以隨時(shí)中斷,關(guān)閉程序后可以繼續上一個(gè)任務(wù)。
  
  軟件功能
  1、章節調整:提取目錄后,可以進(jìn)行移動(dòng)、刪除、倒序等調整操作。調整會(huì )直接影響最終的書(shū)籍,也會(huì )以調整后的章節順序輸出。
  2、Automatic retry:在爬取過(guò)程中,由于網(wǎng)絡(luò )因素,可能會(huì )出現爬取失敗的情況。程序可能會(huì )自動(dòng)重試直到成功,也可以暫時(shí)中斷爬?。ㄖ袛嗪箨P(guān)閉程序不影響進(jìn)度),待網(wǎng)絡(luò )良好后再試。
  3、Stop and resume:抓取過(guò)程可以隨時(shí)停止,退出程序后不影響進(jìn)度(章節信息會(huì )保存在記錄中,運行后可以恢復抓?。┫麓纬绦?。注意:需要先用停止按鈕中斷然后退出程序,如果直接退出,將不會(huì )恢復)。
  4、 一鍵抓圖:又稱(chēng)“傻瓜模式”,基本可以實(shí)現全自動(dòng)抓圖合并功能,直接輸出最終的文本文件。前面可能需要輸入最基本的網(wǎng)址、保存位置等信息(會(huì )有明顯的操作提示),調整章節后也可以一鍵抓取,抓取合并操作會(huì )自動(dòng)完成.
  5、Applicable網(wǎng)站:已經(jīng)輸入了10個(gè)適用的網(wǎng)站(選擇后可以快速打開(kāi)網(wǎng)站找到需要的書(shū)),也可以自動(dòng)應用相應的代碼,其他小說(shuō)也可以應用網(wǎng)站進(jìn)行測試,如果一起使用,可以手動(dòng)添加到配置文件中以備后用。
  6、電子書(shū)制作方便:可以在設置文件中添加各章節名稱(chēng)的前綴和后綴,為后期制作電子書(shū)目錄帶來(lái)極大的方便。
  

抓取網(wǎng)頁(yè)生成電子書(shū)(Python軟件體積有點(diǎn)大調用多個(gè)模塊的功能簡(jiǎn)介及下載)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 119 次瀏覽 ? 2021-09-13 00:21 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(Python軟件體積有點(diǎn)大調用多個(gè)模塊的功能簡(jiǎn)介及下載)
  主要功能:
  您可以提取指定小說(shuō)目錄頁(yè)的章節信息并進(jìn)行調整,然后按照章節順序抓取小說(shuō)內容,然后進(jìn)行合并。抓取過(guò)程可以隨時(shí)中斷,關(guān)閉程序后可以繼續上一個(gè)任務(wù)。
  軟件界面:
  
  特點(diǎn)
  1、章節調整:提取目錄后,可以進(jìn)行移動(dòng)、刪除、倒序等調整操作。調整會(huì )直接影響最終的書(shū)籍,也會(huì )以調整后的章節順序輸出。
  2、Automatic retry:在爬取過(guò)程中,由于網(wǎng)絡(luò )因素,可能會(huì )出現爬取失敗的情況。程序可能會(huì )自動(dòng)重試直到成功,也可以暫時(shí)中斷爬?。ㄖ袛嗪箨P(guān)閉程序不影響進(jìn)度),待網(wǎng)絡(luò )良好后再試。
  3、Stop and resume:抓取過(guò)程可以隨時(shí)停止,退出程序后不影響進(jìn)度(章節信息會(huì )保存在記錄中,運行后可以恢復抓?。┫麓纬绦?。注意:需要先用停止按鈕中斷然后退出程序,如果直接退出,將不會(huì )恢復)。
  4、 一鍵抓圖:又稱(chēng)“傻瓜模式”,基本可以實(shí)現全自動(dòng)抓圖合并功能,直接輸出最終的文本文件。前面可能需要輸入最基本的網(wǎng)址、保存位置等信息(會(huì )有明顯的操作提示),調整章節后也可以一鍵抓取,抓取合并操作會(huì )自動(dòng)完成.
  5、Applicable網(wǎng)站:已經(jīng)輸入了10個(gè)適用的網(wǎng)站(選擇后可以快速打開(kāi)網(wǎng)站找到需要的書(shū)),也可以自動(dòng)應用相應的代碼,其他小說(shuō)也可以應用網(wǎng)站進(jìn)行測試,如果一起使用,可以手動(dòng)添加到配置文件中以備后用。
  6、電子書(shū)制作方便:可以在設置文件中添加各章節名稱(chēng)的前綴和后綴,為后期制作電子書(shū)目錄帶來(lái)極大的方便。
  功能介紹:
  簡(jiǎn)介
  
  
  下載鏈接:
  鏈接:提取代碼:caf2是Python寫(xiě)的,調用了多個(gè)模塊,所以軟件有點(diǎn)大 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(Python軟件體積有點(diǎn)大調用多個(gè)模塊的功能簡(jiǎn)介及下載)
  主要功能:
  您可以提取指定小說(shuō)目錄頁(yè)的章節信息并進(jìn)行調整,然后按照章節順序抓取小說(shuō)內容,然后進(jìn)行合并。抓取過(guò)程可以隨時(shí)中斷,關(guān)閉程序后可以繼續上一個(gè)任務(wù)。
  軟件界面:
  
  特點(diǎn)
  1、章節調整:提取目錄后,可以進(jìn)行移動(dòng)、刪除、倒序等調整操作。調整會(huì )直接影響最終的書(shū)籍,也會(huì )以調整后的章節順序輸出。
  2、Automatic retry:在爬取過(guò)程中,由于網(wǎng)絡(luò )因素,可能會(huì )出現爬取失敗的情況。程序可能會(huì )自動(dòng)重試直到成功,也可以暫時(shí)中斷爬?。ㄖ袛嗪箨P(guān)閉程序不影響進(jìn)度),待網(wǎng)絡(luò )良好后再試。
  3、Stop and resume:抓取過(guò)程可以隨時(shí)停止,退出程序后不影響進(jìn)度(章節信息會(huì )保存在記錄中,運行后可以恢復抓?。┫麓纬绦?。注意:需要先用停止按鈕中斷然后退出程序,如果直接退出,將不會(huì )恢復)。
  4、 一鍵抓圖:又稱(chēng)“傻瓜模式”,基本可以實(shí)現全自動(dòng)抓圖合并功能,直接輸出最終的文本文件。前面可能需要輸入最基本的網(wǎng)址、保存位置等信息(會(huì )有明顯的操作提示),調整章節后也可以一鍵抓取,抓取合并操作會(huì )自動(dòng)完成.
  5、Applicable網(wǎng)站:已經(jīng)輸入了10個(gè)適用的網(wǎng)站(選擇后可以快速打開(kāi)網(wǎng)站找到需要的書(shū)),也可以自動(dòng)應用相應的代碼,其他小說(shuō)也可以應用網(wǎng)站進(jìn)行測試,如果一起使用,可以手動(dòng)添加到配置文件中以備后用。
  6、電子書(shū)制作方便:可以在設置文件中添加各章節名稱(chēng)的前綴和后綴,為后期制作電子書(shū)目錄帶來(lái)極大的方便。
  功能介紹:
  簡(jiǎn)介
  
  
  下載鏈接:
  鏈接:提取代碼:caf2是Python寫(xiě)的,調用了多個(gè)模塊,所以軟件有點(diǎn)大

抓取網(wǎng)頁(yè)生成電子書(shū)(通過(guò)Python和爬蟲(chóng),可以完成怎樣的小工具?|知乎)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 218 次瀏覽 ? 2021-09-11 20:00 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(通過(guò)Python和爬蟲(chóng),可以完成怎樣的小工具?|知乎)
  總有同學(xué)問(wèn),在學(xué)習了Python基礎之后,我不知道自己可以做些什么來(lái)提高。今天就用一個(gè)小例子來(lái)告訴大家通過(guò)Python和爬蟲(chóng)可以完成什么樣的小工具。
  在知乎上,你一定關(guān)注了一些不錯的專(zhuān)欄(比如Crossin的編程課堂)。但如果有一天,你最喜歡的受訪(fǎng)者在網(wǎng)上被噴,你一怒之下刪帖,停止更新,你就看不到這些好內容了。雖然這是小概率事件(以前沒(méi)有發(fā)生過(guò)),但你可以準備下雨天。您可以將您關(guān)注的專(zhuān)欄導出到電子書(shū),這樣您就可以離線(xiàn)閱讀,而不必擔心誤刪帖子。
  如果只需要工具和源碼,可以拉到文章底部獲取代碼。
  【最終效果】
  運行程序,輸入欄目id,即網(wǎng)頁(yè)地址上的路徑:
  
  
  之后程序會(huì )自動(dòng)抓取欄目中的文章,并根據發(fā)布時(shí)間合并導出為pdf文件。
  
  [實(shí)現思路]
  本程序主要分為三部分:
  抓取欄目文章地址列表抓取每個(gè)文章導出PDF1.抓取列表的詳細內容
  在之前的文章爬蟲(chóng)必備工具中,掌握了它就解決了一半的問(wèn)題,我介紹了如何分析網(wǎng)頁(yè)上的請求。按照方法,我們可以使用開(kāi)發(fā)者工具的Network功能,找出欄目頁(yè)面的請求,獲取詳細列表:
  https://www.zhihu.com/api/v4/c ... icles
  
  觀(guān)察返回的結果,我們發(fā)現通過(guò)next和is_end的值,可以得到下一個(gè)列表請求的地址(相當于頁(yè)面向下滾動(dòng)的觸發(fā)效果),判斷是否得到了全部文章。
  data中的id、title、url就是我們需要的數據。因為url可以用id拼寫(xiě),所以沒(méi)有保存在我們的代碼中。
  
  使用while循環(huán)直到文章的所有id和title都被捕獲并保存在文件中。
  while True:
resp = requests.get(url, headers=headers)
j = resp.json()
data = j[&#39;data&#39;]
for article in data:
# 保存id和title(略)
if j[&#39;paging&#39;][&#39;is_end&#39;]:
break
url = j[&#39;paging&#39;][&#39;next&#39;]
# 按 id 排序(略)
# 導入文件(略)
  
  2. 搶文章
  有了文章的所有id/url,后面的爬取就很簡(jiǎn)單了。 文章主要內容在Post-RichText標簽中。
  處理一些文字需要一點(diǎn)功夫,比如原頁(yè)面的圖片效果,會(huì )添加noscript標簽和data-actual、src="data:image等屬性,我們需要正常顯示刪除。
  url = &#39;https://zhuanlan.zhihu.com/p/&#39; + id
html = requests.get(url, headers=headers).text
soup = BeautifulSoup(html, &#39;lxml&#39;)
content = soup.find(class_=&#39;Post-RichText&#39;).prettify()
# 對content做處理(略)
with open(file_name, &#39;w&#39;) as f:
f.write(content)
  
  到這一步,所有的內容都已經(jīng)抓取完畢,可以在本地讀取了。
  3. 導出 PDF
  為了方便閱讀,我們使用 wkhtmltopdf + pdfkit 將這些 HTML 文件打包成 PDF。
  wkhtmltopdf 是一個(gè) HTML-to-PDF 工具,需要單獨安裝。詳情請參考其官網(wǎng)。
  pdfkit 是本工具打包的 Python 庫,可以從 pip 安裝:
  pip install pdfkit
  易于使用:
  # 獲取htmls文件名列表(略)
pdfkit.from_file(sorted(htmls), &#39;zhihu.pdf&#39;)
  
  這樣就完成了整列的導出。
  不止知乎columns,幾乎所有的信息網(wǎng)站都使用1.Grab List 2.Grab Details to 采集data 兩步。所以這段代碼只要稍加修改,就可以在許多其他網(wǎng)站中使用。只是有些網(wǎng)站需要登錄訪(fǎng)問(wèn),所以需要在headers中設置cookie信息。另外,不同的網(wǎng)站請求接口、參數、限制都不一樣,具體問(wèn)題還是要具體問(wèn)題具體分析。
  這些爬蟲(chóng)的開(kāi)發(fā)技巧可以在我們的爬蟲(chóng)實(shí)戰課中學(xué)習。如有需要,請在公眾號回復。爬蟲(chóng)實(shí)戰
  [源碼下載]
  獲取知乎專(zhuān)欄下載器源碼,請在公眾號(Crossin的編程課堂)回復關(guān)鍵詞知乎。
  除了代碼,還有本專(zhuān)欄打包好的PDF,歡迎閱讀分享。
  ====
  其他文章和回答:
  歡迎搜索關(guān)注:Crossin的編程課堂 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(通過(guò)Python和爬蟲(chóng),可以完成怎樣的小工具?|知乎)
  總有同學(xué)問(wèn),在學(xué)習了Python基礎之后,我不知道自己可以做些什么來(lái)提高。今天就用一個(gè)小例子來(lái)告訴大家通過(guò)Python和爬蟲(chóng)可以完成什么樣的小工具。
  在知乎上,你一定關(guān)注了一些不錯的專(zhuān)欄(比如Crossin的編程課堂)。但如果有一天,你最喜歡的受訪(fǎng)者在網(wǎng)上被噴,你一怒之下刪帖,停止更新,你就看不到這些好內容了。雖然這是小概率事件(以前沒(méi)有發(fā)生過(guò)),但你可以準備下雨天。您可以將您關(guān)注的專(zhuān)欄導出到電子書(shū),這樣您就可以離線(xiàn)閱讀,而不必擔心誤刪帖子。
  如果只需要工具和源碼,可以拉到文章底部獲取代碼。
  【最終效果】
  運行程序,輸入欄目id,即網(wǎng)頁(yè)地址上的路徑:
  
  
  之后程序會(huì )自動(dòng)抓取欄目中的文章,并根據發(fā)布時(shí)間合并導出為pdf文件。
  
  [實(shí)現思路]
  本程序主要分為三部分:
  抓取欄目文章地址列表抓取每個(gè)文章導出PDF1.抓取列表的詳細內容
  在之前的文章爬蟲(chóng)必備工具中,掌握了它就解決了一半的問(wèn)題,我介紹了如何分析網(wǎng)頁(yè)上的請求。按照方法,我們可以使用開(kāi)發(fā)者工具的Network功能,找出欄目頁(yè)面的請求,獲取詳細列表:
  https://www.zhihu.com/api/v4/c ... icles
  
  觀(guān)察返回的結果,我們發(fā)現通過(guò)next和is_end的值,可以得到下一個(gè)列表請求的地址(相當于頁(yè)面向下滾動(dòng)的觸發(fā)效果),判斷是否得到了全部文章。
  data中的id、title、url就是我們需要的數據。因為url可以用id拼寫(xiě),所以沒(méi)有保存在我們的代碼中。
  
  使用while循環(huán)直到文章的所有id和title都被捕獲并保存在文件中。
  while True:
resp = requests.get(url, headers=headers)
j = resp.json()
data = j[&#39;data&#39;]
for article in data:
# 保存id和title(略)
if j[&#39;paging&#39;][&#39;is_end&#39;]:
break
url = j[&#39;paging&#39;][&#39;next&#39;]
# 按 id 排序(略)
# 導入文件(略)
  
  2. 搶文章
  有了文章的所有id/url,后面的爬取就很簡(jiǎn)單了。 文章主要內容在Post-RichText標簽中。
  處理一些文字需要一點(diǎn)功夫,比如原頁(yè)面的圖片效果,會(huì )添加noscript標簽和data-actual、src="data:image等屬性,我們需要正常顯示刪除。
  url = &#39;https://zhuanlan.zhihu.com/p/&#39; + id
html = requests.get(url, headers=headers).text
soup = BeautifulSoup(html, &#39;lxml&#39;)
content = soup.find(class_=&#39;Post-RichText&#39;).prettify()
# 對content做處理(略)
with open(file_name, &#39;w&#39;) as f:
f.write(content)
  
  到這一步,所有的內容都已經(jīng)抓取完畢,可以在本地讀取了。
  3. 導出 PDF
  為了方便閱讀,我們使用 wkhtmltopdf + pdfkit 將這些 HTML 文件打包成 PDF。
  wkhtmltopdf 是一個(gè) HTML-to-PDF 工具,需要單獨安裝。詳情請參考其官網(wǎng)。
  pdfkit 是本工具打包的 Python 庫,可以從 pip 安裝:
  pip install pdfkit
  易于使用:
  # 獲取htmls文件名列表(略)
pdfkit.from_file(sorted(htmls), &#39;zhihu.pdf&#39;)
  
  這樣就完成了整列的導出。
  不止知乎columns,幾乎所有的信息網(wǎng)站都使用1.Grab List 2.Grab Details to 采集data 兩步。所以這段代碼只要稍加修改,就可以在許多其他網(wǎng)站中使用。只是有些網(wǎng)站需要登錄訪(fǎng)問(wèn),所以需要在headers中設置cookie信息。另外,不同的網(wǎng)站請求接口、參數、限制都不一樣,具體問(wèn)題還是要具體問(wèn)題具體分析。
  這些爬蟲(chóng)的開(kāi)發(fā)技巧可以在我們的爬蟲(chóng)實(shí)戰課中學(xué)習。如有需要,請在公眾號回復。爬蟲(chóng)實(shí)戰
  [源碼下載]
  獲取知乎專(zhuān)欄下載器源碼,請在公眾號(Crossin的編程課堂)回復關(guān)鍵詞知乎。
  除了代碼,還有本專(zhuān)欄打包好的PDF,歡迎閱讀分享。
  ====
  其他文章和回答:
  歡迎搜索關(guān)注:Crossin的編程課堂

抓取網(wǎng)頁(yè)生成電子書(shū)(《修真小主播》使用Scrapy抓取電子書(shū)爬蟲(chóng)思路怎么抓取數據)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 128 次瀏覽 ? 2021-09-11 19:15 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(《修真小主播》使用Scrapy抓取電子書(shū)爬蟲(chóng)思路怎么抓取數據)
  使用 Scrapy 抓取電子書(shū)
  爬蟲(chóng)創(chuàng )意
  如何抓取數據,首先要看從哪里獲取,打開(kāi)“修真小主播”頁(yè)面,如下:
  
  
  有一個(gè)目錄選項卡。單擊此選項卡可查看目錄。使用瀏覽器的元素查看工具,我們可以定位到各章節的目錄和相關(guān)信息。根據這些信息,我們可以抓取到特定的頁(yè)面:
  
  獲取章節地址
  現在我們打開(kāi)xzxzb.py文件,就是我們剛剛創(chuàng )建的爬蟲(chóng):
  # -*- coding: utf-8 -*-
import scrapy
class XzxzbSpider(scrapy.Spider):
name = &#39;xzxzb&#39;
allowed_domains = [&#39;qidian.com&#39;]
start_urls = [&#39;http://qidian.com/&#39;]
def parse(self, response):
pass
  start_urls 是目錄地址,爬蟲(chóng)會(huì )自動(dòng)爬取這個(gè)地址,然后在后面的解析中處理結果?,F在我們來(lái)編寫(xiě)代碼處理目錄數據,首先爬取小說(shuō)首頁(yè)獲取目錄列表:
  def parse(self, response):
pages = response.xpath(&#39;//div[@id="j-catalogWrap"]//ul[@class="cf"]/li&#39;)
for page in pages:
url = page.xpath(&#39;./child::a/attribute::href&#39;).extract()
print url
pass
  獲取網(wǎng)頁(yè)中的 DOM 數據有兩種方式,一種是使用 CSS 選擇器,另一種是使用 XML xPath 查詢(xún)。
  這里我們使用 xPath。請自行研究相關(guān)知識??瓷厦娴拇a。首先我們通過(guò)ID獲取目錄框,獲取類(lèi)cf獲取目錄列表:
  pages = response.xpath(&#39;//div[@id="j-catalogWrap"]//ul[@class="cf"]/li&#39;)
  接下來(lái)遍歷子節點(diǎn),查詢(xún)li標簽中子節點(diǎn)a的href屬性,最后打印出來(lái):
  for page in pages:
url = page.xpath(&#39;./child::a/attribute::href&#39;).extract()
print url
  這樣就可以說(shuō)是爬取章節路徑的小爬蟲(chóng)了。使用如下命令運行xzxzb爬蟲(chóng)查看結果:
  scrapy crawl xzxzb
  此時(shí),我們的程序可能會(huì )出現以下錯誤:
  …
ImportError: No module named win32api

  只需運行以下語(yǔ)句:
  pip install pypiwin32
  屏幕輸出如下:
  > ...
> [u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/wrrduN6auIlOBDFlr9quQA2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Jh-J5usgyW62uJcMpdsVgA2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/5YXHdBvg1ImaGfXRMrUjdw2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/fw5EBeKat-76ItTi_ILQ7A2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/KsFh5VutI6PwrjbX3WA1AA2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/-mpKJ01gPp1p4rPq4Fd4KQ2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/MlZSeYOQxSPM5j8_3RRvhw2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/5TXZqGvLi-3M5j8_3RRvhw2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/sysD-JPiugv4p8iEw--PPw2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/xGckZ01j64-aGfXRMrUjdw2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/72lHOJcgmedOBDFlr9quQA2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/cZkHZEYnPl22uJcMpdsVgA2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/vkNh45O3JsRMs5iq0oQwLQ2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/ge4m8RjJyPH6ItTi_ILQ7A2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Y33PuxrKT4dp4rPq4Fd4KQ2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/MDQznkrkiyXwrjbX3WA1AA2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/A2r-YTzWCYj6ItTi_ILQ7A2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Ng9CuONRKei2uJcMpdsVgA2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Q_AxWAge14pMs5iq0oQwLQ2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/ZJshvAu8TVVp4rPq4Fd4KQ2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/hYD2P4c5UB2aGfXRMrUjdw2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/muxiWf_jpqTgn4SMoDUcDQ2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/OQQ5jbADJjVp4rPq4Fd4KQ2&#39;]
> ...
  爬取章節路徑的小爬蟲(chóng)是寫(xiě)出來(lái)的,但是我們的目的不僅如此,我們會(huì )用這些地址來(lái)爬取內容:
  章節頁(yè)面分析
  接下來(lái)分析章節頁(yè)面。我們需要從章節頁(yè)面獲取標題和內容。
  如果說(shuō)到用于章節信息爬取的解析器方法,那么我們可以寫(xiě)一個(gè)爬取每個(gè)章節內容的方法,比如:parser_chapter,先看章節頁(yè)面的具體情況:
  
  可以看到,章節的全部?jì)热菰陬?lèi)名main-text-wrap的div標簽中,標題是類(lèi)名j_chapterName的h3標簽,具體內容是帶有類(lèi)名的div標簽類(lèi)名讀取內容 j_readContent。
  嘗試打印此內容:
  # -*- coding: utf-8 -*-
import scrapy
class XzxzbSpider(scrapy.Spider):
name = &#39;xzxzb&#39;
allowed_domains = [&#39;qidian.com&#39;]
start_urls = [&#39;https://book.qidian.com/info/1010780117/&#39;]
def parse(self, response):
pages = response.xpath(&#39;//div[@id="j-catalogWrap"]//ul[@class="cf"]/li&#39;)
for page in pages:
url = page.xpath(&#39;./child::a/attribute::href&#39;).extract_first()
# yield scrapy.Request(&#39;https:&#39; + url, callback=self.parse_chapter)
yield response.follow(url, callback=self.parse_chapter)
pass
def parse_chapter(self, response):
title = response.xpath(&#39;//div[@class="main-text-wrap"]//h3[@class="j_chapterName"]/text()&#39;).extract_first().strip()
content = response.xpath(&#39;//div[@class="main-text-wrap"]//div[@class="read-content j_readContent"]&#39;).extract_first().strip()
print title
# print content
pass
  在上一步中,我們得到了一個(gè)章節地址,它是輸出內容的相對路徑,所以我們使用了yield response.follow(url, callback=self.parse_chapter),第二個(gè)參數是一個(gè)回調函數,也就是對章節頁(yè)面進(jìn)行處理,爬到章節頁(yè)面后,我們解析頁(yè)面并將標題保存到文件中。
  next_page = response.urljoin(url)
yield scrapy.Request(next_page, callback=self.parse_chapter)
  Scrapy.Request 與使用 response.follow 不同。它需要通過(guò)相對路徑構造絕對路徑。 Response.follow可以直接使用相對路徑,不需要調用urljoin方法。
  注意response.follow直接返回一個(gè)Request實(shí)例,可以通過(guò)yield直接返回。
  獲取數據后,進(jìn)行存儲。既然我們想要html頁(yè)面,我們可以按標題存儲。代碼如下:
   def parse_chapter(self, response):
title = response.xpath(&#39;//div[@class="main-text-wrap"]//h3[@class="j_chapterName"]/text()&#39;).extract_first().strip()
content = response.xpath(&#39;//div[@class="main-text-wrap"]//div[@class="read-content j_readContent"]&#39;).extract_first().strip()
# print title
# print content
filename = &#39;./down/%s.html&#39; % (title)
with open(filename, &#39;wb&#39;) as f:
f.write(content.encode(&#39;utf-8&#39;))
pass
  到目前為止,我們已經(jīng)成功捕獲了我們的數據,但還不能直接使用,需要進(jìn)行排序和優(yōu)化。
  數據組織
  首先,我們爬下來(lái)的章節頁(yè)面的排序不是很好。如果人工分揀花費太多時(shí)間和精力;另外,章節內容收錄很多額外的東西,閱讀體驗并不好。我們需要對內容的布局和布局進(jìn)行優(yōu)化??勺x性。
  我們先對章節進(jìn)行排序,因為目錄中的章節列表是按順序排列的,所以我們只需要在下載頁(yè)面名稱(chēng)后加上一個(gè)序號即可。
  但是保存網(wǎng)頁(yè)的代碼是一個(gè)回調函數。只有在處理目錄時(shí)才能確定順序?;卣{函數如何知道訂單?因此,我們需要告訴回調函數處理章節的序號,并且需要向回調函數傳遞參數。修改后的代碼如下所示:
  def parse(self, response):
pages = response.xpath(&#39;//div[@id="j-catalogWrap"]//ul[@class="cf"]/li&#39;)
for page in pages:
url = page.xpath(&#39;./child::a/attribute::href&#39;).extract_first()
idx = page.xpath(&#39;./attribute::data-rid&#39;).extract_first()
# yield scrapy.Request(&#39;https:&#39; + url, callback=self.parse_chapter)
req = response.follow(url, callback=self.parse_chapter)
req.meta[&#39;idx&#39;] = idx
yield req
pass
def parse_chapter(self, response):
idx = response.meta[&#39;idx&#39;]
title = response.xpath(&#39;//div[@class="main-text-wrap"]//h3[@class="j_chapterName"]/text()&#39;).extract_first().strip()
content = response.xpath(&#39;//div[@class="main-text-wrap"]//div[@class="read-content j_readContent"]&#39;).extract_first().strip()
# print title
# print content
filename = &#39;./down/%s_%s.html&#39; % (idx, title)
cnt = &#39;%s %s&#39; % (title, content)
with open(filename, &#39;wb&#39;) as f:
f.write(cnt.encode(&#39;utf-8&#39;))
pass
  使用 Sigil 制作電子書(shū)
  加載html文件
  要制作ePub電子書(shū),我們首先通過(guò)Sigil將我們抓取到的文件加載到程序中,在添加文件對話(huà)框中,我們選擇所有文件:
  
  制作目錄
  當文件中存在HTML的h標簽時(shí),點(diǎn)擊Generate Catalog按鈕自動(dòng)生成目錄。我們在之前的數據捕獲過(guò)程中自動(dòng)添加了 h1 標簽:
  
  做個(gè)封面
  
  封面本質(zhì)上是HTML,可以從頁(yè)面中編輯或抓取,就交給你自己實(shí)現吧。
  
  *免責聲明:本文整理于網(wǎng)絡(luò ),版權歸原作者所有。如來(lái)源信息有誤或侵權,請聯(lián)系我們進(jìn)行刪除或授權。 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(《修真小主播》使用Scrapy抓取電子書(shū)爬蟲(chóng)思路怎么抓取數據)
  使用 Scrapy 抓取電子書(shū)
  爬蟲(chóng)創(chuàng )意
  如何抓取數據,首先要看從哪里獲取,打開(kāi)“修真小主播”頁(yè)面,如下:
  
  
  有一個(gè)目錄選項卡。單擊此選項卡可查看目錄。使用瀏覽器的元素查看工具,我們可以定位到各章節的目錄和相關(guān)信息。根據這些信息,我們可以抓取到特定的頁(yè)面:
  
  獲取章節地址
  現在我們打開(kāi)xzxzb.py文件,就是我們剛剛創(chuàng )建的爬蟲(chóng):
  # -*- coding: utf-8 -*-
import scrapy
class XzxzbSpider(scrapy.Spider):
name = &#39;xzxzb&#39;
allowed_domains = [&#39;qidian.com&#39;]
start_urls = [&#39;http://qidian.com/&#39;]
def parse(self, response):
pass
  start_urls 是目錄地址,爬蟲(chóng)會(huì )自動(dòng)爬取這個(gè)地址,然后在后面的解析中處理結果?,F在我們來(lái)編寫(xiě)代碼處理目錄數據,首先爬取小說(shuō)首頁(yè)獲取目錄列表:
  def parse(self, response):
pages = response.xpath(&#39;//div[@id="j-catalogWrap"]//ul[@class="cf"]/li&#39;)
for page in pages:
url = page.xpath(&#39;./child::a/attribute::href&#39;).extract()
print url
pass
  獲取網(wǎng)頁(yè)中的 DOM 數據有兩種方式,一種是使用 CSS 選擇器,另一種是使用 XML xPath 查詢(xún)。
  這里我們使用 xPath。請自行研究相關(guān)知識??瓷厦娴拇a。首先我們通過(guò)ID獲取目錄框,獲取類(lèi)cf獲取目錄列表:
  pages = response.xpath(&#39;//div[@id="j-catalogWrap"]//ul[@class="cf"]/li&#39;)
  接下來(lái)遍歷子節點(diǎn),查詢(xún)li標簽中子節點(diǎn)a的href屬性,最后打印出來(lái):
  for page in pages:
url = page.xpath(&#39;./child::a/attribute::href&#39;).extract()
print url
  這樣就可以說(shuō)是爬取章節路徑的小爬蟲(chóng)了。使用如下命令運行xzxzb爬蟲(chóng)查看結果:
  scrapy crawl xzxzb
  此時(shí),我們的程序可能會(huì )出現以下錯誤:
  …
ImportError: No module named win32api

  只需運行以下語(yǔ)句:
  pip install pypiwin32
  屏幕輸出如下:
  > ...
> [u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/wrrduN6auIlOBDFlr9quQA2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Jh-J5usgyW62uJcMpdsVgA2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/5YXHdBvg1ImaGfXRMrUjdw2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/fw5EBeKat-76ItTi_ILQ7A2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/KsFh5VutI6PwrjbX3WA1AA2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/-mpKJ01gPp1p4rPq4Fd4KQ2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/MlZSeYOQxSPM5j8_3RRvhw2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/5TXZqGvLi-3M5j8_3RRvhw2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/sysD-JPiugv4p8iEw--PPw2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/xGckZ01j64-aGfXRMrUjdw2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/72lHOJcgmedOBDFlr9quQA2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/cZkHZEYnPl22uJcMpdsVgA2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/vkNh45O3JsRMs5iq0oQwLQ2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/ge4m8RjJyPH6ItTi_ILQ7A2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Y33PuxrKT4dp4rPq4Fd4KQ2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/MDQznkrkiyXwrjbX3WA1AA2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/A2r-YTzWCYj6ItTi_ILQ7A2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Ng9CuONRKei2uJcMpdsVgA2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/Q_AxWAge14pMs5iq0oQwLQ2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/ZJshvAu8TVVp4rPq4Fd4KQ2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/hYD2P4c5UB2aGfXRMrUjdw2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/muxiWf_jpqTgn4SMoDUcDQ2&#39;]
[u&#39;//read.qidian.com/chapter/MuRzJqCY6MyoLoerY3WDhg2/OQQ5jbADJjVp4rPq4Fd4KQ2&#39;]
> ...
  爬取章節路徑的小爬蟲(chóng)是寫(xiě)出來(lái)的,但是我們的目的不僅如此,我們會(huì )用這些地址來(lái)爬取內容:
  章節頁(yè)面分析
  接下來(lái)分析章節頁(yè)面。我們需要從章節頁(yè)面獲取標題和內容。
  如果說(shuō)到用于章節信息爬取的解析器方法,那么我們可以寫(xiě)一個(gè)爬取每個(gè)章節內容的方法,比如:parser_chapter,先看章節頁(yè)面的具體情況:
  
  可以看到,章節的全部?jì)热菰陬?lèi)名main-text-wrap的div標簽中,標題是類(lèi)名j_chapterName的h3標簽,具體內容是帶有類(lèi)名的div標簽類(lèi)名讀取內容 j_readContent。
  嘗試打印此內容:
  # -*- coding: utf-8 -*-
import scrapy
class XzxzbSpider(scrapy.Spider):
name = &#39;xzxzb&#39;
allowed_domains = [&#39;qidian.com&#39;]
start_urls = [&#39;https://book.qidian.com/info/1010780117/&#39;]
def parse(self, response):
pages = response.xpath(&#39;//div[@id="j-catalogWrap"]//ul[@class="cf"]/li&#39;)
for page in pages:
url = page.xpath(&#39;./child::a/attribute::href&#39;).extract_first()
# yield scrapy.Request(&#39;https:&#39; + url, callback=self.parse_chapter)
yield response.follow(url, callback=self.parse_chapter)
pass
def parse_chapter(self, response):
title = response.xpath(&#39;//div[@class="main-text-wrap"]//h3[@class="j_chapterName"]/text()&#39;).extract_first().strip()
content = response.xpath(&#39;//div[@class="main-text-wrap"]//div[@class="read-content j_readContent"]&#39;).extract_first().strip()
print title
# print content
pass
  在上一步中,我們得到了一個(gè)章節地址,它是輸出內容的相對路徑,所以我們使用了yield response.follow(url, callback=self.parse_chapter),第二個(gè)參數是一個(gè)回調函數,也就是對章節頁(yè)面進(jìn)行處理,爬到章節頁(yè)面后,我們解析頁(yè)面并將標題保存到文件中。
  next_page = response.urljoin(url)
yield scrapy.Request(next_page, callback=self.parse_chapter)
  Scrapy.Request 與使用 response.follow 不同。它需要通過(guò)相對路徑構造絕對路徑。 Response.follow可以直接使用相對路徑,不需要調用urljoin方法。
  注意response.follow直接返回一個(gè)Request實(shí)例,可以通過(guò)yield直接返回。
  獲取數據后,進(jìn)行存儲。既然我們想要html頁(yè)面,我們可以按標題存儲。代碼如下:
   def parse_chapter(self, response):
title = response.xpath(&#39;//div[@class="main-text-wrap"]//h3[@class="j_chapterName"]/text()&#39;).extract_first().strip()
content = response.xpath(&#39;//div[@class="main-text-wrap"]//div[@class="read-content j_readContent"]&#39;).extract_first().strip()
# print title
# print content
filename = &#39;./down/%s.html&#39; % (title)
with open(filename, &#39;wb&#39;) as f:
f.write(content.encode(&#39;utf-8&#39;))
pass
  到目前為止,我們已經(jīng)成功捕獲了我們的數據,但還不能直接使用,需要進(jìn)行排序和優(yōu)化。
  數據組織
  首先,我們爬下來(lái)的章節頁(yè)面的排序不是很好。如果人工分揀花費太多時(shí)間和精力;另外,章節內容收錄很多額外的東西,閱讀體驗并不好。我們需要對內容的布局和布局進(jìn)行優(yōu)化??勺x性。
  我們先對章節進(jìn)行排序,因為目錄中的章節列表是按順序排列的,所以我們只需要在下載頁(yè)面名稱(chēng)后加上一個(gè)序號即可。
  但是保存網(wǎng)頁(yè)的代碼是一個(gè)回調函數。只有在處理目錄時(shí)才能確定順序?;卣{函數如何知道訂單?因此,我們需要告訴回調函數處理章節的序號,并且需要向回調函數傳遞參數。修改后的代碼如下所示:
  def parse(self, response):
pages = response.xpath(&#39;//div[@id="j-catalogWrap"]//ul[@class="cf"]/li&#39;)
for page in pages:
url = page.xpath(&#39;./child::a/attribute::href&#39;).extract_first()
idx = page.xpath(&#39;./attribute::data-rid&#39;).extract_first()
# yield scrapy.Request(&#39;https:&#39; + url, callback=self.parse_chapter)
req = response.follow(url, callback=self.parse_chapter)
req.meta[&#39;idx&#39;] = idx
yield req
pass
def parse_chapter(self, response):
idx = response.meta[&#39;idx&#39;]
title = response.xpath(&#39;//div[@class="main-text-wrap"]//h3[@class="j_chapterName"]/text()&#39;).extract_first().strip()
content = response.xpath(&#39;//div[@class="main-text-wrap"]//div[@class="read-content j_readContent"]&#39;).extract_first().strip()
# print title
# print content
filename = &#39;./down/%s_%s.html&#39; % (idx, title)
cnt = &#39;%s %s&#39; % (title, content)
with open(filename, &#39;wb&#39;) as f:
f.write(cnt.encode(&#39;utf-8&#39;))
pass
  使用 Sigil 制作電子書(shū)
  加載html文件
  要制作ePub電子書(shū),我們首先通過(guò)Sigil將我們抓取到的文件加載到程序中,在添加文件對話(huà)框中,我們選擇所有文件:
  
  制作目錄
  當文件中存在HTML的h標簽時(shí),點(diǎn)擊Generate Catalog按鈕自動(dòng)生成目錄。我們在之前的數據捕獲過(guò)程中自動(dòng)添加了 h1 標簽:
  
  做個(gè)封面
  
  封面本質(zhì)上是HTML,可以從頁(yè)面中編輯或抓取,就交給你自己實(shí)現吧。
  
  *免責聲明:本文整理于網(wǎng)絡(luò ),版權歸原作者所有。如來(lái)源信息有誤或侵權,請聯(lián)系我們進(jìn)行刪除或授權。

抓取網(wǎng)頁(yè)生成電子書(shū)(如何將網(wǎng)頁(yè)文章批量抓取、生成電子書(shū)、直接推送到Kindle)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 470 次瀏覽 ? 2021-09-11 19:09 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(如何將網(wǎng)頁(yè)文章批量抓取、生成電子書(shū)、直接推送到Kindle)
  我一直在研究如何將我關(guān)注的網(wǎng)頁(yè)或文章安裝到Kindle中進(jìn)行認真閱讀,但很長(cháng)時(shí)間沒(méi)有真正的進(jìn)展。手動(dòng)格式化書(shū)籍制作電子書(shū)的方法雖然簡(jiǎn)單易行,但對于短小且更新頻繁的網(wǎng)頁(yè)文章來(lái)說(shuō)效率低下。如果有工具可以批量抓取網(wǎng)頁(yè)文章,生成電子書(shū),直接推送到Kindle上就好了。 Doocer 是一個(gè)非常有用的工具。
  Doocer 是@lepture 開(kāi)發(fā)的在線(xiàn)服務(wù),允許用戶(hù)在 Pocket 的后期閱讀賬戶(hù)中提交 URL、RSS 提要地址和文章,然后將它們一一制作成 ePub、MOBI 電子書(shū)或在批次??梢灾苯釉?Doocer 中閱讀所有文章,也可以推送到 Kindle、Apple Books 閱讀。
  
  閱讀體驗非常好
  Doocer 生成的電子書(shū)格式良好且引人注目。應該有的內容就多,不應該的內容也不多。本書(shū)不僅封面有圖文,還有文章directory、網(wǎng)站源、文章原作者等信息。 Doocer生成的MOBI電子書(shū)支持KF8標準,所以支持 Kindle 原生替換自定義字體。
  由于網(wǎng)站文章通常都有標準和通用的排版規范,所以Doocer生成的電子書(shū)文章中的大小、標題和列表圖例與原網(wǎng)頁(yè)文章高度一致@。原文章中的超鏈接也全部保留,評論信息、廣告等內容全部丟棄。全書(shū)的閱讀體驗非常友好。 (當然,如果原網(wǎng)頁(yè)文章的布局亂了,那么生成的電子書(shū)也可能完全不一樣。)
  
  將網(wǎng)頁(yè)文章制作成電子書(shū)
  Doocer 完成注冊和登錄后,我們就可以開(kāi)始將網(wǎng)頁(yè)文章 制作成電子書(shū)了。首先,我們點(diǎn)擊“NEW BOOK”按鈕新建電子書(shū),輸入電子書(shū)書(shū)名。然后在右上角選擇“添加”添加文章 URL或RSS提要地址。
  
  以小眾網(wǎng)頁(yè)的文章為例,我們選擇“FEED”,在輸入框中粘貼RSS地址,然后點(diǎn)擊“PARSE”,那么小眾文章的最近列表就是顯示給我們添加。我們可以根據需要選擇,也可以點(diǎn)擊“全選”來(lái)全選文章。最后,下拉到頁(yè)面底部,選擇“保存”,這些文章就會(huì )被添加到書(shū)中。
  
  實(shí)際上,Doocer 網(wǎng)頁(yè)與 RSS 工具非常相似。實(shí)現了從網(wǎng)站批量抓取文章并集中展示的功能。
  
  要將這些文章轉換成電子書(shū)并推送到Kindle,我們需要進(jìn)行一些簡(jiǎn)單的操作。
  首先,根據Doocer個(gè)人設置頁(yè)面的提示,我們打開(kāi)Amazon Kindle的個(gè)人文檔設置,在個(gè)人文檔接收地址中添加Doocer電子書(shū)的發(fā)送地址。完成后,我們再在輸入框中填寫(xiě)Kindle的個(gè)人文檔接收地址,點(diǎn)擊保存。
  
  最后,我們在 Doocer 中打開(kāi)《少數派》這本書(shū),在頁(yè)面上找到“發(fā)布”,然后選擇發(fā)送到 Kindle。大約 10-30 分鐘,Doocer 將完成圖書(shū)制作并將圖書(shū)推送到 Kindle。
  
  還有一些問(wèn)題需要注意
  Doocer目前處于Beta測試階段,還存在一些bug,尤其是中文網(wǎng)站經(jīng)常出現問(wèn)題。好在Doocer官網(wǎng)有開(kāi)發(fā)者對話(huà)頻道,可以直接聯(lián)系他幫忙解決。
  實(shí)現所有操作的自動(dòng)化流程是我認為Doocer最需要努力的方向。 Doocer可以像RSS工具一樣抓取網(wǎng)頁(yè)中更新的文章,但仍然需要手動(dòng)抓取新的文章抓取并生成電子書(shū)并推送。如果整個(gè)過(guò)程可以自動(dòng)化,RSS-MOBI-Kindle就可以一次搞定,相信實(shí)用性會(huì )更高。
  目前,Doocer 的所有功能均可免費使用。 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(如何將網(wǎng)頁(yè)文章批量抓取、生成電子書(shū)、直接推送到Kindle)
  我一直在研究如何將我關(guān)注的網(wǎng)頁(yè)或文章安裝到Kindle中進(jìn)行認真閱讀,但很長(cháng)時(shí)間沒(méi)有真正的進(jìn)展。手動(dòng)格式化書(shū)籍制作電子書(shū)的方法雖然簡(jiǎn)單易行,但對于短小且更新頻繁的網(wǎng)頁(yè)文章來(lái)說(shuō)效率低下。如果有工具可以批量抓取網(wǎng)頁(yè)文章,生成電子書(shū),直接推送到Kindle上就好了。 Doocer 是一個(gè)非常有用的工具。
  Doocer 是@lepture 開(kāi)發(fā)的在線(xiàn)服務(wù),允許用戶(hù)在 Pocket 的后期閱讀賬戶(hù)中提交 URL、RSS 提要地址和文章,然后將它們一一制作成 ePub、MOBI 電子書(shū)或在批次??梢灾苯釉?Doocer 中閱讀所有文章,也可以推送到 Kindle、Apple Books 閱讀。
  
  閱讀體驗非常好
  Doocer 生成的電子書(shū)格式良好且引人注目。應該有的內容就多,不應該的內容也不多。本書(shū)不僅封面有圖文,還有文章directory、網(wǎng)站源、文章原作者等信息。 Doocer生成的MOBI電子書(shū)支持KF8標準,所以支持 Kindle 原生替換自定義字體。
  由于網(wǎng)站文章通常都有標準和通用的排版規范,所以Doocer生成的電子書(shū)文章中的大小、標題和列表圖例與原網(wǎng)頁(yè)文章高度一致@。原文章中的超鏈接也全部保留,評論信息、廣告等內容全部丟棄。全書(shū)的閱讀體驗非常友好。 (當然,如果原網(wǎng)頁(yè)文章的布局亂了,那么生成的電子書(shū)也可能完全不一樣。)
  
  將網(wǎng)頁(yè)文章制作成電子書(shū)
  Doocer 完成注冊和登錄后,我們就可以開(kāi)始將網(wǎng)頁(yè)文章 制作成電子書(shū)了。首先,我們點(diǎn)擊“NEW BOOK”按鈕新建電子書(shū),輸入電子書(shū)書(shū)名。然后在右上角選擇“添加”添加文章 URL或RSS提要地址。
  
  以小眾網(wǎng)頁(yè)的文章為例,我們選擇“FEED”,在輸入框中粘貼RSS地址,然后點(diǎn)擊“PARSE”,那么小眾文章的最近列表就是顯示給我們添加。我們可以根據需要選擇,也可以點(diǎn)擊“全選”來(lái)全選文章。最后,下拉到頁(yè)面底部,選擇“保存”,這些文章就會(huì )被添加到書(shū)中。
  
  實(shí)際上,Doocer 網(wǎng)頁(yè)與 RSS 工具非常相似。實(shí)現了從網(wǎng)站批量抓取文章并集中展示的功能。
  
  要將這些文章轉換成電子書(shū)并推送到Kindle,我們需要進(jìn)行一些簡(jiǎn)單的操作。
  首先,根據Doocer個(gè)人設置頁(yè)面的提示,我們打開(kāi)Amazon Kindle的個(gè)人文檔設置,在個(gè)人文檔接收地址中添加Doocer電子書(shū)的發(fā)送地址。完成后,我們再在輸入框中填寫(xiě)Kindle的個(gè)人文檔接收地址,點(diǎn)擊保存。
  
  最后,我們在 Doocer 中打開(kāi)《少數派》這本書(shū),在頁(yè)面上找到“發(fā)布”,然后選擇發(fā)送到 Kindle。大約 10-30 分鐘,Doocer 將完成圖書(shū)制作并將圖書(shū)推送到 Kindle。
  
  還有一些問(wèn)題需要注意
  Doocer目前處于Beta測試階段,還存在一些bug,尤其是中文網(wǎng)站經(jīng)常出現問(wèn)題。好在Doocer官網(wǎng)有開(kāi)發(fā)者對話(huà)頻道,可以直接聯(lián)系他幫忙解決。
  實(shí)現所有操作的自動(dòng)化流程是我認為Doocer最需要努力的方向。 Doocer可以像RSS工具一樣抓取網(wǎng)頁(yè)中更新的文章,但仍然需要手動(dòng)抓取新的文章抓取并生成電子書(shū)并推送。如果整個(gè)過(guò)程可以自動(dòng)化,RSS-MOBI-Kindle就可以一次搞定,相信實(shí)用性會(huì )更高。
  目前,Doocer 的所有功能均可免費使用。

抓取網(wǎng)頁(yè)生成電子書(shū)(導入網(wǎng)頁(yè)生成電子書(shū)看書(shū)一個(gè)基于http的任務(wù)(組圖))

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 229 次瀏覽 ? 2021-09-11 05:01 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(導入網(wǎng)頁(yè)生成電子書(shū)看書(shū)一個(gè)基于http的任務(wù)(組圖))
  抓取網(wǎng)頁(yè)生成電子書(shū)看書(shū)一個(gè)基于http的任務(wù),利用這個(gè)電子書(shū)網(wǎng)站可以把所有電子書(shū)導入到kindle中進(jìn)行閱讀第一步,打開(kāi)本地的電子書(shū)首頁(yè),導入本地電子書(shū)一步:select擇取標題、作者、索引、圖書(shū)名、作者簽名二步:add連接電子書(shū)并connect到kindle三步:save把電子書(shū)保存到本地用開(kāi)源的git或者百度云保存,網(wǎng)頁(yè)版瀏覽器還可以直接按圖標搜索打開(kāi)電子書(shū)四步:kindle閱讀本地電子書(shū)的同時(shí)可以給每個(gè)筆記分類(lèi),利用中文書(shū)名去搜索也可以去一個(gè)rss看看全國圖書(shū)館借閱書(shū)庫。
  然后把這些書(shū)直接導入到kindle里面。先不看注冊有很多方法,我選擇最簡(jiǎn)單的就是注冊一個(gè)uac,方便自己折騰。通過(guò)connectuac給電子書(shū)導入:sendmailchrome插件即可導入導出全部電子書(shū):連接之后http,翻頁(yè)操作完畢后f12鍵顯示(顯示或者隱藏::servertimeout),復制轉發(fā)的http響應地址到本地。
  xmarks方法(點(diǎn)擊:獲取kindle書(shū)籍書(shū)名):formattextxxxhttp://|text=xxx{%e5%9b%bd%e5%80%87%e5%9f%8b%e8%8d%90%e7%9a%84%e8%8d%90%e8%8f%a6%e8%ae%9e%e8%ae%8c%e4%b9%88%e8%9f%8b%e8%af%8f%e7%9a%84%e8%80%91%e8%8a%91%e8%81%b3%e4%b9%88%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%8a%81%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%80%91%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%80%91%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%80%91%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%80%91%e8%80%91%e8%80%91%e8%80%91%e8%80%91%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af。 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(導入網(wǎng)頁(yè)生成電子書(shū)看書(shū)一個(gè)基于http的任務(wù)(組圖))
  抓取網(wǎng)頁(yè)生成電子書(shū)看書(shū)一個(gè)基于http的任務(wù),利用這個(gè)電子書(shū)網(wǎng)站可以把所有電子書(shū)導入到kindle中進(jìn)行閱讀第一步,打開(kāi)本地的電子書(shū)首頁(yè),導入本地電子書(shū)一步:select擇取標題、作者、索引、圖書(shū)名、作者簽名二步:add連接電子書(shū)并connect到kindle三步:save把電子書(shū)保存到本地用開(kāi)源的git或者百度云保存,網(wǎng)頁(yè)版瀏覽器還可以直接按圖標搜索打開(kāi)電子書(shū)四步:kindle閱讀本地電子書(shū)的同時(shí)可以給每個(gè)筆記分類(lèi),利用中文書(shū)名去搜索也可以去一個(gè)rss看看全國圖書(shū)館借閱書(shū)庫。
  然后把這些書(shū)直接導入到kindle里面。先不看注冊有很多方法,我選擇最簡(jiǎn)單的就是注冊一個(gè)uac,方便自己折騰。通過(guò)connectuac給電子書(shū)導入:sendmailchrome插件即可導入導出全部電子書(shū):連接之后http,翻頁(yè)操作完畢后f12鍵顯示(顯示或者隱藏::servertimeout),復制轉發(fā)的http響應地址到本地。
  xmarks方法(點(diǎn)擊:獲取kindle書(shū)籍書(shū)名):formattextxxxhttp://|text=xxx{%e5%9b%bd%e5%80%87%e5%9f%8b%e8%8d%90%e7%9a%84%e8%8d%90%e8%8f%a6%e8%ae%9e%e8%ae%8c%e4%b9%88%e8%9f%8b%e8%af%8f%e7%9a%84%e8%80%91%e8%8a%91%e8%81%b3%e4%b9%88%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%8a%81%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%80%91%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%80%91%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%80%91%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%80%91%e8%80%91%e8%80%91%e8%80%91%e8%80%91%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af%9f%e7%9a%84%e8%af。

抓取網(wǎng)頁(yè)生成電子書(shū)(如何閱讀第一遍純文本電子書(shū)的app推薦一下?)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 256 次瀏覽 ? 2021-09-09 08:01 ? 來(lái)自相關(guān)話(huà)題

  抓取網(wǎng)頁(yè)生成電子書(shū)(如何閱讀第一遍純文本電子書(shū)的app推薦一下?)
  抓取網(wǎng)頁(yè)生成電子書(shū)有很多種方法,目前已知的有:1.掃描儀掃描,這種方法大部分可以實(shí)現,適合無(wú)法將書(shū)籍內容重新掃描到電子書(shū)資源的讀者;2.手機,平板等電子產(chǎn)品掃描,這種方法掃描效果極差,會(huì )有廣告,加載時(shí)間等問(wèn)題,適合網(wǎng)絡(luò )不好,電子書(shū)資源量少的讀者。4.云端搜索,將某本電子書(shū)放在云端,找到你要看的電子書(shū),直接訪(fǎng)問(wèn)即可,這種方法是目前最快最方便的方法,很多從事文學(xué)藝術(shù)研究的人,研究生博士生大都采用該方法,原因也在于方便快捷,不用自己爬取。
  搜狗
  小說(shuō)云吧,
  手機可以用下網(wǎng)易云閱讀,電腦可以用ireader,推薦ireader。
  手機安裝app:看書(shū)的星和我!
  搜狐小說(shuō)的免費版可以轉換到電子書(shū),然后電子書(shū)到kindle,kindle看。用金山免費版。
  基本方法:翻譯文本(把原著(zhù)的內容翻譯成中文)再轉換回原文參考:如何閱讀第一遍純文本電子書(shū)
  有沒(méi)有你使用過(guò)的,或者你想把書(shū)轉換成電子書(shū)的app推薦一下?-知乎用戶(hù)的回答目前較好的解決方案有兩個(gè):一、node.js技術(shù)實(shí)現(前后端分離),需要用到express框架;(依賴(lài)node.js并不大?;緅ava/php/.net/python這些語(yǔ)言的都可以。只要做好代碼熱更新。有tomcat和sqlalchemy兩種數據庫或兩種后端語(yǔ)言或兩種數據庫。
 ?。┗谶@個(gè)技術(shù)實(shí)現,github上還有一個(gè)正在維護的express版本的項目:;bootstrap=beautiful-appfirst-personcrawlingphotos二、python+node.js實(shí)現?;陧椖渴醉?yè)上的現成代碼photo(photoior).上,制作了一個(gè)瀏覽器端的實(shí)現,并發(fā)布到了github:主要實(shí)現的依據是:并發(fā)性、體驗也不錯、還有免費版。onedayphotofox.。 查看全部

  抓取網(wǎng)頁(yè)生成電子書(shū)(如何閱讀第一遍純文本電子書(shū)的app推薦一下?)
  抓取網(wǎng)頁(yè)生成電子書(shū)有很多種方法,目前已知的有:1.掃描儀掃描,這種方法大部分可以實(shí)現,適合無(wú)法將書(shū)籍內容重新掃描到電子書(shū)資源的讀者;2.手機,平板等電子產(chǎn)品掃描,這種方法掃描效果極差,會(huì )有廣告,加載時(shí)間等問(wèn)題,適合網(wǎng)絡(luò )不好,電子書(shū)資源量少的讀者。4.云端搜索,將某本電子書(shū)放在云端,找到你要看的電子書(shū),直接訪(fǎng)問(wèn)即可,這種方法是目前最快最方便的方法,很多從事文學(xué)藝術(shù)研究的人,研究生博士生大都采用該方法,原因也在于方便快捷,不用自己爬取。
  搜狗
  小說(shuō)云吧,
  手機可以用下網(wǎng)易云閱讀,電腦可以用ireader,推薦ireader。
  手機安裝app:看書(shū)的星和我!
  搜狐小說(shuō)的免費版可以轉換到電子書(shū),然后電子書(shū)到kindle,kindle看。用金山免費版。
  基本方法:翻譯文本(把原著(zhù)的內容翻譯成中文)再轉換回原文參考:如何閱讀第一遍純文本電子書(shū)
  有沒(méi)有你使用過(guò)的,或者你想把書(shū)轉換成電子書(shū)的app推薦一下?-知乎用戶(hù)的回答目前較好的解決方案有兩個(gè):一、node.js技術(shù)實(shí)現(前后端分離),需要用到express框架;(依賴(lài)node.js并不大?;緅ava/php/.net/python這些語(yǔ)言的都可以。只要做好代碼熱更新。有tomcat和sqlalchemy兩種數據庫或兩種后端語(yǔ)言或兩種數據庫。
 ?。┗谶@個(gè)技術(shù)實(shí)現,github上還有一個(gè)正在維護的express版本的項目:;bootstrap=beautiful-appfirst-personcrawlingphotos二、python+node.js實(shí)現?;陧椖渴醉?yè)上的現成代碼photo(photoior).上,制作了一個(gè)瀏覽器端的實(shí)現,并發(fā)布到了github:主要實(shí)現的依據是:并發(fā)性、體驗也不錯、還有免費版。onedayphotofox.。

官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久