抓取網(wǎng)頁(yè)生成電子書(shū)
抓取網(wǎng)頁(yè)生成電子書(shū)(小說(shuō)網(wǎng)站捕捉器的捕捉規則介紹及功能簡(jiǎn)介-蘇州安嘉)
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 127 次瀏覽 ? 2021-11-26 10:06
小說(shuō)網(wǎng)站采集器可以根據html網(wǎng)站代碼采集和提取各種小說(shuō)網(wǎng)站的圖書(shū)內容,并提供txt、ePub、zip格式的控制方法。小說(shuō)網(wǎng)站捕手不需要你解析各種代碼,直接一鍵獲取所有內容。
功能介紹
本app可以根據小說(shuō)網(wǎng)站的html網(wǎng)頁(yè)源碼分析關(guān)鍵信息抓取規則,最終輸出抓取的書(shū)籍(支持txt、ePub、zip格式輸出)。
這個(gè)app可以說(shuō)好用也好難用,比如簡(jiǎn)單地從網(wǎng)站中抓取書(shū)籍,就可以直接從自帶的100多個(gè)預設網(wǎng)站中抓?。ㄐ枰榭词褂脼g覽器搜索要下載的書(shū)籍,然后復制鏈接到入口網(wǎng)址即可),無(wú)需解析復雜的源碼。對于邏輯思維能力強的用戶(hù),可以根據分析小說(shuō)網(wǎng)站的源碼制定網(wǎng)站的捕捉規則,基本可以應付大部分小說(shuō)網(wǎng)站。
應用功能
自定義規則抓圖,可抓大部分小說(shuō)網(wǎng)站文章,個(gè)別網(wǎng)站圖書(shū)詳細分類(lèi),支持多書(shū)抓圖;
自帶大量預估網(wǎng)站,沒(méi)有定義規則的用戶(hù)可以直接申請,也可以抓取自己需要的小說(shuō);
內置源代碼瀏覽器,提供鏈接分析、關(guān)鍵定位、標簽分割等工具;
對于大型小說(shuō),任務(wù)暫存到數據庫后,可以隨意中斷和恢復任務(wù);
圖書(shū)提供多種輸出方式:章節文件、獨立文本文件、壓縮包、ePub電子書(shū)等;
支持任務(wù)導入,即從帶有章節頁(yè)面鏈接的文本文件和excel文檔中導入任務(wù)進(jìn)行抓??;
所有組件都支持提示信息,即光標停止后會(huì )顯示相關(guān)提示。大部分操作支持狀態(tài)欄提示,使用更方便;
支持添加、修改、導入、導出、排序和刪除預設網(wǎng)站;
附帶小工具
ePub 電子書(shū)創(chuàng )建和分解工具支持從章節存儲的書(shū)籍中生成ePub 文件,也可以將ePub 文件分解為具有多個(gè)章節的文本文件。
應用界面
主界面
任務(wù)管理
系統設置 + ePub 小部件
解析代碼窗口 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(小說(shuō)網(wǎng)站捕捉器的捕捉規則介紹及功能簡(jiǎn)介-蘇州安嘉)
小說(shuō)網(wǎng)站采集器可以根據html網(wǎng)站代碼采集和提取各種小說(shuō)網(wǎng)站的圖書(shū)內容,并提供txt、ePub、zip格式的控制方法。小說(shuō)網(wǎng)站捕手不需要你解析各種代碼,直接一鍵獲取所有內容。

功能介紹
本app可以根據小說(shuō)網(wǎng)站的html網(wǎng)頁(yè)源碼分析關(guān)鍵信息抓取規則,最終輸出抓取的書(shū)籍(支持txt、ePub、zip格式輸出)。
這個(gè)app可以說(shuō)好用也好難用,比如簡(jiǎn)單地從網(wǎng)站中抓取書(shū)籍,就可以直接從自帶的100多個(gè)預設網(wǎng)站中抓?。ㄐ枰榭词褂脼g覽器搜索要下載的書(shū)籍,然后復制鏈接到入口網(wǎng)址即可),無(wú)需解析復雜的源碼。對于邏輯思維能力強的用戶(hù),可以根據分析小說(shuō)網(wǎng)站的源碼制定網(wǎng)站的捕捉規則,基本可以應付大部分小說(shuō)網(wǎng)站。
應用功能
自定義規則抓圖,可抓大部分小說(shuō)網(wǎng)站文章,個(gè)別網(wǎng)站圖書(shū)詳細分類(lèi),支持多書(shū)抓圖;
自帶大量預估網(wǎng)站,沒(méi)有定義規則的用戶(hù)可以直接申請,也可以抓取自己需要的小說(shuō);
內置源代碼瀏覽器,提供鏈接分析、關(guān)鍵定位、標簽分割等工具;
對于大型小說(shuō),任務(wù)暫存到數據庫后,可以隨意中斷和恢復任務(wù);
圖書(shū)提供多種輸出方式:章節文件、獨立文本文件、壓縮包、ePub電子書(shū)等;
支持任務(wù)導入,即從帶有章節頁(yè)面鏈接的文本文件和excel文檔中導入任務(wù)進(jìn)行抓??;
所有組件都支持提示信息,即光標停止后會(huì )顯示相關(guān)提示。大部分操作支持狀態(tài)欄提示,使用更方便;
支持添加、修改、導入、導出、排序和刪除預設網(wǎng)站;
附帶小工具
ePub 電子書(shū)創(chuàng )建和分解工具支持從章節存儲的書(shū)籍中生成ePub 文件,也可以將ePub 文件分解為具有多個(gè)章節的文本文件。
應用界面
主界面
任務(wù)管理
系統設置 + ePub 小部件
解析代碼窗口
抓取網(wǎng)頁(yè)生成電子書(shū)(在線(xiàn)閱讀網(wǎng)站URL的規律編程實(shí)現的關(guān)鍵(圖) )
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 96 次瀏覽 ? 2021-11-19 19:12
)
@1. 你必須知道的常識:
許多網(wǎng)站提供在線(xiàn)閱讀書(shū)籍,但不提供這些書(shū)籍的下載,并且有些頁(yè)面受Javascript保護甚至不允許復制。但是下載這些書(shū)籍并不太難,只需要一個(gè)小程序。
@2.注意在線(xiàn)閱讀網(wǎng)站URL的規則,這是編程的關(guān)鍵:
一個(gè)一個(gè)的把網(wǎng)頁(yè)撿起來(lái)放到txt里,首先要找到網(wǎng)頁(yè)網(wǎng)址的規則。
以本書(shū)為例《成長(cháng)比成功更重要》——新浪閱讀鏈接為:[]
點(diǎn)擊這個(gè)欄目,它的地址是[]
點(diǎn)擊它的第二部分,地址又是[]
......
點(diǎn)擊它的最后一段,地址是[]
很容易驗證它們的地址都是連續的數字,所以很容易通過(guò)編程來(lái)自動(dòng)生成鏈接地址,只需使用一個(gè)遞增的數字來(lái)生成地址。
@3. 下載頁(yè)面的編程實(shí)現:
Python 中有 urllib 包。導入它。有 urllib.open('#39;)。該函數返回一個(gè)文件對象。你只需要用返回的文件對象調用read()方法,它就會(huì )返回一個(gè)字符串
@4. 在得到的頁(yè)面中,按html標簽找到對應的文字內容:
read() 得到的頁(yè)面是一個(gè)字符串。使用這個(gè)字符串的find()方法來(lái)查找對應文本內容從nIdxBeg開(kāi)始到nIdxEnd結束的位置。您可以輕松地使用字符串切片 strContent[nIdxBeg:nIdxEnd] 來(lái)攔截頁(yè)面。你想要的部分
@5. 把你想要截取的部分全部保存到一個(gè)文件中。
@6. 最后寫(xiě)一個(gè)程序讀取前面寫(xiě)的文件,用string函數去掉html標簽,然后把處理過(guò)的html標簽的內容寫(xiě)到另一個(gè)“電子書(shū)成品”文件中:
先寫(xiě)一個(gè)字典(dict),將要替換的字符串寫(xiě)入這個(gè)字典,然后使用for循環(huán),迭代使用str的replace()方法,將字典中對應的每一項放入字典中 替換每一個(gè)記錄的html標簽用對應的字符串,寫(xiě)在“完成的文件”——另一個(gè)txt中,就大功告成了。
將代碼貼在這里以供參考。如果稍微修改變量值,您可以將其他頁(yè)面作為電子書(shū)下載:
-------------------------------------------------- -------------------------------------------------- --------------
makeBook.py 下載頁(yè)面并截取需要的部分(title 和文章 內容,分別由getTitle 和getContent 兩個(gè)函數獲?。?,寫(xiě)入文件out.txt。
-------------------------------------------------- -------------------------------------------------- --------------
nBeg = 30970
nEnd = 31082
strPrefix = 'http://vip.book.sina.com.cn/bo ... 39%3B
strSurfix = '.html'
strTitleBeg = """"""
strTitleEnd = """"""
strContentBeg = """"""
strContentEnd = """"""
fout = file('out.txt', 'w')
import urllib
def makeUrl(i):
"""Make the url with a number"""
return strPrefix + str(i) + strSurfix
def getContent(strPage):
nIdxBeg = strPage.find(strContentBeg)
nIdxEnd = strPage.find(strContentEnd, nIdxBeg + len(strContentBeg))
if nIdxBeg == -1 or nIdxEnd == -1:
print 'Content Not Found!'
return ''
elif nIdxBeg > nIdxEnd:
print 'Content begin index larger than end index.'
return ''
else:
return strPage[nIdxBeg + len(strContentBeg): nIdxEnd]
def getTitle(strPage):
nIdxBeg = strPage.find(strTitleBeg)
nIdxEnd = strPage.find(strTitleEnd, nIdxBeg + len(strTitleBeg))
if nIdxBeg == -1 or nIdxEnd == -1:
print 'Title Not Found!'
return ''
elif nIdxBeg > nIdxEnd:
print 'Title begin index larger than end index.'
return ''
else:
return strPage[nIdxBeg + len(strTitleBeg): nIdxEnd]
def processPage(strPage):
fout.write(getTitle(strPage))
fout.write('\n\n')
fout.write(getContent(strPage))
fout.write('\n- - - - - - - - - - - - - - - - - - - - - - - - - - -\n\n')
def writeBook():
for i in range(nBeg, nEnd):
print 'Downloading file ' + str(i)
strUrl = makeUrl(i)
nRetry = 3
strPage = ''
while nRetry:
try:
strPage = urllib.urlopen(strUrl).read()
break
except:
nRetry -= 1
continue
if not nRetry:
print 'Failed downloading file ' + str(i)
fout.write('\n\n/#####' + str(i) + '#####\\\\\\n\n')
else:
processPage(strPage)
if __name__ == '__main__':
writeBook()
fout.close()
-------------------------------------------------- -------------------------------------------------- --------------
formatTxt.py 處理前面生成的“out.txt”文件中的html標簽,然后將格式化的內容寫(xiě)入“formated.txt”
-------------------------------------------------- -------------------------------------------------- --------------
matRep = {'<p>':' ? ?', '':'\n\n'}
def formatTxt(strContent):
?? ?for i in matRep:
?? ? ? ?strContent = strContent.replace(i, matRep[i])
?? ?return strContent
if __name__ == '__main__':
?? ?strContent = file('out.txt', 'r').read()
?? ?file('formated.txt', 'w').write(formatTxt(strContent))
</p> 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(在線(xiàn)閱讀網(wǎng)站URL的規律編程實(shí)現的關(guān)鍵(圖)
)
@1. 你必須知道的常識:
許多網(wǎng)站提供在線(xiàn)閱讀書(shū)籍,但不提供這些書(shū)籍的下載,并且有些頁(yè)面受Javascript保護甚至不允許復制。但是下載這些書(shū)籍并不太難,只需要一個(gè)小程序。
@2.注意在線(xiàn)閱讀網(wǎng)站URL的規則,這是編程的關(guān)鍵:
一個(gè)一個(gè)的把網(wǎng)頁(yè)撿起來(lái)放到txt里,首先要找到網(wǎng)頁(yè)網(wǎng)址的規則。
以本書(shū)為例《成長(cháng)比成功更重要》——新浪閱讀鏈接為:[]
點(diǎn)擊這個(gè)欄目,它的地址是[]
點(diǎn)擊它的第二部分,地址又是[]
......
點(diǎn)擊它的最后一段,地址是[]
很容易驗證它們的地址都是連續的數字,所以很容易通過(guò)編程來(lái)自動(dòng)生成鏈接地址,只需使用一個(gè)遞增的數字來(lái)生成地址。
@3. 下載頁(yè)面的編程實(shí)現:
Python 中有 urllib 包。導入它。有 urllib.open('#39;)。該函數返回一個(gè)文件對象。你只需要用返回的文件對象調用read()方法,它就會(huì )返回一個(gè)字符串
@4. 在得到的頁(yè)面中,按html標簽找到對應的文字內容:
read() 得到的頁(yè)面是一個(gè)字符串。使用這個(gè)字符串的find()方法來(lái)查找對應文本內容從nIdxBeg開(kāi)始到nIdxEnd結束的位置。您可以輕松地使用字符串切片 strContent[nIdxBeg:nIdxEnd] 來(lái)攔截頁(yè)面。你想要的部分
@5. 把你想要截取的部分全部保存到一個(gè)文件中。
@6. 最后寫(xiě)一個(gè)程序讀取前面寫(xiě)的文件,用string函數去掉html標簽,然后把處理過(guò)的html標簽的內容寫(xiě)到另一個(gè)“電子書(shū)成品”文件中:
先寫(xiě)一個(gè)字典(dict),將要替換的字符串寫(xiě)入這個(gè)字典,然后使用for循環(huán),迭代使用str的replace()方法,將字典中對應的每一項放入字典中 替換每一個(gè)記錄的html標簽用對應的字符串,寫(xiě)在“完成的文件”——另一個(gè)txt中,就大功告成了。
將代碼貼在這里以供參考。如果稍微修改變量值,您可以將其他頁(yè)面作為電子書(shū)下載:
-------------------------------------------------- -------------------------------------------------- --------------
makeBook.py 下載頁(yè)面并截取需要的部分(title 和文章 內容,分別由getTitle 和getContent 兩個(gè)函數獲?。?,寫(xiě)入文件out.txt。
-------------------------------------------------- -------------------------------------------------- --------------
nBeg = 30970
nEnd = 31082
strPrefix = 'http://vip.book.sina.com.cn/bo ... 39%3B
strSurfix = '.html'
strTitleBeg = """"""
strTitleEnd = """"""
strContentBeg = """"""
strContentEnd = """"""
fout = file('out.txt', 'w')
import urllib
def makeUrl(i):
"""Make the url with a number"""
return strPrefix + str(i) + strSurfix
def getContent(strPage):
nIdxBeg = strPage.find(strContentBeg)
nIdxEnd = strPage.find(strContentEnd, nIdxBeg + len(strContentBeg))
if nIdxBeg == -1 or nIdxEnd == -1:
print 'Content Not Found!'
return ''
elif nIdxBeg > nIdxEnd:
print 'Content begin index larger than end index.'
return ''
else:
return strPage[nIdxBeg + len(strContentBeg): nIdxEnd]
def getTitle(strPage):
nIdxBeg = strPage.find(strTitleBeg)
nIdxEnd = strPage.find(strTitleEnd, nIdxBeg + len(strTitleBeg))
if nIdxBeg == -1 or nIdxEnd == -1:
print 'Title Not Found!'
return ''
elif nIdxBeg > nIdxEnd:
print 'Title begin index larger than end index.'
return ''
else:
return strPage[nIdxBeg + len(strTitleBeg): nIdxEnd]
def processPage(strPage):
fout.write(getTitle(strPage))
fout.write('\n\n')
fout.write(getContent(strPage))
fout.write('\n- - - - - - - - - - - - - - - - - - - - - - - - - - -\n\n')
def writeBook():
for i in range(nBeg, nEnd):
print 'Downloading file ' + str(i)
strUrl = makeUrl(i)
nRetry = 3
strPage = ''
while nRetry:
try:
strPage = urllib.urlopen(strUrl).read()
break
except:
nRetry -= 1
continue
if not nRetry:
print 'Failed downloading file ' + str(i)
fout.write('\n\n/#####' + str(i) + '#####\\\\\\n\n')
else:
processPage(strPage)
if __name__ == '__main__':
writeBook()
fout.close()
-------------------------------------------------- -------------------------------------------------- --------------
formatTxt.py 處理前面生成的“out.txt”文件中的html標簽,然后將格式化的內容寫(xiě)入“formated.txt”
-------------------------------------------------- -------------------------------------------------- --------------
matRep = {'<p>':' ? ?', '':'\n\n'}
def formatTxt(strContent):
?? ?for i in matRep:
?? ? ? ?strContent = strContent.replace(i, matRep[i])
?? ?return strContent
if __name__ == '__main__':
?? ?strContent = file('out.txt', 'r').read()
?? ?file('formated.txt', 'w').write(formatTxt(strContent))
</p>
抓取網(wǎng)頁(yè)生成電子書(shū)(怎么從網(wǎng)頁(yè)抓取數據?利用完結小說(shuō)免費下載全本軟件)
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 143 次瀏覽 ? 2021-11-19 19:11
如何從網(wǎng)頁(yè)中抓取數據?使用完成的小說(shuō)免費下載整個(gè)軟件,您可以一次免費閱讀整部小說(shuō)?,F在推薦一款免費的全txt小說(shuō)電子書(shū)下載軟件,使用網(wǎng)絡(luò )圖書(shū)抓取器,支持TXT全免費小說(shuō)下載,用戶(hù)可以使用網(wǎng)絡(luò )小說(shuō)抓取器,抓取網(wǎng)絡(luò )小說(shuō),快速下載整個(gè)TXT電子書(shū),最熱軟件站提供了網(wǎng)絡(luò )圖書(shū)抓取器的下載地址,需要免費小說(shuō)全書(shū)下載器的朋友快來(lái)下載吧。, 體驗簡(jiǎn)單易用的網(wǎng)頁(yè)數據抓取工具,感受小說(shuō)下載器的便捷功能。
網(wǎng)絡(luò )圖書(shū)爬蟲(chóng)簡(jiǎn)介
網(wǎng)絡(luò )圖書(shū)抓取器是一款網(wǎng)絡(luò )小說(shuō)下載軟件,可以幫助用戶(hù)下載指定網(wǎng)頁(yè)的某本書(shū)和某章節。軟件功能強大,可以提取小說(shuō)目錄信息,根據目錄下載小說(shuō),然后合并,方便下載閱讀后,支持斷點(diǎn)續傳功能。如果網(wǎng)絡(luò )問(wèn)題或其他問(wèn)題導致小說(shuō)章節下載中斷,您可以點(diǎn)擊繼續下載,無(wú)需重新下載,然后繼續下載上次下載的內容。下載完成后,您可以使用電腦小說(shuō)閱讀器閱讀整部小說(shuō)。
軟件功能
1、 章節調整:提取目錄后,可以進(jìn)行移動(dòng)、刪除、倒序等調整操作。調整會(huì )直接影響最終的書(shū)籍,也會(huì )以調整后的章節順序輸出。
2、自動(dòng)重試:在爬取過(guò)程中,由于網(wǎng)絡(luò )因素,可能會(huì )出現爬取失敗的情況。程序可能會(huì )自動(dòng)重試直到成功,也可以暫時(shí)中斷爬?。ㄖ袛嗪箨P(guān)閉程序不影響進(jìn)度),等網(wǎng)絡(luò )好了再試。
3、停止和恢復:抓取過(guò)程可以隨時(shí)停止,退出程序后不影響進(jìn)度(章節信息會(huì )保存在記錄中,運行程序后可以恢復抓取下一次。注意:您需要先使用停止按鈕中斷然后退出程序,如果直接退出,將不會(huì )恢復)。
4、 一鍵抓?。河址Q(chēng)“啞模式”,基本可以實(shí)現自動(dòng)抓取合并功能,直接輸出最終的文本文件。前面可能需要輸入最基本的網(wǎng)址、保存位置等信息(會(huì )有明顯的操作提示),調整章節后也可以使用一鍵抓取,抓取合并操作會(huì )自動(dòng)完成.
5、適用網(wǎng)站:已輸入10個(gè)適用網(wǎng)站(選擇后可以快速打開(kāi)網(wǎng)站找到您需要的書(shū)),并自動(dòng)應用相應的代碼, 也可以測試其他小說(shuō)網(wǎng)站,如果一起使用,可以手動(dòng)添加到設置文件中以備后用。
6、 制作電子書(shū)方便:可以在設置文件中添加每個(gè)章節名稱(chēng)的前綴和后綴,為后期制作電子書(shū)的目錄帶來(lái)極大的方便。
軟件特點(diǎn)
1、 支持多種小說(shuō)平臺的小說(shuō)爬取。
2、支持多種文字編碼方式,避免文字亂碼。
3、 一鍵提取查看小說(shuō)所有目錄。
4、 支持調整小說(shuō)章節位置,可上下移動(dòng)。
5、 支持在線(xiàn)查看章節內容,避免提取錯誤章節。
6、 當抓取失敗時(shí),支持手動(dòng)或自動(dòng)重新抓取。
7、 獲取的小說(shuō)會(huì )以一章一文的形式保存。
8、 可以一鍵將所有章節合并為一個(gè)文本,方便保存。
軟件優(yōu)勢
非常實(shí)用的網(wǎng)絡(luò )小說(shuō)抓取軟件,用戶(hù)可以快速提取文檔上十多部小說(shuō)網(wǎng)站的小說(shuō)章節和內容,并保存到本地
這個(gè)爬蟲(chóng)工具功能齊全,非常友好。為用戶(hù)貼心配置了4種文本編碼器,防止用戶(hù)提取小說(shuō)時(shí)出現亂碼,并可一鍵將提取的文件合并為一個(gè)文檔
本軟件使用方便,運行流暢,爬行錯誤率極低。如果您是小說(shuō)愛(ài)好者,強烈建議您使用本軟件進(jìn)行小說(shuō)抓取。
如何使用網(wǎng)絡(luò )圖書(shū)抓取器
1. 網(wǎng)絡(luò )小說(shuō)下載軟件下載解壓后雙擊即可使用。第一次運行會(huì )自動(dòng)生成一個(gè)設置文件。用戶(hù)可以手動(dòng)調整文件,打開(kāi)軟件,使用軟件的小說(shuō)下載功能,
2.首先進(jìn)入要下載小說(shuō)的網(wǎng)頁(yè),輸入書(shū)名,點(diǎn)擊目錄解壓,解壓目錄后可以移動(dòng)、刪除、倒序等調整操作,設置保存路徑,點(diǎn)擊開(kāi)始爬行開(kāi)始下載。
3.可以提取指定小說(shuō)目錄頁(yè)的章節信息并進(jìn)行調整,然后按照章節順序抓取小說(shuō)內容,然后合并。抓取過(guò)程可以隨時(shí)中斷,關(guān)閉程序后可以繼續上一個(gè)任務(wù)。
4.在設置文件中添加每個(gè)章節名稱(chēng)的前綴和后綴,為后期制作電子書(shū)的目錄編排帶來(lái)極大的方便。已輸入 10 個(gè)適用的 網(wǎng)站。選擇后,您可以快速打開(kāi)網(wǎng)站 找到您需要的書(shū),并自動(dòng)應用相應的代碼。
更新日志 (2020.09.05)
您可以提取指定小說(shuō)目錄頁(yè)的章節信息并進(jìn)行調整,然后按照章節順序抓取小說(shuō)內容,然后以最合適的方式進(jìn)行合并。
爬取過(guò)程可以隨時(shí)中斷,關(guān)閉程序后可以繼續上一個(gè)任務(wù)。
小編推薦
以上就是免費版在線(xiàn)搶書(shū)的完整介紹。最熱的軟件網(wǎng)站有更多類(lèi)似的小說(shuō)下載軟件。有需要的朋友快來(lái)下載體驗吧。這里有另外兩個(gè)有用的小說(shuō)下載軟件。:網(wǎng)絡(luò )抓?。ňW(wǎng)絡(luò )抓取工具),微調小說(shuō)下載器。 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(怎么從網(wǎng)頁(yè)抓取數據?利用完結小說(shuō)免費下載全本軟件)
如何從網(wǎng)頁(yè)中抓取數據?使用完成的小說(shuō)免費下載整個(gè)軟件,您可以一次免費閱讀整部小說(shuō)?,F在推薦一款免費的全txt小說(shuō)電子書(shū)下載軟件,使用網(wǎng)絡(luò )圖書(shū)抓取器,支持TXT全免費小說(shuō)下載,用戶(hù)可以使用網(wǎng)絡(luò )小說(shuō)抓取器,抓取網(wǎng)絡(luò )小說(shuō),快速下載整個(gè)TXT電子書(shū),最熱軟件站提供了網(wǎng)絡(luò )圖書(shū)抓取器的下載地址,需要免費小說(shuō)全書(shū)下載器的朋友快來(lái)下載吧。, 體驗簡(jiǎn)單易用的網(wǎng)頁(yè)數據抓取工具,感受小說(shuō)下載器的便捷功能。

網(wǎng)絡(luò )圖書(shū)爬蟲(chóng)簡(jiǎn)介
網(wǎng)絡(luò )圖書(shū)抓取器是一款網(wǎng)絡(luò )小說(shuō)下載軟件,可以幫助用戶(hù)下載指定網(wǎng)頁(yè)的某本書(shū)和某章節。軟件功能強大,可以提取小說(shuō)目錄信息,根據目錄下載小說(shuō),然后合并,方便下載閱讀后,支持斷點(diǎn)續傳功能。如果網(wǎng)絡(luò )問(wèn)題或其他問(wèn)題導致小說(shuō)章節下載中斷,您可以點(diǎn)擊繼續下載,無(wú)需重新下載,然后繼續下載上次下載的內容。下載完成后,您可以使用電腦小說(shuō)閱讀器閱讀整部小說(shuō)。
軟件功能
1、 章節調整:提取目錄后,可以進(jìn)行移動(dòng)、刪除、倒序等調整操作。調整會(huì )直接影響最終的書(shū)籍,也會(huì )以調整后的章節順序輸出。
2、自動(dòng)重試:在爬取過(guò)程中,由于網(wǎng)絡(luò )因素,可能會(huì )出現爬取失敗的情況。程序可能會(huì )自動(dòng)重試直到成功,也可以暫時(shí)中斷爬?。ㄖ袛嗪箨P(guān)閉程序不影響進(jìn)度),等網(wǎng)絡(luò )好了再試。
3、停止和恢復:抓取過(guò)程可以隨時(shí)停止,退出程序后不影響進(jìn)度(章節信息會(huì )保存在記錄中,運行程序后可以恢復抓取下一次。注意:您需要先使用停止按鈕中斷然后退出程序,如果直接退出,將不會(huì )恢復)。
4、 一鍵抓?。河址Q(chēng)“啞模式”,基本可以實(shí)現自動(dòng)抓取合并功能,直接輸出最終的文本文件。前面可能需要輸入最基本的網(wǎng)址、保存位置等信息(會(huì )有明顯的操作提示),調整章節后也可以使用一鍵抓取,抓取合并操作會(huì )自動(dòng)完成.
5、適用網(wǎng)站:已輸入10個(gè)適用網(wǎng)站(選擇后可以快速打開(kāi)網(wǎng)站找到您需要的書(shū)),并自動(dòng)應用相應的代碼, 也可以測試其他小說(shuō)網(wǎng)站,如果一起使用,可以手動(dòng)添加到設置文件中以備后用。
6、 制作電子書(shū)方便:可以在設置文件中添加每個(gè)章節名稱(chēng)的前綴和后綴,為后期制作電子書(shū)的目錄帶來(lái)極大的方便。
軟件特點(diǎn)
1、 支持多種小說(shuō)平臺的小說(shuō)爬取。
2、支持多種文字編碼方式,避免文字亂碼。
3、 一鍵提取查看小說(shuō)所有目錄。
4、 支持調整小說(shuō)章節位置,可上下移動(dòng)。
5、 支持在線(xiàn)查看章節內容,避免提取錯誤章節。
6、 當抓取失敗時(shí),支持手動(dòng)或自動(dòng)重新抓取。
7、 獲取的小說(shuō)會(huì )以一章一文的形式保存。
8、 可以一鍵將所有章節合并為一個(gè)文本,方便保存。
軟件優(yōu)勢
非常實(shí)用的網(wǎng)絡(luò )小說(shuō)抓取軟件,用戶(hù)可以快速提取文檔上十多部小說(shuō)網(wǎng)站的小說(shuō)章節和內容,并保存到本地
這個(gè)爬蟲(chóng)工具功能齊全,非常友好。為用戶(hù)貼心配置了4種文本編碼器,防止用戶(hù)提取小說(shuō)時(shí)出現亂碼,并可一鍵將提取的文件合并為一個(gè)文檔
本軟件使用方便,運行流暢,爬行錯誤率極低。如果您是小說(shuō)愛(ài)好者,強烈建議您使用本軟件進(jìn)行小說(shuō)抓取。
如何使用網(wǎng)絡(luò )圖書(shū)抓取器
1. 網(wǎng)絡(luò )小說(shuō)下載軟件下載解壓后雙擊即可使用。第一次運行會(huì )自動(dòng)生成一個(gè)設置文件。用戶(hù)可以手動(dòng)調整文件,打開(kāi)軟件,使用軟件的小說(shuō)下載功能,
2.首先進(jìn)入要下載小說(shuō)的網(wǎng)頁(yè),輸入書(shū)名,點(diǎn)擊目錄解壓,解壓目錄后可以移動(dòng)、刪除、倒序等調整操作,設置保存路徑,點(diǎn)擊開(kāi)始爬行開(kāi)始下載。
3.可以提取指定小說(shuō)目錄頁(yè)的章節信息并進(jìn)行調整,然后按照章節順序抓取小說(shuō)內容,然后合并。抓取過(guò)程可以隨時(shí)中斷,關(guān)閉程序后可以繼續上一個(gè)任務(wù)。
4.在設置文件中添加每個(gè)章節名稱(chēng)的前綴和后綴,為后期制作電子書(shū)的目錄編排帶來(lái)極大的方便。已輸入 10 個(gè)適用的 網(wǎng)站。選擇后,您可以快速打開(kāi)網(wǎng)站 找到您需要的書(shū),并自動(dòng)應用相應的代碼。
更新日志 (2020.09.05)
您可以提取指定小說(shuō)目錄頁(yè)的章節信息并進(jìn)行調整,然后按照章節順序抓取小說(shuō)內容,然后以最合適的方式進(jìn)行合并。
爬取過(guò)程可以隨時(shí)中斷,關(guān)閉程序后可以繼續上一個(gè)任務(wù)。
小編推薦
以上就是免費版在線(xiàn)搶書(shū)的完整介紹。最熱的軟件網(wǎng)站有更多類(lèi)似的小說(shuō)下載軟件。有需要的朋友快來(lái)下載體驗吧。這里有另外兩個(gè)有用的小說(shuō)下載軟件。:網(wǎng)絡(luò )抓?。ňW(wǎng)絡(luò )抓取工具),微調小說(shuō)下載器。
抓取網(wǎng)頁(yè)生成電子書(shū)(百度爬蟲(chóng)爬蟲(chóng)程序->電子書(shū)抓取頁(yè)面的信息方法)
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 73 次瀏覽 ? 2021-11-19 15:00
抓取網(wǎng)頁(yè)生成電子書(shū),
我知道如何抓取h5頁(yè)面的信息。進(jìn)入"云處方"微信公眾號,搜索"云處方"小程序,點(diǎn)擊后進(jìn)入個(gè)人中心,按照頁(yè)面提示操作即可。
現在如果想要爬取這個(gè)頁(yè)面,
抓取的方法有很多,我這邊給你推薦一個(gè)通用的方法。先打開(kāi)百度爬蟲(chóng)工具箱,然后點(diǎn)擊網(wǎng)頁(yè)抓取->爬蟲(chóng)程序->電子書(shū)抓取點(diǎn)擊開(kāi)始后會(huì )彈出一個(gè)窗口,你可以將你需要抓取頁(yè)面的路徑復制下來(lái)。然后電子書(shū)頁(yè)面生成了,可以抓取到電子書(shū)的內容,因為都是編碼轉換的,所以保存后的會(huì )很亂。
github-ghlink6677/mybrainhole:youku電子書(shū)抓取工具:-documentary-scraping
菜鳥(niǎo)教程
讀取對應的pdf,文字和圖片分別存儲一份,對應電子書(shū)名查找最近爬取的sitemap就行了。
現在各種網(wǎng)站都會(huì )分享自己站內電子書(shū),作者給出鏈接,
速度是首要問(wèn)題。高清無(wú)水印電子書(shū)是首要條件。
方法一百度requests。查看pdf中的電子書(shū)pdf里面的地址,爬取后存到wordpress就行了?;蛘遖jax直接下載。方法二通過(guò)瀏覽器直接抓取,雖然相對麻煩,但速度快,pdf重新編輯等。
這款在線(xiàn)電子書(shū)下載工具, 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(百度爬蟲(chóng)爬蟲(chóng)程序->電子書(shū)抓取頁(yè)面的信息方法)
抓取網(wǎng)頁(yè)生成電子書(shū),
我知道如何抓取h5頁(yè)面的信息。進(jìn)入"云處方"微信公眾號,搜索"云處方"小程序,點(diǎn)擊后進(jìn)入個(gè)人中心,按照頁(yè)面提示操作即可。
現在如果想要爬取這個(gè)頁(yè)面,
抓取的方法有很多,我這邊給你推薦一個(gè)通用的方法。先打開(kāi)百度爬蟲(chóng)工具箱,然后點(diǎn)擊網(wǎng)頁(yè)抓取->爬蟲(chóng)程序->電子書(shū)抓取點(diǎn)擊開(kāi)始后會(huì )彈出一個(gè)窗口,你可以將你需要抓取頁(yè)面的路徑復制下來(lái)。然后電子書(shū)頁(yè)面生成了,可以抓取到電子書(shū)的內容,因為都是編碼轉換的,所以保存后的會(huì )很亂。
github-ghlink6677/mybrainhole:youku電子書(shū)抓取工具:-documentary-scraping
菜鳥(niǎo)教程
讀取對應的pdf,文字和圖片分別存儲一份,對應電子書(shū)名查找最近爬取的sitemap就行了。
現在各種網(wǎng)站都會(huì )分享自己站內電子書(shū),作者給出鏈接,
速度是首要問(wèn)題。高清無(wú)水印電子書(shū)是首要條件。
方法一百度requests。查看pdf中的電子書(shū)pdf里面的地址,爬取后存到wordpress就行了?;蛘遖jax直接下載。方法二通過(guò)瀏覽器直接抓取,雖然相對麻煩,但速度快,pdf重新編輯等。
這款在線(xiàn)電子書(shū)下載工具,
抓取網(wǎng)頁(yè)生成電子書(shū)(如何將網(wǎng)頁(yè)文章批量抓取、生成電子書(shū)、直接推送到Kindle)
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 165 次瀏覽 ? 2021-11-19 01:18
很長(cháng)一段時(shí)間,我一直在研究如何將我關(guān)注的網(wǎng)頁(yè)或文章安裝到Kindle中進(jìn)行認真閱讀,但很長(cháng)一段時(shí)間都沒(méi)有真正的進(jìn)展。手動(dòng)格式化書(shū)籍制作電子書(shū)的方法雖然簡(jiǎn)單易行,但對于短小且更新頻繁的網(wǎng)頁(yè)文章來(lái)說(shuō)效率低下。如果有工具可以批量抓取網(wǎng)頁(yè)文章,生成電子書(shū),直接推送到Kindle上就好了。Doocer 是一個(gè)非常有用的工具。
Doocer 是由@lepture 開(kāi)發(fā)的在線(xiàn)服務(wù)。它允許用戶(hù)在 Pocket 的后期閱讀帳戶(hù)中提交 URL、RSS 提要地址和 文章,然后將它們一一或批量制作成 ePub、MOBI 電子書(shū)。您可以直接在 Doocer 中閱讀所有 文章,也可以將它們推送到 Kindle 和 Apple Books 閱讀。
閱讀體驗真的很好
由 Doocer 生成的電子書(shū)格式良好且引人注目。應該收錄的內容很多,不應該收錄的內容并不多。本書(shū)不僅封面有圖文,還收錄文章目錄、網(wǎng)站出處、文章原作者等信息。Doocer生成的MOBI電子書(shū)支持KF8標準,因此支持Kindle原生替換自定義字體。
由于網(wǎng)站文章通常都有標準和通用的排版規范,所以Doocer生成的電子書(shū)文章中的大小、標題和列表圖例與原創(chuàng )網(wǎng)頁(yè)高度一致文章。原文章中的超鏈接也全部保留,評論信息、廣告等內容全部丟棄。全書(shū)的閱讀體驗非常友好。(當然,如果原網(wǎng)頁(yè)文章的布局亂了,得到的電子書(shū)也可能完全不一樣。)
將網(wǎng)頁(yè)文章制作成電子書(shū)
Doocer完成注冊登錄后,就可以開(kāi)始將文章網(wǎng)頁(yè)制作成電子書(shū)了。首先,我們點(diǎn)擊“NEW BOOK”按鈕新建電子書(shū),輸入電子書(shū)書(shū)名。然后選擇右上角的“添加”,添加文章 URL 或RSS feed 地址。
以小眾網(wǎng)頁(yè)的文章為例,我們選擇“FEED”,在輸入框中粘貼RSS地址,然后點(diǎn)擊“PARSE”,就會(huì )出現小眾文章的近期列表顯示給我們添加到。我們可以根據需要選擇,也可以點(diǎn)擊“全選”來(lái)全選文章。最后,下拉到頁(yè)面底部,選擇“SAVE”,這些文章就會(huì )被添加到書(shū)中。
實(shí)際上,Doocer 網(wǎng)頁(yè)與 RSS 工具非常相似。實(shí)現了從網(wǎng)站批量抓取文章并集中展示的功能。
要將這些文章轉換成電子書(shū)并推送到Kindle,我們需要進(jìn)行一些簡(jiǎn)單的操作。
首先,根據Doocer個(gè)人設置頁(yè)面的提示,我們打開(kāi)它,在個(gè)人文檔接收地址中添加Doocer電子書(shū)的發(fā)送地址。完成后,我們再在輸入框中填寫(xiě)Kindle的個(gè)人文檔接收地址,點(diǎn)擊保存。
最后,我們在Doocer中打開(kāi)《少數派》這本書(shū),在頁(yè)面上找到“發(fā)布”,選擇發(fā)送到Kindle。大約10-30分鐘,Doocer就會(huì )完成圖書(shū)制作并將圖書(shū)推送到Kindle上。
還有一些問(wèn)題需要注意
Doocer目前處于Beta測試階段,還存在一些bug,尤其是中文網(wǎng)站經(jīng)常出現問(wèn)題。好在Doocer官網(wǎng)有開(kāi)發(fā)者對話(huà)頻道,你可以直接聯(lián)系他幫忙解決。
實(shí)現所有操作的自動(dòng)化流程是我認為Doocer最需要努力的方向。Doocer 可以像RSS 工具一樣抓取網(wǎng)頁(yè)中更新的文章,但仍然需要手動(dòng)執行文章 的新抓取并生成電子書(shū)和推送。如果整個(gè)過(guò)程都可以自動(dòng)化,RSS-MOBI-Kindle就可以一口氣搞定,相信實(shí)用性會(huì )更高。
目前,Doocer 的所有功能都可以免費使用。 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(如何將網(wǎng)頁(yè)文章批量抓取、生成電子書(shū)、直接推送到Kindle)
很長(cháng)一段時(shí)間,我一直在研究如何將我關(guān)注的網(wǎng)頁(yè)或文章安裝到Kindle中進(jìn)行認真閱讀,但很長(cháng)一段時(shí)間都沒(méi)有真正的進(jìn)展。手動(dòng)格式化書(shū)籍制作電子書(shū)的方法雖然簡(jiǎn)單易行,但對于短小且更新頻繁的網(wǎng)頁(yè)文章來(lái)說(shuō)效率低下。如果有工具可以批量抓取網(wǎng)頁(yè)文章,生成電子書(shū),直接推送到Kindle上就好了。Doocer 是一個(gè)非常有用的工具。
Doocer 是由@lepture 開(kāi)發(fā)的在線(xiàn)服務(wù)。它允許用戶(hù)在 Pocket 的后期閱讀帳戶(hù)中提交 URL、RSS 提要地址和 文章,然后將它們一一或批量制作成 ePub、MOBI 電子書(shū)。您可以直接在 Doocer 中閱讀所有 文章,也可以將它們推送到 Kindle 和 Apple Books 閱讀。

閱讀體驗真的很好
由 Doocer 生成的電子書(shū)格式良好且引人注目。應該收錄的內容很多,不應該收錄的內容并不多。本書(shū)不僅封面有圖文,還收錄文章目錄、網(wǎng)站出處、文章原作者等信息。Doocer生成的MOBI電子書(shū)支持KF8標準,因此支持Kindle原生替換自定義字體。
由于網(wǎng)站文章通常都有標準和通用的排版規范,所以Doocer生成的電子書(shū)文章中的大小、標題和列表圖例與原創(chuàng )網(wǎng)頁(yè)高度一致文章。原文章中的超鏈接也全部保留,評論信息、廣告等內容全部丟棄。全書(shū)的閱讀體驗非常友好。(當然,如果原網(wǎng)頁(yè)文章的布局亂了,得到的電子書(shū)也可能完全不一樣。)

將網(wǎng)頁(yè)文章制作成電子書(shū)
Doocer完成注冊登錄后,就可以開(kāi)始將文章網(wǎng)頁(yè)制作成電子書(shū)了。首先,我們點(diǎn)擊“NEW BOOK”按鈕新建電子書(shū),輸入電子書(shū)書(shū)名。然后選擇右上角的“添加”,添加文章 URL 或RSS feed 地址。

以小眾網(wǎng)頁(yè)的文章為例,我們選擇“FEED”,在輸入框中粘貼RSS地址,然后點(diǎn)擊“PARSE”,就會(huì )出現小眾文章的近期列表顯示給我們添加到。我們可以根據需要選擇,也可以點(diǎn)擊“全選”來(lái)全選文章。最后,下拉到頁(yè)面底部,選擇“SAVE”,這些文章就會(huì )被添加到書(shū)中。

實(shí)際上,Doocer 網(wǎng)頁(yè)與 RSS 工具非常相似。實(shí)現了從網(wǎng)站批量抓取文章并集中展示的功能。

要將這些文章轉換成電子書(shū)并推送到Kindle,我們需要進(jìn)行一些簡(jiǎn)單的操作。
首先,根據Doocer個(gè)人設置頁(yè)面的提示,我們打開(kāi)它,在個(gè)人文檔接收地址中添加Doocer電子書(shū)的發(fā)送地址。完成后,我們再在輸入框中填寫(xiě)Kindle的個(gè)人文檔接收地址,點(diǎn)擊保存。

最后,我們在Doocer中打開(kāi)《少數派》這本書(shū),在頁(yè)面上找到“發(fā)布”,選擇發(fā)送到Kindle。大約10-30分鐘,Doocer就會(huì )完成圖書(shū)制作并將圖書(shū)推送到Kindle上。

還有一些問(wèn)題需要注意
Doocer目前處于Beta測試階段,還存在一些bug,尤其是中文網(wǎng)站經(jīng)常出現問(wèn)題。好在Doocer官網(wǎng)有開(kāi)發(fā)者對話(huà)頻道,你可以直接聯(lián)系他幫忙解決。
實(shí)現所有操作的自動(dòng)化流程是我認為Doocer最需要努力的方向。Doocer 可以像RSS 工具一樣抓取網(wǎng)頁(yè)中更新的文章,但仍然需要手動(dòng)執行文章 的新抓取并生成電子書(shū)和推送。如果整個(gè)過(guò)程都可以自動(dòng)化,RSS-MOBI-Kindle就可以一口氣搞定,相信實(shí)用性會(huì )更高。
目前,Doocer 的所有功能都可以免費使用。
抓取網(wǎng)頁(yè)生成電子書(shū)(主流電子書(shū)格式大家最為熟知的電子書(shū)熟知格式(圖))
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 88 次瀏覽 ? 2021-11-15 20:00
編者按(@Minja):在寫(xiě)文章的時(shí)候,經(jīng)常需要引用和回溯。對各種存檔和切割工具的不滿(mǎn),讓我萌生了自己制作電子書(shū)的念頭。恰巧@Spencerwoo在這方面有扎實(shí)的折騰能力,于是干掉他,一起研究了一套簡(jiǎn)單易行的方法,寫(xiě)成文章分享給大家。
雖然網(wǎng)絡(luò )世界中有很多有價(jià)值的文章,但并不是每一次閱讀體驗都令人滿(mǎn)意。如果你想擁有出色的文章閱讀體驗,至少要確保我們正在閱讀文章:
很多時(shí)候,我們依靠瀏覽器的閱讀方式,或者Pocket和RSS客戶(hù)端來(lái)閱讀。但是,稍后無(wú)法對閱讀模式進(jìn)行排序。大多數閱讀服務(wù)的全文搜索功能需要付費,網(wǎng)上的文章可能哪天都搜不到?;蛟S,將文章以電子書(shū)的形式保存在本地是一個(gè)更方便的回顧方式。
如果我們在網(wǎng)上看到一個(gè)網(wǎng)頁(yè)形式的電子書(shū),想把整個(gè)網(wǎng)頁(yè)直接保存在本地(俗稱(chēng)“剪藏”),那會(huì )很麻煩?,F有的網(wǎng)絡(luò )剪輯工具不僅可能夾帶無(wú)用的、影響體驗的廣告和其他冗余區域,而且還可能丟失重要和有價(jià)值的內容。不僅如此,幾乎沒(méi)有文章這樣的工具可以輕松抓取圖片并保存到本地。那么,讓我向您介紹一套免費制作個(gè)性化電子書(shū)的方法。
本文主要使用開(kāi)源工具Pandoc。對于需要MOBI或PDF格式電子書(shū)的讀者,文章后半部分也有簡(jiǎn)單的轉換方法。
以ePub電子書(shū)為突破口
主流的電子書(shū)格式有很多,但本文主要推薦ePub,它相對開(kāi)放通用,可以方便地轉換為其他格式。
主流電子書(shū)格式
最廣為人知的電子書(shū)格式可能是純文本TXT格式,但TXT之所以被稱(chēng)為“純文本”,是因為它不支持章節、圖片、封面和超鏈接。為了讓電子書(shū)有格式、有圖片、有內容,目前常見(jiàn)的電子書(shū)通常有PDF、ePub、MOBI三種格式。在:
我們文章的主要目的是利用接下來(lái)要介紹的工具,制作一個(gè)清晰美觀(guān)的電子書(shū),內嵌圖片,目錄,美觀(guān)。相對來(lái)說(shuō)ePub更加靈活,目錄和自定義布局一應俱全,另外兩種格式轉換也方便。本文將從它開(kāi)始。
電子書(shū)效果制作 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(主流電子書(shū)格式大家最為熟知的電子書(shū)熟知格式(圖))
編者按(@Minja):在寫(xiě)文章的時(shí)候,經(jīng)常需要引用和回溯。對各種存檔和切割工具的不滿(mǎn),讓我萌生了自己制作電子書(shū)的念頭。恰巧@Spencerwoo在這方面有扎實(shí)的折騰能力,于是干掉他,一起研究了一套簡(jiǎn)單易行的方法,寫(xiě)成文章分享給大家。
雖然網(wǎng)絡(luò )世界中有很多有價(jià)值的文章,但并不是每一次閱讀體驗都令人滿(mǎn)意。如果你想擁有出色的文章閱讀體驗,至少要確保我們正在閱讀文章:
很多時(shí)候,我們依靠瀏覽器的閱讀方式,或者Pocket和RSS客戶(hù)端來(lái)閱讀。但是,稍后無(wú)法對閱讀模式進(jìn)行排序。大多數閱讀服務(wù)的全文搜索功能需要付費,網(wǎng)上的文章可能哪天都搜不到?;蛟S,將文章以電子書(shū)的形式保存在本地是一個(gè)更方便的回顧方式。
如果我們在網(wǎng)上看到一個(gè)網(wǎng)頁(yè)形式的電子書(shū),想把整個(gè)網(wǎng)頁(yè)直接保存在本地(俗稱(chēng)“剪藏”),那會(huì )很麻煩?,F有的網(wǎng)絡(luò )剪輯工具不僅可能夾帶無(wú)用的、影響體驗的廣告和其他冗余區域,而且還可能丟失重要和有價(jià)值的內容。不僅如此,幾乎沒(méi)有文章這樣的工具可以輕松抓取圖片并保存到本地。那么,讓我向您介紹一套免費制作個(gè)性化電子書(shū)的方法。
本文主要使用開(kāi)源工具Pandoc。對于需要MOBI或PDF格式電子書(shū)的讀者,文章后半部分也有簡(jiǎn)單的轉換方法。
以ePub電子書(shū)為突破口
主流的電子書(shū)格式有很多,但本文主要推薦ePub,它相對開(kāi)放通用,可以方便地轉換為其他格式。

主流電子書(shū)格式
最廣為人知的電子書(shū)格式可能是純文本TXT格式,但TXT之所以被稱(chēng)為“純文本”,是因為它不支持章節、圖片、封面和超鏈接。為了讓電子書(shū)有格式、有圖片、有內容,目前常見(jiàn)的電子書(shū)通常有PDF、ePub、MOBI三種格式。在:
我們文章的主要目的是利用接下來(lái)要介紹的工具,制作一個(gè)清晰美觀(guān)的電子書(shū),內嵌圖片,目錄,美觀(guān)。相對來(lái)說(shuō)ePub更加靈活,目錄和自定義布局一應俱全,另外兩種格式轉換也方便。本文將從它開(kāi)始。

電子書(shū)效果制作
抓取網(wǎng)頁(yè)生成電子書(shū)(《網(wǎng)絡(luò )書(shū)籍抓取器》之軟件軟件大小版本說(shuō)明下載 )
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 86 次瀏覽 ? 2021-11-15 17:08
)
網(wǎng)絡(luò )圖書(shū)抓取器主要用于抓取網(wǎng)絡(luò )小說(shuō)生成文本文件。它可以提取和調整指定小說(shuō)目錄頁(yè)面的章節信息,然后按照章節順序抓取小說(shuō)內容,然后進(jìn)行合并。抓取過(guò)程可以隨時(shí)中斷,程序關(guān)閉后可以繼續上一個(gè)任務(wù)。
相關(guān)軟件軟件大小版本說(shuō)明下載地址
網(wǎng)絡(luò )圖書(shū)抓取器主要用于抓取網(wǎng)絡(luò )小說(shuō)生成文本文件。它可以提取和調整指定小說(shuō)目錄頁(yè)面的章節信息,然后按照章節順序抓取小說(shuō)內容,然后進(jìn)行合并。抓取過(guò)程可以隨時(shí)中斷,程序關(guān)閉后可以繼續上一個(gè)任務(wù)。
軟件特點(diǎn)
1、 章節調整:提取目錄后,可以進(jìn)行移動(dòng)、刪除、倒序等調整操作。調整會(huì )直接影響最終的書(shū)籍,也會(huì )以調整后的章節順序輸出。
2、自動(dòng)重試:在爬取過(guò)程中,由于網(wǎng)絡(luò )因素,可能會(huì )出現爬取失敗的情況。程序可能會(huì )自動(dòng)重試直到成功,也可以暫時(shí)中斷爬?。ㄖ袛嗪箨P(guān)閉程序不影響進(jìn)度),等網(wǎng)絡(luò )好后再試。
3、停止和恢復:可以隨時(shí)停止抓取過(guò)程,退出程序后不影響進(jìn)度(章節信息會(huì )保存在記錄中,運行程序后可以恢復抓取下一次。注意:您需要先使用停止按鈕中斷然后退出程序,如果直接退出,將不會(huì )恢復)。
4、 一鍵爬?。河址Q(chēng)“啞模式”,基本可以實(shí)現全自動(dòng)爬取合并功能,直接輸出最終的文本文件。前面可能需要輸入最基本的網(wǎng)址、保存位置等信息(會(huì )有明顯的操作提示),調整章節后也可以一鍵抓取,抓取合并操作會(huì )自動(dòng)完成.
5、適用網(wǎng)站:已收錄10個(gè)適用網(wǎng)站(選擇后可以快速打開(kāi)網(wǎng)站找到您需要的書(shū)),并自動(dòng)應用相應的代碼,也可以測試其他小說(shuō)網(wǎng)站,如果一起使用,可以手動(dòng)添加到設置文件中,以備后用。
6、 制作電子書(shū)方便:可以在設置文件中添加每個(gè)章節名稱(chēng)的前綴和后綴,為后期制作電子書(shū)的目錄帶來(lái)極大的方便。
查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(《網(wǎng)絡(luò )書(shū)籍抓取器》之軟件軟件大小版本說(shuō)明下載
)
網(wǎng)絡(luò )圖書(shū)抓取器主要用于抓取網(wǎng)絡(luò )小說(shuō)生成文本文件。它可以提取和調整指定小說(shuō)目錄頁(yè)面的章節信息,然后按照章節順序抓取小說(shuō)內容,然后進(jìn)行合并。抓取過(guò)程可以隨時(shí)中斷,程序關(guān)閉后可以繼續上一個(gè)任務(wù)。
相關(guān)軟件軟件大小版本說(shuō)明下載地址
網(wǎng)絡(luò )圖書(shū)抓取器主要用于抓取網(wǎng)絡(luò )小說(shuō)生成文本文件。它可以提取和調整指定小說(shuō)目錄頁(yè)面的章節信息,然后按照章節順序抓取小說(shuō)內容,然后進(jìn)行合并。抓取過(guò)程可以隨時(shí)中斷,程序關(guān)閉后可以繼續上一個(gè)任務(wù)。
軟件特點(diǎn)
1、 章節調整:提取目錄后,可以進(jìn)行移動(dòng)、刪除、倒序等調整操作。調整會(huì )直接影響最終的書(shū)籍,也會(huì )以調整后的章節順序輸出。
2、自動(dòng)重試:在爬取過(guò)程中,由于網(wǎng)絡(luò )因素,可能會(huì )出現爬取失敗的情況。程序可能會(huì )自動(dòng)重試直到成功,也可以暫時(shí)中斷爬?。ㄖ袛嗪箨P(guān)閉程序不影響進(jìn)度),等網(wǎng)絡(luò )好后再試。
3、停止和恢復:可以隨時(shí)停止抓取過(guò)程,退出程序后不影響進(jìn)度(章節信息會(huì )保存在記錄中,運行程序后可以恢復抓取下一次。注意:您需要先使用停止按鈕中斷然后退出程序,如果直接退出,將不會(huì )恢復)。
4、 一鍵爬?。河址Q(chēng)“啞模式”,基本可以實(shí)現全自動(dòng)爬取合并功能,直接輸出最終的文本文件。前面可能需要輸入最基本的網(wǎng)址、保存位置等信息(會(huì )有明顯的操作提示),調整章節后也可以一鍵抓取,抓取合并操作會(huì )自動(dòng)完成.
5、適用網(wǎng)站:已收錄10個(gè)適用網(wǎng)站(選擇后可以快速打開(kāi)網(wǎng)站找到您需要的書(shū)),并自動(dòng)應用相應的代碼,也可以測試其他小說(shuō)網(wǎng)站,如果一起使用,可以手動(dòng)添加到設置文件中,以備后用。
6、 制作電子書(shū)方便:可以在設置文件中添加每個(gè)章節名稱(chēng)的前綴和后綴,為后期制作電子書(shū)的目錄帶來(lái)極大的方便。
抓取網(wǎng)頁(yè)生成電子書(shū)(Windows,OSX及Linux在線(xiàn)資料轉為epub或mobi格式)
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 113 次瀏覽 ? 2021-11-14 06:15
自從我買(mǎi)了kindle,我就一直在想如何最大限度地發(fā)揮它的功效。雖然可供購買(mǎi)的書(shū)籍很多,網(wǎng)上也有很多免費的電子書(shū),但還是有很多網(wǎng)頁(yè)形式的有趣內容。例如,O'Reilly Atlas 提供了很多電子書(shū),但只提供免費在線(xiàn)閱讀;此外,許多材料或文件只是網(wǎng)絡(luò )形式。所以我希望將這些網(wǎng)上資料以某種方式轉換成epub或者mobi格式,以便在kindle上閱讀。本文文章介紹了如何使用calibre并編寫(xiě)少量代碼來(lái)實(shí)現這一目標。
口徑
Calibre 是一款免費的電子書(shū)管理工具,兼容 Windows、OS X 和 Linux。令人欣慰的是,除了GUI,calibre 還提供了很多命令行工具。ebook-convert 命令可以基于用戶(hù)編寫(xiě)的食譜。該文件(實(shí)際上是python代碼)抓取指定頁(yè)面的內容,生成mobi等格式的電子書(shū)。爬取行為可以通過(guò)編寫(xiě)recipe來(lái)定制,以適應不同的網(wǎng)頁(yè)結構。
安裝口徑
Calibre的下載地址是,您可以根據自己的操作系統下載相應的安裝程序。
如果是Linux操作系統,也可以通過(guò)軟件倉庫安裝:
Archlinux:
pacman -S 口徑
Debian/Ubuntu:
apt-get 安裝口徑
紅帽/Fedora/CentOS:
yum -y 安裝口徑
請注意,如果您使用 OSX,則需要單獨安裝命令行工具。
抓取網(wǎng)頁(yè)以生成電子書(shū)
下面以Git Pocket Guide為例,說(shuō)明如何通過(guò)calibre從網(wǎng)頁(yè)生成電子書(shū)。
找到索引頁(yè)
要爬取整本書(shū),首先要找到索引頁(yè)。這個(gè)頁(yè)面通常是目錄,也就是目錄頁(yè)面,其中每個(gè)目錄鏈接都連接到相應的內容頁(yè)面。在生成電子書(shū)時(shí),索引頁(yè)會(huì )指導抓取哪些頁(yè)面以及內容組織的順序。在這個(gè)例子中,索引頁(yè)是。
寫(xiě)食譜
食譜是一個(gè)帶有食譜擴展名的腳本。內容其實(shí)是一段python代碼,定義了calibre爬取頁(yè)面的范圍和行為。以下是爬取 Git Pocket Guide 的秘籍:
從 calibre.web.feeds.recipes 導入 BasicNewsRecipe
類(lèi) Git_Pocket_Guide(BasicNewsRecipe):
title = 'Git Pocket Guide'
description = ''
cover\_url = 'http://akamaicovers.oreilly.com/images/0636920024972/lrg.jpg'
url\_prefix = 'http://chimera.labs.oreilly.com/books/1230000000561/'
no\_stylesheets = True
keep\_only\_tags = \[{ 'class': 'chapter' }\]
def get\_title(self, link):
return link.contents\[0\].strip()
def parse\_index(self):
soup = self.index\_to\_soup(self.url\_prefix + 'index.html')
div = soup.find('div', { 'class': 'toc' })
articles = \[\]
for link in div.findAll('a'):
if '#' in link\['href'\]:
continue
if not 'ch' in link\['href'\]:
continue
til = self.get\_title(link)
url = self.url\_prefix + link\['href'\]
a = { 'title': til, 'url': url }
articles.append(a)
ans = \[('Git\_Pocket\_Guide', articles)\]
return ans
下面解釋了代碼的不同部分。
整體結構
總的來(lái)說(shuō),一個(gè)recipe是一個(gè)python類(lèi),但是這個(gè)類(lèi)必須繼承calibre.web.feeds.recipes.BasicNewsRecipe。
解析索引
整個(gè)recipe的核心方法是parse_index,這也是recipes必須實(shí)現的唯一方法。該方法的目標是通過(guò)分析索引頁(yè)的內容,返回一個(gè)稍微復雜一些的數據結構(稍后介紹)。這個(gè)數據結構定義了整個(gè)電子書(shū)的內容和內容組織順序。
整體屬性設置
在類(lèi)的開(kāi)頭,定義了一些全局屬性:
title ='Git Pocket Guide'description =''cover_url =''
url_prefix =''no_stylesheets = Truekeep_only_tags = [{'class':'chapter' }]
parse_index 返回值
下面通過(guò)分析索引頁(yè)來(lái)描述parse_index需要返回的數據結構。
整體的返回數據結構是一個(gè)列表,其中每個(gè)元素是一個(gè)元組,一個(gè)元組代表一個(gè)卷。在這個(gè)例子中,只有一個(gè)卷,所以列表中只有一個(gè)元組。
每個(gè)元組有兩個(gè)元素,第一個(gè)元素是卷名,第二個(gè)元素是一個(gè)列表,列表中的每個(gè)元素都是一個(gè)映射,表示一個(gè)章節(chapter),映射中有兩個(gè)元素: title 和 url , Title是章節的標題,url是章節所在的內容頁(yè)面的url。
Calibre 會(huì )根據parse_index 返回的結果對整本書(shū)進(jìn)行爬取和組織,并會(huì )自行爬取處理內容內外的圖片。
整個(gè)parse_index使用soup解析索引頁(yè),生成上述數據結構。
更多的
以上是最基本的食譜。如果想了解更多使用方法,可以參考API文檔。
生成手機
寫(xiě)好菜譜后,可以在命令行中使用以下命令生成電子書(shū):
電子書(shū)轉換 Git_Pocket_Guide.recipe Git_Pocket_Guide.mobi
您可以生成mobi 格式的電子書(shū)。ebook-convert 會(huì )爬取相關(guān)內容,根據配方代碼自行組織結構。
最終效果
下面是在kindle上看到的效果。
內容
內容一
內容二
帶圖片的頁(yè)面
實(shí)際效果
我的食譜倉庫
我在 github 上構建了一個(gè) kindle-open-books,其中收錄一些食譜,這些食譜是我寫(xiě)的和其他學(xué)生貢獻的。歡迎任何人提供食譜。 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(Windows,OSX及Linux在線(xiàn)資料轉為epub或mobi格式)
自從我買(mǎi)了kindle,我就一直在想如何最大限度地發(fā)揮它的功效。雖然可供購買(mǎi)的書(shū)籍很多,網(wǎng)上也有很多免費的電子書(shū),但還是有很多網(wǎng)頁(yè)形式的有趣內容。例如,O'Reilly Atlas 提供了很多電子書(shū),但只提供免費在線(xiàn)閱讀;此外,許多材料或文件只是網(wǎng)絡(luò )形式。所以我希望將這些網(wǎng)上資料以某種方式轉換成epub或者mobi格式,以便在kindle上閱讀。本文文章介紹了如何使用calibre并編寫(xiě)少量代碼來(lái)實(shí)現這一目標。
口徑
Calibre 是一款免費的電子書(shū)管理工具,兼容 Windows、OS X 和 Linux。令人欣慰的是,除了GUI,calibre 還提供了很多命令行工具。ebook-convert 命令可以基于用戶(hù)編寫(xiě)的食譜。該文件(實(shí)際上是python代碼)抓取指定頁(yè)面的內容,生成mobi等格式的電子書(shū)。爬取行為可以通過(guò)編寫(xiě)recipe來(lái)定制,以適應不同的網(wǎng)頁(yè)結構。
安裝口徑
Calibre的下載地址是,您可以根據自己的操作系統下載相應的安裝程序。
如果是Linux操作系統,也可以通過(guò)軟件倉庫安裝:
Archlinux:
pacman -S 口徑
Debian/Ubuntu:
apt-get 安裝口徑
紅帽/Fedora/CentOS:
yum -y 安裝口徑
請注意,如果您使用 OSX,則需要單獨安裝命令行工具。
抓取網(wǎng)頁(yè)以生成電子書(shū)
下面以Git Pocket Guide為例,說(shuō)明如何通過(guò)calibre從網(wǎng)頁(yè)生成電子書(shū)。
找到索引頁(yè)
要爬取整本書(shū),首先要找到索引頁(yè)。這個(gè)頁(yè)面通常是目錄,也就是目錄頁(yè)面,其中每個(gè)目錄鏈接都連接到相應的內容頁(yè)面。在生成電子書(shū)時(shí),索引頁(yè)會(huì )指導抓取哪些頁(yè)面以及內容組織的順序。在這個(gè)例子中,索引頁(yè)是。
寫(xiě)食譜
食譜是一個(gè)帶有食譜擴展名的腳本。內容其實(shí)是一段python代碼,定義了calibre爬取頁(yè)面的范圍和行為。以下是爬取 Git Pocket Guide 的秘籍:
從 calibre.web.feeds.recipes 導入 BasicNewsRecipe
類(lèi) Git_Pocket_Guide(BasicNewsRecipe):
title = 'Git Pocket Guide'
description = ''
cover\_url = 'http://akamaicovers.oreilly.com/images/0636920024972/lrg.jpg'
url\_prefix = 'http://chimera.labs.oreilly.com/books/1230000000561/'
no\_stylesheets = True
keep\_only\_tags = \[{ 'class': 'chapter' }\]
def get\_title(self, link):
return link.contents\[0\].strip()
def parse\_index(self):
soup = self.index\_to\_soup(self.url\_prefix + 'index.html')
div = soup.find('div', { 'class': 'toc' })
articles = \[\]
for link in div.findAll('a'):
if '#' in link\['href'\]:
continue
if not 'ch' in link\['href'\]:
continue
til = self.get\_title(link)
url = self.url\_prefix + link\['href'\]
a = { 'title': til, 'url': url }
articles.append(a)
ans = \[('Git\_Pocket\_Guide', articles)\]
return ans
下面解釋了代碼的不同部分。
整體結構
總的來(lái)說(shuō),一個(gè)recipe是一個(gè)python類(lèi),但是這個(gè)類(lèi)必須繼承calibre.web.feeds.recipes.BasicNewsRecipe。
解析索引
整個(gè)recipe的核心方法是parse_index,這也是recipes必須實(shí)現的唯一方法。該方法的目標是通過(guò)分析索引頁(yè)的內容,返回一個(gè)稍微復雜一些的數據結構(稍后介紹)。這個(gè)數據結構定義了整個(gè)電子書(shū)的內容和內容組織順序。
整體屬性設置
在類(lèi)的開(kāi)頭,定義了一些全局屬性:
title ='Git Pocket Guide'description =''cover_url =''
url_prefix =''no_stylesheets = Truekeep_only_tags = [{'class':'chapter' }]
parse_index 返回值
下面通過(guò)分析索引頁(yè)來(lái)描述parse_index需要返回的數據結構。

整體的返回數據結構是一個(gè)列表,其中每個(gè)元素是一個(gè)元組,一個(gè)元組代表一個(gè)卷。在這個(gè)例子中,只有一個(gè)卷,所以列表中只有一個(gè)元組。
每個(gè)元組有兩個(gè)元素,第一個(gè)元素是卷名,第二個(gè)元素是一個(gè)列表,列表中的每個(gè)元素都是一個(gè)映射,表示一個(gè)章節(chapter),映射中有兩個(gè)元素: title 和 url , Title是章節的標題,url是章節所在的內容頁(yè)面的url。
Calibre 會(huì )根據parse_index 返回的結果對整本書(shū)進(jìn)行爬取和組織,并會(huì )自行爬取處理內容內外的圖片。
整個(gè)parse_index使用soup解析索引頁(yè),生成上述數據結構。
更多的
以上是最基本的食譜。如果想了解更多使用方法,可以參考API文檔。
生成手機
寫(xiě)好菜譜后,可以在命令行中使用以下命令生成電子書(shū):
電子書(shū)轉換 Git_Pocket_Guide.recipe Git_Pocket_Guide.mobi
您可以生成mobi 格式的電子書(shū)。ebook-convert 會(huì )爬取相關(guān)內容,根據配方代碼自行組織結構。
最終效果
下面是在kindle上看到的效果。
內容

內容一

內容二

帶圖片的頁(yè)面

實(shí)際效果

我的食譜倉庫
我在 github 上構建了一個(gè) kindle-open-books,其中收錄一些食譜,這些食譜是我寫(xiě)的和其他學(xué)生貢獻的。歡迎任何人提供食譜。
抓取網(wǎng)頁(yè)生成電子書(shū)(Windows,OSX及Linux的在線(xiàn)資料epub格式 )
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 105 次瀏覽 ? 2021-11-14 06:12
)
自從我買(mǎi)了kindle,我就一直在想如何最大限度地發(fā)揮它的功效。雖然可供購買(mǎi)的書(shū)籍很多,網(wǎng)上也有很多免費的電子書(shū),但還是有很多網(wǎng)頁(yè)形式的有趣內容。例如,O'Reilly Atlas 提供了很多電子書(shū),但只提供免費在線(xiàn)閱讀;此外,許多材料或文件只是網(wǎng)絡(luò )形式。所以我希望將這些網(wǎng)上資料以某種方式轉換成epub或者mobi格式,以便在kindle上閱讀。本文文章介紹了如何使用calibre并編寫(xiě)少量代碼來(lái)實(shí)現這一目標。
Calibre 簡(jiǎn)介
Calibre 是一款免費的電子書(shū)管理工具,兼容 Windows、OS X 和 Linux。令人欣慰的是,除了GUI,calibre 還提供了很多命令行工具。ebook-convert 命令可以基于用戶(hù)編寫(xiě)的食譜。該文件(實(shí)際上是python代碼)抓取指定頁(yè)面的內容,生成mobi等格式的電子書(shū)。爬取行為可以通過(guò)編寫(xiě)recipe來(lái)定制,以適應不同的網(wǎng)頁(yè)結構。
安裝口徑
Calibre的下載地址為download,您可以根據自己的操作系統下載相應的安裝程序。
如果是Linux操作系統,也可以通過(guò)軟件倉庫安裝:
Archlinux:
pacman -S calibre
Debian/Ubuntu:
apt-get install calibre
紅帽/Fedora/CentOS:
yum -y install calibre
請注意,如果您使用 OSX,則需要單獨安裝命令行工具。
抓取網(wǎng)頁(yè)以生成電子書(shū)
下面以Git Pocket Guide為例,說(shuō)明如何通過(guò)calibre從網(wǎng)頁(yè)生成電子書(shū)。
找到索引頁(yè)
要爬取整本書(shū),首先要找到索引頁(yè)。這個(gè)頁(yè)面通常是目錄,也就是目錄頁(yè)面,其中每個(gè)目錄鏈接都連接到相應的內容頁(yè)面。在生成電子書(shū)時(shí),索引頁(yè)會(huì )指導抓取哪些頁(yè)面以及內容組織的順序。在本例中,索引頁(yè)為 61/index.html。
寫(xiě)食譜
食譜是一個(gè)帶有食譜擴展名的腳本。內容其實(shí)是一段python代碼,定義了calibre爬取頁(yè)面的范圍和行為。以下是爬取 Git Pocket Guide 的秘籍:
from calibre.web.feeds.recipes import BasicNewsRecipe
class Git_Pocket_Guide(BasicNewsRecipe):
title = 'Git Pocket Guide'
description = ''
cover_url = 'http://akamaicovers.oreilly.com/images/0636920024972/lrg.jpg'
url_prefix = '1230000000561/'
no_stylesheets = True
keep_only_tags = [{ 'class': 'chapter' }]
def get_title(self, link):
return link.contents[0].strip()
def parse_index(self):
soup = self.index_to_soup(self.url_prefix + 'index.html')
div = soup.find('div', { 'class': 'toc' })
articles = []
for link in div.findAll('a'):
if '#' in link['href']:
continue
if not 'ch' in link['href']:
continue
til = self.get_title(link)
url = self.url_prefix + link['href']
a = { 'title': til, 'url': url }
articles.append(a)
ans = [('Git_Pocket_Guide', articles)]
return ans
下面解釋了代碼的不同部分。
整體結構
總的來(lái)說(shuō),一個(gè)recipe是一個(gè)python類(lèi),但是這個(gè)類(lèi)必須繼承calibre.web.feeds.recipes.BasicNewsRecipe。
解析索引
整個(gè)recipe的核心方法是parse_index,這也是recipes必須實(shí)現的唯一方法。該方法的目標是通過(guò)分析索引頁(yè)的內容,返回一個(gè)稍微復雜一些的數據結構(稍后介紹)。這個(gè)數據結構定義了整個(gè)電子書(shū)的內容和內容組織順序。
整體屬性設置
在類(lèi)的開(kāi)頭,定義了一些全局屬性:
title = 'Git Pocket Guide'
description = ''
cover_url = 'http://akamaicovers.oreilly.com/images/0636920024972/lrg.jpg'
url_prefix = '1230000000561/'
no_stylesheets = True
keep_only_tags = [{ 'class': 'chapter' }] 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(Windows,OSX及Linux的在線(xiàn)資料epub格式
)
自從我買(mǎi)了kindle,我就一直在想如何最大限度地發(fā)揮它的功效。雖然可供購買(mǎi)的書(shū)籍很多,網(wǎng)上也有很多免費的電子書(shū),但還是有很多網(wǎng)頁(yè)形式的有趣內容。例如,O'Reilly Atlas 提供了很多電子書(shū),但只提供免費在線(xiàn)閱讀;此外,許多材料或文件只是網(wǎng)絡(luò )形式。所以我希望將這些網(wǎng)上資料以某種方式轉換成epub或者mobi格式,以便在kindle上閱讀。本文文章介紹了如何使用calibre并編寫(xiě)少量代碼來(lái)實(shí)現這一目標。
Calibre 簡(jiǎn)介
Calibre 是一款免費的電子書(shū)管理工具,兼容 Windows、OS X 和 Linux。令人欣慰的是,除了GUI,calibre 還提供了很多命令行工具。ebook-convert 命令可以基于用戶(hù)編寫(xiě)的食譜。該文件(實(shí)際上是python代碼)抓取指定頁(yè)面的內容,生成mobi等格式的電子書(shū)。爬取行為可以通過(guò)編寫(xiě)recipe來(lái)定制,以適應不同的網(wǎng)頁(yè)結構。
安裝口徑
Calibre的下載地址為download,您可以根據自己的操作系統下載相應的安裝程序。
如果是Linux操作系統,也可以通過(guò)軟件倉庫安裝:
Archlinux:
pacman -S calibre
Debian/Ubuntu:
apt-get install calibre
紅帽/Fedora/CentOS:
yum -y install calibre
請注意,如果您使用 OSX,則需要單獨安裝命令行工具。
抓取網(wǎng)頁(yè)以生成電子書(shū)
下面以Git Pocket Guide為例,說(shuō)明如何通過(guò)calibre從網(wǎng)頁(yè)生成電子書(shū)。
找到索引頁(yè)
要爬取整本書(shū),首先要找到索引頁(yè)。這個(gè)頁(yè)面通常是目錄,也就是目錄頁(yè)面,其中每個(gè)目錄鏈接都連接到相應的內容頁(yè)面。在生成電子書(shū)時(shí),索引頁(yè)會(huì )指導抓取哪些頁(yè)面以及內容組織的順序。在本例中,索引頁(yè)為 61/index.html。
寫(xiě)食譜
食譜是一個(gè)帶有食譜擴展名的腳本。內容其實(shí)是一段python代碼,定義了calibre爬取頁(yè)面的范圍和行為。以下是爬取 Git Pocket Guide 的秘籍:
from calibre.web.feeds.recipes import BasicNewsRecipe
class Git_Pocket_Guide(BasicNewsRecipe):
title = 'Git Pocket Guide'
description = ''
cover_url = 'http://akamaicovers.oreilly.com/images/0636920024972/lrg.jpg'
url_prefix = '1230000000561/'
no_stylesheets = True
keep_only_tags = [{ 'class': 'chapter' }]
def get_title(self, link):
return link.contents[0].strip()
def parse_index(self):
soup = self.index_to_soup(self.url_prefix + 'index.html')
div = soup.find('div', { 'class': 'toc' })
articles = []
for link in div.findAll('a'):
if '#' in link['href']:
continue
if not 'ch' in link['href']:
continue
til = self.get_title(link)
url = self.url_prefix + link['href']
a = { 'title': til, 'url': url }
articles.append(a)
ans = [('Git_Pocket_Guide', articles)]
return ans
下面解釋了代碼的不同部分。
整體結構
總的來(lái)說(shuō),一個(gè)recipe是一個(gè)python類(lèi),但是這個(gè)類(lèi)必須繼承calibre.web.feeds.recipes.BasicNewsRecipe。
解析索引
整個(gè)recipe的核心方法是parse_index,這也是recipes必須實(shí)現的唯一方法。該方法的目標是通過(guò)分析索引頁(yè)的內容,返回一個(gè)稍微復雜一些的數據結構(稍后介紹)。這個(gè)數據結構定義了整個(gè)電子書(shū)的內容和內容組織順序。
整體屬性設置
在類(lèi)的開(kāi)頭,定義了一些全局屬性:
title = 'Git Pocket Guide'
description = ''
cover_url = 'http://akamaicovers.oreilly.com/images/0636920024972/lrg.jpg'
url_prefix = '1230000000561/'
no_stylesheets = True
keep_only_tags = [{ 'class': 'chapter' }]
抓取網(wǎng)頁(yè)生成電子書(shū)(從當當網(wǎng)上采集數據的過(guò)程為例,你了解多少?)
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 238 次瀏覽 ? 2021-11-13 03:19
所謂“網(wǎng)頁(yè)數據抓取”,也稱(chēng)為網(wǎng)頁(yè)數據采集、網(wǎng)頁(yè)數據采集等,就是從我們平時(shí)查看的網(wǎng)頁(yè)中提取需要的數據信息瀏覽器,然后將結構以CSV、JSON、XML、ACCESS、MSSQL、MYSQL等格式存儲在文件或數據庫中的過(guò)程。當然,這里的數據提取過(guò)程是通過(guò)計算機軟件技術(shù)實(shí)現的,而不是通過(guò)人工復制粘貼。也正因為如此,才有可能從大規模的網(wǎng)站中采集。
下面以作者從當當網(wǎng)獲取采集數據的過(guò)程為例,詳細講解一下web數據抓取的基本過(guò)程。
首先,我們需要分析目標網(wǎng)站的網(wǎng)頁(yè)結構,判斷網(wǎng)站上的數據是否可以采集以及如何采集。
當當網(wǎng)是一個(gè)綜合性的網(wǎng)站,這里以圖書(shū)數據為例。檢查后,我們找到了圖書(shū)信息的目錄頁(yè)。圖書(shū)信息以多級目錄結構組織。如下圖所示,圖片左側為圖書(shū)信息一級目錄:
因為很多網(wǎng)站會(huì )出于數據保護的原因限制顯示數據的數量,比如數據最多可以顯示100頁(yè),超過(guò)100頁(yè)的數據就不會(huì )顯示。這樣,如果您選擇進(jìn)入更高級別的目錄,您可以獲得的數據就越少。因此,為了獲得盡可能多的數據,我們需要進(jìn)入較低級別的目錄,也就是更小的分類(lèi)級別,以獲得更多的數據。
點(diǎn)擊一級目錄,進(jìn)入二級圖書(shū)目錄,如下圖:
同理,依次點(diǎn)擊每一級目錄,最后可以進(jìn)入底層目錄,這里顯示了該目錄下所有可顯示數據項的列表,我們稱(chēng)之為底層列表頁(yè)面,如圖:
當然,這個(gè)列表頁(yè)面很可能會(huì )被分成多個(gè)頁(yè)面。我們在做數據采集的時(shí)候,需要遍歷每個(gè)頁(yè)面上的數據項,通過(guò)每個(gè)數據項上的鏈接,可以進(jìn)入最終的數據頁(yè)面,我們稱(chēng)之為詳情頁(yè)。如下所示:
至此,獲取詳細數據的路徑已經(jīng)明確。接下來(lái),我們將分析詳細頁(yè)面上有用的數據項,然后編寫(xiě)數據采集程序,以捕獲我們感興趣的數據。
以下是作者編寫(xiě)的當當網(wǎng)圖書(shū)數據網(wǎng)頁(yè)數據爬取程序的部分代碼:
以下是作者采集得到的部分圖書(shū)信息樣本數據:
至此,一個(gè)完整的網(wǎng)頁(yè)數據抓取過(guò)程就完成了。 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(從當當網(wǎng)上采集數據的過(guò)程為例,你了解多少?)
所謂“網(wǎng)頁(yè)數據抓取”,也稱(chēng)為網(wǎng)頁(yè)數據采集、網(wǎng)頁(yè)數據采集等,就是從我們平時(shí)查看的網(wǎng)頁(yè)中提取需要的數據信息瀏覽器,然后將結構以CSV、JSON、XML、ACCESS、MSSQL、MYSQL等格式存儲在文件或數據庫中的過(guò)程。當然,這里的數據提取過(guò)程是通過(guò)計算機軟件技術(shù)實(shí)現的,而不是通過(guò)人工復制粘貼。也正因為如此,才有可能從大規模的網(wǎng)站中采集。
下面以作者從當當網(wǎng)獲取采集數據的過(guò)程為例,詳細講解一下web數據抓取的基本過(guò)程。
首先,我們需要分析目標網(wǎng)站的網(wǎng)頁(yè)結構,判斷網(wǎng)站上的數據是否可以采集以及如何采集。
當當網(wǎng)是一個(gè)綜合性的網(wǎng)站,這里以圖書(shū)數據為例。檢查后,我們找到了圖書(shū)信息的目錄頁(yè)。圖書(shū)信息以多級目錄結構組織。如下圖所示,圖片左側為圖書(shū)信息一級目錄:

因為很多網(wǎng)站會(huì )出于數據保護的原因限制顯示數據的數量,比如數據最多可以顯示100頁(yè),超過(guò)100頁(yè)的數據就不會(huì )顯示。這樣,如果您選擇進(jìn)入更高級別的目錄,您可以獲得的數據就越少。因此,為了獲得盡可能多的數據,我們需要進(jìn)入較低級別的目錄,也就是更小的分類(lèi)級別,以獲得更多的數據。
點(diǎn)擊一級目錄,進(jìn)入二級圖書(shū)目錄,如下圖:

同理,依次點(diǎn)擊每一級目錄,最后可以進(jìn)入底層目錄,這里顯示了該目錄下所有可顯示數據項的列表,我們稱(chēng)之為底層列表頁(yè)面,如圖:

當然,這個(gè)列表頁(yè)面很可能會(huì )被分成多個(gè)頁(yè)面。我們在做數據采集的時(shí)候,需要遍歷每個(gè)頁(yè)面上的數據項,通過(guò)每個(gè)數據項上的鏈接,可以進(jìn)入最終的數據頁(yè)面,我們稱(chēng)之為詳情頁(yè)。如下所示:

至此,獲取詳細數據的路徑已經(jīng)明確。接下來(lái),我們將分析詳細頁(yè)面上有用的數據項,然后編寫(xiě)數據采集程序,以捕獲我們感興趣的數據。
以下是作者編寫(xiě)的當當網(wǎng)圖書(shū)數據網(wǎng)頁(yè)數據爬取程序的部分代碼:

以下是作者采集得到的部分圖書(shū)信息樣本數據:

至此,一個(gè)完整的網(wǎng)頁(yè)數據抓取過(guò)程就完成了。
抓取網(wǎng)頁(yè)生成電子書(shū)(通過(guò)Python和爬蟲(chóng),可以完成怎樣的小工具?|知乎 )
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 271 次瀏覽 ? 2021-11-13 03:18
)
總有同學(xué)問(wèn),學(xué)了Python基礎之后,不知道自己可以做些什么來(lái)提高。今天我就用一個(gè)小例子來(lái)告訴大家通過(guò)Python和爬蟲(chóng)可以完成什么樣的小工具。
在知乎上,你一定關(guān)注過(guò)一些不錯的專(zhuān)欄(比如Crossin的編程課堂)。但如果有一天,你最喜歡的受訪(fǎng)者在網(wǎng)上被噴,你一怒之下刪帖停止更新,你就看不到好內容了。雖然這是小概率事件(以前沒(méi)有發(fā)生過(guò)),但你可以準備下雨天。您可以將您關(guān)注的專(zhuān)欄導出到電子書(shū)中,這樣您就可以離線(xiàn)閱讀,而不必擔心不小心刪除帖子。
只需要工具和源碼的可以拉到文章底部獲取代碼。
【最終效果】
運行程序,輸入列的id,即網(wǎng)頁(yè)地址上的路徑:
之后程序會(huì )自動(dòng)抓取列中的文章,并根據發(fā)布時(shí)間合并導出為pdf文件。
【實(shí)現思路】
本方案主要分為三部分:
爬取專(zhuān)欄文章地址列表爬取每篇文章的詳細內容文章導出PDF1.爬取列表
在之前的文章爬蟲(chóng)必備工具中,掌握它就解決了一半的問(wèn)題,介紹了如何分析網(wǎng)頁(yè)上的請求。根據方法,我們可以使用開(kāi)發(fā)者工具的Network功能,找出欄目頁(yè)面的請求,獲取明細列表:
https://www.zhihu.com/api/v4/c ... icles
觀(guān)察返回的結果,我們發(fā)現通過(guò)next和is_end的值,可以得到下一個(gè)列表請求的地址(相當于頁(yè)面向下滾動(dòng)的觸發(fā)效果),判斷是否所有文章都有已獲得。
data中的id、title、url就是我們需要的數據。因為url可以用id拼出來(lái),所以沒(méi)有保存在我們的代碼中。
使用 while 循環(huán)直到 文章 的所有 id 和 title 都被捕獲并保存在文件中。
while True:
resp = requests.get(url, headers=headers)
j = resp.json()
data = j['data']
for article in data:
# 保存id和title(略)
if j['paging']['is_end']:
break
url = j['paging']['next']
# 按 id 排序(略)
# 導入文件(略)
2. 搶 文章
有了文章的所有id/url,后面的爬取就很簡(jiǎn)單了。文章 主要內容在 Post-RichText 標簽中。
處理一些文字需要一點(diǎn)功夫,比如原頁(yè)面的圖片效果,會(huì )添加noscript標簽和`,highlight">
url = 'https://zhuanlan.zhihu.com/p/' + id
html = requests.get(url, headers=headers).text
soup = BeautifulSoup(html, 'lxml')
content = soup.find(class_='Post-RichText').prettify()
# 對content做處理(略)
with open(file_name, 'w') as f:
f.write(content)
至此,所有的內容都已經(jīng)抓取完畢,可以在本地讀取了。
3. 導出 PDF
為了方便閱讀,我們使用 wkhtmltopdf + pdfkit 將這些 HTML 文件打包成 PDF。
wkhtmltopdf是一個(gè)將HTML轉PDF的工具,需要單獨安裝。詳情請參閱其官方網(wǎng)站。
pdfkit 是為此工具打包的 Python 庫,可以從 pip 安裝:
pip install pdfkit
使用非常簡(jiǎn)單:
# 獲取htmls文件名列表(略)
pdfkit.from_file(sorted(htmls), 'zhihu.pdf')
這樣就完成了整列的導出。
不只是知乎的欄目,幾乎大部分信息網(wǎng)站,通過(guò)1.抓取列表2.抓取詳細內容采集數據兩步。所以這段代碼只要稍加修改就可以用于許多其他的網(wǎng)站。只是有些網(wǎng)站需要登錄才能訪(fǎng)問(wèn),所以需要在headers中設置cookie信息。另外,不同網(wǎng)站的請求接口、參數、限制都不一樣,具體問(wèn)題還是要具體問(wèn)題具體分析。
這些爬蟲(chóng)的開(kāi)發(fā)技巧可以在我們的爬蟲(chóng)實(shí)戰課中學(xué)習。需要的請回復公眾號中的實(shí)際爬蟲(chóng)
【源碼下載】
獲取知乎的專(zhuān)欄下載器源碼,請在公眾號(Crossin的編程課堂)回復關(guān)鍵字知乎
除了代碼,還有本專(zhuān)欄打包好的PDF,歡迎閱讀分享。
?。剑剑剑?br /> 其他 文章 和回答:
歡迎搜索關(guān)注:Crossin的編程課堂
查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(通過(guò)Python和爬蟲(chóng),可以完成怎樣的小工具?|知乎
)
總有同學(xué)問(wèn),學(xué)了Python基礎之后,不知道自己可以做些什么來(lái)提高。今天我就用一個(gè)小例子來(lái)告訴大家通過(guò)Python和爬蟲(chóng)可以完成什么樣的小工具。
在知乎上,你一定關(guān)注過(guò)一些不錯的專(zhuān)欄(比如Crossin的編程課堂)。但如果有一天,你最喜歡的受訪(fǎng)者在網(wǎng)上被噴,你一怒之下刪帖停止更新,你就看不到好內容了。雖然這是小概率事件(以前沒(méi)有發(fā)生過(guò)),但你可以準備下雨天。您可以將您關(guān)注的專(zhuān)欄導出到電子書(shū)中,這樣您就可以離線(xiàn)閱讀,而不必擔心不小心刪除帖子。
只需要工具和源碼的可以拉到文章底部獲取代碼。
【最終效果】
運行程序,輸入列的id,即網(wǎng)頁(yè)地址上的路徑:
之后程序會(huì )自動(dòng)抓取列中的文章,并根據發(fā)布時(shí)間合并導出為pdf文件。
【實(shí)現思路】
本方案主要分為三部分:
爬取專(zhuān)欄文章地址列表爬取每篇文章的詳細內容文章導出PDF1.爬取列表
在之前的文章爬蟲(chóng)必備工具中,掌握它就解決了一半的問(wèn)題,介紹了如何分析網(wǎng)頁(yè)上的請求。根據方法,我們可以使用開(kāi)發(fā)者工具的Network功能,找出欄目頁(yè)面的請求,獲取明細列表:
https://www.zhihu.com/api/v4/c ... icles
觀(guān)察返回的結果,我們發(fā)現通過(guò)next和is_end的值,可以得到下一個(gè)列表請求的地址(相當于頁(yè)面向下滾動(dòng)的觸發(fā)效果),判斷是否所有文章都有已獲得。
data中的id、title、url就是我們需要的數據。因為url可以用id拼出來(lái),所以沒(méi)有保存在我們的代碼中。
使用 while 循環(huán)直到 文章 的所有 id 和 title 都被捕獲并保存在文件中。
while True:
resp = requests.get(url, headers=headers)
j = resp.json()
data = j['data']
for article in data:
# 保存id和title(略)
if j['paging']['is_end']:
break
url = j['paging']['next']
# 按 id 排序(略)
# 導入文件(略)
2. 搶 文章
有了文章的所有id/url,后面的爬取就很簡(jiǎn)單了。文章 主要內容在 Post-RichText 標簽中。
處理一些文字需要一點(diǎn)功夫,比如原頁(yè)面的圖片效果,會(huì )添加noscript標簽和`,highlight">
url = 'https://zhuanlan.zhihu.com/p/' + id
html = requests.get(url, headers=headers).text
soup = BeautifulSoup(html, 'lxml')
content = soup.find(class_='Post-RichText').prettify()
# 對content做處理(略)
with open(file_name, 'w') as f:
f.write(content)
至此,所有的內容都已經(jīng)抓取完畢,可以在本地讀取了。
3. 導出 PDF
為了方便閱讀,我們使用 wkhtmltopdf + pdfkit 將這些 HTML 文件打包成 PDF。
wkhtmltopdf是一個(gè)將HTML轉PDF的工具,需要單獨安裝。詳情請參閱其官方網(wǎng)站。
pdfkit 是為此工具打包的 Python 庫,可以從 pip 安裝:
pip install pdfkit
使用非常簡(jiǎn)單:
# 獲取htmls文件名列表(略)
pdfkit.from_file(sorted(htmls), 'zhihu.pdf')
這樣就完成了整列的導出。
不只是知乎的欄目,幾乎大部分信息網(wǎng)站,通過(guò)1.抓取列表2.抓取詳細內容采集數據兩步。所以這段代碼只要稍加修改就可以用于許多其他的網(wǎng)站。只是有些網(wǎng)站需要登錄才能訪(fǎng)問(wèn),所以需要在headers中設置cookie信息。另外,不同網(wǎng)站的請求接口、參數、限制都不一樣,具體問(wèn)題還是要具體問(wèn)題具體分析。
這些爬蟲(chóng)的開(kāi)發(fā)技巧可以在我們的爬蟲(chóng)實(shí)戰課中學(xué)習。需要的請回復公眾號中的實(shí)際爬蟲(chóng)
【源碼下載】
獲取知乎的專(zhuān)欄下載器源碼,請在公眾號(Crossin的編程課堂)回復關(guān)鍵字知乎
除了代碼,還有本專(zhuān)欄打包好的PDF,歡迎閱讀分享。
?。剑剑剑?br /> 其他 文章 和回答:
歡迎搜索關(guān)注:Crossin的編程課堂
抓取網(wǎng)頁(yè)生成電子書(shū)(網(wǎng)絡(luò )書(shū)籍抓取器怎么做?如何制作電子書(shū)的方法 )
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 223 次瀏覽 ? 2021-11-12 04:23
)
網(wǎng)絡(luò )圖書(shū)抓取器主要用于抓取網(wǎng)絡(luò )小說(shuō)生成文本文件。它可以提取指定小說(shuō)目錄頁(yè)的章節信息并進(jìn)行調整,然后按照章節順序抓取小說(shuō)內容,然后進(jìn)行合并。爬取過(guò)程可以隨時(shí)中斷,關(guān)閉程序后可以繼續上一個(gè)任務(wù)。
相關(guān)軟件軟件大小版本說(shuō)明下載地址
網(wǎng)絡(luò )圖書(shū)抓取器主要用于抓取網(wǎng)絡(luò )小說(shuō)生成文本文件。它可以提取指定小說(shuō)目錄頁(yè)的章節信息并進(jìn)行調整,然后按照章節順序抓取小說(shuō)內容,然后進(jìn)行合并。爬取過(guò)程可以隨時(shí)中斷,關(guān)閉程序后可以繼續上一個(gè)任務(wù)。
軟件特點(diǎn)
1、 章節調整:提取目錄后,可以進(jìn)行移動(dòng)、刪除、倒序等調整操作。調整會(huì )直接影響最終的書(shū)籍,也會(huì )以調整后的章節順序輸出。
2、自動(dòng)重試:在爬取過(guò)程中,由于網(wǎng)絡(luò )因素,可能會(huì )出現爬取失敗的情況。程序可能會(huì )自動(dòng)重試直到成功,也可以暫時(shí)中斷爬?。ㄖ袛嗪箨P(guān)閉程序不影響進(jìn)度),網(wǎng)絡(luò )好后再試。
3、停止和恢復:可以隨時(shí)停止抓取過(guò)程,退出程序后不影響進(jìn)度(章節信息會(huì )保存在記錄中,運行程序后可以恢復抓取下一次。注意:您需要先使用停止按鈕中斷然后退出程序,如果直接退出,將不會(huì )恢復)。
4、 一鍵爬?。河址Q(chēng)“啞模式”,基本可以實(shí)現全自動(dòng)爬取合并功能,直接輸出最終的文本文件。前面可能需要輸入最基本的網(wǎng)址、保存位置等信息(會(huì )有明顯的操作提示),調整章節后也可以一鍵抓取,抓取合并操作會(huì )自動(dòng)完成.
5、適用網(wǎng)站:已輸入10個(gè)適用網(wǎng)站(選擇后可快速打開(kāi)網(wǎng)站找到您需要的書(shū)),并自動(dòng)應用相應的代碼, 也可以測試其他小說(shuō)網(wǎng)站,如果一起使用,可以手動(dòng)添加到設置文件中以備后用。
6、輕松制作電子書(shū):可以在設置文件中添加每個(gè)章節名稱(chēng)的前綴和后綴,為后期制作電子書(shū)的目錄帶來(lái)極大的方便。
查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(網(wǎng)絡(luò )書(shū)籍抓取器怎么做?如何制作電子書(shū)的方法
)
網(wǎng)絡(luò )圖書(shū)抓取器主要用于抓取網(wǎng)絡(luò )小說(shuō)生成文本文件。它可以提取指定小說(shuō)目錄頁(yè)的章節信息并進(jìn)行調整,然后按照章節順序抓取小說(shuō)內容,然后進(jìn)行合并。爬取過(guò)程可以隨時(shí)中斷,關(guān)閉程序后可以繼續上一個(gè)任務(wù)。
相關(guān)軟件軟件大小版本說(shuō)明下載地址
網(wǎng)絡(luò )圖書(shū)抓取器主要用于抓取網(wǎng)絡(luò )小說(shuō)生成文本文件。它可以提取指定小說(shuō)目錄頁(yè)的章節信息并進(jìn)行調整,然后按照章節順序抓取小說(shuō)內容,然后進(jìn)行合并。爬取過(guò)程可以隨時(shí)中斷,關(guān)閉程序后可以繼續上一個(gè)任務(wù)。
軟件特點(diǎn)
1、 章節調整:提取目錄后,可以進(jìn)行移動(dòng)、刪除、倒序等調整操作。調整會(huì )直接影響最終的書(shū)籍,也會(huì )以調整后的章節順序輸出。
2、自動(dòng)重試:在爬取過(guò)程中,由于網(wǎng)絡(luò )因素,可能會(huì )出現爬取失敗的情況。程序可能會(huì )自動(dòng)重試直到成功,也可以暫時(shí)中斷爬?。ㄖ袛嗪箨P(guān)閉程序不影響進(jìn)度),網(wǎng)絡(luò )好后再試。
3、停止和恢復:可以隨時(shí)停止抓取過(guò)程,退出程序后不影響進(jìn)度(章節信息會(huì )保存在記錄中,運行程序后可以恢復抓取下一次。注意:您需要先使用停止按鈕中斷然后退出程序,如果直接退出,將不會(huì )恢復)。
4、 一鍵爬?。河址Q(chēng)“啞模式”,基本可以實(shí)現全自動(dòng)爬取合并功能,直接輸出最終的文本文件。前面可能需要輸入最基本的網(wǎng)址、保存位置等信息(會(huì )有明顯的操作提示),調整章節后也可以一鍵抓取,抓取合并操作會(huì )自動(dòng)完成.
5、適用網(wǎng)站:已輸入10個(gè)適用網(wǎng)站(選擇后可快速打開(kāi)網(wǎng)站找到您需要的書(shū)),并自動(dòng)應用相應的代碼, 也可以測試其他小說(shuō)網(wǎng)站,如果一起使用,可以手動(dòng)添加到設置文件中以備后用。
6、輕松制作電子書(shū):可以在設置文件中添加每個(gè)章節名稱(chēng)的前綴和后綴,為后期制作電子書(shū)的目錄帶來(lái)極大的方便。
抓取網(wǎng)頁(yè)生成電子書(shū)( 大型的HTML,使用方法一生成HTML的元素變化。)
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 110 次瀏覽 ? 2021-11-11 23:12
大型的HTML,使用方法一生成HTML的元素變化。)
<p>python 自動(dòng)化批量生成前端的HTML可以大大減輕工作量
下面演示兩種生成 HTML 的方法
方法一:使用 webbrowser
#coding:utf-8
import webbrowser
#命名生成的html
GEN_HTML = "test.html"
#打開(kāi)文件,準備寫(xiě)入
f = open(GEN_HTML,'w')
#準備相關(guān)變量
str1 = 'my name is :'
str2 = '--MichaelAn--'
# 寫(xiě)入HTML界面中
message = """
%s
%s
"""%(str1,str2)
#寫(xiě)入文件
f.write(message)
#關(guān)閉文件
f.close()
#運行完自動(dòng)在網(wǎng)頁(yè)中顯示
webbrowser.open(GEN_HTML,new = 1)
'''
webbrowser.open(url, new=0, autoraise=True)
Display url using the default browser. If new is 0, the url is opened in the same browser window if possible. If new is 1, a new browser window is opened if possible. If new is 2, a new browser page (“tab”) is opened if possible. If autoraise is True, the window is raised if possible (note that under many window managers this will occur regardless of the setting of this variable).
'''</p>
方法二:使用pyh
<p>#coding:utf-8
from pyh import *
# there is a bug "from pyh import *"
page = PyH('My wonderful PyH page')
page.addCSS('myStylesheet1.css', 'myStylesheet2.css')
page.addJS('myJavascript1.js', 'myJavascript2.js')
page 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(
大型的HTML,使用方法一生成HTML的元素變化。)
<p>python 自動(dòng)化批量生成前端的HTML可以大大減輕工作量
下面演示兩種生成 HTML 的方法
方法一:使用 webbrowser
#coding:utf-8
import webbrowser
#命名生成的html
GEN_HTML = "test.html"
#打開(kāi)文件,準備寫(xiě)入
f = open(GEN_HTML,'w')
#準備相關(guān)變量
str1 = 'my name is :'
str2 = '--MichaelAn--'
# 寫(xiě)入HTML界面中
message = """
%s
%s
"""%(str1,str2)
#寫(xiě)入文件
f.write(message)
#關(guān)閉文件
f.close()
#運行完自動(dòng)在網(wǎng)頁(yè)中顯示
webbrowser.open(GEN_HTML,new = 1)
'''
webbrowser.open(url, new=0, autoraise=True)
Display url using the default browser. If new is 0, the url is opened in the same browser window if possible. If new is 1, a new browser window is opened if possible. If new is 2, a new browser page (“tab”) is opened if possible. If autoraise is True, the window is raised if possible (note that under many window managers this will occur regardless of the setting of this variable).
'''</p>
方法二:使用pyh
<p>#coding:utf-8
from pyh import *
# there is a bug "from pyh import *"
page = PyH('My wonderful PyH page')
page.addCSS('myStylesheet1.css', 'myStylesheet2.css')
page.addJS('myJavascript1.js', 'myJavascript2.js')
page
抓取網(wǎng)頁(yè)生成電子書(shū)(利用能提取網(wǎng)頁(yè)小說(shuō)的app,批量下載網(wǎng)站所有小說(shuō))
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 1034 次瀏覽 ? 2021-11-11 20:29
使用可以提取網(wǎng)絡(luò )小說(shuō)的APP批量下載所有網(wǎng)站小說(shuō)?,F在推薦一個(gè)免費且簡(jiǎn)單的網(wǎng)絡(luò )小說(shuō)下載器。使用大叔小說(shuō)下載器,不僅具有小說(shuō)爬蟲(chóng)下載器app的功能,還能批量提取網(wǎng)絡(luò )小說(shuō)。,它也可以用作干凈的本地閱讀器應用程序。下載小說(shuō)后,可以直接閱讀小說(shuō)。不知道怎么下載電子書(shū)軟件的朋友快來(lái)最熱的軟件站下載吧。
基本介紹
這是一款網(wǎng)絡(luò )小說(shuō)下載爬蟲(chóng)軟件,可以幫助用戶(hù)批量下載網(wǎng)絡(luò )小說(shuō)。軟件功能豐富,包括TXT小說(shuō)下載、TXT小說(shuō)閱讀、有聲小說(shuō)下載。有聲小說(shuō)不僅支持下載,還可以在線(xiàn)聽(tīng)書(shū)。如果您使用TXT帶有小說(shuō)下載功能,可以批量下載所有小說(shuō)網(wǎng)站。如果你還不知道怎么下載電子書(shū)軟件,快來(lái)看看吧。將TXT小說(shuō)下載到本地后,可以使用電腦小說(shuō)閱讀器閱讀,也可以使用軟件自帶的閱讀功能閱讀小說(shuō)。
指示
1.在本站下載并解壓這款新穎的爬蟲(chóng)下載器應用。好用,搜索小說(shuō),解析目錄,選擇你要下載的章節(可以平移),點(diǎn)擊章節目錄查看正文內容,點(diǎn)擊章節正文選擇,空白處是查看內容,可以右擊。
2. 過(guò)濾掉不需要的內容(添加范圍,去除廣告),最好的范圍是書(shū)網(wǎng)頁(yè)源代碼的內容,點(diǎn)擊加入書(shū)架或下載,可以到下載管理查看進(jìn)度。
3. 如果下載失敗次數過(guò)多,會(huì )增加每個(gè)線(xiàn)程下載的章節數。您可以直接獲取目錄鏈接進(jìn)行申訴操作。如果是動(dòng)態(tài)網(wǎng)頁(yè),記得開(kāi)啟動(dòng)態(tài)網(wǎng)頁(yè)支持。切換規則不需要重新解析,只需要重新解析章節相關(guān)。
4.支持有聲小說(shuō)下載,搜索有聲小說(shuō),添加書(shū)架直接選擇要開(kāi)始下載的,發(fā)現失敗較多,增加每線(xiàn)程下載章節數,增加延遲。
小編推薦
以上就是這款小說(shuō)下載軟件免費版的完整介紹。最熱門(mén)的軟件網(wǎng)站有更多類(lèi)似的小說(shuō)下載軟件。有需要的朋友快來(lái)下載體驗吧。這是另外兩個(gè)有用的小說(shuō)下載。軟件:電腦版全小說(shuō)下載器、遠天灣小說(shuō)下載器。 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(利用能提取網(wǎng)頁(yè)小說(shuō)的app,批量下載網(wǎng)站所有小說(shuō))
使用可以提取網(wǎng)絡(luò )小說(shuō)的APP批量下載所有網(wǎng)站小說(shuō)?,F在推薦一個(gè)免費且簡(jiǎn)單的網(wǎng)絡(luò )小說(shuō)下載器。使用大叔小說(shuō)下載器,不僅具有小說(shuō)爬蟲(chóng)下載器app的功能,還能批量提取網(wǎng)絡(luò )小說(shuō)。,它也可以用作干凈的本地閱讀器應用程序。下載小說(shuō)后,可以直接閱讀小說(shuō)。不知道怎么下載電子書(shū)軟件的朋友快來(lái)最熱的軟件站下載吧。

基本介紹
這是一款網(wǎng)絡(luò )小說(shuō)下載爬蟲(chóng)軟件,可以幫助用戶(hù)批量下載網(wǎng)絡(luò )小說(shuō)。軟件功能豐富,包括TXT小說(shuō)下載、TXT小說(shuō)閱讀、有聲小說(shuō)下載。有聲小說(shuō)不僅支持下載,還可以在線(xiàn)聽(tīng)書(shū)。如果您使用TXT帶有小說(shuō)下載功能,可以批量下載所有小說(shuō)網(wǎng)站。如果你還不知道怎么下載電子書(shū)軟件,快來(lái)看看吧。將TXT小說(shuō)下載到本地后,可以使用電腦小說(shuō)閱讀器閱讀,也可以使用軟件自帶的閱讀功能閱讀小說(shuō)。
指示
1.在本站下載并解壓這款新穎的爬蟲(chóng)下載器應用。好用,搜索小說(shuō),解析目錄,選擇你要下載的章節(可以平移),點(diǎn)擊章節目錄查看正文內容,點(diǎn)擊章節正文選擇,空白處是查看內容,可以右擊。
2. 過(guò)濾掉不需要的內容(添加范圍,去除廣告),最好的范圍是書(shū)網(wǎng)頁(yè)源代碼的內容,點(diǎn)擊加入書(shū)架或下載,可以到下載管理查看進(jìn)度。
3. 如果下載失敗次數過(guò)多,會(huì )增加每個(gè)線(xiàn)程下載的章節數。您可以直接獲取目錄鏈接進(jìn)行申訴操作。如果是動(dòng)態(tài)網(wǎng)頁(yè),記得開(kāi)啟動(dòng)態(tài)網(wǎng)頁(yè)支持。切換規則不需要重新解析,只需要重新解析章節相關(guān)。
4.支持有聲小說(shuō)下載,搜索有聲小說(shuō),添加書(shū)架直接選擇要開(kāi)始下載的,發(fā)現失敗較多,增加每線(xiàn)程下載章節數,增加延遲。
小編推薦
以上就是這款小說(shuō)下載軟件免費版的完整介紹。最熱門(mén)的軟件網(wǎng)站有更多類(lèi)似的小說(shuō)下載軟件。有需要的朋友快來(lái)下載體驗吧。這是另外兩個(gè)有用的小說(shuō)下載。軟件:電腦版全小說(shuō)下載器、遠天灣小說(shuō)下載器。
抓取網(wǎng)頁(yè)生成電子書(shū)( 提高iPhone電池壽命的十個(gè)看看這十大妙招(組圖))
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 110 次瀏覽 ? 2021-11-09 17:23
提高iPhone電池壽命的十個(gè)看看這十大妙招(組圖))
如何獲取和下載谷歌電子書(shū)(包括整本書(shū)、最新版)
Google Book 和 Goole Play 是目前世界上最大的電子書(shū) 網(wǎng)站。這個(gè)方法教你如何下載谷歌電子書(shū)試讀,并嘗試下載整本書(shū)。一般來(lái)說(shuō),如果你試讀過(guò)谷歌電子書(shū),就可以獲得完整的PDF。
工具/材料
登錄 Google 電子書(shū)網(wǎng)站
谷歌圖書(shū)下載軟件
方法/步驟
打開(kāi)搜索書(shū),只有在有預覽的情況下才下載。如下圖,會(huì )有“部分預覽”標記供試讀。
打開(kāi)圖書(shū)預覽頁(yè)面,復制圖書(shū)地址,例如:+of+amphibians&hl=zh-CN&sa=X&ved=0ahUKEwjemIzzu9nKAhVC8Q4KHZo4DqcQ6AEIKTAB#v=onepage&q=biology%20of%20amphibians&f=false
將獲取到的地址復制到谷歌圖書(shū)下載器,設置下載的分辨率和存儲位置,點(diǎn)擊開(kāi)始開(kāi)始下載。
預防措施
首先,您必須能夠登錄 Google 電子書(shū)。
只能下載試讀的電子書(shū),下載格式可以是PDF或圖片格式。
想要得到完整的PDF,需要突破一定的技術(shù)封鎖,采集需要5-10天,可以私信交流。我可以代表我提供有償服務(wù)。
相關(guān)文章
獲取hasco官方標準件插件
Hasco標準件下載工具/資料上網(wǎng)電腦方法/步驟 打開(kāi)一個(gè)常用瀏覽器,在百度中進(jìn)入hasco官網(wǎng)找到HASCO-Hasco在打開(kāi)的網(wǎng)頁(yè)中找到中文開(kāi)關(guān)圖標找到下載和服務(wù)打開(kāi)后,有有視頻資料和HASCO最新版電子目錄可以下載。點(diǎn)擊這里下載最新版本的 HASCO 電子目錄。有兩種文件可供下載 H...
提高 iPhone 電池壽命的十個(gè)技巧
如果你用的是iPhone,一定覺(jué)得它的電池不夠用,那么當你無(wú)法更換電池時(shí),如何設置手機讓電池更耐用呢?想要獲得最佳 iPhone 體驗并最大限度地延長(cháng) iPhone 電池的使用壽命,請查看這十大技巧!工具/原材料圖片來(lái)自網(wǎng)絡(luò )。如果您有任何問(wèn)題或建議,您可以在下方體驗評論,小編會(huì )盡快回復您。方...
如何免費下載電子書(shū):[2] 使用俄羅斯網(wǎng)盤(pán)
網(wǎng)盤(pán)庫中已經(jīng)上傳了數以千計的免費電子書(shū),我們可以利用這個(gè)巨大的網(wǎng)盤(pán)來(lái)獲取我們想要的電子書(shū)。當然,如果有一天這個(gè)網(wǎng)盤(pán)出現故障,這種方法也會(huì )失敗。工具/材料電腦上網(wǎng)方法/步驟先用百度搜索圖書(shū)館網(wǎng)頁(yè)打開(kāi)圖書(shū)館網(wǎng)站,搜索你想要的電子書(shū),這里我用的是2013 Spring...
應用寶物5.0五虎將解讀智能體驗
大家對應用寶5.0的各種信息都有一定的了解,而本次更新的5.0新版本將讓用戶(hù)在社交方面發(fā)現很多新的突破。五虎,突出新版AppBao的5大功能,讓用戶(hù)擁有智能體驗,包括簽到的應用、身邊人正在玩的應用、新的應用部落、視頻和電子書(shū)、流行朋友圈中的app等,讓我們更方便、更快捷...
ediary電子日記下載最新ediary電子日記下載
ediary 是一個(gè)免費的電子日記。ediary是一款免費的電子日記,那么如何下載最新的ediary電子日記呢?如何下載最新的ediary電子日記?哪里可以下載最新的ediary電子日記?這里為大家分享,ediary電子日記下載最新ediary電子日記下載。工具/原材料 eDiary.eD...
如何在 iPad 上閱讀電子書(shū)
iPad的設計初衷是為了讓用戶(hù)更方便地觀(guān)看電子書(shū),但由于圖書(shū)版權問(wèn)題,iPad軟件中電子書(shū)相關(guān)的軟件并不多,給用戶(hù)帶來(lái)了諸多不便。以下編輯器基于電子書(shū)。格式整理了電子書(shū)軟件,總結了以下幾種閱讀電子書(shū)的方法: 一. 通過(guò)自帶的iBooks軟件查看epub和PDF格式的電子書(shū)的epub和PDF格式iPad。iPad是最...
豌豆莢手機精靈2.20.0.1478官方穩定版
軟件介紹: 豌豆莢是豌豆實(shí)驗室為安卓手機用戶(hù)開(kāi)發(fā)的一款產(chǎn)品。它可以幫助您簡(jiǎn)單快速地管理您的手機,還為您提供了豐富的免費資源獲取平臺。方法/步驟管理和備份通訊錄:通訊錄管理幫助您輕松快速地查看和編輯聯(lián)系人的詳細信息,包括聯(lián)系人信息、分組等,還可以查看最近與某個(gè)聯(lián)系人的聯(lián)系記錄. 支持行動(dòng)...
九口袋揭秘微信公眾號增加粉絲的三種方式
運營(yíng)微信公眾號最麻煩的就是增加粉絲。微信公眾號無(wú)論是為了什么目的而設立的,都必須以粉絲為基礎??。不管你多久更新一次內容,不管它有多難,如果你沒(méi)有粉絲閱讀也是如此。徒然。那么,我們怎樣才能讓微信持續增長(cháng)粉絲呢?九口袋小編為大家總結了以下三種行之有效的方法。方法/步驟一.資源誘惑方法1.分享一些比較吸引人的資源,資源必須有...
通過(guò)電子書(shū)訂閱 Google 閱讀器新聞
Google Reader 是一個(gè)可定制的新聞集合,您可以在其中訂閱任何您想觀(guān)看的 網(wǎng)站。博客更新。為了迎合移動(dòng)閱讀的需求,谷歌閱讀器還推出了移動(dòng)版,基于iOS和Android系統。如果您是盛大Bambook電子書(shū)用戶(hù),還可以通過(guò)云梯客戶(hù)端下載到谷歌閱讀器同步工具... 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(
提高iPhone電池壽命的十個(gè)看看這十大妙招(組圖))
如何獲取和下載谷歌電子書(shū)(包括整本書(shū)、最新版)
Google Book 和 Goole Play 是目前世界上最大的電子書(shū) 網(wǎng)站。這個(gè)方法教你如何下載谷歌電子書(shū)試讀,并嘗試下載整本書(shū)。一般來(lái)說(shuō),如果你試讀過(guò)谷歌電子書(shū),就可以獲得完整的PDF。
工具/材料
登錄 Google 電子書(shū)網(wǎng)站
谷歌圖書(shū)下載軟件
方法/步驟
打開(kāi)搜索書(shū),只有在有預覽的情況下才下載。如下圖,會(huì )有“部分預覽”標記供試讀。

打開(kāi)圖書(shū)預覽頁(yè)面,復制圖書(shū)地址,例如:+of+amphibians&hl=zh-CN&sa=X&ved=0ahUKEwjemIzzu9nKAhVC8Q4KHZo4DqcQ6AEIKTAB#v=onepage&q=biology%20of%20amphibians&f=false
將獲取到的地址復制到谷歌圖書(shū)下載器,設置下載的分辨率和存儲位置,點(diǎn)擊開(kāi)始開(kāi)始下載。

預防措施
首先,您必須能夠登錄 Google 電子書(shū)。
只能下載試讀的電子書(shū),下載格式可以是PDF或圖片格式。
想要得到完整的PDF,需要突破一定的技術(shù)封鎖,采集需要5-10天,可以私信交流。我可以代表我提供有償服務(wù)。
相關(guān)文章
獲取hasco官方標準件插件
Hasco標準件下載工具/資料上網(wǎng)電腦方法/步驟 打開(kāi)一個(gè)常用瀏覽器,在百度中進(jìn)入hasco官網(wǎng)找到HASCO-Hasco在打開(kāi)的網(wǎng)頁(yè)中找到中文開(kāi)關(guān)圖標找到下載和服務(wù)打開(kāi)后,有有視頻資料和HASCO最新版電子目錄可以下載。點(diǎn)擊這里下載最新版本的 HASCO 電子目錄。有兩種文件可供下載 H...
提高 iPhone 電池壽命的十個(gè)技巧
如果你用的是iPhone,一定覺(jué)得它的電池不夠用,那么當你無(wú)法更換電池時(shí),如何設置手機讓電池更耐用呢?想要獲得最佳 iPhone 體驗并最大限度地延長(cháng) iPhone 電池的使用壽命,請查看這十大技巧!工具/原材料圖片來(lái)自網(wǎng)絡(luò )。如果您有任何問(wèn)題或建議,您可以在下方體驗評論,小編會(huì )盡快回復您。方...
如何免費下載電子書(shū):[2] 使用俄羅斯網(wǎng)盤(pán)
網(wǎng)盤(pán)庫中已經(jīng)上傳了數以千計的免費電子書(shū),我們可以利用這個(gè)巨大的網(wǎng)盤(pán)來(lái)獲取我們想要的電子書(shū)。當然,如果有一天這個(gè)網(wǎng)盤(pán)出現故障,這種方法也會(huì )失敗。工具/材料電腦上網(wǎng)方法/步驟先用百度搜索圖書(shū)館網(wǎng)頁(yè)打開(kāi)圖書(shū)館網(wǎng)站,搜索你想要的電子書(shū),這里我用的是2013 Spring...
應用寶物5.0五虎將解讀智能體驗
大家對應用寶5.0的各種信息都有一定的了解,而本次更新的5.0新版本將讓用戶(hù)在社交方面發(fā)現很多新的突破。五虎,突出新版AppBao的5大功能,讓用戶(hù)擁有智能體驗,包括簽到的應用、身邊人正在玩的應用、新的應用部落、視頻和電子書(shū)、流行朋友圈中的app等,讓我們更方便、更快捷...
ediary電子日記下載最新ediary電子日記下載
ediary 是一個(gè)免費的電子日記。ediary是一款免費的電子日記,那么如何下載最新的ediary電子日記呢?如何下載最新的ediary電子日記?哪里可以下載最新的ediary電子日記?這里為大家分享,ediary電子日記下載最新ediary電子日記下載。工具/原材料 eDiary.eD...
如何在 iPad 上閱讀電子書(shū)
iPad的設計初衷是為了讓用戶(hù)更方便地觀(guān)看電子書(shū),但由于圖書(shū)版權問(wèn)題,iPad軟件中電子書(shū)相關(guān)的軟件并不多,給用戶(hù)帶來(lái)了諸多不便。以下編輯器基于電子書(shū)。格式整理了電子書(shū)軟件,總結了以下幾種閱讀電子書(shū)的方法: 一. 通過(guò)自帶的iBooks軟件查看epub和PDF格式的電子書(shū)的epub和PDF格式iPad。iPad是最...
豌豆莢手機精靈2.20.0.1478官方穩定版
軟件介紹: 豌豆莢是豌豆實(shí)驗室為安卓手機用戶(hù)開(kāi)發(fā)的一款產(chǎn)品。它可以幫助您簡(jiǎn)單快速地管理您的手機,還為您提供了豐富的免費資源獲取平臺。方法/步驟管理和備份通訊錄:通訊錄管理幫助您輕松快速地查看和編輯聯(lián)系人的詳細信息,包括聯(lián)系人信息、分組等,還可以查看最近與某個(gè)聯(lián)系人的聯(lián)系記錄. 支持行動(dòng)...
九口袋揭秘微信公眾號增加粉絲的三種方式
運營(yíng)微信公眾號最麻煩的就是增加粉絲。微信公眾號無(wú)論是為了什么目的而設立的,都必須以粉絲為基礎??。不管你多久更新一次內容,不管它有多難,如果你沒(méi)有粉絲閱讀也是如此。徒然。那么,我們怎樣才能讓微信持續增長(cháng)粉絲呢?九口袋小編為大家總結了以下三種行之有效的方法。方法/步驟一.資源誘惑方法1.分享一些比較吸引人的資源,資源必須有...
通過(guò)電子書(shū)訂閱 Google 閱讀器新聞
Google Reader 是一個(gè)可定制的新聞集合,您可以在其中訂閱任何您想觀(guān)看的 網(wǎng)站。博客更新。為了迎合移動(dòng)閱讀的需求,谷歌閱讀器還推出了移動(dòng)版,基于iOS和Android系統。如果您是盛大Bambook電子書(shū)用戶(hù),還可以通過(guò)云梯客戶(hù)端下載到谷歌閱讀器同步工具...
抓取網(wǎng)頁(yè)生成電子書(shū)(全篇的實(shí)現思路分析網(wǎng)頁(yè)學(xué)會(huì )使用BeautifulSoup庫爬取并導出參考資料)
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 95 次瀏覽 ? 2021-11-07 14:07
本文文章主要詳細介紹了python爬取網(wǎng)頁(yè)到PDF文件的轉換。有一定的參考價(jià)值,感興趣的朋友可以參考。
爬行動(dòng)物的成因
官方文檔或手冊雖然可以查閱,但如果變成紙質(zhì)版是不是更容易閱讀和記憶。如果只是簡(jiǎn)單的復制粘貼,不知道什么時(shí)候才能完成。所以我開(kāi)始考慮爬下官方的Android手冊。
整篇文章的實(shí)現
分析網(wǎng)頁(yè),學(xué)習使用BeautifulSoup庫抓取導出
參考資料:
* 將廖雪峰的教程轉成PDF電子書(shū)
* 請求文件
*美麗的湯文件
配置
Ubuntu下使用Pycharm運行成功
要轉換為 PDF,您需要下載 wkhtmltopdf
具體流程
網(wǎng)絡(luò )分析
對于如下所示的網(wǎng)頁(yè),您只需獲取網(wǎng)頁(yè)的正文和標題,以及左側導航欄中的所有網(wǎng)址
下一個(gè)工作是找到這些標簽......
關(guān)于Requests的使用
詳見(jiàn)文檔,這里只是簡(jiǎn)單使用Requests獲取html并使用代理翻墻(網(wǎng)站不能直接訪(fǎng)問(wèn),需要VPN)
proxies={ "http":"http://vpn的IP:port", "https":"https://vpn的IP:port", } response=requests.get(url,proxies=proxies)
美湯的使用
參考資料中有一個(gè) Beautiful Soup 文檔??赐昃椭乐v了兩件事:一是找標簽,二是修改標簽。
這篇文章需要做的是:
1. 獲取title和所有url,這涉及到找標簽
#對標簽進(jìn)行判斷,一個(gè)標簽含有href而不含有description,則返回true #而我希望獲取的是含有href屬性而不含有description屬性的<a>標簽,(且只有a標簽含有href) def has_href_but_no_des(tag): return tag.has_attr('href') and not tag.has_attr('description') #網(wǎng)頁(yè)分析,獲取網(wǎng)址和標題 def parse_url_to_html(url): response=requests.get(url,proxies=proxies) soup=BeautifulSoup(response.content,"html.parser") s=[]#獲取所有的網(wǎng)址 title=[]#獲取對應的標題 tag=soup.find(id="nav")#獲取第一個(gè)id為"nav"的標簽,這個(gè)里面包含了網(wǎng)址和標題 for i in tag.find_all(has_href_but_no_des): s.append(i['href']) title.append(i.text) #獲取的只是標簽集,需要加html前綴 htmls = "" with open("android_training_3.html",'a') as f: f.write(htmls)
解析上面得到的URL,得到文本,將圖片保存到本地;它涉及查找標簽和修改屬性
#網(wǎng)頁(yè)操作,獲取正文及圖片 def get_htmls(urls,title): for i in range(len(urls)): response=requests.get(urls[i],proxies=proxies) soup=BeautifulSoup(response.content,"html.parser") htmls=""+str(i)+"."+title[i]+"" tag=soup.find(class_='jd-descr') #為image添加相對路徑,并下載圖片 for img in tag.find_all('img'): im = requests.get(img['src'], proxies=proxies) filename = os.path.split(img['src'])[1] with open('image/' + filename, 'wb') as f: f.write(im.content) img['src']='image/'+filename htmls=htmls+str(tag) with open("android_training_3.html",'a') as f: f.write(htmls) print(" (%s) [%s] download end"%(i,title[i])) htmls="" with open("android_training_3.html",'a') as f: f.write(htmls)
2. 轉換為 PDF
這一步需要下載wkhtmltopdf,在windows下執行程序一直報錯..ubuntu下是可以的
def save_pdf(html): """ 把所有html文件轉換成pdf文件 """ options = { 'page-size': 'Letter', 'encoding': "UTF-8", 'custom-header': [ ('Accept-Encoding', 'gzip') ] } pdfkit.from_file(html, "android_training_3.pdf", options=options)
最終效果圖
以上是python爬取網(wǎng)頁(yè)轉換為PDF文件的詳細內容,請關(guān)注其他相關(guān)html中文網(wǎng)站文章! 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(全篇的實(shí)現思路分析網(wǎng)頁(yè)學(xué)會(huì )使用BeautifulSoup庫爬取并導出參考資料)
本文文章主要詳細介紹了python爬取網(wǎng)頁(yè)到PDF文件的轉換。有一定的參考價(jià)值,感興趣的朋友可以參考。
爬行動(dòng)物的成因
官方文檔或手冊雖然可以查閱,但如果變成紙質(zhì)版是不是更容易閱讀和記憶。如果只是簡(jiǎn)單的復制粘貼,不知道什么時(shí)候才能完成。所以我開(kāi)始考慮爬下官方的Android手冊。
整篇文章的實(shí)現
分析網(wǎng)頁(yè),學(xué)習使用BeautifulSoup庫抓取導出
參考資料:
* 將廖雪峰的教程轉成PDF電子書(shū)
* 請求文件
*美麗的湯文件
配置
Ubuntu下使用Pycharm運行成功
要轉換為 PDF,您需要下載 wkhtmltopdf
具體流程
網(wǎng)絡(luò )分析
對于如下所示的網(wǎng)頁(yè),您只需獲取網(wǎng)頁(yè)的正文和標題,以及左側導航欄中的所有網(wǎng)址

下一個(gè)工作是找到這些標簽......
關(guān)于Requests的使用
詳見(jiàn)文檔,這里只是簡(jiǎn)單使用Requests獲取html并使用代理翻墻(網(wǎng)站不能直接訪(fǎng)問(wèn),需要VPN)
proxies={ "http":"http://vpn的IP:port", "https":"https://vpn的IP:port", } response=requests.get(url,proxies=proxies)
美湯的使用
參考資料中有一個(gè) Beautiful Soup 文檔??赐昃椭乐v了兩件事:一是找標簽,二是修改標簽。
這篇文章需要做的是:
1. 獲取title和所有url,這涉及到找標簽
#對標簽進(jìn)行判斷,一個(gè)標簽含有href而不含有description,則返回true #而我希望獲取的是含有href屬性而不含有description屬性的<a>標簽,(且只有a標簽含有href) def has_href_but_no_des(tag): return tag.has_attr('href') and not tag.has_attr('description') #網(wǎng)頁(yè)分析,獲取網(wǎng)址和標題 def parse_url_to_html(url): response=requests.get(url,proxies=proxies) soup=BeautifulSoup(response.content,"html.parser") s=[]#獲取所有的網(wǎng)址 title=[]#獲取對應的標題 tag=soup.find(id="nav")#獲取第一個(gè)id為"nav"的標簽,這個(gè)里面包含了網(wǎng)址和標題 for i in tag.find_all(has_href_but_no_des): s.append(i['href']) title.append(i.text) #獲取的只是標簽集,需要加html前綴 htmls = "" with open("android_training_3.html",'a') as f: f.write(htmls)
解析上面得到的URL,得到文本,將圖片保存到本地;它涉及查找標簽和修改屬性
#網(wǎng)頁(yè)操作,獲取正文及圖片 def get_htmls(urls,title): for i in range(len(urls)): response=requests.get(urls[i],proxies=proxies) soup=BeautifulSoup(response.content,"html.parser") htmls=""+str(i)+"."+title[i]+"" tag=soup.find(class_='jd-descr') #為image添加相對路徑,并下載圖片 for img in tag.find_all('img'): im = requests.get(img['src'], proxies=proxies) filename = os.path.split(img['src'])[1] with open('image/' + filename, 'wb') as f: f.write(im.content) img['src']='image/'+filename htmls=htmls+str(tag) with open("android_training_3.html",'a') as f: f.write(htmls) print(" (%s) [%s] download end"%(i,title[i])) htmls="" with open("android_training_3.html",'a') as f: f.write(htmls)
2. 轉換為 PDF
這一步需要下載wkhtmltopdf,在windows下執行程序一直報錯..ubuntu下是可以的
def save_pdf(html): """ 把所有html文件轉換成pdf文件 """ options = { 'page-size': 'Letter', 'encoding': "UTF-8", 'custom-header': [ ('Accept-Encoding', 'gzip') ] } pdfkit.from_file(html, "android_training_3.pdf", options=options)
最終效果圖

以上是python爬取網(wǎng)頁(yè)轉換為PDF文件的詳細內容,請關(guān)注其他相關(guān)html中文網(wǎng)站文章!
抓取網(wǎng)頁(yè)生成電子書(shū)(Python爬蟲(chóng)實(shí)踐:將網(wǎng)頁(yè)轉換為pdf電子書(shū)寫(xiě)爬蟲(chóng))
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 133 次瀏覽 ? 2021-11-07 14:05
2018-03-26 ? 用 Python 閱讀
Python實(shí)踐一、將網(wǎng)頁(yè)轉成pdf電子書(shū)
我是個(gè)“采集狂”(別以為是歪的,我就是喜歡采集技術(shù)帖),遇到好東西就喜歡采集或者記錄好東西,尤其是好的技術(shù)文章或者工具。這里要提一下廖雪峰老師的官方網(wǎng)站。廖老師寫(xiě)的Python、JavaScript、Git教程真的很好,經(jīng)常去逛街。所以今天有必要把廖老師的教程從網(wǎng)頁(yè)轉成PDF電子書(shū),讓你隨時(shí)隨地離線(xiàn)學(xué)習和采集。說(shuō)到這里,進(jìn)入今天的話(huà)題Python爬蟲(chóng)練習:將網(wǎng)頁(yè)轉成pdf電子書(shū)
寫(xiě)爬蟲(chóng)好像不比用Python好。Python社區提供的爬蟲(chóng)工具讓你眼花繚亂。各種可以直接使用的庫,分分鐘寫(xiě)一個(gè)爬蟲(chóng)。今天想寫(xiě)一個(gè)爬蟲(chóng)。, 爬下廖雪峰的Python教程,制作PDF電子書(shū)供離線(xiàn)閱讀。
在開(kāi)始寫(xiě)爬蟲(chóng)之前,我們先來(lái)分析一下網(wǎng)站的頁(yè)面結構。頁(yè)面左側是教程目錄大綱。每個(gè)URL對應右邊文章的一篇文章,右上角是文章的標題,中間是文章的正文部分。正文內容是我們關(guān)注的焦點(diǎn)。我們要抓取的數據是所有網(wǎng)頁(yè)的正文部分。下面是用戶(hù)的評論區。評論區對我們來(lái)說(shuō)什么都不是。使用它,所以它可以被忽略。
工具準備
搞清楚網(wǎng)站的基本結構后,就可以開(kāi)始準備爬蟲(chóng)依賴(lài)的工具包了。requests和beautifulsoup是爬蟲(chóng)的兩大神器,reuqests用于網(wǎng)絡(luò )請求,beautifulsoup用于操作html數據。有了這兩個(gè)班車(chē),我們就可以順利工作了。我們不需要像scrapy這樣的爬蟲(chóng)框架。小程序有點(diǎn)像大錘。另外,既然是把html文件轉換成pdf,就得有相應的庫支持。wkhtmltopdf 是一個(gè)非常好的工具。它可用于從 html 到 pdf 的多平臺轉換。pdfkit 是 wkhtmltopdf 的 Python 包。先安裝以下依賴(lài)包,然后安裝wkhtmltopdf
1234
pip install requestspip install beautifulsoup4pip install pdfkitpip install PyPDF2
安裝 wkhtmltopdf
Ubuntu 和 CentOS 可以直接從命令行安裝。
12
$ sudo apt-get install wkhtmltopdf # ubuntu$ sudo yum intsall wkhtmltopdf # centos
Windows平臺直接在wkhtmltopdf官網(wǎng)2下載穩定版進(jìn)行安裝。安裝完成后,將程序的執行路徑添加到系統環(huán)境$PATH變量中,否則pdfkit會(huì )找不到wkhtmltopdf而報錯。No wkhtmltopdf executable found 幾句,因為這里的處理不好,程序執行pdfkit.from_file(htmls, file_name, options=options)時(shí)會(huì )報錯。
現在開(kāi)始手動(dòng)安裝wkhtmltopdf(博主電腦操作系統為macOS 10.12.2)
1、去官網(wǎng)。下載并運行 wkhtmltox-0.12.4_osx-cocoa-x86-64.pkg
2、將wkhtmltoimage和wkhtmltopdf復制到/usr/bin目錄下,更改所有者,并添加可執行屬性
123456
sudo cp /usr/local/bin/wkhtmltopdf /usr/bin/sudo cp /usr/local/bin/wkhtmltoimage /usr/bin/sudo chown root:root /usr/bin/wkhtmltopdfsudo chown root:root /usr/bin/wkhtmltoimagesudo chmod +x /usr/bin/wkhtmltopdfsudo chmod +x /usr/bin/wkhtmltoimage
不出意外,執行第一句時(shí),會(huì )遇到chmod: Unable to change file modle on /usr/bin。這是因為 Apple 使用了 OS X El Capitan 10.11 的 Rootless 機制。這種機制可以理解為更高級別的系統內核保護措施,系統默認會(huì )鎖定/system、/sbin、/usr三個(gè)目錄。
關(guān)閉無(wú)根
關(guān)閉和打開(kāi) Rootless 非常簡(jiǎn)單。方法如下:重啟Mac,聽(tīng)到啟動(dòng)聲后按Command+R,進(jìn)入recovery模式,在上面的菜單實(shí)用工具中找到并打開(kāi)Terminal(如果菜單沒(méi)有出現在頂部,請繼續重啟^_^)。輸入以下命令:
12
$ csrutil disable #關(guān)閉 Rootless$ csrutil enable #開(kāi)啟 Rootless
OK,到此我們的工具和環(huán)境都配置好了,下面開(kāi)始實(shí)現功能。
爬蟲(chóng)實(shí)現
一切準備就緒后,就可以開(kāi)始編寫(xiě)代碼了,但是在編寫(xiě)代碼之前,應該先整理一下思路。該程序的目的是將所有URL對應的html body部分保存在本地,然后使用pdfkit將這些文件轉換為pdf文件。讓我們拆分任務(wù)。首先將某個(gè)URL對應的html body保存到本地,然后找到所有的URL進(jìn)行同樣的操作。使用Chrome瀏覽器找到頁(yè)面body部分的標簽,按F12找到body對應的div標簽:
,div是網(wǎng)頁(yè)的body內容。使用requests在本地加載整個(gè)頁(yè)面后,可以使用beautifulsoup操作HTML的dom元素來(lái)提取body內容。
具體實(shí)現代碼如下: 使用soup.find_all函數查找body標簽,然后將body部分的內容保存到a.html文件中。
12345678910111213141516171819202122232425262728293031323334353637
<p>def parse_url_to_html(url, name): """ 解析URL,返回HTML內容 :param url:解析的url :param name: 保存的html文件名 :return: html """ try: response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') # 正文 body = soup.find_all(class_="x-wiki-content")[0] # 標題 title = soup.find('h4').get_text() # 標題加入到正文的最前面,居中顯示 center_tag = soup.new_tag("center") title_tag = soup.new_tag('h1') title_tag.string = title center_tag.insert(1, title_tag) body.insert(1, center_tag) html = str(body) # body中的img標簽的src相對路徑的改成絕對路徑 pattern = "( 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(Python爬蟲(chóng)實(shí)踐:將網(wǎng)頁(yè)轉換為pdf電子書(shū)寫(xiě)爬蟲(chóng))
2018-03-26 ? 用 Python 閱讀
Python實(shí)踐一、將網(wǎng)頁(yè)轉成pdf電子書(shū)
我是個(gè)“采集狂”(別以為是歪的,我就是喜歡采集技術(shù)帖),遇到好東西就喜歡采集或者記錄好東西,尤其是好的技術(shù)文章或者工具。這里要提一下廖雪峰老師的官方網(wǎng)站。廖老師寫(xiě)的Python、JavaScript、Git教程真的很好,經(jīng)常去逛街。所以今天有必要把廖老師的教程從網(wǎng)頁(yè)轉成PDF電子書(shū),讓你隨時(shí)隨地離線(xiàn)學(xué)習和采集。說(shuō)到這里,進(jìn)入今天的話(huà)題Python爬蟲(chóng)練習:將網(wǎng)頁(yè)轉成pdf電子書(shū)
寫(xiě)爬蟲(chóng)好像不比用Python好。Python社區提供的爬蟲(chóng)工具讓你眼花繚亂。各種可以直接使用的庫,分分鐘寫(xiě)一個(gè)爬蟲(chóng)。今天想寫(xiě)一個(gè)爬蟲(chóng)。, 爬下廖雪峰的Python教程,制作PDF電子書(shū)供離線(xiàn)閱讀。
在開(kāi)始寫(xiě)爬蟲(chóng)之前,我們先來(lái)分析一下網(wǎng)站的頁(yè)面結構。頁(yè)面左側是教程目錄大綱。每個(gè)URL對應右邊文章的一篇文章,右上角是文章的標題,中間是文章的正文部分。正文內容是我們關(guān)注的焦點(diǎn)。我們要抓取的數據是所有網(wǎng)頁(yè)的正文部分。下面是用戶(hù)的評論區。評論區對我們來(lái)說(shuō)什么都不是。使用它,所以它可以被忽略。

工具準備
搞清楚網(wǎng)站的基本結構后,就可以開(kāi)始準備爬蟲(chóng)依賴(lài)的工具包了。requests和beautifulsoup是爬蟲(chóng)的兩大神器,reuqests用于網(wǎng)絡(luò )請求,beautifulsoup用于操作html數據。有了這兩個(gè)班車(chē),我們就可以順利工作了。我們不需要像scrapy這樣的爬蟲(chóng)框架。小程序有點(diǎn)像大錘。另外,既然是把html文件轉換成pdf,就得有相應的庫支持。wkhtmltopdf 是一個(gè)非常好的工具。它可用于從 html 到 pdf 的多平臺轉換。pdfkit 是 wkhtmltopdf 的 Python 包。先安裝以下依賴(lài)包,然后安裝wkhtmltopdf
1234
pip install requestspip install beautifulsoup4pip install pdfkitpip install PyPDF2
安裝 wkhtmltopdf
Ubuntu 和 CentOS 可以直接從命令行安裝。
12
$ sudo apt-get install wkhtmltopdf # ubuntu$ sudo yum intsall wkhtmltopdf # centos
Windows平臺直接在wkhtmltopdf官網(wǎng)2下載穩定版進(jìn)行安裝。安裝完成后,將程序的執行路徑添加到系統環(huán)境$PATH變量中,否則pdfkit會(huì )找不到wkhtmltopdf而報錯。No wkhtmltopdf executable found 幾句,因為這里的處理不好,程序執行pdfkit.from_file(htmls, file_name, options=options)時(shí)會(huì )報錯。
現在開(kāi)始手動(dòng)安裝wkhtmltopdf(博主電腦操作系統為macOS 10.12.2)
1、去官網(wǎng)。下載并運行 wkhtmltox-0.12.4_osx-cocoa-x86-64.pkg
2、將wkhtmltoimage和wkhtmltopdf復制到/usr/bin目錄下,更改所有者,并添加可執行屬性
123456
sudo cp /usr/local/bin/wkhtmltopdf /usr/bin/sudo cp /usr/local/bin/wkhtmltoimage /usr/bin/sudo chown root:root /usr/bin/wkhtmltopdfsudo chown root:root /usr/bin/wkhtmltoimagesudo chmod +x /usr/bin/wkhtmltopdfsudo chmod +x /usr/bin/wkhtmltoimage
不出意外,執行第一句時(shí),會(huì )遇到chmod: Unable to change file modle on /usr/bin。這是因為 Apple 使用了 OS X El Capitan 10.11 的 Rootless 機制。這種機制可以理解為更高級別的系統內核保護措施,系統默認會(huì )鎖定/system、/sbin、/usr三個(gè)目錄。
關(guān)閉無(wú)根
關(guān)閉和打開(kāi) Rootless 非常簡(jiǎn)單。方法如下:重啟Mac,聽(tīng)到啟動(dòng)聲后按Command+R,進(jìn)入recovery模式,在上面的菜單實(shí)用工具中找到并打開(kāi)Terminal(如果菜單沒(méi)有出現在頂部,請繼續重啟^_^)。輸入以下命令:
12
$ csrutil disable #關(guān)閉 Rootless$ csrutil enable #開(kāi)啟 Rootless
OK,到此我們的工具和環(huán)境都配置好了,下面開(kāi)始實(shí)現功能。
爬蟲(chóng)實(shí)現
一切準備就緒后,就可以開(kāi)始編寫(xiě)代碼了,但是在編寫(xiě)代碼之前,應該先整理一下思路。該程序的目的是將所有URL對應的html body部分保存在本地,然后使用pdfkit將這些文件轉換為pdf文件。讓我們拆分任務(wù)。首先將某個(gè)URL對應的html body保存到本地,然后找到所有的URL進(jìn)行同樣的操作。使用Chrome瀏覽器找到頁(yè)面body部分的標簽,按F12找到body對應的div標簽:
,div是網(wǎng)頁(yè)的body內容。使用requests在本地加載整個(gè)頁(yè)面后,可以使用beautifulsoup操作HTML的dom元素來(lái)提取body內容。

具體實(shí)現代碼如下: 使用soup.find_all函數查找body標簽,然后將body部分的內容保存到a.html文件中。
12345678910111213141516171819202122232425262728293031323334353637
<p>def parse_url_to_html(url, name): """ 解析URL,返回HTML內容 :param url:解析的url :param name: 保存的html文件名 :return: html """ try: response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') # 正文 body = soup.find_all(class_="x-wiki-content")[0] # 標題 title = soup.find('h4').get_text() # 標題加入到正文的最前面,居中顯示 center_tag = soup.new_tag("center") title_tag = soup.new_tag('h1') title_tag.string = title center_tag.insert(1, title_tag) body.insert(1, center_tag) html = str(body) # body中的img標簽的src相對路徑的改成絕對路徑 pattern = "(
抓取網(wǎng)頁(yè)生成電子書(shū)(一個(gè)可以幫助你快速將PDF文檔中的圖片、文字以及字體批量提取出來(lái)保存)
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 179 次瀏覽 ? 2021-11-06 15:09
由于經(jīng)常需要處理PDF文檔,我一直在尋找一種快速、免費的方法,可以批量提取和保存PDF文檔中的圖片和文字。為了實(shí)現這個(gè)功能,我經(jīng)常需要購買(mǎi)相關(guān)的軟件來(lái)完成,但現在我找到了一個(gè)更好的方法。
它是一個(gè)網(wǎng)站,可以幫助您快速批量提取PDF文檔中的圖片、文本和嵌入字體并保存。您無(wú)需安裝任何軟件。您只需將 PDF 文件上傳到任何計算機上的瀏覽器即可。網(wǎng)站可以導出它的所有文字和圖片,使用起來(lái)非常方便。而且在測試中文PDF電子書(shū)提取時(shí)不會(huì )出現亂碼問(wèn)題。是一款值得大家采集的利器。網(wǎng)站……
在線(xiàn)導出并保存PDF文件中的圖片、文字和字體網(wǎng)站:
的功能非常具體且完全免費。對于有這種需求的朋友來(lái)說(shuō),真是難得的好東西網(wǎng)站。它的用法非常簡(jiǎn)單。該頁(yè)面提供了一個(gè)上傳按鈕,只需點(diǎn)擊它即可上傳文件。唯一的缺點(diǎn)是它只支持上傳 10MB 以下的 PDF 文件。如果你經(jīng)常需要處理大文件,那么這個(gè)工具就不是那么完美了。但是,它也可以通過(guò)網(wǎng)站遠程下載。不知道這個(gè)功能會(huì )不會(huì )有大小限制,大家可以試試。
之前試過(guò)上傳不同維度推薦給大家的《攝影筆記》PDF進(jìn)行測試,圖片和文字都可以正常提交。點(diǎn)擊藍色下載按鈕進(jìn)行打包下載。
導出文本的功能有時(shí)候很有用,你懂的。對中文文檔的支持非常友好。試了一堆電子書(shū),可以成功提取文字,沒(méi)有亂碼。
相關(guān)網(wǎng)址:
訪(fǎng)問(wèn)|更多Office相關(guān)|來(lái)自不同維度|更多PDF相關(guān)|更多網(wǎng)站推薦 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(一個(gè)可以幫助你快速將PDF文檔中的圖片、文字以及字體批量提取出來(lái)保存)
由于經(jīng)常需要處理PDF文檔,我一直在尋找一種快速、免費的方法,可以批量提取和保存PDF文檔中的圖片和文字。為了實(shí)現這個(gè)功能,我經(jīng)常需要購買(mǎi)相關(guān)的軟件來(lái)完成,但現在我找到了一個(gè)更好的方法。
它是一個(gè)網(wǎng)站,可以幫助您快速批量提取PDF文檔中的圖片、文本和嵌入字體并保存。您無(wú)需安裝任何軟件。您只需將 PDF 文件上傳到任何計算機上的瀏覽器即可。網(wǎng)站可以導出它的所有文字和圖片,使用起來(lái)非常方便。而且在測試中文PDF電子書(shū)提取時(shí)不會(huì )出現亂碼問(wèn)題。是一款值得大家采集的利器。網(wǎng)站……
在線(xiàn)導出并保存PDF文件中的圖片、文字和字體網(wǎng)站:
的功能非常具體且完全免費。對于有這種需求的朋友來(lái)說(shuō),真是難得的好東西網(wǎng)站。它的用法非常簡(jiǎn)單。該頁(yè)面提供了一個(gè)上傳按鈕,只需點(diǎn)擊它即可上傳文件。唯一的缺點(diǎn)是它只支持上傳 10MB 以下的 PDF 文件。如果你經(jīng)常需要處理大文件,那么這個(gè)工具就不是那么完美了。但是,它也可以通過(guò)網(wǎng)站遠程下載。不知道這個(gè)功能會(huì )不會(huì )有大小限制,大家可以試試。

之前試過(guò)上傳不同維度推薦給大家的《攝影筆記》PDF進(jìn)行測試,圖片和文字都可以正常提交。點(diǎn)擊藍色下載按鈕進(jìn)行打包下載。

導出文本的功能有時(shí)候很有用,你懂的。對中文文檔的支持非常友好。試了一堆電子書(shū),可以成功提取文字,沒(méi)有亂碼。
相關(guān)網(wǎng)址:
訪(fǎng)問(wèn)|更多Office相關(guān)|來(lái)自不同維度|更多PDF相關(guān)|更多網(wǎng)站推薦
抓取網(wǎng)頁(yè)生成電子書(shū)( 2019年03月25日14:21:37(圖))
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 125 次瀏覽 ? 2021-11-06 05:02
2019年03月25日14:21:37(圖))
我用Python爬取7000多個(gè)電子書(shū)案例詳情
更新時(shí)間:2019年3月25日14:21:37 作者:嗨學(xué)編程
本文文章主要介紹我用Python爬取的7000多本電子書(shū)的案例。文章中介紹的示例代碼非常詳細。對大家的學(xué)習或工作有一定的參考學(xué)習價(jià)值。有需要的朋友在下面和小編一起學(xué)習吧
安裝
安裝很簡(jiǎn)單,直接執行:
pip install requests-html
就是這樣。
分析頁(yè)面結構
通過(guò)瀏覽器的評論元素,可以發(fā)現這本電子書(shū)網(wǎng)站是用WordPress搭建的,首頁(yè)列表元素很簡(jiǎn)單也很規律
所以我們可以搜索 .entry-title> a 得到所有書(shū)籍詳情頁(yè)的鏈接,然后我們進(jìn)入詳情頁(yè)找到下載鏈接,如下圖
可以發(fā)現 .download-links>a 中的鏈接是該書(shū)的下載鏈接?;氐搅斜眄?yè)面,你會(huì )發(fā)現該站點(diǎn)有700多個(gè)頁(yè)面,因此我們可以遍歷列表以獲取所有下載鏈接。
請求-html 快速指南
發(fā)送 GET 請求:
from requests_html import HTMLSession
session = HTMLSession()
r = session.get('https://python.org/')
Requests-html 的方便之處在于它解析 html 的方式就像使用 jQuery 一樣簡(jiǎn)單,比如:
# 獲取頁(yè)面的所有鏈接可以這樣寫(xiě):
r.html.links
# 會(huì )返回 {'//docs.python.org/3/tutorial/', '/about/apps/'}
# 獲取頁(yè)面的所有的絕對鏈接:
r.html.absolute_links
# 會(huì )返回 {'https://github.com/python/pythondotorg/issues', 'https://docs.python.org/3/tutorial/'}
# 通過(guò) CSS 選擇器選擇元素:
about = r.find('.about', first=True)
# 參數 first 表示只獲取找到的第一元素
about.text # 獲取 .about 下的所有文本
about.attrs # 獲取 .about 下所有屬性像 id, src, href 等等
about.html # 獲取 .about 的 HTML
about.find('a') # 獲取 .about 下的所有 a 標簽
構建代碼
from requests_html import HTMLSession
import requests
import time
import json
import random
import sys
'''
想要學(xué)習Python?Python學(xué)習交流群:984632579滿(mǎn)足你的需求,資料都已經(jīng)上傳群文件,可以自行下載!
'''
session = HTMLSession()
list_url = 'http://www.allitebooks.com/page/'
USER_AGENTS = [
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 Safari/535.11 LBBROWSER",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)",
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SV1; QQDownload 732; .NET4.0C; .NET4.0E; 360SE)",
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1",
"Mozilla/5.0 (iPad; U; CPU OS 4_2_1 like Mac OS X; zh-cn) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8C148 Safari/6533.18.5",
"Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:2.0b13pre) Gecko/20110307 Firefox/4.0b13pre",
"Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:16.0) Gecko/20100101 Firefox/16.0",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11",
"Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10"
]
# 獲取當前列表頁(yè)所有圖書(shū)鏈接
def get_list(url):
response = session.get(url)
all_link = response.html.find('.entry-title a') # 獲取頁(yè)面所有圖書(shū)詳情鏈接
for link in all_link:
getBookUrl(link.attrs['href'])
# 獲取圖書(shū)下載鏈接
def getBookUrl(url):
response = session.get(url)
l = response.html.find('.download-links a', first=True)
if l is not None: # 運行后發(fā)現有的個(gè)別頁(yè)面沒(méi)有下載鏈接,這里加個(gè)判斷
link = l.attrs['href'];
download(link)
#下載圖書(shū)
def download(url):
# 隨機瀏覽器 User-Agent
headers={ "User-Agent":random.choice(USER_AGENTS) }
# 獲取文件名
filename = url.split('/')[-1]
# 如果 url 里包含 .pdf
if ".pdf" in url:
file = 'book/'+filename # 文件路徑寫(xiě)死了,運行時(shí)當前目錄必須有名 book 的文件夾
with open(file, 'wb') as f:
print("正在下載 %s" % filename)
response = requests.get(url, stream=True, headers=headers)
# 獲取文件大小
total_length = response.headers.get('content-length')
# 如果文件大小不存在,則直接寫(xiě)入返回的文本
if total_length is None:
f.write(response.content)
else:
# 下載進(jìn)度條
dl = 0
total_length = int(total_length) # 文件大小
for data in response.iter_content(chunk_size=4096): # 每次響應獲取 4096 字節
dl += len(data)
f.write(data)
done = int(50 * dl / total_length)
sys.stdout.write("\r[%s%s]" % ('=' * done, ' ' * (50-done)) ) # 打印進(jìn)度條
sys.stdout.flush()
print(filename + '下載完成!')
if __name__ == '__main__':
#從這運行,應為知道列表總數,所以偷個(gè)懶直接開(kāi)始循環(huán)
for x in range(1,756):
print('當前頁(yè)面: '+ str(x))
get_list(list_url+str(x))
運行結果:
以上就是小編為大家介紹的內容。我已經(jīng)使用 Python 抓取了 7000 多個(gè)電子書(shū)案例。我希望它會(huì )對你有所幫助。如果您有任何問(wèn)題,請給我留言。小編會(huì )及時(shí)回復您。非常感謝您對腳本之家網(wǎng)站的支持! 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(
2019年03月25日14:21:37(圖))
我用Python爬取7000多個(gè)電子書(shū)案例詳情
更新時(shí)間:2019年3月25日14:21:37 作者:嗨學(xué)編程
本文文章主要介紹我用Python爬取的7000多本電子書(shū)的案例。文章中介紹的示例代碼非常詳細。對大家的學(xué)習或工作有一定的參考學(xué)習價(jià)值。有需要的朋友在下面和小編一起學(xué)習吧
安裝
安裝很簡(jiǎn)單,直接執行:
pip install requests-html
就是這樣。
分析頁(yè)面結構
通過(guò)瀏覽器的評論元素,可以發(fā)現這本電子書(shū)網(wǎng)站是用WordPress搭建的,首頁(yè)列表元素很簡(jiǎn)單也很規律

所以我們可以搜索 .entry-title> a 得到所有書(shū)籍詳情頁(yè)的鏈接,然后我們進(jìn)入詳情頁(yè)找到下載鏈接,如下圖

可以發(fā)現 .download-links>a 中的鏈接是該書(shū)的下載鏈接?;氐搅斜眄?yè)面,你會(huì )發(fā)現該站點(diǎn)有700多個(gè)頁(yè)面,因此我們可以遍歷列表以獲取所有下載鏈接。
請求-html 快速指南
發(fā)送 GET 請求:
from requests_html import HTMLSession
session = HTMLSession()
r = session.get('https://python.org/')
Requests-html 的方便之處在于它解析 html 的方式就像使用 jQuery 一樣簡(jiǎn)單,比如:
# 獲取頁(yè)面的所有鏈接可以這樣寫(xiě):
r.html.links
# 會(huì )返回 {'//docs.python.org/3/tutorial/', '/about/apps/'}
# 獲取頁(yè)面的所有的絕對鏈接:
r.html.absolute_links
# 會(huì )返回 {'https://github.com/python/pythondotorg/issues', 'https://docs.python.org/3/tutorial/'}
# 通過(guò) CSS 選擇器選擇元素:
about = r.find('.about', first=True)
# 參數 first 表示只獲取找到的第一元素
about.text # 獲取 .about 下的所有文本
about.attrs # 獲取 .about 下所有屬性像 id, src, href 等等
about.html # 獲取 .about 的 HTML
about.find('a') # 獲取 .about 下的所有 a 標簽
構建代碼
from requests_html import HTMLSession
import requests
import time
import json
import random
import sys
'''
想要學(xué)習Python?Python學(xué)習交流群:984632579滿(mǎn)足你的需求,資料都已經(jīng)上傳群文件,可以自行下載!
'''
session = HTMLSession()
list_url = 'http://www.allitebooks.com/page/'
USER_AGENTS = [
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 Safari/535.11 LBBROWSER",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)",
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SV1; QQDownload 732; .NET4.0C; .NET4.0E; 360SE)",
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1",
"Mozilla/5.0 (iPad; U; CPU OS 4_2_1 like Mac OS X; zh-cn) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8C148 Safari/6533.18.5",
"Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:2.0b13pre) Gecko/20110307 Firefox/4.0b13pre",
"Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:16.0) Gecko/20100101 Firefox/16.0",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11",
"Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10"
]
# 獲取當前列表頁(yè)所有圖書(shū)鏈接
def get_list(url):
response = session.get(url)
all_link = response.html.find('.entry-title a') # 獲取頁(yè)面所有圖書(shū)詳情鏈接
for link in all_link:
getBookUrl(link.attrs['href'])
# 獲取圖書(shū)下載鏈接
def getBookUrl(url):
response = session.get(url)
l = response.html.find('.download-links a', first=True)
if l is not None: # 運行后發(fā)現有的個(gè)別頁(yè)面沒(méi)有下載鏈接,這里加個(gè)判斷
link = l.attrs['href'];
download(link)
#下載圖書(shū)
def download(url):
# 隨機瀏覽器 User-Agent
headers={ "User-Agent":random.choice(USER_AGENTS) }
# 獲取文件名
filename = url.split('/')[-1]
# 如果 url 里包含 .pdf
if ".pdf" in url:
file = 'book/'+filename # 文件路徑寫(xiě)死了,運行時(shí)當前目錄必須有名 book 的文件夾
with open(file, 'wb') as f:
print("正在下載 %s" % filename)
response = requests.get(url, stream=True, headers=headers)
# 獲取文件大小
total_length = response.headers.get('content-length')
# 如果文件大小不存在,則直接寫(xiě)入返回的文本
if total_length is None:
f.write(response.content)
else:
# 下載進(jìn)度條
dl = 0
total_length = int(total_length) # 文件大小
for data in response.iter_content(chunk_size=4096): # 每次響應獲取 4096 字節
dl += len(data)
f.write(data)
done = int(50 * dl / total_length)
sys.stdout.write("\r[%s%s]" % ('=' * done, ' ' * (50-done)) ) # 打印進(jìn)度條
sys.stdout.flush()
print(filename + '下載完成!')
if __name__ == '__main__':
#從這運行,應為知道列表總數,所以偷個(gè)懶直接開(kāi)始循環(huán)
for x in range(1,756):
print('當前頁(yè)面: '+ str(x))
get_list(list_url+str(x))
運行結果:

以上就是小編為大家介紹的內容。我已經(jīng)使用 Python 抓取了 7000 多個(gè)電子書(shū)案例。我希望它會(huì )對你有所幫助。如果您有任何問(wèn)題,請給我留言。小編會(huì )及時(shí)回復您。非常感謝您對腳本之家網(wǎng)站的支持!
抓取網(wǎng)頁(yè)生成電子書(shū)(電子書(shū)制作利器-友益文書(shū)V7.1.1(1.1)_)
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 83 次瀏覽 ? 2021-11-05 02:06
電子書(shū)制作工具-游易文書(shū)V7.1.1[點(diǎn)擊下載]Spring eBook eBookMakerV2.1[點(diǎn)擊下載]電子書(shū)專(zhuān)家CHMEBookEditorV1.56 【點(diǎn)擊下載】二. 軟件界面:照例先來(lái)看看這三個(gè)軟件的運行界面~又一文書(shū)主界面 Spring電子書(shū)主界面 電子書(shū)專(zhuān)家主界面總結:游易文書(shū)和電子書(shū)專(zhuān)家的界面類(lèi)似,即界面左側是目錄欄,右側是目錄的具體內容。不過(guò)spring電子書(shū)的主界面不同的是,菜單欄放在了右側,讓用戶(hù)一目了然。從界面來(lái)看,電子書(shū)專(zhuān)家顯得很空洞,而且功能好像比游易和春天電子書(shū)略遜一籌!而且有用的文件是綠色軟件,直接解壓即可使用。是起跑線(xiàn)上的勝利嗎?軟件功能對比 1. 基本功能 我們制作一本電子書(shū),看看這三個(gè)軟件最基本的功能。我想做的電子書(shū)只是最基本的一種,包括word文檔和筆記。書(shū)籍、圖片和網(wǎng)頁(yè)。一種。首先,我選擇批量導入文檔。我發(fā)現游易支持的格式比我想做的要多得多。好像不難找~ 輕松導入后生成目錄。但是,我只導入了jpg格式的圖片,對于png格式的圖片還是不行。您可以單擊查看和編輯每個(gè)目錄??梢灾苯硬榭匆詄xe形式發(fā)布的電子文檔。未注冊用戶(hù)的電子書(shū)頂部會(huì )有廣告~b。接下來(lái)是春季電子書(shū)。新建一個(gè)目錄生成電子書(shū),可以看到目錄下的所有文件都顯示出來(lái)了,包括png格式的圖片~ 點(diǎn)擊編譯就可以生成電子書(shū)了,可以直接查看,但是每次編輯點(diǎn)擊每個(gè)目錄名稱(chēng),提示這是一本未注冊的spring電子書(shū),編輯可以理解作者希望大家支持正版心情,但是老彈還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家??梢灾苯硬榭匆詄xe形式發(fā)布的電子文檔。未注冊用戶(hù)的電子書(shū)頂部會(huì )有廣告~b。接下來(lái)是春季電子書(shū)。新建一個(gè)目錄生成電子書(shū),可以看到目錄下的所有文件都顯示出來(lái)了,包括png格式的圖片~ 點(diǎn)擊編譯就可以生成電子書(shū)了,可以直接查看,但是每次編輯點(diǎn)擊每個(gè)目錄名稱(chēng),提示這是一本未注冊的spring電子書(shū),編輯可以理解作者希望大家支持正版心情,但是老彈還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家??梢灾苯硬榭匆詄xe形式發(fā)布的電子文檔。未注冊用戶(hù)的電子書(shū)頂部會(huì )有廣告~b。接下來(lái)是春季電子書(shū)。新建一個(gè)目錄生成電子書(shū),可以看到目錄下的所有文件都顯示出來(lái)了,包括png格式的圖片~ 點(diǎn)擊編譯就可以生成電子書(shū)了,可以直接查看,但是每次編輯點(diǎn)擊每個(gè)目錄名稱(chēng),提示這是一本未注冊的spring電子書(shū),編輯可以理解作者希望大家支持正版心情,但是老彈還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家。未注冊用戶(hù)的電子書(shū)頂部會(huì )有廣告~b。接下來(lái)是春季電子書(shū)。新建一個(gè)目錄生成電子書(shū),可以看到目錄下的所有文件都顯示出來(lái)了,包括png格式的圖片~ 點(diǎn)擊編譯就可以生成電子書(shū)了,可以直接查看,但是每次編輯點(diǎn)擊每個(gè)目錄名稱(chēng),提示這是一本未注冊的spring電子書(shū),編輯可以理解作者希望大家支持正版心情,但是老彈還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家。未注冊用戶(hù)的電子書(shū)頂部會(huì )有廣告~b。接下來(lái)是春季電子書(shū)。新建一個(gè)目錄生成電子書(shū),可以看到目錄下的所有文件都顯示出來(lái)了,包括png格式的圖片~ 點(diǎn)擊編譯就可以生成電子書(shū)了,可以直接查看,但是每次編輯點(diǎn)擊每個(gè)目錄名稱(chēng),提示這是一本未注冊的spring電子書(shū),編輯可以理解作者希望大家支持正版心情,但是老彈還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家。新建一個(gè)目錄生成電子書(shū),可以看到目錄下的所有文件都顯示出來(lái)了,包括png格式的圖片~ 點(diǎn)擊編譯就可以生成電子書(shū)了,可以直接查看,但是每次編輯點(diǎn)擊每個(gè)目錄名稱(chēng),提示這是一本未注冊的spring電子書(shū),編輯可以理解作者希望大家支持正版心情,但是老彈還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家。新建一個(gè)目錄生成電子書(shū),可以看到目錄下的所有文件都顯示出來(lái)了,包括png格式的圖片~ 點(diǎn)擊編譯就可以生成電子書(shū)了,可以直接查看,但是每次編輯點(diǎn)擊每個(gè)目錄名稱(chēng),提示這是一本未注冊的spring電子書(shū),編輯可以理解作者希望大家支持正版心情,但是老彈還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家。但是編輯器每次點(diǎn)擊每個(gè)目錄名稱(chēng),都會(huì )提示這是一本未注冊的spring電子書(shū),編輯器可以理解作者希望大家支持正版心情,但是老彈窗還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家。但是編輯器每次點(diǎn)擊每個(gè)目錄名稱(chēng),都會(huì )提示這是一本未注冊的spring電子書(shū),編輯器可以理解作者希望大家支持正版心情,但是老彈窗還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家。
注意電子書(shū)高手需要新建一個(gè)庫文件才能開(kāi)始制作,并新建一個(gè)標題來(lái)導入文件,而且只能導入文本目錄和網(wǎng)頁(yè)目錄,不支持導入圖片,非常不方便!小編看到了自己的一個(gè)例子,沒(méi)有圖。導入的網(wǎng)頁(yè)都變成了文本形式。圖片好像不能導入。2.其他功能 電子書(shū)制作只是最基本的功能之一,其他貼心的功能也可以加分~a. 又一寫(xiě):可以做個(gè)索引。導入要制作電子書(shū)的文件后,還可以編輯文本文檔和網(wǎng)頁(yè),如圖。您可以設置出版電子書(shū)的權限(包括次數和天數限制)。您可以插入多媒體格式。灣 Spring 電子書(shū)自定義電子書(shū)圖標可設置權限(僅受天數限制),并可插入多媒體格式。C。電子書(shū)專(zhuān)家,無(wú)其他功能。三。電子書(shū)生成界面 a.游易文書(shū)生成的電子書(shū)功能最全,菜單欄包括目錄、搜索、書(shū)簽、索引,可設置網(wǎng)頁(yè)字體顏色大小,可連接打印機打印等. b. Spring電子書(shū)的菜單欄一個(gè)索引功能比有用文檔少,一個(gè)是最基本的翻頁(yè)功能。C。電子書(shū)專(zhuān)家的界面是最簡(jiǎn)單的。四??偨Y 為了給讀者更直觀(guān)的印象,小編做了一個(gè)表格。毋庸置疑,游義文件各方面最強大,最周到,但他的注冊費也是最貴的,驗證一分錢(qián)一分貨的古老真理。最簡(jiǎn)單的電子書(shū)。專(zhuān)家注冊只需9元。如果你想制作只有文字的電子書(shū),它是一個(gè)不錯的選擇。您可以根據自己的要求進(jìn)行選擇。你可以參考一下 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(電子書(shū)制作利器-友益文書(shū)V7.1.1(1.1)_)
電子書(shū)制作工具-游易文書(shū)V7.1.1[點(diǎn)擊下載]Spring eBook eBookMakerV2.1[點(diǎn)擊下載]電子書(shū)專(zhuān)家CHMEBookEditorV1.56 【點(diǎn)擊下載】二. 軟件界面:照例先來(lái)看看這三個(gè)軟件的運行界面~又一文書(shū)主界面 Spring電子書(shū)主界面 電子書(shū)專(zhuān)家主界面總結:游易文書(shū)和電子書(shū)專(zhuān)家的界面類(lèi)似,即界面左側是目錄欄,右側是目錄的具體內容。不過(guò)spring電子書(shū)的主界面不同的是,菜單欄放在了右側,讓用戶(hù)一目了然。從界面來(lái)看,電子書(shū)專(zhuān)家顯得很空洞,而且功能好像比游易和春天電子書(shū)略遜一籌!而且有用的文件是綠色軟件,直接解壓即可使用。是起跑線(xiàn)上的勝利嗎?軟件功能對比 1. 基本功能 我們制作一本電子書(shū),看看這三個(gè)軟件最基本的功能。我想做的電子書(shū)只是最基本的一種,包括word文檔和筆記。書(shū)籍、圖片和網(wǎng)頁(yè)。一種。首先,我選擇批量導入文檔。我發(fā)現游易支持的格式比我想做的要多得多。好像不難找~ 輕松導入后生成目錄。但是,我只導入了jpg格式的圖片,對于png格式的圖片還是不行。您可以單擊查看和編輯每個(gè)目錄??梢灾苯硬榭匆詄xe形式發(fā)布的電子文檔。未注冊用戶(hù)的電子書(shū)頂部會(huì )有廣告~b。接下來(lái)是春季電子書(shū)。新建一個(gè)目錄生成電子書(shū),可以看到目錄下的所有文件都顯示出來(lái)了,包括png格式的圖片~ 點(diǎn)擊編譯就可以生成電子書(shū)了,可以直接查看,但是每次編輯點(diǎn)擊每個(gè)目錄名稱(chēng),提示這是一本未注冊的spring電子書(shū),編輯可以理解作者希望大家支持正版心情,但是老彈還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家??梢灾苯硬榭匆詄xe形式發(fā)布的電子文檔。未注冊用戶(hù)的電子書(shū)頂部會(huì )有廣告~b。接下來(lái)是春季電子書(shū)。新建一個(gè)目錄生成電子書(shū),可以看到目錄下的所有文件都顯示出來(lái)了,包括png格式的圖片~ 點(diǎn)擊編譯就可以生成電子書(shū)了,可以直接查看,但是每次編輯點(diǎn)擊每個(gè)目錄名稱(chēng),提示這是一本未注冊的spring電子書(shū),編輯可以理解作者希望大家支持正版心情,但是老彈還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家??梢灾苯硬榭匆詄xe形式發(fā)布的電子文檔。未注冊用戶(hù)的電子書(shū)頂部會(huì )有廣告~b。接下來(lái)是春季電子書(shū)。新建一個(gè)目錄生成電子書(shū),可以看到目錄下的所有文件都顯示出來(lái)了,包括png格式的圖片~ 點(diǎn)擊編譯就可以生成電子書(shū)了,可以直接查看,但是每次編輯點(diǎn)擊每個(gè)目錄名稱(chēng),提示這是一本未注冊的spring電子書(shū),編輯可以理解作者希望大家支持正版心情,但是老彈還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家。未注冊用戶(hù)的電子書(shū)頂部會(huì )有廣告~b。接下來(lái)是春季電子書(shū)。新建一個(gè)目錄生成電子書(shū),可以看到目錄下的所有文件都顯示出來(lái)了,包括png格式的圖片~ 點(diǎn)擊編譯就可以生成電子書(shū)了,可以直接查看,但是每次編輯點(diǎn)擊每個(gè)目錄名稱(chēng),提示這是一本未注冊的spring電子書(shū),編輯可以理解作者希望大家支持正版心情,但是老彈還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家。未注冊用戶(hù)的電子書(shū)頂部會(huì )有廣告~b。接下來(lái)是春季電子書(shū)。新建一個(gè)目錄生成電子書(shū),可以看到目錄下的所有文件都顯示出來(lái)了,包括png格式的圖片~ 點(diǎn)擊編譯就可以生成電子書(shū)了,可以直接查看,但是每次編輯點(diǎn)擊每個(gè)目錄名稱(chēng),提示這是一本未注冊的spring電子書(shū),編輯可以理解作者希望大家支持正版心情,但是老彈還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家。新建一個(gè)目錄生成電子書(shū),可以看到目錄下的所有文件都顯示出來(lái)了,包括png格式的圖片~ 點(diǎn)擊編譯就可以生成電子書(shū)了,可以直接查看,但是每次編輯點(diǎn)擊每個(gè)目錄名稱(chēng),提示這是一本未注冊的spring電子書(shū),編輯可以理解作者希望大家支持正版心情,但是老彈還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家。新建一個(gè)目錄生成電子書(shū),可以看到目錄下的所有文件都顯示出來(lái)了,包括png格式的圖片~ 點(diǎn)擊編譯就可以生成電子書(shū)了,可以直接查看,但是每次編輯點(diǎn)擊每個(gè)目錄名稱(chēng),提示這是一本未注冊的spring電子書(shū),編輯可以理解作者希望大家支持正版心情,但是老彈還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家。但是編輯器每次點(diǎn)擊每個(gè)目錄名稱(chēng),都會(huì )提示這是一本未注冊的spring電子書(shū),編輯器可以理解作者希望大家支持正版心情,但是老彈窗還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家。但是編輯器每次點(diǎn)擊每個(gè)目錄名稱(chēng),都會(huì )提示這是一本未注冊的spring電子書(shū),編輯器可以理解作者希望大家支持正版心情,但是老彈窗還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家。
注意電子書(shū)高手需要新建一個(gè)庫文件才能開(kāi)始制作,并新建一個(gè)標題來(lái)導入文件,而且只能導入文本目錄和網(wǎng)頁(yè)目錄,不支持導入圖片,非常不方便!小編看到了自己的一個(gè)例子,沒(méi)有圖。導入的網(wǎng)頁(yè)都變成了文本形式。圖片好像不能導入。2.其他功能 電子書(shū)制作只是最基本的功能之一,其他貼心的功能也可以加分~a. 又一寫(xiě):可以做個(gè)索引。導入要制作電子書(shū)的文件后,還可以編輯文本文檔和網(wǎng)頁(yè),如圖。您可以設置出版電子書(shū)的權限(包括次數和天數限制)。您可以插入多媒體格式。灣 Spring 電子書(shū)自定義電子書(shū)圖標可設置權限(僅受天數限制),并可插入多媒體格式。C。電子書(shū)專(zhuān)家,無(wú)其他功能。三。電子書(shū)生成界面 a.游易文書(shū)生成的電子書(shū)功能最全,菜單欄包括目錄、搜索、書(shū)簽、索引,可設置網(wǎng)頁(yè)字體顏色大小,可連接打印機打印等. b. Spring電子書(shū)的菜單欄一個(gè)索引功能比有用文檔少,一個(gè)是最基本的翻頁(yè)功能。C。電子書(shū)專(zhuān)家的界面是最簡(jiǎn)單的。四??偨Y 為了給讀者更直觀(guān)的印象,小編做了一個(gè)表格。毋庸置疑,游義文件各方面最強大,最周到,但他的注冊費也是最貴的,驗證一分錢(qián)一分貨的古老真理。最簡(jiǎn)單的電子書(shū)。專(zhuān)家注冊只需9元。如果你想制作只有文字的電子書(shū),它是一個(gè)不錯的選擇。您可以根據自己的要求進(jìn)行選擇。你可以參考一下
抓取網(wǎng)頁(yè)生成電子書(shū)(小說(shuō)網(wǎng)站捕捉器的捕捉規則介紹及功能簡(jiǎn)介-蘇州安嘉)
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 127 次瀏覽 ? 2021-11-26 10:06
小說(shuō)網(wǎng)站采集器可以根據html網(wǎng)站代碼采集和提取各種小說(shuō)網(wǎng)站的圖書(shū)內容,并提供txt、ePub、zip格式的控制方法。小說(shuō)網(wǎng)站捕手不需要你解析各種代碼,直接一鍵獲取所有內容。
功能介紹
本app可以根據小說(shuō)網(wǎng)站的html網(wǎng)頁(yè)源碼分析關(guān)鍵信息抓取規則,最終輸出抓取的書(shū)籍(支持txt、ePub、zip格式輸出)。
這個(gè)app可以說(shuō)好用也好難用,比如簡(jiǎn)單地從網(wǎng)站中抓取書(shū)籍,就可以直接從自帶的100多個(gè)預設網(wǎng)站中抓?。ㄐ枰榭词褂脼g覽器搜索要下載的書(shū)籍,然后復制鏈接到入口網(wǎng)址即可),無(wú)需解析復雜的源碼。對于邏輯思維能力強的用戶(hù),可以根據分析小說(shuō)網(wǎng)站的源碼制定網(wǎng)站的捕捉規則,基本可以應付大部分小說(shuō)網(wǎng)站。
應用功能
自定義規則抓圖,可抓大部分小說(shuō)網(wǎng)站文章,個(gè)別網(wǎng)站圖書(shū)詳細分類(lèi),支持多書(shū)抓圖;
自帶大量預估網(wǎng)站,沒(méi)有定義規則的用戶(hù)可以直接申請,也可以抓取自己需要的小說(shuō);
內置源代碼瀏覽器,提供鏈接分析、關(guān)鍵定位、標簽分割等工具;
對于大型小說(shuō),任務(wù)暫存到數據庫后,可以隨意中斷和恢復任務(wù);
圖書(shū)提供多種輸出方式:章節文件、獨立文本文件、壓縮包、ePub電子書(shū)等;
支持任務(wù)導入,即從帶有章節頁(yè)面鏈接的文本文件和excel文檔中導入任務(wù)進(jìn)行抓??;
所有組件都支持提示信息,即光標停止后會(huì )顯示相關(guān)提示。大部分操作支持狀態(tài)欄提示,使用更方便;
支持添加、修改、導入、導出、排序和刪除預設網(wǎng)站;
附帶小工具
ePub 電子書(shū)創(chuàng )建和分解工具支持從章節存儲的書(shū)籍中生成ePub 文件,也可以將ePub 文件分解為具有多個(gè)章節的文本文件。
應用界面
主界面
任務(wù)管理
系統設置 + ePub 小部件
解析代碼窗口 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(小說(shuō)網(wǎng)站捕捉器的捕捉規則介紹及功能簡(jiǎn)介-蘇州安嘉)
小說(shuō)網(wǎng)站采集器可以根據html網(wǎng)站代碼采集和提取各種小說(shuō)網(wǎng)站的圖書(shū)內容,并提供txt、ePub、zip格式的控制方法。小說(shuō)網(wǎng)站捕手不需要你解析各種代碼,直接一鍵獲取所有內容。

功能介紹
本app可以根據小說(shuō)網(wǎng)站的html網(wǎng)頁(yè)源碼分析關(guān)鍵信息抓取規則,最終輸出抓取的書(shū)籍(支持txt、ePub、zip格式輸出)。
這個(gè)app可以說(shuō)好用也好難用,比如簡(jiǎn)單地從網(wǎng)站中抓取書(shū)籍,就可以直接從自帶的100多個(gè)預設網(wǎng)站中抓?。ㄐ枰榭词褂脼g覽器搜索要下載的書(shū)籍,然后復制鏈接到入口網(wǎng)址即可),無(wú)需解析復雜的源碼。對于邏輯思維能力強的用戶(hù),可以根據分析小說(shuō)網(wǎng)站的源碼制定網(wǎng)站的捕捉規則,基本可以應付大部分小說(shuō)網(wǎng)站。
應用功能
自定義規則抓圖,可抓大部分小說(shuō)網(wǎng)站文章,個(gè)別網(wǎng)站圖書(shū)詳細分類(lèi),支持多書(shū)抓圖;
自帶大量預估網(wǎng)站,沒(méi)有定義規則的用戶(hù)可以直接申請,也可以抓取自己需要的小說(shuō);
內置源代碼瀏覽器,提供鏈接分析、關(guān)鍵定位、標簽分割等工具;
對于大型小說(shuō),任務(wù)暫存到數據庫后,可以隨意中斷和恢復任務(wù);
圖書(shū)提供多種輸出方式:章節文件、獨立文本文件、壓縮包、ePub電子書(shū)等;
支持任務(wù)導入,即從帶有章節頁(yè)面鏈接的文本文件和excel文檔中導入任務(wù)進(jìn)行抓??;
所有組件都支持提示信息,即光標停止后會(huì )顯示相關(guān)提示。大部分操作支持狀態(tài)欄提示,使用更方便;
支持添加、修改、導入、導出、排序和刪除預設網(wǎng)站;
附帶小工具
ePub 電子書(shū)創(chuàng )建和分解工具支持從章節存儲的書(shū)籍中生成ePub 文件,也可以將ePub 文件分解為具有多個(gè)章節的文本文件。
應用界面
主界面
任務(wù)管理
系統設置 + ePub 小部件
解析代碼窗口
抓取網(wǎng)頁(yè)生成電子書(shū)(在線(xiàn)閱讀網(wǎng)站URL的規律編程實(shí)現的關(guān)鍵(圖) )
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 96 次瀏覽 ? 2021-11-19 19:12
)
@1. 你必須知道的常識:
許多網(wǎng)站提供在線(xiàn)閱讀書(shū)籍,但不提供這些書(shū)籍的下載,并且有些頁(yè)面受Javascript保護甚至不允許復制。但是下載這些書(shū)籍并不太難,只需要一個(gè)小程序。
@2.注意在線(xiàn)閱讀網(wǎng)站URL的規則,這是編程的關(guān)鍵:
一個(gè)一個(gè)的把網(wǎng)頁(yè)撿起來(lái)放到txt里,首先要找到網(wǎng)頁(yè)網(wǎng)址的規則。
以本書(shū)為例《成長(cháng)比成功更重要》——新浪閱讀鏈接為:[]
點(diǎn)擊這個(gè)欄目,它的地址是[]
點(diǎn)擊它的第二部分,地址又是[]
......
點(diǎn)擊它的最后一段,地址是[]
很容易驗證它們的地址都是連續的數字,所以很容易通過(guò)編程來(lái)自動(dòng)生成鏈接地址,只需使用一個(gè)遞增的數字來(lái)生成地址。
@3. 下載頁(yè)面的編程實(shí)現:
Python 中有 urllib 包。導入它。有 urllib.open('#39;)。該函數返回一個(gè)文件對象。你只需要用返回的文件對象調用read()方法,它就會(huì )返回一個(gè)字符串
@4. 在得到的頁(yè)面中,按html標簽找到對應的文字內容:
read() 得到的頁(yè)面是一個(gè)字符串。使用這個(gè)字符串的find()方法來(lái)查找對應文本內容從nIdxBeg開(kāi)始到nIdxEnd結束的位置。您可以輕松地使用字符串切片 strContent[nIdxBeg:nIdxEnd] 來(lái)攔截頁(yè)面。你想要的部分
@5. 把你想要截取的部分全部保存到一個(gè)文件中。
@6. 最后寫(xiě)一個(gè)程序讀取前面寫(xiě)的文件,用string函數去掉html標簽,然后把處理過(guò)的html標簽的內容寫(xiě)到另一個(gè)“電子書(shū)成品”文件中:
先寫(xiě)一個(gè)字典(dict),將要替換的字符串寫(xiě)入這個(gè)字典,然后使用for循環(huán),迭代使用str的replace()方法,將字典中對應的每一項放入字典中 替換每一個(gè)記錄的html標簽用對應的字符串,寫(xiě)在“完成的文件”——另一個(gè)txt中,就大功告成了。
將代碼貼在這里以供參考。如果稍微修改變量值,您可以將其他頁(yè)面作為電子書(shū)下載:
-------------------------------------------------- -------------------------------------------------- --------------
makeBook.py 下載頁(yè)面并截取需要的部分(title 和文章 內容,分別由getTitle 和getContent 兩個(gè)函數獲?。?,寫(xiě)入文件out.txt。
-------------------------------------------------- -------------------------------------------------- --------------
nBeg = 30970
nEnd = 31082
strPrefix = 'http://vip.book.sina.com.cn/bo ... 39%3B
strSurfix = '.html'
strTitleBeg = """"""
strTitleEnd = """"""
strContentBeg = """"""
strContentEnd = """"""
fout = file('out.txt', 'w')
import urllib
def makeUrl(i):
"""Make the url with a number"""
return strPrefix + str(i) + strSurfix
def getContent(strPage):
nIdxBeg = strPage.find(strContentBeg)
nIdxEnd = strPage.find(strContentEnd, nIdxBeg + len(strContentBeg))
if nIdxBeg == -1 or nIdxEnd == -1:
print 'Content Not Found!'
return ''
elif nIdxBeg > nIdxEnd:
print 'Content begin index larger than end index.'
return ''
else:
return strPage[nIdxBeg + len(strContentBeg): nIdxEnd]
def getTitle(strPage):
nIdxBeg = strPage.find(strTitleBeg)
nIdxEnd = strPage.find(strTitleEnd, nIdxBeg + len(strTitleBeg))
if nIdxBeg == -1 or nIdxEnd == -1:
print 'Title Not Found!'
return ''
elif nIdxBeg > nIdxEnd:
print 'Title begin index larger than end index.'
return ''
else:
return strPage[nIdxBeg + len(strTitleBeg): nIdxEnd]
def processPage(strPage):
fout.write(getTitle(strPage))
fout.write('\n\n')
fout.write(getContent(strPage))
fout.write('\n- - - - - - - - - - - - - - - - - - - - - - - - - - -\n\n')
def writeBook():
for i in range(nBeg, nEnd):
print 'Downloading file ' + str(i)
strUrl = makeUrl(i)
nRetry = 3
strPage = ''
while nRetry:
try:
strPage = urllib.urlopen(strUrl).read()
break
except:
nRetry -= 1
continue
if not nRetry:
print 'Failed downloading file ' + str(i)
fout.write('\n\n/#####' + str(i) + '#####\\\\\\n\n')
else:
processPage(strPage)
if __name__ == '__main__':
writeBook()
fout.close()
-------------------------------------------------- -------------------------------------------------- --------------
formatTxt.py 處理前面生成的“out.txt”文件中的html標簽,然后將格式化的內容寫(xiě)入“formated.txt”
-------------------------------------------------- -------------------------------------------------- --------------
matRep = {'<p>':' ? ?', '':'\n\n'}
def formatTxt(strContent):
?? ?for i in matRep:
?? ? ? ?strContent = strContent.replace(i, matRep[i])
?? ?return strContent
if __name__ == '__main__':
?? ?strContent = file('out.txt', 'r').read()
?? ?file('formated.txt', 'w').write(formatTxt(strContent))
</p> 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(在線(xiàn)閱讀網(wǎng)站URL的規律編程實(shí)現的關(guān)鍵(圖)
)
@1. 你必須知道的常識:
許多網(wǎng)站提供在線(xiàn)閱讀書(shū)籍,但不提供這些書(shū)籍的下載,并且有些頁(yè)面受Javascript保護甚至不允許復制。但是下載這些書(shū)籍并不太難,只需要一個(gè)小程序。
@2.注意在線(xiàn)閱讀網(wǎng)站URL的規則,這是編程的關(guān)鍵:
一個(gè)一個(gè)的把網(wǎng)頁(yè)撿起來(lái)放到txt里,首先要找到網(wǎng)頁(yè)網(wǎng)址的規則。
以本書(shū)為例《成長(cháng)比成功更重要》——新浪閱讀鏈接為:[]
點(diǎn)擊這個(gè)欄目,它的地址是[]
點(diǎn)擊它的第二部分,地址又是[]
......
點(diǎn)擊它的最后一段,地址是[]
很容易驗證它們的地址都是連續的數字,所以很容易通過(guò)編程來(lái)自動(dòng)生成鏈接地址,只需使用一個(gè)遞增的數字來(lái)生成地址。
@3. 下載頁(yè)面的編程實(shí)現:
Python 中有 urllib 包。導入它。有 urllib.open('#39;)。該函數返回一個(gè)文件對象。你只需要用返回的文件對象調用read()方法,它就會(huì )返回一個(gè)字符串
@4. 在得到的頁(yè)面中,按html標簽找到對應的文字內容:
read() 得到的頁(yè)面是一個(gè)字符串。使用這個(gè)字符串的find()方法來(lái)查找對應文本內容從nIdxBeg開(kāi)始到nIdxEnd結束的位置。您可以輕松地使用字符串切片 strContent[nIdxBeg:nIdxEnd] 來(lái)攔截頁(yè)面。你想要的部分
@5. 把你想要截取的部分全部保存到一個(gè)文件中。
@6. 最后寫(xiě)一個(gè)程序讀取前面寫(xiě)的文件,用string函數去掉html標簽,然后把處理過(guò)的html標簽的內容寫(xiě)到另一個(gè)“電子書(shū)成品”文件中:
先寫(xiě)一個(gè)字典(dict),將要替換的字符串寫(xiě)入這個(gè)字典,然后使用for循環(huán),迭代使用str的replace()方法,將字典中對應的每一項放入字典中 替換每一個(gè)記錄的html標簽用對應的字符串,寫(xiě)在“完成的文件”——另一個(gè)txt中,就大功告成了。
將代碼貼在這里以供參考。如果稍微修改變量值,您可以將其他頁(yè)面作為電子書(shū)下載:
-------------------------------------------------- -------------------------------------------------- --------------
makeBook.py 下載頁(yè)面并截取需要的部分(title 和文章 內容,分別由getTitle 和getContent 兩個(gè)函數獲?。?,寫(xiě)入文件out.txt。
-------------------------------------------------- -------------------------------------------------- --------------
nBeg = 30970
nEnd = 31082
strPrefix = 'http://vip.book.sina.com.cn/bo ... 39%3B
strSurfix = '.html'
strTitleBeg = """"""
strTitleEnd = """"""
strContentBeg = """"""
strContentEnd = """"""
fout = file('out.txt', 'w')
import urllib
def makeUrl(i):
"""Make the url with a number"""
return strPrefix + str(i) + strSurfix
def getContent(strPage):
nIdxBeg = strPage.find(strContentBeg)
nIdxEnd = strPage.find(strContentEnd, nIdxBeg + len(strContentBeg))
if nIdxBeg == -1 or nIdxEnd == -1:
print 'Content Not Found!'
return ''
elif nIdxBeg > nIdxEnd:
print 'Content begin index larger than end index.'
return ''
else:
return strPage[nIdxBeg + len(strContentBeg): nIdxEnd]
def getTitle(strPage):
nIdxBeg = strPage.find(strTitleBeg)
nIdxEnd = strPage.find(strTitleEnd, nIdxBeg + len(strTitleBeg))
if nIdxBeg == -1 or nIdxEnd == -1:
print 'Title Not Found!'
return ''
elif nIdxBeg > nIdxEnd:
print 'Title begin index larger than end index.'
return ''
else:
return strPage[nIdxBeg + len(strTitleBeg): nIdxEnd]
def processPage(strPage):
fout.write(getTitle(strPage))
fout.write('\n\n')
fout.write(getContent(strPage))
fout.write('\n- - - - - - - - - - - - - - - - - - - - - - - - - - -\n\n')
def writeBook():
for i in range(nBeg, nEnd):
print 'Downloading file ' + str(i)
strUrl = makeUrl(i)
nRetry = 3
strPage = ''
while nRetry:
try:
strPage = urllib.urlopen(strUrl).read()
break
except:
nRetry -= 1
continue
if not nRetry:
print 'Failed downloading file ' + str(i)
fout.write('\n\n/#####' + str(i) + '#####\\\\\\n\n')
else:
processPage(strPage)
if __name__ == '__main__':
writeBook()
fout.close()
-------------------------------------------------- -------------------------------------------------- --------------
formatTxt.py 處理前面生成的“out.txt”文件中的html標簽,然后將格式化的內容寫(xiě)入“formated.txt”
-------------------------------------------------- -------------------------------------------------- --------------
matRep = {'<p>':' ? ?', '':'\n\n'}
def formatTxt(strContent):
?? ?for i in matRep:
?? ? ? ?strContent = strContent.replace(i, matRep[i])
?? ?return strContent
if __name__ == '__main__':
?? ?strContent = file('out.txt', 'r').read()
?? ?file('formated.txt', 'w').write(formatTxt(strContent))
</p>
抓取網(wǎng)頁(yè)生成電子書(shū)(怎么從網(wǎng)頁(yè)抓取數據?利用完結小說(shuō)免費下載全本軟件)
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 143 次瀏覽 ? 2021-11-19 19:11
如何從網(wǎng)頁(yè)中抓取數據?使用完成的小說(shuō)免費下載整個(gè)軟件,您可以一次免費閱讀整部小說(shuō)?,F在推薦一款免費的全txt小說(shuō)電子書(shū)下載軟件,使用網(wǎng)絡(luò )圖書(shū)抓取器,支持TXT全免費小說(shuō)下載,用戶(hù)可以使用網(wǎng)絡(luò )小說(shuō)抓取器,抓取網(wǎng)絡(luò )小說(shuō),快速下載整個(gè)TXT電子書(shū),最熱軟件站提供了網(wǎng)絡(luò )圖書(shū)抓取器的下載地址,需要免費小說(shuō)全書(shū)下載器的朋友快來(lái)下載吧。, 體驗簡(jiǎn)單易用的網(wǎng)頁(yè)數據抓取工具,感受小說(shuō)下載器的便捷功能。
網(wǎng)絡(luò )圖書(shū)爬蟲(chóng)簡(jiǎn)介
網(wǎng)絡(luò )圖書(shū)抓取器是一款網(wǎng)絡(luò )小說(shuō)下載軟件,可以幫助用戶(hù)下載指定網(wǎng)頁(yè)的某本書(shū)和某章節。軟件功能強大,可以提取小說(shuō)目錄信息,根據目錄下載小說(shuō),然后合并,方便下載閱讀后,支持斷點(diǎn)續傳功能。如果網(wǎng)絡(luò )問(wèn)題或其他問(wèn)題導致小說(shuō)章節下載中斷,您可以點(diǎn)擊繼續下載,無(wú)需重新下載,然后繼續下載上次下載的內容。下載完成后,您可以使用電腦小說(shuō)閱讀器閱讀整部小說(shuō)。
軟件功能
1、 章節調整:提取目錄后,可以進(jìn)行移動(dòng)、刪除、倒序等調整操作。調整會(huì )直接影響最終的書(shū)籍,也會(huì )以調整后的章節順序輸出。
2、自動(dòng)重試:在爬取過(guò)程中,由于網(wǎng)絡(luò )因素,可能會(huì )出現爬取失敗的情況。程序可能會(huì )自動(dòng)重試直到成功,也可以暫時(shí)中斷爬?。ㄖ袛嗪箨P(guān)閉程序不影響進(jìn)度),等網(wǎng)絡(luò )好了再試。
3、停止和恢復:抓取過(guò)程可以隨時(shí)停止,退出程序后不影響進(jìn)度(章節信息會(huì )保存在記錄中,運行程序后可以恢復抓取下一次。注意:您需要先使用停止按鈕中斷然后退出程序,如果直接退出,將不會(huì )恢復)。
4、 一鍵抓?。河址Q(chēng)“啞模式”,基本可以實(shí)現自動(dòng)抓取合并功能,直接輸出最終的文本文件。前面可能需要輸入最基本的網(wǎng)址、保存位置等信息(會(huì )有明顯的操作提示),調整章節后也可以使用一鍵抓取,抓取合并操作會(huì )自動(dòng)完成.
5、適用網(wǎng)站:已輸入10個(gè)適用網(wǎng)站(選擇后可以快速打開(kāi)網(wǎng)站找到您需要的書(shū)),并自動(dòng)應用相應的代碼, 也可以測試其他小說(shuō)網(wǎng)站,如果一起使用,可以手動(dòng)添加到設置文件中以備后用。
6、 制作電子書(shū)方便:可以在設置文件中添加每個(gè)章節名稱(chēng)的前綴和后綴,為后期制作電子書(shū)的目錄帶來(lái)極大的方便。
軟件特點(diǎn)
1、 支持多種小說(shuō)平臺的小說(shuō)爬取。
2、支持多種文字編碼方式,避免文字亂碼。
3、 一鍵提取查看小說(shuō)所有目錄。
4、 支持調整小說(shuō)章節位置,可上下移動(dòng)。
5、 支持在線(xiàn)查看章節內容,避免提取錯誤章節。
6、 當抓取失敗時(shí),支持手動(dòng)或自動(dòng)重新抓取。
7、 獲取的小說(shuō)會(huì )以一章一文的形式保存。
8、 可以一鍵將所有章節合并為一個(gè)文本,方便保存。
軟件優(yōu)勢
非常實(shí)用的網(wǎng)絡(luò )小說(shuō)抓取軟件,用戶(hù)可以快速提取文檔上十多部小說(shuō)網(wǎng)站的小說(shuō)章節和內容,并保存到本地
這個(gè)爬蟲(chóng)工具功能齊全,非常友好。為用戶(hù)貼心配置了4種文本編碼器,防止用戶(hù)提取小說(shuō)時(shí)出現亂碼,并可一鍵將提取的文件合并為一個(gè)文檔
本軟件使用方便,運行流暢,爬行錯誤率極低。如果您是小說(shuō)愛(ài)好者,強烈建議您使用本軟件進(jìn)行小說(shuō)抓取。
如何使用網(wǎng)絡(luò )圖書(shū)抓取器
1. 網(wǎng)絡(luò )小說(shuō)下載軟件下載解壓后雙擊即可使用。第一次運行會(huì )自動(dòng)生成一個(gè)設置文件。用戶(hù)可以手動(dòng)調整文件,打開(kāi)軟件,使用軟件的小說(shuō)下載功能,
2.首先進(jìn)入要下載小說(shuō)的網(wǎng)頁(yè),輸入書(shū)名,點(diǎn)擊目錄解壓,解壓目錄后可以移動(dòng)、刪除、倒序等調整操作,設置保存路徑,點(diǎn)擊開(kāi)始爬行開(kāi)始下載。
3.可以提取指定小說(shuō)目錄頁(yè)的章節信息并進(jìn)行調整,然后按照章節順序抓取小說(shuō)內容,然后合并。抓取過(guò)程可以隨時(shí)中斷,關(guān)閉程序后可以繼續上一個(gè)任務(wù)。
4.在設置文件中添加每個(gè)章節名稱(chēng)的前綴和后綴,為后期制作電子書(shū)的目錄編排帶來(lái)極大的方便。已輸入 10 個(gè)適用的 網(wǎng)站。選擇后,您可以快速打開(kāi)網(wǎng)站 找到您需要的書(shū),并自動(dòng)應用相應的代碼。
更新日志 (2020.09.05)
您可以提取指定小說(shuō)目錄頁(yè)的章節信息并進(jìn)行調整,然后按照章節順序抓取小說(shuō)內容,然后以最合適的方式進(jìn)行合并。
爬取過(guò)程可以隨時(shí)中斷,關(guān)閉程序后可以繼續上一個(gè)任務(wù)。
小編推薦
以上就是免費版在線(xiàn)搶書(shū)的完整介紹。最熱的軟件網(wǎng)站有更多類(lèi)似的小說(shuō)下載軟件。有需要的朋友快來(lái)下載體驗吧。這里有另外兩個(gè)有用的小說(shuō)下載軟件。:網(wǎng)絡(luò )抓?。ňW(wǎng)絡(luò )抓取工具),微調小說(shuō)下載器。 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(怎么從網(wǎng)頁(yè)抓取數據?利用完結小說(shuō)免費下載全本軟件)
如何從網(wǎng)頁(yè)中抓取數據?使用完成的小說(shuō)免費下載整個(gè)軟件,您可以一次免費閱讀整部小說(shuō)?,F在推薦一款免費的全txt小說(shuō)電子書(shū)下載軟件,使用網(wǎng)絡(luò )圖書(shū)抓取器,支持TXT全免費小說(shuō)下載,用戶(hù)可以使用網(wǎng)絡(luò )小說(shuō)抓取器,抓取網(wǎng)絡(luò )小說(shuō),快速下載整個(gè)TXT電子書(shū),最熱軟件站提供了網(wǎng)絡(luò )圖書(shū)抓取器的下載地址,需要免費小說(shuō)全書(shū)下載器的朋友快來(lái)下載吧。, 體驗簡(jiǎn)單易用的網(wǎng)頁(yè)數據抓取工具,感受小說(shuō)下載器的便捷功能。

網(wǎng)絡(luò )圖書(shū)爬蟲(chóng)簡(jiǎn)介
網(wǎng)絡(luò )圖書(shū)抓取器是一款網(wǎng)絡(luò )小說(shuō)下載軟件,可以幫助用戶(hù)下載指定網(wǎng)頁(yè)的某本書(shū)和某章節。軟件功能強大,可以提取小說(shuō)目錄信息,根據目錄下載小說(shuō),然后合并,方便下載閱讀后,支持斷點(diǎn)續傳功能。如果網(wǎng)絡(luò )問(wèn)題或其他問(wèn)題導致小說(shuō)章節下載中斷,您可以點(diǎn)擊繼續下載,無(wú)需重新下載,然后繼續下載上次下載的內容。下載完成后,您可以使用電腦小說(shuō)閱讀器閱讀整部小說(shuō)。
軟件功能
1、 章節調整:提取目錄后,可以進(jìn)行移動(dòng)、刪除、倒序等調整操作。調整會(huì )直接影響最終的書(shū)籍,也會(huì )以調整后的章節順序輸出。
2、自動(dòng)重試:在爬取過(guò)程中,由于網(wǎng)絡(luò )因素,可能會(huì )出現爬取失敗的情況。程序可能會(huì )自動(dòng)重試直到成功,也可以暫時(shí)中斷爬?。ㄖ袛嗪箨P(guān)閉程序不影響進(jìn)度),等網(wǎng)絡(luò )好了再試。
3、停止和恢復:抓取過(guò)程可以隨時(shí)停止,退出程序后不影響進(jìn)度(章節信息會(huì )保存在記錄中,運行程序后可以恢復抓取下一次。注意:您需要先使用停止按鈕中斷然后退出程序,如果直接退出,將不會(huì )恢復)。
4、 一鍵抓?。河址Q(chēng)“啞模式”,基本可以實(shí)現自動(dòng)抓取合并功能,直接輸出最終的文本文件。前面可能需要輸入最基本的網(wǎng)址、保存位置等信息(會(huì )有明顯的操作提示),調整章節后也可以使用一鍵抓取,抓取合并操作會(huì )自動(dòng)完成.
5、適用網(wǎng)站:已輸入10個(gè)適用網(wǎng)站(選擇后可以快速打開(kāi)網(wǎng)站找到您需要的書(shū)),并自動(dòng)應用相應的代碼, 也可以測試其他小說(shuō)網(wǎng)站,如果一起使用,可以手動(dòng)添加到設置文件中以備后用。
6、 制作電子書(shū)方便:可以在設置文件中添加每個(gè)章節名稱(chēng)的前綴和后綴,為后期制作電子書(shū)的目錄帶來(lái)極大的方便。
軟件特點(diǎn)
1、 支持多種小說(shuō)平臺的小說(shuō)爬取。
2、支持多種文字編碼方式,避免文字亂碼。
3、 一鍵提取查看小說(shuō)所有目錄。
4、 支持調整小說(shuō)章節位置,可上下移動(dòng)。
5、 支持在線(xiàn)查看章節內容,避免提取錯誤章節。
6、 當抓取失敗時(shí),支持手動(dòng)或自動(dòng)重新抓取。
7、 獲取的小說(shuō)會(huì )以一章一文的形式保存。
8、 可以一鍵將所有章節合并為一個(gè)文本,方便保存。
軟件優(yōu)勢
非常實(shí)用的網(wǎng)絡(luò )小說(shuō)抓取軟件,用戶(hù)可以快速提取文檔上十多部小說(shuō)網(wǎng)站的小說(shuō)章節和內容,并保存到本地
這個(gè)爬蟲(chóng)工具功能齊全,非常友好。為用戶(hù)貼心配置了4種文本編碼器,防止用戶(hù)提取小說(shuō)時(shí)出現亂碼,并可一鍵將提取的文件合并為一個(gè)文檔
本軟件使用方便,運行流暢,爬行錯誤率極低。如果您是小說(shuō)愛(ài)好者,強烈建議您使用本軟件進(jìn)行小說(shuō)抓取。
如何使用網(wǎng)絡(luò )圖書(shū)抓取器
1. 網(wǎng)絡(luò )小說(shuō)下載軟件下載解壓后雙擊即可使用。第一次運行會(huì )自動(dòng)生成一個(gè)設置文件。用戶(hù)可以手動(dòng)調整文件,打開(kāi)軟件,使用軟件的小說(shuō)下載功能,
2.首先進(jìn)入要下載小說(shuō)的網(wǎng)頁(yè),輸入書(shū)名,點(diǎn)擊目錄解壓,解壓目錄后可以移動(dòng)、刪除、倒序等調整操作,設置保存路徑,點(diǎn)擊開(kāi)始爬行開(kāi)始下載。
3.可以提取指定小說(shuō)目錄頁(yè)的章節信息并進(jìn)行調整,然后按照章節順序抓取小說(shuō)內容,然后合并。抓取過(guò)程可以隨時(shí)中斷,關(guān)閉程序后可以繼續上一個(gè)任務(wù)。
4.在設置文件中添加每個(gè)章節名稱(chēng)的前綴和后綴,為后期制作電子書(shū)的目錄編排帶來(lái)極大的方便。已輸入 10 個(gè)適用的 網(wǎng)站。選擇后,您可以快速打開(kāi)網(wǎng)站 找到您需要的書(shū),并自動(dòng)應用相應的代碼。
更新日志 (2020.09.05)
您可以提取指定小說(shuō)目錄頁(yè)的章節信息并進(jìn)行調整,然后按照章節順序抓取小說(shuō)內容,然后以最合適的方式進(jìn)行合并。
爬取過(guò)程可以隨時(shí)中斷,關(guān)閉程序后可以繼續上一個(gè)任務(wù)。
小編推薦
以上就是免費版在線(xiàn)搶書(shū)的完整介紹。最熱的軟件網(wǎng)站有更多類(lèi)似的小說(shuō)下載軟件。有需要的朋友快來(lái)下載體驗吧。這里有另外兩個(gè)有用的小說(shuō)下載軟件。:網(wǎng)絡(luò )抓?。ňW(wǎng)絡(luò )抓取工具),微調小說(shuō)下載器。
抓取網(wǎng)頁(yè)生成電子書(shū)(百度爬蟲(chóng)爬蟲(chóng)程序->電子書(shū)抓取頁(yè)面的信息方法)
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 73 次瀏覽 ? 2021-11-19 15:00
抓取網(wǎng)頁(yè)生成電子書(shū),
我知道如何抓取h5頁(yè)面的信息。進(jìn)入"云處方"微信公眾號,搜索"云處方"小程序,點(diǎn)擊后進(jìn)入個(gè)人中心,按照頁(yè)面提示操作即可。
現在如果想要爬取這個(gè)頁(yè)面,
抓取的方法有很多,我這邊給你推薦一個(gè)通用的方法。先打開(kāi)百度爬蟲(chóng)工具箱,然后點(diǎn)擊網(wǎng)頁(yè)抓取->爬蟲(chóng)程序->電子書(shū)抓取點(diǎn)擊開(kāi)始后會(huì )彈出一個(gè)窗口,你可以將你需要抓取頁(yè)面的路徑復制下來(lái)。然后電子書(shū)頁(yè)面生成了,可以抓取到電子書(shū)的內容,因為都是編碼轉換的,所以保存后的會(huì )很亂。
github-ghlink6677/mybrainhole:youku電子書(shū)抓取工具:-documentary-scraping
菜鳥(niǎo)教程
讀取對應的pdf,文字和圖片分別存儲一份,對應電子書(shū)名查找最近爬取的sitemap就行了。
現在各種網(wǎng)站都會(huì )分享自己站內電子書(shū),作者給出鏈接,
速度是首要問(wèn)題。高清無(wú)水印電子書(shū)是首要條件。
方法一百度requests。查看pdf中的電子書(shū)pdf里面的地址,爬取后存到wordpress就行了?;蛘遖jax直接下載。方法二通過(guò)瀏覽器直接抓取,雖然相對麻煩,但速度快,pdf重新編輯等。
這款在線(xiàn)電子書(shū)下載工具, 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(百度爬蟲(chóng)爬蟲(chóng)程序->電子書(shū)抓取頁(yè)面的信息方法)
抓取網(wǎng)頁(yè)生成電子書(shū),
我知道如何抓取h5頁(yè)面的信息。進(jìn)入"云處方"微信公眾號,搜索"云處方"小程序,點(diǎn)擊后進(jìn)入個(gè)人中心,按照頁(yè)面提示操作即可。
現在如果想要爬取這個(gè)頁(yè)面,
抓取的方法有很多,我這邊給你推薦一個(gè)通用的方法。先打開(kāi)百度爬蟲(chóng)工具箱,然后點(diǎn)擊網(wǎng)頁(yè)抓取->爬蟲(chóng)程序->電子書(shū)抓取點(diǎn)擊開(kāi)始后會(huì )彈出一個(gè)窗口,你可以將你需要抓取頁(yè)面的路徑復制下來(lái)。然后電子書(shū)頁(yè)面生成了,可以抓取到電子書(shū)的內容,因為都是編碼轉換的,所以保存后的會(huì )很亂。
github-ghlink6677/mybrainhole:youku電子書(shū)抓取工具:-documentary-scraping
菜鳥(niǎo)教程
讀取對應的pdf,文字和圖片分別存儲一份,對應電子書(shū)名查找最近爬取的sitemap就行了。
現在各種網(wǎng)站都會(huì )分享自己站內電子書(shū),作者給出鏈接,
速度是首要問(wèn)題。高清無(wú)水印電子書(shū)是首要條件。
方法一百度requests。查看pdf中的電子書(shū)pdf里面的地址,爬取后存到wordpress就行了?;蛘遖jax直接下載。方法二通過(guò)瀏覽器直接抓取,雖然相對麻煩,但速度快,pdf重新編輯等。
這款在線(xiàn)電子書(shū)下載工具,
抓取網(wǎng)頁(yè)生成電子書(shū)(如何將網(wǎng)頁(yè)文章批量抓取、生成電子書(shū)、直接推送到Kindle)
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 165 次瀏覽 ? 2021-11-19 01:18
很長(cháng)一段時(shí)間,我一直在研究如何將我關(guān)注的網(wǎng)頁(yè)或文章安裝到Kindle中進(jìn)行認真閱讀,但很長(cháng)一段時(shí)間都沒(méi)有真正的進(jìn)展。手動(dòng)格式化書(shū)籍制作電子書(shū)的方法雖然簡(jiǎn)單易行,但對于短小且更新頻繁的網(wǎng)頁(yè)文章來(lái)說(shuō)效率低下。如果有工具可以批量抓取網(wǎng)頁(yè)文章,生成電子書(shū),直接推送到Kindle上就好了。Doocer 是一個(gè)非常有用的工具。
Doocer 是由@lepture 開(kāi)發(fā)的在線(xiàn)服務(wù)。它允許用戶(hù)在 Pocket 的后期閱讀帳戶(hù)中提交 URL、RSS 提要地址和 文章,然后將它們一一或批量制作成 ePub、MOBI 電子書(shū)。您可以直接在 Doocer 中閱讀所有 文章,也可以將它們推送到 Kindle 和 Apple Books 閱讀。
閱讀體驗真的很好
由 Doocer 生成的電子書(shū)格式良好且引人注目。應該收錄的內容很多,不應該收錄的內容并不多。本書(shū)不僅封面有圖文,還收錄文章目錄、網(wǎng)站出處、文章原作者等信息。Doocer生成的MOBI電子書(shū)支持KF8標準,因此支持Kindle原生替換自定義字體。
由于網(wǎng)站文章通常都有標準和通用的排版規范,所以Doocer生成的電子書(shū)文章中的大小、標題和列表圖例與原創(chuàng )網(wǎng)頁(yè)高度一致文章。原文章中的超鏈接也全部保留,評論信息、廣告等內容全部丟棄。全書(shū)的閱讀體驗非常友好。(當然,如果原網(wǎng)頁(yè)文章的布局亂了,得到的電子書(shū)也可能完全不一樣。)
將網(wǎng)頁(yè)文章制作成電子書(shū)
Doocer完成注冊登錄后,就可以開(kāi)始將文章網(wǎng)頁(yè)制作成電子書(shū)了。首先,我們點(diǎn)擊“NEW BOOK”按鈕新建電子書(shū),輸入電子書(shū)書(shū)名。然后選擇右上角的“添加”,添加文章 URL 或RSS feed 地址。
以小眾網(wǎng)頁(yè)的文章為例,我們選擇“FEED”,在輸入框中粘貼RSS地址,然后點(diǎn)擊“PARSE”,就會(huì )出現小眾文章的近期列表顯示給我們添加到。我們可以根據需要選擇,也可以點(diǎn)擊“全選”來(lái)全選文章。最后,下拉到頁(yè)面底部,選擇“SAVE”,這些文章就會(huì )被添加到書(shū)中。
實(shí)際上,Doocer 網(wǎng)頁(yè)與 RSS 工具非常相似。實(shí)現了從網(wǎng)站批量抓取文章并集中展示的功能。
要將這些文章轉換成電子書(shū)并推送到Kindle,我們需要進(jìn)行一些簡(jiǎn)單的操作。
首先,根據Doocer個(gè)人設置頁(yè)面的提示,我們打開(kāi)它,在個(gè)人文檔接收地址中添加Doocer電子書(shū)的發(fā)送地址。完成后,我們再在輸入框中填寫(xiě)Kindle的個(gè)人文檔接收地址,點(diǎn)擊保存。
最后,我們在Doocer中打開(kāi)《少數派》這本書(shū),在頁(yè)面上找到“發(fā)布”,選擇發(fā)送到Kindle。大約10-30分鐘,Doocer就會(huì )完成圖書(shū)制作并將圖書(shū)推送到Kindle上。
還有一些問(wèn)題需要注意
Doocer目前處于Beta測試階段,還存在一些bug,尤其是中文網(wǎng)站經(jīng)常出現問(wèn)題。好在Doocer官網(wǎng)有開(kāi)發(fā)者對話(huà)頻道,你可以直接聯(lián)系他幫忙解決。
實(shí)現所有操作的自動(dòng)化流程是我認為Doocer最需要努力的方向。Doocer 可以像RSS 工具一樣抓取網(wǎng)頁(yè)中更新的文章,但仍然需要手動(dòng)執行文章 的新抓取并生成電子書(shū)和推送。如果整個(gè)過(guò)程都可以自動(dòng)化,RSS-MOBI-Kindle就可以一口氣搞定,相信實(shí)用性會(huì )更高。
目前,Doocer 的所有功能都可以免費使用。 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(如何將網(wǎng)頁(yè)文章批量抓取、生成電子書(shū)、直接推送到Kindle)
很長(cháng)一段時(shí)間,我一直在研究如何將我關(guān)注的網(wǎng)頁(yè)或文章安裝到Kindle中進(jìn)行認真閱讀,但很長(cháng)一段時(shí)間都沒(méi)有真正的進(jìn)展。手動(dòng)格式化書(shū)籍制作電子書(shū)的方法雖然簡(jiǎn)單易行,但對于短小且更新頻繁的網(wǎng)頁(yè)文章來(lái)說(shuō)效率低下。如果有工具可以批量抓取網(wǎng)頁(yè)文章,生成電子書(shū),直接推送到Kindle上就好了。Doocer 是一個(gè)非常有用的工具。
Doocer 是由@lepture 開(kāi)發(fā)的在線(xiàn)服務(wù)。它允許用戶(hù)在 Pocket 的后期閱讀帳戶(hù)中提交 URL、RSS 提要地址和 文章,然后將它們一一或批量制作成 ePub、MOBI 電子書(shū)。您可以直接在 Doocer 中閱讀所有 文章,也可以將它們推送到 Kindle 和 Apple Books 閱讀。

閱讀體驗真的很好
由 Doocer 生成的電子書(shū)格式良好且引人注目。應該收錄的內容很多,不應該收錄的內容并不多。本書(shū)不僅封面有圖文,還收錄文章目錄、網(wǎng)站出處、文章原作者等信息。Doocer生成的MOBI電子書(shū)支持KF8標準,因此支持Kindle原生替換自定義字體。
由于網(wǎng)站文章通常都有標準和通用的排版規范,所以Doocer生成的電子書(shū)文章中的大小、標題和列表圖例與原創(chuàng )網(wǎng)頁(yè)高度一致文章。原文章中的超鏈接也全部保留,評論信息、廣告等內容全部丟棄。全書(shū)的閱讀體驗非常友好。(當然,如果原網(wǎng)頁(yè)文章的布局亂了,得到的電子書(shū)也可能完全不一樣。)

將網(wǎng)頁(yè)文章制作成電子書(shū)
Doocer完成注冊登錄后,就可以開(kāi)始將文章網(wǎng)頁(yè)制作成電子書(shū)了。首先,我們點(diǎn)擊“NEW BOOK”按鈕新建電子書(shū),輸入電子書(shū)書(shū)名。然后選擇右上角的“添加”,添加文章 URL 或RSS feed 地址。

以小眾網(wǎng)頁(yè)的文章為例,我們選擇“FEED”,在輸入框中粘貼RSS地址,然后點(diǎn)擊“PARSE”,就會(huì )出現小眾文章的近期列表顯示給我們添加到。我們可以根據需要選擇,也可以點(diǎn)擊“全選”來(lái)全選文章。最后,下拉到頁(yè)面底部,選擇“SAVE”,這些文章就會(huì )被添加到書(shū)中。

實(shí)際上,Doocer 網(wǎng)頁(yè)與 RSS 工具非常相似。實(shí)現了從網(wǎng)站批量抓取文章并集中展示的功能。

要將這些文章轉換成電子書(shū)并推送到Kindle,我們需要進(jìn)行一些簡(jiǎn)單的操作。
首先,根據Doocer個(gè)人設置頁(yè)面的提示,我們打開(kāi)它,在個(gè)人文檔接收地址中添加Doocer電子書(shū)的發(fā)送地址。完成后,我們再在輸入框中填寫(xiě)Kindle的個(gè)人文檔接收地址,點(diǎn)擊保存。

最后,我們在Doocer中打開(kāi)《少數派》這本書(shū),在頁(yè)面上找到“發(fā)布”,選擇發(fā)送到Kindle。大約10-30分鐘,Doocer就會(huì )完成圖書(shū)制作并將圖書(shū)推送到Kindle上。

還有一些問(wèn)題需要注意
Doocer目前處于Beta測試階段,還存在一些bug,尤其是中文網(wǎng)站經(jīng)常出現問(wèn)題。好在Doocer官網(wǎng)有開(kāi)發(fā)者對話(huà)頻道,你可以直接聯(lián)系他幫忙解決。
實(shí)現所有操作的自動(dòng)化流程是我認為Doocer最需要努力的方向。Doocer 可以像RSS 工具一樣抓取網(wǎng)頁(yè)中更新的文章,但仍然需要手動(dòng)執行文章 的新抓取并生成電子書(shū)和推送。如果整個(gè)過(guò)程都可以自動(dòng)化,RSS-MOBI-Kindle就可以一口氣搞定,相信實(shí)用性會(huì )更高。
目前,Doocer 的所有功能都可以免費使用。
抓取網(wǎng)頁(yè)生成電子書(shū)(主流電子書(shū)格式大家最為熟知的電子書(shū)熟知格式(圖))
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 88 次瀏覽 ? 2021-11-15 20:00
編者按(@Minja):在寫(xiě)文章的時(shí)候,經(jīng)常需要引用和回溯。對各種存檔和切割工具的不滿(mǎn),讓我萌生了自己制作電子書(shū)的念頭。恰巧@Spencerwoo在這方面有扎實(shí)的折騰能力,于是干掉他,一起研究了一套簡(jiǎn)單易行的方法,寫(xiě)成文章分享給大家。
雖然網(wǎng)絡(luò )世界中有很多有價(jià)值的文章,但并不是每一次閱讀體驗都令人滿(mǎn)意。如果你想擁有出色的文章閱讀體驗,至少要確保我們正在閱讀文章:
很多時(shí)候,我們依靠瀏覽器的閱讀方式,或者Pocket和RSS客戶(hù)端來(lái)閱讀。但是,稍后無(wú)法對閱讀模式進(jìn)行排序。大多數閱讀服務(wù)的全文搜索功能需要付費,網(wǎng)上的文章可能哪天都搜不到?;蛟S,將文章以電子書(shū)的形式保存在本地是一個(gè)更方便的回顧方式。
如果我們在網(wǎng)上看到一個(gè)網(wǎng)頁(yè)形式的電子書(shū),想把整個(gè)網(wǎng)頁(yè)直接保存在本地(俗稱(chēng)“剪藏”),那會(huì )很麻煩?,F有的網(wǎng)絡(luò )剪輯工具不僅可能夾帶無(wú)用的、影響體驗的廣告和其他冗余區域,而且還可能丟失重要和有價(jià)值的內容。不僅如此,幾乎沒(méi)有文章這樣的工具可以輕松抓取圖片并保存到本地。那么,讓我向您介紹一套免費制作個(gè)性化電子書(shū)的方法。
本文主要使用開(kāi)源工具Pandoc。對于需要MOBI或PDF格式電子書(shū)的讀者,文章后半部分也有簡(jiǎn)單的轉換方法。
以ePub電子書(shū)為突破口
主流的電子書(shū)格式有很多,但本文主要推薦ePub,它相對開(kāi)放通用,可以方便地轉換為其他格式。
主流電子書(shū)格式
最廣為人知的電子書(shū)格式可能是純文本TXT格式,但TXT之所以被稱(chēng)為“純文本”,是因為它不支持章節、圖片、封面和超鏈接。為了讓電子書(shū)有格式、有圖片、有內容,目前常見(jiàn)的電子書(shū)通常有PDF、ePub、MOBI三種格式。在:
我們文章的主要目的是利用接下來(lái)要介紹的工具,制作一個(gè)清晰美觀(guān)的電子書(shū),內嵌圖片,目錄,美觀(guān)。相對來(lái)說(shuō)ePub更加靈活,目錄和自定義布局一應俱全,另外兩種格式轉換也方便。本文將從它開(kāi)始。
電子書(shū)效果制作 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(主流電子書(shū)格式大家最為熟知的電子書(shū)熟知格式(圖))
編者按(@Minja):在寫(xiě)文章的時(shí)候,經(jīng)常需要引用和回溯。對各種存檔和切割工具的不滿(mǎn),讓我萌生了自己制作電子書(shū)的念頭。恰巧@Spencerwoo在這方面有扎實(shí)的折騰能力,于是干掉他,一起研究了一套簡(jiǎn)單易行的方法,寫(xiě)成文章分享給大家。
雖然網(wǎng)絡(luò )世界中有很多有價(jià)值的文章,但并不是每一次閱讀體驗都令人滿(mǎn)意。如果你想擁有出色的文章閱讀體驗,至少要確保我們正在閱讀文章:
很多時(shí)候,我們依靠瀏覽器的閱讀方式,或者Pocket和RSS客戶(hù)端來(lái)閱讀。但是,稍后無(wú)法對閱讀模式進(jìn)行排序。大多數閱讀服務(wù)的全文搜索功能需要付費,網(wǎng)上的文章可能哪天都搜不到?;蛟S,將文章以電子書(shū)的形式保存在本地是一個(gè)更方便的回顧方式。
如果我們在網(wǎng)上看到一個(gè)網(wǎng)頁(yè)形式的電子書(shū),想把整個(gè)網(wǎng)頁(yè)直接保存在本地(俗稱(chēng)“剪藏”),那會(huì )很麻煩?,F有的網(wǎng)絡(luò )剪輯工具不僅可能夾帶無(wú)用的、影響體驗的廣告和其他冗余區域,而且還可能丟失重要和有價(jià)值的內容。不僅如此,幾乎沒(méi)有文章這樣的工具可以輕松抓取圖片并保存到本地。那么,讓我向您介紹一套免費制作個(gè)性化電子書(shū)的方法。
本文主要使用開(kāi)源工具Pandoc。對于需要MOBI或PDF格式電子書(shū)的讀者,文章后半部分也有簡(jiǎn)單的轉換方法。
以ePub電子書(shū)為突破口
主流的電子書(shū)格式有很多,但本文主要推薦ePub,它相對開(kāi)放通用,可以方便地轉換為其他格式。

主流電子書(shū)格式
最廣為人知的電子書(shū)格式可能是純文本TXT格式,但TXT之所以被稱(chēng)為“純文本”,是因為它不支持章節、圖片、封面和超鏈接。為了讓電子書(shū)有格式、有圖片、有內容,目前常見(jiàn)的電子書(shū)通常有PDF、ePub、MOBI三種格式。在:
我們文章的主要目的是利用接下來(lái)要介紹的工具,制作一個(gè)清晰美觀(guān)的電子書(shū),內嵌圖片,目錄,美觀(guān)。相對來(lái)說(shuō)ePub更加靈活,目錄和自定義布局一應俱全,另外兩種格式轉換也方便。本文將從它開(kāi)始。

電子書(shū)效果制作
抓取網(wǎng)頁(yè)生成電子書(shū)(《網(wǎng)絡(luò )書(shū)籍抓取器》之軟件軟件大小版本說(shuō)明下載 )
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 86 次瀏覽 ? 2021-11-15 17:08
)
網(wǎng)絡(luò )圖書(shū)抓取器主要用于抓取網(wǎng)絡(luò )小說(shuō)生成文本文件。它可以提取和調整指定小說(shuō)目錄頁(yè)面的章節信息,然后按照章節順序抓取小說(shuō)內容,然后進(jìn)行合并。抓取過(guò)程可以隨時(shí)中斷,程序關(guān)閉后可以繼續上一個(gè)任務(wù)。
相關(guān)軟件軟件大小版本說(shuō)明下載地址
網(wǎng)絡(luò )圖書(shū)抓取器主要用于抓取網(wǎng)絡(luò )小說(shuō)生成文本文件。它可以提取和調整指定小說(shuō)目錄頁(yè)面的章節信息,然后按照章節順序抓取小說(shuō)內容,然后進(jìn)行合并。抓取過(guò)程可以隨時(shí)中斷,程序關(guān)閉后可以繼續上一個(gè)任務(wù)。
軟件特點(diǎn)
1、 章節調整:提取目錄后,可以進(jìn)行移動(dòng)、刪除、倒序等調整操作。調整會(huì )直接影響最終的書(shū)籍,也會(huì )以調整后的章節順序輸出。
2、自動(dòng)重試:在爬取過(guò)程中,由于網(wǎng)絡(luò )因素,可能會(huì )出現爬取失敗的情況。程序可能會(huì )自動(dòng)重試直到成功,也可以暫時(shí)中斷爬?。ㄖ袛嗪箨P(guān)閉程序不影響進(jìn)度),等網(wǎng)絡(luò )好后再試。
3、停止和恢復:可以隨時(shí)停止抓取過(guò)程,退出程序后不影響進(jìn)度(章節信息會(huì )保存在記錄中,運行程序后可以恢復抓取下一次。注意:您需要先使用停止按鈕中斷然后退出程序,如果直接退出,將不會(huì )恢復)。
4、 一鍵爬?。河址Q(chēng)“啞模式”,基本可以實(shí)現全自動(dòng)爬取合并功能,直接輸出最終的文本文件。前面可能需要輸入最基本的網(wǎng)址、保存位置等信息(會(huì )有明顯的操作提示),調整章節后也可以一鍵抓取,抓取合并操作會(huì )自動(dòng)完成.
5、適用網(wǎng)站:已收錄10個(gè)適用網(wǎng)站(選擇后可以快速打開(kāi)網(wǎng)站找到您需要的書(shū)),并自動(dòng)應用相應的代碼,也可以測試其他小說(shuō)網(wǎng)站,如果一起使用,可以手動(dòng)添加到設置文件中,以備后用。
6、 制作電子書(shū)方便:可以在設置文件中添加每個(gè)章節名稱(chēng)的前綴和后綴,為后期制作電子書(shū)的目錄帶來(lái)極大的方便。
查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(《網(wǎng)絡(luò )書(shū)籍抓取器》之軟件軟件大小版本說(shuō)明下載
)
網(wǎng)絡(luò )圖書(shū)抓取器主要用于抓取網(wǎng)絡(luò )小說(shuō)生成文本文件。它可以提取和調整指定小說(shuō)目錄頁(yè)面的章節信息,然后按照章節順序抓取小說(shuō)內容,然后進(jìn)行合并。抓取過(guò)程可以隨時(shí)中斷,程序關(guān)閉后可以繼續上一個(gè)任務(wù)。
相關(guān)軟件軟件大小版本說(shuō)明下載地址
網(wǎng)絡(luò )圖書(shū)抓取器主要用于抓取網(wǎng)絡(luò )小說(shuō)生成文本文件。它可以提取和調整指定小說(shuō)目錄頁(yè)面的章節信息,然后按照章節順序抓取小說(shuō)內容,然后進(jìn)行合并。抓取過(guò)程可以隨時(shí)中斷,程序關(guān)閉后可以繼續上一個(gè)任務(wù)。
軟件特點(diǎn)
1、 章節調整:提取目錄后,可以進(jìn)行移動(dòng)、刪除、倒序等調整操作。調整會(huì )直接影響最終的書(shū)籍,也會(huì )以調整后的章節順序輸出。
2、自動(dòng)重試:在爬取過(guò)程中,由于網(wǎng)絡(luò )因素,可能會(huì )出現爬取失敗的情況。程序可能會(huì )自動(dòng)重試直到成功,也可以暫時(shí)中斷爬?。ㄖ袛嗪箨P(guān)閉程序不影響進(jìn)度),等網(wǎng)絡(luò )好后再試。
3、停止和恢復:可以隨時(shí)停止抓取過(guò)程,退出程序后不影響進(jìn)度(章節信息會(huì )保存在記錄中,運行程序后可以恢復抓取下一次。注意:您需要先使用停止按鈕中斷然后退出程序,如果直接退出,將不會(huì )恢復)。
4、 一鍵爬?。河址Q(chēng)“啞模式”,基本可以實(shí)現全自動(dòng)爬取合并功能,直接輸出最終的文本文件。前面可能需要輸入最基本的網(wǎng)址、保存位置等信息(會(huì )有明顯的操作提示),調整章節后也可以一鍵抓取,抓取合并操作會(huì )自動(dòng)完成.
5、適用網(wǎng)站:已收錄10個(gè)適用網(wǎng)站(選擇后可以快速打開(kāi)網(wǎng)站找到您需要的書(shū)),并自動(dòng)應用相應的代碼,也可以測試其他小說(shuō)網(wǎng)站,如果一起使用,可以手動(dòng)添加到設置文件中,以備后用。
6、 制作電子書(shū)方便:可以在設置文件中添加每個(gè)章節名稱(chēng)的前綴和后綴,為后期制作電子書(shū)的目錄帶來(lái)極大的方便。
抓取網(wǎng)頁(yè)生成電子書(shū)(Windows,OSX及Linux在線(xiàn)資料轉為epub或mobi格式)
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 113 次瀏覽 ? 2021-11-14 06:15
自從我買(mǎi)了kindle,我就一直在想如何最大限度地發(fā)揮它的功效。雖然可供購買(mǎi)的書(shū)籍很多,網(wǎng)上也有很多免費的電子書(shū),但還是有很多網(wǎng)頁(yè)形式的有趣內容。例如,O'Reilly Atlas 提供了很多電子書(shū),但只提供免費在線(xiàn)閱讀;此外,許多材料或文件只是網(wǎng)絡(luò )形式。所以我希望將這些網(wǎng)上資料以某種方式轉換成epub或者mobi格式,以便在kindle上閱讀。本文文章介紹了如何使用calibre并編寫(xiě)少量代碼來(lái)實(shí)現這一目標。
口徑
Calibre 是一款免費的電子書(shū)管理工具,兼容 Windows、OS X 和 Linux。令人欣慰的是,除了GUI,calibre 還提供了很多命令行工具。ebook-convert 命令可以基于用戶(hù)編寫(xiě)的食譜。該文件(實(shí)際上是python代碼)抓取指定頁(yè)面的內容,生成mobi等格式的電子書(shū)。爬取行為可以通過(guò)編寫(xiě)recipe來(lái)定制,以適應不同的網(wǎng)頁(yè)結構。
安裝口徑
Calibre的下載地址是,您可以根據自己的操作系統下載相應的安裝程序。
如果是Linux操作系統,也可以通過(guò)軟件倉庫安裝:
Archlinux:
pacman -S 口徑
Debian/Ubuntu:
apt-get 安裝口徑
紅帽/Fedora/CentOS:
yum -y 安裝口徑
請注意,如果您使用 OSX,則需要單獨安裝命令行工具。
抓取網(wǎng)頁(yè)以生成電子書(shū)
下面以Git Pocket Guide為例,說(shuō)明如何通過(guò)calibre從網(wǎng)頁(yè)生成電子書(shū)。
找到索引頁(yè)
要爬取整本書(shū),首先要找到索引頁(yè)。這個(gè)頁(yè)面通常是目錄,也就是目錄頁(yè)面,其中每個(gè)目錄鏈接都連接到相應的內容頁(yè)面。在生成電子書(shū)時(shí),索引頁(yè)會(huì )指導抓取哪些頁(yè)面以及內容組織的順序。在這個(gè)例子中,索引頁(yè)是。
寫(xiě)食譜
食譜是一個(gè)帶有食譜擴展名的腳本。內容其實(shí)是一段python代碼,定義了calibre爬取頁(yè)面的范圍和行為。以下是爬取 Git Pocket Guide 的秘籍:
從 calibre.web.feeds.recipes 導入 BasicNewsRecipe
類(lèi) Git_Pocket_Guide(BasicNewsRecipe):
title = 'Git Pocket Guide'
description = ''
cover\_url = 'http://akamaicovers.oreilly.com/images/0636920024972/lrg.jpg'
url\_prefix = 'http://chimera.labs.oreilly.com/books/1230000000561/'
no\_stylesheets = True
keep\_only\_tags = \[{ 'class': 'chapter' }\]
def get\_title(self, link):
return link.contents\[0\].strip()
def parse\_index(self):
soup = self.index\_to\_soup(self.url\_prefix + 'index.html')
div = soup.find('div', { 'class': 'toc' })
articles = \[\]
for link in div.findAll('a'):
if '#' in link\['href'\]:
continue
if not 'ch' in link\['href'\]:
continue
til = self.get\_title(link)
url = self.url\_prefix + link\['href'\]
a = { 'title': til, 'url': url }
articles.append(a)
ans = \[('Git\_Pocket\_Guide', articles)\]
return ans
下面解釋了代碼的不同部分。
整體結構
總的來(lái)說(shuō),一個(gè)recipe是一個(gè)python類(lèi),但是這個(gè)類(lèi)必須繼承calibre.web.feeds.recipes.BasicNewsRecipe。
解析索引
整個(gè)recipe的核心方法是parse_index,這也是recipes必須實(shí)現的唯一方法。該方法的目標是通過(guò)分析索引頁(yè)的內容,返回一個(gè)稍微復雜一些的數據結構(稍后介紹)。這個(gè)數據結構定義了整個(gè)電子書(shū)的內容和內容組織順序。
整體屬性設置
在類(lèi)的開(kāi)頭,定義了一些全局屬性:
title ='Git Pocket Guide'description =''cover_url =''
url_prefix =''no_stylesheets = Truekeep_only_tags = [{'class':'chapter' }]
parse_index 返回值
下面通過(guò)分析索引頁(yè)來(lái)描述parse_index需要返回的數據結構。
整體的返回數據結構是一個(gè)列表,其中每個(gè)元素是一個(gè)元組,一個(gè)元組代表一個(gè)卷。在這個(gè)例子中,只有一個(gè)卷,所以列表中只有一個(gè)元組。
每個(gè)元組有兩個(gè)元素,第一個(gè)元素是卷名,第二個(gè)元素是一個(gè)列表,列表中的每個(gè)元素都是一個(gè)映射,表示一個(gè)章節(chapter),映射中有兩個(gè)元素: title 和 url , Title是章節的標題,url是章節所在的內容頁(yè)面的url。
Calibre 會(huì )根據parse_index 返回的結果對整本書(shū)進(jìn)行爬取和組織,并會(huì )自行爬取處理內容內外的圖片。
整個(gè)parse_index使用soup解析索引頁(yè),生成上述數據結構。
更多的
以上是最基本的食譜。如果想了解更多使用方法,可以參考API文檔。
生成手機
寫(xiě)好菜譜后,可以在命令行中使用以下命令生成電子書(shū):
電子書(shū)轉換 Git_Pocket_Guide.recipe Git_Pocket_Guide.mobi
您可以生成mobi 格式的電子書(shū)。ebook-convert 會(huì )爬取相關(guān)內容,根據配方代碼自行組織結構。
最終效果
下面是在kindle上看到的效果。
內容
內容一
內容二
帶圖片的頁(yè)面
實(shí)際效果
我的食譜倉庫
我在 github 上構建了一個(gè) kindle-open-books,其中收錄一些食譜,這些食譜是我寫(xiě)的和其他學(xué)生貢獻的。歡迎任何人提供食譜。 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(Windows,OSX及Linux在線(xiàn)資料轉為epub或mobi格式)
自從我買(mǎi)了kindle,我就一直在想如何最大限度地發(fā)揮它的功效。雖然可供購買(mǎi)的書(shū)籍很多,網(wǎng)上也有很多免費的電子書(shū),但還是有很多網(wǎng)頁(yè)形式的有趣內容。例如,O'Reilly Atlas 提供了很多電子書(shū),但只提供免費在線(xiàn)閱讀;此外,許多材料或文件只是網(wǎng)絡(luò )形式。所以我希望將這些網(wǎng)上資料以某種方式轉換成epub或者mobi格式,以便在kindle上閱讀。本文文章介紹了如何使用calibre并編寫(xiě)少量代碼來(lái)實(shí)現這一目標。
口徑
Calibre 是一款免費的電子書(shū)管理工具,兼容 Windows、OS X 和 Linux。令人欣慰的是,除了GUI,calibre 還提供了很多命令行工具。ebook-convert 命令可以基于用戶(hù)編寫(xiě)的食譜。該文件(實(shí)際上是python代碼)抓取指定頁(yè)面的內容,生成mobi等格式的電子書(shū)。爬取行為可以通過(guò)編寫(xiě)recipe來(lái)定制,以適應不同的網(wǎng)頁(yè)結構。
安裝口徑
Calibre的下載地址是,您可以根據自己的操作系統下載相應的安裝程序。
如果是Linux操作系統,也可以通過(guò)軟件倉庫安裝:
Archlinux:
pacman -S 口徑
Debian/Ubuntu:
apt-get 安裝口徑
紅帽/Fedora/CentOS:
yum -y 安裝口徑
請注意,如果您使用 OSX,則需要單獨安裝命令行工具。
抓取網(wǎng)頁(yè)以生成電子書(shū)
下面以Git Pocket Guide為例,說(shuō)明如何通過(guò)calibre從網(wǎng)頁(yè)生成電子書(shū)。
找到索引頁(yè)
要爬取整本書(shū),首先要找到索引頁(yè)。這個(gè)頁(yè)面通常是目錄,也就是目錄頁(yè)面,其中每個(gè)目錄鏈接都連接到相應的內容頁(yè)面。在生成電子書(shū)時(shí),索引頁(yè)會(huì )指導抓取哪些頁(yè)面以及內容組織的順序。在這個(gè)例子中,索引頁(yè)是。
寫(xiě)食譜
食譜是一個(gè)帶有食譜擴展名的腳本。內容其實(shí)是一段python代碼,定義了calibre爬取頁(yè)面的范圍和行為。以下是爬取 Git Pocket Guide 的秘籍:
從 calibre.web.feeds.recipes 導入 BasicNewsRecipe
類(lèi) Git_Pocket_Guide(BasicNewsRecipe):
title = 'Git Pocket Guide'
description = ''
cover\_url = 'http://akamaicovers.oreilly.com/images/0636920024972/lrg.jpg'
url\_prefix = 'http://chimera.labs.oreilly.com/books/1230000000561/'
no\_stylesheets = True
keep\_only\_tags = \[{ 'class': 'chapter' }\]
def get\_title(self, link):
return link.contents\[0\].strip()
def parse\_index(self):
soup = self.index\_to\_soup(self.url\_prefix + 'index.html')
div = soup.find('div', { 'class': 'toc' })
articles = \[\]
for link in div.findAll('a'):
if '#' in link\['href'\]:
continue
if not 'ch' in link\['href'\]:
continue
til = self.get\_title(link)
url = self.url\_prefix + link\['href'\]
a = { 'title': til, 'url': url }
articles.append(a)
ans = \[('Git\_Pocket\_Guide', articles)\]
return ans
下面解釋了代碼的不同部分。
整體結構
總的來(lái)說(shuō),一個(gè)recipe是一個(gè)python類(lèi),但是這個(gè)類(lèi)必須繼承calibre.web.feeds.recipes.BasicNewsRecipe。
解析索引
整個(gè)recipe的核心方法是parse_index,這也是recipes必須實(shí)現的唯一方法。該方法的目標是通過(guò)分析索引頁(yè)的內容,返回一個(gè)稍微復雜一些的數據結構(稍后介紹)。這個(gè)數據結構定義了整個(gè)電子書(shū)的內容和內容組織順序。
整體屬性設置
在類(lèi)的開(kāi)頭,定義了一些全局屬性:
title ='Git Pocket Guide'description =''cover_url =''
url_prefix =''no_stylesheets = Truekeep_only_tags = [{'class':'chapter' }]
parse_index 返回值
下面通過(guò)分析索引頁(yè)來(lái)描述parse_index需要返回的數據結構。

整體的返回數據結構是一個(gè)列表,其中每個(gè)元素是一個(gè)元組,一個(gè)元組代表一個(gè)卷。在這個(gè)例子中,只有一個(gè)卷,所以列表中只有一個(gè)元組。
每個(gè)元組有兩個(gè)元素,第一個(gè)元素是卷名,第二個(gè)元素是一個(gè)列表,列表中的每個(gè)元素都是一個(gè)映射,表示一個(gè)章節(chapter),映射中有兩個(gè)元素: title 和 url , Title是章節的標題,url是章節所在的內容頁(yè)面的url。
Calibre 會(huì )根據parse_index 返回的結果對整本書(shū)進(jìn)行爬取和組織,并會(huì )自行爬取處理內容內外的圖片。
整個(gè)parse_index使用soup解析索引頁(yè),生成上述數據結構。
更多的
以上是最基本的食譜。如果想了解更多使用方法,可以參考API文檔。
生成手機
寫(xiě)好菜譜后,可以在命令行中使用以下命令生成電子書(shū):
電子書(shū)轉換 Git_Pocket_Guide.recipe Git_Pocket_Guide.mobi
您可以生成mobi 格式的電子書(shū)。ebook-convert 會(huì )爬取相關(guān)內容,根據配方代碼自行組織結構。
最終效果
下面是在kindle上看到的效果。
內容

內容一

內容二

帶圖片的頁(yè)面

實(shí)際效果

我的食譜倉庫
我在 github 上構建了一個(gè) kindle-open-books,其中收錄一些食譜,這些食譜是我寫(xiě)的和其他學(xué)生貢獻的。歡迎任何人提供食譜。
抓取網(wǎng)頁(yè)生成電子書(shū)(Windows,OSX及Linux的在線(xiàn)資料epub格式 )
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 105 次瀏覽 ? 2021-11-14 06:12
)
自從我買(mǎi)了kindle,我就一直在想如何最大限度地發(fā)揮它的功效。雖然可供購買(mǎi)的書(shū)籍很多,網(wǎng)上也有很多免費的電子書(shū),但還是有很多網(wǎng)頁(yè)形式的有趣內容。例如,O'Reilly Atlas 提供了很多電子書(shū),但只提供免費在線(xiàn)閱讀;此外,許多材料或文件只是網(wǎng)絡(luò )形式。所以我希望將這些網(wǎng)上資料以某種方式轉換成epub或者mobi格式,以便在kindle上閱讀。本文文章介紹了如何使用calibre并編寫(xiě)少量代碼來(lái)實(shí)現這一目標。
Calibre 簡(jiǎn)介
Calibre 是一款免費的電子書(shū)管理工具,兼容 Windows、OS X 和 Linux。令人欣慰的是,除了GUI,calibre 還提供了很多命令行工具。ebook-convert 命令可以基于用戶(hù)編寫(xiě)的食譜。該文件(實(shí)際上是python代碼)抓取指定頁(yè)面的內容,生成mobi等格式的電子書(shū)。爬取行為可以通過(guò)編寫(xiě)recipe來(lái)定制,以適應不同的網(wǎng)頁(yè)結構。
安裝口徑
Calibre的下載地址為download,您可以根據自己的操作系統下載相應的安裝程序。
如果是Linux操作系統,也可以通過(guò)軟件倉庫安裝:
Archlinux:
pacman -S calibre
Debian/Ubuntu:
apt-get install calibre
紅帽/Fedora/CentOS:
yum -y install calibre
請注意,如果您使用 OSX,則需要單獨安裝命令行工具。
抓取網(wǎng)頁(yè)以生成電子書(shū)
下面以Git Pocket Guide為例,說(shuō)明如何通過(guò)calibre從網(wǎng)頁(yè)生成電子書(shū)。
找到索引頁(yè)
要爬取整本書(shū),首先要找到索引頁(yè)。這個(gè)頁(yè)面通常是目錄,也就是目錄頁(yè)面,其中每個(gè)目錄鏈接都連接到相應的內容頁(yè)面。在生成電子書(shū)時(shí),索引頁(yè)會(huì )指導抓取哪些頁(yè)面以及內容組織的順序。在本例中,索引頁(yè)為 61/index.html。
寫(xiě)食譜
食譜是一個(gè)帶有食譜擴展名的腳本。內容其實(shí)是一段python代碼,定義了calibre爬取頁(yè)面的范圍和行為。以下是爬取 Git Pocket Guide 的秘籍:
from calibre.web.feeds.recipes import BasicNewsRecipe
class Git_Pocket_Guide(BasicNewsRecipe):
title = 'Git Pocket Guide'
description = ''
cover_url = 'http://akamaicovers.oreilly.com/images/0636920024972/lrg.jpg'
url_prefix = '1230000000561/'
no_stylesheets = True
keep_only_tags = [{ 'class': 'chapter' }]
def get_title(self, link):
return link.contents[0].strip()
def parse_index(self):
soup = self.index_to_soup(self.url_prefix + 'index.html')
div = soup.find('div', { 'class': 'toc' })
articles = []
for link in div.findAll('a'):
if '#' in link['href']:
continue
if not 'ch' in link['href']:
continue
til = self.get_title(link)
url = self.url_prefix + link['href']
a = { 'title': til, 'url': url }
articles.append(a)
ans = [('Git_Pocket_Guide', articles)]
return ans
下面解釋了代碼的不同部分。
整體結構
總的來(lái)說(shuō),一個(gè)recipe是一個(gè)python類(lèi),但是這個(gè)類(lèi)必須繼承calibre.web.feeds.recipes.BasicNewsRecipe。
解析索引
整個(gè)recipe的核心方法是parse_index,這也是recipes必須實(shí)現的唯一方法。該方法的目標是通過(guò)分析索引頁(yè)的內容,返回一個(gè)稍微復雜一些的數據結構(稍后介紹)。這個(gè)數據結構定義了整個(gè)電子書(shū)的內容和內容組織順序。
整體屬性設置
在類(lèi)的開(kāi)頭,定義了一些全局屬性:
title = 'Git Pocket Guide'
description = ''
cover_url = 'http://akamaicovers.oreilly.com/images/0636920024972/lrg.jpg'
url_prefix = '1230000000561/'
no_stylesheets = True
keep_only_tags = [{ 'class': 'chapter' }] 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(Windows,OSX及Linux的在線(xiàn)資料epub格式
)
自從我買(mǎi)了kindle,我就一直在想如何最大限度地發(fā)揮它的功效。雖然可供購買(mǎi)的書(shū)籍很多,網(wǎng)上也有很多免費的電子書(shū),但還是有很多網(wǎng)頁(yè)形式的有趣內容。例如,O'Reilly Atlas 提供了很多電子書(shū),但只提供免費在線(xiàn)閱讀;此外,許多材料或文件只是網(wǎng)絡(luò )形式。所以我希望將這些網(wǎng)上資料以某種方式轉換成epub或者mobi格式,以便在kindle上閱讀。本文文章介紹了如何使用calibre并編寫(xiě)少量代碼來(lái)實(shí)現這一目標。
Calibre 簡(jiǎn)介
Calibre 是一款免費的電子書(shū)管理工具,兼容 Windows、OS X 和 Linux。令人欣慰的是,除了GUI,calibre 還提供了很多命令行工具。ebook-convert 命令可以基于用戶(hù)編寫(xiě)的食譜。該文件(實(shí)際上是python代碼)抓取指定頁(yè)面的內容,生成mobi等格式的電子書(shū)。爬取行為可以通過(guò)編寫(xiě)recipe來(lái)定制,以適應不同的網(wǎng)頁(yè)結構。
安裝口徑
Calibre的下載地址為download,您可以根據自己的操作系統下載相應的安裝程序。
如果是Linux操作系統,也可以通過(guò)軟件倉庫安裝:
Archlinux:
pacman -S calibre
Debian/Ubuntu:
apt-get install calibre
紅帽/Fedora/CentOS:
yum -y install calibre
請注意,如果您使用 OSX,則需要單獨安裝命令行工具。
抓取網(wǎng)頁(yè)以生成電子書(shū)
下面以Git Pocket Guide為例,說(shuō)明如何通過(guò)calibre從網(wǎng)頁(yè)生成電子書(shū)。
找到索引頁(yè)
要爬取整本書(shū),首先要找到索引頁(yè)。這個(gè)頁(yè)面通常是目錄,也就是目錄頁(yè)面,其中每個(gè)目錄鏈接都連接到相應的內容頁(yè)面。在生成電子書(shū)時(shí),索引頁(yè)會(huì )指導抓取哪些頁(yè)面以及內容組織的順序。在本例中,索引頁(yè)為 61/index.html。
寫(xiě)食譜
食譜是一個(gè)帶有食譜擴展名的腳本。內容其實(shí)是一段python代碼,定義了calibre爬取頁(yè)面的范圍和行為。以下是爬取 Git Pocket Guide 的秘籍:
from calibre.web.feeds.recipes import BasicNewsRecipe
class Git_Pocket_Guide(BasicNewsRecipe):
title = 'Git Pocket Guide'
description = ''
cover_url = 'http://akamaicovers.oreilly.com/images/0636920024972/lrg.jpg'
url_prefix = '1230000000561/'
no_stylesheets = True
keep_only_tags = [{ 'class': 'chapter' }]
def get_title(self, link):
return link.contents[0].strip()
def parse_index(self):
soup = self.index_to_soup(self.url_prefix + 'index.html')
div = soup.find('div', { 'class': 'toc' })
articles = []
for link in div.findAll('a'):
if '#' in link['href']:
continue
if not 'ch' in link['href']:
continue
til = self.get_title(link)
url = self.url_prefix + link['href']
a = { 'title': til, 'url': url }
articles.append(a)
ans = [('Git_Pocket_Guide', articles)]
return ans
下面解釋了代碼的不同部分。
整體結構
總的來(lái)說(shuō),一個(gè)recipe是一個(gè)python類(lèi),但是這個(gè)類(lèi)必須繼承calibre.web.feeds.recipes.BasicNewsRecipe。
解析索引
整個(gè)recipe的核心方法是parse_index,這也是recipes必須實(shí)現的唯一方法。該方法的目標是通過(guò)分析索引頁(yè)的內容,返回一個(gè)稍微復雜一些的數據結構(稍后介紹)。這個(gè)數據結構定義了整個(gè)電子書(shū)的內容和內容組織順序。
整體屬性設置
在類(lèi)的開(kāi)頭,定義了一些全局屬性:
title = 'Git Pocket Guide'
description = ''
cover_url = 'http://akamaicovers.oreilly.com/images/0636920024972/lrg.jpg'
url_prefix = '1230000000561/'
no_stylesheets = True
keep_only_tags = [{ 'class': 'chapter' }]
抓取網(wǎng)頁(yè)生成電子書(shū)(從當當網(wǎng)上采集數據的過(guò)程為例,你了解多少?)
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 238 次瀏覽 ? 2021-11-13 03:19
所謂“網(wǎng)頁(yè)數據抓取”,也稱(chēng)為網(wǎng)頁(yè)數據采集、網(wǎng)頁(yè)數據采集等,就是從我們平時(shí)查看的網(wǎng)頁(yè)中提取需要的數據信息瀏覽器,然后將結構以CSV、JSON、XML、ACCESS、MSSQL、MYSQL等格式存儲在文件或數據庫中的過(guò)程。當然,這里的數據提取過(guò)程是通過(guò)計算機軟件技術(shù)實(shí)現的,而不是通過(guò)人工復制粘貼。也正因為如此,才有可能從大規模的網(wǎng)站中采集。
下面以作者從當當網(wǎng)獲取采集數據的過(guò)程為例,詳細講解一下web數據抓取的基本過(guò)程。
首先,我們需要分析目標網(wǎng)站的網(wǎng)頁(yè)結構,判斷網(wǎng)站上的數據是否可以采集以及如何采集。
當當網(wǎng)是一個(gè)綜合性的網(wǎng)站,這里以圖書(shū)數據為例。檢查后,我們找到了圖書(shū)信息的目錄頁(yè)。圖書(shū)信息以多級目錄結構組織。如下圖所示,圖片左側為圖書(shū)信息一級目錄:
因為很多網(wǎng)站會(huì )出于數據保護的原因限制顯示數據的數量,比如數據最多可以顯示100頁(yè),超過(guò)100頁(yè)的數據就不會(huì )顯示。這樣,如果您選擇進(jìn)入更高級別的目錄,您可以獲得的數據就越少。因此,為了獲得盡可能多的數據,我們需要進(jìn)入較低級別的目錄,也就是更小的分類(lèi)級別,以獲得更多的數據。
點(diǎn)擊一級目錄,進(jìn)入二級圖書(shū)目錄,如下圖:
同理,依次點(diǎn)擊每一級目錄,最后可以進(jìn)入底層目錄,這里顯示了該目錄下所有可顯示數據項的列表,我們稱(chēng)之為底層列表頁(yè)面,如圖:
當然,這個(gè)列表頁(yè)面很可能會(huì )被分成多個(gè)頁(yè)面。我們在做數據采集的時(shí)候,需要遍歷每個(gè)頁(yè)面上的數據項,通過(guò)每個(gè)數據項上的鏈接,可以進(jìn)入最終的數據頁(yè)面,我們稱(chēng)之為詳情頁(yè)。如下所示:
至此,獲取詳細數據的路徑已經(jīng)明確。接下來(lái),我們將分析詳細頁(yè)面上有用的數據項,然后編寫(xiě)數據采集程序,以捕獲我們感興趣的數據。
以下是作者編寫(xiě)的當當網(wǎng)圖書(shū)數據網(wǎng)頁(yè)數據爬取程序的部分代碼:
以下是作者采集得到的部分圖書(shū)信息樣本數據:
至此,一個(gè)完整的網(wǎng)頁(yè)數據抓取過(guò)程就完成了。 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(從當當網(wǎng)上采集數據的過(guò)程為例,你了解多少?)
所謂“網(wǎng)頁(yè)數據抓取”,也稱(chēng)為網(wǎng)頁(yè)數據采集、網(wǎng)頁(yè)數據采集等,就是從我們平時(shí)查看的網(wǎng)頁(yè)中提取需要的數據信息瀏覽器,然后將結構以CSV、JSON、XML、ACCESS、MSSQL、MYSQL等格式存儲在文件或數據庫中的過(guò)程。當然,這里的數據提取過(guò)程是通過(guò)計算機軟件技術(shù)實(shí)現的,而不是通過(guò)人工復制粘貼。也正因為如此,才有可能從大規模的網(wǎng)站中采集。
下面以作者從當當網(wǎng)獲取采集數據的過(guò)程為例,詳細講解一下web數據抓取的基本過(guò)程。
首先,我們需要分析目標網(wǎng)站的網(wǎng)頁(yè)結構,判斷網(wǎng)站上的數據是否可以采集以及如何采集。
當當網(wǎng)是一個(gè)綜合性的網(wǎng)站,這里以圖書(shū)數據為例。檢查后,我們找到了圖書(shū)信息的目錄頁(yè)。圖書(shū)信息以多級目錄結構組織。如下圖所示,圖片左側為圖書(shū)信息一級目錄:

因為很多網(wǎng)站會(huì )出于數據保護的原因限制顯示數據的數量,比如數據最多可以顯示100頁(yè),超過(guò)100頁(yè)的數據就不會(huì )顯示。這樣,如果您選擇進(jìn)入更高級別的目錄,您可以獲得的數據就越少。因此,為了獲得盡可能多的數據,我們需要進(jìn)入較低級別的目錄,也就是更小的分類(lèi)級別,以獲得更多的數據。
點(diǎn)擊一級目錄,進(jìn)入二級圖書(shū)目錄,如下圖:

同理,依次點(diǎn)擊每一級目錄,最后可以進(jìn)入底層目錄,這里顯示了該目錄下所有可顯示數據項的列表,我們稱(chēng)之為底層列表頁(yè)面,如圖:

當然,這個(gè)列表頁(yè)面很可能會(huì )被分成多個(gè)頁(yè)面。我們在做數據采集的時(shí)候,需要遍歷每個(gè)頁(yè)面上的數據項,通過(guò)每個(gè)數據項上的鏈接,可以進(jìn)入最終的數據頁(yè)面,我們稱(chēng)之為詳情頁(yè)。如下所示:

至此,獲取詳細數據的路徑已經(jīng)明確。接下來(lái),我們將分析詳細頁(yè)面上有用的數據項,然后編寫(xiě)數據采集程序,以捕獲我們感興趣的數據。
以下是作者編寫(xiě)的當當網(wǎng)圖書(shū)數據網(wǎng)頁(yè)數據爬取程序的部分代碼:

以下是作者采集得到的部分圖書(shū)信息樣本數據:

至此,一個(gè)完整的網(wǎng)頁(yè)數據抓取過(guò)程就完成了。
抓取網(wǎng)頁(yè)生成電子書(shū)(通過(guò)Python和爬蟲(chóng),可以完成怎樣的小工具?|知乎 )
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 271 次瀏覽 ? 2021-11-13 03:18
)
總有同學(xué)問(wèn),學(xué)了Python基礎之后,不知道自己可以做些什么來(lái)提高。今天我就用一個(gè)小例子來(lái)告訴大家通過(guò)Python和爬蟲(chóng)可以完成什么樣的小工具。
在知乎上,你一定關(guān)注過(guò)一些不錯的專(zhuān)欄(比如Crossin的編程課堂)。但如果有一天,你最喜歡的受訪(fǎng)者在網(wǎng)上被噴,你一怒之下刪帖停止更新,你就看不到好內容了。雖然這是小概率事件(以前沒(méi)有發(fā)生過(guò)),但你可以準備下雨天。您可以將您關(guān)注的專(zhuān)欄導出到電子書(shū)中,這樣您就可以離線(xiàn)閱讀,而不必擔心不小心刪除帖子。
只需要工具和源碼的可以拉到文章底部獲取代碼。
【最終效果】
運行程序,輸入列的id,即網(wǎng)頁(yè)地址上的路徑:
之后程序會(huì )自動(dòng)抓取列中的文章,并根據發(fā)布時(shí)間合并導出為pdf文件。
【實(shí)現思路】
本方案主要分為三部分:
爬取專(zhuān)欄文章地址列表爬取每篇文章的詳細內容文章導出PDF1.爬取列表
在之前的文章爬蟲(chóng)必備工具中,掌握它就解決了一半的問(wèn)題,介紹了如何分析網(wǎng)頁(yè)上的請求。根據方法,我們可以使用開(kāi)發(fā)者工具的Network功能,找出欄目頁(yè)面的請求,獲取明細列表:
https://www.zhihu.com/api/v4/c ... icles
觀(guān)察返回的結果,我們發(fā)現通過(guò)next和is_end的值,可以得到下一個(gè)列表請求的地址(相當于頁(yè)面向下滾動(dòng)的觸發(fā)效果),判斷是否所有文章都有已獲得。
data中的id、title、url就是我們需要的數據。因為url可以用id拼出來(lái),所以沒(méi)有保存在我們的代碼中。
使用 while 循環(huán)直到 文章 的所有 id 和 title 都被捕獲并保存在文件中。
while True:
resp = requests.get(url, headers=headers)
j = resp.json()
data = j['data']
for article in data:
# 保存id和title(略)
if j['paging']['is_end']:
break
url = j['paging']['next']
# 按 id 排序(略)
# 導入文件(略)
2. 搶 文章
有了文章的所有id/url,后面的爬取就很簡(jiǎn)單了。文章 主要內容在 Post-RichText 標簽中。
處理一些文字需要一點(diǎn)功夫,比如原頁(yè)面的圖片效果,會(huì )添加noscript標簽和`,highlight">
url = 'https://zhuanlan.zhihu.com/p/' + id
html = requests.get(url, headers=headers).text
soup = BeautifulSoup(html, 'lxml')
content = soup.find(class_='Post-RichText').prettify()
# 對content做處理(略)
with open(file_name, 'w') as f:
f.write(content)
至此,所有的內容都已經(jīng)抓取完畢,可以在本地讀取了。
3. 導出 PDF
為了方便閱讀,我們使用 wkhtmltopdf + pdfkit 將這些 HTML 文件打包成 PDF。
wkhtmltopdf是一個(gè)將HTML轉PDF的工具,需要單獨安裝。詳情請參閱其官方網(wǎng)站。
pdfkit 是為此工具打包的 Python 庫,可以從 pip 安裝:
pip install pdfkit
使用非常簡(jiǎn)單:
# 獲取htmls文件名列表(略)
pdfkit.from_file(sorted(htmls), 'zhihu.pdf')
這樣就完成了整列的導出。
不只是知乎的欄目,幾乎大部分信息網(wǎng)站,通過(guò)1.抓取列表2.抓取詳細內容采集數據兩步。所以這段代碼只要稍加修改就可以用于許多其他的網(wǎng)站。只是有些網(wǎng)站需要登錄才能訪(fǎng)問(wèn),所以需要在headers中設置cookie信息。另外,不同網(wǎng)站的請求接口、參數、限制都不一樣,具體問(wèn)題還是要具體問(wèn)題具體分析。
這些爬蟲(chóng)的開(kāi)發(fā)技巧可以在我們的爬蟲(chóng)實(shí)戰課中學(xué)習。需要的請回復公眾號中的實(shí)際爬蟲(chóng)
【源碼下載】
獲取知乎的專(zhuān)欄下載器源碼,請在公眾號(Crossin的編程課堂)回復關(guān)鍵字知乎
除了代碼,還有本專(zhuān)欄打包好的PDF,歡迎閱讀分享。
?。剑剑剑?br /> 其他 文章 和回答:
歡迎搜索關(guān)注:Crossin的編程課堂
查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(通過(guò)Python和爬蟲(chóng),可以完成怎樣的小工具?|知乎
)
總有同學(xué)問(wèn),學(xué)了Python基礎之后,不知道自己可以做些什么來(lái)提高。今天我就用一個(gè)小例子來(lái)告訴大家通過(guò)Python和爬蟲(chóng)可以完成什么樣的小工具。
在知乎上,你一定關(guān)注過(guò)一些不錯的專(zhuān)欄(比如Crossin的編程課堂)。但如果有一天,你最喜歡的受訪(fǎng)者在網(wǎng)上被噴,你一怒之下刪帖停止更新,你就看不到好內容了。雖然這是小概率事件(以前沒(méi)有發(fā)生過(guò)),但你可以準備下雨天。您可以將您關(guān)注的專(zhuān)欄導出到電子書(shū)中,這樣您就可以離線(xiàn)閱讀,而不必擔心不小心刪除帖子。
只需要工具和源碼的可以拉到文章底部獲取代碼。
【最終效果】
運行程序,輸入列的id,即網(wǎng)頁(yè)地址上的路徑:
之后程序會(huì )自動(dòng)抓取列中的文章,并根據發(fā)布時(shí)間合并導出為pdf文件。
【實(shí)現思路】
本方案主要分為三部分:
爬取專(zhuān)欄文章地址列表爬取每篇文章的詳細內容文章導出PDF1.爬取列表
在之前的文章爬蟲(chóng)必備工具中,掌握它就解決了一半的問(wèn)題,介紹了如何分析網(wǎng)頁(yè)上的請求。根據方法,我們可以使用開(kāi)發(fā)者工具的Network功能,找出欄目頁(yè)面的請求,獲取明細列表:
https://www.zhihu.com/api/v4/c ... icles
觀(guān)察返回的結果,我們發(fā)現通過(guò)next和is_end的值,可以得到下一個(gè)列表請求的地址(相當于頁(yè)面向下滾動(dòng)的觸發(fā)效果),判斷是否所有文章都有已獲得。
data中的id、title、url就是我們需要的數據。因為url可以用id拼出來(lái),所以沒(méi)有保存在我們的代碼中。
使用 while 循環(huán)直到 文章 的所有 id 和 title 都被捕獲并保存在文件中。
while True:
resp = requests.get(url, headers=headers)
j = resp.json()
data = j['data']
for article in data:
# 保存id和title(略)
if j['paging']['is_end']:
break
url = j['paging']['next']
# 按 id 排序(略)
# 導入文件(略)
2. 搶 文章
有了文章的所有id/url,后面的爬取就很簡(jiǎn)單了。文章 主要內容在 Post-RichText 標簽中。
處理一些文字需要一點(diǎn)功夫,比如原頁(yè)面的圖片效果,會(huì )添加noscript標簽和`,highlight">
url = 'https://zhuanlan.zhihu.com/p/' + id
html = requests.get(url, headers=headers).text
soup = BeautifulSoup(html, 'lxml')
content = soup.find(class_='Post-RichText').prettify()
# 對content做處理(略)
with open(file_name, 'w') as f:
f.write(content)
至此,所有的內容都已經(jīng)抓取完畢,可以在本地讀取了。
3. 導出 PDF
為了方便閱讀,我們使用 wkhtmltopdf + pdfkit 將這些 HTML 文件打包成 PDF。
wkhtmltopdf是一個(gè)將HTML轉PDF的工具,需要單獨安裝。詳情請參閱其官方網(wǎng)站。
pdfkit 是為此工具打包的 Python 庫,可以從 pip 安裝:
pip install pdfkit
使用非常簡(jiǎn)單:
# 獲取htmls文件名列表(略)
pdfkit.from_file(sorted(htmls), 'zhihu.pdf')
這樣就完成了整列的導出。
不只是知乎的欄目,幾乎大部分信息網(wǎng)站,通過(guò)1.抓取列表2.抓取詳細內容采集數據兩步。所以這段代碼只要稍加修改就可以用于許多其他的網(wǎng)站。只是有些網(wǎng)站需要登錄才能訪(fǎng)問(wèn),所以需要在headers中設置cookie信息。另外,不同網(wǎng)站的請求接口、參數、限制都不一樣,具體問(wèn)題還是要具體問(wèn)題具體分析。
這些爬蟲(chóng)的開(kāi)發(fā)技巧可以在我們的爬蟲(chóng)實(shí)戰課中學(xué)習。需要的請回復公眾號中的實(shí)際爬蟲(chóng)
【源碼下載】
獲取知乎的專(zhuān)欄下載器源碼,請在公眾號(Crossin的編程課堂)回復關(guān)鍵字知乎
除了代碼,還有本專(zhuān)欄打包好的PDF,歡迎閱讀分享。
?。剑剑剑?br /> 其他 文章 和回答:
歡迎搜索關(guān)注:Crossin的編程課堂
抓取網(wǎng)頁(yè)生成電子書(shū)(網(wǎng)絡(luò )書(shū)籍抓取器怎么做?如何制作電子書(shū)的方法 )
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 223 次瀏覽 ? 2021-11-12 04:23
)
網(wǎng)絡(luò )圖書(shū)抓取器主要用于抓取網(wǎng)絡(luò )小說(shuō)生成文本文件。它可以提取指定小說(shuō)目錄頁(yè)的章節信息并進(jìn)行調整,然后按照章節順序抓取小說(shuō)內容,然后進(jìn)行合并。爬取過(guò)程可以隨時(shí)中斷,關(guān)閉程序后可以繼續上一個(gè)任務(wù)。
相關(guān)軟件軟件大小版本說(shuō)明下載地址
網(wǎng)絡(luò )圖書(shū)抓取器主要用于抓取網(wǎng)絡(luò )小說(shuō)生成文本文件。它可以提取指定小說(shuō)目錄頁(yè)的章節信息并進(jìn)行調整,然后按照章節順序抓取小說(shuō)內容,然后進(jìn)行合并。爬取過(guò)程可以隨時(shí)中斷,關(guān)閉程序后可以繼續上一個(gè)任務(wù)。
軟件特點(diǎn)
1、 章節調整:提取目錄后,可以進(jìn)行移動(dòng)、刪除、倒序等調整操作。調整會(huì )直接影響最終的書(shū)籍,也會(huì )以調整后的章節順序輸出。
2、自動(dòng)重試:在爬取過(guò)程中,由于網(wǎng)絡(luò )因素,可能會(huì )出現爬取失敗的情況。程序可能會(huì )自動(dòng)重試直到成功,也可以暫時(shí)中斷爬?。ㄖ袛嗪箨P(guān)閉程序不影響進(jìn)度),網(wǎng)絡(luò )好后再試。
3、停止和恢復:可以隨時(shí)停止抓取過(guò)程,退出程序后不影響進(jìn)度(章節信息會(huì )保存在記錄中,運行程序后可以恢復抓取下一次。注意:您需要先使用停止按鈕中斷然后退出程序,如果直接退出,將不會(huì )恢復)。
4、 一鍵爬?。河址Q(chēng)“啞模式”,基本可以實(shí)現全自動(dòng)爬取合并功能,直接輸出最終的文本文件。前面可能需要輸入最基本的網(wǎng)址、保存位置等信息(會(huì )有明顯的操作提示),調整章節后也可以一鍵抓取,抓取合并操作會(huì )自動(dòng)完成.
5、適用網(wǎng)站:已輸入10個(gè)適用網(wǎng)站(選擇后可快速打開(kāi)網(wǎng)站找到您需要的書(shū)),并自動(dòng)應用相應的代碼, 也可以測試其他小說(shuō)網(wǎng)站,如果一起使用,可以手動(dòng)添加到設置文件中以備后用。
6、輕松制作電子書(shū):可以在設置文件中添加每個(gè)章節名稱(chēng)的前綴和后綴,為后期制作電子書(shū)的目錄帶來(lái)極大的方便。
查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(網(wǎng)絡(luò )書(shū)籍抓取器怎么做?如何制作電子書(shū)的方法
)
網(wǎng)絡(luò )圖書(shū)抓取器主要用于抓取網(wǎng)絡(luò )小說(shuō)生成文本文件。它可以提取指定小說(shuō)目錄頁(yè)的章節信息并進(jìn)行調整,然后按照章節順序抓取小說(shuō)內容,然后進(jìn)行合并。爬取過(guò)程可以隨時(shí)中斷,關(guān)閉程序后可以繼續上一個(gè)任務(wù)。
相關(guān)軟件軟件大小版本說(shuō)明下載地址
網(wǎng)絡(luò )圖書(shū)抓取器主要用于抓取網(wǎng)絡(luò )小說(shuō)生成文本文件。它可以提取指定小說(shuō)目錄頁(yè)的章節信息并進(jìn)行調整,然后按照章節順序抓取小說(shuō)內容,然后進(jìn)行合并。爬取過(guò)程可以隨時(shí)中斷,關(guān)閉程序后可以繼續上一個(gè)任務(wù)。
軟件特點(diǎn)
1、 章節調整:提取目錄后,可以進(jìn)行移動(dòng)、刪除、倒序等調整操作。調整會(huì )直接影響最終的書(shū)籍,也會(huì )以調整后的章節順序輸出。
2、自動(dòng)重試:在爬取過(guò)程中,由于網(wǎng)絡(luò )因素,可能會(huì )出現爬取失敗的情況。程序可能會(huì )自動(dòng)重試直到成功,也可以暫時(shí)中斷爬?。ㄖ袛嗪箨P(guān)閉程序不影響進(jìn)度),網(wǎng)絡(luò )好后再試。
3、停止和恢復:可以隨時(shí)停止抓取過(guò)程,退出程序后不影響進(jìn)度(章節信息會(huì )保存在記錄中,運行程序后可以恢復抓取下一次。注意:您需要先使用停止按鈕中斷然后退出程序,如果直接退出,將不會(huì )恢復)。
4、 一鍵爬?。河址Q(chēng)“啞模式”,基本可以實(shí)現全自動(dòng)爬取合并功能,直接輸出最終的文本文件。前面可能需要輸入最基本的網(wǎng)址、保存位置等信息(會(huì )有明顯的操作提示),調整章節后也可以一鍵抓取,抓取合并操作會(huì )自動(dòng)完成.
5、適用網(wǎng)站:已輸入10個(gè)適用網(wǎng)站(選擇后可快速打開(kāi)網(wǎng)站找到您需要的書(shū)),并自動(dòng)應用相應的代碼, 也可以測試其他小說(shuō)網(wǎng)站,如果一起使用,可以手動(dòng)添加到設置文件中以備后用。
6、輕松制作電子書(shū):可以在設置文件中添加每個(gè)章節名稱(chēng)的前綴和后綴,為后期制作電子書(shū)的目錄帶來(lái)極大的方便。
抓取網(wǎng)頁(yè)生成電子書(shū)( 大型的HTML,使用方法一生成HTML的元素變化。)
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 110 次瀏覽 ? 2021-11-11 23:12
大型的HTML,使用方法一生成HTML的元素變化。)
<p>python 自動(dòng)化批量生成前端的HTML可以大大減輕工作量
下面演示兩種生成 HTML 的方法
方法一:使用 webbrowser
#coding:utf-8
import webbrowser
#命名生成的html
GEN_HTML = "test.html"
#打開(kāi)文件,準備寫(xiě)入
f = open(GEN_HTML,'w')
#準備相關(guān)變量
str1 = 'my name is :'
str2 = '--MichaelAn--'
# 寫(xiě)入HTML界面中
message = """
%s
%s
"""%(str1,str2)
#寫(xiě)入文件
f.write(message)
#關(guān)閉文件
f.close()
#運行完自動(dòng)在網(wǎng)頁(yè)中顯示
webbrowser.open(GEN_HTML,new = 1)
'''
webbrowser.open(url, new=0, autoraise=True)
Display url using the default browser. If new is 0, the url is opened in the same browser window if possible. If new is 1, a new browser window is opened if possible. If new is 2, a new browser page (“tab”) is opened if possible. If autoraise is True, the window is raised if possible (note that under many window managers this will occur regardless of the setting of this variable).
'''</p>
方法二:使用pyh
<p>#coding:utf-8
from pyh import *
# there is a bug "from pyh import *"
page = PyH('My wonderful PyH page')
page.addCSS('myStylesheet1.css', 'myStylesheet2.css')
page.addJS('myJavascript1.js', 'myJavascript2.js')
page 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(
大型的HTML,使用方法一生成HTML的元素變化。)
<p>python 自動(dòng)化批量生成前端的HTML可以大大減輕工作量
下面演示兩種生成 HTML 的方法
方法一:使用 webbrowser
#coding:utf-8
import webbrowser
#命名生成的html
GEN_HTML = "test.html"
#打開(kāi)文件,準備寫(xiě)入
f = open(GEN_HTML,'w')
#準備相關(guān)變量
str1 = 'my name is :'
str2 = '--MichaelAn--'
# 寫(xiě)入HTML界面中
message = """
%s
%s
"""%(str1,str2)
#寫(xiě)入文件
f.write(message)
#關(guān)閉文件
f.close()
#運行完自動(dòng)在網(wǎng)頁(yè)中顯示
webbrowser.open(GEN_HTML,new = 1)
'''
webbrowser.open(url, new=0, autoraise=True)
Display url using the default browser. If new is 0, the url is opened in the same browser window if possible. If new is 1, a new browser window is opened if possible. If new is 2, a new browser page (“tab”) is opened if possible. If autoraise is True, the window is raised if possible (note that under many window managers this will occur regardless of the setting of this variable).
'''</p>
方法二:使用pyh
<p>#coding:utf-8
from pyh import *
# there is a bug "from pyh import *"
page = PyH('My wonderful PyH page')
page.addCSS('myStylesheet1.css', 'myStylesheet2.css')
page.addJS('myJavascript1.js', 'myJavascript2.js')
page
抓取網(wǎng)頁(yè)生成電子書(shū)(利用能提取網(wǎng)頁(yè)小說(shuō)的app,批量下載網(wǎng)站所有小說(shuō))
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 1034 次瀏覽 ? 2021-11-11 20:29
使用可以提取網(wǎng)絡(luò )小說(shuō)的APP批量下載所有網(wǎng)站小說(shuō)?,F在推薦一個(gè)免費且簡(jiǎn)單的網(wǎng)絡(luò )小說(shuō)下載器。使用大叔小說(shuō)下載器,不僅具有小說(shuō)爬蟲(chóng)下載器app的功能,還能批量提取網(wǎng)絡(luò )小說(shuō)。,它也可以用作干凈的本地閱讀器應用程序。下載小說(shuō)后,可以直接閱讀小說(shuō)。不知道怎么下載電子書(shū)軟件的朋友快來(lái)最熱的軟件站下載吧。
基本介紹
這是一款網(wǎng)絡(luò )小說(shuō)下載爬蟲(chóng)軟件,可以幫助用戶(hù)批量下載網(wǎng)絡(luò )小說(shuō)。軟件功能豐富,包括TXT小說(shuō)下載、TXT小說(shuō)閱讀、有聲小說(shuō)下載。有聲小說(shuō)不僅支持下載,還可以在線(xiàn)聽(tīng)書(shū)。如果您使用TXT帶有小說(shuō)下載功能,可以批量下載所有小說(shuō)網(wǎng)站。如果你還不知道怎么下載電子書(shū)軟件,快來(lái)看看吧。將TXT小說(shuō)下載到本地后,可以使用電腦小說(shuō)閱讀器閱讀,也可以使用軟件自帶的閱讀功能閱讀小說(shuō)。
指示
1.在本站下載并解壓這款新穎的爬蟲(chóng)下載器應用。好用,搜索小說(shuō),解析目錄,選擇你要下載的章節(可以平移),點(diǎn)擊章節目錄查看正文內容,點(diǎn)擊章節正文選擇,空白處是查看內容,可以右擊。
2. 過(guò)濾掉不需要的內容(添加范圍,去除廣告),最好的范圍是書(shū)網(wǎng)頁(yè)源代碼的內容,點(diǎn)擊加入書(shū)架或下載,可以到下載管理查看進(jìn)度。
3. 如果下載失敗次數過(guò)多,會(huì )增加每個(gè)線(xiàn)程下載的章節數。您可以直接獲取目錄鏈接進(jìn)行申訴操作。如果是動(dòng)態(tài)網(wǎng)頁(yè),記得開(kāi)啟動(dòng)態(tài)網(wǎng)頁(yè)支持。切換規則不需要重新解析,只需要重新解析章節相關(guān)。
4.支持有聲小說(shuō)下載,搜索有聲小說(shuō),添加書(shū)架直接選擇要開(kāi)始下載的,發(fā)現失敗較多,增加每線(xiàn)程下載章節數,增加延遲。
小編推薦
以上就是這款小說(shuō)下載軟件免費版的完整介紹。最熱門(mén)的軟件網(wǎng)站有更多類(lèi)似的小說(shuō)下載軟件。有需要的朋友快來(lái)下載體驗吧。這是另外兩個(gè)有用的小說(shuō)下載。軟件:電腦版全小說(shuō)下載器、遠天灣小說(shuō)下載器。 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(利用能提取網(wǎng)頁(yè)小說(shuō)的app,批量下載網(wǎng)站所有小說(shuō))
使用可以提取網(wǎng)絡(luò )小說(shuō)的APP批量下載所有網(wǎng)站小說(shuō)?,F在推薦一個(gè)免費且簡(jiǎn)單的網(wǎng)絡(luò )小說(shuō)下載器。使用大叔小說(shuō)下載器,不僅具有小說(shuō)爬蟲(chóng)下載器app的功能,還能批量提取網(wǎng)絡(luò )小說(shuō)。,它也可以用作干凈的本地閱讀器應用程序。下載小說(shuō)后,可以直接閱讀小說(shuō)。不知道怎么下載電子書(shū)軟件的朋友快來(lái)最熱的軟件站下載吧。

基本介紹
這是一款網(wǎng)絡(luò )小說(shuō)下載爬蟲(chóng)軟件,可以幫助用戶(hù)批量下載網(wǎng)絡(luò )小說(shuō)。軟件功能豐富,包括TXT小說(shuō)下載、TXT小說(shuō)閱讀、有聲小說(shuō)下載。有聲小說(shuō)不僅支持下載,還可以在線(xiàn)聽(tīng)書(shū)。如果您使用TXT帶有小說(shuō)下載功能,可以批量下載所有小說(shuō)網(wǎng)站。如果你還不知道怎么下載電子書(shū)軟件,快來(lái)看看吧。將TXT小說(shuō)下載到本地后,可以使用電腦小說(shuō)閱讀器閱讀,也可以使用軟件自帶的閱讀功能閱讀小說(shuō)。
指示
1.在本站下載并解壓這款新穎的爬蟲(chóng)下載器應用。好用,搜索小說(shuō),解析目錄,選擇你要下載的章節(可以平移),點(diǎn)擊章節目錄查看正文內容,點(diǎn)擊章節正文選擇,空白處是查看內容,可以右擊。
2. 過(guò)濾掉不需要的內容(添加范圍,去除廣告),最好的范圍是書(shū)網(wǎng)頁(yè)源代碼的內容,點(diǎn)擊加入書(shū)架或下載,可以到下載管理查看進(jìn)度。
3. 如果下載失敗次數過(guò)多,會(huì )增加每個(gè)線(xiàn)程下載的章節數。您可以直接獲取目錄鏈接進(jìn)行申訴操作。如果是動(dòng)態(tài)網(wǎng)頁(yè),記得開(kāi)啟動(dòng)態(tài)網(wǎng)頁(yè)支持。切換規則不需要重新解析,只需要重新解析章節相關(guān)。
4.支持有聲小說(shuō)下載,搜索有聲小說(shuō),添加書(shū)架直接選擇要開(kāi)始下載的,發(fā)現失敗較多,增加每線(xiàn)程下載章節數,增加延遲。
小編推薦
以上就是這款小說(shuō)下載軟件免費版的完整介紹。最熱門(mén)的軟件網(wǎng)站有更多類(lèi)似的小說(shuō)下載軟件。有需要的朋友快來(lái)下載體驗吧。這是另外兩個(gè)有用的小說(shuō)下載。軟件:電腦版全小說(shuō)下載器、遠天灣小說(shuō)下載器。
抓取網(wǎng)頁(yè)生成電子書(shū)( 提高iPhone電池壽命的十個(gè)看看這十大妙招(組圖))
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 110 次瀏覽 ? 2021-11-09 17:23
提高iPhone電池壽命的十個(gè)看看這十大妙招(組圖))
如何獲取和下載谷歌電子書(shū)(包括整本書(shū)、最新版)
Google Book 和 Goole Play 是目前世界上最大的電子書(shū) 網(wǎng)站。這個(gè)方法教你如何下載谷歌電子書(shū)試讀,并嘗試下載整本書(shū)。一般來(lái)說(shuō),如果你試讀過(guò)谷歌電子書(shū),就可以獲得完整的PDF。
工具/材料
登錄 Google 電子書(shū)網(wǎng)站
谷歌圖書(shū)下載軟件
方法/步驟
打開(kāi)搜索書(shū),只有在有預覽的情況下才下載。如下圖,會(huì )有“部分預覽”標記供試讀。
打開(kāi)圖書(shū)預覽頁(yè)面,復制圖書(shū)地址,例如:+of+amphibians&hl=zh-CN&sa=X&ved=0ahUKEwjemIzzu9nKAhVC8Q4KHZo4DqcQ6AEIKTAB#v=onepage&q=biology%20of%20amphibians&f=false
將獲取到的地址復制到谷歌圖書(shū)下載器,設置下載的分辨率和存儲位置,點(diǎn)擊開(kāi)始開(kāi)始下載。
預防措施
首先,您必須能夠登錄 Google 電子書(shū)。
只能下載試讀的電子書(shū),下載格式可以是PDF或圖片格式。
想要得到完整的PDF,需要突破一定的技術(shù)封鎖,采集需要5-10天,可以私信交流。我可以代表我提供有償服務(wù)。
相關(guān)文章
獲取hasco官方標準件插件
Hasco標準件下載工具/資料上網(wǎng)電腦方法/步驟 打開(kāi)一個(gè)常用瀏覽器,在百度中進(jìn)入hasco官網(wǎng)找到HASCO-Hasco在打開(kāi)的網(wǎng)頁(yè)中找到中文開(kāi)關(guān)圖標找到下載和服務(wù)打開(kāi)后,有有視頻資料和HASCO最新版電子目錄可以下載。點(diǎn)擊這里下載最新版本的 HASCO 電子目錄。有兩種文件可供下載 H...
提高 iPhone 電池壽命的十個(gè)技巧
如果你用的是iPhone,一定覺(jué)得它的電池不夠用,那么當你無(wú)法更換電池時(shí),如何設置手機讓電池更耐用呢?想要獲得最佳 iPhone 體驗并最大限度地延長(cháng) iPhone 電池的使用壽命,請查看這十大技巧!工具/原材料圖片來(lái)自網(wǎng)絡(luò )。如果您有任何問(wèn)題或建議,您可以在下方體驗評論,小編會(huì )盡快回復您。方...
如何免費下載電子書(shū):[2] 使用俄羅斯網(wǎng)盤(pán)
網(wǎng)盤(pán)庫中已經(jīng)上傳了數以千計的免費電子書(shū),我們可以利用這個(gè)巨大的網(wǎng)盤(pán)來(lái)獲取我們想要的電子書(shū)。當然,如果有一天這個(gè)網(wǎng)盤(pán)出現故障,這種方法也會(huì )失敗。工具/材料電腦上網(wǎng)方法/步驟先用百度搜索圖書(shū)館網(wǎng)頁(yè)打開(kāi)圖書(shū)館網(wǎng)站,搜索你想要的電子書(shū),這里我用的是2013 Spring...
應用寶物5.0五虎將解讀智能體驗
大家對應用寶5.0的各種信息都有一定的了解,而本次更新的5.0新版本將讓用戶(hù)在社交方面發(fā)現很多新的突破。五虎,突出新版AppBao的5大功能,讓用戶(hù)擁有智能體驗,包括簽到的應用、身邊人正在玩的應用、新的應用部落、視頻和電子書(shū)、流行朋友圈中的app等,讓我們更方便、更快捷...
ediary電子日記下載最新ediary電子日記下載
ediary 是一個(gè)免費的電子日記。ediary是一款免費的電子日記,那么如何下載最新的ediary電子日記呢?如何下載最新的ediary電子日記?哪里可以下載最新的ediary電子日記?這里為大家分享,ediary電子日記下載最新ediary電子日記下載。工具/原材料 eDiary.eD...
如何在 iPad 上閱讀電子書(shū)
iPad的設計初衷是為了讓用戶(hù)更方便地觀(guān)看電子書(shū),但由于圖書(shū)版權問(wèn)題,iPad軟件中電子書(shū)相關(guān)的軟件并不多,給用戶(hù)帶來(lái)了諸多不便。以下編輯器基于電子書(shū)。格式整理了電子書(shū)軟件,總結了以下幾種閱讀電子書(shū)的方法: 一. 通過(guò)自帶的iBooks軟件查看epub和PDF格式的電子書(shū)的epub和PDF格式iPad。iPad是最...
豌豆莢手機精靈2.20.0.1478官方穩定版
軟件介紹: 豌豆莢是豌豆實(shí)驗室為安卓手機用戶(hù)開(kāi)發(fā)的一款產(chǎn)品。它可以幫助您簡(jiǎn)單快速地管理您的手機,還為您提供了豐富的免費資源獲取平臺。方法/步驟管理和備份通訊錄:通訊錄管理幫助您輕松快速地查看和編輯聯(lián)系人的詳細信息,包括聯(lián)系人信息、分組等,還可以查看最近與某個(gè)聯(lián)系人的聯(lián)系記錄. 支持行動(dòng)...
九口袋揭秘微信公眾號增加粉絲的三種方式
運營(yíng)微信公眾號最麻煩的就是增加粉絲。微信公眾號無(wú)論是為了什么目的而設立的,都必須以粉絲為基礎??。不管你多久更新一次內容,不管它有多難,如果你沒(méi)有粉絲閱讀也是如此。徒然。那么,我們怎樣才能讓微信持續增長(cháng)粉絲呢?九口袋小編為大家總結了以下三種行之有效的方法。方法/步驟一.資源誘惑方法1.分享一些比較吸引人的資源,資源必須有...
通過(guò)電子書(shū)訂閱 Google 閱讀器新聞
Google Reader 是一個(gè)可定制的新聞集合,您可以在其中訂閱任何您想觀(guān)看的 網(wǎng)站。博客更新。為了迎合移動(dòng)閱讀的需求,谷歌閱讀器還推出了移動(dòng)版,基于iOS和Android系統。如果您是盛大Bambook電子書(shū)用戶(hù),還可以通過(guò)云梯客戶(hù)端下載到谷歌閱讀器同步工具... 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(
提高iPhone電池壽命的十個(gè)看看這十大妙招(組圖))
如何獲取和下載谷歌電子書(shū)(包括整本書(shū)、最新版)
Google Book 和 Goole Play 是目前世界上最大的電子書(shū) 網(wǎng)站。這個(gè)方法教你如何下載谷歌電子書(shū)試讀,并嘗試下載整本書(shū)。一般來(lái)說(shuō),如果你試讀過(guò)谷歌電子書(shū),就可以獲得完整的PDF。
工具/材料
登錄 Google 電子書(shū)網(wǎng)站
谷歌圖書(shū)下載軟件
方法/步驟
打開(kāi)搜索書(shū),只有在有預覽的情況下才下載。如下圖,會(huì )有“部分預覽”標記供試讀。

打開(kāi)圖書(shū)預覽頁(yè)面,復制圖書(shū)地址,例如:+of+amphibians&hl=zh-CN&sa=X&ved=0ahUKEwjemIzzu9nKAhVC8Q4KHZo4DqcQ6AEIKTAB#v=onepage&q=biology%20of%20amphibians&f=false
將獲取到的地址復制到谷歌圖書(shū)下載器,設置下載的分辨率和存儲位置,點(diǎn)擊開(kāi)始開(kāi)始下載。

預防措施
首先,您必須能夠登錄 Google 電子書(shū)。
只能下載試讀的電子書(shū),下載格式可以是PDF或圖片格式。
想要得到完整的PDF,需要突破一定的技術(shù)封鎖,采集需要5-10天,可以私信交流。我可以代表我提供有償服務(wù)。
相關(guān)文章
獲取hasco官方標準件插件
Hasco標準件下載工具/資料上網(wǎng)電腦方法/步驟 打開(kāi)一個(gè)常用瀏覽器,在百度中進(jìn)入hasco官網(wǎng)找到HASCO-Hasco在打開(kāi)的網(wǎng)頁(yè)中找到中文開(kāi)關(guān)圖標找到下載和服務(wù)打開(kāi)后,有有視頻資料和HASCO最新版電子目錄可以下載。點(diǎn)擊這里下載最新版本的 HASCO 電子目錄。有兩種文件可供下載 H...
提高 iPhone 電池壽命的十個(gè)技巧
如果你用的是iPhone,一定覺(jué)得它的電池不夠用,那么當你無(wú)法更換電池時(shí),如何設置手機讓電池更耐用呢?想要獲得最佳 iPhone 體驗并最大限度地延長(cháng) iPhone 電池的使用壽命,請查看這十大技巧!工具/原材料圖片來(lái)自網(wǎng)絡(luò )。如果您有任何問(wèn)題或建議,您可以在下方體驗評論,小編會(huì )盡快回復您。方...
如何免費下載電子書(shū):[2] 使用俄羅斯網(wǎng)盤(pán)
網(wǎng)盤(pán)庫中已經(jīng)上傳了數以千計的免費電子書(shū),我們可以利用這個(gè)巨大的網(wǎng)盤(pán)來(lái)獲取我們想要的電子書(shū)。當然,如果有一天這個(gè)網(wǎng)盤(pán)出現故障,這種方法也會(huì )失敗。工具/材料電腦上網(wǎng)方法/步驟先用百度搜索圖書(shū)館網(wǎng)頁(yè)打開(kāi)圖書(shū)館網(wǎng)站,搜索你想要的電子書(shū),這里我用的是2013 Spring...
應用寶物5.0五虎將解讀智能體驗
大家對應用寶5.0的各種信息都有一定的了解,而本次更新的5.0新版本將讓用戶(hù)在社交方面發(fā)現很多新的突破。五虎,突出新版AppBao的5大功能,讓用戶(hù)擁有智能體驗,包括簽到的應用、身邊人正在玩的應用、新的應用部落、視頻和電子書(shū)、流行朋友圈中的app等,讓我們更方便、更快捷...
ediary電子日記下載最新ediary電子日記下載
ediary 是一個(gè)免費的電子日記。ediary是一款免費的電子日記,那么如何下載最新的ediary電子日記呢?如何下載最新的ediary電子日記?哪里可以下載最新的ediary電子日記?這里為大家分享,ediary電子日記下載最新ediary電子日記下載。工具/原材料 eDiary.eD...
如何在 iPad 上閱讀電子書(shū)
iPad的設計初衷是為了讓用戶(hù)更方便地觀(guān)看電子書(shū),但由于圖書(shū)版權問(wèn)題,iPad軟件中電子書(shū)相關(guān)的軟件并不多,給用戶(hù)帶來(lái)了諸多不便。以下編輯器基于電子書(shū)。格式整理了電子書(shū)軟件,總結了以下幾種閱讀電子書(shū)的方法: 一. 通過(guò)自帶的iBooks軟件查看epub和PDF格式的電子書(shū)的epub和PDF格式iPad。iPad是最...
豌豆莢手機精靈2.20.0.1478官方穩定版
軟件介紹: 豌豆莢是豌豆實(shí)驗室為安卓手機用戶(hù)開(kāi)發(fā)的一款產(chǎn)品。它可以幫助您簡(jiǎn)單快速地管理您的手機,還為您提供了豐富的免費資源獲取平臺。方法/步驟管理和備份通訊錄:通訊錄管理幫助您輕松快速地查看和編輯聯(lián)系人的詳細信息,包括聯(lián)系人信息、分組等,還可以查看最近與某個(gè)聯(lián)系人的聯(lián)系記錄. 支持行動(dòng)...
九口袋揭秘微信公眾號增加粉絲的三種方式
運營(yíng)微信公眾號最麻煩的就是增加粉絲。微信公眾號無(wú)論是為了什么目的而設立的,都必須以粉絲為基礎??。不管你多久更新一次內容,不管它有多難,如果你沒(méi)有粉絲閱讀也是如此。徒然。那么,我們怎樣才能讓微信持續增長(cháng)粉絲呢?九口袋小編為大家總結了以下三種行之有效的方法。方法/步驟一.資源誘惑方法1.分享一些比較吸引人的資源,資源必須有...
通過(guò)電子書(shū)訂閱 Google 閱讀器新聞
Google Reader 是一個(gè)可定制的新聞集合,您可以在其中訂閱任何您想觀(guān)看的 網(wǎng)站。博客更新。為了迎合移動(dòng)閱讀的需求,谷歌閱讀器還推出了移動(dòng)版,基于iOS和Android系統。如果您是盛大Bambook電子書(shū)用戶(hù),還可以通過(guò)云梯客戶(hù)端下載到谷歌閱讀器同步工具...
抓取網(wǎng)頁(yè)生成電子書(shū)(全篇的實(shí)現思路分析網(wǎng)頁(yè)學(xué)會(huì )使用BeautifulSoup庫爬取并導出參考資料)
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 95 次瀏覽 ? 2021-11-07 14:07
本文文章主要詳細介紹了python爬取網(wǎng)頁(yè)到PDF文件的轉換。有一定的參考價(jià)值,感興趣的朋友可以參考。
爬行動(dòng)物的成因
官方文檔或手冊雖然可以查閱,但如果變成紙質(zhì)版是不是更容易閱讀和記憶。如果只是簡(jiǎn)單的復制粘貼,不知道什么時(shí)候才能完成。所以我開(kāi)始考慮爬下官方的Android手冊。
整篇文章的實(shí)現
分析網(wǎng)頁(yè),學(xué)習使用BeautifulSoup庫抓取導出
參考資料:
* 將廖雪峰的教程轉成PDF電子書(shū)
* 請求文件
*美麗的湯文件
配置
Ubuntu下使用Pycharm運行成功
要轉換為 PDF,您需要下載 wkhtmltopdf
具體流程
網(wǎng)絡(luò )分析
對于如下所示的網(wǎng)頁(yè),您只需獲取網(wǎng)頁(yè)的正文和標題,以及左側導航欄中的所有網(wǎng)址
下一個(gè)工作是找到這些標簽......
關(guān)于Requests的使用
詳見(jiàn)文檔,這里只是簡(jiǎn)單使用Requests獲取html并使用代理翻墻(網(wǎng)站不能直接訪(fǎng)問(wèn),需要VPN)
proxies={ "http":"http://vpn的IP:port", "https":"https://vpn的IP:port", } response=requests.get(url,proxies=proxies)
美湯的使用
參考資料中有一個(gè) Beautiful Soup 文檔??赐昃椭乐v了兩件事:一是找標簽,二是修改標簽。
這篇文章需要做的是:
1. 獲取title和所有url,這涉及到找標簽
#對標簽進(jìn)行判斷,一個(gè)標簽含有href而不含有description,則返回true #而我希望獲取的是含有href屬性而不含有description屬性的<a>標簽,(且只有a標簽含有href) def has_href_but_no_des(tag): return tag.has_attr('href') and not tag.has_attr('description') #網(wǎng)頁(yè)分析,獲取網(wǎng)址和標題 def parse_url_to_html(url): response=requests.get(url,proxies=proxies) soup=BeautifulSoup(response.content,"html.parser") s=[]#獲取所有的網(wǎng)址 title=[]#獲取對應的標題 tag=soup.find(id="nav")#獲取第一個(gè)id為"nav"的標簽,這個(gè)里面包含了網(wǎng)址和標題 for i in tag.find_all(has_href_but_no_des): s.append(i['href']) title.append(i.text) #獲取的只是標簽集,需要加html前綴 htmls = "" with open("android_training_3.html",'a') as f: f.write(htmls)
解析上面得到的URL,得到文本,將圖片保存到本地;它涉及查找標簽和修改屬性
#網(wǎng)頁(yè)操作,獲取正文及圖片 def get_htmls(urls,title): for i in range(len(urls)): response=requests.get(urls[i],proxies=proxies) soup=BeautifulSoup(response.content,"html.parser") htmls=""+str(i)+"."+title[i]+"" tag=soup.find(class_='jd-descr') #為image添加相對路徑,并下載圖片 for img in tag.find_all('img'): im = requests.get(img['src'], proxies=proxies) filename = os.path.split(img['src'])[1] with open('image/' + filename, 'wb') as f: f.write(im.content) img['src']='image/'+filename htmls=htmls+str(tag) with open("android_training_3.html",'a') as f: f.write(htmls) print(" (%s) [%s] download end"%(i,title[i])) htmls="" with open("android_training_3.html",'a') as f: f.write(htmls)
2. 轉換為 PDF
這一步需要下載wkhtmltopdf,在windows下執行程序一直報錯..ubuntu下是可以的
def save_pdf(html): """ 把所有html文件轉換成pdf文件 """ options = { 'page-size': 'Letter', 'encoding': "UTF-8", 'custom-header': [ ('Accept-Encoding', 'gzip') ] } pdfkit.from_file(html, "android_training_3.pdf", options=options)
最終效果圖
以上是python爬取網(wǎng)頁(yè)轉換為PDF文件的詳細內容,請關(guān)注其他相關(guān)html中文網(wǎng)站文章! 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(全篇的實(shí)現思路分析網(wǎng)頁(yè)學(xué)會(huì )使用BeautifulSoup庫爬取并導出參考資料)
本文文章主要詳細介紹了python爬取網(wǎng)頁(yè)到PDF文件的轉換。有一定的參考價(jià)值,感興趣的朋友可以參考。
爬行動(dòng)物的成因
官方文檔或手冊雖然可以查閱,但如果變成紙質(zhì)版是不是更容易閱讀和記憶。如果只是簡(jiǎn)單的復制粘貼,不知道什么時(shí)候才能完成。所以我開(kāi)始考慮爬下官方的Android手冊。
整篇文章的實(shí)現
分析網(wǎng)頁(yè),學(xué)習使用BeautifulSoup庫抓取導出
參考資料:
* 將廖雪峰的教程轉成PDF電子書(shū)
* 請求文件
*美麗的湯文件
配置
Ubuntu下使用Pycharm運行成功
要轉換為 PDF,您需要下載 wkhtmltopdf
具體流程
網(wǎng)絡(luò )分析
對于如下所示的網(wǎng)頁(yè),您只需獲取網(wǎng)頁(yè)的正文和標題,以及左側導航欄中的所有網(wǎng)址

下一個(gè)工作是找到這些標簽......
關(guān)于Requests的使用
詳見(jiàn)文檔,這里只是簡(jiǎn)單使用Requests獲取html并使用代理翻墻(網(wǎng)站不能直接訪(fǎng)問(wèn),需要VPN)
proxies={ "http":"http://vpn的IP:port", "https":"https://vpn的IP:port", } response=requests.get(url,proxies=proxies)
美湯的使用
參考資料中有一個(gè) Beautiful Soup 文檔??赐昃椭乐v了兩件事:一是找標簽,二是修改標簽。
這篇文章需要做的是:
1. 獲取title和所有url,這涉及到找標簽
#對標簽進(jìn)行判斷,一個(gè)標簽含有href而不含有description,則返回true #而我希望獲取的是含有href屬性而不含有description屬性的<a>標簽,(且只有a標簽含有href) def has_href_but_no_des(tag): return tag.has_attr('href') and not tag.has_attr('description') #網(wǎng)頁(yè)分析,獲取網(wǎng)址和標題 def parse_url_to_html(url): response=requests.get(url,proxies=proxies) soup=BeautifulSoup(response.content,"html.parser") s=[]#獲取所有的網(wǎng)址 title=[]#獲取對應的標題 tag=soup.find(id="nav")#獲取第一個(gè)id為"nav"的標簽,這個(gè)里面包含了網(wǎng)址和標題 for i in tag.find_all(has_href_but_no_des): s.append(i['href']) title.append(i.text) #獲取的只是標簽集,需要加html前綴 htmls = "" with open("android_training_3.html",'a') as f: f.write(htmls)
解析上面得到的URL,得到文本,將圖片保存到本地;它涉及查找標簽和修改屬性
#網(wǎng)頁(yè)操作,獲取正文及圖片 def get_htmls(urls,title): for i in range(len(urls)): response=requests.get(urls[i],proxies=proxies) soup=BeautifulSoup(response.content,"html.parser") htmls=""+str(i)+"."+title[i]+"" tag=soup.find(class_='jd-descr') #為image添加相對路徑,并下載圖片 for img in tag.find_all('img'): im = requests.get(img['src'], proxies=proxies) filename = os.path.split(img['src'])[1] with open('image/' + filename, 'wb') as f: f.write(im.content) img['src']='image/'+filename htmls=htmls+str(tag) with open("android_training_3.html",'a') as f: f.write(htmls) print(" (%s) [%s] download end"%(i,title[i])) htmls="" with open("android_training_3.html",'a') as f: f.write(htmls)
2. 轉換為 PDF
這一步需要下載wkhtmltopdf,在windows下執行程序一直報錯..ubuntu下是可以的
def save_pdf(html): """ 把所有html文件轉換成pdf文件 """ options = { 'page-size': 'Letter', 'encoding': "UTF-8", 'custom-header': [ ('Accept-Encoding', 'gzip') ] } pdfkit.from_file(html, "android_training_3.pdf", options=options)
最終效果圖

以上是python爬取網(wǎng)頁(yè)轉換為PDF文件的詳細內容,請關(guān)注其他相關(guān)html中文網(wǎng)站文章!
抓取網(wǎng)頁(yè)生成電子書(shū)(Python爬蟲(chóng)實(shí)踐:將網(wǎng)頁(yè)轉換為pdf電子書(shū)寫(xiě)爬蟲(chóng))
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 133 次瀏覽 ? 2021-11-07 14:05
2018-03-26 ? 用 Python 閱讀
Python實(shí)踐一、將網(wǎng)頁(yè)轉成pdf電子書(shū)
我是個(gè)“采集狂”(別以為是歪的,我就是喜歡采集技術(shù)帖),遇到好東西就喜歡采集或者記錄好東西,尤其是好的技術(shù)文章或者工具。這里要提一下廖雪峰老師的官方網(wǎng)站。廖老師寫(xiě)的Python、JavaScript、Git教程真的很好,經(jīng)常去逛街。所以今天有必要把廖老師的教程從網(wǎng)頁(yè)轉成PDF電子書(shū),讓你隨時(shí)隨地離線(xiàn)學(xué)習和采集。說(shuō)到這里,進(jìn)入今天的話(huà)題Python爬蟲(chóng)練習:將網(wǎng)頁(yè)轉成pdf電子書(shū)
寫(xiě)爬蟲(chóng)好像不比用Python好。Python社區提供的爬蟲(chóng)工具讓你眼花繚亂。各種可以直接使用的庫,分分鐘寫(xiě)一個(gè)爬蟲(chóng)。今天想寫(xiě)一個(gè)爬蟲(chóng)。, 爬下廖雪峰的Python教程,制作PDF電子書(shū)供離線(xiàn)閱讀。
在開(kāi)始寫(xiě)爬蟲(chóng)之前,我們先來(lái)分析一下網(wǎng)站的頁(yè)面結構。頁(yè)面左側是教程目錄大綱。每個(gè)URL對應右邊文章的一篇文章,右上角是文章的標題,中間是文章的正文部分。正文內容是我們關(guān)注的焦點(diǎn)。我們要抓取的數據是所有網(wǎng)頁(yè)的正文部分。下面是用戶(hù)的評論區。評論區對我們來(lái)說(shuō)什么都不是。使用它,所以它可以被忽略。
工具準備
搞清楚網(wǎng)站的基本結構后,就可以開(kāi)始準備爬蟲(chóng)依賴(lài)的工具包了。requests和beautifulsoup是爬蟲(chóng)的兩大神器,reuqests用于網(wǎng)絡(luò )請求,beautifulsoup用于操作html數據。有了這兩個(gè)班車(chē),我們就可以順利工作了。我們不需要像scrapy這樣的爬蟲(chóng)框架。小程序有點(diǎn)像大錘。另外,既然是把html文件轉換成pdf,就得有相應的庫支持。wkhtmltopdf 是一個(gè)非常好的工具。它可用于從 html 到 pdf 的多平臺轉換。pdfkit 是 wkhtmltopdf 的 Python 包。先安裝以下依賴(lài)包,然后安裝wkhtmltopdf
1234
pip install requestspip install beautifulsoup4pip install pdfkitpip install PyPDF2
安裝 wkhtmltopdf
Ubuntu 和 CentOS 可以直接從命令行安裝。
12
$ sudo apt-get install wkhtmltopdf # ubuntu$ sudo yum intsall wkhtmltopdf # centos
Windows平臺直接在wkhtmltopdf官網(wǎng)2下載穩定版進(jìn)行安裝。安裝完成后,將程序的執行路徑添加到系統環(huán)境$PATH變量中,否則pdfkit會(huì )找不到wkhtmltopdf而報錯。No wkhtmltopdf executable found 幾句,因為這里的處理不好,程序執行pdfkit.from_file(htmls, file_name, options=options)時(shí)會(huì )報錯。
現在開(kāi)始手動(dòng)安裝wkhtmltopdf(博主電腦操作系統為macOS 10.12.2)
1、去官網(wǎng)。下載并運行 wkhtmltox-0.12.4_osx-cocoa-x86-64.pkg
2、將wkhtmltoimage和wkhtmltopdf復制到/usr/bin目錄下,更改所有者,并添加可執行屬性
123456
sudo cp /usr/local/bin/wkhtmltopdf /usr/bin/sudo cp /usr/local/bin/wkhtmltoimage /usr/bin/sudo chown root:root /usr/bin/wkhtmltopdfsudo chown root:root /usr/bin/wkhtmltoimagesudo chmod +x /usr/bin/wkhtmltopdfsudo chmod +x /usr/bin/wkhtmltoimage
不出意外,執行第一句時(shí),會(huì )遇到chmod: Unable to change file modle on /usr/bin。這是因為 Apple 使用了 OS X El Capitan 10.11 的 Rootless 機制。這種機制可以理解為更高級別的系統內核保護措施,系統默認會(huì )鎖定/system、/sbin、/usr三個(gè)目錄。
關(guān)閉無(wú)根
關(guān)閉和打開(kāi) Rootless 非常簡(jiǎn)單。方法如下:重啟Mac,聽(tīng)到啟動(dòng)聲后按Command+R,進(jìn)入recovery模式,在上面的菜單實(shí)用工具中找到并打開(kāi)Terminal(如果菜單沒(méi)有出現在頂部,請繼續重啟^_^)。輸入以下命令:
12
$ csrutil disable #關(guān)閉 Rootless$ csrutil enable #開(kāi)啟 Rootless
OK,到此我們的工具和環(huán)境都配置好了,下面開(kāi)始實(shí)現功能。
爬蟲(chóng)實(shí)現
一切準備就緒后,就可以開(kāi)始編寫(xiě)代碼了,但是在編寫(xiě)代碼之前,應該先整理一下思路。該程序的目的是將所有URL對應的html body部分保存在本地,然后使用pdfkit將這些文件轉換為pdf文件。讓我們拆分任務(wù)。首先將某個(gè)URL對應的html body保存到本地,然后找到所有的URL進(jìn)行同樣的操作。使用Chrome瀏覽器找到頁(yè)面body部分的標簽,按F12找到body對應的div標簽:
,div是網(wǎng)頁(yè)的body內容。使用requests在本地加載整個(gè)頁(yè)面后,可以使用beautifulsoup操作HTML的dom元素來(lái)提取body內容。
具體實(shí)現代碼如下: 使用soup.find_all函數查找body標簽,然后將body部分的內容保存到a.html文件中。
12345678910111213141516171819202122232425262728293031323334353637
<p>def parse_url_to_html(url, name): """ 解析URL,返回HTML內容 :param url:解析的url :param name: 保存的html文件名 :return: html """ try: response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') # 正文 body = soup.find_all(class_="x-wiki-content")[0] # 標題 title = soup.find('h4').get_text() # 標題加入到正文的最前面,居中顯示 center_tag = soup.new_tag("center") title_tag = soup.new_tag('h1') title_tag.string = title center_tag.insert(1, title_tag) body.insert(1, center_tag) html = str(body) # body中的img標簽的src相對路徑的改成絕對路徑 pattern = "( 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(Python爬蟲(chóng)實(shí)踐:將網(wǎng)頁(yè)轉換為pdf電子書(shū)寫(xiě)爬蟲(chóng))
2018-03-26 ? 用 Python 閱讀
Python實(shí)踐一、將網(wǎng)頁(yè)轉成pdf電子書(shū)
我是個(gè)“采集狂”(別以為是歪的,我就是喜歡采集技術(shù)帖),遇到好東西就喜歡采集或者記錄好東西,尤其是好的技術(shù)文章或者工具。這里要提一下廖雪峰老師的官方網(wǎng)站。廖老師寫(xiě)的Python、JavaScript、Git教程真的很好,經(jīng)常去逛街。所以今天有必要把廖老師的教程從網(wǎng)頁(yè)轉成PDF電子書(shū),讓你隨時(shí)隨地離線(xiàn)學(xué)習和采集。說(shuō)到這里,進(jìn)入今天的話(huà)題Python爬蟲(chóng)練習:將網(wǎng)頁(yè)轉成pdf電子書(shū)
寫(xiě)爬蟲(chóng)好像不比用Python好。Python社區提供的爬蟲(chóng)工具讓你眼花繚亂。各種可以直接使用的庫,分分鐘寫(xiě)一個(gè)爬蟲(chóng)。今天想寫(xiě)一個(gè)爬蟲(chóng)。, 爬下廖雪峰的Python教程,制作PDF電子書(shū)供離線(xiàn)閱讀。
在開(kāi)始寫(xiě)爬蟲(chóng)之前,我們先來(lái)分析一下網(wǎng)站的頁(yè)面結構。頁(yè)面左側是教程目錄大綱。每個(gè)URL對應右邊文章的一篇文章,右上角是文章的標題,中間是文章的正文部分。正文內容是我們關(guān)注的焦點(diǎn)。我們要抓取的數據是所有網(wǎng)頁(yè)的正文部分。下面是用戶(hù)的評論區。評論區對我們來(lái)說(shuō)什么都不是。使用它,所以它可以被忽略。

工具準備
搞清楚網(wǎng)站的基本結構后,就可以開(kāi)始準備爬蟲(chóng)依賴(lài)的工具包了。requests和beautifulsoup是爬蟲(chóng)的兩大神器,reuqests用于網(wǎng)絡(luò )請求,beautifulsoup用于操作html數據。有了這兩個(gè)班車(chē),我們就可以順利工作了。我們不需要像scrapy這樣的爬蟲(chóng)框架。小程序有點(diǎn)像大錘。另外,既然是把html文件轉換成pdf,就得有相應的庫支持。wkhtmltopdf 是一個(gè)非常好的工具。它可用于從 html 到 pdf 的多平臺轉換。pdfkit 是 wkhtmltopdf 的 Python 包。先安裝以下依賴(lài)包,然后安裝wkhtmltopdf
1234
pip install requestspip install beautifulsoup4pip install pdfkitpip install PyPDF2
安裝 wkhtmltopdf
Ubuntu 和 CentOS 可以直接從命令行安裝。
12
$ sudo apt-get install wkhtmltopdf # ubuntu$ sudo yum intsall wkhtmltopdf # centos
Windows平臺直接在wkhtmltopdf官網(wǎng)2下載穩定版進(jìn)行安裝。安裝完成后,將程序的執行路徑添加到系統環(huán)境$PATH變量中,否則pdfkit會(huì )找不到wkhtmltopdf而報錯。No wkhtmltopdf executable found 幾句,因為這里的處理不好,程序執行pdfkit.from_file(htmls, file_name, options=options)時(shí)會(huì )報錯。
現在開(kāi)始手動(dòng)安裝wkhtmltopdf(博主電腦操作系統為macOS 10.12.2)
1、去官網(wǎng)。下載并運行 wkhtmltox-0.12.4_osx-cocoa-x86-64.pkg
2、將wkhtmltoimage和wkhtmltopdf復制到/usr/bin目錄下,更改所有者,并添加可執行屬性
123456
sudo cp /usr/local/bin/wkhtmltopdf /usr/bin/sudo cp /usr/local/bin/wkhtmltoimage /usr/bin/sudo chown root:root /usr/bin/wkhtmltopdfsudo chown root:root /usr/bin/wkhtmltoimagesudo chmod +x /usr/bin/wkhtmltopdfsudo chmod +x /usr/bin/wkhtmltoimage
不出意外,執行第一句時(shí),會(huì )遇到chmod: Unable to change file modle on /usr/bin。這是因為 Apple 使用了 OS X El Capitan 10.11 的 Rootless 機制。這種機制可以理解為更高級別的系統內核保護措施,系統默認會(huì )鎖定/system、/sbin、/usr三個(gè)目錄。
關(guān)閉無(wú)根
關(guān)閉和打開(kāi) Rootless 非常簡(jiǎn)單。方法如下:重啟Mac,聽(tīng)到啟動(dòng)聲后按Command+R,進(jìn)入recovery模式,在上面的菜單實(shí)用工具中找到并打開(kāi)Terminal(如果菜單沒(méi)有出現在頂部,請繼續重啟^_^)。輸入以下命令:
12
$ csrutil disable #關(guān)閉 Rootless$ csrutil enable #開(kāi)啟 Rootless
OK,到此我們的工具和環(huán)境都配置好了,下面開(kāi)始實(shí)現功能。
爬蟲(chóng)實(shí)現
一切準備就緒后,就可以開(kāi)始編寫(xiě)代碼了,但是在編寫(xiě)代碼之前,應該先整理一下思路。該程序的目的是將所有URL對應的html body部分保存在本地,然后使用pdfkit將這些文件轉換為pdf文件。讓我們拆分任務(wù)。首先將某個(gè)URL對應的html body保存到本地,然后找到所有的URL進(jìn)行同樣的操作。使用Chrome瀏覽器找到頁(yè)面body部分的標簽,按F12找到body對應的div標簽:
,div是網(wǎng)頁(yè)的body內容。使用requests在本地加載整個(gè)頁(yè)面后,可以使用beautifulsoup操作HTML的dom元素來(lái)提取body內容。

具體實(shí)現代碼如下: 使用soup.find_all函數查找body標簽,然后將body部分的內容保存到a.html文件中。
12345678910111213141516171819202122232425262728293031323334353637
<p>def parse_url_to_html(url, name): """ 解析URL,返回HTML內容 :param url:解析的url :param name: 保存的html文件名 :return: html """ try: response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') # 正文 body = soup.find_all(class_="x-wiki-content")[0] # 標題 title = soup.find('h4').get_text() # 標題加入到正文的最前面,居中顯示 center_tag = soup.new_tag("center") title_tag = soup.new_tag('h1') title_tag.string = title center_tag.insert(1, title_tag) body.insert(1, center_tag) html = str(body) # body中的img標簽的src相對路徑的改成絕對路徑 pattern = "(
抓取網(wǎng)頁(yè)生成電子書(shū)(一個(gè)可以幫助你快速將PDF文檔中的圖片、文字以及字體批量提取出來(lái)保存)
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 179 次瀏覽 ? 2021-11-06 15:09
由于經(jīng)常需要處理PDF文檔,我一直在尋找一種快速、免費的方法,可以批量提取和保存PDF文檔中的圖片和文字。為了實(shí)現這個(gè)功能,我經(jīng)常需要購買(mǎi)相關(guān)的軟件來(lái)完成,但現在我找到了一個(gè)更好的方法。
它是一個(gè)網(wǎng)站,可以幫助您快速批量提取PDF文檔中的圖片、文本和嵌入字體并保存。您無(wú)需安裝任何軟件。您只需將 PDF 文件上傳到任何計算機上的瀏覽器即可。網(wǎng)站可以導出它的所有文字和圖片,使用起來(lái)非常方便。而且在測試中文PDF電子書(shū)提取時(shí)不會(huì )出現亂碼問(wèn)題。是一款值得大家采集的利器。網(wǎng)站……
在線(xiàn)導出并保存PDF文件中的圖片、文字和字體網(wǎng)站:
的功能非常具體且完全免費。對于有這種需求的朋友來(lái)說(shuō),真是難得的好東西網(wǎng)站。它的用法非常簡(jiǎn)單。該頁(yè)面提供了一個(gè)上傳按鈕,只需點(diǎn)擊它即可上傳文件。唯一的缺點(diǎn)是它只支持上傳 10MB 以下的 PDF 文件。如果你經(jīng)常需要處理大文件,那么這個(gè)工具就不是那么完美了。但是,它也可以通過(guò)網(wǎng)站遠程下載。不知道這個(gè)功能會(huì )不會(huì )有大小限制,大家可以試試。
之前試過(guò)上傳不同維度推薦給大家的《攝影筆記》PDF進(jìn)行測試,圖片和文字都可以正常提交。點(diǎn)擊藍色下載按鈕進(jìn)行打包下載。
導出文本的功能有時(shí)候很有用,你懂的。對中文文檔的支持非常友好。試了一堆電子書(shū),可以成功提取文字,沒(méi)有亂碼。
相關(guān)網(wǎng)址:
訪(fǎng)問(wèn)|更多Office相關(guān)|來(lái)自不同維度|更多PDF相關(guān)|更多網(wǎng)站推薦 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(一個(gè)可以幫助你快速將PDF文檔中的圖片、文字以及字體批量提取出來(lái)保存)
由于經(jīng)常需要處理PDF文檔,我一直在尋找一種快速、免費的方法,可以批量提取和保存PDF文檔中的圖片和文字。為了實(shí)現這個(gè)功能,我經(jīng)常需要購買(mǎi)相關(guān)的軟件來(lái)完成,但現在我找到了一個(gè)更好的方法。
它是一個(gè)網(wǎng)站,可以幫助您快速批量提取PDF文檔中的圖片、文本和嵌入字體并保存。您無(wú)需安裝任何軟件。您只需將 PDF 文件上傳到任何計算機上的瀏覽器即可。網(wǎng)站可以導出它的所有文字和圖片,使用起來(lái)非常方便。而且在測試中文PDF電子書(shū)提取時(shí)不會(huì )出現亂碼問(wèn)題。是一款值得大家采集的利器。網(wǎng)站……
在線(xiàn)導出并保存PDF文件中的圖片、文字和字體網(wǎng)站:
的功能非常具體且完全免費。對于有這種需求的朋友來(lái)說(shuō),真是難得的好東西網(wǎng)站。它的用法非常簡(jiǎn)單。該頁(yè)面提供了一個(gè)上傳按鈕,只需點(diǎn)擊它即可上傳文件。唯一的缺點(diǎn)是它只支持上傳 10MB 以下的 PDF 文件。如果你經(jīng)常需要處理大文件,那么這個(gè)工具就不是那么完美了。但是,它也可以通過(guò)網(wǎng)站遠程下載。不知道這個(gè)功能會(huì )不會(huì )有大小限制,大家可以試試。

之前試過(guò)上傳不同維度推薦給大家的《攝影筆記》PDF進(jìn)行測試,圖片和文字都可以正常提交。點(diǎn)擊藍色下載按鈕進(jìn)行打包下載。

導出文本的功能有時(shí)候很有用,你懂的。對中文文檔的支持非常友好。試了一堆電子書(shū),可以成功提取文字,沒(méi)有亂碼。
相關(guān)網(wǎng)址:
訪(fǎng)問(wèn)|更多Office相關(guān)|來(lái)自不同維度|更多PDF相關(guān)|更多網(wǎng)站推薦
抓取網(wǎng)頁(yè)生成電子書(shū)( 2019年03月25日14:21:37(圖))
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 125 次瀏覽 ? 2021-11-06 05:02
2019年03月25日14:21:37(圖))
我用Python爬取7000多個(gè)電子書(shū)案例詳情
更新時(shí)間:2019年3月25日14:21:37 作者:嗨學(xué)編程
本文文章主要介紹我用Python爬取的7000多本電子書(shū)的案例。文章中介紹的示例代碼非常詳細。對大家的學(xué)習或工作有一定的參考學(xué)習價(jià)值。有需要的朋友在下面和小編一起學(xué)習吧
安裝
安裝很簡(jiǎn)單,直接執行:
pip install requests-html
就是這樣。
分析頁(yè)面結構
通過(guò)瀏覽器的評論元素,可以發(fā)現這本電子書(shū)網(wǎng)站是用WordPress搭建的,首頁(yè)列表元素很簡(jiǎn)單也很規律
所以我們可以搜索 .entry-title> a 得到所有書(shū)籍詳情頁(yè)的鏈接,然后我們進(jìn)入詳情頁(yè)找到下載鏈接,如下圖
可以發(fā)現 .download-links>a 中的鏈接是該書(shū)的下載鏈接?;氐搅斜眄?yè)面,你會(huì )發(fā)現該站點(diǎn)有700多個(gè)頁(yè)面,因此我們可以遍歷列表以獲取所有下載鏈接。
請求-html 快速指南
發(fā)送 GET 請求:
from requests_html import HTMLSession
session = HTMLSession()
r = session.get('https://python.org/')
Requests-html 的方便之處在于它解析 html 的方式就像使用 jQuery 一樣簡(jiǎn)單,比如:
# 獲取頁(yè)面的所有鏈接可以這樣寫(xiě):
r.html.links
# 會(huì )返回 {'//docs.python.org/3/tutorial/', '/about/apps/'}
# 獲取頁(yè)面的所有的絕對鏈接:
r.html.absolute_links
# 會(huì )返回 {'https://github.com/python/pythondotorg/issues', 'https://docs.python.org/3/tutorial/'}
# 通過(guò) CSS 選擇器選擇元素:
about = r.find('.about', first=True)
# 參數 first 表示只獲取找到的第一元素
about.text # 獲取 .about 下的所有文本
about.attrs # 獲取 .about 下所有屬性像 id, src, href 等等
about.html # 獲取 .about 的 HTML
about.find('a') # 獲取 .about 下的所有 a 標簽
構建代碼
from requests_html import HTMLSession
import requests
import time
import json
import random
import sys
'''
想要學(xué)習Python?Python學(xué)習交流群:984632579滿(mǎn)足你的需求,資料都已經(jīng)上傳群文件,可以自行下載!
'''
session = HTMLSession()
list_url = 'http://www.allitebooks.com/page/'
USER_AGENTS = [
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 Safari/535.11 LBBROWSER",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)",
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SV1; QQDownload 732; .NET4.0C; .NET4.0E; 360SE)",
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1",
"Mozilla/5.0 (iPad; U; CPU OS 4_2_1 like Mac OS X; zh-cn) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8C148 Safari/6533.18.5",
"Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:2.0b13pre) Gecko/20110307 Firefox/4.0b13pre",
"Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:16.0) Gecko/20100101 Firefox/16.0",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11",
"Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10"
]
# 獲取當前列表頁(yè)所有圖書(shū)鏈接
def get_list(url):
response = session.get(url)
all_link = response.html.find('.entry-title a') # 獲取頁(yè)面所有圖書(shū)詳情鏈接
for link in all_link:
getBookUrl(link.attrs['href'])
# 獲取圖書(shū)下載鏈接
def getBookUrl(url):
response = session.get(url)
l = response.html.find('.download-links a', first=True)
if l is not None: # 運行后發(fā)現有的個(gè)別頁(yè)面沒(méi)有下載鏈接,這里加個(gè)判斷
link = l.attrs['href'];
download(link)
#下載圖書(shū)
def download(url):
# 隨機瀏覽器 User-Agent
headers={ "User-Agent":random.choice(USER_AGENTS) }
# 獲取文件名
filename = url.split('/')[-1]
# 如果 url 里包含 .pdf
if ".pdf" in url:
file = 'book/'+filename # 文件路徑寫(xiě)死了,運行時(shí)當前目錄必須有名 book 的文件夾
with open(file, 'wb') as f:
print("正在下載 %s" % filename)
response = requests.get(url, stream=True, headers=headers)
# 獲取文件大小
total_length = response.headers.get('content-length')
# 如果文件大小不存在,則直接寫(xiě)入返回的文本
if total_length is None:
f.write(response.content)
else:
# 下載進(jìn)度條
dl = 0
total_length = int(total_length) # 文件大小
for data in response.iter_content(chunk_size=4096): # 每次響應獲取 4096 字節
dl += len(data)
f.write(data)
done = int(50 * dl / total_length)
sys.stdout.write("\r[%s%s]" % ('=' * done, ' ' * (50-done)) ) # 打印進(jìn)度條
sys.stdout.flush()
print(filename + '下載完成!')
if __name__ == '__main__':
#從這運行,應為知道列表總數,所以偷個(gè)懶直接開(kāi)始循環(huán)
for x in range(1,756):
print('當前頁(yè)面: '+ str(x))
get_list(list_url+str(x))
運行結果:
以上就是小編為大家介紹的內容。我已經(jīng)使用 Python 抓取了 7000 多個(gè)電子書(shū)案例。我希望它會(huì )對你有所幫助。如果您有任何問(wèn)題,請給我留言。小編會(huì )及時(shí)回復您。非常感謝您對腳本之家網(wǎng)站的支持! 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(
2019年03月25日14:21:37(圖))
我用Python爬取7000多個(gè)電子書(shū)案例詳情
更新時(shí)間:2019年3月25日14:21:37 作者:嗨學(xué)編程
本文文章主要介紹我用Python爬取的7000多本電子書(shū)的案例。文章中介紹的示例代碼非常詳細。對大家的學(xué)習或工作有一定的參考學(xué)習價(jià)值。有需要的朋友在下面和小編一起學(xué)習吧
安裝
安裝很簡(jiǎn)單,直接執行:
pip install requests-html
就是這樣。
分析頁(yè)面結構
通過(guò)瀏覽器的評論元素,可以發(fā)現這本電子書(shū)網(wǎng)站是用WordPress搭建的,首頁(yè)列表元素很簡(jiǎn)單也很規律

所以我們可以搜索 .entry-title> a 得到所有書(shū)籍詳情頁(yè)的鏈接,然后我們進(jìn)入詳情頁(yè)找到下載鏈接,如下圖

可以發(fā)現 .download-links>a 中的鏈接是該書(shū)的下載鏈接?;氐搅斜眄?yè)面,你會(huì )發(fā)現該站點(diǎn)有700多個(gè)頁(yè)面,因此我們可以遍歷列表以獲取所有下載鏈接。
請求-html 快速指南
發(fā)送 GET 請求:
from requests_html import HTMLSession
session = HTMLSession()
r = session.get('https://python.org/')
Requests-html 的方便之處在于它解析 html 的方式就像使用 jQuery 一樣簡(jiǎn)單,比如:
# 獲取頁(yè)面的所有鏈接可以這樣寫(xiě):
r.html.links
# 會(huì )返回 {'//docs.python.org/3/tutorial/', '/about/apps/'}
# 獲取頁(yè)面的所有的絕對鏈接:
r.html.absolute_links
# 會(huì )返回 {'https://github.com/python/pythondotorg/issues', 'https://docs.python.org/3/tutorial/'}
# 通過(guò) CSS 選擇器選擇元素:
about = r.find('.about', first=True)
# 參數 first 表示只獲取找到的第一元素
about.text # 獲取 .about 下的所有文本
about.attrs # 獲取 .about 下所有屬性像 id, src, href 等等
about.html # 獲取 .about 的 HTML
about.find('a') # 獲取 .about 下的所有 a 標簽
構建代碼
from requests_html import HTMLSession
import requests
import time
import json
import random
import sys
'''
想要學(xué)習Python?Python學(xué)習交流群:984632579滿(mǎn)足你的需求,資料都已經(jīng)上傳群文件,可以自行下載!
'''
session = HTMLSession()
list_url = 'http://www.allitebooks.com/page/'
USER_AGENTS = [
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 Safari/535.11 LBBROWSER",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)",
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SV1; QQDownload 732; .NET4.0C; .NET4.0E; 360SE)",
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1",
"Mozilla/5.0 (iPad; U; CPU OS 4_2_1 like Mac OS X; zh-cn) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8C148 Safari/6533.18.5",
"Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:2.0b13pre) Gecko/20110307 Firefox/4.0b13pre",
"Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:16.0) Gecko/20100101 Firefox/16.0",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11",
"Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10"
]
# 獲取當前列表頁(yè)所有圖書(shū)鏈接
def get_list(url):
response = session.get(url)
all_link = response.html.find('.entry-title a') # 獲取頁(yè)面所有圖書(shū)詳情鏈接
for link in all_link:
getBookUrl(link.attrs['href'])
# 獲取圖書(shū)下載鏈接
def getBookUrl(url):
response = session.get(url)
l = response.html.find('.download-links a', first=True)
if l is not None: # 運行后發(fā)現有的個(gè)別頁(yè)面沒(méi)有下載鏈接,這里加個(gè)判斷
link = l.attrs['href'];
download(link)
#下載圖書(shū)
def download(url):
# 隨機瀏覽器 User-Agent
headers={ "User-Agent":random.choice(USER_AGENTS) }
# 獲取文件名
filename = url.split('/')[-1]
# 如果 url 里包含 .pdf
if ".pdf" in url:
file = 'book/'+filename # 文件路徑寫(xiě)死了,運行時(shí)當前目錄必須有名 book 的文件夾
with open(file, 'wb') as f:
print("正在下載 %s" % filename)
response = requests.get(url, stream=True, headers=headers)
# 獲取文件大小
total_length = response.headers.get('content-length')
# 如果文件大小不存在,則直接寫(xiě)入返回的文本
if total_length is None:
f.write(response.content)
else:
# 下載進(jìn)度條
dl = 0
total_length = int(total_length) # 文件大小
for data in response.iter_content(chunk_size=4096): # 每次響應獲取 4096 字節
dl += len(data)
f.write(data)
done = int(50 * dl / total_length)
sys.stdout.write("\r[%s%s]" % ('=' * done, ' ' * (50-done)) ) # 打印進(jìn)度條
sys.stdout.flush()
print(filename + '下載完成!')
if __name__ == '__main__':
#從這運行,應為知道列表總數,所以偷個(gè)懶直接開(kāi)始循環(huán)
for x in range(1,756):
print('當前頁(yè)面: '+ str(x))
get_list(list_url+str(x))
運行結果:

以上就是小編為大家介紹的內容。我已經(jīng)使用 Python 抓取了 7000 多個(gè)電子書(shū)案例。我希望它會(huì )對你有所幫助。如果您有任何問(wèn)題,請給我留言。小編會(huì )及時(shí)回復您。非常感謝您對腳本之家網(wǎng)站的支持!
抓取網(wǎng)頁(yè)生成電子書(shū)(電子書(shū)制作利器-友益文書(shū)V7.1.1(1.1)_)
網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 83 次瀏覽 ? 2021-11-05 02:06
電子書(shū)制作工具-游易文書(shū)V7.1.1[點(diǎn)擊下載]Spring eBook eBookMakerV2.1[點(diǎn)擊下載]電子書(shū)專(zhuān)家CHMEBookEditorV1.56 【點(diǎn)擊下載】二. 軟件界面:照例先來(lái)看看這三個(gè)軟件的運行界面~又一文書(shū)主界面 Spring電子書(shū)主界面 電子書(shū)專(zhuān)家主界面總結:游易文書(shū)和電子書(shū)專(zhuān)家的界面類(lèi)似,即界面左側是目錄欄,右側是目錄的具體內容。不過(guò)spring電子書(shū)的主界面不同的是,菜單欄放在了右側,讓用戶(hù)一目了然。從界面來(lái)看,電子書(shū)專(zhuān)家顯得很空洞,而且功能好像比游易和春天電子書(shū)略遜一籌!而且有用的文件是綠色軟件,直接解壓即可使用。是起跑線(xiàn)上的勝利嗎?軟件功能對比 1. 基本功能 我們制作一本電子書(shū),看看這三個(gè)軟件最基本的功能。我想做的電子書(shū)只是最基本的一種,包括word文檔和筆記。書(shū)籍、圖片和網(wǎng)頁(yè)。一種。首先,我選擇批量導入文檔。我發(fā)現游易支持的格式比我想做的要多得多。好像不難找~ 輕松導入后生成目錄。但是,我只導入了jpg格式的圖片,對于png格式的圖片還是不行。您可以單擊查看和編輯每個(gè)目錄??梢灾苯硬榭匆詄xe形式發(fā)布的電子文檔。未注冊用戶(hù)的電子書(shū)頂部會(huì )有廣告~b。接下來(lái)是春季電子書(shū)。新建一個(gè)目錄生成電子書(shū),可以看到目錄下的所有文件都顯示出來(lái)了,包括png格式的圖片~ 點(diǎn)擊編譯就可以生成電子書(shū)了,可以直接查看,但是每次編輯點(diǎn)擊每個(gè)目錄名稱(chēng),提示這是一本未注冊的spring電子書(shū),編輯可以理解作者希望大家支持正版心情,但是老彈還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家??梢灾苯硬榭匆詄xe形式發(fā)布的電子文檔。未注冊用戶(hù)的電子書(shū)頂部會(huì )有廣告~b。接下來(lái)是春季電子書(shū)。新建一個(gè)目錄生成電子書(shū),可以看到目錄下的所有文件都顯示出來(lái)了,包括png格式的圖片~ 點(diǎn)擊編譯就可以生成電子書(shū)了,可以直接查看,但是每次編輯點(diǎn)擊每個(gè)目錄名稱(chēng),提示這是一本未注冊的spring電子書(shū),編輯可以理解作者希望大家支持正版心情,但是老彈還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家??梢灾苯硬榭匆詄xe形式發(fā)布的電子文檔。未注冊用戶(hù)的電子書(shū)頂部會(huì )有廣告~b。接下來(lái)是春季電子書(shū)。新建一個(gè)目錄生成電子書(shū),可以看到目錄下的所有文件都顯示出來(lái)了,包括png格式的圖片~ 點(diǎn)擊編譯就可以生成電子書(shū)了,可以直接查看,但是每次編輯點(diǎn)擊每個(gè)目錄名稱(chēng),提示這是一本未注冊的spring電子書(shū),編輯可以理解作者希望大家支持正版心情,但是老彈還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家。未注冊用戶(hù)的電子書(shū)頂部會(huì )有廣告~b。接下來(lái)是春季電子書(shū)。新建一個(gè)目錄生成電子書(shū),可以看到目錄下的所有文件都顯示出來(lái)了,包括png格式的圖片~ 點(diǎn)擊編譯就可以生成電子書(shū)了,可以直接查看,但是每次編輯點(diǎn)擊每個(gè)目錄名稱(chēng),提示這是一本未注冊的spring電子書(shū),編輯可以理解作者希望大家支持正版心情,但是老彈還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家。未注冊用戶(hù)的電子書(shū)頂部會(huì )有廣告~b。接下來(lái)是春季電子書(shū)。新建一個(gè)目錄生成電子書(shū),可以看到目錄下的所有文件都顯示出來(lái)了,包括png格式的圖片~ 點(diǎn)擊編譯就可以生成電子書(shū)了,可以直接查看,但是每次編輯點(diǎn)擊每個(gè)目錄名稱(chēng),提示這是一本未注冊的spring電子書(shū),編輯可以理解作者希望大家支持正版心情,但是老彈還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家。新建一個(gè)目錄生成電子書(shū),可以看到目錄下的所有文件都顯示出來(lái)了,包括png格式的圖片~ 點(diǎn)擊編譯就可以生成電子書(shū)了,可以直接查看,但是每次編輯點(diǎn)擊每個(gè)目錄名稱(chēng),提示這是一本未注冊的spring電子書(shū),編輯可以理解作者希望大家支持正版心情,但是老彈還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家。新建一個(gè)目錄生成電子書(shū),可以看到目錄下的所有文件都顯示出來(lái)了,包括png格式的圖片~ 點(diǎn)擊編譯就可以生成電子書(shū)了,可以直接查看,但是每次編輯點(diǎn)擊每個(gè)目錄名稱(chēng),提示這是一本未注冊的spring電子書(shū),編輯可以理解作者希望大家支持正版心情,但是老彈還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家。但是編輯器每次點(diǎn)擊每個(gè)目錄名稱(chēng),都會(huì )提示這是一本未注冊的spring電子書(shū),編輯器可以理解作者希望大家支持正版心情,但是老彈窗還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家。但是編輯器每次點(diǎn)擊每個(gè)目錄名稱(chēng),都會(huì )提示這是一本未注冊的spring電子書(shū),編輯器可以理解作者希望大家支持正版心情,但是老彈窗還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家。
注意電子書(shū)高手需要新建一個(gè)庫文件才能開(kāi)始制作,并新建一個(gè)標題來(lái)導入文件,而且只能導入文本目錄和網(wǎng)頁(yè)目錄,不支持導入圖片,非常不方便!小編看到了自己的一個(gè)例子,沒(méi)有圖。導入的網(wǎng)頁(yè)都變成了文本形式。圖片好像不能導入。2.其他功能 電子書(shū)制作只是最基本的功能之一,其他貼心的功能也可以加分~a. 又一寫(xiě):可以做個(gè)索引。導入要制作電子書(shū)的文件后,還可以編輯文本文檔和網(wǎng)頁(yè),如圖。您可以設置出版電子書(shū)的權限(包括次數和天數限制)。您可以插入多媒體格式。灣 Spring 電子書(shū)自定義電子書(shū)圖標可設置權限(僅受天數限制),并可插入多媒體格式。C。電子書(shū)專(zhuān)家,無(wú)其他功能。三。電子書(shū)生成界面 a.游易文書(shū)生成的電子書(shū)功能最全,菜單欄包括目錄、搜索、書(shū)簽、索引,可設置網(wǎng)頁(yè)字體顏色大小,可連接打印機打印等. b. Spring電子書(shū)的菜單欄一個(gè)索引功能比有用文檔少,一個(gè)是最基本的翻頁(yè)功能。C。電子書(shū)專(zhuān)家的界面是最簡(jiǎn)單的。四??偨Y 為了給讀者更直觀(guān)的印象,小編做了一個(gè)表格。毋庸置疑,游義文件各方面最強大,最周到,但他的注冊費也是最貴的,驗證一分錢(qián)一分貨的古老真理。最簡(jiǎn)單的電子書(shū)。專(zhuān)家注冊只需9元。如果你想制作只有文字的電子書(shū),它是一個(gè)不錯的選擇。您可以根據自己的要求進(jìn)行選擇。你可以參考一下 查看全部
抓取網(wǎng)頁(yè)生成電子書(shū)(電子書(shū)制作利器-友益文書(shū)V7.1.1(1.1)_)
電子書(shū)制作工具-游易文書(shū)V7.1.1[點(diǎn)擊下載]Spring eBook eBookMakerV2.1[點(diǎn)擊下載]電子書(shū)專(zhuān)家CHMEBookEditorV1.56 【點(diǎn)擊下載】二. 軟件界面:照例先來(lái)看看這三個(gè)軟件的運行界面~又一文書(shū)主界面 Spring電子書(shū)主界面 電子書(shū)專(zhuān)家主界面總結:游易文書(shū)和電子書(shū)專(zhuān)家的界面類(lèi)似,即界面左側是目錄欄,右側是目錄的具體內容。不過(guò)spring電子書(shū)的主界面不同的是,菜單欄放在了右側,讓用戶(hù)一目了然。從界面來(lái)看,電子書(shū)專(zhuān)家顯得很空洞,而且功能好像比游易和春天電子書(shū)略遜一籌!而且有用的文件是綠色軟件,直接解壓即可使用。是起跑線(xiàn)上的勝利嗎?軟件功能對比 1. 基本功能 我們制作一本電子書(shū),看看這三個(gè)軟件最基本的功能。我想做的電子書(shū)只是最基本的一種,包括word文檔和筆記。書(shū)籍、圖片和網(wǎng)頁(yè)。一種。首先,我選擇批量導入文檔。我發(fā)現游易支持的格式比我想做的要多得多。好像不難找~ 輕松導入后生成目錄。但是,我只導入了jpg格式的圖片,對于png格式的圖片還是不行。您可以單擊查看和編輯每個(gè)目錄??梢灾苯硬榭匆詄xe形式發(fā)布的電子文檔。未注冊用戶(hù)的電子書(shū)頂部會(huì )有廣告~b。接下來(lái)是春季電子書(shū)。新建一個(gè)目錄生成電子書(shū),可以看到目錄下的所有文件都顯示出來(lái)了,包括png格式的圖片~ 點(diǎn)擊編譯就可以生成電子書(shū)了,可以直接查看,但是每次編輯點(diǎn)擊每個(gè)目錄名稱(chēng),提示這是一本未注冊的spring電子書(shū),編輯可以理解作者希望大家支持正版心情,但是老彈還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家??梢灾苯硬榭匆詄xe形式發(fā)布的電子文檔。未注冊用戶(hù)的電子書(shū)頂部會(huì )有廣告~b。接下來(lái)是春季電子書(shū)。新建一個(gè)目錄生成電子書(shū),可以看到目錄下的所有文件都顯示出來(lái)了,包括png格式的圖片~ 點(diǎn)擊編譯就可以生成電子書(shū)了,可以直接查看,但是每次編輯點(diǎn)擊每個(gè)目錄名稱(chēng),提示這是一本未注冊的spring電子書(shū),編輯可以理解作者希望大家支持正版心情,但是老彈還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家??梢灾苯硬榭匆詄xe形式發(fā)布的電子文檔。未注冊用戶(hù)的電子書(shū)頂部會(huì )有廣告~b。接下來(lái)是春季電子書(shū)。新建一個(gè)目錄生成電子書(shū),可以看到目錄下的所有文件都顯示出來(lái)了,包括png格式的圖片~ 點(diǎn)擊編譯就可以生成電子書(shū)了,可以直接查看,但是每次編輯點(diǎn)擊每個(gè)目錄名稱(chēng),提示這是一本未注冊的spring電子書(shū),編輯可以理解作者希望大家支持正版心情,但是老彈還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家。未注冊用戶(hù)的電子書(shū)頂部會(huì )有廣告~b。接下來(lái)是春季電子書(shū)。新建一個(gè)目錄生成電子書(shū),可以看到目錄下的所有文件都顯示出來(lái)了,包括png格式的圖片~ 點(diǎn)擊編譯就可以生成電子書(shū)了,可以直接查看,但是每次編輯點(diǎn)擊每個(gè)目錄名稱(chēng),提示這是一本未注冊的spring電子書(shū),編輯可以理解作者希望大家支持正版心情,但是老彈還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家。未注冊用戶(hù)的電子書(shū)頂部會(huì )有廣告~b。接下來(lái)是春季電子書(shū)。新建一個(gè)目錄生成電子書(shū),可以看到目錄下的所有文件都顯示出來(lái)了,包括png格式的圖片~ 點(diǎn)擊編譯就可以生成電子書(shū)了,可以直接查看,但是每次編輯點(diǎn)擊每個(gè)目錄名稱(chēng),提示這是一本未注冊的spring電子書(shū),編輯可以理解作者希望大家支持正版心情,但是老彈還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家。新建一個(gè)目錄生成電子書(shū),可以看到目錄下的所有文件都顯示出來(lái)了,包括png格式的圖片~ 點(diǎn)擊編譯就可以生成電子書(shū)了,可以直接查看,但是每次編輯點(diǎn)擊每個(gè)目錄名稱(chēng),提示這是一本未注冊的spring電子書(shū),編輯可以理解作者希望大家支持正版心情,但是老彈還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家。新建一個(gè)目錄生成電子書(shū),可以看到目錄下的所有文件都顯示出來(lái)了,包括png格式的圖片~ 點(diǎn)擊編譯就可以生成電子書(shū)了,可以直接查看,但是每次編輯點(diǎn)擊每個(gè)目錄名稱(chēng),提示這是一本未注冊的spring電子書(shū),編輯可以理解作者希望大家支持正版心情,但是老彈還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家。但是編輯器每次點(diǎn)擊每個(gè)目錄名稱(chēng),都會(huì )提示這是一本未注冊的spring電子書(shū),編輯器可以理解作者希望大家支持正版心情,但是老彈窗還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家。但是編輯器每次點(diǎn)擊每個(gè)目錄名稱(chēng),都會(huì )提示這是一本未注冊的spring電子書(shū),編輯器可以理解作者希望大家支持正版心情,但是老彈窗還是很煩。不知道是不是每次都彈出注冊窗口,每個(gè)電子書(shū)目錄的打開(kāi)速度都不夠快~c??纯措娮訒?shū)專(zhuān)家。
注意電子書(shū)高手需要新建一個(gè)庫文件才能開(kāi)始制作,并新建一個(gè)標題來(lái)導入文件,而且只能導入文本目錄和網(wǎng)頁(yè)目錄,不支持導入圖片,非常不方便!小編看到了自己的一個(gè)例子,沒(méi)有圖。導入的網(wǎng)頁(yè)都變成了文本形式。圖片好像不能導入。2.其他功能 電子書(shū)制作只是最基本的功能之一,其他貼心的功能也可以加分~a. 又一寫(xiě):可以做個(gè)索引。導入要制作電子書(shū)的文件后,還可以編輯文本文檔和網(wǎng)頁(yè),如圖。您可以設置出版電子書(shū)的權限(包括次數和天數限制)。您可以插入多媒體格式。灣 Spring 電子書(shū)自定義電子書(shū)圖標可設置權限(僅受天數限制),并可插入多媒體格式。C。電子書(shū)專(zhuān)家,無(wú)其他功能。三。電子書(shū)生成界面 a.游易文書(shū)生成的電子書(shū)功能最全,菜單欄包括目錄、搜索、書(shū)簽、索引,可設置網(wǎng)頁(yè)字體顏色大小,可連接打印機打印等. b. Spring電子書(shū)的菜單欄一個(gè)索引功能比有用文檔少,一個(gè)是最基本的翻頁(yè)功能。C。電子書(shū)專(zhuān)家的界面是最簡(jiǎn)單的。四??偨Y 為了給讀者更直觀(guān)的印象,小編做了一個(gè)表格。毋庸置疑,游義文件各方面最強大,最周到,但他的注冊費也是最貴的,驗證一分錢(qián)一分貨的古老真理。最簡(jiǎn)單的電子書(shū)。專(zhuān)家注冊只需9元。如果你想制作只有文字的電子書(shū),它是一個(gè)不錯的選擇。您可以根據自己的要求進(jìn)行選擇。你可以參考一下


