亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

文章采集調用

文章采集調用

文章采集調用(給你八分鐘搞定dedeCMS(織夢(mèng)內容管理系統),還是在易用性方面)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 144 次瀏覽 ? 2021-11-26 10:17 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(給你八分鐘搞定dedeCMS(織夢(mèng)內容管理系統),還是在易用性方面)
  給你八分鐘搞定dedecms(織夢(mèng)內容管理系統)
  ,并且在易用性方面,有了長(cháng)足的發(fā)展。德德cms免費版的主要目標用戶(hù)是個(gè)人站長(cháng),功能更側重于個(gè)人網(wǎng)站或中小型門(mén)戶(hù)網(wǎng)站的建設。當然,也有企業(yè)用戶(hù)和學(xué)校使用這個(gè)系統。當我第一次看到這個(gè)界面時(shí),我很陌生。只知道界面有很多功能,但不知道具體是做什么的……我用dedecms做官網(wǎng),所以沒(méi)用很多功能。. 第4分鐘_這里的核心主要是生成網(wǎng)站的導航,可以在導航中添加文章(這里特別強調,原因是喜歡這里的想法…… 把它放在導航里所有的內容都可以用文章的形式表達)這是工作的第一步,至少我是這么認為的..第5分鐘_系統在系統欄,什么我們需要的是設置我們的一些系統變量,這里設置系統變量后,方便我們在后續開(kāi)發(fā)過(guò)程中靈活調用這些變量。dedecms中的第六分鐘_template,最靈活的應該是系統提供的,這里我們可以將我們的頁(yè)面編輯成模板,然后調用...這里需要強調一下,這里涉及到緩存的東西,我們需要使用:一鍵更新網(wǎng)站-->更新一切...因為我在做的時(shí)候遇到了緩存問(wèn)題,所以不敢相信自己哪里出錯了...
  1.2K 查看全部

  文章采集調用(給你八分鐘搞定dedeCMS(織夢(mèng)內容管理系統),還是在易用性方面)
  給你八分鐘搞定dedecms(織夢(mèng)內容管理系統)
  ,并且在易用性方面,有了長(cháng)足的發(fā)展。德德cms免費版的主要目標用戶(hù)是個(gè)人站長(cháng),功能更側重于個(gè)人網(wǎng)站或中小型門(mén)戶(hù)網(wǎng)站的建設。當然,也有企業(yè)用戶(hù)和學(xué)校使用這個(gè)系統。當我第一次看到這個(gè)界面時(shí),我很陌生。只知道界面有很多功能,但不知道具體是做什么的……我用dedecms做官網(wǎng),所以沒(méi)用很多功能。. 第4分鐘_這里的核心主要是生成網(wǎng)站的導航,可以在導航中添加文章(這里特別強調,原因是喜歡這里的想法…… 把它放在導航里所有的內容都可以用文章的形式表達)這是工作的第一步,至少我是這么認為的..第5分鐘_系統在系統欄,什么我們需要的是設置我們的一些系統變量,這里設置系統變量后,方便我們在后續開(kāi)發(fā)過(guò)程中靈活調用這些變量。dedecms中的第六分鐘_template,最靈活的應該是系統提供的,這里我們可以將我們的頁(yè)面編輯成模板,然后調用...這里需要強調一下,這里涉及到緩存的東西,我們需要使用:一鍵更新網(wǎng)站-->更新一切...因為我在做的時(shí)候遇到了緩存問(wèn)題,所以不敢相信自己哪里出錯了...
  1.2K

文章采集調用(最好調用二級目錄(二級)、微博客和“教育頻道”,)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 127 次瀏覽 ? 2021-11-26 08:08 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(最好調用二級目錄(二級)、微博客和“教育頻道”,)
  在我的博客中,我建立了“勵志故事”、“微博”和“教育頻道”三個(gè)二級目錄,以提高百度蜘蛛的抓取速度和全面抓取,促進(jìn)網(wǎng)站< @收錄,最好能實(shí)現zblog博客根目錄與二級目錄、二級目錄與根目錄、二級目錄與二級目錄之間的順暢調用。
  網(wǎng)上搜集了一些互相調用的方法。很多方法漏洞百出或者不夠全面,無(wú)法說(shuō)明zblog博客目錄之間如何相互調用。我在這里果斷寫(xiě)一篇文章文章,同時(shí)糾正各種錯誤,為博主提供正確的調用方法。
  根目錄調用二級目錄,二級目錄調用根目錄,二級目錄和二級目錄可以相互調用,方法相同。
  1.zblog根目錄調用二級目錄中最新的文章。
 ?、僭诒镜匦陆ㄒ粋€(gè)t_previous.asp文件(新建一個(gè)t_previous.txt文件并將擴展名改為asp),將該文件上傳到zblog博客根目錄下的include文件中。t_previous.asp 主要用于存儲從二級目錄調用的內容。
 ?、谠谀阋褂玫亩壞夸浀腇UNCTION文件夾中找到c_system_base.asp文件,通過(guò)ftp軟件下載到本地以txt文件格式打開(kāi),使用搜索工具找到
  調用 SaveToFile(BlogPath & “/include/previous.asp”,strPrevious,”utf-8”,True)
  在代碼下方添加以下代碼:
  調用 SaveToFile(Left(BlogPath,len(BlogPath)-7) & “/include/t_previous.asp”,strPrevious,”utf-8″,True)
  注:7為“jiaoyu/”的字符長(cháng)度。如果要調用“微博/”的內容,改成6,自己用的時(shí)候一定要注意這一點(diǎn)。因為很多博文都說(shuō)文章的數量顯示為7,表示這是完全錯誤的。未經(jīng)大腦或實(shí)踐檢驗的廢話(huà)。
 ?、凵蟼鱟_system_base.asp文件到你的二級目錄,重建文章就OK了!
 ?、茉谀阋{用的地方,比如文章的首頁(yè)側邊欄,你要在你的zblog采用的樣式中default.html對應位置添加如下代碼: 查看全部

  文章采集調用(最好調用二級目錄(二級)、微博客和“教育頻道”,)
  在我的博客中,我建立了“勵志故事”、“微博”和“教育頻道”三個(gè)二級目錄,以提高百度蜘蛛的抓取速度和全面抓取,促進(jìn)網(wǎng)站< @收錄,最好能實(shí)現zblog博客根目錄與二級目錄、二級目錄與根目錄、二級目錄與二級目錄之間的順暢調用。
  網(wǎng)上搜集了一些互相調用的方法。很多方法漏洞百出或者不夠全面,無(wú)法說(shuō)明zblog博客目錄之間如何相互調用。我在這里果斷寫(xiě)一篇文章文章,同時(shí)糾正各種錯誤,為博主提供正確的調用方法。
  根目錄調用二級目錄,二級目錄調用根目錄,二級目錄和二級目錄可以相互調用,方法相同。
  1.zblog根目錄調用二級目錄中最新的文章。
 ?、僭诒镜匦陆ㄒ粋€(gè)t_previous.asp文件(新建一個(gè)t_previous.txt文件并將擴展名改為asp),將該文件上傳到zblog博客根目錄下的include文件中。t_previous.asp 主要用于存儲從二級目錄調用的內容。
 ?、谠谀阋褂玫亩壞夸浀腇UNCTION文件夾中找到c_system_base.asp文件,通過(guò)ftp軟件下載到本地以txt文件格式打開(kāi),使用搜索工具找到
  調用 SaveToFile(BlogPath & “/include/previous.asp”,strPrevious,”utf-8”,True)
  在代碼下方添加以下代碼:
  調用 SaveToFile(Left(BlogPath,len(BlogPath)-7) & “/include/t_previous.asp”,strPrevious,”utf-8″,True)
  注:7為“jiaoyu/”的字符長(cháng)度。如果要調用“微博/”的內容,改成6,自己用的時(shí)候一定要注意這一點(diǎn)。因為很多博文都說(shuō)文章的數量顯示為7,表示這是完全錯誤的。未經(jīng)大腦或實(shí)踐檢驗的廢話(huà)。
 ?、凵蟼鱟_system_base.asp文件到你的二級目錄,重建文章就OK了!
 ?、茉谀阋{用的地方,比如文章的首頁(yè)側邊欄,你要在你的zblog采用的樣式中default.html對應位置添加如下代碼:

文章采集調用(Dedecms采集節點(diǎn)管理界面1.2.增加新節點(diǎn)在采集指定節點(diǎn)和網(wǎng)址索引頁(yè)規則)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 166 次瀏覽 ? 2021-11-25 00:14 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(Dedecms采集節點(diǎn)管理界面1.2.增加新節點(diǎn)在采集指定節點(diǎn)和網(wǎng)址索引頁(yè)規則)
  前言:這篇文章是寫(xiě)給剛接觸德德的朋友cms采集的。選擇的目標站點(diǎn)是德德cms官方網(wǎng)站的dreameaver欄目文章,其內容頁(yè)面不收錄分頁(yè)。以圖文形式詳細講解了如何創(chuàng )建一個(gè)Basic 采集規則。本文分為三部分:第一部分主要介紹如何進(jìn)入采集界面以及添加采集節點(diǎn)的第一步:設置基本信息和URL索引頁(yè)面規則;第二節,主要是引入新的采集節點(diǎn)的第二步:設置字段獲取規則;第三部分主要介紹如何采集指定節點(diǎn)以及如何導出采集的內容?,F在進(jìn)入第一部分。
  1.1進(jìn)入采集節點(diǎn)管理界面
  如圖(圖1),在后臺管理界面主菜單中點(diǎn)擊“采集”,然后點(diǎn)擊“采集節點(diǎn)管理”進(jìn)入采集節點(diǎn)管理界面,如圖(圖2).
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖1-后臺管理界面
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖2-采集節點(diǎn)管理界面
  1.2. 添加新節點(diǎn)
  在采集節點(diǎn)管理界面,點(diǎn)擊左下角“添加新節點(diǎn)”或右上角“添加新節點(diǎn)”(如圖2),可以進(jìn)入“選擇內容”模型”界面,如(如圖3),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖3-選擇內容模型界面
  在“選擇內容模型”界面的下拉列表框中,有“常用文章”和“圖片集”可供選擇。根據頁(yè)面類(lèi)型為采集,選擇對應的內容模型。本文選擇“普通文章”,點(diǎn)擊確定,進(jìn)入“添加采集節點(diǎn):第一步設置基本信息和URL索引頁(yè)面規則”界面,如圖(圖文章4)顯示,
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖4-新建采集節點(diǎn):第一步是設置基本信息和URL索引頁(yè)面規則
  1.2.1 設置基本節點(diǎn)信息
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖5-基本節點(diǎn)信息
  如圖(圖5),
  節點(diǎn)名稱(chēng):給新創(chuàng )建的節點(diǎn)起一個(gè)名字,填寫(xiě)“采集Test(一)”;
  目標頁(yè)面編碼:通過(guò)采集設置目標頁(yè)面的編碼格式。共有三種類(lèi)型:GB2312、UTF8 和 BIG5。在采集的目標頁(yè)面右擊,選擇“查看源文件”即可獲得。
  腳步:
  (a) 打開(kāi)采集的目標頁(yè)面:;
  (b) 右擊選擇“查看源文件”,找到“字符集”,如圖(圖6),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖6-查看源文件
  等號后面的代碼就是需要的“編碼格式”,這里是“gb2312”。
  “區域匹配方式”:設置如何匹配所需采集的內容部分,可以是字符串,也可以是正則表達式。系統默認模式為字符串。如果您對正則表達式有更多的了解,可以在這里選擇正則表達式模式。
  “內容導入順序”:指定導入文章列表時(shí)的順序??梢赃x擇“與目標站一致”或“反向到目標站”。
  “防盜鏈模式”:目標站點(diǎn)是否有刷新限制采集。一開(kāi)始很難說(shuō),你需要測試才能知道。如果是這樣,您需要在此處設置“資源下載超時(shí)時(shí)間”。
  “引用網(wǎng)址”:填寫(xiě)任意文章內容頁(yè)面的網(wǎng)址,即采集。
  具體步驟:
  (a) 在打開(kāi)的文章列表頁(yè)面,點(diǎn)擊第一篇文章
  標題為“在Dreamweaver中為插入的Flash添加透明度”打開(kāi)文章內容頁(yè)面,如圖(圖7),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖7-文章內容頁(yè)面
  (b)此時(shí)瀏覽器的URL地址欄顯示的URL就是“引用URL”處需要填寫(xiě)的URL,如圖(圖8),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖8-瀏覽器的URL地址欄
  至此,“節點(diǎn)基本信息”就設置好了。最終結果,如圖(圖9),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖9-設置后節點(diǎn)的基本信息
  檢查無(wú)誤后,進(jìn)入下一步。
  1.2.2 設置獲取列表URL的規則
  如圖(圖10),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖10-列出URL獲取規則
  這里是設置采集的文章列表頁(yè)的匹配規則。如果采集的文章的列表頁(yè)面有一定的樣式,可以選擇“批量生成列表URL”;如果采集的文章的列表頁(yè)面完全沒(méi)有規則,那么可以選擇“手動(dòng)指定列表URL”;如果采集的站點(diǎn)提供RSS,您可以選擇“從RSS獲取”。對于特殊情況,例如:列表頁(yè)面部分規則,其余部分不規則,您可以在“匹配URL”中填寫(xiě)規則部分,然后在“手動(dòng)指定URL”中填寫(xiě)不規則部分。
  具體步驟:
  (a) 首先回到打開(kāi)的文章列表頁(yè)面,找到瀏覽器URL地址欄中顯示的URL(圖片8)和頁(yè)面底部的換頁(yè)部分。對于示例(如圖11),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖11-頁(yè)面變化
  (b) 點(diǎn)擊“2”打開(kāi)文章列表頁(yè)的第二頁(yè)。這時(shí)瀏覽器的URL地址欄中顯示的URL和頁(yè)面底部的頁(yè)面變化部分,如(圖12)和(圖13),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖12-第二頁(yè)的URL
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖13-page feed部分第二頁(yè)
  (c) 在打開(kāi)的文章列表頁(yè)的第二頁(yè),點(diǎn)擊(1)打開(kāi)文章列表頁(yè)的第一頁(yè),底部的換頁(yè)部分頁(yè)面如下圖11相同,只是瀏覽器的URL地址欄顯示的URL與之前的圖8不同,如下圖(圖14),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖14-第一頁(yè)的URL
  (d) 由(b)和(c)推斷,采集的文章列表頁(yè)的URL遵循如下規律:
  (*).html。為安全起見(jiàn),請自行測試更多列表頁(yè)面。確定規則后,在“匹配URL”中填寫(xiě)規則后跟文章列表頁(yè)。
  (e) 最后,指定需要采集的頁(yè)碼或正則數,并設置遞增的正則。
  至此,“列表URL獲取規則”部分的設置就結束了。最終結果,如圖(圖15),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖15-設置后的URL獲取規則列表
  確認無(wú)誤后,進(jìn)行下一步設置。
  1.2.3 設置文章 URL匹配規則
  如圖(圖16),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖16-文章 URL匹配規則
  這里是設置采集文章列表頁(yè)的匹配規則。
  具體步驟:
  (a)對于“區域開(kāi)頭的HTML”,可以在打開(kāi)的文章列表首頁(yè)右擊,選擇“查看源文件”。在源文件中,找到第一篇文章的標題《在Dreamweaver中為插入的Flash添加透明度》,如圖(圖17),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖17-查看源文件中第一篇文章文章的標題
  通過(guò)觀(guān)察,不難看出“
  ”這是整個(gè)文章列表的開(kāi)頭。因此,在“HTML開(kāi)頭的區域”中,填寫(xiě)“
  ”。
  (b) 在源文件中找到上一篇文章的文章《通過(guò)Dreamweaver設計網(wǎng)頁(yè)時(shí)組織CSS的建議》,如圖(圖18),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖18-查看源文件中上一篇文章的標題
  結合文章列表的開(kāi)頭并觀(guān)察,第一個(gè)"
  “這是整個(gè)文章列表的結尾。因此,在“區域末尾的HTML”中,您應該填寫(xiě)“
  ”。
  “如果鏈接收錄圖片”:設置收錄圖片的鏈接的處理方式,是否不處理,縮略圖可選采集??筛鶕?shí)際需要選擇。
  “重新過(guò)濾區域URL”:可以使用正則表達式再次過(guò)濾區域網(wǎng)站。這是針對一些需要保留或者過(guò)濾掉的內容,尤其是混合列表頁(yè)面,通過(guò)使用“必須收錄”或者“不能收錄”過(guò)濾掉你想要獲取的文章內容頁(yè)面的URL或者不想得到。
  具體步驟:
  回到正在打開(kāi)的文章列表首頁(yè)的源文件,通過(guò)觀(guān)察可以看出,每個(gè)文章內容頁(yè)地址的擴展名都是.html。因此,您可以在“必須收錄”中填寫(xiě)“.html”。
  至此,“文章URL匹配規則”的設置就結束了。最終結果,如圖(圖19),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖19-文章 設置后的URL匹配規則
  通過(guò)1.2.1子節,1.2.2子節和1.2.3子節,采集節點(diǎn)的節添加 一步完成設置。設置后的結果,如圖(圖20),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖20-設置后新增的采集節點(diǎn):第一步是設置基本信息和URL索引頁(yè)面規則
  一切都完成并檢查后,單擊“保存信息并進(jìn)入下一步設置”。如果之前的設置正確,點(diǎn)擊后會(huì )進(jìn)入“新建采集節點(diǎn):測試基本信息和URL索引頁(yè)面規則設置URL獲取規則測試”頁(yè)面,看到對應的文章列表地址. 如圖(圖21),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖21-URL獲取規則測試
  確認無(wú)誤后,點(diǎn)擊“保存信息,進(jìn)入下一步設置”。否則請點(diǎn)擊“返回上一步修改”。
  免責聲明:本站所有文章及圖片均來(lái)自用戶(hù)分享和網(wǎng)絡(luò )采集。文章及圖片版權歸原作者所有。僅供學(xué)習和參考。請不要將它們用于商業(yè)目的。如果您的權益受到損害,請聯(lián)系網(wǎng)站客服。
  有問(wèn)題可以加入織夢(mèng)技術(shù)QQ群一起交流學(xué)習
  本站VIP會(huì )員請加入織夢(mèng)58 VIP②群 PS:加入時(shí)請備注用戶(hù)名或昵稱(chēng)
  普通注冊會(huì )員或訪(fǎng)客請加入織夢(mèng)58技術(shù)交流②群 查看全部

  文章采集調用(Dedecms采集節點(diǎn)管理界面1.2.增加新節點(diǎn)在采集指定節點(diǎn)和網(wǎng)址索引頁(yè)規則)
  前言:這篇文章是寫(xiě)給剛接觸德德的朋友cms采集的。選擇的目標站點(diǎn)是德德cms官方網(wǎng)站的dreameaver欄目文章,其內容頁(yè)面不收錄分頁(yè)。以圖文形式詳細講解了如何創(chuàng )建一個(gè)Basic 采集規則。本文分為三部分:第一部分主要介紹如何進(jìn)入采集界面以及添加采集節點(diǎn)的第一步:設置基本信息和URL索引頁(yè)面規則;第二節,主要是引入新的采集節點(diǎn)的第二步:設置字段獲取規則;第三部分主要介紹如何采集指定節點(diǎn)以及如何導出采集的內容?,F在進(jìn)入第一部分。
  1.1進(jìn)入采集節點(diǎn)管理界面
  如圖(圖1),在后臺管理界面主菜單中點(diǎn)擊“采集”,然后點(diǎn)擊“采集節點(diǎn)管理”進(jìn)入采集節點(diǎn)管理界面,如圖(圖2).
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖1-后臺管理界面
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖2-采集節點(diǎn)管理界面
  1.2. 添加新節點(diǎn)
  在采集節點(diǎn)管理界面,點(diǎn)擊左下角“添加新節點(diǎn)”或右上角“添加新節點(diǎn)”(如圖2),可以進(jìn)入“選擇內容”模型”界面,如(如圖3),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖3-選擇內容模型界面
  在“選擇內容模型”界面的下拉列表框中,有“常用文章”和“圖片集”可供選擇。根據頁(yè)面類(lèi)型為采集,選擇對應的內容模型。本文選擇“普通文章”,點(diǎn)擊確定,進(jìn)入“添加采集節點(diǎn):第一步設置基本信息和URL索引頁(yè)面規則”界面,如圖(圖文章4)顯示,
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖4-新建采集節點(diǎn):第一步是設置基本信息和URL索引頁(yè)面規則
  1.2.1 設置基本節點(diǎn)信息
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖5-基本節點(diǎn)信息
  如圖(圖5),
  節點(diǎn)名稱(chēng):給新創(chuàng )建的節點(diǎn)起一個(gè)名字,填寫(xiě)“采集Test(一)”;
  目標頁(yè)面編碼:通過(guò)采集設置目標頁(yè)面的編碼格式。共有三種類(lèi)型:GB2312、UTF8 和 BIG5。在采集的目標頁(yè)面右擊,選擇“查看源文件”即可獲得。
  腳步:
  (a) 打開(kāi)采集的目標頁(yè)面:;
  (b) 右擊選擇“查看源文件”,找到“字符集”,如圖(圖6),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖6-查看源文件
  等號后面的代碼就是需要的“編碼格式”,這里是“gb2312”。
  “區域匹配方式”:設置如何匹配所需采集的內容部分,可以是字符串,也可以是正則表達式。系統默認模式為字符串。如果您對正則表達式有更多的了解,可以在這里選擇正則表達式模式。
  “內容導入順序”:指定導入文章列表時(shí)的順序??梢赃x擇“與目標站一致”或“反向到目標站”。
  “防盜鏈模式”:目標站點(diǎn)是否有刷新限制采集。一開(kāi)始很難說(shuō),你需要測試才能知道。如果是這樣,您需要在此處設置“資源下載超時(shí)時(shí)間”。
  “引用網(wǎng)址”:填寫(xiě)任意文章內容頁(yè)面的網(wǎng)址,即采集。
  具體步驟:
  (a) 在打開(kāi)的文章列表頁(yè)面,點(diǎn)擊第一篇文章
  標題為“在Dreamweaver中為插入的Flash添加透明度”打開(kāi)文章內容頁(yè)面,如圖(圖7),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖7-文章內容頁(yè)面
  (b)此時(shí)瀏覽器的URL地址欄顯示的URL就是“引用URL”處需要填寫(xiě)的URL,如圖(圖8),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖8-瀏覽器的URL地址欄
  至此,“節點(diǎn)基本信息”就設置好了。最終結果,如圖(圖9),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖9-設置后節點(diǎn)的基本信息
  檢查無(wú)誤后,進(jìn)入下一步。
  1.2.2 設置獲取列表URL的規則
  如圖(圖10),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖10-列出URL獲取規則
  這里是設置采集的文章列表頁(yè)的匹配規則。如果采集的文章的列表頁(yè)面有一定的樣式,可以選擇“批量生成列表URL”;如果采集的文章的列表頁(yè)面完全沒(méi)有規則,那么可以選擇“手動(dòng)指定列表URL”;如果采集的站點(diǎn)提供RSS,您可以選擇“從RSS獲取”。對于特殊情況,例如:列表頁(yè)面部分規則,其余部分不規則,您可以在“匹配URL”中填寫(xiě)規則部分,然后在“手動(dòng)指定URL”中填寫(xiě)不規則部分。
  具體步驟:
  (a) 首先回到打開(kāi)的文章列表頁(yè)面,找到瀏覽器URL地址欄中顯示的URL(圖片8)和頁(yè)面底部的換頁(yè)部分。對于示例(如圖11),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖11-頁(yè)面變化
  (b) 點(diǎn)擊“2”打開(kāi)文章列表頁(yè)的第二頁(yè)。這時(shí)瀏覽器的URL地址欄中顯示的URL和頁(yè)面底部的頁(yè)面變化部分,如(圖12)和(圖13),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖12-第二頁(yè)的URL
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖13-page feed部分第二頁(yè)
  (c) 在打開(kāi)的文章列表頁(yè)的第二頁(yè),點(diǎn)擊(1)打開(kāi)文章列表頁(yè)的第一頁(yè),底部的換頁(yè)部分頁(yè)面如下圖11相同,只是瀏覽器的URL地址欄顯示的URL與之前的圖8不同,如下圖(圖14),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖14-第一頁(yè)的URL
  (d) 由(b)和(c)推斷,采集的文章列表頁(yè)的URL遵循如下規律:
  (*).html。為安全起見(jiàn),請自行測試更多列表頁(yè)面。確定規則后,在“匹配URL”中填寫(xiě)規則后跟文章列表頁(yè)。
  (e) 最后,指定需要采集的頁(yè)碼或正則數,并設置遞增的正則。
  至此,“列表URL獲取規則”部分的設置就結束了。最終結果,如圖(圖15),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖15-設置后的URL獲取規則列表
  確認無(wú)誤后,進(jìn)行下一步設置。
  1.2.3 設置文章 URL匹配規則
  如圖(圖16),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖16-文章 URL匹配規則
  這里是設置采集文章列表頁(yè)的匹配規則。
  具體步驟:
  (a)對于“區域開(kāi)頭的HTML”,可以在打開(kāi)的文章列表首頁(yè)右擊,選擇“查看源文件”。在源文件中,找到第一篇文章的標題《在Dreamweaver中為插入的Flash添加透明度》,如圖(圖17),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖17-查看源文件中第一篇文章文章的標題
  通過(guò)觀(guān)察,不難看出“
  ”這是整個(gè)文章列表的開(kāi)頭。因此,在“HTML開(kāi)頭的區域”中,填寫(xiě)“
  ”。
  (b) 在源文件中找到上一篇文章的文章《通過(guò)Dreamweaver設計網(wǎng)頁(yè)時(shí)組織CSS的建議》,如圖(圖18),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖18-查看源文件中上一篇文章的標題
  結合文章列表的開(kāi)頭并觀(guān)察,第一個(gè)"
  “這是整個(gè)文章列表的結尾。因此,在“區域末尾的HTML”中,您應該填寫(xiě)“
  ”。
  “如果鏈接收錄圖片”:設置收錄圖片的鏈接的處理方式,是否不處理,縮略圖可選采集??筛鶕?shí)際需要選擇。
  “重新過(guò)濾區域URL”:可以使用正則表達式再次過(guò)濾區域網(wǎng)站。這是針對一些需要保留或者過(guò)濾掉的內容,尤其是混合列表頁(yè)面,通過(guò)使用“必須收錄”或者“不能收錄”過(guò)濾掉你想要獲取的文章內容頁(yè)面的URL或者不想得到。
  具體步驟:
  回到正在打開(kāi)的文章列表首頁(yè)的源文件,通過(guò)觀(guān)察可以看出,每個(gè)文章內容頁(yè)地址的擴展名都是.html。因此,您可以在“必須收錄”中填寫(xiě)“.html”。
  至此,“文章URL匹配規則”的設置就結束了。最終結果,如圖(圖19),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖19-文章 設置后的URL匹配規則
  通過(guò)1.2.1子節,1.2.2子節和1.2.3子節,采集節點(diǎn)的節添加 一步完成設置。設置后的結果,如圖(圖20),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖20-設置后新增的采集節點(diǎn):第一步是設置基本信息和URL索引頁(yè)面規則
  一切都完成并檢查后,單擊“保存信息并進(jìn)入下一步設置”。如果之前的設置正確,點(diǎn)擊后會(huì )進(jìn)入“新建采集節點(diǎn):測試基本信息和URL索引頁(yè)面規則設置URL獲取規則測試”頁(yè)面,看到對應的文章列表地址. 如圖(圖21),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖21-URL獲取規則測試
  確認無(wú)誤后,點(diǎn)擊“保存信息,進(jìn)入下一步設置”。否則請點(diǎn)擊“返回上一步修改”。
  免責聲明:本站所有文章及圖片均來(lái)自用戶(hù)分享和網(wǎng)絡(luò )采集。文章及圖片版權歸原作者所有。僅供學(xué)習和參考。請不要將它們用于商業(yè)目的。如果您的權益受到損害,請聯(lián)系網(wǎng)站客服。
  有問(wèn)題可以加入織夢(mèng)技術(shù)QQ群一起交流學(xué)習
  本站VIP會(huì )員請加入織夢(mèng)58 VIP②群 PS:加入時(shí)請備注用戶(hù)名或昵稱(chēng)
  普通注冊會(huì )員或訪(fǎng)客請加入織夢(mèng)58技術(shù)交流②群

文章采集調用(,ajax動(dòng)態(tài)加載的網(wǎng)頁(yè)并提取網(wǎng)頁(yè)信息(需進(jìn)行) )

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 135 次瀏覽 ? 2021-11-24 23:29 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(,ajax動(dòng)態(tài)加載的網(wǎng)頁(yè)并提取網(wǎng)頁(yè)信息(需進(jìn)行)
)
  網(wǎng)頁(yè)有幾種類(lèi)型的采集:
  1.靜態(tài)網(wǎng)頁(yè)
  2.動(dòng)態(tài)網(wǎng)頁(yè)(需要js、ajax動(dòng)態(tài)加載數據的網(wǎng)頁(yè))
  3.采集的網(wǎng)頁(yè)前需要模擬登錄
  4.加密網(wǎng)頁(yè)
  3、4個(gè)解決方案和想法會(huì )在后續博客中說(shuō)明
  目前,只有 1、2 的解決方案和想法:
  一.靜態(tài)網(wǎng)頁(yè)
  解析靜態(tài)網(wǎng)頁(yè)的方法有很多很多采集! java和python都提供了很多工具包或者框架,比如java httpclient、Htmlunit、Jsoup、HtmlParser等,Python urllib、urllib2、BeautifulSoup、Scrapy等,不詳,網(wǎng)上有很多資料。
  二.動(dòng)態(tài)網(wǎng)頁(yè)
  對于采集來(lái)說(shuō),動(dòng)態(tài)網(wǎng)頁(yè)就是那些需要js和ajax動(dòng)態(tài)加載獲取數據的網(wǎng)頁(yè)。 采集 有兩個(gè)數據計劃:
  1.通過(guò)抓包工具分析js、ajax的請求,模擬js加載后獲取數據的請求。
  2.調用瀏覽器內核,獲取加載網(wǎng)頁(yè)的源碼,然后解析源碼
  研究爬蟲(chóng)的人一定對js有所了解。網(wǎng)上學(xué)習資料很多,不做聲明,本文僅為文章
  的完整性
  調用瀏覽器內核的工具包也有幾個(gè),不過(guò)不是今天的重點(diǎn)。今天的重點(diǎn)是文章的標題。 Scrapy框架結合Spynner采集需要動(dòng)態(tài)加載js、ajax并提取頁(yè)面信息(以采集微信公眾號文章列表為例)
  開(kāi)始...
  1.創(chuàng )建微信公眾號文章list采集項目(以下簡(jiǎn)稱(chēng)微采集)
  scrapy startproject weixin
  2.在spider目錄下創(chuàng )建一個(gè)采集spider文件
  vim weixinlist.py
  編寫(xiě)如下代碼
  from weixin.items import WeixinItem
import sys
sys.path.insert(0,'..')
import scrapy
import time
from scrapy import Spider
class MySpider(Spider):
name = 'weixinlist'
allowed_domains = []
start_urls = [
'http://weixin.sogou.com/gzh?openid=oIWsFt5QBSP8mn4Jx2WSGw_rCNzQ',
]
download_delay = 1
print('start init....')
def parse(self, response):
sel=scrapy.Selector(response)
print('hello,world!')
print(response)
print(sel)
list=sel.xpath('//div[@class="txt-box"]/h4')
items=[]
for single in list:
data=WeixinItem()
title=single.xpath('a/text()').extract()
link=single.xpath('a/@href').extract()
data['title']=title
data['link']=link
if len(title)>0:
print(title[0].encode('utf-8'))
print(link)
  3.在items.py中添加WeixinItem類(lèi)
  4.在items.py的同級目錄下創(chuàng )建一個(gè)下載中間件downloadwebkit.py,寫(xiě)入如下代碼:
  import spynner
import pyquery
import time
import BeautifulSoup
import sys
from scrapy.http import HtmlResponse
class WebkitDownloaderTest( object ):
def process_request( self, request, spider ):
# if spider.name in settings.WEBKIT_DOWNLOADER:
# if( type(request) is not FormRequest ):
browser = spynner.Browser()
browser.create_webview()
browser.set_html_parser(pyquery.PyQuery)
browser.load(request.url, 20)
try:
browser.wait_load(10)
except:
pass
string = browser.html
string=string.encode('utf-8')
renderedBody = str(string)
return HtmlResponse( request.url, body=renderedBody )
  這段代碼是在網(wǎng)頁(yè)加載完成后調用瀏覽器內核獲取源碼
  5.在setting.py文件中配置并聲明下載使用下載中間件
  在底部添加以下代碼:
  #which spider should use WEBKIT
WEBKIT_DOWNLOADER=['weixinlist']
DOWNLOADER_MIDDLEWARES = {
'weixin.downloadwebkit.WebkitDownloaderTest': 543,
}
import os
os.environ["DISPLAY"] = ":0"
  6.運行程序:
  運行命令:
  scrapy crawl weixinlist
  運行結果:
  kevinflynndeMacBook-Pro:spiders kevinflynn$ scrapy crawl weixinlist
start init....
2015-07-28 21:13:55 [scrapy] INFO: Scrapy 1.0.1 started (bot: weixin)
2015-07-28 21:13:55 [scrapy] INFO: Optional features available: ssl, http11
2015-07-28 21:13:55 [scrapy] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'weixin.spiders', 'SPIDER_MODULES': ['weixin.spiders'], 'BOT_NAME': 'weixin'}
2015-07-28 21:13:55 [py.warnings] WARNING: :0: UserWarning: You do not have a working installation of the service_identity module: 'No module named service_identity'. Please install it from and make sure all of its dependencies are satisfied. Without the service_identity module and a recent enough pyOpenSSL to support it, Twisted can perform only rudimentary TLS client hostname verification. Many valid certificate/hostname mappings may be rejected.
2015-07-28 21:13:55 [scrapy] INFO: Enabled extensions: CloseSpider, TelnetConsole, LogStats, CoreStats, SpiderState
2015-07-28 21:13:55 [scrapy] INFO: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, WebkitDownloaderTest, DefaultHeadersMiddleware, MetaRefreshMiddleware, HttpCompressionMiddleware, RedirectMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats
2015-07-28 21:13:55 [scrapy] INFO: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware
2015-07-28 21:13:55 [scrapy] INFO: Enabled item pipelines:
2015-07-28 21:13:55 [scrapy] INFO: Spider opened
2015-07-28 21:13:55 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2015-07-28 21:13:55 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023
QFont::setPixelSize: Pixel size
互聯(lián)網(wǎng)協(xié)議入門(mén)
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=210032701&idx=1&sn=6b1fc2bc5d4eb0f87513751e4ccf610c&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
自己動(dòng)手寫(xiě)貝葉斯分類(lèi)器給圖書(shū)分類(lèi)
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=210013947&idx=1&sn=1f36ba5794e22d0fb94a9900230e74ca&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
不當免費技術(shù)支持的10種方法
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=209998175&idx=1&sn=216106034a3b4afea6e67f813ce1971f&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
以 Python 為實(shí)例,介紹貝葉斯理論
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=209998175&idx=2&sn=2f3dee873d7350dfe9546ab4a9323c05&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
我從騰訊那“偷了”3000萬(wàn)QQ用戶(hù)數據,出了份很有趣的...
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=209980651&idx=1&sn=11fd40a2dee5132b0de8d4c79a97dac2&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
如何用 Spark 快速開(kāi)發(fā)應用?
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=209820653&idx=2&sn=23712b78d82fb412e960c6aa1e361dd3&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
一起來(lái)寫(xiě)個(gè)簡(jiǎn)單的解釋器(1)
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=209797651&idx=1&sn=15073e27080e6b637c8d24b6bb815417&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
那個(gè)直接在機器碼中改 Bug 的家伙
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=209762756&idx=1&sn=04ae1bc3a366d358f474ac3e9a85fb60&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
把一個(gè)庫開(kāi)源,你該做些什么
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=209762756&idx=2&sn=0ac961ffd82ead6078a60f25fed3c2c4&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
程序員的困境
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=209696436&idx=1&sn=8cb55b03c8b95586ba4498c64fa54513&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
2015-07-28 21:14:08 [scrapy] INFO: Closing spider (finished)
2015-07-28 21:14:08 [scrapy] INFO: Dumping Scrapy stats:
{'downloader/response_bytes': 131181,
'downloader/response_count': 1,
'downloader/response_status_count/200': 1,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2015, 7, 28, 13, 14, 8, 958071),
'log_count/DEBUG': 2,
'log_count/INFO': 7,
'log_count/WARNING': 1,
'response_received_count': 1,
'scheduler/dequeued': 1,
'scheduler/dequeued/memory': 1,
'scheduler/enqueued': 1,
'scheduler/enqueued/memory': 1,
'start_time': datetime.datetime(2015, 7, 28, 13, 13, 55, 688111)}
2015-07-28 21:14:08 [scrapy] INFO: Spider closed (finished)
QThread: Destroyed while thread is still running
kevinflynndeMacBook-Pro:spiders kevinflynn$ 查看全部

  文章采集調用(,ajax動(dòng)態(tài)加載的網(wǎng)頁(yè)并提取網(wǎng)頁(yè)信息(需進(jìn)行)
)
  網(wǎng)頁(yè)有幾種類(lèi)型的采集:
  1.靜態(tài)網(wǎng)頁(yè)
  2.動(dòng)態(tài)網(wǎng)頁(yè)(需要js、ajax動(dòng)態(tài)加載數據的網(wǎng)頁(yè))
  3.采集的網(wǎng)頁(yè)前需要模擬登錄
  4.加密網(wǎng)頁(yè)
  3、4個(gè)解決方案和想法會(huì )在后續博客中說(shuō)明
  目前,只有 1、2 的解決方案和想法:
  一.靜態(tài)網(wǎng)頁(yè)
  解析靜態(tài)網(wǎng)頁(yè)的方法有很多很多采集! java和python都提供了很多工具包或者框架,比如java httpclient、Htmlunit、Jsoup、HtmlParser等,Python urllib、urllib2、BeautifulSoup、Scrapy等,不詳,網(wǎng)上有很多資料。
  二.動(dòng)態(tài)網(wǎng)頁(yè)
  對于采集來(lái)說(shuō),動(dòng)態(tài)網(wǎng)頁(yè)就是那些需要js和ajax動(dòng)態(tài)加載獲取數據的網(wǎng)頁(yè)。 采集 有兩個(gè)數據計劃:
  1.通過(guò)抓包工具分析js、ajax的請求,模擬js加載后獲取數據的請求。
  2.調用瀏覽器內核,獲取加載網(wǎng)頁(yè)的源碼,然后解析源碼
  研究爬蟲(chóng)的人一定對js有所了解。網(wǎng)上學(xué)習資料很多,不做聲明,本文僅為文章
  的完整性
  調用瀏覽器內核的工具包也有幾個(gè),不過(guò)不是今天的重點(diǎn)。今天的重點(diǎn)是文章的標題。 Scrapy框架結合Spynner采集需要動(dòng)態(tài)加載js、ajax并提取頁(yè)面信息(以采集微信公眾號文章列表為例)
  開(kāi)始...
  1.創(chuàng )建微信公眾號文章list采集項目(以下簡(jiǎn)稱(chēng)微采集)
  scrapy startproject weixin
  2.在spider目錄下創(chuàng )建一個(gè)采集spider文件
  vim weixinlist.py
  編寫(xiě)如下代碼
  from weixin.items import WeixinItem
import sys
sys.path.insert(0,'..')
import scrapy
import time
from scrapy import Spider
class MySpider(Spider):
name = 'weixinlist'
allowed_domains = []
start_urls = [
'http://weixin.sogou.com/gzh?openid=oIWsFt5QBSP8mn4Jx2WSGw_rCNzQ',
]
download_delay = 1
print('start init....')
def parse(self, response):
sel=scrapy.Selector(response)
print('hello,world!')
print(response)
print(sel)
list=sel.xpath('//div[@class="txt-box"]/h4')
items=[]
for single in list:
data=WeixinItem()
title=single.xpath('a/text()').extract()
link=single.xpath('a/@href').extract()
data['title']=title
data['link']=link
if len(title)>0:
print(title[0].encode('utf-8'))
print(link)
  3.在items.py中添加WeixinItem類(lèi)
  4.在items.py的同級目錄下創(chuàng )建一個(gè)下載中間件downloadwebkit.py,寫(xiě)入如下代碼:
  import spynner
import pyquery
import time
import BeautifulSoup
import sys
from scrapy.http import HtmlResponse
class WebkitDownloaderTest( object ):
def process_request( self, request, spider ):
# if spider.name in settings.WEBKIT_DOWNLOADER:
# if( type(request) is not FormRequest ):
browser = spynner.Browser()
browser.create_webview()
browser.set_html_parser(pyquery.PyQuery)
browser.load(request.url, 20)
try:
browser.wait_load(10)
except:
pass
string = browser.html
string=string.encode('utf-8')
renderedBody = str(string)
return HtmlResponse( request.url, body=renderedBody )
  這段代碼是在網(wǎng)頁(yè)加載完成后調用瀏覽器內核獲取源碼
  5.在setting.py文件中配置并聲明下載使用下載中間件
  在底部添加以下代碼:
  #which spider should use WEBKIT
WEBKIT_DOWNLOADER=['weixinlist']
DOWNLOADER_MIDDLEWARES = {
'weixin.downloadwebkit.WebkitDownloaderTest': 543,
}
import os
os.environ["DISPLAY"] = ":0"
  6.運行程序:
  運行命令:
  scrapy crawl weixinlist
  運行結果:
  kevinflynndeMacBook-Pro:spiders kevinflynn$ scrapy crawl weixinlist
start init....
2015-07-28 21:13:55 [scrapy] INFO: Scrapy 1.0.1 started (bot: weixin)
2015-07-28 21:13:55 [scrapy] INFO: Optional features available: ssl, http11
2015-07-28 21:13:55 [scrapy] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'weixin.spiders', 'SPIDER_MODULES': ['weixin.spiders'], 'BOT_NAME': 'weixin'}
2015-07-28 21:13:55 [py.warnings] WARNING: :0: UserWarning: You do not have a working installation of the service_identity module: 'No module named service_identity'. Please install it from and make sure all of its dependencies are satisfied. Without the service_identity module and a recent enough pyOpenSSL to support it, Twisted can perform only rudimentary TLS client hostname verification. Many valid certificate/hostname mappings may be rejected.
2015-07-28 21:13:55 [scrapy] INFO: Enabled extensions: CloseSpider, TelnetConsole, LogStats, CoreStats, SpiderState
2015-07-28 21:13:55 [scrapy] INFO: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, WebkitDownloaderTest, DefaultHeadersMiddleware, MetaRefreshMiddleware, HttpCompressionMiddleware, RedirectMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats
2015-07-28 21:13:55 [scrapy] INFO: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware
2015-07-28 21:13:55 [scrapy] INFO: Enabled item pipelines:
2015-07-28 21:13:55 [scrapy] INFO: Spider opened
2015-07-28 21:13:55 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2015-07-28 21:13:55 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023
QFont::setPixelSize: Pixel size
互聯(lián)網(wǎng)協(xié)議入門(mén)
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=210032701&idx=1&sn=6b1fc2bc5d4eb0f87513751e4ccf610c&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
自己動(dòng)手寫(xiě)貝葉斯分類(lèi)器給圖書(shū)分類(lèi)
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=210013947&idx=1&sn=1f36ba5794e22d0fb94a9900230e74ca&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
不當免費技術(shù)支持的10種方法
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=209998175&idx=1&sn=216106034a3b4afea6e67f813ce1971f&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
以 Python 為實(shí)例,介紹貝葉斯理論
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=209998175&idx=2&sn=2f3dee873d7350dfe9546ab4a9323c05&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
我從騰訊那“偷了”3000萬(wàn)QQ用戶(hù)數據,出了份很有趣的...
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=209980651&idx=1&sn=11fd40a2dee5132b0de8d4c79a97dac2&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
如何用 Spark 快速開(kāi)發(fā)應用?
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=209820653&idx=2&sn=23712b78d82fb412e960c6aa1e361dd3&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
一起來(lái)寫(xiě)個(gè)簡(jiǎn)單的解釋器(1)
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=209797651&idx=1&sn=15073e27080e6b637c8d24b6bb815417&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
那個(gè)直接在機器碼中改 Bug 的家伙
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=209762756&idx=1&sn=04ae1bc3a366d358f474ac3e9a85fb60&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
把一個(gè)庫開(kāi)源,你該做些什么
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=209762756&idx=2&sn=0ac961ffd82ead6078a60f25fed3c2c4&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
程序員的困境
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=209696436&idx=1&sn=8cb55b03c8b95586ba4498c64fa54513&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
2015-07-28 21:14:08 [scrapy] INFO: Closing spider (finished)
2015-07-28 21:14:08 [scrapy] INFO: Dumping Scrapy stats:
{'downloader/response_bytes': 131181,
'downloader/response_count': 1,
'downloader/response_status_count/200': 1,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2015, 7, 28, 13, 14, 8, 958071),
'log_count/DEBUG': 2,
'log_count/INFO': 7,
'log_count/WARNING': 1,
'response_received_count': 1,
'scheduler/dequeued': 1,
'scheduler/dequeued/memory': 1,
'scheduler/enqueued': 1,
'scheduler/enqueued/memory': 1,
'start_time': datetime.datetime(2015, 7, 28, 13, 13, 55, 688111)}
2015-07-28 21:14:08 [scrapy] INFO: Spider closed (finished)
QThread: Destroyed while thread is still running
kevinflynndeMacBook-Pro:spiders kevinflynn$

文章采集調用(本文對使用到的技術(shù)僅做簡(jiǎn)單的介紹(組圖) )

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 144 次瀏覽 ? 2021-11-24 23:25 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(本文對使用到的技術(shù)僅做簡(jiǎn)單的介紹(組圖)
)
  本文僅簡(jiǎn)單介紹所使用的技術(shù)。如果想了解更多,請到相應官網(wǎng)網(wǎng)站學(xué)習。
  本文適合對爬蟲(chóng)相關(guān)知識接觸較少的新手,主要是普及Selenium是如何做爬蟲(chóng)的,請跳過(guò)。
  ?
  很多人學(xué)習python,掌握了基本語(yǔ)法后,不知道從哪里找案例上手。
  許多做過(guò)案例研究的人不知道如何學(xué)習更高級的知識。
  所以對于這三類(lèi)人,我會(huì )為大家提供一個(gè)很好的學(xué)習平臺,免費領(lǐng)取視頻教程、電子書(shū)、課程源碼!
  QQ群:701698587
  1.硒簡(jiǎn)介
  1.簡(jiǎn)介
  Selenium 是一個(gè)用于測試網(wǎng)站的自動(dòng)化測試工具,支持各種主流界面瀏覽器。
  總之,Selenium是一個(gè)網(wǎng)站自動(dòng)化測試的庫,它的定位是做自動(dòng)化測試。我們也可以將其作為爬蟲(chóng)來(lái)獲取一些網(wǎng)頁(yè)信息,這個(gè)爬蟲(chóng)模擬了真實(shí)瀏覽器的操作,更加實(shí)用。
  Selenium 是市場(chǎng)上唯一可以與付費產(chǎn)品競爭的自動(dòng)化測試工具。
  如果想了解更多可以到Selenium中文網(wǎng)學(xué)習:戳我去Selenium中文網(wǎng)
  2.安裝
  要使用Selenium,首先必須在python中安裝相關(guān)的庫:
  pip install Selenium
  安裝對應瀏覽器的webdricer驅動(dòng)文件,這里有chrome的鏈接,其他瀏覽器可以網(wǎng)上搜索。戳我下載chrome webdriver驅動(dòng)文件。選擇合適的版本,我選擇了2.23。
  下載解壓后得到exe文件,將此文件復制到chrom安裝文件夾中:
  通常它是 C:\Program Files (x86)\Google\Chrome\Application, 或 C:\Program Files\Google\Chrome\Application.
  然后配置環(huán)境變量的路徑:
  
  最后寫(xiě)一段代碼進(jìn)行測試:
  from selenium import webdriverdriver=webdriver.Chrome(executable_path="C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe")
  如果看到打開(kāi)了一個(gè)瀏覽器窗口就成功了,否則下面會(huì )出現相應的錯誤提示,需要查看前面的步驟。
  3. 簡(jiǎn)單介紹
  1. 元素定位方法:
  
  基本上前幾種方式就可以拿到需要的元素了,需要判斷結果是否唯一來(lái)選擇對應的選擇器。
  通過(guò)驅動(dòng)對象調用此方法會(huì )返回一個(gè)標簽對象或標簽對象列表。標簽下的文本可以通過(guò).text獲取,標簽的其他屬性值可以通過(guò)get_attribute()獲取。
  分享一個(gè)快速定位元素的小妙招:查看所需信息所在標簽的id、class、name是否與標簽下信息的語(yǔ)義相關(guān)。一般來(lái)說(shuō),相關(guān)的都是唯一的。(從開(kāi)發(fā)者的角度考慮)如果當前標簽不能唯一定位,考慮父標簽。以此類(lèi)推,你總能找到一種定位方法。
  2.鼠標事件(模擬鼠標操作)
  
  可以通過(guò)標簽對象調用。
  3.鍵盤(pán)事件(模擬鍵盤(pán)操作)
  
  4.其他操作
  其他操作包括控制瀏覽器的操作、獲取斷言信息、表單切換、多窗口切換、警告框處理、下拉框處理、文件上傳操作、cookie操作、調用js代碼、截圖、關(guān)閉瀏覽器等操作,因為這里我用的不多,就不一一列舉了,自己去官網(wǎng)學(xué)習吧。
  2.爬取目標
  本次實(shí)戰爬蟲(chóng)主要完成以下目標:
  在QQ音樂(lè )官網(wǎng)爬取指定歌手的前5首歌曲基本信息和前500名流行評論。
  
  
  
  1.獲取前五首歌曲的url
  分析這個(gè)頁(yè)面的代碼,我們知道包裹所有歌曲信息的tag的class是唯一的,我們可以拿到它,然后遍歷所有的子標簽,或者一次性獲取所有包裹歌曲信息的div,并且然后獲取里面的 a 標簽。
  
  2.獲取歌曲基本信息
  可以看出,基本信息標簽中的類(lèi)名有一部分語(yǔ)義,所以可以通過(guò)css選擇器來(lái)唯一確定。
  
  3.獲取歌詞
  頁(yè)面上的歌詞不完整,貌似需要點(diǎn)擊展開(kāi),其實(shí)所有的歌詞都已經(jīng)在標簽里了,只是顯示問(wèn)題。
   查看全部

  文章采集調用(本文對使用到的技術(shù)僅做簡(jiǎn)單的介紹(組圖)
)
  本文僅簡(jiǎn)單介紹所使用的技術(shù)。如果想了解更多,請到相應官網(wǎng)網(wǎng)站學(xué)習。
  本文適合對爬蟲(chóng)相關(guān)知識接觸較少的新手,主要是普及Selenium是如何做爬蟲(chóng)的,請跳過(guò)。
  ?
  很多人學(xué)習python,掌握了基本語(yǔ)法后,不知道從哪里找案例上手。
  許多做過(guò)案例研究的人不知道如何學(xué)習更高級的知識。
  所以對于這三類(lèi)人,我會(huì )為大家提供一個(gè)很好的學(xué)習平臺,免費領(lǐng)取視頻教程、電子書(shū)、課程源碼!
  QQ群:701698587
  1.硒簡(jiǎn)介
  1.簡(jiǎn)介
  Selenium 是一個(gè)用于測試網(wǎng)站的自動(dòng)化測試工具,支持各種主流界面瀏覽器。
  總之,Selenium是一個(gè)網(wǎng)站自動(dòng)化測試的庫,它的定位是做自動(dòng)化測試。我們也可以將其作為爬蟲(chóng)來(lái)獲取一些網(wǎng)頁(yè)信息,這個(gè)爬蟲(chóng)模擬了真實(shí)瀏覽器的操作,更加實(shí)用。
  Selenium 是市場(chǎng)上唯一可以與付費產(chǎn)品競爭的自動(dòng)化測試工具。
  如果想了解更多可以到Selenium中文網(wǎng)學(xué)習:戳我去Selenium中文網(wǎng)
  2.安裝
  要使用Selenium,首先必須在python中安裝相關(guān)的庫:
  pip install Selenium
  安裝對應瀏覽器的webdricer驅動(dòng)文件,這里有chrome的鏈接,其他瀏覽器可以網(wǎng)上搜索。戳我下載chrome webdriver驅動(dòng)文件。選擇合適的版本,我選擇了2.23。
  下載解壓后得到exe文件,將此文件復制到chrom安裝文件夾中:
  通常它是 C:\Program Files (x86)\Google\Chrome\Application, 或 C:\Program Files\Google\Chrome\Application.
  然后配置環(huán)境變量的路徑:
  
  最后寫(xiě)一段代碼進(jìn)行測試:
  from selenium import webdriverdriver=webdriver.Chrome(executable_path="C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe")
  如果看到打開(kāi)了一個(gè)瀏覽器窗口就成功了,否則下面會(huì )出現相應的錯誤提示,需要查看前面的步驟。
  3. 簡(jiǎn)單介紹
  1. 元素定位方法:
  
  基本上前幾種方式就可以拿到需要的元素了,需要判斷結果是否唯一來(lái)選擇對應的選擇器。
  通過(guò)驅動(dòng)對象調用此方法會(huì )返回一個(gè)標簽對象或標簽對象列表。標簽下的文本可以通過(guò).text獲取,標簽的其他屬性值可以通過(guò)get_attribute()獲取。
  分享一個(gè)快速定位元素的小妙招:查看所需信息所在標簽的id、class、name是否與標簽下信息的語(yǔ)義相關(guān)。一般來(lái)說(shuō),相關(guān)的都是唯一的。(從開(kāi)發(fā)者的角度考慮)如果當前標簽不能唯一定位,考慮父標簽。以此類(lèi)推,你總能找到一種定位方法。
  2.鼠標事件(模擬鼠標操作)
  
  可以通過(guò)標簽對象調用。
  3.鍵盤(pán)事件(模擬鍵盤(pán)操作)
  
  4.其他操作
  其他操作包括控制瀏覽器的操作、獲取斷言信息、表單切換、多窗口切換、警告框處理、下拉框處理、文件上傳操作、cookie操作、調用js代碼、截圖、關(guān)閉瀏覽器等操作,因為這里我用的不多,就不一一列舉了,自己去官網(wǎng)學(xué)習吧。
  2.爬取目標
  本次實(shí)戰爬蟲(chóng)主要完成以下目標:
  在QQ音樂(lè )官網(wǎng)爬取指定歌手的前5首歌曲基本信息和前500名流行評論。
  
  
  
  1.獲取前五首歌曲的url
  分析這個(gè)頁(yè)面的代碼,我們知道包裹所有歌曲信息的tag的class是唯一的,我們可以拿到它,然后遍歷所有的子標簽,或者一次性獲取所有包裹歌曲信息的div,并且然后獲取里面的 a 標簽。
  
  2.獲取歌曲基本信息
  可以看出,基本信息標簽中的類(lèi)名有一部分語(yǔ)義,所以可以通過(guò)css選擇器來(lái)唯一確定。
  
  3.獲取歌詞
  頁(yè)面上的歌詞不完整,貌似需要點(diǎn)擊展開(kāi),其實(shí)所有的歌詞都已經(jīng)在標簽里了,只是顯示問(wèn)題。
  

文章采集調用(中文自適應推薦系統最終靠什么技術(shù)實(shí)現從實(shí)時(shí)分析到離線(xiàn)實(shí)時(shí)推薦)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 140 次瀏覽 ? 2021-11-24 12:01 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(中文自適應推薦系統最終靠什么技術(shù)實(shí)現從實(shí)時(shí)分析到離線(xiàn)實(shí)時(shí)推薦)
  文章采集調用了爬蟲(chóng)服務(wù)器爬取信息,返回json數據以支持后面自動(dòng)化推薦,爬蟲(chóng)服務(wù)器可自動(dòng)獲取文章pdf的內容,如鏈接,評論,新增收藏,刪除收藏,位置,描述,評分,星級評價(jià),評論等等,更重要的是可以向爬蟲(chóng)服務(wù)器導出點(diǎn)擊數據和爬蟲(chóng)過(guò)程顯示數據。
  我們是做推薦系統的,和小鳥(niǎo)推薦系統比,neilinks絕對算是最先進(jìn)的,我們開(kāi)始的時(shí)候是想做中文世界的自動(dòng)化推薦,后來(lái)架構考慮后,干脆直接把數據進(jìn)行一定量的匯聚,編碼成數據庫里面的形式,用sql實(shí)現。國內真正有這個(gè)需求的企業(yè)不多,不過(guò)國內的小平臺起來(lái)的有好幾家,小鳥(niǎo)推薦也算是比較成熟的一個(gè)產(chǎn)品。
  小鳥(niǎo)實(shí)時(shí)推薦系統是基于實(shí)時(shí)大數據的消息推薦。中文自適應推薦系統的模式,我們團隊已經(jīng)提出了很多年了,實(shí)際上確有一些難度,由于目前中文在大數據的分析理解上還存在不少技術(shù)挑戰。希望以下這些討論,對大家有所幫助。中文自適應推薦系統最終靠什么技術(shù)實(shí)現從實(shí)時(shí)分析到離線(xiàn)實(shí)時(shí)推薦從大數據到實(shí)時(shí)數據推薦用戶(hù)行為大數據推薦平臺使用什么類(lèi)型的數據對于信息推薦和推薦系統,本文主要討論基于用戶(hù)行為大數據的推薦技術(shù)。
  這里先聊聊中文市場(chǎng)有關(guān)推薦系統的部分。我們將推薦系統描述為:對已被使用過(guò)的信息與未被使用過(guò)的信息進(jìn)行有針對性地推薦。根據公眾對目標內容的偏好,用戶(hù)產(chǎn)生的對目標內容的搜索可用于推薦,直接提供給用戶(hù)。1.中文市場(chǎng)的推薦系統已經(jīng)存在多年,但依然非常不理想推薦系統的推薦已經(jīng)持續了漫長(cháng)的時(shí)間,當我們考慮推薦時(shí),技術(shù)選型要關(guān)注信息的來(lái)源,由于中文市場(chǎng)存在太多的沒(méi)有被使用過(guò)的信息。
  依賴(lài)于這些來(lái)源的推薦系統有以下缺點(diǎn):缺乏技術(shù)門(mén)檻,缺乏工程實(shí)現,上手非常難。缺乏人才保障,人才和工具缺乏。上述的推薦問(wèn)題會(huì )影響很多人加入推薦系統領(lǐng)域,形成惡性循環(huán)。2.推薦系統存在的痛點(diǎn)對于每一個(gè)信息都能推薦,這可能嗎?對于最終用戶(hù)的需求,是不是存在的推薦呢?用戶(hù)并不知道哪些信息是最終的用戶(hù)需求,但是信息至少用于推薦。
  根據用戶(hù)的搜索記錄進(jìn)行推薦可以嗎?只需要幾秒鐘就能做一個(gè)最終用戶(hù)頁(yè)面的推薦。即使能做,其推薦也是靠計算機實(shí)現的,并且推薦效率很低。使用人工審核進(jìn)行推薦有困難嗎?有技術(shù)實(shí)現難度,人工審核靠人工,效率低的問(wèn)題。即使人工審核,也有審核人員的個(gè)人偏好問(wèn)題。目前專(zhuān)業(yè)的人員個(gè)人偏好也不理想。但是,所有能夠提供推薦的信息確實(shí)都被已經(jīng)使用過(guò)了,沒(méi)有被使用過(guò)的信息,用戶(hù)是不愿意去觸碰,也不感興趣的。為什么使用新聞、訂閱、社交網(wǎng)絡(luò )等推薦系統?新聞這些信息的推。 查看全部

  文章采集調用(中文自適應推薦系統最終靠什么技術(shù)實(shí)現從實(shí)時(shí)分析到離線(xiàn)實(shí)時(shí)推薦)
  文章采集調用了爬蟲(chóng)服務(wù)器爬取信息,返回json數據以支持后面自動(dòng)化推薦,爬蟲(chóng)服務(wù)器可自動(dòng)獲取文章pdf的內容,如鏈接,評論,新增收藏,刪除收藏,位置,描述,評分,星級評價(jià),評論等等,更重要的是可以向爬蟲(chóng)服務(wù)器導出點(diǎn)擊數據和爬蟲(chóng)過(guò)程顯示數據。
  我們是做推薦系統的,和小鳥(niǎo)推薦系統比,neilinks絕對算是最先進(jìn)的,我們開(kāi)始的時(shí)候是想做中文世界的自動(dòng)化推薦,后來(lái)架構考慮后,干脆直接把數據進(jìn)行一定量的匯聚,編碼成數據庫里面的形式,用sql實(shí)現。國內真正有這個(gè)需求的企業(yè)不多,不過(guò)國內的小平臺起來(lái)的有好幾家,小鳥(niǎo)推薦也算是比較成熟的一個(gè)產(chǎn)品。
  小鳥(niǎo)實(shí)時(shí)推薦系統是基于實(shí)時(shí)大數據的消息推薦。中文自適應推薦系統的模式,我們團隊已經(jīng)提出了很多年了,實(shí)際上確有一些難度,由于目前中文在大數據的分析理解上還存在不少技術(shù)挑戰。希望以下這些討論,對大家有所幫助。中文自適應推薦系統最終靠什么技術(shù)實(shí)現從實(shí)時(shí)分析到離線(xiàn)實(shí)時(shí)推薦從大數據到實(shí)時(shí)數據推薦用戶(hù)行為大數據推薦平臺使用什么類(lèi)型的數據對于信息推薦和推薦系統,本文主要討論基于用戶(hù)行為大數據的推薦技術(shù)。
  這里先聊聊中文市場(chǎng)有關(guān)推薦系統的部分。我們將推薦系統描述為:對已被使用過(guò)的信息與未被使用過(guò)的信息進(jìn)行有針對性地推薦。根據公眾對目標內容的偏好,用戶(hù)產(chǎn)生的對目標內容的搜索可用于推薦,直接提供給用戶(hù)。1.中文市場(chǎng)的推薦系統已經(jīng)存在多年,但依然非常不理想推薦系統的推薦已經(jīng)持續了漫長(cháng)的時(shí)間,當我們考慮推薦時(shí),技術(shù)選型要關(guān)注信息的來(lái)源,由于中文市場(chǎng)存在太多的沒(méi)有被使用過(guò)的信息。
  依賴(lài)于這些來(lái)源的推薦系統有以下缺點(diǎn):缺乏技術(shù)門(mén)檻,缺乏工程實(shí)現,上手非常難。缺乏人才保障,人才和工具缺乏。上述的推薦問(wèn)題會(huì )影響很多人加入推薦系統領(lǐng)域,形成惡性循環(huán)。2.推薦系統存在的痛點(diǎn)對于每一個(gè)信息都能推薦,這可能嗎?對于最終用戶(hù)的需求,是不是存在的推薦呢?用戶(hù)并不知道哪些信息是最終的用戶(hù)需求,但是信息至少用于推薦。
  根據用戶(hù)的搜索記錄進(jìn)行推薦可以嗎?只需要幾秒鐘就能做一個(gè)最終用戶(hù)頁(yè)面的推薦。即使能做,其推薦也是靠計算機實(shí)現的,并且推薦效率很低。使用人工審核進(jìn)行推薦有困難嗎?有技術(shù)實(shí)現難度,人工審核靠人工,效率低的問(wèn)題。即使人工審核,也有審核人員的個(gè)人偏好問(wèn)題。目前專(zhuān)業(yè)的人員個(gè)人偏好也不理想。但是,所有能夠提供推薦的信息確實(shí)都被已經(jīng)使用過(guò)了,沒(méi)有被使用過(guò)的信息,用戶(hù)是不愿意去觸碰,也不感興趣的。為什么使用新聞、訂閱、社交網(wǎng)絡(luò )等推薦系統?新聞這些信息的推。

文章采集調用( DedeCMS跳轉鏈接實(shí)際指向是哪里呢?秀站網(wǎng)秀)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 157 次瀏覽 ? 2021-11-23 18:07 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(
DedeCMS跳轉鏈接實(shí)際指向是哪里呢?秀站網(wǎng)秀)
  
  在Dedecms中,文章模型經(jīng)常使用jump[j]屬性,但是前臺顯示的鏈接是動(dòng)態(tài)的URL地址,搜索引擎會(huì )跟著(zhù)爬,而是跳轉發(fā)送。這個(gè)鏈接實(shí)際上指向哪里?王秀展 王秀展做了一個(gè)實(shí)驗。這個(gè)鏈接返回的HTTP狀態(tài)碼是302,是臨時(shí)跳轉。這個(gè)跳轉鏈接其實(shí)很不友好。對于站點(diǎn),頁(yè)面上有多個(gè)指向實(shí)際 URL 的 URL;如果是站外鏈接,很容易分散權重。
  調用文章的一般方法如下,不修改源文件。
  {dede:arclist addfields='redirecturl' channelid='1'}
][field:title/]
{/dede:arclist}
  這里的鏈接修改為站內和站外直接調用Jump[j]引用的URL,站外調用nofollow。
  需要用到的是通用的[field:array]標簽,可以用在任何Dedecms默認標簽中,特別適合多條件判斷。
  {dede:arclist addfields='redirecturl' channelid='1'}
[field:array runphp='yes']
if(@me['redirecturl'] !=''){
@me = ' . ']' . @me['title'] . '';
}else{
@me = ' . ']' . @me['title'] . '';
};
[/field:array]
{/dede:arclist}
  dedecms的{dede:list}標簽不能直接調用redirecturl字段,需要修改源程序
  打開(kāi)/include/arc.listview.class.php,找到(復制時(shí)請刪除分隔符)
  //如果不用默認的sortrank或id排序,使用聯(lián)合查詢(xún)(數據量大時(shí)非常緩慢)
if(preg_match('/hot|click|lastpost/', $orderby))
{
$query = "SELECT arc.*,tp.typedir,tp.typename,tp.isdefault,tp.defaultname,
tp.namerule,tp.namerule2,tp.ispart,tp.moresite,tp.siteurl,tp.sitepath
$addField
FROM `#分隔符@__archives` arc
LEFT JOIN `#分隔符@__arctype` tp ON arc.typeid=tp.id
$addJoin
WHERE {$this->addSql} $ordersql LIMIT $limitstart,$row";
}
  在這段代碼之前,添加
  $addField .= ','.$addtable.'.redirecturl';
  調用方法
  {dede:list row='1' addfields='redirecturl' orderby='pubdate'}
][field:title/]
{/dede:list}
  也可以增加該字段的判斷,調用跳轉地址,不再贅述。 查看全部

  文章采集調用(
DedeCMS跳轉鏈接實(shí)際指向是哪里呢?秀站網(wǎng)秀)
  
  在Dedecms中,文章模型經(jīng)常使用jump[j]屬性,但是前臺顯示的鏈接是動(dòng)態(tài)的URL地址,搜索引擎會(huì )跟著(zhù)爬,而是跳轉發(fā)送。這個(gè)鏈接實(shí)際上指向哪里?王秀展 王秀展做了一個(gè)實(shí)驗。這個(gè)鏈接返回的HTTP狀態(tài)碼是302,是臨時(shí)跳轉。這個(gè)跳轉鏈接其實(shí)很不友好。對于站點(diǎn),頁(yè)面上有多個(gè)指向實(shí)際 URL 的 URL;如果是站外鏈接,很容易分散權重。
  調用文章的一般方法如下,不修改源文件。
  {dede:arclist addfields='redirecturl' channelid='1'}
][field:title/]
{/dede:arclist}
  這里的鏈接修改為站內和站外直接調用Jump[j]引用的URL,站外調用nofollow。
  需要用到的是通用的[field:array]標簽,可以用在任何Dedecms默認標簽中,特別適合多條件判斷。
  {dede:arclist addfields='redirecturl' channelid='1'}
[field:array runphp='yes']
if(@me['redirecturl'] !=''){
@me = ' . ']' . @me['title'] . '';
}else{
@me = ' . ']' . @me['title'] . '';
};
[/field:array]
{/dede:arclist}
  dedecms的{dede:list}標簽不能直接調用redirecturl字段,需要修改源程序
  打開(kāi)/include/arc.listview.class.php,找到(復制時(shí)請刪除分隔符)
  //如果不用默認的sortrank或id排序,使用聯(lián)合查詢(xún)(數據量大時(shí)非常緩慢)
if(preg_match('/hot|click|lastpost/', $orderby))
{
$query = "SELECT arc.*,tp.typedir,tp.typename,tp.isdefault,tp.defaultname,
tp.namerule,tp.namerule2,tp.ispart,tp.moresite,tp.siteurl,tp.sitepath
$addField
FROM `#分隔符@__archives` arc
LEFT JOIN `#分隔符@__arctype` tp ON arc.typeid=tp.id
$addJoin
WHERE {$this->addSql} $ordersql LIMIT $limitstart,$row";
}
  在這段代碼之前,添加
  $addField .= ','.$addtable.'.redirecturl';
  調用方法
  {dede:list row='1' addfields='redirecturl' orderby='pubdate'}
][field:title/]
{/dede:list}
  也可以增加該字段的判斷,調用跳轉地址,不再贅述。

文章采集調用(java項目中如何實(shí)現攝像頭圖像采集圖片數據采集? )

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 147 次瀏覽 ? 2021-11-22 18:09 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(java項目中如何實(shí)現攝像頭圖像采集圖片數據采集?
)
  最近的一個(gè)項目需要實(shí)現攝像頭圖像采集。經(jīng)過(guò)一系列的折騰,終于實(shí)現了這個(gè)功能?,F在我來(lái)整理一下。
  就java技術(shù)而言,實(shí)現攝像頭二次開(kāi)發(fā),采集攝像頭圖片需要使用JMF。JMF 適合在 j2se 程序中使用。我需要在網(wǎng)絡(luò )程序中調用相機。顯然JMF是做不到的?,F在,我想寫(xiě)一個(gè)小程序程序,但是那件事需要客戶(hù)端有一個(gè)jre環(huán)境。這不適合我。你不能指望用戶(hù)在訪(fǎng)問(wèn)你的 網(wǎng)站 時(shí)下載一個(gè)大的 Jre 會(huì )安裝并稍后再次訪(fǎng)問(wèn),對吧?
  既然JMF不適用,那么我們在java項目中如何控制camera capture呢?在windows平臺本身,我們可以使用顯卡等二次開(kāi)發(fā)包來(lái)實(shí)現視頻數據的訪(fǎng)問(wèn),但是現在攝像頭都是usb,連筆記本屏幕都有攝像頭了。在這種情況下,使用采集卡的二次開(kāi)發(fā)包的方案是不適用的。您只能編寫(xiě)自己的程序來(lái)制作類(lèi)似于“相機相機軟件”的東西。經(jīng)過(guò)一系列的分析,終于實(shí)現了。web程序調用攝像頭,可以通過(guò)js代碼控制攝像頭,通過(guò)ajax技術(shù)上傳數據。雖然我沒(méi)有在程序中測試過(guò),但是應該支持.net技術(shù),也可以在采集camera data項目中實(shí)現,例如,
  羅嗦了很多,程序放在csdn的下載資源上面,以后想做攝像頭二次開(kāi)發(fā)的時(shí)候不用四處看看,直接下載使用就可以了.
  攝像頭程序下載地址
  壓縮包中收錄一個(gè)基于web的相機拍照采集示例程序,其中收錄一個(gè)基于jquery框架的ajax數據操作程序示例。攝像頭的調用方法詳見(jiàn)示例代碼。我相信任何對技術(shù)稍有了解的人都應該能夠閱讀它。明白了,有一個(gè)完整的基于java的photo 采集示例程序,使用jsp頁(yè)面采集 photo,serlvet程序接收相機照片數據。
  以下是程序運行效果示例:
   查看全部

  文章采集調用(java項目中如何實(shí)現攝像頭圖像采集圖片數據采集?
)
  最近的一個(gè)項目需要實(shí)現攝像頭圖像采集。經(jīng)過(guò)一系列的折騰,終于實(shí)現了這個(gè)功能?,F在我來(lái)整理一下。
  就java技術(shù)而言,實(shí)現攝像頭二次開(kāi)發(fā),采集攝像頭圖片需要使用JMF。JMF 適合在 j2se 程序中使用。我需要在網(wǎng)絡(luò )程序中調用相機。顯然JMF是做不到的?,F在,我想寫(xiě)一個(gè)小程序程序,但是那件事需要客戶(hù)端有一個(gè)jre環(huán)境。這不適合我。你不能指望用戶(hù)在訪(fǎng)問(wèn)你的 網(wǎng)站 時(shí)下載一個(gè)大的 Jre 會(huì )安裝并稍后再次訪(fǎng)問(wèn),對吧?
  既然JMF不適用,那么我們在java項目中如何控制camera capture呢?在windows平臺本身,我們可以使用顯卡等二次開(kāi)發(fā)包來(lái)實(shí)現視頻數據的訪(fǎng)問(wèn),但是現在攝像頭都是usb,連筆記本屏幕都有攝像頭了。在這種情況下,使用采集卡的二次開(kāi)發(fā)包的方案是不適用的。您只能編寫(xiě)自己的程序來(lái)制作類(lèi)似于“相機相機軟件”的東西。經(jīng)過(guò)一系列的分析,終于實(shí)現了。web程序調用攝像頭,可以通過(guò)js代碼控制攝像頭,通過(guò)ajax技術(shù)上傳數據。雖然我沒(méi)有在程序中測試過(guò),但是應該支持.net技術(shù),也可以在采集camera data項目中實(shí)現,例如,
  羅嗦了很多,程序放在csdn的下載資源上面,以后想做攝像頭二次開(kāi)發(fā)的時(shí)候不用四處看看,直接下載使用就可以了.
  攝像頭程序下載地址
  壓縮包中收錄一個(gè)基于web的相機拍照采集示例程序,其中收錄一個(gè)基于jquery框架的ajax數據操作程序示例。攝像頭的調用方法詳見(jiàn)示例代碼。我相信任何對技術(shù)稍有了解的人都應該能夠閱讀它。明白了,有一個(gè)完整的基于java的photo 采集示例程序,使用jsp頁(yè)面采集 photo,serlvet程序接收相機照片數據。
  以下是程序運行效果示例:
  

文章采集調用(第二個(gè)降低寫(xiě)作啟動(dòng)成本的大招:建立寫(xiě)作素材庫有了)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 164 次瀏覽 ? 2021-11-22 01:14 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(第二個(gè)降低寫(xiě)作啟動(dòng)成本的大招:建立寫(xiě)作素材庫有了)
  以后只要掌握了兩個(gè)能力,自己不創(chuàng )業(yè)也能活的很好。
  第一個(gè)是寫(xiě) 第二個(gè)是說(shuō)
  只要掌握了這些能力中的任何一項,就可以立于不敗之地。
  和我一樣,我更喜歡寫(xiě)作!
  每天寫(xiě)一篇文章來(lái)創(chuàng )建自己的個(gè)人品牌。寫(xiě)文章其實(shí)沒(méi)有想象的那么難。關(guān)鍵是要降低寫(xiě)入的啟動(dòng)成本。
  簡(jiǎn)單來(lái)說(shuō),你什么都不用想,直接開(kāi)始寫(xiě)作。這個(gè)我在之前的文章中已經(jīng)詳細介紹過(guò)了。
  今天分享第二大降低寫(xiě)作啟動(dòng)成本的方法:搭建寫(xiě)作素材庫
  有了這個(gè)寫(xiě)作素材庫,再也不用為文章的寫(xiě)作發(fā)愁了。
  一、什么是文具庫
  寫(xiě)作素材庫是一個(gè)靈感參考庫,可以讓你降低思考成本。
  例如,廚師就像烹飪一樣需要各種配料和調味品。沒(méi)有這些,廚師就無(wú)法烹飪出美味的菜肴。
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  各種難懂的食材和調味品,都是廚師的素材庫。有了這些,依靠我多年積累的經(jīng)驗,我可以輕松地立即烹飪出各種美味佳肴。
  編寫(xiě) 文章 也是如此。
  而且我在寫(xiě)作過(guò)程中也需要經(jīng)常使用素材庫(我的第二大腦)
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  不同的分類(lèi)下有不同的內容素材,方便我每次調用。
  比如今天我要寫(xiě)一篇關(guān)于時(shí)間管理的文章文章。直接在軟件里面搜索時(shí)間管理,1秒參考資料很多。
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  這些都是我平時(shí)看的很好的文章,采集了。寫(xiě)文章時(shí)可以快速參考。
  二、為什么要建寫(xiě)作材料庫
  在我的任務(wù)中擁有一個(gè)寫(xiě)作材料庫的最大好處是我可以隨時(shí)用一些經(jīng)典的思維來(lái)證明我的一些觀(guān)點(diǎn)。
  例如:
  比如我想寫(xiě)一篇關(guān)于競爭力的文章。我提出的核心理念是專(zhuān)注做事,建立自己的影響圈。我說(shuō)的話(huà)可能不會(huì )立刻引起大家的共鳴,所以我必須借用一些名人。祝福我的想法。
  我使用了寫(xiě)作材料庫中“Working with a System”的作者 Sam Carpenter 來(lái)祝福我的想法。
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  如果你沒(méi)有素材庫,即使你記憶力很好,你也不會(huì )長(cháng)時(shí)間記住它。
  在我的寫(xiě)作素材庫中,專(zhuān)門(mén)設置了一個(gè)分類(lèi),用來(lái)保存閱讀時(shí)的一些經(jīng)典句子。
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  這是3本不合理的書(shū)
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  在這里很容易找到一些經(jīng)典的參考句子。
  寫(xiě)作素材庫最大的好處就是可以隨時(shí)調用,無(wú)論身在何處,只要輸入相關(guān)關(guān)鍵詞,就可以立即找到我想要的素材,給寫(xiě)作帶來(lái)了極大的便利< @文章。
  三、如何搭建寫(xiě)作素材庫
  寫(xiě)作素材庫的建立其實(shí)很簡(jiǎn)單,分為三個(gè)步驟:
  第 1 步:采集材料
  在采集資料方面,其實(shí)有兩種采集方式:
  1、碎片采集
  我們每天看大量的公眾號文章、知乎文章或網(wǎng)站文章,感覺(jué)好的文章可以被采集。
  這是通過(guò)碎片時(shí)間采集的,文章 永遠不會(huì )太多。
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  Fragments 文章,我把它們都放在我的收件箱里。
  好像很清楚,我采集了多少文章,有空就讀。
  2、固定主題合集
  有時(shí),我們可能會(huì )做一些項目,我們需要一個(gè)明確的方向來(lái)采集知識。
  例如:
  我媳婦現在主要賣(mài)玫瑰,所以她每天都需要出口玫瑰文章,打造個(gè)人品牌,創(chuàng )造價(jià)值,增加銷(xiāo)量。
  我的做法是通過(guò)百度知乎、知乎、公眾號直接采集玫瑰素材
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  通過(guò)搜索,馬上有數百條寫(xiě)作方向和材料,百度知道。
  使用文章搜索微信公眾號,上千條素材
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  看,有6000多篇文案,自己寫(xiě)就夠了。
  問(wèn)答平臺知乎、公眾號文章,這三個(gè)地方足以讓你采集上萬(wàn)條固定主題的寫(xiě)作素材。
  第 2 步:保存材料
  采集的最終目的是為了方便調用,所以嘗試了很多工具,最后決定使用印象筆記作為載體工具。原因很明顯:
  1、全平臺支持2、強大的搜索功能
  全平臺的優(yōu)勢在于,無(wú)論是手機還是電腦,都可以輕松采集保存。
  尤其是有時(shí)候出去看到一些有啟發(fā)性的東西,就直接打開(kāi)印象筆記拍張照片,然后把這個(gè)時(shí)候的靈感寫(xiě)下來(lái)。
  這是之后的想法。
  但是,要保持一個(gè)好的材料庫,就必須建立一個(gè)完整的分類(lèi)體系。
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  以上是我自己的分類(lèi)系統,主要由收件箱、主題知識庫、存檔知識庫組成
  收件箱:用于臨時(shí)存放剛剛采集到的分片信息。你可能沒(méi)有仔細閱讀它,但感覺(jué)這是一個(gè)很好的材料。先存起來(lái),有時(shí)間再讀。
  知識主題庫:我把它分為工作、學(xué)習、生活、興趣四大類(lèi),基本涵蓋了方方面面。有了對應的分類(lèi),我以后只需要按照知識的類(lèi)型來(lái)分類(lèi)就可以了。
  例如
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  對于這一類(lèi)閱讀,我專(zhuān)門(mén)存儲電子書(shū)和經(jīng)典句子的摘錄。
  在例如
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  平時(shí)看到一些好的文案,我會(huì )放到存檔類(lèi)
  合理的分類(lèi)可以讓我快速找到相關(guān)的素材位置。
  分類(lèi)很重要。
  只要仔細觀(guān)察,一些大的網(wǎng)站都有非常詳細的分類(lèi)導航。
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  這是京東的網(wǎng)站品類(lèi),人們一看就知道應該點(diǎn)擊商品,才能找到自己想要的商品。
  第 3 步:檢索材料
  材料的采集是為了最后的快速調用,所以以前的分類(lèi)工作體現了價(jià)值。
  通過(guò)印象筆記有兩種調用方式
  第一種:使用搜索功能
  Evernote 使用了強大的搜索功能。只要學(xué)會(huì )了搜索命令,不管怎么找都可以快速調出素材。
  Plus+:多個(gè)關(guān)鍵詞 搜索
  減號-:不收錄某個(gè)關(guān)鍵詞
  雙引號"":精確搜索
  notebook:在 notebook 內搜索
  Intitle:標題搜索
  例如:
  intitle:seo 該命令用于搜索標題中收錄seo的信息
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  標題是否收錄seo的信息知識。
  雙引號“促銷(xiāo)”來(lái)促進(jìn)關(guān)鍵詞搜索
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  結果是title收錄promotion關(guān)鍵詞,content收錄promotion關(guān)鍵詞信息,可以搜索到,調用起來(lái)很方便。
  第二種:按類(lèi)別搜索
  合理的分類(lèi)也可以讓你找到相關(guān)的信息,就像我的學(xué)習分類(lèi)一樣
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  根據分類(lèi)結構,我可以快速找到我想要的材料,比如時(shí)間管理。我只是點(diǎn)擊這個(gè)類(lèi)別,它是所有時(shí)間管理材料。
  請記住,創(chuàng )建材料庫是為了快速回憶,找不到它就意味著(zhù)沒(méi)有它。
  如果你想每天寫(xiě)文章來(lái)打造個(gè)人品牌,那你就需要一個(gè)屬于自己的寫(xiě)作素材庫。
  知道方法和方法并不意味著(zhù)你已經(jīng)學(xué)會(huì )了。只有自己實(shí)踐和應用,才能取得更大的進(jìn)步。
  版權歸周振興作者所有,希望能幫到你! 查看全部

  文章采集調用(第二個(gè)降低寫(xiě)作啟動(dòng)成本的大招:建立寫(xiě)作素材庫有了)
  以后只要掌握了兩個(gè)能力,自己不創(chuàng )業(yè)也能活的很好。
  第一個(gè)是寫(xiě) 第二個(gè)是說(shuō)
  只要掌握了這些能力中的任何一項,就可以立于不敗之地。
  和我一樣,我更喜歡寫(xiě)作!
  每天寫(xiě)一篇文章來(lái)創(chuàng )建自己的個(gè)人品牌。寫(xiě)文章其實(shí)沒(méi)有想象的那么難。關(guān)鍵是要降低寫(xiě)入的啟動(dòng)成本。
  簡(jiǎn)單來(lái)說(shuō),你什么都不用想,直接開(kāi)始寫(xiě)作。這個(gè)我在之前的文章中已經(jīng)詳細介紹過(guò)了。
  今天分享第二大降低寫(xiě)作啟動(dòng)成本的方法:搭建寫(xiě)作素材庫
  有了這個(gè)寫(xiě)作素材庫,再也不用為文章的寫(xiě)作發(fā)愁了。
  一、什么是文具庫
  寫(xiě)作素材庫是一個(gè)靈感參考庫,可以讓你降低思考成本。
  例如,廚師就像烹飪一樣需要各種配料和調味品。沒(méi)有這些,廚師就無(wú)法烹飪出美味的菜肴。
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  各種難懂的食材和調味品,都是廚師的素材庫。有了這些,依靠我多年積累的經(jīng)驗,我可以輕松地立即烹飪出各種美味佳肴。
  編寫(xiě) 文章 也是如此。
  而且我在寫(xiě)作過(guò)程中也需要經(jīng)常使用素材庫(我的第二大腦)
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  不同的分類(lèi)下有不同的內容素材,方便我每次調用。
  比如今天我要寫(xiě)一篇關(guān)于時(shí)間管理的文章文章。直接在軟件里面搜索時(shí)間管理,1秒參考資料很多。
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  這些都是我平時(shí)看的很好的文章,采集了。寫(xiě)文章時(shí)可以快速參考。
  二、為什么要建寫(xiě)作材料庫
  在我的任務(wù)中擁有一個(gè)寫(xiě)作材料庫的最大好處是我可以隨時(shí)用一些經(jīng)典的思維來(lái)證明我的一些觀(guān)點(diǎn)。
  例如:
  比如我想寫(xiě)一篇關(guān)于競爭力的文章。我提出的核心理念是專(zhuān)注做事,建立自己的影響圈。我說(shuō)的話(huà)可能不會(huì )立刻引起大家的共鳴,所以我必須借用一些名人。祝福我的想法。
  我使用了寫(xiě)作材料庫中“Working with a System”的作者 Sam Carpenter 來(lái)祝福我的想法。
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  如果你沒(méi)有素材庫,即使你記憶力很好,你也不會(huì )長(cháng)時(shí)間記住它。
  在我的寫(xiě)作素材庫中,專(zhuān)門(mén)設置了一個(gè)分類(lèi),用來(lái)保存閱讀時(shí)的一些經(jīng)典句子。
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  這是3本不合理的書(shū)
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  在這里很容易找到一些經(jīng)典的參考句子。
  寫(xiě)作素材庫最大的好處就是可以隨時(shí)調用,無(wú)論身在何處,只要輸入相關(guān)關(guān)鍵詞,就可以立即找到我想要的素材,給寫(xiě)作帶來(lái)了極大的便利< @文章。
  三、如何搭建寫(xiě)作素材庫
  寫(xiě)作素材庫的建立其實(shí)很簡(jiǎn)單,分為三個(gè)步驟:
  第 1 步:采集材料
  在采集資料方面,其實(shí)有兩種采集方式:
  1、碎片采集
  我們每天看大量的公眾號文章、知乎文章或網(wǎng)站文章,感覺(jué)好的文章可以被采集。
  這是通過(guò)碎片時(shí)間采集的,文章 永遠不會(huì )太多。
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  Fragments 文章,我把它們都放在我的收件箱里。
  好像很清楚,我采集了多少文章,有空就讀。
  2、固定主題合集
  有時(shí),我們可能會(huì )做一些項目,我們需要一個(gè)明確的方向來(lái)采集知識。
  例如:
  我媳婦現在主要賣(mài)玫瑰,所以她每天都需要出口玫瑰文章,打造個(gè)人品牌,創(chuàng )造價(jià)值,增加銷(xiāo)量。
  我的做法是通過(guò)百度知乎、知乎、公眾號直接采集玫瑰素材
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  通過(guò)搜索,馬上有數百條寫(xiě)作方向和材料,百度知道。
  使用文章搜索微信公眾號,上千條素材
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  看,有6000多篇文案,自己寫(xiě)就夠了。
  問(wèn)答平臺知乎、公眾號文章,這三個(gè)地方足以讓你采集上萬(wàn)條固定主題的寫(xiě)作素材。
  第 2 步:保存材料
  采集的最終目的是為了方便調用,所以嘗試了很多工具,最后決定使用印象筆記作為載體工具。原因很明顯:
  1、全平臺支持2、強大的搜索功能
  全平臺的優(yōu)勢在于,無(wú)論是手機還是電腦,都可以輕松采集保存。
  尤其是有時(shí)候出去看到一些有啟發(fā)性的東西,就直接打開(kāi)印象筆記拍張照片,然后把這個(gè)時(shí)候的靈感寫(xiě)下來(lái)。
  這是之后的想法。
  但是,要保持一個(gè)好的材料庫,就必須建立一個(gè)完整的分類(lèi)體系。
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  以上是我自己的分類(lèi)系統,主要由收件箱、主題知識庫、存檔知識庫組成
  收件箱:用于臨時(shí)存放剛剛采集到的分片信息。你可能沒(méi)有仔細閱讀它,但感覺(jué)這是一個(gè)很好的材料。先存起來(lái),有時(shí)間再讀。
  知識主題庫:我把它分為工作、學(xué)習、生活、興趣四大類(lèi),基本涵蓋了方方面面。有了對應的分類(lèi),我以后只需要按照知識的類(lèi)型來(lái)分類(lèi)就可以了。
  例如
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  對于這一類(lèi)閱讀,我專(zhuān)門(mén)存儲電子書(shū)和經(jīng)典句子的摘錄。
  在例如
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  平時(shí)看到一些好的文案,我會(huì )放到存檔類(lèi)
  合理的分類(lèi)可以讓我快速找到相關(guān)的素材位置。
  分類(lèi)很重要。
  只要仔細觀(guān)察,一些大的網(wǎng)站都有非常詳細的分類(lèi)導航。
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  這是京東的網(wǎng)站品類(lèi),人們一看就知道應該點(diǎn)擊商品,才能找到自己想要的商品。
  第 3 步:檢索材料
  材料的采集是為了最后的快速調用,所以以前的分類(lèi)工作體現了價(jià)值。
  通過(guò)印象筆記有兩種調用方式
  第一種:使用搜索功能
  Evernote 使用了強大的搜索功能。只要學(xué)會(huì )了搜索命令,不管怎么找都可以快速調出素材。
  Plus+:多個(gè)關(guān)鍵詞 搜索
  減號-:不收錄某個(gè)關(guān)鍵詞
  雙引號"":精確搜索
  notebook:在 notebook 內搜索
  Intitle:標題搜索
  例如:
  intitle:seo 該命令用于搜索標題中收錄seo的信息
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  標題是否收錄seo的信息知識。
  雙引號“促銷(xiāo)”來(lái)促進(jìn)關(guān)鍵詞搜索
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  結果是title收錄promotion關(guān)鍵詞,content收錄promotion關(guān)鍵詞信息,可以搜索到,調用起來(lái)很方便。
  第二種:按類(lèi)別搜索
  合理的分類(lèi)也可以讓你找到相關(guān)的信息,就像我的學(xué)習分類(lèi)一樣
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  根據分類(lèi)結構,我可以快速找到我想要的材料,比如時(shí)間管理。我只是點(diǎn)擊這個(gè)類(lèi)別,它是所有時(shí)間管理材料。
  請記住,創(chuàng )建材料庫是為了快速回憶,找不到它就意味著(zhù)沒(méi)有它。
  如果你想每天寫(xiě)文章來(lái)打造個(gè)人品牌,那你就需要一個(gè)屬于自己的寫(xiě)作素材庫。
  知道方法和方法并不意味著(zhù)你已經(jīng)學(xué)會(huì )了。只有自己實(shí)踐和應用,才能取得更大的進(jìn)步。
  版權歸周振興作者所有,希望能幫到你!

文章采集調用(5.5新版本的+30聯(lián)絡(luò )651606775830元功能形容 )

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 169 次瀏覽 ? 2021-11-22 01:09 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(5.5新版本的+30聯(lián)絡(luò )651606775830元功能形容
)
  (需5.5新版+30聯(lián)系6516067758)需加30元
  
  
  功能說(shuō)明:
  [維清]微信文章采集器是采集微信訂閱賬號信息和訂閱賬號文章的插件。只需輸入公眾號昵稱(chēng),即可自動(dòng)采集公眾號信息(信息包括公眾號昵稱(chēng)、微信ID、功能詳情、認證信息、頭像、二維碼)。通過(guò)安裝此插件,您可以讓您的網(wǎng)站與百萬(wàn)訂閱賬號分享優(yōu)質(zhì)內容,每天大量升級可以快速提升網(wǎng)站的權重和排名。
  功能亮點(diǎn):
  1、可以自己設置插件名稱(chēng):
  可以在后臺面包屑導航上修改插件名稱(chēng)。如果不設置,則默認為微信窗口。
  2、您可以自己設置SEO信息:
  后臺可以方便的為每個(gè)頁(yè)面設置SEO信息,支持網(wǎng)站名稱(chēng)、插件名稱(chēng)、分類(lèi)名稱(chēng)、文章標題等信息的變量替換。
  3、批量提供采集官方賬號信息:
  輸入微信公眾號昵稱(chēng)點(diǎn)擊搜索,選擇你要采集的公眾號,提交。一次最多可以采集 10個(gè)公眾號信息。
  4、批量提供采集公眾號文章:
  點(diǎn)擊公眾號列表中的“采集文章”鏈接,輸入你想要的頁(yè)數采集,即可批量采集文章信息,一次至少可以使用采集篇文章文章,文章的內容也是本地化的。
  5、文章可以完美顯示信息:
  插件自建首頁(yè)、列表頁(yè)、介紹頁(yè),無(wú)需依賴(lài)原系統任何功能即可完美展示文章信息。
  6、強大的DIY機制:
  只需安裝diy擴展,即可擁有強大的DIY機制,可以在網(wǎng)站任意頁(yè)面調用微信公眾號信息和文章信息。
  7、每個(gè)頁(yè)面都有多個(gè)內置的DIY區域:
  插件的每個(gè)頁(yè)面(首頁(yè)、列表頁(yè)、介紹頁(yè))內置多個(gè)DIY區,可在原創(chuàng )內容塊之間插入DIY模塊。
  8、 可以靈活設置信息是否需要審核:
  客戶(hù)提交的內容公眾號和文章信息是否需要審核,可以通過(guò)后臺的開(kāi)關(guān)控制。
  9、信息批量管理功能:
  后臺提供功能齊全的微信公眾號和文章批量管理功能,可以批量查看、刪除、移動(dòng)分類(lèi)信息。
  10、完全支持手機版:
  只要安裝相應的手機版組件,就可以輕松打開(kāi)手機版。
  
  
  
   查看全部

  文章采集調用(5.5新版本的+30聯(lián)絡(luò )651606775830元功能形容
)
  (需5.5新版+30聯(lián)系6516067758)需加30元
  
  
  功能說(shuō)明:
  [維清]微信文章采集器是采集微信訂閱賬號信息和訂閱賬號文章的插件。只需輸入公眾號昵稱(chēng),即可自動(dòng)采集公眾號信息(信息包括公眾號昵稱(chēng)、微信ID、功能詳情、認證信息、頭像、二維碼)。通過(guò)安裝此插件,您可以讓您的網(wǎng)站與百萬(wàn)訂閱賬號分享優(yōu)質(zhì)內容,每天大量升級可以快速提升網(wǎng)站的權重和排名。
  功能亮點(diǎn):
  1、可以自己設置插件名稱(chēng):
  可以在后臺面包屑導航上修改插件名稱(chēng)。如果不設置,則默認為微信窗口。
  2、您可以自己設置SEO信息:
  后臺可以方便的為每個(gè)頁(yè)面設置SEO信息,支持網(wǎng)站名稱(chēng)、插件名稱(chēng)、分類(lèi)名稱(chēng)、文章標題等信息的變量替換。
  3、批量提供采集官方賬號信息:
  輸入微信公眾號昵稱(chēng)點(diǎn)擊搜索,選擇你要采集的公眾號,提交。一次最多可以采集 10個(gè)公眾號信息。
  4、批量提供采集公眾號文章:
  點(diǎn)擊公眾號列表中的“采集文章”鏈接,輸入你想要的頁(yè)數采集,即可批量采集文章信息,一次至少可以使用采集篇文章文章,文章的內容也是本地化的。
  5、文章可以完美顯示信息:
  插件自建首頁(yè)、列表頁(yè)、介紹頁(yè),無(wú)需依賴(lài)原系統任何功能即可完美展示文章信息。
  6、強大的DIY機制:
  只需安裝diy擴展,即可擁有強大的DIY機制,可以在網(wǎng)站任意頁(yè)面調用微信公眾號信息和文章信息。
  7、每個(gè)頁(yè)面都有多個(gè)內置的DIY區域:
  插件的每個(gè)頁(yè)面(首頁(yè)、列表頁(yè)、介紹頁(yè))內置多個(gè)DIY區,可在原創(chuàng )內容塊之間插入DIY模塊。
  8、 可以靈活設置信息是否需要審核:
  客戶(hù)提交的內容公眾號和文章信息是否需要審核,可以通過(guò)后臺的開(kāi)關(guān)控制。
  9、信息批量管理功能:
  后臺提供功能齊全的微信公眾號和文章批量管理功能,可以批量查看、刪除、移動(dòng)分類(lèi)信息。
  10、完全支持手機版:
  只要安裝相應的手機版組件,就可以輕松打開(kāi)手機版。
  
  
  
  

文章采集調用(DedeCMSV5.7sp2網(wǎng)站漏洞如何修復dedecms)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 132 次瀏覽 ? 2021-11-19 17:12 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(DedeCMSV5.7sp2網(wǎng)站漏洞如何修復dedecms)
  如何修復Dedecms V5.7sp2網(wǎng)站漏洞
  織夢(mèng)dedecms,在整個(gè)互聯(lián)網(wǎng)中,很多企業(yè)網(wǎng)站、個(gè)人網(wǎng)站、優(yōu)化網(wǎng)站都在用dede作為整個(gè)網(wǎng)站的發(fā)展@>架構,dedecms采用php+mysql數據庫架構來(lái)承載整個(gè)網(wǎng)站的操作和用戶(hù)訪(fǎng)問(wèn)。首頁(yè)和專(zhuān)欄頁(yè)面生成了織夢(mèng)漏洞的詳細信息,我們來(lái)一步步分析:首先介紹一下parse_str函數的機制和作用。簡(jiǎn)單來(lái)說(shuō)就是解析網(wǎng)站傳遞過(guò)來(lái)的字符串,將字符串的值轉換成一個(gè)固有的變量值。這個(gè)函數是傳入進(jìn)來(lái)的,當有改動(dòng)的時(shí)候,不會(huì )驗證當前變量網(wǎng)站的值是否收錄在buy_action中。最新版dedecms中的php代碼。存在一個(gè)網(wǎng)站漏洞,dedecms針對之前更新修復的文件網(wǎng)站漏洞,在代碼中加入了很多功能的安全過(guò)濾,但是傳入的值在過(guò)濾的同時(shí)解碼編碼函數時(shí)沒(méi)有嚴格過(guò)濾掉。網(wǎng)站漏洞的產(chǎn)生和dedecms的利用非常簡(jiǎn)單,但是在實(shí)際的利用過(guò)程中,我們發(fā)現實(shí)現起來(lái)還是比較困難的。最重要的是mchStrCode的功能是在整個(gè)網(wǎng)站編碼中控制前端用戶(hù)提交的值中的參數。dedecms網(wǎng)站 漏洞修復建議:關(guān)于dedecms parse_str函數SQL注入漏洞,需要修復的是變量覆蓋修復,對前端輸入的值進(jìn)行安全判斷。, 確認變量值是否存在,如果存在則不會(huì )被覆蓋,防止變量覆蓋導致惡意結構的摻入
  726 查看全部

  文章采集調用(DedeCMSV5.7sp2網(wǎng)站漏洞如何修復dedecms)
  如何修復Dedecms V5.7sp2網(wǎng)站漏洞
  織夢(mèng)dedecms,在整個(gè)互聯(lián)網(wǎng)中,很多企業(yè)網(wǎng)站、個(gè)人網(wǎng)站、優(yōu)化網(wǎng)站都在用dede作為整個(gè)網(wǎng)站的發(fā)展@>架構,dedecms采用php+mysql數據庫架構來(lái)承載整個(gè)網(wǎng)站的操作和用戶(hù)訪(fǎng)問(wèn)。首頁(yè)和專(zhuān)欄頁(yè)面生成了織夢(mèng)漏洞的詳細信息,我們來(lái)一步步分析:首先介紹一下parse_str函數的機制和作用。簡(jiǎn)單來(lái)說(shuō)就是解析網(wǎng)站傳遞過(guò)來(lái)的字符串,將字符串的值轉換成一個(gè)固有的變量值。這個(gè)函數是傳入進(jìn)來(lái)的,當有改動(dòng)的時(shí)候,不會(huì )驗證當前變量網(wǎng)站的值是否收錄在buy_action中。最新版dedecms中的php代碼。存在一個(gè)網(wǎng)站漏洞,dedecms針對之前更新修復的文件網(wǎng)站漏洞,在代碼中加入了很多功能的安全過(guò)濾,但是傳入的值在過(guò)濾的同時(shí)解碼編碼函數時(shí)沒(méi)有嚴格過(guò)濾掉。網(wǎng)站漏洞的產(chǎn)生和dedecms的利用非常簡(jiǎn)單,但是在實(shí)際的利用過(guò)程中,我們發(fā)現實(shí)現起來(lái)還是比較困難的。最重要的是mchStrCode的功能是在整個(gè)網(wǎng)站編碼中控制前端用戶(hù)提交的值中的參數。dedecms網(wǎng)站 漏洞修復建議:關(guān)于dedecms parse_str函數SQL注入漏洞,需要修復的是變量覆蓋修復,對前端輸入的值進(jìn)行安全判斷。, 確認變量值是否存在,如果存在則不會(huì )被覆蓋,防止變量覆蓋導致惡意結構的摻入
  726

文章采集調用(幾款調用最新或是隨機文章的標簽是哪幾種? )

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 180 次瀏覽 ? 2021-11-19 09:16 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(幾款調用最新或是隨機文章的標簽是哪幾種?
)
  目前國內流行的幾個(gè)開(kāi)源程序包括Empirecms、織夢(mèng)cms、WordPress等,這些對于建網(wǎng)站做seo的站長(cháng)來(lái)說(shuō)肯定不陌生優(yōu)化。一般有在首頁(yè)或內頁(yè)調用最新的或隨機的文章的愛(ài)好。如果這些文章是同一個(gè)開(kāi)源程序,調用起來(lái)相對容易一些。如果它們不一樣怎么辦?接下來(lái)我講一下帝國cms如何調用WordPress博客的最新或隨機文章,僅供參考。
  
  1、 Empirecms 最常用的信息調用標簽是(ecmsinfo),如下圖,就是ecmsinfo調用標簽
  格式主要是列/主題ID和模板ID這兩個(gè)參數。操作系統的默認 ID 為 24。
  例如:如[ecmsinfo] 10, 5, 36, 1, 24, 20, 0 [/ecmsinfo]
  “10”表示“管理欄”中標識的對應欄的ID
  “20”表示“管理標簽模板”中的標簽模板ID
  整個(gè)代碼的意思是按照標簽模板ID(20))的規則調用列ID(10))中5篇文章的標題文章,并調用文章標題前不顯示列名和圖片。
  2、根據上面的例子,Empire cms隨機調用WordPress博客文章,標簽如下:
  [ecmsinfo]"選擇 post_title 作為標題,id 作為 id from wp_posts order by rand() desc limit 5",5,36,1,24,29,0[/ecms信息]
  說(shuō)明:“select post_title as title, id as id from wp_posts order by rand() desc limit 5”本段表示用SQL語(yǔ)句調用WordPress博客數據庫的字段命令。
  
  (1) post_title 對應 WordPress 博客的 文章 標題。
  (2) id 對應標題號。
  (3) wp_posts 是存放 WordPress 文章 的數據表,如果帝國cms 和 WordPress 博客是
  不同的數據庫,那么,上面的“wp_posts”改為“博客數據庫名.wp_posts”。因為是調用WordPress博客的URL地址,所以必須單獨自定義一個(gè)標簽模板。進(jìn)入帝國cms后臺“模板管理”——“管理標簽模板”——“添加模板”如下圖:
  
  
  模板名稱(chēng),只寫(xiě)一個(gè)好記的名字,比如“首頁(yè)調用WordPress博客文章模板”
  (4)在頁(yè)面模板內容中輸入以下代碼
  [!–empirenews.listtemp–]
  [!–empirenews.listtemp–]
  (5)列表內容模板list.var輸入如下:
  [!–title–]
  注意,如果WordPress的相對地址是/blog/?p=*,則使用/blog/?p=[! –Id–]
  偽靜態(tài)地址 blog/*.html 是 /blog/ [! –Id–].html(*代表一個(gè)數字)
  當然最好使用絕對地址。其他的URL地址可以類(lèi)推。
  然后點(diǎn)擊“保存模板”,對應的圖如下,29為標簽模板的ID。
  
  (6)"order by rand() desc"這段代碼的意思是隨機排序,如果調用最新的文章,對應的是"order by id desc"
  (7)limt 5 表示5次文章調用的次數。如果是5,后面的第一個(gè)數字也必須是5(見(jiàn)ecmsinfo標簽寫(xiě)法)
  好的,然后把ecmsinfo標簽代碼放到一些你要調用的Empirecms模板中就OK了
  最后附上效果圖:
  文章 的 WordPress 博客:
  
  Empirecms隨意調用一個(gè)WordPress博客文章:
   查看全部

  文章采集調用(幾款調用最新或是隨機文章的標簽是哪幾種?
)
  目前國內流行的幾個(gè)開(kāi)源程序包括Empirecms、織夢(mèng)cms、WordPress等,這些對于建網(wǎng)站做seo的站長(cháng)來(lái)說(shuō)肯定不陌生優(yōu)化。一般有在首頁(yè)或內頁(yè)調用最新的或隨機的文章的愛(ài)好。如果這些文章是同一個(gè)開(kāi)源程序,調用起來(lái)相對容易一些。如果它們不一樣怎么辦?接下來(lái)我講一下帝國cms如何調用WordPress博客的最新或隨機文章,僅供參考。
  
  1、 Empirecms 最常用的信息調用標簽是(ecmsinfo),如下圖,就是ecmsinfo調用標簽
  格式主要是列/主題ID和模板ID這兩個(gè)參數。操作系統的默認 ID 為 24。
  例如:如[ecmsinfo] 10, 5, 36, 1, 24, 20, 0 [/ecmsinfo]
  “10”表示“管理欄”中標識的對應欄的ID
  “20”表示“管理標簽模板”中的標簽模板ID
  整個(gè)代碼的意思是按照標簽模板ID(20))的規則調用列ID(10))中5篇文章的標題文章,并調用文章標題前不顯示列名和圖片。
  2、根據上面的例子,Empire cms隨機調用WordPress博客文章,標簽如下:
  [ecmsinfo]"選擇 post_title 作為標題,id 作為 id from wp_posts order by rand() desc limit 5",5,36,1,24,29,0[/ecms信息]
  說(shuō)明:“select post_title as title, id as id from wp_posts order by rand() desc limit 5”本段表示用SQL語(yǔ)句調用WordPress博客數據庫的字段命令。
  
  (1) post_title 對應 WordPress 博客的 文章 標題。
  (2) id 對應標題號。
  (3) wp_posts 是存放 WordPress 文章 的數據表,如果帝國cms 和 WordPress 博客是
  不同的數據庫,那么,上面的“wp_posts”改為“博客數據庫名.wp_posts”。因為是調用WordPress博客的URL地址,所以必須單獨自定義一個(gè)標簽模板。進(jìn)入帝國cms后臺“模板管理”——“管理標簽模板”——“添加模板”如下圖:
  
  
  模板名稱(chēng),只寫(xiě)一個(gè)好記的名字,比如“首頁(yè)調用WordPress博客文章模板”
  (4)在頁(yè)面模板內容中輸入以下代碼
  [!–empirenews.listtemp–]
  [!–empirenews.listtemp–]
  (5)列表內容模板list.var輸入如下:
  [!–title–]
  注意,如果WordPress的相對地址是/blog/?p=*,則使用/blog/?p=[! –Id–]
  偽靜態(tài)地址 blog/*.html 是 /blog/ [! –Id–].html(*代表一個(gè)數字)
  當然最好使用絕對地址。其他的URL地址可以類(lèi)推。
  然后點(diǎn)擊“保存模板”,對應的圖如下,29為標簽模板的ID。
  
  (6)"order by rand() desc"這段代碼的意思是隨機排序,如果調用最新的文章,對應的是"order by id desc"
  (7)limt 5 表示5次文章調用的次數。如果是5,后面的第一個(gè)數字也必須是5(見(jiàn)ecmsinfo標簽寫(xiě)法)
  好的,然后把ecmsinfo標簽代碼放到一些你要調用的Empirecms模板中就OK了
  最后附上效果圖:
  文章 的 WordPress 博客:
  
  Empirecms隨意調用一個(gè)WordPress博客文章:
  

文章采集調用( Typechotypecho分類(lèi)調用代碼放到模板的相關(guān)位置即可(圖))

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 138 次瀏覽 ? 2021-11-19 09:14 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(
Typechotypecho分類(lèi)調用代碼放到模板的相關(guān)位置即可(圖))
  
  【使用指南】可能是Typecho博客模板的布局原因,需要單獨調用某類(lèi)typecho的文章列表。目前還沒(méi)有找到相關(guān)的typecho插件,但是找到了typecho調用某個(gè)類(lèi)的實(shí)現。文章的方法很簡(jiǎn)單。只需要使用一段typecho分類(lèi)調用代碼,放在模板的相關(guān)位置即可。
  可能是Typecho博客模板的布局原因,需要單獨調用某類(lèi)typecho的文章列表。目前還沒(méi)有找到相關(guān)的typecho插件,但是我找到了typecho調用一個(gè)類(lèi)別目錄的實(shí)現文章 方法很簡(jiǎn)單,只需要使用一段typecho分類(lèi)調用代碼就可以了在模板的相關(guān)位置。
  下面是這個(gè)類(lèi)的調用代碼的使用方法。
  $this->widget('Widget_Archive@index', 'pageSize=6&type=category', 'mid=3')
->parse('{title}');
  其中,pageSize代表輸出的數量,mid代表一個(gè)類(lèi)別的類(lèi)別id。
  為了移植方便,可以將mid=3改為slug=your_shot_name,其中your_shot_name代表某類(lèi)的縮寫(xiě)名稱(chēng)。
  其中,permalink表示文章的鏈接,title表示文章的標題。 查看全部

  文章采集調用(
Typechotypecho分類(lèi)調用代碼放到模板的相關(guān)位置即可(圖))
  
  【使用指南】可能是Typecho博客模板的布局原因,需要單獨調用某類(lèi)typecho的文章列表。目前還沒(méi)有找到相關(guān)的typecho插件,但是找到了typecho調用某個(gè)類(lèi)的實(shí)現。文章的方法很簡(jiǎn)單。只需要使用一段typecho分類(lèi)調用代碼,放在模板的相關(guān)位置即可。
  可能是Typecho博客模板的布局原因,需要單獨調用某類(lèi)typecho的文章列表。目前還沒(méi)有找到相關(guān)的typecho插件,但是我找到了typecho調用一個(gè)類(lèi)別目錄的實(shí)現文章 方法很簡(jiǎn)單,只需要使用一段typecho分類(lèi)調用代碼就可以了在模板的相關(guān)位置。
  下面是這個(gè)類(lèi)的調用代碼的使用方法。
  $this->widget('Widget_Archive@index', 'pageSize=6&type=category', 'mid=3')
->parse('{title}');
  其中,pageSize代表輸出的數量,mid代表一個(gè)類(lèi)別的類(lèi)別id。
  為了移植方便,可以將mid=3改為slug=your_shot_name,其中your_shot_name代表某類(lèi)的縮寫(xiě)名稱(chēng)。
  其中,permalink表示文章的鏈接,title表示文章的標題。

文章采集調用(一個(gè)網(wǎng)站的采集規則/article/collectsite.php)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 149 次瀏覽 ? 2021-11-14 16:13 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(一個(gè)網(wǎng)站的采集規則/article/collectsite.php)
  首先登錄后臺,點(diǎn)擊上方菜單“模塊管理”-“小說(shuō)連載”,然后點(diǎn)擊左側菜單“采集配置”鏈接,會(huì )顯示當前所有采集@ > 規則,每一行代表一個(gè)網(wǎng)站。 1、“單篇采集規則”指的是一篇采集文章文章所需的規則配置,主要內容包括網(wǎng)站名稱(chēng)、網(wǎng)站@ > 地址、文章標題、作者等基本信息,以及本文章的章節結構和章節內容,可以點(diǎn)擊編輯配置修改采集規則。
  2、“Batch采集”是在單個(gè)采集的基礎上進(jìn)行的,比如采集一個(gè)文章所有文章在列表頁(yè)@>,這個(gè)列表可以是最近更新、排行榜或文章的一個(gè)類(lèi)別。批量采集的規則主要是獲取列表頁(yè)的文章名稱(chēng)和文章序號,然后將單個(gè)采集調用到采集,如果需要獲取列表的第二頁(yè)、第三頁(yè)等內容,則需要設置翻頁(yè)的參數解析規則。
  注意:所有采集規則都生成了相應的配置文件,允許網(wǎng)站配置在:configs/article/collectsite.php中的采集,某個(gè)網(wǎng)站的規則配置文件為:configs/article/site_網(wǎng)站英文logo.php,所以網(wǎng)站英文logo不允許重復。例如:在configs/article/collectsite.php中配置起點(diǎn)中文網(wǎng)站的采集:
  $jieqiCollectsite['1']['name'] ='起點(diǎn)中文網(wǎng)';$jieqiCollectsite['1']['config'] ='cmfu_com';$jieqiCollectsite['1']['url ' ] ='';$jieqiCollectsite['1']['subarticleid'] ='';$jieqiCollectsite['1']['enable'] = '1';
  那么起點(diǎn)采集規則配置文件是configs/article/site_cmfu_com.php。 查看全部

  文章采集調用(一個(gè)網(wǎng)站的采集規則/article/collectsite.php)
  首先登錄后臺,點(diǎn)擊上方菜單“模塊管理”-“小說(shuō)連載”,然后點(diǎn)擊左側菜單“采集配置”鏈接,會(huì )顯示當前所有采集@ > 規則,每一行代表一個(gè)網(wǎng)站。 1、“單篇采集規則”指的是一篇采集文章文章所需的規則配置,主要內容包括網(wǎng)站名稱(chēng)、網(wǎng)站@ > 地址、文章標題、作者等基本信息,以及本文章的章節結構和章節內容,可以點(diǎn)擊編輯配置修改采集規則。
  2、“Batch采集”是在單個(gè)采集的基礎上進(jìn)行的,比如采集一個(gè)文章所有文章在列表頁(yè)@>,這個(gè)列表可以是最近更新、排行榜或文章的一個(gè)類(lèi)別。批量采集的規則主要是獲取列表頁(yè)的文章名稱(chēng)和文章序號,然后將單個(gè)采集調用到采集,如果需要獲取列表的第二頁(yè)、第三頁(yè)等內容,則需要設置翻頁(yè)的參數解析規則。
  注意:所有采集規則都生成了相應的配置文件,允許網(wǎng)站配置在:configs/article/collectsite.php中的采集,某個(gè)網(wǎng)站的規則配置文件為:configs/article/site_網(wǎng)站英文logo.php,所以網(wǎng)站英文logo不允許重復。例如:在configs/article/collectsite.php中配置起點(diǎn)中文網(wǎng)站的采集:
  $jieqiCollectsite['1']['name'] ='起點(diǎn)中文網(wǎng)';$jieqiCollectsite['1']['config'] ='cmfu_com';$jieqiCollectsite['1']['url ' ] ='';$jieqiCollectsite['1']['subarticleid'] ='';$jieqiCollectsite['1']['enable'] = '1';
  那么起點(diǎn)采集規則配置文件是configs/article/site_cmfu_com.php。

文章采集調用( 使用SQL調用當前文章鏈接的方法,你知道嗎?)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 119 次瀏覽 ? 2021-11-14 16:11 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(
使用SQL調用當前文章鏈接的方法,你知道嗎?)
  
  很多時(shí)候在使用織夢(mèng)cms的時(shí)候,想在文章頁(yè)面的最后加上當前的文章鏈接(url),這樣別人復制文章的時(shí)候@>,添加鏈接,這相當于做了一個(gè)外鏈(雖然這個(gè)概率很低)。下面,老米將介紹三種調用當前文章鏈接的方法。您可以根據自己的需要進(jìn)行選擇。
  第一種方法:
  這是最簡(jiǎn)單的方法,只需在相應位置添加標簽即可。代碼顯示如下:
  {dede:field name='arcurl'/}
  添加完成后,保存文章模板并上傳服務(wù)器重新生成頁(yè)面。
  第二種方法:
  只需使用織夢(mèng)cms本身的一個(gè)全局函數,并以標簽的形式在前臺調用即可。代碼顯示如下:
  {dede:geturl runphp='yes'}
  @me = GetCurUrl();
  {/dede:geturl}
  將上述代碼插入需要顯示當前文章 URL地址的位置,然后生成文章內容頁(yè)面。
  第三種方法:
  使用 SQL 語(yǔ)句調用靜態(tài)文檔地址。代碼顯示如下:
  {dede:field.id runphp='yes'}
  $id=@me;
  @我='';
  $url=GetOneArchive($id);
  @me=$url['arcurl'];
  {/dede:field.id}
  織夢(mèng)文章 介紹了調用當前頁(yè)面末尾的文章鏈接(url)的三種方法。如果你對織夢(mèng)不熟悉或者有一點(diǎn)了解,可以使用第一種和第二種方法。比如老米技術(shù)有限,說(shuō)到數據庫,他不喜歡操作,所以不會(huì )優(yōu)先考慮第三個(gè)。使用哪種方法可以根據自己的情況來(lái)決定。
  原創(chuàng )文章, title: 織夢(mèng)文章 頁(yè)面末尾調用當前文章鏈接(url)的三種方法,如轉載請注明出處: 查看全部

  文章采集調用(
使用SQL調用當前文章鏈接的方法,你知道嗎?)
  
  很多時(shí)候在使用織夢(mèng)cms的時(shí)候,想在文章頁(yè)面的最后加上當前的文章鏈接(url),這樣別人復制文章的時(shí)候@>,添加鏈接,這相當于做了一個(gè)外鏈(雖然這個(gè)概率很低)。下面,老米將介紹三種調用當前文章鏈接的方法。您可以根據自己的需要進(jìn)行選擇。
  第一種方法:
  這是最簡(jiǎn)單的方法,只需在相應位置添加標簽即可。代碼顯示如下:
  {dede:field name='arcurl'/}
  添加完成后,保存文章模板并上傳服務(wù)器重新生成頁(yè)面。
  第二種方法:
  只需使用織夢(mèng)cms本身的一個(gè)全局函數,并以標簽的形式在前臺調用即可。代碼顯示如下:
  {dede:geturl runphp='yes'}
  @me = GetCurUrl();
  {/dede:geturl}
  將上述代碼插入需要顯示當前文章 URL地址的位置,然后生成文章內容頁(yè)面。
  第三種方法:
  使用 SQL 語(yǔ)句調用靜態(tài)文檔地址。代碼顯示如下:
  {dede:field.id runphp='yes'}
  $id=@me;
  @我='';
  $url=GetOneArchive($id);
  @me=$url['arcurl'];
  {/dede:field.id}
  織夢(mèng)文章 介紹了調用當前頁(yè)面末尾的文章鏈接(url)的三種方法。如果你對織夢(mèng)不熟悉或者有一點(diǎn)了解,可以使用第一種和第二種方法。比如老米技術(shù)有限,說(shuō)到數據庫,他不喜歡操作,所以不會(huì )優(yōu)先考慮第三個(gè)。使用哪種方法可以根據自己的情況來(lái)決定。
  原創(chuàng )文章, title: 織夢(mèng)文章 頁(yè)面末尾調用當前文章鏈接(url)的三種方法,如轉載請注明出處:

文章采集調用(忘記WordPress后臺密碼怎么辦?WordPress網(wǎng)站PHP純代碼生成文章海報圖片)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 137 次瀏覽 ? 2021-11-12 07:11 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(忘記WordPress后臺密碼怎么辦?WordPress網(wǎng)站PHP純代碼生成文章海報圖片)
  猜猜你在找什么 wordpress文章
  Typecho 到 WordPress 的遷移插件:ByeTyp
  Typecho 是輕量級的,但是已經(jīng)好幾年沒(méi)有更新了。插件和模板支持一直非常困難。越來(lái)越多的人退出了 Typecho,轉而使用 WordPress。
  WordPress 如何隱藏后臺登錄地址
  隱藏WordPress后臺登錄地址是保證網(wǎng)站安全的方法之一。在隱藏它的同時(shí),刪除指向后端網(wǎng)站的鏈接。
  如果忘記了 WordPress 后臺密碼怎么辦? WordPress后臺找回密碼方法
  我昨天忘記了后臺網(wǎng)站的密碼。 網(wǎng)站用WordPress搭建,忘記后臺密碼怎么辦?
  WordPress網(wǎng)站PHP 純代碼生成文章海報圖片
  要實(shí)現這個(gè)功能,需要依賴(lài)PHP的GD庫。如果您沒(méi)有它,它將無(wú)法工作。虛擬主機用戶(hù)請看是否支持。
  Wordpress 作者判斷調用不同的模板顯示在作者頁(yè)面上
  如果網(wǎng)站開(kāi)放注冊和投稿功能,將會(huì )有作者、編輯、訂閱者和管理員。頁(yè)面顯示不同的模板需要單獨調用。
  wordpress 不同類(lèi)別調用不同模板的方法
  之前介紹了在WordPress不同類(lèi)別中調用不同文章模板的方法。今天給大家分享一下如何調用不同類(lèi)別的不同模板。
  為WordPress頁(yè)面添加自定義匯總功能
  我們在做 WordPress網(wǎng)站 的時(shí)候,經(jīng)常需要調用首頁(yè)或者分類(lèi)頁(yè)上的摘要,并在分類(lèi)列表中展示。
  WordPress上傳附件提示“上級目錄沒(méi)有寫(xiě)權限”的解決方法
  WordPress用戶(hù)在后臺上傳附件提示“上級目錄沒(méi)有寫(xiě)權限”一般出現在網(wǎng)站遷移到新站點(diǎn)后,如果用戶(hù)在WordPress后臺上傳圖片附件,或者在工具import網(wǎng)站遇到數據時(shí),遇到如下提示: 查看全部

  文章采集調用(忘記WordPress后臺密碼怎么辦?WordPress網(wǎng)站PHP純代碼生成文章海報圖片)
  猜猜你在找什么 wordpress文章
  Typecho 到 WordPress 的遷移插件:ByeTyp
  Typecho 是輕量級的,但是已經(jīng)好幾年沒(méi)有更新了。插件和模板支持一直非常困難。越來(lái)越多的人退出了 Typecho,轉而使用 WordPress。
  WordPress 如何隱藏后臺登錄地址
  隱藏WordPress后臺登錄地址是保證網(wǎng)站安全的方法之一。在隱藏它的同時(shí),刪除指向后端網(wǎng)站的鏈接。
  如果忘記了 WordPress 后臺密碼怎么辦? WordPress后臺找回密碼方法
  我昨天忘記了后臺網(wǎng)站的密碼。 網(wǎng)站用WordPress搭建,忘記后臺密碼怎么辦?
  WordPress網(wǎng)站PHP 純代碼生成文章海報圖片
  要實(shí)現這個(gè)功能,需要依賴(lài)PHP的GD庫。如果您沒(méi)有它,它將無(wú)法工作。虛擬主機用戶(hù)請看是否支持。
  Wordpress 作者判斷調用不同的模板顯示在作者頁(yè)面上
  如果網(wǎng)站開(kāi)放注冊和投稿功能,將會(huì )有作者、編輯、訂閱者和管理員。頁(yè)面顯示不同的模板需要單獨調用。
  wordpress 不同類(lèi)別調用不同模板的方法
  之前介紹了在WordPress不同類(lèi)別中調用不同文章模板的方法。今天給大家分享一下如何調用不同類(lèi)別的不同模板。
  為WordPress頁(yè)面添加自定義匯總功能
  我們在做 WordPress網(wǎng)站 的時(shí)候,經(jīng)常需要調用首頁(yè)或者分類(lèi)頁(yè)上的摘要,并在分類(lèi)列表中展示。
  WordPress上傳附件提示“上級目錄沒(méi)有寫(xiě)權限”的解決方法
  WordPress用戶(hù)在后臺上傳附件提示“上級目錄沒(méi)有寫(xiě)權限”一般出現在網(wǎng)站遷移到新站點(diǎn)后,如果用戶(hù)在WordPress后臺上傳圖片附件,或者在工具import網(wǎng)站遇到數據時(shí),遇到如下提示:

文章采集調用(1.用python爬取實(shí)現方法:anyproxy+java+webmagic3.FiddlerCore)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 193 次瀏覽 ? 2021-11-10 11:06 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(1.用python爬取實(shí)現方法:anyproxy+java+webmagic3.FiddlerCore)
  微信公眾號文章爬取方法用python組織1.爬取
  實(shí)現方法:通過(guò)微信提供的公眾號文章調用接口,實(shí)現爬取公眾號文章的功能
  步:
  1.需要安裝python selenium模塊包,使用selenium中的webdriver驅動(dòng)瀏覽器獲取cookie,達到登錄的效果;
  2.使用webdriver功能需要安裝瀏覽器對應的驅動(dòng)插件。我在這里測試的是谷歌瀏覽器:
  谷歌瀏覽器版本為 52.0.2743.6;
  chromedriver 版本為:V2.23
  注意:谷歌瀏覽器版本和chromedriver需要對應,否則啟動(dòng)時(shí)會(huì )報錯?!靖剑簊elenium的chromedriver與chrome版本映射表(更新為v2.30))】
  3. 微信公眾號登錄地址:
  4.微信公眾號文章界面地址可以在微信公眾號后臺新建圖文消息,可以通過(guò)超鏈接功能獲?。?br />   5.搜索公眾號
  6.獲取要爬取的公眾號的fakeid
  7.選擇要爬取的公眾號,獲取文章接口地址
  8.文章 列表翻頁(yè)和內容獲取
  2.AnyProxy 代理批處理采集
  實(shí)現方式:anyproxy+js
  實(shí)現方式:anyproxy+java+webmagic
  3.FiddlerCore
  實(shí)現方式:抓包工具,Fiddler4
  通過(guò)捕獲和分析多個(gè)帳戶(hù),您可以確定:
  _biz:這個(gè)14位的字符串是每個(gè)公眾號的“id”,搜狗的微信平臺可以獲得
uin:與訪(fǎng)問(wèn)者有關(guān),微信號id
key:和所訪(fǎng)問(wèn)的公眾號有關(guān)

  步:
  1、編寫(xiě)按鈕向導腳本,自動(dòng)點(diǎn)擊手機公眾號文章列表頁(yè),即“查看歷史消息”;
  2、利用fiddler代理劫持??手機訪(fǎng)問(wèn),將URL轉發(fā)到本地php編寫(xiě)的網(wǎng)頁(yè);
  3、將接收到的php網(wǎng)頁(yè)上的URL備份到數據庫中;
  4、使用python從數據庫中獲取URL,然后進(jìn)行正常爬取。
  爬取過(guò)程中發(fā)現一個(gè)問(wèn)題:
  如果只是抓取文章的內容,好像沒(méi)有訪(fǎng)問(wèn)頻率限制,但是如果要抓取閱讀數和點(diǎn)贊數,達到一定頻率后,返回就會(huì )變成一個(gè)空值,我設置的時(shí)間間隔是10秒,可以正常爬取。在這個(gè)頻率下,一個(gè)小時(shí)只能抓取360條,沒(méi)有實(shí)際意義。
  4.青波新名單
  如果你只是想看數據,直接看日單就行了,不用花錢(qián)。如果您需要訪(fǎng)問(wèn)自己的系統,他們還提供了一個(gè) api 接口。 查看全部

  文章采集調用(1.用python爬取實(shí)現方法:anyproxy+java+webmagic3.FiddlerCore)
  微信公眾號文章爬取方法用python組織1.爬取
  實(shí)現方法:通過(guò)微信提供的公眾號文章調用接口,實(shí)現爬取公眾號文章的功能
  步:
  1.需要安裝python selenium模塊包,使用selenium中的webdriver驅動(dòng)瀏覽器獲取cookie,達到登錄的效果;
  2.使用webdriver功能需要安裝瀏覽器對應的驅動(dòng)插件。我在這里測試的是谷歌瀏覽器:
  谷歌瀏覽器版本為 52.0.2743.6;
  chromedriver 版本為:V2.23
  注意:谷歌瀏覽器版本和chromedriver需要對應,否則啟動(dòng)時(shí)會(huì )報錯?!靖剑簊elenium的chromedriver與chrome版本映射表(更新為v2.30))】
  3. 微信公眾號登錄地址:
  4.微信公眾號文章界面地址可以在微信公眾號后臺新建圖文消息,可以通過(guò)超鏈接功能獲?。?br />   5.搜索公眾號
  6.獲取要爬取的公眾號的fakeid
  7.選擇要爬取的公眾號,獲取文章接口地址
  8.文章 列表翻頁(yè)和內容獲取
  2.AnyProxy 代理批處理采集
  實(shí)現方式:anyproxy+js
  實(shí)現方式:anyproxy+java+webmagic
  3.FiddlerCore
  實(shí)現方式:抓包工具,Fiddler4
  通過(guò)捕獲和分析多個(gè)帳戶(hù),您可以確定:
  _biz:這個(gè)14位的字符串是每個(gè)公眾號的“id”,搜狗的微信平臺可以獲得
uin:與訪(fǎng)問(wèn)者有關(guān),微信號id
key:和所訪(fǎng)問(wèn)的公眾號有關(guān)

  步:
  1、編寫(xiě)按鈕向導腳本,自動(dòng)點(diǎn)擊手機公眾號文章列表頁(yè),即“查看歷史消息”;
  2、利用fiddler代理劫持??手機訪(fǎng)問(wèn),將URL轉發(fā)到本地php編寫(xiě)的網(wǎng)頁(yè);
  3、將接收到的php網(wǎng)頁(yè)上的URL備份到數據庫中;
  4、使用python從數據庫中獲取URL,然后進(jìn)行正常爬取。
  爬取過(guò)程中發(fā)現一個(gè)問(wèn)題:
  如果只是抓取文章的內容,好像沒(méi)有訪(fǎng)問(wèn)頻率限制,但是如果要抓取閱讀數和點(diǎn)贊數,達到一定頻率后,返回就會(huì )變成一個(gè)空值,我設置的時(shí)間間隔是10秒,可以正常爬取。在這個(gè)頻率下,一個(gè)小時(shí)只能抓取360條,沒(méi)有實(shí)際意義。
  4.青波新名單
  如果你只是想看數據,直接看日單就行了,不用花錢(qián)。如果您需要訪(fǎng)問(wèn)自己的系統,他們還提供了一個(gè) api 接口。

文章采集調用(夢(mèng)dedecms(V5.7版)調用相似文章中)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 119 次瀏覽 ? 2021-11-10 10:15 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(夢(mèng)dedecms(V5.7版)調用相似文章中)
  當我們發(fā)布文章文章時(shí),一般情況下,為了增加用戶(hù)的停留時(shí)間,我們會(huì )在文章的末尾或者在為了再次贏(yíng)得用戶(hù)點(diǎn)擊,在織夢(mèng)dedecms(V5.7版)調用類(lèi)似文章,實(shí)際調用代碼為{dede:likearticle} ,這段代碼的原理是通過(guò)識別文章的title、category、關(guān)鍵詞等來(lái)判斷相似度,從而做出推薦。后臺調用代碼如下/include/taglib/likearticle.lib.php,打開(kāi)文件找到如下這段代碼:
  /**************************************************** ****************************************************** ****/
  if($keyword !='')
  {
  if(!empty($typeid)) {
  $typeid ="AND arc.typeid IN($typeid) AND arc.id'$aid'";
  }
  $query = "SELECT arc.*,tp.typedir,tp.typename,tp.corank,tp.isdefault,tp.defaultname,tp.namerule,
  tp.namerule2,tp.ispart,tp.moresite,tp.siteurl,tp.sitepath
  FROM `dede_archives` arc LEFT JOIN `dede_arctype` tp ON arc.typeid=tp.id
  where arc.arcrank>-1AND ($keyword) $typeid$orderquery limit 0, $row";
  }
  其他
  {
  if(!empty($typeid)) {
  $typeid = "arc.typeid IN($typeid) AND arc.id'$aid'";
  }
  $query = "SELECT arc.*,tp.typedir,tp.typename,tp.corank,tp.isdefault,tp.defaultname,tp.namerule,
  tp.namerule2,tp.ispart,tp.moresite,tp.siteurl,tp.sitepath
  FROM `dede_archives` arc LEFT JOIN `dede_arctype` tp ON arc.typeid=tp.id
  WHERE arc.arcrank>-1AND $typeid$orderquery limit 0, $row";
  }
<p>/**************************************************** ****************************************************/ 查看全部

  文章采集調用(夢(mèng)dedecms(V5.7版)調用相似文章中)
  當我們發(fā)布文章文章時(shí),一般情況下,為了增加用戶(hù)的停留時(shí)間,我們會(huì )在文章的末尾或者在為了再次贏(yíng)得用戶(hù)點(diǎn)擊,在織夢(mèng)dedecms(V5.7版)調用類(lèi)似文章,實(shí)際調用代碼為{dede:likearticle} ,這段代碼的原理是通過(guò)識別文章的title、category、關(guān)鍵詞等來(lái)判斷相似度,從而做出推薦。后臺調用代碼如下/include/taglib/likearticle.lib.php,打開(kāi)文件找到如下這段代碼:
  /**************************************************** ****************************************************** ****/
  if($keyword !='')
  {
  if(!empty($typeid)) {
  $typeid ="AND arc.typeid IN($typeid) AND arc.id'$aid'";
  }
  $query = "SELECT arc.*,tp.typedir,tp.typename,tp.corank,tp.isdefault,tp.defaultname,tp.namerule,
  tp.namerule2,tp.ispart,tp.moresite,tp.siteurl,tp.sitepath
  FROM `dede_archives` arc LEFT JOIN `dede_arctype` tp ON arc.typeid=tp.id
  where arc.arcrank>-1AND ($keyword) $typeid$orderquery limit 0, $row";
  }
  其他
  {
  if(!empty($typeid)) {
  $typeid = "arc.typeid IN($typeid) AND arc.id'$aid'";
  }
  $query = "SELECT arc.*,tp.typedir,tp.typename,tp.corank,tp.isdefault,tp.defaultname,tp.namerule,
  tp.namerule2,tp.ispart,tp.moresite,tp.siteurl,tp.sitepath
  FROM `dede_archives` arc LEFT JOIN `dede_arctype` tp ON arc.typeid=tp.id
  WHERE arc.arcrank>-1AND $typeid$orderquery limit 0, $row";
  }
<p>/**************************************************** ****************************************************/

文章采集調用(如何網(wǎng)頁(yè)訪(fǎng)問(wèn)?豆瓣網(wǎng)教你如何獲取真正請求的地址?(圖))

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 180 次瀏覽 ? 2021-11-10 00:07 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(如何網(wǎng)頁(yè)訪(fǎng)問(wèn)?豆瓣網(wǎng)教你如何獲取真正請求的地址?(圖))
  【一、項目背景】
  豆瓣影業(yè)提供最新的電影介紹和影評,包括正在放映的電影的視頻查詢(xún)和購票服務(wù)。順便可以錄下想看的電影和電視劇,看,看,還可以寫(xiě)影評。它極大地方便了人們的生活。
  今天以電視?。绖。槔?,批量抓取對應的電影,寫(xiě)入csv文件。用戶(hù)可以通過(guò)評分更好地選擇自己想要的電影。
  【二、項目目標】
  獲取對應的電影名稱(chēng)、評分、詳情鏈接,下載電影圖片,保存文件。
  [三、 涉及的圖書(shū)館和 網(wǎng)站]
  1、 網(wǎng)址如下:
  %E7%BE%8E%E5%89%A7&amp;sort=recommend&amp;page_limit=20&amp;page_start={}
  2、 涉及的庫:requests****、fake_useragent、json****、csv
  3、軟件:PyCharm
  【四、項目分析】
  1、如何請求多個(gè)頁(yè)面?
  當您單擊下一頁(yè)時(shí),每增加一頁(yè),paged 將增加 20。使用{}替換轉換后的變量,然后使用for循環(huán)遍歷URL實(shí)現多個(gè)URL請求。
  2、如何獲取實(shí)際請求的地址?
  在請求數據時(shí),發(fā)現頁(yè)面上沒(méi)有對應的數據。其實(shí)豆瓣是通過(guò)javascript動(dòng)態(tài)加載內容來(lái)防止采集的。
  1)F12 右鍵查看,在左側菜單中找到Network,Name,找到第五個(gè)數據,點(diǎn)擊Preview。
  
  2) 點(diǎn)擊subjects,可以看到title是對應電影的名字。率是相應的分數。通過(guò)js解析subjects字典,找到需要的字段。
  
  如何訪(fǎng)問(wèn)網(wǎng)頁(yè)?
  %E7%BE%8E%E5%89%A7&amp;sort=recommend&amp;page_limit=20&amp;page_start=0
  %E7%BE%8E%E5%89%A7&amp;sort=recommend&amp;page_limit=20&amp;page_start=20
  %E7%BE%8E%E5%89%A7&amp;sort=recommend&amp;page_limit=20&amp;page_start=40
  %E7%BE%8E%E5%89%A7&amp;sort=recommend&amp;page_limit=20&amp;page_start=60
  單擊下一頁(yè)時(shí),每增加一頁(yè),該頁(yè)將增加 20。使用{}替換轉換后的變量,然后使用for循環(huán)遍歷URL實(shí)現多個(gè)URL請求。
  【五、項目實(shí)施】
  1、 我們定義一個(gè)類(lèi)繼承對象,然后定義init方法繼承self,再定義一個(gè)main函數main繼承self。導入所需的庫和請求 URL。
  導入請求,json
  從 fake_useragent 導入 UserAgent
  導入 csv
  類(lèi)多班(對象):
  def __init__(self):
  self.url = ";tag=%E7%BE%8E%E5%89%A7&amp;sort=recommend&amp;page_limit=20&amp;page_start={}"
  定義主(自我):
  經(jīng)過(guò)
  如果 __name__ =='__main__':
  Siper = Doban()
  Siper.main()
  2、 隨機生成UserAgent,構造請求頭,防止反爬。
  對于范圍內的 i(1, 50):
  self.headers = {
  '用戶(hù)代理':ua.random,
  }
  3、發(fā)送請求,獲取響應,頁(yè)面回調,方便下次請求。
  def get_page(self, url):
  res = requests.get(url=url, headers=self.headers)
  html = res.content.decode("utf-8")
  返回 html
  4、json 解析頁(yè)面數據,獲取對應的字典。
  數據 = json.loads(html)['主題']
  #打?。〝祿0])
  5、進(jìn)行遍歷,獲取對應的電影名,評分,鏈接到下一個(gè)詳情頁(yè)。
  打?。Q(chēng),妖精赫夫)
  html2 = self.get_page(goblin_herf) # 第二個(gè)請求發(fā)生
  parse_html2 = etree.HTML(html2)
  r = parse_html2.xpath('//div[@class="entry"]/p/text()')
  6、創(chuàng )建一個(gè)用于寫(xiě)入的csv文件,定義對應的header內容,并保存數據。
  # 創(chuàng )建一個(gè)用于寫(xiě)入的csv文件
  csv_file = open('scr.csv','a', encoding='gbk')
  csv_writer = csv.writer(csv_file)
  # 寫(xiě)入csv標題內容
  csv_writerr.writerow(['電影','評級',"詳細頁(yè)面"])
 ?。祿斎?br />   csv_writer.writerow([id, rate, url])
  7、圖片地址提出請求。定義圖片的名稱(chēng)并保存文檔。
  html2 = requests.get(url=url, headers=self.headers).content
  目錄名 = "./圖片/" + id + ".jpg"
  with open(dirname,'wb') as f:
  f.write(html2)
  print("%s [下載成功?。?!]"% id)
  8、 調用方法來(lái)實(shí)現功能。
  html = self.get_page(url)
  self.parse_page(html)
  9、項目?jì)?yōu)化:
  1) 設置時(shí)間延遲。
  time.sleep(1.4)
  2) 定義一個(gè)變量u,用于遍歷,表示爬取的是哪個(gè)頁(yè)面。(更清晰,更令人印象深刻)。
  u = 0
  self.u += 1;
  【六、效果展示】
  1、 點(diǎn)擊綠色三角進(jìn)入起始頁(yè)和結束頁(yè)(從第0頁(yè)開(kāi)始)。
  
  2、 在控制臺顯示下載成功信息。
  
  3、保存csv文件。
  
  4、電影圖片顯示。
  
  [七、總結]
  1、 不建議抓太多數據,可能造成服務(wù)器負載,簡(jiǎn)單試一下。
  2、本文章針對Python爬取豆瓣應用中的難點(diǎn)和關(guān)鍵點(diǎn),以及如何防止反爬,做了一個(gè)相對的解決方案。
  3、希望通過(guò)這個(gè)項目,可以幫助大家了解json解析頁(yè)面的基本流程,如何拼接字符串,如何使用format函數。
  4、 本文基于Python網(wǎng)絡(luò )爬蟲(chóng),利用爬蟲(chóng)庫實(shí)現豆瓣電影及其圖片的獲取。說(shuō)到實(shí)現,總會(huì )有各種各樣的問(wèn)題。不要看最好的,努力去更深入地理解。
  5、需要本文源碼的可以在后臺回復“豆瓣電影”獲取。
  ****看完這篇文章你有收獲嗎?請轉發(fā)并分享給更多人****
  IT共享之家 查看全部

  文章采集調用(如何網(wǎng)頁(yè)訪(fǎng)問(wèn)?豆瓣網(wǎng)教你如何獲取真正請求的地址?(圖))
  【一、項目背景】
  豆瓣影業(yè)提供最新的電影介紹和影評,包括正在放映的電影的視頻查詢(xún)和購票服務(wù)。順便可以錄下想看的電影和電視劇,看,看,還可以寫(xiě)影評。它極大地方便了人們的生活。
  今天以電視?。绖。槔?,批量抓取對應的電影,寫(xiě)入csv文件。用戶(hù)可以通過(guò)評分更好地選擇自己想要的電影。
  【二、項目目標】
  獲取對應的電影名稱(chēng)、評分、詳情鏈接,下載電影圖片,保存文件。
  [三、 涉及的圖書(shū)館和 網(wǎng)站]
  1、 網(wǎng)址如下:
  %E7%BE%8E%E5%89%A7&amp;sort=recommend&amp;page_limit=20&amp;page_start={}
  2、 涉及的庫:requests****、fake_useragent、json****、csv
  3、軟件:PyCharm
  【四、項目分析】
  1、如何請求多個(gè)頁(yè)面?
  當您單擊下一頁(yè)時(shí),每增加一頁(yè),paged 將增加 20。使用{}替換轉換后的變量,然后使用for循環(huán)遍歷URL實(shí)現多個(gè)URL請求。
  2、如何獲取實(shí)際請求的地址?
  在請求數據時(shí),發(fā)現頁(yè)面上沒(méi)有對應的數據。其實(shí)豆瓣是通過(guò)javascript動(dòng)態(tài)加載內容來(lái)防止采集的。
  1)F12 右鍵查看,在左側菜單中找到Network,Name,找到第五個(gè)數據,點(diǎn)擊Preview。
  
  2) 點(diǎn)擊subjects,可以看到title是對應電影的名字。率是相應的分數。通過(guò)js解析subjects字典,找到需要的字段。
  
  如何訪(fǎng)問(wèn)網(wǎng)頁(yè)?
  %E7%BE%8E%E5%89%A7&amp;sort=recommend&amp;page_limit=20&amp;page_start=0
  %E7%BE%8E%E5%89%A7&amp;sort=recommend&amp;page_limit=20&amp;page_start=20
  %E7%BE%8E%E5%89%A7&amp;sort=recommend&amp;page_limit=20&amp;page_start=40
  %E7%BE%8E%E5%89%A7&amp;sort=recommend&amp;page_limit=20&amp;page_start=60
  單擊下一頁(yè)時(shí),每增加一頁(yè),該頁(yè)將增加 20。使用{}替換轉換后的變量,然后使用for循環(huán)遍歷URL實(shí)現多個(gè)URL請求。
  【五、項目實(shí)施】
  1、 我們定義一個(gè)類(lèi)繼承對象,然后定義init方法繼承self,再定義一個(gè)main函數main繼承self。導入所需的庫和請求 URL。
  導入請求,json
  從 fake_useragent 導入 UserAgent
  導入 csv
  類(lèi)多班(對象):
  def __init__(self):
  self.url = ";tag=%E7%BE%8E%E5%89%A7&amp;sort=recommend&amp;page_limit=20&amp;page_start={}"
  定義主(自我):
  經(jīng)過(guò)
  如果 __name__ =='__main__':
  Siper = Doban()
  Siper.main()
  2、 隨機生成UserAgent,構造請求頭,防止反爬。
  對于范圍內的 i(1, 50):
  self.headers = {
  '用戶(hù)代理':ua.random,
  }
  3、發(fā)送請求,獲取響應,頁(yè)面回調,方便下次請求。
  def get_page(self, url):
  res = requests.get(url=url, headers=self.headers)
  html = res.content.decode("utf-8")
  返回 html
  4、json 解析頁(yè)面數據,獲取對應的字典。
  數據 = json.loads(html)['主題']
  #打?。〝祿0])
  5、進(jìn)行遍歷,獲取對應的電影名,評分,鏈接到下一個(gè)詳情頁(yè)。
  打?。Q(chēng),妖精赫夫)
  html2 = self.get_page(goblin_herf) # 第二個(gè)請求發(fā)生
  parse_html2 = etree.HTML(html2)
  r = parse_html2.xpath('//div[@class="entry"]/p/text()')
  6、創(chuàng )建一個(gè)用于寫(xiě)入的csv文件,定義對應的header內容,并保存數據。
  # 創(chuàng )建一個(gè)用于寫(xiě)入的csv文件
  csv_file = open('scr.csv','a', encoding='gbk')
  csv_writer = csv.writer(csv_file)
  # 寫(xiě)入csv標題內容
  csv_writerr.writerow(['電影','評級',"詳細頁(yè)面"])
 ?。祿斎?br />   csv_writer.writerow([id, rate, url])
  7、圖片地址提出請求。定義圖片的名稱(chēng)并保存文檔。
  html2 = requests.get(url=url, headers=self.headers).content
  目錄名 = "./圖片/" + id + ".jpg"
  with open(dirname,'wb') as f:
  f.write(html2)
  print("%s [下載成功?。?!]"% id)
  8、 調用方法來(lái)實(shí)現功能。
  html = self.get_page(url)
  self.parse_page(html)
  9、項目?jì)?yōu)化:
  1) 設置時(shí)間延遲。
  time.sleep(1.4)
  2) 定義一個(gè)變量u,用于遍歷,表示爬取的是哪個(gè)頁(yè)面。(更清晰,更令人印象深刻)。
  u = 0
  self.u += 1;
  【六、效果展示】
  1、 點(diǎn)擊綠色三角進(jìn)入起始頁(yè)和結束頁(yè)(從第0頁(yè)開(kāi)始)。
  
  2、 在控制臺顯示下載成功信息。
  
  3、保存csv文件。
  
  4、電影圖片顯示。
  
  [七、總結]
  1、 不建議抓太多數據,可能造成服務(wù)器負載,簡(jiǎn)單試一下。
  2、本文章針對Python爬取豆瓣應用中的難點(diǎn)和關(guān)鍵點(diǎn),以及如何防止反爬,做了一個(gè)相對的解決方案。
  3、希望通過(guò)這個(gè)項目,可以幫助大家了解json解析頁(yè)面的基本流程,如何拼接字符串,如何使用format函數。
  4、 本文基于Python網(wǎng)絡(luò )爬蟲(chóng),利用爬蟲(chóng)庫實(shí)現豆瓣電影及其圖片的獲取。說(shuō)到實(shí)現,總會(huì )有各種各樣的問(wèn)題。不要看最好的,努力去更深入地理解。
  5、需要本文源碼的可以在后臺回復“豆瓣電影”獲取。
  ****看完這篇文章你有收獲嗎?請轉發(fā)并分享給更多人****
  IT共享之家

文章采集調用(WordPress每頁(yè)文章固定內容的側邊欄看多了很枯燥,怎么添加側邊欄?)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 163 次瀏覽 ? 2021-11-08 06:24 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(WordPress每頁(yè)文章固定內容的側邊欄看多了很枯燥,怎么添加側邊欄?)
  WordPress
  在文章的每一頁(yè)上看到太多固定內容側邊欄很無(wú)聊。如何添加側邊欄并使每個(gè) 文章 調用不同的側邊欄?本文文章不需要任何基礎,按照我的方法一步步完成即可。原因自然是不同的側邊欄可以讓用戶(hù)體驗和SEO效果更好。
  
  一、添加側邊欄
  參考資料:
  如何在wordpress中添加側邊欄并不只是上傳代碼那么簡(jiǎn)單,為了方便,放在wp的后臺部分是更好的選擇。說(shuō)一下流程
  首先我們找到主題的functions.php文件,打開(kāi)編輯functions.php,找到側邊欄的代碼,直接復制。
  function twentysixteen_widgets_init() {
register_sidebar( array(
'name' => __( 'Sidebar', 'twentysixteen' ),
'id' => 'sidebar-1',
'description' => __( 'Add widgets here to appear in your sidebar.', 'twentysixteen' ),
'before_widget' => '',
'after_widget' => '',
'before_title' => '',
'after_title' => '',
) );
}
  說(shuō)說(shuō)基本參數:
  我們只需要參考原創(chuàng )代碼進(jìn)行更改以用于特定用途。例如,我在 now 之后添加了一個(gè)段落
  register_sidebar( array(
'name' => __( 'Sidebar4', 'twentysixteen' ),
'id' => 'sidebar-4',
'description' => __( 'Add widgets here to appear in your sidebar.', 'twentysixteen' ),
'before_widget' => '',
'after_widget' => '',
'before_title' => '',
'after_title' => '',
) );
  這時(shí)候打開(kāi)小工具,發(fā)現后面有一個(gè)側邊欄,叫做sidebar4。您可以添加您想要的側邊欄效果工具。
  如下圖,我添加了三個(gè)“文章Measure column 1,文章Measure column 2,文章Measure column 3”。
  注意這里id的區別
  
  保存后返回wp背景的widget選項。打開(kāi)后,我們發(fā)現頁(yè)面上多了三個(gè)新的側邊欄。
  
  二、如何讓文章調用側邊欄
  參考資料:
  %e4%b8%8d%e5%90%8c%e6%96%87%e7%ab%a0%e6%98%be%e7%a4%ba%e4%b8%8d%e5%90%8c%e7 %9a%84%e4%be%a7%e8%be%b9%e6%a0%8f.html
  首先是添加文章需要綁定的代碼文件。
  主題根目錄對應新建三個(gè)文件,如下圖所示。
  
  以第一個(gè)文件為例,我這里的名字是side1.php
  內容是:
  
  修改functions.php文件和side1.php文件后。
  如何將 文章 綁定到側邊欄?使用自定義字段是一個(gè)不錯的選擇。具體使用方法是打開(kāi)文章編輯界面的顯示選項,然后輸入參數和數值。
  要使自定義字段起作用,您必須首先使 文章 能夠識別自定義字段的作用。我們編輯 single.php 文件。找到 get_sidebar() 函數:
  替換為:
  更新后,文章會(huì )根據我們輸入的自定義字段的值改變側邊欄。我在這里輸入:
  
  對應我剛剛測試的文件名。最后更新文章后,發(fā)現側邊欄變成了我們剛剛添加的側邊欄sid1的側邊欄。
  ps:注意標點(diǎn)符號,容易出錯。我花了很長(cháng)時(shí)間才發(fā)現。
  如果文章圖片、下載鏈接等信息有誤,請在評論區留言,博主會(huì )第一時(shí)間更新!如果喜歡,請打賞支持本站,謝謝大家! 查看全部

  文章采集調用(WordPress每頁(yè)文章固定內容的側邊欄看多了很枯燥,怎么添加側邊欄?)
  WordPress
  在文章的每一頁(yè)上看到太多固定內容側邊欄很無(wú)聊。如何添加側邊欄并使每個(gè) 文章 調用不同的側邊欄?本文文章不需要任何基礎,按照我的方法一步步完成即可。原因自然是不同的側邊欄可以讓用戶(hù)體驗和SEO效果更好。
  
  一、添加側邊欄
  參考資料:
  如何在wordpress中添加側邊欄并不只是上傳代碼那么簡(jiǎn)單,為了方便,放在wp的后臺部分是更好的選擇。說(shuō)一下流程
  首先我們找到主題的functions.php文件,打開(kāi)編輯functions.php,找到側邊欄的代碼,直接復制。
  function twentysixteen_widgets_init() {
register_sidebar( array(
'name' => __( 'Sidebar', 'twentysixteen' ),
'id' => 'sidebar-1',
'description' => __( 'Add widgets here to appear in your sidebar.', 'twentysixteen' ),
'before_widget' => '',
'after_widget' => '',
'before_title' => '',
'after_title' => '',
) );
}
  說(shuō)說(shuō)基本參數:
  我們只需要參考原創(chuàng )代碼進(jìn)行更改以用于特定用途。例如,我在 now 之后添加了一個(gè)段落
  register_sidebar( array(
'name' => __( 'Sidebar4', 'twentysixteen' ),
'id' => 'sidebar-4',
'description' => __( 'Add widgets here to appear in your sidebar.', 'twentysixteen' ),
'before_widget' => '',
'after_widget' => '',
'before_title' => '',
'after_title' => '',
) );
  這時(shí)候打開(kāi)小工具,發(fā)現后面有一個(gè)側邊欄,叫做sidebar4。您可以添加您想要的側邊欄效果工具。
  如下圖,我添加了三個(gè)“文章Measure column 1,文章Measure column 2,文章Measure column 3”。
  注意這里id的區別
  
  保存后返回wp背景的widget選項。打開(kāi)后,我們發(fā)現頁(yè)面上多了三個(gè)新的側邊欄。
  
  二、如何讓文章調用側邊欄
  參考資料:
  %e4%b8%8d%e5%90%8c%e6%96%87%e7%ab%a0%e6%98%be%e7%a4%ba%e4%b8%8d%e5%90%8c%e7 %9a%84%e4%be%a7%e8%be%b9%e6%a0%8f.html
  首先是添加文章需要綁定的代碼文件。
  主題根目錄對應新建三個(gè)文件,如下圖所示。
  
  以第一個(gè)文件為例,我這里的名字是side1.php
  內容是:
  
  修改functions.php文件和side1.php文件后。
  如何將 文章 綁定到側邊欄?使用自定義字段是一個(gè)不錯的選擇。具體使用方法是打開(kāi)文章編輯界面的顯示選項,然后輸入參數和數值。
  要使自定義字段起作用,您必須首先使 文章 能夠識別自定義字段的作用。我們編輯 single.php 文件。找到 get_sidebar() 函數:
  替換為:
  更新后,文章會(huì )根據我們輸入的自定義字段的值改變側邊欄。我在這里輸入:
  
  對應我剛剛測試的文件名。最后更新文章后,發(fā)現側邊欄變成了我們剛剛添加的側邊欄sid1的側邊欄。
  ps:注意標點(diǎn)符號,容易出錯。我花了很長(cháng)時(shí)間才發(fā)現。
  如果文章圖片、下載鏈接等信息有誤,請在評論區留言,博主會(huì )第一時(shí)間更新!如果喜歡,請打賞支持本站,謝謝大家!

文章采集調用(給你八分鐘搞定dedeCMS(織夢(mèng)內容管理系統),還是在易用性方面)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 144 次瀏覽 ? 2021-11-26 10:17 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(給你八分鐘搞定dedeCMS(織夢(mèng)內容管理系統),還是在易用性方面)
  給你八分鐘搞定dedecms(織夢(mèng)內容管理系統)
  ,并且在易用性方面,有了長(cháng)足的發(fā)展。德德cms免費版的主要目標用戶(hù)是個(gè)人站長(cháng),功能更側重于個(gè)人網(wǎng)站或中小型門(mén)戶(hù)網(wǎng)站的建設。當然,也有企業(yè)用戶(hù)和學(xué)校使用這個(gè)系統。當我第一次看到這個(gè)界面時(shí),我很陌生。只知道界面有很多功能,但不知道具體是做什么的……我用dedecms做官網(wǎng),所以沒(méi)用很多功能。. 第4分鐘_這里的核心主要是生成網(wǎng)站的導航,可以在導航中添加文章(這里特別強調,原因是喜歡這里的想法…… 把它放在導航里所有的內容都可以用文章的形式表達)這是工作的第一步,至少我是這么認為的..第5分鐘_系統在系統欄,什么我們需要的是設置我們的一些系統變量,這里設置系統變量后,方便我們在后續開(kāi)發(fā)過(guò)程中靈活調用這些變量。dedecms中的第六分鐘_template,最靈活的應該是系統提供的,這里我們可以將我們的頁(yè)面編輯成模板,然后調用...這里需要強調一下,這里涉及到緩存的東西,我們需要使用:一鍵更新網(wǎng)站--&gt;更新一切...因為我在做的時(shí)候遇到了緩存問(wèn)題,所以不敢相信自己哪里出錯了...
  1.2K 查看全部

  文章采集調用(給你八分鐘搞定dedeCMS(織夢(mèng)內容管理系統),還是在易用性方面)
  給你八分鐘搞定dedecms(織夢(mèng)內容管理系統)
  ,并且在易用性方面,有了長(cháng)足的發(fā)展。德德cms免費版的主要目標用戶(hù)是個(gè)人站長(cháng),功能更側重于個(gè)人網(wǎng)站或中小型門(mén)戶(hù)網(wǎng)站的建設。當然,也有企業(yè)用戶(hù)和學(xué)校使用這個(gè)系統。當我第一次看到這個(gè)界面時(shí),我很陌生。只知道界面有很多功能,但不知道具體是做什么的……我用dedecms做官網(wǎng),所以沒(méi)用很多功能。. 第4分鐘_這里的核心主要是生成網(wǎng)站的導航,可以在導航中添加文章(這里特別強調,原因是喜歡這里的想法…… 把它放在導航里所有的內容都可以用文章的形式表達)這是工作的第一步,至少我是這么認為的..第5分鐘_系統在系統欄,什么我們需要的是設置我們的一些系統變量,這里設置系統變量后,方便我們在后續開(kāi)發(fā)過(guò)程中靈活調用這些變量。dedecms中的第六分鐘_template,最靈活的應該是系統提供的,這里我們可以將我們的頁(yè)面編輯成模板,然后調用...這里需要強調一下,這里涉及到緩存的東西,我們需要使用:一鍵更新網(wǎng)站--&gt;更新一切...因為我在做的時(shí)候遇到了緩存問(wèn)題,所以不敢相信自己哪里出錯了...
  1.2K

文章采集調用(最好調用二級目錄(二級)、微博客和“教育頻道”,)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 127 次瀏覽 ? 2021-11-26 08:08 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(最好調用二級目錄(二級)、微博客和“教育頻道”,)
  在我的博客中,我建立了“勵志故事”、“微博”和“教育頻道”三個(gè)二級目錄,以提高百度蜘蛛的抓取速度和全面抓取,促進(jìn)網(wǎng)站&lt; @收錄,最好能實(shí)現zblog博客根目錄與二級目錄、二級目錄與根目錄、二級目錄與二級目錄之間的順暢調用。
  網(wǎng)上搜集了一些互相調用的方法。很多方法漏洞百出或者不夠全面,無(wú)法說(shuō)明zblog博客目錄之間如何相互調用。我在這里果斷寫(xiě)一篇文章文章,同時(shí)糾正各種錯誤,為博主提供正確的調用方法。
  根目錄調用二級目錄,二級目錄調用根目錄,二級目錄和二級目錄可以相互調用,方法相同。
  1.zblog根目錄調用二級目錄中最新的文章。
 ?、僭诒镜匦陆ㄒ粋€(gè)t_previous.asp文件(新建一個(gè)t_previous.txt文件并將擴展名改為asp),將該文件上傳到zblog博客根目錄下的include文件中。t_previous.asp 主要用于存儲從二級目錄調用的內容。
 ?、谠谀阋褂玫亩壞夸浀腇UNCTION文件夾中找到c_system_base.asp文件,通過(guò)ftp軟件下載到本地以txt文件格式打開(kāi),使用搜索工具找到
  調用 SaveToFile(BlogPath &amp; “/include/previous.asp”,strPrevious,”utf-8”,True)
  在代碼下方添加以下代碼:
  調用 SaveToFile(Left(BlogPath,len(BlogPath)-7) &amp; “/include/t_previous.asp”,strPrevious,”utf-8″,True)
  注:7為“jiaoyu/”的字符長(cháng)度。如果要調用“微博/”的內容,改成6,自己用的時(shí)候一定要注意這一點(diǎn)。因為很多博文都說(shuō)文章的數量顯示為7,表示這是完全錯誤的。未經(jīng)大腦或實(shí)踐檢驗的廢話(huà)。
 ?、凵蟼鱟_system_base.asp文件到你的二級目錄,重建文章就OK了!
 ?、茉谀阋{用的地方,比如文章的首頁(yè)側邊欄,你要在你的zblog采用的樣式中default.html對應位置添加如下代碼: 查看全部

  文章采集調用(最好調用二級目錄(二級)、微博客和“教育頻道”,)
  在我的博客中,我建立了“勵志故事”、“微博”和“教育頻道”三個(gè)二級目錄,以提高百度蜘蛛的抓取速度和全面抓取,促進(jìn)網(wǎng)站&lt; @收錄,最好能實(shí)現zblog博客根目錄與二級目錄、二級目錄與根目錄、二級目錄與二級目錄之間的順暢調用。
  網(wǎng)上搜集了一些互相調用的方法。很多方法漏洞百出或者不夠全面,無(wú)法說(shuō)明zblog博客目錄之間如何相互調用。我在這里果斷寫(xiě)一篇文章文章,同時(shí)糾正各種錯誤,為博主提供正確的調用方法。
  根目錄調用二級目錄,二級目錄調用根目錄,二級目錄和二級目錄可以相互調用,方法相同。
  1.zblog根目錄調用二級目錄中最新的文章。
 ?、僭诒镜匦陆ㄒ粋€(gè)t_previous.asp文件(新建一個(gè)t_previous.txt文件并將擴展名改為asp),將該文件上傳到zblog博客根目錄下的include文件中。t_previous.asp 主要用于存儲從二級目錄調用的內容。
 ?、谠谀阋褂玫亩壞夸浀腇UNCTION文件夾中找到c_system_base.asp文件,通過(guò)ftp軟件下載到本地以txt文件格式打開(kāi),使用搜索工具找到
  調用 SaveToFile(BlogPath &amp; “/include/previous.asp”,strPrevious,”utf-8”,True)
  在代碼下方添加以下代碼:
  調用 SaveToFile(Left(BlogPath,len(BlogPath)-7) &amp; “/include/t_previous.asp”,strPrevious,”utf-8″,True)
  注:7為“jiaoyu/”的字符長(cháng)度。如果要調用“微博/”的內容,改成6,自己用的時(shí)候一定要注意這一點(diǎn)。因為很多博文都說(shuō)文章的數量顯示為7,表示這是完全錯誤的。未經(jīng)大腦或實(shí)踐檢驗的廢話(huà)。
 ?、凵蟼鱟_system_base.asp文件到你的二級目錄,重建文章就OK了!
 ?、茉谀阋{用的地方,比如文章的首頁(yè)側邊欄,你要在你的zblog采用的樣式中default.html對應位置添加如下代碼:

文章采集調用(Dedecms采集節點(diǎn)管理界面1.2.增加新節點(diǎn)在采集指定節點(diǎn)和網(wǎng)址索引頁(yè)規則)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 166 次瀏覽 ? 2021-11-25 00:14 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(Dedecms采集節點(diǎn)管理界面1.2.增加新節點(diǎn)在采集指定節點(diǎn)和網(wǎng)址索引頁(yè)規則)
  前言:這篇文章是寫(xiě)給剛接觸德德的朋友cms采集的。選擇的目標站點(diǎn)是德德cms官方網(wǎng)站的dreameaver欄目文章,其內容頁(yè)面不收錄分頁(yè)。以圖文形式詳細講解了如何創(chuàng )建一個(gè)Basic 采集規則。本文分為三部分:第一部分主要介紹如何進(jìn)入采集界面以及添加采集節點(diǎn)的第一步:設置基本信息和URL索引頁(yè)面規則;第二節,主要是引入新的采集節點(diǎn)的第二步:設置字段獲取規則;第三部分主要介紹如何采集指定節點(diǎn)以及如何導出采集的內容?,F在進(jìn)入第一部分。
  1.1進(jìn)入采集節點(diǎn)管理界面
  如圖(圖1),在后臺管理界面主菜單中點(diǎn)擊“采集”,然后點(diǎn)擊“采集節點(diǎn)管理”進(jìn)入采集節點(diǎn)管理界面,如圖(圖2).
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖1-后臺管理界面
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖2-采集節點(diǎn)管理界面
  1.2. 添加新節點(diǎn)
  在采集節點(diǎn)管理界面,點(diǎn)擊左下角“添加新節點(diǎn)”或右上角“添加新節點(diǎn)”(如圖2),可以進(jìn)入“選擇內容”模型”界面,如(如圖3),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖3-選擇內容模型界面
  在“選擇內容模型”界面的下拉列表框中,有“常用文章”和“圖片集”可供選擇。根據頁(yè)面類(lèi)型為采集,選擇對應的內容模型。本文選擇“普通文章”,點(diǎn)擊確定,進(jìn)入“添加采集節點(diǎn):第一步設置基本信息和URL索引頁(yè)面規則”界面,如圖(圖文章4)顯示,
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖4-新建采集節點(diǎn):第一步是設置基本信息和URL索引頁(yè)面規則
  1.2.1 設置基本節點(diǎn)信息
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖5-基本節點(diǎn)信息
  如圖(圖5),
  節點(diǎn)名稱(chēng):給新創(chuàng )建的節點(diǎn)起一個(gè)名字,填寫(xiě)“采集Test(一)”;
  目標頁(yè)面編碼:通過(guò)采集設置目標頁(yè)面的編碼格式。共有三種類(lèi)型:GB2312、UTF8 和 BIG5。在采集的目標頁(yè)面右擊,選擇“查看源文件”即可獲得。
  腳步:
  (a) 打開(kāi)采集的目標頁(yè)面:;
  (b) 右擊選擇“查看源文件”,找到“字符集”,如圖(圖6),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖6-查看源文件
  等號后面的代碼就是需要的“編碼格式”,這里是“gb2312”。
  “區域匹配方式”:設置如何匹配所需采集的內容部分,可以是字符串,也可以是正則表達式。系統默認模式為字符串。如果您對正則表達式有更多的了解,可以在這里選擇正則表達式模式。
  “內容導入順序”:指定導入文章列表時(shí)的順序??梢赃x擇“與目標站一致”或“反向到目標站”。
  “防盜鏈模式”:目標站點(diǎn)是否有刷新限制采集。一開(kāi)始很難說(shuō),你需要測試才能知道。如果是這樣,您需要在此處設置“資源下載超時(shí)時(shí)間”。
  “引用網(wǎng)址”:填寫(xiě)任意文章內容頁(yè)面的網(wǎng)址,即采集。
  具體步驟:
  (a) 在打開(kāi)的文章列表頁(yè)面,點(diǎn)擊第一篇文章
  標題為“在Dreamweaver中為插入的Flash添加透明度”打開(kāi)文章內容頁(yè)面,如圖(圖7),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖7-文章內容頁(yè)面
  (b)此時(shí)瀏覽器的URL地址欄顯示的URL就是“引用URL”處需要填寫(xiě)的URL,如圖(圖8),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖8-瀏覽器的URL地址欄
  至此,“節點(diǎn)基本信息”就設置好了。最終結果,如圖(圖9),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖9-設置后節點(diǎn)的基本信息
  檢查無(wú)誤后,進(jìn)入下一步。
  1.2.2 設置獲取列表URL的規則
  如圖(圖10),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖10-列出URL獲取規則
  這里是設置采集的文章列表頁(yè)的匹配規則。如果采集的文章的列表頁(yè)面有一定的樣式,可以選擇“批量生成列表URL”;如果采集的文章的列表頁(yè)面完全沒(méi)有規則,那么可以選擇“手動(dòng)指定列表URL”;如果采集的站點(diǎn)提供RSS,您可以選擇“從RSS獲取”。對于特殊情況,例如:列表頁(yè)面部分規則,其余部分不規則,您可以在“匹配URL”中填寫(xiě)規則部分,然后在“手動(dòng)指定URL”中填寫(xiě)不規則部分。
  具體步驟:
  (a) 首先回到打開(kāi)的文章列表頁(yè)面,找到瀏覽器URL地址欄中顯示的URL(圖片8)和頁(yè)面底部的換頁(yè)部分。對于示例(如圖11),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖11-頁(yè)面變化
  (b) 點(diǎn)擊“2”打開(kāi)文章列表頁(yè)的第二頁(yè)。這時(shí)瀏覽器的URL地址欄中顯示的URL和頁(yè)面底部的頁(yè)面變化部分,如(圖12)和(圖13),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖12-第二頁(yè)的URL
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖13-page feed部分第二頁(yè)
  (c) 在打開(kāi)的文章列表頁(yè)的第二頁(yè),點(diǎn)擊(1)打開(kāi)文章列表頁(yè)的第一頁(yè),底部的換頁(yè)部分頁(yè)面如下圖11相同,只是瀏覽器的URL地址欄顯示的URL與之前的圖8不同,如下圖(圖14),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖14-第一頁(yè)的URL
  (d) 由(b)和(c)推斷,采集的文章列表頁(yè)的URL遵循如下規律:
  (*).html。為安全起見(jiàn),請自行測試更多列表頁(yè)面。確定規則后,在“匹配URL”中填寫(xiě)規則后跟文章列表頁(yè)。
  (e) 最后,指定需要采集的頁(yè)碼或正則數,并設置遞增的正則。
  至此,“列表URL獲取規則”部分的設置就結束了。最終結果,如圖(圖15),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖15-設置后的URL獲取規則列表
  確認無(wú)誤后,進(jìn)行下一步設置。
  1.2.3 設置文章 URL匹配規則
  如圖(圖16),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖16-文章 URL匹配規則
  這里是設置采集文章列表頁(yè)的匹配規則。
  具體步驟:
  (a)對于“區域開(kāi)頭的HTML”,可以在打開(kāi)的文章列表首頁(yè)右擊,選擇“查看源文件”。在源文件中,找到第一篇文章的標題《在Dreamweaver中為插入的Flash添加透明度》,如圖(圖17),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖17-查看源文件中第一篇文章文章的標題
  通過(guò)觀(guān)察,不難看出“
  ”這是整個(gè)文章列表的開(kāi)頭。因此,在“HTML開(kāi)頭的區域”中,填寫(xiě)“
  ”。
  (b) 在源文件中找到上一篇文章的文章《通過(guò)Dreamweaver設計網(wǎng)頁(yè)時(shí)組織CSS的建議》,如圖(圖18),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖18-查看源文件中上一篇文章的標題
  結合文章列表的開(kāi)頭并觀(guān)察,第一個(gè)"
  “這是整個(gè)文章列表的結尾。因此,在“區域末尾的HTML”中,您應該填寫(xiě)“
  ”。
  “如果鏈接收錄圖片”:設置收錄圖片的鏈接的處理方式,是否不處理,縮略圖可選采集??筛鶕?shí)際需要選擇。
  “重新過(guò)濾區域URL”:可以使用正則表達式再次過(guò)濾區域網(wǎng)站。這是針對一些需要保留或者過(guò)濾掉的內容,尤其是混合列表頁(yè)面,通過(guò)使用“必須收錄”或者“不能收錄”過(guò)濾掉你想要獲取的文章內容頁(yè)面的URL或者不想得到。
  具體步驟:
  回到正在打開(kāi)的文章列表首頁(yè)的源文件,通過(guò)觀(guān)察可以看出,每個(gè)文章內容頁(yè)地址的擴展名都是.html。因此,您可以在“必須收錄”中填寫(xiě)“.html”。
  至此,“文章URL匹配規則”的設置就結束了。最終結果,如圖(圖19),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖19-文章 設置后的URL匹配規則
  通過(guò)1.2.1子節,1.2.2子節和1.2.3子節,采集節點(diǎn)的節添加 一步完成設置。設置后的結果,如圖(圖20),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖20-設置后新增的采集節點(diǎn):第一步是設置基本信息和URL索引頁(yè)面規則
  一切都完成并檢查后,單擊“保存信息并進(jìn)入下一步設置”。如果之前的設置正確,點(diǎn)擊后會(huì )進(jìn)入“新建采集節點(diǎn):測試基本信息和URL索引頁(yè)面規則設置URL獲取規則測試”頁(yè)面,看到對應的文章列表地址. 如圖(圖21),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖21-URL獲取規則測試
  確認無(wú)誤后,點(diǎn)擊“保存信息,進(jìn)入下一步設置”。否則請點(diǎn)擊“返回上一步修改”。
  免責聲明:本站所有文章及圖片均來(lái)自用戶(hù)分享和網(wǎng)絡(luò )采集。文章及圖片版權歸原作者所有。僅供學(xué)習和參考。請不要將它們用于商業(yè)目的。如果您的權益受到損害,請聯(lián)系網(wǎng)站客服。
  有問(wèn)題可以加入織夢(mèng)技術(shù)QQ群一起交流學(xué)習
  本站VIP會(huì )員請加入織夢(mèng)58 VIP②群 PS:加入時(shí)請備注用戶(hù)名或昵稱(chēng)
  普通注冊會(huì )員或訪(fǎng)客請加入織夢(mèng)58技術(shù)交流②群 查看全部

  文章采集調用(Dedecms采集節點(diǎn)管理界面1.2.增加新節點(diǎn)在采集指定節點(diǎn)和網(wǎng)址索引頁(yè)規則)
  前言:這篇文章是寫(xiě)給剛接觸德德的朋友cms采集的。選擇的目標站點(diǎn)是德德cms官方網(wǎng)站的dreameaver欄目文章,其內容頁(yè)面不收錄分頁(yè)。以圖文形式詳細講解了如何創(chuàng )建一個(gè)Basic 采集規則。本文分為三部分:第一部分主要介紹如何進(jìn)入采集界面以及添加采集節點(diǎn)的第一步:設置基本信息和URL索引頁(yè)面規則;第二節,主要是引入新的采集節點(diǎn)的第二步:設置字段獲取規則;第三部分主要介紹如何采集指定節點(diǎn)以及如何導出采集的內容?,F在進(jìn)入第一部分。
  1.1進(jìn)入采集節點(diǎn)管理界面
  如圖(圖1),在后臺管理界面主菜單中點(diǎn)擊“采集”,然后點(diǎn)擊“采集節點(diǎn)管理”進(jìn)入采集節點(diǎn)管理界面,如圖(圖2).
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖1-后臺管理界面
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖2-采集節點(diǎn)管理界面
  1.2. 添加新節點(diǎn)
  在采集節點(diǎn)管理界面,點(diǎn)擊左下角“添加新節點(diǎn)”或右上角“添加新節點(diǎn)”(如圖2),可以進(jìn)入“選擇內容”模型”界面,如(如圖3),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖3-選擇內容模型界面
  在“選擇內容模型”界面的下拉列表框中,有“常用文章”和“圖片集”可供選擇。根據頁(yè)面類(lèi)型為采集,選擇對應的內容模型。本文選擇“普通文章”,點(diǎn)擊確定,進(jìn)入“添加采集節點(diǎn):第一步設置基本信息和URL索引頁(yè)面規則”界面,如圖(圖文章4)顯示,
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖4-新建采集節點(diǎn):第一步是設置基本信息和URL索引頁(yè)面規則
  1.2.1 設置基本節點(diǎn)信息
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖5-基本節點(diǎn)信息
  如圖(圖5),
  節點(diǎn)名稱(chēng):給新創(chuàng )建的節點(diǎn)起一個(gè)名字,填寫(xiě)“采集Test(一)”;
  目標頁(yè)面編碼:通過(guò)采集設置目標頁(yè)面的編碼格式。共有三種類(lèi)型:GB2312、UTF8 和 BIG5。在采集的目標頁(yè)面右擊,選擇“查看源文件”即可獲得。
  腳步:
  (a) 打開(kāi)采集的目標頁(yè)面:;
  (b) 右擊選擇“查看源文件”,找到“字符集”,如圖(圖6),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖6-查看源文件
  等號后面的代碼就是需要的“編碼格式”,這里是“gb2312”。
  “區域匹配方式”:設置如何匹配所需采集的內容部分,可以是字符串,也可以是正則表達式。系統默認模式為字符串。如果您對正則表達式有更多的了解,可以在這里選擇正則表達式模式。
  “內容導入順序”:指定導入文章列表時(shí)的順序??梢赃x擇“與目標站一致”或“反向到目標站”。
  “防盜鏈模式”:目標站點(diǎn)是否有刷新限制采集。一開(kāi)始很難說(shuō),你需要測試才能知道。如果是這樣,您需要在此處設置“資源下載超時(shí)時(shí)間”。
  “引用網(wǎng)址”:填寫(xiě)任意文章內容頁(yè)面的網(wǎng)址,即采集。
  具體步驟:
  (a) 在打開(kāi)的文章列表頁(yè)面,點(diǎn)擊第一篇文章
  標題為“在Dreamweaver中為插入的Flash添加透明度”打開(kāi)文章內容頁(yè)面,如圖(圖7),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖7-文章內容頁(yè)面
  (b)此時(shí)瀏覽器的URL地址欄顯示的URL就是“引用URL”處需要填寫(xiě)的URL,如圖(圖8),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖8-瀏覽器的URL地址欄
  至此,“節點(diǎn)基本信息”就設置好了。最終結果,如圖(圖9),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖9-設置后節點(diǎn)的基本信息
  檢查無(wú)誤后,進(jìn)入下一步。
  1.2.2 設置獲取列表URL的規則
  如圖(圖10),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖10-列出URL獲取規則
  這里是設置采集的文章列表頁(yè)的匹配規則。如果采集的文章的列表頁(yè)面有一定的樣式,可以選擇“批量生成列表URL”;如果采集的文章的列表頁(yè)面完全沒(méi)有規則,那么可以選擇“手動(dòng)指定列表URL”;如果采集的站點(diǎn)提供RSS,您可以選擇“從RSS獲取”。對于特殊情況,例如:列表頁(yè)面部分規則,其余部分不規則,您可以在“匹配URL”中填寫(xiě)規則部分,然后在“手動(dòng)指定URL”中填寫(xiě)不規則部分。
  具體步驟:
  (a) 首先回到打開(kāi)的文章列表頁(yè)面,找到瀏覽器URL地址欄中顯示的URL(圖片8)和頁(yè)面底部的換頁(yè)部分。對于示例(如圖11),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖11-頁(yè)面變化
  (b) 點(diǎn)擊“2”打開(kāi)文章列表頁(yè)的第二頁(yè)。這時(shí)瀏覽器的URL地址欄中顯示的URL和頁(yè)面底部的頁(yè)面變化部分,如(圖12)和(圖13),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖12-第二頁(yè)的URL
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖13-page feed部分第二頁(yè)
  (c) 在打開(kāi)的文章列表頁(yè)的第二頁(yè),點(diǎn)擊(1)打開(kāi)文章列表頁(yè)的第一頁(yè),底部的換頁(yè)部分頁(yè)面如下圖11相同,只是瀏覽器的URL地址欄顯示的URL與之前的圖8不同,如下圖(圖14),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖14-第一頁(yè)的URL
  (d) 由(b)和(c)推斷,采集的文章列表頁(yè)的URL遵循如下規律:
  (*).html。為安全起見(jiàn),請自行測試更多列表頁(yè)面。確定規則后,在“匹配URL”中填寫(xiě)規則后跟文章列表頁(yè)。
  (e) 最后,指定需要采集的頁(yè)碼或正則數,并設置遞增的正則。
  至此,“列表URL獲取規則”部分的設置就結束了。最終結果,如圖(圖15),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖15-設置后的URL獲取規則列表
  確認無(wú)誤后,進(jìn)行下一步設置。
  1.2.3 設置文章 URL匹配規則
  如圖(圖16),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖16-文章 URL匹配規則
  這里是設置采集文章列表頁(yè)的匹配規則。
  具體步驟:
  (a)對于“區域開(kāi)頭的HTML”,可以在打開(kāi)的文章列表首頁(yè)右擊,選擇“查看源文件”。在源文件中,找到第一篇文章的標題《在Dreamweaver中為插入的Flash添加透明度》,如圖(圖17),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖17-查看源文件中第一篇文章文章的標題
  通過(guò)觀(guān)察,不難看出“
  ”這是整個(gè)文章列表的開(kāi)頭。因此,在“HTML開(kāi)頭的區域”中,填寫(xiě)“
  ”。
  (b) 在源文件中找到上一篇文章的文章《通過(guò)Dreamweaver設計網(wǎng)頁(yè)時(shí)組織CSS的建議》,如圖(圖18),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖18-查看源文件中上一篇文章的標題
  結合文章列表的開(kāi)頭并觀(guān)察,第一個(gè)"
  “這是整個(gè)文章列表的結尾。因此,在“區域末尾的HTML”中,您應該填寫(xiě)“
  ”。
  “如果鏈接收錄圖片”:設置收錄圖片的鏈接的處理方式,是否不處理,縮略圖可選采集??筛鶕?shí)際需要選擇。
  “重新過(guò)濾區域URL”:可以使用正則表達式再次過(guò)濾區域網(wǎng)站。這是針對一些需要保留或者過(guò)濾掉的內容,尤其是混合列表頁(yè)面,通過(guò)使用“必須收錄”或者“不能收錄”過(guò)濾掉你想要獲取的文章內容頁(yè)面的URL或者不想得到。
  具體步驟:
  回到正在打開(kāi)的文章列表首頁(yè)的源文件,通過(guò)觀(guān)察可以看出,每個(gè)文章內容頁(yè)地址的擴展名都是.html。因此,您可以在“必須收錄”中填寫(xiě)“.html”。
  至此,“文章URL匹配規則”的設置就結束了。最終結果,如圖(圖19),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖19-文章 設置后的URL匹配規則
  通過(guò)1.2.1子節,1.2.2子節和1.2.3子節,采集節點(diǎn)的節添加 一步完成設置。設置后的結果,如圖(圖20),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖20-設置后新增的采集節點(diǎn):第一步是設置基本信息和URL索引頁(yè)面規則
  一切都完成并檢查后,單擊“保存信息并進(jìn)入下一步設置”。如果之前的設置正確,點(diǎn)擊后會(huì )進(jìn)入“新建采集節點(diǎn):測試基本信息和URL索引頁(yè)面規則設置URL獲取規則測試”頁(yè)面,看到對應的文章列表地址. 如圖(圖21),
  
 ?。ū緢D來(lái)源于網(wǎng)絡(luò ),如有侵權請聯(lián)系刪除?。?br />   圖21-URL獲取規則測試
  確認無(wú)誤后,點(diǎn)擊“保存信息,進(jìn)入下一步設置”。否則請點(diǎn)擊“返回上一步修改”。
  免責聲明:本站所有文章及圖片均來(lái)自用戶(hù)分享和網(wǎng)絡(luò )采集。文章及圖片版權歸原作者所有。僅供學(xué)習和參考。請不要將它們用于商業(yè)目的。如果您的權益受到損害,請聯(lián)系網(wǎng)站客服。
  有問(wèn)題可以加入織夢(mèng)技術(shù)QQ群一起交流學(xué)習
  本站VIP會(huì )員請加入織夢(mèng)58 VIP②群 PS:加入時(shí)請備注用戶(hù)名或昵稱(chēng)
  普通注冊會(huì )員或訪(fǎng)客請加入織夢(mèng)58技術(shù)交流②群

文章采集調用(,ajax動(dòng)態(tài)加載的網(wǎng)頁(yè)并提取網(wǎng)頁(yè)信息(需進(jìn)行) )

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 135 次瀏覽 ? 2021-11-24 23:29 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(,ajax動(dòng)態(tài)加載的網(wǎng)頁(yè)并提取網(wǎng)頁(yè)信息(需進(jìn)行)
)
  網(wǎng)頁(yè)有幾種類(lèi)型的采集:
  1.靜態(tài)網(wǎng)頁(yè)
  2.動(dòng)態(tài)網(wǎng)頁(yè)(需要js、ajax動(dòng)態(tài)加載數據的網(wǎng)頁(yè))
  3.采集的網(wǎng)頁(yè)前需要模擬登錄
  4.加密網(wǎng)頁(yè)
  3、4個(gè)解決方案和想法會(huì )在后續博客中說(shuō)明
  目前,只有 1、2 的解決方案和想法:
  一.靜態(tài)網(wǎng)頁(yè)
  解析靜態(tài)網(wǎng)頁(yè)的方法有很多很多采集! java和python都提供了很多工具包或者框架,比如java httpclient、Htmlunit、Jsoup、HtmlParser等,Python urllib、urllib2、BeautifulSoup、Scrapy等,不詳,網(wǎng)上有很多資料。
  二.動(dòng)態(tài)網(wǎng)頁(yè)
  對于采集來(lái)說(shuō),動(dòng)態(tài)網(wǎng)頁(yè)就是那些需要js和ajax動(dòng)態(tài)加載獲取數據的網(wǎng)頁(yè)。 采集 有兩個(gè)數據計劃:
  1.通過(guò)抓包工具分析js、ajax的請求,模擬js加載后獲取數據的請求。
  2.調用瀏覽器內核,獲取加載網(wǎng)頁(yè)的源碼,然后解析源碼
  研究爬蟲(chóng)的人一定對js有所了解。網(wǎng)上學(xué)習資料很多,不做聲明,本文僅為文章
  的完整性
  調用瀏覽器內核的工具包也有幾個(gè),不過(guò)不是今天的重點(diǎn)。今天的重點(diǎn)是文章的標題。 Scrapy框架結合Spynner采集需要動(dòng)態(tài)加載js、ajax并提取頁(yè)面信息(以采集微信公眾號文章列表為例)
  開(kāi)始...
  1.創(chuàng )建微信公眾號文章list采集項目(以下簡(jiǎn)稱(chēng)微采集)
  scrapy startproject weixin
  2.在spider目錄下創(chuàng )建一個(gè)采集spider文件
  vim weixinlist.py
  編寫(xiě)如下代碼
  from weixin.items import WeixinItem
import sys
sys.path.insert(0,'..')
import scrapy
import time
from scrapy import Spider
class MySpider(Spider):
name = 'weixinlist'
allowed_domains = []
start_urls = [
'http://weixin.sogou.com/gzh?openid=oIWsFt5QBSP8mn4Jx2WSGw_rCNzQ',
]
download_delay = 1
print('start init....')
def parse(self, response):
sel=scrapy.Selector(response)
print('hello,world!')
print(response)
print(sel)
list=sel.xpath('//div[@class="txt-box"]/h4')
items=[]
for single in list:
data=WeixinItem()
title=single.xpath('a/text()').extract()
link=single.xpath('a/@href').extract()
data['title']=title
data['link']=link
if len(title)>0:
print(title[0].encode('utf-8'))
print(link)
  3.在items.py中添加WeixinItem類(lèi)
  4.在items.py的同級目錄下創(chuàng )建一個(gè)下載中間件downloadwebkit.py,寫(xiě)入如下代碼:
  import spynner
import pyquery
import time
import BeautifulSoup
import sys
from scrapy.http import HtmlResponse
class WebkitDownloaderTest( object ):
def process_request( self, request, spider ):
# if spider.name in settings.WEBKIT_DOWNLOADER:
# if( type(request) is not FormRequest ):
browser = spynner.Browser()
browser.create_webview()
browser.set_html_parser(pyquery.PyQuery)
browser.load(request.url, 20)
try:
browser.wait_load(10)
except:
pass
string = browser.html
string=string.encode('utf-8')
renderedBody = str(string)
return HtmlResponse( request.url, body=renderedBody )
  這段代碼是在網(wǎng)頁(yè)加載完成后調用瀏覽器內核獲取源碼
  5.在setting.py文件中配置并聲明下載使用下載中間件
  在底部添加以下代碼:
  #which spider should use WEBKIT
WEBKIT_DOWNLOADER=['weixinlist']
DOWNLOADER_MIDDLEWARES = {
'weixin.downloadwebkit.WebkitDownloaderTest': 543,
}
import os
os.environ["DISPLAY"] = ":0"
  6.運行程序:
  運行命令:
  scrapy crawl weixinlist
  運行結果:
  kevinflynndeMacBook-Pro:spiders kevinflynn$ scrapy crawl weixinlist
start init....
2015-07-28 21:13:55 [scrapy] INFO: Scrapy 1.0.1 started (bot: weixin)
2015-07-28 21:13:55 [scrapy] INFO: Optional features available: ssl, http11
2015-07-28 21:13:55 [scrapy] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'weixin.spiders', 'SPIDER_MODULES': ['weixin.spiders'], 'BOT_NAME': 'weixin'}
2015-07-28 21:13:55 [py.warnings] WARNING: :0: UserWarning: You do not have a working installation of the service_identity module: 'No module named service_identity'. Please install it from and make sure all of its dependencies are satisfied. Without the service_identity module and a recent enough pyOpenSSL to support it, Twisted can perform only rudimentary TLS client hostname verification. Many valid certificate/hostname mappings may be rejected.
2015-07-28 21:13:55 [scrapy] INFO: Enabled extensions: CloseSpider, TelnetConsole, LogStats, CoreStats, SpiderState
2015-07-28 21:13:55 [scrapy] INFO: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, WebkitDownloaderTest, DefaultHeadersMiddleware, MetaRefreshMiddleware, HttpCompressionMiddleware, RedirectMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats
2015-07-28 21:13:55 [scrapy] INFO: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware
2015-07-28 21:13:55 [scrapy] INFO: Enabled item pipelines:
2015-07-28 21:13:55 [scrapy] INFO: Spider opened
2015-07-28 21:13:55 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2015-07-28 21:13:55 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023
QFont::setPixelSize: Pixel size
互聯(lián)網(wǎng)協(xié)議入門(mén)
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=210032701&idx=1&sn=6b1fc2bc5d4eb0f87513751e4ccf610c&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
自己動(dòng)手寫(xiě)貝葉斯分類(lèi)器給圖書(shū)分類(lèi)
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=210013947&idx=1&sn=1f36ba5794e22d0fb94a9900230e74ca&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
不當免費技術(shù)支持的10種方法
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=209998175&idx=1&sn=216106034a3b4afea6e67f813ce1971f&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
以 Python 為實(shí)例,介紹貝葉斯理論
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=209998175&idx=2&sn=2f3dee873d7350dfe9546ab4a9323c05&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
我從騰訊那“偷了”3000萬(wàn)QQ用戶(hù)數據,出了份很有趣的...
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=209980651&idx=1&sn=11fd40a2dee5132b0de8d4c79a97dac2&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
如何用 Spark 快速開(kāi)發(fā)應用?
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=209820653&idx=2&sn=23712b78d82fb412e960c6aa1e361dd3&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
一起來(lái)寫(xiě)個(gè)簡(jiǎn)單的解釋器(1)
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=209797651&idx=1&sn=15073e27080e6b637c8d24b6bb815417&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
那個(gè)直接在機器碼中改 Bug 的家伙
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=209762756&idx=1&sn=04ae1bc3a366d358f474ac3e9a85fb60&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
把一個(gè)庫開(kāi)源,你該做些什么
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=209762756&idx=2&sn=0ac961ffd82ead6078a60f25fed3c2c4&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
程序員的困境
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=209696436&idx=1&sn=8cb55b03c8b95586ba4498c64fa54513&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
2015-07-28 21:14:08 [scrapy] INFO: Closing spider (finished)
2015-07-28 21:14:08 [scrapy] INFO: Dumping Scrapy stats:
{'downloader/response_bytes': 131181,
'downloader/response_count': 1,
'downloader/response_status_count/200': 1,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2015, 7, 28, 13, 14, 8, 958071),
'log_count/DEBUG': 2,
'log_count/INFO': 7,
'log_count/WARNING': 1,
'response_received_count': 1,
'scheduler/dequeued': 1,
'scheduler/dequeued/memory': 1,
'scheduler/enqueued': 1,
'scheduler/enqueued/memory': 1,
'start_time': datetime.datetime(2015, 7, 28, 13, 13, 55, 688111)}
2015-07-28 21:14:08 [scrapy] INFO: Spider closed (finished)
QThread: Destroyed while thread is still running
kevinflynndeMacBook-Pro:spiders kevinflynn$ 查看全部

  文章采集調用(,ajax動(dòng)態(tài)加載的網(wǎng)頁(yè)并提取網(wǎng)頁(yè)信息(需進(jìn)行)
)
  網(wǎng)頁(yè)有幾種類(lèi)型的采集:
  1.靜態(tài)網(wǎng)頁(yè)
  2.動(dòng)態(tài)網(wǎng)頁(yè)(需要js、ajax動(dòng)態(tài)加載數據的網(wǎng)頁(yè))
  3.采集的網(wǎng)頁(yè)前需要模擬登錄
  4.加密網(wǎng)頁(yè)
  3、4個(gè)解決方案和想法會(huì )在后續博客中說(shuō)明
  目前,只有 1、2 的解決方案和想法:
  一.靜態(tài)網(wǎng)頁(yè)
  解析靜態(tài)網(wǎng)頁(yè)的方法有很多很多采集! java和python都提供了很多工具包或者框架,比如java httpclient、Htmlunit、Jsoup、HtmlParser等,Python urllib、urllib2、BeautifulSoup、Scrapy等,不詳,網(wǎng)上有很多資料。
  二.動(dòng)態(tài)網(wǎng)頁(yè)
  對于采集來(lái)說(shuō),動(dòng)態(tài)網(wǎng)頁(yè)就是那些需要js和ajax動(dòng)態(tài)加載獲取數據的網(wǎng)頁(yè)。 采集 有兩個(gè)數據計劃:
  1.通過(guò)抓包工具分析js、ajax的請求,模擬js加載后獲取數據的請求。
  2.調用瀏覽器內核,獲取加載網(wǎng)頁(yè)的源碼,然后解析源碼
  研究爬蟲(chóng)的人一定對js有所了解。網(wǎng)上學(xué)習資料很多,不做聲明,本文僅為文章
  的完整性
  調用瀏覽器內核的工具包也有幾個(gè),不過(guò)不是今天的重點(diǎn)。今天的重點(diǎn)是文章的標題。 Scrapy框架結合Spynner采集需要動(dòng)態(tài)加載js、ajax并提取頁(yè)面信息(以采集微信公眾號文章列表為例)
  開(kāi)始...
  1.創(chuàng )建微信公眾號文章list采集項目(以下簡(jiǎn)稱(chēng)微采集)
  scrapy startproject weixin
  2.在spider目錄下創(chuàng )建一個(gè)采集spider文件
  vim weixinlist.py
  編寫(xiě)如下代碼
  from weixin.items import WeixinItem
import sys
sys.path.insert(0,'..')
import scrapy
import time
from scrapy import Spider
class MySpider(Spider):
name = 'weixinlist'
allowed_domains = []
start_urls = [
'http://weixin.sogou.com/gzh?openid=oIWsFt5QBSP8mn4Jx2WSGw_rCNzQ',
]
download_delay = 1
print('start init....')
def parse(self, response):
sel=scrapy.Selector(response)
print('hello,world!')
print(response)
print(sel)
list=sel.xpath('//div[@class="txt-box"]/h4')
items=[]
for single in list:
data=WeixinItem()
title=single.xpath('a/text()').extract()
link=single.xpath('a/@href').extract()
data['title']=title
data['link']=link
if len(title)>0:
print(title[0].encode('utf-8'))
print(link)
  3.在items.py中添加WeixinItem類(lèi)
  4.在items.py的同級目錄下創(chuàng )建一個(gè)下載中間件downloadwebkit.py,寫(xiě)入如下代碼:
  import spynner
import pyquery
import time
import BeautifulSoup
import sys
from scrapy.http import HtmlResponse
class WebkitDownloaderTest( object ):
def process_request( self, request, spider ):
# if spider.name in settings.WEBKIT_DOWNLOADER:
# if( type(request) is not FormRequest ):
browser = spynner.Browser()
browser.create_webview()
browser.set_html_parser(pyquery.PyQuery)
browser.load(request.url, 20)
try:
browser.wait_load(10)
except:
pass
string = browser.html
string=string.encode('utf-8')
renderedBody = str(string)
return HtmlResponse( request.url, body=renderedBody )
  這段代碼是在網(wǎng)頁(yè)加載完成后調用瀏覽器內核獲取源碼
  5.在setting.py文件中配置并聲明下載使用下載中間件
  在底部添加以下代碼:
  #which spider should use WEBKIT
WEBKIT_DOWNLOADER=['weixinlist']
DOWNLOADER_MIDDLEWARES = {
'weixin.downloadwebkit.WebkitDownloaderTest': 543,
}
import os
os.environ["DISPLAY"] = ":0"
  6.運行程序:
  運行命令:
  scrapy crawl weixinlist
  運行結果:
  kevinflynndeMacBook-Pro:spiders kevinflynn$ scrapy crawl weixinlist
start init....
2015-07-28 21:13:55 [scrapy] INFO: Scrapy 1.0.1 started (bot: weixin)
2015-07-28 21:13:55 [scrapy] INFO: Optional features available: ssl, http11
2015-07-28 21:13:55 [scrapy] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'weixin.spiders', 'SPIDER_MODULES': ['weixin.spiders'], 'BOT_NAME': 'weixin'}
2015-07-28 21:13:55 [py.warnings] WARNING: :0: UserWarning: You do not have a working installation of the service_identity module: 'No module named service_identity'. Please install it from and make sure all of its dependencies are satisfied. Without the service_identity module and a recent enough pyOpenSSL to support it, Twisted can perform only rudimentary TLS client hostname verification. Many valid certificate/hostname mappings may be rejected.
2015-07-28 21:13:55 [scrapy] INFO: Enabled extensions: CloseSpider, TelnetConsole, LogStats, CoreStats, SpiderState
2015-07-28 21:13:55 [scrapy] INFO: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, WebkitDownloaderTest, DefaultHeadersMiddleware, MetaRefreshMiddleware, HttpCompressionMiddleware, RedirectMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats
2015-07-28 21:13:55 [scrapy] INFO: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware
2015-07-28 21:13:55 [scrapy] INFO: Enabled item pipelines:
2015-07-28 21:13:55 [scrapy] INFO: Spider opened
2015-07-28 21:13:55 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2015-07-28 21:13:55 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023
QFont::setPixelSize: Pixel size
互聯(lián)網(wǎng)協(xié)議入門(mén)
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=210032701&idx=1&sn=6b1fc2bc5d4eb0f87513751e4ccf610c&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
自己動(dòng)手寫(xiě)貝葉斯分類(lèi)器給圖書(shū)分類(lèi)
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=210013947&idx=1&sn=1f36ba5794e22d0fb94a9900230e74ca&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
不當免費技術(shù)支持的10種方法
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=209998175&idx=1&sn=216106034a3b4afea6e67f813ce1971f&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
以 Python 為實(shí)例,介紹貝葉斯理論
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=209998175&idx=2&sn=2f3dee873d7350dfe9546ab4a9323c05&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
我從騰訊那“偷了”3000萬(wàn)QQ用戶(hù)數據,出了份很有趣的...
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=209980651&idx=1&sn=11fd40a2dee5132b0de8d4c79a97dac2&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
如何用 Spark 快速開(kāi)發(fā)應用?
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=209820653&idx=2&sn=23712b78d82fb412e960c6aa1e361dd3&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
一起來(lái)寫(xiě)個(gè)簡(jiǎn)單的解釋器(1)
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=209797651&idx=1&sn=15073e27080e6b637c8d24b6bb815417&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
那個(gè)直接在機器碼中改 Bug 的家伙
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=209762756&idx=1&sn=04ae1bc3a366d358f474ac3e9a85fb60&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
把一個(gè)庫開(kāi)源,你該做些什么
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=209762756&idx=2&sn=0ac961ffd82ead6078a60f25fed3c2c4&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
程序員的困境
[u'http://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=209696436&idx=1&sn=8cb55b03c8b95586ba4498c64fa54513&3rd=MzA3MDU4NTYzMw==&scene=6#rd']
2015-07-28 21:14:08 [scrapy] INFO: Closing spider (finished)
2015-07-28 21:14:08 [scrapy] INFO: Dumping Scrapy stats:
{'downloader/response_bytes': 131181,
'downloader/response_count': 1,
'downloader/response_status_count/200': 1,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2015, 7, 28, 13, 14, 8, 958071),
'log_count/DEBUG': 2,
'log_count/INFO': 7,
'log_count/WARNING': 1,
'response_received_count': 1,
'scheduler/dequeued': 1,
'scheduler/dequeued/memory': 1,
'scheduler/enqueued': 1,
'scheduler/enqueued/memory': 1,
'start_time': datetime.datetime(2015, 7, 28, 13, 13, 55, 688111)}
2015-07-28 21:14:08 [scrapy] INFO: Spider closed (finished)
QThread: Destroyed while thread is still running
kevinflynndeMacBook-Pro:spiders kevinflynn$

文章采集調用(本文對使用到的技術(shù)僅做簡(jiǎn)單的介紹(組圖) )

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 144 次瀏覽 ? 2021-11-24 23:25 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(本文對使用到的技術(shù)僅做簡(jiǎn)單的介紹(組圖)
)
  本文僅簡(jiǎn)單介紹所使用的技術(shù)。如果想了解更多,請到相應官網(wǎng)網(wǎng)站學(xué)習。
  本文適合對爬蟲(chóng)相關(guān)知識接觸較少的新手,主要是普及Selenium是如何做爬蟲(chóng)的,請跳過(guò)。
  ?
  很多人學(xué)習python,掌握了基本語(yǔ)法后,不知道從哪里找案例上手。
  許多做過(guò)案例研究的人不知道如何學(xué)習更高級的知識。
  所以對于這三類(lèi)人,我會(huì )為大家提供一個(gè)很好的學(xué)習平臺,免費領(lǐng)取視頻教程、電子書(shū)、課程源碼!
  QQ群:701698587
  1.硒簡(jiǎn)介
  1.簡(jiǎn)介
  Selenium 是一個(gè)用于測試網(wǎng)站的自動(dòng)化測試工具,支持各種主流界面瀏覽器。
  總之,Selenium是一個(gè)網(wǎng)站自動(dòng)化測試的庫,它的定位是做自動(dòng)化測試。我們也可以將其作為爬蟲(chóng)來(lái)獲取一些網(wǎng)頁(yè)信息,這個(gè)爬蟲(chóng)模擬了真實(shí)瀏覽器的操作,更加實(shí)用。
  Selenium 是市場(chǎng)上唯一可以與付費產(chǎn)品競爭的自動(dòng)化測試工具。
  如果想了解更多可以到Selenium中文網(wǎng)學(xué)習:戳我去Selenium中文網(wǎng)
  2.安裝
  要使用Selenium,首先必須在python中安裝相關(guān)的庫:
  pip install Selenium
  安裝對應瀏覽器的webdricer驅動(dòng)文件,這里有chrome的鏈接,其他瀏覽器可以網(wǎng)上搜索。戳我下載chrome webdriver驅動(dòng)文件。選擇合適的版本,我選擇了2.23。
  下載解壓后得到exe文件,將此文件復制到chrom安裝文件夾中:
  通常它是 C:\Program Files (x86)\Google\Chrome\Application, 或 C:\Program Files\Google\Chrome\Application.
  然后配置環(huán)境變量的路徑:
  
  最后寫(xiě)一段代碼進(jìn)行測試:
  from selenium import webdriverdriver=webdriver.Chrome(executable_path="C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe")
  如果看到打開(kāi)了一個(gè)瀏覽器窗口就成功了,否則下面會(huì )出現相應的錯誤提示,需要查看前面的步驟。
  3. 簡(jiǎn)單介紹
  1. 元素定位方法:
  
  基本上前幾種方式就可以拿到需要的元素了,需要判斷結果是否唯一來(lái)選擇對應的選擇器。
  通過(guò)驅動(dòng)對象調用此方法會(huì )返回一個(gè)標簽對象或標簽對象列表。標簽下的文本可以通過(guò).text獲取,標簽的其他屬性值可以通過(guò)get_attribute()獲取。
  分享一個(gè)快速定位元素的小妙招:查看所需信息所在標簽的id、class、name是否與標簽下信息的語(yǔ)義相關(guān)。一般來(lái)說(shuō),相關(guān)的都是唯一的。(從開(kāi)發(fā)者的角度考慮)如果當前標簽不能唯一定位,考慮父標簽。以此類(lèi)推,你總能找到一種定位方法。
  2.鼠標事件(模擬鼠標操作)
  
  可以通過(guò)標簽對象調用。
  3.鍵盤(pán)事件(模擬鍵盤(pán)操作)
  
  4.其他操作
  其他操作包括控制瀏覽器的操作、獲取斷言信息、表單切換、多窗口切換、警告框處理、下拉框處理、文件上傳操作、cookie操作、調用js代碼、截圖、關(guān)閉瀏覽器等操作,因為這里我用的不多,就不一一列舉了,自己去官網(wǎng)學(xué)習吧。
  2.爬取目標
  本次實(shí)戰爬蟲(chóng)主要完成以下目標:
  在QQ音樂(lè )官網(wǎng)爬取指定歌手的前5首歌曲基本信息和前500名流行評論。
  
  
  
  1.獲取前五首歌曲的url
  分析這個(gè)頁(yè)面的代碼,我們知道包裹所有歌曲信息的tag的class是唯一的,我們可以拿到它,然后遍歷所有的子標簽,或者一次性獲取所有包裹歌曲信息的div,并且然后獲取里面的 a 標簽。
  
  2.獲取歌曲基本信息
  可以看出,基本信息標簽中的類(lèi)名有一部分語(yǔ)義,所以可以通過(guò)css選擇器來(lái)唯一確定。
  
  3.獲取歌詞
  頁(yè)面上的歌詞不完整,貌似需要點(diǎn)擊展開(kāi),其實(shí)所有的歌詞都已經(jīng)在標簽里了,只是顯示問(wèn)題。
   查看全部

  文章采集調用(本文對使用到的技術(shù)僅做簡(jiǎn)單的介紹(組圖)
)
  本文僅簡(jiǎn)單介紹所使用的技術(shù)。如果想了解更多,請到相應官網(wǎng)網(wǎng)站學(xué)習。
  本文適合對爬蟲(chóng)相關(guān)知識接觸較少的新手,主要是普及Selenium是如何做爬蟲(chóng)的,請跳過(guò)。
  ?
  很多人學(xué)習python,掌握了基本語(yǔ)法后,不知道從哪里找案例上手。
  許多做過(guò)案例研究的人不知道如何學(xué)習更高級的知識。
  所以對于這三類(lèi)人,我會(huì )為大家提供一個(gè)很好的學(xué)習平臺,免費領(lǐng)取視頻教程、電子書(shū)、課程源碼!
  QQ群:701698587
  1.硒簡(jiǎn)介
  1.簡(jiǎn)介
  Selenium 是一個(gè)用于測試網(wǎng)站的自動(dòng)化測試工具,支持各種主流界面瀏覽器。
  總之,Selenium是一個(gè)網(wǎng)站自動(dòng)化測試的庫,它的定位是做自動(dòng)化測試。我們也可以將其作為爬蟲(chóng)來(lái)獲取一些網(wǎng)頁(yè)信息,這個(gè)爬蟲(chóng)模擬了真實(shí)瀏覽器的操作,更加實(shí)用。
  Selenium 是市場(chǎng)上唯一可以與付費產(chǎn)品競爭的自動(dòng)化測試工具。
  如果想了解更多可以到Selenium中文網(wǎng)學(xué)習:戳我去Selenium中文網(wǎng)
  2.安裝
  要使用Selenium,首先必須在python中安裝相關(guān)的庫:
  pip install Selenium
  安裝對應瀏覽器的webdricer驅動(dòng)文件,這里有chrome的鏈接,其他瀏覽器可以網(wǎng)上搜索。戳我下載chrome webdriver驅動(dòng)文件。選擇合適的版本,我選擇了2.23。
  下載解壓后得到exe文件,將此文件復制到chrom安裝文件夾中:
  通常它是 C:\Program Files (x86)\Google\Chrome\Application, 或 C:\Program Files\Google\Chrome\Application.
  然后配置環(huán)境變量的路徑:
  
  最后寫(xiě)一段代碼進(jìn)行測試:
  from selenium import webdriverdriver=webdriver.Chrome(executable_path="C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe")
  如果看到打開(kāi)了一個(gè)瀏覽器窗口就成功了,否則下面會(huì )出現相應的錯誤提示,需要查看前面的步驟。
  3. 簡(jiǎn)單介紹
  1. 元素定位方法:
  
  基本上前幾種方式就可以拿到需要的元素了,需要判斷結果是否唯一來(lái)選擇對應的選擇器。
  通過(guò)驅動(dòng)對象調用此方法會(huì )返回一個(gè)標簽對象或標簽對象列表。標簽下的文本可以通過(guò).text獲取,標簽的其他屬性值可以通過(guò)get_attribute()獲取。
  分享一個(gè)快速定位元素的小妙招:查看所需信息所在標簽的id、class、name是否與標簽下信息的語(yǔ)義相關(guān)。一般來(lái)說(shuō),相關(guān)的都是唯一的。(從開(kāi)發(fā)者的角度考慮)如果當前標簽不能唯一定位,考慮父標簽。以此類(lèi)推,你總能找到一種定位方法。
  2.鼠標事件(模擬鼠標操作)
  
  可以通過(guò)標簽對象調用。
  3.鍵盤(pán)事件(模擬鍵盤(pán)操作)
  
  4.其他操作
  其他操作包括控制瀏覽器的操作、獲取斷言信息、表單切換、多窗口切換、警告框處理、下拉框處理、文件上傳操作、cookie操作、調用js代碼、截圖、關(guān)閉瀏覽器等操作,因為這里我用的不多,就不一一列舉了,自己去官網(wǎng)學(xué)習吧。
  2.爬取目標
  本次實(shí)戰爬蟲(chóng)主要完成以下目標:
  在QQ音樂(lè )官網(wǎng)爬取指定歌手的前5首歌曲基本信息和前500名流行評論。
  
  
  
  1.獲取前五首歌曲的url
  分析這個(gè)頁(yè)面的代碼,我們知道包裹所有歌曲信息的tag的class是唯一的,我們可以拿到它,然后遍歷所有的子標簽,或者一次性獲取所有包裹歌曲信息的div,并且然后獲取里面的 a 標簽。
  
  2.獲取歌曲基本信息
  可以看出,基本信息標簽中的類(lèi)名有一部分語(yǔ)義,所以可以通過(guò)css選擇器來(lái)唯一確定。
  
  3.獲取歌詞
  頁(yè)面上的歌詞不完整,貌似需要點(diǎn)擊展開(kāi),其實(shí)所有的歌詞都已經(jīng)在標簽里了,只是顯示問(wèn)題。
  

文章采集調用(中文自適應推薦系統最終靠什么技術(shù)實(shí)現從實(shí)時(shí)分析到離線(xiàn)實(shí)時(shí)推薦)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 140 次瀏覽 ? 2021-11-24 12:01 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(中文自適應推薦系統最終靠什么技術(shù)實(shí)現從實(shí)時(shí)分析到離線(xiàn)實(shí)時(shí)推薦)
  文章采集調用了爬蟲(chóng)服務(wù)器爬取信息,返回json數據以支持后面自動(dòng)化推薦,爬蟲(chóng)服務(wù)器可自動(dòng)獲取文章pdf的內容,如鏈接,評論,新增收藏,刪除收藏,位置,描述,評分,星級評價(jià),評論等等,更重要的是可以向爬蟲(chóng)服務(wù)器導出點(diǎn)擊數據和爬蟲(chóng)過(guò)程顯示數據。
  我們是做推薦系統的,和小鳥(niǎo)推薦系統比,neilinks絕對算是最先進(jìn)的,我們開(kāi)始的時(shí)候是想做中文世界的自動(dòng)化推薦,后來(lái)架構考慮后,干脆直接把數據進(jìn)行一定量的匯聚,編碼成數據庫里面的形式,用sql實(shí)現。國內真正有這個(gè)需求的企業(yè)不多,不過(guò)國內的小平臺起來(lái)的有好幾家,小鳥(niǎo)推薦也算是比較成熟的一個(gè)產(chǎn)品。
  小鳥(niǎo)實(shí)時(shí)推薦系統是基于實(shí)時(shí)大數據的消息推薦。中文自適應推薦系統的模式,我們團隊已經(jīng)提出了很多年了,實(shí)際上確有一些難度,由于目前中文在大數據的分析理解上還存在不少技術(shù)挑戰。希望以下這些討論,對大家有所幫助。中文自適應推薦系統最終靠什么技術(shù)實(shí)現從實(shí)時(shí)分析到離線(xiàn)實(shí)時(shí)推薦從大數據到實(shí)時(shí)數據推薦用戶(hù)行為大數據推薦平臺使用什么類(lèi)型的數據對于信息推薦和推薦系統,本文主要討論基于用戶(hù)行為大數據的推薦技術(shù)。
  這里先聊聊中文市場(chǎng)有關(guān)推薦系統的部分。我們將推薦系統描述為:對已被使用過(guò)的信息與未被使用過(guò)的信息進(jìn)行有針對性地推薦。根據公眾對目標內容的偏好,用戶(hù)產(chǎn)生的對目標內容的搜索可用于推薦,直接提供給用戶(hù)。1.中文市場(chǎng)的推薦系統已經(jīng)存在多年,但依然非常不理想推薦系統的推薦已經(jīng)持續了漫長(cháng)的時(shí)間,當我們考慮推薦時(shí),技術(shù)選型要關(guān)注信息的來(lái)源,由于中文市場(chǎng)存在太多的沒(méi)有被使用過(guò)的信息。
  依賴(lài)于這些來(lái)源的推薦系統有以下缺點(diǎn):缺乏技術(shù)門(mén)檻,缺乏工程實(shí)現,上手非常難。缺乏人才保障,人才和工具缺乏。上述的推薦問(wèn)題會(huì )影響很多人加入推薦系統領(lǐng)域,形成惡性循環(huán)。2.推薦系統存在的痛點(diǎn)對于每一個(gè)信息都能推薦,這可能嗎?對于最終用戶(hù)的需求,是不是存在的推薦呢?用戶(hù)并不知道哪些信息是最終的用戶(hù)需求,但是信息至少用于推薦。
  根據用戶(hù)的搜索記錄進(jìn)行推薦可以嗎?只需要幾秒鐘就能做一個(gè)最終用戶(hù)頁(yè)面的推薦。即使能做,其推薦也是靠計算機實(shí)現的,并且推薦效率很低。使用人工審核進(jìn)行推薦有困難嗎?有技術(shù)實(shí)現難度,人工審核靠人工,效率低的問(wèn)題。即使人工審核,也有審核人員的個(gè)人偏好問(wèn)題。目前專(zhuān)業(yè)的人員個(gè)人偏好也不理想。但是,所有能夠提供推薦的信息確實(shí)都被已經(jīng)使用過(guò)了,沒(méi)有被使用過(guò)的信息,用戶(hù)是不愿意去觸碰,也不感興趣的。為什么使用新聞、訂閱、社交網(wǎng)絡(luò )等推薦系統?新聞這些信息的推。 查看全部

  文章采集調用(中文自適應推薦系統最終靠什么技術(shù)實(shí)現從實(shí)時(shí)分析到離線(xiàn)實(shí)時(shí)推薦)
  文章采集調用了爬蟲(chóng)服務(wù)器爬取信息,返回json數據以支持后面自動(dòng)化推薦,爬蟲(chóng)服務(wù)器可自動(dòng)獲取文章pdf的內容,如鏈接,評論,新增收藏,刪除收藏,位置,描述,評分,星級評價(jià),評論等等,更重要的是可以向爬蟲(chóng)服務(wù)器導出點(diǎn)擊數據和爬蟲(chóng)過(guò)程顯示數據。
  我們是做推薦系統的,和小鳥(niǎo)推薦系統比,neilinks絕對算是最先進(jìn)的,我們開(kāi)始的時(shí)候是想做中文世界的自動(dòng)化推薦,后來(lái)架構考慮后,干脆直接把數據進(jìn)行一定量的匯聚,編碼成數據庫里面的形式,用sql實(shí)現。國內真正有這個(gè)需求的企業(yè)不多,不過(guò)國內的小平臺起來(lái)的有好幾家,小鳥(niǎo)推薦也算是比較成熟的一個(gè)產(chǎn)品。
  小鳥(niǎo)實(shí)時(shí)推薦系統是基于實(shí)時(shí)大數據的消息推薦。中文自適應推薦系統的模式,我們團隊已經(jīng)提出了很多年了,實(shí)際上確有一些難度,由于目前中文在大數據的分析理解上還存在不少技術(shù)挑戰。希望以下這些討論,對大家有所幫助。中文自適應推薦系統最終靠什么技術(shù)實(shí)現從實(shí)時(shí)分析到離線(xiàn)實(shí)時(shí)推薦從大數據到實(shí)時(shí)數據推薦用戶(hù)行為大數據推薦平臺使用什么類(lèi)型的數據對于信息推薦和推薦系統,本文主要討論基于用戶(hù)行為大數據的推薦技術(shù)。
  這里先聊聊中文市場(chǎng)有關(guān)推薦系統的部分。我們將推薦系統描述為:對已被使用過(guò)的信息與未被使用過(guò)的信息進(jìn)行有針對性地推薦。根據公眾對目標內容的偏好,用戶(hù)產(chǎn)生的對目標內容的搜索可用于推薦,直接提供給用戶(hù)。1.中文市場(chǎng)的推薦系統已經(jīng)存在多年,但依然非常不理想推薦系統的推薦已經(jīng)持續了漫長(cháng)的時(shí)間,當我們考慮推薦時(shí),技術(shù)選型要關(guān)注信息的來(lái)源,由于中文市場(chǎng)存在太多的沒(méi)有被使用過(guò)的信息。
  依賴(lài)于這些來(lái)源的推薦系統有以下缺點(diǎn):缺乏技術(shù)門(mén)檻,缺乏工程實(shí)現,上手非常難。缺乏人才保障,人才和工具缺乏。上述的推薦問(wèn)題會(huì )影響很多人加入推薦系統領(lǐng)域,形成惡性循環(huán)。2.推薦系統存在的痛點(diǎn)對于每一個(gè)信息都能推薦,這可能嗎?對于最終用戶(hù)的需求,是不是存在的推薦呢?用戶(hù)并不知道哪些信息是最終的用戶(hù)需求,但是信息至少用于推薦。
  根據用戶(hù)的搜索記錄進(jìn)行推薦可以嗎?只需要幾秒鐘就能做一個(gè)最終用戶(hù)頁(yè)面的推薦。即使能做,其推薦也是靠計算機實(shí)現的,并且推薦效率很低。使用人工審核進(jìn)行推薦有困難嗎?有技術(shù)實(shí)現難度,人工審核靠人工,效率低的問(wèn)題。即使人工審核,也有審核人員的個(gè)人偏好問(wèn)題。目前專(zhuān)業(yè)的人員個(gè)人偏好也不理想。但是,所有能夠提供推薦的信息確實(shí)都被已經(jīng)使用過(guò)了,沒(méi)有被使用過(guò)的信息,用戶(hù)是不愿意去觸碰,也不感興趣的。為什么使用新聞、訂閱、社交網(wǎng)絡(luò )等推薦系統?新聞這些信息的推。

文章采集調用( DedeCMS跳轉鏈接實(shí)際指向是哪里呢?秀站網(wǎng)秀)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 157 次瀏覽 ? 2021-11-23 18:07 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(
DedeCMS跳轉鏈接實(shí)際指向是哪里呢?秀站網(wǎng)秀)
  
  在Dedecms中,文章模型經(jīng)常使用jump[j]屬性,但是前臺顯示的鏈接是動(dòng)態(tài)的URL地址,搜索引擎會(huì )跟著(zhù)爬,而是跳轉發(fā)送。這個(gè)鏈接實(shí)際上指向哪里?王秀展 王秀展做了一個(gè)實(shí)驗。這個(gè)鏈接返回的HTTP狀態(tài)碼是302,是臨時(shí)跳轉。這個(gè)跳轉鏈接其實(shí)很不友好。對于站點(diǎn),頁(yè)面上有多個(gè)指向實(shí)際 URL 的 URL;如果是站外鏈接,很容易分散權重。
  調用文章的一般方法如下,不修改源文件。
  {dede:arclist addfields=&#39;redirecturl&#39; channelid=&#39;1&#39;}
][field:title/]
{/dede:arclist}
  這里的鏈接修改為站內和站外直接調用Jump[j]引用的URL,站外調用nofollow。
  需要用到的是通用的[field:array]標簽,可以用在任何Dedecms默認標簽中,特別適合多條件判斷。
  {dede:arclist addfields=&#39;redirecturl&#39; channelid=&#39;1&#39;}
[field:array runphp=&#39;yes&#39;]
if(@me[&#39;redirecturl&#39;] !=&#39;&#39;){
@me = &#39; . &#39;]&#39; . @me[&#39;title&#39;] . &#39;&#39;;
}else{
@me = &#39; . &#39;]&#39; . @me[&#39;title&#39;] . &#39;&#39;;
};
[/field:array]
{/dede:arclist}
  dedecms的{dede:list}標簽不能直接調用redirecturl字段,需要修改源程序
  打開(kāi)/include/arc.listview.class.php,找到(復制時(shí)請刪除分隔符)
  //如果不用默認的sortrank或id排序,使用聯(lián)合查詢(xún)(數據量大時(shí)非常緩慢)
if(preg_match(&#39;/hot|click|lastpost/&#39;, $orderby))
{
$query = "SELECT arc.*,tp.typedir,tp.typename,tp.isdefault,tp.defaultname,
tp.namerule,tp.namerule2,tp.ispart,tp.moresite,tp.siteurl,tp.sitepath
$addField
FROM `#分隔符@__archives` arc
LEFT JOIN `#分隔符@__arctype` tp ON arc.typeid=tp.id
$addJoin
WHERE {$this->addSql} $ordersql LIMIT $limitstart,$row";
}
  在這段代碼之前,添加
  $addField .= &#39;,&#39;.$addtable.&#39;.redirecturl&#39;;
  調用方法
  {dede:list row=&#39;1&#39; addfields=&#39;redirecturl&#39; orderby=&#39;pubdate&#39;}
][field:title/]
{/dede:list}
  也可以增加該字段的判斷,調用跳轉地址,不再贅述。 查看全部

  文章采集調用(
DedeCMS跳轉鏈接實(shí)際指向是哪里呢?秀站網(wǎng)秀)
  
  在Dedecms中,文章模型經(jīng)常使用jump[j]屬性,但是前臺顯示的鏈接是動(dòng)態(tài)的URL地址,搜索引擎會(huì )跟著(zhù)爬,而是跳轉發(fā)送。這個(gè)鏈接實(shí)際上指向哪里?王秀展 王秀展做了一個(gè)實(shí)驗。這個(gè)鏈接返回的HTTP狀態(tài)碼是302,是臨時(shí)跳轉。這個(gè)跳轉鏈接其實(shí)很不友好。對于站點(diǎn),頁(yè)面上有多個(gè)指向實(shí)際 URL 的 URL;如果是站外鏈接,很容易分散權重。
  調用文章的一般方法如下,不修改源文件。
  {dede:arclist addfields=&#39;redirecturl&#39; channelid=&#39;1&#39;}
][field:title/]
{/dede:arclist}
  這里的鏈接修改為站內和站外直接調用Jump[j]引用的URL,站外調用nofollow。
  需要用到的是通用的[field:array]標簽,可以用在任何Dedecms默認標簽中,特別適合多條件判斷。
  {dede:arclist addfields=&#39;redirecturl&#39; channelid=&#39;1&#39;}
[field:array runphp=&#39;yes&#39;]
if(@me[&#39;redirecturl&#39;] !=&#39;&#39;){
@me = &#39; . &#39;]&#39; . @me[&#39;title&#39;] . &#39;&#39;;
}else{
@me = &#39; . &#39;]&#39; . @me[&#39;title&#39;] . &#39;&#39;;
};
[/field:array]
{/dede:arclist}
  dedecms的{dede:list}標簽不能直接調用redirecturl字段,需要修改源程序
  打開(kāi)/include/arc.listview.class.php,找到(復制時(shí)請刪除分隔符)
  //如果不用默認的sortrank或id排序,使用聯(lián)合查詢(xún)(數據量大時(shí)非常緩慢)
if(preg_match(&#39;/hot|click|lastpost/&#39;, $orderby))
{
$query = "SELECT arc.*,tp.typedir,tp.typename,tp.isdefault,tp.defaultname,
tp.namerule,tp.namerule2,tp.ispart,tp.moresite,tp.siteurl,tp.sitepath
$addField
FROM `#分隔符@__archives` arc
LEFT JOIN `#分隔符@__arctype` tp ON arc.typeid=tp.id
$addJoin
WHERE {$this->addSql} $ordersql LIMIT $limitstart,$row";
}
  在這段代碼之前,添加
  $addField .= &#39;,&#39;.$addtable.&#39;.redirecturl&#39;;
  調用方法
  {dede:list row=&#39;1&#39; addfields=&#39;redirecturl&#39; orderby=&#39;pubdate&#39;}
][field:title/]
{/dede:list}
  也可以增加該字段的判斷,調用跳轉地址,不再贅述。

文章采集調用(java項目中如何實(shí)現攝像頭圖像采集圖片數據采集? )

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 147 次瀏覽 ? 2021-11-22 18:09 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(java項目中如何實(shí)現攝像頭圖像采集圖片數據采集?
)
  最近的一個(gè)項目需要實(shí)現攝像頭圖像采集。經(jīng)過(guò)一系列的折騰,終于實(shí)現了這個(gè)功能?,F在我來(lái)整理一下。
  就java技術(shù)而言,實(shí)現攝像頭二次開(kāi)發(fā),采集攝像頭圖片需要使用JMF。JMF 適合在 j2se 程序中使用。我需要在網(wǎng)絡(luò )程序中調用相機。顯然JMF是做不到的?,F在,我想寫(xiě)一個(gè)小程序程序,但是那件事需要客戶(hù)端有一個(gè)jre環(huán)境。這不適合我。你不能指望用戶(hù)在訪(fǎng)問(wèn)你的 網(wǎng)站 時(shí)下載一個(gè)大的 Jre 會(huì )安裝并稍后再次訪(fǎng)問(wèn),對吧?
  既然JMF不適用,那么我們在java項目中如何控制camera capture呢?在windows平臺本身,我們可以使用顯卡等二次開(kāi)發(fā)包來(lái)實(shí)現視頻數據的訪(fǎng)問(wèn),但是現在攝像頭都是usb,連筆記本屏幕都有攝像頭了。在這種情況下,使用采集卡的二次開(kāi)發(fā)包的方案是不適用的。您只能編寫(xiě)自己的程序來(lái)制作類(lèi)似于“相機相機軟件”的東西。經(jīng)過(guò)一系列的分析,終于實(shí)現了。web程序調用攝像頭,可以通過(guò)js代碼控制攝像頭,通過(guò)ajax技術(shù)上傳數據。雖然我沒(méi)有在程序中測試過(guò),但是應該支持.net技術(shù),也可以在采集camera data項目中實(shí)現,例如,
  羅嗦了很多,程序放在csdn的下載資源上面,以后想做攝像頭二次開(kāi)發(fā)的時(shí)候不用四處看看,直接下載使用就可以了.
  攝像頭程序下載地址
  壓縮包中收錄一個(gè)基于web的相機拍照采集示例程序,其中收錄一個(gè)基于jquery框架的ajax數據操作程序示例。攝像頭的調用方法詳見(jiàn)示例代碼。我相信任何對技術(shù)稍有了解的人都應該能夠閱讀它。明白了,有一個(gè)完整的基于java的photo 采集示例程序,使用jsp頁(yè)面采集 photo,serlvet程序接收相機照片數據。
  以下是程序運行效果示例:
   查看全部

  文章采集調用(java項目中如何實(shí)現攝像頭圖像采集圖片數據采集?
)
  最近的一個(gè)項目需要實(shí)現攝像頭圖像采集。經(jīng)過(guò)一系列的折騰,終于實(shí)現了這個(gè)功能?,F在我來(lái)整理一下。
  就java技術(shù)而言,實(shí)現攝像頭二次開(kāi)發(fā),采集攝像頭圖片需要使用JMF。JMF 適合在 j2se 程序中使用。我需要在網(wǎng)絡(luò )程序中調用相機。顯然JMF是做不到的?,F在,我想寫(xiě)一個(gè)小程序程序,但是那件事需要客戶(hù)端有一個(gè)jre環(huán)境。這不適合我。你不能指望用戶(hù)在訪(fǎng)問(wèn)你的 網(wǎng)站 時(shí)下載一個(gè)大的 Jre 會(huì )安裝并稍后再次訪(fǎng)問(wèn),對吧?
  既然JMF不適用,那么我們在java項目中如何控制camera capture呢?在windows平臺本身,我們可以使用顯卡等二次開(kāi)發(fā)包來(lái)實(shí)現視頻數據的訪(fǎng)問(wèn),但是現在攝像頭都是usb,連筆記本屏幕都有攝像頭了。在這種情況下,使用采集卡的二次開(kāi)發(fā)包的方案是不適用的。您只能編寫(xiě)自己的程序來(lái)制作類(lèi)似于“相機相機軟件”的東西。經(jīng)過(guò)一系列的分析,終于實(shí)現了。web程序調用攝像頭,可以通過(guò)js代碼控制攝像頭,通過(guò)ajax技術(shù)上傳數據。雖然我沒(méi)有在程序中測試過(guò),但是應該支持.net技術(shù),也可以在采集camera data項目中實(shí)現,例如,
  羅嗦了很多,程序放在csdn的下載資源上面,以后想做攝像頭二次開(kāi)發(fā)的時(shí)候不用四處看看,直接下載使用就可以了.
  攝像頭程序下載地址
  壓縮包中收錄一個(gè)基于web的相機拍照采集示例程序,其中收錄一個(gè)基于jquery框架的ajax數據操作程序示例。攝像頭的調用方法詳見(jiàn)示例代碼。我相信任何對技術(shù)稍有了解的人都應該能夠閱讀它。明白了,有一個(gè)完整的基于java的photo 采集示例程序,使用jsp頁(yè)面采集 photo,serlvet程序接收相機照片數據。
  以下是程序運行效果示例:
  

文章采集調用(第二個(gè)降低寫(xiě)作啟動(dòng)成本的大招:建立寫(xiě)作素材庫有了)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 164 次瀏覽 ? 2021-11-22 01:14 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(第二個(gè)降低寫(xiě)作啟動(dòng)成本的大招:建立寫(xiě)作素材庫有了)
  以后只要掌握了兩個(gè)能力,自己不創(chuàng )業(yè)也能活的很好。
  第一個(gè)是寫(xiě) 第二個(gè)是說(shuō)
  只要掌握了這些能力中的任何一項,就可以立于不敗之地。
  和我一樣,我更喜歡寫(xiě)作!
  每天寫(xiě)一篇文章來(lái)創(chuàng )建自己的個(gè)人品牌。寫(xiě)文章其實(shí)沒(méi)有想象的那么難。關(guān)鍵是要降低寫(xiě)入的啟動(dòng)成本。
  簡(jiǎn)單來(lái)說(shuō),你什么都不用想,直接開(kāi)始寫(xiě)作。這個(gè)我在之前的文章中已經(jīng)詳細介紹過(guò)了。
  今天分享第二大降低寫(xiě)作啟動(dòng)成本的方法:搭建寫(xiě)作素材庫
  有了這個(gè)寫(xiě)作素材庫,再也不用為文章的寫(xiě)作發(fā)愁了。
  一、什么是文具庫
  寫(xiě)作素材庫是一個(gè)靈感參考庫,可以讓你降低思考成本。
  例如,廚師就像烹飪一樣需要各種配料和調味品。沒(méi)有這些,廚師就無(wú)法烹飪出美味的菜肴。
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  各種難懂的食材和調味品,都是廚師的素材庫。有了這些,依靠我多年積累的經(jīng)驗,我可以輕松地立即烹飪出各種美味佳肴。
  編寫(xiě) 文章 也是如此。
  而且我在寫(xiě)作過(guò)程中也需要經(jīng)常使用素材庫(我的第二大腦)
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  不同的分類(lèi)下有不同的內容素材,方便我每次調用。
  比如今天我要寫(xiě)一篇關(guān)于時(shí)間管理的文章文章。直接在軟件里面搜索時(shí)間管理,1秒參考資料很多。
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  這些都是我平時(shí)看的很好的文章,采集了。寫(xiě)文章時(shí)可以快速參考。
  二、為什么要建寫(xiě)作材料庫
  在我的任務(wù)中擁有一個(gè)寫(xiě)作材料庫的最大好處是我可以隨時(shí)用一些經(jīng)典的思維來(lái)證明我的一些觀(guān)點(diǎn)。
  例如:
  比如我想寫(xiě)一篇關(guān)于競爭力的文章。我提出的核心理念是專(zhuān)注做事,建立自己的影響圈。我說(shuō)的話(huà)可能不會(huì )立刻引起大家的共鳴,所以我必須借用一些名人。祝福我的想法。
  我使用了寫(xiě)作材料庫中“Working with a System”的作者 Sam Carpenter 來(lái)祝福我的想法。
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  如果你沒(méi)有素材庫,即使你記憶力很好,你也不會(huì )長(cháng)時(shí)間記住它。
  在我的寫(xiě)作素材庫中,專(zhuān)門(mén)設置了一個(gè)分類(lèi),用來(lái)保存閱讀時(shí)的一些經(jīng)典句子。
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  這是3本不合理的書(shū)
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  在這里很容易找到一些經(jīng)典的參考句子。
  寫(xiě)作素材庫最大的好處就是可以隨時(shí)調用,無(wú)論身在何處,只要輸入相關(guān)關(guān)鍵詞,就可以立即找到我想要的素材,給寫(xiě)作帶來(lái)了極大的便利&lt; @文章。
  三、如何搭建寫(xiě)作素材庫
  寫(xiě)作素材庫的建立其實(shí)很簡(jiǎn)單,分為三個(gè)步驟:
  第 1 步:采集材料
  在采集資料方面,其實(shí)有兩種采集方式:
  1、碎片采集
  我們每天看大量的公眾號文章、知乎文章或網(wǎng)站文章,感覺(jué)好的文章可以被采集。
  這是通過(guò)碎片時(shí)間采集的,文章 永遠不會(huì )太多。
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  Fragments 文章,我把它們都放在我的收件箱里。
  好像很清楚,我采集了多少文章,有空就讀。
  2、固定主題合集
  有時(shí),我們可能會(huì )做一些項目,我們需要一個(gè)明確的方向來(lái)采集知識。
  例如:
  我媳婦現在主要賣(mài)玫瑰,所以她每天都需要出口玫瑰文章,打造個(gè)人品牌,創(chuàng )造價(jià)值,增加銷(xiāo)量。
  我的做法是通過(guò)百度知乎、知乎、公眾號直接采集玫瑰素材
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  通過(guò)搜索,馬上有數百條寫(xiě)作方向和材料,百度知道。
  使用文章搜索微信公眾號,上千條素材
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  看,有6000多篇文案,自己寫(xiě)就夠了。
  問(wèn)答平臺知乎、公眾號文章,這三個(gè)地方足以讓你采集上萬(wàn)條固定主題的寫(xiě)作素材。
  第 2 步:保存材料
  采集的最終目的是為了方便調用,所以嘗試了很多工具,最后決定使用印象筆記作為載體工具。原因很明顯:
  1、全平臺支持2、強大的搜索功能
  全平臺的優(yōu)勢在于,無(wú)論是手機還是電腦,都可以輕松采集保存。
  尤其是有時(shí)候出去看到一些有啟發(fā)性的東西,就直接打開(kāi)印象筆記拍張照片,然后把這個(gè)時(shí)候的靈感寫(xiě)下來(lái)。
  這是之后的想法。
  但是,要保持一個(gè)好的材料庫,就必須建立一個(gè)完整的分類(lèi)體系。
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  以上是我自己的分類(lèi)系統,主要由收件箱、主題知識庫、存檔知識庫組成
  收件箱:用于臨時(shí)存放剛剛采集到的分片信息。你可能沒(méi)有仔細閱讀它,但感覺(jué)這是一個(gè)很好的材料。先存起來(lái),有時(shí)間再讀。
  知識主題庫:我把它分為工作、學(xué)習、生活、興趣四大類(lèi),基本涵蓋了方方面面。有了對應的分類(lèi),我以后只需要按照知識的類(lèi)型來(lái)分類(lèi)就可以了。
  例如
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  對于這一類(lèi)閱讀,我專(zhuān)門(mén)存儲電子書(shū)和經(jīng)典句子的摘錄。
  在例如
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  平時(shí)看到一些好的文案,我會(huì )放到存檔類(lèi)
  合理的分類(lèi)可以讓我快速找到相關(guān)的素材位置。
  分類(lèi)很重要。
  只要仔細觀(guān)察,一些大的網(wǎng)站都有非常詳細的分類(lèi)導航。
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  這是京東的網(wǎng)站品類(lèi),人們一看就知道應該點(diǎn)擊商品,才能找到自己想要的商品。
  第 3 步:檢索材料
  材料的采集是為了最后的快速調用,所以以前的分類(lèi)工作體現了價(jià)值。
  通過(guò)印象筆記有兩種調用方式
  第一種:使用搜索功能
  Evernote 使用了強大的搜索功能。只要學(xué)會(huì )了搜索命令,不管怎么找都可以快速調出素材。
  Plus+:多個(gè)關(guān)鍵詞 搜索
  減號-:不收錄某個(gè)關(guān)鍵詞
  雙引號"":精確搜索
  notebook:在 notebook 內搜索
  Intitle:標題搜索
  例如:
  intitle:seo 該命令用于搜索標題中收錄seo的信息
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  標題是否收錄seo的信息知識。
  雙引號“促銷(xiāo)”來(lái)促進(jìn)關(guān)鍵詞搜索
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  結果是title收錄promotion關(guān)鍵詞,content收錄promotion關(guān)鍵詞信息,可以搜索到,調用起來(lái)很方便。
  第二種:按類(lèi)別搜索
  合理的分類(lèi)也可以讓你找到相關(guān)的信息,就像我的學(xué)習分類(lèi)一樣
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  根據分類(lèi)結構,我可以快速找到我想要的材料,比如時(shí)間管理。我只是點(diǎn)擊這個(gè)類(lèi)別,它是所有時(shí)間管理材料。
  請記住,創(chuàng )建材料庫是為了快速回憶,找不到它就意味著(zhù)沒(méi)有它。
  如果你想每天寫(xiě)文章來(lái)打造個(gè)人品牌,那你就需要一個(gè)屬于自己的寫(xiě)作素材庫。
  知道方法和方法并不意味著(zhù)你已經(jīng)學(xué)會(huì )了。只有自己實(shí)踐和應用,才能取得更大的進(jìn)步。
  版權歸周振興作者所有,希望能幫到你! 查看全部

  文章采集調用(第二個(gè)降低寫(xiě)作啟動(dòng)成本的大招:建立寫(xiě)作素材庫有了)
  以后只要掌握了兩個(gè)能力,自己不創(chuàng )業(yè)也能活的很好。
  第一個(gè)是寫(xiě) 第二個(gè)是說(shuō)
  只要掌握了這些能力中的任何一項,就可以立于不敗之地。
  和我一樣,我更喜歡寫(xiě)作!
  每天寫(xiě)一篇文章來(lái)創(chuàng )建自己的個(gè)人品牌。寫(xiě)文章其實(shí)沒(méi)有想象的那么難。關(guān)鍵是要降低寫(xiě)入的啟動(dòng)成本。
  簡(jiǎn)單來(lái)說(shuō),你什么都不用想,直接開(kāi)始寫(xiě)作。這個(gè)我在之前的文章中已經(jīng)詳細介紹過(guò)了。
  今天分享第二大降低寫(xiě)作啟動(dòng)成本的方法:搭建寫(xiě)作素材庫
  有了這個(gè)寫(xiě)作素材庫,再也不用為文章的寫(xiě)作發(fā)愁了。
  一、什么是文具庫
  寫(xiě)作素材庫是一個(gè)靈感參考庫,可以讓你降低思考成本。
  例如,廚師就像烹飪一樣需要各種配料和調味品。沒(méi)有這些,廚師就無(wú)法烹飪出美味的菜肴。
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  各種難懂的食材和調味品,都是廚師的素材庫。有了這些,依靠我多年積累的經(jīng)驗,我可以輕松地立即烹飪出各種美味佳肴。
  編寫(xiě) 文章 也是如此。
  而且我在寫(xiě)作過(guò)程中也需要經(jīng)常使用素材庫(我的第二大腦)
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  不同的分類(lèi)下有不同的內容素材,方便我每次調用。
  比如今天我要寫(xiě)一篇關(guān)于時(shí)間管理的文章文章。直接在軟件里面搜索時(shí)間管理,1秒參考資料很多。
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  這些都是我平時(shí)看的很好的文章,采集了。寫(xiě)文章時(shí)可以快速參考。
  二、為什么要建寫(xiě)作材料庫
  在我的任務(wù)中擁有一個(gè)寫(xiě)作材料庫的最大好處是我可以隨時(shí)用一些經(jīng)典的思維來(lái)證明我的一些觀(guān)點(diǎn)。
  例如:
  比如我想寫(xiě)一篇關(guān)于競爭力的文章。我提出的核心理念是專(zhuān)注做事,建立自己的影響圈。我說(shuō)的話(huà)可能不會(huì )立刻引起大家的共鳴,所以我必須借用一些名人。祝福我的想法。
  我使用了寫(xiě)作材料庫中“Working with a System”的作者 Sam Carpenter 來(lái)祝福我的想法。
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  如果你沒(méi)有素材庫,即使你記憶力很好,你也不會(huì )長(cháng)時(shí)間記住它。
  在我的寫(xiě)作素材庫中,專(zhuān)門(mén)設置了一個(gè)分類(lèi),用來(lái)保存閱讀時(shí)的一些經(jīng)典句子。
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  這是3本不合理的書(shū)
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  在這里很容易找到一些經(jīng)典的參考句子。
  寫(xiě)作素材庫最大的好處就是可以隨時(shí)調用,無(wú)論身在何處,只要輸入相關(guān)關(guān)鍵詞,就可以立即找到我想要的素材,給寫(xiě)作帶來(lái)了極大的便利&lt; @文章。
  三、如何搭建寫(xiě)作素材庫
  寫(xiě)作素材庫的建立其實(shí)很簡(jiǎn)單,分為三個(gè)步驟:
  第 1 步:采集材料
  在采集資料方面,其實(shí)有兩種采集方式:
  1、碎片采集
  我們每天看大量的公眾號文章、知乎文章或網(wǎng)站文章,感覺(jué)好的文章可以被采集。
  這是通過(guò)碎片時(shí)間采集的,文章 永遠不會(huì )太多。
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  Fragments 文章,我把它們都放在我的收件箱里。
  好像很清楚,我采集了多少文章,有空就讀。
  2、固定主題合集
  有時(shí),我們可能會(huì )做一些項目,我們需要一個(gè)明確的方向來(lái)采集知識。
  例如:
  我媳婦現在主要賣(mài)玫瑰,所以她每天都需要出口玫瑰文章,打造個(gè)人品牌,創(chuàng )造價(jià)值,增加銷(xiāo)量。
  我的做法是通過(guò)百度知乎、知乎、公眾號直接采集玫瑰素材
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  通過(guò)搜索,馬上有數百條寫(xiě)作方向和材料,百度知道。
  使用文章搜索微信公眾號,上千條素材
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  看,有6000多篇文案,自己寫(xiě)就夠了。
  問(wèn)答平臺知乎、公眾號文章,這三個(gè)地方足以讓你采集上萬(wàn)條固定主題的寫(xiě)作素材。
  第 2 步:保存材料
  采集的最終目的是為了方便調用,所以嘗試了很多工具,最后決定使用印象筆記作為載體工具。原因很明顯:
  1、全平臺支持2、強大的搜索功能
  全平臺的優(yōu)勢在于,無(wú)論是手機還是電腦,都可以輕松采集保存。
  尤其是有時(shí)候出去看到一些有啟發(fā)性的東西,就直接打開(kāi)印象筆記拍張照片,然后把這個(gè)時(shí)候的靈感寫(xiě)下來(lái)。
  這是之后的想法。
  但是,要保持一個(gè)好的材料庫,就必須建立一個(gè)完整的分類(lèi)體系。
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  以上是我自己的分類(lèi)系統,主要由收件箱、主題知識庫、存檔知識庫組成
  收件箱:用于臨時(shí)存放剛剛采集到的分片信息。你可能沒(méi)有仔細閱讀它,但感覺(jué)這是一個(gè)很好的材料。先存起來(lái),有時(shí)間再讀。
  知識主題庫:我把它分為工作、學(xué)習、生活、興趣四大類(lèi),基本涵蓋了方方面面。有了對應的分類(lèi),我以后只需要按照知識的類(lèi)型來(lái)分類(lèi)就可以了。
  例如
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  對于這一類(lèi)閱讀,我專(zhuān)門(mén)存儲電子書(shū)和經(jīng)典句子的摘錄。
  在例如
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  平時(shí)看到一些好的文案,我會(huì )放到存檔類(lèi)
  合理的分類(lèi)可以讓我快速找到相關(guān)的素材位置。
  分類(lèi)很重要。
  只要仔細觀(guān)察,一些大的網(wǎng)站都有非常詳細的分類(lèi)導航。
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  這是京東的網(wǎng)站品類(lèi),人們一看就知道應該點(diǎn)擊商品,才能找到自己想要的商品。
  第 3 步:檢索材料
  材料的采集是為了最后的快速調用,所以以前的分類(lèi)工作體現了價(jià)值。
  通過(guò)印象筆記有兩種調用方式
  第一種:使用搜索功能
  Evernote 使用了強大的搜索功能。只要學(xué)會(huì )了搜索命令,不管怎么找都可以快速調出素材。
  Plus+:多個(gè)關(guān)鍵詞 搜索
  減號-:不收錄某個(gè)關(guān)鍵詞
  雙引號"":精確搜索
  notebook:在 notebook 內搜索
  Intitle:標題搜索
  例如:
  intitle:seo 該命令用于搜索標題中收錄seo的信息
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  標題是否收錄seo的信息知識。
  雙引號“促銷(xiāo)”來(lái)促進(jìn)關(guān)鍵詞搜索
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  結果是title收錄promotion關(guān)鍵詞,content收錄promotion關(guān)鍵詞信息,可以搜索到,調用起來(lái)很方便。
  第二種:按類(lèi)別搜索
  合理的分類(lèi)也可以讓你找到相關(guān)的信息,就像我的學(xué)習分類(lèi)一樣
  
  圖片來(lái)自簡(jiǎn)書(shū)App
  根據分類(lèi)結構,我可以快速找到我想要的材料,比如時(shí)間管理。我只是點(diǎn)擊這個(gè)類(lèi)別,它是所有時(shí)間管理材料。
  請記住,創(chuàng )建材料庫是為了快速回憶,找不到它就意味著(zhù)沒(méi)有它。
  如果你想每天寫(xiě)文章來(lái)打造個(gè)人品牌,那你就需要一個(gè)屬于自己的寫(xiě)作素材庫。
  知道方法和方法并不意味著(zhù)你已經(jīng)學(xué)會(huì )了。只有自己實(shí)踐和應用,才能取得更大的進(jìn)步。
  版權歸周振興作者所有,希望能幫到你!

文章采集調用(5.5新版本的+30聯(lián)絡(luò )651606775830元功能形容 )

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 169 次瀏覽 ? 2021-11-22 01:09 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(5.5新版本的+30聯(lián)絡(luò )651606775830元功能形容
)
  (需5.5新版+30聯(lián)系6516067758)需加30元
  
  
  功能說(shuō)明:
  [維清]微信文章采集器是采集微信訂閱賬號信息和訂閱賬號文章的插件。只需輸入公眾號昵稱(chēng),即可自動(dòng)采集公眾號信息(信息包括公眾號昵稱(chēng)、微信ID、功能詳情、認證信息、頭像、二維碼)。通過(guò)安裝此插件,您可以讓您的網(wǎng)站與百萬(wàn)訂閱賬號分享優(yōu)質(zhì)內容,每天大量升級可以快速提升網(wǎng)站的權重和排名。
  功能亮點(diǎn):
  1、可以自己設置插件名稱(chēng):
  可以在后臺面包屑導航上修改插件名稱(chēng)。如果不設置,則默認為微信窗口。
  2、您可以自己設置SEO信息:
  后臺可以方便的為每個(gè)頁(yè)面設置SEO信息,支持網(wǎng)站名稱(chēng)、插件名稱(chēng)、分類(lèi)名稱(chēng)、文章標題等信息的變量替換。
  3、批量提供采集官方賬號信息:
  輸入微信公眾號昵稱(chēng)點(diǎn)擊搜索,選擇你要采集的公眾號,提交。一次最多可以采集 10個(gè)公眾號信息。
  4、批量提供采集公眾號文章:
  點(diǎn)擊公眾號列表中的“采集文章”鏈接,輸入你想要的頁(yè)數采集,即可批量采集文章信息,一次至少可以使用采集篇文章文章,文章的內容也是本地化的。
  5、文章可以完美顯示信息:
  插件自建首頁(yè)、列表頁(yè)、介紹頁(yè),無(wú)需依賴(lài)原系統任何功能即可完美展示文章信息。
  6、強大的DIY機制:
  只需安裝diy擴展,即可擁有強大的DIY機制,可以在網(wǎng)站任意頁(yè)面調用微信公眾號信息和文章信息。
  7、每個(gè)頁(yè)面都有多個(gè)內置的DIY區域:
  插件的每個(gè)頁(yè)面(首頁(yè)、列表頁(yè)、介紹頁(yè))內置多個(gè)DIY區,可在原創(chuàng )內容塊之間插入DIY模塊。
  8、 可以靈活設置信息是否需要審核:
  客戶(hù)提交的內容公眾號和文章信息是否需要審核,可以通過(guò)后臺的開(kāi)關(guān)控制。
  9、信息批量管理功能:
  后臺提供功能齊全的微信公眾號和文章批量管理功能,可以批量查看、刪除、移動(dòng)分類(lèi)信息。
  10、完全支持手機版:
  只要安裝相應的手機版組件,就可以輕松打開(kāi)手機版。
  
  
  
   查看全部

  文章采集調用(5.5新版本的+30聯(lián)絡(luò )651606775830元功能形容
)
  (需5.5新版+30聯(lián)系6516067758)需加30元
  
  
  功能說(shuō)明:
  [維清]微信文章采集器是采集微信訂閱賬號信息和訂閱賬號文章的插件。只需輸入公眾號昵稱(chēng),即可自動(dòng)采集公眾號信息(信息包括公眾號昵稱(chēng)、微信ID、功能詳情、認證信息、頭像、二維碼)。通過(guò)安裝此插件,您可以讓您的網(wǎng)站與百萬(wàn)訂閱賬號分享優(yōu)質(zhì)內容,每天大量升級可以快速提升網(wǎng)站的權重和排名。
  功能亮點(diǎn):
  1、可以自己設置插件名稱(chēng):
  可以在后臺面包屑導航上修改插件名稱(chēng)。如果不設置,則默認為微信窗口。
  2、您可以自己設置SEO信息:
  后臺可以方便的為每個(gè)頁(yè)面設置SEO信息,支持網(wǎng)站名稱(chēng)、插件名稱(chēng)、分類(lèi)名稱(chēng)、文章標題等信息的變量替換。
  3、批量提供采集官方賬號信息:
  輸入微信公眾號昵稱(chēng)點(diǎn)擊搜索,選擇你要采集的公眾號,提交。一次最多可以采集 10個(gè)公眾號信息。
  4、批量提供采集公眾號文章:
  點(diǎn)擊公眾號列表中的“采集文章”鏈接,輸入你想要的頁(yè)數采集,即可批量采集文章信息,一次至少可以使用采集篇文章文章,文章的內容也是本地化的。
  5、文章可以完美顯示信息:
  插件自建首頁(yè)、列表頁(yè)、介紹頁(yè),無(wú)需依賴(lài)原系統任何功能即可完美展示文章信息。
  6、強大的DIY機制:
  只需安裝diy擴展,即可擁有強大的DIY機制,可以在網(wǎng)站任意頁(yè)面調用微信公眾號信息和文章信息。
  7、每個(gè)頁(yè)面都有多個(gè)內置的DIY區域:
  插件的每個(gè)頁(yè)面(首頁(yè)、列表頁(yè)、介紹頁(yè))內置多個(gè)DIY區,可在原創(chuàng )內容塊之間插入DIY模塊。
  8、 可以靈活設置信息是否需要審核:
  客戶(hù)提交的內容公眾號和文章信息是否需要審核,可以通過(guò)后臺的開(kāi)關(guān)控制。
  9、信息批量管理功能:
  后臺提供功能齊全的微信公眾號和文章批量管理功能,可以批量查看、刪除、移動(dòng)分類(lèi)信息。
  10、完全支持手機版:
  只要安裝相應的手機版組件,就可以輕松打開(kāi)手機版。
  
  
  
  

文章采集調用(DedeCMSV5.7sp2網(wǎng)站漏洞如何修復dedecms)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 132 次瀏覽 ? 2021-11-19 17:12 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(DedeCMSV5.7sp2網(wǎng)站漏洞如何修復dedecms)
  如何修復Dedecms V5.7sp2網(wǎng)站漏洞
  織夢(mèng)dedecms,在整個(gè)互聯(lián)網(wǎng)中,很多企業(yè)網(wǎng)站、個(gè)人網(wǎng)站、優(yōu)化網(wǎng)站都在用dede作為整個(gè)網(wǎng)站的發(fā)展@>架構,dedecms采用php+mysql數據庫架構來(lái)承載整個(gè)網(wǎng)站的操作和用戶(hù)訪(fǎng)問(wèn)。首頁(yè)和專(zhuān)欄頁(yè)面生成了織夢(mèng)漏洞的詳細信息,我們來(lái)一步步分析:首先介紹一下parse_str函數的機制和作用。簡(jiǎn)單來(lái)說(shuō)就是解析網(wǎng)站傳遞過(guò)來(lái)的字符串,將字符串的值轉換成一個(gè)固有的變量值。這個(gè)函數是傳入進(jìn)來(lái)的,當有改動(dòng)的時(shí)候,不會(huì )驗證當前變量網(wǎng)站的值是否收錄在buy_action中。最新版dedecms中的php代碼。存在一個(gè)網(wǎng)站漏洞,dedecms針對之前更新修復的文件網(wǎng)站漏洞,在代碼中加入了很多功能的安全過(guò)濾,但是傳入的值在過(guò)濾的同時(shí)解碼編碼函數時(shí)沒(méi)有嚴格過(guò)濾掉。網(wǎng)站漏洞的產(chǎn)生和dedecms的利用非常簡(jiǎn)單,但是在實(shí)際的利用過(guò)程中,我們發(fā)現實(shí)現起來(lái)還是比較困難的。最重要的是mchStrCode的功能是在整個(gè)網(wǎng)站編碼中控制前端用戶(hù)提交的值中的參數。dedecms網(wǎng)站 漏洞修復建議:關(guān)于dedecms parse_str函數SQL注入漏洞,需要修復的是變量覆蓋修復,對前端輸入的值進(jìn)行安全判斷。, 確認變量值是否存在,如果存在則不會(huì )被覆蓋,防止變量覆蓋導致惡意結構的摻入
  726 查看全部

  文章采集調用(DedeCMSV5.7sp2網(wǎng)站漏洞如何修復dedecms)
  如何修復Dedecms V5.7sp2網(wǎng)站漏洞
  織夢(mèng)dedecms,在整個(gè)互聯(lián)網(wǎng)中,很多企業(yè)網(wǎng)站、個(gè)人網(wǎng)站、優(yōu)化網(wǎng)站都在用dede作為整個(gè)網(wǎng)站的發(fā)展@>架構,dedecms采用php+mysql數據庫架構來(lái)承載整個(gè)網(wǎng)站的操作和用戶(hù)訪(fǎng)問(wèn)。首頁(yè)和專(zhuān)欄頁(yè)面生成了織夢(mèng)漏洞的詳細信息,我們來(lái)一步步分析:首先介紹一下parse_str函數的機制和作用。簡(jiǎn)單來(lái)說(shuō)就是解析網(wǎng)站傳遞過(guò)來(lái)的字符串,將字符串的值轉換成一個(gè)固有的變量值。這個(gè)函數是傳入進(jìn)來(lái)的,當有改動(dòng)的時(shí)候,不會(huì )驗證當前變量網(wǎng)站的值是否收錄在buy_action中。最新版dedecms中的php代碼。存在一個(gè)網(wǎng)站漏洞,dedecms針對之前更新修復的文件網(wǎng)站漏洞,在代碼中加入了很多功能的安全過(guò)濾,但是傳入的值在過(guò)濾的同時(shí)解碼編碼函數時(shí)沒(méi)有嚴格過(guò)濾掉。網(wǎng)站漏洞的產(chǎn)生和dedecms的利用非常簡(jiǎn)單,但是在實(shí)際的利用過(guò)程中,我們發(fā)現實(shí)現起來(lái)還是比較困難的。最重要的是mchStrCode的功能是在整個(gè)網(wǎng)站編碼中控制前端用戶(hù)提交的值中的參數。dedecms網(wǎng)站 漏洞修復建議:關(guān)于dedecms parse_str函數SQL注入漏洞,需要修復的是變量覆蓋修復,對前端輸入的值進(jìn)行安全判斷。, 確認變量值是否存在,如果存在則不會(huì )被覆蓋,防止變量覆蓋導致惡意結構的摻入
  726

文章采集調用(幾款調用最新或是隨機文章的標簽是哪幾種? )

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 180 次瀏覽 ? 2021-11-19 09:16 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(幾款調用最新或是隨機文章的標簽是哪幾種?
)
  目前國內流行的幾個(gè)開(kāi)源程序包括Empirecms、織夢(mèng)cms、WordPress等,這些對于建網(wǎng)站做seo的站長(cháng)來(lái)說(shuō)肯定不陌生優(yōu)化。一般有在首頁(yè)或內頁(yè)調用最新的或隨機的文章的愛(ài)好。如果這些文章是同一個(gè)開(kāi)源程序,調用起來(lái)相對容易一些。如果它們不一樣怎么辦?接下來(lái)我講一下帝國cms如何調用WordPress博客的最新或隨機文章,僅供參考。
  
  1、 Empirecms 最常用的信息調用標簽是(ecmsinfo),如下圖,就是ecmsinfo調用標簽
  格式主要是列/主題ID和模板ID這兩個(gè)參數。操作系統的默認 ID 為 24。
  例如:如[ecmsinfo] 10, 5, 36, 1, 24, 20, 0 [/ecmsinfo]
  “10”表示“管理欄”中標識的對應欄的ID
  “20”表示“管理標簽模板”中的標簽模板ID
  整個(gè)代碼的意思是按照標簽模板ID(20))的規則調用列ID(10))中5篇文章的標題文章,并調用文章標題前不顯示列名和圖片。
  2、根據上面的例子,Empire cms隨機調用WordPress博客文章,標簽如下:
  [ecmsinfo]"選擇 post_title 作為標題,id 作為 id from wp_posts order by rand() desc limit 5",5,36,1,24,29,0[/ecms信息]
  說(shuō)明:“select post_title as title, id as id from wp_posts order by rand() desc limit 5”本段表示用SQL語(yǔ)句調用WordPress博客數據庫的字段命令。
  
  (1) post_title 對應 WordPress 博客的 文章 標題。
  (2) id 對應標題號。
  (3) wp_posts 是存放 WordPress 文章 的數據表,如果帝國cms 和 WordPress 博客是
  不同的數據庫,那么,上面的“wp_posts”改為“博客數據庫名.wp_posts”。因為是調用WordPress博客的URL地址,所以必須單獨自定義一個(gè)標簽模板。進(jìn)入帝國cms后臺“模板管理”——“管理標簽模板”——“添加模板”如下圖:
  
  
  模板名稱(chēng),只寫(xiě)一個(gè)好記的名字,比如“首頁(yè)調用WordPress博客文章模板”
  (4)在頁(yè)面模板內容中輸入以下代碼
  [!–empirenews.listtemp–]
  [!–empirenews.listtemp–]
  (5)列表內容模板list.var輸入如下:
  [!–title–]
  注意,如果WordPress的相對地址是/blog/?p=*,則使用/blog/?p=[! –Id–]
  偽靜態(tài)地址 blog/*.html 是 /blog/ [! –Id–].html(*代表一個(gè)數字)
  當然最好使用絕對地址。其他的URL地址可以類(lèi)推。
  然后點(diǎn)擊“保存模板”,對應的圖如下,29為標簽模板的ID。
  
  (6)"order by rand() desc"這段代碼的意思是隨機排序,如果調用最新的文章,對應的是"order by id desc"
  (7)limt 5 表示5次文章調用的次數。如果是5,后面的第一個(gè)數字也必須是5(見(jiàn)ecmsinfo標簽寫(xiě)法)
  好的,然后把ecmsinfo標簽代碼放到一些你要調用的Empirecms模板中就OK了
  最后附上效果圖:
  文章 的 WordPress 博客:
  
  Empirecms隨意調用一個(gè)WordPress博客文章:
   查看全部

  文章采集調用(幾款調用最新或是隨機文章的標簽是哪幾種?
)
  目前國內流行的幾個(gè)開(kāi)源程序包括Empirecms、織夢(mèng)cms、WordPress等,這些對于建網(wǎng)站做seo的站長(cháng)來(lái)說(shuō)肯定不陌生優(yōu)化。一般有在首頁(yè)或內頁(yè)調用最新的或隨機的文章的愛(ài)好。如果這些文章是同一個(gè)開(kāi)源程序,調用起來(lái)相對容易一些。如果它們不一樣怎么辦?接下來(lái)我講一下帝國cms如何調用WordPress博客的最新或隨機文章,僅供參考。
  
  1、 Empirecms 最常用的信息調用標簽是(ecmsinfo),如下圖,就是ecmsinfo調用標簽
  格式主要是列/主題ID和模板ID這兩個(gè)參數。操作系統的默認 ID 為 24。
  例如:如[ecmsinfo] 10, 5, 36, 1, 24, 20, 0 [/ecmsinfo]
  “10”表示“管理欄”中標識的對應欄的ID
  “20”表示“管理標簽模板”中的標簽模板ID
  整個(gè)代碼的意思是按照標簽模板ID(20))的規則調用列ID(10))中5篇文章的標題文章,并調用文章標題前不顯示列名和圖片。
  2、根據上面的例子,Empire cms隨機調用WordPress博客文章,標簽如下:
  [ecmsinfo]"選擇 post_title 作為標題,id 作為 id from wp_posts order by rand() desc limit 5",5,36,1,24,29,0[/ecms信息]
  說(shuō)明:“select post_title as title, id as id from wp_posts order by rand() desc limit 5”本段表示用SQL語(yǔ)句調用WordPress博客數據庫的字段命令。
  
  (1) post_title 對應 WordPress 博客的 文章 標題。
  (2) id 對應標題號。
  (3) wp_posts 是存放 WordPress 文章 的數據表,如果帝國cms 和 WordPress 博客是
  不同的數據庫,那么,上面的“wp_posts”改為“博客數據庫名.wp_posts”。因為是調用WordPress博客的URL地址,所以必須單獨自定義一個(gè)標簽模板。進(jìn)入帝國cms后臺“模板管理”——“管理標簽模板”——“添加模板”如下圖:
  
  
  模板名稱(chēng),只寫(xiě)一個(gè)好記的名字,比如“首頁(yè)調用WordPress博客文章模板”
  (4)在頁(yè)面模板內容中輸入以下代碼
  [!–empirenews.listtemp–]
  [!–empirenews.listtemp–]
  (5)列表內容模板list.var輸入如下:
  [!–title–]
  注意,如果WordPress的相對地址是/blog/?p=*,則使用/blog/?p=[! –Id–]
  偽靜態(tài)地址 blog/*.html 是 /blog/ [! –Id–].html(*代表一個(gè)數字)
  當然最好使用絕對地址。其他的URL地址可以類(lèi)推。
  然后點(diǎn)擊“保存模板”,對應的圖如下,29為標簽模板的ID。
  
  (6)"order by rand() desc"這段代碼的意思是隨機排序,如果調用最新的文章,對應的是"order by id desc"
  (7)limt 5 表示5次文章調用的次數。如果是5,后面的第一個(gè)數字也必須是5(見(jiàn)ecmsinfo標簽寫(xiě)法)
  好的,然后把ecmsinfo標簽代碼放到一些你要調用的Empirecms模板中就OK了
  最后附上效果圖:
  文章 的 WordPress 博客:
  
  Empirecms隨意調用一個(gè)WordPress博客文章:
  

文章采集調用( Typechotypecho分類(lèi)調用代碼放到模板的相關(guān)位置即可(圖))

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 138 次瀏覽 ? 2021-11-19 09:14 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(
Typechotypecho分類(lèi)調用代碼放到模板的相關(guān)位置即可(圖))
  
  【使用指南】可能是Typecho博客模板的布局原因,需要單獨調用某類(lèi)typecho的文章列表。目前還沒(méi)有找到相關(guān)的typecho插件,但是找到了typecho調用某個(gè)類(lèi)的實(shí)現。文章的方法很簡(jiǎn)單。只需要使用一段typecho分類(lèi)調用代碼,放在模板的相關(guān)位置即可。
  可能是Typecho博客模板的布局原因,需要單獨調用某類(lèi)typecho的文章列表。目前還沒(méi)有找到相關(guān)的typecho插件,但是我找到了typecho調用一個(gè)類(lèi)別目錄的實(shí)現文章 方法很簡(jiǎn)單,只需要使用一段typecho分類(lèi)調用代碼就可以了在模板的相關(guān)位置。
  下面是這個(gè)類(lèi)的調用代碼的使用方法。
  $this->widget('Widget_Archive@index', 'pageSize=6&type=category', 'mid=3')
->parse('{title}');
  其中,pageSize代表輸出的數量,mid代表一個(gè)類(lèi)別的類(lèi)別id。
  為了移植方便,可以將mid=3改為slug=your_shot_name,其中your_shot_name代表某類(lèi)的縮寫(xiě)名稱(chēng)。
  其中,permalink表示文章的鏈接,title表示文章的標題。 查看全部

  文章采集調用(
Typechotypecho分類(lèi)調用代碼放到模板的相關(guān)位置即可(圖))
  
  【使用指南】可能是Typecho博客模板的布局原因,需要單獨調用某類(lèi)typecho的文章列表。目前還沒(méi)有找到相關(guān)的typecho插件,但是找到了typecho調用某個(gè)類(lèi)的實(shí)現。文章的方法很簡(jiǎn)單。只需要使用一段typecho分類(lèi)調用代碼,放在模板的相關(guān)位置即可。
  可能是Typecho博客模板的布局原因,需要單獨調用某類(lèi)typecho的文章列表。目前還沒(méi)有找到相關(guān)的typecho插件,但是我找到了typecho調用一個(gè)類(lèi)別目錄的實(shí)現文章 方法很簡(jiǎn)單,只需要使用一段typecho分類(lèi)調用代碼就可以了在模板的相關(guān)位置。
  下面是這個(gè)類(lèi)的調用代碼的使用方法。
  $this->widget('Widget_Archive@index', 'pageSize=6&type=category', 'mid=3')
->parse('{title}');
  其中,pageSize代表輸出的數量,mid代表一個(gè)類(lèi)別的類(lèi)別id。
  為了移植方便,可以將mid=3改為slug=your_shot_name,其中your_shot_name代表某類(lèi)的縮寫(xiě)名稱(chēng)。
  其中,permalink表示文章的鏈接,title表示文章的標題。

文章采集調用(一個(gè)網(wǎng)站的采集規則/article/collectsite.php)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 149 次瀏覽 ? 2021-11-14 16:13 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(一個(gè)網(wǎng)站的采集規則/article/collectsite.php)
  首先登錄后臺,點(diǎn)擊上方菜單“模塊管理”-“小說(shuō)連載”,然后點(diǎn)擊左側菜單“采集配置”鏈接,會(huì )顯示當前所有采集@ > 規則,每一行代表一個(gè)網(wǎng)站。 1、“單篇采集規則”指的是一篇采集文章文章所需的規則配置,主要內容包括網(wǎng)站名稱(chēng)、網(wǎng)站@ > 地址、文章標題、作者等基本信息,以及本文章的章節結構和章節內容,可以點(diǎn)擊編輯配置修改采集規則。
  2、“Batch采集”是在單個(gè)采集的基礎上進(jìn)行的,比如采集一個(gè)文章所有文章在列表頁(yè)@>,這個(gè)列表可以是最近更新、排行榜或文章的一個(gè)類(lèi)別。批量采集的規則主要是獲取列表頁(yè)的文章名稱(chēng)和文章序號,然后將單個(gè)采集調用到采集,如果需要獲取列表的第二頁(yè)、第三頁(yè)等內容,則需要設置翻頁(yè)的參數解析規則。
  注意:所有采集規則都生成了相應的配置文件,允許網(wǎng)站配置在:configs/article/collectsite.php中的采集,某個(gè)網(wǎng)站的規則配置文件為:configs/article/site_網(wǎng)站英文logo.php,所以網(wǎng)站英文logo不允許重復。例如:在configs/article/collectsite.php中配置起點(diǎn)中文網(wǎng)站的采集:
  $jieqiCollectsite['1']['name'] ='起點(diǎn)中文網(wǎng)';$jieqiCollectsite['1']['config'] ='cmfu_com';$jieqiCollectsite['1']['url ' ] ='';$jieqiCollectsite['1']['subarticleid'] ='';$jieqiCollectsite['1']['enable'] = '1';
  那么起點(diǎn)采集規則配置文件是configs/article/site_cmfu_com.php。 查看全部

  文章采集調用(一個(gè)網(wǎng)站的采集規則/article/collectsite.php)
  首先登錄后臺,點(diǎn)擊上方菜單“模塊管理”-“小說(shuō)連載”,然后點(diǎn)擊左側菜單“采集配置”鏈接,會(huì )顯示當前所有采集@ > 規則,每一行代表一個(gè)網(wǎng)站。 1、“單篇采集規則”指的是一篇采集文章文章所需的規則配置,主要內容包括網(wǎng)站名稱(chēng)、網(wǎng)站@ > 地址、文章標題、作者等基本信息,以及本文章的章節結構和章節內容,可以點(diǎn)擊編輯配置修改采集規則。
  2、“Batch采集”是在單個(gè)采集的基礎上進(jìn)行的,比如采集一個(gè)文章所有文章在列表頁(yè)@>,這個(gè)列表可以是最近更新、排行榜或文章的一個(gè)類(lèi)別。批量采集的規則主要是獲取列表頁(yè)的文章名稱(chēng)和文章序號,然后將單個(gè)采集調用到采集,如果需要獲取列表的第二頁(yè)、第三頁(yè)等內容,則需要設置翻頁(yè)的參數解析規則。
  注意:所有采集規則都生成了相應的配置文件,允許網(wǎng)站配置在:configs/article/collectsite.php中的采集,某個(gè)網(wǎng)站的規則配置文件為:configs/article/site_網(wǎng)站英文logo.php,所以網(wǎng)站英文logo不允許重復。例如:在configs/article/collectsite.php中配置起點(diǎn)中文網(wǎng)站的采集:
  $jieqiCollectsite['1']['name'] ='起點(diǎn)中文網(wǎng)';$jieqiCollectsite['1']['config'] ='cmfu_com';$jieqiCollectsite['1']['url ' ] ='';$jieqiCollectsite['1']['subarticleid'] ='';$jieqiCollectsite['1']['enable'] = '1';
  那么起點(diǎn)采集規則配置文件是configs/article/site_cmfu_com.php。

文章采集調用( 使用SQL調用當前文章鏈接的方法,你知道嗎?)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 119 次瀏覽 ? 2021-11-14 16:11 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(
使用SQL調用當前文章鏈接的方法,你知道嗎?)
  
  很多時(shí)候在使用織夢(mèng)cms的時(shí)候,想在文章頁(yè)面的最后加上當前的文章鏈接(url),這樣別人復制文章的時(shí)候@>,添加鏈接,這相當于做了一個(gè)外鏈(雖然這個(gè)概率很低)。下面,老米將介紹三種調用當前文章鏈接的方法。您可以根據自己的需要進(jìn)行選擇。
  第一種方法:
  這是最簡(jiǎn)單的方法,只需在相應位置添加標簽即可。代碼顯示如下:
  {dede:field name='arcurl'/}
  添加完成后,保存文章模板并上傳服務(wù)器重新生成頁(yè)面。
  第二種方法:
  只需使用織夢(mèng)cms本身的一個(gè)全局函數,并以標簽的形式在前臺調用即可。代碼顯示如下:
  {dede:geturl runphp='yes'}
  @me = GetCurUrl();
  {/dede:geturl}
  將上述代碼插入需要顯示當前文章 URL地址的位置,然后生成文章內容頁(yè)面。
  第三種方法:
  使用 SQL 語(yǔ)句調用靜態(tài)文檔地址。代碼顯示如下:
  {dede:field.id runphp='yes'}
  $id=@me;
  @我='';
  $url=GetOneArchive($id);
  @me=$url['arcurl'];
  {/dede:field.id}
  織夢(mèng)文章 介紹了調用當前頁(yè)面末尾的文章鏈接(url)的三種方法。如果你對織夢(mèng)不熟悉或者有一點(diǎn)了解,可以使用第一種和第二種方法。比如老米技術(shù)有限,說(shuō)到數據庫,他不喜歡操作,所以不會(huì )優(yōu)先考慮第三個(gè)。使用哪種方法可以根據自己的情況來(lái)決定。
  原創(chuàng )文章, title: 織夢(mèng)文章 頁(yè)面末尾調用當前文章鏈接(url)的三種方法,如轉載請注明出處: 查看全部

  文章采集調用(
使用SQL調用當前文章鏈接的方法,你知道嗎?)
  
  很多時(shí)候在使用織夢(mèng)cms的時(shí)候,想在文章頁(yè)面的最后加上當前的文章鏈接(url),這樣別人復制文章的時(shí)候@>,添加鏈接,這相當于做了一個(gè)外鏈(雖然這個(gè)概率很低)。下面,老米將介紹三種調用當前文章鏈接的方法。您可以根據自己的需要進(jìn)行選擇。
  第一種方法:
  這是最簡(jiǎn)單的方法,只需在相應位置添加標簽即可。代碼顯示如下:
  {dede:field name='arcurl'/}
  添加完成后,保存文章模板并上傳服務(wù)器重新生成頁(yè)面。
  第二種方法:
  只需使用織夢(mèng)cms本身的一個(gè)全局函數,并以標簽的形式在前臺調用即可。代碼顯示如下:
  {dede:geturl runphp='yes'}
  @me = GetCurUrl();
  {/dede:geturl}
  將上述代碼插入需要顯示當前文章 URL地址的位置,然后生成文章內容頁(yè)面。
  第三種方法:
  使用 SQL 語(yǔ)句調用靜態(tài)文檔地址。代碼顯示如下:
  {dede:field.id runphp='yes'}
  $id=@me;
  @我='';
  $url=GetOneArchive($id);
  @me=$url['arcurl'];
  {/dede:field.id}
  織夢(mèng)文章 介紹了調用當前頁(yè)面末尾的文章鏈接(url)的三種方法。如果你對織夢(mèng)不熟悉或者有一點(diǎn)了解,可以使用第一種和第二種方法。比如老米技術(shù)有限,說(shuō)到數據庫,他不喜歡操作,所以不會(huì )優(yōu)先考慮第三個(gè)。使用哪種方法可以根據自己的情況來(lái)決定。
  原創(chuàng )文章, title: 織夢(mèng)文章 頁(yè)面末尾調用當前文章鏈接(url)的三種方法,如轉載請注明出處:

文章采集調用(忘記WordPress后臺密碼怎么辦?WordPress網(wǎng)站PHP純代碼生成文章海報圖片)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 137 次瀏覽 ? 2021-11-12 07:11 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(忘記WordPress后臺密碼怎么辦?WordPress網(wǎng)站PHP純代碼生成文章海報圖片)
  猜猜你在找什么 wordpress文章
  Typecho 到 WordPress 的遷移插件:ByeTyp
  Typecho 是輕量級的,但是已經(jīng)好幾年沒(méi)有更新了。插件和模板支持一直非常困難。越來(lái)越多的人退出了 Typecho,轉而使用 WordPress。
  WordPress 如何隱藏后臺登錄地址
  隱藏WordPress后臺登錄地址是保證網(wǎng)站安全的方法之一。在隱藏它的同時(shí),刪除指向后端網(wǎng)站的鏈接。
  如果忘記了 WordPress 后臺密碼怎么辦? WordPress后臺找回密碼方法
  我昨天忘記了后臺網(wǎng)站的密碼。 網(wǎng)站用WordPress搭建,忘記后臺密碼怎么辦?
  WordPress網(wǎng)站PHP 純代碼生成文章海報圖片
  要實(shí)現這個(gè)功能,需要依賴(lài)PHP的GD庫。如果您沒(méi)有它,它將無(wú)法工作。虛擬主機用戶(hù)請看是否支持。
  Wordpress 作者判斷調用不同的模板顯示在作者頁(yè)面上
  如果網(wǎng)站開(kāi)放注冊和投稿功能,將會(huì )有作者、編輯、訂閱者和管理員。頁(yè)面顯示不同的模板需要單獨調用。
  wordpress 不同類(lèi)別調用不同模板的方法
  之前介紹了在WordPress不同類(lèi)別中調用不同文章模板的方法。今天給大家分享一下如何調用不同類(lèi)別的不同模板。
  為WordPress頁(yè)面添加自定義匯總功能
  我們在做 WordPress網(wǎng)站 的時(shí)候,經(jīng)常需要調用首頁(yè)或者分類(lèi)頁(yè)上的摘要,并在分類(lèi)列表中展示。
  WordPress上傳附件提示“上級目錄沒(méi)有寫(xiě)權限”的解決方法
  WordPress用戶(hù)在后臺上傳附件提示“上級目錄沒(méi)有寫(xiě)權限”一般出現在網(wǎng)站遷移到新站點(diǎn)后,如果用戶(hù)在WordPress后臺上傳圖片附件,或者在工具import網(wǎng)站遇到數據時(shí),遇到如下提示: 查看全部

  文章采集調用(忘記WordPress后臺密碼怎么辦?WordPress網(wǎng)站PHP純代碼生成文章海報圖片)
  猜猜你在找什么 wordpress文章
  Typecho 到 WordPress 的遷移插件:ByeTyp
  Typecho 是輕量級的,但是已經(jīng)好幾年沒(méi)有更新了。插件和模板支持一直非常困難。越來(lái)越多的人退出了 Typecho,轉而使用 WordPress。
  WordPress 如何隱藏后臺登錄地址
  隱藏WordPress后臺登錄地址是保證網(wǎng)站安全的方法之一。在隱藏它的同時(shí),刪除指向后端網(wǎng)站的鏈接。
  如果忘記了 WordPress 后臺密碼怎么辦? WordPress后臺找回密碼方法
  我昨天忘記了后臺網(wǎng)站的密碼。 網(wǎng)站用WordPress搭建,忘記后臺密碼怎么辦?
  WordPress網(wǎng)站PHP 純代碼生成文章海報圖片
  要實(shí)現這個(gè)功能,需要依賴(lài)PHP的GD庫。如果您沒(méi)有它,它將無(wú)法工作。虛擬主機用戶(hù)請看是否支持。
  Wordpress 作者判斷調用不同的模板顯示在作者頁(yè)面上
  如果網(wǎng)站開(kāi)放注冊和投稿功能,將會(huì )有作者、編輯、訂閱者和管理員。頁(yè)面顯示不同的模板需要單獨調用。
  wordpress 不同類(lèi)別調用不同模板的方法
  之前介紹了在WordPress不同類(lèi)別中調用不同文章模板的方法。今天給大家分享一下如何調用不同類(lèi)別的不同模板。
  為WordPress頁(yè)面添加自定義匯總功能
  我們在做 WordPress網(wǎng)站 的時(shí)候,經(jīng)常需要調用首頁(yè)或者分類(lèi)頁(yè)上的摘要,并在分類(lèi)列表中展示。
  WordPress上傳附件提示“上級目錄沒(méi)有寫(xiě)權限”的解決方法
  WordPress用戶(hù)在后臺上傳附件提示“上級目錄沒(méi)有寫(xiě)權限”一般出現在網(wǎng)站遷移到新站點(diǎn)后,如果用戶(hù)在WordPress后臺上傳圖片附件,或者在工具import網(wǎng)站遇到數據時(shí),遇到如下提示:

文章采集調用(1.用python爬取實(shí)現方法:anyproxy+java+webmagic3.FiddlerCore)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 193 次瀏覽 ? 2021-11-10 11:06 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(1.用python爬取實(shí)現方法:anyproxy+java+webmagic3.FiddlerCore)
  微信公眾號文章爬取方法用python組織1.爬取
  實(shí)現方法:通過(guò)微信提供的公眾號文章調用接口,實(shí)現爬取公眾號文章的功能
  步:
  1.需要安裝python selenium模塊包,使用selenium中的webdriver驅動(dòng)瀏覽器獲取cookie,達到登錄的效果;
  2.使用webdriver功能需要安裝瀏覽器對應的驅動(dòng)插件。我在這里測試的是谷歌瀏覽器:
  谷歌瀏覽器版本為 52.0.2743.6;
  chromedriver 版本為:V2.23
  注意:谷歌瀏覽器版本和chromedriver需要對應,否則啟動(dòng)時(shí)會(huì )報錯?!靖剑簊elenium的chromedriver與chrome版本映射表(更新為v2.30))】
  3. 微信公眾號登錄地址:
  4.微信公眾號文章界面地址可以在微信公眾號后臺新建圖文消息,可以通過(guò)超鏈接功能獲?。?br />   5.搜索公眾號
  6.獲取要爬取的公眾號的fakeid
  7.選擇要爬取的公眾號,獲取文章接口地址
  8.文章 列表翻頁(yè)和內容獲取
  2.AnyProxy 代理批處理采集
  實(shí)現方式:anyproxy+js
  實(shí)現方式:anyproxy+java+webmagic
  3.FiddlerCore
  實(shí)現方式:抓包工具,Fiddler4
  通過(guò)捕獲和分析多個(gè)帳戶(hù),您可以確定:
  _biz:這個(gè)14位的字符串是每個(gè)公眾號的“id”,搜狗的微信平臺可以獲得
uin:與訪(fǎng)問(wèn)者有關(guān),微信號id
key:和所訪(fǎng)問(wèn)的公眾號有關(guān)

  步:
  1、編寫(xiě)按鈕向導腳本,自動(dòng)點(diǎn)擊手機公眾號文章列表頁(yè),即“查看歷史消息”;
  2、利用fiddler代理劫持??手機訪(fǎng)問(wèn),將URL轉發(fā)到本地php編寫(xiě)的網(wǎng)頁(yè);
  3、將接收到的php網(wǎng)頁(yè)上的URL備份到數據庫中;
  4、使用python從數據庫中獲取URL,然后進(jìn)行正常爬取。
  爬取過(guò)程中發(fā)現一個(gè)問(wèn)題:
  如果只是抓取文章的內容,好像沒(méi)有訪(fǎng)問(wèn)頻率限制,但是如果要抓取閱讀數和點(diǎn)贊數,達到一定頻率后,返回就會(huì )變成一個(gè)空值,我設置的時(shí)間間隔是10秒,可以正常爬取。在這個(gè)頻率下,一個(gè)小時(shí)只能抓取360條,沒(méi)有實(shí)際意義。
  4.青波新名單
  如果你只是想看數據,直接看日單就行了,不用花錢(qián)。如果您需要訪(fǎng)問(wèn)自己的系統,他們還提供了一個(gè) api 接口。 查看全部

  文章采集調用(1.用python爬取實(shí)現方法:anyproxy+java+webmagic3.FiddlerCore)
  微信公眾號文章爬取方法用python組織1.爬取
  實(shí)現方法:通過(guò)微信提供的公眾號文章調用接口,實(shí)現爬取公眾號文章的功能
  步:
  1.需要安裝python selenium模塊包,使用selenium中的webdriver驅動(dòng)瀏覽器獲取cookie,達到登錄的效果;
  2.使用webdriver功能需要安裝瀏覽器對應的驅動(dòng)插件。我在這里測試的是谷歌瀏覽器:
  谷歌瀏覽器版本為 52.0.2743.6;
  chromedriver 版本為:V2.23
  注意:谷歌瀏覽器版本和chromedriver需要對應,否則啟動(dòng)時(shí)會(huì )報錯?!靖剑簊elenium的chromedriver與chrome版本映射表(更新為v2.30))】
  3. 微信公眾號登錄地址:
  4.微信公眾號文章界面地址可以在微信公眾號后臺新建圖文消息,可以通過(guò)超鏈接功能獲?。?br />   5.搜索公眾號
  6.獲取要爬取的公眾號的fakeid
  7.選擇要爬取的公眾號,獲取文章接口地址
  8.文章 列表翻頁(yè)和內容獲取
  2.AnyProxy 代理批處理采集
  實(shí)現方式:anyproxy+js
  實(shí)現方式:anyproxy+java+webmagic
  3.FiddlerCore
  實(shí)現方式:抓包工具,Fiddler4
  通過(guò)捕獲和分析多個(gè)帳戶(hù),您可以確定:
  _biz:這個(gè)14位的字符串是每個(gè)公眾號的“id”,搜狗的微信平臺可以獲得
uin:與訪(fǎng)問(wèn)者有關(guān),微信號id
key:和所訪(fǎng)問(wèn)的公眾號有關(guān)

  步:
  1、編寫(xiě)按鈕向導腳本,自動(dòng)點(diǎn)擊手機公眾號文章列表頁(yè),即“查看歷史消息”;
  2、利用fiddler代理劫持??手機訪(fǎng)問(wèn),將URL轉發(fā)到本地php編寫(xiě)的網(wǎng)頁(yè);
  3、將接收到的php網(wǎng)頁(yè)上的URL備份到數據庫中;
  4、使用python從數據庫中獲取URL,然后進(jìn)行正常爬取。
  爬取過(guò)程中發(fā)現一個(gè)問(wèn)題:
  如果只是抓取文章的內容,好像沒(méi)有訪(fǎng)問(wèn)頻率限制,但是如果要抓取閱讀數和點(diǎn)贊數,達到一定頻率后,返回就會(huì )變成一個(gè)空值,我設置的時(shí)間間隔是10秒,可以正常爬取。在這個(gè)頻率下,一個(gè)小時(shí)只能抓取360條,沒(méi)有實(shí)際意義。
  4.青波新名單
  如果你只是想看數據,直接看日單就行了,不用花錢(qián)。如果您需要訪(fǎng)問(wèn)自己的系統,他們還提供了一個(gè) api 接口。

文章采集調用(夢(mèng)dedecms(V5.7版)調用相似文章中)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 119 次瀏覽 ? 2021-11-10 10:15 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(夢(mèng)dedecms(V5.7版)調用相似文章中)
  當我們發(fā)布文章文章時(shí),一般情況下,為了增加用戶(hù)的停留時(shí)間,我們會(huì )在文章的末尾或者在為了再次贏(yíng)得用戶(hù)點(diǎn)擊,在織夢(mèng)dedecms(V5.7版)調用類(lèi)似文章,實(shí)際調用代碼為{dede:likearticle} ,這段代碼的原理是通過(guò)識別文章的title、category、關(guān)鍵詞等來(lái)判斷相似度,從而做出推薦。后臺調用代碼如下/include/taglib/likearticle.lib.php,打開(kāi)文件找到如下這段代碼:
  /**************************************************** ****************************************************** ****/
  if($keyword !='')
  {
  if(!empty($typeid)) {
  $typeid ="AND arc.typeid IN($typeid) AND arc.id'$aid'";
  }
  $query = "SELECT arc.*,tp.typedir,tp.typename,tp.corank,tp.isdefault,tp.defaultname,tp.namerule,
  tp.namerule2,tp.ispart,tp.moresite,tp.siteurl,tp.sitepath
  FROM `dede_archives` arc LEFT JOIN `dede_arctype` tp ON arc.typeid=tp.id
  where arc.arcrank>-1AND ($keyword) $typeid$orderquery limit 0, $row";
  }
  其他
  {
  if(!empty($typeid)) {
  $typeid = "arc.typeid IN($typeid) AND arc.id'$aid'";
  }
  $query = "SELECT arc.*,tp.typedir,tp.typename,tp.corank,tp.isdefault,tp.defaultname,tp.namerule,
  tp.namerule2,tp.ispart,tp.moresite,tp.siteurl,tp.sitepath
  FROM `dede_archives` arc LEFT JOIN `dede_arctype` tp ON arc.typeid=tp.id
  WHERE arc.arcrank>-1AND $typeid$orderquery limit 0, $row";
  }
<p>/**************************************************** ****************************************************/ 查看全部

  文章采集調用(夢(mèng)dedecms(V5.7版)調用相似文章中)
  當我們發(fā)布文章文章時(shí),一般情況下,為了增加用戶(hù)的停留時(shí)間,我們會(huì )在文章的末尾或者在為了再次贏(yíng)得用戶(hù)點(diǎn)擊,在織夢(mèng)dedecms(V5.7版)調用類(lèi)似文章,實(shí)際調用代碼為{dede:likearticle} ,這段代碼的原理是通過(guò)識別文章的title、category、關(guān)鍵詞等來(lái)判斷相似度,從而做出推薦。后臺調用代碼如下/include/taglib/likearticle.lib.php,打開(kāi)文件找到如下這段代碼:
  /**************************************************** ****************************************************** ****/
  if($keyword !='')
  {
  if(!empty($typeid)) {
  $typeid ="AND arc.typeid IN($typeid) AND arc.id'$aid'";
  }
  $query = "SELECT arc.*,tp.typedir,tp.typename,tp.corank,tp.isdefault,tp.defaultname,tp.namerule,
  tp.namerule2,tp.ispart,tp.moresite,tp.siteurl,tp.sitepath
  FROM `dede_archives` arc LEFT JOIN `dede_arctype` tp ON arc.typeid=tp.id
  where arc.arcrank>-1AND ($keyword) $typeid$orderquery limit 0, $row";
  }
  其他
  {
  if(!empty($typeid)) {
  $typeid = "arc.typeid IN($typeid) AND arc.id'$aid'";
  }
  $query = "SELECT arc.*,tp.typedir,tp.typename,tp.corank,tp.isdefault,tp.defaultname,tp.namerule,
  tp.namerule2,tp.ispart,tp.moresite,tp.siteurl,tp.sitepath
  FROM `dede_archives` arc LEFT JOIN `dede_arctype` tp ON arc.typeid=tp.id
  WHERE arc.arcrank>-1AND $typeid$orderquery limit 0, $row";
  }
<p>/**************************************************** ****************************************************/

文章采集調用(如何網(wǎng)頁(yè)訪(fǎng)問(wèn)?豆瓣網(wǎng)教你如何獲取真正請求的地址?(圖))

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 180 次瀏覽 ? 2021-11-10 00:07 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(如何網(wǎng)頁(yè)訪(fǎng)問(wèn)?豆瓣網(wǎng)教你如何獲取真正請求的地址?(圖))
  【一、項目背景】
  豆瓣影業(yè)提供最新的電影介紹和影評,包括正在放映的電影的視頻查詢(xún)和購票服務(wù)。順便可以錄下想看的電影和電視劇,看,看,還可以寫(xiě)影評。它極大地方便了人們的生活。
  今天以電視?。绖。槔?,批量抓取對應的電影,寫(xiě)入csv文件。用戶(hù)可以通過(guò)評分更好地選擇自己想要的電影。
  【二、項目目標】
  獲取對應的電影名稱(chēng)、評分、詳情鏈接,下載電影圖片,保存文件。
  [三、 涉及的圖書(shū)館和 網(wǎng)站]
  1、 網(wǎng)址如下:
  %E7%BE%8E%E5%89%A7&amp;sort=recommend&amp;page_limit=20&amp;page_start={}
  2、 涉及的庫:requests****、fake_useragent、json****、csv
  3、軟件:PyCharm
  【四、項目分析】
  1、如何請求多個(gè)頁(yè)面?
  當您單擊下一頁(yè)時(shí),每增加一頁(yè),paged 將增加 20。使用{}替換轉換后的變量,然后使用for循環(huán)遍歷URL實(shí)現多個(gè)URL請求。
  2、如何獲取實(shí)際請求的地址?
  在請求數據時(shí),發(fā)現頁(yè)面上沒(méi)有對應的數據。其實(shí)豆瓣是通過(guò)javascript動(dòng)態(tài)加載內容來(lái)防止采集的。
  1)F12 右鍵查看,在左側菜單中找到Network,Name,找到第五個(gè)數據,點(diǎn)擊Preview。
  
  2) 點(diǎn)擊subjects,可以看到title是對應電影的名字。率是相應的分數。通過(guò)js解析subjects字典,找到需要的字段。
  
  如何訪(fǎng)問(wèn)網(wǎng)頁(yè)?
  %E7%BE%8E%E5%89%A7&amp;sort=recommend&amp;page_limit=20&amp;page_start=0
  %E7%BE%8E%E5%89%A7&amp;sort=recommend&amp;page_limit=20&amp;page_start=20
  %E7%BE%8E%E5%89%A7&amp;sort=recommend&amp;page_limit=20&amp;page_start=40
  %E7%BE%8E%E5%89%A7&amp;sort=recommend&amp;page_limit=20&amp;page_start=60
  單擊下一頁(yè)時(shí),每增加一頁(yè),該頁(yè)將增加 20。使用{}替換轉換后的變量,然后使用for循環(huán)遍歷URL實(shí)現多個(gè)URL請求。
  【五、項目實(shí)施】
  1、 我們定義一個(gè)類(lèi)繼承對象,然后定義init方法繼承self,再定義一個(gè)main函數main繼承self。導入所需的庫和請求 URL。
  導入請求,json
  從 fake_useragent 導入 UserAgent
  導入 csv
  類(lèi)多班(對象):
  def __init__(self):
  self.url = ";tag=%E7%BE%8E%E5%89%A7&amp;sort=recommend&amp;page_limit=20&amp;page_start={}"
  定義主(自我):
  經(jīng)過(guò)
  如果 __name__ =='__main__':
  Siper = Doban()
  Siper.main()
  2、 隨機生成UserAgent,構造請求頭,防止反爬。
  對于范圍內的 i(1, 50):
  self.headers = {
  '用戶(hù)代理':ua.random,
  }
  3、發(fā)送請求,獲取響應,頁(yè)面回調,方便下次請求。
  def get_page(self, url):
  res = requests.get(url=url, headers=self.headers)
  html = res.content.decode("utf-8")
  返回 html
  4、json 解析頁(yè)面數據,獲取對應的字典。
  數據 = json.loads(html)['主題']
  #打?。〝祿0])
  5、進(jìn)行遍歷,獲取對應的電影名,評分,鏈接到下一個(gè)詳情頁(yè)。
  打?。Q(chēng),妖精赫夫)
  html2 = self.get_page(goblin_herf) # 第二個(gè)請求發(fā)生
  parse_html2 = etree.HTML(html2)
  r = parse_html2.xpath('//div[@class="entry"]/p/text()')
  6、創(chuàng )建一個(gè)用于寫(xiě)入的csv文件,定義對應的header內容,并保存數據。
  # 創(chuàng )建一個(gè)用于寫(xiě)入的csv文件
  csv_file = open('scr.csv','a', encoding='gbk')
  csv_writer = csv.writer(csv_file)
  # 寫(xiě)入csv標題內容
  csv_writerr.writerow(['電影','評級',"詳細頁(yè)面"])
 ?。祿斎?br />   csv_writer.writerow([id, rate, url])
  7、圖片地址提出請求。定義圖片的名稱(chēng)并保存文檔。
  html2 = requests.get(url=url, headers=self.headers).content
  目錄名 = "./圖片/" + id + ".jpg"
  with open(dirname,'wb') as f:
  f.write(html2)
  print("%s [下載成功?。?!]"% id)
  8、 調用方法來(lái)實(shí)現功能。
  html = self.get_page(url)
  self.parse_page(html)
  9、項目?jì)?yōu)化:
  1) 設置時(shí)間延遲。
  time.sleep(1.4)
  2) 定義一個(gè)變量u,用于遍歷,表示爬取的是哪個(gè)頁(yè)面。(更清晰,更令人印象深刻)。
  u = 0
  self.u += 1;
  【六、效果展示】
  1、 點(diǎn)擊綠色三角進(jìn)入起始頁(yè)和結束頁(yè)(從第0頁(yè)開(kāi)始)。
  
  2、 在控制臺顯示下載成功信息。
  
  3、保存csv文件。
  
  4、電影圖片顯示。
  
  [七、總結]
  1、 不建議抓太多數據,可能造成服務(wù)器負載,簡(jiǎn)單試一下。
  2、本文章針對Python爬取豆瓣應用中的難點(diǎn)和關(guān)鍵點(diǎn),以及如何防止反爬,做了一個(gè)相對的解決方案。
  3、希望通過(guò)這個(gè)項目,可以幫助大家了解json解析頁(yè)面的基本流程,如何拼接字符串,如何使用format函數。
  4、 本文基于Python網(wǎng)絡(luò )爬蟲(chóng),利用爬蟲(chóng)庫實(shí)現豆瓣電影及其圖片的獲取。說(shuō)到實(shí)現,總會(huì )有各種各樣的問(wèn)題。不要看最好的,努力去更深入地理解。
  5、需要本文源碼的可以在后臺回復“豆瓣電影”獲取。
  ****看完這篇文章你有收獲嗎?請轉發(fā)并分享給更多人****
  IT共享之家 查看全部

  文章采集調用(如何網(wǎng)頁(yè)訪(fǎng)問(wèn)?豆瓣網(wǎng)教你如何獲取真正請求的地址?(圖))
  【一、項目背景】
  豆瓣影業(yè)提供最新的電影介紹和影評,包括正在放映的電影的視頻查詢(xún)和購票服務(wù)。順便可以錄下想看的電影和電視劇,看,看,還可以寫(xiě)影評。它極大地方便了人們的生活。
  今天以電視?。绖。槔?,批量抓取對應的電影,寫(xiě)入csv文件。用戶(hù)可以通過(guò)評分更好地選擇自己想要的電影。
  【二、項目目標】
  獲取對應的電影名稱(chēng)、評分、詳情鏈接,下載電影圖片,保存文件。
  [三、 涉及的圖書(shū)館和 網(wǎng)站]
  1、 網(wǎng)址如下:
  %E7%BE%8E%E5%89%A7&amp;sort=recommend&amp;page_limit=20&amp;page_start={}
  2、 涉及的庫:requests****、fake_useragent、json****、csv
  3、軟件:PyCharm
  【四、項目分析】
  1、如何請求多個(gè)頁(yè)面?
  當您單擊下一頁(yè)時(shí),每增加一頁(yè),paged 將增加 20。使用{}替換轉換后的變量,然后使用for循環(huán)遍歷URL實(shí)現多個(gè)URL請求。
  2、如何獲取實(shí)際請求的地址?
  在請求數據時(shí),發(fā)現頁(yè)面上沒(méi)有對應的數據。其實(shí)豆瓣是通過(guò)javascript動(dòng)態(tài)加載內容來(lái)防止采集的。
  1)F12 右鍵查看,在左側菜單中找到Network,Name,找到第五個(gè)數據,點(diǎn)擊Preview。
  
  2) 點(diǎn)擊subjects,可以看到title是對應電影的名字。率是相應的分數。通過(guò)js解析subjects字典,找到需要的字段。
  
  如何訪(fǎng)問(wèn)網(wǎng)頁(yè)?
  %E7%BE%8E%E5%89%A7&amp;sort=recommend&amp;page_limit=20&amp;page_start=0
  %E7%BE%8E%E5%89%A7&amp;sort=recommend&amp;page_limit=20&amp;page_start=20
  %E7%BE%8E%E5%89%A7&amp;sort=recommend&amp;page_limit=20&amp;page_start=40
  %E7%BE%8E%E5%89%A7&amp;sort=recommend&amp;page_limit=20&amp;page_start=60
  單擊下一頁(yè)時(shí),每增加一頁(yè),該頁(yè)將增加 20。使用{}替換轉換后的變量,然后使用for循環(huán)遍歷URL實(shí)現多個(gè)URL請求。
  【五、項目實(shí)施】
  1、 我們定義一個(gè)類(lèi)繼承對象,然后定義init方法繼承self,再定義一個(gè)main函數main繼承self。導入所需的庫和請求 URL。
  導入請求,json
  從 fake_useragent 導入 UserAgent
  導入 csv
  類(lèi)多班(對象):
  def __init__(self):
  self.url = ";tag=%E7%BE%8E%E5%89%A7&amp;sort=recommend&amp;page_limit=20&amp;page_start={}"
  定義主(自我):
  經(jīng)過(guò)
  如果 __name__ =='__main__':
  Siper = Doban()
  Siper.main()
  2、 隨機生成UserAgent,構造請求頭,防止反爬。
  對于范圍內的 i(1, 50):
  self.headers = {
  '用戶(hù)代理':ua.random,
  }
  3、發(fā)送請求,獲取響應,頁(yè)面回調,方便下次請求。
  def get_page(self, url):
  res = requests.get(url=url, headers=self.headers)
  html = res.content.decode("utf-8")
  返回 html
  4、json 解析頁(yè)面數據,獲取對應的字典。
  數據 = json.loads(html)['主題']
  #打?。〝祿0])
  5、進(jìn)行遍歷,獲取對應的電影名,評分,鏈接到下一個(gè)詳情頁(yè)。
  打?。Q(chēng),妖精赫夫)
  html2 = self.get_page(goblin_herf) # 第二個(gè)請求發(fā)生
  parse_html2 = etree.HTML(html2)
  r = parse_html2.xpath('//div[@class="entry"]/p/text()')
  6、創(chuàng )建一個(gè)用于寫(xiě)入的csv文件,定義對應的header內容,并保存數據。
  # 創(chuàng )建一個(gè)用于寫(xiě)入的csv文件
  csv_file = open('scr.csv','a', encoding='gbk')
  csv_writer = csv.writer(csv_file)
  # 寫(xiě)入csv標題內容
  csv_writerr.writerow(['電影','評級',"詳細頁(yè)面"])
 ?。祿斎?br />   csv_writer.writerow([id, rate, url])
  7、圖片地址提出請求。定義圖片的名稱(chēng)并保存文檔。
  html2 = requests.get(url=url, headers=self.headers).content
  目錄名 = "./圖片/" + id + ".jpg"
  with open(dirname,'wb') as f:
  f.write(html2)
  print("%s [下載成功?。?!]"% id)
  8、 調用方法來(lái)實(shí)現功能。
  html = self.get_page(url)
  self.parse_page(html)
  9、項目?jì)?yōu)化:
  1) 設置時(shí)間延遲。
  time.sleep(1.4)
  2) 定義一個(gè)變量u,用于遍歷,表示爬取的是哪個(gè)頁(yè)面。(更清晰,更令人印象深刻)。
  u = 0
  self.u += 1;
  【六、效果展示】
  1、 點(diǎn)擊綠色三角進(jìn)入起始頁(yè)和結束頁(yè)(從第0頁(yè)開(kāi)始)。
  
  2、 在控制臺顯示下載成功信息。
  
  3、保存csv文件。
  
  4、電影圖片顯示。
  
  [七、總結]
  1、 不建議抓太多數據,可能造成服務(wù)器負載,簡(jiǎn)單試一下。
  2、本文章針對Python爬取豆瓣應用中的難點(diǎn)和關(guān)鍵點(diǎn),以及如何防止反爬,做了一個(gè)相對的解決方案。
  3、希望通過(guò)這個(gè)項目,可以幫助大家了解json解析頁(yè)面的基本流程,如何拼接字符串,如何使用format函數。
  4、 本文基于Python網(wǎng)絡(luò )爬蟲(chóng),利用爬蟲(chóng)庫實(shí)現豆瓣電影及其圖片的獲取。說(shuō)到實(shí)現,總會(huì )有各種各樣的問(wèn)題。不要看最好的,努力去更深入地理解。
  5、需要本文源碼的可以在后臺回復“豆瓣電影”獲取。
  ****看完這篇文章你有收獲嗎?請轉發(fā)并分享給更多人****
  IT共享之家

文章采集調用(WordPress每頁(yè)文章固定內容的側邊欄看多了很枯燥,怎么添加側邊欄?)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 163 次瀏覽 ? 2021-11-08 06:24 ? 來(lái)自相關(guān)話(huà)題

  文章采集調用(WordPress每頁(yè)文章固定內容的側邊欄看多了很枯燥,怎么添加側邊欄?)
  WordPress
  在文章的每一頁(yè)上看到太多固定內容側邊欄很無(wú)聊。如何添加側邊欄并使每個(gè) 文章 調用不同的側邊欄?本文文章不需要任何基礎,按照我的方法一步步完成即可。原因自然是不同的側邊欄可以讓用戶(hù)體驗和SEO效果更好。
  
  一、添加側邊欄
  參考資料:
  如何在wordpress中添加側邊欄并不只是上傳代碼那么簡(jiǎn)單,為了方便,放在wp的后臺部分是更好的選擇。說(shuō)一下流程
  首先我們找到主題的functions.php文件,打開(kāi)編輯functions.php,找到側邊欄的代碼,直接復制。
  function twentysixteen_widgets_init() {
register_sidebar( array(
'name' => __( 'Sidebar', 'twentysixteen' ),
'id' => 'sidebar-1',
'description' => __( 'Add widgets here to appear in your sidebar.', 'twentysixteen' ),
'before_widget' => '',
'after_widget' => '',
'before_title' => '',
'after_title' => '',
) );
}
  說(shuō)說(shuō)基本參數:
  我們只需要參考原創(chuàng )代碼進(jìn)行更改以用于特定用途。例如,我在 now 之后添加了一個(gè)段落
  register_sidebar( array(
'name' => __( 'Sidebar4', 'twentysixteen' ),
'id' => 'sidebar-4',
'description' => __( 'Add widgets here to appear in your sidebar.', 'twentysixteen' ),
'before_widget' => '',
'after_widget' => '',
'before_title' => '',
'after_title' => '',
) );
  這時(shí)候打開(kāi)小工具,發(fā)現后面有一個(gè)側邊欄,叫做sidebar4。您可以添加您想要的側邊欄效果工具。
  如下圖,我添加了三個(gè)“文章Measure column 1,文章Measure column 2,文章Measure column 3”。
  注意這里id的區別
  
  保存后返回wp背景的widget選項。打開(kāi)后,我們發(fā)現頁(yè)面上多了三個(gè)新的側邊欄。
  
  二、如何讓文章調用側邊欄
  參考資料:
  %e4%b8%8d%e5%90%8c%e6%96%87%e7%ab%a0%e6%98%be%e7%a4%ba%e4%b8%8d%e5%90%8c%e7 %9a%84%e4%be%a7%e8%be%b9%e6%a0%8f.html
  首先是添加文章需要綁定的代碼文件。
  主題根目錄對應新建三個(gè)文件,如下圖所示。
  
  以第一個(gè)文件為例,我這里的名字是side1.php
  內容是:
  
  修改functions.php文件和side1.php文件后。
  如何將 文章 綁定到側邊欄?使用自定義字段是一個(gè)不錯的選擇。具體使用方法是打開(kāi)文章編輯界面的顯示選項,然后輸入參數和數值。
  要使自定義字段起作用,您必須首先使 文章 能夠識別自定義字段的作用。我們編輯 single.php 文件。找到 get_sidebar() 函數:
  替換為:
  更新后,文章會(huì )根據我們輸入的自定義字段的值改變側邊欄。我在這里輸入:
  
  對應我剛剛測試的文件名。最后更新文章后,發(fā)現側邊欄變成了我們剛剛添加的側邊欄sid1的側邊欄。
  ps:注意標點(diǎn)符號,容易出錯。我花了很長(cháng)時(shí)間才發(fā)現。
  如果文章圖片、下載鏈接等信息有誤,請在評論區留言,博主會(huì )第一時(shí)間更新!如果喜歡,請打賞支持本站,謝謝大家! 查看全部

  文章采集調用(WordPress每頁(yè)文章固定內容的側邊欄看多了很枯燥,怎么添加側邊欄?)
  WordPress
  在文章的每一頁(yè)上看到太多固定內容側邊欄很無(wú)聊。如何添加側邊欄并使每個(gè) 文章 調用不同的側邊欄?本文文章不需要任何基礎,按照我的方法一步步完成即可。原因自然是不同的側邊欄可以讓用戶(hù)體驗和SEO效果更好。
  
  一、添加側邊欄
  參考資料:
  如何在wordpress中添加側邊欄并不只是上傳代碼那么簡(jiǎn)單,為了方便,放在wp的后臺部分是更好的選擇。說(shuō)一下流程
  首先我們找到主題的functions.php文件,打開(kāi)編輯functions.php,找到側邊欄的代碼,直接復制。
  function twentysixteen_widgets_init() {
register_sidebar( array(
'name' => __( 'Sidebar', 'twentysixteen' ),
'id' => 'sidebar-1',
'description' => __( 'Add widgets here to appear in your sidebar.', 'twentysixteen' ),
'before_widget' => '',
'after_widget' => '',
'before_title' => '',
'after_title' => '',
) );
}
  說(shuō)說(shuō)基本參數:
  我們只需要參考原創(chuàng )代碼進(jìn)行更改以用于特定用途。例如,我在 now 之后添加了一個(gè)段落
  register_sidebar( array(
'name' => __( 'Sidebar4', 'twentysixteen' ),
'id' => 'sidebar-4',
'description' => __( 'Add widgets here to appear in your sidebar.', 'twentysixteen' ),
'before_widget' => '',
'after_widget' => '',
'before_title' => '',
'after_title' => '',
) );
  這時(shí)候打開(kāi)小工具,發(fā)現后面有一個(gè)側邊欄,叫做sidebar4。您可以添加您想要的側邊欄效果工具。
  如下圖,我添加了三個(gè)“文章Measure column 1,文章Measure column 2,文章Measure column 3”。
  注意這里id的區別
  
  保存后返回wp背景的widget選項。打開(kāi)后,我們發(fā)現頁(yè)面上多了三個(gè)新的側邊欄。
  
  二、如何讓文章調用側邊欄
  參考資料:
  %e4%b8%8d%e5%90%8c%e6%96%87%e7%ab%a0%e6%98%be%e7%a4%ba%e4%b8%8d%e5%90%8c%e7 %9a%84%e4%be%a7%e8%be%b9%e6%a0%8f.html
  首先是添加文章需要綁定的代碼文件。
  主題根目錄對應新建三個(gè)文件,如下圖所示。
  
  以第一個(gè)文件為例,我這里的名字是side1.php
  內容是:
  
  修改functions.php文件和side1.php文件后。
  如何將 文章 綁定到側邊欄?使用自定義字段是一個(gè)不錯的選擇。具體使用方法是打開(kāi)文章編輯界面的顯示選項,然后輸入參數和數值。
  要使自定義字段起作用,您必須首先使 文章 能夠識別自定義字段的作用。我們編輯 single.php 文件。找到 get_sidebar() 函數:
  替換為:
  更新后,文章會(huì )根據我們輸入的自定義字段的值改變側邊欄。我在這里輸入:
  
  對應我剛剛測試的文件名。最后更新文章后,發(fā)現側邊欄變成了我們剛剛添加的側邊欄sid1的側邊欄。
  ps:注意標點(diǎn)符號,容易出錯。我花了很長(cháng)時(shí)間才發(fā)現。
  如果文章圖片、下載鏈接等信息有誤,請在評論區留言,博主會(huì )第一時(shí)間更新!如果喜歡,請打賞支持本站,謝謝大家!

官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久