通過(guò)關(guān)鍵詞采集文章采集api
微信公眾號文章搜索導入助手軟件破解版微信公眾號文章搜索導入助手
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 173 次瀏覽 ? 2020-08-29 18:06
摘要:微信公眾號文章搜索導入助手可以在軟件直接查詢(xún)公眾號文章,可以將文章下載到筆記本保存,方便之后使用,大家多曉得公眾號可以編輯文章發(fā)送,也可以添加音視頻以及圖片,如果你須要使用公眾號資源,可以通過(guò)這款軟件下載,本軟件可以快速采集文章內容,支持文章搜索,輸入關(guān)鍵詞就可以查詢(xún)對應的文章,支持號內采集,直接對公眾號全部數據采集,支持本地搜索,從歷史搜索文章中采集,通過(guò)這款軟件就可以快速對文章采集,并且可以將采集到的文字保存docx、PDF、html,采集過(guò)程也可以下載音視頻!
微信公眾號文章搜索導入助手軟件破解版
微信公眾號文章搜索導入助手可以在軟件直接查詢(xún)公眾號文章,可以將文章下載到筆記本保存,方便之后使用,大家多曉得公眾號可以編輯文章發(fā)送,也可以添加音視頻以及圖片,如果你須要使用公眾號資源,可以通過(guò)這款軟件下載,本軟件可以快速采集文章內容,支持文章搜索,輸入關(guān)鍵詞就可以查詢(xún)對應的文章,支持號內采集,直接對公眾號全部數據采集,支持本地搜索,從歷史搜索文章中采集,通過(guò)這款軟件就可以快速對文章采集,并且可以將采集到的文字保存docx、PDF、html,采集過(guò)程也可以下載音視頻!
軟件功能
1、一鍵采集指定微信公眾號所有群發(fā)文章,并通過(guò)關(guān)鍵詞搜索所有公眾號相關(guān)文章,支持按時(shí)間段采集;
2、微信文章可一鍵導入pdf、word、Excel、txt和html格式,并下載音頻和視頻文件,圖片和文章留言,導出文檔排版可保持和原文一樣;
3、內置開(kāi)放插口,可一鍵同步所有陌陌文章到自己網(wǎng)站,并保證陌陌圖片正常顯示;
4、可實(shí)時(shí)查看文章閱讀量、在看量和留言;
5、軟件提供逾80項其他附加功能,非常強悍實(shí)用;
軟件特色
1、微信公眾號文章搜索導入助手提供簡(jiǎn)單的文章采集功能
2、在軟件界面登陸陌陌就可以開(kāi)始采集數據
3、支持公眾號輸入,可以對指定的公眾號數據采集
4、提供多種文章采集,只要是公眾號內的文章就可以全部采集
5、支持列表顯示,在軟件界面顯示采集的內容
6、支持文章查看,可以通過(guò)外置的瀏覽器查看文章
7、支持生成文章二維碼,方便將當前的文章制作為二維碼
8、支持將列表重復的文章刪除,支持公眾號過(guò)濾
使用說(shuō)明
1、打開(kāi)微信公眾號文章搜索導入助手顯示軟件的功能界面
2、如果你須要學(xué)習軟件就可以打開(kāi)官方提供的視頻教程
3、卡密目前售價(jià)29.9元/永久,只要有用戶(hù),軟件將保持不斷更新,優(yōu)化升級!具體價(jià)錢(qián)以購買(mǎi)頁(yè)為準
4、在軟件輸入關(guān)鍵詞就可以查詢(xún)公眾號文章
5、如圖所示,這里是軟件的登入界面,您須要登陸陌陌 查看全部
微信公眾號文章搜索導入助手軟件破解版微信公眾號文章搜索導入助手
摘要:微信公眾號文章搜索導入助手可以在軟件直接查詢(xún)公眾號文章,可以將文章下載到筆記本保存,方便之后使用,大家多曉得公眾號可以編輯文章發(fā)送,也可以添加音視頻以及圖片,如果你須要使用公眾號資源,可以通過(guò)這款軟件下載,本軟件可以快速采集文章內容,支持文章搜索,輸入關(guān)鍵詞就可以查詢(xún)對應的文章,支持號內采集,直接對公眾號全部數據采集,支持本地搜索,從歷史搜索文章中采集,通過(guò)這款軟件就可以快速對文章采集,并且可以將采集到的文字保存docx、PDF、html,采集過(guò)程也可以下載音視頻!
微信公眾號文章搜索導入助手軟件破解版

微信公眾號文章搜索導入助手可以在軟件直接查詢(xún)公眾號文章,可以將文章下載到筆記本保存,方便之后使用,大家多曉得公眾號可以編輯文章發(fā)送,也可以添加音視頻以及圖片,如果你須要使用公眾號資源,可以通過(guò)這款軟件下載,本軟件可以快速采集文章內容,支持文章搜索,輸入關(guān)鍵詞就可以查詢(xún)對應的文章,支持號內采集,直接對公眾號全部數據采集,支持本地搜索,從歷史搜索文章中采集,通過(guò)這款軟件就可以快速對文章采集,并且可以將采集到的文字保存docx、PDF、html,采集過(guò)程也可以下載音視頻!
軟件功能
1、一鍵采集指定微信公眾號所有群發(fā)文章,并通過(guò)關(guān)鍵詞搜索所有公眾號相關(guān)文章,支持按時(shí)間段采集;
2、微信文章可一鍵導入pdf、word、Excel、txt和html格式,并下載音頻和視頻文件,圖片和文章留言,導出文檔排版可保持和原文一樣;
3、內置開(kāi)放插口,可一鍵同步所有陌陌文章到自己網(wǎng)站,并保證陌陌圖片正常顯示;
4、可實(shí)時(shí)查看文章閱讀量、在看量和留言;
5、軟件提供逾80項其他附加功能,非常強悍實(shí)用;
軟件特色
1、微信公眾號文章搜索導入助手提供簡(jiǎn)單的文章采集功能
2、在軟件界面登陸陌陌就可以開(kāi)始采集數據
3、支持公眾號輸入,可以對指定的公眾號數據采集
4、提供多種文章采集,只要是公眾號內的文章就可以全部采集
5、支持列表顯示,在軟件界面顯示采集的內容
6、支持文章查看,可以通過(guò)外置的瀏覽器查看文章
7、支持生成文章二維碼,方便將當前的文章制作為二維碼
8、支持將列表重復的文章刪除,支持公眾號過(guò)濾
使用說(shuō)明
1、打開(kāi)微信公眾號文章搜索導入助手顯示軟件的功能界面
2、如果你須要學(xué)習軟件就可以打開(kāi)官方提供的視頻教程
3、卡密目前售價(jià)29.9元/永久,只要有用戶(hù),軟件將保持不斷更新,優(yōu)化升級!具體價(jià)錢(qián)以購買(mǎi)頁(yè)為準
4、在軟件輸入關(guān)鍵詞就可以查詢(xún)公眾號文章
5、如圖所示,這里是軟件的登入界面,您須要登陸陌陌
總結:seo優(yōu)化六步走網(wǎng)站優(yōu)化基礎策略分享
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 128 次瀏覽 ? 2020-08-28 20:25
seo優(yōu)化一般是一個(gè)漫長(cháng)又剌激的過(guò)程,依次把握好以下幾點(diǎn)才能做好!
第一步,關(guān)鍵詞策略。挖掘、分析、篩選關(guān)鍵詞,整理關(guān)鍵詞列表。
首先,選擇核心關(guān)鍵詞,seo最直接的目的就是獲得定向的轉化,轉化率很低的詞句不予考慮!
其次,判斷關(guān)鍵詞的競爭度,看關(guān)鍵詞搜索次數、百度指數。
再次,挖掘長(cháng)尾詞,具體工具查看《seo優(yōu)化干貨分享(一)如何挖掘長(cháng)尾關(guān)鍵詞》一文。
第二步,架構策略。針對關(guān)鍵詞設計好的網(wǎng)站架構,這個(gè)階段是極其重要的,因為設計的網(wǎng)站架構、URL構架、內容構架決定了前面的SEO工作是否更容易。對于剛上線(xiàn)的新站來(lái)說(shuō),網(wǎng)站目錄結構設計的淺些,能便捷蜘蛛抓取。
第三步,內容建設策略。持續更新內容保持網(wǎng)站活力,需要思索什么樣的內容是用戶(hù)最須要、最喜歡的,此時(shí)可以忘記SEO,純粹從用戶(hù)角度考慮內容。想要內容愈加受歡迎,可以從分享性、交流性、互助性考慮。想要降低用戶(hù)點(diǎn)擊行為,就要提高相關(guān)文章的關(guān)聯(lián)性、增加頁(yè)面數目、操作步驟,適當的添加娛樂(lè )化內容。
第四步,內鏈策略。如果你第2步做好了,內鏈就很容易解決。此時(shí)的重點(diǎn)是考慮每位關(guān)鍵詞須要多少內鏈支持,主要可以通過(guò)面包屑導航、自動(dòng)內鏈(Tag標簽)、全站鏈接等形式提供內鏈。
第五步,外鏈策略。俗話(huà)說(shuō)“外鏈為皇”,雖然當下外鏈的SEO療效沒(méi)有曾經(jīng)顯著(zhù),但是還是發(fā)揮著(zhù)重要的作用。高質(zhì)量的外鏈主要通過(guò)友情鏈接、商業(yè)合作(購買(mǎi)門(mén)戶(hù)網(wǎng)站合作伙伴的外鏈)、軟文鏈接、用戶(hù)自然轉發(fā)的鏈接(此時(shí)須要做好鏈接誘餌)來(lái)解決。至于以前十分流行的發(fā)外鏈可以不用考慮了,因為療效差并且風(fēng)險大,至于峰會(huì )推廣作用還是有,只是流量被分散早已沒(méi)先前作用這么大。
第六步,廣告引流策略??梢哉乙恍┝髁枯^高的網(wǎng)站或自媒體進(jìn)行合作,在合作方的平臺進(jìn)行設置廣告位,為我們的網(wǎng)站進(jìn)行引流,或做品牌推廣。
好推達人 抖音、小紅書(shū)推廣利器
購買(mǎi)短視頻粉絲/網(wǎng)店/網(wǎng)站 到a5交易
10W+新媒體資源 低投入高轉化 查看全部
seo優(yōu)化六步走網(wǎng)站優(yōu)化基礎策略分享
seo優(yōu)化一般是一個(gè)漫長(cháng)又剌激的過(guò)程,依次把握好以下幾點(diǎn)才能做好!
第一步,關(guān)鍵詞策略。挖掘、分析、篩選關(guān)鍵詞,整理關(guān)鍵詞列表。
首先,選擇核心關(guān)鍵詞,seo最直接的目的就是獲得定向的轉化,轉化率很低的詞句不予考慮!
其次,判斷關(guān)鍵詞的競爭度,看關(guān)鍵詞搜索次數、百度指數。
再次,挖掘長(cháng)尾詞,具體工具查看《seo優(yōu)化干貨分享(一)如何挖掘長(cháng)尾關(guān)鍵詞》一文。
第二步,架構策略。針對關(guān)鍵詞設計好的網(wǎng)站架構,這個(gè)階段是極其重要的,因為設計的網(wǎng)站架構、URL構架、內容構架決定了前面的SEO工作是否更容易。對于剛上線(xiàn)的新站來(lái)說(shuō),網(wǎng)站目錄結構設計的淺些,能便捷蜘蛛抓取。
第三步,內容建設策略。持續更新內容保持網(wǎng)站活力,需要思索什么樣的內容是用戶(hù)最須要、最喜歡的,此時(shí)可以忘記SEO,純粹從用戶(hù)角度考慮內容。想要內容愈加受歡迎,可以從分享性、交流性、互助性考慮。想要降低用戶(hù)點(diǎn)擊行為,就要提高相關(guān)文章的關(guān)聯(lián)性、增加頁(yè)面數目、操作步驟,適當的添加娛樂(lè )化內容。
第四步,內鏈策略。如果你第2步做好了,內鏈就很容易解決。此時(shí)的重點(diǎn)是考慮每位關(guān)鍵詞須要多少內鏈支持,主要可以通過(guò)面包屑導航、自動(dòng)內鏈(Tag標簽)、全站鏈接等形式提供內鏈。
第五步,外鏈策略。俗話(huà)說(shuō)“外鏈為皇”,雖然當下外鏈的SEO療效沒(méi)有曾經(jīng)顯著(zhù),但是還是發(fā)揮著(zhù)重要的作用。高質(zhì)量的外鏈主要通過(guò)友情鏈接、商業(yè)合作(購買(mǎi)門(mén)戶(hù)網(wǎng)站合作伙伴的外鏈)、軟文鏈接、用戶(hù)自然轉發(fā)的鏈接(此時(shí)須要做好鏈接誘餌)來(lái)解決。至于以前十分流行的發(fā)外鏈可以不用考慮了,因為療效差并且風(fēng)險大,至于峰會(huì )推廣作用還是有,只是流量被分散早已沒(méi)先前作用這么大。
第六步,廣告引流策略??梢哉乙恍┝髁枯^高的網(wǎng)站或自媒體進(jìn)行合作,在合作方的平臺進(jìn)行設置廣告位,為我們的網(wǎng)站進(jìn)行引流,或做品牌推廣。
好推達人 抖音、小紅書(shū)推廣利器
購買(mǎi)短視頻粉絲/網(wǎng)店/網(wǎng)站 到a5交易
10W+新媒體資源 低投入高轉化
【seo建設】關(guān)于網(wǎng)站關(guān)鍵詞被百度快速索引的問(wèn)題討論
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 186 次瀏覽 ? 2020-08-27 21:41
經(jīng)常會(huì )有SEO人員討論,為什么我的SEO關(guān)鍵詞總是不被快速索引,而實(shí)際上這兒主要指的是,針對特定關(guān)鍵詞的核心內容,那么,它主要涉及如下兩個(gè)指標:
?、偎饕?br /> ?、诳焖偈珍?br /> 這里值得說(shuō)明的是:索引并不等于收錄,索引只是被百度抓取后,進(jìn)入百度的索引庫中,它并不一定會(huì )在百度搜索結果中顯露。
而經(jīng)過(guò)算法評估后,搜索引擎覺(jué)得它可以展現今搜索結果中的時(shí)侯,它才弄成我們一般所談?wù)摰陌俣仁珍洝?br /> 那么,SEO關(guān)鍵詞優(yōu)化,如何使百度快速索引?
根據往年的工作經(jīng)驗,我們覺(jué)得我們首要須要先解決索引的問(wèn)題,而進(jìn)一步在解決快速收錄的問(wèn)題,為此我們須要:
1、索引
針對百度索引的問(wèn)題,我們主要須要審視如下指標:
頁(yè)面加載速率
對應搜索引擎而言,索引的前提,通常是抓取,只有保持一定的抓取頻度,才可以被有效的索引,而抓取的前提,則是保持頁(yè)面加載速率符合百度官方標準。
通常,百度給出的建議是在3秒以?xún)?,而對于移?dòng)端才能達到1.5秒則最優(yōu)。
為此,你可能須要:
?、賰?yōu)選服務(wù)器,保障服務(wù)器性能適配高頻度的訪(fǎng)問(wèn)與抓取。
?、陂_(kāi)啟頁(yè)面加速器,比如:MIP、服務(wù)器緩存、CDN等。
頁(yè)面內容原創(chuàng )
為什么要指出,內容索引是須要保持頁(yè)面內容原創(chuàng )度,道理很簡(jiǎn)單,基于百度搜索算法,如果你遞交的是采集內容,百度早已索引過(guò)的內容。
當你的網(wǎng)站權重相當較低的時(shí)侯,搜索引擎覺(jué)得,即使你采集的內容被索引與收錄,并不能提供潛在的搜索價(jià)值。
這個(gè)時(shí)侯,搜索引擎都會(huì )舍棄,索引你的內容。
2、快速收錄
在被百度索引后,如何實(shí)現百度快速收錄,它一般須要審視如下幾個(gè)指標:
內容原創(chuàng )且高質(zhì)量
前文提及在索引階段,內容一定是要原創(chuàng )的,而達到快速收錄的標準,我們須要在一次進(jìn)階,確保內容是高質(zhì)量的,并且滿(mǎn)足一定搜索需求,比如:
?、賰热蓓?yè)面核心主題的關(guān)鍵詞,需要具備一定的搜索量。
?、趦热荻温渚哂幸欢ǖ倪壿嫿Y構。
?、蹆热蓓?yè)面,具有極高的參考價(jià)值,合理的相關(guān)內容推薦。
推進(jìn)百度索引速率
當我們創(chuàng )作完滿(mǎn)足快速收錄的文章內容時(shí),我們須要將該內容,快速被搜索引擎索引,為此,我們須要增強,百度蜘蛛發(fā)覺(jué)目標內容的可能性,可以嘗試如下渠道:
?、倮肁PI接口主動(dòng)遞交。
?、诮⒕W(wǎng)站地圖,并在百度搜索資源平臺遞交。
?、叟渲眯苷铺?,利用熊掌號遞交內容。
?、茉诟邫嘀鼐W(wǎng)站引蜘蛛,利用投稿與軟文的方式,在高權重站點(diǎn)發(fā)布優(yōu)質(zhì)內容,并收錄目標URL。
總結:SEO關(guān)鍵詞優(yōu)化,快速達到索引的目的,通??梢愿鶕鲜隽鞒滩僮?,一般都可以實(shí)現。 查看全部
【seo建設】關(guān)于網(wǎng)站關(guān)鍵詞被百度快速索引的問(wèn)題討論
經(jīng)常會(huì )有SEO人員討論,為什么我的SEO關(guān)鍵詞總是不被快速索引,而實(shí)際上這兒主要指的是,針對特定關(guān)鍵詞的核心內容,那么,它主要涉及如下兩個(gè)指標:
?、偎饕?br /> ?、诳焖偈珍?br /> 這里值得說(shuō)明的是:索引并不等于收錄,索引只是被百度抓取后,進(jìn)入百度的索引庫中,它并不一定會(huì )在百度搜索結果中顯露。
而經(jīng)過(guò)算法評估后,搜索引擎覺(jué)得它可以展現今搜索結果中的時(shí)侯,它才弄成我們一般所談?wù)摰陌俣仁珍洝?br /> 那么,SEO關(guān)鍵詞優(yōu)化,如何使百度快速索引?
根據往年的工作經(jīng)驗,我們覺(jué)得我們首要須要先解決索引的問(wèn)題,而進(jìn)一步在解決快速收錄的問(wèn)題,為此我們須要:
1、索引
針對百度索引的問(wèn)題,我們主要須要審視如下指標:
頁(yè)面加載速率
對應搜索引擎而言,索引的前提,通常是抓取,只有保持一定的抓取頻度,才可以被有效的索引,而抓取的前提,則是保持頁(yè)面加載速率符合百度官方標準。
通常,百度給出的建議是在3秒以?xún)?,而對于移?dòng)端才能達到1.5秒則最優(yōu)。
為此,你可能須要:
?、賰?yōu)選服務(wù)器,保障服務(wù)器性能適配高頻度的訪(fǎng)問(wèn)與抓取。
?、陂_(kāi)啟頁(yè)面加速器,比如:MIP、服務(wù)器緩存、CDN等。
頁(yè)面內容原創(chuàng )
為什么要指出,內容索引是須要保持頁(yè)面內容原創(chuàng )度,道理很簡(jiǎn)單,基于百度搜索算法,如果你遞交的是采集內容,百度早已索引過(guò)的內容。
當你的網(wǎng)站權重相當較低的時(shí)侯,搜索引擎覺(jué)得,即使你采集的內容被索引與收錄,并不能提供潛在的搜索價(jià)值。
這個(gè)時(shí)侯,搜索引擎都會(huì )舍棄,索引你的內容。

2、快速收錄
在被百度索引后,如何實(shí)現百度快速收錄,它一般須要審視如下幾個(gè)指標:
內容原創(chuàng )且高質(zhì)量
前文提及在索引階段,內容一定是要原創(chuàng )的,而達到快速收錄的標準,我們須要在一次進(jìn)階,確保內容是高質(zhì)量的,并且滿(mǎn)足一定搜索需求,比如:
?、賰热蓓?yè)面核心主題的關(guān)鍵詞,需要具備一定的搜索量。
?、趦热荻温渚哂幸欢ǖ倪壿嫿Y構。
?、蹆热蓓?yè)面,具有極高的參考價(jià)值,合理的相關(guān)內容推薦。
推進(jìn)百度索引速率
當我們創(chuàng )作完滿(mǎn)足快速收錄的文章內容時(shí),我們須要將該內容,快速被搜索引擎索引,為此,我們須要增強,百度蜘蛛發(fā)覺(jué)目標內容的可能性,可以嘗試如下渠道:
?、倮肁PI接口主動(dòng)遞交。
?、诮⒕W(wǎng)站地圖,并在百度搜索資源平臺遞交。
?、叟渲眯苷铺?,利用熊掌號遞交內容。
?、茉诟邫嘀鼐W(wǎng)站引蜘蛛,利用投稿與軟文的方式,在高權重站點(diǎn)發(fā)布優(yōu)質(zhì)內容,并收錄目標URL。
總結:SEO關(guān)鍵詞優(yōu)化,快速達到索引的目的,通??梢愿鶕鲜隽鞒滩僮?,一般都可以實(shí)現。
程序里的后端和前端是哪些意思?
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 199 次瀏覽 ? 2020-08-27 05:18
可以這樣理解:能看到的都是后端,看不見(jiàn)的就是前端。
前端包括設計、html、css、JavaScript。設計挺好理解,就是產(chǎn)品的風(fēng)格、布局,完成后它只是一張圖片,它為我們前面的工作“打了個(gè)樣”,讓我們一開(kāi)始就曉得產(chǎn)品完成后是哪些樣子。然后通過(guò)html+css實(shí)現與設計圖療效一樣的靜態(tài)頁(yè)面,html是超文本標記,比如設計圖上面有一個(gè)文字超鏈接,我們就用超文本標記中的標簽表示這是一個(gè)超鏈接,用href屬性指定超鏈接地址,完整寫(xiě)法是這是超鏈接文字內容。css是樣式表,比如前面超鏈接文字是哪些顏色、需不需要頓號等,都由css控制。JavaScript能實(shí)現一些動(dòng)漫療效或后端交互,比如一個(gè)注冊頁(yè)面上面要求填寫(xiě)手機號,但用戶(hù)填寫(xiě)的是英文字符,那么可以通過(guò)JavaScript來(lái)判定并提醒用戶(hù)輸入11位阿拉伯數字。
后端是指通過(guò)程序語(yǔ)言(、php、jsp、java、c++等)實(shí)現動(dòng)態(tài)數據。這里的動(dòng)態(tài)數據不是指文字或圖片在跳動(dòng),而是指數據能通過(guò)數據庫完成新增、刪除、編輯等指令。比如前面我舉的文字超鏈接事例,如果這個(gè)文字超鏈接每晚都要更新,就可以通過(guò)程序語(yǔ)言來(lái)實(shí)現在管理后臺進(jìn)行更新操作。雖然我們也可以通過(guò)自動(dòng)更改html代碼來(lái)實(shí)現,但當數據量較大的時(shí)侯,這種操作是不現實(shí)的。
任何一款互聯(lián)網(wǎng)產(chǎn)品都要通過(guò)前后端互相協(xié)作完成,雖然都要寫(xiě)代碼,但她們的分工卻不同,相對來(lái)說(shuō),后端程序要更復雜一些。 查看全部
程序里的后端和前端是哪些意思?
可以這樣理解:能看到的都是后端,看不見(jiàn)的就是前端。
前端包括設計、html、css、JavaScript。設計挺好理解,就是產(chǎn)品的風(fēng)格、布局,完成后它只是一張圖片,它為我們前面的工作“打了個(gè)樣”,讓我們一開(kāi)始就曉得產(chǎn)品完成后是哪些樣子。然后通過(guò)html+css實(shí)現與設計圖療效一樣的靜態(tài)頁(yè)面,html是超文本標記,比如設計圖上面有一個(gè)文字超鏈接,我們就用超文本標記中的標簽表示這是一個(gè)超鏈接,用href屬性指定超鏈接地址,完整寫(xiě)法是這是超鏈接文字內容。css是樣式表,比如前面超鏈接文字是哪些顏色、需不需要頓號等,都由css控制。JavaScript能實(shí)現一些動(dòng)漫療效或后端交互,比如一個(gè)注冊頁(yè)面上面要求填寫(xiě)手機號,但用戶(hù)填寫(xiě)的是英文字符,那么可以通過(guò)JavaScript來(lái)判定并提醒用戶(hù)輸入11位阿拉伯數字。
后端是指通過(guò)程序語(yǔ)言(、php、jsp、java、c++等)實(shí)現動(dòng)態(tài)數據。這里的動(dòng)態(tài)數據不是指文字或圖片在跳動(dòng),而是指數據能通過(guò)數據庫完成新增、刪除、編輯等指令。比如前面我舉的文字超鏈接事例,如果這個(gè)文字超鏈接每晚都要更新,就可以通過(guò)程序語(yǔ)言來(lái)實(shí)現在管理后臺進(jìn)行更新操作。雖然我們也可以通過(guò)自動(dòng)更改html代碼來(lái)實(shí)現,但當數據量較大的時(shí)侯,這種操作是不現實(shí)的。
任何一款互聯(lián)網(wǎng)產(chǎn)品都要通過(guò)前后端互相協(xié)作完成,雖然都要寫(xiě)代碼,但她們的分工卻不同,相對來(lái)說(shuō),后端程序要更復雜一些。
人人都有的關(guān)鍵詞推薦工具,你真的會(huì )用嗎?
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 193 次瀏覽 ? 2020-08-27 04:33
獲取關(guān)鍵詞的方式有很多,其中就包括百度自帶的關(guān)鍵詞推薦工具(其他平臺也都有各自的關(guān)鍵詞推薦工具,本文以百度關(guān)鍵詞工具為例)。
通過(guò)關(guān)鍵詞工具,能夠挺好地幫助我們篩選出核心關(guān)鍵詞來(lái)進(jìn)行投放。但是在實(shí)際投放過(guò)程中,發(fā)現有的關(guān)鍵詞轉化療效并不好。這是因為我們經(jīng)常站在自己的角度去推測訪(fǎng)客會(huì )搜什么詞,而這種詞訪(fǎng)客并不一定真的會(huì )搜索。今天就和你們分享一下,如何更好的發(fā)揮出關(guān)鍵詞推薦工具的作用。
關(guān)鍵詞推薦工具的用法很簡(jiǎn)單,在助手里打開(kāi)關(guān)鍵詞推薦工具,輸入我們須要拓展的核心關(guān)鍵詞,系統會(huì )手動(dòng)列舉好多和關(guān)鍵詞相關(guān)的詞。以“裝修公司”為例:
系統一共推薦了1000個(gè)相像或則相關(guān)的關(guān)鍵詞,這些詞大部分是訪(fǎng)客實(shí)實(shí)在在搜索過(guò)的,是搜索某種產(chǎn)品的一種彰顯,當然也有一部分是我們推廣人員拿來(lái)搜索進(jìn)行排行查看的。
1、查漏補缺
通常情況下,我們把詞篩選過(guò)后,都應當添加到帳戶(hù)上面。但實(shí)際上,還是有很多關(guān)鍵詞會(huì )被漏掉,你可以用關(guān)鍵詞工具去搜索一下,一定有一些詞是沒(méi)有被添加到帳戶(hù)里的。這些詞有搜索量,也有競爭度,漏掉了就相當于流失了一部分流量,比較可惜。
另外,我們在添加關(guān)鍵詞的時(shí)侯,不能只盯住“裝修”這個(gè)詞。裝修公司的人,肯定會(huì )認為用戶(hù)也會(huì )搜索家裝公司,但實(shí)際上,訪(fǎng)客不僅會(huì )搜索“裝修”相關(guān)詞,還會(huì )搜索“家裝”有關(guān)的詞,這些都是潛在的顧客。
如圖,這兩個(gè)詞,搜索量都不小,而且競爭度比較適中,適合推廣。但是本人在實(shí)況里搜索了一下,發(fā)現這兩個(gè)詞沒(méi)有人做。另外,很多組詞,都是以“裝修”為主,如果以“家裝”為核心來(lái)組詞,又可以帶來(lái)很大的一部分流量。
2、關(guān)注競爭度
關(guān)鍵詞推薦工具里推薦的詞,有搜索量,還有競爭度??梢园殃P(guān)鍵詞復制到表格里,用數據條來(lái)顯示競爭度,比較直觀(guān)。一般情況下,搜索量大,競爭度肯定大 。不過(guò)也有一些詞,搜索量十分小,但是競爭度卻比搜索量大的詞的還要大。
之所以會(huì )出現搜索量小,競爭度大,有可能是店家自己認為這樣的詞價(jià)值比較高,然后相互競爭引起的。所以當我們推廣這種詞的時(shí)侯,就要考慮,這些詞的轉化率怎么樣,不要盲目的進(jìn)行投放。
3、發(fā)掘長(cháng)尾詞
另外還有一些搜索量小,競爭度小的詞,卻沒(méi)有人做,這是一塊長(cháng)尾市場(chǎng),需要及時(shí)補充起來(lái)。
如圖中標黃所示,搜索這種詞的人,當時(shí)的心境,應該是處于迷茫階段,不知道哪家家裝公司靠譜,他們須要的是有人才能正確的指導她們來(lái)選擇家裝公司,所以假如才能對她們進(jìn)行引導,把著(zhù)陸頁(yè)面設置好,將會(huì )有不錯的轉化。
這就是我和你們分享的怎樣借助關(guān)鍵詞推薦工具,找到性?xún)r(jià)比高的關(guān)鍵詞。簡(jiǎn)單的說(shuō),就是把這個(gè)工具借助好,進(jìn)行查漏補缺,通過(guò)剖析搜索量和競爭度之間的關(guān)系,找到競爭度小,轉化好的關(guān)鍵詞來(lái)投放,避免做熱詞,你賺我搶?zhuān)貌粌斒А?br /> 給你們推薦我國新一代大數據用戶(hù)行為剖析與數據智能平臺:數極客(),是支持無(wú)埋點(diǎn)、前端埋點(diǎn)、后端埋點(diǎn)、API導出四種混和數據采集方式,整合剖析用戶(hù)行為數據和業(yè)務(wù)數據,可以手動(dòng)檢測網(wǎng)站、APP、小程序等多種渠道推廣療效剖析,是下降黑客們必備的互聯(lián)網(wǎng)數據剖析軟件。數極客支持實(shí)時(shí)多維剖析、漏斗剖析、留存剖析、路徑剖析等十大數據剖析方式以及APP數據剖析、網(wǎng)站統計、網(wǎng)站分析、小程序數據統計、用戶(hù)畫(huà)像等應用場(chǎng)景,業(yè)內首創(chuàng )了六種提高轉化率的數據剖析模型,是數據剖析軟件領(lǐng)域首款應用定量分析與定性剖析方式的數據剖析產(chǎn)品
。 查看全部
人人都有的關(guān)鍵詞推薦工具,你真的會(huì )用嗎?
獲取關(guān)鍵詞的方式有很多,其中就包括百度自帶的關(guān)鍵詞推薦工具(其他平臺也都有各自的關(guān)鍵詞推薦工具,本文以百度關(guān)鍵詞工具為例)。
通過(guò)關(guān)鍵詞工具,能夠挺好地幫助我們篩選出核心關(guān)鍵詞來(lái)進(jìn)行投放。但是在實(shí)際投放過(guò)程中,發(fā)現有的關(guān)鍵詞轉化療效并不好。這是因為我們經(jīng)常站在自己的角度去推測訪(fǎng)客會(huì )搜什么詞,而這種詞訪(fǎng)客并不一定真的會(huì )搜索。今天就和你們分享一下,如何更好的發(fā)揮出關(guān)鍵詞推薦工具的作用。
關(guān)鍵詞推薦工具的用法很簡(jiǎn)單,在助手里打開(kāi)關(guān)鍵詞推薦工具,輸入我們須要拓展的核心關(guān)鍵詞,系統會(huì )手動(dòng)列舉好多和關(guān)鍵詞相關(guān)的詞。以“裝修公司”為例:

系統一共推薦了1000個(gè)相像或則相關(guān)的關(guān)鍵詞,這些詞大部分是訪(fǎng)客實(shí)實(shí)在在搜索過(guò)的,是搜索某種產(chǎn)品的一種彰顯,當然也有一部分是我們推廣人員拿來(lái)搜索進(jìn)行排行查看的。
1、查漏補缺
通常情況下,我們把詞篩選過(guò)后,都應當添加到帳戶(hù)上面。但實(shí)際上,還是有很多關(guān)鍵詞會(huì )被漏掉,你可以用關(guān)鍵詞工具去搜索一下,一定有一些詞是沒(méi)有被添加到帳戶(hù)里的。這些詞有搜索量,也有競爭度,漏掉了就相當于流失了一部分流量,比較可惜。
另外,我們在添加關(guān)鍵詞的時(shí)侯,不能只盯住“裝修”這個(gè)詞。裝修公司的人,肯定會(huì )認為用戶(hù)也會(huì )搜索家裝公司,但實(shí)際上,訪(fǎng)客不僅會(huì )搜索“裝修”相關(guān)詞,還會(huì )搜索“家裝”有關(guān)的詞,這些都是潛在的顧客。

如圖,這兩個(gè)詞,搜索量都不小,而且競爭度比較適中,適合推廣。但是本人在實(shí)況里搜索了一下,發(fā)現這兩個(gè)詞沒(méi)有人做。另外,很多組詞,都是以“裝修”為主,如果以“家裝”為核心來(lái)組詞,又可以帶來(lái)很大的一部分流量。
2、關(guān)注競爭度
關(guān)鍵詞推薦工具里推薦的詞,有搜索量,還有競爭度??梢园殃P(guān)鍵詞復制到表格里,用數據條來(lái)顯示競爭度,比較直觀(guān)。一般情況下,搜索量大,競爭度肯定大 。不過(guò)也有一些詞,搜索量十分小,但是競爭度卻比搜索量大的詞的還要大。


之所以會(huì )出現搜索量小,競爭度大,有可能是店家自己認為這樣的詞價(jià)值比較高,然后相互競爭引起的。所以當我們推廣這種詞的時(shí)侯,就要考慮,這些詞的轉化率怎么樣,不要盲目的進(jìn)行投放。
3、發(fā)掘長(cháng)尾詞
另外還有一些搜索量小,競爭度小的詞,卻沒(méi)有人做,這是一塊長(cháng)尾市場(chǎng),需要及時(shí)補充起來(lái)。

如圖中標黃所示,搜索這種詞的人,當時(shí)的心境,應該是處于迷茫階段,不知道哪家家裝公司靠譜,他們須要的是有人才能正確的指導她們來(lái)選擇家裝公司,所以假如才能對她們進(jìn)行引導,把著(zhù)陸頁(yè)面設置好,將會(huì )有不錯的轉化。
這就是我和你們分享的怎樣借助關(guān)鍵詞推薦工具,找到性?xún)r(jià)比高的關(guān)鍵詞。簡(jiǎn)單的說(shuō),就是把這個(gè)工具借助好,進(jìn)行查漏補缺,通過(guò)剖析搜索量和競爭度之間的關(guān)系,找到競爭度小,轉化好的關(guān)鍵詞來(lái)投放,避免做熱詞,你賺我搶?zhuān)貌粌斒А?br /> 給你們推薦我國新一代大數據用戶(hù)行為剖析與數據智能平臺:數極客(),是支持無(wú)埋點(diǎn)、前端埋點(diǎn)、后端埋點(diǎn)、API導出四種混和數據采集方式,整合剖析用戶(hù)行為數據和業(yè)務(wù)數據,可以手動(dòng)檢測網(wǎng)站、APP、小程序等多種渠道推廣療效剖析,是下降黑客們必備的互聯(lián)網(wǎng)數據剖析軟件。數極客支持實(shí)時(shí)多維剖析、漏斗剖析、留存剖析、路徑剖析等十大數據剖析方式以及APP數據剖析、網(wǎng)站統計、網(wǎng)站分析、小程序數據統計、用戶(hù)畫(huà)像等應用場(chǎng)景,業(yè)內首創(chuàng )了六種提高轉化率的數據剖析模型,是數據剖析軟件領(lǐng)域首款應用定量分析與定性剖析方式的數據剖析產(chǎn)品
。
干貨 | API已改變SEO的玩法,不懂只能改行
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 172 次瀏覽 ? 2020-08-26 05:47
我們可以如何做到更好?
1擁有最全面確切的行業(yè)詞庫
我們在營(yíng)運某個(gè)網(wǎng)站或者欄目時(shí),往往會(huì )垂直于一個(gè)行業(yè)。每個(gè)行業(yè)都有自己的范圍,如果淺顯的講,實(shí)際上每位行業(yè)都有自己一批核心關(guān)鍵詞+長(cháng)尾詞,由這種詞匯劃分了一個(gè)行業(yè)的范圍,所以擁有一個(gè)行業(yè)詞庫是對一個(gè)行業(yè)充分把握的必備品。
例如理財行業(yè)圍繞的核心詞部份如下:
理財行業(yè)的核心詞之下長(cháng)尾詞列表部份如下:
2用詞庫找出搜索引擎最須要的內容
當我們擁有一個(gè)行業(yè)的所有詞匯后,我們能夠真正意義上懂得這個(gè)行業(yè),懂得這個(gè)行業(yè)用戶(hù)的需求。
接下來(lái)我們要在這近百萬(wàn)的理財詞庫中,找到最能帶來(lái)流量的詞匯,這里我們借助百度PC指數、360指數、百度移動(dòng)指數、競價(jià)規劃師PC搜索量、競價(jià)規劃師聯(lián)通搜索量、競價(jià)規劃師競爭度:
通過(guò)以上公式我們可以篩選出行業(yè)中最能帶來(lái)流量的一批詞,從百萬(wàn)詞庫中篩選出104635個(gè)流量詞。
3通過(guò) API 篩選出搜索引擎最缺少內容的關(guān)鍵詞
有了前面篩選下來(lái)的104635個(gè)流量詞,我們便可以裝入百度、360等搜索引擎進(jìn)行模擬查詢(xún),了解排位在前20位的網(wǎng)頁(yè)對應的url級別和標題情況,了解搜索引擎是否早已內容飽和。
通過(guò)API商城中的百度PC端TOP 50位排行情況API(),我們可以輕松獲得JSON格式的排行情況。
下圖中我們以“什么是指數基金”這個(gè)詞為例來(lái)獲取TOP20搜索結果排行情況:
返回的排行信息中比較重要的有兩種信息,域名權重信息和Title信息。
域名權重信息代表著(zhù)是否排名前50的域名中是不是都是有權重還比較低的域名,這樣你才有機會(huì )擠進(jìn)去。
Title信息的剖析意味著(zhù)互聯(lián)網(wǎng)+上關(guān)于這個(gè)關(guān)鍵詞的內容是否飽和,是不是由于百度為了填充信息而選擇了一些補充信息來(lái)填充搜索結果。
通過(guò)剖析這兩個(gè)信息,我們能夠決定這個(gè)關(guān)鍵詞是否優(yōu)先值得去做內容。
這里做個(gè)假定,如果我的網(wǎng)站5118的權重是A,那么我們就要找尋TOP20排行結果中是否還有好多5118權重B級甚至C級的網(wǎng)站排名結果,如果有這么我們就還有機會(huì )攻打她們的位置。
另外還有一種情況,如果通過(guò)域名發(fā)覺(jué)不了機會(huì ),還有另一個(gè)機會(huì ),就是雖然這種高權重域名的內容并沒(méi)有完全符合搜索要求,也就是說(shuō)結果中一些內容標題沒(méi)有完全匹配關(guān)鍵詞。
例如上圖中的Title,就沒(méi)有完全收錄“什么是指數基金”這個(gè)詞,只不過(guò)是搜索引擎為了補充結果而裝入的索引,那我們也可以把這種位置標記為有機會(huì )。
通過(guò)類(lèi)似前面的算法,每個(gè)詞我們都可以得到一個(gè)機會(huì )分值,我們可以設置一個(gè)篩選的閥值,例如設置為8,如果TOP 20的結果中有8個(gè)以上是有機會(huì )的位置,我們就將這種關(guān)鍵詞保留出來(lái),進(jìn)入到第四階段。
4幫助搜索引擎建立這種內容
當我們通過(guò)上面三步完成了最高性?xún)r(jià)比seo關(guān)鍵詞篩選過(guò)后,我們便可以安排編輯人員進(jìn)行文章或者專(zhuān)題的編撰,或是安排技術(shù)部進(jìn)行文章的采集,亦或是安排營(yíng)運部門(mén)引導用戶(hù)制造內容。
通過(guò)這四個(gè)步驟的層層過(guò)濾,我們的內容營(yíng)運工作將會(huì )十分有針對性,雖然里面寫(xiě)了這么多文字,但是畢竟就是下邊三個(gè)目的:
5監控SEO療效
隨著(zhù)內容的不斷建立,我們須要整體評估前面確定的內容策略的成效,可能要對一些參數和閥值甚至算法進(jìn)行微調:
1、借助站長(cháng)后臺(),了解爬蟲(chóng)爬行次數和抓取時(shí)間,了解爬蟲(chóng)遇見(jiàn)的異常次數。
因為只有監控那些參數能夠曉得你的內容制造下來(lái)以后百度爬蟲(chóng)是否如期而來(lái),并且沒(méi)有碰到任何障礙,這樣確保你的內容策略沒(méi)有由于其他技術(shù)運維的干擾誘因引起策略沒(méi)有發(fā)揮作用。
2、通過(guò)5118PC收錄監測功能或則百度PC收錄API檢測制造的內容是否被收錄。
收錄是有排行的前提,如果內容不能收錄,爬蟲(chóng)爬行再多也沒(méi)有意義。內容做下來(lái)不收錄,對于內容策略也將會(huì )是一個(gè)嚴打,所以收錄的監控也至關(guān)重要。
3、檢查排行是否如預期在下降
隨著(zhù)內容和收錄的不斷降低,我們SEO終極目的就是要獲得好的排行。
▲ 可以利用5118關(guān)鍵詞監控分批添加自己關(guān)鍵詞進(jìn)行監控
▲ 也可以利用5118關(guān)鍵詞排名采集API進(jìn)行監控
最 后 總 結
人類(lèi)近代文明的發(fā)展就是一個(gè)追求極其自動(dòng)化過(guò)程,無(wú)人工廠(chǎng)、無(wú)人超市、無(wú)人機、作為大數據時(shí)代的SEO管理人員,同樣要追求SEO的自動(dòng)化,與時(shí)俱進(jìn)能夠實(shí)現自我的突破。
通過(guò)這樣的內容生產(chǎn)過(guò)程,我們可以逐漸優(yōu)化我們的內容策略,做到內容生產(chǎn)流量療效的最大化。所以你還在等哪些,趕快用起這種可以使你輕松晉升的大數據API。
享受高手級營(yíng)運視野
微信ID:data5118長(cháng)按加個(gè)關(guān)注撒 查看全部
干貨 | API已改變SEO的玩法,不懂只能改行

我們可以如何做到更好?
1擁有最全面確切的行業(yè)詞庫
我們在營(yíng)運某個(gè)網(wǎng)站或者欄目時(shí),往往會(huì )垂直于一個(gè)行業(yè)。每個(gè)行業(yè)都有自己的范圍,如果淺顯的講,實(shí)際上每位行業(yè)都有自己一批核心關(guān)鍵詞+長(cháng)尾詞,由這種詞匯劃分了一個(gè)行業(yè)的范圍,所以擁有一個(gè)行業(yè)詞庫是對一個(gè)行業(yè)充分把握的必備品。
例如理財行業(yè)圍繞的核心詞部份如下:

理財行業(yè)的核心詞之下長(cháng)尾詞列表部份如下:


2用詞庫找出搜索引擎最須要的內容
當我們擁有一個(gè)行業(yè)的所有詞匯后,我們能夠真正意義上懂得這個(gè)行業(yè),懂得這個(gè)行業(yè)用戶(hù)的需求。
接下來(lái)我們要在這近百萬(wàn)的理財詞庫中,找到最能帶來(lái)流量的詞匯,這里我們借助百度PC指數、360指數、百度移動(dòng)指數、競價(jià)規劃師PC搜索量、競價(jià)規劃師聯(lián)通搜索量、競價(jià)規劃師競爭度:

通過(guò)以上公式我們可以篩選出行業(yè)中最能帶來(lái)流量的一批詞,從百萬(wàn)詞庫中篩選出104635個(gè)流量詞。

3通過(guò) API 篩選出搜索引擎最缺少內容的關(guān)鍵詞
有了前面篩選下來(lái)的104635個(gè)流量詞,我們便可以裝入百度、360等搜索引擎進(jìn)行模擬查詢(xún),了解排位在前20位的網(wǎng)頁(yè)對應的url級別和標題情況,了解搜索引擎是否早已內容飽和。
通過(guò)API商城中的百度PC端TOP 50位排行情況API(),我們可以輕松獲得JSON格式的排行情況。
下圖中我們以“什么是指數基金”這個(gè)詞為例來(lái)獲取TOP20搜索結果排行情況:

返回的排行信息中比較重要的有兩種信息,域名權重信息和Title信息。
域名權重信息代表著(zhù)是否排名前50的域名中是不是都是有權重還比較低的域名,這樣你才有機會(huì )擠進(jìn)去。
Title信息的剖析意味著(zhù)互聯(lián)網(wǎng)+上關(guān)于這個(gè)關(guān)鍵詞的內容是否飽和,是不是由于百度為了填充信息而選擇了一些補充信息來(lái)填充搜索結果。
通過(guò)剖析這兩個(gè)信息,我們能夠決定這個(gè)關(guān)鍵詞是否優(yōu)先值得去做內容。
這里做個(gè)假定,如果我的網(wǎng)站5118的權重是A,那么我們就要找尋TOP20排行結果中是否還有好多5118權重B級甚至C級的網(wǎng)站排名結果,如果有這么我們就還有機會(huì )攻打她們的位置。

另外還有一種情況,如果通過(guò)域名發(fā)覺(jué)不了機會(huì ),還有另一個(gè)機會(huì ),就是雖然這種高權重域名的內容并沒(méi)有完全符合搜索要求,也就是說(shuō)結果中一些內容標題沒(méi)有完全匹配關(guān)鍵詞。

例如上圖中的Title,就沒(méi)有完全收錄“什么是指數基金”這個(gè)詞,只不過(guò)是搜索引擎為了補充結果而裝入的索引,那我們也可以把這種位置標記為有機會(huì )。
通過(guò)類(lèi)似前面的算法,每個(gè)詞我們都可以得到一個(gè)機會(huì )分值,我們可以設置一個(gè)篩選的閥值,例如設置為8,如果TOP 20的結果中有8個(gè)以上是有機會(huì )的位置,我們就將這種關(guān)鍵詞保留出來(lái),進(jìn)入到第四階段。
4幫助搜索引擎建立這種內容
當我們通過(guò)上面三步完成了最高性?xún)r(jià)比seo關(guān)鍵詞篩選過(guò)后,我們便可以安排編輯人員進(jìn)行文章或者專(zhuān)題的編撰,或是安排技術(shù)部進(jìn)行文章的采集,亦或是安排營(yíng)運部門(mén)引導用戶(hù)制造內容。
通過(guò)這四個(gè)步驟的層層過(guò)濾,我們的內容營(yíng)運工作將會(huì )十分有針對性,雖然里面寫(xiě)了這么多文字,但是畢竟就是下邊三個(gè)目的:

5監控SEO療效
隨著(zhù)內容的不斷建立,我們須要整體評估前面確定的內容策略的成效,可能要對一些參數和閥值甚至算法進(jìn)行微調:
1、借助站長(cháng)后臺(),了解爬蟲(chóng)爬行次數和抓取時(shí)間,了解爬蟲(chóng)遇見(jiàn)的異常次數。
因為只有監控那些參數能夠曉得你的內容制造下來(lái)以后百度爬蟲(chóng)是否如期而來(lái),并且沒(méi)有碰到任何障礙,這樣確保你的內容策略沒(méi)有由于其他技術(shù)運維的干擾誘因引起策略沒(méi)有發(fā)揮作用。


2、通過(guò)5118PC收錄監測功能或則百度PC收錄API檢測制造的內容是否被收錄。
收錄是有排行的前提,如果內容不能收錄,爬蟲(chóng)爬行再多也沒(méi)有意義。內容做下來(lái)不收錄,對于內容策略也將會(huì )是一個(gè)嚴打,所以收錄的監控也至關(guān)重要。


3、檢查排行是否如預期在下降
隨著(zhù)內容和收錄的不斷降低,我們SEO終極目的就是要獲得好的排行。

▲ 可以利用5118關(guān)鍵詞監控分批添加自己關(guān)鍵詞進(jìn)行監控

▲ 也可以利用5118關(guān)鍵詞排名采集API進(jìn)行監控

最 后 總 結
人類(lèi)近代文明的發(fā)展就是一個(gè)追求極其自動(dòng)化過(guò)程,無(wú)人工廠(chǎng)、無(wú)人超市、無(wú)人機、作為大數據時(shí)代的SEO管理人員,同樣要追求SEO的自動(dòng)化,與時(shí)俱進(jìn)能夠實(shí)現自我的突破。
通過(guò)這樣的內容生產(chǎn)過(guò)程,我們可以逐漸優(yōu)化我們的內容策略,做到內容生產(chǎn)流量療效的最大化。所以你還在等哪些,趕快用起這種可以使你輕松晉升的大數據API。




享受高手級營(yíng)運視野


微信ID:data5118長(cháng)按加個(gè)關(guān)注撒
淺析網(wǎng)路大數據的商業(yè)價(jià)值和采集方法
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 288 次瀏覽 ? 2020-08-26 05:42
據賽迪顧問(wèn)統計,在技術(shù)領(lǐng)域中近來(lái)10,000條專(zhuān)利中常見(jiàn)的關(guān)鍵詞中,數據采集、存儲介質(zhì)、海量數據、分布式成為技術(shù)領(lǐng)域最熱詞匯。其中,數據采集是提及最多的詞匯。
數據采集是進(jìn)行大數據剖析的前提也是必要條件,在整個(gè)數據借助流程中搶占重要地位。數據采集方式分為三種:系統日志采集法、網(wǎng)絡(luò )數據采集法以及其他數據采集法。隨著(zhù)Web2.0的發(fā)展,整個(gè)Web系統囊括了大量的價(jià)值化數據,目前針對Web系統的數據采集通常通過(guò)網(wǎng)路爬蟲(chóng)來(lái)實(shí)現,本文將對網(wǎng)路大數據和網(wǎng)路爬蟲(chóng)進(jìn)行系統描述。
什么是網(wǎng)路大數據
網(wǎng)絡(luò )大數據,是指非傳統數據源,例如通過(guò)抓取搜索引擎獲得的不同方式的數據。網(wǎng)絡(luò )大數據也可以是從數據聚合商或搜索引擎網(wǎng)站購買(mǎi)的數據,用于改善目標營(yíng)銷(xiāo)。這種類(lèi)型的數據可以是結構化的,也可以是非結構化的(更有可能的),可以由網(wǎng)路鏈接,文本數據,數據表,圖像,視頻等組成。
網(wǎng)絡(luò )構成了現今提供給我們的大部分數據,根據許多研究可知,非結構化數據搶占了其中的80%。盡管這種方式的數據較早被忽視了,但是競爭激化以及須要更多數據的需求促使必須使用盡可能多的數據源。
網(wǎng)絡(luò )大數據可以拿來(lái)干哪些
互聯(lián)網(wǎng)擁有數十億頁(yè)的數據,網(wǎng)絡(luò )大數據作為潛在的數據來(lái)源,對于行業(yè)的戰略性業(yè)務(wù)發(fā)展來(lái)說(shuō)擁有巨大的借助潛力。
以下舉例說(shuō)明網(wǎng)路大數據在不同行業(yè)的借助價(jià)值:
除此之外,在《How Web Scraping is Transforming the World with its Applications》文章中詳盡得列舉出網(wǎng)路大數據在制造業(yè)、金融研究、風(fēng)險管理等諸多領(lǐng)域的借助價(jià)值。
如何搜集網(wǎng)路數據
目前網(wǎng)路數據采集有兩種方式:一種是API,另一種是網(wǎng)路爬蟲(chóng)法。API又叫應用程序插口,是網(wǎng)站的管理者為了使用者便捷,編寫(xiě)的一種程序插口。目前主流的社交媒體平臺如新浪微博、百度貼吧以及Facebook等均提供API服務(wù),可以在其官網(wǎng)開(kāi)放平臺上獲取相關(guān)DEMO。但是API技術(shù)雖然受限于平臺開(kāi)發(fā)者,為了減少網(wǎng)站(平臺)的負荷,一般平臺均會(huì )對每晚插口調用上限做限制,這給我們帶來(lái)極大的不便利。為此我們一般采用第二種形式——網(wǎng)絡(luò )爬蟲(chóng)。
利用爬蟲(chóng)技術(shù)采集網(wǎng)絡(luò )大數據
網(wǎng)絡(luò )爬蟲(chóng)是指根據一定的規則手動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或則腳本。該方式可以將非結構化數據從網(wǎng)頁(yè)中抽取下來(lái),將其儲存為統一的本地數據文件,并以結構化的形式儲存。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以手動(dòng)關(guān)聯(lián)。
在互聯(lián)網(wǎng)時(shí)代,網(wǎng)絡(luò )爬蟲(chóng)主要是為搜索引擎提供最全面和最新的數據。在大數據時(shí)代,網(wǎng)絡(luò )爬蟲(chóng)更是從互聯(lián)網(wǎng)上采集數據的有利工具。
網(wǎng)絡(luò )爬蟲(chóng)原理
網(wǎng)絡(luò )爬蟲(chóng)是一種根據一定的規則,自動(dòng)地抓取網(wǎng)路信息的程序或則腳本。網(wǎng)絡(luò )爬蟲(chóng)可以手動(dòng)采集所有其才能訪(fǎng)問(wèn)到的頁(yè)面內容,為搜索引擎和大數據剖析提供數據來(lái)源。從功能上來(lái)講,爬蟲(chóng)通常有網(wǎng)路數據采集、處理和儲存 3 部分功能,如圖所示:
網(wǎng)絡(luò )爬蟲(chóng)采集
網(wǎng)絡(luò )爬蟲(chóng)通過(guò)定義采集字段對網(wǎng)頁(yè)中的文本信息、圖片信息等進(jìn)行爬取。并且在網(wǎng)頁(yè)中還收錄一些超鏈接信息,網(wǎng)絡(luò )爬蟲(chóng)系統正是通過(guò)網(wǎng)頁(yè)中的超鏈接信息不斷獲得網(wǎng)路上的其他網(wǎng)頁(yè)。網(wǎng)絡(luò )爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的 URL 開(kāi)始,獲得初始網(wǎng)頁(yè)上的 URL,爬蟲(chóng)將網(wǎng)頁(yè)中所須要提取的資源進(jìn)行提取并保存,同時(shí)提取出網(wǎng)站中存在的其他網(wǎng)站鏈接,經(jīng)過(guò)發(fā)送懇求,接收網(wǎng)站響應以及再度解析頁(yè)面,再將網(wǎng)頁(yè)中所需資源進(jìn)行提取......以此類(lèi)推,通過(guò)網(wǎng)頁(yè)爬蟲(chóng)便可將搜索引擎上的相關(guān)數據完全爬取下來(lái)。
數據處理
數據處理是對數據(包括數值的和非數值的)進(jìn)行剖析和加工的技術(shù)過(guò)程。網(wǎng)絡(luò )爬蟲(chóng)爬取的初始數據是須要“清洗”的,在數據處理步驟,對各類(lèi)原創(chuàng )數據的剖析、整理、計算、編輯等的加工和處理,從大量的、可能是雜亂無(wú)章的、難以理解的數據中抽取并推論出有價(jià)值、有意義的數據。
數據中心
所謂的數據中心也就是數據存儲,是指在獲得所需的數據并將其分解為有用的組件以后,通過(guò)可擴充的方式來(lái)將所有提取和解析的數據儲存在數據庫或集群中,然后創(chuàng )建一個(gè)容許用戶(hù)可及時(shí)查找相關(guān)數據集或提取的功能。
網(wǎng)絡(luò )爬蟲(chóng)工作流程
如下圖所示,網(wǎng)絡(luò )爬蟲(chóng)的基本工作流程如下。首先選定一部分種子 URL。
總結
當前,網(wǎng)絡(luò )大數據在規模與復雜度上的快速下降對現有IT構架的處理和估算能力提出了挑戰,據IDC發(fā)布的研究報告,預計到2020年,網(wǎng)絡(luò )大數據總數將達到35ZB,網(wǎng)絡(luò )大數據將成為行業(yè)數字化、信息化的重要推手。 查看全部
淺析網(wǎng)路大數據的商業(yè)價(jià)值和采集方法
據賽迪顧問(wèn)統計,在技術(shù)領(lǐng)域中近來(lái)10,000條專(zhuān)利中常見(jiàn)的關(guān)鍵詞中,數據采集、存儲介質(zhì)、海量數據、分布式成為技術(shù)領(lǐng)域最熱詞匯。其中,數據采集是提及最多的詞匯。

數據采集是進(jìn)行大數據剖析的前提也是必要條件,在整個(gè)數據借助流程中搶占重要地位。數據采集方式分為三種:系統日志采集法、網(wǎng)絡(luò )數據采集法以及其他數據采集法。隨著(zhù)Web2.0的發(fā)展,整個(gè)Web系統囊括了大量的價(jià)值化數據,目前針對Web系統的數據采集通常通過(guò)網(wǎng)路爬蟲(chóng)來(lái)實(shí)現,本文將對網(wǎng)路大數據和網(wǎng)路爬蟲(chóng)進(jìn)行系統描述。
什么是網(wǎng)路大數據
網(wǎng)絡(luò )大數據,是指非傳統數據源,例如通過(guò)抓取搜索引擎獲得的不同方式的數據。網(wǎng)絡(luò )大數據也可以是從數據聚合商或搜索引擎網(wǎng)站購買(mǎi)的數據,用于改善目標營(yíng)銷(xiāo)。這種類(lèi)型的數據可以是結構化的,也可以是非結構化的(更有可能的),可以由網(wǎng)路鏈接,文本數據,數據表,圖像,視頻等組成。
網(wǎng)絡(luò )構成了現今提供給我們的大部分數據,根據許多研究可知,非結構化數據搶占了其中的80%。盡管這種方式的數據較早被忽視了,但是競爭激化以及須要更多數據的需求促使必須使用盡可能多的數據源。
網(wǎng)絡(luò )大數據可以拿來(lái)干哪些
互聯(lián)網(wǎng)擁有數十億頁(yè)的數據,網(wǎng)絡(luò )大數據作為潛在的數據來(lái)源,對于行業(yè)的戰略性業(yè)務(wù)發(fā)展來(lái)說(shuō)擁有巨大的借助潛力。
以下舉例說(shuō)明網(wǎng)路大數據在不同行業(yè)的借助價(jià)值:

除此之外,在《How Web Scraping is Transforming the World with its Applications》文章中詳盡得列舉出網(wǎng)路大數據在制造業(yè)、金融研究、風(fēng)險管理等諸多領(lǐng)域的借助價(jià)值。
如何搜集網(wǎng)路數據
目前網(wǎng)路數據采集有兩種方式:一種是API,另一種是網(wǎng)路爬蟲(chóng)法。API又叫應用程序插口,是網(wǎng)站的管理者為了使用者便捷,編寫(xiě)的一種程序插口。目前主流的社交媒體平臺如新浪微博、百度貼吧以及Facebook等均提供API服務(wù),可以在其官網(wǎng)開(kāi)放平臺上獲取相關(guān)DEMO。但是API技術(shù)雖然受限于平臺開(kāi)發(fā)者,為了減少網(wǎng)站(平臺)的負荷,一般平臺均會(huì )對每晚插口調用上限做限制,這給我們帶來(lái)極大的不便利。為此我們一般采用第二種形式——網(wǎng)絡(luò )爬蟲(chóng)。
利用爬蟲(chóng)技術(shù)采集網(wǎng)絡(luò )大數據
網(wǎng)絡(luò )爬蟲(chóng)是指根據一定的規則手動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或則腳本。該方式可以將非結構化數據從網(wǎng)頁(yè)中抽取下來(lái),將其儲存為統一的本地數據文件,并以結構化的形式儲存。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以手動(dòng)關(guān)聯(lián)。
在互聯(lián)網(wǎng)時(shí)代,網(wǎng)絡(luò )爬蟲(chóng)主要是為搜索引擎提供最全面和最新的數據。在大數據時(shí)代,網(wǎng)絡(luò )爬蟲(chóng)更是從互聯(lián)網(wǎng)上采集數據的有利工具。
網(wǎng)絡(luò )爬蟲(chóng)原理
網(wǎng)絡(luò )爬蟲(chóng)是一種根據一定的規則,自動(dòng)地抓取網(wǎng)路信息的程序或則腳本。網(wǎng)絡(luò )爬蟲(chóng)可以手動(dòng)采集所有其才能訪(fǎng)問(wèn)到的頁(yè)面內容,為搜索引擎和大數據剖析提供數據來(lái)源。從功能上來(lái)講,爬蟲(chóng)通常有網(wǎng)路數據采集、處理和儲存 3 部分功能,如圖所示:

網(wǎng)絡(luò )爬蟲(chóng)采集
網(wǎng)絡(luò )爬蟲(chóng)通過(guò)定義采集字段對網(wǎng)頁(yè)中的文本信息、圖片信息等進(jìn)行爬取。并且在網(wǎng)頁(yè)中還收錄一些超鏈接信息,網(wǎng)絡(luò )爬蟲(chóng)系統正是通過(guò)網(wǎng)頁(yè)中的超鏈接信息不斷獲得網(wǎng)路上的其他網(wǎng)頁(yè)。網(wǎng)絡(luò )爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的 URL 開(kāi)始,獲得初始網(wǎng)頁(yè)上的 URL,爬蟲(chóng)將網(wǎng)頁(yè)中所須要提取的資源進(jìn)行提取并保存,同時(shí)提取出網(wǎng)站中存在的其他網(wǎng)站鏈接,經(jīng)過(guò)發(fā)送懇求,接收網(wǎng)站響應以及再度解析頁(yè)面,再將網(wǎng)頁(yè)中所需資源進(jìn)行提取......以此類(lèi)推,通過(guò)網(wǎng)頁(yè)爬蟲(chóng)便可將搜索引擎上的相關(guān)數據完全爬取下來(lái)。
數據處理
數據處理是對數據(包括數值的和非數值的)進(jìn)行剖析和加工的技術(shù)過(guò)程。網(wǎng)絡(luò )爬蟲(chóng)爬取的初始數據是須要“清洗”的,在數據處理步驟,對各類(lèi)原創(chuàng )數據的剖析、整理、計算、編輯等的加工和處理,從大量的、可能是雜亂無(wú)章的、難以理解的數據中抽取并推論出有價(jià)值、有意義的數據。
數據中心
所謂的數據中心也就是數據存儲,是指在獲得所需的數據并將其分解為有用的組件以后,通過(guò)可擴充的方式來(lái)將所有提取和解析的數據儲存在數據庫或集群中,然后創(chuàng )建一個(gè)容許用戶(hù)可及時(shí)查找相關(guān)數據集或提取的功能。
網(wǎng)絡(luò )爬蟲(chóng)工作流程
如下圖所示,網(wǎng)絡(luò )爬蟲(chóng)的基本工作流程如下。首先選定一部分種子 URL。

總結
當前,網(wǎng)絡(luò )大數據在規模與復雜度上的快速下降對現有IT構架的處理和估算能力提出了挑戰,據IDC發(fā)布的研究報告,預計到2020年,網(wǎng)絡(luò )大數據總數將達到35ZB,網(wǎng)絡(luò )大數據將成為行業(yè)數字化、信息化的重要推手。
API已改變SEO的玩法,不懂只能改行
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 241 次瀏覽 ? 2020-08-25 22:12
SEO從業(yè)者是幫助搜索引擎進(jìn)行優(yōu)化的人,不是說(shuō)每晚形成無(wú)數垃圾信息就是在幫助,不是說(shuō)每晚構建無(wú)數的友情鏈接就是在幫助它,而是幫助搜索引擎解決它的實(shí)際問(wèn)題。是不是認為太偉大?
如果不能認識到這點(diǎn),其實(shí)你可能早已不能適應SEO優(yōu)化領(lǐng)域?,F在早已不是初期的莽荒時(shí)代,如果仍然靠鏈接和偽原創(chuàng )你只會(huì )有一個(gè)覺(jué)得,SEO真他喵不是人干的!
我們可以如何做到更好?
1 、擁有最全面確切的行業(yè)詞庫
我們在營(yíng)運某個(gè)網(wǎng)站或者欄目時(shí),往往會(huì )垂直于一個(gè)行業(yè)。每個(gè)行業(yè)都有自己的范圍,如果淺顯的講,實(shí)際上每位行業(yè)都有自己一批核心關(guān)鍵詞+長(cháng)尾詞,由這種詞匯劃分了一個(gè)行業(yè)的范圍,所以擁有一個(gè)行業(yè)詞庫是對一個(gè)行業(yè)充分把握的必備品。
例如 理財行業(yè) 圍繞的核心詞部份如下:
理財行業(yè) 的核心詞之下長(cháng)尾詞列表部份如下:
2 、用詞庫找出搜索引擎最須要的內容
當我們擁有一個(gè)行業(yè)的所有詞匯后,我們能夠真正意義上懂得這個(gè)行業(yè),懂得這個(gè)行業(yè)用戶(hù)的需求。
接下來(lái)我們要在這近百萬(wàn)的理財詞庫中,找到最能帶來(lái)流量的詞匯,這里我們借助百度PC指數、360指數、百度移動(dòng)指數、競價(jià)規劃師PC搜索量、競價(jià)規劃師聯(lián)通搜索量、競價(jià)規劃師競爭度:
通過(guò)以上公式我們可以篩選出行業(yè)中最能帶來(lái)流量的一批詞,從百萬(wàn)詞庫中篩選出104635個(gè)流量詞。
3 、通過(guò) API 篩選出搜索引擎最缺少內容的關(guān)鍵詞
有了前面篩選下來(lái)的104635個(gè)流量詞,我們便可以裝入百度、360等搜索引擎進(jìn)行模擬查詢(xún),了解排位在前20位的網(wǎng)頁(yè)對應的url級別和標題情況,了解搜索引擎是否早已內容飽和。
通過(guò)API商城中的百度PC端TOP 50位排行情況API(),我們可以輕松獲得JSON格式的排行情況。
下圖中我們以“什么是指數基金”這個(gè)詞為例來(lái)獲取TOP20搜索結果排行情況:
返回的排行信息中比較重要的有兩種信息,域名權重信息和Title信息。
域名權重信息代表著(zhù)是否排名前50的域名中是不是都是有權重還比較低的域名,這樣你才有機會(huì )擠進(jìn)去。
Title信息的剖析意味著(zhù)互聯(lián)網(wǎng)上關(guān)于這個(gè)關(guān)鍵詞的內容是否飽和,是不是由于百度為了填充信息而選擇了一些補充信息來(lái)填充搜索結果。
通過(guò)剖析這兩個(gè)信息,我們能夠決定這個(gè)關(guān)鍵詞是否優(yōu)先值得去做內容。
這里做個(gè)假定,如果我的網(wǎng)站5118的權重是A,那么我們就要找尋TOP20排行結果中是否還有好多5118權重B級甚至C級的網(wǎng)站排名結果,如果有這么我們就還有機會(huì )攻打她們的位置。
另外還有一種情況,如果通過(guò)域名發(fā)覺(jué)不了機會(huì ),還有另一個(gè)機會(huì ),就是雖然這種高權重域名的內容并沒(méi)有完全符合搜索要求,也就是說(shuō)結果中一些內容標題沒(méi)有完全匹配關(guān)鍵詞。
例如上圖中的Title,就沒(méi)有完全收錄“什么是指數基金”這個(gè)詞,只不過(guò)是搜索引擎為了補充結果而裝入的索引,那我們也可以把這種位置標記為有機會(huì )。
通過(guò)類(lèi)似前面的算法,每個(gè)詞我們都可以得到一個(gè)機會(huì )分值,我們可以設置一個(gè)篩選的閥值,例如設置為8,如果TOP 20的結果中有8個(gè)以上是有機會(huì )的位置,我們就將這種關(guān)鍵詞保留出來(lái),進(jìn)入到第四階段。
4 、幫助搜索引擎建立這種內容
當我們通過(guò)上面三步完成了最高性?xún)r(jià)比SEO關(guān)鍵詞篩選過(guò)后,我們便可以安排編輯人員進(jìn)行文章或者專(zhuān)題的編撰,或是安排技術(shù)部進(jìn)行文章的采集,亦或是安排營(yíng)運部門(mén)引導用戶(hù)制造內容。
通過(guò)這四個(gè)步驟的層層過(guò)濾,我們的內容營(yíng)運工作將會(huì )十分有針對性,雖然里面寫(xiě)了這么多文字,但是畢竟就是下邊三個(gè)目的:
5 、監控SEO療效
隨著(zhù)內容的不斷建立,我們須要整體評估前面確定的內容策略的成效,可能要對一些參數和閥值甚至算法進(jìn)行微調:
因為只有監控那些參數能夠曉得你的內容制造下來(lái)以后百度爬蟲(chóng)是否如期而來(lái),并且沒(méi)有碰到任何障礙,這樣確保你的內容策略沒(méi)有由于其他技術(shù)運維的干擾誘因引起策略沒(méi)有發(fā)揮作用。
收錄是有排行的前提,如果內容不能收錄,爬蟲(chóng)爬行再多也沒(méi)有意義。內容做下來(lái)不收錄,對于內容策略也將會(huì )是一個(gè)嚴打,所以收錄的監控也至關(guān)重要。
隨著(zhù)內容和收錄的不斷降低,我們SEO終極目的就是要獲得好的排行。
對整體大趨勢進(jìn)行跟蹤,確保整體內容策略大方向是正確的。
2. 對單個(gè)的關(guān)鍵詞排行進(jìn)行監控,以評估每位內容生產(chǎn)工作的穩定性,注重細節。
▲ 可以利用5118關(guān)鍵詞監控分批添加自己關(guān)鍵詞進(jìn)行監控
▲ 也可以利用5118關(guān)鍵詞排名采集API進(jìn)行監控
最 后 總 結:
人類(lèi)近代文明的發(fā)展就是一個(gè)追求極其自動(dòng)化過(guò)程,無(wú)人工廠(chǎng)、無(wú)人超市、無(wú)人機、作為大數據時(shí)代的SEO管理人員,同樣要追求SEO的自動(dòng)化,與時(shí)俱進(jìn)能夠實(shí)現自我的突破。
通過(guò)這樣的內容生產(chǎn)過(guò)程,我們可以逐漸優(yōu)化我們的內容策略,做到內容生產(chǎn)流量療效的最大化。所以你還在等哪些,趕快用起這種可以使你輕松晉升的大數據API。
5118,享受前輩級營(yíng)運視野
更多API詳情,歡迎登錄5118官網(wǎng)! 查看全部
API已改變SEO的玩法,不懂只能改行
SEO從業(yè)者是幫助搜索引擎進(jìn)行優(yōu)化的人,不是說(shuō)每晚形成無(wú)數垃圾信息就是在幫助,不是說(shuō)每晚構建無(wú)數的友情鏈接就是在幫助它,而是幫助搜索引擎解決它的實(shí)際問(wèn)題。是不是認為太偉大?
如果不能認識到這點(diǎn),其實(shí)你可能早已不能適應SEO優(yōu)化領(lǐng)域?,F在早已不是初期的莽荒時(shí)代,如果仍然靠鏈接和偽原創(chuàng )你只會(huì )有一個(gè)覺(jué)得,SEO真他喵不是人干的!
我們可以如何做到更好?
1 、擁有最全面確切的行業(yè)詞庫
我們在營(yíng)運某個(gè)網(wǎng)站或者欄目時(shí),往往會(huì )垂直于一個(gè)行業(yè)。每個(gè)行業(yè)都有自己的范圍,如果淺顯的講,實(shí)際上每位行業(yè)都有自己一批核心關(guān)鍵詞+長(cháng)尾詞,由這種詞匯劃分了一個(gè)行業(yè)的范圍,所以擁有一個(gè)行業(yè)詞庫是對一個(gè)行業(yè)充分把握的必備品。
例如 理財行業(yè) 圍繞的核心詞部份如下:
理財行業(yè) 的核心詞之下長(cháng)尾詞列表部份如下:
2 、用詞庫找出搜索引擎最須要的內容
當我們擁有一個(gè)行業(yè)的所有詞匯后,我們能夠真正意義上懂得這個(gè)行業(yè),懂得這個(gè)行業(yè)用戶(hù)的需求。
接下來(lái)我們要在這近百萬(wàn)的理財詞庫中,找到最能帶來(lái)流量的詞匯,這里我們借助百度PC指數、360指數、百度移動(dòng)指數、競價(jià)規劃師PC搜索量、競價(jià)規劃師聯(lián)通搜索量、競價(jià)規劃師競爭度:
通過(guò)以上公式我們可以篩選出行業(yè)中最能帶來(lái)流量的一批詞,從百萬(wàn)詞庫中篩選出104635個(gè)流量詞。
3 、通過(guò) API 篩選出搜索引擎最缺少內容的關(guān)鍵詞
有了前面篩選下來(lái)的104635個(gè)流量詞,我們便可以裝入百度、360等搜索引擎進(jìn)行模擬查詢(xún),了解排位在前20位的網(wǎng)頁(yè)對應的url級別和標題情況,了解搜索引擎是否早已內容飽和。
通過(guò)API商城中的百度PC端TOP 50位排行情況API(),我們可以輕松獲得JSON格式的排行情況。
下圖中我們以“什么是指數基金”這個(gè)詞為例來(lái)獲取TOP20搜索結果排行情況:
返回的排行信息中比較重要的有兩種信息,域名權重信息和Title信息。
域名權重信息代表著(zhù)是否排名前50的域名中是不是都是有權重還比較低的域名,這樣你才有機會(huì )擠進(jìn)去。
Title信息的剖析意味著(zhù)互聯(lián)網(wǎng)上關(guān)于這個(gè)關(guān)鍵詞的內容是否飽和,是不是由于百度為了填充信息而選擇了一些補充信息來(lái)填充搜索結果。
通過(guò)剖析這兩個(gè)信息,我們能夠決定這個(gè)關(guān)鍵詞是否優(yōu)先值得去做內容。
這里做個(gè)假定,如果我的網(wǎng)站5118的權重是A,那么我們就要找尋TOP20排行結果中是否還有好多5118權重B級甚至C級的網(wǎng)站排名結果,如果有這么我們就還有機會(huì )攻打她們的位置。
另外還有一種情況,如果通過(guò)域名發(fā)覺(jué)不了機會(huì ),還有另一個(gè)機會(huì ),就是雖然這種高權重域名的內容并沒(méi)有完全符合搜索要求,也就是說(shuō)結果中一些內容標題沒(méi)有完全匹配關(guān)鍵詞。
例如上圖中的Title,就沒(méi)有完全收錄“什么是指數基金”這個(gè)詞,只不過(guò)是搜索引擎為了補充結果而裝入的索引,那我們也可以把這種位置標記為有機會(huì )。
通過(guò)類(lèi)似前面的算法,每個(gè)詞我們都可以得到一個(gè)機會(huì )分值,我們可以設置一個(gè)篩選的閥值,例如設置為8,如果TOP 20的結果中有8個(gè)以上是有機會(huì )的位置,我們就將這種關(guān)鍵詞保留出來(lái),進(jìn)入到第四階段。
4 、幫助搜索引擎建立這種內容
當我們通過(guò)上面三步完成了最高性?xún)r(jià)比SEO關(guān)鍵詞篩選過(guò)后,我們便可以安排編輯人員進(jìn)行文章或者專(zhuān)題的編撰,或是安排技術(shù)部進(jìn)行文章的采集,亦或是安排營(yíng)運部門(mén)引導用戶(hù)制造內容。
通過(guò)這四個(gè)步驟的層層過(guò)濾,我們的內容營(yíng)運工作將會(huì )十分有針對性,雖然里面寫(xiě)了這么多文字,但是畢竟就是下邊三個(gè)目的:
5 、監控SEO療效
隨著(zhù)內容的不斷建立,我們須要整體評估前面確定的內容策略的成效,可能要對一些參數和閥值甚至算法進(jìn)行微調:
因為只有監控那些參數能夠曉得你的內容制造下來(lái)以后百度爬蟲(chóng)是否如期而來(lái),并且沒(méi)有碰到任何障礙,這樣確保你的內容策略沒(méi)有由于其他技術(shù)運維的干擾誘因引起策略沒(méi)有發(fā)揮作用。
收錄是有排行的前提,如果內容不能收錄,爬蟲(chóng)爬行再多也沒(méi)有意義。內容做下來(lái)不收錄,對于內容策略也將會(huì )是一個(gè)嚴打,所以收錄的監控也至關(guān)重要。
隨著(zhù)內容和收錄的不斷降低,我們SEO終極目的就是要獲得好的排行。
對整體大趨勢進(jìn)行跟蹤,確保整體內容策略大方向是正確的。
2. 對單個(gè)的關(guān)鍵詞排行進(jìn)行監控,以評估每位內容生產(chǎn)工作的穩定性,注重細節。
▲ 可以利用5118關(guān)鍵詞監控分批添加自己關(guān)鍵詞進(jìn)行監控
▲ 也可以利用5118關(guān)鍵詞排名采集API進(jìn)行監控
最 后 總 結:
人類(lèi)近代文明的發(fā)展就是一個(gè)追求極其自動(dòng)化過(guò)程,無(wú)人工廠(chǎng)、無(wú)人超市、無(wú)人機、作為大數據時(shí)代的SEO管理人員,同樣要追求SEO的自動(dòng)化,與時(shí)俱進(jìn)能夠實(shí)現自我的突破。
通過(guò)這樣的內容生產(chǎn)過(guò)程,我們可以逐漸優(yōu)化我們的內容策略,做到內容生產(chǎn)流量療效的最大化。所以你還在等哪些,趕快用起這種可以使你輕松晉升的大數據API。
5118,享受前輩級營(yíng)運視野
更多API詳情,歡迎登錄5118官網(wǎng)!
Serverless 實(shí)戰:如何結合 NLP 實(shí)現文本摘要和關(guān)鍵詞提???
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 258 次瀏覽 ? 2020-08-25 18:17
對文本進(jìn)行手動(dòng)摘要的提取和關(guān)鍵詞的提取,屬于自然語(yǔ)言處理的范疇。提取摘要的一個(gè)用處是可以使閱讀者通過(guò)最少的信息判別出這個(gè)文章對自己是否有意義或則價(jià)值,是否須要進(jìn)行愈發(fā)詳盡的閱讀;而提取關(guān)鍵詞的用處是可以使文章與文章之間形成關(guān)聯(lián),同時(shí)也可以使讀者通過(guò)關(guān)鍵詞快速定位到和該關(guān)鍵詞相關(guān)的文章內容。
文本摘要和關(guān)鍵詞提取都可以和傳統的 CMS 進(jìn)行結合,通過(guò)對文章 / 新聞等發(fā)布功能進(jìn)行整修,同步提取關(guān)鍵詞和摘要,放到 HTML 頁(yè)面中作為 Description 和 Keyworks。這樣做在一定程度上有利于搜索引擎收錄,屬于 SEO 優(yōu)化的范疇。
關(guān)鍵詞提取
關(guān)鍵詞提取的方式好多,但是最常見(jiàn)的應當就是tf-idf了。
通過(guò)jieba實(shí)現基于tf-idf關(guān)鍵詞提取的方式:
jieba.analyse.extract_tags(text, topK=5, withWeight=False, allowPOS=('n', 'vn', 'v'))
文本摘要
文本摘要的方式也有好多,如果從廣義上來(lái)界定,包括提取式和生成式。其中提取式就是在文章中通過(guò)TextRank等算法,找出關(guān)鍵句之后進(jìn)行拼裝,形成摘要,這種方式相對來(lái)說(shuō)比較簡(jiǎn)單,但是很難提取出真實(shí)的語(yǔ)義等;另一種方式是生成式,通過(guò)深度學(xué)習等方式,對文本語(yǔ)義進(jìn)行提取再生成摘要。
如果簡(jiǎn)單理解,提取式方法生成的摘要,所有語(yǔ)句來(lái)自原文,而生成式方式則是獨立生成的。
為了簡(jiǎn)化難度,本文將采用提取式來(lái)實(shí)現文本摘要功能,通過(guò) SnowNLP 第三方庫,實(shí)現基于TextRank的文本摘要功能。我們以《海底兩萬(wàn)里》部分內容作為原文,進(jìn)行摘要生成:
原文:
這些風(fēng)波發(fā)生時(shí),我剛從英國內布拉斯加州的貧瘠地區做完一項科考工作回去。我當時(shí)是巴黎自然史博物館的客座教授,法國政府派我出席此次考察活動(dòng)。我在內布拉斯加州渡過(guò)了半年時(shí)間,采集了許多珍稀資料,滿(mǎn)載而歸,3 月底到達倫敦。我決定 5 月初動(dòng)身回美國。于是,我就抓緊這段候船停留時(shí)間,把搜集到的礦物和動(dòng)植物標本進(jìn)行分類(lèi)整理,可就在這時(shí),斯科舍號出事了。
我對當時(shí)的街談巷議自然了如指掌,再說(shuō)了,我豈能聽(tīng)而不聞、無(wú)動(dòng)于衷呢?我把日本和法國的各類(lèi)報刊讀了又讀,但無(wú)法深入了解真相。神秘莫測,百思不得其解。我左思右想,搖擺于兩個(gè)極端之間,始終形不成一種看法。其中肯定有名堂,這是不容置疑的,如果有人表示懷疑,就請她們去摸一摸斯科舍號的創(chuàng )口好了。
我到倫敦時(shí),這個(gè)問(wèn)題正炒得沸反盈天。某些不學(xué)無(wú)術(shù)之徒提出構想,有說(shuō)是浮動(dòng)的小島,也有說(shuō)是不可捉摸的暗礁,不過(guò),這些個(gè)假定通通都被推翻了。很顯然,除非這暗礁頭部裝有機器,不然的話(huà),它豈能這么快速地轉移呢?
同樣的道理,說(shuō)它是一塊浮動(dòng)的艙室或是一堆大船殘骸,這種假定也不能創(chuàng )立,理由依舊是聯(lián)通速率很快。
那么,問(wèn)題只能有兩種解釋?zhuān)藗兏鞒旨阂?jiàn),自然就分成觀(guān)點(diǎn)截然不同的兩派:一派說(shuō)這是一個(gè)力大無(wú)比的怪物,另一派說(shuō)這是一艘動(dòng)力極強的“潛水船”。
哦,最后那個(gè)假定尚且可以接受,但到歐美各國調查過(guò)后,也就無(wú)法自圓其說(shuō)了。有那個(gè)普通人會(huì )擁有這么強悍動(dòng)力的機械?這是不可能的。他在何地何時(shí)叫何人制造了這么個(gè)龐然大物,而且怎么能在建造中做到風(fēng)聲不探聽(tīng)呢?
看來(lái),只有政府才有可能擁有這些破壞性的機器,在這個(gè)災難深重的時(shí)代,人們千方百計要提高戰爭裝備威力,那就有此類(lèi)可能,一個(gè)國家瞞著(zhù)其他國家在試制這類(lèi)駭人聽(tīng)聞的裝備。繼夏斯勃手槍以后有魚(yú)雷,水雷以后有水下撞錘,然后劍皇高漲反應,事態(tài)愈演愈烈。至少,我是這樣想的。
通過(guò) SnowNLP 提供的算法:
from snownlp import SnowNLP
text = " 上面的原文內容,此處省略 "
s = SnowNLP(text)
print("。".join(s.summary(5)))
輸出結果:
自然就分成觀(guān)點(diǎn)截然不同的兩派:一派說(shuō)這是一個(gè)力大無(wú)比的怪物。這種假設也不能成立。我到紐約時(shí)。說(shuō)它是一塊浮動(dòng)的船體或是一堆大船殘片。另一派說(shuō)這是一艘動(dòng)力極強的“潛水船”
初步來(lái)看,效果并不是挺好,接下來(lái)我們自己估算語(yǔ)句權重,實(shí)現一個(gè)簡(jiǎn)單的摘要功能,這個(gè)就須要jieba:
import re
import jieba.analyse
import jieba.posseg
class TextSummary:
def __init__(self, text):
self.text = text
def splitSentence(self):
sectionNum = 0
self.sentences = []
for eveSection in self.text.split("\n"):
if eveSection:
sentenceNum = 0
for eveSentence in re.split("!|。|?", eveSection):
if eveSentence:
mark = []
if sectionNum == 0:
mark.append("FIRSTSECTION")
if sentenceNum == 0:
mark.append("FIRSTSENTENCE")
self.sentences.append({
"text": eveSentence,
"pos": {
"x": sectionNum,
"y": sentenceNum,
"mark": mark
}
})
sentenceNum = sentenceNum + 1
sectionNum = sectionNum + 1
self.sentences[-1]["pos"]["mark"].append("LASTSENTENCE")
for i in range(0, len(self.sentences)):
if self.sentences[i]["pos"]["x"] == self.sentences[-1]["pos"]["x"]:
self.sentences[i]["pos"]["mark"].append("LASTSECTION")
def getKeywords(self):
self.keywords = jieba.analyse.extract_tags(self.text, topK=20, withWeight=False, allowPOS=('n', 'vn', 'v'))
def sentenceWeight(self):
# 計算句子的位置權重
for sentence in self.sentences:
mark = sentence["pos"]["mark"]
weightPos = 0
if "FIRSTSECTION" in mark:
weightPos = weightPos + 2
if "FIRSTSENTENCE" in mark:
weightPos = weightPos + 2
if "LASTSENTENCE" in mark:
weightPos = weightPos + 1
if "LASTSECTION" in mark:
weightPos = weightPos + 1
sentence["weightPos"] = weightPos
# 計算句子的線(xiàn)索詞權重
index = [" 總之 ", " 總而言之 "]
for sentence in self.sentences:
sentence["weightCueWords"] = 0
sentence["weightKeywords"] = 0
for i in index:
for sentence in self.sentences:
if sentence["text"].find(i) >= 0:
sentence["weightCueWords"] = 1
for keyword in self.keywords:
for sentence in self.sentences:
if sentence["text"].find(keyword) >= 0:
sentence["weightKeywords"] = sentence["weightKeywords"] + 1
for sentence in self.sentences:
sentence["weight"] = sentence["weightPos"] + 2 * sentence["weightCueWords"] + sentence["weightKeywords"]
def getSummary(self, ratio=0.1):
self.keywords = list()
self.sentences = list()
self.summary = list()
# 調用方法,分別計算關(guān)鍵詞、分句,計算權重
self.getKeywords()
self.splitSentence()
self.sentenceWeight()
# 對句子的權重值進(jìn)行排序
self.sentences = sorted(self.sentences, key=lambda k: k['weight'], reverse=True)
# 根據排序結果,取排名占前 ratio% 的句子作為摘要
for i in range(len(self.sentences)):
if i < ratio * len(self.sentences):
sentence = self.sentences[i]
self.summary.append(sentence["text"])
return self.summary
這段代碼主要是通過(guò) tf-idf 實(shí)現關(guān)鍵詞提取,然后通過(guò)關(guān)鍵詞提取對語(yǔ)句進(jìn)行權重賦于,最后獲得到整體的結果,運行:
testSummary = TextSummary(text)
print("。".join(testSummary.getSummary()))
可以得到結果:
Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/yb/wvy_7wm91mzd7cjg4444gvdjsglgs8/T/jieba.cache
Loading model cost 0.721 seconds.
Prefix dict has been built successfully.
看來(lái),只有政府才有可能擁有這種破壞性的機器,在這個(gè)災難深重的時(shí)代,人們千方百計要增強戰爭武器威力,那就有這種可能,一個(gè)國家瞞著(zhù)其他國家在試制這類(lèi)駭人聽(tīng)聞的武器。于是,我就抓緊這段候船逗留時(shí)間,把收集到的礦物和動(dòng)植物標本進(jìn)行分類(lèi)整理,可就在這時(shí),斯科舍號出事了。同樣的道理,說(shuō)它是一塊浮動(dòng)的船體或是一堆大船殘片,這種假設也不能成立,理由仍然是移動(dòng)速度太快
我們可以看見(jiàn),整體療效要比昨天的好一些。
發(fā)布 API
通過(guò) Serverless 架構,將前面代碼進(jìn)行整理,并發(fā)布。
代碼整理結果:
import re, json
import jieba.analyse
import jieba.posseg
class NLPAttr:
def __init__(self, text):
self.text = text
def splitSentence(self):
sectionNum = 0
self.sentences = []
for eveSection in self.text.split("\n"):
if eveSection:
sentenceNum = 0
for eveSentence in re.split("!|。|?", eveSection):
if eveSentence:
mark = []
if sectionNum == 0:
mark.append("FIRSTSECTION")
if sentenceNum == 0:
mark.append("FIRSTSENTENCE")
self.sentences.append({
"text": eveSentence,
"pos": {
"x": sectionNum,
"y": sentenceNum,
"mark": mark
}
})
sentenceNum = sentenceNum + 1
sectionNum = sectionNum + 1
self.sentences[-1]["pos"]["mark"].append("LASTSENTENCE")
for i in range(0, len(self.sentences)):
if self.sentences[i]["pos"]["x"] == self.sentences[-1]["pos"]["x"]:
self.sentences[i]["pos"]["mark"].append("LASTSECTION")
def getKeywords(self):
self.keywords = jieba.analyse.extract_tags(self.text, topK=20, withWeight=False, allowPOS=('n', 'vn', 'v'))
return self.keywords
def sentenceWeight(self):
# 計算句子的位置權重
for sentence in self.sentences:
mark = sentence["pos"]["mark"]
weightPos = 0
if "FIRSTSECTION" in mark:
weightPos = weightPos + 2
if "FIRSTSENTENCE" in mark:
weightPos = weightPos + 2
if "LASTSENTENCE" in mark:
weightPos = weightPos + 1
if "LASTSECTION" in mark:
weightPos = weightPos + 1
sentence["weightPos"] = weightPos
# 計算句子的線(xiàn)索詞權重
index = [" 總之 ", " 總而言之 "]
for sentence in self.sentences:
sentence["weightCueWords"] = 0
sentence["weightKeywords"] = 0
for i in index:
for sentence in self.sentences:
if sentence["text"].find(i) >= 0:
sentence["weightCueWords"] = 1
for keyword in self.keywords:
for sentence in self.sentences:
if sentence["text"].find(keyword) >= 0:
sentence["weightKeywords"] = sentence["weightKeywords"] + 1
for sentence in self.sentences:
sentence["weight"] = sentence["weightPos"] + 2 * sentence["weightCueWords"] + sentence["weightKeywords"]
def getSummary(self, ratio=0.1):
self.keywords = list()
self.sentences = list()
self.summary = list()
# 調用方法,分別計算關(guān)鍵詞、分句,計算權重
self.getKeywords()
self.splitSentence()
self.sentenceWeight()
# 對句子的權重值進(jìn)行排序
self.sentences = sorted(self.sentences, key=lambda k: k['weight'], reverse=True)
# 根據排序結果,取排名占前 ratio% 的句子作為摘要
for i in range(len(self.sentences)):
if i < ratio * len(self.sentences):
sentence = self.sentences[i]
self.summary.append(sentence["text"])
return self.summary
def main_handler(event, context):
nlp = NLPAttr(json.loads(event['body'])['text'])
return {
"keywords": nlp.getKeywords(),
"summary": "。".join(nlp.getSummary())
}
編寫(xiě)項目serverless.yaml文件:
nlpDemo:
component: "@serverless/tencent-scf"
inputs:
name: nlpDemo
codeUri: ./
handler: index.main_handler
runtime: Python3.6
region: ap-guangzhou
description: 文本摘要 / 關(guān)鍵詞功能
memorySize: 256
timeout: 10
events:
- apigw:
name: nlpDemo_apigw_service
parameters:
protocols:
- http
serviceName: serverless
description: 文本摘要 / 關(guān)鍵詞功能
environment: release
endpoints:
- path: /nlp
method: ANY
由于項目中使用了jieba,所以在安裝的時(shí)侯推薦在 CentOS 系統下與對應的 Python 版本下安裝,也可以使用我之前為了便捷做的一個(gè)依賴(lài)工具:
通過(guò)sls --debug進(jìn)行布署:
部署完成,可以通過(guò) PostMan 進(jìn)行簡(jiǎn)單的測試:
從上圖可以看見(jiàn),我們早已根據預期輸出了目標結果。至此,文本摘要 / 關(guān)鍵詞提取的 API 已經(jīng)布署完成。
總結
相對來(lái)說(shuō),通過(guò) Serveless 架構做 API 是十分容易和便捷的,可實(shí)現 API 的插拔行,組件化,希望本文才能給讀者更多的思路和啟發(fā)。 查看全部
Serverless 實(shí)戰:如何結合 NLP 實(shí)現文本摘要和關(guān)鍵詞提???
對文本進(jìn)行手動(dòng)摘要的提取和關(guān)鍵詞的提取,屬于自然語(yǔ)言處理的范疇。提取摘要的一個(gè)用處是可以使閱讀者通過(guò)最少的信息判別出這個(gè)文章對自己是否有意義或則價(jià)值,是否須要進(jìn)行愈發(fā)詳盡的閱讀;而提取關(guān)鍵詞的用處是可以使文章與文章之間形成關(guān)聯(lián),同時(shí)也可以使讀者通過(guò)關(guān)鍵詞快速定位到和該關(guān)鍵詞相關(guān)的文章內容。
文本摘要和關(guān)鍵詞提取都可以和傳統的 CMS 進(jìn)行結合,通過(guò)對文章 / 新聞等發(fā)布功能進(jìn)行整修,同步提取關(guān)鍵詞和摘要,放到 HTML 頁(yè)面中作為 Description 和 Keyworks。這樣做在一定程度上有利于搜索引擎收錄,屬于 SEO 優(yōu)化的范疇。
關(guān)鍵詞提取
關(guān)鍵詞提取的方式好多,但是最常見(jiàn)的應當就是tf-idf了。
通過(guò)jieba實(shí)現基于tf-idf關(guān)鍵詞提取的方式:
jieba.analyse.extract_tags(text, topK=5, withWeight=False, allowPOS=('n', 'vn', 'v'))
文本摘要
文本摘要的方式也有好多,如果從廣義上來(lái)界定,包括提取式和生成式。其中提取式就是在文章中通過(guò)TextRank等算法,找出關(guān)鍵句之后進(jìn)行拼裝,形成摘要,這種方式相對來(lái)說(shuō)比較簡(jiǎn)單,但是很難提取出真實(shí)的語(yǔ)義等;另一種方式是生成式,通過(guò)深度學(xué)習等方式,對文本語(yǔ)義進(jìn)行提取再生成摘要。
如果簡(jiǎn)單理解,提取式方法生成的摘要,所有語(yǔ)句來(lái)自原文,而生成式方式則是獨立生成的。
為了簡(jiǎn)化難度,本文將采用提取式來(lái)實(shí)現文本摘要功能,通過(guò) SnowNLP 第三方庫,實(shí)現基于TextRank的文本摘要功能。我們以《海底兩萬(wàn)里》部分內容作為原文,進(jìn)行摘要生成:
原文:
這些風(fēng)波發(fā)生時(shí),我剛從英國內布拉斯加州的貧瘠地區做完一項科考工作回去。我當時(shí)是巴黎自然史博物館的客座教授,法國政府派我出席此次考察活動(dòng)。我在內布拉斯加州渡過(guò)了半年時(shí)間,采集了許多珍稀資料,滿(mǎn)載而歸,3 月底到達倫敦。我決定 5 月初動(dòng)身回美國。于是,我就抓緊這段候船停留時(shí)間,把搜集到的礦物和動(dòng)植物標本進(jìn)行分類(lèi)整理,可就在這時(shí),斯科舍號出事了。
我對當時(shí)的街談巷議自然了如指掌,再說(shuō)了,我豈能聽(tīng)而不聞、無(wú)動(dòng)于衷呢?我把日本和法國的各類(lèi)報刊讀了又讀,但無(wú)法深入了解真相。神秘莫測,百思不得其解。我左思右想,搖擺于兩個(gè)極端之間,始終形不成一種看法。其中肯定有名堂,這是不容置疑的,如果有人表示懷疑,就請她們去摸一摸斯科舍號的創(chuàng )口好了。
我到倫敦時(shí),這個(gè)問(wèn)題正炒得沸反盈天。某些不學(xué)無(wú)術(shù)之徒提出構想,有說(shuō)是浮動(dòng)的小島,也有說(shuō)是不可捉摸的暗礁,不過(guò),這些個(gè)假定通通都被推翻了。很顯然,除非這暗礁頭部裝有機器,不然的話(huà),它豈能這么快速地轉移呢?
同樣的道理,說(shuō)它是一塊浮動(dòng)的艙室或是一堆大船殘骸,這種假定也不能創(chuàng )立,理由依舊是聯(lián)通速率很快。
那么,問(wèn)題只能有兩種解釋?zhuān)藗兏鞒旨阂?jiàn),自然就分成觀(guān)點(diǎn)截然不同的兩派:一派說(shuō)這是一個(gè)力大無(wú)比的怪物,另一派說(shuō)這是一艘動(dòng)力極強的“潛水船”。
哦,最后那個(gè)假定尚且可以接受,但到歐美各國調查過(guò)后,也就無(wú)法自圓其說(shuō)了。有那個(gè)普通人會(huì )擁有這么強悍動(dòng)力的機械?這是不可能的。他在何地何時(shí)叫何人制造了這么個(gè)龐然大物,而且怎么能在建造中做到風(fēng)聲不探聽(tīng)呢?
看來(lái),只有政府才有可能擁有這些破壞性的機器,在這個(gè)災難深重的時(shí)代,人們千方百計要提高戰爭裝備威力,那就有此類(lèi)可能,一個(gè)國家瞞著(zhù)其他國家在試制這類(lèi)駭人聽(tīng)聞的裝備。繼夏斯勃手槍以后有魚(yú)雷,水雷以后有水下撞錘,然后劍皇高漲反應,事態(tài)愈演愈烈。至少,我是這樣想的。
通過(guò) SnowNLP 提供的算法:
from snownlp import SnowNLP
text = " 上面的原文內容,此處省略 "
s = SnowNLP(text)
print("。".join(s.summary(5)))
輸出結果:
自然就分成觀(guān)點(diǎn)截然不同的兩派:一派說(shuō)這是一個(gè)力大無(wú)比的怪物。這種假設也不能成立。我到紐約時(shí)。說(shuō)它是一塊浮動(dòng)的船體或是一堆大船殘片。另一派說(shuō)這是一艘動(dòng)力極強的“潛水船”
初步來(lái)看,效果并不是挺好,接下來(lái)我們自己估算語(yǔ)句權重,實(shí)現一個(gè)簡(jiǎn)單的摘要功能,這個(gè)就須要jieba:
import re
import jieba.analyse
import jieba.posseg
class TextSummary:
def __init__(self, text):
self.text = text
def splitSentence(self):
sectionNum = 0
self.sentences = []
for eveSection in self.text.split("\n"):
if eveSection:
sentenceNum = 0
for eveSentence in re.split("!|。|?", eveSection):
if eveSentence:
mark = []
if sectionNum == 0:
mark.append("FIRSTSECTION")
if sentenceNum == 0:
mark.append("FIRSTSENTENCE")
self.sentences.append({
"text": eveSentence,
"pos": {
"x": sectionNum,
"y": sentenceNum,
"mark": mark
}
})
sentenceNum = sentenceNum + 1
sectionNum = sectionNum + 1
self.sentences[-1]["pos"]["mark"].append("LASTSENTENCE")
for i in range(0, len(self.sentences)):
if self.sentences[i]["pos"]["x"] == self.sentences[-1]["pos"]["x"]:
self.sentences[i]["pos"]["mark"].append("LASTSECTION")
def getKeywords(self):
self.keywords = jieba.analyse.extract_tags(self.text, topK=20, withWeight=False, allowPOS=('n', 'vn', 'v'))
def sentenceWeight(self):
# 計算句子的位置權重
for sentence in self.sentences:
mark = sentence["pos"]["mark"]
weightPos = 0
if "FIRSTSECTION" in mark:
weightPos = weightPos + 2
if "FIRSTSENTENCE" in mark:
weightPos = weightPos + 2
if "LASTSENTENCE" in mark:
weightPos = weightPos + 1
if "LASTSECTION" in mark:
weightPos = weightPos + 1
sentence["weightPos"] = weightPos
# 計算句子的線(xiàn)索詞權重
index = [" 總之 ", " 總而言之 "]
for sentence in self.sentences:
sentence["weightCueWords"] = 0
sentence["weightKeywords"] = 0
for i in index:
for sentence in self.sentences:
if sentence["text"].find(i) >= 0:
sentence["weightCueWords"] = 1
for keyword in self.keywords:
for sentence in self.sentences:
if sentence["text"].find(keyword) >= 0:
sentence["weightKeywords"] = sentence["weightKeywords"] + 1
for sentence in self.sentences:
sentence["weight"] = sentence["weightPos"] + 2 * sentence["weightCueWords"] + sentence["weightKeywords"]
def getSummary(self, ratio=0.1):
self.keywords = list()
self.sentences = list()
self.summary = list()
# 調用方法,分別計算關(guān)鍵詞、分句,計算權重
self.getKeywords()
self.splitSentence()
self.sentenceWeight()
# 對句子的權重值進(jìn)行排序
self.sentences = sorted(self.sentences, key=lambda k: k['weight'], reverse=True)
# 根據排序結果,取排名占前 ratio% 的句子作為摘要
for i in range(len(self.sentences)):
if i < ratio * len(self.sentences):
sentence = self.sentences[i]
self.summary.append(sentence["text"])
return self.summary
這段代碼主要是通過(guò) tf-idf 實(shí)現關(guān)鍵詞提取,然后通過(guò)關(guān)鍵詞提取對語(yǔ)句進(jìn)行權重賦于,最后獲得到整體的結果,運行:
testSummary = TextSummary(text)
print("。".join(testSummary.getSummary()))
可以得到結果:
Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/yb/wvy_7wm91mzd7cjg4444gvdjsglgs8/T/jieba.cache
Loading model cost 0.721 seconds.
Prefix dict has been built successfully.
看來(lái),只有政府才有可能擁有這種破壞性的機器,在這個(gè)災難深重的時(shí)代,人們千方百計要增強戰爭武器威力,那就有這種可能,一個(gè)國家瞞著(zhù)其他國家在試制這類(lèi)駭人聽(tīng)聞的武器。于是,我就抓緊這段候船逗留時(shí)間,把收集到的礦物和動(dòng)植物標本進(jìn)行分類(lèi)整理,可就在這時(shí),斯科舍號出事了。同樣的道理,說(shuō)它是一塊浮動(dòng)的船體或是一堆大船殘片,這種假設也不能成立,理由仍然是移動(dòng)速度太快
我們可以看見(jiàn),整體療效要比昨天的好一些。
發(fā)布 API
通過(guò) Serverless 架構,將前面代碼進(jìn)行整理,并發(fā)布。
代碼整理結果:
import re, json
import jieba.analyse
import jieba.posseg
class NLPAttr:
def __init__(self, text):
self.text = text
def splitSentence(self):
sectionNum = 0
self.sentences = []
for eveSection in self.text.split("\n"):
if eveSection:
sentenceNum = 0
for eveSentence in re.split("!|。|?", eveSection):
if eveSentence:
mark = []
if sectionNum == 0:
mark.append("FIRSTSECTION")
if sentenceNum == 0:
mark.append("FIRSTSENTENCE")
self.sentences.append({
"text": eveSentence,
"pos": {
"x": sectionNum,
"y": sentenceNum,
"mark": mark
}
})
sentenceNum = sentenceNum + 1
sectionNum = sectionNum + 1
self.sentences[-1]["pos"]["mark"].append("LASTSENTENCE")
for i in range(0, len(self.sentences)):
if self.sentences[i]["pos"]["x"] == self.sentences[-1]["pos"]["x"]:
self.sentences[i]["pos"]["mark"].append("LASTSECTION")
def getKeywords(self):
self.keywords = jieba.analyse.extract_tags(self.text, topK=20, withWeight=False, allowPOS=('n', 'vn', 'v'))
return self.keywords
def sentenceWeight(self):
# 計算句子的位置權重
for sentence in self.sentences:
mark = sentence["pos"]["mark"]
weightPos = 0
if "FIRSTSECTION" in mark:
weightPos = weightPos + 2
if "FIRSTSENTENCE" in mark:
weightPos = weightPos + 2
if "LASTSENTENCE" in mark:
weightPos = weightPos + 1
if "LASTSECTION" in mark:
weightPos = weightPos + 1
sentence["weightPos"] = weightPos
# 計算句子的線(xiàn)索詞權重
index = [" 總之 ", " 總而言之 "]
for sentence in self.sentences:
sentence["weightCueWords"] = 0
sentence["weightKeywords"] = 0
for i in index:
for sentence in self.sentences:
if sentence["text"].find(i) >= 0:
sentence["weightCueWords"] = 1
for keyword in self.keywords:
for sentence in self.sentences:
if sentence["text"].find(keyword) >= 0:
sentence["weightKeywords"] = sentence["weightKeywords"] + 1
for sentence in self.sentences:
sentence["weight"] = sentence["weightPos"] + 2 * sentence["weightCueWords"] + sentence["weightKeywords"]
def getSummary(self, ratio=0.1):
self.keywords = list()
self.sentences = list()
self.summary = list()
# 調用方法,分別計算關(guān)鍵詞、分句,計算權重
self.getKeywords()
self.splitSentence()
self.sentenceWeight()
# 對句子的權重值進(jìn)行排序
self.sentences = sorted(self.sentences, key=lambda k: k['weight'], reverse=True)
# 根據排序結果,取排名占前 ratio% 的句子作為摘要
for i in range(len(self.sentences)):
if i < ratio * len(self.sentences):
sentence = self.sentences[i]
self.summary.append(sentence["text"])
return self.summary
def main_handler(event, context):
nlp = NLPAttr(json.loads(event['body'])['text'])
return {
"keywords": nlp.getKeywords(),
"summary": "。".join(nlp.getSummary())
}
編寫(xiě)項目serverless.yaml文件:
nlpDemo:
component: "@serverless/tencent-scf"
inputs:
name: nlpDemo
codeUri: ./
handler: index.main_handler
runtime: Python3.6
region: ap-guangzhou
description: 文本摘要 / 關(guān)鍵詞功能
memorySize: 256
timeout: 10
events:
- apigw:
name: nlpDemo_apigw_service
parameters:
protocols:
- http
serviceName: serverless
description: 文本摘要 / 關(guān)鍵詞功能
environment: release
endpoints:
- path: /nlp
method: ANY
由于項目中使用了jieba,所以在安裝的時(shí)侯推薦在 CentOS 系統下與對應的 Python 版本下安裝,也可以使用我之前為了便捷做的一個(gè)依賴(lài)工具:
通過(guò)sls --debug進(jìn)行布署:
部署完成,可以通過(guò) PostMan 進(jìn)行簡(jiǎn)單的測試:
從上圖可以看見(jiàn),我們早已根據預期輸出了目標結果。至此,文本摘要 / 關(guān)鍵詞提取的 API 已經(jīng)布署完成。
總結
相對來(lái)說(shuō),通過(guò) Serveless 架構做 API 是十分容易和便捷的,可實(shí)現 API 的插拔行,組件化,希望本文才能給讀者更多的思路和啟發(fā)。
選擇關(guān)鍵詞的步驟和注意事項總結
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 164 次瀏覽 ? 2020-08-25 11:49
對關(guān)鍵詞的選擇和確定,相信你們在實(shí)際應用中早已有了一套自己固定的思維模式,并且已非常成熟。但對于seo新人來(lái)說(shuō),還是須要在實(shí)際應用與實(shí)踐中漸漸積累,希望下邊的一些總結性語(yǔ)言才能對你日后選擇網(wǎng)站關(guān)鍵詞時(shí)有所幫助。
挑選關(guān)鍵詞的步驟:
1.確認核心關(guān)鍵詞。即網(wǎng)站核心關(guān)鍵詞,通常在首頁(yè)的title keyword description中著(zhù)力突出和重復。一般該類(lèi)關(guān)鍵詞都比較寬泛和龐雜,比如SEO,電影,等。
2.在核心關(guān)鍵詞的基礎上進(jìn)行擴充。通常用于確認欄目或頻道關(guān)鍵詞的選擇。如,我的博客關(guān)鍵詞是SEO,頻道關(guān)鍵詞就擴充為SEO服務(wù),SEO學(xué)習,SEO方法等。頻道關(guān)鍵詞應與核心關(guān)鍵詞保持很高的相關(guān)性。
3.根據網(wǎng)站與頻道關(guān)鍵詞,設計相關(guān)性太強的內容頁(yè)與文章關(guān)鍵詞并發(fā)布。
4.模擬用戶(hù)的搜索習慣,研究競爭者的關(guān)鍵詞。從而校準或追加相關(guān)關(guān)鍵詞。需要指出的是,搜索引擎返回的關(guān)鍵字查詢(xún)結果中,僅有10%左右的頁(yè)面和所查詢(xún)的關(guān)鍵詞有直接性關(guān)聯(lián),也就是用戶(hù)真正所需求的信息。所以,相同關(guān)鍵詞的競爭對手網(wǎng)站,應從這10%中因情況不同進(jìn)行篩選并研究。
定位關(guān)鍵詞時(shí)須要注意:
1.調查用戶(hù)的搜索習慣。也就是說(shuō)你要站在用戶(hù)的角度來(lái)考慮,比如電視劇和電影的含意其實(shí)相同,但搜索后者的用戶(hù)遠少于前者,所以,能夠做好電視劇這個(gè)關(guān)鍵詞的排行,意義和價(jià)值都遠小于前者。
2.關(guān)鍵詞不易過(guò)分艱深。除主頁(yè)以外,要使用較為精確的頁(yè)面關(guān)鍵詞,這樣做除了才能獲得更好的排行,同時(shí)也大大提高了有效顧客的轉換率。提升網(wǎng)站訪(fǎng)客的質(zhì)量。
3.關(guān)鍵詞在任何時(shí)侯都要保持高度的相關(guān)性,做SEO的,發(fā)布或設定影片信息的頻道總是說(shuō)不過(guò)去的,從搜索引擎角度而言,也非常的不友善。 查看全部
選擇關(guān)鍵詞的步驟和注意事項總結
對關(guān)鍵詞的選擇和確定,相信你們在實(shí)際應用中早已有了一套自己固定的思維模式,并且已非常成熟。但對于seo新人來(lái)說(shuō),還是須要在實(shí)際應用與實(shí)踐中漸漸積累,希望下邊的一些總結性語(yǔ)言才能對你日后選擇網(wǎng)站關(guān)鍵詞時(shí)有所幫助。
挑選關(guān)鍵詞的步驟:
1.確認核心關(guān)鍵詞。即網(wǎng)站核心關(guān)鍵詞,通常在首頁(yè)的title keyword description中著(zhù)力突出和重復。一般該類(lèi)關(guān)鍵詞都比較寬泛和龐雜,比如SEO,電影,等。
2.在核心關(guān)鍵詞的基礎上進(jìn)行擴充。通常用于確認欄目或頻道關(guān)鍵詞的選擇。如,我的博客關(guān)鍵詞是SEO,頻道關(guān)鍵詞就擴充為SEO服務(wù),SEO學(xué)習,SEO方法等。頻道關(guān)鍵詞應與核心關(guān)鍵詞保持很高的相關(guān)性。
3.根據網(wǎng)站與頻道關(guān)鍵詞,設計相關(guān)性太強的內容頁(yè)與文章關(guān)鍵詞并發(fā)布。
4.模擬用戶(hù)的搜索習慣,研究競爭者的關(guān)鍵詞。從而校準或追加相關(guān)關(guān)鍵詞。需要指出的是,搜索引擎返回的關(guān)鍵字查詢(xún)結果中,僅有10%左右的頁(yè)面和所查詢(xún)的關(guān)鍵詞有直接性關(guān)聯(lián),也就是用戶(hù)真正所需求的信息。所以,相同關(guān)鍵詞的競爭對手網(wǎng)站,應從這10%中因情況不同進(jìn)行篩選并研究。
定位關(guān)鍵詞時(shí)須要注意:
1.調查用戶(hù)的搜索習慣。也就是說(shuō)你要站在用戶(hù)的角度來(lái)考慮,比如電視劇和電影的含意其實(shí)相同,但搜索后者的用戶(hù)遠少于前者,所以,能夠做好電視劇這個(gè)關(guān)鍵詞的排行,意義和價(jià)值都遠小于前者。
2.關(guān)鍵詞不易過(guò)分艱深。除主頁(yè)以外,要使用較為精確的頁(yè)面關(guān)鍵詞,這樣做除了才能獲得更好的排行,同時(shí)也大大提高了有效顧客的轉換率。提升網(wǎng)站訪(fǎng)客的質(zhì)量。
3.關(guān)鍵詞在任何時(shí)侯都要保持高度的相關(guān)性,做SEO的,發(fā)布或設定影片信息的頻道總是說(shuō)不過(guò)去的,從搜索引擎角度而言,也非常的不友善。
基于A(yíng)PI的微博信息采集系統設計與實(shí)現
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 367 次瀏覽 ? 2020-08-25 10:36
摘要:微博已成為網(wǎng)路信息的重要來(lái)源,該文剖析了微博信息采集的相關(guān)技巧與技術(shù),提出了基于A(yíng)PI的信息采集方法,然后設計了一個(gè)信息采集系統,能夠對新浪微博的相關(guān)信息進(jìn)行采集。實(shí)驗測試表明,該信息采集系統就能快速有效地采集新浪微博信息。
關(guān)鍵詞:新浪微博;微博插口;信息采集;C#語(yǔ)言
中圖分類(lèi)號:TP315 文獻標識碼:A 文章編號:1009-3044(2013)17-4005-04
微博[1],即微型博客的簡(jiǎn)稱(chēng),是一個(gè)基于用戶(hù)關(guān)系的信息分享、傳播以及獲取平臺,用
戶(hù)可以通過(guò)WEB、WAP以及各類(lèi)客戶(hù)端組件個(gè)人社區,以140字左右的文字更新信息,并實(shí)現即時(shí)分享。中國互聯(lián)網(wǎng)絡(luò )信息中心的《第31次中國互聯(lián)網(wǎng)路發(fā)展狀況統計報告》顯示,截至2012年12月底,截至2012年12月底,我國微博用戶(hù)規模為3.09億,較2011年底下降了5873萬(wàn),網(wǎng)民中的微博用戶(hù)比列較上年底提高了六個(gè)百分點(diǎn),達到54.7%[2]。隨著(zhù)微博網(wǎng)路
影響力的快速擴大,政府部門(mén)、學(xué)校、知名企業(yè)、社會(huì )公眾人物均開(kāi)通了微博。隨著(zhù)公眾的參與,微博成為了一個(gè)強悍的虛擬社會(huì ),微博早已是網(wǎng)路信息的重要來(lái)源,如何用于快速有效地采集微博信息已然成為一個(gè)具有重要應用價(jià)值的研究。
1 研究方式與技術(shù)路線(xiàn)
國內的微博用戶(hù)主要是新浪微博,因此本文擬以新浪微博為例,設計研究方式與技術(shù)路線(xiàn)。通過(guò)剖析國內外的科技文獻與實(shí)際應用案例,發(fā)現目前針對新浪微博的信息采集方法主要有兩類(lèi):一種是“模擬登錄”、“網(wǎng)頁(yè)爬蟲(chóng)”[3]、“網(wǎng)頁(yè)內容解析”[4]三種技術(shù)結合的信息采集方法,二是基于新浪微博開(kāi)放平臺的API文檔,開(kāi)發(fā)者自行編撰程序調用微博的API,進(jìn)行微博信息的采集。對于第一種方式,難度比較高,研究技術(shù)復雜,特別是“模擬登錄”這個(gè)步驟,需要隨時(shí)跟蹤新浪微博的登錄加密算法,新浪微博的登錄加密算法的改變,就會(huì )導致“網(wǎng)頁(yè)爬蟲(chóng)”的失敗,最后造成采集不到微博信息。同時(shí),“網(wǎng)頁(yè)爬蟲(chóng)”采集到的網(wǎng)頁(yè)須要進(jìn)行“網(wǎng)頁(yè)內容解析”,效率與性能相比基于A(yíng)PI的數據采集存在顯著(zhù)的差別?;谝陨险T因,因此本文擬采用第二種方法進(jìn)行研究。
基于新浪微博開(kāi)放平臺API文檔的微博信息采集系統,主要采用了兩個(gè)研究方式:文檔分析法和實(shí)驗測試法。文檔分析法:參考新浪微博開(kāi)放平臺的API文檔,把這種API說(shuō)明文檔編撰為單獨的插口類(lèi)文件。實(shí)驗測試法:在平臺[5],以C/S模式開(kāi)發(fā)程序來(lái)調用插口類(lèi),采集微博返回的JOSN數據流,實(shí)現數據采集的相關(guān)測試與開(kāi)發(fā)。 查看全部
基于A(yíng)PI的微博信息采集系統設計與實(shí)現
摘要:微博已成為網(wǎng)路信息的重要來(lái)源,該文剖析了微博信息采集的相關(guān)技巧與技術(shù),提出了基于A(yíng)PI的信息采集方法,然后設計了一個(gè)信息采集系統,能夠對新浪微博的相關(guān)信息進(jìn)行采集。實(shí)驗測試表明,該信息采集系統就能快速有效地采集新浪微博信息。
關(guān)鍵詞:新浪微博;微博插口;信息采集;C#語(yǔ)言
中圖分類(lèi)號:TP315 文獻標識碼:A 文章編號:1009-3044(2013)17-4005-04
微博[1],即微型博客的簡(jiǎn)稱(chēng),是一個(gè)基于用戶(hù)關(guān)系的信息分享、傳播以及獲取平臺,用
戶(hù)可以通過(guò)WEB、WAP以及各類(lèi)客戶(hù)端組件個(gè)人社區,以140字左右的文字更新信息,并實(shí)現即時(shí)分享。中國互聯(lián)網(wǎng)絡(luò )信息中心的《第31次中國互聯(lián)網(wǎng)路發(fā)展狀況統計報告》顯示,截至2012年12月底,截至2012年12月底,我國微博用戶(hù)規模為3.09億,較2011年底下降了5873萬(wàn),網(wǎng)民中的微博用戶(hù)比列較上年底提高了六個(gè)百分點(diǎn),達到54.7%[2]。隨著(zhù)微博網(wǎng)路
影響力的快速擴大,政府部門(mén)、學(xué)校、知名企業(yè)、社會(huì )公眾人物均開(kāi)通了微博。隨著(zhù)公眾的參與,微博成為了一個(gè)強悍的虛擬社會(huì ),微博早已是網(wǎng)路信息的重要來(lái)源,如何用于快速有效地采集微博信息已然成為一個(gè)具有重要應用價(jià)值的研究。
1 研究方式與技術(shù)路線(xiàn)
國內的微博用戶(hù)主要是新浪微博,因此本文擬以新浪微博為例,設計研究方式與技術(shù)路線(xiàn)。通過(guò)剖析國內外的科技文獻與實(shí)際應用案例,發(fā)現目前針對新浪微博的信息采集方法主要有兩類(lèi):一種是“模擬登錄”、“網(wǎng)頁(yè)爬蟲(chóng)”[3]、“網(wǎng)頁(yè)內容解析”[4]三種技術(shù)結合的信息采集方法,二是基于新浪微博開(kāi)放平臺的API文檔,開(kāi)發(fā)者自行編撰程序調用微博的API,進(jìn)行微博信息的采集。對于第一種方式,難度比較高,研究技術(shù)復雜,特別是“模擬登錄”這個(gè)步驟,需要隨時(shí)跟蹤新浪微博的登錄加密算法,新浪微博的登錄加密算法的改變,就會(huì )導致“網(wǎng)頁(yè)爬蟲(chóng)”的失敗,最后造成采集不到微博信息。同時(shí),“網(wǎng)頁(yè)爬蟲(chóng)”采集到的網(wǎng)頁(yè)須要進(jìn)行“網(wǎng)頁(yè)內容解析”,效率與性能相比基于A(yíng)PI的數據采集存在顯著(zhù)的差別?;谝陨险T因,因此本文擬采用第二種方法進(jìn)行研究。
基于新浪微博開(kāi)放平臺API文檔的微博信息采集系統,主要采用了兩個(gè)研究方式:文檔分析法和實(shí)驗測試法。文檔分析法:參考新浪微博開(kāi)放平臺的API文檔,把這種API說(shuō)明文檔編撰為單獨的插口類(lèi)文件。實(shí)驗測試法:在平臺[5],以C/S模式開(kāi)發(fā)程序來(lái)調用插口類(lèi),采集微博返回的JOSN數據流,實(shí)現數據采集的相關(guān)測試與開(kāi)發(fā)。
OCR在數據救治中的應用設計
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 176 次瀏覽 ? 2020-08-25 04:52
OCR是通過(guò)算法辨識出圖象中的文字內容,算是圖象辨識的一個(gè)分支。但是在數據管理救治上,也十分實(shí)用。本文作者對具體的實(shí)現途徑展開(kāi)了梳理總結,并對過(guò)程中存在的問(wèn)題進(jìn)行了剖析,與你們分享。
一、服務(wù)于業(yè)務(wù):數據救治的疼點(diǎn)在哪?
大數據工程的第一步是獲得數據,而傳統行業(yè)、政府機構、科研院所中有大量的存量數據,數據救治就是把這種數據數字化,一是防止數據流失,二是提升借助價(jià)值。而存量數據中包括大量珍稀的紙質(zhì)數據,比如天文地理水文檢測數據、試驗數據、政府公文、古舊書(shū)籍等等。
紙質(zhì)數據怎么救治?這步很簡(jiǎn)單,基本解決方式就是先掃描成電子版進(jìn)行儲存。但光是掃描儲存就夠了嗎?我認為是不夠的。
像前面所說(shuō)的,數據救治的目的一是防止數據流失,二是提升借助價(jià)值,掃描儲存僅僅解決了第一個(gè)問(wèn)題防止數據流失,但并沒(méi)有挺好的增強數據的借助價(jià)值。紙質(zhì)數據的價(jià)值大部分在于文檔的內容,僅僅把紙質(zhì)文檔電子化一直不能對內容進(jìn)行進(jìn)一步的檢索、分析。
所以我們把產(chǎn)品的目標聚焦在了“提高數據利用率”上。接下來(lái)就是對目標進(jìn)行細化拆解。關(guān)于怎么提升利用率,也就是數據怎么應用,我是這樣思索的,一是從大數據角度看,如何借助統計剖析等手段增強數據整體的價(jià)值;二是從單份文檔角度方面看,如何使單份文檔更有價(jià)值,讓有興趣的用戶(hù)更容易找到它,讓用戶(hù)找到這份文檔后能快速了解其內容。
通過(guò)上面的剖析,單份數據借助的方法基本確定為【全文檢索】和【內容剖析】,而這兩種借助方式都須要對紙質(zhì)文檔中的文字進(jìn)一步進(jìn)行處理,這就須要我們數據救治的好伙伴:OCR出場(chǎng)了。
二、功能設計1. 業(yè)務(wù)場(chǎng)景
小李所在的單位有大量多年積累出來(lái)的文書(shū),有些年代久遠的早已出現了損壞丟失的情況,借著(zhù)大數據工程建設的抓手,單位決定舉辦歷史數據救治工作。
工作的第一步就是整理文書(shū)文檔,然后掃描電子化,每掃描完一份文件小李就在頁(yè)面上預覽確認沒(méi)有問(wèn)題后遞交,之后系統對文檔進(jìn)行OCR識別,識別完成后小李在頁(yè)面上可以預覽查看辨識結果,發(fā)現位置辨識不準或則文字辨識有誤可以進(jìn)行調整,最后保存調整結果即可。
小李辛辛苦苦做完的工作彰顯在哪兒呢?
同事小陳近來(lái)做的一項工作須要查閱以往數據A的相關(guān)記錄,小陳登入系統直接搜索“數據A”,搜索結果顯示了所以收錄“數據A”的文檔。小陳依次點(diǎn)擊搜索結果就可以查看文檔的摘要和關(guān)鍵詞,從而判定該文檔是否對他有用。
大概業(yè)務(wù)的流程就是右圖這樣,我們這篇主要介紹小李的工作部份。
2. 實(shí)現途徑
?。?)數據采集
數據采集主要依賴(lài)于掃描紙質(zhì)文檔的掃描儀,所以這一部分是一要考慮掃描儀本身的性能,二要考慮掃描儀與整個(gè)系統的集成。
考慮到紙質(zhì)數據量大、裝訂形式多樣的特性,掃描儀最好滿(mǎn)足快速掃描、不拆書(shū)、盡量自動(dòng)化的要求。調研了市面上成熟的商用掃描儀,符合要求的掃描儀大約有幾類(lèi):
專(zhuān)門(mén)用于古籍掃描的全手動(dòng)翻書(shū)掃描儀,就一個(gè)缺點(diǎn),太貴(140-180w)需要手工翻頁(yè),但不用拆書(shū)的高速掃描儀,這類(lèi)掃描儀選擇比較多,成本也可以接受最后一種選擇,非常有趣,是google books的開(kāi)源手動(dòng)掃描儀方案,需要自行組裝,有興趣的同學(xué)可以了解一下()
系統與掃描儀集成方面,就涉及到掃描好的文件如何儲存到系統?大概有兩種方案:
1)我們平常用的掃描儀,一般是聯(lián)接筆記本(客戶(hù)端),把掃描好的文件存在本地,然后由用戶(hù)把文件自動(dòng)上傳系統
2)網(wǎng)絡(luò )掃描儀直接通過(guò)局域網(wǎng)聯(lián)接服務(wù)器,掃描好的文件直接儲存在服務(wù)器指定位置。這種網(wǎng)路掃描儀的方案須要掃描儀支持TWAIN或則其他SDK、api,好處是多個(gè)用戶(hù)可以共用掃描儀,操作步驟也要簡(jiǎn)化好多
結合掃描儀性能、系統集成和成本角度考慮,我們選擇了一款支持TWAIN插口的自動(dòng)翻頁(yè)掃描儀作為數據救治系統中硬件支撐。
?。?) OCR識別
首先我們須要對OCR的算法有個(gè)大約的了解,可以參考OCR在資產(chǎn)管理系統的應用。
用于數據救治的OCR和用于資產(chǎn)標簽辨識的OCR還是有一點(diǎn)區別的,資產(chǎn)標簽辨識中的辨識對象是【自然環(huán)境】中的【印刷文字】,而數據救治對象是【文檔圖片】中的【印刷文字】。
但總體來(lái)說(shuō)處理的流程還是預處理-文字檢查-文字辨識,只不過(guò)對紙質(zhì)文檔中復雜的排版(圖片、表格、文字、頁(yè)碼、公式混排等等)的文字檢查換了種說(shuō)法稱(chēng)作版面剖析(layout analysis),做的事情還是差不多的,除了負責檢查出文字的位置外,也要同時(shí)確圖表等其他要素的位置。
1)預處理:
預處理的目的主要是提升圖象質(zhì)量,一般用傳統的圖象處理手段就可以完成,現在好多掃描儀也會(huì )把這部份做在里面,比如手動(dòng)糾偏、去黑邊等,如果可以滿(mǎn)足要求,預處理部份置于數據采集時(shí)由掃描儀完成也是可以的。
2)版面剖析:
先看下直觀(guān)的看下版面剖析的預期療效。關(guān)于版面剖析這塊我們須要確認的事情主要有3件:一是測量的目標有什么,二是目前算法的成熟度,三是性能方面的要求有什么。
確定測量對象:畢竟版面剖析是個(gè)測量問(wèn)題,和測量圖片中的狗貓沒(méi)有本質(zhì)區別,所以我們要先確定版面剖析須要辨識哪些東西。在數據救治中我們關(guān)心哪些呢?首先文字是最重要的,第二為了定位圖片和表格,我們也須要圖片、表格的位置以及圖注、表名,有了這種信息就可以產(chǎn)生類(lèi)似索引目錄,方便查找。所以初步確定,版面辨識須要辨識出文字、圖片、表格、圖注、表名五類(lèi)對象。
算法成熟度:雖然傳統的圖象辨識也可以實(shí)現簡(jiǎn)單的版面剖析任務(wù),但對上圖這些特別復雜的版面剖析經(jīng)過(guò)督查比較靠譜的方式還是上深度學(xué)習??梢宰霭婷嫫饰龅纳疃葘W(xué)習算法主要是圖象檢查一系列的,比如yolo、fastRCNN,這篇文章中的大鱷是用MaskRCNN實(shí)現的。所以版面剖析問(wèn)題早已有不少研究基礎了,但實(shí)際落地的應用可能還不是好多,其中須要優(yōu)化的工作肯定還有不少。
性能要求:算法的選擇其實(shí)要考慮實(shí)際中對硬件性能、識別速率、識別精度、召回率的要求。
用在我們數據救治中,首先系統是采用B/S架構,在服務(wù)器完成辨識任務(wù),所以沒(méi)有特殊硬件要求(如果是在端上實(shí)現就要考慮硬件對算法限制了)。識別速率方面,目前考慮到一份紙質(zhì)數據可能有成百上千頁(yè),所以辨識時(shí)間會(huì )比較長(cháng),所以暫定以后臺任務(wù)的方法執行,這就對辨識速率方面要求也比較低(如果要求實(shí)時(shí)返回辨識結果通常辨識速率就要做到秒級)。識別精度和召回率的平衡方面,由于上面有人工校準調整的環(huán)節,所以還是可以適當提升召回率,即使辨識有所偏差也可以通過(guò)人工調整填補。
c)文字辨識:
文字辨識部份相對來(lái)說(shuō)也比較成熟,目前兩大主流技術(shù)是 CRNN OCR 和 attention OCR。在我們的整體流程中,需要對版面辨識后的文字、圖注、表名區域進(jìn)行分別辨識即可。
上邊技術(shù)實(shí)現途徑的督查主要為了證明我們設計的功能是在技術(shù)上可實(shí)現的,避免出現設計出難以實(shí)現的功能的難堪情況。
3. 功能流程
正如前面所說(shuō)的,我們這兒的功能只關(guān)注紙質(zhì)數據救治工作沒(méi)有涉及到數據應用的部份,所以從掃描文件到最后人工調整OCR識別結果,整個(gè)紙質(zhì)數據救治的功能即使完成了。對用戶(hù)來(lái)說(shuō),相較于只掃描文件并保存,多出的操作步驟就是查看辨識結果并調整的部份。
4. 核心頁(yè)面設計
?。∣CR識別結果查看)
?。∣CR識別結果調整)
OCR相關(guān)的兩個(gè)頁(yè)面主要是查看辨識結果和調整辨識結果。查看頁(yè)面主要包括預覽文檔、用線(xiàn)框表示圖表區域和圖表標題、顯示OCR文字辨識結果。點(diǎn)擊【編輯】跳轉到調整頁(yè)面,調整頁(yè)面以每頁(yè)為單位顯示,圖表框可拖放調整、文字變?yōu)榭删庉嫚顟B(tài)。
三、小結
通過(guò)需求剖析我們發(fā)覺(jué)在數據救治中的確存在OCR應用的必要性,然后從技術(shù)實(shí)現的角度進(jìn)行督查驗證需求是否是可實(shí)現的,最后梳理整個(gè)功能流程再加上每位功能點(diǎn)的詳細說(shuō)明/原型設計功能基本就齊活了~ 查看全部
OCR在數據救治中的應用設計
OCR是通過(guò)算法辨識出圖象中的文字內容,算是圖象辨識的一個(gè)分支。但是在數據管理救治上,也十分實(shí)用。本文作者對具體的實(shí)現途徑展開(kāi)了梳理總結,并對過(guò)程中存在的問(wèn)題進(jìn)行了剖析,與你們分享。

一、服務(wù)于業(yè)務(wù):數據救治的疼點(diǎn)在哪?
大數據工程的第一步是獲得數據,而傳統行業(yè)、政府機構、科研院所中有大量的存量數據,數據救治就是把這種數據數字化,一是防止數據流失,二是提升借助價(jià)值。而存量數據中包括大量珍稀的紙質(zhì)數據,比如天文地理水文檢測數據、試驗數據、政府公文、古舊書(shū)籍等等。
紙質(zhì)數據怎么救治?這步很簡(jiǎn)單,基本解決方式就是先掃描成電子版進(jìn)行儲存。但光是掃描儲存就夠了嗎?我認為是不夠的。
像前面所說(shuō)的,數據救治的目的一是防止數據流失,二是提升借助價(jià)值,掃描儲存僅僅解決了第一個(gè)問(wèn)題防止數據流失,但并沒(méi)有挺好的增強數據的借助價(jià)值。紙質(zhì)數據的價(jià)值大部分在于文檔的內容,僅僅把紙質(zhì)文檔電子化一直不能對內容進(jìn)行進(jìn)一步的檢索、分析。
所以我們把產(chǎn)品的目標聚焦在了“提高數據利用率”上。接下來(lái)就是對目標進(jìn)行細化拆解。關(guān)于怎么提升利用率,也就是數據怎么應用,我是這樣思索的,一是從大數據角度看,如何借助統計剖析等手段增強數據整體的價(jià)值;二是從單份文檔角度方面看,如何使單份文檔更有價(jià)值,讓有興趣的用戶(hù)更容易找到它,讓用戶(hù)找到這份文檔后能快速了解其內容。
通過(guò)上面的剖析,單份數據借助的方法基本確定為【全文檢索】和【內容剖析】,而這兩種借助方式都須要對紙質(zhì)文檔中的文字進(jìn)一步進(jìn)行處理,這就須要我們數據救治的好伙伴:OCR出場(chǎng)了。
二、功能設計1. 業(yè)務(wù)場(chǎng)景
小李所在的單位有大量多年積累出來(lái)的文書(shū),有些年代久遠的早已出現了損壞丟失的情況,借著(zhù)大數據工程建設的抓手,單位決定舉辦歷史數據救治工作。
工作的第一步就是整理文書(shū)文檔,然后掃描電子化,每掃描完一份文件小李就在頁(yè)面上預覽確認沒(méi)有問(wèn)題后遞交,之后系統對文檔進(jìn)行OCR識別,識別完成后小李在頁(yè)面上可以預覽查看辨識結果,發(fā)現位置辨識不準或則文字辨識有誤可以進(jìn)行調整,最后保存調整結果即可。
小李辛辛苦苦做完的工作彰顯在哪兒呢?
同事小陳近來(lái)做的一項工作須要查閱以往數據A的相關(guān)記錄,小陳登入系統直接搜索“數據A”,搜索結果顯示了所以收錄“數據A”的文檔。小陳依次點(diǎn)擊搜索結果就可以查看文檔的摘要和關(guān)鍵詞,從而判定該文檔是否對他有用。
大概業(yè)務(wù)的流程就是右圖這樣,我們這篇主要介紹小李的工作部份。

2. 實(shí)現途徑
?。?)數據采集
數據采集主要依賴(lài)于掃描紙質(zhì)文檔的掃描儀,所以這一部分是一要考慮掃描儀本身的性能,二要考慮掃描儀與整個(gè)系統的集成。
考慮到紙質(zhì)數據量大、裝訂形式多樣的特性,掃描儀最好滿(mǎn)足快速掃描、不拆書(shū)、盡量自動(dòng)化的要求。調研了市面上成熟的商用掃描儀,符合要求的掃描儀大約有幾類(lèi):
專(zhuān)門(mén)用于古籍掃描的全手動(dòng)翻書(shū)掃描儀,就一個(gè)缺點(diǎn),太貴(140-180w)需要手工翻頁(yè),但不用拆書(shū)的高速掃描儀,這類(lèi)掃描儀選擇比較多,成本也可以接受最后一種選擇,非常有趣,是google books的開(kāi)源手動(dòng)掃描儀方案,需要自行組裝,有興趣的同學(xué)可以了解一下()
系統與掃描儀集成方面,就涉及到掃描好的文件如何儲存到系統?大概有兩種方案:
1)我們平常用的掃描儀,一般是聯(lián)接筆記本(客戶(hù)端),把掃描好的文件存在本地,然后由用戶(hù)把文件自動(dòng)上傳系統

2)網(wǎng)絡(luò )掃描儀直接通過(guò)局域網(wǎng)聯(lián)接服務(wù)器,掃描好的文件直接儲存在服務(wù)器指定位置。這種網(wǎng)路掃描儀的方案須要掃描儀支持TWAIN或則其他SDK、api,好處是多個(gè)用戶(hù)可以共用掃描儀,操作步驟也要簡(jiǎn)化好多

結合掃描儀性能、系統集成和成本角度考慮,我們選擇了一款支持TWAIN插口的自動(dòng)翻頁(yè)掃描儀作為數據救治系統中硬件支撐。
?。?) OCR識別
首先我們須要對OCR的算法有個(gè)大約的了解,可以參考OCR在資產(chǎn)管理系統的應用。

用于數據救治的OCR和用于資產(chǎn)標簽辨識的OCR還是有一點(diǎn)區別的,資產(chǎn)標簽辨識中的辨識對象是【自然環(huán)境】中的【印刷文字】,而數據救治對象是【文檔圖片】中的【印刷文字】。
但總體來(lái)說(shuō)處理的流程還是預處理-文字檢查-文字辨識,只不過(guò)對紙質(zhì)文檔中復雜的排版(圖片、表格、文字、頁(yè)碼、公式混排等等)的文字檢查換了種說(shuō)法稱(chēng)作版面剖析(layout analysis),做的事情還是差不多的,除了負責檢查出文字的位置外,也要同時(shí)確圖表等其他要素的位置。

1)預處理:
預處理的目的主要是提升圖象質(zhì)量,一般用傳統的圖象處理手段就可以完成,現在好多掃描儀也會(huì )把這部份做在里面,比如手動(dòng)糾偏、去黑邊等,如果可以滿(mǎn)足要求,預處理部份置于數據采集時(shí)由掃描儀完成也是可以的。
2)版面剖析:

先看下直觀(guān)的看下版面剖析的預期療效。關(guān)于版面剖析這塊我們須要確認的事情主要有3件:一是測量的目標有什么,二是目前算法的成熟度,三是性能方面的要求有什么。
確定測量對象:畢竟版面剖析是個(gè)測量問(wèn)題,和測量圖片中的狗貓沒(méi)有本質(zhì)區別,所以我們要先確定版面剖析須要辨識哪些東西。在數據救治中我們關(guān)心哪些呢?首先文字是最重要的,第二為了定位圖片和表格,我們也須要圖片、表格的位置以及圖注、表名,有了這種信息就可以產(chǎn)生類(lèi)似索引目錄,方便查找。所以初步確定,版面辨識須要辨識出文字、圖片、表格、圖注、表名五類(lèi)對象。
算法成熟度:雖然傳統的圖象辨識也可以實(shí)現簡(jiǎn)單的版面剖析任務(wù),但對上圖這些特別復雜的版面剖析經(jīng)過(guò)督查比較靠譜的方式還是上深度學(xué)習??梢宰霭婷嫫饰龅纳疃葘W(xué)習算法主要是圖象檢查一系列的,比如yolo、fastRCNN,這篇文章中的大鱷是用MaskRCNN實(shí)現的。所以版面剖析問(wèn)題早已有不少研究基礎了,但實(shí)際落地的應用可能還不是好多,其中須要優(yōu)化的工作肯定還有不少。
性能要求:算法的選擇其實(shí)要考慮實(shí)際中對硬件性能、識別速率、識別精度、召回率的要求。
用在我們數據救治中,首先系統是采用B/S架構,在服務(wù)器完成辨識任務(wù),所以沒(méi)有特殊硬件要求(如果是在端上實(shí)現就要考慮硬件對算法限制了)。識別速率方面,目前考慮到一份紙質(zhì)數據可能有成百上千頁(yè),所以辨識時(shí)間會(huì )比較長(cháng),所以暫定以后臺任務(wù)的方法執行,這就對辨識速率方面要求也比較低(如果要求實(shí)時(shí)返回辨識結果通常辨識速率就要做到秒級)。識別精度和召回率的平衡方面,由于上面有人工校準調整的環(huán)節,所以還是可以適當提升召回率,即使辨識有所偏差也可以通過(guò)人工調整填補。
c)文字辨識:
文字辨識部份相對來(lái)說(shuō)也比較成熟,目前兩大主流技術(shù)是 CRNN OCR 和 attention OCR。在我們的整體流程中,需要對版面辨識后的文字、圖注、表名區域進(jìn)行分別辨識即可。
上邊技術(shù)實(shí)現途徑的督查主要為了證明我們設計的功能是在技術(shù)上可實(shí)現的,避免出現設計出難以實(shí)現的功能的難堪情況。
3. 功能流程

正如前面所說(shuō)的,我們這兒的功能只關(guān)注紙質(zhì)數據救治工作沒(méi)有涉及到數據應用的部份,所以從掃描文件到最后人工調整OCR識別結果,整個(gè)紙質(zhì)數據救治的功能即使完成了。對用戶(hù)來(lái)說(shuō),相較于只掃描文件并保存,多出的操作步驟就是查看辨識結果并調整的部份。
4. 核心頁(yè)面設計

?。∣CR識別結果查看)

?。∣CR識別結果調整)
OCR相關(guān)的兩個(gè)頁(yè)面主要是查看辨識結果和調整辨識結果。查看頁(yè)面主要包括預覽文檔、用線(xiàn)框表示圖表區域和圖表標題、顯示OCR文字辨識結果。點(diǎn)擊【編輯】跳轉到調整頁(yè)面,調整頁(yè)面以每頁(yè)為單位顯示,圖表框可拖放調整、文字變?yōu)榭删庉嫚顟B(tài)。
三、小結
通過(guò)需求剖析我們發(fā)覺(jué)在數據救治中的確存在OCR應用的必要性,然后從技術(shù)實(shí)現的角度進(jìn)行督查驗證需求是否是可實(shí)現的,最后梳理整個(gè)功能流程再加上每位功能點(diǎn)的詳細說(shuō)明/原型設計功能基本就齊活了~
地址(URL)中收錄關(guān)鍵詞對排行的影響,如何在url設置關(guān)鍵詞
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 273 次瀏覽 ? 2020-08-24 18:22
在一個(gè)頁(yè)面中地址中出現了要搜索的關(guān)鍵詞,對于排行是很重要的,因為這標志著(zhù)這個(gè)頁(yè)面和這個(gè)關(guān)鍵詞的相關(guān)程度,所以在seoer優(yōu)化關(guān)鍵詞的時(shí)侯都想辦法在url中出現關(guān)鍵詞,我們都曉得網(wǎng)頁(yè)的地址都是中文字符,如果優(yōu)化英語(yǔ)詞組那當然很簡(jiǎn)單了,直接把文件名改成須要優(yōu)化的關(guān)鍵詞就可以了,但是我們優(yōu)化的漢字,如何來(lái)做到這一點(diǎn)呢。
其實(shí)我們用傳值是可以做到的,下面看一下事例:
這是一個(gè)htm頁(yè),這個(gè)頁(yè)面的名子就叫戶(hù)外用具,竟然有這們的先例了,說(shuō)明我們還是可以做到的,為了做這個(gè)實(shí)驗,我前兩天做了這樣一個(gè)事例,做的是asp基礎教程這個(gè)詞。
沒(méi)過(guò)多久,百度收錄了,而且還通過(guò)這個(gè)詞帶來(lái)了ip,我去搜索了一下,看到的療效如圖:
顯然我這個(gè)實(shí)驗是成功的,那么我是怎樣在url中加上關(guān)鍵詞的呢,其實(shí)很簡(jiǎn)單,我們在傳值的時(shí)侯只須要把編碼轉化成gb2312的就可以了,在asp中這個(gè)有點(diǎn)難度,具體方式可以去網(wǎng)上查一下,如果你實(shí)在找不到辦法可以把關(guān)鍵詞放在百度上搜索一下,然后把參數前面的值拷貝出來(lái)當作自己的參數,這樣在百度收錄的時(shí)侯就可以轉化成相應的漢字了,如我這個(gè)地址打開(kāi)是這樣的:
%BB%F9%B4%A1%BD%CC%B3%CC
而我們一般用的escape和encodeURIComponent所轉化的地址是這樣的
%u57FA%u7840%u6559%u7A0B
后者在搜索引擎里是難以轉化為漢字的,需要我們要想辦法改成上面傳值的方式。
在中想要得到這些傳值很簡(jiǎn)單,代碼如下:
System.Web.HttpUtility.UrlEncode(需要加密的變量, System.Text.Encoding.GetEncoding("GB2312"));
只須要這樣加密,得到的編碼就是百度可以辨識的了。 查看全部
地址(URL)中收錄關(guān)鍵詞對排行的影響,如何在url設置關(guān)鍵詞
在一個(gè)頁(yè)面中地址中出現了要搜索的關(guān)鍵詞,對于排行是很重要的,因為這標志著(zhù)這個(gè)頁(yè)面和這個(gè)關(guān)鍵詞的相關(guān)程度,所以在seoer優(yōu)化關(guān)鍵詞的時(shí)侯都想辦法在url中出現關(guān)鍵詞,我們都曉得網(wǎng)頁(yè)的地址都是中文字符,如果優(yōu)化英語(yǔ)詞組那當然很簡(jiǎn)單了,直接把文件名改成須要優(yōu)化的關(guān)鍵詞就可以了,但是我們優(yōu)化的漢字,如何來(lái)做到這一點(diǎn)呢。
其實(shí)我們用傳值是可以做到的,下面看一下事例:

這是一個(gè)htm頁(yè),這個(gè)頁(yè)面的名子就叫戶(hù)外用具,竟然有這們的先例了,說(shuō)明我們還是可以做到的,為了做這個(gè)實(shí)驗,我前兩天做了這樣一個(gè)事例,做的是asp基礎教程這個(gè)詞。
沒(méi)過(guò)多久,百度收錄了,而且還通過(guò)這個(gè)詞帶來(lái)了ip,我去搜索了一下,看到的療效如圖:

顯然我這個(gè)實(shí)驗是成功的,那么我是怎樣在url中加上關(guān)鍵詞的呢,其實(shí)很簡(jiǎn)單,我們在傳值的時(shí)侯只須要把編碼轉化成gb2312的就可以了,在asp中這個(gè)有點(diǎn)難度,具體方式可以去網(wǎng)上查一下,如果你實(shí)在找不到辦法可以把關(guān)鍵詞放在百度上搜索一下,然后把參數前面的值拷貝出來(lái)當作自己的參數,這樣在百度收錄的時(shí)侯就可以轉化成相應的漢字了,如我這個(gè)地址打開(kāi)是這樣的:
%BB%F9%B4%A1%BD%CC%B3%CC
而我們一般用的escape和encodeURIComponent所轉化的地址是這樣的
%u57FA%u7840%u6559%u7A0B
后者在搜索引擎里是難以轉化為漢字的,需要我們要想辦法改成上面傳值的方式。
在中想要得到這些傳值很簡(jiǎn)單,代碼如下:
System.Web.HttpUtility.UrlEncode(需要加密的變量, System.Text.Encoding.GetEncoding("GB2312"));
只須要這樣加密,得到的編碼就是百度可以辨識的了。
POC-T框架學(xué)習————4、腳本擴充與第三方搜索引擎
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 140 次瀏覽 ? 2020-08-21 22:23
工具說(shuō)明
urlparser.py
URL處理工具,可對采集到的零亂URL進(jìn)行低格/自動(dòng)生成等
useragent.py
User-Agent處理工具,支持隨機化UA以繞開(kāi)防御規則
extracts.py
正則提取工具,從采集到的零亂文本中篩選IP地址
static.py
存儲靜態(tài)資源,如常見(jiàn)端口號等
util.py
常用函數,處理隨機值/MD5/302跳轉/格式轉換等
cloudeye.py
cloudeye.me功能插口,在PoC中查詢(xún)DNS和HTTP日志
本工具擬支持主流空間搜索引擎的API,目前已完成ZoomEye/Shodan/Google的集成。您可以通過(guò)簡(jiǎn)單的參數調用直接從搜索引擎中直接獲取目標,并結合本地腳本進(jìn)行掃描。
預配置(可選)
由于第三方插口須要認證,您可以在根目錄下的tookit.conf配置文件中預先設置好您的API-KEY。
如無(wú)預配置,程序將在運行時(shí)提示您輸入API-KEY。 關(guān)于各插口A(yíng)PI-KEY的獲取方式,請參考下文中引入的官方文檔。
ZoomEye
以下命令表示使用ZoomEye插口,搜索全網(wǎng)中開(kāi)啟8080號端口的服務(wù),并使用test.py腳本進(jìn)行驗證.
設置采集100個(gè)搜索結果,搜索結果將存入本地./data/zoomeye文件夾下。
python POC-T.py -s test -aZ "port:8080" --limit 100
ZoomEye現已開(kāi)放注冊,普通用戶(hù)每月可以通過(guò)API下載5000頁(yè)的搜索結果。
ZoomEye參考文檔:
Shodan
以下命令表示使用Shodan插口,搜索全網(wǎng)中關(guān)鍵字為solr,國家為cn的服務(wù),并使用solr-unauth腳本進(jìn)行漏洞驗證.
設置從第0條記錄為起點(diǎn),爬取10條記錄,搜索結果將存入本地./data/shodan文件夾下.
python POC-T.py -s solr-unauth -aS "solr country:cn" --limit 10 --offset 0
Shodan-API接口使用限制及詳盡功能,可參考官方文檔.
本程序使用Google Custom Search API對結果進(jìn)行采集(即常說(shuō)的Google-Hacking)。
以下命令表示獲取Google采集inurl:login.action的結果并批量驗證S2-032漏洞。
python POC-T.py -s s2-032 -aG "inurl:login.action"
可使用--gproxy或則tookit.conf設置代理,代理格式為(sock4|sock5|http) IP PORT,僅支持這三種合同。
例如:
--gproxy "sock5 127.0.0.1 7070"
使用本插口需設定個(gè)人的API-KEY和所使用的自定義搜索引擎,二者均可在toolkit.conf配置。
填寫(xiě)示例
developer_key:AIzaSxxxxxxxxxxxxxxxxxxxxxxxxxxxxx_C1w
search_engine:011385053819762433240:ljmmw2mhhau
developer_key
獲取API-KEY,使用API客戶(hù)端:
Google API Client - Python
search_engine
創(chuàng )建自定義搜索引擎(或直接使用示例中的值):
Google Custom Search API 開(kāi)發(fā)者文檔
參見(jiàn):
%E7%AC%AC%E4%B8%89%E6%96%B9%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E
%E8%84%9A%E6%9C%AC%E6%89%A9%E5%B1%95%E5%B7%A5%E5%85%B7 查看全部
POC-T框架學(xué)習————4、腳本擴充與第三方搜索引擎
工具說(shuō)明
urlparser.py
URL處理工具,可對采集到的零亂URL進(jìn)行低格/自動(dòng)生成等
useragent.py
User-Agent處理工具,支持隨機化UA以繞開(kāi)防御規則
extracts.py
正則提取工具,從采集到的零亂文本中篩選IP地址
static.py
存儲靜態(tài)資源,如常見(jiàn)端口號等
util.py
常用函數,處理隨機值/MD5/302跳轉/格式轉換等
cloudeye.py
cloudeye.me功能插口,在PoC中查詢(xún)DNS和HTTP日志
本工具擬支持主流空間搜索引擎的API,目前已完成ZoomEye/Shodan/Google的集成。您可以通過(guò)簡(jiǎn)單的參數調用直接從搜索引擎中直接獲取目標,并結合本地腳本進(jìn)行掃描。
預配置(可選)
由于第三方插口須要認證,您可以在根目錄下的tookit.conf配置文件中預先設置好您的API-KEY。
如無(wú)預配置,程序將在運行時(shí)提示您輸入API-KEY。 關(guān)于各插口A(yíng)PI-KEY的獲取方式,請參考下文中引入的官方文檔。
ZoomEye
以下命令表示使用ZoomEye插口,搜索全網(wǎng)中開(kāi)啟8080號端口的服務(wù),并使用test.py腳本進(jìn)行驗證.
設置采集100個(gè)搜索結果,搜索結果將存入本地./data/zoomeye文件夾下。
python POC-T.py -s test -aZ "port:8080" --limit 100
ZoomEye現已開(kāi)放注冊,普通用戶(hù)每月可以通過(guò)API下載5000頁(yè)的搜索結果。
ZoomEye參考文檔:
Shodan
以下命令表示使用Shodan插口,搜索全網(wǎng)中關(guān)鍵字為solr,國家為cn的服務(wù),并使用solr-unauth腳本進(jìn)行漏洞驗證.
設置從第0條記錄為起點(diǎn),爬取10條記錄,搜索結果將存入本地./data/shodan文件夾下.
python POC-T.py -s solr-unauth -aS "solr country:cn" --limit 10 --offset 0
Shodan-API接口使用限制及詳盡功能,可參考官方文檔.
本程序使用Google Custom Search API對結果進(jìn)行采集(即常說(shuō)的Google-Hacking)。
以下命令表示獲取Google采集inurl:login.action的結果并批量驗證S2-032漏洞。
python POC-T.py -s s2-032 -aG "inurl:login.action"
可使用--gproxy或則tookit.conf設置代理,代理格式為(sock4|sock5|http) IP PORT,僅支持這三種合同。
例如:
--gproxy "sock5 127.0.0.1 7070"
使用本插口需設定個(gè)人的API-KEY和所使用的自定義搜索引擎,二者均可在toolkit.conf配置。
填寫(xiě)示例
developer_key:AIzaSxxxxxxxxxxxxxxxxxxxxxxxxxxxxx_C1w
search_engine:011385053819762433240:ljmmw2mhhau
developer_key
獲取API-KEY,使用API客戶(hù)端:
Google API Client - Python
search_engine
創(chuàng )建自定義搜索引擎(或直接使用示例中的值):
Google Custom Search API 開(kāi)發(fā)者文檔
參見(jiàn):
%E7%AC%AC%E4%B8%89%E6%96%B9%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E
%E8%84%9A%E6%9C%AC%E6%89%A9%E5%B1%95%E5%B7%A5%E5%85%B7
怎么爬取網(wǎng)路數據
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 316 次瀏覽 ? 2020-08-21 13:06
據賽迪顧問(wèn)統計,在技術(shù)領(lǐng)域中近來(lái)10,000條專(zhuān)利中常見(jiàn)的關(guān)鍵詞中,數據采集、存儲介質(zhì)、海量數據、分布式成為技術(shù)領(lǐng)域最熱詞匯。其中,數據采集是提及最多的詞匯。
數據采集是進(jìn)行大數據剖析的前提也是必要條件,在整個(gè)數據借助流程中搶占重要地位。數據采集方式分為三種:系統日志采集法、網(wǎng)絡(luò )數據采集法以及其他數據采集法。隨著(zhù)Web2.0的發(fā)展,整個(gè)Web系統囊括了大量的價(jià)值化數據,目前針對Web系統的數據采集通常通過(guò)網(wǎng)路爬蟲(chóng)來(lái)實(shí)現,本文將對網(wǎng)路大數據和網(wǎng)路爬蟲(chóng)進(jìn)行系統描述。
什么是網(wǎng)路大數據
網(wǎng)絡(luò )大數據,是指非傳統數據源,例如通過(guò)抓取搜索引擎獲得的不同方式的數據。網(wǎng)絡(luò )大數據也可以是從數據聚合商或搜索引擎網(wǎng)站購買(mǎi)的數據,用于改善目標營(yíng)銷(xiāo)。這種類(lèi)型的數據可以是結構化的,也可以是非結構化的(更有可能的),可以由網(wǎng)路鏈接,文本數據,數據表,圖像,視頻等組成。
網(wǎng)絡(luò )構成了現今提供給我們的大部分數據,根據許多研究可知,非結構化數據搶占了其中的80%。盡管這種方式的數據較早被忽視了,但是競爭激化以及須要更多數據的需求促使必須使用盡可能多的數據源。
網(wǎng)絡(luò )大數據可以拿來(lái)干哪些
互聯(lián)網(wǎng)擁有數十億頁(yè)的數據,網(wǎng)絡(luò )大數據作為潛在的數據來(lái)源,對于行業(yè)的戰略性業(yè)務(wù)發(fā)展來(lái)說(shuō)擁有巨大的借助潛力。
以下舉例說(shuō)明網(wǎng)路大數據在不同行業(yè)的借助價(jià)值:
除此之外,在《How Web Scraping is Transforming the World with its Applications》文章中詳盡得列舉出網(wǎng)路大數據在制造業(yè)、金融研究、風(fēng)險管理等諸多領(lǐng)域的借助價(jià)值。
如何搜集網(wǎng)路數據
目前網(wǎng)路數據采集有兩種方式:一種是API,另一種是網(wǎng)路爬蟲(chóng)法。API又叫應用程序插口,是網(wǎng)站的管理者為了使用者便捷,編寫(xiě)的一種程序插口。目前主流的社交媒體平臺如新浪微博、百度貼吧以及Facebook等均提供API服務(wù),可以在其官網(wǎng)開(kāi)放平臺上獲取相關(guān)DEMO。但是API技術(shù)雖然受限于平臺開(kāi)發(fā)者,為了減少網(wǎng)站(平臺)的負荷,一般平臺均會(huì )對每晚插口調用上限做限制,這給我們帶來(lái)極大的不便利。為此我們一般采用第二種形式——網(wǎng)絡(luò )爬蟲(chóng)。
利用爬蟲(chóng)技術(shù)采集網(wǎng)絡(luò )大數據
網(wǎng)絡(luò )爬蟲(chóng)是指根據一定的規則手動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或則腳本。該方式可以將非結構化數據從網(wǎng)頁(yè)中抽取下來(lái),將其儲存為統一的本地數據文件,并以結構化的形式儲存。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以手動(dòng)關(guān)聯(lián)。
在互聯(lián)網(wǎng)時(shí)代,網(wǎng)絡(luò )爬蟲(chóng)主要是為搜索引擎提供最全面和最新的數據。在大數據時(shí)代,網(wǎng)絡(luò )爬蟲(chóng)更是從互聯(lián)網(wǎng)上采集數據的有利工具。
網(wǎng)絡(luò )爬蟲(chóng)原理
網(wǎng)絡(luò )爬蟲(chóng)是一種根據一定的規則,自動(dòng)地抓取網(wǎng)路信息的程序或則腳本。網(wǎng)絡(luò )爬蟲(chóng)可以手動(dòng)采集所有其才能訪(fǎng)問(wèn)到的頁(yè)面內容,為搜索引擎和大數據剖析提供數據來(lái)源。從功能上來(lái)講,爬蟲(chóng)通常有網(wǎng)路數據采集、處理和儲存 3 部分功能,如圖所示:
網(wǎng)絡(luò )爬蟲(chóng)采集
網(wǎng)絡(luò )爬蟲(chóng)通過(guò)定義采集字段對網(wǎng)頁(yè)中的文本信息、圖片信息等進(jìn)行爬取。并且在網(wǎng)頁(yè)中還收錄一些超鏈接信息,網(wǎng)絡(luò )爬蟲(chóng)系統正是通過(guò)網(wǎng)頁(yè)中的超鏈接信息不斷獲得網(wǎng)路上的其他網(wǎng)頁(yè)。網(wǎng)絡(luò )爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的 URL 開(kāi)始,獲得初始網(wǎng)頁(yè)上的 URL,爬蟲(chóng)將網(wǎng)頁(yè)中所須要提取的資源進(jìn)行提取并保存,同時(shí)提取出網(wǎng)站中存在的其他網(wǎng)站鏈接,經(jīng)過(guò)發(fā)送懇求,接收網(wǎng)站響應以及再度解析頁(yè)面,再將網(wǎng)頁(yè)中所需資源進(jìn)行提取......以此類(lèi)推,通過(guò)網(wǎng)頁(yè)爬蟲(chóng)便可將搜索引擎上的相關(guān)數據完全爬取下來(lái)。
數據處理
數據處理是對數據(包括數值的和非數值的)進(jìn)行剖析和加工的技術(shù)過(guò)程。網(wǎng)絡(luò )爬蟲(chóng)爬取的初始數據是須要“清洗”的,在數據處理步驟,對各類(lèi)原創(chuàng )數據的剖析、整理、計算、編輯等的加工和處理,從大量的、可能是雜亂無(wú)章的、難以理解的數據中抽取并推論出有價(jià)值、有意義的數據。
數據中心
所謂的數據中心也就是數據存儲,是指在獲得所需的數據并將其分解為有用的組件以后,通過(guò)可擴充的方式來(lái)將所有提取和解析的數據儲存在數據庫或集群中,然后創(chuàng )建一個(gè)容許用戶(hù)可及時(shí)查找相關(guān)數據集或提取的功能。
網(wǎng)絡(luò )爬蟲(chóng)工作流程
如下圖所示,網(wǎng)絡(luò )爬蟲(chóng)的基本工作流程如下。首先選定一部分種子 URL。
總結
當前,網(wǎng)絡(luò )大數據在規模與復雜度上的快速下降對現有IT構架的處理和估算能力提出了挑戰,據IDC發(fā)布的研究報告,預計到2020年,網(wǎng)絡(luò )大數據總數將達到35ZB,網(wǎng)絡(luò )大數據將成為行業(yè)數字化、信息化的重要推手。 查看全部
怎么爬取網(wǎng)路數據
據賽迪顧問(wèn)統計,在技術(shù)領(lǐng)域中近來(lái)10,000條專(zhuān)利中常見(jiàn)的關(guān)鍵詞中,數據采集、存儲介質(zhì)、海量數據、分布式成為技術(shù)領(lǐng)域最熱詞匯。其中,數據采集是提及最多的詞匯。

數據采集是進(jìn)行大數據剖析的前提也是必要條件,在整個(gè)數據借助流程中搶占重要地位。數據采集方式分為三種:系統日志采集法、網(wǎng)絡(luò )數據采集法以及其他數據采集法。隨著(zhù)Web2.0的發(fā)展,整個(gè)Web系統囊括了大量的價(jià)值化數據,目前針對Web系統的數據采集通常通過(guò)網(wǎng)路爬蟲(chóng)來(lái)實(shí)現,本文將對網(wǎng)路大數據和網(wǎng)路爬蟲(chóng)進(jìn)行系統描述。
什么是網(wǎng)路大數據
網(wǎng)絡(luò )大數據,是指非傳統數據源,例如通過(guò)抓取搜索引擎獲得的不同方式的數據。網(wǎng)絡(luò )大數據也可以是從數據聚合商或搜索引擎網(wǎng)站購買(mǎi)的數據,用于改善目標營(yíng)銷(xiāo)。這種類(lèi)型的數據可以是結構化的,也可以是非結構化的(更有可能的),可以由網(wǎng)路鏈接,文本數據,數據表,圖像,視頻等組成。
網(wǎng)絡(luò )構成了現今提供給我們的大部分數據,根據許多研究可知,非結構化數據搶占了其中的80%。盡管這種方式的數據較早被忽視了,但是競爭激化以及須要更多數據的需求促使必須使用盡可能多的數據源。
網(wǎng)絡(luò )大數據可以拿來(lái)干哪些
互聯(lián)網(wǎng)擁有數十億頁(yè)的數據,網(wǎng)絡(luò )大數據作為潛在的數據來(lái)源,對于行業(yè)的戰略性業(yè)務(wù)發(fā)展來(lái)說(shuō)擁有巨大的借助潛力。
以下舉例說(shuō)明網(wǎng)路大數據在不同行業(yè)的借助價(jià)值:

除此之外,在《How Web Scraping is Transforming the World with its Applications》文章中詳盡得列舉出網(wǎng)路大數據在制造業(yè)、金融研究、風(fēng)險管理等諸多領(lǐng)域的借助價(jià)值。
如何搜集網(wǎng)路數據
目前網(wǎng)路數據采集有兩種方式:一種是API,另一種是網(wǎng)路爬蟲(chóng)法。API又叫應用程序插口,是網(wǎng)站的管理者為了使用者便捷,編寫(xiě)的一種程序插口。目前主流的社交媒體平臺如新浪微博、百度貼吧以及Facebook等均提供API服務(wù),可以在其官網(wǎng)開(kāi)放平臺上獲取相關(guān)DEMO。但是API技術(shù)雖然受限于平臺開(kāi)發(fā)者,為了減少網(wǎng)站(平臺)的負荷,一般平臺均會(huì )對每晚插口調用上限做限制,這給我們帶來(lái)極大的不便利。為此我們一般采用第二種形式——網(wǎng)絡(luò )爬蟲(chóng)。
利用爬蟲(chóng)技術(shù)采集網(wǎng)絡(luò )大數據
網(wǎng)絡(luò )爬蟲(chóng)是指根據一定的規則手動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或則腳本。該方式可以將非結構化數據從網(wǎng)頁(yè)中抽取下來(lái),將其儲存為統一的本地數據文件,并以結構化的形式儲存。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以手動(dòng)關(guān)聯(lián)。
在互聯(lián)網(wǎng)時(shí)代,網(wǎng)絡(luò )爬蟲(chóng)主要是為搜索引擎提供最全面和最新的數據。在大數據時(shí)代,網(wǎng)絡(luò )爬蟲(chóng)更是從互聯(lián)網(wǎng)上采集數據的有利工具。
網(wǎng)絡(luò )爬蟲(chóng)原理
網(wǎng)絡(luò )爬蟲(chóng)是一種根據一定的規則,自動(dòng)地抓取網(wǎng)路信息的程序或則腳本。網(wǎng)絡(luò )爬蟲(chóng)可以手動(dòng)采集所有其才能訪(fǎng)問(wèn)到的頁(yè)面內容,為搜索引擎和大數據剖析提供數據來(lái)源。從功能上來(lái)講,爬蟲(chóng)通常有網(wǎng)路數據采集、處理和儲存 3 部分功能,如圖所示:

網(wǎng)絡(luò )爬蟲(chóng)采集
網(wǎng)絡(luò )爬蟲(chóng)通過(guò)定義采集字段對網(wǎng)頁(yè)中的文本信息、圖片信息等進(jìn)行爬取。并且在網(wǎng)頁(yè)中還收錄一些超鏈接信息,網(wǎng)絡(luò )爬蟲(chóng)系統正是通過(guò)網(wǎng)頁(yè)中的超鏈接信息不斷獲得網(wǎng)路上的其他網(wǎng)頁(yè)。網(wǎng)絡(luò )爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的 URL 開(kāi)始,獲得初始網(wǎng)頁(yè)上的 URL,爬蟲(chóng)將網(wǎng)頁(yè)中所須要提取的資源進(jìn)行提取并保存,同時(shí)提取出網(wǎng)站中存在的其他網(wǎng)站鏈接,經(jīng)過(guò)發(fā)送懇求,接收網(wǎng)站響應以及再度解析頁(yè)面,再將網(wǎng)頁(yè)中所需資源進(jìn)行提取......以此類(lèi)推,通過(guò)網(wǎng)頁(yè)爬蟲(chóng)便可將搜索引擎上的相關(guān)數據完全爬取下來(lái)。
數據處理
數據處理是對數據(包括數值的和非數值的)進(jìn)行剖析和加工的技術(shù)過(guò)程。網(wǎng)絡(luò )爬蟲(chóng)爬取的初始數據是須要“清洗”的,在數據處理步驟,對各類(lèi)原創(chuàng )數據的剖析、整理、計算、編輯等的加工和處理,從大量的、可能是雜亂無(wú)章的、難以理解的數據中抽取并推論出有價(jià)值、有意義的數據。
數據中心
所謂的數據中心也就是數據存儲,是指在獲得所需的數據并將其分解為有用的組件以后,通過(guò)可擴充的方式來(lái)將所有提取和解析的數據儲存在數據庫或集群中,然后創(chuàng )建一個(gè)容許用戶(hù)可及時(shí)查找相關(guān)數據集或提取的功能。
網(wǎng)絡(luò )爬蟲(chóng)工作流程
如下圖所示,網(wǎng)絡(luò )爬蟲(chóng)的基本工作流程如下。首先選定一部分種子 URL。

總結
當前,網(wǎng)絡(luò )大數據在規模與復雜度上的快速下降對現有IT構架的處理和估算能力提出了挑戰,據IDC發(fā)布的研究報告,預計到2020年,網(wǎng)絡(luò )大數據總數將達到35ZB,網(wǎng)絡(luò )大數據將成為行業(yè)數字化、信息化的重要推手。
基于興趣輕博客網(wǎng)站拓撲特點(diǎn)剖析.doc 6頁(yè)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 135 次瀏覽 ? 2020-08-20 23:15
基于興趣輕博客網(wǎng)站拓撲特點(diǎn)剖析 摘要:為了了解新型在線(xiàn)社會(huì )網(wǎng)路——輕博客網(wǎng)站的拓撲特點(diǎn),該文以國外最大的輕博客網(wǎng)站——點(diǎn)點(diǎn)網(wǎng)為研究對象,根據用戶(hù)間興趣關(guān)系建立興趣網(wǎng)路,從小世界效應、無(wú)標度特點(diǎn)和中心度等角度對該網(wǎng)路進(jìn)行了實(shí)證剖析,為進(jìn)一步認識和研究輕博客網(wǎng)站奠定了基礎。 關(guān)鍵詞:輕博客;社會(huì )網(wǎng)路剖析;復雜網(wǎng)路;拓撲特點(diǎn);中心性 中圖分類(lèi)號:TP393 文獻標識碼:A 文章編號:1009-3044(2013)22-5033-04 根據Garry Tan 2013年一月的調查報告表明,2007創(chuàng )立的輕博客網(wǎng)站Tumblr早已趕超Facebook,成為日本年輕人訪(fǎng)問(wèn)最多的社交網(wǎng)站[1]。隨著(zhù)Tumblr的迅速崛起,國內也出現了各類(lèi)類(lèi)Tumblr的網(wǎng)站。2011年,許朝軍創(chuàng )立了點(diǎn)點(diǎn)網(wǎng),此后新浪Qing網(wǎng),網(wǎng)易的lofter、人人網(wǎng)的人人小站、盛大推他等一批Tumblr的追隨者都朝著(zhù)輕博客的方向大步前進(jìn)。輕博客這些新型的在線(xiàn)社會(huì )網(wǎng)路(Online Social Network, 簡(jiǎn)稱(chēng)OSN)極可能迎來(lái)一個(gè)高速發(fā)展期。同時(shí),輕博客在中國還是一個(gè)新生事物,國內尚未見(jiàn)相關(guān)研究。因此,結合社會(huì )網(wǎng)路剖析和復雜網(wǎng)路理論,研究輕博客網(wǎng)站的拓撲特點(diǎn),不僅能建立國內外對OSN拓撲特點(diǎn)的理論探求,而且有助于了解輕博客中人際關(guān)系和信息傳播的特點(diǎn),同時(shí)也對實(shí)現輕博客輿論的檢測、引導、控制等提供重要根據和基礎。
1 點(diǎn)點(diǎn)網(wǎng)的數據采集 本文選定國外典型的輕博客網(wǎng)站——點(diǎn)點(diǎn)網(wǎng)作為研究對象,這是因為相比其他,被稱(chēng)為“Tumblr中文版”的點(diǎn)點(diǎn)網(wǎng)是最純粹的輕博客,其網(wǎng)路結構特點(diǎn)具有太強的代表性。 1.1面向點(diǎn)點(diǎn)網(wǎng)的網(wǎng)路爬蟲(chóng) 采集網(wǎng)站數據的方式有基于A(yíng)PI的數據采集和基于網(wǎng)路爬蟲(chóng)的數據采集。通過(guò)調用網(wǎng)站提供的API接口可以實(shí)現網(wǎng)站數據的方便抓取與解析,但也要注意:一是API內容開(kāi)放不全面,例如點(diǎn)點(diǎn)網(wǎng)API是在2011年12月才對外開(kāi)放,API的種類(lèi)也極少,目前不到30個(gè);二是API服務(wù)商對用戶(hù)的API接口調用頻度與查詢(xún)的返回結果的最大數目有限制,點(diǎn)點(diǎn)網(wǎng)就規定查詢(xún)的返回結果不超過(guò)20個(gè);三是使用API接口須要解決用戶(hù)認證問(wèn)題,如果待獲取用戶(hù)條目太多則會(huì )占用大量系統開(kāi)支等待用戶(hù)授權許可。因此,該文在開(kāi)源軟件Heritrix的基礎上,采用基于網(wǎng)路爬蟲(chóng)的數據采集技術(shù)來(lái)獲取點(diǎn)點(diǎn)網(wǎng)的數據。 從圖1可以發(fā)覺(jué),點(diǎn)點(diǎn)網(wǎng)在整篇輕博文下邊都有“熱度”,標注喜歡、轉載和推薦該文的用戶(hù)列表。查看源碼,發(fā)現“熱度”是一個(gè)內嵌網(wǎng)頁(yè),頁(yè)面源碼中內容比較少,更多的內容實(shí)際上是采用AJAX(Asynchronous Javascript and XML)技術(shù)[2]加載下來(lái)的。
如果直接用Heritirx原有的抓取方式,抓取不到真正的用戶(hù)列表。所以,必須對Heritirx的Extracotr類(lèi)進(jìn)行擴充,擴展后的新類(lèi)DiandianExtractor重載extract方式,在抓取頁(yè)面、抽取鏈接的時(shí)侯,直接對“熱度”部分進(jìn)行剖析,通過(guò)Selenium WebDriver API驅動(dòng)瀏覽器內核PhantomJS,模擬瀏覽器獲取AJAX內容,得到和頁(yè)面呈現一致的頁(yè)面內容,再通過(guò)Jsoup解析頁(yè)面內容,并把剖析結果存到MYSQL數據庫里。至此,AJAX頁(yè)面采集問(wèn)題得到真正解決。 1.2 數據集 據點(diǎn)點(diǎn)網(wǎng)自身統計數據顯示,目前點(diǎn)點(diǎn)網(wǎng)注冊用戶(hù)數早已達到1919萬(wàn),帖子數達到3547萬(wàn),數據采集量非常龐大且處于動(dòng)態(tài)變化之中,要獲取整個(gè)網(wǎng)路的拓撲數據非常困難,因此本文采用滾雪球采樣法,依據“興趣標簽”,隨機選擇兩個(gè)標簽下邊的“杰出輕博客”的某篇輕博文作為種子,利用點(diǎn)點(diǎn)網(wǎng)用戶(hù)之間的興趣關(guān)系進(jìn)行廣度優(yōu)先搜索。搜索頁(yè)面的URL富含“post/”和“n/common/comment”,前一種頁(yè)面主要由某用戶(hù)發(fā)表的所有博文組成;后一種頁(yè)面包括所有“喜歡”、“轉載”、“推薦”該用戶(hù)博文的其他用戶(hù)列表。
數據采集器最終抓取逾600萬(wàn)頁(yè)面,總容量接近60G。通過(guò)對這逾600萬(wàn)頁(yè)面信息的實(shí)時(shí)抽取,共1898356條記錄儲存到MySQL數據庫里。其中,數據表結構包括id、username(用戶(hù)名)、inname(鏈入用戶(hù)名)、type(鏈入用戶(hù)是哪種類(lèi)型用戶(hù):喜歡、轉載還是推薦)、link(該記錄從那個(gè)鏈接得來(lái)的)。經(jīng)過(guò)去重(從數據表中刪掉username和inname都相同的記錄),得到825057條可用記錄用于后續網(wǎng)路拓撲檢測。 2 點(diǎn)點(diǎn)網(wǎng)的拓撲特點(diǎn) 2.1網(wǎng)路拓撲檢測 3 結論 本文選定國外最大的輕博客平臺——點(diǎn)點(diǎn)網(wǎng)作為研究對象,根據采集下來(lái)的點(diǎn)點(diǎn)網(wǎng)樣本數據,構造一個(gè)基于“發(fā)文←喜歡、轉載和推薦”互動(dòng)的興趣關(guān)系網(wǎng)路。通過(guò)開(kāi)源工具Pajek統計點(diǎn)點(diǎn)網(wǎng)的拓撲特點(diǎn),如平均路徑寬度、聚集系數、出入度分布、連接度相關(guān)性及中心性等,發(fā)現點(diǎn)點(diǎn)網(wǎng)存在小世界效應和無(wú)標度特點(diǎn),網(wǎng)絡(luò )中存在中心節點(diǎn),即少量用戶(hù)在信息發(fā)布和傳播中起著(zhù)至關(guān)重要的作用,這為進(jìn)一步研究輕博客的人際關(guān)系和信息傳播特點(diǎn)奠定了基礎。 參考文獻: [1] 果子. 影子大亨Tumblr的成功之道 [EB/OL]. [2013-02-21]. http:///p/201458.html?ref=weixin0222m. [2] 羅兵.支持AJAX的互聯(lián)網(wǎng)搜索引擎爬蟲(chóng)設計與實(shí)現[D].杭州:浙江大學(xué),2007:14-40. [3] Alan Mislove, Massimiliano Marcon, Krishna P.Gummadi. Measurement and Analysis of Online Social Networks[C]// IMC'07: Proceedings of the 7th ACM SIGCOMM Conference on Internet Measurement. New York: ACM Press, 2007: 29-42. [4] Feng Fu,Lianghuan Liu,Long Wang.Empirical analysis of online social networks in the age of Web 2.0[J]. Physica A, 2008(387):675–684. [5] 樊鵬翼,王暉,姜志宏,等.微博網(wǎng)路檢測研究[J].計算機研究與發(fā)展, 2012,49(4):691-699. [6] Albert R, Barabasi A L.Statistical mechanics of complex networks[J]. Reviews of Modern Physics, 2002, 74(1):47-97. [7] Wilson C,Boe B,Sala A,et a1.User interactions in social networks and their implications[C]//Proceedings of the 4th ACM European Conference on Computer Systems.New York:ACM, 2009:205-218. [8] 陳靜,孫林夫.復雜網(wǎng)路中節點(diǎn)重要度評估[J].西南交通大學(xué)學(xué)報,2009,44(3):426-429. 查看全部
基于興趣輕博客網(wǎng)站拓撲特點(diǎn)剖析.doc 6頁(yè)
基于興趣輕博客網(wǎng)站拓撲特點(diǎn)剖析 摘要:為了了解新型在線(xiàn)社會(huì )網(wǎng)路——輕博客網(wǎng)站的拓撲特點(diǎn),該文以國外最大的輕博客網(wǎng)站——點(diǎn)點(diǎn)網(wǎng)為研究對象,根據用戶(hù)間興趣關(guān)系建立興趣網(wǎng)路,從小世界效應、無(wú)標度特點(diǎn)和中心度等角度對該網(wǎng)路進(jìn)行了實(shí)證剖析,為進(jìn)一步認識和研究輕博客網(wǎng)站奠定了基礎。 關(guān)鍵詞:輕博客;社會(huì )網(wǎng)路剖析;復雜網(wǎng)路;拓撲特點(diǎn);中心性 中圖分類(lèi)號:TP393 文獻標識碼:A 文章編號:1009-3044(2013)22-5033-04 根據Garry Tan 2013年一月的調查報告表明,2007創(chuàng )立的輕博客網(wǎng)站Tumblr早已趕超Facebook,成為日本年輕人訪(fǎng)問(wèn)最多的社交網(wǎng)站[1]。隨著(zhù)Tumblr的迅速崛起,國內也出現了各類(lèi)類(lèi)Tumblr的網(wǎng)站。2011年,許朝軍創(chuàng )立了點(diǎn)點(diǎn)網(wǎng),此后新浪Qing網(wǎng),網(wǎng)易的lofter、人人網(wǎng)的人人小站、盛大推他等一批Tumblr的追隨者都朝著(zhù)輕博客的方向大步前進(jìn)。輕博客這些新型的在線(xiàn)社會(huì )網(wǎng)路(Online Social Network, 簡(jiǎn)稱(chēng)OSN)極可能迎來(lái)一個(gè)高速發(fā)展期。同時(shí),輕博客在中國還是一個(gè)新生事物,國內尚未見(jiàn)相關(guān)研究。因此,結合社會(huì )網(wǎng)路剖析和復雜網(wǎng)路理論,研究輕博客網(wǎng)站的拓撲特點(diǎn),不僅能建立國內外對OSN拓撲特點(diǎn)的理論探求,而且有助于了解輕博客中人際關(guān)系和信息傳播的特點(diǎn),同時(shí)也對實(shí)現輕博客輿論的檢測、引導、控制等提供重要根據和基礎。
1 點(diǎn)點(diǎn)網(wǎng)的數據采集 本文選定國外典型的輕博客網(wǎng)站——點(diǎn)點(diǎn)網(wǎng)作為研究對象,這是因為相比其他,被稱(chēng)為“Tumblr中文版”的點(diǎn)點(diǎn)網(wǎng)是最純粹的輕博客,其網(wǎng)路結構特點(diǎn)具有太強的代表性。 1.1面向點(diǎn)點(diǎn)網(wǎng)的網(wǎng)路爬蟲(chóng) 采集網(wǎng)站數據的方式有基于A(yíng)PI的數據采集和基于網(wǎng)路爬蟲(chóng)的數據采集。通過(guò)調用網(wǎng)站提供的API接口可以實(shí)現網(wǎng)站數據的方便抓取與解析,但也要注意:一是API內容開(kāi)放不全面,例如點(diǎn)點(diǎn)網(wǎng)API是在2011年12月才對外開(kāi)放,API的種類(lèi)也極少,目前不到30個(gè);二是API服務(wù)商對用戶(hù)的API接口調用頻度與查詢(xún)的返回結果的最大數目有限制,點(diǎn)點(diǎn)網(wǎng)就規定查詢(xún)的返回結果不超過(guò)20個(gè);三是使用API接口須要解決用戶(hù)認證問(wèn)題,如果待獲取用戶(hù)條目太多則會(huì )占用大量系統開(kāi)支等待用戶(hù)授權許可。因此,該文在開(kāi)源軟件Heritrix的基礎上,采用基于網(wǎng)路爬蟲(chóng)的數據采集技術(shù)來(lái)獲取點(diǎn)點(diǎn)網(wǎng)的數據。 從圖1可以發(fā)覺(jué),點(diǎn)點(diǎn)網(wǎng)在整篇輕博文下邊都有“熱度”,標注喜歡、轉載和推薦該文的用戶(hù)列表。查看源碼,發(fā)現“熱度”是一個(gè)內嵌網(wǎng)頁(yè),頁(yè)面源碼中內容比較少,更多的內容實(shí)際上是采用AJAX(Asynchronous Javascript and XML)技術(shù)[2]加載下來(lái)的。
如果直接用Heritirx原有的抓取方式,抓取不到真正的用戶(hù)列表。所以,必須對Heritirx的Extracotr類(lèi)進(jìn)行擴充,擴展后的新類(lèi)DiandianExtractor重載extract方式,在抓取頁(yè)面、抽取鏈接的時(shí)侯,直接對“熱度”部分進(jìn)行剖析,通過(guò)Selenium WebDriver API驅動(dòng)瀏覽器內核PhantomJS,模擬瀏覽器獲取AJAX內容,得到和頁(yè)面呈現一致的頁(yè)面內容,再通過(guò)Jsoup解析頁(yè)面內容,并把剖析結果存到MYSQL數據庫里。至此,AJAX頁(yè)面采集問(wèn)題得到真正解決。 1.2 數據集 據點(diǎn)點(diǎn)網(wǎng)自身統計數據顯示,目前點(diǎn)點(diǎn)網(wǎng)注冊用戶(hù)數早已達到1919萬(wàn),帖子數達到3547萬(wàn),數據采集量非常龐大且處于動(dòng)態(tài)變化之中,要獲取整個(gè)網(wǎng)路的拓撲數據非常困難,因此本文采用滾雪球采樣法,依據“興趣標簽”,隨機選擇兩個(gè)標簽下邊的“杰出輕博客”的某篇輕博文作為種子,利用點(diǎn)點(diǎn)網(wǎng)用戶(hù)之間的興趣關(guān)系進(jìn)行廣度優(yōu)先搜索。搜索頁(yè)面的URL富含“post/”和“n/common/comment”,前一種頁(yè)面主要由某用戶(hù)發(fā)表的所有博文組成;后一種頁(yè)面包括所有“喜歡”、“轉載”、“推薦”該用戶(hù)博文的其他用戶(hù)列表。
數據采集器最終抓取逾600萬(wàn)頁(yè)面,總容量接近60G。通過(guò)對這逾600萬(wàn)頁(yè)面信息的實(shí)時(shí)抽取,共1898356條記錄儲存到MySQL數據庫里。其中,數據表結構包括id、username(用戶(hù)名)、inname(鏈入用戶(hù)名)、type(鏈入用戶(hù)是哪種類(lèi)型用戶(hù):喜歡、轉載還是推薦)、link(該記錄從那個(gè)鏈接得來(lái)的)。經(jīng)過(guò)去重(從數據表中刪掉username和inname都相同的記錄),得到825057條可用記錄用于后續網(wǎng)路拓撲檢測。 2 點(diǎn)點(diǎn)網(wǎng)的拓撲特點(diǎn) 2.1網(wǎng)路拓撲檢測 3 結論 本文選定國外最大的輕博客平臺——點(diǎn)點(diǎn)網(wǎng)作為研究對象,根據采集下來(lái)的點(diǎn)點(diǎn)網(wǎng)樣本數據,構造一個(gè)基于“發(fā)文←喜歡、轉載和推薦”互動(dòng)的興趣關(guān)系網(wǎng)路。通過(guò)開(kāi)源工具Pajek統計點(diǎn)點(diǎn)網(wǎng)的拓撲特點(diǎn),如平均路徑寬度、聚集系數、出入度分布、連接度相關(guān)性及中心性等,發(fā)現點(diǎn)點(diǎn)網(wǎng)存在小世界效應和無(wú)標度特點(diǎn),網(wǎng)絡(luò )中存在中心節點(diǎn),即少量用戶(hù)在信息發(fā)布和傳播中起著(zhù)至關(guān)重要的作用,這為進(jìn)一步研究輕博客的人際關(guān)系和信息傳播特點(diǎn)奠定了基礎。 參考文獻: [1] 果子. 影子大亨Tumblr的成功之道 [EB/OL]. [2013-02-21]. http:///p/201458.html?ref=weixin0222m. [2] 羅兵.支持AJAX的互聯(lián)網(wǎng)搜索引擎爬蟲(chóng)設計與實(shí)現[D].杭州:浙江大學(xué),2007:14-40. [3] Alan Mislove, Massimiliano Marcon, Krishna P.Gummadi. Measurement and Analysis of Online Social Networks[C]// IMC'07: Proceedings of the 7th ACM SIGCOMM Conference on Internet Measurement. New York: ACM Press, 2007: 29-42. [4] Feng Fu,Lianghuan Liu,Long Wang.Empirical analysis of online social networks in the age of Web 2.0[J]. Physica A, 2008(387):675–684. [5] 樊鵬翼,王暉,姜志宏,等.微博網(wǎng)路檢測研究[J].計算機研究與發(fā)展, 2012,49(4):691-699. [6] Albert R, Barabasi A L.Statistical mechanics of complex networks[J]. Reviews of Modern Physics, 2002, 74(1):47-97. [7] Wilson C,Boe B,Sala A,et a1.User interactions in social networks and their implications[C]//Proceedings of the 4th ACM European Conference on Computer Systems.New York:ACM, 2009:205-218. [8] 陳靜,孫林夫.復雜網(wǎng)路中節點(diǎn)重要度評估[J].西南交通大學(xué)學(xué)報,2009,44(3):426-429.
3.kettle實(shí)現不同數據庫的數據采集
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 602 次瀏覽 ? 2020-08-20 12:38
「深度學(xué)習福利」大神帶你進(jìn)階工程師,立即查看>>>
基于kettle實(shí)現數據采集
1.kettle簡(jiǎn)介
Kettle 是一款美國開(kāi)源的 ETL 工具,純 Java 編寫(xiě),通過(guò)提供一個(gè)圖形化的用戶(hù)環(huán)境來(lái)描述你想做哪些,而不是你想怎樣做,它的數據抽取高效穩定(數據遷移工具)。Kettle 中有兩種腳本文件,transformation 和 job,transformation 完成針對數據的基礎轉換,job 則完成整個(gè)工作流的控制。
2.kettle下載
下面兩個(gè)案例是使用kettle7.1進(jìn)行操作,分享一下國外的下載地址:
kettle下載
無(wú)需安裝,雙擊根目錄下的Spoon.bat文件即可
3.kettle實(shí)現不同數據庫的數據采集
這個(gè)案例是實(shí)現oracle數據庫的數據采集到mysql上面去
3.1創(chuàng )建對應數據庫的DB聯(lián)接
3.2使用圖形工具完成表輸入->字段選擇->表輸出的流線(xiàn)設計
3.3配置表輸入信息:用于編撰sql獲取數據源的數據
3.4配置數組選擇信息:用于數據源和目標表數組名不一致的一個(gè)轉換
3.5配置表輸出信息:用于目標表的主鍵映射
3.6運行這個(gè)轉換,并查看結果
4.kettle實(shí)現插口的數據采集
接口地址(可直接復制):%E8%A7%92%E7%BE%8E&region=%E6%BC%B3%E5%B7%9E%E5%B8%82&output=json&ak=n0lHarpY3QZx6xXXIaWMFLxj
通過(guò)訪(fǎng)問(wèn)插口可以獲知返回的json數據結構,可考慮做兩層json解析來(lái)獲取對應的數組,當然也可以使用:$…result[*].name的表達式來(lái)獲取,這里不做演示,有興趣的朋友可以試一下!
4.1配置目標表的DB聯(lián)接(上面有oracle和mysql的不同示例)
4.2使用圖形工具插口采集的流線(xiàn)圖
4.3配置生成記錄信息:填寫(xiě)對應的url地址和定義url名稱(chēng),類(lèi)型 查看全部
3.kettle實(shí)現不同數據庫的數據采集
「深度學(xué)習福利」大神帶你進(jìn)階工程師,立即查看>>>

基于kettle實(shí)現數據采集
1.kettle簡(jiǎn)介
Kettle 是一款美國開(kāi)源的 ETL 工具,純 Java 編寫(xiě),通過(guò)提供一個(gè)圖形化的用戶(hù)環(huán)境來(lái)描述你想做哪些,而不是你想怎樣做,它的數據抽取高效穩定(數據遷移工具)。Kettle 中有兩種腳本文件,transformation 和 job,transformation 完成針對數據的基礎轉換,job 則完成整個(gè)工作流的控制。
2.kettle下載
下面兩個(gè)案例是使用kettle7.1進(jìn)行操作,分享一下國外的下載地址:
kettle下載
無(wú)需安裝,雙擊根目錄下的Spoon.bat文件即可

3.kettle實(shí)現不同數據庫的數據采集
這個(gè)案例是實(shí)現oracle數據庫的數據采集到mysql上面去
3.1創(chuàng )建對應數據庫的DB聯(lián)接


3.2使用圖形工具完成表輸入->字段選擇->表輸出的流線(xiàn)設計

3.3配置表輸入信息:用于編撰sql獲取數據源的數據

3.4配置數組選擇信息:用于數據源和目標表數組名不一致的一個(gè)轉換

3.5配置表輸出信息:用于目標表的主鍵映射

3.6運行這個(gè)轉換,并查看結果

4.kettle實(shí)現插口的數據采集
接口地址(可直接復制):%E8%A7%92%E7%BE%8E&region=%E6%BC%B3%E5%B7%9E%E5%B8%82&output=json&ak=n0lHarpY3QZx6xXXIaWMFLxj
通過(guò)訪(fǎng)問(wèn)插口可以獲知返回的json數據結構,可考慮做兩層json解析來(lái)獲取對應的數組,當然也可以使用:$…result[*].name的表達式來(lái)獲取,這里不做演示,有興趣的朋友可以試一下!

4.1配置目標表的DB聯(lián)接(上面有oracle和mysql的不同示例)
4.2使用圖形工具插口采集的流線(xiàn)圖

4.3配置生成記錄信息:填寫(xiě)對應的url地址和定義url名稱(chēng),類(lèi)型
Python爬蟲(chóng)總結(CSS,Xpath,JsonLoad;靜態(tài)網(wǎng)頁(yè),JS加載
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 392 次瀏覽 ? 2020-08-18 21:25
前言
隨著(zhù)人類(lèi)社會(huì )的高速發(fā)展,數據對各行各業(yè)的重要性,愈加突出。爬蟲(chóng),也稱(chēng)為數據采集器,是指通過(guò)程序設計,機械化地對網(wǎng)路上的數據,進(jìn)行批量爬取,以取代低效的人工獲取信息的手段。
1. 道德法律問(wèn)題
爬蟲(chóng)目前在法律上尚屬黑色地段,但爬別的網(wǎng)站用于自己的商業(yè)化用途也可能存在著(zhù)法律風(fēng)險。非法抓取使用“新浪微博”用戶(hù)信息被判賠200萬(wàn)元,這是國外的一條因爬蟲(chóng)被判敗訴的新聞。所以各商業(yè)公司還是悠著(zhù)點(diǎn),特別是涉及隱私數據。
大型的網(wǎng)站一般還會(huì )有robot.txt,這算是與爬蟲(chóng)者的一個(gè)合同。只要在robot.txt容許的范圍內爬蟲(chóng)就不存在道德和法律風(fēng)險。
2. 網(wǎng)絡(luò )爬蟲(chóng)步驟2.1 檢查API接口
API是網(wǎng)站官方提供的數據插口,如果通過(guò)調用API采集數據,則相當于在網(wǎng)站允許的范圍內采集。這樣既不會(huì )有道德法律風(fēng)險,也沒(méi)有網(wǎng)站故意設置的障礙;不過(guò)調用API插口的訪(fǎng)問(wèn)則處于網(wǎng)站的控制中,網(wǎng)站可以拿來(lái)收費,可以拿來(lái)限制訪(fǎng)問(wèn)上限等。整體來(lái)看,如果數據采集的需求并不是太奇特,那么有API則應優(yōu)先采用調用API的形式。如果沒(méi)有,則選擇爬蟲(chóng)。
2.2 數據獲取渠道剖析
頁(yè)面收錄數據
這種情況是最容易解決的,一般來(lái)講基本上是靜態(tài)網(wǎng)頁(yè),或者動(dòng)態(tài)網(wǎng)頁(yè),采用模板渲染,瀏覽器獲取到HTML的時(shí)侯早已是收錄所有的關(guān)鍵信息,所以直接在網(wǎng)頁(yè)上見(jiàn)到的內容都可以通過(guò)特定的HTML標簽得到。
JavaScript代碼加載內容
雖然網(wǎng)頁(yè)顯示的數據在HTML標簽上面,但是指定HTML標簽下內容為空。這是因為數據在js代碼上面,而js的執行是在瀏覽器端的操作。當我們用程序去懇求網(wǎng)頁(yè)地址的時(shí)侯,得到的response是網(wǎng)頁(yè)代碼和js的代碼,因此自己在瀏覽器端能看到數據,解析時(shí)因為js未執行,指定HTML標簽下數據肯定為空。這個(gè)時(shí)侯的處理辦法:找到收錄內容的js代碼串,然后通過(guò)正則表達式獲得相應的內容,而不是解析HTML標簽。
Ajax異步懇求
這種情況是現今太常見(jiàn)的,尤其是在數據以分頁(yè)方式顯示在網(wǎng)頁(yè)上,并且頁(yè)面無(wú)刷新,或者是對網(wǎng)頁(yè)進(jìn)行某個(gè)交互操作后得到數據。所以當我們開(kāi)始刷新頁(yè)面的時(shí)侯就要開(kāi)始跟蹤所有的懇求,觀(guān)察數據究竟是在哪一步加載進(jìn)來(lái)的。然后當我們找到核心的異步懇求的時(shí)侯,就只用抓取這個(gè)異步懇求就可以了,如果原創(chuàng )網(wǎng)頁(yè)沒(méi)有任何有用信息,也沒(méi)必要去抓取原創(chuàng )網(wǎng)頁(yè)了。
2.3 頁(yè)面數據結構剖析
結構性數據
結構化的數據是最好處理,一般都是類(lèi)似JSON格式的字符串,直接解析JSON數據就可以了,提取JSON的關(guān)鍵數組即可。
page = requests.get(url)
headers = {}
page.encoding = 'utf-8'
data =re.findall(r'__INITIAL_STATE__=(.*?)',page.text)[0]
json_data = json.loads(data)
print(json_data)
#f = open('結果2.txt', 'w',
encoding='utf-8') # 以'w'方式打開(kāi)文件
#for k, v in json_data.items():
# 遍歷字典中的鍵值
#s2 = str(v) # 把字典的值轉換成字符型
#f.write(k + '\n') # 鍵和值分行放,鍵在單數行,值在雙數行
#f.write(s2 + '\n')
jobList = json_data['souresult']['Items'] #打印json_data,抓到關(guān)鍵詞
for element in jobList:
print(f"===公司名稱(chēng):{element['CompanyName']}:===\n"
f"崗位名稱(chēng):{element['DateCreated']}\n"
f"招聘人數:{element['JobTitle']}\n"
f"工作代碼:{element['JobTypeName']}\n"
f"公司代碼:{element['RecruitCount']}\n"
f"詳細信息URL:{element['SocialCompanyUrl']}")
非結構性數據-HTML文本數據
HTML文本基本上是傳統爬蟲(chóng)過(guò)程中最常見(jiàn)的,也就是大多數時(shí)侯會(huì )碰到的情況。例如抓取一個(gè)網(wǎng)頁(yè),得到的是HTML,然后須要解析一些常見(jiàn)的元素,提取一些關(guān)鍵的信息。HTML雖然理應屬于結構化的文本組織,但是又由于通常我們須要的關(guān)鍵信息并非直接可以得到,需要進(jìn)行對HTML的解析查找,甚至一些字符串操作就能得到,所以還是歸類(lèi)于非結構化的數據處理中。常見(jiàn)解析方式:
CSS選擇器
現在的網(wǎng)頁(yè)式樣比較多,所以通常的網(wǎng)頁(yè)就會(huì )有一些CSS的定位,例如class,id等等,或者我們按照常見(jiàn)的節點(diǎn)路徑進(jìn)行定位。
item = soup.select('#u1 > a')
#選擇指定目錄下所有css數據
#print([i for i in item]) #print里添加循環(huán)時(shí),記得加方括號
item = soup.select_one('#u1 > a') #選擇指定目錄下第一條 css數據
print(item)
Findall
##招聘人數
recru_num = soup.find_all('div', attrs={'class':'cityfn-left'}) #找到頁(yè)面中a元素的所有元素,并找到a元素中 屬性為'class=value'———————— attrs={"class": 'value'}
print(recru_num)
dr = re.compile(r']+>', re.S)
data = dr.sub('', str(recru_num)) #過(guò)濾HTML標簽
print(data)
Xpath
html = etree.HTML(wb_data)
html_data = html.xpath('/html/body/div/ul/li/a/text()') #獲取某個(gè)標簽的內容(基本使用)
正則表達式
正則表達式,用標準正則解析,一般會(huì )把HTML當作普通文本,用指定格式匹配。當相關(guān)文本是小片斷文本,或者某一串字符,或者HTML收錄javascript的代碼,無(wú)法用CSS選擇器或則XPATH。
import re
a = '<p>[Aero, Animals, Architecture,Wallpapers">Artistic</a>, ........(省略)......... Vintage]'
titles = re.findall(' 查看全部
Python爬蟲(chóng)總結(CSS,Xpath,JsonLoad;靜態(tài)網(wǎng)頁(yè),JS加載

前言
隨著(zhù)人類(lèi)社會(huì )的高速發(fā)展,數據對各行各業(yè)的重要性,愈加突出。爬蟲(chóng),也稱(chēng)為數據采集器,是指通過(guò)程序設計,機械化地對網(wǎng)路上的數據,進(jìn)行批量爬取,以取代低效的人工獲取信息的手段。
1. 道德法律問(wèn)題
爬蟲(chóng)目前在法律上尚屬黑色地段,但爬別的網(wǎng)站用于自己的商業(yè)化用途也可能存在著(zhù)法律風(fēng)險。非法抓取使用“新浪微博”用戶(hù)信息被判賠200萬(wàn)元,這是國外的一條因爬蟲(chóng)被判敗訴的新聞。所以各商業(yè)公司還是悠著(zhù)點(diǎn),特別是涉及隱私數據。
大型的網(wǎng)站一般還會(huì )有robot.txt,這算是與爬蟲(chóng)者的一個(gè)合同。只要在robot.txt容許的范圍內爬蟲(chóng)就不存在道德和法律風(fēng)險。
2. 網(wǎng)絡(luò )爬蟲(chóng)步驟2.1 檢查API接口
API是網(wǎng)站官方提供的數據插口,如果通過(guò)調用API采集數據,則相當于在網(wǎng)站允許的范圍內采集。這樣既不會(huì )有道德法律風(fēng)險,也沒(méi)有網(wǎng)站故意設置的障礙;不過(guò)調用API插口的訪(fǎng)問(wèn)則處于網(wǎng)站的控制中,網(wǎng)站可以拿來(lái)收費,可以拿來(lái)限制訪(fǎng)問(wèn)上限等。整體來(lái)看,如果數據采集的需求并不是太奇特,那么有API則應優(yōu)先采用調用API的形式。如果沒(méi)有,則選擇爬蟲(chóng)。
2.2 數據獲取渠道剖析
頁(yè)面收錄數據
這種情況是最容易解決的,一般來(lái)講基本上是靜態(tài)網(wǎng)頁(yè),或者動(dòng)態(tài)網(wǎng)頁(yè),采用模板渲染,瀏覽器獲取到HTML的時(shí)侯早已是收錄所有的關(guān)鍵信息,所以直接在網(wǎng)頁(yè)上見(jiàn)到的內容都可以通過(guò)特定的HTML標簽得到。
JavaScript代碼加載內容
雖然網(wǎng)頁(yè)顯示的數據在HTML標簽上面,但是指定HTML標簽下內容為空。這是因為數據在js代碼上面,而js的執行是在瀏覽器端的操作。當我們用程序去懇求網(wǎng)頁(yè)地址的時(shí)侯,得到的response是網(wǎng)頁(yè)代碼和js的代碼,因此自己在瀏覽器端能看到數據,解析時(shí)因為js未執行,指定HTML標簽下數據肯定為空。這個(gè)時(shí)侯的處理辦法:找到收錄內容的js代碼串,然后通過(guò)正則表達式獲得相應的內容,而不是解析HTML標簽。
Ajax異步懇求
這種情況是現今太常見(jiàn)的,尤其是在數據以分頁(yè)方式顯示在網(wǎng)頁(yè)上,并且頁(yè)面無(wú)刷新,或者是對網(wǎng)頁(yè)進(jìn)行某個(gè)交互操作后得到數據。所以當我們開(kāi)始刷新頁(yè)面的時(shí)侯就要開(kāi)始跟蹤所有的懇求,觀(guān)察數據究竟是在哪一步加載進(jìn)來(lái)的。然后當我們找到核心的異步懇求的時(shí)侯,就只用抓取這個(gè)異步懇求就可以了,如果原創(chuàng )網(wǎng)頁(yè)沒(méi)有任何有用信息,也沒(méi)必要去抓取原創(chuàng )網(wǎng)頁(yè)了。
2.3 頁(yè)面數據結構剖析
結構性數據
結構化的數據是最好處理,一般都是類(lèi)似JSON格式的字符串,直接解析JSON數據就可以了,提取JSON的關(guān)鍵數組即可。
page = requests.get(url)
headers = {}
page.encoding = 'utf-8'
data =re.findall(r'__INITIAL_STATE__=(.*?)',page.text)[0]
json_data = json.loads(data)
print(json_data)
#f = open('結果2.txt', 'w',
encoding='utf-8') # 以'w'方式打開(kāi)文件
#for k, v in json_data.items():
# 遍歷字典中的鍵值
#s2 = str(v) # 把字典的值轉換成字符型
#f.write(k + '\n') # 鍵和值分行放,鍵在單數行,值在雙數行
#f.write(s2 + '\n')
jobList = json_data['souresult']['Items'] #打印json_data,抓到關(guān)鍵詞
for element in jobList:
print(f"===公司名稱(chēng):{element['CompanyName']}:===\n"
f"崗位名稱(chēng):{element['DateCreated']}\n"
f"招聘人數:{element['JobTitle']}\n"
f"工作代碼:{element['JobTypeName']}\n"
f"公司代碼:{element['RecruitCount']}\n"
f"詳細信息URL:{element['SocialCompanyUrl']}")
非結構性數據-HTML文本數據
HTML文本基本上是傳統爬蟲(chóng)過(guò)程中最常見(jiàn)的,也就是大多數時(shí)侯會(huì )碰到的情況。例如抓取一個(gè)網(wǎng)頁(yè),得到的是HTML,然后須要解析一些常見(jiàn)的元素,提取一些關(guān)鍵的信息。HTML雖然理應屬于結構化的文本組織,但是又由于通常我們須要的關(guān)鍵信息并非直接可以得到,需要進(jìn)行對HTML的解析查找,甚至一些字符串操作就能得到,所以還是歸類(lèi)于非結構化的數據處理中。常見(jiàn)解析方式:
CSS選擇器
現在的網(wǎng)頁(yè)式樣比較多,所以通常的網(wǎng)頁(yè)就會(huì )有一些CSS的定位,例如class,id等等,或者我們按照常見(jiàn)的節點(diǎn)路徑進(jìn)行定位。
item = soup.select('#u1 > a')
#選擇指定目錄下所有css數據
#print([i for i in item]) #print里添加循環(huán)時(shí),記得加方括號
item = soup.select_one('#u1 > a') #選擇指定目錄下第一條 css數據
print(item)
Findall
##招聘人數
recru_num = soup.find_all('div', attrs={'class':'cityfn-left'}) #找到頁(yè)面中a元素的所有元素,并找到a元素中 屬性為'class=value'———————— attrs={"class": 'value'}
print(recru_num)
dr = re.compile(r']+>', re.S)
data = dr.sub('', str(recru_num)) #過(guò)濾HTML標簽
print(data)
Xpath
html = etree.HTML(wb_data)
html_data = html.xpath('/html/body/div/ul/li/a/text()') #獲取某個(gè)標簽的內容(基本使用)
正則表達式
正則表達式,用標準正則解析,一般會(huì )把HTML當作普通文本,用指定格式匹配。當相關(guān)文本是小片斷文本,或者某一串字符,或者HTML收錄javascript的代碼,無(wú)法用CSS選擇器或則XPATH。
import re
a = '<p>[Aero, Animals, Architecture,Wallpapers">Artistic</a>, ........(省略)......... Vintage]'
titles = re.findall('
2019最新站群優(yōu)化超級蜘蛛池 引流必備,可轉讓后臺,自動(dòng)采集,支持外推
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 728 次瀏覽 ? 2020-08-18 10:02
蜘蛛池引流 站群蜘蛛池 2019seo優(yōu)化超級蜘蛛池 自動(dòng)采集 網(wǎng)站優(yōu)化必備
seo優(yōu)化站群特色
安全、高效,化的優(yōu)化借助php性能,使得運行流暢穩定
獨創(chuàng )內容無(wú)緩存刷新不變,節省硬碟。防止搜索引擎辨識蜘蛛池
蜘蛛池算法,輕松建立站點(diǎn)(電影、資訊、圖片、論壇等等)
可以個(gè)性化每位網(wǎng)站的風(fēng)格、內容、站點(diǎn)模式、關(guān)鍵詞、外鏈等
?。ㄗ远xtkd、自定義外鏈關(guān)鍵詞、自定義泛域名前綴)
什么是蜘蛛池? 蜘蛛池是一種通過(guò)借助小型平臺權重來(lái)獲得百度收錄以及排行的一種程序,程序員常稱(chēng)為“蜘蛛池”。這是一種可以快速提高網(wǎng)站排名的一種程序,值得一提的是,它是手動(dòng)提高網(wǎng)站的排行和網(wǎng)站的收錄,這個(gè)療效是極其出色的。蜘蛛池程序可以幫助我們做哪些? 發(fā)了外鏈了貼子還不收錄,可競爭對手人家一樣是發(fā)同樣的站,人家沒(méi)發(fā)外鏈也收錄了,是吧!答:(因為人家養有了數目龐大的百度收錄蜘蛛爬蟲(chóng),有了蜘蛛池你也可以做到) CNmmm.Com
有些老手會(huì )說(shuō),我自己也養有百度蜘蛛如何我的也不收錄呢?
答:(因為你的百度收錄蜘蛛不夠多,不夠廣,來(lái)來(lái)回回都是這些低質(zhì)量的百度收錄爬蟲(chóng),收錄慢,而且甚至是根本不收錄了!——-蜘蛛池擁有多服務(wù)器,多域名,正規內容站點(diǎn)養著(zhù)百度收錄蜘蛛,分布廣,域名多,團隊化養著(zhù)蜘蛛,來(lái)源站點(diǎn)多,質(zhì)量高,每天都有新來(lái)的蜘蛛進(jìn)行爬取收錄您的外推貼子) 內容來(lái)自新手源碼CNmmm.Com
蜘蛛池超級強悍的功能,全手動(dòng)采集,支持api二次開(kāi)發(fā)!
也可以當作站群的源程序使用。
支持給用戶(hù)開(kāi)帳號,全手動(dòng)發(fā)布,可用于租用蜘蛛池,發(fā)布外鏈使用!
支持關(guān)鍵詞跳轉,全局跳轉! 內容來(lái)自新手源碼CNmmm.Com
自動(dòng)采集(騰訊新聞(國內,軍事),新浪新聞(國際,軍事))
新聞偽原創(chuàng ),加快收錄!
支持導出txt外推網(wǎng)址,蜘蛛日記,索引池,權重池等等等,更多功能自行發(fā)覺(jué)!
商業(yè)源碼下載
售價(jià) :80.00(元)會(huì )員價(jià)錢(qián) :0.00(元) VIP會(huì )員登入 后即可免費下載!
資源信息 :
2019最新站群優(yōu)化超級蜘蛛池 引流必備,可轉讓后臺,自動(dòng)采集,支持外推,支持降低用戶(hù) api
下載鏈接:*** 隱藏內容訂購后可見(jiàn) ***下載密碼:*** 隱藏內容訂購后可見(jiàn) ***
開(kāi)通VIP會(huì )員后,全站源碼即可免費下載!活動(dòng)期間會(huì )員僅需28元 - 馬上開(kāi)通VIP會(huì )員 查看全部
2019最新站群優(yōu)化超級蜘蛛池 引流必備,可轉讓后臺,自動(dòng)采集,支持外推
蜘蛛池引流 站群蜘蛛池 2019seo優(yōu)化超級蜘蛛池 自動(dòng)采集 網(wǎng)站優(yōu)化必備
seo優(yōu)化站群特色
安全、高效,化的優(yōu)化借助php性能,使得運行流暢穩定
獨創(chuàng )內容無(wú)緩存刷新不變,節省硬碟。防止搜索引擎辨識蜘蛛池
蜘蛛池算法,輕松建立站點(diǎn)(電影、資訊、圖片、論壇等等)
可以個(gè)性化每位網(wǎng)站的風(fēng)格、內容、站點(diǎn)模式、關(guān)鍵詞、外鏈等
?。ㄗ远xtkd、自定義外鏈關(guān)鍵詞、自定義泛域名前綴)
什么是蜘蛛池? 蜘蛛池是一種通過(guò)借助小型平臺權重來(lái)獲得百度收錄以及排行的一種程序,程序員常稱(chēng)為“蜘蛛池”。這是一種可以快速提高網(wǎng)站排名的一種程序,值得一提的是,它是手動(dòng)提高網(wǎng)站的排行和網(wǎng)站的收錄,這個(gè)療效是極其出色的。蜘蛛池程序可以幫助我們做哪些? 發(fā)了外鏈了貼子還不收錄,可競爭對手人家一樣是發(fā)同樣的站,人家沒(méi)發(fā)外鏈也收錄了,是吧!答:(因為人家養有了數目龐大的百度收錄蜘蛛爬蟲(chóng),有了蜘蛛池你也可以做到) CNmmm.Com
有些老手會(huì )說(shuō),我自己也養有百度蜘蛛如何我的也不收錄呢?
答:(因為你的百度收錄蜘蛛不夠多,不夠廣,來(lái)來(lái)回回都是這些低質(zhì)量的百度收錄爬蟲(chóng),收錄慢,而且甚至是根本不收錄了!——-蜘蛛池擁有多服務(wù)器,多域名,正規內容站點(diǎn)養著(zhù)百度收錄蜘蛛,分布廣,域名多,團隊化養著(zhù)蜘蛛,來(lái)源站點(diǎn)多,質(zhì)量高,每天都有新來(lái)的蜘蛛進(jìn)行爬取收錄您的外推貼子) 內容來(lái)自新手源碼CNmmm.Com
蜘蛛池超級強悍的功能,全手動(dòng)采集,支持api二次開(kāi)發(fā)!
也可以當作站群的源程序使用。
支持給用戶(hù)開(kāi)帳號,全手動(dòng)發(fā)布,可用于租用蜘蛛池,發(fā)布外鏈使用!
支持關(guān)鍵詞跳轉,全局跳轉! 內容來(lái)自新手源碼CNmmm.Com
自動(dòng)采集(騰訊新聞(國內,軍事),新浪新聞(國際,軍事))
新聞偽原創(chuàng ),加快收錄!
支持導出txt外推網(wǎng)址,蜘蛛日記,索引池,權重池等等等,更多功能自行發(fā)覺(jué)!

商業(yè)源碼下載
售價(jià) :80.00(元)會(huì )員價(jià)錢(qián) :0.00(元) VIP會(huì )員登入 后即可免費下載!
資源信息 :
2019最新站群優(yōu)化超級蜘蛛池 引流必備,可轉讓后臺,自動(dòng)采集,支持外推,支持降低用戶(hù) api
下載鏈接:*** 隱藏內容訂購后可見(jiàn) ***下載密碼:*** 隱藏內容訂購后可見(jiàn) ***
開(kāi)通VIP會(huì )員后,全站源碼即可免費下載!活動(dòng)期間會(huì )員僅需28元 - 馬上開(kāi)通VIP會(huì )員
銷(xiāo)幫幫數據處理工具開(kāi)發(fā)說(shuō)明
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 169 次瀏覽 ? 2020-08-17 01:26
目錄
開(kāi)發(fā)背景:
公司CRM采購了銷(xiāo)幫幫的CRM系統,由于CRM系統不健全,導出功能不能滿(mǎn)足公司對數據進(jìn)行剖析的需求。每次整理數據,分析人員部門(mén)等各類(lèi)情況,再有假如人員重名,銷(xiāo)幫幫不能分辨出具體是誰(shuí),必須去依據人員或其他數據進(jìn)行分辨。
解決方案:
由于銷(xiāo)幫幫數據的人員是有UserID的,而該UserID對應釘釘的UserID,所以可以按照釘釘提供的API接口輕松的判別出人員部門(mén)、分公司等信息,不用關(guān)心人員重名的情況。
開(kāi)發(fā)環(huán)境:
軟件使用C#+SQLSERVER進(jìn)行開(kāi)發(fā)。
使用教程:
開(kāi)始前先給你們瞧瞧軟件的整體界面。
軟件主要包括清空明日數據,采集、數據剖析、同步用戶(hù)信息、獲取數據 5部份功能。
創(chuàng )建并配置SQLServer數據庫
在安裝好的SQLServer服務(wù)器上,創(chuàng )建數據庫,數據庫名稱(chēng)按照須要定義,此處我定義的數據庫名稱(chēng)是xbb,如下圖的配置[1],正確配置數據庫聯(lián)接
獲取銷(xiāo)幫幫的組織編碼和Token
根據銷(xiāo)幫幫提供的網(wǎng)址[]獲取對應的組織編碼和token.,如下圖配置[2]配置銷(xiāo)幫幫石藥使用的組織編碼和Token.
創(chuàng )建企業(yè)內部應用
在釘釘的【開(kāi)發(fā)者后臺】創(chuàng )建企業(yè)內部應用。開(kāi)放查詢(xún)部門(mén)、人員信息的權限即可。并配置對應的appkey/appsecret到右圖【3】處。
清空明日數據
開(kāi)始采集前,如果明天的數據早已采集過(guò),請點(diǎn)擊【清空明日數據】,會(huì )手動(dòng)清空明天早已采集的數據,重新開(kāi)始采集。
采集
點(diǎn)擊【開(kāi)始】進(jìn)行數據采集,采集的內容主要包括功能上勾選的數據。等待最下邊的狀態(tài)欄采集后待處理數據變?yōu)?條,則代表采集完成。
數據剖析
采集后會(huì )把數據統計分配到一張表里,點(diǎn)擊數據剖析會(huì )手動(dòng)依據采集到的數據創(chuàng )建表,并把數據插入到對應的表上面。
同步用戶(hù)數據
同步用戶(hù)數據是為了增量備份釘釘的所有的用戶(hù)信息。
獲取數據
點(diǎn)擊【獲取數據】按鈕,自動(dòng)導入銷(xiāo)幫幫銷(xiāo)售機會(huì )、合同、跟進(jìn)記錄等信息。
備注:如果哪天銷(xiāo)幫幫數據發(fā)生變化,可以在軟件的ExecSQL文件夾下更改對應的導入SQL句子,不用更改代碼。
軟件技能更新
第一次在開(kāi)發(fā)中使用了dynamic關(guān)鍵字,通過(guò)對Json進(jìn)行反序列化挺好用。減少了好多Model的創(chuàng )建工作,也降低了先前通過(guò)正則表達式匹配的方法的工作量。
通過(guò)下邊的句子更改當前顯示的文字做的顏色。
rtbContent.SelectionColor = Color.Red;
rtbContent.SelectedText = msg+"\r\n";
為了備份每晚的數據,所有的表都帶上了年月日yyyyMMdd格式結尾。所有的查詢(xún)都是通過(guò){Date}關(guān)鍵字,用明天的日期替換{Date}關(guān)鍵字后產(chǎn)生SQL查詢(xún)句子
每次抓取分頁(yè)數據時(shí),由于是異步的,不能馬上確定是否有下一頁(yè)的時(shí)侯,尤其是抓取第一頁(yè)的時(shí)侯,由于數據分類(lèi)不同,以前都是按照不同的數據分頁(yè)設置一下隊列,然后依次從隊列中進(jìn)行數據彈出、采集等?,F在采用字典Dic> 可以通過(guò)統一的方式,設置不同的關(guān)鍵字插入分頁(yè)或則彈出分頁(yè)。
以前的加密方式大多是md5/AES等加密方法,最近大多都在改成sha256,可能與統一的后端構架有關(guān)系把。
C#的sha256加密方法:
public static string sha256(string data)
{
byte[] bytes = Encoding.UTF8.GetBytes(data);
byte[] hash = SHA256Managed.Create().ComputeHash(bytes);
StringBuilder builder = new StringBuilder();
for (int i = 0; i < hash.Length; i++)
{
builder.Append(hash[i].ToString("X2"));
}
return builder.ToString();
}
以前處理數據庫都是自己自動(dòng)寫(xiě)個(gè)簡(jiǎn)單的DbHelper,由于用不到各類(lèi)復雜的處理。所以還算夠用。
后來(lái)發(fā)覺(jué)通過(guò)Dapper可以輕松實(shí)現數據的批量處理,而且總體來(lái)說(shuō)效率還可以,畢竟寫(xiě)的代碼少了,還是很高興的。
輕量級的ORM工具,我選Dapper.。但是ADO.NET原理不能忘。
NPOI仍然是最好的處理Excel的工具
不再使用Model,正則表達式,把所有Json格式的數據通過(guò),數據字段ID、列名、列值、數據類(lèi)型 插入到一張表,通過(guò)統一的SQL創(chuàng )建插入規則把數據在統一插入到對應的表中,不需要提早曉得表的列名。
自動(dòng)創(chuàng )建、增加列。自動(dòng)插入數據。 查看全部
銷(xiāo)幫幫數據處理工具開(kāi)發(fā)說(shuō)明
目錄
開(kāi)發(fā)背景:
公司CRM采購了銷(xiāo)幫幫的CRM系統,由于CRM系統不健全,導出功能不能滿(mǎn)足公司對數據進(jìn)行剖析的需求。每次整理數據,分析人員部門(mén)等各類(lèi)情況,再有假如人員重名,銷(xiāo)幫幫不能分辨出具體是誰(shuí),必須去依據人員或其他數據進(jìn)行分辨。
解決方案:
由于銷(xiāo)幫幫數據的人員是有UserID的,而該UserID對應釘釘的UserID,所以可以按照釘釘提供的API接口輕松的判別出人員部門(mén)、分公司等信息,不用關(guān)心人員重名的情況。
開(kāi)發(fā)環(huán)境:
軟件使用C#+SQLSERVER進(jìn)行開(kāi)發(fā)。
使用教程:
開(kāi)始前先給你們瞧瞧軟件的整體界面。

軟件主要包括清空明日數據,采集、數據剖析、同步用戶(hù)信息、獲取數據 5部份功能。
創(chuàng )建并配置SQLServer數據庫
在安裝好的SQLServer服務(wù)器上,創(chuàng )建數據庫,數據庫名稱(chēng)按照須要定義,此處我定義的數據庫名稱(chēng)是xbb,如下圖的配置[1],正確配置數據庫聯(lián)接
獲取銷(xiāo)幫幫的組織編碼和Token
根據銷(xiāo)幫幫提供的網(wǎng)址[]獲取對應的組織編碼和token.,如下圖配置[2]配置銷(xiāo)幫幫石藥使用的組織編碼和Token.
創(chuàng )建企業(yè)內部應用
在釘釘的【開(kāi)發(fā)者后臺】創(chuàng )建企業(yè)內部應用。開(kāi)放查詢(xún)部門(mén)、人員信息的權限即可。并配置對應的appkey/appsecret到右圖【3】處。

清空明日數據
開(kāi)始采集前,如果明天的數據早已采集過(guò),請點(diǎn)擊【清空明日數據】,會(huì )手動(dòng)清空明天早已采集的數據,重新開(kāi)始采集。
采集
點(diǎn)擊【開(kāi)始】進(jìn)行數據采集,采集的內容主要包括功能上勾選的數據。等待最下邊的狀態(tài)欄采集后待處理數據變?yōu)?條,則代表采集完成。
數據剖析
采集后會(huì )把數據統計分配到一張表里,點(diǎn)擊數據剖析會(huì )手動(dòng)依據采集到的數據創(chuàng )建表,并把數據插入到對應的表上面。
同步用戶(hù)數據
同步用戶(hù)數據是為了增量備份釘釘的所有的用戶(hù)信息。
獲取數據
點(diǎn)擊【獲取數據】按鈕,自動(dòng)導入銷(xiāo)幫幫銷(xiāo)售機會(huì )、合同、跟進(jìn)記錄等信息。
備注:如果哪天銷(xiāo)幫幫數據發(fā)生變化,可以在軟件的ExecSQL文件夾下更改對應的導入SQL句子,不用更改代碼。

軟件技能更新
第一次在開(kāi)發(fā)中使用了dynamic關(guān)鍵字,通過(guò)對Json進(jìn)行反序列化挺好用。減少了好多Model的創(chuàng )建工作,也降低了先前通過(guò)正則表達式匹配的方法的工作量。

通過(guò)下邊的句子更改當前顯示的文字做的顏色。
rtbContent.SelectionColor = Color.Red;
rtbContent.SelectedText = msg+"\r\n";
為了備份每晚的數據,所有的表都帶上了年月日yyyyMMdd格式結尾。所有的查詢(xún)都是通過(guò){Date}關(guān)鍵字,用明天的日期替換{Date}關(guān)鍵字后產(chǎn)生SQL查詢(xún)句子
每次抓取分頁(yè)數據時(shí),由于是異步的,不能馬上確定是否有下一頁(yè)的時(shí)侯,尤其是抓取第一頁(yè)的時(shí)侯,由于數據分類(lèi)不同,以前都是按照不同的數據分頁(yè)設置一下隊列,然后依次從隊列中進(jìn)行數據彈出、采集等?,F在采用字典Dic> 可以通過(guò)統一的方式,設置不同的關(guān)鍵字插入分頁(yè)或則彈出分頁(yè)。
以前的加密方式大多是md5/AES等加密方法,最近大多都在改成sha256,可能與統一的后端構架有關(guān)系把。
C#的sha256加密方法:
public static string sha256(string data)
{
byte[] bytes = Encoding.UTF8.GetBytes(data);
byte[] hash = SHA256Managed.Create().ComputeHash(bytes);
StringBuilder builder = new StringBuilder();
for (int i = 0; i < hash.Length; i++)
{
builder.Append(hash[i].ToString("X2"));
}
return builder.ToString();
}
以前處理數據庫都是自己自動(dòng)寫(xiě)個(gè)簡(jiǎn)單的DbHelper,由于用不到各類(lèi)復雜的處理。所以還算夠用。
后來(lái)發(fā)覺(jué)通過(guò)Dapper可以輕松實(shí)現數據的批量處理,而且總體來(lái)說(shuō)效率還可以,畢竟寫(xiě)的代碼少了,還是很高興的。
輕量級的ORM工具,我選Dapper.。但是ADO.NET原理不能忘。
NPOI仍然是最好的處理Excel的工具
不再使用Model,正則表達式,把所有Json格式的數據通過(guò),數據字段ID、列名、列值、數據類(lèi)型 插入到一張表,通過(guò)統一的SQL創(chuàng )建插入規則把數據在統一插入到對應的表中,不需要提早曉得表的列名。
自動(dòng)創(chuàng )建、增加列。自動(dòng)插入數據。
微信公眾號文章搜索導入助手軟件破解版微信公眾號文章搜索導入助手
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 173 次瀏覽 ? 2020-08-29 18:06
摘要:微信公眾號文章搜索導入助手可以在軟件直接查詢(xún)公眾號文章,可以將文章下載到筆記本保存,方便之后使用,大家多曉得公眾號可以編輯文章發(fā)送,也可以添加音視頻以及圖片,如果你須要使用公眾號資源,可以通過(guò)這款軟件下載,本軟件可以快速采集文章內容,支持文章搜索,輸入關(guān)鍵詞就可以查詢(xún)對應的文章,支持號內采集,直接對公眾號全部數據采集,支持本地搜索,從歷史搜索文章中采集,通過(guò)這款軟件就可以快速對文章采集,并且可以將采集到的文字保存docx、PDF、html,采集過(guò)程也可以下載音視頻!
微信公眾號文章搜索導入助手軟件破解版
微信公眾號文章搜索導入助手可以在軟件直接查詢(xún)公眾號文章,可以將文章下載到筆記本保存,方便之后使用,大家多曉得公眾號可以編輯文章發(fā)送,也可以添加音視頻以及圖片,如果你須要使用公眾號資源,可以通過(guò)這款軟件下載,本軟件可以快速采集文章內容,支持文章搜索,輸入關(guān)鍵詞就可以查詢(xún)對應的文章,支持號內采集,直接對公眾號全部數據采集,支持本地搜索,從歷史搜索文章中采集,通過(guò)這款軟件就可以快速對文章采集,并且可以將采集到的文字保存docx、PDF、html,采集過(guò)程也可以下載音視頻!
軟件功能
1、一鍵采集指定微信公眾號所有群發(fā)文章,并通過(guò)關(guān)鍵詞搜索所有公眾號相關(guān)文章,支持按時(shí)間段采集;
2、微信文章可一鍵導入pdf、word、Excel、txt和html格式,并下載音頻和視頻文件,圖片和文章留言,導出文檔排版可保持和原文一樣;
3、內置開(kāi)放插口,可一鍵同步所有陌陌文章到自己網(wǎng)站,并保證陌陌圖片正常顯示;
4、可實(shí)時(shí)查看文章閱讀量、在看量和留言;
5、軟件提供逾80項其他附加功能,非常強悍實(shí)用;
軟件特色
1、微信公眾號文章搜索導入助手提供簡(jiǎn)單的文章采集功能
2、在軟件界面登陸陌陌就可以開(kāi)始采集數據
3、支持公眾號輸入,可以對指定的公眾號數據采集
4、提供多種文章采集,只要是公眾號內的文章就可以全部采集
5、支持列表顯示,在軟件界面顯示采集的內容
6、支持文章查看,可以通過(guò)外置的瀏覽器查看文章
7、支持生成文章二維碼,方便將當前的文章制作為二維碼
8、支持將列表重復的文章刪除,支持公眾號過(guò)濾
使用說(shuō)明
1、打開(kāi)微信公眾號文章搜索導入助手顯示軟件的功能界面
2、如果你須要學(xué)習軟件就可以打開(kāi)官方提供的視頻教程
3、卡密目前售價(jià)29.9元/永久,只要有用戶(hù),軟件將保持不斷更新,優(yōu)化升級!具體價(jià)錢(qián)以購買(mǎi)頁(yè)為準
4、在軟件輸入關(guān)鍵詞就可以查詢(xún)公眾號文章
5、如圖所示,這里是軟件的登入界面,您須要登陸陌陌 查看全部
微信公眾號文章搜索導入助手軟件破解版微信公眾號文章搜索導入助手
摘要:微信公眾號文章搜索導入助手可以在軟件直接查詢(xún)公眾號文章,可以將文章下載到筆記本保存,方便之后使用,大家多曉得公眾號可以編輯文章發(fā)送,也可以添加音視頻以及圖片,如果你須要使用公眾號資源,可以通過(guò)這款軟件下載,本軟件可以快速采集文章內容,支持文章搜索,輸入關(guān)鍵詞就可以查詢(xún)對應的文章,支持號內采集,直接對公眾號全部數據采集,支持本地搜索,從歷史搜索文章中采集,通過(guò)這款軟件就可以快速對文章采集,并且可以將采集到的文字保存docx、PDF、html,采集過(guò)程也可以下載音視頻!
微信公眾號文章搜索導入助手軟件破解版

微信公眾號文章搜索導入助手可以在軟件直接查詢(xún)公眾號文章,可以將文章下載到筆記本保存,方便之后使用,大家多曉得公眾號可以編輯文章發(fā)送,也可以添加音視頻以及圖片,如果你須要使用公眾號資源,可以通過(guò)這款軟件下載,本軟件可以快速采集文章內容,支持文章搜索,輸入關(guān)鍵詞就可以查詢(xún)對應的文章,支持號內采集,直接對公眾號全部數據采集,支持本地搜索,從歷史搜索文章中采集,通過(guò)這款軟件就可以快速對文章采集,并且可以將采集到的文字保存docx、PDF、html,采集過(guò)程也可以下載音視頻!
軟件功能
1、一鍵采集指定微信公眾號所有群發(fā)文章,并通過(guò)關(guān)鍵詞搜索所有公眾號相關(guān)文章,支持按時(shí)間段采集;
2、微信文章可一鍵導入pdf、word、Excel、txt和html格式,并下載音頻和視頻文件,圖片和文章留言,導出文檔排版可保持和原文一樣;
3、內置開(kāi)放插口,可一鍵同步所有陌陌文章到自己網(wǎng)站,并保證陌陌圖片正常顯示;
4、可實(shí)時(shí)查看文章閱讀量、在看量和留言;
5、軟件提供逾80項其他附加功能,非常強悍實(shí)用;
軟件特色
1、微信公眾號文章搜索導入助手提供簡(jiǎn)單的文章采集功能
2、在軟件界面登陸陌陌就可以開(kāi)始采集數據
3、支持公眾號輸入,可以對指定的公眾號數據采集
4、提供多種文章采集,只要是公眾號內的文章就可以全部采集
5、支持列表顯示,在軟件界面顯示采集的內容
6、支持文章查看,可以通過(guò)外置的瀏覽器查看文章
7、支持生成文章二維碼,方便將當前的文章制作為二維碼
8、支持將列表重復的文章刪除,支持公眾號過(guò)濾
使用說(shuō)明
1、打開(kāi)微信公眾號文章搜索導入助手顯示軟件的功能界面
2、如果你須要學(xué)習軟件就可以打開(kāi)官方提供的視頻教程
3、卡密目前售價(jià)29.9元/永久,只要有用戶(hù),軟件將保持不斷更新,優(yōu)化升級!具體價(jià)錢(qián)以購買(mǎi)頁(yè)為準
4、在軟件輸入關(guān)鍵詞就可以查詢(xún)公眾號文章
5、如圖所示,這里是軟件的登入界面,您須要登陸陌陌
總結:seo優(yōu)化六步走網(wǎng)站優(yōu)化基礎策略分享
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 128 次瀏覽 ? 2020-08-28 20:25
seo優(yōu)化一般是一個(gè)漫長(cháng)又剌激的過(guò)程,依次把握好以下幾點(diǎn)才能做好!
第一步,關(guān)鍵詞策略。挖掘、分析、篩選關(guān)鍵詞,整理關(guān)鍵詞列表。
首先,選擇核心關(guān)鍵詞,seo最直接的目的就是獲得定向的轉化,轉化率很低的詞句不予考慮!
其次,判斷關(guān)鍵詞的競爭度,看關(guān)鍵詞搜索次數、百度指數。
再次,挖掘長(cháng)尾詞,具體工具查看《seo優(yōu)化干貨分享(一)如何挖掘長(cháng)尾關(guān)鍵詞》一文。
第二步,架構策略。針對關(guān)鍵詞設計好的網(wǎng)站架構,這個(gè)階段是極其重要的,因為設計的網(wǎng)站架構、URL構架、內容構架決定了前面的SEO工作是否更容易。對于剛上線(xiàn)的新站來(lái)說(shuō),網(wǎng)站目錄結構設計的淺些,能便捷蜘蛛抓取。
第三步,內容建設策略。持續更新內容保持網(wǎng)站活力,需要思索什么樣的內容是用戶(hù)最須要、最喜歡的,此時(shí)可以忘記SEO,純粹從用戶(hù)角度考慮內容。想要內容愈加受歡迎,可以從分享性、交流性、互助性考慮。想要降低用戶(hù)點(diǎn)擊行為,就要提高相關(guān)文章的關(guān)聯(lián)性、增加頁(yè)面數目、操作步驟,適當的添加娛樂(lè )化內容。
第四步,內鏈策略。如果你第2步做好了,內鏈就很容易解決。此時(shí)的重點(diǎn)是考慮每位關(guān)鍵詞須要多少內鏈支持,主要可以通過(guò)面包屑導航、自動(dòng)內鏈(Tag標簽)、全站鏈接等形式提供內鏈。
第五步,外鏈策略。俗話(huà)說(shuō)“外鏈為皇”,雖然當下外鏈的SEO療效沒(méi)有曾經(jīng)顯著(zhù),但是還是發(fā)揮著(zhù)重要的作用。高質(zhì)量的外鏈主要通過(guò)友情鏈接、商業(yè)合作(購買(mǎi)門(mén)戶(hù)網(wǎng)站合作伙伴的外鏈)、軟文鏈接、用戶(hù)自然轉發(fā)的鏈接(此時(shí)須要做好鏈接誘餌)來(lái)解決。至于以前十分流行的發(fā)外鏈可以不用考慮了,因為療效差并且風(fēng)險大,至于峰會(huì )推廣作用還是有,只是流量被分散早已沒(méi)先前作用這么大。
第六步,廣告引流策略??梢哉乙恍┝髁枯^高的網(wǎng)站或自媒體進(jìn)行合作,在合作方的平臺進(jìn)行設置廣告位,為我們的網(wǎng)站進(jìn)行引流,或做品牌推廣。
好推達人 抖音、小紅書(shū)推廣利器
購買(mǎi)短視頻粉絲/網(wǎng)店/網(wǎng)站 到a5交易
10W+新媒體資源 低投入高轉化 查看全部
seo優(yōu)化六步走網(wǎng)站優(yōu)化基礎策略分享
seo優(yōu)化一般是一個(gè)漫長(cháng)又剌激的過(guò)程,依次把握好以下幾點(diǎn)才能做好!
第一步,關(guān)鍵詞策略。挖掘、分析、篩選關(guān)鍵詞,整理關(guān)鍵詞列表。
首先,選擇核心關(guān)鍵詞,seo最直接的目的就是獲得定向的轉化,轉化率很低的詞句不予考慮!
其次,判斷關(guān)鍵詞的競爭度,看關(guān)鍵詞搜索次數、百度指數。
再次,挖掘長(cháng)尾詞,具體工具查看《seo優(yōu)化干貨分享(一)如何挖掘長(cháng)尾關(guān)鍵詞》一文。
第二步,架構策略。針對關(guān)鍵詞設計好的網(wǎng)站架構,這個(gè)階段是極其重要的,因為設計的網(wǎng)站架構、URL構架、內容構架決定了前面的SEO工作是否更容易。對于剛上線(xiàn)的新站來(lái)說(shuō),網(wǎng)站目錄結構設計的淺些,能便捷蜘蛛抓取。
第三步,內容建設策略。持續更新內容保持網(wǎng)站活力,需要思索什么樣的內容是用戶(hù)最須要、最喜歡的,此時(shí)可以忘記SEO,純粹從用戶(hù)角度考慮內容。想要內容愈加受歡迎,可以從分享性、交流性、互助性考慮。想要降低用戶(hù)點(diǎn)擊行為,就要提高相關(guān)文章的關(guān)聯(lián)性、增加頁(yè)面數目、操作步驟,適當的添加娛樂(lè )化內容。
第四步,內鏈策略。如果你第2步做好了,內鏈就很容易解決。此時(shí)的重點(diǎn)是考慮每位關(guān)鍵詞須要多少內鏈支持,主要可以通過(guò)面包屑導航、自動(dòng)內鏈(Tag標簽)、全站鏈接等形式提供內鏈。
第五步,外鏈策略。俗話(huà)說(shuō)“外鏈為皇”,雖然當下外鏈的SEO療效沒(méi)有曾經(jīng)顯著(zhù),但是還是發(fā)揮著(zhù)重要的作用。高質(zhì)量的外鏈主要通過(guò)友情鏈接、商業(yè)合作(購買(mǎi)門(mén)戶(hù)網(wǎng)站合作伙伴的外鏈)、軟文鏈接、用戶(hù)自然轉發(fā)的鏈接(此時(shí)須要做好鏈接誘餌)來(lái)解決。至于以前十分流行的發(fā)外鏈可以不用考慮了,因為療效差并且風(fēng)險大,至于峰會(huì )推廣作用還是有,只是流量被分散早已沒(méi)先前作用這么大。
第六步,廣告引流策略??梢哉乙恍┝髁枯^高的網(wǎng)站或自媒體進(jìn)行合作,在合作方的平臺進(jìn)行設置廣告位,為我們的網(wǎng)站進(jìn)行引流,或做品牌推廣。
好推達人 抖音、小紅書(shū)推廣利器
購買(mǎi)短視頻粉絲/網(wǎng)店/網(wǎng)站 到a5交易
10W+新媒體資源 低投入高轉化
【seo建設】關(guān)于網(wǎng)站關(guān)鍵詞被百度快速索引的問(wèn)題討論
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 186 次瀏覽 ? 2020-08-27 21:41
經(jīng)常會(huì )有SEO人員討論,為什么我的SEO關(guān)鍵詞總是不被快速索引,而實(shí)際上這兒主要指的是,針對特定關(guān)鍵詞的核心內容,那么,它主要涉及如下兩個(gè)指標:
?、偎饕?br /> ?、诳焖偈珍?br /> 這里值得說(shuō)明的是:索引并不等于收錄,索引只是被百度抓取后,進(jìn)入百度的索引庫中,它并不一定會(huì )在百度搜索結果中顯露。
而經(jīng)過(guò)算法評估后,搜索引擎覺(jué)得它可以展現今搜索結果中的時(shí)侯,它才弄成我們一般所談?wù)摰陌俣仁珍洝?br /> 那么,SEO關(guān)鍵詞優(yōu)化,如何使百度快速索引?
根據往年的工作經(jīng)驗,我們覺(jué)得我們首要須要先解決索引的問(wèn)題,而進(jìn)一步在解決快速收錄的問(wèn)題,為此我們須要:
1、索引
針對百度索引的問(wèn)題,我們主要須要審視如下指標:
頁(yè)面加載速率
對應搜索引擎而言,索引的前提,通常是抓取,只有保持一定的抓取頻度,才可以被有效的索引,而抓取的前提,則是保持頁(yè)面加載速率符合百度官方標準。
通常,百度給出的建議是在3秒以?xún)?,而對于移?dòng)端才能達到1.5秒則最優(yōu)。
為此,你可能須要:
?、賰?yōu)選服務(wù)器,保障服務(wù)器性能適配高頻度的訪(fǎng)問(wèn)與抓取。
?、陂_(kāi)啟頁(yè)面加速器,比如:MIP、服務(wù)器緩存、CDN等。
頁(yè)面內容原創(chuàng )
為什么要指出,內容索引是須要保持頁(yè)面內容原創(chuàng )度,道理很簡(jiǎn)單,基于百度搜索算法,如果你遞交的是采集內容,百度早已索引過(guò)的內容。
當你的網(wǎng)站權重相當較低的時(shí)侯,搜索引擎覺(jué)得,即使你采集的內容被索引與收錄,并不能提供潛在的搜索價(jià)值。
這個(gè)時(shí)侯,搜索引擎都會(huì )舍棄,索引你的內容。
2、快速收錄
在被百度索引后,如何實(shí)現百度快速收錄,它一般須要審視如下幾個(gè)指標:
內容原創(chuàng )且高質(zhì)量
前文提及在索引階段,內容一定是要原創(chuàng )的,而達到快速收錄的標準,我們須要在一次進(jìn)階,確保內容是高質(zhì)量的,并且滿(mǎn)足一定搜索需求,比如:
?、賰热蓓?yè)面核心主題的關(guān)鍵詞,需要具備一定的搜索量。
?、趦热荻温渚哂幸欢ǖ倪壿嫿Y構。
?、蹆热蓓?yè)面,具有極高的參考價(jià)值,合理的相關(guān)內容推薦。
推進(jìn)百度索引速率
當我們創(chuàng )作完滿(mǎn)足快速收錄的文章內容時(shí),我們須要將該內容,快速被搜索引擎索引,為此,我們須要增強,百度蜘蛛發(fā)覺(jué)目標內容的可能性,可以嘗試如下渠道:
?、倮肁PI接口主動(dòng)遞交。
?、诮⒕W(wǎng)站地圖,并在百度搜索資源平臺遞交。
?、叟渲眯苷铺?,利用熊掌號遞交內容。
?、茉诟邫嘀鼐W(wǎng)站引蜘蛛,利用投稿與軟文的方式,在高權重站點(diǎn)發(fā)布優(yōu)質(zhì)內容,并收錄目標URL。
總結:SEO關(guān)鍵詞優(yōu)化,快速達到索引的目的,通??梢愿鶕鲜隽鞒滩僮?,一般都可以實(shí)現。 查看全部
【seo建設】關(guān)于網(wǎng)站關(guān)鍵詞被百度快速索引的問(wèn)題討論
經(jīng)常會(huì )有SEO人員討論,為什么我的SEO關(guān)鍵詞總是不被快速索引,而實(shí)際上這兒主要指的是,針對特定關(guān)鍵詞的核心內容,那么,它主要涉及如下兩個(gè)指標:
?、偎饕?br /> ?、诳焖偈珍?br /> 這里值得說(shuō)明的是:索引并不等于收錄,索引只是被百度抓取后,進(jìn)入百度的索引庫中,它并不一定會(huì )在百度搜索結果中顯露。
而經(jīng)過(guò)算法評估后,搜索引擎覺(jué)得它可以展現今搜索結果中的時(shí)侯,它才弄成我們一般所談?wù)摰陌俣仁珍洝?br /> 那么,SEO關(guān)鍵詞優(yōu)化,如何使百度快速索引?
根據往年的工作經(jīng)驗,我們覺(jué)得我們首要須要先解決索引的問(wèn)題,而進(jìn)一步在解決快速收錄的問(wèn)題,為此我們須要:
1、索引
針對百度索引的問(wèn)題,我們主要須要審視如下指標:
頁(yè)面加載速率
對應搜索引擎而言,索引的前提,通常是抓取,只有保持一定的抓取頻度,才可以被有效的索引,而抓取的前提,則是保持頁(yè)面加載速率符合百度官方標準。
通常,百度給出的建議是在3秒以?xún)?,而對于移?dòng)端才能達到1.5秒則最優(yōu)。
為此,你可能須要:
?、賰?yōu)選服務(wù)器,保障服務(wù)器性能適配高頻度的訪(fǎng)問(wèn)與抓取。
?、陂_(kāi)啟頁(yè)面加速器,比如:MIP、服務(wù)器緩存、CDN等。
頁(yè)面內容原創(chuàng )
為什么要指出,內容索引是須要保持頁(yè)面內容原創(chuàng )度,道理很簡(jiǎn)單,基于百度搜索算法,如果你遞交的是采集內容,百度早已索引過(guò)的內容。
當你的網(wǎng)站權重相當較低的時(shí)侯,搜索引擎覺(jué)得,即使你采集的內容被索引與收錄,并不能提供潛在的搜索價(jià)值。
這個(gè)時(shí)侯,搜索引擎都會(huì )舍棄,索引你的內容。

2、快速收錄
在被百度索引后,如何實(shí)現百度快速收錄,它一般須要審視如下幾個(gè)指標:
內容原創(chuàng )且高質(zhì)量
前文提及在索引階段,內容一定是要原創(chuàng )的,而達到快速收錄的標準,我們須要在一次進(jìn)階,確保內容是高質(zhì)量的,并且滿(mǎn)足一定搜索需求,比如:
?、賰热蓓?yè)面核心主題的關(guān)鍵詞,需要具備一定的搜索量。
?、趦热荻温渚哂幸欢ǖ倪壿嫿Y構。
?、蹆热蓓?yè)面,具有極高的參考價(jià)值,合理的相關(guān)內容推薦。
推進(jìn)百度索引速率
當我們創(chuàng )作完滿(mǎn)足快速收錄的文章內容時(shí),我們須要將該內容,快速被搜索引擎索引,為此,我們須要增強,百度蜘蛛發(fā)覺(jué)目標內容的可能性,可以嘗試如下渠道:
?、倮肁PI接口主動(dòng)遞交。
?、诮⒕W(wǎng)站地圖,并在百度搜索資源平臺遞交。
?、叟渲眯苷铺?,利用熊掌號遞交內容。
?、茉诟邫嘀鼐W(wǎng)站引蜘蛛,利用投稿與軟文的方式,在高權重站點(diǎn)發(fā)布優(yōu)質(zhì)內容,并收錄目標URL。
總結:SEO關(guān)鍵詞優(yōu)化,快速達到索引的目的,通??梢愿鶕鲜隽鞒滩僮?,一般都可以實(shí)現。
程序里的后端和前端是哪些意思?
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 199 次瀏覽 ? 2020-08-27 05:18
可以這樣理解:能看到的都是后端,看不見(jiàn)的就是前端。
前端包括設計、html、css、JavaScript。設計挺好理解,就是產(chǎn)品的風(fēng)格、布局,完成后它只是一張圖片,它為我們前面的工作“打了個(gè)樣”,讓我們一開(kāi)始就曉得產(chǎn)品完成后是哪些樣子。然后通過(guò)html+css實(shí)現與設計圖療效一樣的靜態(tài)頁(yè)面,html是超文本標記,比如設計圖上面有一個(gè)文字超鏈接,我們就用超文本標記中的標簽表示這是一個(gè)超鏈接,用href屬性指定超鏈接地址,完整寫(xiě)法是這是超鏈接文字內容。css是樣式表,比如前面超鏈接文字是哪些顏色、需不需要頓號等,都由css控制。JavaScript能實(shí)現一些動(dòng)漫療效或后端交互,比如一個(gè)注冊頁(yè)面上面要求填寫(xiě)手機號,但用戶(hù)填寫(xiě)的是英文字符,那么可以通過(guò)JavaScript來(lái)判定并提醒用戶(hù)輸入11位阿拉伯數字。
后端是指通過(guò)程序語(yǔ)言(、php、jsp、java、c++等)實(shí)現動(dòng)態(tài)數據。這里的動(dòng)態(tài)數據不是指文字或圖片在跳動(dòng),而是指數據能通過(guò)數據庫完成新增、刪除、編輯等指令。比如前面我舉的文字超鏈接事例,如果這個(gè)文字超鏈接每晚都要更新,就可以通過(guò)程序語(yǔ)言來(lái)實(shí)現在管理后臺進(jìn)行更新操作。雖然我們也可以通過(guò)自動(dòng)更改html代碼來(lái)實(shí)現,但當數據量較大的時(shí)侯,這種操作是不現實(shí)的。
任何一款互聯(lián)網(wǎng)產(chǎn)品都要通過(guò)前后端互相協(xié)作完成,雖然都要寫(xiě)代碼,但她們的分工卻不同,相對來(lái)說(shuō),后端程序要更復雜一些。 查看全部
程序里的后端和前端是哪些意思?
可以這樣理解:能看到的都是后端,看不見(jiàn)的就是前端。
前端包括設計、html、css、JavaScript。設計挺好理解,就是產(chǎn)品的風(fēng)格、布局,完成后它只是一張圖片,它為我們前面的工作“打了個(gè)樣”,讓我們一開(kāi)始就曉得產(chǎn)品完成后是哪些樣子。然后通過(guò)html+css實(shí)現與設計圖療效一樣的靜態(tài)頁(yè)面,html是超文本標記,比如設計圖上面有一個(gè)文字超鏈接,我們就用超文本標記中的標簽表示這是一個(gè)超鏈接,用href屬性指定超鏈接地址,完整寫(xiě)法是這是超鏈接文字內容。css是樣式表,比如前面超鏈接文字是哪些顏色、需不需要頓號等,都由css控制。JavaScript能實(shí)現一些動(dòng)漫療效或后端交互,比如一個(gè)注冊頁(yè)面上面要求填寫(xiě)手機號,但用戶(hù)填寫(xiě)的是英文字符,那么可以通過(guò)JavaScript來(lái)判定并提醒用戶(hù)輸入11位阿拉伯數字。
后端是指通過(guò)程序語(yǔ)言(、php、jsp、java、c++等)實(shí)現動(dòng)態(tài)數據。這里的動(dòng)態(tài)數據不是指文字或圖片在跳動(dòng),而是指數據能通過(guò)數據庫完成新增、刪除、編輯等指令。比如前面我舉的文字超鏈接事例,如果這個(gè)文字超鏈接每晚都要更新,就可以通過(guò)程序語(yǔ)言來(lái)實(shí)現在管理后臺進(jìn)行更新操作。雖然我們也可以通過(guò)自動(dòng)更改html代碼來(lái)實(shí)現,但當數據量較大的時(shí)侯,這種操作是不現實(shí)的。
任何一款互聯(lián)網(wǎng)產(chǎn)品都要通過(guò)前后端互相協(xié)作完成,雖然都要寫(xiě)代碼,但她們的分工卻不同,相對來(lái)說(shuō),后端程序要更復雜一些。
人人都有的關(guān)鍵詞推薦工具,你真的會(huì )用嗎?
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 193 次瀏覽 ? 2020-08-27 04:33
獲取關(guān)鍵詞的方式有很多,其中就包括百度自帶的關(guān)鍵詞推薦工具(其他平臺也都有各自的關(guān)鍵詞推薦工具,本文以百度關(guān)鍵詞工具為例)。
通過(guò)關(guān)鍵詞工具,能夠挺好地幫助我們篩選出核心關(guān)鍵詞來(lái)進(jìn)行投放。但是在實(shí)際投放過(guò)程中,發(fā)現有的關(guān)鍵詞轉化療效并不好。這是因為我們經(jīng)常站在自己的角度去推測訪(fǎng)客會(huì )搜什么詞,而這種詞訪(fǎng)客并不一定真的會(huì )搜索。今天就和你們分享一下,如何更好的發(fā)揮出關(guān)鍵詞推薦工具的作用。
關(guān)鍵詞推薦工具的用法很簡(jiǎn)單,在助手里打開(kāi)關(guān)鍵詞推薦工具,輸入我們須要拓展的核心關(guān)鍵詞,系統會(huì )手動(dòng)列舉好多和關(guān)鍵詞相關(guān)的詞。以“裝修公司”為例:
系統一共推薦了1000個(gè)相像或則相關(guān)的關(guān)鍵詞,這些詞大部分是訪(fǎng)客實(shí)實(shí)在在搜索過(guò)的,是搜索某種產(chǎn)品的一種彰顯,當然也有一部分是我們推廣人員拿來(lái)搜索進(jìn)行排行查看的。
1、查漏補缺
通常情況下,我們把詞篩選過(guò)后,都應當添加到帳戶(hù)上面。但實(shí)際上,還是有很多關(guān)鍵詞會(huì )被漏掉,你可以用關(guān)鍵詞工具去搜索一下,一定有一些詞是沒(méi)有被添加到帳戶(hù)里的。這些詞有搜索量,也有競爭度,漏掉了就相當于流失了一部分流量,比較可惜。
另外,我們在添加關(guān)鍵詞的時(shí)侯,不能只盯住“裝修”這個(gè)詞。裝修公司的人,肯定會(huì )認為用戶(hù)也會(huì )搜索家裝公司,但實(shí)際上,訪(fǎng)客不僅會(huì )搜索“裝修”相關(guān)詞,還會(huì )搜索“家裝”有關(guān)的詞,這些都是潛在的顧客。
如圖,這兩個(gè)詞,搜索量都不小,而且競爭度比較適中,適合推廣。但是本人在實(shí)況里搜索了一下,發(fā)現這兩個(gè)詞沒(méi)有人做。另外,很多組詞,都是以“裝修”為主,如果以“家裝”為核心來(lái)組詞,又可以帶來(lái)很大的一部分流量。
2、關(guān)注競爭度
關(guān)鍵詞推薦工具里推薦的詞,有搜索量,還有競爭度??梢园殃P(guān)鍵詞復制到表格里,用數據條來(lái)顯示競爭度,比較直觀(guān)。一般情況下,搜索量大,競爭度肯定大 。不過(guò)也有一些詞,搜索量十分小,但是競爭度卻比搜索量大的詞的還要大。
之所以會(huì )出現搜索量小,競爭度大,有可能是店家自己認為這樣的詞價(jià)值比較高,然后相互競爭引起的。所以當我們推廣這種詞的時(shí)侯,就要考慮,這些詞的轉化率怎么樣,不要盲目的進(jìn)行投放。
3、發(fā)掘長(cháng)尾詞
另外還有一些搜索量小,競爭度小的詞,卻沒(méi)有人做,這是一塊長(cháng)尾市場(chǎng),需要及時(shí)補充起來(lái)。
如圖中標黃所示,搜索這種詞的人,當時(shí)的心境,應該是處于迷茫階段,不知道哪家家裝公司靠譜,他們須要的是有人才能正確的指導她們來(lái)選擇家裝公司,所以假如才能對她們進(jìn)行引導,把著(zhù)陸頁(yè)面設置好,將會(huì )有不錯的轉化。
這就是我和你們分享的怎樣借助關(guān)鍵詞推薦工具,找到性?xún)r(jià)比高的關(guān)鍵詞。簡(jiǎn)單的說(shuō),就是把這個(gè)工具借助好,進(jìn)行查漏補缺,通過(guò)剖析搜索量和競爭度之間的關(guān)系,找到競爭度小,轉化好的關(guān)鍵詞來(lái)投放,避免做熱詞,你賺我搶?zhuān)貌粌斒А?br /> 給你們推薦我國新一代大數據用戶(hù)行為剖析與數據智能平臺:數極客(),是支持無(wú)埋點(diǎn)、前端埋點(diǎn)、后端埋點(diǎn)、API導出四種混和數據采集方式,整合剖析用戶(hù)行為數據和業(yè)務(wù)數據,可以手動(dòng)檢測網(wǎng)站、APP、小程序等多種渠道推廣療效剖析,是下降黑客們必備的互聯(lián)網(wǎng)數據剖析軟件。數極客支持實(shí)時(shí)多維剖析、漏斗剖析、留存剖析、路徑剖析等十大數據剖析方式以及APP數據剖析、網(wǎng)站統計、網(wǎng)站分析、小程序數據統計、用戶(hù)畫(huà)像等應用場(chǎng)景,業(yè)內首創(chuàng )了六種提高轉化率的數據剖析模型,是數據剖析軟件領(lǐng)域首款應用定量分析與定性剖析方式的數據剖析產(chǎn)品
。 查看全部
人人都有的關(guān)鍵詞推薦工具,你真的會(huì )用嗎?
獲取關(guān)鍵詞的方式有很多,其中就包括百度自帶的關(guān)鍵詞推薦工具(其他平臺也都有各自的關(guān)鍵詞推薦工具,本文以百度關(guān)鍵詞工具為例)。
通過(guò)關(guān)鍵詞工具,能夠挺好地幫助我們篩選出核心關(guān)鍵詞來(lái)進(jìn)行投放。但是在實(shí)際投放過(guò)程中,發(fā)現有的關(guān)鍵詞轉化療效并不好。這是因為我們經(jīng)常站在自己的角度去推測訪(fǎng)客會(huì )搜什么詞,而這種詞訪(fǎng)客并不一定真的會(huì )搜索。今天就和你們分享一下,如何更好的發(fā)揮出關(guān)鍵詞推薦工具的作用。
關(guān)鍵詞推薦工具的用法很簡(jiǎn)單,在助手里打開(kāi)關(guān)鍵詞推薦工具,輸入我們須要拓展的核心關(guān)鍵詞,系統會(huì )手動(dòng)列舉好多和關(guān)鍵詞相關(guān)的詞。以“裝修公司”為例:

系統一共推薦了1000個(gè)相像或則相關(guān)的關(guān)鍵詞,這些詞大部分是訪(fǎng)客實(shí)實(shí)在在搜索過(guò)的,是搜索某種產(chǎn)品的一種彰顯,當然也有一部分是我們推廣人員拿來(lái)搜索進(jìn)行排行查看的。
1、查漏補缺
通常情況下,我們把詞篩選過(guò)后,都應當添加到帳戶(hù)上面。但實(shí)際上,還是有很多關(guān)鍵詞會(huì )被漏掉,你可以用關(guān)鍵詞工具去搜索一下,一定有一些詞是沒(méi)有被添加到帳戶(hù)里的。這些詞有搜索量,也有競爭度,漏掉了就相當于流失了一部分流量,比較可惜。
另外,我們在添加關(guān)鍵詞的時(shí)侯,不能只盯住“裝修”這個(gè)詞。裝修公司的人,肯定會(huì )認為用戶(hù)也會(huì )搜索家裝公司,但實(shí)際上,訪(fǎng)客不僅會(huì )搜索“裝修”相關(guān)詞,還會(huì )搜索“家裝”有關(guān)的詞,這些都是潛在的顧客。

如圖,這兩個(gè)詞,搜索量都不小,而且競爭度比較適中,適合推廣。但是本人在實(shí)況里搜索了一下,發(fā)現這兩個(gè)詞沒(méi)有人做。另外,很多組詞,都是以“裝修”為主,如果以“家裝”為核心來(lái)組詞,又可以帶來(lái)很大的一部分流量。
2、關(guān)注競爭度
關(guān)鍵詞推薦工具里推薦的詞,有搜索量,還有競爭度??梢园殃P(guān)鍵詞復制到表格里,用數據條來(lái)顯示競爭度,比較直觀(guān)。一般情況下,搜索量大,競爭度肯定大 。不過(guò)也有一些詞,搜索量十分小,但是競爭度卻比搜索量大的詞的還要大。


之所以會(huì )出現搜索量小,競爭度大,有可能是店家自己認為這樣的詞價(jià)值比較高,然后相互競爭引起的。所以當我們推廣這種詞的時(shí)侯,就要考慮,這些詞的轉化率怎么樣,不要盲目的進(jìn)行投放。
3、發(fā)掘長(cháng)尾詞
另外還有一些搜索量小,競爭度小的詞,卻沒(méi)有人做,這是一塊長(cháng)尾市場(chǎng),需要及時(shí)補充起來(lái)。

如圖中標黃所示,搜索這種詞的人,當時(shí)的心境,應該是處于迷茫階段,不知道哪家家裝公司靠譜,他們須要的是有人才能正確的指導她們來(lái)選擇家裝公司,所以假如才能對她們進(jìn)行引導,把著(zhù)陸頁(yè)面設置好,將會(huì )有不錯的轉化。
這就是我和你們分享的怎樣借助關(guān)鍵詞推薦工具,找到性?xún)r(jià)比高的關(guān)鍵詞。簡(jiǎn)單的說(shuō),就是把這個(gè)工具借助好,進(jìn)行查漏補缺,通過(guò)剖析搜索量和競爭度之間的關(guān)系,找到競爭度小,轉化好的關(guān)鍵詞來(lái)投放,避免做熱詞,你賺我搶?zhuān)貌粌斒А?br /> 給你們推薦我國新一代大數據用戶(hù)行為剖析與數據智能平臺:數極客(),是支持無(wú)埋點(diǎn)、前端埋點(diǎn)、后端埋點(diǎn)、API導出四種混和數據采集方式,整合剖析用戶(hù)行為數據和業(yè)務(wù)數據,可以手動(dòng)檢測網(wǎng)站、APP、小程序等多種渠道推廣療效剖析,是下降黑客們必備的互聯(lián)網(wǎng)數據剖析軟件。數極客支持實(shí)時(shí)多維剖析、漏斗剖析、留存剖析、路徑剖析等十大數據剖析方式以及APP數據剖析、網(wǎng)站統計、網(wǎng)站分析、小程序數據統計、用戶(hù)畫(huà)像等應用場(chǎng)景,業(yè)內首創(chuàng )了六種提高轉化率的數據剖析模型,是數據剖析軟件領(lǐng)域首款應用定量分析與定性剖析方式的數據剖析產(chǎn)品
。
干貨 | API已改變SEO的玩法,不懂只能改行
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 172 次瀏覽 ? 2020-08-26 05:47
我們可以如何做到更好?
1擁有最全面確切的行業(yè)詞庫
我們在營(yíng)運某個(gè)網(wǎng)站或者欄目時(shí),往往會(huì )垂直于一個(gè)行業(yè)。每個(gè)行業(yè)都有自己的范圍,如果淺顯的講,實(shí)際上每位行業(yè)都有自己一批核心關(guān)鍵詞+長(cháng)尾詞,由這種詞匯劃分了一個(gè)行業(yè)的范圍,所以擁有一個(gè)行業(yè)詞庫是對一個(gè)行業(yè)充分把握的必備品。
例如理財行業(yè)圍繞的核心詞部份如下:
理財行業(yè)的核心詞之下長(cháng)尾詞列表部份如下:
2用詞庫找出搜索引擎最須要的內容
當我們擁有一個(gè)行業(yè)的所有詞匯后,我們能夠真正意義上懂得這個(gè)行業(yè),懂得這個(gè)行業(yè)用戶(hù)的需求。
接下來(lái)我們要在這近百萬(wàn)的理財詞庫中,找到最能帶來(lái)流量的詞匯,這里我們借助百度PC指數、360指數、百度移動(dòng)指數、競價(jià)規劃師PC搜索量、競價(jià)規劃師聯(lián)通搜索量、競價(jià)規劃師競爭度:
通過(guò)以上公式我們可以篩選出行業(yè)中最能帶來(lái)流量的一批詞,從百萬(wàn)詞庫中篩選出104635個(gè)流量詞。
3通過(guò) API 篩選出搜索引擎最缺少內容的關(guān)鍵詞
有了前面篩選下來(lái)的104635個(gè)流量詞,我們便可以裝入百度、360等搜索引擎進(jìn)行模擬查詢(xún),了解排位在前20位的網(wǎng)頁(yè)對應的url級別和標題情況,了解搜索引擎是否早已內容飽和。
通過(guò)API商城中的百度PC端TOP 50位排行情況API(),我們可以輕松獲得JSON格式的排行情況。
下圖中我們以“什么是指數基金”這個(gè)詞為例來(lái)獲取TOP20搜索結果排行情況:
返回的排行信息中比較重要的有兩種信息,域名權重信息和Title信息。
域名權重信息代表著(zhù)是否排名前50的域名中是不是都是有權重還比較低的域名,這樣你才有機會(huì )擠進(jìn)去。
Title信息的剖析意味著(zhù)互聯(lián)網(wǎng)+上關(guān)于這個(gè)關(guān)鍵詞的內容是否飽和,是不是由于百度為了填充信息而選擇了一些補充信息來(lái)填充搜索結果。
通過(guò)剖析這兩個(gè)信息,我們能夠決定這個(gè)關(guān)鍵詞是否優(yōu)先值得去做內容。
這里做個(gè)假定,如果我的網(wǎng)站5118的權重是A,那么我們就要找尋TOP20排行結果中是否還有好多5118權重B級甚至C級的網(wǎng)站排名結果,如果有這么我們就還有機會(huì )攻打她們的位置。
另外還有一種情況,如果通過(guò)域名發(fā)覺(jué)不了機會(huì ),還有另一個(gè)機會(huì ),就是雖然這種高權重域名的內容并沒(méi)有完全符合搜索要求,也就是說(shuō)結果中一些內容標題沒(méi)有完全匹配關(guān)鍵詞。
例如上圖中的Title,就沒(méi)有完全收錄“什么是指數基金”這個(gè)詞,只不過(guò)是搜索引擎為了補充結果而裝入的索引,那我們也可以把這種位置標記為有機會(huì )。
通過(guò)類(lèi)似前面的算法,每個(gè)詞我們都可以得到一個(gè)機會(huì )分值,我們可以設置一個(gè)篩選的閥值,例如設置為8,如果TOP 20的結果中有8個(gè)以上是有機會(huì )的位置,我們就將這種關(guān)鍵詞保留出來(lái),進(jìn)入到第四階段。
4幫助搜索引擎建立這種內容
當我們通過(guò)上面三步完成了最高性?xún)r(jià)比seo關(guān)鍵詞篩選過(guò)后,我們便可以安排編輯人員進(jìn)行文章或者專(zhuān)題的編撰,或是安排技術(shù)部進(jìn)行文章的采集,亦或是安排營(yíng)運部門(mén)引導用戶(hù)制造內容。
通過(guò)這四個(gè)步驟的層層過(guò)濾,我們的內容營(yíng)運工作將會(huì )十分有針對性,雖然里面寫(xiě)了這么多文字,但是畢竟就是下邊三個(gè)目的:
5監控SEO療效
隨著(zhù)內容的不斷建立,我們須要整體評估前面確定的內容策略的成效,可能要對一些參數和閥值甚至算法進(jìn)行微調:
1、借助站長(cháng)后臺(),了解爬蟲(chóng)爬行次數和抓取時(shí)間,了解爬蟲(chóng)遇見(jiàn)的異常次數。
因為只有監控那些參數能夠曉得你的內容制造下來(lái)以后百度爬蟲(chóng)是否如期而來(lái),并且沒(méi)有碰到任何障礙,這樣確保你的內容策略沒(méi)有由于其他技術(shù)運維的干擾誘因引起策略沒(méi)有發(fā)揮作用。
2、通過(guò)5118PC收錄監測功能或則百度PC收錄API檢測制造的內容是否被收錄。
收錄是有排行的前提,如果內容不能收錄,爬蟲(chóng)爬行再多也沒(méi)有意義。內容做下來(lái)不收錄,對于內容策略也將會(huì )是一個(gè)嚴打,所以收錄的監控也至關(guān)重要。
3、檢查排行是否如預期在下降
隨著(zhù)內容和收錄的不斷降低,我們SEO終極目的就是要獲得好的排行。
▲ 可以利用5118關(guān)鍵詞監控分批添加自己關(guān)鍵詞進(jìn)行監控
▲ 也可以利用5118關(guān)鍵詞排名采集API進(jìn)行監控
最 后 總 結
人類(lèi)近代文明的發(fā)展就是一個(gè)追求極其自動(dòng)化過(guò)程,無(wú)人工廠(chǎng)、無(wú)人超市、無(wú)人機、作為大數據時(shí)代的SEO管理人員,同樣要追求SEO的自動(dòng)化,與時(shí)俱進(jìn)能夠實(shí)現自我的突破。
通過(guò)這樣的內容生產(chǎn)過(guò)程,我們可以逐漸優(yōu)化我們的內容策略,做到內容生產(chǎn)流量療效的最大化。所以你還在等哪些,趕快用起這種可以使你輕松晉升的大數據API。
享受高手級營(yíng)運視野
微信ID:data5118長(cháng)按加個(gè)關(guān)注撒 查看全部
干貨 | API已改變SEO的玩法,不懂只能改行

我們可以如何做到更好?
1擁有最全面確切的行業(yè)詞庫
我們在營(yíng)運某個(gè)網(wǎng)站或者欄目時(shí),往往會(huì )垂直于一個(gè)行業(yè)。每個(gè)行業(yè)都有自己的范圍,如果淺顯的講,實(shí)際上每位行業(yè)都有自己一批核心關(guān)鍵詞+長(cháng)尾詞,由這種詞匯劃分了一個(gè)行業(yè)的范圍,所以擁有一個(gè)行業(yè)詞庫是對一個(gè)行業(yè)充分把握的必備品。
例如理財行業(yè)圍繞的核心詞部份如下:

理財行業(yè)的核心詞之下長(cháng)尾詞列表部份如下:


2用詞庫找出搜索引擎最須要的內容
當我們擁有一個(gè)行業(yè)的所有詞匯后,我們能夠真正意義上懂得這個(gè)行業(yè),懂得這個(gè)行業(yè)用戶(hù)的需求。
接下來(lái)我們要在這近百萬(wàn)的理財詞庫中,找到最能帶來(lái)流量的詞匯,這里我們借助百度PC指數、360指數、百度移動(dòng)指數、競價(jià)規劃師PC搜索量、競價(jià)規劃師聯(lián)通搜索量、競價(jià)規劃師競爭度:

通過(guò)以上公式我們可以篩選出行業(yè)中最能帶來(lái)流量的一批詞,從百萬(wàn)詞庫中篩選出104635個(gè)流量詞。

3通過(guò) API 篩選出搜索引擎最缺少內容的關(guān)鍵詞
有了前面篩選下來(lái)的104635個(gè)流量詞,我們便可以裝入百度、360等搜索引擎進(jìn)行模擬查詢(xún),了解排位在前20位的網(wǎng)頁(yè)對應的url級別和標題情況,了解搜索引擎是否早已內容飽和。
通過(guò)API商城中的百度PC端TOP 50位排行情況API(),我們可以輕松獲得JSON格式的排行情況。
下圖中我們以“什么是指數基金”這個(gè)詞為例來(lái)獲取TOP20搜索結果排行情況:

返回的排行信息中比較重要的有兩種信息,域名權重信息和Title信息。
域名權重信息代表著(zhù)是否排名前50的域名中是不是都是有權重還比較低的域名,這樣你才有機會(huì )擠進(jìn)去。
Title信息的剖析意味著(zhù)互聯(lián)網(wǎng)+上關(guān)于這個(gè)關(guān)鍵詞的內容是否飽和,是不是由于百度為了填充信息而選擇了一些補充信息來(lái)填充搜索結果。
通過(guò)剖析這兩個(gè)信息,我們能夠決定這個(gè)關(guān)鍵詞是否優(yōu)先值得去做內容。
這里做個(gè)假定,如果我的網(wǎng)站5118的權重是A,那么我們就要找尋TOP20排行結果中是否還有好多5118權重B級甚至C級的網(wǎng)站排名結果,如果有這么我們就還有機會(huì )攻打她們的位置。

另外還有一種情況,如果通過(guò)域名發(fā)覺(jué)不了機會(huì ),還有另一個(gè)機會(huì ),就是雖然這種高權重域名的內容并沒(méi)有完全符合搜索要求,也就是說(shuō)結果中一些內容標題沒(méi)有完全匹配關(guān)鍵詞。

例如上圖中的Title,就沒(méi)有完全收錄“什么是指數基金”這個(gè)詞,只不過(guò)是搜索引擎為了補充結果而裝入的索引,那我們也可以把這種位置標記為有機會(huì )。
通過(guò)類(lèi)似前面的算法,每個(gè)詞我們都可以得到一個(gè)機會(huì )分值,我們可以設置一個(gè)篩選的閥值,例如設置為8,如果TOP 20的結果中有8個(gè)以上是有機會(huì )的位置,我們就將這種關(guān)鍵詞保留出來(lái),進(jìn)入到第四階段。
4幫助搜索引擎建立這種內容
當我們通過(guò)上面三步完成了最高性?xún)r(jià)比seo關(guān)鍵詞篩選過(guò)后,我們便可以安排編輯人員進(jìn)行文章或者專(zhuān)題的編撰,或是安排技術(shù)部進(jìn)行文章的采集,亦或是安排營(yíng)運部門(mén)引導用戶(hù)制造內容。
通過(guò)這四個(gè)步驟的層層過(guò)濾,我們的內容營(yíng)運工作將會(huì )十分有針對性,雖然里面寫(xiě)了這么多文字,但是畢竟就是下邊三個(gè)目的:

5監控SEO療效
隨著(zhù)內容的不斷建立,我們須要整體評估前面確定的內容策略的成效,可能要對一些參數和閥值甚至算法進(jìn)行微調:
1、借助站長(cháng)后臺(),了解爬蟲(chóng)爬行次數和抓取時(shí)間,了解爬蟲(chóng)遇見(jiàn)的異常次數。
因為只有監控那些參數能夠曉得你的內容制造下來(lái)以后百度爬蟲(chóng)是否如期而來(lái),并且沒(méi)有碰到任何障礙,這樣確保你的內容策略沒(méi)有由于其他技術(shù)運維的干擾誘因引起策略沒(méi)有發(fā)揮作用。


2、通過(guò)5118PC收錄監測功能或則百度PC收錄API檢測制造的內容是否被收錄。
收錄是有排行的前提,如果內容不能收錄,爬蟲(chóng)爬行再多也沒(méi)有意義。內容做下來(lái)不收錄,對于內容策略也將會(huì )是一個(gè)嚴打,所以收錄的監控也至關(guān)重要。


3、檢查排行是否如預期在下降
隨著(zhù)內容和收錄的不斷降低,我們SEO終極目的就是要獲得好的排行。

▲ 可以利用5118關(guān)鍵詞監控分批添加自己關(guān)鍵詞進(jìn)行監控

▲ 也可以利用5118關(guān)鍵詞排名采集API進(jìn)行監控

最 后 總 結
人類(lèi)近代文明的發(fā)展就是一個(gè)追求極其自動(dòng)化過(guò)程,無(wú)人工廠(chǎng)、無(wú)人超市、無(wú)人機、作為大數據時(shí)代的SEO管理人員,同樣要追求SEO的自動(dòng)化,與時(shí)俱進(jìn)能夠實(shí)現自我的突破。
通過(guò)這樣的內容生產(chǎn)過(guò)程,我們可以逐漸優(yōu)化我們的內容策略,做到內容生產(chǎn)流量療效的最大化。所以你還在等哪些,趕快用起這種可以使你輕松晉升的大數據API。




享受高手級營(yíng)運視野


微信ID:data5118長(cháng)按加個(gè)關(guān)注撒
淺析網(wǎng)路大數據的商業(yè)價(jià)值和采集方法
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 288 次瀏覽 ? 2020-08-26 05:42
據賽迪顧問(wèn)統計,在技術(shù)領(lǐng)域中近來(lái)10,000條專(zhuān)利中常見(jiàn)的關(guān)鍵詞中,數據采集、存儲介質(zhì)、海量數據、分布式成為技術(shù)領(lǐng)域最熱詞匯。其中,數據采集是提及最多的詞匯。
數據采集是進(jìn)行大數據剖析的前提也是必要條件,在整個(gè)數據借助流程中搶占重要地位。數據采集方式分為三種:系統日志采集法、網(wǎng)絡(luò )數據采集法以及其他數據采集法。隨著(zhù)Web2.0的發(fā)展,整個(gè)Web系統囊括了大量的價(jià)值化數據,目前針對Web系統的數據采集通常通過(guò)網(wǎng)路爬蟲(chóng)來(lái)實(shí)現,本文將對網(wǎng)路大數據和網(wǎng)路爬蟲(chóng)進(jìn)行系統描述。
什么是網(wǎng)路大數據
網(wǎng)絡(luò )大數據,是指非傳統數據源,例如通過(guò)抓取搜索引擎獲得的不同方式的數據。網(wǎng)絡(luò )大數據也可以是從數據聚合商或搜索引擎網(wǎng)站購買(mǎi)的數據,用于改善目標營(yíng)銷(xiāo)。這種類(lèi)型的數據可以是結構化的,也可以是非結構化的(更有可能的),可以由網(wǎng)路鏈接,文本數據,數據表,圖像,視頻等組成。
網(wǎng)絡(luò )構成了現今提供給我們的大部分數據,根據許多研究可知,非結構化數據搶占了其中的80%。盡管這種方式的數據較早被忽視了,但是競爭激化以及須要更多數據的需求促使必須使用盡可能多的數據源。
網(wǎng)絡(luò )大數據可以拿來(lái)干哪些
互聯(lián)網(wǎng)擁有數十億頁(yè)的數據,網(wǎng)絡(luò )大數據作為潛在的數據來(lái)源,對于行業(yè)的戰略性業(yè)務(wù)發(fā)展來(lái)說(shuō)擁有巨大的借助潛力。
以下舉例說(shuō)明網(wǎng)路大數據在不同行業(yè)的借助價(jià)值:
除此之外,在《How Web Scraping is Transforming the World with its Applications》文章中詳盡得列舉出網(wǎng)路大數據在制造業(yè)、金融研究、風(fēng)險管理等諸多領(lǐng)域的借助價(jià)值。
如何搜集網(wǎng)路數據
目前網(wǎng)路數據采集有兩種方式:一種是API,另一種是網(wǎng)路爬蟲(chóng)法。API又叫應用程序插口,是網(wǎng)站的管理者為了使用者便捷,編寫(xiě)的一種程序插口。目前主流的社交媒體平臺如新浪微博、百度貼吧以及Facebook等均提供API服務(wù),可以在其官網(wǎng)開(kāi)放平臺上獲取相關(guān)DEMO。但是API技術(shù)雖然受限于平臺開(kāi)發(fā)者,為了減少網(wǎng)站(平臺)的負荷,一般平臺均會(huì )對每晚插口調用上限做限制,這給我們帶來(lái)極大的不便利。為此我們一般采用第二種形式——網(wǎng)絡(luò )爬蟲(chóng)。
利用爬蟲(chóng)技術(shù)采集網(wǎng)絡(luò )大數據
網(wǎng)絡(luò )爬蟲(chóng)是指根據一定的規則手動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或則腳本。該方式可以將非結構化數據從網(wǎng)頁(yè)中抽取下來(lái),將其儲存為統一的本地數據文件,并以結構化的形式儲存。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以手動(dòng)關(guān)聯(lián)。
在互聯(lián)網(wǎng)時(shí)代,網(wǎng)絡(luò )爬蟲(chóng)主要是為搜索引擎提供最全面和最新的數據。在大數據時(shí)代,網(wǎng)絡(luò )爬蟲(chóng)更是從互聯(lián)網(wǎng)上采集數據的有利工具。
網(wǎng)絡(luò )爬蟲(chóng)原理
網(wǎng)絡(luò )爬蟲(chóng)是一種根據一定的規則,自動(dòng)地抓取網(wǎng)路信息的程序或則腳本。網(wǎng)絡(luò )爬蟲(chóng)可以手動(dòng)采集所有其才能訪(fǎng)問(wèn)到的頁(yè)面內容,為搜索引擎和大數據剖析提供數據來(lái)源。從功能上來(lái)講,爬蟲(chóng)通常有網(wǎng)路數據采集、處理和儲存 3 部分功能,如圖所示:
網(wǎng)絡(luò )爬蟲(chóng)采集
網(wǎng)絡(luò )爬蟲(chóng)通過(guò)定義采集字段對網(wǎng)頁(yè)中的文本信息、圖片信息等進(jìn)行爬取。并且在網(wǎng)頁(yè)中還收錄一些超鏈接信息,網(wǎng)絡(luò )爬蟲(chóng)系統正是通過(guò)網(wǎng)頁(yè)中的超鏈接信息不斷獲得網(wǎng)路上的其他網(wǎng)頁(yè)。網(wǎng)絡(luò )爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的 URL 開(kāi)始,獲得初始網(wǎng)頁(yè)上的 URL,爬蟲(chóng)將網(wǎng)頁(yè)中所須要提取的資源進(jìn)行提取并保存,同時(shí)提取出網(wǎng)站中存在的其他網(wǎng)站鏈接,經(jīng)過(guò)發(fā)送懇求,接收網(wǎng)站響應以及再度解析頁(yè)面,再將網(wǎng)頁(yè)中所需資源進(jìn)行提取......以此類(lèi)推,通過(guò)網(wǎng)頁(yè)爬蟲(chóng)便可將搜索引擎上的相關(guān)數據完全爬取下來(lái)。
數據處理
數據處理是對數據(包括數值的和非數值的)進(jìn)行剖析和加工的技術(shù)過(guò)程。網(wǎng)絡(luò )爬蟲(chóng)爬取的初始數據是須要“清洗”的,在數據處理步驟,對各類(lèi)原創(chuàng )數據的剖析、整理、計算、編輯等的加工和處理,從大量的、可能是雜亂無(wú)章的、難以理解的數據中抽取并推論出有價(jià)值、有意義的數據。
數據中心
所謂的數據中心也就是數據存儲,是指在獲得所需的數據并將其分解為有用的組件以后,通過(guò)可擴充的方式來(lái)將所有提取和解析的數據儲存在數據庫或集群中,然后創(chuàng )建一個(gè)容許用戶(hù)可及時(shí)查找相關(guān)數據集或提取的功能。
網(wǎng)絡(luò )爬蟲(chóng)工作流程
如下圖所示,網(wǎng)絡(luò )爬蟲(chóng)的基本工作流程如下。首先選定一部分種子 URL。
總結
當前,網(wǎng)絡(luò )大數據在規模與復雜度上的快速下降對現有IT構架的處理和估算能力提出了挑戰,據IDC發(fā)布的研究報告,預計到2020年,網(wǎng)絡(luò )大數據總數將達到35ZB,網(wǎng)絡(luò )大數據將成為行業(yè)數字化、信息化的重要推手。 查看全部
淺析網(wǎng)路大數據的商業(yè)價(jià)值和采集方法
據賽迪顧問(wèn)統計,在技術(shù)領(lǐng)域中近來(lái)10,000條專(zhuān)利中常見(jiàn)的關(guān)鍵詞中,數據采集、存儲介質(zhì)、海量數據、分布式成為技術(shù)領(lǐng)域最熱詞匯。其中,數據采集是提及最多的詞匯。

數據采集是進(jìn)行大數據剖析的前提也是必要條件,在整個(gè)數據借助流程中搶占重要地位。數據采集方式分為三種:系統日志采集法、網(wǎng)絡(luò )數據采集法以及其他數據采集法。隨著(zhù)Web2.0的發(fā)展,整個(gè)Web系統囊括了大量的價(jià)值化數據,目前針對Web系統的數據采集通常通過(guò)網(wǎng)路爬蟲(chóng)來(lái)實(shí)現,本文將對網(wǎng)路大數據和網(wǎng)路爬蟲(chóng)進(jìn)行系統描述。
什么是網(wǎng)路大數據
網(wǎng)絡(luò )大數據,是指非傳統數據源,例如通過(guò)抓取搜索引擎獲得的不同方式的數據。網(wǎng)絡(luò )大數據也可以是從數據聚合商或搜索引擎網(wǎng)站購買(mǎi)的數據,用于改善目標營(yíng)銷(xiāo)。這種類(lèi)型的數據可以是結構化的,也可以是非結構化的(更有可能的),可以由網(wǎng)路鏈接,文本數據,數據表,圖像,視頻等組成。
網(wǎng)絡(luò )構成了現今提供給我們的大部分數據,根據許多研究可知,非結構化數據搶占了其中的80%。盡管這種方式的數據較早被忽視了,但是競爭激化以及須要更多數據的需求促使必須使用盡可能多的數據源。
網(wǎng)絡(luò )大數據可以拿來(lái)干哪些
互聯(lián)網(wǎng)擁有數十億頁(yè)的數據,網(wǎng)絡(luò )大數據作為潛在的數據來(lái)源,對于行業(yè)的戰略性業(yè)務(wù)發(fā)展來(lái)說(shuō)擁有巨大的借助潛力。
以下舉例說(shuō)明網(wǎng)路大數據在不同行業(yè)的借助價(jià)值:

除此之外,在《How Web Scraping is Transforming the World with its Applications》文章中詳盡得列舉出網(wǎng)路大數據在制造業(yè)、金融研究、風(fēng)險管理等諸多領(lǐng)域的借助價(jià)值。
如何搜集網(wǎng)路數據
目前網(wǎng)路數據采集有兩種方式:一種是API,另一種是網(wǎng)路爬蟲(chóng)法。API又叫應用程序插口,是網(wǎng)站的管理者為了使用者便捷,編寫(xiě)的一種程序插口。目前主流的社交媒體平臺如新浪微博、百度貼吧以及Facebook等均提供API服務(wù),可以在其官網(wǎng)開(kāi)放平臺上獲取相關(guān)DEMO。但是API技術(shù)雖然受限于平臺開(kāi)發(fā)者,為了減少網(wǎng)站(平臺)的負荷,一般平臺均會(huì )對每晚插口調用上限做限制,這給我們帶來(lái)極大的不便利。為此我們一般采用第二種形式——網(wǎng)絡(luò )爬蟲(chóng)。
利用爬蟲(chóng)技術(shù)采集網(wǎng)絡(luò )大數據
網(wǎng)絡(luò )爬蟲(chóng)是指根據一定的規則手動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或則腳本。該方式可以將非結構化數據從網(wǎng)頁(yè)中抽取下來(lái),將其儲存為統一的本地數據文件,并以結構化的形式儲存。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以手動(dòng)關(guān)聯(lián)。
在互聯(lián)網(wǎng)時(shí)代,網(wǎng)絡(luò )爬蟲(chóng)主要是為搜索引擎提供最全面和最新的數據。在大數據時(shí)代,網(wǎng)絡(luò )爬蟲(chóng)更是從互聯(lián)網(wǎng)上采集數據的有利工具。
網(wǎng)絡(luò )爬蟲(chóng)原理
網(wǎng)絡(luò )爬蟲(chóng)是一種根據一定的規則,自動(dòng)地抓取網(wǎng)路信息的程序或則腳本。網(wǎng)絡(luò )爬蟲(chóng)可以手動(dòng)采集所有其才能訪(fǎng)問(wèn)到的頁(yè)面內容,為搜索引擎和大數據剖析提供數據來(lái)源。從功能上來(lái)講,爬蟲(chóng)通常有網(wǎng)路數據采集、處理和儲存 3 部分功能,如圖所示:

網(wǎng)絡(luò )爬蟲(chóng)采集
網(wǎng)絡(luò )爬蟲(chóng)通過(guò)定義采集字段對網(wǎng)頁(yè)中的文本信息、圖片信息等進(jìn)行爬取。并且在網(wǎng)頁(yè)中還收錄一些超鏈接信息,網(wǎng)絡(luò )爬蟲(chóng)系統正是通過(guò)網(wǎng)頁(yè)中的超鏈接信息不斷獲得網(wǎng)路上的其他網(wǎng)頁(yè)。網(wǎng)絡(luò )爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的 URL 開(kāi)始,獲得初始網(wǎng)頁(yè)上的 URL,爬蟲(chóng)將網(wǎng)頁(yè)中所須要提取的資源進(jìn)行提取并保存,同時(shí)提取出網(wǎng)站中存在的其他網(wǎng)站鏈接,經(jīng)過(guò)發(fā)送懇求,接收網(wǎng)站響應以及再度解析頁(yè)面,再將網(wǎng)頁(yè)中所需資源進(jìn)行提取......以此類(lèi)推,通過(guò)網(wǎng)頁(yè)爬蟲(chóng)便可將搜索引擎上的相關(guān)數據完全爬取下來(lái)。
數據處理
數據處理是對數據(包括數值的和非數值的)進(jìn)行剖析和加工的技術(shù)過(guò)程。網(wǎng)絡(luò )爬蟲(chóng)爬取的初始數據是須要“清洗”的,在數據處理步驟,對各類(lèi)原創(chuàng )數據的剖析、整理、計算、編輯等的加工和處理,從大量的、可能是雜亂無(wú)章的、難以理解的數據中抽取并推論出有價(jià)值、有意義的數據。
數據中心
所謂的數據中心也就是數據存儲,是指在獲得所需的數據并將其分解為有用的組件以后,通過(guò)可擴充的方式來(lái)將所有提取和解析的數據儲存在數據庫或集群中,然后創(chuàng )建一個(gè)容許用戶(hù)可及時(shí)查找相關(guān)數據集或提取的功能。
網(wǎng)絡(luò )爬蟲(chóng)工作流程
如下圖所示,網(wǎng)絡(luò )爬蟲(chóng)的基本工作流程如下。首先選定一部分種子 URL。

總結
當前,網(wǎng)絡(luò )大數據在規模與復雜度上的快速下降對現有IT構架的處理和估算能力提出了挑戰,據IDC發(fā)布的研究報告,預計到2020年,網(wǎng)絡(luò )大數據總數將達到35ZB,網(wǎng)絡(luò )大數據將成為行業(yè)數字化、信息化的重要推手。
API已改變SEO的玩法,不懂只能改行
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 241 次瀏覽 ? 2020-08-25 22:12
SEO從業(yè)者是幫助搜索引擎進(jìn)行優(yōu)化的人,不是說(shuō)每晚形成無(wú)數垃圾信息就是在幫助,不是說(shuō)每晚構建無(wú)數的友情鏈接就是在幫助它,而是幫助搜索引擎解決它的實(shí)際問(wèn)題。是不是認為太偉大?
如果不能認識到這點(diǎn),其實(shí)你可能早已不能適應SEO優(yōu)化領(lǐng)域?,F在早已不是初期的莽荒時(shí)代,如果仍然靠鏈接和偽原創(chuàng )你只會(huì )有一個(gè)覺(jué)得,SEO真他喵不是人干的!
我們可以如何做到更好?
1 、擁有最全面確切的行業(yè)詞庫
我們在營(yíng)運某個(gè)網(wǎng)站或者欄目時(shí),往往會(huì )垂直于一個(gè)行業(yè)。每個(gè)行業(yè)都有自己的范圍,如果淺顯的講,實(shí)際上每位行業(yè)都有自己一批核心關(guān)鍵詞+長(cháng)尾詞,由這種詞匯劃分了一個(gè)行業(yè)的范圍,所以擁有一個(gè)行業(yè)詞庫是對一個(gè)行業(yè)充分把握的必備品。
例如 理財行業(yè) 圍繞的核心詞部份如下:
理財行業(yè) 的核心詞之下長(cháng)尾詞列表部份如下:
2 、用詞庫找出搜索引擎最須要的內容
當我們擁有一個(gè)行業(yè)的所有詞匯后,我們能夠真正意義上懂得這個(gè)行業(yè),懂得這個(gè)行業(yè)用戶(hù)的需求。
接下來(lái)我們要在這近百萬(wàn)的理財詞庫中,找到最能帶來(lái)流量的詞匯,這里我們借助百度PC指數、360指數、百度移動(dòng)指數、競價(jià)規劃師PC搜索量、競價(jià)規劃師聯(lián)通搜索量、競價(jià)規劃師競爭度:
通過(guò)以上公式我們可以篩選出行業(yè)中最能帶來(lái)流量的一批詞,從百萬(wàn)詞庫中篩選出104635個(gè)流量詞。
3 、通過(guò) API 篩選出搜索引擎最缺少內容的關(guān)鍵詞
有了前面篩選下來(lái)的104635個(gè)流量詞,我們便可以裝入百度、360等搜索引擎進(jìn)行模擬查詢(xún),了解排位在前20位的網(wǎng)頁(yè)對應的url級別和標題情況,了解搜索引擎是否早已內容飽和。
通過(guò)API商城中的百度PC端TOP 50位排行情況API(),我們可以輕松獲得JSON格式的排行情況。
下圖中我們以“什么是指數基金”這個(gè)詞為例來(lái)獲取TOP20搜索結果排行情況:
返回的排行信息中比較重要的有兩種信息,域名權重信息和Title信息。
域名權重信息代表著(zhù)是否排名前50的域名中是不是都是有權重還比較低的域名,這樣你才有機會(huì )擠進(jìn)去。
Title信息的剖析意味著(zhù)互聯(lián)網(wǎng)上關(guān)于這個(gè)關(guān)鍵詞的內容是否飽和,是不是由于百度為了填充信息而選擇了一些補充信息來(lái)填充搜索結果。
通過(guò)剖析這兩個(gè)信息,我們能夠決定這個(gè)關(guān)鍵詞是否優(yōu)先值得去做內容。
這里做個(gè)假定,如果我的網(wǎng)站5118的權重是A,那么我們就要找尋TOP20排行結果中是否還有好多5118權重B級甚至C級的網(wǎng)站排名結果,如果有這么我們就還有機會(huì )攻打她們的位置。
另外還有一種情況,如果通過(guò)域名發(fā)覺(jué)不了機會(huì ),還有另一個(gè)機會(huì ),就是雖然這種高權重域名的內容并沒(méi)有完全符合搜索要求,也就是說(shuō)結果中一些內容標題沒(méi)有完全匹配關(guān)鍵詞。
例如上圖中的Title,就沒(méi)有完全收錄“什么是指數基金”這個(gè)詞,只不過(guò)是搜索引擎為了補充結果而裝入的索引,那我們也可以把這種位置標記為有機會(huì )。
通過(guò)類(lèi)似前面的算法,每個(gè)詞我們都可以得到一個(gè)機會(huì )分值,我們可以設置一個(gè)篩選的閥值,例如設置為8,如果TOP 20的結果中有8個(gè)以上是有機會(huì )的位置,我們就將這種關(guān)鍵詞保留出來(lái),進(jìn)入到第四階段。
4 、幫助搜索引擎建立這種內容
當我們通過(guò)上面三步完成了最高性?xún)r(jià)比SEO關(guān)鍵詞篩選過(guò)后,我們便可以安排編輯人員進(jìn)行文章或者專(zhuān)題的編撰,或是安排技術(shù)部進(jìn)行文章的采集,亦或是安排營(yíng)運部門(mén)引導用戶(hù)制造內容。
通過(guò)這四個(gè)步驟的層層過(guò)濾,我們的內容營(yíng)運工作將會(huì )十分有針對性,雖然里面寫(xiě)了這么多文字,但是畢竟就是下邊三個(gè)目的:
5 、監控SEO療效
隨著(zhù)內容的不斷建立,我們須要整體評估前面確定的內容策略的成效,可能要對一些參數和閥值甚至算法進(jìn)行微調:
因為只有監控那些參數能夠曉得你的內容制造下來(lái)以后百度爬蟲(chóng)是否如期而來(lái),并且沒(méi)有碰到任何障礙,這樣確保你的內容策略沒(méi)有由于其他技術(shù)運維的干擾誘因引起策略沒(méi)有發(fā)揮作用。
收錄是有排行的前提,如果內容不能收錄,爬蟲(chóng)爬行再多也沒(méi)有意義。內容做下來(lái)不收錄,對于內容策略也將會(huì )是一個(gè)嚴打,所以收錄的監控也至關(guān)重要。
隨著(zhù)內容和收錄的不斷降低,我們SEO終極目的就是要獲得好的排行。
對整體大趨勢進(jìn)行跟蹤,確保整體內容策略大方向是正確的。
2. 對單個(gè)的關(guān)鍵詞排行進(jìn)行監控,以評估每位內容生產(chǎn)工作的穩定性,注重細節。
▲ 可以利用5118關(guān)鍵詞監控分批添加自己關(guān)鍵詞進(jìn)行監控
▲ 也可以利用5118關(guān)鍵詞排名采集API進(jìn)行監控
最 后 總 結:
人類(lèi)近代文明的發(fā)展就是一個(gè)追求極其自動(dòng)化過(guò)程,無(wú)人工廠(chǎng)、無(wú)人超市、無(wú)人機、作為大數據時(shí)代的SEO管理人員,同樣要追求SEO的自動(dòng)化,與時(shí)俱進(jìn)能夠實(shí)現自我的突破。
通過(guò)這樣的內容生產(chǎn)過(guò)程,我們可以逐漸優(yōu)化我們的內容策略,做到內容生產(chǎn)流量療效的最大化。所以你還在等哪些,趕快用起這種可以使你輕松晉升的大數據API。
5118,享受前輩級營(yíng)運視野
更多API詳情,歡迎登錄5118官網(wǎng)! 查看全部
API已改變SEO的玩法,不懂只能改行
SEO從業(yè)者是幫助搜索引擎進(jìn)行優(yōu)化的人,不是說(shuō)每晚形成無(wú)數垃圾信息就是在幫助,不是說(shuō)每晚構建無(wú)數的友情鏈接就是在幫助它,而是幫助搜索引擎解決它的實(shí)際問(wèn)題。是不是認為太偉大?
如果不能認識到這點(diǎn),其實(shí)你可能早已不能適應SEO優(yōu)化領(lǐng)域?,F在早已不是初期的莽荒時(shí)代,如果仍然靠鏈接和偽原創(chuàng )你只會(huì )有一個(gè)覺(jué)得,SEO真他喵不是人干的!
我們可以如何做到更好?
1 、擁有最全面確切的行業(yè)詞庫
我們在營(yíng)運某個(gè)網(wǎng)站或者欄目時(shí),往往會(huì )垂直于一個(gè)行業(yè)。每個(gè)行業(yè)都有自己的范圍,如果淺顯的講,實(shí)際上每位行業(yè)都有自己一批核心關(guān)鍵詞+長(cháng)尾詞,由這種詞匯劃分了一個(gè)行業(yè)的范圍,所以擁有一個(gè)行業(yè)詞庫是對一個(gè)行業(yè)充分把握的必備品。
例如 理財行業(yè) 圍繞的核心詞部份如下:
理財行業(yè) 的核心詞之下長(cháng)尾詞列表部份如下:
2 、用詞庫找出搜索引擎最須要的內容
當我們擁有一個(gè)行業(yè)的所有詞匯后,我們能夠真正意義上懂得這個(gè)行業(yè),懂得這個(gè)行業(yè)用戶(hù)的需求。
接下來(lái)我們要在這近百萬(wàn)的理財詞庫中,找到最能帶來(lái)流量的詞匯,這里我們借助百度PC指數、360指數、百度移動(dòng)指數、競價(jià)規劃師PC搜索量、競價(jià)規劃師聯(lián)通搜索量、競價(jià)規劃師競爭度:
通過(guò)以上公式我們可以篩選出行業(yè)中最能帶來(lái)流量的一批詞,從百萬(wàn)詞庫中篩選出104635個(gè)流量詞。
3 、通過(guò) API 篩選出搜索引擎最缺少內容的關(guān)鍵詞
有了前面篩選下來(lái)的104635個(gè)流量詞,我們便可以裝入百度、360等搜索引擎進(jìn)行模擬查詢(xún),了解排位在前20位的網(wǎng)頁(yè)對應的url級別和標題情況,了解搜索引擎是否早已內容飽和。
通過(guò)API商城中的百度PC端TOP 50位排行情況API(),我們可以輕松獲得JSON格式的排行情況。
下圖中我們以“什么是指數基金”這個(gè)詞為例來(lái)獲取TOP20搜索結果排行情況:
返回的排行信息中比較重要的有兩種信息,域名權重信息和Title信息。
域名權重信息代表著(zhù)是否排名前50的域名中是不是都是有權重還比較低的域名,這樣你才有機會(huì )擠進(jìn)去。
Title信息的剖析意味著(zhù)互聯(lián)網(wǎng)上關(guān)于這個(gè)關(guān)鍵詞的內容是否飽和,是不是由于百度為了填充信息而選擇了一些補充信息來(lái)填充搜索結果。
通過(guò)剖析這兩個(gè)信息,我們能夠決定這個(gè)關(guān)鍵詞是否優(yōu)先值得去做內容。
這里做個(gè)假定,如果我的網(wǎng)站5118的權重是A,那么我們就要找尋TOP20排行結果中是否還有好多5118權重B級甚至C級的網(wǎng)站排名結果,如果有這么我們就還有機會(huì )攻打她們的位置。
另外還有一種情況,如果通過(guò)域名發(fā)覺(jué)不了機會(huì ),還有另一個(gè)機會(huì ),就是雖然這種高權重域名的內容并沒(méi)有完全符合搜索要求,也就是說(shuō)結果中一些內容標題沒(méi)有完全匹配關(guān)鍵詞。
例如上圖中的Title,就沒(méi)有完全收錄“什么是指數基金”這個(gè)詞,只不過(guò)是搜索引擎為了補充結果而裝入的索引,那我們也可以把這種位置標記為有機會(huì )。
通過(guò)類(lèi)似前面的算法,每個(gè)詞我們都可以得到一個(gè)機會(huì )分值,我們可以設置一個(gè)篩選的閥值,例如設置為8,如果TOP 20的結果中有8個(gè)以上是有機會(huì )的位置,我們就將這種關(guān)鍵詞保留出來(lái),進(jìn)入到第四階段。
4 、幫助搜索引擎建立這種內容
當我們通過(guò)上面三步完成了最高性?xún)r(jià)比SEO關(guān)鍵詞篩選過(guò)后,我們便可以安排編輯人員進(jìn)行文章或者專(zhuān)題的編撰,或是安排技術(shù)部進(jìn)行文章的采集,亦或是安排營(yíng)運部門(mén)引導用戶(hù)制造內容。
通過(guò)這四個(gè)步驟的層層過(guò)濾,我們的內容營(yíng)運工作將會(huì )十分有針對性,雖然里面寫(xiě)了這么多文字,但是畢竟就是下邊三個(gè)目的:
5 、監控SEO療效
隨著(zhù)內容的不斷建立,我們須要整體評估前面確定的內容策略的成效,可能要對一些參數和閥值甚至算法進(jìn)行微調:
因為只有監控那些參數能夠曉得你的內容制造下來(lái)以后百度爬蟲(chóng)是否如期而來(lái),并且沒(méi)有碰到任何障礙,這樣確保你的內容策略沒(méi)有由于其他技術(shù)運維的干擾誘因引起策略沒(méi)有發(fā)揮作用。
收錄是有排行的前提,如果內容不能收錄,爬蟲(chóng)爬行再多也沒(méi)有意義。內容做下來(lái)不收錄,對于內容策略也將會(huì )是一個(gè)嚴打,所以收錄的監控也至關(guān)重要。
隨著(zhù)內容和收錄的不斷降低,我們SEO終極目的就是要獲得好的排行。
對整體大趨勢進(jìn)行跟蹤,確保整體內容策略大方向是正確的。
2. 對單個(gè)的關(guān)鍵詞排行進(jìn)行監控,以評估每位內容生產(chǎn)工作的穩定性,注重細節。
▲ 可以利用5118關(guān)鍵詞監控分批添加自己關(guān)鍵詞進(jìn)行監控
▲ 也可以利用5118關(guān)鍵詞排名采集API進(jìn)行監控
最 后 總 結:
人類(lèi)近代文明的發(fā)展就是一個(gè)追求極其自動(dòng)化過(guò)程,無(wú)人工廠(chǎng)、無(wú)人超市、無(wú)人機、作為大數據時(shí)代的SEO管理人員,同樣要追求SEO的自動(dòng)化,與時(shí)俱進(jìn)能夠實(shí)現自我的突破。
通過(guò)這樣的內容生產(chǎn)過(guò)程,我們可以逐漸優(yōu)化我們的內容策略,做到內容生產(chǎn)流量療效的最大化。所以你還在等哪些,趕快用起這種可以使你輕松晉升的大數據API。
5118,享受前輩級營(yíng)運視野
更多API詳情,歡迎登錄5118官網(wǎng)!
Serverless 實(shí)戰:如何結合 NLP 實(shí)現文本摘要和關(guān)鍵詞提???
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 258 次瀏覽 ? 2020-08-25 18:17
對文本進(jìn)行手動(dòng)摘要的提取和關(guān)鍵詞的提取,屬于自然語(yǔ)言處理的范疇。提取摘要的一個(gè)用處是可以使閱讀者通過(guò)最少的信息判別出這個(gè)文章對自己是否有意義或則價(jià)值,是否須要進(jìn)行愈發(fā)詳盡的閱讀;而提取關(guān)鍵詞的用處是可以使文章與文章之間形成關(guān)聯(lián),同時(shí)也可以使讀者通過(guò)關(guān)鍵詞快速定位到和該關(guān)鍵詞相關(guān)的文章內容。
文本摘要和關(guān)鍵詞提取都可以和傳統的 CMS 進(jìn)行結合,通過(guò)對文章 / 新聞等發(fā)布功能進(jìn)行整修,同步提取關(guān)鍵詞和摘要,放到 HTML 頁(yè)面中作為 Description 和 Keyworks。這樣做在一定程度上有利于搜索引擎收錄,屬于 SEO 優(yōu)化的范疇。
關(guān)鍵詞提取
關(guān)鍵詞提取的方式好多,但是最常見(jiàn)的應當就是tf-idf了。
通過(guò)jieba實(shí)現基于tf-idf關(guān)鍵詞提取的方式:
jieba.analyse.extract_tags(text, topK=5, withWeight=False, allowPOS=('n', 'vn', 'v'))
文本摘要
文本摘要的方式也有好多,如果從廣義上來(lái)界定,包括提取式和生成式。其中提取式就是在文章中通過(guò)TextRank等算法,找出關(guān)鍵句之后進(jìn)行拼裝,形成摘要,這種方式相對來(lái)說(shuō)比較簡(jiǎn)單,但是很難提取出真實(shí)的語(yǔ)義等;另一種方式是生成式,通過(guò)深度學(xué)習等方式,對文本語(yǔ)義進(jìn)行提取再生成摘要。
如果簡(jiǎn)單理解,提取式方法生成的摘要,所有語(yǔ)句來(lái)自原文,而生成式方式則是獨立生成的。
為了簡(jiǎn)化難度,本文將采用提取式來(lái)實(shí)現文本摘要功能,通過(guò) SnowNLP 第三方庫,實(shí)現基于TextRank的文本摘要功能。我們以《海底兩萬(wàn)里》部分內容作為原文,進(jìn)行摘要生成:
原文:
這些風(fēng)波發(fā)生時(shí),我剛從英國內布拉斯加州的貧瘠地區做完一項科考工作回去。我當時(shí)是巴黎自然史博物館的客座教授,法國政府派我出席此次考察活動(dòng)。我在內布拉斯加州渡過(guò)了半年時(shí)間,采集了許多珍稀資料,滿(mǎn)載而歸,3 月底到達倫敦。我決定 5 月初動(dòng)身回美國。于是,我就抓緊這段候船停留時(shí)間,把搜集到的礦物和動(dòng)植物標本進(jìn)行分類(lèi)整理,可就在這時(shí),斯科舍號出事了。
我對當時(shí)的街談巷議自然了如指掌,再說(shuō)了,我豈能聽(tīng)而不聞、無(wú)動(dòng)于衷呢?我把日本和法國的各類(lèi)報刊讀了又讀,但無(wú)法深入了解真相。神秘莫測,百思不得其解。我左思右想,搖擺于兩個(gè)極端之間,始終形不成一種看法。其中肯定有名堂,這是不容置疑的,如果有人表示懷疑,就請她們去摸一摸斯科舍號的創(chuàng )口好了。
我到倫敦時(shí),這個(gè)問(wèn)題正炒得沸反盈天。某些不學(xué)無(wú)術(shù)之徒提出構想,有說(shuō)是浮動(dòng)的小島,也有說(shuō)是不可捉摸的暗礁,不過(guò),這些個(gè)假定通通都被推翻了。很顯然,除非這暗礁頭部裝有機器,不然的話(huà),它豈能這么快速地轉移呢?
同樣的道理,說(shuō)它是一塊浮動(dòng)的艙室或是一堆大船殘骸,這種假定也不能創(chuàng )立,理由依舊是聯(lián)通速率很快。
那么,問(wèn)題只能有兩種解釋?zhuān)藗兏鞒旨阂?jiàn),自然就分成觀(guān)點(diǎn)截然不同的兩派:一派說(shuō)這是一個(gè)力大無(wú)比的怪物,另一派說(shuō)這是一艘動(dòng)力極強的“潛水船”。
哦,最后那個(gè)假定尚且可以接受,但到歐美各國調查過(guò)后,也就無(wú)法自圓其說(shuō)了。有那個(gè)普通人會(huì )擁有這么強悍動(dòng)力的機械?這是不可能的。他在何地何時(shí)叫何人制造了這么個(gè)龐然大物,而且怎么能在建造中做到風(fēng)聲不探聽(tīng)呢?
看來(lái),只有政府才有可能擁有這些破壞性的機器,在這個(gè)災難深重的時(shí)代,人們千方百計要提高戰爭裝備威力,那就有此類(lèi)可能,一個(gè)國家瞞著(zhù)其他國家在試制這類(lèi)駭人聽(tīng)聞的裝備。繼夏斯勃手槍以后有魚(yú)雷,水雷以后有水下撞錘,然后劍皇高漲反應,事態(tài)愈演愈烈。至少,我是這樣想的。
通過(guò) SnowNLP 提供的算法:
from snownlp import SnowNLP
text = " 上面的原文內容,此處省略 "
s = SnowNLP(text)
print("。".join(s.summary(5)))
輸出結果:
自然就分成觀(guān)點(diǎn)截然不同的兩派:一派說(shuō)這是一個(gè)力大無(wú)比的怪物。這種假設也不能成立。我到紐約時(shí)。說(shuō)它是一塊浮動(dòng)的船體或是一堆大船殘片。另一派說(shuō)這是一艘動(dòng)力極強的“潛水船”
初步來(lái)看,效果并不是挺好,接下來(lái)我們自己估算語(yǔ)句權重,實(shí)現一個(gè)簡(jiǎn)單的摘要功能,這個(gè)就須要jieba:
import re
import jieba.analyse
import jieba.posseg
class TextSummary:
def __init__(self, text):
self.text = text
def splitSentence(self):
sectionNum = 0
self.sentences = []
for eveSection in self.text.split("\n"):
if eveSection:
sentenceNum = 0
for eveSentence in re.split("!|。|?", eveSection):
if eveSentence:
mark = []
if sectionNum == 0:
mark.append("FIRSTSECTION")
if sentenceNum == 0:
mark.append("FIRSTSENTENCE")
self.sentences.append({
"text": eveSentence,
"pos": {
"x": sectionNum,
"y": sentenceNum,
"mark": mark
}
})
sentenceNum = sentenceNum + 1
sectionNum = sectionNum + 1
self.sentences[-1]["pos"]["mark"].append("LASTSENTENCE")
for i in range(0, len(self.sentences)):
if self.sentences[i]["pos"]["x"] == self.sentences[-1]["pos"]["x"]:
self.sentences[i]["pos"]["mark"].append("LASTSECTION")
def getKeywords(self):
self.keywords = jieba.analyse.extract_tags(self.text, topK=20, withWeight=False, allowPOS=('n', 'vn', 'v'))
def sentenceWeight(self):
# 計算句子的位置權重
for sentence in self.sentences:
mark = sentence["pos"]["mark"]
weightPos = 0
if "FIRSTSECTION" in mark:
weightPos = weightPos + 2
if "FIRSTSENTENCE" in mark:
weightPos = weightPos + 2
if "LASTSENTENCE" in mark:
weightPos = weightPos + 1
if "LASTSECTION" in mark:
weightPos = weightPos + 1
sentence["weightPos"] = weightPos
# 計算句子的線(xiàn)索詞權重
index = [" 總之 ", " 總而言之 "]
for sentence in self.sentences:
sentence["weightCueWords"] = 0
sentence["weightKeywords"] = 0
for i in index:
for sentence in self.sentences:
if sentence["text"].find(i) >= 0:
sentence["weightCueWords"] = 1
for keyword in self.keywords:
for sentence in self.sentences:
if sentence["text"].find(keyword) >= 0:
sentence["weightKeywords"] = sentence["weightKeywords"] + 1
for sentence in self.sentences:
sentence["weight"] = sentence["weightPos"] + 2 * sentence["weightCueWords"] + sentence["weightKeywords"]
def getSummary(self, ratio=0.1):
self.keywords = list()
self.sentences = list()
self.summary = list()
# 調用方法,分別計算關(guān)鍵詞、分句,計算權重
self.getKeywords()
self.splitSentence()
self.sentenceWeight()
# 對句子的權重值進(jìn)行排序
self.sentences = sorted(self.sentences, key=lambda k: k['weight'], reverse=True)
# 根據排序結果,取排名占前 ratio% 的句子作為摘要
for i in range(len(self.sentences)):
if i < ratio * len(self.sentences):
sentence = self.sentences[i]
self.summary.append(sentence["text"])
return self.summary
這段代碼主要是通過(guò) tf-idf 實(shí)現關(guān)鍵詞提取,然后通過(guò)關(guān)鍵詞提取對語(yǔ)句進(jìn)行權重賦于,最后獲得到整體的結果,運行:
testSummary = TextSummary(text)
print("。".join(testSummary.getSummary()))
可以得到結果:
Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/yb/wvy_7wm91mzd7cjg4444gvdjsglgs8/T/jieba.cache
Loading model cost 0.721 seconds.
Prefix dict has been built successfully.
看來(lái),只有政府才有可能擁有這種破壞性的機器,在這個(gè)災難深重的時(shí)代,人們千方百計要增強戰爭武器威力,那就有這種可能,一個(gè)國家瞞著(zhù)其他國家在試制這類(lèi)駭人聽(tīng)聞的武器。于是,我就抓緊這段候船逗留時(shí)間,把收集到的礦物和動(dòng)植物標本進(jìn)行分類(lèi)整理,可就在這時(shí),斯科舍號出事了。同樣的道理,說(shuō)它是一塊浮動(dòng)的船體或是一堆大船殘片,這種假設也不能成立,理由仍然是移動(dòng)速度太快
我們可以看見(jiàn),整體療效要比昨天的好一些。
發(fā)布 API
通過(guò) Serverless 架構,將前面代碼進(jìn)行整理,并發(fā)布。
代碼整理結果:
import re, json
import jieba.analyse
import jieba.posseg
class NLPAttr:
def __init__(self, text):
self.text = text
def splitSentence(self):
sectionNum = 0
self.sentences = []
for eveSection in self.text.split("\n"):
if eveSection:
sentenceNum = 0
for eveSentence in re.split("!|。|?", eveSection):
if eveSentence:
mark = []
if sectionNum == 0:
mark.append("FIRSTSECTION")
if sentenceNum == 0:
mark.append("FIRSTSENTENCE")
self.sentences.append({
"text": eveSentence,
"pos": {
"x": sectionNum,
"y": sentenceNum,
"mark": mark
}
})
sentenceNum = sentenceNum + 1
sectionNum = sectionNum + 1
self.sentences[-1]["pos"]["mark"].append("LASTSENTENCE")
for i in range(0, len(self.sentences)):
if self.sentences[i]["pos"]["x"] == self.sentences[-1]["pos"]["x"]:
self.sentences[i]["pos"]["mark"].append("LASTSECTION")
def getKeywords(self):
self.keywords = jieba.analyse.extract_tags(self.text, topK=20, withWeight=False, allowPOS=('n', 'vn', 'v'))
return self.keywords
def sentenceWeight(self):
# 計算句子的位置權重
for sentence in self.sentences:
mark = sentence["pos"]["mark"]
weightPos = 0
if "FIRSTSECTION" in mark:
weightPos = weightPos + 2
if "FIRSTSENTENCE" in mark:
weightPos = weightPos + 2
if "LASTSENTENCE" in mark:
weightPos = weightPos + 1
if "LASTSECTION" in mark:
weightPos = weightPos + 1
sentence["weightPos"] = weightPos
# 計算句子的線(xiàn)索詞權重
index = [" 總之 ", " 總而言之 "]
for sentence in self.sentences:
sentence["weightCueWords"] = 0
sentence["weightKeywords"] = 0
for i in index:
for sentence in self.sentences:
if sentence["text"].find(i) >= 0:
sentence["weightCueWords"] = 1
for keyword in self.keywords:
for sentence in self.sentences:
if sentence["text"].find(keyword) >= 0:
sentence["weightKeywords"] = sentence["weightKeywords"] + 1
for sentence in self.sentences:
sentence["weight"] = sentence["weightPos"] + 2 * sentence["weightCueWords"] + sentence["weightKeywords"]
def getSummary(self, ratio=0.1):
self.keywords = list()
self.sentences = list()
self.summary = list()
# 調用方法,分別計算關(guān)鍵詞、分句,計算權重
self.getKeywords()
self.splitSentence()
self.sentenceWeight()
# 對句子的權重值進(jìn)行排序
self.sentences = sorted(self.sentences, key=lambda k: k['weight'], reverse=True)
# 根據排序結果,取排名占前 ratio% 的句子作為摘要
for i in range(len(self.sentences)):
if i < ratio * len(self.sentences):
sentence = self.sentences[i]
self.summary.append(sentence["text"])
return self.summary
def main_handler(event, context):
nlp = NLPAttr(json.loads(event['body'])['text'])
return {
"keywords": nlp.getKeywords(),
"summary": "。".join(nlp.getSummary())
}
編寫(xiě)項目serverless.yaml文件:
nlpDemo:
component: "@serverless/tencent-scf"
inputs:
name: nlpDemo
codeUri: ./
handler: index.main_handler
runtime: Python3.6
region: ap-guangzhou
description: 文本摘要 / 關(guān)鍵詞功能
memorySize: 256
timeout: 10
events:
- apigw:
name: nlpDemo_apigw_service
parameters:
protocols:
- http
serviceName: serverless
description: 文本摘要 / 關(guān)鍵詞功能
environment: release
endpoints:
- path: /nlp
method: ANY
由于項目中使用了jieba,所以在安裝的時(shí)侯推薦在 CentOS 系統下與對應的 Python 版本下安裝,也可以使用我之前為了便捷做的一個(gè)依賴(lài)工具:
通過(guò)sls --debug進(jìn)行布署:
部署完成,可以通過(guò) PostMan 進(jìn)行簡(jiǎn)單的測試:
從上圖可以看見(jiàn),我們早已根據預期輸出了目標結果。至此,文本摘要 / 關(guān)鍵詞提取的 API 已經(jīng)布署完成。
總結
相對來(lái)說(shuō),通過(guò) Serveless 架構做 API 是十分容易和便捷的,可實(shí)現 API 的插拔行,組件化,希望本文才能給讀者更多的思路和啟發(fā)。 查看全部
Serverless 實(shí)戰:如何結合 NLP 實(shí)現文本摘要和關(guān)鍵詞提???
對文本進(jìn)行手動(dòng)摘要的提取和關(guān)鍵詞的提取,屬于自然語(yǔ)言處理的范疇。提取摘要的一個(gè)用處是可以使閱讀者通過(guò)最少的信息判別出這個(gè)文章對自己是否有意義或則價(jià)值,是否須要進(jìn)行愈發(fā)詳盡的閱讀;而提取關(guān)鍵詞的用處是可以使文章與文章之間形成關(guān)聯(lián),同時(shí)也可以使讀者通過(guò)關(guān)鍵詞快速定位到和該關(guān)鍵詞相關(guān)的文章內容。
文本摘要和關(guān)鍵詞提取都可以和傳統的 CMS 進(jìn)行結合,通過(guò)對文章 / 新聞等發(fā)布功能進(jìn)行整修,同步提取關(guān)鍵詞和摘要,放到 HTML 頁(yè)面中作為 Description 和 Keyworks。這樣做在一定程度上有利于搜索引擎收錄,屬于 SEO 優(yōu)化的范疇。
關(guān)鍵詞提取
關(guān)鍵詞提取的方式好多,但是最常見(jiàn)的應當就是tf-idf了。
通過(guò)jieba實(shí)現基于tf-idf關(guān)鍵詞提取的方式:
jieba.analyse.extract_tags(text, topK=5, withWeight=False, allowPOS=('n', 'vn', 'v'))
文本摘要
文本摘要的方式也有好多,如果從廣義上來(lái)界定,包括提取式和生成式。其中提取式就是在文章中通過(guò)TextRank等算法,找出關(guān)鍵句之后進(jìn)行拼裝,形成摘要,這種方式相對來(lái)說(shuō)比較簡(jiǎn)單,但是很難提取出真實(shí)的語(yǔ)義等;另一種方式是生成式,通過(guò)深度學(xué)習等方式,對文本語(yǔ)義進(jìn)行提取再生成摘要。
如果簡(jiǎn)單理解,提取式方法生成的摘要,所有語(yǔ)句來(lái)自原文,而生成式方式則是獨立生成的。
為了簡(jiǎn)化難度,本文將采用提取式來(lái)實(shí)現文本摘要功能,通過(guò) SnowNLP 第三方庫,實(shí)現基于TextRank的文本摘要功能。我們以《海底兩萬(wàn)里》部分內容作為原文,進(jìn)行摘要生成:
原文:
這些風(fēng)波發(fā)生時(shí),我剛從英國內布拉斯加州的貧瘠地區做完一項科考工作回去。我當時(shí)是巴黎自然史博物館的客座教授,法國政府派我出席此次考察活動(dòng)。我在內布拉斯加州渡過(guò)了半年時(shí)間,采集了許多珍稀資料,滿(mǎn)載而歸,3 月底到達倫敦。我決定 5 月初動(dòng)身回美國。于是,我就抓緊這段候船停留時(shí)間,把搜集到的礦物和動(dòng)植物標本進(jìn)行分類(lèi)整理,可就在這時(shí),斯科舍號出事了。
我對當時(shí)的街談巷議自然了如指掌,再說(shuō)了,我豈能聽(tīng)而不聞、無(wú)動(dòng)于衷呢?我把日本和法國的各類(lèi)報刊讀了又讀,但無(wú)法深入了解真相。神秘莫測,百思不得其解。我左思右想,搖擺于兩個(gè)極端之間,始終形不成一種看法。其中肯定有名堂,這是不容置疑的,如果有人表示懷疑,就請她們去摸一摸斯科舍號的創(chuàng )口好了。
我到倫敦時(shí),這個(gè)問(wèn)題正炒得沸反盈天。某些不學(xué)無(wú)術(shù)之徒提出構想,有說(shuō)是浮動(dòng)的小島,也有說(shuō)是不可捉摸的暗礁,不過(guò),這些個(gè)假定通通都被推翻了。很顯然,除非這暗礁頭部裝有機器,不然的話(huà),它豈能這么快速地轉移呢?
同樣的道理,說(shuō)它是一塊浮動(dòng)的艙室或是一堆大船殘骸,這種假定也不能創(chuàng )立,理由依舊是聯(lián)通速率很快。
那么,問(wèn)題只能有兩種解釋?zhuān)藗兏鞒旨阂?jiàn),自然就分成觀(guān)點(diǎn)截然不同的兩派:一派說(shuō)這是一個(gè)力大無(wú)比的怪物,另一派說(shuō)這是一艘動(dòng)力極強的“潛水船”。
哦,最后那個(gè)假定尚且可以接受,但到歐美各國調查過(guò)后,也就無(wú)法自圓其說(shuō)了。有那個(gè)普通人會(huì )擁有這么強悍動(dòng)力的機械?這是不可能的。他在何地何時(shí)叫何人制造了這么個(gè)龐然大物,而且怎么能在建造中做到風(fēng)聲不探聽(tīng)呢?
看來(lái),只有政府才有可能擁有這些破壞性的機器,在這個(gè)災難深重的時(shí)代,人們千方百計要提高戰爭裝備威力,那就有此類(lèi)可能,一個(gè)國家瞞著(zhù)其他國家在試制這類(lèi)駭人聽(tīng)聞的裝備。繼夏斯勃手槍以后有魚(yú)雷,水雷以后有水下撞錘,然后劍皇高漲反應,事態(tài)愈演愈烈。至少,我是這樣想的。
通過(guò) SnowNLP 提供的算法:
from snownlp import SnowNLP
text = " 上面的原文內容,此處省略 "
s = SnowNLP(text)
print("。".join(s.summary(5)))
輸出結果:
自然就分成觀(guān)點(diǎn)截然不同的兩派:一派說(shuō)這是一個(gè)力大無(wú)比的怪物。這種假設也不能成立。我到紐約時(shí)。說(shuō)它是一塊浮動(dòng)的船體或是一堆大船殘片。另一派說(shuō)這是一艘動(dòng)力極強的“潛水船”
初步來(lái)看,效果并不是挺好,接下來(lái)我們自己估算語(yǔ)句權重,實(shí)現一個(gè)簡(jiǎn)單的摘要功能,這個(gè)就須要jieba:
import re
import jieba.analyse
import jieba.posseg
class TextSummary:
def __init__(self, text):
self.text = text
def splitSentence(self):
sectionNum = 0
self.sentences = []
for eveSection in self.text.split("\n"):
if eveSection:
sentenceNum = 0
for eveSentence in re.split("!|。|?", eveSection):
if eveSentence:
mark = []
if sectionNum == 0:
mark.append("FIRSTSECTION")
if sentenceNum == 0:
mark.append("FIRSTSENTENCE")
self.sentences.append({
"text": eveSentence,
"pos": {
"x": sectionNum,
"y": sentenceNum,
"mark": mark
}
})
sentenceNum = sentenceNum + 1
sectionNum = sectionNum + 1
self.sentences[-1]["pos"]["mark"].append("LASTSENTENCE")
for i in range(0, len(self.sentences)):
if self.sentences[i]["pos"]["x"] == self.sentences[-1]["pos"]["x"]:
self.sentences[i]["pos"]["mark"].append("LASTSECTION")
def getKeywords(self):
self.keywords = jieba.analyse.extract_tags(self.text, topK=20, withWeight=False, allowPOS=('n', 'vn', 'v'))
def sentenceWeight(self):
# 計算句子的位置權重
for sentence in self.sentences:
mark = sentence["pos"]["mark"]
weightPos = 0
if "FIRSTSECTION" in mark:
weightPos = weightPos + 2
if "FIRSTSENTENCE" in mark:
weightPos = weightPos + 2
if "LASTSENTENCE" in mark:
weightPos = weightPos + 1
if "LASTSECTION" in mark:
weightPos = weightPos + 1
sentence["weightPos"] = weightPos
# 計算句子的線(xiàn)索詞權重
index = [" 總之 ", " 總而言之 "]
for sentence in self.sentences:
sentence["weightCueWords"] = 0
sentence["weightKeywords"] = 0
for i in index:
for sentence in self.sentences:
if sentence["text"].find(i) >= 0:
sentence["weightCueWords"] = 1
for keyword in self.keywords:
for sentence in self.sentences:
if sentence["text"].find(keyword) >= 0:
sentence["weightKeywords"] = sentence["weightKeywords"] + 1
for sentence in self.sentences:
sentence["weight"] = sentence["weightPos"] + 2 * sentence["weightCueWords"] + sentence["weightKeywords"]
def getSummary(self, ratio=0.1):
self.keywords = list()
self.sentences = list()
self.summary = list()
# 調用方法,分別計算關(guān)鍵詞、分句,計算權重
self.getKeywords()
self.splitSentence()
self.sentenceWeight()
# 對句子的權重值進(jìn)行排序
self.sentences = sorted(self.sentences, key=lambda k: k['weight'], reverse=True)
# 根據排序結果,取排名占前 ratio% 的句子作為摘要
for i in range(len(self.sentences)):
if i < ratio * len(self.sentences):
sentence = self.sentences[i]
self.summary.append(sentence["text"])
return self.summary
這段代碼主要是通過(guò) tf-idf 實(shí)現關(guān)鍵詞提取,然后通過(guò)關(guān)鍵詞提取對語(yǔ)句進(jìn)行權重賦于,最后獲得到整體的結果,運行:
testSummary = TextSummary(text)
print("。".join(testSummary.getSummary()))
可以得到結果:
Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/yb/wvy_7wm91mzd7cjg4444gvdjsglgs8/T/jieba.cache
Loading model cost 0.721 seconds.
Prefix dict has been built successfully.
看來(lái),只有政府才有可能擁有這種破壞性的機器,在這個(gè)災難深重的時(shí)代,人們千方百計要增強戰爭武器威力,那就有這種可能,一個(gè)國家瞞著(zhù)其他國家在試制這類(lèi)駭人聽(tīng)聞的武器。于是,我就抓緊這段候船逗留時(shí)間,把收集到的礦物和動(dòng)植物標本進(jìn)行分類(lèi)整理,可就在這時(shí),斯科舍號出事了。同樣的道理,說(shuō)它是一塊浮動(dòng)的船體或是一堆大船殘片,這種假設也不能成立,理由仍然是移動(dòng)速度太快
我們可以看見(jiàn),整體療效要比昨天的好一些。
發(fā)布 API
通過(guò) Serverless 架構,將前面代碼進(jìn)行整理,并發(fā)布。
代碼整理結果:
import re, json
import jieba.analyse
import jieba.posseg
class NLPAttr:
def __init__(self, text):
self.text = text
def splitSentence(self):
sectionNum = 0
self.sentences = []
for eveSection in self.text.split("\n"):
if eveSection:
sentenceNum = 0
for eveSentence in re.split("!|。|?", eveSection):
if eveSentence:
mark = []
if sectionNum == 0:
mark.append("FIRSTSECTION")
if sentenceNum == 0:
mark.append("FIRSTSENTENCE")
self.sentences.append({
"text": eveSentence,
"pos": {
"x": sectionNum,
"y": sentenceNum,
"mark": mark
}
})
sentenceNum = sentenceNum + 1
sectionNum = sectionNum + 1
self.sentences[-1]["pos"]["mark"].append("LASTSENTENCE")
for i in range(0, len(self.sentences)):
if self.sentences[i]["pos"]["x"] == self.sentences[-1]["pos"]["x"]:
self.sentences[i]["pos"]["mark"].append("LASTSECTION")
def getKeywords(self):
self.keywords = jieba.analyse.extract_tags(self.text, topK=20, withWeight=False, allowPOS=('n', 'vn', 'v'))
return self.keywords
def sentenceWeight(self):
# 計算句子的位置權重
for sentence in self.sentences:
mark = sentence["pos"]["mark"]
weightPos = 0
if "FIRSTSECTION" in mark:
weightPos = weightPos + 2
if "FIRSTSENTENCE" in mark:
weightPos = weightPos + 2
if "LASTSENTENCE" in mark:
weightPos = weightPos + 1
if "LASTSECTION" in mark:
weightPos = weightPos + 1
sentence["weightPos"] = weightPos
# 計算句子的線(xiàn)索詞權重
index = [" 總之 ", " 總而言之 "]
for sentence in self.sentences:
sentence["weightCueWords"] = 0
sentence["weightKeywords"] = 0
for i in index:
for sentence in self.sentences:
if sentence["text"].find(i) >= 0:
sentence["weightCueWords"] = 1
for keyword in self.keywords:
for sentence in self.sentences:
if sentence["text"].find(keyword) >= 0:
sentence["weightKeywords"] = sentence["weightKeywords"] + 1
for sentence in self.sentences:
sentence["weight"] = sentence["weightPos"] + 2 * sentence["weightCueWords"] + sentence["weightKeywords"]
def getSummary(self, ratio=0.1):
self.keywords = list()
self.sentences = list()
self.summary = list()
# 調用方法,分別計算關(guān)鍵詞、分句,計算權重
self.getKeywords()
self.splitSentence()
self.sentenceWeight()
# 對句子的權重值進(jìn)行排序
self.sentences = sorted(self.sentences, key=lambda k: k['weight'], reverse=True)
# 根據排序結果,取排名占前 ratio% 的句子作為摘要
for i in range(len(self.sentences)):
if i < ratio * len(self.sentences):
sentence = self.sentences[i]
self.summary.append(sentence["text"])
return self.summary
def main_handler(event, context):
nlp = NLPAttr(json.loads(event['body'])['text'])
return {
"keywords": nlp.getKeywords(),
"summary": "。".join(nlp.getSummary())
}
編寫(xiě)項目serverless.yaml文件:
nlpDemo:
component: "@serverless/tencent-scf"
inputs:
name: nlpDemo
codeUri: ./
handler: index.main_handler
runtime: Python3.6
region: ap-guangzhou
description: 文本摘要 / 關(guān)鍵詞功能
memorySize: 256
timeout: 10
events:
- apigw:
name: nlpDemo_apigw_service
parameters:
protocols:
- http
serviceName: serverless
description: 文本摘要 / 關(guān)鍵詞功能
environment: release
endpoints:
- path: /nlp
method: ANY
由于項目中使用了jieba,所以在安裝的時(shí)侯推薦在 CentOS 系統下與對應的 Python 版本下安裝,也可以使用我之前為了便捷做的一個(gè)依賴(lài)工具:
通過(guò)sls --debug進(jìn)行布署:
部署完成,可以通過(guò) PostMan 進(jìn)行簡(jiǎn)單的測試:
從上圖可以看見(jiàn),我們早已根據預期輸出了目標結果。至此,文本摘要 / 關(guān)鍵詞提取的 API 已經(jīng)布署完成。
總結
相對來(lái)說(shuō),通過(guò) Serveless 架構做 API 是十分容易和便捷的,可實(shí)現 API 的插拔行,組件化,希望本文才能給讀者更多的思路和啟發(fā)。
選擇關(guān)鍵詞的步驟和注意事項總結
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 164 次瀏覽 ? 2020-08-25 11:49
對關(guān)鍵詞的選擇和確定,相信你們在實(shí)際應用中早已有了一套自己固定的思維模式,并且已非常成熟。但對于seo新人來(lái)說(shuō),還是須要在實(shí)際應用與實(shí)踐中漸漸積累,希望下邊的一些總結性語(yǔ)言才能對你日后選擇網(wǎng)站關(guān)鍵詞時(shí)有所幫助。
挑選關(guān)鍵詞的步驟:
1.確認核心關(guān)鍵詞。即網(wǎng)站核心關(guān)鍵詞,通常在首頁(yè)的title keyword description中著(zhù)力突出和重復。一般該類(lèi)關(guān)鍵詞都比較寬泛和龐雜,比如SEO,電影,等。
2.在核心關(guān)鍵詞的基礎上進(jìn)行擴充。通常用于確認欄目或頻道關(guān)鍵詞的選擇。如,我的博客關(guān)鍵詞是SEO,頻道關(guān)鍵詞就擴充為SEO服務(wù),SEO學(xué)習,SEO方法等。頻道關(guān)鍵詞應與核心關(guān)鍵詞保持很高的相關(guān)性。
3.根據網(wǎng)站與頻道關(guān)鍵詞,設計相關(guān)性太強的內容頁(yè)與文章關(guān)鍵詞并發(fā)布。
4.模擬用戶(hù)的搜索習慣,研究競爭者的關(guān)鍵詞。從而校準或追加相關(guān)關(guān)鍵詞。需要指出的是,搜索引擎返回的關(guān)鍵字查詢(xún)結果中,僅有10%左右的頁(yè)面和所查詢(xún)的關(guān)鍵詞有直接性關(guān)聯(lián),也就是用戶(hù)真正所需求的信息。所以,相同關(guān)鍵詞的競爭對手網(wǎng)站,應從這10%中因情況不同進(jìn)行篩選并研究。
定位關(guān)鍵詞時(shí)須要注意:
1.調查用戶(hù)的搜索習慣。也就是說(shuō)你要站在用戶(hù)的角度來(lái)考慮,比如電視劇和電影的含意其實(shí)相同,但搜索后者的用戶(hù)遠少于前者,所以,能夠做好電視劇這個(gè)關(guān)鍵詞的排行,意義和價(jià)值都遠小于前者。
2.關(guān)鍵詞不易過(guò)分艱深。除主頁(yè)以外,要使用較為精確的頁(yè)面關(guān)鍵詞,這樣做除了才能獲得更好的排行,同時(shí)也大大提高了有效顧客的轉換率。提升網(wǎng)站訪(fǎng)客的質(zhì)量。
3.關(guān)鍵詞在任何時(shí)侯都要保持高度的相關(guān)性,做SEO的,發(fā)布或設定影片信息的頻道總是說(shuō)不過(guò)去的,從搜索引擎角度而言,也非常的不友善。 查看全部
選擇關(guān)鍵詞的步驟和注意事項總結
對關(guān)鍵詞的選擇和確定,相信你們在實(shí)際應用中早已有了一套自己固定的思維模式,并且已非常成熟。但對于seo新人來(lái)說(shuō),還是須要在實(shí)際應用與實(shí)踐中漸漸積累,希望下邊的一些總結性語(yǔ)言才能對你日后選擇網(wǎng)站關(guān)鍵詞時(shí)有所幫助。
挑選關(guān)鍵詞的步驟:
1.確認核心關(guān)鍵詞。即網(wǎng)站核心關(guān)鍵詞,通常在首頁(yè)的title keyword description中著(zhù)力突出和重復。一般該類(lèi)關(guān)鍵詞都比較寬泛和龐雜,比如SEO,電影,等。
2.在核心關(guān)鍵詞的基礎上進(jìn)行擴充。通常用于確認欄目或頻道關(guān)鍵詞的選擇。如,我的博客關(guān)鍵詞是SEO,頻道關(guān)鍵詞就擴充為SEO服務(wù),SEO學(xué)習,SEO方法等。頻道關(guān)鍵詞應與核心關(guān)鍵詞保持很高的相關(guān)性。
3.根據網(wǎng)站與頻道關(guān)鍵詞,設計相關(guān)性太強的內容頁(yè)與文章關(guān)鍵詞并發(fā)布。
4.模擬用戶(hù)的搜索習慣,研究競爭者的關(guān)鍵詞。從而校準或追加相關(guān)關(guān)鍵詞。需要指出的是,搜索引擎返回的關(guān)鍵字查詢(xún)結果中,僅有10%左右的頁(yè)面和所查詢(xún)的關(guān)鍵詞有直接性關(guān)聯(lián),也就是用戶(hù)真正所需求的信息。所以,相同關(guān)鍵詞的競爭對手網(wǎng)站,應從這10%中因情況不同進(jìn)行篩選并研究。
定位關(guān)鍵詞時(shí)須要注意:
1.調查用戶(hù)的搜索習慣。也就是說(shuō)你要站在用戶(hù)的角度來(lái)考慮,比如電視劇和電影的含意其實(shí)相同,但搜索后者的用戶(hù)遠少于前者,所以,能夠做好電視劇這個(gè)關(guān)鍵詞的排行,意義和價(jià)值都遠小于前者。
2.關(guān)鍵詞不易過(guò)分艱深。除主頁(yè)以外,要使用較為精確的頁(yè)面關(guān)鍵詞,這樣做除了才能獲得更好的排行,同時(shí)也大大提高了有效顧客的轉換率。提升網(wǎng)站訪(fǎng)客的質(zhì)量。
3.關(guān)鍵詞在任何時(shí)侯都要保持高度的相關(guān)性,做SEO的,發(fā)布或設定影片信息的頻道總是說(shuō)不過(guò)去的,從搜索引擎角度而言,也非常的不友善。
基于A(yíng)PI的微博信息采集系統設計與實(shí)現
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 367 次瀏覽 ? 2020-08-25 10:36
摘要:微博已成為網(wǎng)路信息的重要來(lái)源,該文剖析了微博信息采集的相關(guān)技巧與技術(shù),提出了基于A(yíng)PI的信息采集方法,然后設計了一個(gè)信息采集系統,能夠對新浪微博的相關(guān)信息進(jìn)行采集。實(shí)驗測試表明,該信息采集系統就能快速有效地采集新浪微博信息。
關(guān)鍵詞:新浪微博;微博插口;信息采集;C#語(yǔ)言
中圖分類(lèi)號:TP315 文獻標識碼:A 文章編號:1009-3044(2013)17-4005-04
微博[1],即微型博客的簡(jiǎn)稱(chēng),是一個(gè)基于用戶(hù)關(guān)系的信息分享、傳播以及獲取平臺,用
戶(hù)可以通過(guò)WEB、WAP以及各類(lèi)客戶(hù)端組件個(gè)人社區,以140字左右的文字更新信息,并實(shí)現即時(shí)分享。中國互聯(lián)網(wǎng)絡(luò )信息中心的《第31次中國互聯(lián)網(wǎng)路發(fā)展狀況統計報告》顯示,截至2012年12月底,截至2012年12月底,我國微博用戶(hù)規模為3.09億,較2011年底下降了5873萬(wàn),網(wǎng)民中的微博用戶(hù)比列較上年底提高了六個(gè)百分點(diǎn),達到54.7%[2]。隨著(zhù)微博網(wǎng)路
影響力的快速擴大,政府部門(mén)、學(xué)校、知名企業(yè)、社會(huì )公眾人物均開(kāi)通了微博。隨著(zhù)公眾的參與,微博成為了一個(gè)強悍的虛擬社會(huì ),微博早已是網(wǎng)路信息的重要來(lái)源,如何用于快速有效地采集微博信息已然成為一個(gè)具有重要應用價(jià)值的研究。
1 研究方式與技術(shù)路線(xiàn)
國內的微博用戶(hù)主要是新浪微博,因此本文擬以新浪微博為例,設計研究方式與技術(shù)路線(xiàn)。通過(guò)剖析國內外的科技文獻與實(shí)際應用案例,發(fā)現目前針對新浪微博的信息采集方法主要有兩類(lèi):一種是“模擬登錄”、“網(wǎng)頁(yè)爬蟲(chóng)”[3]、“網(wǎng)頁(yè)內容解析”[4]三種技術(shù)結合的信息采集方法,二是基于新浪微博開(kāi)放平臺的API文檔,開(kāi)發(fā)者自行編撰程序調用微博的API,進(jìn)行微博信息的采集。對于第一種方式,難度比較高,研究技術(shù)復雜,特別是“模擬登錄”這個(gè)步驟,需要隨時(shí)跟蹤新浪微博的登錄加密算法,新浪微博的登錄加密算法的改變,就會(huì )導致“網(wǎng)頁(yè)爬蟲(chóng)”的失敗,最后造成采集不到微博信息。同時(shí),“網(wǎng)頁(yè)爬蟲(chóng)”采集到的網(wǎng)頁(yè)須要進(jìn)行“網(wǎng)頁(yè)內容解析”,效率與性能相比基于A(yíng)PI的數據采集存在顯著(zhù)的差別?;谝陨险T因,因此本文擬采用第二種方法進(jìn)行研究。
基于新浪微博開(kāi)放平臺API文檔的微博信息采集系統,主要采用了兩個(gè)研究方式:文檔分析法和實(shí)驗測試法。文檔分析法:參考新浪微博開(kāi)放平臺的API文檔,把這種API說(shuō)明文檔編撰為單獨的插口類(lèi)文件。實(shí)驗測試法:在平臺[5],以C/S模式開(kāi)發(fā)程序來(lái)調用插口類(lèi),采集微博返回的JOSN數據流,實(shí)現數據采集的相關(guān)測試與開(kāi)發(fā)。 查看全部
基于A(yíng)PI的微博信息采集系統設計與實(shí)現
摘要:微博已成為網(wǎng)路信息的重要來(lái)源,該文剖析了微博信息采集的相關(guān)技巧與技術(shù),提出了基于A(yíng)PI的信息采集方法,然后設計了一個(gè)信息采集系統,能夠對新浪微博的相關(guān)信息進(jìn)行采集。實(shí)驗測試表明,該信息采集系統就能快速有效地采集新浪微博信息。
關(guān)鍵詞:新浪微博;微博插口;信息采集;C#語(yǔ)言
中圖分類(lèi)號:TP315 文獻標識碼:A 文章編號:1009-3044(2013)17-4005-04
微博[1],即微型博客的簡(jiǎn)稱(chēng),是一個(gè)基于用戶(hù)關(guān)系的信息分享、傳播以及獲取平臺,用
戶(hù)可以通過(guò)WEB、WAP以及各類(lèi)客戶(hù)端組件個(gè)人社區,以140字左右的文字更新信息,并實(shí)現即時(shí)分享。中國互聯(lián)網(wǎng)絡(luò )信息中心的《第31次中國互聯(lián)網(wǎng)路發(fā)展狀況統計報告》顯示,截至2012年12月底,截至2012年12月底,我國微博用戶(hù)規模為3.09億,較2011年底下降了5873萬(wàn),網(wǎng)民中的微博用戶(hù)比列較上年底提高了六個(gè)百分點(diǎn),達到54.7%[2]。隨著(zhù)微博網(wǎng)路
影響力的快速擴大,政府部門(mén)、學(xué)校、知名企業(yè)、社會(huì )公眾人物均開(kāi)通了微博。隨著(zhù)公眾的參與,微博成為了一個(gè)強悍的虛擬社會(huì ),微博早已是網(wǎng)路信息的重要來(lái)源,如何用于快速有效地采集微博信息已然成為一個(gè)具有重要應用價(jià)值的研究。
1 研究方式與技術(shù)路線(xiàn)
國內的微博用戶(hù)主要是新浪微博,因此本文擬以新浪微博為例,設計研究方式與技術(shù)路線(xiàn)。通過(guò)剖析國內外的科技文獻與實(shí)際應用案例,發(fā)現目前針對新浪微博的信息采集方法主要有兩類(lèi):一種是“模擬登錄”、“網(wǎng)頁(yè)爬蟲(chóng)”[3]、“網(wǎng)頁(yè)內容解析”[4]三種技術(shù)結合的信息采集方法,二是基于新浪微博開(kāi)放平臺的API文檔,開(kāi)發(fā)者自行編撰程序調用微博的API,進(jìn)行微博信息的采集。對于第一種方式,難度比較高,研究技術(shù)復雜,特別是“模擬登錄”這個(gè)步驟,需要隨時(shí)跟蹤新浪微博的登錄加密算法,新浪微博的登錄加密算法的改變,就會(huì )導致“網(wǎng)頁(yè)爬蟲(chóng)”的失敗,最后造成采集不到微博信息。同時(shí),“網(wǎng)頁(yè)爬蟲(chóng)”采集到的網(wǎng)頁(yè)須要進(jìn)行“網(wǎng)頁(yè)內容解析”,效率與性能相比基于A(yíng)PI的數據采集存在顯著(zhù)的差別?;谝陨险T因,因此本文擬采用第二種方法進(jìn)行研究。
基于新浪微博開(kāi)放平臺API文檔的微博信息采集系統,主要采用了兩個(gè)研究方式:文檔分析法和實(shí)驗測試法。文檔分析法:參考新浪微博開(kāi)放平臺的API文檔,把這種API說(shuō)明文檔編撰為單獨的插口類(lèi)文件。實(shí)驗測試法:在平臺[5],以C/S模式開(kāi)發(fā)程序來(lái)調用插口類(lèi),采集微博返回的JOSN數據流,實(shí)現數據采集的相關(guān)測試與開(kāi)發(fā)。
OCR在數據救治中的應用設計
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 176 次瀏覽 ? 2020-08-25 04:52
OCR是通過(guò)算法辨識出圖象中的文字內容,算是圖象辨識的一個(gè)分支。但是在數據管理救治上,也十分實(shí)用。本文作者對具體的實(shí)現途徑展開(kāi)了梳理總結,并對過(guò)程中存在的問(wèn)題進(jìn)行了剖析,與你們分享。
一、服務(wù)于業(yè)務(wù):數據救治的疼點(diǎn)在哪?
大數據工程的第一步是獲得數據,而傳統行業(yè)、政府機構、科研院所中有大量的存量數據,數據救治就是把這種數據數字化,一是防止數據流失,二是提升借助價(jià)值。而存量數據中包括大量珍稀的紙質(zhì)數據,比如天文地理水文檢測數據、試驗數據、政府公文、古舊書(shū)籍等等。
紙質(zhì)數據怎么救治?這步很簡(jiǎn)單,基本解決方式就是先掃描成電子版進(jìn)行儲存。但光是掃描儲存就夠了嗎?我認為是不夠的。
像前面所說(shuō)的,數據救治的目的一是防止數據流失,二是提升借助價(jià)值,掃描儲存僅僅解決了第一個(gè)問(wèn)題防止數據流失,但并沒(méi)有挺好的增強數據的借助價(jià)值。紙質(zhì)數據的價(jià)值大部分在于文檔的內容,僅僅把紙質(zhì)文檔電子化一直不能對內容進(jìn)行進(jìn)一步的檢索、分析。
所以我們把產(chǎn)品的目標聚焦在了“提高數據利用率”上。接下來(lái)就是對目標進(jìn)行細化拆解。關(guān)于怎么提升利用率,也就是數據怎么應用,我是這樣思索的,一是從大數據角度看,如何借助統計剖析等手段增強數據整體的價(jià)值;二是從單份文檔角度方面看,如何使單份文檔更有價(jià)值,讓有興趣的用戶(hù)更容易找到它,讓用戶(hù)找到這份文檔后能快速了解其內容。
通過(guò)上面的剖析,單份數據借助的方法基本確定為【全文檢索】和【內容剖析】,而這兩種借助方式都須要對紙質(zhì)文檔中的文字進(jìn)一步進(jìn)行處理,這就須要我們數據救治的好伙伴:OCR出場(chǎng)了。
二、功能設計1. 業(yè)務(wù)場(chǎng)景
小李所在的單位有大量多年積累出來(lái)的文書(shū),有些年代久遠的早已出現了損壞丟失的情況,借著(zhù)大數據工程建設的抓手,單位決定舉辦歷史數據救治工作。
工作的第一步就是整理文書(shū)文檔,然后掃描電子化,每掃描完一份文件小李就在頁(yè)面上預覽確認沒(méi)有問(wèn)題后遞交,之后系統對文檔進(jìn)行OCR識別,識別完成后小李在頁(yè)面上可以預覽查看辨識結果,發(fā)現位置辨識不準或則文字辨識有誤可以進(jìn)行調整,最后保存調整結果即可。
小李辛辛苦苦做完的工作彰顯在哪兒呢?
同事小陳近來(lái)做的一項工作須要查閱以往數據A的相關(guān)記錄,小陳登入系統直接搜索“數據A”,搜索結果顯示了所以收錄“數據A”的文檔。小陳依次點(diǎn)擊搜索結果就可以查看文檔的摘要和關(guān)鍵詞,從而判定該文檔是否對他有用。
大概業(yè)務(wù)的流程就是右圖這樣,我們這篇主要介紹小李的工作部份。
2. 實(shí)現途徑
?。?)數據采集
數據采集主要依賴(lài)于掃描紙質(zhì)文檔的掃描儀,所以這一部分是一要考慮掃描儀本身的性能,二要考慮掃描儀與整個(gè)系統的集成。
考慮到紙質(zhì)數據量大、裝訂形式多樣的特性,掃描儀最好滿(mǎn)足快速掃描、不拆書(shū)、盡量自動(dòng)化的要求。調研了市面上成熟的商用掃描儀,符合要求的掃描儀大約有幾類(lèi):
專(zhuān)門(mén)用于古籍掃描的全手動(dòng)翻書(shū)掃描儀,就一個(gè)缺點(diǎn),太貴(140-180w)需要手工翻頁(yè),但不用拆書(shū)的高速掃描儀,這類(lèi)掃描儀選擇比較多,成本也可以接受最后一種選擇,非常有趣,是google books的開(kāi)源手動(dòng)掃描儀方案,需要自行組裝,有興趣的同學(xué)可以了解一下()
系統與掃描儀集成方面,就涉及到掃描好的文件如何儲存到系統?大概有兩種方案:
1)我們平常用的掃描儀,一般是聯(lián)接筆記本(客戶(hù)端),把掃描好的文件存在本地,然后由用戶(hù)把文件自動(dòng)上傳系統
2)網(wǎng)絡(luò )掃描儀直接通過(guò)局域網(wǎng)聯(lián)接服務(wù)器,掃描好的文件直接儲存在服務(wù)器指定位置。這種網(wǎng)路掃描儀的方案須要掃描儀支持TWAIN或則其他SDK、api,好處是多個(gè)用戶(hù)可以共用掃描儀,操作步驟也要簡(jiǎn)化好多
結合掃描儀性能、系統集成和成本角度考慮,我們選擇了一款支持TWAIN插口的自動(dòng)翻頁(yè)掃描儀作為數據救治系統中硬件支撐。
?。?) OCR識別
首先我們須要對OCR的算法有個(gè)大約的了解,可以參考OCR在資產(chǎn)管理系統的應用。
用于數據救治的OCR和用于資產(chǎn)標簽辨識的OCR還是有一點(diǎn)區別的,資產(chǎn)標簽辨識中的辨識對象是【自然環(huán)境】中的【印刷文字】,而數據救治對象是【文檔圖片】中的【印刷文字】。
但總體來(lái)說(shuō)處理的流程還是預處理-文字檢查-文字辨識,只不過(guò)對紙質(zhì)文檔中復雜的排版(圖片、表格、文字、頁(yè)碼、公式混排等等)的文字檢查換了種說(shuō)法稱(chēng)作版面剖析(layout analysis),做的事情還是差不多的,除了負責檢查出文字的位置外,也要同時(shí)確圖表等其他要素的位置。
1)預處理:
預處理的目的主要是提升圖象質(zhì)量,一般用傳統的圖象處理手段就可以完成,現在好多掃描儀也會(huì )把這部份做在里面,比如手動(dòng)糾偏、去黑邊等,如果可以滿(mǎn)足要求,預處理部份置于數據采集時(shí)由掃描儀完成也是可以的。
2)版面剖析:
先看下直觀(guān)的看下版面剖析的預期療效。關(guān)于版面剖析這塊我們須要確認的事情主要有3件:一是測量的目標有什么,二是目前算法的成熟度,三是性能方面的要求有什么。
確定測量對象:畢竟版面剖析是個(gè)測量問(wèn)題,和測量圖片中的狗貓沒(méi)有本質(zhì)區別,所以我們要先確定版面剖析須要辨識哪些東西。在數據救治中我們關(guān)心哪些呢?首先文字是最重要的,第二為了定位圖片和表格,我們也須要圖片、表格的位置以及圖注、表名,有了這種信息就可以產(chǎn)生類(lèi)似索引目錄,方便查找。所以初步確定,版面辨識須要辨識出文字、圖片、表格、圖注、表名五類(lèi)對象。
算法成熟度:雖然傳統的圖象辨識也可以實(shí)現簡(jiǎn)單的版面剖析任務(wù),但對上圖這些特別復雜的版面剖析經(jīng)過(guò)督查比較靠譜的方式還是上深度學(xué)習??梢宰霭婷嫫饰龅纳疃葘W(xué)習算法主要是圖象檢查一系列的,比如yolo、fastRCNN,這篇文章中的大鱷是用MaskRCNN實(shí)現的。所以版面剖析問(wèn)題早已有不少研究基礎了,但實(shí)際落地的應用可能還不是好多,其中須要優(yōu)化的工作肯定還有不少。
性能要求:算法的選擇其實(shí)要考慮實(shí)際中對硬件性能、識別速率、識別精度、召回率的要求。
用在我們數據救治中,首先系統是采用B/S架構,在服務(wù)器完成辨識任務(wù),所以沒(méi)有特殊硬件要求(如果是在端上實(shí)現就要考慮硬件對算法限制了)。識別速率方面,目前考慮到一份紙質(zhì)數據可能有成百上千頁(yè),所以辨識時(shí)間會(huì )比較長(cháng),所以暫定以后臺任務(wù)的方法執行,這就對辨識速率方面要求也比較低(如果要求實(shí)時(shí)返回辨識結果通常辨識速率就要做到秒級)。識別精度和召回率的平衡方面,由于上面有人工校準調整的環(huán)節,所以還是可以適當提升召回率,即使辨識有所偏差也可以通過(guò)人工調整填補。
c)文字辨識:
文字辨識部份相對來(lái)說(shuō)也比較成熟,目前兩大主流技術(shù)是 CRNN OCR 和 attention OCR。在我們的整體流程中,需要對版面辨識后的文字、圖注、表名區域進(jìn)行分別辨識即可。
上邊技術(shù)實(shí)現途徑的督查主要為了證明我們設計的功能是在技術(shù)上可實(shí)現的,避免出現設計出難以實(shí)現的功能的難堪情況。
3. 功能流程
正如前面所說(shuō)的,我們這兒的功能只關(guān)注紙質(zhì)數據救治工作沒(méi)有涉及到數據應用的部份,所以從掃描文件到最后人工調整OCR識別結果,整個(gè)紙質(zhì)數據救治的功能即使完成了。對用戶(hù)來(lái)說(shuō),相較于只掃描文件并保存,多出的操作步驟就是查看辨識結果并調整的部份。
4. 核心頁(yè)面設計
?。∣CR識別結果查看)
?。∣CR識別結果調整)
OCR相關(guān)的兩個(gè)頁(yè)面主要是查看辨識結果和調整辨識結果。查看頁(yè)面主要包括預覽文檔、用線(xiàn)框表示圖表區域和圖表標題、顯示OCR文字辨識結果。點(diǎn)擊【編輯】跳轉到調整頁(yè)面,調整頁(yè)面以每頁(yè)為單位顯示,圖表框可拖放調整、文字變?yōu)榭删庉嫚顟B(tài)。
三、小結
通過(guò)需求剖析我們發(fā)覺(jué)在數據救治中的確存在OCR應用的必要性,然后從技術(shù)實(shí)現的角度進(jìn)行督查驗證需求是否是可實(shí)現的,最后梳理整個(gè)功能流程再加上每位功能點(diǎn)的詳細說(shuō)明/原型設計功能基本就齊活了~ 查看全部
OCR在數據救治中的應用設計
OCR是通過(guò)算法辨識出圖象中的文字內容,算是圖象辨識的一個(gè)分支。但是在數據管理救治上,也十分實(shí)用。本文作者對具體的實(shí)現途徑展開(kāi)了梳理總結,并對過(guò)程中存在的問(wèn)題進(jìn)行了剖析,與你們分享。

一、服務(wù)于業(yè)務(wù):數據救治的疼點(diǎn)在哪?
大數據工程的第一步是獲得數據,而傳統行業(yè)、政府機構、科研院所中有大量的存量數據,數據救治就是把這種數據數字化,一是防止數據流失,二是提升借助價(jià)值。而存量數據中包括大量珍稀的紙質(zhì)數據,比如天文地理水文檢測數據、試驗數據、政府公文、古舊書(shū)籍等等。
紙質(zhì)數據怎么救治?這步很簡(jiǎn)單,基本解決方式就是先掃描成電子版進(jìn)行儲存。但光是掃描儲存就夠了嗎?我認為是不夠的。
像前面所說(shuō)的,數據救治的目的一是防止數據流失,二是提升借助價(jià)值,掃描儲存僅僅解決了第一個(gè)問(wèn)題防止數據流失,但并沒(méi)有挺好的增強數據的借助價(jià)值。紙質(zhì)數據的價(jià)值大部分在于文檔的內容,僅僅把紙質(zhì)文檔電子化一直不能對內容進(jìn)行進(jìn)一步的檢索、分析。
所以我們把產(chǎn)品的目標聚焦在了“提高數據利用率”上。接下來(lái)就是對目標進(jìn)行細化拆解。關(guān)于怎么提升利用率,也就是數據怎么應用,我是這樣思索的,一是從大數據角度看,如何借助統計剖析等手段增強數據整體的價(jià)值;二是從單份文檔角度方面看,如何使單份文檔更有價(jià)值,讓有興趣的用戶(hù)更容易找到它,讓用戶(hù)找到這份文檔后能快速了解其內容。
通過(guò)上面的剖析,單份數據借助的方法基本確定為【全文檢索】和【內容剖析】,而這兩種借助方式都須要對紙質(zhì)文檔中的文字進(jìn)一步進(jìn)行處理,這就須要我們數據救治的好伙伴:OCR出場(chǎng)了。
二、功能設計1. 業(yè)務(wù)場(chǎng)景
小李所在的單位有大量多年積累出來(lái)的文書(shū),有些年代久遠的早已出現了損壞丟失的情況,借著(zhù)大數據工程建設的抓手,單位決定舉辦歷史數據救治工作。
工作的第一步就是整理文書(shū)文檔,然后掃描電子化,每掃描完一份文件小李就在頁(yè)面上預覽確認沒(méi)有問(wèn)題后遞交,之后系統對文檔進(jìn)行OCR識別,識別完成后小李在頁(yè)面上可以預覽查看辨識結果,發(fā)現位置辨識不準或則文字辨識有誤可以進(jìn)行調整,最后保存調整結果即可。
小李辛辛苦苦做完的工作彰顯在哪兒呢?
同事小陳近來(lái)做的一項工作須要查閱以往數據A的相關(guān)記錄,小陳登入系統直接搜索“數據A”,搜索結果顯示了所以收錄“數據A”的文檔。小陳依次點(diǎn)擊搜索結果就可以查看文檔的摘要和關(guān)鍵詞,從而判定該文檔是否對他有用。
大概業(yè)務(wù)的流程就是右圖這樣,我們這篇主要介紹小李的工作部份。

2. 實(shí)現途徑
?。?)數據采集
數據采集主要依賴(lài)于掃描紙質(zhì)文檔的掃描儀,所以這一部分是一要考慮掃描儀本身的性能,二要考慮掃描儀與整個(gè)系統的集成。
考慮到紙質(zhì)數據量大、裝訂形式多樣的特性,掃描儀最好滿(mǎn)足快速掃描、不拆書(shū)、盡量自動(dòng)化的要求。調研了市面上成熟的商用掃描儀,符合要求的掃描儀大約有幾類(lèi):
專(zhuān)門(mén)用于古籍掃描的全手動(dòng)翻書(shū)掃描儀,就一個(gè)缺點(diǎn),太貴(140-180w)需要手工翻頁(yè),但不用拆書(shū)的高速掃描儀,這類(lèi)掃描儀選擇比較多,成本也可以接受最后一種選擇,非常有趣,是google books的開(kāi)源手動(dòng)掃描儀方案,需要自行組裝,有興趣的同學(xué)可以了解一下()
系統與掃描儀集成方面,就涉及到掃描好的文件如何儲存到系統?大概有兩種方案:
1)我們平常用的掃描儀,一般是聯(lián)接筆記本(客戶(hù)端),把掃描好的文件存在本地,然后由用戶(hù)把文件自動(dòng)上傳系統

2)網(wǎng)絡(luò )掃描儀直接通過(guò)局域網(wǎng)聯(lián)接服務(wù)器,掃描好的文件直接儲存在服務(wù)器指定位置。這種網(wǎng)路掃描儀的方案須要掃描儀支持TWAIN或則其他SDK、api,好處是多個(gè)用戶(hù)可以共用掃描儀,操作步驟也要簡(jiǎn)化好多

結合掃描儀性能、系統集成和成本角度考慮,我們選擇了一款支持TWAIN插口的自動(dòng)翻頁(yè)掃描儀作為數據救治系統中硬件支撐。
?。?) OCR識別
首先我們須要對OCR的算法有個(gè)大約的了解,可以參考OCR在資產(chǎn)管理系統的應用。

用于數據救治的OCR和用于資產(chǎn)標簽辨識的OCR還是有一點(diǎn)區別的,資產(chǎn)標簽辨識中的辨識對象是【自然環(huán)境】中的【印刷文字】,而數據救治對象是【文檔圖片】中的【印刷文字】。
但總體來(lái)說(shuō)處理的流程還是預處理-文字檢查-文字辨識,只不過(guò)對紙質(zhì)文檔中復雜的排版(圖片、表格、文字、頁(yè)碼、公式混排等等)的文字檢查換了種說(shuō)法稱(chēng)作版面剖析(layout analysis),做的事情還是差不多的,除了負責檢查出文字的位置外,也要同時(shí)確圖表等其他要素的位置。

1)預處理:
預處理的目的主要是提升圖象質(zhì)量,一般用傳統的圖象處理手段就可以完成,現在好多掃描儀也會(huì )把這部份做在里面,比如手動(dòng)糾偏、去黑邊等,如果可以滿(mǎn)足要求,預處理部份置于數據采集時(shí)由掃描儀完成也是可以的。
2)版面剖析:

先看下直觀(guān)的看下版面剖析的預期療效。關(guān)于版面剖析這塊我們須要確認的事情主要有3件:一是測量的目標有什么,二是目前算法的成熟度,三是性能方面的要求有什么。
確定測量對象:畢竟版面剖析是個(gè)測量問(wèn)題,和測量圖片中的狗貓沒(méi)有本質(zhì)區別,所以我們要先確定版面剖析須要辨識哪些東西。在數據救治中我們關(guān)心哪些呢?首先文字是最重要的,第二為了定位圖片和表格,我們也須要圖片、表格的位置以及圖注、表名,有了這種信息就可以產(chǎn)生類(lèi)似索引目錄,方便查找。所以初步確定,版面辨識須要辨識出文字、圖片、表格、圖注、表名五類(lèi)對象。
算法成熟度:雖然傳統的圖象辨識也可以實(shí)現簡(jiǎn)單的版面剖析任務(wù),但對上圖這些特別復雜的版面剖析經(jīng)過(guò)督查比較靠譜的方式還是上深度學(xué)習??梢宰霭婷嫫饰龅纳疃葘W(xué)習算法主要是圖象檢查一系列的,比如yolo、fastRCNN,這篇文章中的大鱷是用MaskRCNN實(shí)現的。所以版面剖析問(wèn)題早已有不少研究基礎了,但實(shí)際落地的應用可能還不是好多,其中須要優(yōu)化的工作肯定還有不少。
性能要求:算法的選擇其實(shí)要考慮實(shí)際中對硬件性能、識別速率、識別精度、召回率的要求。
用在我們數據救治中,首先系統是采用B/S架構,在服務(wù)器完成辨識任務(wù),所以沒(méi)有特殊硬件要求(如果是在端上實(shí)現就要考慮硬件對算法限制了)。識別速率方面,目前考慮到一份紙質(zhì)數據可能有成百上千頁(yè),所以辨識時(shí)間會(huì )比較長(cháng),所以暫定以后臺任務(wù)的方法執行,這就對辨識速率方面要求也比較低(如果要求實(shí)時(shí)返回辨識結果通常辨識速率就要做到秒級)。識別精度和召回率的平衡方面,由于上面有人工校準調整的環(huán)節,所以還是可以適當提升召回率,即使辨識有所偏差也可以通過(guò)人工調整填補。
c)文字辨識:
文字辨識部份相對來(lái)說(shuō)也比較成熟,目前兩大主流技術(shù)是 CRNN OCR 和 attention OCR。在我們的整體流程中,需要對版面辨識后的文字、圖注、表名區域進(jìn)行分別辨識即可。
上邊技術(shù)實(shí)現途徑的督查主要為了證明我們設計的功能是在技術(shù)上可實(shí)現的,避免出現設計出難以實(shí)現的功能的難堪情況。
3. 功能流程

正如前面所說(shuō)的,我們這兒的功能只關(guān)注紙質(zhì)數據救治工作沒(méi)有涉及到數據應用的部份,所以從掃描文件到最后人工調整OCR識別結果,整個(gè)紙質(zhì)數據救治的功能即使完成了。對用戶(hù)來(lái)說(shuō),相較于只掃描文件并保存,多出的操作步驟就是查看辨識結果并調整的部份。
4. 核心頁(yè)面設計

?。∣CR識別結果查看)

?。∣CR識別結果調整)
OCR相關(guān)的兩個(gè)頁(yè)面主要是查看辨識結果和調整辨識結果。查看頁(yè)面主要包括預覽文檔、用線(xiàn)框表示圖表區域和圖表標題、顯示OCR文字辨識結果。點(diǎn)擊【編輯】跳轉到調整頁(yè)面,調整頁(yè)面以每頁(yè)為單位顯示,圖表框可拖放調整、文字變?yōu)榭删庉嫚顟B(tài)。
三、小結
通過(guò)需求剖析我們發(fā)覺(jué)在數據救治中的確存在OCR應用的必要性,然后從技術(shù)實(shí)現的角度進(jìn)行督查驗證需求是否是可實(shí)現的,最后梳理整個(gè)功能流程再加上每位功能點(diǎn)的詳細說(shuō)明/原型設計功能基本就齊活了~
地址(URL)中收錄關(guān)鍵詞對排行的影響,如何在url設置關(guān)鍵詞
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 273 次瀏覽 ? 2020-08-24 18:22
在一個(gè)頁(yè)面中地址中出現了要搜索的關(guān)鍵詞,對于排行是很重要的,因為這標志著(zhù)這個(gè)頁(yè)面和這個(gè)關(guān)鍵詞的相關(guān)程度,所以在seoer優(yōu)化關(guān)鍵詞的時(shí)侯都想辦法在url中出現關(guān)鍵詞,我們都曉得網(wǎng)頁(yè)的地址都是中文字符,如果優(yōu)化英語(yǔ)詞組那當然很簡(jiǎn)單了,直接把文件名改成須要優(yōu)化的關(guān)鍵詞就可以了,但是我們優(yōu)化的漢字,如何來(lái)做到這一點(diǎn)呢。
其實(shí)我們用傳值是可以做到的,下面看一下事例:
這是一個(gè)htm頁(yè),這個(gè)頁(yè)面的名子就叫戶(hù)外用具,竟然有這們的先例了,說(shuō)明我們還是可以做到的,為了做這個(gè)實(shí)驗,我前兩天做了這樣一個(gè)事例,做的是asp基礎教程這個(gè)詞。
沒(méi)過(guò)多久,百度收錄了,而且還通過(guò)這個(gè)詞帶來(lái)了ip,我去搜索了一下,看到的療效如圖:
顯然我這個(gè)實(shí)驗是成功的,那么我是怎樣在url中加上關(guān)鍵詞的呢,其實(shí)很簡(jiǎn)單,我們在傳值的時(shí)侯只須要把編碼轉化成gb2312的就可以了,在asp中這個(gè)有點(diǎn)難度,具體方式可以去網(wǎng)上查一下,如果你實(shí)在找不到辦法可以把關(guān)鍵詞放在百度上搜索一下,然后把參數前面的值拷貝出來(lái)當作自己的參數,這樣在百度收錄的時(shí)侯就可以轉化成相應的漢字了,如我這個(gè)地址打開(kāi)是這樣的:
%BB%F9%B4%A1%BD%CC%B3%CC
而我們一般用的escape和encodeURIComponent所轉化的地址是這樣的
%u57FA%u7840%u6559%u7A0B
后者在搜索引擎里是難以轉化為漢字的,需要我們要想辦法改成上面傳值的方式。
在中想要得到這些傳值很簡(jiǎn)單,代碼如下:
System.Web.HttpUtility.UrlEncode(需要加密的變量, System.Text.Encoding.GetEncoding("GB2312"));
只須要這樣加密,得到的編碼就是百度可以辨識的了。 查看全部
地址(URL)中收錄關(guān)鍵詞對排行的影響,如何在url設置關(guān)鍵詞
在一個(gè)頁(yè)面中地址中出現了要搜索的關(guān)鍵詞,對于排行是很重要的,因為這標志著(zhù)這個(gè)頁(yè)面和這個(gè)關(guān)鍵詞的相關(guān)程度,所以在seoer優(yōu)化關(guān)鍵詞的時(shí)侯都想辦法在url中出現關(guān)鍵詞,我們都曉得網(wǎng)頁(yè)的地址都是中文字符,如果優(yōu)化英語(yǔ)詞組那當然很簡(jiǎn)單了,直接把文件名改成須要優(yōu)化的關(guān)鍵詞就可以了,但是我們優(yōu)化的漢字,如何來(lái)做到這一點(diǎn)呢。
其實(shí)我們用傳值是可以做到的,下面看一下事例:

這是一個(gè)htm頁(yè),這個(gè)頁(yè)面的名子就叫戶(hù)外用具,竟然有這們的先例了,說(shuō)明我們還是可以做到的,為了做這個(gè)實(shí)驗,我前兩天做了這樣一個(gè)事例,做的是asp基礎教程這個(gè)詞。
沒(méi)過(guò)多久,百度收錄了,而且還通過(guò)這個(gè)詞帶來(lái)了ip,我去搜索了一下,看到的療效如圖:

顯然我這個(gè)實(shí)驗是成功的,那么我是怎樣在url中加上關(guān)鍵詞的呢,其實(shí)很簡(jiǎn)單,我們在傳值的時(shí)侯只須要把編碼轉化成gb2312的就可以了,在asp中這個(gè)有點(diǎn)難度,具體方式可以去網(wǎng)上查一下,如果你實(shí)在找不到辦法可以把關(guān)鍵詞放在百度上搜索一下,然后把參數前面的值拷貝出來(lái)當作自己的參數,這樣在百度收錄的時(shí)侯就可以轉化成相應的漢字了,如我這個(gè)地址打開(kāi)是這樣的:
%BB%F9%B4%A1%BD%CC%B3%CC
而我們一般用的escape和encodeURIComponent所轉化的地址是這樣的
%u57FA%u7840%u6559%u7A0B
后者在搜索引擎里是難以轉化為漢字的,需要我們要想辦法改成上面傳值的方式。
在中想要得到這些傳值很簡(jiǎn)單,代碼如下:
System.Web.HttpUtility.UrlEncode(需要加密的變量, System.Text.Encoding.GetEncoding("GB2312"));
只須要這樣加密,得到的編碼就是百度可以辨識的了。
POC-T框架學(xué)習————4、腳本擴充與第三方搜索引擎
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 140 次瀏覽 ? 2020-08-21 22:23
工具說(shuō)明
urlparser.py
URL處理工具,可對采集到的零亂URL進(jìn)行低格/自動(dòng)生成等
useragent.py
User-Agent處理工具,支持隨機化UA以繞開(kāi)防御規則
extracts.py
正則提取工具,從采集到的零亂文本中篩選IP地址
static.py
存儲靜態(tài)資源,如常見(jiàn)端口號等
util.py
常用函數,處理隨機值/MD5/302跳轉/格式轉換等
cloudeye.py
cloudeye.me功能插口,在PoC中查詢(xún)DNS和HTTP日志
本工具擬支持主流空間搜索引擎的API,目前已完成ZoomEye/Shodan/Google的集成。您可以通過(guò)簡(jiǎn)單的參數調用直接從搜索引擎中直接獲取目標,并結合本地腳本進(jìn)行掃描。
預配置(可選)
由于第三方插口須要認證,您可以在根目錄下的tookit.conf配置文件中預先設置好您的API-KEY。
如無(wú)預配置,程序將在運行時(shí)提示您輸入API-KEY。 關(guān)于各插口A(yíng)PI-KEY的獲取方式,請參考下文中引入的官方文檔。
ZoomEye
以下命令表示使用ZoomEye插口,搜索全網(wǎng)中開(kāi)啟8080號端口的服務(wù),并使用test.py腳本進(jìn)行驗證.
設置采集100個(gè)搜索結果,搜索結果將存入本地./data/zoomeye文件夾下。
python POC-T.py -s test -aZ "port:8080" --limit 100
ZoomEye現已開(kāi)放注冊,普通用戶(hù)每月可以通過(guò)API下載5000頁(yè)的搜索結果。
ZoomEye參考文檔:
Shodan
以下命令表示使用Shodan插口,搜索全網(wǎng)中關(guān)鍵字為solr,國家為cn的服務(wù),并使用solr-unauth腳本進(jìn)行漏洞驗證.
設置從第0條記錄為起點(diǎn),爬取10條記錄,搜索結果將存入本地./data/shodan文件夾下.
python POC-T.py -s solr-unauth -aS "solr country:cn" --limit 10 --offset 0
Shodan-API接口使用限制及詳盡功能,可參考官方文檔.
本程序使用Google Custom Search API對結果進(jìn)行采集(即常說(shuō)的Google-Hacking)。
以下命令表示獲取Google采集inurl:login.action的結果并批量驗證S2-032漏洞。
python POC-T.py -s s2-032 -aG "inurl:login.action"
可使用--gproxy或則tookit.conf設置代理,代理格式為(sock4|sock5|http) IP PORT,僅支持這三種合同。
例如:
--gproxy "sock5 127.0.0.1 7070"
使用本插口需設定個(gè)人的API-KEY和所使用的自定義搜索引擎,二者均可在toolkit.conf配置。
填寫(xiě)示例
developer_key:AIzaSxxxxxxxxxxxxxxxxxxxxxxxxxxxxx_C1w
search_engine:011385053819762433240:ljmmw2mhhau
developer_key
獲取API-KEY,使用API客戶(hù)端:
Google API Client - Python
search_engine
創(chuàng )建自定義搜索引擎(或直接使用示例中的值):
Google Custom Search API 開(kāi)發(fā)者文檔
參見(jiàn):
%E7%AC%AC%E4%B8%89%E6%96%B9%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E
%E8%84%9A%E6%9C%AC%E6%89%A9%E5%B1%95%E5%B7%A5%E5%85%B7 查看全部
POC-T框架學(xué)習————4、腳本擴充與第三方搜索引擎
工具說(shuō)明
urlparser.py
URL處理工具,可對采集到的零亂URL進(jìn)行低格/自動(dòng)生成等
useragent.py
User-Agent處理工具,支持隨機化UA以繞開(kāi)防御規則
extracts.py
正則提取工具,從采集到的零亂文本中篩選IP地址
static.py
存儲靜態(tài)資源,如常見(jiàn)端口號等
util.py
常用函數,處理隨機值/MD5/302跳轉/格式轉換等
cloudeye.py
cloudeye.me功能插口,在PoC中查詢(xún)DNS和HTTP日志
本工具擬支持主流空間搜索引擎的API,目前已完成ZoomEye/Shodan/Google的集成。您可以通過(guò)簡(jiǎn)單的參數調用直接從搜索引擎中直接獲取目標,并結合本地腳本進(jìn)行掃描。
預配置(可選)
由于第三方插口須要認證,您可以在根目錄下的tookit.conf配置文件中預先設置好您的API-KEY。
如無(wú)預配置,程序將在運行時(shí)提示您輸入API-KEY。 關(guān)于各插口A(yíng)PI-KEY的獲取方式,請參考下文中引入的官方文檔。
ZoomEye
以下命令表示使用ZoomEye插口,搜索全網(wǎng)中開(kāi)啟8080號端口的服務(wù),并使用test.py腳本進(jìn)行驗證.
設置采集100個(gè)搜索結果,搜索結果將存入本地./data/zoomeye文件夾下。
python POC-T.py -s test -aZ "port:8080" --limit 100
ZoomEye現已開(kāi)放注冊,普通用戶(hù)每月可以通過(guò)API下載5000頁(yè)的搜索結果。
ZoomEye參考文檔:
Shodan
以下命令表示使用Shodan插口,搜索全網(wǎng)中關(guān)鍵字為solr,國家為cn的服務(wù),并使用solr-unauth腳本進(jìn)行漏洞驗證.
設置從第0條記錄為起點(diǎn),爬取10條記錄,搜索結果將存入本地./data/shodan文件夾下.
python POC-T.py -s solr-unauth -aS "solr country:cn" --limit 10 --offset 0
Shodan-API接口使用限制及詳盡功能,可參考官方文檔.
本程序使用Google Custom Search API對結果進(jìn)行采集(即常說(shuō)的Google-Hacking)。
以下命令表示獲取Google采集inurl:login.action的結果并批量驗證S2-032漏洞。
python POC-T.py -s s2-032 -aG "inurl:login.action"
可使用--gproxy或則tookit.conf設置代理,代理格式為(sock4|sock5|http) IP PORT,僅支持這三種合同。
例如:
--gproxy "sock5 127.0.0.1 7070"
使用本插口需設定個(gè)人的API-KEY和所使用的自定義搜索引擎,二者均可在toolkit.conf配置。
填寫(xiě)示例
developer_key:AIzaSxxxxxxxxxxxxxxxxxxxxxxxxxxxxx_C1w
search_engine:011385053819762433240:ljmmw2mhhau
developer_key
獲取API-KEY,使用API客戶(hù)端:
Google API Client - Python
search_engine
創(chuàng )建自定義搜索引擎(或直接使用示例中的值):
Google Custom Search API 開(kāi)發(fā)者文檔
參見(jiàn):
%E7%AC%AC%E4%B8%89%E6%96%B9%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E
%E8%84%9A%E6%9C%AC%E6%89%A9%E5%B1%95%E5%B7%A5%E5%85%B7
怎么爬取網(wǎng)路數據
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 316 次瀏覽 ? 2020-08-21 13:06
據賽迪顧問(wèn)統計,在技術(shù)領(lǐng)域中近來(lái)10,000條專(zhuān)利中常見(jiàn)的關(guān)鍵詞中,數據采集、存儲介質(zhì)、海量數據、分布式成為技術(shù)領(lǐng)域最熱詞匯。其中,數據采集是提及最多的詞匯。
數據采集是進(jìn)行大數據剖析的前提也是必要條件,在整個(gè)數據借助流程中搶占重要地位。數據采集方式分為三種:系統日志采集法、網(wǎng)絡(luò )數據采集法以及其他數據采集法。隨著(zhù)Web2.0的發(fā)展,整個(gè)Web系統囊括了大量的價(jià)值化數據,目前針對Web系統的數據采集通常通過(guò)網(wǎng)路爬蟲(chóng)來(lái)實(shí)現,本文將對網(wǎng)路大數據和網(wǎng)路爬蟲(chóng)進(jìn)行系統描述。
什么是網(wǎng)路大數據
網(wǎng)絡(luò )大數據,是指非傳統數據源,例如通過(guò)抓取搜索引擎獲得的不同方式的數據。網(wǎng)絡(luò )大數據也可以是從數據聚合商或搜索引擎網(wǎng)站購買(mǎi)的數據,用于改善目標營(yíng)銷(xiāo)。這種類(lèi)型的數據可以是結構化的,也可以是非結構化的(更有可能的),可以由網(wǎng)路鏈接,文本數據,數據表,圖像,視頻等組成。
網(wǎng)絡(luò )構成了現今提供給我們的大部分數據,根據許多研究可知,非結構化數據搶占了其中的80%。盡管這種方式的數據較早被忽視了,但是競爭激化以及須要更多數據的需求促使必須使用盡可能多的數據源。
網(wǎng)絡(luò )大數據可以拿來(lái)干哪些
互聯(lián)網(wǎng)擁有數十億頁(yè)的數據,網(wǎng)絡(luò )大數據作為潛在的數據來(lái)源,對于行業(yè)的戰略性業(yè)務(wù)發(fā)展來(lái)說(shuō)擁有巨大的借助潛力。
以下舉例說(shuō)明網(wǎng)路大數據在不同行業(yè)的借助價(jià)值:
除此之外,在《How Web Scraping is Transforming the World with its Applications》文章中詳盡得列舉出網(wǎng)路大數據在制造業(yè)、金融研究、風(fēng)險管理等諸多領(lǐng)域的借助價(jià)值。
如何搜集網(wǎng)路數據
目前網(wǎng)路數據采集有兩種方式:一種是API,另一種是網(wǎng)路爬蟲(chóng)法。API又叫應用程序插口,是網(wǎng)站的管理者為了使用者便捷,編寫(xiě)的一種程序插口。目前主流的社交媒體平臺如新浪微博、百度貼吧以及Facebook等均提供API服務(wù),可以在其官網(wǎng)開(kāi)放平臺上獲取相關(guān)DEMO。但是API技術(shù)雖然受限于平臺開(kāi)發(fā)者,為了減少網(wǎng)站(平臺)的負荷,一般平臺均會(huì )對每晚插口調用上限做限制,這給我們帶來(lái)極大的不便利。為此我們一般采用第二種形式——網(wǎng)絡(luò )爬蟲(chóng)。
利用爬蟲(chóng)技術(shù)采集網(wǎng)絡(luò )大數據
網(wǎng)絡(luò )爬蟲(chóng)是指根據一定的規則手動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或則腳本。該方式可以將非結構化數據從網(wǎng)頁(yè)中抽取下來(lái),將其儲存為統一的本地數據文件,并以結構化的形式儲存。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以手動(dòng)關(guān)聯(lián)。
在互聯(lián)網(wǎng)時(shí)代,網(wǎng)絡(luò )爬蟲(chóng)主要是為搜索引擎提供最全面和最新的數據。在大數據時(shí)代,網(wǎng)絡(luò )爬蟲(chóng)更是從互聯(lián)網(wǎng)上采集數據的有利工具。
網(wǎng)絡(luò )爬蟲(chóng)原理
網(wǎng)絡(luò )爬蟲(chóng)是一種根據一定的規則,自動(dòng)地抓取網(wǎng)路信息的程序或則腳本。網(wǎng)絡(luò )爬蟲(chóng)可以手動(dòng)采集所有其才能訪(fǎng)問(wèn)到的頁(yè)面內容,為搜索引擎和大數據剖析提供數據來(lái)源。從功能上來(lái)講,爬蟲(chóng)通常有網(wǎng)路數據采集、處理和儲存 3 部分功能,如圖所示:
網(wǎng)絡(luò )爬蟲(chóng)采集
網(wǎng)絡(luò )爬蟲(chóng)通過(guò)定義采集字段對網(wǎng)頁(yè)中的文本信息、圖片信息等進(jìn)行爬取。并且在網(wǎng)頁(yè)中還收錄一些超鏈接信息,網(wǎng)絡(luò )爬蟲(chóng)系統正是通過(guò)網(wǎng)頁(yè)中的超鏈接信息不斷獲得網(wǎng)路上的其他網(wǎng)頁(yè)。網(wǎng)絡(luò )爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的 URL 開(kāi)始,獲得初始網(wǎng)頁(yè)上的 URL,爬蟲(chóng)將網(wǎng)頁(yè)中所須要提取的資源進(jìn)行提取并保存,同時(shí)提取出網(wǎng)站中存在的其他網(wǎng)站鏈接,經(jīng)過(guò)發(fā)送懇求,接收網(wǎng)站響應以及再度解析頁(yè)面,再將網(wǎng)頁(yè)中所需資源進(jìn)行提取......以此類(lèi)推,通過(guò)網(wǎng)頁(yè)爬蟲(chóng)便可將搜索引擎上的相關(guān)數據完全爬取下來(lái)。
數據處理
數據處理是對數據(包括數值的和非數值的)進(jìn)行剖析和加工的技術(shù)過(guò)程。網(wǎng)絡(luò )爬蟲(chóng)爬取的初始數據是須要“清洗”的,在數據處理步驟,對各類(lèi)原創(chuàng )數據的剖析、整理、計算、編輯等的加工和處理,從大量的、可能是雜亂無(wú)章的、難以理解的數據中抽取并推論出有價(jià)值、有意義的數據。
數據中心
所謂的數據中心也就是數據存儲,是指在獲得所需的數據并將其分解為有用的組件以后,通過(guò)可擴充的方式來(lái)將所有提取和解析的數據儲存在數據庫或集群中,然后創(chuàng )建一個(gè)容許用戶(hù)可及時(shí)查找相關(guān)數據集或提取的功能。
網(wǎng)絡(luò )爬蟲(chóng)工作流程
如下圖所示,網(wǎng)絡(luò )爬蟲(chóng)的基本工作流程如下。首先選定一部分種子 URL。
總結
當前,網(wǎng)絡(luò )大數據在規模與復雜度上的快速下降對現有IT構架的處理和估算能力提出了挑戰,據IDC發(fā)布的研究報告,預計到2020年,網(wǎng)絡(luò )大數據總數將達到35ZB,網(wǎng)絡(luò )大數據將成為行業(yè)數字化、信息化的重要推手。 查看全部
怎么爬取網(wǎng)路數據
據賽迪顧問(wèn)統計,在技術(shù)領(lǐng)域中近來(lái)10,000條專(zhuān)利中常見(jiàn)的關(guān)鍵詞中,數據采集、存儲介質(zhì)、海量數據、分布式成為技術(shù)領(lǐng)域最熱詞匯。其中,數據采集是提及最多的詞匯。

數據采集是進(jìn)行大數據剖析的前提也是必要條件,在整個(gè)數據借助流程中搶占重要地位。數據采集方式分為三種:系統日志采集法、網(wǎng)絡(luò )數據采集法以及其他數據采集法。隨著(zhù)Web2.0的發(fā)展,整個(gè)Web系統囊括了大量的價(jià)值化數據,目前針對Web系統的數據采集通常通過(guò)網(wǎng)路爬蟲(chóng)來(lái)實(shí)現,本文將對網(wǎng)路大數據和網(wǎng)路爬蟲(chóng)進(jìn)行系統描述。
什么是網(wǎng)路大數據
網(wǎng)絡(luò )大數據,是指非傳統數據源,例如通過(guò)抓取搜索引擎獲得的不同方式的數據。網(wǎng)絡(luò )大數據也可以是從數據聚合商或搜索引擎網(wǎng)站購買(mǎi)的數據,用于改善目標營(yíng)銷(xiāo)。這種類(lèi)型的數據可以是結構化的,也可以是非結構化的(更有可能的),可以由網(wǎng)路鏈接,文本數據,數據表,圖像,視頻等組成。
網(wǎng)絡(luò )構成了現今提供給我們的大部分數據,根據許多研究可知,非結構化數據搶占了其中的80%。盡管這種方式的數據較早被忽視了,但是競爭激化以及須要更多數據的需求促使必須使用盡可能多的數據源。
網(wǎng)絡(luò )大數據可以拿來(lái)干哪些
互聯(lián)網(wǎng)擁有數十億頁(yè)的數據,網(wǎng)絡(luò )大數據作為潛在的數據來(lái)源,對于行業(yè)的戰略性業(yè)務(wù)發(fā)展來(lái)說(shuō)擁有巨大的借助潛力。
以下舉例說(shuō)明網(wǎng)路大數據在不同行業(yè)的借助價(jià)值:

除此之外,在《How Web Scraping is Transforming the World with its Applications》文章中詳盡得列舉出網(wǎng)路大數據在制造業(yè)、金融研究、風(fēng)險管理等諸多領(lǐng)域的借助價(jià)值。
如何搜集網(wǎng)路數據
目前網(wǎng)路數據采集有兩種方式:一種是API,另一種是網(wǎng)路爬蟲(chóng)法。API又叫應用程序插口,是網(wǎng)站的管理者為了使用者便捷,編寫(xiě)的一種程序插口。目前主流的社交媒體平臺如新浪微博、百度貼吧以及Facebook等均提供API服務(wù),可以在其官網(wǎng)開(kāi)放平臺上獲取相關(guān)DEMO。但是API技術(shù)雖然受限于平臺開(kāi)發(fā)者,為了減少網(wǎng)站(平臺)的負荷,一般平臺均會(huì )對每晚插口調用上限做限制,這給我們帶來(lái)極大的不便利。為此我們一般采用第二種形式——網(wǎng)絡(luò )爬蟲(chóng)。
利用爬蟲(chóng)技術(shù)采集網(wǎng)絡(luò )大數據
網(wǎng)絡(luò )爬蟲(chóng)是指根據一定的規則手動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或則腳本。該方式可以將非結構化數據從網(wǎng)頁(yè)中抽取下來(lái),將其儲存為統一的本地數據文件,并以結構化的形式儲存。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以手動(dòng)關(guān)聯(lián)。
在互聯(lián)網(wǎng)時(shí)代,網(wǎng)絡(luò )爬蟲(chóng)主要是為搜索引擎提供最全面和最新的數據。在大數據時(shí)代,網(wǎng)絡(luò )爬蟲(chóng)更是從互聯(lián)網(wǎng)上采集數據的有利工具。
網(wǎng)絡(luò )爬蟲(chóng)原理
網(wǎng)絡(luò )爬蟲(chóng)是一種根據一定的規則,自動(dòng)地抓取網(wǎng)路信息的程序或則腳本。網(wǎng)絡(luò )爬蟲(chóng)可以手動(dòng)采集所有其才能訪(fǎng)問(wèn)到的頁(yè)面內容,為搜索引擎和大數據剖析提供數據來(lái)源。從功能上來(lái)講,爬蟲(chóng)通常有網(wǎng)路數據采集、處理和儲存 3 部分功能,如圖所示:

網(wǎng)絡(luò )爬蟲(chóng)采集
網(wǎng)絡(luò )爬蟲(chóng)通過(guò)定義采集字段對網(wǎng)頁(yè)中的文本信息、圖片信息等進(jìn)行爬取。并且在網(wǎng)頁(yè)中還收錄一些超鏈接信息,網(wǎng)絡(luò )爬蟲(chóng)系統正是通過(guò)網(wǎng)頁(yè)中的超鏈接信息不斷獲得網(wǎng)路上的其他網(wǎng)頁(yè)。網(wǎng)絡(luò )爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的 URL 開(kāi)始,獲得初始網(wǎng)頁(yè)上的 URL,爬蟲(chóng)將網(wǎng)頁(yè)中所須要提取的資源進(jìn)行提取并保存,同時(shí)提取出網(wǎng)站中存在的其他網(wǎng)站鏈接,經(jīng)過(guò)發(fā)送懇求,接收網(wǎng)站響應以及再度解析頁(yè)面,再將網(wǎng)頁(yè)中所需資源進(jìn)行提取......以此類(lèi)推,通過(guò)網(wǎng)頁(yè)爬蟲(chóng)便可將搜索引擎上的相關(guān)數據完全爬取下來(lái)。
數據處理
數據處理是對數據(包括數值的和非數值的)進(jìn)行剖析和加工的技術(shù)過(guò)程。網(wǎng)絡(luò )爬蟲(chóng)爬取的初始數據是須要“清洗”的,在數據處理步驟,對各類(lèi)原創(chuàng )數據的剖析、整理、計算、編輯等的加工和處理,從大量的、可能是雜亂無(wú)章的、難以理解的數據中抽取并推論出有價(jià)值、有意義的數據。
數據中心
所謂的數據中心也就是數據存儲,是指在獲得所需的數據并將其分解為有用的組件以后,通過(guò)可擴充的方式來(lái)將所有提取和解析的數據儲存在數據庫或集群中,然后創(chuàng )建一個(gè)容許用戶(hù)可及時(shí)查找相關(guān)數據集或提取的功能。
網(wǎng)絡(luò )爬蟲(chóng)工作流程
如下圖所示,網(wǎng)絡(luò )爬蟲(chóng)的基本工作流程如下。首先選定一部分種子 URL。

總結
當前,網(wǎng)絡(luò )大數據在規模與復雜度上的快速下降對現有IT構架的處理和估算能力提出了挑戰,據IDC發(fā)布的研究報告,預計到2020年,網(wǎng)絡(luò )大數據總數將達到35ZB,網(wǎng)絡(luò )大數據將成為行業(yè)數字化、信息化的重要推手。
基于興趣輕博客網(wǎng)站拓撲特點(diǎn)剖析.doc 6頁(yè)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 135 次瀏覽 ? 2020-08-20 23:15
基于興趣輕博客網(wǎng)站拓撲特點(diǎn)剖析 摘要:為了了解新型在線(xiàn)社會(huì )網(wǎng)路——輕博客網(wǎng)站的拓撲特點(diǎn),該文以國外最大的輕博客網(wǎng)站——點(diǎn)點(diǎn)網(wǎng)為研究對象,根據用戶(hù)間興趣關(guān)系建立興趣網(wǎng)路,從小世界效應、無(wú)標度特點(diǎn)和中心度等角度對該網(wǎng)路進(jìn)行了實(shí)證剖析,為進(jìn)一步認識和研究輕博客網(wǎng)站奠定了基礎。 關(guān)鍵詞:輕博客;社會(huì )網(wǎng)路剖析;復雜網(wǎng)路;拓撲特點(diǎn);中心性 中圖分類(lèi)號:TP393 文獻標識碼:A 文章編號:1009-3044(2013)22-5033-04 根據Garry Tan 2013年一月的調查報告表明,2007創(chuàng )立的輕博客網(wǎng)站Tumblr早已趕超Facebook,成為日本年輕人訪(fǎng)問(wèn)最多的社交網(wǎng)站[1]。隨著(zhù)Tumblr的迅速崛起,國內也出現了各類(lèi)類(lèi)Tumblr的網(wǎng)站。2011年,許朝軍創(chuàng )立了點(diǎn)點(diǎn)網(wǎng),此后新浪Qing網(wǎng),網(wǎng)易的lofter、人人網(wǎng)的人人小站、盛大推他等一批Tumblr的追隨者都朝著(zhù)輕博客的方向大步前進(jìn)。輕博客這些新型的在線(xiàn)社會(huì )網(wǎng)路(Online Social Network, 簡(jiǎn)稱(chēng)OSN)極可能迎來(lái)一個(gè)高速發(fā)展期。同時(shí),輕博客在中國還是一個(gè)新生事物,國內尚未見(jiàn)相關(guān)研究。因此,結合社會(huì )網(wǎng)路剖析和復雜網(wǎng)路理論,研究輕博客網(wǎng)站的拓撲特點(diǎn),不僅能建立國內外對OSN拓撲特點(diǎn)的理論探求,而且有助于了解輕博客中人際關(guān)系和信息傳播的特點(diǎn),同時(shí)也對實(shí)現輕博客輿論的檢測、引導、控制等提供重要根據和基礎。
1 點(diǎn)點(diǎn)網(wǎng)的數據采集 本文選定國外典型的輕博客網(wǎng)站——點(diǎn)點(diǎn)網(wǎng)作為研究對象,這是因為相比其他,被稱(chēng)為“Tumblr中文版”的點(diǎn)點(diǎn)網(wǎng)是最純粹的輕博客,其網(wǎng)路結構特點(diǎn)具有太強的代表性。 1.1面向點(diǎn)點(diǎn)網(wǎng)的網(wǎng)路爬蟲(chóng) 采集網(wǎng)站數據的方式有基于A(yíng)PI的數據采集和基于網(wǎng)路爬蟲(chóng)的數據采集。通過(guò)調用網(wǎng)站提供的API接口可以實(shí)現網(wǎng)站數據的方便抓取與解析,但也要注意:一是API內容開(kāi)放不全面,例如點(diǎn)點(diǎn)網(wǎng)API是在2011年12月才對外開(kāi)放,API的種類(lèi)也極少,目前不到30個(gè);二是API服務(wù)商對用戶(hù)的API接口調用頻度與查詢(xún)的返回結果的最大數目有限制,點(diǎn)點(diǎn)網(wǎng)就規定查詢(xún)的返回結果不超過(guò)20個(gè);三是使用API接口須要解決用戶(hù)認證問(wèn)題,如果待獲取用戶(hù)條目太多則會(huì )占用大量系統開(kāi)支等待用戶(hù)授權許可。因此,該文在開(kāi)源軟件Heritrix的基礎上,采用基于網(wǎng)路爬蟲(chóng)的數據采集技術(shù)來(lái)獲取點(diǎn)點(diǎn)網(wǎng)的數據。 從圖1可以發(fā)覺(jué),點(diǎn)點(diǎn)網(wǎng)在整篇輕博文下邊都有“熱度”,標注喜歡、轉載和推薦該文的用戶(hù)列表。查看源碼,發(fā)現“熱度”是一個(gè)內嵌網(wǎng)頁(yè),頁(yè)面源碼中內容比較少,更多的內容實(shí)際上是采用AJAX(Asynchronous Javascript and XML)技術(shù)[2]加載下來(lái)的。
如果直接用Heritirx原有的抓取方式,抓取不到真正的用戶(hù)列表。所以,必須對Heritirx的Extracotr類(lèi)進(jìn)行擴充,擴展后的新類(lèi)DiandianExtractor重載extract方式,在抓取頁(yè)面、抽取鏈接的時(shí)侯,直接對“熱度”部分進(jìn)行剖析,通過(guò)Selenium WebDriver API驅動(dòng)瀏覽器內核PhantomJS,模擬瀏覽器獲取AJAX內容,得到和頁(yè)面呈現一致的頁(yè)面內容,再通過(guò)Jsoup解析頁(yè)面內容,并把剖析結果存到MYSQL數據庫里。至此,AJAX頁(yè)面采集問(wèn)題得到真正解決。 1.2 數據集 據點(diǎn)點(diǎn)網(wǎng)自身統計數據顯示,目前點(diǎn)點(diǎn)網(wǎng)注冊用戶(hù)數早已達到1919萬(wàn),帖子數達到3547萬(wàn),數據采集量非常龐大且處于動(dòng)態(tài)變化之中,要獲取整個(gè)網(wǎng)路的拓撲數據非常困難,因此本文采用滾雪球采樣法,依據“興趣標簽”,隨機選擇兩個(gè)標簽下邊的“杰出輕博客”的某篇輕博文作為種子,利用點(diǎn)點(diǎn)網(wǎng)用戶(hù)之間的興趣關(guān)系進(jìn)行廣度優(yōu)先搜索。搜索頁(yè)面的URL富含“post/”和“n/common/comment”,前一種頁(yè)面主要由某用戶(hù)發(fā)表的所有博文組成;后一種頁(yè)面包括所有“喜歡”、“轉載”、“推薦”該用戶(hù)博文的其他用戶(hù)列表。
數據采集器最終抓取逾600萬(wàn)頁(yè)面,總容量接近60G。通過(guò)對這逾600萬(wàn)頁(yè)面信息的實(shí)時(shí)抽取,共1898356條記錄儲存到MySQL數據庫里。其中,數據表結構包括id、username(用戶(hù)名)、inname(鏈入用戶(hù)名)、type(鏈入用戶(hù)是哪種類(lèi)型用戶(hù):喜歡、轉載還是推薦)、link(該記錄從那個(gè)鏈接得來(lái)的)。經(jīng)過(guò)去重(從數據表中刪掉username和inname都相同的記錄),得到825057條可用記錄用于后續網(wǎng)路拓撲檢測。 2 點(diǎn)點(diǎn)網(wǎng)的拓撲特點(diǎn) 2.1網(wǎng)路拓撲檢測 3 結論 本文選定國外最大的輕博客平臺——點(diǎn)點(diǎn)網(wǎng)作為研究對象,根據采集下來(lái)的點(diǎn)點(diǎn)網(wǎng)樣本數據,構造一個(gè)基于“發(fā)文←喜歡、轉載和推薦”互動(dòng)的興趣關(guān)系網(wǎng)路。通過(guò)開(kāi)源工具Pajek統計點(diǎn)點(diǎn)網(wǎng)的拓撲特點(diǎn),如平均路徑寬度、聚集系數、出入度分布、連接度相關(guān)性及中心性等,發(fā)現點(diǎn)點(diǎn)網(wǎng)存在小世界效應和無(wú)標度特點(diǎn),網(wǎng)絡(luò )中存在中心節點(diǎn),即少量用戶(hù)在信息發(fā)布和傳播中起著(zhù)至關(guān)重要的作用,這為進(jìn)一步研究輕博客的人際關(guān)系和信息傳播特點(diǎn)奠定了基礎。 參考文獻: [1] 果子. 影子大亨Tumblr的成功之道 [EB/OL]. [2013-02-21]. http:///p/201458.html?ref=weixin0222m. [2] 羅兵.支持AJAX的互聯(lián)網(wǎng)搜索引擎爬蟲(chóng)設計與實(shí)現[D].杭州:浙江大學(xué),2007:14-40. [3] Alan Mislove, Massimiliano Marcon, Krishna P.Gummadi. Measurement and Analysis of Online Social Networks[C]// IMC'07: Proceedings of the 7th ACM SIGCOMM Conference on Internet Measurement. New York: ACM Press, 2007: 29-42. [4] Feng Fu,Lianghuan Liu,Long Wang.Empirical analysis of online social networks in the age of Web 2.0[J]. Physica A, 2008(387):675–684. [5] 樊鵬翼,王暉,姜志宏,等.微博網(wǎng)路檢測研究[J].計算機研究與發(fā)展, 2012,49(4):691-699. [6] Albert R, Barabasi A L.Statistical mechanics of complex networks[J]. Reviews of Modern Physics, 2002, 74(1):47-97. [7] Wilson C,Boe B,Sala A,et a1.User interactions in social networks and their implications[C]//Proceedings of the 4th ACM European Conference on Computer Systems.New York:ACM, 2009:205-218. [8] 陳靜,孫林夫.復雜網(wǎng)路中節點(diǎn)重要度評估[J].西南交通大學(xué)學(xué)報,2009,44(3):426-429. 查看全部
基于興趣輕博客網(wǎng)站拓撲特點(diǎn)剖析.doc 6頁(yè)
基于興趣輕博客網(wǎng)站拓撲特點(diǎn)剖析 摘要:為了了解新型在線(xiàn)社會(huì )網(wǎng)路——輕博客網(wǎng)站的拓撲特點(diǎn),該文以國外最大的輕博客網(wǎng)站——點(diǎn)點(diǎn)網(wǎng)為研究對象,根據用戶(hù)間興趣關(guān)系建立興趣網(wǎng)路,從小世界效應、無(wú)標度特點(diǎn)和中心度等角度對該網(wǎng)路進(jìn)行了實(shí)證剖析,為進(jìn)一步認識和研究輕博客網(wǎng)站奠定了基礎。 關(guān)鍵詞:輕博客;社會(huì )網(wǎng)路剖析;復雜網(wǎng)路;拓撲特點(diǎn);中心性 中圖分類(lèi)號:TP393 文獻標識碼:A 文章編號:1009-3044(2013)22-5033-04 根據Garry Tan 2013年一月的調查報告表明,2007創(chuàng )立的輕博客網(wǎng)站Tumblr早已趕超Facebook,成為日本年輕人訪(fǎng)問(wèn)最多的社交網(wǎng)站[1]。隨著(zhù)Tumblr的迅速崛起,國內也出現了各類(lèi)類(lèi)Tumblr的網(wǎng)站。2011年,許朝軍創(chuàng )立了點(diǎn)點(diǎn)網(wǎng),此后新浪Qing網(wǎng),網(wǎng)易的lofter、人人網(wǎng)的人人小站、盛大推他等一批Tumblr的追隨者都朝著(zhù)輕博客的方向大步前進(jìn)。輕博客這些新型的在線(xiàn)社會(huì )網(wǎng)路(Online Social Network, 簡(jiǎn)稱(chēng)OSN)極可能迎來(lái)一個(gè)高速發(fā)展期。同時(shí),輕博客在中國還是一個(gè)新生事物,國內尚未見(jiàn)相關(guān)研究。因此,結合社會(huì )網(wǎng)路剖析和復雜網(wǎng)路理論,研究輕博客網(wǎng)站的拓撲特點(diǎn),不僅能建立國內外對OSN拓撲特點(diǎn)的理論探求,而且有助于了解輕博客中人際關(guān)系和信息傳播的特點(diǎn),同時(shí)也對實(shí)現輕博客輿論的檢測、引導、控制等提供重要根據和基礎。
1 點(diǎn)點(diǎn)網(wǎng)的數據采集 本文選定國外典型的輕博客網(wǎng)站——點(diǎn)點(diǎn)網(wǎng)作為研究對象,這是因為相比其他,被稱(chēng)為“Tumblr中文版”的點(diǎn)點(diǎn)網(wǎng)是最純粹的輕博客,其網(wǎng)路結構特點(diǎn)具有太強的代表性。 1.1面向點(diǎn)點(diǎn)網(wǎng)的網(wǎng)路爬蟲(chóng) 采集網(wǎng)站數據的方式有基于A(yíng)PI的數據采集和基于網(wǎng)路爬蟲(chóng)的數據采集。通過(guò)調用網(wǎng)站提供的API接口可以實(shí)現網(wǎng)站數據的方便抓取與解析,但也要注意:一是API內容開(kāi)放不全面,例如點(diǎn)點(diǎn)網(wǎng)API是在2011年12月才對外開(kāi)放,API的種類(lèi)也極少,目前不到30個(gè);二是API服務(wù)商對用戶(hù)的API接口調用頻度與查詢(xún)的返回結果的最大數目有限制,點(diǎn)點(diǎn)網(wǎng)就規定查詢(xún)的返回結果不超過(guò)20個(gè);三是使用API接口須要解決用戶(hù)認證問(wèn)題,如果待獲取用戶(hù)條目太多則會(huì )占用大量系統開(kāi)支等待用戶(hù)授權許可。因此,該文在開(kāi)源軟件Heritrix的基礎上,采用基于網(wǎng)路爬蟲(chóng)的數據采集技術(shù)來(lái)獲取點(diǎn)點(diǎn)網(wǎng)的數據。 從圖1可以發(fā)覺(jué),點(diǎn)點(diǎn)網(wǎng)在整篇輕博文下邊都有“熱度”,標注喜歡、轉載和推薦該文的用戶(hù)列表。查看源碼,發(fā)現“熱度”是一個(gè)內嵌網(wǎng)頁(yè),頁(yè)面源碼中內容比較少,更多的內容實(shí)際上是采用AJAX(Asynchronous Javascript and XML)技術(shù)[2]加載下來(lái)的。
如果直接用Heritirx原有的抓取方式,抓取不到真正的用戶(hù)列表。所以,必須對Heritirx的Extracotr類(lèi)進(jìn)行擴充,擴展后的新類(lèi)DiandianExtractor重載extract方式,在抓取頁(yè)面、抽取鏈接的時(shí)侯,直接對“熱度”部分進(jìn)行剖析,通過(guò)Selenium WebDriver API驅動(dòng)瀏覽器內核PhantomJS,模擬瀏覽器獲取AJAX內容,得到和頁(yè)面呈現一致的頁(yè)面內容,再通過(guò)Jsoup解析頁(yè)面內容,并把剖析結果存到MYSQL數據庫里。至此,AJAX頁(yè)面采集問(wèn)題得到真正解決。 1.2 數據集 據點(diǎn)點(diǎn)網(wǎng)自身統計數據顯示,目前點(diǎn)點(diǎn)網(wǎng)注冊用戶(hù)數早已達到1919萬(wàn),帖子數達到3547萬(wàn),數據采集量非常龐大且處于動(dòng)態(tài)變化之中,要獲取整個(gè)網(wǎng)路的拓撲數據非常困難,因此本文采用滾雪球采樣法,依據“興趣標簽”,隨機選擇兩個(gè)標簽下邊的“杰出輕博客”的某篇輕博文作為種子,利用點(diǎn)點(diǎn)網(wǎng)用戶(hù)之間的興趣關(guān)系進(jìn)行廣度優(yōu)先搜索。搜索頁(yè)面的URL富含“post/”和“n/common/comment”,前一種頁(yè)面主要由某用戶(hù)發(fā)表的所有博文組成;后一種頁(yè)面包括所有“喜歡”、“轉載”、“推薦”該用戶(hù)博文的其他用戶(hù)列表。
數據采集器最終抓取逾600萬(wàn)頁(yè)面,總容量接近60G。通過(guò)對這逾600萬(wàn)頁(yè)面信息的實(shí)時(shí)抽取,共1898356條記錄儲存到MySQL數據庫里。其中,數據表結構包括id、username(用戶(hù)名)、inname(鏈入用戶(hù)名)、type(鏈入用戶(hù)是哪種類(lèi)型用戶(hù):喜歡、轉載還是推薦)、link(該記錄從那個(gè)鏈接得來(lái)的)。經(jīng)過(guò)去重(從數據表中刪掉username和inname都相同的記錄),得到825057條可用記錄用于后續網(wǎng)路拓撲檢測。 2 點(diǎn)點(diǎn)網(wǎng)的拓撲特點(diǎn) 2.1網(wǎng)路拓撲檢測 3 結論 本文選定國外最大的輕博客平臺——點(diǎn)點(diǎn)網(wǎng)作為研究對象,根據采集下來(lái)的點(diǎn)點(diǎn)網(wǎng)樣本數據,構造一個(gè)基于“發(fā)文←喜歡、轉載和推薦”互動(dòng)的興趣關(guān)系網(wǎng)路。通過(guò)開(kāi)源工具Pajek統計點(diǎn)點(diǎn)網(wǎng)的拓撲特點(diǎn),如平均路徑寬度、聚集系數、出入度分布、連接度相關(guān)性及中心性等,發(fā)現點(diǎn)點(diǎn)網(wǎng)存在小世界效應和無(wú)標度特點(diǎn),網(wǎng)絡(luò )中存在中心節點(diǎn),即少量用戶(hù)在信息發(fā)布和傳播中起著(zhù)至關(guān)重要的作用,這為進(jìn)一步研究輕博客的人際關(guān)系和信息傳播特點(diǎn)奠定了基礎。 參考文獻: [1] 果子. 影子大亨Tumblr的成功之道 [EB/OL]. [2013-02-21]. http:///p/201458.html?ref=weixin0222m. [2] 羅兵.支持AJAX的互聯(lián)網(wǎng)搜索引擎爬蟲(chóng)設計與實(shí)現[D].杭州:浙江大學(xué),2007:14-40. [3] Alan Mislove, Massimiliano Marcon, Krishna P.Gummadi. Measurement and Analysis of Online Social Networks[C]// IMC'07: Proceedings of the 7th ACM SIGCOMM Conference on Internet Measurement. New York: ACM Press, 2007: 29-42. [4] Feng Fu,Lianghuan Liu,Long Wang.Empirical analysis of online social networks in the age of Web 2.0[J]. Physica A, 2008(387):675–684. [5] 樊鵬翼,王暉,姜志宏,等.微博網(wǎng)路檢測研究[J].計算機研究與發(fā)展, 2012,49(4):691-699. [6] Albert R, Barabasi A L.Statistical mechanics of complex networks[J]. Reviews of Modern Physics, 2002, 74(1):47-97. [7] Wilson C,Boe B,Sala A,et a1.User interactions in social networks and their implications[C]//Proceedings of the 4th ACM European Conference on Computer Systems.New York:ACM, 2009:205-218. [8] 陳靜,孫林夫.復雜網(wǎng)路中節點(diǎn)重要度評估[J].西南交通大學(xué)學(xué)報,2009,44(3):426-429.
3.kettle實(shí)現不同數據庫的數據采集
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 602 次瀏覽 ? 2020-08-20 12:38
「深度學(xué)習福利」大神帶你進(jìn)階工程師,立即查看>>>
基于kettle實(shí)現數據采集
1.kettle簡(jiǎn)介
Kettle 是一款美國開(kāi)源的 ETL 工具,純 Java 編寫(xiě),通過(guò)提供一個(gè)圖形化的用戶(hù)環(huán)境來(lái)描述你想做哪些,而不是你想怎樣做,它的數據抽取高效穩定(數據遷移工具)。Kettle 中有兩種腳本文件,transformation 和 job,transformation 完成針對數據的基礎轉換,job 則完成整個(gè)工作流的控制。
2.kettle下載
下面兩個(gè)案例是使用kettle7.1進(jìn)行操作,分享一下國外的下載地址:
kettle下載
無(wú)需安裝,雙擊根目錄下的Spoon.bat文件即可
3.kettle實(shí)現不同數據庫的數據采集
這個(gè)案例是實(shí)現oracle數據庫的數據采集到mysql上面去
3.1創(chuàng )建對應數據庫的DB聯(lián)接
3.2使用圖形工具完成表輸入->字段選擇->表輸出的流線(xiàn)設計
3.3配置表輸入信息:用于編撰sql獲取數據源的數據
3.4配置數組選擇信息:用于數據源和目標表數組名不一致的一個(gè)轉換
3.5配置表輸出信息:用于目標表的主鍵映射
3.6運行這個(gè)轉換,并查看結果
4.kettle實(shí)現插口的數據采集
接口地址(可直接復制):%E8%A7%92%E7%BE%8E&region=%E6%BC%B3%E5%B7%9E%E5%B8%82&output=json&ak=n0lHarpY3QZx6xXXIaWMFLxj
通過(guò)訪(fǎng)問(wèn)插口可以獲知返回的json數據結構,可考慮做兩層json解析來(lái)獲取對應的數組,當然也可以使用:$…result[*].name的表達式來(lái)獲取,這里不做演示,有興趣的朋友可以試一下!
4.1配置目標表的DB聯(lián)接(上面有oracle和mysql的不同示例)
4.2使用圖形工具插口采集的流線(xiàn)圖
4.3配置生成記錄信息:填寫(xiě)對應的url地址和定義url名稱(chēng),類(lèi)型 查看全部
3.kettle實(shí)現不同數據庫的數據采集
「深度學(xué)習福利」大神帶你進(jìn)階工程師,立即查看>>>

基于kettle實(shí)現數據采集
1.kettle簡(jiǎn)介
Kettle 是一款美國開(kāi)源的 ETL 工具,純 Java 編寫(xiě),通過(guò)提供一個(gè)圖形化的用戶(hù)環(huán)境來(lái)描述你想做哪些,而不是你想怎樣做,它的數據抽取高效穩定(數據遷移工具)。Kettle 中有兩種腳本文件,transformation 和 job,transformation 完成針對數據的基礎轉換,job 則完成整個(gè)工作流的控制。
2.kettle下載
下面兩個(gè)案例是使用kettle7.1進(jìn)行操作,分享一下國外的下載地址:
kettle下載
無(wú)需安裝,雙擊根目錄下的Spoon.bat文件即可

3.kettle實(shí)現不同數據庫的數據采集
這個(gè)案例是實(shí)現oracle數據庫的數據采集到mysql上面去
3.1創(chuàng )建對應數據庫的DB聯(lián)接


3.2使用圖形工具完成表輸入->字段選擇->表輸出的流線(xiàn)設計

3.3配置表輸入信息:用于編撰sql獲取數據源的數據

3.4配置數組選擇信息:用于數據源和目標表數組名不一致的一個(gè)轉換

3.5配置表輸出信息:用于目標表的主鍵映射

3.6運行這個(gè)轉換,并查看結果

4.kettle實(shí)現插口的數據采集
接口地址(可直接復制):%E8%A7%92%E7%BE%8E&region=%E6%BC%B3%E5%B7%9E%E5%B8%82&output=json&ak=n0lHarpY3QZx6xXXIaWMFLxj
通過(guò)訪(fǎng)問(wèn)插口可以獲知返回的json數據結構,可考慮做兩層json解析來(lái)獲取對應的數組,當然也可以使用:$…result[*].name的表達式來(lái)獲取,這里不做演示,有興趣的朋友可以試一下!

4.1配置目標表的DB聯(lián)接(上面有oracle和mysql的不同示例)
4.2使用圖形工具插口采集的流線(xiàn)圖

4.3配置生成記錄信息:填寫(xiě)對應的url地址和定義url名稱(chēng),類(lèi)型
Python爬蟲(chóng)總結(CSS,Xpath,JsonLoad;靜態(tài)網(wǎng)頁(yè),JS加載
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 392 次瀏覽 ? 2020-08-18 21:25
前言
隨著(zhù)人類(lèi)社會(huì )的高速發(fā)展,數據對各行各業(yè)的重要性,愈加突出。爬蟲(chóng),也稱(chēng)為數據采集器,是指通過(guò)程序設計,機械化地對網(wǎng)路上的數據,進(jìn)行批量爬取,以取代低效的人工獲取信息的手段。
1. 道德法律問(wèn)題
爬蟲(chóng)目前在法律上尚屬黑色地段,但爬別的網(wǎng)站用于自己的商業(yè)化用途也可能存在著(zhù)法律風(fēng)險。非法抓取使用“新浪微博”用戶(hù)信息被判賠200萬(wàn)元,這是國外的一條因爬蟲(chóng)被判敗訴的新聞。所以各商業(yè)公司還是悠著(zhù)點(diǎn),特別是涉及隱私數據。
大型的網(wǎng)站一般還會(huì )有robot.txt,這算是與爬蟲(chóng)者的一個(gè)合同。只要在robot.txt容許的范圍內爬蟲(chóng)就不存在道德和法律風(fēng)險。
2. 網(wǎng)絡(luò )爬蟲(chóng)步驟2.1 檢查API接口
API是網(wǎng)站官方提供的數據插口,如果通過(guò)調用API采集數據,則相當于在網(wǎng)站允許的范圍內采集。這樣既不會(huì )有道德法律風(fēng)險,也沒(méi)有網(wǎng)站故意設置的障礙;不過(guò)調用API插口的訪(fǎng)問(wèn)則處于網(wǎng)站的控制中,網(wǎng)站可以拿來(lái)收費,可以拿來(lái)限制訪(fǎng)問(wèn)上限等。整體來(lái)看,如果數據采集的需求并不是太奇特,那么有API則應優(yōu)先采用調用API的形式。如果沒(méi)有,則選擇爬蟲(chóng)。
2.2 數據獲取渠道剖析
頁(yè)面收錄數據
這種情況是最容易解決的,一般來(lái)講基本上是靜態(tài)網(wǎng)頁(yè),或者動(dòng)態(tài)網(wǎng)頁(yè),采用模板渲染,瀏覽器獲取到HTML的時(shí)侯早已是收錄所有的關(guān)鍵信息,所以直接在網(wǎng)頁(yè)上見(jiàn)到的內容都可以通過(guò)特定的HTML標簽得到。
JavaScript代碼加載內容
雖然網(wǎng)頁(yè)顯示的數據在HTML標簽上面,但是指定HTML標簽下內容為空。這是因為數據在js代碼上面,而js的執行是在瀏覽器端的操作。當我們用程序去懇求網(wǎng)頁(yè)地址的時(shí)侯,得到的response是網(wǎng)頁(yè)代碼和js的代碼,因此自己在瀏覽器端能看到數據,解析時(shí)因為js未執行,指定HTML標簽下數據肯定為空。這個(gè)時(shí)侯的處理辦法:找到收錄內容的js代碼串,然后通過(guò)正則表達式獲得相應的內容,而不是解析HTML標簽。
Ajax異步懇求
這種情況是現今太常見(jiàn)的,尤其是在數據以分頁(yè)方式顯示在網(wǎng)頁(yè)上,并且頁(yè)面無(wú)刷新,或者是對網(wǎng)頁(yè)進(jìn)行某個(gè)交互操作后得到數據。所以當我們開(kāi)始刷新頁(yè)面的時(shí)侯就要開(kāi)始跟蹤所有的懇求,觀(guān)察數據究竟是在哪一步加載進(jìn)來(lái)的。然后當我們找到核心的異步懇求的時(shí)侯,就只用抓取這個(gè)異步懇求就可以了,如果原創(chuàng )網(wǎng)頁(yè)沒(méi)有任何有用信息,也沒(méi)必要去抓取原創(chuàng )網(wǎng)頁(yè)了。
2.3 頁(yè)面數據結構剖析
結構性數據
結構化的數據是最好處理,一般都是類(lèi)似JSON格式的字符串,直接解析JSON數據就可以了,提取JSON的關(guān)鍵數組即可。
page = requests.get(url)
headers = {}
page.encoding = 'utf-8'
data =re.findall(r'__INITIAL_STATE__=(.*?)',page.text)[0]
json_data = json.loads(data)
print(json_data)
#f = open('結果2.txt', 'w',
encoding='utf-8') # 以'w'方式打開(kāi)文件
#for k, v in json_data.items():
# 遍歷字典中的鍵值
#s2 = str(v) # 把字典的值轉換成字符型
#f.write(k + '\n') # 鍵和值分行放,鍵在單數行,值在雙數行
#f.write(s2 + '\n')
jobList = json_data['souresult']['Items'] #打印json_data,抓到關(guān)鍵詞
for element in jobList:
print(f"===公司名稱(chēng):{element['CompanyName']}:===\n"
f"崗位名稱(chēng):{element['DateCreated']}\n"
f"招聘人數:{element['JobTitle']}\n"
f"工作代碼:{element['JobTypeName']}\n"
f"公司代碼:{element['RecruitCount']}\n"
f"詳細信息URL:{element['SocialCompanyUrl']}")
非結構性數據-HTML文本數據
HTML文本基本上是傳統爬蟲(chóng)過(guò)程中最常見(jiàn)的,也就是大多數時(shí)侯會(huì )碰到的情況。例如抓取一個(gè)網(wǎng)頁(yè),得到的是HTML,然后須要解析一些常見(jiàn)的元素,提取一些關(guān)鍵的信息。HTML雖然理應屬于結構化的文本組織,但是又由于通常我們須要的關(guān)鍵信息并非直接可以得到,需要進(jìn)行對HTML的解析查找,甚至一些字符串操作就能得到,所以還是歸類(lèi)于非結構化的數據處理中。常見(jiàn)解析方式:
CSS選擇器
現在的網(wǎng)頁(yè)式樣比較多,所以通常的網(wǎng)頁(yè)就會(huì )有一些CSS的定位,例如class,id等等,或者我們按照常見(jiàn)的節點(diǎn)路徑進(jìn)行定位。
item = soup.select('#u1 > a')
#選擇指定目錄下所有css數據
#print([i for i in item]) #print里添加循環(huán)時(shí),記得加方括號
item = soup.select_one('#u1 > a') #選擇指定目錄下第一條 css數據
print(item)
Findall
##招聘人數
recru_num = soup.find_all('div', attrs={'class':'cityfn-left'}) #找到頁(yè)面中a元素的所有元素,并找到a元素中 屬性為'class=value'———————— attrs={"class": 'value'}
print(recru_num)
dr = re.compile(r']+>', re.S)
data = dr.sub('', str(recru_num)) #過(guò)濾HTML標簽
print(data)
Xpath
html = etree.HTML(wb_data)
html_data = html.xpath('/html/body/div/ul/li/a/text()') #獲取某個(gè)標簽的內容(基本使用)
正則表達式
正則表達式,用標準正則解析,一般會(huì )把HTML當作普通文本,用指定格式匹配。當相關(guān)文本是小片斷文本,或者某一串字符,或者HTML收錄javascript的代碼,無(wú)法用CSS選擇器或則XPATH。
import re
a = '<p>[Aero, Animals, Architecture,Wallpapers">Artistic</a>, ........(省略)......... Vintage]'
titles = re.findall(' 查看全部
Python爬蟲(chóng)總結(CSS,Xpath,JsonLoad;靜態(tài)網(wǎng)頁(yè),JS加載

前言
隨著(zhù)人類(lèi)社會(huì )的高速發(fā)展,數據對各行各業(yè)的重要性,愈加突出。爬蟲(chóng),也稱(chēng)為數據采集器,是指通過(guò)程序設計,機械化地對網(wǎng)路上的數據,進(jìn)行批量爬取,以取代低效的人工獲取信息的手段。
1. 道德法律問(wèn)題
爬蟲(chóng)目前在法律上尚屬黑色地段,但爬別的網(wǎng)站用于自己的商業(yè)化用途也可能存在著(zhù)法律風(fēng)險。非法抓取使用“新浪微博”用戶(hù)信息被判賠200萬(wàn)元,這是國外的一條因爬蟲(chóng)被判敗訴的新聞。所以各商業(yè)公司還是悠著(zhù)點(diǎn),特別是涉及隱私數據。
大型的網(wǎng)站一般還會(huì )有robot.txt,這算是與爬蟲(chóng)者的一個(gè)合同。只要在robot.txt容許的范圍內爬蟲(chóng)就不存在道德和法律風(fēng)險。
2. 網(wǎng)絡(luò )爬蟲(chóng)步驟2.1 檢查API接口
API是網(wǎng)站官方提供的數據插口,如果通過(guò)調用API采集數據,則相當于在網(wǎng)站允許的范圍內采集。這樣既不會(huì )有道德法律風(fēng)險,也沒(méi)有網(wǎng)站故意設置的障礙;不過(guò)調用API插口的訪(fǎng)問(wèn)則處于網(wǎng)站的控制中,網(wǎng)站可以拿來(lái)收費,可以拿來(lái)限制訪(fǎng)問(wèn)上限等。整體來(lái)看,如果數據采集的需求并不是太奇特,那么有API則應優(yōu)先采用調用API的形式。如果沒(méi)有,則選擇爬蟲(chóng)。
2.2 數據獲取渠道剖析
頁(yè)面收錄數據
這種情況是最容易解決的,一般來(lái)講基本上是靜態(tài)網(wǎng)頁(yè),或者動(dòng)態(tài)網(wǎng)頁(yè),采用模板渲染,瀏覽器獲取到HTML的時(shí)侯早已是收錄所有的關(guān)鍵信息,所以直接在網(wǎng)頁(yè)上見(jiàn)到的內容都可以通過(guò)特定的HTML標簽得到。
JavaScript代碼加載內容
雖然網(wǎng)頁(yè)顯示的數據在HTML標簽上面,但是指定HTML標簽下內容為空。這是因為數據在js代碼上面,而js的執行是在瀏覽器端的操作。當我們用程序去懇求網(wǎng)頁(yè)地址的時(shí)侯,得到的response是網(wǎng)頁(yè)代碼和js的代碼,因此自己在瀏覽器端能看到數據,解析時(shí)因為js未執行,指定HTML標簽下數據肯定為空。這個(gè)時(shí)侯的處理辦法:找到收錄內容的js代碼串,然后通過(guò)正則表達式獲得相應的內容,而不是解析HTML標簽。
Ajax異步懇求
這種情況是現今太常見(jiàn)的,尤其是在數據以分頁(yè)方式顯示在網(wǎng)頁(yè)上,并且頁(yè)面無(wú)刷新,或者是對網(wǎng)頁(yè)進(jìn)行某個(gè)交互操作后得到數據。所以當我們開(kāi)始刷新頁(yè)面的時(shí)侯就要開(kāi)始跟蹤所有的懇求,觀(guān)察數據究竟是在哪一步加載進(jìn)來(lái)的。然后當我們找到核心的異步懇求的時(shí)侯,就只用抓取這個(gè)異步懇求就可以了,如果原創(chuàng )網(wǎng)頁(yè)沒(méi)有任何有用信息,也沒(méi)必要去抓取原創(chuàng )網(wǎng)頁(yè)了。
2.3 頁(yè)面數據結構剖析
結構性數據
結構化的數據是最好處理,一般都是類(lèi)似JSON格式的字符串,直接解析JSON數據就可以了,提取JSON的關(guān)鍵數組即可。
page = requests.get(url)
headers = {}
page.encoding = 'utf-8'
data =re.findall(r'__INITIAL_STATE__=(.*?)',page.text)[0]
json_data = json.loads(data)
print(json_data)
#f = open('結果2.txt', 'w',
encoding='utf-8') # 以'w'方式打開(kāi)文件
#for k, v in json_data.items():
# 遍歷字典中的鍵值
#s2 = str(v) # 把字典的值轉換成字符型
#f.write(k + '\n') # 鍵和值分行放,鍵在單數行,值在雙數行
#f.write(s2 + '\n')
jobList = json_data['souresult']['Items'] #打印json_data,抓到關(guān)鍵詞
for element in jobList:
print(f"===公司名稱(chēng):{element['CompanyName']}:===\n"
f"崗位名稱(chēng):{element['DateCreated']}\n"
f"招聘人數:{element['JobTitle']}\n"
f"工作代碼:{element['JobTypeName']}\n"
f"公司代碼:{element['RecruitCount']}\n"
f"詳細信息URL:{element['SocialCompanyUrl']}")
非結構性數據-HTML文本數據
HTML文本基本上是傳統爬蟲(chóng)過(guò)程中最常見(jiàn)的,也就是大多數時(shí)侯會(huì )碰到的情況。例如抓取一個(gè)網(wǎng)頁(yè),得到的是HTML,然后須要解析一些常見(jiàn)的元素,提取一些關(guān)鍵的信息。HTML雖然理應屬于結構化的文本組織,但是又由于通常我們須要的關(guān)鍵信息并非直接可以得到,需要進(jìn)行對HTML的解析查找,甚至一些字符串操作就能得到,所以還是歸類(lèi)于非結構化的數據處理中。常見(jiàn)解析方式:
CSS選擇器
現在的網(wǎng)頁(yè)式樣比較多,所以通常的網(wǎng)頁(yè)就會(huì )有一些CSS的定位,例如class,id等等,或者我們按照常見(jiàn)的節點(diǎn)路徑進(jìn)行定位。
item = soup.select('#u1 > a')
#選擇指定目錄下所有css數據
#print([i for i in item]) #print里添加循環(huán)時(shí),記得加方括號
item = soup.select_one('#u1 > a') #選擇指定目錄下第一條 css數據
print(item)
Findall
##招聘人數
recru_num = soup.find_all('div', attrs={'class':'cityfn-left'}) #找到頁(yè)面中a元素的所有元素,并找到a元素中 屬性為'class=value'———————— attrs={"class": 'value'}
print(recru_num)
dr = re.compile(r']+>', re.S)
data = dr.sub('', str(recru_num)) #過(guò)濾HTML標簽
print(data)
Xpath
html = etree.HTML(wb_data)
html_data = html.xpath('/html/body/div/ul/li/a/text()') #獲取某個(gè)標簽的內容(基本使用)
正則表達式
正則表達式,用標準正則解析,一般會(huì )把HTML當作普通文本,用指定格式匹配。當相關(guān)文本是小片斷文本,或者某一串字符,或者HTML收錄javascript的代碼,無(wú)法用CSS選擇器或則XPATH。
import re
a = '<p>[Aero, Animals, Architecture,Wallpapers">Artistic</a>, ........(省略)......... Vintage]'
titles = re.findall('
2019最新站群優(yōu)化超級蜘蛛池 引流必備,可轉讓后臺,自動(dòng)采集,支持外推
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 728 次瀏覽 ? 2020-08-18 10:02
蜘蛛池引流 站群蜘蛛池 2019seo優(yōu)化超級蜘蛛池 自動(dòng)采集 網(wǎng)站優(yōu)化必備
seo優(yōu)化站群特色
安全、高效,化的優(yōu)化借助php性能,使得運行流暢穩定
獨創(chuàng )內容無(wú)緩存刷新不變,節省硬碟。防止搜索引擎辨識蜘蛛池
蜘蛛池算法,輕松建立站點(diǎn)(電影、資訊、圖片、論壇等等)
可以個(gè)性化每位網(wǎng)站的風(fēng)格、內容、站點(diǎn)模式、關(guān)鍵詞、外鏈等
?。ㄗ远xtkd、自定義外鏈關(guān)鍵詞、自定義泛域名前綴)
什么是蜘蛛池? 蜘蛛池是一種通過(guò)借助小型平臺權重來(lái)獲得百度收錄以及排行的一種程序,程序員常稱(chēng)為“蜘蛛池”。這是一種可以快速提高網(wǎng)站排名的一種程序,值得一提的是,它是手動(dòng)提高網(wǎng)站的排行和網(wǎng)站的收錄,這個(gè)療效是極其出色的。蜘蛛池程序可以幫助我們做哪些? 發(fā)了外鏈了貼子還不收錄,可競爭對手人家一樣是發(fā)同樣的站,人家沒(méi)發(fā)外鏈也收錄了,是吧!答:(因為人家養有了數目龐大的百度收錄蜘蛛爬蟲(chóng),有了蜘蛛池你也可以做到) CNmmm.Com
有些老手會(huì )說(shuō),我自己也養有百度蜘蛛如何我的也不收錄呢?
答:(因為你的百度收錄蜘蛛不夠多,不夠廣,來(lái)來(lái)回回都是這些低質(zhì)量的百度收錄爬蟲(chóng),收錄慢,而且甚至是根本不收錄了!——-蜘蛛池擁有多服務(wù)器,多域名,正規內容站點(diǎn)養著(zhù)百度收錄蜘蛛,分布廣,域名多,團隊化養著(zhù)蜘蛛,來(lái)源站點(diǎn)多,質(zhì)量高,每天都有新來(lái)的蜘蛛進(jìn)行爬取收錄您的外推貼子) 內容來(lái)自新手源碼CNmmm.Com
蜘蛛池超級強悍的功能,全手動(dòng)采集,支持api二次開(kāi)發(fā)!
也可以當作站群的源程序使用。
支持給用戶(hù)開(kāi)帳號,全手動(dòng)發(fā)布,可用于租用蜘蛛池,發(fā)布外鏈使用!
支持關(guān)鍵詞跳轉,全局跳轉! 內容來(lái)自新手源碼CNmmm.Com
自動(dòng)采集(騰訊新聞(國內,軍事),新浪新聞(國際,軍事))
新聞偽原創(chuàng ),加快收錄!
支持導出txt外推網(wǎng)址,蜘蛛日記,索引池,權重池等等等,更多功能自行發(fā)覺(jué)!
商業(yè)源碼下載
售價(jià) :80.00(元)會(huì )員價(jià)錢(qián) :0.00(元) VIP會(huì )員登入 后即可免費下載!
資源信息 :
2019最新站群優(yōu)化超級蜘蛛池 引流必備,可轉讓后臺,自動(dòng)采集,支持外推,支持降低用戶(hù) api
下載鏈接:*** 隱藏內容訂購后可見(jiàn) ***下載密碼:*** 隱藏內容訂購后可見(jiàn) ***
開(kāi)通VIP會(huì )員后,全站源碼即可免費下載!活動(dòng)期間會(huì )員僅需28元 - 馬上開(kāi)通VIP會(huì )員 查看全部
2019最新站群優(yōu)化超級蜘蛛池 引流必備,可轉讓后臺,自動(dòng)采集,支持外推
蜘蛛池引流 站群蜘蛛池 2019seo優(yōu)化超級蜘蛛池 自動(dòng)采集 網(wǎng)站優(yōu)化必備
seo優(yōu)化站群特色
安全、高效,化的優(yōu)化借助php性能,使得運行流暢穩定
獨創(chuàng )內容無(wú)緩存刷新不變,節省硬碟。防止搜索引擎辨識蜘蛛池
蜘蛛池算法,輕松建立站點(diǎn)(電影、資訊、圖片、論壇等等)
可以個(gè)性化每位網(wǎng)站的風(fēng)格、內容、站點(diǎn)模式、關(guān)鍵詞、外鏈等
?。ㄗ远xtkd、自定義外鏈關(guān)鍵詞、自定義泛域名前綴)
什么是蜘蛛池? 蜘蛛池是一種通過(guò)借助小型平臺權重來(lái)獲得百度收錄以及排行的一種程序,程序員常稱(chēng)為“蜘蛛池”。這是一種可以快速提高網(wǎng)站排名的一種程序,值得一提的是,它是手動(dòng)提高網(wǎng)站的排行和網(wǎng)站的收錄,這個(gè)療效是極其出色的。蜘蛛池程序可以幫助我們做哪些? 發(fā)了外鏈了貼子還不收錄,可競爭對手人家一樣是發(fā)同樣的站,人家沒(méi)發(fā)外鏈也收錄了,是吧!答:(因為人家養有了數目龐大的百度收錄蜘蛛爬蟲(chóng),有了蜘蛛池你也可以做到) CNmmm.Com
有些老手會(huì )說(shuō),我自己也養有百度蜘蛛如何我的也不收錄呢?
答:(因為你的百度收錄蜘蛛不夠多,不夠廣,來(lái)來(lái)回回都是這些低質(zhì)量的百度收錄爬蟲(chóng),收錄慢,而且甚至是根本不收錄了!——-蜘蛛池擁有多服務(wù)器,多域名,正規內容站點(diǎn)養著(zhù)百度收錄蜘蛛,分布廣,域名多,團隊化養著(zhù)蜘蛛,來(lái)源站點(diǎn)多,質(zhì)量高,每天都有新來(lái)的蜘蛛進(jìn)行爬取收錄您的外推貼子) 內容來(lái)自新手源碼CNmmm.Com
蜘蛛池超級強悍的功能,全手動(dòng)采集,支持api二次開(kāi)發(fā)!
也可以當作站群的源程序使用。
支持給用戶(hù)開(kāi)帳號,全手動(dòng)發(fā)布,可用于租用蜘蛛池,發(fā)布外鏈使用!
支持關(guān)鍵詞跳轉,全局跳轉! 內容來(lái)自新手源碼CNmmm.Com
自動(dòng)采集(騰訊新聞(國內,軍事),新浪新聞(國際,軍事))
新聞偽原創(chuàng ),加快收錄!
支持導出txt外推網(wǎng)址,蜘蛛日記,索引池,權重池等等等,更多功能自行發(fā)覺(jué)!

商業(yè)源碼下載
售價(jià) :80.00(元)會(huì )員價(jià)錢(qián) :0.00(元) VIP會(huì )員登入 后即可免費下載!
資源信息 :
2019最新站群優(yōu)化超級蜘蛛池 引流必備,可轉讓后臺,自動(dòng)采集,支持外推,支持降低用戶(hù) api
下載鏈接:*** 隱藏內容訂購后可見(jiàn) ***下載密碼:*** 隱藏內容訂購后可見(jiàn) ***
開(kāi)通VIP會(huì )員后,全站源碼即可免費下載!活動(dòng)期間會(huì )員僅需28元 - 馬上開(kāi)通VIP會(huì )員
銷(xiāo)幫幫數據處理工具開(kāi)發(fā)說(shuō)明
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 169 次瀏覽 ? 2020-08-17 01:26
目錄
開(kāi)發(fā)背景:
公司CRM采購了銷(xiāo)幫幫的CRM系統,由于CRM系統不健全,導出功能不能滿(mǎn)足公司對數據進(jìn)行剖析的需求。每次整理數據,分析人員部門(mén)等各類(lèi)情況,再有假如人員重名,銷(xiāo)幫幫不能分辨出具體是誰(shuí),必須去依據人員或其他數據進(jìn)行分辨。
解決方案:
由于銷(xiāo)幫幫數據的人員是有UserID的,而該UserID對應釘釘的UserID,所以可以按照釘釘提供的API接口輕松的判別出人員部門(mén)、分公司等信息,不用關(guān)心人員重名的情況。
開(kāi)發(fā)環(huán)境:
軟件使用C#+SQLSERVER進(jìn)行開(kāi)發(fā)。
使用教程:
開(kāi)始前先給你們瞧瞧軟件的整體界面。
軟件主要包括清空明日數據,采集、數據剖析、同步用戶(hù)信息、獲取數據 5部份功能。
創(chuàng )建并配置SQLServer數據庫
在安裝好的SQLServer服務(wù)器上,創(chuàng )建數據庫,數據庫名稱(chēng)按照須要定義,此處我定義的數據庫名稱(chēng)是xbb,如下圖的配置[1],正確配置數據庫聯(lián)接
獲取銷(xiāo)幫幫的組織編碼和Token
根據銷(xiāo)幫幫提供的網(wǎng)址[]獲取對應的組織編碼和token.,如下圖配置[2]配置銷(xiāo)幫幫石藥使用的組織編碼和Token.
創(chuàng )建企業(yè)內部應用
在釘釘的【開(kāi)發(fā)者后臺】創(chuàng )建企業(yè)內部應用。開(kāi)放查詢(xún)部門(mén)、人員信息的權限即可。并配置對應的appkey/appsecret到右圖【3】處。
清空明日數據
開(kāi)始采集前,如果明天的數據早已采集過(guò),請點(diǎn)擊【清空明日數據】,會(huì )手動(dòng)清空明天早已采集的數據,重新開(kāi)始采集。
采集
點(diǎn)擊【開(kāi)始】進(jìn)行數據采集,采集的內容主要包括功能上勾選的數據。等待最下邊的狀態(tài)欄采集后待處理數據變?yōu)?條,則代表采集完成。
數據剖析
采集后會(huì )把數據統計分配到一張表里,點(diǎn)擊數據剖析會(huì )手動(dòng)依據采集到的數據創(chuàng )建表,并把數據插入到對應的表上面。
同步用戶(hù)數據
同步用戶(hù)數據是為了增量備份釘釘的所有的用戶(hù)信息。
獲取數據
點(diǎn)擊【獲取數據】按鈕,自動(dòng)導入銷(xiāo)幫幫銷(xiāo)售機會(huì )、合同、跟進(jìn)記錄等信息。
備注:如果哪天銷(xiāo)幫幫數據發(fā)生變化,可以在軟件的ExecSQL文件夾下更改對應的導入SQL句子,不用更改代碼。
軟件技能更新
第一次在開(kāi)發(fā)中使用了dynamic關(guān)鍵字,通過(guò)對Json進(jìn)行反序列化挺好用。減少了好多Model的創(chuàng )建工作,也降低了先前通過(guò)正則表達式匹配的方法的工作量。
通過(guò)下邊的句子更改當前顯示的文字做的顏色。
rtbContent.SelectionColor = Color.Red;
rtbContent.SelectedText = msg+"\r\n";
為了備份每晚的數據,所有的表都帶上了年月日yyyyMMdd格式結尾。所有的查詢(xún)都是通過(guò){Date}關(guān)鍵字,用明天的日期替換{Date}關(guān)鍵字后產(chǎn)生SQL查詢(xún)句子
每次抓取分頁(yè)數據時(shí),由于是異步的,不能馬上確定是否有下一頁(yè)的時(shí)侯,尤其是抓取第一頁(yè)的時(shí)侯,由于數據分類(lèi)不同,以前都是按照不同的數據分頁(yè)設置一下隊列,然后依次從隊列中進(jìn)行數據彈出、采集等?,F在采用字典Dic> 可以通過(guò)統一的方式,設置不同的關(guān)鍵字插入分頁(yè)或則彈出分頁(yè)。
以前的加密方式大多是md5/AES等加密方法,最近大多都在改成sha256,可能與統一的后端構架有關(guān)系把。
C#的sha256加密方法:
public static string sha256(string data)
{
byte[] bytes = Encoding.UTF8.GetBytes(data);
byte[] hash = SHA256Managed.Create().ComputeHash(bytes);
StringBuilder builder = new StringBuilder();
for (int i = 0; i < hash.Length; i++)
{
builder.Append(hash[i].ToString("X2"));
}
return builder.ToString();
}
以前處理數據庫都是自己自動(dòng)寫(xiě)個(gè)簡(jiǎn)單的DbHelper,由于用不到各類(lèi)復雜的處理。所以還算夠用。
后來(lái)發(fā)覺(jué)通過(guò)Dapper可以輕松實(shí)現數據的批量處理,而且總體來(lái)說(shuō)效率還可以,畢竟寫(xiě)的代碼少了,還是很高興的。
輕量級的ORM工具,我選Dapper.。但是ADO.NET原理不能忘。
NPOI仍然是最好的處理Excel的工具
不再使用Model,正則表達式,把所有Json格式的數據通過(guò),數據字段ID、列名、列值、數據類(lèi)型 插入到一張表,通過(guò)統一的SQL創(chuàng )建插入規則把數據在統一插入到對應的表中,不需要提早曉得表的列名。
自動(dòng)創(chuàng )建、增加列。自動(dòng)插入數據。 查看全部
銷(xiāo)幫幫數據處理工具開(kāi)發(fā)說(shuō)明
目錄
開(kāi)發(fā)背景:
公司CRM采購了銷(xiāo)幫幫的CRM系統,由于CRM系統不健全,導出功能不能滿(mǎn)足公司對數據進(jìn)行剖析的需求。每次整理數據,分析人員部門(mén)等各類(lèi)情況,再有假如人員重名,銷(xiāo)幫幫不能分辨出具體是誰(shuí),必須去依據人員或其他數據進(jìn)行分辨。
解決方案:
由于銷(xiāo)幫幫數據的人員是有UserID的,而該UserID對應釘釘的UserID,所以可以按照釘釘提供的API接口輕松的判別出人員部門(mén)、分公司等信息,不用關(guān)心人員重名的情況。
開(kāi)發(fā)環(huán)境:
軟件使用C#+SQLSERVER進(jìn)行開(kāi)發(fā)。
使用教程:
開(kāi)始前先給你們瞧瞧軟件的整體界面。

軟件主要包括清空明日數據,采集、數據剖析、同步用戶(hù)信息、獲取數據 5部份功能。
創(chuàng )建并配置SQLServer數據庫
在安裝好的SQLServer服務(wù)器上,創(chuàng )建數據庫,數據庫名稱(chēng)按照須要定義,此處我定義的數據庫名稱(chēng)是xbb,如下圖的配置[1],正確配置數據庫聯(lián)接
獲取銷(xiāo)幫幫的組織編碼和Token
根據銷(xiāo)幫幫提供的網(wǎng)址[]獲取對應的組織編碼和token.,如下圖配置[2]配置銷(xiāo)幫幫石藥使用的組織編碼和Token.
創(chuàng )建企業(yè)內部應用
在釘釘的【開(kāi)發(fā)者后臺】創(chuàng )建企業(yè)內部應用。開(kāi)放查詢(xún)部門(mén)、人員信息的權限即可。并配置對應的appkey/appsecret到右圖【3】處。

清空明日數據
開(kāi)始采集前,如果明天的數據早已采集過(guò),請點(diǎn)擊【清空明日數據】,會(huì )手動(dòng)清空明天早已采集的數據,重新開(kāi)始采集。
采集
點(diǎn)擊【開(kāi)始】進(jìn)行數據采集,采集的內容主要包括功能上勾選的數據。等待最下邊的狀態(tài)欄采集后待處理數據變?yōu)?條,則代表采集完成。
數據剖析
采集后會(huì )把數據統計分配到一張表里,點(diǎn)擊數據剖析會(huì )手動(dòng)依據采集到的數據創(chuàng )建表,并把數據插入到對應的表上面。
同步用戶(hù)數據
同步用戶(hù)數據是為了增量備份釘釘的所有的用戶(hù)信息。
獲取數據
點(diǎn)擊【獲取數據】按鈕,自動(dòng)導入銷(xiāo)幫幫銷(xiāo)售機會(huì )、合同、跟進(jìn)記錄等信息。
備注:如果哪天銷(xiāo)幫幫數據發(fā)生變化,可以在軟件的ExecSQL文件夾下更改對應的導入SQL句子,不用更改代碼。

軟件技能更新
第一次在開(kāi)發(fā)中使用了dynamic關(guān)鍵字,通過(guò)對Json進(jìn)行反序列化挺好用。減少了好多Model的創(chuàng )建工作,也降低了先前通過(guò)正則表達式匹配的方法的工作量。

通過(guò)下邊的句子更改當前顯示的文字做的顏色。
rtbContent.SelectionColor = Color.Red;
rtbContent.SelectedText = msg+"\r\n";
為了備份每晚的數據,所有的表都帶上了年月日yyyyMMdd格式結尾。所有的查詢(xún)都是通過(guò){Date}關(guān)鍵字,用明天的日期替換{Date}關(guān)鍵字后產(chǎn)生SQL查詢(xún)句子
每次抓取分頁(yè)數據時(shí),由于是異步的,不能馬上確定是否有下一頁(yè)的時(shí)侯,尤其是抓取第一頁(yè)的時(shí)侯,由于數據分類(lèi)不同,以前都是按照不同的數據分頁(yè)設置一下隊列,然后依次從隊列中進(jìn)行數據彈出、采集等?,F在采用字典Dic> 可以通過(guò)統一的方式,設置不同的關(guān)鍵字插入分頁(yè)或則彈出分頁(yè)。
以前的加密方式大多是md5/AES等加密方法,最近大多都在改成sha256,可能與統一的后端構架有關(guān)系把。
C#的sha256加密方法:
public static string sha256(string data)
{
byte[] bytes = Encoding.UTF8.GetBytes(data);
byte[] hash = SHA256Managed.Create().ComputeHash(bytes);
StringBuilder builder = new StringBuilder();
for (int i = 0; i < hash.Length; i++)
{
builder.Append(hash[i].ToString("X2"));
}
return builder.ToString();
}
以前處理數據庫都是自己自動(dòng)寫(xiě)個(gè)簡(jiǎn)單的DbHelper,由于用不到各類(lèi)復雜的處理。所以還算夠用。
后來(lái)發(fā)覺(jué)通過(guò)Dapper可以輕松實(shí)現數據的批量處理,而且總體來(lái)說(shuō)效率還可以,畢竟寫(xiě)的代碼少了,還是很高興的。
輕量級的ORM工具,我選Dapper.。但是ADO.NET原理不能忘。
NPOI仍然是最好的處理Excel的工具
不再使用Model,正則表達式,把所有Json格式的數據通過(guò),數據字段ID、列名、列值、數據類(lèi)型 插入到一張表,通過(guò)統一的SQL創(chuàng )建插入規則把數據在統一插入到對應的表中,不需要提早曉得表的列名。
自動(dòng)創(chuàng )建、增加列。自動(dòng)插入數據。


