文章采集api
文章采集api(修改歷史:本工具與2012-09-17發(fā)現一個(gè)bug且已修正)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 143 次瀏覽 ? 2021-11-16 05:16
[大小=中等]
從2008年開(kāi)始做網(wǎng)頁(yè)數據采集,開(kāi)始使用HTML Parser、NekoHTML、Jericho HTML Parser(用于解析html網(wǎng)頁(yè))、HtmlUtil(純java版本的瀏覽器,帶Http協(xié)議和Html解析功能,JS執行功能)等,帶HttpClient(提供高效、最新、功能豐富的支持HTTP協(xié)議的客戶(hù)端編程工具包,是一個(gè)HTTP協(xié)議相關(guān)的包,類(lèi)似于我介紹的 API 中的 HtmlPage 類(lèi))。因為那些API采集[color=red]大量的多種格式的網(wǎng)頁(yè)數據[/color]在配置上非常不靈活,比如DOM解析、Xpath等,導致配置復雜,所以從2009 3 我開(kāi)始編寫(xiě)自己的 API 來(lái)獲取和分析網(wǎng)頁(yè):網(wǎng)頁(yè)。服務(wù)在公司' s 項目。通過(guò)預配置,經(jīng)過(guò)采集10000多個(gè)數據源和多種網(wǎng)頁(yè)數據呈現格式的測試和修正,于2010年9月形成了一個(gè)相對穩定的版本。
修改歷史:
此工具在 2012-09-17 發(fā)現了一個(gè)錯誤,并已更正。今天從新包提交一個(gè)版本,之前的源碼和jar包版本都會(huì )被刪除。
1、源碼包結構說(shuō)明:基于com.hlxp.webpage包的啟動(dòng)說(shuō)明:
?。?)com.hlxp.webpage.app與采集的應用相關(guān),可以獨立運行,主要是與采集配合使用。
?。?)com.hlxp.webpage.bean 采集中使用的一些無(wú)狀態(tài)VO(值對象)
?。?)com.hlxp.webpage.log包中收錄日志類(lèi),主要打包jdk自帶的日志對象;以及l(fā)og4j的日志類(lèi)。
?。?)com.hlxp.webpage.util 包中收錄一些特定的 采集 工具,它們使用 HtmlPage 和 HtmlUtil 類(lèi)來(lái)完成特定的 采集,例如只有 采集 鏈接,或者只是采集img的鏈接。
?。?)HtmlPage類(lèi)是一個(gè)基礎類(lèi),主要用于通過(guò)get和post獲取網(wǎng)頁(yè),也支持參數的提交。
?。?)HtmlUtil類(lèi)是一個(gè)基礎類(lèi),主要用于解析通過(guò)HtmlPage獲取的網(wǎng)頁(yè),支持正則表達式分析、字符切割、HTML標記分析。
[顏色=紅色]注意:[/color]
源碼中沒(méi)有示例程序,示例在每個(gè)解析類(lèi)的main函數中。以后有時(shí)間我會(huì )寫(xiě)API幫助文檔和示例程序。這些將發(fā)布在本博客的附件中。
有問(wèn)題的朋友可以在本博客留言,我會(huì )和大家一起討論。
2.API函數介紹
?。?)可以或者普通網(wǎng)頁(yè)和沒(méi)有驗證碼的登錄網(wǎng)頁(yè)(需要登錄的網(wǎng)頁(yè),需要手動(dòng)登錄,然后將cookie復制到程序中獲?。?br /> ?。?)可以解析HTML、XML、DTD等靜態(tài)文本顯示數據的網(wǎng)頁(yè)。
?。?)可以方便采集翻頁(yè),通過(guò)設置頁(yè)面鏈接格式,自動(dòng)生成或采集頁(yè)面鏈接及其網(wǎng)頁(yè)。
?。?)HtmlPage.java 用于獲取網(wǎng)頁(yè),HtmlUtil.java 用于解析網(wǎng)頁(yè)的基本類(lèi)。兩個(gè)類(lèi)的主要方法中有示例。
[/尺寸] 查看全部
文章采集api(修改歷史:本工具與2012-09-17發(fā)現一個(gè)bug且已修正)
[大小=中等]
從2008年開(kāi)始做網(wǎng)頁(yè)數據采集,開(kāi)始使用HTML Parser、NekoHTML、Jericho HTML Parser(用于解析html網(wǎng)頁(yè))、HtmlUtil(純java版本的瀏覽器,帶Http協(xié)議和Html解析功能,JS執行功能)等,帶HttpClient(提供高效、最新、功能豐富的支持HTTP協(xié)議的客戶(hù)端編程工具包,是一個(gè)HTTP協(xié)議相關(guān)的包,類(lèi)似于我介紹的 API 中的 HtmlPage 類(lèi))。因為那些API采集[color=red]大量的多種格式的網(wǎng)頁(yè)數據[/color]在配置上非常不靈活,比如DOM解析、Xpath等,導致配置復雜,所以從2009 3 我開(kāi)始編寫(xiě)自己的 API 來(lái)獲取和分析網(wǎng)頁(yè):網(wǎng)頁(yè)。服務(wù)在公司' s 項目。通過(guò)預配置,經(jīng)過(guò)采集10000多個(gè)數據源和多種網(wǎng)頁(yè)數據呈現格式的測試和修正,于2010年9月形成了一個(gè)相對穩定的版本。
修改歷史:
此工具在 2012-09-17 發(fā)現了一個(gè)錯誤,并已更正。今天從新包提交一個(gè)版本,之前的源碼和jar包版本都會(huì )被刪除。
1、源碼包結構說(shuō)明:基于com.hlxp.webpage包的啟動(dòng)說(shuō)明:
?。?)com.hlxp.webpage.app與采集的應用相關(guān),可以獨立運行,主要是與采集配合使用。
?。?)com.hlxp.webpage.bean 采集中使用的一些無(wú)狀態(tài)VO(值對象)
?。?)com.hlxp.webpage.log包中收錄日志類(lèi),主要打包jdk自帶的日志對象;以及l(fā)og4j的日志類(lèi)。
?。?)com.hlxp.webpage.util 包中收錄一些特定的 采集 工具,它們使用 HtmlPage 和 HtmlUtil 類(lèi)來(lái)完成特定的 采集,例如只有 采集 鏈接,或者只是采集img的鏈接。
?。?)HtmlPage類(lèi)是一個(gè)基礎類(lèi),主要用于通過(guò)get和post獲取網(wǎng)頁(yè),也支持參數的提交。
?。?)HtmlUtil類(lèi)是一個(gè)基礎類(lèi),主要用于解析通過(guò)HtmlPage獲取的網(wǎng)頁(yè),支持正則表達式分析、字符切割、HTML標記分析。
[顏色=紅色]注意:[/color]
源碼中沒(méi)有示例程序,示例在每個(gè)解析類(lèi)的main函數中。以后有時(shí)間我會(huì )寫(xiě)API幫助文檔和示例程序。這些將發(fā)布在本博客的附件中。
有問(wèn)題的朋友可以在本博客留言,我會(huì )和大家一起討論。
2.API函數介紹
?。?)可以或者普通網(wǎng)頁(yè)和沒(méi)有驗證碼的登錄網(wǎng)頁(yè)(需要登錄的網(wǎng)頁(yè),需要手動(dòng)登錄,然后將cookie復制到程序中獲?。?br /> ?。?)可以解析HTML、XML、DTD等靜態(tài)文本顯示數據的網(wǎng)頁(yè)。
?。?)可以方便采集翻頁(yè),通過(guò)設置頁(yè)面鏈接格式,自動(dòng)生成或采集頁(yè)面鏈接及其網(wǎng)頁(yè)。
?。?)HtmlPage.java 用于獲取網(wǎng)頁(yè),HtmlUtil.java 用于解析網(wǎng)頁(yè)的基本類(lèi)。兩個(gè)類(lèi)的主要方法中有示例。
[/尺寸]
文章采集api(JSP眾籌管理系統.5開(kāi)發(fā)java語(yǔ)言設計系統源碼特點(diǎn))
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 155 次瀏覽 ? 2021-11-15 12:11
一、 源碼特點(diǎn) JSP眾籌管理系統是一個(gè)完整的網(wǎng)頁(yè)設計系統,有助于理解JSP java編程語(yǔ)言。系統具有完整的源代碼和數據庫,系統主要采用B/S模式。發(fā)展。 二、功能介紹 前臺主要功能:顯示項目信息及項目周邊相關(guān)信息 后臺主要功能:(1)權限管理:添加、刪除、修改、查看權限信息(2)用戶(hù)管理:添加、刪除、修改、查看用戶(hù)信息(3)項目分類(lèi)管理:添加、刪除、修改、查看項目分類(lèi)信息(4)項目管理:添加項目信息),刪除、修改和查看(5)日志管理:添加、刪除、修改和查看日志信息(6)項目支持管理:添加、刪除、修改和查看項目支持信息(7)Project審核管理:添加、刪除、修改和查看項目審核信息(8)報告管理:添加、刪除、修改和查看報告信息(9)消息管理:對消息信息的添加、刪除、修改和查看(8) 招生管理:添加、刪除、修改和查看招生信息編隊三、注意事項1、管理員賬號:admin 密碼:admin 數據庫配置文件DBO.java2、開(kāi)發(fā)環(huán)境為T(mén)OMCAT7.0,Myeclipse8.5,數據庫為mysql,使用java語(yǔ)言開(kāi)發(fā)。3、數據庫文件名為jspfgongchou .mysql,系統名gongchou4、地址:xiangmu.jsp 查看全部
文章采集api(JSP眾籌管理系統.5開(kāi)發(fā)java語(yǔ)言設計系統源碼特點(diǎn))
一、 源碼特點(diǎn) JSP眾籌管理系統是一個(gè)完整的網(wǎng)頁(yè)設計系統,有助于理解JSP java編程語(yǔ)言。系統具有完整的源代碼和數據庫,系統主要采用B/S模式。發(fā)展。 二、功能介紹 前臺主要功能:顯示項目信息及項目周邊相關(guān)信息 后臺主要功能:(1)權限管理:添加、刪除、修改、查看權限信息(2)用戶(hù)管理:添加、刪除、修改、查看用戶(hù)信息(3)項目分類(lèi)管理:添加、刪除、修改、查看項目分類(lèi)信息(4)項目管理:添加項目信息),刪除、修改和查看(5)日志管理:添加、刪除、修改和查看日志信息(6)項目支持管理:添加、刪除、修改和查看項目支持信息(7)Project審核管理:添加、刪除、修改和查看項目審核信息(8)報告管理:添加、刪除、修改和查看報告信息(9)消息管理:對消息信息的添加、刪除、修改和查看(8) 招生管理:添加、刪除、修改和查看招生信息編隊三、注意事項1、管理員賬號:admin 密碼:admin 數據庫配置文件DBO.java2、開(kāi)發(fā)環(huán)境為T(mén)OMCAT7.0,Myeclipse8.5,數據庫為mysql,使用java語(yǔ)言開(kāi)發(fā)。3、數據庫文件名為jspfgongchou .mysql,系統名gongchou4、地址:xiangmu.jsp
文章采集api(MetricsAPI介紹Metrics-Server之前,必須要提一下API的概念)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 130 次瀏覽 ? 2021-11-12 11:22
概述
從v1.8開(kāi)始,可以通過(guò)Metrics API的形式獲取資源使用監控。具體的組件是Metrics Server,用來(lái)替代之前的heapster。heapster 從 1.11 開(kāi)始逐漸被廢棄。
Metrics-Server 是集群核心監控數據的聚合器。從Kubernetes1.8開(kāi)始,在kube-up.sh腳本創(chuàng )建的集群中默認部署為Deployment對象。如果是其他部署方式,則需要單獨安裝。, 或者咨詢(xún)相應的云廠(chǎng)商。
指標 API
在介紹 Metrics-Server 之前,不得不提一下 Metrics API 的概念
與之前的監控采集方法(hepaster)相比,Metrics API是一個(gè)全新的思路。官方希望核心指標的監控穩定,版本可控,用戶(hù)可以直接訪(fǎng)問(wèn)(比如使用kubectl top命令),或者集群中的控制器(比如HPA)使用,就像其他Kubernetes一樣蜜蜂。
官方放棄heapster項目,是將核心資源監控當成一等公民,即通過(guò)api-server或client直接訪(fǎng)問(wèn),如pod和service,而不是安裝一個(gè)heapster,由heapster單獨采集和管理。
假設我們?yōu)槊總€(gè)pod和節點(diǎn)采集10個(gè)指標,從k8s的1.6開(kāi)始,支持5000個(gè)節點(diǎn)和每個(gè)節點(diǎn)30個(gè)pod,假設采集的粒度為每分鐘一次,那么:
10 x 5000 x 30 / 60 = 25000 平均每分鐘2萬(wàn)多個(gè)采集指標
因為k8s的api-server將所有數據持久化在etcd中,顯然k8s本身無(wú)法處理采集的這種頻率,而且這種監控數據變化很快,而且是臨時(shí)數據,所以需要單獨的組件來(lái)處理,k8s版本只是部分存儲在內存中,因此metric-server的概念誕生了。
其實(shí)Hepaster已經(jīng)暴露了API,但是Kubernetes的用戶(hù)和其他組件必須通過(guò)master代理訪(fǎng)問(wèn),而且Hepaster的接口不像api-server那樣有完整的認證和客戶(hù)端集成。這個(gè)api還在alpha階段(8月18日),希望能達到GA階段。以 api-server 風(fēng)格編寫(xiě):通用 apiserver
有了Metrics Server組件,采集已經(jīng)到達需要的數據,暴露了api,但是因為api需要統一,如何將請求轉發(fā)到api-server /apis/metrics請求到Metrics Server ? 解決方案即:kube-aggregator,在k8s的1.7中已經(jīng)完成。Metrics Server 之前沒(méi)有發(fā)布,在 kube-aggregator 的步驟中延遲了。
kube-aggregator(聚合api)主要提供:
詳細設計文檔:參考鏈接
metric api的使用:
喜歡:
http://127.0.0.1:8001/apis/met ... nodes
http://127.0.0.1:8001/apis/met ... odes/
http://127.0.0.1:8001/apis/met ... pods/
度量服務(wù)器
Metrics 服務(wù)器定期從 Kubelet 的 Summary API(類(lèi)似于 /ap1/v1/nodes/nodename/stats/summary)獲取指標信息采集。這些聚合后的數據會(huì )存儲在內存中,并以metric-api的形式暴露出去。
Metrics server復用api-server庫來(lái)實(shí)現自己的功能,比如認證、版本等,為了將數據存儲在內存中,去掉默認的etcd存儲,引入內存存儲(即實(shí)現Storage接口)。因為是存儲在內存中,所以監控數據不是持久化的,可以通過(guò)第三方存儲進(jìn)行擴展,與heapster一致。
Metrics服務(wù)器出現后,新的Kubernetes監控架構將如上圖所示
官方地址:
用
如上所述,metric-server是一個(gè)擴展的apiserver,依賴(lài)kube-aggregator,所以需要在apiserver中開(kāi)啟相關(guān)參數。
--requestheader-client-ca-file=/etc/kubernetes/certs/proxy-ca.crt
--proxy-client-cert-file=/etc/kubernetes/certs/proxy.crt
--proxy-client-key-file=/etc/kubernetes/certs/proxy.key
--requestheader-allowed-names=aggregator
--requestheader-extra-headers-prefix=X-Remote-Extra-
--requestheader-group-headers=X-Remote-Group
--requestheader-username-headers=X-Remote-User
安裝文件下載地址:1.8+,注意修改鏡像地址為國內鏡像
kubectl create -f metric-server/
安裝成功后訪(fǎng)問(wèn)地址api地址為:
Metrics Server 的資源消耗會(huì )隨著(zhù)集群中 Pod 數量的不斷增長(cháng)而不斷上升,因此需要
插件調整器垂直縮放這個(gè)容器。addon-resizer 根據集群中的節點(diǎn)數對 Metrics Server 進(jìn)行線(xiàn)性擴展,以確保其能夠提供完整的指標 API 服務(wù)。具體參考:鏈接
其他
基于 Metrics Server 的 HPA:參考鏈接
在kubernetes新的監控系統中,metrics-server屬于Core metrics,提供API metrics.k8s.io,只提供Node和Pod的CPU和內存使用情況。Other Custom Metrics(自定義指標)由Prometheus等組件完成,后續文章會(huì )對自定義指標進(jìn)行分析。
本文為容器監控實(shí)踐系列文章,完整內容請看:container-monitor-book 查看全部
文章采集api(MetricsAPI介紹Metrics-Server之前,必須要提一下API的概念)
概述
從v1.8開(kāi)始,可以通過(guò)Metrics API的形式獲取資源使用監控。具體的組件是Metrics Server,用來(lái)替代之前的heapster。heapster 從 1.11 開(kāi)始逐漸被廢棄。
Metrics-Server 是集群核心監控數據的聚合器。從Kubernetes1.8開(kāi)始,在kube-up.sh腳本創(chuàng )建的集群中默認部署為Deployment對象。如果是其他部署方式,則需要單獨安裝。, 或者咨詢(xún)相應的云廠(chǎng)商。
指標 API
在介紹 Metrics-Server 之前,不得不提一下 Metrics API 的概念
與之前的監控采集方法(hepaster)相比,Metrics API是一個(gè)全新的思路。官方希望核心指標的監控穩定,版本可控,用戶(hù)可以直接訪(fǎng)問(wèn)(比如使用kubectl top命令),或者集群中的控制器(比如HPA)使用,就像其他Kubernetes一樣蜜蜂。
官方放棄heapster項目,是將核心資源監控當成一等公民,即通過(guò)api-server或client直接訪(fǎng)問(wèn),如pod和service,而不是安裝一個(gè)heapster,由heapster單獨采集和管理。
假設我們?yōu)槊總€(gè)pod和節點(diǎn)采集10個(gè)指標,從k8s的1.6開(kāi)始,支持5000個(gè)節點(diǎn)和每個(gè)節點(diǎn)30個(gè)pod,假設采集的粒度為每分鐘一次,那么:
10 x 5000 x 30 / 60 = 25000 平均每分鐘2萬(wàn)多個(gè)采集指標
因為k8s的api-server將所有數據持久化在etcd中,顯然k8s本身無(wú)法處理采集的這種頻率,而且這種監控數據變化很快,而且是臨時(shí)數據,所以需要單獨的組件來(lái)處理,k8s版本只是部分存儲在內存中,因此metric-server的概念誕生了。
其實(shí)Hepaster已經(jīng)暴露了API,但是Kubernetes的用戶(hù)和其他組件必須通過(guò)master代理訪(fǎng)問(wèn),而且Hepaster的接口不像api-server那樣有完整的認證和客戶(hù)端集成。這個(gè)api還在alpha階段(8月18日),希望能達到GA階段。以 api-server 風(fēng)格編寫(xiě):通用 apiserver
有了Metrics Server組件,采集已經(jīng)到達需要的數據,暴露了api,但是因為api需要統一,如何將請求轉發(fā)到api-server /apis/metrics請求到Metrics Server ? 解決方案即:kube-aggregator,在k8s的1.7中已經(jīng)完成。Metrics Server 之前沒(méi)有發(fā)布,在 kube-aggregator 的步驟中延遲了。
kube-aggregator(聚合api)主要提供:
詳細設計文檔:參考鏈接
metric api的使用:
喜歡:
http://127.0.0.1:8001/apis/met ... nodes
http://127.0.0.1:8001/apis/met ... odes/
http://127.0.0.1:8001/apis/met ... pods/
度量服務(wù)器
Metrics 服務(wù)器定期從 Kubelet 的 Summary API(類(lèi)似于 /ap1/v1/nodes/nodename/stats/summary)獲取指標信息采集。這些聚合后的數據會(huì )存儲在內存中,并以metric-api的形式暴露出去。
Metrics server復用api-server庫來(lái)實(shí)現自己的功能,比如認證、版本等,為了將數據存儲在內存中,去掉默認的etcd存儲,引入內存存儲(即實(shí)現Storage接口)。因為是存儲在內存中,所以監控數據不是持久化的,可以通過(guò)第三方存儲進(jìn)行擴展,與heapster一致。
Metrics服務(wù)器出現后,新的Kubernetes監控架構將如上圖所示
官方地址:
用
如上所述,metric-server是一個(gè)擴展的apiserver,依賴(lài)kube-aggregator,所以需要在apiserver中開(kāi)啟相關(guān)參數。
--requestheader-client-ca-file=/etc/kubernetes/certs/proxy-ca.crt
--proxy-client-cert-file=/etc/kubernetes/certs/proxy.crt
--proxy-client-key-file=/etc/kubernetes/certs/proxy.key
--requestheader-allowed-names=aggregator
--requestheader-extra-headers-prefix=X-Remote-Extra-
--requestheader-group-headers=X-Remote-Group
--requestheader-username-headers=X-Remote-User
安裝文件下載地址:1.8+,注意修改鏡像地址為國內鏡像
kubectl create -f metric-server/
安裝成功后訪(fǎng)問(wèn)地址api地址為:
Metrics Server 的資源消耗會(huì )隨著(zhù)集群中 Pod 數量的不斷增長(cháng)而不斷上升,因此需要
插件調整器垂直縮放這個(gè)容器。addon-resizer 根據集群中的節點(diǎn)數對 Metrics Server 進(jìn)行線(xiàn)性擴展,以確保其能夠提供完整的指標 API 服務(wù)。具體參考:鏈接
其他
基于 Metrics Server 的 HPA:參考鏈接
在kubernetes新的監控系統中,metrics-server屬于Core metrics,提供API metrics.k8s.io,只提供Node和Pod的CPU和內存使用情況。Other Custom Metrics(自定義指標)由Prometheus等組件完成,后續文章會(huì )對自定義指標進(jìn)行分析。
本文為容器監控實(shí)踐系列文章,完整內容請看:container-monitor-book
文章采集api(創(chuàng )建LoggingAdmin項目ApiBootLogging項目依賴(lài)使用創(chuàng )建項目idea)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 135 次瀏覽 ? 2021-11-09 19:03
通過(guò) ApiBoot Logging 可以獲得每個(gè)請求的詳細信息。在分布式部署模式下,一個(gè)請求可能經(jīng)過(guò)多個(gè)服務(wù)。如果每個(gè)服務(wù)獨立保存請求日志信息,我們無(wú)法實(shí)現統一控制。, 并且會(huì )出現日志數據庫和業(yè)務(wù)數據庫不一致的情況(可能會(huì )使用多個(gè)數據源配置)。正是因為這個(gè)問(wèn)題,ApiBoot Logging 提供了Admin的概念。一條日志上報給Admin,由Admin進(jìn)行分析、存儲等操作。
創(chuàng )建日志管理項目
由于A(yíng)piBoot Logging Admin可以匯總各個(gè)業(yè)務(wù)服務(wù)的請求日志(ApiBoot Logging),我們需要將各個(gè)業(yè)務(wù)服務(wù)的日志采集上報給Admin,所以我們應該使用獨立的方式進(jìn)行部署。創(chuàng )建一個(gè)服務(wù),專(zhuān)門(mén)請求日志并保存。
初始化 Logging Admin 項目依賴(lài)項
使用idea創(chuàng )建一個(gè)SpringBoot項目,pom.xml配置文件中的依賴(lài)如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
org.springframework.boot
spring-boot-starter-web
org.minbox.framework
api-boot-starter-logging-admin
mysql
mysql-connector-java
com.zaxxer
HikariCP
org.minbox.framework
api-boot-starter-mybatis-enhance
我們需要將采集收到的請求日志保存到數據庫中,所以需要在項目中添加數據庫驅動(dòng)和數據庫連接池相關(guān)的依賴(lài)。ApiBoot Logging Admin 使用DataSource 通過(guò)ApiBoot MyBatis Enhance 的依賴(lài)來(lái)操作數據。自動(dòng)創(chuàng )建DataSource,擺脫手動(dòng)創(chuàng )建,加入Spring IOC容器。
添加 ApiBoot 統一版本依賴(lài)
1
2
3
4
5
6
7
8
9
10
11
12
org.minbox.framework
api-boot-dependencies
2.1.4.RELEASE
import
pom
最新版本的ApiBoot請訪(fǎng)問(wèn)::api-boot-dependencies查詢(xún)。
啟用日志管理
添加ApiBoot Logging Admin依賴(lài)后,無(wú)法完全使用Admin功能。我們需要通過(guò)@EnableLoggingAdmin 注釋來(lái)啟用它。這個(gè)注解會(huì )自動(dòng)將Logging Admin中需要的一些類(lèi)注冊到Spring IOC,并在入口類(lèi)中添加注解如下:
1
2
3
4
5
6
7
8
9
10
11
12
/**
* ApiBoot Logging Admin入口類(lèi)
*/
@SpringBootApplication
@EnableLoggingAdmin
public class ApibootReportLogsByLoggingToAdminApplication {
public static void main(String[] args) {
SpringApplication.run(ApibootReportLogsByLoggingToAdminApplication.class, args);
}
}
配置日志數據源
application.yml配置文件中的數據源配置如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
# 服務(wù)名稱(chēng)
spring:
application:
name: apiboot-report-logs-by-logging-to-admin
# 數據源相關(guān)配置
datasource:
driver-class-name: com.mysql.cj.jdbc.Driver
url: jdbc:mysql://localhost:3306/test
username: root
password: 123456
type: com.zaxxer.hikari.HikariDataSource
# 服務(wù)端口號
server:
port: 8081
控制臺打印并報告日志
ApiBoot Logging Admin可以通過(guò)配置文件控制是否在控制臺打印來(lái)自采集的請求日志信息,并在application.yml配置文件中添加如下內容:
1
2
3
4
5
6
7
api:
boot:
logging:
# Logging Admin相關(guān)配置
admin:
# 控制臺顯示采集的日志信息
show-console-report-log: true
注意:這不應與 ApiBoot Logging 提供的 api.boot.logging.show-console-log 配置混淆。
美化控制臺打印的報告日志
1
2
3
4
5
6
7
api:
boot:
logging:
# Logging Admin相關(guān)配置
admin:
# 控制臺輸出時(shí)美化采集到的日志
format-console-log-json: true
注意:不要與這里的 api.boot.logging.format-console-log-json 配置混淆。
初始化日志表結構
ApiBoot Logging Admin 使用固定的表結構來(lái)存儲請求日志和服務(wù)信息。建表語(yǔ)句如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
SET NAMES utf8mb4 ;
--
-- Table structure for table `logging_request_logs`
--
CREATE TABLE `logging_request_logs` (
`lrl_id` varchar(36) COLLATE utf8mb4_general_ci NOT NULL COMMENT '主鍵,UUID',
`lrl_service_detail_id` varchar(36) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '服務(wù)詳情編號,關(guān)聯(lián)logging_service_details主鍵',
`lrl_trace_id` varchar(36) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '鏈路ID',
`lrl_parent_span_id` varchar(36) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '上級跨度ID',
`lrl_span_id` varchar(36) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '跨度ID',
`lrl_start_time` mediumtext COLLATE utf8mb4_general_ci COMMENT '請求開(kāi)始時(shí)間',
`lrl_end_time` mediumtext COLLATE utf8mb4_general_ci COMMENT '請求結束時(shí)間',
`lrl_http_status` int(11) DEFAULT NULL COMMENT '請求響應狀態(tài)碼',
`lrl_request_body` longtext COLLATE utf8mb4_general_ci COMMENT '請求主體內容',
`lrl_request_headers` text COLLATE utf8mb4_general_ci COMMENT '請求頭信息',
`lrl_request_ip` varchar(30) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '發(fā)起請求客戶(hù)端的IP地址',
`lrl_request_method` varchar(10) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '請求方式',
`lrl_request_uri` varchar(200) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '請求路徑',
`lrl_response_body` longtext COLLATE utf8mb4_general_ci COMMENT '響應內容',
`lrl_response_headers` text COLLATE utf8mb4_general_ci COMMENT '響應頭信息',
`lrl_time_consuming` int(11) DEFAULT NULL COMMENT '請求耗時(shí)',
`lrl_create_time` timestamp NULL DEFAULT CURRENT_TIMESTAMP COMMENT '日志保存時(shí)間',
`lrl_request_params` text COLLATE utf8mb4_general_ci,
`lrl_exception_stack` text COLLATE utf8mb4_general_ci,
PRIMARY KEY (`lrl_id`),
KEY `logging_request_logs_LRL_SERVICE_DETAIL_ID_index` (`lrl_service_detail_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_general_ci COMMENT='請求日志信息表';
--
-- Table structure for table `logging_service_details`
--
CREATE TABLE `logging_service_details` (
`lsd_id` varchar(36) COLLATE utf8mb4_general_ci NOT NULL,
`lsd_service_id` varchar(200) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '上報服務(wù)的ID,對應spring.application.name配置值',
`lsd_service_ip` varchar(50) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '上報服務(wù)的IP地址',
`lsd_service_port` int(11) DEFAULT NULL COMMENT '上報服務(wù)的端口號',
`lsd_last_report_time` timestamp NULL DEFAULT NULL COMMENT '最后一次上報時(shí)間,每次上報更新',
`lsd_create_time` timestamp NULL DEFAULT CURRENT_TIMESTAMP COMMENT '首次上報時(shí)創(chuàng )建時(shí)間',
PRIMARY KEY (`lsd_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_general_ci COMMENT='上報日志的客戶(hù)端服務(wù)詳情';
到目前為止,ApiBoot Logging Admin 已經(jīng)準備好了。接下來(lái),我們需要修改業(yè)務(wù)服務(wù),將請求日志上報給 Logging Admin。
向指定的日志管理員報告日志
我們將修改使用ApiBoot Logging統一管理請求日志文章的源碼,并將Logging Admin的地址添加到application.yml中,如下圖:
1
2
3
4
5
6
7
api:
boot:
# ApiBoot Logging 日志組件配置
logging:
# 配置Logging Admin地址
admin:
server-address: 127.0.0.1:8081
api.boot.logging.admin-service-address 的配置格式為:Ip:Port,我們只需要修改這一處,其他的所有任務(wù)內部交給ApiBoot Logging。
測試
我們以Application的形式啟動(dòng)ApiBoot Logging Admin和業(yè)務(wù)服務(wù)。
使用 curl 訪(fǎng)問(wèn)測試地址如下:
1
2
~ curl http://localhost:8080/test\?name\=admin
你好:admin
我們檢查 ApiBoot Logging 管理控制臺日志如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
Receiving Service: 【apiboot-unified-manage-request-logs -> 127.0.0.1】, Request Log Report,Logging Content:[
{
"endTime":1571641723779,
"httpStatus":200,
"requestBody":"",
"requestHeaders":{
"server-region":"JiNan",
"host":"localhost:8080",
"user-agent":"curl/7.64.1",
"accept":"*/*"
},
"requestIp":"0:0:0:0:0:0:0:1",
"requestMethod":"GET",
"requestParam":"{\"name\":\"admin\"}",
"requestUri":"/test",
"responseBody":"你好:admin",
"responseHeaders":{},
"serviceId":"apiboot-unified-manage-request-logs",
"serviceIp":"127.0.0.1",
"servicePort":"8080",
"spanId":"95a73ca0-831b-45df-aa43-2b5887e8d98d",
"startTime":1571641723776,
"timeConsuming":3,
"traceId":"25a7de96-b3dd-48e5-9854-1a8069a4a681"
}
]
我們已經(jīng)看到Logging Admin控制臺打印的報告請求日志,并不確定這個(gè)請求的日志是否已經(jīng)保存到數據庫中。接下來(lái)我使用命令行查看數據庫的日志信息。
查看 logging_service_details 表中的數據
1
2
3
4
5
6
7
8
mysql> select * from logging_service_details\G;
*************************** 1. row ***************************
lsd_id: b069366a-25dc-41ec-8f09-242d81755cd0
lsd_service_id: apiboot-unified-manage-request-logs
lsd_service_ip: 10.180.98.112
lsd_service_port: 8080
lsd_last_report_time: 2019-10-21 02:14:26
lsd_create_time: 2019-10-21 15:14:26
logging_service_details 存儲了每個(gè)上報請求日志的業(yè)務(wù)服務(wù)的基本信息。每個(gè)服務(wù)的基本信息都會(huì )緩存在Logging Admin內存中,方便獲取service_id用于存儲日志。唯一性根據ip+port+service_id確定,同一個(gè)service只保存一次。
查看 logging_request_logs 表中的數據
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
mysql> select * from logging_request_logs\G;
*************************** 1. row ***************************
lrl_id: c42761f6-b072-4744-8a17-d8e6097b85de
lrl_service_detail_id: b069366a-25dc-41ec-8f09-242d81755cd0
lrl_trace_id: 055329a0-cfc1-4606-baf0-4fb0cc905ba2
lrl_parent_span_id: NULL
lrl_span_id: aab83092-7749-4f88-8cb6-a949cc060197
lrl_start_time: 1571642065262
lrl_end_time: 1571642065286
lrl_http_status: 200
lrl_request_body:
lrl_request_headers: {"server-region":"JiNan","host":"localhost:8080","user-agent":"curl/7.64.1","accept":"*/*"}
lrl_request_ip: 0:0:0:0:0:0:0:1
lrl_request_method: GET
lrl_request_uri: /test
lrl_response_body: 你好:admin
lrl_response_headers: {}
lrl_time_consuming: 24
lrl_create_time: 2019-10-21 15:14:26
lrl_request_params: {"name":"admin"}
lrl_exception_stack: NULL
敲黑板畫(huà)重點(diǎn)
本章我們集成了ApiBoot Logging Admin,將業(yè)務(wù)服務(wù)的每一個(gè)請求日志上報給Logging Admin,通過(guò)數據庫保存請求日志,然后使用其他方法,可以通過(guò)spanId和traceId查看每一項的日志-從屬關(guān)系請求鏈路和每個(gè)請求中消耗時(shí)間最多的跨度可以準確優(yōu)化服務(wù)性能。
代碼示例
如果你喜歡這篇文章文章,請為源碼倉庫點(diǎn)個(gè)Star,謝謝?。?!
本文章示例源碼可以通過(guò)以下方式獲取,目錄為apiboot-report-logs-by-logging-to-admin:
本文由恒宇少年-于啟宇撰寫(xiě),遵循CC4.0BY-SA版權協(xié)議。轉載請注明文章出處。公眾號轉載請聯(lián)系“微信” 查看全部
文章采集api(創(chuàng )建LoggingAdmin項目ApiBootLogging項目依賴(lài)使用創(chuàng )建項目idea)
通過(guò) ApiBoot Logging 可以獲得每個(gè)請求的詳細信息。在分布式部署模式下,一個(gè)請求可能經(jīng)過(guò)多個(gè)服務(wù)。如果每個(gè)服務(wù)獨立保存請求日志信息,我們無(wú)法實(shí)現統一控制。, 并且會(huì )出現日志數據庫和業(yè)務(wù)數據庫不一致的情況(可能會(huì )使用多個(gè)數據源配置)。正是因為這個(gè)問(wèn)題,ApiBoot Logging 提供了Admin的概念。一條日志上報給Admin,由Admin進(jìn)行分析、存儲等操作。
創(chuàng )建日志管理項目
由于A(yíng)piBoot Logging Admin可以匯總各個(gè)業(yè)務(wù)服務(wù)的請求日志(ApiBoot Logging),我們需要將各個(gè)業(yè)務(wù)服務(wù)的日志采集上報給Admin,所以我們應該使用獨立的方式進(jìn)行部署。創(chuàng )建一個(gè)服務(wù),專(zhuān)門(mén)請求日志并保存。
初始化 Logging Admin 項目依賴(lài)項
使用idea創(chuàng )建一個(gè)SpringBoot項目,pom.xml配置文件中的依賴(lài)如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
org.springframework.boot
spring-boot-starter-web
org.minbox.framework
api-boot-starter-logging-admin
mysql
mysql-connector-java
com.zaxxer
HikariCP
org.minbox.framework
api-boot-starter-mybatis-enhance
我們需要將采集收到的請求日志保存到數據庫中,所以需要在項目中添加數據庫驅動(dòng)和數據庫連接池相關(guān)的依賴(lài)。ApiBoot Logging Admin 使用DataSource 通過(guò)ApiBoot MyBatis Enhance 的依賴(lài)來(lái)操作數據。自動(dòng)創(chuàng )建DataSource,擺脫手動(dòng)創(chuàng )建,加入Spring IOC容器。
添加 ApiBoot 統一版本依賴(lài)
1
2
3
4
5
6
7
8
9
10
11
12
org.minbox.framework
api-boot-dependencies
2.1.4.RELEASE
import
pom
最新版本的ApiBoot請訪(fǎng)問(wèn)::api-boot-dependencies查詢(xún)。
啟用日志管理
添加ApiBoot Logging Admin依賴(lài)后,無(wú)法完全使用Admin功能。我們需要通過(guò)@EnableLoggingAdmin 注釋來(lái)啟用它。這個(gè)注解會(huì )自動(dòng)將Logging Admin中需要的一些類(lèi)注冊到Spring IOC,并在入口類(lèi)中添加注解如下:
1
2
3
4
5
6
7
8
9
10
11
12
/**
* ApiBoot Logging Admin入口類(lèi)
*/
@SpringBootApplication
@EnableLoggingAdmin
public class ApibootReportLogsByLoggingToAdminApplication {
public static void main(String[] args) {
SpringApplication.run(ApibootReportLogsByLoggingToAdminApplication.class, args);
}
}
配置日志數據源
application.yml配置文件中的數據源配置如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
# 服務(wù)名稱(chēng)
spring:
application:
name: apiboot-report-logs-by-logging-to-admin
# 數據源相關(guān)配置
datasource:
driver-class-name: com.mysql.cj.jdbc.Driver
url: jdbc:mysql://localhost:3306/test
username: root
password: 123456
type: com.zaxxer.hikari.HikariDataSource
# 服務(wù)端口號
server:
port: 8081
控制臺打印并報告日志
ApiBoot Logging Admin可以通過(guò)配置文件控制是否在控制臺打印來(lái)自采集的請求日志信息,并在application.yml配置文件中添加如下內容:
1
2
3
4
5
6
7
api:
boot:
logging:
# Logging Admin相關(guān)配置
admin:
# 控制臺顯示采集的日志信息
show-console-report-log: true
注意:這不應與 ApiBoot Logging 提供的 api.boot.logging.show-console-log 配置混淆。
美化控制臺打印的報告日志
1
2
3
4
5
6
7
api:
boot:
logging:
# Logging Admin相關(guān)配置
admin:
# 控制臺輸出時(shí)美化采集到的日志
format-console-log-json: true
注意:不要與這里的 api.boot.logging.format-console-log-json 配置混淆。
初始化日志表結構
ApiBoot Logging Admin 使用固定的表結構來(lái)存儲請求日志和服務(wù)信息。建表語(yǔ)句如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
SET NAMES utf8mb4 ;
--
-- Table structure for table `logging_request_logs`
--
CREATE TABLE `logging_request_logs` (
`lrl_id` varchar(36) COLLATE utf8mb4_general_ci NOT NULL COMMENT '主鍵,UUID',
`lrl_service_detail_id` varchar(36) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '服務(wù)詳情編號,關(guān)聯(lián)logging_service_details主鍵',
`lrl_trace_id` varchar(36) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '鏈路ID',
`lrl_parent_span_id` varchar(36) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '上級跨度ID',
`lrl_span_id` varchar(36) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '跨度ID',
`lrl_start_time` mediumtext COLLATE utf8mb4_general_ci COMMENT '請求開(kāi)始時(shí)間',
`lrl_end_time` mediumtext COLLATE utf8mb4_general_ci COMMENT '請求結束時(shí)間',
`lrl_http_status` int(11) DEFAULT NULL COMMENT '請求響應狀態(tài)碼',
`lrl_request_body` longtext COLLATE utf8mb4_general_ci COMMENT '請求主體內容',
`lrl_request_headers` text COLLATE utf8mb4_general_ci COMMENT '請求頭信息',
`lrl_request_ip` varchar(30) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '發(fā)起請求客戶(hù)端的IP地址',
`lrl_request_method` varchar(10) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '請求方式',
`lrl_request_uri` varchar(200) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '請求路徑',
`lrl_response_body` longtext COLLATE utf8mb4_general_ci COMMENT '響應內容',
`lrl_response_headers` text COLLATE utf8mb4_general_ci COMMENT '響應頭信息',
`lrl_time_consuming` int(11) DEFAULT NULL COMMENT '請求耗時(shí)',
`lrl_create_time` timestamp NULL DEFAULT CURRENT_TIMESTAMP COMMENT '日志保存時(shí)間',
`lrl_request_params` text COLLATE utf8mb4_general_ci,
`lrl_exception_stack` text COLLATE utf8mb4_general_ci,
PRIMARY KEY (`lrl_id`),
KEY `logging_request_logs_LRL_SERVICE_DETAIL_ID_index` (`lrl_service_detail_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_general_ci COMMENT='請求日志信息表';
--
-- Table structure for table `logging_service_details`
--
CREATE TABLE `logging_service_details` (
`lsd_id` varchar(36) COLLATE utf8mb4_general_ci NOT NULL,
`lsd_service_id` varchar(200) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '上報服務(wù)的ID,對應spring.application.name配置值',
`lsd_service_ip` varchar(50) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '上報服務(wù)的IP地址',
`lsd_service_port` int(11) DEFAULT NULL COMMENT '上報服務(wù)的端口號',
`lsd_last_report_time` timestamp NULL DEFAULT NULL COMMENT '最后一次上報時(shí)間,每次上報更新',
`lsd_create_time` timestamp NULL DEFAULT CURRENT_TIMESTAMP COMMENT '首次上報時(shí)創(chuàng )建時(shí)間',
PRIMARY KEY (`lsd_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_general_ci COMMENT='上報日志的客戶(hù)端服務(wù)詳情';
到目前為止,ApiBoot Logging Admin 已經(jīng)準備好了。接下來(lái),我們需要修改業(yè)務(wù)服務(wù),將請求日志上報給 Logging Admin。
向指定的日志管理員報告日志
我們將修改使用ApiBoot Logging統一管理請求日志文章的源碼,并將Logging Admin的地址添加到application.yml中,如下圖:
1
2
3
4
5
6
7
api:
boot:
# ApiBoot Logging 日志組件配置
logging:
# 配置Logging Admin地址
admin:
server-address: 127.0.0.1:8081
api.boot.logging.admin-service-address 的配置格式為:Ip:Port,我們只需要修改這一處,其他的所有任務(wù)內部交給ApiBoot Logging。
測試
我們以Application的形式啟動(dòng)ApiBoot Logging Admin和業(yè)務(wù)服務(wù)。
使用 curl 訪(fǎng)問(wèn)測試地址如下:
1
2
~ curl http://localhost:8080/test\?name\=admin
你好:admin
我們檢查 ApiBoot Logging 管理控制臺日志如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
Receiving Service: 【apiboot-unified-manage-request-logs -> 127.0.0.1】, Request Log Report,Logging Content:[
{
"endTime":1571641723779,
"httpStatus":200,
"requestBody":"",
"requestHeaders":{
"server-region":"JiNan",
"host":"localhost:8080",
"user-agent":"curl/7.64.1",
"accept":"*/*"
},
"requestIp":"0:0:0:0:0:0:0:1",
"requestMethod":"GET",
"requestParam":"{\"name\":\"admin\"}",
"requestUri":"/test",
"responseBody":"你好:admin",
"responseHeaders":{},
"serviceId":"apiboot-unified-manage-request-logs",
"serviceIp":"127.0.0.1",
"servicePort":"8080",
"spanId":"95a73ca0-831b-45df-aa43-2b5887e8d98d",
"startTime":1571641723776,
"timeConsuming":3,
"traceId":"25a7de96-b3dd-48e5-9854-1a8069a4a681"
}
]
我們已經(jīng)看到Logging Admin控制臺打印的報告請求日志,并不確定這個(gè)請求的日志是否已經(jīng)保存到數據庫中。接下來(lái)我使用命令行查看數據庫的日志信息。
查看 logging_service_details 表中的數據
1
2
3
4
5
6
7
8
mysql> select * from logging_service_details\G;
*************************** 1. row ***************************
lsd_id: b069366a-25dc-41ec-8f09-242d81755cd0
lsd_service_id: apiboot-unified-manage-request-logs
lsd_service_ip: 10.180.98.112
lsd_service_port: 8080
lsd_last_report_time: 2019-10-21 02:14:26
lsd_create_time: 2019-10-21 15:14:26
logging_service_details 存儲了每個(gè)上報請求日志的業(yè)務(wù)服務(wù)的基本信息。每個(gè)服務(wù)的基本信息都會(huì )緩存在Logging Admin內存中,方便獲取service_id用于存儲日志。唯一性根據ip+port+service_id確定,同一個(gè)service只保存一次。
查看 logging_request_logs 表中的數據
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
mysql> select * from logging_request_logs\G;
*************************** 1. row ***************************
lrl_id: c42761f6-b072-4744-8a17-d8e6097b85de
lrl_service_detail_id: b069366a-25dc-41ec-8f09-242d81755cd0
lrl_trace_id: 055329a0-cfc1-4606-baf0-4fb0cc905ba2
lrl_parent_span_id: NULL
lrl_span_id: aab83092-7749-4f88-8cb6-a949cc060197
lrl_start_time: 1571642065262
lrl_end_time: 1571642065286
lrl_http_status: 200
lrl_request_body:
lrl_request_headers: {"server-region":"JiNan","host":"localhost:8080","user-agent":"curl/7.64.1","accept":"*/*"}
lrl_request_ip: 0:0:0:0:0:0:0:1
lrl_request_method: GET
lrl_request_uri: /test
lrl_response_body: 你好:admin
lrl_response_headers: {}
lrl_time_consuming: 24
lrl_create_time: 2019-10-21 15:14:26
lrl_request_params: {"name":"admin"}
lrl_exception_stack: NULL
敲黑板畫(huà)重點(diǎn)
本章我們集成了ApiBoot Logging Admin,將業(yè)務(wù)服務(wù)的每一個(gè)請求日志上報給Logging Admin,通過(guò)數據庫保存請求日志,然后使用其他方法,可以通過(guò)spanId和traceId查看每一項的日志-從屬關(guān)系請求鏈路和每個(gè)請求中消耗時(shí)間最多的跨度可以準確優(yōu)化服務(wù)性能。
代碼示例
如果你喜歡這篇文章文章,請為源碼倉庫點(diǎn)個(gè)Star,謝謝?。?!
本文章示例源碼可以通過(guò)以下方式獲取,目錄為apiboot-report-logs-by-logging-to-admin:
本文由恒宇少年-于啟宇撰寫(xiě),遵循CC4.0BY-SA版權協(xié)議。轉載請注明文章出處。公眾號轉載請聯(lián)系“微信”
文章采集api(基于A(yíng)PI的微博信息采集系統設計與實(shí)現(組圖))
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 141 次瀏覽 ? 2021-11-09 19:02
基于A(yíng)PI的微博信息采集系統設計與實(shí)現小結:微博已經(jīng)成為網(wǎng)絡(luò )信息的重要來(lái)源。本文分析了微博信息采集的相關(guān)方法和技術(shù),提出了基于A(yíng)PI的信息采集方法,進(jìn)而設計了一個(gè)能夠采集相關(guān)信息的信息采集系統在新浪微博上。實(shí)驗測試表明,信息采集系統可以快速有效地采集新浪微博信息。關(guān)鍵詞:新浪微博;微博界面;資料采集; C#語(yǔ)言中文圖書(shū)館分類(lèi)號:TP315 文檔識別碼:A 文章 編號:1009-3044(2013)17-4005-04 微博[1],微博的簡(jiǎn)稱(chēng),是一個(gè)信息共享平臺, 基于用戶(hù)關(guān)系的傳播和獲取。用戶(hù)可以使用140字的WEB、WAP和各種客戶(hù)端組件的個(gè)人社區左右文字更新信息,實(shí)現即時(shí)分享。中國互聯(lián)網(wǎng)絡(luò )信息中心《第31次中國互聯(lián)網(wǎng)絡(luò )發(fā)展狀況統計報告》顯示,截至2012年12月末,截至2012年12月末,中國微博用戶(hù)數為3.09億,比2011年末增加5873萬(wàn),網(wǎng)民中微博用戶(hù)占比比上年末提高6個(gè)百分點(diǎn),達到54.7%[2]。隨著(zhù)微博網(wǎng)絡(luò )的影響力的迅速擴張,政府部門(mén)、學(xué)校、知名企業(yè)、公眾人物都開(kāi)通了微博。在公眾的參與下,微博已經(jīng)成為一個(gè)強大的虛擬社會(huì )。微博已成為網(wǎng)絡(luò )信息的重要來(lái)源。如何快速有效地使用采集微博信息已成為一項具有重要應用價(jià)值的研究。
1 研究方法和技術(shù)路線(xiàn) 國內微博用戶(hù)以新浪微博為主,本文擬以新浪微博為例,設計研究方法和技術(shù)路線(xiàn)。通過(guò)對國內外科技文獻和實(shí)際應用案例的分析,目前新浪微博的信息采集方法主要分為兩類(lèi):一類(lèi)是“模擬登錄”、“網(wǎng)絡(luò )爬蟲(chóng)”[3] ],以及“網(wǎng)頁(yè)內容”“分析”[4]信息采集三種技術(shù)相結合的方法。二是基于新浪微博開(kāi)放平臺的API文檔。開(kāi)發(fā)者自己編寫(xiě)程序調用微博的API進(jìn)行微博信息采集。對于第一種方法,難度比較高,研究技術(shù)復雜,尤其是“模擬登錄”這一步。需要隨時(shí)跟蹤新浪微博的登錄加密算法。新浪微博登錄加密算法的變化會(huì )導致“網(wǎng)絡(luò )爬蟲(chóng)”?!安杉氖∽罱K導致微博信息缺失。同時(shí),“網(wǎng)絡(luò )爬蟲(chóng)”采集到達的網(wǎng)頁(yè)需要進(jìn)行“頁(yè)面內容分析”,還有與基于A(yíng)PI的數據采集相比,效率和性能差距明顯?;谝陨弦蛩?,本文擬采用第二種方法進(jìn)行研究?;谛吕宋⒉┑奈⒉┬畔⒉杉到y開(kāi)放平臺API文檔主要采用兩種研究方法:文獻分析法和實(shí)驗測試法。文檔分析方法:參考新浪微博開(kāi)放平臺的API文檔,將這些API描述文檔寫(xiě)成單獨的接口文件。實(shí)驗測試方法:在VS.NET2010平臺[5]上,使用C/S模式開(kāi)發(fā)程序調用接口類(lèi),采集微博返回的JOSN數據流,實(shí)現相關(guān)測試開(kāi)發(fā)數據 采集 。
根據以上兩種研究方法,設計本研究的技術(shù)路線(xiàn):一是申請新浪微博開(kāi)放平臺App Key和App Secret。審核通過(guò)后,閱讀理解API文檔,將API文檔描述寫(xiě)入API接口代碼類(lèi)(c#語(yǔ)言),然后進(jìn)行OAuth2.0認證測試。認證通過(guò)后,可以獲得Access Token,從而有權限調用API的各種功能接口,然后通過(guò)POST或GET調用API接口。最后返回JOSN數據流,最后解析這個(gè)數據流,保存為本地文本文件或數據庫。詳細技術(shù)路線(xiàn)如圖1所示。 2研究?jì)热菰O計微博信息采集系統功能結構如圖2所示。系統分為七個(gè)部分,分別是:微博界面認證、微博用戶(hù)登錄、登錄用戶(hù)發(fā)微博、采集當前登錄用戶(hù)信息、采集其他用戶(hù)信息、采集其他用戶(hù)微博、采集學(xué)校信息、采集微博信息內容。1) 微博接口認證:訪(fǎng)問(wèn)大部分新浪微博API,如發(fā)布微博、獲取私信等,都需要用戶(hù)身份認證。目前新浪微博開(kāi)放平臺上的用戶(hù)身份認證包括OAuth2.0和Basic Auth(僅用于應用開(kāi)發(fā)者調試接口),新版接口也僅支持這兩種方式[6] . 所以,系統設計開(kāi)發(fā)的第一步是做微博界面鑒權功能。2) 微博用戶(hù)登錄:通過(guò)認證后,所有在新浪微博上注冊的用戶(hù)都可以通過(guò)本系統登錄并發(fā)布微博。
3)采集登錄用戶(hù)信息:用戶(hù)登錄后,可以通過(guò)本系統查看自己的賬號信息、自己的微博信息以及關(guān)注者的微博信息。4)采集 其他用戶(hù)信息:這個(gè)功能主要是輸入微博用戶(hù)的昵稱(chēng),可以采集獲取昵稱(chēng)用戶(hù)的賬號信息,比如他有多少粉絲有,他關(guān)注哪些人,有多少人關(guān)注他,這個(gè)信息在微博采集中也是很有價(jià)值的。5)采集 其他用戶(hù)的微博:此功能也使用微博用戶(hù)的昵稱(chēng)來(lái)采集更改用戶(hù)發(fā)送的所有微博信息。這個(gè)功能的目的是為了以后擴展為了自動(dòng)采集 每隔一段時(shí)間將目標中多個(gè)微博用戶(hù)的微博信息設置到本地進(jìn)行數據內容分析。6)采集學(xué)校信息:該功能通過(guò)學(xué)校名稱(chēng)的模糊查詢(xún),獲取學(xué)校微博賬號ID、學(xué)校所在地區、學(xué)校類(lèi)型信息。這是采集學(xué)校在微博上的影響力的基本數據。7)采集微博信息內容:您可以點(diǎn)擊微博內容關(guān)鍵詞查詢(xún),采集這條微博信息收錄本關(guān)鍵詞。但由于本次API接口調用需要高級權限,在系統完全發(fā)布前和新浪微博開(kāi)放平臺審核通過(guò)前,無(wú)法直接測試使用。3 主要功能的實(shí)現3. 1 微博界面認證功能 大部分新浪微博API訪(fǎng)問(wèn)都需要用戶(hù)認證。本系統采用OAuth2.0設計微博界面認證功能,新浪微博認證流程如圖3所示。
4 總結本文主要對微博信息采集的方法和技術(shù)進(jìn)行了一系列的研究,然后設計開(kāi)發(fā)了一個(gè)基于A(yíng)PI的新浪微博信息采集系統,實(shí)現了微博的基礎信息采集,在一定程度上解決了微博信息采集的自動(dòng)化和采集結果數據格式的標準化。但是,目前本系統的微博信息采集方法只能輸入單個(gè)“關(guān)鍵詞”采集進(jìn)行唯一匹配,沒(méi)有批量多個(gè)“搜索詞”采集,沒(méi)有“話(huà)題型”微博信息采集功能,所以下一步的研究工作就是如何設計話(huà)題模型來(lái)優(yōu)化系統。參考:[1]文銳.微博知乎[J].軟件工程師, 2009 (12): 19-20. [2] 中國互聯(lián)網(wǎng)絡(luò )信息中心. 第31次中國互聯(lián)網(wǎng)絡(luò )發(fā)展統計報告[EB/OL]. (2013-01-1 5).http: ///hlwfzyj/hlwxzbg/hlwtjbg/201301/38508.htm. [3] 羅剛, 王振東. 自己手寫(xiě)的網(wǎng)絡(luò )爬蟲(chóng)[M]. 北京:清華大學(xué)出版社, 2010. [4] 于滿(mǎn)全, 陳鐵瑞, 徐洪波. 基于塊的網(wǎng)頁(yè)信息解析器的研究與設計[J ]. 計算機應用, 2005, 25 (4):974-97 6. [5] Nick Randolph, David Gardner, Chris Anderson, et al.Professional Visual Studio 2010[M].Wrox, 2010. [6] 新浪微博開(kāi)放平臺.授權機制說(shuō)明[EB] /OL]. (2013-01-19). 第31次中國互聯(lián)網(wǎng)發(fā)展統計報告[EB/OL]。(2013-01-15).http: ///hlwfzyj/hlwxzbg/hlwtjbg/201301/38508.htm. [3] 羅剛, 王振東. 自己手寫(xiě)網(wǎng)頁(yè)爬蟲(chóng)[M] . 北京: 清華大學(xué)出版社, 2010. [4] 于滿(mǎn)全, 陳鐵瑞, 徐洪波. 基于塊的網(wǎng)頁(yè)信息解析器的研究與設計[J]. 計算機應用, 2005, 25 (4):974-976. [5] Nick Randolph, David Gardner, Chris Anderson, et al.Professional Visual Studio 2010[M].Wrox, 2010. [6] 新浪微博開(kāi)放平臺。授權機制說(shuō)明[EB/OL]. (2013-01-19). 第31次中國互聯(lián)網(wǎng)發(fā)展統計報告[EB/OL]。(2013-01-15).http: ///hlwfzyj/hlwxzbg/hlwtjbg/201301/38508.htm. [3] 羅剛, 王振東. 自己手寫(xiě)網(wǎng)頁(yè)爬蟲(chóng)[M] . 北京: 清華大學(xué)出版社, 2010. [4] 于滿(mǎn)全, 陳鐵瑞, 徐洪波. 基于塊的網(wǎng)頁(yè)信息解析器的研究與設計[J]. 計算機應用, 2005, 25 (4):974-976. [5] Nick Randolph, David Gardner, Chris Anderson, et al.Professional Visual Studio 2010[M].Wrox, 2010. [6] 新浪微博開(kāi)放平臺。授權機制說(shuō)明[EB/OL]. (2013-01-19). 王振東。自己手寫(xiě)的網(wǎng)絡(luò )爬蟲(chóng)[M]. 北京:清華大學(xué)出版社,2010. [4] 于曼全、陳鐵瑞、徐洪波?;趬K的網(wǎng)頁(yè)信息解析器的研究與設計[J]. 計算機應用,2005, 25 (4):974-976. [5] Nick Randolph, David Gardner, Chris Anderson, et al.Professional Visual Studio 2010[M].Wrox, 2010. [6] 新浪微博開(kāi)放平臺. 授權機制解讀[EB/OL]. (2013-01-19). 王振東。自己手寫(xiě)的網(wǎng)絡(luò )爬蟲(chóng)[M]. 北京:清華大學(xué)出版社,2010. [4] 于曼泉、陳鐵瑞、徐洪波?;趬K的網(wǎng)頁(yè)信息解析器的研究與設計[J]. 計算機應用,2005, 25 (4):974-976. [5] Nick Randolph, David Gardner, Chris Anderson, et al.Professional Visual Studio 2010[M].Wrox, 2010. [6] 新浪微博開(kāi)放平臺. 授權機制解讀[EB/OL]. (2013-01-19). Professional Visual Studio 2010[M].Wrox,2010. [6] 新浪微博開(kāi)放平臺。授權機制說(shuō)明[EB/OL]。(2013-01-19). Professional Visual Studio 2010[M].Wrox,2010. [6] 新浪微博開(kāi)放平臺。授權機制說(shuō)明[EB/OL]。(2013-01-19). 查看全部
文章采集api(基于A(yíng)PI的微博信息采集系統設計與實(shí)現(組圖))
基于A(yíng)PI的微博信息采集系統設計與實(shí)現小結:微博已經(jīng)成為網(wǎng)絡(luò )信息的重要來(lái)源。本文分析了微博信息采集的相關(guān)方法和技術(shù),提出了基于A(yíng)PI的信息采集方法,進(jìn)而設計了一個(gè)能夠采集相關(guān)信息的信息采集系統在新浪微博上。實(shí)驗測試表明,信息采集系統可以快速有效地采集新浪微博信息。關(guān)鍵詞:新浪微博;微博界面;資料采集; C#語(yǔ)言中文圖書(shū)館分類(lèi)號:TP315 文檔識別碼:A 文章 編號:1009-3044(2013)17-4005-04 微博[1],微博的簡(jiǎn)稱(chēng),是一個(gè)信息共享平臺, 基于用戶(hù)關(guān)系的傳播和獲取。用戶(hù)可以使用140字的WEB、WAP和各種客戶(hù)端組件的個(gè)人社區左右文字更新信息,實(shí)現即時(shí)分享。中國互聯(lián)網(wǎng)絡(luò )信息中心《第31次中國互聯(lián)網(wǎng)絡(luò )發(fā)展狀況統計報告》顯示,截至2012年12月末,截至2012年12月末,中國微博用戶(hù)數為3.09億,比2011年末增加5873萬(wàn),網(wǎng)民中微博用戶(hù)占比比上年末提高6個(gè)百分點(diǎn),達到54.7%[2]。隨著(zhù)微博網(wǎng)絡(luò )的影響力的迅速擴張,政府部門(mén)、學(xué)校、知名企業(yè)、公眾人物都開(kāi)通了微博。在公眾的參與下,微博已經(jīng)成為一個(gè)強大的虛擬社會(huì )。微博已成為網(wǎng)絡(luò )信息的重要來(lái)源。如何快速有效地使用采集微博信息已成為一項具有重要應用價(jià)值的研究。
1 研究方法和技術(shù)路線(xiàn) 國內微博用戶(hù)以新浪微博為主,本文擬以新浪微博為例,設計研究方法和技術(shù)路線(xiàn)。通過(guò)對國內外科技文獻和實(shí)際應用案例的分析,目前新浪微博的信息采集方法主要分為兩類(lèi):一類(lèi)是“模擬登錄”、“網(wǎng)絡(luò )爬蟲(chóng)”[3] ],以及“網(wǎng)頁(yè)內容”“分析”[4]信息采集三種技術(shù)相結合的方法。二是基于新浪微博開(kāi)放平臺的API文檔。開(kāi)發(fā)者自己編寫(xiě)程序調用微博的API進(jìn)行微博信息采集。對于第一種方法,難度比較高,研究技術(shù)復雜,尤其是“模擬登錄”這一步。需要隨時(shí)跟蹤新浪微博的登錄加密算法。新浪微博登錄加密算法的變化會(huì )導致“網(wǎng)絡(luò )爬蟲(chóng)”?!安杉氖∽罱K導致微博信息缺失。同時(shí),“網(wǎng)絡(luò )爬蟲(chóng)”采集到達的網(wǎng)頁(yè)需要進(jìn)行“頁(yè)面內容分析”,還有與基于A(yíng)PI的數據采集相比,效率和性能差距明顯?;谝陨弦蛩?,本文擬采用第二種方法進(jìn)行研究?;谛吕宋⒉┑奈⒉┬畔⒉杉到y開(kāi)放平臺API文檔主要采用兩種研究方法:文獻分析法和實(shí)驗測試法。文檔分析方法:參考新浪微博開(kāi)放平臺的API文檔,將這些API描述文檔寫(xiě)成單獨的接口文件。實(shí)驗測試方法:在VS.NET2010平臺[5]上,使用C/S模式開(kāi)發(fā)程序調用接口類(lèi),采集微博返回的JOSN數據流,實(shí)現相關(guān)測試開(kāi)發(fā)數據 采集 。
根據以上兩種研究方法,設計本研究的技術(shù)路線(xiàn):一是申請新浪微博開(kāi)放平臺App Key和App Secret。審核通過(guò)后,閱讀理解API文檔,將API文檔描述寫(xiě)入API接口代碼類(lèi)(c#語(yǔ)言),然后進(jìn)行OAuth2.0認證測試。認證通過(guò)后,可以獲得Access Token,從而有權限調用API的各種功能接口,然后通過(guò)POST或GET調用API接口。最后返回JOSN數據流,最后解析這個(gè)數據流,保存為本地文本文件或數據庫。詳細技術(shù)路線(xiàn)如圖1所示。 2研究?jì)热菰O計微博信息采集系統功能結構如圖2所示。系統分為七個(gè)部分,分別是:微博界面認證、微博用戶(hù)登錄、登錄用戶(hù)發(fā)微博、采集當前登錄用戶(hù)信息、采集其他用戶(hù)信息、采集其他用戶(hù)微博、采集學(xué)校信息、采集微博信息內容。1) 微博接口認證:訪(fǎng)問(wèn)大部分新浪微博API,如發(fā)布微博、獲取私信等,都需要用戶(hù)身份認證。目前新浪微博開(kāi)放平臺上的用戶(hù)身份認證包括OAuth2.0和Basic Auth(僅用于應用開(kāi)發(fā)者調試接口),新版接口也僅支持這兩種方式[6] . 所以,系統設計開(kāi)發(fā)的第一步是做微博界面鑒權功能。2) 微博用戶(hù)登錄:通過(guò)認證后,所有在新浪微博上注冊的用戶(hù)都可以通過(guò)本系統登錄并發(fā)布微博。
3)采集登錄用戶(hù)信息:用戶(hù)登錄后,可以通過(guò)本系統查看自己的賬號信息、自己的微博信息以及關(guān)注者的微博信息。4)采集 其他用戶(hù)信息:這個(gè)功能主要是輸入微博用戶(hù)的昵稱(chēng),可以采集獲取昵稱(chēng)用戶(hù)的賬號信息,比如他有多少粉絲有,他關(guān)注哪些人,有多少人關(guān)注他,這個(gè)信息在微博采集中也是很有價(jià)值的。5)采集 其他用戶(hù)的微博:此功能也使用微博用戶(hù)的昵稱(chēng)來(lái)采集更改用戶(hù)發(fā)送的所有微博信息。這個(gè)功能的目的是為了以后擴展為了自動(dòng)采集 每隔一段時(shí)間將目標中多個(gè)微博用戶(hù)的微博信息設置到本地進(jìn)行數據內容分析。6)采集學(xué)校信息:該功能通過(guò)學(xué)校名稱(chēng)的模糊查詢(xún),獲取學(xué)校微博賬號ID、學(xué)校所在地區、學(xué)校類(lèi)型信息。這是采集學(xué)校在微博上的影響力的基本數據。7)采集微博信息內容:您可以點(diǎn)擊微博內容關(guān)鍵詞查詢(xún),采集這條微博信息收錄本關(guān)鍵詞。但由于本次API接口調用需要高級權限,在系統完全發(fā)布前和新浪微博開(kāi)放平臺審核通過(guò)前,無(wú)法直接測試使用。3 主要功能的實(shí)現3. 1 微博界面認證功能 大部分新浪微博API訪(fǎng)問(wèn)都需要用戶(hù)認證。本系統采用OAuth2.0設計微博界面認證功能,新浪微博認證流程如圖3所示。
4 總結本文主要對微博信息采集的方法和技術(shù)進(jìn)行了一系列的研究,然后設計開(kāi)發(fā)了一個(gè)基于A(yíng)PI的新浪微博信息采集系統,實(shí)現了微博的基礎信息采集,在一定程度上解決了微博信息采集的自動(dòng)化和采集結果數據格式的標準化。但是,目前本系統的微博信息采集方法只能輸入單個(gè)“關(guān)鍵詞”采集進(jìn)行唯一匹配,沒(méi)有批量多個(gè)“搜索詞”采集,沒(méi)有“話(huà)題型”微博信息采集功能,所以下一步的研究工作就是如何設計話(huà)題模型來(lái)優(yōu)化系統。參考:[1]文銳.微博知乎[J].軟件工程師, 2009 (12): 19-20. [2] 中國互聯(lián)網(wǎng)絡(luò )信息中心. 第31次中國互聯(lián)網(wǎng)絡(luò )發(fā)展統計報告[EB/OL]. (2013-01-1 5).http: ///hlwfzyj/hlwxzbg/hlwtjbg/201301/38508.htm. [3] 羅剛, 王振東. 自己手寫(xiě)的網(wǎng)絡(luò )爬蟲(chóng)[M]. 北京:清華大學(xué)出版社, 2010. [4] 于滿(mǎn)全, 陳鐵瑞, 徐洪波. 基于塊的網(wǎng)頁(yè)信息解析器的研究與設計[J ]. 計算機應用, 2005, 25 (4):974-97 6. [5] Nick Randolph, David Gardner, Chris Anderson, et al.Professional Visual Studio 2010[M].Wrox, 2010. [6] 新浪微博開(kāi)放平臺.授權機制說(shuō)明[EB] /OL]. (2013-01-19). 第31次中國互聯(lián)網(wǎng)發(fā)展統計報告[EB/OL]。(2013-01-15).http: ///hlwfzyj/hlwxzbg/hlwtjbg/201301/38508.htm. [3] 羅剛, 王振東. 自己手寫(xiě)網(wǎng)頁(yè)爬蟲(chóng)[M] . 北京: 清華大學(xué)出版社, 2010. [4] 于滿(mǎn)全, 陳鐵瑞, 徐洪波. 基于塊的網(wǎng)頁(yè)信息解析器的研究與設計[J]. 計算機應用, 2005, 25 (4):974-976. [5] Nick Randolph, David Gardner, Chris Anderson, et al.Professional Visual Studio 2010[M].Wrox, 2010. [6] 新浪微博開(kāi)放平臺。授權機制說(shuō)明[EB/OL]. (2013-01-19). 第31次中國互聯(lián)網(wǎng)發(fā)展統計報告[EB/OL]。(2013-01-15).http: ///hlwfzyj/hlwxzbg/hlwtjbg/201301/38508.htm. [3] 羅剛, 王振東. 自己手寫(xiě)網(wǎng)頁(yè)爬蟲(chóng)[M] . 北京: 清華大學(xué)出版社, 2010. [4] 于滿(mǎn)全, 陳鐵瑞, 徐洪波. 基于塊的網(wǎng)頁(yè)信息解析器的研究與設計[J]. 計算機應用, 2005, 25 (4):974-976. [5] Nick Randolph, David Gardner, Chris Anderson, et al.Professional Visual Studio 2010[M].Wrox, 2010. [6] 新浪微博開(kāi)放平臺。授權機制說(shuō)明[EB/OL]. (2013-01-19). 王振東。自己手寫(xiě)的網(wǎng)絡(luò )爬蟲(chóng)[M]. 北京:清華大學(xué)出版社,2010. [4] 于曼全、陳鐵瑞、徐洪波?;趬K的網(wǎng)頁(yè)信息解析器的研究與設計[J]. 計算機應用,2005, 25 (4):974-976. [5] Nick Randolph, David Gardner, Chris Anderson, et al.Professional Visual Studio 2010[M].Wrox, 2010. [6] 新浪微博開(kāi)放平臺. 授權機制解讀[EB/OL]. (2013-01-19). 王振東。自己手寫(xiě)的網(wǎng)絡(luò )爬蟲(chóng)[M]. 北京:清華大學(xué)出版社,2010. [4] 于曼泉、陳鐵瑞、徐洪波?;趬K的網(wǎng)頁(yè)信息解析器的研究與設計[J]. 計算機應用,2005, 25 (4):974-976. [5] Nick Randolph, David Gardner, Chris Anderson, et al.Professional Visual Studio 2010[M].Wrox, 2010. [6] 新浪微博開(kāi)放平臺. 授權機制解讀[EB/OL]. (2013-01-19). Professional Visual Studio 2010[M].Wrox,2010. [6] 新浪微博開(kāi)放平臺。授權機制說(shuō)明[EB/OL]。(2013-01-19). Professional Visual Studio 2010[M].Wrox,2010. [6] 新浪微博開(kāi)放平臺。授權機制說(shuō)明[EB/OL]。(2013-01-19).
文章采集api(完美者()網(wǎng)站對功能性板塊進(jìn)行擴充,以期采集器智能分析)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 130 次瀏覽 ? 2021-11-09 02:09
Perfect()網(wǎng)站基于軟件下載,網(wǎng)站修訂版擴展了功能部分,以解決用戶(hù)在使用軟件過(guò)程中遇到的所有問(wèn)題。網(wǎng)站 新增“軟件百科”、“甜蜜小貼士”等新頻道,在軟件使用全周期更好地為用戶(hù)提供更專(zhuān)業(yè)的服務(wù)。
優(yōu)采云采集器是一款高效的網(wǎng)頁(yè)信息采集軟件,一鍵采集網(wǎng)頁(yè)數據,無(wú)論是靜態(tài)網(wǎng)頁(yè)還是動(dòng)態(tài)網(wǎng)頁(yè)都可以采集,支持99%的網(wǎng)站,內置大量網(wǎng)站采集模板,覆蓋多個(gè)行業(yè),提取成功后可另存為Excel表格,api數據庫文件。
優(yōu)采云采集器特點(diǎn)
一鍵提取數據
簡(jiǎn)單易學(xué),通過(guò)可視化界面,鼠標點(diǎn)擊即可采集數據
快速高效
內置一套高速瀏覽器內核,加上HTTP引擎模式,實(shí)現快速采集數據
適用于各種網(wǎng)站
能夠采集99%的互聯(lián)網(wǎng)網(wǎng)站,包括單頁(yè)應用Ajax加載等動(dòng)態(tài)類(lèi)型網(wǎng)站
優(yōu)采云采集器功能
向導模式
簡(jiǎn)單易用,輕松通過(guò)鼠標點(diǎn)擊自動(dòng)生成
腳本定期運行
可按計劃定時(shí)運行,無(wú)需人工
原裝高速核心
自主研發(fā)的瀏覽器內核速度快,遠超對手
智能識別
可智能識別網(wǎng)頁(yè)中的列表和表單結構(多選框下拉列表等)
廣告攔截
自定義廣告攔截模塊,兼容AdblockPlus語(yǔ)法,可添加自定義規則
各種數據導出
支持 Txt、Excel、MySQL、SQLServer、SQlite、Access、網(wǎng)站 等。
優(yōu)采云采集器安裝
1.到本站下載安裝優(yōu)采云采集器,打開(kāi)安裝程序,點(diǎn)擊下一步繼續安裝
2.點(diǎn)擊瀏覽選擇安裝位置
3.等一下
優(yōu)采云采集器使用方法
第一步:輸入采集 URL
打開(kāi)軟件,新建一個(gè)任務(wù),輸入需要采集的網(wǎng)站地址。
第二步:智能分析,全程自動(dòng)提取數據
進(jìn)入第二步后,優(yōu)采云采集器自動(dòng)對網(wǎng)頁(yè)進(jìn)行智能分析,從中提取列表數據。
第三步:將數據導出到表、數據庫、網(wǎng)站等。
運行任務(wù),將采集中的數據導出到Csv、Excel及各種數據庫,支持api導出。
“技巧與妙計”欄目是全網(wǎng)軟件使用技巧的集合或對軟件使用過(guò)程中各種問(wèn)題的解答。文章。專(zhuān)欄成立伊始,小編歡迎各位軟件大神朋友踴躍投稿。該平臺分享每個(gè)人的獨特技能。
本站文章素材來(lái)自網(wǎng)絡(luò ),文章作者姓名大部分缺失。為了讓用戶(hù)更容易閱讀和使用,它們已被重新格式化并根據需要進(jìn)行了部分調整。本站收錄文章僅用于幫助用戶(hù)解決實(shí)際問(wèn)題。如有版權問(wèn)題,請聯(lián)系編輯修改或刪除,謝謝合作。 查看全部
文章采集api(完美者()網(wǎng)站對功能性板塊進(jìn)行擴充,以期采集器智能分析)
Perfect()網(wǎng)站基于軟件下載,網(wǎng)站修訂版擴展了功能部分,以解決用戶(hù)在使用軟件過(guò)程中遇到的所有問(wèn)題。網(wǎng)站 新增“軟件百科”、“甜蜜小貼士”等新頻道,在軟件使用全周期更好地為用戶(hù)提供更專(zhuān)業(yè)的服務(wù)。

優(yōu)采云采集器是一款高效的網(wǎng)頁(yè)信息采集軟件,一鍵采集網(wǎng)頁(yè)數據,無(wú)論是靜態(tài)網(wǎng)頁(yè)還是動(dòng)態(tài)網(wǎng)頁(yè)都可以采集,支持99%的網(wǎng)站,內置大量網(wǎng)站采集模板,覆蓋多個(gè)行業(yè),提取成功后可另存為Excel表格,api數據庫文件。
優(yōu)采云采集器特點(diǎn)
一鍵提取數據
簡(jiǎn)單易學(xué),通過(guò)可視化界面,鼠標點(diǎn)擊即可采集數據
快速高效
內置一套高速瀏覽器內核,加上HTTP引擎模式,實(shí)現快速采集數據
適用于各種網(wǎng)站
能夠采集99%的互聯(lián)網(wǎng)網(wǎng)站,包括單頁(yè)應用Ajax加載等動(dòng)態(tài)類(lèi)型網(wǎng)站
優(yōu)采云采集器功能
向導模式
簡(jiǎn)單易用,輕松通過(guò)鼠標點(diǎn)擊自動(dòng)生成
腳本定期運行
可按計劃定時(shí)運行,無(wú)需人工
原裝高速核心
自主研發(fā)的瀏覽器內核速度快,遠超對手
智能識別
可智能識別網(wǎng)頁(yè)中的列表和表單結構(多選框下拉列表等)
廣告攔截
自定義廣告攔截模塊,兼容AdblockPlus語(yǔ)法,可添加自定義規則
各種數據導出
支持 Txt、Excel、MySQL、SQLServer、SQlite、Access、網(wǎng)站 等。
優(yōu)采云采集器安裝
1.到本站下載安裝優(yōu)采云采集器,打開(kāi)安裝程序,點(diǎn)擊下一步繼續安裝

2.點(diǎn)擊瀏覽選擇安裝位置

3.等一下

優(yōu)采云采集器使用方法
第一步:輸入采集 URL
打開(kāi)軟件,新建一個(gè)任務(wù),輸入需要采集的網(wǎng)站地址。

第二步:智能分析,全程自動(dòng)提取數據
進(jìn)入第二步后,優(yōu)采云采集器自動(dòng)對網(wǎng)頁(yè)進(jìn)行智能分析,從中提取列表數據。

第三步:將數據導出到表、數據庫、網(wǎng)站等。
運行任務(wù),將采集中的數據導出到Csv、Excel及各種數據庫,支持api導出。
“技巧與妙計”欄目是全網(wǎng)軟件使用技巧的集合或對軟件使用過(guò)程中各種問(wèn)題的解答。文章。專(zhuān)欄成立伊始,小編歡迎各位軟件大神朋友踴躍投稿。該平臺分享每個(gè)人的獨特技能。
本站文章素材來(lái)自網(wǎng)絡(luò ),文章作者姓名大部分缺失。為了讓用戶(hù)更容易閱讀和使用,它們已被重新格式化并根據需要進(jìn)行了部分調整。本站收錄文章僅用于幫助用戶(hù)解決實(shí)際問(wèn)題。如有版權問(wèn)題,請聯(lián)系編輯修改或刪除,謝謝合作。
文章采集api(spring使用springcloud架構來(lái)做爬蟲(chóng),歷時(shí)二十多天,終于搞定)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 291 次瀏覽 ? 2021-11-08 10:15
前言
因公司業(yè)務(wù)需要,需要獲取客戶(hù)提供的微信公眾號文章的歷史記錄,并每天更新。顯然,300多個(gè)公眾號無(wú)法每天手動(dòng)檢查,問(wèn)題提交給IT團隊。對于那些喜歡爬蟲(chóng)的人,我絕對想要他。之前做過(guò)搜狗的微信爬蟲(chóng),之后一直在做java web。這個(gè)項目重新點(diǎn)燃了我對爬蟲(chóng)的熱愛(ài)。首次使用spring cloud架構做爬蟲(chóng)。歷時(shí)20多天,終于搞定。接下來(lái)我將通過(guò)一系列文章分享項目經(jīng)驗,并提供源碼供大家指正!
一、系統介紹
本系統是基于Java開(kāi)發(fā)的。只需配置公眾號或微信公眾號,即可定時(shí)或實(shí)時(shí)(包括閱讀、點(diǎn)贊、觀(guān)看)抓拍微信公眾號的文章。
二、系統架構技術(shù)架構
Spring Cloud、SpringBoot、Mybatis-Plus、Nacos、RocketMq、nginx
貯存
Mysql、MongoDB、Redis、Solr
緩存
Redis
演戲
提琴手
三、系統優(yōu)缺點(diǎn) 系統優(yōu)點(diǎn)
1、 配置公眾號后,可以使用Fiddler的JS注入功能和Websocket實(shí)現自動(dòng)爬??;2、系統為分布式架構,高可用;3、RocketMq 消息隊列解決Coupling,可以解決采集由于網(wǎng)絡(luò )抖動(dòng)導致的失敗。3次消費不成功,會(huì )記錄日志到mysql,保證文章的完整性;4、可以添加任意數量的微信ID提高采集的效率,抵抗反攀登限制;5、Redis在24小時(shí)內緩存每個(gè)微信賬號的采集記錄,防止賬號被關(guān)閉;6、Nacos作為配置中心,可以通過(guò)熱配置調整采集的頻率 實(shí)時(shí); 7、將采集接收到的數據存儲在Solr集群中,提高檢索速度;8、 將捕獲返回的記錄存儲到MongoDB進(jìn)行歸檔查看錯誤日志。
系統缺點(diǎn):
1、通過(guò)真實(shí)手機真實(shí)賬號采集留言,如果你需要大量公眾號,需要有多個(gè)微信賬號作為支持(如果當天賬號達到上限,可以爬取微信官方平臺消息,可通過(guò)接口獲?。?;2、 不是發(fā)文就可以抓到的公眾號。采集的時(shí)間由系統設置,消息有一定的滯后性(如果公眾號不多的話(huà),微信信號數量就足夠了。通過(guò)增加采集頻率優(yōu)化)。
四、模塊介紹
由于后面會(huì )添加管理系統和API調用功能,所以提前封裝了一些功能。
common-ws-starter
公共模塊:存儲工具類(lèi)、實(shí)體類(lèi)等公共消息。
redis-ws-starter
Redis 模塊:是
spring-boot-starter-data-redis第二個(gè)包暴露了打包好的Redis工具類(lèi)和Redisson工具類(lèi)。
RocketMQ-WS-啟動(dòng)器
RocketMQ 模塊:是
Rocketmq-spring-boot-starter 的二次封裝提供了消費重試和故障日志記錄功能。
db-ws-starter
mysql數據源模塊:封裝mysql數據源,支持多種數據源,自定義注解實(shí)現數據源動(dòng)態(tài)切換。
sql-wx-蜘蛛
mysql數據庫模塊:提供mysql數據庫操作的所有功能。
電腦-wx-蜘蛛
PC端采集模塊:收錄PC端采集公眾賬號歷史消息相關(guān)功能。
java-wx-蜘蛛
Java提取模塊:收錄Java程序提取文章內容相關(guān)的功能。
移動(dòng)-wx-蜘蛛
模擬器采集模塊:收錄與模擬器或手機采集消息交互量相關(guān)的功能。
五、一般流程圖
六、 在PC端和移動(dòng)端運行截圖
安慰
運行結束
總結
項目試運行中,微信搜狗臨時(shí)鏈接永久鏈接問(wèn)題已在項目開(kāi)發(fā)中解決。希望能幫到被類(lèi)似業(yè)務(wù)困擾的老鐵。如今,做java就像逆流而上。不前進(jìn)就會(huì )后退。我不知道你什么時(shí)候參與。我希望每個(gè)人都有自己的向日葵采集。如果你看到這個(gè),你不把它給一個(gè)采集嗎? 查看全部
文章采集api(spring使用springcloud架構來(lái)做爬蟲(chóng),歷時(shí)二十多天,終于搞定)
前言
因公司業(yè)務(wù)需要,需要獲取客戶(hù)提供的微信公眾號文章的歷史記錄,并每天更新。顯然,300多個(gè)公眾號無(wú)法每天手動(dòng)檢查,問(wèn)題提交給IT團隊。對于那些喜歡爬蟲(chóng)的人,我絕對想要他。之前做過(guò)搜狗的微信爬蟲(chóng),之后一直在做java web。這個(gè)項目重新點(diǎn)燃了我對爬蟲(chóng)的熱愛(ài)。首次使用spring cloud架構做爬蟲(chóng)。歷時(shí)20多天,終于搞定。接下來(lái)我將通過(guò)一系列文章分享項目經(jīng)驗,并提供源碼供大家指正!
一、系統介紹
本系統是基于Java開(kāi)發(fā)的。只需配置公眾號或微信公眾號,即可定時(shí)或實(shí)時(shí)(包括閱讀、點(diǎn)贊、觀(guān)看)抓拍微信公眾號的文章。
二、系統架構技術(shù)架構
Spring Cloud、SpringBoot、Mybatis-Plus、Nacos、RocketMq、nginx
貯存
Mysql、MongoDB、Redis、Solr
緩存
Redis
演戲
提琴手
三、系統優(yōu)缺點(diǎn) 系統優(yōu)點(diǎn)
1、 配置公眾號后,可以使用Fiddler的JS注入功能和Websocket實(shí)現自動(dòng)爬??;2、系統為分布式架構,高可用;3、RocketMq 消息隊列解決Coupling,可以解決采集由于網(wǎng)絡(luò )抖動(dòng)導致的失敗。3次消費不成功,會(huì )記錄日志到mysql,保證文章的完整性;4、可以添加任意數量的微信ID提高采集的效率,抵抗反攀登限制;5、Redis在24小時(shí)內緩存每個(gè)微信賬號的采集記錄,防止賬號被關(guān)閉;6、Nacos作為配置中心,可以通過(guò)熱配置調整采集的頻率 實(shí)時(shí); 7、將采集接收到的數據存儲在Solr集群中,提高檢索速度;8、 將捕獲返回的記錄存儲到MongoDB進(jìn)行歸檔查看錯誤日志。
系統缺點(diǎn):
1、通過(guò)真實(shí)手機真實(shí)賬號采集留言,如果你需要大量公眾號,需要有多個(gè)微信賬號作為支持(如果當天賬號達到上限,可以爬取微信官方平臺消息,可通過(guò)接口獲?。?;2、 不是發(fā)文就可以抓到的公眾號。采集的時(shí)間由系統設置,消息有一定的滯后性(如果公眾號不多的話(huà),微信信號數量就足夠了。通過(guò)增加采集頻率優(yōu)化)。
四、模塊介紹
由于后面會(huì )添加管理系統和API調用功能,所以提前封裝了一些功能。
common-ws-starter
公共模塊:存儲工具類(lèi)、實(shí)體類(lèi)等公共消息。
redis-ws-starter
Redis 模塊:是
spring-boot-starter-data-redis第二個(gè)包暴露了打包好的Redis工具類(lèi)和Redisson工具類(lèi)。
RocketMQ-WS-啟動(dòng)器
RocketMQ 模塊:是
Rocketmq-spring-boot-starter 的二次封裝提供了消費重試和故障日志記錄功能。
db-ws-starter
mysql數據源模塊:封裝mysql數據源,支持多種數據源,自定義注解實(shí)現數據源動(dòng)態(tài)切換。
sql-wx-蜘蛛
mysql數據庫模塊:提供mysql數據庫操作的所有功能。
電腦-wx-蜘蛛
PC端采集模塊:收錄PC端采集公眾賬號歷史消息相關(guān)功能。
java-wx-蜘蛛
Java提取模塊:收錄Java程序提取文章內容相關(guān)的功能。
移動(dòng)-wx-蜘蛛
模擬器采集模塊:收錄與模擬器或手機采集消息交互量相關(guān)的功能。
五、一般流程圖

六、 在PC端和移動(dòng)端運行截圖


安慰



運行結束

總結
項目試運行中,微信搜狗臨時(shí)鏈接永久鏈接問(wèn)題已在項目開(kāi)發(fā)中解決。希望能幫到被類(lèi)似業(yè)務(wù)困擾的老鐵。如今,做java就像逆流而上。不前進(jìn)就會(huì )后退。我不知道你什么時(shí)候參與。我希望每個(gè)人都有自己的向日葵采集。如果你看到這個(gè),你不把它給一個(gè)采集嗎?
文章采集api(INTERTIDTURBOAPIV1.0版提供公開(kāi)信息數據開(kāi)放平臺對外接口 )
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 117 次瀏覽 ? 2021-11-08 09:24
)
本次網(wǎng)站使用INTERTID TURBO API V1.0 版本提供開(kāi)放信息數據開(kāi)放平臺的對外接口。通過(guò)對數據的編目、展示和管理,提供對數據的采集、采集、編輯和整理。、全生命周期管理和服務(wù)的編目、發(fā)布和更新,確保政府開(kāi)放數據的機讀性、原創(chuàng )性、及時(shí)性、公開(kāi)性、真實(shí)性、完整性和安全性,并提供對外數據檢索、展示和下載,并提供面向數據開(kāi)發(fā)人員的數據訪(fǎng)問(wèn) API。
本網(wǎng)站以數據簽名權限的方式使用INTERTID TURBO API主動(dòng)公開(kāi)信息、咨詢(xún)投訴、在線(xiàn)調查、輿情采集等方面的數據對接服務(wù);同時(shí),向公眾提供非XML格式的公共信息API 提供此網(wǎng)站可共享的發(fā)布信息。
界面語(yǔ)言定義:
$.select(froms: from)(w: Query)(隱式排序:orders = null, l: limit =limit(-1), o: offest = offest(-1), maxDocs: Int = 10000)
字段類(lèi)型:
字符串:字符類(lèi)型。boolean: 布爾類(lèi)型。number:數字類(lèi)型。日期時(shí)間:時(shí)間類(lèi)型。reader:流類(lèi)型,流類(lèi)型的字段類(lèi)型store必須是storeno。bytes:字符數組,字符數組的字段類(lèi)型存儲為storeyes。
詳情請參考政府數據查詢(xún)服務(wù)統一開(kāi)放平臺,您可以致電網(wǎng)站索取詳細的API文檔。
查看全部
文章采集api(INTERTIDTURBOAPIV1.0版提供公開(kāi)信息數據開(kāi)放平臺對外接口
)
本次網(wǎng)站使用INTERTID TURBO API V1.0 版本提供開(kāi)放信息數據開(kāi)放平臺的對外接口。通過(guò)對數據的編目、展示和管理,提供對數據的采集、采集、編輯和整理。、全生命周期管理和服務(wù)的編目、發(fā)布和更新,確保政府開(kāi)放數據的機讀性、原創(chuàng )性、及時(shí)性、公開(kāi)性、真實(shí)性、完整性和安全性,并提供對外數據檢索、展示和下載,并提供面向數據開(kāi)發(fā)人員的數據訪(fǎng)問(wèn) API。
本網(wǎng)站以數據簽名權限的方式使用INTERTID TURBO API主動(dòng)公開(kāi)信息、咨詢(xún)投訴、在線(xiàn)調查、輿情采集等方面的數據對接服務(wù);同時(shí),向公眾提供非XML格式的公共信息API 提供此網(wǎng)站可共享的發(fā)布信息。
界面語(yǔ)言定義:
$.select(froms: from)(w: Query)(隱式排序:orders = null, l: limit =limit(-1), o: offest = offest(-1), maxDocs: Int = 10000)
字段類(lèi)型:
字符串:字符類(lèi)型。boolean: 布爾類(lèi)型。number:數字類(lèi)型。日期時(shí)間:時(shí)間類(lèi)型。reader:流類(lèi)型,流類(lèi)型的字段類(lèi)型store必須是storeno。bytes:字符數組,字符數組的字段類(lèi)型存儲為storeyes。
詳情請參考政府數據查詢(xún)服務(wù)統一開(kāi)放平臺,您可以致電網(wǎng)站索取詳細的API文檔。
文章采集api(軟件特色關(guān)于軟件優(yōu)采云采集器(SkyCaiji)功能特色10張壁紙)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 126 次瀏覽 ? 2021-11-06 21:02
優(yōu)采云采集器是一款免費的數據采集發(fā)布爬蟲(chóng)軟件,用php+mysql開(kāi)發(fā),可以部署在云服務(wù)器上,幾乎采集所有類(lèi)型的網(wǎng)頁(yè),沒(méi)有縫制對接各種cms建站程序,無(wú)需登錄即可實(shí)時(shí)發(fā)布數據,全自動(dòng)無(wú)需人工干預,是大數據和云時(shí)代最好的云爬蟲(chóng)軟件網(wǎng)站數據自動(dòng)化采集!軟件特點(diǎn) 關(guān)于優(yōu)采云采集器(天財記)軟件,致力于網(wǎng)站數據自動(dòng)化采集的發(fā)布,系統采用PHP+Mysql開(kāi)發(fā),可部署在云服務(wù)器上制作數據采集便捷、智能、云端,讓您隨時(shí)隨地移動(dòng)辦公!數據采集支持多級、多頁(yè)、分頁(yè)< @采集,自定義采集規則(支持正則、XPATH、JSON等)準確匹配任何信息流,幾乎采集所有類(lèi)型的網(wǎng)頁(yè),大部分文章類(lèi)型頁(yè)面內容可實(shí)現內容發(fā)布智能識別,與各種cms建站程序無(wú)縫對接,實(shí)現免登錄導入數據,支持自定義數據發(fā)布插件,或直接導入數據庫,保存為Excel文件,生成API接口等自動(dòng)化及云平臺軟件,實(shí)現定時(shí)定量自動(dòng)采集發(fā)布,無(wú)需人工干預!內置云平臺,用戶(hù)可以分享和下載采集規則,發(fā)布供需信息,社區幫助,交流等。升級軟件的使用方法可以直接在后臺首頁(yè)檢測并點(diǎn)擊升級,或者將壓縮包上傳到服務(wù)器解壓覆蓋就可以了!安裝軟件。將下載的軟件上傳到您的服務(wù)器。如果根目錄下有站點(diǎn),建議放在子目錄下。解壓后打開(kāi)瀏覽器輸入你的服務(wù)器域名或ip地址(存放在子目錄時(shí)添加子目錄名),進(jìn)入安裝界面點(diǎn)擊“接受”,進(jìn)入環(huán)境檢測頁(yè)面,一定要確保所有參數正確,否則使用過(guò)程中會(huì )出現錯誤,點(diǎn)擊“下一步”進(jìn)入數據安裝界面填寫(xiě)數據庫和創(chuàng )始人配置,點(diǎn)擊“下一步” 最后安裝完成,現在可以使用優(yōu)采云采集器!具有 10 張壁紙,無(wú)需觸摸板和鼠標即可操作內置時(shí)鐘和日期小部件 3 種不同的時(shí)鐘格式 5 種不同的日期格式 查看全部
文章采集api(軟件特色關(guān)于軟件優(yōu)采云采集器(SkyCaiji)功能特色10張壁紙)
優(yōu)采云采集器是一款免費的數據采集發(fā)布爬蟲(chóng)軟件,用php+mysql開(kāi)發(fā),可以部署在云服務(wù)器上,幾乎采集所有類(lèi)型的網(wǎng)頁(yè),沒(méi)有縫制對接各種cms建站程序,無(wú)需登錄即可實(shí)時(shí)發(fā)布數據,全自動(dòng)無(wú)需人工干預,是大數據和云時(shí)代最好的云爬蟲(chóng)軟件網(wǎng)站數據自動(dòng)化采集!軟件特點(diǎn) 關(guān)于優(yōu)采云采集器(天財記)軟件,致力于網(wǎng)站數據自動(dòng)化采集的發(fā)布,系統采用PHP+Mysql開(kāi)發(fā),可部署在云服務(wù)器上制作數據采集便捷、智能、云端,讓您隨時(shí)隨地移動(dòng)辦公!數據采集支持多級、多頁(yè)、分頁(yè)< @采集,自定義采集規則(支持正則、XPATH、JSON等)準確匹配任何信息流,幾乎采集所有類(lèi)型的網(wǎng)頁(yè),大部分文章類(lèi)型頁(yè)面內容可實(shí)現內容發(fā)布智能識別,與各種cms建站程序無(wú)縫對接,實(shí)現免登錄導入數據,支持自定義數據發(fā)布插件,或直接導入數據庫,保存為Excel文件,生成API接口等自動(dòng)化及云平臺軟件,實(shí)現定時(shí)定量自動(dòng)采集發(fā)布,無(wú)需人工干預!內置云平臺,用戶(hù)可以分享和下載采集規則,發(fā)布供需信息,社區幫助,交流等。升級軟件的使用方法可以直接在后臺首頁(yè)檢測并點(diǎn)擊升級,或者將壓縮包上傳到服務(wù)器解壓覆蓋就可以了!安裝軟件。將下載的軟件上傳到您的服務(wù)器。如果根目錄下有站點(diǎn),建議放在子目錄下。解壓后打開(kāi)瀏覽器輸入你的服務(wù)器域名或ip地址(存放在子目錄時(shí)添加子目錄名),進(jìn)入安裝界面點(diǎn)擊“接受”,進(jìn)入環(huán)境檢測頁(yè)面,一定要確保所有參數正確,否則使用過(guò)程中會(huì )出現錯誤,點(diǎn)擊“下一步”進(jìn)入數據安裝界面填寫(xiě)數據庫和創(chuàng )始人配置,點(diǎn)擊“下一步” 最后安裝完成,現在可以使用優(yōu)采云采集器!具有 10 張壁紙,無(wú)需觸摸板和鼠標即可操作內置時(shí)鐘和日期小部件 3 種不同的時(shí)鐘格式 5 種不同的日期格式
文章采集api( WebApi接口采集指標數據的配置實(shí)踐操作(組圖) )
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 413 次瀏覽 ? 2021-11-06 01:17
WebApi接口采集指標數據的配置實(shí)踐操作(組圖)
)
這個(gè)文章的主要目的是告訴你如何配置Prometheus,使其可以使用指定的Web Api接口采集指標數據。文章中使用的case是NGINX的采集配置,來(lái)自NGINX數據索引頁(yè)的采集數據,設置了用戶(hù)名和密碼,所以這是文章@的副標題> 可能是nginx的prometheus 采集配置或者prometheus 采集 basic auth的nginx。
上圖展示了配置完成后在Grafana中配置模板的效果。
用過(guò)Prometheus的朋友一定知道如何配置address:port服務(wù)。比如在采集某個(gè)Redis的信息時(shí),配置可以這樣寫(xiě):
- job_name: 'redis'
static_configs:
- targets: ['11.22.33.58:6087']
復制代碼
注意:以上情況假設Redis Exporter的地址和端口為11.22.33.58:6087。
這是最簡(jiǎn)單也是最廣為人知的方法。但是如果要監控指定的Web API,就不能這樣寫(xiě)了。如果你沒(méi)有看到這個(gè) 文章,你可能會(huì )在搜索引擎中搜索這樣的:
但是很遺憾,沒(méi)有找到有效的信息(現在是2021年3月),基本上所有的坑都能找到。
條件假設
假設我們現在需要從帶有地址...的接口采集相關(guān)的Prometheus監控指標,并且該接口使用basic auth(假設用戶(hù)名為weishidong,密碼為0099887kk)進(jìn)行基本授權驗證。
配置實(shí)踐
如果填寫(xiě)之前看到的Prometheus配置,很可能這樣寫(xiě)配置:
- job_name: 'web'
static_configs:
- targets: ['http://www.weishidong.com/status/format/prometheus']
basic_auth:
username: weishidong
password: 0099887kk
復制代碼
保存配置文件,重啟服務(wù)后,你會(huì )發(fā)現這種方式無(wú)法采集數據,太可怕了。
官方配置指南
剛才的手術(shù)實(shí)在是太可怕了。當我們遇到不明白的問(wèn)題時(shí),我們當然去官方文檔-> Prometheus Configuration。建議從上到下閱讀,但如果你趕時(shí)間,可以直接來(lái)這部分。官方示例如下(內容太多,這里只保留與本文相關(guān)的部分,建議大家閱讀原文):
# The job name assigned to scraped metrics by default.
job_name:
# How frequently to scrape targets from this job.
[ scrape_interval: | default = ]
# Per-scrape timeout when scraping this job.
[ scrape_timeout: | default = ]
# The HTTP resource path on which to fetch metrics from targets.
[ metrics_path: | default = /metrics ]
# honor_labels controls how Prometheus handles conflicts between labels that are
# already present in scraped data and labels that Prometheus would attach
# server-side ("job" and "instance" labels, manually configured target
# labels, and labels generated by service discovery implementations).
#
# If honor_labels is set to "true", label conflicts are resolved by keeping label
# values from the scraped data and ignoring the conflicting server-side labels.
#
# If honor_labels is set to "false", label conflicts are resolved by renaming
# conflicting labels in the scraped data to "exported_" (for
# example "exported_instance", "exported_job") and then attaching server-side
# labels.
#
# Setting honor_labels to "true" is useful for use cases such as federation and
# scraping the Pushgateway, where all labels specified in the target should be
# preserved.
#
# Note that any globally configured "external_labels" are unaffected by this
# setting. In communication with external systems, they are always applied only
# when a time series does not have a given label yet and are ignored otherwise.
[ honor_labels: | default = false ]
# honor_timestamps controls whether Prometheus respects the timestamps present
# in scraped data.
#
# If honor_timestamps is set to "true", the timestamps of the metrics exposed
# by the target will be used.
#
# If honor_timestamps is set to "false", the timestamps of the metrics exposed
# by the target will be ignored.
[ honor_timestamps: | default = true ]
# Configures the protocol scheme used for requests.
[ scheme: | default = http ]
# Optional HTTP URL parameters.
params:
[ : [, ...] ]
# Sets the `Authorization` header on every scrape request with the
# configured username and password.
# password and password_file are mutually exclusive.
basic_auth:
[ username: ]
[ password: ]
[ password_file: ]
# Sets the `Authorization` header on every scrape request with
# the configured bearer token. It is mutually exclusive with `bearer_token_file`.
[ bearer_token: ]
# Sets the `Authorization` header on every scrape request with the bearer token
# read from the configured file. It is mutually exclusive with `bearer_token`.
[ bearer_token_file: ]
復制代碼
如果仔細看,應該注意幾個(gè)關(guān)鍵信息:metrics_path 和 basic_auth。其中,metrics_path用于指定HTTP類(lèi)型指示符信息采集時(shí)的路由地址,默認值為/metrics;字段basic_auth用于授權驗證,這里的password可以指定一個(gè)密碼文件,而不是直接填寫(xiě)明文(一般來(lái)說(shuō),指定的密碼文件的安全性稍高,明文)。
有效配置
根據官方文檔的指引,我們可以快速推導出正確的配置寫(xiě)法:
- job_name: 'web'
metrics_path: /status/format/prometheus
static_configs:
- targets: ['www.weishidong.com']
basic_auth:
username: weishidong
password: 0099887kk
復制代碼
需要注意的是這里的字不用填,因為Prometheus默認的Scheme是http。如果地址的scheme是https,我們需要根據文檔指引添加scheme字段,對應的配置為:
- job_name: 'web'
metrics_path: /status/format/prometheus
static_configs:
- targets: ['www.weishidong.com']
scheme: https
basic_auth:
username: weishidong
password: 0099887kk
復制代碼
配置完成后,Prometheus應該可以成功采集獲取數據。用Grafana,可以看到開(kāi)頭給出的監控效果圖。
查看全部
文章采集api(
WebApi接口采集指標數據的配置實(shí)踐操作(組圖)
)
這個(gè)文章的主要目的是告訴你如何配置Prometheus,使其可以使用指定的Web Api接口采集指標數據。文章中使用的case是NGINX的采集配置,來(lái)自NGINX數據索引頁(yè)的采集數據,設置了用戶(hù)名和密碼,所以這是文章@的副標題> 可能是nginx的prometheus 采集配置或者prometheus 采集 basic auth的nginx。
上圖展示了配置完成后在Grafana中配置模板的效果。
用過(guò)Prometheus的朋友一定知道如何配置address:port服務(wù)。比如在采集某個(gè)Redis的信息時(shí),配置可以這樣寫(xiě):
- job_name: 'redis'
static_configs:
- targets: ['11.22.33.58:6087']
復制代碼
注意:以上情況假設Redis Exporter的地址和端口為11.22.33.58:6087。
這是最簡(jiǎn)單也是最廣為人知的方法。但是如果要監控指定的Web API,就不能這樣寫(xiě)了。如果你沒(méi)有看到這個(gè) 文章,你可能會(huì )在搜索引擎中搜索這樣的:
但是很遺憾,沒(méi)有找到有效的信息(現在是2021年3月),基本上所有的坑都能找到。
條件假設
假設我們現在需要從帶有地址...的接口采集相關(guān)的Prometheus監控指標,并且該接口使用basic auth(假設用戶(hù)名為weishidong,密碼為0099887kk)進(jìn)行基本授權驗證。
配置實(shí)踐
如果填寫(xiě)之前看到的Prometheus配置,很可能這樣寫(xiě)配置:
- job_name: 'web'
static_configs:
- targets: ['http://www.weishidong.com/status/format/prometheus']
basic_auth:
username: weishidong
password: 0099887kk
復制代碼
保存配置文件,重啟服務(wù)后,你會(huì )發(fā)現這種方式無(wú)法采集數據,太可怕了。
官方配置指南
剛才的手術(shù)實(shí)在是太可怕了。當我們遇到不明白的問(wèn)題時(shí),我們當然去官方文檔-> Prometheus Configuration。建議從上到下閱讀,但如果你趕時(shí)間,可以直接來(lái)這部分。官方示例如下(內容太多,這里只保留與本文相關(guān)的部分,建議大家閱讀原文):
# The job name assigned to scraped metrics by default.
job_name:
# How frequently to scrape targets from this job.
[ scrape_interval: | default = ]
# Per-scrape timeout when scraping this job.
[ scrape_timeout: | default = ]
# The HTTP resource path on which to fetch metrics from targets.
[ metrics_path: | default = /metrics ]
# honor_labels controls how Prometheus handles conflicts between labels that are
# already present in scraped data and labels that Prometheus would attach
# server-side ("job" and "instance" labels, manually configured target
# labels, and labels generated by service discovery implementations).
#
# If honor_labels is set to "true", label conflicts are resolved by keeping label
# values from the scraped data and ignoring the conflicting server-side labels.
#
# If honor_labels is set to "false", label conflicts are resolved by renaming
# conflicting labels in the scraped data to "exported_" (for
# example "exported_instance", "exported_job") and then attaching server-side
# labels.
#
# Setting honor_labels to "true" is useful for use cases such as federation and
# scraping the Pushgateway, where all labels specified in the target should be
# preserved.
#
# Note that any globally configured "external_labels" are unaffected by this
# setting. In communication with external systems, they are always applied only
# when a time series does not have a given label yet and are ignored otherwise.
[ honor_labels: | default = false ]
# honor_timestamps controls whether Prometheus respects the timestamps present
# in scraped data.
#
# If honor_timestamps is set to "true", the timestamps of the metrics exposed
# by the target will be used.
#
# If honor_timestamps is set to "false", the timestamps of the metrics exposed
# by the target will be ignored.
[ honor_timestamps: | default = true ]
# Configures the protocol scheme used for requests.
[ scheme: | default = http ]
# Optional HTTP URL parameters.
params:
[ : [, ...] ]
# Sets the `Authorization` header on every scrape request with the
# configured username and password.
# password and password_file are mutually exclusive.
basic_auth:
[ username: ]
[ password: ]
[ password_file: ]
# Sets the `Authorization` header on every scrape request with
# the configured bearer token. It is mutually exclusive with `bearer_token_file`.
[ bearer_token: ]
# Sets the `Authorization` header on every scrape request with the bearer token
# read from the configured file. It is mutually exclusive with `bearer_token`.
[ bearer_token_file: ]
復制代碼
如果仔細看,應該注意幾個(gè)關(guān)鍵信息:metrics_path 和 basic_auth。其中,metrics_path用于指定HTTP類(lèi)型指示符信息采集時(shí)的路由地址,默認值為/metrics;字段basic_auth用于授權驗證,這里的password可以指定一個(gè)密碼文件,而不是直接填寫(xiě)明文(一般來(lái)說(shuō),指定的密碼文件的安全性稍高,明文)。
有效配置
根據官方文檔的指引,我們可以快速推導出正確的配置寫(xiě)法:
- job_name: 'web'
metrics_path: /status/format/prometheus
static_configs:
- targets: ['www.weishidong.com']
basic_auth:
username: weishidong
password: 0099887kk
復制代碼
需要注意的是這里的字不用填,因為Prometheus默認的Scheme是http。如果地址的scheme是https,我們需要根據文檔指引添加scheme字段,對應的配置為:
- job_name: 'web'
metrics_path: /status/format/prometheus
static_configs:
- targets: ['www.weishidong.com']
scheme: https
basic_auth:
username: weishidong
password: 0099887kk
復制代碼
配置完成后,Prometheus應該可以成功采集獲取數據。用Grafana,可以看到開(kāi)頭給出的監控效果圖。
文章采集api( 大數據信息的收集和應用逐步普及,離不開(kāi)網(wǎng)絡(luò )爬蟲(chóng)來(lái)說(shuō) )
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 180 次瀏覽 ? 2021-10-31 02:18
大數據信息的收集和應用逐步普及,離不開(kāi)網(wǎng)絡(luò )爬蟲(chóng)來(lái)說(shuō)
)
數字時(shí)代,大數據信息的采集和應用逐漸普及,離不開(kāi)網(wǎng)絡(luò )爬蟲(chóng)的廣泛應用。由于數據信息市場(chǎng)的不斷擴大,需要大規模的網(wǎng)絡(luò )爬蟲(chóng)來(lái)處理海量的數據信息采集。在這個(gè)過(guò)程中應該注意哪些問(wèn)題?
1、 首先檢查是否有API。API是網(wǎng)站提供官方數據信息的接口。
比如通過(guò)調用API采集數據信息,在網(wǎng)站允許的范圍內采集數據,既沒(méi)有道德法律風(fēng)險,也沒(méi)有故意設置網(wǎng)站的障礙;但是,API接口的訪(fǎng)問(wèn)受網(wǎng)站的控制,網(wǎng)站可用于計費和限制訪(fǎng)問(wèn)上限。二、 數據信息結構分析和數據信息存儲。
2、網(wǎng)絡(luò )爬蟲(chóng)需要明確顯示需要哪些字段。
這些字段可以存在于網(wǎng)頁(yè)上,也可以根據網(wǎng)頁(yè)中的現有字段進(jìn)行進(jìn)一步計算。下面是如何生成表,如何連接多個(gè)表等等。需要注意的是,在確定字段鏈接時(shí),不要只看網(wǎng)頁(yè)的一小部分,因為一個(gè)網(wǎng)頁(yè)可能缺少其他類(lèi)型網(wǎng)頁(yè)的字段。這可能是網(wǎng)站的問(wèn)題,也可能是用戶(hù)行為造成的,不同的是只有多瀏覽一些網(wǎng)頁(yè),才能全面提取關(guān)鍵字段。
對于大型網(wǎng)絡(luò )爬蟲(chóng),除了采集數據信息外,還必須存儲其他重要的中間數據信息(如網(wǎng)頁(yè)ID或url),避免每次都重新爬取id。
3、數據流分析。
如果要批量抓取頁(yè)面,請查看其入口位置,該位置基于采集的范圍。站點(diǎn)頁(yè)面一般基于樹(shù)狀結構,可以以根節點(diǎn)為入口逐層進(jìn)入。確定信息流的機制后,下一個(gè)單獨的網(wǎng)頁(yè),然后將此模式復制到整個(gè)頁(yè)面。
<p style="margin-top: 10px;margin-bottom: 10px;outline: 0px;max-width: 100%;min-height: 1em;letter-spacing: 0.544px;white-space: normal;border-width: 0px;border-style: initial;border-color: initial;-webkit-font-smoothing: antialiased;font-size: 18px;font-family: "Microsoft YaHei", Arial, Verdana, Tahoma, sans-serif;vertical-align: baseline;background-image: initial;background-position: initial;background-size: initial;background-repeat: initial;background-attachment: initial;background-origin: initial;background-clip: initial;line-height: 32px;color: rgb(85, 85, 85);text-align: start;box-sizing: border-box !important;overflow-wrap: break-word !important;">
搜索下方加老師微信<br data-filtered="filtered" style="outline: 0px;max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;">
老師微信號:<strong style="outline: 0px;max-width: 100%;color: rgb(63, 63, 63);letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;">XTUOL1988【</strong>切記備注<strong style="outline: 0px;max-width: 100%;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;">:學(xué)習Python</strong>】
領(lǐng)取Python web開(kāi)發(fā),Python爬蟲(chóng),Python數據分析,人工智能等精品學(xué)習課程。帶你從零基礎系統性的學(xué)好Python!
*聲明:本文于網(wǎng)絡(luò )整理,版權歸原作者所有,如來(lái)源信息有誤或侵犯權益,請聯(lián)系我們刪除或授權
</p> 查看全部
文章采集api(
大數據信息的收集和應用逐步普及,離不開(kāi)網(wǎng)絡(luò )爬蟲(chóng)來(lái)說(shuō)
)

數字時(shí)代,大數據信息的采集和應用逐漸普及,離不開(kāi)網(wǎng)絡(luò )爬蟲(chóng)的廣泛應用。由于數據信息市場(chǎng)的不斷擴大,需要大規模的網(wǎng)絡(luò )爬蟲(chóng)來(lái)處理海量的數據信息采集。在這個(gè)過(guò)程中應該注意哪些問(wèn)題?

1、 首先檢查是否有API。API是網(wǎng)站提供官方數據信息的接口。
比如通過(guò)調用API采集數據信息,在網(wǎng)站允許的范圍內采集數據,既沒(méi)有道德法律風(fēng)險,也沒(méi)有故意設置網(wǎng)站的障礙;但是,API接口的訪(fǎng)問(wèn)受網(wǎng)站的控制,網(wǎng)站可用于計費和限制訪(fǎng)問(wèn)上限。二、 數據信息結構分析和數據信息存儲。
2、網(wǎng)絡(luò )爬蟲(chóng)需要明確顯示需要哪些字段。
這些字段可以存在于網(wǎng)頁(yè)上,也可以根據網(wǎng)頁(yè)中的現有字段進(jìn)行進(jìn)一步計算。下面是如何生成表,如何連接多個(gè)表等等。需要注意的是,在確定字段鏈接時(shí),不要只看網(wǎng)頁(yè)的一小部分,因為一個(gè)網(wǎng)頁(yè)可能缺少其他類(lèi)型網(wǎng)頁(yè)的字段。這可能是網(wǎng)站的問(wèn)題,也可能是用戶(hù)行為造成的,不同的是只有多瀏覽一些網(wǎng)頁(yè),才能全面提取關(guān)鍵字段。
對于大型網(wǎng)絡(luò )爬蟲(chóng),除了采集數據信息外,還必須存儲其他重要的中間數據信息(如網(wǎng)頁(yè)ID或url),避免每次都重新爬取id。
3、數據流分析。
如果要批量抓取頁(yè)面,請查看其入口位置,該位置基于采集的范圍。站點(diǎn)頁(yè)面一般基于樹(shù)狀結構,可以以根節點(diǎn)為入口逐層進(jìn)入。確定信息流的機制后,下一個(gè)單獨的網(wǎng)頁(yè),然后將此模式復制到整個(gè)頁(yè)面。
<p style="margin-top: 10px;margin-bottom: 10px;outline: 0px;max-width: 100%;min-height: 1em;letter-spacing: 0.544px;white-space: normal;border-width: 0px;border-style: initial;border-color: initial;-webkit-font-smoothing: antialiased;font-size: 18px;font-family: "Microsoft YaHei", Arial, Verdana, Tahoma, sans-serif;vertical-align: baseline;background-image: initial;background-position: initial;background-size: initial;background-repeat: initial;background-attachment: initial;background-origin: initial;background-clip: initial;line-height: 32px;color: rgb(85, 85, 85);text-align: start;box-sizing: border-box !important;overflow-wrap: break-word !important;">

搜索下方加老師微信<br data-filtered="filtered" style="outline: 0px;max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;">
老師微信號:<strong style="outline: 0px;max-width: 100%;color: rgb(63, 63, 63);letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;">XTUOL1988【</strong>切記備注<strong style="outline: 0px;max-width: 100%;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;">:學(xué)習Python</strong>】
領(lǐng)取Python web開(kāi)發(fā),Python爬蟲(chóng),Python數據分析,人工智能等精品學(xué)習課程。帶你從零基礎系統性的學(xué)好Python!

*聲明:本文于網(wǎng)絡(luò )整理,版權歸原作者所有,如來(lái)源信息有誤或侵犯權益,請聯(lián)系我們刪除或授權
</p> 文章采集api(數據推送API的應用草料平臺的3種推送方式(一) )
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 158 次瀏覽 ? 2021-10-30 17:11
)
一、數據推送API應用
飼料平臺的數據可以自動(dòng)推送給您,您可以自己調用數據作為應用程序。目前不支持將數據從外部系統寫(xiě)入飼料。
應用一:制作實(shí)時(shí)數據報表
使用數據分析工具連接數據庫,進(jìn)行數據分析或報表制作,查看效果,制作教程
應用二:對接企業(yè)流程
通過(guò)在草料平臺上實(shí)現掃碼采集數據等功能,然后通過(guò)API與企業(yè)系統的進(jìn)程對接,企業(yè)可以在保持原有系統的同時(shí),以極低??的成本應用草料功能,并檢查影響
二、我們提供3種推送方式1、官方數據庫
Forage 為您提供獨立的云數據庫來(lái)同步您的后端數據。之后,您可以使用數據分析軟件連接到這個(gè)云數據庫進(jìn)行數據報告;或者編寫(xiě)程序主動(dòng)調用數據連接其他系統。查看數據庫字段說(shuō)明
指示:
草料后臺導航欄-數據API高級功能,選擇官方數據庫,填寫(xiě)信息,提交激活申請。以下是申請成功后得到的數據庫示例:
類(lèi)型:MySQL
主持人:
端口:3306
數據庫名稱(chēng):cli_202112111(示例)
用戶(hù)名:cli_202112111(示例)
密碼:ek82jk9e1kdi45(示例)
報告制作:
如需連接官方數據庫并制作自定義報表,可查看報表制作教程
因為涉及到基礎數據庫(SQL)操作和BI工具操作,所以有一定的使用門(mén)檻。使用前請掌握基本操作能力。
2、自有數據庫
Forage會(huì )將數據實(shí)時(shí)推送到您提供的企業(yè)數據庫中(僅支持Mysql5.7版本),無(wú)需建表和開(kāi)放公網(wǎng)訪(fǎng)問(wèn)權限。未來(lái)您可以自由讀取數據,實(shí)現企業(yè)數據與信息的整合。查看數據字段說(shuō)明
指示:
草料后臺導航欄-數據API的高級功能,選擇自己的數據庫,填寫(xiě)自己的數據庫主機、端口、賬號等信息。
3、網(wǎng)絡(luò )鉤子
Forage 會(huì )將 JSON 格式的表單數據推送到您指定的 URL。該地址需要允許公共互聯(lián)網(wǎng)訪(fǎng)問(wèn)。之后,您可以編寫(xiě)程序并使用接收到的數據與其他系統或進(jìn)程進(jìn)行交互。查看 Webhook 說(shuō)明
指示:
草料后臺導航欄-數據API的高級功能,選擇Webhook,填寫(xiě)接收數據的URL地址并保存。
具體流程:
?、偈紫葴蕚湟粋€(gè)可以從公網(wǎng)訪(fǎng)問(wèn)的接口地址,填寫(xiě)地址字段,例如(xxx部分為系統的域名或IP)
?、谂渲煤?,每當在草料中生成新的表單數據時(shí)(如在表單中提交一條記錄),都會(huì )向上述地址發(fā)出POST請求
查看全部
文章采集api(數據推送API的應用草料平臺的3種推送方式(一)
)
一、數據推送API應用
飼料平臺的數據可以自動(dòng)推送給您,您可以自己調用數據作為應用程序。目前不支持將數據從外部系統寫(xiě)入飼料。
應用一:制作實(shí)時(shí)數據報表
使用數據分析工具連接數據庫,進(jìn)行數據分析或報表制作,查看效果,制作教程

應用二:對接企業(yè)流程
通過(guò)在草料平臺上實(shí)現掃碼采集數據等功能,然后通過(guò)API與企業(yè)系統的進(jìn)程對接,企業(yè)可以在保持原有系統的同時(shí),以極低??的成本應用草料功能,并檢查影響

二、我們提供3種推送方式1、官方數據庫
Forage 為您提供獨立的云數據庫來(lái)同步您的后端數據。之后,您可以使用數據分析軟件連接到這個(gè)云數據庫進(jìn)行數據報告;或者編寫(xiě)程序主動(dòng)調用數據連接其他系統。查看數據庫字段說(shuō)明
指示:
草料后臺導航欄-數據API高級功能,選擇官方數據庫,填寫(xiě)信息,提交激活申請。以下是申請成功后得到的數據庫示例:
類(lèi)型:MySQL
主持人:
端口:3306
數據庫名稱(chēng):cli_202112111(示例)
用戶(hù)名:cli_202112111(示例)
密碼:ek82jk9e1kdi45(示例)
報告制作:
如需連接官方數據庫并制作自定義報表,可查看報表制作教程
因為涉及到基礎數據庫(SQL)操作和BI工具操作,所以有一定的使用門(mén)檻。使用前請掌握基本操作能力。
2、自有數據庫
Forage會(huì )將數據實(shí)時(shí)推送到您提供的企業(yè)數據庫中(僅支持Mysql5.7版本),無(wú)需建表和開(kāi)放公網(wǎng)訪(fǎng)問(wèn)權限。未來(lái)您可以自由讀取數據,實(shí)現企業(yè)數據與信息的整合。查看數據字段說(shuō)明
指示:
草料后臺導航欄-數據API的高級功能,選擇自己的數據庫,填寫(xiě)自己的數據庫主機、端口、賬號等信息。

3、網(wǎng)絡(luò )鉤子
Forage 會(huì )將 JSON 格式的表單數據推送到您指定的 URL。該地址需要允許公共互聯(lián)網(wǎng)訪(fǎng)問(wèn)。之后,您可以編寫(xiě)程序并使用接收到的數據與其他系統或進(jìn)程進(jìn)行交互。查看 Webhook 說(shuō)明
指示:
草料后臺導航欄-數據API的高級功能,選擇Webhook,填寫(xiě)接收數據的URL地址并保存。
具體流程:
?、偈紫葴蕚湟粋€(gè)可以從公網(wǎng)訪(fǎng)問(wèn)的接口地址,填寫(xiě)地址字段,例如(xxx部分為系統的域名或IP)
?、谂渲煤?,每當在草料中生成新的表單數據時(shí)(如在表單中提交一條記錄),都會(huì )向上述地址發(fā)出POST請求

文章采集api(越來(lái)越多企業(yè)開(kāi)始做基于公眾號平臺的數據內容整合)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 151 次瀏覽 ? 2021-10-29 06:16
越來(lái)越多的企業(yè)開(kāi)始基于公眾號平臺或輿情分析或榜單排名進(jìn)行數據內容整合。其中涉及的技術(shù)之一是公眾號采集的數據,公眾號數據只有集成到自己的平臺后才能進(jìn)行下一步。
公眾號采集不僅技術(shù)門(mén)檻高,而且專(zhuān)業(yè)領(lǐng)域人才匱乏。自己組建團隊,人工成本和時(shí)間成本都很高。市場(chǎng)上大多數公開(kāi)可用的技術(shù)要么已經(jīng)過(guò)時(shí)且無(wú)法獲得,要么價(jià)格太高。
經(jīng)過(guò)多年的技術(shù)沉淀,Power Data在公眾號數據領(lǐng)域擁有完整的解決方案采集。用戶(hù)只需提供微信ID號即可獲取任意公眾號的歷史文章數據,包括閱讀量、點(diǎn)贊、觀(guān)看、評論等數據。只需一名工程師即可實(shí)現API接口的對接,進(jìn)而完成數據集成。
電量數據可以提供分鐘級的數據同步能力,這意味著(zhù)在公眾號發(fā)布后的幾分鐘內,電量數據就可以同步到用戶(hù)自己的平臺上。此外,它還根據用戶(hù)需求提供多項個(gè)性化需求定制。
在我們服務(wù)的客戶(hù)中,有很多行業(yè)標桿用戶(hù),包括36kr等新媒體。
Power Data的使命是全面提升客戶(hù)價(jià)值,構建賦能能力,助力行業(yè)企業(yè)數字化轉型。
歡迎聯(lián)系我試用,加微信請備注“采集”
評論捕獲文章 6 小時(shí)、12 小時(shí)、24 小時(shí)、48 小時(shí)后發(fā)布
有任何問(wèn)題可以?huà)呙瓒S碼與我交流 查看全部
文章采集api(越來(lái)越多企業(yè)開(kāi)始做基于公眾號平臺的數據內容整合)
越來(lái)越多的企業(yè)開(kāi)始基于公眾號平臺或輿情分析或榜單排名進(jìn)行數據內容整合。其中涉及的技術(shù)之一是公眾號采集的數據,公眾號數據只有集成到自己的平臺后才能進(jìn)行下一步。
公眾號采集不僅技術(shù)門(mén)檻高,而且專(zhuān)業(yè)領(lǐng)域人才匱乏。自己組建團隊,人工成本和時(shí)間成本都很高。市場(chǎng)上大多數公開(kāi)可用的技術(shù)要么已經(jīng)過(guò)時(shí)且無(wú)法獲得,要么價(jià)格太高。

經(jīng)過(guò)多年的技術(shù)沉淀,Power Data在公眾號數據領(lǐng)域擁有完整的解決方案采集。用戶(hù)只需提供微信ID號即可獲取任意公眾號的歷史文章數據,包括閱讀量、點(diǎn)贊、觀(guān)看、評論等數據。只需一名工程師即可實(shí)現API接口的對接,進(jìn)而完成數據集成。

電量數據可以提供分鐘級的數據同步能力,這意味著(zhù)在公眾號發(fā)布后的幾分鐘內,電量數據就可以同步到用戶(hù)自己的平臺上。此外,它還根據用戶(hù)需求提供多項個(gè)性化需求定制。

在我們服務(wù)的客戶(hù)中,有很多行業(yè)標桿用戶(hù),包括36kr等新媒體。

Power Data的使命是全面提升客戶(hù)價(jià)值,構建賦能能力,助力行業(yè)企業(yè)數字化轉型。

歡迎聯(lián)系我試用,加微信請備注“采集”

評論捕獲文章 6 小時(shí)、12 小時(shí)、24 小時(shí)、48 小時(shí)后發(fā)布
有任何問(wèn)題可以?huà)呙瓒S碼與我交流
文章采集api(優(yōu)采云采集支持調用5118一鍵智能改寫(xiě)API接口(組圖) )
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 172 次瀏覽 ? 2021-10-29 06:14
)
優(yōu)采云采集支持調用5118一鍵智能重寫(xiě)API接口,處理采集數據標題和內容等,可以產(chǎn)生對搜索引擎更有吸引力的文章 ;
詳細使用步驟如下:
1. 5118 一鍵智能換字API接口配置
一、API配置入口:
點(diǎn)擊控制臺左側列表中的【第三方服務(wù)配置】 》點(diǎn)擊【第三方內容API訪(fǎng)問(wèn)】 》點(diǎn)擊【第三方API配置管理】》 最后點(diǎn)擊【+5118一鍵智能原創(chuàng )API] 創(chuàng )建接口配置
二、配置API接口信息:
【API-Key值】從5118后臺獲取對應的5118一鍵智能重寫(xiě)APIKey值,填寫(xiě)優(yōu)采云;
2. 創(chuàng )建 API 處理規則
API處理規則,可設置調用API接口處理哪些字段的內容;
一、API處理規則入口:
點(diǎn)擊控制臺左側列表中的【第三方服務(wù)配置】>點(diǎn)擊【第三方內容API訪(fǎng)問(wèn)】>進(jìn)入【API處理規則管理】頁(yè)面,最后點(diǎn)擊【添加API處理規則】創(chuàng )建API處理規則;
二、API處理規則配置:
規則名稱(chēng):用戶(hù)可以自己命名;
字段名:填寫(xiě)的字段名的內容將由API接口處理。默認為title和content字段,可以修改、添加或刪除;(可以添加其他字段,點(diǎn)擊添加內容字段,修改字段名稱(chēng),但必須在【Detail Extractor】中已經(jīng)定義,如作者、關(guān)鍵字、描述字段)
使用的API:選擇已經(jīng)設置好的API接口配置,執行時(shí)會(huì )調用該接口,可以從不同的API接口配置中選擇多個(gè)字段。5118 一鍵智能改寫(xiě);
處理順序:執行順序是按照數量從小到大執行;
3. API 處理規則使用
API處理規則的使用方式有兩種:手動(dòng)執行和自動(dòng)執行:
手動(dòng)執行:data采集后,在【Result Data & Release】中使用第三方API執行;
自動(dòng)執行:自動(dòng)化配置完成后,任務(wù)采集數據完成后,系統會(huì )自動(dòng)執行指定的API處理規則,無(wú)需人工操作。
一、手動(dòng)執行API處理規則:
在任務(wù)的【結果數據&發(fā)布】選項卡中,點(diǎn)擊【SEO&API&翻譯工具】按鈕“選擇【第三方API執行】列”選擇對應的API處理規則“執行(數據范圍有兩個(gè)執行)方法,批處理根據發(fā)布狀態(tài)執行并根據列表中選擇的數據執行);
二、自動(dòng)執行API處理規則:
啟用 API 處理的自動(dòng)執行。任務(wù)完成采集后,會(huì )自動(dòng)執行API處理。一般配合定時(shí)采集和自動(dòng)發(fā)布功能使用非常方便;
在任務(wù)的【自動(dòng)化:發(fā)布&SEO&翻譯】選項卡,【自動(dòng)執行第三方API配置】》勾選【采集,自動(dòng)執行API】選項“選擇要執行的API處理規則”選擇API interface 處理數據的范圍(一般選擇“待釋放”,all會(huì )導致所有數據被執行多次),最后點(diǎn)擊save;
4. API處理結果及發(fā)布 一、查看API接口處理結果:
API接口處理的內容會(huì )生成API接口對應的新字段,例如:
標題處理后的新字段:
title_5118重寫(xiě)(對應5118一鍵智能重寫(xiě)API接口)
內容處理后的新字段:
content_5118 rewrite(對應5118一鍵智能重寫(xiě)API接口)
在【結果數據&發(fā)布】和數據預覽界面均可查看。
提示:API 處理規則執行需要一段時(shí)間。執行后頁(yè)面會(huì )自動(dòng)刷新,出現API接口處理的新字段;
二、API接口處理后的內容發(fā)布
在發(fā)布文章之前,修改發(fā)布目標第二步的映射字段,在A(yíng)PI接口處理后將title和content改為新的對應字段。
例如,執行5118一鍵智能改詞API后,選擇title_5118改詞和content_5118改詞發(fā)布;
5. 5118-API接口常見(jiàn)問(wèn)題及解決方案 一、API處理規則和SEO規則如何搭配使用?
系統默認對title和content字段進(jìn)行SEO功能,需要在SEO規則中修改對應新增的字段,如title_5118換詞和content_5118換詞字段;
查看全部
文章采集api(優(yōu)采云采集支持調用5118一鍵智能改寫(xiě)API接口(組圖)
)
優(yōu)采云采集支持調用5118一鍵智能重寫(xiě)API接口,處理采集數據標題和內容等,可以產(chǎn)生對搜索引擎更有吸引力的文章 ;
詳細使用步驟如下:
1. 5118 一鍵智能換字API接口配置
一、API配置入口:
點(diǎn)擊控制臺左側列表中的【第三方服務(wù)配置】 》點(diǎn)擊【第三方內容API訪(fǎng)問(wèn)】 》點(diǎn)擊【第三方API配置管理】》 最后點(diǎn)擊【+5118一鍵智能原創(chuàng )API] 創(chuàng )建接口配置

二、配置API接口信息:
【API-Key值】從5118后臺獲取對應的5118一鍵智能重寫(xiě)APIKey值,填寫(xiě)優(yōu)采云;


2. 創(chuàng )建 API 處理規則
API處理規則,可設置調用API接口處理哪些字段的內容;
一、API處理規則入口:
點(diǎn)擊控制臺左側列表中的【第三方服務(wù)配置】>點(diǎn)擊【第三方內容API訪(fǎng)問(wèn)】>進(jìn)入【API處理規則管理】頁(yè)面,最后點(diǎn)擊【添加API處理規則】創(chuàng )建API處理規則;

二、API處理規則配置:

規則名稱(chēng):用戶(hù)可以自己命名;
字段名:填寫(xiě)的字段名的內容將由API接口處理。默認為title和content字段,可以修改、添加或刪除;(可以添加其他字段,點(diǎn)擊添加內容字段,修改字段名稱(chēng),但必須在【Detail Extractor】中已經(jīng)定義,如作者、關(guān)鍵字、描述字段)
使用的API:選擇已經(jīng)設置好的API接口配置,執行時(shí)會(huì )調用該接口,可以從不同的API接口配置中選擇多個(gè)字段。5118 一鍵智能改寫(xiě);
處理順序:執行順序是按照數量從小到大執行;
3. API 處理規則使用
API處理規則的使用方式有兩種:手動(dòng)執行和自動(dòng)執行:
手動(dòng)執行:data采集后,在【Result Data & Release】中使用第三方API執行;
自動(dòng)執行:自動(dòng)化配置完成后,任務(wù)采集數據完成后,系統會(huì )自動(dòng)執行指定的API處理規則,無(wú)需人工操作。
一、手動(dòng)執行API處理規則:
在任務(wù)的【結果數據&發(fā)布】選項卡中,點(diǎn)擊【SEO&API&翻譯工具】按鈕“選擇【第三方API執行】列”選擇對應的API處理規則“執行(數據范圍有兩個(gè)執行)方法,批處理根據發(fā)布狀態(tài)執行并根據列表中選擇的數據執行);

二、自動(dòng)執行API處理規則:

啟用 API 處理的自動(dòng)執行。任務(wù)完成采集后,會(huì )自動(dòng)執行API處理。一般配合定時(shí)采集和自動(dòng)發(fā)布功能使用非常方便;
在任務(wù)的【自動(dòng)化:發(fā)布&SEO&翻譯】選項卡,【自動(dòng)執行第三方API配置】》勾選【采集,自動(dòng)執行API】選項“選擇要執行的API處理規則”選擇API interface 處理數據的范圍(一般選擇“待釋放”,all會(huì )導致所有數據被執行多次),最后點(diǎn)擊save;
4. API處理結果及發(fā)布 一、查看API接口處理結果:


API接口處理的內容會(huì )生成API接口對應的新字段,例如:
標題處理后的新字段:
title_5118重寫(xiě)(對應5118一鍵智能重寫(xiě)API接口)
內容處理后的新字段:
content_5118 rewrite(對應5118一鍵智能重寫(xiě)API接口)
在【結果數據&發(fā)布】和數據預覽界面均可查看。
提示:API 處理規則執行需要一段時(shí)間。執行后頁(yè)面會(huì )自動(dòng)刷新,出現API接口處理的新字段;
二、API接口處理后的內容發(fā)布
在發(fā)布文章之前,修改發(fā)布目標第二步的映射字段,在A(yíng)PI接口處理后將title和content改為新的對應字段。
例如,執行5118一鍵智能改詞API后,選擇title_5118改詞和content_5118改詞發(fā)布;

5. 5118-API接口常見(jiàn)問(wèn)題及解決方案 一、API處理規則和SEO規則如何搭配使用?
系統默認對title和content字段進(jìn)行SEO功能,需要在SEO規則中修改對應新增的字段,如title_5118換詞和content_5118換詞字段;
文章采集api(數據推送API的應用草料平臺的3種推送方式(一) )
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 152 次瀏覽 ? 2021-10-29 06:13
)
一、數據推送API應用
飼料平臺的數據可以自動(dòng)推送給您,您可以將數據作為應用程序自行調用。目前不支持將數據從外部系統寫(xiě)入飼料。
應用一:制作實(shí)時(shí)數據報表
使用數據分析工具連接數據庫,進(jìn)行數據分析或報表制作,查看效果,制作教程
應用二:對接企業(yè)流程
通過(guò)在草料平臺上實(shí)現掃碼采集數據等功能,然后通過(guò)API與企業(yè)系統的進(jìn)程對接,企業(yè)可以在保持原有系統的同時(shí),以極低??的成本應用草料功能,并檢查影響
二、我們提供3種推送方式1、官方數據庫
Forage 為您提供獨立的云數據庫來(lái)同步您的后端數據。之后,您可以使用數據分析軟件連接到這個(gè)云數據庫進(jìn)行數據報告;或者編寫(xiě)程序主動(dòng)調用數據連接其他系統。查看數據庫字段說(shuō)明
指示:
草料后臺導航欄-數據API高級功能,選擇官方數據庫,填寫(xiě)信息,提交激活申請。以下是申請成功后得到的數據庫示例:
類(lèi)型:MySQL
主持人:
端口:3306
數據庫名稱(chēng):cli_202112111(示例)
用戶(hù)名:cli_202112111(示例)
密碼:ek82jk9e1kdi45(示例)
報告制作:
如需連接官方數據庫并制作自定義報表,可查看報表制作教程
因為涉及到基礎數據庫(SQL)操作和BI工具操作,所以有一定的使用門(mén)檻。使用前請掌握基本操作能力。
2、自有數據庫
Forage會(huì )將數據實(shí)時(shí)推送到您提供的企業(yè)數據庫中(僅支持Mysql5.7版本),無(wú)需建表和開(kāi)放公網(wǎng)訪(fǎng)問(wèn)權限。后續可自由讀取數據,實(shí)現企業(yè)數據與信息的整合。查看數據字段說(shuō)明
指示:
草料后臺導航欄-數據API的高級功能,選擇自己的數據庫,填寫(xiě)自己的數據庫主機、端口、賬號等信息。
3、網(wǎng)絡(luò )鉤子
Forage 會(huì )將 JSON 格式的表單數據推送到您指定的 URL。該地址需要允許公共互聯(lián)網(wǎng)訪(fǎng)問(wèn)。之后,您可以編寫(xiě)程序并使用接收到的數據與其他系統或進(jìn)程進(jìn)行交互。查看 Webhook 說(shuō)明
指示:
飼料后臺導航欄-數據API的高級功能,選擇Webhook,填寫(xiě)接收數據的URL地址并保存。
具體流程:
?、偈紫葴蕚湟粋€(gè)可以從公網(wǎng)訪(fǎng)問(wèn)的接口地址,填寫(xiě)地址字段,例如(xxx部分為系統的域名或IP)
?、谂渲煤?,每當在草料中生成新的表單數據時(shí)(如在表單中提交一條記錄),都會(huì )向上述地址發(fā)出POST請求
查看全部
文章采集api(數據推送API的應用草料平臺的3種推送方式(一)
)
一、數據推送API應用
飼料平臺的數據可以自動(dòng)推送給您,您可以將數據作為應用程序自行調用。目前不支持將數據從外部系統寫(xiě)入飼料。
應用一:制作實(shí)時(shí)數據報表
使用數據分析工具連接數據庫,進(jìn)行數據分析或報表制作,查看效果,制作教程

應用二:對接企業(yè)流程
通過(guò)在草料平臺上實(shí)現掃碼采集數據等功能,然后通過(guò)API與企業(yè)系統的進(jìn)程對接,企業(yè)可以在保持原有系統的同時(shí),以極低??的成本應用草料功能,并檢查影響

二、我們提供3種推送方式1、官方數據庫
Forage 為您提供獨立的云數據庫來(lái)同步您的后端數據。之后,您可以使用數據分析軟件連接到這個(gè)云數據庫進(jìn)行數據報告;或者編寫(xiě)程序主動(dòng)調用數據連接其他系統。查看數據庫字段說(shuō)明
指示:
草料后臺導航欄-數據API高級功能,選擇官方數據庫,填寫(xiě)信息,提交激活申請。以下是申請成功后得到的數據庫示例:
類(lèi)型:MySQL
主持人:
端口:3306
數據庫名稱(chēng):cli_202112111(示例)
用戶(hù)名:cli_202112111(示例)
密碼:ek82jk9e1kdi45(示例)
報告制作:
如需連接官方數據庫并制作自定義報表,可查看報表制作教程
因為涉及到基礎數據庫(SQL)操作和BI工具操作,所以有一定的使用門(mén)檻。使用前請掌握基本操作能力。
2、自有數據庫
Forage會(huì )將數據實(shí)時(shí)推送到您提供的企業(yè)數據庫中(僅支持Mysql5.7版本),無(wú)需建表和開(kāi)放公網(wǎng)訪(fǎng)問(wèn)權限。后續可自由讀取數據,實(shí)現企業(yè)數據與信息的整合。查看數據字段說(shuō)明
指示:
草料后臺導航欄-數據API的高級功能,選擇自己的數據庫,填寫(xiě)自己的數據庫主機、端口、賬號等信息。

3、網(wǎng)絡(luò )鉤子
Forage 會(huì )將 JSON 格式的表單數據推送到您指定的 URL。該地址需要允許公共互聯(lián)網(wǎng)訪(fǎng)問(wèn)。之后,您可以編寫(xiě)程序并使用接收到的數據與其他系統或進(jìn)程進(jìn)行交互。查看 Webhook 說(shuō)明
指示:
飼料后臺導航欄-數據API的高級功能,選擇Webhook,填寫(xiě)接收數據的URL地址并保存。
具體流程:
?、偈紫葴蕚湟粋€(gè)可以從公網(wǎng)訪(fǎng)問(wèn)的接口地址,填寫(xiě)地址字段,例如(xxx部分為系統的域名或IP)
?、谂渲煤?,每當在草料中生成新的表單數據時(shí)(如在表單中提交一條記錄),都會(huì )向上述地址發(fā)出POST請求

文章采集api(優(yōu)采云采集支持調用寫(xiě)作社API接口,處理采集的數據標題和內容等 )
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 147 次瀏覽 ? 2021-10-28 14:18
)
優(yōu)采云采集 支持調用寫(xiě)代理API接口處理采集的數據標題和內容;
詳細使用步驟如下:
1. 創(chuàng )建寫(xiě)代理API接口配置一、API配置入口:
點(diǎn)擊控制臺左側列表中的【第三方服務(wù)配置】==》點(diǎn)擊【第三方內容API訪(fǎng)問(wèn)】==》點(diǎn)擊【第三方API配置管理】==》最后點(diǎn)擊【寫(xiě)Club_Rewrite接口A(yíng)PI】 ] 創(chuàng )建接口配置;
二、配置API接口信息:
購買(mǎi)代寫(xiě)API,請聯(lián)系代寫(xiě)客服,告知在優(yōu)采云采集平臺使用。
【API key】請聯(lián)系代寫(xiě)機構客服獲取對應的API key,填寫(xiě)優(yōu)采云;
注意:編寫(xiě)機構限制每次調用最多6000個(gè)字符(包括html代碼),所以當內容長(cháng)度超過(guò)時(shí),優(yōu)采云會(huì )被分割調用多次。這個(gè)操作會(huì )增加api調用次數,增加成本。會(huì )相應增加,這是用戶(hù)需要承擔的費用,使用前一定要注意?。?!
2. 創(chuàng )建 API 處理規則
API處理規則,可設置調用API接口處理哪些字段的內容;
一、API處理規則入口:
點(diǎn)擊控制臺左側列表中的【第三方服務(wù)配置】==》點(diǎn)擊【第三方內容API訪(fǎng)問(wèn)】==》進(jìn)入【API處理規則管理】頁(yè)面,最后點(diǎn)擊【添加API】處理規則] 創(chuàng )建API處理規則;
二、API處理規則配置:
規則名稱(chēng):用戶(hù)可以自己命名;
字段名:填寫(xiě)的字段名的內容將由API接口處理。默認為title和content字段,可以修改、添加或刪除;
使用的API:選擇已經(jīng)設置好的API接口配置,執行時(shí)會(huì )調用該接口,多個(gè)字段可以選擇不同的API接口配置;
處理順序:執行順序是按照數量從小到大執行;
3. API 處理規則使用
API處理規則的使用方式有兩種:手動(dòng)執行和自動(dòng)執行:
手動(dòng)執行:data采集后,在【Result Data & Release】中使用第三方API執行;
自動(dòng)執行:自動(dòng)化配置完成后,任務(wù)采集數據完成后,系統會(huì )自動(dòng)執行指定的API處理規則,無(wú)需人工操作。
一、手動(dòng)執行API處理規則:
在任務(wù)的【結果數據&發(fā)布】選項卡中,點(diǎn)擊【SEO&API&翻譯工具】按鈕==》選擇【第三方API執行】欄==》選擇對應的API處理規則==》執行(有兩個(gè)執行數據范圍的方法,根據發(fā)布狀態(tài)批量執行,根據列表中選擇的數據執行);
二、自動(dòng)執行API處理規則:
啟用 API 處理的自動(dòng)執行。任務(wù)完成采集后,會(huì )自動(dòng)執行API處理。一般配合定時(shí)采集和自動(dòng)發(fā)布功能使用非常方便;
在任務(wù)的【自動(dòng)化:發(fā)布&SEO&翻譯】選項卡中,【自動(dòng)執行第三方API配置】==》勾選【采集,自動(dòng)執行API】選項==》選擇要執行的API處理規則==》選擇API接口處理的數據范圍(一般選擇“待發(fā)布”,所有會(huì )導致所有數據被多次執行),最后點(diǎn)擊保存;
4. API處理結果及發(fā)布 一、查看API接口處理結果:
API接口處理的內容會(huì )保存為一個(gè)新的字段,例如:
標題處理后新增字段:title_寫(xiě)社
內容處理后的新領(lǐng)域:content_寫(xiě)社
在【結果數據&發(fā)布】和數據預覽界面均可查看。
提示:API處理規則執行需要一段時(shí)間,執行后頁(yè)面會(huì )自動(dòng)刷新,API接口處理的新字段會(huì )出現;
二、API接口處理后的內容發(fā)布
在發(fā)布文章之前,修改發(fā)布目標第二步的映射字段,通過(guò)API接口處理后將title和content改為新的對應字段title_writing club和content_writing club;
提示:如果無(wú)法在發(fā)布目標中選擇新字段,請在此任務(wù)下復制或創(chuàng )建一個(gè)新的發(fā)布目標,然后您可以在新的發(fā)布目標中選擇新字段。詳細教程可以查看發(fā)布目標中不能選擇的字段;
5. 編寫(xiě)Club-API接口常見(jiàn)問(wèn)題及解決方法
一、API處理規則和SEO規則如何搭配使用?
系統默認對title和content字段進(jìn)行SEO功能,需要在SEO規則中修改title_writing club和content_writing club字段;
查看全部
文章采集api(優(yōu)采云采集支持調用寫(xiě)作社API接口,處理采集的數據標題和內容等
)
優(yōu)采云采集 支持調用寫(xiě)代理API接口處理采集的數據標題和內容;
詳細使用步驟如下:
1. 創(chuàng )建寫(xiě)代理API接口配置一、API配置入口:
點(diǎn)擊控制臺左側列表中的【第三方服務(wù)配置】==》點(diǎn)擊【第三方內容API訪(fǎng)問(wèn)】==》點(diǎn)擊【第三方API配置管理】==》最后點(diǎn)擊【寫(xiě)Club_Rewrite接口A(yíng)PI】 ] 創(chuàng )建接口配置;
二、配置API接口信息:
購買(mǎi)代寫(xiě)API,請聯(lián)系代寫(xiě)客服,告知在優(yōu)采云采集平臺使用。
【API key】請聯(lián)系代寫(xiě)機構客服獲取對應的API key,填寫(xiě)優(yōu)采云;
注意:編寫(xiě)機構限制每次調用最多6000個(gè)字符(包括html代碼),所以當內容長(cháng)度超過(guò)時(shí),優(yōu)采云會(huì )被分割調用多次。這個(gè)操作會(huì )增加api調用次數,增加成本。會(huì )相應增加,這是用戶(hù)需要承擔的費用,使用前一定要注意?。?!
2. 創(chuàng )建 API 處理規則
API處理規則,可設置調用API接口處理哪些字段的內容;
一、API處理規則入口:
點(diǎn)擊控制臺左側列表中的【第三方服務(wù)配置】==》點(diǎn)擊【第三方內容API訪(fǎng)問(wèn)】==》進(jìn)入【API處理規則管理】頁(yè)面,最后點(diǎn)擊【添加API】處理規則] 創(chuàng )建API處理規則;
二、API處理規則配置:
規則名稱(chēng):用戶(hù)可以自己命名;
字段名:填寫(xiě)的字段名的內容將由API接口處理。默認為title和content字段,可以修改、添加或刪除;
使用的API:選擇已經(jīng)設置好的API接口配置,執行時(shí)會(huì )調用該接口,多個(gè)字段可以選擇不同的API接口配置;
處理順序:執行順序是按照數量從小到大執行;
3. API 處理規則使用
API處理規則的使用方式有兩種:手動(dòng)執行和自動(dòng)執行:
手動(dòng)執行:data采集后,在【Result Data & Release】中使用第三方API執行;
自動(dòng)執行:自動(dòng)化配置完成后,任務(wù)采集數據完成后,系統會(huì )自動(dòng)執行指定的API處理規則,無(wú)需人工操作。
一、手動(dòng)執行API處理規則:
在任務(wù)的【結果數據&發(fā)布】選項卡中,點(diǎn)擊【SEO&API&翻譯工具】按鈕==》選擇【第三方API執行】欄==》選擇對應的API處理規則==》執行(有兩個(gè)執行數據范圍的方法,根據發(fā)布狀態(tài)批量執行,根據列表中選擇的數據執行);
二、自動(dòng)執行API處理規則:
啟用 API 處理的自動(dòng)執行。任務(wù)完成采集后,會(huì )自動(dòng)執行API處理。一般配合定時(shí)采集和自動(dòng)發(fā)布功能使用非常方便;
在任務(wù)的【自動(dòng)化:發(fā)布&SEO&翻譯】選項卡中,【自動(dòng)執行第三方API配置】==》勾選【采集,自動(dòng)執行API】選項==》選擇要執行的API處理規則==》選擇API接口處理的數據范圍(一般選擇“待發(fā)布”,所有會(huì )導致所有數據被多次執行),最后點(diǎn)擊保存;
4. API處理結果及發(fā)布 一、查看API接口處理結果:
API接口處理的內容會(huì )保存為一個(gè)新的字段,例如:
標題處理后新增字段:title_寫(xiě)社
內容處理后的新領(lǐng)域:content_寫(xiě)社
在【結果數據&發(fā)布】和數據預覽界面均可查看。
提示:API處理規則執行需要一段時(shí)間,執行后頁(yè)面會(huì )自動(dòng)刷新,API接口處理的新字段會(huì )出現;
二、API接口處理后的內容發(fā)布
在發(fā)布文章之前,修改發(fā)布目標第二步的映射字段,通過(guò)API接口處理后將title和content改為新的對應字段title_writing club和content_writing club;
提示:如果無(wú)法在發(fā)布目標中選擇新字段,請在此任務(wù)下復制或創(chuàng )建一個(gè)新的發(fā)布目標,然后您可以在新的發(fā)布目標中選擇新字段。詳細教程可以查看發(fā)布目標中不能選擇的字段;
5. 編寫(xiě)Club-API接口常見(jiàn)問(wèn)題及解決方法
一、API處理規則和SEO規則如何搭配使用?
系統默認對title和content字段進(jìn)行SEO功能,需要在SEO規則中修改title_writing club和content_writing club字段;
文章采集api(批量采集“虎嗅”的文章到自己網(wǎng)站的應用)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 176 次瀏覽 ? 2021-10-26 03:03
現在有這樣一個(gè)需求:批量采集微信公眾號文章給自己網(wǎng)站,批量采集“虎嗅”文章給自己網(wǎng)站 . 主要障礙之一是我們的網(wǎng)站中無(wú)法顯示原創(chuàng )圖片地址。
他們利用HTTP請求頭中的referrer值,即請求的來(lái)源,來(lái)判斷是否返回數據,以達到防盜的目的。一些直播源也使用這種方法來(lái)防止非法賣(mài)淫。我們需要知道的是,我們的網(wǎng)站通常會(huì )在發(fā)起http請求時(shí)自動(dòng)將referrer設置為網(wǎng)站地址。
下面的方法主要是全局添加幾個(gè)meta標簽來(lái)設置默認的referrer值,以免請求原圖數據時(shí)提供網(wǎng)站地址的來(lái)源,避免原網(wǎng)站反-leech設計,但是這部分依賴(lài)這個(gè)原理輔助統計的第三方推廣鏈接非常不利,甚至可能會(huì )被判定為無(wú)效,導致無(wú)法獲得傭金。
折中的方法是將微信公眾號文章和采集分到一個(gè)單獨的分類(lèi)中,只有當網(wǎng)站在這個(gè)分類(lèi)元標簽下顯示文章時(shí)才添加。
// 其它自定義代碼加到此行下面
add_action('wp_head', 'guihet_referrer');// 前端添加 referrer 標簽
add_action('admin_head', 'guihet_referrer');// 后臺添加 referrer 標簽
function guihet_referrer(){
$catsy = get_the_category();
$myCat = $catsy[0]->cat_ID;
if($myCat===22) //分類(lèi) ID 為 22 的..
{
echo'';
echo'';
echo'';
}
}
代碼添加到WP主題模板下functions.php文件的最后,這里根據實(shí)際情況更改類(lèi)別ID。 查看全部
文章采集api(批量采集“虎嗅”的文章到自己網(wǎng)站的應用)
現在有這樣一個(gè)需求:批量采集微信公眾號文章給自己網(wǎng)站,批量采集“虎嗅”文章給自己網(wǎng)站 . 主要障礙之一是我們的網(wǎng)站中無(wú)法顯示原創(chuàng )圖片地址。
他們利用HTTP請求頭中的referrer值,即請求的來(lái)源,來(lái)判斷是否返回數據,以達到防盜的目的。一些直播源也使用這種方法來(lái)防止非法賣(mài)淫。我們需要知道的是,我們的網(wǎng)站通常會(huì )在發(fā)起http請求時(shí)自動(dòng)將referrer設置為網(wǎng)站地址。

下面的方法主要是全局添加幾個(gè)meta標簽來(lái)設置默認的referrer值,以免請求原圖數據時(shí)提供網(wǎng)站地址的來(lái)源,避免原網(wǎng)站反-leech設計,但是這部分依賴(lài)這個(gè)原理輔助統計的第三方推廣鏈接非常不利,甚至可能會(huì )被判定為無(wú)效,導致無(wú)法獲得傭金。
折中的方法是將微信公眾號文章和采集分到一個(gè)單獨的分類(lèi)中,只有當網(wǎng)站在這個(gè)分類(lèi)元標簽下顯示文章時(shí)才添加。
// 其它自定義代碼加到此行下面
add_action('wp_head', 'guihet_referrer');// 前端添加 referrer 標簽
add_action('admin_head', 'guihet_referrer');// 后臺添加 referrer 標簽
function guihet_referrer(){
$catsy = get_the_category();
$myCat = $catsy[0]->cat_ID;
if($myCat===22) //分類(lèi) ID 為 22 的..
{
echo'';
echo'';
echo'';
}
}
代碼添加到WP主題模板下functions.php文件的最后,這里根據實(shí)際情況更改類(lèi)別ID。
文章采集api(數據推送API的應用草料平臺的3種推送方式(一) )
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 176 次瀏覽 ? 2021-10-24 01:00
)
一、數據推送API應用
飼料平臺的數據可以自動(dòng)推送給您,您可以自己調用數據作為應用程序。目前不支持將數據從外部系統寫(xiě)入飼料。
應用一:制作實(shí)時(shí)數據報表
使用數據分析工具連接數據庫,進(jìn)行數據分析或報表制作,查看效果,制作教程
應用二:對接企業(yè)流程
通過(guò)在草料平臺上實(shí)現掃碼采集數據等功能,然后通過(guò)API與企業(yè)系統的進(jìn)程對接,企業(yè)可以在保持原有系統的同時(shí),以極低??的成本應用草料功能,并檢查影響
二、我們提供3種推送方式1、官方數據庫
Forage 為您提供獨立的云數據庫來(lái)同步您的后端數據。之后,您可以使用數據分析軟件連接到這個(gè)云數據庫進(jìn)行數據報告;或者編寫(xiě)程序主動(dòng)調用數據連接其他系統。查看數據庫字段說(shuō)明
指示:
草料后臺導航欄-數據API高級功能,選擇官方數據庫,填寫(xiě)信息,提交激活申請。以下是申請成功后得到的數據庫示例:
類(lèi)型:MySQL
主持人:
端口:3306
數據庫名稱(chēng):cli_202112111(示例)
用戶(hù)名:cli_202112111(示例)
密碼:ek82jk9e1kdi45(示例)
報告制作:
如需連接官方數據庫并制作自定義報表,可查看報表制作教程
因為涉及到基礎數據庫(SQL)操作和BI工具操作,所以有一定的使用門(mén)檻。使用前請掌握基本操作能力。
2、自有數據庫
Forage會(huì )將數據實(shí)時(shí)推送到您提供的企業(yè)數據庫中(僅支持Mysql5.7版本),無(wú)需建表和開(kāi)放公網(wǎng)訪(fǎng)問(wèn)權限。后續可自由讀取數據,實(shí)現企業(yè)數據與信息的整合。查看數據字段說(shuō)明
指示:
草料后臺導航欄-數據API的高級功能,選擇自己的數據庫,填寫(xiě)自己的數據庫主機、端口、賬號等信息。
3、網(wǎng)絡(luò )鉤子
Forage 會(huì )將 JSON 格式的表單數據推送到您指定的 URL。該地址需要允許公共互聯(lián)網(wǎng)訪(fǎng)問(wèn)。之后,您可以編寫(xiě)程序并使用接收到的數據與其他系統或進(jìn)程進(jìn)行交互。查看 Webhook 說(shuō)明
指示:
草料后臺導航欄-數據API的高級功能,選擇Webhook,填寫(xiě)接收數據的URL地址并保存。
具體流程:
?、偈紫葴蕚湟粋€(gè)可以從公網(wǎng)訪(fǎng)問(wèn)的接口地址,填寫(xiě)地址字段,例如(xxx部分為系統的域名或IP)
?、谂渲煤?,每當在草料中生成新的表單數據時(shí)(如在表單中提交一條記錄),都會(huì )向上述地址發(fā)出POST請求
查看全部
文章采集api(數據推送API的應用草料平臺的3種推送方式(一)
)
一、數據推送API應用
飼料平臺的數據可以自動(dòng)推送給您,您可以自己調用數據作為應用程序。目前不支持將數據從外部系統寫(xiě)入飼料。
應用一:制作實(shí)時(shí)數據報表
使用數據分析工具連接數據庫,進(jìn)行數據分析或報表制作,查看效果,制作教程

應用二:對接企業(yè)流程
通過(guò)在草料平臺上實(shí)現掃碼采集數據等功能,然后通過(guò)API與企業(yè)系統的進(jìn)程對接,企業(yè)可以在保持原有系統的同時(shí),以極低??的成本應用草料功能,并檢查影響

二、我們提供3種推送方式1、官方數據庫
Forage 為您提供獨立的云數據庫來(lái)同步您的后端數據。之后,您可以使用數據分析軟件連接到這個(gè)云數據庫進(jìn)行數據報告;或者編寫(xiě)程序主動(dòng)調用數據連接其他系統。查看數據庫字段說(shuō)明
指示:
草料后臺導航欄-數據API高級功能,選擇官方數據庫,填寫(xiě)信息,提交激活申請。以下是申請成功后得到的數據庫示例:
類(lèi)型:MySQL
主持人:
端口:3306
數據庫名稱(chēng):cli_202112111(示例)
用戶(hù)名:cli_202112111(示例)
密碼:ek82jk9e1kdi45(示例)
報告制作:
如需連接官方數據庫并制作自定義報表,可查看報表制作教程
因為涉及到基礎數據庫(SQL)操作和BI工具操作,所以有一定的使用門(mén)檻。使用前請掌握基本操作能力。
2、自有數據庫
Forage會(huì )將數據實(shí)時(shí)推送到您提供的企業(yè)數據庫中(僅支持Mysql5.7版本),無(wú)需建表和開(kāi)放公網(wǎng)訪(fǎng)問(wèn)權限。后續可自由讀取數據,實(shí)現企業(yè)數據與信息的整合。查看數據字段說(shuō)明
指示:
草料后臺導航欄-數據API的高級功能,選擇自己的數據庫,填寫(xiě)自己的數據庫主機、端口、賬號等信息。

3、網(wǎng)絡(luò )鉤子
Forage 會(huì )將 JSON 格式的表單數據推送到您指定的 URL。該地址需要允許公共互聯(lián)網(wǎng)訪(fǎng)問(wèn)。之后,您可以編寫(xiě)程序并使用接收到的數據與其他系統或進(jìn)程進(jìn)行交互。查看 Webhook 說(shuō)明
指示:
草料后臺導航欄-數據API的高級功能,選擇Webhook,填寫(xiě)接收數據的URL地址并保存。
具體流程:
?、偈紫葴蕚湟粋€(gè)可以從公網(wǎng)訪(fǎng)問(wèn)的接口地址,填寫(xiě)地址字段,例如(xxx部分為系統的域名或IP)
?、谂渲煤?,每當在草料中生成新的表單數據時(shí)(如在表單中提交一條記錄),都會(huì )向上述地址發(fā)出POST請求

文章采集api(php采集文章圖片不顯示的解決辦法:1、根據關(guān)鍵字采集百度搜尋結果)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 129 次瀏覽 ? 2021-10-22 21:10
今天PHP愛(ài)好者為大家帶來(lái)php采集文章圖片不顯示的解決方法:1、根據關(guān)鍵字采集百度搜索結果; 2、@ >將采集中的html根據定義的域名進(jìn)行批量轉換。希望能幫到你。
本文運行環(huán)境:windows7系統,PHP7.版本1,DELL G3電腦
php采集文章圖片不顯示怎么辦?
PHP CURL采集百度搜索結果圖片不顯示問(wèn)題的解決方法
1.根據關(guān)鍵字采集百度搜索結果
根據關(guān)鍵字采集百度搜索結果,可以使用curl來(lái)實(shí)現,代碼如下:
<p style="line-height: 2em; text-indent: 2em; text-align: left;"><br style="text-indent: 2em; text-align: left;"/></p>
輸出后發(fā)現有些圖片無(wú)法顯示
2.采集顯示后圖片不顯示原因分析
直接在百度搜索,頁(yè)面可以顯示圖片。使用firebug查看圖片路徑,發(fā)現采集的圖片域名與百度搜索的圖片域名不同。
采集返回的圖片域名
用于普通搜索的圖像域
查看采集和正常搜索html,發(fā)現有域名轉換js不一樣
采集
<p style="line-height: 2em; text-indent: 2em; text-align: left;">var list = {<br style="text-indent: 2em; text-align: left;"/> ? ?"graph.baidu.com": "http://graph.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"t1.baidu.com":"http://t1.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"t2.baidu.com":"http://t2.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"t3.baidu.com":"http://t3.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"t10.baidu.com":"http://t10.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"t11.baidu.com":"http://t11.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"t12.baidu.com":"http://t12.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"i7.baidu.com":"http://i7.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"i8.baidu.com":"http://i8.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"i9.baidu.com":"http://i9.baidu.com",<br style="text-indent: 2em; text-align: left;"/>};<br style="text-indent: 2em; text-align: left;"/></p>
普通搜索
<p style="line-height: 2em; text-indent: 2em; text-align: left;">var list = {<br style="text-indent: 2em; text-align: left;"/> ? ?"graph.baidu.com": "https://sp0.baidu.com/-aYHfD0a2gU2pMbgoY3K",<br style="text-indent: 2em; text-align: left;"/> ? ?"t1.baidu.com":"https://ss0.baidu.com/6ON1bjeh1BF3odCf",<br style="text-indent: 2em; text-align: left;"/> ? ?"t2.baidu.com":"https://ss1.baidu.com/6OZ1bjeh1BF3odCf",<br style="text-indent: 2em; text-align: left;"/> ? ?"t3.baidu.com":"https://ss2.baidu.com/6OV1bjeh1BF3odCf",<br style="text-indent: 2em; text-align: left;"/> ? ?"t10.baidu.com":"https://ss0.baidu.com/6ONWsjip0QIZ8tyhnq",<br style="text-indent: 2em; text-align: left;"/> ? ?"t11.baidu.com":"https://ss1.baidu.com/6ONXsjip0QIZ8tyhnq",<br style="text-indent: 2em; text-align: left;"/> ? ?"t12.baidu.com":"https://ss2.baidu.com/6ONYsjip0QIZ8tyhnq",<br style="text-indent: 2em; text-align: left;"/> ? ?"i7.baidu.com":"https://ss0.baidu.com/73F1bjeh1BF3odCf",<br style="text-indent: 2em; text-align: left;"/> ? ?"i8.baidu.com":"https://ss0.baidu.com/73x1bjeh1BF3odCf",<br style="text-indent: 2em; text-align: left;"/> ? ?"i9.baidu.com":"https://ss0.baidu.com/73t1bjeh1BF3odCf",<br style="text-indent: 2em; text-align: left;"/>};<br style="text-indent: 2em; text-align: left;"/></p>
因此,根據源地址、IP、header等參數可以斷定,如果是采集,百度會(huì )返回不同的js。
3.采集圖片不顯示后的解決方法
根據定義的域名批量傳輸采集中的html。
<p style="line-height: 2em; text-indent: 2em; text-align: left;"><br style="text-indent: 2em; text-align: left;"/></p>
添加域名轉換后,所有圖片均可正常顯示。
以上是php采集文章的詳細內容,圖片沒(méi)有說(shuō)明怎么做。更多詳情請關(guān)注其他相關(guān)php粉絲文章! 查看全部
文章采集api(php采集文章圖片不顯示的解決辦法:1、根據關(guān)鍵字采集百度搜尋結果)
今天PHP愛(ài)好者為大家帶來(lái)php采集文章圖片不顯示的解決方法:1、根據關(guān)鍵字采集百度搜索結果; 2、@ >將采集中的html根據定義的域名進(jìn)行批量轉換。希望能幫到你。

本文運行環(huán)境:windows7系統,PHP7.版本1,DELL G3電腦
php采集文章圖片不顯示怎么辦?
PHP CURL采集百度搜索結果圖片不顯示問(wèn)題的解決方法
1.根據關(guān)鍵字采集百度搜索結果
根據關(guān)鍵字采集百度搜索結果,可以使用curl來(lái)實(shí)現,代碼如下:
<p style="line-height: 2em; text-indent: 2em; text-align: left;"><br style="text-indent: 2em; text-align: left;"/></p>
輸出后發(fā)現有些圖片無(wú)法顯示

2.采集顯示后圖片不顯示原因分析
直接在百度搜索,頁(yè)面可以顯示圖片。使用firebug查看圖片路徑,發(fā)現采集的圖片域名與百度搜索的圖片域名不同。
采集返回的圖片域名

用于普通搜索的圖像域

查看采集和正常搜索html,發(fā)現有域名轉換js不一樣
采集
<p style="line-height: 2em; text-indent: 2em; text-align: left;">var list = {<br style="text-indent: 2em; text-align: left;"/> ? ?"graph.baidu.com": "http://graph.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"t1.baidu.com":"http://t1.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"t2.baidu.com":"http://t2.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"t3.baidu.com":"http://t3.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"t10.baidu.com":"http://t10.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"t11.baidu.com":"http://t11.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"t12.baidu.com":"http://t12.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"i7.baidu.com":"http://i7.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"i8.baidu.com":"http://i8.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"i9.baidu.com":"http://i9.baidu.com",<br style="text-indent: 2em; text-align: left;"/>};<br style="text-indent: 2em; text-align: left;"/></p>
普通搜索
<p style="line-height: 2em; text-indent: 2em; text-align: left;">var list = {<br style="text-indent: 2em; text-align: left;"/> ? ?"graph.baidu.com": "https://sp0.baidu.com/-aYHfD0a2gU2pMbgoY3K",<br style="text-indent: 2em; text-align: left;"/> ? ?"t1.baidu.com":"https://ss0.baidu.com/6ON1bjeh1BF3odCf",<br style="text-indent: 2em; text-align: left;"/> ? ?"t2.baidu.com":"https://ss1.baidu.com/6OZ1bjeh1BF3odCf",<br style="text-indent: 2em; text-align: left;"/> ? ?"t3.baidu.com":"https://ss2.baidu.com/6OV1bjeh1BF3odCf",<br style="text-indent: 2em; text-align: left;"/> ? ?"t10.baidu.com":"https://ss0.baidu.com/6ONWsjip0QIZ8tyhnq",<br style="text-indent: 2em; text-align: left;"/> ? ?"t11.baidu.com":"https://ss1.baidu.com/6ONXsjip0QIZ8tyhnq",<br style="text-indent: 2em; text-align: left;"/> ? ?"t12.baidu.com":"https://ss2.baidu.com/6ONYsjip0QIZ8tyhnq",<br style="text-indent: 2em; text-align: left;"/> ? ?"i7.baidu.com":"https://ss0.baidu.com/73F1bjeh1BF3odCf",<br style="text-indent: 2em; text-align: left;"/> ? ?"i8.baidu.com":"https://ss0.baidu.com/73x1bjeh1BF3odCf",<br style="text-indent: 2em; text-align: left;"/> ? ?"i9.baidu.com":"https://ss0.baidu.com/73t1bjeh1BF3odCf",<br style="text-indent: 2em; text-align: left;"/>};<br style="text-indent: 2em; text-align: left;"/></p>
因此,根據源地址、IP、header等參數可以斷定,如果是采集,百度會(huì )返回不同的js。
3.采集圖片不顯示后的解決方法
根據定義的域名批量傳輸采集中的html。
<p style="line-height: 2em; text-indent: 2em; text-align: left;"><br style="text-indent: 2em; text-align: left;"/></p>
添加域名轉換后,所有圖片均可正常顯示。

以上是php采集文章的詳細內容,圖片沒(méi)有說(shuō)明怎么做。更多詳情請關(guān)注其他相關(guān)php粉絲文章!
文章采集api([搜一搜]智能寫(xiě)作神器減少腦力勞動(dòng),快速實(shí)現目標.)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 242 次瀏覽 ? 2021-10-19 10:25
【搜一搜】智能寫(xiě)作是優(yōu)秀自媒體人和SEOR必備的寫(xiě)作工具,減少腦力勞動(dòng),提高工作效率,快速達成目標。
如果你是第一次使用,【搜一搜】助你成為優(yōu)秀的寫(xiě)作高手,一起來(lái)看看吧~
下面是幾個(gè)新手需要知道的常用函數
一、找到登錄網(wǎng)址
二、文章采集
三、原采集列表
四、偽原創(chuàng )列表
五、獲取API
一、找到登錄網(wǎng)址
1.在電腦上打開(kāi)瀏覽器
2. 在地址欄中輸入 URL/
3.注冊賬號,直接登錄
二、文章采集
1、文章采集,打開(kāi)界面,可以看到最上方的選項文章采集,點(diǎn)擊進(jìn)入關(guān)鍵詞,你可以隨便輸入想表達 只需輸入一兩個(gè)字就可以自動(dòng)生成專(zhuān)業(yè)的文章。
2.批量采集,批量采集可以一次搜索多個(gè)關(guān)鍵詞,速度更快。
3.采集的結果,采集的結果是前兩步提交的結果,處理狀態(tài)和詳細信息可以在這里查看。
三、原采集列表
在這里可以看到文章的出處和標題,也可以查看偽原創(chuàng )的內容和原文,方便修改。
四、偽原創(chuàng )列表
您可以使用偽原創(chuàng )直觀(guān)的查看文章的相似度,更方便的修改文章的內容。
五、獲取API
如果您有特殊需求,可以連接我們的API系統,連接您的網(wǎng)站系統,cms站群等。
那么今天給大家分享的5個(gè)實(shí)用技巧,你學(xué)會(huì )了嗎?快點(diǎn)快點(diǎn)練習吧~
【體驗地址】電腦登錄,免費注冊:/ 查看全部
文章采集api([搜一搜]智能寫(xiě)作神器減少腦力勞動(dòng),快速實(shí)現目標.)
【搜一搜】智能寫(xiě)作是優(yōu)秀自媒體人和SEOR必備的寫(xiě)作工具,減少腦力勞動(dòng),提高工作效率,快速達成目標。

如果你是第一次使用,【搜一搜】助你成為優(yōu)秀的寫(xiě)作高手,一起來(lái)看看吧~
下面是幾個(gè)新手需要知道的常用函數
一、找到登錄網(wǎng)址
二、文章采集
三、原采集列表
四、偽原創(chuàng )列表
五、獲取API
一、找到登錄網(wǎng)址
1.在電腦上打開(kāi)瀏覽器
2. 在地址欄中輸入 URL/
3.注冊賬號,直接登錄

二、文章采集
1、文章采集,打開(kāi)界面,可以看到最上方的選項文章采集,點(diǎn)擊進(jìn)入關(guān)鍵詞,你可以隨便輸入想表達 只需輸入一兩個(gè)字就可以自動(dòng)生成專(zhuān)業(yè)的文章。
2.批量采集,批量采集可以一次搜索多個(gè)關(guān)鍵詞,速度更快。
3.采集的結果,采集的結果是前兩步提交的結果,處理狀態(tài)和詳細信息可以在這里查看。
三、原采集列表
在這里可以看到文章的出處和標題,也可以查看偽原創(chuàng )的內容和原文,方便修改。

四、偽原創(chuàng )列表
您可以使用偽原創(chuàng )直觀(guān)的查看文章的相似度,更方便的修改文章的內容。

五、獲取API
如果您有特殊需求,可以連接我們的API系統,連接您的網(wǎng)站系統,cms站群等。

那么今天給大家分享的5個(gè)實(shí)用技巧,你學(xué)會(huì )了嗎?快點(diǎn)快點(diǎn)練習吧~
【體驗地址】電腦登錄,免費注冊:/
文章采集api(修改歷史:本工具與2012-09-17發(fā)現一個(gè)bug且已修正)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 143 次瀏覽 ? 2021-11-16 05:16
[大小=中等]
從2008年開(kāi)始做網(wǎng)頁(yè)數據采集,開(kāi)始使用HTML Parser、NekoHTML、Jericho HTML Parser(用于解析html網(wǎng)頁(yè))、HtmlUtil(純java版本的瀏覽器,帶Http協(xié)議和Html解析功能,JS執行功能)等,帶HttpClient(提供高效、最新、功能豐富的支持HTTP協(xié)議的客戶(hù)端編程工具包,是一個(gè)HTTP協(xié)議相關(guān)的包,類(lèi)似于我介紹的 API 中的 HtmlPage 類(lèi))。因為那些API采集[color=red]大量的多種格式的網(wǎng)頁(yè)數據[/color]在配置上非常不靈活,比如DOM解析、Xpath等,導致配置復雜,所以從2009 3 我開(kāi)始編寫(xiě)自己的 API 來(lái)獲取和分析網(wǎng)頁(yè):網(wǎng)頁(yè)。服務(wù)在公司' s 項目。通過(guò)預配置,經(jīng)過(guò)采集10000多個(gè)數據源和多種網(wǎng)頁(yè)數據呈現格式的測試和修正,于2010年9月形成了一個(gè)相對穩定的版本。
修改歷史:
此工具在 2012-09-17 發(fā)現了一個(gè)錯誤,并已更正。今天從新包提交一個(gè)版本,之前的源碼和jar包版本都會(huì )被刪除。
1、源碼包結構說(shuō)明:基于com.hlxp.webpage包的啟動(dòng)說(shuō)明:
?。?)com.hlxp.webpage.app與采集的應用相關(guān),可以獨立運行,主要是與采集配合使用。
?。?)com.hlxp.webpage.bean 采集中使用的一些無(wú)狀態(tài)VO(值對象)
?。?)com.hlxp.webpage.log包中收錄日志類(lèi),主要打包jdk自帶的日志對象;以及l(fā)og4j的日志類(lèi)。
?。?)com.hlxp.webpage.util 包中收錄一些特定的 采集 工具,它們使用 HtmlPage 和 HtmlUtil 類(lèi)來(lái)完成特定的 采集,例如只有 采集 鏈接,或者只是采集img的鏈接。
?。?)HtmlPage類(lèi)是一個(gè)基礎類(lèi),主要用于通過(guò)get和post獲取網(wǎng)頁(yè),也支持參數的提交。
?。?)HtmlUtil類(lèi)是一個(gè)基礎類(lèi),主要用于解析通過(guò)HtmlPage獲取的網(wǎng)頁(yè),支持正則表達式分析、字符切割、HTML標記分析。
[顏色=紅色]注意:[/color]
源碼中沒(méi)有示例程序,示例在每個(gè)解析類(lèi)的main函數中。以后有時(shí)間我會(huì )寫(xiě)API幫助文檔和示例程序。這些將發(fā)布在本博客的附件中。
有問(wèn)題的朋友可以在本博客留言,我會(huì )和大家一起討論。
2.API函數介紹
?。?)可以或者普通網(wǎng)頁(yè)和沒(méi)有驗證碼的登錄網(wǎng)頁(yè)(需要登錄的網(wǎng)頁(yè),需要手動(dòng)登錄,然后將cookie復制到程序中獲?。?br /> ?。?)可以解析HTML、XML、DTD等靜態(tài)文本顯示數據的網(wǎng)頁(yè)。
?。?)可以方便采集翻頁(yè),通過(guò)設置頁(yè)面鏈接格式,自動(dòng)生成或采集頁(yè)面鏈接及其網(wǎng)頁(yè)。
?。?)HtmlPage.java 用于獲取網(wǎng)頁(yè),HtmlUtil.java 用于解析網(wǎng)頁(yè)的基本類(lèi)。兩個(gè)類(lèi)的主要方法中有示例。
[/尺寸] 查看全部
文章采集api(修改歷史:本工具與2012-09-17發(fā)現一個(gè)bug且已修正)
[大小=中等]
從2008年開(kāi)始做網(wǎng)頁(yè)數據采集,開(kāi)始使用HTML Parser、NekoHTML、Jericho HTML Parser(用于解析html網(wǎng)頁(yè))、HtmlUtil(純java版本的瀏覽器,帶Http協(xié)議和Html解析功能,JS執行功能)等,帶HttpClient(提供高效、最新、功能豐富的支持HTTP協(xié)議的客戶(hù)端編程工具包,是一個(gè)HTTP協(xié)議相關(guān)的包,類(lèi)似于我介紹的 API 中的 HtmlPage 類(lèi))。因為那些API采集[color=red]大量的多種格式的網(wǎng)頁(yè)數據[/color]在配置上非常不靈活,比如DOM解析、Xpath等,導致配置復雜,所以從2009 3 我開(kāi)始編寫(xiě)自己的 API 來(lái)獲取和分析網(wǎng)頁(yè):網(wǎng)頁(yè)。服務(wù)在公司' s 項目。通過(guò)預配置,經(jīng)過(guò)采集10000多個(gè)數據源和多種網(wǎng)頁(yè)數據呈現格式的測試和修正,于2010年9月形成了一個(gè)相對穩定的版本。
修改歷史:
此工具在 2012-09-17 發(fā)現了一個(gè)錯誤,并已更正。今天從新包提交一個(gè)版本,之前的源碼和jar包版本都會(huì )被刪除。
1、源碼包結構說(shuō)明:基于com.hlxp.webpage包的啟動(dòng)說(shuō)明:
?。?)com.hlxp.webpage.app與采集的應用相關(guān),可以獨立運行,主要是與采集配合使用。
?。?)com.hlxp.webpage.bean 采集中使用的一些無(wú)狀態(tài)VO(值對象)
?。?)com.hlxp.webpage.log包中收錄日志類(lèi),主要打包jdk自帶的日志對象;以及l(fā)og4j的日志類(lèi)。
?。?)com.hlxp.webpage.util 包中收錄一些特定的 采集 工具,它們使用 HtmlPage 和 HtmlUtil 類(lèi)來(lái)完成特定的 采集,例如只有 采集 鏈接,或者只是采集img的鏈接。
?。?)HtmlPage類(lèi)是一個(gè)基礎類(lèi),主要用于通過(guò)get和post獲取網(wǎng)頁(yè),也支持參數的提交。
?。?)HtmlUtil類(lèi)是一個(gè)基礎類(lèi),主要用于解析通過(guò)HtmlPage獲取的網(wǎng)頁(yè),支持正則表達式分析、字符切割、HTML標記分析。
[顏色=紅色]注意:[/color]
源碼中沒(méi)有示例程序,示例在每個(gè)解析類(lèi)的main函數中。以后有時(shí)間我會(huì )寫(xiě)API幫助文檔和示例程序。這些將發(fā)布在本博客的附件中。
有問(wèn)題的朋友可以在本博客留言,我會(huì )和大家一起討論。
2.API函數介紹
?。?)可以或者普通網(wǎng)頁(yè)和沒(méi)有驗證碼的登錄網(wǎng)頁(yè)(需要登錄的網(wǎng)頁(yè),需要手動(dòng)登錄,然后將cookie復制到程序中獲?。?br /> ?。?)可以解析HTML、XML、DTD等靜態(tài)文本顯示數據的網(wǎng)頁(yè)。
?。?)可以方便采集翻頁(yè),通過(guò)設置頁(yè)面鏈接格式,自動(dòng)生成或采集頁(yè)面鏈接及其網(wǎng)頁(yè)。
?。?)HtmlPage.java 用于獲取網(wǎng)頁(yè),HtmlUtil.java 用于解析網(wǎng)頁(yè)的基本類(lèi)。兩個(gè)類(lèi)的主要方法中有示例。
[/尺寸]
文章采集api(JSP眾籌管理系統.5開(kāi)發(fā)java語(yǔ)言設計系統源碼特點(diǎn))
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 155 次瀏覽 ? 2021-11-15 12:11
一、 源碼特點(diǎn) JSP眾籌管理系統是一個(gè)完整的網(wǎng)頁(yè)設計系統,有助于理解JSP java編程語(yǔ)言。系統具有完整的源代碼和數據庫,系統主要采用B/S模式。發(fā)展。 二、功能介紹 前臺主要功能:顯示項目信息及項目周邊相關(guān)信息 后臺主要功能:(1)權限管理:添加、刪除、修改、查看權限信息(2)用戶(hù)管理:添加、刪除、修改、查看用戶(hù)信息(3)項目分類(lèi)管理:添加、刪除、修改、查看項目分類(lèi)信息(4)項目管理:添加項目信息),刪除、修改和查看(5)日志管理:添加、刪除、修改和查看日志信息(6)項目支持管理:添加、刪除、修改和查看項目支持信息(7)Project審核管理:添加、刪除、修改和查看項目審核信息(8)報告管理:添加、刪除、修改和查看報告信息(9)消息管理:對消息信息的添加、刪除、修改和查看(8) 招生管理:添加、刪除、修改和查看招生信息編隊三、注意事項1、管理員賬號:admin 密碼:admin 數據庫配置文件DBO.java2、開(kāi)發(fā)環(huán)境為T(mén)OMCAT7.0,Myeclipse8.5,數據庫為mysql,使用java語(yǔ)言開(kāi)發(fā)。3、數據庫文件名為jspfgongchou .mysql,系統名gongchou4、地址:xiangmu.jsp 查看全部
文章采集api(JSP眾籌管理系統.5開(kāi)發(fā)java語(yǔ)言設計系統源碼特點(diǎn))
一、 源碼特點(diǎn) JSP眾籌管理系統是一個(gè)完整的網(wǎng)頁(yè)設計系統,有助于理解JSP java編程語(yǔ)言。系統具有完整的源代碼和數據庫,系統主要采用B/S模式。發(fā)展。 二、功能介紹 前臺主要功能:顯示項目信息及項目周邊相關(guān)信息 后臺主要功能:(1)權限管理:添加、刪除、修改、查看權限信息(2)用戶(hù)管理:添加、刪除、修改、查看用戶(hù)信息(3)項目分類(lèi)管理:添加、刪除、修改、查看項目分類(lèi)信息(4)項目管理:添加項目信息),刪除、修改和查看(5)日志管理:添加、刪除、修改和查看日志信息(6)項目支持管理:添加、刪除、修改和查看項目支持信息(7)Project審核管理:添加、刪除、修改和查看項目審核信息(8)報告管理:添加、刪除、修改和查看報告信息(9)消息管理:對消息信息的添加、刪除、修改和查看(8) 招生管理:添加、刪除、修改和查看招生信息編隊三、注意事項1、管理員賬號:admin 密碼:admin 數據庫配置文件DBO.java2、開(kāi)發(fā)環(huán)境為T(mén)OMCAT7.0,Myeclipse8.5,數據庫為mysql,使用java語(yǔ)言開(kāi)發(fā)。3、數據庫文件名為jspfgongchou .mysql,系統名gongchou4、地址:xiangmu.jsp
文章采集api(MetricsAPI介紹Metrics-Server之前,必須要提一下API的概念)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 130 次瀏覽 ? 2021-11-12 11:22
概述
從v1.8開(kāi)始,可以通過(guò)Metrics API的形式獲取資源使用監控。具體的組件是Metrics Server,用來(lái)替代之前的heapster。heapster 從 1.11 開(kāi)始逐漸被廢棄。
Metrics-Server 是集群核心監控數據的聚合器。從Kubernetes1.8開(kāi)始,在kube-up.sh腳本創(chuàng )建的集群中默認部署為Deployment對象。如果是其他部署方式,則需要單獨安裝。, 或者咨詢(xún)相應的云廠(chǎng)商。
指標 API
在介紹 Metrics-Server 之前,不得不提一下 Metrics API 的概念
與之前的監控采集方法(hepaster)相比,Metrics API是一個(gè)全新的思路。官方希望核心指標的監控穩定,版本可控,用戶(hù)可以直接訪(fǎng)問(wèn)(比如使用kubectl top命令),或者集群中的控制器(比如HPA)使用,就像其他Kubernetes一樣蜜蜂。
官方放棄heapster項目,是將核心資源監控當成一等公民,即通過(guò)api-server或client直接訪(fǎng)問(wèn),如pod和service,而不是安裝一個(gè)heapster,由heapster單獨采集和管理。
假設我們?yōu)槊總€(gè)pod和節點(diǎn)采集10個(gè)指標,從k8s的1.6開(kāi)始,支持5000個(gè)節點(diǎn)和每個(gè)節點(diǎn)30個(gè)pod,假設采集的粒度為每分鐘一次,那么:
10 x 5000 x 30 / 60 = 25000 平均每分鐘2萬(wàn)多個(gè)采集指標
因為k8s的api-server將所有數據持久化在etcd中,顯然k8s本身無(wú)法處理采集的這種頻率,而且這種監控數據變化很快,而且是臨時(shí)數據,所以需要單獨的組件來(lái)處理,k8s版本只是部分存儲在內存中,因此metric-server的概念誕生了。
其實(shí)Hepaster已經(jīng)暴露了API,但是Kubernetes的用戶(hù)和其他組件必須通過(guò)master代理訪(fǎng)問(wèn),而且Hepaster的接口不像api-server那樣有完整的認證和客戶(hù)端集成。這個(gè)api還在alpha階段(8月18日),希望能達到GA階段。以 api-server 風(fēng)格編寫(xiě):通用 apiserver
有了Metrics Server組件,采集已經(jīng)到達需要的數據,暴露了api,但是因為api需要統一,如何將請求轉發(fā)到api-server /apis/metrics請求到Metrics Server ? 解決方案即:kube-aggregator,在k8s的1.7中已經(jīng)完成。Metrics Server 之前沒(méi)有發(fā)布,在 kube-aggregator 的步驟中延遲了。
kube-aggregator(聚合api)主要提供:
詳細設計文檔:參考鏈接
metric api的使用:
喜歡:
http://127.0.0.1:8001/apis/met ... nodes
http://127.0.0.1:8001/apis/met ... odes/
http://127.0.0.1:8001/apis/met ... pods/
度量服務(wù)器
Metrics 服務(wù)器定期從 Kubelet 的 Summary API(類(lèi)似于 /ap1/v1/nodes/nodename/stats/summary)獲取指標信息采集。這些聚合后的數據會(huì )存儲在內存中,并以metric-api的形式暴露出去。
Metrics server復用api-server庫來(lái)實(shí)現自己的功能,比如認證、版本等,為了將數據存儲在內存中,去掉默認的etcd存儲,引入內存存儲(即實(shí)現Storage接口)。因為是存儲在內存中,所以監控數據不是持久化的,可以通過(guò)第三方存儲進(jìn)行擴展,與heapster一致。
Metrics服務(wù)器出現后,新的Kubernetes監控架構將如上圖所示
官方地址:
用
如上所述,metric-server是一個(gè)擴展的apiserver,依賴(lài)kube-aggregator,所以需要在apiserver中開(kāi)啟相關(guān)參數。
--requestheader-client-ca-file=/etc/kubernetes/certs/proxy-ca.crt
--proxy-client-cert-file=/etc/kubernetes/certs/proxy.crt
--proxy-client-key-file=/etc/kubernetes/certs/proxy.key
--requestheader-allowed-names=aggregator
--requestheader-extra-headers-prefix=X-Remote-Extra-
--requestheader-group-headers=X-Remote-Group
--requestheader-username-headers=X-Remote-User
安裝文件下載地址:1.8+,注意修改鏡像地址為國內鏡像
kubectl create -f metric-server/
安裝成功后訪(fǎng)問(wèn)地址api地址為:
Metrics Server 的資源消耗會(huì )隨著(zhù)集群中 Pod 數量的不斷增長(cháng)而不斷上升,因此需要
插件調整器垂直縮放這個(gè)容器。addon-resizer 根據集群中的節點(diǎn)數對 Metrics Server 進(jìn)行線(xiàn)性擴展,以確保其能夠提供完整的指標 API 服務(wù)。具體參考:鏈接
其他
基于 Metrics Server 的 HPA:參考鏈接
在kubernetes新的監控系統中,metrics-server屬于Core metrics,提供API metrics.k8s.io,只提供Node和Pod的CPU和內存使用情況。Other Custom Metrics(自定義指標)由Prometheus等組件完成,后續文章會(huì )對自定義指標進(jìn)行分析。
本文為容器監控實(shí)踐系列文章,完整內容請看:container-monitor-book 查看全部
文章采集api(MetricsAPI介紹Metrics-Server之前,必須要提一下API的概念)
概述
從v1.8開(kāi)始,可以通過(guò)Metrics API的形式獲取資源使用監控。具體的組件是Metrics Server,用來(lái)替代之前的heapster。heapster 從 1.11 開(kāi)始逐漸被廢棄。
Metrics-Server 是集群核心監控數據的聚合器。從Kubernetes1.8開(kāi)始,在kube-up.sh腳本創(chuàng )建的集群中默認部署為Deployment對象。如果是其他部署方式,則需要單獨安裝。, 或者咨詢(xún)相應的云廠(chǎng)商。
指標 API
在介紹 Metrics-Server 之前,不得不提一下 Metrics API 的概念
與之前的監控采集方法(hepaster)相比,Metrics API是一個(gè)全新的思路。官方希望核心指標的監控穩定,版本可控,用戶(hù)可以直接訪(fǎng)問(wèn)(比如使用kubectl top命令),或者集群中的控制器(比如HPA)使用,就像其他Kubernetes一樣蜜蜂。
官方放棄heapster項目,是將核心資源監控當成一等公民,即通過(guò)api-server或client直接訪(fǎng)問(wèn),如pod和service,而不是安裝一個(gè)heapster,由heapster單獨采集和管理。
假設我們?yōu)槊總€(gè)pod和節點(diǎn)采集10個(gè)指標,從k8s的1.6開(kāi)始,支持5000個(gè)節點(diǎn)和每個(gè)節點(diǎn)30個(gè)pod,假設采集的粒度為每分鐘一次,那么:
10 x 5000 x 30 / 60 = 25000 平均每分鐘2萬(wàn)多個(gè)采集指標
因為k8s的api-server將所有數據持久化在etcd中,顯然k8s本身無(wú)法處理采集的這種頻率,而且這種監控數據變化很快,而且是臨時(shí)數據,所以需要單獨的組件來(lái)處理,k8s版本只是部分存儲在內存中,因此metric-server的概念誕生了。
其實(shí)Hepaster已經(jīng)暴露了API,但是Kubernetes的用戶(hù)和其他組件必須通過(guò)master代理訪(fǎng)問(wèn),而且Hepaster的接口不像api-server那樣有完整的認證和客戶(hù)端集成。這個(gè)api還在alpha階段(8月18日),希望能達到GA階段。以 api-server 風(fēng)格編寫(xiě):通用 apiserver
有了Metrics Server組件,采集已經(jīng)到達需要的數據,暴露了api,但是因為api需要統一,如何將請求轉發(fā)到api-server /apis/metrics請求到Metrics Server ? 解決方案即:kube-aggregator,在k8s的1.7中已經(jīng)完成。Metrics Server 之前沒(méi)有發(fā)布,在 kube-aggregator 的步驟中延遲了。
kube-aggregator(聚合api)主要提供:
詳細設計文檔:參考鏈接
metric api的使用:
喜歡:
http://127.0.0.1:8001/apis/met ... nodes
http://127.0.0.1:8001/apis/met ... odes/
http://127.0.0.1:8001/apis/met ... pods/
度量服務(wù)器
Metrics 服務(wù)器定期從 Kubelet 的 Summary API(類(lèi)似于 /ap1/v1/nodes/nodename/stats/summary)獲取指標信息采集。這些聚合后的數據會(huì )存儲在內存中,并以metric-api的形式暴露出去。
Metrics server復用api-server庫來(lái)實(shí)現自己的功能,比如認證、版本等,為了將數據存儲在內存中,去掉默認的etcd存儲,引入內存存儲(即實(shí)現Storage接口)。因為是存儲在內存中,所以監控數據不是持久化的,可以通過(guò)第三方存儲進(jìn)行擴展,與heapster一致。
Metrics服務(wù)器出現后,新的Kubernetes監控架構將如上圖所示
官方地址:
用
如上所述,metric-server是一個(gè)擴展的apiserver,依賴(lài)kube-aggregator,所以需要在apiserver中開(kāi)啟相關(guān)參數。
--requestheader-client-ca-file=/etc/kubernetes/certs/proxy-ca.crt
--proxy-client-cert-file=/etc/kubernetes/certs/proxy.crt
--proxy-client-key-file=/etc/kubernetes/certs/proxy.key
--requestheader-allowed-names=aggregator
--requestheader-extra-headers-prefix=X-Remote-Extra-
--requestheader-group-headers=X-Remote-Group
--requestheader-username-headers=X-Remote-User
安裝文件下載地址:1.8+,注意修改鏡像地址為國內鏡像
kubectl create -f metric-server/
安裝成功后訪(fǎng)問(wèn)地址api地址為:
Metrics Server 的資源消耗會(huì )隨著(zhù)集群中 Pod 數量的不斷增長(cháng)而不斷上升,因此需要
插件調整器垂直縮放這個(gè)容器。addon-resizer 根據集群中的節點(diǎn)數對 Metrics Server 進(jìn)行線(xiàn)性擴展,以確保其能夠提供完整的指標 API 服務(wù)。具體參考:鏈接
其他
基于 Metrics Server 的 HPA:參考鏈接
在kubernetes新的監控系統中,metrics-server屬于Core metrics,提供API metrics.k8s.io,只提供Node和Pod的CPU和內存使用情況。Other Custom Metrics(自定義指標)由Prometheus等組件完成,后續文章會(huì )對自定義指標進(jìn)行分析。
本文為容器監控實(shí)踐系列文章,完整內容請看:container-monitor-book
文章采集api(創(chuàng )建LoggingAdmin項目ApiBootLogging項目依賴(lài)使用創(chuàng )建項目idea)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 135 次瀏覽 ? 2021-11-09 19:03
通過(guò) ApiBoot Logging 可以獲得每個(gè)請求的詳細信息。在分布式部署模式下,一個(gè)請求可能經(jīng)過(guò)多個(gè)服務(wù)。如果每個(gè)服務(wù)獨立保存請求日志信息,我們無(wú)法實(shí)現統一控制。, 并且會(huì )出現日志數據庫和業(yè)務(wù)數據庫不一致的情況(可能會(huì )使用多個(gè)數據源配置)。正是因為這個(gè)問(wèn)題,ApiBoot Logging 提供了Admin的概念。一條日志上報給Admin,由Admin進(jìn)行分析、存儲等操作。
創(chuàng )建日志管理項目
由于A(yíng)piBoot Logging Admin可以匯總各個(gè)業(yè)務(wù)服務(wù)的請求日志(ApiBoot Logging),我們需要將各個(gè)業(yè)務(wù)服務(wù)的日志采集上報給Admin,所以我們應該使用獨立的方式進(jìn)行部署。創(chuàng )建一個(gè)服務(wù),專(zhuān)門(mén)請求日志并保存。
初始化 Logging Admin 項目依賴(lài)項
使用idea創(chuàng )建一個(gè)SpringBoot項目,pom.xml配置文件中的依賴(lài)如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
org.springframework.boot
spring-boot-starter-web
org.minbox.framework
api-boot-starter-logging-admin
mysql
mysql-connector-java
com.zaxxer
HikariCP
org.minbox.framework
api-boot-starter-mybatis-enhance
我們需要將采集收到的請求日志保存到數據庫中,所以需要在項目中添加數據庫驅動(dòng)和數據庫連接池相關(guān)的依賴(lài)。ApiBoot Logging Admin 使用DataSource 通過(guò)ApiBoot MyBatis Enhance 的依賴(lài)來(lái)操作數據。自動(dòng)創(chuàng )建DataSource,擺脫手動(dòng)創(chuàng )建,加入Spring IOC容器。
添加 ApiBoot 統一版本依賴(lài)
1
2
3
4
5
6
7
8
9
10
11
12
org.minbox.framework
api-boot-dependencies
2.1.4.RELEASE
import
pom
最新版本的ApiBoot請訪(fǎng)問(wèn)::api-boot-dependencies查詢(xún)。
啟用日志管理
添加ApiBoot Logging Admin依賴(lài)后,無(wú)法完全使用Admin功能。我們需要通過(guò)@EnableLoggingAdmin 注釋來(lái)啟用它。這個(gè)注解會(huì )自動(dòng)將Logging Admin中需要的一些類(lèi)注冊到Spring IOC,并在入口類(lèi)中添加注解如下:
1
2
3
4
5
6
7
8
9
10
11
12
/**
* ApiBoot Logging Admin入口類(lèi)
*/
@SpringBootApplication
@EnableLoggingAdmin
public class ApibootReportLogsByLoggingToAdminApplication {
public static void main(String[] args) {
SpringApplication.run(ApibootReportLogsByLoggingToAdminApplication.class, args);
}
}
配置日志數據源
application.yml配置文件中的數據源配置如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
# 服務(wù)名稱(chēng)
spring:
application:
name: apiboot-report-logs-by-logging-to-admin
# 數據源相關(guān)配置
datasource:
driver-class-name: com.mysql.cj.jdbc.Driver
url: jdbc:mysql://localhost:3306/test
username: root
password: 123456
type: com.zaxxer.hikari.HikariDataSource
# 服務(wù)端口號
server:
port: 8081
控制臺打印并報告日志
ApiBoot Logging Admin可以通過(guò)配置文件控制是否在控制臺打印來(lái)自采集的請求日志信息,并在application.yml配置文件中添加如下內容:
1
2
3
4
5
6
7
api:
boot:
logging:
# Logging Admin相關(guān)配置
admin:
# 控制臺顯示采集的日志信息
show-console-report-log: true
注意:這不應與 ApiBoot Logging 提供的 api.boot.logging.show-console-log 配置混淆。
美化控制臺打印的報告日志
1
2
3
4
5
6
7
api:
boot:
logging:
# Logging Admin相關(guān)配置
admin:
# 控制臺輸出時(shí)美化采集到的日志
format-console-log-json: true
注意:不要與這里的 api.boot.logging.format-console-log-json 配置混淆。
初始化日志表結構
ApiBoot Logging Admin 使用固定的表結構來(lái)存儲請求日志和服務(wù)信息。建表語(yǔ)句如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
SET NAMES utf8mb4 ;
--
-- Table structure for table `logging_request_logs`
--
CREATE TABLE `logging_request_logs` (
`lrl_id` varchar(36) COLLATE utf8mb4_general_ci NOT NULL COMMENT '主鍵,UUID',
`lrl_service_detail_id` varchar(36) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '服務(wù)詳情編號,關(guān)聯(lián)logging_service_details主鍵',
`lrl_trace_id` varchar(36) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '鏈路ID',
`lrl_parent_span_id` varchar(36) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '上級跨度ID',
`lrl_span_id` varchar(36) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '跨度ID',
`lrl_start_time` mediumtext COLLATE utf8mb4_general_ci COMMENT '請求開(kāi)始時(shí)間',
`lrl_end_time` mediumtext COLLATE utf8mb4_general_ci COMMENT '請求結束時(shí)間',
`lrl_http_status` int(11) DEFAULT NULL COMMENT '請求響應狀態(tài)碼',
`lrl_request_body` longtext COLLATE utf8mb4_general_ci COMMENT '請求主體內容',
`lrl_request_headers` text COLLATE utf8mb4_general_ci COMMENT '請求頭信息',
`lrl_request_ip` varchar(30) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '發(fā)起請求客戶(hù)端的IP地址',
`lrl_request_method` varchar(10) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '請求方式',
`lrl_request_uri` varchar(200) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '請求路徑',
`lrl_response_body` longtext COLLATE utf8mb4_general_ci COMMENT '響應內容',
`lrl_response_headers` text COLLATE utf8mb4_general_ci COMMENT '響應頭信息',
`lrl_time_consuming` int(11) DEFAULT NULL COMMENT '請求耗時(shí)',
`lrl_create_time` timestamp NULL DEFAULT CURRENT_TIMESTAMP COMMENT '日志保存時(shí)間',
`lrl_request_params` text COLLATE utf8mb4_general_ci,
`lrl_exception_stack` text COLLATE utf8mb4_general_ci,
PRIMARY KEY (`lrl_id`),
KEY `logging_request_logs_LRL_SERVICE_DETAIL_ID_index` (`lrl_service_detail_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_general_ci COMMENT='請求日志信息表';
--
-- Table structure for table `logging_service_details`
--
CREATE TABLE `logging_service_details` (
`lsd_id` varchar(36) COLLATE utf8mb4_general_ci NOT NULL,
`lsd_service_id` varchar(200) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '上報服務(wù)的ID,對應spring.application.name配置值',
`lsd_service_ip` varchar(50) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '上報服務(wù)的IP地址',
`lsd_service_port` int(11) DEFAULT NULL COMMENT '上報服務(wù)的端口號',
`lsd_last_report_time` timestamp NULL DEFAULT NULL COMMENT '最后一次上報時(shí)間,每次上報更新',
`lsd_create_time` timestamp NULL DEFAULT CURRENT_TIMESTAMP COMMENT '首次上報時(shí)創(chuàng )建時(shí)間',
PRIMARY KEY (`lsd_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_general_ci COMMENT='上報日志的客戶(hù)端服務(wù)詳情';
到目前為止,ApiBoot Logging Admin 已經(jīng)準備好了。接下來(lái),我們需要修改業(yè)務(wù)服務(wù),將請求日志上報給 Logging Admin。
向指定的日志管理員報告日志
我們將修改使用ApiBoot Logging統一管理請求日志文章的源碼,并將Logging Admin的地址添加到application.yml中,如下圖:
1
2
3
4
5
6
7
api:
boot:
# ApiBoot Logging 日志組件配置
logging:
# 配置Logging Admin地址
admin:
server-address: 127.0.0.1:8081
api.boot.logging.admin-service-address 的配置格式為:Ip:Port,我們只需要修改這一處,其他的所有任務(wù)內部交給ApiBoot Logging。
測試
我們以Application的形式啟動(dòng)ApiBoot Logging Admin和業(yè)務(wù)服務(wù)。
使用 curl 訪(fǎng)問(wèn)測試地址如下:
1
2
~ curl http://localhost:8080/test\?name\=admin
你好:admin
我們檢查 ApiBoot Logging 管理控制臺日志如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
Receiving Service: 【apiboot-unified-manage-request-logs -> 127.0.0.1】, Request Log Report,Logging Content:[
{
"endTime":1571641723779,
"httpStatus":200,
"requestBody":"",
"requestHeaders":{
"server-region":"JiNan",
"host":"localhost:8080",
"user-agent":"curl/7.64.1",
"accept":"*/*"
},
"requestIp":"0:0:0:0:0:0:0:1",
"requestMethod":"GET",
"requestParam":"{\"name\":\"admin\"}",
"requestUri":"/test",
"responseBody":"你好:admin",
"responseHeaders":{},
"serviceId":"apiboot-unified-manage-request-logs",
"serviceIp":"127.0.0.1",
"servicePort":"8080",
"spanId":"95a73ca0-831b-45df-aa43-2b5887e8d98d",
"startTime":1571641723776,
"timeConsuming":3,
"traceId":"25a7de96-b3dd-48e5-9854-1a8069a4a681"
}
]
我們已經(jīng)看到Logging Admin控制臺打印的報告請求日志,并不確定這個(gè)請求的日志是否已經(jīng)保存到數據庫中。接下來(lái)我使用命令行查看數據庫的日志信息。
查看 logging_service_details 表中的數據
1
2
3
4
5
6
7
8
mysql> select * from logging_service_details\G;
*************************** 1. row ***************************
lsd_id: b069366a-25dc-41ec-8f09-242d81755cd0
lsd_service_id: apiboot-unified-manage-request-logs
lsd_service_ip: 10.180.98.112
lsd_service_port: 8080
lsd_last_report_time: 2019-10-21 02:14:26
lsd_create_time: 2019-10-21 15:14:26
logging_service_details 存儲了每個(gè)上報請求日志的業(yè)務(wù)服務(wù)的基本信息。每個(gè)服務(wù)的基本信息都會(huì )緩存在Logging Admin內存中,方便獲取service_id用于存儲日志。唯一性根據ip+port+service_id確定,同一個(gè)service只保存一次。
查看 logging_request_logs 表中的數據
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
mysql> select * from logging_request_logs\G;
*************************** 1. row ***************************
lrl_id: c42761f6-b072-4744-8a17-d8e6097b85de
lrl_service_detail_id: b069366a-25dc-41ec-8f09-242d81755cd0
lrl_trace_id: 055329a0-cfc1-4606-baf0-4fb0cc905ba2
lrl_parent_span_id: NULL
lrl_span_id: aab83092-7749-4f88-8cb6-a949cc060197
lrl_start_time: 1571642065262
lrl_end_time: 1571642065286
lrl_http_status: 200
lrl_request_body:
lrl_request_headers: {"server-region":"JiNan","host":"localhost:8080","user-agent":"curl/7.64.1","accept":"*/*"}
lrl_request_ip: 0:0:0:0:0:0:0:1
lrl_request_method: GET
lrl_request_uri: /test
lrl_response_body: 你好:admin
lrl_response_headers: {}
lrl_time_consuming: 24
lrl_create_time: 2019-10-21 15:14:26
lrl_request_params: {"name":"admin"}
lrl_exception_stack: NULL
敲黑板畫(huà)重點(diǎn)
本章我們集成了ApiBoot Logging Admin,將業(yè)務(wù)服務(wù)的每一個(gè)請求日志上報給Logging Admin,通過(guò)數據庫保存請求日志,然后使用其他方法,可以通過(guò)spanId和traceId查看每一項的日志-從屬關(guān)系請求鏈路和每個(gè)請求中消耗時(shí)間最多的跨度可以準確優(yōu)化服務(wù)性能。
代碼示例
如果你喜歡這篇文章文章,請為源碼倉庫點(diǎn)個(gè)Star,謝謝?。?!
本文章示例源碼可以通過(guò)以下方式獲取,目錄為apiboot-report-logs-by-logging-to-admin:
本文由恒宇少年-于啟宇撰寫(xiě),遵循CC4.0BY-SA版權協(xié)議。轉載請注明文章出處。公眾號轉載請聯(lián)系“微信” 查看全部
文章采集api(創(chuàng )建LoggingAdmin項目ApiBootLogging項目依賴(lài)使用創(chuàng )建項目idea)
通過(guò) ApiBoot Logging 可以獲得每個(gè)請求的詳細信息。在分布式部署模式下,一個(gè)請求可能經(jīng)過(guò)多個(gè)服務(wù)。如果每個(gè)服務(wù)獨立保存請求日志信息,我們無(wú)法實(shí)現統一控制。, 并且會(huì )出現日志數據庫和業(yè)務(wù)數據庫不一致的情況(可能會(huì )使用多個(gè)數據源配置)。正是因為這個(gè)問(wèn)題,ApiBoot Logging 提供了Admin的概念。一條日志上報給Admin,由Admin進(jìn)行分析、存儲等操作。
創(chuàng )建日志管理項目
由于A(yíng)piBoot Logging Admin可以匯總各個(gè)業(yè)務(wù)服務(wù)的請求日志(ApiBoot Logging),我們需要將各個(gè)業(yè)務(wù)服務(wù)的日志采集上報給Admin,所以我們應該使用獨立的方式進(jìn)行部署。創(chuàng )建一個(gè)服務(wù),專(zhuān)門(mén)請求日志并保存。
初始化 Logging Admin 項目依賴(lài)項
使用idea創(chuàng )建一個(gè)SpringBoot項目,pom.xml配置文件中的依賴(lài)如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
org.springframework.boot
spring-boot-starter-web
org.minbox.framework
api-boot-starter-logging-admin
mysql
mysql-connector-java
com.zaxxer
HikariCP
org.minbox.framework
api-boot-starter-mybatis-enhance
我們需要將采集收到的請求日志保存到數據庫中,所以需要在項目中添加數據庫驅動(dòng)和數據庫連接池相關(guān)的依賴(lài)。ApiBoot Logging Admin 使用DataSource 通過(guò)ApiBoot MyBatis Enhance 的依賴(lài)來(lái)操作數據。自動(dòng)創(chuàng )建DataSource,擺脫手動(dòng)創(chuàng )建,加入Spring IOC容器。
添加 ApiBoot 統一版本依賴(lài)
1
2
3
4
5
6
7
8
9
10
11
12
org.minbox.framework
api-boot-dependencies
2.1.4.RELEASE
import
pom
最新版本的ApiBoot請訪(fǎng)問(wèn)::api-boot-dependencies查詢(xún)。
啟用日志管理
添加ApiBoot Logging Admin依賴(lài)后,無(wú)法完全使用Admin功能。我們需要通過(guò)@EnableLoggingAdmin 注釋來(lái)啟用它。這個(gè)注解會(huì )自動(dòng)將Logging Admin中需要的一些類(lèi)注冊到Spring IOC,并在入口類(lèi)中添加注解如下:
1
2
3
4
5
6
7
8
9
10
11
12
/**
* ApiBoot Logging Admin入口類(lèi)
*/
@SpringBootApplication
@EnableLoggingAdmin
public class ApibootReportLogsByLoggingToAdminApplication {
public static void main(String[] args) {
SpringApplication.run(ApibootReportLogsByLoggingToAdminApplication.class, args);
}
}
配置日志數據源
application.yml配置文件中的數據源配置如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
# 服務(wù)名稱(chēng)
spring:
application:
name: apiboot-report-logs-by-logging-to-admin
# 數據源相關(guān)配置
datasource:
driver-class-name: com.mysql.cj.jdbc.Driver
url: jdbc:mysql://localhost:3306/test
username: root
password: 123456
type: com.zaxxer.hikari.HikariDataSource
# 服務(wù)端口號
server:
port: 8081
控制臺打印并報告日志
ApiBoot Logging Admin可以通過(guò)配置文件控制是否在控制臺打印來(lái)自采集的請求日志信息,并在application.yml配置文件中添加如下內容:
1
2
3
4
5
6
7
api:
boot:
logging:
# Logging Admin相關(guān)配置
admin:
# 控制臺顯示采集的日志信息
show-console-report-log: true
注意:這不應與 ApiBoot Logging 提供的 api.boot.logging.show-console-log 配置混淆。
美化控制臺打印的報告日志
1
2
3
4
5
6
7
api:
boot:
logging:
# Logging Admin相關(guān)配置
admin:
# 控制臺輸出時(shí)美化采集到的日志
format-console-log-json: true
注意:不要與這里的 api.boot.logging.format-console-log-json 配置混淆。
初始化日志表結構
ApiBoot Logging Admin 使用固定的表結構來(lái)存儲請求日志和服務(wù)信息。建表語(yǔ)句如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
SET NAMES utf8mb4 ;
--
-- Table structure for table `logging_request_logs`
--
CREATE TABLE `logging_request_logs` (
`lrl_id` varchar(36) COLLATE utf8mb4_general_ci NOT NULL COMMENT '主鍵,UUID',
`lrl_service_detail_id` varchar(36) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '服務(wù)詳情編號,關(guān)聯(lián)logging_service_details主鍵',
`lrl_trace_id` varchar(36) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '鏈路ID',
`lrl_parent_span_id` varchar(36) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '上級跨度ID',
`lrl_span_id` varchar(36) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '跨度ID',
`lrl_start_time` mediumtext COLLATE utf8mb4_general_ci COMMENT '請求開(kāi)始時(shí)間',
`lrl_end_time` mediumtext COLLATE utf8mb4_general_ci COMMENT '請求結束時(shí)間',
`lrl_http_status` int(11) DEFAULT NULL COMMENT '請求響應狀態(tài)碼',
`lrl_request_body` longtext COLLATE utf8mb4_general_ci COMMENT '請求主體內容',
`lrl_request_headers` text COLLATE utf8mb4_general_ci COMMENT '請求頭信息',
`lrl_request_ip` varchar(30) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '發(fā)起請求客戶(hù)端的IP地址',
`lrl_request_method` varchar(10) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '請求方式',
`lrl_request_uri` varchar(200) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '請求路徑',
`lrl_response_body` longtext COLLATE utf8mb4_general_ci COMMENT '響應內容',
`lrl_response_headers` text COLLATE utf8mb4_general_ci COMMENT '響應頭信息',
`lrl_time_consuming` int(11) DEFAULT NULL COMMENT '請求耗時(shí)',
`lrl_create_time` timestamp NULL DEFAULT CURRENT_TIMESTAMP COMMENT '日志保存時(shí)間',
`lrl_request_params` text COLLATE utf8mb4_general_ci,
`lrl_exception_stack` text COLLATE utf8mb4_general_ci,
PRIMARY KEY (`lrl_id`),
KEY `logging_request_logs_LRL_SERVICE_DETAIL_ID_index` (`lrl_service_detail_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_general_ci COMMENT='請求日志信息表';
--
-- Table structure for table `logging_service_details`
--
CREATE TABLE `logging_service_details` (
`lsd_id` varchar(36) COLLATE utf8mb4_general_ci NOT NULL,
`lsd_service_id` varchar(200) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '上報服務(wù)的ID,對應spring.application.name配置值',
`lsd_service_ip` varchar(50) COLLATE utf8mb4_general_ci DEFAULT NULL COMMENT '上報服務(wù)的IP地址',
`lsd_service_port` int(11) DEFAULT NULL COMMENT '上報服務(wù)的端口號',
`lsd_last_report_time` timestamp NULL DEFAULT NULL COMMENT '最后一次上報時(shí)間,每次上報更新',
`lsd_create_time` timestamp NULL DEFAULT CURRENT_TIMESTAMP COMMENT '首次上報時(shí)創(chuàng )建時(shí)間',
PRIMARY KEY (`lsd_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_general_ci COMMENT='上報日志的客戶(hù)端服務(wù)詳情';
到目前為止,ApiBoot Logging Admin 已經(jīng)準備好了。接下來(lái),我們需要修改業(yè)務(wù)服務(wù),將請求日志上報給 Logging Admin。
向指定的日志管理員報告日志
我們將修改使用ApiBoot Logging統一管理請求日志文章的源碼,并將Logging Admin的地址添加到application.yml中,如下圖:
1
2
3
4
5
6
7
api:
boot:
# ApiBoot Logging 日志組件配置
logging:
# 配置Logging Admin地址
admin:
server-address: 127.0.0.1:8081
api.boot.logging.admin-service-address 的配置格式為:Ip:Port,我們只需要修改這一處,其他的所有任務(wù)內部交給ApiBoot Logging。
測試
我們以Application的形式啟動(dòng)ApiBoot Logging Admin和業(yè)務(wù)服務(wù)。
使用 curl 訪(fǎng)問(wèn)測試地址如下:
1
2
~ curl http://localhost:8080/test\?name\=admin
你好:admin
我們檢查 ApiBoot Logging 管理控制臺日志如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
Receiving Service: 【apiboot-unified-manage-request-logs -> 127.0.0.1】, Request Log Report,Logging Content:[
{
"endTime":1571641723779,
"httpStatus":200,
"requestBody":"",
"requestHeaders":{
"server-region":"JiNan",
"host":"localhost:8080",
"user-agent":"curl/7.64.1",
"accept":"*/*"
},
"requestIp":"0:0:0:0:0:0:0:1",
"requestMethod":"GET",
"requestParam":"{\"name\":\"admin\"}",
"requestUri":"/test",
"responseBody":"你好:admin",
"responseHeaders":{},
"serviceId":"apiboot-unified-manage-request-logs",
"serviceIp":"127.0.0.1",
"servicePort":"8080",
"spanId":"95a73ca0-831b-45df-aa43-2b5887e8d98d",
"startTime":1571641723776,
"timeConsuming":3,
"traceId":"25a7de96-b3dd-48e5-9854-1a8069a4a681"
}
]
我們已經(jīng)看到Logging Admin控制臺打印的報告請求日志,并不確定這個(gè)請求的日志是否已經(jīng)保存到數據庫中。接下來(lái)我使用命令行查看數據庫的日志信息。
查看 logging_service_details 表中的數據
1
2
3
4
5
6
7
8
mysql> select * from logging_service_details\G;
*************************** 1. row ***************************
lsd_id: b069366a-25dc-41ec-8f09-242d81755cd0
lsd_service_id: apiboot-unified-manage-request-logs
lsd_service_ip: 10.180.98.112
lsd_service_port: 8080
lsd_last_report_time: 2019-10-21 02:14:26
lsd_create_time: 2019-10-21 15:14:26
logging_service_details 存儲了每個(gè)上報請求日志的業(yè)務(wù)服務(wù)的基本信息。每個(gè)服務(wù)的基本信息都會(huì )緩存在Logging Admin內存中,方便獲取service_id用于存儲日志。唯一性根據ip+port+service_id確定,同一個(gè)service只保存一次。
查看 logging_request_logs 表中的數據
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
mysql> select * from logging_request_logs\G;
*************************** 1. row ***************************
lrl_id: c42761f6-b072-4744-8a17-d8e6097b85de
lrl_service_detail_id: b069366a-25dc-41ec-8f09-242d81755cd0
lrl_trace_id: 055329a0-cfc1-4606-baf0-4fb0cc905ba2
lrl_parent_span_id: NULL
lrl_span_id: aab83092-7749-4f88-8cb6-a949cc060197
lrl_start_time: 1571642065262
lrl_end_time: 1571642065286
lrl_http_status: 200
lrl_request_body:
lrl_request_headers: {"server-region":"JiNan","host":"localhost:8080","user-agent":"curl/7.64.1","accept":"*/*"}
lrl_request_ip: 0:0:0:0:0:0:0:1
lrl_request_method: GET
lrl_request_uri: /test
lrl_response_body: 你好:admin
lrl_response_headers: {}
lrl_time_consuming: 24
lrl_create_time: 2019-10-21 15:14:26
lrl_request_params: {"name":"admin"}
lrl_exception_stack: NULL
敲黑板畫(huà)重點(diǎn)
本章我們集成了ApiBoot Logging Admin,將業(yè)務(wù)服務(wù)的每一個(gè)請求日志上報給Logging Admin,通過(guò)數據庫保存請求日志,然后使用其他方法,可以通過(guò)spanId和traceId查看每一項的日志-從屬關(guān)系請求鏈路和每個(gè)請求中消耗時(shí)間最多的跨度可以準確優(yōu)化服務(wù)性能。
代碼示例
如果你喜歡這篇文章文章,請為源碼倉庫點(diǎn)個(gè)Star,謝謝?。?!
本文章示例源碼可以通過(guò)以下方式獲取,目錄為apiboot-report-logs-by-logging-to-admin:
本文由恒宇少年-于啟宇撰寫(xiě),遵循CC4.0BY-SA版權協(xié)議。轉載請注明文章出處。公眾號轉載請聯(lián)系“微信”
文章采集api(基于A(yíng)PI的微博信息采集系統設計與實(shí)現(組圖))
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 141 次瀏覽 ? 2021-11-09 19:02
基于A(yíng)PI的微博信息采集系統設計與實(shí)現小結:微博已經(jīng)成為網(wǎng)絡(luò )信息的重要來(lái)源。本文分析了微博信息采集的相關(guān)方法和技術(shù),提出了基于A(yíng)PI的信息采集方法,進(jìn)而設計了一個(gè)能夠采集相關(guān)信息的信息采集系統在新浪微博上。實(shí)驗測試表明,信息采集系統可以快速有效地采集新浪微博信息。關(guān)鍵詞:新浪微博;微博界面;資料采集; C#語(yǔ)言中文圖書(shū)館分類(lèi)號:TP315 文檔識別碼:A 文章 編號:1009-3044(2013)17-4005-04 微博[1],微博的簡(jiǎn)稱(chēng),是一個(gè)信息共享平臺, 基于用戶(hù)關(guān)系的傳播和獲取。用戶(hù)可以使用140字的WEB、WAP和各種客戶(hù)端組件的個(gè)人社區左右文字更新信息,實(shí)現即時(shí)分享。中國互聯(lián)網(wǎng)絡(luò )信息中心《第31次中國互聯(lián)網(wǎng)絡(luò )發(fā)展狀況統計報告》顯示,截至2012年12月末,截至2012年12月末,中國微博用戶(hù)數為3.09億,比2011年末增加5873萬(wàn),網(wǎng)民中微博用戶(hù)占比比上年末提高6個(gè)百分點(diǎn),達到54.7%[2]。隨著(zhù)微博網(wǎng)絡(luò )的影響力的迅速擴張,政府部門(mén)、學(xué)校、知名企業(yè)、公眾人物都開(kāi)通了微博。在公眾的參與下,微博已經(jīng)成為一個(gè)強大的虛擬社會(huì )。微博已成為網(wǎng)絡(luò )信息的重要來(lái)源。如何快速有效地使用采集微博信息已成為一項具有重要應用價(jià)值的研究。
1 研究方法和技術(shù)路線(xiàn) 國內微博用戶(hù)以新浪微博為主,本文擬以新浪微博為例,設計研究方法和技術(shù)路線(xiàn)。通過(guò)對國內外科技文獻和實(shí)際應用案例的分析,目前新浪微博的信息采集方法主要分為兩類(lèi):一類(lèi)是“模擬登錄”、“網(wǎng)絡(luò )爬蟲(chóng)”[3] ],以及“網(wǎng)頁(yè)內容”“分析”[4]信息采集三種技術(shù)相結合的方法。二是基于新浪微博開(kāi)放平臺的API文檔。開(kāi)發(fā)者自己編寫(xiě)程序調用微博的API進(jìn)行微博信息采集。對于第一種方法,難度比較高,研究技術(shù)復雜,尤其是“模擬登錄”這一步。需要隨時(shí)跟蹤新浪微博的登錄加密算法。新浪微博登錄加密算法的變化會(huì )導致“網(wǎng)絡(luò )爬蟲(chóng)”?!安杉氖∽罱K導致微博信息缺失。同時(shí),“網(wǎng)絡(luò )爬蟲(chóng)”采集到達的網(wǎng)頁(yè)需要進(jìn)行“頁(yè)面內容分析”,還有與基于A(yíng)PI的數據采集相比,效率和性能差距明顯?;谝陨弦蛩?,本文擬采用第二種方法進(jìn)行研究?;谛吕宋⒉┑奈⒉┬畔⒉杉到y開(kāi)放平臺API文檔主要采用兩種研究方法:文獻分析法和實(shí)驗測試法。文檔分析方法:參考新浪微博開(kāi)放平臺的API文檔,將這些API描述文檔寫(xiě)成單獨的接口文件。實(shí)驗測試方法:在VS.NET2010平臺[5]上,使用C/S模式開(kāi)發(fā)程序調用接口類(lèi),采集微博返回的JOSN數據流,實(shí)現相關(guān)測試開(kāi)發(fā)數據 采集 。
根據以上兩種研究方法,設計本研究的技術(shù)路線(xiàn):一是申請新浪微博開(kāi)放平臺App Key和App Secret。審核通過(guò)后,閱讀理解API文檔,將API文檔描述寫(xiě)入API接口代碼類(lèi)(c#語(yǔ)言),然后進(jìn)行OAuth2.0認證測試。認證通過(guò)后,可以獲得Access Token,從而有權限調用API的各種功能接口,然后通過(guò)POST或GET調用API接口。最后返回JOSN數據流,最后解析這個(gè)數據流,保存為本地文本文件或數據庫。詳細技術(shù)路線(xiàn)如圖1所示。 2研究?jì)热菰O計微博信息采集系統功能結構如圖2所示。系統分為七個(gè)部分,分別是:微博界面認證、微博用戶(hù)登錄、登錄用戶(hù)發(fā)微博、采集當前登錄用戶(hù)信息、采集其他用戶(hù)信息、采集其他用戶(hù)微博、采集學(xué)校信息、采集微博信息內容。1) 微博接口認證:訪(fǎng)問(wèn)大部分新浪微博API,如發(fā)布微博、獲取私信等,都需要用戶(hù)身份認證。目前新浪微博開(kāi)放平臺上的用戶(hù)身份認證包括OAuth2.0和Basic Auth(僅用于應用開(kāi)發(fā)者調試接口),新版接口也僅支持這兩種方式[6] . 所以,系統設計開(kāi)發(fā)的第一步是做微博界面鑒權功能。2) 微博用戶(hù)登錄:通過(guò)認證后,所有在新浪微博上注冊的用戶(hù)都可以通過(guò)本系統登錄并發(fā)布微博。
3)采集登錄用戶(hù)信息:用戶(hù)登錄后,可以通過(guò)本系統查看自己的賬號信息、自己的微博信息以及關(guān)注者的微博信息。4)采集 其他用戶(hù)信息:這個(gè)功能主要是輸入微博用戶(hù)的昵稱(chēng),可以采集獲取昵稱(chēng)用戶(hù)的賬號信息,比如他有多少粉絲有,他關(guān)注哪些人,有多少人關(guān)注他,這個(gè)信息在微博采集中也是很有價(jià)值的。5)采集 其他用戶(hù)的微博:此功能也使用微博用戶(hù)的昵稱(chēng)來(lái)采集更改用戶(hù)發(fā)送的所有微博信息。這個(gè)功能的目的是為了以后擴展為了自動(dòng)采集 每隔一段時(shí)間將目標中多個(gè)微博用戶(hù)的微博信息設置到本地進(jìn)行數據內容分析。6)采集學(xué)校信息:該功能通過(guò)學(xué)校名稱(chēng)的模糊查詢(xún),獲取學(xué)校微博賬號ID、學(xué)校所在地區、學(xué)校類(lèi)型信息。這是采集學(xué)校在微博上的影響力的基本數據。7)采集微博信息內容:您可以點(diǎn)擊微博內容關(guān)鍵詞查詢(xún),采集這條微博信息收錄本關(guān)鍵詞。但由于本次API接口調用需要高級權限,在系統完全發(fā)布前和新浪微博開(kāi)放平臺審核通過(guò)前,無(wú)法直接測試使用。3 主要功能的實(shí)現3. 1 微博界面認證功能 大部分新浪微博API訪(fǎng)問(wèn)都需要用戶(hù)認證。本系統采用OAuth2.0設計微博界面認證功能,新浪微博認證流程如圖3所示。
4 總結本文主要對微博信息采集的方法和技術(shù)進(jìn)行了一系列的研究,然后設計開(kāi)發(fā)了一個(gè)基于A(yíng)PI的新浪微博信息采集系統,實(shí)現了微博的基礎信息采集,在一定程度上解決了微博信息采集的自動(dòng)化和采集結果數據格式的標準化。但是,目前本系統的微博信息采集方法只能輸入單個(gè)“關(guān)鍵詞”采集進(jìn)行唯一匹配,沒(méi)有批量多個(gè)“搜索詞”采集,沒(méi)有“話(huà)題型”微博信息采集功能,所以下一步的研究工作就是如何設計話(huà)題模型來(lái)優(yōu)化系統。參考:[1]文銳.微博知乎[J].軟件工程師, 2009 (12): 19-20. [2] 中國互聯(lián)網(wǎng)絡(luò )信息中心. 第31次中國互聯(lián)網(wǎng)絡(luò )發(fā)展統計報告[EB/OL]. (2013-01-1 5).http: ///hlwfzyj/hlwxzbg/hlwtjbg/201301/38508.htm. [3] 羅剛, 王振東. 自己手寫(xiě)的網(wǎng)絡(luò )爬蟲(chóng)[M]. 北京:清華大學(xué)出版社, 2010. [4] 于滿(mǎn)全, 陳鐵瑞, 徐洪波. 基于塊的網(wǎng)頁(yè)信息解析器的研究與設計[J ]. 計算機應用, 2005, 25 (4):974-97 6. [5] Nick Randolph, David Gardner, Chris Anderson, et al.Professional Visual Studio 2010[M].Wrox, 2010. [6] 新浪微博開(kāi)放平臺.授權機制說(shuō)明[EB] /OL]. (2013-01-19). 第31次中國互聯(lián)網(wǎng)發(fā)展統計報告[EB/OL]。(2013-01-15).http: ///hlwfzyj/hlwxzbg/hlwtjbg/201301/38508.htm. [3] 羅剛, 王振東. 自己手寫(xiě)網(wǎng)頁(yè)爬蟲(chóng)[M] . 北京: 清華大學(xué)出版社, 2010. [4] 于滿(mǎn)全, 陳鐵瑞, 徐洪波. 基于塊的網(wǎng)頁(yè)信息解析器的研究與設計[J]. 計算機應用, 2005, 25 (4):974-976. [5] Nick Randolph, David Gardner, Chris Anderson, et al.Professional Visual Studio 2010[M].Wrox, 2010. [6] 新浪微博開(kāi)放平臺。授權機制說(shuō)明[EB/OL]. (2013-01-19). 第31次中國互聯(lián)網(wǎng)發(fā)展統計報告[EB/OL]。(2013-01-15).http: ///hlwfzyj/hlwxzbg/hlwtjbg/201301/38508.htm. [3] 羅剛, 王振東. 自己手寫(xiě)網(wǎng)頁(yè)爬蟲(chóng)[M] . 北京: 清華大學(xué)出版社, 2010. [4] 于滿(mǎn)全, 陳鐵瑞, 徐洪波. 基于塊的網(wǎng)頁(yè)信息解析器的研究與設計[J]. 計算機應用, 2005, 25 (4):974-976. [5] Nick Randolph, David Gardner, Chris Anderson, et al.Professional Visual Studio 2010[M].Wrox, 2010. [6] 新浪微博開(kāi)放平臺。授權機制說(shuō)明[EB/OL]. (2013-01-19). 王振東。自己手寫(xiě)的網(wǎng)絡(luò )爬蟲(chóng)[M]. 北京:清華大學(xué)出版社,2010. [4] 于曼全、陳鐵瑞、徐洪波?;趬K的網(wǎng)頁(yè)信息解析器的研究與設計[J]. 計算機應用,2005, 25 (4):974-976. [5] Nick Randolph, David Gardner, Chris Anderson, et al.Professional Visual Studio 2010[M].Wrox, 2010. [6] 新浪微博開(kāi)放平臺. 授權機制解讀[EB/OL]. (2013-01-19). 王振東。自己手寫(xiě)的網(wǎng)絡(luò )爬蟲(chóng)[M]. 北京:清華大學(xué)出版社,2010. [4] 于曼泉、陳鐵瑞、徐洪波?;趬K的網(wǎng)頁(yè)信息解析器的研究與設計[J]. 計算機應用,2005, 25 (4):974-976. [5] Nick Randolph, David Gardner, Chris Anderson, et al.Professional Visual Studio 2010[M].Wrox, 2010. [6] 新浪微博開(kāi)放平臺. 授權機制解讀[EB/OL]. (2013-01-19). Professional Visual Studio 2010[M].Wrox,2010. [6] 新浪微博開(kāi)放平臺。授權機制說(shuō)明[EB/OL]。(2013-01-19). Professional Visual Studio 2010[M].Wrox,2010. [6] 新浪微博開(kāi)放平臺。授權機制說(shuō)明[EB/OL]。(2013-01-19). 查看全部
文章采集api(基于A(yíng)PI的微博信息采集系統設計與實(shí)現(組圖))
基于A(yíng)PI的微博信息采集系統設計與實(shí)現小結:微博已經(jīng)成為網(wǎng)絡(luò )信息的重要來(lái)源。本文分析了微博信息采集的相關(guān)方法和技術(shù),提出了基于A(yíng)PI的信息采集方法,進(jìn)而設計了一個(gè)能夠采集相關(guān)信息的信息采集系統在新浪微博上。實(shí)驗測試表明,信息采集系統可以快速有效地采集新浪微博信息。關(guān)鍵詞:新浪微博;微博界面;資料采集; C#語(yǔ)言中文圖書(shū)館分類(lèi)號:TP315 文檔識別碼:A 文章 編號:1009-3044(2013)17-4005-04 微博[1],微博的簡(jiǎn)稱(chēng),是一個(gè)信息共享平臺, 基于用戶(hù)關(guān)系的傳播和獲取。用戶(hù)可以使用140字的WEB、WAP和各種客戶(hù)端組件的個(gè)人社區左右文字更新信息,實(shí)現即時(shí)分享。中國互聯(lián)網(wǎng)絡(luò )信息中心《第31次中國互聯(lián)網(wǎng)絡(luò )發(fā)展狀況統計報告》顯示,截至2012年12月末,截至2012年12月末,中國微博用戶(hù)數為3.09億,比2011年末增加5873萬(wàn),網(wǎng)民中微博用戶(hù)占比比上年末提高6個(gè)百分點(diǎn),達到54.7%[2]。隨著(zhù)微博網(wǎng)絡(luò )的影響力的迅速擴張,政府部門(mén)、學(xué)校、知名企業(yè)、公眾人物都開(kāi)通了微博。在公眾的參與下,微博已經(jīng)成為一個(gè)強大的虛擬社會(huì )。微博已成為網(wǎng)絡(luò )信息的重要來(lái)源。如何快速有效地使用采集微博信息已成為一項具有重要應用價(jià)值的研究。
1 研究方法和技術(shù)路線(xiàn) 國內微博用戶(hù)以新浪微博為主,本文擬以新浪微博為例,設計研究方法和技術(shù)路線(xiàn)。通過(guò)對國內外科技文獻和實(shí)際應用案例的分析,目前新浪微博的信息采集方法主要分為兩類(lèi):一類(lèi)是“模擬登錄”、“網(wǎng)絡(luò )爬蟲(chóng)”[3] ],以及“網(wǎng)頁(yè)內容”“分析”[4]信息采集三種技術(shù)相結合的方法。二是基于新浪微博開(kāi)放平臺的API文檔。開(kāi)發(fā)者自己編寫(xiě)程序調用微博的API進(jìn)行微博信息采集。對于第一種方法,難度比較高,研究技術(shù)復雜,尤其是“模擬登錄”這一步。需要隨時(shí)跟蹤新浪微博的登錄加密算法。新浪微博登錄加密算法的變化會(huì )導致“網(wǎng)絡(luò )爬蟲(chóng)”?!安杉氖∽罱K導致微博信息缺失。同時(shí),“網(wǎng)絡(luò )爬蟲(chóng)”采集到達的網(wǎng)頁(yè)需要進(jìn)行“頁(yè)面內容分析”,還有與基于A(yíng)PI的數據采集相比,效率和性能差距明顯?;谝陨弦蛩?,本文擬采用第二種方法進(jìn)行研究?;谛吕宋⒉┑奈⒉┬畔⒉杉到y開(kāi)放平臺API文檔主要采用兩種研究方法:文獻分析法和實(shí)驗測試法。文檔分析方法:參考新浪微博開(kāi)放平臺的API文檔,將這些API描述文檔寫(xiě)成單獨的接口文件。實(shí)驗測試方法:在VS.NET2010平臺[5]上,使用C/S模式開(kāi)發(fā)程序調用接口類(lèi),采集微博返回的JOSN數據流,實(shí)現相關(guān)測試開(kāi)發(fā)數據 采集 。
根據以上兩種研究方法,設計本研究的技術(shù)路線(xiàn):一是申請新浪微博開(kāi)放平臺App Key和App Secret。審核通過(guò)后,閱讀理解API文檔,將API文檔描述寫(xiě)入API接口代碼類(lèi)(c#語(yǔ)言),然后進(jìn)行OAuth2.0認證測試。認證通過(guò)后,可以獲得Access Token,從而有權限調用API的各種功能接口,然后通過(guò)POST或GET調用API接口。最后返回JOSN數據流,最后解析這個(gè)數據流,保存為本地文本文件或數據庫。詳細技術(shù)路線(xiàn)如圖1所示。 2研究?jì)热菰O計微博信息采集系統功能結構如圖2所示。系統分為七個(gè)部分,分別是:微博界面認證、微博用戶(hù)登錄、登錄用戶(hù)發(fā)微博、采集當前登錄用戶(hù)信息、采集其他用戶(hù)信息、采集其他用戶(hù)微博、采集學(xué)校信息、采集微博信息內容。1) 微博接口認證:訪(fǎng)問(wèn)大部分新浪微博API,如發(fā)布微博、獲取私信等,都需要用戶(hù)身份認證。目前新浪微博開(kāi)放平臺上的用戶(hù)身份認證包括OAuth2.0和Basic Auth(僅用于應用開(kāi)發(fā)者調試接口),新版接口也僅支持這兩種方式[6] . 所以,系統設計開(kāi)發(fā)的第一步是做微博界面鑒權功能。2) 微博用戶(hù)登錄:通過(guò)認證后,所有在新浪微博上注冊的用戶(hù)都可以通過(guò)本系統登錄并發(fā)布微博。
3)采集登錄用戶(hù)信息:用戶(hù)登錄后,可以通過(guò)本系統查看自己的賬號信息、自己的微博信息以及關(guān)注者的微博信息。4)采集 其他用戶(hù)信息:這個(gè)功能主要是輸入微博用戶(hù)的昵稱(chēng),可以采集獲取昵稱(chēng)用戶(hù)的賬號信息,比如他有多少粉絲有,他關(guān)注哪些人,有多少人關(guān)注他,這個(gè)信息在微博采集中也是很有價(jià)值的。5)采集 其他用戶(hù)的微博:此功能也使用微博用戶(hù)的昵稱(chēng)來(lái)采集更改用戶(hù)發(fā)送的所有微博信息。這個(gè)功能的目的是為了以后擴展為了自動(dòng)采集 每隔一段時(shí)間將目標中多個(gè)微博用戶(hù)的微博信息設置到本地進(jìn)行數據內容分析。6)采集學(xué)校信息:該功能通過(guò)學(xué)校名稱(chēng)的模糊查詢(xún),獲取學(xué)校微博賬號ID、學(xué)校所在地區、學(xué)校類(lèi)型信息。這是采集學(xué)校在微博上的影響力的基本數據。7)采集微博信息內容:您可以點(diǎn)擊微博內容關(guān)鍵詞查詢(xún),采集這條微博信息收錄本關(guān)鍵詞。但由于本次API接口調用需要高級權限,在系統完全發(fā)布前和新浪微博開(kāi)放平臺審核通過(guò)前,無(wú)法直接測試使用。3 主要功能的實(shí)現3. 1 微博界面認證功能 大部分新浪微博API訪(fǎng)問(wèn)都需要用戶(hù)認證。本系統采用OAuth2.0設計微博界面認證功能,新浪微博認證流程如圖3所示。
4 總結本文主要對微博信息采集的方法和技術(shù)進(jìn)行了一系列的研究,然后設計開(kāi)發(fā)了一個(gè)基于A(yíng)PI的新浪微博信息采集系統,實(shí)現了微博的基礎信息采集,在一定程度上解決了微博信息采集的自動(dòng)化和采集結果數據格式的標準化。但是,目前本系統的微博信息采集方法只能輸入單個(gè)“關(guān)鍵詞”采集進(jìn)行唯一匹配,沒(méi)有批量多個(gè)“搜索詞”采集,沒(méi)有“話(huà)題型”微博信息采集功能,所以下一步的研究工作就是如何設計話(huà)題模型來(lái)優(yōu)化系統。參考:[1]文銳.微博知乎[J].軟件工程師, 2009 (12): 19-20. [2] 中國互聯(lián)網(wǎng)絡(luò )信息中心. 第31次中國互聯(lián)網(wǎng)絡(luò )發(fā)展統計報告[EB/OL]. (2013-01-1 5).http: ///hlwfzyj/hlwxzbg/hlwtjbg/201301/38508.htm. [3] 羅剛, 王振東. 自己手寫(xiě)的網(wǎng)絡(luò )爬蟲(chóng)[M]. 北京:清華大學(xué)出版社, 2010. [4] 于滿(mǎn)全, 陳鐵瑞, 徐洪波. 基于塊的網(wǎng)頁(yè)信息解析器的研究與設計[J ]. 計算機應用, 2005, 25 (4):974-97 6. [5] Nick Randolph, David Gardner, Chris Anderson, et al.Professional Visual Studio 2010[M].Wrox, 2010. [6] 新浪微博開(kāi)放平臺.授權機制說(shuō)明[EB] /OL]. (2013-01-19). 第31次中國互聯(lián)網(wǎng)發(fā)展統計報告[EB/OL]。(2013-01-15).http: ///hlwfzyj/hlwxzbg/hlwtjbg/201301/38508.htm. [3] 羅剛, 王振東. 自己手寫(xiě)網(wǎng)頁(yè)爬蟲(chóng)[M] . 北京: 清華大學(xué)出版社, 2010. [4] 于滿(mǎn)全, 陳鐵瑞, 徐洪波. 基于塊的網(wǎng)頁(yè)信息解析器的研究與設計[J]. 計算機應用, 2005, 25 (4):974-976. [5] Nick Randolph, David Gardner, Chris Anderson, et al.Professional Visual Studio 2010[M].Wrox, 2010. [6] 新浪微博開(kāi)放平臺。授權機制說(shuō)明[EB/OL]. (2013-01-19). 第31次中國互聯(lián)網(wǎng)發(fā)展統計報告[EB/OL]。(2013-01-15).http: ///hlwfzyj/hlwxzbg/hlwtjbg/201301/38508.htm. [3] 羅剛, 王振東. 自己手寫(xiě)網(wǎng)頁(yè)爬蟲(chóng)[M] . 北京: 清華大學(xué)出版社, 2010. [4] 于滿(mǎn)全, 陳鐵瑞, 徐洪波. 基于塊的網(wǎng)頁(yè)信息解析器的研究與設計[J]. 計算機應用, 2005, 25 (4):974-976. [5] Nick Randolph, David Gardner, Chris Anderson, et al.Professional Visual Studio 2010[M].Wrox, 2010. [6] 新浪微博開(kāi)放平臺。授權機制說(shuō)明[EB/OL]. (2013-01-19). 王振東。自己手寫(xiě)的網(wǎng)絡(luò )爬蟲(chóng)[M]. 北京:清華大學(xué)出版社,2010. [4] 于曼全、陳鐵瑞、徐洪波?;趬K的網(wǎng)頁(yè)信息解析器的研究與設計[J]. 計算機應用,2005, 25 (4):974-976. [5] Nick Randolph, David Gardner, Chris Anderson, et al.Professional Visual Studio 2010[M].Wrox, 2010. [6] 新浪微博開(kāi)放平臺. 授權機制解讀[EB/OL]. (2013-01-19). 王振東。自己手寫(xiě)的網(wǎng)絡(luò )爬蟲(chóng)[M]. 北京:清華大學(xué)出版社,2010. [4] 于曼泉、陳鐵瑞、徐洪波?;趬K的網(wǎng)頁(yè)信息解析器的研究與設計[J]. 計算機應用,2005, 25 (4):974-976. [5] Nick Randolph, David Gardner, Chris Anderson, et al.Professional Visual Studio 2010[M].Wrox, 2010. [6] 新浪微博開(kāi)放平臺. 授權機制解讀[EB/OL]. (2013-01-19). Professional Visual Studio 2010[M].Wrox,2010. [6] 新浪微博開(kāi)放平臺。授權機制說(shuō)明[EB/OL]。(2013-01-19). Professional Visual Studio 2010[M].Wrox,2010. [6] 新浪微博開(kāi)放平臺。授權機制說(shuō)明[EB/OL]。(2013-01-19).
文章采集api(完美者()網(wǎng)站對功能性板塊進(jìn)行擴充,以期采集器智能分析)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 130 次瀏覽 ? 2021-11-09 02:09
Perfect()網(wǎng)站基于軟件下載,網(wǎng)站修訂版擴展了功能部分,以解決用戶(hù)在使用軟件過(guò)程中遇到的所有問(wèn)題。網(wǎng)站 新增“軟件百科”、“甜蜜小貼士”等新頻道,在軟件使用全周期更好地為用戶(hù)提供更專(zhuān)業(yè)的服務(wù)。
優(yōu)采云采集器是一款高效的網(wǎng)頁(yè)信息采集軟件,一鍵采集網(wǎng)頁(yè)數據,無(wú)論是靜態(tài)網(wǎng)頁(yè)還是動(dòng)態(tài)網(wǎng)頁(yè)都可以采集,支持99%的網(wǎng)站,內置大量網(wǎng)站采集模板,覆蓋多個(gè)行業(yè),提取成功后可另存為Excel表格,api數據庫文件。
優(yōu)采云采集器特點(diǎn)
一鍵提取數據
簡(jiǎn)單易學(xué),通過(guò)可視化界面,鼠標點(diǎn)擊即可采集數據
快速高效
內置一套高速瀏覽器內核,加上HTTP引擎模式,實(shí)現快速采集數據
適用于各種網(wǎng)站
能夠采集99%的互聯(lián)網(wǎng)網(wǎng)站,包括單頁(yè)應用Ajax加載等動(dòng)態(tài)類(lèi)型網(wǎng)站
優(yōu)采云采集器功能
向導模式
簡(jiǎn)單易用,輕松通過(guò)鼠標點(diǎn)擊自動(dòng)生成
腳本定期運行
可按計劃定時(shí)運行,無(wú)需人工
原裝高速核心
自主研發(fā)的瀏覽器內核速度快,遠超對手
智能識別
可智能識別網(wǎng)頁(yè)中的列表和表單結構(多選框下拉列表等)
廣告攔截
自定義廣告攔截模塊,兼容AdblockPlus語(yǔ)法,可添加自定義規則
各種數據導出
支持 Txt、Excel、MySQL、SQLServer、SQlite、Access、網(wǎng)站 等。
優(yōu)采云采集器安裝
1.到本站下載安裝優(yōu)采云采集器,打開(kāi)安裝程序,點(diǎn)擊下一步繼續安裝
2.點(diǎn)擊瀏覽選擇安裝位置
3.等一下
優(yōu)采云采集器使用方法
第一步:輸入采集 URL
打開(kāi)軟件,新建一個(gè)任務(wù),輸入需要采集的網(wǎng)站地址。
第二步:智能分析,全程自動(dòng)提取數據
進(jìn)入第二步后,優(yōu)采云采集器自動(dòng)對網(wǎng)頁(yè)進(jìn)行智能分析,從中提取列表數據。
第三步:將數據導出到表、數據庫、網(wǎng)站等。
運行任務(wù),將采集中的數據導出到Csv、Excel及各種數據庫,支持api導出。
“技巧與妙計”欄目是全網(wǎng)軟件使用技巧的集合或對軟件使用過(guò)程中各種問(wèn)題的解答。文章。專(zhuān)欄成立伊始,小編歡迎各位軟件大神朋友踴躍投稿。該平臺分享每個(gè)人的獨特技能。
本站文章素材來(lái)自網(wǎng)絡(luò ),文章作者姓名大部分缺失。為了讓用戶(hù)更容易閱讀和使用,它們已被重新格式化并根據需要進(jìn)行了部分調整。本站收錄文章僅用于幫助用戶(hù)解決實(shí)際問(wèn)題。如有版權問(wèn)題,請聯(lián)系編輯修改或刪除,謝謝合作。 查看全部
文章采集api(完美者()網(wǎng)站對功能性板塊進(jìn)行擴充,以期采集器智能分析)
Perfect()網(wǎng)站基于軟件下載,網(wǎng)站修訂版擴展了功能部分,以解決用戶(hù)在使用軟件過(guò)程中遇到的所有問(wèn)題。網(wǎng)站 新增“軟件百科”、“甜蜜小貼士”等新頻道,在軟件使用全周期更好地為用戶(hù)提供更專(zhuān)業(yè)的服務(wù)。

優(yōu)采云采集器是一款高效的網(wǎng)頁(yè)信息采集軟件,一鍵采集網(wǎng)頁(yè)數據,無(wú)論是靜態(tài)網(wǎng)頁(yè)還是動(dòng)態(tài)網(wǎng)頁(yè)都可以采集,支持99%的網(wǎng)站,內置大量網(wǎng)站采集模板,覆蓋多個(gè)行業(yè),提取成功后可另存為Excel表格,api數據庫文件。
優(yōu)采云采集器特點(diǎn)
一鍵提取數據
簡(jiǎn)單易學(xué),通過(guò)可視化界面,鼠標點(diǎn)擊即可采集數據
快速高效
內置一套高速瀏覽器內核,加上HTTP引擎模式,實(shí)現快速采集數據
適用于各種網(wǎng)站
能夠采集99%的互聯(lián)網(wǎng)網(wǎng)站,包括單頁(yè)應用Ajax加載等動(dòng)態(tài)類(lèi)型網(wǎng)站
優(yōu)采云采集器功能
向導模式
簡(jiǎn)單易用,輕松通過(guò)鼠標點(diǎn)擊自動(dòng)生成
腳本定期運行
可按計劃定時(shí)運行,無(wú)需人工
原裝高速核心
自主研發(fā)的瀏覽器內核速度快,遠超對手
智能識別
可智能識別網(wǎng)頁(yè)中的列表和表單結構(多選框下拉列表等)
廣告攔截
自定義廣告攔截模塊,兼容AdblockPlus語(yǔ)法,可添加自定義規則
各種數據導出
支持 Txt、Excel、MySQL、SQLServer、SQlite、Access、網(wǎng)站 等。
優(yōu)采云采集器安裝
1.到本站下載安裝優(yōu)采云采集器,打開(kāi)安裝程序,點(diǎn)擊下一步繼續安裝

2.點(diǎn)擊瀏覽選擇安裝位置

3.等一下

優(yōu)采云采集器使用方法
第一步:輸入采集 URL
打開(kāi)軟件,新建一個(gè)任務(wù),輸入需要采集的網(wǎng)站地址。

第二步:智能分析,全程自動(dòng)提取數據
進(jìn)入第二步后,優(yōu)采云采集器自動(dòng)對網(wǎng)頁(yè)進(jìn)行智能分析,從中提取列表數據。

第三步:將數據導出到表、數據庫、網(wǎng)站等。
運行任務(wù),將采集中的數據導出到Csv、Excel及各種數據庫,支持api導出。
“技巧與妙計”欄目是全網(wǎng)軟件使用技巧的集合或對軟件使用過(guò)程中各種問(wèn)題的解答。文章。專(zhuān)欄成立伊始,小編歡迎各位軟件大神朋友踴躍投稿。該平臺分享每個(gè)人的獨特技能。
本站文章素材來(lái)自網(wǎng)絡(luò ),文章作者姓名大部分缺失。為了讓用戶(hù)更容易閱讀和使用,它們已被重新格式化并根據需要進(jìn)行了部分調整。本站收錄文章僅用于幫助用戶(hù)解決實(shí)際問(wèn)題。如有版權問(wèn)題,請聯(lián)系編輯修改或刪除,謝謝合作。
文章采集api(spring使用springcloud架構來(lái)做爬蟲(chóng),歷時(shí)二十多天,終于搞定)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 291 次瀏覽 ? 2021-11-08 10:15
前言
因公司業(yè)務(wù)需要,需要獲取客戶(hù)提供的微信公眾號文章的歷史記錄,并每天更新。顯然,300多個(gè)公眾號無(wú)法每天手動(dòng)檢查,問(wèn)題提交給IT團隊。對于那些喜歡爬蟲(chóng)的人,我絕對想要他。之前做過(guò)搜狗的微信爬蟲(chóng),之后一直在做java web。這個(gè)項目重新點(diǎn)燃了我對爬蟲(chóng)的熱愛(ài)。首次使用spring cloud架構做爬蟲(chóng)。歷時(shí)20多天,終于搞定。接下來(lái)我將通過(guò)一系列文章分享項目經(jīng)驗,并提供源碼供大家指正!
一、系統介紹
本系統是基于Java開(kāi)發(fā)的。只需配置公眾號或微信公眾號,即可定時(shí)或實(shí)時(shí)(包括閱讀、點(diǎn)贊、觀(guān)看)抓拍微信公眾號的文章。
二、系統架構技術(shù)架構
Spring Cloud、SpringBoot、Mybatis-Plus、Nacos、RocketMq、nginx
貯存
Mysql、MongoDB、Redis、Solr
緩存
Redis
演戲
提琴手
三、系統優(yōu)缺點(diǎn) 系統優(yōu)點(diǎn)
1、 配置公眾號后,可以使用Fiddler的JS注入功能和Websocket實(shí)現自動(dòng)爬??;2、系統為分布式架構,高可用;3、RocketMq 消息隊列解決Coupling,可以解決采集由于網(wǎng)絡(luò )抖動(dòng)導致的失敗。3次消費不成功,會(huì )記錄日志到mysql,保證文章的完整性;4、可以添加任意數量的微信ID提高采集的效率,抵抗反攀登限制;5、Redis在24小時(shí)內緩存每個(gè)微信賬號的采集記錄,防止賬號被關(guān)閉;6、Nacos作為配置中心,可以通過(guò)熱配置調整采集的頻率 實(shí)時(shí); 7、將采集接收到的數據存儲在Solr集群中,提高檢索速度;8、 將捕獲返回的記錄存儲到MongoDB進(jìn)行歸檔查看錯誤日志。
系統缺點(diǎn):
1、通過(guò)真實(shí)手機真實(shí)賬號采集留言,如果你需要大量公眾號,需要有多個(gè)微信賬號作為支持(如果當天賬號達到上限,可以爬取微信官方平臺消息,可通過(guò)接口獲?。?;2、 不是發(fā)文就可以抓到的公眾號。采集的時(shí)間由系統設置,消息有一定的滯后性(如果公眾號不多的話(huà),微信信號數量就足夠了。通過(guò)增加采集頻率優(yōu)化)。
四、模塊介紹
由于后面會(huì )添加管理系統和API調用功能,所以提前封裝了一些功能。
common-ws-starter
公共模塊:存儲工具類(lèi)、實(shí)體類(lèi)等公共消息。
redis-ws-starter
Redis 模塊:是
spring-boot-starter-data-redis第二個(gè)包暴露了打包好的Redis工具類(lèi)和Redisson工具類(lèi)。
RocketMQ-WS-啟動(dòng)器
RocketMQ 模塊:是
Rocketmq-spring-boot-starter 的二次封裝提供了消費重試和故障日志記錄功能。
db-ws-starter
mysql數據源模塊:封裝mysql數據源,支持多種數據源,自定義注解實(shí)現數據源動(dòng)態(tài)切換。
sql-wx-蜘蛛
mysql數據庫模塊:提供mysql數據庫操作的所有功能。
電腦-wx-蜘蛛
PC端采集模塊:收錄PC端采集公眾賬號歷史消息相關(guān)功能。
java-wx-蜘蛛
Java提取模塊:收錄Java程序提取文章內容相關(guān)的功能。
移動(dòng)-wx-蜘蛛
模擬器采集模塊:收錄與模擬器或手機采集消息交互量相關(guān)的功能。
五、一般流程圖
六、 在PC端和移動(dòng)端運行截圖
安慰
運行結束
總結
項目試運行中,微信搜狗臨時(shí)鏈接永久鏈接問(wèn)題已在項目開(kāi)發(fā)中解決。希望能幫到被類(lèi)似業(yè)務(wù)困擾的老鐵。如今,做java就像逆流而上。不前進(jìn)就會(huì )后退。我不知道你什么時(shí)候參與。我希望每個(gè)人都有自己的向日葵采集。如果你看到這個(gè),你不把它給一個(gè)采集嗎? 查看全部
文章采集api(spring使用springcloud架構來(lái)做爬蟲(chóng),歷時(shí)二十多天,終于搞定)
前言
因公司業(yè)務(wù)需要,需要獲取客戶(hù)提供的微信公眾號文章的歷史記錄,并每天更新。顯然,300多個(gè)公眾號無(wú)法每天手動(dòng)檢查,問(wèn)題提交給IT團隊。對于那些喜歡爬蟲(chóng)的人,我絕對想要他。之前做過(guò)搜狗的微信爬蟲(chóng),之后一直在做java web。這個(gè)項目重新點(diǎn)燃了我對爬蟲(chóng)的熱愛(ài)。首次使用spring cloud架構做爬蟲(chóng)。歷時(shí)20多天,終于搞定。接下來(lái)我將通過(guò)一系列文章分享項目經(jīng)驗,并提供源碼供大家指正!
一、系統介紹
本系統是基于Java開(kāi)發(fā)的。只需配置公眾號或微信公眾號,即可定時(shí)或實(shí)時(shí)(包括閱讀、點(diǎn)贊、觀(guān)看)抓拍微信公眾號的文章。
二、系統架構技術(shù)架構
Spring Cloud、SpringBoot、Mybatis-Plus、Nacos、RocketMq、nginx
貯存
Mysql、MongoDB、Redis、Solr
緩存
Redis
演戲
提琴手
三、系統優(yōu)缺點(diǎn) 系統優(yōu)點(diǎn)
1、 配置公眾號后,可以使用Fiddler的JS注入功能和Websocket實(shí)現自動(dòng)爬??;2、系統為分布式架構,高可用;3、RocketMq 消息隊列解決Coupling,可以解決采集由于網(wǎng)絡(luò )抖動(dòng)導致的失敗。3次消費不成功,會(huì )記錄日志到mysql,保證文章的完整性;4、可以添加任意數量的微信ID提高采集的效率,抵抗反攀登限制;5、Redis在24小時(shí)內緩存每個(gè)微信賬號的采集記錄,防止賬號被關(guān)閉;6、Nacos作為配置中心,可以通過(guò)熱配置調整采集的頻率 實(shí)時(shí); 7、將采集接收到的數據存儲在Solr集群中,提高檢索速度;8、 將捕獲返回的記錄存儲到MongoDB進(jìn)行歸檔查看錯誤日志。
系統缺點(diǎn):
1、通過(guò)真實(shí)手機真實(shí)賬號采集留言,如果你需要大量公眾號,需要有多個(gè)微信賬號作為支持(如果當天賬號達到上限,可以爬取微信官方平臺消息,可通過(guò)接口獲?。?;2、 不是發(fā)文就可以抓到的公眾號。采集的時(shí)間由系統設置,消息有一定的滯后性(如果公眾號不多的話(huà),微信信號數量就足夠了。通過(guò)增加采集頻率優(yōu)化)。
四、模塊介紹
由于后面會(huì )添加管理系統和API調用功能,所以提前封裝了一些功能。
common-ws-starter
公共模塊:存儲工具類(lèi)、實(shí)體類(lèi)等公共消息。
redis-ws-starter
Redis 模塊:是
spring-boot-starter-data-redis第二個(gè)包暴露了打包好的Redis工具類(lèi)和Redisson工具類(lèi)。
RocketMQ-WS-啟動(dòng)器
RocketMQ 模塊:是
Rocketmq-spring-boot-starter 的二次封裝提供了消費重試和故障日志記錄功能。
db-ws-starter
mysql數據源模塊:封裝mysql數據源,支持多種數據源,自定義注解實(shí)現數據源動(dòng)態(tài)切換。
sql-wx-蜘蛛
mysql數據庫模塊:提供mysql數據庫操作的所有功能。
電腦-wx-蜘蛛
PC端采集模塊:收錄PC端采集公眾賬號歷史消息相關(guān)功能。
java-wx-蜘蛛
Java提取模塊:收錄Java程序提取文章內容相關(guān)的功能。
移動(dòng)-wx-蜘蛛
模擬器采集模塊:收錄與模擬器或手機采集消息交互量相關(guān)的功能。
五、一般流程圖

六、 在PC端和移動(dòng)端運行截圖


安慰



運行結束

總結
項目試運行中,微信搜狗臨時(shí)鏈接永久鏈接問(wèn)題已在項目開(kāi)發(fā)中解決。希望能幫到被類(lèi)似業(yè)務(wù)困擾的老鐵。如今,做java就像逆流而上。不前進(jìn)就會(huì )后退。我不知道你什么時(shí)候參與。我希望每個(gè)人都有自己的向日葵采集。如果你看到這個(gè),你不把它給一個(gè)采集嗎?
文章采集api(INTERTIDTURBOAPIV1.0版提供公開(kāi)信息數據開(kāi)放平臺對外接口 )
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 117 次瀏覽 ? 2021-11-08 09:24
)
本次網(wǎng)站使用INTERTID TURBO API V1.0 版本提供開(kāi)放信息數據開(kāi)放平臺的對外接口。通過(guò)對數據的編目、展示和管理,提供對數據的采集、采集、編輯和整理。、全生命周期管理和服務(wù)的編目、發(fā)布和更新,確保政府開(kāi)放數據的機讀性、原創(chuàng )性、及時(shí)性、公開(kāi)性、真實(shí)性、完整性和安全性,并提供對外數據檢索、展示和下載,并提供面向數據開(kāi)發(fā)人員的數據訪(fǎng)問(wèn) API。
本網(wǎng)站以數據簽名權限的方式使用INTERTID TURBO API主動(dòng)公開(kāi)信息、咨詢(xún)投訴、在線(xiàn)調查、輿情采集等方面的數據對接服務(wù);同時(shí),向公眾提供非XML格式的公共信息API 提供此網(wǎng)站可共享的發(fā)布信息。
界面語(yǔ)言定義:
$.select(froms: from)(w: Query)(隱式排序:orders = null, l: limit =limit(-1), o: offest = offest(-1), maxDocs: Int = 10000)
字段類(lèi)型:
字符串:字符類(lèi)型。boolean: 布爾類(lèi)型。number:數字類(lèi)型。日期時(shí)間:時(shí)間類(lèi)型。reader:流類(lèi)型,流類(lèi)型的字段類(lèi)型store必須是storeno。bytes:字符數組,字符數組的字段類(lèi)型存儲為storeyes。
詳情請參考政府數據查詢(xún)服務(wù)統一開(kāi)放平臺,您可以致電網(wǎng)站索取詳細的API文檔。
查看全部
文章采集api(INTERTIDTURBOAPIV1.0版提供公開(kāi)信息數據開(kāi)放平臺對外接口
)
本次網(wǎng)站使用INTERTID TURBO API V1.0 版本提供開(kāi)放信息數據開(kāi)放平臺的對外接口。通過(guò)對數據的編目、展示和管理,提供對數據的采集、采集、編輯和整理。、全生命周期管理和服務(wù)的編目、發(fā)布和更新,確保政府開(kāi)放數據的機讀性、原創(chuàng )性、及時(shí)性、公開(kāi)性、真實(shí)性、完整性和安全性,并提供對外數據檢索、展示和下載,并提供面向數據開(kāi)發(fā)人員的數據訪(fǎng)問(wèn) API。
本網(wǎng)站以數據簽名權限的方式使用INTERTID TURBO API主動(dòng)公開(kāi)信息、咨詢(xún)投訴、在線(xiàn)調查、輿情采集等方面的數據對接服務(wù);同時(shí),向公眾提供非XML格式的公共信息API 提供此網(wǎng)站可共享的發(fā)布信息。
界面語(yǔ)言定義:
$.select(froms: from)(w: Query)(隱式排序:orders = null, l: limit =limit(-1), o: offest = offest(-1), maxDocs: Int = 10000)
字段類(lèi)型:
字符串:字符類(lèi)型。boolean: 布爾類(lèi)型。number:數字類(lèi)型。日期時(shí)間:時(shí)間類(lèi)型。reader:流類(lèi)型,流類(lèi)型的字段類(lèi)型store必須是storeno。bytes:字符數組,字符數組的字段類(lèi)型存儲為storeyes。
詳情請參考政府數據查詢(xún)服務(wù)統一開(kāi)放平臺,您可以致電網(wǎng)站索取詳細的API文檔。
文章采集api(軟件特色關(guān)于軟件優(yōu)采云采集器(SkyCaiji)功能特色10張壁紙)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 126 次瀏覽 ? 2021-11-06 21:02
優(yōu)采云采集器是一款免費的數據采集發(fā)布爬蟲(chóng)軟件,用php+mysql開(kāi)發(fā),可以部署在云服務(wù)器上,幾乎采集所有類(lèi)型的網(wǎng)頁(yè),沒(méi)有縫制對接各種cms建站程序,無(wú)需登錄即可實(shí)時(shí)發(fā)布數據,全自動(dòng)無(wú)需人工干預,是大數據和云時(shí)代最好的云爬蟲(chóng)軟件網(wǎng)站數據自動(dòng)化采集!軟件特點(diǎn) 關(guān)于優(yōu)采云采集器(天財記)軟件,致力于網(wǎng)站數據自動(dòng)化采集的發(fā)布,系統采用PHP+Mysql開(kāi)發(fā),可部署在云服務(wù)器上制作數據采集便捷、智能、云端,讓您隨時(shí)隨地移動(dòng)辦公!數據采集支持多級、多頁(yè)、分頁(yè)< @采集,自定義采集規則(支持正則、XPATH、JSON等)準確匹配任何信息流,幾乎采集所有類(lèi)型的網(wǎng)頁(yè),大部分文章類(lèi)型頁(yè)面內容可實(shí)現內容發(fā)布智能識別,與各種cms建站程序無(wú)縫對接,實(shí)現免登錄導入數據,支持自定義數據發(fā)布插件,或直接導入數據庫,保存為Excel文件,生成API接口等自動(dòng)化及云平臺軟件,實(shí)現定時(shí)定量自動(dòng)采集發(fā)布,無(wú)需人工干預!內置云平臺,用戶(hù)可以分享和下載采集規則,發(fā)布供需信息,社區幫助,交流等。升級軟件的使用方法可以直接在后臺首頁(yè)檢測并點(diǎn)擊升級,或者將壓縮包上傳到服務(wù)器解壓覆蓋就可以了!安裝軟件。將下載的軟件上傳到您的服務(wù)器。如果根目錄下有站點(diǎn),建議放在子目錄下。解壓后打開(kāi)瀏覽器輸入你的服務(wù)器域名或ip地址(存放在子目錄時(shí)添加子目錄名),進(jìn)入安裝界面點(diǎn)擊“接受”,進(jìn)入環(huán)境檢測頁(yè)面,一定要確保所有參數正確,否則使用過(guò)程中會(huì )出現錯誤,點(diǎn)擊“下一步”進(jìn)入數據安裝界面填寫(xiě)數據庫和創(chuàng )始人配置,點(diǎn)擊“下一步” 最后安裝完成,現在可以使用優(yōu)采云采集器!具有 10 張壁紙,無(wú)需觸摸板和鼠標即可操作內置時(shí)鐘和日期小部件 3 種不同的時(shí)鐘格式 5 種不同的日期格式 查看全部
文章采集api(軟件特色關(guān)于軟件優(yōu)采云采集器(SkyCaiji)功能特色10張壁紙)
優(yōu)采云采集器是一款免費的數據采集發(fā)布爬蟲(chóng)軟件,用php+mysql開(kāi)發(fā),可以部署在云服務(wù)器上,幾乎采集所有類(lèi)型的網(wǎng)頁(yè),沒(méi)有縫制對接各種cms建站程序,無(wú)需登錄即可實(shí)時(shí)發(fā)布數據,全自動(dòng)無(wú)需人工干預,是大數據和云時(shí)代最好的云爬蟲(chóng)軟件網(wǎng)站數據自動(dòng)化采集!軟件特點(diǎn) 關(guān)于優(yōu)采云采集器(天財記)軟件,致力于網(wǎng)站數據自動(dòng)化采集的發(fā)布,系統采用PHP+Mysql開(kāi)發(fā),可部署在云服務(wù)器上制作數據采集便捷、智能、云端,讓您隨時(shí)隨地移動(dòng)辦公!數據采集支持多級、多頁(yè)、分頁(yè)< @采集,自定義采集規則(支持正則、XPATH、JSON等)準確匹配任何信息流,幾乎采集所有類(lèi)型的網(wǎng)頁(yè),大部分文章類(lèi)型頁(yè)面內容可實(shí)現內容發(fā)布智能識別,與各種cms建站程序無(wú)縫對接,實(shí)現免登錄導入數據,支持自定義數據發(fā)布插件,或直接導入數據庫,保存為Excel文件,生成API接口等自動(dòng)化及云平臺軟件,實(shí)現定時(shí)定量自動(dòng)采集發(fā)布,無(wú)需人工干預!內置云平臺,用戶(hù)可以分享和下載采集規則,發(fā)布供需信息,社區幫助,交流等。升級軟件的使用方法可以直接在后臺首頁(yè)檢測并點(diǎn)擊升級,或者將壓縮包上傳到服務(wù)器解壓覆蓋就可以了!安裝軟件。將下載的軟件上傳到您的服務(wù)器。如果根目錄下有站點(diǎn),建議放在子目錄下。解壓后打開(kāi)瀏覽器輸入你的服務(wù)器域名或ip地址(存放在子目錄時(shí)添加子目錄名),進(jìn)入安裝界面點(diǎn)擊“接受”,進(jìn)入環(huán)境檢測頁(yè)面,一定要確保所有參數正確,否則使用過(guò)程中會(huì )出現錯誤,點(diǎn)擊“下一步”進(jìn)入數據安裝界面填寫(xiě)數據庫和創(chuàng )始人配置,點(diǎn)擊“下一步” 最后安裝完成,現在可以使用優(yōu)采云采集器!具有 10 張壁紙,無(wú)需觸摸板和鼠標即可操作內置時(shí)鐘和日期小部件 3 種不同的時(shí)鐘格式 5 種不同的日期格式
文章采集api( WebApi接口采集指標數據的配置實(shí)踐操作(組圖) )
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 413 次瀏覽 ? 2021-11-06 01:17
WebApi接口采集指標數據的配置實(shí)踐操作(組圖)
)
這個(gè)文章的主要目的是告訴你如何配置Prometheus,使其可以使用指定的Web Api接口采集指標數據。文章中使用的case是NGINX的采集配置,來(lái)自NGINX數據索引頁(yè)的采集數據,設置了用戶(hù)名和密碼,所以這是文章@的副標題> 可能是nginx的prometheus 采集配置或者prometheus 采集 basic auth的nginx。
上圖展示了配置完成后在Grafana中配置模板的效果。
用過(guò)Prometheus的朋友一定知道如何配置address:port服務(wù)。比如在采集某個(gè)Redis的信息時(shí),配置可以這樣寫(xiě):
- job_name: 'redis'
static_configs:
- targets: ['11.22.33.58:6087']
復制代碼
注意:以上情況假設Redis Exporter的地址和端口為11.22.33.58:6087。
這是最簡(jiǎn)單也是最廣為人知的方法。但是如果要監控指定的Web API,就不能這樣寫(xiě)了。如果你沒(méi)有看到這個(gè) 文章,你可能會(huì )在搜索引擎中搜索這樣的:
但是很遺憾,沒(méi)有找到有效的信息(現在是2021年3月),基本上所有的坑都能找到。
條件假設
假設我們現在需要從帶有地址...的接口采集相關(guān)的Prometheus監控指標,并且該接口使用basic auth(假設用戶(hù)名為weishidong,密碼為0099887kk)進(jìn)行基本授權驗證。
配置實(shí)踐
如果填寫(xiě)之前看到的Prometheus配置,很可能這樣寫(xiě)配置:
- job_name: 'web'
static_configs:
- targets: ['http://www.weishidong.com/status/format/prometheus']
basic_auth:
username: weishidong
password: 0099887kk
復制代碼
保存配置文件,重啟服務(wù)后,你會(huì )發(fā)現這種方式無(wú)法采集數據,太可怕了。
官方配置指南
剛才的手術(shù)實(shí)在是太可怕了。當我們遇到不明白的問(wèn)題時(shí),我們當然去官方文檔-> Prometheus Configuration。建議從上到下閱讀,但如果你趕時(shí)間,可以直接來(lái)這部分。官方示例如下(內容太多,這里只保留與本文相關(guān)的部分,建議大家閱讀原文):
# The job name assigned to scraped metrics by default.
job_name:
# How frequently to scrape targets from this job.
[ scrape_interval: | default = ]
# Per-scrape timeout when scraping this job.
[ scrape_timeout: | default = ]
# The HTTP resource path on which to fetch metrics from targets.
[ metrics_path: | default = /metrics ]
# honor_labels controls how Prometheus handles conflicts between labels that are
# already present in scraped data and labels that Prometheus would attach
# server-side ("job" and "instance" labels, manually configured target
# labels, and labels generated by service discovery implementations).
#
# If honor_labels is set to "true", label conflicts are resolved by keeping label
# values from the scraped data and ignoring the conflicting server-side labels.
#
# If honor_labels is set to "false", label conflicts are resolved by renaming
# conflicting labels in the scraped data to "exported_" (for
# example "exported_instance", "exported_job") and then attaching server-side
# labels.
#
# Setting honor_labels to "true" is useful for use cases such as federation and
# scraping the Pushgateway, where all labels specified in the target should be
# preserved.
#
# Note that any globally configured "external_labels" are unaffected by this
# setting. In communication with external systems, they are always applied only
# when a time series does not have a given label yet and are ignored otherwise.
[ honor_labels: | default = false ]
# honor_timestamps controls whether Prometheus respects the timestamps present
# in scraped data.
#
# If honor_timestamps is set to "true", the timestamps of the metrics exposed
# by the target will be used.
#
# If honor_timestamps is set to "false", the timestamps of the metrics exposed
# by the target will be ignored.
[ honor_timestamps: | default = true ]
# Configures the protocol scheme used for requests.
[ scheme: | default = http ]
# Optional HTTP URL parameters.
params:
[ : [, ...] ]
# Sets the `Authorization` header on every scrape request with the
# configured username and password.
# password and password_file are mutually exclusive.
basic_auth:
[ username: ]
[ password: ]
[ password_file: ]
# Sets the `Authorization` header on every scrape request with
# the configured bearer token. It is mutually exclusive with `bearer_token_file`.
[ bearer_token: ]
# Sets the `Authorization` header on every scrape request with the bearer token
# read from the configured file. It is mutually exclusive with `bearer_token`.
[ bearer_token_file: ]
復制代碼
如果仔細看,應該注意幾個(gè)關(guān)鍵信息:metrics_path 和 basic_auth。其中,metrics_path用于指定HTTP類(lèi)型指示符信息采集時(shí)的路由地址,默認值為/metrics;字段basic_auth用于授權驗證,這里的password可以指定一個(gè)密碼文件,而不是直接填寫(xiě)明文(一般來(lái)說(shuō),指定的密碼文件的安全性稍高,明文)。
有效配置
根據官方文檔的指引,我們可以快速推導出正確的配置寫(xiě)法:
- job_name: 'web'
metrics_path: /status/format/prometheus
static_configs:
- targets: ['www.weishidong.com']
basic_auth:
username: weishidong
password: 0099887kk
復制代碼
需要注意的是這里的字不用填,因為Prometheus默認的Scheme是http。如果地址的scheme是https,我們需要根據文檔指引添加scheme字段,對應的配置為:
- job_name: 'web'
metrics_path: /status/format/prometheus
static_configs:
- targets: ['www.weishidong.com']
scheme: https
basic_auth:
username: weishidong
password: 0099887kk
復制代碼
配置完成后,Prometheus應該可以成功采集獲取數據。用Grafana,可以看到開(kāi)頭給出的監控效果圖。
查看全部
文章采集api(
WebApi接口采集指標數據的配置實(shí)踐操作(組圖)
)
這個(gè)文章的主要目的是告訴你如何配置Prometheus,使其可以使用指定的Web Api接口采集指標數據。文章中使用的case是NGINX的采集配置,來(lái)自NGINX數據索引頁(yè)的采集數據,設置了用戶(hù)名和密碼,所以這是文章@的副標題> 可能是nginx的prometheus 采集配置或者prometheus 采集 basic auth的nginx。
上圖展示了配置完成后在Grafana中配置模板的效果。
用過(guò)Prometheus的朋友一定知道如何配置address:port服務(wù)。比如在采集某個(gè)Redis的信息時(shí),配置可以這樣寫(xiě):
- job_name: 'redis'
static_configs:
- targets: ['11.22.33.58:6087']
復制代碼
注意:以上情況假設Redis Exporter的地址和端口為11.22.33.58:6087。
這是最簡(jiǎn)單也是最廣為人知的方法。但是如果要監控指定的Web API,就不能這樣寫(xiě)了。如果你沒(méi)有看到這個(gè) 文章,你可能會(huì )在搜索引擎中搜索這樣的:
但是很遺憾,沒(méi)有找到有效的信息(現在是2021年3月),基本上所有的坑都能找到。
條件假設
假設我們現在需要從帶有地址...的接口采集相關(guān)的Prometheus監控指標,并且該接口使用basic auth(假設用戶(hù)名為weishidong,密碼為0099887kk)進(jìn)行基本授權驗證。
配置實(shí)踐
如果填寫(xiě)之前看到的Prometheus配置,很可能這樣寫(xiě)配置:
- job_name: 'web'
static_configs:
- targets: ['http://www.weishidong.com/status/format/prometheus']
basic_auth:
username: weishidong
password: 0099887kk
復制代碼
保存配置文件,重啟服務(wù)后,你會(huì )發(fā)現這種方式無(wú)法采集數據,太可怕了。
官方配置指南
剛才的手術(shù)實(shí)在是太可怕了。當我們遇到不明白的問(wèn)題時(shí),我們當然去官方文檔-> Prometheus Configuration。建議從上到下閱讀,但如果你趕時(shí)間,可以直接來(lái)這部分。官方示例如下(內容太多,這里只保留與本文相關(guān)的部分,建議大家閱讀原文):
# The job name assigned to scraped metrics by default.
job_name:
# How frequently to scrape targets from this job.
[ scrape_interval: | default = ]
# Per-scrape timeout when scraping this job.
[ scrape_timeout: | default = ]
# The HTTP resource path on which to fetch metrics from targets.
[ metrics_path: | default = /metrics ]
# honor_labels controls how Prometheus handles conflicts between labels that are
# already present in scraped data and labels that Prometheus would attach
# server-side ("job" and "instance" labels, manually configured target
# labels, and labels generated by service discovery implementations).
#
# If honor_labels is set to "true", label conflicts are resolved by keeping label
# values from the scraped data and ignoring the conflicting server-side labels.
#
# If honor_labels is set to "false", label conflicts are resolved by renaming
# conflicting labels in the scraped data to "exported_" (for
# example "exported_instance", "exported_job") and then attaching server-side
# labels.
#
# Setting honor_labels to "true" is useful for use cases such as federation and
# scraping the Pushgateway, where all labels specified in the target should be
# preserved.
#
# Note that any globally configured "external_labels" are unaffected by this
# setting. In communication with external systems, they are always applied only
# when a time series does not have a given label yet and are ignored otherwise.
[ honor_labels: | default = false ]
# honor_timestamps controls whether Prometheus respects the timestamps present
# in scraped data.
#
# If honor_timestamps is set to "true", the timestamps of the metrics exposed
# by the target will be used.
#
# If honor_timestamps is set to "false", the timestamps of the metrics exposed
# by the target will be ignored.
[ honor_timestamps: | default = true ]
# Configures the protocol scheme used for requests.
[ scheme: | default = http ]
# Optional HTTP URL parameters.
params:
[ : [, ...] ]
# Sets the `Authorization` header on every scrape request with the
# configured username and password.
# password and password_file are mutually exclusive.
basic_auth:
[ username: ]
[ password: ]
[ password_file: ]
# Sets the `Authorization` header on every scrape request with
# the configured bearer token. It is mutually exclusive with `bearer_token_file`.
[ bearer_token: ]
# Sets the `Authorization` header on every scrape request with the bearer token
# read from the configured file. It is mutually exclusive with `bearer_token`.
[ bearer_token_file: ]
復制代碼
如果仔細看,應該注意幾個(gè)關(guān)鍵信息:metrics_path 和 basic_auth。其中,metrics_path用于指定HTTP類(lèi)型指示符信息采集時(shí)的路由地址,默認值為/metrics;字段basic_auth用于授權驗證,這里的password可以指定一個(gè)密碼文件,而不是直接填寫(xiě)明文(一般來(lái)說(shuō),指定的密碼文件的安全性稍高,明文)。
有效配置
根據官方文檔的指引,我們可以快速推導出正確的配置寫(xiě)法:
- job_name: 'web'
metrics_path: /status/format/prometheus
static_configs:
- targets: ['www.weishidong.com']
basic_auth:
username: weishidong
password: 0099887kk
復制代碼
需要注意的是這里的字不用填,因為Prometheus默認的Scheme是http。如果地址的scheme是https,我們需要根據文檔指引添加scheme字段,對應的配置為:
- job_name: 'web'
metrics_path: /status/format/prometheus
static_configs:
- targets: ['www.weishidong.com']
scheme: https
basic_auth:
username: weishidong
password: 0099887kk
復制代碼
配置完成后,Prometheus應該可以成功采集獲取數據。用Grafana,可以看到開(kāi)頭給出的監控效果圖。
文章采集api( 大數據信息的收集和應用逐步普及,離不開(kāi)網(wǎng)絡(luò )爬蟲(chóng)來(lái)說(shuō) )
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 180 次瀏覽 ? 2021-10-31 02:18
大數據信息的收集和應用逐步普及,離不開(kāi)網(wǎng)絡(luò )爬蟲(chóng)來(lái)說(shuō)
)
數字時(shí)代,大數據信息的采集和應用逐漸普及,離不開(kāi)網(wǎng)絡(luò )爬蟲(chóng)的廣泛應用。由于數據信息市場(chǎng)的不斷擴大,需要大規模的網(wǎng)絡(luò )爬蟲(chóng)來(lái)處理海量的數據信息采集。在這個(gè)過(guò)程中應該注意哪些問(wèn)題?
1、 首先檢查是否有API。API是網(wǎng)站提供官方數據信息的接口。
比如通過(guò)調用API采集數據信息,在網(wǎng)站允許的范圍內采集數據,既沒(méi)有道德法律風(fēng)險,也沒(méi)有故意設置網(wǎng)站的障礙;但是,API接口的訪(fǎng)問(wèn)受網(wǎng)站的控制,網(wǎng)站可用于計費和限制訪(fǎng)問(wèn)上限。二、 數據信息結構分析和數據信息存儲。
2、網(wǎng)絡(luò )爬蟲(chóng)需要明確顯示需要哪些字段。
這些字段可以存在于網(wǎng)頁(yè)上,也可以根據網(wǎng)頁(yè)中的現有字段進(jìn)行進(jìn)一步計算。下面是如何生成表,如何連接多個(gè)表等等。需要注意的是,在確定字段鏈接時(shí),不要只看網(wǎng)頁(yè)的一小部分,因為一個(gè)網(wǎng)頁(yè)可能缺少其他類(lèi)型網(wǎng)頁(yè)的字段。這可能是網(wǎng)站的問(wèn)題,也可能是用戶(hù)行為造成的,不同的是只有多瀏覽一些網(wǎng)頁(yè),才能全面提取關(guān)鍵字段。
對于大型網(wǎng)絡(luò )爬蟲(chóng),除了采集數據信息外,還必須存儲其他重要的中間數據信息(如網(wǎng)頁(yè)ID或url),避免每次都重新爬取id。
3、數據流分析。
如果要批量抓取頁(yè)面,請查看其入口位置,該位置基于采集的范圍。站點(diǎn)頁(yè)面一般基于樹(shù)狀結構,可以以根節點(diǎn)為入口逐層進(jìn)入。確定信息流的機制后,下一個(gè)單獨的網(wǎng)頁(yè),然后將此模式復制到整個(gè)頁(yè)面。
<p style="margin-top: 10px;margin-bottom: 10px;outline: 0px;max-width: 100%;min-height: 1em;letter-spacing: 0.544px;white-space: normal;border-width: 0px;border-style: initial;border-color: initial;-webkit-font-smoothing: antialiased;font-size: 18px;font-family: "Microsoft YaHei", Arial, Verdana, Tahoma, sans-serif;vertical-align: baseline;background-image: initial;background-position: initial;background-size: initial;background-repeat: initial;background-attachment: initial;background-origin: initial;background-clip: initial;line-height: 32px;color: rgb(85, 85, 85);text-align: start;box-sizing: border-box !important;overflow-wrap: break-word !important;">
搜索下方加老師微信<br data-filtered="filtered" style="outline: 0px;max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;">
老師微信號:<strong style="outline: 0px;max-width: 100%;color: rgb(63, 63, 63);letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;">XTUOL1988【</strong>切記備注<strong style="outline: 0px;max-width: 100%;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;">:學(xué)習Python</strong>】
領(lǐng)取Python web開(kāi)發(fā),Python爬蟲(chóng),Python數據分析,人工智能等精品學(xué)習課程。帶你從零基礎系統性的學(xué)好Python!
*聲明:本文于網(wǎng)絡(luò )整理,版權歸原作者所有,如來(lái)源信息有誤或侵犯權益,請聯(lián)系我們刪除或授權
</p> 查看全部
文章采集api(
大數據信息的收集和應用逐步普及,離不開(kāi)網(wǎng)絡(luò )爬蟲(chóng)來(lái)說(shuō)
)

數字時(shí)代,大數據信息的采集和應用逐漸普及,離不開(kāi)網(wǎng)絡(luò )爬蟲(chóng)的廣泛應用。由于數據信息市場(chǎng)的不斷擴大,需要大規模的網(wǎng)絡(luò )爬蟲(chóng)來(lái)處理海量的數據信息采集。在這個(gè)過(guò)程中應該注意哪些問(wèn)題?

1、 首先檢查是否有API。API是網(wǎng)站提供官方數據信息的接口。
比如通過(guò)調用API采集數據信息,在網(wǎng)站允許的范圍內采集數據,既沒(méi)有道德法律風(fēng)險,也沒(méi)有故意設置網(wǎng)站的障礙;但是,API接口的訪(fǎng)問(wèn)受網(wǎng)站的控制,網(wǎng)站可用于計費和限制訪(fǎng)問(wèn)上限。二、 數據信息結構分析和數據信息存儲。
2、網(wǎng)絡(luò )爬蟲(chóng)需要明確顯示需要哪些字段。
這些字段可以存在于網(wǎng)頁(yè)上,也可以根據網(wǎng)頁(yè)中的現有字段進(jìn)行進(jìn)一步計算。下面是如何生成表,如何連接多個(gè)表等等。需要注意的是,在確定字段鏈接時(shí),不要只看網(wǎng)頁(yè)的一小部分,因為一個(gè)網(wǎng)頁(yè)可能缺少其他類(lèi)型網(wǎng)頁(yè)的字段。這可能是網(wǎng)站的問(wèn)題,也可能是用戶(hù)行為造成的,不同的是只有多瀏覽一些網(wǎng)頁(yè),才能全面提取關(guān)鍵字段。
對于大型網(wǎng)絡(luò )爬蟲(chóng),除了采集數據信息外,還必須存儲其他重要的中間數據信息(如網(wǎng)頁(yè)ID或url),避免每次都重新爬取id。
3、數據流分析。
如果要批量抓取頁(yè)面,請查看其入口位置,該位置基于采集的范圍。站點(diǎn)頁(yè)面一般基于樹(shù)狀結構,可以以根節點(diǎn)為入口逐層進(jìn)入。確定信息流的機制后,下一個(gè)單獨的網(wǎng)頁(yè),然后將此模式復制到整個(gè)頁(yè)面。
<p style="margin-top: 10px;margin-bottom: 10px;outline: 0px;max-width: 100%;min-height: 1em;letter-spacing: 0.544px;white-space: normal;border-width: 0px;border-style: initial;border-color: initial;-webkit-font-smoothing: antialiased;font-size: 18px;font-family: "Microsoft YaHei", Arial, Verdana, Tahoma, sans-serif;vertical-align: baseline;background-image: initial;background-position: initial;background-size: initial;background-repeat: initial;background-attachment: initial;background-origin: initial;background-clip: initial;line-height: 32px;color: rgb(85, 85, 85);text-align: start;box-sizing: border-box !important;overflow-wrap: break-word !important;">

搜索下方加老師微信<br data-filtered="filtered" style="outline: 0px;max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;">
老師微信號:<strong style="outline: 0px;max-width: 100%;color: rgb(63, 63, 63);letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;">XTUOL1988【</strong>切記備注<strong style="outline: 0px;max-width: 100%;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;">:學(xué)習Python</strong>】
領(lǐng)取Python web開(kāi)發(fā),Python爬蟲(chóng),Python數據分析,人工智能等精品學(xué)習課程。帶你從零基礎系統性的學(xué)好Python!

*聲明:本文于網(wǎng)絡(luò )整理,版權歸原作者所有,如來(lái)源信息有誤或侵犯權益,請聯(lián)系我們刪除或授權
</p> 文章采集api(數據推送API的應用草料平臺的3種推送方式(一) )
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 158 次瀏覽 ? 2021-10-30 17:11
)
一、數據推送API應用
飼料平臺的數據可以自動(dòng)推送給您,您可以自己調用數據作為應用程序。目前不支持將數據從外部系統寫(xiě)入飼料。
應用一:制作實(shí)時(shí)數據報表
使用數據分析工具連接數據庫,進(jìn)行數據分析或報表制作,查看效果,制作教程
應用二:對接企業(yè)流程
通過(guò)在草料平臺上實(shí)現掃碼采集數據等功能,然后通過(guò)API與企業(yè)系統的進(jìn)程對接,企業(yè)可以在保持原有系統的同時(shí),以極低??的成本應用草料功能,并檢查影響
二、我們提供3種推送方式1、官方數據庫
Forage 為您提供獨立的云數據庫來(lái)同步您的后端數據。之后,您可以使用數據分析軟件連接到這個(gè)云數據庫進(jìn)行數據報告;或者編寫(xiě)程序主動(dòng)調用數據連接其他系統。查看數據庫字段說(shuō)明
指示:
草料后臺導航欄-數據API高級功能,選擇官方數據庫,填寫(xiě)信息,提交激活申請。以下是申請成功后得到的數據庫示例:
類(lèi)型:MySQL
主持人:
端口:3306
數據庫名稱(chēng):cli_202112111(示例)
用戶(hù)名:cli_202112111(示例)
密碼:ek82jk9e1kdi45(示例)
報告制作:
如需連接官方數據庫并制作自定義報表,可查看報表制作教程
因為涉及到基礎數據庫(SQL)操作和BI工具操作,所以有一定的使用門(mén)檻。使用前請掌握基本操作能力。
2、自有數據庫
Forage會(huì )將數據實(shí)時(shí)推送到您提供的企業(yè)數據庫中(僅支持Mysql5.7版本),無(wú)需建表和開(kāi)放公網(wǎng)訪(fǎng)問(wèn)權限。未來(lái)您可以自由讀取數據,實(shí)現企業(yè)數據與信息的整合。查看數據字段說(shuō)明
指示:
草料后臺導航欄-數據API的高級功能,選擇自己的數據庫,填寫(xiě)自己的數據庫主機、端口、賬號等信息。
3、網(wǎng)絡(luò )鉤子
Forage 會(huì )將 JSON 格式的表單數據推送到您指定的 URL。該地址需要允許公共互聯(lián)網(wǎng)訪(fǎng)問(wèn)。之后,您可以編寫(xiě)程序并使用接收到的數據與其他系統或進(jìn)程進(jìn)行交互。查看 Webhook 說(shuō)明
指示:
草料后臺導航欄-數據API的高級功能,選擇Webhook,填寫(xiě)接收數據的URL地址并保存。
具體流程:
?、偈紫葴蕚湟粋€(gè)可以從公網(wǎng)訪(fǎng)問(wèn)的接口地址,填寫(xiě)地址字段,例如(xxx部分為系統的域名或IP)
?、谂渲煤?,每當在草料中生成新的表單數據時(shí)(如在表單中提交一條記錄),都會(huì )向上述地址發(fā)出POST請求
查看全部
文章采集api(數據推送API的應用草料平臺的3種推送方式(一)
)
一、數據推送API應用
飼料平臺的數據可以自動(dòng)推送給您,您可以自己調用數據作為應用程序。目前不支持將數據從外部系統寫(xiě)入飼料。
應用一:制作實(shí)時(shí)數據報表
使用數據分析工具連接數據庫,進(jìn)行數據分析或報表制作,查看效果,制作教程

應用二:對接企業(yè)流程
通過(guò)在草料平臺上實(shí)現掃碼采集數據等功能,然后通過(guò)API與企業(yè)系統的進(jìn)程對接,企業(yè)可以在保持原有系統的同時(shí),以極低??的成本應用草料功能,并檢查影響

二、我們提供3種推送方式1、官方數據庫
Forage 為您提供獨立的云數據庫來(lái)同步您的后端數據。之后,您可以使用數據分析軟件連接到這個(gè)云數據庫進(jìn)行數據報告;或者編寫(xiě)程序主動(dòng)調用數據連接其他系統。查看數據庫字段說(shuō)明
指示:
草料后臺導航欄-數據API高級功能,選擇官方數據庫,填寫(xiě)信息,提交激活申請。以下是申請成功后得到的數據庫示例:
類(lèi)型:MySQL
主持人:
端口:3306
數據庫名稱(chēng):cli_202112111(示例)
用戶(hù)名:cli_202112111(示例)
密碼:ek82jk9e1kdi45(示例)
報告制作:
如需連接官方數據庫并制作自定義報表,可查看報表制作教程
因為涉及到基礎數據庫(SQL)操作和BI工具操作,所以有一定的使用門(mén)檻。使用前請掌握基本操作能力。
2、自有數據庫
Forage會(huì )將數據實(shí)時(shí)推送到您提供的企業(yè)數據庫中(僅支持Mysql5.7版本),無(wú)需建表和開(kāi)放公網(wǎng)訪(fǎng)問(wèn)權限。未來(lái)您可以自由讀取數據,實(shí)現企業(yè)數據與信息的整合。查看數據字段說(shuō)明
指示:
草料后臺導航欄-數據API的高級功能,選擇自己的數據庫,填寫(xiě)自己的數據庫主機、端口、賬號等信息。

3、網(wǎng)絡(luò )鉤子
Forage 會(huì )將 JSON 格式的表單數據推送到您指定的 URL。該地址需要允許公共互聯(lián)網(wǎng)訪(fǎng)問(wèn)。之后,您可以編寫(xiě)程序并使用接收到的數據與其他系統或進(jìn)程進(jìn)行交互。查看 Webhook 說(shuō)明
指示:
草料后臺導航欄-數據API的高級功能,選擇Webhook,填寫(xiě)接收數據的URL地址并保存。
具體流程:
?、偈紫葴蕚湟粋€(gè)可以從公網(wǎng)訪(fǎng)問(wèn)的接口地址,填寫(xiě)地址字段,例如(xxx部分為系統的域名或IP)
?、谂渲煤?,每當在草料中生成新的表單數據時(shí)(如在表單中提交一條記錄),都會(huì )向上述地址發(fā)出POST請求

文章采集api(越來(lái)越多企業(yè)開(kāi)始做基于公眾號平臺的數據內容整合)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 151 次瀏覽 ? 2021-10-29 06:16
越來(lái)越多的企業(yè)開(kāi)始基于公眾號平臺或輿情分析或榜單排名進(jìn)行數據內容整合。其中涉及的技術(shù)之一是公眾號采集的數據,公眾號數據只有集成到自己的平臺后才能進(jìn)行下一步。
公眾號采集不僅技術(shù)門(mén)檻高,而且專(zhuān)業(yè)領(lǐng)域人才匱乏。自己組建團隊,人工成本和時(shí)間成本都很高。市場(chǎng)上大多數公開(kāi)可用的技術(shù)要么已經(jīng)過(guò)時(shí)且無(wú)法獲得,要么價(jià)格太高。
經(jīng)過(guò)多年的技術(shù)沉淀,Power Data在公眾號數據領(lǐng)域擁有完整的解決方案采集。用戶(hù)只需提供微信ID號即可獲取任意公眾號的歷史文章數據,包括閱讀量、點(diǎn)贊、觀(guān)看、評論等數據。只需一名工程師即可實(shí)現API接口的對接,進(jìn)而完成數據集成。
電量數據可以提供分鐘級的數據同步能力,這意味著(zhù)在公眾號發(fā)布后的幾分鐘內,電量數據就可以同步到用戶(hù)自己的平臺上。此外,它還根據用戶(hù)需求提供多項個(gè)性化需求定制。
在我們服務(wù)的客戶(hù)中,有很多行業(yè)標桿用戶(hù),包括36kr等新媒體。
Power Data的使命是全面提升客戶(hù)價(jià)值,構建賦能能力,助力行業(yè)企業(yè)數字化轉型。
歡迎聯(lián)系我試用,加微信請備注“采集”
評論捕獲文章 6 小時(shí)、12 小時(shí)、24 小時(shí)、48 小時(shí)后發(fā)布
有任何問(wèn)題可以?huà)呙瓒S碼與我交流 查看全部
文章采集api(越來(lái)越多企業(yè)開(kāi)始做基于公眾號平臺的數據內容整合)
越來(lái)越多的企業(yè)開(kāi)始基于公眾號平臺或輿情分析或榜單排名進(jìn)行數據內容整合。其中涉及的技術(shù)之一是公眾號采集的數據,公眾號數據只有集成到自己的平臺后才能進(jìn)行下一步。
公眾號采集不僅技術(shù)門(mén)檻高,而且專(zhuān)業(yè)領(lǐng)域人才匱乏。自己組建團隊,人工成本和時(shí)間成本都很高。市場(chǎng)上大多數公開(kāi)可用的技術(shù)要么已經(jīng)過(guò)時(shí)且無(wú)法獲得,要么價(jià)格太高。

經(jīng)過(guò)多年的技術(shù)沉淀,Power Data在公眾號數據領(lǐng)域擁有完整的解決方案采集。用戶(hù)只需提供微信ID號即可獲取任意公眾號的歷史文章數據,包括閱讀量、點(diǎn)贊、觀(guān)看、評論等數據。只需一名工程師即可實(shí)現API接口的對接,進(jìn)而完成數據集成。

電量數據可以提供分鐘級的數據同步能力,這意味著(zhù)在公眾號發(fā)布后的幾分鐘內,電量數據就可以同步到用戶(hù)自己的平臺上。此外,它還根據用戶(hù)需求提供多項個(gè)性化需求定制。

在我們服務(wù)的客戶(hù)中,有很多行業(yè)標桿用戶(hù),包括36kr等新媒體。

Power Data的使命是全面提升客戶(hù)價(jià)值,構建賦能能力,助力行業(yè)企業(yè)數字化轉型。

歡迎聯(lián)系我試用,加微信請備注“采集”

評論捕獲文章 6 小時(shí)、12 小時(shí)、24 小時(shí)、48 小時(shí)后發(fā)布
有任何問(wèn)題可以?huà)呙瓒S碼與我交流
文章采集api(優(yōu)采云采集支持調用5118一鍵智能改寫(xiě)API接口(組圖) )
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 172 次瀏覽 ? 2021-10-29 06:14
)
優(yōu)采云采集支持調用5118一鍵智能重寫(xiě)API接口,處理采集數據標題和內容等,可以產(chǎn)生對搜索引擎更有吸引力的文章 ;
詳細使用步驟如下:
1. 5118 一鍵智能換字API接口配置
一、API配置入口:
點(diǎn)擊控制臺左側列表中的【第三方服務(wù)配置】 》點(diǎn)擊【第三方內容API訪(fǎng)問(wèn)】 》點(diǎn)擊【第三方API配置管理】》 最后點(diǎn)擊【+5118一鍵智能原創(chuàng )API] 創(chuàng )建接口配置
二、配置API接口信息:
【API-Key值】從5118后臺獲取對應的5118一鍵智能重寫(xiě)APIKey值,填寫(xiě)優(yōu)采云;
2. 創(chuàng )建 API 處理規則
API處理規則,可設置調用API接口處理哪些字段的內容;
一、API處理規則入口:
點(diǎn)擊控制臺左側列表中的【第三方服務(wù)配置】>點(diǎn)擊【第三方內容API訪(fǎng)問(wèn)】>進(jìn)入【API處理規則管理】頁(yè)面,最后點(diǎn)擊【添加API處理規則】創(chuàng )建API處理規則;
二、API處理規則配置:
規則名稱(chēng):用戶(hù)可以自己命名;
字段名:填寫(xiě)的字段名的內容將由API接口處理。默認為title和content字段,可以修改、添加或刪除;(可以添加其他字段,點(diǎn)擊添加內容字段,修改字段名稱(chēng),但必須在【Detail Extractor】中已經(jīng)定義,如作者、關(guān)鍵字、描述字段)
使用的API:選擇已經(jīng)設置好的API接口配置,執行時(shí)會(huì )調用該接口,可以從不同的API接口配置中選擇多個(gè)字段。5118 一鍵智能改寫(xiě);
處理順序:執行順序是按照數量從小到大執行;
3. API 處理規則使用
API處理規則的使用方式有兩種:手動(dòng)執行和自動(dòng)執行:
手動(dòng)執行:data采集后,在【Result Data & Release】中使用第三方API執行;
自動(dòng)執行:自動(dòng)化配置完成后,任務(wù)采集數據完成后,系統會(huì )自動(dòng)執行指定的API處理規則,無(wú)需人工操作。
一、手動(dòng)執行API處理規則:
在任務(wù)的【結果數據&發(fā)布】選項卡中,點(diǎn)擊【SEO&API&翻譯工具】按鈕“選擇【第三方API執行】列”選擇對應的API處理規則“執行(數據范圍有兩個(gè)執行)方法,批處理根據發(fā)布狀態(tài)執行并根據列表中選擇的數據執行);
二、自動(dòng)執行API處理規則:
啟用 API 處理的自動(dòng)執行。任務(wù)完成采集后,會(huì )自動(dòng)執行API處理。一般配合定時(shí)采集和自動(dòng)發(fā)布功能使用非常方便;
在任務(wù)的【自動(dòng)化:發(fā)布&SEO&翻譯】選項卡,【自動(dòng)執行第三方API配置】》勾選【采集,自動(dòng)執行API】選項“選擇要執行的API處理規則”選擇API interface 處理數據的范圍(一般選擇“待釋放”,all會(huì )導致所有數據被執行多次),最后點(diǎn)擊save;
4. API處理結果及發(fā)布 一、查看API接口處理結果:
API接口處理的內容會(huì )生成API接口對應的新字段,例如:
標題處理后的新字段:
title_5118重寫(xiě)(對應5118一鍵智能重寫(xiě)API接口)
內容處理后的新字段:
content_5118 rewrite(對應5118一鍵智能重寫(xiě)API接口)
在【結果數據&發(fā)布】和數據預覽界面均可查看。
提示:API 處理規則執行需要一段時(shí)間。執行后頁(yè)面會(huì )自動(dòng)刷新,出現API接口處理的新字段;
二、API接口處理后的內容發(fā)布
在發(fā)布文章之前,修改發(fā)布目標第二步的映射字段,在A(yíng)PI接口處理后將title和content改為新的對應字段。
例如,執行5118一鍵智能改詞API后,選擇title_5118改詞和content_5118改詞發(fā)布;
5. 5118-API接口常見(jiàn)問(wèn)題及解決方案 一、API處理規則和SEO規則如何搭配使用?
系統默認對title和content字段進(jìn)行SEO功能,需要在SEO規則中修改對應新增的字段,如title_5118換詞和content_5118換詞字段;
查看全部
文章采集api(優(yōu)采云采集支持調用5118一鍵智能改寫(xiě)API接口(組圖)
)
優(yōu)采云采集支持調用5118一鍵智能重寫(xiě)API接口,處理采集數據標題和內容等,可以產(chǎn)生對搜索引擎更有吸引力的文章 ;
詳細使用步驟如下:
1. 5118 一鍵智能換字API接口配置
一、API配置入口:
點(diǎn)擊控制臺左側列表中的【第三方服務(wù)配置】 》點(diǎn)擊【第三方內容API訪(fǎng)問(wèn)】 》點(diǎn)擊【第三方API配置管理】》 最后點(diǎn)擊【+5118一鍵智能原創(chuàng )API] 創(chuàng )建接口配置

二、配置API接口信息:
【API-Key值】從5118后臺獲取對應的5118一鍵智能重寫(xiě)APIKey值,填寫(xiě)優(yōu)采云;


2. 創(chuàng )建 API 處理規則
API處理規則,可設置調用API接口處理哪些字段的內容;
一、API處理規則入口:
點(diǎn)擊控制臺左側列表中的【第三方服務(wù)配置】>點(diǎn)擊【第三方內容API訪(fǎng)問(wèn)】>進(jìn)入【API處理規則管理】頁(yè)面,最后點(diǎn)擊【添加API處理規則】創(chuàng )建API處理規則;

二、API處理規則配置:

規則名稱(chēng):用戶(hù)可以自己命名;
字段名:填寫(xiě)的字段名的內容將由API接口處理。默認為title和content字段,可以修改、添加或刪除;(可以添加其他字段,點(diǎn)擊添加內容字段,修改字段名稱(chēng),但必須在【Detail Extractor】中已經(jīng)定義,如作者、關(guān)鍵字、描述字段)
使用的API:選擇已經(jīng)設置好的API接口配置,執行時(shí)會(huì )調用該接口,可以從不同的API接口配置中選擇多個(gè)字段。5118 一鍵智能改寫(xiě);
處理順序:執行順序是按照數量從小到大執行;
3. API 處理規則使用
API處理規則的使用方式有兩種:手動(dòng)執行和自動(dòng)執行:
手動(dòng)執行:data采集后,在【Result Data & Release】中使用第三方API執行;
自動(dòng)執行:自動(dòng)化配置完成后,任務(wù)采集數據完成后,系統會(huì )自動(dòng)執行指定的API處理規則,無(wú)需人工操作。
一、手動(dòng)執行API處理規則:
在任務(wù)的【結果數據&發(fā)布】選項卡中,點(diǎn)擊【SEO&API&翻譯工具】按鈕“選擇【第三方API執行】列”選擇對應的API處理規則“執行(數據范圍有兩個(gè)執行)方法,批處理根據發(fā)布狀態(tài)執行并根據列表中選擇的數據執行);

二、自動(dòng)執行API處理規則:

啟用 API 處理的自動(dòng)執行。任務(wù)完成采集后,會(huì )自動(dòng)執行API處理。一般配合定時(shí)采集和自動(dòng)發(fā)布功能使用非常方便;
在任務(wù)的【自動(dòng)化:發(fā)布&SEO&翻譯】選項卡,【自動(dòng)執行第三方API配置】》勾選【采集,自動(dòng)執行API】選項“選擇要執行的API處理規則”選擇API interface 處理數據的范圍(一般選擇“待釋放”,all會(huì )導致所有數據被執行多次),最后點(diǎn)擊save;
4. API處理結果及發(fā)布 一、查看API接口處理結果:


API接口處理的內容會(huì )生成API接口對應的新字段,例如:
標題處理后的新字段:
title_5118重寫(xiě)(對應5118一鍵智能重寫(xiě)API接口)
內容處理后的新字段:
content_5118 rewrite(對應5118一鍵智能重寫(xiě)API接口)
在【結果數據&發(fā)布】和數據預覽界面均可查看。
提示:API 處理規則執行需要一段時(shí)間。執行后頁(yè)面會(huì )自動(dòng)刷新,出現API接口處理的新字段;
二、API接口處理后的內容發(fā)布
在發(fā)布文章之前,修改發(fā)布目標第二步的映射字段,在A(yíng)PI接口處理后將title和content改為新的對應字段。
例如,執行5118一鍵智能改詞API后,選擇title_5118改詞和content_5118改詞發(fā)布;

5. 5118-API接口常見(jiàn)問(wèn)題及解決方案 一、API處理規則和SEO規則如何搭配使用?
系統默認對title和content字段進(jìn)行SEO功能,需要在SEO規則中修改對應新增的字段,如title_5118換詞和content_5118換詞字段;
文章采集api(數據推送API的應用草料平臺的3種推送方式(一) )
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 152 次瀏覽 ? 2021-10-29 06:13
)
一、數據推送API應用
飼料平臺的數據可以自動(dòng)推送給您,您可以將數據作為應用程序自行調用。目前不支持將數據從外部系統寫(xiě)入飼料。
應用一:制作實(shí)時(shí)數據報表
使用數據分析工具連接數據庫,進(jìn)行數據分析或報表制作,查看效果,制作教程
應用二:對接企業(yè)流程
通過(guò)在草料平臺上實(shí)現掃碼采集數據等功能,然后通過(guò)API與企業(yè)系統的進(jìn)程對接,企業(yè)可以在保持原有系統的同時(shí),以極低??的成本應用草料功能,并檢查影響
二、我們提供3種推送方式1、官方數據庫
Forage 為您提供獨立的云數據庫來(lái)同步您的后端數據。之后,您可以使用數據分析軟件連接到這個(gè)云數據庫進(jìn)行數據報告;或者編寫(xiě)程序主動(dòng)調用數據連接其他系統。查看數據庫字段說(shuō)明
指示:
草料后臺導航欄-數據API高級功能,選擇官方數據庫,填寫(xiě)信息,提交激活申請。以下是申請成功后得到的數據庫示例:
類(lèi)型:MySQL
主持人:
端口:3306
數據庫名稱(chēng):cli_202112111(示例)
用戶(hù)名:cli_202112111(示例)
密碼:ek82jk9e1kdi45(示例)
報告制作:
如需連接官方數據庫并制作自定義報表,可查看報表制作教程
因為涉及到基礎數據庫(SQL)操作和BI工具操作,所以有一定的使用門(mén)檻。使用前請掌握基本操作能力。
2、自有數據庫
Forage會(huì )將數據實(shí)時(shí)推送到您提供的企業(yè)數據庫中(僅支持Mysql5.7版本),無(wú)需建表和開(kāi)放公網(wǎng)訪(fǎng)問(wèn)權限。后續可自由讀取數據,實(shí)現企業(yè)數據與信息的整合。查看數據字段說(shuō)明
指示:
草料后臺導航欄-數據API的高級功能,選擇自己的數據庫,填寫(xiě)自己的數據庫主機、端口、賬號等信息。
3、網(wǎng)絡(luò )鉤子
Forage 會(huì )將 JSON 格式的表單數據推送到您指定的 URL。該地址需要允許公共互聯(lián)網(wǎng)訪(fǎng)問(wèn)。之后,您可以編寫(xiě)程序并使用接收到的數據與其他系統或進(jìn)程進(jìn)行交互。查看 Webhook 說(shuō)明
指示:
飼料后臺導航欄-數據API的高級功能,選擇Webhook,填寫(xiě)接收數據的URL地址并保存。
具體流程:
?、偈紫葴蕚湟粋€(gè)可以從公網(wǎng)訪(fǎng)問(wèn)的接口地址,填寫(xiě)地址字段,例如(xxx部分為系統的域名或IP)
?、谂渲煤?,每當在草料中生成新的表單數據時(shí)(如在表單中提交一條記錄),都會(huì )向上述地址發(fā)出POST請求
查看全部
文章采集api(數據推送API的應用草料平臺的3種推送方式(一)
)
一、數據推送API應用
飼料平臺的數據可以自動(dòng)推送給您,您可以將數據作為應用程序自行調用。目前不支持將數據從外部系統寫(xiě)入飼料。
應用一:制作實(shí)時(shí)數據報表
使用數據分析工具連接數據庫,進(jìn)行數據分析或報表制作,查看效果,制作教程

應用二:對接企業(yè)流程
通過(guò)在草料平臺上實(shí)現掃碼采集數據等功能,然后通過(guò)API與企業(yè)系統的進(jìn)程對接,企業(yè)可以在保持原有系統的同時(shí),以極低??的成本應用草料功能,并檢查影響

二、我們提供3種推送方式1、官方數據庫
Forage 為您提供獨立的云數據庫來(lái)同步您的后端數據。之后,您可以使用數據分析軟件連接到這個(gè)云數據庫進(jìn)行數據報告;或者編寫(xiě)程序主動(dòng)調用數據連接其他系統。查看數據庫字段說(shuō)明
指示:
草料后臺導航欄-數據API高級功能,選擇官方數據庫,填寫(xiě)信息,提交激活申請。以下是申請成功后得到的數據庫示例:
類(lèi)型:MySQL
主持人:
端口:3306
數據庫名稱(chēng):cli_202112111(示例)
用戶(hù)名:cli_202112111(示例)
密碼:ek82jk9e1kdi45(示例)
報告制作:
如需連接官方數據庫并制作自定義報表,可查看報表制作教程
因為涉及到基礎數據庫(SQL)操作和BI工具操作,所以有一定的使用門(mén)檻。使用前請掌握基本操作能力。
2、自有數據庫
Forage會(huì )將數據實(shí)時(shí)推送到您提供的企業(yè)數據庫中(僅支持Mysql5.7版本),無(wú)需建表和開(kāi)放公網(wǎng)訪(fǎng)問(wèn)權限。后續可自由讀取數據,實(shí)現企業(yè)數據與信息的整合。查看數據字段說(shuō)明
指示:
草料后臺導航欄-數據API的高級功能,選擇自己的數據庫,填寫(xiě)自己的數據庫主機、端口、賬號等信息。

3、網(wǎng)絡(luò )鉤子
Forage 會(huì )將 JSON 格式的表單數據推送到您指定的 URL。該地址需要允許公共互聯(lián)網(wǎng)訪(fǎng)問(wèn)。之后,您可以編寫(xiě)程序并使用接收到的數據與其他系統或進(jìn)程進(jìn)行交互。查看 Webhook 說(shuō)明
指示:
飼料后臺導航欄-數據API的高級功能,選擇Webhook,填寫(xiě)接收數據的URL地址并保存。
具體流程:
?、偈紫葴蕚湟粋€(gè)可以從公網(wǎng)訪(fǎng)問(wèn)的接口地址,填寫(xiě)地址字段,例如(xxx部分為系統的域名或IP)
?、谂渲煤?,每當在草料中生成新的表單數據時(shí)(如在表單中提交一條記錄),都會(huì )向上述地址發(fā)出POST請求

文章采集api(優(yōu)采云采集支持調用寫(xiě)作社API接口,處理采集的數據標題和內容等 )
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 147 次瀏覽 ? 2021-10-28 14:18
)
優(yōu)采云采集 支持調用寫(xiě)代理API接口處理采集的數據標題和內容;
詳細使用步驟如下:
1. 創(chuàng )建寫(xiě)代理API接口配置一、API配置入口:
點(diǎn)擊控制臺左側列表中的【第三方服務(wù)配置】==》點(diǎn)擊【第三方內容API訪(fǎng)問(wèn)】==》點(diǎn)擊【第三方API配置管理】==》最后點(diǎn)擊【寫(xiě)Club_Rewrite接口A(yíng)PI】 ] 創(chuàng )建接口配置;
二、配置API接口信息:
購買(mǎi)代寫(xiě)API,請聯(lián)系代寫(xiě)客服,告知在優(yōu)采云采集平臺使用。
【API key】請聯(lián)系代寫(xiě)機構客服獲取對應的API key,填寫(xiě)優(yōu)采云;
注意:編寫(xiě)機構限制每次調用最多6000個(gè)字符(包括html代碼),所以當內容長(cháng)度超過(guò)時(shí),優(yōu)采云會(huì )被分割調用多次。這個(gè)操作會(huì )增加api調用次數,增加成本。會(huì )相應增加,這是用戶(hù)需要承擔的費用,使用前一定要注意?。?!
2. 創(chuàng )建 API 處理規則
API處理規則,可設置調用API接口處理哪些字段的內容;
一、API處理規則入口:
點(diǎn)擊控制臺左側列表中的【第三方服務(wù)配置】==》點(diǎn)擊【第三方內容API訪(fǎng)問(wèn)】==》進(jìn)入【API處理規則管理】頁(yè)面,最后點(diǎn)擊【添加API】處理規則] 創(chuàng )建API處理規則;
二、API處理規則配置:
規則名稱(chēng):用戶(hù)可以自己命名;
字段名:填寫(xiě)的字段名的內容將由API接口處理。默認為title和content字段,可以修改、添加或刪除;
使用的API:選擇已經(jīng)設置好的API接口配置,執行時(shí)會(huì )調用該接口,多個(gè)字段可以選擇不同的API接口配置;
處理順序:執行順序是按照數量從小到大執行;
3. API 處理規則使用
API處理規則的使用方式有兩種:手動(dòng)執行和自動(dòng)執行:
手動(dòng)執行:data采集后,在【Result Data & Release】中使用第三方API執行;
自動(dòng)執行:自動(dòng)化配置完成后,任務(wù)采集數據完成后,系統會(huì )自動(dòng)執行指定的API處理規則,無(wú)需人工操作。
一、手動(dòng)執行API處理規則:
在任務(wù)的【結果數據&發(fā)布】選項卡中,點(diǎn)擊【SEO&API&翻譯工具】按鈕==》選擇【第三方API執行】欄==》選擇對應的API處理規則==》執行(有兩個(gè)執行數據范圍的方法,根據發(fā)布狀態(tài)批量執行,根據列表中選擇的數據執行);
二、自動(dòng)執行API處理規則:
啟用 API 處理的自動(dòng)執行。任務(wù)完成采集后,會(huì )自動(dòng)執行API處理。一般配合定時(shí)采集和自動(dòng)發(fā)布功能使用非常方便;
在任務(wù)的【自動(dòng)化:發(fā)布&SEO&翻譯】選項卡中,【自動(dòng)執行第三方API配置】==》勾選【采集,自動(dòng)執行API】選項==》選擇要執行的API處理規則==》選擇API接口處理的數據范圍(一般選擇“待發(fā)布”,所有會(huì )導致所有數據被多次執行),最后點(diǎn)擊保存;
4. API處理結果及發(fā)布 一、查看API接口處理結果:
API接口處理的內容會(huì )保存為一個(gè)新的字段,例如:
標題處理后新增字段:title_寫(xiě)社
內容處理后的新領(lǐng)域:content_寫(xiě)社
在【結果數據&發(fā)布】和數據預覽界面均可查看。
提示:API處理規則執行需要一段時(shí)間,執行后頁(yè)面會(huì )自動(dòng)刷新,API接口處理的新字段會(huì )出現;
二、API接口處理后的內容發(fā)布
在發(fā)布文章之前,修改發(fā)布目標第二步的映射字段,通過(guò)API接口處理后將title和content改為新的對應字段title_writing club和content_writing club;
提示:如果無(wú)法在發(fā)布目標中選擇新字段,請在此任務(wù)下復制或創(chuàng )建一個(gè)新的發(fā)布目標,然后您可以在新的發(fā)布目標中選擇新字段。詳細教程可以查看發(fā)布目標中不能選擇的字段;
5. 編寫(xiě)Club-API接口常見(jiàn)問(wèn)題及解決方法
一、API處理規則和SEO規則如何搭配使用?
系統默認對title和content字段進(jìn)行SEO功能,需要在SEO規則中修改title_writing club和content_writing club字段;
查看全部
文章采集api(優(yōu)采云采集支持調用寫(xiě)作社API接口,處理采集的數據標題和內容等
)
優(yōu)采云采集 支持調用寫(xiě)代理API接口處理采集的數據標題和內容;
詳細使用步驟如下:
1. 創(chuàng )建寫(xiě)代理API接口配置一、API配置入口:
點(diǎn)擊控制臺左側列表中的【第三方服務(wù)配置】==》點(diǎn)擊【第三方內容API訪(fǎng)問(wèn)】==》點(diǎn)擊【第三方API配置管理】==》最后點(diǎn)擊【寫(xiě)Club_Rewrite接口A(yíng)PI】 ] 創(chuàng )建接口配置;
二、配置API接口信息:
購買(mǎi)代寫(xiě)API,請聯(lián)系代寫(xiě)客服,告知在優(yōu)采云采集平臺使用。
【API key】請聯(lián)系代寫(xiě)機構客服獲取對應的API key,填寫(xiě)優(yōu)采云;
注意:編寫(xiě)機構限制每次調用最多6000個(gè)字符(包括html代碼),所以當內容長(cháng)度超過(guò)時(shí),優(yōu)采云會(huì )被分割調用多次。這個(gè)操作會(huì )增加api調用次數,增加成本。會(huì )相應增加,這是用戶(hù)需要承擔的費用,使用前一定要注意?。?!
2. 創(chuàng )建 API 處理規則
API處理規則,可設置調用API接口處理哪些字段的內容;
一、API處理規則入口:
點(diǎn)擊控制臺左側列表中的【第三方服務(wù)配置】==》點(diǎn)擊【第三方內容API訪(fǎng)問(wèn)】==》進(jìn)入【API處理規則管理】頁(yè)面,最后點(diǎn)擊【添加API】處理規則] 創(chuàng )建API處理規則;
二、API處理規則配置:
規則名稱(chēng):用戶(hù)可以自己命名;
字段名:填寫(xiě)的字段名的內容將由API接口處理。默認為title和content字段,可以修改、添加或刪除;
使用的API:選擇已經(jīng)設置好的API接口配置,執行時(shí)會(huì )調用該接口,多個(gè)字段可以選擇不同的API接口配置;
處理順序:執行順序是按照數量從小到大執行;
3. API 處理規則使用
API處理規則的使用方式有兩種:手動(dòng)執行和自動(dòng)執行:
手動(dòng)執行:data采集后,在【Result Data & Release】中使用第三方API執行;
自動(dòng)執行:自動(dòng)化配置完成后,任務(wù)采集數據完成后,系統會(huì )自動(dòng)執行指定的API處理規則,無(wú)需人工操作。
一、手動(dòng)執行API處理規則:
在任務(wù)的【結果數據&發(fā)布】選項卡中,點(diǎn)擊【SEO&API&翻譯工具】按鈕==》選擇【第三方API執行】欄==》選擇對應的API處理規則==》執行(有兩個(gè)執行數據范圍的方法,根據發(fā)布狀態(tài)批量執行,根據列表中選擇的數據執行);
二、自動(dòng)執行API處理規則:
啟用 API 處理的自動(dòng)執行。任務(wù)完成采集后,會(huì )自動(dòng)執行API處理。一般配合定時(shí)采集和自動(dòng)發(fā)布功能使用非常方便;
在任務(wù)的【自動(dòng)化:發(fā)布&SEO&翻譯】選項卡中,【自動(dòng)執行第三方API配置】==》勾選【采集,自動(dòng)執行API】選項==》選擇要執行的API處理規則==》選擇API接口處理的數據范圍(一般選擇“待發(fā)布”,所有會(huì )導致所有數據被多次執行),最后點(diǎn)擊保存;
4. API處理結果及發(fā)布 一、查看API接口處理結果:
API接口處理的內容會(huì )保存為一個(gè)新的字段,例如:
標題處理后新增字段:title_寫(xiě)社
內容處理后的新領(lǐng)域:content_寫(xiě)社
在【結果數據&發(fā)布】和數據預覽界面均可查看。
提示:API處理規則執行需要一段時(shí)間,執行后頁(yè)面會(huì )自動(dòng)刷新,API接口處理的新字段會(huì )出現;
二、API接口處理后的內容發(fā)布
在發(fā)布文章之前,修改發(fā)布目標第二步的映射字段,通過(guò)API接口處理后將title和content改為新的對應字段title_writing club和content_writing club;
提示:如果無(wú)法在發(fā)布目標中選擇新字段,請在此任務(wù)下復制或創(chuàng )建一個(gè)新的發(fā)布目標,然后您可以在新的發(fā)布目標中選擇新字段。詳細教程可以查看發(fā)布目標中不能選擇的字段;
5. 編寫(xiě)Club-API接口常見(jiàn)問(wèn)題及解決方法
一、API處理規則和SEO規則如何搭配使用?
系統默認對title和content字段進(jìn)行SEO功能,需要在SEO規則中修改title_writing club和content_writing club字段;
文章采集api(批量采集“虎嗅”的文章到自己網(wǎng)站的應用)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 176 次瀏覽 ? 2021-10-26 03:03
現在有這樣一個(gè)需求:批量采集微信公眾號文章給自己網(wǎng)站,批量采集“虎嗅”文章給自己網(wǎng)站 . 主要障礙之一是我們的網(wǎng)站中無(wú)法顯示原創(chuàng )圖片地址。
他們利用HTTP請求頭中的referrer值,即請求的來(lái)源,來(lái)判斷是否返回數據,以達到防盜的目的。一些直播源也使用這種方法來(lái)防止非法賣(mài)淫。我們需要知道的是,我們的網(wǎng)站通常會(huì )在發(fā)起http請求時(shí)自動(dòng)將referrer設置為網(wǎng)站地址。
下面的方法主要是全局添加幾個(gè)meta標簽來(lái)設置默認的referrer值,以免請求原圖數據時(shí)提供網(wǎng)站地址的來(lái)源,避免原網(wǎng)站反-leech設計,但是這部分依賴(lài)這個(gè)原理輔助統計的第三方推廣鏈接非常不利,甚至可能會(huì )被判定為無(wú)效,導致無(wú)法獲得傭金。
折中的方法是將微信公眾號文章和采集分到一個(gè)單獨的分類(lèi)中,只有當網(wǎng)站在這個(gè)分類(lèi)元標簽下顯示文章時(shí)才添加。
// 其它自定義代碼加到此行下面
add_action('wp_head', 'guihet_referrer');// 前端添加 referrer 標簽
add_action('admin_head', 'guihet_referrer');// 后臺添加 referrer 標簽
function guihet_referrer(){
$catsy = get_the_category();
$myCat = $catsy[0]->cat_ID;
if($myCat===22) //分類(lèi) ID 為 22 的..
{
echo'';
echo'';
echo'';
}
}
代碼添加到WP主題模板下functions.php文件的最后,這里根據實(shí)際情況更改類(lèi)別ID。 查看全部
文章采集api(批量采集“虎嗅”的文章到自己網(wǎng)站的應用)
現在有這樣一個(gè)需求:批量采集微信公眾號文章給自己網(wǎng)站,批量采集“虎嗅”文章給自己網(wǎng)站 . 主要障礙之一是我們的網(wǎng)站中無(wú)法顯示原創(chuàng )圖片地址。
他們利用HTTP請求頭中的referrer值,即請求的來(lái)源,來(lái)判斷是否返回數據,以達到防盜的目的。一些直播源也使用這種方法來(lái)防止非法賣(mài)淫。我們需要知道的是,我們的網(wǎng)站通常會(huì )在發(fā)起http請求時(shí)自動(dòng)將referrer設置為網(wǎng)站地址。

下面的方法主要是全局添加幾個(gè)meta標簽來(lái)設置默認的referrer值,以免請求原圖數據時(shí)提供網(wǎng)站地址的來(lái)源,避免原網(wǎng)站反-leech設計,但是這部分依賴(lài)這個(gè)原理輔助統計的第三方推廣鏈接非常不利,甚至可能會(huì )被判定為無(wú)效,導致無(wú)法獲得傭金。
折中的方法是將微信公眾號文章和采集分到一個(gè)單獨的分類(lèi)中,只有當網(wǎng)站在這個(gè)分類(lèi)元標簽下顯示文章時(shí)才添加。
// 其它自定義代碼加到此行下面
add_action('wp_head', 'guihet_referrer');// 前端添加 referrer 標簽
add_action('admin_head', 'guihet_referrer');// 后臺添加 referrer 標簽
function guihet_referrer(){
$catsy = get_the_category();
$myCat = $catsy[0]->cat_ID;
if($myCat===22) //分類(lèi) ID 為 22 的..
{
echo'';
echo'';
echo'';
}
}
代碼添加到WP主題模板下functions.php文件的最后,這里根據實(shí)際情況更改類(lèi)別ID。
文章采集api(數據推送API的應用草料平臺的3種推送方式(一) )
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 176 次瀏覽 ? 2021-10-24 01:00
)
一、數據推送API應用
飼料平臺的數據可以自動(dòng)推送給您,您可以自己調用數據作為應用程序。目前不支持將數據從外部系統寫(xiě)入飼料。
應用一:制作實(shí)時(shí)數據報表
使用數據分析工具連接數據庫,進(jìn)行數據分析或報表制作,查看效果,制作教程
應用二:對接企業(yè)流程
通過(guò)在草料平臺上實(shí)現掃碼采集數據等功能,然后通過(guò)API與企業(yè)系統的進(jìn)程對接,企業(yè)可以在保持原有系統的同時(shí),以極低??的成本應用草料功能,并檢查影響
二、我們提供3種推送方式1、官方數據庫
Forage 為您提供獨立的云數據庫來(lái)同步您的后端數據。之后,您可以使用數據分析軟件連接到這個(gè)云數據庫進(jìn)行數據報告;或者編寫(xiě)程序主動(dòng)調用數據連接其他系統。查看數據庫字段說(shuō)明
指示:
草料后臺導航欄-數據API高級功能,選擇官方數據庫,填寫(xiě)信息,提交激活申請。以下是申請成功后得到的數據庫示例:
類(lèi)型:MySQL
主持人:
端口:3306
數據庫名稱(chēng):cli_202112111(示例)
用戶(hù)名:cli_202112111(示例)
密碼:ek82jk9e1kdi45(示例)
報告制作:
如需連接官方數據庫并制作自定義報表,可查看報表制作教程
因為涉及到基礎數據庫(SQL)操作和BI工具操作,所以有一定的使用門(mén)檻。使用前請掌握基本操作能力。
2、自有數據庫
Forage會(huì )將數據實(shí)時(shí)推送到您提供的企業(yè)數據庫中(僅支持Mysql5.7版本),無(wú)需建表和開(kāi)放公網(wǎng)訪(fǎng)問(wèn)權限。后續可自由讀取數據,實(shí)現企業(yè)數據與信息的整合。查看數據字段說(shuō)明
指示:
草料后臺導航欄-數據API的高級功能,選擇自己的數據庫,填寫(xiě)自己的數據庫主機、端口、賬號等信息。
3、網(wǎng)絡(luò )鉤子
Forage 會(huì )將 JSON 格式的表單數據推送到您指定的 URL。該地址需要允許公共互聯(lián)網(wǎng)訪(fǎng)問(wèn)。之后,您可以編寫(xiě)程序并使用接收到的數據與其他系統或進(jìn)程進(jìn)行交互。查看 Webhook 說(shuō)明
指示:
草料后臺導航欄-數據API的高級功能,選擇Webhook,填寫(xiě)接收數據的URL地址并保存。
具體流程:
?、偈紫葴蕚湟粋€(gè)可以從公網(wǎng)訪(fǎng)問(wèn)的接口地址,填寫(xiě)地址字段,例如(xxx部分為系統的域名或IP)
?、谂渲煤?,每當在草料中生成新的表單數據時(shí)(如在表單中提交一條記錄),都會(huì )向上述地址發(fā)出POST請求
查看全部
文章采集api(數據推送API的應用草料平臺的3種推送方式(一)
)
一、數據推送API應用
飼料平臺的數據可以自動(dòng)推送給您,您可以自己調用數據作為應用程序。目前不支持將數據從外部系統寫(xiě)入飼料。
應用一:制作實(shí)時(shí)數據報表
使用數據分析工具連接數據庫,進(jìn)行數據分析或報表制作,查看效果,制作教程

應用二:對接企業(yè)流程
通過(guò)在草料平臺上實(shí)現掃碼采集數據等功能,然后通過(guò)API與企業(yè)系統的進(jìn)程對接,企業(yè)可以在保持原有系統的同時(shí),以極低??的成本應用草料功能,并檢查影響

二、我們提供3種推送方式1、官方數據庫
Forage 為您提供獨立的云數據庫來(lái)同步您的后端數據。之后,您可以使用數據分析軟件連接到這個(gè)云數據庫進(jìn)行數據報告;或者編寫(xiě)程序主動(dòng)調用數據連接其他系統。查看數據庫字段說(shuō)明
指示:
草料后臺導航欄-數據API高級功能,選擇官方數據庫,填寫(xiě)信息,提交激活申請。以下是申請成功后得到的數據庫示例:
類(lèi)型:MySQL
主持人:
端口:3306
數據庫名稱(chēng):cli_202112111(示例)
用戶(hù)名:cli_202112111(示例)
密碼:ek82jk9e1kdi45(示例)
報告制作:
如需連接官方數據庫并制作自定義報表,可查看報表制作教程
因為涉及到基礎數據庫(SQL)操作和BI工具操作,所以有一定的使用門(mén)檻。使用前請掌握基本操作能力。
2、自有數據庫
Forage會(huì )將數據實(shí)時(shí)推送到您提供的企業(yè)數據庫中(僅支持Mysql5.7版本),無(wú)需建表和開(kāi)放公網(wǎng)訪(fǎng)問(wèn)權限。后續可自由讀取數據,實(shí)現企業(yè)數據與信息的整合。查看數據字段說(shuō)明
指示:
草料后臺導航欄-數據API的高級功能,選擇自己的數據庫,填寫(xiě)自己的數據庫主機、端口、賬號等信息。

3、網(wǎng)絡(luò )鉤子
Forage 會(huì )將 JSON 格式的表單數據推送到您指定的 URL。該地址需要允許公共互聯(lián)網(wǎng)訪(fǎng)問(wèn)。之后,您可以編寫(xiě)程序并使用接收到的數據與其他系統或進(jìn)程進(jìn)行交互。查看 Webhook 說(shuō)明
指示:
草料后臺導航欄-數據API的高級功能,選擇Webhook,填寫(xiě)接收數據的URL地址并保存。
具體流程:
?、偈紫葴蕚湟粋€(gè)可以從公網(wǎng)訪(fǎng)問(wèn)的接口地址,填寫(xiě)地址字段,例如(xxx部分為系統的域名或IP)
?、谂渲煤?,每當在草料中生成新的表單數據時(shí)(如在表單中提交一條記錄),都會(huì )向上述地址發(fā)出POST請求

文章采集api(php采集文章圖片不顯示的解決辦法:1、根據關(guān)鍵字采集百度搜尋結果)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 129 次瀏覽 ? 2021-10-22 21:10
今天PHP愛(ài)好者為大家帶來(lái)php采集文章圖片不顯示的解決方法:1、根據關(guān)鍵字采集百度搜索結果; 2、@ >將采集中的html根據定義的域名進(jìn)行批量轉換。希望能幫到你。
本文運行環(huán)境:windows7系統,PHP7.版本1,DELL G3電腦
php采集文章圖片不顯示怎么辦?
PHP CURL采集百度搜索結果圖片不顯示問(wèn)題的解決方法
1.根據關(guān)鍵字采集百度搜索結果
根據關(guān)鍵字采集百度搜索結果,可以使用curl來(lái)實(shí)現,代碼如下:
<p style="line-height: 2em; text-indent: 2em; text-align: left;"><br style="text-indent: 2em; text-align: left;"/></p>
輸出后發(fā)現有些圖片無(wú)法顯示
2.采集顯示后圖片不顯示原因分析
直接在百度搜索,頁(yè)面可以顯示圖片。使用firebug查看圖片路徑,發(fā)現采集的圖片域名與百度搜索的圖片域名不同。
采集返回的圖片域名
用于普通搜索的圖像域
查看采集和正常搜索html,發(fā)現有域名轉換js不一樣
采集
<p style="line-height: 2em; text-indent: 2em; text-align: left;">var list = {<br style="text-indent: 2em; text-align: left;"/> ? ?"graph.baidu.com": "http://graph.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"t1.baidu.com":"http://t1.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"t2.baidu.com":"http://t2.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"t3.baidu.com":"http://t3.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"t10.baidu.com":"http://t10.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"t11.baidu.com":"http://t11.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"t12.baidu.com":"http://t12.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"i7.baidu.com":"http://i7.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"i8.baidu.com":"http://i8.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"i9.baidu.com":"http://i9.baidu.com",<br style="text-indent: 2em; text-align: left;"/>};<br style="text-indent: 2em; text-align: left;"/></p>
普通搜索
<p style="line-height: 2em; text-indent: 2em; text-align: left;">var list = {<br style="text-indent: 2em; text-align: left;"/> ? ?"graph.baidu.com": "https://sp0.baidu.com/-aYHfD0a2gU2pMbgoY3K",<br style="text-indent: 2em; text-align: left;"/> ? ?"t1.baidu.com":"https://ss0.baidu.com/6ON1bjeh1BF3odCf",<br style="text-indent: 2em; text-align: left;"/> ? ?"t2.baidu.com":"https://ss1.baidu.com/6OZ1bjeh1BF3odCf",<br style="text-indent: 2em; text-align: left;"/> ? ?"t3.baidu.com":"https://ss2.baidu.com/6OV1bjeh1BF3odCf",<br style="text-indent: 2em; text-align: left;"/> ? ?"t10.baidu.com":"https://ss0.baidu.com/6ONWsjip0QIZ8tyhnq",<br style="text-indent: 2em; text-align: left;"/> ? ?"t11.baidu.com":"https://ss1.baidu.com/6ONXsjip0QIZ8tyhnq",<br style="text-indent: 2em; text-align: left;"/> ? ?"t12.baidu.com":"https://ss2.baidu.com/6ONYsjip0QIZ8tyhnq",<br style="text-indent: 2em; text-align: left;"/> ? ?"i7.baidu.com":"https://ss0.baidu.com/73F1bjeh1BF3odCf",<br style="text-indent: 2em; text-align: left;"/> ? ?"i8.baidu.com":"https://ss0.baidu.com/73x1bjeh1BF3odCf",<br style="text-indent: 2em; text-align: left;"/> ? ?"i9.baidu.com":"https://ss0.baidu.com/73t1bjeh1BF3odCf",<br style="text-indent: 2em; text-align: left;"/>};<br style="text-indent: 2em; text-align: left;"/></p>
因此,根據源地址、IP、header等參數可以斷定,如果是采集,百度會(huì )返回不同的js。
3.采集圖片不顯示后的解決方法
根據定義的域名批量傳輸采集中的html。
<p style="line-height: 2em; text-indent: 2em; text-align: left;"><br style="text-indent: 2em; text-align: left;"/></p>
添加域名轉換后,所有圖片均可正常顯示。
以上是php采集文章的詳細內容,圖片沒(méi)有說(shuō)明怎么做。更多詳情請關(guān)注其他相關(guān)php粉絲文章! 查看全部
文章采集api(php采集文章圖片不顯示的解決辦法:1、根據關(guān)鍵字采集百度搜尋結果)
今天PHP愛(ài)好者為大家帶來(lái)php采集文章圖片不顯示的解決方法:1、根據關(guān)鍵字采集百度搜索結果; 2、@ >將采集中的html根據定義的域名進(jìn)行批量轉換。希望能幫到你。

本文運行環(huán)境:windows7系統,PHP7.版本1,DELL G3電腦
php采集文章圖片不顯示怎么辦?
PHP CURL采集百度搜索結果圖片不顯示問(wèn)題的解決方法
1.根據關(guān)鍵字采集百度搜索結果
根據關(guān)鍵字采集百度搜索結果,可以使用curl來(lái)實(shí)現,代碼如下:
<p style="line-height: 2em; text-indent: 2em; text-align: left;"><br style="text-indent: 2em; text-align: left;"/></p>
輸出后發(fā)現有些圖片無(wú)法顯示

2.采集顯示后圖片不顯示原因分析
直接在百度搜索,頁(yè)面可以顯示圖片。使用firebug查看圖片路徑,發(fā)現采集的圖片域名與百度搜索的圖片域名不同。
采集返回的圖片域名

用于普通搜索的圖像域

查看采集和正常搜索html,發(fā)現有域名轉換js不一樣
采集
<p style="line-height: 2em; text-indent: 2em; text-align: left;">var list = {<br style="text-indent: 2em; text-align: left;"/> ? ?"graph.baidu.com": "http://graph.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"t1.baidu.com":"http://t1.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"t2.baidu.com":"http://t2.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"t3.baidu.com":"http://t3.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"t10.baidu.com":"http://t10.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"t11.baidu.com":"http://t11.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"t12.baidu.com":"http://t12.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"i7.baidu.com":"http://i7.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"i8.baidu.com":"http://i8.baidu.com",<br style="text-indent: 2em; text-align: left;"/> ? ?"i9.baidu.com":"http://i9.baidu.com",<br style="text-indent: 2em; text-align: left;"/>};<br style="text-indent: 2em; text-align: left;"/></p>
普通搜索
<p style="line-height: 2em; text-indent: 2em; text-align: left;">var list = {<br style="text-indent: 2em; text-align: left;"/> ? ?"graph.baidu.com": "https://sp0.baidu.com/-aYHfD0a2gU2pMbgoY3K",<br style="text-indent: 2em; text-align: left;"/> ? ?"t1.baidu.com":"https://ss0.baidu.com/6ON1bjeh1BF3odCf",<br style="text-indent: 2em; text-align: left;"/> ? ?"t2.baidu.com":"https://ss1.baidu.com/6OZ1bjeh1BF3odCf",<br style="text-indent: 2em; text-align: left;"/> ? ?"t3.baidu.com":"https://ss2.baidu.com/6OV1bjeh1BF3odCf",<br style="text-indent: 2em; text-align: left;"/> ? ?"t10.baidu.com":"https://ss0.baidu.com/6ONWsjip0QIZ8tyhnq",<br style="text-indent: 2em; text-align: left;"/> ? ?"t11.baidu.com":"https://ss1.baidu.com/6ONXsjip0QIZ8tyhnq",<br style="text-indent: 2em; text-align: left;"/> ? ?"t12.baidu.com":"https://ss2.baidu.com/6ONYsjip0QIZ8tyhnq",<br style="text-indent: 2em; text-align: left;"/> ? ?"i7.baidu.com":"https://ss0.baidu.com/73F1bjeh1BF3odCf",<br style="text-indent: 2em; text-align: left;"/> ? ?"i8.baidu.com":"https://ss0.baidu.com/73x1bjeh1BF3odCf",<br style="text-indent: 2em; text-align: left;"/> ? ?"i9.baidu.com":"https://ss0.baidu.com/73t1bjeh1BF3odCf",<br style="text-indent: 2em; text-align: left;"/>};<br style="text-indent: 2em; text-align: left;"/></p>
因此,根據源地址、IP、header等參數可以斷定,如果是采集,百度會(huì )返回不同的js。
3.采集圖片不顯示后的解決方法
根據定義的域名批量傳輸采集中的html。
<p style="line-height: 2em; text-indent: 2em; text-align: left;"><br style="text-indent: 2em; text-align: left;"/></p>
添加域名轉換后,所有圖片均可正常顯示。

以上是php采集文章的詳細內容,圖片沒(méi)有說(shuō)明怎么做。更多詳情請關(guān)注其他相關(guān)php粉絲文章!
文章采集api([搜一搜]智能寫(xiě)作神器減少腦力勞動(dòng),快速實(shí)現目標.)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 242 次瀏覽 ? 2021-10-19 10:25
【搜一搜】智能寫(xiě)作是優(yōu)秀自媒體人和SEOR必備的寫(xiě)作工具,減少腦力勞動(dòng),提高工作效率,快速達成目標。
如果你是第一次使用,【搜一搜】助你成為優(yōu)秀的寫(xiě)作高手,一起來(lái)看看吧~
下面是幾個(gè)新手需要知道的常用函數
一、找到登錄網(wǎng)址
二、文章采集
三、原采集列表
四、偽原創(chuàng )列表
五、獲取API
一、找到登錄網(wǎng)址
1.在電腦上打開(kāi)瀏覽器
2. 在地址欄中輸入 URL/
3.注冊賬號,直接登錄
二、文章采集
1、文章采集,打開(kāi)界面,可以看到最上方的選項文章采集,點(diǎn)擊進(jìn)入關(guān)鍵詞,你可以隨便輸入想表達 只需輸入一兩個(gè)字就可以自動(dòng)生成專(zhuān)業(yè)的文章。
2.批量采集,批量采集可以一次搜索多個(gè)關(guān)鍵詞,速度更快。
3.采集的結果,采集的結果是前兩步提交的結果,處理狀態(tài)和詳細信息可以在這里查看。
三、原采集列表
在這里可以看到文章的出處和標題,也可以查看偽原創(chuàng )的內容和原文,方便修改。
四、偽原創(chuàng )列表
您可以使用偽原創(chuàng )直觀(guān)的查看文章的相似度,更方便的修改文章的內容。
五、獲取API
如果您有特殊需求,可以連接我們的API系統,連接您的網(wǎng)站系統,cms站群等。
那么今天給大家分享的5個(gè)實(shí)用技巧,你學(xué)會(huì )了嗎?快點(diǎn)快點(diǎn)練習吧~
【體驗地址】電腦登錄,免費注冊:/ 查看全部
文章采集api([搜一搜]智能寫(xiě)作神器減少腦力勞動(dòng),快速實(shí)現目標.)
【搜一搜】智能寫(xiě)作是優(yōu)秀自媒體人和SEOR必備的寫(xiě)作工具,減少腦力勞動(dòng),提高工作效率,快速達成目標。

如果你是第一次使用,【搜一搜】助你成為優(yōu)秀的寫(xiě)作高手,一起來(lái)看看吧~
下面是幾個(gè)新手需要知道的常用函數
一、找到登錄網(wǎng)址
二、文章采集
三、原采集列表
四、偽原創(chuàng )列表
五、獲取API
一、找到登錄網(wǎng)址
1.在電腦上打開(kāi)瀏覽器
2. 在地址欄中輸入 URL/
3.注冊賬號,直接登錄

二、文章采集
1、文章采集,打開(kāi)界面,可以看到最上方的選項文章采集,點(diǎn)擊進(jìn)入關(guān)鍵詞,你可以隨便輸入想表達 只需輸入一兩個(gè)字就可以自動(dòng)生成專(zhuān)業(yè)的文章。
2.批量采集,批量采集可以一次搜索多個(gè)關(guān)鍵詞,速度更快。
3.采集的結果,采集的結果是前兩步提交的結果,處理狀態(tài)和詳細信息可以在這里查看。
三、原采集列表
在這里可以看到文章的出處和標題,也可以查看偽原創(chuàng )的內容和原文,方便修改。

四、偽原創(chuàng )列表
您可以使用偽原創(chuàng )直觀(guān)的查看文章的相似度,更方便的修改文章的內容。

五、獲取API
如果您有特殊需求,可以連接我們的API系統,連接您的網(wǎng)站系統,cms站群等。

那么今天給大家分享的5個(gè)實(shí)用技巧,你學(xué)會(huì )了嗎?快點(diǎn)快點(diǎn)練習吧~
【體驗地址】電腦登錄,免費注冊:/


