免费人成在线观看视频啪_話(huà)題：無(wú)規則采集器列表算法 - 自動(dòng)文章采集器-優(yōu)采云官網(wǎng)

解決方案:一種物聯(lián)網(wǎng)數據采集器動(dòng)態(tài)分發(fā)方法及系統與流程

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 112 次瀏覽 ? 2022-11-09 07:26 ? 來(lái)自相關(guān)話(huà)題

　　解決方案:一種物聯(lián)網(wǎng)數據采集器動(dòng)態(tài)分發(fā)方法及系統與流程
　　1、本發(fā)明涉及數據采集技術(shù)領(lǐng)域，具體涉及一種物聯(lián)網(wǎng)數據采集器動(dòng)態(tài)分發(fā)方法及系統。
　　背景技術(shù)：
　　2、隨著(zhù)物聯(lián)網(wǎng)技術(shù)的發(fā)展，數據采集終端的種類(lèi)和規模不斷增加，對數據采集系統的部署和采集效率提出了更高的要求. 對于大型采集系統，負載均衡和動(dòng)態(tài)部署是保證采集終端數據高效的基礎。
　　3、傳統的data采集部署方式，通常以中間件的形式實(shí)現。比如data采集模塊用于完成業(yè)務(wù)調度和執行，從上層調用data采集邏輯?？刂茢祿杉K端實(shí)現數據采集。當這種方法配置為最小粒度（指標）時(shí)，每個(gè)指標被視為一個(gè)采集任務(wù)，每個(gè)采集任務(wù)需要單獨配置，采集的效率為低的。而data采集器負載均衡依賴(lài)中間件，運維難度大，沒(méi)有動(dòng)態(tài)部署機制。當系統需要增加對其他數據源的支持時(shí)，需要擴展新的data采集協(xié)議，需要重新部署，維護工作量大，可擴展性差。對于大規模數據采集任務(wù)，它有明顯的局限性。
　　技術(shù)實(shí)施要素：
　　4、為了克服現有技術(shù)的不足，本發(fā)明提供了一種物聯(lián)網(wǎng)數據動(dòng)態(tài)分發(fā)采集器的方法和系統，首先將需要采集的終端指標重組為采集按照一定的規則。>任務(wù)列表發(fā)送到對應的物聯(lián)網(wǎng)網(wǎng)關(guān)，然后初始化采集執行器的執行環(huán)境，最后根據采集任務(wù)實(shí)例化采集執行器完成數據采集工作。本發(fā)明不僅可以降低數據采集系統的部署和維護難度，而且在系統增加新的數據源時(shí)不需要重新部署，保證了系統的穩定性和可靠性。系統數據采集和改進(jìn)<
　　5、一種物聯(lián)網(wǎng)數據動(dòng)態(tài)分布采集器的方法，主要包括：
　　6.s1：查找所有終端指標，根據終端和數據源對終端指標進(jìn)行分組，得到指標組列表；
　　7.s2：根據不同的數據源對指標組列表進(jìn)行分組，得到數據源指標組；根據數據源指定的分配算法，將數據源指標組列表中的指標分配給搜索到的物聯(lián)網(wǎng)網(wǎng)關(guān)，獲取每個(gè)網(wǎng)關(guān)采集需要執行的任務(wù)列表，并將任務(wù)發(fā)送給對應的網(wǎng)關(guān)；
　　8.s3：根據采集任務(wù)查找是否有初始化的采集executor執行環(huán)境，如果沒(méi)有，轉步驟s4，如果有，轉步驟s7；
　　9.s4：查找是否有本地緩存??的采集執行器文件，如果沒(méi)有，轉步驟s5，如果有，轉步驟s6；
　　10.s5：平臺向物聯(lián)網(wǎng)平臺請求采集執行器文件后，將文件發(fā)送給物聯(lián)網(wǎng)網(wǎng)關(guān)，網(wǎng)關(guān)接收到文件后，執行步驟s6；
　　11.s6：加載并初始化采集執行器的執行環(huán)境，然后進(jìn)行步驟s7；
　　12.s7：根據采集任務(wù)實(shí)例化采集器并啟動(dòng)，執行數據采集，通過(guò)
　　網(wǎng)關(guān)上傳到物聯(lián)網(wǎng)平臺。
　　13、進(jìn)一步，在步驟s1中，終端指標為數據采集的最小單位，如壓力、流量、溫度、濕度等。
　　14、進(jìn)一步地，在步驟s1中，查找所有終端指示燈的查詢(xún)條件為：終端狀態(tài)開(kāi)啟，終端指示燈狀態(tài)開(kāi)啟，采集狀態(tài)為等待。終端狀態(tài)包括：?jiǎn)⒂?、禁用和刪除，指示燈狀態(tài)包括：?jiǎn)⒂?、禁用和刪除，以及采集狀態(tài)包括：停止、等待、采集和錯誤。
　　15、進(jìn)一步地，當終端的數據和終端索引中與數據采集相關(guān)的信息發(fā)生變化時(shí)，啟動(dòng)終端索引采集的配置重組，則步驟s1為觸發(fā)。
　　16、進(jìn)一步地，在步驟s2中，采集任務(wù)列表收錄數據源信息和采集指標組列表。
　　17、進(jìn)一步的，一個(gè)數據源通過(guò)其編號與多個(gè)網(wǎng)關(guān)的網(wǎng)關(guān)編號相關(guān)聯(lián)，在數據源指標組中查找與該數據源關(guān)聯(lián)的網(wǎng)關(guān)的規則為：網(wǎng)關(guān)可以正常運行采集> 數據源。任務(wù); 尋找：與此數據源相關(guān)聯(lián)，狀態(tài)為啟用，運行狀態(tài)為備用或采集；運行狀態(tài)包括：standby、采集、stopped。
　　18、進(jìn)一步地，在步驟s2中，分配算法包括輪詢(xún)、加權輪詢(xún)、總分配、資源負載和動(dòng)態(tài)負載算法。對于環(huán)境相對固定的場(chǎng)景，使用輪詢(xún)、加權四舍五入。查詢(xún)和總分配算法，對于環(huán)境變化頻繁的場(chǎng)景，使用資源負載和動(dòng)態(tài)負載算法。
　　19、進(jìn)一步，在步驟s3中，當采集任務(wù)在當前網(wǎng)關(guān)中出現數據采集通道故障時(shí)，將重新分配當前采集任務(wù)，并將對應的數據源當前網(wǎng)關(guān)將被標記為發(fā)生故障，在故障修復后狀態(tài)重置為備用之前，它不會(huì )參與后續分配中的分配。
　　20、進(jìn)一步地，步驟s4中，采集執行器文件包括：采集執行器相關(guān)代碼和類(lèi)庫。
　　21.一種物聯(lián)網(wǎng)數據采集器動(dòng)態(tài)分發(fā)系統，用于上述數據采集器動(dòng)態(tài)分發(fā)方法，包括：
　　22、指標組列表獲取模塊，用于查找所有終端指標，根據終端和數據源對終端指標進(jìn)行分組，得到指標組列表；
　　
　　23、采集任務(wù)列表獲取模塊，用于根據不同的數據源對指標組列表進(jìn)行分組，得到數據源指標組；根據數據源指定的分配算法，將數據源指標組列表中的指標分配給數據源。找到物聯(lián)網(wǎng)網(wǎng)關(guān)，獲取每個(gè)網(wǎng)關(guān)要執行的采集任務(wù)列表，并將任務(wù)發(fā)送到對應的網(wǎng)關(guān)；
　　24、執行環(huán)境判斷模塊，用于根據采集任務(wù)判斷是否存在初始化的采集執行器執行環(huán)境；
　　25、采集執行器文件判斷模塊，用于查找本地是否有緩存的采集執行器文件；
　　26、文件傳輸模塊用于向物聯(lián)網(wǎng)平臺請求采集執行器文件，平臺將文件發(fā)送到物聯(lián)網(wǎng)網(wǎng)關(guān)。網(wǎng)關(guān)接收到文件后，執行加載和初始化模塊的功能；
　　27、加載和初始化模塊，用于加載和初始化采集執行器的執行環(huán)境；
　　28、data采集模塊用于實(shí)例化采集器并根據采集任務(wù)啟動(dòng)，執行data采集，并轉換成統一結構上傳它通過(guò)網(wǎng)關(guān)連接到物聯(lián)網(wǎng)平臺。
　　29、本發(fā)明提供的技術(shù)方案帶來(lái)的有益效果是：本發(fā)明可以實(shí)現系統內系統任務(wù)的負載均衡和動(dòng)態(tài)部署，只需要在系統數據采集時(shí)部署網(wǎng)關(guān)即可。，而當系統需要添加對其他數據源的支持時(shí)，不需要重新部署，只需要實(shí)現數據源對應的采集執行器并打包上傳到物聯(lián)網(wǎng)平臺即可。由于網(wǎng)關(guān)的變化相對于采集執行器來(lái)說(shuō)是相對固定的，相對于傳統的基于中間件的方式，
　　目前的負載均衡和動(dòng)態(tài)部署降低了data采集系統的整體部署和維護難度，提高了系統的可擴展性，保證了系統data采集的穩定性和可靠性，完善了系統表現。采集故障轉移的效率。
　　圖紙說(shuō)明
　　30、下面結合附圖和實(shí)施例對本發(fā)明作進(jìn)一步說(shuō)明，其中：
　　31. 圖。圖1為本發(fā)明實(shí)施例的物聯(lián)網(wǎng)數據采集器動(dòng)態(tài)分發(fā)方法流程圖。
　　32. 圖。圖2為本發(fā)明實(shí)施例的物聯(lián)網(wǎng)數據采集器動(dòng)態(tài)分布原理示意圖。
　　詳細方法
　　33、為了更清楚地理解本發(fā)明的技術(shù)特征、目的和效果，現結合附圖對本發(fā)明的具體實(shí)施方式進(jìn)行詳細說(shuō)明。
　　34、本發(fā)明實(shí)施例提供了一種物聯(lián)網(wǎng)數據采集器的動(dòng)態(tài)分發(fā)方法和系統。
　　35. 請參考圖。請參閱圖1，為本發(fā)明實(shí)施例的物聯(lián)網(wǎng)數據采集器動(dòng)態(tài)分發(fā)方法的流程圖，具體包括：
　　36.s1：查找所有終端指標，根據終端和數據源對終端指標進(jìn)行分組，得到指標組列表。
　　37、終端指標是數據采集的最小單位，如壓力、流量、溫度、濕度等。
　　38、查找終端指示燈的查詢(xún)條件為：所屬終端狀態(tài)為：?jiǎn)⒂?，終端指示燈狀態(tài)為：?jiǎn)⒂?，采集狀態(tài)為：等待。
　　39、終端狀態(tài)包括：?jiǎn)⒂?、禁用和刪除，指示燈狀態(tài)包括：?jiǎn)⒂?、禁用和刪除，采集狀態(tài)包括：停止、等待、采集和錯誤。
　　40、當終端數據和終端索引中的數據采集相關(guān)信息發(fā)生變化時(shí)，將發(fā)起終端索引采集的配置重新合并，執行步驟1被觸發(fā)。
　　41.s2：根據不同的數據源對指標組列表進(jìn)行分組，得到數據源指標組。根據數據源指定的分配算法，將數據源指標組列表中的指標分配給搜索到的物聯(lián)網(wǎng)網(wǎng)關(guān)，獲取每個(gè)網(wǎng)關(guān)要執行的采集任務(wù)列表，并將任務(wù)下發(fā)給對應的物聯(lián)網(wǎng)網(wǎng)關(guān)網(wǎng)關(guān)。
　　42. 采集任務(wù)收錄數據源信息和采集指標組列表。
　　43、一個(gè)數據源可以通過(guò)數據源編號關(guān)聯(lián)多個(gè)網(wǎng)關(guān)的網(wǎng)關(guān)編號。在數據源指標組中查找與數據源關(guān)聯(lián)的網(wǎng)關(guān)的規則是：網(wǎng)關(guān)可以正常運行數據源的采集任務(wù)；查找：與此數據源關(guān)聯(lián)，狀態(tài)已啟用，運行狀態(tài)為備用或采集。
　　44. 運行狀態(tài)包括：待機、采集和已停止。
　　45. 分配算法包括輪詢(xún)、加權輪詢(xún)、總分配、資源負載和動(dòng)態(tài)負載算法。各個(gè)算法的具體定義如下：
　　46、輪詢(xún)算法是指將指標組平均分配到各個(gè)網(wǎng)關(guān)的算法；
　　
　　47、加權輪詢(xún)算法是指根據每個(gè)網(wǎng)關(guān)的權重分配指標組的算法；
　　48、總分配算法是指分配每個(gè)網(wǎng)關(guān)當前任務(wù)數的算法，使網(wǎng)關(guān)上的任務(wù)總數相近；
　　49、資源負載算法是指分配各個(gè)網(wǎng)關(guān)當前的硬件負載（cpu、內存、網(wǎng)絡(luò )）的算法，使網(wǎng)關(guān)的負載相對均衡；
　　50、動(dòng)態(tài)負載算法是指第一次使用資源分配策略進(jìn)行分配，然后結合資源負載變化動(dòng)態(tài)調整的算法。
　　51.對于采集環(huán)境比較固定的場(chǎng)景，可以使用round-robin、weighted round-robin、total allocation算法。對于環(huán)境變化頻繁的采集場(chǎng)景，使用資源加載和動(dòng)態(tài)加載算法。
　　52、當數據源或其綁定網(wǎng)關(guān)的數據中與數據采集相關(guān)的信息發(fā)生變化時(shí)，將重新分配指標組觸發(fā)步驟2。
　　53.s3：根據采集任務(wù)查找是否有初始化的采集executor執行環(huán)境，如果有，轉步驟s7，否則轉步驟s4。采集executor 是運行采集任務(wù)的相關(guān)代碼。
　　54、當采集任務(wù)在當前網(wǎng)關(guān)出現數據采集通道故障時(shí)，將重新分配當前采集任務(wù)，并將當前網(wǎng)關(guān)對應的數據源標記為失敗，將執行后續分配。中間不參與分配，直到故障修復后狀態(tài)重置為待機。
　　55.s4：根據采集執行器的id查找本地是否有緩存的采集執行器文件，如果有，轉步驟s6，否則轉步驟s5。采集executor文件收錄：采集executor相關(guān)的代碼和類(lèi)庫。
　　56.s5：向物聯(lián)網(wǎng)平臺請求采集執行器文件，平臺將文件發(fā)送給物聯(lián)網(wǎng)網(wǎng)關(guān)，網(wǎng)關(guān)收到文件后執行步驟s6。
　　57.s6：加載并初始化采集執行器的執行環(huán)境，加載后執行第7步。
　　58.s7：根據采集任務(wù)實(shí)例化并啟動(dòng)采集執行器，對數據采集進(jìn)行處理，轉換成統一的結構，通過(guò)網(wǎng)關(guān)上傳到物聯(lián)網(wǎng)平臺. 一種實(shí)現上述數據采集器動(dòng)態(tài)分發(fā)方法的物聯(lián)網(wǎng)數據采集器動(dòng)態(tài)分發(fā)系統，具體包括：
　　59、指標組列表獲取模塊，用于查找所有終端指標，根據終端和數據源對終端指標進(jìn)行分組，得到指標組列表；
　　60.采集任務(wù)列表獲取模塊，用于根據不同的數據源對指標組列表進(jìn)行分組，得到數據源指標組；根據數據源指定的分配算法，將數據源指標組列表中的指標分配給數據源。找到物聯(lián)網(wǎng)網(wǎng)關(guān)，獲取每個(gè)網(wǎng)關(guān)要執行的采集任務(wù)列表，并將任務(wù)發(fā)送到對應的網(wǎng)關(guān)；
　　61、執行環(huán)境判斷模塊，用于根據采集任務(wù)判斷是否存在初始化的采集執行器執行環(huán)境；
　　62、采集執行器文件判斷模塊，用于查找本地是否有緩存的采集執行器文件；
　　63、文件傳輸模塊用于向物聯(lián)網(wǎng)平臺請求采集執行器文件，平臺將文件發(fā)送至物聯(lián)網(wǎng)網(wǎng)關(guān)。網(wǎng)關(guān)接收到文件后，執行加載和初始化模塊的功能；
　　64、加載和初始化模塊，用于加載和初始化采集執行器的執行環(huán)境；
　　65、data采集模塊用于實(shí)例化采集器并根據采集任務(wù)啟動(dòng)，執行data采集，并將其轉換成統一結構并上傳它通過(guò)網(wǎng)關(guān)連接到物聯(lián)網(wǎng)平臺。
　　66. 圖。圖2為本發(fā)明實(shí)施例的物聯(lián)網(wǎng)數據采集器動(dòng)態(tài)分布原理示意圖。
　　67. 具體實(shí)施方式：
　　68、如圖2所示，添加終端指標后，分發(fā)服務(wù)在平臺監測到新終端指標后，觸發(fā)與指標關(guān)聯(lián)的數據源重新分發(fā)采集任務(wù)。任務(wù)重新分配后，發(fā)送到網(wǎng)關(guān)服務(wù)，網(wǎng)關(guān)服務(wù)將任務(wù)發(fā)送到物聯(lián)網(wǎng)網(wǎng)關(guān)，網(wǎng)關(guān)實(shí)例化任務(wù)，為data采集工作創(chuàng )建采集器連接數據源，采集器采集>接收到的數據通過(guò)物聯(lián)網(wǎng)網(wǎng)關(guān)上傳到網(wǎng)關(guān)服務(wù)。
　　69、當有新的物聯(lián)網(wǎng)網(wǎng)關(guān)連接時(shí)，狀態(tài)服務(wù)會(huì )通知分發(fā)服務(wù)
　　與網(wǎng)關(guān)關(guān)聯(lián)的數據源重新分配采集的任務(wù)，重新分配后將任務(wù)發(fā)送給網(wǎng)關(guān)服務(wù)。網(wǎng)關(guān)服務(wù)向物聯(lián)網(wǎng)網(wǎng)關(guān)發(fā)送任務(wù)，網(wǎng)關(guān)實(shí)例化任務(wù)并創(chuàng )建一個(gè)采集器連接數據源為data采集工作，采集器接收的數據采集會(huì )通過(guò)物聯(lián)網(wǎng)網(wǎng)關(guān)上傳到網(wǎng)關(guān)服務(wù)。
　　70、本發(fā)明的有益效果是：本發(fā)明可以實(shí)現系統內系統任務(wù)的負載均衡和動(dòng)態(tài)部署，只需要在系統數據采集時(shí)部署網(wǎng)關(guān)，系統需要新增數據到其他數據源支持的情況下，無(wú)需重新部署，只需實(shí)現數據源對應的采集執行器并打包上傳到物聯(lián)網(wǎng)平臺即可。由于網(wǎng)關(guān)的變化相對于采集執行器來(lái)說(shuō)是相對固定的，相對于傳統的基于中間件的方式來(lái)實(shí)現負載均衡和動(dòng)態(tài)部署，降低了數據的整體部署和維護難度采集> 系統和改進(jìn)它提高了系統的可擴展性，
　　71、以上所述僅為本發(fā)明的較佳實(shí)施例而已，并不用于限制本發(fā)明。凡在本發(fā)明的精神和原則之內，所作的任何修改、等同替換、改進(jìn)等，均應收錄在本發(fā)明之內。保護范圍內。
　　免費的:SEO自動(dòng)推廣工具，免費SEO有用嗎？
　　當你運行一個(gè)SEO項目時(shí)，你經(jīng)常會(huì )想，如果你能自動(dòng)優(yōu)化SEO，那該有多好，如果你能免費做，那就完美了。因此，大量的SEO在
　　進(jìn)入行業(yè)時(shí)，往往習慣走捷徑，愿意尋找那些SEO自動(dòng)推廣工具，創(chuàng )造方便的優(yōu)化條件。
　　所以，搜索引擎優(yōu)化
　　自動(dòng)推廣工具，免費SEO有用嗎？
　　根據之前對SEO工具的研究，冠聯(lián)認為這個(gè)問(wèn)題應該分為兩個(gè)來(lái)看待，比如：
　　1. 提交 PBN
　　所謂PBN反向鏈接是進(jìn)口產(chǎn)品，近兩年國內外貿SEO朋友經(jīng)常討論這個(gè)問(wèn)題，這和國內博客反向鏈接類(lèi)似，主要是指自建網(wǎng)站采集。
　　但唯一不同的是，它強調所有PBN網(wǎng)站的獨立操作，國外一些SEO自動(dòng)推廣工具收錄了一鍵提交到這些PBN網(wǎng)站的功能。
　　有時(shí)，您無(wú)法合理評估這種免費的SEO貢獻行為是否無(wú)效。
　　
　　2. 自動(dòng)插件
　　如果您使用的是像WordPress這樣的博客系統，您會(huì )發(fā)現那里有大量相關(guān)的插件，并且許多免費插件提供SEO自動(dòng)使用功能，例如
　?。?br /> 　?。?）根據實(shí)際字數設置自動(dòng)提取網(wǎng)頁(yè)描述標簽。
　?。?）生成頁(yè)面時(shí)自動(dòng)添加錨文本網(wǎng)站。
　?。?）更新網(wǎng)站時(shí)，自動(dòng)生成網(wǎng)站地圖。
　　事實(shí)上，這些免費的SEO功能有一定的積極作用。
　　3. 分組發(fā)送外部鏈接
　　在眾多的SEO推廣中
　　軟件中，最流行的SEO自動(dòng)推廣工具之一是群組反向鏈接，通常主要分為以下內容：
　?。?）超級反向鏈接
　　
　　所謂超級反向鏈接，主要是在短時(shí)間內，在相應網(wǎng)站中做出具有一定權重的相關(guān)搜索查詢(xún)，從而瞬間產(chǎn)生大量的外部查詢(xún)鏈接。
　?。?）站群分組發(fā)送
　　對于站群組反向鏈接，通常是
　　價(jià)格低，只需要花一小筆費用，就可以在網(wǎng)站發(fā)布上千個(gè)反向鏈接，通常這類(lèi)網(wǎng)站，基本上不會(huì )被百度收錄，同時(shí)，網(wǎng)站運營(yíng)的時(shí)間段也比較短。
　　鏈接到這兩個(gè)使用免費SEO的策略顯然對SEO沒(méi)有用，偶爾會(huì )適得其反。
　　4. 快速排名
　　搜索引擎優(yōu)化
　　Quick Ranking，相關(guān)軟件，是常見(jiàn)的SEO自動(dòng)推廣工具，但它并不是完全免費的SEO，而是需要你充值一定量來(lái)模擬真實(shí)用戶(hù)行為刷點(diǎn)擊。
　　顯然，這不是真正的用戶(hù)搜索點(diǎn)擊，理論上短期內可能對SEO有用，但從長(cháng)遠來(lái)看，它不會(huì )有任何用處。
　　總結：免費SEO的相關(guān)自動(dòng)推廣工具對SEO結果是否有用，有時(shí)候需要具體問(wèn)題，具體分析，以上內容僅供參考！查看全部

　　解決方案:一種物聯(lián)網(wǎng)數據采集器動(dòng)態(tài)分發(fā)方法及系統與流程
　　1、本發(fā)明涉及數據采集技術(shù)領(lǐng)域，具體涉及一種物聯(lián)網(wǎng)數據采集器動(dòng)態(tài)分發(fā)方法及系統。
　　背景技術(shù)：
　　2、隨著(zhù)物聯(lián)網(wǎng)技術(shù)的發(fā)展，數據采集終端的種類(lèi)和規模不斷增加，對數據采集系統的部署和采集效率提出了更高的要求. 對于大型采集系統，負載均衡和動(dòng)態(tài)部署是保證采集終端數據高效的基礎。
　　3、傳統的data采集部署方式，通常以中間件的形式實(shí)現。比如data采集模塊用于完成業(yè)務(wù)調度和執行，從上層調用data采集邏輯?？刂茢祿杉K端實(shí)現數據采集。當這種方法配置為最小粒度（指標）時(shí)，每個(gè)指標被視為一個(gè)采集任務(wù)，每個(gè)采集任務(wù)需要單獨配置，采集的效率為低的。而data采集器負載均衡依賴(lài)中間件，運維難度大，沒(méi)有動(dòng)態(tài)部署機制。當系統需要增加對其他數據源的支持時(shí)，需要擴展新的data采集協(xié)議，需要重新部署，維護工作量大，可擴展性差。對于大規模數據采集任務(wù)，它有明顯的局限性。
　　技術(shù)實(shí)施要素：
　　4、為了克服現有技術(shù)的不足，本發(fā)明提供了一種物聯(lián)網(wǎng)數據動(dòng)態(tài)分發(fā)采集器的方法和系統，首先將需要采集的終端指標重組為采集按照一定的規則。>任務(wù)列表發(fā)送到對應的物聯(lián)網(wǎng)網(wǎng)關(guān)，然后初始化采集執行器的執行環(huán)境，最后根據采集任務(wù)實(shí)例化采集執行器完成數據采集工作。本發(fā)明不僅可以降低數據采集系統的部署和維護難度，而且在系統增加新的數據源時(shí)不需要重新部署，保證了系統的穩定性和可靠性。系統數據采集和改進(jìn)<
　　5、一種物聯(lián)網(wǎng)數據動(dòng)態(tài)分布采集器的方法，主要包括：
　　6.s1：查找所有終端指標，根據終端和數據源對終端指標進(jìn)行分組，得到指標組列表；
　　7.s2：根據不同的數據源對指標組列表進(jìn)行分組，得到數據源指標組；根據數據源指定的分配算法，將數據源指標組列表中的指標分配給搜索到的物聯(lián)網(wǎng)網(wǎng)關(guān)，獲取每個(gè)網(wǎng)關(guān)采集需要執行的任務(wù)列表，并將任務(wù)發(fā)送給對應的網(wǎng)關(guān)；
　　8.s3：根據采集任務(wù)查找是否有初始化的采集executor執行環(huán)境，如果沒(méi)有，轉步驟s4，如果有，轉步驟s7；
　　9.s4：查找是否有本地緩存??的采集執行器文件，如果沒(méi)有，轉步驟s5，如果有，轉步驟s6；
　　10.s5：平臺向物聯(lián)網(wǎng)平臺請求采集執行器文件后，將文件發(fā)送給物聯(lián)網(wǎng)網(wǎng)關(guān)，網(wǎng)關(guān)接收到文件后，執行步驟s6；
　　11.s6：加載并初始化采集執行器的執行環(huán)境，然后進(jìn)行步驟s7；
　　12.s7：根據采集任務(wù)實(shí)例化采集器并啟動(dòng)，執行數據采集，通過(guò)
　　網(wǎng)關(guān)上傳到物聯(lián)網(wǎng)平臺。
　　13、進(jìn)一步，在步驟s1中，終端指標為數據采集的最小單位，如壓力、流量、溫度、濕度等。
　　14、進(jìn)一步地，在步驟s1中，查找所有終端指示燈的查詢(xún)條件為：終端狀態(tài)開(kāi)啟，終端指示燈狀態(tài)開(kāi)啟，采集狀態(tài)為等待。終端狀態(tài)包括：?jiǎn)⒂?、禁用和刪除，指示燈狀態(tài)包括：?jiǎn)⒂?、禁用和刪除，以及采集狀態(tài)包括：停止、等待、采集和錯誤。
　　15、進(jìn)一步地，當終端的數據和終端索引中與數據采集相關(guān)的信息發(fā)生變化時(shí)，啟動(dòng)終端索引采集的配置重組，則步驟s1為觸發(fā)。
　　16、進(jìn)一步地，在步驟s2中，采集任務(wù)列表收錄數據源信息和采集指標組列表。
　　17、進(jìn)一步的，一個(gè)數據源通過(guò)其編號與多個(gè)網(wǎng)關(guān)的網(wǎng)關(guān)編號相關(guān)聯(lián)，在數據源指標組中查找與該數據源關(guān)聯(lián)的網(wǎng)關(guān)的規則為：網(wǎng)關(guān)可以正常運行采集> 數據源。任務(wù); 尋找：與此數據源相關(guān)聯(lián)，狀態(tài)為啟用，運行狀態(tài)為備用或采集；運行狀態(tài)包括：standby、采集、stopped。
　　18、進(jìn)一步地，在步驟s2中，分配算法包括輪詢(xún)、加權輪詢(xún)、總分配、資源負載和動(dòng)態(tài)負載算法。對于環(huán)境相對固定的場(chǎng)景，使用輪詢(xún)、加權四舍五入。查詢(xún)和總分配算法，對于環(huán)境變化頻繁的場(chǎng)景，使用資源負載和動(dòng)態(tài)負載算法。
　　19、進(jìn)一步，在步驟s3中，當采集任務(wù)在當前網(wǎng)關(guān)中出現數據采集通道故障時(shí)，將重新分配當前采集任務(wù)，并將對應的數據源當前網(wǎng)關(guān)將被標記為發(fā)生故障，在故障修復后狀態(tài)重置為備用之前，它不會(huì )參與后續分配中的分配。
　　20、進(jìn)一步地，步驟s4中，采集執行器文件包括：采集執行器相關(guān)代碼和類(lèi)庫。
　　21.一種物聯(lián)網(wǎng)數據采集器動(dòng)態(tài)分發(fā)系統，用于上述數據采集器動(dòng)態(tài)分發(fā)方法，包括：
　　22、指標組列表獲取模塊，用于查找所有終端指標，根據終端和數據源對終端指標進(jìn)行分組，得到指標組列表；
　　

　　23、采集任務(wù)列表獲取模塊，用于根據不同的數據源對指標組列表進(jìn)行分組，得到數據源指標組；根據數據源指定的分配算法，將數據源指標組列表中的指標分配給數據源。找到物聯(lián)網(wǎng)網(wǎng)關(guān)，獲取每個(gè)網(wǎng)關(guān)要執行的采集任務(wù)列表，并將任務(wù)發(fā)送到對應的網(wǎng)關(guān)；
　　24、執行環(huán)境判斷模塊，用于根據采集任務(wù)判斷是否存在初始化的采集執行器執行環(huán)境；
　　25、采集執行器文件判斷模塊，用于查找本地是否有緩存的采集執行器文件；
　　26、文件傳輸模塊用于向物聯(lián)網(wǎng)平臺請求采集執行器文件，平臺將文件發(fā)送到物聯(lián)網(wǎng)網(wǎng)關(guān)。網(wǎng)關(guān)接收到文件后，執行加載和初始化模塊的功能；
　　27、加載和初始化模塊，用于加載和初始化采集執行器的執行環(huán)境；
　　28、data采集模塊用于實(shí)例化采集器并根據采集任務(wù)啟動(dòng)，執行data采集，并轉換成統一結構上傳它通過(guò)網(wǎng)關(guān)連接到物聯(lián)網(wǎng)平臺。
　　29、本發(fā)明提供的技術(shù)方案帶來(lái)的有益效果是：本發(fā)明可以實(shí)現系統內系統任務(wù)的負載均衡和動(dòng)態(tài)部署，只需要在系統數據采集時(shí)部署網(wǎng)關(guān)即可。，而當系統需要添加對其他數據源的支持時(shí)，不需要重新部署，只需要實(shí)現數據源對應的采集執行器并打包上傳到物聯(lián)網(wǎng)平臺即可。由于網(wǎng)關(guān)的變化相對于采集執行器來(lái)說(shuō)是相對固定的，相對于傳統的基于中間件的方式，
　　目前的負載均衡和動(dòng)態(tài)部署降低了data采集系統的整體部署和維護難度，提高了系統的可擴展性，保證了系統data采集的穩定性和可靠性，完善了系統表現。采集故障轉移的效率。
　　圖紙說(shuō)明
　　30、下面結合附圖和實(shí)施例對本發(fā)明作進(jìn)一步說(shuō)明，其中：
　　31. 圖。圖1為本發(fā)明實(shí)施例的物聯(lián)網(wǎng)數據采集器動(dòng)態(tài)分發(fā)方法流程圖。
　　32. 圖。圖2為本發(fā)明實(shí)施例的物聯(lián)網(wǎng)數據采集器動(dòng)態(tài)分布原理示意圖。
　　詳細方法
　　33、為了更清楚地理解本發(fā)明的技術(shù)特征、目的和效果，現結合附圖對本發(fā)明的具體實(shí)施方式進(jìn)行詳細說(shuō)明。
　　34、本發(fā)明實(shí)施例提供了一種物聯(lián)網(wǎng)數據采集器的動(dòng)態(tài)分發(fā)方法和系統。
　　35. 請參考圖。請參閱圖1，為本發(fā)明實(shí)施例的物聯(lián)網(wǎng)數據采集器動(dòng)態(tài)分發(fā)方法的流程圖，具體包括：
　　36.s1：查找所有終端指標，根據終端和數據源對終端指標進(jìn)行分組，得到指標組列表。
　　37、終端指標是數據采集的最小單位，如壓力、流量、溫度、濕度等。
　　38、查找終端指示燈的查詢(xún)條件為：所屬終端狀態(tài)為：?jiǎn)⒂?，終端指示燈狀態(tài)為：?jiǎn)⒂?，采集狀態(tài)為：等待。
　　39、終端狀態(tài)包括：?jiǎn)⒂?、禁用和刪除，指示燈狀態(tài)包括：?jiǎn)⒂?、禁用和刪除，采集狀態(tài)包括：停止、等待、采集和錯誤。
　　40、當終端數據和終端索引中的數據采集相關(guān)信息發(fā)生變化時(shí)，將發(fā)起終端索引采集的配置重新合并，執行步驟1被觸發(fā)。
　　41.s2：根據不同的數據源對指標組列表進(jìn)行分組，得到數據源指標組。根據數據源指定的分配算法，將數據源指標組列表中的指標分配給搜索到的物聯(lián)網(wǎng)網(wǎng)關(guān)，獲取每個(gè)網(wǎng)關(guān)要執行的采集任務(wù)列表，并將任務(wù)下發(fā)給對應的物聯(lián)網(wǎng)網(wǎng)關(guān)網(wǎng)關(guān)。
　　42. 采集任務(wù)收錄數據源信息和采集指標組列表。
　　43、一個(gè)數據源可以通過(guò)數據源編號關(guān)聯(lián)多個(gè)網(wǎng)關(guān)的網(wǎng)關(guān)編號。在數據源指標組中查找與數據源關(guān)聯(lián)的網(wǎng)關(guān)的規則是：網(wǎng)關(guān)可以正常運行數據源的采集任務(wù)；查找：與此數據源關(guān)聯(lián)，狀態(tài)已啟用，運行狀態(tài)為備用或采集。
　　44. 運行狀態(tài)包括：待機、采集和已停止。
　　45. 分配算法包括輪詢(xún)、加權輪詢(xún)、總分配、資源負載和動(dòng)態(tài)負載算法。各個(gè)算法的具體定義如下：
　　46、輪詢(xún)算法是指將指標組平均分配到各個(gè)網(wǎng)關(guān)的算法；
　　

　　47、加權輪詢(xún)算法是指根據每個(gè)網(wǎng)關(guān)的權重分配指標組的算法；
　　48、總分配算法是指分配每個(gè)網(wǎng)關(guān)當前任務(wù)數的算法，使網(wǎng)關(guān)上的任務(wù)總數相近；
　　49、資源負載算法是指分配各個(gè)網(wǎng)關(guān)當前的硬件負載（cpu、內存、網(wǎng)絡(luò )）的算法，使網(wǎng)關(guān)的負載相對均衡；
　　50、動(dòng)態(tài)負載算法是指第一次使用資源分配策略進(jìn)行分配，然后結合資源負載變化動(dòng)態(tài)調整的算法。
　　51.對于采集環(huán)境比較固定的場(chǎng)景，可以使用round-robin、weighted round-robin、total allocation算法。對于環(huán)境變化頻繁的采集場(chǎng)景，使用資源加載和動(dòng)態(tài)加載算法。
　　52、當數據源或其綁定網(wǎng)關(guān)的數據中與數據采集相關(guān)的信息發(fā)生變化時(shí)，將重新分配指標組觸發(fā)步驟2。
　　53.s3：根據采集任務(wù)查找是否有初始化的采集executor執行環(huán)境，如果有，轉步驟s7，否則轉步驟s4。采集executor 是運行采集任務(wù)的相關(guān)代碼。
　　54、當采集任務(wù)在當前網(wǎng)關(guān)出現數據采集通道故障時(shí)，將重新分配當前采集任務(wù)，并將當前網(wǎng)關(guān)對應的數據源標記為失敗，將執行后續分配。中間不參與分配，直到故障修復后狀態(tài)重置為待機。
　　55.s4：根據采集執行器的id查找本地是否有緩存的采集執行器文件，如果有，轉步驟s6，否則轉步驟s5。采集executor文件收錄：采集executor相關(guān)的代碼和類(lèi)庫。
　　56.s5：向物聯(lián)網(wǎng)平臺請求采集執行器文件，平臺將文件發(fā)送給物聯(lián)網(wǎng)網(wǎng)關(guān)，網(wǎng)關(guān)收到文件后執行步驟s6。
　　57.s6：加載并初始化采集執行器的執行環(huán)境，加載后執行第7步。
　　58.s7：根據采集任務(wù)實(shí)例化并啟動(dòng)采集執行器，對數據采集進(jìn)行處理，轉換成統一的結構，通過(guò)網(wǎng)關(guān)上傳到物聯(lián)網(wǎng)平臺. 一種實(shí)現上述數據采集器動(dòng)態(tài)分發(fā)方法的物聯(lián)網(wǎng)數據采集器動(dòng)態(tài)分發(fā)系統，具體包括：
　　59、指標組列表獲取模塊，用于查找所有終端指標，根據終端和數據源對終端指標進(jìn)行分組，得到指標組列表；
　　60.采集任務(wù)列表獲取模塊，用于根據不同的數據源對指標組列表進(jìn)行分組，得到數據源指標組；根據數據源指定的分配算法，將數據源指標組列表中的指標分配給數據源。找到物聯(lián)網(wǎng)網(wǎng)關(guān)，獲取每個(gè)網(wǎng)關(guān)要執行的采集任務(wù)列表，并將任務(wù)發(fā)送到對應的網(wǎng)關(guān)；
　　61、執行環(huán)境判斷模塊，用于根據采集任務(wù)判斷是否存在初始化的采集執行器執行環(huán)境；
　　62、采集執行器文件判斷模塊，用于查找本地是否有緩存的采集執行器文件；
　　63、文件傳輸模塊用于向物聯(lián)網(wǎng)平臺請求采集執行器文件，平臺將文件發(fā)送至物聯(lián)網(wǎng)網(wǎng)關(guān)。網(wǎng)關(guān)接收到文件后，執行加載和初始化模塊的功能；
　　64、加載和初始化模塊，用于加載和初始化采集執行器的執行環(huán)境；
　　65、data采集模塊用于實(shí)例化采集器并根據采集任務(wù)啟動(dòng)，執行data采集，并將其轉換成統一結構并上傳它通過(guò)網(wǎng)關(guān)連接到物聯(lián)網(wǎng)平臺。
　　66. 圖。圖2為本發(fā)明實(shí)施例的物聯(lián)網(wǎng)數據采集器動(dòng)態(tài)分布原理示意圖。
　　67. 具體實(shí)施方式：
　　68、如圖2所示，添加終端指標后，分發(fā)服務(wù)在平臺監測到新終端指標后，觸發(fā)與指標關(guān)聯(lián)的數據源重新分發(fā)采集任務(wù)。任務(wù)重新分配后，發(fā)送到網(wǎng)關(guān)服務(wù)，網(wǎng)關(guān)服務(wù)將任務(wù)發(fā)送到物聯(lián)網(wǎng)網(wǎng)關(guān)，網(wǎng)關(guān)實(shí)例化任務(wù)，為data采集工作創(chuàng )建采集器連接數據源，采集器采集>接收到的數據通過(guò)物聯(lián)網(wǎng)網(wǎng)關(guān)上傳到網(wǎng)關(guān)服務(wù)。
　　69、當有新的物聯(lián)網(wǎng)網(wǎng)關(guān)連接時(shí)，狀態(tài)服務(wù)會(huì )通知分發(fā)服務(wù)
　　與網(wǎng)關(guān)關(guān)聯(lián)的數據源重新分配采集的任務(wù)，重新分配后將任務(wù)發(fā)送給網(wǎng)關(guān)服務(wù)。網(wǎng)關(guān)服務(wù)向物聯(lián)網(wǎng)網(wǎng)關(guān)發(fā)送任務(wù)，網(wǎng)關(guān)實(shí)例化任務(wù)并創(chuàng )建一個(gè)采集器連接數據源為data采集工作，采集器接收的數據采集會(huì )通過(guò)物聯(lián)網(wǎng)網(wǎng)關(guān)上傳到網(wǎng)關(guān)服務(wù)。
　　70、本發(fā)明的有益效果是：本發(fā)明可以實(shí)現系統內系統任務(wù)的負載均衡和動(dòng)態(tài)部署，只需要在系統數據采集時(shí)部署網(wǎng)關(guān)，系統需要新增數據到其他數據源支持的情況下，無(wú)需重新部署，只需實(shí)現數據源對應的采集執行器并打包上傳到物聯(lián)網(wǎng)平臺即可。由于網(wǎng)關(guān)的變化相對于采集執行器來(lái)說(shuō)是相對固定的，相對于傳統的基于中間件的方式來(lái)實(shí)現負載均衡和動(dòng)態(tài)部署，降低了數據的整體部署和維護難度采集> 系統和改進(jìn)它提高了系統的可擴展性，
　　71、以上所述僅為本發(fā)明的較佳實(shí)施例而已，并不用于限制本發(fā)明。凡在本發(fā)明的精神和原則之內，所作的任何修改、等同替換、改進(jìn)等，均應收錄在本發(fā)明之內。保護范圍內。
　　免費的:SEO自動(dòng)推廣工具，免費SEO有用嗎？
　　當你運行一個(gè)SEO項目時(shí)，你經(jīng)常會(huì )想，如果你能自動(dòng)優(yōu)化SEO，那該有多好，如果你能免費做，那就完美了。因此，大量的SEO在
　　進(jìn)入行業(yè)時(shí)，往往習慣走捷徑，愿意尋找那些SEO自動(dòng)推廣工具，創(chuàng )造方便的優(yōu)化條件。
　　所以，搜索引擎優(yōu)化
　　自動(dòng)推廣工具，免費SEO有用嗎？
　　根據之前對SEO工具的研究，冠聯(lián)認為這個(gè)問(wèn)題應該分為兩個(gè)來(lái)看待，比如：
　　1. 提交 PBN
　　所謂PBN反向鏈接是進(jìn)口產(chǎn)品，近兩年國內外貿SEO朋友經(jīng)常討論這個(gè)問(wèn)題，這和國內博客反向鏈接類(lèi)似，主要是指自建網(wǎng)站采集。
　　但唯一不同的是，它強調所有PBN網(wǎng)站的獨立操作，國外一些SEO自動(dòng)推廣工具收錄了一鍵提交到這些PBN網(wǎng)站的功能。
　　有時(shí)，您無(wú)法合理評估這種免費的SEO貢獻行為是否無(wú)效。
　　

　　2. 自動(dòng)插件
　　如果您使用的是像WordPress這樣的博客系統，您會(huì )發(fā)現那里有大量相關(guān)的插件，并且許多免費插件提供SEO自動(dòng)使用功能，例如
　?。?br /> 　?。?）根據實(shí)際字數設置自動(dòng)提取網(wǎng)頁(yè)描述標簽。
　?。?）生成頁(yè)面時(shí)自動(dòng)添加錨文本網(wǎng)站。
　?。?）更新網(wǎng)站時(shí)，自動(dòng)生成網(wǎng)站地圖。
　　事實(shí)上，這些免費的SEO功能有一定的積極作用。
　　3. 分組發(fā)送外部鏈接
　　在眾多的SEO推廣中
　　軟件中，最流行的SEO自動(dòng)推廣工具之一是群組反向鏈接，通常主要分為以下內容：
　?。?）超級反向鏈接
　　

　　所謂超級反向鏈接，主要是在短時(shí)間內，在相應網(wǎng)站中做出具有一定權重的相關(guān)搜索查詢(xún)，從而瞬間產(chǎn)生大量的外部查詢(xún)鏈接。
　?。?）站群分組發(fā)送
　　對于站群組反向鏈接，通常是
　　價(jià)格低，只需要花一小筆費用，就可以在網(wǎng)站發(fā)布上千個(gè)反向鏈接，通常這類(lèi)網(wǎng)站，基本上不會(huì )被百度收錄，同時(shí)，網(wǎng)站運營(yíng)的時(shí)間段也比較短。
　　鏈接到這兩個(gè)使用免費SEO的策略顯然對SEO沒(méi)有用，偶爾會(huì )適得其反。
　　4. 快速排名
　　搜索引擎優(yōu)化
　　Quick Ranking，相關(guān)軟件，是常見(jiàn)的SEO自動(dòng)推廣工具，但它并不是完全免費的SEO，而是需要你充值一定量來(lái)模擬真實(shí)用戶(hù)行為刷點(diǎn)擊。
　　顯然，這不是真正的用戶(hù)搜索點(diǎn)擊，理論上短期內可能對SEO有用，但從長(cháng)遠來(lái)看，它不會(huì )有任何用處。
　　總結：免費SEO的相關(guān)自動(dòng)推廣工具對SEO結果是否有用，有時(shí)候需要具體問(wèn)題，具體分析，以上內容僅供參考！

解決方案:神經(jīng)網(wǎng)絡(luò )爬蟲(chóng)框架人臉與行人檢測+卡通表情采集器

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 105 次瀏覽 ? 2022-11-08 07:13 ? 來(lái)自相關(guān)話(huà)題

　　解決方案:神經(jīng)網(wǎng)絡(luò )爬蟲(chóng)框架人臉與行人檢測+卡通表情采集器
　　
　　無(wú)規則采集器列表算法有誤
　　
　　2017.2.6特別修改。數據來(lái)源：開(kāi)源深度學(xué)習神經(jīng)網(wǎng)絡(luò )爬蟲(chóng)框架人臉與行人檢測+卡通表情采集器及report，目前開(kāi)源3個(gè)，歡迎大家使用。-_-原回答：好幾年前了，有這種神器。
　　現在找到的可用爬蟲(chóng)網(wǎng)站很多了。先列出來(lái)我常用的幾個(gè)。0.綜合性的：識圖，百度識圖，谷歌識圖，搜狗識圖，必應識圖，（題主只說(shuō)圖片，將百度識圖和谷歌識圖未計），搜狗識圖，必應識圖，會(huì )有一些區別，比如必應識圖應該是圖片和文字一起；谷歌識圖應該是單圖/單文字0.非綜合性的：豆瓣圖書(shū)，知乎電影0.3d地圖：不知道，知乎有一個(gè)地圖還不錯0.考慮到重復性：淘寶，京東0.文字的：靈魂畫(huà)手：在線(xiàn)靈魂畫(huà)手-速寫(xiě)：速寫(xiě)地圖鏈接在此：，將熟悉個(gè)把速寫(xiě)精靈還有這些網(wǎng)站：-of-intelligence-inspired-in-python-2015/#topic-of-intelligence-inspired-in-python-2015-2015-is-your-end-to-extension-version-2015.htmlheadergo&blogginggo–automaticartificialintelligenceservicesblogginggo,archiveimagesearch&reportswithautomaticartificialintelligencearchiveimagesearch&reportswithautomaticartificialintelligence-visualizing-places-for-artificial-intelligence/pages/37476.htmlartificialintelligence_where_web_drives-artificial-intelligence/#effective_artificial-intelligence/html'''-artificial-intelligence/hugo-artificial-intelligence.htmldevsecops.htmldevsecops.html-the-intelligence-for-methods-in-everyday-on-a-local-browser-qh9m-on-everyday-on-a-local-browser-qh9m.htmldockingoshe-iot-security/。查看全部

　　解決方案:神經(jīng)網(wǎng)絡(luò )爬蟲(chóng)框架人臉與行人檢測+卡通表情采集器
　　

　　無(wú)規則采集器列表算法有誤
　　

　　2017.2.6特別修改。數據來(lái)源：開(kāi)源深度學(xué)習神經(jīng)網(wǎng)絡(luò )爬蟲(chóng)框架人臉與行人檢測+卡通表情采集器及report，目前開(kāi)源3個(gè)，歡迎大家使用。-_-原回答：好幾年前了，有這種神器。
　　現在找到的可用爬蟲(chóng)網(wǎng)站很多了。先列出來(lái)我常用的幾個(gè)。0.綜合性的：識圖，百度識圖，谷歌識圖，搜狗識圖，必應識圖，（題主只說(shuō)圖片，將百度識圖和谷歌識圖未計），搜狗識圖，必應識圖，會(huì )有一些區別，比如必應識圖應該是圖片和文字一起；谷歌識圖應該是單圖/單文字0.非綜合性的：豆瓣圖書(shū)，知乎電影0.3d地圖：不知道，知乎有一個(gè)地圖還不錯0.考慮到重復性：淘寶，京東0.文字的：靈魂畫(huà)手：在線(xiàn)靈魂畫(huà)手-速寫(xiě)：速寫(xiě)地圖鏈接在此：，將熟悉個(gè)把速寫(xiě)精靈還有這些網(wǎng)站：-of-intelligence-inspired-in-python-2015/#topic-of-intelligence-inspired-in-python-2015-2015-is-your-end-to-extension-version-2015.htmlheadergo&blogginggo–automaticartificialintelligenceservicesblogginggo,archiveimagesearch&reportswithautomaticartificialintelligencearchiveimagesearch&reportswithautomaticartificialintelligence-visualizing-places-for-artificial-intelligence/pages/37476.htmlartificialintelligence_where_web_drives-artificial-intelligence/#effective_artificial-intelligence/html'''-artificial-intelligence/hugo-artificial-intelligence.htmldevsecops.htmldevsecops.html-the-intelligence-for-methods-in-everyday-on-a-local-browser-qh9m-on-everyday-on-a-local-browser-qh9m.htmldockingoshe-iot-security/。

工作經(jīng)驗:hm博學(xué)谷-JavaEE在線(xiàn)就業(yè)班2022年+中級進(jìn)修課+精英進(jìn)階

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 61 次瀏覽 ? 2022-11-07 05:25 ? 來(lái)自相關(guān)話(huà)題

| | ├──22-智能調度服務(wù)（數據模型_3）.mp4 27.61M
| | ├──23-智能調度服務(wù)（實(shí)現過(guò)程_環(huán)境搭建）.mp4 41.58M
| | ├──24-智能調度服務(wù)（實(shí)現過(guò)程_編寫(xiě)定時(shí)任務(wù)）.mp4 25.66M
| | ├──25-智能調度服務(wù)（實(shí)現過(guò)程_初始化定時(shí)任務(wù)_.mp4 82.61M
| | ├──26-智能調度服務(wù)（實(shí)現過(guò)程_初始化定時(shí)任務(wù)_.mp4 45.00M
| | ├──27-智能調度服務(wù)（實(shí)現過(guò)程_初始化定時(shí)任務(wù)_.mp4 33.85M
| | ├──28-智能調度服務(wù)（實(shí)現過(guò)程_完善定時(shí)任務(wù)_1）.mp4 80.26M
| | ├──29-智能調度服務(wù)（實(shí)現過(guò)程_完善定時(shí)任務(wù)_2）.mp4 36.90M
| | ├──30-智能調度服務(wù)（實(shí)現過(guò)程_編寫(xiě)智能調度組件.mp4 16.29M
| | ├──31-智能調度服務(wù)（實(shí)現過(guò)程_編寫(xiě)智能調度組件_.mp4 33.96M
| | ├──32-智能調度服務(wù)（實(shí)現過(guò)程_訂單分類(lèi)_1）.mp4 48.66M
| | ├──33-智能調度服務(wù)（實(shí)現過(guò)程_訂單分類(lèi)_2）.mp4 17.09M
| | ├──34-智能調度服務(wù)（實(shí)現過(guò)程_訂單分類(lèi)_3）.mp4 71.72M
| | ├──35-智能調度服務(wù)（實(shí)現過(guò)程_訂單分類(lèi)_4）.mp4 19.65M
| | ├──36-智能調度服務(wù)（實(shí)現過(guò)程_訂單分類(lèi)_5）.mp4 60.78M
| | ├──37-智能調度服務(wù)（實(shí)現過(guò)程_訂單分類(lèi)_6）.mp4 29.75M
| | ├──38-智能調度服務(wù)（實(shí)現過(guò)程_訂單分類(lèi)_7）.mp4 49.79M
| | ├──39-智能調度服務(wù)（實(shí)現過(guò)程_訂單分類(lèi)_8）.mp4 39.90M
| | ├──40-智能調度服務(wù)（實(shí)現過(guò)程_訂單分類(lèi)_9）.mp4 32.31M
| | ├──41-智能調度服務(wù)（實(shí)現過(guò)程_訂單分類(lèi)_10）.mp4 35.85M
| | ├──42-智能調度服務(wù)（實(shí)現過(guò)程_訂單分類(lèi)_11）.mp4 45.82M
| | ├──43-智能調度服務(wù)（實(shí)現過(guò)程_訂單分類(lèi)_12）.mp4 23.97M
| | ├──44-智能調度服務(wù)（實(shí)現過(guò)程_訂單分類(lèi)_13）.mp4 71.14M
| | ├──45-智能調度服務(wù)（實(shí)現過(guò)程_訂單分類(lèi)_14）.mp4 27.79M
| | ├──46-智能調度服務(wù)（實(shí)現過(guò)程_訂單分類(lèi)_15）.mp4 20.78M
| | ├──47-智能調度服務(wù)（實(shí)現過(guò)程_訂單分類(lèi)_16）.mp4 27.83M
| | ├──48-智能調度服務(wù)（實(shí)現過(guò)程_訂單分類(lèi)_17）.mp4 9.02M
| | ├──49-智能調度服務(wù)（實(shí)現過(guò)程_訂單分類(lèi)_18）.mp4 49.14M
| | ├──50-智能調度服務(wù)（實(shí)現過(guò)程_訂單分類(lèi)_19）.mp4 58.63M
| | ├──51-智能調度服務(wù)（實(shí)現過(guò)程_訂單分類(lèi)_20）.mp4 64.96M
| | ├──52-智能調度服務(wù)（實(shí)現過(guò)程_訂單分類(lèi)優(yōu)化_1）.mp4 22.22M
| | ├──53-智能調度服務(wù)（實(shí)現過(guò)程_訂單分類(lèi)優(yōu)化_2）.mp4 22.68M
| | ├──54-智能調度服務(wù)（實(shí)現過(guò)程_訂單分類(lèi)優(yōu)化_3）.mp4 35.73M
| | └──55-智能調度服務(wù)（實(shí)現過(guò)程_導入其他功能代.mp4 31.70M
| ├──第二章基礎數據服務(wù)
| | ├──01-第2章內容介紹.mp4 13.90M
| | ├──02-基礎數據服務(wù)數據模型_1.mp4 39.71M
| | ├──03-基礎數據服務(wù)數據模型_2.mp4 27.53M
| | ├──04-基礎數據微服務(wù)開(kāi)發(fā)準備（SpringBoot配置.mp4 36.02M
| | ├──05-基礎數據微服務(wù)開(kāi)發(fā)準備（啟動(dòng)類(lèi)、配置類(lèi)）.mp4 35.78M
| | ├──06-基礎數據微服務(wù)開(kāi)發(fā)準備（Id生成器）.mp4 18.79M
| | ├──07-貨物類(lèi)型管理（業(yè)務(wù)需求和產(chǎn)品原型、數據模.mp4 10.57M
| | ├──08-貨物類(lèi)型管理（實(shí)體類(lèi)）.mp4 25.78M
| | ├──09-貨物類(lèi)型管理（服務(wù)接口開(kāi)發(fā)_新增貨物類(lèi)型_.mp4 40.36M
| | ├──10-貨物類(lèi)型管理（服務(wù)接口開(kāi)發(fā)_新增貨物類(lèi)型_.mp4 74.08M
| | ├──11-貨物類(lèi)型管理（服務(wù)接口開(kāi)發(fā)_新增貨物類(lèi)型_.mp4 60.97M
| | ├──12-貨物類(lèi)型管理（服務(wù)接口開(kāi)發(fā)_新增貨物類(lèi)型.mp4 34.94M
| | ├──13-貨物類(lèi)型管理（服務(wù)接口開(kāi)發(fā)_根據id查詢(xún)貨.mp4 55.60M
| | ├──14-貨物類(lèi)型管理（服務(wù)接口開(kāi)發(fā)_根據id查詢(xún)貨.mp4 21.11M
| | ├──15-貨物類(lèi)型管理（服務(wù)接口開(kāi)發(fā)_根據id查詢(xún)貨.mp4 8.31M
| | ├──16-貨物類(lèi)型管理（服務(wù)接口開(kāi)發(fā)_查詢(xún)所有貨物.mp4 36.27M
| | ├──17-貨物類(lèi)型管理（服務(wù)接口開(kāi)發(fā)_查詢(xún)所有貨物.mp4 4.51M
| | ├──18-貨物類(lèi)型管理（服務(wù)接口開(kāi)發(fā)_分頁(yè)查詢(xún)貨物.mp4 82.83M
| | ├──19-貨物類(lèi)型管理（服務(wù)接口開(kāi)發(fā)_分頁(yè)查詢(xún)貨物.mp4 41.95M
| | ├──20-貨物類(lèi)型管理（服務(wù)接口開(kāi)發(fā)_分頁(yè)查詢(xún)貨物.mp4 11.62M
| | ├──21-貨物類(lèi)型管理（服務(wù)接口開(kāi)發(fā)_查詢(xún)貨物類(lèi)型.mp4 36.49M
| | ├──22-貨物類(lèi)型管理（服務(wù)接口開(kāi)發(fā)_查詢(xún)貨物類(lèi)型.mp4 10.19M
| | ├──23-貨物類(lèi)型管理（服務(wù)接口開(kāi)發(fā)_查詢(xún)貨物類(lèi)型.mp4 5.08M
| | ├──24-貨物類(lèi)型管理（服務(wù)接口開(kāi)發(fā)_更新貨物類(lèi).mp4 55.68M
| | ├──25-貨物類(lèi)型管理（服務(wù)接口開(kāi)發(fā)_更新貨物類(lèi)型.mp4 17.58M
| | ├──26-貨物類(lèi)型管理（服務(wù)接口開(kāi)發(fā)_更新貨物類(lèi)型_.mp4 24.45M
| | ├──27-貨物類(lèi)型管理（服務(wù)接口開(kāi)發(fā)_刪除貨物類(lèi).mp4 12.85M
| | ├──28-數據校驗（hibernate-validator介紹）.mp4 26.72M
| | ├──29-數據校驗（hibernate-validator常用注解）.mp4 14.93M
| | ├──30-數據校驗（使用hibernate-validator進(jìn)行校.mp4 25.96M
| | ├──31-數據校驗（使用hibernate-validator進(jìn)行校驗.mp4 17.76M
| | └──32-導入基礎數據服務(wù)其他功能代碼.mp4 12.36M
| ├──第九章 TMS后臺管理端
| | ├──01-本章內容介紹.mp4 5.87M
| | ├──02-分布式鎖（什么是分布式鎖_1）.mp4 20.74M
| | ├──03-分布式鎖（什么是分布式鎖_2）.mp4 38.30M
| | ├──04-分布式鎖（為什么要使用分布式鎖_1）.mp4 36.11M
| | ├──05-分布式鎖（為什么要使用分布式鎖_2）.mp4 21.73M
| | ├──06-分布式鎖（為什么要使用分布式鎖_3）.mp4 18.54M
| | ├──07-分布式鎖（為什么要使用分布式鎖_4）.mp4 24.55M
| | ├──08-分布式鎖（分布式鎖應具有的特性）.mp4 19.25M
| | ├──09-分布式鎖實(shí)現方案（數據庫方式實(shí)現分布式.mp4 17.64M
| | ├──10-分布式鎖實(shí)現方案（數據庫方式實(shí)現分布式.mp4 72.90M
| | ├──11-分布式鎖實(shí)現方案（數據庫方式實(shí)現分布式.mp4 31.88M
| | ├──12-分布式鎖實(shí)現方案（數據庫方式實(shí)現分布式.mp4 31.53M
| | ├──13-分布式鎖實(shí)現方案（Zookeeper方式實(shí)現.mp4 14.52M
| | ├──14-分布式鎖實(shí)現方案（Zookeeper方式實(shí)現.mp4 44.72M
| | ├──15-分布式鎖實(shí)現方案（Zookeeper方式實(shí)現.mp4 16.94M
| | ├──16-分布式鎖實(shí)現方案（Zookeeper方式實(shí)現.mp4 16.91M
| | ├──17-分布式鎖實(shí)現方案（Redis方式實(shí)現分布式.mp4 14.16M
| | ├──18-分布式鎖實(shí)現方案（Redis方式實(shí)現分布式.mp4 36.75M
| | ├──19-分布式鎖實(shí)現方案（Redis方式實(shí)現分布式.mp4 16.28M
| | ├──20-分布式鎖實(shí)現方案（Redis方式實(shí)現分布式.mp4 12.11M
| | ├──21-Redisson（Redisson介紹）.mp4 21.03M
| | ├──22-Redisson（Redisson實(shí)現分布式鎖_1）.mp4 33.62M
| | ├──23-Redisson（Redisson實(shí)現分布式鎖_2）.mp4 21.77M
| | ├──24-Redisson（Redisson實(shí)現分布式鎖_3）.mp4 18.33M
| | ├──25-Redisson（Lua腳本_使用Lua腳本的好處）.mp4 13.96M
| | ├──26-Redisson（Lua腳本_在Redis中使用Lua_eval.mp4 35.49M
| | ├──27-Redisson（Lua腳本_在Redis中使用Lua_eval.mp4 13.25M
| | └──28-導入功能代碼.mp4 28.97M
| ├──第六章數據聚合服務(wù)
| | ├──01-本章內容介紹.mp4 13.66M
| | ├──02-canal概述（背景）.mp4 10.35M
| | ├──03-canal概述（工作原理）.mp4 23.33M
| | ├──04-canal概述（架構）.mp4 10.33M
| | ├──05-canal概述（HA機制）.mp4 12.61M
| | ├──06-canal安裝（安裝配置MySQL）.mp4 61.09M
| | ├──07-canal安裝（安裝配置canal-server）.mp4 29.83M
| | ├──08-canal簡(jiǎn)單使用（編寫(xiě)Java程序）.mp4 44.70M
| | ├──09-canal簡(jiǎn)單使用（測試）.mp4 30.10M
| | ├──09-Otter概述（Otter介紹）.mp4 17.60M
| | ├──10-Otter概述（Otter架構）.mp4 32.71M
| | ├──11-Otter安裝配置（依賴(lài)環(huán)境安裝）.mp4 8.86M
| | ├──12-Otter安裝配置（MySQL安裝_創(chuàng )建源數據.mp4 23.55M
| | ├──13-Otter安裝配置（MySQL安裝_創(chuàng )建目標數據.mp4 12.93M
| | ├──14-Otter安裝配置（MySQL安裝_創(chuàng )建Otter配置.mp4 40.40M
| | ├──15-Otter安裝配置（zookeeper、aria2安裝）.mp4 15.91M
| | ├──16-Otter安裝配置（Ottermanager安裝）.mp4 36.63M
| | ├──17-Otter安裝配置（Ottermanager配置_配置Z.mp4 14.10M
| | ├──18-Otter安裝配置（Ottermanager配置_配置n.mp4 10.53M
| | ├──19-Otter安裝配置（Ottermanager配置_管理.mp4 6.25M
| | ├──20-Otter安裝配置（Otternode安裝）.mp4 24.87M
| | ├──21-Otter安裝配置（設置同步任務(wù)_準備工作）.mp4 13.10M
| | ├──22-Otter安裝配置（設置同步任務(wù)_數據源配.mp4 9.19M
| | ├──23-Otter安裝配置（設置同步任務(wù)_數據表配.mp4 4.88M
| | ├──24-Otter安裝配置（設置同步任務(wù)_canal配置）.mp4 6.77M
| | ├──25-Otter安裝配置（設置同步任務(wù)_添加chann.mp4 2.19M
| | ├──26-Otter安裝配置（設置同步任務(wù)_添加pipelin.mp4 13.85M
| | ├──27-Otter安裝配置（設置同步任務(wù)_添加映射關(guān).mp4 4.83M
| | ├──28-Otter安裝配置（設置同步任務(wù)_測試）.mp4 9.26M
| | └──29-數據聚合服務(wù)介紹.mp4 6.79M
| ├──第七章車(chē)輛軌跡服務(wù)
| | ├──01-本章內容介紹.mp4 5.30M
| | ├──02-ApacheDruid概述（Druid介紹）.mp4 17.61M
| | ├──03-ApacheDruid概述（Druid應用場(chǎng)景）.mp4 18.07M
| | ├──04-ApacheDruid概述（Druid特點(diǎn)）.mp4 34.80M
| | ├──05-ApacheDruid概述（Druid進(jìn)程和服務(wù)）.mp4 33.47M
| | ├──06-ApacheDruid概述（Druid數據結構）.mp4 25.30M
| | ├──07-ApacheDruid概述（Druid在本項目的應.mp4 8.93M
| | ├──08-ApacheDruid安裝（依賴(lài)環(huán)境安裝_jdk、Z.mp4 9.22M
| | ├──09-ApacheDruid安裝（依賴(lài)環(huán)境安裝_kafka）.mp4 32.83M
| | ├──10-ApacheDruid安裝（依賴(lài)環(huán)境安裝_kafka驗.mp4 39.50M
| | ├──11-ApacheDruid安裝（Druid安裝和配置文件.mp4 65.69M
| | ├──12-ApacheDruid安裝（Druid啟動(dòng)）.mp4 16.93M
| | ├──13-ApacheDruid攝取數據（從本地文件攝取數.mp4 93.78M
| | ├──14-ApacheDruid攝取數據（從本地文件攝取數.mp4 61.29M
| | ├──15-ApacheDruid攝取數據（從本地文件攝取數.mp4 50.34M
| | ├──16-ApacheDruid攝取數據（從本地文件攝取數.mp4 41.92M
| | ├──17-ApacheDruid攝取數據（從kafka攝取數據.mp4 14.98M
| | ├──18-ApacheDruid攝取數據（從kafka攝取數.mp4 35.33M
| | ├──19-Java客戶(hù)端操作Druid.mp4 47.79M
| | ├──20-車(chē)輛軌跡服務(wù)（說(shuō)明）.mp4 5.51M
| | ├──21-車(chē)輛軌跡服務(wù)（pd-netty開(kāi)發(fā)_HTTP接口方.mp4 43.88M
| | ├──22-車(chē)輛軌跡服務(wù)（pd-netty開(kāi)發(fā)_HTTP接口方式.mp4 27.64M
| | ├──23-車(chē)輛軌跡服務(wù)（pd-netty開(kāi)發(fā)_HTTP接口方式.mp4 23.25M
| | ├──24-車(chē)輛軌跡服務(wù)（pd-netty開(kāi)發(fā)_HTTP接口方式.mp4 21.39M
| | ├──25-車(chē)輛軌跡服務(wù)（pd-netty開(kāi)發(fā)_TCP接口方式_.mp4 43.77M
| | ├──26-車(chē)輛軌跡服務(wù)（pd-netty開(kāi)發(fā)_TCP接口方式_.mp4 36.30M
| | ├──27-車(chē)輛軌跡服務(wù)（pd-netty開(kāi)發(fā)_TCP接口方式_.mp4 34.80M
| | └──28-車(chē)輛軌跡服務(wù)（pd-druid開(kāi)發(fā)）.mp4 15.61M
| ├──第三章用戶(hù)服務(wù)
| | ├──01-第3章內容介紹.mp4 2.91M
| | ├──02-j2cache多級緩存（j2cache介紹）.mp4 28.10M
| | ├──03-j2cache多級緩存（入門(mén)案例_1）.mp4 41.74M
| | ├──04-j2cache多級緩存（入門(mén)案例_2）.mp4 42.91M
| | ├──05-j2cache多級緩存（入門(mén)案例_3）.mp4 36.93M
| | ├──06-j2cache多級緩存（入門(mén)案例_4）.mp4 11.83M
| | ├──07-j2cache多級緩存（入門(mén)案例_5）.mp4 20.56M
| | ├──08-j2cache多級緩存（入門(mén)案例_6）.mp4 30.76M
| | ├──09-用戶(hù)服務(wù)數據模型.mp4 28.20M
| | ├──10-用戶(hù)服務(wù)開(kāi)發(fā)準備（配置文件）.mp4 31.22M
| | ├──11-用戶(hù)服務(wù)開(kāi)發(fā)準備（服務(wù)啟動(dòng)類(lèi)、配置類(lèi)）.mp4 15.94M
| | ├──12-地址簿管理（業(yè)務(wù)需求和產(chǎn)品原型）.mp4 8.04M
| | ├──13-地址簿管理（導入實(shí)體類(lèi)）.mp4 10.04M
| | ├──14-地址簿管理（服務(wù)接口開(kāi)發(fā)_新增地址簿_1）.mp4 35.68M
| | ├──15-地址簿管理（服務(wù)接口開(kāi)發(fā)_新增地址簿_2）.mp4 28.09M
| | ├──16-地址簿管理（服務(wù)接口開(kāi)發(fā)_導入其他接口）.mp4 22.60M
| | ├──17-地址簿管理（服務(wù)接口開(kāi)發(fā)_接口測試）.mp4 30.94M
| | ├──18-用戶(hù)信息管理（業(yè)務(wù)需求和產(chǎn)品原型、數據模.mp4 19.19M
| | ├──19-用戶(hù)信息管理（導入功能代碼）.mp4 25.94M
| | ├──20-用戶(hù)信息管理（接口測試）.mp4 18.38M
| | ├──21-聲明式緩存（原生j2cache問(wèn)題分析_問(wèn)題分析.mp4 42.25M
| | ├──22-聲明式緩存（原生j2cache問(wèn)題分析_實(shí)現思.mp4 35.77M
| | ├──23-聲明式緩存（聲明式緩存代碼實(shí)現_編寫(xiě)緩存.mp4 35.81M
| | ├──24-聲明式緩存（聲明式緩存代碼實(shí)現_應用緩存.mp4 28.44M
| | ├──25-聲明式緩存（聲明式緩存代碼實(shí)現_編寫(xiě)mod.mp4 24.99M
| | ├──26-聲明式緩存（聲明式緩存代碼實(shí)現_導入工具.mp4 15.63M
| | ├──27-聲明式緩存（聲明式緩存代碼實(shí)現_編寫(xiě)攔截.mp4 71.71M
| | ├──28-聲明式緩存（聲明式緩存代碼實(shí)現_編寫(xiě)攔.mp4 35.45M
| | ├──29-聲明式緩存（聲明式緩存代碼實(shí)現_編寫(xiě)攔截.mp4 62.52M
| | ├──30-聲明式緩存（聲明式緩存代碼實(shí)現_編寫(xiě)攔截.mp4 42.76M
| | ├──31-聲明式緩存（聲明式緩存代碼實(shí)現_編寫(xiě)抽象.mp4 46.13M
| | ├──32-聲明式緩存（聲明式緩存代碼實(shí)現_編寫(xiě)抽象.mp4 27.62M
| | ├──33-聲明式緩存（聲明式緩存代碼實(shí)現_編寫(xiě)抽象.mp4 27.57M
| | ├──34-聲明式緩存（聲明式緩存代碼實(shí)現_編寫(xiě)抽象.mp4 13.32M
| | ├──35-聲明式緩存（聲明式緩存代碼實(shí)現_編寫(xiě)緩存.mp4 27.17M
| | ├──36-聲明式緩存（聲明式緩存代碼實(shí)現_編寫(xiě)緩存.mp4 37.60M
| | ├──37-聲明式緩存（聲明式緩存代碼實(shí)現_編寫(xiě)緩存.mp4 27.18M
| | ├──38-聲明式緩存（聲明式緩存代碼實(shí)現_編寫(xiě)緩存.mp4 45.01M
| | ├──39-聲明式緩存（聲明式緩存代碼實(shí)現_編寫(xiě)清理.mp4 20.23M
| | ├──40-聲明式緩存（聲明式緩存代碼實(shí)現_編寫(xiě)清理.mp4 15.82M
| | ├──41-聲明式緩存（聲明式緩存代碼實(shí)現_編寫(xiě)清理.mp4 33.82M
| | ├──42-聲明式緩存（項目改造）.mp4 16.60M
| | └──43-聲明式緩存（項目改造_測試）.mp4 24.24M
| ├──第十二章總結
| | ├──12-1 微服務(wù)架構
| | ├──12-2 軟件架構體系
| | ├──12-3 系統架構
| | ├──12-4 技術(shù)架構
| | ├──12-5 業(yè)務(wù)流程
| | ├──12-6 數據庫設計
| | └──12-7 服務(wù)列表
| ├──第十一章 TMS司機端、快遞員端
| | ├──11-1 導入功能代碼
| | ├──11-2 分布式事務(wù)概述
| | └──11-3 分布式事務(wù)解決方案Seata
| ├──第十章 TMS客戶(hù)端
| | ├──01-本章內容介紹.mp4 6.25M
| | ├──02-導入功能代碼.mp4 37.22M
| | ├──03-RabbitMQ（介紹）.mp4 11.42M
| | ├──04-RabbitMQ（工作原理）.mp4 14.60M
| | ├──05-RabbitMQ（安裝和啟動(dòng)）.mp4 38.34M
| | ├──06-RabbitMQ（入門(mén)案例_生產(chǎn)者開(kāi)發(fā)_1）.mp4 63.07M
| | ├──07-RabbitMQ（入門(mén)案例_生產(chǎn)者開(kāi)發(fā)_2）.mp4 8.50M
| | ├──08-RabbitMQ（入門(mén)案例_消費者開(kāi)發(fā)）.mp4 24.47M
| | ├──09-RabbitMQ（工作模式_1）.mp4 21.26M
| | ├──10-RabbitMQ（工作模式_2）.mp4 20.52M
| | ├──11-RabbitMQ（工作模式_3）.mp4 11.10M
| | ├──12-分布式鏈路追蹤（介紹）.mp4 17.86M
| | ├──13-分布式鏈路追蹤（SpringCloudSleuth介.mp4 24.16M
| | ├──14-分布式鏈路追蹤（入門(mén)案例_啟動(dòng)zipkin）.mp4 9.42M
| | ├──15-分布式鏈路追蹤（入門(mén)案例_導入maven工.mp4 24.57M
| | ├──16-分布式鏈路追蹤（入門(mén)案例_操作過(guò)程）.mp4 25.03M
| | ├──17-分布式鏈路追蹤（入門(mén)案例_概念說(shuō)明）.mp4 29.98M
| | ├──18-分布式鏈路追蹤（使用MySql存儲鏈路追蹤數.mp4 38.45M
| | └──19-分布式鏈路追蹤（通過(guò)RabbitMQ發(fā)送數據）.mp4 38.43M
| ├──第四章訂單服務(wù)
| | ├──01-第4章內容介紹.mp4 11.11M
| | ├──02-訂單中心服務(wù)數據模型.mp4 26.54M
| | ├──03-訂單中心服務(wù)業(yè)務(wù)需求和產(chǎn)品原型.mp4 11.92M
| | ├──04-訂單中心服務(wù)代碼.mp4 13.60M
| | ├──05-百度地圖開(kāi)放平臺（介紹）.mp4 20.62M
| | ├──06-百度地圖開(kāi)放平臺（注冊賬號、申請AK）.mp4 13.51M
| | ├──07-百度地圖開(kāi)放平臺（入門(mén)案例_案例一）.mp4 61.66M
| | ├──08-百度地圖開(kāi)放平臺（入門(mén)案例_案例二）.mp4 36.30M
| | ├──09-百度地圖開(kāi)放平臺（入門(mén)案例_案例三）.mp4 21.26M
| | ├──10-百度地圖開(kāi)放平臺（入門(mén)案例_案例四）.mp4 26.27M
| | ├──11-百度地圖開(kāi)放平臺（入門(mén)案例_案例五）.mp4 56.94M
| | ├──12-百度地圖開(kāi)放平臺（入門(mén)案例_案例六_1）.mp4 28.34M
| | ├──13-百度地圖開(kāi)放平臺（入門(mén)案例_案例六_2）.mp4 44.09M
| | ├──14-百度地圖開(kāi)放平臺（入門(mén)案例_案例六_3）.mp4 49.63M
| | ├──15-百度地圖開(kāi)放平臺（入門(mén)案例_案例七_1）.mp4 98.16M
| | ├──16-百度地圖開(kāi)放平臺（入門(mén)案例_案例七_2）.mp4 24.45M
| | ├──17-基于百度地圖計算訂單距離（實(shí)現思路）.mp4 14.98M
| | ├──18-基于百度地圖計算訂單距離（封裝工具類(lèi)_1）.mp4 37.71M
| | ├──19-基于百度地圖計算訂單距離（封裝工具類(lèi)_2）.mp4 50.09M
| | ├──20-基于百度地圖計算訂單距離（封裝工具類(lèi)_3）.mp4 21.56M
| | ├──21-規則引擎內容介紹.mp4 15.87M
| | ├──22-規則引擎問(wèn)題引出（業(yè)務(wù)規則說(shuō)明）.mp4 27.42M
| | ├──23-規則引擎問(wèn)題引出（傳統實(shí)現方式）.mp4 277.26M
| | ├──24-規則引擎概述（什么是規則引擎）.mp4 131.81M
| | ├──25-規則引擎概述（使用規則引擎的優(yōu)勢）.mp4 28.70M
| | ├──26-規則引擎概述（規則引擎應用場(chǎng)景）.mp4 18.11M
| | ├──27-規則引擎概述（drools介紹）.mp4 48.59M
| | ├──28-drools入門(mén)案例（業(yè)務(wù)場(chǎng)景說(shuō)明）.mp4 8.86M
| | ├──29-drools入門(mén)案例（開(kāi)發(fā)實(shí)現_1）.mp4 143.05M
| | ├──30-drools入門(mén)案例（開(kāi)發(fā)實(shí)現_2）.mp4 130.64M
| | ├──31-drools入門(mén)案例（開(kāi)發(fā)實(shí)現_3）.mp4 176.05M
| | ├──32-drools入門(mén)案例（開(kāi)發(fā)實(shí)現_4）.mp4 61.67M
| | ├──33-drools入門(mén)案例（小結_規則引擎構成）.mp4 66.91M
| | ├──34-drools入門(mén)案例（小結_相關(guān)概念說(shuō)明）.mp4 26.62M
| | ├──35-drools入門(mén)案例（小結_規則引擎執行過(guò)程）.mp4 6.50M
| | ├──36-drools入門(mén)案例（小結_kie介紹）.mp4 27.17M
| | ├──37-drools基礎語(yǔ)法（規則文件構成）.mp4 35.36M
| | ├──38-drools基礎語(yǔ)法（規則體語(yǔ)法結構）.mp4 34.87M
| | ├──39-drools基礎語(yǔ)法（注釋?zhuān)?mp4 12.89M
| | ├──40-drools基礎語(yǔ)法（模式匹配）.mp4 66.73M
| | ├──41-drools基礎語(yǔ)法（比較操作符_語(yǔ)法）.mp4 63.49M
| | ├──42-drools基礎語(yǔ)法（比較操作符_contains和no.mp4 193.12M
| | ├──43-drools基礎語(yǔ)法（比較操作符_memberof和.mp4 65.08M
| | ├──44-drools基礎語(yǔ)法（比較操作符_matches和no.mp4 42.40M
| | ├──45-drools基礎語(yǔ)法（執行指定規則）.mp4 109.84M
| | ├──46-drools基礎語(yǔ)法（關(guān)鍵字）.mp4 48.06M
| | ├──47-drools基礎語(yǔ)法（內置方法_介紹）.mp4 37.53M
| | ├──48-drools基礎語(yǔ)法（內置方法_update方法）.mp4 116.61M
| | ├──49-drools基礎語(yǔ)法（內置方法_insert方法）.mp4 72.85M
| | ├──50-drools基礎語(yǔ)法（內置方法_retract方法）.mp4 71.50M
| | ├──51-Drools規則屬性.mp4 37.35M
| | ├──52-SpringBoot整合Drools_1.mp4 40.16M
| | ├──53-SpringBoot整合Drools_2.mp4 6.12M
| | ├──54-根據規則計算訂單價(jià)格（規則）.mp4 16.07M
| | ├──55-根據規則計算訂單價(jià)格（實(shí)現步驟_1）.mp4 34.93M
| | ├──56-根據規則計算訂單價(jià)格（實(shí)現步驟_2）.mp4 45.12M
| | ├──57-根據規則計算訂單價(jià)格（實(shí)現步驟_3）.mp4 70.10M
| | ├──58-根據規則計算訂單價(jià)格（實(shí)現步驟_4）.mp4 23.95M
| | ├──59-根據規則計算訂單價(jià)格（實(shí)現步驟_5）.mp4 25.00M
| | ├──60-根據規則計算訂單價(jià)格（實(shí)現步驟_6）.mp4 30.98M
| | ├──61-根據規則計算訂單價(jià)格（實(shí)現步驟_7）.mp4 64.83M
| | ├──62-根據規則計算訂單價(jià)格（實(shí)現步驟_8）.mp4 18.60M
| | ├──63-根據規則計算訂單價(jià)格（實(shí)現步驟_9）.mp4 29.28M
| | ├──64-實(shí)現動(dòng)態(tài)規則（實(shí)現思路）.mp4 9.62M
| | ├──65-實(shí)現動(dòng)態(tài)規則（實(shí)現步驟_1）.mp4 22.92M
| | ├──66-實(shí)現動(dòng)態(tài)規則（實(shí)現步驟_2）.mp4 43.83M
| | ├──67-實(shí)現動(dòng)態(tài)規則（實(shí)現步驟_3）.mp4 21.27M
| | ├──68-實(shí)現動(dòng)態(tài)規則（實(shí)現步驟_4）.mp4 28.52M
| | └──69-實(shí)現動(dòng)態(tài)規則（實(shí)現步驟_5）.mp4 27.52M
| ├──第五章作業(yè)中心服務(wù)
| | ├──01-作業(yè)中心服務(wù)業(yè)務(wù)梳理.mp4 23.31M
| | ├──02-作業(yè)中心服務(wù)數據模型（快遞員取件、派件任.mp4 9.52M
| | ├──03-作業(yè)中心服務(wù)數據模型（運單表）.mp4 7.09M
| | ├──04-作業(yè)中心服務(wù)數據模型（運輸任務(wù)表）.mp4 26.95M
| | ├──05-作業(yè)中心服務(wù)數據模型（運單與運輸任務(wù)關(guān)聯(lián).mp4 4.86M
| | └──06-作業(yè)中心服務(wù)數據模型（司機作業(yè)單表）.mp4 16.95M
| └──第一章項目概述和環(huán)境搭建
| | ├──01-第1章內容介紹.mp4 5.16M
| | ├──02-項目概述（項目介紹）.mp4 31.39M
| | ├──03-項目概述（物流行業(yè)介紹）.mp4 13.50M
| | ├──04-項目概述（系統架構）.mp4 20.92M
| | ├──05-項目概述（技術(shù)架構）.mp4 7.05M
| | ├──06-業(yè)務(wù)需求說(shuō)明（產(chǎn)品需求和原型設計_1）.mp4 63.80M
| | ├──07-業(yè)務(wù)需求說(shuō)明（產(chǎn)品需求和原型設計_2）.mp4 59.17M
| | ├──08-業(yè)務(wù)需求說(shuō)明（整體業(yè)務(wù)流程）.mp4 18.05M
| | ├──09-開(kāi)發(fā)方式介紹（軟件架構介紹）.mp4 14.11M
| | ├──10-開(kāi)發(fā)方式介紹（各個(gè)服務(wù)介紹）.mp4 30.77M
| | ├──11-基礎數據配置（配置組織基礎數據）.mp4 25.26M
| | ├──12-基礎數據配置（配置菜單、權限基礎數據）.mp4 27.13M
| | ├──13-基礎數據配置（配置崗位基礎數據）.mp4 11.45M
| | ├──14-基礎數據配置（配置角色基礎數據）.mp4 21.16M
| | ├──15-基礎數據配置（配置用戶(hù)基礎數據）.mp4 27.77M
| | ├──16-搭建TMS項目開(kāi)發(fā)環(huán)境（數據庫環(huán)境搭建）.mp4 64.06M
| | ├──17-搭建TMS項目開(kāi)發(fā)環(huán)境（配置中心Nacos）.mp4 15.41M
| | ├──18-搭建TMS項目開(kāi)發(fā)環(huán)境（導入maven初始工.mp4 38.74M
| | ├──19-搭建TMS項目開(kāi)發(fā)環(huán)境（修改Nacos命名空間.mp4 27.90M
| | ├──20-搭建TMS項目開(kāi)發(fā)環(huán)境（配置maven配置文.mp4 38.51M
| | └──21-測試初始工程.mp4 64.12M
├──03、階段三智牛股
| ├──1 第一章智牛股-1.項目概述
| | ├──02-項目介紹-目標與學(xué)習路徑.mp4 4.14M
| | ├──03-項目介紹-整體簡(jiǎn)要介紹.mp4 16.53M
| | ├──04-項目介紹-操作演示.mp4 14.13M
| | ├──05-項目介紹-股票與K線(xiàn).mp4 9.42M
| | ├──06-項目介紹-基本交易規則.mp4 10.42M
| | ├──07-項目介紹-如何交易.mp4 15.75M
| | ├──08-項目介紹-需求介紹.mp4 13.45M
| | ├──09-項目介紹-架構設計.mp4 12.33M
| | ├──10-項目介紹-功能設計.mp4 17.64M
| | ├──11-項目介紹-技術(shù)架構.mp4 14.78M
| | ├──12-項目介紹-架構設計說(shuō)明.mp4 24.14M
| | ├──13-項目介紹-整體技術(shù)說(shuō)明.mp4 33.32M
| | ├──14-項目介紹-項目技術(shù)特色.mp4 14.61M
| | ├──15-項目介紹-技術(shù)解決方案.mp4 8.92M
| | ├──16-項目介紹-如何技術(shù)選型.mp4 28.43M
| | ├──17-項目介紹-技術(shù)選型案例RocketMQ.mp4 28.16M
| | ├──18-項目介紹-技術(shù)選型案例Sentinel.mp4 7.47M
| | ├──19-項目介紹-回顧與小結.mp4 19.98M
| | ├──20-環(huán)境搭建-目標與學(xué)習步驟.mp4 2.66M
| | ├──21-環(huán)境搭建-工程結構規范.mp4 37.95M
| | ├──22-環(huán)境搭建-準備.mp4 12.08M
| | ├──23-環(huán)境搭建-Nacos配置與啟動(dòng).mp4 13.68M
| | ├──24-環(huán)境搭建-父級工程創(chuàng )建與POM配置.mp4 18.57M
| | ├──25-環(huán)境搭建-網(wǎng)關(guān)服務(wù)搭建配置.mp4 18.68M
| | ├──26-環(huán)境搭建-用戶(hù)服務(wù)搭建配置.mp4 21.70M
| | ├──27-環(huán)境搭建-網(wǎng)關(guān)路由配置與測試.mp4 13.48M
| | └──28-環(huán)境搭建-小結.mp4 12.72M
| ├──10

教程:優(yōu)采云采集器不用配規則采集數據的方法樣稿.docx

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 132 次瀏覽 ? 2022-11-06 14:15 ? 來(lái)自相關(guān)話(huà)題

　　教程:優(yōu)采云采集器不用配規則采集數據的方法樣稿.docx
　　優(yōu)采云采集器可以采集網(wǎng)頁(yè)數據圖形無(wú)需配置規則
　　對于剛注冊?xún)?yōu)采云采集器的小伙伴來(lái)說(shuō)，學(xué)習掌握配置規則是新手和高手必備的階段。優(yōu)采云除了自己配置規則外，還提供了專(zhuān)門(mén)的規則市場(chǎng)供朋友們下載學(xué)習。這也是初學(xué)者快速學(xué)習****優(yōu)采云規則的配置路徑之一。
　　接下來(lái)，我們以新浪微博上的話(huà)題采集為例，圖文并茂地介紹一下市場(chǎng)的相關(guān)操作！
　　
　　第一步，登錄優(yōu)采云客戶(hù)端，找到規則市場(chǎng)
　　第二步，找到你想要的規則，直接下載。在這里，優(yōu)采云提醒朋友們，VIP用戶(hù)可以免費下載所有規則，免費用戶(hù)需要消耗積分才能下載。
　　第三步，將下載的規則導入到任務(wù)中
　　第四步，直接開(kāi)始運行任務(wù)
　　
　　如果不需要修改規則，直接點(diǎn)擊“下一步”，直到頁(yè)面完成，點(diǎn)擊“巡檢任務(wù)”
　　運行任務(wù)，推薦使用cloud采集數據服務(wù)，可以多任務(wù)，通過(guò)shutdown實(shí)現。
　　最后，數據實(shí)現完成后，就可以導出數據了。
　　優(yōu)采云規則市場(chǎng)馬上深度開(kāi)放。以后小伙伴可以獨立上傳和配置規則，供其他小伙伴下載使用。請關(guān)注相關(guān)開(kāi)放規則優(yōu)采云采集器網(wǎng)站消息。
　　免費的:免費PbootCMS采集發(fā)布告別PbootCMS采集不到內容
　　SEO優(yōu)化規則上千條，要想排名網(wǎng)站，需要網(wǎng)站才有收錄。網(wǎng)站收錄的重要性不言而喻。對于SEO優(yōu)化來(lái)說(shuō)，能夠實(shí)現穩定的收錄增長(cháng)是基礎的優(yōu)化。但是往往對于新站點(diǎn)來(lái)說(shuō)，很多站點(diǎn)遇到的問(wèn)題不是收錄，可能網(wǎng)站上線(xiàn)幾個(gè)月沒(méi)有收錄，或者只是收錄幾個(gè)。那么當我們遇到新站不是收錄的問(wèn)題時(shí)，我們應該如何處理呢？網(wǎng)站沒(méi)有收錄的原因有很多。如果新站還沒(méi)有收錄，我們可以看以下幾點(diǎn)。
　　網(wǎng)站設計合理性
　　很多網(wǎng)站不是收錄，很大程度上是網(wǎng)站本身在上線(xiàn)前就存在嚴重問(wèn)題。首先，確認網(wǎng)站的鏈接結構是否合理對我們來(lái)說(shuō)非常重要。對于很多公司來(lái)說(shuō)，網(wǎng)站公司都是外包的，這也導致網(wǎng)站的質(zhì)量參差不齊。
　　網(wǎng)站層級
　　網(wǎng)站高低與搜索引擎的爬取效率有一定的關(guān)系。級別越淺，越容易爬行。一般來(lái)說(shuō)，網(wǎng)站級別在3-5級之間，網(wǎng)站保持在3級。
　　很多網(wǎng)站為了所謂的網(wǎng)站結構清晰，層次分明，把網(wǎng)站的URL層級都做好了。通過(guò)URL，可以清楚的知道當前頁(yè)面在哪個(gè)目錄下屬于哪個(gè)類(lèi)別。
　　這種方法的起點(diǎn)是好的。對于網(wǎng)站的層次關(guān)系明確，應該通過(guò)前端頁(yè)面而不是URL來(lái)表達給用戶(hù)，這樣有點(diǎn)浪費錢(qián)。
　　偽靜態(tài)處理
　　純粹為了收錄，不需要做偽靜態(tài)處理。動(dòng)態(tài)頁(yè)面也可以很好收錄，但是動(dòng)態(tài)頁(yè)面肯定會(huì )比靜態(tài)頁(yè)面慢，同時(shí)動(dòng)態(tài)頁(yè)面在一定程度上更容易出現重復頁(yè)面。
　　另外，綜合來(lái)看，靜態(tài)頁(yè)面的收錄速度和效果要好于動(dòng)態(tài)頁(yè)面，所以網(wǎng)站前期需要做偽靜態(tài)處理。
　　網(wǎng)站TDK 合理化
　　TDK對SEO優(yōu)化很重要，尤其是網(wǎng)站的標題很重要，不僅對SEO優(yōu)化，頁(yè)面標題對用戶(hù)也是不可見(jiàn)的。一個(gè)好的標題對于網(wǎng)站的點(diǎn)擊轉化很重要。
　　
　　同時(shí)，網(wǎng)站的TDK中不要堆疊關(guān)鍵詞，如果你不是很擅長(cháng)網(wǎng)站title關(guān)鍵詞布局。然后我們可以只寫(xiě)一個(gè)標題并將關(guān)鍵詞和描述留空。
　　目前，搜索引擎基本上都是全文檢索，TDK已經(jīng)不像以前那么重要了。不是你寫(xiě)了一個(gè)關(guān)鍵詞，這個(gè)頁(yè)面會(huì )被認為和這個(gè)關(guān)鍵詞相關(guān)，TDK對于搜索引擎的參考價(jià)值已經(jīng)降低了很多，但是如果你堆積了很多關(guān)鍵詞或者有大量的頁(yè)面具有高度重復的 TDK，那么網(wǎng)站的收錄是一個(gè)大熱門(mén)。
　　網(wǎng)站穩定性
　　對于網(wǎng)站的前期，要保證網(wǎng)站的可訪(fǎng)問(wèn)性和穩定性，網(wǎng)站的帶寬要足夠?，F在我們更注重用戶(hù)體驗，所以基本上我們需要保證網(wǎng)站首屏資源在3秒內加載，1.5秒內控制。
　　所以我們需要關(guān)鍵詞的搜索引擎的抓取時(shí)間，我們需要控制網(wǎng)站的抓取時(shí)間在1500毫秒以?xún)?，抓取時(shí)間越低越好。
　　這個(gè)爬取時(shí)間在一定程度上決定了網(wǎng)站的爬取頻率。網(wǎng)站抓取時(shí)間短網(wǎng)站不一定抓取頻率高；但是如果抓取時(shí)間比較長(cháng)，那么抓取頻率一定要低。對于百度，站長(cháng)后臺提供完整的數據監控。如下圖所示，截取了本站抓取時(shí)間的數據。
　　如果你的爬取時(shí)間超過(guò)1500毫秒，那么你必須優(yōu)化網(wǎng)站的代碼，否則搜索引擎會(huì )因為網(wǎng)站服務(wù)器的壓力自動(dòng)調整以減少爬取。檢索頻率會(huì )大大降低網(wǎng)站頁(yè)面發(fā)現和收錄的速度。
　　鏈接重復問(wèn)題
　　對于網(wǎng)站想做SEO優(yōu)化的，一定要做好網(wǎng)站的頁(yè)面關(guān)系跳轉。比如我們解析域名的時(shí)候，一般會(huì )解析有www和不帶www的域名。需要做一個(gè)301跳轉。
　　確保不要被搜索引擎抓取到兩個(gè)相同的頁(yè)面。如果您不進(jìn)行 301 重定向，它將被視為兩個(gè)高度相似的不同頁(yè)面。重復頁(yè)面不適合新站點(diǎn)收錄。
　　內容問(wèn)題
　　新站點(diǎn) 網(wǎng)站的內容非常重要。很多新站不是收錄的問(wèn)題是網(wǎng)站的內容質(zhì)量很差，新站的內容也很少。網(wǎng)上都是無(wú)意義的東西。今天教大家一個(gè)快速采集高質(zhì)量文章Pbootcms采集方法。
　　
　　這個(gè)Pbootcms采集不需要學(xué)習更多的專(zhuān)業(yè)技能，只需幾個(gè)簡(jiǎn)單的步驟就可以輕松采集內容數據，用戶(hù)只需要在Pbootcms采集在>上進(jìn)行簡(jiǎn)單的設置，完成后Pbootcms采集會(huì )根據用戶(hù)設置的關(guān)鍵詞匹配內容和圖片的準確率，可以選擇保存在本地或者選擇偽原創(chuàng )發(fā)布后，提供方便快捷的內容采集偽原創(chuàng )發(fā)布服務(wù)??！
　　相比其他Pbootcms采集這個(gè)Pbootcms采集基本沒(méi)有什么門(mén)檻，也不需要花很多時(shí)間去學(xué)習正則表達式或者html標簽，一分鐘上手，只需要輸入關(guān)鍵詞即可實(shí)現采集（pbootcms采集也自帶關(guān)鍵詞采集功能）。一路掛斷！設置任務(wù)自動(dòng)執行采集偽原創(chuàng )發(fā)布和推送任務(wù)。
　　幾十萬(wàn)個(gè)不同的cms網(wǎng)站可以統一管理。一個(gè)人維護數百個(gè) 網(wǎng)站文章更新也不是問(wèn)題。這類(lèi)Pbootcms采集工具也配備了很多SEO功能，通過(guò)采集偽原創(chuàng )軟件發(fā)布后還可以提升很多SEO方面。
　　例如：設置自動(dòng)下載圖片保存在本地或第三方（使內容不再有對方的外鏈）。自動(dòng)內鏈（讓搜索引擎更深入地抓取你的鏈接）、前后插入內容或標題，以及網(wǎng)站內容插入或隨機作者、隨機閱讀等，形成“高原創(chuàng ) ”。
　　這些SEO小功能不僅提高了網(wǎng)站頁(yè)面原創(chuàng )的度數，還間接提升了網(wǎng)站的收錄排名。您可以通過(guò)軟件工具上的監控管理直接查看文章采集的發(fā)布狀態(tài)，不再需要每天登錄網(wǎng)站后臺查看。目前博主親測軟件是免費的，可以直接下載使用！
　　所以新網(wǎng)站不能急著(zhù)上線(xiàn)，開(kāi)發(fā)過(guò)程中需要保證搜索引擎的不可訪(fǎng)問(wèn)性。網(wǎng)站正式上線(xiàn)前，需要將網(wǎng)站初期填寫(xiě)的內容修改為比較優(yōu)質(zhì)的內容。
　　沒(méi)有完成內容的優(yōu)化，不要輕易上線(xiàn)。一旦在搜索引擎上留下低質(zhì)量網(wǎng)站的印象，網(wǎng)站的初始優(yōu)化就會(huì )帶來(lái)很多麻煩。
　　網(wǎng)站前期，因為網(wǎng)站質(zhì)量很低，所以要保證每天有足夠的內容，不斷更新優(yōu)化原創(chuàng )的內容，這也是很關(guān)鍵的。查看全部

　　教程:優(yōu)采云采集器不用配規則采集數據的方法樣稿.docx
　　優(yōu)采云采集器可以采集網(wǎng)頁(yè)數據圖形無(wú)需配置規則
　　對于剛注冊?xún)?yōu)采云采集器的小伙伴來(lái)說(shuō)，學(xué)習掌握配置規則是新手和高手必備的階段。優(yōu)采云除了自己配置規則外，還提供了專(zhuān)門(mén)的規則市場(chǎng)供朋友們下載學(xué)習。這也是初學(xué)者快速學(xué)習****優(yōu)采云規則的配置路徑之一。
　　接下來(lái)，我們以新浪微博上的話(huà)題采集為例，圖文并茂地介紹一下市場(chǎng)的相關(guān)操作！
　　

　　第一步，登錄優(yōu)采云客戶(hù)端，找到規則市場(chǎng)
　　第二步，找到你想要的規則，直接下載。在這里，優(yōu)采云提醒朋友們，VIP用戶(hù)可以免費下載所有規則，免費用戶(hù)需要消耗積分才能下載。
　　第三步，將下載的規則導入到任務(wù)中
　　第四步，直接開(kāi)始運行任務(wù)
　　

　　如果不需要修改規則，直接點(diǎn)擊“下一步”，直到頁(yè)面完成，點(diǎn)擊“巡檢任務(wù)”
　　運行任務(wù)，推薦使用cloud采集數據服務(wù)，可以多任務(wù)，通過(guò)shutdown實(shí)現。
　　最后，數據實(shí)現完成后，就可以導出數據了。
　　優(yōu)采云規則市場(chǎng)馬上深度開(kāi)放。以后小伙伴可以獨立上傳和配置規則，供其他小伙伴下載使用。請關(guān)注相關(guān)開(kāi)放規則優(yōu)采云采集器網(wǎng)站消息。
　　免費的:免費PbootCMS采集發(fā)布告別PbootCMS采集不到內容
　　SEO優(yōu)化規則上千條，要想排名網(wǎng)站，需要網(wǎng)站才有收錄。網(wǎng)站收錄的重要性不言而喻。對于SEO優(yōu)化來(lái)說(shuō)，能夠實(shí)現穩定的收錄增長(cháng)是基礎的優(yōu)化。但是往往對于新站點(diǎn)來(lái)說(shuō)，很多站點(diǎn)遇到的問(wèn)題不是收錄，可能網(wǎng)站上線(xiàn)幾個(gè)月沒(méi)有收錄，或者只是收錄幾個(gè)。那么當我們遇到新站不是收錄的問(wèn)題時(shí)，我們應該如何處理呢？網(wǎng)站沒(méi)有收錄的原因有很多。如果新站還沒(méi)有收錄，我們可以看以下幾點(diǎn)。
　　網(wǎng)站設計合理性
　　很多網(wǎng)站不是收錄，很大程度上是網(wǎng)站本身在上線(xiàn)前就存在嚴重問(wèn)題。首先，確認網(wǎng)站的鏈接結構是否合理對我們來(lái)說(shuō)非常重要。對于很多公司來(lái)說(shuō)，網(wǎng)站公司都是外包的，這也導致網(wǎng)站的質(zhì)量參差不齊。
　　網(wǎng)站層級
　　網(wǎng)站高低與搜索引擎的爬取效率有一定的關(guān)系。級別越淺，越容易爬行。一般來(lái)說(shuō)，網(wǎng)站級別在3-5級之間，網(wǎng)站保持在3級。
　　很多網(wǎng)站為了所謂的網(wǎng)站結構清晰，層次分明，把網(wǎng)站的URL層級都做好了。通過(guò)URL，可以清楚的知道當前頁(yè)面在哪個(gè)目錄下屬于哪個(gè)類(lèi)別。
　　這種方法的起點(diǎn)是好的。對于網(wǎng)站的層次關(guān)系明確，應該通過(guò)前端頁(yè)面而不是URL來(lái)表達給用戶(hù)，這樣有點(diǎn)浪費錢(qián)。
　　偽靜態(tài)處理
　　純粹為了收錄，不需要做偽靜態(tài)處理。動(dòng)態(tài)頁(yè)面也可以很好收錄，但是動(dòng)態(tài)頁(yè)面肯定會(huì )比靜態(tài)頁(yè)面慢，同時(shí)動(dòng)態(tài)頁(yè)面在一定程度上更容易出現重復頁(yè)面。
　　另外，綜合來(lái)看，靜態(tài)頁(yè)面的收錄速度和效果要好于動(dòng)態(tài)頁(yè)面，所以網(wǎng)站前期需要做偽靜態(tài)處理。
　　網(wǎng)站TDK 合理化
　　TDK對SEO優(yōu)化很重要，尤其是網(wǎng)站的標題很重要，不僅對SEO優(yōu)化，頁(yè)面標題對用戶(hù)也是不可見(jiàn)的。一個(gè)好的標題對于網(wǎng)站的點(diǎn)擊轉化很重要。
　　

　　同時(shí)，網(wǎng)站的TDK中不要堆疊關(guān)鍵詞，如果你不是很擅長(cháng)網(wǎng)站title關(guān)鍵詞布局。然后我們可以只寫(xiě)一個(gè)標題并將關(guān)鍵詞和描述留空。
　　目前，搜索引擎基本上都是全文檢索，TDK已經(jīng)不像以前那么重要了。不是你寫(xiě)了一個(gè)關(guān)鍵詞，這個(gè)頁(yè)面會(huì )被認為和這個(gè)關(guān)鍵詞相關(guān)，TDK對于搜索引擎的參考價(jià)值已經(jīng)降低了很多，但是如果你堆積了很多關(guān)鍵詞或者有大量的頁(yè)面具有高度重復的 TDK，那么網(wǎng)站的收錄是一個(gè)大熱門(mén)。
　　網(wǎng)站穩定性
　　對于網(wǎng)站的前期，要保證網(wǎng)站的可訪(fǎng)問(wèn)性和穩定性，網(wǎng)站的帶寬要足夠?，F在我們更注重用戶(hù)體驗，所以基本上我們需要保證網(wǎng)站首屏資源在3秒內加載，1.5秒內控制。
　　所以我們需要關(guān)鍵詞的搜索引擎的抓取時(shí)間，我們需要控制網(wǎng)站的抓取時(shí)間在1500毫秒以?xún)?，抓取時(shí)間越低越好。
　　這個(gè)爬取時(shí)間在一定程度上決定了網(wǎng)站的爬取頻率。網(wǎng)站抓取時(shí)間短網(wǎng)站不一定抓取頻率高；但是如果抓取時(shí)間比較長(cháng)，那么抓取頻率一定要低。對于百度，站長(cháng)后臺提供完整的數據監控。如下圖所示，截取了本站抓取時(shí)間的數據。
　　如果你的爬取時(shí)間超過(guò)1500毫秒，那么你必須優(yōu)化網(wǎng)站的代碼，否則搜索引擎會(huì )因為網(wǎng)站服務(wù)器的壓力自動(dòng)調整以減少爬取。檢索頻率會(huì )大大降低網(wǎng)站頁(yè)面發(fā)現和收錄的速度。
　　鏈接重復問(wèn)題
　　對于網(wǎng)站想做SEO優(yōu)化的，一定要做好網(wǎng)站的頁(yè)面關(guān)系跳轉。比如我們解析域名的時(shí)候，一般會(huì )解析有www和不帶www的域名。需要做一個(gè)301跳轉。
　　確保不要被搜索引擎抓取到兩個(gè)相同的頁(yè)面。如果您不進(jìn)行 301 重定向，它將被視為兩個(gè)高度相似的不同頁(yè)面。重復頁(yè)面不適合新站點(diǎn)收錄。
　　內容問(wèn)題
　　新站點(diǎn) 網(wǎng)站的內容非常重要。很多新站不是收錄的問(wèn)題是網(wǎng)站的內容質(zhì)量很差，新站的內容也很少。網(wǎng)上都是無(wú)意義的東西。今天教大家一個(gè)快速采集高質(zhì)量文章Pbootcms采集方法。
　　

　　這個(gè)Pbootcms采集不需要學(xué)習更多的專(zhuān)業(yè)技能，只需幾個(gè)簡(jiǎn)單的步驟就可以輕松采集內容數據，用戶(hù)只需要在Pbootcms采集在>上進(jìn)行簡(jiǎn)單的設置，完成后Pbootcms采集會(huì )根據用戶(hù)設置的關(guān)鍵詞匹配內容和圖片的準確率，可以選擇保存在本地或者選擇偽原創(chuàng )發(fā)布后，提供方便快捷的內容采集偽原創(chuàng )發(fā)布服務(wù)??！
　　相比其他Pbootcms采集這個(gè)Pbootcms采集基本沒(méi)有什么門(mén)檻，也不需要花很多時(shí)間去學(xué)習正則表達式或者html標簽，一分鐘上手，只需要輸入關(guān)鍵詞即可實(shí)現采集（pbootcms采集也自帶關(guān)鍵詞采集功能）。一路掛斷！設置任務(wù)自動(dòng)執行采集偽原創(chuàng )發(fā)布和推送任務(wù)。
　　幾十萬(wàn)個(gè)不同的cms網(wǎng)站可以統一管理。一個(gè)人維護數百個(gè) 網(wǎng)站文章更新也不是問(wèn)題。這類(lèi)Pbootcms采集工具也配備了很多SEO功能，通過(guò)采集偽原創(chuàng )軟件發(fā)布后還可以提升很多SEO方面。
　　例如：設置自動(dòng)下載圖片保存在本地或第三方（使內容不再有對方的外鏈）。自動(dòng)內鏈（讓搜索引擎更深入地抓取你的鏈接）、前后插入內容或標題，以及網(wǎng)站內容插入或隨機作者、隨機閱讀等，形成“高原創(chuàng ) ”。
　　這些SEO小功能不僅提高了網(wǎng)站頁(yè)面原創(chuàng )的度數，還間接提升了網(wǎng)站的收錄排名。您可以通過(guò)軟件工具上的監控管理直接查看文章采集的發(fā)布狀態(tài)，不再需要每天登錄網(wǎng)站后臺查看。目前博主親測軟件是免費的，可以直接下載使用！
　　所以新網(wǎng)站不能急著(zhù)上線(xiàn)，開(kāi)發(fā)過(guò)程中需要保證搜索引擎的不可訪(fǎng)問(wèn)性。網(wǎng)站正式上線(xiàn)前，需要將網(wǎng)站初期填寫(xiě)的內容修改為比較優(yōu)質(zhì)的內容。
　　沒(méi)有完成內容的優(yōu)化，不要輕易上線(xiàn)。一旦在搜索引擎上留下低質(zhì)量網(wǎng)站的印象，網(wǎng)站的初始優(yōu)化就會(huì )帶來(lái)很多麻煩。
　　網(wǎng)站前期，因為網(wǎng)站質(zhì)量很低，所以要保證每天有足夠的內容，不斷更新優(yōu)化原創(chuàng )的內容，這也是很關(guān)鍵的。

技巧:機器學(xué)習入門(mén)系列：關(guān)于機器學(xué)習算法你需要了解的東西、如何開(kāi)發(fā)機器學(xué)習模型？

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 91 次瀏覽 ? 2022-11-05 08:32 ? 來(lái)自相關(guān)話(huà)題

　　技巧:機器學(xué)習入門(mén)系列：關(guān)于機器學(xué)習算法你需要了解的東西、如何開(kāi)發(fā)機器學(xué)習模型？
　　1.你需要了解的機器學(xué)習算法
　　摘要：分類(lèi)學(xué)習算法基于構建模型所需的數據：數據是否需要收錄輸入和輸出或僅收錄輸入、需要多少數據點(diǎn)以及何時(shí)采集數據。根據上述分類(lèi)原則，可以分為4大類(lèi)：監督學(xué)習、無(wú)監督學(xué)習、半監督學(xué)習和強化學(xué)習。
　　上次我們討論了機器學(xué)習可以影響的業(yè)務(wù)類(lèi)型。另請參閱：機器學(xué)習可以為您的企業(yè)做什么？（機器學(xué)習入門(mén)系列的第 1 部分）
　　現在，讓我們回顧一下您需要了解的技術(shù)術(shù)語(yǔ)，以便您可以有效地與您的數據科學(xué)團隊協(xié)作并協(xié)助您的數據科學(xué)團隊，以便他們的工作可以對您的業(yè)務(wù)產(chǎn)生最大的影響（或者至少讓您知道他們在說(shuō)什么） .
　　算法、模型和數據
　　從概念上講，我們正在構建一臺機器，給定一組輸入數據，它可以通過(guò)在數據中找到模式并從中學(xué)習來(lái)產(chǎn)生一些期望的輸出。
　　一個(gè)很常見(jiàn)的情況是要求機器查找一組輸入數據并產(chǎn)生相應的輸出數據。機器識別輸入數據中的模式并創(chuàng )建一組復雜的規則，然后將其應用于從未見(jiàn)過(guò)的輸入并產(chǎn)生所需的輸出。例如，給定房屋的大小、地址和房間數量（輸入），讓我們預測房屋的售價(jià)（輸出）。假設我們有 10,000 組這樣的數據，包括房子的大小、地址、房間數量和售價(jià)。然后機器會(huì )根據這些數據“訓練”自己，即識別出影響房?jì)r(jià)的房間大小、地址、房間數量的模式，這樣只要我們給一個(gè)房子的 3 個(gè)輸入我們以前從未見(jiàn)過(guò)，我們可以預測房?jì)r(jià)。
　　數據科學(xué)家的角色是找到能夠在給定輸入的情況下獲得預期輸出的最佳機器。她有多個(gè)模板，對于機器來(lái)說(shuō)，這些模板被稱(chēng)為**算法**。解決從這些模板生成的特定問(wèn)題的機器稱(chēng)為**模型**。模板具有各種選項和設置，可以進(jìn)行調整以從同一模板生成不同的模型。您還可以使用不同的模板生成多個(gè)模型或調整同一模板的設置以測試哪個(gè)模型提供最佳結果。
　　請注意，模型輸出僅對具有一定概率的決策是正確或有用的。該模型并非 100% 正確，它是基于模型所看到的大量數據的“最佳猜測”。模型看到的數據越多，就越有可能提供有用的輸出。
　　數據科學(xué)家用來(lái)“訓練”機器（即讓模型識別數據中的模式并創(chuàng )建規則）的一組已知輸入和輸出稱(chēng)為“**訓練集**”。該數據與一個(gè)或多個(gè)“模板”結合使用，以創(chuàng )建一個(gè)或多個(gè)模型來(lái)解決問(wèn)題。請記住，即使只使用一個(gè)“模板”（算法），也可以通過(guò)調整一些選項從同一個(gè)模板生成多個(gè)模型。
　　在獲得一些“訓練有素”的模型后，您必須檢查它們是否有效，以及哪一個(gè)效果最好。要檢查的新數據集稱(chēng)為“**驗證集**”。將驗證集作為輸入，然后運行模型以查看哪個(gè)模型輸出最接近驗證集輸出的結果。在我們上面的例子中，就是看哪個(gè)模型預測的房子價(jià)格最接近實(shí)際售價(jià)。在這個(gè)階段，需要一組新的數據作為驗證集，并且由于這些模型是從訓練集創(chuàng )建的，它們將在訓練集上運行良好，并且不會(huì )給出真實(shí)的結果。
　　一旦我們驗證了哪個(gè)模型表現最好并選擇了最好的，我們的數據科學(xué)家需要確定該模型的實(shí)際性能，即這個(gè)最佳模型在解決問(wèn)題方面的表現如何。同樣，我們需要另一個(gè)新數據集，因為該模型在訓練集和驗證集上都表現良好！最后一個(gè)數據集稱(chēng)為“**測試集**”。在我們的例子中，系統檢查測試集預測的房?jì)r(jià)與測試集實(shí)際價(jià)格的接近程度。
　　“學(xué)習”的類(lèi)型
　　您用于解決機器學(xué)習問(wèn)題的算法類(lèi)型取決于您擁有的數據。學(xué)習算法的分類(lèi)基于構建模型所需的數據：數據是需要包括輸入和輸出還是只包括輸入，需要多少數據點(diǎn)以及何時(shí)采集數據。根據上述分類(lèi)原則，可以分為4大類(lèi)：監督學(xué)習、無(wú)監督學(xué)習、半監督學(xué)習和強化學(xué)習。
　　1. 監督學(xué)習
　　我們在上一節中詳細討論的案例描述了我們所說(shuō)的“監督學(xué)習”。這種類(lèi)型的學(xué)習需要大量的**標記數據**示例，即由輸入和相應輸出組成的數據。在我們的房?jì)r(jià)示例中，“標記”是指用模型預測的結果標記輸入。
　　標記數據（也稱(chēng)為“ground-truth”數據）可以在監督學(xué)習算法中看到，從這些數據中學(xué)習并根據這些實(shí)例進(jìn)行預測。它們需要大量標記數據：雖然數據量取決于用例，但最少需要幾百個(gè)數據點(diǎn)。
　　使用監督學(xué)習解決的兩個(gè)經(jīng)典問(wèn)題是：
　　2. 無(wú)監督學(xué)習
　　在無(wú)監督學(xué)習中，算法嘗試識別數據中的模式，而不用預期結果標記數據集。數據是“未標記的”，即沒(méi)有附加任何有意義的標記。一些經(jīng)典問(wèn)題可以通過(guò)無(wú)監督學(xué)習方法解決：
　　3. 半監督學(xué)習
　　
　　這是監督學(xué)習和非監督學(xué)習混合的結果，其中算法需要一些訓練數據，但比監督學(xué)習少得多（可能差一個(gè)數量級）。它的算法可以是監督和非監督學(xué)習中使用的方法的擴展：分類(lèi)、回歸、聚類(lèi)、異常檢測等。
　　4. 強化學(xué)習
　　該算法從有限的數據集開(kāi)始，在學(xué)習的同時(shí)，可以獲得更多關(guān)于其預測的反饋，以進(jìn)一步改進(jìn)學(xué)習。
　　如您所見(jiàn)，除了要解決的問(wèn)題類(lèi)型之外，您擁有的數據量也會(huì )影響您可以使用的學(xué)習方法。這也適用于另一種方式：您需要使用的學(xué)習方法可能需要比您目前擁有的更多的數據才能有效地解決您的問(wèn)題。我們稍后會(huì )討論這個(gè)。
　　其他常見(jiàn)的“流行語(yǔ)”
　　在您的工作中，您會(huì )遇到其他幾個(gè)術(shù)語(yǔ)。了解它們與我們今天討論的類(lèi)別之間的關(guān)系非常重要。
　　深度學(xué)習與上述定義無(wú)關(guān)。它只是將特定類(lèi)型的系統應用于學(xué)習問(wèn)題，其解決方案可以是有監督的或無(wú)監督的等。
　　人工神經(jīng)網(wǎng)絡(luò ) (ANN) 是一種學(xué)習系統，它試圖模擬我們的大腦通過(guò)不同層的“神經(jīng)”網(wǎng)絡(luò )工作的方式。神經(jīng)網(wǎng)絡(luò )至少有一個(gè)輸入層（即一組將數據輸入網(wǎng)絡(luò )的神經(jīng)元）、一個(gè)輸出層（將結果傳遞出去的神經(jīng)元），以及介于兩者之間的一個(gè)或多個(gè)層，稱(chēng)為“隱藏層” . ”（實(shí)際進(jìn)行計算工作的層）。深度學(xué)習只是使用具有多個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò )來(lái)完成學(xué)習任務(wù)。如果你曾經(jīng)使用過(guò)這樣的網(wǎng)絡(luò )，那么恭喜你，你也可以合理地拋棄流行語(yǔ)！
　　集成方法或**集成學(xué)習**使用多個(gè)模型來(lái)獲得比使用單個(gè)模型更好的結果。這些模型可以使用不同的算法，也可以使用具有不同參數的相同算法。例如，對于某種類(lèi)型的預測，你有一組模型，每個(gè)模型都可以產(chǎn)生一個(gè)預測，并且有處理方法來(lái)平衡不同的預測結果并決定應該輸出什么組合。集成方法通常用于監督學(xué)習（它們在預測問(wèn)題中非常有用），但也可以用于無(wú)監督學(xué)習。您的數據科學(xué)團隊可能會(huì )測試這些方法并在適當的時(shí)候使用它們。
　　自然語(yǔ)言處理 (NLP) 是計算機科學(xué)的一門(mén)學(xué)科，研究機器對語(yǔ)言的理解。并非所有類(lèi)型的 NLP 都使用機器學(xué)習。例如，如果我們生成一個(gè)“標簽云”（一個(gè)單詞在文本中出現的次數的視覺(jué)表示），則不涉及學(xué)習。對語(yǔ)言和文本進(jìn)行更復雜的分析和理解通常需要機器學(xué)習。這里有些例子：
　　NLP 不僅用于機器學(xué)習領(lǐng)域中面向語(yǔ)言的應用程序，例如聊天機器人，還廣泛用于準備和預處理數據，以便這些數據可以成為許多機器學(xué)習模型的有用輸入。我們稍后會(huì )討論這個(gè)。
　　請注意：以上定義是為了表達其主要思想，方便大家理解；有關(guān)詳細的科學(xué)定義，請參閱其他來(lái)源。
　　問(wèn)題如何影響解決方案（以及一些關(guān)鍵的機器學(xué)習概念）
　　通過(guò)機器學(xué)習實(shí)現的戰略目標將決定許多下游決策。為了確保您的數據科學(xué)團隊能夠為業(yè)務(wù)生成正確的解決方案，了解一些基本的機器學(xué)習概念及其對業(yè)務(wù)目標的影響非常重要。
　　算法的選擇
　　問(wèn)題定義的微小變化可能需要完全不同的算法來(lái)解決，或者至少需要使用不同的數據輸入來(lái)構建不同的模型?？梢詾橛脩?hù)識別照片類(lèi)型的約會(huì )網(wǎng)站可以使用無(wú)監督學(xué)習技術(shù)（例如聚類(lèi)）來(lái)識別常見(jiàn)主題。如果你想向特定的人推薦一個(gè)潛在的約會(huì )對象，網(wǎng)站可能希望使用基于特定于該人的輸入數據的監督學(xué)習，例如他們已經(jīng)看過(guò)的照片。
　　特征選擇
　　機器學(xué)習模型識別數據中的模式。輸入模型的數據被組織成特征（也稱(chēng)為變量或屬性）：這些特征是相關(guān)的，主要是描述您想要預測或識別的現象的某些方面的獨立數據片段。
　　以前面提到的希望優(yōu)先考慮貸款申請人外展的公司為例。如果我們將問(wèn)題定義為“根據轉化的可能性對客戶(hù)進(jìn)行優(yōu)先排序”，我們將獲得包括對公司各種外展活動(dòng)的相似客戶(hù)響應率在內的特征。如果我們將問(wèn)題定義為“優(yōu)先考慮最有可能償還貸款的客戶(hù)”，我們將不會(huì )獲得這些功能，因為它們與評估客戶(hù)的可能性無(wú)關(guān)。
　　目標函數的選擇
　　目標函數是您要優(yōu)化的內容，或者模型試圖預測的內容。例如，如果您向用戶(hù)推薦他們可能感興趣的商品，則模型的輸出可能是用戶(hù)在看到商品時(shí)點(diǎn)擊該商品的概率，或者用戶(hù)購買(mǎi)該商品的概率。目標函數的選擇主要取決于業(yè)務(wù)目標，在這個(gè)例子中，您是對用戶(hù)參與度（目標函數可能是點(diǎn)擊或停留時(shí)間）還是業(yè)務(wù)收入（目標函數是購買(mǎi)）感興趣？另一個(gè)需要考慮的關(guān)鍵因素是數據的可用性：要讓算法學(xué)習，您必須提供大量“標記”的正面（用戶(hù)看到并點(diǎn)擊的產(chǎn)品）或負面（用戶(hù)看到但沒(méi)有點(diǎn)擊的產(chǎn)品）上）數據點(diǎn)。
　　文章原標題《你需要了解的機器學(xué)習算法以及為什么要關(guān)心》，作者：Yael Gavish，譯者：Summer，審稿人：主題曲哥。
　　
　　-------------------------------------------------- ----------------------------------
　　2. 如何開(kāi)發(fā)機器學(xué)習模型？
　　摘要：創(chuàng )建一個(gè)好的機器學(xué)習模型與創(chuàng )建任何其他產(chǎn)品一樣：從一個(gè)想法開(kāi)始，考慮要解決的問(wèn)題以及一些潛在的解決方案。一旦你有了明確的方向，你就可以對解決方案進(jìn)行原型設計，然后對其進(jìn)行測試，看看它是否滿(mǎn)足你的需求，看看這篇文章是如何一步一步做到的。
　　建模步驟一目了然
　　在高層次上，創(chuàng )建一個(gè)出色的機器學(xué)習模型與創(chuàng )建任何其他產(chǎn)品一樣：從一個(gè)想法開(kāi)始，然后考慮要解決的問(wèn)題以及一些潛在的解決方案。一旦有了明確的方向，就可以對解決方案進(jìn)行原型設計，然后對其進(jìn)行測試，看看它是否符合要求。您需要在構思、原型設計和測試之間進(jìn)行迭代，直到您的解決方案足以投放市場(chǎng)，此時(shí)您可以將其產(chǎn)品化并發(fā)布?，F在，讓我們看看每個(gè)階段的細節。
　　由于數據是機器學(xué)習的重要組成部分，我們需要在產(chǎn)品開(kāi)發(fā)過(guò)程之上進(jìn)行數據分層，所以我們的過(guò)程如下所示：
　　主意
　　此階段的目標是將模型解決的關(guān)鍵問(wèn)題、目標函數和潛在輸入與整個(gè)模型保持一致。
　　數據準備
　　此階段的目標是采集原創(chuàng )數據并將其用作原型模型的輸入。您可能需要對原創(chuàng )數據執行復雜的轉換以使其成為輸入數據。例如，假設您的一個(gè)特征是消費者對品牌的看法：您首先需要找到消費者談?wù)撃放频南嚓P(guān)來(lái)源。如果品牌名稱(chēng)中收錄常用詞（如“蘋(píng)果”），則需要將品牌名稱(chēng)與其一般含義（與水果相關(guān)）區分開(kāi)來(lái)，然后通過(guò)一個(gè)意見(jiàn)分析模型，在構建原型之前完成。并非所有功能都難以構建，但有些功能可能是勞動(dòng)密集型的。
　　讓我們仔細看看在這個(gè)階段需要做什么：
　　原型和測試
　　此階段的目標是獲得模型的原型，對其進(jìn)行測試并對其進(jìn)行迭代，直到獲得足以用于生產(chǎn)的模型。
　　商品化
　　當原型模型很好地解決了業(yè)務(wù)問(wèn)題并可以投入生產(chǎn)時(shí)，您就進(jìn)入了這個(gè)階段。請注意，如果您還沒(méi)有準備好進(jìn)行全面生產(chǎn)，您需要首先確定模型的縮放比例。比如一個(gè)電影推薦工具：一開(kāi)始可能會(huì )為少數幾個(gè)用戶(hù)提供推薦服務(wù)，但是為了給每個(gè)用戶(hù)提供完整的用戶(hù)體驗，這種情況下，模型會(huì )根據每個(gè)用戶(hù)與數據庫的相關(guān)性來(lái)進(jìn)行. 對每部電影進(jìn)行排序。這是與僅推薦動(dòng)作電影不同的擴展要求。
　　現在，讓我們探討一些有關(guān)使模型高效的技術(shù)細節：
　　到目前為止，我所描述的是一個(gè)概念過(guò)程。在現實(shí)中，線(xiàn)一般是模糊的，你經(jīng)常需要在階段之間來(lái)回走動(dòng)。您可能對數據供應不滿(mǎn)意，考慮重新開(kāi)始，或者模型商業(yè)化后，您可能會(huì )發(fā)現模型效果不太好，您必須回去重新構建原型。
　　文章原標題《Developing a Machine Learning Model from Start to Finish》，作者：Yael Gavish，譯者：夏夏，審稿人：主題曲哥。
　　文章是一個(gè)簡(jiǎn)化的翻譯。更多詳情請查看原文（需要梯子）。您也可以下載下方的PDF文檔查看原文。
　　附件下載：/m/29087/
　　更多技術(shù)干貨請關(guān)注云棲社區知乎組織編號：阿里云云棲社區-知乎
　　優(yōu)化的解決方案:蘋(píng)果CMS虛擬主機設置自動(dòng)采集
　　蘋(píng)果cms，管理功能強大，管理后臺界面大方，操作簡(jiǎn)單，功能齊全，模塊多，雙端管理。蘋(píng)果cms加上豐富的系統標簽，系統內置豐富的cms標簽，支持thinkphp框架標簽的完美集成，可以檢索系統中的所有數據，只要站長(cháng)有一些前端知識快速開(kāi)發(fā)自己的模板功能。Applecms部署安裝簡(jiǎn)單，任何操作系統（Windows、Mac、Linux）都可以在PHP+MYSQL環(huán)境下快速安裝部署。
　　蘋(píng)果cms是一個(gè)成熟穩定的資源管理系統，可以用來(lái)搭建自己的影視網(wǎng)站。蘋(píng)果cms很大一部分影視網(wǎng)站都是用蘋(píng)果cms搭建的。蘋(píng)果cms有很多優(yōu)點(diǎn)，包括一鍵建站、配置簡(jiǎn)單、資源方便采集等。
　　以下是如何構建 Apple cms 系統以及如何配置它。要申請自己的VPS主機，首先要擁有自己的VPS。我們的 Apple cms 系統將安裝在此 VPS 上。目前主流的VPS有很多，而且大部分都非常穩定。一鍵配置服務(wù)器環(huán)境非常方便。二、搭建LAMP環(huán)境在安裝蘋(píng)果cms之前，首先要在你的VPS上搭建一個(gè)LAMP環(huán)境。
　　
　　所謂LAMP就是指Linux+Apache+Mysql+PHP。其中，蘋(píng)果cms的操作系統ubuntu是Linux。Apache是??一個(gè)服務(wù)器，瀏覽器可以通過(guò)Apache在服務(wù)器（也就是你的VPS）上提供的服務(wù)獲取網(wǎng)頁(yè)資源，并顯示在你的電腦屏幕上。Mysql 是一個(gè)數據庫，在您的網(wǎng)站（這里是 Apple cms）動(dòng)態(tài)運行時(shí)訪(fǎng)問(wèn)的數據由數據庫管理。
　　PHP 和 Apache 相互配合，為用戶(hù)提供動(dòng)態(tài)網(wǎng)頁(yè)。我們要安裝的蘋(píng)果cms是用PHP語(yǔ)言編寫(xiě)的，必須依賴(lài)蘋(píng)果cms的運行。數據庫的信息可以根據網(wǎng)站的MySQL中的實(shí)際配置填寫(xiě)。目的是讓 Apple cms 通過(guò)這些參數登錄你的 MySQL。只有這樣，Apple cms 才能使用數據庫讀寫(xiě)所需的數據。
　　
　　???
　　Apple cms采集可能會(huì )報錯類(lèi)別未綁定。這是因為站長(cháng)站點(diǎn)的電影類(lèi)別與資源站點(diǎn)的電影類(lèi)別之間沒(méi)有一一對應的關(guān)系。因此，Apple cms 不知道資源站上的哪個(gè)A類(lèi)對應你網(wǎng)站上的哪個(gè)類(lèi)別。此時(shí)，只需要綁定分類(lèi)即可。這些操作并不難，稍微探索一下就可以上手。
　　Applecms 已成為易用性和功能性的領(lǐng)導者。程序體積小，程序代碼優(yōu)化，運行速度快，緩存處理效率高，只要能完美搭建普通虛擬主機，建站成本很低。類(lèi)MVC模板分離，內置標簽，自定義功能標簽界面，強大的自定義采集功能，只要站長(cháng)懂HTML，就可以輕松制作個(gè)性化網(wǎng)站。
　　蘋(píng)果cms一直積極采納廣大站長(cháng)在易用性和功能方面提出的各種好的建議，對各種緊迫問(wèn)題做出快速響應，確保每一位站長(cháng)都能從容應對每一個(gè)環(huán)節。. v10采用tp5.x內核開(kāi)發(fā)，擴展了模板處理引擎，簡(jiǎn)單地將后臺程序與html模板分離。Apple cms 允許設計師和程序員在不互相干擾的情況下最大限度地發(fā)揮自己的優(yōu)勢。大大加快了項目的有序、快速完成。即使站長(cháng)是第一次接觸，他也會(huì )在最短的時(shí)間內掌握蘋(píng)果cms的使用方法。后臺管理模塊一目了然，操作簡(jiǎn)單，絕不會(huì )讓站長(cháng)眼花繚亂。查看全部

　　技巧:機器學(xué)習入門(mén)系列：關(guān)于機器學(xué)習算法你需要了解的東西、如何開(kāi)發(fā)機器學(xué)習模型？
　　1.你需要了解的機器學(xué)習算法
　　摘要：分類(lèi)學(xué)習算法基于構建模型所需的數據：數據是否需要收錄輸入和輸出或僅收錄輸入、需要多少數據點(diǎn)以及何時(shí)采集數據。根據上述分類(lèi)原則，可以分為4大類(lèi)：監督學(xué)習、無(wú)監督學(xué)習、半監督學(xué)習和強化學(xué)習。
　　上次我們討論了機器學(xué)習可以影響的業(yè)務(wù)類(lèi)型。另請參閱：機器學(xué)習可以為您的企業(yè)做什么？（機器學(xué)習入門(mén)系列的第 1 部分）
　　現在，讓我們回顧一下您需要了解的技術(shù)術(shù)語(yǔ)，以便您可以有效地與您的數據科學(xué)團隊協(xié)作并協(xié)助您的數據科學(xué)團隊，以便他們的工作可以對您的業(yè)務(wù)產(chǎn)生最大的影響（或者至少讓您知道他們在說(shuō)什么） .
　　算法、模型和數據
　　從概念上講，我們正在構建一臺機器，給定一組輸入數據，它可以通過(guò)在數據中找到模式并從中學(xué)習來(lái)產(chǎn)生一些期望的輸出。
　　一個(gè)很常見(jiàn)的情況是要求機器查找一組輸入數據并產(chǎn)生相應的輸出數據。機器識別輸入數據中的模式并創(chuàng )建一組復雜的規則，然后將其應用于從未見(jiàn)過(guò)的輸入并產(chǎn)生所需的輸出。例如，給定房屋的大小、地址和房間數量（輸入），讓我們預測房屋的售價(jià)（輸出）。假設我們有 10,000 組這樣的數據，包括房子的大小、地址、房間數量和售價(jià)。然后機器會(huì )根據這些數據“訓練”自己，即識別出影響房?jì)r(jià)的房間大小、地址、房間數量的模式，這樣只要我們給一個(gè)房子的 3 個(gè)輸入我們以前從未見(jiàn)過(guò)，我們可以預測房?jì)r(jià)。
　　數據科學(xué)家的角色是找到能夠在給定輸入的情況下獲得預期輸出的最佳機器。她有多個(gè)模板，對于機器來(lái)說(shuō)，這些模板被稱(chēng)為**算法**。解決從這些模板生成的特定問(wèn)題的機器稱(chēng)為**模型**。模板具有各種選項和設置，可以進(jìn)行調整以從同一模板生成不同的模型。您還可以使用不同的模板生成多個(gè)模型或調整同一模板的設置以測試哪個(gè)模型提供最佳結果。
　　請注意，模型輸出僅對具有一定概率的決策是正確或有用的。該模型并非 100% 正確，它是基于模型所看到的大量數據的“最佳猜測”。模型看到的數據越多，就越有可能提供有用的輸出。
　　數據科學(xué)家用來(lái)“訓練”機器（即讓模型識別數據中的模式并創(chuàng )建規則）的一組已知輸入和輸出稱(chēng)為“**訓練集**”。該數據與一個(gè)或多個(gè)“模板”結合使用，以創(chuàng )建一個(gè)或多個(gè)模型來(lái)解決問(wèn)題。請記住，即使只使用一個(gè)“模板”（算法），也可以通過(guò)調整一些選項從同一個(gè)模板生成多個(gè)模型。
　　在獲得一些“訓練有素”的模型后，您必須檢查它們是否有效，以及哪一個(gè)效果最好。要檢查的新數據集稱(chēng)為“**驗證集**”。將驗證集作為輸入，然后運行模型以查看哪個(gè)模型輸出最接近驗證集輸出的結果。在我們上面的例子中，就是看哪個(gè)模型預測的房子價(jià)格最接近實(shí)際售價(jià)。在這個(gè)階段，需要一組新的數據作為驗證集，并且由于這些模型是從訓練集創(chuàng )建的，它們將在訓練集上運行良好，并且不會(huì )給出真實(shí)的結果。
　　一旦我們驗證了哪個(gè)模型表現最好并選擇了最好的，我們的數據科學(xué)家需要確定該模型的實(shí)際性能，即這個(gè)最佳模型在解決問(wèn)題方面的表現如何。同樣，我們需要另一個(gè)新數據集，因為該模型在訓練集和驗證集上都表現良好！最后一個(gè)數據集稱(chēng)為“**測試集**”。在我們的例子中，系統檢查測試集預測的房?jì)r(jià)與測試集實(shí)際價(jià)格的接近程度。
　　“學(xué)習”的類(lèi)型
　　您用于解決機器學(xué)習問(wèn)題的算法類(lèi)型取決于您擁有的數據。學(xué)習算法的分類(lèi)基于構建模型所需的數據：數據是需要包括輸入和輸出還是只包括輸入，需要多少數據點(diǎn)以及何時(shí)采集數據。根據上述分類(lèi)原則，可以分為4大類(lèi)：監督學(xué)習、無(wú)監督學(xué)習、半監督學(xué)習和強化學(xué)習。
　　1. 監督學(xué)習
　　我們在上一節中詳細討論的案例描述了我們所說(shuō)的“監督學(xué)習”。這種類(lèi)型的學(xué)習需要大量的**標記數據**示例，即由輸入和相應輸出組成的數據。在我們的房?jì)r(jià)示例中，“標記”是指用模型預測的結果標記輸入。
　　標記數據（也稱(chēng)為“ground-truth”數據）可以在監督學(xué)習算法中看到，從這些數據中學(xué)習并根據這些實(shí)例進(jìn)行預測。它們需要大量標記數據：雖然數據量取決于用例，但最少需要幾百個(gè)數據點(diǎn)。
　　使用監督學(xué)習解決的兩個(gè)經(jīng)典問(wèn)題是：
　　2. 無(wú)監督學(xué)習
　　在無(wú)監督學(xué)習中，算法嘗試識別數據中的模式，而不用預期結果標記數據集。數據是“未標記的”，即沒(méi)有附加任何有意義的標記。一些經(jīng)典問(wèn)題可以通過(guò)無(wú)監督學(xué)習方法解決：
　　3. 半監督學(xué)習
　　

　　這是監督學(xué)習和非監督學(xué)習混合的結果，其中算法需要一些訓練數據，但比監督學(xué)習少得多（可能差一個(gè)數量級）。它的算法可以是監督和非監督學(xué)習中使用的方法的擴展：分類(lèi)、回歸、聚類(lèi)、異常檢測等。
　　4. 強化學(xué)習
　　該算法從有限的數據集開(kāi)始，在學(xué)習的同時(shí)，可以獲得更多關(guān)于其預測的反饋，以進(jìn)一步改進(jìn)學(xué)習。
　　如您所見(jiàn)，除了要解決的問(wèn)題類(lèi)型之外，您擁有的數據量也會(huì )影響您可以使用的學(xué)習方法。這也適用于另一種方式：您需要使用的學(xué)習方法可能需要比您目前擁有的更多的數據才能有效地解決您的問(wèn)題。我們稍后會(huì )討論這個(gè)。
　　其他常見(jiàn)的“流行語(yǔ)”
　　在您的工作中，您會(huì )遇到其他幾個(gè)術(shù)語(yǔ)。了解它們與我們今天討論的類(lèi)別之間的關(guān)系非常重要。
　　深度學(xué)習與上述定義無(wú)關(guān)。它只是將特定類(lèi)型的系統應用于學(xué)習問(wèn)題，其解決方案可以是有監督的或無(wú)監督的等。
　　人工神經(jīng)網(wǎng)絡(luò ) (ANN) 是一種學(xué)習系統，它試圖模擬我們的大腦通過(guò)不同層的“神經(jīng)”網(wǎng)絡(luò )工作的方式。神經(jīng)網(wǎng)絡(luò )至少有一個(gè)輸入層（即一組將數據輸入網(wǎng)絡(luò )的神經(jīng)元）、一個(gè)輸出層（將結果傳遞出去的神經(jīng)元），以及介于兩者之間的一個(gè)或多個(gè)層，稱(chēng)為“隱藏層” . ”（實(shí)際進(jìn)行計算工作的層）。深度學(xué)習只是使用具有多個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò )來(lái)完成學(xué)習任務(wù)。如果你曾經(jīng)使用過(guò)這樣的網(wǎng)絡(luò )，那么恭喜你，你也可以合理地拋棄流行語(yǔ)！
　　集成方法或**集成學(xué)習**使用多個(gè)模型來(lái)獲得比使用單個(gè)模型更好的結果。這些模型可以使用不同的算法，也可以使用具有不同參數的相同算法。例如，對于某種類(lèi)型的預測，你有一組模型，每個(gè)模型都可以產(chǎn)生一個(gè)預測，并且有處理方法來(lái)平衡不同的預測結果并決定應該輸出什么組合。集成方法通常用于監督學(xué)習（它們在預測問(wèn)題中非常有用），但也可以用于無(wú)監督學(xué)習。您的數據科學(xué)團隊可能會(huì )測試這些方法并在適當的時(shí)候使用它們。
　　自然語(yǔ)言處理 (NLP) 是計算機科學(xué)的一門(mén)學(xué)科，研究機器對語(yǔ)言的理解。并非所有類(lèi)型的 NLP 都使用機器學(xué)習。例如，如果我們生成一個(gè)“標簽云”（一個(gè)單詞在文本中出現的次數的視覺(jué)表示），則不涉及學(xué)習。對語(yǔ)言和文本進(jìn)行更復雜的分析和理解通常需要機器學(xué)習。這里有些例子：
　　NLP 不僅用于機器學(xué)習領(lǐng)域中面向語(yǔ)言的應用程序，例如聊天機器人，還廣泛用于準備和預處理數據，以便這些數據可以成為許多機器學(xué)習模型的有用輸入。我們稍后會(huì )討論這個(gè)。
　　請注意：以上定義是為了表達其主要思想，方便大家理解；有關(guān)詳細的科學(xué)定義，請參閱其他來(lái)源。
　　問(wèn)題如何影響解決方案（以及一些關(guān)鍵的機器學(xué)習概念）
　　通過(guò)機器學(xué)習實(shí)現的戰略目標將決定許多下游決策。為了確保您的數據科學(xué)團隊能夠為業(yè)務(wù)生成正確的解決方案，了解一些基本的機器學(xué)習概念及其對業(yè)務(wù)目標的影響非常重要。
　　算法的選擇
　　問(wèn)題定義的微小變化可能需要完全不同的算法來(lái)解決，或者至少需要使用不同的數據輸入來(lái)構建不同的模型?？梢詾橛脩?hù)識別照片類(lèi)型的約會(huì )網(wǎng)站可以使用無(wú)監督學(xué)習技術(shù)（例如聚類(lèi)）來(lái)識別常見(jiàn)主題。如果你想向特定的人推薦一個(gè)潛在的約會(huì )對象，網(wǎng)站可能希望使用基于特定于該人的輸入數據的監督學(xué)習，例如他們已經(jīng)看過(guò)的照片。
　　特征選擇
　　機器學(xué)習模型識別數據中的模式。輸入模型的數據被組織成特征（也稱(chēng)為變量或屬性）：這些特征是相關(guān)的，主要是描述您想要預測或識別的現象的某些方面的獨立數據片段。
　　以前面提到的希望優(yōu)先考慮貸款申請人外展的公司為例。如果我們將問(wèn)題定義為“根據轉化的可能性對客戶(hù)進(jìn)行優(yōu)先排序”，我們將獲得包括對公司各種外展活動(dòng)的相似客戶(hù)響應率在內的特征。如果我們將問(wèn)題定義為“優(yōu)先考慮最有可能償還貸款的客戶(hù)”，我們將不會(huì )獲得這些功能，因為它們與評估客戶(hù)的可能性無(wú)關(guān)。
　　目標函數的選擇
　　目標函數是您要優(yōu)化的內容，或者模型試圖預測的內容。例如，如果您向用戶(hù)推薦他們可能感興趣的商品，則模型的輸出可能是用戶(hù)在看到商品時(shí)點(diǎn)擊該商品的概率，或者用戶(hù)購買(mǎi)該商品的概率。目標函數的選擇主要取決于業(yè)務(wù)目標，在這個(gè)例子中，您是對用戶(hù)參與度（目標函數可能是點(diǎn)擊或停留時(shí)間）還是業(yè)務(wù)收入（目標函數是購買(mǎi)）感興趣？另一個(gè)需要考慮的關(guān)鍵因素是數據的可用性：要讓算法學(xué)習，您必須提供大量“標記”的正面（用戶(hù)看到并點(diǎn)擊的產(chǎn)品）或負面（用戶(hù)看到但沒(méi)有點(diǎn)擊的產(chǎn)品）上）數據點(diǎn)。
　　文章原標題《你需要了解的機器學(xué)習算法以及為什么要關(guān)心》，作者：Yael Gavish，譯者：Summer，審稿人：主題曲哥。
　　

　　-------------------------------------------------- ----------------------------------
　　2. 如何開(kāi)發(fā)機器學(xué)習模型？
　　摘要：創(chuàng )建一個(gè)好的機器學(xué)習模型與創(chuàng )建任何其他產(chǎn)品一樣：從一個(gè)想法開(kāi)始，考慮要解決的問(wèn)題以及一些潛在的解決方案。一旦你有了明確的方向，你就可以對解決方案進(jìn)行原型設計，然后對其進(jìn)行測試，看看它是否滿(mǎn)足你的需求，看看這篇文章是如何一步一步做到的。
　　建模步驟一目了然
　　在高層次上，創(chuàng )建一個(gè)出色的機器學(xué)習模型與創(chuàng )建任何其他產(chǎn)品一樣：從一個(gè)想法開(kāi)始，然后考慮要解決的問(wèn)題以及一些潛在的解決方案。一旦有了明確的方向，就可以對解決方案進(jìn)行原型設計，然后對其進(jìn)行測試，看看它是否符合要求。您需要在構思、原型設計和測試之間進(jìn)行迭代，直到您的解決方案足以投放市場(chǎng)，此時(shí)您可以將其產(chǎn)品化并發(fā)布?，F在，讓我們看看每個(gè)階段的細節。
　　由于數據是機器學(xué)習的重要組成部分，我們需要在產(chǎn)品開(kāi)發(fā)過(guò)程之上進(jìn)行數據分層，所以我們的過(guò)程如下所示：
　　主意
　　此階段的目標是將模型解決的關(guān)鍵問(wèn)題、目標函數和潛在輸入與整個(gè)模型保持一致。
　　數據準備
　　此階段的目標是采集原創(chuàng )數據并將其用作原型模型的輸入。您可能需要對原創(chuàng )數據執行復雜的轉換以使其成為輸入數據。例如，假設您的一個(gè)特征是消費者對品牌的看法：您首先需要找到消費者談?wù)撃放频南嚓P(guān)來(lái)源。如果品牌名稱(chēng)中收錄常用詞（如“蘋(píng)果”），則需要將品牌名稱(chēng)與其一般含義（與水果相關(guān)）區分開(kāi)來(lái)，然后通過(guò)一個(gè)意見(jiàn)分析模型，在構建原型之前完成。并非所有功能都難以構建，但有些功能可能是勞動(dòng)密集型的。
　　讓我們仔細看看在這個(gè)階段需要做什么：
　　原型和測試
　　此階段的目標是獲得模型的原型，對其進(jìn)行測試并對其進(jìn)行迭代，直到獲得足以用于生產(chǎn)的模型。
　　商品化
　　當原型模型很好地解決了業(yè)務(wù)問(wèn)題并可以投入生產(chǎn)時(shí)，您就進(jìn)入了這個(gè)階段。請注意，如果您還沒(méi)有準備好進(jìn)行全面生產(chǎn)，您需要首先確定模型的縮放比例。比如一個(gè)電影推薦工具：一開(kāi)始可能會(huì )為少數幾個(gè)用戶(hù)提供推薦服務(wù)，但是為了給每個(gè)用戶(hù)提供完整的用戶(hù)體驗，這種情況下，模型會(huì )根據每個(gè)用戶(hù)與數據庫的相關(guān)性來(lái)進(jìn)行. 對每部電影進(jìn)行排序。這是與僅推薦動(dòng)作電影不同的擴展要求。
　　現在，讓我們探討一些有關(guān)使模型高效的技術(shù)細節：
　　到目前為止，我所描述的是一個(gè)概念過(guò)程。在現實(shí)中，線(xiàn)一般是模糊的，你經(jīng)常需要在階段之間來(lái)回走動(dòng)。您可能對數據供應不滿(mǎn)意，考慮重新開(kāi)始，或者模型商業(yè)化后，您可能會(huì )發(fā)現模型效果不太好，您必須回去重新構建原型。
　　文章原標題《Developing a Machine Learning Model from Start to Finish》，作者：Yael Gavish，譯者：夏夏，審稿人：主題曲哥。
　　文章是一個(gè)簡(jiǎn)化的翻譯。更多詳情請查看原文（需要梯子）。您也可以下載下方的PDF文檔查看原文。
　　附件下載：/m/29087/
　　更多技術(shù)干貨請關(guān)注云棲社區知乎組織編號：阿里云云棲社區-知乎
　　優(yōu)化的解決方案:蘋(píng)果CMS虛擬主機設置自動(dòng)采集
　　蘋(píng)果cms，管理功能強大，管理后臺界面大方，操作簡(jiǎn)單，功能齊全，模塊多，雙端管理。蘋(píng)果cms加上豐富的系統標簽，系統內置豐富的cms標簽，支持thinkphp框架標簽的完美集成，可以檢索系統中的所有數據，只要站長(cháng)有一些前端知識快速開(kāi)發(fā)自己的模板功能。Applecms部署安裝簡(jiǎn)單，任何操作系統（Windows、Mac、Linux）都可以在PHP+MYSQL環(huán)境下快速安裝部署。
　　蘋(píng)果cms是一個(gè)成熟穩定的資源管理系統，可以用來(lái)搭建自己的影視網(wǎng)站。蘋(píng)果cms很大一部分影視網(wǎng)站都是用蘋(píng)果cms搭建的。蘋(píng)果cms有很多優(yōu)點(diǎn)，包括一鍵建站、配置簡(jiǎn)單、資源方便采集等。
　　以下是如何構建 Apple cms 系統以及如何配置它。要申請自己的VPS主機，首先要擁有自己的VPS。我們的 Apple cms 系統將安裝在此 VPS 上。目前主流的VPS有很多，而且大部分都非常穩定。一鍵配置服務(wù)器環(huán)境非常方便。二、搭建LAMP環(huán)境在安裝蘋(píng)果cms之前，首先要在你的VPS上搭建一個(gè)LAMP環(huán)境。
　　

　　所謂LAMP就是指Linux+Apache+Mysql+PHP。其中，蘋(píng)果cms的操作系統ubuntu是Linux。Apache是??一個(gè)服務(wù)器，瀏覽器可以通過(guò)Apache在服務(wù)器（也就是你的VPS）上提供的服務(wù)獲取網(wǎng)頁(yè)資源，并顯示在你的電腦屏幕上。Mysql 是一個(gè)數據庫，在您的網(wǎng)站（這里是 Apple cms）動(dòng)態(tài)運行時(shí)訪(fǎng)問(wèn)的數據由數據庫管理。
　　PHP 和 Apache 相互配合，為用戶(hù)提供動(dòng)態(tài)網(wǎng)頁(yè)。我們要安裝的蘋(píng)果cms是用PHP語(yǔ)言編寫(xiě)的，必須依賴(lài)蘋(píng)果cms的運行。數據庫的信息可以根據網(wǎng)站的MySQL中的實(shí)際配置填寫(xiě)。目的是讓 Apple cms 通過(guò)這些參數登錄你的 MySQL。只有這樣，Apple cms 才能使用數據庫讀寫(xiě)所需的數據。
　　

　　???
　　Apple cms采集可能會(huì )報錯類(lèi)別未綁定。這是因為站長(cháng)站點(diǎn)的電影類(lèi)別與資源站點(diǎn)的電影類(lèi)別之間沒(méi)有一一對應的關(guān)系。因此，Apple cms 不知道資源站上的哪個(gè)A類(lèi)對應你網(wǎng)站上的哪個(gè)類(lèi)別。此時(shí)，只需要綁定分類(lèi)即可。這些操作并不難，稍微探索一下就可以上手。
　　Applecms 已成為易用性和功能性的領(lǐng)導者。程序體積小，程序代碼優(yōu)化，運行速度快，緩存處理效率高，只要能完美搭建普通虛擬主機，建站成本很低。類(lèi)MVC模板分離，內置標簽，自定義功能標簽界面，強大的自定義采集功能，只要站長(cháng)懂HTML，就可以輕松制作個(gè)性化網(wǎng)站。
　　蘋(píng)果cms一直積極采納廣大站長(cháng)在易用性和功能方面提出的各種好的建議，對各種緊迫問(wèn)題做出快速響應，確保每一位站長(cháng)都能從容應對每一個(gè)環(huán)節。. v10采用tp5.x內核開(kāi)發(fā)，擴展了模板處理引擎，簡(jiǎn)單地將后臺程序與html模板分離。Apple cms 允許設計師和程序員在不互相干擾的情況下最大限度地發(fā)揮自己的優(yōu)勢。大大加快了項目的有序、快速完成。即使站長(cháng)是第一次接觸，他也會(huì )在最短的時(shí)間內掌握蘋(píng)果cms的使用方法。后臺管理模塊一目了然，操作簡(jiǎn)單，絕不會(huì )讓站長(cháng)眼花繚亂。

核心方法:用js來(lái)實(shí)現那些數據結構及算法—目錄

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 75 次瀏覽 ? 2022-11-04 19:21 ? 來(lái)自相關(guān)話(huà)題

　　核心方法:用js來(lái)實(shí)現那些數據結構及算法—目錄
　　讓我告訴你我個(gè)人對這本書(shū)的看法。數據結構的介紹不夠深入細致，對于那些主修計算機專(zhuān)業(yè)的前端從業(yè)者來(lái)說(shuō)非常雞肋。對于那些不是計算機專(zhuān)業(yè)并且從未接觸過(guò)數據結構的前端編碼人員。解釋很不具體，很多內容只是幾筆而已，完全沒(méi)有代表性。思路的解釋不是很清楚，但是每一步都列出來(lái)了，但其實(shí)每一步都是單獨列出來(lái)的。它沒(méi)有任何幫助，我可以自己查看代碼并使用您所說(shuō)的。當然，我在網(wǎng)上也找到了很多類(lèi)似這個(gè)系列的文章，大部分都是基于本書(shū)的代碼，但是要么代碼完全復制，
　　所以，想寫(xiě)下自己的理解，自己對這個(gè)數據結構的想法，每一行代碼在上下文中的作用以及學(xué)習過(guò)程中彼此的影響。希望大家在學(xué)習數據結構的時(shí)候能走的輕松一點(diǎn)。學(xué)習的過(guò)程中，有沒(méi)有看懂的地方，書(shū)里不好理解的地方都是自己畫(huà)的，自己找資料，再回來(lái)結合代碼給個(gè)“自己-thinking”的解釋還不錯。
　　終于完成了所有關(guān)于使用js實(shí)現數據結構的內容，耗時(shí)一個(gè)多月近40個(gè)小時(shí)，共16篇文章。里面有最基礎的js數組的詳細講解。還有非線(xiàn)性哈希表、樹(shù)和圖。其實(shí)對于使用js實(shí)現數據結構，個(gè)人覺(jué)得需要學(xué)習的是數據結構的思想。一旦你理解了這個(gè)數據結構的思想，那么，當然，實(shí)現代碼只是時(shí)間問(wèn)題。這個(gè)系列的所有內容都是我一個(gè)字一個(gè)字打出來(lái)的，包括書(shū)中的代碼和我自己的評論。當然，一些概念性的問(wèn)題來(lái)自這本書(shū)。文中附有信息鏈接。
　　那么，如果你有不明白的地方，或者在閱讀的時(shí)候感覺(jué)不清楚，希望你能留言?；ハ鄬W(xué)習。
　　哦，是的，讓我們談?wù)勎艺J為這個(gè)系列的重點(diǎn)。重點(diǎn)是最后 6 篇文章和前 3 篇文章（Array、hashMap、Tree 和 Graph）。而對于前面的棧、隊列等是你學(xué)習后面的基礎，因為前面的數據結構都是在樹(shù)、圖等數據結構的實(shí)現中用到的。
　　
　　所以，如果你想學(xué)習數據結構。所以我個(gè)人認為這個(gè)系列文章是一個(gè)好的開(kāi)始。你可能會(huì )問(wèn)，看完這個(gè)系列文章我會(huì )學(xué)到什么？我真的了解數據結構嗎？當然不是。一張照片就足以寫(xiě)一本厚厚的書(shū)。所以，看完這個(gè)系列，最多只是打開(kāi)數據結構的門(mén)，邁出右腳（或左腳）去探索門(mén)內的世界，甚至沒(méi)有走進(jìn)這扇門(mén)。
　　最后說(shuō)一下這個(gè)系列的使用和大概的閱讀時(shí)間。
　　使用方法：首先將代碼復制到本地，去掉所有注釋?zhuān)缓笥梦恼麻喿x代碼。然后自己敲代碼，有什么不懂的就去評論區。以下是參加本系列的說(shuō)明。
　　花費時(shí)間：每天一小時(shí)，大約一個(gè)月。當然，不僅僅是閱讀，而是按照文章中的代碼和注釋來(lái)完整地過(guò)一遍我的腦海。
　　好吧，讓我們停止羅嗦。就去這里吧?？梢运闶墙o自己的6分答題卡。
　　
　　這是目錄：
　　數據結構部分（已完成）：
　　附：算法部分基本完成，比如搜索和排序算法，比如函數式編程。這些文章文章強烈推薦大家仔細閱讀，因為如果你對這方面沒(méi)有深入研究過(guò)，那么在你閱讀并研究了下面的文章之后，會(huì )有一個(gè)很多收據。當然，這里有一篇文章文章我個(gè)人的看法是，你可以簡(jiǎn)單的看一下，不過(guò)看不懂也沒(méi)關(guān)系，因為已經(jīng)是算法比較深入的部分了，這就是js算法05（算法模式02-動(dòng)態(tài)規劃與貪心算法）本文的第一眼，如果你有算法基礎，那就當我沒(méi)說(shuō)吧。
　　算法部分：
　　最后，謝謝！
　　核心方法:網(wǎng)頁(yè)數據導出excel的方法
　　如何獲取和導出網(wǎng)頁(yè)數據并保存在本地？
　　如何將網(wǎng)頁(yè)數據（文字、圖片等）導出并保存在本地，以便我想看的時(shí)候可以看或者跟進(jìn)更深層次的數據處理？導出網(wǎng)頁(yè)數據一般有幾種方法。
　　1.通過(guò)瀏覽器導出網(wǎng)頁(yè)數據
　　具體操作：打開(kāi)網(wǎng)頁(yè)后，在網(wǎng)頁(yè)空白處右擊，在下拉列表中選擇“另存為”，然后在彈出的保存窗口中選擇保存類(lèi)型為“所有網(wǎng)頁(yè)”。選擇保存位置并確認，保存后會(huì )自動(dòng)保存兩個(gè)文件，一個(gè)是網(wǎng)址，一個(gè)是保存網(wǎng)頁(yè)內容元素。
　　如何導出網(wǎng)頁(yè)數據，以趕集網(wǎng)采集為例圖1
　　2.通過(guò)網(wǎng)頁(yè)數據采集器導出網(wǎng)頁(yè)數據
　　先傳網(wǎng)頁(yè)數據采集器，下載網(wǎng)頁(yè)數據采集，然后導出成需要的格式。本文中使用
　　它是一個(gè)簡(jiǎn)單而強大的優(yōu)采云采集器。下面是一個(gè)完整的優(yōu)采云采集和導出網(wǎng)頁(yè)數據的例子。例子中的采集是趕集線(xiàn)上房地產(chǎn)-店鋪-深圳-南山類(lèi)下所有店鋪的信息。
　　示例網(wǎng)站：
　　第 1 步：創(chuàng )建一個(gè) 采集任務(wù)
　　1）進(jìn)入主界面，選擇“自定義模式”
　　如何導出網(wǎng)頁(yè)數據，以趕集網(wǎng)采集為例圖2
　　2) 將要為采集的網(wǎng)址的網(wǎng)址復制粘貼到網(wǎng)址輸入框中，點(diǎn)擊“保存網(wǎng)址”
　　如何導出網(wǎng)頁(yè)數據，以趕集網(wǎng)采集為例圖3
　　第 2 步：創(chuàng )建翻頁(yè)循環(huán)
　　1) 在頁(yè)面右上角，打開(kāi)“流程”，顯示“流程設計器”和“自定義當前操作”兩個(gè)部分。將頁(yè)面下拉至最下方，點(diǎn)擊“下一頁(yè)”按鈕，在右側的操作提示框中，選擇“循環(huán)點(diǎn)擊下一頁(yè)”
　　如何導出網(wǎng)頁(yè)數據，以趕集網(wǎng)采集為例圖4
　　
　　第 3 步：創(chuàng )建列表循環(huán)
　　1) 移動(dòng)鼠標選擇頁(yè)面上的第一個(gè)店鋪鏈接。選中后，系統會(huì )自動(dòng)識別頁(yè)面中其他類(lèi)似的鏈接。在右側的操作提示框中，選擇“全選”
　　如何導出網(wǎng)頁(yè)數據，以趕集網(wǎng)采集為例圖5
　　2）選擇“循環(huán)通過(guò)每個(gè)鏈接”創(chuàng )建一個(gè)列表循環(huán)
　　如何導出網(wǎng)頁(yè)數據，以趕集網(wǎng)采集為例圖6
　　第四步：提取店鋪信息
　　1）創(chuàng )建列表循環(huán)后，系統會(huì )自動(dòng)點(diǎn)擊第一個(gè)店鋪鏈接進(jìn)入店鋪詳情頁(yè)面。點(diǎn)擊所需的字段信息，在右側的操作提示框中，選擇“采集該元素的文本”
　　如何導出網(wǎng)頁(yè)數據，以趕集網(wǎng)采集為例圖7
　　2）字段信息選擇完成后，選擇對應字段，自定義字段名稱(chēng)。完成后點(diǎn)擊左上角的“Save and Launch”啟動(dòng)采集任務(wù)
　　如何導出網(wǎng)頁(yè)數據，以趕集網(wǎng)采集為例圖8
　　3) 選擇“啟動(dòng)本地采集”
　　如何導出網(wǎng)頁(yè)數據，以趕集網(wǎng)采集為例
　　9
　　第 5 步：數據采集和導出
　　1）采集完成后會(huì )彈出提示，選擇“導出數據”
　　如何導出網(wǎng)頁(yè)數據，以趕集網(wǎng)采集為例圖10
　　2）選擇“合適的導出方式”導出采集好店鋪信息數據
　　
　　如何導出網(wǎng)頁(yè)數據，以趕集網(wǎng)采集為例圖11
　　3）這里我們選擇excel作為導出格式，數據導出如下圖
　　如何導出網(wǎng)頁(yè)數據，以趕集網(wǎng)采集為例圖12
　　經(jīng)過(guò)以上操作，我們采集就到了趕集網(wǎng)的南山門(mén)店信息數據。網(wǎng)站上其他公共數據的基本采集步驟相同。有些網(wǎng)頁(yè)比較復雜（涉及點(diǎn)擊、登錄、翻頁(yè)、識別驗證碼、瀑布流、Ajax），可以在優(yōu)采云中設置一些高級選項。
　　數據采集完成后，我們可以將數據導出，為以后的數據分析和挖掘提供數據支持。如上圖所示，優(yōu)采云目前支持的導出格式包括excel 2007、excel 2003、csv文件、HTML文件和導出到數據庫。
　　3.通過(guò)excel導出網(wǎng)頁(yè)數據
　　1）打開(kāi)excel（本文以2010為例），點(diǎn)擊“數據”中的“From 網(wǎng)站”，在彈出的窗口中，在地址欄中輸入目標URL，點(diǎn)擊“Go”，窗口將打開(kāi)將跳轉到目標頁(yè)面
　　如何導出網(wǎng)頁(yè)數據，以趕集網(wǎng)采集為例圖13
　　2）將鼠標移動(dòng)到對話(huà)框中網(wǎng)頁(yè)表格的左上角，會(huì )出現一個(gè)黃底黑色箭頭，表示Excel已經(jīng)識別出該網(wǎng)頁(yè)上的表格。點(diǎn)擊箭頭，箭頭會(huì )變成綠色的對勾，表示選表成功，最后點(diǎn)擊下方的“導入”，如下圖：
　　如何導出網(wǎng)頁(yè)數據，以趕集網(wǎng)采集為例圖14
　　3）選擇放置數據的工作表后，點(diǎn)擊“確定”，網(wǎng)頁(yè)數據就會(huì )導出到這個(gè)工作表中。
　　4）這種方法獲取的數據需要等待很長(cháng)時(shí)間，容易出錯。最好使用采集器來(lái)高效便捷地導出數據。相關(guān) 采集教程：
　　美團商業(yè)資訊采集
　　58城市資訊采集
　　人民網(wǎng)商戶(hù)采集
　　優(yōu)采云——70萬(wàn)用戶(hù)選擇的網(wǎng)頁(yè)數據采集器。
　　1.操作簡(jiǎn)單，任何人都可以使用：不需要技術(shù)背景，只要能上網(wǎng)采集即可。完成流程可視化，點(diǎn)擊鼠標完成操作，2分鐘快速上手。
　　2、功能強大，任意網(wǎng)站可選：對于點(diǎn)擊、登錄、翻頁(yè)、身份驗證碼、瀑布流、Ajax腳本異步加載數據，所有頁(yè)面都可以通過(guò)簡(jiǎn)單設置采集。
　　3.云采集，也可以關(guān)機。配置采集任務(wù)后，可以將其關(guān)閉，并可以在云端執行任務(wù)。龐大的云采集集群24*7不間斷運行，無(wú)需擔心IP阻塞和網(wǎng)絡(luò )中斷。
　　4、免費功能+增值服務(wù)，按需選擇。免費版具有滿(mǎn)足用戶(hù)基本采集需求的所有功能。同時(shí)設置一些增值服務(wù)（如私有云），滿(mǎn)足高端付費企業(yè)用戶(hù)的需求。查看全部

　　核心方法:用js來(lái)實(shí)現那些數據結構及算法—目錄
　　讓我告訴你我個(gè)人對這本書(shū)的看法。數據結構的介紹不夠深入細致，對于那些主修計算機專(zhuān)業(yè)的前端從業(yè)者來(lái)說(shuō)非常雞肋。對于那些不是計算機專(zhuān)業(yè)并且從未接觸過(guò)數據結構的前端編碼人員。解釋很不具體，很多內容只是幾筆而已，完全沒(méi)有代表性。思路的解釋不是很清楚，但是每一步都列出來(lái)了，但其實(shí)每一步都是單獨列出來(lái)的。它沒(méi)有任何幫助，我可以自己查看代碼并使用您所說(shuō)的。當然，我在網(wǎng)上也找到了很多類(lèi)似這個(gè)系列的文章，大部分都是基于本書(shū)的代碼，但是要么代碼完全復制，
　　所以，想寫(xiě)下自己的理解，自己對這個(gè)數據結構的想法，每一行代碼在上下文中的作用以及學(xué)習過(guò)程中彼此的影響。希望大家在學(xué)習數據結構的時(shí)候能走的輕松一點(diǎn)。學(xué)習的過(guò)程中，有沒(méi)有看懂的地方，書(shū)里不好理解的地方都是自己畫(huà)的，自己找資料，再回來(lái)結合代碼給個(gè)“自己-thinking”的解釋還不錯。
　　終于完成了所有關(guān)于使用js實(shí)現數據結構的內容，耗時(shí)一個(gè)多月近40個(gè)小時(shí)，共16篇文章。里面有最基礎的js數組的詳細講解。還有非線(xiàn)性哈希表、樹(shù)和圖。其實(shí)對于使用js實(shí)現數據結構，個(gè)人覺(jué)得需要學(xué)習的是數據結構的思想。一旦你理解了這個(gè)數據結構的思想，那么，當然，實(shí)現代碼只是時(shí)間問(wèn)題。這個(gè)系列的所有內容都是我一個(gè)字一個(gè)字打出來(lái)的，包括書(shū)中的代碼和我自己的評論。當然，一些概念性的問(wèn)題來(lái)自這本書(shū)。文中附有信息鏈接。
　　那么，如果你有不明白的地方，或者在閱讀的時(shí)候感覺(jué)不清楚，希望你能留言?；ハ鄬W(xué)習。
　　哦，是的，讓我們談?wù)勎艺J為這個(gè)系列的重點(diǎn)。重點(diǎn)是最后 6 篇文章和前 3 篇文章（Array、hashMap、Tree 和 Graph）。而對于前面的棧、隊列等是你學(xué)習后面的基礎，因為前面的數據結構都是在樹(shù)、圖等數據結構的實(shí)現中用到的。
　　

　　所以，如果你想學(xué)習數據結構。所以我個(gè)人認為這個(gè)系列文章是一個(gè)好的開(kāi)始。你可能會(huì )問(wèn)，看完這個(gè)系列文章我會(huì )學(xué)到什么？我真的了解數據結構嗎？當然不是。一張照片就足以寫(xiě)一本厚厚的書(shū)。所以，看完這個(gè)系列，最多只是打開(kāi)數據結構的門(mén)，邁出右腳（或左腳）去探索門(mén)內的世界，甚至沒(méi)有走進(jìn)這扇門(mén)。
　　最后說(shuō)一下這個(gè)系列的使用和大概的閱讀時(shí)間。
　　使用方法：首先將代碼復制到本地，去掉所有注釋?zhuān)缓笥梦恼麻喿x代碼。然后自己敲代碼，有什么不懂的就去評論區。以下是參加本系列的說(shuō)明。
　　花費時(shí)間：每天一小時(shí)，大約一個(gè)月。當然，不僅僅是閱讀，而是按照文章中的代碼和注釋來(lái)完整地過(guò)一遍我的腦海。
　　好吧，讓我們停止羅嗦。就去這里吧?？梢运闶墙o自己的6分答題卡。
　　

　　這是目錄：
　　數據結構部分（已完成）：
　　附：算法部分基本完成，比如搜索和排序算法，比如函數式編程。這些文章文章強烈推薦大家仔細閱讀，因為如果你對這方面沒(méi)有深入研究過(guò)，那么在你閱讀并研究了下面的文章之后，會(huì )有一個(gè)很多收據。當然，這里有一篇文章文章我個(gè)人的看法是，你可以簡(jiǎn)單的看一下，不過(guò)看不懂也沒(méi)關(guān)系，因為已經(jīng)是算法比較深入的部分了，這就是js算法05（算法模式02-動(dòng)態(tài)規劃與貪心算法）本文的第一眼，如果你有算法基礎，那就當我沒(méi)說(shuō)吧。
　　算法部分：
　　最后，謝謝！
　　核心方法:網(wǎng)頁(yè)數據導出excel的方法
　　如何獲取和導出網(wǎng)頁(yè)數據并保存在本地？
　　如何將網(wǎng)頁(yè)數據（文字、圖片等）導出并保存在本地，以便我想看的時(shí)候可以看或者跟進(jìn)更深層次的數據處理？導出網(wǎng)頁(yè)數據一般有幾種方法。
　　1.通過(guò)瀏覽器導出網(wǎng)頁(yè)數據
　　具體操作：打開(kāi)網(wǎng)頁(yè)后，在網(wǎng)頁(yè)空白處右擊，在下拉列表中選擇“另存為”，然后在彈出的保存窗口中選擇保存類(lèi)型為“所有網(wǎng)頁(yè)”。選擇保存位置并確認，保存后會(huì )自動(dòng)保存兩個(gè)文件，一個(gè)是網(wǎng)址，一個(gè)是保存網(wǎng)頁(yè)內容元素。
　　如何導出網(wǎng)頁(yè)數據，以趕集網(wǎng)采集為例圖1
　　2.通過(guò)網(wǎng)頁(yè)數據采集器導出網(wǎng)頁(yè)數據
　　先傳網(wǎng)頁(yè)數據采集器，下載網(wǎng)頁(yè)數據采集，然后導出成需要的格式。本文中使用
　　它是一個(gè)簡(jiǎn)單而強大的優(yōu)采云采集器。下面是一個(gè)完整的優(yōu)采云采集和導出網(wǎng)頁(yè)數據的例子。例子中的采集是趕集線(xiàn)上房地產(chǎn)-店鋪-深圳-南山類(lèi)下所有店鋪的信息。
　　示例網(wǎng)站：
　　第 1 步：創(chuàng )建一個(gè) 采集任務(wù)
　　1）進(jìn)入主界面，選擇“自定義模式”
　　如何導出網(wǎng)頁(yè)數據，以趕集網(wǎng)采集為例圖2
　　2) 將要為采集的網(wǎng)址的網(wǎng)址復制粘貼到網(wǎng)址輸入框中，點(diǎn)擊“保存網(wǎng)址”
　　如何導出網(wǎng)頁(yè)數據，以趕集網(wǎng)采集為例圖3
　　第 2 步：創(chuàng )建翻頁(yè)循環(huán)
　　1) 在頁(yè)面右上角，打開(kāi)“流程”，顯示“流程設計器”和“自定義當前操作”兩個(gè)部分。將頁(yè)面下拉至最下方，點(diǎn)擊“下一頁(yè)”按鈕，在右側的操作提示框中，選擇“循環(huán)點(diǎn)擊下一頁(yè)”
　　如何導出網(wǎng)頁(yè)數據，以趕集網(wǎng)采集為例圖4
　　

　　第 3 步：創(chuàng )建列表循環(huán)
　　1) 移動(dòng)鼠標選擇頁(yè)面上的第一個(gè)店鋪鏈接。選中后，系統會(huì )自動(dòng)識別頁(yè)面中其他類(lèi)似的鏈接。在右側的操作提示框中，選擇“全選”
　　如何導出網(wǎng)頁(yè)數據，以趕集網(wǎng)采集為例圖5
　　2）選擇“循環(huán)通過(guò)每個(gè)鏈接”創(chuàng )建一個(gè)列表循環(huán)
　　如何導出網(wǎng)頁(yè)數據，以趕集網(wǎng)采集為例圖6
　　第四步：提取店鋪信息
　　1）創(chuàng )建列表循環(huán)后，系統會(huì )自動(dòng)點(diǎn)擊第一個(gè)店鋪鏈接進(jìn)入店鋪詳情頁(yè)面。點(diǎn)擊所需的字段信息，在右側的操作提示框中，選擇“采集該元素的文本”
　　如何導出網(wǎng)頁(yè)數據，以趕集網(wǎng)采集為例圖7
　　2）字段信息選擇完成后，選擇對應字段，自定義字段名稱(chēng)。完成后點(diǎn)擊左上角的“Save and Launch”啟動(dòng)采集任務(wù)
　　如何導出網(wǎng)頁(yè)數據，以趕集網(wǎng)采集為例圖8
　　3) 選擇“啟動(dòng)本地采集”
　　如何導出網(wǎng)頁(yè)數據，以趕集網(wǎng)采集為例
　　9
　　第 5 步：數據采集和導出
　　1）采集完成后會(huì )彈出提示，選擇“導出數據”
　　如何導出網(wǎng)頁(yè)數據，以趕集網(wǎng)采集為例圖10
　　2）選擇“合適的導出方式”導出采集好店鋪信息數據
　　

　　如何導出網(wǎng)頁(yè)數據，以趕集網(wǎng)采集為例圖11
　　3）這里我們選擇excel作為導出格式，數據導出如下圖
　　如何導出網(wǎng)頁(yè)數據，以趕集網(wǎng)采集為例圖12
　　經(jīng)過(guò)以上操作，我們采集就到了趕集網(wǎng)的南山門(mén)店信息數據。網(wǎng)站上其他公共數據的基本采集步驟相同。有些網(wǎng)頁(yè)比較復雜（涉及點(diǎn)擊、登錄、翻頁(yè)、識別驗證碼、瀑布流、Ajax），可以在優(yōu)采云中設置一些高級選項。
　　數據采集完成后，我們可以將數據導出，為以后的數據分析和挖掘提供數據支持。如上圖所示，優(yōu)采云目前支持的導出格式包括excel 2007、excel 2003、csv文件、HTML文件和導出到數據庫。
　　3.通過(guò)excel導出網(wǎng)頁(yè)數據
　　1）打開(kāi)excel（本文以2010為例），點(diǎn)擊“數據”中的“From 網(wǎng)站”，在彈出的窗口中，在地址欄中輸入目標URL，點(diǎn)擊“Go”，窗口將打開(kāi)將跳轉到目標頁(yè)面
　　如何導出網(wǎng)頁(yè)數據，以趕集網(wǎng)采集為例圖13
　　2）將鼠標移動(dòng)到對話(huà)框中網(wǎng)頁(yè)表格的左上角，會(huì )出現一個(gè)黃底黑色箭頭，表示Excel已經(jīng)識別出該網(wǎng)頁(yè)上的表格。點(diǎn)擊箭頭，箭頭會(huì )變成綠色的對勾，表示選表成功，最后點(diǎn)擊下方的“導入”，如下圖：
　　如何導出網(wǎng)頁(yè)數據，以趕集網(wǎng)采集為例圖14
　　3）選擇放置數據的工作表后，點(diǎn)擊“確定”，網(wǎng)頁(yè)數據就會(huì )導出到這個(gè)工作表中。
　　4）這種方法獲取的數據需要等待很長(cháng)時(shí)間，容易出錯。最好使用采集器來(lái)高效便捷地導出數據。相關(guān) 采集教程：
　　美團商業(yè)資訊采集
　　58城市資訊采集
　　人民網(wǎng)商戶(hù)采集
　　優(yōu)采云——70萬(wàn)用戶(hù)選擇的網(wǎng)頁(yè)數據采集器。
　　1.操作簡(jiǎn)單，任何人都可以使用：不需要技術(shù)背景，只要能上網(wǎng)采集即可。完成流程可視化，點(diǎn)擊鼠標完成操作，2分鐘快速上手。
　　2、功能強大，任意網(wǎng)站可選：對于點(diǎn)擊、登錄、翻頁(yè)、身份驗證碼、瀑布流、Ajax腳本異步加載數據，所有頁(yè)面都可以通過(guò)簡(jiǎn)單設置采集。
　　3.云采集，也可以關(guān)機。配置采集任務(wù)后，可以將其關(guān)閉，并可以在云端執行任務(wù)。龐大的云采集集群24*7不間斷運行，無(wú)需擔心IP阻塞和網(wǎng)絡(luò )中斷。
　　4、免費功能+增值服務(wù)，按需選擇。免費版具有滿(mǎn)足用戶(hù)基本采集需求的所有功能。同時(shí)設置一些增值服務(wù)（如私有云），滿(mǎn)足高端付費企業(yè)用戶(hù)的需求。

直觀(guān):無(wú)規則采集器列表算法的簡(jiǎn)單變式（上）

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 108 次瀏覽 ? 2022-11-03 16:16 ? 來(lái)自相關(guān)話(huà)題

　　直觀(guān):無(wú)規則采集器列表算法的簡(jiǎn)單變式（上）
　　無(wú)規則采集器列表算法的簡(jiǎn)單變式（-infinite-mistakes-and-powerful-engineering/）可以看看上面那個(gè)live。我看那個(gè)live時(shí)正值自己的ea一周年，很感動(dòng)，可以入個(gè)門(mén)。此外，英語(yǔ)好的話(huà)，我推薦theartofpowerfultraining這個(gè)公眾號。我自己也花了半個(gè)月在里面每周翻譯一點(diǎn)（包括我自己很多想推薦的機器學(xué)習/人工智能/深度學(xué)習/新機器學(xué)習/深度學(xué)習庫/seo/web方面的好東西）。
　　
　　寫(xiě)東西速度比較慢，而且翻譯水平也比較差。非程序員的推薦/the-art-of-powerful-training/我曾經(jīng)做過(guò)網(wǎng)頁(yè)抓取的功能項目，用它搭了三個(gè)同類(lèi)網(wǎng)站抓取。對于入門(mén)很有幫助。如果經(jīng)濟允許，想接觸人工智能的話(huà)，建議接觸下國外ai領(lǐng)域新近發(fā)展的一些學(xué)者（計算機，自然語(yǔ)言處理，最好是cs相關(guān)專(zhuān)業(yè)），要不看論文資料很容易過(guò)于純理論太枯燥。
　　
　　國內的話(huà)，歡迎關(guān)注我校的計算機相關(guān)專(zhuān)業(yè)的計算機系學(xué)生的開(kāi)源項目。畢竟我校名氣大，好多信息技術(shù)方面的“大?！焙汀靶缕妗毙枰恍┑烷T(mén)檻的開(kāi)源項目做“中介”，也給了我一些新的想法和見(jiàn)識。（cs289和2895這兩個(gè)就是網(wǎng)頁(yè)抓取模擬程序的開(kāi)源，不知道國內有沒(méi)有）。國內做機器學(xué)習的多，還是學(xué)校里的效果好。最后，關(guān)于深度學(xué)習的語(yǔ)言實(shí)現（python、matlab/sylizip、caffe等），我就推薦本人自己寫(xiě)的-learning/caffe的文檔吧。
　　因為還是新人，水平差，和github工程師合作，想偷懶，可以用scikit-learn之類(lèi)，不過(guò)可能需要定制類(lèi)型。按照例子的業(yè)務(wù)邏輯拆分自己的list，雖然我還是喜歡有類(lèi)型，但這種說(shuō)法有點(diǎn)太趕了。僅作參考。不過(guò)通常數據預處理的需求沒(méi)有像是高級語(yǔ)言那么復雜，解決數據預處理問(wèn)題再做預處理就好了。--。查看全部

　　直觀(guān):無(wú)規則采集器列表算法的簡(jiǎn)單變式（上）
　　無(wú)規則采集器列表算法的簡(jiǎn)單變式（-infinite-mistakes-and-powerful-engineering/）可以看看上面那個(gè)live。我看那個(gè)live時(shí)正值自己的ea一周年，很感動(dòng)，可以入個(gè)門(mén)。此外，英語(yǔ)好的話(huà)，我推薦theartofpowerfultraining這個(gè)公眾號。我自己也花了半個(gè)月在里面每周翻譯一點(diǎn)（包括我自己很多想推薦的機器學(xué)習/人工智能/深度學(xué)習/新機器學(xué)習/深度學(xué)習庫/seo/web方面的好東西）。
　　

　　寫(xiě)東西速度比較慢，而且翻譯水平也比較差。非程序員的推薦/the-art-of-powerful-training/我曾經(jīng)做過(guò)網(wǎng)頁(yè)抓取的功能項目，用它搭了三個(gè)同類(lèi)網(wǎng)站抓取。對于入門(mén)很有幫助。如果經(jīng)濟允許，想接觸人工智能的話(huà)，建議接觸下國外ai領(lǐng)域新近發(fā)展的一些學(xué)者（計算機，自然語(yǔ)言處理，最好是cs相關(guān)專(zhuān)業(yè)），要不看論文資料很容易過(guò)于純理論太枯燥。
　　

　　國內的話(huà)，歡迎關(guān)注我校的計算機相關(guān)專(zhuān)業(yè)的計算機系學(xué)生的開(kāi)源項目。畢竟我校名氣大，好多信息技術(shù)方面的“大?！焙汀靶缕妗毙枰恍┑烷T(mén)檻的開(kāi)源項目做“中介”，也給了我一些新的想法和見(jiàn)識。（cs289和2895這兩個(gè)就是網(wǎng)頁(yè)抓取模擬程序的開(kāi)源，不知道國內有沒(méi)有）。國內做機器學(xué)習的多，還是學(xué)校里的效果好。最后，關(guān)于深度學(xué)習的語(yǔ)言實(shí)現（python、matlab/sylizip、caffe等），我就推薦本人自己寫(xiě)的-learning/caffe的文檔吧。
　　因為還是新人，水平差，和github工程師合作，想偷懶，可以用scikit-learn之類(lèi)，不過(guò)可能需要定制類(lèi)型。按照例子的業(yè)務(wù)邏輯拆分自己的list，雖然我還是喜歡有類(lèi)型，但這種說(shuō)法有點(diǎn)太趕了。僅作參考。不過(guò)通常數據預處理的需求沒(méi)有像是高級語(yǔ)言那么復雜，解決數據預處理問(wèn)題再做預處理就好了。--。

匯總:B站的數據怎么自定義采集，只篩選那些自己想要的數據？

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 206 次瀏覽 ? 2022-11-03 11:39 ? 來(lái)自相關(guān)話(huà)題

　　匯總:B站的數據怎么自定義采集，只篩選那些自己想要的數據？
　　很多媒體人可能會(huì )遇到這樣的問(wèn)題，需要對某些視頻進(jìn)行綜合分析，但目前市面上的大部分工具都可以實(shí)現對視頻博主的綜合分析。那么如果你想分析一些特定的視頻呢？
　　這個(gè)問(wèn)題需要借助專(zhuān)業(yè)的數據分析平臺來(lái)解決。今天給大家推薦的是Pepper Data的【Pepper Aggregation】采集平臺。平臺的自定義采集有以下幾種模式：
　　一：指定關(guān)鍵詞采集視頻模式
　　在采集模式下，勾選【指定關(guān)鍵詞采集視頻】，輸入關(guān)鍵詞在B站搜索，采集所有收錄關(guān)鍵詞的結果。最多可以設置 200 個(gè) 關(guān)鍵詞。
　　根據自定義的采集模板，采集收到的數據表如下：
　　另外，您可以自定義配置欄，可以根據自己的需要進(jìn)行配置，勾選需要的數據項，過(guò)濾掉不必要的選項。
　　
　　在此數據的基礎上，您可以進(jìn)一步點(diǎn)擊表格頂部的【過(guò)濾條件】-【添加條件】自定義采集。
　　2.指定UP主采集模式
　　在采集模式下，選擇【指定UP主采集視頻】，輸入UP主的用戶(hù)賬號（MID），對本次發(fā)布的所有視頻進(jìn)行完整的采集 UP Master，最多 500 UP Master 的用戶(hù)帳號（MID）。
　　Pepper 數據與其他平臺略有不同。也可以手動(dòng)輸入，也可以下載Excel模板批量導入。
　　
　　也可以直接在模板中填寫(xiě)UP主頁(yè)的URL地址，系統會(huì )自動(dòng)解析UP主的用戶(hù)賬號：
　　3.指定視頻鏈接采集模式
　　在指定視頻鏈接采集模式下，輸入視頻URL地址，對指定視頻采集進(jìn)行數據處理，最多可設置500個(gè)視頻地址，與指定UP主相同采集模式，也可以使用Excel模板批量導入。
　　由于B站視頻地址中有AVID和BVID兩種采集模式，系統會(huì )自動(dòng)將AVID轉換為BVID，操作過(guò)程中也省略了手動(dòng)轉換步驟。
　　綜上所述，Pepper Data【B站數據定制采集】流程清晰，操作簡(jiǎn)單。只需選擇你需要的規則采集并配置對應的采集關(guān)鍵詞即可完成數據采集。即使是非技術(shù)人員也可以輕松快速地采集獲取他們想要的數據。
　　還可以省去數據采集開(kāi)發(fā)環(huán)節，有利于各大主流平臺的長(cháng)期維護，數據接入一鍵完成，助您快速實(shí)現業(yè)務(wù)需求！
　　總結:織夢(mèng)篩選功能怎么弄？詳細說(shuō)明，謝謝！
　　織夢(mèng)內容過(guò)濾（織夢(mèng)內容頁(yè)面調用）
　　軟件開(kāi)發(fā)2022-08-22T22:01:12 13
　　今天給大家分享織夢(mèng)內容過(guò)濾的知識，也會(huì )講解織夢(mèng)內容頁(yè)面的調用。如果你碰巧解決了你現在面臨的問(wèn)題，別忘了關(guān)注本站，從現在開(kāi)始！織夢(mèng)如何獲取過(guò)濾功能？詳細指導，謝謝！織夢(mèng)多條件過(guò)濾功能實(shí)現我們在前臺實(shí)現了過(guò)濾功能，雖然沒(méi)有添加價(jià)格和尺寸這兩種類(lèi)型，這是因為我想修復好它們，因為它們在model Type 是數字類(lèi)型，而不是其他三個(gè)（品牌、平臺和顯卡）是選項類(lèi)型?，F在前臺已經(jīng)準備好了，我們開(kāi)始后臺功能。
　　今天給大家分享織夢(mèng)內容過(guò)濾的知識，也會(huì )講解織夢(mèng)內容頁(yè)面的調用。如果你碰巧解決了你現在面臨的問(wèn)題，別忘了關(guān)注本站，從現在開(kāi)始！
　　織夢(mèng)如何獲取過(guò)濾功能？詳細指導，謝謝！
　　織夢(mèng)多條件過(guò)濾功能實(shí)現
　　我們在前臺實(shí)現了過(guò)濾功能，雖然沒(méi)有添加價(jià)格和尺寸這兩種類(lèi)型，這是因為我想很好地修復它們，因為它們在模型中使用的類(lèi)型是數字類(lèi)型，而不是其他三（品牌、平臺和顯卡）是選項類(lèi)型。
　　現在前臺已經(jīng)準備好了，我們開(kāi)始后臺功能。
　　我使用的具體后臺是advancedsearch.php的搜索功能來(lái)實(shí)現的。
　　我們復制一個(gè)advancedsearch.php模板，默認的advancedserach.php模板是/templets/default/advancesearch.htm，我們把這個(gè)模板復制到我們自定義的模板文件夾/templets/jingdong，名字叫filter_tmp.htm。
　　然后進(jìn)入后臺，在“內容模型管理”中選擇需要搜索的模型，然后點(diǎn)擊模型后面的放大鏡圖標，在“附件表中自定義搜索的字段”中選擇需要搜索的字段，自定義搜索結果模板頁(yè)面，寫(xiě)上我們剛才復制的模板名稱(chēng)，叫filter_tmp.htm，OK。
　　這里可以測試一下搜索是否可以正常使用。
　　不過(guò)貌似系統自帶織夢(mèng)。我已經(jīng)嘗試了很多次，但它不起作用。跟蹤了一下，好像沒(méi)有查詢(xún)到附加表，所以在advancedsearch.php的第218行，原來(lái)的代碼是
　　$query = "SELECT main.id ASaid,main.*,main.description AS description1, type.*
　　FROM $maintable 主要
　　LEFT JOIN #@__arctype type ON type.id = main.typeid
　　左連接 $addontable 插件 ON addon.aid = main.id
　　$where $orderby";
　　在type.*后面加一行addon.*，變成如下代碼
　　$query = "SELECT main.id ASaid,main.*,main.description AS description1, type.*,addon.*
　　FROM $maintable 主要
　　LEFT JOIN #@__arctype type ON type.id = main.typeid
　　左連接 $addontable 插件 ON addon.aid = main.id
　　$where $orderby";
　　然后有124行要添加 ${$var}=iconv("utf-8","gb2312",${$var}); 否則會(huì )造成中文亂碼。
　　還有一個(gè)就是如果使用()英文括號，要小心，因為會(huì )被secure sql過(guò)濾掉。
　　下面，我簡(jiǎn)單制作了filter_tmp.htm，大家可以參考一下。
　　{dede:數據列表}
　　div
　　strongtitle: /strong{dede:field.title/}br /
　　strongBrand: /strong{dede:field.pinpai/}br /
　　strongPrice: /strong{dede:field.jiage/}br /
　　strongSize: /strong{dede:field.chicun/}br /
　　強平臺：/strong{dede:field.pingtai/}br /
　　strong顯卡：/strong{dede:field.xianka/}br /
　　/div
　　{/dede:數據列表}
　　{dede:pagelist listsize='5'/}
　　但我們最終希望將此頁(yè)面“嵌入”到 filter.htm 中，即最終列表頁(yè)面。
　　現在我們打開(kāi)過(guò)濾器模板文件，在底部添加一個(gè)div，并將id設置為result。這是存儲最終過(guò)濾結果的地方。
　　然后打開(kāi)filter.js，這個(gè)js里面寫(xiě)了以下關(guān)鍵點(diǎn)。
　　織夢(mèng)dede采集方法教程
　　方法/步驟
　　1.首先，我們打開(kāi)織夢(mèng)背景，點(diǎn)擊
　　采集——采集節點(diǎn)管理——添加新節點(diǎn)
　　2.這里我們以采集normal文章為例，我們選擇normal文章，然后確認
　　3、我們進(jìn)入了采集的設置頁(yè)面，填寫(xiě)節點(diǎn)名，也就是給新節點(diǎn)起個(gè)名字，這里隨便填。
　　
　　然后打開(kāi)你要采集的文章列表頁(yè)面，打開(kāi)這個(gè)頁(yè)面的鏈接，右鍵-查看源文件
　　找到目標頁(yè)面編碼，就在字符集之后
　　4.頁(yè)面的基本信息一般會(huì )被忽略，如圖
　　5.現在我們來(lái)填寫(xiě)列表URL獲取規則
　　看列表第一頁(yè)的地址文章jianzhanxinde/list_49_1.html
　　對比第二頁(yè)的地址 jinzhanxinde/list_49_2.html
　　我們發(fā)現除了49_后面的數字之外它們是一樣的，所以我們可以寫(xiě)
　　/建站新德/list_49_(*).html
　　只需將 1 替換為 (*)
　　由于這里只有2頁(yè)，我們從1填到2
　　每頁(yè)的增量當然是1，2-1...等于1
　　到這里我們就完成了
　　6.可能你的一些采集列表沒(méi)有規則，只能手動(dòng)指定列表URL，如圖
　　7. 每行寫(xiě)一個(gè)頁(yè)地址
　　寫(xiě)完列表規則，我們開(kāi)始寫(xiě)文章 URL匹配規則，回到文章列表頁(yè)面
　　右鍵查看源文件
　　找到HTML開(kāi)頭的區域，就是找到列表開(kāi)頭的文章標記。
　　8.我們可以很容易地找到如圖所示的“新聞列表”
　　. 從這里開(kāi)始，以下是文章列表
　　讓我們在文章列表的末尾找到 HTML
　　9. 這就是它，一個(gè)容易找到的標志
　　如果鏈接收錄圖像：
　　不處理
　　采集是縮略圖
　　在這里你可以根據自己的需要選擇
　　再次過(guò)濾區域 URL：
　?。ㄊ褂谜齽t表達式）
　　必須收錄：
　?。▋?yōu)先級高于后者）
　　不能收錄：
　　打開(kāi)源文件，我們可以清楚的看到文章鏈接都是以.html結尾的
　　所以，我們在必須收錄之后填寫(xiě).html
　　如果遇到一些麻煩的列表，也可以填寫(xiě)以下不能收錄的
　　8.我們點(diǎn)擊保存設置進(jìn)入下一步，可以看到我們得到的文章 URL
　　看到這些都正確，我們保存信息，進(jìn)入下一步設置內容字段獲取規則
　　看看文章有沒(méi)有分頁(yè)，輸入一篇文章文章就可以了。. 我們看到這里的文章沒(méi)有分頁(yè)
　　所以這里我們默認
　　9. 我們現在正在尋找文章標題等
　　隨便輸入一個(gè)文章，右鍵查看源文件
　　看看這些
　　10.根據源碼填寫(xiě)
　　11.我們來(lái)填寫(xiě)文章的內容的開(kāi)頭和結尾
　　如上，找到開(kāi)始和結束標記
　　12.開(kāi)始：
　　12.結束：
　　13.如果要過(guò)濾文章中的內容，請寫(xiě)過(guò)濾規則，例如過(guò)濾文章中的圖片
　　選擇通用規則
　　14.再次檢查IMG，然后確認
　　
　　15.這樣，我們過(guò)濾文本中的圖片
　　設置好后點(diǎn)擊保存設置并預覽
　　這樣的采集規則已經(jīng)寫(xiě)好了。這很簡(jiǎn)單。有些網(wǎng)站很難寫(xiě)，但需要付出更多的努力。
　　16.我們點(diǎn)擊保存開(kāi)始采集--開(kāi)始采集網(wǎng)頁(yè)
　　過(guò)了一會(huì )兒，采集結束了
　　17 讓我們看看文章我們采集到
　　18.好像成功了，我們來(lái)導出數據
　　織夢(mèng)cms如何刪除后臺等待審核的過(guò)濾詞文章
　　在后臺的基本設置中，有一個(gè)設置讓你設置停用詞，然后他們就不能發(fā)布停用詞的內容了。
　　請求接受
　　織夢(mèng)如何過(guò)濾消息模板中的重復數據
　　在diy.php文件中，在插入消息數據庫之前，檢查提交的標題或電話(huà)信息是否重復。如果重復，不要插入，提示相同信息已經(jīng)存在。
　　校驗是使用提交的title或者phone字段查詢(xún)消息表單，如果匹配則證明存在
　　織夢(mèng)采集字符的功能介紹
　　1.一鍵安裝，全自動(dòng)采集
　　織夢(mèng)采集安裝非常簡(jiǎn)單方便，只需一分鐘即可啟動(dòng)采集，結合簡(jiǎn)單、健壯、靈活、開(kāi)源的dedecms程序，新手也可以快速上手，我們有專(zhuān)門(mén)的客服為企業(yè)客戶(hù)提供技術(shù)支持。
　　2.一個(gè)字采集，不用寫(xiě)采集規則
　　3.RSS采集，輸入RSS地址到采集內容
　　只要RSS訂閱地址由采集的網(wǎng)站提供，就可以通過(guò)RSS采集，只需要輸入RSS地址就可以方便地采集目標網(wǎng)站內容，無(wú)需編寫(xiě)采集規則，方便簡(jiǎn)單。
　　4.方向采集，精確采集標題，正文，作者，出處
　　定位采集只需要提供列表URL和文章URL即可智能采集指定網(wǎng)站或列內容，方便簡(jiǎn)單，寫(xiě)簡(jiǎn)單就能準確規則采集標題、正文、作者、來(lái)源。
　　5.各種偽原創(chuàng )和優(yōu)化方法來(lái)提高收錄率和排名
　　自動(dòng)標題、段落重排、高級混淆、自動(dòng)內鏈、內容過(guò)濾、URL過(guò)濾、同義詞替換、插入seo詞、關(guān)鍵詞添加鏈接等方法對采集返回文章進(jìn)行處理，提升采集文章原創(chuàng )的性能，有利于搜索引擎優(yōu)化，提高搜索引擎收錄、網(wǎng)站和關(guān)鍵詞的權重排名.
　　6.插件全自動(dòng)采集，無(wú)需人工干預
　　7.手動(dòng)發(fā)布文章也可以偽原創(chuàng )和搜索優(yōu)化處理
　　織夢(mèng)采集Xia不僅僅是一個(gè)采集插件，還是一個(gè)織夢(mèng)必備偽原創(chuàng )和搜索優(yōu)化插件，手工發(fā)布文章可以通過(guò)偽原創(chuàng )處理和織夢(mèng)采集xia的搜索優(yōu)化，可以對文章進(jìn)行同義詞替換，自動(dòng)內鏈，隨機插入關(guān)鍵詞 links 和文章收錄關(guān)鍵詞等會(huì )自動(dòng)添加指定鏈接的功能，是織夢(mèng) 的必備插件。
　　8、定期、定量地進(jìn)行采集偽原創(chuàng )SEO更新
　　該插件有兩種觸發(fā)采集方法，一種是在頁(yè)面中添加代碼，通過(guò)用戶(hù)訪(fǎng)問(wèn)觸發(fā)采集更新，另一種是遠程觸發(fā)我們提供的采集服務(wù)商業(yè)用戶(hù)。定量的采集更新可以定期安排，無(wú)需人工干預，無(wú)需人工干預。
　　9.定期定量更新待審稿件
　　即使你的數據庫里有上千篇文章文章，織夢(mèng)采集廈門(mén)也可以根據你的需要，在你設定的時(shí)間段內，每天定時(shí)定量的回顧和更新。
　　10.綁定織夢(mèng)采集節點(diǎn)，調度采集偽原創(chuàng )SEO更新
　　綁定織夢(mèng)采集節點(diǎn)的函數，這樣織夢(mèng)cms自帶的采集函數也可以自動(dòng)采集更新經(jīng)常。方便設置了采集規則的用戶(hù)定期更新采集。
　　織夢(mèng)批量刪除添加到內容中的圖片？
　　在 dede/article_add.php 中找到它
　　//跳轉URL的文檔強制為動(dòng)態(tài)
　　增加高于它
　　$body=preg_replace("/img.*?/si","",$body);
　　在 dede/article_edit.php 中找到它
　　//跳轉URL的文檔強制為動(dòng)態(tài)
　　增加高于它
　　$body=preg_replace("/img.*?/si","",$body);
　　如果你不使用它，只需添加 // 并將其注釋掉。
　　這個(gè)方法是過(guò)濾掉所有的圖片，希望對你有幫助。
　　織夢(mèng) 內容過(guò)濾和織夢(mèng) 內容頁(yè)面調用的介紹到此結束。你找到你需要的信息了嗎？如果您想了解更多相關(guān)信息，請記得采集并關(guān)注本站。
　　織夢(mèng)內容過(guò)濾
　　喬生170260
　　織夢(mèng)內容過(guò)濾織夢(mèng)系統如何替換網(wǎng)站內容查看全部

　　匯總:B站的數據怎么自定義采集，只篩選那些自己想要的數據？
　　很多媒體人可能會(huì )遇到這樣的問(wèn)題，需要對某些視頻進(jìn)行綜合分析，但目前市面上的大部分工具都可以實(shí)現對視頻博主的綜合分析。那么如果你想分析一些特定的視頻呢？
　　這個(gè)問(wèn)題需要借助專(zhuān)業(yè)的數據分析平臺來(lái)解決。今天給大家推薦的是Pepper Data的【Pepper Aggregation】采集平臺。平臺的自定義采集有以下幾種模式：
　　一：指定關(guān)鍵詞采集視頻模式
　　在采集模式下，勾選【指定關(guān)鍵詞采集視頻】，輸入關(guān)鍵詞在B站搜索，采集所有收錄關(guān)鍵詞的結果。最多可以設置 200 個(gè) 關(guān)鍵詞。
　　根據自定義的采集模板，采集收到的數據表如下：
　　另外，您可以自定義配置欄，可以根據自己的需要進(jìn)行配置，勾選需要的數據項，過(guò)濾掉不必要的選項。
　　

　　在此數據的基礎上，您可以進(jìn)一步點(diǎn)擊表格頂部的【過(guò)濾條件】-【添加條件】自定義采集。
　　2.指定UP主采集模式
　　在采集模式下，選擇【指定UP主采集視頻】，輸入UP主的用戶(hù)賬號（MID），對本次發(fā)布的所有視頻進(jìn)行完整的采集 UP Master，最多 500 UP Master 的用戶(hù)帳號（MID）。
　　Pepper 數據與其他平臺略有不同。也可以手動(dòng)輸入，也可以下載Excel模板批量導入。
　　

　　也可以直接在模板中填寫(xiě)UP主頁(yè)的URL地址，系統會(huì )自動(dòng)解析UP主的用戶(hù)賬號：
　　3.指定視頻鏈接采集模式
　　在指定視頻鏈接采集模式下，輸入視頻URL地址，對指定視頻采集進(jìn)行數據處理，最多可設置500個(gè)視頻地址，與指定UP主相同采集模式，也可以使用Excel模板批量導入。
　　由于B站視頻地址中有AVID和BVID兩種采集模式，系統會(huì )自動(dòng)將AVID轉換為BVID，操作過(guò)程中也省略了手動(dòng)轉換步驟。
　　綜上所述，Pepper Data【B站數據定制采集】流程清晰，操作簡(jiǎn)單。只需選擇你需要的規則采集并配置對應的采集關(guān)鍵詞即可完成數據采集。即使是非技術(shù)人員也可以輕松快速地采集獲取他們想要的數據。
　　還可以省去數據采集開(kāi)發(fā)環(huán)節，有利于各大主流平臺的長(cháng)期維護，數據接入一鍵完成，助您快速實(shí)現業(yè)務(wù)需求！
　　總結:織夢(mèng)篩選功能怎么弄？詳細說(shuō)明，謝謝！
　　織夢(mèng)內容過(guò)濾（織夢(mèng)內容頁(yè)面調用）
　　軟件開(kāi)發(fā)2022-08-22T22:01:12 13
　　今天給大家分享織夢(mèng)內容過(guò)濾的知識，也會(huì )講解織夢(mèng)內容頁(yè)面的調用。如果你碰巧解決了你現在面臨的問(wèn)題，別忘了關(guān)注本站，從現在開(kāi)始！織夢(mèng)如何獲取過(guò)濾功能？詳細指導，謝謝！織夢(mèng)多條件過(guò)濾功能實(shí)現我們在前臺實(shí)現了過(guò)濾功能，雖然沒(méi)有添加價(jià)格和尺寸這兩種類(lèi)型，這是因為我想修復好它們，因為它們在model Type 是數字類(lèi)型，而不是其他三個(gè)（品牌、平臺和顯卡）是選項類(lèi)型?，F在前臺已經(jīng)準備好了，我們開(kāi)始后臺功能。
　　今天給大家分享織夢(mèng)內容過(guò)濾的知識，也會(huì )講解織夢(mèng)內容頁(yè)面的調用。如果你碰巧解決了你現在面臨的問(wèn)題，別忘了關(guān)注本站，從現在開(kāi)始！
　　織夢(mèng)如何獲取過(guò)濾功能？詳細指導，謝謝！
　　織夢(mèng)多條件過(guò)濾功能實(shí)現
　　我們在前臺實(shí)現了過(guò)濾功能，雖然沒(méi)有添加價(jià)格和尺寸這兩種類(lèi)型，這是因為我想很好地修復它們，因為它們在模型中使用的類(lèi)型是數字類(lèi)型，而不是其他三（品牌、平臺和顯卡）是選項類(lèi)型。
　　現在前臺已經(jīng)準備好了，我們開(kāi)始后臺功能。
　　我使用的具體后臺是advancedsearch.php的搜索功能來(lái)實(shí)現的。
　　我們復制一個(gè)advancedsearch.php模板，默認的advancedserach.php模板是/templets/default/advancesearch.htm，我們把這個(gè)模板復制到我們自定義的模板文件夾/templets/jingdong，名字叫filter_tmp.htm。
　　然后進(jìn)入后臺，在“內容模型管理”中選擇需要搜索的模型，然后點(diǎn)擊模型后面的放大鏡圖標，在“附件表中自定義搜索的字段”中選擇需要搜索的字段，自定義搜索結果模板頁(yè)面，寫(xiě)上我們剛才復制的模板名稱(chēng)，叫filter_tmp.htm，OK。
　　這里可以測試一下搜索是否可以正常使用。
　　不過(guò)貌似系統自帶織夢(mèng)。我已經(jīng)嘗試了很多次，但它不起作用。跟蹤了一下，好像沒(méi)有查詢(xún)到附加表，所以在advancedsearch.php的第218行，原來(lái)的代碼是
　　$query = "SELECT main.id ASaid,main.*,main.description AS description1, type.*
　　FROM $maintable 主要
　　LEFT JOIN #@__arctype type ON type.id = main.typeid
　　左連接 $addontable 插件 ON addon.aid = main.id
　　$where $orderby";
　　在type.*后面加一行addon.*，變成如下代碼
　　$query = "SELECT main.id ASaid,main.*,main.description AS description1, type.*,addon.*
　　FROM $maintable 主要
　　LEFT JOIN #@__arctype type ON type.id = main.typeid
　　左連接 $addontable 插件 ON addon.aid = main.id
　　$where $orderby";
　　然后有124行要添加 ${$var}=iconv("utf-8","gb2312",${$var}); 否則會(huì )造成中文亂碼。
　　還有一個(gè)就是如果使用()英文括號，要小心，因為會(huì )被secure sql過(guò)濾掉。
　　下面，我簡(jiǎn)單制作了filter_tmp.htm，大家可以參考一下。
　　{dede:數據列表}
　　div
　　strongtitle: /strong{dede:field.title/}br /
　　strongBrand: /strong{dede:field.pinpai/}br /
　　strongPrice: /strong{dede:field.jiage/}br /
　　strongSize: /strong{dede:field.chicun/}br /
　　強平臺：/strong{dede:field.pingtai/}br /
　　strong顯卡：/strong{dede:field.xianka/}br /
　　/div
　　{/dede:數據列表}
　　{dede:pagelist listsize='5'/}
　　但我們最終希望將此頁(yè)面“嵌入”到 filter.htm 中，即最終列表頁(yè)面。
　　現在我們打開(kāi)過(guò)濾器模板文件，在底部添加一個(gè)div，并將id設置為result。這是存儲最終過(guò)濾結果的地方。
　　然后打開(kāi)filter.js，這個(gè)js里面寫(xiě)了以下關(guān)鍵點(diǎn)。
　　織夢(mèng)dede采集方法教程
　　方法/步驟
　　1.首先，我們打開(kāi)織夢(mèng)背景，點(diǎn)擊
　　采集——采集節點(diǎn)管理——添加新節點(diǎn)
　　2.這里我們以采集normal文章為例，我們選擇normal文章，然后確認
　　3、我們進(jìn)入了采集的設置頁(yè)面，填寫(xiě)節點(diǎn)名，也就是給新節點(diǎn)起個(gè)名字，這里隨便填。
　　

　　然后打開(kāi)你要采集的文章列表頁(yè)面，打開(kāi)這個(gè)頁(yè)面的鏈接，右鍵-查看源文件
　　找到目標頁(yè)面編碼，就在字符集之后
　　4.頁(yè)面的基本信息一般會(huì )被忽略，如圖
　　5.現在我們來(lái)填寫(xiě)列表URL獲取規則
　　看列表第一頁(yè)的地址文章jianzhanxinde/list_49_1.html
　　對比第二頁(yè)的地址 jinzhanxinde/list_49_2.html
　　我們發(fā)現除了49_后面的數字之外它們是一樣的，所以我們可以寫(xiě)
　　/建站新德/list_49_(*).html
　　只需將 1 替換為 (*)
　　由于這里只有2頁(yè)，我們從1填到2
　　每頁(yè)的增量當然是1，2-1...等于1
　　到這里我們就完成了
　　6.可能你的一些采集列表沒(méi)有規則，只能手動(dòng)指定列表URL，如圖
　　7. 每行寫(xiě)一個(gè)頁(yè)地址
　　寫(xiě)完列表規則，我們開(kāi)始寫(xiě)文章 URL匹配規則，回到文章列表頁(yè)面
　　右鍵查看源文件
　　找到HTML開(kāi)頭的區域，就是找到列表開(kāi)頭的文章標記。
　　8.我們可以很容易地找到如圖所示的“新聞列表”
　　. 從這里開(kāi)始，以下是文章列表
　　讓我們在文章列表的末尾找到 HTML
　　9. 這就是它，一個(gè)容易找到的標志
　　如果鏈接收錄圖像：
　　不處理
　　采集是縮略圖
　　在這里你可以根據自己的需要選擇
　　再次過(guò)濾區域 URL：
　?。ㄊ褂谜齽t表達式）
　　必須收錄：
　?。▋?yōu)先級高于后者）
　　不能收錄：
　　打開(kāi)源文件，我們可以清楚的看到文章鏈接都是以.html結尾的
　　所以，我們在必須收錄之后填寫(xiě).html
　　如果遇到一些麻煩的列表，也可以填寫(xiě)以下不能收錄的
　　8.我們點(diǎn)擊保存設置進(jìn)入下一步，可以看到我們得到的文章 URL
　　看到這些都正確，我們保存信息，進(jìn)入下一步設置內容字段獲取規則
　　看看文章有沒(méi)有分頁(yè)，輸入一篇文章文章就可以了。. 我們看到這里的文章沒(méi)有分頁(yè)
　　所以這里我們默認
　　9. 我們現在正在尋找文章標題等
　　隨便輸入一個(gè)文章，右鍵查看源文件
　　看看這些
　　10.根據源碼填寫(xiě)
　　11.我們來(lái)填寫(xiě)文章的內容的開(kāi)頭和結尾
　　如上，找到開(kāi)始和結束標記
　　12.開(kāi)始：
　　12.結束：
　　13.如果要過(guò)濾文章中的內容，請寫(xiě)過(guò)濾規則，例如過(guò)濾文章中的圖片
　　選擇通用規則
　　14.再次檢查IMG，然后確認
　　

　　15.這樣，我們過(guò)濾文本中的圖片
　　設置好后點(diǎn)擊保存設置并預覽
　　這樣的采集規則已經(jīng)寫(xiě)好了。這很簡(jiǎn)單。有些網(wǎng)站很難寫(xiě)，但需要付出更多的努力。
　　16.我們點(diǎn)擊保存開(kāi)始采集--開(kāi)始采集網(wǎng)頁(yè)
　　過(guò)了一會(huì )兒，采集結束了
　　17 讓我們看看文章我們采集到
　　18.好像成功了，我們來(lái)導出數據
　　織夢(mèng)cms如何刪除后臺等待審核的過(guò)濾詞文章
　　在后臺的基本設置中，有一個(gè)設置讓你設置停用詞，然后他們就不能發(fā)布停用詞的內容了。
　　請求接受
　　織夢(mèng)如何過(guò)濾消息模板中的重復數據
　　在diy.php文件中，在插入消息數據庫之前，檢查提交的標題或電話(huà)信息是否重復。如果重復，不要插入，提示相同信息已經(jīng)存在。
　　校驗是使用提交的title或者phone字段查詢(xún)消息表單，如果匹配則證明存在
　　織夢(mèng)采集字符的功能介紹
　　1.一鍵安裝，全自動(dòng)采集
　　織夢(mèng)采集安裝非常簡(jiǎn)單方便，只需一分鐘即可啟動(dòng)采集，結合簡(jiǎn)單、健壯、靈活、開(kāi)源的dedecms程序，新手也可以快速上手，我們有專(zhuān)門(mén)的客服為企業(yè)客戶(hù)提供技術(shù)支持。
　　2.一個(gè)字采集，不用寫(xiě)采集規則
　　3.RSS采集，輸入RSS地址到采集內容
　　只要RSS訂閱地址由采集的網(wǎng)站提供，就可以通過(guò)RSS采集，只需要輸入RSS地址就可以方便地采集目標網(wǎng)站內容，無(wú)需編寫(xiě)采集規則，方便簡(jiǎn)單。
　　4.方向采集，精確采集標題，正文，作者，出處
　　定位采集只需要提供列表URL和文章URL即可智能采集指定網(wǎng)站或列內容，方便簡(jiǎn)單，寫(xiě)簡(jiǎn)單就能準確規則采集標題、正文、作者、來(lái)源。
　　5.各種偽原創(chuàng )和優(yōu)化方法來(lái)提高收錄率和排名
　　自動(dòng)標題、段落重排、高級混淆、自動(dòng)內鏈、內容過(guò)濾、URL過(guò)濾、同義詞替換、插入seo詞、關(guān)鍵詞添加鏈接等方法對采集返回文章進(jìn)行處理，提升采集文章原創(chuàng )的性能，有利于搜索引擎優(yōu)化，提高搜索引擎收錄、網(wǎng)站和關(guān)鍵詞的權重排名.
　　6.插件全自動(dòng)采集，無(wú)需人工干預
　　7.手動(dòng)發(fā)布文章也可以偽原創(chuàng )和搜索優(yōu)化處理
　　織夢(mèng)采集Xia不僅僅是一個(gè)采集插件，還是一個(gè)織夢(mèng)必備偽原創(chuàng )和搜索優(yōu)化插件，手工發(fā)布文章可以通過(guò)偽原創(chuàng )處理和織夢(mèng)采集xia的搜索優(yōu)化，可以對文章進(jìn)行同義詞替換，自動(dòng)內鏈，隨機插入關(guān)鍵詞 links 和文章收錄關(guān)鍵詞等會(huì )自動(dòng)添加指定鏈接的功能，是織夢(mèng) 的必備插件。
　　8、定期、定量地進(jìn)行采集偽原創(chuàng )SEO更新
　　該插件有兩種觸發(fā)采集方法，一種是在頁(yè)面中添加代碼，通過(guò)用戶(hù)訪(fǎng)問(wèn)觸發(fā)采集更新，另一種是遠程觸發(fā)我們提供的采集服務(wù)商業(yè)用戶(hù)。定量的采集更新可以定期安排，無(wú)需人工干預，無(wú)需人工干預。
　　9.定期定量更新待審稿件
　　即使你的數據庫里有上千篇文章文章，織夢(mèng)采集廈門(mén)也可以根據你的需要，在你設定的時(shí)間段內，每天定時(shí)定量的回顧和更新。
　　10.綁定織夢(mèng)采集節點(diǎn)，調度采集偽原創(chuàng )SEO更新
　　綁定織夢(mèng)采集節點(diǎn)的函數，這樣織夢(mèng)cms自帶的采集函數也可以自動(dòng)采集更新經(jīng)常。方便設置了采集規則的用戶(hù)定期更新采集。
　　織夢(mèng)批量刪除添加到內容中的圖片？
　　在 dede/article_add.php 中找到它
　　//跳轉URL的文檔強制為動(dòng)態(tài)
　　增加高于它
　　$body=preg_replace("/img.*?/si","",$body);
　　在 dede/article_edit.php 中找到它
　　//跳轉URL的文檔強制為動(dòng)態(tài)
　　增加高于它
　　$body=preg_replace("/img.*?/si","",$body);
　　如果你不使用它，只需添加 // 并將其注釋掉。
　　這個(gè)方法是過(guò)濾掉所有的圖片，希望對你有幫助。
　　織夢(mèng) 內容過(guò)濾和織夢(mèng) 內容頁(yè)面調用的介紹到此結束。你找到你需要的信息了嗎？如果您想了解更多相關(guān)信息，請記得采集并關(guān)注本站。
　　織夢(mèng)內容過(guò)濾
　　喬生170260
　　織夢(mèng)內容過(guò)濾織夢(mèng)系統如何替換網(wǎng)站內容

解決方法:優(yōu)采云采集器使用方法

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 109 次瀏覽 ? 2022-11-01 08:20 ? 來(lái)自相關(guān)話(huà)題

　　解決方法:優(yōu)采云采集器使用方法
　　
　　優(yōu)采云采集器() 作為采集行業(yè)老手采集器是一款功能強大且不易上手的專(zhuān)業(yè)采集軟件，優(yōu)采云采集器捕獲數據的過(guò)程取決于用戶(hù)編寫(xiě)的規則。用戶(hù)必須分析來(lái)自目標站的html代碼中的唯一代碼標識符，并遵守優(yōu)采云規則。該模塊是向服務(wù)器提交采集數據，服務(wù)器程序自動(dòng)將數據正確寫(xiě)入數據庫。這里的服務(wù)端程序可以是網(wǎng)站程序，也可以是自己編寫(xiě)的接口，只要數據能正確寫(xiě)入數據庫即可。這里提交數據需要大家具備post抓包的基礎技術(shù)。簡(jiǎn)單說(shuō)一下post數據傳輸的過(guò)程。通過(guò)HTTP傳輸數據的方式主要有兩種，一種是get，一種是post。get 一般用于獲取數據，可以攜帶少量參數數據。在此基礎上，post 可以承載大量的數據。采集的發(fā)布規則是模擬向網(wǎng)站程序提交post請求，讓網(wǎng)站程序認為我們是人。如果您沒(méi)有權限，主要的網(wǎng)站程序不會(huì )讓您發(fā)布文章，所以！我們只能解密各大網(wǎng)站s的登錄算法，只有獲得用戶(hù)登錄憑證后才能正常發(fā)布文章。明白了原理，我們就可以開(kāi)始寫(xiě)界面了！get 一般用于獲取數據，可以攜帶少量參數數據。在此基礎上，post 可以承載大量的數據。采集的發(fā)布規則是模擬向網(wǎng)站程序提交post請求，讓網(wǎng)站程序認為我們是人。如果您沒(méi)有權限，主要的網(wǎng)站程序不會(huì )讓您發(fā)布文章，所以！我們只能解密各大網(wǎng)站s的登錄算法，只有獲得用戶(hù)登錄憑證后才能正常發(fā)布文章。明白了原理，我們就可以開(kāi)始寫(xiě)界面了！get 一般用于獲取數據，可以攜帶少量參數數據。在此基礎上，post 可以承載大量的數據。采集的發(fā)布規則是模擬向網(wǎng)站程序提交post請求，讓網(wǎng)站程序認為我們是人。如果您沒(méi)有權限，主要的網(wǎng)站程序不會(huì )讓您發(fā)布文章，所以！我們只能解密各大網(wǎng)站s的登錄算法，只有獲得用戶(hù)登錄憑證后才能正常發(fā)布文章。明白了原理，我們就可以開(kāi)始寫(xiě)界面了！如果您沒(méi)有權限，主要的網(wǎng)站程序不會(huì )讓您發(fā)布文章，所以！我們只能解密各大網(wǎng)站s的登錄算法，只有獲得用戶(hù)登錄憑證后才能正常發(fā)布文章。明白了原理，我們就可以開(kāi)始寫(xiě)界面了！如果您沒(méi)有權限，主要的網(wǎng)站程序不會(huì )讓您發(fā)布文章，所以！我們只能解密各大網(wǎng)站s的登錄算法，只有獲得用戶(hù)登錄憑證后才能正常發(fā)布文章。明白了原理，我們就可以開(kāi)始寫(xiě)界面了！
　　
　　對于小白和只懂基本編程的人來(lái)說(shuō)，一定是一頭霧水。完全掌握優(yōu)采云采集器大約需要一個(gè)月的時(shí)間。這里涉及到什么更多，更多的知識！
　　詳細數據:數據分析（一）數據采集（優(yōu)采云采集器）
　　這是一個(gè)免費的在線(xiàn)詞云生成網(wǎng)站，并且支持圖片下載，非常方便
　　3、采集資料網(wǎng)站聯(lián)家二手房官網(wǎng)：
　　這是我過(guò)濾后的網(wǎng)址，直接打開(kāi)即可
　　三進(jìn)正題~~~微詞云操作
　　1.打開(kāi)微詞云，點(diǎn)擊“開(kāi)始創(chuàng )建”
　　2.選擇形狀、內容
　　步驟1。點(diǎn)擊形狀，選擇你想要的形狀；
　　第2步。點(diǎn)擊內容，打開(kāi)導入下拉框，選擇大文本分詞導入
　　三進(jìn)正題~~~優(yōu)采云采集器采集資料
　　說(shuō)說(shuō)微詞云上的內容是從哪里來(lái)的，又是怎么來(lái)的。（PS：再提醒一下我們今天的目標：采集上海徐匯區二手房各區單價(jià)及房子的特色信息。然后根據做一個(gè)詞云圖用于視覺(jué)顯示的區域信息。）
　　1.打開(kāi)優(yōu)采云采集器，啟動(dòng)采集
　　
　　2.輸入鏈家二手房地址，搜索“徐匯區”網(wǎng)站，點(diǎn)擊立即創(chuàng )建
　?。ㄉ蠄D中紅框內的按鈕可以過(guò)濾字段，清除內容，添加任何你想要的字段到采集，這里就不贅述了，大家可以自己研究）
　　3. 開(kāi)始采集
　　這里我們有采集150條數據，點(diǎn)擊停止，然后導出數據
　　以下是導出數據的截圖：
　　至此，優(yōu)采云采集器采集的數據基本完成。
　　
　　順便補充一下，自動(dòng)采集時(shí)可能出現廣告、紅包等，可以采取以下方法：
　　4.采集結果數據處理
　　步驟1。接下來(lái)，我們將處理要在微詞云中顯示的字段。我們選擇 positionInfo 列并將其復制到另一個(gè)工作表頁(yè)面
　　第2步。選擇數據”列，下一步
　　第三步。根據內容選擇分隔符來(lái)分隔數據
　　第4步。選擇C列并復制到word中，然后從word復制到微詞云的文章輸入。去完成。這是我制作的一張圖片：
　　你可以試試，今天就到這里。這是最基本的數據采集和顯示。如果想采集更多數據，需要用到python，學(xué)完python后再更新。查看全部

　　解決方法:優(yōu)采云采集器使用方法
　　

　　優(yōu)采云采集器() 作為采集行業(yè)老手采集器是一款功能強大且不易上手的專(zhuān)業(yè)采集軟件，優(yōu)采云采集器捕獲數據的過(guò)程取決于用戶(hù)編寫(xiě)的規則。用戶(hù)必須分析來(lái)自目標站的html代碼中的唯一代碼標識符，并遵守優(yōu)采云規則。該模塊是向服務(wù)器提交采集數據，服務(wù)器程序自動(dòng)將數據正確寫(xiě)入數據庫。這里的服務(wù)端程序可以是網(wǎng)站程序，也可以是自己編寫(xiě)的接口，只要數據能正確寫(xiě)入數據庫即可。這里提交數據需要大家具備post抓包的基礎技術(shù)。簡(jiǎn)單說(shuō)一下post數據傳輸的過(guò)程。通過(guò)HTTP傳輸數據的方式主要有兩種，一種是get，一種是post。get 一般用于獲取數據，可以攜帶少量參數數據。在此基礎上，post 可以承載大量的數據。采集的發(fā)布規則是模擬向網(wǎng)站程序提交post請求，讓網(wǎng)站程序認為我們是人。如果您沒(méi)有權限，主要的網(wǎng)站程序不會(huì )讓您發(fā)布文章，所以！我們只能解密各大網(wǎng)站s的登錄算法，只有獲得用戶(hù)登錄憑證后才能正常發(fā)布文章。明白了原理，我們就可以開(kāi)始寫(xiě)界面了！get 一般用于獲取數據，可以攜帶少量參數數據。在此基礎上，post 可以承載大量的數據。采集的發(fā)布規則是模擬向網(wǎng)站程序提交post請求，讓網(wǎng)站程序認為我們是人。如果您沒(méi)有權限，主要的網(wǎng)站程序不會(huì )讓您發(fā)布文章，所以！我們只能解密各大網(wǎng)站s的登錄算法，只有獲得用戶(hù)登錄憑證后才能正常發(fā)布文章。明白了原理，我們就可以開(kāi)始寫(xiě)界面了！get 一般用于獲取數據，可以攜帶少量參數數據。在此基礎上，post 可以承載大量的數據。采集的發(fā)布規則是模擬向網(wǎng)站程序提交post請求，讓網(wǎng)站程序認為我們是人。如果您沒(méi)有權限，主要的網(wǎng)站程序不會(huì )讓您發(fā)布文章，所以！我們只能解密各大網(wǎng)站s的登錄算法，只有獲得用戶(hù)登錄憑證后才能正常發(fā)布文章。明白了原理，我們就可以開(kāi)始寫(xiě)界面了！如果您沒(méi)有權限，主要的網(wǎng)站程序不會(huì )讓您發(fā)布文章，所以！我們只能解密各大網(wǎng)站s的登錄算法，只有獲得用戶(hù)登錄憑證后才能正常發(fā)布文章。明白了原理，我們就可以開(kāi)始寫(xiě)界面了！如果您沒(méi)有權限，主要的網(wǎng)站程序不會(huì )讓您發(fā)布文章，所以！我們只能解密各大網(wǎng)站s的登錄算法，只有獲得用戶(hù)登錄憑證后才能正常發(fā)布文章。明白了原理，我們就可以開(kāi)始寫(xiě)界面了！
　　

　　對于小白和只懂基本編程的人來(lái)說(shuō)，一定是一頭霧水。完全掌握優(yōu)采云采集器大約需要一個(gè)月的時(shí)間。這里涉及到什么更多，更多的知識！
　　詳細數據:數據分析（一）數據采集（優(yōu)采云采集器）
　　這是一個(gè)免費的在線(xiàn)詞云生成網(wǎng)站，并且支持圖片下載，非常方便
　　3、采集資料網(wǎng)站聯(lián)家二手房官網(wǎng)：
　　這是我過(guò)濾后的網(wǎng)址，直接打開(kāi)即可
　　三進(jìn)正題~~~微詞云操作
　　1.打開(kāi)微詞云，點(diǎn)擊“開(kāi)始創(chuàng )建”
　　2.選擇形狀、內容
　　步驟1。點(diǎn)擊形狀，選擇你想要的形狀；
　　第2步。點(diǎn)擊內容，打開(kāi)導入下拉框，選擇大文本分詞導入
　　三進(jìn)正題~~~優(yōu)采云采集器采集資料
　　說(shuō)說(shuō)微詞云上的內容是從哪里來(lái)的，又是怎么來(lái)的。（PS：再提醒一下我們今天的目標：采集上海徐匯區二手房各區單價(jià)及房子的特色信息。然后根據做一個(gè)詞云圖用于視覺(jué)顯示的區域信息。）
　　1.打開(kāi)優(yōu)采云采集器，啟動(dòng)采集
　　

　　2.輸入鏈家二手房地址，搜索“徐匯區”網(wǎng)站，點(diǎn)擊立即創(chuàng )建
　?。ㄉ蠄D中紅框內的按鈕可以過(guò)濾字段，清除內容，添加任何你想要的字段到采集，這里就不贅述了，大家可以自己研究）
　　3. 開(kāi)始采集
　　這里我們有采集150條數據，點(diǎn)擊停止，然后導出數據
　　以下是導出數據的截圖：
　　至此，優(yōu)采云采集器采集的數據基本完成。
　　

　　順便補充一下，自動(dòng)采集時(shí)可能出現廣告、紅包等，可以采取以下方法：
　　4.采集結果數據處理
　　步驟1。接下來(lái)，我們將處理要在微詞云中顯示的字段。我們選擇 positionInfo 列并將其復制到另一個(gè)工作表頁(yè)面
　　第2步。選擇數據”列，下一步
　　第三步。根據內容選擇分隔符來(lái)分隔數據
　　第4步。選擇C列并復制到word中，然后從word復制到微詞云的文章輸入。去完成。這是我制作的一張圖片：
　　你可以試試，今天就到這里。這是最基本的數據采集和顯示。如果想采集更多數據，需要用到python，學(xué)完python后再更新。

心得:【馬克拉伯每日分享】機器視覺(jué)三種目標識別方法——深度學(xué)習法

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 118 次瀏覽 ? 2022-11-01 01:28 ? 來(lái)自相關(guān)話(huà)題

　　心得:【馬克拉伯每日分享】機器視覺(jué)三種目標識別方法——深度學(xué)習法
　　深度學(xué)習的概念對于機器視覺(jué)來(lái)說(shuō)相對較新，但對于機器學(xué)習來(lái)說(shuō)絕對不是新的。深度學(xué)習是機器學(xué)習的一種特殊類(lèi)型，是人工智能的一種。在短短幾年內，深度學(xué)習已經(jīng)能夠在許多領(lǐng)域比任何傳統算法更好地對圖像進(jìn)行分類(lèi)，并可能很快超越人類(lèi)的檢測能力。
　　深度學(xué)習軟件使用多層神經(jīng)網(wǎng)絡(luò )根據人工檢查員標記的圖像識別好壞圖像。這些數據集通常收錄至少 100 個(gè)每種缺陷類(lèi)型的圖像，并且網(wǎng)絡(luò )經(jīng)過(guò)訓練以創(chuàng )建一個(gè)模型，該模型對每個(gè)輸入圖像中的對象進(jìn)行分類(lèi)并確保高水平的可預測性。
　　不得不說(shuō)，深度學(xué)習對傳統的機器視覺(jué)技術(shù)很有希望，因為它不同于使用基于規則的方法的傳統圖像處理算法。在傳統的機器視覺(jué)中，需要手動(dòng)設計特征。
　　隨著(zhù)工業(yè)自動(dòng)化水平的不斷提高，傳統機器視覺(jué)邏輯局限簡(jiǎn)單，無(wú)法應用于隨機性強、特征復雜的任務(wù)。
　　當圖像模板不足以覆蓋所有可能的樣本時(shí)，通過(guò)預先設置很難實(shí)現缺陷特征。
　　當圖像不規則和不規則時(shí)，很難根據經(jīng)驗手動(dòng)設計特征并直接輸出映射關(guān)系。
　　
　　然而，在深度學(xué)習中，我們的訓練輸入不再是常規數據，它可能是語(yǔ)言、對話(huà)語(yǔ)料庫、圖像或視頻。因此，深度學(xué)習的核心任務(wù)是找到一個(gè)能夠將我們的輸入轉化為正確輸出的模型。
　　目前，機器視覺(jué)用戶(hù)已經(jīng)可以在市場(chǎng)上找到深度學(xué)習系統軟件。例如，首個(gè)深度學(xué)習工業(yè)圖像分析平臺——時(shí)刻視覺(jué)智能低碼平臺，以人工智能技術(shù)為核心，為開(kāi)發(fā)者提供圖像采集、圖像標注、算法開(kāi)發(fā)、算法封裝和應用集成。一站式完整工具鏈。深度學(xué)習的另一個(gè)優(yōu)勢是，與傳統的機器視覺(jué)解決方案相比，它可以減少開(kāi)發(fā)機器視覺(jué)程序所需的時(shí)間。一般來(lái)說(shuō)，大多數機器視覺(jué)應用需要60天以上的軟件開(kāi)發(fā)和可行性測試，而使用Matrix Smart低代碼平臺可以在10分鐘內完成開(kāi)發(fā)。
　　什么是馬克拉伯？
　　MookLab 是一個(gè)機器視覺(jué)應用的開(kāi)放社區。MookLab 致力于幫助用戶(hù)以最低的成本和門(mén)檻構建視覺(jué)系統。具體來(lái)說(shuō)：
　　1）提供免費軟件：平臺提供免費可視化軟件，專(zhuān)業(yè)團隊提供免費軟件服務(wù)支持。
　　2）篩選整合優(yōu)質(zhì)視覺(jué)硬件品牌：如整合優(yōu)質(zhì)視覺(jué)硬件（如相機、鏡頭、光源）等品牌，為用戶(hù)提供低成本的視覺(jué)配件匹配平臺。
　　
　　3）提供項目應用支持：提供技術(shù)服務(wù)交易平臺，吸納平臺各區域的集成商用戶(hù)作為視覺(jué)應用服務(wù)商，為部分視覺(jué)應用能力較弱的用戶(hù)提供就近和行業(yè)針對性的應用支持服務(wù)。
　　4）提供專(zhuān)業(yè)的人才培養機制：面向行業(yè)初學(xué)者和大專(zhuān)院校教育的機器視覺(jué)實(shí)驗平臺+軟件包，以及相應的教育支持服務(wù)。
　　SGVision 是什么以及它與 MookLab 的關(guān)系？
　　SGVision 是一款無(wú)需編程即可使用的機器視覺(jué)應用軟件。SGVision軟件的無(wú)限永久免費許可是Mooklab平臺為平臺會(huì )員提供的權利，所以該權利以用戶(hù)為會(huì )員用戶(hù)為前提。
　　如何獲得免費的機器視覺(jué)檢測軟件SGvision？
　　下載鏈接：
　　直觀(guān):優(yōu)化+選品，這些亞馬遜關(guān)鍵詞分析工具很實(shí)用
　　在亞馬遜店鋪運營(yíng)的過(guò)程中，很多時(shí)候我們需要借助工具來(lái)達到事半功倍的效果。而關(guān)鍵詞作為seo優(yōu)化的最小單位也是非常重要的。
　　今天老李就講幾個(gè)特別好用的亞馬遜關(guān)鍵詞分析工具。
　　為什么要使用這些分析工具？
　　亞馬遜本身不對外開(kāi)放內部數據，所以我們需要自力更生。其實(shí)在海外營(yíng)銷(xiāo)中，分析工具是很常見(jiàn)的，但是因為比較廣泛，對賣(mài)家的針對性不是很強。今天，我們將開(kāi)出正確的藥方。
　　關(guān)鍵詞分析工具有什么用？
　　幫助賣(mài)家分析產(chǎn)品的關(guān)鍵詞是否有效，一些工具還提供很多相關(guān)詞條的搜索曲線(xiàn)。在大數據時(shí)代，這些數據可以說(shuō)是第一手信息，幫助賣(mài)家發(fā)現新的藍海，這個(gè)過(guò)程就是數據的選擇。
　　1
　　自由的
　　谷歌廣告關(guān)鍵詞
　?。ɡ箱叫苡昧ν疲?br /> 　　Google Ads 下的附加功能是非常常用的關(guān)鍵詞工具，包括以下兩個(gè)：
　　關(guān)鍵詞關(guān)鍵字規劃師
　　谷歌趨勢谷歌趨勢
　　這兩個(gè)工具需要翻墻才能使用，并且需要注冊自己的google郵箱才能開(kāi)通adwords賬號（具體操作流程見(jiàn)）。
　　賣(mài)家可以使用關(guān)鍵詞規劃器來(lái)優(yōu)化亞馬遜的搜索內容，但需要注意的一點(diǎn)是，純電商網(wǎng)站中消費者的搜索方式與萬(wàn)能搜索引擎并不一致。有時(shí)候關(guān)鍵詞planne分析出的高頻關(guān)鍵詞并不代表消費者想購買(mǎi)這個(gè)產(chǎn)品，或者他們可能只是想了解與關(guān)鍵詞相關(guān)的其他方面。
　　以iphone 7機箱關(guān)鍵詞為例，在紅框標注的部分輸入關(guān)鍵詞
　　彈窗如下，在這個(gè)頁(yè)面，你可以看到最相關(guān)的高頻關(guān)鍵詞，并且會(huì )告訴你搜索量（這個(gè)功能需要谷歌廣告賬號）
　　然后，可以在google趨勢中查看這些詞的搜索趨勢對比，也可以看到相關(guān)的搜索詞，如下圖1和圖2所示
　　圖1
　　圖 2
　　Amazon Autosuggest（即下拉列表）
　　這也是一個(gè)非常簡(jiǎn)單常用的關(guān)鍵詞工具。在亞馬遜搜索框中輸入關(guān)鍵詞，下拉列表中會(huì )出現幾個(gè)相關(guān)的關(guān)鍵詞，如下圖所示。你可以為這些關(guān)鍵詞建立一個(gè)列表，然后一一統計對應的搜索結果。
　　幾乎每個(gè)亞馬遜關(guān)鍵詞工具都從自動(dòng)建議中獲取一個(gè) 關(guān)鍵詞列表，并將這些詞轉換為更直觀(guān)的圖表和目標。
　　搜索引擎優(yōu)化聊天關(guān)鍵字建議工具
　?。ɡ箱叫苡昧ν疲?br /> 　　即 SEO Chat 關(guān)鍵詞建議工具。這個(gè)由 SEOChat 開(kāi)發(fā)的關(guān)鍵詞建議工具會(huì )主動(dòng)爬取 Google、Bing、YouTube 和亞馬遜的關(guān)鍵詞自動(dòng)建議數據。賣(mài)家可以選擇一次獲取四個(gè)網(wǎng)站數據來(lái)比較人們在傳統搜索、產(chǎn)品搜索和視頻搜索方面的差異，也可以選擇亞馬遜平臺，專(zhuān)注于產(chǎn)品搜索。
　　使用 SEO Chat關(guān)鍵詞工具需要三個(gè)步驟：
　?。?）先輸入關(guān)鍵詞或關(guān)鍵詞的一部分，工具會(huì )抓取亞馬遜的自動(dòng)提示關(guān)鍵詞，下圖是第一步搜索“蘑菇套裝”。
　　
　　這個(gè)工具的獨特之處在于它還會(huì )自動(dòng)關(guān)聯(lián)后續關(guān)鍵詞s的首字母，并在賣(mài)家每次輸入一個(gè)完整的單詞時(shí)顯示相關(guān)的關(guān)鍵詞s。
　　比如上圖中，在SEO Chat工具中輸入“mushroom kit”后，它會(huì )自動(dòng)在末尾添加字母“i”，這提示亞馬遜顯示短語(yǔ)“mushroom kit interior”，即前10個(gè)條目關(guān)鍵詞不在建議的結果中。
　　(2) 選擇所有結果后，點(diǎn)擊“Run Part 2: Bulk Suggest”按鈕，該工具會(huì )運行亞馬遜搜索框中的所有關(guān)鍵詞建議，然后賣(mài)家可以獲得更具體的自動(dòng)建議關(guān)鍵詞組。第一步產(chǎn)生了 13 個(gè)結果，而第二步產(chǎn)生了 6 個(gè)結果，總共 19 個(gè)關(guān)鍵詞。
　　(3) 最后，點(diǎn)擊“Run Part 3: Useful Suggest”按鈕，賣(mài)家每月可以通過(guò)SEMRush API獲取100條Google Keyword Tool搜索數據。但是，100 個(gè) 關(guān)鍵詞組太有限了，所以賣(mài)家也可以跳過(guò)第 3 步，導出數據并在 Google Keyword Tool 上運行。
　　SEO Chat 的關(guān)鍵詞工具非常簡(jiǎn)單。雖然只需單擊一兩次按鈕即可獲得結果，但它可以隨時(shí)導出數據、擴大或縮小數據，而且該工具是 100% 免費的。
　　關(guān)鍵字工具支配者
　　價(jià)格：免費試用僅限每天 3 個(gè)關(guān)鍵詞，終身訂閱基本計劃 16 美元，以及其他選項可供選擇。
　　Keyword Tool Dominator 提供獨特的數據：排名 1-10 關(guān)鍵詞基于亞馬遜的自動(dòng)建議關(guān)鍵詞表。#1 最受歡迎的關(guān)鍵詞建議短語(yǔ)，第 10 受歡迎的不太受歡迎。
　　但是，Keyword Tool Dominator 生成的亞馬遜自動(dòng)提示關(guān)鍵詞不如 SEO Chat 全面。同樣輸入“mushroom kit”只會(huì )產(chǎn)生 4 個(gè)結果，如下圖所示。相比之下，SEO Chat 是 19 歲。
　　但是，數據排名很有趣，賣(mài)家可以將 Keyword Tool Dominator 和 SEO Chat 與 Google Keyword Tool 的月度搜索數據結合起來(lái)。賣(mài)家需要至少支付 16 美元才能獲得 3+ 每天關(guān)鍵詞。
　　科學(xué)賣(mài)家
　?。ɡ箱叫苡昧ν疲?br /> 　　價(jià)格：免費，可升級
　　科學(xué)賣(mài)家的免費亞馬遜關(guān)鍵詞工具關(guān)鍵詞優(yōu)化工具，基本功能免費，主要通過(guò)后續升級盈利，比其他工具更深入。用了一個(gè)小時(shí)，發(fā)現了58個(gè)關(guān)鍵詞，幾乎是SEO Chat的三倍，而且關(guān)鍵詞里面有SEO Chat做的“食用菌套裝”和“小蘑菇套裝”找不到。成套工具”。
　　免費版只能查美國站，要查其他站就得充值了。查詢(xún)速度比較慢，需要一段時(shí)間才能得到更多的結果。
　　該應用僅向亞馬遜買(mǎi)家顯示關(guān)鍵詞。如果您在亞馬遜的搜索框中輸入關(guān)鍵詞，系統會(huì )自動(dòng)顯示完整的關(guān)鍵詞（因為這些關(guān)鍵詞亞馬遜客戶(hù)使用頻率很高）幫助您完成搜索。
　　這個(gè)免費工具從各種來(lái)源采集關(guān)鍵詞，包括潛在語(yǔ)義索引 (LSI)，但如果不是 Amazon關(guān)鍵詞，則會(huì )自動(dòng)過(guò)濾掉。允許賣(mài)家刪除條款，增加關(guān)鍵詞的相關(guān)性。
　　2
　　收費
　　商家詞
　　價(jià)格：每月 30 美元
　　MerchantWords 是唯一可以將您的搜索范圍縮小到特定亞馬遜類(lèi)別的關(guān)鍵詞工具，為您提供與您的搜索相匹配的產(chǎn)品類(lèi)別，如下所示：
　　MerchantWords 還通過(guò)算法確定與輸入的詞關(guān)鍵詞相關(guān)的每月搜索次數。不過(guò)，也有賣(mài)家對這一數據的結果表示懷疑。例如，一個(gè)月內，有 73,500 人在亞馬遜上搜索“蘑菇包”，但在 Google 上搜索相同詞的只有 1,300 人。這個(gè)數據不可信。
　　如果賣(mài)家想要獲得超過(guò) 5 個(gè)搜索結果，那么他們需要以每月 30 美元的價(jià)格訂閱完整版。
　　Merchantwords有一個(gè)強項，就是同義詞可以出現在搜索結果中：比如你搜索pest repeler，pest repelant也會(huì )出來(lái)。
　　SEOBook關(guān)鍵字工具
　　收費
　　這個(gè)工具可以看到搜索量
　　關(guān)鍵字工具支配者
　　收費
　　這個(gè)工具直接有亞馬遜的關(guān)鍵詞搜索（圖3），也可以根據不同站點(diǎn)調整關(guān)鍵詞（圖4）。
　　圖 3
　　
　　圖 4
　　還有一點(diǎn)是，雖然這個(gè)工具說(shuō)一天只有3個(gè)機會(huì )，但實(shí)際上，如果你關(guān)閉頁(yè)面再重新打開(kāi)，你又可以有3個(gè)搜索機會(huì )。當然，如果覺(jué)得麻煩，可以付費購買(mǎi)，16美元可以永久使用。
　　列出的關(guān)鍵字列表 1~10 按受歡迎程度降序排列。1 表示此關(guān)鍵字最受歡迎。事實(shí)上，這個(gè)工具也是基于處理亞馬遜下拉列表得到的數據。
　　Semrush關(guān)鍵詞競爭力工具
　?。ɡ箱叫苡昧ν疲?br /> 　　目前沒(méi)有中文版。免費使用，但有限制。付費，一共有三個(gè)級別，$69.95, $79.95, $149.95 可以正常使用第一個(gè)級別。
　　SEMRush 是一個(gè)搜索引擎優(yōu)化和搜索引擎營(yíng)銷(xiāo)服務(wù)網(wǎng)站。SEMRush 通常會(huì )采集一些 Google SERP 相關(guān)信息，包括：
　　AdWords 廣告文案、域名在 8000 萬(wàn)次關(guān)鍵詞搜索中的排名、域名統計和關(guān)鍵詞統計、搜索量統計、搜索結果數、按點(diǎn)擊付費廣告等相關(guān)信息。
　　3
　　一些利基但很好
　　AMZ 追蹤器
　　使用此工具，您可以更好地了解關(guān)鍵詞排名并產(chǎn)生新的想法來(lái)優(yōu)化列表和促進(jìn)銷(xiāo)售。
　　這種銷(xiāo)售跟蹤監控工具允許賣(mài)家及時(shí)了解競爭對手的信息，包括單日銷(xiāo)售額、總收入、庫存等。
　　當您輸入關(guān)鍵詞或關(guān)鍵詞的一部分時(shí)，排名靠前的結果通常是由最高的搜索量生成的——之后大多是按字母順序排列的。
　　等級追蹤器
　　Race Tracer 在亞馬遜上查找任何產(chǎn)品的銷(xiāo)售排名和銷(xiāo)售圖表，并生成虛擬實(shí)時(shí)銷(xiāo)售數據（即一小時(shí)內），這意味著(zhù)您可以快速抓住新的機會(huì )。
　　該工具還可以找出在亞馬遜上銷(xiāo)售的書(shū)籍或產(chǎn)品，找出您的競爭對手正在使用的營(yíng)銷(xiāo)策略和促銷(xiāo)活動(dòng)，并相應地添加到您的營(yíng)銷(xiāo)計劃中。
　　最后，老李要提醒大家，如果想要一個(gè)準確而強大的關(guān)鍵詞，當然可以使用一些工具。為什么不？同時(shí)，每個(gè)人都要善于分析。為什么有些暢銷(xiāo)的產(chǎn)品可以多下單？對當時(shí)使用的關(guān)鍵詞做更多的研究，你是怎么找到的。但是好的關(guān)鍵詞還是需要在亞馬遜頁(yè)面上試驗，當然你也可以使用一些關(guān)鍵詞的工具來(lái)提高準確率。
　　聯(lián)系我們
　　地址：上海市新華路365弄6號東華大學(xué)科技園8號樓1層
　　郵件：
　　客戶(hù)服務(wù)熱線(xiàn)：
　　聯(lián)系人：魏經(jīng)理
　　綜合咨詢(xún)：陳先生
　　美好的過(guò)去文章：
　　1.""
　　2.""
　　》
　　》
　　》
　　》
　　》
　　》
　　》查看全部

　　心得:【馬克拉伯每日分享】機器視覺(jué)三種目標識別方法——深度學(xué)習法
　　深度學(xué)習的概念對于機器視覺(jué)來(lái)說(shuō)相對較新，但對于機器學(xué)習來(lái)說(shuō)絕對不是新的。深度學(xué)習是機器學(xué)習的一種特殊類(lèi)型，是人工智能的一種。在短短幾年內，深度學(xué)習已經(jīng)能夠在許多領(lǐng)域比任何傳統算法更好地對圖像進(jìn)行分類(lèi)，并可能很快超越人類(lèi)的檢測能力。
　　深度學(xué)習軟件使用多層神經(jīng)網(wǎng)絡(luò )根據人工檢查員標記的圖像識別好壞圖像。這些數據集通常收錄至少 100 個(gè)每種缺陷類(lèi)型的圖像，并且網(wǎng)絡(luò )經(jīng)過(guò)訓練以創(chuàng )建一個(gè)模型，該模型對每個(gè)輸入圖像中的對象進(jìn)行分類(lèi)并確保高水平的可預測性。
　　不得不說(shuō)，深度學(xué)習對傳統的機器視覺(jué)技術(shù)很有希望，因為它不同于使用基于規則的方法的傳統圖像處理算法。在傳統的機器視覺(jué)中，需要手動(dòng)設計特征。
　　隨著(zhù)工業(yè)自動(dòng)化水平的不斷提高，傳統機器視覺(jué)邏輯局限簡(jiǎn)單，無(wú)法應用于隨機性強、特征復雜的任務(wù)。
　　當圖像模板不足以覆蓋所有可能的樣本時(shí)，通過(guò)預先設置很難實(shí)現缺陷特征。
　　當圖像不規則和不規則時(shí)，很難根據經(jīng)驗手動(dòng)設計特征并直接輸出映射關(guān)系。
　　

　　然而，在深度學(xué)習中，我們的訓練輸入不再是常規數據，它可能是語(yǔ)言、對話(huà)語(yǔ)料庫、圖像或視頻。因此，深度學(xué)習的核心任務(wù)是找到一個(gè)能夠將我們的輸入轉化為正確輸出的模型。
　　目前，機器視覺(jué)用戶(hù)已經(jīng)可以在市場(chǎng)上找到深度學(xué)習系統軟件。例如，首個(gè)深度學(xué)習工業(yè)圖像分析平臺——時(shí)刻視覺(jué)智能低碼平臺，以人工智能技術(shù)為核心，為開(kāi)發(fā)者提供圖像采集、圖像標注、算法開(kāi)發(fā)、算法封裝和應用集成。一站式完整工具鏈。深度學(xué)習的另一個(gè)優(yōu)勢是，與傳統的機器視覺(jué)解決方案相比，它可以減少開(kāi)發(fā)機器視覺(jué)程序所需的時(shí)間。一般來(lái)說(shuō)，大多數機器視覺(jué)應用需要60天以上的軟件開(kāi)發(fā)和可行性測試，而使用Matrix Smart低代碼平臺可以在10分鐘內完成開(kāi)發(fā)。
　　什么是馬克拉伯？
　　MookLab 是一個(gè)機器視覺(jué)應用的開(kāi)放社區。MookLab 致力于幫助用戶(hù)以最低的成本和門(mén)檻構建視覺(jué)系統。具體來(lái)說(shuō)：
　　1）提供免費軟件：平臺提供免費可視化軟件，專(zhuān)業(yè)團隊提供免費軟件服務(wù)支持。
　　2）篩選整合優(yōu)質(zhì)視覺(jué)硬件品牌：如整合優(yōu)質(zhì)視覺(jué)硬件（如相機、鏡頭、光源）等品牌，為用戶(hù)提供低成本的視覺(jué)配件匹配平臺。
　　

　　3）提供項目應用支持：提供技術(shù)服務(wù)交易平臺，吸納平臺各區域的集成商用戶(hù)作為視覺(jué)應用服務(wù)商，為部分視覺(jué)應用能力較弱的用戶(hù)提供就近和行業(yè)針對性的應用支持服務(wù)。
　　4）提供專(zhuān)業(yè)的人才培養機制：面向行業(yè)初學(xué)者和大專(zhuān)院校教育的機器視覺(jué)實(shí)驗平臺+軟件包，以及相應的教育支持服務(wù)。
　　SGVision 是什么以及它與 MookLab 的關(guān)系？
　　SGVision 是一款無(wú)需編程即可使用的機器視覺(jué)應用軟件。SGVision軟件的無(wú)限永久免費許可是Mooklab平臺為平臺會(huì )員提供的權利，所以該權利以用戶(hù)為會(huì )員用戶(hù)為前提。
　　如何獲得免費的機器視覺(jué)檢測軟件SGvision？
　　下載鏈接：
　　直觀(guān):優(yōu)化+選品，這些亞馬遜關(guān)鍵詞分析工具很實(shí)用
　　在亞馬遜店鋪運營(yíng)的過(guò)程中，很多時(shí)候我們需要借助工具來(lái)達到事半功倍的效果。而關(guān)鍵詞作為seo優(yōu)化的最小單位也是非常重要的。
　　今天老李就講幾個(gè)特別好用的亞馬遜關(guān)鍵詞分析工具。
　　為什么要使用這些分析工具？
　　亞馬遜本身不對外開(kāi)放內部數據，所以我們需要自力更生。其實(shí)在海外營(yíng)銷(xiāo)中，分析工具是很常見(jiàn)的，但是因為比較廣泛，對賣(mài)家的針對性不是很強。今天，我們將開(kāi)出正確的藥方。
　　關(guān)鍵詞分析工具有什么用？
　　幫助賣(mài)家分析產(chǎn)品的關(guān)鍵詞是否有效，一些工具還提供很多相關(guān)詞條的搜索曲線(xiàn)。在大數據時(shí)代，這些數據可以說(shuō)是第一手信息，幫助賣(mài)家發(fā)現新的藍海，這個(gè)過(guò)程就是數據的選擇。
　　1
　　自由的
　　谷歌廣告關(guān)鍵詞
　?。ɡ箱叫苡昧ν疲?br /> 　　Google Ads 下的附加功能是非常常用的關(guān)鍵詞工具，包括以下兩個(gè)：
　　關(guān)鍵詞關(guān)鍵字規劃師
　　谷歌趨勢谷歌趨勢
　　這兩個(gè)工具需要翻墻才能使用，并且需要注冊自己的google郵箱才能開(kāi)通adwords賬號（具體操作流程見(jiàn)）。
　　賣(mài)家可以使用關(guān)鍵詞規劃器來(lái)優(yōu)化亞馬遜的搜索內容，但需要注意的一點(diǎn)是，純電商網(wǎng)站中消費者的搜索方式與萬(wàn)能搜索引擎并不一致。有時(shí)候關(guān)鍵詞planne分析出的高頻關(guān)鍵詞并不代表消費者想購買(mǎi)這個(gè)產(chǎn)品，或者他們可能只是想了解與關(guān)鍵詞相關(guān)的其他方面。
　　以iphone 7機箱關(guān)鍵詞為例，在紅框標注的部分輸入關(guān)鍵詞
　　彈窗如下，在這個(gè)頁(yè)面，你可以看到最相關(guān)的高頻關(guān)鍵詞，并且會(huì )告訴你搜索量（這個(gè)功能需要谷歌廣告賬號）
　　然后，可以在google趨勢中查看這些詞的搜索趨勢對比，也可以看到相關(guān)的搜索詞，如下圖1和圖2所示
　　圖1
　　圖 2
　　Amazon Autosuggest（即下拉列表）
　　這也是一個(gè)非常簡(jiǎn)單常用的關(guān)鍵詞工具。在亞馬遜搜索框中輸入關(guān)鍵詞，下拉列表中會(huì )出現幾個(gè)相關(guān)的關(guān)鍵詞，如下圖所示。你可以為這些關(guān)鍵詞建立一個(gè)列表，然后一一統計對應的搜索結果。
　　幾乎每個(gè)亞馬遜關(guān)鍵詞工具都從自動(dòng)建議中獲取一個(gè) 關(guān)鍵詞列表，并將這些詞轉換為更直觀(guān)的圖表和目標。
　　搜索引擎優(yōu)化聊天關(guān)鍵字建議工具
　?。ɡ箱叫苡昧ν疲?br /> 　　即 SEO Chat 關(guān)鍵詞建議工具。這個(gè)由 SEOChat 開(kāi)發(fā)的關(guān)鍵詞建議工具會(huì )主動(dòng)爬取 Google、Bing、YouTube 和亞馬遜的關(guān)鍵詞自動(dòng)建議數據。賣(mài)家可以選擇一次獲取四個(gè)網(wǎng)站數據來(lái)比較人們在傳統搜索、產(chǎn)品搜索和視頻搜索方面的差異，也可以選擇亞馬遜平臺，專(zhuān)注于產(chǎn)品搜索。
　　使用 SEO Chat關(guān)鍵詞工具需要三個(gè)步驟：
　?。?）先輸入關(guān)鍵詞或關(guān)鍵詞的一部分，工具會(huì )抓取亞馬遜的自動(dòng)提示關(guān)鍵詞，下圖是第一步搜索“蘑菇套裝”。
　　

　　這個(gè)工具的獨特之處在于它還會(huì )自動(dòng)關(guān)聯(lián)后續關(guān)鍵詞s的首字母，并在賣(mài)家每次輸入一個(gè)完整的單詞時(shí)顯示相關(guān)的關(guān)鍵詞s。
　　比如上圖中，在SEO Chat工具中輸入“mushroom kit”后，它會(huì )自動(dòng)在末尾添加字母“i”，這提示亞馬遜顯示短語(yǔ)“mushroom kit interior”，即前10個(gè)條目關(guān)鍵詞不在建議的結果中。
　　(2) 選擇所有結果后，點(diǎn)擊“Run Part 2: Bulk Suggest”按鈕，該工具會(huì )運行亞馬遜搜索框中的所有關(guān)鍵詞建議，然后賣(mài)家可以獲得更具體的自動(dòng)建議關(guān)鍵詞組。第一步產(chǎn)生了 13 個(gè)結果，而第二步產(chǎn)生了 6 個(gè)結果，總共 19 個(gè)關(guān)鍵詞。
　　(3) 最后，點(diǎn)擊“Run Part 3: Useful Suggest”按鈕，賣(mài)家每月可以通過(guò)SEMRush API獲取100條Google Keyword Tool搜索數據。但是，100 個(gè) 關(guān)鍵詞組太有限了，所以賣(mài)家也可以跳過(guò)第 3 步，導出數據并在 Google Keyword Tool 上運行。
　　SEO Chat 的關(guān)鍵詞工具非常簡(jiǎn)單。雖然只需單擊一兩次按鈕即可獲得結果，但它可以隨時(shí)導出數據、擴大或縮小數據，而且該工具是 100% 免費的。
　　關(guān)鍵字工具支配者
　　價(jià)格：免費試用僅限每天 3 個(gè)關(guān)鍵詞，終身訂閱基本計劃 16 美元，以及其他選項可供選擇。
　　Keyword Tool Dominator 提供獨特的數據：排名 1-10 關(guān)鍵詞基于亞馬遜的自動(dòng)建議關(guān)鍵詞表。#1 最受歡迎的關(guān)鍵詞建議短語(yǔ)，第 10 受歡迎的不太受歡迎。
　　但是，Keyword Tool Dominator 生成的亞馬遜自動(dòng)提示關(guān)鍵詞不如 SEO Chat 全面。同樣輸入“mushroom kit”只會(huì )產(chǎn)生 4 個(gè)結果，如下圖所示。相比之下，SEO Chat 是 19 歲。
　　但是，數據排名很有趣，賣(mài)家可以將 Keyword Tool Dominator 和 SEO Chat 與 Google Keyword Tool 的月度搜索數據結合起來(lái)。賣(mài)家需要至少支付 16 美元才能獲得 3+ 每天關(guān)鍵詞。
　　科學(xué)賣(mài)家
　?。ɡ箱叫苡昧ν疲?br /> 　　價(jià)格：免費，可升級
　　科學(xué)賣(mài)家的免費亞馬遜關(guān)鍵詞工具關(guān)鍵詞優(yōu)化工具，基本功能免費，主要通過(guò)后續升級盈利，比其他工具更深入。用了一個(gè)小時(shí)，發(fā)現了58個(gè)關(guān)鍵詞，幾乎是SEO Chat的三倍，而且關(guān)鍵詞里面有SEO Chat做的“食用菌套裝”和“小蘑菇套裝”找不到。成套工具”。
　　免費版只能查美國站，要查其他站就得充值了。查詢(xún)速度比較慢，需要一段時(shí)間才能得到更多的結果。
　　該應用僅向亞馬遜買(mǎi)家顯示關(guān)鍵詞。如果您在亞馬遜的搜索框中輸入關(guān)鍵詞，系統會(huì )自動(dòng)顯示完整的關(guān)鍵詞（因為這些關(guān)鍵詞亞馬遜客戶(hù)使用頻率很高）幫助您完成搜索。
　　這個(gè)免費工具從各種來(lái)源采集關(guān)鍵詞，包括潛在語(yǔ)義索引 (LSI)，但如果不是 Amazon關(guān)鍵詞，則會(huì )自動(dòng)過(guò)濾掉。允許賣(mài)家刪除條款，增加關(guān)鍵詞的相關(guān)性。
　　2
　　收費
　　商家詞
　　價(jià)格：每月 30 美元
　　MerchantWords 是唯一可以將您的搜索范圍縮小到特定亞馬遜類(lèi)別的關(guān)鍵詞工具，為您提供與您的搜索相匹配的產(chǎn)品類(lèi)別，如下所示：
　　MerchantWords 還通過(guò)算法確定與輸入的詞關(guān)鍵詞相關(guān)的每月搜索次數。不過(guò)，也有賣(mài)家對這一數據的結果表示懷疑。例如，一個(gè)月內，有 73,500 人在亞馬遜上搜索“蘑菇包”，但在 Google 上搜索相同詞的只有 1,300 人。這個(gè)數據不可信。
　　如果賣(mài)家想要獲得超過(guò) 5 個(gè)搜索結果，那么他們需要以每月 30 美元的價(jià)格訂閱完整版。
　　Merchantwords有一個(gè)強項，就是同義詞可以出現在搜索結果中：比如你搜索pest repeler，pest repelant也會(huì )出來(lái)。
　　SEOBook關(guān)鍵字工具
　　收費
　　這個(gè)工具可以看到搜索量
　　關(guān)鍵字工具支配者
　　收費
　　這個(gè)工具直接有亞馬遜的關(guān)鍵詞搜索（圖3），也可以根據不同站點(diǎn)調整關(guān)鍵詞（圖4）。
　　圖 3
　　

　　圖 4
　　還有一點(diǎn)是，雖然這個(gè)工具說(shuō)一天只有3個(gè)機會(huì )，但實(shí)際上，如果你關(guān)閉頁(yè)面再重新打開(kāi)，你又可以有3個(gè)搜索機會(huì )。當然，如果覺(jué)得麻煩，可以付費購買(mǎi)，16美元可以永久使用。
　　列出的關(guān)鍵字列表 1~10 按受歡迎程度降序排列。1 表示此關(guān)鍵字最受歡迎。事實(shí)上，這個(gè)工具也是基于處理亞馬遜下拉列表得到的數據。
　　Semrush關(guān)鍵詞競爭力工具
　?。ɡ箱叫苡昧ν疲?br /> 　　目前沒(méi)有中文版。免費使用，但有限制。付費，一共有三個(gè)級別，$69.95, $79.95, $149.95 可以正常使用第一個(gè)級別。
　　SEMRush 是一個(gè)搜索引擎優(yōu)化和搜索引擎營(yíng)銷(xiāo)服務(wù)網(wǎng)站。SEMRush 通常會(huì )采集一些 Google SERP 相關(guān)信息，包括：
　　AdWords 廣告文案、域名在 8000 萬(wàn)次關(guān)鍵詞搜索中的排名、域名統計和關(guān)鍵詞統計、搜索量統計、搜索結果數、按點(diǎn)擊付費廣告等相關(guān)信息。
　　3
　　一些利基但很好
　　AMZ 追蹤器
　　使用此工具，您可以更好地了解關(guān)鍵詞排名并產(chǎn)生新的想法來(lái)優(yōu)化列表和促進(jìn)銷(xiāo)售。
　　這種銷(xiāo)售跟蹤監控工具允許賣(mài)家及時(shí)了解競爭對手的信息，包括單日銷(xiāo)售額、總收入、庫存等。
　　當您輸入關(guān)鍵詞或關(guān)鍵詞的一部分時(shí)，排名靠前的結果通常是由最高的搜索量生成的——之后大多是按字母順序排列的。
　　等級追蹤器
　　Race Tracer 在亞馬遜上查找任何產(chǎn)品的銷(xiāo)售排名和銷(xiāo)售圖表，并生成虛擬實(shí)時(shí)銷(xiāo)售數據（即一小時(shí)內），這意味著(zhù)您可以快速抓住新的機會(huì )。
　　該工具還可以找出在亞馬遜上銷(xiāo)售的書(shū)籍或產(chǎn)品，找出您的競爭對手正在使用的營(yíng)銷(xiāo)策略和促銷(xiāo)活動(dòng)，并相應地添加到您的營(yíng)銷(xiāo)計劃中。
　　最后，老李要提醒大家，如果想要一個(gè)準確而強大的關(guān)鍵詞，當然可以使用一些工具。為什么不？同時(shí)，每個(gè)人都要善于分析。為什么有些暢銷(xiāo)的產(chǎn)品可以多下單？對當時(shí)使用的關(guān)鍵詞做更多的研究，你是怎么找到的。但是好的關(guān)鍵詞還是需要在亞馬遜頁(yè)面上試驗，當然你也可以使用一些關(guān)鍵詞的工具來(lái)提高準確率。
　　聯(lián)系我們
　　地址：上海市新華路365弄6號東華大學(xué)科技園8號樓1層
　　郵件：
　　客戶(hù)服務(wù)熱線(xiàn)：
　　聯(lián)系人：魏經(jīng)理
　　綜合咨詢(xún)：陳先生
　　美好的過(guò)去文章：
　　1.""
　　2.""
　　》
　　》
　　》
　　》
　　》
　　》
　　》

匯總:采集規則如何寫(xiě)？免費任意網(wǎng)頁(yè)數據采集一款不用寫(xiě)規則的采集器

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 96 次瀏覽 ? 2022-10-29 19:20 ? 來(lái)自相關(guān)話(huà)題

　　匯總:采集規則如何寫(xiě)？免費任意網(wǎng)頁(yè)數據采集一款不用寫(xiě)規則的采集器
　　采集規則怎么寫(xiě)？相信很多人都用過(guò)很多采集器，基本上每一個(gè)采集器都會(huì )寫(xiě)采集規則，對很多新手不友好。今天給大家分享一個(gè)不需要寫(xiě)采集規則的免費采集器。只需輸入域名，或輸入關(guān)鍵詞即可實(shí)現網(wǎng)站批量采集。詳情請參閱圖片教程。
　　網(wǎng)站成立的目的是為了更好的服務(wù)市場(chǎng)，采集規則是怎么寫(xiě)的但是這個(gè)服務(wù)有具體的操作意義。比如購物網(wǎng)站的目的是促進(jìn)消費，促進(jìn)營(yíng)業(yè)額。不管是什么網(wǎng)站，網(wǎng)站完成后的執行是非常有必要的，常用的執行方式有競價(jià)和優(yōu)化。網(wǎng)站優(yōu)化比競價(jià)有什么優(yōu)勢？SEO的方式是網(wǎng)友自己搜索后帶來(lái)的網(wǎng)站。這是用戶(hù)有確切需求的搜索。它可以很好地防止廣告方法和精確定位活動(dòng)帶來(lái)的負面厭惡。
　　競價(jià)是對點(diǎn)擊量的扣減，所以被別人惡意點(diǎn)擊的網(wǎng)站會(huì )損失不少。采集規則怎么寫(xiě)和網(wǎng)站優(yōu)化帶來(lái)的排名真實(shí)自然，點(diǎn)擊不扣費，所以無(wú)論點(diǎn)擊屬于客戶(hù)類(lèi)型還是惡意點(diǎn)擊同行，不會(huì )給企業(yè)帶來(lái)?yè)p失的風(fēng)險。優(yōu)化方法需要關(guān)注網(wǎng)站的動(dòng)態(tài)，及時(shí)更新客戶(hù)需求的信息和內容，以保持網(wǎng)站的生動(dòng)性和新穎性。
　　
　　SEO優(yōu)化后，除非搜索引擎算法出現嚴重錯誤，采集規則怎么寫(xiě)，或者確實(shí)有強大的競爭對手，網(wǎng)站的排名總是會(huì )比較穩定。其實(shí)我們都知道這種搜索引擎出現算法嚴重錯誤的概率是很低的，除非你頭腦一熱，做了一些違法的技術(shù)，比如黑帽seo。所以在穩定性方面，只要你的關(guān)鍵詞排名上去，基本就很穩定了。
　　投標是一種非常昂貴的實(shí)施方法。在SEO優(yōu)化一年的排名成本中，采集規則怎么寫(xiě)，可能是一兩個(gè)月的競價(jià)成本。SEO優(yōu)化可以說(shuō)在成本上降低了很多。
　　很多人在選擇SEO的時(shí)候，第一次看到SEO的成本并不高。采集規則怎么寫(xiě)？等了一會(huì )兒，他們自然會(huì )發(fā)現，這種優(yōu)化方式帶來(lái)的好處是最吸引人的。例如，這種優(yōu)化方式帶來(lái)了很強的穩定性，防止惡意點(diǎn)擊的發(fā)生，實(shí)現了精準的流量。
　　學(xué)習任何專(zhuān)業(yè)都需要一個(gè)周期，不同的朋友會(huì )在不同的時(shí)間學(xué)習這個(gè)專(zhuān)業(yè)。采集規則怎么寫(xiě) 很多零基礎的朋友在學(xué)習SEO技巧的時(shí)候都會(huì )遇到類(lèi)似的問(wèn)題。他們從頭開(kāi)始學(xué)習搜索引擎優(yōu)化技術(shù)需要多長(cháng)時(shí)間？
　　
　　一般來(lái)說(shuō)，如果你從零開(kāi)始去更好的SEO培訓機構，你需要三個(gè)月到六個(gè)月的時(shí)間來(lái)學(xué)習采集規則是如何編寫(xiě)的。這個(gè)社會(huì )的概念并不意味著(zhù)成為SEO專(zhuān)家，而是可以說(shuō)是真正融入了行業(yè)，能夠匹配行業(yè)內的職位。
　　但如果只能達到與普通seo職位相匹配的人才，很多朋友會(huì )不滿(mǎn)意。因為在學(xué)習搜索引擎優(yōu)化技術(shù)之前，采集如何寫(xiě)規則，我想通過(guò)搜索引擎優(yōu)化專(zhuān)業(yè)提高自己的工作能力。我什至能夠以這個(gè)專(zhuān)業(yè)為起點(diǎn)，進(jìn)入一個(gè)非常理想的創(chuàng )業(yè)狀態(tài)。如果你想達到這個(gè)水平，需要多長(cháng)時(shí)間？簡(jiǎn)單來(lái)說(shuō)，根據不同朋友的學(xué)習能力、理解能力、執行能力等，結果會(huì )大不相同。
　　雖然我是seo技術(shù)專(zhuān)業(yè)的，完全沒(méi)有聯(lián)系，但是在時(shí)不時(shí)的學(xué)習過(guò)程中，采集規則的寫(xiě)法保證了我的學(xué)習能力和執行態(tài)度。我每天都會(huì )抽出一定的時(shí)間來(lái)分析案例，我會(huì )搭建幾個(gè)網(wǎng)站來(lái)積累實(shí)踐經(jīng)驗。在這樣的狀態(tài)下，如何編寫(xiě)培訓課程的采集規則的分離，會(huì )使一個(gè)人的專(zhuān)業(yè)進(jìn)步迅速，最終達到預期的學(xué)習效果。
　　解決方案:關(guān)于織夢(mèng)采集，你需要知道這些問(wèn)題？
　　織夢(mèng)系統是國內最早使用的cms系統，也是使用最多的cms系統?？棄?mèng)后臺界面雖然不漂亮，但它的邏輯結構還是很清晰的，至少你可以花10分鐘時(shí)間熟悉整個(gè)后臺的基本操作，上手速度非?？?！因此，織夢(mèng)也適合初學(xué)者開(kāi)始使用。因為新手太多，很多人不會(huì )用織夢(mèng)采集。今天就和大家聊一聊織夢(mèng)采集以及如何自動(dòng)掛機織夢(mèng)采集發(fā)帖推！
　　1、我們打開(kāi)織夢(mèng)后臺點(diǎn)擊采集——采集節點(diǎn)管理——添加新節點(diǎn)，填寫(xiě)網(wǎng)站列表的相關(guān)規則即可采集，查看采集網(wǎng)站的代碼和網(wǎng)站源代碼，我們右鍵，點(diǎn)擊查看源代碼，在源代碼的開(kāi)頭，找到一個(gè)meta標記帶有charset=某個(gè)編碼，比如charset="gb2312"，這就是所謂的網(wǎng)站編碼。選擇采集站點(diǎn)的代碼后
　　2.我們查看采集站點(diǎn)列表頁(yè)的源碼，找到文章列表開(kāi)始html和結束html標簽，復制到添加采集節點(diǎn)->文章 URL 匹配規則的“范圍開(kāi)始 HTML”和“范圍結束 HTML”輸入框。您不必右鍵單擊查看源代碼找到文章列表開(kāi)始標記，您可以右鍵單擊文章開(kāi)始的位置并檢查元素（chrome瀏覽器，firefox是view element)，這樣更方便在列表的開(kāi)頭和結尾找到文章標簽。設置好后，我們點(diǎn)擊“保存信息，進(jìn)入下一步”
　　3. URL獲取規則測試如果測試結果中發(fā)現不相關(guān)的URL信息，是URL過(guò)濾規則錯誤或者過(guò)濾規則沒(méi)有填寫(xiě)，如果發(fā)現采集錯誤，可以返回最后修改，如果沒(méi)有，點(diǎn)擊“保存信息并進(jìn)入下一步”。
　　4.內容字段獲取規則查看采集站點(diǎn)的文章源碼，找到相關(guān)選項的開(kāi)始和結束html標簽，填寫(xiě)指定位置，開(kāi)始和結束標簽分開(kāi)通過(guò)“[內容]”
　　5.過(guò)濾規則如：網(wǎng)站每篇文章文章都有一個(gè)iframe標簽，我們要網(wǎng)頁(yè)的采集文章，采集不可能回來(lái)吧，這個(gè)廣告要一一去掉。但是如何去除呢？刪除方法是過(guò)濾規則。當我們點(diǎn)擊常用規則時(shí)，會(huì )彈出一個(gè)小窗口，列出常用的過(guò)濾規則。我們只需要點(diǎn)擊我們想要過(guò)濾的規則。要在 iframe 標簽中過(guò)濾網(wǎng)站文章，我們只需點(diǎn)擊 iframe。.
　　
　　四、第三方織夢(mèng)采集軟件兼容性的優(yōu)勢：
　　1.支持任何PHP版本
　　2.支持任意版本的Mysql
　　3.支持任何版本的Nginx
　　4.支持任何織夢(mèng)cms版本
　　采集將因版本不匹配或服務(wù)器環(huán)境不支持等其他原因不可用
　　5.第三方織夢(mèng)采集軟件更易用
　　
　　門(mén)檻低：無(wú)需花大量時(shí)間學(xué)習軟件操作，一分鐘即可上手，無(wú)需配置采集規則，輸入關(guān)鍵詞到采集即可。
　　高效：提供一站式網(wǎng)站文章解決方案，無(wú)需人工干預，設置任務(wù)自動(dòng)執行采集releases。
　　零成本：幾十萬(wàn)個(gè)不同的cms網(wǎng)站可以統一管理。一個(gè)人維護數百個(gè) 網(wǎng)站文章更新也不是問(wèn)題。
　　織夢(mèng)第三方采集軟件很強大，只要輸入關(guān)鍵詞采集，完全可以實(shí)現自動(dòng)采集和發(fā)布文章，為了讓搜索引擎收錄你的網(wǎng)站，我們還可以設置自動(dòng)下載圖片和替換鏈接，支持的圖片存儲方式：阿里云OSS、七牛對象存儲、騰訊云，再拍云。同時(shí)還配備了自動(dòng)內鏈，在內容或標題前后插入一定的內容，形成“偽原創(chuàng )”。軟件還有監控功能，可以直接通過(guò)軟件查看文章采集的發(fā)布狀態(tài)?？赐赀@篇文章，如果你覺(jué)得不錯，不妨采集起來(lái)或發(fā)給有需要的朋友和同事！你的一舉一動(dòng)都會(huì )成為小編源源不斷的動(dòng)力！查看全部

　　匯總:采集規則如何寫(xiě)？免費任意網(wǎng)頁(yè)數據采集一款不用寫(xiě)規則的采集器
　　采集規則怎么寫(xiě)？相信很多人都用過(guò)很多采集器，基本上每一個(gè)采集器都會(huì )寫(xiě)采集規則，對很多新手不友好。今天給大家分享一個(gè)不需要寫(xiě)采集規則的免費采集器。只需輸入域名，或輸入關(guān)鍵詞即可實(shí)現網(wǎng)站批量采集。詳情請參閱圖片教程。
　　網(wǎng)站成立的目的是為了更好的服務(wù)市場(chǎng)，采集規則是怎么寫(xiě)的但是這個(gè)服務(wù)有具體的操作意義。比如購物網(wǎng)站的目的是促進(jìn)消費，促進(jìn)營(yíng)業(yè)額。不管是什么網(wǎng)站，網(wǎng)站完成后的執行是非常有必要的，常用的執行方式有競價(jià)和優(yōu)化。網(wǎng)站優(yōu)化比競價(jià)有什么優(yōu)勢？SEO的方式是網(wǎng)友自己搜索后帶來(lái)的網(wǎng)站。這是用戶(hù)有確切需求的搜索。它可以很好地防止廣告方法和精確定位活動(dòng)帶來(lái)的負面厭惡。
　　競價(jià)是對點(diǎn)擊量的扣減，所以被別人惡意點(diǎn)擊的網(wǎng)站會(huì )損失不少。采集規則怎么寫(xiě)和網(wǎng)站優(yōu)化帶來(lái)的排名真實(shí)自然，點(diǎn)擊不扣費，所以無(wú)論點(diǎn)擊屬于客戶(hù)類(lèi)型還是惡意點(diǎn)擊同行，不會(huì )給企業(yè)帶來(lái)?yè)p失的風(fēng)險。優(yōu)化方法需要關(guān)注網(wǎng)站的動(dòng)態(tài)，及時(shí)更新客戶(hù)需求的信息和內容，以保持網(wǎng)站的生動(dòng)性和新穎性。
　　

　　SEO優(yōu)化后，除非搜索引擎算法出現嚴重錯誤，采集規則怎么寫(xiě)，或者確實(shí)有強大的競爭對手，網(wǎng)站的排名總是會(huì )比較穩定。其實(shí)我們都知道這種搜索引擎出現算法嚴重錯誤的概率是很低的，除非你頭腦一熱，做了一些違法的技術(shù)，比如黑帽seo。所以在穩定性方面，只要你的關(guān)鍵詞排名上去，基本就很穩定了。
　　投標是一種非常昂貴的實(shí)施方法。在SEO優(yōu)化一年的排名成本中，采集規則怎么寫(xiě)，可能是一兩個(gè)月的競價(jià)成本。SEO優(yōu)化可以說(shuō)在成本上降低了很多。
　　很多人在選擇SEO的時(shí)候，第一次看到SEO的成本并不高。采集規則怎么寫(xiě)？等了一會(huì )兒，他們自然會(huì )發(fā)現，這種優(yōu)化方式帶來(lái)的好處是最吸引人的。例如，這種優(yōu)化方式帶來(lái)了很強的穩定性，防止惡意點(diǎn)擊的發(fā)生，實(shí)現了精準的流量。
　　學(xué)習任何專(zhuān)業(yè)都需要一個(gè)周期，不同的朋友會(huì )在不同的時(shí)間學(xué)習這個(gè)專(zhuān)業(yè)。采集規則怎么寫(xiě) 很多零基礎的朋友在學(xué)習SEO技巧的時(shí)候都會(huì )遇到類(lèi)似的問(wèn)題。他們從頭開(kāi)始學(xué)習搜索引擎優(yōu)化技術(shù)需要多長(cháng)時(shí)間？
　　

　　一般來(lái)說(shuō)，如果你從零開(kāi)始去更好的SEO培訓機構，你需要三個(gè)月到六個(gè)月的時(shí)間來(lái)學(xué)習采集規則是如何編寫(xiě)的。這個(gè)社會(huì )的概念并不意味著(zhù)成為SEO專(zhuān)家，而是可以說(shuō)是真正融入了行業(yè)，能夠匹配行業(yè)內的職位。
　　但如果只能達到與普通seo職位相匹配的人才，很多朋友會(huì )不滿(mǎn)意。因為在學(xué)習搜索引擎優(yōu)化技術(shù)之前，采集如何寫(xiě)規則，我想通過(guò)搜索引擎優(yōu)化專(zhuān)業(yè)提高自己的工作能力。我什至能夠以這個(gè)專(zhuān)業(yè)為起點(diǎn)，進(jìn)入一個(gè)非常理想的創(chuàng )業(yè)狀態(tài)。如果你想達到這個(gè)水平，需要多長(cháng)時(shí)間？簡(jiǎn)單來(lái)說(shuō)，根據不同朋友的學(xué)習能力、理解能力、執行能力等，結果會(huì )大不相同。
　　雖然我是seo技術(shù)專(zhuān)業(yè)的，完全沒(méi)有聯(lián)系，但是在時(shí)不時(shí)的學(xué)習過(guò)程中，采集規則的寫(xiě)法保證了我的學(xué)習能力和執行態(tài)度。我每天都會(huì )抽出一定的時(shí)間來(lái)分析案例，我會(huì )搭建幾個(gè)網(wǎng)站來(lái)積累實(shí)踐經(jīng)驗。在這樣的狀態(tài)下，如何編寫(xiě)培訓課程的采集規則的分離，會(huì )使一個(gè)人的專(zhuān)業(yè)進(jìn)步迅速，最終達到預期的學(xué)習效果。
　　解決方案:關(guān)于織夢(mèng)采集，你需要知道這些問(wèn)題？
　　織夢(mèng)系統是國內最早使用的cms系統，也是使用最多的cms系統?？棄?mèng)后臺界面雖然不漂亮，但它的邏輯結構還是很清晰的，至少你可以花10分鐘時(shí)間熟悉整個(gè)后臺的基本操作，上手速度非?？?！因此，織夢(mèng)也適合初學(xué)者開(kāi)始使用。因為新手太多，很多人不會(huì )用織夢(mèng)采集。今天就和大家聊一聊織夢(mèng)采集以及如何自動(dòng)掛機織夢(mèng)采集發(fā)帖推！
　　1、我們打開(kāi)織夢(mèng)后臺點(diǎn)擊采集——采集節點(diǎn)管理——添加新節點(diǎn)，填寫(xiě)網(wǎng)站列表的相關(guān)規則即可采集，查看采集網(wǎng)站的代碼和網(wǎng)站源代碼，我們右鍵，點(diǎn)擊查看源代碼，在源代碼的開(kāi)頭，找到一個(gè)meta標記帶有charset=某個(gè)編碼，比如charset="gb2312"，這就是所謂的網(wǎng)站編碼。選擇采集站點(diǎn)的代碼后
　　2.我們查看采集站點(diǎn)列表頁(yè)的源碼，找到文章列表開(kāi)始html和結束html標簽，復制到添加采集節點(diǎn)->文章 URL 匹配規則的“范圍開(kāi)始 HTML”和“范圍結束 HTML”輸入框。您不必右鍵單擊查看源代碼找到文章列表開(kāi)始標記，您可以右鍵單擊文章開(kāi)始的位置并檢查元素（chrome瀏覽器，firefox是view element)，這樣更方便在列表的開(kāi)頭和結尾找到文章標簽。設置好后，我們點(diǎn)擊“保存信息，進(jìn)入下一步”
　　3. URL獲取規則測試如果測試結果中發(fā)現不相關(guān)的URL信息，是URL過(guò)濾規則錯誤或者過(guò)濾規則沒(méi)有填寫(xiě)，如果發(fā)現采集錯誤，可以返回最后修改，如果沒(méi)有，點(diǎn)擊“保存信息并進(jìn)入下一步”。
　　4.內容字段獲取規則查看采集站點(diǎn)的文章源碼，找到相關(guān)選項的開(kāi)始和結束html標簽，填寫(xiě)指定位置，開(kāi)始和結束標簽分開(kāi)通過(guò)“[內容]”
　　5.過(guò)濾規則如：網(wǎng)站每篇文章文章都有一個(gè)iframe標簽，我們要網(wǎng)頁(yè)的采集文章，采集不可能回來(lái)吧，這個(gè)廣告要一一去掉。但是如何去除呢？刪除方法是過(guò)濾規則。當我們點(diǎn)擊常用規則時(shí)，會(huì )彈出一個(gè)小窗口，列出常用的過(guò)濾規則。我們只需要點(diǎn)擊我們想要過(guò)濾的規則。要在 iframe 標簽中過(guò)濾網(wǎng)站文章，我們只需點(diǎn)擊 iframe。.
　　

　　四、第三方織夢(mèng)采集軟件兼容性的優(yōu)勢：
　　1.支持任何PHP版本
　　2.支持任意版本的Mysql
　　3.支持任何版本的Nginx
　　4.支持任何織夢(mèng)cms版本
　　采集將因版本不匹配或服務(wù)器環(huán)境不支持等其他原因不可用
　　5.第三方織夢(mèng)采集軟件更易用
　　

　　門(mén)檻低：無(wú)需花大量時(shí)間學(xué)習軟件操作，一分鐘即可上手，無(wú)需配置采集規則，輸入關(guān)鍵詞到采集即可。
　　高效：提供一站式網(wǎng)站文章解決方案，無(wú)需人工干預，設置任務(wù)自動(dòng)執行采集releases。
　　零成本：幾十萬(wàn)個(gè)不同的cms網(wǎng)站可以統一管理。一個(gè)人維護數百個(gè) 網(wǎng)站文章更新也不是問(wèn)題。
　　織夢(mèng)第三方采集軟件很強大，只要輸入關(guān)鍵詞采集，完全可以實(shí)現自動(dòng)采集和發(fā)布文章，為了讓搜索引擎收錄你的網(wǎng)站，我們還可以設置自動(dòng)下載圖片和替換鏈接，支持的圖片存儲方式：阿里云OSS、七牛對象存儲、騰訊云，再拍云。同時(shí)還配備了自動(dòng)內鏈，在內容或標題前后插入一定的內容，形成“偽原創(chuàng )”。軟件還有監控功能，可以直接通過(guò)軟件查看文章采集的發(fā)布狀態(tài)?？赐赀@篇文章，如果你覺(jué)得不錯，不妨采集起來(lái)或發(fā)給有需要的朋友和同事！你的一舉一動(dòng)都會(huì )成為小編源源不斷的動(dòng)力！

解決辦法:無(wú)規則采集器列表設計方法應該注意哪些？

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 109 次瀏覽 ? 2022-10-25 02:10 ? 來(lái)自相關(guān)話(huà)題

　　解決辦法:無(wú)規則采集器列表設計方法應該注意哪些？
　　無(wú)規則采集器列表算法就是最大熵算法(zero-shotadversarialnetwork),其基本思想是：如果模仿其他人的行為則要接受被模仿的概率與模仿被成功的概率相比為0，否則算法懲罰機制則是所產(chǎn)生結果的一個(gè)條件概率，如果條件概率與采集的數據量相比為1則算法關(guān)閉。多規則采集器列表設計方法應該還有其他如最大熵方法(最大熵原理)、最大邊距采集器列表（最大邊距法）、隨機化采集器列表等不一一列舉，可參見(jiàn)geoffreyhinton教授的ml中的原理介紹。
　　
　　另外一個(gè)需要注意的是不同采集器要選擇適當算法規則以解決異或(|u1=u2|)，多值(k_u2=k_u1|)情況。原因如上所述，選擇最優(yōu)算法規則將會(huì )提高采集效率。ml算法相關(guān)的論文不多，目前比較出名的算法主要有bayesiangraphicprocessing，multi-valuefunctionalbayesiangraphicprocessing，deepgraphicprocessing，learningtomaximizevideoratio,backgroundviolationmatching,topicsmodelingandonlinelearning.。
　　開(kāi)盤(pán)秒殺，設定好條件，比如買(mǎi)入前10秒不賣(mài)出等等。
　　
　　使用網(wǎng)絡(luò )爬蟲(chóng)這種技術(shù)。按照你自己的想法，選擇一個(gè)關(guān)鍵詞。當然還可以按照年份，品種等。
　　沒(méi)有，資本市場(chǎng)根本沒(méi)有考慮這些，僅僅是通過(guò)各種新聞客戶(hù)端來(lái)看，不過(guò)現在很多券商為了提高交易效率，需要交易員在交易前先做交易策略，查看全部

　　解決辦法:無(wú)規則采集器列表設計方法應該注意哪些？
　　無(wú)規則采集器列表算法就是最大熵算法(zero-shotadversarialnetwork),其基本思想是：如果模仿其他人的行為則要接受被模仿的概率與模仿被成功的概率相比為0，否則算法懲罰機制則是所產(chǎn)生結果的一個(gè)條件概率，如果條件概率與采集的數據量相比為1則算法關(guān)閉。多規則采集器列表設計方法應該還有其他如最大熵方法(最大熵原理)、最大邊距采集器列表（最大邊距法）、隨機化采集器列表等不一一列舉，可參見(jiàn)geoffreyhinton教授的ml中的原理介紹。
　　

　　另外一個(gè)需要注意的是不同采集器要選擇適當算法規則以解決異或(|u1=u2|)，多值(k_u2=k_u1|)情況。原因如上所述，選擇最優(yōu)算法規則將會(huì )提高采集效率。ml算法相關(guān)的論文不多，目前比較出名的算法主要有bayesiangraphicprocessing，multi-valuefunctionalbayesiangraphicprocessing，deepgraphicprocessing，learningtomaximizevideoratio,backgroundviolationmatching,topicsmodelingandonlinelearning.。
　　開(kāi)盤(pán)秒殺，設定好條件，比如買(mǎi)入前10秒不賣(mài)出等等。
　　

　　使用網(wǎng)絡(luò )爬蟲(chóng)這種技術(shù)。按照你自己的想法，選擇一個(gè)關(guān)鍵詞。當然還可以按照年份，品種等。
　　沒(méi)有，資本市場(chǎng)根本沒(méi)有考慮這些，僅僅是通過(guò)各種新聞客戶(hù)端來(lái)看，不過(guò)現在很多券商為了提高交易效率，需要交易員在交易前先做交易策略，

歸納總結:五大機器學(xué)習范例：神經(jīng)網(wǎng)絡(luò )、遺傳算法、規則歸納？

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 89 次瀏覽 ? 2022-10-22 05:14 ? 來(lái)自相關(guān)話(huà)題

　　歸納總結:五大機器學(xué)習范例：神經(jīng)網(wǎng)絡(luò )、遺傳算法、規則歸納？
　　假設有一個(gè)代理人想在大聯(lián)盟級別打棒球。要達到這個(gè)水平，通常需要 15 年或更長(cháng)時(shí)間的培訓。雖然規則極其簡(jiǎn)單，但學(xué)習周期很長(cháng)：“扔球、接球、擊球”。
　　這句話(huà)出自 1988 年由 Ron Shelton 執導的電影 Bull Durham。
　　在訓練的早期，智能體必須了解棒球比賽中的許多可能狀態(tài)。
　　(1) 我們的團隊領(lǐng)先嗎？
　　(2) 如果我處于防守位置并且球朝我飛來(lái)，我必須知道現在在一壘的跑壘員是否跑得快？如果是，那么我必須迅速把球扔出去。
　　(3) 對方投手是否投擲了一個(gè)旋轉球（很難擊中?。?？如果是，那么也許我今天應該假裝生病。
　　這個(gè)年輕代理收到的這種反饋是學(xué)習過(guò)程的核心。在機器學(xué)習中，反饋有 3 種類(lèi)型：監督學(xué)習、無(wú)監督學(xué)習和強化學(xué)習。
　　使用監督學(xué)習來(lái)學(xué)習特征是最直接、最簡(jiǎn)單的方法。代理執行了一些動(dòng)作后，它可以立即收到適當的反饋。例如，當一個(gè)敏捷的跑壘員給他一個(gè)地滾球時(shí)，如果他要花一點(diǎn)時(shí)間將球傳到一壘，那么在這種情況下，在幾分鐘內，他會(huì )被提醒加快速度。第 11 章介紹了神經(jīng)網(wǎng)絡(luò )如何使用監督學(xué)習來(lái)學(xué)習布爾函數。我們?yōu)榫W(wǎng)絡(luò )提供每個(gè)可能輸入的正確輸出列表。
　　在無(wú)監督學(xué)習中，訓練期間不提供具體的反饋。但是，如果要學(xué)習，代理必須收到一些反饋。假設代理人進(jìn)攻失敗，例如他沒(méi)有擊中壘，但他的防守非常不同 - 他設法完成了兩次斜線(xiàn)并攔截了本壘打。這是一場(chǎng)勢均力敵的比賽，他的球隊贏(yíng)了。賽后，隊友們紛紛恭喜他，他總結說(shuō)，好的防守也是值得贊賞的。
　　在強化學(xué)習期間，沒(méi)有老師為代理提供正確答案。事實(shí)上，代理甚至無(wú)法提前知道一個(gè)動(dòng)作的后果。更復雜的是，假設即使代理知道一個(gè)動(dòng)作的影響，它也不知道影響會(huì )有多大，所以代理必須通過(guò)反復試驗來(lái)學(xué)習。因為獎勵延遲了，agent 很難判斷這個(gè)動(dòng)作是好是壞。任何嘗試使用中指平衡傘（未打開(kāi)）的人都了解強化學(xué)習的基礎知識，如圖 10.2 所示。
　　圖 10.2 平衡傘，需要在 xy 平面上做一個(gè)小的運動(dòng)來(lái)保持傘的平衡
　　如果傘向左傾斜，那么你必須向左移動(dòng)很多，很快你就會(huì )發(fā)現這是大材小用。讓我們回到棒球經(jīng)紀人的例子。假設他是一名投手，當對手擊出本壘打時(shí)，代理傾向于將棒球扔給對方的擊球手。當對方投手將時(shí)速 145 公里的快球投進(jìn)他的腿時(shí)，幾局之后，他需要將疼痛的膝蓋骨與可能過(guò)于激進(jìn)的比賽聯(lián)系起來(lái)。在這里，我們將討論嚴格限制在監督學(xué)習上。在 Ballard 的著(zhù)作 [7] 中，您可以找到關(guān)于無(wú)監督學(xué)習和強化學(xué)習的精彩討論。
　　通過(guò)監督學(xué)習，您可以看到一組有序的對：
　　我們將這組有序對稱(chēng)為訓練集。在
　　是輸入的n維空間向量，即
　　這個(gè)函數在
　　at 的值是學(xué)習值。函數 f 將每個(gè)輸入向量映射到正確的輸出響應。一般來(lái)說(shuō)，在 m 維空間中
　　，每個(gè)分量 tk(k = 1,…, m) 都來(lái)自一個(gè)預定的集合，例如整數、實(shí)數等的集合（輸入和輸出集合可能不同）。
　　10.3 歸納學(xué)習
　　歸納學(xué)習的任務(wù)是找到最接近真實(shí)函數 f() 的函數 h。我們稱(chēng) h 為 f() 的假設。學(xué)習算法將假設空間 H 視為一組逼近正確函數 f() 的函數。在這個(gè)學(xué)習中，目標是找到訓練集中所有點(diǎn)的 h 與 f 一致。人們把這種嘗試稱(chēng)為曲線(xiàn)擬合，如圖 10.3 所示。
　　圖 10.3 如果 h 在所有點(diǎn)上都與 f 一致，則 h 與 f 一致
　　在圖 10.4 中，有 3 個(gè)不同的假設。乍一看，h3 似乎是最好的假設。但是，重要的是要記住，學(xué)習的目的不是讓智能體在訓練集上表現完美，而是讓智能體在驗證集上表現良好。
　　圖 10. 43 種不同的假設。請注意，由于只有 h3 通過(guò)了所有 6 個(gè)點(diǎn)，因此只有 h3 與 f 一致
　　驗證集是測試代理程序的示例集。如果代理實(shí)際上已經(jīng)學(xué)習了一些概念，它不應該僅僅記住輸入和輸出之間的對應關(guān)系，而是應該獲得泛化能力，例如對它尚未遇到的輸入做出適當的響應。一般來(lái)說(shuō)，一個(gè)在訓練集上表現完美的假設是過(guò)度訓練的，并且不能很好地概括這個(gè)概念。實(shí)現泛化的一種方法是交替訓練和驗證，需要注意的是，在驗證期間應該關(guān)閉代理的學(xué)習機制。當驗證錯誤而不是訓練錯誤最小化時(shí)，訓練終止。在第 11 章中，我們將深入研究這種訓練方法。最后，讓我們談?wù)劙羟蚪?jīng)紀人。如果他真的學(xué)會(huì )了打棒球，
　　再次參考圖 10.4(c)。這個(gè)函數遍歷所有 6 個(gè)點(diǎn)。我們可以使用拉格朗日插值來(lái)找到具有此屬性的許多其他函數，例如 7、8、9 階多項式等。在學(xué)習領(lǐng)域（機器和人類(lèi)學(xué)習），指導原則是當存在多種解釋時(shí)同樣觀(guān)察到的現象，明智的做法是選擇最簡(jiǎn)單的解釋。這個(gè)原理就是所謂的奧卡姆剃刀原理。以下是該原則的一些示例。
　　(1) 在遙遠的天空中，看到一道小小的亮光在移動(dòng)。解釋一，一架飛機從附近的機場(chǎng)起飛或準備降落。解釋二，一顆恒星離開(kāi)了它的星系，正準備進(jìn)入我們的星系。解釋一種是更優(yōu)選的一種。
　　(2) 你在圣誕節的早晨醒來(lái)，看到窗外的街道上有雪——你昨晚睡覺(jué)的時(shí)候沒(méi)有雪。解釋一，因為你今年過(guò)得很好，所以圣誕老人委托精靈們把北極的雪帶到你家附近。解釋二，你睡覺(jué)的時(shí)候下雪了。解釋二的可能性更大。
　　(3) 幾年前，九月的一個(gè)早晨，當你經(jīng)過(guò)曼哈頓的布萊克街和第六大道時(shí)，你看到成千上萬(wàn)的紐約人離開(kāi)這座城市，向北走。解釋 1、地鐵出現電氣故障，列車(chē)不運行。解釋二，恐怖分子劫持了兩架飛機，撞向世貿中心。解釋一的可能性更大，但不幸的是，解釋二是正確的。
　　大多數科學(xué)家都同意，當有兩種理論可以解釋同一現象時(shí)，越簡(jiǎn)單的理論相對越好。然而，正如我們所知，這并不總是保證是正確的。在發(fā)現新證據之前，這可能只是一個(gè)更好的探索起點(diǎn)。
　　
　　2001 年的一個(gè)星期二早上，其中一位作者 (SL) 約會(huì )遲到，無(wú)法聽(tīng)到早間新聞。
　　還有一個(gè)特性適用于學(xué)習方法，要么是懶惰的，要么是急切的。懶惰的學(xué)習者被認為是懶惰的，因為它延遲了訓練數據之外的泛化，直到出現新的查詢(xún)。懶惰的學(xué)習者從不努力壓縮數據，因此，當模型被調用時(shí)，所有數據都可用。這與渴望學(xué)習者不同，后者已經(jīng)抽象出可以在出現新查詢(xún)時(shí)應用的一般規則。但是這樣一來(lái)，訓練數據本身就沒(méi)有保留下來(lái)。一般來(lái)說(shuō)，訓練惰性學(xué)習者的速度更快，但使用它們需要更多的時(shí)間。急切的學(xué)習者堅持單一的假設，因此比懶惰的學(xué)習者更不靈活。
　　基于案例的推理（見(jiàn)第 9 章）被歸類(lèi)為惰性學(xué)習者。在這種情況下的優(yōu)點(diǎn)是我們有整個(gè)案例可用，因此這可能具有更廣泛的適用性。相反，神經(jīng)網(wǎng)絡(luò )被歸類(lèi)為渴望學(xué)習者。在反向傳播網(wǎng)絡(luò ) (BPN) 中，網(wǎng)絡(luò )學(xué)習權重，我們將權重視為訓練數據的壓縮版本。為了將 BPN 應用于新樣本，您只需將新查詢(xún)用作網(wǎng)絡(luò )的輸入，但不會(huì )檢索先前用于訓練網(wǎng)絡(luò )的數據。
　　10.4 用決策樹(shù)學(xué)習
　　對于概念學(xué)習，決策樹(shù)是廣泛使用的歸納方法。決策樹(shù)中的節點(diǎn)對應于對某些屬性進(jìn)行的查詢(xún)。從節點(diǎn)發(fā)出的分支代表假定的屬性值，如圖 10.5 所示。
　　圖 10.5 描繪了一位作者（SL）的面食偏好的決策樹(shù)
　　任何熟悉意大利餐廳的人都會(huì )很快發(fā)現意大利面有多種形狀和大小。
　　這棵樹(shù)可以用來(lái)將意大利面條實(shí)例分為兩類(lèi)——SL 喜歡的和 SL 不喜歡的。查詢(xún)總是從樹(shù)的根節點(diǎn)開(kāi)始，到我們找到類(lèi)標簽的葉節點(diǎn)結束?？紤]以下意大利面食列表。
　　(1) Spaghetti and Meatballs – 意粉配紅醬肉丸。
　　(2) 意大利面 Arrabbiata——紅醬意大利面。
　　(3) 意大利面平靜的紅醬 Vongole – 意大利面配紅醬蛤蜊。
　　(4) 意大利面平靜的白醬 Vongole – 白醬蛤蜊意大利面。
　　(5) 伏特加通心粉。
　　如圖 10.5 所示，為了從這個(gè)列表中分類(lèi)意大利面和肉丸，我們從根節點(diǎn)開(kāi)始。這道菜的醬汁是紅色的，所以我們選擇了左邊的樹(shù)枝。左子書(shū)問(wèn)：這道菜“含”肉嗎？這當然收錄肉。那棵樹(shù)將意大利面和肉丸歸類(lèi)為 SL 最喜歡的意大利面。嘗試使用相同的決策樹(shù)跟蹤其他 4 個(gè)實(shí)例。您會(huì )注意到所有 5 種意大利面食譜都分為兩個(gè)不同的類(lèi)別。
　　第一類(lèi) - SL 最喜歡的意大利面，收錄示例 1、4 和 5。
　　第二類(lèi)——SL不喜歡的意大利面，收錄例子2和3。
　　免責聲明 - 作者之一 (SL) 選擇這些屬性值僅用于說(shuō)明目的。SL 在紐約曼哈頓下城的“小意大利”長(cháng)大，不幸的是（因為他的腰圍）他喜歡各種意大利面！事實(shí)上，他品嘗了他最喜歡的兩家餐廳的大部分菜肴，即《小意大利》中漢斯特街 189 號的普利亞和邁伯里街 164 號的丹尼科。
　　如圖10.5所示，從決策樹(shù)的根結點(diǎn)到葉結點(diǎn)末端的任意一條路徑都表示該路徑上屬性值的合?。ˋND）。例如，Spaghetti Arrabbiata 分類(lèi)的路徑是 (sauce = red) ∧ (meat = no)。SL 喜歡的意大利面食的概念對應于所有連詞的析?。∣R），這些連詞沿著(zhù)通往回答是的節點(diǎn)的路徑。在示例中，我們有：[(sauce=red)∧(meat=yes)]∨[(sauce=white)∧(seafood=no)]∨[(sauce=pink)]。
　　10.5 適用于決策樹(shù)的問(wèn)題
　　使用決策樹(shù)可以有效學(xué)習的一些問(wèn)題的特征如下。
　?。?）屬性應該只有少數幾個(gè)值，例如醬=紅色、白色或粉紅色；實(shí)例由一組屬性值表示，例如實(shí)例 = 意大利面條和肉丸。我們給一些屬性賦予一定的值，比如醬汁是否是紅色的，其中肉=是。
　　(2) 一般來(lái)說(shuō)，目標函數只有幾個(gè)離散值。在面食示例中，值為 Yes 和 No。
　　(3) 訓練數據可能存在錯誤。當屬性值或實(shí)例分類(lèi)出現錯誤時(shí)，決策樹(shù)表現良好（這與第 11 章中神經(jīng)網(wǎng)絡(luò )學(xué)習的魯棒性形成對比）。
　　這些都是理想的條件。通過(guò)參考該領(lǐng)域的文獻，您可以了解許多規避這些限制的方法。
　　在訓練數據的過(guò)程中，可能會(huì )出現屬性值缺失的情況。例如，假設決策樹(shù)的用戶(hù)知道 Spaghetti Arrabbiata 不含肉，則該屬性也缺失。
　　許多現實(shí)世界的問(wèn)題都滿(mǎn)足前一個(gè)列表所施加的約束。在醫療應用中，屬性對應于患者的可見(jiàn)癥狀或描述（膚色 = 黃色、鼻子 = 流鼻涕、頭痛）或醫療應用中的測試結果（體溫升高、高血壓或血糖水平、心臟酶異常）。的目標函數可能表明存在疾病或狀況：患者患有花粉熱、肝炎或最近修復的心臟瓣膜出現問(wèn)題。
　　決策樹(shù)廣泛用于醫療行業(yè)。
　　在金融領(lǐng)域，決策樹(shù)也用于從信用卡價(jià)值確定到房地產(chǎn)投資有利條件的方方面面。商業(yè)世界的一個(gè)基本應用是期權交易。期權是一種合同，賦予個(gè)人以給定價(jià)格或在特定日期購買(mǎi)或出售某些資產(chǎn)（例如股票）的權利。
　　10.6 熵
　　熵量化了樣本集中存在的均勻性。為了簡(jiǎn)化討論，假設要學(xué)習的概念本質(zhì)上是二元的——例如，一個(gè)人是否喜歡意大利面。給定一個(gè)集合 S，對于這個(gè)二元分類(lèi)，S 的熵是
　　{-:-} 熵 = -p(+) log2 p(+) -p(-) log2 p(-)
　　其中，p(+)代表你喜歡的部分，即喜歡面食；p(-) 代表你不喜歡的部分。在討論熵時(shí)，對數總是以 2 為底，即使分類(lèi)不是二元的。
　　圖 10.5 中的決策樹(shù)描述了面食偏好。假設有一組 4 種類(lèi)型的面食有人喜歡吃——我們將這種情況表示為 [4(+), 0(-)]，那么這組中的熵是
　　熵[4(+), 0(-)] = -4/4×log2(4/4) - 0/4×log2(0/4)
　　= -1 × log2(1) - 0 × log2(0)
　　= -1×0 - 0×0
　　
　　= 0
　　如果有人喜歡其中兩種意大利面而不喜歡另外兩種，那么
　　熵[2(+), 2(-)] = -2/4×log2(2/4)-2/4×log2(2/4)
　　= -1/2×(-1)-1/2×(-1)
　　= 1/2 - (-1/2)
　　= 1
　　我們觀(guān)察到，當所有成員屬于同一個(gè)組時(shí)，集合的熵為 0。這個(gè) 0 值表示這個(gè)集合中沒(méi)有雜質(zhì)，并且這個(gè)例子中的所有成員都為真。在第二個(gè)例子中，一半的成員是正的，一半是負的，在這種情況下，熵的最大值為 1。在二元分類(lèi)中，集成熵的范圍是 0 到 1，如圖 10.6 所示。
　　圖 10.6 在二元分類(lèi)中，熵函數隨著(zhù)正樣本的增加而增加
　　尺度變化在區間 [0,1] 內變化
　　集合的熵可以被認為是確定所選項目來(lái)自哪個(gè)類(lèi)別所需的位數。例如，對于集合 [2(+), 2(-)]，需要一位來(lái)指定從哪個(gè)類(lèi)別中選擇哪個(gè)項目，其中 1 表示有人喜歡該項目，0 表示有人不喜歡該項目。反之，當有人喜歡所有項目時(shí)，在集合 [4(+), 0(-)] 中，不需要位來(lái)標記項目，所以當有人喜歡所有項目時(shí)，熵為 0。
　　10.7 用 ID3 構建決策樹(shù)
　　1986 年，Quinlan 開(kāi)發(fā)了 ID3 算法。ID3是決策樹(shù)學(xué)習中應用最廣泛的算法之一，它以自頂向下的方式構建決策樹(shù)。它首先搜索將訓練集劃分為盡可能相等的子集的那個(gè)屬性。如果您要成功應用決策樹(shù)，您必須了解它們是如何構建的。在面食示例中，有三個(gè)屬性——醬汁顏色、肉類(lèi)和海鮮——見(jiàn)表 10.1。
　　表 10.1 用于決策樹(shù)學(xué)習的數據
　　No. Pasta Sauce Color 含肉含海鮮 1Spaghetti with Meatballs Red True False Yes 2Spaghetti Arrabbiata Red False False No 3Linguine Vongole Red False True No 4Linguine Vongole White False True or Not 5Rigatoni alla Vodka Pink False Yes 6Lasagne Red True False Yes 7Rigatoni Lucia White假假是 8Fettucine Alfredo White Fake Yes 9Fusilli Boscaiola Red Fake No 10Ravioli Florentine Pink Fake Yes
　　有 3 種不同的屬性，因此哪個(gè)屬性先出現有不同的選擇，如圖 10.7 所示。
　　一個(gè)屬性如果可以根據屬性的值將樣本分為兩個(gè)，則認為該屬性是好的，例如，某個(gè)屬性值對應的所有實(shí)例都是正的，而其他屬性值對應的所有實(shí)例都是負的。相反，如果一個(gè)屬性不收錄區分屬性值，則該屬性被認為是無(wú)用的。在示例中，好屬性意味著(zhù)對于每個(gè)屬性值，意大利面的喜歡和不喜歡的數量是相等的。
　　ID3 使用信息增益來(lái)定位屬性。如果該屬性達到最大預期熵減少，則該屬性位于更靠近根節點(diǎn)的位置。如圖 10.7 所示，為了確定三個(gè)子樹(shù)中哪個(gè)子樹(shù)首先被選中，ID3 首先計算其對中顯示的每個(gè)子樹(shù)的平均信息，然后選擇能夠產(chǎn)生最大信息增益的子樹(shù)。其中，屬性A產(chǎn)生的信息增益是指用A來(lái)劃分集合S，導致熵減少。
　　其中v是屬性A所采用的值。這個(gè)公式對v的所有值求和Sv（S與值v的子集）。如圖10.8到圖10.10所示，了解ID3必須進(jìn)行的計算。
　　圖 10.7 決策樹(shù)可以從三個(gè)屬性中的任何一個(gè)開(kāi)始。在（a）中，醬汁顏色為紅色，作者喜歡兩種意大利面，不喜歡三種意大利面。其他盒子也可以做類(lèi)似的解釋
　　仔細觀(guān)察圖10.8~圖10.10，很明顯，由于“收錄海鮮”的屬性，其相關(guān)信息增益為0.32，是對應的三個(gè)屬性中的最大值，所以ID3選擇屬性“收錄海鮮”為決策樹(shù)。的第一個(gè)屬性。
　　接下來(lái)，ID3 必須在圖 10.11 中繪制的兩棵樹(shù)之間進(jìn)行選擇。
　　一旦選擇了第二個(gè)屬性，則在需要時(shí)應用未選擇的屬性。本書(shū)要求你在練習中完成這些計算。
　　圖 10.8 如果先選擇醬汁顏色，則信息增益等于 0.29
　　圖 10.9 如果先選擇收錄肉的屬性，則信息增益等于 0.17
　　圖 10.10 如果先選擇收錄海鮮的屬性，則信息增益等于 0.32
　　圖 10.11 ID3 必須選擇哪個(gè)屬性作為第二個(gè)屬性——是醬汁的顏色，還是含有肉？
　　本文節選自《人工智能》（第2版）
　　本書(shū)是作者結合多年教學(xué)經(jīng)驗精心編寫(xiě)的人工智能教材，堪稱(chēng)“人工智能百科全書(shū)”。這本書(shū)涵蓋了人工智能的簡(jiǎn)史、搜索方法、知情搜索、游戲中的搜索、人工智能中的邏輯、??知識表示、生成系統、專(zhuān)家系統、機器學(xué)習和神經(jīng)網(wǎng)絡(luò )、遺傳算法、自然語(yǔ)言處理、自動(dòng)規劃、機器人技術(shù)、高級電腦游戲、人工智能的歷史和未來(lái)。
　　本書(shū)提供了豐富的教學(xué)配套資源，適合作為高校人工智能相關(guān)專(zhuān)業(yè)的教材，也適合對人工智能相關(guān)領(lǐng)域感興趣的讀者閱讀和參考。
　　技巧:谷歌seo的關(guān)鍵詞分析工具怎么用？
　　關(guān)鍵詞分析工具
　　對于Google SEO至關(guān)重要，使用免費或商業(yè)關(guān)鍵詞分析工具進(jìn)行適當的關(guān)鍵字分析。關(guān)鍵詞分析非常耗時(shí)，請花時(shí)間分析您的關(guān)鍵詞，不要急于求成。關(guān)鍵詞分析實(shí)際上是分析用戶(hù)使用搜索引擎搜索關(guān)鍵詞搜索的內容，并發(fā)現搜索用戶(hù)搜索關(guān)鍵詞的頻率。
　　通過(guò)關(guān)鍵詞分析，我們可以找出被忽視的重要關(guān)鍵詞，SEO優(yōu)化器經(jīng)常發(fā)生的事情，經(jīng)常認為關(guān)鍵詞重要的不是我們想要的潛在客戶(hù)，而是訪(fǎng)問(wèn)我們網(wǎng)站的人正在使用其他關(guān)鍵詞。不要以為這個(gè)問(wèn)題不會(huì )發(fā)生在你身上，你可以試試你認為對的關(guān)鍵詞，它會(huì )給你帶來(lái)潛在客戶(hù)嗎？
　　如何使用谷歌關(guān)鍵詞規劃器進(jìn)行關(guān)鍵詞分析？關(guān)鍵詞分析實(shí)際上是分析關(guān)鍵詞搜索用戶(hù)通過(guò)搜索引擎搜索的內容，用戶(hù)搜索每個(gè)關(guān)鍵詞的頻率，并可能向關(guān)鍵詞列表中添加一些新關(guān)鍵詞。
　　關(guān)鍵詞分析工具對于提高關(guān)鍵詞采礦效率至關(guān)重要
　　關(guān)鍵詞分析工具：谷歌關(guān)鍵詞規劃師
　　Google 關(guān)鍵詞調整規劃師來(lái)投放廣告系列以獲得準確的搜索，但必應關(guān)鍵字搜索工具無(wú)需投放有效的廣告即可查看使用必應搜索關(guān)鍵詞的確切搜索次數。
　　關(guān)鍵詞調查分析工具的商業(yè)版
　　單詞跟蹤器
　　莫茲
　　關(guān)鍵字發(fā)現
　　
　　關(guān)鍵字
　　斯皮夫
　　塞姆拉什
　　溶鹽劑
　　西莫伊托
　　免費的第三方關(guān)鍵詞調查分析工具
　　例如，免費關(guān)鍵詞調查分析工具，關(guān)鍵詞分析通常在初始關(guān)鍵詞頭腦風(fēng)暴階段可能很有用，因此我們需要在多個(gè)維度上進(jìn)行關(guān)鍵詞分析，充分利用搜索下拉推薦關(guān)鍵詞，對搜索結果進(jìn)行相關(guān)推薦，并進(jìn)一步挖掘更多高質(zhì)量的關(guān)鍵詞。
　　關(guān)鍵詞分析建議以Google關(guān)鍵詞規劃師為支柱，輔以必應關(guān)鍵字研究工具。
　　谷歌關(guān)鍵詞規劃器相關(guān)功能的簡(jiǎn)要介紹
　　谷歌關(guān)鍵詞規劃師
　　輸入您的關(guān)鍵詞
　　想要，建議開(kāi)始輸入單個(gè)單詞或幾個(gè)單詞，也可以輸入您的網(wǎng)站的URL或競爭對手的URL，Google會(huì )檢查您的頁(yè)面并為您提供該頁(yè)面的相關(guān)關(guān)鍵詞。這并不容易使用，因為沒(méi)有優(yōu)化的頁(yè)面，Google不會(huì )給出很好的關(guān)鍵詞。讓我們以操作關(guān)鍵詞產(chǎn)品類(lèi)別為例：
　　
　　設置右側
　　目標市場(chǎng)，選擇合適的語(yǔ)言和國家;
　　關(guān)鍵詞過(guò)濾（用于PPC）;
　　您只能打開(kāi)顯示與我的搜索字詞密切相關(guān)的想法;
　　關(guān)鍵詞包括設置;
　　告訴谷歌包括我提供關(guān)鍵詞;
　　時(shí)間設置;
　　如果您的企業(yè)是季節性的，您可以這樣做：
　　關(guān)鍵字提示
　　廣告組提示
　　重要的是要記住，關(guān)鍵詞挖掘非常耗時(shí)且耗精力，請花時(shí)間挖掘您的關(guān)鍵詞，不要急于求成。查看全部

　　歸納總結:五大機器學(xué)習范例：神經(jīng)網(wǎng)絡(luò )、遺傳算法、規則歸納？
　　假設有一個(gè)代理人想在大聯(lián)盟級別打棒球。要達到這個(gè)水平，通常需要 15 年或更長(cháng)時(shí)間的培訓。雖然規則極其簡(jiǎn)單，但學(xué)習周期很長(cháng)：“扔球、接球、擊球”。
　　這句話(huà)出自 1988 年由 Ron Shelton 執導的電影 Bull Durham。
　　在訓練的早期，智能體必須了解棒球比賽中的許多可能狀態(tài)。
　　(1) 我們的團隊領(lǐng)先嗎？
　　(2) 如果我處于防守位置并且球朝我飛來(lái)，我必須知道現在在一壘的跑壘員是否跑得快？如果是，那么我必須迅速把球扔出去。
　　(3) 對方投手是否投擲了一個(gè)旋轉球（很難擊中?。?？如果是，那么也許我今天應該假裝生病。
　　這個(gè)年輕代理收到的這種反饋是學(xué)習過(guò)程的核心。在機器學(xué)習中，反饋有 3 種類(lèi)型：監督學(xué)習、無(wú)監督學(xué)習和強化學(xué)習。
　　使用監督學(xué)習來(lái)學(xué)習特征是最直接、最簡(jiǎn)單的方法。代理執行了一些動(dòng)作后，它可以立即收到適當的反饋。例如，當一個(gè)敏捷的跑壘員給他一個(gè)地滾球時(shí)，如果他要花一點(diǎn)時(shí)間將球傳到一壘，那么在這種情況下，在幾分鐘內，他會(huì )被提醒加快速度。第 11 章介紹了神經(jīng)網(wǎng)絡(luò )如何使用監督學(xué)習來(lái)學(xué)習布爾函數。我們?yōu)榫W(wǎng)絡(luò )提供每個(gè)可能輸入的正確輸出列表。
　　在無(wú)監督學(xué)習中，訓練期間不提供具體的反饋。但是，如果要學(xué)習，代理必須收到一些反饋。假設代理人進(jìn)攻失敗，例如他沒(méi)有擊中壘，但他的防守非常不同 - 他設法完成了兩次斜線(xiàn)并攔截了本壘打。這是一場(chǎng)勢均力敵的比賽，他的球隊贏(yíng)了。賽后，隊友們紛紛恭喜他，他總結說(shuō)，好的防守也是值得贊賞的。
　　在強化學(xué)習期間，沒(méi)有老師為代理提供正確答案。事實(shí)上，代理甚至無(wú)法提前知道一個(gè)動(dòng)作的后果。更復雜的是，假設即使代理知道一個(gè)動(dòng)作的影響，它也不知道影響會(huì )有多大，所以代理必須通過(guò)反復試驗來(lái)學(xué)習。因為獎勵延遲了，agent 很難判斷這個(gè)動(dòng)作是好是壞。任何嘗試使用中指平衡傘（未打開(kāi)）的人都了解強化學(xué)習的基礎知識，如圖 10.2 所示。
　　圖 10.2 平衡傘，需要在 xy 平面上做一個(gè)小的運動(dòng)來(lái)保持傘的平衡
　　如果傘向左傾斜，那么你必須向左移動(dòng)很多，很快你就會(huì )發(fā)現這是大材小用。讓我們回到棒球經(jīng)紀人的例子。假設他是一名投手，當對手擊出本壘打時(shí)，代理傾向于將棒球扔給對方的擊球手。當對方投手將時(shí)速 145 公里的快球投進(jìn)他的腿時(shí)，幾局之后，他需要將疼痛的膝蓋骨與可能過(guò)于激進(jìn)的比賽聯(lián)系起來(lái)。在這里，我們將討論嚴格限制在監督學(xué)習上。在 Ballard 的著(zhù)作 [7] 中，您可以找到關(guān)于無(wú)監督學(xué)習和強化學(xué)習的精彩討論。
　　通過(guò)監督學(xué)習，您可以看到一組有序的對：
　　我們將這組有序對稱(chēng)為訓練集。在
　　是輸入的n維空間向量，即
　　這個(gè)函數在
　　at 的值是學(xué)習值。函數 f 將每個(gè)輸入向量映射到正確的輸出響應。一般來(lái)說(shuō)，在 m 維空間中
　　，每個(gè)分量 tk(k = 1,…, m) 都來(lái)自一個(gè)預定的集合，例如整數、實(shí)數等的集合（輸入和輸出集合可能不同）。
　　10.3 歸納學(xué)習
　　歸納學(xué)習的任務(wù)是找到最接近真實(shí)函數 f() 的函數 h。我們稱(chēng) h 為 f() 的假設。學(xué)習算法將假設空間 H 視為一組逼近正確函數 f() 的函數。在這個(gè)學(xué)習中，目標是找到訓練集中所有點(diǎn)的 h 與 f 一致。人們把這種嘗試稱(chēng)為曲線(xiàn)擬合，如圖 10.3 所示。
　　圖 10.3 如果 h 在所有點(diǎn)上都與 f 一致，則 h 與 f 一致
　　在圖 10.4 中，有 3 個(gè)不同的假設。乍一看，h3 似乎是最好的假設。但是，重要的是要記住，學(xué)習的目的不是讓智能體在訓練集上表現完美，而是讓智能體在驗證集上表現良好。
　　圖 10. 43 種不同的假設。請注意，由于只有 h3 通過(guò)了所有 6 個(gè)點(diǎn)，因此只有 h3 與 f 一致
　　驗證集是測試代理程序的示例集。如果代理實(shí)際上已經(jīng)學(xué)習了一些概念，它不應該僅僅記住輸入和輸出之間的對應關(guān)系，而是應該獲得泛化能力，例如對它尚未遇到的輸入做出適當的響應。一般來(lái)說(shuō)，一個(gè)在訓練集上表現完美的假設是過(guò)度訓練的，并且不能很好地概括這個(gè)概念。實(shí)現泛化的一種方法是交替訓練和驗證，需要注意的是，在驗證期間應該關(guān)閉代理的學(xué)習機制。當驗證錯誤而不是訓練錯誤最小化時(shí)，訓練終止。在第 11 章中，我們將深入研究這種訓練方法。最后，讓我們談?wù)劙羟蚪?jīng)紀人。如果他真的學(xué)會(huì )了打棒球，
　　再次參考圖 10.4(c)。這個(gè)函數遍歷所有 6 個(gè)點(diǎn)。我們可以使用拉格朗日插值來(lái)找到具有此屬性的許多其他函數，例如 7、8、9 階多項式等。在學(xué)習領(lǐng)域（機器和人類(lèi)學(xué)習），指導原則是當存在多種解釋時(shí)同樣觀(guān)察到的現象，明智的做法是選擇最簡(jiǎn)單的解釋。這個(gè)原理就是所謂的奧卡姆剃刀原理。以下是該原則的一些示例。
　　(1) 在遙遠的天空中，看到一道小小的亮光在移動(dòng)。解釋一，一架飛機從附近的機場(chǎng)起飛或準備降落。解釋二，一顆恒星離開(kāi)了它的星系，正準備進(jìn)入我們的星系。解釋一種是更優(yōu)選的一種。
　　(2) 你在圣誕節的早晨醒來(lái)，看到窗外的街道上有雪——你昨晚睡覺(jué)的時(shí)候沒(méi)有雪。解釋一，因為你今年過(guò)得很好，所以圣誕老人委托精靈們把北極的雪帶到你家附近。解釋二，你睡覺(jué)的時(shí)候下雪了。解釋二的可能性更大。
　　(3) 幾年前，九月的一個(gè)早晨，當你經(jīng)過(guò)曼哈頓的布萊克街和第六大道時(shí)，你看到成千上萬(wàn)的紐約人離開(kāi)這座城市，向北走。解釋 1、地鐵出現電氣故障，列車(chē)不運行。解釋二，恐怖分子劫持了兩架飛機，撞向世貿中心。解釋一的可能性更大，但不幸的是，解釋二是正確的。
　　大多數科學(xué)家都同意，當有兩種理論可以解釋同一現象時(shí)，越簡(jiǎn)單的理論相對越好。然而，正如我們所知，這并不總是保證是正確的。在發(fā)現新證據之前，這可能只是一個(gè)更好的探索起點(diǎn)。
　　

　　2001 年的一個(gè)星期二早上，其中一位作者 (SL) 約會(huì )遲到，無(wú)法聽(tīng)到早間新聞。
　　還有一個(gè)特性適用于學(xué)習方法，要么是懶惰的，要么是急切的。懶惰的學(xué)習者被認為是懶惰的，因為它延遲了訓練數據之外的泛化，直到出現新的查詢(xún)。懶惰的學(xué)習者從不努力壓縮數據，因此，當模型被調用時(shí)，所有數據都可用。這與渴望學(xué)習者不同，后者已經(jīng)抽象出可以在出現新查詢(xún)時(shí)應用的一般規則。但是這樣一來(lái)，訓練數據本身就沒(méi)有保留下來(lái)。一般來(lái)說(shuō)，訓練惰性學(xué)習者的速度更快，但使用它們需要更多的時(shí)間。急切的學(xué)習者堅持單一的假設，因此比懶惰的學(xué)習者更不靈活。
　　基于案例的推理（見(jiàn)第 9 章）被歸類(lèi)為惰性學(xué)習者。在這種情況下的優(yōu)點(diǎn)是我們有整個(gè)案例可用，因此這可能具有更廣泛的適用性。相反，神經(jīng)網(wǎng)絡(luò )被歸類(lèi)為渴望學(xué)習者。在反向傳播網(wǎng)絡(luò ) (BPN) 中，網(wǎng)絡(luò )學(xué)習權重，我們將權重視為訓練數據的壓縮版本。為了將 BPN 應用于新樣本，您只需將新查詢(xún)用作網(wǎng)絡(luò )的輸入，但不會(huì )檢索先前用于訓練網(wǎng)絡(luò )的數據。
　　10.4 用決策樹(shù)學(xué)習
　　對于概念學(xué)習，決策樹(shù)是廣泛使用的歸納方法。決策樹(shù)中的節點(diǎn)對應于對某些屬性進(jìn)行的查詢(xún)。從節點(diǎn)發(fā)出的分支代表假定的屬性值，如圖 10.5 所示。
　　圖 10.5 描繪了一位作者（SL）的面食偏好的決策樹(shù)
　　任何熟悉意大利餐廳的人都會(huì )很快發(fā)現意大利面有多種形狀和大小。
　　這棵樹(shù)可以用來(lái)將意大利面條實(shí)例分為兩類(lèi)——SL 喜歡的和 SL 不喜歡的。查詢(xún)總是從樹(shù)的根節點(diǎn)開(kāi)始，到我們找到類(lèi)標簽的葉節點(diǎn)結束?？紤]以下意大利面食列表。
　　(1) Spaghetti and Meatballs – 意粉配紅醬肉丸。
　　(2) 意大利面 Arrabbiata——紅醬意大利面。
　　(3) 意大利面平靜的紅醬 Vongole – 意大利面配紅醬蛤蜊。
　　(4) 意大利面平靜的白醬 Vongole – 白醬蛤蜊意大利面。
　　(5) 伏特加通心粉。
　　如圖 10.5 所示，為了從這個(gè)列表中分類(lèi)意大利面和肉丸，我們從根節點(diǎn)開(kāi)始。這道菜的醬汁是紅色的，所以我們選擇了左邊的樹(shù)枝。左子書(shū)問(wèn)：這道菜“含”肉嗎？這當然收錄肉。那棵樹(shù)將意大利面和肉丸歸類(lèi)為 SL 最喜歡的意大利面。嘗試使用相同的決策樹(shù)跟蹤其他 4 個(gè)實(shí)例。您會(huì )注意到所有 5 種意大利面食譜都分為兩個(gè)不同的類(lèi)別。
　　第一類(lèi) - SL 最喜歡的意大利面，收錄示例 1、4 和 5。
　　第二類(lèi)——SL不喜歡的意大利面，收錄例子2和3。
　　免責聲明 - 作者之一 (SL) 選擇這些屬性值僅用于說(shuō)明目的。SL 在紐約曼哈頓下城的“小意大利”長(cháng)大，不幸的是（因為他的腰圍）他喜歡各種意大利面！事實(shí)上，他品嘗了他最喜歡的兩家餐廳的大部分菜肴，即《小意大利》中漢斯特街 189 號的普利亞和邁伯里街 164 號的丹尼科。
　　如圖10.5所示，從決策樹(shù)的根結點(diǎn)到葉結點(diǎn)末端的任意一條路徑都表示該路徑上屬性值的合?。ˋND）。例如，Spaghetti Arrabbiata 分類(lèi)的路徑是 (sauce = red) ∧ (meat = no)。SL 喜歡的意大利面食的概念對應于所有連詞的析?。∣R），這些連詞沿著(zhù)通往回答是的節點(diǎn)的路徑。在示例中，我們有：[(sauce=red)∧(meat=yes)]∨[(sauce=white)∧(seafood=no)]∨[(sauce=pink)]。
　　10.5 適用于決策樹(shù)的問(wèn)題
　　使用決策樹(shù)可以有效學(xué)習的一些問(wèn)題的特征如下。
　?。?）屬性應該只有少數幾個(gè)值，例如醬=紅色、白色或粉紅色；實(shí)例由一組屬性值表示，例如實(shí)例 = 意大利面條和肉丸。我們給一些屬性賦予一定的值，比如醬汁是否是紅色的，其中肉=是。
　　(2) 一般來(lái)說(shuō)，目標函數只有幾個(gè)離散值。在面食示例中，值為 Yes 和 No。
　　(3) 訓練數據可能存在錯誤。當屬性值或實(shí)例分類(lèi)出現錯誤時(shí)，決策樹(shù)表現良好（這與第 11 章中神經(jīng)網(wǎng)絡(luò )學(xué)習的魯棒性形成對比）。
　　這些都是理想的條件。通過(guò)參考該領(lǐng)域的文獻，您可以了解許多規避這些限制的方法。
　　在訓練數據的過(guò)程中，可能會(huì )出現屬性值缺失的情況。例如，假設決策樹(shù)的用戶(hù)知道 Spaghetti Arrabbiata 不含肉，則該屬性也缺失。
　　許多現實(shí)世界的問(wèn)題都滿(mǎn)足前一個(gè)列表所施加的約束。在醫療應用中，屬性對應于患者的可見(jiàn)癥狀或描述（膚色 = 黃色、鼻子 = 流鼻涕、頭痛）或醫療應用中的測試結果（體溫升高、高血壓或血糖水平、心臟酶異常）。的目標函數可能表明存在疾病或狀況：患者患有花粉熱、肝炎或最近修復的心臟瓣膜出現問(wèn)題。
　　決策樹(shù)廣泛用于醫療行業(yè)。
　　在金融領(lǐng)域，決策樹(shù)也用于從信用卡價(jià)值確定到房地產(chǎn)投資有利條件的方方面面。商業(yè)世界的一個(gè)基本應用是期權交易。期權是一種合同，賦予個(gè)人以給定價(jià)格或在特定日期購買(mǎi)或出售某些資產(chǎn)（例如股票）的權利。
　　10.6 熵
　　熵量化了樣本集中存在的均勻性。為了簡(jiǎn)化討論，假設要學(xué)習的概念本質(zhì)上是二元的——例如，一個(gè)人是否喜歡意大利面。給定一個(gè)集合 S，對于這個(gè)二元分類(lèi)，S 的熵是
　　{-:-} 熵 = -p(+) log2 p(+) -p(-) log2 p(-)
　　其中，p(+)代表你喜歡的部分，即喜歡面食；p(-) 代表你不喜歡的部分。在討論熵時(shí)，對數總是以 2 為底，即使分類(lèi)不是二元的。
　　圖 10.5 中的決策樹(shù)描述了面食偏好。假設有一組 4 種類(lèi)型的面食有人喜歡吃——我們將這種情況表示為 [4(+), 0(-)]，那么這組中的熵是
　　熵[4(+), 0(-)] = -4/4×log2(4/4) - 0/4×log2(0/4)
　　= -1 × log2(1) - 0 × log2(0)
　　= -1×0 - 0×0
　　

　　= 0
　　如果有人喜歡其中兩種意大利面而不喜歡另外兩種，那么
　　熵[2(+), 2(-)] = -2/4×log2(2/4)-2/4×log2(2/4)
　　= -1/2×(-1)-1/2×(-1)
　　= 1/2 - (-1/2)
　　= 1
　　我們觀(guān)察到，當所有成員屬于同一個(gè)組時(shí)，集合的熵為 0。這個(gè) 0 值表示這個(gè)集合中沒(méi)有雜質(zhì)，并且這個(gè)例子中的所有成員都為真。在第二個(gè)例子中，一半的成員是正的，一半是負的，在這種情況下，熵的最大值為 1。在二元分類(lèi)中，集成熵的范圍是 0 到 1，如圖 10.6 所示。
　　圖 10.6 在二元分類(lèi)中，熵函數隨著(zhù)正樣本的增加而增加
　　尺度變化在區間 [0,1] 內變化
　　集合的熵可以被認為是確定所選項目來(lái)自哪個(gè)類(lèi)別所需的位數。例如，對于集合 [2(+), 2(-)]，需要一位來(lái)指定從哪個(gè)類(lèi)別中選擇哪個(gè)項目，其中 1 表示有人喜歡該項目，0 表示有人不喜歡該項目。反之，當有人喜歡所有項目時(shí)，在集合 [4(+), 0(-)] 中，不需要位來(lái)標記項目，所以當有人喜歡所有項目時(shí)，熵為 0。
　　10.7 用 ID3 構建決策樹(shù)
　　1986 年，Quinlan 開(kāi)發(fā)了 ID3 算法。ID3是決策樹(shù)學(xué)習中應用最廣泛的算法之一，它以自頂向下的方式構建決策樹(shù)。它首先搜索將訓練集劃分為盡可能相等的子集的那個(gè)屬性。如果您要成功應用決策樹(shù)，您必須了解它們是如何構建的。在面食示例中，有三個(gè)屬性——醬汁顏色、肉類(lèi)和海鮮——見(jiàn)表 10.1。
　　表 10.1 用于決策樹(shù)學(xué)習的數據
　　No. Pasta Sauce Color 含肉含海鮮 1Spaghetti with Meatballs Red True False Yes 2Spaghetti Arrabbiata Red False False No 3Linguine Vongole Red False True No 4Linguine Vongole White False True or Not 5Rigatoni alla Vodka Pink False Yes 6Lasagne Red True False Yes 7Rigatoni Lucia White假假是 8Fettucine Alfredo White Fake Yes 9Fusilli Boscaiola Red Fake No 10Ravioli Florentine Pink Fake Yes
　　有 3 種不同的屬性，因此哪個(gè)屬性先出現有不同的選擇，如圖 10.7 所示。
　　一個(gè)屬性如果可以根據屬性的值將樣本分為兩個(gè)，則認為該屬性是好的，例如，某個(gè)屬性值對應的所有實(shí)例都是正的，而其他屬性值對應的所有實(shí)例都是負的。相反，如果一個(gè)屬性不收錄區分屬性值，則該屬性被認為是無(wú)用的。在示例中，好屬性意味著(zhù)對于每個(gè)屬性值，意大利面的喜歡和不喜歡的數量是相等的。
　　ID3 使用信息增益來(lái)定位屬性。如果該屬性達到最大預期熵減少，則該屬性位于更靠近根節點(diǎn)的位置。如圖 10.7 所示，為了確定三個(gè)子樹(shù)中哪個(gè)子樹(shù)首先被選中，ID3 首先計算其對中顯示的每個(gè)子樹(shù)的平均信息，然后選擇能夠產(chǎn)生最大信息增益的子樹(shù)。其中，屬性A產(chǎn)生的信息增益是指用A來(lái)劃分集合S，導致熵減少。
　　其中v是屬性A所采用的值。這個(gè)公式對v的所有值求和Sv（S與值v的子集）。如圖10.8到圖10.10所示，了解ID3必須進(jìn)行的計算。
　　圖 10.7 決策樹(shù)可以從三個(gè)屬性中的任何一個(gè)開(kāi)始。在（a）中，醬汁顏色為紅色，作者喜歡兩種意大利面，不喜歡三種意大利面。其他盒子也可以做類(lèi)似的解釋
　　仔細觀(guān)察圖10.8~圖10.10，很明顯，由于“收錄海鮮”的屬性，其相關(guān)信息增益為0.32，是對應的三個(gè)屬性中的最大值，所以ID3選擇屬性“收錄海鮮”為決策樹(shù)。的第一個(gè)屬性。
　　接下來(lái)，ID3 必須在圖 10.11 中繪制的兩棵樹(shù)之間進(jìn)行選擇。
　　一旦選擇了第二個(gè)屬性，則在需要時(shí)應用未選擇的屬性。本書(shū)要求你在練習中完成這些計算。
　　圖 10.8 如果先選擇醬汁顏色，則信息增益等于 0.29
　　圖 10.9 如果先選擇收錄肉的屬性，則信息增益等于 0.17
　　圖 10.10 如果先選擇收錄海鮮的屬性，則信息增益等于 0.32
　　圖 10.11 ID3 必須選擇哪個(gè)屬性作為第二個(gè)屬性——是醬汁的顏色，還是含有肉？
　　本文節選自《人工智能》（第2版）
　　本書(shū)是作者結合多年教學(xué)經(jīng)驗精心編寫(xiě)的人工智能教材，堪稱(chēng)“人工智能百科全書(shū)”。這本書(shū)涵蓋了人工智能的簡(jiǎn)史、搜索方法、知情搜索、游戲中的搜索、人工智能中的邏輯、??知識表示、生成系統、專(zhuān)家系統、機器學(xué)習和神經(jīng)網(wǎng)絡(luò )、遺傳算法、自然語(yǔ)言處理、自動(dòng)規劃、機器人技術(shù)、高級電腦游戲、人工智能的歷史和未來(lái)。
　　本書(shū)提供了豐富的教學(xué)配套資源，適合作為高校人工智能相關(guān)專(zhuān)業(yè)的教材，也適合對人工智能相關(guān)領(lǐng)域感興趣的讀者閱讀和參考。
　　技巧:谷歌seo的關(guān)鍵詞分析工具怎么用？
　　關(guān)鍵詞分析工具
　　對于Google SEO至關(guān)重要，使用免費或商業(yè)關(guān)鍵詞分析工具進(jìn)行適當的關(guān)鍵字分析。關(guān)鍵詞分析非常耗時(shí)，請花時(shí)間分析您的關(guān)鍵詞，不要急于求成。關(guān)鍵詞分析實(shí)際上是分析用戶(hù)使用搜索引擎搜索關(guān)鍵詞搜索的內容，并發(fā)現搜索用戶(hù)搜索關(guān)鍵詞的頻率。
　　通過(guò)關(guān)鍵詞分析，我們可以找出被忽視的重要關(guān)鍵詞，SEO優(yōu)化器經(jīng)常發(fā)生的事情，經(jīng)常認為關(guān)鍵詞重要的不是我們想要的潛在客戶(hù)，而是訪(fǎng)問(wèn)我們網(wǎng)站的人正在使用其他關(guān)鍵詞。不要以為這個(gè)問(wèn)題不會(huì )發(fā)生在你身上，你可以試試你認為對的關(guān)鍵詞，它會(huì )給你帶來(lái)潛在客戶(hù)嗎？
　　如何使用谷歌關(guān)鍵詞規劃器進(jìn)行關(guān)鍵詞分析？關(guān)鍵詞分析實(shí)際上是分析關(guān)鍵詞搜索用戶(hù)通過(guò)搜索引擎搜索的內容，用戶(hù)搜索每個(gè)關(guān)鍵詞的頻率，并可能向關(guān)鍵詞列表中添加一些新關(guān)鍵詞。
　　關(guān)鍵詞分析工具對于提高關(guān)鍵詞采礦效率至關(guān)重要
　　關(guān)鍵詞分析工具：谷歌關(guān)鍵詞規劃師
　　Google 關(guān)鍵詞調整規劃師來(lái)投放廣告系列以獲得準確的搜索，但必應關(guān)鍵字搜索工具無(wú)需投放有效的廣告即可查看使用必應搜索關(guān)鍵詞的確切搜索次數。
　　關(guān)鍵詞調查分析工具的商業(yè)版
　　單詞跟蹤器
　　莫茲
　　關(guān)鍵字發(fā)現
　　

　　關(guān)鍵字
　　斯皮夫
　　塞姆拉什
　　溶鹽劑
　　西莫伊托
　　免費的第三方關(guān)鍵詞調查分析工具
　　例如，免費關(guān)鍵詞調查分析工具，關(guān)鍵詞分析通常在初始關(guān)鍵詞頭腦風(fēng)暴階段可能很有用，因此我們需要在多個(gè)維度上進(jìn)行關(guān)鍵詞分析，充分利用搜索下拉推薦關(guān)鍵詞，對搜索結果進(jìn)行相關(guān)推薦，并進(jìn)一步挖掘更多高質(zhì)量的關(guān)鍵詞。
　　關(guān)鍵詞分析建議以Google關(guān)鍵詞規劃師為支柱，輔以必應關(guān)鍵字研究工具。
　　谷歌關(guān)鍵詞規劃器相關(guān)功能的簡(jiǎn)要介紹
　　谷歌關(guān)鍵詞規劃師
　　輸入您的關(guān)鍵詞
　　想要，建議開(kāi)始輸入單個(gè)單詞或幾個(gè)單詞，也可以輸入您的網(wǎng)站的URL或競爭對手的URL，Google會(huì )檢查您的頁(yè)面并為您提供該頁(yè)面的相關(guān)關(guān)鍵詞。這并不容易使用，因為沒(méi)有優(yōu)化的頁(yè)面，Google不會(huì )給出很好的關(guān)鍵詞。讓我們以操作關(guān)鍵詞產(chǎn)品類(lèi)別為例：
　　

　　設置右側
　　目標市場(chǎng)，選擇合適的語(yǔ)言和國家;
　　關(guān)鍵詞過(guò)濾（用于PPC）;
　　您只能打開(kāi)顯示與我的搜索字詞密切相關(guān)的想法;
　　關(guān)鍵詞包括設置;
　　告訴谷歌包括我提供關(guān)鍵詞;
　　時(shí)間設置;
　　如果您的企業(yè)是季節性的，您可以這樣做：
　　關(guān)鍵字提示
　　廣告組提示
　　重要的是要記住，關(guān)鍵詞挖掘非常耗時(shí)且耗精力，請花時(shí)間挖掘您的關(guān)鍵詞，不要急于求成。

無(wú)規則采集器列表算法推薦文章:論文閱讀

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 106 次瀏覽 ? 2022-10-18 00:39 ? 來(lái)自相關(guān)話(huà)題

　　無(wú)規則采集器列表算法推薦文章:論文閱讀
　　論文鏈接：
　　目錄
　　摘要
　　虛假關(guān)注者是專(zhuān)門(mén)為夸大目標賬戶(hù)關(guān)注者數量而創(chuàng )建的那些 Twitter 賬戶(hù)。假追隨者對社交平臺及其他領(lǐng)域來(lái)說(shuō)是危險的，因為他們可能會(huì )改變 Twitter 領(lǐng)域的流行度和影響力等概念，從而影響經(jīng)濟、政治和社會(huì )。在本文中，我們沿著(zhù)不同的維度做出貢獻。首先，我們回顧了一些最相關(guān)的現有功能和規則（由學(xué)術(shù)界和媒體提出），用于異常 Twitter 帳戶(hù)檢測。其次，我們創(chuàng )建了一個(gè)經(jīng)過(guò)驗證的人類(lèi)和虛假追隨者帳戶(hù)的基線(xiàn)數據集。這樣的基線(xiàn)數據集對科學(xué)界是公開(kāi)的。然后，我們利用基線(xiàn)數據集來(lái)訓練一組基于審查的規則和特征構建的機器學(xué)習分類(lèi)器。我們的結果表明，Media 提出的大多數規則在揭示虛假粉絲方面的表現并不令人滿(mǎn)意，而 Academia 過(guò)去提出的用于垃圾郵件檢測的特征提供了良好的結果?；谧钣邢Ｍ奶卣?，我們在減少過(guò)度擬合和采集計算特征所需數據的成本方面修改了分類(lèi)器。最終結果是一個(gè)新穎的 A 類(lèi)分類(lèi)器，其通用性足以阻止過(guò)度擬合，由于使用了成本較低的特征，因此輕量級，并且仍然能夠正確分類(lèi)原創(chuàng )訓練集的 95% 以上的帳戶(hù)。我們最終執行基于信息融合的敏感性分析，以評估分類(lèi)器使用的每個(gè)特征的全局敏感性。
　　本文報告的研究結果，除了得到了徹底的實(shí)驗方法的支持和本身的趣味性外，還為進(jìn)一步調查假推特追隨者的新問(wèn)題鋪平了道路。
　　1 緒論
　　Twitter最初是一個(gè)個(gè)人微博網(wǎng)站，現在已經(jīng)從普通用戶(hù)轉變?yōu)橐粋€(gè)信息發(fā)布場(chǎng)所。據統計，Twitter 訂閱者約為 10 億，每月活躍用戶(hù)為 3.02 億。 Twitter 2014 年的年度廣告收入估計約為 4.8 億美元。流行的公眾人物，例如演員和歌手，以及傳統的大眾媒體（廣播、電視和報紙）都使用 Twitter 作為新的媒體渠道。
　　這樣的多功能性和使用范圍使 Twitter 成為異常賬戶(hù)擴散的理想場(chǎng)所，這些賬戶(hù)以非常規的方式行事。學(xué)術(shù)界主要關(guān)注垃圾郵件發(fā)送者，這些帳戶(hù)積極致力于傳播惡意軟件、發(fā)送垃圾郵件和宣傳合法性可疑的活動(dòng) 。為了提高其有效性，這些惡意帳戶(hù)通常配備自動(dòng)推特程序，就像模仿真實(shí)用戶(hù)一樣隱秘，稱(chēng)為機器人。最近，媒體開(kāi)始報道政客、名人和流行品牌的賬戶(hù)出現了可疑的追隨者膨脹。所謂的虛假關(guān)注者對應于專(zhuān)門(mén)用于增加目標賬戶(hù)關(guān)注者數量的 Twitter 賬戶(hù)。例如，在 2012 年美國大選期間，挑戰者羅姆尼 (Romney) 的推特賬戶(hù)的關(guān)注者數量突然激增。其中絕大多數后來(lái)被聲稱(chēng)是假的。同樣，在上一次意大利大選（2013 年 2 月）之前，在線(xiàn)博客和報紙報道了有關(guān)主要候選人假追隨者比例的統計數據。乍一看，獲得虛假追隨者似乎是一種僅限于培養虛榮心的做法——一種可能有問(wèn)題但無(wú)害的做法。但是，人為夸大關(guān)注者數量也可以最終確定，以使帳戶(hù)更值得信賴(lài)和有影響力，從而脫穎而出并吸引其他真正的關(guān)注者。最近，美國的銀行和金融機構在實(shí)際發(fā)放貸款之前已開(kāi)始分析貸款申請人的 Twitter 和 Facebook 賬戶(hù)。因此，擁有“受歡迎”的個(gè)人資料絕對有助于提高申請人的信譽(yù)。同樣，如果惡意賬戶(hù)采用購買(mǎi)虛假粉絲的做法，作為垃圾郵件發(fā)送者，它可以作為發(fā)布更權威消息和發(fā)起更有效廣告活動(dòng)的一種方式。對許多博主來(lái)說(shuō)，檢測假粉絲似乎是一件容易的事，他們提出了自己的“黃金法則”，并提供了一系列標準，用來(lái)對推特賬戶(hù)行為進(jìn)行分類(lèi)。然而一些規則通常既不與分析算法配對以聚合它們，也不與驗證機制配對。至于學(xué)術(shù)界，研究人員主要關(guān)注垃圾郵件和機器人檢測，基于 Twitter 帳戶(hù)的（非）人類(lèi)特征，主要是通過(guò)在人工注釋的帳戶(hù)集上訓練的機器學(xué)習分類(lèi)器，獲得了出色的結果。
　　然而，據我們所知，盡管假追隨者構成了一種具有經(jīng)濟和社會(huì )影響的普遍現象，但在文獻中該主題尚未得到深入研究。
　　這項工作的目標是闡明假 Twitter 追隨者的現象，旨在克服目前在其表征和檢測方面的局限性。特別是，我們提供了以下貢獻。首先，我們構建了一個(gè) Twitter 賬戶(hù)的基線(xiàn)數據集，其中人類(lèi)和假粉絲是先驗已知的。其次，我們在基線(xiàn)數據集上測試已知的機器人和垃圾郵件檢測方法。特別是，我們針對基于以下算法的算法測試參考集中的 Twitter 帳戶(hù)：(i) 博客作者提出的單一分類(lèi)規則，以及 (ii) 文獻中提出的用于檢測垃圾郵件發(fā)送者的特征集。分析結果表明，假追隨者檢測值得專(zhuān)門(mén)的機制：具體而言，基于分類(lèi)規則的算法無(wú)法成功檢測我們基線(xiàn)數據集中的假追隨者。相反，基于特征集的垃圾郵件檢測分類(lèi)器也適用于虛假關(guān)注者檢測。第三，我們根據采集計算它們所需的數據采集所需的成本，并對所有調查的規則和特征進(jìn)行分類(lèi)。在理論計算和經(jīng)驗評估的基礎上，我們展示了性能最好的特征也是最昂貴的特征。我們分析的新結果表明，數據獲取成本通常嚴重限制了這些功能的實(shí)際適用性。最后，在爬蟲(chóng)成本分析的基礎上，我們設計并實(shí)現了輕量級分類(lèi)器，這些分類(lèi)器利用了成本較低的特征，同時(shí)仍然能夠正確分類(lèi)我們訓練數據集 95% 以上的帳戶(hù)。此外，我們還驗證了我們的分類(lèi)器在與原創(chuàng )訓練數據集不相交的另外兩組人類(lèi)和虛假追隨者帳戶(hù)上的檢測性能。
　　本文的其余部分的結構如下。第 2 節考慮和比較 Twitter 垃圾郵件和機器人檢測領(lǐng)域的相關(guān)工作。第 3 節描述了我們的基線(xiàn)數據集。在第 4 節中，我們使用我們的基線(xiàn)數據集評估了社交媒體分析推廣的一組虛假 Twitter 關(guān)注者檢測標準。在第 5 節中，我們檢查了以前工作中用于 Twitter 帳戶(hù)垃圾郵件檢測的功能。在第 6 節中，我們計算了提取分類(lèi)器所基于的特征的成本。還提供了一個(gè)輕量級、高效的分類(lèi)器，在虛假關(guān)注者檢測能力和爬取成本之間取得了很好的平衡。最后，第 7 節總結了論文。
　　2 相關(guān)工作
　　引用 [7] 的內容，“虛假的 Twitter 帳戶(hù)被認為是一種欺騙形式（即，在個(gè)人資料的內容和個(gè)人信息方面的欺騙，以及讓個(gè)人資料關(guān)注他人而不是因為個(gè)人興趣，而是因為他們這樣做是有報酬的）?！碧摷俚?Twitter 帳戶(hù)的第二個(gè)特征正是我們在論文中要討論的：我們特別將虛假追隨者視為那些適當創(chuàng )建并出售給客戶(hù)的 Twitter 帳戶(hù)，這些帳戶(hù)旨在放大他們在世界眼中的影響力和參與度，并產(chǎn)生大量追隨者的錯覺(jué)。
　　如此定義的虛假追隨者只是在 Twitter 上傳播的異常賬戶(hù)的一個(gè)例子。文獻中確實(shí)將異常確定為垃圾郵件發(fā)送者（即宣傳未經(jīng)請求且通常有害的內容的帳戶(hù)，收錄指向惡意頁(yè)面的鏈接 [8]）或機器人（即控制社交帳戶(hù)的計算機程序，隱秘到模仿真實(shí)用戶(hù) [9]）或 cyborgs（即交織手動(dòng)和自動(dòng)行為特征的帳戶(hù) [10]）。最后，還有虛假的追隨者，為追隨目標賬戶(hù)而大量創(chuàng )建的賬戶(hù)，可以從在線(xiàn)賬戶(hù)市場(chǎng)購買(mǎi)。
　　2.1 灰色文學(xué)和在線(xiàn)博客
　　在介紹學(xué)術(shù)文獻之前，我們簡(jiǎn)要報告了在線(xiàn)文檔，該文檔提供了一系列直覺(jué)的虛假追隨者檢測標準，盡管并未以科學(xué)的方式證明是有效的。我們引用這項工作的原因有兩個(gè)：一方面，在線(xiàn)文章和帖子證明了對真假 Twitter 追隨者的正確區分；另一方面，我們旨在以科學(xué)的方式評估這些標準是否真的可以用于檢測假粉絲。
　　例如，[11] 中的一位知名博主指出，機器人帳戶(hù)可能具有類(lèi)似機器人的獨特信號：1）通常有大量的追隨者和少量的追隨者； 2) 向所有人發(fā)推文；并且，3）玩關(guān)注/取消關(guān)注游戲，即他們通常在 24 小時(shí)內關(guān)注然后取消關(guān)注帳戶(hù)。在線(xiàn)博客宣傳的標準主要基于常識，作者通常甚至不建議如何驗證它們。
　　數字評估公司[12]發(fā)布的一系列報告引起了意大利和歐洲報紙和雜志的注意，引發(fā)了人們對政界人士和主要國際公司在Twitter上受歡迎程度的質(zhì)疑。報告中列出了一些標準，這些標準受到常識的啟發(fā)，并表示人類(lèi)行為，用于評估選定賬戶(hù)的追隨者樣本。對于follower滿(mǎn)足的每一個(gè)標準，將分配一個(gè)人類(lèi)得分。對于每一個(gè)不滿(mǎn)足的標準，要么給機器人評分，要么給中立評分。根據總分，Twitter粉絲分為人類(lèi)、機器人或中立(在后者的情況下，沒(méi)有足夠的信息來(lái)評估他們的性質(zhì))，為被關(guān)注賬號的有效影響力提供一個(gè)質(zhì)量分數。但是，[12]中的結果缺少驗證階段。
　　最后，一些專(zhuān)門(mén)從事社交媒體分析的公司提供在線(xiàn)服務(wù)，以估計 Twitter 帳戶(hù)在其追隨者方面的真實(shí)性 [13,14,15]。但是，用于分析的標準并未公開(kāi)披露，僅可從其網(wǎng)站上可用的信息中部分扣除。此外，正如我們之前的工作 [16] 所證明的，這些分析受到一些偏差的影響，例如小的和統計上不健全的采樣策略。
　　2.2 學(xué)術(shù)文獻
　　近年來(lái)，Twitter 上的垃圾郵件檢測已成為許多調查的主題，從多個(gè)角度處理該問(wèn)題。例如，一個(gè)研究分支專(zhuān)注于推文的文本內容 [4, 3, 17]，研究推文中嵌入 URL 的重定向 [18]，并對 URL 登錄頁(yè)面進(jìn)行分類(lèi) [19]。其他作品通過(guò)認識論解決了 Twitter 上的欺騙問(wèn)題。例如，在 [20] 中，作者評估了欺騙檢測任務(wù)的 4 個(gè)認識論特征：權威、合理性和支持、獨立確證和呈現。
　　在[21]中的工作克服了不能正確地標記那些沒(méi)有 URL 的 tweet 為垃圾 tweet 的限制，通過(guò)提出一個(gè)復合工具，能夠將傳入的 tweet 與垃圾郵件發(fā)送者通常使用的底層模板匹配。 [7] 中的工作沒(méi)有考慮推文的內容，而是嘗試僅根據源自帳戶(hù)配置文件的可能不一致的信息來(lái)分類(lèi)帳戶(hù)是否可以信任。
　　一系列作品通過(guò)多特征的方法調查微博平臺上的垃圾郵件發(fā)送者，包括個(gè)人資料、行為和帳戶(hù)時(shí)間線(xiàn)的特征。在這個(gè)研究方向內，我們在此引用 [8]、[2] 和 [22]。 [8] 中的工作分析了垃圾郵件發(fā)送者在 Facebook、Twitter 和 MySpace 上的運作方式，報告稱(chēng)可疑帳戶(hù)在特定功能上具有一些共同特征。這些作為基于機器學(xué)習的分類(lèi)器 [23] 的輸入，導致檢測到超過(guò) 15,000 個(gè)垃圾郵件配置文件，Twitter 迅速刪除了這些配置文件。在 [2] 中，作者提出了檢測 Twitter 垃圾郵件發(fā)送者的標準分類(lèi)法。一系列實(shí)驗表明，與現有標準相比，新設計的標準具有更高的檢測率。在 [22] 中，作者利用行為特征（例如推文和轉發(fā)活動(dòng)）、網(wǎng)絡(luò )特征（例如帳戶(hù)的關(guān)注者和朋友的數量）和基于內容的特征的組合開(kāi)發(fā)了一個(gè)混合數學(xué)模型來(lái)檢測微博上的垃圾郵件發(fā)送者，微博是類(lèi)似于 Twitter 的中國微博網(wǎng)站。
　　[10] 的作者將 Twitter 帳戶(hù)分為三類(lèi)：人類(lèi)、機器人和半機器人。后一類(lèi)代表機器人輔助人類(lèi)或人類(lèi)輔助機器人。作者使用了一個(gè)基于三個(gè)專(zhuān)門(mén)組件的決策者，這些組件考慮了推文的內容和時(shí)間以及一些帳戶(hù)屬性。
　　[24, 4] 中提出的算法旨在盡快發(fā)現自動(dòng)惡意 Twitter 帳戶(hù)組，以避免帳戶(hù)所有者利用它們。因此，作者將聚類(lèi)算法應用于在短時(shí)間內創(chuàng )建的帳戶(hù)組時(shí)間，除其他外，考慮基于名稱(chēng)和內容的特征。在 [25] 中，作者列出了檢測 Twitter 帳戶(hù)市場(chǎng)的客戶(hù)和受害者的幾個(gè)標準，即在線(xiàn)服務(wù)，為他們的訂閱者提供追隨者以換取費用，并代表他們傳播促銷(xiāo)推文。在另一項工作 [26] 中，同一研究團隊提供了有關(guān)帳戶(hù)市場(chǎng)的更多詳細信息，分析了客戶(hù)的其他屬性和特征（例如，關(guān)注者和朋友的動(dòng)態(tài)以及產(chǎn)生參與的能力），并為檢測市場(chǎng)和市場(chǎng)客戶(hù)。 [27] 的作者在 10 個(gè)月的時(shí)間里監控一組 Twitter 帳戶(hù)商家的價(jià)格、可用性和欺詐行為。這樣的研究重點(diǎn)關(guān)注賬戶(hù)市場(chǎng)用來(lái)創(chuàng )建和注冊欺詐賬戶(hù)的技術(shù)和方法，從 CAPTCHA 解決服務(wù)到欺騙性電子郵件憑據和用于逃避黑名單的各種 IP 地址池。與 Twitter 本身合作，作者開(kāi)發(fā)了一個(gè)分類(lèi)器來(lái)檢測此類(lèi)欺詐賬戶(hù)，這些賬戶(hù)因此被暫停。
　　值得注意的是，學(xué)術(shù)著(zhù)作的引用選擇并不詳盡。但是，它考慮了大量標準，我們進(jìn)一步利用這些標準來(lái)檢測虛假 Twitter 關(guān)注者。還有其他用于垃圾郵件檢測的工作，此處不詳述，例如 [1, 28, 29, 30, 31, 32]，其結果基于所選相關(guān)工作集所考慮標準的子集或略微修改的版本。
　　2.3 與我們的方法的異同
　　我們研究的目標是自動(dòng)檢測那些專(zhuān)門(mén)為增加某些目標帳戶(hù)的關(guān)注者數量而創(chuàng )建的 Twitter 賬戶(hù)（所謂的虛假 Twitter 關(guān)注者）。先驗地，垃圾郵件發(fā)送者、機器人和真實(shí)用戶(hù)的帳戶(hù)都可能屬于虛假關(guān)注者的宏觀(guān)類(lèi)別，并且文獻中已經(jīng)證明可以有效發(fā)現垃圾郵件發(fā)送者和機器人的特定功能也可以在虛假關(guān)注者的情況下起作用。確實(shí)正是這一觀(guān)察結果最初驅使本文的作者朝著(zhù)在真實(shí)賬戶(hù)和虛假追隨者的參考數據集上測試過(guò)去作品中的規則和特征的方向發(fā)展。這有助于修剪那些在檢測虛假追隨者方面表現最差的規則和特征，并留下表現良好的規則和特征。
　　從技術(shù)角度來(lái)看，在我們的實(shí)驗中，我們依賴(lài)于基于機器學(xué)習的分類(lèi)器，這些分類(lèi)器利用 1) 配置文件、2) 活動(dòng)和 3) 帳戶(hù)關(guān)系的特征，類(lèi)似于 [8, 2]。相反，我們不依賴(lài)推文特定內容固有的特征，例如 URL 的存在和文本的語(yǔ)義 [17, 19]。因為我們修改了我們的分類(lèi)器以減少過(guò)度擬合和數據采集的成本，所以我們不僅僅是應用已經(jīng)測試過(guò)的特性到一個(gè)新的數據集，如第5節和第6節所示。
　　最后，與 [26] 類(lèi)似，我們從網(wǎng)絡(luò )上的不同市場(chǎng)購買(mǎi)了虛假的 Twitter 追隨者。我們獨立于 [26] 進(jìn)行了這樣的訓練，此外，這兩項工作的目標完全不同，我們的目標是這些市場(chǎng)銷(xiāo)售的賬戶(hù)，而另一個(gè)則針對他們的客戶(hù)。至于我們的基線(xiàn)數據集的真實(shí)用戶(hù)，我們招募了自愿加入我們活動(dòng)的人的賬戶(hù)，并利用一個(gè)帶有注釋的賬戶(hù)數據集，這些賬戶(hù)屬于在特定域的特定時(shí)間段內活躍在Twitter上的人，其真實(shí)性已經(jīng)過(guò)驗證。然而，為了在整個(gè) Twitter 人口的代表性樣本上測試我們的分類(lèi)器，我們還通過(guò)隨機挑選來(lái)構建測試集：1）巴拉克奧巴馬的追隨者樣本，以及 2）Twitter 人群的樣本。
　　3 基線(xiàn)數據集
　　在本節中，我們將介紹用于在整篇論文中進(jìn)行實(shí)證研究的 Twitter 賬戶(hù)數據集。我們詳細說(shuō)明了我們如何采集他們每個(gè)人，以及我們如何驗證他們是真人還是假追隨者。為了進(jìn)行我們的研究，我們總共抓取了 900 萬(wàn)個(gè) Twitter 帳戶(hù)和大約 300 萬(wàn)條推文。為了促進(jìn)對假 Twitter 追隨者這一新問(wèn)題的調查，我們的基線(xiàn)數據集已公開(kāi)用于研究目的 [33]。
　　3.1 The Fake Project
　　The Fake Project 于 2012 年 12 月 12 日開(kāi)始其活動(dòng)，并創(chuàng )建了 Twitter 帳戶(hù)@TheFakeProject。它的簡(jiǎn)介報告了以下座右銘：“只有當你不是假貨時(shí)才關(guān)注我”，并解釋說(shuō)該倡議與意大利比薩 IIT-CNR 研究人員擁有的一個(gè)研究項目有關(guān)。在第一階段，業(yè)主聯(lián)系了更多的研究人員和記者來(lái)宣傳該倡議，外國記者和博主也在他們的國家支持該倡議。在十二天的時(shí)間里（2012 年 12 月 12 日至 24 日），該帳戶(hù)已被 574 位關(guān)注者關(guān)注。通過(guò) Twitter API，我們抓取了一系列關(guān)于這些關(guān)注者的公共信息以及他們的關(guān)注者和關(guān)注者的信息。對于這個(gè)數據集，我們爬取了 574 個(gè)賬戶(hù)，最終采集了 616,193 條推文和 971,649 個(gè)關(guān)系（即關(guān)聯(lián)的 Twitter 賬戶(hù)）。
　　所有這些追隨者都自愿加入了該項目。為了將它們收錄在我們的參考人類(lèi)集中，我們還啟動(dòng)了驗證階段。每個(gè)追隨者在 Twitter 上收到來(lái)自@TheFakeProject 的直接消息，其中收錄一個(gè)驗證碼的 URL，每個(gè)追隨者都是唯一的。我們將成功完成 CAPTCHA 的 574 個(gè)關(guān)注者中的所有 469 個(gè)帳戶(hù)視為“認證人”。在本節的其余部分，這個(gè)數據集被稱(chēng)為 TFP；
　　3.2. #elezioni2013 dataset
　　#elezioni2013 數據集（以下簡(jiǎn)稱(chēng) E13）的誕生是為了支持一項與佩魯賈大學(xué)和羅馬第一大學(xué)合作開(kāi)展的社會(huì )學(xué)研究計劃。該研究側重于 2013-2015 年 3 年期間意大利政治格局的戰略變化。研究人員在 2013 年 1 月 9 日至 2 月 28 日期間確定了 84,033 個(gè)在其推文中使用 #elezioni2013 主題標簽的唯一 Twitter 帳戶(hù)。這些帳戶(hù)的識別是基于對帳戶(hù)的用戶(hù)名和傳記字段的特定關(guān)鍵字驅動(dòng)的查詢(xún)' 個(gè)人資料。關(guān)鍵詞包括博主、記者、社交媒體策略師/分析師和國會(huì )議員。還搜索了政黨的具體名稱(chēng)?？傊?，所有屬于政治家和候選人的賬戶(hù)，政黨、記者、博客作者、特定的協(xié)會(huì )和團體，以及任何以某種方式正式參與政治的人，都被拋棄了。其余賬戶(hù)（約 40k）已被歸類(lèi)為公民。最后一組已被抽樣（置信度為 95%，置信區間為 2.5），產(chǎn)生了最后一組 1488 個(gè)帳戶(hù)，這些帳戶(hù)已經(jīng)過(guò)手動(dòng)驗證以確定其個(gè)人資料和推文的性質(zhì)。手動(dòng)驗證過(guò)程由意大利佩魯賈大學(xué)的兩名社會(huì )學(xué)家進(jìn)行。它涉及對被調查賬戶(hù)的個(gè)人資料圖片、傳記和時(shí)間表的分析。沒(méi)有傳記或頭像的帳戶(hù)已被丟棄。傳記中的 URL 也經(jīng)過(guò)人工檢查，以便對主題進(jìn)行更深入的分析。只有被兩位社會(huì )學(xué)家標記為人類(lèi)的帳戶(hù)才收錄在 E13 數據集中?？傮w而言，手動(dòng)驗證階段持續了大約兩個(gè)月。結果，1481 個(gè)賬戶(hù)成為數據集 E13 的一部分。
　　3.3人類(lèi)帳戶(hù)的基線(xiàn)數據集
　　上面介紹的數據集形成了我們最終的一組，標記為 HUM，由 1950 個(gè)經(jīng)過(guò)驗證的人類(lèi)賬戶(hù)組成。值得注意的是，這兩個(gè)子集彼此之間有何不同。 TFP 集合由在志愿者基礎上招募的帳戶(hù)組成：參與該計劃的人旨在成為在 Twitter 上發(fā)現虛假追隨者的學(xué)術(shù)研究的一部分，他們是研究人員、社交媒體專(zhuān)家和記者的混合體，主要來(lái)自意大利，但也來(lái)自美國和其他歐洲國家。 E13 組由特別活躍的意大利 Twitter 用戶(hù)組成，具有不同的專(zhuān)業(yè)背景，屬于不同的社會(huì )階層，對政治有著(zhù)共同的興趣，但不屬于以下類(lèi)別：政治家、政黨、記者、博主；
　　3.4 虛假關(guān)注者的基線(xiàn)數據集
　　2013 年 4 月，我們從三個(gè)不同的 Twitter 在線(xiàn)市場(chǎng)購買(mǎi)了 3000 個(gè)虛假賬戶(hù)。特別是，我們從購買(mǎi)了 1000 個(gè)假賬戶(hù)，從購買(mǎi)了 1000 個(gè)，從購買(mǎi)了 1000 個(gè)假賬戶(hù)，價(jià)格分別為 19 美元、14 美元和 13 美元.令人驚訝的是，fastfollowerz 和 intertwitter 給了我們比我們支付的更多的賬戶(hù)，分別是 1169 和 1337 而不是 1000。我們爬取了所有這些賬戶(hù)以構建一個(gè) fastfollowerz 數據集，標記為 FSF，以及一個(gè)標記為 INT 的 intertwitter 數據集。相反，我們無(wú)法抓取從 twittertechnology 購買(mǎi)的所有 1000 個(gè)假粉絲，因為其中 155 個(gè)幾乎立即被暫停。其余 845 個(gè)賬戶(hù)構成 twittertechnology 數據集，標記為 TWT。
　　我們承認，我們的假追隨者數據集只是說(shuō)明性的，而不是所有可能存在的假追隨者集合的詳盡說(shuō)明。然而，值得注意的是，我們通過(guò)在最常見(jiàn)的搜索引擎上簡(jiǎn)單地通過(guò)網(wǎng)絡(luò )搜索找到了 Twitter 帳戶(hù)市場(chǎng)。因此，我們可以爭辯說(shuō)，我們的數據集代表了在搜索時(shí)很容易在 Web 上找到的內容。
　　3.5 虛假關(guān)注者和人類(lèi)賬戶(hù)的基線(xiàn)數據集
　　
　　我們實(shí)驗中使用的最終基線(xiàn)數據集由虛假和人類(lèi)檔案組成。在下文中，我們將簡(jiǎn)要討論為此數據集選擇的虛假賬戶(hù)和人工賬戶(hù)之間的分布。許多機器學(xué)習技術(shù)受到少數類(lèi)和多數類(lèi)的自然分布不平衡的影響。這就是為什么，例如，文獻中的作品研究了基于決策樹(shù)的技術(shù)在改變訓練集分布時(shí)的表現。特別是，Weiss 和 Provost 在 [34] 中考慮了基于決策樹(shù)的分類(lèi)器的性能，以預測 26 個(gè)不同數據集的樣本，在少數類(lèi)和多數類(lèi)之間具有不同的分布。他們的調查結論表明，用于評估不同分類(lèi)器性能的度量改變了訓練集的類(lèi)的最佳分布。例如，經(jīng)過(guò)他們的經(jīng)驗分析，以準確率作為評價(jià)指標，26 個(gè)數據集中有 9 個(gè)數據集的最優(yōu)分布與自然的非常不同，而當使用 AUC 作為評價(jià)指標時(shí)，這個(gè)數字增長(cháng)到 26 個(gè)數據集中的 14 個(gè). 而且，最優(yōu)分布對少數類(lèi)樣本有過(guò)采樣（也有過(guò)采樣高達 90% 的少數類(lèi)樣本得到最佳分類(lèi)器的情況）。
　　在這里，我們面臨另一個(gè)基本問(wèn)題：我們并不準確地知道假粉絲和人工賬戶(hù)的真實(shí)（自然）分布。 2013 年，Twitter 工作人員推測“虛假或垃圾賬戶(hù)的數量應占我們 MAU 的不到 5%”（其中 MAU 是指每月活躍用戶(hù)）[35]。但是，MAU 既不能與 Twitter 帳戶(hù)的隨機樣本同化，也不能與給定帳戶(hù)的追隨者同化。此外，如果一個(gè)賬戶(hù)購買(mǎi)了虛假關(guān)注者，那么它的虛假關(guān)注者和人類(lèi)關(guān)注者的分布可能與人們可以找到的自然分布有很大的不同，無(wú)論是在 MAU 中，還是在 Twitter 圈中的所有 Twitter 賬戶(hù)中?？傊?，在整個(gè) Twitter 中，5% 的虛假或垃圾賬戶(hù)估計不能直接擴展到給定賬戶(hù)的虛假粉絲。
　　盡管 Twitter 從未披露過(guò)注冊用戶(hù)總數，但非官方消息稱(chēng)，最新創(chuàng )建的 Twitter 賬戶(hù)數量遠遠超過(guò) MAU。這就是我們做出保守假設的原因，將假追隨者和人類(lèi)追隨者的平衡分布作為我們的基線(xiàn)數據集。
　　為了驗證這個(gè)假設，我們在 [34] 中對我們的數據集進(jìn)行了實(shí)驗。我們逐漸改變數據集中假追隨者和人類(lèi)追隨者的類(lèi)別分布，從 5%–95% 到 95%–5%（分別為 100 人–1900 假追隨者，1900 人–100 假追隨者），并使用獲得的數據集訓練 J48 分類(lèi)器，考慮它們的交叉驗證性能。經(jīng)過(guò)訓練的分類(lèi)器在人類(lèi)和虛假追隨者的平衡分布上獲得了最佳結果。為了獲得平衡的數據集，我們隨機對假賬戶(hù)的總集合（即 3351）進(jìn)行欠采樣，以匹配經(jīng)過(guò)驗證的人類(lèi)賬戶(hù)的 HUM 數據集的大小。因此，我們構建了一個(gè)收錄 1950 個(gè)假粉絲的基線(xiàn)數據集，標記為 FAK。這項工作的最終基線(xiàn)數據集包括 HUM 數據集和 FAK 數據集，共有 3900 個(gè) Twitter 帳戶(hù)。在本文的其余部分中，這個(gè)平衡的數據集被標記為 BAS，并且已被用于本工作中描述的所有實(shí)驗（未另行指定）。表 1 顯示了本節描述的數據集中收錄的帳戶(hù)、推文和關(guān)系的數量。
　　4. 使用基于分類(lèi)規則的算法進(jìn)行虛假檢測
　　在本節中，我們詳細介紹了最初由博主和社交媒體分析師提出的三個(gè)程序，它們明確構思了用于檢測假粉絲和機器人帳戶(hù)。這些提議是在 [12, 11, 14] 中介紹的。我們在本節中關(guān)注的工作并不直接歸因于學(xué)術(shù)工作。但是，這是媒體和社交營(yíng)銷(xiāo)公司對虛假 Twitter 追隨者現象產(chǎn)生興趣的一個(gè)例子。盡管我們不希望這些提議能夠令人滿(mǎn)意地執行虛假追隨者檢測的復雜任務(wù)，但我們相信對提議標準的徹底分析仍然可以提供一些有用的見(jiàn)解。巧合的是，所有程序都被提議為依賴(lài)于規則列表或標準的算法：每個(gè)要分類(lèi)的帳戶(hù)都根據所有規則進(jìn)行檢查，并且必須將檢查的輸出組合在一起以獲得最終分類(lèi)。不幸的是，在許多情況下，有關(guān)如何結合標準來(lái)獲得帳戶(hù)最終分類(lèi)的詳細信息并不公開(kāi)。僅在 [12] 中提供了有關(guān)如何執行聚合的詳細信息。在提供的細節的驅動(dòng)下，我們實(shí)現了 [12] 中描述的完整算法，并在第 4.5 節中介紹了它的檢測性能。此外，對于每個(gè)程序，我們報告原創(chuàng )來(lái)源所指示的標準，并進(jìn)一步說(shuō)明我們如何將它們實(shí)施為適用于我們數據集的規則。我們還詳細說(shuō)明了我們選擇實(shí)施的原因。
　　在本節中，我們主要關(guān)注每條規則在我們的數據集上的應用，以評估其在區分虛假追隨者方面的優(yōu)勢（或劣勢）。在第 6 節中，我們將所有規則與第 5 節中分析的特征結合在一起，以評估它們的集體分類(lèi)能力。這是因為單個(gè)規則（或特征）在分類(lèi)虛假賬戶(hù)和人工賬戶(hù)方面可能表現不佳，但如果與其他規則結合使用，它可能會(huì )改善檢測。事實(shí)上，值得注意的是，本節中分析的一些標準實(shí)際上已被第6節中內置的分類(lèi)器所利用。
　　在本文的后續部分中，我們使用術(shù)語(yǔ)“朋友”來(lái)表示關(guān)注帳戶(hù)的用戶(hù)（即，如果 A 關(guān)注 B，則 B 是 A 的朋友）。
　　4.1. 政治候選人的追隨者
　　Camisani-Calzolari [12] 對羅姆尼和奧巴馬的 Twitter 追隨者樣本進(jìn)行了一系列測試，用于上屆美國總統選舉，以及受歡迎的意大利政客。在 [12] 中，詳細介紹了一種基于帳戶(hù)的一些公共特征來(lái)評估帳戶(hù)的算法。引用的算法有足夠的細節可以重現：它分配人類(lèi)/活躍和機器人/非活躍分數，并考慮兩個(gè)分數總和之間的差距對帳戶(hù)進(jìn)行分類(lèi)。特別是，該算法為表 2 中的每個(gè)標準分配了 1 個(gè)（或更多，如果指定）人工點(diǎn)。此外，如果該帳戶(hù)僅使用 API，則該帳戶(hù)會(huì )收到 2 個(gè)機器人點(diǎn)。
　　最后，對于每個(gè)未能驗證的標準，帳戶(hù)都會(huì )收到 1 個(gè)機器人點(diǎn)，但標準 8、13、14、15、16 和 17 除外：在這??種情況下，不會(huì )分配機器人點(diǎn)。為了驗證這些規則，我們參考了推文的源元數據，其中收錄一個(gè)不同的值，代表用于發(fā)布推文的平臺。特別是，關(guān)于上述規則，我們分別考慮了具有值 iphone、android、foursquare、instagram 和 web 的源元數據，并且我們?yōu)樵诓杉膸?hù)推文中至少找到一次的每個(gè)值分配了 1 個(gè)人工點(diǎn).對于標準 21，如果該帳戶(hù)的推文沒(méi)有被其他用戶(hù)轉發(fā)，則分配 2 個(gè)機器人點(diǎn)?？紤]到規則 8，地理定位與推文有關(guān)。因此，當帳戶(hù)的至少一條推文已進(jìn)行地理本地化時(shí)，我們將此規則設置為滿(mǎn)足。對于規則 11，已在個(gè)人簡(jiǎn)介和時(shí)間線(xiàn)中搜索了標點(diǎn)符號。
　　4.2.
　　根據社交媒體網(wǎng)站 [11] 的創(chuàng )始人的說(shuō)法，在提出識別可疑 Twitter 帳戶(hù)的黃金法則的幾位博主中，我們考慮了“識別 Twitter 機器人的 7 個(gè)信號”。表 3 列出了識別 Twitter 機器人的“需要注意的 7 個(gè)信號”。
　　規則 3 已將推文視為一個(gè)單元來(lái)實(shí)施。我們考慮每個(gè)時(shí)間線(xiàn)的最后 20 條推文。對于規則 4，當數據集中至少 3 個(gè)帳戶(hù)具有相同的頭像時(shí)，我們認為存在重復的頭像。對于規則 5，我們將所有未從網(wǎng)站發(fā)布的推文視為從 API 發(fā)布的推文。
　　對于規則 6 和 7，在查找帳戶(hù)的朋友或關(guān)注者列表時(shí)，Twitter 僅提供有關(guān)當前列表的信息，而不提供有關(guān)過(guò)去朋友或關(guān)注者的詳細信息。此外，Twitter 不會(huì )披露與用戶(hù)關(guān)注或被其他用戶(hù)關(guān)注的時(shí)刻相關(guān)的任何時(shí)間數據。這意味著(zhù)檢查用戶(hù)的關(guān)注/取消關(guān)注行為（規則 7）的唯一方法是持續監控完整的朋友和關(guān)注者的完整列表。這同樣適用于測量用戶(hù)關(guān)注（和回復）其他用戶(hù)時(shí)所經(jīng)歷的延遲（規則 6）。正如第 6 節中進(jìn)一步詳述的那樣，Twitter 對 API 使用的速率限制使得監控即使是一小群用戶(hù)的朋友和關(guān)注者列表實(shí)際上也不可行。因此，我們沒(méi)有將規則 6 和 7 應用于我們的數據集，因為這需要持續監控這些帳戶(hù)。這也意味著(zhù)這些規則不能用于支持自動(dòng)檢測過(guò)程，因為它們需要評估交互式過(guò)程。
　　4.3 社交網(wǎng)站的 FakeFollowerCheck
　　幾家公司提供在線(xiàn)工具，根據 Twitter 關(guān)注者的虛假程度對其進(jìn)行分類(lèi)。在這里，我們考慮由 Socialbakers [14] 開(kāi)發(fā)的“FakeFollowerCheck 工具”。雖然公司網(wǎng)站提供了八個(gè)標準來(lái)評估某個(gè)帳戶(hù)的關(guān)注者的虛假程度，但它省略了如何結合這些標準對帳戶(hù)進(jìn)行分類(lèi)的細節。我們聯(lián)系了他們的客戶(hù)服務(wù)，但我們得到的回答是“如何衡量各自的標準是內部信息”。 FakeFollowerCheck 工具分析帳戶(hù)的關(guān)注者，并在滿(mǎn)足表 4 中列出的標準時(shí)認為他們可能是假的。
　　對于規則2，我們將Socialbakers網(wǎng)站建議的“節食”、“賺錢(qián)”或“在家工作”(英語(yǔ)和意大利語(yǔ)都有)視為垃圾短語(yǔ)。
　　4.4. 評估方法
　　上面詳細描述的所有標準都已應用于2個(gè)驗證的人類(lèi)賬戶(hù)數據集(TFP和E13)以及從Twitter賬戶(hù)市場(chǎng)(FSF∪NT∪TWT)購買(mǎi)的所有3351個(gè)假追隨者賬戶(hù)，如第3節所述。
　　我們針對每條規則進(jìn)行了一項實(shí)驗，考慮了兩類(lèi)賬戶(hù)，即虛假關(guān)注者和人類(lèi)賬戶(hù)。為了總結每個(gè)實(shí)驗的結果，我們考慮了基于四個(gè)標準指標的一些評估指標，即：
　　真陽(yáng)性（TP）：被規則識別為假關(guān)注者的假關(guān)注者的數量；
　　? True Negative (TN)：被規則識別為人類(lèi)追隨者的人類(lèi)追隨者的數量；
　　? 誤報（FP）：被規則識別為假追隨者的人類(lèi)追隨者的數量；
　　? 假陰性 (FN)：被規則識別為人類(lèi)追隨者的虛假追隨者的數量；
　　每個(gè)指標的含義由表 5 中的矩陣（稱(chēng)為混淆矩陣）以圖形方式突出顯示，其中每一列代表預測類(lèi)中的實(shí)例，而每一行代表實(shí)際類(lèi)中的實(shí)例 [36]：為了評估每一條規則對基線(xiàn)數據集中賬戶(hù)的應用，我們考慮以下標準評估指標:
　　準確率：預測的真實(shí)結果（真陽(yáng)性和真陰性）在總體中的比例，即
　　精度：預測的正例中確實(shí)是真正正例的比例，即(TP)/(TP + FP)；
　　召回率（或敏感度）：真正預測為陽(yáng)性的真實(shí)陽(yáng)性病例的比例，即（TP）/(TP+FN);
　　F-Measure：準確率和召回率的調和平均值，即
　　Matthew Correlation Coefficient（MCC）[37]：預測類(lèi)與樣本真實(shí)類(lèi)之間相關(guān)性的估計量，定義為
　　上述每一項措施都捕獲了屬于相關(guān)類(lèi)別的樣本（我們的數據集中的假追隨者）的預測質(zhì)量的不同方面。準確度衡量有多少樣本在兩個(gè)類(lèi)中被正確識別，但它不表示相關(guān)類(lèi)是否比另一個(gè)類(lèi)更好地識別。此外，在某些情況下，某些預測模型的性能比其他模型更好，甚至精度較低 [38]。高精確度表明許多被識別為相關(guān)的樣本被正確識別，但它沒(méi)有提供有關(guān)尚未識別的相關(guān)樣本的任何信息。該信息由召回指標提供，表示在整個(gè)相關(guān)樣本集中有多少樣本被正確識別：低召回意味著(zhù)許多相關(guān)樣本未被識別。 F-Measure 和 MCC 試圖在一個(gè)單一的值中傳達預測的質(zhì)量，并結合其他指標。此外，MCC 被認為是 F-Measure 的無(wú)偏版本，因為它使用了混淆矩陣的所有四個(gè)元素。然后，我們將那些應用給出 MCC ≥ 0.6 的標準視為最佳規則，因為這些規則與賬戶(hù)類(lèi)型具有最強的相關(guān)性。為了完整起見(jiàn)，我們還報告了曲線(xiàn)下面積度量 (AUC)，即接受者操作特征 (ROC) 曲線(xiàn)下的面積 [39]。后者是描述分類(lèi)器性能的曲線(xiàn)，考慮了真陽(yáng)性樣本的百分比與假陽(yáng)性樣本的百分比。 AUC 用于將 ROC 曲線(xiàn)總結為單個(gè)值：面積越接近 1，分類(lèi)器越有能力.
　　最后，我們還報告了信息增益（I gain）和皮爾遜相關(guān)系數（Pcc）。雖然 Pearson 相關(guān)系數可以檢測特征和目標類(lèi)之間的線(xiàn)性依賴(lài)關(guān)系，但信息增益考慮了更一般的依賴(lài)關(guān)系，利用概率密度（或頻率，在離散變量的情況下）。更準確地說(shuō)，信息增益是關(guān)于特征相對于預測類(lèi)的信息量的度量，通常用于訓練機器學(xué)習分類(lèi)器。它可以非正式地定義為由給定屬性的值的知識引起的熵的預期減少[40]。我們計算兩個(gè)信息增益：關(guān)于規則結果的增益和關(guān)于規則使用的屬性的增益*。對于 I gain，基于屬性 A 的規則只能假設值 0（不滿(mǎn)足）和 1（滿(mǎn)足），而對于 I gain*，屬性 A 可以假設很多異類(lèi)值。例如，在評估規則“followers ≥ 30”的信息增益時(shí)，具有 234 個(gè)關(guān)注者的樣本在計算 I gain 時(shí)貢獻值為 1，在計算 I gain? 時(shí)貢獻值為 234。相反，皮爾遜相關(guān)系數是衡量?jì)蓚€(gè)隨機變量X和Y之間線(xiàn)性關(guān)系的強度。同樣，我們計算 Pcc，考慮規則滿(mǎn)足的結果（即：true=1 或 false=0）和 Pcc*，基于用于評估規則的屬性所假定的值。我們在以下部分中的實(shí)驗將表明，一般來(lái)說(shuō)，一個(gè)規則和相應的屬性假定信息增益和皮爾遜相關(guān)系數的值非常不同
　　4.5. Camisani-Calzolari 算法的評估
　　[12] 中的檢測算法匯總了 4.1 節介紹的用于識別人類(lèi)和機器人行為的 22 條標準。該算法評估正在調查的帳戶(hù)上的每條規則，并根據規則應用程序的輸出分配正面的人工得分或負面的機器人得分。最終結果取決于賬戶(hù)獲得的全局分數：如果結果大于0，則將該賬戶(hù)標記為人類(lèi)；如果介于 0 和 -4 之間，則標記為中性；否則，它被標記為機器人。
　　表 6 詳細說(shuō)明了在完整數據集上運行算法的結果，包括 FAK 集，即所有購買(mǎi)的假粉絲賬戶(hù)。雖然在檢測真實(shí)的人類(lèi)賬戶(hù)方面取得了很好的效果，但該算法實(shí)現了較差的虛假關(guān)注者賬戶(hù)檢測。大多數帳戶(hù)也被錯誤地標記為人類(lèi)，主要是因為我們數據集中的假追隨者具有很容易使他們獲得比機器人更高的人類(lèi)分數的特征。
　　
　　在我們的第二個(gè)實(shí)驗的結果中，上述無(wú)法檢測到虛假賬戶(hù)的情況很明顯。為了評估該算法，我們使用它來(lái)預測我們的基線(xiàn)數據集 (BAS) 的賬戶(hù)類(lèi)別，在表 7 中報告最終預測的評估。正如預期的那樣，該算法的準確度很差（非常接近 0.5）并且高精度，這意味著(zhù)被識別為假的（少數）帳戶(hù)實(shí)際上是假的。然而，它的召回率也非常低，這意味著(zhù)許多其他虛假賬戶(hù)都未被識別為虛假賬戶(hù)。這種較差的性能也通過(guò)接近 0.1 的 F-Measure 和低 MCC 值來(lái)表示。
　　4.6.單一規則評估
　　在本節中，我們分析了原作者設計的每條規則的有效性，以評估哪個(gè)規則可以被視為檢測虛假 Twitter 關(guān)注者的良好標準。
　　表 8 總結了將 4.1、4.2 和 4.3 節中介紹的每個(gè)規則應用于我們的 BAS 數據集所獲得的結果。在表 8 中，我們強調了實(shí)現高 MCC 值的規則。如圖所示，只有三個(gè)規則獲得了高于 0.6 的值，即：（1）至少 30 個(gè)關(guān)注者的閾值，（2）至少 50 條推文的閾值，以及（3）至少一個(gè)用戶(hù) ID 的使用userID。
　　正如 MCC 的定義所預期的那樣，這些規則還表現出高精度、精確度和召回率的組合。然而，值得觀(guān)察信息增益和皮爾遜相關(guān)系數的值。規則的信息增益（I gain）總是低于對相關(guān)屬性 I gain* 的評估，而對于 Pearson 相關(guān)系數（Pcc 和 Pcc*）則不然。實(shí)際上，這是因為Pcc評估兩個(gè)假設值非常相似的變量(即規則和類(lèi)的輸出)之間的線(xiàn)性依賴(lài)關(guān)系，而Pcc*則考慮具有更多異類(lèi)值的變量。實(shí)際上，在第一種情況下，變量類(lèi)和輸出都只能假設值 0 和 1：類(lèi)可以是 0（人）或 1（假），規則可以輸出 0（假，例如，帳戶(hù)沒(méi)有超過(guò) 50 條推文）或 1 條（真實(shí)，例如，帳戶(hù)有超過(guò) 50 條推文）。相反，對于 Pcc* ，規則的屬性（在示例中為推文的數量）可以采用更高的值（帳戶(hù)有 234 條推文）。這顯然不是線(xiàn)性依賴(lài)于類(lèi)值，導致 Pcc* 相對于 Pcc [41] 的值較低。
　　因此，對于第 4.1 節（表 8 頂部）中列出的每個(gè)規則，比較 Pcc 和 Pcc* 值是沒(méi)有意義的。相反，我們只需要關(guān)注相同類(lèi)型的指標，即按列，來(lái)比較特征與類(lèi)的線(xiàn)性相關(guān)性。然后，將注意力轉移到信息增益上，我們注意到許多規則考慮了能夠有效區分兩個(gè)類(lèi)別的屬性。如果我們認為信息增益值高于 0.5 的規則和特征是有用的，我們觀(guān)察到，即使許多規則表現出非常低的 I 增益，它們的“特征”版本也會(huì )變得更有趣：例如，規則 18，當用作特征時(shí)，圖 20、21 和 22 的信息增益明顯增加。因此，我們可以得出該規則是基于正確的假設（例如，使用主題標簽），但規則定義過(guò)于簡(jiǎn)單而無(wú)法有效：[12] 提出的算法對于復雜的任務(wù)來(lái)說(shuō)太天真了Twitter 中的虛假帳戶(hù)檢測。巧合的是，我們發(fā)現表現最好的規則也顯示出最高的 Pcc 值，即它們的滿(mǎn)意度與所屬類(lèi)別更密切相關(guān)。關(guān)于規則背后的特征，我們發(fā)現 Pcc* 大大降低了，因為如上所述，它們可以（并且確實(shí)）假設非常高的值，這嚴重影響了與類(lèi)的線(xiàn)性相關(guān)性。
　　觀(guān)察表 8 的其他規則，我們可以注意到在線(xiàn)博客和 Socialbakers 的 FakeFollowerCheck 建議的標準都沒(méi)有成功地檢測到我們數據集中的假粉絲。例如，Van Den Beld 的所有規則的準確率和精度都接近 0.5 或非常低的召回率。此外，我們觀(guān)察到“來(lái)自 API 的推文”的 MCC 為 -0.779，這意味著(zhù)它與帳戶(hù)的類(lèi)別嚴格相關(guān)，但有一個(gè)相反的因素：在我們的數據集中，虛假的追隨者帳戶(hù)幾乎從不來(lái)自 API 的推文（相反，他們使用發(fā)布推文），而人類(lèi)帳戶(hù)至少從網(wǎng)站外部發(fā)布過(guò)一次。這與博主為機器人建議的行為完全相反，后者（應該）幾乎完全使用 API 發(fā)布推文。 I gain/I gain* 和 Pcc/Pcc* 值也證實(shí)了與預測任務(wù)的相關(guān)性。
　　另一個(gè)有趣的觀(guān)察是，Socialbakers 提出的許多規則的 MCC 值接近 0，這意味著(zhù)它們的結果幾乎與賬戶(hù)類(lèi)別無(wú)關(guān)。事實(shí)上，絕大多數賬戶(hù)都被識別為人類(lèi)，從而導致高精度、0.5 左右的準確度和非常低的召回率。例外是規則 6，“0 條推文”：通常，它的信息增益值為 0.02，但當考慮一個(gè)特征（即推文數量）時(shí)，它獲得 0.621。類(lèi)似地，規則4和規則5在考慮它們的基本特征(即轉發(fā)數和帶有url的tweet數)時(shí)對檢測過(guò)程更有用?？偠灾?，獨立于帳戶(hù)的類(lèi)型，規則幾乎總是得到滿(mǎn)足，導致在處理虛假關(guān)注者檢測時(shí)出現嚴重缺陷。
　　5. 基于特征集的偽造檢測算法
　　在本節中，我們研究了 [8, 2] 中解決 Twitter 上的垃圾郵件帳戶(hù)檢測的工作。他們都提出了要從手動(dòng)分類(lèi)的帳戶(hù)數據集中提取的特征列表。然后使用這些特征集來(lái)訓練和測試機器學(xué)習分類(lèi)器，以區分人類(lèi)和垃圾郵件發(fā)送者。即使提議的功能最初是為垃圾郵件檢測而設計的，但在這里，我們第一次認為它們可以發(fā)現另一類(lèi) Twitter 帳戶(hù)，即假粉絲。盡管在關(guān)注 Twitter 垃圾郵件檢測的文獻中存在許多其他著(zhù)作（參見(jiàn)第 2 節），但其中許多都考慮了可以在某種程度上與本節和前一節中分析的特征相似的特征。
　　與第 4 節中基于規則的算法不同，此處將特征表示為所考慮樣本屬性的量化。因此，它們是在沒(méi)有任何關(guān)于將表征所考慮類(lèi)的特征的值的先驗知識的情況下引入的。只有在訓練階段之后，才有可能觀(guān)察不同類(lèi)別中特征的最常見(jiàn)值。
　　對于我們的分析，我們使用了生成“玻璃盒”和“黑盒??”模型的分類(lèi)器。在“玻璃盒”模型中，例如決策樹(shù)和回歸模型，模型的內部結構可以被人類(lèi)理解，也提供了關(guān)于分類(lèi)器如何識別虛假賬戶(hù)的見(jiàn)解 [39]。相反，在諸如支持向量機之類(lèi)的“黑盒”模型中，模型的內部結構沒(méi)有直接的人類(lèi)可解釋的對應關(guān)系。
　　5.1 檢測社交網(wǎng)絡(luò )中的垃圾郵件發(fā)送者
　　[8] 中提出的研究側重于垃圾郵件檢測。作者利用了幾個(gè)特征，這些特征可以從賬戶(hù)的個(gè)人資料和時(shí)間線(xiàn)中抓取賬戶(hù)的詳細信息。對于每個(gè)調查的帳戶(hù)，在隨機森林算法 [23, 43] 中利用這些特征，該算法輸出該帳戶(hù)是否是垃圾郵件機器人。 [8] 中的分析結果描述了正在調查的垃圾郵件帳戶(hù)的一些有趣特征，如表9所示：
　　為了評估特征 3，我們通過(guò)檢查帳戶(hù)時(shí)間線(xiàn)的最后 15 條推文中是否存在至少兩條推文來(lái)實(shí)現消息相似度的概念，其中 4 個(gè)連續單詞相等。同一作者在后來(lái)的作品中給出了這個(gè)概念 [25]。
　　如果沒(méi)有原創(chuàng )訓練集，我們無(wú)法重現相同的分類(lèi)器，但我們選擇了五個(gè)特征并使用它們用我們的 BAS 數據集訓練一組分類(lèi)器。結果報告在第 5.3 節的表 12 中。
　　5.2 對抗不斷發(fā)展的 Twitter 垃圾信息散布者
　　[2] 的作者觀(guān)察到 Twitter 垃圾郵件發(fā)送者經(jīng)常修改他們的行為以逃避現有的垃圾郵件檢測技術(shù)。因此，他們建議考慮一些新功能，使垃圾郵件發(fā)送者更難以規避。除了直接從帳戶(hù)配置文件查找中獲得的功能之外，作者還提出了一些基于圖形、自動(dòng)化和時(shí)間的功能。在表 10 中，我們詳細介紹了其中的九個(gè)，以及他們在 [2] 中的分析結果
　　[2] 的作者將他們的特征結合在四種不同的機器學(xué)習分類(lèi)器中，并將它們的實(shí)現與其他現有方法進(jìn)行比較。我們無(wú)法完全重現 [2] 中的機器學(xué)習分類(lèi)器，因為我們有不同的數據集。相反，我們在此評估這些功能在檢測虛假 Twitter 追隨者方面的表現如何，這些功能被證明對垃圾郵件發(fā)送者采用的規避技術(shù)非常強大。與 [2] 中一樣，以下比率（特征 9）已近似為朋友/年齡的比率，因為精確的評估需要知道一個(gè)帳戶(hù)的朋友數量的演變，但這實(shí)際上是公開(kāi)不可用的.最后，在[2]中，除了上面提到的那些之外，還有其他的特征。然而，正如同一作者所聲稱(chēng)的，它們在規避技術(shù)方面的魯棒性較差，因此我們決定不將它們包括在我們的評估中。
　　5.3 評估
　　正如第 4 節中的規則集所做的那樣，我們在表 11 中報告了 BAS 數據集中所有特征的信息增益和 Pearson 相關(guān)系數的評估。同樣在這種情況下，由于 Pcc 評估所考慮的特征和類(lèi)別之間的線(xiàn)性相關(guān)性（只能為 0 或 1），因此與信息增益相比，它產(chǎn)生的結果略有不同。觀(guān)察表 11 中的結果，我們可以確定幾個(gè)有希望的特征：“推文數量”（已經(jīng)在第 4 節中注意到）、“朋友和關(guān)注者之間的比率^2”、“雙向鏈接比率”和“API 比率”。 5.4.3 節的實(shí)驗將進(jìn)一步證實(shí)雙鏈路比率的有益效果。
　　為了評估第 5.1 節和第 5.2 節中描述的特征集在檢測虛假追隨者帳戶(hù)方面的綜合有效性，我們使用了 8 個(gè)分類(lèi)器，這些分類(lèi)器來(lái)自不同的基于機器學(xué)習的算法，即：裝飾 (D)、自適應提升 (AB)、隨機森林(RF)、決策樹(shù) (J48)、貝葉斯網(wǎng)絡(luò ) (BN)、k-最近鄰 (kNN)、多項嶺邏輯回歸 (LR) 和支持向量機 (SVM)。我們的 SVM 分類(lèi)器利用徑向基函數 (RBF) 內核，并使用 libSVM 作為機器學(xué)習算法進(jìn)行了訓練 [44]。在 SVM 的訓練階段，成本和 gamma 參數已通過(guò)網(wǎng)格搜索算法進(jìn)行了優(yōu)化。類(lèi)似地，kNN 分類(lèi)器的 k 參數和 LR 模型的脊懲罰參數已通過(guò)交叉驗證參數選擇算法進(jìn)行了優(yōu)化。這項工作中使用的所有分類(lèi)器和優(yōu)化算法都是在 Weka 框架內實(shí)現的 [43]。
　　在這些算法中，RF 是 [8] 中唯一使用的一種。相反，[2] 的作者使用了 D、RF、J48 和 BN。我們決定將 AB 納入我們的工作，因為它被認為是用于分類(lèi)任務(wù)的最有效的機器學(xué)習算法之一 [39]。此外，我們還添加了其他著(zhù)名的和廣泛采用的分類(lèi)器，它們基于不同的分類(lèi)技術(shù)，如支持向量機，kNN和LR，以便對我們的檢測系統進(jìn)行徹底的評估。我們已經(jīng)建立了 8 個(gè)分類(lèi)器，采用了第 5.1 節和第 5.2 節中的特征，并使用我們的基線(xiàn)（BAS）數據集訓練了模型。然后，我們使用 10 倍交叉驗證 [23] 來(lái)估計每個(gè)獲得的分類(lèi)器的性能。至于 4.4 節中基于規則的算法，我們將 MCC 視為評估分類(lèi)器性能的首選指標。表 12 總結了結果。每個(gè)指標的最高值以粗體顯示。
　　我們可以觀(guān)察到所有的分類(lèi)器都有很好的預測能力?；?[2] 的特征集構建的那些獲得了稍微好一點(diǎn)的結果。特別是，RF、J48 和 D 分類(lèi)器的 MCC 大于 0.98。同樣，所有這些的準確率和召回率都在 0.99 左右。此外，與使用 [8] 的特征集構建的分類(lèi)器相比，基于 [2] 的特征集的所有分類(lèi)器都具有更高的 AUC。無(wú)論如何，后者也獲得了很高的檢測水平：RF、D 和 J48 的準確率、精確度和召回率約為 0.98，MCC 約為 0.96。相對于使用 Yang 等人的集合獲得的精度和召回率較低。 [2] 表明 Stringhini 等人的特征。 [8] 表現出將某些人類(lèi)帳戶(hù)視為虛假追隨者的趨勢。對于 [2] 和 [8] 特征集，BN、kNN 和 LR 分類(lèi)器總體上實(shí)現了更差的性能。相反，SVM 分類(lèi)器取得了顯著(zhù)的結果，尤其是在使用 [2] 的特征集時(shí)。事實(shí)上，在這個(gè)實(shí)驗中，SVM 的得分只比 RF、D 和 J48 稍差，但比 AB 好。然而，當使用 AUC 指標評估時(shí)，AB 實(shí)現了極高的性能。最后，在所有考慮的分類(lèi)器和評估指標中，RF 和 D 是已被證明更一致的那些。
　　總體而言，即使在評估指標中可以觀(guān)察到一些小的差異，對于我們的基線(xiàn) BAS 數據集，所有分類(lèi)器幾乎都可以正確區分人類(lèi)和虛假追隨者帳戶(hù)。與CC算法相比，基于特征的分類(lèi)器在假追隨者檢測方面無(wú)疑更準確，但CC算法在我們的數據集中表現不佳，如上文第4.5節所述。
　　5.4. Discussion
　　通過(guò)檢查分類(lèi)器的內部結構，我們可以深入了解更有助于區分人類(lèi)和虛假追隨者的最佳特征。在決策樹(shù)的情況下，最好的特征是更接近根的特征，分類(lèi)器自動(dòng)找到數字閾值，對于給定的特征，人類(lèi)和假追隨者之間的邊界。值得注意的是，裝飾、AdaBoost 和隨機森林算法最終也利用了簡(jiǎn)單決策樹(shù)分類(lèi)器的組合。盡管它們的性能非常好，但它們的缺點(diǎn)是難以分析，因為它們可以收錄數十個(gè)相互作用的單獨樹(shù)。然后，我們只關(guān)注 J48 分類(lèi)器（單個(gè)決策樹(shù)）來(lái)檢查特征在分類(lèi)過(guò)程中是如何應用的。
　　5.4.1 虛假關(guān)注者和垃圾郵件帳戶(hù)之間的區別
　　查看樹(shù)形結構，我們觀(guān)察到 BAS 數據集中的虛假關(guān)注者與 [8] 和 [2] 中的垃圾郵件帳戶(hù)之間存在一些有趣的差異。例如，已發(fā)現特征 URL 比率對垃圾郵件發(fā)送者的值高于對合法用戶(hù)的值，如 [8]（第 5.1 節）中強調的那樣。相反，觀(guān)察我們的 J48 分類(lèi)器的樹(shù)形結構，該特征的低值表示虛假追隨者，而在我們的基線(xiàn)數據集中表示人類(lèi)賬戶(hù)的較高值。在我們的訓練數據集中，超過(guò) 72% 的虛假關(guān)注者的 URL 比率低于 0.05，與 14% 的人類(lèi)賬戶(hù)相反。同樣，發(fā)現垃圾郵件發(fā)送者的 API 比率功能高于合法帳戶(hù)（[2]，另請參見(jiàn)第 5.2 節）。在我們的數據集中，78% 的假粉絲的 API 比率低于 0.0001。對于普通鄰居的推文特征，已經(jīng)觀(guān)察到類(lèi)似的行為，在 [2] 中發(fā)現垃圾郵件發(fā)送者的行為較低，但對于我們的假追隨者而言則較高。
　　這些初步觀(guān)察突出了垃圾郵件帳戶(hù)和虛假追隨者之間的行為差??異。特別是，與垃圾郵件發(fā)送者相比，虛假關(guān)注者似乎更被動(dòng)，并且他們不像垃圾郵件發(fā)送者通常那樣使用自動(dòng)機制來(lái)發(fā)布他們的推文。
　　5.4.2 減少過(guò)度擬合
　　眾所周知，經(jīng)過(guò)訓練的分類(lèi)器可能會(huì )受到“過(guò)度擬合”的影響，即對訓練數據集過(guò)于專(zhuān)業(yè)化并且無(wú)法將分類(lèi)推廣到新的和看不見(jiàn)的數據的問(wèn)題[45]。
　　避免過(guò)度擬合的一個(gè)簡(jiǎn)單方法是使分類(lèi)器盡可能簡(jiǎn)單。例如，在決策樹(shù)算法的情況下，一種解決方案可能是減少節點(diǎn)的數量，并可能減少樹(shù)的高度。使用 Stringhini 等人的特征集獲得的決策樹(shù)。 [8] 有 22 個(gè)葉子，43 個(gè)節點(diǎn)，高度為 7，而最好的特征是放在根的朋友/（followers^2）比率。具有楊等人特征集的決策樹(shù)。 [2]有17個(gè)葉子，33個(gè)節點(diǎn)，高度為8，以雙向鏈接比為根。
　　泛化分類(lèi)器的一種常見(jiàn)做法是采用更積極的剪枝策略，例如，通過(guò)對小測試集使用減少錯誤剪枝 [23, 43]。采用這種策略，我們能夠獲得具有較少節點(diǎn)數和非常低高度的更簡(jiǎn)單的樹(shù)。這種更簡(jiǎn)單的樹(shù)通常使用特征集的子集，在我們的 BAS 數據集上仍然保持非常好的性能。
　　表 13 報告了我們進(jìn)行的實(shí)驗的特征和性能，改變了剪枝策略。值得注意的是，樹(shù)的復雜性并不總是與檢測能力的提高直接相關(guān)：例如，對于 Yang 等人的特征集。 [2]，將節點(diǎn)數量從 33 個(gè)減少到 11 個(gè)，只會(huì )降低 0.007 的精度和 0.014 的 MCC。
　　同樣，樹(shù)的修剪和未修剪版本之間的 AUC 值幾乎保持不變。此外，我們清楚地觀(guān)察到 Stringhini 等人的修剪版本。 [8] 減少了 0.017 的召回率，而 Yang 等人的 [2]僅下降 0.004，這意味著(zhù)后者在修剪后能夠比前者漏掉更少的假貨。這從 F-Measure 和 MCC 的較高減少也很明顯。我們認為這種提高的有效性是所用特征質(zhì)量的直接結果?？傮w而言，該實(shí)驗的結果表明，即使減少特征，檢測率也可能高于 0.95（如表 13 的最后一行，分別針對 [8] 和 [2]）。例如，在這兩個(gè)實(shí)驗中，被修剪的樹(shù)使用的特征只有雙向鏈接比率、平均鄰居的追隨者、年齡，以及對中位數鄰居追隨者的追隨者作為楊的原創(chuàng )特征集的子集等。 [2]，以及作為 Stringhini 等人的子集的朋友/（追隨者^(guò)2）、URL 比率和朋友數量。 [8] 原創(chuàng )特征集。
　　核心方法:PHP文章采集方法及思路
　　
　　1.采集文章的大致思路： 1.定時(shí)抓取文章列表頁(yè)，提取文章的所有鏈接地址寫(xiě)入臨時(shí)表2、從數據庫中讀取獲取文章的所有鏈接并訪(fǎng)問(wèn)，然后定期匹配文章的標題和內容，寫(xiě)入文章表。2.其中兩個(gè)需要注意： 1.采集防死：因為程序在采集的過(guò)程中需要執行很多操作，如果是一次性全部讀取，加上一些網(wǎng)絡(luò )問(wèn)題（比如網(wǎng)速慢，網(wǎng)絡(luò )不穩定），程序在采集的過(guò)程中可能會(huì )出現頁(yè)面超時(shí)。為此，我想到了用一個(gè)一個(gè)一個(gè)讀入的方法，就是在打開(kāi)頁(yè)面的時(shí)候，read-only每次取一個(gè)文章鏈接到采集，然后跳轉到頁(yè)面，可以減輕程序運行的負擔，增加程序運行的流暢度，從而在一定程度上減少頁(yè)面超時(shí)的問(wèn)題。2. 采集文章中的圖片：在采集...
　　查看全部

　　無(wú)規則采集器列表算法推薦文章:論文閱讀
　　論文鏈接：
　　目錄
　　摘要
　　虛假關(guān)注者是專(zhuān)門(mén)為夸大目標賬戶(hù)關(guān)注者數量而創(chuàng )建的那些 Twitter 賬戶(hù)。假追隨者對社交平臺及其他領(lǐng)域來(lái)說(shuō)是危險的，因為他們可能會(huì )改變 Twitter 領(lǐng)域的流行度和影響力等概念，從而影響經(jīng)濟、政治和社會(huì )。在本文中，我們沿著(zhù)不同的維度做出貢獻。首先，我們回顧了一些最相關(guān)的現有功能和規則（由學(xué)術(shù)界和媒體提出），用于異常 Twitter 帳戶(hù)檢測。其次，我們創(chuàng )建了一個(gè)經(jīng)過(guò)驗證的人類(lèi)和虛假追隨者帳戶(hù)的基線(xiàn)數據集。這樣的基線(xiàn)數據集對科學(xué)界是公開(kāi)的。然后，我們利用基線(xiàn)數據集來(lái)訓練一組基于審查的規則和特征構建的機器學(xué)習分類(lèi)器。我們的結果表明，Media 提出的大多數規則在揭示虛假粉絲方面的表現并不令人滿(mǎn)意，而 Academia 過(guò)去提出的用于垃圾郵件檢測的特征提供了良好的結果?；谧钣邢Ｍ奶卣?，我們在減少過(guò)度擬合和采集計算特征所需數據的成本方面修改了分類(lèi)器。最終結果是一個(gè)新穎的 A 類(lèi)分類(lèi)器，其通用性足以阻止過(guò)度擬合，由于使用了成本較低的特征，因此輕量級，并且仍然能夠正確分類(lèi)原創(chuàng )訓練集的 95% 以上的帳戶(hù)。我們最終執行基于信息融合的敏感性分析，以評估分類(lèi)器使用的每個(gè)特征的全局敏感性。
　　本文報告的研究結果，除了得到了徹底的實(shí)驗方法的支持和本身的趣味性外，還為進(jìn)一步調查假推特追隨者的新問(wèn)題鋪平了道路。
　　1 緒論
　　Twitter最初是一個(gè)個(gè)人微博網(wǎng)站，現在已經(jīng)從普通用戶(hù)轉變?yōu)橐粋€(gè)信息發(fā)布場(chǎng)所。據統計，Twitter 訂閱者約為 10 億，每月活躍用戶(hù)為 3.02 億。 Twitter 2014 年的年度廣告收入估計約為 4.8 億美元。流行的公眾人物，例如演員和歌手，以及傳統的大眾媒體（廣播、電視和報紙）都使用 Twitter 作為新的媒體渠道。
　　這樣的多功能性和使用范圍使 Twitter 成為異常賬戶(hù)擴散的理想場(chǎng)所，這些賬戶(hù)以非常規的方式行事。學(xué)術(shù)界主要關(guān)注垃圾郵件發(fā)送者，這些帳戶(hù)積極致力于傳播惡意軟件、發(fā)送垃圾郵件和宣傳合法性可疑的活動(dòng) 。為了提高其有效性，這些惡意帳戶(hù)通常配備自動(dòng)推特程序，就像模仿真實(shí)用戶(hù)一樣隱秘，稱(chēng)為機器人。最近，媒體開(kāi)始報道政客、名人和流行品牌的賬戶(hù)出現了可疑的追隨者膨脹。所謂的虛假關(guān)注者對應于專(zhuān)門(mén)用于增加目標賬戶(hù)關(guān)注者數量的 Twitter 賬戶(hù)。例如，在 2012 年美國大選期間，挑戰者羅姆尼 (Romney) 的推特賬戶(hù)的關(guān)注者數量突然激增。其中絕大多數后來(lái)被聲稱(chēng)是假的。同樣，在上一次意大利大選（2013 年 2 月）之前，在線(xiàn)博客和報紙報道了有關(guān)主要候選人假追隨者比例的統計數據。乍一看，獲得虛假追隨者似乎是一種僅限于培養虛榮心的做法——一種可能有問(wèn)題但無(wú)害的做法。但是，人為夸大關(guān)注者數量也可以最終確定，以使帳戶(hù)更值得信賴(lài)和有影響力，從而脫穎而出并吸引其他真正的關(guān)注者。最近，美國的銀行和金融機構在實(shí)際發(fā)放貸款之前已開(kāi)始分析貸款申請人的 Twitter 和 Facebook 賬戶(hù)。因此，擁有“受歡迎”的個(gè)人資料絕對有助于提高申請人的信譽(yù)。同樣，如果惡意賬戶(hù)采用購買(mǎi)虛假粉絲的做法，作為垃圾郵件發(fā)送者，它可以作為發(fā)布更權威消息和發(fā)起更有效廣告活動(dòng)的一種方式。對許多博主來(lái)說(shuō)，檢測假粉絲似乎是一件容易的事，他們提出了自己的“黃金法則”，并提供了一系列標準，用來(lái)對推特賬戶(hù)行為進(jìn)行分類(lèi)。然而一些規則通常既不與分析算法配對以聚合它們，也不與驗證機制配對。至于學(xué)術(shù)界，研究人員主要關(guān)注垃圾郵件和機器人檢測，基于 Twitter 帳戶(hù)的（非）人類(lèi)特征，主要是通過(guò)在人工注釋的帳戶(hù)集上訓練的機器學(xué)習分類(lèi)器，獲得了出色的結果。
　　然而，據我們所知，盡管假追隨者構成了一種具有經(jīng)濟和社會(huì )影響的普遍現象，但在文獻中該主題尚未得到深入研究。
　　這項工作的目標是闡明假 Twitter 追隨者的現象，旨在克服目前在其表征和檢測方面的局限性。特別是，我們提供了以下貢獻。首先，我們構建了一個(gè) Twitter 賬戶(hù)的基線(xiàn)數據集，其中人類(lèi)和假粉絲是先驗已知的。其次，我們在基線(xiàn)數據集上測試已知的機器人和垃圾郵件檢測方法。特別是，我們針對基于以下算法的算法測試參考集中的 Twitter 帳戶(hù)：(i) 博客作者提出的單一分類(lèi)規則，以及 (ii) 文獻中提出的用于檢測垃圾郵件發(fā)送者的特征集。分析結果表明，假追隨者檢測值得專(zhuān)門(mén)的機制：具體而言，基于分類(lèi)規則的算法無(wú)法成功檢測我們基線(xiàn)數據集中的假追隨者。相反，基于特征集的垃圾郵件檢測分類(lèi)器也適用于虛假關(guān)注者檢測。第三，我們根據采集計算它們所需的數據采集所需的成本，并對所有調查的規則和特征進(jìn)行分類(lèi)。在理論計算和經(jīng)驗評估的基礎上，我們展示了性能最好的特征也是最昂貴的特征。我們分析的新結果表明，數據獲取成本通常嚴重限制了這些功能的實(shí)際適用性。最后，在爬蟲(chóng)成本分析的基礎上，我們設計并實(shí)現了輕量級分類(lèi)器，這些分類(lèi)器利用了成本較低的特征，同時(shí)仍然能夠正確分類(lèi)我們訓練數據集 95% 以上的帳戶(hù)。此外，我們還驗證了我們的分類(lèi)器在與原創(chuàng )訓練數據集不相交的另外兩組人類(lèi)和虛假追隨者帳戶(hù)上的檢測性能。
　　本文的其余部分的結構如下。第 2 節考慮和比較 Twitter 垃圾郵件和機器人檢測領(lǐng)域的相關(guān)工作。第 3 節描述了我們的基線(xiàn)數據集。在第 4 節中，我們使用我們的基線(xiàn)數據集評估了社交媒體分析推廣的一組虛假 Twitter 關(guān)注者檢測標準。在第 5 節中，我們檢查了以前工作中用于 Twitter 帳戶(hù)垃圾郵件檢測的功能。在第 6 節中，我們計算了提取分類(lèi)器所基于的特征的成本。還提供了一個(gè)輕量級、高效的分類(lèi)器，在虛假關(guān)注者檢測能力和爬取成本之間取得了很好的平衡。最后，第 7 節總結了論文。
　　2 相關(guān)工作
　　引用 [7] 的內容，“虛假的 Twitter 帳戶(hù)被認為是一種欺騙形式（即，在個(gè)人資料的內容和個(gè)人信息方面的欺騙，以及讓個(gè)人資料關(guān)注他人而不是因為個(gè)人興趣，而是因為他們這樣做是有報酬的）?！碧摷俚?Twitter 帳戶(hù)的第二個(gè)特征正是我們在論文中要討論的：我們特別將虛假追隨者視為那些適當創(chuàng )建并出售給客戶(hù)的 Twitter 帳戶(hù)，這些帳戶(hù)旨在放大他們在世界眼中的影響力和參與度，并產(chǎn)生大量追隨者的錯覺(jué)。
　　如此定義的虛假追隨者只是在 Twitter 上傳播的異常賬戶(hù)的一個(gè)例子。文獻中確實(shí)將異常確定為垃圾郵件發(fā)送者（即宣傳未經(jīng)請求且通常有害的內容的帳戶(hù)，收錄指向惡意頁(yè)面的鏈接 [8]）或機器人（即控制社交帳戶(hù)的計算機程序，隱秘到模仿真實(shí)用戶(hù) [9]）或 cyborgs（即交織手動(dòng)和自動(dòng)行為特征的帳戶(hù) [10]）。最后，還有虛假的追隨者，為追隨目標賬戶(hù)而大量創(chuàng )建的賬戶(hù)，可以從在線(xiàn)賬戶(hù)市場(chǎng)購買(mǎi)。
　　2.1 灰色文學(xué)和在線(xiàn)博客
　　在介紹學(xué)術(shù)文獻之前，我們簡(jiǎn)要報告了在線(xiàn)文檔，該文檔提供了一系列直覺(jué)的虛假追隨者檢測標準，盡管并未以科學(xué)的方式證明是有效的。我們引用這項工作的原因有兩個(gè)：一方面，在線(xiàn)文章和帖子證明了對真假 Twitter 追隨者的正確區分；另一方面，我們旨在以科學(xué)的方式評估這些標準是否真的可以用于檢測假粉絲。
　　例如，[11] 中的一位知名博主指出，機器人帳戶(hù)可能具有類(lèi)似機器人的獨特信號：1）通常有大量的追隨者和少量的追隨者； 2) 向所有人發(fā)推文；并且，3）玩關(guān)注/取消關(guān)注游戲，即他們通常在 24 小時(shí)內關(guān)注然后取消關(guān)注帳戶(hù)。在線(xiàn)博客宣傳的標準主要基于常識，作者通常甚至不建議如何驗證它們。
　　數字評估公司[12]發(fā)布的一系列報告引起了意大利和歐洲報紙和雜志的注意，引發(fā)了人們對政界人士和主要國際公司在Twitter上受歡迎程度的質(zhì)疑。報告中列出了一些標準，這些標準受到常識的啟發(fā)，并表示人類(lèi)行為，用于評估選定賬戶(hù)的追隨者樣本。對于follower滿(mǎn)足的每一個(gè)標準，將分配一個(gè)人類(lèi)得分。對于每一個(gè)不滿(mǎn)足的標準，要么給機器人評分，要么給中立評分。根據總分，Twitter粉絲分為人類(lèi)、機器人或中立(在后者的情況下，沒(méi)有足夠的信息來(lái)評估他們的性質(zhì))，為被關(guān)注賬號的有效影響力提供一個(gè)質(zhì)量分數。但是，[12]中的結果缺少驗證階段。
　　最后，一些專(zhuān)門(mén)從事社交媒體分析的公司提供在線(xiàn)服務(wù)，以估計 Twitter 帳戶(hù)在其追隨者方面的真實(shí)性 [13,14,15]。但是，用于分析的標準并未公開(kāi)披露，僅可從其網(wǎng)站上可用的信息中部分扣除。此外，正如我們之前的工作 [16] 所證明的，這些分析受到一些偏差的影響，例如小的和統計上不健全的采樣策略。
　　2.2 學(xué)術(shù)文獻
　　近年來(lái)，Twitter 上的垃圾郵件檢測已成為許多調查的主題，從多個(gè)角度處理該問(wèn)題。例如，一個(gè)研究分支專(zhuān)注于推文的文本內容 [4, 3, 17]，研究推文中嵌入 URL 的重定向 [18]，并對 URL 登錄頁(yè)面進(jìn)行分類(lèi) [19]。其他作品通過(guò)認識論解決了 Twitter 上的欺騙問(wèn)題。例如，在 [20] 中，作者評估了欺騙檢測任務(wù)的 4 個(gè)認識論特征：權威、合理性和支持、獨立確證和呈現。
　　在[21]中的工作克服了不能正確地標記那些沒(méi)有 URL 的 tweet 為垃圾 tweet 的限制，通過(guò)提出一個(gè)復合工具，能夠將傳入的 tweet 與垃圾郵件發(fā)送者通常使用的底層模板匹配。 [7] 中的工作沒(méi)有考慮推文的內容，而是嘗試僅根據源自帳戶(hù)配置文件的可能不一致的信息來(lái)分類(lèi)帳戶(hù)是否可以信任。
　　一系列作品通過(guò)多特征的方法調查微博平臺上的垃圾郵件發(fā)送者，包括個(gè)人資料、行為和帳戶(hù)時(shí)間線(xiàn)的特征。在這個(gè)研究方向內，我們在此引用 [8]、[2] 和 [22]。 [8] 中的工作分析了垃圾郵件發(fā)送者在 Facebook、Twitter 和 MySpace 上的運作方式，報告稱(chēng)可疑帳戶(hù)在特定功能上具有一些共同特征。這些作為基于機器學(xué)習的分類(lèi)器 [23] 的輸入，導致檢測到超過(guò) 15,000 個(gè)垃圾郵件配置文件，Twitter 迅速刪除了這些配置文件。在 [2] 中，作者提出了檢測 Twitter 垃圾郵件發(fā)送者的標準分類(lèi)法。一系列實(shí)驗表明，與現有標準相比，新設計的標準具有更高的檢測率。在 [22] 中，作者利用行為特征（例如推文和轉發(fā)活動(dòng)）、網(wǎng)絡(luò )特征（例如帳戶(hù)的關(guān)注者和朋友的數量）和基于內容的特征的組合開(kāi)發(fā)了一個(gè)混合數學(xué)模型來(lái)檢測微博上的垃圾郵件發(fā)送者，微博是類(lèi)似于 Twitter 的中國微博網(wǎng)站。
　　[10] 的作者將 Twitter 帳戶(hù)分為三類(lèi)：人類(lèi)、機器人和半機器人。后一類(lèi)代表機器人輔助人類(lèi)或人類(lèi)輔助機器人。作者使用了一個(gè)基于三個(gè)專(zhuān)門(mén)組件的決策者，這些組件考慮了推文的內容和時(shí)間以及一些帳戶(hù)屬性。
　　[24, 4] 中提出的算法旨在盡快發(fā)現自動(dòng)惡意 Twitter 帳戶(hù)組，以避免帳戶(hù)所有者利用它們。因此，作者將聚類(lèi)算法應用于在短時(shí)間內創(chuàng )建的帳戶(hù)組時(shí)間，除其他外，考慮基于名稱(chēng)和內容的特征。在 [25] 中，作者列出了檢測 Twitter 帳戶(hù)市場(chǎng)的客戶(hù)和受害者的幾個(gè)標準，即在線(xiàn)服務(wù)，為他們的訂閱者提供追隨者以換取費用，并代表他們傳播促銷(xiāo)推文。在另一項工作 [26] 中，同一研究團隊提供了有關(guān)帳戶(hù)市場(chǎng)的更多詳細信息，分析了客戶(hù)的其他屬性和特征（例如，關(guān)注者和朋友的動(dòng)態(tài)以及產(chǎn)生參與的能力），并為檢測市場(chǎng)和市場(chǎng)客戶(hù)。 [27] 的作者在 10 個(gè)月的時(shí)間里監控一組 Twitter 帳戶(hù)商家的價(jià)格、可用性和欺詐行為。這樣的研究重點(diǎn)關(guān)注賬戶(hù)市場(chǎng)用來(lái)創(chuàng )建和注冊欺詐賬戶(hù)的技術(shù)和方法，從 CAPTCHA 解決服務(wù)到欺騙性電子郵件憑據和用于逃避黑名單的各種 IP 地址池。與 Twitter 本身合作，作者開(kāi)發(fā)了一個(gè)分類(lèi)器來(lái)檢測此類(lèi)欺詐賬戶(hù)，這些賬戶(hù)因此被暫停。
　　值得注意的是，學(xué)術(shù)著(zhù)作的引用選擇并不詳盡。但是，它考慮了大量標準，我們進(jìn)一步利用這些標準來(lái)檢測虛假 Twitter 關(guān)注者。還有其他用于垃圾郵件檢測的工作，此處不詳述，例如 [1, 28, 29, 30, 31, 32]，其結果基于所選相關(guān)工作集所考慮標準的子集或略微修改的版本。
　　2.3 與我們的方法的異同
　　我們研究的目標是自動(dòng)檢測那些專(zhuān)門(mén)為增加某些目標帳戶(hù)的關(guān)注者數量而創(chuàng )建的 Twitter 賬戶(hù)（所謂的虛假 Twitter 關(guān)注者）。先驗地，垃圾郵件發(fā)送者、機器人和真實(shí)用戶(hù)的帳戶(hù)都可能屬于虛假關(guān)注者的宏觀(guān)類(lèi)別，并且文獻中已經(jīng)證明可以有效發(fā)現垃圾郵件發(fā)送者和機器人的特定功能也可以在虛假關(guān)注者的情況下起作用。確實(shí)正是這一觀(guān)察結果最初驅使本文的作者朝著(zhù)在真實(shí)賬戶(hù)和虛假追隨者的參考數據集上測試過(guò)去作品中的規則和特征的方向發(fā)展。這有助于修剪那些在檢測虛假追隨者方面表現最差的規則和特征，并留下表現良好的規則和特征。
　　從技術(shù)角度來(lái)看，在我們的實(shí)驗中，我們依賴(lài)于基于機器學(xué)習的分類(lèi)器，這些分類(lèi)器利用 1) 配置文件、2) 活動(dòng)和 3) 帳戶(hù)關(guān)系的特征，類(lèi)似于 [8, 2]。相反，我們不依賴(lài)推文特定內容固有的特征，例如 URL 的存在和文本的語(yǔ)義 [17, 19]。因為我們修改了我們的分類(lèi)器以減少過(guò)度擬合和數據采集的成本，所以我們不僅僅是應用已經(jīng)測試過(guò)的特性到一個(gè)新的數據集，如第5節和第6節所示。
　　最后，與 [26] 類(lèi)似，我們從網(wǎng)絡(luò )上的不同市場(chǎng)購買(mǎi)了虛假的 Twitter 追隨者。我們獨立于 [26] 進(jìn)行了這樣的訓練，此外，這兩項工作的目標完全不同，我們的目標是這些市場(chǎng)銷(xiāo)售的賬戶(hù)，而另一個(gè)則針對他們的客戶(hù)。至于我們的基線(xiàn)數據集的真實(shí)用戶(hù)，我們招募了自愿加入我們活動(dòng)的人的賬戶(hù)，并利用一個(gè)帶有注釋的賬戶(hù)數據集，這些賬戶(hù)屬于在特定域的特定時(shí)間段內活躍在Twitter上的人，其真實(shí)性已經(jīng)過(guò)驗證。然而，為了在整個(gè) Twitter 人口的代表性樣本上測試我們的分類(lèi)器，我們還通過(guò)隨機挑選來(lái)構建測試集：1）巴拉克奧巴馬的追隨者樣本，以及 2）Twitter 人群的樣本。
　　3 基線(xiàn)數據集
　　在本節中，我們將介紹用于在整篇論文中進(jìn)行實(shí)證研究的 Twitter 賬戶(hù)數據集。我們詳細說(shuō)明了我們如何采集他們每個(gè)人，以及我們如何驗證他們是真人還是假追隨者。為了進(jìn)行我們的研究，我們總共抓取了 900 萬(wàn)個(gè) Twitter 帳戶(hù)和大約 300 萬(wàn)條推文。為了促進(jìn)對假 Twitter 追隨者這一新問(wèn)題的調查，我們的基線(xiàn)數據集已公開(kāi)用于研究目的 [33]。
　　3.1 The Fake Project
　　The Fake Project 于 2012 年 12 月 12 日開(kāi)始其活動(dòng)，并創(chuàng )建了 Twitter 帳戶(hù)@TheFakeProject。它的簡(jiǎn)介報告了以下座右銘：“只有當你不是假貨時(shí)才關(guān)注我”，并解釋說(shuō)該倡議與意大利比薩 IIT-CNR 研究人員擁有的一個(gè)研究項目有關(guān)。在第一階段，業(yè)主聯(lián)系了更多的研究人員和記者來(lái)宣傳該倡議，外國記者和博主也在他們的國家支持該倡議。在十二天的時(shí)間里（2012 年 12 月 12 日至 24 日），該帳戶(hù)已被 574 位關(guān)注者關(guān)注。通過(guò) Twitter API，我們抓取了一系列關(guān)于這些關(guān)注者的公共信息以及他們的關(guān)注者和關(guān)注者的信息。對于這個(gè)數據集，我們爬取了 574 個(gè)賬戶(hù)，最終采集了 616,193 條推文和 971,649 個(gè)關(guān)系（即關(guān)聯(lián)的 Twitter 賬戶(hù)）。
　　所有這些追隨者都自愿加入了該項目。為了將它們收錄在我們的參考人類(lèi)集中，我們還啟動(dòng)了驗證階段。每個(gè)追隨者在 Twitter 上收到來(lái)自@TheFakeProject 的直接消息，其中收錄一個(gè)驗證碼的 URL，每個(gè)追隨者都是唯一的。我們將成功完成 CAPTCHA 的 574 個(gè)關(guān)注者中的所有 469 個(gè)帳戶(hù)視為“認證人”。在本節的其余部分，這個(gè)數據集被稱(chēng)為 TFP；
　　3.2. #elezioni2013 dataset
　　#elezioni2013 數據集（以下簡(jiǎn)稱(chēng) E13）的誕生是為了支持一項與佩魯賈大學(xué)和羅馬第一大學(xué)合作開(kāi)展的社會(huì )學(xué)研究計劃。該研究側重于 2013-2015 年 3 年期間意大利政治格局的戰略變化。研究人員在 2013 年 1 月 9 日至 2 月 28 日期間確定了 84,033 個(gè)在其推文中使用 #elezioni2013 主題標簽的唯一 Twitter 帳戶(hù)。這些帳戶(hù)的識別是基于對帳戶(hù)的用戶(hù)名和傳記字段的特定關(guān)鍵字驅動(dòng)的查詢(xún)' 個(gè)人資料。關(guān)鍵詞包括博主、記者、社交媒體策略師/分析師和國會(huì )議員。還搜索了政黨的具體名稱(chēng)?？傊?，所有屬于政治家和候選人的賬戶(hù)，政黨、記者、博客作者、特定的協(xié)會(huì )和團體，以及任何以某種方式正式參與政治的人，都被拋棄了。其余賬戶(hù)（約 40k）已被歸類(lèi)為公民。最后一組已被抽樣（置信度為 95%，置信區間為 2.5），產(chǎn)生了最后一組 1488 個(gè)帳戶(hù)，這些帳戶(hù)已經(jīng)過(guò)手動(dòng)驗證以確定其個(gè)人資料和推文的性質(zhì)。手動(dòng)驗證過(guò)程由意大利佩魯賈大學(xué)的兩名社會(huì )學(xué)家進(jìn)行。它涉及對被調查賬戶(hù)的個(gè)人資料圖片、傳記和時(shí)間表的分析。沒(méi)有傳記或頭像的帳戶(hù)已被丟棄。傳記中的 URL 也經(jīng)過(guò)人工檢查，以便對主題進(jìn)行更深入的分析。只有被兩位社會(huì )學(xué)家標記為人類(lèi)的帳戶(hù)才收錄在 E13 數據集中?？傮w而言，手動(dòng)驗證階段持續了大約兩個(gè)月。結果，1481 個(gè)賬戶(hù)成為數據集 E13 的一部分。
　　3.3人類(lèi)帳戶(hù)的基線(xiàn)數據集
　　上面介紹的數據集形成了我們最終的一組，標記為 HUM，由 1950 個(gè)經(jīng)過(guò)驗證的人類(lèi)賬戶(hù)組成。值得注意的是，這兩個(gè)子集彼此之間有何不同。 TFP 集合由在志愿者基礎上招募的帳戶(hù)組成：參與該計劃的人旨在成為在 Twitter 上發(fā)現虛假追隨者的學(xué)術(shù)研究的一部分，他們是研究人員、社交媒體專(zhuān)家和記者的混合體，主要來(lái)自意大利，但也來(lái)自美國和其他歐洲國家。 E13 組由特別活躍的意大利 Twitter 用戶(hù)組成，具有不同的專(zhuān)業(yè)背景，屬于不同的社會(huì )階層，對政治有著(zhù)共同的興趣，但不屬于以下類(lèi)別：政治家、政黨、記者、博主；
　　3.4 虛假關(guān)注者的基線(xiàn)數據集
　　2013 年 4 月，我們從三個(gè)不同的 Twitter 在線(xiàn)市場(chǎng)購買(mǎi)了 3000 個(gè)虛假賬戶(hù)。特別是，我們從購買(mǎi)了 1000 個(gè)假賬戶(hù)，從購買(mǎi)了 1000 個(gè)，從購買(mǎi)了 1000 個(gè)假賬戶(hù)，價(jià)格分別為 19 美元、14 美元和 13 美元.令人驚訝的是，fastfollowerz 和 intertwitter 給了我們比我們支付的更多的賬戶(hù)，分別是 1169 和 1337 而不是 1000。我們爬取了所有這些賬戶(hù)以構建一個(gè) fastfollowerz 數據集，標記為 FSF，以及一個(gè)標記為 INT 的 intertwitter 數據集。相反，我們無(wú)法抓取從 twittertechnology 購買(mǎi)的所有 1000 個(gè)假粉絲，因為其中 155 個(gè)幾乎立即被暫停。其余 845 個(gè)賬戶(hù)構成 twittertechnology 數據集，標記為 TWT。
　　我們承認，我們的假追隨者數據集只是說(shuō)明性的，而不是所有可能存在的假追隨者集合的詳盡說(shuō)明。然而，值得注意的是，我們通過(guò)在最常見(jiàn)的搜索引擎上簡(jiǎn)單地通過(guò)網(wǎng)絡(luò )搜索找到了 Twitter 帳戶(hù)市場(chǎng)。因此，我們可以爭辯說(shuō)，我們的數據集代表了在搜索時(shí)很容易在 Web 上找到的內容。
　　3.5 虛假關(guān)注者和人類(lèi)賬戶(hù)的基線(xiàn)數據集
　　

　　我們實(shí)驗中使用的最終基線(xiàn)數據集由虛假和人類(lèi)檔案組成。在下文中，我們將簡(jiǎn)要討論為此數據集選擇的虛假賬戶(hù)和人工賬戶(hù)之間的分布。許多機器學(xué)習技術(shù)受到少數類(lèi)和多數類(lèi)的自然分布不平衡的影響。這就是為什么，例如，文獻中的作品研究了基于決策樹(shù)的技術(shù)在改變訓練集分布時(shí)的表現。特別是，Weiss 和 Provost 在 [34] 中考慮了基于決策樹(shù)的分類(lèi)器的性能，以預測 26 個(gè)不同數據集的樣本，在少數類(lèi)和多數類(lèi)之間具有不同的分布。他們的調查結論表明，用于評估不同分類(lèi)器性能的度量改變了訓練集的類(lèi)的最佳分布。例如，經(jīng)過(guò)他們的經(jīng)驗分析，以準確率作為評價(jià)指標，26 個(gè)數據集中有 9 個(gè)數據集的最優(yōu)分布與自然的非常不同，而當使用 AUC 作為評價(jià)指標時(shí)，這個(gè)數字增長(cháng)到 26 個(gè)數據集中的 14 個(gè). 而且，最優(yōu)分布對少數類(lèi)樣本有過(guò)采樣（也有過(guò)采樣高達 90% 的少數類(lèi)樣本得到最佳分類(lèi)器的情況）。
　　在這里，我們面臨另一個(gè)基本問(wèn)題：我們并不準確地知道假粉絲和人工賬戶(hù)的真實(shí)（自然）分布。 2013 年，Twitter 工作人員推測“虛假或垃圾賬戶(hù)的數量應占我們 MAU 的不到 5%”（其中 MAU 是指每月活躍用戶(hù)）[35]。但是，MAU 既不能與 Twitter 帳戶(hù)的隨機樣本同化，也不能與給定帳戶(hù)的追隨者同化。此外，如果一個(gè)賬戶(hù)購買(mǎi)了虛假關(guān)注者，那么它的虛假關(guān)注者和人類(lèi)關(guān)注者的分布可能與人們可以找到的自然分布有很大的不同，無(wú)論是在 MAU 中，還是在 Twitter 圈中的所有 Twitter 賬戶(hù)中?？傊?，在整個(gè) Twitter 中，5% 的虛假或垃圾賬戶(hù)估計不能直接擴展到給定賬戶(hù)的虛假粉絲。
　　盡管 Twitter 從未披露過(guò)注冊用戶(hù)總數，但非官方消息稱(chēng)，最新創(chuàng )建的 Twitter 賬戶(hù)數量遠遠超過(guò) MAU。這就是我們做出保守假設的原因，將假追隨者和人類(lèi)追隨者的平衡分布作為我們的基線(xiàn)數據集。
　　為了驗證這個(gè)假設，我們在 [34] 中對我們的數據集進(jìn)行了實(shí)驗。我們逐漸改變數據集中假追隨者和人類(lèi)追隨者的類(lèi)別分布，從 5%–95% 到 95%–5%（分別為 100 人–1900 假追隨者，1900 人–100 假追隨者），并使用獲得的數據集訓練 J48 分類(lèi)器，考慮它們的交叉驗證性能。經(jīng)過(guò)訓練的分類(lèi)器在人類(lèi)和虛假追隨者的平衡分布上獲得了最佳結果。為了獲得平衡的數據集，我們隨機對假賬戶(hù)的總集合（即 3351）進(jìn)行欠采樣，以匹配經(jīng)過(guò)驗證的人類(lèi)賬戶(hù)的 HUM 數據集的大小。因此，我們構建了一個(gè)收錄 1950 個(gè)假粉絲的基線(xiàn)數據集，標記為 FAK。這項工作的最終基線(xiàn)數據集包括 HUM 數據集和 FAK 數據集，共有 3900 個(gè) Twitter 帳戶(hù)。在本文的其余部分中，這個(gè)平衡的數據集被標記為 BAS，并且已被用于本工作中描述的所有實(shí)驗（未另行指定）。表 1 顯示了本節描述的數據集中收錄的帳戶(hù)、推文和關(guān)系的數量。
　　4. 使用基于分類(lèi)規則的算法進(jìn)行虛假檢測
　　在本節中，我們詳細介紹了最初由博主和社交媒體分析師提出的三個(gè)程序，它們明確構思了用于檢測假粉絲和機器人帳戶(hù)。這些提議是在 [12, 11, 14] 中介紹的。我們在本節中關(guān)注的工作并不直接歸因于學(xué)術(shù)工作。但是，這是媒體和社交營(yíng)銷(xiāo)公司對虛假 Twitter 追隨者現象產(chǎn)生興趣的一個(gè)例子。盡管我們不希望這些提議能夠令人滿(mǎn)意地執行虛假追隨者檢測的復雜任務(wù)，但我們相信對提議標準的徹底分析仍然可以提供一些有用的見(jiàn)解。巧合的是，所有程序都被提議為依賴(lài)于規則列表或標準的算法：每個(gè)要分類(lèi)的帳戶(hù)都根據所有規則進(jìn)行檢查，并且必須將檢查的輸出組合在一起以獲得最終分類(lèi)。不幸的是，在許多情況下，有關(guān)如何結合標準來(lái)獲得帳戶(hù)最終分類(lèi)的詳細信息并不公開(kāi)。僅在 [12] 中提供了有關(guān)如何執行聚合的詳細信息。在提供的細節的驅動(dòng)下，我們實(shí)現了 [12] 中描述的完整算法，并在第 4.5 節中介紹了它的檢測性能。此外，對于每個(gè)程序，我們報告原創(chuàng )來(lái)源所指示的標準，并進(jìn)一步說(shuō)明我們如何將它們實(shí)施為適用于我們數據集的規則。我們還詳細說(shuō)明了我們選擇實(shí)施的原因。
　　在本節中，我們主要關(guān)注每條規則在我們的數據集上的應用，以評估其在區分虛假追隨者方面的優(yōu)勢（或劣勢）。在第 6 節中，我們將所有規則與第 5 節中分析的特征結合在一起，以評估它們的集體分類(lèi)能力。這是因為單個(gè)規則（或特征）在分類(lèi)虛假賬戶(hù)和人工賬戶(hù)方面可能表現不佳，但如果與其他規則結合使用，它可能會(huì )改善檢測。事實(shí)上，值得注意的是，本節中分析的一些標準實(shí)際上已被第6節中內置的分類(lèi)器所利用。
　　在本文的后續部分中，我們使用術(shù)語(yǔ)“朋友”來(lái)表示關(guān)注帳戶(hù)的用戶(hù)（即，如果 A 關(guān)注 B，則 B 是 A 的朋友）。
　　4.1. 政治候選人的追隨者
　　Camisani-Calzolari [12] 對羅姆尼和奧巴馬的 Twitter 追隨者樣本進(jìn)行了一系列測試，用于上屆美國總統選舉，以及受歡迎的意大利政客。在 [12] 中，詳細介紹了一種基于帳戶(hù)的一些公共特征來(lái)評估帳戶(hù)的算法。引用的算法有足夠的細節可以重現：它分配人類(lèi)/活躍和機器人/非活躍分數，并考慮兩個(gè)分數總和之間的差距對帳戶(hù)進(jìn)行分類(lèi)。特別是，該算法為表 2 中的每個(gè)標準分配了 1 個(gè)（或更多，如果指定）人工點(diǎn)。此外，如果該帳戶(hù)僅使用 API，則該帳戶(hù)會(huì )收到 2 個(gè)機器人點(diǎn)。
　　最后，對于每個(gè)未能驗證的標準，帳戶(hù)都會(huì )收到 1 個(gè)機器人點(diǎn)，但標準 8、13、14、15、16 和 17 除外：在這??種情況下，不會(huì )分配機器人點(diǎn)。為了驗證這些規則，我們參考了推文的源元數據，其中收錄一個(gè)不同的值，代表用于發(fā)布推文的平臺。特別是，關(guān)于上述規則，我們分別考慮了具有值 iphone、android、foursquare、instagram 和 web 的源元數據，并且我們?yōu)樵诓杉膸?hù)推文中至少找到一次的每個(gè)值分配了 1 個(gè)人工點(diǎn).對于標準 21，如果該帳戶(hù)的推文沒(méi)有被其他用戶(hù)轉發(fā)，則分配 2 個(gè)機器人點(diǎn)?？紤]到規則 8，地理定位與推文有關(guān)。因此，當帳戶(hù)的至少一條推文已進(jìn)行地理本地化時(shí)，我們將此規則設置為滿(mǎn)足。對于規則 11，已在個(gè)人簡(jiǎn)介和時(shí)間線(xiàn)中搜索了標點(diǎn)符號。
　　4.2.
　　根據社交媒體網(wǎng)站 [11] 的創(chuàng )始人的說(shuō)法，在提出識別可疑 Twitter 帳戶(hù)的黃金法則的幾位博主中，我們考慮了“識別 Twitter 機器人的 7 個(gè)信號”。表 3 列出了識別 Twitter 機器人的“需要注意的 7 個(gè)信號”。
　　規則 3 已將推文視為一個(gè)單元來(lái)實(shí)施。我們考慮每個(gè)時(shí)間線(xiàn)的最后 20 條推文。對于規則 4，當數據集中至少 3 個(gè)帳戶(hù)具有相同的頭像時(shí)，我們認為存在重復的頭像。對于規則 5，我們將所有未從網(wǎng)站發(fā)布的推文視為從 API 發(fā)布的推文。
　　對于規則 6 和 7，在查找帳戶(hù)的朋友或關(guān)注者列表時(shí)，Twitter 僅提供有關(guān)當前列表的信息，而不提供有關(guān)過(guò)去朋友或關(guān)注者的詳細信息。此外，Twitter 不會(huì )披露與用戶(hù)關(guān)注或被其他用戶(hù)關(guān)注的時(shí)刻相關(guān)的任何時(shí)間數據。這意味著(zhù)檢查用戶(hù)的關(guān)注/取消關(guān)注行為（規則 7）的唯一方法是持續監控完整的朋友和關(guān)注者的完整列表。這同樣適用于測量用戶(hù)關(guān)注（和回復）其他用戶(hù)時(shí)所經(jīng)歷的延遲（規則 6）。正如第 6 節中進(jìn)一步詳述的那樣，Twitter 對 API 使用的速率限制使得監控即使是一小群用戶(hù)的朋友和關(guān)注者列表實(shí)際上也不可行。因此，我們沒(méi)有將規則 6 和 7 應用于我們的數據集，因為這需要持續監控這些帳戶(hù)。這也意味著(zhù)這些規則不能用于支持自動(dòng)檢測過(guò)程，因為它們需要評估交互式過(guò)程。
　　4.3 社交網(wǎng)站的 FakeFollowerCheck
　　幾家公司提供在線(xiàn)工具，根據 Twitter 關(guān)注者的虛假程度對其進(jìn)行分類(lèi)。在這里，我們考慮由 Socialbakers [14] 開(kāi)發(fā)的“FakeFollowerCheck 工具”。雖然公司網(wǎng)站提供了八個(gè)標準來(lái)評估某個(gè)帳戶(hù)的關(guān)注者的虛假程度，但它省略了如何結合這些標準對帳戶(hù)進(jìn)行分類(lèi)的細節。我們聯(lián)系了他們的客戶(hù)服務(wù)，但我們得到的回答是“如何衡量各自的標準是內部信息”。 FakeFollowerCheck 工具分析帳戶(hù)的關(guān)注者，并在滿(mǎn)足表 4 中列出的標準時(shí)認為他們可能是假的。
　　對于規則2，我們將Socialbakers網(wǎng)站建議的“節食”、“賺錢(qián)”或“在家工作”(英語(yǔ)和意大利語(yǔ)都有)視為垃圾短語(yǔ)。
　　4.4. 評估方法
　　上面詳細描述的所有標準都已應用于2個(gè)驗證的人類(lèi)賬戶(hù)數據集(TFP和E13)以及從Twitter賬戶(hù)市場(chǎng)(FSF∪NT∪TWT)購買(mǎi)的所有3351個(gè)假追隨者賬戶(hù)，如第3節所述。
　　我們針對每條規則進(jìn)行了一項實(shí)驗，考慮了兩類(lèi)賬戶(hù)，即虛假關(guān)注者和人類(lèi)賬戶(hù)。為了總結每個(gè)實(shí)驗的結果，我們考慮了基于四個(gè)標準指標的一些評估指標，即：
　　真陽(yáng)性（TP）：被規則識別為假關(guān)注者的假關(guān)注者的數量；
　　? True Negative (TN)：被規則識別為人類(lèi)追隨者的人類(lèi)追隨者的數量；
　　? 誤報（FP）：被規則識別為假追隨者的人類(lèi)追隨者的數量；
　　? 假陰性 (FN)：被規則識別為人類(lèi)追隨者的虛假追隨者的數量；
　　每個(gè)指標的含義由表 5 中的矩陣（稱(chēng)為混淆矩陣）以圖形方式突出顯示，其中每一列代表預測類(lèi)中的實(shí)例，而每一行代表實(shí)際類(lèi)中的實(shí)例 [36]：為了評估每一條規則對基線(xiàn)數據集中賬戶(hù)的應用，我們考慮以下標準評估指標:
　　準確率：預測的真實(shí)結果（真陽(yáng)性和真陰性）在總體中的比例，即
　　精度：預測的正例中確實(shí)是真正正例的比例，即(TP)/(TP + FP)；
　　召回率（或敏感度）：真正預測為陽(yáng)性的真實(shí)陽(yáng)性病例的比例，即（TP）/(TP+FN);
　　F-Measure：準確率和召回率的調和平均值，即
　　Matthew Correlation Coefficient（MCC）[37]：預測類(lèi)與樣本真實(shí)類(lèi)之間相關(guān)性的估計量，定義為
　　上述每一項措施都捕獲了屬于相關(guān)類(lèi)別的樣本（我們的數據集中的假追隨者）的預測質(zhì)量的不同方面。準確度衡量有多少樣本在兩個(gè)類(lèi)中被正確識別，但它不表示相關(guān)類(lèi)是否比另一個(gè)類(lèi)更好地識別。此外，在某些情況下，某些預測模型的性能比其他模型更好，甚至精度較低 [38]。高精確度表明許多被識別為相關(guān)的樣本被正確識別，但它沒(méi)有提供有關(guān)尚未識別的相關(guān)樣本的任何信息。該信息由召回指標提供，表示在整個(gè)相關(guān)樣本集中有多少樣本被正確識別：低召回意味著(zhù)許多相關(guān)樣本未被識別。 F-Measure 和 MCC 試圖在一個(gè)單一的值中傳達預測的質(zhì)量，并結合其他指標。此外，MCC 被認為是 F-Measure 的無(wú)偏版本，因為它使用了混淆矩陣的所有四個(gè)元素。然后，我們將那些應用給出 MCC ≥ 0.6 的標準視為最佳規則，因為這些規則與賬戶(hù)類(lèi)型具有最強的相關(guān)性。為了完整起見(jiàn)，我們還報告了曲線(xiàn)下面積度量 (AUC)，即接受者操作特征 (ROC) 曲線(xiàn)下的面積 [39]。后者是描述分類(lèi)器性能的曲線(xiàn)，考慮了真陽(yáng)性樣本的百分比與假陽(yáng)性樣本的百分比。 AUC 用于將 ROC 曲線(xiàn)總結為單個(gè)值：面積越接近 1，分類(lèi)器越有能力.
　　最后，我們還報告了信息增益（I gain）和皮爾遜相關(guān)系數（Pcc）。雖然 Pearson 相關(guān)系數可以檢測特征和目標類(lèi)之間的線(xiàn)性依賴(lài)關(guān)系，但信息增益考慮了更一般的依賴(lài)關(guān)系，利用概率密度（或頻率，在離散變量的情況下）。更準確地說(shuō)，信息增益是關(guān)于特征相對于預測類(lèi)的信息量的度量，通常用于訓練機器學(xué)習分類(lèi)器。它可以非正式地定義為由給定屬性的值的知識引起的熵的預期減少[40]。我們計算兩個(gè)信息增益：關(guān)于規則結果的增益和關(guān)于規則使用的屬性的增益*。對于 I gain，基于屬性 A 的規則只能假設值 0（不滿(mǎn)足）和 1（滿(mǎn)足），而對于 I gain*，屬性 A 可以假設很多異類(lèi)值。例如，在評估規則“followers ≥ 30”的信息增益時(shí)，具有 234 個(gè)關(guān)注者的樣本在計算 I gain 時(shí)貢獻值為 1，在計算 I gain? 時(shí)貢獻值為 234。相反，皮爾遜相關(guān)系數是衡量?jì)蓚€(gè)隨機變量X和Y之間線(xiàn)性關(guān)系的強度。同樣，我們計算 Pcc，考慮規則滿(mǎn)足的結果（即：true=1 或 false=0）和 Pcc*，基于用于評估規則的屬性所假定的值。我們在以下部分中的實(shí)驗將表明，一般來(lái)說(shuō)，一個(gè)規則和相應的屬性假定信息增益和皮爾遜相關(guān)系數的值非常不同
　　4.5. Camisani-Calzolari 算法的評估
　　[12] 中的檢測算法匯總了 4.1 節介紹的用于識別人類(lèi)和機器人行為的 22 條標準。該算法評估正在調查的帳戶(hù)上的每條規則，并根據規則應用程序的輸出分配正面的人工得分或負面的機器人得分。最終結果取決于賬戶(hù)獲得的全局分數：如果結果大于0，則將該賬戶(hù)標記為人類(lèi)；如果介于 0 和 -4 之間，則標記為中性；否則，它被標記為機器人。
　　表 6 詳細說(shuō)明了在完整數據集上運行算法的結果，包括 FAK 集，即所有購買(mǎi)的假粉絲賬戶(hù)。雖然在檢測真實(shí)的人類(lèi)賬戶(hù)方面取得了很好的效果，但該算法實(shí)現了較差的虛假關(guān)注者賬戶(hù)檢測。大多數帳戶(hù)也被錯誤地標記為人類(lèi)，主要是因為我們數據集中的假追隨者具有很容易使他們獲得比機器人更高的人類(lèi)分數的特征。
　　

　　在我們的第二個(gè)實(shí)驗的結果中，上述無(wú)法檢測到虛假賬戶(hù)的情況很明顯。為了評估該算法，我們使用它來(lái)預測我們的基線(xiàn)數據集 (BAS) 的賬戶(hù)類(lèi)別，在表 7 中報告最終預測的評估。正如預期的那樣，該算法的準確度很差（非常接近 0.5）并且高精度，這意味著(zhù)被識別為假的（少數）帳戶(hù)實(shí)際上是假的。然而，它的召回率也非常低，這意味著(zhù)許多其他虛假賬戶(hù)都未被識別為虛假賬戶(hù)。這種較差的性能也通過(guò)接近 0.1 的 F-Measure 和低 MCC 值來(lái)表示。
　　4.6.單一規則評估
　　在本節中，我們分析了原作者設計的每條規則的有效性，以評估哪個(gè)規則可以被視為檢測虛假 Twitter 關(guān)注者的良好標準。
　　表 8 總結了將 4.1、4.2 和 4.3 節中介紹的每個(gè)規則應用于我們的 BAS 數據集所獲得的結果。在表 8 中，我們強調了實(shí)現高 MCC 值的規則。如圖所示，只有三個(gè)規則獲得了高于 0.6 的值，即：（1）至少 30 個(gè)關(guān)注者的閾值，（2）至少 50 條推文的閾值，以及（3）至少一個(gè)用戶(hù) ID 的使用userID。
　　正如 MCC 的定義所預期的那樣，這些規則還表現出高精度、精確度和召回率的組合。然而，值得觀(guān)察信息增益和皮爾遜相關(guān)系數的值。規則的信息增益（I gain）總是低于對相關(guān)屬性 I gain* 的評估，而對于 Pearson 相關(guān)系數（Pcc 和 Pcc*）則不然。實(shí)際上，這是因為Pcc評估兩個(gè)假設值非常相似的變量(即規則和類(lèi)的輸出)之間的線(xiàn)性依賴(lài)關(guān)系，而Pcc*則考慮具有更多異類(lèi)值的變量。實(shí)際上，在第一種情況下，變量類(lèi)和輸出都只能假設值 0 和 1：類(lèi)可以是 0（人）或 1（假），規則可以輸出 0（假，例如，帳戶(hù)沒(méi)有超過(guò) 50 條推文）或 1 條（真實(shí)，例如，帳戶(hù)有超過(guò) 50 條推文）。相反，對于 Pcc* ，規則的屬性（在示例中為推文的數量）可以采用更高的值（帳戶(hù)有 234 條推文）。這顯然不是線(xiàn)性依賴(lài)于類(lèi)值，導致 Pcc* 相對于 Pcc [41] 的值較低。
　　因此，對于第 4.1 節（表 8 頂部）中列出的每個(gè)規則，比較 Pcc 和 Pcc* 值是沒(méi)有意義的。相反，我們只需要關(guān)注相同類(lèi)型的指標，即按列，來(lái)比較特征與類(lèi)的線(xiàn)性相關(guān)性。然后，將注意力轉移到信息增益上，我們注意到許多規則考慮了能夠有效區分兩個(gè)類(lèi)別的屬性。如果我們認為信息增益值高于 0.5 的規則和特征是有用的，我們觀(guān)察到，即使許多規則表現出非常低的 I 增益，它們的“特征”版本也會(huì )變得更有趣：例如，規則 18，當用作特征時(shí)，圖 20、21 和 22 的信息增益明顯增加。因此，我們可以得出該規則是基于正確的假設（例如，使用主題標簽），但規則定義過(guò)于簡(jiǎn)單而無(wú)法有效：[12] 提出的算法對于復雜的任務(wù)來(lái)說(shuō)太天真了Twitter 中的虛假帳戶(hù)檢測。巧合的是，我們發(fā)現表現最好的規則也顯示出最高的 Pcc 值，即它們的滿(mǎn)意度與所屬類(lèi)別更密切相關(guān)。關(guān)于規則背后的特征，我們發(fā)現 Pcc* 大大降低了，因為如上所述，它們可以（并且確實(shí)）假設非常高的值，這嚴重影響了與類(lèi)的線(xiàn)性相關(guān)性。
　　觀(guān)察表 8 的其他規則，我們可以注意到在線(xiàn)博客和 Socialbakers 的 FakeFollowerCheck 建議的標準都沒(méi)有成功地檢測到我們數據集中的假粉絲。例如，Van Den Beld 的所有規則的準確率和精度都接近 0.5 或非常低的召回率。此外，我們觀(guān)察到“來(lái)自 API 的推文”的 MCC 為 -0.779，這意味著(zhù)它與帳戶(hù)的類(lèi)別嚴格相關(guān)，但有一個(gè)相反的因素：在我們的數據集中，虛假的追隨者帳戶(hù)幾乎從不來(lái)自 API 的推文（相反，他們使用發(fā)布推文），而人類(lèi)帳戶(hù)至少從網(wǎng)站外部發(fā)布過(guò)一次。這與博主為機器人建議的行為完全相反，后者（應該）幾乎完全使用 API 發(fā)布推文。 I gain/I gain* 和 Pcc/Pcc* 值也證實(shí)了與預測任務(wù)的相關(guān)性。
　　另一個(gè)有趣的觀(guān)察是，Socialbakers 提出的許多規則的 MCC 值接近 0，這意味著(zhù)它們的結果幾乎與賬戶(hù)類(lèi)別無(wú)關(guān)。事實(shí)上，絕大多數賬戶(hù)都被識別為人類(lèi)，從而導致高精度、0.5 左右的準確度和非常低的召回率。例外是規則 6，“0 條推文”：通常，它的信息增益值為 0.02，但當考慮一個(gè)特征（即推文數量）時(shí)，它獲得 0.621。類(lèi)似地，規則4和規則5在考慮它們的基本特征(即轉發(fā)數和帶有url的tweet數)時(shí)對檢測過(guò)程更有用?？偠灾?，獨立于帳戶(hù)的類(lèi)型，規則幾乎總是得到滿(mǎn)足，導致在處理虛假關(guān)注者檢測時(shí)出現嚴重缺陷。
　　5. 基于特征集的偽造檢測算法
　　在本節中，我們研究了 [8, 2] 中解決 Twitter 上的垃圾郵件帳戶(hù)檢測的工作。他們都提出了要從手動(dòng)分類(lèi)的帳戶(hù)數據集中提取的特征列表。然后使用這些特征集來(lái)訓練和測試機器學(xué)習分類(lèi)器，以區分人類(lèi)和垃圾郵件發(fā)送者。即使提議的功能最初是為垃圾郵件檢測而設計的，但在這里，我們第一次認為它們可以發(fā)現另一類(lèi) Twitter 帳戶(hù)，即假粉絲。盡管在關(guān)注 Twitter 垃圾郵件檢測的文獻中存在許多其他著(zhù)作（參見(jiàn)第 2 節），但其中許多都考慮了可以在某種程度上與本節和前一節中分析的特征相似的特征。
　　與第 4 節中基于規則的算法不同，此處將特征表示為所考慮樣本屬性的量化。因此，它們是在沒(méi)有任何關(guān)于將表征所考慮類(lèi)的特征的值的先驗知識的情況下引入的。只有在訓練階段之后，才有可能觀(guān)察不同類(lèi)別中特征的最常見(jiàn)值。
　　對于我們的分析，我們使用了生成“玻璃盒”和“黑盒??”模型的分類(lèi)器。在“玻璃盒”模型中，例如決策樹(shù)和回歸模型，模型的內部結構可以被人類(lèi)理解，也提供了關(guān)于分類(lèi)器如何識別虛假賬戶(hù)的見(jiàn)解 [39]。相反，在諸如支持向量機之類(lèi)的“黑盒”模型中，模型的內部結構沒(méi)有直接的人類(lèi)可解釋的對應關(guān)系。
　　5.1 檢測社交網(wǎng)絡(luò )中的垃圾郵件發(fā)送者
　　[8] 中提出的研究側重于垃圾郵件檢測。作者利用了幾個(gè)特征，這些特征可以從賬戶(hù)的個(gè)人資料和時(shí)間線(xiàn)中抓取賬戶(hù)的詳細信息。對于每個(gè)調查的帳戶(hù)，在隨機森林算法 [23, 43] 中利用這些特征，該算法輸出該帳戶(hù)是否是垃圾郵件機器人。 [8] 中的分析結果描述了正在調查的垃圾郵件帳戶(hù)的一些有趣特征，如表9所示：
　　為了評估特征 3，我們通過(guò)檢查帳戶(hù)時(shí)間線(xiàn)的最后 15 條推文中是否存在至少兩條推文來(lái)實(shí)現消息相似度的概念，其中 4 個(gè)連續單詞相等。同一作者在后來(lái)的作品中給出了這個(gè)概念 [25]。
　　如果沒(méi)有原創(chuàng )訓練集，我們無(wú)法重現相同的分類(lèi)器，但我們選擇了五個(gè)特征并使用它們用我們的 BAS 數據集訓練一組分類(lèi)器。結果報告在第 5.3 節的表 12 中。
　　5.2 對抗不斷發(fā)展的 Twitter 垃圾信息散布者
　　[2] 的作者觀(guān)察到 Twitter 垃圾郵件發(fā)送者經(jīng)常修改他們的行為以逃避現有的垃圾郵件檢測技術(shù)。因此，他們建議考慮一些新功能，使垃圾郵件發(fā)送者更難以規避。除了直接從帳戶(hù)配置文件查找中獲得的功能之外，作者還提出了一些基于圖形、自動(dòng)化和時(shí)間的功能。在表 10 中，我們詳細介紹了其中的九個(gè)，以及他們在 [2] 中的分析結果
　　[2] 的作者將他們的特征結合在四種不同的機器學(xué)習分類(lèi)器中，并將它們的實(shí)現與其他現有方法進(jìn)行比較。我們無(wú)法完全重現 [2] 中的機器學(xué)習分類(lèi)器，因為我們有不同的數據集。相反，我們在此評估這些功能在檢測虛假 Twitter 追隨者方面的表現如何，這些功能被證明對垃圾郵件發(fā)送者采用的規避技術(shù)非常強大。與 [2] 中一樣，以下比率（特征 9）已近似為朋友/年齡的比率，因為精確的評估需要知道一個(gè)帳戶(hù)的朋友數量的演變，但這實(shí)際上是公開(kāi)不可用的.最后，在[2]中，除了上面提到的那些之外，還有其他的特征。然而，正如同一作者所聲稱(chēng)的，它們在規避技術(shù)方面的魯棒性較差，因此我們決定不將它們包括在我們的評估中。
　　5.3 評估
　　正如第 4 節中的規則集所做的那樣，我們在表 11 中報告了 BAS 數據集中所有特征的信息增益和 Pearson 相關(guān)系數的評估。同樣在這種情況下，由于 Pcc 評估所考慮的特征和類(lèi)別之間的線(xiàn)性相關(guān)性（只能為 0 或 1），因此與信息增益相比，它產(chǎn)生的結果略有不同。觀(guān)察表 11 中的結果，我們可以確定幾個(gè)有希望的特征：“推文數量”（已經(jīng)在第 4 節中注意到）、“朋友和關(guān)注者之間的比率^2”、“雙向鏈接比率”和“API 比率”。 5.4.3 節的實(shí)驗將進(jìn)一步證實(shí)雙鏈路比率的有益效果。
　　為了評估第 5.1 節和第 5.2 節中描述的特征集在檢測虛假追隨者帳戶(hù)方面的綜合有效性，我們使用了 8 個(gè)分類(lèi)器，這些分類(lèi)器來(lái)自不同的基于機器學(xué)習的算法，即：裝飾 (D)、自適應提升 (AB)、隨機森林(RF)、決策樹(shù) (J48)、貝葉斯網(wǎng)絡(luò ) (BN)、k-最近鄰 (kNN)、多項嶺邏輯回歸 (LR) 和支持向量機 (SVM)。我們的 SVM 分類(lèi)器利用徑向基函數 (RBF) 內核，并使用 libSVM 作為機器學(xué)習算法進(jìn)行了訓練 [44]。在 SVM 的訓練階段，成本和 gamma 參數已通過(guò)網(wǎng)格搜索算法進(jìn)行了優(yōu)化。類(lèi)似地，kNN 分類(lèi)器的 k 參數和 LR 模型的脊懲罰參數已通過(guò)交叉驗證參數選擇算法進(jìn)行了優(yōu)化。這項工作中使用的所有分類(lèi)器和優(yōu)化算法都是在 Weka 框架內實(shí)現的 [43]。
　　在這些算法中，RF 是 [8] 中唯一使用的一種。相反，[2] 的作者使用了 D、RF、J48 和 BN。我們決定將 AB 納入我們的工作，因為它被認為是用于分類(lèi)任務(wù)的最有效的機器學(xué)習算法之一 [39]。此外，我們還添加了其他著(zhù)名的和廣泛采用的分類(lèi)器，它們基于不同的分類(lèi)技術(shù)，如支持向量機，kNN和LR，以便對我們的檢測系統進(jìn)行徹底的評估。我們已經(jīng)建立了 8 個(gè)分類(lèi)器，采用了第 5.1 節和第 5.2 節中的特征，并使用我們的基線(xiàn)（BAS）數據集訓練了模型。然后，我們使用 10 倍交叉驗證 [23] 來(lái)估計每個(gè)獲得的分類(lèi)器的性能。至于 4.4 節中基于規則的算法，我們將 MCC 視為評估分類(lèi)器性能的首選指標。表 12 總結了結果。每個(gè)指標的最高值以粗體顯示。
　　我們可以觀(guān)察到所有的分類(lèi)器都有很好的預測能力?；?[2] 的特征集構建的那些獲得了稍微好一點(diǎn)的結果。特別是，RF、J48 和 D 分類(lèi)器的 MCC 大于 0.98。同樣，所有這些的準確率和召回率都在 0.99 左右。此外，與使用 [8] 的特征集構建的分類(lèi)器相比，基于 [2] 的特征集的所有分類(lèi)器都具有更高的 AUC。無(wú)論如何，后者也獲得了很高的檢測水平：RF、D 和 J48 的準確率、精確度和召回率約為 0.98，MCC 約為 0.96。相對于使用 Yang 等人的集合獲得的精度和召回率較低。 [2] 表明 Stringhini 等人的特征。 [8] 表現出將某些人類(lèi)帳戶(hù)視為虛假追隨者的趨勢。對于 [2] 和 [8] 特征集，BN、kNN 和 LR 分類(lèi)器總體上實(shí)現了更差的性能。相反，SVM 分類(lèi)器取得了顯著(zhù)的結果，尤其是在使用 [2] 的特征集時(shí)。事實(shí)上，在這個(gè)實(shí)驗中，SVM 的得分只比 RF、D 和 J48 稍差，但比 AB 好。然而，當使用 AUC 指標評估時(shí)，AB 實(shí)現了極高的性能。最后，在所有考慮的分類(lèi)器和評估指標中，RF 和 D 是已被證明更一致的那些。
　　總體而言，即使在評估指標中可以觀(guān)察到一些小的差異，對于我們的基線(xiàn) BAS 數據集，所有分類(lèi)器幾乎都可以正確區分人類(lèi)和虛假追隨者帳戶(hù)。與CC算法相比，基于特征的分類(lèi)器在假追隨者檢測方面無(wú)疑更準確，但CC算法在我們的數據集中表現不佳，如上文第4.5節所述。
　　5.4. Discussion
　　通過(guò)檢查分類(lèi)器的內部結構，我們可以深入了解更有助于區分人類(lèi)和虛假追隨者的最佳特征。在決策樹(shù)的情況下，最好的特征是更接近根的特征，分類(lèi)器自動(dòng)找到數字閾值，對于給定的特征，人類(lèi)和假追隨者之間的邊界。值得注意的是，裝飾、AdaBoost 和隨機森林算法最終也利用了簡(jiǎn)單決策樹(shù)分類(lèi)器的組合。盡管它們的性能非常好，但它們的缺點(diǎn)是難以分析，因為它們可以收錄數十個(gè)相互作用的單獨樹(shù)。然后，我們只關(guān)注 J48 分類(lèi)器（單個(gè)決策樹(shù)）來(lái)檢查特征在分類(lèi)過(guò)程中是如何應用的。
　　5.4.1 虛假關(guān)注者和垃圾郵件帳戶(hù)之間的區別
　　查看樹(shù)形結構，我們觀(guān)察到 BAS 數據集中的虛假關(guān)注者與 [8] 和 [2] 中的垃圾郵件帳戶(hù)之間存在一些有趣的差異。例如，已發(fā)現特征 URL 比率對垃圾郵件發(fā)送者的值高于對合法用戶(hù)的值，如 [8]（第 5.1 節）中強調的那樣。相反，觀(guān)察我們的 J48 分類(lèi)器的樹(shù)形結構，該特征的低值表示虛假追隨者，而在我們的基線(xiàn)數據集中表示人類(lèi)賬戶(hù)的較高值。在我們的訓練數據集中，超過(guò) 72% 的虛假關(guān)注者的 URL 比率低于 0.05，與 14% 的人類(lèi)賬戶(hù)相反。同樣，發(fā)現垃圾郵件發(fā)送者的 API 比率功能高于合法帳戶(hù)（[2]，另請參見(jiàn)第 5.2 節）。在我們的數據集中，78% 的假粉絲的 API 比率低于 0.0001。對于普通鄰居的推文特征，已經(jīng)觀(guān)察到類(lèi)似的行為，在 [2] 中發(fā)現垃圾郵件發(fā)送者的行為較低，但對于我們的假追隨者而言則較高。
　　這些初步觀(guān)察突出了垃圾郵件帳戶(hù)和虛假追隨者之間的行為差??異。特別是，與垃圾郵件發(fā)送者相比，虛假關(guān)注者似乎更被動(dòng)，并且他們不像垃圾郵件發(fā)送者通常那樣使用自動(dòng)機制來(lái)發(fā)布他們的推文。
　　5.4.2 減少過(guò)度擬合
　　眾所周知，經(jīng)過(guò)訓練的分類(lèi)器可能會(huì )受到“過(guò)度擬合”的影響，即對訓練數據集過(guò)于專(zhuān)業(yè)化并且無(wú)法將分類(lèi)推廣到新的和看不見(jiàn)的數據的問(wèn)題[45]。
　　避免過(guò)度擬合的一個(gè)簡(jiǎn)單方法是使分類(lèi)器盡可能簡(jiǎn)單。例如，在決策樹(shù)算法的情況下，一種解決方案可能是減少節點(diǎn)的數量，并可能減少樹(shù)的高度。使用 Stringhini 等人的特征集獲得的決策樹(shù)。 [8] 有 22 個(gè)葉子，43 個(gè)節點(diǎn)，高度為 7，而最好的特征是放在根的朋友/（followers^2）比率。具有楊等人特征集的決策樹(shù)。 [2]有17個(gè)葉子，33個(gè)節點(diǎn)，高度為8，以雙向鏈接比為根。
　　泛化分類(lèi)器的一種常見(jiàn)做法是采用更積極的剪枝策略，例如，通過(guò)對小測試集使用減少錯誤剪枝 [23, 43]。采用這種策略，我們能夠獲得具有較少節點(diǎn)數和非常低高度的更簡(jiǎn)單的樹(shù)。這種更簡(jiǎn)單的樹(shù)通常使用特征集的子集，在我們的 BAS 數據集上仍然保持非常好的性能。
　　表 13 報告了我們進(jìn)行的實(shí)驗的特征和性能，改變了剪枝策略。值得注意的是，樹(shù)的復雜性并不總是與檢測能力的提高直接相關(guān)：例如，對于 Yang 等人的特征集。 [2]，將節點(diǎn)數量從 33 個(gè)減少到 11 個(gè)，只會(huì )降低 0.007 的精度和 0.014 的 MCC。
　　同樣，樹(shù)的修剪和未修剪版本之間的 AUC 值幾乎保持不變。此外，我們清楚地觀(guān)察到 Stringhini 等人的修剪版本。 [8] 減少了 0.017 的召回率，而 Yang 等人的 [2]僅下降 0.004，這意味著(zhù)后者在修剪后能夠比前者漏掉更少的假貨。這從 F-Measure 和 MCC 的較高減少也很明顯。我們認為這種提高的有效性是所用特征質(zhì)量的直接結果?？傮w而言，該實(shí)驗的結果表明，即使減少特征，檢測率也可能高于 0.95（如表 13 的最后一行，分別針對 [8] 和 [2]）。例如，在這兩個(gè)實(shí)驗中，被修剪的樹(shù)使用的特征只有雙向鏈接比率、平均鄰居的追隨者、年齡，以及對中位數鄰居追隨者的追隨者作為楊的原創(chuàng )特征集的子集等。 [2]，以及作為 Stringhini 等人的子集的朋友/（追隨者^(guò)2）、URL 比率和朋友數量。 [8] 原創(chuàng )特征集。
　　核心方法:PHP文章采集方法及思路
　　

　　1.采集文章的大致思路： 1.定時(shí)抓取文章列表頁(yè)，提取文章的所有鏈接地址寫(xiě)入臨時(shí)表2、從數據庫中讀取獲取文章的所有鏈接并訪(fǎng)問(wèn)，然后定期匹配文章的標題和內容，寫(xiě)入文章表。2.其中兩個(gè)需要注意： 1.采集防死：因為程序在采集的過(guò)程中需要執行很多操作，如果是一次性全部讀取，加上一些網(wǎng)絡(luò )問(wèn)題（比如網(wǎng)速慢，網(wǎng)絡(luò )不穩定），程序在采集的過(guò)程中可能會(huì )出現頁(yè)面超時(shí)。為此，我想到了用一個(gè)一個(gè)一個(gè)讀入的方法，就是在打開(kāi)頁(yè)面的時(shí)候，read-only每次取一個(gè)文章鏈接到采集，然后跳轉到頁(yè)面，可以減輕程序運行的負擔，增加程序運行的流暢度，從而在一定程度上減少頁(yè)面超時(shí)的問(wèn)題。2. 采集文章中的圖片：在采集...
　　

匯總:【技術(shù)干貨】大數據日志分析統計

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 81 次瀏覽 ? 2022-10-14 15:14 ? 來(lái)自相關(guān)話(huà)題

　　匯總:【技術(shù)干貨】大數據日志分析統計
　　作者：羅廣，網(wǎng)易高級開(kāi)發(fā)工程師，目前從事分布式視頻處理系統的開(kāi)發(fā)和維護工作。曾參與天空手游平臺服務(wù)器的開(kāi)發(fā)和?？低暯痪脚_組的平臺架構開(kāi)發(fā)和JVM調優(yōu)。熟悉基于SOA的分布式系統架構設計和Storm Streaming框架。對lucene和solr搜索有豐富的經(jīng)驗，對hadoop和spark有濃厚的興趣。
　　一
　　日志概述
　　日志來(lái)自第三方 CDK 制造商。主要內容是推拉流的日志，包括rtmp推拉流、flv拉流、hls拉流。flv和hls拉流的協(xié)議是http，rtmp推流和拉流的協(xié)議是rtmp。大致格式如下：
　　分析指標為在線(xiàn)數、總時(shí)長(cháng)、總流量（客戶(hù)端到服務(wù)器的流量和服務(wù)器到客戶(hù)端的流量之和）。需要用到的數據也在上圖中用紅色表示。乍一看可以做distinct和sum，但其實(shí)上面的流日志在垂直方面比較一致，在水平方面對比比較大。統計的粒度要求精確到頻道和分鐘，不能直接從日志數據中獲取頻道。一個(gè)會(huì )話(huà)中大約有10條RTMP數據（會(huì )話(huà)ID相同），但只能間接獲取2條數據；一條FLV數據代表一個(gè)會(huì )話(huà)，可以輕松獲取頻道；HLS 數據是客戶(hù)端' s 主動(dòng)性首先從服務(wù)器獲取一條Meta信息，比如可以獲取多少條數據信息data，然后繼續獲取data數據。一個(gè)會(huì )話(huà)可能會(huì )產(chǎn)生數以萬(wàn)計的日志記錄。
　　日志分析特點(diǎn)：數據量大、數據內容格式不同、延遲（只能獲取第二天的數據）、細粒度統計（后續可能是5分鐘、1小時(shí)、日、月、 ETC。）。一天的數據量約4000萬(wàn)，完全不均勻分布在約250個(gè)域名上，1個(gè)月左右數據量翻倍（取決于新增用戶(hù)和轉化率）。.
　　二
　　分析過(guò)程
　　第一階段：數據模型分析
　　采集 CDN 供應商的日志，解析它們，存儲在 MySQL 中，并啟動(dòng)分析和統計任務(wù)。這個(gè)階段是需求研究，數據模型與數據大小無(wú)關(guān)。
　　階段 2：數據清洗、MongoDB 存儲和 MapReduce
　　在模型分析階段，隨著(zhù)數據量的增加和分析指標的聚合操作，MySQL存儲在檢索、聚合以及后續的重新聚合已經(jīng)不能滿(mǎn)足系統需求，更換存儲勢在必行。MongoDB 因其基于文檔的存儲、簡(jiǎn)單的 API (JSON)、高性能、方便的集群分片和內置的 MapReduce 功能而成為該系統的替代數據庫。網(wǎng)易在MongoDB方面也有比較資深的實(shí)戰經(jīng)驗。
　　
　　通過(guò)對存儲數據的反復分析比較，發(fā)現與Uri和Url相關(guān)的數據并沒(méi)有產(chǎn)生任何值，大大增加了存儲容量。因此，對原創(chuàng )數據進(jìn)行清洗，只保留客戶(hù)端IP、日期、時(shí)間、時(shí)長(cháng)、流量等。對結果有影響的字段，記錄不符合原日志分析規則的數據，用于后續數據修正。根據不同的協(xié)議規則（Rtmp除外），設置其頻道ID，方便后續根據頻道進(jìn)行分析。rtmp數據單獨存儲在一個(gè)表中，rtmp數據根據同一個(gè)session，同一個(gè)channel進(jìn)行修正。至此，log數據已經(jīng)被修正到同一個(gè)平面，和map、reduce、并編寫(xiě)相關(guān)維度的 finalize 函數來(lái)執行 MapReduce 計算。作業(yè)調度器（schduler）協(xié)調管理任務(wù)執行單元（worker），根據任務(wù)鏈、任務(wù)狀態(tài)的變化判斷是否調度下一個(gè)任務(wù)。
　　三
　　整體架構
　　即緊接上述第三階段，在第二階段的基礎上，考慮系統的高可用、分布式、容錯等維度，采用去中心化的方案設計，依托RabbitMQ進(jìn)行橫向擴展，增加了對外接口層和任務(wù)的手動(dòng)發(fā)布處理。
　　1
　　集電極
　　記錄數據采集器（定時(shí)），從CDN端獲取每個(gè)域名對應的數據包下載地址，將后綴相同的域名分類(lèi)為一個(gè)整體，創(chuàng )建作業(yè)（Job）。根據下載地址下載日志包（原創(chuàng )數據包用gzip壓縮）。在這個(gè)過(guò)程中，為了防止并發(fā)訪(fǎng)問(wèn)過(guò)高而被CDN方拒絕，進(jìn)行了熔斷過(guò)程，即在規定時(shí)間內抑制訪(fǎng)問(wèn)次數。
　　獲取數據包后，調用linux系統命令gzip命令解壓；順序讀取日志文件，如果單個(gè)日志文件很大，會(huì )用包號分包；這批數據將被 gzip 壓縮并扔到 Rabbitmq 中。上面創(chuàng )建了作業(yè)。一個(gè) Job 最多對應四個(gè)域名，分別創(chuàng )建子 Job。每次下載、解壓、數據傳輸，分別記錄狀態(tài)（啟動(dòng)時(shí)間、耗時(shí)、失敗/成功），方便后續失敗任務(wù)檢測和性能分析。
　　2
　　工人
　　任務(wù)執行單元。訂閱從rabbitmq獲取日志包數據。如果是HTTP協(xié)議（上面的hls、flv），先清理數據，然后在java中根據channel維度進(jìn)行map reduce計算。ip set數據結構使用hashset來(lái)ip to 最后將結果存入mongodb；如果使用 RTMP 協(xié)議，則更新數據（設置通道），并使用 mongodb 聚合數據。生成的數據格式與HTTP日志一致，方便后續通道聚合操作。聚合操作涉及到細粒度的分析。這里使用了一個(gè)小技巧，將日期和時(shí)間結合起來(lái)，添加了一個(gè)字段ymdhm，代表點(diǎn)，這個(gè)字段的數據非常離散，大大提高了map reduce的運行效率。.
　　MongoDB 中的 MapReduce 相當于關(guān)系數據庫中的 group by。使用 MapReduce 實(shí)現 Map 和 Reduce 兩個(gè)功能。Map函數調用emit(key, value)，遍歷采集中的所有記錄，將key和value傳遞給Reduce函數進(jìn)行處理。本文使用javascript代碼編寫(xiě)map和reduce函數，主要處理ip set去重和流量積累。
　　3
　　調度器
　　
　　worker執行調度器，負責記錄每個(gè)子任務(wù)的狀態(tài)，判斷子任務(wù)是否完成。如果執行完成，則從作業(yè)鏈中獲取下一個(gè)子任務(wù)的隊列，扔到rabbitmq中供worker消費。此外，還包括失敗任務(wù)檢測，輪詢(xún)當日任務(wù)列表，判斷任務(wù)是否完成。如果有任務(wù)執行失敗，它會(huì )從分析表中抓取數據扔到臨時(shí)集合中，再次進(jìn)行聚合分析，最后將結果歸檔。
　　4
　　mongodb
　　MongoDB的版本是3.0.1，對應的java客戶(hù)端是mongo-java-driver3.0.1。在高可用方面，使用了官方推薦的主從復制和高可用方案Replicat Set。Replicat Set 具有自動(dòng)切換功能。當Primary掛掉時(shí)，可以由Replica Set中的Secondary自動(dòng)切換到Primary，實(shí)現高可用。目的。比如配置了一個(gè)由3臺服務(wù)器組成的mongo集群，1主2副，客戶(hù)端連接時(shí)需要寫(xiě)入所有IP，并設置讀操作從副本集讀取，實(shí)現主從分離，減少主節點(diǎn)的訪(fǎng)問(wèn)壓力。
　　5
　　兔子MQ
　　為了確保消息不丟失，RabbitMQ 支持消息確認。消費者發(fā)送消息回復，告訴 RabbitMQ 在 RabbitMQ 可以將其刪除之前，該消息已被接收并處理。如果一個(gè)消費者宕機了，沒(méi)有發(fā)送響應，RabbitMQ 會(huì )理解該消息沒(méi)有被完全處理，然后將其交給另一個(gè)消費者重新處理。這樣，所有依賴(lài) RabbitMQ 的節點(diǎn)都不會(huì )丟失消息，保證了整個(gè)分析過(guò)程的完整性。沒(méi)有任何消息超時(shí)限制，RabbitMQ 只會(huì )在消費者宕機時(shí)重新投遞，即使處理一條消息需要很長(cháng)時(shí)間。
　　鏡像隊列是 RabbitMQ 高可用的一種。隊列中消息的每個(gè)節點(diǎn)都會(huì )有一個(gè)副本。在單個(gè)節點(diǎn)故障的情況下，整個(gè)集群仍然可以提供服務(wù)。但是，由于數據需要在多個(gè)節點(diǎn)上進(jìn)行復制，因此系統的吞吐量會(huì )降低，而可用性會(huì )提高。在實(shí)現機制上，鏡像隊列內部實(shí)現了一套選舉算法。有一個(gè)master和多個(gè)slave。隊列中的消息主要是master。對于發(fā)布，您可以選擇要連接的任何節點(diǎn)。如果節點(diǎn)不是rabbitmq中的master，就會(huì )轉發(fā)給master。master將消息發(fā)送給其他slave節點(diǎn)，然后將消息本地化，并多播復制消息到其他節點(diǎn)進(jìn)行存儲；對于消費者來(lái)說(shuō)，可以選擇任意節點(diǎn)連接，消費請求會(huì )轉發(fā)給master。為了保證消息的可靠性，消費者需要確認ack。master收到ack后會(huì )刪除消息，ack消息是同步的（默認異步）。) 向其他節點(diǎn)刪除從節點(diǎn)消息。如果master節點(diǎn)出現故障，鏡像隊列會(huì )自動(dòng)選舉一個(gè)節點(diǎn)（slave中消息隊列最長(cháng)的那個(gè)）作為master作為消息消費的基準；如果從節點(diǎn)發(fā)生故障，鏡像隊列集群中其他節點(diǎn)的狀態(tài)不需要改變。消息將被刪除，確認消息將是同步的（默認異步）。) 向其他節點(diǎn)刪除從節點(diǎn)消息。如果master節點(diǎn)出現故障，鏡像隊列會(huì )自動(dòng)選舉一個(gè)節點(diǎn)（slave中消息隊列最長(cháng)的那個(gè)）作為master作為消息消費的基準；如果從節點(diǎn)發(fā)生故障，鏡像隊列集群中其他節點(diǎn)的狀態(tài)不需要改變。消息將被刪除，確認消息將是同步的（默認異步）。) 向其他節點(diǎn)刪除從節點(diǎn)消息。如果master節點(diǎn)出現故障，鏡像隊列會(huì )自動(dòng)選舉一個(gè)節點(diǎn)（slave中消息隊列最長(cháng)的那個(gè)）作為master作為消息消費的基準；如果從節點(diǎn)發(fā)生故障，鏡像隊列集群中其他節點(diǎn)的狀態(tài)不需要改變。
　　鏡像隊列使用起來(lái)比較簡(jiǎn)單。先將當前節點(diǎn)加入之前已經(jīng)啟動(dòng)的RabbitMQ節點(diǎn)，然后設置HA策略。下圖為鏡像節點(diǎn)的啟動(dòng)腳本：
　　鏡像節點(diǎn)設置成功后，可以看到整個(gè)集群的狀態(tài)。
　　四
　　健康
　　在線(xiàn)部署一共7臺服務(wù)器，包括2臺云主機，每臺4核8G，部署schduler、collector和rabbitmq；3臺云主機，每臺4核8G，部署mongodb Cluster Replica Set；2臺云主機，每臺8核32G，部署16個(gè)Worker實(shí)例，4000萬(wàn)數據，20分鐘完成分析。
　　匯總:內容采集
　　爬蟲(chóng)：用于搜索，但搜索的內容仍然在原來(lái)的網(wǎng)站、主動(dòng)、智能
　　采集：將其他網(wǎng)站放在您的網(wǎng)站上
　　網(wǎng)站首頁(yè)相當于入口，入口下有很多一級分類(lèi)，首頁(yè)是上下層的關(guān)系。分類(lèi)是分層的
　　網(wǎng)站內容體系結構：
　　
　　首先確定抓取范圍：首先分析網(wǎng)站的內容結構;例如：抓取整個(gè)堆棧的數據 - 然后使用網(wǎng)站主頁(yè)作為入口
　　網(wǎng)站內容結構：首頁(yè)下為一級分類(lèi)
　　，而下一級分類(lèi)就是二級分類(lèi)
　　內容爬網(wǎng)過(guò)程：
　　門(mén)戶(hù)是一個(gè)列表頁(yè)
　　
　　要使用 Java 程序進(jìn)行解析，必須首先獲取頁(yè)面的 html 代碼
　　如果你想獲取數據，你必須首先分析網(wǎng)址是什么樣的
　　關(guān)于提?。篐TML 解析類(lèi)庫：日功和小數
　　1，jsoup
　　前提條件：沒(méi)有第三方類(lèi)庫自動(dòng)幫我做到這一點(diǎn)，用純Java系統類(lèi)庫做嗎？
　　轉載于：查看全部

　　匯總:【技術(shù)干貨】大數據日志分析統計
　　作者：羅廣，網(wǎng)易高級開(kāi)發(fā)工程師，目前從事分布式視頻處理系統的開(kāi)發(fā)和維護工作。曾參與天空手游平臺服務(wù)器的開(kāi)發(fā)和?？低暯痪脚_組的平臺架構開(kāi)發(fā)和JVM調優(yōu)。熟悉基于SOA的分布式系統架構設計和Storm Streaming框架。對lucene和solr搜索有豐富的經(jīng)驗，對hadoop和spark有濃厚的興趣。
　　一
　　日志概述
　　日志來(lái)自第三方 CDK 制造商。主要內容是推拉流的日志，包括rtmp推拉流、flv拉流、hls拉流。flv和hls拉流的協(xié)議是http，rtmp推流和拉流的協(xié)議是rtmp。大致格式如下：
　　分析指標為在線(xiàn)數、總時(shí)長(cháng)、總流量（客戶(hù)端到服務(wù)器的流量和服務(wù)器到客戶(hù)端的流量之和）。需要用到的數據也在上圖中用紅色表示。乍一看可以做distinct和sum，但其實(shí)上面的流日志在垂直方面比較一致，在水平方面對比比較大。統計的粒度要求精確到頻道和分鐘，不能直接從日志數據中獲取頻道。一個(gè)會(huì )話(huà)中大約有10條RTMP數據（會(huì )話(huà)ID相同），但只能間接獲取2條數據；一條FLV數據代表一個(gè)會(huì )話(huà)，可以輕松獲取頻道；HLS 數據是客戶(hù)端' s 主動(dòng)性首先從服務(wù)器獲取一條Meta信息，比如可以獲取多少條數據信息data，然后繼續獲取data數據。一個(gè)會(huì )話(huà)可能會(huì )產(chǎn)生數以萬(wàn)計的日志記錄。
　　日志分析特點(diǎn)：數據量大、數據內容格式不同、延遲（只能獲取第二天的數據）、細粒度統計（后續可能是5分鐘、1小時(shí)、日、月、 ETC。）。一天的數據量約4000萬(wàn)，完全不均勻分布在約250個(gè)域名上，1個(gè)月左右數據量翻倍（取決于新增用戶(hù)和轉化率）。.
　　二
　　分析過(guò)程
　　第一階段：數據模型分析
　　采集 CDN 供應商的日志，解析它們，存儲在 MySQL 中，并啟動(dòng)分析和統計任務(wù)。這個(gè)階段是需求研究，數據模型與數據大小無(wú)關(guān)。
　　階段 2：數據清洗、MongoDB 存儲和 MapReduce
　　在模型分析階段，隨著(zhù)數據量的增加和分析指標的聚合操作，MySQL存儲在檢索、聚合以及后續的重新聚合已經(jīng)不能滿(mǎn)足系統需求，更換存儲勢在必行。MongoDB 因其基于文檔的存儲、簡(jiǎn)單的 API (JSON)、高性能、方便的集群分片和內置的 MapReduce 功能而成為該系統的替代數據庫。網(wǎng)易在MongoDB方面也有比較資深的實(shí)戰經(jīng)驗。
　　

　　通過(guò)對存儲數據的反復分析比較，發(fā)現與Uri和Url相關(guān)的數據并沒(méi)有產(chǎn)生任何值，大大增加了存儲容量。因此，對原創(chuàng )數據進(jìn)行清洗，只保留客戶(hù)端IP、日期、時(shí)間、時(shí)長(cháng)、流量等。對結果有影響的字段，記錄不符合原日志分析規則的數據，用于后續數據修正。根據不同的協(xié)議規則（Rtmp除外），設置其頻道ID，方便后續根據頻道進(jìn)行分析。rtmp數據單獨存儲在一個(gè)表中，rtmp數據根據同一個(gè)session，同一個(gè)channel進(jìn)行修正。至此，log數據已經(jīng)被修正到同一個(gè)平面，和map、reduce、并編寫(xiě)相關(guān)維度的 finalize 函數來(lái)執行 MapReduce 計算。作業(yè)調度器（schduler）協(xié)調管理任務(wù)執行單元（worker），根據任務(wù)鏈、任務(wù)狀態(tài)的變化判斷是否調度下一個(gè)任務(wù)。
　　三
　　整體架構
　　即緊接上述第三階段，在第二階段的基礎上，考慮系統的高可用、分布式、容錯等維度，采用去中心化的方案設計，依托RabbitMQ進(jìn)行橫向擴展，增加了對外接口層和任務(wù)的手動(dòng)發(fā)布處理。
　　1
　　集電極
　　記錄數據采集器（定時(shí)），從CDN端獲取每個(gè)域名對應的數據包下載地址，將后綴相同的域名分類(lèi)為一個(gè)整體，創(chuàng )建作業(yè)（Job）。根據下載地址下載日志包（原創(chuàng )數據包用gzip壓縮）。在這個(gè)過(guò)程中，為了防止并發(fā)訪(fǎng)問(wèn)過(guò)高而被CDN方拒絕，進(jìn)行了熔斷過(guò)程，即在規定時(shí)間內抑制訪(fǎng)問(wèn)次數。
　　獲取數據包后，調用linux系統命令gzip命令解壓；順序讀取日志文件，如果單個(gè)日志文件很大，會(huì )用包號分包；這批數據將被 gzip 壓縮并扔到 Rabbitmq 中。上面創(chuàng )建了作業(yè)。一個(gè) Job 最多對應四個(gè)域名，分別創(chuàng )建子 Job。每次下載、解壓、數據傳輸，分別記錄狀態(tài)（啟動(dòng)時(shí)間、耗時(shí)、失敗/成功），方便后續失敗任務(wù)檢測和性能分析。
　　2
　　工人
　　任務(wù)執行單元。訂閱從rabbitmq獲取日志包數據。如果是HTTP協(xié)議（上面的hls、flv），先清理數據，然后在java中根據channel維度進(jìn)行map reduce計算。ip set數據結構使用hashset來(lái)ip to 最后將結果存入mongodb；如果使用 RTMP 協(xié)議，則更新數據（設置通道），并使用 mongodb 聚合數據。生成的數據格式與HTTP日志一致，方便后續通道聚合操作。聚合操作涉及到細粒度的分析。這里使用了一個(gè)小技巧，將日期和時(shí)間結合起來(lái)，添加了一個(gè)字段ymdhm，代表點(diǎn)，這個(gè)字段的數據非常離散，大大提高了map reduce的運行效率。.
　　MongoDB 中的 MapReduce 相當于關(guān)系數據庫中的 group by。使用 MapReduce 實(shí)現 Map 和 Reduce 兩個(gè)功能。Map函數調用emit(key, value)，遍歷采集中的所有記錄，將key和value傳遞給Reduce函數進(jìn)行處理。本文使用javascript代碼編寫(xiě)map和reduce函數，主要處理ip set去重和流量積累。
　　3
　　調度器
　　

　　worker執行調度器，負責記錄每個(gè)子任務(wù)的狀態(tài)，判斷子任務(wù)是否完成。如果執行完成，則從作業(yè)鏈中獲取下一個(gè)子任務(wù)的隊列，扔到rabbitmq中供worker消費。此外，還包括失敗任務(wù)檢測，輪詢(xún)當日任務(wù)列表，判斷任務(wù)是否完成。如果有任務(wù)執行失敗，它會(huì )從分析表中抓取數據扔到臨時(shí)集合中，再次進(jìn)行聚合分析，最后將結果歸檔。
　　4
　　mongodb
　　MongoDB的版本是3.0.1，對應的java客戶(hù)端是mongo-java-driver3.0.1。在高可用方面，使用了官方推薦的主從復制和高可用方案Replicat Set。Replicat Set 具有自動(dòng)切換功能。當Primary掛掉時(shí)，可以由Replica Set中的Secondary自動(dòng)切換到Primary，實(shí)現高可用。目的。比如配置了一個(gè)由3臺服務(wù)器組成的mongo集群，1主2副，客戶(hù)端連接時(shí)需要寫(xiě)入所有IP，并設置讀操作從副本集讀取，實(shí)現主從分離，減少主節點(diǎn)的訪(fǎng)問(wèn)壓力。
　　5
　　兔子MQ
　　為了確保消息不丟失，RabbitMQ 支持消息確認。消費者發(fā)送消息回復，告訴 RabbitMQ 在 RabbitMQ 可以將其刪除之前，該消息已被接收并處理。如果一個(gè)消費者宕機了，沒(méi)有發(fā)送響應，RabbitMQ 會(huì )理解該消息沒(méi)有被完全處理，然后將其交給另一個(gè)消費者重新處理。這樣，所有依賴(lài) RabbitMQ 的節點(diǎn)都不會(huì )丟失消息，保證了整個(gè)分析過(guò)程的完整性。沒(méi)有任何消息超時(shí)限制，RabbitMQ 只會(huì )在消費者宕機時(shí)重新投遞，即使處理一條消息需要很長(cháng)時(shí)間。
　　鏡像隊列是 RabbitMQ 高可用的一種。隊列中消息的每個(gè)節點(diǎn)都會(huì )有一個(gè)副本。在單個(gè)節點(diǎn)故障的情況下，整個(gè)集群仍然可以提供服務(wù)。但是，由于數據需要在多個(gè)節點(diǎn)上進(jìn)行復制，因此系統的吞吐量會(huì )降低，而可用性會(huì )提高。在實(shí)現機制上，鏡像隊列內部實(shí)現了一套選舉算法。有一個(gè)master和多個(gè)slave。隊列中的消息主要是master。對于發(fā)布，您可以選擇要連接的任何節點(diǎn)。如果節點(diǎn)不是rabbitmq中的master，就會(huì )轉發(fā)給master。master將消息發(fā)送給其他slave節點(diǎn)，然后將消息本地化，并多播復制消息到其他節點(diǎn)進(jìn)行存儲；對于消費者來(lái)說(shuō)，可以選擇任意節點(diǎn)連接，消費請求會(huì )轉發(fā)給master。為了保證消息的可靠性，消費者需要確認ack。master收到ack后會(huì )刪除消息，ack消息是同步的（默認異步）。) 向其他節點(diǎn)刪除從節點(diǎn)消息。如果master節點(diǎn)出現故障，鏡像隊列會(huì )自動(dòng)選舉一個(gè)節點(diǎn)（slave中消息隊列最長(cháng)的那個(gè)）作為master作為消息消費的基準；如果從節點(diǎn)發(fā)生故障，鏡像隊列集群中其他節點(diǎn)的狀態(tài)不需要改變。消息將被刪除，確認消息將是同步的（默認異步）。) 向其他節點(diǎn)刪除從節點(diǎn)消息。如果master節點(diǎn)出現故障，鏡像隊列會(huì )自動(dòng)選舉一個(gè)節點(diǎn)（slave中消息隊列最長(cháng)的那個(gè)）作為master作為消息消費的基準；如果從節點(diǎn)發(fā)生故障，鏡像隊列集群中其他節點(diǎn)的狀態(tài)不需要改變。消息將被刪除，確認消息將是同步的（默認異步）。) 向其他節點(diǎn)刪除從節點(diǎn)消息。如果master節點(diǎn)出現故障，鏡像隊列會(huì )自動(dòng)選舉一個(gè)節點(diǎn)（slave中消息隊列最長(cháng)的那個(gè)）作為master作為消息消費的基準；如果從節點(diǎn)發(fā)生故障，鏡像隊列集群中其他節點(diǎn)的狀態(tài)不需要改變。
　　鏡像隊列使用起來(lái)比較簡(jiǎn)單。先將當前節點(diǎn)加入之前已經(jīng)啟動(dòng)的RabbitMQ節點(diǎn)，然后設置HA策略。下圖為鏡像節點(diǎn)的啟動(dòng)腳本：
　　鏡像節點(diǎn)設置成功后，可以看到整個(gè)集群的狀態(tài)。
　　四
　　健康
　　在線(xiàn)部署一共7臺服務(wù)器，包括2臺云主機，每臺4核8G，部署schduler、collector和rabbitmq；3臺云主機，每臺4核8G，部署mongodb Cluster Replica Set；2臺云主機，每臺8核32G，部署16個(gè)Worker實(shí)例，4000萬(wàn)數據，20分鐘完成分析。
　　匯總:內容采集
　　爬蟲(chóng)：用于搜索，但搜索的內容仍然在原來(lái)的網(wǎng)站、主動(dòng)、智能
　　采集：將其他網(wǎng)站放在您的網(wǎng)站上
　　網(wǎng)站首頁(yè)相當于入口，入口下有很多一級分類(lèi)，首頁(yè)是上下層的關(guān)系。分類(lèi)是分層的
　　網(wǎng)站內容體系結構：
　　

　　首先確定抓取范圍：首先分析網(wǎng)站的內容結構;例如：抓取整個(gè)堆棧的數據 - 然后使用網(wǎng)站主頁(yè)作為入口
　　網(wǎng)站內容結構：首頁(yè)下為一級分類(lèi)
　　，而下一級分類(lèi)就是二級分類(lèi)
　　內容爬網(wǎng)過(guò)程：
　　門(mén)戶(hù)是一個(gè)列表頁(yè)
　　

　　要使用 Java 程序進(jìn)行解析，必須首先獲取頁(yè)面的 html 代碼
　　如果你想獲取數據，你必須首先分析網(wǎng)址是什么樣的
　　關(guān)于提?。篐TML 解析類(lèi)庫：日功和小數
　　1，jsoup
　　前提條件：沒(méi)有第三方類(lèi)庫自動(dòng)幫我做到這一點(diǎn)，用純Java系統類(lèi)庫做嗎？
　　轉載于：

經(jīng)驗:這5個(gè)應用你要全有，絕對是老司機無(wú)疑！

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 124 次瀏覽 ? 2022-10-14 15:14 ? 來(lái)自相關(guān)話(huà)題

　　經(jīng)驗:這5個(gè)應用你要全有，絕對是老司機無(wú)疑！
　　大家好，我是小昊~
　　今天給大家分享5款非常好用的電腦軟件，可以解決很多問(wèn)題，直接上干貨！
　　▍1. 格式工廠(chǎng)
　　格式工廠(chǎng)是一款辦公工具，可以轉換幾乎所有類(lèi)型的多媒體格式，以及文件壓縮、圖像處理、視頻文件修復、文件備份等功能。
　　▍2.Keepass
　　KeePass 是一款功能強大的密碼管理軟件。它可以幫助您記住電子郵件、主頁(yè)FTP、Internet、論壇等的用戶(hù)名和密碼，解決您忘記密碼的煩惱，節省時(shí)間。
　　KeePass 將密碼存儲在高度加密的數據庫中，其他人和其他應用程序無(wú)法識別。
　　
　　▍3.優(yōu)采云采集器
　　優(yōu)采云采集器由前 Google 技術(shù)團隊打造?；谌斯ぶ悄芗夹g(shù)，只需輸入網(wǎng)址即可自動(dòng)識別采集的內容。
　　它可以智能識別數據。智能模式基于人工智能算法。只需輸入網(wǎng)址即可智能識別列表數據、表格數據和分頁(yè)按鈕。無(wú)需配置任何采集規則，一鍵式采集。自動(dòng)識別列表、表格、鏈接、圖片、價(jià)格等。
　　流程圖模式：只需要根據軟件提示點(diǎn)擊頁(yè)面，完全符合瀏覽網(wǎng)頁(yè)的思維方式。復雜的采集規則可以通過(guò)幾個(gè)簡(jiǎn)單的步驟生成。結合智能識別算法，任何網(wǎng)頁(yè)的數據都可以輕松采集。
　　可以模擬操作：輸入文本、點(diǎn)擊、移動(dòng)鼠標??、下拉框、滾動(dòng)頁(yè)面、等待加載、循環(huán)操作和判斷條件等。
　　謝謝大家的支持！
　　▍4.ScreenToGif
　　ScreenToGif是一款非常好用的錄屏、拍照、畫(huà)板和GIF編輯軟件，開(kāi)源免費，功能強大實(shí)用。
　　
　　ScreenToGif 整體操作非常流暢，界面也非常簡(jiǎn)潔，編輯功能也非常豐富。
　　▍5.羅蘭
　　Rolan 是一款輕量級的桌面快速啟動(dòng)工具，可以讓你快速啟動(dòng)各種軟件和命令。常用軟件和群組可以自定義管理，提高您的電腦操作效率和辦公效率。
　　Launchpad可以靈活設置屬性和組結構，自由存儲內容；launchpad支持兩級分組；快捷方式可以存儲在組中；指定文件夾內容實(shí)時(shí)顯示，無(wú)需手動(dòng)進(jìn)入文件夾；還有瀏覽器書(shū)簽、筆記、剪貼板歷史、快捷鍵綁定等等。
　　今天的分享到此結束。感謝您在這里看到它。如果你喜歡它，記得喜歡它，觀(guān)看它，并與你的朋友分享。
　　▍軟件獲取
　　##老規矩，文章點(diǎn)擊右下角“關(guān)注”，點(diǎn)擊底部“小光gào”，即可獲取資源。你在看，加上雞腿讓我更有動(dòng)力分享##
　　解決方案:常見(jiàn)的6個(gè)東莞網(wǎng)站優(yōu)化工具（90%站長(cháng)都用過(guò)）
　　無(wú)論你做什么，你都可以使用一些工具，用更少的資源實(shí)現更多的目標。東莞網(wǎng)站優(yōu)化是一樣的，通過(guò)使用一些網(wǎng)站優(yōu)化工具，可以更好更快地增加網(wǎng)站權重和關(guān)鍵詞排名。今天，有素網(wǎng)會(huì )給大家介紹6個(gè)常用的東莞網(wǎng)站優(yōu)化工具，相信90%的網(wǎng)站主都用過(guò)。
　　東莞常見(jiàn)的6網(wǎng)站優(yōu)化工具如下：
　　1.百度站長(cháng)工具。百度搜索資源平臺又稱(chēng)URL：，如果是百度SEO優(yōu)化，這個(gè)網(wǎng)站一定要用，通過(guò)這個(gè)網(wǎng)站，可以了解百度的實(shí)時(shí)算法更新動(dòng)態(tài)，提交百度地圖，模擬網(wǎng)站抓取，網(wǎng)站顯示和點(diǎn)擊等，非常重要。
　　
　　2. 網(wǎng)站管理員之家。通常也稱(chēng)為站長(cháng)工具，URL：，這種網(wǎng)站SEO工具非常多，可以查詢(xún)網(wǎng)站的權重、域名年限、IP、關(guān)鍵詞排名、友情鏈接檢測和網(wǎng)站速度測量等功能，這種網(wǎng)站相信90%以上的站長(cháng)都知道。
　　3. 愛(ài)站網(wǎng)絡(luò )。URL：這個(gè)網(wǎng)站類(lèi)似于“網(wǎng)站管理員之家”，兩者的許多功能都是相同的。
　　4. 搜外網(wǎng)絡(luò )。網(wǎng)站：搜外是一家專(zhuān)業(yè)的SEO培訓和交流網(wǎng)站，在這里您可以找到許多從事SEO的網(wǎng)站管理員。
　　
　　5、5118。URL：這個(gè)網(wǎng)站也非常強大，關(guān)鍵詞挖掘、網(wǎng)站權重查詢(xún)、反向鏈接查詢(xún)、內容查找等，都可以通過(guò)這個(gè)網(wǎng)站進(jìn)行操作。
　　6.橘子搜索引擎優(yōu)化工具。URL：這個(gè)網(wǎng)站比較大的特點(diǎn)是查詢(xún)網(wǎng)站的外部鏈接，這個(gè)網(wǎng)站還可以查詢(xún)域名的歷史記錄、搜索舊域名、網(wǎng)站標題主題檢測等，對外部鏈接有很好的參考數據。
　　以上就是“東莞6種常見(jiàn)的網(wǎng)站優(yōu)化工具（90%的網(wǎng)站管理員都用過(guò)）”的介紹，感謝您的閱讀。查看全部

　　經(jīng)驗:這5個(gè)應用你要全有，絕對是老司機無(wú)疑！
　　大家好，我是小昊~
　　今天給大家分享5款非常好用的電腦軟件，可以解決很多問(wèn)題，直接上干貨！
　　▍1. 格式工廠(chǎng)
　　格式工廠(chǎng)是一款辦公工具，可以轉換幾乎所有類(lèi)型的多媒體格式，以及文件壓縮、圖像處理、視頻文件修復、文件備份等功能。
　　▍2.Keepass
　　KeePass 是一款功能強大的密碼管理軟件。它可以幫助您記住電子郵件、主頁(yè)FTP、Internet、論壇等的用戶(hù)名和密碼，解決您忘記密碼的煩惱，節省時(shí)間。
　　KeePass 將密碼存儲在高度加密的數據庫中，其他人和其他應用程序無(wú)法識別。
　　

　　▍3.優(yōu)采云采集器
　　優(yōu)采云采集器由前 Google 技術(shù)團隊打造?；谌斯ぶ悄芗夹g(shù)，只需輸入網(wǎng)址即可自動(dòng)識別采集的內容。
　　它可以智能識別數據。智能模式基于人工智能算法。只需輸入網(wǎng)址即可智能識別列表數據、表格數據和分頁(yè)按鈕。無(wú)需配置任何采集規則，一鍵式采集。自動(dòng)識別列表、表格、鏈接、圖片、價(jià)格等。
　　流程圖模式：只需要根據軟件提示點(diǎn)擊頁(yè)面，完全符合瀏覽網(wǎng)頁(yè)的思維方式。復雜的采集規則可以通過(guò)幾個(gè)簡(jiǎn)單的步驟生成。結合智能識別算法，任何網(wǎng)頁(yè)的數據都可以輕松采集。
　　可以模擬操作：輸入文本、點(diǎn)擊、移動(dòng)鼠標??、下拉框、滾動(dòng)頁(yè)面、等待加載、循環(huán)操作和判斷條件等。
　　謝謝大家的支持！
　　▍4.ScreenToGif
　　ScreenToGif是一款非常好用的錄屏、拍照、畫(huà)板和GIF編輯軟件，開(kāi)源免費，功能強大實(shí)用。
　　

　　ScreenToGif 整體操作非常流暢，界面也非常簡(jiǎn)潔，編輯功能也非常豐富。
　　▍5.羅蘭
　　Rolan 是一款輕量級的桌面快速啟動(dòng)工具，可以讓你快速啟動(dòng)各種軟件和命令。常用軟件和群組可以自定義管理，提高您的電腦操作效率和辦公效率。
　　Launchpad可以靈活設置屬性和組結構，自由存儲內容；launchpad支持兩級分組；快捷方式可以存儲在組中；指定文件夾內容實(shí)時(shí)顯示，無(wú)需手動(dòng)進(jìn)入文件夾；還有瀏覽器書(shū)簽、筆記、剪貼板歷史、快捷鍵綁定等等。
　　今天的分享到此結束。感謝您在這里看到它。如果你喜歡它，記得喜歡它，觀(guān)看它，并與你的朋友分享。
　　▍軟件獲取
　　##老規矩，文章點(diǎn)擊右下角“關(guān)注”，點(diǎn)擊底部“小光gào”，即可獲取資源。你在看，加上雞腿讓我更有動(dòng)力分享##
　　解決方案:常見(jiàn)的6個(gè)東莞網(wǎng)站優(yōu)化工具（90%站長(cháng)都用過(guò)）
　　無(wú)論你做什么，你都可以使用一些工具，用更少的資源實(shí)現更多的目標。東莞網(wǎng)站優(yōu)化是一樣的，通過(guò)使用一些網(wǎng)站優(yōu)化工具，可以更好更快地增加網(wǎng)站權重和關(guān)鍵詞排名。今天，有素網(wǎng)會(huì )給大家介紹6個(gè)常用的東莞網(wǎng)站優(yōu)化工具，相信90%的網(wǎng)站主都用過(guò)。
　　東莞常見(jiàn)的6網(wǎng)站優(yōu)化工具如下：
　　1.百度站長(cháng)工具。百度搜索資源平臺又稱(chēng)URL：，如果是百度SEO優(yōu)化，這個(gè)網(wǎng)站一定要用，通過(guò)這個(gè)網(wǎng)站，可以了解百度的實(shí)時(shí)算法更新動(dòng)態(tài)，提交百度地圖，模擬網(wǎng)站抓取，網(wǎng)站顯示和點(diǎn)擊等，非常重要。
　　

　　2. 網(wǎng)站管理員之家。通常也稱(chēng)為站長(cháng)工具，URL：，這種網(wǎng)站SEO工具非常多，可以查詢(xún)網(wǎng)站的權重、域名年限、IP、關(guān)鍵詞排名、友情鏈接檢測和網(wǎng)站速度測量等功能，這種網(wǎng)站相信90%以上的站長(cháng)都知道。
　　3. 愛(ài)站網(wǎng)絡(luò )。URL：這個(gè)網(wǎng)站類(lèi)似于“網(wǎng)站管理員之家”，兩者的許多功能都是相同的。
　　4. 搜外網(wǎng)絡(luò )。網(wǎng)站：搜外是一家專(zhuān)業(yè)的SEO培訓和交流網(wǎng)站，在這里您可以找到許多從事SEO的網(wǎng)站管理員。
　　

　　5、5118。URL：這個(gè)網(wǎng)站也非常強大，關(guān)鍵詞挖掘、網(wǎng)站權重查詢(xún)、反向鏈接查詢(xún)、內容查找等，都可以通過(guò)這個(gè)網(wǎng)站進(jìn)行操作。
　　6.橘子搜索引擎優(yōu)化工具。URL：這個(gè)網(wǎng)站比較大的特點(diǎn)是查詢(xún)網(wǎng)站的外部鏈接，這個(gè)網(wǎng)站還可以查詢(xún)域名的歷史記錄、搜索舊域名、網(wǎng)站標題主題檢測等，對外部鏈接有很好的參考數據。
　　以上就是“東莞6種常見(jiàn)的網(wǎng)站優(yōu)化工具（90%的網(wǎng)站管理員都用過(guò)）”的介紹，感謝您的閱讀。

解決方案:無(wú)人系統故障知識圖譜的構建方法及應用

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 244 次瀏覽 ? 2022-10-14 15:13 ? 來(lái)自相關(guān)話(huà)題

　　解決方案:無(wú)人系統故障知識圖譜的構建方法及應用
　　于凡坤1、2、胡超芳1、羅曉亮2、梁秀冰2
　　(1. 天津大學(xué)電氣自動(dòng)化與信息工程學(xué)院, 天津 300072; 2. 中國人民解放軍軍事科學(xué)院國防科技創(chuàng )新研究院, 北京 100071)
　　摘要：無(wú)人系統產(chǎn)生的海量數據存儲分散、缺乏聯(lián)系，信息共享困難，難以滿(mǎn)足無(wú)人系統日益復雜和集成化的維護保障需求；知識圖譜技術(shù)可以將復雜的數據信息提取成結構知識，建立數據之間的聯(lián)系，增強知識之間的語(yǔ)義信息；以無(wú)人系統的故障數據為研究對象，利用知識圖譜技術(shù)進(jìn)行知識抽取、知識融合和知識處理，形成一系列相互關(guān)聯(lián)的知識，為構建無(wú)人系統領(lǐng)域的故障知識圖譜提供了一種可行的方法；知識圖譜技術(shù)利用海量數據建立的知識庫，能有效整合分散的數據信息，提高專(zhuān)業(yè)領(lǐng)域知識的利用率和使用價(jià)值，具有重要的軍事意義。應用前景。
　　關(guān)鍵詞：知識圖譜；無(wú)人系統；維護支持；自然語(yǔ)言處理
　　0 前言
　　近年來(lái)，各軍事強國高度重視并積極推進(jìn)無(wú)人系統及相關(guān)領(lǐng)域的研究，產(chǎn)生了顛覆性的應用技術(shù)[1]。我國民用無(wú)人機在全球的市場(chǎng)占有率高達70%。以大疆無(wú)人機為代表的民用無(wú)人機技術(shù)一直走在世界前列[2]。差距很大，軍用無(wú)人機是我國未來(lái)武器裝備發(fā)展的重點(diǎn)方向。
　　隨著(zhù)信息化、智能化的深入融合發(fā)展，無(wú)人系統在執行任務(wù)的過(guò)程中積累了大量數據，國產(chǎn)某型飛機每小時(shí)產(chǎn)生的數據量可高達20國標 [3]。無(wú)人系統產(chǎn)生的海量數據大多采用故障樹(shù)分析法來(lái)定性分析故障原因。故障樹(shù)邏輯性強，能有效避免初始故障[4-5]。王進(jìn)新[6]等。通過(guò)貝葉斯網(wǎng)絡(luò )變換，提出了一種基于貝葉斯的故障診斷方法，有效解決了柴油機潤滑系統多故障的解耦診斷問(wèn)題；楚景春[7]等。概率神經(jīng)網(wǎng)絡(luò )構建故障診斷模型，能有效提高風(fēng)電機組轉速故障檢測的準確性。故障樹(shù)分析方法可以有效理解系統故障的原因，但故障樹(shù)模型中的知識元素缺乏語(yǔ)義聯(lián)系，無(wú)法窮盡所有故障原因，難以滿(mǎn)足無(wú)人系統的維護保障需求。
　　人工智能已經(jīng)滲透到各行各業(yè)，迅速而深刻地改變著(zhù)我們的日常生活。2017年7月，《新一代人工智能發(fā)展規劃》發(fā)布，人工智能逐漸成為國家發(fā)展的新興戰略需求，大數據、人機協(xié)同、群體智能成為人工智能發(fā)展的重點(diǎn)。隨著(zhù)大數據時(shí)代的到來(lái)，數據量呈指數級增長(cháng)，海量數據的出現將引發(fā)數據處理、數據存儲、數據查詢(xún)、數據集成等方面的技術(shù)變革[8-10]，將導致無(wú)人系統的維護和保障模式。新的挑戰和機遇已經(jīng)到來(lái)?，F在，無(wú)人系統產(chǎn)生的數據采用故障樹(shù)模型分析故障原因，可以在一定程度上緩解維修保障問(wèn)題。隨著(zhù)數據量的爆炸式增長(cháng)，使用故障樹(shù)模型來(lái)分析無(wú)人系統的故障原因將導致海量數據的巨大浪費和知識的低利用率。如何有效利用無(wú)人系統的海量數據亟待解決。
　　針對上述情況，為有效利用無(wú)人系統產(chǎn)生的海量數據，滿(mǎn)足現代無(wú)人系統的維護保障需求?？紤]到數據的海量、復雜性和語(yǔ)義，本文利用知識圖譜技術(shù)對無(wú)人系統的故障數據進(jìn)行提取、融合和處理，形成一系列相互關(guān)聯(lián)的知識。人類(lèi)系統領(lǐng)域的故障知識圖譜提供了一種可行的方法。
　　1 知識圖譜概述與架構 1.1 知識圖譜定義
　　知識圖譜（Knowledge graph）是 Google 于 2012 年 5 月 17 日正式提出的，作為提高其搜索質(zhì)量的知識庫。知識圖譜的本質(zhì)是一個(gè)語(yǔ)義網(wǎng)絡(luò )，其節點(diǎn)代表實(shí)體或概念，邊代表實(shí)體或概念之間的各種語(yǔ)義關(guān)系。知識圖譜以結構化三元組的形式存儲現實(shí)世界中的實(shí)體（概念）以及它??們之間的關(guān)系，即 G = ，Head 表示頭部實(shí)體，Relation 表示關(guān)系集，Tail 表示尾部實(shí)體，其中，一些“關(guān)系”?！币卜Q(chēng)為“屬性”，相應地，尾部實(shí)體稱(chēng)為屬性值[11]。例如，在無(wú)人系統中，要感知無(wú)人機的方向，
　　圖1 無(wú)人系統知識圖譜示意圖
　　1.2 知識圖譜的發(fā)展
　　知識圖譜已成為學(xué)術(shù)界和工業(yè)界的研究熱點(diǎn)。它最初用于提高搜索引擎的準確率，已廣泛應用于機器翻譯[12]、智能問(wèn)答[13]、推薦系統[14-15]等。我國知識圖譜雖然起步較晚，但研究成果比較豐富。在學(xué)術(shù)界，中文知識圖譜研究平臺zhishi.me、開(kāi)放知識圖譜OpenKG、復旦大學(xué)知識工廠(chǎng)等，不僅知識來(lái)源廣泛，還具備文本理解和智能等功能。搜索，有利于促進(jìn)知識圖譜的普及和應用。. 在工業(yè)界，為了提高搜索質(zhì)量，搜狗、百度先后建立了自己的知識庫“知識立方”和“知心”，并引入語(yǔ)義理解技術(shù)，將搜索結果精準傳遞給用戶(hù)。隨著(zhù)通用知識圖譜的快速發(fā)展，很多公司都建立了自己的知識庫，比如IBM的Watson Health、阿里的健康百科“一智錄”等，可見(jiàn)知識圖譜在特殊領(lǐng)域也發(fā)揮著(zhù)重要作用。
　　目前國內外利用無(wú)人系統故障數據構建知識圖譜的研究較少，但在醫療、旅游、社交網(wǎng)絡(luò )等垂直領(lǐng)域的知識圖譜研究較多。侯夢(mèng)偉[16]等深入分析了醫學(xué)知識表示、醫學(xué)知識抽取、醫學(xué)知識融合、醫學(xué)知識推理，總結了構建醫學(xué)知識圖譜的關(guān)鍵技術(shù)和挑戰；徐璞[17]改進(jìn)了屬性知識擴展和屬性值。融合方法提高了知識圖譜構建的質(zhì)量；程文亮[18]使用最大熵模型，使得關(guān)系抽取的準確率平均高達85%，構建了企業(yè)間的高質(zhì)量知識圖譜。
　　圖2 無(wú)人系統數據采集及維護保障示意圖
　　1.3 知識圖譜架構
　　知識圖譜一般包括邏輯結構和技術(shù)（系統）框架。本文從無(wú)人系統領(lǐng)域故障知識圖譜的構建入手，詳細介紹了技術(shù)框架。
　　1.3.1 知識圖譜的邏輯結構
　　知識圖譜在邏輯上可以分為數據層和模式層。模式層通常由本體庫管理。本體是結構化知識庫的概念模板，如“無(wú)人系統故障”、“飛控系統故障”等概念實(shí)體。本體庫形成的知識庫不僅具有很強的層次結構。，且冗余度較小，可見(jiàn)schema層是知識圖譜的核心。數據層存儲具體的數據信息，由一系列事實(shí)組成，如無(wú)人系統的常見(jiàn)故障信息，知識以事實(shí)為單位存儲。在業(yè)界，Neo4j 圖數據庫主要用于存儲數據。
　　1.3.2 知識圖譜的系統（技術(shù)）架構
　　隨著(zhù)無(wú)人系統智能化的快速發(fā)展，傳統的數據處理技術(shù)難以理解數據之間的隱含關(guān)系和規則，信息共享困難，無(wú)人系統產(chǎn)生的海量數據無(wú)法得到有效利用[3]。知識圖譜技術(shù)利用自然語(yǔ)言處理、數據挖掘和機器學(xué)習技術(shù)的方法和原理，使計算機能夠更好地理解數據。無(wú)人系統在飛行任務(wù)和停機維護過(guò)程中積累了大量結構化數據（狀態(tài)監控數據）、半結構化數據（日志文件）和非結構化數據（圖片、文檔、視頻），知識圖譜技術(shù)可以有效利用這些數據構建了一個(gè)高質(zhì)量的知識庫。
　　圖3 無(wú)人系統知識圖譜架構
　　從圖3可以看出，無(wú)人系統知識圖譜主要由知識抽取、知識融合和知識處理三部分組成。無(wú)人系統知識抽取，通過(guò)無(wú)人系統在飛行過(guò)程中狀態(tài)參數和運動(dòng)參數的結構化、半結構化或非結構化信息提取實(shí)體、屬性及其關(guān)系，并將這些信息以三元組的形式存儲到知識庫中。無(wú)人系統知識融合通過(guò)實(shí)體消歧、實(shí)體對齊等方法對無(wú)人系統知識庫的冗余和錯誤信息進(jìn)行整合和消歧，從而提高無(wú)人系統知識庫的質(zhì)量。無(wú)人系統知識處理，借助知識推理，推斷缺失的事實(shí)，
　　2 無(wú)人系統故障知識圖譜關(guān)鍵技術(shù)
　　構建無(wú)人系統知識圖譜的方式主要有兩種：自下而上和自上而下。自底向上是通過(guò)知識抽取獲取實(shí)體、屬性及其關(guān)系，通過(guò)數據驅動(dòng)自動(dòng)化構建本體，進(jìn)而構建知識圖譜；自上而下是先構建頂層本體和數據模式，然后通過(guò)實(shí)體來(lái)豐富它們。形成知識庫。目前知識圖譜的構建大多采用自下而上的方法，但無(wú)人系統故障的知識圖譜是領(lǐng)域知識圖譜，涉及的知識范圍較窄。本文采用自下而上和自上而下相結合的方法構建無(wú)人系統。知識圖譜。
　　2.1 知識抽取
　　知識抽取是從開(kāi)放的無(wú)人系統數據（半結構化數據、非結構化數據）中自動(dòng)或手動(dòng)抽取知識單元。知識單元包括實(shí)體、關(guān)系及其屬性。顯然，知識抽取由實(shí)體抽取組成，它由關(guān)系抽取和屬性抽取三部分組成。實(shí)體提取可以識別專(zhuān)有名詞和特殊詞并對其進(jìn)行分類(lèi)。關(guān)系抽取是在網(wǎng)絡(luò )化知識結構中的許多離散實(shí)體之間建立語(yǔ)義聯(lián)系。實(shí)體的屬性是實(shí)體之間的一種特殊關(guān)系。郭建義[19]等利用條件隨機場(chǎng)和支持向量機的方法提取景區實(shí)體屬性相當于實(shí)體關(guān)系提取，所以屬性抽取的問(wèn)題可以轉化為關(guān)系抽取。問(wèn)題。無(wú)人系統數據資源包括結構化數據、半結構化數據和非結構化數據。對于不同類(lèi)型的數據，采用不同的方法將其轉換為三元組結構。知識抽取過(guò)程如圖4所示。
　　圖4 無(wú)人系統知識抽取過(guò)程
　　對于無(wú)人系統的結構化數據（狀態(tài)監測數據），由于存儲在數據庫中的數據結構強，可以直接通過(guò)D2R映射自動(dòng)提取，轉化為三元知識單元。對于半結構化數據（百科知識等），可以設計專(zhuān)門(mén)的包裝器進(jìn)行針對性的提取。例如，王輝[20]等CN-DBpedia構建的特殊包裝器可以實(shí)現高質(zhì)量的網(wǎng)絡(luò )知識提取。非結構化數據是以文本、圖像、視頻等文檔形式存在的數據，是知識提取的難點(diǎn)。從非結構化數據中提取信息主要有三種方法?；谝巹t的方法需要領(lǐng)域專(zhuān)家制定具體的規則，不僅耗費大量人力，但也具有較差的魯棒性?；跈C器學(xué)習的方法需要對語(yǔ)料庫信息進(jìn)行標注來(lái)訓練模型，存在標注的語(yǔ)料庫質(zhì)量參差不齊、需要人工提取特征等缺點(diǎn)。目前，半監督學(xué)習方法主要用于從小樣本中學(xué)習，在減少人力資源的同時(shí)改進(jìn)信息。萃取質(zhì)量。近年來(lái)，深度學(xué)習的興起為高質(zhì)量的信息提取提供了更多途徑。BILSTM-CRF是信息提取中的主流深度學(xué)習模型。L. Luo [21] 在生物醫學(xué)領(lǐng)域使用了 BILSTM-CRF 模型。信息抽取使得實(shí)體識別和實(shí)體關(guān)系識別的準確率分別高達91.14%和92.57%，模型在其他領(lǐng)域也取得了不錯的效果。
　　2.2 知識融合
　　通過(guò)知識抽取得到的三元知識單元具有多樣性、冗余性、歧義性甚至錯誤的特點(diǎn)[22]。例如，“無(wú)人機系統”和“無(wú)人機系統”可能都指向同一個(gè)實(shí)體。知識融合融合來(lái)自不同數據源的多源異構、語(yǔ)義多樣的無(wú)人系統知識，將異構數據、沖突檢測、消歧、處理等集成在同一個(gè)框架規范下，從而對知識進(jìn)行正確的判斷，去除粗糙和提煉精華，構建優(yōu)質(zhì)知識庫[23]。
　　2.2.1 實(shí)體消歧
　　
　　實(shí)體消歧旨在解決實(shí)體引用與現實(shí)世界實(shí)體之間的歧義，實(shí)體消歧的難點(diǎn)主要體現在兩個(gè)方面[24]：
　　1）實(shí)體引用的多樣性：同一個(gè)實(shí)體在文中會(huì )有不同的引用；例如，不同的實(shí)體指的是“飛行控制”、“飛行控制系統”、“飛行控制系統”等，它們可能都對應于知識庫中的“飛行控制系統”。無(wú)人機飛控”同一實(shí)體。
　　2）實(shí)體引用的歧義：同一個(gè)實(shí)體引用可以在不同的上下文中引用不同的實(shí)體；例如，同一實(shí)體引用“大疆”可能對應知識庫中的“大疆無(wú)人機”和“深圳大疆創(chuàng )新科技”。有限公司”和其他實(shí)體。
　　實(shí)體消歧主要包括基于聚類(lèi)的實(shí)體消歧方法和基于實(shí)體鏈接的實(shí)體消歧方法。流程示意圖如圖 5 所示。
　　圖5 實(shí)體消歧示意圖
　　從圖5可以看出，在沒(méi)有目標實(shí)體的情況下，大部分實(shí)體消歧方法都是基于聚類(lèi)的。聚類(lèi)方法是根據實(shí)體引用的特征（上下文中的詞、實(shí)體屬性等）計算實(shí)體引用之間的相似度，并通過(guò)聚類(lèi)算法對實(shí)體引用進(jìn)行聚類(lèi)。李光義[25]等基于向量空間的相似性，利用層次聚合聚類(lèi)（HAC）算法對未鏈接到知識庫的文檔進(jìn)行聚類(lèi)，實(shí)現歧義消解，F值高達88.35 %?；趯?shí)體鏈接的實(shí)體消歧通過(guò)計算實(shí)體引用與目標實(shí)體之間的相似度，將實(shí)體引用鏈接到與知識庫中的實(shí)體引用相似度最高的目標實(shí)體。但是，當知識庫中沒(méi)有實(shí)體引用對應的目標實(shí)體時(shí)，實(shí)體引用會(huì )鏈接到空實(shí)體。對于無(wú)人系統生成的數據，對于通過(guò)信息抽取得到的實(shí)體引用，可以先將部分實(shí)體引用鏈接到歷史知識庫，其余未鏈接的實(shí)體引用可以通過(guò)基于聚類(lèi)的方法進(jìn)行消歧。實(shí)體引用鏈接到空實(shí)體。對于無(wú)人系統生成的數據，對于通過(guò)信息抽取得到的實(shí)體引用，可以先將部分實(shí)體引用鏈接到歷史知識庫，其余未鏈接的實(shí)體引用可以通過(guò)基于聚類(lèi)的方法進(jìn)行消歧。實(shí)體引用鏈接到空實(shí)體。對于無(wú)人系統生成的數據，對于通過(guò)信息抽取得到的實(shí)體引用，可以先將部分實(shí)體引用鏈接到歷史知識庫，其余未鏈接的實(shí)體引用可以通過(guò)基于聚類(lèi)的方法進(jìn)行消歧。
　　2.2.2 實(shí)體對齊
　　實(shí)體對齊，也稱(chēng)為實(shí)體匹配，旨在解決相同或不同知識庫中的兩個(gè)或多個(gè)實(shí)體在現實(shí)世界中是否為同一實(shí)體的問(wèn)題。實(shí)體沖突、指向不明確等不一致性問(wèn)題，高質(zhì)量鏈接多個(gè)現有知識庫，從頂層創(chuàng )建大規模統一知識庫[26-27]。
　　無(wú)人系統產(chǎn)生的海量數據和通過(guò)知識抽取得到的實(shí)體也需要進(jìn)行實(shí)體對齊，以提高無(wú)人系統知識庫的質(zhì)量。實(shí)體對齊算法是實(shí)體對齊技術(shù)的核心，主要包括成對實(shí)體對齊和協(xié)同（集體）實(shí)體對齊。Pairwise entity alignment主要通過(guò)提取實(shí)體及其屬性特征并計算其相似度來(lái)實(shí)現實(shí)體對齊。相似度計算方法主要基于傳統的概率模型和機器學(xué)習方法；協(xié)作實(shí)體對齊是基于實(shí)體對齊的。在計算相似度時(shí)，會(huì )考慮與實(shí)體相關(guān)的其他實(shí)體屬性并賦予權重 [16, 26]。
　　2.3 知識處理
　　通過(guò)知識抽取、知識融合等技術(shù)，可以從無(wú)人系統的原創(chuàng )數據中得到基本的事實(shí)表達，通過(guò)特殊的知識處理，事實(shí)可以形成高質(zhì)量的知識。知識處理主要包括以下四個(gè)方面：本體構建、知識推理、質(zhì)量評估和知識更新。
　　1）本體構建：無(wú)人系統故障知識圖譜涉及的知識范圍較窄，知識圖譜采用自下而上和自上而下相結合的方法構建。本體是標準化共享概念并正式描述對象、屬性及其關(guān)系[28]。首先確定無(wú)人系統故障知識圖譜的核心概念（“無(wú)人系統故障”、“飛控系統故障”、“動(dòng)力系統故障”等），并以數據驅動(dòng)的方式自動(dòng)構建提取實(shí)體的本體方法。步驟：并行關(guān)系相似度計算、實(shí)體從屬關(guān)系提取和本體生成[29]。
　　2）知識推理：知識推理是從現有無(wú)人系統知識庫中已有的實(shí)體關(guān)系出發(fā)，在實(shí)體之間建立新的聯(lián)系，擴展和豐富知識庫的知識網(wǎng)絡(luò )[30]。知識推理主要包括基于邏輯的推理和基于圖的推理，可以從已有的知識中發(fā)現新的知識。如果在無(wú)人系統知識庫中已知（陀螺儀，測量，飛行器方向），（飛行器方向，安全殼，偏航角）和（偏航角，異常，角度），則可以推斷陀螺儀有故障。
　　3）質(zhì)量評估：無(wú)人系統領(lǐng)域通過(guò)知識抽取獲得的知識元素可能存在誤差，無(wú)法充分保證通過(guò)知識推理獲得的新知識的質(zhì)量。因此，在將其添加到知識庫之前，需要進(jìn)行質(zhì)量評估過(guò)程。，質(zhì)量評估是保證數據的重要手段，并貫穿知識圖譜的整個(gè)生命周期[30-31]。通過(guò)高置信度的數據篩選，可以進(jìn)一步保證無(wú)人系統知識庫中的數據。
　　4）知識更新：信息隨時(shí)間的積累是一個(gè)動(dòng)態(tài)的過(guò)程，無(wú)人系統的知識圖譜也需要迭代更新。知識庫的更新包括模式層的更新和數據層的更新；模式層的更新是指概念層的更新。知識庫的概念層增加一個(gè)新概念后，需要更新概念的屬性和關(guān)系；更新主要是添加或更新實(shí)體、關(guān)系和屬性值[30, 32]。
　　3 知識圖譜的軍事應用
　　知識圖譜可以提供管理和利用海量異構數據的有效途徑，使海量數據能夠被普遍鏈接和良好表達，具有廣泛的軍事應用。
　　3.1 智能搜索
　　傳統搜索基于關(guān)鍵詞匹配索引，搜索引擎無(wú)法理解用戶(hù)的真實(shí)語(yǔ)義，檢索效率低[33]。知識圖譜本質(zhì)上是實(shí)體之間關(guān)系的語(yǔ)義網(wǎng)絡(luò )，可以改變現有的信息檢索方式，通過(guò)推理實(shí)現概念檢索，以圖形化的方式展示結構化知識[26, 30]，提高檢索準確率，知識圖譜中有智能搜索的天然優(yōu)勢。知識圖譜可應用于智能導彈的目標跟蹤。如圖6所示，預警機受到周?chē)黝?lèi)飛機的保護，預警機的目標打擊往往受到周?chē)w機或飛機發(fā)出的信號的干擾，
　　圖 6 基于知識圖譜的智能導彈
　　3.2 軍事情報問(wèn)答
　　搜索引擎一般可以滿(mǎn)足人們的信息獲取需求，但隨著(zhù)互聯(lián)網(wǎng)信息的爆炸式增長(cháng)，搜索結果過(guò)多，用戶(hù)難以快速準確地獲取所需信息。能夠更好地滿(mǎn)足用戶(hù)信息需求的問(wèn)答系統受到青睞[34-35]。對于問(wèn)題的輸入，問(wèn)答系統的輸出是簡(jiǎn)潔的答案或可能答案的列表。在日益復雜的軍事問(wèn)題上，問(wèn)答系統能夠有效提高軍事決策效率，對作戰決策具有重要意義。圖 7 顯示了該問(wèn)答系統在軍用飛機上的應用，可以得到準確、簡(jiǎn)潔的信息結果。
　　圖 7 軍事問(wèn)答系統
　　3.3 輔助決策
　　由于計算能力、海量數據和核心算法的出現，基于知識圖譜的輔助決策技術(shù)在醫療、金融、智慧城市交通等領(lǐng)域有著(zhù)廣泛的應用。例如，IBM的Watson Health利用海量數據形成的知識庫，利用深度學(xué)習算法，在腫瘤和癌癥領(lǐng)域做出決策判斷，供醫療專(zhuān)業(yè)人士參考。知識圖譜通過(guò)對數據、知識等信息的分析統計，發(fā)現數據與信息的關(guān)聯(lián)性并挖掘規律，根據歷史知識庫的相關(guān)經(jīng)驗進(jìn)行預測，實(shí)現智能輔助決策，并能可用于未來(lái)的軍事應用。
　　4。結論
　　本文引入知識圖譜的概念知識，對無(wú)人系統海量數據進(jìn)行知識抽取、知識融合和知識處理，形成高質(zhì)量的三元知識，為無(wú)人系統領(lǐng)域的故障知識圖譜構建提供了一種可行的方法。 . 方法。利用海量數據構建的知識圖譜具有智能搜索、系統問(wèn)答、輔助決策等功能，具有重要的軍事應用前景。
　　參考：
　　[1] 李磊，徐越，姜奇，等。2018年國外軍用無(wú)人機裝備與技術(shù)發(fā)展概況[J]. 戰術(shù)導彈技術(shù)，2019（2）：1-11。
　　[2] 何道靖，杜曉，喬銀榮，等．無(wú)人機信息安全研究綜述[J]．計算機學(xué)報, 2019, 42(5): 1076-1094.
　　[3] 景波，焦曉軒，黃一峰。飛機PHM大數據分析與人工智能應用[J]. 空軍工程大學(xué)學(xué)報（自然科學(xué)版）, 2019, 20(1): 46-54.
　　[4] Dugan JB, Sullivan KJ, Coppit D. 開(kāi)發(fā)用于動(dòng)態(tài)故障樹(shù)分析的低成本高質(zhì)量軟件工具[J]. IEEE Transactions on Reliability, 2000, 49(1): 49-59。
　　[5] Enno R，Marielle S. 故障樹(shù)分析：建模、分析和工具方面最新技術(shù)的調查[J]。計算機科學(xué)評論，2015（15/16）：29-62。
　　[6] 王進(jìn)新，王忠偉，馬秀珍，等?；谪惾~斯網(wǎng)絡(luò )的柴油機潤滑系統多重故障診斷[J]. 控制與決策, 2019, 34(6): 1187-1194。
　　[7] Chu Jingchun, Wang Fei, Wang Yang, et al. Wind turbine fault diagnosis method based on fault tree and probabilistic neural network [J]. Chinese Journal of Solar Energy, 2018, 39(10): 2901-2907.
　　
　　[8] Ahmed O, et al. Big data technologies: a survey[J]. Journal of King Saud University-Computer and Information Sciences, 2018, 30(4): 431-448.
　　[9] Gema BO, Jung JJ, David C. Social big data: recent achievements and new challenges[J]. Information Fusion, 2016, 28: 45-59.
　　[10] Martin H. Big data for development: a review of promises and challenges[J]. Development Policy Review, 2016, 34(1): 135-174.
　　[11] Wen Yanan. Visual analysis of international UAV research based on knowledge graph [J]. Journal of Zhengzhou Institute of Aviation Industry Management, 2018, 36(6): 16-25.
　　[12] Roberto N, Paolo P S. BabelNet: the automatic construction, evaluation and application of a wide-coverage multilingual semantic network[J]. Artificial Intelligence, 2012, 193: 217-250.
　　[13] Ruan T, Huang YQ, Liu XL, et al. QAnalysis: a question-answer driven analytic tool on knowledge graphs for leveraging electronic medical records for clinical research[J]. BMC Medical Informatics and Decision Making, 2019, 19( 1): 798-811.
　　[14] Cao ZY, Qiao XH, Jiang S, et al. An efficient knowledge-graph-based web service recommendation algorithm[J]. Symmetry, 2019, 11(3): 392.
　　[15] He M, Wang B, Du X K. HI2Rec: exploring knowledge in heterogeneous information for movie recommendation[J]. IEEE Access, 2019, 7: 30276-30284.
　　[16] Hou Mengwei, Wei Rong, Lu Liang, et al. A review of knowledge graph research and its application in the medical field [J]. Computer Research and Development, 2018, 55(12): 2587-2599.
　　[17] Xu Pu. Research and Implementation of Knowledge Graph Construction Method in Tourism [D]. Beijing: Beijing Institute of Technology, 2016.
　　[18] 程文亮. 中文企業(yè)知識圖譜構建與分析[D]. 上海:華東師范大學(xué), 2016.
　　[19] 郭劍毅，李真，余正濤，等. 領(lǐng)域本體概念實(shí)例、屬性和屬性值的抽取及關(guān)系預測[J]. 南京大學(xué)學(xué)報(自然科學(xué)版),2012, 48(4): 383-389.
　　[20] 王輝，郁波，洪宇，等. 基于知識圖譜的Web信息抽取系統[J]. 計算機工程，2017, 43(6): 118-124.
　　[21] Luo L，Yang Z H，Yang P，et al. An attention-based BiLSTM-CRF approach to document-level chemical named entity recognition[J]. Bioinformatics, 2018, 34(8): 1381-1388.
　　[22] 林海倫，王元卓，賈巖濤，等. 面向網(wǎng)絡(luò )大數據的知識融合方法綜述[J]. 計算機學(xué)報. 2017, 40(1): 1-27.
　　[23] Luna D X， Evgeniy G， Geremy H，et al. From data fusion to knowledge fusion[J]. The VLDB Endowment,2014, 7(10): 881-892.
　　[24] 趙軍，劉康，周光有，等. 開(kāi)放式文本信息抽取[J]. 中文信息學(xué)報，2011, 25(6): 98-110.
　　[25] 李廣一，王厚峰. 基于多步聚類(lèi)的漢語(yǔ)命名實(shí)體識別和歧義消解[J]. 中文信息學(xué)報, 2013, 27(5): 29-34.
　　[26] 徐增林，盛泳潘，賀麗榮，等. 知識圖譜技術(shù)綜述[J]. 電子科技大學(xué)學(xué)報,2016, 45(4): 589-606.
　　[27] 莊嚴，李國良，馮建華. 知識庫實(shí)體對齊技術(shù)綜述[J]. 計算機研究與發(fā)展, 2016, 53(1): 165-192.
　　[28] Gruber T R. A translation approach to portable ontology specifications[J]. Knowledge Acquisition，1993, 5(2): 199-220.
　　[29] 史樹(shù)明. 自動(dòng)和半自動(dòng)知識提取[J]. 中國計算機學(xué)會(huì )通訊, 2013, 9(8): 65-73.
　　[30] 劉嶠，李楊，段宏，等. 知識圖譜構建技術(shù)綜述[J]. 計算機研究與發(fā)展,2016, 53(3): 582-600.
　　[31] 袁凱琦，鄧揚，陳道源，等. 醫學(xué)知識圖譜構建技術(shù)與研究進(jìn)展[J]. 計算機應用研究,2018, 35(7): 1929-1936.
　　[32] 李濤，王次臣，李華康. 知識圖譜的發(fā)展與構建[J]. 南京理工大學(xué)學(xué)報, 2017, 41(1): 22-34.
　　[33] 張騫. 傳統搜索引擎與智能搜索引擎比較研究[D]. 鄭州:鄭州大學(xué), 2012.
　　[34] 毛先領(lǐng)，李曉明. 問(wèn)答系統研究綜述[J]. 計算機科學(xué)與探索, 2012, 6(3): 193-207.
　　[35] 岳世峰，林政，王偉平，等. 智能回復系統研究綜述[J]. 信息安全學(xué)報, 2020, 5(1): 20-34.
　　Construction and Application of Unmanned System Fault Knowledge Graph
　　Yu Fankun1,2 , Hu Chaofang1, Luo Xiaoliang2, Liang Xiubing2
　　(1.School of Electrical and Information Engineering, Tianjin University, Tianjin 300072, China;2.National Innovation Institute of Defense Technology, Academy of Military Sciences PLA China, Beijing 100071, China)
　　Abstract: The massive data generated by unmanned systems is scattered and lacks in connection, and information sharing is difficult。 It is difficult to meet the maintenance support requirements of unmanned systems with increasing complexity and integration。 Knowledge graph technology can extract complex data information into structured knowledge, establish connections between data, and enhance semantic information between knowledge。 Taking the fault data as the research object, knowledge extraction, knowledge fusion and knowledge processing are carried out by using knowledge graph technology to form a series of interrelated knowledge, which provides a feasible way to construct fault knowledge graph in unmanned system domain。
　　The knowledge base, which is established by the knowledge graph technology using tremendous data, is capable of integrating scattered data and information。 It can improve the utilization rate and usage value of knowledges in special fields。 Consequently, it has significant prospect in military。
　　Keywords:knowledge graph; unmanned systems; maintenance support; natural language processing
　　收稿日期：2020-02-23；修回日期：2020-04-10。
　　基金項目：國家自然科學(xué)基金(61773279)；天津市科技計劃項目(19YFHBQY00040)。
　　作者簡(jiǎn)介：喻凡坤(1995-)，男，湖北鄂州人，碩士研究生，主要從事知識圖譜構建方向的研究。
　　解決方案:[seo網(wǎng)站排名優(yōu)化軟件]想要做網(wǎng)絡(luò )優(yōu)化就必須要學(xué)會(huì )這幾種工具
　　【SEO網(wǎng)站排名優(yōu)化軟件】要做網(wǎng)絡(luò )優(yōu)化，這些工具你一定要學(xué)會(huì )
　　眾所周知，目前做任何事情都離不開(kāi)工具。即使是最簡(jiǎn)單的進(jìn)食動(dòng)作也需要筷子或手輔助。同樣的，對于像做網(wǎng)站優(yōu)化這樣的事情，那么各種工具的輔助也是必不可少的。目前網(wǎng)絡(luò )優(yōu)化必須了解的SEO網(wǎng)站排名優(yōu)化軟件有以下幾種。
　　一、網(wǎng)站期刊分析工具
　　
　　這里主要推薦的是新年日記分析工具?？梢酝ㄟ^(guò)這個(gè)工具清楚的了解自己的網(wǎng)站蜘蛛爬取情況，比如蜘蛛是否經(jīng)常爬到一些無(wú)用的頁(yè)面，使用這個(gè)工具，還可以看到蜘蛛返回的HTTP狀態(tài)碼，時(shí)間這些蜘蛛停留在這個(gè)頁(yè)面，它們爬過(guò)的頁(yè)面等等，通過(guò)這個(gè)頁(yè)面，你也可以清楚的了解網(wǎng)站站點(diǎn)是否有異常。
　　二、網(wǎng)站的流量統計工具
　　在使用seo網(wǎng)站排名優(yōu)化軟件的過(guò)程中，網(wǎng)站的流量統計工具也是必不可少的，因為這個(gè)工具可以清楚的知道其網(wǎng)站流量的來(lái)源，也可以知道用戶(hù)的戰略防御行為等，通過(guò)這些分析，我們可以更好地提出優(yōu)化排名的解決方案。
　　
　　三、百度站長(cháng)工具
　　目前百度站長(cháng)工具越來(lái)越完善，增加了各種功能，如網(wǎng)站的索引量、服務(wù)器情況、精準外鏈、關(guān)鍵詞的展示與展示點(diǎn)擊量等，都可以在百度站長(cháng)工具中體現出來(lái)，站長(cháng)可以通過(guò)這個(gè)工具直接向百度提交各種數據，比如死鏈接、網(wǎng)站的修改等，是百度站長(cháng)工具中不可或缺的工具。使用seo網(wǎng)站排名優(yōu)化軟件。
　　以上就是seo網(wǎng)站排名優(yōu)化軟件中必不可少的三個(gè)輔助工具，一般網(wǎng)站，日常優(yōu)化使用以上工具基本夠用了，雖然其他一些工具不常用，但是也可以用，甚至可能在某個(gè)方面有更好的效果，大家可以多了解，多用，盡量找到適合自己的seo網(wǎng)站網(wǎng)站排名優(yōu)化軟件。查看全部

　　解決方案:無(wú)人系統故障知識圖譜的構建方法及應用
　　于凡坤1、2、胡超芳1、羅曉亮2、梁秀冰2
　　(1. 天津大學(xué)電氣自動(dòng)化與信息工程學(xué)院, 天津 300072; 2. 中國人民解放軍軍事科學(xué)院國防科技創(chuàng )新研究院, 北京 100071)
　　摘要：無(wú)人系統產(chǎn)生的海量數據存儲分散、缺乏聯(lián)系，信息共享困難，難以滿(mǎn)足無(wú)人系統日益復雜和集成化的維護保障需求；知識圖譜技術(shù)可以將復雜的數據信息提取成結構知識，建立數據之間的聯(lián)系，增強知識之間的語(yǔ)義信息；以無(wú)人系統的故障數據為研究對象，利用知識圖譜技術(shù)進(jìn)行知識抽取、知識融合和知識處理，形成一系列相互關(guān)聯(lián)的知識，為構建無(wú)人系統領(lǐng)域的故障知識圖譜提供了一種可行的方法；知識圖譜技術(shù)利用海量數據建立的知識庫，能有效整合分散的數據信息，提高專(zhuān)業(yè)領(lǐng)域知識的利用率和使用價(jià)值，具有重要的軍事意義。應用前景。
　　關(guān)鍵詞：知識圖譜；無(wú)人系統；維護支持；自然語(yǔ)言處理
　　0 前言
　　近年來(lái)，各軍事強國高度重視并積極推進(jìn)無(wú)人系統及相關(guān)領(lǐng)域的研究，產(chǎn)生了顛覆性的應用技術(shù)[1]。我國民用無(wú)人機在全球的市場(chǎng)占有率高達70%。以大疆無(wú)人機為代表的民用無(wú)人機技術(shù)一直走在世界前列[2]。差距很大，軍用無(wú)人機是我國未來(lái)武器裝備發(fā)展的重點(diǎn)方向。
　　隨著(zhù)信息化、智能化的深入融合發(fā)展，無(wú)人系統在執行任務(wù)的過(guò)程中積累了大量數據，國產(chǎn)某型飛機每小時(shí)產(chǎn)生的數據量可高達20國標 [3]。無(wú)人系統產(chǎn)生的海量數據大多采用故障樹(shù)分析法來(lái)定性分析故障原因。故障樹(shù)邏輯性強，能有效避免初始故障[4-5]。王進(jìn)新[6]等。通過(guò)貝葉斯網(wǎng)絡(luò )變換，提出了一種基于貝葉斯的故障診斷方法，有效解決了柴油機潤滑系統多故障的解耦診斷問(wèn)題；楚景春[7]等。概率神經(jīng)網(wǎng)絡(luò )構建故障診斷模型，能有效提高風(fēng)電機組轉速故障檢測的準確性。故障樹(shù)分析方法可以有效理解系統故障的原因，但故障樹(shù)模型中的知識元素缺乏語(yǔ)義聯(lián)系，無(wú)法窮盡所有故障原因，難以滿(mǎn)足無(wú)人系統的維護保障需求。
　　人工智能已經(jīng)滲透到各行各業(yè)，迅速而深刻地改變著(zhù)我們的日常生活。2017年7月，《新一代人工智能發(fā)展規劃》發(fā)布，人工智能逐漸成為國家發(fā)展的新興戰略需求，大數據、人機協(xié)同、群體智能成為人工智能發(fā)展的重點(diǎn)。隨著(zhù)大數據時(shí)代的到來(lái)，數據量呈指數級增長(cháng)，海量數據的出現將引發(fā)數據處理、數據存儲、數據查詢(xún)、數據集成等方面的技術(shù)變革[8-10]，將導致無(wú)人系統的維護和保障模式。新的挑戰和機遇已經(jīng)到來(lái)?，F在，無(wú)人系統產(chǎn)生的數據采用故障樹(shù)模型分析故障原因，可以在一定程度上緩解維修保障問(wèn)題。隨著(zhù)數據量的爆炸式增長(cháng)，使用故障樹(shù)模型來(lái)分析無(wú)人系統的故障原因將導致海量數據的巨大浪費和知識的低利用率。如何有效利用無(wú)人系統的海量數據亟待解決。
　　針對上述情況，為有效利用無(wú)人系統產(chǎn)生的海量數據，滿(mǎn)足現代無(wú)人系統的維護保障需求?？紤]到數據的海量、復雜性和語(yǔ)義，本文利用知識圖譜技術(shù)對無(wú)人系統的故障數據進(jìn)行提取、融合和處理，形成一系列相互關(guān)聯(lián)的知識。人類(lèi)系統領(lǐng)域的故障知識圖譜提供了一種可行的方法。
　　1 知識圖譜概述與架構 1.1 知識圖譜定義
　　知識圖譜（Knowledge graph）是 Google 于 2012 年 5 月 17 日正式提出的，作為提高其搜索質(zhì)量的知識庫。知識圖譜的本質(zhì)是一個(gè)語(yǔ)義網(wǎng)絡(luò )，其節點(diǎn)代表實(shí)體或概念，邊代表實(shí)體或概念之間的各種語(yǔ)義關(guān)系。知識圖譜以結構化三元組的形式存儲現實(shí)世界中的實(shí)體（概念）以及它??們之間的關(guān)系，即 G = ，Head 表示頭部實(shí)體，Relation 表示關(guān)系集，Tail 表示尾部實(shí)體，其中，一些“關(guān)系”?！币卜Q(chēng)為“屬性”，相應地，尾部實(shí)體稱(chēng)為屬性值[11]。例如，在無(wú)人系統中，要感知無(wú)人機的方向，
　　圖1 無(wú)人系統知識圖譜示意圖
　　1.2 知識圖譜的發(fā)展
　　知識圖譜已成為學(xué)術(shù)界和工業(yè)界的研究熱點(diǎn)。它最初用于提高搜索引擎的準確率，已廣泛應用于機器翻譯[12]、智能問(wèn)答[13]、推薦系統[14-15]等。我國知識圖譜雖然起步較晚，但研究成果比較豐富。在學(xué)術(shù)界，中文知識圖譜研究平臺zhishi.me、開(kāi)放知識圖譜OpenKG、復旦大學(xué)知識工廠(chǎng)等，不僅知識來(lái)源廣泛，還具備文本理解和智能等功能。搜索，有利于促進(jìn)知識圖譜的普及和應用。. 在工業(yè)界，為了提高搜索質(zhì)量，搜狗、百度先后建立了自己的知識庫“知識立方”和“知心”，并引入語(yǔ)義理解技術(shù)，將搜索結果精準傳遞給用戶(hù)。隨著(zhù)通用知識圖譜的快速發(fā)展，很多公司都建立了自己的知識庫，比如IBM的Watson Health、阿里的健康百科“一智錄”等，可見(jiàn)知識圖譜在特殊領(lǐng)域也發(fā)揮著(zhù)重要作用。
　　目前國內外利用無(wú)人系統故障數據構建知識圖譜的研究較少，但在醫療、旅游、社交網(wǎng)絡(luò )等垂直領(lǐng)域的知識圖譜研究較多。侯夢(mèng)偉[16]等深入分析了醫學(xué)知識表示、醫學(xué)知識抽取、醫學(xué)知識融合、醫學(xué)知識推理，總結了構建醫學(xué)知識圖譜的關(guān)鍵技術(shù)和挑戰；徐璞[17]改進(jìn)了屬性知識擴展和屬性值。融合方法提高了知識圖譜構建的質(zhì)量；程文亮[18]使用最大熵模型，使得關(guān)系抽取的準確率平均高達85%，構建了企業(yè)間的高質(zhì)量知識圖譜。
　　圖2 無(wú)人系統數據采集及維護保障示意圖
　　1.3 知識圖譜架構
　　知識圖譜一般包括邏輯結構和技術(shù)（系統）框架。本文從無(wú)人系統領(lǐng)域故障知識圖譜的構建入手，詳細介紹了技術(shù)框架。
　　1.3.1 知識圖譜的邏輯結構
　　知識圖譜在邏輯上可以分為數據層和模式層。模式層通常由本體庫管理。本體是結構化知識庫的概念模板，如“無(wú)人系統故障”、“飛控系統故障”等概念實(shí)體。本體庫形成的知識庫不僅具有很強的層次結構。，且冗余度較小，可見(jiàn)schema層是知識圖譜的核心。數據層存儲具體的數據信息，由一系列事實(shí)組成，如無(wú)人系統的常見(jiàn)故障信息，知識以事實(shí)為單位存儲。在業(yè)界，Neo4j 圖數據庫主要用于存儲數據。
　　1.3.2 知識圖譜的系統（技術(shù)）架構
　　隨著(zhù)無(wú)人系統智能化的快速發(fā)展，傳統的數據處理技術(shù)難以理解數據之間的隱含關(guān)系和規則，信息共享困難，無(wú)人系統產(chǎn)生的海量數據無(wú)法得到有效利用[3]。知識圖譜技術(shù)利用自然語(yǔ)言處理、數據挖掘和機器學(xué)習技術(shù)的方法和原理，使計算機能夠更好地理解數據。無(wú)人系統在飛行任務(wù)和停機維護過(guò)程中積累了大量結構化數據（狀態(tài)監控數據）、半結構化數據（日志文件）和非結構化數據（圖片、文檔、視頻），知識圖譜技術(shù)可以有效利用這些數據構建了一個(gè)高質(zhì)量的知識庫。
　　圖3 無(wú)人系統知識圖譜架構
　　從圖3可以看出，無(wú)人系統知識圖譜主要由知識抽取、知識融合和知識處理三部分組成。無(wú)人系統知識抽取，通過(guò)無(wú)人系統在飛行過(guò)程中狀態(tài)參數和運動(dòng)參數的結構化、半結構化或非結構化信息提取實(shí)體、屬性及其關(guān)系，并將這些信息以三元組的形式存儲到知識庫中。無(wú)人系統知識融合通過(guò)實(shí)體消歧、實(shí)體對齊等方法對無(wú)人系統知識庫的冗余和錯誤信息進(jìn)行整合和消歧，從而提高無(wú)人系統知識庫的質(zhì)量。無(wú)人系統知識處理，借助知識推理，推斷缺失的事實(shí)，
　　2 無(wú)人系統故障知識圖譜關(guān)鍵技術(shù)
　　構建無(wú)人系統知識圖譜的方式主要有兩種：自下而上和自上而下。自底向上是通過(guò)知識抽取獲取實(shí)體、屬性及其關(guān)系，通過(guò)數據驅動(dòng)自動(dòng)化構建本體，進(jìn)而構建知識圖譜；自上而下是先構建頂層本體和數據模式，然后通過(guò)實(shí)體來(lái)豐富它們。形成知識庫。目前知識圖譜的構建大多采用自下而上的方法，但無(wú)人系統故障的知識圖譜是領(lǐng)域知識圖譜，涉及的知識范圍較窄。本文采用自下而上和自上而下相結合的方法構建無(wú)人系統。知識圖譜。
　　2.1 知識抽取
　　知識抽取是從開(kāi)放的無(wú)人系統數據（半結構化數據、非結構化數據）中自動(dòng)或手動(dòng)抽取知識單元。知識單元包括實(shí)體、關(guān)系及其屬性。顯然，知識抽取由實(shí)體抽取組成，它由關(guān)系抽取和屬性抽取三部分組成。實(shí)體提取可以識別專(zhuān)有名詞和特殊詞并對其進(jìn)行分類(lèi)。關(guān)系抽取是在網(wǎng)絡(luò )化知識結構中的許多離散實(shí)體之間建立語(yǔ)義聯(lián)系。實(shí)體的屬性是實(shí)體之間的一種特殊關(guān)系。郭建義[19]等利用條件隨機場(chǎng)和支持向量機的方法提取景區實(shí)體屬性相當于實(shí)體關(guān)系提取，所以屬性抽取的問(wèn)題可以轉化為關(guān)系抽取。問(wèn)題。無(wú)人系統數據資源包括結構化數據、半結構化數據和非結構化數據。對于不同類(lèi)型的數據，采用不同的方法將其轉換為三元組結構。知識抽取過(guò)程如圖4所示。
　　圖4 無(wú)人系統知識抽取過(guò)程
　　對于無(wú)人系統的結構化數據（狀態(tài)監測數據），由于存儲在數據庫中的數據結構強，可以直接通過(guò)D2R映射自動(dòng)提取，轉化為三元知識單元。對于半結構化數據（百科知識等），可以設計專(zhuān)門(mén)的包裝器進(jìn)行針對性的提取。例如，王輝[20]等CN-DBpedia構建的特殊包裝器可以實(shí)現高質(zhì)量的網(wǎng)絡(luò )知識提取。非結構化數據是以文本、圖像、視頻等文檔形式存在的數據，是知識提取的難點(diǎn)。從非結構化數據中提取信息主要有三種方法?；谝巹t的方法需要領(lǐng)域專(zhuān)家制定具體的規則，不僅耗費大量人力，但也具有較差的魯棒性?；跈C器學(xué)習的方法需要對語(yǔ)料庫信息進(jìn)行標注來(lái)訓練模型，存在標注的語(yǔ)料庫質(zhì)量參差不齊、需要人工提取特征等缺點(diǎn)。目前，半監督學(xué)習方法主要用于從小樣本中學(xué)習，在減少人力資源的同時(shí)改進(jìn)信息。萃取質(zhì)量。近年來(lái)，深度學(xué)習的興起為高質(zhì)量的信息提取提供了更多途徑。BILSTM-CRF是信息提取中的主流深度學(xué)習模型。L. Luo [21] 在生物醫學(xué)領(lǐng)域使用了 BILSTM-CRF 模型。信息抽取使得實(shí)體識別和實(shí)體關(guān)系識別的準確率分別高達91.14%和92.57%，模型在其他領(lǐng)域也取得了不錯的效果。
　　2.2 知識融合
　　通過(guò)知識抽取得到的三元知識單元具有多樣性、冗余性、歧義性甚至錯誤的特點(diǎn)[22]。例如，“無(wú)人機系統”和“無(wú)人機系統”可能都指向同一個(gè)實(shí)體。知識融合融合來(lái)自不同數據源的多源異構、語(yǔ)義多樣的無(wú)人系統知識，將異構數據、沖突檢測、消歧、處理等集成在同一個(gè)框架規范下，從而對知識進(jìn)行正確的判斷，去除粗糙和提煉精華，構建優(yōu)質(zhì)知識庫[23]。
　　2.2.1 實(shí)體消歧
　　

　　實(shí)體消歧旨在解決實(shí)體引用與現實(shí)世界實(shí)體之間的歧義，實(shí)體消歧的難點(diǎn)主要體現在兩個(gè)方面[24]：
　　1）實(shí)體引用的多樣性：同一個(gè)實(shí)體在文中會(huì )有不同的引用；例如，不同的實(shí)體指的是“飛行控制”、“飛行控制系統”、“飛行控制系統”等，它們可能都對應于知識庫中的“飛行控制系統”。無(wú)人機飛控”同一實(shí)體。
　　2）實(shí)體引用的歧義：同一個(gè)實(shí)體引用可以在不同的上下文中引用不同的實(shí)體；例如，同一實(shí)體引用“大疆”可能對應知識庫中的“大疆無(wú)人機”和“深圳大疆創(chuàng )新科技”。有限公司”和其他實(shí)體。
　　實(shí)體消歧主要包括基于聚類(lèi)的實(shí)體消歧方法和基于實(shí)體鏈接的實(shí)體消歧方法。流程示意圖如圖 5 所示。
　　圖5 實(shí)體消歧示意圖
　　從圖5可以看出，在沒(méi)有目標實(shí)體的情況下，大部分實(shí)體消歧方法都是基于聚類(lèi)的。聚類(lèi)方法是根據實(shí)體引用的特征（上下文中的詞、實(shí)體屬性等）計算實(shí)體引用之間的相似度，并通過(guò)聚類(lèi)算法對實(shí)體引用進(jìn)行聚類(lèi)。李光義[25]等基于向量空間的相似性，利用層次聚合聚類(lèi)（HAC）算法對未鏈接到知識庫的文檔進(jìn)行聚類(lèi)，實(shí)現歧義消解，F值高達88.35 %?；趯?shí)體鏈接的實(shí)體消歧通過(guò)計算實(shí)體引用與目標實(shí)體之間的相似度，將實(shí)體引用鏈接到與知識庫中的實(shí)體引用相似度最高的目標實(shí)體。但是，當知識庫中沒(méi)有實(shí)體引用對應的目標實(shí)體時(shí)，實(shí)體引用會(huì )鏈接到空實(shí)體。對于無(wú)人系統生成的數據，對于通過(guò)信息抽取得到的實(shí)體引用，可以先將部分實(shí)體引用鏈接到歷史知識庫，其余未鏈接的實(shí)體引用可以通過(guò)基于聚類(lèi)的方法進(jìn)行消歧。實(shí)體引用鏈接到空實(shí)體。對于無(wú)人系統生成的數據，對于通過(guò)信息抽取得到的實(shí)體引用，可以先將部分實(shí)體引用鏈接到歷史知識庫，其余未鏈接的實(shí)體引用可以通過(guò)基于聚類(lèi)的方法進(jìn)行消歧。實(shí)體引用鏈接到空實(shí)體。對于無(wú)人系統生成的數據，對于通過(guò)信息抽取得到的實(shí)體引用，可以先將部分實(shí)體引用鏈接到歷史知識庫，其余未鏈接的實(shí)體引用可以通過(guò)基于聚類(lèi)的方法進(jìn)行消歧。
　　2.2.2 實(shí)體對齊
　　實(shí)體對齊，也稱(chēng)為實(shí)體匹配，旨在解決相同或不同知識庫中的兩個(gè)或多個(gè)實(shí)體在現實(shí)世界中是否為同一實(shí)體的問(wèn)題。實(shí)體沖突、指向不明確等不一致性問(wèn)題，高質(zhì)量鏈接多個(gè)現有知識庫，從頂層創(chuàng )建大規模統一知識庫[26-27]。
　　無(wú)人系統產(chǎn)生的海量數據和通過(guò)知識抽取得到的實(shí)體也需要進(jìn)行實(shí)體對齊，以提高無(wú)人系統知識庫的質(zhì)量。實(shí)體對齊算法是實(shí)體對齊技術(shù)的核心，主要包括成對實(shí)體對齊和協(xié)同（集體）實(shí)體對齊。Pairwise entity alignment主要通過(guò)提取實(shí)體及其屬性特征并計算其相似度來(lái)實(shí)現實(shí)體對齊。相似度計算方法主要基于傳統的概率模型和機器學(xué)習方法；協(xié)作實(shí)體對齊是基于實(shí)體對齊的。在計算相似度時(shí)，會(huì )考慮與實(shí)體相關(guān)的其他實(shí)體屬性并賦予權重 [16, 26]。
　　2.3 知識處理
　　通過(guò)知識抽取、知識融合等技術(shù)，可以從無(wú)人系統的原創(chuàng )數據中得到基本的事實(shí)表達，通過(guò)特殊的知識處理，事實(shí)可以形成高質(zhì)量的知識。知識處理主要包括以下四個(gè)方面：本體構建、知識推理、質(zhì)量評估和知識更新。
　　1）本體構建：無(wú)人系統故障知識圖譜涉及的知識范圍較窄，知識圖譜采用自下而上和自上而下相結合的方法構建。本體是標準化共享概念并正式描述對象、屬性及其關(guān)系[28]。首先確定無(wú)人系統故障知識圖譜的核心概念（“無(wú)人系統故障”、“飛控系統故障”、“動(dòng)力系統故障”等），并以數據驅動(dòng)的方式自動(dòng)構建提取實(shí)體的本體方法。步驟：并行關(guān)系相似度計算、實(shí)體從屬關(guān)系提取和本體生成[29]。
　　2）知識推理：知識推理是從現有無(wú)人系統知識庫中已有的實(shí)體關(guān)系出發(fā)，在實(shí)體之間建立新的聯(lián)系，擴展和豐富知識庫的知識網(wǎng)絡(luò )[30]。知識推理主要包括基于邏輯的推理和基于圖的推理，可以從已有的知識中發(fā)現新的知識。如果在無(wú)人系統知識庫中已知（陀螺儀，測量，飛行器方向），（飛行器方向，安全殼，偏航角）和（偏航角，異常，角度），則可以推斷陀螺儀有故障。
　　3）質(zhì)量評估：無(wú)人系統領(lǐng)域通過(guò)知識抽取獲得的知識元素可能存在誤差，無(wú)法充分保證通過(guò)知識推理獲得的新知識的質(zhì)量。因此，在將其添加到知識庫之前，需要進(jìn)行質(zhì)量評估過(guò)程。，質(zhì)量評估是保證數據的重要手段，并貫穿知識圖譜的整個(gè)生命周期[30-31]。通過(guò)高置信度的數據篩選，可以進(jìn)一步保證無(wú)人系統知識庫中的數據。
　　4）知識更新：信息隨時(shí)間的積累是一個(gè)動(dòng)態(tài)的過(guò)程，無(wú)人系統的知識圖譜也需要迭代更新。知識庫的更新包括模式層的更新和數據層的更新；模式層的更新是指概念層的更新。知識庫的概念層增加一個(gè)新概念后，需要更新概念的屬性和關(guān)系；更新主要是添加或更新實(shí)體、關(guān)系和屬性值[30, 32]。
　　3 知識圖譜的軍事應用
　　知識圖譜可以提供管理和利用海量異構數據的有效途徑，使海量數據能夠被普遍鏈接和良好表達，具有廣泛的軍事應用。
　　3.1 智能搜索
　　傳統搜索基于關(guān)鍵詞匹配索引，搜索引擎無(wú)法理解用戶(hù)的真實(shí)語(yǔ)義，檢索效率低[33]。知識圖譜本質(zhì)上是實(shí)體之間關(guān)系的語(yǔ)義網(wǎng)絡(luò )，可以改變現有的信息檢索方式，通過(guò)推理實(shí)現概念檢索，以圖形化的方式展示結構化知識[26, 30]，提高檢索準確率，知識圖譜中有智能搜索的天然優(yōu)勢。知識圖譜可應用于智能導彈的目標跟蹤。如圖6所示，預警機受到周?chē)黝?lèi)飛機的保護，預警機的目標打擊往往受到周?chē)w機或飛機發(fā)出的信號的干擾，
　　圖 6 基于知識圖譜的智能導彈
　　3.2 軍事情報問(wèn)答
　　搜索引擎一般可以滿(mǎn)足人們的信息獲取需求，但隨著(zhù)互聯(lián)網(wǎng)信息的爆炸式增長(cháng)，搜索結果過(guò)多，用戶(hù)難以快速準確地獲取所需信息。能夠更好地滿(mǎn)足用戶(hù)信息需求的問(wèn)答系統受到青睞[34-35]。對于問(wèn)題的輸入，問(wèn)答系統的輸出是簡(jiǎn)潔的答案或可能答案的列表。在日益復雜的軍事問(wèn)題上，問(wèn)答系統能夠有效提高軍事決策效率，對作戰決策具有重要意義。圖 7 顯示了該問(wèn)答系統在軍用飛機上的應用，可以得到準確、簡(jiǎn)潔的信息結果。
　　圖 7 軍事問(wèn)答系統
　　3.3 輔助決策
　　由于計算能力、海量數據和核心算法的出現，基于知識圖譜的輔助決策技術(shù)在醫療、金融、智慧城市交通等領(lǐng)域有著(zhù)廣泛的應用。例如，IBM的Watson Health利用海量數據形成的知識庫，利用深度學(xué)習算法，在腫瘤和癌癥領(lǐng)域做出決策判斷，供醫療專(zhuān)業(yè)人士參考。知識圖譜通過(guò)對數據、知識等信息的分析統計，發(fā)現數據與信息的關(guān)聯(lián)性并挖掘規律，根據歷史知識庫的相關(guān)經(jīng)驗進(jìn)行預測，實(shí)現智能輔助決策，并能可用于未來(lái)的軍事應用。
　　4。結論
　　本文引入知識圖譜的概念知識，對無(wú)人系統海量數據進(jìn)行知識抽取、知識融合和知識處理，形成高質(zhì)量的三元知識，為無(wú)人系統領(lǐng)域的故障知識圖譜構建提供了一種可行的方法。 . 方法。利用海量數據構建的知識圖譜具有智能搜索、系統問(wèn)答、輔助決策等功能，具有重要的軍事應用前景。
　　參考：
　　[1] 李磊，徐越，姜奇，等。2018年國外軍用無(wú)人機裝備與技術(shù)發(fā)展概況[J]. 戰術(shù)導彈技術(shù)，2019（2）：1-11。
　　[2] 何道靖，杜曉，喬銀榮，等．無(wú)人機信息安全研究綜述[J]．計算機學(xué)報, 2019, 42(5): 1076-1094.
　　[3] 景波，焦曉軒，黃一峰。飛機PHM大數據分析與人工智能應用[J]. 空軍工程大學(xué)學(xué)報（自然科學(xué)版）, 2019, 20(1): 46-54.
　　[4] Dugan JB, Sullivan KJ, Coppit D. 開(kāi)發(fā)用于動(dòng)態(tài)故障樹(shù)分析的低成本高質(zhì)量軟件工具[J]. IEEE Transactions on Reliability, 2000, 49(1): 49-59。
　　[5] Enno R，Marielle S. 故障樹(shù)分析：建模、分析和工具方面最新技術(shù)的調查[J]。計算機科學(xué)評論，2015（15/16）：29-62。
　　[6] 王進(jìn)新，王忠偉，馬秀珍，等?；谪惾~斯網(wǎng)絡(luò )的柴油機潤滑系統多重故障診斷[J]. 控制與決策, 2019, 34(6): 1187-1194。
　　[7] Chu Jingchun, Wang Fei, Wang Yang, et al. Wind turbine fault diagnosis method based on fault tree and probabilistic neural network [J]. Chinese Journal of Solar Energy, 2018, 39(10): 2901-2907.
　　

　　[8] Ahmed O, et al. Big data technologies: a survey[J]. Journal of King Saud University-Computer and Information Sciences, 2018, 30(4): 431-448.
　　[9] Gema BO, Jung JJ, David C. Social big data: recent achievements and new challenges[J]. Information Fusion, 2016, 28: 45-59.
　　[10] Martin H. Big data for development: a review of promises and challenges[J]. Development Policy Review, 2016, 34(1): 135-174.
　　[11] Wen Yanan. Visual analysis of international UAV research based on knowledge graph [J]. Journal of Zhengzhou Institute of Aviation Industry Management, 2018, 36(6): 16-25.
　　[12] Roberto N, Paolo P S. BabelNet: the automatic construction, evaluation and application of a wide-coverage multilingual semantic network[J]. Artificial Intelligence, 2012, 193: 217-250.
　　[13] Ruan T, Huang YQ, Liu XL, et al. QAnalysis: a question-answer driven analytic tool on knowledge graphs for leveraging electronic medical records for clinical research[J]. BMC Medical Informatics and Decision Making, 2019, 19( 1): 798-811.
　　[14] Cao ZY, Qiao XH, Jiang S, et al. An efficient knowledge-graph-based web service recommendation algorithm[J]. Symmetry, 2019, 11(3): 392.
　　[15] He M, Wang B, Du X K. HI2Rec: exploring knowledge in heterogeneous information for movie recommendation[J]. IEEE Access, 2019, 7: 30276-30284.
　　[16] Hou Mengwei, Wei Rong, Lu Liang, et al. A review of knowledge graph research and its application in the medical field [J]. Computer Research and Development, 2018, 55(12): 2587-2599.
　　[17] Xu Pu. Research and Implementation of Knowledge Graph Construction Method in Tourism [D]. Beijing: Beijing Institute of Technology, 2016.
　　[18] 程文亮. 中文企業(yè)知識圖譜構建與分析[D]. 上海:華東師范大學(xué), 2016.
　　[19] 郭劍毅，李真，余正濤，等. 領(lǐng)域本體概念實(shí)例、屬性和屬性值的抽取及關(guān)系預測[J]. 南京大學(xué)學(xué)報(自然科學(xué)版),2012, 48(4): 383-389.
　　[20] 王輝，郁波，洪宇，等. 基于知識圖譜的Web信息抽取系統[J]. 計算機工程，2017, 43(6): 118-124.
　　[21] Luo L，Yang Z H，Yang P，et al. An attention-based BiLSTM-CRF approach to document-level chemical named entity recognition[J]. Bioinformatics, 2018, 34(8): 1381-1388.
　　[22] 林海倫，王元卓，賈巖濤，等. 面向網(wǎng)絡(luò )大數據的知識融合方法綜述[J]. 計算機學(xué)報. 2017, 40(1): 1-27.
　　[23] Luna D X， Evgeniy G， Geremy H，et al. From data fusion to knowledge fusion[J]. The VLDB Endowment,2014, 7(10): 881-892.
　　[24] 趙軍，劉康，周光有，等. 開(kāi)放式文本信息抽取[J]. 中文信息學(xué)報，2011, 25(6): 98-110.
　　[25] 李廣一，王厚峰. 基于多步聚類(lèi)的漢語(yǔ)命名實(shí)體識別和歧義消解[J]. 中文信息學(xué)報, 2013, 27(5): 29-34.
　　[26] 徐增林，盛泳潘，賀麗榮，等. 知識圖譜技術(shù)綜述[J]. 電子科技大學(xué)學(xué)報,2016, 45(4): 589-606.
　　[27] 莊嚴，李國良，馮建華. 知識庫實(shí)體對齊技術(shù)綜述[J]. 計算機研究與發(fā)展, 2016, 53(1): 165-192.
　　[28] Gruber T R. A translation approach to portable ontology specifications[J]. Knowledge Acquisition，1993, 5(2): 199-220.
　　[29] 史樹(shù)明. 自動(dòng)和半自動(dòng)知識提取[J]. 中國計算機學(xué)會(huì )通訊, 2013, 9(8): 65-73.
　　[30] 劉嶠，李楊，段宏，等. 知識圖譜構建技術(shù)綜述[J]. 計算機研究與發(fā)展,2016, 53(3): 582-600.
　　[31] 袁凱琦，鄧揚，陳道源，等. 醫學(xué)知識圖譜構建技術(shù)與研究進(jìn)展[J]. 計算機應用研究,2018, 35(7): 1929-1936.
　　[32] 李濤，王次臣，李華康. 知識圖譜的發(fā)展與構建[J]. 南京理工大學(xué)學(xué)報, 2017, 41(1): 22-34.
　　[33] 張騫. 傳統搜索引擎與智能搜索引擎比較研究[D]. 鄭州:鄭州大學(xué), 2012.
　　[34] 毛先領(lǐng)，李曉明. 問(wèn)答系統研究綜述[J]. 計算機科學(xué)與探索, 2012, 6(3): 193-207.
　　[35] 岳世峰，林政，王偉平，等. 智能回復系統研究綜述[J]. 信息安全學(xué)報, 2020, 5(1): 20-34.
　　Construction and Application of Unmanned System Fault Knowledge Graph
　　Yu Fankun1,2 , Hu Chaofang1, Luo Xiaoliang2, Liang Xiubing2
　　(1.School of Electrical and Information Engineering, Tianjin University, Tianjin 300072, China;2.National Innovation Institute of Defense Technology, Academy of Military Sciences PLA China, Beijing 100071, China)
　　Abstract: The massive data generated by unmanned systems is scattered and lacks in connection, and information sharing is difficult。 It is difficult to meet the maintenance support requirements of unmanned systems with increasing complexity and integration。 Knowledge graph technology can extract complex data information into structured knowledge, establish connections between data, and enhance semantic information between knowledge。 Taking the fault data as the research object, knowledge extraction, knowledge fusion and knowledge processing are carried out by using knowledge graph technology to form a series of interrelated knowledge, which provides a feasible way to construct fault knowledge graph in unmanned system domain。
　　The knowledge base, which is established by the knowledge graph technology using tremendous data, is capable of integrating scattered data and information。 It can improve the utilization rate and usage value of knowledges in special fields。 Consequently, it has significant prospect in military。
　　Keywords:knowledge graph; unmanned systems; maintenance support; natural language processing
　　收稿日期：2020-02-23；修回日期：2020-04-10。
　　基金項目：國家自然科學(xué)基金(61773279)；天津市科技計劃項目(19YFHBQY00040)。
　　作者簡(jiǎn)介：喻凡坤(1995-)，男，湖北鄂州人，碩士研究生，主要從事知識圖譜構建方向的研究。
　　解決方案:[seo網(wǎng)站排名優(yōu)化軟件]想要做網(wǎng)絡(luò )優(yōu)化就必須要學(xué)會(huì )這幾種工具
　　【SEO網(wǎng)站排名優(yōu)化軟件】要做網(wǎng)絡(luò )優(yōu)化，這些工具你一定要學(xué)會(huì )
　　眾所周知，目前做任何事情都離不開(kāi)工具。即使是最簡(jiǎn)單的進(jìn)食動(dòng)作也需要筷子或手輔助。同樣的，對于像做網(wǎng)站優(yōu)化這樣的事情，那么各種工具的輔助也是必不可少的。目前網(wǎng)絡(luò )優(yōu)化必須了解的SEO網(wǎng)站排名優(yōu)化軟件有以下幾種。
　　一、網(wǎng)站期刊分析工具
　　

　　這里主要推薦的是新年日記分析工具?？梢酝ㄟ^(guò)這個(gè)工具清楚的了解自己的網(wǎng)站蜘蛛爬取情況，比如蜘蛛是否經(jīng)常爬到一些無(wú)用的頁(yè)面，使用這個(gè)工具，還可以看到蜘蛛返回的HTTP狀態(tài)碼，時(shí)間這些蜘蛛停留在這個(gè)頁(yè)面，它們爬過(guò)的頁(yè)面等等，通過(guò)這個(gè)頁(yè)面，你也可以清楚的了解網(wǎng)站站點(diǎn)是否有異常。
　　二、網(wǎng)站的流量統計工具
　　在使用seo網(wǎng)站排名優(yōu)化軟件的過(guò)程中，網(wǎng)站的流量統計工具也是必不可少的，因為這個(gè)工具可以清楚的知道其網(wǎng)站流量的來(lái)源，也可以知道用戶(hù)的戰略防御行為等，通過(guò)這些分析，我們可以更好地提出優(yōu)化排名的解決方案。
　　

　　三、百度站長(cháng)工具
　　目前百度站長(cháng)工具越來(lái)越完善，增加了各種功能，如網(wǎng)站的索引量、服務(wù)器情況、精準外鏈、關(guān)鍵詞的展示與展示點(diǎn)擊量等，都可以在百度站長(cháng)工具中體現出來(lái)，站長(cháng)可以通過(guò)這個(gè)工具直接向百度提交各種數據，比如死鏈接、網(wǎng)站的修改等，是百度站長(cháng)工具中不可或缺的工具。使用seo網(wǎng)站排名優(yōu)化軟件。
　　以上就是seo網(wǎng)站排名優(yōu)化軟件中必不可少的三個(gè)輔助工具，一般網(wǎng)站，日常優(yōu)化使用以上工具基本夠用了，雖然其他一些工具不常用，但是也可以用，甚至可能在某個(gè)方面有更好的效果，大家可以多了解，多用，盡量找到適合自己的seo網(wǎng)站網(wǎng)站排名優(yōu)化軟件。

超值資料:【百度云鏈接】爬蟲(chóng).python語(yǔ)言及框架的選擇

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 59 次瀏覽 ? 2022-10-14 03:11 ? 來(lái)自相關(guān)話(huà)題

　　超值資料:【百度云鏈接】爬蟲(chóng).python語(yǔ)言及框架的選擇
　　無(wú)規則采集器列表算法總結·github，獲取請看：github，可從我的github主頁(yè)進(jìn)行star、commit和repo：任何qq群、微信群、qq工作群轉載和分享請聯(lián)系群主本公眾號，未經(jīng)授權不得轉載，違者死全家！新手和筆者聊一聊爬蟲(chóng)的基礎知識，以及各種爬蟲(chóng)工具的推薦。歡迎關(guān)注公眾號：老婆孩子熱炕頭。
　　這個(gè)有很多，比如他們認為可以用python3來(lái)爬取微博。利用之后，接口就會(huì )被篡改過(guò)，利用上兩個(gè)爬蟲(chóng)框架。
　　從0開(kāi)始從100級到160級。
　　1.爬蟲(chóng)的基礎安全問(wèn)題2.爬蟲(chóng)的api3.python語(yǔ)言及框架的選擇-編寫(xiě)穩定爬蟲(chóng):-index.html4.python爬蟲(chóng)定制化研究
　　
　　python爬蟲(chóng)的入門(mén)建議，
　　python語(yǔ)言，選擇numpy，pandas，pyspider等專(zhuān)門(mén)庫，
　　推薦一個(gè)視頻教程：python高級爬蟲(chóng)框架pyspider全面開(kāi)發(fā)與實(shí)戰_網(wǎng)易云課堂這兩個(gè)課程應該會(huì )對python爬蟲(chóng)有一個(gè)初步的認識。
　　python爬蟲(chóng)代碼庫big_python_python爬蟲(chóng)代碼庫【百度云鏈接】
　　1、爬蟲(chóng)系統thomas_weathersoft
　　
　　2、urllib/urllib2
　　3、selenium
　　4、beautifulsoup
　　5、基于beautifulsoup的提取爬蟲(chóng)框架
　　crawle安全分析系統，可以針對爬蟲(chóng)和釣魚(yú)進(jìn)行安全分析。查看全部

　　超值資料:【百度云鏈接】爬蟲(chóng).python語(yǔ)言及框架的選擇
　　無(wú)規則采集器列表算法總結·github，獲取請看：github，可從我的github主頁(yè)進(jìn)行star、commit和repo：任何qq群、微信群、qq工作群轉載和分享請聯(lián)系群主本公眾號，未經(jīng)授權不得轉載，違者死全家！新手和筆者聊一聊爬蟲(chóng)的基礎知識，以及各種爬蟲(chóng)工具的推薦。歡迎關(guān)注公眾號：老婆孩子熱炕頭。
　　這個(gè)有很多，比如他們認為可以用python3來(lái)爬取微博。利用之后，接口就會(huì )被篡改過(guò)，利用上兩個(gè)爬蟲(chóng)框架。
　　從0開(kāi)始從100級到160級。
　　1.爬蟲(chóng)的基礎安全問(wèn)題2.爬蟲(chóng)的api3.python語(yǔ)言及框架的選擇-編寫(xiě)穩定爬蟲(chóng):-index.html4.python爬蟲(chóng)定制化研究
　　

　　python爬蟲(chóng)的入門(mén)建議，
　　python語(yǔ)言，選擇numpy，pandas，pyspider等專(zhuān)門(mén)庫，
　　推薦一個(gè)視頻教程：python高級爬蟲(chóng)框架pyspider全面開(kāi)發(fā)與實(shí)戰_網(wǎng)易云課堂這兩個(gè)課程應該會(huì )對python爬蟲(chóng)有一個(gè)初步的認識。
　　python爬蟲(chóng)代碼庫big_python_python爬蟲(chóng)代碼庫【百度云鏈接】
　　1、爬蟲(chóng)系統thomas_weathersoft
　　

　　2、urllib/urllib2
　　3、selenium
　　4、beautifulsoup
　　5、基于beautifulsoup的提取爬蟲(chóng)框架
　　crawle安全分析系統，可以針對爬蟲(chóng)和釣魚(yú)進(jìn)行安全分析。

完美:職場(chǎng)人必備！這些工具神器能讓你的工作高效又省事

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 59 次瀏覽 ? 2022-10-12 22:18 ? 來(lái)自相關(guān)話(huà)題

　　完美:職場(chǎng)人必備！這些工具神器能讓你的工作高效又省事
　　提高效率和專(zhuān)注力可以幫助我們在更短的時(shí)間內獲得更大的時(shí)間收益，并且可以用更少的時(shí)間帶來(lái)更大的提升。要想早點(diǎn)下班，就必須提高工作效率。為了工作效率，擁有一個(gè)滿(mǎn)意的工具也很重要?，F在有許多效率工具可以幫助我們更好地生活和工作。接下來(lái)，我將向您介紹五個(gè)最推薦的效率工具?？赐旰笥浀貌杉?。
　　1
　　與代碼
　　Visual Studio Code（VS Code）是微軟2015年推出的一款輕量級但功能強大的源碼編輯器，大部分開(kāi)發(fā)者基本都在使用。它基于 Electron 開(kāi)發(fā)，支持 Windows、Linux 和 macOS 操作系統。內置對 JavaScript、TypeScript 和 Node.js 的支持以及對其他語(yǔ)言和擴展的豐富支持，超級強大。它具有插件豐富、跨平臺、易用、開(kāi)源的特點(diǎn)，甚至有人說(shuō)它是無(wú)所不能的。
　　VSCode 支持語(yǔ)法高亮、智能代碼補全、自定義快捷鍵、括號匹配和顏色區分、代碼片段、代碼比較 Diff、GIT 命令等幾乎所有主流開(kāi)發(fā)語(yǔ)言的功能。云應用開(kāi)發(fā)得到優(yōu)化。
　　2
　　大數據導航
　　
　　大數據導航，以大數據行業(yè)為基礎，以大數據工具為補充，為用戶(hù)提供了一個(gè)平臺，可以更快地找到大數據相關(guān)的工具。
　　大數據導航是一個(gè)超級數據導航網(wǎng)站，聚合了互聯(lián)網(wǎng)趨勢分析、全球互聯(lián)網(wǎng)數據、網(wǎng)站排名查詢(xún)工具、實(shí)時(shí)數據工具、問(wèn)卷調查工具、BI商業(yè)智能、短期視頻數據平臺、機器學(xué)習數據源、城市開(kāi)放數據、移動(dòng)應用監控工具等。
　　3
　　圖欄工具箱
　　Tuba Toolbox是一款非常全面的開(kāi)源、免費、綠色、純硬件檢測工具合集，專(zhuān)為所有電腦硬件極客、DIY愛(ài)好者、各類(lèi)大神、小白打造。擁有多種常用硬件檢測評分工具，一鍵下載，使用方便。重點(diǎn)采集各種硬件檢測、評分、測試工具，常用工具采集，可以幫助用戶(hù)解決各種電腦問(wèn)題。沒(méi)有捆綁和強制安裝行為，一鍵查看，無(wú)需寫(xiě)入注冊表，無(wú)需任何敏感目錄和文件操作。
　　還有內存工具，包括memtest，它是Windows系統中可以下載并自動(dòng)檢測內存的工具。這是非常容易使用。還有硬盤(pán)工具和顯卡工具，可以幫你檢測硬盤(pán)、數據恢復等，總之功能非常豐富，讓用戶(hù)滿(mǎn)意。各種需求，界面清爽大方。
　　4
　　優(yōu)采云采集器
　　優(yōu)采云采集器是前谷歌技術(shù)團隊打造的一款桌面應用軟件?；谌斯ぶ悄芗夹g(shù)，只需輸入網(wǎng)址即可自動(dòng)識別采集的內容。它支持三種主要操作系統。：Linux、Windows 和 Mac。
　　
　　它可以智能識別數據。智能模式基于人工智能算法。只需輸入網(wǎng)址即可智能識別列表數據、表格數據和分頁(yè)按鈕。無(wú)需配置任何采集規則，一鍵式采集。自動(dòng)識別列表、表格、鏈接、圖像、價(jià)格等。所有免費采集，導出數據無(wú)限數據可以導出到本地文件，發(fā)布到網(wǎng)站和數據庫等。
　　5
　　王營(yíng)
　　網(wǎng)影是一款可以打字制作視頻的視頻制作神器，支持一鍵替換圖文生成視頻。視頻制作不需要AE和PR基礎，輕松制作個(gè)人創(chuàng )意視頻。PC端和移動(dòng)端都支持下載和制作。整個(gè)操作方法也很簡(jiǎn)單。只要你會(huì )打字，你就可以自己制作視頻。只需輸入網(wǎng)站，找到合適的模板，然后添加你需要的圖片和替換文字內容，就可以在線(xiàn)渲染合成我們想要的視頻了。
　　- 關(guān)于我們 -
　　·廣州易云信息科技有限公司是國內最早成立的云計算企業(yè)，云計算產(chǎn)業(yè)聯(lián)盟核心企業(yè)。2016年成功登陸新三板。
　　· 易云信息推出的智慧云系列產(chǎn)品，以辦公云系統為核心，鏈接企業(yè)與云服務(wù)技術(shù)，助力企業(yè)上云；超低價(jià)私有化部署，為企業(yè)提供全方位的數據保護壁壘；使用一系列協(xié)同辦公工具，解決企業(yè)工作效率低下的問(wèn)題。
　　- 客戶(hù)案例 -
　　完美:偽原創(chuàng )文章變高質(zhì)量原創(chuàng )文章-5招解決您的煩惱!
　　優(yōu)化網(wǎng)站，需要每天更新網(wǎng)站內的文章，增加網(wǎng)站的活躍度，吸引蜘蛛爬行。很多站長(cháng)在寫(xiě)文章的時(shí)候，一般都會(huì )關(guān)注偽原創(chuàng )，很少寫(xiě)原創(chuàng )文章，雖然說(shuō)偽原創(chuàng )做的不錯，搜索引擎也會(huì )同意，但是很多站長(cháng)做的偽原創(chuàng )都是簡(jiǎn)單的修改文章，沒(méi)有做任何調整，導致偽原創(chuàng )收錄不行，下面是總結偽原創(chuàng )文章收錄不好的原因以及如何做好偽原創(chuàng )文章。
　　1.偽原創(chuàng )文章收錄壞的原因
　　1
　　偽原創(chuàng )文章質(zhì)量差
　　很多站長(cháng)做的偽原創(chuàng )文章很簡(jiǎn)單，就是把標題改寫(xiě)，第一段和最后一段用自己的話(huà)寫(xiě)，中間改內容的順序。偽原創(chuàng )文章出現了。這種做法很容易被搜索引擎識別。對用戶(hù)來(lái)說(shuō)還是原創(chuàng )內容，停留時(shí)間很短。對于這種類(lèi)型的原創(chuàng )文章，搜索引擎可能會(huì )啟動(dòng)收錄你的文章，但是不會(huì )對這種類(lèi)型的文章進(jìn)行排名，更新到后面，而搜索引擎將逐漸撤消這些。
　　2
　　偽原創(chuàng ) 痕跡太明顯
　　許多網(wǎng)站管理員都在使用偽原創(chuàng ) 工具。偽原創(chuàng )工具的原理是替換同義詞和反義詞，改變句子的順序，前后段落顛倒?？v觀(guān)整個(gè)文章，不僅錯別字很多，而且每一句我都看不懂，這種偽原創(chuàng )的痕跡很明顯，現在搜索引擎也很?chē)绤柎驌暨@種做法，不會(huì )去收錄這么一點(diǎn)價(jià)值的文章，對于這種偽原創(chuàng )@文章搜索引擎會(huì )判斷為垃圾郵件文章。
　　3
　　偽原創(chuàng )文章可讀性不強
　　偽原創(chuàng )工具確實(shí)偽原創(chuàng )文章根本沒(méi)有可讀性，不僅用戶(hù)不喜歡它們，搜索引擎也更不喜歡它們。這種方法純粹是為了完成任務(wù)。一點(diǎn)幫助都沒(méi)有，內容略有改動(dòng)的偽原創(chuàng )文章的主要內容并沒(méi)有改變，也沒(méi)有自己的意見(jiàn)。這樣的文章互聯(lián)網(wǎng)很多，用戶(hù)不會(huì )浪費時(shí)間去Look，直接關(guān)閉頁(yè)面，停留時(shí)間短，可讀性差。
　　
　　4
　　網(wǎng)站權重過(guò)低
　　有人看到那些新聞文章，各大平臺各種轉載，一樣的內容，甚至一樣的標題，文章還是會(huì )有收錄，也有好的排名，這就是權重高權重的平臺和搜索引擎的影響力很高，采集的任何內容都不會(huì )受到影響，新站點(diǎn)或者一般企業(yè)站點(diǎn)，如果這樣做，權重就低，如果這樣做長(cháng)期以來(lái)，對搜索引擎不友好。
　　2. 高質(zhì)量偽原創(chuàng )文章的技巧
　　1
　　為簡(jiǎn)化原文，刪去多余的廢話(huà)
　　有時(shí)候看了一篇文章的文章，不知道是講什么的，也就是說(shuō)文章沒(méi)有重點(diǎn)。刪除多余的內容，即所謂“去渣取精”，花在文章的內容上，讓它們之間的區別更加明顯。
　　2
　　結合自己的想法，讓文章更專(zhuān)業(yè)
　　一篇文章文章不要完全照搬，一定要學(xué)會(huì )閱讀，用自己的話(huà)來(lái)描述。當然，寫(xiě)之前一定要了解行業(yè)，了解自己的產(chǎn)品和同行的區別。區別要明確，原文的不足之處要改進(jìn)，增加自己對行業(yè)的看法。這樣的文章很有價(jià)值。
　　3
　　學(xué)習選擇和重組文章結構
　　
　　有的文章寫(xiě)的很專(zhuān)業(yè)，內容也很長(cháng)。對于這種文章，要寫(xiě)偽原創(chuàng )，記得寫(xiě)這么長(cháng)，內容太多，用戶(hù)很難往前看，也比較費力。對于這種文章，要學(xué)會(huì )重新整理文章的結構，挑一個(gè)點(diǎn)來(lái)寫(xiě)這個(gè)長(cháng)篇大論，放大，加上自己的看法。這個(gè)很專(zhuān)業(yè)，可以解決問(wèn)題。用戶(hù)問(wèn)題，也滿(mǎn)足搜索引擎需求。
　　4
　　營(yíng)造良好的瀏覽環(huán)境，提升用戶(hù)體驗
　　在編輯文章時(shí)，學(xué)會(huì )使用圖文結合的方式進(jìn)行排版，方便用戶(hù)閱讀，加深用戶(hù)對這段文字的理解，滿(mǎn)足用戶(hù)的需求。在整個(gè)文章的布局上，肯定比原來(lái)的文章還要好。用戶(hù)體驗一上來(lái)，搜索引擎自然就喜歡了，圖文并茂的網(wǎng)頁(yè)也受到搜索引擎的喜歡。
　　5
　　不要只是抄襲，要有自己的想法
　　記得簡(jiǎn)單復制或者修改一些文字，這些做法沒(méi)有任何價(jià)值，真的偽原創(chuàng )文章，保持原文章的中心思想，自己制作文章重新構想，然后根據自己對行業(yè)的想法和見(jiàn)解重新安排文章很有價(jià)值，我經(jīng)常建議大家這樣做。
　　綜上所述，隨著(zhù)搜索引擎的不斷升級，對文章的要求也越來(lái)越高，不僅僅是原創(chuàng )，還有真正能幫助用戶(hù)的優(yōu)質(zhì)內容。切記不要復制文章，對搜索引擎和用戶(hù)沒(méi)有任何價(jià)值，更新這種類(lèi)型的文章只會(huì )增加搜索引擎的負載，浪費用戶(hù)的時(shí)間。引擎不會(huì )抓取您的網(wǎng)站。所以，為了你的網(wǎng)站優(yōu)化有好的效果，不要使用各種采集文章。
　　當然，除了寫(xiě)出高質(zhì)量的文章內容，還需要考慮文章SEO優(yōu)化。具體文章優(yōu)化技術(shù)請參考《》。
　　【深網(wǎng)】6年全網(wǎng)營(yíng)銷(xiāo)經(jīng)驗，不僅幫助企業(yè)做好全網(wǎng)營(yíng)銷(xiāo)和管理，還免費幫助企業(yè)培養全網(wǎng)營(yíng)銷(xiāo)團隊，為您的企業(yè)網(wǎng)絡(luò )保駕護航——廣泛的營(yíng)銷(xiāo)之路。查看全部

　　完美:職場(chǎng)人必備！這些工具神器能讓你的工作高效又省事
　　提高效率和專(zhuān)注力可以幫助我們在更短的時(shí)間內獲得更大的時(shí)間收益，并且可以用更少的時(shí)間帶來(lái)更大的提升。要想早點(diǎn)下班，就必須提高工作效率。為了工作效率，擁有一個(gè)滿(mǎn)意的工具也很重要?，F在有許多效率工具可以幫助我們更好地生活和工作。接下來(lái)，我將向您介紹五個(gè)最推薦的效率工具?？赐旰笥浀?a href="http://www.hqbet6457.com/" target="_blank">采集。
　　1
　　與代碼
　　Visual Studio Code（VS Code）是微軟2015年推出的一款輕量級但功能強大的源碼編輯器，大部分開(kāi)發(fā)者基本都在使用。它基于 Electron 開(kāi)發(fā)，支持 Windows、Linux 和 macOS 操作系統。內置對 JavaScript、TypeScript 和 Node.js 的支持以及對其他語(yǔ)言和擴展的豐富支持，超級強大。它具有插件豐富、跨平臺、易用、開(kāi)源的特點(diǎn)，甚至有人說(shuō)它是無(wú)所不能的。
　　VSCode 支持語(yǔ)法高亮、智能代碼補全、自定義快捷鍵、括號匹配和顏色區分、代碼片段、代碼比較 Diff、GIT 命令等幾乎所有主流開(kāi)發(fā)語(yǔ)言的功能。云應用開(kāi)發(fā)得到優(yōu)化。
　　2
　　大數據導航
　　

　　大數據導航，以大數據行業(yè)為基礎，以大數據工具為補充，為用戶(hù)提供了一個(gè)平臺，可以更快地找到大數據相關(guān)的工具。
　　大數據導航是一個(gè)超級數據導航網(wǎng)站，聚合了互聯(lián)網(wǎng)趨勢分析、全球互聯(lián)網(wǎng)數據、網(wǎng)站排名查詢(xún)工具、實(shí)時(shí)數據工具、問(wèn)卷調查工具、BI商業(yè)智能、短期視頻數據平臺、機器學(xué)習數據源、城市開(kāi)放數據、移動(dòng)應用監控工具等。
　　3
　　圖欄工具箱
　　Tuba Toolbox是一款非常全面的開(kāi)源、免費、綠色、純硬件檢測工具合集，專(zhuān)為所有電腦硬件極客、DIY愛(ài)好者、各類(lèi)大神、小白打造。擁有多種常用硬件檢測評分工具，一鍵下載，使用方便。重點(diǎn)采集各種硬件檢測、評分、測試工具，常用工具采集，可以幫助用戶(hù)解決各種電腦問(wèn)題。沒(méi)有捆綁和強制安裝行為，一鍵查看，無(wú)需寫(xiě)入注冊表，無(wú)需任何敏感目錄和文件操作。
　　還有內存工具，包括memtest，它是Windows系統中可以下載并自動(dòng)檢測內存的工具。這是非常容易使用。還有硬盤(pán)工具和顯卡工具，可以幫你檢測硬盤(pán)、數據恢復等，總之功能非常豐富，讓用戶(hù)滿(mǎn)意。各種需求，界面清爽大方。
　　4
　　優(yōu)采云采集器
　　優(yōu)采云采集器是前谷歌技術(shù)團隊打造的一款桌面應用軟件?；谌斯ぶ悄芗夹g(shù)，只需輸入網(wǎng)址即可自動(dòng)識別采集的內容。它支持三種主要操作系統。：Linux、Windows 和 Mac。
　　

　　它可以智能識別數據。智能模式基于人工智能算法。只需輸入網(wǎng)址即可智能識別列表數據、表格數據和分頁(yè)按鈕。無(wú)需配置任何采集規則，一鍵式采集。自動(dòng)識別列表、表格、鏈接、圖像、價(jià)格等。所有免費采集，導出數據無(wú)限數據可以導出到本地文件，發(fā)布到網(wǎng)站和數據庫等。
　　5
　　王營(yíng)
　　網(wǎng)影是一款可以打字制作視頻的視頻制作神器，支持一鍵替換圖文生成視頻。視頻制作不需要AE和PR基礎，輕松制作個(gè)人創(chuàng )意視頻。PC端和移動(dòng)端都支持下載和制作。整個(gè)操作方法也很簡(jiǎn)單。只要你會(huì )打字，你就可以自己制作視頻。只需輸入網(wǎng)站，找到合適的模板，然后添加你需要的圖片和替換文字內容，就可以在線(xiàn)渲染合成我們想要的視頻了。
　　- 關(guān)于我們 -
　　·廣州易云信息科技有限公司是國內最早成立的云計算企業(yè)，云計算產(chǎn)業(yè)聯(lián)盟核心企業(yè)。2016年成功登陸新三板。
　　· 易云信息推出的智慧云系列產(chǎn)品，以辦公云系統為核心，鏈接企業(yè)與云服務(wù)技術(shù)，助力企業(yè)上云；超低價(jià)私有化部署，為企業(yè)提供全方位的數據保護壁壘；使用一系列協(xié)同辦公工具，解決企業(yè)工作效率低下的問(wèn)題。
　　- 客戶(hù)案例 -
　　完美:偽原創(chuàng )文章變高質(zhì)量原創(chuàng )文章-5招解決您的煩惱!
　　優(yōu)化網(wǎng)站，需要每天更新網(wǎng)站內的文章，增加網(wǎng)站的活躍度，吸引蜘蛛爬行。很多站長(cháng)在寫(xiě)文章的時(shí)候，一般都會(huì )關(guān)注偽原創(chuàng )，很少寫(xiě)原創(chuàng )文章，雖然說(shuō)偽原創(chuàng )做的不錯，搜索引擎也會(huì )同意，但是很多站長(cháng)做的偽原創(chuàng )都是簡(jiǎn)單的修改文章，沒(méi)有做任何調整，導致偽原創(chuàng )收錄不行，下面是總結偽原創(chuàng )文章收錄不好的原因以及如何做好偽原創(chuàng )文章。
　　1.偽原創(chuàng )文章收錄壞的原因
　　1
　　偽原創(chuàng )文章質(zhì)量差
　　很多站長(cháng)做的偽原創(chuàng )文章很簡(jiǎn)單，就是把標題改寫(xiě)，第一段和最后一段用自己的話(huà)寫(xiě)，中間改內容的順序。偽原創(chuàng )文章出現了。這種做法很容易被搜索引擎識別。對用戶(hù)來(lái)說(shuō)還是原創(chuàng )內容，停留時(shí)間很短。對于這種類(lèi)型的原創(chuàng )文章，搜索引擎可能會(huì )啟動(dòng)收錄你的文章，但是不會(huì )對這種類(lèi)型的文章進(jìn)行排名，更新到后面，而搜索引擎將逐漸撤消這些。
　　2
　　偽原創(chuàng ) 痕跡太明顯
　　許多網(wǎng)站管理員都在使用 偽原創(chuàng ) 工具。偽原創(chuàng )工具的原理是替換同義詞和反義詞，改變句子的順序，前后段落顛倒?？v觀(guān)整個(gè)文章，不僅錯別字很多，而且每一句我都看不懂，這種偽原創(chuàng )的痕跡很明顯，現在搜索引擎也很?chē)绤柎驌暨@種做法，不會(huì )去收錄這么一點(diǎn)價(jià)值的文章，對于這種偽原創(chuàng )@文章搜索引擎會(huì )判斷為垃圾郵件文章。
　　3
　　偽原創(chuàng )文章可讀性不強
　　偽原創(chuàng )工具確實(shí)偽原創(chuàng )文章根本沒(méi)有可讀性，不僅用戶(hù)不喜歡它們，搜索引擎也更不喜歡它們。這種方法純粹是為了完成任務(wù)。一點(diǎn)幫助都沒(méi)有，內容略有改動(dòng)的偽原創(chuàng )文章的主要內容并沒(méi)有改變，也沒(méi)有自己的意見(jiàn)。這樣的文章互聯(lián)網(wǎng)很多，用戶(hù)不會(huì )浪費時(shí)間去Look，直接關(guān)閉頁(yè)面，停留時(shí)間短，可讀性差。
　　

　　4
　　網(wǎng)站權重過(guò)低
　　有人看到那些新聞文章，各大平臺各種轉載，一樣的內容，甚至一樣的標題，文章還是會(huì )有收錄，也有好的排名，這就是權重高權重的平臺和搜索引擎的影響力很高，采集的任何內容都不會(huì )受到影響，新站點(diǎn)或者一般企業(yè)站點(diǎn)，如果這樣做，權重就低，如果這樣做長(cháng)期以來(lái)，對搜索引擎不友好。
　　2. 高質(zhì)量偽原創(chuàng )文章的技巧
　　1
　　為簡(jiǎn)化原文，刪去多余的廢話(huà)
　　有時(shí)候看了一篇文章的文章，不知道是講什么的，也就是說(shuō)文章沒(méi)有重點(diǎn)。刪除多余的內容，即所謂“去渣取精”，花在文章的內容上，讓它們之間的區別更加明顯。
　　2
　　結合自己的想法，讓文章更專(zhuān)業(yè)
　　一篇文章文章不要完全照搬，一定要學(xué)會(huì )閱讀，用自己的話(huà)來(lái)描述。當然，寫(xiě)之前一定要了解行業(yè)，了解自己的產(chǎn)品和同行的區別。區別要明確，原文的不足之處要改進(jìn)，增加自己對行業(yè)的看法。這樣的文章很有價(jià)值。
　　3
　　學(xué)習選擇和重組文章結構
　　

　　有的文章寫(xiě)的很專(zhuān)業(yè)，內容也很長(cháng)。對于這種文章，要寫(xiě)偽原創(chuàng )，記得寫(xiě)這么長(cháng)，內容太多，用戶(hù)很難往前看，也比較費力。對于這種文章，要學(xué)會(huì )重新整理文章的結構，挑一個(gè)點(diǎn)來(lái)寫(xiě)這個(gè)長(cháng)篇大論，放大，加上自己的看法。這個(gè)很專(zhuān)業(yè)，可以解決問(wèn)題。用戶(hù)問(wèn)題，也滿(mǎn)足搜索引擎需求。
　　4
　　營(yíng)造良好的瀏覽環(huán)境，提升用戶(hù)體驗
　　在編輯文章時(shí)，學(xué)會(huì )使用圖文結合的方式進(jìn)行排版，方便用戶(hù)閱讀，加深用戶(hù)對這段文字的理解，滿(mǎn)足用戶(hù)的需求。在整個(gè)文章的布局上，肯定比原來(lái)的文章還要好。用戶(hù)體驗一上來(lái)，搜索引擎自然就喜歡了，圖文并茂的網(wǎng)頁(yè)也受到搜索引擎的喜歡。
　　5
　　不要只是抄襲，要有自己的想法
　　記得簡(jiǎn)單復制或者修改一些文字，這些做法沒(méi)有任何價(jià)值，真的偽原創(chuàng )文章，保持原文章的中心思想，自己制作文章重新構想，然后根據自己對行業(yè)的想法和見(jiàn)解重新安排文章很有價(jià)值，我經(jīng)常建議大家這樣做。
　　綜上所述，隨著(zhù)搜索引擎的不斷升級，對文章的要求也越來(lái)越高，不僅僅是原創(chuàng )，還有真正能幫助用戶(hù)的優(yōu)質(zhì)內容。切記不要復制文章，對搜索引擎和用戶(hù)沒(méi)有任何價(jià)值，更新這種類(lèi)型的文章只會(huì )增加搜索引擎的負載，浪費用戶(hù)的時(shí)間。引擎不會(huì )抓取您的網(wǎng)站。所以，為了你的網(wǎng)站優(yōu)化有好的效果，不要使用各種采集文章。
　　當然，除了寫(xiě)出高質(zhì)量的文章內容，還需要考慮文章SEO優(yōu)化。具體文章優(yōu)化技術(shù)請參考《》。
　　【深網(wǎng)】6年全網(wǎng)營(yíng)銷(xiāo)經(jīng)驗，不僅幫助企業(yè)做好全網(wǎng)營(yíng)銷(xiāo)和管理，還免費幫助企業(yè)培養全網(wǎng)營(yíng)銷(xiāo)團隊，為您的企業(yè)網(wǎng)絡(luò )保駕護航——廣泛的營(yíng)銷(xiāo)之路。

解決方案:無(wú)規則采集器列表算法部分集圖算法涉及圖分析算法

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 82 次瀏覽 ? 2022-10-11 14:11 ? 來(lái)自相關(guān)話(huà)題

　　解決方案:無(wú)規則采集器列表算法部分集圖算法涉及圖分析算法
　　無(wú)規則采集器列表算法部分集圖算法涉及圖分析算法，搜索算法，版面提取算法，網(wǎng)格搜索算法等，不過(guò)他們只具備圖片搜索和版面提取算法。這些算法需要對圖像有基本的熟悉?？焖阉魉惴ǎ捍髨D：排序算法：大圖集圖，查詢(xún)算法：交集主集一組類(lèi)別等排序函數：熱圖(快搜索只提供主圖和查詢(xún)兩種類(lèi)型排序函數)全圖去重加權排序優(yōu)化：集圖去重縮放排序集圖匹配排序搜索速度：快如一秒。
　　
　　其實(shí)這個(gè)問(wèn)題應該問(wèn)@leowchou。@許哲說(shuō)的不全。他寫(xiě)的那一篇《快搜索的算法是怎么實(shí)現的》里提到了三種思路：圖類(lèi)型算法網(wǎng)格搜索算法灰度圖匹配算法而在我見(jiàn)過(guò)的快搜索算法里，一般只包含了第一種：匹配算法。我列出這三種，是因為每一種我都親自調過(guò)一遍?？赡苓€有需要調整的地方。下面簡(jiǎn)單說(shuō)一下用戶(hù)實(shí)現快搜索方法，這個(gè)比較好寫(xiě)。
　　先確定查詢(xún)或發(fā)布位置，然后搜索引擎向服務(wù)器發(fā)出請求，獲取某個(gè)區域某個(gè)元素出現的概率。概率小于某個(gè)閾值的，記錄，放在統計樹(shù)中，放入統計樹(shù)中（注意，統計樹(shù)包含多維數據）。分析概率高低，判斷哪個(gè)元素在區域出現最多。經(jīng)常會(huì )有個(gè)種子。其他有沒(méi)有對應的分詞詞庫或者數據庫之類(lèi)的。未必必須按照人類(lèi)的語(yǔ)言習慣設計。網(wǎng)絡(luò )搜索算法（類(lèi)似seo）。
　　
　　最基本的是鏈接查詢(xún)。你可以針對某個(gè)區域在搜索結果頁(yè)可能搜索出的頁(yè)面，自己匹配該區域某個(gè)元素，提取其中的鏈接。這種方法用戶(hù)體驗較差。字典匹配。同一個(gè)元素被多少個(gè)網(wǎng)絡(luò )服務(wù)器搜索到，取多少位。crawlthrough。分詞查詢(xún)（例如：partbypart），或者采用常用的trigram檢索算法?；叶葓D匹配。
　　google官方的，ab樹(shù)匹配，在uc瀏覽器、google一次搜索的結果，我都見(jiàn)過(guò)。這個(gè)我沒(méi)調出來(lái)，具體調出來(lái)了再說(shuō)。pagevaluefinding。就是圖像的查詢(xún)。經(jīng)常會(huì )以每幀查詢(xún)最多次數為概率分數，來(lái)確定每一幀查詢(xún)的集合。具體可以調出來(lái)。然后所有的標簽頁(yè)都做這個(gè)功能。優(yōu)化是必須的。這個(gè)和快搜索類(lèi)似，自己分析某個(gè)元素的具體值，以及分布，最后計算灰度值，或者灰度值計算時(shí)哪些項比較重要。
　　這種方法肯定會(huì )出現圖片的數量級較大。其實(shí)，這里說(shuō)的都是大概思路?？赡茏髡卟幌Ｍ阍谡嬲玫剿惴ǖ臅r(shí)候，才去想這些。手機碼字，寫(xiě)的不太嚴謹。供參考。查看全部

　　解決方案:無(wú)規則采集器列表算法部分集圖算法涉及圖分析算法
　　無(wú)規則采集器列表算法部分集圖算法涉及圖分析算法，搜索算法，版面提取算法，網(wǎng)格搜索算法等，不過(guò)他們只具備圖片搜索和版面提取算法。這些算法需要對圖像有基本的熟悉?？焖阉魉惴ǎ捍髨D：排序算法：大圖集圖，查詢(xún)算法：交集主集一組類(lèi)別等排序函數：熱圖(快搜索只提供主圖和查詢(xún)兩種類(lèi)型排序函數)全圖去重加權排序優(yōu)化：集圖去重縮放排序集圖匹配排序搜索速度：快如一秒。
　　

　　其實(shí)這個(gè)問(wèn)題應該問(wèn)@leowchou。@許哲說(shuō)的不全。他寫(xiě)的那一篇《快搜索的算法是怎么實(shí)現的》里提到了三種思路：圖類(lèi)型算法網(wǎng)格搜索算法灰度圖匹配算法而在我見(jiàn)過(guò)的快搜索算法里，一般只包含了第一種：匹配算法。我列出這三種，是因為每一種我都親自調過(guò)一遍?？赡苓€有需要調整的地方。下面簡(jiǎn)單說(shuō)一下用戶(hù)實(shí)現快搜索方法，這個(gè)比較好寫(xiě)。
　　先確定查詢(xún)或發(fā)布位置，然后搜索引擎向服務(wù)器發(fā)出請求，獲取某個(gè)區域某個(gè)元素出現的概率。概率小于某個(gè)閾值的，記錄，放在統計樹(shù)中，放入統計樹(shù)中（注意，統計樹(shù)包含多維數據）。分析概率高低，判斷哪個(gè)元素在區域出現最多。經(jīng)常會(huì )有個(gè)種子。其他有沒(méi)有對應的分詞詞庫或者數據庫之類(lèi)的。未必必須按照人類(lèi)的語(yǔ)言習慣設計。網(wǎng)絡(luò )搜索算法（類(lèi)似seo）。
　　

　　最基本的是鏈接查詢(xún)。你可以針對某個(gè)區域在搜索結果頁(yè)可能搜索出的頁(yè)面，自己匹配該區域某個(gè)元素，提取其中的鏈接。這種方法用戶(hù)體驗較差。字典匹配。同一個(gè)元素被多少個(gè)網(wǎng)絡(luò )服務(wù)器搜索到，取多少位。crawlthrough。分詞查詢(xún)（例如：partbypart），或者采用常用的trigram檢索算法?；叶葓D匹配。
　　google官方的，ab樹(shù)匹配，在uc瀏覽器、google一次搜索的結果，我都見(jiàn)過(guò)。這個(gè)我沒(méi)調出來(lái)，具體調出來(lái)了再說(shuō)。pagevaluefinding。就是圖像的查詢(xún)。經(jīng)常會(huì )以每幀查詢(xún)最多次數為概率分數，來(lái)確定每一幀查詢(xún)的集合。具體可以調出來(lái)。然后所有的標簽頁(yè)都做這個(gè)功能。優(yōu)化是必須的。這個(gè)和快搜索類(lèi)似，自己分析某個(gè)元素的具體值，以及分布，最后計算灰度值，或者灰度值計算時(shí)哪些項比較重要。
　　這種方法肯定會(huì )出現圖片的數量級較大。其實(shí)，這里說(shuō)的都是大概思路?？赡茏髡卟幌Ｍ阍谡嬲玫剿惴ǖ臅r(shí)候，才去想這些。手機碼字，寫(xiě)的不太嚴謹。供參考。

無(wú)規則采集器列表算法

話(huà)題描述

相關(guān)話(huà)題

最佳回復者

1 人關(guān)注該話(huà)題