免規則采集器列表算法
免規則采集器列表算法(優(yōu)采云采集器post傳遞數據的HTTP過(guò)程,怎么三分鐘使用采集發(fā)布? )
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 135 次瀏覽 ? 2022-02-17 23:16
)
優(yōu)采云采集器()作為采集行業(yè)老手采集器是一款功能強大但不易上手的專(zhuān)業(yè)采集軟件, 優(yōu)采云采集器捕獲數據的過(guò)程取決于用戶(hù)編寫(xiě)的規則。用戶(hù)必須分析來(lái)自目標站的html代碼中的唯一代碼標識符并遵守優(yōu)采云規則,發(fā)布模塊是向服務(wù)器提交采集數據,服務(wù)器程序自動(dòng)寫(xiě)入數據正確進(jìn)入數據庫。這里的服務(wù)端程序可以是網(wǎng)站程序,也可以是自己編寫(xiě)的接口,只要數據能正確寫(xiě)入數據庫即可。這里提交數據需要大家具備post抓包的基礎技術(shù)。簡(jiǎn)單說(shuō)一下post數據傳輸的過(guò)程。通過(guò)HTTP傳輸數據的方式主要有兩種,一種是get,一種是post。 get 一般用于獲取數據,可以攜帶少量參數數據。在此基礎上,post 可以承載大量的數據。 采集的發(fā)布規則是模擬向網(wǎng)站程序提交post請求,讓網(wǎng)站程序認為我們是人。如果您沒(méi)有權限,所有主要的 網(wǎng)站 程序都不會(huì )讓您發(fā)布 文章,所以!我們只能解密各大網(wǎng)站s的登錄算法,獲得用戶(hù)登錄憑證后才能正常發(fā)布文章。如果我們理解了原理,我們就可以開(kāi)始編寫(xiě)接口了!
對于小白和基礎程序員來(lái)說(shuō),一定是一頭霧水。完全掌握優(yōu)采云采集器大約需要一個(gè)月的時(shí)間。涉及的東西更多,知識面更廣!
你是否正面臨著(zhù)不使用優(yōu)采云采集發(fā)布、花費大量時(shí)間卻得不到結果的困境!還在為缺少 網(wǎng)站 內容而苦惱,不知道怎么辦?如何在三分鐘內用采集發(fā)帖?
1.打開(kāi)軟件只需輸入關(guān)鍵詞即可實(shí)現全自動(dòng)采集,實(shí)現多站點(diǎn)采集發(fā)布,采集@自動(dòng)過(guò)濾>文章,與行業(yè)無(wú)關(guān)文章,保證內容100%相關(guān)性,全自動(dòng)批量掛機采集,無(wú)縫對接各大cms出版商, 采集之后自動(dòng)發(fā)布推送到搜索引擎!
2.全平臺cms發(fā)行商是目前市面上唯一支持Empire, Yiyou, ZBLOG, 織夢(mèng), WP, PB, Apple, 搜外等大cms,不用寫(xiě)發(fā)布模塊,一個(gè)可以同時(shí)管理和批量發(fā)布的工具,可以發(fā)布不同類(lèi)型的不同欄目列表文章,只需要一個(gè)配置簡(jiǎn)單,還有很多SEO功能讓你網(wǎng)站Quick收錄!
3. SEO功能:標題前綴和后綴設置、內容關(guān)鍵詞插入、隨機圖片插入、搜索引擎推送、隨機點(diǎn)贊-隨機閱讀-隨機作者、內容與標題一致、自動(dòng)內鏈,定期發(fā)布。
再也不用擔心網(wǎng)站沒(méi)有內容,網(wǎng)站收錄低。使用以上軟件可以自動(dòng)采集最新優(yōu)質(zhì)內容,并配置多種數據處理選項,標簽、鏈接、郵件等格式處理,使網(wǎng)站內容獨一無(wú)二,快速增加網(wǎng)站 流量!高性能產(chǎn)品,全自動(dòng)運行!另外,要免費找到一位盡職盡責的作者非常困難??赐赀@篇文章,如果你覺(jué)得不錯,不妨采集起來(lái),或者發(fā)給需要的朋友和同事!
查看全部
免規則采集器列表算法(優(yōu)采云采集器post傳遞數據的HTTP過(guò)程,怎么三分鐘使用采集發(fā)布?
)
優(yōu)采云采集器()作為采集行業(yè)老手采集器是一款功能強大但不易上手的專(zhuān)業(yè)采集軟件, 優(yōu)采云采集器捕獲數據的過(guò)程取決于用戶(hù)編寫(xiě)的規則。用戶(hù)必須分析來(lái)自目標站的html代碼中的唯一代碼標識符并遵守優(yōu)采云規則,發(fā)布模塊是向服務(wù)器提交采集數據,服務(wù)器程序自動(dòng)寫(xiě)入數據正確進(jìn)入數據庫。這里的服務(wù)端程序可以是網(wǎng)站程序,也可以是自己編寫(xiě)的接口,只要數據能正確寫(xiě)入數據庫即可。這里提交數據需要大家具備post抓包的基礎技術(shù)。簡(jiǎn)單說(shuō)一下post數據傳輸的過(guò)程。通過(guò)HTTP傳輸數據的方式主要有兩種,一種是get,一種是post。 get 一般用于獲取數據,可以攜帶少量參數數據。在此基礎上,post 可以承載大量的數據。 采集的發(fā)布規則是模擬向網(wǎng)站程序提交post請求,讓網(wǎng)站程序認為我們是人。如果您沒(méi)有權限,所有主要的 網(wǎng)站 程序都不會(huì )讓您發(fā)布 文章,所以!我們只能解密各大網(wǎng)站s的登錄算法,獲得用戶(hù)登錄憑證后才能正常發(fā)布文章。如果我們理解了原理,我們就可以開(kāi)始編寫(xiě)接口了!

對于小白和基礎程序員來(lái)說(shuō),一定是一頭霧水。完全掌握優(yōu)采云采集器大約需要一個(gè)月的時(shí)間。涉及的東西更多,知識面更廣!

你是否正面臨著(zhù)不使用優(yōu)采云采集發(fā)布、花費大量時(shí)間卻得不到結果的困境!還在為缺少 網(wǎng)站 內容而苦惱,不知道怎么辦?如何在三分鐘內用采集發(fā)帖?

1.打開(kāi)軟件只需輸入關(guān)鍵詞即可實(shí)現全自動(dòng)采集,實(shí)現多站點(diǎn)采集發(fā)布,采集@自動(dòng)過(guò)濾>文章,與行業(yè)無(wú)關(guān)文章,保證內容100%相關(guān)性,全自動(dòng)批量掛機采集,無(wú)縫對接各大cms出版商, 采集之后自動(dòng)發(fā)布推送到搜索引擎!

2.全平臺cms發(fā)行商是目前市面上唯一支持Empire, Yiyou, ZBLOG, 織夢(mèng), WP, PB, Apple, 搜外等大cms,不用寫(xiě)發(fā)布模塊,一個(gè)可以同時(shí)管理和批量發(fā)布的工具,可以發(fā)布不同類(lèi)型的不同欄目列表文章,只需要一個(gè)配置簡(jiǎn)單,還有很多SEO功能讓你網(wǎng)站Quick收錄!

3. SEO功能:標題前綴和后綴設置、內容關(guān)鍵詞插入、隨機圖片插入、搜索引擎推送、隨機點(diǎn)贊-隨機閱讀-隨機作者、內容與標題一致、自動(dòng)內鏈,定期發(fā)布。

再也不用擔心網(wǎng)站沒(méi)有內容,網(wǎng)站收錄低。使用以上軟件可以自動(dòng)采集最新優(yōu)質(zhì)內容,并配置多種數據處理選項,標簽、鏈接、郵件等格式處理,使網(wǎng)站內容獨一無(wú)二,快速增加網(wǎng)站 流量!高性能產(chǎn)品,全自動(dòng)運行!另外,要免費找到一位盡職盡責的作者非常困難??赐赀@篇文章,如果你覺(jué)得不錯,不妨采集起來(lái),或者發(fā)給需要的朋友和同事!
免規則采集器列表算法(開(kāi)發(fā)商推出8.3新版本支持免規則采集任意網(wǎng)站(圖))
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 114 次瀏覽 ? 2022-02-15 07:17
<p>國內站群領(lǐng)域開(kāi)發(fā)者DIY-Page于6月24日推出8.3新版本。 據悉,該版本最大的亮點(diǎn)是對無(wú)規則< @采集任何網(wǎng)站。官方表示,只要在程序中填寫(xiě)任意一個(gè)URL,不寫(xiě)任何規則,程序就能在 查看全部
免規則采集器列表算法(開(kāi)發(fā)商推出8.3新版本支持免規則采集任意網(wǎng)站(圖))
<p>國內站群領(lǐng)域開(kāi)發(fā)者DIY-Page于6月24日推出8.3新版本。 據悉,該版本最大的亮點(diǎn)是對無(wú)規則< @采集任何網(wǎng)站。官方表示,只要在程序中填寫(xiě)任意一個(gè)URL,不寫(xiě)任何規則,程序就能在
免規則采集器列表算法(華為云數據庫GuassDB:推薦系統偏差引發(fā)的思考(組圖))
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 161 次瀏覽 ? 2022-02-14 05:11
作者:華為云數據庫 GuassDB (for Redis) 團隊
一、關(guān)于推薦偏差的思考
七夕節過(guò)后,筆者的一位朋友遇到了一件尷尬的事情:女友點(diǎn)擊他的購物App,自動(dòng)彈出一連串推薦:玫瑰免運費、感動(dòng)哭、浪漫夜燈……回首往事七夕那天,禮物沒(méi)有出現,所以問(wèn)題來(lái)了:從真正的把戲中,你送的是誰(shuí)?
為了幫助朋友重建信任,筆者進(jìn)行了一些技術(shù)研究:這一定是偏離了“推薦系統”。
推薦系統是一種信息過(guò)濾系統,可以快速分析海量用戶(hù)行為數據,預測用戶(hù)偏好,做出有效推薦。在產(chǎn)品推薦、廣告投放等業(yè)務(wù)中,推薦系統肩負重任。
在本文開(kāi)頭的示例中,正是推薦系統問(wèn)題導致了尷尬的場(chǎng)景。作者決定以可靠的知識支持朋友和說(shuō)服人們!
二、推薦系統長(cháng)什么樣
一般來(lái)說(shuō),在一個(gè)成熟的推薦系統中,分布式計算、特征存儲和推薦算法是三個(gè)關(guān)鍵環(huán)節,缺一不可。
下面介紹一個(gè)完整的推薦系統,其中GaussDB(for Redis)負責核心特征數據的存儲。該系統也是眾多華為云客戶(hù)案例中較為成熟的最佳實(shí)踐之一。
第 1 部分:獲取特征數據
點(diǎn)贊、采集、評論、購買(mǎi)……這些行為都是原創(chuàng )數據,隨時(shí)發(fā)生,數據量巨大。它通過(guò)Kafka和Redis Stream等流組件向下游傳遞,或者存儲在數據倉庫中,等待以后提取和使用。
原創(chuàng )數據是離散的、模糊的,算法不能直接使用。這時(shí),需要進(jìn)行大規模的離線(xiàn)和在線(xiàn)計算來(lái)處理數據。Spark和Flink是典型的大數據計算組件,其強大的分布式計算能力對于推薦系統來(lái)說(shuō)是不可或缺的。
處理后的數據,即特征和標簽,是推薦算法的寶貴數據源。在某些場(chǎng)景下,也可以稱(chēng)為用戶(hù)畫(huà)像或物品畫(huà)像。這部分數據具有重復共享和重用的價(jià)值。它不僅可以用來(lái)訓練算法模型,還可以為生產(chǎn)環(huán)境提供服務(wù)。
確保特征數據的可靠存儲是推薦系統中極其關(guān)鍵的部分。
第二部分:消費特征數據
有了關(guān)鍵的特征數據,業(yè)務(wù)就可以開(kāi)始訓練算法模型了。只有充分利用特征庫和最新的行為數據,不斷打磨推薦算法,才能提升推薦系統的整體水平,最終給用戶(hù)帶來(lái)更好的體驗。
算法模型訓練完成后,將部署到線(xiàn)上生產(chǎn)環(huán)境。它將繼續利用現有的特征存儲,根據用戶(hù)的實(shí)時(shí)行為進(jìn)行推斷,快速預測出與用戶(hù)最匹配的優(yōu)質(zhì)內容,形成推薦列表,推送給終端用戶(hù)。
三、推薦系統的存儲問(wèn)題
顯然,“特征數據”在整個(gè)系統中起著(zhù)關(guān)鍵的鏈接作用。由于 KV 形式的數據抽象與特征數據非常接近,Redis 在推薦系統中往往是不可或缺的。
上述系統方案中,數據庫選用的是GaussDB(for Redis),而不是開(kāi)源的Redis。究其原因,開(kāi)源 Redis 在大數據場(chǎng)景中仍然存在明顯的痛點(diǎn):
1. 數據無(wú)法可靠存儲
推薦系統其實(shí)是希望使用KV數據庫,并且可以放心的將數據長(cháng)期存儲。但開(kāi)源 Redis 的能力更側重于數據緩存加速而不是數據存儲。而且,開(kāi)源的Redis畢竟是純內存設計。即使有 AOF 持久化,通常也只能在幾秒鐘內放到磁盤(pán)上,數據存儲也不可靠。
2. 數據量上不去,成本上不去
涉及到推薦的業(yè)務(wù)往往規模不小,隨著(zhù)業(yè)務(wù)的發(fā)展,需要保存的特征數據也會(huì )越來(lái)越多。事實(shí)上,同樣容量的內存比極速SSD貴10倍以上是正常的。所以當數據量達到幾十GB或者幾百GB的時(shí)候,開(kāi)源的Redis會(huì )越來(lái)越“燒錢(qián)”,所以一般只作為“小”緩存使用。此外,開(kāi)源 Redis 本身的分叉問(wèn)題導致容量利用率低,對硬件資源造成極大浪費。
3. 水庫灌溉效果不佳
特征數據需要定期更新,大規模的數據注入任務(wù)往往需要數小時(shí)或數天才能完成。如果存儲組件不夠“瘦”,大量寫(xiě)入會(huì )導致數據庫故障,進(jìn)而導致整個(gè)推薦系統出現故障。這可能會(huì )導致開(kāi)頭提到的尷尬用戶(hù)體驗。
開(kāi)源的 Redis 不是很抗寫(xiě)。這是因為集群中有一半的節點(diǎn)是備用節點(diǎn),只能處理讀取請求。當大批量寫(xiě)入到來(lái)時(shí),主節點(diǎn)容易出現問(wèn)題,造成連鎖反應。
理論上,架構設計越復雜越好。如果可能的話(huà),誰(shuí)不想使用一個(gè)可靠的數據存儲引擎,可以兼顧KV類(lèi)型的特征數據,性?xún)r(jià)比高,性能有保障?
四、認識 GaussDB(用于 Redis)
與開(kāi)源Redis不同,GaussDB(for Redis)基于存儲和計算分離,為推薦系統等大數據場(chǎng)景帶來(lái)關(guān)鍵技術(shù)價(jià)值:
1. 可靠存儲
數據以命令級別放在磁盤(pán)上,三份冗余存儲在底層存儲池中,真正做到了零丟失。
2. 降本增效
高性能持久化技術(shù)+細粒度存儲池,幫助企業(yè)降低數據庫使用成本75%以上。
3. 抗寫(xiě)能力強
多線(xiàn)程設計+所有節點(diǎn)可寫(xiě),抗寫(xiě)能力強,足以應對Spark庫填充和實(shí)時(shí)更新的壓力。華為云企業(yè)級數據庫GaussDB(for Redis)提供穩定可靠的KV存儲能力,是推薦系統核心數據的絕佳選擇。
五、完美連接,實(shí)現想存就存的自由
事實(shí)上,在 Spark 后端訪(fǎng)問(wèn) Redis 已經(jīng)成為主流方案,使用 Flink 從 Redis 中提取維表也很常見(jiàn)。它們還都提供了用于訪(fǎng)問(wèn) Redis 的連接器。GaussDB(for Redis)完全兼容Redis協(xié)議,用戶(hù)可以隨時(shí)快速創(chuàng )建實(shí)例和訪(fǎng)問(wèn)服務(wù)。
1. Spark-Redis-Connector
Spark-Redis-Connector完美實(shí)現了Spark RDD、DataFrame到GaussDB(for Redis)實(shí)例中String、Hash、List、Set等結構的映射。用戶(hù)可以使用熟悉的 Spark SQL 語(yǔ)法輕松訪(fǎng)問(wèn) GaussDB(用于 Redis),完成特征數據填充、更新、提取等關(guān)鍵任務(wù)。
如何使用它非常簡(jiǎn)單:
1)當你需要將Hash、List和Set結構讀取到Spark RDD時(shí),只需要一行就可以完成:
2)而推薦系統在填庫或者更新特征數據的時(shí)候,可以很方便的寫(xiě)成如下:
2. Flink-Redis-Connector
Flink這個(gè)計算引擎和Spark一樣流行,也有成熟的Redis連接方案。使用 Flink 提供的 Connector 或者結合 Jedis 客戶(hù)端,可以輕松完成 Flink 到 Redis 的讀寫(xiě)操作。
以使用 Flink 統計詞頻的簡(jiǎn)單場(chǎng)景為例。數據源經(jīng)過(guò) Flink 處理后,可以很方便的存入 GaussDB(用于 Redis)。
六、結束語(yǔ)
大數據應用對核心數據的存儲要求很高。ApsaraDB for GaussDB(for Redis)具有存儲和計算分離的云原生架構。在完全兼容Redis協(xié)議的基礎上,在穩定性和可靠性上也實(shí)現了整體領(lǐng)先。. 面對海量核心數據存儲,也能為企業(yè)帶來(lái)可觀(guān)的成本節約。面向未來(lái),GaussDB(for Redis)具有成為下一波大數據浪潮新星的巨大潛力。 查看全部
免規則采集器列表算法(華為云數據庫GuassDB:推薦系統偏差引發(fā)的思考(組圖))
作者:華為云數據庫 GuassDB (for Redis) 團隊
一、關(guān)于推薦偏差的思考
七夕節過(guò)后,筆者的一位朋友遇到了一件尷尬的事情:女友點(diǎn)擊他的購物App,自動(dòng)彈出一連串推薦:玫瑰免運費、感動(dòng)哭、浪漫夜燈……回首往事七夕那天,禮物沒(méi)有出現,所以問(wèn)題來(lái)了:從真正的把戲中,你送的是誰(shuí)?
為了幫助朋友重建信任,筆者進(jìn)行了一些技術(shù)研究:這一定是偏離了“推薦系統”。
推薦系統是一種信息過(guò)濾系統,可以快速分析海量用戶(hù)行為數據,預測用戶(hù)偏好,做出有效推薦。在產(chǎn)品推薦、廣告投放等業(yè)務(wù)中,推薦系統肩負重任。
在本文開(kāi)頭的示例中,正是推薦系統問(wèn)題導致了尷尬的場(chǎng)景。作者決定以可靠的知識支持朋友和說(shuō)服人們!
二、推薦系統長(cháng)什么樣
一般來(lái)說(shuō),在一個(gè)成熟的推薦系統中,分布式計算、特征存儲和推薦算法是三個(gè)關(guān)鍵環(huán)節,缺一不可。
下面介紹一個(gè)完整的推薦系統,其中GaussDB(for Redis)負責核心特征數據的存儲。該系統也是眾多華為云客戶(hù)案例中較為成熟的最佳實(shí)踐之一。
第 1 部分:獲取特征數據
點(diǎn)贊、采集、評論、購買(mǎi)……這些行為都是原創(chuàng )數據,隨時(shí)發(fā)生,數據量巨大。它通過(guò)Kafka和Redis Stream等流組件向下游傳遞,或者存儲在數據倉庫中,等待以后提取和使用。
原創(chuàng )數據是離散的、模糊的,算法不能直接使用。這時(shí),需要進(jìn)行大規模的離線(xiàn)和在線(xiàn)計算來(lái)處理數據。Spark和Flink是典型的大數據計算組件,其強大的分布式計算能力對于推薦系統來(lái)說(shuō)是不可或缺的。
處理后的數據,即特征和標簽,是推薦算法的寶貴數據源。在某些場(chǎng)景下,也可以稱(chēng)為用戶(hù)畫(huà)像或物品畫(huà)像。這部分數據具有重復共享和重用的價(jià)值。它不僅可以用來(lái)訓練算法模型,還可以為生產(chǎn)環(huán)境提供服務(wù)。
確保特征數據的可靠存儲是推薦系統中極其關(guān)鍵的部分。
第二部分:消費特征數據
有了關(guān)鍵的特征數據,業(yè)務(wù)就可以開(kāi)始訓練算法模型了。只有充分利用特征庫和最新的行為數據,不斷打磨推薦算法,才能提升推薦系統的整體水平,最終給用戶(hù)帶來(lái)更好的體驗。
算法模型訓練完成后,將部署到線(xiàn)上生產(chǎn)環(huán)境。它將繼續利用現有的特征存儲,根據用戶(hù)的實(shí)時(shí)行為進(jìn)行推斷,快速預測出與用戶(hù)最匹配的優(yōu)質(zhì)內容,形成推薦列表,推送給終端用戶(hù)。
三、推薦系統的存儲問(wèn)題
顯然,“特征數據”在整個(gè)系統中起著(zhù)關(guān)鍵的鏈接作用。由于 KV 形式的數據抽象與特征數據非常接近,Redis 在推薦系統中往往是不可或缺的。
上述系統方案中,數據庫選用的是GaussDB(for Redis),而不是開(kāi)源的Redis。究其原因,開(kāi)源 Redis 在大數據場(chǎng)景中仍然存在明顯的痛點(diǎn):
1. 數據無(wú)法可靠存儲
推薦系統其實(shí)是希望使用KV數據庫,并且可以放心的將數據長(cháng)期存儲。但開(kāi)源 Redis 的能力更側重于數據緩存加速而不是數據存儲。而且,開(kāi)源的Redis畢竟是純內存設計。即使有 AOF 持久化,通常也只能在幾秒鐘內放到磁盤(pán)上,數據存儲也不可靠。
2. 數據量上不去,成本上不去
涉及到推薦的業(yè)務(wù)往往規模不小,隨著(zhù)業(yè)務(wù)的發(fā)展,需要保存的特征數據也會(huì )越來(lái)越多。事實(shí)上,同樣容量的內存比極速SSD貴10倍以上是正常的。所以當數據量達到幾十GB或者幾百GB的時(shí)候,開(kāi)源的Redis會(huì )越來(lái)越“燒錢(qián)”,所以一般只作為“小”緩存使用。此外,開(kāi)源 Redis 本身的分叉問(wèn)題導致容量利用率低,對硬件資源造成極大浪費。
3. 水庫灌溉效果不佳
特征數據需要定期更新,大規模的數據注入任務(wù)往往需要數小時(shí)或數天才能完成。如果存儲組件不夠“瘦”,大量寫(xiě)入會(huì )導致數據庫故障,進(jìn)而導致整個(gè)推薦系統出現故障。這可能會(huì )導致開(kāi)頭提到的尷尬用戶(hù)體驗。
開(kāi)源的 Redis 不是很抗寫(xiě)。這是因為集群中有一半的節點(diǎn)是備用節點(diǎn),只能處理讀取請求。當大批量寫(xiě)入到來(lái)時(shí),主節點(diǎn)容易出現問(wèn)題,造成連鎖反應。
理論上,架構設計越復雜越好。如果可能的話(huà),誰(shuí)不想使用一個(gè)可靠的數據存儲引擎,可以兼顧KV類(lèi)型的特征數據,性?xún)r(jià)比高,性能有保障?
四、認識 GaussDB(用于 Redis)
與開(kāi)源Redis不同,GaussDB(for Redis)基于存儲和計算分離,為推薦系統等大數據場(chǎng)景帶來(lái)關(guān)鍵技術(shù)價(jià)值:
1. 可靠存儲
數據以命令級別放在磁盤(pán)上,三份冗余存儲在底層存儲池中,真正做到了零丟失。
2. 降本增效
高性能持久化技術(shù)+細粒度存儲池,幫助企業(yè)降低數據庫使用成本75%以上。
3. 抗寫(xiě)能力強
多線(xiàn)程設計+所有節點(diǎn)可寫(xiě),抗寫(xiě)能力強,足以應對Spark庫填充和實(shí)時(shí)更新的壓力。華為云企業(yè)級數據庫GaussDB(for Redis)提供穩定可靠的KV存儲能力,是推薦系統核心數據的絕佳選擇。
五、完美連接,實(shí)現想存就存的自由
事實(shí)上,在 Spark 后端訪(fǎng)問(wèn) Redis 已經(jīng)成為主流方案,使用 Flink 從 Redis 中提取維表也很常見(jiàn)。它們還都提供了用于訪(fǎng)問(wèn) Redis 的連接器。GaussDB(for Redis)完全兼容Redis協(xié)議,用戶(hù)可以隨時(shí)快速創(chuàng )建實(shí)例和訪(fǎng)問(wèn)服務(wù)。
1. Spark-Redis-Connector
Spark-Redis-Connector完美實(shí)現了Spark RDD、DataFrame到GaussDB(for Redis)實(shí)例中String、Hash、List、Set等結構的映射。用戶(hù)可以使用熟悉的 Spark SQL 語(yǔ)法輕松訪(fǎng)問(wèn) GaussDB(用于 Redis),完成特征數據填充、更新、提取等關(guān)鍵任務(wù)。
如何使用它非常簡(jiǎn)單:
1)當你需要將Hash、List和Set結構讀取到Spark RDD時(shí),只需要一行就可以完成:
2)而推薦系統在填庫或者更新特征數據的時(shí)候,可以很方便的寫(xiě)成如下:
2. Flink-Redis-Connector
Flink這個(gè)計算引擎和Spark一樣流行,也有成熟的Redis連接方案。使用 Flink 提供的 Connector 或者結合 Jedis 客戶(hù)端,可以輕松完成 Flink 到 Redis 的讀寫(xiě)操作。
以使用 Flink 統計詞頻的簡(jiǎn)單場(chǎng)景為例。數據源經(jīng)過(guò) Flink 處理后,可以很方便的存入 GaussDB(用于 Redis)。
六、結束語(yǔ)
大數據應用對核心數據的存儲要求很高。ApsaraDB for GaussDB(for Redis)具有存儲和計算分離的云原生架構。在完全兼容Redis協(xié)議的基礎上,在穩定性和可靠性上也實(shí)現了整體領(lǐng)先。. 面對海量核心數據存儲,也能為企業(yè)帶來(lái)可觀(guān)的成本節約。面向未來(lái),GaussDB(for Redis)具有成為下一波大數據浪潮新星的巨大潛力。
免規則采集器列表算法(網(wǎng)站開(kāi)發(fā)列表現面對的網(wǎng)站,保留原功能的基礎上開(kāi)發(fā))
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 78 次瀏覽 ? 2022-02-13 09:19
<p>網(wǎng)站開(kāi)發(fā)列表面網(wǎng)站,在保留原有功能的基礎上開(kāi)發(fā)一、網(wǎng)站程序部分1、??增加功能偽原創(chuàng )的標題和內容可以實(shí)現,偽原創(chuàng )偽原創(chuàng )2、??? 添加生成靜態(tài)頁(yè)面的功能:生成時(shí)使用靜態(tài)訪(fǎng)問(wèn),不生成時(shí)使用偽靜態(tài)訪(fǎng)問(wèn),現在是偽靜態(tài),?這里增加了配置靜態(tài)和動(dòng)態(tài)切換的功能,3、???后臺問(wèn)題無(wú)法查看修復用戶(hù)詢(xún)問(wèn)后管理員會(huì )報錯無(wú)法成功查看4、的內容@采集和本站原創(chuàng )的內容分開(kāi)存放,不影響前臺訪(fǎng)問(wèn)。用戶(hù)密碼改為MD5加密算法5、 增加cms文章功能。文章系統,可以是 查看全部
免規則采集器列表算法(網(wǎng)站開(kāi)發(fā)列表現面對的網(wǎng)站,保留原功能的基礎上開(kāi)發(fā))
<p>網(wǎng)站開(kāi)發(fā)列表面網(wǎng)站,在保留原有功能的基礎上開(kāi)發(fā)一、網(wǎng)站程序部分1、??增加功能偽原創(chuàng )的標題和內容可以實(shí)現,偽原創(chuàng )偽原創(chuàng )2、??? 添加生成靜態(tài)頁(yè)面的功能:生成時(shí)使用靜態(tài)訪(fǎng)問(wèn),不生成時(shí)使用偽靜態(tài)訪(fǎng)問(wèn),現在是偽靜態(tài),?這里增加了配置靜態(tài)和動(dòng)態(tài)切換的功能,3、???后臺問(wèn)題無(wú)法查看修復用戶(hù)詢(xún)問(wèn)后管理員會(huì )報錯無(wú)法成功查看4、的內容@采集和本站原創(chuàng )的內容分開(kāi)存放,不影響前臺訪(fǎng)問(wèn)。用戶(hù)密碼改為MD5加密算法5、 增加cms文章功能。文章系統,可以是
免規則采集器列表算法(免規則采集器列表:2d平面尋路:三維立體定位算法)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 127 次瀏覽 ? 2022-02-10 16:08
免規則采集器列表算法:2d平面尋路算法slam:三維立體定位算法雷達導航:wgs84
不局限于地理信息系統的話(huà),
查詢(xún)下國家的數據,不過(guò)有的數據有的機構是未對外發(fā)布的。進(jìn)入百度web開(kāi)發(fā)者平臺,找到webgraph的頁(yè)面。
geojson,georgia和imgur,可以關(guān)注下這三個(gè)網(wǎng)站。
建議多瀏覽一些地理數據資源網(wǎng)站,特別是個(gè)大的erp軟件開(kāi)發(fā)商。gis之星也有他們的產(chǎn)品庫,可以供采集使用。
建議找geopython,你可以看一下,
feign或者tor
可以參考一下papai仿真,看上去很“復雜”其實(shí)參數設置很簡(jiǎn)單,甚至不需要編程。
百度一下行么?
無(wú)覓網(wǎng)和去哪兒webstore,
wikimap,國內比較好的數據平臺了,可以滿(mǎn)足你的需求。wikimap[圖源搜狗識圖]去哪兒webstore,國內比較好的數據平臺了,可以滿(mǎn)足你的需求。
地理設計師(可視化地理設計技術(shù)與方法)一站式平臺
最基本的gis知識:矢量、柵格、ogc、地球化學(xué)、地質(zhì)學(xué)等,然后多上google、百度、seo101、bing、地理國情監測云平臺等網(wǎng)站,上面有大量的來(lái)源于國內外gis的資源。如果有能力,去申請arcgis開(kāi)發(fā)者注冊個(gè)號當然更好。 查看全部
免規則采集器列表算法(免規則采集器列表:2d平面尋路:三維立體定位算法)
免規則采集器列表算法:2d平面尋路算法slam:三維立體定位算法雷達導航:wgs84
不局限于地理信息系統的話(huà),
查詢(xún)下國家的數據,不過(guò)有的數據有的機構是未對外發(fā)布的。進(jìn)入百度web開(kāi)發(fā)者平臺,找到webgraph的頁(yè)面。
geojson,georgia和imgur,可以關(guān)注下這三個(gè)網(wǎng)站。
建議多瀏覽一些地理數據資源網(wǎng)站,特別是個(gè)大的erp軟件開(kāi)發(fā)商。gis之星也有他們的產(chǎn)品庫,可以供采集使用。
建議找geopython,你可以看一下,
feign或者tor
可以參考一下papai仿真,看上去很“復雜”其實(shí)參數設置很簡(jiǎn)單,甚至不需要編程。
百度一下行么?
無(wú)覓網(wǎng)和去哪兒webstore,
wikimap,國內比較好的數據平臺了,可以滿(mǎn)足你的需求。wikimap[圖源搜狗識圖]去哪兒webstore,國內比較好的數據平臺了,可以滿(mǎn)足你的需求。
地理設計師(可視化地理設計技術(shù)與方法)一站式平臺
最基本的gis知識:矢量、柵格、ogc、地球化學(xué)、地質(zhì)學(xué)等,然后多上google、百度、seo101、bing、地理國情監測云平臺等網(wǎng)站,上面有大量的來(lái)源于國內外gis的資源。如果有能力,去申請arcgis開(kāi)發(fā)者注冊個(gè)號當然更好。
免規則采集器列表算法(如何抓包獲取Cookie,并且并且手動(dòng)設置?(組圖))
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 124 次瀏覽 ? 2022-02-09 23:28
優(yōu)采云采集器是新一代智能網(wǎng)頁(yè)采集工具,智能分析,可視化界面,一鍵式采集無(wú)需編程,支持自動(dòng)生成采集可以采集99% 的互聯(lián)網(wǎng)網(wǎng)站 的腳本。該軟件簡(jiǎn)單易學(xué)。通過(guò)智能算法+可視化界面,你可以抓取任何你想要的數據。采集網(wǎng)頁(yè)上的數據只需點(diǎn)擊一下即可。
【軟件特色】
一鍵提取數據
簡(jiǎn)單易學(xué),通過(guò)可視化界面,鼠標點(diǎn)擊即可抓取數據
快速高效
內置一套高速瀏覽器內核,配合HTTP引擎模式,實(shí)現快速采集數據
適用于各種網(wǎng)站
能夠采集99%的互聯(lián)網(wǎng)網(wǎng)站,包括單頁(yè)應用Ajax加載等動(dòng)態(tài)類(lèi)型網(wǎng)站
【特征】
向導模式
使用簡(jiǎn)單,通過(guò)鼠標點(diǎn)擊輕松自動(dòng)生成
定期運行的腳本
無(wú)需人工即可按計劃運行
原裝高速核心
自研瀏覽器內核速度快,遠超對手
智能識別
智能識別網(wǎng)頁(yè)中的列表和表單結構(多選框下拉列表等)
廣告攔截
自定義廣告攔截模塊,兼容AdblockPlus語(yǔ)法,可添加自定義規則
各種數據導出
支持Txt、Excel、MySQL、SQLServer、SQlite、Access、網(wǎng)站等。
【手動(dòng)的】
輸入 采集網(wǎng)址
打開(kāi)軟件,新建一個(gè)任務(wù),輸入需要采集的網(wǎng)站地址。
智能分析,全程數據自動(dòng)提取
進(jìn)入第二步后,優(yōu)采云采集器自動(dòng)智能分析網(wǎng)頁(yè),從中提取列表數據。
將數據導出到表、數據庫、網(wǎng)站 等。
運行任務(wù),將采集中的數據導出到Csv、Excel等各種數據庫,支持api導出。
【常見(jiàn)問(wèn)題】
Q:如何過(guò)濾列表中的前N個(gè)數據?
1、有時(shí)我們需要對采集收到的列表進(jìn)行過(guò)濾,比如過(guò)濾掉第一組數據(當采集表時(shí),過(guò)濾掉表列名)
2、點(diǎn)擊列表模式菜單設置列表xpath
Q:如何抓包獲取cookies并手動(dòng)設置?
1、首先用谷歌瀏覽器打開(kāi)網(wǎng)站為采集,登錄。
2、 然后按F12,會(huì )出現開(kāi)發(fā)者工具,選擇Network
3、然后按 F5 刷新下一頁(yè)并選擇其中一個(gè)請求。
4、復制完成后,在優(yōu)采云采集器中,編輯任務(wù),進(jìn)入第三步,指定HTTP Header。
【更新日志】
V2.1.8.0
1、添加插件功能
2、添加導出txt(一個(gè)文件保存為一個(gè)文件)
3、多值連接器支持換行
4、為數據處理修改了文本映射(支持查找和替換)
5、修復了登錄時(shí)的 DNS 問(wèn)題
6、修復圖片下載問(wèn)題
7、修復一些json問(wèn)題 查看全部
免規則采集器列表算法(如何抓包獲取Cookie,并且并且手動(dòng)設置?(組圖))
優(yōu)采云采集器是新一代智能網(wǎng)頁(yè)采集工具,智能分析,可視化界面,一鍵式采集無(wú)需編程,支持自動(dòng)生成采集可以采集99% 的互聯(lián)網(wǎng)網(wǎng)站 的腳本。該軟件簡(jiǎn)單易學(xué)。通過(guò)智能算法+可視化界面,你可以抓取任何你想要的數據。采集網(wǎng)頁(yè)上的數據只需點(diǎn)擊一下即可。

【軟件特色】
一鍵提取數據
簡(jiǎn)單易學(xué),通過(guò)可視化界面,鼠標點(diǎn)擊即可抓取數據
快速高效
內置一套高速瀏覽器內核,配合HTTP引擎模式,實(shí)現快速采集數據
適用于各種網(wǎng)站
能夠采集99%的互聯(lián)網(wǎng)網(wǎng)站,包括單頁(yè)應用Ajax加載等動(dòng)態(tài)類(lèi)型網(wǎng)站
【特征】
向導模式
使用簡(jiǎn)單,通過(guò)鼠標點(diǎn)擊輕松自動(dòng)生成
定期運行的腳本
無(wú)需人工即可按計劃運行
原裝高速核心
自研瀏覽器內核速度快,遠超對手
智能識別
智能識別網(wǎng)頁(yè)中的列表和表單結構(多選框下拉列表等)
廣告攔截
自定義廣告攔截模塊,兼容AdblockPlus語(yǔ)法,可添加自定義規則
各種數據導出
支持Txt、Excel、MySQL、SQLServer、SQlite、Access、網(wǎng)站等。

【手動(dòng)的】
輸入 采集網(wǎng)址
打開(kāi)軟件,新建一個(gè)任務(wù),輸入需要采集的網(wǎng)站地址。
智能分析,全程數據自動(dòng)提取
進(jìn)入第二步后,優(yōu)采云采集器自動(dòng)智能分析網(wǎng)頁(yè),從中提取列表數據。
將數據導出到表、數據庫、網(wǎng)站 等。
運行任務(wù),將采集中的數據導出到Csv、Excel等各種數據庫,支持api導出。

【常見(jiàn)問(wèn)題】
Q:如何過(guò)濾列表中的前N個(gè)數據?
1、有時(shí)我們需要對采集收到的列表進(jìn)行過(guò)濾,比如過(guò)濾掉第一組數據(當采集表時(shí),過(guò)濾掉表列名)
2、點(diǎn)擊列表模式菜單設置列表xpath
Q:如何抓包獲取cookies并手動(dòng)設置?
1、首先用谷歌瀏覽器打開(kāi)網(wǎng)站為采集,登錄。
2、 然后按F12,會(huì )出現開(kāi)發(fā)者工具,選擇Network
3、然后按 F5 刷新下一頁(yè)并選擇其中一個(gè)請求。
4、復制完成后,在優(yōu)采云采集器中,編輯任務(wù),進(jìn)入第三步,指定HTTP Header。
【更新日志】
V2.1.8.0
1、添加插件功能
2、添加導出txt(一個(gè)文件保存為一個(gè)文件)
3、多值連接器支持換行
4、為數據處理修改了文本映射(支持查找和替換)
5、修復了登錄時(shí)的 DNS 問(wèn)題
6、修復圖片下載問(wèn)題
7、修復一些json問(wèn)題
免規則采集器列表算法(,應用服務(wù)提供者需要一些智能化的指導算法(一)_)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 125 次瀏覽 ? 2022-02-09 08:01
互聯(lián)網(wǎng)的迅猛發(fā)展將我們帶入了信息社會(huì )和網(wǎng)絡(luò )經(jīng)濟時(shí)代,對企業(yè)的發(fā)展和個(gè)人生活產(chǎn)生了深遠的影響?;诨ヂ?lián)網(wǎng)電子商務(wù)模式的虛擬企業(yè)不再需要像傳統實(shí)體環(huán)境中的企業(yè)那樣需要大量的實(shí)體投資,還可以與客戶(hù)和供應商建立更直接的聯(lián)系。以用戶(hù)為中心的新興互聯(lián)網(wǎng)站點(diǎn)也可以?huà)侀_(kāi)傳統媒體的局限,以更豐富的方式將影響力傳遞給更多的潛在客戶(hù)。在虛擬環(huán)境中,網(wǎng)絡(luò )應用提供的商品或信息種類(lèi)繁多,數量眾多,用戶(hù)很難通過(guò)電腦屏幕一目了然地找到想要的信息。因此,應用服務(wù)商需要一些智能的引導算法,根據用戶(hù)的購買(mǎi)習慣等知識,推薦用戶(hù)可能感興趣的產(chǎn)品或信息,讓用戶(hù)輕松獲得所需。而且從實(shí)踐經(jīng)驗來(lái)看,用戶(hù)的需求往往是模糊不清的,對某些商品或信息可能存在潛在的偏好。這時(shí),如果服務(wù)提供者能夠向用戶(hù)推薦適合用戶(hù)的業(yè)務(wù)水晶或信息,就有可能將用戶(hù)的潛在需求變?yōu)楝F實(shí)并從中獲利。在此背景下,推薦系統(MendationSystems)應運而生,根據用戶(hù)的習慣、愛(ài)好等特征,推薦可能滿(mǎn)足用戶(hù)需求的對象。例如,以商品為推薦對象的電子商務(wù)個(gè)性化推薦系統、以新聞為推薦對象的社交新聞推薦系統等。推薦系統的實(shí)現方法有很多,但由于其面臨的數據特征種類(lèi)繁多,沒(méi)有現有的基礎推薦算法能夠在多種環(huán)境下取得良好的效果。一種混合使用多種基本方法的推薦策略。推薦系統的實(shí)現方法有很多,但由于其面臨的數據特征種類(lèi)繁多,沒(méi)有現有的基礎推薦算法能夠在多種環(huán)境下取得良好的效果。一種混合使用多種基本方法的推薦策略。推薦系統的實(shí)現方法有很多,但由于其面臨的數據特征種類(lèi)繁多,現有的基本推薦算法都無(wú)法在多種環(huán)境下取得良好的效果。一種混合使用多種基本方法的推薦策略。
本文研究了推薦系統的應用場(chǎng)景和主要實(shí)現算法,根據推薦系統的應用特點(diǎn),提出了一種新的基礎推薦算法。以基于關(guān)聯(lián)規則算法的推薦系統為原型,研究如何通過(guò)秩相關(guān)(RankCorrelation)從根本上改變支持度的計算方法,以克服傳統關(guān)聯(lián)規則算法對數據必須是離散化。算法推薦系統的準確性。然后,基于本文算法和協(xié)同過(guò)濾等多種經(jīng)典推薦算法,構建了一個(gè)多功能、多算法的個(gè)性化推薦系統原型。最后,將該系統原型應用于推薦系統研究領(lǐng)域的經(jīng)典數據集,對比了不同算法生成的推薦結果的準確性,表明該算法具有良好的實(shí)用性。關(guān)鍵詞:關(guān)聯(lián)規則,推薦算法,等級相關(guān),協(xié)同過(guò)濾,workeconomyandinformationsociety,whichhadaprofoundimpactonenterprisesandpersonallives.Intemet-basede-paniesnolongerneedthephysicalconnectiontoitscustomersandsupplierslikeatraditionalcorporateentitiesdoes.Theemerginguser-centricIntemetsitesalsobreaklotsoflimitationsoftraditionalmediaandspreadtheirinfluencetoabroaderrangeofpotentialcustomers.provideishuge,makingtheusersunabletojustglancethroughthescreenandfindthedesiredinformation.Therefore, 查看全部
免規則采集器列表算法(,應用服務(wù)提供者需要一些智能化的指導算法(一)_)
互聯(lián)網(wǎng)的迅猛發(fā)展將我們帶入了信息社會(huì )和網(wǎng)絡(luò )經(jīng)濟時(shí)代,對企業(yè)的發(fā)展和個(gè)人生活產(chǎn)生了深遠的影響?;诨ヂ?lián)網(wǎng)電子商務(wù)模式的虛擬企業(yè)不再需要像傳統實(shí)體環(huán)境中的企業(yè)那樣需要大量的實(shí)體投資,還可以與客戶(hù)和供應商建立更直接的聯(lián)系。以用戶(hù)為中心的新興互聯(lián)網(wǎng)站點(diǎn)也可以?huà)侀_(kāi)傳統媒體的局限,以更豐富的方式將影響力傳遞給更多的潛在客戶(hù)。在虛擬環(huán)境中,網(wǎng)絡(luò )應用提供的商品或信息種類(lèi)繁多,數量眾多,用戶(hù)很難通過(guò)電腦屏幕一目了然地找到想要的信息。因此,應用服務(wù)商需要一些智能的引導算法,根據用戶(hù)的購買(mǎi)習慣等知識,推薦用戶(hù)可能感興趣的產(chǎn)品或信息,讓用戶(hù)輕松獲得所需。而且從實(shí)踐經(jīng)驗來(lái)看,用戶(hù)的需求往往是模糊不清的,對某些商品或信息可能存在潛在的偏好。這時(shí),如果服務(wù)提供者能夠向用戶(hù)推薦適合用戶(hù)的業(yè)務(wù)水晶或信息,就有可能將用戶(hù)的潛在需求變?yōu)楝F實(shí)并從中獲利。在此背景下,推薦系統(MendationSystems)應運而生,根據用戶(hù)的習慣、愛(ài)好等特征,推薦可能滿(mǎn)足用戶(hù)需求的對象。例如,以商品為推薦對象的電子商務(wù)個(gè)性化推薦系統、以新聞為推薦對象的社交新聞推薦系統等。推薦系統的實(shí)現方法有很多,但由于其面臨的數據特征種類(lèi)繁多,沒(méi)有現有的基礎推薦算法能夠在多種環(huán)境下取得良好的效果。一種混合使用多種基本方法的推薦策略。推薦系統的實(shí)現方法有很多,但由于其面臨的數據特征種類(lèi)繁多,沒(méi)有現有的基礎推薦算法能夠在多種環(huán)境下取得良好的效果。一種混合使用多種基本方法的推薦策略。推薦系統的實(shí)現方法有很多,但由于其面臨的數據特征種類(lèi)繁多,現有的基本推薦算法都無(wú)法在多種環(huán)境下取得良好的效果。一種混合使用多種基本方法的推薦策略。
本文研究了推薦系統的應用場(chǎng)景和主要實(shí)現算法,根據推薦系統的應用特點(diǎn),提出了一種新的基礎推薦算法。以基于關(guān)聯(lián)規則算法的推薦系統為原型,研究如何通過(guò)秩相關(guān)(RankCorrelation)從根本上改變支持度的計算方法,以克服傳統關(guān)聯(lián)規則算法對數據必須是離散化。算法推薦系統的準確性。然后,基于本文算法和協(xié)同過(guò)濾等多種經(jīng)典推薦算法,構建了一個(gè)多功能、多算法的個(gè)性化推薦系統原型。最后,將該系統原型應用于推薦系統研究領(lǐng)域的經(jīng)典數據集,對比了不同算法生成的推薦結果的準確性,表明該算法具有良好的實(shí)用性。關(guān)鍵詞:關(guān)聯(lián)規則,推薦算法,等級相關(guān),協(xié)同過(guò)濾,workeconomyandinformationsociety,whichhadaprofoundimpactonenterprisesandpersonallives.Intemet-basede-paniesnolongerneedthephysicalconnectiontoitscustomersandsupplierslikeatraditionalcorporateentitiesdoes.Theemerginguser-centricIntemetsitesalsobreaklotsoflimitationsoftraditionalmediaandspreadtheirinfluencetoabroaderrangeofpotentialcustomers.provideishuge,makingtheusersunabletojustglancethroughthescreenandfindthedesiredinformation.Therefore,
免規則采集器列表算法(「代售」新版sodu網(wǎng)站源碼搜讀帶采集器PC+WAP免授權)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 153 次瀏覽 ? 2022-02-08 20:09
《銷(xiāo)售》新版sodu網(wǎng)站源碼搜索小說(shuō)搜索引擎源碼升級版帶采集器PC+WAP免授權
新版搜索程序,本程序還自帶了專(zhuān)用的爬蟲(chóng),在VPS上基本不需要管理和維護,VPS最低要求1G1核心10G硬盤(pán)以上!
本sodu源碼需要環(huán)境支持net2.0+mssql2008r2,最好是win2003+2008+iis系列。
本次sodu源碼根據權6站升級源碼改寫(xiě),參考知乎面板。該程序基于 .net 和七年 SEO 的成果。閱讀頁(yè)面自動(dòng)跳轉到源站,無(wú)任何版權糾紛,同時(shí)減輕服務(wù)器負載壓力,規則簡(jiǎn)單易寫(xiě),同時(shí)自動(dòng)更新是支持的強大工具車(chē)站。
本次更新
1、模板重新定義,完美氛圍,內部?jì)?yōu)化符合搜索引擎
2、解決用戶(hù)無(wú)法注冊登錄的問(wèn)題
3、修復閱讀日志問(wèn)題
4、解決小說(shuō)站ID后臺無(wú)法操作、無(wú)法修改密碼、添加修改友情鏈接錯誤等問(wèn)題。
5、內核被重寫(xiě),運行速度比以前快3倍!
6、保留預裝功能(用于下次升級功能,即無(wú)需更改數據庫)
網(wǎng)站24小時(shí)自動(dòng)采集收錄網(wǎng)站,所有源碼準確,SEO到位,另外本程序沒(méi)有任何授權,懂的朋友不用多說(shuō), 需要的請速速,貨源有限,因為我比較忙,可能無(wú)法一一回復,您可以直接拍照,我可以保證程序和截圖一樣。
源截圖
下載鏈接
價(jià)格:130分
下載請點(diǎn)擊這里立即購買(mǎi)【解壓碼:z7m3】如無(wú)特殊說(shuō)明,本文資源的解壓密碼為: 提示:源代碼采集于網(wǎng)絡(luò ),其完整性和安全性為不保證。下載后請測試FAQ。
小說(shuō)源代碼 PHP小說(shuō)網(wǎng)站源代碼
本文由網(wǎng)友投稿或“聚碼之家”從網(wǎng)絡(luò )編譯。如需轉載,請注明出處:
如果本站發(fā)布的內容侵犯了您的權益,請發(fā)郵件cnzz8#刪除,我們會(huì )及時(shí)處理! 查看全部
免規則采集器列表算法(「代售」新版sodu網(wǎng)站源碼搜讀帶采集器PC+WAP免授權)
《銷(xiāo)售》新版sodu網(wǎng)站源碼搜索小說(shuō)搜索引擎源碼升級版帶采集器PC+WAP免授權
新版搜索程序,本程序還自帶了專(zhuān)用的爬蟲(chóng),在VPS上基本不需要管理和維護,VPS最低要求1G1核心10G硬盤(pán)以上!
本sodu源碼需要環(huán)境支持net2.0+mssql2008r2,最好是win2003+2008+iis系列。
本次sodu源碼根據權6站升級源碼改寫(xiě),參考知乎面板。該程序基于 .net 和七年 SEO 的成果。閱讀頁(yè)面自動(dòng)跳轉到源站,無(wú)任何版權糾紛,同時(shí)減輕服務(wù)器負載壓力,規則簡(jiǎn)單易寫(xiě),同時(shí)自動(dòng)更新是支持的強大工具車(chē)站。
本次更新
1、模板重新定義,完美氛圍,內部?jì)?yōu)化符合搜索引擎
2、解決用戶(hù)無(wú)法注冊登錄的問(wèn)題
3、修復閱讀日志問(wèn)題
4、解決小說(shuō)站ID后臺無(wú)法操作、無(wú)法修改密碼、添加修改友情鏈接錯誤等問(wèn)題。
5、內核被重寫(xiě),運行速度比以前快3倍!
6、保留預裝功能(用于下次升級功能,即無(wú)需更改數據庫)
網(wǎng)站24小時(shí)自動(dòng)采集收錄網(wǎng)站,所有源碼準確,SEO到位,另外本程序沒(méi)有任何授權,懂的朋友不用多說(shuō), 需要的請速速,貨源有限,因為我比較忙,可能無(wú)法一一回復,您可以直接拍照,我可以保證程序和截圖一樣。
源截圖


下載鏈接
價(jià)格:130分
下載請點(diǎn)擊這里立即購買(mǎi)【解壓碼:z7m3】如無(wú)特殊說(shuō)明,本文資源的解壓密碼為: 提示:源代碼采集于網(wǎng)絡(luò ),其完整性和安全性為不保證。下載后請測試FAQ。
小說(shuō)源代碼 PHP小說(shuō)網(wǎng)站源代碼
本文由網(wǎng)友投稿或“聚碼之家”從網(wǎng)絡(luò )編譯。如需轉載,請注明出處:
如果本站發(fā)布的內容侵犯了您的權益,請發(fā)郵件cnzz8#刪除,我們會(huì )及時(shí)處理!
免規則采集器列表算法(如何采集招投標類(lèi)網(wǎng)站的數據?示例網(wǎng)站推薦??!)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 150 次瀏覽 ? 2022-02-06 09:15
網(wǎng)上公布招標信息的網(wǎng)站很多,招標公告中的信息很有價(jià)值。比如你想知道一個(gè)公司的資質(zhì),你想知道一個(gè)項目的投資資金,你想知道招標公司之間的關(guān)系,這些都可以從招標信息中分析出來(lái)。數據是分析的基礎,只能獲取大量的數據。,分析更準確,更有說(shuō)服力。今天教大家采集出價(jià)和出價(jià)網(wǎng)站數據。
示例網(wǎng)站:
一.首先打開(kāi)ForeSpider數據采集軟件,點(diǎn)擊“采集頻道列表”中的“+”號新建頻道。然后將準備好的采集網(wǎng)站的URL粘貼到采集的地址中。
通道配置
二.頻道入口地址配置好后,點(diǎn)擊“模板配置”,在右側模板中新建一個(gè)鏈接提取,兩個(gè)鏈接提取,分別命名為“翻頁(yè)”和“項目提取”。這兩個(gè)鏈接提取分別提取頁(yè)面中的工程項和翻頁(yè)鏈接。
添加鏈接提取
三.點(diǎn)擊采集預覽,發(fā)現采集的預覽中沒(méi)有我要的project項目的鏈接,但是有翻頁(yè)的鏈接,這時(shí)需要編寫(xiě)腳本來(lái)提取項目鏈接。翻頁(yè)鏈接提取可以通過(guò)可視化操作來(lái)完成。之前提到過(guò)如何編寫(xiě)鏈接提取腳本,這里就不介紹了。
鏈接提取教程:
鏈接提取腳本
四.預覽發(fā)現每個(gè)翻頁(yè)鏈接地址都收錄“page=”這個(gè)詞,然后我把這個(gè)詞放到“翻頁(yè)”的地址過(guò)濾器中,過(guò)濾規則選擇為“include”。
翻頁(yè)地址過(guò)濾
鏈接提取配置完成后,可以點(diǎn)擊采集預覽效果。如果配置有問(wèn)題,可以及時(shí)更正。
預覽效果
五??梢钥吹筋A覽效果沒(méi)有問(wèn)題,接下來(lái)繼續配置下一層模板。下一層是招標公告頁(yè),即資料頁(yè)。先創(chuàng )建表單域,在表單名稱(chēng)處選擇創(chuàng )建的表單。
選擇表格
六.數據頁(yè)中有些字段可以用可視化操作,有些需要腳本,所以我把需要寫(xiě)的部分寫(xiě)在了字段下面。對于字段處理,選擇腳本處理。
字段下的腳本處理
八.所有字段配置完成后,可以點(diǎn)擊采集預覽查看效果。如果效果不好,可以改正。
預覽效果
競價(jià)類(lèi)網(wǎng)站實(shí)時(shí)更新,ForeSpider數據采集軟件有增量采集功能,可以采集新增數據,隨時(shí)監控要時(shí)間很久了網(wǎng)站添加數據。
雖然教程看起來(lái)很簡(jiǎn)單,但最重要的是動(dòng)手實(shí)踐。多多練習可以更熟練地使用軟件采集你想要的數據。 查看全部
免規則采集器列表算法(如何采集招投標類(lèi)網(wǎng)站的數據?示例網(wǎng)站推薦??!)
網(wǎng)上公布招標信息的網(wǎng)站很多,招標公告中的信息很有價(jià)值。比如你想知道一個(gè)公司的資質(zhì),你想知道一個(gè)項目的投資資金,你想知道招標公司之間的關(guān)系,這些都可以從招標信息中分析出來(lái)。數據是分析的基礎,只能獲取大量的數據。,分析更準確,更有說(shuō)服力。今天教大家采集出價(jià)和出價(jià)網(wǎng)站數據。
示例網(wǎng)站:
一.首先打開(kāi)ForeSpider數據采集軟件,點(diǎn)擊“采集頻道列表”中的“+”號新建頻道。然后將準備好的采集網(wǎng)站的URL粘貼到采集的地址中。
通道配置
二.頻道入口地址配置好后,點(diǎn)擊“模板配置”,在右側模板中新建一個(gè)鏈接提取,兩個(gè)鏈接提取,分別命名為“翻頁(yè)”和“項目提取”。這兩個(gè)鏈接提取分別提取頁(yè)面中的工程項和翻頁(yè)鏈接。
添加鏈接提取
三.點(diǎn)擊采集預覽,發(fā)現采集的預覽中沒(méi)有我要的project項目的鏈接,但是有翻頁(yè)的鏈接,這時(shí)需要編寫(xiě)腳本來(lái)提取項目鏈接。翻頁(yè)鏈接提取可以通過(guò)可視化操作來(lái)完成。之前提到過(guò)如何編寫(xiě)鏈接提取腳本,這里就不介紹了。
鏈接提取教程:
鏈接提取腳本
四.預覽發(fā)現每個(gè)翻頁(yè)鏈接地址都收錄“page=”這個(gè)詞,然后我把這個(gè)詞放到“翻頁(yè)”的地址過(guò)濾器中,過(guò)濾規則選擇為“include”。
翻頁(yè)地址過(guò)濾
鏈接提取配置完成后,可以點(diǎn)擊采集預覽效果。如果配置有問(wèn)題,可以及時(shí)更正。
預覽效果
五??梢钥吹筋A覽效果沒(méi)有問(wèn)題,接下來(lái)繼續配置下一層模板。下一層是招標公告頁(yè),即資料頁(yè)。先創(chuàng )建表單域,在表單名稱(chēng)處選擇創(chuàng )建的表單。
選擇表格
六.數據頁(yè)中有些字段可以用可視化操作,有些需要腳本,所以我把需要寫(xiě)的部分寫(xiě)在了字段下面。對于字段處理,選擇腳本處理。
字段下的腳本處理
八.所有字段配置完成后,可以點(diǎn)擊采集預覽查看效果。如果效果不好,可以改正。
預覽效果
競價(jià)類(lèi)網(wǎng)站實(shí)時(shí)更新,ForeSpider數據采集軟件有增量采集功能,可以采集新增數據,隨時(shí)監控要時(shí)間很久了網(wǎng)站添加數據。
雖然教程看起來(lái)很簡(jiǎn)單,但最重要的是動(dòng)手實(shí)踐。多多練習可以更熟練地使用軟件采集你想要的數據。
免規則采集器列表算法(一鍵提取數據簡(jiǎn)單易學(xué),優(yōu)采云采集器智能分析網(wǎng)頁(yè)信息采集工具)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 140 次瀏覽 ? 2022-02-06 06:03
優(yōu)采云采集器是一個(gè)非常強大的網(wǎng)頁(yè)信息采集工具,可以幫助用戶(hù)一鍵快速提取各種網(wǎng)頁(yè)的數據,生成Excel表格和api數據庫文檔等內容,同時(shí)支持互聯(lián)網(wǎng)99%的網(wǎng)站,讓你輕松獲取你想要的數據。
【軟件特色】一鍵提取數據
簡(jiǎn)單易學(xué),通過(guò)可視化界面,鼠標點(diǎn)擊即可抓取數據
快速高效
內置一套高速瀏覽器內核,配合HTTP引擎模式,實(shí)現快速采集數據
適用于各種網(wǎng)站
能夠采集99%的互聯(lián)網(wǎng)網(wǎng)站,包括單頁(yè)應用Ajax加載等動(dòng)態(tài)類(lèi)型網(wǎng)站
【功能介紹】向導模式
使用簡(jiǎn)單,通過(guò)鼠標點(diǎn)擊輕松自動(dòng)生成
定期運行的腳本
無(wú)需人工即可按計劃運行
原裝高速核心
自研瀏覽器內核速度快,遠超對手
智能識別
智能識別網(wǎng)頁(yè)中的列表和表單結構(多選框下拉列表等)
廣告攔截
自定義廣告攔截模塊,兼容AdblockPlus語(yǔ)法,可添加自定義規則
各種數據導出
優(yōu)采云采集器正式版支持Txt、Excel、MySQL、SQLServer、SQlite、Access、網(wǎng)站等。
【使用方法】第一步:輸入采集網(wǎng)址
打開(kāi)軟件,新建一個(gè)任務(wù),輸入需要采集的網(wǎng)站的地址。
第二步:智能分析,全過(guò)程自動(dòng)提取數據
進(jìn)入第二步后,優(yōu)采云采集器自動(dòng)智能分析網(wǎng)頁(yè),從中提取列表數據。
步驟 3:將數據導出到表、數據庫、網(wǎng)站 等。
運行任務(wù),將采集中的數據導出到Csv、Excel等各種數據庫,支持api導出。
【FAQ】Q:如何過(guò)濾列表中的前N個(gè)數據?
1.有時(shí)候我們需要對采集收到的列表進(jìn)行過(guò)濾,比如過(guò)濾掉第一組數據(在采集表中,過(guò)濾掉表列名)
2.點(diǎn)擊列表模式菜單設置列表xpath
Q:如何抓包獲取cookie并手動(dòng)設置?
1.首先用谷歌瀏覽器打開(kāi)網(wǎng)站為采集,登錄。
2. 然后按F12,會(huì )出現開(kāi)發(fā)者工具,選擇Network
3.然后按 F5 刷新下一頁(yè)并選擇其中一個(gè)請求。
4.復制完成后,在優(yōu)采云采集器中,編輯任務(wù),進(jìn)入第三步,指定HTTP Header。
【更新日志】1.增加插件功能
2.添加導出txt(一個(gè)文件保存為一個(gè)文件)
3.多值連接器支持換行
4.為數據處理修改了文本映射(支持查找和替換)
5.修復登錄時(shí)的 DNS 問(wèn)題
6.修復圖片下載問(wèn)題
7.修復一些json問(wèn)題 查看全部
免規則采集器列表算法(一鍵提取數據簡(jiǎn)單易學(xué),優(yōu)采云采集器智能分析網(wǎng)頁(yè)信息采集工具)
優(yōu)采云采集器是一個(gè)非常強大的網(wǎng)頁(yè)信息采集工具,可以幫助用戶(hù)一鍵快速提取各種網(wǎng)頁(yè)的數據,生成Excel表格和api數據庫文檔等內容,同時(shí)支持互聯(lián)網(wǎng)99%的網(wǎng)站,讓你輕松獲取你想要的數據。

【軟件特色】一鍵提取數據
簡(jiǎn)單易學(xué),通過(guò)可視化界面,鼠標點(diǎn)擊即可抓取數據
快速高效
內置一套高速瀏覽器內核,配合HTTP引擎模式,實(shí)現快速采集數據
適用于各種網(wǎng)站
能夠采集99%的互聯(lián)網(wǎng)網(wǎng)站,包括單頁(yè)應用Ajax加載等動(dòng)態(tài)類(lèi)型網(wǎng)站
【功能介紹】向導模式
使用簡(jiǎn)單,通過(guò)鼠標點(diǎn)擊輕松自動(dòng)生成
定期運行的腳本
無(wú)需人工即可按計劃運行
原裝高速核心
自研瀏覽器內核速度快,遠超對手
智能識別
智能識別網(wǎng)頁(yè)中的列表和表單結構(多選框下拉列表等)
廣告攔截
自定義廣告攔截模塊,兼容AdblockPlus語(yǔ)法,可添加自定義規則
各種數據導出
優(yōu)采云采集器正式版支持Txt、Excel、MySQL、SQLServer、SQlite、Access、網(wǎng)站等。
【使用方法】第一步:輸入采集網(wǎng)址
打開(kāi)軟件,新建一個(gè)任務(wù),輸入需要采集的網(wǎng)站的地址。
第二步:智能分析,全過(guò)程自動(dòng)提取數據
進(jìn)入第二步后,優(yōu)采云采集器自動(dòng)智能分析網(wǎng)頁(yè),從中提取列表數據。
步驟 3:將數據導出到表、數據庫、網(wǎng)站 等。
運行任務(wù),將采集中的數據導出到Csv、Excel等各種數據庫,支持api導出。
【FAQ】Q:如何過(guò)濾列表中的前N個(gè)數據?
1.有時(shí)候我們需要對采集收到的列表進(jìn)行過(guò)濾,比如過(guò)濾掉第一組數據(在采集表中,過(guò)濾掉表列名)
2.點(diǎn)擊列表模式菜單設置列表xpath
Q:如何抓包獲取cookie并手動(dòng)設置?
1.首先用谷歌瀏覽器打開(kāi)網(wǎng)站為采集,登錄。
2. 然后按F12,會(huì )出現開(kāi)發(fā)者工具,選擇Network
3.然后按 F5 刷新下一頁(yè)并選擇其中一個(gè)請求。
4.復制完成后,在優(yōu)采云采集器中,編輯任務(wù),進(jìn)入第三步,指定HTTP Header。
【更新日志】1.增加插件功能
2.添加導出txt(一個(gè)文件保存為一個(gè)文件)
3.多值連接器支持換行
4.為數據處理修改了文本映射(支持查找和替換)
5.修復登錄時(shí)的 DNS 問(wèn)題
6.修復圖片下載問(wèn)題
7.修復一些json問(wèn)題
免規則采集器列表算法(兩個(gè)關(guān)聯(lián)規則分析()概念())
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 137 次瀏覽 ? 2022-02-06 00:07
相關(guān)分析
關(guān)聯(lián)分析是在大規模數據集中尋找有趣關(guān)系的任務(wù)。這種關(guān)系有兩種形式:
1.頻率項集(frequency item sets):一些經(jīng)常同時(shí)出現的元素的集合——使用支持度量
2.關(guān)聯(lián)規則:表示兩個(gè)元素之間有很強的關(guān)系——使用可信度度量
以下示例說(shuō)明了上述兩個(gè)概念:
表 1 簡(jiǎn)單交易列表
交易編號產(chǎn)品
0豆漿、生菜
1個(gè)生菜,尿布,酒,甜菜
2個(gè)生菜,尿布,酒,橙汁
3個(gè)生菜,豆漿,尿布,酒
4個(gè)生菜,豆漿,尿布,橙汁
頻繁項集是經(jīng)常一起出現的元素的集合。上表中的集合 {wine, diapers, soymilk} 是頻繁項集的一個(gè)例子。還可以找到像“diapers --> wine”這樣的關(guān)聯(lián)規則,這意味著(zhù)如果有人買(mǎi)了尿布,那么他很可能也買(mǎi)了酒。利用頻繁項集和關(guān)聯(lián)規則,商家可以更好地了解顧客的消費行為,因此關(guān)聯(lián)規則分析的例子大多來(lái)自零售行業(yè)。
要了解關(guān)聯(lián)分析,我們首先需要了解以下三個(gè)問(wèn)題:
1.如何定義這些有用的關(guān)系?
2.如何定義這些關(guān)系的強度?
3.頻繁的定義是什么?
要回答上述問(wèn)題,最重要的是理解兩個(gè)概念:支持和可信度。
支持度(用于頻繁項集量化):一個(gè)項集的支持度定義為數據集中收錄該項的記錄占總記錄的比例。從表1可以看出,項目集{soymilk}的支持度為4/5;5條交易記錄中有3條收錄{soymilk, diapers},所以{soymilk, diapers}的支持度為3/5.
可信度或置信度(用于關(guān)聯(lián)規則量化):為{diaper}-->{wine}等關(guān)聯(lián)規則定義,該規則的可信度定義為“support({diapers,wine})/support( {尿布})”。在表1中可以發(fā)現{diapers, wine}的支持度為3/5,{diapers}的支持度為4/5,所以關(guān)聯(lián)規則“diapers --> wine”的置信度是 3/4 = 0.75,這意味著(zhù)對于所有收錄“尿布”的記錄,關(guān)聯(lián)規則適用于 75% 的記錄。
先驗原理
假設我們經(jīng)營(yíng)一家雜貨店,所以我們對經(jīng)常一起購買(mǎi)的商品非常感興趣。假設我們只有 4 個(gè)項目:項目 0、項目 1、項目 2、項目 3. 那么如何獲得可以一起購買(mǎi)的項目組合?
上圖顯示了所有可能的項目組合。從上到下的下一個(gè)集合是?,它表示一個(gè)不收錄任何項目的空集合。項目集之間的線(xiàn)表示兩個(gè)或多個(gè)集可以組合成一個(gè)更大的集。采集。
我們的目標是找到經(jīng)常一起購買(mǎi)的物品的集合。這里使用集合的支持度來(lái)衡量它出現的頻率。對集合發(fā)生的支持是指收錄該集合的事務(wù)記錄的比例。比如上圖,計算{0,3}的支持度,直白的思路就是遍歷每條記錄,統計收錄0和3的記錄數,再除以總記錄數得到支持消費。這僅適用于單個(gè)集合 {0,3}。要獲得對每個(gè)可能集合的支持,需要多次重復上述過(guò)程。對于上圖,雖然只有4個(gè)item,但是需要遍歷數據15次。隨著(zhù)項目數量的增加,遍歷次數急劇增加。對于收錄 N 個(gè)項目的數據集,有
項集的組合。所以即使是一家只賣(mài) 100 件商品的商店也會(huì )有
可能的組合。計算量太大。
為了減少計算時(shí)間,研究人員發(fā)現了 Apriori 原理,它可以幫助我們減少感興趣的頻繁項集的數量。
Apriori 原理:如果一個(gè)項集是一個(gè)頻繁項集,那么它的所有子集也是頻繁的。也就是說(shuō),如果 {0,1} 是頻繁的,那么 {0}, {1} 也必須是頻繁的。
這個(gè)原理直觀(guān)上是沒(méi)用的,但反過(guò)來(lái)也有用,也就是說(shuō),如果一個(gè)項集是不頻繁的,那么它的所有超集也是不頻繁的。如下所示:
先驗算法
優(yōu)點(diǎn):易于編碼和實(shí)現
缺點(diǎn):在大型數據集上可能會(huì )更慢
適用數據類(lèi)型:數值或名義數據
Apriori算法的一般流程
采集數據:使用任何方法 準備數據:任何數據類(lèi)型都可以,因為我們只保存集 分析數據:使用任何方法 訓練算法:使用 Apriori 算法查找頻繁項集 測試算法:無(wú)測試過(guò)程 使用算法:用于發(fā)現頻繁項集和項之間的關(guān)聯(lián)規則使用 Apriori 算法發(fā)現頻繁項集
如上所述,關(guān)聯(lián)分析有兩個(gè)目標:發(fā)現頻繁項集和發(fā)現關(guān)聯(lián)規則。首先,我們需要找到頻繁項集,然后根據頻繁項集得到關(guān)聯(lián)規則。
Apriori 是一種發(fā)現頻繁項集的方法。
該算法首先為所有單個(gè)項目生成項目集列表;
然后掃描事務(wù)記錄,看看哪些項集滿(mǎn)足最低支持要求,那些不滿(mǎn)足最低支持的集合將被剔除;
然后,將剩余的集合組合起來(lái),生成一個(gè)收錄兩個(gè)元素的項集;
接下來(lái),重新掃描事務(wù)記錄以刪除不滿(mǎn)足最小支持的項集,并重復直到所有項集都被刪除。
數據集掃描的偽代碼:
對于數據集 tran 中的每條交易記錄:
對于每個(gè)候選項目集可以:
檢查 can 是否是 tran 的子集:
如果是,增加can的計數值
對于每個(gè)候選項目集:
如果它的支持度不低于最小值,保持它
返回所有頻繁項集的列表
代碼顯示如下:
def loadDataSet():
'''創(chuàng )建一個(gè)用于測試的簡(jiǎn)單的數據集'''
return [ [ 1, 3, 4 ], [ 2, 3, 5 ], [ 1, 2, 3, 5 ], [ 2, 5 ] ]
def createC1( dataSet ):
'''
構建初始候選項集的列表,即所有候選項集只包含一個(gè)元素,
C1是大小為1的所有候選項集的集合
'''
C1 = []
for transaction in dataSet:
for item in transaction:
if [ item ] not in C1:
C1.append( [ item ] )
C1.sort()
#原書(shū)python2環(huán)境代碼,return map( frozenset, C1 )
return list(map( frozenset, C1 ))
#數據集ck,包含候選集合的列表D,感興趣項集的最小支持度minSupport
def scanD( D, Ck, minSupport ):
'''
計算Ck中的項集在數據集合D(記錄或者transactions)中的支持度,
返回滿(mǎn)足最小支持度的項集的集合,和所有項集支持度信息的字典。
'''
ssCnt = {}
for tid in D:
print('tid=',tid)
# 對于每一條transaction
for can in Ck:
print('can=',can)
# 對于每一個(gè)候選項集can,檢查是否是transaction的一部分
# 即該候選can是否得到transaction的支持
if can.issubset( tid ):
ssCnt[ can ] = ssCnt.get( can, 0) + 1
numItems = float( len( D ) )
retList = []
supportData = {}
for key in ssCnt:
# 每個(gè)項集的支持度
support = ssCnt[ key ] / numItems
# 將滿(mǎn)足最小支持度的項集,加入retList
if support >= minSupport:
retList.insert( 0, key )
# 匯總支持度數據
supportData[ key ] = support
return retList, supportData
dataSet=loadDataSet()
print(dataSet)
C1=createC1(dataSet)
print(C1)
D=list(map(set,dataSet))
print('D=',D)
L1,suppData0=scanD(D,C1,0.5)
print('L1=',L1)
print('supData0=',suppData0)
運行結果:
D:\>python apriori.py
[[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5]]
[frozenset({1}), frozenset({2}), frozenset({3}), frozenset({4}), frozenset({5})]
D= [{1, 3, 4}, {2, 3, 5}, {1, 2, 3, 5}, {2, 5}]
tid= {1, 3, 4}
can= frozenset({1})
can= frozenset({2})
can= frozenset({3})
can= frozenset({4})
can= frozenset({5})
tid= {2, 3, 5}
can= frozenset({1})
can= frozenset({2})
can= frozenset({3})
can= frozenset({4})
can= frozenset({5})
tid= {1, 2, 3, 5}
can= frozenset({1})
can= frozenset({2})
can= frozenset({3})
can= frozenset({4})
can= frozenset({5})
tid= {2, 5}
can= frozenset({1})
can= frozenset({2})
can= frozenset({3})
can= frozenset({4})
can= frozenset({5})
L1= [frozenset({1}), frozenset({3}), frozenset({2}), frozenset({5})]
supData0= {frozenset({4}): 0.25, frozenset({5}): 0.75, frozenset({2}): 0.75, fro
zenset({3}): 0.75, frozenset({1}): 0.5}
分析如下:
組織完整的 Apriori 算法
假代碼:
當集合中的元素個(gè)數大于 0 時(shí):
構建收錄 k 個(gè)項目的候選集列表
檢查數據,確認每個(gè)項集都是頻繁項集
保留頻繁項集,構建由k+1項組成的候選項集列表
代碼顯示如下:
def aprioriGen( Lk, k ):
'''
由初始候選項集的集合Lk生成新的生成候選項集,
k表示生成的新項集中所含有的元素個(gè)數
'''
retList = []
lenLk = len( Lk )
for i in range( lenLk ):
for j in range( i + 1, lenLk ):
L1 = list( Lk[ i ] )[ : k - 2 ];
L2 = list( Lk[ j ] )[ : k - 2 ];
L1.sort();L2.sort()
if L1 == L2:
retList.append( Lk[ i ] | Lk[ j ] )
return retList
def apriori( dataSet, minSupport = 0.5 ):
# 構建初始候選項集C1
C1 = createC1( dataSet )
# 將dataSet集合化,以滿(mǎn)足scanD的格式要求
D = list(map( set, dataSet ))
# 構建初始的頻繁項集,即所有項集只有一個(gè)元素
L1, suppData = scanD( D, C1, minSupport )
L = [ L1 ]
# 最初的L1中的每個(gè)項集含有一個(gè)元素,新生成的項集應該含有2個(gè)元素,所以 k=2
k = 2
while ( len( L[ k - 2 ] ) > 0 ):
Ck = aprioriGen( L[ k - 2 ], k )
print('k=',k,'\n Ck=',Ck,'\n L[k-2]',L[k-2])
Lk, supK = scanD( D, Ck, minSupport )
# 將新的項集的支持度數據加入原來(lái)的總支持度字典中
suppData.update( supK )
# 將符合最小支持度要求的項集加入L
L.append( Lk )
# 新生成的項集中的元素個(gè)數應不斷增加
k += 1
# 返回所有滿(mǎn)足條件的頻繁項集的列表,和所有候選項集的支持度信息
return L, suppData
dataSet=loadDataSet()
L1,suppData0=apriori(dataSet,0.5)
##print(dataSet)
##C1=createC1(dataSet)
##print(C1)
##D=list(map(set,dataSet))
##print('D=',D)
##L1,suppData0=scanD(D,C1,0.5)
print('L1=',L1)
print('supData0=',suppData0)
結果:
D:\>python apriori.py
k= 2
Ck= [frozenset({1, 3}), frozenset({1, 2}), frozenset({1, 5}), frozenset({2, 3})
, frozenset({3, 5}), frozenset({2, 5})]
L[k-2] [frozenset({1}), frozenset({3}), frozenset({2}), frozenset({5})]
k= 3
Ck= [frozenset({2, 3, 5})]
L[k-2] [frozenset({3, 5}), frozenset({1, 3}), frozenset({2, 5}), frozenset({2,
3})]
k= 4
Ck= []
L[k-2] [frozenset({2, 3, 5})]
L1= [[frozenset({1}), frozenset({3}), frozenset({2}), frozenset({5})], [frozense
t({3, 5}), frozenset({1, 3}), frozenset({2, 5}), frozenset({2, 3})], [frozenset(
{2, 3, 5})], []]
supData0= {frozenset({5}): 0.75, frozenset({3}): 0.75, frozenset({2, 3, 5}): 0.5
, frozenset({1, 2}): 0.25, frozenset({1, 5}): 0.25, frozenset({3, 5}): 0.5, froz
enset({4}): 0.25, frozenset({2, 3}): 0.5, frozenset({2, 5}): 0.75, frozenset({1}
): 0.5, frozenset({1, 3}): 0.5, frozenset({2}): 0.75}
分析:
step1.Initial=2,調用aprioriGen生成候選項集Ck
step2.調用scanD根據Ck創(chuàng )建Lk,丟棄不滿(mǎn)足最小支持度要求的項集。
stpe3.Lk列表加入L,同時(shí)k遞增,重復上述過(guò)程
step4.Lk為空,函數返回L--頻繁列表和字典supportData-itemset的支持度并退出。
在運行結果中,
k=2時(shí),aprioriGen生成2個(gè)元素的6個(gè)候選項集列表
Ck= [frozenset({1, 3}),frozenset({1, 2}),frozenset({1, 5}),frozenset({2, 3})
,frozenset({3, 5}),frozenset({2, 5})]
然后通過(guò)scanD過(guò)濾掉2個(gè)不滿(mǎn)足最小支持度的集合,所以將下面4個(gè)元素加入到頻繁項集列表中
[frozenset({3, 5}),frozenset({1, 3}),frozenset({2, 5}),frozenset({2,3})]
當 k=3 時(shí),生成 1 元素候選集列表 Ck= [frozenset({2, 3, 5})]。注意:由于集合的第一個(gè)元素用于比較,因此只有集合 freezeset({2, 5})、frozenset({2,3})] 會(huì )被合并。
候選項集列表中的元素集支持度為0.5,滿(mǎn)足最小支持度,故加入頻繁項集列表。
K=4,CK=[]
程序返回一個(gè)頻繁項集(9 個(gè)元素)的列表,然后退出。
L1= [[frozenset({1}),frozenset({3}),frozenset({2}),frozenset({5})],[frozense
t({3, 5}),frozenset({1, 3}),frozenset({2, 5}),frozenset({2, 3})],[frozenset(
{2, 3, 5})], []] 查看全部
免規則采集器列表算法(兩個(gè)關(guān)聯(lián)規則分析()概念())
相關(guān)分析
關(guān)聯(lián)分析是在大規模數據集中尋找有趣關(guān)系的任務(wù)。這種關(guān)系有兩種形式:
1.頻率項集(frequency item sets):一些經(jīng)常同時(shí)出現的元素的集合——使用支持度量
2.關(guān)聯(lián)規則:表示兩個(gè)元素之間有很強的關(guān)系——使用可信度度量
以下示例說(shuō)明了上述兩個(gè)概念:
表 1 簡(jiǎn)單交易列表
交易編號產(chǎn)品
0豆漿、生菜
1個(gè)生菜,尿布,酒,甜菜
2個(gè)生菜,尿布,酒,橙汁
3個(gè)生菜,豆漿,尿布,酒
4個(gè)生菜,豆漿,尿布,橙汁
頻繁項集是經(jīng)常一起出現的元素的集合。上表中的集合 {wine, diapers, soymilk} 是頻繁項集的一個(gè)例子。還可以找到像“diapers --> wine”這樣的關(guān)聯(lián)規則,這意味著(zhù)如果有人買(mǎi)了尿布,那么他很可能也買(mǎi)了酒。利用頻繁項集和關(guān)聯(lián)規則,商家可以更好地了解顧客的消費行為,因此關(guān)聯(lián)規則分析的例子大多來(lái)自零售行業(yè)。
要了解關(guān)聯(lián)分析,我們首先需要了解以下三個(gè)問(wèn)題:
1.如何定義這些有用的關(guān)系?
2.如何定義這些關(guān)系的強度?
3.頻繁的定義是什么?
要回答上述問(wèn)題,最重要的是理解兩個(gè)概念:支持和可信度。
支持度(用于頻繁項集量化):一個(gè)項集的支持度定義為數據集中收錄該項的記錄占總記錄的比例。從表1可以看出,項目集{soymilk}的支持度為4/5;5條交易記錄中有3條收錄{soymilk, diapers},所以{soymilk, diapers}的支持度為3/5.
可信度或置信度(用于關(guān)聯(lián)規則量化):為{diaper}-->{wine}等關(guān)聯(lián)規則定義,該規則的可信度定義為“support({diapers,wine})/support( {尿布})”。在表1中可以發(fā)現{diapers, wine}的支持度為3/5,{diapers}的支持度為4/5,所以關(guān)聯(lián)規則“diapers --> wine”的置信度是 3/4 = 0.75,這意味著(zhù)對于所有收錄“尿布”的記錄,關(guān)聯(lián)規則適用于 75% 的記錄。
先驗原理
假設我們經(jīng)營(yíng)一家雜貨店,所以我們對經(jīng)常一起購買(mǎi)的商品非常感興趣。假設我們只有 4 個(gè)項目:項目 0、項目 1、項目 2、項目 3. 那么如何獲得可以一起購買(mǎi)的項目組合?

上圖顯示了所有可能的項目組合。從上到下的下一個(gè)集合是?,它表示一個(gè)不收錄任何項目的空集合。項目集之間的線(xiàn)表示兩個(gè)或多個(gè)集可以組合成一個(gè)更大的集。采集。
我們的目標是找到經(jīng)常一起購買(mǎi)的物品的集合。這里使用集合的支持度來(lái)衡量它出現的頻率。對集合發(fā)生的支持是指收錄該集合的事務(wù)記錄的比例。比如上圖,計算{0,3}的支持度,直白的思路就是遍歷每條記錄,統計收錄0和3的記錄數,再除以總記錄數得到支持消費。這僅適用于單個(gè)集合 {0,3}。要獲得對每個(gè)可能集合的支持,需要多次重復上述過(guò)程。對于上圖,雖然只有4個(gè)item,但是需要遍歷數據15次。隨著(zhù)項目數量的增加,遍歷次數急劇增加。對于收錄 N 個(gè)項目的數據集,有
項集的組合。所以即使是一家只賣(mài) 100 件商品的商店也會(huì )有
可能的組合。計算量太大。
為了減少計算時(shí)間,研究人員發(fā)現了 Apriori 原理,它可以幫助我們減少感興趣的頻繁項集的數量。
Apriori 原理:如果一個(gè)項集是一個(gè)頻繁項集,那么它的所有子集也是頻繁的。也就是說(shuō),如果 {0,1} 是頻繁的,那么 {0}, {1} 也必須是頻繁的。
這個(gè)原理直觀(guān)上是沒(méi)用的,但反過(guò)來(lái)也有用,也就是說(shuō),如果一個(gè)項集是不頻繁的,那么它的所有超集也是不頻繁的。如下所示:

先驗算法
優(yōu)點(diǎn):易于編碼和實(shí)現
缺點(diǎn):在大型數據集上可能會(huì )更慢
適用數據類(lèi)型:數值或名義數據
Apriori算法的一般流程
采集數據:使用任何方法 準備數據:任何數據類(lèi)型都可以,因為我們只保存集 分析數據:使用任何方法 訓練算法:使用 Apriori 算法查找頻繁項集 測試算法:無(wú)測試過(guò)程 使用算法:用于發(fā)現頻繁項集和項之間的關(guān)聯(lián)規則使用 Apriori 算法發(fā)現頻繁項集
如上所述,關(guān)聯(lián)分析有兩個(gè)目標:發(fā)現頻繁項集和發(fā)現關(guān)聯(lián)規則。首先,我們需要找到頻繁項集,然后根據頻繁項集得到關(guān)聯(lián)規則。
Apriori 是一種發(fā)現頻繁項集的方法。
該算法首先為所有單個(gè)項目生成項目集列表;
然后掃描事務(wù)記錄,看看哪些項集滿(mǎn)足最低支持要求,那些不滿(mǎn)足最低支持的集合將被剔除;
然后,將剩余的集合組合起來(lái),生成一個(gè)收錄兩個(gè)元素的項集;
接下來(lái),重新掃描事務(wù)記錄以刪除不滿(mǎn)足最小支持的項集,并重復直到所有項集都被刪除。
數據集掃描的偽代碼:
對于數據集 tran 中的每條交易記錄:
對于每個(gè)候選項目集可以:
檢查 can 是否是 tran 的子集:
如果是,增加can的計數值
對于每個(gè)候選項目集:
如果它的支持度不低于最小值,保持它
返回所有頻繁項集的列表
代碼顯示如下:
def loadDataSet():
'''創(chuàng )建一個(gè)用于測試的簡(jiǎn)單的數據集'''
return [ [ 1, 3, 4 ], [ 2, 3, 5 ], [ 1, 2, 3, 5 ], [ 2, 5 ] ]
def createC1( dataSet ):
'''
構建初始候選項集的列表,即所有候選項集只包含一個(gè)元素,
C1是大小為1的所有候選項集的集合
'''
C1 = []
for transaction in dataSet:
for item in transaction:
if [ item ] not in C1:
C1.append( [ item ] )
C1.sort()
#原書(shū)python2環(huán)境代碼,return map( frozenset, C1 )
return list(map( frozenset, C1 ))
#數據集ck,包含候選集合的列表D,感興趣項集的最小支持度minSupport
def scanD( D, Ck, minSupport ):
'''
計算Ck中的項集在數據集合D(記錄或者transactions)中的支持度,
返回滿(mǎn)足最小支持度的項集的集合,和所有項集支持度信息的字典。
'''
ssCnt = {}
for tid in D:
print('tid=',tid)
# 對于每一條transaction
for can in Ck:
print('can=',can)
# 對于每一個(gè)候選項集can,檢查是否是transaction的一部分
# 即該候選can是否得到transaction的支持
if can.issubset( tid ):
ssCnt[ can ] = ssCnt.get( can, 0) + 1
numItems = float( len( D ) )
retList = []
supportData = {}
for key in ssCnt:
# 每個(gè)項集的支持度
support = ssCnt[ key ] / numItems
# 將滿(mǎn)足最小支持度的項集,加入retList
if support >= minSupport:
retList.insert( 0, key )
# 匯總支持度數據
supportData[ key ] = support
return retList, supportData
dataSet=loadDataSet()
print(dataSet)
C1=createC1(dataSet)
print(C1)
D=list(map(set,dataSet))
print('D=',D)
L1,suppData0=scanD(D,C1,0.5)
print('L1=',L1)
print('supData0=',suppData0)
運行結果:
D:\>python apriori.py
[[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5]]
[frozenset({1}), frozenset({2}), frozenset({3}), frozenset({4}), frozenset({5})]
D= [{1, 3, 4}, {2, 3, 5}, {1, 2, 3, 5}, {2, 5}]
tid= {1, 3, 4}
can= frozenset({1})
can= frozenset({2})
can= frozenset({3})
can= frozenset({4})
can= frozenset({5})
tid= {2, 3, 5}
can= frozenset({1})
can= frozenset({2})
can= frozenset({3})
can= frozenset({4})
can= frozenset({5})
tid= {1, 2, 3, 5}
can= frozenset({1})
can= frozenset({2})
can= frozenset({3})
can= frozenset({4})
can= frozenset({5})
tid= {2, 5}
can= frozenset({1})
can= frozenset({2})
can= frozenset({3})
can= frozenset({4})
can= frozenset({5})
L1= [frozenset({1}), frozenset({3}), frozenset({2}), frozenset({5})]
supData0= {frozenset({4}): 0.25, frozenset({5}): 0.75, frozenset({2}): 0.75, fro
zenset({3}): 0.75, frozenset({1}): 0.5}
分析如下:
組織完整的 Apriori 算法
假代碼:
當集合中的元素個(gè)數大于 0 時(shí):
構建收錄 k 個(gè)項目的候選集列表
檢查數據,確認每個(gè)項集都是頻繁項集
保留頻繁項集,構建由k+1項組成的候選項集列表
代碼顯示如下:
def aprioriGen( Lk, k ):
'''
由初始候選項集的集合Lk生成新的生成候選項集,
k表示生成的新項集中所含有的元素個(gè)數
'''
retList = []
lenLk = len( Lk )
for i in range( lenLk ):
for j in range( i + 1, lenLk ):
L1 = list( Lk[ i ] )[ : k - 2 ];
L2 = list( Lk[ j ] )[ : k - 2 ];
L1.sort();L2.sort()
if L1 == L2:
retList.append( Lk[ i ] | Lk[ j ] )
return retList
def apriori( dataSet, minSupport = 0.5 ):
# 構建初始候選項集C1
C1 = createC1( dataSet )
# 將dataSet集合化,以滿(mǎn)足scanD的格式要求
D = list(map( set, dataSet ))
# 構建初始的頻繁項集,即所有項集只有一個(gè)元素
L1, suppData = scanD( D, C1, minSupport )
L = [ L1 ]
# 最初的L1中的每個(gè)項集含有一個(gè)元素,新生成的項集應該含有2個(gè)元素,所以 k=2
k = 2
while ( len( L[ k - 2 ] ) > 0 ):
Ck = aprioriGen( L[ k - 2 ], k )
print('k=',k,'\n Ck=',Ck,'\n L[k-2]',L[k-2])
Lk, supK = scanD( D, Ck, minSupport )
# 將新的項集的支持度數據加入原來(lái)的總支持度字典中
suppData.update( supK )
# 將符合最小支持度要求的項集加入L
L.append( Lk )
# 新生成的項集中的元素個(gè)數應不斷增加
k += 1
# 返回所有滿(mǎn)足條件的頻繁項集的列表,和所有候選項集的支持度信息
return L, suppData
dataSet=loadDataSet()
L1,suppData0=apriori(dataSet,0.5)
##print(dataSet)
##C1=createC1(dataSet)
##print(C1)
##D=list(map(set,dataSet))
##print('D=',D)
##L1,suppData0=scanD(D,C1,0.5)
print('L1=',L1)
print('supData0=',suppData0)
結果:
D:\>python apriori.py
k= 2
Ck= [frozenset({1, 3}), frozenset({1, 2}), frozenset({1, 5}), frozenset({2, 3})
, frozenset({3, 5}), frozenset({2, 5})]
L[k-2] [frozenset({1}), frozenset({3}), frozenset({2}), frozenset({5})]
k= 3
Ck= [frozenset({2, 3, 5})]
L[k-2] [frozenset({3, 5}), frozenset({1, 3}), frozenset({2, 5}), frozenset({2,
3})]
k= 4
Ck= []
L[k-2] [frozenset({2, 3, 5})]
L1= [[frozenset({1}), frozenset({3}), frozenset({2}), frozenset({5})], [frozense
t({3, 5}), frozenset({1, 3}), frozenset({2, 5}), frozenset({2, 3})], [frozenset(
{2, 3, 5})], []]
supData0= {frozenset({5}): 0.75, frozenset({3}): 0.75, frozenset({2, 3, 5}): 0.5
, frozenset({1, 2}): 0.25, frozenset({1, 5}): 0.25, frozenset({3, 5}): 0.5, froz
enset({4}): 0.25, frozenset({2, 3}): 0.5, frozenset({2, 5}): 0.75, frozenset({1}
): 0.5, frozenset({1, 3}): 0.5, frozenset({2}): 0.75}
分析:
step1.Initial=2,調用aprioriGen生成候選項集Ck
step2.調用scanD根據Ck創(chuàng )建Lk,丟棄不滿(mǎn)足最小支持度要求的項集。
stpe3.Lk列表加入L,同時(shí)k遞增,重復上述過(guò)程
step4.Lk為空,函數返回L--頻繁列表和字典supportData-itemset的支持度并退出。
在運行結果中,
k=2時(shí),aprioriGen生成2個(gè)元素的6個(gè)候選項集列表
Ck= [frozenset({1, 3}),frozenset({1, 2}),frozenset({1, 5}),frozenset({2, 3})
,frozenset({3, 5}),frozenset({2, 5})]
然后通過(guò)scanD過(guò)濾掉2個(gè)不滿(mǎn)足最小支持度的集合,所以將下面4個(gè)元素加入到頻繁項集列表中
[frozenset({3, 5}),frozenset({1, 3}),frozenset({2, 5}),frozenset({2,3})]
當 k=3 時(shí),生成 1 元素候選集列表 Ck= [frozenset({2, 3, 5})]。注意:由于集合的第一個(gè)元素用于比較,因此只有集合 freezeset({2, 5})、frozenset({2,3})] 會(huì )被合并。
候選項集列表中的元素集支持度為0.5,滿(mǎn)足最小支持度,故加入頻繁項集列表。
K=4,CK=[]
程序返回一個(gè)頻繁項集(9 個(gè)元素)的列表,然后退出。
L1= [[frozenset({1}),frozenset({3}),frozenset({2}),frozenset({5})],[frozense
t({3, 5}),frozenset({1, 3}),frozenset({2, 5}),frozenset({2, 3})],[frozenset(
{2, 3, 5})], []]
免規則采集器列表算法(深度學(xué)習遵從大數定律,數據越多,規律性越能掌控。)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 138 次瀏覽 ? 2022-02-04 18:33
深度學(xué)習遵循大數定律。數據越多,規律越可控。
1、細粒度分類(lèi)
比如我去車(chē)架、車(chē)頭燈、車(chē)前臉、車(chē)輪轂等等,然后用cnn或者deep cnn之類(lèi)的分類(lèi)器來(lái)做這些分類(lèi),為分類(lèi)器,輸入的是車(chē)頭燈+車(chē)前臉+車(chē)輪,不是全圖。然后分類(lèi)器從前照燈前臉等中提取高級特征,得到分類(lèi)模型。
在fine-tuning的過(guò)程中會(huì )有一個(gè)問(wèn)題,就是用來(lái)區分未知信息圖片的,最好加框。
對于本地圖像,我們像這樣提取它們:
2、級聯(lián)方法
1、粗粒度 - 圖像清理。整體識別0/1,無(wú)論是汽車(chē)、數據篩選、清理垃圾層,力求準確率達到98%以上,甚至更高,每個(gè)分類(lèi)取2w張左右;
2、中等粒度 - 品牌分類(lèi)器。不細分品牌下的子品牌,比如康師傅牛肉面,也不細分很多口味比如康師傅辣、咸等,太細了,你的數據量不夠。即使你花很長(cháng)時(shí)間仔細標記,也得不償失。
3、細粒度 - 車(chē)輛類(lèi)型分類(lèi)器。區分每個(gè)品牌的不同模型分類(lèi)器,更簡(jiǎn)單,更準確。還可以訓練更多細節,內飾、做工、配色等。
這樣,你會(huì )得到0.98*0.96*0.94~0.88的識別率,但是準確率會(huì )變得可調,當粗略-粒度識別哪些要被拒絕,提高概率標準,可以提高整體識別率。
3、數據增強
Opencv首先做一些圖像變換,比如光處理、去噪等,會(huì )提高復雜環(huán)境下圖像的識別準確率。
此外,可以改變光照強度以進(jìn)行訓練
.
二、深度學(xué)習在美團點(diǎn)評中的應用1、圖像質(zhì)量評估
在美團點(diǎn)評中,商家的第一張圖片由商家或運營(yíng)商手動(dòng)指定。如何選擇第一張圖片才能更好地吸引用戶(hù)?圖像質(zhì)量排名算法的目標是自動(dòng)選擇更好的第一張圖像來(lái)吸引用戶(hù)點(diǎn)擊。
傳統的畫(huà)質(zhì)排名方式主要是從審美的角度來(lái)評價(jià)畫(huà)質(zhì),通過(guò)色彩統計、主題分布、構圖等分析畫(huà)面的美感。但在實(shí)際業(yè)務(wù)場(chǎng)景中,用戶(hù)對畫(huà)面質(zhì)量的判斷主觀(guān)性很強,很難形成統一的評價(jià)標準。例如:
因此,我們使用深度學(xué)習的方法來(lái)探索圖像的哪些屬性會(huì )影響用戶(hù)的判斷,以及如何有效地整合這些屬性來(lái)評估圖像。
我們使用 AlexNet 提取圖像的高級語(yǔ)義描述,學(xué)習美學(xué)、可記憶性、吸引力和類(lèi)別等高級特征,并補充人工設計的低級特征(如顏色、銳度、對比度和角點(diǎn))。獲得這些特征后,訓練一個(gè)淺層神經(jīng)網(wǎng)絡(luò )對整個(gè)圖像進(jìn)行評分。該框架的一個(gè)特點(diǎn)(如圖 2 所示)是深度學(xué)習特征和傳統特征的結合,既引入了高級語(yǔ)義,又保留了低級一般描述,包括全局和局部特征。
對于圖像各維度屬性的學(xué)習,需要大量的標簽數據來(lái)支持,但是完全人工標注成本非常高,所以我們借鑒了美團點(diǎn)評的圖像源和POI標簽系統。關(guān)于吸引力屬性的研究,我們選取??美團Deal相冊中點(diǎn)擊率高的圖片(多為單反相機拍攝)作為正例,選擇UGC相冊中點(diǎn)擊率低的圖片(主要是低端手機)。射擊)作為一個(gè)反面例子。關(guān)于類(lèi)別屬性的學(xué)習,我們使用美團的一級類(lèi)別和常見(jiàn)的二級類(lèi)別作為圖像標簽?;谝陨腺|(zhì)量排名模型,我們選擇最適合廣告POI的高質(zhì)量首圖展示,可以吸引用戶(hù)點(diǎn)擊,提高業(yè)務(wù)指標。圖 3 顯示了基于質(zhì)量排名的第一個(gè)圖像偏好的結果。
2、OCR 技術(shù)
OCR在美團點(diǎn)評業(yè)務(wù)中主要扮演兩個(gè)角色。一方面是輔助輸入。例如,在移動(dòng)支付過(guò)程中,對銀行卡號進(jìn)行拍照識別,實(shí)現自動(dòng)綁定卡。另一個(gè)例子是輔助BD輸入菜單信息。另一方面是審查和驗證。例如,在商戶(hù)資質(zhì)審核過(guò)程中,從商戶(hù)上傳的身份證、營(yíng)業(yè)執照、餐飲許可證等文件中提取信息并進(jìn)行驗證,確保商戶(hù)的合法性。例如,機器過(guò)濾商家的訂單和用戶(hù)評價(jià)過(guò)程中產(chǎn)生的含有違禁詞的圖片。與傳統 OCR 場(chǎng)景(打印、掃描文檔)相比,美團’ s OCR場(chǎng)景主要針對手機拍攝的照片的文字信息提取和識別??紤]到線(xiàn)下用戶(hù)的多樣性,主要面臨以下挑戰:
針對上述挑戰,傳統的OCR解決方案存在以下不足:
針對傳統OCR方案的不足,我們嘗試了基于深度學(xué)習的OCR。
首先,我們根據是否有先驗信息,將布局分為可控場(chǎng)景(如身份證、營(yíng)業(yè)執照、銀行卡)和非可控場(chǎng)景(如菜單、門(mén)圖片)。
對于受控場(chǎng)景,我們將文本本地化轉換為特定關(guān)鍵字目標的檢測問(wèn)題。主要使用Faster R-CNN進(jìn)行檢測,如下圖所示。為了保證回歸框的定位精度,提高運算速度,我們對原有的框架和訓練方法進(jìn)行了微調:
? 考慮到關(guān)鍵字目標的類(lèi)內變化有限,我們對 ZF 模型的網(wǎng)絡(luò )結構進(jìn)行了裁剪,將 5 層卷積減少到 3 層。
?在訓練過(guò)程中,提高正樣本重疊率的閾值,根據業(yè)務(wù)需求適配RPN層Anchor的縱橫比。
對于不受控制的場(chǎng)景,由于文本方向和筆畫(huà)寬度的任意變化,導致回歸框在目標檢測中的定位粒度不夠。我們使用語(yǔ)義分割中常用的全卷積網(wǎng)絡(luò )(FCN)來(lái)進(jìn)行像素級的文本/背景標注,如下圖所示。為了同時(shí)保證定位的準確性和語(yǔ)義的清晰,我們不僅在最后一層進(jìn)行反卷積,還融合了深淺層的反卷積結果。
為了有效控制字符分割和識別后處理的錯誤傳播效果,實(shí)現端到端文本識別的可訓練性,我們采用下圖所示的序列學(xué)習框架。整體框架分為三層:卷積層、循環(huán)層和翻譯層。其中,卷積層提取特征,遞歸層不僅學(xué)習特征序列中字符特征的序列關(guān)系,還學(xué)習字符的序列關(guān)系,翻譯層實(shí)現時(shí)間序列分類(lèi)結果的解碼。
由于序列學(xué)習框架對訓練樣本的數量和分布有很高的要求,我們采用真實(shí)樣本+合成樣本的方法。真實(shí)樣本主要基于美團點(diǎn)評的業(yè)務(wù)來(lái)源(如菜單、身份證、營(yíng)業(yè)執照),合成樣本考慮了字體、變形、模糊、噪點(diǎn)、背景等因素?;谏鲜鲂蛄袑W(xué)習框架和訓練數據,文本識別在各種場(chǎng)景下的性能都有了很大的提升,如下圖所示。
.
三、 1、快速去重圖片
攜程酒店圖片數據來(lái)源較多,同一酒店出現相同/相似圖片的概率較高。圖片的重復展示會(huì )影響用戶(hù)的體驗,不利于用戶(hù)獲取酒店的完整信息。酒店圖像之間的相同/相似主要表現在1)維度變形;2) 裁剪不完整;3) 顏色變化;4) 旋轉變化;5) 拍攝角度 移動(dòng)等情況,如下圖。
為了解決酒店圖像之間的相同/相似問(wèn)題,需要對酒店的圖像數據進(jìn)行去重。然而,由于鏡像數量巨大,手動(dòng)去重既費時(shí)又費力。因此,通過(guò)圖像去重技術(shù)自動(dòng)確定并去除相同/相似圖像勢在必行。
圖像去重一般分為
1)圖像特征表達的提取和2)圖像之間的相似度計算是兩個(gè)主要步驟。
對于圖像特征表示的提取,常用的手工設計特征有顏色、紋理、HOG、SIFT、SURF等。此外,基于深度學(xué)習的深度特征表示也經(jīng)常使用。對于圖像間的相似度計算,常用的無(wú)監督距離測量方法有歐幾里得距離、曼哈頓距離、余弦距離;常見(jiàn)的有監督距離測量方法包括 LMNN、KISSME、LFDA 和 MFA。但是,這些方法都是基于浮點(diǎn)特征計算相似度,計算速度普遍較慢。因此,采用哈希學(xué)習的方法將圖像特征轉化為二進(jìn)制碼,然后通過(guò)漢明距離快速計算相似度,更符合圖像數據行業(yè)。處理速度要求。
對于酒店中相同/相似的圖像,大部分全局特征(如顏色、紋理、HOG)不能很好地解決圖像裁剪和旋轉變化的問(wèn)題;一些局部特征(如SIFT和SURF)和基于深度學(xué)習的特征雖然表達效果不錯,但由于特征提取復雜,計算速度太慢。
針對上述特征提取方法的不足,我們最終使用ORB特征作為圖像的特征表達,使用漢明距離計算相似度。
ORB 特性具有以下優(yōu)點(diǎn):
1)快速特征提??;
2)大部分情況下,去重效果可以等同于SIFT/SURF;
3)提取的特征直接采用二進(jìn)制編碼的形式,可以不用哈希學(xué)習的方法,用漢明距離快速計算相似度。
ORB特性在實(shí)際的圖像去重過(guò)程中還是有一些不足的地方。比如在處理圖像尺寸差異過(guò)大、變形、模糊等問(wèn)題時(shí),去重效果一般。
為此,在提取ORB特征之前,我們首先將圖像按照初始縱橫比統一縮放到一個(gè)固定的標準尺寸,這樣就避免了圖像之間的尺寸差異,更好地彌補了ORB特征在尺度不變性上的不足。缺陷。
同時(shí),在面對圖像變形和模糊問(wèn)題時(shí),我們在ORB特征的基礎上,進(jìn)一步融合顏色直方圖、LBP特征等全局特征確定重復圖像,使圖像局部和全局信息的優(yōu)勢得到體現。補充。減少了變形、模糊等因素對ORB特征的影響,保證了圖像去重的準確性。
.
2、水印圖像檢測
攜程的酒店圖片數據來(lái)源多樣,這也導致了另一個(gè)嚴重的問(wèn)題:帶有其他公司水印信息的圖片數量增加。人工檢測水印圖片會(huì )耗費大量人力,因此我們希望利用計算機自動(dòng)檢測圖片中是否收錄水印信息,避免誤用和侵權。
圖像中水印信息的視覺(jué)意義很低,具有面積小、顏色淺、透明度高的特點(diǎn)。下面顯示了帶有水印的酒店圖像的一些示例。
一般的目標檢測問(wèn)題可以看成是圖像的一部分的分類(lèi)問(wèn)題。在深度學(xué)習興起之前,可變形零件模型(DPM)一直是一種流行的目標檢測方法。隨著(zhù)深度學(xué)習技術(shù)的發(fā)展,以R-CNN、Fast R-CNN、Faster R-CNN和YOLO為代表的一系列基于卷積神經(jīng)網(wǎng)絡(luò )的目標檢測方法已成為主流。但水印檢測與一般目標檢測的區別在于水印在圖像中的位置基本固定,所以水印檢測可以看作是一個(gè)簡(jiǎn)化的目標檢測問(wèn)題,關(guān)鍵是訓練一個(gè)水印分類(lèi)器。
在訓練一個(gè)水印分類(lèi)器的過(guò)程中,我們遇到的最大問(wèn)題是沒(méi)有足夠的帶水印類(lèi)別的圖像數據進(jìn)行訓練。為了解決這個(gè)問(wèn)題,我們選擇自主生成訓練數據。具體來(lái)說(shuō),我們從大量無(wú)水印圖像中隨機截取幾張矩形區域圖像,并將這些矩形區域圖像作為無(wú)水印的訓練圖像數據;同時(shí),我們隨機縮放要檢測的水印信息圖形,并嵌入這些不收錄水印信息的圖像。在矩形圖像內部,從而形成帶水印的訓練圖像數據。通過(guò)這種方式,我們可以方便快捷地獲得大量的圖像訓練數據。
在自主生成大量訓練數據后,我們專(zhuān)門(mén)針對水印分類(lèi)任務(wù)訓練了一個(gè) AlexNet。對于待檢測的圖像,我們使用可變幀在水印的常見(jiàn)位置(圖像的左右下角和中間位置)處隨機截取一系列矩形區域圖像,然后將它們輸入到分類(lèi)中網(wǎng)絡(luò )依次進(jìn)行分類(lèi),最后融合所有矩形區域圖像??梢缘玫剿D像的分類(lèi)結果。完整的水印圖像檢測過(guò)程如上圖所示。
我們使用計算機自動(dòng)進(jìn)行快速去重和水印圖像檢測,兩者都達到了99%+的準確率,在實(shí)際圖像處理中有效減少了大量的人工成本。
3、房間類(lèi)型圖片分類(lèi)
酒店圖像可以根據內容分為許多類(lèi)別,例如外部、內部和房間類(lèi)型。其中,房型圖片可以直觀(guān)的展示房型信息,對于用戶(hù)選擇入住的房型尤為關(guān)鍵。我們要優(yōu)先展示吸引用戶(hù)的房型內容,提升用戶(hù)體驗和訂單率。但在實(shí)際應用中,房型圖片往往收錄大量?jì)热?,并沒(méi)有逐一進(jìn)行人工篩選,所以經(jīng)常出現房型第一張圖片不合適的情況。解決房型首圖不合適問(wèn)題的關(guān)鍵在于對房型圖片進(jìn)行分類(lèi),以便優(yōu)先展示吸引用戶(hù)的內容。具體來(lái)說(shuō),
隨著(zhù)深度學(xué)習技術(shù)的出現,尤其是卷積神經(jīng)網(wǎng)絡(luò )的興起,一個(gè)理想的房間類(lèi)型圖像分類(lèi)方法一般分為兩個(gè)步驟:1)使用大量帶標簽的房間類(lèi)型圖像數據,直接訓練一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò ),如AlexNet、VGGNet、ResNet或基于Inception的一系列網(wǎng)絡(luò )等;2)對于未知類(lèi)別的房間類(lèi)型圖像,將其輸入到深度卷積神經(jīng)網(wǎng)絡(luò )中,網(wǎng)絡(luò )的最后一層直接輸出它屬于每個(gè)類(lèi)別的概率。
與水印圖像檢測一樣,在實(shí)際實(shí)踐過(guò)程中,我們遇到的最大問(wèn)題仍然是缺乏用于訓練的類(lèi)別標記的房間圖像數據。人工標注大量訓練圖像顯然是不現實(shí)的。不訓練圖像就得到分類(lèi)模型更不現實(shí)。所以我們還是花了一些時(shí)間對少數房間類(lèi)型圖像的類(lèi)別進(jìn)行標注。在這個(gè)小尺度房間圖像數據集的基礎上,一般有兩種分類(lèi)思路:1)由于房間圖像屬于場(chǎng)景圖像,可以提取房間圖像的HOG、SIFT和GIST特征。這些手工設計的Feature已經(jīng)被證明在場(chǎng)景分類(lèi)中更有效,然后訓練傳統的分類(lèi)器實(shí)現分類(lèi);2) 利用深度卷積神經(jīng)網(wǎng)絡(luò )強大的特征遷移學(xué)習能力,首先利用海量圖像數據訓練一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò ),然后將該網(wǎng)絡(luò )作為特征提取模型,與傳統分類(lèi)器相結合,實(shí)現分類(lèi)。當然,如果有更多的人力和時(shí)間,當有很多標記的房間類(lèi)型圖像數據時(shí),直接微調網(wǎng)絡(luò )是更好的選擇。
在實(shí)際應用中,我們選擇第二種思路。我們沒(méi)有使用使用最廣泛的 ImageNet 數據集,因為該數據集中的圖像內容與房間類(lèi)型圖像差異太大,特征轉移無(wú)法達到最佳效果。為了盡可能提高網(wǎng)絡(luò )的特征轉移能力,我們使用最接近房間圖像的場(chǎng)景圖像數據集來(lái)訓練VGGNet作為房間圖像特征提取器。最后,我們使用我們自己的帶注釋的小規模房屋類(lèi)型圖像數據集來(lái)訓練支持向量機模型來(lái)實(shí)現分類(lèi)。具體分類(lèi)流程如下圖所示。
在我們的房間類(lèi)型圖像分類(lèi)上線(xiàn)后,它達到了 98% 的準確率。下圖為某酒店多房型圖片分類(lèi)上線(xiàn)前后第一張圖片的變化示例(紅框為上線(xiàn)前,綠框為上線(xiàn)后)。
4、圖像質(zhì)量評估
在上一節中,我們通過(guò)房間類(lèi)型圖像分類(lèi)介紹了帶有床的房間類(lèi)型圖像的優(yōu)先級。但是,如果一個(gè)房型有多個(gè)帶床的圖像,我應該選擇哪個(gè)圖像作為該房型的第一個(gè)圖像?因此,我們希望能夠對房型圖像的質(zhì)量進(jìn)行評估,這樣當圖像的類(lèi)別相同時(shí),可以按照質(zhì)量進(jìn)行排序。更廣泛地說(shuō),我們也希望對所有的酒店圖片進(jìn)行質(zhì)量評估,這樣就可以根據圖片的質(zhì)量得分來(lái)選擇酒店的第一張圖片、酒店圖片的首選展示等。
首先,我們選擇了客觀(guān)的清晰度指標作為圖像質(zhì)量評價(jià)的標準。我們認為,清晰圖像變得模糊時(shí)丟失的信息比模糊圖像變得模糊時(shí)丟失的信息要多。按照這個(gè)思路,對于一張圖像,我們先對它進(jìn)行灰度化,然后得到對應的模糊圖像。接下來(lái),我們分別從原創(chuàng )圖像和對應的模糊圖像中提取圖像邊緣信息,并使用拉普拉斯卷積模板進(jìn)行濾波。最后,我們可以通過(guò)比較兩個(gè)濾波圖像的方差變化率來(lái)量化圖像的清晰度。
完整的計算過(guò)程如下圖所示。圖像的清晰度分數范圍在[0, 1]之間,分數越大,圖像越清晰。我們對圖像的清晰度分數進(jìn)行分割驗證,圖像清晰度的評估準確率達到91%。
但在實(shí)際應用中,我們發(fā)現僅以銳度作為圖像質(zhì)量評價(jià)的標準還存在一些不足,因為銳度高但內容難看的圖像也不少。這些圖像首先顯示是因為它們的清晰度很高,但其難看的內容影響了用戶(hù)的體驗,因此我們希望從審美的角度進(jìn)一步評估圖像質(zhì)量。
圖像的美是一個(gè)非常主觀(guān)的概念,很難有一個(gè)統一的標準來(lái)量化它。為了盡可能準確地計算圖像的美感,我們選擇了深度卷積神經(jīng)網(wǎng)絡(luò )模型來(lái)實(shí)現美感評估。在實(shí)踐中,我們再次遇到同樣的問(wèn)題:缺乏大量帶有好/壞標簽的訓練圖像。由于利用卷積神經(jīng)網(wǎng)絡(luò )強大的遷移學(xué)習能力在房間類(lèi)型圖像分類(lèi)中特征遷移的成功,我們決定繼續使用這種方法。
由于酒店圖像的美感受內容、顏色和構圖的影響,我們不再像房間類(lèi)型圖像分類(lèi)那樣使用單一內容的場(chǎng)景圖像數據集,而是使用包羅萬(wàn)象的 ImageNet 數據集和場(chǎng)景圖像。將數據集混合進(jìn)行訓練,我們力求讓盡可能多的圖像參與到深度卷積神經(jīng)網(wǎng)絡(luò )的學(xué)習中,使網(wǎng)絡(luò )能夠記住更多圖像的內容,從而進(jìn)一步提高圖像的特征遷移能力。網(wǎng)絡(luò )。同時(shí),為了保證深度卷積神經(jīng)網(wǎng)絡(luò )的特征表達能力,我們采用比 AlexNet 和 VGGNet 層數更深的 ResNet 作為特征提取器。最后,我們用好看/不好看的標簽標記少量圖像,
我們將圖像被模型判斷為好看的概率作為圖像的美感分數。美女評分的范圍在 [0, 1] 之間。如果分數越大,則表示圖像越漂亮。由于審美評價(jià)模型沒(méi)有考慮銳度因素,我們最終將圖像的銳度和美感融合起來(lái)計算圖像質(zhì)量得分。完整的圖像質(zhì)量評估流程如下圖所示。通過(guò)圖像質(zhì)量評估,使清晰、美觀(guān)的圖像優(yōu)先顯示,對酒店/房型第一圖像的選擇和酒店圖像的排序具有很好的指導意義。
寫(xiě)在最后
上面我們介紹了攜程的四個(gè)真實(shí)圖像數據處理需求,但機器學(xué)習對于攜程酒店圖像數據處理的價(jià)值遠不止于此。接下來(lái),我們將繼續深入挖掘多個(gè)圖像應用場(chǎng)景,例如圖像的個(gè)性化展示、利用超分辨率和去模糊技術(shù)提升圖像質(zhì)量等,努力為攜程酒店圖像的智能化貢獻力量。數據。
.
四、
陳瑞軍告訴雷鋒網(wǎng):
第一個(gè)考慮是做人臉識別,但是發(fā)現動(dòng)態(tài)人臉識別的準確率不夠,直到現在一直是一個(gè)需要解決的問(wèn)題。對于神清來(lái)說(shuō),作為一家初創(chuàng )的新公司,這個(gè)方向可能暫時(shí)還不能落地,所以想做別人沒(méi)做過(guò)的事情,結合用戶(hù)的需求,所以“車(chē)臉”的方向識別”設置。
此后,從最基本的圖片識別開(kāi)始,到視頻識別,再到視頻中的車(chē)輛分析,直至今天,已經(jīng)形成了以“車(chē)輛識別”為核心的軟硬件產(chǎn)品布局??偟膩?lái)說(shuō),神清科技的產(chǎn)品體系主要包括以下幾個(gè)方面:
視頻基因分析引擎
視頻基因譜引擎是神清的核心產(chǎn)品,俗稱(chēng)“視頻結構”。在沈清看來(lái),“視頻結構化”的概念應該是公安部第三研究所胡所長(cháng)提出的,指的是把視頻數據中的非結構化信息轉化為結構化信息。神清的視頻結構化產(chǎn)品可以高精度地自動(dòng)識別不同視角、不同光照條件、不同監控場(chǎng)景、不同天氣條件下的人車(chē)特征,方便公安機關(guān)達到快速檢索和查詢(xún)的目的。后期控制。
圖像處理引擎
神茂科技的圖像處理引擎主要用于在復雜情況下清除模糊的車(chē)輛和車(chē)牌圖片。等待。
人臉識別引擎
基于深度學(xué)習和模式識別的研究和應用成果,采用人臉檢測、跟蹤和結構化比較算法模型,應用于公安機關(guān)業(yè)務(wù)人員流動(dòng)的人臉比對、檢索、識別、大數據等。.
.
五、圖普科技從“江黃”到視頻直播個(gè)性化推薦
來(lái)自
1、為企業(yè)省更多錢(qián):從“審查色情”到內容審核
企業(yè)對圖普科技的認知更多的是“劍黃”。映客、美拍、小米直播、迅雷、酷狗、星霸等視頻直播頭部平臺是圖普的“劍皇”。服務(wù)”的客戶(hù)。
圖譜科技CEO李明強告訴雷鋒網(wǎng),其實(shí)圖譜從一開(kāi)始就提供的不僅僅是色情內容。對政治敏感信息、暴恐信息和廣告的審查,都是圖普的業(yè)務(wù),統稱(chēng)為內容審查。
從去年開(kāi)始,可以訪(fǎng)問(wèn)色情服務(wù)的客戶(hù)開(kāi)始接受圖普的其他內容審查服務(wù)。比如著(zhù)名的原創(chuàng )尷尬笑話(huà)UGC內容社區尷尬百科,就面臨著(zhù)巨大的流量和人工審核非法廣告的高昂成本。
與識別黃某的過(guò)程類(lèi)似,清除非法小廣告也是基于大量圖片進(jìn)行學(xué)習訓練。非法圖片主要集中在帶有非法文字的圖片和收錄促銷(xiāo)二維碼的小廣告圖片上。圖撲基于圖像識別技術(shù)和尷尬廣告圖像的特點(diǎn),批量生成針對性的廣告圖像進(jìn)行優(yōu)化。訓練大大提高了廣告圖像識別的準確率和準確率,減少了模型迭代的周期。
糸粑連接圖撲定制的廣告識別模型后,機器自動(dòng)識別出糸社區的圖片,并判斷圖像識別為正常,二維碼或帶文字的圖片,然后使用OCR技術(shù)檢測帶文字的圖片。文本定位和識別,自動(dòng)過(guò)濾識別出的收錄敏感和非法文本的圖像。顯著(zhù)降低內容審核成本。
現在,越來(lái)越多的企業(yè)全面接入了圖譜的內容點(diǎn)評平臺。近期,圖普還與阿里云達成合作,在阿里云上發(fā)布色情圖片和暴力恐怖圖片識別服務(wù),阿里云客戶(hù)可直接調用。
此前,圖普透露,日處理圖片數量已升至約9億張,其中每萬(wàn)張圖片處理費為25元。李明強告訴雷鋒網(wǎng),圖普去年的收入增長(cháng)了十倍。
.
2、 幫人賺錢(qián):視頻大數據標簽和個(gè)性化推薦
從一開(kāi)始,圖普就沒(méi)有把自己局限在“色情之旅”或內容審查上。在去年接受雷鋒網(wǎng)采訪(fǎng)時(shí),李明強將圖譜定位為與視頻時(shí)代建立聯(lián)系。在文本時(shí)代,隨著(zhù)計算機對文本的理解,內容之間是有聯(lián)系的。同樣,圖像和視頻被計算機理解后,內容之間的聯(lián)系也可以形成。
Tup 已經(jīng)開(kāi)始著(zhù)手這方面的工作。除了內容審計,圖譜開(kāi)始開(kāi)發(fā)視頻和直播的大數據標注和個(gè)性化推薦服務(wù)。
大數據標簽主要用于短視頻和直播平臺。系統會(huì )通過(guò)學(xué)習海量標簽數據,根據主播的行為、場(chǎng)景、人物風(fēng)格、年齡、性別等,自動(dòng)為當前直播創(chuàng )建標簽。例如,一個(gè)喜歡做出撅嘴表情的年輕女孩很可能會(huì )被貼上“可愛(ài)女孩”的標簽。通過(guò)對人工標注系統的研究,圖普甚至可以判斷主播的長(cháng)相。當然,李明強也解釋說(shuō),與黃健有嚴格的指標不同,“萌妹子”、“美女”等標簽往往帶有很多主觀(guān)因素。
但是對于視頻推薦來(lái)說(shuō),這些基本符合主流審美標準的標簽就足夠了:新用戶(hù)注冊后,直播平臺可以根據用戶(hù)選擇的標簽在其首頁(yè)展示相應的直播;直播平臺還可以根據顏值、人氣等綜合因素,在首頁(yè)推薦直播內容;另外,當用戶(hù)關(guān)注的主播不在線(xiàn)時(shí),系統還可以推薦一些直播類(lèi)型相近的主播。
李明強還告訴雷鋒網(wǎng),還有一個(gè)產(chǎn)品正在開(kāi)發(fā)中,就是在搜索標簽欄,用戶(hù)可以直接根據標簽進(jìn)行搜索。比如喜歡跳舞、喜歡直播KTV場(chǎng)景的用戶(hù),可以根據對應的標簽進(jìn)行搜索。
圖普表示,只有這個(gè)推薦功能,一個(gè)擁有更好應用表的平臺,才能讓新用戶(hù)的留存率提高一倍以上;對于老用戶(hù)來(lái)說(shuō),還可以增加至少30%-40%的停留時(shí)間。對于短視頻和直播平臺來(lái)說(shuō),留存率的提高意味著(zhù)用戶(hù)體驗的提升,更重要的是廣告和打賞收入將得到顯著(zhù)提升。
如果說(shuō)之前的內容審核是為了節省人力成本,為公司省錢(qián),那么視頻推薦實(shí)際上是為了幫助公司賺錢(qián)。
.
六、利用物體檢測制作電子相冊——打印快照行業(yè)的變革
來(lái)源文章:
在印刷行業(yè)或快照行業(yè),會(huì )陸續推出一款產(chǎn)品——電子相冊。
從技術(shù)層面來(lái)說(shuō),電子相冊主要需要解決兩個(gè)問(wèn)題,1.照片裁剪和2.相框匹配。
目前,這些任務(wù)都是手動(dòng)完成的。隨著(zhù)電子圖片需求的增加,制作電子相冊的人工成本也越來(lái)越高。這時(shí)候,利用上面介紹的內容識別算法,我們就可以幫助計算機自動(dòng)裁剪圖片,因為自動(dòng)裁剪最大的顧慮可能就是害怕裁剪掉照片中的人。
另一方面,我們可以進(jìn)一步結合圖像場(chǎng)景分類(lèi)、人臉識別等算法技術(shù),利用標簽匹配的方式,自動(dòng)匹配與照片本身匹配的相框。
算法本身可以做出很多技術(shù),比如利用物體檢測,我們可以實(shí)現內容識別,此外,我們還可以實(shí)現場(chǎng)景分類(lèi)、人臉識別、顏色分類(lèi)、人物表達等等。
技術(shù)項目的結合可以幫助我們實(shí)現目前業(yè)界更多的人工任務(wù),比如自動(dòng)裁剪、根據圖片內容匹配合適的相框作為推薦、場(chǎng)景分類(lèi)、人臉信息等,根據對不同顏色的印刷材料做不同的印刷批次分揀等。
因此,打印快照行業(yè)的一個(gè)簡(jiǎn)單升級可以概括為如圖所示:
從圖中我們可以看出,技術(shù)和應用本質(zhì)上可以完全分離進(jìn)行橫向擴展,因此我們可以看到,同一種技術(shù)可以應用于不同的行業(yè),也可以有很多不同的行業(yè)專(zhuān)用算法技術(shù)。如圖所示:
.
七、
.
1、理解用戶(hù)搜索意圖及其難點(diǎn)分析
分析理解用戶(hù)搜索詞背后真正意圖的難點(diǎn):
2、如何識別用戶(hù)搜索意圖
一般來(lái)說(shuō),搜索意圖分為導航、信息和交易三種類(lèi)型。雅虎的研究人員在此基礎上進(jìn)行了細化,將用戶(hù)搜索意圖分為以下幾類(lèi):
3、樂(lè )觀(guān)的搜索意圖識別引擎
大觀(guān)通過(guò)RESTAPI接口為客戶(hù)提供基于公有云和私有云的搜索服務(wù)。語(yǔ)義分析模塊包括用戶(hù)查詢(xún)意圖的離線(xiàn)挖掘和在線(xiàn)預測。
大觀(guān)文本語(yǔ)義挖掘算法平臺是一個(gè)集成了多種算法的集成學(xué)習平臺,包括經(jīng)典的SVM、LR、RF、LDA等算法,以及CNN、RNN、LSTM、BILSTM等深度學(xué)習算法。例如,在實(shí)踐中,我們嘗試將線(xiàn)性統計模型 CRF 和神經(jīng)網(wǎng)絡(luò )結構 LSTM 結合起來(lái),在 LSTM 的輸出端結合 softmax 和 CRF,使用 LSTM 解決提取序列特征的問(wèn)題,并使用 CRF 有效地利用句子level 的標記信息取得了很好的效果。
八、 查看全部
免規則采集器列表算法(深度學(xué)習遵從大數定律,數據越多,規律性越能掌控。)
深度學(xué)習遵循大數定律。數據越多,規律越可控。
1、細粒度分類(lèi)
比如我去車(chē)架、車(chē)頭燈、車(chē)前臉、車(chē)輪轂等等,然后用cnn或者deep cnn之類(lèi)的分類(lèi)器來(lái)做這些分類(lèi),為分類(lèi)器,輸入的是車(chē)頭燈+車(chē)前臉+車(chē)輪,不是全圖。然后分類(lèi)器從前照燈前臉等中提取高級特征,得到分類(lèi)模型。
在fine-tuning的過(guò)程中會(huì )有一個(gè)問(wèn)題,就是用來(lái)區分未知信息圖片的,最好加框。
對于本地圖像,我們像這樣提取它們:
2、級聯(lián)方法
1、粗粒度 - 圖像清理。整體識別0/1,無(wú)論是汽車(chē)、數據篩選、清理垃圾層,力求準確率達到98%以上,甚至更高,每個(gè)分類(lèi)取2w張左右;
2、中等粒度 - 品牌分類(lèi)器。不細分品牌下的子品牌,比如康師傅牛肉面,也不細分很多口味比如康師傅辣、咸等,太細了,你的數據量不夠。即使你花很長(cháng)時(shí)間仔細標記,也得不償失。
3、細粒度 - 車(chē)輛類(lèi)型分類(lèi)器。區分每個(gè)品牌的不同模型分類(lèi)器,更簡(jiǎn)單,更準確。還可以訓練更多細節,內飾、做工、配色等。
這樣,你會(huì )得到0.98*0.96*0.94~0.88的識別率,但是準確率會(huì )變得可調,當粗略-粒度識別哪些要被拒絕,提高概率標準,可以提高整體識別率。
3、數據增強
Opencv首先做一些圖像變換,比如光處理、去噪等,會(huì )提高復雜環(huán)境下圖像的識別準確率。
此外,可以改變光照強度以進(jìn)行訓練
.
二、深度學(xué)習在美團點(diǎn)評中的應用1、圖像質(zhì)量評估
在美團點(diǎn)評中,商家的第一張圖片由商家或運營(yíng)商手動(dòng)指定。如何選擇第一張圖片才能更好地吸引用戶(hù)?圖像質(zhì)量排名算法的目標是自動(dòng)選擇更好的第一張圖像來(lái)吸引用戶(hù)點(diǎn)擊。
傳統的畫(huà)質(zhì)排名方式主要是從審美的角度來(lái)評價(jià)畫(huà)質(zhì),通過(guò)色彩統計、主題分布、構圖等分析畫(huà)面的美感。但在實(shí)際業(yè)務(wù)場(chǎng)景中,用戶(hù)對畫(huà)面質(zhì)量的判斷主觀(guān)性很強,很難形成統一的評價(jià)標準。例如:
因此,我們使用深度學(xué)習的方法來(lái)探索圖像的哪些屬性會(huì )影響用戶(hù)的判斷,以及如何有效地整合這些屬性來(lái)評估圖像。
我們使用 AlexNet 提取圖像的高級語(yǔ)義描述,學(xué)習美學(xué)、可記憶性、吸引力和類(lèi)別等高級特征,并補充人工設計的低級特征(如顏色、銳度、對比度和角點(diǎn))。獲得這些特征后,訓練一個(gè)淺層神經(jīng)網(wǎng)絡(luò )對整個(gè)圖像進(jìn)行評分。該框架的一個(gè)特點(diǎn)(如圖 2 所示)是深度學(xué)習特征和傳統特征的結合,既引入了高級語(yǔ)義,又保留了低級一般描述,包括全局和局部特征。
對于圖像各維度屬性的學(xué)習,需要大量的標簽數據來(lái)支持,但是完全人工標注成本非常高,所以我們借鑒了美團點(diǎn)評的圖像源和POI標簽系統。關(guān)于吸引力屬性的研究,我們選取??美團Deal相冊中點(diǎn)擊率高的圖片(多為單反相機拍攝)作為正例,選擇UGC相冊中點(diǎn)擊率低的圖片(主要是低端手機)。射擊)作為一個(gè)反面例子。關(guān)于類(lèi)別屬性的學(xué)習,我們使用美團的一級類(lèi)別和常見(jiàn)的二級類(lèi)別作為圖像標簽?;谝陨腺|(zhì)量排名模型,我們選擇最適合廣告POI的高質(zhì)量首圖展示,可以吸引用戶(hù)點(diǎn)擊,提高業(yè)務(wù)指標。圖 3 顯示了基于質(zhì)量排名的第一個(gè)圖像偏好的結果。
2、OCR 技術(shù)
OCR在美團點(diǎn)評業(yè)務(wù)中主要扮演兩個(gè)角色。一方面是輔助輸入。例如,在移動(dòng)支付過(guò)程中,對銀行卡號進(jìn)行拍照識別,實(shí)現自動(dòng)綁定卡。另一個(gè)例子是輔助BD輸入菜單信息。另一方面是審查和驗證。例如,在商戶(hù)資質(zhì)審核過(guò)程中,從商戶(hù)上傳的身份證、營(yíng)業(yè)執照、餐飲許可證等文件中提取信息并進(jìn)行驗證,確保商戶(hù)的合法性。例如,機器過(guò)濾商家的訂單和用戶(hù)評價(jià)過(guò)程中產(chǎn)生的含有違禁詞的圖片。與傳統 OCR 場(chǎng)景(打印、掃描文檔)相比,美團’ s OCR場(chǎng)景主要針對手機拍攝的照片的文字信息提取和識別??紤]到線(xiàn)下用戶(hù)的多樣性,主要面臨以下挑戰:
針對上述挑戰,傳統的OCR解決方案存在以下不足:
針對傳統OCR方案的不足,我們嘗試了基于深度學(xué)習的OCR。
首先,我們根據是否有先驗信息,將布局分為可控場(chǎng)景(如身份證、營(yíng)業(yè)執照、銀行卡)和非可控場(chǎng)景(如菜單、門(mén)圖片)。
對于受控場(chǎng)景,我們將文本本地化轉換為特定關(guān)鍵字目標的檢測問(wèn)題。主要使用Faster R-CNN進(jìn)行檢測,如下圖所示。為了保證回歸框的定位精度,提高運算速度,我們對原有的框架和訓練方法進(jìn)行了微調:
? 考慮到關(guān)鍵字目標的類(lèi)內變化有限,我們對 ZF 模型的網(wǎng)絡(luò )結構進(jìn)行了裁剪,將 5 層卷積減少到 3 層。
?在訓練過(guò)程中,提高正樣本重疊率的閾值,根據業(yè)務(wù)需求適配RPN層Anchor的縱橫比。
對于不受控制的場(chǎng)景,由于文本方向和筆畫(huà)寬度的任意變化,導致回歸框在目標檢測中的定位粒度不夠。我們使用語(yǔ)義分割中常用的全卷積網(wǎng)絡(luò )(FCN)來(lái)進(jìn)行像素級的文本/背景標注,如下圖所示。為了同時(shí)保證定位的準確性和語(yǔ)義的清晰,我們不僅在最后一層進(jìn)行反卷積,還融合了深淺層的反卷積結果。
為了有效控制字符分割和識別后處理的錯誤傳播效果,實(shí)現端到端文本識別的可訓練性,我們采用下圖所示的序列學(xué)習框架。整體框架分為三層:卷積層、循環(huán)層和翻譯層。其中,卷積層提取特征,遞歸層不僅學(xué)習特征序列中字符特征的序列關(guān)系,還學(xué)習字符的序列關(guān)系,翻譯層實(shí)現時(shí)間序列分類(lèi)結果的解碼。
由于序列學(xué)習框架對訓練樣本的數量和分布有很高的要求,我們采用真實(shí)樣本+合成樣本的方法。真實(shí)樣本主要基于美團點(diǎn)評的業(yè)務(wù)來(lái)源(如菜單、身份證、營(yíng)業(yè)執照),合成樣本考慮了字體、變形、模糊、噪點(diǎn)、背景等因素?;谏鲜鲂蛄袑W(xué)習框架和訓練數據,文本識別在各種場(chǎng)景下的性能都有了很大的提升,如下圖所示。
.
三、 1、快速去重圖片
攜程酒店圖片數據來(lái)源較多,同一酒店出現相同/相似圖片的概率較高。圖片的重復展示會(huì )影響用戶(hù)的體驗,不利于用戶(hù)獲取酒店的完整信息。酒店圖像之間的相同/相似主要表現在1)維度變形;2) 裁剪不完整;3) 顏色變化;4) 旋轉變化;5) 拍攝角度 移動(dòng)等情況,如下圖。
為了解決酒店圖像之間的相同/相似問(wèn)題,需要對酒店的圖像數據進(jìn)行去重。然而,由于鏡像數量巨大,手動(dòng)去重既費時(shí)又費力。因此,通過(guò)圖像去重技術(shù)自動(dòng)確定并去除相同/相似圖像勢在必行。
圖像去重一般分為
1)圖像特征表達的提取和2)圖像之間的相似度計算是兩個(gè)主要步驟。
對于圖像特征表示的提取,常用的手工設計特征有顏色、紋理、HOG、SIFT、SURF等。此外,基于深度學(xué)習的深度特征表示也經(jīng)常使用。對于圖像間的相似度計算,常用的無(wú)監督距離測量方法有歐幾里得距離、曼哈頓距離、余弦距離;常見(jiàn)的有監督距離測量方法包括 LMNN、KISSME、LFDA 和 MFA。但是,這些方法都是基于浮點(diǎn)特征計算相似度,計算速度普遍較慢。因此,采用哈希學(xué)習的方法將圖像特征轉化為二進(jìn)制碼,然后通過(guò)漢明距離快速計算相似度,更符合圖像數據行業(yè)。處理速度要求。
對于酒店中相同/相似的圖像,大部分全局特征(如顏色、紋理、HOG)不能很好地解決圖像裁剪和旋轉變化的問(wèn)題;一些局部特征(如SIFT和SURF)和基于深度學(xué)習的特征雖然表達效果不錯,但由于特征提取復雜,計算速度太慢。
針對上述特征提取方法的不足,我們最終使用ORB特征作為圖像的特征表達,使用漢明距離計算相似度。
ORB 特性具有以下優(yōu)點(diǎn):
1)快速特征提??;
2)大部分情況下,去重效果可以等同于SIFT/SURF;
3)提取的特征直接采用二進(jìn)制編碼的形式,可以不用哈希學(xué)習的方法,用漢明距離快速計算相似度。
ORB特性在實(shí)際的圖像去重過(guò)程中還是有一些不足的地方。比如在處理圖像尺寸差異過(guò)大、變形、模糊等問(wèn)題時(shí),去重效果一般。
為此,在提取ORB特征之前,我們首先將圖像按照初始縱橫比統一縮放到一個(gè)固定的標準尺寸,這樣就避免了圖像之間的尺寸差異,更好地彌補了ORB特征在尺度不變性上的不足。缺陷。
同時(shí),在面對圖像變形和模糊問(wèn)題時(shí),我們在ORB特征的基礎上,進(jìn)一步融合顏色直方圖、LBP特征等全局特征確定重復圖像,使圖像局部和全局信息的優(yōu)勢得到體現。補充。減少了變形、模糊等因素對ORB特征的影響,保證了圖像去重的準確性。
.
2、水印圖像檢測
攜程的酒店圖片數據來(lái)源多樣,這也導致了另一個(gè)嚴重的問(wèn)題:帶有其他公司水印信息的圖片數量增加。人工檢測水印圖片會(huì )耗費大量人力,因此我們希望利用計算機自動(dòng)檢測圖片中是否收錄水印信息,避免誤用和侵權。
圖像中水印信息的視覺(jué)意義很低,具有面積小、顏色淺、透明度高的特點(diǎn)。下面顯示了帶有水印的酒店圖像的一些示例。
一般的目標檢測問(wèn)題可以看成是圖像的一部分的分類(lèi)問(wèn)題。在深度學(xué)習興起之前,可變形零件模型(DPM)一直是一種流行的目標檢測方法。隨著(zhù)深度學(xué)習技術(shù)的發(fā)展,以R-CNN、Fast R-CNN、Faster R-CNN和YOLO為代表的一系列基于卷積神經(jīng)網(wǎng)絡(luò )的目標檢測方法已成為主流。但水印檢測與一般目標檢測的區別在于水印在圖像中的位置基本固定,所以水印檢測可以看作是一個(gè)簡(jiǎn)化的目標檢測問(wèn)題,關(guān)鍵是訓練一個(gè)水印分類(lèi)器。
在訓練一個(gè)水印分類(lèi)器的過(guò)程中,我們遇到的最大問(wèn)題是沒(méi)有足夠的帶水印類(lèi)別的圖像數據進(jìn)行訓練。為了解決這個(gè)問(wèn)題,我們選擇自主生成訓練數據。具體來(lái)說(shuō),我們從大量無(wú)水印圖像中隨機截取幾張矩形區域圖像,并將這些矩形區域圖像作為無(wú)水印的訓練圖像數據;同時(shí),我們隨機縮放要檢測的水印信息圖形,并嵌入這些不收錄水印信息的圖像。在矩形圖像內部,從而形成帶水印的訓練圖像數據。通過(guò)這種方式,我們可以方便快捷地獲得大量的圖像訓練數據。
在自主生成大量訓練數據后,我們專(zhuān)門(mén)針對水印分類(lèi)任務(wù)訓練了一個(gè) AlexNet。對于待檢測的圖像,我們使用可變幀在水印的常見(jiàn)位置(圖像的左右下角和中間位置)處隨機截取一系列矩形區域圖像,然后將它們輸入到分類(lèi)中網(wǎng)絡(luò )依次進(jìn)行分類(lèi),最后融合所有矩形區域圖像??梢缘玫剿D像的分類(lèi)結果。完整的水印圖像檢測過(guò)程如上圖所示。
我們使用計算機自動(dòng)進(jìn)行快速去重和水印圖像檢測,兩者都達到了99%+的準確率,在實(shí)際圖像處理中有效減少了大量的人工成本。
3、房間類(lèi)型圖片分類(lèi)
酒店圖像可以根據內容分為許多類(lèi)別,例如外部、內部和房間類(lèi)型。其中,房型圖片可以直觀(guān)的展示房型信息,對于用戶(hù)選擇入住的房型尤為關(guān)鍵。我們要優(yōu)先展示吸引用戶(hù)的房型內容,提升用戶(hù)體驗和訂單率。但在實(shí)際應用中,房型圖片往往收錄大量?jì)热?,并沒(méi)有逐一進(jìn)行人工篩選,所以經(jīng)常出現房型第一張圖片不合適的情況。解決房型首圖不合適問(wèn)題的關(guān)鍵在于對房型圖片進(jìn)行分類(lèi),以便優(yōu)先展示吸引用戶(hù)的內容。具體來(lái)說(shuō),
隨著(zhù)深度學(xué)習技術(shù)的出現,尤其是卷積神經(jīng)網(wǎng)絡(luò )的興起,一個(gè)理想的房間類(lèi)型圖像分類(lèi)方法一般分為兩個(gè)步驟:1)使用大量帶標簽的房間類(lèi)型圖像數據,直接訓練一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò ),如AlexNet、VGGNet、ResNet或基于Inception的一系列網(wǎng)絡(luò )等;2)對于未知類(lèi)別的房間類(lèi)型圖像,將其輸入到深度卷積神經(jīng)網(wǎng)絡(luò )中,網(wǎng)絡(luò )的最后一層直接輸出它屬于每個(gè)類(lèi)別的概率。
與水印圖像檢測一樣,在實(shí)際實(shí)踐過(guò)程中,我們遇到的最大問(wèn)題仍然是缺乏用于訓練的類(lèi)別標記的房間圖像數據。人工標注大量訓練圖像顯然是不現實(shí)的。不訓練圖像就得到分類(lèi)模型更不現實(shí)。所以我們還是花了一些時(shí)間對少數房間類(lèi)型圖像的類(lèi)別進(jìn)行標注。在這個(gè)小尺度房間圖像數據集的基礎上,一般有兩種分類(lèi)思路:1)由于房間圖像屬于場(chǎng)景圖像,可以提取房間圖像的HOG、SIFT和GIST特征。這些手工設計的Feature已經(jīng)被證明在場(chǎng)景分類(lèi)中更有效,然后訓練傳統的分類(lèi)器實(shí)現分類(lèi);2) 利用深度卷積神經(jīng)網(wǎng)絡(luò )強大的特征遷移學(xué)習能力,首先利用海量圖像數據訓練一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò ),然后將該網(wǎng)絡(luò )作為特征提取模型,與傳統分類(lèi)器相結合,實(shí)現分類(lèi)。當然,如果有更多的人力和時(shí)間,當有很多標記的房間類(lèi)型圖像數據時(shí),直接微調網(wǎng)絡(luò )是更好的選擇。
在實(shí)際應用中,我們選擇第二種思路。我們沒(méi)有使用使用最廣泛的 ImageNet 數據集,因為該數據集中的圖像內容與房間類(lèi)型圖像差異太大,特征轉移無(wú)法達到最佳效果。為了盡可能提高網(wǎng)絡(luò )的特征轉移能力,我們使用最接近房間圖像的場(chǎng)景圖像數據集來(lái)訓練VGGNet作為房間圖像特征提取器。最后,我們使用我們自己的帶注釋的小規模房屋類(lèi)型圖像數據集來(lái)訓練支持向量機模型來(lái)實(shí)現分類(lèi)。具體分類(lèi)流程如下圖所示。
在我們的房間類(lèi)型圖像分類(lèi)上線(xiàn)后,它達到了 98% 的準確率。下圖為某酒店多房型圖片分類(lèi)上線(xiàn)前后第一張圖片的變化示例(紅框為上線(xiàn)前,綠框為上線(xiàn)后)。
4、圖像質(zhì)量評估
在上一節中,我們通過(guò)房間類(lèi)型圖像分類(lèi)介紹了帶有床的房間類(lèi)型圖像的優(yōu)先級。但是,如果一個(gè)房型有多個(gè)帶床的圖像,我應該選擇哪個(gè)圖像作為該房型的第一個(gè)圖像?因此,我們希望能夠對房型圖像的質(zhì)量進(jìn)行評估,這樣當圖像的類(lèi)別相同時(shí),可以按照質(zhì)量進(jìn)行排序。更廣泛地說(shuō),我們也希望對所有的酒店圖片進(jìn)行質(zhì)量評估,這樣就可以根據圖片的質(zhì)量得分來(lái)選擇酒店的第一張圖片、酒店圖片的首選展示等。
首先,我們選擇了客觀(guān)的清晰度指標作為圖像質(zhì)量評價(jià)的標準。我們認為,清晰圖像變得模糊時(shí)丟失的信息比模糊圖像變得模糊時(shí)丟失的信息要多。按照這個(gè)思路,對于一張圖像,我們先對它進(jìn)行灰度化,然后得到對應的模糊圖像。接下來(lái),我們分別從原創(chuàng )圖像和對應的模糊圖像中提取圖像邊緣信息,并使用拉普拉斯卷積模板進(jìn)行濾波。最后,我們可以通過(guò)比較兩個(gè)濾波圖像的方差變化率來(lái)量化圖像的清晰度。
完整的計算過(guò)程如下圖所示。圖像的清晰度分數范圍在[0, 1]之間,分數越大,圖像越清晰。我們對圖像的清晰度分數進(jìn)行分割驗證,圖像清晰度的評估準確率達到91%。
但在實(shí)際應用中,我們發(fā)現僅以銳度作為圖像質(zhì)量評價(jià)的標準還存在一些不足,因為銳度高但內容難看的圖像也不少。這些圖像首先顯示是因為它們的清晰度很高,但其難看的內容影響了用戶(hù)的體驗,因此我們希望從審美的角度進(jìn)一步評估圖像質(zhì)量。
圖像的美是一個(gè)非常主觀(guān)的概念,很難有一個(gè)統一的標準來(lái)量化它。為了盡可能準確地計算圖像的美感,我們選擇了深度卷積神經(jīng)網(wǎng)絡(luò )模型來(lái)實(shí)現美感評估。在實(shí)踐中,我們再次遇到同樣的問(wèn)題:缺乏大量帶有好/壞標簽的訓練圖像。由于利用卷積神經(jīng)網(wǎng)絡(luò )強大的遷移學(xué)習能力在房間類(lèi)型圖像分類(lèi)中特征遷移的成功,我們決定繼續使用這種方法。
由于酒店圖像的美感受內容、顏色和構圖的影響,我們不再像房間類(lèi)型圖像分類(lèi)那樣使用單一內容的場(chǎng)景圖像數據集,而是使用包羅萬(wàn)象的 ImageNet 數據集和場(chǎng)景圖像。將數據集混合進(jìn)行訓練,我們力求讓盡可能多的圖像參與到深度卷積神經(jīng)網(wǎng)絡(luò )的學(xué)習中,使網(wǎng)絡(luò )能夠記住更多圖像的內容,從而進(jìn)一步提高圖像的特征遷移能力。網(wǎng)絡(luò )。同時(shí),為了保證深度卷積神經(jīng)網(wǎng)絡(luò )的特征表達能力,我們采用比 AlexNet 和 VGGNet 層數更深的 ResNet 作為特征提取器。最后,我們用好看/不好看的標簽標記少量圖像,
我們將圖像被模型判斷為好看的概率作為圖像的美感分數。美女評分的范圍在 [0, 1] 之間。如果分數越大,則表示圖像越漂亮。由于審美評價(jià)模型沒(méi)有考慮銳度因素,我們最終將圖像的銳度和美感融合起來(lái)計算圖像質(zhì)量得分。完整的圖像質(zhì)量評估流程如下圖所示。通過(guò)圖像質(zhì)量評估,使清晰、美觀(guān)的圖像優(yōu)先顯示,對酒店/房型第一圖像的選擇和酒店圖像的排序具有很好的指導意義。
寫(xiě)在最后
上面我們介紹了攜程的四個(gè)真實(shí)圖像數據處理需求,但機器學(xué)習對于攜程酒店圖像數據處理的價(jià)值遠不止于此。接下來(lái),我們將繼續深入挖掘多個(gè)圖像應用場(chǎng)景,例如圖像的個(gè)性化展示、利用超分辨率和去模糊技術(shù)提升圖像質(zhì)量等,努力為攜程酒店圖像的智能化貢獻力量。數據。
.
四、
陳瑞軍告訴雷鋒網(wǎng):
第一個(gè)考慮是做人臉識別,但是發(fā)現動(dòng)態(tài)人臉識別的準確率不夠,直到現在一直是一個(gè)需要解決的問(wèn)題。對于神清來(lái)說(shuō),作為一家初創(chuàng )的新公司,這個(gè)方向可能暫時(shí)還不能落地,所以想做別人沒(méi)做過(guò)的事情,結合用戶(hù)的需求,所以“車(chē)臉”的方向識別”設置。
此后,從最基本的圖片識別開(kāi)始,到視頻識別,再到視頻中的車(chē)輛分析,直至今天,已經(jīng)形成了以“車(chē)輛識別”為核心的軟硬件產(chǎn)品布局??偟膩?lái)說(shuō),神清科技的產(chǎn)品體系主要包括以下幾個(gè)方面:
視頻基因分析引擎
視頻基因譜引擎是神清的核心產(chǎn)品,俗稱(chēng)“視頻結構”。在沈清看來(lái),“視頻結構化”的概念應該是公安部第三研究所胡所長(cháng)提出的,指的是把視頻數據中的非結構化信息轉化為結構化信息。神清的視頻結構化產(chǎn)品可以高精度地自動(dòng)識別不同視角、不同光照條件、不同監控場(chǎng)景、不同天氣條件下的人車(chē)特征,方便公安機關(guān)達到快速檢索和查詢(xún)的目的。后期控制。
圖像處理引擎
神茂科技的圖像處理引擎主要用于在復雜情況下清除模糊的車(chē)輛和車(chē)牌圖片。等待。
人臉識別引擎
基于深度學(xué)習和模式識別的研究和應用成果,采用人臉檢測、跟蹤和結構化比較算法模型,應用于公安機關(guān)業(yè)務(wù)人員流動(dòng)的人臉比對、檢索、識別、大數據等。.
.
五、圖普科技從“江黃”到視頻直播個(gè)性化推薦
來(lái)自
1、為企業(yè)省更多錢(qián):從“審查色情”到內容審核
企業(yè)對圖普科技的認知更多的是“劍黃”。映客、美拍、小米直播、迅雷、酷狗、星霸等視頻直播頭部平臺是圖普的“劍皇”。服務(wù)”的客戶(hù)。
圖譜科技CEO李明強告訴雷鋒網(wǎng),其實(shí)圖譜從一開(kāi)始就提供的不僅僅是色情內容。對政治敏感信息、暴恐信息和廣告的審查,都是圖普的業(yè)務(wù),統稱(chēng)為內容審查。
從去年開(kāi)始,可以訪(fǎng)問(wèn)色情服務(wù)的客戶(hù)開(kāi)始接受圖普的其他內容審查服務(wù)。比如著(zhù)名的原創(chuàng )尷尬笑話(huà)UGC內容社區尷尬百科,就面臨著(zhù)巨大的流量和人工審核非法廣告的高昂成本。
與識別黃某的過(guò)程類(lèi)似,清除非法小廣告也是基于大量圖片進(jìn)行學(xué)習訓練。非法圖片主要集中在帶有非法文字的圖片和收錄促銷(xiāo)二維碼的小廣告圖片上。圖撲基于圖像識別技術(shù)和尷尬廣告圖像的特點(diǎn),批量生成針對性的廣告圖像進(jìn)行優(yōu)化。訓練大大提高了廣告圖像識別的準確率和準確率,減少了模型迭代的周期。
糸粑連接圖撲定制的廣告識別模型后,機器自動(dòng)識別出糸社區的圖片,并判斷圖像識別為正常,二維碼或帶文字的圖片,然后使用OCR技術(shù)檢測帶文字的圖片。文本定位和識別,自動(dòng)過(guò)濾識別出的收錄敏感和非法文本的圖像。顯著(zhù)降低內容審核成本。
現在,越來(lái)越多的企業(yè)全面接入了圖譜的內容點(diǎn)評平臺。近期,圖普還與阿里云達成合作,在阿里云上發(fā)布色情圖片和暴力恐怖圖片識別服務(wù),阿里云客戶(hù)可直接調用。
此前,圖普透露,日處理圖片數量已升至約9億張,其中每萬(wàn)張圖片處理費為25元。李明強告訴雷鋒網(wǎng),圖普去年的收入增長(cháng)了十倍。
.
2、 幫人賺錢(qián):視頻大數據標簽和個(gè)性化推薦
從一開(kāi)始,圖普就沒(méi)有把自己局限在“色情之旅”或內容審查上。在去年接受雷鋒網(wǎng)采訪(fǎng)時(shí),李明強將圖譜定位為與視頻時(shí)代建立聯(lián)系。在文本時(shí)代,隨著(zhù)計算機對文本的理解,內容之間是有聯(lián)系的。同樣,圖像和視頻被計算機理解后,內容之間的聯(lián)系也可以形成。
Tup 已經(jīng)開(kāi)始著(zhù)手這方面的工作。除了內容審計,圖譜開(kāi)始開(kāi)發(fā)視頻和直播的大數據標注和個(gè)性化推薦服務(wù)。
大數據標簽主要用于短視頻和直播平臺。系統會(huì )通過(guò)學(xué)習海量標簽數據,根據主播的行為、場(chǎng)景、人物風(fēng)格、年齡、性別等,自動(dòng)為當前直播創(chuàng )建標簽。例如,一個(gè)喜歡做出撅嘴表情的年輕女孩很可能會(huì )被貼上“可愛(ài)女孩”的標簽。通過(guò)對人工標注系統的研究,圖普甚至可以判斷主播的長(cháng)相。當然,李明強也解釋說(shuō),與黃健有嚴格的指標不同,“萌妹子”、“美女”等標簽往往帶有很多主觀(guān)因素。
但是對于視頻推薦來(lái)說(shuō),這些基本符合主流審美標準的標簽就足夠了:新用戶(hù)注冊后,直播平臺可以根據用戶(hù)選擇的標簽在其首頁(yè)展示相應的直播;直播平臺還可以根據顏值、人氣等綜合因素,在首頁(yè)推薦直播內容;另外,當用戶(hù)關(guān)注的主播不在線(xiàn)時(shí),系統還可以推薦一些直播類(lèi)型相近的主播。
李明強還告訴雷鋒網(wǎng),還有一個(gè)產(chǎn)品正在開(kāi)發(fā)中,就是在搜索標簽欄,用戶(hù)可以直接根據標簽進(jìn)行搜索。比如喜歡跳舞、喜歡直播KTV場(chǎng)景的用戶(hù),可以根據對應的標簽進(jìn)行搜索。
圖普表示,只有這個(gè)推薦功能,一個(gè)擁有更好應用表的平臺,才能讓新用戶(hù)的留存率提高一倍以上;對于老用戶(hù)來(lái)說(shuō),還可以增加至少30%-40%的停留時(shí)間。對于短視頻和直播平臺來(lái)說(shuō),留存率的提高意味著(zhù)用戶(hù)體驗的提升,更重要的是廣告和打賞收入將得到顯著(zhù)提升。
如果說(shuō)之前的內容審核是為了節省人力成本,為公司省錢(qián),那么視頻推薦實(shí)際上是為了幫助公司賺錢(qián)。
.
六、利用物體檢測制作電子相冊——打印快照行業(yè)的變革
來(lái)源文章:
在印刷行業(yè)或快照行業(yè),會(huì )陸續推出一款產(chǎn)品——電子相冊。
從技術(shù)層面來(lái)說(shuō),電子相冊主要需要解決兩個(gè)問(wèn)題,1.照片裁剪和2.相框匹配。
目前,這些任務(wù)都是手動(dòng)完成的。隨著(zhù)電子圖片需求的增加,制作電子相冊的人工成本也越來(lái)越高。這時(shí)候,利用上面介紹的內容識別算法,我們就可以幫助計算機自動(dòng)裁剪圖片,因為自動(dòng)裁剪最大的顧慮可能就是害怕裁剪掉照片中的人。
另一方面,我們可以進(jìn)一步結合圖像場(chǎng)景分類(lèi)、人臉識別等算法技術(shù),利用標簽匹配的方式,自動(dòng)匹配與照片本身匹配的相框。
算法本身可以做出很多技術(shù),比如利用物體檢測,我們可以實(shí)現內容識別,此外,我們還可以實(shí)現場(chǎng)景分類(lèi)、人臉識別、顏色分類(lèi)、人物表達等等。
技術(shù)項目的結合可以幫助我們實(shí)現目前業(yè)界更多的人工任務(wù),比如自動(dòng)裁剪、根據圖片內容匹配合適的相框作為推薦、場(chǎng)景分類(lèi)、人臉信息等,根據對不同顏色的印刷材料做不同的印刷批次分揀等。
因此,打印快照行業(yè)的一個(gè)簡(jiǎn)單升級可以概括為如圖所示:
從圖中我們可以看出,技術(shù)和應用本質(zhì)上可以完全分離進(jìn)行橫向擴展,因此我們可以看到,同一種技術(shù)可以應用于不同的行業(yè),也可以有很多不同的行業(yè)專(zhuān)用算法技術(shù)。如圖所示:
.
七、
.
1、理解用戶(hù)搜索意圖及其難點(diǎn)分析
分析理解用戶(hù)搜索詞背后真正意圖的難點(diǎn):
2、如何識別用戶(hù)搜索意圖
一般來(lái)說(shuō),搜索意圖分為導航、信息和交易三種類(lèi)型。雅虎的研究人員在此基礎上進(jìn)行了細化,將用戶(hù)搜索意圖分為以下幾類(lèi):
3、樂(lè )觀(guān)的搜索意圖識別引擎
大觀(guān)通過(guò)RESTAPI接口為客戶(hù)提供基于公有云和私有云的搜索服務(wù)。語(yǔ)義分析模塊包括用戶(hù)查詢(xún)意圖的離線(xiàn)挖掘和在線(xiàn)預測。
大觀(guān)文本語(yǔ)義挖掘算法平臺是一個(gè)集成了多種算法的集成學(xué)習平臺,包括經(jīng)典的SVM、LR、RF、LDA等算法,以及CNN、RNN、LSTM、BILSTM等深度學(xué)習算法。例如,在實(shí)踐中,我們嘗試將線(xiàn)性統計模型 CRF 和神經(jīng)網(wǎng)絡(luò )結構 LSTM 結合起來(lái),在 LSTM 的輸出端結合 softmax 和 CRF,使用 LSTM 解決提取序列特征的問(wèn)題,并使用 CRF 有效地利用句子level 的標記信息取得了很好的效果。
八、
免規則采集器列表算法(工具amp;服務(wù)列表Chrome擴展框架商業(yè)服務(wù)(組圖))
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 145 次瀏覽 ? 2022-02-01 07:08
之前介紹過(guò)很多爬蟲(chóng)庫的使用,其中大部分都和Python相關(guān)。當然,其中許多庫是為開(kāi)發(fā)人員準備的。但是對于一個(gè)沒(méi)有爬蟲(chóng)開(kāi)發(fā)經(jīng)驗的新手來(lái)說(shuō),還是很難上手的?,F在市場(chǎng)上其實(shí)有很多爬蟲(chóng)服務(wù)。如果你只是想爬取一些簡(jiǎn)單的數據,或者懶得寫(xiě)代碼,其實(shí)可以用這些工具很輕松的完成爬取,所以這篇文章就到這里了??偨Y一些比較實(shí)用的爬蟲(chóng)服務(wù)和工具,希望能在一定程度上幫助大家擺脫數據爬取的煩惱。
下面總結的一些工具,其實(shí)是一些爬蟲(chóng)工具、實(shí)用工具甚至是一些完整的商業(yè)服務(wù)的高層封裝,包括國內的和國外的。
Tools & Services ListChrome 擴展框架商業(yè)服務(wù)
以下是這些工具和服務(wù)的簡(jiǎn)要介紹和總結。
網(wǎng)絡(luò )刮刀
這是一個(gè)獨立的 Chrome 擴展,安裝了 20w。它支持點(diǎn)擊式數據捕獲,并支持動(dòng)態(tài)頁(yè)面呈現。它針對 JavaScript、Ajax、下拉拖動(dòng)和分頁(yè)功能進(jìn)行了優(yōu)化。它擁有完整的選擇器系統,支持將數據導出為CSV等格式。. 此外,他們還擁有自己的 Cloud Scraper,支持定時(shí)任務(wù)、基于 API 的管理和代理切換。
圖片
官方網(wǎng)站:
數據爬蟲(chóng)
Data Scraper 也是一個(gè) Chrome 擴展,通過(guò)點(diǎn)擊將單個(gè)頁(yè)面的數據抓取成 CSV 和 XSL 文件。本擴展預定義了5w多條規則,可用于爬取近1.5w條流行網(wǎng)站。
但是,此擴展的使用受到限制。免費版每月只能抓取 500 頁(yè),更多則需要付費。
圖片
官方網(wǎng)站:
列表里
這也是一個(gè)Chrome插件,可以快速提取網(wǎng)頁(yè)中的數據,轉換成Excel表格導出,操作起來(lái)非常方便。比如獲取一個(gè)電商產(chǎn)品數據,文章列表數據等,使用它可以快速完成。它還支持單頁(yè)和多頁(yè)以及父子頁(yè)的采集,值得一試。
圖片
官方網(wǎng)站:
汞
這是一個(gè)開(kāi)源工具,提供自動(dòng)解析,用 JavaScript 編寫(xiě),還有一個(gè) Chrome 擴展。使用它,我們可以完成對頁(yè)面的智能分析,比如自動(dòng)提取文章標題、正文、發(fā)布時(shí)間等內容。
另外它有開(kāi)源代碼放在GitHub上,我們可以直接安裝使用,使用命令行完成頁(yè)面的智能解析,速度非???。
圖片
官方網(wǎng)站:
刮擦
這可能是 Python 爬蟲(chóng)學(xué)習者最常用的爬蟲(chóng)框架。使用這個(gè)框架,我們可以快速完成爬蟲(chóng)的開(kāi)發(fā)。此外,框架本身性能優(yōu)異,可配置性強。另外,開(kāi)發(fā)者社區非?;钴S,Scrapy有多種配套插件,幾乎可以實(shí)現任何網(wǎng)站的爬取邏輯。強烈推薦。
圖片
官方網(wǎng)站:
PySpider
PySpider是基于Python開(kāi)發(fā)的爬蟲(chóng)工具,具有可視化管理工具,可以通過(guò)在線(xiàn)編程完成爬蟲(chóng)的創(chuàng )建和運行。此外,它還支持對各種數據庫的分布式爬取和存儲。既然是實(shí)現編程的代碼,它的擴展性還是很強的,而且好用。
圖片
GitHub:
阿皮菲
它是一個(gè)基于 Node.js 開(kāi)發(fā)的爬蟲(chóng)庫。由于它是用JavaScript編寫(xiě)的,所以它完全支持對JavaScript渲染的頁(yè)面的爬取,并連接了Puppeteer和Cheerio。此外,它的定制性也很強,支持各種文件格式的導出,支持與Apify Cloud對接,實(shí)現云爬取。
圖片
官方網(wǎng)站:
解析器
ParseHub是一個(gè)基于Web的抓取客戶(hù)端工具,支持JavaScript渲染、Ajax爬取、Cookies、Session等機制,應用可以從網(wǎng)站中分析獲取數據,并將其轉化為有意義的數據。它還可以使用機器學(xué)習技術(shù)來(lái)識別復雜的文檔并導出為 JSON、CSV、Google 表格等。
Parsehub 支持 Windows、Mac 和 Linux,并可作為 Firefox 擴展使用。此外,它還支持一些高級功能,如分頁(yè)、無(wú)限滾動(dòng)頁(yè)面、彈出窗口和導航。您還可以將 ParseHub 中的數據可視化為 Tableau。
當然,這也是收費的,免費版限5個(gè)項目,每次爬取200頁(yè)的上限。付費訂閱可獲得20個(gè)私有項目,每次爬取10000頁(yè),支持高級版IP代理切換等功能。
圖片
官方網(wǎng)站:
Dexi.io
Dexi.io,前身為 CloudScrape。它是一個(gè)爬蟲(chóng)業(yè)務(wù)服務(wù),支持視覺(jué)點(diǎn)擊和抓取,并配備自然語(yǔ)言解析工具,使解析更準確。所有爬取配置都在網(wǎng)頁(yè)上完成,任務(wù)可以通過(guò)控制臺運行完成。日程。此外,它提供了很多代理IP,還集成了第三方內存,包括Google Drive等工具。
這也是收費的,標準版每月 119 美元,支持工人和基本服務(wù),以及更高級別的服務(wù)。但是,支持免費試用。
圖片
官方網(wǎng)站:
八分法
它也是一個(gè)可視化爬蟲(chóng)工具,支持網(wǎng)頁(yè)的可視化點(diǎn)擊,也支持常見(jiàn)的JavaScript渲染、Ajax爬取等,同樣在云端運行和控制,也提供代理服務(wù)。
免費版支持創(chuàng )建10個(gè)爬蟲(chóng),但提供了最基本的服務(wù)。如果您想提供更多代理切換等服務(wù),您需要購買(mǎi)付費版本。標準版每月 75 美元。
圖片
官方網(wǎng)站:
內容抓取器
Content Grabber也是一個(gè)視覺(jué)爬蟲(chóng)工具,同樣支持視覺(jué)點(diǎn)擊、JavaScript渲染、Ajax爬取等功能,以及驗證碼識別等解決方案,并使用Nohodo作為IP代理。數據支持導出為常用格式,也支持PDF格式導出。
圖片
官方網(wǎng)站:
莫曾達
與Mozenda類(lèi)似,也是基于云爬蟲(chóng)服務(wù),同樣支持可視化點(diǎn)擊操作。它由兩部分組成,一部分用于完成數據提取功能,另一部分是Web控制臺,用于運行和控制各個(gè)爬蟲(chóng)服務(wù)。此外,它還提供對 FTP、Amazon S3、Dropbox 等的支持。
圖片
官方網(wǎng)站:
刮板API
本站提供簡(jiǎn)單的頁(yè)面渲染服務(wù),顧名思義,其爬取結果是通過(guò)API操作的。網(wǎng)站提供了很多渲染引擎,我們可以通過(guò)調用提供的API并傳遞不同的參數來(lái)完成頁(yè)面渲染,類(lèi)似于Splash。
圖片
官方網(wǎng)站:
差異機器人
Diffbot 是一個(gè)提供智能解析的站點(diǎn)。比如一個(gè)新聞頁(yè)面,我們不再需要規則來(lái)完成其內容的提取,比如標題、正文、發(fā)布時(shí)間等等。它通過(guò)一些機器學(xué)習算法、圖像識別、自然語(yǔ)言處理等解決方案進(jìn)行了全面解析。
圖片
官方網(wǎng)站:
進(jìn)口.io
Import.io 可以說(shuō)不僅僅是一個(gè)爬蟲(chóng)服務(wù)網(wǎng)站,它提供了從數據爬取、清洗、處理到應用的一整套解決方案,涉及零售與制造、數據爬取與處理、機器學(xué)習算法、風(fēng)控等解決方案。
圖片
官方網(wǎng)站:
嵌入
實(shí)際上,Embed.ly 提供了一種自動(dòng)獲取圖片、視頻、投票、幻燈片、音樂(lè )、實(shí)時(shí)視頻、表格、GIF、圖表等功能的服務(wù)。頁(yè)面分析與爬蟲(chóng)有關(guān)。它提供了一個(gè)智能的頁(yè)面解析解決方案,類(lèi)似于Diffbot,可以自動(dòng)完成頁(yè)面解析。
圖片
官方網(wǎng)站:
刮風(fēng)風(fēng)暴
這個(gè)網(wǎng)站提供了一個(gè)可視化爬蟲(chóng)工具,支持Mac、Windows、Linux。該工具非常強大。支持自動(dòng)翻頁(yè)、自動(dòng)內容識別、JavaScript渲染、模擬登錄爬取。
然而我下載使用后,居然是優(yōu)采云采集器?看來(lái)本站盜用了優(yōu)采云采集器的源碼。
圖片
官方網(wǎng)站:
神劍手
優(yōu)采云,這可以說(shuō)是國內最好的爬蟲(chóng)平臺之一。后臺爬蟲(chóng)用JavaScript編寫(xiě),支持可視化點(diǎn)擊和代碼編寫(xiě)。它還提供云爬取、驗證碼識別和分布式爬取。、JavaScript 渲染等。
此外,優(yōu)采云還提供規則市場(chǎng)、數據標注和數據API服務(wù)。目前,機器學(xué)習相關(guān)的服務(wù)也在列,它們也在向智能化方向發(fā)展。
另外,優(yōu)采云下面還有一個(gè)優(yōu)采云采集器,就是上面介紹的ScrapeStorm使用的爬取工具。它非常強大,支持智能分析。值得一試。
圖片
官方網(wǎng)站:
八爪魚(yú)
優(yōu)采云采集器,在國內可以說(shuō)是比較有名的采集器了,功能和優(yōu)采云采集器差不多,可以完成相關(guān)通過(guò)可視化點(diǎn)擊配置爬蟲(chóng),部分功能比優(yōu)采云采集器更強大。
此外,官方還提供了規則市場(chǎng),獲取規則快速完成數據爬取,無(wú)需關(guān)心爬取邏輯。
圖片
官方網(wǎng)站:
棗樹(shù)
它是一家數據爬取服務(wù)提供商,但不再針對個(gè)人用戶(hù)。主要提供企業(yè)數據服務(wù)。還提供可視化點(diǎn)擊數據爬取服務(wù),也可以通過(guò)一些配置采集完成復雜的頁(yè)面。
圖片
官方網(wǎng)站: 查看全部
免規則采集器列表算法(工具amp;服務(wù)列表Chrome擴展框架商業(yè)服務(wù)(組圖))
之前介紹過(guò)很多爬蟲(chóng)庫的使用,其中大部分都和Python相關(guān)。當然,其中許多庫是為開(kāi)發(fā)人員準備的。但是對于一個(gè)沒(méi)有爬蟲(chóng)開(kāi)發(fā)經(jīng)驗的新手來(lái)說(shuō),還是很難上手的?,F在市場(chǎng)上其實(shí)有很多爬蟲(chóng)服務(wù)。如果你只是想爬取一些簡(jiǎn)單的數據,或者懶得寫(xiě)代碼,其實(shí)可以用這些工具很輕松的完成爬取,所以這篇文章就到這里了??偨Y一些比較實(shí)用的爬蟲(chóng)服務(wù)和工具,希望能在一定程度上幫助大家擺脫數據爬取的煩惱。
下面總結的一些工具,其實(shí)是一些爬蟲(chóng)工具、實(shí)用工具甚至是一些完整的商業(yè)服務(wù)的高層封裝,包括國內的和國外的。
Tools & Services ListChrome 擴展框架商業(yè)服務(wù)
以下是這些工具和服務(wù)的簡(jiǎn)要介紹和總結。
網(wǎng)絡(luò )刮刀
這是一個(gè)獨立的 Chrome 擴展,安裝了 20w。它支持點(diǎn)擊式數據捕獲,并支持動(dòng)態(tài)頁(yè)面呈現。它針對 JavaScript、Ajax、下拉拖動(dòng)和分頁(yè)功能進(jìn)行了優(yōu)化。它擁有完整的選擇器系統,支持將數據導出為CSV等格式。. 此外,他們還擁有自己的 Cloud Scraper,支持定時(shí)任務(wù)、基于 API 的管理和代理切換。

圖片
官方網(wǎng)站:
數據爬蟲(chóng)
Data Scraper 也是一個(gè) Chrome 擴展,通過(guò)點(diǎn)擊將單個(gè)頁(yè)面的數據抓取成 CSV 和 XSL 文件。本擴展預定義了5w多條規則,可用于爬取近1.5w條流行網(wǎng)站。
但是,此擴展的使用受到限制。免費版每月只能抓取 500 頁(yè),更多則需要付費。

圖片
官方網(wǎng)站:
列表里
這也是一個(gè)Chrome插件,可以快速提取網(wǎng)頁(yè)中的數據,轉換成Excel表格導出,操作起來(lái)非常方便。比如獲取一個(gè)電商產(chǎn)品數據,文章列表數據等,使用它可以快速完成。它還支持單頁(yè)和多頁(yè)以及父子頁(yè)的采集,值得一試。

圖片
官方網(wǎng)站:
汞
這是一個(gè)開(kāi)源工具,提供自動(dòng)解析,用 JavaScript 編寫(xiě),還有一個(gè) Chrome 擴展。使用它,我們可以完成對頁(yè)面的智能分析,比如自動(dòng)提取文章標題、正文、發(fā)布時(shí)間等內容。
另外它有開(kāi)源代碼放在GitHub上,我們可以直接安裝使用,使用命令行完成頁(yè)面的智能解析,速度非???。

圖片
官方網(wǎng)站:
刮擦
這可能是 Python 爬蟲(chóng)學(xué)習者最常用的爬蟲(chóng)框架。使用這個(gè)框架,我們可以快速完成爬蟲(chóng)的開(kāi)發(fā)。此外,框架本身性能優(yōu)異,可配置性強。另外,開(kāi)發(fā)者社區非?;钴S,Scrapy有多種配套插件,幾乎可以實(shí)現任何網(wǎng)站的爬取邏輯。強烈推薦。

圖片
官方網(wǎng)站:
PySpider
PySpider是基于Python開(kāi)發(fā)的爬蟲(chóng)工具,具有可視化管理工具,可以通過(guò)在線(xiàn)編程完成爬蟲(chóng)的創(chuàng )建和運行。此外,它還支持對各種數據庫的分布式爬取和存儲。既然是實(shí)現編程的代碼,它的擴展性還是很強的,而且好用。

圖片
GitHub:
阿皮菲
它是一個(gè)基于 Node.js 開(kāi)發(fā)的爬蟲(chóng)庫。由于它是用JavaScript編寫(xiě)的,所以它完全支持對JavaScript渲染的頁(yè)面的爬取,并連接了Puppeteer和Cheerio。此外,它的定制性也很強,支持各種文件格式的導出,支持與Apify Cloud對接,實(shí)現云爬取。

圖片
官方網(wǎng)站:
解析器
ParseHub是一個(gè)基于Web的抓取客戶(hù)端工具,支持JavaScript渲染、Ajax爬取、Cookies、Session等機制,應用可以從網(wǎng)站中分析獲取數據,并將其轉化為有意義的數據。它還可以使用機器學(xué)習技術(shù)來(lái)識別復雜的文檔并導出為 JSON、CSV、Google 表格等。
Parsehub 支持 Windows、Mac 和 Linux,并可作為 Firefox 擴展使用。此外,它還支持一些高級功能,如分頁(yè)、無(wú)限滾動(dòng)頁(yè)面、彈出窗口和導航。您還可以將 ParseHub 中的數據可視化為 Tableau。
當然,這也是收費的,免費版限5個(gè)項目,每次爬取200頁(yè)的上限。付費訂閱可獲得20個(gè)私有項目,每次爬取10000頁(yè),支持高級版IP代理切換等功能。

圖片
官方網(wǎng)站:
Dexi.io
Dexi.io,前身為 CloudScrape。它是一個(gè)爬蟲(chóng)業(yè)務(wù)服務(wù),支持視覺(jué)點(diǎn)擊和抓取,并配備自然語(yǔ)言解析工具,使解析更準確。所有爬取配置都在網(wǎng)頁(yè)上完成,任務(wù)可以通過(guò)控制臺運行完成。日程。此外,它提供了很多代理IP,還集成了第三方內存,包括Google Drive等工具。
這也是收費的,標準版每月 119 美元,支持工人和基本服務(wù),以及更高級別的服務(wù)。但是,支持免費試用。

圖片
官方網(wǎng)站:
八分法
它也是一個(gè)可視化爬蟲(chóng)工具,支持網(wǎng)頁(yè)的可視化點(diǎn)擊,也支持常見(jiàn)的JavaScript渲染、Ajax爬取等,同樣在云端運行和控制,也提供代理服務(wù)。
免費版支持創(chuàng )建10個(gè)爬蟲(chóng),但提供了最基本的服務(wù)。如果您想提供更多代理切換等服務(wù),您需要購買(mǎi)付費版本。標準版每月 75 美元。

圖片
官方網(wǎng)站:
內容抓取器
Content Grabber也是一個(gè)視覺(jué)爬蟲(chóng)工具,同樣支持視覺(jué)點(diǎn)擊、JavaScript渲染、Ajax爬取等功能,以及驗證碼識別等解決方案,并使用Nohodo作為IP代理。數據支持導出為常用格式,也支持PDF格式導出。

圖片
官方網(wǎng)站:
莫曾達
與Mozenda類(lèi)似,也是基于云爬蟲(chóng)服務(wù),同樣支持可視化點(diǎn)擊操作。它由兩部分組成,一部分用于完成數據提取功能,另一部分是Web控制臺,用于運行和控制各個(gè)爬蟲(chóng)服務(wù)。此外,它還提供對 FTP、Amazon S3、Dropbox 等的支持。

圖片
官方網(wǎng)站:
刮板API
本站提供簡(jiǎn)單的頁(yè)面渲染服務(wù),顧名思義,其爬取結果是通過(guò)API操作的。網(wǎng)站提供了很多渲染引擎,我們可以通過(guò)調用提供的API并傳遞不同的參數來(lái)完成頁(yè)面渲染,類(lèi)似于Splash。

圖片
官方網(wǎng)站:
差異機器人
Diffbot 是一個(gè)提供智能解析的站點(diǎn)。比如一個(gè)新聞頁(yè)面,我們不再需要規則來(lái)完成其內容的提取,比如標題、正文、發(fā)布時(shí)間等等。它通過(guò)一些機器學(xué)習算法、圖像識別、自然語(yǔ)言處理等解決方案進(jìn)行了全面解析。

圖片
官方網(wǎng)站:
進(jìn)口.io
Import.io 可以說(shuō)不僅僅是一個(gè)爬蟲(chóng)服務(wù)網(wǎng)站,它提供了從數據爬取、清洗、處理到應用的一整套解決方案,涉及零售與制造、數據爬取與處理、機器學(xué)習算法、風(fēng)控等解決方案。

圖片
官方網(wǎng)站:
嵌入
實(shí)際上,Embed.ly 提供了一種自動(dòng)獲取圖片、視頻、投票、幻燈片、音樂(lè )、實(shí)時(shí)視頻、表格、GIF、圖表等功能的服務(wù)。頁(yè)面分析與爬蟲(chóng)有關(guān)。它提供了一個(gè)智能的頁(yè)面解析解決方案,類(lèi)似于Diffbot,可以自動(dòng)完成頁(yè)面解析。

圖片
官方網(wǎng)站:
刮風(fēng)風(fēng)暴
這個(gè)網(wǎng)站提供了一個(gè)可視化爬蟲(chóng)工具,支持Mac、Windows、Linux。該工具非常強大。支持自動(dòng)翻頁(yè)、自動(dòng)內容識別、JavaScript渲染、模擬登錄爬取。
然而我下載使用后,居然是優(yōu)采云采集器?看來(lái)本站盜用了優(yōu)采云采集器的源碼。

圖片
官方網(wǎng)站:
神劍手
優(yōu)采云,這可以說(shuō)是國內最好的爬蟲(chóng)平臺之一。后臺爬蟲(chóng)用JavaScript編寫(xiě),支持可視化點(diǎn)擊和代碼編寫(xiě)。它還提供云爬取、驗證碼識別和分布式爬取。、JavaScript 渲染等。
此外,優(yōu)采云還提供規則市場(chǎng)、數據標注和數據API服務(wù)。目前,機器學(xué)習相關(guān)的服務(wù)也在列,它們也在向智能化方向發(fā)展。
另外,優(yōu)采云下面還有一個(gè)優(yōu)采云采集器,就是上面介紹的ScrapeStorm使用的爬取工具。它非常強大,支持智能分析。值得一試。

圖片
官方網(wǎng)站:
八爪魚(yú)
優(yōu)采云采集器,在國內可以說(shuō)是比較有名的采集器了,功能和優(yōu)采云采集器差不多,可以完成相關(guān)通過(guò)可視化點(diǎn)擊配置爬蟲(chóng),部分功能比優(yōu)采云采集器更強大。
此外,官方還提供了規則市場(chǎng),獲取規則快速完成數據爬取,無(wú)需關(guān)心爬取邏輯。

圖片
官方網(wǎng)站:
棗樹(shù)
它是一家數據爬取服務(wù)提供商,但不再針對個(gè)人用戶(hù)。主要提供企業(yè)數據服務(wù)。還提供可視化點(diǎn)擊數據爬取服務(wù),也可以通過(guò)一些配置采集完成復雜的頁(yè)面。

圖片
官方網(wǎng)站:
免規則采集器列表算法(文檔介紹會(huì )計學(xué)1計算采集器的步驟及文檔)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 180 次瀏覽 ? 2022-01-25 16:07
文檔介紹
會(huì )計
1
計算采集器
在安裝過(guò)程中配置它
在安裝過(guò)程中配置它
與服務(wù)器安裝在同一臺機器上時(shí),無(wú)需配置
雖然這不是最好的方法,但 Compute采集器 可以安裝在與其最終服務(wù)器分開(kāi)的計算機上
在這種情況下,必須在安裝時(shí)確定服務(wù)器名稱(chēng)
第 1 頁(yè)/共 14 頁(yè)
在管理器中配置
B. 在管理器中配置
設置計算超時(shí)
確定 采集器 執行操作所允許的最長(cháng)時(shí)間
最大恢復時(shí)間
重新計算時(shí)的最大回溯時(shí)間限制
第 2 頁(yè)/共 14 頁(yè)
對康復的理解
C. 對恢復的理解
當 采集器 與其服務(wù)器斷開(kāi)連接時(shí),如果它重新連接到服務(wù)器,它會(huì )恢復斷開(kāi)連接時(shí)完成的操作。
在 采集器 配置中設置恢復邏輯運行的最長(cháng)時(shí)間。
這個(gè)值稱(chēng)為最大恢復時(shí)間
默認為 4 小時(shí)
按時(shí)間順序,從最舊到最新的操作被恢復
恢復邏輯會(huì )返回到最后一次歸檔操作或最長(cháng)恢復時(shí)間,無(wú)論哪個(gè)都無(wú)關(guān)緊要,并將其用作起點(diǎn)。以下事件將觸發(fā)恢復:
當操作 采集器 開(kāi)始時(shí)
暫停時(shí)重啟采集器
當發(fā)生在線(xiàn)更改時(shí)(類(lèi)似于停止和重新啟動(dòng))
僅恢復新標簽配置中的標簽
與存檔服務(wù)器的連接恢復后
第 3 頁(yè),共 14 頁(yè)
手動(dòng)重新計算
手動(dòng)重新計算
操作采集器可以手動(dòng)重新計算
這樣做的好處是:
當您更改操作時(shí)
當自動(dòng)恢復功能既不恢復所有信息也不觸發(fā)時(shí)
例如:
在檔案中,自動(dòng)恢復功能可以回到最近的操作作為恢復邏輯的起點(diǎn)
如果在恢復發(fā)生時(shí)向操作提供數據的 采集器 正在緩沖數據,則它會(huì )啟動(dòng)不包括標簽數據的操作
在這種情況下,重新計算需要一些時(shí)間才能恢復并需要更正或更改
第 4 頁(yè),共 14 頁(yè)
配置手動(dòng)重新運行
E. 配置手動(dòng)重新運行的步驟
在 Manager 中選擇 采集器on-screen 計算或服務(wù)器到服務(wù)器采集器
單擊重新計算按鈕
設置開(kāi)始和結束時(shí)間
選擇要重新計算的標簽選項
選擇所有標簽
瀏覽指定操作采集器標簽
?。ㄈ绻堰x擇選項,請瀏覽選項卡并選擇它們)
單擊重新計算按鈕
在確認對話(huà)框中單擊確定
第 5 頁(yè),共 14 頁(yè)
添加操作標簽,實(shí)現操作
A. 添加標簽到 采集器
在管理器操作中,要添加標簽,您必須使用手動(dòng)標簽對話(huà)框
一旦操作采集器被選為資源地址,就不能使用了
操作標簽的數據資源是它自己的操作
三個(gè)標簽用于創(chuàng )建計算標簽
數據源標簽
計算公式中使用的一個(gè)或多個(gè)標簽
目標標簽
真實(shí)標簽存儲計算值
也可以在此選項卡中創(chuàng )建和存儲操作
觸發(fā)標簽
用于創(chuàng )建未經(jīng)請求的標簽
當觸發(fā)標簽中的數據發(fā)生變化時(shí),更新操作標簽
當觸發(fā)標簽獲得新值、新時(shí)間戳或質(zhì)量更改時(shí)會(huì )發(fā)生更新
輪詢(xún)標簽不能使用觸發(fā)標簽
復制標簽的鏈接可用于復制操作標簽,有助于減少開(kāi)發(fā)時(shí)間
第 6 頁(yè),共 14 頁(yè)
創(chuàng )建操作
B. 創(chuàng )建操作
在管理器選項卡屏幕中選擇計算選項卡時(shí),計算選項可用
所有操作必須包括 Result =
Visual Basic Sc??ript 是一種腳本語(yǔ)言
計算以?xún)煞N方式添加到標簽中:
使用向導
通過(guò)向導瀏覽工具,服務(wù)器上的所有選項卡都可用
從幾個(gè)不同的功能中選擇
輸入手動(dòng)腳本
電子書(shū)中提供了許多示例腳本
使用窗口按鈕擴展編輯區域
第 7 頁(yè),共 14 頁(yè)
內置函數說(shuō)明
當前值(標記名)
計算
當前質(zhì)量(標記名)
過(guò)濾計算
當前時(shí)間
日志消息(字符串消息)
上一個(gè)值(標記名,時(shí)間)
上一個(gè)質(zhì)量(標記名、時(shí)間)
上一個(gè)時(shí)間(標記名,時(shí)間)
NextValue(標記名,時(shí)間)
NextQuality(標記名,時(shí)間)
NextTime(標記名,時(shí)間)
插值(標記名,時(shí)間)
第 8 頁(yè)/共 14 頁(yè)
捷徑法
捷徑
意義
現在
現在(您執行查詢(xún)的時(shí)間和日期)
今天
今天半夜
昨天
昨天午夜
男生
一年中的第一天午夜
EOY
一年中的最后一天午夜
物料清單
第一大 查看全部
免規則采集器列表算法(文檔介紹會(huì )計學(xué)1計算采集器的步驟及文檔)
文檔介紹
會(huì )計
1
計算采集器
在安裝過(guò)程中配置它
在安裝過(guò)程中配置它
與服務(wù)器安裝在同一臺機器上時(shí),無(wú)需配置
雖然這不是最好的方法,但 Compute采集器 可以安裝在與其最終服務(wù)器分開(kāi)的計算機上
在這種情況下,必須在安裝時(shí)確定服務(wù)器名稱(chēng)
第 1 頁(yè)/共 14 頁(yè)
在管理器中配置
B. 在管理器中配置
設置計算超時(shí)
確定 采集器 執行操作所允許的最長(cháng)時(shí)間
最大恢復時(shí)間
重新計算時(shí)的最大回溯時(shí)間限制
第 2 頁(yè)/共 14 頁(yè)
對康復的理解
C. 對恢復的理解
當 采集器 與其服務(wù)器斷開(kāi)連接時(shí),如果它重新連接到服務(wù)器,它會(huì )恢復斷開(kāi)連接時(shí)完成的操作。
在 采集器 配置中設置恢復邏輯運行的最長(cháng)時(shí)間。
這個(gè)值稱(chēng)為最大恢復時(shí)間
默認為 4 小時(shí)
按時(shí)間順序,從最舊到最新的操作被恢復
恢復邏輯會(huì )返回到最后一次歸檔操作或最長(cháng)恢復時(shí)間,無(wú)論哪個(gè)都無(wú)關(guān)緊要,并將其用作起點(diǎn)。以下事件將觸發(fā)恢復:
當操作 采集器 開(kāi)始時(shí)
暫停時(shí)重啟采集器
當發(fā)生在線(xiàn)更改時(shí)(類(lèi)似于停止和重新啟動(dòng))
僅恢復新標簽配置中的標簽
與存檔服務(wù)器的連接恢復后
第 3 頁(yè),共 14 頁(yè)
手動(dòng)重新計算
手動(dòng)重新計算
操作采集器可以手動(dòng)重新計算
這樣做的好處是:
當您更改操作時(shí)
當自動(dòng)恢復功能既不恢復所有信息也不觸發(fā)時(shí)
例如:
在檔案中,自動(dòng)恢復功能可以回到最近的操作作為恢復邏輯的起點(diǎn)
如果在恢復發(fā)生時(shí)向操作提供數據的 采集器 正在緩沖數據,則它會(huì )啟動(dòng)不包括標簽數據的操作
在這種情況下,重新計算需要一些時(shí)間才能恢復并需要更正或更改
第 4 頁(yè),共 14 頁(yè)
配置手動(dòng)重新運行
E. 配置手動(dòng)重新運行的步驟
在 Manager 中選擇 采集器on-screen 計算或服務(wù)器到服務(wù)器采集器
單擊重新計算按鈕
設置開(kāi)始和結束時(shí)間
選擇要重新計算的標簽選項
選擇所有標簽
瀏覽指定操作采集器標簽
?。ㄈ绻堰x擇選項,請瀏覽選項卡并選擇它們)
單擊重新計算按鈕
在確認對話(huà)框中單擊確定
第 5 頁(yè),共 14 頁(yè)
添加操作標簽,實(shí)現操作
A. 添加標簽到 采集器
在管理器操作中,要添加標簽,您必須使用手動(dòng)標簽對話(huà)框
一旦操作采集器被選為資源地址,就不能使用了
操作標簽的數據資源是它自己的操作
三個(gè)標簽用于創(chuàng )建計算標簽
數據源標簽
計算公式中使用的一個(gè)或多個(gè)標簽
目標標簽
真實(shí)標簽存儲計算值
也可以在此選項卡中創(chuàng )建和存儲操作
觸發(fā)標簽
用于創(chuàng )建未經(jīng)請求的標簽
當觸發(fā)標簽中的數據發(fā)生變化時(shí),更新操作標簽
當觸發(fā)標簽獲得新值、新時(shí)間戳或質(zhì)量更改時(shí)會(huì )發(fā)生更新
輪詢(xún)標簽不能使用觸發(fā)標簽
復制標簽的鏈接可用于復制操作標簽,有助于減少開(kāi)發(fā)時(shí)間
第 6 頁(yè),共 14 頁(yè)
創(chuàng )建操作
B. 創(chuàng )建操作
在管理器選項卡屏幕中選擇計算選項卡時(shí),計算選項可用
所有操作必須包括 Result =
Visual Basic Sc??ript 是一種腳本語(yǔ)言
計算以?xún)煞N方式添加到標簽中:
使用向導
通過(guò)向導瀏覽工具,服務(wù)器上的所有選項卡都可用
從幾個(gè)不同的功能中選擇
輸入手動(dòng)腳本
電子書(shū)中提供了許多示例腳本
使用窗口按鈕擴展編輯區域
第 7 頁(yè),共 14 頁(yè)
內置函數說(shuō)明
當前值(標記名)
計算
當前質(zhì)量(標記名)
過(guò)濾計算
當前時(shí)間
日志消息(字符串消息)
上一個(gè)值(標記名,時(shí)間)
上一個(gè)質(zhì)量(標記名、時(shí)間)
上一個(gè)時(shí)間(標記名,時(shí)間)
NextValue(標記名,時(shí)間)
NextQuality(標記名,時(shí)間)
NextTime(標記名,時(shí)間)
插值(標記名,時(shí)間)
第 8 頁(yè)/共 14 頁(yè)
捷徑法
捷徑
意義
現在
現在(您執行查詢(xún)的時(shí)間和日期)
今天
今天半夜
昨天
昨天午夜
男生
一年中的第一天午夜
EOY
一年中的最后一天午夜
物料清單
第一大
免規則采集器列表算法( 原型式產(chǎn)品需求文檔的一級導航(PRD)怎么做?)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 137 次瀏覽 ? 2022-01-21 14:17
原型式產(chǎn)品需求文檔的一級導航(PRD)怎么做?)
目前互聯(lián)網(wǎng)產(chǎn)品迭代的速度越來(lái)越快,大家都在追求一種小而美的MPV產(chǎn)品開(kāi)發(fā)方式,以應對市場(chǎng)的快速發(fā)展變化。
傳統產(chǎn)品經(jīng)理使用Axure繪制原型圖,使用word輸出產(chǎn)品開(kāi)發(fā)需求規范(PRD),耗時(shí)耗力。最后,開(kāi)發(fā)和測試的小伙伴可能不喜歡看,因為他們需要看原型圖并打開(kāi)它。PRD 文檔和其他各種產(chǎn)品文檔看起來(lái)很麻煩。
結合這個(gè)痛點(diǎn),我推薦在原型圖的基礎上編寫(xiě)產(chǎn)品需求文檔,這樣不僅可以節省產(chǎn)品經(jīng)理的時(shí)間,而且開(kāi)發(fā)和測試也不需要閱讀那么多文檔,提高了整體的工作效率。團隊。
首先打開(kāi)原型產(chǎn)品需求文檔。整個(gè)文檔界面的頂部分為黑色的主導航區和紅色的輔助導航區。
如下圖,黑色的一級導航可以選擇不同的目錄輪廓。每個(gè)一級導航與多個(gè)二級導航菜單相關(guān)聯(lián)。每個(gè)二級導航菜單下方是我們產(chǎn)品需求文檔的具體內容。
原型需求文檔的一級導航分為四個(gè)模塊:產(chǎn)品介紹、思維導圖、原型圖、非功能需求。每個(gè)模塊都有多個(gè)子菜單模塊。下面開(kāi)始詳細講解二級導航的菜單。
一、產(chǎn)品介紹1. 產(chǎn)品說(shuō)明
主要作用是幫助大家更清楚地了解需求的背景和目的。為什么這樣做?怎么做?通過(guò)閱讀本文檔,您可以清楚地了解產(chǎn)品的全線(xiàn)需求,如下圖所示。
2. 功能列表
主要功能是告訴你當前版本涉及到哪些需求點(diǎn)和功能點(diǎn),每個(gè)需求點(diǎn)的一般需求描述是如何實(shí)現的,設計邏輯是什么。
3. 修訂歷史
主要功能是在外部審核需求后,記錄每次修改需求中的哪些頁(yè)面、哪些字段、哪些邏輯等,并記錄修改前的邏輯和頁(yè)面中的修改。
修訂歷史列表支持跳轉到修訂詳情頁(yè)面,方便大家快速了解和查看。后面我會(huì )單獨寫(xiě)一個(gè)原型需求文檔編寫(xiě)規范再詳細介紹。
4. 版本介紹
主要定義當前版本號、版本上線(xiàn)時(shí)更新和發(fā)布的內容、上線(xiàn)更新方式、應用商店截圖是否更新,并進(jìn)行說(shuō)明。
二、思維導圖
本模塊主要幫助您了解產(chǎn)品的整體系統設計架構、功能、信息結構,并以圖表的形式梳理產(chǎn)品邏輯和流程。
本模塊不限于這4個(gè)內容,所有對大家理解產(chǎn)品有幫助的圖都可以在本模塊中呈現,如:序列圖、泳道圖、用例圖、關(guān)系圖、狀態(tài)圖、行為數據圖、操作流程圖、財務(wù)資助進(jìn)度表等。
1. 功能結構圖
是介紹功能模塊類(lèi)別下各模塊功能的圖。一個(gè)功能模塊可以是完成某項任務(wù)的一組程序,一個(gè)功能點(diǎn)可以是程序中的某個(gè)處理過(guò)程。
方便大家對功能結構形成直觀(guān)的認識,防止產(chǎn)品需求轉化為功能需求的過(guò)程中出現功能模塊和功能點(diǎn)缺失的現象。
2. 信息結構圖
它是從產(chǎn)品的實(shí)際頁(yè)面中分離出來(lái),對產(chǎn)品的數據進(jìn)行抽象,并結合分類(lèi)的圖表。提示大家查看產(chǎn)品復雜的信息內容時(shí)是否會(huì )出現遺漏、混淆、重復等情況,可以作為開(kāi)發(fā)工程師建立數據庫的參考。
3. 業(yè)務(wù)流程圖
是業(yè)務(wù)需求不同階段各功能模塊之間信息流動(dòng)和交互的過(guò)程,以圖表的形式呈現。它的作用是幫助你全面了解業(yè)務(wù)處理的過(guò)程,分析業(yè)務(wù)的合理性,幫助開(kāi)發(fā)可以實(shí)現計算機的處理部分。
4. 功能流程圖
它是針對功能的特定功能點(diǎn)系統的處理流程。這個(gè)過(guò)程可以和當前的功能點(diǎn)需求文檔一起呈現,更有利于大家閱讀理解的連貫性。
5. 時(shí)序圖
它反映了對象之間交互的順序,是前端和服務(wù)器端消息傳遞和數據交互建模的基礎。它可以幫助開(kāi)發(fā)人員了解產(chǎn)品功能是如何實(shí)現的,以及如何設計開(kāi)發(fā)文檔。
三、原型圖1.業(yè)務(wù)規則
是通過(guò)一定的約束來(lái)限制、控制和影響業(yè)務(wù)的行為。通過(guò)這個(gè)內容,你可以清楚的看到整個(gè)產(chǎn)品中存在多少業(yè)務(wù)規則和限制。
2. 全局描述
用于描述在整個(gè)產(chǎn)品線(xiàn)中遇到的全局性問(wèn)題,以及描述在不同位置頻繁出現的一些相同類(lèi)型的信息。功能是方便大家集中閱讀產(chǎn)品需求中的常見(jiàn)需求點(diǎn),也方便需求的維護和管理。
3. 原型頁(yè)面列表
它是當前版本中要設計和開(kāi)發(fā)的所有頁(yè)面的列表。通過(guò)這個(gè)內容可以直觀(guān)的看到具體的開(kāi)發(fā)任務(wù),也可以通過(guò)這個(gè)內容查看各個(gè)功能和頁(yè)面的具體產(chǎn)品設計需求文檔。
4. 產(chǎn)品規格
分為交互規范、視覺(jué)設計規范和其他說(shuō)明。事實(shí)上,它與全局描述有些相似。為了方便大家更好的理解和區分全局問(wèn)題和規范的區別,我們分成兩部分進(jìn)行說(shuō)明。
四、非功能性需求
非功能性需求是產(chǎn)品為了滿(mǎn)足用戶(hù)的使用和操作需要而必須具備的功能性需求以外的需求。
不僅限于以上四個(gè)內容,還可能包括安全需求、易用性、可擴展性、可維護性需求、網(wǎng)絡(luò )需求、數據需求、接口需求、統計需求、服務(wù)器-客戶(hù)端交互需求等需求,本模塊僅需要以上4個(gè)內容作為基本要求。
1. 數據埋葬
它是一種數據采集的方式,是未來(lái)數據分析的基礎。
2. 兼容性要求
當前版本的內容和歷史版本的內容在系統中協(xié)同工作,不能產(chǎn)生bug,必須兼容新舊功能和歷史數據的正常運行。
3. 性能要求
它是從系統的數據性能、系統的并發(fā)性、響應特性和系統的結構特性對系統性能的需求。
4. 測試要求
就是組織測試焦點(diǎn)(邏輯、數據、流程),明確測試焦點(diǎn)的優(yōu)先級,為測試伙伴提供測試用例所需的功能信息。
最后我想說(shuō),一份好的《原型產(chǎn)品需求文檔》還需要整個(gè)產(chǎn)品、開(kāi)發(fā)、測試團隊的不斷磨合和應用。分享一下我的產(chǎn)品體驗,希望對大家有幫助,謝謝!
本文由@Brilliant 千陽(yáng)原創(chuàng ) 發(fā)表 每個(gè)人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉載。
標題圖片來(lái)自 Unsplash,基于 CC0 協(xié)議。 查看全部
免規則采集器列表算法(
原型式產(chǎn)品需求文檔的一級導航(PRD)怎么做?)
目前互聯(lián)網(wǎng)產(chǎn)品迭代的速度越來(lái)越快,大家都在追求一種小而美的MPV產(chǎn)品開(kāi)發(fā)方式,以應對市場(chǎng)的快速發(fā)展變化。
傳統產(chǎn)品經(jīng)理使用Axure繪制原型圖,使用word輸出產(chǎn)品開(kāi)發(fā)需求規范(PRD),耗時(shí)耗力。最后,開(kāi)發(fā)和測試的小伙伴可能不喜歡看,因為他們需要看原型圖并打開(kāi)它。PRD 文檔和其他各種產(chǎn)品文檔看起來(lái)很麻煩。
結合這個(gè)痛點(diǎn),我推薦在原型圖的基礎上編寫(xiě)產(chǎn)品需求文檔,這樣不僅可以節省產(chǎn)品經(jīng)理的時(shí)間,而且開(kāi)發(fā)和測試也不需要閱讀那么多文檔,提高了整體的工作效率。團隊。
首先打開(kāi)原型產(chǎn)品需求文檔。整個(gè)文檔界面的頂部分為黑色的主導航區和紅色的輔助導航區。
如下圖,黑色的一級導航可以選擇不同的目錄輪廓。每個(gè)一級導航與多個(gè)二級導航菜單相關(guān)聯(lián)。每個(gè)二級導航菜單下方是我們產(chǎn)品需求文檔的具體內容。
原型需求文檔的一級導航分為四個(gè)模塊:產(chǎn)品介紹、思維導圖、原型圖、非功能需求。每個(gè)模塊都有多個(gè)子菜單模塊。下面開(kāi)始詳細講解二級導航的菜單。
一、產(chǎn)品介紹1. 產(chǎn)品說(shuō)明
主要作用是幫助大家更清楚地了解需求的背景和目的。為什么這樣做?怎么做?通過(guò)閱讀本文檔,您可以清楚地了解產(chǎn)品的全線(xiàn)需求,如下圖所示。
2. 功能列表
主要功能是告訴你當前版本涉及到哪些需求點(diǎn)和功能點(diǎn),每個(gè)需求點(diǎn)的一般需求描述是如何實(shí)現的,設計邏輯是什么。
3. 修訂歷史
主要功能是在外部審核需求后,記錄每次修改需求中的哪些頁(yè)面、哪些字段、哪些邏輯等,并記錄修改前的邏輯和頁(yè)面中的修改。
修訂歷史列表支持跳轉到修訂詳情頁(yè)面,方便大家快速了解和查看。后面我會(huì )單獨寫(xiě)一個(gè)原型需求文檔編寫(xiě)規范再詳細介紹。
4. 版本介紹
主要定義當前版本號、版本上線(xiàn)時(shí)更新和發(fā)布的內容、上線(xiàn)更新方式、應用商店截圖是否更新,并進(jìn)行說(shuō)明。
二、思維導圖
本模塊主要幫助您了解產(chǎn)品的整體系統設計架構、功能、信息結構,并以圖表的形式梳理產(chǎn)品邏輯和流程。
本模塊不限于這4個(gè)內容,所有對大家理解產(chǎn)品有幫助的圖都可以在本模塊中呈現,如:序列圖、泳道圖、用例圖、關(guān)系圖、狀態(tài)圖、行為數據圖、操作流程圖、財務(wù)資助進(jìn)度表等。
1. 功能結構圖
是介紹功能模塊類(lèi)別下各模塊功能的圖。一個(gè)功能模塊可以是完成某項任務(wù)的一組程序,一個(gè)功能點(diǎn)可以是程序中的某個(gè)處理過(guò)程。
方便大家對功能結構形成直觀(guān)的認識,防止產(chǎn)品需求轉化為功能需求的過(guò)程中出現功能模塊和功能點(diǎn)缺失的現象。
2. 信息結構圖
它是從產(chǎn)品的實(shí)際頁(yè)面中分離出來(lái),對產(chǎn)品的數據進(jìn)行抽象,并結合分類(lèi)的圖表。提示大家查看產(chǎn)品復雜的信息內容時(shí)是否會(huì )出現遺漏、混淆、重復等情況,可以作為開(kāi)發(fā)工程師建立數據庫的參考。
3. 業(yè)務(wù)流程圖
是業(yè)務(wù)需求不同階段各功能模塊之間信息流動(dòng)和交互的過(guò)程,以圖表的形式呈現。它的作用是幫助你全面了解業(yè)務(wù)處理的過(guò)程,分析業(yè)務(wù)的合理性,幫助開(kāi)發(fā)可以實(shí)現計算機的處理部分。
4. 功能流程圖
它是針對功能的特定功能點(diǎn)系統的處理流程。這個(gè)過(guò)程可以和當前的功能點(diǎn)需求文檔一起呈現,更有利于大家閱讀理解的連貫性。
5. 時(shí)序圖
它反映了對象之間交互的順序,是前端和服務(wù)器端消息傳遞和數據交互建模的基礎。它可以幫助開(kāi)發(fā)人員了解產(chǎn)品功能是如何實(shí)現的,以及如何設計開(kāi)發(fā)文檔。
三、原型圖1.業(yè)務(wù)規則
是通過(guò)一定的約束來(lái)限制、控制和影響業(yè)務(wù)的行為。通過(guò)這個(gè)內容,你可以清楚的看到整個(gè)產(chǎn)品中存在多少業(yè)務(wù)規則和限制。
2. 全局描述
用于描述在整個(gè)產(chǎn)品線(xiàn)中遇到的全局性問(wèn)題,以及描述在不同位置頻繁出現的一些相同類(lèi)型的信息。功能是方便大家集中閱讀產(chǎn)品需求中的常見(jiàn)需求點(diǎn),也方便需求的維護和管理。
3. 原型頁(yè)面列表
它是當前版本中要設計和開(kāi)發(fā)的所有頁(yè)面的列表。通過(guò)這個(gè)內容可以直觀(guān)的看到具體的開(kāi)發(fā)任務(wù),也可以通過(guò)這個(gè)內容查看各個(gè)功能和頁(yè)面的具體產(chǎn)品設計需求文檔。
4. 產(chǎn)品規格
分為交互規范、視覺(jué)設計規范和其他說(shuō)明。事實(shí)上,它與全局描述有些相似。為了方便大家更好的理解和區分全局問(wèn)題和規范的區別,我們分成兩部分進(jìn)行說(shuō)明。
四、非功能性需求
非功能性需求是產(chǎn)品為了滿(mǎn)足用戶(hù)的使用和操作需要而必須具備的功能性需求以外的需求。
不僅限于以上四個(gè)內容,還可能包括安全需求、易用性、可擴展性、可維護性需求、網(wǎng)絡(luò )需求、數據需求、接口需求、統計需求、服務(wù)器-客戶(hù)端交互需求等需求,本模塊僅需要以上4個(gè)內容作為基本要求。
1. 數據埋葬
它是一種數據采集的方式,是未來(lái)數據分析的基礎。
2. 兼容性要求
當前版本的內容和歷史版本的內容在系統中協(xié)同工作,不能產(chǎn)生bug,必須兼容新舊功能和歷史數據的正常運行。
3. 性能要求
它是從系統的數據性能、系統的并發(fā)性、響應特性和系統的結構特性對系統性能的需求。
4. 測試要求
就是組織測試焦點(diǎn)(邏輯、數據、流程),明確測試焦點(diǎn)的優(yōu)先級,為測試伙伴提供測試用例所需的功能信息。
最后我想說(shuō),一份好的《原型產(chǎn)品需求文檔》還需要整個(gè)產(chǎn)品、開(kāi)發(fā)、測試團隊的不斷磨合和應用。分享一下我的產(chǎn)品體驗,希望對大家有幫助,謝謝!
本文由@Brilliant 千陽(yáng)原創(chuàng ) 發(fā)表 每個(gè)人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉載。
標題圖片來(lái)自 Unsplash,基于 CC0 協(xié)議。
免規則采集器列表算法(谷歌搜索引擎網(wǎng)站郵箱采集神器下載地址介紹,你可以用它做什么)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 120 次瀏覽 ? 2022-01-18 21:05
谷歌搜索引擎網(wǎng)站電子郵件采集神器
以下是他的功能介紹;
你能用它做什么
它旨在從各種來(lái)源采集唯一的電子郵件地址、電話(huà)、Skype ID:
電子郵件提取器在運行電子郵件營(yíng)銷(xiāo)活動(dòng)中非常有用。每個(gè)電子郵件活動(dòng)都需要大量的電子郵件地址。手動(dòng)提取電子郵件地址幾乎是不可能的。電子郵件提取器是使用郵箱中的文件構建客戶(hù)電子郵件列表的理想工具。您可以下載電子郵件提取器的免費試用版并測試它是否適合您。
電子郵件提取器的工作原理
現在,使用我們的電子郵件蜘蛛軟件采集免費電子郵件地址變得更加容易??梢詫⑹褂秒娮余]件提取器與使用 Internet 搜索引擎進(jìn)行比較。您需要做的就是輸入一個(gè)特定的關(guān)鍵字,電子郵件提取器將直接從最流行的搜索引擎(如 Google、Yahoo!、AOL 或您想要的任何其他引擎)采集排名靠前的頁(yè)面。該實(shí)用程序具有其他流行的電子郵件提取器中沒(méi)有的獨特的高級關(guān)鍵字搜索功能。電子郵件提取器具有高級掃描限制器。限制器可以?xún)H從網(wǎng)頁(yè)中提取所需的電子郵件地址。電子郵件地址提取器是一個(gè)全自動(dòng)的電子郵件查找器。您只需要指定一些詳細信息,電子郵件蜘蛛就會(huì )為您完成繁重的工作。Email Extractor 是一個(gè)非??焖俚碾娮余]件蜘蛛,并支持多線(xiàn)程頁(yè)面加載。
優(yōu)勢:
與其他電子郵件提取器相比
電子郵件提取器是網(wǎng)絡(luò )上最快的電子郵件采集器。與其他電子郵件收錄 提取器不同,Email Extractor 具有提取軟件的所有基本功能:速度極快、易于使用且功能豐富。
郵箱采集器下載地址:
注意:本郵箱采集器僅供學(xué)習研究,為外國人開(kāi)發(fā),不得用于非法用途; 查看全部
免規則采集器列表算法(谷歌搜索引擎網(wǎng)站郵箱采集神器下載地址介紹,你可以用它做什么)
谷歌搜索引擎網(wǎng)站電子郵件采集神器
以下是他的功能介紹;
你能用它做什么
它旨在從各種來(lái)源采集唯一的電子郵件地址、電話(huà)、Skype ID:
電子郵件提取器在運行電子郵件營(yíng)銷(xiāo)活動(dòng)中非常有用。每個(gè)電子郵件活動(dòng)都需要大量的電子郵件地址。手動(dòng)提取電子郵件地址幾乎是不可能的。電子郵件提取器是使用郵箱中的文件構建客戶(hù)電子郵件列表的理想工具。您可以下載電子郵件提取器的免費試用版并測試它是否適合您。
電子郵件提取器的工作原理
現在,使用我們的電子郵件蜘蛛軟件采集免費電子郵件地址變得更加容易??梢詫⑹褂秒娮余]件提取器與使用 Internet 搜索引擎進(jìn)行比較。您需要做的就是輸入一個(gè)特定的關(guān)鍵字,電子郵件提取器將直接從最流行的搜索引擎(如 Google、Yahoo!、AOL 或您想要的任何其他引擎)采集排名靠前的頁(yè)面。該實(shí)用程序具有其他流行的電子郵件提取器中沒(méi)有的獨特的高級關(guān)鍵字搜索功能。電子郵件提取器具有高級掃描限制器。限制器可以?xún)H從網(wǎng)頁(yè)中提取所需的電子郵件地址。電子郵件地址提取器是一個(gè)全自動(dòng)的電子郵件查找器。您只需要指定一些詳細信息,電子郵件蜘蛛就會(huì )為您完成繁重的工作。Email Extractor 是一個(gè)非??焖俚碾娮余]件蜘蛛,并支持多線(xiàn)程頁(yè)面加載。
優(yōu)勢:
與其他電子郵件提取器相比
電子郵件提取器是網(wǎng)絡(luò )上最快的電子郵件采集器。與其他電子郵件收錄 提取器不同,Email Extractor 具有提取軟件的所有基本功能:速度極快、易于使用且功能豐富。
郵箱采集器下載地址:
注意:本郵箱采集器僅供學(xué)習研究,為外國人開(kāi)發(fā),不得用于非法用途;
免規則采集器列表算法(一下精準推薦的整體架構以及核心算法的實(shí)現原理總結)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 135 次瀏覽 ? 2022-01-18 21:02
目錄 前言 推薦架構 算法模型 傳統推薦算法總結 前言
相信很多小伙伴都聽(tīng)說(shuō)過(guò)大數據、AI推薦、千人千面等高級詞匯;我也經(jīng)??吹?,在很多app中,經(jīng)常會(huì )向我們推薦一些產(chǎn)品,猜你喜歡,重點(diǎn)推薦等服務(wù)。
很多朋友也應該去網(wǎng)上了解一下,發(fā)現真的是一頭霧水,尤其是看到一些算法的時(shí)候,那些數學(xué)公式讓人頭疼。今天老谷就嘗試介紹一下精準推薦的整體架構,以及核心算法的實(shí)現原理,讓小伙伴們盡可能的了解。
注意:閱讀本文的朋友文章需要有一定的java基礎和elasticsearch知識。
推薦架構
下面是一個(gè)通用的推薦系統架構圖
上述架構圖的流程從兩個(gè)維度來(lái)看
用戶(hù)請求路徑
1)用戶(hù)終端發(fā)起請求,傳入核心標簽UserId
因為有些平臺在很多地方都有推薦服務(wù),比如:購物車(chē)下的【精品推薦】,商品詳情里的【猜你喜歡】,商品列表里的【熱推薦】等;所以終端經(jīng)常會(huì )帶來(lái)這樣的場(chǎng)景。參數,不同的場(chǎng)景會(huì )對應不同的模型數據
2)然后后臺接口發(fā)起對推薦服務(wù)的調用
3)任何精準推薦都會(huì )有召回、排序、業(yè)務(wù)重排三個(gè)階段;
這三個(gè)是什么意思?拿張圖簡(jiǎn)單解釋一下
通過(guò)步驟,可以達到推薦,千人千面的效果;整個(gè)流程的核心是召回算法和排序算法;我們從后臺看一下數據分析維度的路徑。
數據分析路徑
任何分析都需要材料。材料是什么?其實(shí)這幾年朋友們聽(tīng)得最多的就是大數據了;什么是大數據?簡(jiǎn)單的理解就是數據量大,數據維度多。我們可以分析這么多數據。
在上面推薦的架構圖中:
1)我們通過(guò)在終端埋點(diǎn)采集用戶(hù)行為日志,并存儲在大數據平臺中。
2)采集業(yè)務(wù)數據,采集用戶(hù)偏好行為數據,如:采集、點(diǎn)贊、評論等;存儲在大數據平臺
3)基于大數據平臺的數據,通過(guò)一些算法對數據進(jìn)行分析,得到訓練模型。
4)通過(guò)訓練好的模型可以獲得相關(guān)推薦數據。
5)將獲取的推薦數據保存到mysql/redis等持久化工具中。
為了達到用戶(hù)請求的性能,推薦的數據會(huì )提前存儲在數據庫中,以保證用戶(hù)體驗。
算法模型
什么是算法?什么是模型?讓我給你一個(gè)小學(xué)一年級的問(wèn)題
題目:找出規律,填寫(xiě)下面的值
1、3、5、7、9、11、13、?、?
大家一看就知道答案了吧?我們不是在這里討論最終答案是什么。我們來(lái)分析一下答案是怎么來(lái)的?
看到上面的題目,我們來(lái)分解一下;我們已經(jīng)知道一組數據
1、3、5、7、9、11、13
這些數據實(shí)際上等價(jià)于我們 采集 的已知數據。
上面的問(wèn)題現在我們需要根據已知數據來(lái)推斷接下來(lái)的 2 個(gè)數字是什么?
也就是我們知道用戶(hù)的行為數據,然后對產(chǎn)品進(jìn)行預測和推薦給用戶(hù)。
算法
根據上面的標題,我們一眼就能看出第二個(gè)數比第一個(gè)數大2,即x2 = x1 + 2;在數學(xué)中,技術(shù)術(shù)語(yǔ)是等差數列。這是一個(gè)簡(jiǎn)單的算法,也可以理解為算法公式。
訓練模型
在我們的推薦系統中,會(huì )有一個(gè)模型的概念,那么什么是模型呢?我們繼續使用上述主題。讓我們深入思考一下,為什么我們知道算法公式是x2 = x1 + 2?
是不是因為我們發(fā)現 1 和 3 相差 2,然后發(fā)現 3 和 5 相差 2, 5 和 7 相差 2, 一直到 11 和 13 相差 2;所以我們決定,我們發(fā)現這列數據的規則是x2 = x1 + 2。
在我們的推薦系統中,訓練模型的思路也是一樣的。我們先從采集的數據中取出一些數據,比如:1、3、5、7。我們首先從這部分數據中尋找規律,得到類(lèi)似x2 = x1 + 2的公式;
然后我們用這個(gè)公式推導出剩下的已知數據,比如:我們可以根據這個(gè)公式推導出下面的9、11、13。然后我們發(fā)現數據和我們的數據是一致的,我們可以認為該算法是可行的。
上面第一次取出的部分測試術(shù)語(yǔ)是訓練數據,剩下的數據稱(chēng)為測試數據
1、3、5、7 是訓練數據;9、11、13 是測試數據
在推薦系統中,這整個(gè)過(guò)程可以理解為模型的訓練,因為真實(shí)場(chǎng)景中的數據維度很多,不可能像我們簡(jiǎn)單的例子那樣;在真實(shí)場(chǎng)景中,我們需要用到諸如協(xié)同過(guò)濾LFM、ALS算法、邏輯回歸等LR算法,
綜上所述
算法
就是一種解決問(wèn)題的思路算法公式。
模型:理解為程序
是通過(guò)算法+數據進(jìn)行分析過(guò)程的一段程序。
需要數據作為入參,程序體作為算法;執行后返回具體的推薦數據。
所以數據量、維度的多少會(huì )直接影響模型的準確率
接下來(lái)介紹推薦系統中常用的算法。
傳統推薦算法
讓我們舉個(gè)例子。有圖書(shū)平臺,需要開(kāi)發(fā)推薦系統。我們現在掌握的已知數據如下
我們發(fā)現在上圖中,它被列為書(shū)名,也就是用戶(hù);其中的值 1 表示已讀取??罩当硎緵](méi)有讀取任何內容。那么現在如何根據這些數據進(jìn)行推薦呢?我們來(lái)看看傳統的推薦思路
基于用戶(hù)的協(xié)同過(guò)濾算法(UserCF)
基本上從用戶(hù)的角度來(lái)看
首先,需要找到和自己讀過(guò)相同書(shū)籍的其他用戶(hù),然后再推薦這些用戶(hù)喜歡的其他書(shū)籍,也就是從用戶(hù)的共性出發(fā)。這個(gè)想法的技術(shù)術(shù)語(yǔ)是 UserCF
比如上面的例子中,張三和李四都看過(guò)《Java編程思想》,那么系統認為兩人有共同點(diǎn)。
所以推薦給張三和李斯的《孫子兵法》。
推薦給李四的書(shū)是張三曾經(jīng)讀過(guò)的《人人都是產(chǎn)品經(jīng)理》
基于項目的協(xié)同過(guò)濾算法(ItemCF)
基本上從商品的角度來(lái)看
他們需要推薦與他們已經(jīng)讀過(guò)的書(shū)相似的書(shū)。
從書(shū)的通用性出發(fā),張三閱讀了屬于IT類(lèi)書(shū)籍的《Java編程思想》,然后系統可以推薦給張三的《大前端修身》或者《游戲開(kāi)發(fā)》。這個(gè)想法的技術(shù)術(shù)語(yǔ)是 ItemCF
UserCF 和 ItemCF
從兩種算法的原理可以看出,UserCF的推薦結果側重于反映用戶(hù)興趣相近的小群體的熱點(diǎn),而ItemCF的推薦結果側重于維護用戶(hù)的歷史興趣。也就是說(shuō),UserCF的推薦更具有社交性,體現了物品在用戶(hù)小興趣群中的熱度,而ItemCF的推薦更個(gè)性化,體現了用戶(hù)自身的興趣傳承。
UserCF適用場(chǎng)景
1)在新聞網(wǎng)站中,用戶(hù)的興趣不是特別細化,絕大多數用戶(hù)都喜歡看熱門(mén)的新聞。即使是個(gè)性化,也是比較粗粒度的,比如有些用戶(hù)喜歡體育新聞,有些喜歡社會(huì )新聞,UserCF可以給用戶(hù)推薦和他有相似愛(ài)好的一群其他用戶(hù)今天都在看的新聞,這樣在抓住熱點(diǎn)和時(shí)效性的同時(shí),保證了一定程度的個(gè)性化。
2)UserCF 適合用于新聞推薦的另一個(gè)原因是從技術(shù)角度考量的。因為作為一種物品,新聞的更新非???,每時(shí)每刻都有新內容出現,而ItemCF需要維護一張物品相關(guān)度的表,如果物品更新很快,那么這張表也需要很快更新,這在技術(shù)上很難實(shí)現。絕大多數物品相關(guān)度表都只能做到一天一次更新,這在新聞領(lǐng)域是不可以接受的。而 UserCF 只需要用戶(hù)相似性表,雖然UserCF對于新用戶(hù)也需要更新相似度表,但在新聞網(wǎng)站中,物品的更新速度遠遠快于新用戶(hù)的加入速度,而且對于新用戶(hù),完全可以給他推薦最熱門(mén)的新聞,因此 UserCF 顯然是利大于弊。
ItemCF適用場(chǎng)景
1)在圖書(shū)、電子商務(wù)和電影網(wǎng)站,比如亞馬遜、豆瓣、Netflix中,ItemCF 則能極大地發(fā)揮優(yōu)勢。首先,在這些網(wǎng)站中,用戶(hù)的興趣是比較固定和持久的。這些系統中的用戶(hù)大都不太需要流行度來(lái)輔助他們判斷一個(gè)物品的好壞,而是可以通過(guò)自己熟悉領(lǐng)域的知識自己判斷物品的質(zhì)量。因此,這些網(wǎng)站中個(gè)性化推薦的任務(wù)是幫助用戶(hù)發(fā)現和他研究領(lǐng)域相關(guān)的物品。此外,這些網(wǎng)站的物品更新速度不會(huì )特別快,一天一次更新物品相似度矩陣對它們來(lái)說(shuō)不會(huì )造成太大的損失,是可以接受的。
總結
上面介紹了UserCF和ItemCF的協(xié)同算法,也是過(guò)去常用的推薦算法;然而,近年來(lái)出現了一種協(xié)作算法 LFM(潛在語(yǔ)義模型)。潛在語(yǔ)義模型的核心思想是通過(guò)潛在因素進(jìn)行連接。用戶(hù)興趣和項目。
例如,用戶(hù) A 的興趣涉及偵探小說(shuō)、科普類(lèi)書(shū)籍,以及一些計算機技術(shù)類(lèi)書(shū)籍,而用戶(hù) B 的興趣則更多地集中在數學(xué)和機器學(xué)習方面。
向 A 和 B 推薦書(shū)籍:
對于UserCF,我們首先需要找到和自己讀過(guò)相同書(shū)籍的其他用戶(hù)(興趣相近的用戶(hù)),然后將這些用戶(hù)喜歡的其他書(shū)籍推薦給他們;
對于 ItemCF,他們需要推薦與他們已經(jīng)閱讀過(guò)的書(shū)籍相似的書(shū)籍。例如,作者 B 讀過(guò)很多數據挖掘方面的書(shū)籍,可以向他推薦機器學(xué)習或模式識別方面的書(shū)籍。
其實(shí)上面的推薦缺少用戶(hù)興趣和物品的關(guān)系,即用戶(hù)A和用戶(hù)B有一定的相似度,但又不完全一樣
例如,用戶(hù)A對偵探小說(shuō)、計算機技術(shù)感興趣;用戶(hù)B對偵探小說(shuō)、經(jīng)濟學(xué)感興趣;很有可能向用戶(hù) A 推薦經(jīng)濟學(xué)書(shū)籍。
如何解決?我們只需要添加用戶(hù)興趣和物品的關(guān)系即可。您可以從對書(shū)籍和對象興趣進(jìn)行分類(lèi)開(kāi)始。對于用戶(hù)來(lái)說(shuō),首先獲取他的興趣類(lèi)別,然后從該類(lèi)別中挑選他可能喜歡的項目。
這種基于興趣的分類(lèi)方法大致需要解決三個(gè)問(wèn)題:
?。?) 如何對項目進(jìn)行分類(lèi)?
?。?) 如何確定用戶(hù)對哪些類(lèi)別的項目感興趣,感興趣的程度如何?
(3)對于給定的類(lèi),選擇哪些屬于該類(lèi)的物品推薦給用戶(hù),如何確定這些物品在一個(gè)類(lèi)中的權重? 查看全部
免規則采集器列表算法(一下精準推薦的整體架構以及核心算法的實(shí)現原理總結)
目錄 前言 推薦架構 算法模型 傳統推薦算法總結 前言
相信很多小伙伴都聽(tīng)說(shuō)過(guò)大數據、AI推薦、千人千面等高級詞匯;我也經(jīng)??吹?,在很多app中,經(jīng)常會(huì )向我們推薦一些產(chǎn)品,猜你喜歡,重點(diǎn)推薦等服務(wù)。
很多朋友也應該去網(wǎng)上了解一下,發(fā)現真的是一頭霧水,尤其是看到一些算法的時(shí)候,那些數學(xué)公式讓人頭疼。今天老谷就嘗試介紹一下精準推薦的整體架構,以及核心算法的實(shí)現原理,讓小伙伴們盡可能的了解。
注意:閱讀本文的朋友文章需要有一定的java基礎和elasticsearch知識。
推薦架構
下面是一個(gè)通用的推薦系統架構圖
上述架構圖的流程從兩個(gè)維度來(lái)看
用戶(hù)請求路徑
1)用戶(hù)終端發(fā)起請求,傳入核心標簽UserId
因為有些平臺在很多地方都有推薦服務(wù),比如:購物車(chē)下的【精品推薦】,商品詳情里的【猜你喜歡】,商品列表里的【熱推薦】等;所以終端經(jīng)常會(huì )帶來(lái)這樣的場(chǎng)景。參數,不同的場(chǎng)景會(huì )對應不同的模型數據
2)然后后臺接口發(fā)起對推薦服務(wù)的調用
3)任何精準推薦都會(huì )有召回、排序、業(yè)務(wù)重排三個(gè)階段;
這三個(gè)是什么意思?拿張圖簡(jiǎn)單解釋一下
通過(guò)步驟,可以達到推薦,千人千面的效果;整個(gè)流程的核心是召回算法和排序算法;我們從后臺看一下數據分析維度的路徑。
數據分析路徑
任何分析都需要材料。材料是什么?其實(shí)這幾年朋友們聽(tīng)得最多的就是大數據了;什么是大數據?簡(jiǎn)單的理解就是數據量大,數據維度多。我們可以分析這么多數據。
在上面推薦的架構圖中:
1)我們通過(guò)在終端埋點(diǎn)采集用戶(hù)行為日志,并存儲在大數據平臺中。
2)采集業(yè)務(wù)數據,采集用戶(hù)偏好行為數據,如:采集、點(diǎn)贊、評論等;存儲在大數據平臺
3)基于大數據平臺的數據,通過(guò)一些算法對數據進(jìn)行分析,得到訓練模型。
4)通過(guò)訓練好的模型可以獲得相關(guān)推薦數據。
5)將獲取的推薦數據保存到mysql/redis等持久化工具中。
為了達到用戶(hù)請求的性能,推薦的數據會(huì )提前存儲在數據庫中,以保證用戶(hù)體驗。
算法模型
什么是算法?什么是模型?讓我給你一個(gè)小學(xué)一年級的問(wèn)題
題目:找出規律,填寫(xiě)下面的值
1、3、5、7、9、11、13、?、?
大家一看就知道答案了吧?我們不是在這里討論最終答案是什么。我們來(lái)分析一下答案是怎么來(lái)的?
看到上面的題目,我們來(lái)分解一下;我們已經(jīng)知道一組數據
1、3、5、7、9、11、13
這些數據實(shí)際上等價(jià)于我們 采集 的已知數據。
上面的問(wèn)題現在我們需要根據已知數據來(lái)推斷接下來(lái)的 2 個(gè)數字是什么?
也就是我們知道用戶(hù)的行為數據,然后對產(chǎn)品進(jìn)行預測和推薦給用戶(hù)。
算法
根據上面的標題,我們一眼就能看出第二個(gè)數比第一個(gè)數大2,即x2 = x1 + 2;在數學(xué)中,技術(shù)術(shù)語(yǔ)是等差數列。這是一個(gè)簡(jiǎn)單的算法,也可以理解為算法公式。
訓練模型
在我們的推薦系統中,會(huì )有一個(gè)模型的概念,那么什么是模型呢?我們繼續使用上述主題。讓我們深入思考一下,為什么我們知道算法公式是x2 = x1 + 2?
是不是因為我們發(fā)現 1 和 3 相差 2,然后發(fā)現 3 和 5 相差 2, 5 和 7 相差 2, 一直到 11 和 13 相差 2;所以我們決定,我們發(fā)現這列數據的規則是x2 = x1 + 2。
在我們的推薦系統中,訓練模型的思路也是一樣的。我們先從采集的數據中取出一些數據,比如:1、3、5、7。我們首先從這部分數據中尋找規律,得到類(lèi)似x2 = x1 + 2的公式;
然后我們用這個(gè)公式推導出剩下的已知數據,比如:我們可以根據這個(gè)公式推導出下面的9、11、13。然后我們發(fā)現數據和我們的數據是一致的,我們可以認為該算法是可行的。
上面第一次取出的部分測試術(shù)語(yǔ)是訓練數據,剩下的數據稱(chēng)為測試數據
1、3、5、7 是訓練數據;9、11、13 是測試數據
在推薦系統中,這整個(gè)過(guò)程可以理解為模型的訓練,因為真實(shí)場(chǎng)景中的數據維度很多,不可能像我們簡(jiǎn)單的例子那樣;在真實(shí)場(chǎng)景中,我們需要用到諸如協(xié)同過(guò)濾LFM、ALS算法、邏輯回歸等LR算法,
綜上所述
算法
就是一種解決問(wèn)題的思路算法公式。
模型:理解為程序
是通過(guò)算法+數據進(jìn)行分析過(guò)程的一段程序。
需要數據作為入參,程序體作為算法;執行后返回具體的推薦數據。
所以數據量、維度的多少會(huì )直接影響模型的準確率
接下來(lái)介紹推薦系統中常用的算法。
傳統推薦算法
讓我們舉個(gè)例子。有圖書(shū)平臺,需要開(kāi)發(fā)推薦系統。我們現在掌握的已知數據如下
我們發(fā)現在上圖中,它被列為書(shū)名,也就是用戶(hù);其中的值 1 表示已讀取??罩当硎緵](méi)有讀取任何內容。那么現在如何根據這些數據進(jìn)行推薦呢?我們來(lái)看看傳統的推薦思路
基于用戶(hù)的協(xié)同過(guò)濾算法(UserCF)
基本上從用戶(hù)的角度來(lái)看
首先,需要找到和自己讀過(guò)相同書(shū)籍的其他用戶(hù),然后再推薦這些用戶(hù)喜歡的其他書(shū)籍,也就是從用戶(hù)的共性出發(fā)。這個(gè)想法的技術(shù)術(shù)語(yǔ)是 UserCF
比如上面的例子中,張三和李四都看過(guò)《Java編程思想》,那么系統認為兩人有共同點(diǎn)。
所以推薦給張三和李斯的《孫子兵法》。
推薦給李四的書(shū)是張三曾經(jīng)讀過(guò)的《人人都是產(chǎn)品經(jīng)理》
基于項目的協(xié)同過(guò)濾算法(ItemCF)
基本上從商品的角度來(lái)看
他們需要推薦與他們已經(jīng)讀過(guò)的書(shū)相似的書(shū)。
從書(shū)的通用性出發(fā),張三閱讀了屬于IT類(lèi)書(shū)籍的《Java編程思想》,然后系統可以推薦給張三的《大前端修身》或者《游戲開(kāi)發(fā)》。這個(gè)想法的技術(shù)術(shù)語(yǔ)是 ItemCF
UserCF 和 ItemCF
從兩種算法的原理可以看出,UserCF的推薦結果側重于反映用戶(hù)興趣相近的小群體的熱點(diǎn),而ItemCF的推薦結果側重于維護用戶(hù)的歷史興趣。也就是說(shuō),UserCF的推薦更具有社交性,體現了物品在用戶(hù)小興趣群中的熱度,而ItemCF的推薦更個(gè)性化,體現了用戶(hù)自身的興趣傳承。
UserCF適用場(chǎng)景
1)在新聞網(wǎng)站中,用戶(hù)的興趣不是特別細化,絕大多數用戶(hù)都喜歡看熱門(mén)的新聞。即使是個(gè)性化,也是比較粗粒度的,比如有些用戶(hù)喜歡體育新聞,有些喜歡社會(huì )新聞,UserCF可以給用戶(hù)推薦和他有相似愛(ài)好的一群其他用戶(hù)今天都在看的新聞,這樣在抓住熱點(diǎn)和時(shí)效性的同時(shí),保證了一定程度的個(gè)性化。
2)UserCF 適合用于新聞推薦的另一個(gè)原因是從技術(shù)角度考量的。因為作為一種物品,新聞的更新非???,每時(shí)每刻都有新內容出現,而ItemCF需要維護一張物品相關(guān)度的表,如果物品更新很快,那么這張表也需要很快更新,這在技術(shù)上很難實(shí)現。絕大多數物品相關(guān)度表都只能做到一天一次更新,這在新聞領(lǐng)域是不可以接受的。而 UserCF 只需要用戶(hù)相似性表,雖然UserCF對于新用戶(hù)也需要更新相似度表,但在新聞網(wǎng)站中,物品的更新速度遠遠快于新用戶(hù)的加入速度,而且對于新用戶(hù),完全可以給他推薦最熱門(mén)的新聞,因此 UserCF 顯然是利大于弊。
ItemCF適用場(chǎng)景
1)在圖書(shū)、電子商務(wù)和電影網(wǎng)站,比如亞馬遜、豆瓣、Netflix中,ItemCF 則能極大地發(fā)揮優(yōu)勢。首先,在這些網(wǎng)站中,用戶(hù)的興趣是比較固定和持久的。這些系統中的用戶(hù)大都不太需要流行度來(lái)輔助他們判斷一個(gè)物品的好壞,而是可以通過(guò)自己熟悉領(lǐng)域的知識自己判斷物品的質(zhì)量。因此,這些網(wǎng)站中個(gè)性化推薦的任務(wù)是幫助用戶(hù)發(fā)現和他研究領(lǐng)域相關(guān)的物品。此外,這些網(wǎng)站的物品更新速度不會(huì )特別快,一天一次更新物品相似度矩陣對它們來(lái)說(shuō)不會(huì )造成太大的損失,是可以接受的。
總結
上面介紹了UserCF和ItemCF的協(xié)同算法,也是過(guò)去常用的推薦算法;然而,近年來(lái)出現了一種協(xié)作算法 LFM(潛在語(yǔ)義模型)。潛在語(yǔ)義模型的核心思想是通過(guò)潛在因素進(jìn)行連接。用戶(hù)興趣和項目。
例如,用戶(hù) A 的興趣涉及偵探小說(shuō)、科普類(lèi)書(shū)籍,以及一些計算機技術(shù)類(lèi)書(shū)籍,而用戶(hù) B 的興趣則更多地集中在數學(xué)和機器學(xué)習方面。
向 A 和 B 推薦書(shū)籍:
對于UserCF,我們首先需要找到和自己讀過(guò)相同書(shū)籍的其他用戶(hù)(興趣相近的用戶(hù)),然后將這些用戶(hù)喜歡的其他書(shū)籍推薦給他們;
對于 ItemCF,他們需要推薦與他們已經(jīng)閱讀過(guò)的書(shū)籍相似的書(shū)籍。例如,作者 B 讀過(guò)很多數據挖掘方面的書(shū)籍,可以向他推薦機器學(xué)習或模式識別方面的書(shū)籍。
其實(shí)上面的推薦缺少用戶(hù)興趣和物品的關(guān)系,即用戶(hù)A和用戶(hù)B有一定的相似度,但又不完全一樣
例如,用戶(hù)A對偵探小說(shuō)、計算機技術(shù)感興趣;用戶(hù)B對偵探小說(shuō)、經(jīng)濟學(xué)感興趣;很有可能向用戶(hù) A 推薦經(jīng)濟學(xué)書(shū)籍。
如何解決?我們只需要添加用戶(hù)興趣和物品的關(guān)系即可。您可以從對書(shū)籍和對象興趣進(jìn)行分類(lèi)開(kāi)始。對于用戶(hù)來(lái)說(shuō),首先獲取他的興趣類(lèi)別,然后從該類(lèi)別中挑選他可能喜歡的項目。
這種基于興趣的分類(lèi)方法大致需要解決三個(gè)問(wèn)題:
?。?) 如何對項目進(jìn)行分類(lèi)?
?。?) 如何確定用戶(hù)對哪些類(lèi)別的項目感興趣,感興趣的程度如何?
(3)對于給定的類(lèi),選擇哪些屬于該類(lèi)的物品推薦給用戶(hù),如何確定這些物品在一個(gè)類(lèi)中的權重?
免規則采集器列表算法(阿里云InfluxDB數據采集服務(wù)優(yōu)勢我們能做些什么?)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 124 次瀏覽 ? 2022-01-18 02:16
背景
隨著(zhù)時(shí)序數據的快速增長(cháng),時(shí)序數據庫不僅需要解決系統穩定性和性能問(wèn)題,還需要實(shí)現從采集到分析的鏈接,讓時(shí)序數據真正生成價(jià)值。在時(shí)間序列數據采集領(lǐng)域,一直缺乏自動(dòng)化的采集工具。雖然用戶(hù)可以使用一些開(kāi)源的采集工具來(lái)實(shí)現數據采集,比如Telegraf、Logstash、TCollector等,但是這些采集工具都需要用戶(hù)自己構建和維護運行環(huán)境,增加了用戶(hù)的學(xué)習成本,大大提高了數據的門(mén)檻采集。另一方面,現有的采集工具缺乏對多個(gè)采集源的自動(dòng)化管理,使得用戶(hù)難以統一管理多個(gè)不同的采集源并監控每個(gè)采集 實(shí)時(shí) 工具是否正常運行,采集數據。
阿里云InfluxDB?不僅提供穩定可靠的時(shí)序數據庫服務(wù),還提供非常便捷的數據采集服務(wù)。用戶(hù)可以輕松查看每個(gè)采集源的運行狀態(tài)并進(jìn)行管理,采集的數據會(huì )自動(dòng)存儲在阿里云InfluxDB?中。用戶(hù)無(wú)需擔心運維問(wèn)題,實(shí)現從數據采集到分析的一站式服務(wù)。本文主要介紹如何使用InfluxDB?的數據采集服務(wù)實(shí)現數據從采集到存儲的自動(dòng)化管理。
阿里巴巴云InfluxDB?Data采集服務(wù)優(yōu)勢我們能做什么?
1.簡(jiǎn)單采集數據
目前,阿里云InfluxDB?支持采集四種不同類(lèi)型的數據,分別涉及MySQL、Redis、MongoDB和系統監控。針對每類(lèi)數據,采集多個(gè)監控指標,方便用戶(hù)對監控對象有更全面的了解。用戶(hù)可以通過(guò)InfluxDB?實(shí)例的管理控制臺添加新的采集源,無(wú)需編寫(xiě)代碼,一鍵安裝。
采集數據操作流程如下:
2.采集來(lái)源的實(shí)時(shí)監控
采集源運行過(guò)程中,可以實(shí)時(shí)監控數據采集的狀態(tài),查看數據采集最后到達InfluxDB?的時(shí)間;并且您可以隨時(shí)停止Data采集,并在您認為合適的時(shí)候重新打開(kāi)data采集服務(wù)。
3.一鍵切換采集數據類(lèi)型
如果要更改被監控機器上的采集數據類(lèi)型,不需要重新添加新的采集源,選擇你想要的采集配置即可,數據采集工具會(huì )自動(dòng)切換到采集你指定的監控數據。
4. 采集數據自動(dòng)存儲在 InfluxDB? 中
您可以在采集配置中選擇數據流的數據庫和保留策略,數據采集工具會(huì )自動(dòng)將采集數據存儲到指定的數據庫和保留策略中,并且您可以在 采集 源運行時(shí)修改要寫(xiě)入數據的數據庫和保留策略,只需修改 采集 配置即可。
最佳實(shí)踐
本節介紹如何采集系統監控數據并實(shí)時(shí)顯示采集結果。系統監控的數據包括處理器、磁盤(pán)、內存、網(wǎng)絡(luò )、進(jìn)程和系統等信息。采集到的數據存儲在 8 個(gè)不同的測量值中(測量值是 cpu、disk、diskio、mem、net、processes、swap 和 system)。在開(kāi)始之前,請確保您已成功創(chuàng )建數據庫以及對該數據庫具有讀寫(xiě)權限的用戶(hù)帳戶(hù)。
1. 創(chuàng )建采集系統監控數據配置
點(diǎn)擊InfluxDB?管理控制臺左側導航欄中的“添加采集配置”,進(jìn)入采集配置添加界面,如下圖所示。填寫(xiě)“采集Configuration Name”,選擇“采集Data Type”為“System Monitoring”,然后選擇“Authorized Account”、“Data Write to DB”和“Database Storage Policy”,填寫(xiě)在“授權密碼”中。點(diǎn)擊“添加”成功創(chuàng )建采集配置。
2. 添加采集來(lái)源
點(diǎn)擊InfluxDB?管理控制臺左側導航欄中的“添加采集Source”,進(jìn)入采集Source Add頁(yè)面。
(1)選擇網(wǎng)絡(luò )類(lèi)型,“Public Network”或“Private Network”,然后點(diǎn)擊“Next”,如下圖。
(2)在數據源所在的主機上安裝采集工具。將安裝命令復制到主機上運行采集工具。采集@之后> 工具運行,它會(huì )與 InfluxDB ? 建立連接,可以在“New 采集 Source Scan Result List”中看到新添加的采集 source,如果沒(méi)有顯示在列表中,您可以點(diǎn)擊“刷新”或“自動(dòng)刷新”。如下圖。
(3)選擇采集系統監控的數據。在上圖中點(diǎn)擊“選擇采集配置”進(jìn)入如下界面,從下拉框。采集“采集系統”的配置。選擇后點(diǎn)擊“保存”。
(4)啟動(dòng)數據采集.勾選需要啟動(dòng)的采集源,然后點(diǎn)擊“Finish and start采集”,采集工具可以在采集源上啟動(dòng)采集數據,如下圖。
3.查看數據狀態(tài)采集
在“采集Source List”中,您可以看到所有連接到 InfluxDB? 實(shí)例的 采集 源,如下圖所示。每個(gè) 采集 源由一個(gè) uuid 唯一標識,“運行中”的“采集 狀態(tài)”表示 采集 工具是 采集 數據并報告給 InfluxDB?, “最新采集上報成功時(shí)間”表示采集數據最后一次成功發(fā)送到InfluxDB?的時(shí)間。
4. 可視化 采集數據
使用 Grafana
(1)安裝 Grafana。請參閱有關(guān)如何安裝 Grafana 的文檔。
(2)添加數據源。將“URL”設置為InfluxDB?實(shí)例的地址,并填寫(xiě)寫(xiě)入采集數據的數據庫和用戶(hù)賬號,如下圖。
(3)配置Dashboard并編寫(xiě)查詢(xún)規則。這里以查詢(xún)磁盤(pán)使用情況為例。查詢(xún)語(yǔ)句為:
SELECT MEAN("used_percent") FROM "disk" GROUP BY time(10s)
實(shí)時(shí)查詢(xún)結果如下圖所示。
您可以根據實(shí)際需要查看其他測量和字段的數據,并分別在FROM和SELECT語(yǔ)句中指定。
總結
阿里云InfluxDB?提供方便快捷的數據采集服務(wù),自動(dòng)管理數據源,幫助您解決數據采集問(wèn)題,實(shí)現數據從采集到存儲的自動(dòng)化。未來(lái),我們將支持 采集 獲取更多數據類(lèi)型和指標,敬請期待。 查看全部
免規則采集器列表算法(阿里云InfluxDB數據采集服務(wù)優(yōu)勢我們能做些什么?)
背景
隨著(zhù)時(shí)序數據的快速增長(cháng),時(shí)序數據庫不僅需要解決系統穩定性和性能問(wèn)題,還需要實(shí)現從采集到分析的鏈接,讓時(shí)序數據真正生成價(jià)值。在時(shí)間序列數據采集領(lǐng)域,一直缺乏自動(dòng)化的采集工具。雖然用戶(hù)可以使用一些開(kāi)源的采集工具來(lái)實(shí)現數據采集,比如Telegraf、Logstash、TCollector等,但是這些采集工具都需要用戶(hù)自己構建和維護運行環(huán)境,增加了用戶(hù)的學(xué)習成本,大大提高了數據的門(mén)檻采集。另一方面,現有的采集工具缺乏對多個(gè)采集源的自動(dòng)化管理,使得用戶(hù)難以統一管理多個(gè)不同的采集源并監控每個(gè)采集 實(shí)時(shí) 工具是否正常運行,采集數據。
阿里云InfluxDB?不僅提供穩定可靠的時(shí)序數據庫服務(wù),還提供非常便捷的數據采集服務(wù)。用戶(hù)可以輕松查看每個(gè)采集源的運行狀態(tài)并進(jìn)行管理,采集的數據會(huì )自動(dòng)存儲在阿里云InfluxDB?中。用戶(hù)無(wú)需擔心運維問(wèn)題,實(shí)現從數據采集到分析的一站式服務(wù)。本文主要介紹如何使用InfluxDB?的數據采集服務(wù)實(shí)現數據從采集到存儲的自動(dòng)化管理。
阿里巴巴云InfluxDB?Data采集服務(wù)優(yōu)勢我們能做什么?
1.簡(jiǎn)單采集數據
目前,阿里云InfluxDB?支持采集四種不同類(lèi)型的數據,分別涉及MySQL、Redis、MongoDB和系統監控。針對每類(lèi)數據,采集多個(gè)監控指標,方便用戶(hù)對監控對象有更全面的了解。用戶(hù)可以通過(guò)InfluxDB?實(shí)例的管理控制臺添加新的采集源,無(wú)需編寫(xiě)代碼,一鍵安裝。
采集數據操作流程如下:
2.采集來(lái)源的實(shí)時(shí)監控
采集源運行過(guò)程中,可以實(shí)時(shí)監控數據采集的狀態(tài),查看數據采集最后到達InfluxDB?的時(shí)間;并且您可以隨時(shí)停止Data采集,并在您認為合適的時(shí)候重新打開(kāi)data采集服務(wù)。
3.一鍵切換采集數據類(lèi)型
如果要更改被監控機器上的采集數據類(lèi)型,不需要重新添加新的采集源,選擇你想要的采集配置即可,數據采集工具會(huì )自動(dòng)切換到采集你指定的監控數據。
4. 采集數據自動(dòng)存儲在 InfluxDB? 中
您可以在采集配置中選擇數據流的數據庫和保留策略,數據采集工具會(huì )自動(dòng)將采集數據存儲到指定的數據庫和保留策略中,并且您可以在 采集 源運行時(shí)修改要寫(xiě)入數據的數據庫和保留策略,只需修改 采集 配置即可。
最佳實(shí)踐
本節介紹如何采集系統監控數據并實(shí)時(shí)顯示采集結果。系統監控的數據包括處理器、磁盤(pán)、內存、網(wǎng)絡(luò )、進(jìn)程和系統等信息。采集到的數據存儲在 8 個(gè)不同的測量值中(測量值是 cpu、disk、diskio、mem、net、processes、swap 和 system)。在開(kāi)始之前,請確保您已成功創(chuàng )建數據庫以及對該數據庫具有讀寫(xiě)權限的用戶(hù)帳戶(hù)。
1. 創(chuàng )建采集系統監控數據配置
點(diǎn)擊InfluxDB?管理控制臺左側導航欄中的“添加采集配置”,進(jìn)入采集配置添加界面,如下圖所示。填寫(xiě)“采集Configuration Name”,選擇“采集Data Type”為“System Monitoring”,然后選擇“Authorized Account”、“Data Write to DB”和“Database Storage Policy”,填寫(xiě)在“授權密碼”中。點(diǎn)擊“添加”成功創(chuàng )建采集配置。
2. 添加采集來(lái)源
點(diǎn)擊InfluxDB?管理控制臺左側導航欄中的“添加采集Source”,進(jìn)入采集Source Add頁(yè)面。
(1)選擇網(wǎng)絡(luò )類(lèi)型,“Public Network”或“Private Network”,然后點(diǎn)擊“Next”,如下圖。
(2)在數據源所在的主機上安裝采集工具。將安裝命令復制到主機上運行采集工具。采集@之后> 工具運行,它會(huì )與 InfluxDB ? 建立連接,可以在“New 采集 Source Scan Result List”中看到新添加的采集 source,如果沒(méi)有顯示在列表中,您可以點(diǎn)擊“刷新”或“自動(dòng)刷新”。如下圖。
(3)選擇采集系統監控的數據。在上圖中點(diǎn)擊“選擇采集配置”進(jìn)入如下界面,從下拉框。采集“采集系統”的配置。選擇后點(diǎn)擊“保存”。
(4)啟動(dòng)數據采集.勾選需要啟動(dòng)的采集源,然后點(diǎn)擊“Finish and start采集”,采集工具可以在采集源上啟動(dòng)采集數據,如下圖。
3.查看數據狀態(tài)采集
在“采集Source List”中,您可以看到所有連接到 InfluxDB? 實(shí)例的 采集 源,如下圖所示。每個(gè) 采集 源由一個(gè) uuid 唯一標識,“運行中”的“采集 狀態(tài)”表示 采集 工具是 采集 數據并報告給 InfluxDB?, “最新采集上報成功時(shí)間”表示采集數據最后一次成功發(fā)送到InfluxDB?的時(shí)間。
4. 可視化 采集數據
使用 Grafana
(1)安裝 Grafana。請參閱有關(guān)如何安裝 Grafana 的文檔。
(2)添加數據源。將“URL”設置為InfluxDB?實(shí)例的地址,并填寫(xiě)寫(xiě)入采集數據的數據庫和用戶(hù)賬號,如下圖。
(3)配置Dashboard并編寫(xiě)查詢(xún)規則。這里以查詢(xún)磁盤(pán)使用情況為例。查詢(xún)語(yǔ)句為:
SELECT MEAN("used_percent") FROM "disk" GROUP BY time(10s)
實(shí)時(shí)查詢(xún)結果如下圖所示。
您可以根據實(shí)際需要查看其他測量和字段的數據,并分別在FROM和SELECT語(yǔ)句中指定。
總結
阿里云InfluxDB?提供方便快捷的數據采集服務(wù),自動(dòng)管理數據源,幫助您解決數據采集問(wèn)題,實(shí)現數據從采集到存儲的自動(dòng)化。未來(lái),我們將支持 采集 獲取更多數據類(lèi)型和指標,敬請期待。
免規則采集器列表算法(優(yōu)采云采集器(www.hqbet6457.com)專(zhuān)業(yè)采集軟件解密各大網(wǎng)站登錄算法 )
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 115 次瀏覽 ? 2022-01-15 05:14
)
優(yōu)采云采集器()作為采集行業(yè)老手采集器是一款功能強大但不易上手的專(zhuān)業(yè)采集軟件, 優(yōu)采云采集器捕獲數據的過(guò)程取決于用戶(hù)編寫(xiě)的規則。用戶(hù)必須分析來(lái)自目標站的 html 代碼中的唯一代碼標識符并遵守 優(yōu)采云 規則,發(fā)布模塊是向服務(wù)器提交 采集 數據,服務(wù)器程序自動(dòng)編寫(xiě)數據正確地存入數據庫。這里的服務(wù)端程序可以是網(wǎng)站程序,也可以是自己編寫(xiě)的接口,只要數據能正確寫(xiě)入數據庫即可。這里提交數據需要大家具備post抓包的基礎技術(shù)。簡(jiǎn)單說(shuō)一下post數據傳輸的過(guò)程。通過(guò)HTTP傳輸數據的方式主要有兩種,一種是get,一種是post。 get 一般用于獲取數據,可以攜帶少量參數數據。在此基礎上,post 可以承載大量的數據。 采集的發(fā)布規則是模擬向網(wǎng)站程序提交post請求,讓網(wǎng)站程序認為我們是人。如果您沒(méi)有權限,主要的 網(wǎng)站 程序不會(huì )讓您發(fā)布 文章,所以!我們只能解密各大網(wǎng)站s的登錄算法,只有獲得用戶(hù)登錄憑證后才能正常發(fā)布文章。了解原理后,我們就可以開(kāi)始編寫(xiě)接口了!
對于小白和基礎程序員來(lái)說(shuō),一定是一頭霧水。完全掌握優(yōu)采云采集器大約需要一個(gè)月的時(shí)間。涉及的東西更多,知識面更廣!
你是否面臨著(zhù)用優(yōu)采云采集不發(fā)表的窘境,花費大量時(shí)間卻得不到結果!還在為缺少 網(wǎng)站 內容而苦惱,不知道怎么辦?如何在三分鐘內用采集發(fā)帖?
1.打開(kāi)軟件輸入關(guān)鍵詞即可實(shí)現全自動(dòng)采集,多站點(diǎn)采集發(fā)布,自動(dòng)過(guò)濾采集文章,與行業(yè)無(wú)關(guān)文章,保證內容100%相關(guān)性,全自動(dòng)批量掛機采集,無(wú)縫對接各大cms出版商,后采集 自動(dòng)發(fā)布推送到搜索引擎!
2.全平臺cms發(fā)行商是目前市面上唯一支持Empire, Yiyou, ZBLOG, 織夢(mèng), WP, PB, Apple, 搜外等大cms,一個(gè)不需要編寫(xiě)發(fā)布模塊,可以同時(shí)管理和批量發(fā)布的工具,可以發(fā)布不同類(lèi)型的文章對應不同的欄目列表,只需要簡(jiǎn)單的配置,還有很多SEO功能讓你網(wǎng)站快速收錄!
3. SEO功能:標題前綴和后綴設置、內容關(guān)鍵詞插入、隨機圖片插入、搜索引擎推送、隨機點(diǎn)贊-隨機閱讀-隨機作者、內容與標題一致、自動(dòng)內鏈,定期發(fā)布。
再也不用擔心網(wǎng)站沒(méi)有內容,網(wǎng)站收錄低。使用以上軟件可以自動(dòng)采集最新優(yōu)質(zhì)內容,并配置多種數據處理選項,標簽、鏈接、郵箱等格式處理,讓網(wǎng)站內容獨一無(wú)二,快速增加網(wǎng)站 流量!高性能產(chǎn)品,全自動(dòng)運行!另外,要免費找到一位盡職盡責的作者非常困難??赐赀@篇文章,如果覺(jué)得不錯,不妨采集一下,或者發(fā)給有需要的朋友同事!
查看全部
免規則采集器列表算法(優(yōu)采云采集器(www.hqbet6457.com)專(zhuān)業(yè)采集軟件解密各大網(wǎng)站登錄算法
)
優(yōu)采云采集器()作為采集行業(yè)老手采集器是一款功能強大但不易上手的專(zhuān)業(yè)采集軟件, 優(yōu)采云采集器捕獲數據的過(guò)程取決于用戶(hù)編寫(xiě)的規則。用戶(hù)必須分析來(lái)自目標站的 html 代碼中的唯一代碼標識符并遵守 優(yōu)采云 規則,發(fā)布模塊是向服務(wù)器提交 采集 數據,服務(wù)器程序自動(dòng)編寫(xiě)數據正確地存入數據庫。這里的服務(wù)端程序可以是網(wǎng)站程序,也可以是自己編寫(xiě)的接口,只要數據能正確寫(xiě)入數據庫即可。這里提交數據需要大家具備post抓包的基礎技術(shù)。簡(jiǎn)單說(shuō)一下post數據傳輸的過(guò)程。通過(guò)HTTP傳輸數據的方式主要有兩種,一種是get,一種是post。 get 一般用于獲取數據,可以攜帶少量參數數據。在此基礎上,post 可以承載大量的數據。 采集的發(fā)布規則是模擬向網(wǎng)站程序提交post請求,讓網(wǎng)站程序認為我們是人。如果您沒(méi)有權限,主要的 網(wǎng)站 程序不會(huì )讓您發(fā)布 文章,所以!我們只能解密各大網(wǎng)站s的登錄算法,只有獲得用戶(hù)登錄憑證后才能正常發(fā)布文章。了解原理后,我們就可以開(kāi)始編寫(xiě)接口了!
對于小白和基礎程序員來(lái)說(shuō),一定是一頭霧水。完全掌握優(yōu)采云采集器大約需要一個(gè)月的時(shí)間。涉及的東西更多,知識面更廣!
你是否面臨著(zhù)用優(yōu)采云采集不發(fā)表的窘境,花費大量時(shí)間卻得不到結果!還在為缺少 網(wǎng)站 內容而苦惱,不知道怎么辦?如何在三分鐘內用采集發(fā)帖?
1.打開(kāi)軟件輸入關(guān)鍵詞即可實(shí)現全自動(dòng)采集,多站點(diǎn)采集發(fā)布,自動(dòng)過(guò)濾采集文章,與行業(yè)無(wú)關(guān)文章,保證內容100%相關(guān)性,全自動(dòng)批量掛機采集,無(wú)縫對接各大cms出版商,后采集 自動(dòng)發(fā)布推送到搜索引擎!
2.全平臺cms發(fā)行商是目前市面上唯一支持Empire, Yiyou, ZBLOG, 織夢(mèng), WP, PB, Apple, 搜外等大cms,一個(gè)不需要編寫(xiě)發(fā)布模塊,可以同時(shí)管理和批量發(fā)布的工具,可以發(fā)布不同類(lèi)型的文章對應不同的欄目列表,只需要簡(jiǎn)單的配置,還有很多SEO功能讓你網(wǎng)站快速收錄!
3. SEO功能:標題前綴和后綴設置、內容關(guān)鍵詞插入、隨機圖片插入、搜索引擎推送、隨機點(diǎn)贊-隨機閱讀-隨機作者、內容與標題一致、自動(dòng)內鏈,定期發(fā)布。
再也不用擔心網(wǎng)站沒(méi)有內容,網(wǎng)站收錄低。使用以上軟件可以自動(dòng)采集最新優(yōu)質(zhì)內容,并配置多種數據處理選項,標簽、鏈接、郵箱等格式處理,讓網(wǎng)站內容獨一無(wú)二,快速增加網(wǎng)站 流量!高性能產(chǎn)品,全自動(dòng)運行!另外,要免費找到一位盡職盡責的作者非常困難??赐赀@篇文章,如果覺(jué)得不錯,不妨采集一下,或者發(fā)給有需要的朋友同事!
免規則采集器列表算法( 優(yōu)采云進(jìn)階用戶(hù)使用頻繁的一種模式采集數據介紹)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 102 次瀏覽 ? 2022-01-14 09:04
優(yōu)采云進(jìn)階用戶(hù)使用頻繁的一種模式采集數據介紹)
入門(mén) - 自定義模式
自定義模式是優(yōu)采云高級用戶(hù)經(jīng)常使用的模式。他們需要自己配置規則,才能實(shí)現全網(wǎng)98%以上網(wǎng)頁(yè)數據的采集。
定位:通過(guò)配置規則來(lái)抓取網(wǎng)頁(yè)數據,模擬人們?yōu)g覽網(wǎng)頁(yè)的操作。
使用前提:通過(guò)向導模式,有一定程度的采集對規則的熟悉和優(yōu)采云采集邏輯理解能力,可以自己配置規則,輕松學(xué)習在實(shí)踐中通過(guò)自定義模式、Xpath等能力構建網(wǎng)頁(yè)結構,算是學(xué)習與工作之間的正確平衡。
推薦用法:當其他模式不能滿(mǎn)足你的需求時(shí),可以使用自定義模式采集全網(wǎng)數據。
文章 中的示例 URL 是:
自定義模式采集 步驟:
第一步:先打開(kāi)優(yōu)采云采集器→找到自定義采集→點(diǎn)擊立即使用
【GIF:自定義模式 - 開(kāi)始】
第二步:輸入網(wǎng)址→設置翻頁(yè)周期→設置字段提取→修改字段名稱(chēng)→手動(dòng)檢查規則→選擇采集輸入開(kāi)始采集
當心:
1.設置翻頁(yè)周期:觀(guān)察網(wǎng)頁(yè)底部是否有翻頁(yè)圖標。如果有且需要翻頁(yè),請點(diǎn)擊翻頁(yè)圖標。在操作提示中,點(diǎn)擊下一頁(yè),循環(huán)翻頁(yè)??梢栽O置循環(huán)翻頁(yè)。頁(yè)數,多次設置為采集網(wǎng)頁(yè)最新內容的頁(yè)數。采集鏈接的文本選項會(huì )顯示一個(gè)數據提取步驟,提取下一頁(yè)對應的文本;點(diǎn)擊采集鏈接地址步驟選項會(huì )顯示一個(gè)數據提取步驟來(lái)提取當前字段對應的鏈接地址。單擊鏈接將彈出單擊元素步驟,單擊元素一次。
2.設置字段提?。合葘⒕W(wǎng)頁(yè)內容分塊,思路是循環(huán)每個(gè)塊,然后從循環(huán)塊中提取每個(gè)字段的內容,所以設置的時(shí)候點(diǎn)擊2-3個(gè)塊,優(yōu)采云會(huì )自動(dòng)選中剩余的所有block,點(diǎn)擊采集下面的元素文本會(huì )出現循??環(huán)提取數據的步驟,實(shí)現block的循環(huán)采集,但是此時(shí)每個(gè)block只會(huì )循環(huán)將塊中的文本合并到一個(gè)提取中。這時(shí)候我們刪除字段,手動(dòng)添加所有需要提取的字段;單擊一個(gè)循環(huán)中的每個(gè)元素,將出現循環(huán)單擊元素步驟,然后單擊每個(gè)塊一次。這個(gè)例子中間的塊點(diǎn)擊沒(méi)有效果,所以循環(huán)點(diǎn)擊在這個(gè)例子中沒(méi)有效果。如果選錯了,
循環(huán)下的第一個(gè)元素要勾選采集當前循環(huán)中設置的元素,相關(guān)操作會(huì )根據循環(huán)設置循環(huán)。
3.修改字段名:修改字段名可以點(diǎn)擊選擇系統內置的字段名,也可以手動(dòng)輸入字段名,回車(chē)鍵切換到下一個(gè)。
4.選擇采集類(lèi)型啟動(dòng)采集:本地采集占用采集當前計算機資源,如果有采集時(shí)間要求或者當前電腦無(wú)法定時(shí)采集可以使用云采集功能,云采集采集在網(wǎng)絡(luò )中,不需要當前電腦支持,可以關(guān)機,并且可以設置多個(gè)云節點(diǎn)分配任務(wù),10個(gè)節點(diǎn)相當于10臺電腦分配任務(wù)幫你采集,速度降低到原來(lái)的十分之一;數據采集可在云端保存三個(gè)月,并可隨時(shí)操作導出。
第三步:確認數據無(wú)誤→點(diǎn)擊導出數據→免費版用戶(hù)付費→選擇導出方式→查看數據
【GIF:自定義模式-導出】
注意:積分是一種支付優(yōu)采云增值服務(wù)的方式。主要用途包括:通過(guò)優(yōu)采云采集器采集導出數據,在規則市場(chǎng)下載規則,在數據市場(chǎng)下載數據包。不同的賬戶(hù)類(lèi)型在使用上述增值服務(wù)時(shí)會(huì )有不同的計費策略。具體的計費策略和區別在發(fā)行說(shuō)明中有詳細說(shuō)明。積分可以通過(guò)優(yōu)采云官方購買(mǎi)專(zhuān)業(yè)版或旗艦版按月發(fā)放,也可以單獨購買(mǎi),也可以通過(guò)關(guān)注、登錄、分享規則、關(guān)注微信、綁定社交賬號等方式獲得。 查看全部
免規則采集器列表算法(
優(yōu)采云進(jìn)階用戶(hù)使用頻繁的一種模式采集數據介紹)

入門(mén) - 自定義模式
自定義模式是優(yōu)采云高級用戶(hù)經(jīng)常使用的模式。他們需要自己配置規則,才能實(shí)現全網(wǎng)98%以上網(wǎng)頁(yè)數據的采集。
定位:通過(guò)配置規則來(lái)抓取網(wǎng)頁(yè)數據,模擬人們?yōu)g覽網(wǎng)頁(yè)的操作。
使用前提:通過(guò)向導模式,有一定程度的采集對規則的熟悉和優(yōu)采云采集邏輯理解能力,可以自己配置規則,輕松學(xué)習在實(shí)踐中通過(guò)自定義模式、Xpath等能力構建網(wǎng)頁(yè)結構,算是學(xué)習與工作之間的正確平衡。
推薦用法:當其他模式不能滿(mǎn)足你的需求時(shí),可以使用自定義模式采集全網(wǎng)數據。
文章 中的示例 URL 是:
自定義模式采集 步驟:
第一步:先打開(kāi)優(yōu)采云采集器→找到自定義采集→點(diǎn)擊立即使用

【GIF:自定義模式 - 開(kāi)始】
第二步:輸入網(wǎng)址→設置翻頁(yè)周期→設置字段提取→修改字段名稱(chēng)→手動(dòng)檢查規則→選擇采集輸入開(kāi)始采集
當心:
1.設置翻頁(yè)周期:觀(guān)察網(wǎng)頁(yè)底部是否有翻頁(yè)圖標。如果有且需要翻頁(yè),請點(diǎn)擊翻頁(yè)圖標。在操作提示中,點(diǎn)擊下一頁(yè),循環(huán)翻頁(yè)??梢栽O置循環(huán)翻頁(yè)。頁(yè)數,多次設置為采集網(wǎng)頁(yè)最新內容的頁(yè)數。采集鏈接的文本選項會(huì )顯示一個(gè)數據提取步驟,提取下一頁(yè)對應的文本;點(diǎn)擊采集鏈接地址步驟選項會(huì )顯示一個(gè)數據提取步驟來(lái)提取當前字段對應的鏈接地址。單擊鏈接將彈出單擊元素步驟,單擊元素一次。
2.設置字段提?。合葘⒕W(wǎng)頁(yè)內容分塊,思路是循環(huán)每個(gè)塊,然后從循環(huán)塊中提取每個(gè)字段的內容,所以設置的時(shí)候點(diǎn)擊2-3個(gè)塊,優(yōu)采云會(huì )自動(dòng)選中剩余的所有block,點(diǎn)擊采集下面的元素文本會(huì )出現循??環(huán)提取數據的步驟,實(shí)現block的循環(huán)采集,但是此時(shí)每個(gè)block只會(huì )循環(huán)將塊中的文本合并到一個(gè)提取中。這時(shí)候我們刪除字段,手動(dòng)添加所有需要提取的字段;單擊一個(gè)循環(huán)中的每個(gè)元素,將出現循環(huán)單擊元素步驟,然后單擊每個(gè)塊一次。這個(gè)例子中間的塊點(diǎn)擊沒(méi)有效果,所以循環(huán)點(diǎn)擊在這個(gè)例子中沒(méi)有效果。如果選錯了,
循環(huán)下的第一個(gè)元素要勾選采集當前循環(huán)中設置的元素,相關(guān)操作會(huì )根據循環(huán)設置循環(huán)。
3.修改字段名:修改字段名可以點(diǎn)擊選擇系統內置的字段名,也可以手動(dòng)輸入字段名,回車(chē)鍵切換到下一個(gè)。
4.選擇采集類(lèi)型啟動(dòng)采集:本地采集占用采集當前計算機資源,如果有采集時(shí)間要求或者當前電腦無(wú)法定時(shí)采集可以使用云采集功能,云采集采集在網(wǎng)絡(luò )中,不需要當前電腦支持,可以關(guān)機,并且可以設置多個(gè)云節點(diǎn)分配任務(wù),10個(gè)節點(diǎn)相當于10臺電腦分配任務(wù)幫你采集,速度降低到原來(lái)的十分之一;數據采集可在云端保存三個(gè)月,并可隨時(shí)操作導出。
第三步:確認數據無(wú)誤→點(diǎn)擊導出數據→免費版用戶(hù)付費→選擇導出方式→查看數據

【GIF:自定義模式-導出】
注意:積分是一種支付優(yōu)采云增值服務(wù)的方式。主要用途包括:通過(guò)優(yōu)采云采集器采集導出數據,在規則市場(chǎng)下載規則,在數據市場(chǎng)下載數據包。不同的賬戶(hù)類(lèi)型在使用上述增值服務(wù)時(shí)會(huì )有不同的計費策略。具體的計費策略和區別在發(fā)行說(shuō)明中有詳細說(shuō)明。積分可以通過(guò)優(yōu)采云官方購買(mǎi)專(zhuān)業(yè)版或旗艦版按月發(fā)放,也可以單獨購買(mǎi),也可以通過(guò)關(guān)注、登錄、分享規則、關(guān)注微信、綁定社交賬號等方式獲得。
免規則采集器列表算法(優(yōu)采云采集器post傳遞數據的HTTP過(guò)程,怎么三分鐘使用采集發(fā)布? )
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 135 次瀏覽 ? 2022-02-17 23:16
)
優(yōu)采云采集器()作為采集行業(yè)老手采集器是一款功能強大但不易上手的專(zhuān)業(yè)采集軟件, 優(yōu)采云采集器捕獲數據的過(guò)程取決于用戶(hù)編寫(xiě)的規則。用戶(hù)必須分析來(lái)自目標站的html代碼中的唯一代碼標識符并遵守優(yōu)采云規則,發(fā)布模塊是向服務(wù)器提交采集數據,服務(wù)器程序自動(dòng)寫(xiě)入數據正確進(jìn)入數據庫。這里的服務(wù)端程序可以是網(wǎng)站程序,也可以是自己編寫(xiě)的接口,只要數據能正確寫(xiě)入數據庫即可。這里提交數據需要大家具備post抓包的基礎技術(shù)。簡(jiǎn)單說(shuō)一下post數據傳輸的過(guò)程。通過(guò)HTTP傳輸數據的方式主要有兩種,一種是get,一種是post。 get 一般用于獲取數據,可以攜帶少量參數數據。在此基礎上,post 可以承載大量的數據。 采集的發(fā)布規則是模擬向網(wǎng)站程序提交post請求,讓網(wǎng)站程序認為我們是人。如果您沒(méi)有權限,所有主要的 網(wǎng)站 程序都不會(huì )讓您發(fā)布 文章,所以!我們只能解密各大網(wǎng)站s的登錄算法,獲得用戶(hù)登錄憑證后才能正常發(fā)布文章。如果我們理解了原理,我們就可以開(kāi)始編寫(xiě)接口了!
對于小白和基礎程序員來(lái)說(shuō),一定是一頭霧水。完全掌握優(yōu)采云采集器大約需要一個(gè)月的時(shí)間。涉及的東西更多,知識面更廣!
你是否正面臨著(zhù)不使用優(yōu)采云采集發(fā)布、花費大量時(shí)間卻得不到結果的困境!還在為缺少 網(wǎng)站 內容而苦惱,不知道怎么辦?如何在三分鐘內用采集發(fā)帖?
1.打開(kāi)軟件只需輸入關(guān)鍵詞即可實(shí)現全自動(dòng)采集,實(shí)現多站點(diǎn)采集發(fā)布,采集@自動(dòng)過(guò)濾>文章,與行業(yè)無(wú)關(guān)文章,保證內容100%相關(guān)性,全自動(dòng)批量掛機采集,無(wú)縫對接各大cms出版商, 采集之后自動(dòng)發(fā)布推送到搜索引擎!
2.全平臺cms發(fā)行商是目前市面上唯一支持Empire, Yiyou, ZBLOG, 織夢(mèng), WP, PB, Apple, 搜外等大cms,不用寫(xiě)發(fā)布模塊,一個(gè)可以同時(shí)管理和批量發(fā)布的工具,可以發(fā)布不同類(lèi)型的不同欄目列表文章,只需要一個(gè)配置簡(jiǎn)單,還有很多SEO功能讓你網(wǎng)站Quick收錄!
3. SEO功能:標題前綴和后綴設置、內容關(guān)鍵詞插入、隨機圖片插入、搜索引擎推送、隨機點(diǎn)贊-隨機閱讀-隨機作者、內容與標題一致、自動(dòng)內鏈,定期發(fā)布。
再也不用擔心網(wǎng)站沒(méi)有內容,網(wǎng)站收錄低。使用以上軟件可以自動(dòng)采集最新優(yōu)質(zhì)內容,并配置多種數據處理選項,標簽、鏈接、郵件等格式處理,使網(wǎng)站內容獨一無(wú)二,快速增加網(wǎng)站 流量!高性能產(chǎn)品,全自動(dòng)運行!另外,要免費找到一位盡職盡責的作者非常困難??赐赀@篇文章,如果你覺(jué)得不錯,不妨采集起來(lái),或者發(fā)給需要的朋友和同事!
查看全部
免規則采集器列表算法(優(yōu)采云采集器post傳遞數據的HTTP過(guò)程,怎么三分鐘使用采集發(fā)布?
)
優(yōu)采云采集器()作為采集行業(yè)老手采集器是一款功能強大但不易上手的專(zhuān)業(yè)采集軟件, 優(yōu)采云采集器捕獲數據的過(guò)程取決于用戶(hù)編寫(xiě)的規則。用戶(hù)必須分析來(lái)自目標站的html代碼中的唯一代碼標識符并遵守優(yōu)采云規則,發(fā)布模塊是向服務(wù)器提交采集數據,服務(wù)器程序自動(dòng)寫(xiě)入數據正確進(jìn)入數據庫。這里的服務(wù)端程序可以是網(wǎng)站程序,也可以是自己編寫(xiě)的接口,只要數據能正確寫(xiě)入數據庫即可。這里提交數據需要大家具備post抓包的基礎技術(shù)。簡(jiǎn)單說(shuō)一下post數據傳輸的過(guò)程。通過(guò)HTTP傳輸數據的方式主要有兩種,一種是get,一種是post。 get 一般用于獲取數據,可以攜帶少量參數數據。在此基礎上,post 可以承載大量的數據。 采集的發(fā)布規則是模擬向網(wǎng)站程序提交post請求,讓網(wǎng)站程序認為我們是人。如果您沒(méi)有權限,所有主要的 網(wǎng)站 程序都不會(huì )讓您發(fā)布 文章,所以!我們只能解密各大網(wǎng)站s的登錄算法,獲得用戶(hù)登錄憑證后才能正常發(fā)布文章。如果我們理解了原理,我們就可以開(kāi)始編寫(xiě)接口了!

對于小白和基礎程序員來(lái)說(shuō),一定是一頭霧水。完全掌握優(yōu)采云采集器大約需要一個(gè)月的時(shí)間。涉及的東西更多,知識面更廣!

你是否正面臨著(zhù)不使用優(yōu)采云采集發(fā)布、花費大量時(shí)間卻得不到結果的困境!還在為缺少 網(wǎng)站 內容而苦惱,不知道怎么辦?如何在三分鐘內用采集發(fā)帖?

1.打開(kāi)軟件只需輸入關(guān)鍵詞即可實(shí)現全自動(dòng)采集,實(shí)現多站點(diǎn)采集發(fā)布,采集@自動(dòng)過(guò)濾>文章,與行業(yè)無(wú)關(guān)文章,保證內容100%相關(guān)性,全自動(dòng)批量掛機采集,無(wú)縫對接各大cms出版商, 采集之后自動(dòng)發(fā)布推送到搜索引擎!

2.全平臺cms發(fā)行商是目前市面上唯一支持Empire, Yiyou, ZBLOG, 織夢(mèng), WP, PB, Apple, 搜外等大cms,不用寫(xiě)發(fā)布模塊,一個(gè)可以同時(shí)管理和批量發(fā)布的工具,可以發(fā)布不同類(lèi)型的不同欄目列表文章,只需要一個(gè)配置簡(jiǎn)單,還有很多SEO功能讓你網(wǎng)站Quick收錄!

3. SEO功能:標題前綴和后綴設置、內容關(guān)鍵詞插入、隨機圖片插入、搜索引擎推送、隨機點(diǎn)贊-隨機閱讀-隨機作者、內容與標題一致、自動(dòng)內鏈,定期發(fā)布。

再也不用擔心網(wǎng)站沒(méi)有內容,網(wǎng)站收錄低。使用以上軟件可以自動(dòng)采集最新優(yōu)質(zhì)內容,并配置多種數據處理選項,標簽、鏈接、郵件等格式處理,使網(wǎng)站內容獨一無(wú)二,快速增加網(wǎng)站 流量!高性能產(chǎn)品,全自動(dòng)運行!另外,要免費找到一位盡職盡責的作者非常困難??赐赀@篇文章,如果你覺(jué)得不錯,不妨采集起來(lái),或者發(fā)給需要的朋友和同事!
免規則采集器列表算法(開(kāi)發(fā)商推出8.3新版本支持免規則采集任意網(wǎng)站(圖))
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 114 次瀏覽 ? 2022-02-15 07:17
<p>國內站群領(lǐng)域開(kāi)發(fā)者DIY-Page于6月24日推出8.3新版本。 據悉,該版本最大的亮點(diǎn)是對無(wú)規則< @采集任何網(wǎng)站。官方表示,只要在程序中填寫(xiě)任意一個(gè)URL,不寫(xiě)任何規則,程序就能在 查看全部
免規則采集器列表算法(開(kāi)發(fā)商推出8.3新版本支持免規則采集任意網(wǎng)站(圖))
<p>國內站群領(lǐng)域開(kāi)發(fā)者DIY-Page于6月24日推出8.3新版本。 據悉,該版本最大的亮點(diǎn)是對無(wú)規則< @采集任何網(wǎng)站。官方表示,只要在程序中填寫(xiě)任意一個(gè)URL,不寫(xiě)任何規則,程序就能在
免規則采集器列表算法(華為云數據庫GuassDB:推薦系統偏差引發(fā)的思考(組圖))
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 161 次瀏覽 ? 2022-02-14 05:11
作者:華為云數據庫 GuassDB (for Redis) 團隊
一、關(guān)于推薦偏差的思考
七夕節過(guò)后,筆者的一位朋友遇到了一件尷尬的事情:女友點(diǎn)擊他的購物App,自動(dòng)彈出一連串推薦:玫瑰免運費、感動(dòng)哭、浪漫夜燈……回首往事七夕那天,禮物沒(méi)有出現,所以問(wèn)題來(lái)了:從真正的把戲中,你送的是誰(shuí)?
為了幫助朋友重建信任,筆者進(jìn)行了一些技術(shù)研究:這一定是偏離了“推薦系統”。
推薦系統是一種信息過(guò)濾系統,可以快速分析海量用戶(hù)行為數據,預測用戶(hù)偏好,做出有效推薦。在產(chǎn)品推薦、廣告投放等業(yè)務(wù)中,推薦系統肩負重任。
在本文開(kāi)頭的示例中,正是推薦系統問(wèn)題導致了尷尬的場(chǎng)景。作者決定以可靠的知識支持朋友和說(shuō)服人們!
二、推薦系統長(cháng)什么樣
一般來(lái)說(shuō),在一個(gè)成熟的推薦系統中,分布式計算、特征存儲和推薦算法是三個(gè)關(guān)鍵環(huán)節,缺一不可。
下面介紹一個(gè)完整的推薦系統,其中GaussDB(for Redis)負責核心特征數據的存儲。該系統也是眾多華為云客戶(hù)案例中較為成熟的最佳實(shí)踐之一。
第 1 部分:獲取特征數據
點(diǎn)贊、采集、評論、購買(mǎi)……這些行為都是原創(chuàng )數據,隨時(shí)發(fā)生,數據量巨大。它通過(guò)Kafka和Redis Stream等流組件向下游傳遞,或者存儲在數據倉庫中,等待以后提取和使用。
原創(chuàng )數據是離散的、模糊的,算法不能直接使用。這時(shí),需要進(jìn)行大規模的離線(xiàn)和在線(xiàn)計算來(lái)處理數據。Spark和Flink是典型的大數據計算組件,其強大的分布式計算能力對于推薦系統來(lái)說(shuō)是不可或缺的。
處理后的數據,即特征和標簽,是推薦算法的寶貴數據源。在某些場(chǎng)景下,也可以稱(chēng)為用戶(hù)畫(huà)像或物品畫(huà)像。這部分數據具有重復共享和重用的價(jià)值。它不僅可以用來(lái)訓練算法模型,還可以為生產(chǎn)環(huán)境提供服務(wù)。
確保特征數據的可靠存儲是推薦系統中極其關(guān)鍵的部分。
第二部分:消費特征數據
有了關(guān)鍵的特征數據,業(yè)務(wù)就可以開(kāi)始訓練算法模型了。只有充分利用特征庫和最新的行為數據,不斷打磨推薦算法,才能提升推薦系統的整體水平,最終給用戶(hù)帶來(lái)更好的體驗。
算法模型訓練完成后,將部署到線(xiàn)上生產(chǎn)環(huán)境。它將繼續利用現有的特征存儲,根據用戶(hù)的實(shí)時(shí)行為進(jìn)行推斷,快速預測出與用戶(hù)最匹配的優(yōu)質(zhì)內容,形成推薦列表,推送給終端用戶(hù)。
三、推薦系統的存儲問(wèn)題
顯然,“特征數據”在整個(gè)系統中起著(zhù)關(guān)鍵的鏈接作用。由于 KV 形式的數據抽象與特征數據非常接近,Redis 在推薦系統中往往是不可或缺的。
上述系統方案中,數據庫選用的是GaussDB(for Redis),而不是開(kāi)源的Redis。究其原因,開(kāi)源 Redis 在大數據場(chǎng)景中仍然存在明顯的痛點(diǎn):
1. 數據無(wú)法可靠存儲
推薦系統其實(shí)是希望使用KV數據庫,并且可以放心的將數據長(cháng)期存儲。但開(kāi)源 Redis 的能力更側重于數據緩存加速而不是數據存儲。而且,開(kāi)源的Redis畢竟是純內存設計。即使有 AOF 持久化,通常也只能在幾秒鐘內放到磁盤(pán)上,數據存儲也不可靠。
2. 數據量上不去,成本上不去
涉及到推薦的業(yè)務(wù)往往規模不小,隨著(zhù)業(yè)務(wù)的發(fā)展,需要保存的特征數據也會(huì )越來(lái)越多。事實(shí)上,同樣容量的內存比極速SSD貴10倍以上是正常的。所以當數據量達到幾十GB或者幾百GB的時(shí)候,開(kāi)源的Redis會(huì )越來(lái)越“燒錢(qián)”,所以一般只作為“小”緩存使用。此外,開(kāi)源 Redis 本身的分叉問(wèn)題導致容量利用率低,對硬件資源造成極大浪費。
3. 水庫灌溉效果不佳
特征數據需要定期更新,大規模的數據注入任務(wù)往往需要數小時(shí)或數天才能完成。如果存儲組件不夠“瘦”,大量寫(xiě)入會(huì )導致數據庫故障,進(jìn)而導致整個(gè)推薦系統出現故障。這可能會(huì )導致開(kāi)頭提到的尷尬用戶(hù)體驗。
開(kāi)源的 Redis 不是很抗寫(xiě)。這是因為集群中有一半的節點(diǎn)是備用節點(diǎn),只能處理讀取請求。當大批量寫(xiě)入到來(lái)時(shí),主節點(diǎn)容易出現問(wèn)題,造成連鎖反應。
理論上,架構設計越復雜越好。如果可能的話(huà),誰(shuí)不想使用一個(gè)可靠的數據存儲引擎,可以兼顧KV類(lèi)型的特征數據,性?xún)r(jià)比高,性能有保障?
四、認識 GaussDB(用于 Redis)
與開(kāi)源Redis不同,GaussDB(for Redis)基于存儲和計算分離,為推薦系統等大數據場(chǎng)景帶來(lái)關(guān)鍵技術(shù)價(jià)值:
1. 可靠存儲
數據以命令級別放在磁盤(pán)上,三份冗余存儲在底層存儲池中,真正做到了零丟失。
2. 降本增效
高性能持久化技術(shù)+細粒度存儲池,幫助企業(yè)降低數據庫使用成本75%以上。
3. 抗寫(xiě)能力強
多線(xiàn)程設計+所有節點(diǎn)可寫(xiě),抗寫(xiě)能力強,足以應對Spark庫填充和實(shí)時(shí)更新的壓力。華為云企業(yè)級數據庫GaussDB(for Redis)提供穩定可靠的KV存儲能力,是推薦系統核心數據的絕佳選擇。
五、完美連接,實(shí)現想存就存的自由
事實(shí)上,在 Spark 后端訪(fǎng)問(wèn) Redis 已經(jīng)成為主流方案,使用 Flink 從 Redis 中提取維表也很常見(jiàn)。它們還都提供了用于訪(fǎng)問(wèn) Redis 的連接器。GaussDB(for Redis)完全兼容Redis協(xié)議,用戶(hù)可以隨時(shí)快速創(chuàng )建實(shí)例和訪(fǎng)問(wèn)服務(wù)。
1. Spark-Redis-Connector
Spark-Redis-Connector完美實(shí)現了Spark RDD、DataFrame到GaussDB(for Redis)實(shí)例中String、Hash、List、Set等結構的映射。用戶(hù)可以使用熟悉的 Spark SQL 語(yǔ)法輕松訪(fǎng)問(wèn) GaussDB(用于 Redis),完成特征數據填充、更新、提取等關(guān)鍵任務(wù)。
如何使用它非常簡(jiǎn)單:
1)當你需要將Hash、List和Set結構讀取到Spark RDD時(shí),只需要一行就可以完成:
2)而推薦系統在填庫或者更新特征數據的時(shí)候,可以很方便的寫(xiě)成如下:
2. Flink-Redis-Connector
Flink這個(gè)計算引擎和Spark一樣流行,也有成熟的Redis連接方案。使用 Flink 提供的 Connector 或者結合 Jedis 客戶(hù)端,可以輕松完成 Flink 到 Redis 的讀寫(xiě)操作。
以使用 Flink 統計詞頻的簡(jiǎn)單場(chǎng)景為例。數據源經(jīng)過(guò) Flink 處理后,可以很方便的存入 GaussDB(用于 Redis)。
六、結束語(yǔ)
大數據應用對核心數據的存儲要求很高。ApsaraDB for GaussDB(for Redis)具有存儲和計算分離的云原生架構。在完全兼容Redis協(xié)議的基礎上,在穩定性和可靠性上也實(shí)現了整體領(lǐng)先。. 面對海量核心數據存儲,也能為企業(yè)帶來(lái)可觀(guān)的成本節約。面向未來(lái),GaussDB(for Redis)具有成為下一波大數據浪潮新星的巨大潛力。 查看全部
免規則采集器列表算法(華為云數據庫GuassDB:推薦系統偏差引發(fā)的思考(組圖))
作者:華為云數據庫 GuassDB (for Redis) 團隊
一、關(guān)于推薦偏差的思考
七夕節過(guò)后,筆者的一位朋友遇到了一件尷尬的事情:女友點(diǎn)擊他的購物App,自動(dòng)彈出一連串推薦:玫瑰免運費、感動(dòng)哭、浪漫夜燈……回首往事七夕那天,禮物沒(méi)有出現,所以問(wèn)題來(lái)了:從真正的把戲中,你送的是誰(shuí)?
為了幫助朋友重建信任,筆者進(jìn)行了一些技術(shù)研究:這一定是偏離了“推薦系統”。
推薦系統是一種信息過(guò)濾系統,可以快速分析海量用戶(hù)行為數據,預測用戶(hù)偏好,做出有效推薦。在產(chǎn)品推薦、廣告投放等業(yè)務(wù)中,推薦系統肩負重任。
在本文開(kāi)頭的示例中,正是推薦系統問(wèn)題導致了尷尬的場(chǎng)景。作者決定以可靠的知識支持朋友和說(shuō)服人們!
二、推薦系統長(cháng)什么樣
一般來(lái)說(shuō),在一個(gè)成熟的推薦系統中,分布式計算、特征存儲和推薦算法是三個(gè)關(guān)鍵環(huán)節,缺一不可。
下面介紹一個(gè)完整的推薦系統,其中GaussDB(for Redis)負責核心特征數據的存儲。該系統也是眾多華為云客戶(hù)案例中較為成熟的最佳實(shí)踐之一。
第 1 部分:獲取特征數據
點(diǎn)贊、采集、評論、購買(mǎi)……這些行為都是原創(chuàng )數據,隨時(shí)發(fā)生,數據量巨大。它通過(guò)Kafka和Redis Stream等流組件向下游傳遞,或者存儲在數據倉庫中,等待以后提取和使用。
原創(chuàng )數據是離散的、模糊的,算法不能直接使用。這時(shí),需要進(jìn)行大規模的離線(xiàn)和在線(xiàn)計算來(lái)處理數據。Spark和Flink是典型的大數據計算組件,其強大的分布式計算能力對于推薦系統來(lái)說(shuō)是不可或缺的。
處理后的數據,即特征和標簽,是推薦算法的寶貴數據源。在某些場(chǎng)景下,也可以稱(chēng)為用戶(hù)畫(huà)像或物品畫(huà)像。這部分數據具有重復共享和重用的價(jià)值。它不僅可以用來(lái)訓練算法模型,還可以為生產(chǎn)環(huán)境提供服務(wù)。
確保特征數據的可靠存儲是推薦系統中極其關(guān)鍵的部分。
第二部分:消費特征數據
有了關(guān)鍵的特征數據,業(yè)務(wù)就可以開(kāi)始訓練算法模型了。只有充分利用特征庫和最新的行為數據,不斷打磨推薦算法,才能提升推薦系統的整體水平,最終給用戶(hù)帶來(lái)更好的體驗。
算法模型訓練完成后,將部署到線(xiàn)上生產(chǎn)環(huán)境。它將繼續利用現有的特征存儲,根據用戶(hù)的實(shí)時(shí)行為進(jìn)行推斷,快速預測出與用戶(hù)最匹配的優(yōu)質(zhì)內容,形成推薦列表,推送給終端用戶(hù)。
三、推薦系統的存儲問(wèn)題
顯然,“特征數據”在整個(gè)系統中起著(zhù)關(guān)鍵的鏈接作用。由于 KV 形式的數據抽象與特征數據非常接近,Redis 在推薦系統中往往是不可或缺的。
上述系統方案中,數據庫選用的是GaussDB(for Redis),而不是開(kāi)源的Redis。究其原因,開(kāi)源 Redis 在大數據場(chǎng)景中仍然存在明顯的痛點(diǎn):
1. 數據無(wú)法可靠存儲
推薦系統其實(shí)是希望使用KV數據庫,并且可以放心的將數據長(cháng)期存儲。但開(kāi)源 Redis 的能力更側重于數據緩存加速而不是數據存儲。而且,開(kāi)源的Redis畢竟是純內存設計。即使有 AOF 持久化,通常也只能在幾秒鐘內放到磁盤(pán)上,數據存儲也不可靠。
2. 數據量上不去,成本上不去
涉及到推薦的業(yè)務(wù)往往規模不小,隨著(zhù)業(yè)務(wù)的發(fā)展,需要保存的特征數據也會(huì )越來(lái)越多。事實(shí)上,同樣容量的內存比極速SSD貴10倍以上是正常的。所以當數據量達到幾十GB或者幾百GB的時(shí)候,開(kāi)源的Redis會(huì )越來(lái)越“燒錢(qián)”,所以一般只作為“小”緩存使用。此外,開(kāi)源 Redis 本身的分叉問(wèn)題導致容量利用率低,對硬件資源造成極大浪費。
3. 水庫灌溉效果不佳
特征數據需要定期更新,大規模的數據注入任務(wù)往往需要數小時(shí)或數天才能完成。如果存儲組件不夠“瘦”,大量寫(xiě)入會(huì )導致數據庫故障,進(jìn)而導致整個(gè)推薦系統出現故障。這可能會(huì )導致開(kāi)頭提到的尷尬用戶(hù)體驗。
開(kāi)源的 Redis 不是很抗寫(xiě)。這是因為集群中有一半的節點(diǎn)是備用節點(diǎn),只能處理讀取請求。當大批量寫(xiě)入到來(lái)時(shí),主節點(diǎn)容易出現問(wèn)題,造成連鎖反應。
理論上,架構設計越復雜越好。如果可能的話(huà),誰(shuí)不想使用一個(gè)可靠的數據存儲引擎,可以兼顧KV類(lèi)型的特征數據,性?xún)r(jià)比高,性能有保障?
四、認識 GaussDB(用于 Redis)
與開(kāi)源Redis不同,GaussDB(for Redis)基于存儲和計算分離,為推薦系統等大數據場(chǎng)景帶來(lái)關(guān)鍵技術(shù)價(jià)值:
1. 可靠存儲
數據以命令級別放在磁盤(pán)上,三份冗余存儲在底層存儲池中,真正做到了零丟失。
2. 降本增效
高性能持久化技術(shù)+細粒度存儲池,幫助企業(yè)降低數據庫使用成本75%以上。
3. 抗寫(xiě)能力強
多線(xiàn)程設計+所有節點(diǎn)可寫(xiě),抗寫(xiě)能力強,足以應對Spark庫填充和實(shí)時(shí)更新的壓力。華為云企業(yè)級數據庫GaussDB(for Redis)提供穩定可靠的KV存儲能力,是推薦系統核心數據的絕佳選擇。
五、完美連接,實(shí)現想存就存的自由
事實(shí)上,在 Spark 后端訪(fǎng)問(wèn) Redis 已經(jīng)成為主流方案,使用 Flink 從 Redis 中提取維表也很常見(jiàn)。它們還都提供了用于訪(fǎng)問(wèn) Redis 的連接器。GaussDB(for Redis)完全兼容Redis協(xié)議,用戶(hù)可以隨時(shí)快速創(chuàng )建實(shí)例和訪(fǎng)問(wèn)服務(wù)。
1. Spark-Redis-Connector
Spark-Redis-Connector完美實(shí)現了Spark RDD、DataFrame到GaussDB(for Redis)實(shí)例中String、Hash、List、Set等結構的映射。用戶(hù)可以使用熟悉的 Spark SQL 語(yǔ)法輕松訪(fǎng)問(wèn) GaussDB(用于 Redis),完成特征數據填充、更新、提取等關(guān)鍵任務(wù)。
如何使用它非常簡(jiǎn)單:
1)當你需要將Hash、List和Set結構讀取到Spark RDD時(shí),只需要一行就可以完成:
2)而推薦系統在填庫或者更新特征數據的時(shí)候,可以很方便的寫(xiě)成如下:
2. Flink-Redis-Connector
Flink這個(gè)計算引擎和Spark一樣流行,也有成熟的Redis連接方案。使用 Flink 提供的 Connector 或者結合 Jedis 客戶(hù)端,可以輕松完成 Flink 到 Redis 的讀寫(xiě)操作。
以使用 Flink 統計詞頻的簡(jiǎn)單場(chǎng)景為例。數據源經(jīng)過(guò) Flink 處理后,可以很方便的存入 GaussDB(用于 Redis)。
六、結束語(yǔ)
大數據應用對核心數據的存儲要求很高。ApsaraDB for GaussDB(for Redis)具有存儲和計算分離的云原生架構。在完全兼容Redis協(xié)議的基礎上,在穩定性和可靠性上也實(shí)現了整體領(lǐng)先。. 面對海量核心數據存儲,也能為企業(yè)帶來(lái)可觀(guān)的成本節約。面向未來(lái),GaussDB(for Redis)具有成為下一波大數據浪潮新星的巨大潛力。
免規則采集器列表算法(網(wǎng)站開(kāi)發(fā)列表現面對的網(wǎng)站,保留原功能的基礎上開(kāi)發(fā))
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 78 次瀏覽 ? 2022-02-13 09:19
<p>網(wǎng)站開(kāi)發(fā)列表面網(wǎng)站,在保留原有功能的基礎上開(kāi)發(fā)一、網(wǎng)站程序部分1、??增加功能偽原創(chuàng )的標題和內容可以實(shí)現,偽原創(chuàng )偽原創(chuàng )2、??? 添加生成靜態(tài)頁(yè)面的功能:生成時(shí)使用靜態(tài)訪(fǎng)問(wèn),不生成時(shí)使用偽靜態(tài)訪(fǎng)問(wèn),現在是偽靜態(tài),?這里增加了配置靜態(tài)和動(dòng)態(tài)切換的功能,3、???后臺問(wèn)題無(wú)法查看修復用戶(hù)詢(xún)問(wèn)后管理員會(huì )報錯無(wú)法成功查看4、的內容@采集和本站原創(chuàng )的內容分開(kāi)存放,不影響前臺訪(fǎng)問(wèn)。用戶(hù)密碼改為MD5加密算法5、 增加cms文章功能。文章系統,可以是 查看全部
免規則采集器列表算法(網(wǎng)站開(kāi)發(fā)列表現面對的網(wǎng)站,保留原功能的基礎上開(kāi)發(fā))
<p>網(wǎng)站開(kāi)發(fā)列表面網(wǎng)站,在保留原有功能的基礎上開(kāi)發(fā)一、網(wǎng)站程序部分1、??增加功能偽原創(chuàng )的標題和內容可以實(shí)現,偽原創(chuàng )偽原創(chuàng )2、??? 添加生成靜態(tài)頁(yè)面的功能:生成時(shí)使用靜態(tài)訪(fǎng)問(wèn),不生成時(shí)使用偽靜態(tài)訪(fǎng)問(wèn),現在是偽靜態(tài),?這里增加了配置靜態(tài)和動(dòng)態(tài)切換的功能,3、???后臺問(wèn)題無(wú)法查看修復用戶(hù)詢(xún)問(wèn)后管理員會(huì )報錯無(wú)法成功查看4、的內容@采集和本站原創(chuàng )的內容分開(kāi)存放,不影響前臺訪(fǎng)問(wèn)。用戶(hù)密碼改為MD5加密算法5、 增加cms文章功能。文章系統,可以是
免規則采集器列表算法(免規則采集器列表:2d平面尋路:三維立體定位算法)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 127 次瀏覽 ? 2022-02-10 16:08
免規則采集器列表算法:2d平面尋路算法slam:三維立體定位算法雷達導航:wgs84
不局限于地理信息系統的話(huà),
查詢(xún)下國家的數據,不過(guò)有的數據有的機構是未對外發(fā)布的。進(jìn)入百度web開(kāi)發(fā)者平臺,找到webgraph的頁(yè)面。
geojson,georgia和imgur,可以關(guān)注下這三個(gè)網(wǎng)站。
建議多瀏覽一些地理數據資源網(wǎng)站,特別是個(gè)大的erp軟件開(kāi)發(fā)商。gis之星也有他們的產(chǎn)品庫,可以供采集使用。
建議找geopython,你可以看一下,
feign或者tor
可以參考一下papai仿真,看上去很“復雜”其實(shí)參數設置很簡(jiǎn)單,甚至不需要編程。
百度一下行么?
無(wú)覓網(wǎng)和去哪兒webstore,
wikimap,國內比較好的數據平臺了,可以滿(mǎn)足你的需求。wikimap[圖源搜狗識圖]去哪兒webstore,國內比較好的數據平臺了,可以滿(mǎn)足你的需求。
地理設計師(可視化地理設計技術(shù)與方法)一站式平臺
最基本的gis知識:矢量、柵格、ogc、地球化學(xué)、地質(zhì)學(xué)等,然后多上google、百度、seo101、bing、地理國情監測云平臺等網(wǎng)站,上面有大量的來(lái)源于國內外gis的資源。如果有能力,去申請arcgis開(kāi)發(fā)者注冊個(gè)號當然更好。 查看全部
免規則采集器列表算法(免規則采集器列表:2d平面尋路:三維立體定位算法)
免規則采集器列表算法:2d平面尋路算法slam:三維立體定位算法雷達導航:wgs84
不局限于地理信息系統的話(huà),
查詢(xún)下國家的數據,不過(guò)有的數據有的機構是未對外發(fā)布的。進(jìn)入百度web開(kāi)發(fā)者平臺,找到webgraph的頁(yè)面。
geojson,georgia和imgur,可以關(guān)注下這三個(gè)網(wǎng)站。
建議多瀏覽一些地理數據資源網(wǎng)站,特別是個(gè)大的erp軟件開(kāi)發(fā)商。gis之星也有他們的產(chǎn)品庫,可以供采集使用。
建議找geopython,你可以看一下,
feign或者tor
可以參考一下papai仿真,看上去很“復雜”其實(shí)參數設置很簡(jiǎn)單,甚至不需要編程。
百度一下行么?
無(wú)覓網(wǎng)和去哪兒webstore,
wikimap,國內比較好的數據平臺了,可以滿(mǎn)足你的需求。wikimap[圖源搜狗識圖]去哪兒webstore,國內比較好的數據平臺了,可以滿(mǎn)足你的需求。
地理設計師(可視化地理設計技術(shù)與方法)一站式平臺
最基本的gis知識:矢量、柵格、ogc、地球化學(xué)、地質(zhì)學(xué)等,然后多上google、百度、seo101、bing、地理國情監測云平臺等網(wǎng)站,上面有大量的來(lái)源于國內外gis的資源。如果有能力,去申請arcgis開(kāi)發(fā)者注冊個(gè)號當然更好。
免規則采集器列表算法(如何抓包獲取Cookie,并且并且手動(dòng)設置?(組圖))
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 124 次瀏覽 ? 2022-02-09 23:28
優(yōu)采云采集器是新一代智能網(wǎng)頁(yè)采集工具,智能分析,可視化界面,一鍵式采集無(wú)需編程,支持自動(dòng)生成采集可以采集99% 的互聯(lián)網(wǎng)網(wǎng)站 的腳本。該軟件簡(jiǎn)單易學(xué)。通過(guò)智能算法+可視化界面,你可以抓取任何你想要的數據。采集網(wǎng)頁(yè)上的數據只需點(diǎn)擊一下即可。
【軟件特色】
一鍵提取數據
簡(jiǎn)單易學(xué),通過(guò)可視化界面,鼠標點(diǎn)擊即可抓取數據
快速高效
內置一套高速瀏覽器內核,配合HTTP引擎模式,實(shí)現快速采集數據
適用于各種網(wǎng)站
能夠采集99%的互聯(lián)網(wǎng)網(wǎng)站,包括單頁(yè)應用Ajax加載等動(dòng)態(tài)類(lèi)型網(wǎng)站
【特征】
向導模式
使用簡(jiǎn)單,通過(guò)鼠標點(diǎn)擊輕松自動(dòng)生成
定期運行的腳本
無(wú)需人工即可按計劃運行
原裝高速核心
自研瀏覽器內核速度快,遠超對手
智能識別
智能識別網(wǎng)頁(yè)中的列表和表單結構(多選框下拉列表等)
廣告攔截
自定義廣告攔截模塊,兼容AdblockPlus語(yǔ)法,可添加自定義規則
各種數據導出
支持Txt、Excel、MySQL、SQLServer、SQlite、Access、網(wǎng)站等。
【手動(dòng)的】
輸入 采集網(wǎng)址
打開(kāi)軟件,新建一個(gè)任務(wù),輸入需要采集的網(wǎng)站地址。
智能分析,全程數據自動(dòng)提取
進(jìn)入第二步后,優(yōu)采云采集器自動(dòng)智能分析網(wǎng)頁(yè),從中提取列表數據。
將數據導出到表、數據庫、網(wǎng)站 等。
運行任務(wù),將采集中的數據導出到Csv、Excel等各種數據庫,支持api導出。
【常見(jiàn)問(wèn)題】
Q:如何過(guò)濾列表中的前N個(gè)數據?
1、有時(shí)我們需要對采集收到的列表進(jìn)行過(guò)濾,比如過(guò)濾掉第一組數據(當采集表時(shí),過(guò)濾掉表列名)
2、點(diǎn)擊列表模式菜單設置列表xpath
Q:如何抓包獲取cookies并手動(dòng)設置?
1、首先用谷歌瀏覽器打開(kāi)網(wǎng)站為采集,登錄。
2、 然后按F12,會(huì )出現開(kāi)發(fā)者工具,選擇Network
3、然后按 F5 刷新下一頁(yè)并選擇其中一個(gè)請求。
4、復制完成后,在優(yōu)采云采集器中,編輯任務(wù),進(jìn)入第三步,指定HTTP Header。
【更新日志】
V2.1.8.0
1、添加插件功能
2、添加導出txt(一個(gè)文件保存為一個(gè)文件)
3、多值連接器支持換行
4、為數據處理修改了文本映射(支持查找和替換)
5、修復了登錄時(shí)的 DNS 問(wèn)題
6、修復圖片下載問(wèn)題
7、修復一些json問(wèn)題 查看全部
免規則采集器列表算法(如何抓包獲取Cookie,并且并且手動(dòng)設置?(組圖))
優(yōu)采云采集器是新一代智能網(wǎng)頁(yè)采集工具,智能分析,可視化界面,一鍵式采集無(wú)需編程,支持自動(dòng)生成采集可以采集99% 的互聯(lián)網(wǎng)網(wǎng)站 的腳本。該軟件簡(jiǎn)單易學(xué)。通過(guò)智能算法+可視化界面,你可以抓取任何你想要的數據。采集網(wǎng)頁(yè)上的數據只需點(diǎn)擊一下即可。

【軟件特色】
一鍵提取數據
簡(jiǎn)單易學(xué),通過(guò)可視化界面,鼠標點(diǎn)擊即可抓取數據
快速高效
內置一套高速瀏覽器內核,配合HTTP引擎模式,實(shí)現快速采集數據
適用于各種網(wǎng)站
能夠采集99%的互聯(lián)網(wǎng)網(wǎng)站,包括單頁(yè)應用Ajax加載等動(dòng)態(tài)類(lèi)型網(wǎng)站
【特征】
向導模式
使用簡(jiǎn)單,通過(guò)鼠標點(diǎn)擊輕松自動(dòng)生成
定期運行的腳本
無(wú)需人工即可按計劃運行
原裝高速核心
自研瀏覽器內核速度快,遠超對手
智能識別
智能識別網(wǎng)頁(yè)中的列表和表單結構(多選框下拉列表等)
廣告攔截
自定義廣告攔截模塊,兼容AdblockPlus語(yǔ)法,可添加自定義規則
各種數據導出
支持Txt、Excel、MySQL、SQLServer、SQlite、Access、網(wǎng)站等。

【手動(dòng)的】
輸入 采集網(wǎng)址
打開(kāi)軟件,新建一個(gè)任務(wù),輸入需要采集的網(wǎng)站地址。
智能分析,全程數據自動(dòng)提取
進(jìn)入第二步后,優(yōu)采云采集器自動(dòng)智能分析網(wǎng)頁(yè),從中提取列表數據。
將數據導出到表、數據庫、網(wǎng)站 等。
運行任務(wù),將采集中的數據導出到Csv、Excel等各種數據庫,支持api導出。

【常見(jiàn)問(wèn)題】
Q:如何過(guò)濾列表中的前N個(gè)數據?
1、有時(shí)我們需要對采集收到的列表進(jìn)行過(guò)濾,比如過(guò)濾掉第一組數據(當采集表時(shí),過(guò)濾掉表列名)
2、點(diǎn)擊列表模式菜單設置列表xpath
Q:如何抓包獲取cookies并手動(dòng)設置?
1、首先用谷歌瀏覽器打開(kāi)網(wǎng)站為采集,登錄。
2、 然后按F12,會(huì )出現開(kāi)發(fā)者工具,選擇Network
3、然后按 F5 刷新下一頁(yè)并選擇其中一個(gè)請求。
4、復制完成后,在優(yōu)采云采集器中,編輯任務(wù),進(jìn)入第三步,指定HTTP Header。
【更新日志】
V2.1.8.0
1、添加插件功能
2、添加導出txt(一個(gè)文件保存為一個(gè)文件)
3、多值連接器支持換行
4、為數據處理修改了文本映射(支持查找和替換)
5、修復了登錄時(shí)的 DNS 問(wèn)題
6、修復圖片下載問(wèn)題
7、修復一些json問(wèn)題
免規則采集器列表算法(,應用服務(wù)提供者需要一些智能化的指導算法(一)_)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 125 次瀏覽 ? 2022-02-09 08:01
互聯(lián)網(wǎng)的迅猛發(fā)展將我們帶入了信息社會(huì )和網(wǎng)絡(luò )經(jīng)濟時(shí)代,對企業(yè)的發(fā)展和個(gè)人生活產(chǎn)生了深遠的影響?;诨ヂ?lián)網(wǎng)電子商務(wù)模式的虛擬企業(yè)不再需要像傳統實(shí)體環(huán)境中的企業(yè)那樣需要大量的實(shí)體投資,還可以與客戶(hù)和供應商建立更直接的聯(lián)系。以用戶(hù)為中心的新興互聯(lián)網(wǎng)站點(diǎn)也可以?huà)侀_(kāi)傳統媒體的局限,以更豐富的方式將影響力傳遞給更多的潛在客戶(hù)。在虛擬環(huán)境中,網(wǎng)絡(luò )應用提供的商品或信息種類(lèi)繁多,數量眾多,用戶(hù)很難通過(guò)電腦屏幕一目了然地找到想要的信息。因此,應用服務(wù)商需要一些智能的引導算法,根據用戶(hù)的購買(mǎi)習慣等知識,推薦用戶(hù)可能感興趣的產(chǎn)品或信息,讓用戶(hù)輕松獲得所需。而且從實(shí)踐經(jīng)驗來(lái)看,用戶(hù)的需求往往是模糊不清的,對某些商品或信息可能存在潛在的偏好。這時(shí),如果服務(wù)提供者能夠向用戶(hù)推薦適合用戶(hù)的業(yè)務(wù)水晶或信息,就有可能將用戶(hù)的潛在需求變?yōu)楝F實(shí)并從中獲利。在此背景下,推薦系統(MendationSystems)應運而生,根據用戶(hù)的習慣、愛(ài)好等特征,推薦可能滿(mǎn)足用戶(hù)需求的對象。例如,以商品為推薦對象的電子商務(wù)個(gè)性化推薦系統、以新聞為推薦對象的社交新聞推薦系統等。推薦系統的實(shí)現方法有很多,但由于其面臨的數據特征種類(lèi)繁多,沒(méi)有現有的基礎推薦算法能夠在多種環(huán)境下取得良好的效果。一種混合使用多種基本方法的推薦策略。推薦系統的實(shí)現方法有很多,但由于其面臨的數據特征種類(lèi)繁多,沒(méi)有現有的基礎推薦算法能夠在多種環(huán)境下取得良好的效果。一種混合使用多種基本方法的推薦策略。推薦系統的實(shí)現方法有很多,但由于其面臨的數據特征種類(lèi)繁多,現有的基本推薦算法都無(wú)法在多種環(huán)境下取得良好的效果。一種混合使用多種基本方法的推薦策略。
本文研究了推薦系統的應用場(chǎng)景和主要實(shí)現算法,根據推薦系統的應用特點(diǎn),提出了一種新的基礎推薦算法。以基于關(guān)聯(lián)規則算法的推薦系統為原型,研究如何通過(guò)秩相關(guān)(RankCorrelation)從根本上改變支持度的計算方法,以克服傳統關(guān)聯(lián)規則算法對數據必須是離散化。算法推薦系統的準確性。然后,基于本文算法和協(xié)同過(guò)濾等多種經(jīng)典推薦算法,構建了一個(gè)多功能、多算法的個(gè)性化推薦系統原型。最后,將該系統原型應用于推薦系統研究領(lǐng)域的經(jīng)典數據集,對比了不同算法生成的推薦結果的準確性,表明該算法具有良好的實(shí)用性。關(guān)鍵詞:關(guān)聯(lián)規則,推薦算法,等級相關(guān),協(xié)同過(guò)濾,workeconomyandinformationsociety,whichhadaprofoundimpactonenterprisesandpersonallives.Intemet-basede-paniesnolongerneedthephysicalconnectiontoitscustomersandsupplierslikeatraditionalcorporateentitiesdoes.Theemerginguser-centricIntemetsitesalsobreaklotsoflimitationsoftraditionalmediaandspreadtheirinfluencetoabroaderrangeofpotentialcustomers.provideishuge,makingtheusersunabletojustglancethroughthescreenandfindthedesiredinformation.Therefore, 查看全部
免規則采集器列表算法(,應用服務(wù)提供者需要一些智能化的指導算法(一)_)
互聯(lián)網(wǎng)的迅猛發(fā)展將我們帶入了信息社會(huì )和網(wǎng)絡(luò )經(jīng)濟時(shí)代,對企業(yè)的發(fā)展和個(gè)人生活產(chǎn)生了深遠的影響?;诨ヂ?lián)網(wǎng)電子商務(wù)模式的虛擬企業(yè)不再需要像傳統實(shí)體環(huán)境中的企業(yè)那樣需要大量的實(shí)體投資,還可以與客戶(hù)和供應商建立更直接的聯(lián)系。以用戶(hù)為中心的新興互聯(lián)網(wǎng)站點(diǎn)也可以?huà)侀_(kāi)傳統媒體的局限,以更豐富的方式將影響力傳遞給更多的潛在客戶(hù)。在虛擬環(huán)境中,網(wǎng)絡(luò )應用提供的商品或信息種類(lèi)繁多,數量眾多,用戶(hù)很難通過(guò)電腦屏幕一目了然地找到想要的信息。因此,應用服務(wù)商需要一些智能的引導算法,根據用戶(hù)的購買(mǎi)習慣等知識,推薦用戶(hù)可能感興趣的產(chǎn)品或信息,讓用戶(hù)輕松獲得所需。而且從實(shí)踐經(jīng)驗來(lái)看,用戶(hù)的需求往往是模糊不清的,對某些商品或信息可能存在潛在的偏好。這時(shí),如果服務(wù)提供者能夠向用戶(hù)推薦適合用戶(hù)的業(yè)務(wù)水晶或信息,就有可能將用戶(hù)的潛在需求變?yōu)楝F實(shí)并從中獲利。在此背景下,推薦系統(MendationSystems)應運而生,根據用戶(hù)的習慣、愛(ài)好等特征,推薦可能滿(mǎn)足用戶(hù)需求的對象。例如,以商品為推薦對象的電子商務(wù)個(gè)性化推薦系統、以新聞為推薦對象的社交新聞推薦系統等。推薦系統的實(shí)現方法有很多,但由于其面臨的數據特征種類(lèi)繁多,沒(méi)有現有的基礎推薦算法能夠在多種環(huán)境下取得良好的效果。一種混合使用多種基本方法的推薦策略。推薦系統的實(shí)現方法有很多,但由于其面臨的數據特征種類(lèi)繁多,沒(méi)有現有的基礎推薦算法能夠在多種環(huán)境下取得良好的效果。一種混合使用多種基本方法的推薦策略。推薦系統的實(shí)現方法有很多,但由于其面臨的數據特征種類(lèi)繁多,現有的基本推薦算法都無(wú)法在多種環(huán)境下取得良好的效果。一種混合使用多種基本方法的推薦策略。
本文研究了推薦系統的應用場(chǎng)景和主要實(shí)現算法,根據推薦系統的應用特點(diǎn),提出了一種新的基礎推薦算法。以基于關(guān)聯(lián)規則算法的推薦系統為原型,研究如何通過(guò)秩相關(guān)(RankCorrelation)從根本上改變支持度的計算方法,以克服傳統關(guān)聯(lián)規則算法對數據必須是離散化。算法推薦系統的準確性。然后,基于本文算法和協(xié)同過(guò)濾等多種經(jīng)典推薦算法,構建了一個(gè)多功能、多算法的個(gè)性化推薦系統原型。最后,將該系統原型應用于推薦系統研究領(lǐng)域的經(jīng)典數據集,對比了不同算法生成的推薦結果的準確性,表明該算法具有良好的實(shí)用性。關(guān)鍵詞:關(guān)聯(lián)規則,推薦算法,等級相關(guān),協(xié)同過(guò)濾,workeconomyandinformationsociety,whichhadaprofoundimpactonenterprisesandpersonallives.Intemet-basede-paniesnolongerneedthephysicalconnectiontoitscustomersandsupplierslikeatraditionalcorporateentitiesdoes.Theemerginguser-centricIntemetsitesalsobreaklotsoflimitationsoftraditionalmediaandspreadtheirinfluencetoabroaderrangeofpotentialcustomers.provideishuge,makingtheusersunabletojustglancethroughthescreenandfindthedesiredinformation.Therefore,
免規則采集器列表算法(「代售」新版sodu網(wǎng)站源碼搜讀帶采集器PC+WAP免授權)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 153 次瀏覽 ? 2022-02-08 20:09
《銷(xiāo)售》新版sodu網(wǎng)站源碼搜索小說(shuō)搜索引擎源碼升級版帶采集器PC+WAP免授權
新版搜索程序,本程序還自帶了專(zhuān)用的爬蟲(chóng),在VPS上基本不需要管理和維護,VPS最低要求1G1核心10G硬盤(pán)以上!
本sodu源碼需要環(huán)境支持net2.0+mssql2008r2,最好是win2003+2008+iis系列。
本次sodu源碼根據權6站升級源碼改寫(xiě),參考知乎面板。該程序基于 .net 和七年 SEO 的成果。閱讀頁(yè)面自動(dòng)跳轉到源站,無(wú)任何版權糾紛,同時(shí)減輕服務(wù)器負載壓力,規則簡(jiǎn)單易寫(xiě),同時(shí)自動(dòng)更新是支持的強大工具車(chē)站。
本次更新
1、模板重新定義,完美氛圍,內部?jì)?yōu)化符合搜索引擎
2、解決用戶(hù)無(wú)法注冊登錄的問(wèn)題
3、修復閱讀日志問(wèn)題
4、解決小說(shuō)站ID后臺無(wú)法操作、無(wú)法修改密碼、添加修改友情鏈接錯誤等問(wèn)題。
5、內核被重寫(xiě),運行速度比以前快3倍!
6、保留預裝功能(用于下次升級功能,即無(wú)需更改數據庫)
網(wǎng)站24小時(shí)自動(dòng)采集收錄網(wǎng)站,所有源碼準確,SEO到位,另外本程序沒(méi)有任何授權,懂的朋友不用多說(shuō), 需要的請速速,貨源有限,因為我比較忙,可能無(wú)法一一回復,您可以直接拍照,我可以保證程序和截圖一樣。
源截圖
下載鏈接
價(jià)格:130分
下載請點(diǎn)擊這里立即購買(mǎi)【解壓碼:z7m3】如無(wú)特殊說(shuō)明,本文資源的解壓密碼為: 提示:源代碼采集于網(wǎng)絡(luò ),其完整性和安全性為不保證。下載后請測試FAQ。
小說(shuō)源代碼 PHP小說(shuō)網(wǎng)站源代碼
本文由網(wǎng)友投稿或“聚碼之家”從網(wǎng)絡(luò )編譯。如需轉載,請注明出處:
如果本站發(fā)布的內容侵犯了您的權益,請發(fā)郵件cnzz8#刪除,我們會(huì )及時(shí)處理! 查看全部
免規則采集器列表算法(「代售」新版sodu網(wǎng)站源碼搜讀帶采集器PC+WAP免授權)
《銷(xiāo)售》新版sodu網(wǎng)站源碼搜索小說(shuō)搜索引擎源碼升級版帶采集器PC+WAP免授權
新版搜索程序,本程序還自帶了專(zhuān)用的爬蟲(chóng),在VPS上基本不需要管理和維護,VPS最低要求1G1核心10G硬盤(pán)以上!
本sodu源碼需要環(huán)境支持net2.0+mssql2008r2,最好是win2003+2008+iis系列。
本次sodu源碼根據權6站升級源碼改寫(xiě),參考知乎面板。該程序基于 .net 和七年 SEO 的成果。閱讀頁(yè)面自動(dòng)跳轉到源站,無(wú)任何版權糾紛,同時(shí)減輕服務(wù)器負載壓力,規則簡(jiǎn)單易寫(xiě),同時(shí)自動(dòng)更新是支持的強大工具車(chē)站。
本次更新
1、模板重新定義,完美氛圍,內部?jì)?yōu)化符合搜索引擎
2、解決用戶(hù)無(wú)法注冊登錄的問(wèn)題
3、修復閱讀日志問(wèn)題
4、解決小說(shuō)站ID后臺無(wú)法操作、無(wú)法修改密碼、添加修改友情鏈接錯誤等問(wèn)題。
5、內核被重寫(xiě),運行速度比以前快3倍!
6、保留預裝功能(用于下次升級功能,即無(wú)需更改數據庫)
網(wǎng)站24小時(shí)自動(dòng)采集收錄網(wǎng)站,所有源碼準確,SEO到位,另外本程序沒(méi)有任何授權,懂的朋友不用多說(shuō), 需要的請速速,貨源有限,因為我比較忙,可能無(wú)法一一回復,您可以直接拍照,我可以保證程序和截圖一樣。
源截圖


下載鏈接
價(jià)格:130分
下載請點(diǎn)擊這里立即購買(mǎi)【解壓碼:z7m3】如無(wú)特殊說(shuō)明,本文資源的解壓密碼為: 提示:源代碼采集于網(wǎng)絡(luò ),其完整性和安全性為不保證。下載后請測試FAQ。
小說(shuō)源代碼 PHP小說(shuō)網(wǎng)站源代碼
本文由網(wǎng)友投稿或“聚碼之家”從網(wǎng)絡(luò )編譯。如需轉載,請注明出處:
如果本站發(fā)布的內容侵犯了您的權益,請發(fā)郵件cnzz8#刪除,我們會(huì )及時(shí)處理!
免規則采集器列表算法(如何采集招投標類(lèi)網(wǎng)站的數據?示例網(wǎng)站推薦??!)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 150 次瀏覽 ? 2022-02-06 09:15
網(wǎng)上公布招標信息的網(wǎng)站很多,招標公告中的信息很有價(jià)值。比如你想知道一個(gè)公司的資質(zhì),你想知道一個(gè)項目的投資資金,你想知道招標公司之間的關(guān)系,這些都可以從招標信息中分析出來(lái)。數據是分析的基礎,只能獲取大量的數據。,分析更準確,更有說(shuō)服力。今天教大家采集出價(jià)和出價(jià)網(wǎng)站數據。
示例網(wǎng)站:
一.首先打開(kāi)ForeSpider數據采集軟件,點(diǎn)擊“采集頻道列表”中的“+”號新建頻道。然后將準備好的采集網(wǎng)站的URL粘貼到采集的地址中。
通道配置
二.頻道入口地址配置好后,點(diǎn)擊“模板配置”,在右側模板中新建一個(gè)鏈接提取,兩個(gè)鏈接提取,分別命名為“翻頁(yè)”和“項目提取”。這兩個(gè)鏈接提取分別提取頁(yè)面中的工程項和翻頁(yè)鏈接。
添加鏈接提取
三.點(diǎn)擊采集預覽,發(fā)現采集的預覽中沒(méi)有我要的project項目的鏈接,但是有翻頁(yè)的鏈接,這時(shí)需要編寫(xiě)腳本來(lái)提取項目鏈接。翻頁(yè)鏈接提取可以通過(guò)可視化操作來(lái)完成。之前提到過(guò)如何編寫(xiě)鏈接提取腳本,這里就不介紹了。
鏈接提取教程:
鏈接提取腳本
四.預覽發(fā)現每個(gè)翻頁(yè)鏈接地址都收錄“page=”這個(gè)詞,然后我把這個(gè)詞放到“翻頁(yè)”的地址過(guò)濾器中,過(guò)濾規則選擇為“include”。
翻頁(yè)地址過(guò)濾
鏈接提取配置完成后,可以點(diǎn)擊采集預覽效果。如果配置有問(wèn)題,可以及時(shí)更正。
預覽效果
五??梢钥吹筋A覽效果沒(méi)有問(wèn)題,接下來(lái)繼續配置下一層模板。下一層是招標公告頁(yè),即資料頁(yè)。先創(chuàng )建表單域,在表單名稱(chēng)處選擇創(chuàng )建的表單。
選擇表格
六.數據頁(yè)中有些字段可以用可視化操作,有些需要腳本,所以我把需要寫(xiě)的部分寫(xiě)在了字段下面。對于字段處理,選擇腳本處理。
字段下的腳本處理
八.所有字段配置完成后,可以點(diǎn)擊采集預覽查看效果。如果效果不好,可以改正。
預覽效果
競價(jià)類(lèi)網(wǎng)站實(shí)時(shí)更新,ForeSpider數據采集軟件有增量采集功能,可以采集新增數據,隨時(shí)監控要時(shí)間很久了網(wǎng)站添加數據。
雖然教程看起來(lái)很簡(jiǎn)單,但最重要的是動(dòng)手實(shí)踐。多多練習可以更熟練地使用軟件采集你想要的數據。 查看全部
免規則采集器列表算法(如何采集招投標類(lèi)網(wǎng)站的數據?示例網(wǎng)站推薦??!)
網(wǎng)上公布招標信息的網(wǎng)站很多,招標公告中的信息很有價(jià)值。比如你想知道一個(gè)公司的資質(zhì),你想知道一個(gè)項目的投資資金,你想知道招標公司之間的關(guān)系,這些都可以從招標信息中分析出來(lái)。數據是分析的基礎,只能獲取大量的數據。,分析更準確,更有說(shuō)服力。今天教大家采集出價(jià)和出價(jià)網(wǎng)站數據。
示例網(wǎng)站:
一.首先打開(kāi)ForeSpider數據采集軟件,點(diǎn)擊“采集頻道列表”中的“+”號新建頻道。然后將準備好的采集網(wǎng)站的URL粘貼到采集的地址中。
通道配置
二.頻道入口地址配置好后,點(diǎn)擊“模板配置”,在右側模板中新建一個(gè)鏈接提取,兩個(gè)鏈接提取,分別命名為“翻頁(yè)”和“項目提取”。這兩個(gè)鏈接提取分別提取頁(yè)面中的工程項和翻頁(yè)鏈接。
添加鏈接提取
三.點(diǎn)擊采集預覽,發(fā)現采集的預覽中沒(méi)有我要的project項目的鏈接,但是有翻頁(yè)的鏈接,這時(shí)需要編寫(xiě)腳本來(lái)提取項目鏈接。翻頁(yè)鏈接提取可以通過(guò)可視化操作來(lái)完成。之前提到過(guò)如何編寫(xiě)鏈接提取腳本,這里就不介紹了。
鏈接提取教程:
鏈接提取腳本
四.預覽發(fā)現每個(gè)翻頁(yè)鏈接地址都收錄“page=”這個(gè)詞,然后我把這個(gè)詞放到“翻頁(yè)”的地址過(guò)濾器中,過(guò)濾規則選擇為“include”。
翻頁(yè)地址過(guò)濾
鏈接提取配置完成后,可以點(diǎn)擊采集預覽效果。如果配置有問(wèn)題,可以及時(shí)更正。
預覽效果
五??梢钥吹筋A覽效果沒(méi)有問(wèn)題,接下來(lái)繼續配置下一層模板。下一層是招標公告頁(yè),即資料頁(yè)。先創(chuàng )建表單域,在表單名稱(chēng)處選擇創(chuàng )建的表單。
選擇表格
六.數據頁(yè)中有些字段可以用可視化操作,有些需要腳本,所以我把需要寫(xiě)的部分寫(xiě)在了字段下面。對于字段處理,選擇腳本處理。
字段下的腳本處理
八.所有字段配置完成后,可以點(diǎn)擊采集預覽查看效果。如果效果不好,可以改正。
預覽效果
競價(jià)類(lèi)網(wǎng)站實(shí)時(shí)更新,ForeSpider數據采集軟件有增量采集功能,可以采集新增數據,隨時(shí)監控要時(shí)間很久了網(wǎng)站添加數據。
雖然教程看起來(lái)很簡(jiǎn)單,但最重要的是動(dòng)手實(shí)踐。多多練習可以更熟練地使用軟件采集你想要的數據。
免規則采集器列表算法(一鍵提取數據簡(jiǎn)單易學(xué),優(yōu)采云采集器智能分析網(wǎng)頁(yè)信息采集工具)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 140 次瀏覽 ? 2022-02-06 06:03
優(yōu)采云采集器是一個(gè)非常強大的網(wǎng)頁(yè)信息采集工具,可以幫助用戶(hù)一鍵快速提取各種網(wǎng)頁(yè)的數據,生成Excel表格和api數據庫文檔等內容,同時(shí)支持互聯(lián)網(wǎng)99%的網(wǎng)站,讓你輕松獲取你想要的數據。
【軟件特色】一鍵提取數據
簡(jiǎn)單易學(xué),通過(guò)可視化界面,鼠標點(diǎn)擊即可抓取數據
快速高效
內置一套高速瀏覽器內核,配合HTTP引擎模式,實(shí)現快速采集數據
適用于各種網(wǎng)站
能夠采集99%的互聯(lián)網(wǎng)網(wǎng)站,包括單頁(yè)應用Ajax加載等動(dòng)態(tài)類(lèi)型網(wǎng)站
【功能介紹】向導模式
使用簡(jiǎn)單,通過(guò)鼠標點(diǎn)擊輕松自動(dòng)生成
定期運行的腳本
無(wú)需人工即可按計劃運行
原裝高速核心
自研瀏覽器內核速度快,遠超對手
智能識別
智能識別網(wǎng)頁(yè)中的列表和表單結構(多選框下拉列表等)
廣告攔截
自定義廣告攔截模塊,兼容AdblockPlus語(yǔ)法,可添加自定義規則
各種數據導出
優(yōu)采云采集器正式版支持Txt、Excel、MySQL、SQLServer、SQlite、Access、網(wǎng)站等。
【使用方法】第一步:輸入采集網(wǎng)址
打開(kāi)軟件,新建一個(gè)任務(wù),輸入需要采集的網(wǎng)站的地址。
第二步:智能分析,全過(guò)程自動(dòng)提取數據
進(jìn)入第二步后,優(yōu)采云采集器自動(dòng)智能分析網(wǎng)頁(yè),從中提取列表數據。
步驟 3:將數據導出到表、數據庫、網(wǎng)站 等。
運行任務(wù),將采集中的數據導出到Csv、Excel等各種數據庫,支持api導出。
【FAQ】Q:如何過(guò)濾列表中的前N個(gè)數據?
1.有時(shí)候我們需要對采集收到的列表進(jìn)行過(guò)濾,比如過(guò)濾掉第一組數據(在采集表中,過(guò)濾掉表列名)
2.點(diǎn)擊列表模式菜單設置列表xpath
Q:如何抓包獲取cookie并手動(dòng)設置?
1.首先用谷歌瀏覽器打開(kāi)網(wǎng)站為采集,登錄。
2. 然后按F12,會(huì )出現開(kāi)發(fā)者工具,選擇Network
3.然后按 F5 刷新下一頁(yè)并選擇其中一個(gè)請求。
4.復制完成后,在優(yōu)采云采集器中,編輯任務(wù),進(jìn)入第三步,指定HTTP Header。
【更新日志】1.增加插件功能
2.添加導出txt(一個(gè)文件保存為一個(gè)文件)
3.多值連接器支持換行
4.為數據處理修改了文本映射(支持查找和替換)
5.修復登錄時(shí)的 DNS 問(wèn)題
6.修復圖片下載問(wèn)題
7.修復一些json問(wèn)題 查看全部
免規則采集器列表算法(一鍵提取數據簡(jiǎn)單易學(xué),優(yōu)采云采集器智能分析網(wǎng)頁(yè)信息采集工具)
優(yōu)采云采集器是一個(gè)非常強大的網(wǎng)頁(yè)信息采集工具,可以幫助用戶(hù)一鍵快速提取各種網(wǎng)頁(yè)的數據,生成Excel表格和api數據庫文檔等內容,同時(shí)支持互聯(lián)網(wǎng)99%的網(wǎng)站,讓你輕松獲取你想要的數據。

【軟件特色】一鍵提取數據
簡(jiǎn)單易學(xué),通過(guò)可視化界面,鼠標點(diǎn)擊即可抓取數據
快速高效
內置一套高速瀏覽器內核,配合HTTP引擎模式,實(shí)現快速采集數據
適用于各種網(wǎng)站
能夠采集99%的互聯(lián)網(wǎng)網(wǎng)站,包括單頁(yè)應用Ajax加載等動(dòng)態(tài)類(lèi)型網(wǎng)站
【功能介紹】向導模式
使用簡(jiǎn)單,通過(guò)鼠標點(diǎn)擊輕松自動(dòng)生成
定期運行的腳本
無(wú)需人工即可按計劃運行
原裝高速核心
自研瀏覽器內核速度快,遠超對手
智能識別
智能識別網(wǎng)頁(yè)中的列表和表單結構(多選框下拉列表等)
廣告攔截
自定義廣告攔截模塊,兼容AdblockPlus語(yǔ)法,可添加自定義規則
各種數據導出
優(yōu)采云采集器正式版支持Txt、Excel、MySQL、SQLServer、SQlite、Access、網(wǎng)站等。
【使用方法】第一步:輸入采集網(wǎng)址
打開(kāi)軟件,新建一個(gè)任務(wù),輸入需要采集的網(wǎng)站的地址。
第二步:智能分析,全過(guò)程自動(dòng)提取數據
進(jìn)入第二步后,優(yōu)采云采集器自動(dòng)智能分析網(wǎng)頁(yè),從中提取列表數據。
步驟 3:將數據導出到表、數據庫、網(wǎng)站 等。
運行任務(wù),將采集中的數據導出到Csv、Excel等各種數據庫,支持api導出。
【FAQ】Q:如何過(guò)濾列表中的前N個(gè)數據?
1.有時(shí)候我們需要對采集收到的列表進(jìn)行過(guò)濾,比如過(guò)濾掉第一組數據(在采集表中,過(guò)濾掉表列名)
2.點(diǎn)擊列表模式菜單設置列表xpath
Q:如何抓包獲取cookie并手動(dòng)設置?
1.首先用谷歌瀏覽器打開(kāi)網(wǎng)站為采集,登錄。
2. 然后按F12,會(huì )出現開(kāi)發(fā)者工具,選擇Network
3.然后按 F5 刷新下一頁(yè)并選擇其中一個(gè)請求。
4.復制完成后,在優(yōu)采云采集器中,編輯任務(wù),進(jìn)入第三步,指定HTTP Header。
【更新日志】1.增加插件功能
2.添加導出txt(一個(gè)文件保存為一個(gè)文件)
3.多值連接器支持換行
4.為數據處理修改了文本映射(支持查找和替換)
5.修復登錄時(shí)的 DNS 問(wèn)題
6.修復圖片下載問(wèn)題
7.修復一些json問(wèn)題
免規則采集器列表算法(兩個(gè)關(guān)聯(lián)規則分析()概念())
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 137 次瀏覽 ? 2022-02-06 00:07
相關(guān)分析
關(guān)聯(lián)分析是在大規模數據集中尋找有趣關(guān)系的任務(wù)。這種關(guān)系有兩種形式:
1.頻率項集(frequency item sets):一些經(jīng)常同時(shí)出現的元素的集合——使用支持度量
2.關(guān)聯(lián)規則:表示兩個(gè)元素之間有很強的關(guān)系——使用可信度度量
以下示例說(shuō)明了上述兩個(gè)概念:
表 1 簡(jiǎn)單交易列表
交易編號產(chǎn)品
0豆漿、生菜
1個(gè)生菜,尿布,酒,甜菜
2個(gè)生菜,尿布,酒,橙汁
3個(gè)生菜,豆漿,尿布,酒
4個(gè)生菜,豆漿,尿布,橙汁
頻繁項集是經(jīng)常一起出現的元素的集合。上表中的集合 {wine, diapers, soymilk} 是頻繁項集的一個(gè)例子。還可以找到像“diapers --> wine”這樣的關(guān)聯(lián)規則,這意味著(zhù)如果有人買(mǎi)了尿布,那么他很可能也買(mǎi)了酒。利用頻繁項集和關(guān)聯(lián)規則,商家可以更好地了解顧客的消費行為,因此關(guān)聯(lián)規則分析的例子大多來(lái)自零售行業(yè)。
要了解關(guān)聯(lián)分析,我們首先需要了解以下三個(gè)問(wèn)題:
1.如何定義這些有用的關(guān)系?
2.如何定義這些關(guān)系的強度?
3.頻繁的定義是什么?
要回答上述問(wèn)題,最重要的是理解兩個(gè)概念:支持和可信度。
支持度(用于頻繁項集量化):一個(gè)項集的支持度定義為數據集中收錄該項的記錄占總記錄的比例。從表1可以看出,項目集{soymilk}的支持度為4/5;5條交易記錄中有3條收錄{soymilk, diapers},所以{soymilk, diapers}的支持度為3/5.
可信度或置信度(用于關(guān)聯(lián)規則量化):為{diaper}-->{wine}等關(guān)聯(lián)規則定義,該規則的可信度定義為“support({diapers,wine})/support( {尿布})”。在表1中可以發(fā)現{diapers, wine}的支持度為3/5,{diapers}的支持度為4/5,所以關(guān)聯(lián)規則“diapers --> wine”的置信度是 3/4 = 0.75,這意味著(zhù)對于所有收錄“尿布”的記錄,關(guān)聯(lián)規則適用于 75% 的記錄。
先驗原理
假設我們經(jīng)營(yíng)一家雜貨店,所以我們對經(jīng)常一起購買(mǎi)的商品非常感興趣。假設我們只有 4 個(gè)項目:項目 0、項目 1、項目 2、項目 3. 那么如何獲得可以一起購買(mǎi)的項目組合?
上圖顯示了所有可能的項目組合。從上到下的下一個(gè)集合是?,它表示一個(gè)不收錄任何項目的空集合。項目集之間的線(xiàn)表示兩個(gè)或多個(gè)集可以組合成一個(gè)更大的集。采集。
我們的目標是找到經(jīng)常一起購買(mǎi)的物品的集合。這里使用集合的支持度來(lái)衡量它出現的頻率。對集合發(fā)生的支持是指收錄該集合的事務(wù)記錄的比例。比如上圖,計算{0,3}的支持度,直白的思路就是遍歷每條記錄,統計收錄0和3的記錄數,再除以總記錄數得到支持消費。這僅適用于單個(gè)集合 {0,3}。要獲得對每個(gè)可能集合的支持,需要多次重復上述過(guò)程。對于上圖,雖然只有4個(gè)item,但是需要遍歷數據15次。隨著(zhù)項目數量的增加,遍歷次數急劇增加。對于收錄 N 個(gè)項目的數據集,有
項集的組合。所以即使是一家只賣(mài) 100 件商品的商店也會(huì )有
可能的組合。計算量太大。
為了減少計算時(shí)間,研究人員發(fā)現了 Apriori 原理,它可以幫助我們減少感興趣的頻繁項集的數量。
Apriori 原理:如果一個(gè)項集是一個(gè)頻繁項集,那么它的所有子集也是頻繁的。也就是說(shuō),如果 {0,1} 是頻繁的,那么 {0}, {1} 也必須是頻繁的。
這個(gè)原理直觀(guān)上是沒(méi)用的,但反過(guò)來(lái)也有用,也就是說(shuō),如果一個(gè)項集是不頻繁的,那么它的所有超集也是不頻繁的。如下所示:
先驗算法
優(yōu)點(diǎn):易于編碼和實(shí)現
缺點(diǎn):在大型數據集上可能會(huì )更慢
適用數據類(lèi)型:數值或名義數據
Apriori算法的一般流程
采集數據:使用任何方法 準備數據:任何數據類(lèi)型都可以,因為我們只保存集 分析數據:使用任何方法 訓練算法:使用 Apriori 算法查找頻繁項集 測試算法:無(wú)測試過(guò)程 使用算法:用于發(fā)現頻繁項集和項之間的關(guān)聯(lián)規則使用 Apriori 算法發(fā)現頻繁項集
如上所述,關(guān)聯(lián)分析有兩個(gè)目標:發(fā)現頻繁項集和發(fā)現關(guān)聯(lián)規則。首先,我們需要找到頻繁項集,然后根據頻繁項集得到關(guān)聯(lián)規則。
Apriori 是一種發(fā)現頻繁項集的方法。
該算法首先為所有單個(gè)項目生成項目集列表;
然后掃描事務(wù)記錄,看看哪些項集滿(mǎn)足最低支持要求,那些不滿(mǎn)足最低支持的集合將被剔除;
然后,將剩余的集合組合起來(lái),生成一個(gè)收錄兩個(gè)元素的項集;
接下來(lái),重新掃描事務(wù)記錄以刪除不滿(mǎn)足最小支持的項集,并重復直到所有項集都被刪除。
數據集掃描的偽代碼:
對于數據集 tran 中的每條交易記錄:
對于每個(gè)候選項目集可以:
檢查 can 是否是 tran 的子集:
如果是,增加can的計數值
對于每個(gè)候選項目集:
如果它的支持度不低于最小值,保持它
返回所有頻繁項集的列表
代碼顯示如下:
def loadDataSet():
'''創(chuàng )建一個(gè)用于測試的簡(jiǎn)單的數據集'''
return [ [ 1, 3, 4 ], [ 2, 3, 5 ], [ 1, 2, 3, 5 ], [ 2, 5 ] ]
def createC1( dataSet ):
'''
構建初始候選項集的列表,即所有候選項集只包含一個(gè)元素,
C1是大小為1的所有候選項集的集合
'''
C1 = []
for transaction in dataSet:
for item in transaction:
if [ item ] not in C1:
C1.append( [ item ] )
C1.sort()
#原書(shū)python2環(huán)境代碼,return map( frozenset, C1 )
return list(map( frozenset, C1 ))
#數據集ck,包含候選集合的列表D,感興趣項集的最小支持度minSupport
def scanD( D, Ck, minSupport ):
'''
計算Ck中的項集在數據集合D(記錄或者transactions)中的支持度,
返回滿(mǎn)足最小支持度的項集的集合,和所有項集支持度信息的字典。
'''
ssCnt = {}
for tid in D:
print('tid=',tid)
# 對于每一條transaction
for can in Ck:
print('can=',can)
# 對于每一個(gè)候選項集can,檢查是否是transaction的一部分
# 即該候選can是否得到transaction的支持
if can.issubset( tid ):
ssCnt[ can ] = ssCnt.get( can, 0) + 1
numItems = float( len( D ) )
retList = []
supportData = {}
for key in ssCnt:
# 每個(gè)項集的支持度
support = ssCnt[ key ] / numItems
# 將滿(mǎn)足最小支持度的項集,加入retList
if support >= minSupport:
retList.insert( 0, key )
# 匯總支持度數據
supportData[ key ] = support
return retList, supportData
dataSet=loadDataSet()
print(dataSet)
C1=createC1(dataSet)
print(C1)
D=list(map(set,dataSet))
print('D=',D)
L1,suppData0=scanD(D,C1,0.5)
print('L1=',L1)
print('supData0=',suppData0)
運行結果:
D:\>python apriori.py
[[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5]]
[frozenset({1}), frozenset({2}), frozenset({3}), frozenset({4}), frozenset({5})]
D= [{1, 3, 4}, {2, 3, 5}, {1, 2, 3, 5}, {2, 5}]
tid= {1, 3, 4}
can= frozenset({1})
can= frozenset({2})
can= frozenset({3})
can= frozenset({4})
can= frozenset({5})
tid= {2, 3, 5}
can= frozenset({1})
can= frozenset({2})
can= frozenset({3})
can= frozenset({4})
can= frozenset({5})
tid= {1, 2, 3, 5}
can= frozenset({1})
can= frozenset({2})
can= frozenset({3})
can= frozenset({4})
can= frozenset({5})
tid= {2, 5}
can= frozenset({1})
can= frozenset({2})
can= frozenset({3})
can= frozenset({4})
can= frozenset({5})
L1= [frozenset({1}), frozenset({3}), frozenset({2}), frozenset({5})]
supData0= {frozenset({4}): 0.25, frozenset({5}): 0.75, frozenset({2}): 0.75, fro
zenset({3}): 0.75, frozenset({1}): 0.5}
分析如下:
組織完整的 Apriori 算法
假代碼:
當集合中的元素個(gè)數大于 0 時(shí):
構建收錄 k 個(gè)項目的候選集列表
檢查數據,確認每個(gè)項集都是頻繁項集
保留頻繁項集,構建由k+1項組成的候選項集列表
代碼顯示如下:
def aprioriGen( Lk, k ):
'''
由初始候選項集的集合Lk生成新的生成候選項集,
k表示生成的新項集中所含有的元素個(gè)數
'''
retList = []
lenLk = len( Lk )
for i in range( lenLk ):
for j in range( i + 1, lenLk ):
L1 = list( Lk[ i ] )[ : k - 2 ];
L2 = list( Lk[ j ] )[ : k - 2 ];
L1.sort();L2.sort()
if L1 == L2:
retList.append( Lk[ i ] | Lk[ j ] )
return retList
def apriori( dataSet, minSupport = 0.5 ):
# 構建初始候選項集C1
C1 = createC1( dataSet )
# 將dataSet集合化,以滿(mǎn)足scanD的格式要求
D = list(map( set, dataSet ))
# 構建初始的頻繁項集,即所有項集只有一個(gè)元素
L1, suppData = scanD( D, C1, minSupport )
L = [ L1 ]
# 最初的L1中的每個(gè)項集含有一個(gè)元素,新生成的項集應該含有2個(gè)元素,所以 k=2
k = 2
while ( len( L[ k - 2 ] ) > 0 ):
Ck = aprioriGen( L[ k - 2 ], k )
print('k=',k,'\n Ck=',Ck,'\n L[k-2]',L[k-2])
Lk, supK = scanD( D, Ck, minSupport )
# 將新的項集的支持度數據加入原來(lái)的總支持度字典中
suppData.update( supK )
# 將符合最小支持度要求的項集加入L
L.append( Lk )
# 新生成的項集中的元素個(gè)數應不斷增加
k += 1
# 返回所有滿(mǎn)足條件的頻繁項集的列表,和所有候選項集的支持度信息
return L, suppData
dataSet=loadDataSet()
L1,suppData0=apriori(dataSet,0.5)
##print(dataSet)
##C1=createC1(dataSet)
##print(C1)
##D=list(map(set,dataSet))
##print('D=',D)
##L1,suppData0=scanD(D,C1,0.5)
print('L1=',L1)
print('supData0=',suppData0)
結果:
D:\>python apriori.py
k= 2
Ck= [frozenset({1, 3}), frozenset({1, 2}), frozenset({1, 5}), frozenset({2, 3})
, frozenset({3, 5}), frozenset({2, 5})]
L[k-2] [frozenset({1}), frozenset({3}), frozenset({2}), frozenset({5})]
k= 3
Ck= [frozenset({2, 3, 5})]
L[k-2] [frozenset({3, 5}), frozenset({1, 3}), frozenset({2, 5}), frozenset({2,
3})]
k= 4
Ck= []
L[k-2] [frozenset({2, 3, 5})]
L1= [[frozenset({1}), frozenset({3}), frozenset({2}), frozenset({5})], [frozense
t({3, 5}), frozenset({1, 3}), frozenset({2, 5}), frozenset({2, 3})], [frozenset(
{2, 3, 5})], []]
supData0= {frozenset({5}): 0.75, frozenset({3}): 0.75, frozenset({2, 3, 5}): 0.5
, frozenset({1, 2}): 0.25, frozenset({1, 5}): 0.25, frozenset({3, 5}): 0.5, froz
enset({4}): 0.25, frozenset({2, 3}): 0.5, frozenset({2, 5}): 0.75, frozenset({1}
): 0.5, frozenset({1, 3}): 0.5, frozenset({2}): 0.75}
分析:
step1.Initial=2,調用aprioriGen生成候選項集Ck
step2.調用scanD根據Ck創(chuàng )建Lk,丟棄不滿(mǎn)足最小支持度要求的項集。
stpe3.Lk列表加入L,同時(shí)k遞增,重復上述過(guò)程
step4.Lk為空,函數返回L--頻繁列表和字典supportData-itemset的支持度并退出。
在運行結果中,
k=2時(shí),aprioriGen生成2個(gè)元素的6個(gè)候選項集列表
Ck= [frozenset({1, 3}),frozenset({1, 2}),frozenset({1, 5}),frozenset({2, 3})
,frozenset({3, 5}),frozenset({2, 5})]
然后通過(guò)scanD過(guò)濾掉2個(gè)不滿(mǎn)足最小支持度的集合,所以將下面4個(gè)元素加入到頻繁項集列表中
[frozenset({3, 5}),frozenset({1, 3}),frozenset({2, 5}),frozenset({2,3})]
當 k=3 時(shí),生成 1 元素候選集列表 Ck= [frozenset({2, 3, 5})]。注意:由于集合的第一個(gè)元素用于比較,因此只有集合 freezeset({2, 5})、frozenset({2,3})] 會(huì )被合并。
候選項集列表中的元素集支持度為0.5,滿(mǎn)足最小支持度,故加入頻繁項集列表。
K=4,CK=[]
程序返回一個(gè)頻繁項集(9 個(gè)元素)的列表,然后退出。
L1= [[frozenset({1}),frozenset({3}),frozenset({2}),frozenset({5})],[frozense
t({3, 5}),frozenset({1, 3}),frozenset({2, 5}),frozenset({2, 3})],[frozenset(
{2, 3, 5})], []] 查看全部
免規則采集器列表算法(兩個(gè)關(guān)聯(lián)規則分析()概念())
相關(guān)分析
關(guān)聯(lián)分析是在大規模數據集中尋找有趣關(guān)系的任務(wù)。這種關(guān)系有兩種形式:
1.頻率項集(frequency item sets):一些經(jīng)常同時(shí)出現的元素的集合——使用支持度量
2.關(guān)聯(lián)規則:表示兩個(gè)元素之間有很強的關(guān)系——使用可信度度量
以下示例說(shuō)明了上述兩個(gè)概念:
表 1 簡(jiǎn)單交易列表
交易編號產(chǎn)品
0豆漿、生菜
1個(gè)生菜,尿布,酒,甜菜
2個(gè)生菜,尿布,酒,橙汁
3個(gè)生菜,豆漿,尿布,酒
4個(gè)生菜,豆漿,尿布,橙汁
頻繁項集是經(jīng)常一起出現的元素的集合。上表中的集合 {wine, diapers, soymilk} 是頻繁項集的一個(gè)例子。還可以找到像“diapers --> wine”這樣的關(guān)聯(lián)規則,這意味著(zhù)如果有人買(mǎi)了尿布,那么他很可能也買(mǎi)了酒。利用頻繁項集和關(guān)聯(lián)規則,商家可以更好地了解顧客的消費行為,因此關(guān)聯(lián)規則分析的例子大多來(lái)自零售行業(yè)。
要了解關(guān)聯(lián)分析,我們首先需要了解以下三個(gè)問(wèn)題:
1.如何定義這些有用的關(guān)系?
2.如何定義這些關(guān)系的強度?
3.頻繁的定義是什么?
要回答上述問(wèn)題,最重要的是理解兩個(gè)概念:支持和可信度。
支持度(用于頻繁項集量化):一個(gè)項集的支持度定義為數據集中收錄該項的記錄占總記錄的比例。從表1可以看出,項目集{soymilk}的支持度為4/5;5條交易記錄中有3條收錄{soymilk, diapers},所以{soymilk, diapers}的支持度為3/5.
可信度或置信度(用于關(guān)聯(lián)規則量化):為{diaper}-->{wine}等關(guān)聯(lián)規則定義,該規則的可信度定義為“support({diapers,wine})/support( {尿布})”。在表1中可以發(fā)現{diapers, wine}的支持度為3/5,{diapers}的支持度為4/5,所以關(guān)聯(lián)規則“diapers --> wine”的置信度是 3/4 = 0.75,這意味著(zhù)對于所有收錄“尿布”的記錄,關(guān)聯(lián)規則適用于 75% 的記錄。
先驗原理
假設我們經(jīng)營(yíng)一家雜貨店,所以我們對經(jīng)常一起購買(mǎi)的商品非常感興趣。假設我們只有 4 個(gè)項目:項目 0、項目 1、項目 2、項目 3. 那么如何獲得可以一起購買(mǎi)的項目組合?

上圖顯示了所有可能的項目組合。從上到下的下一個(gè)集合是?,它表示一個(gè)不收錄任何項目的空集合。項目集之間的線(xiàn)表示兩個(gè)或多個(gè)集可以組合成一個(gè)更大的集。采集。
我們的目標是找到經(jīng)常一起購買(mǎi)的物品的集合。這里使用集合的支持度來(lái)衡量它出現的頻率。對集合發(fā)生的支持是指收錄該集合的事務(wù)記錄的比例。比如上圖,計算{0,3}的支持度,直白的思路就是遍歷每條記錄,統計收錄0和3的記錄數,再除以總記錄數得到支持消費。這僅適用于單個(gè)集合 {0,3}。要獲得對每個(gè)可能集合的支持,需要多次重復上述過(guò)程。對于上圖,雖然只有4個(gè)item,但是需要遍歷數據15次。隨著(zhù)項目數量的增加,遍歷次數急劇增加。對于收錄 N 個(gè)項目的數據集,有
項集的組合。所以即使是一家只賣(mài) 100 件商品的商店也會(huì )有
可能的組合。計算量太大。
為了減少計算時(shí)間,研究人員發(fā)現了 Apriori 原理,它可以幫助我們減少感興趣的頻繁項集的數量。
Apriori 原理:如果一個(gè)項集是一個(gè)頻繁項集,那么它的所有子集也是頻繁的。也就是說(shuō),如果 {0,1} 是頻繁的,那么 {0}, {1} 也必須是頻繁的。
這個(gè)原理直觀(guān)上是沒(méi)用的,但反過(guò)來(lái)也有用,也就是說(shuō),如果一個(gè)項集是不頻繁的,那么它的所有超集也是不頻繁的。如下所示:

先驗算法
優(yōu)點(diǎn):易于編碼和實(shí)現
缺點(diǎn):在大型數據集上可能會(huì )更慢
適用數據類(lèi)型:數值或名義數據
Apriori算法的一般流程
采集數據:使用任何方法 準備數據:任何數據類(lèi)型都可以,因為我們只保存集 分析數據:使用任何方法 訓練算法:使用 Apriori 算法查找頻繁項集 測試算法:無(wú)測試過(guò)程 使用算法:用于發(fā)現頻繁項集和項之間的關(guān)聯(lián)規則使用 Apriori 算法發(fā)現頻繁項集
如上所述,關(guān)聯(lián)分析有兩個(gè)目標:發(fā)現頻繁項集和發(fā)現關(guān)聯(lián)規則。首先,我們需要找到頻繁項集,然后根據頻繁項集得到關(guān)聯(lián)規則。
Apriori 是一種發(fā)現頻繁項集的方法。
該算法首先為所有單個(gè)項目生成項目集列表;
然后掃描事務(wù)記錄,看看哪些項集滿(mǎn)足最低支持要求,那些不滿(mǎn)足最低支持的集合將被剔除;
然后,將剩余的集合組合起來(lái),生成一個(gè)收錄兩個(gè)元素的項集;
接下來(lái),重新掃描事務(wù)記錄以刪除不滿(mǎn)足最小支持的項集,并重復直到所有項集都被刪除。
數據集掃描的偽代碼:
對于數據集 tran 中的每條交易記錄:
對于每個(gè)候選項目集可以:
檢查 can 是否是 tran 的子集:
如果是,增加can的計數值
對于每個(gè)候選項目集:
如果它的支持度不低于最小值,保持它
返回所有頻繁項集的列表
代碼顯示如下:
def loadDataSet():
'''創(chuàng )建一個(gè)用于測試的簡(jiǎn)單的數據集'''
return [ [ 1, 3, 4 ], [ 2, 3, 5 ], [ 1, 2, 3, 5 ], [ 2, 5 ] ]
def createC1( dataSet ):
'''
構建初始候選項集的列表,即所有候選項集只包含一個(gè)元素,
C1是大小為1的所有候選項集的集合
'''
C1 = []
for transaction in dataSet:
for item in transaction:
if [ item ] not in C1:
C1.append( [ item ] )
C1.sort()
#原書(shū)python2環(huán)境代碼,return map( frozenset, C1 )
return list(map( frozenset, C1 ))
#數據集ck,包含候選集合的列表D,感興趣項集的最小支持度minSupport
def scanD( D, Ck, minSupport ):
'''
計算Ck中的項集在數據集合D(記錄或者transactions)中的支持度,
返回滿(mǎn)足最小支持度的項集的集合,和所有項集支持度信息的字典。
'''
ssCnt = {}
for tid in D:
print('tid=',tid)
# 對于每一條transaction
for can in Ck:
print('can=',can)
# 對于每一個(gè)候選項集can,檢查是否是transaction的一部分
# 即該候選can是否得到transaction的支持
if can.issubset( tid ):
ssCnt[ can ] = ssCnt.get( can, 0) + 1
numItems = float( len( D ) )
retList = []
supportData = {}
for key in ssCnt:
# 每個(gè)項集的支持度
support = ssCnt[ key ] / numItems
# 將滿(mǎn)足最小支持度的項集,加入retList
if support >= minSupport:
retList.insert( 0, key )
# 匯總支持度數據
supportData[ key ] = support
return retList, supportData
dataSet=loadDataSet()
print(dataSet)
C1=createC1(dataSet)
print(C1)
D=list(map(set,dataSet))
print('D=',D)
L1,suppData0=scanD(D,C1,0.5)
print('L1=',L1)
print('supData0=',suppData0)
運行結果:
D:\>python apriori.py
[[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5]]
[frozenset({1}), frozenset({2}), frozenset({3}), frozenset({4}), frozenset({5})]
D= [{1, 3, 4}, {2, 3, 5}, {1, 2, 3, 5}, {2, 5}]
tid= {1, 3, 4}
can= frozenset({1})
can= frozenset({2})
can= frozenset({3})
can= frozenset({4})
can= frozenset({5})
tid= {2, 3, 5}
can= frozenset({1})
can= frozenset({2})
can= frozenset({3})
can= frozenset({4})
can= frozenset({5})
tid= {1, 2, 3, 5}
can= frozenset({1})
can= frozenset({2})
can= frozenset({3})
can= frozenset({4})
can= frozenset({5})
tid= {2, 5}
can= frozenset({1})
can= frozenset({2})
can= frozenset({3})
can= frozenset({4})
can= frozenset({5})
L1= [frozenset({1}), frozenset({3}), frozenset({2}), frozenset({5})]
supData0= {frozenset({4}): 0.25, frozenset({5}): 0.75, frozenset({2}): 0.75, fro
zenset({3}): 0.75, frozenset({1}): 0.5}
分析如下:
組織完整的 Apriori 算法
假代碼:
當集合中的元素個(gè)數大于 0 時(shí):
構建收錄 k 個(gè)項目的候選集列表
檢查數據,確認每個(gè)項集都是頻繁項集
保留頻繁項集,構建由k+1項組成的候選項集列表
代碼顯示如下:
def aprioriGen( Lk, k ):
'''
由初始候選項集的集合Lk生成新的生成候選項集,
k表示生成的新項集中所含有的元素個(gè)數
'''
retList = []
lenLk = len( Lk )
for i in range( lenLk ):
for j in range( i + 1, lenLk ):
L1 = list( Lk[ i ] )[ : k - 2 ];
L2 = list( Lk[ j ] )[ : k - 2 ];
L1.sort();L2.sort()
if L1 == L2:
retList.append( Lk[ i ] | Lk[ j ] )
return retList
def apriori( dataSet, minSupport = 0.5 ):
# 構建初始候選項集C1
C1 = createC1( dataSet )
# 將dataSet集合化,以滿(mǎn)足scanD的格式要求
D = list(map( set, dataSet ))
# 構建初始的頻繁項集,即所有項集只有一個(gè)元素
L1, suppData = scanD( D, C1, minSupport )
L = [ L1 ]
# 最初的L1中的每個(gè)項集含有一個(gè)元素,新生成的項集應該含有2個(gè)元素,所以 k=2
k = 2
while ( len( L[ k - 2 ] ) > 0 ):
Ck = aprioriGen( L[ k - 2 ], k )
print('k=',k,'\n Ck=',Ck,'\n L[k-2]',L[k-2])
Lk, supK = scanD( D, Ck, minSupport )
# 將新的項集的支持度數據加入原來(lái)的總支持度字典中
suppData.update( supK )
# 將符合最小支持度要求的項集加入L
L.append( Lk )
# 新生成的項集中的元素個(gè)數應不斷增加
k += 1
# 返回所有滿(mǎn)足條件的頻繁項集的列表,和所有候選項集的支持度信息
return L, suppData
dataSet=loadDataSet()
L1,suppData0=apriori(dataSet,0.5)
##print(dataSet)
##C1=createC1(dataSet)
##print(C1)
##D=list(map(set,dataSet))
##print('D=',D)
##L1,suppData0=scanD(D,C1,0.5)
print('L1=',L1)
print('supData0=',suppData0)
結果:
D:\>python apriori.py
k= 2
Ck= [frozenset({1, 3}), frozenset({1, 2}), frozenset({1, 5}), frozenset({2, 3})
, frozenset({3, 5}), frozenset({2, 5})]
L[k-2] [frozenset({1}), frozenset({3}), frozenset({2}), frozenset({5})]
k= 3
Ck= [frozenset({2, 3, 5})]
L[k-2] [frozenset({3, 5}), frozenset({1, 3}), frozenset({2, 5}), frozenset({2,
3})]
k= 4
Ck= []
L[k-2] [frozenset({2, 3, 5})]
L1= [[frozenset({1}), frozenset({3}), frozenset({2}), frozenset({5})], [frozense
t({3, 5}), frozenset({1, 3}), frozenset({2, 5}), frozenset({2, 3})], [frozenset(
{2, 3, 5})], []]
supData0= {frozenset({5}): 0.75, frozenset({3}): 0.75, frozenset({2, 3, 5}): 0.5
, frozenset({1, 2}): 0.25, frozenset({1, 5}): 0.25, frozenset({3, 5}): 0.5, froz
enset({4}): 0.25, frozenset({2, 3}): 0.5, frozenset({2, 5}): 0.75, frozenset({1}
): 0.5, frozenset({1, 3}): 0.5, frozenset({2}): 0.75}
分析:
step1.Initial=2,調用aprioriGen生成候選項集Ck
step2.調用scanD根據Ck創(chuàng )建Lk,丟棄不滿(mǎn)足最小支持度要求的項集。
stpe3.Lk列表加入L,同時(shí)k遞增,重復上述過(guò)程
step4.Lk為空,函數返回L--頻繁列表和字典supportData-itemset的支持度并退出。
在運行結果中,
k=2時(shí),aprioriGen生成2個(gè)元素的6個(gè)候選項集列表
Ck= [frozenset({1, 3}),frozenset({1, 2}),frozenset({1, 5}),frozenset({2, 3})
,frozenset({3, 5}),frozenset({2, 5})]
然后通過(guò)scanD過(guò)濾掉2個(gè)不滿(mǎn)足最小支持度的集合,所以將下面4個(gè)元素加入到頻繁項集列表中
[frozenset({3, 5}),frozenset({1, 3}),frozenset({2, 5}),frozenset({2,3})]
當 k=3 時(shí),生成 1 元素候選集列表 Ck= [frozenset({2, 3, 5})]。注意:由于集合的第一個(gè)元素用于比較,因此只有集合 freezeset({2, 5})、frozenset({2,3})] 會(huì )被合并。
候選項集列表中的元素集支持度為0.5,滿(mǎn)足最小支持度,故加入頻繁項集列表。
K=4,CK=[]
程序返回一個(gè)頻繁項集(9 個(gè)元素)的列表,然后退出。
L1= [[frozenset({1}),frozenset({3}),frozenset({2}),frozenset({5})],[frozense
t({3, 5}),frozenset({1, 3}),frozenset({2, 5}),frozenset({2, 3})],[frozenset(
{2, 3, 5})], []]
免規則采集器列表算法(深度學(xué)習遵從大數定律,數據越多,規律性越能掌控。)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 138 次瀏覽 ? 2022-02-04 18:33
深度學(xué)習遵循大數定律。數據越多,規律越可控。
1、細粒度分類(lèi)
比如我去車(chē)架、車(chē)頭燈、車(chē)前臉、車(chē)輪轂等等,然后用cnn或者deep cnn之類(lèi)的分類(lèi)器來(lái)做這些分類(lèi),為分類(lèi)器,輸入的是車(chē)頭燈+車(chē)前臉+車(chē)輪,不是全圖。然后分類(lèi)器從前照燈前臉等中提取高級特征,得到分類(lèi)模型。
在fine-tuning的過(guò)程中會(huì )有一個(gè)問(wèn)題,就是用來(lái)區分未知信息圖片的,最好加框。
對于本地圖像,我們像這樣提取它們:
2、級聯(lián)方法
1、粗粒度 - 圖像清理。整體識別0/1,無(wú)論是汽車(chē)、數據篩選、清理垃圾層,力求準確率達到98%以上,甚至更高,每個(gè)分類(lèi)取2w張左右;
2、中等粒度 - 品牌分類(lèi)器。不細分品牌下的子品牌,比如康師傅牛肉面,也不細分很多口味比如康師傅辣、咸等,太細了,你的數據量不夠。即使你花很長(cháng)時(shí)間仔細標記,也得不償失。
3、細粒度 - 車(chē)輛類(lèi)型分類(lèi)器。區分每個(gè)品牌的不同模型分類(lèi)器,更簡(jiǎn)單,更準確。還可以訓練更多細節,內飾、做工、配色等。
這樣,你會(huì )得到0.98*0.96*0.94~0.88的識別率,但是準確率會(huì )變得可調,當粗略-粒度識別哪些要被拒絕,提高概率標準,可以提高整體識別率。
3、數據增強
Opencv首先做一些圖像變換,比如光處理、去噪等,會(huì )提高復雜環(huán)境下圖像的識別準確率。
此外,可以改變光照強度以進(jìn)行訓練
.
二、深度學(xué)習在美團點(diǎn)評中的應用1、圖像質(zhì)量評估
在美團點(diǎn)評中,商家的第一張圖片由商家或運營(yíng)商手動(dòng)指定。如何選擇第一張圖片才能更好地吸引用戶(hù)?圖像質(zhì)量排名算法的目標是自動(dòng)選擇更好的第一張圖像來(lái)吸引用戶(hù)點(diǎn)擊。
傳統的畫(huà)質(zhì)排名方式主要是從審美的角度來(lái)評價(jià)畫(huà)質(zhì),通過(guò)色彩統計、主題分布、構圖等分析畫(huà)面的美感。但在實(shí)際業(yè)務(wù)場(chǎng)景中,用戶(hù)對畫(huà)面質(zhì)量的判斷主觀(guān)性很強,很難形成統一的評價(jià)標準。例如:
因此,我們使用深度學(xué)習的方法來(lái)探索圖像的哪些屬性會(huì )影響用戶(hù)的判斷,以及如何有效地整合這些屬性來(lái)評估圖像。
我們使用 AlexNet 提取圖像的高級語(yǔ)義描述,學(xué)習美學(xué)、可記憶性、吸引力和類(lèi)別等高級特征,并補充人工設計的低級特征(如顏色、銳度、對比度和角點(diǎn))。獲得這些特征后,訓練一個(gè)淺層神經(jīng)網(wǎng)絡(luò )對整個(gè)圖像進(jìn)行評分。該框架的一個(gè)特點(diǎn)(如圖 2 所示)是深度學(xué)習特征和傳統特征的結合,既引入了高級語(yǔ)義,又保留了低級一般描述,包括全局和局部特征。
對于圖像各維度屬性的學(xué)習,需要大量的標簽數據來(lái)支持,但是完全人工標注成本非常高,所以我們借鑒了美團點(diǎn)評的圖像源和POI標簽系統。關(guān)于吸引力屬性的研究,我們選取??美團Deal相冊中點(diǎn)擊率高的圖片(多為單反相機拍攝)作為正例,選擇UGC相冊中點(diǎn)擊率低的圖片(主要是低端手機)。射擊)作為一個(gè)反面例子。關(guān)于類(lèi)別屬性的學(xué)習,我們使用美團的一級類(lèi)別和常見(jiàn)的二級類(lèi)別作為圖像標簽?;谝陨腺|(zhì)量排名模型,我們選擇最適合廣告POI的高質(zhì)量首圖展示,可以吸引用戶(hù)點(diǎn)擊,提高業(yè)務(wù)指標。圖 3 顯示了基于質(zhì)量排名的第一個(gè)圖像偏好的結果。
2、OCR 技術(shù)
OCR在美團點(diǎn)評業(yè)務(wù)中主要扮演兩個(gè)角色。一方面是輔助輸入。例如,在移動(dòng)支付過(guò)程中,對銀行卡號進(jìn)行拍照識別,實(shí)現自動(dòng)綁定卡。另一個(gè)例子是輔助BD輸入菜單信息。另一方面是審查和驗證。例如,在商戶(hù)資質(zhì)審核過(guò)程中,從商戶(hù)上傳的身份證、營(yíng)業(yè)執照、餐飲許可證等文件中提取信息并進(jìn)行驗證,確保商戶(hù)的合法性。例如,機器過(guò)濾商家的訂單和用戶(hù)評價(jià)過(guò)程中產(chǎn)生的含有違禁詞的圖片。與傳統 OCR 場(chǎng)景(打印、掃描文檔)相比,美團’ s OCR場(chǎng)景主要針對手機拍攝的照片的文字信息提取和識別??紤]到線(xiàn)下用戶(hù)的多樣性,主要面臨以下挑戰:
針對上述挑戰,傳統的OCR解決方案存在以下不足:
針對傳統OCR方案的不足,我們嘗試了基于深度學(xué)習的OCR。
首先,我們根據是否有先驗信息,將布局分為可控場(chǎng)景(如身份證、營(yíng)業(yè)執照、銀行卡)和非可控場(chǎng)景(如菜單、門(mén)圖片)。
對于受控場(chǎng)景,我們將文本本地化轉換為特定關(guān)鍵字目標的檢測問(wèn)題。主要使用Faster R-CNN進(jìn)行檢測,如下圖所示。為了保證回歸框的定位精度,提高運算速度,我們對原有的框架和訓練方法進(jìn)行了微調:
? 考慮到關(guān)鍵字目標的類(lèi)內變化有限,我們對 ZF 模型的網(wǎng)絡(luò )結構進(jìn)行了裁剪,將 5 層卷積減少到 3 層。
?在訓練過(guò)程中,提高正樣本重疊率的閾值,根據業(yè)務(wù)需求適配RPN層Anchor的縱橫比。
對于不受控制的場(chǎng)景,由于文本方向和筆畫(huà)寬度的任意變化,導致回歸框在目標檢測中的定位粒度不夠。我們使用語(yǔ)義分割中常用的全卷積網(wǎng)絡(luò )(FCN)來(lái)進(jìn)行像素級的文本/背景標注,如下圖所示。為了同時(shí)保證定位的準確性和語(yǔ)義的清晰,我們不僅在最后一層進(jìn)行反卷積,還融合了深淺層的反卷積結果。
為了有效控制字符分割和識別后處理的錯誤傳播效果,實(shí)現端到端文本識別的可訓練性,我們采用下圖所示的序列學(xué)習框架。整體框架分為三層:卷積層、循環(huán)層和翻譯層。其中,卷積層提取特征,遞歸層不僅學(xué)習特征序列中字符特征的序列關(guān)系,還學(xué)習字符的序列關(guān)系,翻譯層實(shí)現時(shí)間序列分類(lèi)結果的解碼。
由于序列學(xué)習框架對訓練樣本的數量和分布有很高的要求,我們采用真實(shí)樣本+合成樣本的方法。真實(shí)樣本主要基于美團點(diǎn)評的業(yè)務(wù)來(lái)源(如菜單、身份證、營(yíng)業(yè)執照),合成樣本考慮了字體、變形、模糊、噪點(diǎn)、背景等因素?;谏鲜鲂蛄袑W(xué)習框架和訓練數據,文本識別在各種場(chǎng)景下的性能都有了很大的提升,如下圖所示。
.
三、 1、快速去重圖片
攜程酒店圖片數據來(lái)源較多,同一酒店出現相同/相似圖片的概率較高。圖片的重復展示會(huì )影響用戶(hù)的體驗,不利于用戶(hù)獲取酒店的完整信息。酒店圖像之間的相同/相似主要表現在1)維度變形;2) 裁剪不完整;3) 顏色變化;4) 旋轉變化;5) 拍攝角度 移動(dòng)等情況,如下圖。
為了解決酒店圖像之間的相同/相似問(wèn)題,需要對酒店的圖像數據進(jìn)行去重。然而,由于鏡像數量巨大,手動(dòng)去重既費時(shí)又費力。因此,通過(guò)圖像去重技術(shù)自動(dòng)確定并去除相同/相似圖像勢在必行。
圖像去重一般分為
1)圖像特征表達的提取和2)圖像之間的相似度計算是兩個(gè)主要步驟。
對于圖像特征表示的提取,常用的手工設計特征有顏色、紋理、HOG、SIFT、SURF等。此外,基于深度學(xué)習的深度特征表示也經(jīng)常使用。對于圖像間的相似度計算,常用的無(wú)監督距離測量方法有歐幾里得距離、曼哈頓距離、余弦距離;常見(jiàn)的有監督距離測量方法包括 LMNN、KISSME、LFDA 和 MFA。但是,這些方法都是基于浮點(diǎn)特征計算相似度,計算速度普遍較慢。因此,采用哈希學(xué)習的方法將圖像特征轉化為二進(jìn)制碼,然后通過(guò)漢明距離快速計算相似度,更符合圖像數據行業(yè)。處理速度要求。
對于酒店中相同/相似的圖像,大部分全局特征(如顏色、紋理、HOG)不能很好地解決圖像裁剪和旋轉變化的問(wèn)題;一些局部特征(如SIFT和SURF)和基于深度學(xué)習的特征雖然表達效果不錯,但由于特征提取復雜,計算速度太慢。
針對上述特征提取方法的不足,我們最終使用ORB特征作為圖像的特征表達,使用漢明距離計算相似度。
ORB 特性具有以下優(yōu)點(diǎn):
1)快速特征提??;
2)大部分情況下,去重效果可以等同于SIFT/SURF;
3)提取的特征直接采用二進(jìn)制編碼的形式,可以不用哈希學(xué)習的方法,用漢明距離快速計算相似度。
ORB特性在實(shí)際的圖像去重過(guò)程中還是有一些不足的地方。比如在處理圖像尺寸差異過(guò)大、變形、模糊等問(wèn)題時(shí),去重效果一般。
為此,在提取ORB特征之前,我們首先將圖像按照初始縱橫比統一縮放到一個(gè)固定的標準尺寸,這樣就避免了圖像之間的尺寸差異,更好地彌補了ORB特征在尺度不變性上的不足。缺陷。
同時(shí),在面對圖像變形和模糊問(wèn)題時(shí),我們在ORB特征的基礎上,進(jìn)一步融合顏色直方圖、LBP特征等全局特征確定重復圖像,使圖像局部和全局信息的優(yōu)勢得到體現。補充。減少了變形、模糊等因素對ORB特征的影響,保證了圖像去重的準確性。
.
2、水印圖像檢測
攜程的酒店圖片數據來(lái)源多樣,這也導致了另一個(gè)嚴重的問(wèn)題:帶有其他公司水印信息的圖片數量增加。人工檢測水印圖片會(huì )耗費大量人力,因此我們希望利用計算機自動(dòng)檢測圖片中是否收錄水印信息,避免誤用和侵權。
圖像中水印信息的視覺(jué)意義很低,具有面積小、顏色淺、透明度高的特點(diǎn)。下面顯示了帶有水印的酒店圖像的一些示例。
一般的目標檢測問(wèn)題可以看成是圖像的一部分的分類(lèi)問(wèn)題。在深度學(xué)習興起之前,可變形零件模型(DPM)一直是一種流行的目標檢測方法。隨著(zhù)深度學(xué)習技術(shù)的發(fā)展,以R-CNN、Fast R-CNN、Faster R-CNN和YOLO為代表的一系列基于卷積神經(jīng)網(wǎng)絡(luò )的目標檢測方法已成為主流。但水印檢測與一般目標檢測的區別在于水印在圖像中的位置基本固定,所以水印檢測可以看作是一個(gè)簡(jiǎn)化的目標檢測問(wèn)題,關(guān)鍵是訓練一個(gè)水印分類(lèi)器。
在訓練一個(gè)水印分類(lèi)器的過(guò)程中,我們遇到的最大問(wèn)題是沒(méi)有足夠的帶水印類(lèi)別的圖像數據進(jìn)行訓練。為了解決這個(gè)問(wèn)題,我們選擇自主生成訓練數據。具體來(lái)說(shuō),我們從大量無(wú)水印圖像中隨機截取幾張矩形區域圖像,并將這些矩形區域圖像作為無(wú)水印的訓練圖像數據;同時(shí),我們隨機縮放要檢測的水印信息圖形,并嵌入這些不收錄水印信息的圖像。在矩形圖像內部,從而形成帶水印的訓練圖像數據。通過(guò)這種方式,我們可以方便快捷地獲得大量的圖像訓練數據。
在自主生成大量訓練數據后,我們專(zhuān)門(mén)針對水印分類(lèi)任務(wù)訓練了一個(gè) AlexNet。對于待檢測的圖像,我們使用可變幀在水印的常見(jiàn)位置(圖像的左右下角和中間位置)處隨機截取一系列矩形區域圖像,然后將它們輸入到分類(lèi)中網(wǎng)絡(luò )依次進(jìn)行分類(lèi),最后融合所有矩形區域圖像??梢缘玫剿D像的分類(lèi)結果。完整的水印圖像檢測過(guò)程如上圖所示。
我們使用計算機自動(dòng)進(jìn)行快速去重和水印圖像檢測,兩者都達到了99%+的準確率,在實(shí)際圖像處理中有效減少了大量的人工成本。
3、房間類(lèi)型圖片分類(lèi)
酒店圖像可以根據內容分為許多類(lèi)別,例如外部、內部和房間類(lèi)型。其中,房型圖片可以直觀(guān)的展示房型信息,對于用戶(hù)選擇入住的房型尤為關(guān)鍵。我們要優(yōu)先展示吸引用戶(hù)的房型內容,提升用戶(hù)體驗和訂單率。但在實(shí)際應用中,房型圖片往往收錄大量?jì)热?,并沒(méi)有逐一進(jìn)行人工篩選,所以經(jīng)常出現房型第一張圖片不合適的情況。解決房型首圖不合適問(wèn)題的關(guān)鍵在于對房型圖片進(jìn)行分類(lèi),以便優(yōu)先展示吸引用戶(hù)的內容。具體來(lái)說(shuō),
隨著(zhù)深度學(xué)習技術(shù)的出現,尤其是卷積神經(jīng)網(wǎng)絡(luò )的興起,一個(gè)理想的房間類(lèi)型圖像分類(lèi)方法一般分為兩個(gè)步驟:1)使用大量帶標簽的房間類(lèi)型圖像數據,直接訓練一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò ),如AlexNet、VGGNet、ResNet或基于Inception的一系列網(wǎng)絡(luò )等;2)對于未知類(lèi)別的房間類(lèi)型圖像,將其輸入到深度卷積神經(jīng)網(wǎng)絡(luò )中,網(wǎng)絡(luò )的最后一層直接輸出它屬于每個(gè)類(lèi)別的概率。
與水印圖像檢測一樣,在實(shí)際實(shí)踐過(guò)程中,我們遇到的最大問(wèn)題仍然是缺乏用于訓練的類(lèi)別標記的房間圖像數據。人工標注大量訓練圖像顯然是不現實(shí)的。不訓練圖像就得到分類(lèi)模型更不現實(shí)。所以我們還是花了一些時(shí)間對少數房間類(lèi)型圖像的類(lèi)別進(jìn)行標注。在這個(gè)小尺度房間圖像數據集的基礎上,一般有兩種分類(lèi)思路:1)由于房間圖像屬于場(chǎng)景圖像,可以提取房間圖像的HOG、SIFT和GIST特征。這些手工設計的Feature已經(jīng)被證明在場(chǎng)景分類(lèi)中更有效,然后訓練傳統的分類(lèi)器實(shí)現分類(lèi);2) 利用深度卷積神經(jīng)網(wǎng)絡(luò )強大的特征遷移學(xué)習能力,首先利用海量圖像數據訓練一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò ),然后將該網(wǎng)絡(luò )作為特征提取模型,與傳統分類(lèi)器相結合,實(shí)現分類(lèi)。當然,如果有更多的人力和時(shí)間,當有很多標記的房間類(lèi)型圖像數據時(shí),直接微調網(wǎng)絡(luò )是更好的選擇。
在實(shí)際應用中,我們選擇第二種思路。我們沒(méi)有使用使用最廣泛的 ImageNet 數據集,因為該數據集中的圖像內容與房間類(lèi)型圖像差異太大,特征轉移無(wú)法達到最佳效果。為了盡可能提高網(wǎng)絡(luò )的特征轉移能力,我們使用最接近房間圖像的場(chǎng)景圖像數據集來(lái)訓練VGGNet作為房間圖像特征提取器。最后,我們使用我們自己的帶注釋的小規模房屋類(lèi)型圖像數據集來(lái)訓練支持向量機模型來(lái)實(shí)現分類(lèi)。具體分類(lèi)流程如下圖所示。
在我們的房間類(lèi)型圖像分類(lèi)上線(xiàn)后,它達到了 98% 的準確率。下圖為某酒店多房型圖片分類(lèi)上線(xiàn)前后第一張圖片的變化示例(紅框為上線(xiàn)前,綠框為上線(xiàn)后)。
4、圖像質(zhì)量評估
在上一節中,我們通過(guò)房間類(lèi)型圖像分類(lèi)介紹了帶有床的房間類(lèi)型圖像的優(yōu)先級。但是,如果一個(gè)房型有多個(gè)帶床的圖像,我應該選擇哪個(gè)圖像作為該房型的第一個(gè)圖像?因此,我們希望能夠對房型圖像的質(zhì)量進(jìn)行評估,這樣當圖像的類(lèi)別相同時(shí),可以按照質(zhì)量進(jìn)行排序。更廣泛地說(shuō),我們也希望對所有的酒店圖片進(jìn)行質(zhì)量評估,這樣就可以根據圖片的質(zhì)量得分來(lái)選擇酒店的第一張圖片、酒店圖片的首選展示等。
首先,我們選擇了客觀(guān)的清晰度指標作為圖像質(zhì)量評價(jià)的標準。我們認為,清晰圖像變得模糊時(shí)丟失的信息比模糊圖像變得模糊時(shí)丟失的信息要多。按照這個(gè)思路,對于一張圖像,我們先對它進(jìn)行灰度化,然后得到對應的模糊圖像。接下來(lái),我們分別從原創(chuàng )圖像和對應的模糊圖像中提取圖像邊緣信息,并使用拉普拉斯卷積模板進(jìn)行濾波。最后,我們可以通過(guò)比較兩個(gè)濾波圖像的方差變化率來(lái)量化圖像的清晰度。
完整的計算過(guò)程如下圖所示。圖像的清晰度分數范圍在[0, 1]之間,分數越大,圖像越清晰。我們對圖像的清晰度分數進(jìn)行分割驗證,圖像清晰度的評估準確率達到91%。
但在實(shí)際應用中,我們發(fā)現僅以銳度作為圖像質(zhì)量評價(jià)的標準還存在一些不足,因為銳度高但內容難看的圖像也不少。這些圖像首先顯示是因為它們的清晰度很高,但其難看的內容影響了用戶(hù)的體驗,因此我們希望從審美的角度進(jìn)一步評估圖像質(zhì)量。
圖像的美是一個(gè)非常主觀(guān)的概念,很難有一個(gè)統一的標準來(lái)量化它。為了盡可能準確地計算圖像的美感,我們選擇了深度卷積神經(jīng)網(wǎng)絡(luò )模型來(lái)實(shí)現美感評估。在實(shí)踐中,我們再次遇到同樣的問(wèn)題:缺乏大量帶有好/壞標簽的訓練圖像。由于利用卷積神經(jīng)網(wǎng)絡(luò )強大的遷移學(xué)習能力在房間類(lèi)型圖像分類(lèi)中特征遷移的成功,我們決定繼續使用這種方法。
由于酒店圖像的美感受內容、顏色和構圖的影響,我們不再像房間類(lèi)型圖像分類(lèi)那樣使用單一內容的場(chǎng)景圖像數據集,而是使用包羅萬(wàn)象的 ImageNet 數據集和場(chǎng)景圖像。將數據集混合進(jìn)行訓練,我們力求讓盡可能多的圖像參與到深度卷積神經(jīng)網(wǎng)絡(luò )的學(xué)習中,使網(wǎng)絡(luò )能夠記住更多圖像的內容,從而進(jìn)一步提高圖像的特征遷移能力。網(wǎng)絡(luò )。同時(shí),為了保證深度卷積神經(jīng)網(wǎng)絡(luò )的特征表達能力,我們采用比 AlexNet 和 VGGNet 層數更深的 ResNet 作為特征提取器。最后,我們用好看/不好看的標簽標記少量圖像,
我們將圖像被模型判斷為好看的概率作為圖像的美感分數。美女評分的范圍在 [0, 1] 之間。如果分數越大,則表示圖像越漂亮。由于審美評價(jià)模型沒(méi)有考慮銳度因素,我們最終將圖像的銳度和美感融合起來(lái)計算圖像質(zhì)量得分。完整的圖像質(zhì)量評估流程如下圖所示。通過(guò)圖像質(zhì)量評估,使清晰、美觀(guān)的圖像優(yōu)先顯示,對酒店/房型第一圖像的選擇和酒店圖像的排序具有很好的指導意義。
寫(xiě)在最后
上面我們介紹了攜程的四個(gè)真實(shí)圖像數據處理需求,但機器學(xué)習對于攜程酒店圖像數據處理的價(jià)值遠不止于此。接下來(lái),我們將繼續深入挖掘多個(gè)圖像應用場(chǎng)景,例如圖像的個(gè)性化展示、利用超分辨率和去模糊技術(shù)提升圖像質(zhì)量等,努力為攜程酒店圖像的智能化貢獻力量。數據。
.
四、
陳瑞軍告訴雷鋒網(wǎng):
第一個(gè)考慮是做人臉識別,但是發(fā)現動(dòng)態(tài)人臉識別的準確率不夠,直到現在一直是一個(gè)需要解決的問(wèn)題。對于神清來(lái)說(shuō),作為一家初創(chuàng )的新公司,這個(gè)方向可能暫時(shí)還不能落地,所以想做別人沒(méi)做過(guò)的事情,結合用戶(hù)的需求,所以“車(chē)臉”的方向識別”設置。
此后,從最基本的圖片識別開(kāi)始,到視頻識別,再到視頻中的車(chē)輛分析,直至今天,已經(jīng)形成了以“車(chē)輛識別”為核心的軟硬件產(chǎn)品布局??偟膩?lái)說(shuō),神清科技的產(chǎn)品體系主要包括以下幾個(gè)方面:
視頻基因分析引擎
視頻基因譜引擎是神清的核心產(chǎn)品,俗稱(chēng)“視頻結構”。在沈清看來(lái),“視頻結構化”的概念應該是公安部第三研究所胡所長(cháng)提出的,指的是把視頻數據中的非結構化信息轉化為結構化信息。神清的視頻結構化產(chǎn)品可以高精度地自動(dòng)識別不同視角、不同光照條件、不同監控場(chǎng)景、不同天氣條件下的人車(chē)特征,方便公安機關(guān)達到快速檢索和查詢(xún)的目的。后期控制。
圖像處理引擎
神茂科技的圖像處理引擎主要用于在復雜情況下清除模糊的車(chē)輛和車(chē)牌圖片。等待。
人臉識別引擎
基于深度學(xué)習和模式識別的研究和應用成果,采用人臉檢測、跟蹤和結構化比較算法模型,應用于公安機關(guān)業(yè)務(wù)人員流動(dòng)的人臉比對、檢索、識別、大數據等。.
.
五、圖普科技從“江黃”到視頻直播個(gè)性化推薦
來(lái)自
1、為企業(yè)省更多錢(qián):從“審查色情”到內容審核
企業(yè)對圖普科技的認知更多的是“劍黃”。映客、美拍、小米直播、迅雷、酷狗、星霸等視頻直播頭部平臺是圖普的“劍皇”。服務(wù)”的客戶(hù)。
圖譜科技CEO李明強告訴雷鋒網(wǎng),其實(shí)圖譜從一開(kāi)始就提供的不僅僅是色情內容。對政治敏感信息、暴恐信息和廣告的審查,都是圖普的業(yè)務(wù),統稱(chēng)為內容審查。
從去年開(kāi)始,可以訪(fǎng)問(wèn)色情服務(wù)的客戶(hù)開(kāi)始接受圖普的其他內容審查服務(wù)。比如著(zhù)名的原創(chuàng )尷尬笑話(huà)UGC內容社區尷尬百科,就面臨著(zhù)巨大的流量和人工審核非法廣告的高昂成本。
與識別黃某的過(guò)程類(lèi)似,清除非法小廣告也是基于大量圖片進(jìn)行學(xué)習訓練。非法圖片主要集中在帶有非法文字的圖片和收錄促銷(xiāo)二維碼的小廣告圖片上。圖撲基于圖像識別技術(shù)和尷尬廣告圖像的特點(diǎn),批量生成針對性的廣告圖像進(jìn)行優(yōu)化。訓練大大提高了廣告圖像識別的準確率和準確率,減少了模型迭代的周期。
糸粑連接圖撲定制的廣告識別模型后,機器自動(dòng)識別出糸社區的圖片,并判斷圖像識別為正常,二維碼或帶文字的圖片,然后使用OCR技術(shù)檢測帶文字的圖片。文本定位和識別,自動(dòng)過(guò)濾識別出的收錄敏感和非法文本的圖像。顯著(zhù)降低內容審核成本。
現在,越來(lái)越多的企業(yè)全面接入了圖譜的內容點(diǎn)評平臺。近期,圖普還與阿里云達成合作,在阿里云上發(fā)布色情圖片和暴力恐怖圖片識別服務(wù),阿里云客戶(hù)可直接調用。
此前,圖普透露,日處理圖片數量已升至約9億張,其中每萬(wàn)張圖片處理費為25元。李明強告訴雷鋒網(wǎng),圖普去年的收入增長(cháng)了十倍。
.
2、 幫人賺錢(qián):視頻大數據標簽和個(gè)性化推薦
從一開(kāi)始,圖普就沒(méi)有把自己局限在“色情之旅”或內容審查上。在去年接受雷鋒網(wǎng)采訪(fǎng)時(shí),李明強將圖譜定位為與視頻時(shí)代建立聯(lián)系。在文本時(shí)代,隨著(zhù)計算機對文本的理解,內容之間是有聯(lián)系的。同樣,圖像和視頻被計算機理解后,內容之間的聯(lián)系也可以形成。
Tup 已經(jīng)開(kāi)始著(zhù)手這方面的工作。除了內容審計,圖譜開(kāi)始開(kāi)發(fā)視頻和直播的大數據標注和個(gè)性化推薦服務(wù)。
大數據標簽主要用于短視頻和直播平臺。系統會(huì )通過(guò)學(xué)習海量標簽數據,根據主播的行為、場(chǎng)景、人物風(fēng)格、年齡、性別等,自動(dòng)為當前直播創(chuàng )建標簽。例如,一個(gè)喜歡做出撅嘴表情的年輕女孩很可能會(huì )被貼上“可愛(ài)女孩”的標簽。通過(guò)對人工標注系統的研究,圖普甚至可以判斷主播的長(cháng)相。當然,李明強也解釋說(shuō),與黃健有嚴格的指標不同,“萌妹子”、“美女”等標簽往往帶有很多主觀(guān)因素。
但是對于視頻推薦來(lái)說(shuō),這些基本符合主流審美標準的標簽就足夠了:新用戶(hù)注冊后,直播平臺可以根據用戶(hù)選擇的標簽在其首頁(yè)展示相應的直播;直播平臺還可以根據顏值、人氣等綜合因素,在首頁(yè)推薦直播內容;另外,當用戶(hù)關(guān)注的主播不在線(xiàn)時(shí),系統還可以推薦一些直播類(lèi)型相近的主播。
李明強還告訴雷鋒網(wǎng),還有一個(gè)產(chǎn)品正在開(kāi)發(fā)中,就是在搜索標簽欄,用戶(hù)可以直接根據標簽進(jìn)行搜索。比如喜歡跳舞、喜歡直播KTV場(chǎng)景的用戶(hù),可以根據對應的標簽進(jìn)行搜索。
圖普表示,只有這個(gè)推薦功能,一個(gè)擁有更好應用表的平臺,才能讓新用戶(hù)的留存率提高一倍以上;對于老用戶(hù)來(lái)說(shuō),還可以增加至少30%-40%的停留時(shí)間。對于短視頻和直播平臺來(lái)說(shuō),留存率的提高意味著(zhù)用戶(hù)體驗的提升,更重要的是廣告和打賞收入將得到顯著(zhù)提升。
如果說(shuō)之前的內容審核是為了節省人力成本,為公司省錢(qián),那么視頻推薦實(shí)際上是為了幫助公司賺錢(qián)。
.
六、利用物體檢測制作電子相冊——打印快照行業(yè)的變革
來(lái)源文章:
在印刷行業(yè)或快照行業(yè),會(huì )陸續推出一款產(chǎn)品——電子相冊。
從技術(shù)層面來(lái)說(shuō),電子相冊主要需要解決兩個(gè)問(wèn)題,1.照片裁剪和2.相框匹配。
目前,這些任務(wù)都是手動(dòng)完成的。隨著(zhù)電子圖片需求的增加,制作電子相冊的人工成本也越來(lái)越高。這時(shí)候,利用上面介紹的內容識別算法,我們就可以幫助計算機自動(dòng)裁剪圖片,因為自動(dòng)裁剪最大的顧慮可能就是害怕裁剪掉照片中的人。
另一方面,我們可以進(jìn)一步結合圖像場(chǎng)景分類(lèi)、人臉識別等算法技術(shù),利用標簽匹配的方式,自動(dòng)匹配與照片本身匹配的相框。
算法本身可以做出很多技術(shù),比如利用物體檢測,我們可以實(shí)現內容識別,此外,我們還可以實(shí)現場(chǎng)景分類(lèi)、人臉識別、顏色分類(lèi)、人物表達等等。
技術(shù)項目的結合可以幫助我們實(shí)現目前業(yè)界更多的人工任務(wù),比如自動(dòng)裁剪、根據圖片內容匹配合適的相框作為推薦、場(chǎng)景分類(lèi)、人臉信息等,根據對不同顏色的印刷材料做不同的印刷批次分揀等。
因此,打印快照行業(yè)的一個(gè)簡(jiǎn)單升級可以概括為如圖所示:
從圖中我們可以看出,技術(shù)和應用本質(zhì)上可以完全分離進(jìn)行橫向擴展,因此我們可以看到,同一種技術(shù)可以應用于不同的行業(yè),也可以有很多不同的行業(yè)專(zhuān)用算法技術(shù)。如圖所示:
.
七、
.
1、理解用戶(hù)搜索意圖及其難點(diǎn)分析
分析理解用戶(hù)搜索詞背后真正意圖的難點(diǎn):
2、如何識別用戶(hù)搜索意圖
一般來(lái)說(shuō),搜索意圖分為導航、信息和交易三種類(lèi)型。雅虎的研究人員在此基礎上進(jìn)行了細化,將用戶(hù)搜索意圖分為以下幾類(lèi):
3、樂(lè )觀(guān)的搜索意圖識別引擎
大觀(guān)通過(guò)RESTAPI接口為客戶(hù)提供基于公有云和私有云的搜索服務(wù)。語(yǔ)義分析模塊包括用戶(hù)查詢(xún)意圖的離線(xiàn)挖掘和在線(xiàn)預測。
大觀(guān)文本語(yǔ)義挖掘算法平臺是一個(gè)集成了多種算法的集成學(xué)習平臺,包括經(jīng)典的SVM、LR、RF、LDA等算法,以及CNN、RNN、LSTM、BILSTM等深度學(xué)習算法。例如,在實(shí)踐中,我們嘗試將線(xiàn)性統計模型 CRF 和神經(jīng)網(wǎng)絡(luò )結構 LSTM 結合起來(lái),在 LSTM 的輸出端結合 softmax 和 CRF,使用 LSTM 解決提取序列特征的問(wèn)題,并使用 CRF 有效地利用句子level 的標記信息取得了很好的效果。
八、 查看全部
免規則采集器列表算法(深度學(xué)習遵從大數定律,數據越多,規律性越能掌控。)
深度學(xué)習遵循大數定律。數據越多,規律越可控。
1、細粒度分類(lèi)
比如我去車(chē)架、車(chē)頭燈、車(chē)前臉、車(chē)輪轂等等,然后用cnn或者deep cnn之類(lèi)的分類(lèi)器來(lái)做這些分類(lèi),為分類(lèi)器,輸入的是車(chē)頭燈+車(chē)前臉+車(chē)輪,不是全圖。然后分類(lèi)器從前照燈前臉等中提取高級特征,得到分類(lèi)模型。
在fine-tuning的過(guò)程中會(huì )有一個(gè)問(wèn)題,就是用來(lái)區分未知信息圖片的,最好加框。
對于本地圖像,我們像這樣提取它們:
2、級聯(lián)方法
1、粗粒度 - 圖像清理。整體識別0/1,無(wú)論是汽車(chē)、數據篩選、清理垃圾層,力求準確率達到98%以上,甚至更高,每個(gè)分類(lèi)取2w張左右;
2、中等粒度 - 品牌分類(lèi)器。不細分品牌下的子品牌,比如康師傅牛肉面,也不細分很多口味比如康師傅辣、咸等,太細了,你的數據量不夠。即使你花很長(cháng)時(shí)間仔細標記,也得不償失。
3、細粒度 - 車(chē)輛類(lèi)型分類(lèi)器。區分每個(gè)品牌的不同模型分類(lèi)器,更簡(jiǎn)單,更準確。還可以訓練更多細節,內飾、做工、配色等。
這樣,你會(huì )得到0.98*0.96*0.94~0.88的識別率,但是準確率會(huì )變得可調,當粗略-粒度識別哪些要被拒絕,提高概率標準,可以提高整體識別率。
3、數據增強
Opencv首先做一些圖像變換,比如光處理、去噪等,會(huì )提高復雜環(huán)境下圖像的識別準確率。
此外,可以改變光照強度以進(jìn)行訓練
.
二、深度學(xué)習在美團點(diǎn)評中的應用1、圖像質(zhì)量評估
在美團點(diǎn)評中,商家的第一張圖片由商家或運營(yíng)商手動(dòng)指定。如何選擇第一張圖片才能更好地吸引用戶(hù)?圖像質(zhì)量排名算法的目標是自動(dòng)選擇更好的第一張圖像來(lái)吸引用戶(hù)點(diǎn)擊。
傳統的畫(huà)質(zhì)排名方式主要是從審美的角度來(lái)評價(jià)畫(huà)質(zhì),通過(guò)色彩統計、主題分布、構圖等分析畫(huà)面的美感。但在實(shí)際業(yè)務(wù)場(chǎng)景中,用戶(hù)對畫(huà)面質(zhì)量的判斷主觀(guān)性很強,很難形成統一的評價(jià)標準。例如:
因此,我們使用深度學(xué)習的方法來(lái)探索圖像的哪些屬性會(huì )影響用戶(hù)的判斷,以及如何有效地整合這些屬性來(lái)評估圖像。
我們使用 AlexNet 提取圖像的高級語(yǔ)義描述,學(xué)習美學(xué)、可記憶性、吸引力和類(lèi)別等高級特征,并補充人工設計的低級特征(如顏色、銳度、對比度和角點(diǎn))。獲得這些特征后,訓練一個(gè)淺層神經(jīng)網(wǎng)絡(luò )對整個(gè)圖像進(jìn)行評分。該框架的一個(gè)特點(diǎn)(如圖 2 所示)是深度學(xué)習特征和傳統特征的結合,既引入了高級語(yǔ)義,又保留了低級一般描述,包括全局和局部特征。
對于圖像各維度屬性的學(xué)習,需要大量的標簽數據來(lái)支持,但是完全人工標注成本非常高,所以我們借鑒了美團點(diǎn)評的圖像源和POI標簽系統。關(guān)于吸引力屬性的研究,我們選取??美團Deal相冊中點(diǎn)擊率高的圖片(多為單反相機拍攝)作為正例,選擇UGC相冊中點(diǎn)擊率低的圖片(主要是低端手機)。射擊)作為一個(gè)反面例子。關(guān)于類(lèi)別屬性的學(xué)習,我們使用美團的一級類(lèi)別和常見(jiàn)的二級類(lèi)別作為圖像標簽?;谝陨腺|(zhì)量排名模型,我們選擇最適合廣告POI的高質(zhì)量首圖展示,可以吸引用戶(hù)點(diǎn)擊,提高業(yè)務(wù)指標。圖 3 顯示了基于質(zhì)量排名的第一個(gè)圖像偏好的結果。
2、OCR 技術(shù)
OCR在美團點(diǎn)評業(yè)務(wù)中主要扮演兩個(gè)角色。一方面是輔助輸入。例如,在移動(dòng)支付過(guò)程中,對銀行卡號進(jìn)行拍照識別,實(shí)現自動(dòng)綁定卡。另一個(gè)例子是輔助BD輸入菜單信息。另一方面是審查和驗證。例如,在商戶(hù)資質(zhì)審核過(guò)程中,從商戶(hù)上傳的身份證、營(yíng)業(yè)執照、餐飲許可證等文件中提取信息并進(jìn)行驗證,確保商戶(hù)的合法性。例如,機器過(guò)濾商家的訂單和用戶(hù)評價(jià)過(guò)程中產(chǎn)生的含有違禁詞的圖片。與傳統 OCR 場(chǎng)景(打印、掃描文檔)相比,美團’ s OCR場(chǎng)景主要針對手機拍攝的照片的文字信息提取和識別??紤]到線(xiàn)下用戶(hù)的多樣性,主要面臨以下挑戰:
針對上述挑戰,傳統的OCR解決方案存在以下不足:
針對傳統OCR方案的不足,我們嘗試了基于深度學(xué)習的OCR。
首先,我們根據是否有先驗信息,將布局分為可控場(chǎng)景(如身份證、營(yíng)業(yè)執照、銀行卡)和非可控場(chǎng)景(如菜單、門(mén)圖片)。
對于受控場(chǎng)景,我們將文本本地化轉換為特定關(guān)鍵字目標的檢測問(wèn)題。主要使用Faster R-CNN進(jìn)行檢測,如下圖所示。為了保證回歸框的定位精度,提高運算速度,我們對原有的框架和訓練方法進(jìn)行了微調:
? 考慮到關(guān)鍵字目標的類(lèi)內變化有限,我們對 ZF 模型的網(wǎng)絡(luò )結構進(jìn)行了裁剪,將 5 層卷積減少到 3 層。
?在訓練過(guò)程中,提高正樣本重疊率的閾值,根據業(yè)務(wù)需求適配RPN層Anchor的縱橫比。
對于不受控制的場(chǎng)景,由于文本方向和筆畫(huà)寬度的任意變化,導致回歸框在目標檢測中的定位粒度不夠。我們使用語(yǔ)義分割中常用的全卷積網(wǎng)絡(luò )(FCN)來(lái)進(jìn)行像素級的文本/背景標注,如下圖所示。為了同時(shí)保證定位的準確性和語(yǔ)義的清晰,我們不僅在最后一層進(jìn)行反卷積,還融合了深淺層的反卷積結果。
為了有效控制字符分割和識別后處理的錯誤傳播效果,實(shí)現端到端文本識別的可訓練性,我們采用下圖所示的序列學(xué)習框架。整體框架分為三層:卷積層、循環(huán)層和翻譯層。其中,卷積層提取特征,遞歸層不僅學(xué)習特征序列中字符特征的序列關(guān)系,還學(xué)習字符的序列關(guān)系,翻譯層實(shí)現時(shí)間序列分類(lèi)結果的解碼。
由于序列學(xué)習框架對訓練樣本的數量和分布有很高的要求,我們采用真實(shí)樣本+合成樣本的方法。真實(shí)樣本主要基于美團點(diǎn)評的業(yè)務(wù)來(lái)源(如菜單、身份證、營(yíng)業(yè)執照),合成樣本考慮了字體、變形、模糊、噪點(diǎn)、背景等因素?;谏鲜鲂蛄袑W(xué)習框架和訓練數據,文本識別在各種場(chǎng)景下的性能都有了很大的提升,如下圖所示。
.
三、 1、快速去重圖片
攜程酒店圖片數據來(lái)源較多,同一酒店出現相同/相似圖片的概率較高。圖片的重復展示會(huì )影響用戶(hù)的體驗,不利于用戶(hù)獲取酒店的完整信息。酒店圖像之間的相同/相似主要表現在1)維度變形;2) 裁剪不完整;3) 顏色變化;4) 旋轉變化;5) 拍攝角度 移動(dòng)等情況,如下圖。
為了解決酒店圖像之間的相同/相似問(wèn)題,需要對酒店的圖像數據進(jìn)行去重。然而,由于鏡像數量巨大,手動(dòng)去重既費時(shí)又費力。因此,通過(guò)圖像去重技術(shù)自動(dòng)確定并去除相同/相似圖像勢在必行。
圖像去重一般分為
1)圖像特征表達的提取和2)圖像之間的相似度計算是兩個(gè)主要步驟。
對于圖像特征表示的提取,常用的手工設計特征有顏色、紋理、HOG、SIFT、SURF等。此外,基于深度學(xué)習的深度特征表示也經(jīng)常使用。對于圖像間的相似度計算,常用的無(wú)監督距離測量方法有歐幾里得距離、曼哈頓距離、余弦距離;常見(jiàn)的有監督距離測量方法包括 LMNN、KISSME、LFDA 和 MFA。但是,這些方法都是基于浮點(diǎn)特征計算相似度,計算速度普遍較慢。因此,采用哈希學(xué)習的方法將圖像特征轉化為二進(jìn)制碼,然后通過(guò)漢明距離快速計算相似度,更符合圖像數據行業(yè)。處理速度要求。
對于酒店中相同/相似的圖像,大部分全局特征(如顏色、紋理、HOG)不能很好地解決圖像裁剪和旋轉變化的問(wèn)題;一些局部特征(如SIFT和SURF)和基于深度學(xué)習的特征雖然表達效果不錯,但由于特征提取復雜,計算速度太慢。
針對上述特征提取方法的不足,我們最終使用ORB特征作為圖像的特征表達,使用漢明距離計算相似度。
ORB 特性具有以下優(yōu)點(diǎn):
1)快速特征提??;
2)大部分情況下,去重效果可以等同于SIFT/SURF;
3)提取的特征直接采用二進(jìn)制編碼的形式,可以不用哈希學(xué)習的方法,用漢明距離快速計算相似度。
ORB特性在實(shí)際的圖像去重過(guò)程中還是有一些不足的地方。比如在處理圖像尺寸差異過(guò)大、變形、模糊等問(wèn)題時(shí),去重效果一般。
為此,在提取ORB特征之前,我們首先將圖像按照初始縱橫比統一縮放到一個(gè)固定的標準尺寸,這樣就避免了圖像之間的尺寸差異,更好地彌補了ORB特征在尺度不變性上的不足。缺陷。
同時(shí),在面對圖像變形和模糊問(wèn)題時(shí),我們在ORB特征的基礎上,進(jìn)一步融合顏色直方圖、LBP特征等全局特征確定重復圖像,使圖像局部和全局信息的優(yōu)勢得到體現。補充。減少了變形、模糊等因素對ORB特征的影響,保證了圖像去重的準確性。
.
2、水印圖像檢測
攜程的酒店圖片數據來(lái)源多樣,這也導致了另一個(gè)嚴重的問(wèn)題:帶有其他公司水印信息的圖片數量增加。人工檢測水印圖片會(huì )耗費大量人力,因此我們希望利用計算機自動(dòng)檢測圖片中是否收錄水印信息,避免誤用和侵權。
圖像中水印信息的視覺(jué)意義很低,具有面積小、顏色淺、透明度高的特點(diǎn)。下面顯示了帶有水印的酒店圖像的一些示例。
一般的目標檢測問(wèn)題可以看成是圖像的一部分的分類(lèi)問(wèn)題。在深度學(xué)習興起之前,可變形零件模型(DPM)一直是一種流行的目標檢測方法。隨著(zhù)深度學(xué)習技術(shù)的發(fā)展,以R-CNN、Fast R-CNN、Faster R-CNN和YOLO為代表的一系列基于卷積神經(jīng)網(wǎng)絡(luò )的目標檢測方法已成為主流。但水印檢測與一般目標檢測的區別在于水印在圖像中的位置基本固定,所以水印檢測可以看作是一個(gè)簡(jiǎn)化的目標檢測問(wèn)題,關(guān)鍵是訓練一個(gè)水印分類(lèi)器。
在訓練一個(gè)水印分類(lèi)器的過(guò)程中,我們遇到的最大問(wèn)題是沒(méi)有足夠的帶水印類(lèi)別的圖像數據進(jìn)行訓練。為了解決這個(gè)問(wèn)題,我們選擇自主生成訓練數據。具體來(lái)說(shuō),我們從大量無(wú)水印圖像中隨機截取幾張矩形區域圖像,并將這些矩形區域圖像作為無(wú)水印的訓練圖像數據;同時(shí),我們隨機縮放要檢測的水印信息圖形,并嵌入這些不收錄水印信息的圖像。在矩形圖像內部,從而形成帶水印的訓練圖像數據。通過(guò)這種方式,我們可以方便快捷地獲得大量的圖像訓練數據。
在自主生成大量訓練數據后,我們專(zhuān)門(mén)針對水印分類(lèi)任務(wù)訓練了一個(gè) AlexNet。對于待檢測的圖像,我們使用可變幀在水印的常見(jiàn)位置(圖像的左右下角和中間位置)處隨機截取一系列矩形區域圖像,然后將它們輸入到分類(lèi)中網(wǎng)絡(luò )依次進(jìn)行分類(lèi),最后融合所有矩形區域圖像??梢缘玫剿D像的分類(lèi)結果。完整的水印圖像檢測過(guò)程如上圖所示。
我們使用計算機自動(dòng)進(jìn)行快速去重和水印圖像檢測,兩者都達到了99%+的準確率,在實(shí)際圖像處理中有效減少了大量的人工成本。
3、房間類(lèi)型圖片分類(lèi)
酒店圖像可以根據內容分為許多類(lèi)別,例如外部、內部和房間類(lèi)型。其中,房型圖片可以直觀(guān)的展示房型信息,對于用戶(hù)選擇入住的房型尤為關(guān)鍵。我們要優(yōu)先展示吸引用戶(hù)的房型內容,提升用戶(hù)體驗和訂單率。但在實(shí)際應用中,房型圖片往往收錄大量?jì)热?,并沒(méi)有逐一進(jìn)行人工篩選,所以經(jīng)常出現房型第一張圖片不合適的情況。解決房型首圖不合適問(wèn)題的關(guān)鍵在于對房型圖片進(jìn)行分類(lèi),以便優(yōu)先展示吸引用戶(hù)的內容。具體來(lái)說(shuō),
隨著(zhù)深度學(xué)習技術(shù)的出現,尤其是卷積神經(jīng)網(wǎng)絡(luò )的興起,一個(gè)理想的房間類(lèi)型圖像分類(lèi)方法一般分為兩個(gè)步驟:1)使用大量帶標簽的房間類(lèi)型圖像數據,直接訓練一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò ),如AlexNet、VGGNet、ResNet或基于Inception的一系列網(wǎng)絡(luò )等;2)對于未知類(lèi)別的房間類(lèi)型圖像,將其輸入到深度卷積神經(jīng)網(wǎng)絡(luò )中,網(wǎng)絡(luò )的最后一層直接輸出它屬于每個(gè)類(lèi)別的概率。
與水印圖像檢測一樣,在實(shí)際實(shí)踐過(guò)程中,我們遇到的最大問(wèn)題仍然是缺乏用于訓練的類(lèi)別標記的房間圖像數據。人工標注大量訓練圖像顯然是不現實(shí)的。不訓練圖像就得到分類(lèi)模型更不現實(shí)。所以我們還是花了一些時(shí)間對少數房間類(lèi)型圖像的類(lèi)別進(jìn)行標注。在這個(gè)小尺度房間圖像數據集的基礎上,一般有兩種分類(lèi)思路:1)由于房間圖像屬于場(chǎng)景圖像,可以提取房間圖像的HOG、SIFT和GIST特征。這些手工設計的Feature已經(jīng)被證明在場(chǎng)景分類(lèi)中更有效,然后訓練傳統的分類(lèi)器實(shí)現分類(lèi);2) 利用深度卷積神經(jīng)網(wǎng)絡(luò )強大的特征遷移學(xué)習能力,首先利用海量圖像數據訓練一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò ),然后將該網(wǎng)絡(luò )作為特征提取模型,與傳統分類(lèi)器相結合,實(shí)現分類(lèi)。當然,如果有更多的人力和時(shí)間,當有很多標記的房間類(lèi)型圖像數據時(shí),直接微調網(wǎng)絡(luò )是更好的選擇。
在實(shí)際應用中,我們選擇第二種思路。我們沒(méi)有使用使用最廣泛的 ImageNet 數據集,因為該數據集中的圖像內容與房間類(lèi)型圖像差異太大,特征轉移無(wú)法達到最佳效果。為了盡可能提高網(wǎng)絡(luò )的特征轉移能力,我們使用最接近房間圖像的場(chǎng)景圖像數據集來(lái)訓練VGGNet作為房間圖像特征提取器。最后,我們使用我們自己的帶注釋的小規模房屋類(lèi)型圖像數據集來(lái)訓練支持向量機模型來(lái)實(shí)現分類(lèi)。具體分類(lèi)流程如下圖所示。
在我們的房間類(lèi)型圖像分類(lèi)上線(xiàn)后,它達到了 98% 的準確率。下圖為某酒店多房型圖片分類(lèi)上線(xiàn)前后第一張圖片的變化示例(紅框為上線(xiàn)前,綠框為上線(xiàn)后)。
4、圖像質(zhì)量評估
在上一節中,我們通過(guò)房間類(lèi)型圖像分類(lèi)介紹了帶有床的房間類(lèi)型圖像的優(yōu)先級。但是,如果一個(gè)房型有多個(gè)帶床的圖像,我應該選擇哪個(gè)圖像作為該房型的第一個(gè)圖像?因此,我們希望能夠對房型圖像的質(zhì)量進(jìn)行評估,這樣當圖像的類(lèi)別相同時(shí),可以按照質(zhì)量進(jìn)行排序。更廣泛地說(shuō),我們也希望對所有的酒店圖片進(jìn)行質(zhì)量評估,這樣就可以根據圖片的質(zhì)量得分來(lái)選擇酒店的第一張圖片、酒店圖片的首選展示等。
首先,我們選擇了客觀(guān)的清晰度指標作為圖像質(zhì)量評價(jià)的標準。我們認為,清晰圖像變得模糊時(shí)丟失的信息比模糊圖像變得模糊時(shí)丟失的信息要多。按照這個(gè)思路,對于一張圖像,我們先對它進(jìn)行灰度化,然后得到對應的模糊圖像。接下來(lái),我們分別從原創(chuàng )圖像和對應的模糊圖像中提取圖像邊緣信息,并使用拉普拉斯卷積模板進(jìn)行濾波。最后,我們可以通過(guò)比較兩個(gè)濾波圖像的方差變化率來(lái)量化圖像的清晰度。
完整的計算過(guò)程如下圖所示。圖像的清晰度分數范圍在[0, 1]之間,分數越大,圖像越清晰。我們對圖像的清晰度分數進(jìn)行分割驗證,圖像清晰度的評估準確率達到91%。
但在實(shí)際應用中,我們發(fā)現僅以銳度作為圖像質(zhì)量評價(jià)的標準還存在一些不足,因為銳度高但內容難看的圖像也不少。這些圖像首先顯示是因為它們的清晰度很高,但其難看的內容影響了用戶(hù)的體驗,因此我們希望從審美的角度進(jìn)一步評估圖像質(zhì)量。
圖像的美是一個(gè)非常主觀(guān)的概念,很難有一個(gè)統一的標準來(lái)量化它。為了盡可能準確地計算圖像的美感,我們選擇了深度卷積神經(jīng)網(wǎng)絡(luò )模型來(lái)實(shí)現美感評估。在實(shí)踐中,我們再次遇到同樣的問(wèn)題:缺乏大量帶有好/壞標簽的訓練圖像。由于利用卷積神經(jīng)網(wǎng)絡(luò )強大的遷移學(xué)習能力在房間類(lèi)型圖像分類(lèi)中特征遷移的成功,我們決定繼續使用這種方法。
由于酒店圖像的美感受內容、顏色和構圖的影響,我們不再像房間類(lèi)型圖像分類(lèi)那樣使用單一內容的場(chǎng)景圖像數據集,而是使用包羅萬(wàn)象的 ImageNet 數據集和場(chǎng)景圖像。將數據集混合進(jìn)行訓練,我們力求讓盡可能多的圖像參與到深度卷積神經(jīng)網(wǎng)絡(luò )的學(xué)習中,使網(wǎng)絡(luò )能夠記住更多圖像的內容,從而進(jìn)一步提高圖像的特征遷移能力。網(wǎng)絡(luò )。同時(shí),為了保證深度卷積神經(jīng)網(wǎng)絡(luò )的特征表達能力,我們采用比 AlexNet 和 VGGNet 層數更深的 ResNet 作為特征提取器。最后,我們用好看/不好看的標簽標記少量圖像,
我們將圖像被模型判斷為好看的概率作為圖像的美感分數。美女評分的范圍在 [0, 1] 之間。如果分數越大,則表示圖像越漂亮。由于審美評價(jià)模型沒(méi)有考慮銳度因素,我們最終將圖像的銳度和美感融合起來(lái)計算圖像質(zhì)量得分。完整的圖像質(zhì)量評估流程如下圖所示。通過(guò)圖像質(zhì)量評估,使清晰、美觀(guān)的圖像優(yōu)先顯示,對酒店/房型第一圖像的選擇和酒店圖像的排序具有很好的指導意義。
寫(xiě)在最后
上面我們介紹了攜程的四個(gè)真實(shí)圖像數據處理需求,但機器學(xué)習對于攜程酒店圖像數據處理的價(jià)值遠不止于此。接下來(lái),我們將繼續深入挖掘多個(gè)圖像應用場(chǎng)景,例如圖像的個(gè)性化展示、利用超分辨率和去模糊技術(shù)提升圖像質(zhì)量等,努力為攜程酒店圖像的智能化貢獻力量。數據。
.
四、
陳瑞軍告訴雷鋒網(wǎng):
第一個(gè)考慮是做人臉識別,但是發(fā)現動(dòng)態(tài)人臉識別的準確率不夠,直到現在一直是一個(gè)需要解決的問(wèn)題。對于神清來(lái)說(shuō),作為一家初創(chuàng )的新公司,這個(gè)方向可能暫時(shí)還不能落地,所以想做別人沒(méi)做過(guò)的事情,結合用戶(hù)的需求,所以“車(chē)臉”的方向識別”設置。
此后,從最基本的圖片識別開(kāi)始,到視頻識別,再到視頻中的車(chē)輛分析,直至今天,已經(jīng)形成了以“車(chē)輛識別”為核心的軟硬件產(chǎn)品布局??偟膩?lái)說(shuō),神清科技的產(chǎn)品體系主要包括以下幾個(gè)方面:
視頻基因分析引擎
視頻基因譜引擎是神清的核心產(chǎn)品,俗稱(chēng)“視頻結構”。在沈清看來(lái),“視頻結構化”的概念應該是公安部第三研究所胡所長(cháng)提出的,指的是把視頻數據中的非結構化信息轉化為結構化信息。神清的視頻結構化產(chǎn)品可以高精度地自動(dòng)識別不同視角、不同光照條件、不同監控場(chǎng)景、不同天氣條件下的人車(chē)特征,方便公安機關(guān)達到快速檢索和查詢(xún)的目的。后期控制。
圖像處理引擎
神茂科技的圖像處理引擎主要用于在復雜情況下清除模糊的車(chē)輛和車(chē)牌圖片。等待。
人臉識別引擎
基于深度學(xué)習和模式識別的研究和應用成果,采用人臉檢測、跟蹤和結構化比較算法模型,應用于公安機關(guān)業(yè)務(wù)人員流動(dòng)的人臉比對、檢索、識別、大數據等。.
.
五、圖普科技從“江黃”到視頻直播個(gè)性化推薦
來(lái)自
1、為企業(yè)省更多錢(qián):從“審查色情”到內容審核
企業(yè)對圖普科技的認知更多的是“劍黃”。映客、美拍、小米直播、迅雷、酷狗、星霸等視頻直播頭部平臺是圖普的“劍皇”。服務(wù)”的客戶(hù)。
圖譜科技CEO李明強告訴雷鋒網(wǎng),其實(shí)圖譜從一開(kāi)始就提供的不僅僅是色情內容。對政治敏感信息、暴恐信息和廣告的審查,都是圖普的業(yè)務(wù),統稱(chēng)為內容審查。
從去年開(kāi)始,可以訪(fǎng)問(wèn)色情服務(wù)的客戶(hù)開(kāi)始接受圖普的其他內容審查服務(wù)。比如著(zhù)名的原創(chuàng )尷尬笑話(huà)UGC內容社區尷尬百科,就面臨著(zhù)巨大的流量和人工審核非法廣告的高昂成本。
與識別黃某的過(guò)程類(lèi)似,清除非法小廣告也是基于大量圖片進(jìn)行學(xué)習訓練。非法圖片主要集中在帶有非法文字的圖片和收錄促銷(xiāo)二維碼的小廣告圖片上。圖撲基于圖像識別技術(shù)和尷尬廣告圖像的特點(diǎn),批量生成針對性的廣告圖像進(jìn)行優(yōu)化。訓練大大提高了廣告圖像識別的準確率和準確率,減少了模型迭代的周期。
糸粑連接圖撲定制的廣告識別模型后,機器自動(dòng)識別出糸社區的圖片,并判斷圖像識別為正常,二維碼或帶文字的圖片,然后使用OCR技術(shù)檢測帶文字的圖片。文本定位和識別,自動(dòng)過(guò)濾識別出的收錄敏感和非法文本的圖像。顯著(zhù)降低內容審核成本。
現在,越來(lái)越多的企業(yè)全面接入了圖譜的內容點(diǎn)評平臺。近期,圖普還與阿里云達成合作,在阿里云上發(fā)布色情圖片和暴力恐怖圖片識別服務(wù),阿里云客戶(hù)可直接調用。
此前,圖普透露,日處理圖片數量已升至約9億張,其中每萬(wàn)張圖片處理費為25元。李明強告訴雷鋒網(wǎng),圖普去年的收入增長(cháng)了十倍。
.
2、 幫人賺錢(qián):視頻大數據標簽和個(gè)性化推薦
從一開(kāi)始,圖普就沒(méi)有把自己局限在“色情之旅”或內容審查上。在去年接受雷鋒網(wǎng)采訪(fǎng)時(shí),李明強將圖譜定位為與視頻時(shí)代建立聯(lián)系。在文本時(shí)代,隨著(zhù)計算機對文本的理解,內容之間是有聯(lián)系的。同樣,圖像和視頻被計算機理解后,內容之間的聯(lián)系也可以形成。
Tup 已經(jīng)開(kāi)始著(zhù)手這方面的工作。除了內容審計,圖譜開(kāi)始開(kāi)發(fā)視頻和直播的大數據標注和個(gè)性化推薦服務(wù)。
大數據標簽主要用于短視頻和直播平臺。系統會(huì )通過(guò)學(xué)習海量標簽數據,根據主播的行為、場(chǎng)景、人物風(fēng)格、年齡、性別等,自動(dòng)為當前直播創(chuàng )建標簽。例如,一個(gè)喜歡做出撅嘴表情的年輕女孩很可能會(huì )被貼上“可愛(ài)女孩”的標簽。通過(guò)對人工標注系統的研究,圖普甚至可以判斷主播的長(cháng)相。當然,李明強也解釋說(shuō),與黃健有嚴格的指標不同,“萌妹子”、“美女”等標簽往往帶有很多主觀(guān)因素。
但是對于視頻推薦來(lái)說(shuō),這些基本符合主流審美標準的標簽就足夠了:新用戶(hù)注冊后,直播平臺可以根據用戶(hù)選擇的標簽在其首頁(yè)展示相應的直播;直播平臺還可以根據顏值、人氣等綜合因素,在首頁(yè)推薦直播內容;另外,當用戶(hù)關(guān)注的主播不在線(xiàn)時(shí),系統還可以推薦一些直播類(lèi)型相近的主播。
李明強還告訴雷鋒網(wǎng),還有一個(gè)產(chǎn)品正在開(kāi)發(fā)中,就是在搜索標簽欄,用戶(hù)可以直接根據標簽進(jìn)行搜索。比如喜歡跳舞、喜歡直播KTV場(chǎng)景的用戶(hù),可以根據對應的標簽進(jìn)行搜索。
圖普表示,只有這個(gè)推薦功能,一個(gè)擁有更好應用表的平臺,才能讓新用戶(hù)的留存率提高一倍以上;對于老用戶(hù)來(lái)說(shuō),還可以增加至少30%-40%的停留時(shí)間。對于短視頻和直播平臺來(lái)說(shuō),留存率的提高意味著(zhù)用戶(hù)體驗的提升,更重要的是廣告和打賞收入將得到顯著(zhù)提升。
如果說(shuō)之前的內容審核是為了節省人力成本,為公司省錢(qián),那么視頻推薦實(shí)際上是為了幫助公司賺錢(qián)。
.
六、利用物體檢測制作電子相冊——打印快照行業(yè)的變革
來(lái)源文章:
在印刷行業(yè)或快照行業(yè),會(huì )陸續推出一款產(chǎn)品——電子相冊。
從技術(shù)層面來(lái)說(shuō),電子相冊主要需要解決兩個(gè)問(wèn)題,1.照片裁剪和2.相框匹配。
目前,這些任務(wù)都是手動(dòng)完成的。隨著(zhù)電子圖片需求的增加,制作電子相冊的人工成本也越來(lái)越高。這時(shí)候,利用上面介紹的內容識別算法,我們就可以幫助計算機自動(dòng)裁剪圖片,因為自動(dòng)裁剪最大的顧慮可能就是害怕裁剪掉照片中的人。
另一方面,我們可以進(jìn)一步結合圖像場(chǎng)景分類(lèi)、人臉識別等算法技術(shù),利用標簽匹配的方式,自動(dòng)匹配與照片本身匹配的相框。
算法本身可以做出很多技術(shù),比如利用物體檢測,我們可以實(shí)現內容識別,此外,我們還可以實(shí)現場(chǎng)景分類(lèi)、人臉識別、顏色分類(lèi)、人物表達等等。
技術(shù)項目的結合可以幫助我們實(shí)現目前業(yè)界更多的人工任務(wù),比如自動(dòng)裁剪、根據圖片內容匹配合適的相框作為推薦、場(chǎng)景分類(lèi)、人臉信息等,根據對不同顏色的印刷材料做不同的印刷批次分揀等。
因此,打印快照行業(yè)的一個(gè)簡(jiǎn)單升級可以概括為如圖所示:
從圖中我們可以看出,技術(shù)和應用本質(zhì)上可以完全分離進(jìn)行橫向擴展,因此我們可以看到,同一種技術(shù)可以應用于不同的行業(yè),也可以有很多不同的行業(yè)專(zhuān)用算法技術(shù)。如圖所示:
.
七、
.
1、理解用戶(hù)搜索意圖及其難點(diǎn)分析
分析理解用戶(hù)搜索詞背后真正意圖的難點(diǎn):
2、如何識別用戶(hù)搜索意圖
一般來(lái)說(shuō),搜索意圖分為導航、信息和交易三種類(lèi)型。雅虎的研究人員在此基礎上進(jìn)行了細化,將用戶(hù)搜索意圖分為以下幾類(lèi):
3、樂(lè )觀(guān)的搜索意圖識別引擎
大觀(guān)通過(guò)RESTAPI接口為客戶(hù)提供基于公有云和私有云的搜索服務(wù)。語(yǔ)義分析模塊包括用戶(hù)查詢(xún)意圖的離線(xiàn)挖掘和在線(xiàn)預測。
大觀(guān)文本語(yǔ)義挖掘算法平臺是一個(gè)集成了多種算法的集成學(xué)習平臺,包括經(jīng)典的SVM、LR、RF、LDA等算法,以及CNN、RNN、LSTM、BILSTM等深度學(xué)習算法。例如,在實(shí)踐中,我們嘗試將線(xiàn)性統計模型 CRF 和神經(jīng)網(wǎng)絡(luò )結構 LSTM 結合起來(lái),在 LSTM 的輸出端結合 softmax 和 CRF,使用 LSTM 解決提取序列特征的問(wèn)題,并使用 CRF 有效地利用句子level 的標記信息取得了很好的效果。
八、
免規則采集器列表算法(工具amp;服務(wù)列表Chrome擴展框架商業(yè)服務(wù)(組圖))
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 145 次瀏覽 ? 2022-02-01 07:08
之前介紹過(guò)很多爬蟲(chóng)庫的使用,其中大部分都和Python相關(guān)。當然,其中許多庫是為開(kāi)發(fā)人員準備的。但是對于一個(gè)沒(méi)有爬蟲(chóng)開(kāi)發(fā)經(jīng)驗的新手來(lái)說(shuō),還是很難上手的?,F在市場(chǎng)上其實(shí)有很多爬蟲(chóng)服務(wù)。如果你只是想爬取一些簡(jiǎn)單的數據,或者懶得寫(xiě)代碼,其實(shí)可以用這些工具很輕松的完成爬取,所以這篇文章就到這里了??偨Y一些比較實(shí)用的爬蟲(chóng)服務(wù)和工具,希望能在一定程度上幫助大家擺脫數據爬取的煩惱。
下面總結的一些工具,其實(shí)是一些爬蟲(chóng)工具、實(shí)用工具甚至是一些完整的商業(yè)服務(wù)的高層封裝,包括國內的和國外的。
Tools & Services ListChrome 擴展框架商業(yè)服務(wù)
以下是這些工具和服務(wù)的簡(jiǎn)要介紹和總結。
網(wǎng)絡(luò )刮刀
這是一個(gè)獨立的 Chrome 擴展,安裝了 20w。它支持點(diǎn)擊式數據捕獲,并支持動(dòng)態(tài)頁(yè)面呈現。它針對 JavaScript、Ajax、下拉拖動(dòng)和分頁(yè)功能進(jìn)行了優(yōu)化。它擁有完整的選擇器系統,支持將數據導出為CSV等格式。. 此外,他們還擁有自己的 Cloud Scraper,支持定時(shí)任務(wù)、基于 API 的管理和代理切換。
圖片
官方網(wǎng)站:
數據爬蟲(chóng)
Data Scraper 也是一個(gè) Chrome 擴展,通過(guò)點(diǎn)擊將單個(gè)頁(yè)面的數據抓取成 CSV 和 XSL 文件。本擴展預定義了5w多條規則,可用于爬取近1.5w條流行網(wǎng)站。
但是,此擴展的使用受到限制。免費版每月只能抓取 500 頁(yè),更多則需要付費。
圖片
官方網(wǎng)站:
列表里
這也是一個(gè)Chrome插件,可以快速提取網(wǎng)頁(yè)中的數據,轉換成Excel表格導出,操作起來(lái)非常方便。比如獲取一個(gè)電商產(chǎn)品數據,文章列表數據等,使用它可以快速完成。它還支持單頁(yè)和多頁(yè)以及父子頁(yè)的采集,值得一試。
圖片
官方網(wǎng)站:
汞
這是一個(gè)開(kāi)源工具,提供自動(dòng)解析,用 JavaScript 編寫(xiě),還有一個(gè) Chrome 擴展。使用它,我們可以完成對頁(yè)面的智能分析,比如自動(dòng)提取文章標題、正文、發(fā)布時(shí)間等內容。
另外它有開(kāi)源代碼放在GitHub上,我們可以直接安裝使用,使用命令行完成頁(yè)面的智能解析,速度非???。
圖片
官方網(wǎng)站:
刮擦
這可能是 Python 爬蟲(chóng)學(xué)習者最常用的爬蟲(chóng)框架。使用這個(gè)框架,我們可以快速完成爬蟲(chóng)的開(kāi)發(fā)。此外,框架本身性能優(yōu)異,可配置性強。另外,開(kāi)發(fā)者社區非?;钴S,Scrapy有多種配套插件,幾乎可以實(shí)現任何網(wǎng)站的爬取邏輯。強烈推薦。
圖片
官方網(wǎng)站:
PySpider
PySpider是基于Python開(kāi)發(fā)的爬蟲(chóng)工具,具有可視化管理工具,可以通過(guò)在線(xiàn)編程完成爬蟲(chóng)的創(chuàng )建和運行。此外,它還支持對各種數據庫的分布式爬取和存儲。既然是實(shí)現編程的代碼,它的擴展性還是很強的,而且好用。
圖片
GitHub:
阿皮菲
它是一個(gè)基于 Node.js 開(kāi)發(fā)的爬蟲(chóng)庫。由于它是用JavaScript編寫(xiě)的,所以它完全支持對JavaScript渲染的頁(yè)面的爬取,并連接了Puppeteer和Cheerio。此外,它的定制性也很強,支持各種文件格式的導出,支持與Apify Cloud對接,實(shí)現云爬取。
圖片
官方網(wǎng)站:
解析器
ParseHub是一個(gè)基于Web的抓取客戶(hù)端工具,支持JavaScript渲染、Ajax爬取、Cookies、Session等機制,應用可以從網(wǎng)站中分析獲取數據,并將其轉化為有意義的數據。它還可以使用機器學(xué)習技術(shù)來(lái)識別復雜的文檔并導出為 JSON、CSV、Google 表格等。
Parsehub 支持 Windows、Mac 和 Linux,并可作為 Firefox 擴展使用。此外,它還支持一些高級功能,如分頁(yè)、無(wú)限滾動(dòng)頁(yè)面、彈出窗口和導航。您還可以將 ParseHub 中的數據可視化為 Tableau。
當然,這也是收費的,免費版限5個(gè)項目,每次爬取200頁(yè)的上限。付費訂閱可獲得20個(gè)私有項目,每次爬取10000頁(yè),支持高級版IP代理切換等功能。
圖片
官方網(wǎng)站:
Dexi.io
Dexi.io,前身為 CloudScrape。它是一個(gè)爬蟲(chóng)業(yè)務(wù)服務(wù),支持視覺(jué)點(diǎn)擊和抓取,并配備自然語(yǔ)言解析工具,使解析更準確。所有爬取配置都在網(wǎng)頁(yè)上完成,任務(wù)可以通過(guò)控制臺運行完成。日程。此外,它提供了很多代理IP,還集成了第三方內存,包括Google Drive等工具。
這也是收費的,標準版每月 119 美元,支持工人和基本服務(wù),以及更高級別的服務(wù)。但是,支持免費試用。
圖片
官方網(wǎng)站:
八分法
它也是一個(gè)可視化爬蟲(chóng)工具,支持網(wǎng)頁(yè)的可視化點(diǎn)擊,也支持常見(jiàn)的JavaScript渲染、Ajax爬取等,同樣在云端運行和控制,也提供代理服務(wù)。
免費版支持創(chuàng )建10個(gè)爬蟲(chóng),但提供了最基本的服務(wù)。如果您想提供更多代理切換等服務(wù),您需要購買(mǎi)付費版本。標準版每月 75 美元。
圖片
官方網(wǎng)站:
內容抓取器
Content Grabber也是一個(gè)視覺(jué)爬蟲(chóng)工具,同樣支持視覺(jué)點(diǎn)擊、JavaScript渲染、Ajax爬取等功能,以及驗證碼識別等解決方案,并使用Nohodo作為IP代理。數據支持導出為常用格式,也支持PDF格式導出。
圖片
官方網(wǎng)站:
莫曾達
與Mozenda類(lèi)似,也是基于云爬蟲(chóng)服務(wù),同樣支持可視化點(diǎn)擊操作。它由兩部分組成,一部分用于完成數據提取功能,另一部分是Web控制臺,用于運行和控制各個(gè)爬蟲(chóng)服務(wù)。此外,它還提供對 FTP、Amazon S3、Dropbox 等的支持。
圖片
官方網(wǎng)站:
刮板API
本站提供簡(jiǎn)單的頁(yè)面渲染服務(wù),顧名思義,其爬取結果是通過(guò)API操作的。網(wǎng)站提供了很多渲染引擎,我們可以通過(guò)調用提供的API并傳遞不同的參數來(lái)完成頁(yè)面渲染,類(lèi)似于Splash。
圖片
官方網(wǎng)站:
差異機器人
Diffbot 是一個(gè)提供智能解析的站點(diǎn)。比如一個(gè)新聞頁(yè)面,我們不再需要規則來(lái)完成其內容的提取,比如標題、正文、發(fā)布時(shí)間等等。它通過(guò)一些機器學(xué)習算法、圖像識別、自然語(yǔ)言處理等解決方案進(jìn)行了全面解析。
圖片
官方網(wǎng)站:
進(jìn)口.io
Import.io 可以說(shuō)不僅僅是一個(gè)爬蟲(chóng)服務(wù)網(wǎng)站,它提供了從數據爬取、清洗、處理到應用的一整套解決方案,涉及零售與制造、數據爬取與處理、機器學(xué)習算法、風(fēng)控等解決方案。
圖片
官方網(wǎng)站:
嵌入
實(shí)際上,Embed.ly 提供了一種自動(dòng)獲取圖片、視頻、投票、幻燈片、音樂(lè )、實(shí)時(shí)視頻、表格、GIF、圖表等功能的服務(wù)。頁(yè)面分析與爬蟲(chóng)有關(guān)。它提供了一個(gè)智能的頁(yè)面解析解決方案,類(lèi)似于Diffbot,可以自動(dòng)完成頁(yè)面解析。
圖片
官方網(wǎng)站:
刮風(fēng)風(fēng)暴
這個(gè)網(wǎng)站提供了一個(gè)可視化爬蟲(chóng)工具,支持Mac、Windows、Linux。該工具非常強大。支持自動(dòng)翻頁(yè)、自動(dòng)內容識別、JavaScript渲染、模擬登錄爬取。
然而我下載使用后,居然是優(yōu)采云采集器?看來(lái)本站盜用了優(yōu)采云采集器的源碼。
圖片
官方網(wǎng)站:
神劍手
優(yōu)采云,這可以說(shuō)是國內最好的爬蟲(chóng)平臺之一。后臺爬蟲(chóng)用JavaScript編寫(xiě),支持可視化點(diǎn)擊和代碼編寫(xiě)。它還提供云爬取、驗證碼識別和分布式爬取。、JavaScript 渲染等。
此外,優(yōu)采云還提供規則市場(chǎng)、數據標注和數據API服務(wù)。目前,機器學(xué)習相關(guān)的服務(wù)也在列,它們也在向智能化方向發(fā)展。
另外,優(yōu)采云下面還有一個(gè)優(yōu)采云采集器,就是上面介紹的ScrapeStorm使用的爬取工具。它非常強大,支持智能分析。值得一試。
圖片
官方網(wǎng)站:
八爪魚(yú)
優(yōu)采云采集器,在國內可以說(shuō)是比較有名的采集器了,功能和優(yōu)采云采集器差不多,可以完成相關(guān)通過(guò)可視化點(diǎn)擊配置爬蟲(chóng),部分功能比優(yōu)采云采集器更強大。
此外,官方還提供了規則市場(chǎng),獲取規則快速完成數據爬取,無(wú)需關(guān)心爬取邏輯。
圖片
官方網(wǎng)站:
棗樹(shù)
它是一家數據爬取服務(wù)提供商,但不再針對個(gè)人用戶(hù)。主要提供企業(yè)數據服務(wù)。還提供可視化點(diǎn)擊數據爬取服務(wù),也可以通過(guò)一些配置采集完成復雜的頁(yè)面。
圖片
官方網(wǎng)站: 查看全部
免規則采集器列表算法(工具amp;服務(wù)列表Chrome擴展框架商業(yè)服務(wù)(組圖))
之前介紹過(guò)很多爬蟲(chóng)庫的使用,其中大部分都和Python相關(guān)。當然,其中許多庫是為開(kāi)發(fā)人員準備的。但是對于一個(gè)沒(méi)有爬蟲(chóng)開(kāi)發(fā)經(jīng)驗的新手來(lái)說(shuō),還是很難上手的?,F在市場(chǎng)上其實(shí)有很多爬蟲(chóng)服務(wù)。如果你只是想爬取一些簡(jiǎn)單的數據,或者懶得寫(xiě)代碼,其實(shí)可以用這些工具很輕松的完成爬取,所以這篇文章就到這里了??偨Y一些比較實(shí)用的爬蟲(chóng)服務(wù)和工具,希望能在一定程度上幫助大家擺脫數據爬取的煩惱。
下面總結的一些工具,其實(shí)是一些爬蟲(chóng)工具、實(shí)用工具甚至是一些完整的商業(yè)服務(wù)的高層封裝,包括國內的和國外的。
Tools & Services ListChrome 擴展框架商業(yè)服務(wù)
以下是這些工具和服務(wù)的簡(jiǎn)要介紹和總結。
網(wǎng)絡(luò )刮刀
這是一個(gè)獨立的 Chrome 擴展,安裝了 20w。它支持點(diǎn)擊式數據捕獲,并支持動(dòng)態(tài)頁(yè)面呈現。它針對 JavaScript、Ajax、下拉拖動(dòng)和分頁(yè)功能進(jìn)行了優(yōu)化。它擁有完整的選擇器系統,支持將數據導出為CSV等格式。. 此外,他們還擁有自己的 Cloud Scraper,支持定時(shí)任務(wù)、基于 API 的管理和代理切換。

圖片
官方網(wǎng)站:
數據爬蟲(chóng)
Data Scraper 也是一個(gè) Chrome 擴展,通過(guò)點(diǎn)擊將單個(gè)頁(yè)面的數據抓取成 CSV 和 XSL 文件。本擴展預定義了5w多條規則,可用于爬取近1.5w條流行網(wǎng)站。
但是,此擴展的使用受到限制。免費版每月只能抓取 500 頁(yè),更多則需要付費。

圖片
官方網(wǎng)站:
列表里
這也是一個(gè)Chrome插件,可以快速提取網(wǎng)頁(yè)中的數據,轉換成Excel表格導出,操作起來(lái)非常方便。比如獲取一個(gè)電商產(chǎn)品數據,文章列表數據等,使用它可以快速完成。它還支持單頁(yè)和多頁(yè)以及父子頁(yè)的采集,值得一試。

圖片
官方網(wǎng)站:
汞
這是一個(gè)開(kāi)源工具,提供自動(dòng)解析,用 JavaScript 編寫(xiě),還有一個(gè) Chrome 擴展。使用它,我們可以完成對頁(yè)面的智能分析,比如自動(dòng)提取文章標題、正文、發(fā)布時(shí)間等內容。
另外它有開(kāi)源代碼放在GitHub上,我們可以直接安裝使用,使用命令行完成頁(yè)面的智能解析,速度非???。

圖片
官方網(wǎng)站:
刮擦
這可能是 Python 爬蟲(chóng)學(xué)習者最常用的爬蟲(chóng)框架。使用這個(gè)框架,我們可以快速完成爬蟲(chóng)的開(kāi)發(fā)。此外,框架本身性能優(yōu)異,可配置性強。另外,開(kāi)發(fā)者社區非?;钴S,Scrapy有多種配套插件,幾乎可以實(shí)現任何網(wǎng)站的爬取邏輯。強烈推薦。

圖片
官方網(wǎng)站:
PySpider
PySpider是基于Python開(kāi)發(fā)的爬蟲(chóng)工具,具有可視化管理工具,可以通過(guò)在線(xiàn)編程完成爬蟲(chóng)的創(chuàng )建和運行。此外,它還支持對各種數據庫的分布式爬取和存儲。既然是實(shí)現編程的代碼,它的擴展性還是很強的,而且好用。

圖片
GitHub:
阿皮菲
它是一個(gè)基于 Node.js 開(kāi)發(fā)的爬蟲(chóng)庫。由于它是用JavaScript編寫(xiě)的,所以它完全支持對JavaScript渲染的頁(yè)面的爬取,并連接了Puppeteer和Cheerio。此外,它的定制性也很強,支持各種文件格式的導出,支持與Apify Cloud對接,實(shí)現云爬取。

圖片
官方網(wǎng)站:
解析器
ParseHub是一個(gè)基于Web的抓取客戶(hù)端工具,支持JavaScript渲染、Ajax爬取、Cookies、Session等機制,應用可以從網(wǎng)站中分析獲取數據,并將其轉化為有意義的數據。它還可以使用機器學(xué)習技術(shù)來(lái)識別復雜的文檔并導出為 JSON、CSV、Google 表格等。
Parsehub 支持 Windows、Mac 和 Linux,并可作為 Firefox 擴展使用。此外,它還支持一些高級功能,如分頁(yè)、無(wú)限滾動(dòng)頁(yè)面、彈出窗口和導航。您還可以將 ParseHub 中的數據可視化為 Tableau。
當然,這也是收費的,免費版限5個(gè)項目,每次爬取200頁(yè)的上限。付費訂閱可獲得20個(gè)私有項目,每次爬取10000頁(yè),支持高級版IP代理切換等功能。

圖片
官方網(wǎng)站:
Dexi.io
Dexi.io,前身為 CloudScrape。它是一個(gè)爬蟲(chóng)業(yè)務(wù)服務(wù),支持視覺(jué)點(diǎn)擊和抓取,并配備自然語(yǔ)言解析工具,使解析更準確。所有爬取配置都在網(wǎng)頁(yè)上完成,任務(wù)可以通過(guò)控制臺運行完成。日程。此外,它提供了很多代理IP,還集成了第三方內存,包括Google Drive等工具。
這也是收費的,標準版每月 119 美元,支持工人和基本服務(wù),以及更高級別的服務(wù)。但是,支持免費試用。

圖片
官方網(wǎng)站:
八分法
它也是一個(gè)可視化爬蟲(chóng)工具,支持網(wǎng)頁(yè)的可視化點(diǎn)擊,也支持常見(jiàn)的JavaScript渲染、Ajax爬取等,同樣在云端運行和控制,也提供代理服務(wù)。
免費版支持創(chuàng )建10個(gè)爬蟲(chóng),但提供了最基本的服務(wù)。如果您想提供更多代理切換等服務(wù),您需要購買(mǎi)付費版本。標準版每月 75 美元。

圖片
官方網(wǎng)站:
內容抓取器
Content Grabber也是一個(gè)視覺(jué)爬蟲(chóng)工具,同樣支持視覺(jué)點(diǎn)擊、JavaScript渲染、Ajax爬取等功能,以及驗證碼識別等解決方案,并使用Nohodo作為IP代理。數據支持導出為常用格式,也支持PDF格式導出。

圖片
官方網(wǎng)站:
莫曾達
與Mozenda類(lèi)似,也是基于云爬蟲(chóng)服務(wù),同樣支持可視化點(diǎn)擊操作。它由兩部分組成,一部分用于完成數據提取功能,另一部分是Web控制臺,用于運行和控制各個(gè)爬蟲(chóng)服務(wù)。此外,它還提供對 FTP、Amazon S3、Dropbox 等的支持。

圖片
官方網(wǎng)站:
刮板API
本站提供簡(jiǎn)單的頁(yè)面渲染服務(wù),顧名思義,其爬取結果是通過(guò)API操作的。網(wǎng)站提供了很多渲染引擎,我們可以通過(guò)調用提供的API并傳遞不同的參數來(lái)完成頁(yè)面渲染,類(lèi)似于Splash。

圖片
官方網(wǎng)站:
差異機器人
Diffbot 是一個(gè)提供智能解析的站點(diǎn)。比如一個(gè)新聞頁(yè)面,我們不再需要規則來(lái)完成其內容的提取,比如標題、正文、發(fā)布時(shí)間等等。它通過(guò)一些機器學(xué)習算法、圖像識別、自然語(yǔ)言處理等解決方案進(jìn)行了全面解析。

圖片
官方網(wǎng)站:
進(jìn)口.io
Import.io 可以說(shuō)不僅僅是一個(gè)爬蟲(chóng)服務(wù)網(wǎng)站,它提供了從數據爬取、清洗、處理到應用的一整套解決方案,涉及零售與制造、數據爬取與處理、機器學(xué)習算法、風(fēng)控等解決方案。

圖片
官方網(wǎng)站:
嵌入
實(shí)際上,Embed.ly 提供了一種自動(dòng)獲取圖片、視頻、投票、幻燈片、音樂(lè )、實(shí)時(shí)視頻、表格、GIF、圖表等功能的服務(wù)。頁(yè)面分析與爬蟲(chóng)有關(guān)。它提供了一個(gè)智能的頁(yè)面解析解決方案,類(lèi)似于Diffbot,可以自動(dòng)完成頁(yè)面解析。

圖片
官方網(wǎng)站:
刮風(fēng)風(fēng)暴
這個(gè)網(wǎng)站提供了一個(gè)可視化爬蟲(chóng)工具,支持Mac、Windows、Linux。該工具非常強大。支持自動(dòng)翻頁(yè)、自動(dòng)內容識別、JavaScript渲染、模擬登錄爬取。
然而我下載使用后,居然是優(yōu)采云采集器?看來(lái)本站盜用了優(yōu)采云采集器的源碼。

圖片
官方網(wǎng)站:
神劍手
優(yōu)采云,這可以說(shuō)是國內最好的爬蟲(chóng)平臺之一。后臺爬蟲(chóng)用JavaScript編寫(xiě),支持可視化點(diǎn)擊和代碼編寫(xiě)。它還提供云爬取、驗證碼識別和分布式爬取。、JavaScript 渲染等。
此外,優(yōu)采云還提供規則市場(chǎng)、數據標注和數據API服務(wù)。目前,機器學(xué)習相關(guān)的服務(wù)也在列,它們也在向智能化方向發(fā)展。
另外,優(yōu)采云下面還有一個(gè)優(yōu)采云采集器,就是上面介紹的ScrapeStorm使用的爬取工具。它非常強大,支持智能分析。值得一試。

圖片
官方網(wǎng)站:
八爪魚(yú)
優(yōu)采云采集器,在國內可以說(shuō)是比較有名的采集器了,功能和優(yōu)采云采集器差不多,可以完成相關(guān)通過(guò)可視化點(diǎn)擊配置爬蟲(chóng),部分功能比優(yōu)采云采集器更強大。
此外,官方還提供了規則市場(chǎng),獲取規則快速完成數據爬取,無(wú)需關(guān)心爬取邏輯。

圖片
官方網(wǎng)站:
棗樹(shù)
它是一家數據爬取服務(wù)提供商,但不再針對個(gè)人用戶(hù)。主要提供企業(yè)數據服務(wù)。還提供可視化點(diǎn)擊數據爬取服務(wù),也可以通過(guò)一些配置采集完成復雜的頁(yè)面。

圖片
官方網(wǎng)站:
免規則采集器列表算法(文檔介紹會(huì )計學(xué)1計算采集器的步驟及文檔)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 180 次瀏覽 ? 2022-01-25 16:07
文檔介紹
會(huì )計
1
計算采集器
在安裝過(guò)程中配置它
在安裝過(guò)程中配置它
與服務(wù)器安裝在同一臺機器上時(shí),無(wú)需配置
雖然這不是最好的方法,但 Compute采集器 可以安裝在與其最終服務(wù)器分開(kāi)的計算機上
在這種情況下,必須在安裝時(shí)確定服務(wù)器名稱(chēng)
第 1 頁(yè)/共 14 頁(yè)
在管理器中配置
B. 在管理器中配置
設置計算超時(shí)
確定 采集器 執行操作所允許的最長(cháng)時(shí)間
最大恢復時(shí)間
重新計算時(shí)的最大回溯時(shí)間限制
第 2 頁(yè)/共 14 頁(yè)
對康復的理解
C. 對恢復的理解
當 采集器 與其服務(wù)器斷開(kāi)連接時(shí),如果它重新連接到服務(wù)器,它會(huì )恢復斷開(kāi)連接時(shí)完成的操作。
在 采集器 配置中設置恢復邏輯運行的最長(cháng)時(shí)間。
這個(gè)值稱(chēng)為最大恢復時(shí)間
默認為 4 小時(shí)
按時(shí)間順序,從最舊到最新的操作被恢復
恢復邏輯會(huì )返回到最后一次歸檔操作或最長(cháng)恢復時(shí)間,無(wú)論哪個(gè)都無(wú)關(guān)緊要,并將其用作起點(diǎn)。以下事件將觸發(fā)恢復:
當操作 采集器 開(kāi)始時(shí)
暫停時(shí)重啟采集器
當發(fā)生在線(xiàn)更改時(shí)(類(lèi)似于停止和重新啟動(dòng))
僅恢復新標簽配置中的標簽
與存檔服務(wù)器的連接恢復后
第 3 頁(yè),共 14 頁(yè)
手動(dòng)重新計算
手動(dòng)重新計算
操作采集器可以手動(dòng)重新計算
這樣做的好處是:
當您更改操作時(shí)
當自動(dòng)恢復功能既不恢復所有信息也不觸發(fā)時(shí)
例如:
在檔案中,自動(dòng)恢復功能可以回到最近的操作作為恢復邏輯的起點(diǎn)
如果在恢復發(fā)生時(shí)向操作提供數據的 采集器 正在緩沖數據,則它會(huì )啟動(dòng)不包括標簽數據的操作
在這種情況下,重新計算需要一些時(shí)間才能恢復并需要更正或更改
第 4 頁(yè),共 14 頁(yè)
配置手動(dòng)重新運行
E. 配置手動(dòng)重新運行的步驟
在 Manager 中選擇 采集器on-screen 計算或服務(wù)器到服務(wù)器采集器
單擊重新計算按鈕
設置開(kāi)始和結束時(shí)間
選擇要重新計算的標簽選項
選擇所有標簽
瀏覽指定操作采集器標簽
?。ㄈ绻堰x擇選項,請瀏覽選項卡并選擇它們)
單擊重新計算按鈕
在確認對話(huà)框中單擊確定
第 5 頁(yè),共 14 頁(yè)
添加操作標簽,實(shí)現操作
A. 添加標簽到 采集器
在管理器操作中,要添加標簽,您必須使用手動(dòng)標簽對話(huà)框
一旦操作采集器被選為資源地址,就不能使用了
操作標簽的數據資源是它自己的操作
三個(gè)標簽用于創(chuàng )建計算標簽
數據源標簽
計算公式中使用的一個(gè)或多個(gè)標簽
目標標簽
真實(shí)標簽存儲計算值
也可以在此選項卡中創(chuàng )建和存儲操作
觸發(fā)標簽
用于創(chuàng )建未經(jīng)請求的標簽
當觸發(fā)標簽中的數據發(fā)生變化時(shí),更新操作標簽
當觸發(fā)標簽獲得新值、新時(shí)間戳或質(zhì)量更改時(shí)會(huì )發(fā)生更新
輪詢(xún)標簽不能使用觸發(fā)標簽
復制標簽的鏈接可用于復制操作標簽,有助于減少開(kāi)發(fā)時(shí)間
第 6 頁(yè),共 14 頁(yè)
創(chuàng )建操作
B. 創(chuàng )建操作
在管理器選項卡屏幕中選擇計算選項卡時(shí),計算選項可用
所有操作必須包括 Result =
Visual Basic Sc??ript 是一種腳本語(yǔ)言
計算以?xún)煞N方式添加到標簽中:
使用向導
通過(guò)向導瀏覽工具,服務(wù)器上的所有選項卡都可用
從幾個(gè)不同的功能中選擇
輸入手動(dòng)腳本
電子書(shū)中提供了許多示例腳本
使用窗口按鈕擴展編輯區域
第 7 頁(yè),共 14 頁(yè)
內置函數說(shuō)明
當前值(標記名)
計算
當前質(zhì)量(標記名)
過(guò)濾計算
當前時(shí)間
日志消息(字符串消息)
上一個(gè)值(標記名,時(shí)間)
上一個(gè)質(zhì)量(標記名、時(shí)間)
上一個(gè)時(shí)間(標記名,時(shí)間)
NextValue(標記名,時(shí)間)
NextQuality(標記名,時(shí)間)
NextTime(標記名,時(shí)間)
插值(標記名,時(shí)間)
第 8 頁(yè)/共 14 頁(yè)
捷徑法
捷徑
意義
現在
現在(您執行查詢(xún)的時(shí)間和日期)
今天
今天半夜
昨天
昨天午夜
男生
一年中的第一天午夜
EOY
一年中的最后一天午夜
物料清單
第一大 查看全部
免規則采集器列表算法(文檔介紹會(huì )計學(xué)1計算采集器的步驟及文檔)
文檔介紹
會(huì )計
1
計算采集器
在安裝過(guò)程中配置它
在安裝過(guò)程中配置它
與服務(wù)器安裝在同一臺機器上時(shí),無(wú)需配置
雖然這不是最好的方法,但 Compute采集器 可以安裝在與其最終服務(wù)器分開(kāi)的計算機上
在這種情況下,必須在安裝時(shí)確定服務(wù)器名稱(chēng)
第 1 頁(yè)/共 14 頁(yè)
在管理器中配置
B. 在管理器中配置
設置計算超時(shí)
確定 采集器 執行操作所允許的最長(cháng)時(shí)間
最大恢復時(shí)間
重新計算時(shí)的最大回溯時(shí)間限制
第 2 頁(yè)/共 14 頁(yè)
對康復的理解
C. 對恢復的理解
當 采集器 與其服務(wù)器斷開(kāi)連接時(shí),如果它重新連接到服務(wù)器,它會(huì )恢復斷開(kāi)連接時(shí)完成的操作。
在 采集器 配置中設置恢復邏輯運行的最長(cháng)時(shí)間。
這個(gè)值稱(chēng)為最大恢復時(shí)間
默認為 4 小時(shí)
按時(shí)間順序,從最舊到最新的操作被恢復
恢復邏輯會(huì )返回到最后一次歸檔操作或最長(cháng)恢復時(shí)間,無(wú)論哪個(gè)都無(wú)關(guān)緊要,并將其用作起點(diǎn)。以下事件將觸發(fā)恢復:
當操作 采集器 開(kāi)始時(shí)
暫停時(shí)重啟采集器
當發(fā)生在線(xiàn)更改時(shí)(類(lèi)似于停止和重新啟動(dòng))
僅恢復新標簽配置中的標簽
與存檔服務(wù)器的連接恢復后
第 3 頁(yè),共 14 頁(yè)
手動(dòng)重新計算
手動(dòng)重新計算
操作采集器可以手動(dòng)重新計算
這樣做的好處是:
當您更改操作時(shí)
當自動(dòng)恢復功能既不恢復所有信息也不觸發(fā)時(shí)
例如:
在檔案中,自動(dòng)恢復功能可以回到最近的操作作為恢復邏輯的起點(diǎn)
如果在恢復發(fā)生時(shí)向操作提供數據的 采集器 正在緩沖數據,則它會(huì )啟動(dòng)不包括標簽數據的操作
在這種情況下,重新計算需要一些時(shí)間才能恢復并需要更正或更改
第 4 頁(yè),共 14 頁(yè)
配置手動(dòng)重新運行
E. 配置手動(dòng)重新運行的步驟
在 Manager 中選擇 采集器on-screen 計算或服務(wù)器到服務(wù)器采集器
單擊重新計算按鈕
設置開(kāi)始和結束時(shí)間
選擇要重新計算的標簽選項
選擇所有標簽
瀏覽指定操作采集器標簽
?。ㄈ绻堰x擇選項,請瀏覽選項卡并選擇它們)
單擊重新計算按鈕
在確認對話(huà)框中單擊確定
第 5 頁(yè),共 14 頁(yè)
添加操作標簽,實(shí)現操作
A. 添加標簽到 采集器
在管理器操作中,要添加標簽,您必須使用手動(dòng)標簽對話(huà)框
一旦操作采集器被選為資源地址,就不能使用了
操作標簽的數據資源是它自己的操作
三個(gè)標簽用于創(chuàng )建計算標簽
數據源標簽
計算公式中使用的一個(gè)或多個(gè)標簽
目標標簽
真實(shí)標簽存儲計算值
也可以在此選項卡中創(chuàng )建和存儲操作
觸發(fā)標簽
用于創(chuàng )建未經(jīng)請求的標簽
當觸發(fā)標簽中的數據發(fā)生變化時(shí),更新操作標簽
當觸發(fā)標簽獲得新值、新時(shí)間戳或質(zhì)量更改時(shí)會(huì )發(fā)生更新
輪詢(xún)標簽不能使用觸發(fā)標簽
復制標簽的鏈接可用于復制操作標簽,有助于減少開(kāi)發(fā)時(shí)間
第 6 頁(yè),共 14 頁(yè)
創(chuàng )建操作
B. 創(chuàng )建操作
在管理器選項卡屏幕中選擇計算選項卡時(shí),計算選項可用
所有操作必須包括 Result =
Visual Basic Sc??ript 是一種腳本語(yǔ)言
計算以?xún)煞N方式添加到標簽中:
使用向導
通過(guò)向導瀏覽工具,服務(wù)器上的所有選項卡都可用
從幾個(gè)不同的功能中選擇
輸入手動(dòng)腳本
電子書(shū)中提供了許多示例腳本
使用窗口按鈕擴展編輯區域
第 7 頁(yè),共 14 頁(yè)
內置函數說(shuō)明
當前值(標記名)
計算
當前質(zhì)量(標記名)
過(guò)濾計算
當前時(shí)間
日志消息(字符串消息)
上一個(gè)值(標記名,時(shí)間)
上一個(gè)質(zhì)量(標記名、時(shí)間)
上一個(gè)時(shí)間(標記名,時(shí)間)
NextValue(標記名,時(shí)間)
NextQuality(標記名,時(shí)間)
NextTime(標記名,時(shí)間)
插值(標記名,時(shí)間)
第 8 頁(yè)/共 14 頁(yè)
捷徑法
捷徑
意義
現在
現在(您執行查詢(xún)的時(shí)間和日期)
今天
今天半夜
昨天
昨天午夜
男生
一年中的第一天午夜
EOY
一年中的最后一天午夜
物料清單
第一大
免規則采集器列表算法( 原型式產(chǎn)品需求文檔的一級導航(PRD)怎么做?)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 137 次瀏覽 ? 2022-01-21 14:17
原型式產(chǎn)品需求文檔的一級導航(PRD)怎么做?)
目前互聯(lián)網(wǎng)產(chǎn)品迭代的速度越來(lái)越快,大家都在追求一種小而美的MPV產(chǎn)品開(kāi)發(fā)方式,以應對市場(chǎng)的快速發(fā)展變化。
傳統產(chǎn)品經(jīng)理使用Axure繪制原型圖,使用word輸出產(chǎn)品開(kāi)發(fā)需求規范(PRD),耗時(shí)耗力。最后,開(kāi)發(fā)和測試的小伙伴可能不喜歡看,因為他們需要看原型圖并打開(kāi)它。PRD 文檔和其他各種產(chǎn)品文檔看起來(lái)很麻煩。
結合這個(gè)痛點(diǎn),我推薦在原型圖的基礎上編寫(xiě)產(chǎn)品需求文檔,這樣不僅可以節省產(chǎn)品經(jīng)理的時(shí)間,而且開(kāi)發(fā)和測試也不需要閱讀那么多文檔,提高了整體的工作效率。團隊。
首先打開(kāi)原型產(chǎn)品需求文檔。整個(gè)文檔界面的頂部分為黑色的主導航區和紅色的輔助導航區。
如下圖,黑色的一級導航可以選擇不同的目錄輪廓。每個(gè)一級導航與多個(gè)二級導航菜單相關(guān)聯(lián)。每個(gè)二級導航菜單下方是我們產(chǎn)品需求文檔的具體內容。
原型需求文檔的一級導航分為四個(gè)模塊:產(chǎn)品介紹、思維導圖、原型圖、非功能需求。每個(gè)模塊都有多個(gè)子菜單模塊。下面開(kāi)始詳細講解二級導航的菜單。
一、產(chǎn)品介紹1. 產(chǎn)品說(shuō)明
主要作用是幫助大家更清楚地了解需求的背景和目的。為什么這樣做?怎么做?通過(guò)閱讀本文檔,您可以清楚地了解產(chǎn)品的全線(xiàn)需求,如下圖所示。
2. 功能列表
主要功能是告訴你當前版本涉及到哪些需求點(diǎn)和功能點(diǎn),每個(gè)需求點(diǎn)的一般需求描述是如何實(shí)現的,設計邏輯是什么。
3. 修訂歷史
主要功能是在外部審核需求后,記錄每次修改需求中的哪些頁(yè)面、哪些字段、哪些邏輯等,并記錄修改前的邏輯和頁(yè)面中的修改。
修訂歷史列表支持跳轉到修訂詳情頁(yè)面,方便大家快速了解和查看。后面我會(huì )單獨寫(xiě)一個(gè)原型需求文檔編寫(xiě)規范再詳細介紹。
4. 版本介紹
主要定義當前版本號、版本上線(xiàn)時(shí)更新和發(fā)布的內容、上線(xiàn)更新方式、應用商店截圖是否更新,并進(jìn)行說(shuō)明。
二、思維導圖
本模塊主要幫助您了解產(chǎn)品的整體系統設計架構、功能、信息結構,并以圖表的形式梳理產(chǎn)品邏輯和流程。
本模塊不限于這4個(gè)內容,所有對大家理解產(chǎn)品有幫助的圖都可以在本模塊中呈現,如:序列圖、泳道圖、用例圖、關(guān)系圖、狀態(tài)圖、行為數據圖、操作流程圖、財務(wù)資助進(jìn)度表等。
1. 功能結構圖
是介紹功能模塊類(lèi)別下各模塊功能的圖。一個(gè)功能模塊可以是完成某項任務(wù)的一組程序,一個(gè)功能點(diǎn)可以是程序中的某個(gè)處理過(guò)程。
方便大家對功能結構形成直觀(guān)的認識,防止產(chǎn)品需求轉化為功能需求的過(guò)程中出現功能模塊和功能點(diǎn)缺失的現象。
2. 信息結構圖
它是從產(chǎn)品的實(shí)際頁(yè)面中分離出來(lái),對產(chǎn)品的數據進(jìn)行抽象,并結合分類(lèi)的圖表。提示大家查看產(chǎn)品復雜的信息內容時(shí)是否會(huì )出現遺漏、混淆、重復等情況,可以作為開(kāi)發(fā)工程師建立數據庫的參考。
3. 業(yè)務(wù)流程圖
是業(yè)務(wù)需求不同階段各功能模塊之間信息流動(dòng)和交互的過(guò)程,以圖表的形式呈現。它的作用是幫助你全面了解業(yè)務(wù)處理的過(guò)程,分析業(yè)務(wù)的合理性,幫助開(kāi)發(fā)可以實(shí)現計算機的處理部分。
4. 功能流程圖
它是針對功能的特定功能點(diǎn)系統的處理流程。這個(gè)過(guò)程可以和當前的功能點(diǎn)需求文檔一起呈現,更有利于大家閱讀理解的連貫性。
5. 時(shí)序圖
它反映了對象之間交互的順序,是前端和服務(wù)器端消息傳遞和數據交互建模的基礎。它可以幫助開(kāi)發(fā)人員了解產(chǎn)品功能是如何實(shí)現的,以及如何設計開(kāi)發(fā)文檔。
三、原型圖1.業(yè)務(wù)規則
是通過(guò)一定的約束來(lái)限制、控制和影響業(yè)務(wù)的行為。通過(guò)這個(gè)內容,你可以清楚的看到整個(gè)產(chǎn)品中存在多少業(yè)務(wù)規則和限制。
2. 全局描述
用于描述在整個(gè)產(chǎn)品線(xiàn)中遇到的全局性問(wèn)題,以及描述在不同位置頻繁出現的一些相同類(lèi)型的信息。功能是方便大家集中閱讀產(chǎn)品需求中的常見(jiàn)需求點(diǎn),也方便需求的維護和管理。
3. 原型頁(yè)面列表
它是當前版本中要設計和開(kāi)發(fā)的所有頁(yè)面的列表。通過(guò)這個(gè)內容可以直觀(guān)的看到具體的開(kāi)發(fā)任務(wù),也可以通過(guò)這個(gè)內容查看各個(gè)功能和頁(yè)面的具體產(chǎn)品設計需求文檔。
4. 產(chǎn)品規格
分為交互規范、視覺(jué)設計規范和其他說(shuō)明。事實(shí)上,它與全局描述有些相似。為了方便大家更好的理解和區分全局問(wèn)題和規范的區別,我們分成兩部分進(jìn)行說(shuō)明。
四、非功能性需求
非功能性需求是產(chǎn)品為了滿(mǎn)足用戶(hù)的使用和操作需要而必須具備的功能性需求以外的需求。
不僅限于以上四個(gè)內容,還可能包括安全需求、易用性、可擴展性、可維護性需求、網(wǎng)絡(luò )需求、數據需求、接口需求、統計需求、服務(wù)器-客戶(hù)端交互需求等需求,本模塊僅需要以上4個(gè)內容作為基本要求。
1. 數據埋葬
它是一種數據采集的方式,是未來(lái)數據分析的基礎。
2. 兼容性要求
當前版本的內容和歷史版本的內容在系統中協(xié)同工作,不能產(chǎn)生bug,必須兼容新舊功能和歷史數據的正常運行。
3. 性能要求
它是從系統的數據性能、系統的并發(fā)性、響應特性和系統的結構特性對系統性能的需求。
4. 測試要求
就是組織測試焦點(diǎn)(邏輯、數據、流程),明確測試焦點(diǎn)的優(yōu)先級,為測試伙伴提供測試用例所需的功能信息。
最后我想說(shuō),一份好的《原型產(chǎn)品需求文檔》還需要整個(gè)產(chǎn)品、開(kāi)發(fā)、測試團隊的不斷磨合和應用。分享一下我的產(chǎn)品體驗,希望對大家有幫助,謝謝!
本文由@Brilliant 千陽(yáng)原創(chuàng ) 發(fā)表 每個(gè)人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉載。
標題圖片來(lái)自 Unsplash,基于 CC0 協(xié)議。 查看全部
免規則采集器列表算法(
原型式產(chǎn)品需求文檔的一級導航(PRD)怎么做?)
目前互聯(lián)網(wǎng)產(chǎn)品迭代的速度越來(lái)越快,大家都在追求一種小而美的MPV產(chǎn)品開(kāi)發(fā)方式,以應對市場(chǎng)的快速發(fā)展變化。
傳統產(chǎn)品經(jīng)理使用Axure繪制原型圖,使用word輸出產(chǎn)品開(kāi)發(fā)需求規范(PRD),耗時(shí)耗力。最后,開(kāi)發(fā)和測試的小伙伴可能不喜歡看,因為他們需要看原型圖并打開(kāi)它。PRD 文檔和其他各種產(chǎn)品文檔看起來(lái)很麻煩。
結合這個(gè)痛點(diǎn),我推薦在原型圖的基礎上編寫(xiě)產(chǎn)品需求文檔,這樣不僅可以節省產(chǎn)品經(jīng)理的時(shí)間,而且開(kāi)發(fā)和測試也不需要閱讀那么多文檔,提高了整體的工作效率。團隊。
首先打開(kāi)原型產(chǎn)品需求文檔。整個(gè)文檔界面的頂部分為黑色的主導航區和紅色的輔助導航區。
如下圖,黑色的一級導航可以選擇不同的目錄輪廓。每個(gè)一級導航與多個(gè)二級導航菜單相關(guān)聯(lián)。每個(gè)二級導航菜單下方是我們產(chǎn)品需求文檔的具體內容。
原型需求文檔的一級導航分為四個(gè)模塊:產(chǎn)品介紹、思維導圖、原型圖、非功能需求。每個(gè)模塊都有多個(gè)子菜單模塊。下面開(kāi)始詳細講解二級導航的菜單。
一、產(chǎn)品介紹1. 產(chǎn)品說(shuō)明
主要作用是幫助大家更清楚地了解需求的背景和目的。為什么這樣做?怎么做?通過(guò)閱讀本文檔,您可以清楚地了解產(chǎn)品的全線(xiàn)需求,如下圖所示。
2. 功能列表
主要功能是告訴你當前版本涉及到哪些需求點(diǎn)和功能點(diǎn),每個(gè)需求點(diǎn)的一般需求描述是如何實(shí)現的,設計邏輯是什么。
3. 修訂歷史
主要功能是在外部審核需求后,記錄每次修改需求中的哪些頁(yè)面、哪些字段、哪些邏輯等,并記錄修改前的邏輯和頁(yè)面中的修改。
修訂歷史列表支持跳轉到修訂詳情頁(yè)面,方便大家快速了解和查看。后面我會(huì )單獨寫(xiě)一個(gè)原型需求文檔編寫(xiě)規范再詳細介紹。
4. 版本介紹
主要定義當前版本號、版本上線(xiàn)時(shí)更新和發(fā)布的內容、上線(xiàn)更新方式、應用商店截圖是否更新,并進(jìn)行說(shuō)明。
二、思維導圖
本模塊主要幫助您了解產(chǎn)品的整體系統設計架構、功能、信息結構,并以圖表的形式梳理產(chǎn)品邏輯和流程。
本模塊不限于這4個(gè)內容,所有對大家理解產(chǎn)品有幫助的圖都可以在本模塊中呈現,如:序列圖、泳道圖、用例圖、關(guān)系圖、狀態(tài)圖、行為數據圖、操作流程圖、財務(wù)資助進(jìn)度表等。
1. 功能結構圖
是介紹功能模塊類(lèi)別下各模塊功能的圖。一個(gè)功能模塊可以是完成某項任務(wù)的一組程序,一個(gè)功能點(diǎn)可以是程序中的某個(gè)處理過(guò)程。
方便大家對功能結構形成直觀(guān)的認識,防止產(chǎn)品需求轉化為功能需求的過(guò)程中出現功能模塊和功能點(diǎn)缺失的現象。
2. 信息結構圖
它是從產(chǎn)品的實(shí)際頁(yè)面中分離出來(lái),對產(chǎn)品的數據進(jìn)行抽象,并結合分類(lèi)的圖表。提示大家查看產(chǎn)品復雜的信息內容時(shí)是否會(huì )出現遺漏、混淆、重復等情況,可以作為開(kāi)發(fā)工程師建立數據庫的參考。
3. 業(yè)務(wù)流程圖
是業(yè)務(wù)需求不同階段各功能模塊之間信息流動(dòng)和交互的過(guò)程,以圖表的形式呈現。它的作用是幫助你全面了解業(yè)務(wù)處理的過(guò)程,分析業(yè)務(wù)的合理性,幫助開(kāi)發(fā)可以實(shí)現計算機的處理部分。
4. 功能流程圖
它是針對功能的特定功能點(diǎn)系統的處理流程。這個(gè)過(guò)程可以和當前的功能點(diǎn)需求文檔一起呈現,更有利于大家閱讀理解的連貫性。
5. 時(shí)序圖
它反映了對象之間交互的順序,是前端和服務(wù)器端消息傳遞和數據交互建模的基礎。它可以幫助開(kāi)發(fā)人員了解產(chǎn)品功能是如何實(shí)現的,以及如何設計開(kāi)發(fā)文檔。
三、原型圖1.業(yè)務(wù)規則
是通過(guò)一定的約束來(lái)限制、控制和影響業(yè)務(wù)的行為。通過(guò)這個(gè)內容,你可以清楚的看到整個(gè)產(chǎn)品中存在多少業(yè)務(wù)規則和限制。
2. 全局描述
用于描述在整個(gè)產(chǎn)品線(xiàn)中遇到的全局性問(wèn)題,以及描述在不同位置頻繁出現的一些相同類(lèi)型的信息。功能是方便大家集中閱讀產(chǎn)品需求中的常見(jiàn)需求點(diǎn),也方便需求的維護和管理。
3. 原型頁(yè)面列表
它是當前版本中要設計和開(kāi)發(fā)的所有頁(yè)面的列表。通過(guò)這個(gè)內容可以直觀(guān)的看到具體的開(kāi)發(fā)任務(wù),也可以通過(guò)這個(gè)內容查看各個(gè)功能和頁(yè)面的具體產(chǎn)品設計需求文檔。
4. 產(chǎn)品規格
分為交互規范、視覺(jué)設計規范和其他說(shuō)明。事實(shí)上,它與全局描述有些相似。為了方便大家更好的理解和區分全局問(wèn)題和規范的區別,我們分成兩部分進(jìn)行說(shuō)明。
四、非功能性需求
非功能性需求是產(chǎn)品為了滿(mǎn)足用戶(hù)的使用和操作需要而必須具備的功能性需求以外的需求。
不僅限于以上四個(gè)內容,還可能包括安全需求、易用性、可擴展性、可維護性需求、網(wǎng)絡(luò )需求、數據需求、接口需求、統計需求、服務(wù)器-客戶(hù)端交互需求等需求,本模塊僅需要以上4個(gè)內容作為基本要求。
1. 數據埋葬
它是一種數據采集的方式,是未來(lái)數據分析的基礎。
2. 兼容性要求
當前版本的內容和歷史版本的內容在系統中協(xié)同工作,不能產(chǎn)生bug,必須兼容新舊功能和歷史數據的正常運行。
3. 性能要求
它是從系統的數據性能、系統的并發(fā)性、響應特性和系統的結構特性對系統性能的需求。
4. 測試要求
就是組織測試焦點(diǎn)(邏輯、數據、流程),明確測試焦點(diǎn)的優(yōu)先級,為測試伙伴提供測試用例所需的功能信息。
最后我想說(shuō),一份好的《原型產(chǎn)品需求文檔》還需要整個(gè)產(chǎn)品、開(kāi)發(fā)、測試團隊的不斷磨合和應用。分享一下我的產(chǎn)品體驗,希望對大家有幫助,謝謝!
本文由@Brilliant 千陽(yáng)原創(chuàng ) 發(fā)表 每個(gè)人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉載。
標題圖片來(lái)自 Unsplash,基于 CC0 協(xié)議。
免規則采集器列表算法(谷歌搜索引擎網(wǎng)站郵箱采集神器下載地址介紹,你可以用它做什么)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 120 次瀏覽 ? 2022-01-18 21:05
谷歌搜索引擎網(wǎng)站電子郵件采集神器
以下是他的功能介紹;
你能用它做什么
它旨在從各種來(lái)源采集唯一的電子郵件地址、電話(huà)、Skype ID:
電子郵件提取器在運行電子郵件營(yíng)銷(xiāo)活動(dòng)中非常有用。每個(gè)電子郵件活動(dòng)都需要大量的電子郵件地址。手動(dòng)提取電子郵件地址幾乎是不可能的。電子郵件提取器是使用郵箱中的文件構建客戶(hù)電子郵件列表的理想工具。您可以下載電子郵件提取器的免費試用版并測試它是否適合您。
電子郵件提取器的工作原理
現在,使用我們的電子郵件蜘蛛軟件采集免費電子郵件地址變得更加容易??梢詫⑹褂秒娮余]件提取器與使用 Internet 搜索引擎進(jìn)行比較。您需要做的就是輸入一個(gè)特定的關(guān)鍵字,電子郵件提取器將直接從最流行的搜索引擎(如 Google、Yahoo!、AOL 或您想要的任何其他引擎)采集排名靠前的頁(yè)面。該實(shí)用程序具有其他流行的電子郵件提取器中沒(méi)有的獨特的高級關(guān)鍵字搜索功能。電子郵件提取器具有高級掃描限制器。限制器可以?xún)H從網(wǎng)頁(yè)中提取所需的電子郵件地址。電子郵件地址提取器是一個(gè)全自動(dòng)的電子郵件查找器。您只需要指定一些詳細信息,電子郵件蜘蛛就會(huì )為您完成繁重的工作。Email Extractor 是一個(gè)非??焖俚碾娮余]件蜘蛛,并支持多線(xiàn)程頁(yè)面加載。
優(yōu)勢:
與其他電子郵件提取器相比
電子郵件提取器是網(wǎng)絡(luò )上最快的電子郵件采集器。與其他電子郵件收錄 提取器不同,Email Extractor 具有提取軟件的所有基本功能:速度極快、易于使用且功能豐富。
郵箱采集器下載地址:
注意:本郵箱采集器僅供學(xué)習研究,為外國人開(kāi)發(fā),不得用于非法用途; 查看全部
免規則采集器列表算法(谷歌搜索引擎網(wǎng)站郵箱采集神器下載地址介紹,你可以用它做什么)
谷歌搜索引擎網(wǎng)站電子郵件采集神器
以下是他的功能介紹;
你能用它做什么
它旨在從各種來(lái)源采集唯一的電子郵件地址、電話(huà)、Skype ID:
電子郵件提取器在運行電子郵件營(yíng)銷(xiāo)活動(dòng)中非常有用。每個(gè)電子郵件活動(dòng)都需要大量的電子郵件地址。手動(dòng)提取電子郵件地址幾乎是不可能的。電子郵件提取器是使用郵箱中的文件構建客戶(hù)電子郵件列表的理想工具。您可以下載電子郵件提取器的免費試用版并測試它是否適合您。
電子郵件提取器的工作原理
現在,使用我們的電子郵件蜘蛛軟件采集免費電子郵件地址變得更加容易??梢詫⑹褂秒娮余]件提取器與使用 Internet 搜索引擎進(jìn)行比較。您需要做的就是輸入一個(gè)特定的關(guān)鍵字,電子郵件提取器將直接從最流行的搜索引擎(如 Google、Yahoo!、AOL 或您想要的任何其他引擎)采集排名靠前的頁(yè)面。該實(shí)用程序具有其他流行的電子郵件提取器中沒(méi)有的獨特的高級關(guān)鍵字搜索功能。電子郵件提取器具有高級掃描限制器。限制器可以?xún)H從網(wǎng)頁(yè)中提取所需的電子郵件地址。電子郵件地址提取器是一個(gè)全自動(dòng)的電子郵件查找器。您只需要指定一些詳細信息,電子郵件蜘蛛就會(huì )為您完成繁重的工作。Email Extractor 是一個(gè)非??焖俚碾娮余]件蜘蛛,并支持多線(xiàn)程頁(yè)面加載。
優(yōu)勢:
與其他電子郵件提取器相比
電子郵件提取器是網(wǎng)絡(luò )上最快的電子郵件采集器。與其他電子郵件收錄 提取器不同,Email Extractor 具有提取軟件的所有基本功能:速度極快、易于使用且功能豐富。
郵箱采集器下載地址:
注意:本郵箱采集器僅供學(xué)習研究,為外國人開(kāi)發(fā),不得用于非法用途;
免規則采集器列表算法(一下精準推薦的整體架構以及核心算法的實(shí)現原理總結)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 135 次瀏覽 ? 2022-01-18 21:02
目錄 前言 推薦架構 算法模型 傳統推薦算法總結 前言
相信很多小伙伴都聽(tīng)說(shuō)過(guò)大數據、AI推薦、千人千面等高級詞匯;我也經(jīng)??吹?,在很多app中,經(jīng)常會(huì )向我們推薦一些產(chǎn)品,猜你喜歡,重點(diǎn)推薦等服務(wù)。
很多朋友也應該去網(wǎng)上了解一下,發(fā)現真的是一頭霧水,尤其是看到一些算法的時(shí)候,那些數學(xué)公式讓人頭疼。今天老谷就嘗試介紹一下精準推薦的整體架構,以及核心算法的實(shí)現原理,讓小伙伴們盡可能的了解。
注意:閱讀本文的朋友文章需要有一定的java基礎和elasticsearch知識。
推薦架構
下面是一個(gè)通用的推薦系統架構圖
上述架構圖的流程從兩個(gè)維度來(lái)看
用戶(hù)請求路徑
1)用戶(hù)終端發(fā)起請求,傳入核心標簽UserId
因為有些平臺在很多地方都有推薦服務(wù),比如:購物車(chē)下的【精品推薦】,商品詳情里的【猜你喜歡】,商品列表里的【熱推薦】等;所以終端經(jīng)常會(huì )帶來(lái)這樣的場(chǎng)景。參數,不同的場(chǎng)景會(huì )對應不同的模型數據
2)然后后臺接口發(fā)起對推薦服務(wù)的調用
3)任何精準推薦都會(huì )有召回、排序、業(yè)務(wù)重排三個(gè)階段;
這三個(gè)是什么意思?拿張圖簡(jiǎn)單解釋一下
通過(guò)步驟,可以達到推薦,千人千面的效果;整個(gè)流程的核心是召回算法和排序算法;我們從后臺看一下數據分析維度的路徑。
數據分析路徑
任何分析都需要材料。材料是什么?其實(shí)這幾年朋友們聽(tīng)得最多的就是大數據了;什么是大數據?簡(jiǎn)單的理解就是數據量大,數據維度多。我們可以分析這么多數據。
在上面推薦的架構圖中:
1)我們通過(guò)在終端埋點(diǎn)采集用戶(hù)行為日志,并存儲在大數據平臺中。
2)采集業(yè)務(wù)數據,采集用戶(hù)偏好行為數據,如:采集、點(diǎn)贊、評論等;存儲在大數據平臺
3)基于大數據平臺的數據,通過(guò)一些算法對數據進(jìn)行分析,得到訓練模型。
4)通過(guò)訓練好的模型可以獲得相關(guān)推薦數據。
5)將獲取的推薦數據保存到mysql/redis等持久化工具中。
為了達到用戶(hù)請求的性能,推薦的數據會(huì )提前存儲在數據庫中,以保證用戶(hù)體驗。
算法模型
什么是算法?什么是模型?讓我給你一個(gè)小學(xué)一年級的問(wèn)題
題目:找出規律,填寫(xiě)下面的值
1、3、5、7、9、11、13、?、?
大家一看就知道答案了吧?我們不是在這里討論最終答案是什么。我們來(lái)分析一下答案是怎么來(lái)的?
看到上面的題目,我們來(lái)分解一下;我們已經(jīng)知道一組數據
1、3、5、7、9、11、13
這些數據實(shí)際上等價(jià)于我們 采集 的已知數據。
上面的問(wèn)題現在我們需要根據已知數據來(lái)推斷接下來(lái)的 2 個(gè)數字是什么?
也就是我們知道用戶(hù)的行為數據,然后對產(chǎn)品進(jìn)行預測和推薦給用戶(hù)。
算法
根據上面的標題,我們一眼就能看出第二個(gè)數比第一個(gè)數大2,即x2 = x1 + 2;在數學(xué)中,技術(shù)術(shù)語(yǔ)是等差數列。這是一個(gè)簡(jiǎn)單的算法,也可以理解為算法公式。
訓練模型
在我們的推薦系統中,會(huì )有一個(gè)模型的概念,那么什么是模型呢?我們繼續使用上述主題。讓我們深入思考一下,為什么我們知道算法公式是x2 = x1 + 2?
是不是因為我們發(fā)現 1 和 3 相差 2,然后發(fā)現 3 和 5 相差 2, 5 和 7 相差 2, 一直到 11 和 13 相差 2;所以我們決定,我們發(fā)現這列數據的規則是x2 = x1 + 2。
在我們的推薦系統中,訓練模型的思路也是一樣的。我們先從采集的數據中取出一些數據,比如:1、3、5、7。我們首先從這部分數據中尋找規律,得到類(lèi)似x2 = x1 + 2的公式;
然后我們用這個(gè)公式推導出剩下的已知數據,比如:我們可以根據這個(gè)公式推導出下面的9、11、13。然后我們發(fā)現數據和我們的數據是一致的,我們可以認為該算法是可行的。
上面第一次取出的部分測試術(shù)語(yǔ)是訓練數據,剩下的數據稱(chēng)為測試數據
1、3、5、7 是訓練數據;9、11、13 是測試數據
在推薦系統中,這整個(gè)過(guò)程可以理解為模型的訓練,因為真實(shí)場(chǎng)景中的數據維度很多,不可能像我們簡(jiǎn)單的例子那樣;在真實(shí)場(chǎng)景中,我們需要用到諸如協(xié)同過(guò)濾LFM、ALS算法、邏輯回歸等LR算法,
綜上所述
算法
就是一種解決問(wèn)題的思路算法公式。
模型:理解為程序
是通過(guò)算法+數據進(jìn)行分析過(guò)程的一段程序。
需要數據作為入參,程序體作為算法;執行后返回具體的推薦數據。
所以數據量、維度的多少會(huì )直接影響模型的準確率
接下來(lái)介紹推薦系統中常用的算法。
傳統推薦算法
讓我們舉個(gè)例子。有圖書(shū)平臺,需要開(kāi)發(fā)推薦系統。我們現在掌握的已知數據如下
我們發(fā)現在上圖中,它被列為書(shū)名,也就是用戶(hù);其中的值 1 表示已讀取??罩当硎緵](méi)有讀取任何內容。那么現在如何根據這些數據進(jìn)行推薦呢?我們來(lái)看看傳統的推薦思路
基于用戶(hù)的協(xié)同過(guò)濾算法(UserCF)
基本上從用戶(hù)的角度來(lái)看
首先,需要找到和自己讀過(guò)相同書(shū)籍的其他用戶(hù),然后再推薦這些用戶(hù)喜歡的其他書(shū)籍,也就是從用戶(hù)的共性出發(fā)。這個(gè)想法的技術(shù)術(shù)語(yǔ)是 UserCF
比如上面的例子中,張三和李四都看過(guò)《Java編程思想》,那么系統認為兩人有共同點(diǎn)。
所以推薦給張三和李斯的《孫子兵法》。
推薦給李四的書(shū)是張三曾經(jīng)讀過(guò)的《人人都是產(chǎn)品經(jīng)理》
基于項目的協(xié)同過(guò)濾算法(ItemCF)
基本上從商品的角度來(lái)看
他們需要推薦與他們已經(jīng)讀過(guò)的書(shū)相似的書(shū)。
從書(shū)的通用性出發(fā),張三閱讀了屬于IT類(lèi)書(shū)籍的《Java編程思想》,然后系統可以推薦給張三的《大前端修身》或者《游戲開(kāi)發(fā)》。這個(gè)想法的技術(shù)術(shù)語(yǔ)是 ItemCF
UserCF 和 ItemCF
從兩種算法的原理可以看出,UserCF的推薦結果側重于反映用戶(hù)興趣相近的小群體的熱點(diǎn),而ItemCF的推薦結果側重于維護用戶(hù)的歷史興趣。也就是說(shuō),UserCF的推薦更具有社交性,體現了物品在用戶(hù)小興趣群中的熱度,而ItemCF的推薦更個(gè)性化,體現了用戶(hù)自身的興趣傳承。
UserCF適用場(chǎng)景
1)在新聞網(wǎng)站中,用戶(hù)的興趣不是特別細化,絕大多數用戶(hù)都喜歡看熱門(mén)的新聞。即使是個(gè)性化,也是比較粗粒度的,比如有些用戶(hù)喜歡體育新聞,有些喜歡社會(huì )新聞,UserCF可以給用戶(hù)推薦和他有相似愛(ài)好的一群其他用戶(hù)今天都在看的新聞,這樣在抓住熱點(diǎn)和時(shí)效性的同時(shí),保證了一定程度的個(gè)性化。
2)UserCF 適合用于新聞推薦的另一個(gè)原因是從技術(shù)角度考量的。因為作為一種物品,新聞的更新非???,每時(shí)每刻都有新內容出現,而ItemCF需要維護一張物品相關(guān)度的表,如果物品更新很快,那么這張表也需要很快更新,這在技術(shù)上很難實(shí)現。絕大多數物品相關(guān)度表都只能做到一天一次更新,這在新聞領(lǐng)域是不可以接受的。而 UserCF 只需要用戶(hù)相似性表,雖然UserCF對于新用戶(hù)也需要更新相似度表,但在新聞網(wǎng)站中,物品的更新速度遠遠快于新用戶(hù)的加入速度,而且對于新用戶(hù),完全可以給他推薦最熱門(mén)的新聞,因此 UserCF 顯然是利大于弊。
ItemCF適用場(chǎng)景
1)在圖書(shū)、電子商務(wù)和電影網(wǎng)站,比如亞馬遜、豆瓣、Netflix中,ItemCF 則能極大地發(fā)揮優(yōu)勢。首先,在這些網(wǎng)站中,用戶(hù)的興趣是比較固定和持久的。這些系統中的用戶(hù)大都不太需要流行度來(lái)輔助他們判斷一個(gè)物品的好壞,而是可以通過(guò)自己熟悉領(lǐng)域的知識自己判斷物品的質(zhì)量。因此,這些網(wǎng)站中個(gè)性化推薦的任務(wù)是幫助用戶(hù)發(fā)現和他研究領(lǐng)域相關(guān)的物品。此外,這些網(wǎng)站的物品更新速度不會(huì )特別快,一天一次更新物品相似度矩陣對它們來(lái)說(shuō)不會(huì )造成太大的損失,是可以接受的。
總結
上面介紹了UserCF和ItemCF的協(xié)同算法,也是過(guò)去常用的推薦算法;然而,近年來(lái)出現了一種協(xié)作算法 LFM(潛在語(yǔ)義模型)。潛在語(yǔ)義模型的核心思想是通過(guò)潛在因素進(jìn)行連接。用戶(hù)興趣和項目。
例如,用戶(hù) A 的興趣涉及偵探小說(shuō)、科普類(lèi)書(shū)籍,以及一些計算機技術(shù)類(lèi)書(shū)籍,而用戶(hù) B 的興趣則更多地集中在數學(xué)和機器學(xué)習方面。
向 A 和 B 推薦書(shū)籍:
對于UserCF,我們首先需要找到和自己讀過(guò)相同書(shū)籍的其他用戶(hù)(興趣相近的用戶(hù)),然后將這些用戶(hù)喜歡的其他書(shū)籍推薦給他們;
對于 ItemCF,他們需要推薦與他們已經(jīng)閱讀過(guò)的書(shū)籍相似的書(shū)籍。例如,作者 B 讀過(guò)很多數據挖掘方面的書(shū)籍,可以向他推薦機器學(xué)習或模式識別方面的書(shū)籍。
其實(shí)上面的推薦缺少用戶(hù)興趣和物品的關(guān)系,即用戶(hù)A和用戶(hù)B有一定的相似度,但又不完全一樣
例如,用戶(hù)A對偵探小說(shuō)、計算機技術(shù)感興趣;用戶(hù)B對偵探小說(shuō)、經(jīng)濟學(xué)感興趣;很有可能向用戶(hù) A 推薦經(jīng)濟學(xué)書(shū)籍。
如何解決?我們只需要添加用戶(hù)興趣和物品的關(guān)系即可。您可以從對書(shū)籍和對象興趣進(jìn)行分類(lèi)開(kāi)始。對于用戶(hù)來(lái)說(shuō),首先獲取他的興趣類(lèi)別,然后從該類(lèi)別中挑選他可能喜歡的項目。
這種基于興趣的分類(lèi)方法大致需要解決三個(gè)問(wèn)題:
?。?) 如何對項目進(jìn)行分類(lèi)?
?。?) 如何確定用戶(hù)對哪些類(lèi)別的項目感興趣,感興趣的程度如何?
(3)對于給定的類(lèi),選擇哪些屬于該類(lèi)的物品推薦給用戶(hù),如何確定這些物品在一個(gè)類(lèi)中的權重? 查看全部
免規則采集器列表算法(一下精準推薦的整體架構以及核心算法的實(shí)現原理總結)
目錄 前言 推薦架構 算法模型 傳統推薦算法總結 前言
相信很多小伙伴都聽(tīng)說(shuō)過(guò)大數據、AI推薦、千人千面等高級詞匯;我也經(jīng)??吹?,在很多app中,經(jīng)常會(huì )向我們推薦一些產(chǎn)品,猜你喜歡,重點(diǎn)推薦等服務(wù)。
很多朋友也應該去網(wǎng)上了解一下,發(fā)現真的是一頭霧水,尤其是看到一些算法的時(shí)候,那些數學(xué)公式讓人頭疼。今天老谷就嘗試介紹一下精準推薦的整體架構,以及核心算法的實(shí)現原理,讓小伙伴們盡可能的了解。
注意:閱讀本文的朋友文章需要有一定的java基礎和elasticsearch知識。
推薦架構
下面是一個(gè)通用的推薦系統架構圖
上述架構圖的流程從兩個(gè)維度來(lái)看
用戶(hù)請求路徑
1)用戶(hù)終端發(fā)起請求,傳入核心標簽UserId
因為有些平臺在很多地方都有推薦服務(wù),比如:購物車(chē)下的【精品推薦】,商品詳情里的【猜你喜歡】,商品列表里的【熱推薦】等;所以終端經(jīng)常會(huì )帶來(lái)這樣的場(chǎng)景。參數,不同的場(chǎng)景會(huì )對應不同的模型數據
2)然后后臺接口發(fā)起對推薦服務(wù)的調用
3)任何精準推薦都會(huì )有召回、排序、業(yè)務(wù)重排三個(gè)階段;
這三個(gè)是什么意思?拿張圖簡(jiǎn)單解釋一下
通過(guò)步驟,可以達到推薦,千人千面的效果;整個(gè)流程的核心是召回算法和排序算法;我們從后臺看一下數據分析維度的路徑。
數據分析路徑
任何分析都需要材料。材料是什么?其實(shí)這幾年朋友們聽(tīng)得最多的就是大數據了;什么是大數據?簡(jiǎn)單的理解就是數據量大,數據維度多。我們可以分析這么多數據。
在上面推薦的架構圖中:
1)我們通過(guò)在終端埋點(diǎn)采集用戶(hù)行為日志,并存儲在大數據平臺中。
2)采集業(yè)務(wù)數據,采集用戶(hù)偏好行為數據,如:采集、點(diǎn)贊、評論等;存儲在大數據平臺
3)基于大數據平臺的數據,通過(guò)一些算法對數據進(jìn)行分析,得到訓練模型。
4)通過(guò)訓練好的模型可以獲得相關(guān)推薦數據。
5)將獲取的推薦數據保存到mysql/redis等持久化工具中。
為了達到用戶(hù)請求的性能,推薦的數據會(huì )提前存儲在數據庫中,以保證用戶(hù)體驗。
算法模型
什么是算法?什么是模型?讓我給你一個(gè)小學(xué)一年級的問(wèn)題
題目:找出規律,填寫(xiě)下面的值
1、3、5、7、9、11、13、?、?
大家一看就知道答案了吧?我們不是在這里討論最終答案是什么。我們來(lái)分析一下答案是怎么來(lái)的?
看到上面的題目,我們來(lái)分解一下;我們已經(jīng)知道一組數據
1、3、5、7、9、11、13
這些數據實(shí)際上等價(jià)于我們 采集 的已知數據。
上面的問(wèn)題現在我們需要根據已知數據來(lái)推斷接下來(lái)的 2 個(gè)數字是什么?
也就是我們知道用戶(hù)的行為數據,然后對產(chǎn)品進(jìn)行預測和推薦給用戶(hù)。
算法
根據上面的標題,我們一眼就能看出第二個(gè)數比第一個(gè)數大2,即x2 = x1 + 2;在數學(xué)中,技術(shù)術(shù)語(yǔ)是等差數列。這是一個(gè)簡(jiǎn)單的算法,也可以理解為算法公式。
訓練模型
在我們的推薦系統中,會(huì )有一個(gè)模型的概念,那么什么是模型呢?我們繼續使用上述主題。讓我們深入思考一下,為什么我們知道算法公式是x2 = x1 + 2?
是不是因為我們發(fā)現 1 和 3 相差 2,然后發(fā)現 3 和 5 相差 2, 5 和 7 相差 2, 一直到 11 和 13 相差 2;所以我們決定,我們發(fā)現這列數據的規則是x2 = x1 + 2。
在我們的推薦系統中,訓練模型的思路也是一樣的。我們先從采集的數據中取出一些數據,比如:1、3、5、7。我們首先從這部分數據中尋找規律,得到類(lèi)似x2 = x1 + 2的公式;
然后我們用這個(gè)公式推導出剩下的已知數據,比如:我們可以根據這個(gè)公式推導出下面的9、11、13。然后我們發(fā)現數據和我們的數據是一致的,我們可以認為該算法是可行的。
上面第一次取出的部分測試術(shù)語(yǔ)是訓練數據,剩下的數據稱(chēng)為測試數據
1、3、5、7 是訓練數據;9、11、13 是測試數據
在推薦系統中,這整個(gè)過(guò)程可以理解為模型的訓練,因為真實(shí)場(chǎng)景中的數據維度很多,不可能像我們簡(jiǎn)單的例子那樣;在真實(shí)場(chǎng)景中,我們需要用到諸如協(xié)同過(guò)濾LFM、ALS算法、邏輯回歸等LR算法,
綜上所述
算法
就是一種解決問(wèn)題的思路算法公式。
模型:理解為程序
是通過(guò)算法+數據進(jìn)行分析過(guò)程的一段程序。
需要數據作為入參,程序體作為算法;執行后返回具體的推薦數據。
所以數據量、維度的多少會(huì )直接影響模型的準確率
接下來(lái)介紹推薦系統中常用的算法。
傳統推薦算法
讓我們舉個(gè)例子。有圖書(shū)平臺,需要開(kāi)發(fā)推薦系統。我們現在掌握的已知數據如下
我們發(fā)現在上圖中,它被列為書(shū)名,也就是用戶(hù);其中的值 1 表示已讀取??罩当硎緵](méi)有讀取任何內容。那么現在如何根據這些數據進(jìn)行推薦呢?我們來(lái)看看傳統的推薦思路
基于用戶(hù)的協(xié)同過(guò)濾算法(UserCF)
基本上從用戶(hù)的角度來(lái)看
首先,需要找到和自己讀過(guò)相同書(shū)籍的其他用戶(hù),然后再推薦這些用戶(hù)喜歡的其他書(shū)籍,也就是從用戶(hù)的共性出發(fā)。這個(gè)想法的技術(shù)術(shù)語(yǔ)是 UserCF
比如上面的例子中,張三和李四都看過(guò)《Java編程思想》,那么系統認為兩人有共同點(diǎn)。
所以推薦給張三和李斯的《孫子兵法》。
推薦給李四的書(shū)是張三曾經(jīng)讀過(guò)的《人人都是產(chǎn)品經(jīng)理》
基于項目的協(xié)同過(guò)濾算法(ItemCF)
基本上從商品的角度來(lái)看
他們需要推薦與他們已經(jīng)讀過(guò)的書(shū)相似的書(shū)。
從書(shū)的通用性出發(fā),張三閱讀了屬于IT類(lèi)書(shū)籍的《Java編程思想》,然后系統可以推薦給張三的《大前端修身》或者《游戲開(kāi)發(fā)》。這個(gè)想法的技術(shù)術(shù)語(yǔ)是 ItemCF
UserCF 和 ItemCF
從兩種算法的原理可以看出,UserCF的推薦結果側重于反映用戶(hù)興趣相近的小群體的熱點(diǎn),而ItemCF的推薦結果側重于維護用戶(hù)的歷史興趣。也就是說(shuō),UserCF的推薦更具有社交性,體現了物品在用戶(hù)小興趣群中的熱度,而ItemCF的推薦更個(gè)性化,體現了用戶(hù)自身的興趣傳承。
UserCF適用場(chǎng)景
1)在新聞網(wǎng)站中,用戶(hù)的興趣不是特別細化,絕大多數用戶(hù)都喜歡看熱門(mén)的新聞。即使是個(gè)性化,也是比較粗粒度的,比如有些用戶(hù)喜歡體育新聞,有些喜歡社會(huì )新聞,UserCF可以給用戶(hù)推薦和他有相似愛(ài)好的一群其他用戶(hù)今天都在看的新聞,這樣在抓住熱點(diǎn)和時(shí)效性的同時(shí),保證了一定程度的個(gè)性化。
2)UserCF 適合用于新聞推薦的另一個(gè)原因是從技術(shù)角度考量的。因為作為一種物品,新聞的更新非???,每時(shí)每刻都有新內容出現,而ItemCF需要維護一張物品相關(guān)度的表,如果物品更新很快,那么這張表也需要很快更新,這在技術(shù)上很難實(shí)現。絕大多數物品相關(guān)度表都只能做到一天一次更新,這在新聞領(lǐng)域是不可以接受的。而 UserCF 只需要用戶(hù)相似性表,雖然UserCF對于新用戶(hù)也需要更新相似度表,但在新聞網(wǎng)站中,物品的更新速度遠遠快于新用戶(hù)的加入速度,而且對于新用戶(hù),完全可以給他推薦最熱門(mén)的新聞,因此 UserCF 顯然是利大于弊。
ItemCF適用場(chǎng)景
1)在圖書(shū)、電子商務(wù)和電影網(wǎng)站,比如亞馬遜、豆瓣、Netflix中,ItemCF 則能極大地發(fā)揮優(yōu)勢。首先,在這些網(wǎng)站中,用戶(hù)的興趣是比較固定和持久的。這些系統中的用戶(hù)大都不太需要流行度來(lái)輔助他們判斷一個(gè)物品的好壞,而是可以通過(guò)自己熟悉領(lǐng)域的知識自己判斷物品的質(zhì)量。因此,這些網(wǎng)站中個(gè)性化推薦的任務(wù)是幫助用戶(hù)發(fā)現和他研究領(lǐng)域相關(guān)的物品。此外,這些網(wǎng)站的物品更新速度不會(huì )特別快,一天一次更新物品相似度矩陣對它們來(lái)說(shuō)不會(huì )造成太大的損失,是可以接受的。
總結
上面介紹了UserCF和ItemCF的協(xié)同算法,也是過(guò)去常用的推薦算法;然而,近年來(lái)出現了一種協(xié)作算法 LFM(潛在語(yǔ)義模型)。潛在語(yǔ)義模型的核心思想是通過(guò)潛在因素進(jìn)行連接。用戶(hù)興趣和項目。
例如,用戶(hù) A 的興趣涉及偵探小說(shuō)、科普類(lèi)書(shū)籍,以及一些計算機技術(shù)類(lèi)書(shū)籍,而用戶(hù) B 的興趣則更多地集中在數學(xué)和機器學(xué)習方面。
向 A 和 B 推薦書(shū)籍:
對于UserCF,我們首先需要找到和自己讀過(guò)相同書(shū)籍的其他用戶(hù)(興趣相近的用戶(hù)),然后將這些用戶(hù)喜歡的其他書(shū)籍推薦給他們;
對于 ItemCF,他們需要推薦與他們已經(jīng)閱讀過(guò)的書(shū)籍相似的書(shū)籍。例如,作者 B 讀過(guò)很多數據挖掘方面的書(shū)籍,可以向他推薦機器學(xué)習或模式識別方面的書(shū)籍。
其實(shí)上面的推薦缺少用戶(hù)興趣和物品的關(guān)系,即用戶(hù)A和用戶(hù)B有一定的相似度,但又不完全一樣
例如,用戶(hù)A對偵探小說(shuō)、計算機技術(shù)感興趣;用戶(hù)B對偵探小說(shuō)、經(jīng)濟學(xué)感興趣;很有可能向用戶(hù) A 推薦經(jīng)濟學(xué)書(shū)籍。
如何解決?我們只需要添加用戶(hù)興趣和物品的關(guān)系即可。您可以從對書(shū)籍和對象興趣進(jìn)行分類(lèi)開(kāi)始。對于用戶(hù)來(lái)說(shuō),首先獲取他的興趣類(lèi)別,然后從該類(lèi)別中挑選他可能喜歡的項目。
這種基于興趣的分類(lèi)方法大致需要解決三個(gè)問(wèn)題:
?。?) 如何對項目進(jìn)行分類(lèi)?
?。?) 如何確定用戶(hù)對哪些類(lèi)別的項目感興趣,感興趣的程度如何?
(3)對于給定的類(lèi),選擇哪些屬于該類(lèi)的物品推薦給用戶(hù),如何確定這些物品在一個(gè)類(lèi)中的權重?
免規則采集器列表算法(阿里云InfluxDB數據采集服務(wù)優(yōu)勢我們能做些什么?)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 124 次瀏覽 ? 2022-01-18 02:16
背景
隨著(zhù)時(shí)序數據的快速增長(cháng),時(shí)序數據庫不僅需要解決系統穩定性和性能問(wèn)題,還需要實(shí)現從采集到分析的鏈接,讓時(shí)序數據真正生成價(jià)值。在時(shí)間序列數據采集領(lǐng)域,一直缺乏自動(dòng)化的采集工具。雖然用戶(hù)可以使用一些開(kāi)源的采集工具來(lái)實(shí)現數據采集,比如Telegraf、Logstash、TCollector等,但是這些采集工具都需要用戶(hù)自己構建和維護運行環(huán)境,增加了用戶(hù)的學(xué)習成本,大大提高了數據的門(mén)檻采集。另一方面,現有的采集工具缺乏對多個(gè)采集源的自動(dòng)化管理,使得用戶(hù)難以統一管理多個(gè)不同的采集源并監控每個(gè)采集 實(shí)時(shí) 工具是否正常運行,采集數據。
阿里云InfluxDB?不僅提供穩定可靠的時(shí)序數據庫服務(wù),還提供非常便捷的數據采集服務(wù)。用戶(hù)可以輕松查看每個(gè)采集源的運行狀態(tài)并進(jìn)行管理,采集的數據會(huì )自動(dòng)存儲在阿里云InfluxDB?中。用戶(hù)無(wú)需擔心運維問(wèn)題,實(shí)現從數據采集到分析的一站式服務(wù)。本文主要介紹如何使用InfluxDB?的數據采集服務(wù)實(shí)現數據從采集到存儲的自動(dòng)化管理。
阿里巴巴云InfluxDB?Data采集服務(wù)優(yōu)勢我們能做什么?
1.簡(jiǎn)單采集數據
目前,阿里云InfluxDB?支持采集四種不同類(lèi)型的數據,分別涉及MySQL、Redis、MongoDB和系統監控。針對每類(lèi)數據,采集多個(gè)監控指標,方便用戶(hù)對監控對象有更全面的了解。用戶(hù)可以通過(guò)InfluxDB?實(shí)例的管理控制臺添加新的采集源,無(wú)需編寫(xiě)代碼,一鍵安裝。
采集數據操作流程如下:
2.采集來(lái)源的實(shí)時(shí)監控
采集源運行過(guò)程中,可以實(shí)時(shí)監控數據采集的狀態(tài),查看數據采集最后到達InfluxDB?的時(shí)間;并且您可以隨時(shí)停止Data采集,并在您認為合適的時(shí)候重新打開(kāi)data采集服務(wù)。
3.一鍵切換采集數據類(lèi)型
如果要更改被監控機器上的采集數據類(lèi)型,不需要重新添加新的采集源,選擇你想要的采集配置即可,數據采集工具會(huì )自動(dòng)切換到采集你指定的監控數據。
4. 采集數據自動(dòng)存儲在 InfluxDB? 中
您可以在采集配置中選擇數據流的數據庫和保留策略,數據采集工具會(huì )自動(dòng)將采集數據存儲到指定的數據庫和保留策略中,并且您可以在 采集 源運行時(shí)修改要寫(xiě)入數據的數據庫和保留策略,只需修改 采集 配置即可。
最佳實(shí)踐
本節介紹如何采集系統監控數據并實(shí)時(shí)顯示采集結果。系統監控的數據包括處理器、磁盤(pán)、內存、網(wǎng)絡(luò )、進(jìn)程和系統等信息。采集到的數據存儲在 8 個(gè)不同的測量值中(測量值是 cpu、disk、diskio、mem、net、processes、swap 和 system)。在開(kāi)始之前,請確保您已成功創(chuàng )建數據庫以及對該數據庫具有讀寫(xiě)權限的用戶(hù)帳戶(hù)。
1. 創(chuàng )建采集系統監控數據配置
點(diǎn)擊InfluxDB?管理控制臺左側導航欄中的“添加采集配置”,進(jìn)入采集配置添加界面,如下圖所示。填寫(xiě)“采集Configuration Name”,選擇“采集Data Type”為“System Monitoring”,然后選擇“Authorized Account”、“Data Write to DB”和“Database Storage Policy”,填寫(xiě)在“授權密碼”中。點(diǎn)擊“添加”成功創(chuàng )建采集配置。
2. 添加采集來(lái)源
點(diǎn)擊InfluxDB?管理控制臺左側導航欄中的“添加采集Source”,進(jìn)入采集Source Add頁(yè)面。
(1)選擇網(wǎng)絡(luò )類(lèi)型,“Public Network”或“Private Network”,然后點(diǎn)擊“Next”,如下圖。
(2)在數據源所在的主機上安裝采集工具。將安裝命令復制到主機上運行采集工具。采集@之后> 工具運行,它會(huì )與 InfluxDB ? 建立連接,可以在“New 采集 Source Scan Result List”中看到新添加的采集 source,如果沒(méi)有顯示在列表中,您可以點(diǎn)擊“刷新”或“自動(dòng)刷新”。如下圖。
(3)選擇采集系統監控的數據。在上圖中點(diǎn)擊“選擇采集配置”進(jìn)入如下界面,從下拉框。采集“采集系統”的配置。選擇后點(diǎn)擊“保存”。
(4)啟動(dòng)數據采集.勾選需要啟動(dòng)的采集源,然后點(diǎn)擊“Finish and start采集”,采集工具可以在采集源上啟動(dòng)采集數據,如下圖。
3.查看數據狀態(tài)采集
在“采集Source List”中,您可以看到所有連接到 InfluxDB? 實(shí)例的 采集 源,如下圖所示。每個(gè) 采集 源由一個(gè) uuid 唯一標識,“運行中”的“采集 狀態(tài)”表示 采集 工具是 采集 數據并報告給 InfluxDB?, “最新采集上報成功時(shí)間”表示采集數據最后一次成功發(fā)送到InfluxDB?的時(shí)間。
4. 可視化 采集數據
使用 Grafana
(1)安裝 Grafana。請參閱有關(guān)如何安裝 Grafana 的文檔。
(2)添加數據源。將“URL”設置為InfluxDB?實(shí)例的地址,并填寫(xiě)寫(xiě)入采集數據的數據庫和用戶(hù)賬號,如下圖。
(3)配置Dashboard并編寫(xiě)查詢(xún)規則。這里以查詢(xún)磁盤(pán)使用情況為例。查詢(xún)語(yǔ)句為:
SELECT MEAN("used_percent") FROM "disk" GROUP BY time(10s)
實(shí)時(shí)查詢(xún)結果如下圖所示。
您可以根據實(shí)際需要查看其他測量和字段的數據,并分別在FROM和SELECT語(yǔ)句中指定。
總結
阿里云InfluxDB?提供方便快捷的數據采集服務(wù),自動(dòng)管理數據源,幫助您解決數據采集問(wèn)題,實(shí)現數據從采集到存儲的自動(dòng)化。未來(lái),我們將支持 采集 獲取更多數據類(lèi)型和指標,敬請期待。 查看全部
免規則采集器列表算法(阿里云InfluxDB數據采集服務(wù)優(yōu)勢我們能做些什么?)
背景
隨著(zhù)時(shí)序數據的快速增長(cháng),時(shí)序數據庫不僅需要解決系統穩定性和性能問(wèn)題,還需要實(shí)現從采集到分析的鏈接,讓時(shí)序數據真正生成價(jià)值。在時(shí)間序列數據采集領(lǐng)域,一直缺乏自動(dòng)化的采集工具。雖然用戶(hù)可以使用一些開(kāi)源的采集工具來(lái)實(shí)現數據采集,比如Telegraf、Logstash、TCollector等,但是這些采集工具都需要用戶(hù)自己構建和維護運行環(huán)境,增加了用戶(hù)的學(xué)習成本,大大提高了數據的門(mén)檻采集。另一方面,現有的采集工具缺乏對多個(gè)采集源的自動(dòng)化管理,使得用戶(hù)難以統一管理多個(gè)不同的采集源并監控每個(gè)采集 實(shí)時(shí) 工具是否正常運行,采集數據。
阿里云InfluxDB?不僅提供穩定可靠的時(shí)序數據庫服務(wù),還提供非常便捷的數據采集服務(wù)。用戶(hù)可以輕松查看每個(gè)采集源的運行狀態(tài)并進(jìn)行管理,采集的數據會(huì )自動(dòng)存儲在阿里云InfluxDB?中。用戶(hù)無(wú)需擔心運維問(wèn)題,實(shí)現從數據采集到分析的一站式服務(wù)。本文主要介紹如何使用InfluxDB?的數據采集服務(wù)實(shí)現數據從采集到存儲的自動(dòng)化管理。
阿里巴巴云InfluxDB?Data采集服務(wù)優(yōu)勢我們能做什么?
1.簡(jiǎn)單采集數據
目前,阿里云InfluxDB?支持采集四種不同類(lèi)型的數據,分別涉及MySQL、Redis、MongoDB和系統監控。針對每類(lèi)數據,采集多個(gè)監控指標,方便用戶(hù)對監控對象有更全面的了解。用戶(hù)可以通過(guò)InfluxDB?實(shí)例的管理控制臺添加新的采集源,無(wú)需編寫(xiě)代碼,一鍵安裝。
采集數據操作流程如下:
2.采集來(lái)源的實(shí)時(shí)監控
采集源運行過(guò)程中,可以實(shí)時(shí)監控數據采集的狀態(tài),查看數據采集最后到達InfluxDB?的時(shí)間;并且您可以隨時(shí)停止Data采集,并在您認為合適的時(shí)候重新打開(kāi)data采集服務(wù)。
3.一鍵切換采集數據類(lèi)型
如果要更改被監控機器上的采集數據類(lèi)型,不需要重新添加新的采集源,選擇你想要的采集配置即可,數據采集工具會(huì )自動(dòng)切換到采集你指定的監控數據。
4. 采集數據自動(dòng)存儲在 InfluxDB? 中
您可以在采集配置中選擇數據流的數據庫和保留策略,數據采集工具會(huì )自動(dòng)將采集數據存儲到指定的數據庫和保留策略中,并且您可以在 采集 源運行時(shí)修改要寫(xiě)入數據的數據庫和保留策略,只需修改 采集 配置即可。
最佳實(shí)踐
本節介紹如何采集系統監控數據并實(shí)時(shí)顯示采集結果。系統監控的數據包括處理器、磁盤(pán)、內存、網(wǎng)絡(luò )、進(jìn)程和系統等信息。采集到的數據存儲在 8 個(gè)不同的測量值中(測量值是 cpu、disk、diskio、mem、net、processes、swap 和 system)。在開(kāi)始之前,請確保您已成功創(chuàng )建數據庫以及對該數據庫具有讀寫(xiě)權限的用戶(hù)帳戶(hù)。
1. 創(chuàng )建采集系統監控數據配置
點(diǎn)擊InfluxDB?管理控制臺左側導航欄中的“添加采集配置”,進(jìn)入采集配置添加界面,如下圖所示。填寫(xiě)“采集Configuration Name”,選擇“采集Data Type”為“System Monitoring”,然后選擇“Authorized Account”、“Data Write to DB”和“Database Storage Policy”,填寫(xiě)在“授權密碼”中。點(diǎn)擊“添加”成功創(chuàng )建采集配置。
2. 添加采集來(lái)源
點(diǎn)擊InfluxDB?管理控制臺左側導航欄中的“添加采集Source”,進(jìn)入采集Source Add頁(yè)面。
(1)選擇網(wǎng)絡(luò )類(lèi)型,“Public Network”或“Private Network”,然后點(diǎn)擊“Next”,如下圖。
(2)在數據源所在的主機上安裝采集工具。將安裝命令復制到主機上運行采集工具。采集@之后> 工具運行,它會(huì )與 InfluxDB ? 建立連接,可以在“New 采集 Source Scan Result List”中看到新添加的采集 source,如果沒(méi)有顯示在列表中,您可以點(diǎn)擊“刷新”或“自動(dòng)刷新”。如下圖。
(3)選擇采集系統監控的數據。在上圖中點(diǎn)擊“選擇采集配置”進(jìn)入如下界面,從下拉框。采集“采集系統”的配置。選擇后點(diǎn)擊“保存”。
(4)啟動(dòng)數據采集.勾選需要啟動(dòng)的采集源,然后點(diǎn)擊“Finish and start采集”,采集工具可以在采集源上啟動(dòng)采集數據,如下圖。
3.查看數據狀態(tài)采集
在“采集Source List”中,您可以看到所有連接到 InfluxDB? 實(shí)例的 采集 源,如下圖所示。每個(gè) 采集 源由一個(gè) uuid 唯一標識,“運行中”的“采集 狀態(tài)”表示 采集 工具是 采集 數據并報告給 InfluxDB?, “最新采集上報成功時(shí)間”表示采集數據最后一次成功發(fā)送到InfluxDB?的時(shí)間。
4. 可視化 采集數據
使用 Grafana
(1)安裝 Grafana。請參閱有關(guān)如何安裝 Grafana 的文檔。
(2)添加數據源。將“URL”設置為InfluxDB?實(shí)例的地址,并填寫(xiě)寫(xiě)入采集數據的數據庫和用戶(hù)賬號,如下圖。
(3)配置Dashboard并編寫(xiě)查詢(xún)規則。這里以查詢(xún)磁盤(pán)使用情況為例。查詢(xún)語(yǔ)句為:
SELECT MEAN("used_percent") FROM "disk" GROUP BY time(10s)
實(shí)時(shí)查詢(xún)結果如下圖所示。
您可以根據實(shí)際需要查看其他測量和字段的數據,并分別在FROM和SELECT語(yǔ)句中指定。
總結
阿里云InfluxDB?提供方便快捷的數據采集服務(wù),自動(dòng)管理數據源,幫助您解決數據采集問(wèn)題,實(shí)現數據從采集到存儲的自動(dòng)化。未來(lái),我們將支持 采集 獲取更多數據類(lèi)型和指標,敬請期待。
免規則采集器列表算法(優(yōu)采云采集器(www.hqbet6457.com)專(zhuān)業(yè)采集軟件解密各大網(wǎng)站登錄算法 )
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 115 次瀏覽 ? 2022-01-15 05:14
)
優(yōu)采云采集器()作為采集行業(yè)老手采集器是一款功能強大但不易上手的專(zhuān)業(yè)采集軟件, 優(yōu)采云采集器捕獲數據的過(guò)程取決于用戶(hù)編寫(xiě)的規則。用戶(hù)必須分析來(lái)自目標站的 html 代碼中的唯一代碼標識符并遵守 優(yōu)采云 規則,發(fā)布模塊是向服務(wù)器提交 采集 數據,服務(wù)器程序自動(dòng)編寫(xiě)數據正確地存入數據庫。這里的服務(wù)端程序可以是網(wǎng)站程序,也可以是自己編寫(xiě)的接口,只要數據能正確寫(xiě)入數據庫即可。這里提交數據需要大家具備post抓包的基礎技術(shù)。簡(jiǎn)單說(shuō)一下post數據傳輸的過(guò)程。通過(guò)HTTP傳輸數據的方式主要有兩種,一種是get,一種是post。 get 一般用于獲取數據,可以攜帶少量參數數據。在此基礎上,post 可以承載大量的數據。 采集的發(fā)布規則是模擬向網(wǎng)站程序提交post請求,讓網(wǎng)站程序認為我們是人。如果您沒(méi)有權限,主要的 網(wǎng)站 程序不會(huì )讓您發(fā)布 文章,所以!我們只能解密各大網(wǎng)站s的登錄算法,只有獲得用戶(hù)登錄憑證后才能正常發(fā)布文章。了解原理后,我們就可以開(kāi)始編寫(xiě)接口了!
對于小白和基礎程序員來(lái)說(shuō),一定是一頭霧水。完全掌握優(yōu)采云采集器大約需要一個(gè)月的時(shí)間。涉及的東西更多,知識面更廣!
你是否面臨著(zhù)用優(yōu)采云采集不發(fā)表的窘境,花費大量時(shí)間卻得不到結果!還在為缺少 網(wǎng)站 內容而苦惱,不知道怎么辦?如何在三分鐘內用采集發(fā)帖?
1.打開(kāi)軟件輸入關(guān)鍵詞即可實(shí)現全自動(dòng)采集,多站點(diǎn)采集發(fā)布,自動(dòng)過(guò)濾采集文章,與行業(yè)無(wú)關(guān)文章,保證內容100%相關(guān)性,全自動(dòng)批量掛機采集,無(wú)縫對接各大cms出版商,后采集 自動(dòng)發(fā)布推送到搜索引擎!
2.全平臺cms發(fā)行商是目前市面上唯一支持Empire, Yiyou, ZBLOG, 織夢(mèng), WP, PB, Apple, 搜外等大cms,一個(gè)不需要編寫(xiě)發(fā)布模塊,可以同時(shí)管理和批量發(fā)布的工具,可以發(fā)布不同類(lèi)型的文章對應不同的欄目列表,只需要簡(jiǎn)單的配置,還有很多SEO功能讓你網(wǎng)站快速收錄!
3. SEO功能:標題前綴和后綴設置、內容關(guān)鍵詞插入、隨機圖片插入、搜索引擎推送、隨機點(diǎn)贊-隨機閱讀-隨機作者、內容與標題一致、自動(dòng)內鏈,定期發(fā)布。
再也不用擔心網(wǎng)站沒(méi)有內容,網(wǎng)站收錄低。使用以上軟件可以自動(dòng)采集最新優(yōu)質(zhì)內容,并配置多種數據處理選項,標簽、鏈接、郵箱等格式處理,讓網(wǎng)站內容獨一無(wú)二,快速增加網(wǎng)站 流量!高性能產(chǎn)品,全自動(dòng)運行!另外,要免費找到一位盡職盡責的作者非常困難??赐赀@篇文章,如果覺(jué)得不錯,不妨采集一下,或者發(fā)給有需要的朋友同事!
查看全部
免規則采集器列表算法(優(yōu)采云采集器(www.hqbet6457.com)專(zhuān)業(yè)采集軟件解密各大網(wǎng)站登錄算法
)
優(yōu)采云采集器()作為采集行業(yè)老手采集器是一款功能強大但不易上手的專(zhuān)業(yè)采集軟件, 優(yōu)采云采集器捕獲數據的過(guò)程取決于用戶(hù)編寫(xiě)的規則。用戶(hù)必須分析來(lái)自目標站的 html 代碼中的唯一代碼標識符并遵守 優(yōu)采云 規則,發(fā)布模塊是向服務(wù)器提交 采集 數據,服務(wù)器程序自動(dòng)編寫(xiě)數據正確地存入數據庫。這里的服務(wù)端程序可以是網(wǎng)站程序,也可以是自己編寫(xiě)的接口,只要數據能正確寫(xiě)入數據庫即可。這里提交數據需要大家具備post抓包的基礎技術(shù)。簡(jiǎn)單說(shuō)一下post數據傳輸的過(guò)程。通過(guò)HTTP傳輸數據的方式主要有兩種,一種是get,一種是post。 get 一般用于獲取數據,可以攜帶少量參數數據。在此基礎上,post 可以承載大量的數據。 采集的發(fā)布規則是模擬向網(wǎng)站程序提交post請求,讓網(wǎng)站程序認為我們是人。如果您沒(méi)有權限,主要的 網(wǎng)站 程序不會(huì )讓您發(fā)布 文章,所以!我們只能解密各大網(wǎng)站s的登錄算法,只有獲得用戶(hù)登錄憑證后才能正常發(fā)布文章。了解原理后,我們就可以開(kāi)始編寫(xiě)接口了!
對于小白和基礎程序員來(lái)說(shuō),一定是一頭霧水。完全掌握優(yōu)采云采集器大約需要一個(gè)月的時(shí)間。涉及的東西更多,知識面更廣!
你是否面臨著(zhù)用優(yōu)采云采集不發(fā)表的窘境,花費大量時(shí)間卻得不到結果!還在為缺少 網(wǎng)站 內容而苦惱,不知道怎么辦?如何在三分鐘內用采集發(fā)帖?
1.打開(kāi)軟件輸入關(guān)鍵詞即可實(shí)現全自動(dòng)采集,多站點(diǎn)采集發(fā)布,自動(dòng)過(guò)濾采集文章,與行業(yè)無(wú)關(guān)文章,保證內容100%相關(guān)性,全自動(dòng)批量掛機采集,無(wú)縫對接各大cms出版商,后采集 自動(dòng)發(fā)布推送到搜索引擎!
2.全平臺cms發(fā)行商是目前市面上唯一支持Empire, Yiyou, ZBLOG, 織夢(mèng), WP, PB, Apple, 搜外等大cms,一個(gè)不需要編寫(xiě)發(fā)布模塊,可以同時(shí)管理和批量發(fā)布的工具,可以發(fā)布不同類(lèi)型的文章對應不同的欄目列表,只需要簡(jiǎn)單的配置,還有很多SEO功能讓你網(wǎng)站快速收錄!
3. SEO功能:標題前綴和后綴設置、內容關(guān)鍵詞插入、隨機圖片插入、搜索引擎推送、隨機點(diǎn)贊-隨機閱讀-隨機作者、內容與標題一致、自動(dòng)內鏈,定期發(fā)布。
再也不用擔心網(wǎng)站沒(méi)有內容,網(wǎng)站收錄低。使用以上軟件可以自動(dòng)采集最新優(yōu)質(zhì)內容,并配置多種數據處理選項,標簽、鏈接、郵箱等格式處理,讓網(wǎng)站內容獨一無(wú)二,快速增加網(wǎng)站 流量!高性能產(chǎn)品,全自動(dòng)運行!另外,要免費找到一位盡職盡責的作者非常困難??赐赀@篇文章,如果覺(jué)得不錯,不妨采集一下,或者發(fā)給有需要的朋友同事!
免規則采集器列表算法( 優(yōu)采云進(jìn)階用戶(hù)使用頻繁的一種模式采集數據介紹)
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 102 次瀏覽 ? 2022-01-14 09:04
優(yōu)采云進(jìn)階用戶(hù)使用頻繁的一種模式采集數據介紹)
入門(mén) - 自定義模式
自定義模式是優(yōu)采云高級用戶(hù)經(jīng)常使用的模式。他們需要自己配置規則,才能實(shí)現全網(wǎng)98%以上網(wǎng)頁(yè)數據的采集。
定位:通過(guò)配置規則來(lái)抓取網(wǎng)頁(yè)數據,模擬人們?yōu)g覽網(wǎng)頁(yè)的操作。
使用前提:通過(guò)向導模式,有一定程度的采集對規則的熟悉和優(yōu)采云采集邏輯理解能力,可以自己配置規則,輕松學(xué)習在實(shí)踐中通過(guò)自定義模式、Xpath等能力構建網(wǎng)頁(yè)結構,算是學(xué)習與工作之間的正確平衡。
推薦用法:當其他模式不能滿(mǎn)足你的需求時(shí),可以使用自定義模式采集全網(wǎng)數據。
文章 中的示例 URL 是:
自定義模式采集 步驟:
第一步:先打開(kāi)優(yōu)采云采集器→找到自定義采集→點(diǎn)擊立即使用
【GIF:自定義模式 - 開(kāi)始】
第二步:輸入網(wǎng)址→設置翻頁(yè)周期→設置字段提取→修改字段名稱(chēng)→手動(dòng)檢查規則→選擇采集輸入開(kāi)始采集
當心:
1.設置翻頁(yè)周期:觀(guān)察網(wǎng)頁(yè)底部是否有翻頁(yè)圖標。如果有且需要翻頁(yè),請點(diǎn)擊翻頁(yè)圖標。在操作提示中,點(diǎn)擊下一頁(yè),循環(huán)翻頁(yè)??梢栽O置循環(huán)翻頁(yè)。頁(yè)數,多次設置為采集網(wǎng)頁(yè)最新內容的頁(yè)數。采集鏈接的文本選項會(huì )顯示一個(gè)數據提取步驟,提取下一頁(yè)對應的文本;點(diǎn)擊采集鏈接地址步驟選項會(huì )顯示一個(gè)數據提取步驟來(lái)提取當前字段對應的鏈接地址。單擊鏈接將彈出單擊元素步驟,單擊元素一次。
2.設置字段提?。合葘⒕W(wǎng)頁(yè)內容分塊,思路是循環(huán)每個(gè)塊,然后從循環(huán)塊中提取每個(gè)字段的內容,所以設置的時(shí)候點(diǎn)擊2-3個(gè)塊,優(yōu)采云會(huì )自動(dòng)選中剩余的所有block,點(diǎn)擊采集下面的元素文本會(huì )出現循??環(huán)提取數據的步驟,實(shí)現block的循環(huán)采集,但是此時(shí)每個(gè)block只會(huì )循環(huán)將塊中的文本合并到一個(gè)提取中。這時(shí)候我們刪除字段,手動(dòng)添加所有需要提取的字段;單擊一個(gè)循環(huán)中的每個(gè)元素,將出現循環(huán)單擊元素步驟,然后單擊每個(gè)塊一次。這個(gè)例子中間的塊點(diǎn)擊沒(méi)有效果,所以循環(huán)點(diǎn)擊在這個(gè)例子中沒(méi)有效果。如果選錯了,
循環(huán)下的第一個(gè)元素要勾選采集當前循環(huán)中設置的元素,相關(guān)操作會(huì )根據循環(huán)設置循環(huán)。
3.修改字段名:修改字段名可以點(diǎn)擊選擇系統內置的字段名,也可以手動(dòng)輸入字段名,回車(chē)鍵切換到下一個(gè)。
4.選擇采集類(lèi)型啟動(dòng)采集:本地采集占用采集當前計算機資源,如果有采集時(shí)間要求或者當前電腦無(wú)法定時(shí)采集可以使用云采集功能,云采集采集在網(wǎng)絡(luò )中,不需要當前電腦支持,可以關(guān)機,并且可以設置多個(gè)云節點(diǎn)分配任務(wù),10個(gè)節點(diǎn)相當于10臺電腦分配任務(wù)幫你采集,速度降低到原來(lái)的十分之一;數據采集可在云端保存三個(gè)月,并可隨時(shí)操作導出。
第三步:確認數據無(wú)誤→點(diǎn)擊導出數據→免費版用戶(hù)付費→選擇導出方式→查看數據
【GIF:自定義模式-導出】
注意:積分是一種支付優(yōu)采云增值服務(wù)的方式。主要用途包括:通過(guò)優(yōu)采云采集器采集導出數據,在規則市場(chǎng)下載規則,在數據市場(chǎng)下載數據包。不同的賬戶(hù)類(lèi)型在使用上述增值服務(wù)時(shí)會(huì )有不同的計費策略。具體的計費策略和區別在發(fā)行說(shuō)明中有詳細說(shuō)明。積分可以通過(guò)優(yōu)采云官方購買(mǎi)專(zhuān)業(yè)版或旗艦版按月發(fā)放,也可以單獨購買(mǎi),也可以通過(guò)關(guān)注、登錄、分享規則、關(guān)注微信、綁定社交賬號等方式獲得。 查看全部
免規則采集器列表算法(
優(yōu)采云進(jìn)階用戶(hù)使用頻繁的一種模式采集數據介紹)

入門(mén) - 自定義模式
自定義模式是優(yōu)采云高級用戶(hù)經(jīng)常使用的模式。他們需要自己配置規則,才能實(shí)現全網(wǎng)98%以上網(wǎng)頁(yè)數據的采集。
定位:通過(guò)配置規則來(lái)抓取網(wǎng)頁(yè)數據,模擬人們?yōu)g覽網(wǎng)頁(yè)的操作。
使用前提:通過(guò)向導模式,有一定程度的采集對規則的熟悉和優(yōu)采云采集邏輯理解能力,可以自己配置規則,輕松學(xué)習在實(shí)踐中通過(guò)自定義模式、Xpath等能力構建網(wǎng)頁(yè)結構,算是學(xué)習與工作之間的正確平衡。
推薦用法:當其他模式不能滿(mǎn)足你的需求時(shí),可以使用自定義模式采集全網(wǎng)數據。
文章 中的示例 URL 是:
自定義模式采集 步驟:
第一步:先打開(kāi)優(yōu)采云采集器→找到自定義采集→點(diǎn)擊立即使用

【GIF:自定義模式 - 開(kāi)始】
第二步:輸入網(wǎng)址→設置翻頁(yè)周期→設置字段提取→修改字段名稱(chēng)→手動(dòng)檢查規則→選擇采集輸入開(kāi)始采集
當心:
1.設置翻頁(yè)周期:觀(guān)察網(wǎng)頁(yè)底部是否有翻頁(yè)圖標。如果有且需要翻頁(yè),請點(diǎn)擊翻頁(yè)圖標。在操作提示中,點(diǎn)擊下一頁(yè),循環(huán)翻頁(yè)??梢栽O置循環(huán)翻頁(yè)。頁(yè)數,多次設置為采集網(wǎng)頁(yè)最新內容的頁(yè)數。采集鏈接的文本選項會(huì )顯示一個(gè)數據提取步驟,提取下一頁(yè)對應的文本;點(diǎn)擊采集鏈接地址步驟選項會(huì )顯示一個(gè)數據提取步驟來(lái)提取當前字段對應的鏈接地址。單擊鏈接將彈出單擊元素步驟,單擊元素一次。
2.設置字段提?。合葘⒕W(wǎng)頁(yè)內容分塊,思路是循環(huán)每個(gè)塊,然后從循環(huán)塊中提取每個(gè)字段的內容,所以設置的時(shí)候點(diǎn)擊2-3個(gè)塊,優(yōu)采云會(huì )自動(dòng)選中剩余的所有block,點(diǎn)擊采集下面的元素文本會(huì )出現循??環(huán)提取數據的步驟,實(shí)現block的循環(huán)采集,但是此時(shí)每個(gè)block只會(huì )循環(huán)將塊中的文本合并到一個(gè)提取中。這時(shí)候我們刪除字段,手動(dòng)添加所有需要提取的字段;單擊一個(gè)循環(huán)中的每個(gè)元素,將出現循環(huán)單擊元素步驟,然后單擊每個(gè)塊一次。這個(gè)例子中間的塊點(diǎn)擊沒(méi)有效果,所以循環(huán)點(diǎn)擊在這個(gè)例子中沒(méi)有效果。如果選錯了,
循環(huán)下的第一個(gè)元素要勾選采集當前循環(huán)中設置的元素,相關(guān)操作會(huì )根據循環(huán)設置循環(huán)。
3.修改字段名:修改字段名可以點(diǎn)擊選擇系統內置的字段名,也可以手動(dòng)輸入字段名,回車(chē)鍵切換到下一個(gè)。
4.選擇采集類(lèi)型啟動(dòng)采集:本地采集占用采集當前計算機資源,如果有采集時(shí)間要求或者當前電腦無(wú)法定時(shí)采集可以使用云采集功能,云采集采集在網(wǎng)絡(luò )中,不需要當前電腦支持,可以關(guān)機,并且可以設置多個(gè)云節點(diǎn)分配任務(wù),10個(gè)節點(diǎn)相當于10臺電腦分配任務(wù)幫你采集,速度降低到原來(lái)的十分之一;數據采集可在云端保存三個(gè)月,并可隨時(shí)操作導出。
第三步:確認數據無(wú)誤→點(diǎn)擊導出數據→免費版用戶(hù)付費→選擇導出方式→查看數據

【GIF:自定義模式-導出】
注意:積分是一種支付優(yōu)采云增值服務(wù)的方式。主要用途包括:通過(guò)優(yōu)采云采集器采集導出數據,在規則市場(chǎng)下載規則,在數據市場(chǎng)下載數據包。不同的賬戶(hù)類(lèi)型在使用上述增值服務(wù)時(shí)會(huì )有不同的計費策略。具體的計費策略和區別在發(fā)行說(shuō)明中有詳細說(shuō)明。積分可以通過(guò)優(yōu)采云官方購買(mǎi)專(zhuān)業(yè)版或旗艦版按月發(fā)放,也可以單獨購買(mǎi),也可以通過(guò)關(guān)注、登錄、分享規則、關(guān)注微信、綁定社交賬號等方式獲得。


