亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

通過(guò)關(guān)鍵詞采集文章采集api

通過(guò)關(guān)鍵詞采集文章采集api

干貨內容:分享一個(gè)牛逼的Python項目:公眾號文章爬蟲(chóng)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 242 次瀏覽 ? 2022-12-14 04:41 ? 來(lái)自相關(guān)話(huà)題

  干貨內容:分享一個(gè)牛逼的Python項目:公眾號文章爬蟲(chóng)
  我有
  訂閱了近100個(gè)公眾號,有時(shí)候想找之前看過(guò)的文章,卻覺(jué)得特別難找,如果忘了采集,估計要找半個(gè)小時(shí),更無(wú)語(yǔ)的是文章被發(fā)布者刪掉了,或者文章違規刪掉了。那么有沒(méi)有這樣的爬蟲(chóng),可以將公眾號的所有文章抓取到本地,并提供方便的搜索功能,這樣在我想找到某類(lèi)文章的時(shí)候會(huì )非常方便,同時(shí)文章都是本地的,不用擔心被刪。
  最近,我偶然看到一個(gè)很棒的Python爬蟲(chóng)項目,就是微信公眾號的爬文章,看了功能介紹,我真的很想看晚了,作者的水平真的很厲害,我奉獻了我的崇拜,特意分享一下,大家可以使用它的功能,也可以研究它的技術(shù), 請不用謝。訪(fǎng)問(wèn)項目地址并相信您能夠獨立部署。
  項目地址:
  特征顯示
  用戶(hù)界面主界面
  爬蟲(chóng)的主界面.gif添加公眾號
  抓取任務(wù)和已爬網(wǎng)的公眾號列表
  公眾號.png
  爬蟲(chóng)界面
  設置界面
  設置.png
  官方賬號歷史文章列表
  歷史文章 .gif列表
  報告
  報告.gif
  搜索
  搜索.gif
  
  介紹
  weixin_crawler是一個(gè)微信公眾號文章爬蟲(chóng),使用Scrapy、Flask、Echarts、Elasticsearch等,具有自己的分析報告和全文搜索功能,可以即時(shí)搜索數百萬(wàn)份文檔。weixin_crawler設計的初衷是盡可能快地抓取盡可能多的歷史帖子。
  weixin_crawler仍在維護中,該計劃有效,請隨時(shí)嘗試。
  無(wú)需部署即可體驗公眾號數據采集
  使用免安裝的可執行文件WCplus.exe您可以立即體驗weixin_crawler數據采集并導出Excel和PDF功能。
  主要特點(diǎn)是它是用Python 3編寫(xiě)的Python3 用于 Scrapy
  的爬蟲(chóng)框架,實(shí)際上使用了 Scrapy 的許多功能,這是一個(gè)很好的開(kāi)源項目,用于深入學(xué)習 Scrapy
  充分利用了scrapy,如果你正在為scrapy而苦苦掙扎,這個(gè)存儲庫有助于Sparks通過(guò)Flask,Flask-socketio和Vue實(shí)現高可用性UI界面。功能強大實(shí)用,是新媒體運營(yíng)等崗位的良好數據助手
  瓶
  Flask-socketio,Vue用于構建全棧項目爬蟲(chóng) 由于使用了Scrapy,MongoDB和Elasticsearch,數據爬取,存儲和索引變得簡(jiǎn)單高效
  感謝刮擦的mongodb elasticsearch weixin_crawler不僅是爬蟲(chóng),還是搜索引擎,支持微信公眾號所有歷史帖子的抓取
  可抓取任意微信公眾號的所有歷史文章,支持微信公眾號文章瀏覽量、點(diǎn)贊、點(diǎn)贊、評論數等數據進(jìn)行抓取
  能夠抓取讀取數據附帶單個(gè)公共帳戶(hù)的數據分析報告發(fā)布
  基于sigle公眾號的報告模塊,利用Elasticsearch進(jìn)行全文搜索,支持多種搜索和模式和排序模式,并為搜索結果提供趨勢分析圖表
  也是支持對公眾號進(jìn)行分組的搜索引擎,分組數據可以用來(lái)限制搜索范圍
  可分組公眾號,可用于定義搜索范圍原創(chuàng )手機自動(dòng)化操作方法,可實(shí)現爬蟲(chóng)無(wú)人監督
  借助adb,weixin_crawler能夠自動(dòng)操作Android手機,這意味著(zhù)它可以在沒(méi)有任何人工監控的情況下工作,支持多個(gè)微信APP同時(shí)采集,理論上采集速度可以線(xiàn)性提高
  支持多個(gè)微信應用程序線(xiàn)性提高爬行速度
  使用的主要工具
  語(yǔ)言: Python 3.6 前端 Web 框架 Flask / Flask-socketio / gevent js/css 庫 Vue / Jquery / W3css / Echarts / 前端 awsome 后端 爬蟲(chóng) 刮板存儲 Mongodb / Redis Index 彈性搜索
  運行方法
  weixin_crawler已經(jīng)在Win/Mac/Linux系統下成功運行,建議嘗試weixin_crawler可以在win/mac/Linux上運行,盡管建議先在win操作系統上嘗試。
  Insatall mongodb / redis / elasticsearch并在后臺運行它們
  Downlaod MongoDB / Redis / Elasticsearch從他們的官方網(wǎng)站安裝它們
  在默認配置下同時(shí)運行它們。在這種情況下,mongodb 是 localhost:27017 redis 是 localhost:6379(或者你必須在 weixin_crawler/project/configs/auth.py 中進(jìn)行配置)
  
  為了標記中文,必須為Elasticsearch安裝elasticsearch-analysis-ik。
  安裝代理服務(wù)器并運行代理.js安裝
  nodeJS,然后 npm 在 weixin_crawler/proxy 中安裝 anyproxy 和 Redis
  CD 到 weixin_crawler/代理并運行節點(diǎn)代理.js
  在計算機和電話(huà)端安裝任何代理 https CA
  如果您不確定如何使用任何代理,這里是文檔
  安裝所需的 python 包
  注意:您不能簡(jiǎn)單地鍵入pip install -r要求.txt要安裝每個(gè)軟件包,扭曲是Scrapy需要的其中之一。當您遇到有關(guān)安裝python包(例如扭曲)的問(wèn)題時(shí),這里總有一個(gè)解決方案-將正確的版本包下載到您的驅動(dòng)器并運行$ pip安裝package_name
  我不確定您的python環(huán)境是否會(huì )拋出其他軟件包未找到錯誤,只需安裝所需的任何軟件包
  有些源代碼需要修改(也許不合理)
  scrapy Python36\Lib\site-packages\scrapy\http\request\ _init_.py --> weixin_crawler\source_code\request\_init_.py
  scrapy Python36\Lib\site-packages\scrapy\http\response\ _init_.py --> weixin_crawler\source_code\response\_init_.py
  pyecharts Python36\Lib\site-packages\pyecharts\base.py --> weixin_crawler\source_code\base.py.在這種情況下,函數get_echarts_options在第 106 行添加
  如果您希望自動(dòng)工作weixin_crawler這些步驟是必要的,或者您應該操作電話(huà)以獲取將由 Anyproxy 手冊檢測到的請求數據
  安裝 adb 并將其添加到您的路徑中(例如窗口)
  安裝安卓模擬器(建議使用NOX)或插入手機,并確保您可以從命令行工具使用abd操作它們
  如果多部手機連接到您的計算機,您必須找出它們的adb端口,這些端口將用于添加爬蟲(chóng)
  亞行不支持中文輸入,這對微信公眾號搜索來(lái)說(shuō)是個(gè)壞消息。為了輸入中文,adb鍵盤(pán)必須安裝在您的Android手機中并將其設置為默認輸入法,更多在這里
  為什么weixin_crawler可以自動(dòng)工作?原因如下:
  如果要抓取微信公眾號,則必須在手機中搜索該帳戶(hù)并單擊其“所有消息”,然后您將獲得一個(gè)消息列表,如果向下滾動(dòng)將加載更多列表。如果您想抓取此帳戶(hù)的閱讀數據,可以錄制列表中的任何消息 如果給出了微信公眾號的昵稱(chēng),那么wexin_crawler操作安裝在手機中的微信應用程序,同時(shí)任何代理都在“收聽(tīng)背景”......無(wú)論如何,weixin_crawler獲取微信應用程序要求的所有請求數據,那么就是抓取時(shí)間了 正如您所推測的那樣,為了讓weixin_crawler操作微信應用程序,我們必須告訴adb在哪里點(diǎn)擊交換和輸入,其中大多數是在weixin_crawler/project/phone_operate/config.py中定義的。順便說(shuō)一句,phone_operate像人類(lèi)一樣負責微信運營(yíng),它的眼睛是百度OCR API和預定義的位置點(diǎn)擊區域,它的手指是adb運行 main.py
  $ CD weixin_crawler/項目/
  $ python(3) ./main.py
  現在打開(kāi)瀏覽器,您想要的所有內容都將在 localhost:5000 中。
  在這個(gè)長(cháng)步驟列表中,您可能會(huì )陷入困境,加入我們的社區尋求幫助,告訴我們您做了什么以及您發(fā)現了什么樣的錯誤。
  一起去探索世界吧:5000
  分享文章:seo自動(dòng)增加外鏈
  
  自然會(huì )迅速增加。查找外部鏈接有兩種方法,第一種是使用英文雅虎外部鏈接工具查找競爭對手的外部鏈接資源;二是利用百度的域名命令分析競爭對手的外鏈資源。越熟練,越能有效增加外鏈,主要還是積累經(jīng)驗!. 不要將此類(lèi)論壇添加到您的采集夾。第三:如果只做論壇博客的外鏈,是遠遠不夠的。合理使用工具,比如現在做好外鏈,就是網(wǎng)道SEO優(yōu)化工具,它提供了專(zhuān)門(mén)的外鏈平臺。這是一個(gè)致力于獨立網(wǎng)站外部鏈接的平臺。第四:發(fā)帖,一個(gè)高質(zhì)量的軟文往往受到很多人的青睞。如果你的 軟文 被轉發(fā)很多,說(shuō)明別人給你發(fā)了很多外鏈。這種增加網(wǎng)站外鏈的自然方法是非常穩定和快速的方法。2.友情鏈接交換 友情鏈接交換也是我們快速增加外鏈的一種方式。. xyz域名第一年便宜,所以很多人大量做非法站。最近,搜索引擎的算法也在不斷更新。具有此域名后綴的站點(diǎn)是 mass-k 站點(diǎn)或已降級。推薦使用頂級域名來(lái)做網(wǎng)站吧。網(wǎng)站基本的SEO優(yōu)化我就不提了,但是如何增加外鏈呢?加入網(wǎng)站目錄,提高。不建議使用它。下面來(lái)分析一下優(yōu)缺點(diǎn): 優(yōu)點(diǎn):外鏈和排名會(huì )迅速增加,流量也會(huì )增加;缺點(diǎn):一段時(shí)間后,BD發(fā)現作弊,降級,K個(gè)外鏈,K個(gè)站 個(gè)人建議:做個(gè)網(wǎng)站要
   查看全部

  干貨內容:分享一個(gè)牛逼的Python項目:公眾號文章爬蟲(chóng)
  我有
  訂閱了近100個(gè)公眾號,有時(shí)候想找之前看過(guò)的文章,卻覺(jué)得特別難找,如果忘了采集,估計要找半個(gè)小時(shí),更無(wú)語(yǔ)的是文章被發(fā)布者刪掉了,或者文章違規刪掉了。那么有沒(méi)有這樣的爬蟲(chóng),可以將公眾號的所有文章抓取到本地,并提供方便的搜索功能,這樣在我想找到某類(lèi)文章的時(shí)候會(huì )非常方便,同時(shí)文章都是本地的,不用擔心被刪。
  最近,我偶然看到一個(gè)很棒的Python爬蟲(chóng)項目,就是微信公眾號的爬文章,看了功能介紹,我真的很想看晚了,作者的水平真的很厲害,我奉獻了我的崇拜,特意分享一下,大家可以使用它的功能,也可以研究它的技術(shù), 請不用謝。訪(fǎng)問(wèn)項目地址并相信您能夠獨立部署。
  項目地址:
  特征顯示
  用戶(hù)界面主界面
  爬蟲(chóng)的主界面.gif添加公眾號
  抓取任務(wù)和已爬網(wǎng)的公眾號列表
  公眾號.png
  爬蟲(chóng)界面
  設置界面
  設置.png
  官方賬號歷史文章列表
  歷史文章 .gif列表
  報告
  報告.gif
  搜索
  搜索.gif
  
  介紹
  weixin_crawler是一個(gè)微信公眾號文章爬蟲(chóng),使用Scrapy、Flask、Echarts、Elasticsearch等,具有自己的分析報告和全文搜索功能,可以即時(shí)搜索數百萬(wàn)份文檔。weixin_crawler設計的初衷是盡可能快地抓取盡可能多的歷史帖子。
  weixin_crawler仍在維護中,該計劃有效,請隨時(shí)嘗試。
  無(wú)需部署即可體驗公眾號數據采集
  使用免安裝的可執行文件WCplus.exe您可以立即體驗weixin_crawler數據采集并導出Excel和PDF功能。
  主要特點(diǎn)是它是用Python 3編寫(xiě)的Python3 用于 Scrapy
  的爬蟲(chóng)框架,實(shí)際上使用了 Scrapy 的許多功能,這是一個(gè)很好的開(kāi)源項目,用于深入學(xué)習 Scrapy
  充分利用了scrapy,如果你正在為scrapy而苦苦掙扎,這個(gè)存儲庫有助于Sparks通過(guò)Flask,Flask-socketio和Vue實(shí)現高可用性UI界面。功能強大實(shí)用,是新媒體運營(yíng)等崗位的良好數據助手
  瓶
  Flask-socketio,Vue用于構建全棧項目爬蟲(chóng) 由于使用了Scrapy,MongoDB和Elasticsearch,數據爬取,存儲和索引變得簡(jiǎn)單高效
  感謝刮擦的mongodb elasticsearch weixin_crawler不僅是爬蟲(chóng),還是搜索引擎,支持微信公眾號所有歷史帖子的抓取
  可抓取任意微信公眾號的所有歷史文章,支持微信公眾號文章瀏覽量、點(diǎn)贊、點(diǎn)贊、評論數等數據進(jìn)行抓取
  能夠抓取讀取數據附帶單個(gè)公共帳戶(hù)的數據分析報告發(fā)布
  基于sigle公眾號的報告模塊,利用Elasticsearch進(jìn)行全文搜索,支持多種搜索和模式和排序模式,并為搜索結果提供趨勢分析圖表
  也是支持對公眾號進(jìn)行分組的搜索引擎,分組數據可以用來(lái)限制搜索范圍
  可分組公眾號,可用于定義搜索范圍原創(chuàng )手機自動(dòng)化操作方法,可實(shí)現爬蟲(chóng)無(wú)人監督
  借助adb,weixin_crawler能夠自動(dòng)操作Android手機,這意味著(zhù)它可以在沒(méi)有任何人工監控的情況下工作,支持多個(gè)微信APP同時(shí)采集,理論上采集速度可以線(xiàn)性提高
  支持多個(gè)微信應用程序線(xiàn)性提高爬行速度
  使用的主要工具
  語(yǔ)言: Python 3.6 前端 Web 框架 Flask / Flask-socketio / gevent js/css 庫 Vue / Jquery / W3css / Echarts / 前端 awsome 后端 爬蟲(chóng) 刮板存儲 Mongodb / Redis Index 彈性搜索
  運行方法
  weixin_crawler已經(jīng)在Win/Mac/Linux系統下成功運行,建議嘗試weixin_crawler可以在win/mac/Linux上運行,盡管建議先在win操作系統上嘗試。
  Insatall mongodb / redis / elasticsearch并在后臺運行它們
  Downlaod MongoDB / Redis / Elasticsearch從他們的官方網(wǎng)站安裝它們
  在默認配置下同時(shí)運行它們。在這種情況下,mongodb 是 localhost:27017 redis 是 localhost:6379(或者你必須在 weixin_crawler/project/configs/auth.py 中進(jìn)行配置)
  
  為了標記中文,必須為Elasticsearch安裝elasticsearch-analysis-ik。
  安裝代理服務(wù)器并運行代理.js安裝
  nodeJS,然后 npm 在 weixin_crawler/proxy 中安裝 anyproxy 和 Redis
  CD 到 weixin_crawler/代理并運行節點(diǎn)代理.js
  在計算機和電話(huà)端安裝任何代理 https CA
  如果您不確定如何使用任何代理,這里是文檔
  安裝所需的 python 包
  注意:您不能簡(jiǎn)單地鍵入pip install -r要求.txt要安裝每個(gè)軟件包,扭曲是Scrapy需要的其中之一。當您遇到有關(guān)安裝python包(例如扭曲)的問(wèn)題時(shí),這里總有一個(gè)解決方案-將正確的版本包下載到您的驅動(dòng)器并運行$ pip安裝package_name
  我不確定您的python環(huán)境是否會(huì )拋出其他軟件包未找到錯誤,只需安裝所需的任何軟件包
  有些源代碼需要修改(也許不合理)
  scrapy Python36\Lib\site-packages\scrapy\http\request\ _init_.py --> weixin_crawler\source_code\request\_init_.py
  scrapy Python36\Lib\site-packages\scrapy\http\response\ _init_.py --> weixin_crawler\source_code\response\_init_.py
  pyecharts Python36\Lib\site-packages\pyecharts\base.py --> weixin_crawler\source_code\base.py.在這種情況下,函數get_echarts_options在第 106 行添加
  如果您希望自動(dòng)工作weixin_crawler這些步驟是必要的,或者您應該操作電話(huà)以獲取將由 Anyproxy 手冊檢測到的請求數據
  安裝 adb 并將其添加到您的路徑中(例如窗口)
  安裝安卓模擬器(建議使用NOX)或插入手機,并確保您可以從命令行工具使用abd操作它們
  如果多部手機連接到您的計算機,您必須找出它們的adb端口,這些端口將用于添加爬蟲(chóng)
  亞行不支持中文輸入,這對微信公眾號搜索來(lái)說(shuō)是個(gè)壞消息。為了輸入中文,adb鍵盤(pán)必須安裝在您的Android手機中并將其設置為默認輸入法,更多在這里
  為什么weixin_crawler可以自動(dòng)工作?原因如下:
  如果要抓取微信公眾號,則必須在手機中搜索該帳戶(hù)并單擊其“所有消息”,然后您將獲得一個(gè)消息列表,如果向下滾動(dòng)將加載更多列表。如果您想抓取此帳戶(hù)的閱讀數據,可以錄制列表中的任何消息 如果給出了微信公眾號的昵稱(chēng),那么wexin_crawler操作安裝在手機中的微信應用程序,同時(shí)任何代理都在“收聽(tīng)背景”......無(wú)論如何,weixin_crawler獲取微信應用程序要求的所有請求數據,那么就是抓取時(shí)間了 正如您所推測的那樣,為了讓weixin_crawler操作微信應用程序,我們必須告訴adb在哪里點(diǎn)擊交換和輸入,其中大多數是在weixin_crawler/project/phone_operate/config.py中定義的。順便說(shuō)一句,phone_operate像人類(lèi)一樣負責微信運營(yíng),它的眼睛是百度OCR API和預定義的位置點(diǎn)擊區域,它的手指是adb運行 main.py
  $ CD weixin_crawler/項目/
  $ python(3) ./main.py
  現在打開(kāi)瀏覽器,您想要的所有內容都將在 localhost:5000 中。
  在這個(gè)長(cháng)步驟列表中,您可能會(huì )陷入困境,加入我們的社區尋求幫助,告訴我們您做了什么以及您發(fā)現了什么樣的錯誤。
  一起去探索世界吧:5000
  分享文章:seo自動(dòng)增加外鏈
  
  自然會(huì )迅速增加。查找外部鏈接有兩種方法,第一種是使用英文雅虎外部鏈接工具查找競爭對手的外部鏈接資源;二是利用百度的域名命令分析競爭對手的外鏈資源。越熟練,越能有效增加外鏈,主要還是積累經(jīng)驗!. 不要將此類(lèi)論壇添加到您的采集夾。第三:如果只做論壇博客的外鏈,是遠遠不夠的。合理使用工具,比如現在做好外鏈,就是網(wǎng)道SEO優(yōu)化工具,它提供了專(zhuān)門(mén)的外鏈平臺。這是一個(gè)致力于獨立網(wǎng)站外部鏈接的平臺。第四:發(fā)帖,一個(gè)高質(zhì)量的軟文往往受到很多人的青睞。如果你的 軟文 被轉發(fā)很多,說(shuō)明別人給你發(fā)了很多外鏈。這種增加網(wǎng)站外鏈的自然方法是非常穩定和快速的方法。2.友情鏈接交換 友情鏈接交換也是我們快速增加外鏈的一種方式。. xyz域名第一年便宜,所以很多人大量做非法站。最近,搜索引擎的算法也在不斷更新。具有此域名后綴的站點(diǎn)是 mass-k 站點(diǎn)或已降級。推薦使用頂級域名來(lái)做網(wǎng)站吧。網(wǎng)站基本的SEO優(yōu)化我就不提了,但是如何增加外鏈呢?加入網(wǎng)站目錄,提高。不建議使用它。下面來(lái)分析一下優(yōu)缺點(diǎn): 優(yōu)點(diǎn):外鏈和排名會(huì )迅速增加,流量也會(huì )增加;缺點(diǎn):一段時(shí)間后,BD發(fā)現作弊,降級,K個(gè)外鏈,K個(gè)站 個(gè)人建議:做個(gè)網(wǎng)站要
  

解決方案:多API接口集成TXT批量翻譯工具

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 160 次瀏覽 ? 2022-12-12 13:25 ? 來(lái)自相關(guān)話(huà)題

  解決方案:多API接口集成TXT批量翻譯工具
  TXT批量翻譯工具可以讓我們批量翻譯一個(gè)TXT文檔和一個(gè)文件夾中的所有TXT文檔。TXT批量翻譯工具對接百度、有道、谷歌,自帶翻譯接口,無(wú)需多個(gè)軟件或網(wǎng)頁(yè)跳轉到批量翻譯。
  TXT批量翻譯工具支持全球數十種主流語(yǔ)言。只需輕點(diǎn)鼠標,我們就可以在不同語(yǔ)言之間進(jìn)行翻譯,甚至進(jìn)行反向翻譯。反向翻譯功能允許我們將文章翻譯成其他語(yǔ)言,然后再反向翻譯成原創(chuàng )語(yǔ)言,這樣一個(gè)文章可以拆分成多個(gè)文章,在網(wǎng)站 和 自媒體 實(shí)現了 文章 的高質(zhì)量 原創(chuàng )。
  TXT 批量翻譯工具 批量?jì)热萏幚硎刮覀兡軌虿杉?文章我們想要的材料。只需要輸入關(guān)鍵詞即可查看全網(wǎng)文章采集,也可以輸入目標網(wǎng)址,鼠標點(diǎn)擊相應元素編輯英文、日文、泰文、韓文和其他語(yǔ)言網(wǎng)站做采集。文章批量翻譯采集后,保留原文格式標簽,去除原文敏感信息。實(shí)現 文章 整潔。
  TXT批量翻譯工具可用于網(wǎng)站 SEO優(yōu)化和自媒體文章批量編輯。在 軟文 和高權重 網(wǎng)站 中建立外部鏈接是我們的日常推廣工作,TXT 批量翻譯工具是一個(gè)很棒的鏈接構建工具,但重要的是要記住我們不能保證反向鏈接。確保我們的演講對記者來(lái)說(shuō)是相關(guān)且有趣的。如果是這樣,那么我們很有可能會(huì )出現在他們的 文章 中。社交媒體是與目標受眾建立聯(lián)系和互動(dòng)并建立有意義關(guān)系的好方法。這有助于我們建立信任和信譽(yù),隨著(zhù)時(shí)間的推移會(huì )產(chǎn)生自然的反向鏈接。
  要充分利用社交媒體,請確保我們活躍在最有可能接觸到我們理想受眾的平臺上。與其他用戶(hù)互動(dòng),分享我們的內容,關(guān)注我們行業(yè)的人。這些活動(dòng)不僅可以幫助我們建立聯(lián)系,還可以提高品牌知名度和銷(xiāo)量。
  每個(gè)人都喜歡信息圖表。它以一種易于理解的格式呈現復雜的數據,這種格式具有視覺(jué)吸引力、吸引力和令人難忘。這有助于我們獲得曝光率并與其他 網(wǎng)站 建立關(guān)系。另一種獲得曝光率和鏈接的好方法是創(chuàng )建其他“可鏈接”資產(chǎn),例如電子書(shū)、備忘單和模板。通常由其他 網(wǎng)站 共享,這些資產(chǎn)幫助我們自然地建立聯(lián)系。
  創(chuàng )建信息圖表和可連接資產(chǎn)顯著(zhù)增加了我們的內容創(chuàng )建工作流程,但這是值得的,因為它們非常有效。要獲得出色的結果,請確保您: 與設計師合作創(chuàng )造高質(zhì)量的視覺(jué)效果;在創(chuàng )建這些資產(chǎn)時(shí)留出額外的時(shí)間;并確保內容有價(jià)值并且與我們的目標受眾相關(guān)。
  import json, requests
def main(query):
url = 'http://fanyi.youdao.com/translate'
data = {
<p>
"i": query, # 待翻譯的字符串
"from": "AUTO",
"to": "AUTO",
"smartresult": "dict",
"client": "fanyideskweb",
"salt": "16081210430989",
"doctype": "json",
"version": "2.1",
"keyfrom": "fanyi.web",
"action": "FY_BY_CLICKBUTTION"
}
res = requests.post(url, data=data).json()
print(json.dumps(res, indent=2, ensure_ascii=False))
main(&#39;hello&#39;)</p>
  按照我們分享的提示開(kāi)始建立鏈接并幫助我們實(shí)現營(yíng)銷(xiāo)和業(yè)務(wù)目標。實(shí)施白帽 SEO 鏈接構建策略可能需要比其他策略更多的時(shí)間和精力,但這是值得的,因為我們會(huì )看到長(cháng)期的結果。然后使用一些與我們的業(yè)務(wù)最相關(guān)和適用的白帽 SEO 鏈接構建策略。
  import requests
def main(query):
<p>
url = &#39;http://fanyi.youdao.com/translate&#39;
data = {
"i": query, # 待翻譯的字符串
"from": "AUTO",
"to": "AUTO",
"smartresult": "dict",
"client": "fanyideskweb",
"salt": "16081210430989",
"doctype": "json",
"version": "2.1",
"keyfrom": "fanyi.web",
"action": "FY_BY_CLICKBUTTION"
}
res = requests.post(url, data=data).json()
print(res[&#39;translateResult&#39;][0][0][&#39;tgt&#39;]) # 打印翻譯后的結果
main(&#39;你好&#39;) # 輸出: hello</p>
  TXT批量翻譯工具的分享到此結束。該工具可以替代手動(dòng)批量和重復的工作,讓我們更多地思考工作和生活中的規律和趨勢,然后使用TXT批量翻譯工具來(lái)達到更多意想不到的效果。每個(gè)人對此都有不同的看法,請在下面的評論中告訴我們。
  解決方案:功能1.音頻提取一鍵式批量提取2.音頻剪輯毫秒精密切削
  音頻提取工件可以應用于許多不同的場(chǎng)景。您可以打開(kāi)和導入音頻資源以進(jìn)行在線(xiàn)編輯。收錄的服務(wù)非常詳細,還支持不同的格式。編輯和操作并不困難。視頻提取音頻軟件,在頁(yè)面中 功能和信息齊全。視頻鏈接也可以提取音頻,也可以批量提取。毫秒級精準裁剪,讓用戶(hù)達到想要的效果。
  音頻提取器介紹
  一款視頻提取音頻軟件apk,強大的音頻編輯工具。非常簡(jiǎn)單易用。為用戶(hù)提供簡(jiǎn)單易用的編輯功能和非常專(zhuān)業(yè)的轉碼轉換功能。
  專(zhuān)業(yè)的手機音頻提取軟件,支持音頻編輯、格式轉換、音量放大等功能,輕松提取音頻文件,享受更便捷的音頻提取服務(wù),讓音頻處理更簡(jiǎn)單。
  也是一款功能強大的音頻處理APP,支持音頻格式轉換、音量速度調節、音頻合并、音頻編輯等功能。音頻提取軟件不僅可以從各種格式的視頻中提取各種格式的音頻,
  操作極其簡(jiǎn)單,支持碼率、采樣率、通道、轉碼等參數設置。音頻提取和轉換軟件操作簡(jiǎn)單,功能強大,轉換速度快,可以輕松編輯您的音頻文件。
  音頻提取神器功能
  1. 音頻提取
  一鍵批量提取音頻
  2.音頻剪輯
  毫秒級精準切割,包括原創(chuàng )質(zhì)量、高質(zhì)量、中等質(zhì)量和低質(zhì)量,
  3.格式轉換
  可以使用各種音頻格式。
  4.視頻鏈接提取
  
  復制一鍵式鏈接以提取音頻。另外,有多種格式可供選擇,使用方法也很簡(jiǎn)單
  音頻提取神器的特點(diǎn)
  1.從音頻或視頻中提取需要的音頻片段,您可以預先自由選擇質(zhì)量選擇,
  2.自由選擇和轉換各種音頻格式,可以幫助用戶(hù)一鍵從視頻中提取音頻文件,
  3.采集喜歡的音頻或視頻,小白也能輕松上手,還可以轉換音頻文件格式
  4.智能切割提取音樂(lè )內容,本軟件功能強大,操作簡(jiǎn)單,
  音頻提取神器的優(yōu)勢
  1. 本地視頻提取音頻:選擇一個(gè)或多個(gè)本地視頻,一鍵提取音頻。
  2.音頻剪輯:精確剪輯毫秒級音頻,放大音量、速度和音調調節。
  3、視頻鏈接提取音頻:復制視頻鏈接視頻提取音頻軟件,一鍵提取視頻中的音頻。
  4、格式轉換:支持mp3、AAC、M4A、FLAC、WAV等格式。
  音頻提取工件細節
  [視頻轉音頻]
  
  * 可以從本地文件導入視頻;
  * 音頻轉換器將視頻轉換為音樂(lè )。
  * 音頻提?。簭囊纛l或視頻中提取需要的音頻;
  * 無(wú)格式損壞提?。阂曨l格式的音頻文件是無(wú)損音樂(lè );
  *支持多種視頻格式:3GP、FLV、MP4、MOV、MXF、MKV、AVI、MPG、MPEG等。
  * 支持從視頻中提取各種類(lèi)型的音頻、MP3、AAC、M4A、M4R、WAV、OPUS等格式;
  * 音頻提取過(guò)程快速且省時(shí)。
  [音樂(lè )剪輯]
  * 輕松編輯提取的音頻;
  * 個(gè)性化剪裁,哪里聽(tīng)剪裁;
  * 可用作音頻播放器。
  *支持用其他應用打開(kāi);
  * 支持音頻編輯器的音頻文件重命名。
  *支持分享 查看全部

  解決方案:多API接口集成TXT批量翻譯工具
  TXT批量翻譯工具可以讓我們批量翻譯一個(gè)TXT文檔和一個(gè)文件夾中的所有TXT文檔。TXT批量翻譯工具對接百度、有道、谷歌,自帶翻譯接口,無(wú)需多個(gè)軟件或網(wǎng)頁(yè)跳轉到批量翻譯。
  TXT批量翻譯工具支持全球數十種主流語(yǔ)言。只需輕點(diǎn)鼠標,我們就可以在不同語(yǔ)言之間進(jìn)行翻譯,甚至進(jìn)行反向翻譯。反向翻譯功能允許我們將文章翻譯成其他語(yǔ)言,然后再反向翻譯成原創(chuàng )語(yǔ)言,這樣一個(gè)文章可以拆分成多個(gè)文章,在網(wǎng)站 和 自媒體 實(shí)現了 文章 的高質(zhì)量 原創(chuàng )。
  TXT 批量翻譯工具 批量?jì)热萏幚硎刮覀兡軌?a href="http://www.hqbet6457.com/" target="_blank">采集 文章我們想要的材料。只需要輸入關(guān)鍵詞即可查看全網(wǎng)文章采集,也可以輸入目標網(wǎng)址,鼠標點(diǎn)擊相應元素編輯英文、日文、泰文、韓文和其他語(yǔ)言網(wǎng)站做采集。文章批量翻譯采集后,保留原文格式標簽,去除原文敏感信息。實(shí)現 文章 整潔。
  TXT批量翻譯工具可用于網(wǎng)站 SEO優(yōu)化和自媒體文章批量編輯。在 軟文 和高權重 網(wǎng)站 中建立外部鏈接是我們的日常推廣工作,TXT 批量翻譯工具是一個(gè)很棒的鏈接構建工具,但重要的是要記住我們不能保證反向鏈接。確保我們的演講對記者來(lái)說(shuō)是相關(guān)且有趣的。如果是這樣,那么我們很有可能會(huì )出現在他們的 文章 中。社交媒體是與目標受眾建立聯(lián)系和互動(dòng)并建立有意義關(guān)系的好方法。這有助于我們建立信任和信譽(yù),隨著(zhù)時(shí)間的推移會(huì )產(chǎn)生自然的反向鏈接。
  要充分利用社交媒體,請確保我們活躍在最有可能接觸到我們理想受眾的平臺上。與其他用戶(hù)互動(dòng),分享我們的內容,關(guān)注我們行業(yè)的人。這些活動(dòng)不僅可以幫助我們建立聯(lián)系,還可以提高品牌知名度和銷(xiāo)量。
  每個(gè)人都喜歡信息圖表。它以一種易于理解的格式呈現復雜的數據,這種格式具有視覺(jué)吸引力、吸引力和令人難忘。這有助于我們獲得曝光率并與其他 網(wǎng)站 建立關(guān)系。另一種獲得曝光率和鏈接的好方法是創(chuàng )建其他“可鏈接”資產(chǎn),例如電子書(shū)、備忘單和模板。通常由其他 網(wǎng)站 共享,這些資產(chǎn)幫助我們自然地建立聯(lián)系。
  創(chuàng )建信息圖表和可連接資產(chǎn)顯著(zhù)增加了我們的內容創(chuàng )建工作流程,但這是值得的,因為它們非常有效。要獲得出色的結果,請確保您: 與設計師合作創(chuàng )造高質(zhì)量的視覺(jué)效果;在創(chuàng )建這些資產(chǎn)時(shí)留出額外的時(shí)間;并確保內容有價(jià)值并且與我們的目標受眾相關(guān)。
  import json, requests
def main(query):
url = &#39;http://fanyi.youdao.com/translate&#39;
data = {
<p>
"i": query, # 待翻譯的字符串
"from": "AUTO",
"to": "AUTO",
"smartresult": "dict",
"client": "fanyideskweb",
"salt": "16081210430989",
"doctype": "json",
"version": "2.1",
"keyfrom": "fanyi.web",
"action": "FY_BY_CLICKBUTTION"
}
res = requests.post(url, data=data).json()
print(json.dumps(res, indent=2, ensure_ascii=False))
main(&#39;hello&#39;)</p>
  按照我們分享的提示開(kāi)始建立鏈接并幫助我們實(shí)現營(yíng)銷(xiāo)和業(yè)務(wù)目標。實(shí)施白帽 SEO 鏈接構建策略可能需要比其他策略更多的時(shí)間和精力,但這是值得的,因為我們會(huì )看到長(cháng)期的結果。然后使用一些與我們的業(yè)務(wù)最相關(guān)和適用的白帽 SEO 鏈接構建策略。
  import requests
def main(query):
<p>
url = &#39;http://fanyi.youdao.com/translate&#39;
data = {
"i": query, # 待翻譯的字符串
"from": "AUTO",
"to": "AUTO",
"smartresult": "dict",
"client": "fanyideskweb",
"salt": "16081210430989",
"doctype": "json",
"version": "2.1",
"keyfrom": "fanyi.web",
"action": "FY_BY_CLICKBUTTION"
}
res = requests.post(url, data=data).json()
print(res[&#39;translateResult&#39;][0][0][&#39;tgt&#39;]) # 打印翻譯后的結果
main(&#39;你好&#39;) # 輸出: hello</p>
  TXT批量翻譯工具的分享到此結束。該工具可以替代手動(dòng)批量和重復的工作,讓我們更多地思考工作和生活中的規律和趨勢,然后使用TXT批量翻譯工具來(lái)達到更多意想不到的效果。每個(gè)人對此都有不同的看法,請在下面的評論中告訴我們。
  解決方案:功能1.音頻提取一鍵式批量提取2.音頻剪輯毫秒精密切削
  音頻提取工件可以應用于許多不同的場(chǎng)景。您可以打開(kāi)和導入音頻資源以進(jìn)行在線(xiàn)編輯。收錄的服務(wù)非常詳細,還支持不同的格式。編輯和操作并不困難。視頻提取音頻軟件,在頁(yè)面中 功能和信息齊全。視頻鏈接也可以提取音頻,也可以批量提取。毫秒級精準裁剪,讓用戶(hù)達到想要的效果。
  音頻提取器介紹
  一款視頻提取音頻軟件apk,強大的音頻編輯工具。非常簡(jiǎn)單易用。為用戶(hù)提供簡(jiǎn)單易用的編輯功能和非常專(zhuān)業(yè)的轉碼轉換功能。
  專(zhuān)業(yè)的手機音頻提取軟件,支持音頻編輯、格式轉換、音量放大等功能,輕松提取音頻文件,享受更便捷的音頻提取服務(wù),讓音頻處理更簡(jiǎn)單。
  也是一款功能強大的音頻處理APP,支持音頻格式轉換、音量速度調節、音頻合并、音頻編輯等功能。音頻提取軟件不僅可以從各種格式的視頻中提取各種格式的音頻,
  操作極其簡(jiǎn)單,支持碼率、采樣率、通道、轉碼等參數設置。音頻提取和轉換軟件操作簡(jiǎn)單,功能強大,轉換速度快,可以輕松編輯您的音頻文件。
  音頻提取神器功能
  1. 音頻提取
  一鍵批量提取音頻
  2.音頻剪輯
  毫秒級精準切割,包括原創(chuàng )質(zhì)量、高質(zhì)量、中等質(zhì)量和低質(zhì)量,
  3.格式轉換
  可以使用各種音頻格式。
  4.視頻鏈接提取
  
  復制一鍵式鏈接以提取音頻。另外,有多種格式可供選擇,使用方法也很簡(jiǎn)單
  音頻提取神器的特點(diǎn)
  1.從音頻或視頻中提取需要的音頻片段,您可以預先自由選擇質(zhì)量選擇,
  2.自由選擇和轉換各種音頻格式,可以幫助用戶(hù)一鍵從視頻中提取音頻文件,
  3.采集喜歡的音頻或視頻,小白也能輕松上手,還可以轉換音頻文件格式
  4.智能切割提取音樂(lè )內容,本軟件功能強大,操作簡(jiǎn)單,
  音頻提取神器的優(yōu)勢
  1. 本地視頻提取音頻:選擇一個(gè)或多個(gè)本地視頻,一鍵提取音頻。
  2.音頻剪輯:精確剪輯毫秒級音頻,放大音量、速度和音調調節。
  3、視頻鏈接提取音頻:復制視頻鏈接視頻提取音頻軟件,一鍵提取視頻中的音頻。
  4、格式轉換:支持mp3、AAC、M4A、FLAC、WAV等格式。
  音頻提取工件細節
  [視頻轉音頻]
  
  * 可以從本地文件導入視頻;
  * 音頻轉換器將視頻轉換為音樂(lè )。
  * 音頻提?。簭囊纛l或視頻中提取需要的音頻;
  * 無(wú)格式損壞提?。阂曨l格式的音頻文件是無(wú)損音樂(lè );
  *支持多種視頻格式:3GP、FLV、MP4、MOV、MXF、MKV、AVI、MPG、MPEG等。
  * 支持從視頻中提取各種類(lèi)型的音頻、MP3、AAC、M4A、M4R、WAV、OPUS等格式;
  * 音頻提取過(guò)程快速且省時(shí)。
  [音樂(lè )剪輯]
  * 輕松編輯提取的音頻;
  * 個(gè)性化剪裁,哪里聽(tīng)剪裁;
  * 可用作音頻播放器。
  *支持用其他應用打開(kāi);
  * 支持音頻編輯器的音頻文件重命名。
  *支持分享

教程:利用 Python 爬取網(wǎng)站的新手指南 | Linux 中國

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 141 次瀏覽 ? 2022-12-05 22:25 ? 來(lái)自相關(guān)話(huà)題

  教程:利用 Python 爬取網(wǎng)站的新手指南 | Linux 中國
  關(guān)于合法性,訪(fǎng)問(wèn)大量有價(jià)值的信息可能令人興奮,但僅僅因為它可能并不意味著(zhù)應該這樣做。
  值得慶幸的是,有一些公共信息可以指導我們的道德準則和網(wǎng)絡(luò )抓取工具。大多數 網(wǎng)站 都有一個(gè)與那個(gè) 網(wǎng)站 相關(guān)聯(lián)的 robots.txt 文件,指示哪些爬行活動(dòng)是允許的,哪些是不允許的。它主要用于與搜索引擎交互(網(wǎng)絡(luò )抓取的最終形式)。但是,網(wǎng)站 上的大部分信息都被視為公共信息。出于這個(gè)原因,有些人將 robots.txt 文件視為一組建議,而不是具有法律約束力的文件。robots.txt 文件不涉及諸如合乎道德的數據采集和使用等主題。
  在開(kāi)始爬取項目之前,請問(wèn)自己以下問(wèn)題:
  當我抓取 網(wǎng)站 時(shí),請確保您可以對所有這些問(wèn)題回答“否”。
  要深入了解這些法律問(wèn)題,請參閱 Krotov 和 Silva 撰寫(xiě)的網(wǎng)絡(luò )抓取的合法性和道德規范以及 Sellars 撰寫(xiě)的二十年網(wǎng)絡(luò )抓取和計算機欺詐和濫用法案,均于 2018 年出版。
  現在開(kāi)始爬行 網(wǎng)站
  經(jīng)過(guò)上面的評估,我想出了一個(gè)項目。我的目標是抓取愛(ài)達荷州所有 Family Dollar 商店的地址。這些商店在農村地區都很大,所以我想知道有多少家。
  起點(diǎn)是 Family Dollar 位置頁(yè)面
  愛(ài)達荷家庭美元位置頁(yè)面
  首先,讓我們在 Python 虛擬環(huán)境中加載先決條件。此處的代碼將添加到 Python 文件(如果需要名稱(chēng),則為 scraper.py)或在 JupyterLab 的單元格中運行。
  import requests # for making standard html requests
from bs4 import BeautifulSoup # magical tool for parsing html data
import json # for parsing data
from pandas import DataFrame as df # premier library for data organization
  接下來(lái),我們從目標 URL 請求數據。
  page = requests.get("https://locations.familydollar.com/id/")
soup = BeautifulSoup(page.text, &#39;html.parser&#39;)
  BeautifulSoup 將 HTML 或 XML 內容轉換為復雜的樹(shù)對象。以下是我們將使用的一些常見(jiàn)對象類(lèi)型。
  當我們查看 requests.get() 輸出時(shí),需要考慮更多內容。我只是使用 page.text() 將請求的頁(yè)面轉換為可讀的內容,但還有其他輸出類(lèi)型:
  我只使用拉丁字母對簡(jiǎn)單的英語(yǔ) 網(wǎng)站 進(jìn)行操作。請求中的默認編碼設置對此很有效。然而,除了簡(jiǎn)單的英語(yǔ) 網(wǎng)站 之外,還有更大的互聯(lián)網(wǎng)世界。為確保請求正確解析內容,您可以設置文本的編碼:
  page = requests.get(URL)
page.encoding = &#39;ISO-885901&#39;
soup = BeautifulSoup(page.text, &#39;html.parser&#39;)
  仔細觀(guān)察 BeautifulSoup 標簽,我們看到:
  確定如何獲取內容
  警告:此過(guò)程可能令人沮喪。
  網(wǎng)站 抓取過(guò)程中的提取可能是一個(gè)充滿(mǎn)陷阱的艱巨過(guò)程。我認為解決這個(gè)問(wèn)題的最好方法是從一個(gè)有代表性的例子開(kāi)始,然后擴展(這個(gè)原則適用于任何編程任務(wù))。查看頁(yè)面的 HTML 源代碼至關(guān)重要。有很多方法可以做到這一點(diǎn)。
  可以在終端使用Python查看頁(yè)面的全部源碼(不推薦)。運行此代碼需要您自擔風(fēng)險:
  print(soup.prettify())
  雖然打印出頁(yè)面的整個(gè)源代碼可能適用于某些教程中顯示的玩具示例,但大多數現代 網(wǎng)站 頁(yè)面上都有很多東西。即使是 404 頁(yè)面也可以填充頁(yè)眉、頁(yè)腳等代碼。
  通常,在您最喜歡的瀏覽器中通過(guò)“查看頁(yè)面源代碼”瀏覽源代碼最簡(jiǎn)單(右鍵單擊,然后選擇“查看頁(yè)面源代碼”)。這是查找所需內容的最可靠方法(稍后我將解釋原因)。
  Family Dollar頁(yè)面源代碼
  在這種情況下,我需要在這個(gè)巨大的 HTML 海洋中找到我的目標內容——地址、城市、州和郵政編碼。通常只需簡(jiǎn)單搜索頁(yè)面源 (ctrl+F) 即可為您提供目標位置所在的位置。一旦我真正看到我的目標內容示例(至少一家商店的地址),我就會(huì )找到一個(gè)屬性或標簽來(lái)區分該內容與其他內容。
  首先,我需要采集愛(ài)達荷州 Family Dollar 商店中不同城市的 URL,并訪(fǎng)問(wèn)這些 網(wǎng)站 以獲取地址信息。這些 url 似乎收錄在 href 標簽中。驚人的!我將嘗試使用 find_all 命令進(jìn)行搜索:
  dollar_tree_list = soup.find_all(&#39;href&#39;)
dollar_tree_list
  搜索 href 沒(méi)有結果,該死的。這可能會(huì )失敗,因為 href 嵌套在 itemlist 類(lèi)中。下次嘗試時(shí),搜索 item_list。由于 class 是 Python 中的保留字,因此請改用 class_。soup.find_all() 原來(lái)是 bs4 函數的瑞士軍刀。
  dollar_tree_list = soup.find_all(class_ = &#39;itemlist&#39;)
for i in dollar_tree_list[:2]:
? print(i)
  有趣的是,我發(fā)現搜索特定類(lèi)的方法通常是一種成功的方法。通過(guò)找出對象的類(lèi)型和長(cháng)度,我們可以了解更多有關(guān)該對象的信息。
  type(dollar_tree_list)
len(dollar_tree_list)
  您可以使用 .contents 從 BeautifulSoup“結果集”中提取內容。這也是創(chuàng )建單個(gè)代表性示例的好時(shí)機。
  example = dollar_tree_list[2] # a representative example
example_content = example.contents
print(example_content)
  使用 .attr 查找對象內容中存在的屬性。注意:.contents 通常會(huì )返回一個(gè)精確的項目列表,因此第一步是使用括號符號對項目進(jìn)行索引。
  example_content = example.contents[0]
example_content.attrs
  現在,我可以看到 href 是一個(gè)屬性,它可以像字典項一樣被提?。?br />   example_href = example_content[&#39;href&#39;]
print(example_href)
  集成 網(wǎng)站 爬蟲(chóng)
  所有這些探索都為我們提供了前進(jìn)的道路。這是一個(gè)清理版本,以闡明上述邏輯。
  city_hrefs = [] # initialise empty list
for i in dollar_tree_list:
? ? cont = i.contents[0]
? ? href = cont[&#39;href&#39;]
? ? city_hrefs.append(href)
# ?check to be sure all went well
<p>
for i in city_hrefs[:2]:
? print(i)
</p>
  輸出是用于抓取愛(ài)達荷州 Family Dollar 商店的 URL 列表。
  也就是說(shuō),我仍然沒(méi)有得到地址信息!現在需要爬取每個(gè)城市的URL來(lái)獲取這些信息。所以我們從一個(gè)有代表性的例子開(kāi)始。
  page2 = requests.get(city_hrefs[2]) # again establish a representative example
soup2 = BeautifulSoup(page2.text, &#39;html.parser&#39;)
  家庭美元地圖和代碼
  地址信息嵌套在type="application/ld+json"中。在進(jìn)行了大量的地理定位抓取之后,我開(kāi)始意識到這是存儲地址信息的通用結構。幸運的是, soup.find_all() 打開(kāi)了按類(lèi)型搜索。
  arco = soup2.find_all(type="application/ld+json")
print(arco[1])
  地址信息在第二個(gè)列表成員中!我懂了!
  使用 .contents 提取內容(從第二個(gè)列表項)(這是過(guò)濾后合適的默認操作)。同樣,由于輸出是一個(gè)列表,我索引了列表項:
  arco_contents = arco[1].contents[0]
arco_contents
  哦,那看起來(lái)不錯。此處提供的格式與 JSON 格式一致(并且該類(lèi)型的名稱(chēng)中確實(shí)有“json”)。JSON 對象的行為類(lèi)似于具有嵌套字典的字典。一旦您習慣了使用它,它實(shí)際上是一種很好的格式(當然,它比一長(cháng)串正則表達式命令更容易編程)。雖然在結構上它看起來(lái)像一個(gè) JSON 對象,但它仍然是一個(gè) bs4 對象,需要以編程方式轉換為 JSON 對象才能訪(fǎng)問(wèn)它:
  arco_json = ?json.loads(arco_contents)
  type(arco_json)
print(arco_json)
  在該內容中,有一個(gè)名為 address 的鍵,它需要一個(gè)相對較小的嵌套字典中的地址信息。它可以像這樣檢索:
  arco_address = arco_json[&#39;address&#39;]
arco_address
  嗯,請注意?,F在我可以遍歷存儲愛(ài)達荷州 URL 的列表:
  locs_dict = [] # initialise empty list
for link in city_hrefs:
? locpage = requests.get(link) ? # request page info
? locsoup = BeautifulSoup(locpage.text, &#39;html.parser&#39;)
? ? ? # parse the page&#39;s content
? locinfo = locsoup.find_all(type="application/ld+json")
? ? ? # extract specific element
? loccont = locinfo[1].contents[0] ?
? ? ? # get contents from the bs4 element set
? locjson = json.loads(loccont) ?# convert to json
? locaddr = locjson[&#39;address&#39;] # get address
? locs_dict.append(locaddr) # add address to list
  使用 Pandas 組織我們的 網(wǎng)站 抓取結果
  我們已經(jīng)用大量數據加載了字典,但是還有一些額外的無(wú)用項目使得數據的重用變得比需要的更復雜。為了執行最終的數據組織,我們需要將其轉換為 Pandas 數據框,刪除不需要的列@type 和 country,并檢查前五行以確保一切正常。
  locs_df = df.from_records(locs_dict)
locs_df.drop([&#39;@type&#39;, &#39;addressCountry&#39;], axis = 1, inplace = True)
locs_df.head(n = 5)
  一定要保存結果??!
  df.to_csv(locs_df, "family_dollar_ID_locations.csv", sep = ",", index = False)
  我們做到了!Idaho Family Dollar 商店有一個(gè)逗號分隔的列表。多么激動(dòng)人心。
  關(guān)于 Selenium 和數據抓取的一些說(shuō)明
  Selenium 是一種用于自動(dòng)與網(wǎng)頁(yè)交互的常用工具。為了解釋為什么它有時(shí)是必要的,讓我們看一個(gè)使用 Walgreens 網(wǎng)站 的例子?!癐nspect Element”提供瀏覽器顯示內容的代碼:
  雖然“查看頁(yè)面源代碼”提供了有關(guān)將獲得哪些請求的代碼:
  如果這兩者不匹配,則有修改源代碼的插件——因此應該在瀏覽器加載頁(yè)面后訪(fǎng)問(wèn)它。requests 不能做到這一點(diǎn),但 Selenium 可以。
  Selenium 需要網(wǎng)絡(luò )驅動(dòng)程序來(lái)檢索內容。實(shí)際上,它打開(kāi)一個(gè)網(wǎng)絡(luò )瀏覽器并采集該頁(yè)面的內容。Selenium 功能強大 - 它可以通過(guò)多種方式與加載的內容進(jìn)行交互(閱讀文檔)。使用 Selenium 獲取數據后,繼續像以前一樣使用 BeautifulSoup:
  url = "https://www.walgreens.com/stor ... ot%3B
driver = webdriver.Firefox(executable_path = &#39;mypath/geckodriver.exe&#39;)
driver.get(url)
soup_ID = BeautifulSoup(driver.page_source, &#39;html.parser&#39;)
store_link_soup = soup_ID.find_all(class_ = &#39;col-xl-4 col-lg-4 col-md-4&#39;)
  對于 Family Dollar 案例,我不需要 Selenium,但當呈現的內容與源代碼不同時(shí),我會(huì )繼續使用 Selenium。
  概括
  綜上所述,在使用網(wǎng)站爬取完成有意義的任務(wù)時(shí):
  如果您對答案感到好奇:
  家庭美元位置圖
  美國有很多 Family Dollar 商店。
  完整的源代碼是:
  
  import requests
from bs4 import BeautifulSoup
import json
from pandas import DataFrame as df
page = requests.get("https://www.familydollar.com/locations/")
soup = BeautifulSoup(page.text, &#39;html.parser&#39;)
# find all state links
state_list = soup.find_all(class_ = &#39;itemlist&#39;)
state_links = []
for i in state_list:
????cont = i.contents[0]
????attr = cont.attrs
????hrefs = attr[&#39;href&#39;]
????state_links.append(hrefs)
# find all city links
city_links = []
for link in state_links:
????page = requests.get(link)
????soup = BeautifulSoup(page.text, &#39;html.parser&#39;)
????familydollar_list = soup.find_all(class_ = &#39;itemlist&#39;)
????for store in familydollar_list:
????????cont = store.contents[0]
????????attr = cont.attrs
????????city_hrefs = attr[&#39;href&#39;]
????????city_links.append(city_hrefs)
# to get individual store links
store_links = []
for link in city_links:
????locpage = requests.get(link)
????locsoup = BeautifulSoup(locpage.text, &#39;html.parser&#39;)
????locinfo = locsoup.find_all(type="application/ld+json")
????for i in locinfo:
????????loccont = i.contents[0]
????????locjson = json.loads(loccont)
????????try:
????????????store_url = locjson[&#39;url&#39;]
????????????store_links.append(store_url)
????????except:
????????????pass
# get address and geolocation information
stores = []
for store in store_links:
????storepage = requests.get(store)
????storesoup = BeautifulSoup(storepage.text, &#39;html.parser&#39;)
????storeinfo = storesoup.find_all(type="application/ld+json")
????for i in storeinfo:
????????storecont = i.contents[0]
????????storejson = json.loads(storecont)
????????try:
????????????store_addr = storejson[&#39;address&#39;]
????????????store_addr.update(storejson[&#39;geo&#39;])
????????????stores.append(store_addr)
????????except:
????????????pass
# final data parsing
stores_df = df.from_records(stores)
stores_df.drop([&#39;@type&#39;, &#39;addressCountry&#39;], axis = 1, inplace = True)
stores_df[&#39;Store&#39;] = "Family Dollar"
df.to_csv(stores_df, "family_dollar_locations.csv", sep = ",", index = False)
  作者注:本文改編自我于 2020 年 2 月 9 日在俄勒岡州波特蘭的 PyCascades 上的演講。
  通過(guò):
  作者:Julia Piaskowski 題目:lujun9972 譯者:stevenzdg988 校對:wxy
  本文由LCTT原創(chuàng )編譯,Linux中國榮幸推出
  教程:站長(cháng)工具網(wǎng)怎么樣 站長(cháng)工具網(wǎng)介紹
  網(wǎng)站站長(cháng)工具怎么樣?當然很受歡迎!他可以說(shuō)是一款非常流行的SEO工具。這在百度搜索引擎中對SEO關(guān)鍵詞的排名就可以看出來(lái)。一個(gè)沒(méi)有太多內容支持的簡(jiǎn)單工具頁(yè)面就可以做SEO,關(guān)鍵詞,百度搜索引擎搜索結果的自然排名。其次,可以看出 SEO 人員使用此工具的頻率。
  
  它還為我們的 SEO 流程帶來(lái)了新想法,網(wǎng)站 最終的成功在于對用戶(hù)有價(jià)值。下面杭州seo就為大家介紹一下站長(cháng)工具,讓我們看看它們?yōu)槭裁词艿骄W(wǎng)站站長(cháng)的青睞。
  可以看出這個(gè)工具的使用非常簡(jiǎn)單,用戶(hù)只需要輸入網(wǎng)址查詢(xún),然后點(diǎn)擊即可!
   還提供豐富的數據和信息。查詢(xún)主要包括:網(wǎng)站基本信息、百度相關(guān)、網(wǎng)站反鏈、歷史收錄、網(wǎng)站標題、關(guān)鍵詞、描述信息、關(guān)鍵詞排名信息、服務(wù)器信息等。
  
  還有一個(gè)很實(shí)用的功能,長(cháng)尾詞推薦,系統會(huì )推薦一些可以根據我們的網(wǎng)站關(guān)鍵詞優(yōu)化的長(cháng)尾關(guān)鍵詞。在后續的優(yōu)化中加入這些長(cháng)尾關(guān)鍵詞會(huì )大大增加網(wǎng)站的權重。
  SEO站長(cháng)工具可以根據需要對各種信息進(jìn)行分類(lèi)查詢(xún),可以查詢(xún)到的信息比較完整、全面、準確度高。友情鏈接查詢(xún)也比較完善。用戶(hù)體驗,速度和設計都不錯,唯一就是廣告太多。
  但缺點(diǎn)并不能掩蓋優(yōu)點(diǎn)。這也是為什么有3000多種SEO工具,站長(cháng)們卻偏偏偏愛(ài)他的原因!哎~媽的,站長(cháng)工具的魅力無(wú)處安放! 查看全部

  教程:利用 Python 爬取網(wǎng)站的新手指南 | Linux 中國
  關(guān)于合法性,訪(fǎng)問(wèn)大量有價(jià)值的信息可能令人興奮,但僅僅因為它可能并不意味著(zhù)應該這樣做。
  值得慶幸的是,有一些公共信息可以指導我們的道德準則和網(wǎng)絡(luò )抓取工具。大多數 網(wǎng)站 都有一個(gè)與那個(gè) 網(wǎng)站 相關(guān)聯(lián)的 robots.txt 文件,指示哪些爬行活動(dòng)是允許的,哪些是不允許的。它主要用于與搜索引擎交互(網(wǎng)絡(luò )抓取的最終形式)。但是,網(wǎng)站 上的大部分信息都被視為公共信息。出于這個(gè)原因,有些人將 robots.txt 文件視為一組建議,而不是具有法律約束力的文件。robots.txt 文件不涉及諸如合乎道德的數據采集和使用等主題。
  在開(kāi)始爬取項目之前,請問(wèn)自己以下問(wèn)題:
  當我抓取 網(wǎng)站 時(shí),請確保您可以對所有這些問(wèn)題回答“否”。
  要深入了解這些法律問(wèn)題,請參閱 Krotov 和 Silva 撰寫(xiě)的網(wǎng)絡(luò )抓取的合法性和道德規范以及 Sellars 撰寫(xiě)的二十年網(wǎng)絡(luò )抓取和計算機欺詐和濫用法案,均于 2018 年出版。
  現在開(kāi)始爬行 網(wǎng)站
  經(jīng)過(guò)上面的評估,我想出了一個(gè)項目。我的目標是抓取愛(ài)達荷州所有 Family Dollar 商店的地址。這些商店在農村地區都很大,所以我想知道有多少家。
  起點(diǎn)是 Family Dollar 位置頁(yè)面
  愛(ài)達荷家庭美元位置頁(yè)面
  首先,讓我們在 Python 虛擬環(huán)境中加載先決條件。此處的代碼將添加到 Python 文件(如果需要名稱(chēng),則為 scraper.py)或在 JupyterLab 的單元格中運行。
  import requests # for making standard html requests
from bs4 import BeautifulSoup # magical tool for parsing html data
import json # for parsing data
from pandas import DataFrame as df # premier library for data organization
  接下來(lái),我們從目標 URL 請求數據。
  page = requests.get("https://locations.familydollar.com/id/";)
soup = BeautifulSoup(page.text, &#39;html.parser&#39;)
  BeautifulSoup 將 HTML 或 XML 內容轉換為復雜的樹(shù)對象。以下是我們將使用的一些常見(jiàn)對象類(lèi)型。
  當我們查看 requests.get() 輸出時(shí),需要考慮更多內容。我只是使用 page.text() 將請求的頁(yè)面轉換為可讀的內容,但還有其他輸出類(lèi)型:
  我只使用拉丁字母對簡(jiǎn)單的英語(yǔ) 網(wǎng)站 進(jìn)行操作。請求中的默認編碼設置對此很有效。然而,除了簡(jiǎn)單的英語(yǔ) 網(wǎng)站 之外,還有更大的互聯(lián)網(wǎng)世界。為確保請求正確解析內容,您可以設置文本的編碼:
  page = requests.get(URL)
page.encoding = &#39;ISO-885901&#39;
soup = BeautifulSoup(page.text, &#39;html.parser&#39;)
  仔細觀(guān)察 BeautifulSoup 標簽,我們看到:
  確定如何獲取內容
  警告:此過(guò)程可能令人沮喪。
  網(wǎng)站 抓取過(guò)程中的提取可能是一個(gè)充滿(mǎn)陷阱的艱巨過(guò)程。我認為解決這個(gè)問(wèn)題的最好方法是從一個(gè)有代表性的例子開(kāi)始,然后擴展(這個(gè)原則適用于任何編程任務(wù))。查看頁(yè)面的 HTML 源代碼至關(guān)重要。有很多方法可以做到這一點(diǎn)。
  可以在終端使用Python查看頁(yè)面的全部源碼(不推薦)。運行此代碼需要您自擔風(fēng)險:
  print(soup.prettify())
  雖然打印出頁(yè)面的整個(gè)源代碼可能適用于某些教程中顯示的玩具示例,但大多數現代 網(wǎng)站 頁(yè)面上都有很多東西。即使是 404 頁(yè)面也可以填充頁(yè)眉、頁(yè)腳等代碼。
  通常,在您最喜歡的瀏覽器中通過(guò)“查看頁(yè)面源代碼”瀏覽源代碼最簡(jiǎn)單(右鍵單擊,然后選擇“查看頁(yè)面源代碼”)。這是查找所需內容的最可靠方法(稍后我將解釋原因)。
  Family Dollar頁(yè)面源代碼
  在這種情況下,我需要在這個(gè)巨大的 HTML 海洋中找到我的目標內容——地址、城市、州和郵政編碼。通常只需簡(jiǎn)單搜索頁(yè)面源 (ctrl+F) 即可為您提供目標位置所在的位置。一旦我真正看到我的目標內容示例(至少一家商店的地址),我就會(huì )找到一個(gè)屬性或標簽來(lái)區分該內容與其他內容。
  首先,我需要采集愛(ài)達荷州 Family Dollar 商店中不同城市的 URL,并訪(fǎng)問(wèn)這些 網(wǎng)站 以獲取地址信息。這些 url 似乎收錄在 href 標簽中。驚人的!我將嘗試使用 find_all 命令進(jìn)行搜索:
  dollar_tree_list = soup.find_all(&#39;href&#39;)
dollar_tree_list
  搜索 href 沒(méi)有結果,該死的。這可能會(huì )失敗,因為 href 嵌套在 itemlist 類(lèi)中。下次嘗試時(shí),搜索 item_list。由于 class 是 Python 中的保留字,因此請改用 class_。soup.find_all() 原來(lái)是 bs4 函數的瑞士軍刀。
  dollar_tree_list = soup.find_all(class_ = &#39;itemlist&#39;)
for i in dollar_tree_list[:2]:
? print(i)
  有趣的是,我發(fā)現搜索特定類(lèi)的方法通常是一種成功的方法。通過(guò)找出對象的類(lèi)型和長(cháng)度,我們可以了解更多有關(guān)該對象的信息。
  type(dollar_tree_list)
len(dollar_tree_list)
  您可以使用 .contents 從 BeautifulSoup“結果集”中提取內容。這也是創(chuàng )建單個(gè)代表性示例的好時(shí)機。
  example = dollar_tree_list[2] # a representative example
example_content = example.contents
print(example_content)
  使用 .attr 查找對象內容中存在的屬性。注意:.contents 通常會(huì )返回一個(gè)精確的項目列表,因此第一步是使用括號符號對項目進(jìn)行索引。
  example_content = example.contents[0]
example_content.attrs
  現在,我可以看到 href 是一個(gè)屬性,它可以像字典項一樣被提?。?br />   example_href = example_content[&#39;href&#39;]
print(example_href)
  集成 網(wǎng)站 爬蟲(chóng)
  所有這些探索都為我們提供了前進(jìn)的道路。這是一個(gè)清理版本,以闡明上述邏輯。
  city_hrefs = [] # initialise empty list
for i in dollar_tree_list:
? ? cont = i.contents[0]
? ? href = cont[&#39;href&#39;]
? ? city_hrefs.append(href)
# ?check to be sure all went well
<p>
for i in city_hrefs[:2]:
? print(i)
</p>
  輸出是用于抓取愛(ài)達荷州 Family Dollar 商店的 URL 列表。
  也就是說(shuō),我仍然沒(méi)有得到地址信息!現在需要爬取每個(gè)城市的URL來(lái)獲取這些信息。所以我們從一個(gè)有代表性的例子開(kāi)始。
  page2 = requests.get(city_hrefs[2]) # again establish a representative example
soup2 = BeautifulSoup(page2.text, &#39;html.parser&#39;)
  家庭美元地圖和代碼
  地址信息嵌套在type="application/ld+json"中。在進(jìn)行了大量的地理定位抓取之后,我開(kāi)始意識到這是存儲地址信息的通用結構。幸運的是, soup.find_all() 打開(kāi)了按類(lèi)型搜索。
  arco = soup2.find_all(type="application/ld+json")
print(arco[1])
  地址信息在第二個(gè)列表成員中!我懂了!
  使用 .contents 提取內容(從第二個(gè)列表項)(這是過(guò)濾后合適的默認操作)。同樣,由于輸出是一個(gè)列表,我索引了列表項:
  arco_contents = arco[1].contents[0]
arco_contents
  哦,那看起來(lái)不錯。此處提供的格式與 JSON 格式一致(并且該類(lèi)型的名稱(chēng)中確實(shí)有“json”)。JSON 對象的行為類(lèi)似于具有嵌套字典的字典。一旦您習慣了使用它,它實(shí)際上是一種很好的格式(當然,它比一長(cháng)串正則表達式命令更容易編程)。雖然在結構上它看起來(lái)像一個(gè) JSON 對象,但它仍然是一個(gè) bs4 對象,需要以編程方式轉換為 JSON 對象才能訪(fǎng)問(wèn)它:
  arco_json = ?json.loads(arco_contents)
  type(arco_json)
print(arco_json)
  在該內容中,有一個(gè)名為 address 的鍵,它需要一個(gè)相對較小的嵌套字典中的地址信息。它可以像這樣檢索:
  arco_address = arco_json[&#39;address&#39;]
arco_address
  嗯,請注意?,F在我可以遍歷存儲愛(ài)達荷州 URL 的列表:
  locs_dict = [] # initialise empty list
for link in city_hrefs:
? locpage = requests.get(link) ? # request page info
? locsoup = BeautifulSoup(locpage.text, &#39;html.parser&#39;)
? ? ? # parse the page&#39;s content
? locinfo = locsoup.find_all(type="application/ld+json")
? ? ? # extract specific element
? loccont = locinfo[1].contents[0] ?
? ? ? # get contents from the bs4 element set
? locjson = json.loads(loccont) ?# convert to json
? locaddr = locjson[&#39;address&#39;] # get address
? locs_dict.append(locaddr) # add address to list
  使用 Pandas 組織我們的 網(wǎng)站 抓取結果
  我們已經(jīng)用大量數據加載了字典,但是還有一些額外的無(wú)用項目使得數據的重用變得比需要的更復雜。為了執行最終的數據組織,我們需要將其轉換為 Pandas 數據框,刪除不需要的列@type 和 country,并檢查前五行以確保一切正常。
  locs_df = df.from_records(locs_dict)
locs_df.drop([&#39;@type&#39;, &#39;addressCountry&#39;], axis = 1, inplace = True)
locs_df.head(n = 5)
  一定要保存結果??!
  df.to_csv(locs_df, "family_dollar_ID_locations.csv", sep = ",", index = False)
  我們做到了!Idaho Family Dollar 商店有一個(gè)逗號分隔的列表。多么激動(dòng)人心。
  關(guān)于 Selenium 和數據抓取的一些說(shuō)明
  Selenium 是一種用于自動(dòng)與網(wǎng)頁(yè)交互的常用工具。為了解釋為什么它有時(shí)是必要的,讓我們看一個(gè)使用 Walgreens 網(wǎng)站 的例子?!癐nspect Element”提供瀏覽器顯示內容的代碼:
  雖然“查看頁(yè)面源代碼”提供了有關(guān)將獲得哪些請求的代碼:
  如果這兩者不匹配,則有修改源代碼的插件——因此應該在瀏覽器加載頁(yè)面后訪(fǎng)問(wèn)它。requests 不能做到這一點(diǎn),但 Selenium 可以。
  Selenium 需要網(wǎng)絡(luò )驅動(dòng)程序來(lái)檢索內容。實(shí)際上,它打開(kāi)一個(gè)網(wǎng)絡(luò )瀏覽器并采集該頁(yè)面的內容。Selenium 功能強大 - 它可以通過(guò)多種方式與加載的內容進(jìn)行交互(閱讀文檔)。使用 Selenium 獲取數據后,繼續像以前一樣使用 BeautifulSoup:
  url = "https://www.walgreens.com/stor ... ot%3B
driver = webdriver.Firefox(executable_path = &#39;mypath/geckodriver.exe&#39;)
driver.get(url)
soup_ID = BeautifulSoup(driver.page_source, &#39;html.parser&#39;)
store_link_soup = soup_ID.find_all(class_ = &#39;col-xl-4 col-lg-4 col-md-4&#39;)
  對于 Family Dollar 案例,我不需要 Selenium,但當呈現的內容與源代碼不同時(shí),我會(huì )繼續使用 Selenium。
  概括
  綜上所述,在使用網(wǎng)站爬取完成有意義的任務(wù)時(shí):
  如果您對答案感到好奇:
  家庭美元位置圖
  美國有很多 Family Dollar 商店。
  完整的源代碼是:
  
  import requests
from bs4 import BeautifulSoup
import json
from pandas import DataFrame as df
page = requests.get("https://www.familydollar.com/locations/";)
soup = BeautifulSoup(page.text, &#39;html.parser&#39;)
# find all state links
state_list = soup.find_all(class_ = &#39;itemlist&#39;)
state_links = []
for i in state_list:
????cont = i.contents[0]
????attr = cont.attrs
????hrefs = attr[&#39;href&#39;]
????state_links.append(hrefs)
# find all city links
city_links = []
for link in state_links:
????page = requests.get(link)
????soup = BeautifulSoup(page.text, &#39;html.parser&#39;)
????familydollar_list = soup.find_all(class_ = &#39;itemlist&#39;)
????for store in familydollar_list:
????????cont = store.contents[0]
????????attr = cont.attrs
????????city_hrefs = attr[&#39;href&#39;]
????????city_links.append(city_hrefs)
# to get individual store links
store_links = []
for link in city_links:
????locpage = requests.get(link)
????locsoup = BeautifulSoup(locpage.text, &#39;html.parser&#39;)
????locinfo = locsoup.find_all(type="application/ld+json")
????for i in locinfo:
????????loccont = i.contents[0]
????????locjson = json.loads(loccont)
????????try:
????????????store_url = locjson[&#39;url&#39;]
????????????store_links.append(store_url)
????????except:
????????????pass
# get address and geolocation information
stores = []
for store in store_links:
????storepage = requests.get(store)
????storesoup = BeautifulSoup(storepage.text, &#39;html.parser&#39;)
????storeinfo = storesoup.find_all(type="application/ld+json")
????for i in storeinfo:
????????storecont = i.contents[0]
????????storejson = json.loads(storecont)
????????try:
????????????store_addr = storejson[&#39;address&#39;]
????????????store_addr.update(storejson[&#39;geo&#39;])
????????????stores.append(store_addr)
????????except:
????????????pass
# final data parsing
stores_df = df.from_records(stores)
stores_df.drop([&#39;@type&#39;, &#39;addressCountry&#39;], axis = 1, inplace = True)
stores_df[&#39;Store&#39;] = "Family Dollar"
df.to_csv(stores_df, "family_dollar_locations.csv", sep = ",", index = False)
  作者注:本文改編自我于 2020 年 2 月 9 日在俄勒岡州波特蘭的 PyCascades 上的演講。
  通過(guò):
  作者:Julia Piaskowski 題目:lujun9972 譯者:stevenzdg988 校對:wxy
  本文由LCTT原創(chuàng )編譯,Linux中國榮幸推出
  教程:站長(cháng)工具網(wǎng)怎么樣 站長(cháng)工具網(wǎng)介紹
  網(wǎng)站站長(cháng)工具怎么樣?當然很受歡迎!他可以說(shuō)是一款非常流行的SEO工具。這在百度搜索引擎中對SEO關(guān)鍵詞的排名就可以看出來(lái)。一個(gè)沒(méi)有太多內容支持的簡(jiǎn)單工具頁(yè)面就可以做SEO,關(guān)鍵詞,百度搜索引擎搜索結果的自然排名。其次,可以看出 SEO 人員使用此工具的頻率。
  
  它還為我們的 SEO 流程帶來(lái)了新想法,網(wǎng)站 最終的成功在于對用戶(hù)有價(jià)值。下面杭州seo就為大家介紹一下站長(cháng)工具,讓我們看看它們?yōu)槭裁词艿骄W(wǎng)站站長(cháng)的青睞。
  可以看出這個(gè)工具的使用非常簡(jiǎn)單,用戶(hù)只需要輸入網(wǎng)址查詢(xún),然后點(diǎn)擊即可!
   還提供豐富的數據和信息。查詢(xún)主要包括:網(wǎng)站基本信息、百度相關(guān)、網(wǎng)站反鏈、歷史收錄、網(wǎng)站標題、關(guān)鍵詞、描述信息、關(guān)鍵詞排名信息、服務(wù)器信息等。
  
  還有一個(gè)很實(shí)用的功能,長(cháng)尾詞推薦,系統會(huì )推薦一些可以根據我們的網(wǎng)站關(guān)鍵詞優(yōu)化的長(cháng)尾關(guān)鍵詞。在后續的優(yōu)化中加入這些長(cháng)尾關(guān)鍵詞會(huì )大大增加網(wǎng)站的權重。
  SEO站長(cháng)工具可以根據需要對各種信息進(jìn)行分類(lèi)查詢(xún),可以查詢(xún)到的信息比較完整、全面、準確度高。友情鏈接查詢(xún)也比較完善。用戶(hù)體驗,速度和設計都不錯,唯一就是廣告太多。
  但缺點(diǎn)并不能掩蓋優(yōu)點(diǎn)。這也是為什么有3000多種SEO工具,站長(cháng)們卻偏偏偏愛(ài)他的原因!哎~媽的,站長(cháng)工具的魅力無(wú)處安放!

解決方案:一種基于影視素材本體的關(guān)鍵詞查詢(xún)擴展方法研究

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 94 次瀏覽 ? 2022-12-05 22:15 ? 來(lái)自相關(guān)話(huà)題

  解決方案:一種基于影視素材本體的關(guān)鍵詞查詢(xún)擴展方法研究
  沉毅1,趙琳2
  (1.上海大學(xué)計算機中心 上海 200444;2.上海大學(xué)計算機工程與科學(xué)學(xué)院 上海 200444)
  : 在語(yǔ)義搜索引擎系統中,為了在不限制用戶(hù)輸入的情況下使檢索內容更貼近用戶(hù)需求,提出了一種基于視頻素材本體的查詢(xún)擴展方法。根據本體模型對用戶(hù)檢索文本中的關(guān)鍵詞進(jìn)行推理,并根據相似語(yǔ)義進(jìn)行擴展,旨在得到更符合用戶(hù)檢索需求的擴展關(guān)鍵詞集,并在以此為基礎來(lái)檢索視頻素材,從而提高搜索引擎的召回率。
 ?。赫Z(yǔ)義搜索;本體;查詢(xún)擴展;視頻片段
  基于關(guān)鍵詞的搜索引擎的查詢(xún)擴展通常以檢索文本中的關(guān)鍵詞為中心,與這些關(guān)鍵詞相關(guān)的語(yǔ)義概念很少被收錄在擴展集中。在這種情況下,當用戶(hù)輸入的搜索內容較少時(shí),系統根據擴展集搜索得到的結果準確率和召回率較低,不能滿(mǎn)足用戶(hù)的需求。因此,基于關(guān)鍵詞的搜索引擎無(wú)法消除用戶(hù)需求與檢索結果之間的不一致?;诒倔w的關(guān)鍵詞查詢(xún)擴展彌補了這一不足。該技術(shù)結合了本體、搜索引擎、計算機語(yǔ)言學(xué)等技術(shù),將用戶(hù)輸入的搜索文本中的關(guān)鍵詞提取出來(lái),并與這些關(guān)鍵詞相關(guān)的詞一起,形成一個(gè)新的、更長(cháng)、擴展的 關(guān)鍵詞 集,可以更準確地表達用戶(hù)的搜索需求。根據這個(gè)集合,我們可以盡可能全面地了解用戶(hù)的搜索意圖。在[1]的基礎上對信息資源進(jìn)行檢索,從而在一定程度上彌補了用戶(hù)檢索信息的不足,同時(shí)提高了搜索引擎的召回率。
  1 相關(guān)研究
  本體論起源于哲學(xué),又稱(chēng)本體論、本體論或本體論。GRUBER TR [2] 對本體的定義“本體是共享概念模型的清晰和形式化的規范”得到了最廣泛的認可。自2000年本體概念被引入人工智能領(lǐng)域以來(lái),本體引起了各個(gè)學(xué)科的極大興趣。
  目前,本體描述語(yǔ)言有很多種。由于Web Ontology Language (OWL)格式在所有本體語(yǔ)言中具有最強的描述能力,能夠清晰地表達詞表中術(shù)語(yǔ)的含義和術(shù)語(yǔ)之間的關(guān)系,使其在Web內容的可理解性上更勝一籌到其他幾種本體語(yǔ)言,所以本文選擇OWL作為本文的本體描述語(yǔ)言。
  1.2 本體推理
  除了本體中直接定義的知識外,還有很多隱含的其他知識,需要借助推理工具進(jìn)行關(guān)鍵詞推理和查詢(xún),從而獲得隱含的知識。本文選擇Jena[3]作為影視領(lǐng)域的本體推理引擎。Jena 是惠普開(kāi)發(fā)的 Java 開(kāi)源工具包。其推理API以其強大的推理功能可以操作OWL描述的本體。它已廣泛用于語(yǔ)義 Web 應用程序中。
  在本文中,Jena推理需要實(shí)現以下內容: (1) 實(shí)現將本體持久化到數據庫的操作;(2)推理類(lèi)間關(guān)系,對視頻素材本體模型進(jìn)行分析,生成一組描述概念上下關(guān)系的三元組,用于后續計算本體模型中的概念相似度。
  1.3 查詢(xún)擴展
  為了提高檢索的命中率,需要利用查詢(xún)擴展技術(shù)[4],在不限制檢索文本內容的情況下,根據用戶(hù)輸入的檢索信息中的關(guān)鍵詞進(jìn)行語(yǔ)義擴展由用戶(hù)輸入?;诒倔w的查詢(xún)擴展技術(shù)的引入在信息檢索過(guò)程中取得了一定的效果。該技術(shù)基于領(lǐng)域本體推理得到的知識,通過(guò)計算本體概念的相似度,將本體中與檢索關(guān)鍵詞相關(guān)的概念作為查詢(xún)擴展的一部分。這種通過(guò)量化得到的query expansion set,不僅降低了search bias,而且限制了檢索關(guān)鍵詞擴展的范圍,從而大大提高了召回率。
  2 基于視頻素材本體的查詢(xún)擴展
  2.1 視頻素材本體建模
  基于影視素材本體的關(guān)鍵詞查詢(xún)擴展采用語(yǔ)義技術(shù)對本體中的概念進(jìn)行推理擴展,推理擴展基于影視素材本體模型。
  本文采用Protégé,采用圖解建模的方法構建影視本體模型。您可以在Protégé中點(diǎn)擊相應的項,添加或編輯類(lèi)、子類(lèi)、屬性、實(shí)例等。建模完成后,保存為OWL格式文件,Protégé自動(dòng)將本體轉換為OWL格式語(yǔ)言。視頻素材本體建模后的部分效果如圖1所示。
  2.2 查詢(xún)推理規則
  Jena自帶的通用規則[5]不會(huì )限定具體領(lǐng)域,主要檢查本體中基于實(shí)例、公理和規則的層次關(guān)系、傳遞性、類(lèi)間不相交性等概念和約束的可滿(mǎn)足性,因此實(shí)現查詢(xún)隱式。收錄信息并擴展隱性知識。當Jena自帶的規則不能滿(mǎn)足系統的推理需求時(shí),可以自定義規則來(lái)滿(mǎn)足系統的個(gè)性化需求。本文借助SPARQL[6]查詢(xún)語(yǔ)言,建立自定義查詢(xún)規則,以獲得更準確的查詢(xún)結果。
  SPARQL 由 W3C 發(fā)起。它根據定義匹配的三元組模板查詢(xún)RDF,可以將RDF中滿(mǎn)足一定條件的三元組以集合或RDF圖的形式作為查詢(xún)結果返回。SPARQL提供了四種不同的查詢(xún)形式[7]:SELECT、ASK、CONSTRUCT、DESCRIBE,其中SELECT是最常用的查詢(xún)類(lèi)型,本文也采用這種查詢(xún)形式。SPARQL的查詢(xún)語(yǔ)法是四元組(GP, DS, SM, R),其中DS和R可以根據查詢(xún)需要省略。查詢(xún)語(yǔ)句的格式如表1所示。
  2.3 相似度值和查詢(xún)擴展閾值的確定
  
  本文不討論相似度和查詢(xún)擴展閾值的詳細計算過(guò)程,僅給出簡(jiǎn)要的處理方法。
  影響概念語(yǔ)義相似度的因素很多,常見(jiàn)的有:字面相似度、語(yǔ)義重合度、距離相似度、層次差異和層次深度、屬性匹配等,需要結合本體的結構和屬性模型,將相關(guān)因素帶入相似度計算方法,綜合各種影響因素,得到概念相似度計算公式。
  得到本體中概念的相似度后,在查詢(xún)擴展的過(guò)程中,需要確定一個(gè)閾值,過(guò)濾相似度不滿(mǎn)足閾值的概念,將滿(mǎn)足閾值的概念加入到查詢(xún)擴展集中。通常的閾值確定方式是:根據本體中小規模測試概念的相似度值和暫定閾值,人工評估相似度滿(mǎn)足閾值的概念是否滿(mǎn)足系統要求,通過(guò)不斷實(shí)驗調整閾值,最后確定閾值。
  3 語(yǔ)義擴展
  3.1關(guān)鍵詞查詢(xún)擴展過(guò)程
  本節結合本體模型和推理規則,在參考文獻[1]和[8]的基礎上,總結了擴展視頻素材檢索文本中關(guān)鍵詞的語(yǔ)義相似度的過(guò)程,如圖2所示. 其中,sim1(A,B)和sim2(A,B)表示根據關(guān)鍵詞是否為影視素材本體中的概念來(lái)判斷不同情況下的相似度計算公式,綜合影響影響概念相似度的各種因素;而a和b是用來(lái)過(guò)濾相似度概念的閾值。經(jīng)過(guò)實(shí)驗和不斷調整參數,最終將a設為0.51,b設為0.63。
  關(guān)鍵詞語(yǔ)義相似度擴展過(guò)程如下:首先將檢索文本預處理后得到的關(guān)鍵詞集中的關(guān)鍵詞添加到擴展的關(guān)鍵詞集中,然后依次添加關(guān)鍵詞集中的每一個(gè)關(guān)鍵詞判斷它是否是視頻素材本體中的一個(gè)概念。如果當前關(guān)鍵詞不是本體中的概念,則需要找到本體中根據公式sim1(A,B)計算的相似度大于閾值a的概念,將這些概念添加到擴展的 關(guān)鍵詞 集;如果當前關(guān)鍵詞是影視素材本體中的概念,則檢查本體中是否存在與當前關(guān)鍵詞等價(jià)的關(guān)鍵詞,如果有,則添加&lt; 中擴展名的等效詞
  3.2 查詢(xún)擴展實(shí)現
  在關(guān)鍵詞查詢(xún)擴展實(shí)現部分,本文使用MySQL數據庫存儲數據。以下是查詢(xún)擴展實(shí)現計算中用到的數據表:
  searchText:用于存儲預處理后得到的檢索到的關(guān)鍵詞;
  classCon:存放Jena解析本體文件后得到的概念信息,包括(節點(diǎn)ID,節點(diǎn)名稱(chēng),節點(diǎn)層級,父節點(diǎn)ID);
  classInOnt:存儲本體中滿(mǎn)足閾值b的節點(diǎn)對及其相似度信息,包括(節點(diǎn)AID,節點(diǎn)BID,相似度);
  classDouble:存儲預處理得到的關(guān)鍵詞,而不是本體中的節點(diǎn),以及本體中與這個(gè)關(guān)鍵詞相似度達到閾值b的節點(diǎn)信息,以及兩者信息的相似度. 包括(關(guān)鍵詞, 節點(diǎn)ID, 節點(diǎn)名稱(chēng), 相似度);
  expandKeywords:存儲展開(kāi)的關(guān)鍵詞,包括(節點(diǎn)ID,節點(diǎn)名稱(chēng),相似度)。
  下面給出基于視頻素材本體的關(guān)鍵詞查詢(xún)擴展的實(shí)現:
  (1) 獲取領(lǐng)域本體文件;
  (2)利用Jena解析本體文件,生成一組描述上下關(guān)系概念的三元組,以文件的形式存入內存;
  (3) 對于步驟(2)中文件中的三元組,從根節點(diǎn)開(kāi)始,依次遍歷每個(gè)節點(diǎn),將節點(diǎn)信息保存到表classCon中;
  (4)從表classCon中讀取節點(diǎn)并組成所有節點(diǎn)對,以(節點(diǎn)1,節點(diǎn)2,相似度)的形式寫(xiě)入到表classInOnt中,其中相似度值設置為0;
  (5)將表classInOnt中未處理的記錄一一取出,根據取出的記錄和本體模型計算影響兩個(gè)概念相似度的不同因素的值;
  (6)根據公式sim2(A,B)根據步驟(5)中計算出的決定語(yǔ)義相似度的因子的值計算概念對的相似度,修改表classInOnt中對應的相似度值;
  (7)檢查表classInOnt中是否有未處理的記錄,如果有,轉步驟(5);否則轉步驟(8);
  (8)刪除表classInOnt中相似度小于閾值b的節點(diǎn)對,完成本體中節點(diǎn)對相似度值的更新;
  
  (9) 根據步驟(4)~(8),可以完成表classDouble中關(guān)鍵詞和節點(diǎn)對的更新。不同的是概念相似度需要根據公式sim1(A,B)計算,保留的關(guān)鍵詞與節點(diǎn)對的相似度需要滿(mǎn)足閾值a;
  (10) 從表searchText中取出一個(gè)未處理的關(guān)鍵詞,判斷是否是本體中的概念,如果是則將其相似度設為1,將關(guān)鍵詞和相似度值相加給extension中的關(guān)鍵詞設置expandKeywords,判斷本體中是否有與當前關(guān)鍵詞等價(jià)的概念,如果有,則在expandKeywords中加入等價(jià)詞,并設置對應的相似度值與 1 等價(jià)的詞,轉步驟(11),否則轉步驟(12);
  (11) 從表classInOnt中找到與當前關(guān)鍵詞的節點(diǎn)對的關(guān)鍵詞,將這些關(guān)鍵詞和節點(diǎn)對的相似度添加到expandKeywords;
  (12) 從表classDouble中找到與當前關(guān)鍵詞組成的節點(diǎn)對的節點(diǎn),將這些節點(diǎn)及其相似度添加到expandKeywords;
  (13)檢查searchText中是否有未處理的關(guān)鍵詞,如果有則轉步驟(10),否則轉步驟(14);
  (14) 輸出存儲擴展后的關(guān)鍵詞的表expandKeywords,算法結束。
  通過(guò)上述算法得到擴展的關(guān)鍵詞集合。
  3.3 查詢(xún)擴展實(shí)驗
  為了驗證關(guān)鍵詞相似度查詢(xún)擴展算法的有效性,用視頻素材本體模型對該算法進(jìn)行了驗證。選擇搜索文本“兩個(gè)孩子在路上騎自行車(chē)”。"、"Bicycle",根據3.2節的擴展實(shí)現算法查詢(xún)擴展這些關(guān)鍵詞,得到擴展后的關(guān)鍵詞和對應的相似度,如表2所示。
  從表2可以看出,對檢索到的文本“兩個(gè)孩子騎自行車(chē)”進(jìn)行預處理和語(yǔ)義相似度擴展后,得到擴展的關(guān)鍵詞集合,計算集合的相似度值從大到小排序, 如表 3 所示。
  由表2和表3可知,根據本文的研究,檢索關(guān)鍵詞基于影視素材本體模型進(jìn)行了擴展,擴展集中的概念能夠反映用戶(hù)的檢索意圖更完整,從而驗證了本文。所提出的關(guān)鍵詞 查詢(xún)擴展方法的有效性。
  4。結論
  本文基于影視領(lǐng)域的本體模型,研究了關(guān)鍵詞在素材檢索過(guò)程中的查詢(xún)擴展,提出了關(guān)鍵詞根據相似度進(jìn)行擴展的實(shí)現方案,即在搜索文本中搜索關(guān)鍵詞,對影視素材本體模型中的概念進(jìn)行推理,得到相似度滿(mǎn)足閾值的查詢(xún)擴展集。實(shí)驗結果表明,擴展后的關(guān)鍵詞集能夠充分收錄用戶(hù)的檢索需求。本文的下一步是對根據擴展關(guān)鍵詞集關(guān)鍵詞中的相似關(guān)系對檢索結果進(jìn)行排序進(jìn)行深入研究。
  參考
  [1] 干建侯, 蔣悅.本體方法及其應用[M].北京:科學(xué)出版社,2011.
 ?。?]GRUBER T R. 用于知識共享的本體設計原則[J].國際人機研究雜志, 1995, 43(56): 907928.
 ?。?]Apache Jena入門(mén)[EB/OL].(2015××××)[20160130].
  [4]李帥.基于語(yǔ)義相似度的查詢(xún)擴展優(yōu)化[D].杭州: 杭州電子科技大學(xué), 2011.
 ?。?]李冰.基于領(lǐng)域本體的專(zhuān)利語(yǔ)義檢索研究[D].北京:北京理工大學(xué),2015.
  [6] W3C.SPARQL Query Language for RDF [EB/OL].(2013-03-21)[2016-01-20]. /TR/2013/REC-sparql11-query-20130321/.
 ?。?]岳曉璐.語(yǔ)義Web中RDF數據關(guān)聯(lián)規則挖掘方法研究[D].大連: 大連海事大學(xué), 2015.
  [8] 陸靖.基于語(yǔ)義網(wǎng)的語(yǔ)義搜索研究與應用[D].北京:北京工業(yè)大學(xué),2013.
  最新版本:dxc采集器破解版vip3.0 discuz論壇采集插件 vip商業(yè)版dz3
  溫馨提示:本插件所有者親身測試后方可使用。樓主使用的程序是dz3.3,請放過(guò)小白
  DXC 3.0 的主要功能包括:
  1. 采集文章 各種形式的url列表,包括rss地址、列表頁(yè)、多級列表等。
  2.多種規則編寫(xiě)方式,DOM模式,字符截取,智能獲取,更方便的獲取想要的內容
  3.規則繼承,自動(dòng)檢測匹配規則功能,你會(huì )逐漸體會(huì )到規則繼承帶來(lái)的便利
  4、獨特的網(wǎng)頁(yè)文本提取算法,自動(dòng)學(xué)習歸納規則,平移采集更方便。
  5.支持圖片定位和水印
  
  6.靈活的發(fā)布機制,可以設置發(fā)布者、發(fā)布時(shí)間點(diǎn)擊率等。
  7、強大的內容編輯后臺,可以輕松編輯采集內容,發(fā)布到門(mén)戶(hù)、論壇、博客
  8、內容過(guò)濾功能,針對采集的內容過(guò)濾廣告,剔除不必要的區域
  9.批量采集,注冊會(huì )員,批量采集,設置會(huì )員頭像
  10. 無(wú)人值守定期量化采集和發(fā)布文章
  ★、這個(gè)插件里面有詳細的教程,仔細看就會(huì )安裝
  ★、本插件為DXC3.0版本,
  【鄭重聲明】:由于模板價(jià)格極低,#標簽不提供技術(shù)支持#。插件安裝需要一定的discuz安裝使用經(jīng)驗,新手和不接受的請勿拍。需要幫忙安裝的可以加50元,我可以幫忙安裝
  
  請看下圖 查看全部

  解決方案:一種基于影視素材本體的關(guān)鍵詞查詢(xún)擴展方法研究
  沉毅1,趙琳2
  (1.上海大學(xué)計算機中心 上海 200444;2.上海大學(xué)計算機工程與科學(xué)學(xué)院 上海 200444)
  : 在語(yǔ)義搜索引擎系統中,為了在不限制用戶(hù)輸入的情況下使檢索內容更貼近用戶(hù)需求,提出了一種基于視頻素材本體的查詢(xún)擴展方法。根據本體模型對用戶(hù)檢索文本中的關(guān)鍵詞進(jìn)行推理,并根據相似語(yǔ)義進(jìn)行擴展,旨在得到更符合用戶(hù)檢索需求的擴展關(guān)鍵詞集,并在以此為基礎來(lái)檢索視頻素材,從而提高搜索引擎的召回率。
 ?。赫Z(yǔ)義搜索;本體;查詢(xún)擴展;視頻片段
  基于關(guān)鍵詞的搜索引擎的查詢(xún)擴展通常以檢索文本中的關(guān)鍵詞為中心,與這些關(guān)鍵詞相關(guān)的語(yǔ)義概念很少被收錄在擴展集中。在這種情況下,當用戶(hù)輸入的搜索內容較少時(shí),系統根據擴展集搜索得到的結果準確率和召回率較低,不能滿(mǎn)足用戶(hù)的需求。因此,基于關(guān)鍵詞的搜索引擎無(wú)法消除用戶(hù)需求與檢索結果之間的不一致?;诒倔w的關(guān)鍵詞查詢(xún)擴展彌補了這一不足。該技術(shù)結合了本體、搜索引擎、計算機語(yǔ)言學(xué)等技術(shù),將用戶(hù)輸入的搜索文本中的關(guān)鍵詞提取出來(lái),并與這些關(guān)鍵詞相關(guān)的詞一起,形成一個(gè)新的、更長(cháng)、擴展的 關(guān)鍵詞 集,可以更準確地表達用戶(hù)的搜索需求。根據這個(gè)集合,我們可以盡可能全面地了解用戶(hù)的搜索意圖。在[1]的基礎上對信息資源進(jìn)行檢索,從而在一定程度上彌補了用戶(hù)檢索信息的不足,同時(shí)提高了搜索引擎的召回率。
  1 相關(guān)研究
  本體論起源于哲學(xué),又稱(chēng)本體論、本體論或本體論。GRUBER TR [2] 對本體的定義“本體是共享概念模型的清晰和形式化的規范”得到了最廣泛的認可。自2000年本體概念被引入人工智能領(lǐng)域以來(lái),本體引起了各個(gè)學(xué)科的極大興趣。
  目前,本體描述語(yǔ)言有很多種。由于Web Ontology Language (OWL)格式在所有本體語(yǔ)言中具有最強的描述能力,能夠清晰地表達詞表中術(shù)語(yǔ)的含義和術(shù)語(yǔ)之間的關(guān)系,使其在Web內容的可理解性上更勝一籌到其他幾種本體語(yǔ)言,所以本文選擇OWL作為本文的本體描述語(yǔ)言。
  1.2 本體推理
  除了本體中直接定義的知識外,還有很多隱含的其他知識,需要借助推理工具進(jìn)行關(guān)鍵詞推理和查詢(xún),從而獲得隱含的知識。本文選擇Jena[3]作為影視領(lǐng)域的本體推理引擎。Jena 是惠普開(kāi)發(fā)的 Java 開(kāi)源工具包。其推理API以其強大的推理功能可以操作OWL描述的本體。它已廣泛用于語(yǔ)義 Web 應用程序中。
  在本文中,Jena推理需要實(shí)現以下內容: (1) 實(shí)現將本體持久化到數據庫的操作;(2)推理類(lèi)間關(guān)系,對視頻素材本體模型進(jìn)行分析,生成一組描述概念上下關(guān)系的三元組,用于后續計算本體模型中的概念相似度。
  1.3 查詢(xún)擴展
  為了提高檢索的命中率,需要利用查詢(xún)擴展技術(shù)[4],在不限制檢索文本內容的情況下,根據用戶(hù)輸入的檢索信息中的關(guān)鍵詞進(jìn)行語(yǔ)義擴展由用戶(hù)輸入?;诒倔w的查詢(xún)擴展技術(shù)的引入在信息檢索過(guò)程中取得了一定的效果。該技術(shù)基于領(lǐng)域本體推理得到的知識,通過(guò)計算本體概念的相似度,將本體中與檢索關(guān)鍵詞相關(guān)的概念作為查詢(xún)擴展的一部分。這種通過(guò)量化得到的query expansion set,不僅降低了search bias,而且限制了檢索關(guān)鍵詞擴展的范圍,從而大大提高了召回率。
  2 基于視頻素材本體的查詢(xún)擴展
  2.1 視頻素材本體建模
  基于影視素材本體的關(guān)鍵詞查詢(xún)擴展采用語(yǔ)義技術(shù)對本體中的概念進(jìn)行推理擴展,推理擴展基于影視素材本體模型。
  本文采用Protégé,采用圖解建模的方法構建影視本體模型。您可以在Protégé中點(diǎn)擊相應的項,添加或編輯類(lèi)、子類(lèi)、屬性、實(shí)例等。建模完成后,保存為OWL格式文件,Protégé自動(dòng)將本體轉換為OWL格式語(yǔ)言。視頻素材本體建模后的部分效果如圖1所示。
  2.2 查詢(xún)推理規則
  Jena自帶的通用規則[5]不會(huì )限定具體領(lǐng)域,主要檢查本體中基于實(shí)例、公理和規則的層次關(guān)系、傳遞性、類(lèi)間不相交性等概念和約束的可滿(mǎn)足性,因此實(shí)現查詢(xún)隱式。收錄信息并擴展隱性知識。當Jena自帶的規則不能滿(mǎn)足系統的推理需求時(shí),可以自定義規則來(lái)滿(mǎn)足系統的個(gè)性化需求。本文借助SPARQL[6]查詢(xún)語(yǔ)言,建立自定義查詢(xún)規則,以獲得更準確的查詢(xún)結果。
  SPARQL 由 W3C 發(fā)起。它根據定義匹配的三元組模板查詢(xún)RDF,可以將RDF中滿(mǎn)足一定條件的三元組以集合或RDF圖的形式作為查詢(xún)結果返回。SPARQL提供了四種不同的查詢(xún)形式[7]:SELECT、ASK、CONSTRUCT、DESCRIBE,其中SELECT是最常用的查詢(xún)類(lèi)型,本文也采用這種查詢(xún)形式。SPARQL的查詢(xún)語(yǔ)法是四元組(GP, DS, SM, R),其中DS和R可以根據查詢(xún)需要省略。查詢(xún)語(yǔ)句的格式如表1所示。
  2.3 相似度值和查詢(xún)擴展閾值的確定
  
  本文不討論相似度和查詢(xún)擴展閾值的詳細計算過(guò)程,僅給出簡(jiǎn)要的處理方法。
  影響概念語(yǔ)義相似度的因素很多,常見(jiàn)的有:字面相似度、語(yǔ)義重合度、距離相似度、層次差異和層次深度、屬性匹配等,需要結合本體的結構和屬性模型,將相關(guān)因素帶入相似度計算方法,綜合各種影響因素,得到概念相似度計算公式。
  得到本體中概念的相似度后,在查詢(xún)擴展的過(guò)程中,需要確定一個(gè)閾值,過(guò)濾相似度不滿(mǎn)足閾值的概念,將滿(mǎn)足閾值的概念加入到查詢(xún)擴展集中。通常的閾值確定方式是:根據本體中小規模測試概念的相似度值和暫定閾值,人工評估相似度滿(mǎn)足閾值的概念是否滿(mǎn)足系統要求,通過(guò)不斷實(shí)驗調整閾值,最后確定閾值。
  3 語(yǔ)義擴展
  3.1關(guān)鍵詞查詢(xún)擴展過(guò)程
  本節結合本體模型和推理規則,在參考文獻[1]和[8]的基礎上,總結了擴展視頻素材檢索文本中關(guān)鍵詞的語(yǔ)義相似度的過(guò)程,如圖2所示. 其中,sim1(A,B)和sim2(A,B)表示根據關(guān)鍵詞是否為影視素材本體中的概念來(lái)判斷不同情況下的相似度計算公式,綜合影響影響概念相似度的各種因素;而a和b是用來(lái)過(guò)濾相似度概念的閾值。經(jīng)過(guò)實(shí)驗和不斷調整參數,最終將a設為0.51,b設為0.63。
  關(guān)鍵詞語(yǔ)義相似度擴展過(guò)程如下:首先將檢索文本預處理后得到的關(guān)鍵詞集中的關(guān)鍵詞添加到擴展的關(guān)鍵詞集中,然后依次添加關(guān)鍵詞集中的每一個(gè)關(guān)鍵詞判斷它是否是視頻素材本體中的一個(gè)概念。如果當前關(guān)鍵詞不是本體中的概念,則需要找到本體中根據公式sim1(A,B)計算的相似度大于閾值a的概念,將這些概念添加到擴展的 關(guān)鍵詞 集;如果當前關(guān)鍵詞是影視素材本體中的概念,則檢查本體中是否存在與當前關(guān)鍵詞等價(jià)的關(guān)鍵詞,如果有,則添加&lt; 中擴展名的等效詞
  3.2 查詢(xún)擴展實(shí)現
  在關(guān)鍵詞查詢(xún)擴展實(shí)現部分,本文使用MySQL數據庫存儲數據。以下是查詢(xún)擴展實(shí)現計算中用到的數據表:
  searchText:用于存儲預處理后得到的檢索到的關(guān)鍵詞;
  classCon:存放Jena解析本體文件后得到的概念信息,包括(節點(diǎn)ID,節點(diǎn)名稱(chēng),節點(diǎn)層級,父節點(diǎn)ID);
  classInOnt:存儲本體中滿(mǎn)足閾值b的節點(diǎn)對及其相似度信息,包括(節點(diǎn)AID,節點(diǎn)BID,相似度);
  classDouble:存儲預處理得到的關(guān)鍵詞,而不是本體中的節點(diǎn),以及本體中與這個(gè)關(guān)鍵詞相似度達到閾值b的節點(diǎn)信息,以及兩者信息的相似度. 包括(關(guān)鍵詞, 節點(diǎn)ID, 節點(diǎn)名稱(chēng), 相似度);
  expandKeywords:存儲展開(kāi)的關(guān)鍵詞,包括(節點(diǎn)ID,節點(diǎn)名稱(chēng),相似度)。
  下面給出基于視頻素材本體的關(guān)鍵詞查詢(xún)擴展的實(shí)現:
  (1) 獲取領(lǐng)域本體文件;
  (2)利用Jena解析本體文件,生成一組描述上下關(guān)系概念的三元組,以文件的形式存入內存;
  (3) 對于步驟(2)中文件中的三元組,從根節點(diǎn)開(kāi)始,依次遍歷每個(gè)節點(diǎn),將節點(diǎn)信息保存到表classCon中;
  (4)從表classCon中讀取節點(diǎn)并組成所有節點(diǎn)對,以(節點(diǎn)1,節點(diǎn)2,相似度)的形式寫(xiě)入到表classInOnt中,其中相似度值設置為0;
  (5)將表classInOnt中未處理的記錄一一取出,根據取出的記錄和本體模型計算影響兩個(gè)概念相似度的不同因素的值;
  (6)根據公式sim2(A,B)根據步驟(5)中計算出的決定語(yǔ)義相似度的因子的值計算概念對的相似度,修改表classInOnt中對應的相似度值;
  (7)檢查表classInOnt中是否有未處理的記錄,如果有,轉步驟(5);否則轉步驟(8);
  (8)刪除表classInOnt中相似度小于閾值b的節點(diǎn)對,完成本體中節點(diǎn)對相似度值的更新;
  
  (9) 根據步驟(4)~(8),可以完成表classDouble中關(guān)鍵詞和節點(diǎn)對的更新。不同的是概念相似度需要根據公式sim1(A,B)計算,保留的關(guān)鍵詞與節點(diǎn)對的相似度需要滿(mǎn)足閾值a;
  (10) 從表searchText中取出一個(gè)未處理的關(guān)鍵詞,判斷是否是本體中的概念,如果是則將其相似度設為1,將關(guān)鍵詞和相似度值相加給extension中的關(guān)鍵詞設置expandKeywords,判斷本體中是否有與當前關(guān)鍵詞等價(jià)的概念,如果有,則在expandKeywords中加入等價(jià)詞,并設置對應的相似度值與 1 等價(jià)的詞,轉步驟(11),否則轉步驟(12);
  (11) 從表classInOnt中找到與當前關(guān)鍵詞的節點(diǎn)對的關(guān)鍵詞,將這些關(guān)鍵詞和節點(diǎn)對的相似度添加到expandKeywords;
  (12) 從表classDouble中找到與當前關(guān)鍵詞組成的節點(diǎn)對的節點(diǎn),將這些節點(diǎn)及其相似度添加到expandKeywords;
  (13)檢查searchText中是否有未處理的關(guān)鍵詞,如果有則轉步驟(10),否則轉步驟(14);
  (14) 輸出存儲擴展后的關(guān)鍵詞的表expandKeywords,算法結束。
  通過(guò)上述算法得到擴展的關(guān)鍵詞集合。
  3.3 查詢(xún)擴展實(shí)驗
  為了驗證關(guān)鍵詞相似度查詢(xún)擴展算法的有效性,用視頻素材本體模型對該算法進(jìn)行了驗證。選擇搜索文本“兩個(gè)孩子在路上騎自行車(chē)”。"、"Bicycle",根據3.2節的擴展實(shí)現算法查詢(xún)擴展這些關(guān)鍵詞,得到擴展后的關(guān)鍵詞和對應的相似度,如表2所示。
  從表2可以看出,對檢索到的文本“兩個(gè)孩子騎自行車(chē)”進(jìn)行預處理和語(yǔ)義相似度擴展后,得到擴展的關(guān)鍵詞集合,計算集合的相似度值從大到小排序, 如表 3 所示。
  由表2和表3可知,根據本文的研究,檢索關(guān)鍵詞基于影視素材本體模型進(jìn)行了擴展,擴展集中的概念能夠反映用戶(hù)的檢索意圖更完整,從而驗證了本文。所提出的關(guān)鍵詞 查詢(xún)擴展方法的有效性。
  4。結論
  本文基于影視領(lǐng)域的本體模型,研究了關(guān)鍵詞在素材檢索過(guò)程中的查詢(xún)擴展,提出了關(guān)鍵詞根據相似度進(jìn)行擴展的實(shí)現方案,即在搜索文本中搜索關(guān)鍵詞,對影視素材本體模型中的概念進(jìn)行推理,得到相似度滿(mǎn)足閾值的查詢(xún)擴展集。實(shí)驗結果表明,擴展后的關(guān)鍵詞集能夠充分收錄用戶(hù)的檢索需求。本文的下一步是對根據擴展關(guān)鍵詞集關(guān)鍵詞中的相似關(guān)系對檢索結果進(jìn)行排序進(jìn)行深入研究。
  參考
  [1] 干建侯, 蔣悅.本體方法及其應用[M].北京:科學(xué)出版社,2011.
 ?。?]GRUBER T R. 用于知識共享的本體設計原則[J].國際人機研究雜志, 1995, 43(56): 907928.
 ?。?]Apache Jena入門(mén)[EB/OL].(2015××××)[20160130].
  [4]李帥.基于語(yǔ)義相似度的查詢(xún)擴展優(yōu)化[D].杭州: 杭州電子科技大學(xué), 2011.
 ?。?]李冰.基于領(lǐng)域本體的專(zhuān)利語(yǔ)義檢索研究[D].北京:北京理工大學(xué),2015.
  [6] W3C.SPARQL Query Language for RDF [EB/OL].(2013-03-21)[2016-01-20]. /TR/2013/REC-sparql11-query-20130321/.
 ?。?]岳曉璐.語(yǔ)義Web中RDF數據關(guān)聯(lián)規則挖掘方法研究[D].大連: 大連海事大學(xué), 2015.
  [8] 陸靖.基于語(yǔ)義網(wǎng)的語(yǔ)義搜索研究與應用[D].北京:北京工業(yè)大學(xué),2013.
  最新版本:dxc采集器破解版vip3.0 discuz論壇采集插件 vip商業(yè)版dz3
  溫馨提示:本插件所有者親身測試后方可使用。樓主使用的程序是dz3.3,請放過(guò)小白
  DXC 3.0 的主要功能包括:
  1. 采集文章 各種形式的url列表,包括rss地址、列表頁(yè)、多級列表等。
  2.多種規則編寫(xiě)方式,DOM模式,字符截取,智能獲取,更方便的獲取想要的內容
  3.規則繼承,自動(dòng)檢測匹配規則功能,你會(huì )逐漸體會(huì )到規則繼承帶來(lái)的便利
  4、獨特的網(wǎng)頁(yè)文本提取算法,自動(dòng)學(xué)習歸納規則,平移采集更方便。
  5.支持圖片定位和水印
  
  6.靈活的發(fā)布機制,可以設置發(fā)布者、發(fā)布時(shí)間點(diǎn)擊率等。
  7、強大的內容編輯后臺,可以輕松編輯采集內容,發(fā)布到門(mén)戶(hù)、論壇、博客
  8、內容過(guò)濾功能,針對采集的內容過(guò)濾廣告,剔除不必要的區域
  9.批量采集,注冊會(huì )員,批量采集,設置會(huì )員頭像
  10. 無(wú)人值守定期量化采集和發(fā)布文章
  ★、這個(gè)插件里面有詳細的教程,仔細看就會(huì )安裝
  ★、本插件為DXC3.0版本,
  【鄭重聲明】:由于模板價(jià)格極低,#標簽不提供技術(shù)支持#。插件安裝需要一定的discuz安裝使用經(jīng)驗,新手和不接受的請勿拍。需要幫忙安裝的可以加50元,我可以幫忙安裝
  
  請看下圖

解決方案:新接口——“淘特”關(guān)鍵詞搜索的API接口

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 198 次瀏覽 ? 2022-12-03 11:44 ? 來(lái)自相關(guān)話(huà)題

  解決方案:新接口——“淘特”關(guān)鍵詞搜索的API接口
  
  淘特站內的搜索引擎由淘特JSP搜索引擎發(fā)展而來(lái)。系統基于Lucene.Net內核,通過(guò)高效的中文分詞算法對數據庫中的內容進(jìn)行分析、索引并保存到硬盤(pán)。在前臺搜索時(shí),通過(guò)讀取索引文件查詢(xún),避免了傳統數據庫查詢(xún)在高并發(fā)、海量數據下的性能問(wèn)題。由于前臺搜索不連接數據庫,為不希望數據庫放在前臺的特殊用戶(hù)群體提供了一種快速的數據查詢(xún)解決方案。淘特搜索引擎(C#版)v3.3更新內容: 1.解決生成的文件鏈接總是第一個(gè)的錯誤。2、解決GbK碼搜索程序Default_Gbk鏈接到下一頁(yè)的bug。aspx 是錯誤的。3. 優(yōu)化中文分詞算法,提高文章在大數下的索引和搜索速度。4. 增加索引視頻教程供用戶(hù)學(xué)習和使用。
  
  解決方案:360自動(dòng)繁衍批量采集關(guān)鍵詞【穩定速度】
  360自動(dòng)乘法批量采集關(guān)鍵詞【速度穩定】很多人想做網(wǎng)站SEO需要采集很多關(guān)鍵詞,這個(gè)工具主要是針對想要采集搜索引擎下來(lái)關(guān)鍵詞做排名的網(wǎng)站站長(cháng),如果你考慮怎么采集下拉網(wǎng)站排名,這個(gè)工具軟件還是不錯的, 之后,我們來(lái)看看這個(gè)軟件的界面, 以及軟件的介紹,以及如何使用該工具
  
  軟件介紹1:根據關(guān)鍵詞自動(dòng)乘法批處理采集360搜索引擎下拉關(guān)鍵詞的自動(dòng)擴展關(guān)鍵詞 2:當采集關(guān)鍵詞到某個(gè)內容時(shí),關(guān)鍵詞會(huì )自動(dòng)保存到txt數據進(jìn)行自動(dòng)保存采集200關(guān)鍵詞自動(dòng)保存一次 3:工具自動(dòng)通過(guò)360屏蔽機制,自動(dòng)鍛造協(xié)議,自動(dòng)批量采集關(guān)鍵詞
  
  如何使用軟件1:先搞幾個(gè)核心主關(guān)鍵詞放進(jìn)關(guān)鍵詞txt,
  txt 設置為 UTF-8 格式,采集時(shí)根據核心詞進(jìn)行擴展 2:點(diǎn)擊軟件關(guān)鍵詞采集工具,批量挖掘關(guān)鍵詞,批量擴展關(guān)鍵詞 軟件使用中會(huì )出現哪些問(wèn)題 應該如何解決 1:軟件 如果出現啟動(dòng)畫(huà)面情況,如何解決,檢查電腦中是否安裝了VC++插件, 如果沒(méi)有安裝,找我拿安裝插件工具檢查T(mén)XT文本文檔格式是否正確,如果不準確,請另存為UTF-8格式 由 PY 開(kāi)發(fā)的軟件系統軟件暫時(shí)只支持 winds 7 和 winds 10 64 位系統 為什么采集 360下拉關(guān)鍵詞1:可以采集 有指標和需求關(guān)鍵詞這種類(lèi)型的關(guān)鍵詞可以增加3602的權重: 帶下拉關(guān)鍵詞是需求量比較高的詞,客戶(hù)容易用下拉介紹流量 查看全部

  解決方案:新接口——“淘特”關(guān)鍵詞搜索的API接口
  
  淘特站內的搜索引擎由淘特JSP搜索引擎發(fā)展而來(lái)。系統基于Lucene.Net內核,通過(guò)高效的中文分詞算法對數據庫中的內容進(jìn)行分析、索引并保存到硬盤(pán)。在前臺搜索時(shí),通過(guò)讀取索引文件查詢(xún),避免了傳統數據庫查詢(xún)在高并發(fā)、海量數據下的性能問(wèn)題。由于前臺搜索不連接數據庫,為不希望數據庫放在前臺的特殊用戶(hù)群體提供了一種快速的數據查詢(xún)解決方案。淘特搜索引擎(C#版)v3.3更新內容: 1.解決生成的文件鏈接總是第一個(gè)的錯誤。2、解決GbK碼搜索程序Default_Gbk鏈接到下一頁(yè)的bug。aspx 是錯誤的。3. 優(yōu)化中文分詞算法,提高文章在大數下的索引和搜索速度。4. 增加索引視頻教程供用戶(hù)學(xué)習和使用。
  
  解決方案:360自動(dòng)繁衍批量采集關(guān)鍵詞【穩定速度】
  360自動(dòng)乘法批量采集關(guān)鍵詞【速度穩定】很多人想做網(wǎng)站SEO需要采集很多關(guān)鍵詞,這個(gè)工具主要是針對想要采集搜索引擎下來(lái)關(guān)鍵詞做排名的網(wǎng)站站長(cháng),如果你考慮怎么采集下拉網(wǎng)站排名,這個(gè)工具軟件還是不錯的, 之后,我們來(lái)看看這個(gè)軟件的界面, 以及軟件的介紹,以及如何使用該工具
  
  軟件介紹1:根據關(guān)鍵詞自動(dòng)乘法批處理采集360搜索引擎下拉關(guān)鍵詞的自動(dòng)擴展關(guān)鍵詞 2:當采集關(guān)鍵詞到某個(gè)內容時(shí),關(guān)鍵詞會(huì )自動(dòng)保存到txt數據進(jìn)行自動(dòng)保存采集200關(guān)鍵詞自動(dòng)保存一次 3:工具自動(dòng)通過(guò)360屏蔽機制,自動(dòng)鍛造協(xié)議,自動(dòng)批量采集關(guān)鍵詞
  
  如何使用軟件1:先搞幾個(gè)核心主關(guān)鍵詞放進(jìn)關(guān)鍵詞txt,
  txt 設置為 UTF-8 格式,采集時(shí)根據核心詞進(jìn)行擴展 2:點(diǎn)擊軟件關(guān)鍵詞采集工具,批量挖掘關(guān)鍵詞,批量擴展關(guān)鍵詞 軟件使用中會(huì )出現哪些問(wèn)題 應該如何解決 1:軟件 如果出現啟動(dòng)畫(huà)面情況,如何解決,檢查電腦中是否安裝了VC++插件, 如果沒(méi)有安裝,找我拿安裝插件工具檢查T(mén)XT文本文檔格式是否正確,如果不準確,請另存為UTF-8格式 由 PY 開(kāi)發(fā)的軟件系統軟件暫時(shí)只支持 winds 7 和 winds 10 64 位系統 為什么采集 360下拉關(guān)鍵詞1:可以采集 有指標和需求關(guān)鍵詞這種類(lèi)型的關(guān)鍵詞可以增加3602的權重: 帶下拉關(guān)鍵詞是需求量比較高的詞,客戶(hù)容易用下拉介紹流量

解決方案:通過(guò)關(guān)鍵詞采集文章采集api接口獲取目標(圖)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 98 次瀏覽 ? 2022-11-30 21:23 ? 來(lái)自相關(guān)話(huà)題

  解決方案:通過(guò)關(guān)鍵詞采集文章采集api接口獲取目標(圖)
  通過(guò)關(guān)鍵詞采集文章采集api接口獲取目標關(guān)鍵詞
  你用百度api吧
  隨便抓吧,
  在外國我會(huì )告訴你是按日期抓的?
  我用的drupal的header代理iframe
  
  你要申請谷歌開(kāi)發(fā)者賬號,申請后,你就有谷歌的抓取代理了,都在谷歌開(kāi)發(fā)者工具里。
  搜索jpg
  谷歌api是個(gè)坑,不懂得話(huà)肯定是抓不到的,
  谷歌api有7天試用期的。
  我沒(méi)有申請。主要嫌麻煩。
  我申請了,最大的好處是可以知道waqihart的api。(5a)也可以在api下載article的代碼。(5f)自己寫(xiě)一個(gè),找我算我輸。
  
  lazylog很新!在它幫助下實(shí)現我所有photoshop工具的代理加速!很方便
  代理ip抓取大公司的api確實(shí)很費勁的,抓不到也不一定非要放在api目錄下,整個(gè)目錄下都放滿(mǎn)了。
  可以先試一下,如果有效果就可以申請,有的公司直接進(jìn)不去,好公司都是放在tabreview目錄下,自己弄個(gè)爬蟲(chóng)抓過(guò)來(lái)就可以了,你去網(wǎng)上搜下,大把大把的案例.
  你先可以試試7daylog的lazylogapi接口可以做圖片的一些數據抓取
  誰(shuí)給申請試試,
  jojo7daylog
  百度網(wǎng)站所有數據你可以靠這個(gè)api進(jìn)行抓取收集。不過(guò)一般情況下我們能獲取到的數據質(zhì)量不高。除非你是在格式化的數據庫中存儲的。如果需要這樣的數據,你需要你的服務(wù)器性能強悍,自己管理與使用的話(huà)??梢钥紤]自己對數據做一個(gè)相關(guān)的策略,進(jìn)行數據分析。這個(gè)前提是你很了解這個(gè)網(wǎng)站的情況下。 查看全部

  解決方案:通過(guò)關(guān)鍵詞采集文章采集api接口獲取目標(圖)
  通過(guò)關(guān)鍵詞采集文章采集api接口獲取目標關(guān)鍵詞
  你用百度api吧
  隨便抓吧,
  在外國我會(huì )告訴你是按日期抓的?
  我用的drupal的header代理iframe
  
  你要申請谷歌開(kāi)發(fā)者賬號,申請后,你就有谷歌的抓取代理了,都在谷歌開(kāi)發(fā)者工具里。
  搜索jpg
  谷歌api是個(gè)坑,不懂得話(huà)肯定是抓不到的,
  谷歌api有7天試用期的。
  我沒(méi)有申請。主要嫌麻煩。
  我申請了,最大的好處是可以知道waqihart的api。(5a)也可以在api下載article的代碼。(5f)自己寫(xiě)一個(gè),找我算我輸。
  
  lazylog很新!在它幫助下實(shí)現我所有photoshop工具的代理加速!很方便
  代理ip抓取大公司的api確實(shí)很費勁的,抓不到也不一定非要放在api目錄下,整個(gè)目錄下都放滿(mǎn)了。
  可以先試一下,如果有效果就可以申請,有的公司直接進(jìn)不去,好公司都是放在tabreview目錄下,自己弄個(gè)爬蟲(chóng)抓過(guò)來(lái)就可以了,你去網(wǎng)上搜下,大把大把的案例.
  你先可以試試7daylog的lazylogapi接口可以做圖片的一些數據抓取
  誰(shuí)給申請試試,
  jojo7daylog
  百度網(wǎng)站所有數據你可以靠這個(gè)api進(jìn)行抓取收集。不過(guò)一般情況下我們能獲取到的數據質(zhì)量不高。除非你是在格式化的數據庫中存儲的。如果需要這樣的數據,你需要你的服務(wù)器性能強悍,自己管理與使用的話(huà)??梢钥紤]自己對數據做一個(gè)相關(guān)的策略,進(jìn)行數據分析。這個(gè)前提是你很了解這個(gè)網(wǎng)站的情況下。

解決方案:Google優(yōu)化-如何精準分析頁(yè)面高轉化關(guān)鍵詞?

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 60 次瀏覽 ? 2022-11-30 13:51 ? 來(lái)自相關(guān)話(huà)題

  解決方案:Google優(yōu)化-如何精準分析頁(yè)面高轉化關(guān)鍵詞?
  1.具有一定的商業(yè)價(jià)值(Business Value)
  我們一般在必應、谷歌等搜索引擎中搜索這個(gè)詞。觀(guān)察搜索引擎結果的頂部或底部是否會(huì )有搜索引擎競價(jià)廣告。如果有競價(jià)廣告,則說(shuō)明該詞具有一定的商業(yè)價(jià)值。
  通過(guò)自己對行業(yè)的了解,推測當前詞匯的商業(yè)價(jià)值。例如,當通用詞匯中有price(價(jià)格)、manufacturer(制造商)、China(中國)等詞時(shí),大部分詞是可以轉化的,具有一定的商業(yè)價(jià)值。當然,這種做法因行業(yè)而異,所以只是備選方案。
  2.具有一定的搜索量(Search Volume)
  關(guān)于關(guān)鍵詞的搜索量,搜索引擎不會(huì )準確的告訴你準確的數值。但是我們可以通過(guò)多套工具來(lái)判斷。
  
  Chrome 瀏覽器的 Keywords Everywhere 插件。下載安裝后,驗證API,即可查看任意詞的搜索量。
  用于 Google Adwords 的關(guān)鍵字規劃器 (關(guān)鍵詞planner) 工具。關(guān)鍵詞 規劃工具可以檢查關(guān)鍵詞 在最高 CPC 下的曝光率?;旧峡梢岳斫鉃椋鹤畲驝PC曝光量≈搜索量。
  3、有一定的衍生詞儲備(Expandable)
  1.什么是衍生詞
  
  簡(jiǎn)單的說(shuō),就是你選擇的詞匯能否進(jìn)一步推導出來(lái)。因為一個(gè)頁(yè)面不會(huì )只參與一個(gè)詞的排名,而是多個(gè)詞。通常是您的目標 關(guān)鍵詞 的派生物。同時(shí),這意味著(zhù)您可以獲得多組詞的有機搜索流量。
  2. 如何判斷關(guān)鍵詞是否可以導出?
  很簡(jiǎn)單,打開(kāi)谷歌搜索首頁(yè),把關(guān)鍵詞放進(jìn)去,看下拉框里出現了多少個(gè)詞,就知道一個(gè)詞的出處。
  如果一個(gè)詞匯表沒(méi)有任何下拉框,基本上就意味著(zhù)這個(gè)詞匯表已經(jīng)用完了。那么這個(gè)關(guān)鍵詞可能不是一個(gè)好的目標關(guān)鍵詞,因為沒(méi)有下拉意味著(zhù)這個(gè)關(guān)鍵詞可能沒(méi)有太大的音量。同時(shí)沒(méi)有足夠的衍生詞來(lái)支撐流量,這個(gè)頁(yè)面帶來(lái)的價(jià)值可能比較低。
  我們希望我們的頁(yè)面能夠排在谷歌的第一頁(yè),以實(shí)現高轉化和表單查詢(xún)。我們首先需要做好前期分析的關(guān)鍵詞,然后加入更多有吸引力的原創(chuàng )優(yōu)質(zhì)內容,進(jìn)行精準布局。
  核心方法:如何進(jìn)行SEO關(guān)鍵詞研究(入門(mén)指南) –
  內容
  第 1 章關(guān)鍵詞研究基礎
  在深入研究復雜的 關(guān)鍵詞 研究以及如何為您的業(yè)務(wù)找到最好的 關(guān)鍵詞 之前,先了解一些基礎知識。
  什么是關(guān)鍵詞研究?
  關(guān)鍵詞 研究是在搜索引擎中尋找 關(guān)鍵詞 進(jìn)行排名的過(guò)程。目標是了解客戶(hù)搜索的潛在意圖,以及如何進(jìn)行搜索。
  它還涉及分析和比較 關(guān)鍵詞 以找到最好的 關(guān)鍵詞 機會(huì )。
  為什么 關(guān)鍵詞 研究很重要?
  關(guān)鍵詞研究是了解人們在搜索引擎中輸入的內容的唯一方法。您需要了解它以避免創(chuàng )建關(guān)于沒(méi)有人搜索的主題的內容。然而,許多網(wǎng)站都犯了這個(gè)錯誤,這可能是 90.63% 的頁(yè)面沒(méi)有從 Google 獲得流量的一個(gè)重要原因。
  關(guān)鍵詞研究還可以幫助您解決以下問(wèn)題:
  了解這些問(wèn)題的答案將幫助您更好地定位自己。
  第 2 章如何找到 關(guān)鍵詞 建議
  關(guān)鍵詞研究首先考慮潛在客戶(hù)如何搜索您的企業(yè)或網(wǎng)站。然后,您可以使用 關(guān)鍵詞 研究工具來(lái)擴展這些想法并找到更多 關(guān)鍵詞。
  這是一個(gè)簡(jiǎn)單的過(guò)程,但要做好,必須做兩件事:
  你需要對你的行業(yè)有很好的了解。您需要了解 關(guān)鍵詞 研究工具的工作原理以及如何充分利用它們。
  下面我們將介紹一些可行的方法來(lái)提高您在這兩個(gè)領(lǐng)域的知識,并在此過(guò)程中發(fā)現您網(wǎng)站的潛在質(zhì)量 關(guān)鍵詞。
  想想你的“種子”關(guān)鍵詞 查看競爭對手的排名 關(guān)鍵詞 使用 關(guān)鍵詞 工具研究你的利基市場(chǎng) 1. 想想你的“種子”關(guān)鍵詞
  種子 關(guān)鍵詞 是 關(guān)鍵詞 研究過(guò)程的基礎。他們定義了你的利基并幫助你識別你的競爭對手。您還可以將 關(guān)鍵詞 播種到 關(guān)鍵詞 工具中以查找數以千計的 關(guān)鍵詞 建議(稍后會(huì )詳細介紹)。
  如果您已經(jīng)有想要在線(xiàn)推廣的產(chǎn)品或業(yè)務(wù),則尋找種子 關(guān)鍵詞 很容易。想想人們將如何在 Google 中搜索以找到您提供的產(chǎn)品。
  例如,如果您銷(xiāo)售咖啡機和設備,則種子 關(guān)鍵詞 可能是:
  請注意,種子 關(guān)鍵詞 本身不一定值得在您的網(wǎng)站上定位。畢竟,您只需要將它們作為“種子”來(lái)使用即可。所以不要太依賴(lài)你的種子關(guān)鍵詞。只需幾分鐘即可找到它們。找到與網(wǎng)站主題相關(guān)的種子詞后,您可以繼續下一步。
  2. 查看競爭對手的排名 關(guān)鍵詞
  查看哪些 關(guān)鍵詞 正在為您的競爭對手帶來(lái)流量通常是進(jìn)行 關(guān)鍵詞 研究的最佳方式。但首先,您需要確定您的競爭對手是誰(shuí)。這就是您的頭腦風(fēng)暴 關(guān)鍵詞 列表派上用場(chǎng)的地方。只需用谷歌搜索你的一個(gè)種子 關(guān)鍵詞,看看誰(shuí)排在第一頁(yè)上。
  如果您的種子文件中排名靠前的 關(guān)鍵詞 站點(diǎn)均不匹配您的站點(diǎn)(或您計劃使用的站點(diǎn)),請嘗試通過(guò)選擇 Google 自動(dòng)完成功能提供的 關(guān)鍵詞 建議再次搜索。
  例如,如果您銷(xiāo)售咖啡設備,您會(huì )在“卡布奇諾咖啡機”的搜索結果中發(fā)現比“卡布奇諾咖啡”更多的實(shí)際競爭對手。那是因為大部分商城網(wǎng)站排名第一,博客內容排名靠后。
  無(wú)論哪種方式,您在識別競爭站點(diǎn)時(shí)仍然需要使用判斷力。如果您看到像亞馬遜或紐約時(shí)報這樣的大品牌在您的種子 關(guān)鍵詞 上排名,不一定要將它們視為競爭對手。始終尋找與您自己的網(wǎng)站(或您計劃創(chuàng )建的網(wǎng)站)相似的網(wǎng)站。
  然后你可以將這些站點(diǎn)依次放入 AhrefsSite Explorer(網(wǎng)站分析)并查看 Top Pages(熱門(mén)頁(yè)面)報告。這將顯示他們從中獲得最多流量的頁(yè)面。它還顯示 關(guān)鍵詞 這些頁(yè)面從哪些頁(yè)面獲得最多流量。
  我們使用 Site Explorer 分析了一個(gè)競爭網(wǎng)站,并為我們假設的咖啡店找到了一些有趣的 關(guān)鍵詞:
  如您所見(jiàn),即使您非常熟悉這個(gè)行業(yè),通過(guò)研究您的競爭對手,您仍然可以找到很多您自己無(wú)法找到的獨特的 關(guān)鍵詞 金阿姨。
  如果您已經(jīng)檢查了搜索結果中的所有競爭對手并且仍然需要更多 關(guān)鍵詞 建議,您可以在 Site Explorer 的競爭域報告中找到更多的競爭對手。只要插入一個(gè)你已知的競爭對手,它就會(huì )根據站點(diǎn)參與排名的關(guān)鍵詞來(lái)匹配對應的競爭對手網(wǎng)站。
  您可以針對幾乎無(wú)限數量的 關(guān)鍵詞 建議一遍又一遍地重復上述過(guò)程。
  您是否看到了很多您已經(jīng)涵蓋的主題?
  如果您正在關(guān)鍵詞研究您所在行業(yè)的成熟網(wǎng)站,您可能會(huì )發(fā)現您已經(jīng)關(guān)鍵詞涵蓋了您的大部分競爭對手。在這種情況下,您可以試試我們的內容差距工具。它會(huì )找到一個(gè)或多個(gè) 關(guān)鍵詞 正在排名但您沒(méi)有排名的競爭對手。只需將一些競爭對手的域名放在頂部,將您的網(wǎng)站放在底部,然后點(diǎn)擊“顯示 關(guān)鍵詞”。
  以下是 Homegrounds 和 Roasty Coffee 排名的數千個(gè) 關(guān)鍵詞 中的幾個(gè) 關(guān)鍵詞,關(guān)鍵詞 沒(méi)有參與排名:
  在此視頻中了解有關(guān)使用 Content Gap 的更多信息。
  3. 使用關(guān)鍵詞研究工具
  競爭對手可以成為關(guān)鍵詞建議的重要來(lái)源。但是,您的競爭對手可能仍然沒(méi)有涵蓋很多 關(guān)鍵詞,您可以使用 關(guān)鍵詞 研究工具找到 關(guān)鍵詞。
  關(guān)鍵詞研究工具的工作方式大致相同。您輸入種子 關(guān)鍵詞,它們會(huì )生成 關(guān)鍵詞 建議。
  Google 的 關(guān)鍵詞 規劃器可能是最著(zhù)名的 關(guān)鍵詞 工具。它是免費使用的。雖然它主要針對 Google Ads 客戶(hù),但您也可以使用它來(lái)查找 關(guān)鍵詞 以進(jìn)行 SEO。
  讓我們輸入一些種子 關(guān)鍵詞 并查看它提供的數據:
  您會(huì )注意到其中一些建議收錄
種子 關(guān)鍵詞。這些稱(chēng)為部分匹配 關(guān)鍵詞。然而,并非所有 關(guān)鍵詞 都是如此。比如“k杯”這個(gè)詞,除非你是咖啡鑒賞家,否則你可能不知道這個(gè)詞和咖啡有關(guān)。
  暗示。
  您在 Google 的 關(guān)鍵詞 規劃器中看到的“競爭”指標與 SEO 無(wú)關(guān)。它指的是有多少廣告商愿意為那個(gè)關(guān)鍵詞投放付費廣告。所以你不需要關(guān)注它。
  除了 關(guān)鍵詞 規劃器,還有許多免費的 關(guān)鍵詞 研究工具。如果您的預算緊張,使用這些工具也是個(gè)好主意。但是你也會(huì )發(fā)現這些工具有些問(wèn)題。畢竟,這些工具的目的是將您轉化為它們的用戶(hù)。
  如果您想認真對待 關(guān)鍵詞 研究,不妨跳過(guò)免費工具,開(kāi)始使用專(zhuān)業(yè)的 關(guān)鍵詞 研究工具,例如 Ahrefs Keywords Explorer(關(guān)鍵詞分析)。
  讓我們輸入一些種子 關(guān)鍵詞 并查看它生成了多少 關(guān)鍵詞 建議。
  370 萬(wàn)條建議,這僅來(lái)自短語(yǔ)匹配(部分匹配)報告,其他報告也以不同方式提供關(guān)鍵詞建議。
  以下是關(guān)鍵字資源管理器(關(guān)鍵詞分析)中的報告如何匹配 關(guān)鍵詞:
  現在,您可能會(huì )收到大量關(guān)鍵詞建議,但不要擔心,您將在下一節中學(xué)習如何縮小建議范圍。
  暗示。
  Keywords Explorer (關(guān)鍵詞analytics) 還為其他搜索提供大量關(guān)鍵詞建議,其中一些搜索包括 Bing、YouTube、Amazon、百度等。
  4.研究你的利基
  到目前為止我們所討論的一切都足以產(chǎn)生幾乎無(wú)限數量的關(guān)鍵詞建議。但與此同時(shí),該過(guò)程會(huì )讓您“陷入困境”。因為結果將受到 關(guān)鍵詞 種子的限制,這意味著(zhù)您幾乎肯定會(huì )錯過(guò)一些很棒的 關(guān)鍵詞 建議。
  您可以通過(guò)更詳細地研究細分市場(chǎng)來(lái)解決這個(gè)問(wèn)題。從瀏覽行業(yè)論壇和問(wèn)答網(wǎng)站開(kāi)始。這將幫助您找到潛在客戶(hù)遇到的問(wèn)題,這些問(wèn)題未收錄
在 關(guān)鍵詞 工具中。
  例如,這是 /r/coffee subreddit 上的一篇熱門(mén)帖子:
  這個(gè)人問(wèn)的是關(guān)于 Aeropress 咖啡機的問(wèn)題。如果我們將該術(shù)語(yǔ)放入關(guān)鍵字資源管理器(關(guān)鍵詞分析),我們會(huì )發(fā)現它在美國的平均每月搜索量為 61,000 次。
  這樣的主題可能無(wú)法用關(guān)鍵詞研究工具發(fā)現,因為它不收錄
任何種子關(guān)鍵詞。
  以下是該目錄中值得我們關(guān)注的其他一些有趣主題:
  如果您發(fā)現一個(gè)熱門(mén)話(huà)題,您可以為它添加新種子 關(guān)鍵詞 并將其放入關(guān)鍵字資源管理器(關(guān)鍵詞分析)以找到更多建議。例如,如果我們用“aeropress”作為種子 關(guān)鍵詞 并檢查“短語(yǔ)匹配”報告,我們可以看到成千上萬(wàn)的 關(guān)鍵詞 建議。
  除了瀏覽論壇等,您的客戶(hù)也可以成為 關(guān)鍵詞 創(chuàng )意的重要來(lái)源。請記住,這些是您已經(jīng)與之有業(yè)務(wù)往來(lái)的人。您想要的是吸引更多像他們一樣的人訪(fǎng)問(wèn)您的網(wǎng)站。
  以下是從客戶(hù)那里提取主題的幾種方法:
  執行此操作時(shí),請務(wù)必注意它們使用的語(yǔ)句。它通常與您使用的聲明不同。例如,如果您在線(xiàn)銷(xiāo)售咖啡機,您的客戶(hù)可能會(huì )搜索之前對特定咖啡機的比較。
  第 3 章如何分析 關(guān)鍵詞
  
  有很多關(guān)鍵詞建議很好。但是你怎么知道哪個(gè)是最好的呢?畢竟,手工梳理如此多的數據幾乎是不可能的。
  解決方案很簡(jiǎn)單:在創(chuàng )建有關(guān)這些主題的內容之前,使用 SEO 指標和數據縮小范圍并將它們分開(kāi)。
  您可以使用以下五個(gè) 關(guān)鍵詞 指標來(lái)執行此操作。
  知名度
  搜索量告訴您每月 關(guān)鍵詞 搜索的平均次數。例如,在美國每月約有 40,000 次搜索“摩卡壺”。
  這個(gè)值需要注意三點(diǎn):
  是搜索次數,而不是搜索人數。在某些情況下,某人可能會(huì )在一個(gè)月內多次搜索 關(guān)鍵詞,例如“新加坡的天氣”。這些都會(huì )增加搜索量,甚至可能是同一個(gè)人搜索。它不會(huì )告訴您通過(guò)排名會(huì )獲得多少流量。即使您排名第一,關(guān)鍵詞 也很少會(huì )超過(guò)該數字的 30%。如果它超過(guò)了,那么你真的很幸運。這是一年中的月平均值。如果在 12 月有 120,000 次 關(guān)鍵詞 搜索,而在剩余的 11 個(gè)月中沒(méi)有 關(guān)鍵詞 搜索,則每月搜索量為 10,000(120,000/12 個(gè)月)
  在關(guān)鍵字資源管理器(關(guān)鍵詞 分析)的任何報告中,您都會(huì )看到搜索量過(guò)濾器:
  此過(guò)濾器主要用于兩個(gè)方面:
  過(guò)濾掉多余的 關(guān)鍵詞。如果您的站點(diǎn)是新站點(diǎn),您可能不想過(guò)濾每月搜索量超過(guò) 100,000 次的 關(guān)鍵詞,因為它們可能非常有競爭力。專(zhuān)門(mén)針對小批量 關(guān)鍵詞 進(jìn)行過(guò)濾。也許你想找競爭少、流量小的關(guān)鍵詞,這樣你就可以輕松地用短文吸引更多流量。我們稱(chēng)之為長(cháng)尾 關(guān)鍵詞。
  你知道大多數 關(guān)鍵詞 都是長(cháng)尾巴 關(guān)鍵詞 嗎?
  長(cháng)尾 關(guān)鍵詞 指的是搜索量較低的 關(guān)鍵詞。之所以這樣稱(chēng)呼它們,是因為它們位于所謂的“搜索需求曲線(xiàn)”的最末端:
  如您所見(jiàn),在曲線(xiàn)的頂部,我們有少量非常受歡迎的搜索詞,例如:
  這些我們稱(chēng)之為頭詞。
  曲線(xiàn)的尾端由數億個(gè)搜索量非常低的關(guān)鍵詞組成,例如:
  如果您想了解更多關(guān)于處理不同類(lèi)型的長(cháng)尾 關(guān)鍵詞 的信息,請查看我們的完整指南。
  如果您需要查看美國以外國家/地區的搜索量,關(guān)鍵字資源管理器 (關(guān)鍵詞analytics) 中有 171 個(gè)國家/地區可供選擇。您還可以查看全球搜索量(所有國家/地區的搜索總和)。如果您的業(yè)務(wù)是全球性的,以下兩條建議對您很重要:
  你不應該將自己局限于一個(gè)國家。如果您在全球范圍內銷(xiāo)售產(chǎn)品,美國可能只占您市場(chǎng)的一小部分。如果人們正在尋找您在其他地區提供的產(chǎn)品,您需要及時(shí)了解。您應該考慮具有搜索量的國家/地區的“購買(mǎi)力”。也許你看到一個(gè)有前途的 關(guān)鍵詞 每月有 100,000 次搜索,但其中 90% 來(lái)自一個(gè) GDP 較低的國家。在這種情況下,這個(gè) 關(guān)鍵詞 可能不是一個(gè)好的目標,因為搜索者的“購買(mǎi)力”可能很低。
  例如,看看 關(guān)鍵詞 “反向鏈接生成器”。它有 13,000 次全球搜索,但其中超過(guò) 70% 的搜索來(lái)自印度、印度尼西亞、孟加拉國和巴基斯坦等人均 GDP 較低的低收入國家。因此,即使您可能為此 關(guān)鍵詞 獲得很多流量排名,但與 關(guān)鍵詞 相比,該流量的“商業(yè)價(jià)值”可能仍然很低,關(guān)鍵詞 超過(guò) 70% 的搜索來(lái)自美國。
  關(guān)于搜索量要記住的另一件重要事情是它因工具而異。因為每個(gè)工具計算和更新此指標的方式不同。您可以在此處和此處了解搜索量估算的復雜性以及為什么有時(shí) Google 的數字并不真正“準確”。
  注意 關(guān)鍵詞 趨勢
  由于搜索量是每年的月平均值,因此通??梢栽陉P(guān)鍵字資源管理器(關(guān)鍵詞 分析)中查看 關(guān)鍵詞 的趨勢圖。如果 關(guān)鍵詞 是季節性或驟降,則搜索量可能會(huì )發(fā)生變化。
  與圣誕節相關(guān)的搜索詞就是一個(gè)很好的例子。它們都在 12 月達到峰值并在 2 月降至零,但搜索量并未反映出這一點(diǎn)。
  閱讀我們的 Google 趨勢指南,了解有關(guān)研究趨勢 關(guān)鍵詞 的更多有用提示。
  點(diǎn)擊
  很多人可能會(huì )在 Google 上搜索某些內容,但這并不意味著(zhù)他們都會(huì )點(diǎn)擊搜索結果并訪(fǎng)問(wèn)排名靠前的頁(yè)面。這就是關(guān)鍵字資源管理器(關(guān)鍵詞分析)中的點(diǎn)擊指示器派上用場(chǎng)的地方。它告訴您 關(guān)鍵詞 搜索結果的平均每月點(diǎn)擊次數。
  例如,“咖啡中含有多少咖啡因”這個(gè)詞
  盡管每月有 48,000 次搜索,但它只獲得了 8,600 次點(diǎn)擊。
  發(fā)生這種情況是因為谷歌會(huì )直接在搜索結果中顯示問(wèn)題的災難性。人們無(wú)需點(diǎn)擊即可找到所需的信息。
  谷歌將在搜索結果中為越來(lái)越多的搜索詞提供答案。因此,您需要使用 Keywords Explorer 中的 Clicks 過(guò)濾器(關(guān)鍵詞 分析)。您可以使用它來(lái)過(guò)濾掉具有潛在搜索流量的關(guān)鍵詞建議。
  您還應注意,付費廣告可能會(huì )“竊取”大量關(guān)鍵詞點(diǎn)擊次數。例如,“braun coffee maker”的點(diǎn)擊次數中有 32% 轉到了付費廣告,因此 關(guān)鍵詞 可能更適合投放廣告。
  交通潛力
  假設您正在考慮 關(guān)鍵詞 諸如“咖啡的副作用”之類(lèi)的東西。根據 Keywords Explorer 的估計(關(guān)鍵詞 分析),該術(shù)語(yǔ)每月有 1,000 次搜索和 800 次點(diǎn)擊。
  但是,請記住,如果您為這個(gè) 關(guān)鍵詞 排名,您的頁(yè)面也可能為所有相關(guān)的 關(guān)鍵詞 和同義詞排名,例如:
  由于所有這些搜索詞的意思大致相同,因此僅根據一個(gè)搜索詞來(lái)估計您的潛在搜索流量是錯誤的。查看當前排名靠前的頁(yè)面獲得的流量是個(gè)好主意,使用關(guān)鍵字瀏覽器(關(guān)鍵詞分析)很容易做到這一點(diǎn)。
  在這里,我們看到“咖啡的副作用”排名靠前的頁(yè)面估計每月有大約 3,500 次訪(fǎng)問(wèn),并參與了 930 多個(gè) 關(guān)鍵詞 排名:
  像這樣對多個(gè) 關(guān)鍵詞 進(jìn)行排名是正常的。我們研究了 300 萬(wàn)個(gè)搜索詞,排名前 10 的頁(yè)面平均每頁(yè)超過(guò) 1,000 個(gè)其他 關(guān)鍵詞 頁(yè)面。
  所以不要僅根據搜索量(或點(diǎn)擊量)來(lái)判斷 關(guān)鍵詞。查看頂部結果以估計該主題的總搜索流量潛力。在大多數情況下,關(guān)鍵詞 的搜索量確實(shí)與該主題的整體“流量潛力”相關(guān)。但是注意這個(gè)細節將幫助您確定 關(guān)鍵詞 的優(yōu)先級并找到您的競爭對手忽略的 關(guān)鍵詞 機會(huì )。
  關(guān)鍵詞難度
  SEO 專(zhuān)業(yè)人員經(jīng)常手動(dòng)測量 關(guān)鍵詞 排名難度。也就是說(shuō),通過(guò)查看其目標 關(guān)鍵詞 的排名靠前的頁(yè)面。他們考慮了許多不同的因素來(lái)判斷排名的難易程度:
  反向鏈接的數量和質(zhì)量;域名評級;內容長(cháng)度、相關(guān)性、及時(shí)性;目標 關(guān)鍵詞,同義詞的使用;搜索意圖;牌; 等等
  這個(gè)過(guò)程因人而異,因為對于究竟什么是重要的,什么是不重要的,這里沒(méi)有達成共識。一個(gè)人可能會(huì )爭辯說(shuō)修復錯誤很重要,而另一個(gè)人可能會(huì )爭辯說(shuō)依賴(lài)關(guān)系起著(zhù)更大的作用。關(guān)鍵詞 研究工具的創(chuàng )建者都在努力將 關(guān)鍵詞 排名難度設置為客觀(guān)可靠的分數,因為缺乏共識。
  在與許多專(zhuān)業(yè) SEO 討論 關(guān)鍵詞 難度分數應該考慮的因素后,我們意識到每個(gè)人都至少同意一件事:反向鏈接對排名至關(guān)重要。所以最后,我們決定根據鏈接到前 10 個(gè)頁(yè)面的唯一站點(diǎn)的數量來(lái)計算關(guān)鍵字難度 (關(guān)鍵詞難度) 分數。
  正如您在上圖中所見(jiàn),KD 分數與排名前十的搜索結果中的網(wǎng)站獲得的鏈接域數量相關(guān)。
  暗示。
  請注意,這是“前 10 名”參考。Ahrefs 的 KD 分數并不能說(shuō)明特定 關(guān)鍵詞 #1 排名的絕對數字。它只是為您提供進(jìn)入前 10 名的建議。
  了解 KD 的工作原理后,許多人通過(guò)將過(guò)濾器設置為 0 到 30 來(lái)僅關(guān)注低難度詞。他們沒(méi)有涵蓋站點(diǎn)上的高 KD 關(guān)鍵詞,這是一個(gè)很大的錯誤,原因有二:
  你應該盡早放置高 KD 關(guān)鍵詞。由于您將進(jìn)行大量鏈接建設,因此創(chuàng )建您的頁(yè)面并盡快開(kāi)始推廣它是有意義的。拖延的時(shí)間越長(cháng),你給競爭對手的領(lǐng)先優(yōu)勢就越大,將來(lái)更難超越他們。您應該將高 KD 關(guān)鍵詞 視為獲取鏈接的機會(huì )。排名靠前的頁(yè)面有很多反向鏈接的事實(shí)表明這些是“值得鏈接”的主題。換句話(huà)說(shuō),如果您確保精心設計該主題,它可能會(huì )吸引很多反向鏈接。
  重點(diǎn)是:KD 不會(huì )阻止您針對特定的 關(guān)鍵詞。它可以幫助您了解如何對給定主題進(jìn)行排名以及該主題的“鏈接價(jià)值”。
  在評估之前,您應該始終手動(dòng)評估 關(guān)鍵詞,而不是僅僅依靠工具的關(guān)鍵字難度 (關(guān)鍵詞difficulty) 分數來(lái)做出最終決定。沒(méi)有 關(guān)鍵詞 工具可以將 Google 排名算法的復雜性提煉為一個(gè)數字。所以你需要時(shí)刻注意一些工具的提示。
  如果您想了解有關(guān)關(guān)鍵字難度(關(guān)鍵詞難度)的更多信息,請查看我們的關(guān)鍵字難度(關(guān)鍵詞難度)指南。
  每次點(diǎn)擊費用 (CPC)
  每次點(diǎn)擊費用 (CPC) 顯示廣告商愿意為每次 關(guān)鍵詞 點(diǎn)擊他們的廣告支付多少錢(qián)。對于廣告商來(lái)說(shuō),它比 SEO 更像是一個(gè)指標。但它間接地衡量了 關(guān)鍵詞 對我們的價(jià)值。
  例如,關(guān)鍵詞“office coffee”的 CPC 相對較高,為 12 美元。那是因為大多數搜索者都希望為辦公室購買(mǎi)一臺咖啡機,這可能要花費數百或數千美元。相反,“how to make good espresso”的點(diǎn)擊價(jià)格非常低,因為大多數搜索者都不愿意買(mǎi)東西。他們正在尋找有關(guān)如何沖泡濃縮咖啡的信息。
  一件重要的事情是 CPC 比搜索量更不穩定。雖然大多數 關(guān)鍵詞 的搜索需求每個(gè)月都大致保持不變,但他們的 CPC 會(huì )隨著(zhù)時(shí)間的推移而變化。這意味著(zhù)你在第三方關(guān)鍵詞工具中看到的CPC值是特定時(shí)間的快照。如果您需要實(shí)時(shí)數據,則必須使用 AdWords。
  第 4 章 如何分組 關(guān)鍵詞
  對于列表中的每個(gè) 關(guān)鍵詞,您都需要有正確的頁(yè)面和內容。知道如何做到這一點(diǎn)是 關(guān)鍵詞 研究過(guò)程的核心步驟。幸運的是,您可以通過(guò)兩個(gè)簡(jiǎn)單的步驟完成此操作:
  定位父主題 定位搜索意圖 1. 定位父主題
  假設您的列表收錄
以下 關(guān)鍵詞:
  您可能想知道,您應該為每個(gè) 關(guān)鍵詞 構建不同的頁(yè)面還是將它們全部放在一個(gè)頁(yè)面上?
  答案在很大程度上取決于谷歌如何看待這些 關(guān)鍵詞。它是否將它們視為同一主題的一部分(例如如何制作生咖啡)?還是將它們都視為單獨的主題?你可以通過(guò)查看谷歌的搜索結果來(lái)了解這一點(diǎn)。
  
  例如,我們在“如何制作生咖啡”和“什么是生咖啡”中看到一些相同的結果頁(yè)面。
  這似乎表明 Google 認為 關(guān)鍵詞 是同一個(gè)線(xiàn)程的一部分。
  我們還看到,這兩個(gè)搜索的大部分結果都是關(guān)于制作奶油咖啡的文章。這告訴我們“hat is whipped coffee”是如何制作奶油咖啡主題的一個(gè)副主題。
  因此,將這兩個(gè) 關(guān)鍵詞 放在一個(gè)頁(yè)面上比創(chuàng )建兩個(gè)單獨的頁(yè)面更有意義。
  然而,如果我們看一下“不加糖的鮮奶咖啡”,我們會(huì )發(fā)現相反的情況:
  結果證明,幾乎所有這些都是完全無(wú)糖、健康的生咖啡,而不是普通的生咖啡。這告訴我們“不加糖的攪打咖啡”不是制作奶油咖啡的副題(盡管不加糖的奶油咖啡實(shí)際上仍然是奶油咖啡)
  這種方法的問(wèn)題是它主要是手動(dòng)的并且速度慢,所以如果你有很多 關(guān)鍵詞 需要分析,可能需要一些時(shí)間。
  在關(guān)鍵字資源管理器(關(guān)鍵詞 分析)中,我們解決這個(gè)問(wèn)題的方法是為每個(gè) 關(guān)鍵詞 顯示一個(gè)“父主題”。它告訴您這些子主題是否可以收錄
在父主題中。
  為了確定“父主題”,我們分析了每個(gè) 關(guān)鍵詞 排名第一的頁(yè)面,并找到向該頁(yè)面發(fā)送最多流量的 關(guān)鍵詞。
  讓我們把之前的關(guān)鍵詞放到Keywords Explorer(關(guān)鍵詞分析)中,查看它的“parent topic”:
  我們在這里看到的內容反映了我們在搜索結果中看到的內容。我們的大多數 關(guān)鍵詞 都屬于同一主題。唯一的例外是“不加糖的攪打咖啡”,因此這需要一個(gè)單獨的頁(yè)面。
  然而,我們的父主題的功能并不是絕對完美的。在關(guān)鍵詞分組方面,沒(méi)辦法每次都給你最準確的建議(這一步在SEO中也叫“關(guān)鍵詞聚合”),畢竟谷歌搜索結果不是固定的.
  例如,在發(fā)布本指南后不久,當我在 關(guān)鍵詞 報告中查看上述 關(guān)鍵詞 的父主題時(shí),我得到了不同的結果:
  在這里你最好使用關(guān)鍵字資源管理器中的“流量份額&gt;按頁(yè)面”報告(關(guān)鍵詞分析)。通過(guò)這種方式,您可以很容易地找出同一頁(yè)面是否參與了這些 關(guān)鍵詞 排名。
  2. 目標搜索意圖
  假設您的列表中有以下 關(guān)鍵詞:
  如果你通過(guò)博客經(jīng)營(yíng)在線(xiàn)商店,你需要知道你的博客和你的產(chǎn)品針對的是什么詞。
  對于某些 關(guān)鍵詞 來(lái)說(shuō),這是顯而易見(jiàn)的。您不會(huì )為“如何沖泡冷萃咖啡”創(chuàng )建產(chǎn)品頁(yè)面,因為那沒(méi)有意義。搜索者想知道如何制作冷萃咖啡,而不是購買(mǎi)沖泡設備。
  但是 關(guān)鍵詞 像“手動(dòng)毛刺咖啡研磨機”呢?您使用的是博客文章還是顯示您銷(xiāo)售的研磨機的產(chǎn)品列表頁(yè)面?
  鑒于您的目標可能是銷(xiāo)售更多咖啡研磨機,您的直覺(jué)很可能會(huì )創(chuàng )建一個(gè)類(lèi)別頁(yè)面,其中收錄
您要銷(xiāo)售的所有咖啡研磨機。其實(shí)這是錯誤的舉動(dòng),因為這種內容不符合搜索者想看到的,也就是搜索意圖。
  我們怎么知道?如果您在 Google 中查看此 關(guān)鍵詞 的首頁(yè),它們都是關(guān)于最好的咖啡研磨機的博客文章。
  Google 比任何人都更了解用戶(hù)意圖,因此排名靠前的 關(guān)鍵詞 結果通常意味著(zhù)它們更符合用戶(hù)意圖。如果你想獲得最高的排名機會(huì ),你應該創(chuàng )建與排名靠前的頁(yè)面相同類(lèi)型的內容。
  您可以在關(guān)鍵字資源管理器(關(guān)鍵詞 分析)中查看排名靠前的結果,只需單擊“SERP”下拉按鈕即可。
  從這里,您可以分析我們所說(shuō)的搜索意圖 3C,以了解如何最好地定位 關(guān)鍵詞:
  內容類(lèi)型(content type) 內容格式(content format) 內容角度(content angle) 1.內容類(lèi)型(content type)
  內容類(lèi)型通常屬于以下五個(gè)類(lèi)別之一:博客、產(chǎn)品、類(lèi)別、登錄頁(yè)面或視頻。
  2. 內容格式
  內容格式主要適用于“信息”內容。典型的例子是操作指南、清單、新聞文章、評論等。
  3.內容角度
  內容角度是內容的主要賣(mài)點(diǎn)。例如,搜索“如何制作拿鐵”的任何人似乎都想知道如何在沒(méi)有機器或任何特殊設備的情況下制作。
  您只需要知道將您的內容與搜索者的期望保持一致,但您不必效仿或將搜索者困在期望泡沫中。如果你確信你可以用不同的內容類(lèi)型、格式和角度來(lái)吸引搜索者的注意力,那就試試吧。
  第 5 章如何確定 關(guān)鍵詞 優(yōu)先級
  關(guān)鍵詞確定優(yōu)先級并不是關(guān)鍵詞研究過(guò)程的最后一步。相反,這是在您準備好做任何其他事情之前需要完成的事情。當您搜索、分析、分組 關(guān)鍵詞 時(shí),問(wèn)問(wèn)自己:
  最后一點(diǎn)尤為重要。雖然搜索量、流量潛力、關(guān)鍵詞 難度和搜索意圖都是重要的考慮因素,但您還需要考慮哪些 關(guān)鍵詞 量對您的業(yè)務(wù)有價(jià)值。.
  如何衡量關(guān)鍵詞的“商業(yè)潛力”
  許多內容營(yíng)銷(xiāo)人員和 SEO 通過(guò)將 關(guān)鍵詞 映射到用戶(hù)購買(mǎi)渠道(人們在購買(mǎi)前經(jīng)歷的過(guò)程)來(lái)判斷 關(guān)鍵詞 的“價(jià)值”。傳統觀(guān)點(diǎn)認為,渠道越高,您購買(mǎi)的可能性就越小。
  怎么做?最流行的方法是將 關(guān)鍵詞 提案分為三類(lèi):TOFU、MOFU、BOFU。
  以下是 Ahrefs 的一些 TOFU、MOFU、BOFU關(guān)鍵詞 示例:
  一般來(lái)說(shuō),TOFU關(guān)鍵詞 具有最高的點(diǎn)擊潛力,但訪(fǎng)問(wèn)者還不想購買(mǎi)任何東西。而 MOFU 和 BOFU 關(guān)鍵詞 會(huì )給你帶來(lái)更少的流量,但這些人更接近成為你的客戶(hù)。
  在 Ahrefs,我們認為這種方法是有限的并且可能會(huì )產(chǎn)生誤導。
  以下是三個(gè)原因:
  首先,它沒(méi)有考慮到你實(shí)際上可以引導一個(gè)沒(méi)有“腿部意識”的用戶(hù)在一個(gè)頁(yè)面上完成從理解到購買(mǎi)的整個(gè)階段。事實(shí)上,這就是登陸頁(yè)面上的許多內容編輯器所做的。他們不會(huì )根據 TOFU / MOFU / BOFU 制作廣告頁(yè)面。在大多數情況下,他們會(huì )制作一個(gè)廣告登陸頁(yè)面,讓用戶(hù)自發(fā)地產(chǎn)生問(wèn)題,了解問(wèn)題,并提供問(wèn)題的解決方案。
  其次,要確認每個(gè)關(guān)鍵詞到底是TOFU、MOFU還是BOFU其實(shí)很難。因為很多話(huà)不是那么清楚。例如,對于 Ahrefs,“鏈接構建工具”可能是我們的 MOFU 或 BOFU 關(guān)鍵詞,這完全取決于您如何看待它。
  第三,一些營(yíng)銷(xiāo)人員將 TOFU 的范圍擴大到這樣一種程度,以至于他們最終涵蓋了很多不相關(guān)的話(huà)題。例如 Hubspot:
  鑒于他們的業(yè)務(wù)是銷(xiāo)售營(yíng)銷(xiāo)軟件,您如何看待他們的流量來(lái)源內容:
  為了解決這個(gè)問(wèn)題,我們創(chuàng )建了一個(gè)簡(jiǎn)單而客觀(guān)的“業(yè)務(wù)評分”來(lái)確定 關(guān)鍵詞 的價(jià)值。這主要基于我們將產(chǎn)品放置在內容中的能力。
  以下是我們用于博客主題的評分標準:
  分數定義示例
  3個(gè)
  我們的產(chǎn)品是解決這個(gè)問(wèn)題的不可替代的解決方案。
  “如何在 Google 中獲得更好的排名”——因為沒(méi)有領(lǐng)導像 Ahrefs 這樣的工具集是很難做到的。
  2個(gè)
  我們的產(chǎn)品有很大幫助,但不是解決問(wèn)題所必需的。
  “SEO 技巧”——因為有些技巧適用于我們的產(chǎn)品,有些則不然。
  1個(gè)
  我們的產(chǎn)品只能簡(jiǎn)要提及。
  “營(yíng)銷(xiāo)理念”- 因為 SEO 是眾多營(yíng)銷(xiāo)理念中的一種,但 Ahrefs 可以提供幫助。
  絕對沒(méi)有辦法提及我們的產(chǎn)品。
  《社交媒體營(yíng)銷(xiāo)》——因為在這些方面,Ahrefs 沒(méi)有辦法提供幫助。
  通過(guò)將此分數與主題的估計搜索流量潛力配對,我們可以很好地了解哪些主題對我們的業(yè)務(wù)最有價(jià)值。您會(huì )注意到我們的博客上幾乎沒(méi)有任何商業(yè)評級為零的文章(無(wú)法接觸我們的產(chǎn)品)。
  最后,在完成此過(guò)程時(shí),請記住,您不僅在尋找“易于排名”的 關(guān)鍵詞,而且還在尋找具有最高投資回報率的 關(guān)鍵詞。
  許多網(wǎng)站所有者錯誤地只關(guān)注簡(jiǎn)單、低難度的 關(guān)鍵詞。你應該始終有短期、中期和長(cháng)期的排名目標。如果你只關(guān)注短期目標,你永遠不會(huì )參加最賺錢(qián)的關(guān)鍵詞排名。如果只著(zhù)眼于中長(cháng)期目標,獲取流量需要很長(cháng)時(shí)間。
  可以這樣想:采摘較低的果實(shí)很容易,但通常樹(shù)頂的果實(shí)會(huì )多汁。但這是否意味著(zhù)不值得采摘低價(jià)水果?不,您仍然應該選擇它們。但是,您還應該提前計劃并準備好您的梯子,以便稍后采摘更高的水果。
  總結
  以上應該足以幫助您了解關(guān)鍵詞研究的基本概念并開(kāi)始規劃您的內容策略。
  如果您想了解更多信息并深入研究 關(guān)鍵詞 研究,請查看散布在本指南中的推薦閱讀鏈接。這些將使您更深入地了解各種指標和工具以及如何使用它們。 查看全部

  解決方案:Google優(yōu)化-如何精準分析頁(yè)面高轉化關(guān)鍵詞?
  1.具有一定的商業(yè)價(jià)值(Business Value)
  我們一般在必應、谷歌等搜索引擎中搜索這個(gè)詞。觀(guān)察搜索引擎結果的頂部或底部是否會(huì )有搜索引擎競價(jià)廣告。如果有競價(jià)廣告,則說(shuō)明該詞具有一定的商業(yè)價(jià)值。
  通過(guò)自己對行業(yè)的了解,推測當前詞匯的商業(yè)價(jià)值。例如,當通用詞匯中有price(價(jià)格)、manufacturer(制造商)、China(中國)等詞時(shí),大部分詞是可以轉化的,具有一定的商業(yè)價(jià)值。當然,這種做法因行業(yè)而異,所以只是備選方案。
  2.具有一定的搜索量(Search Volume)
  關(guān)于關(guān)鍵詞的搜索量,搜索引擎不會(huì )準確的告訴你準確的數值。但是我們可以通過(guò)多套工具來(lái)判斷。
  
  Chrome 瀏覽器的 Keywords Everywhere 插件。下載安裝后,驗證API,即可查看任意詞的搜索量。
  用于 Google Adwords 的關(guān)鍵字規劃器 (關(guān)鍵詞planner) 工具。關(guān)鍵詞 規劃工具可以檢查關(guān)鍵詞 在最高 CPC 下的曝光率?;旧峡梢岳斫鉃椋鹤畲驝PC曝光量≈搜索量。
  3、有一定的衍生詞儲備(Expandable)
  1.什么是衍生詞
  
  簡(jiǎn)單的說(shuō),就是你選擇的詞匯能否進(jìn)一步推導出來(lái)。因為一個(gè)頁(yè)面不會(huì )只參與一個(gè)詞的排名,而是多個(gè)詞。通常是您的目標 關(guān)鍵詞 的派生物。同時(shí),這意味著(zhù)您可以獲得多組詞的有機搜索流量。
  2. 如何判斷關(guān)鍵詞是否可以導出?
  很簡(jiǎn)單,打開(kāi)谷歌搜索首頁(yè),把關(guān)鍵詞放進(jìn)去,看下拉框里出現了多少個(gè)詞,就知道一個(gè)詞的出處。
  如果一個(gè)詞匯表沒(méi)有任何下拉框,基本上就意味著(zhù)這個(gè)詞匯表已經(jīng)用完了。那么這個(gè)關(guān)鍵詞可能不是一個(gè)好的目標關(guān)鍵詞,因為沒(méi)有下拉意味著(zhù)這個(gè)關(guān)鍵詞可能沒(méi)有太大的音量。同時(shí)沒(méi)有足夠的衍生詞來(lái)支撐流量,這個(gè)頁(yè)面帶來(lái)的價(jià)值可能比較低。
  我們希望我們的頁(yè)面能夠排在谷歌的第一頁(yè),以實(shí)現高轉化和表單查詢(xún)。我們首先需要做好前期分析的關(guān)鍵詞,然后加入更多有吸引力的原創(chuàng )優(yōu)質(zhì)內容,進(jìn)行精準布局。
  核心方法:如何進(jìn)行SEO關(guān)鍵詞研究(入門(mén)指南) –
  內容
  第 1 章關(guān)鍵詞研究基礎
  在深入研究復雜的 關(guān)鍵詞 研究以及如何為您的業(yè)務(wù)找到最好的 關(guān)鍵詞 之前,先了解一些基礎知識。
  什么是關(guān)鍵詞研究?
  關(guān)鍵詞 研究是在搜索引擎中尋找 關(guān)鍵詞 進(jìn)行排名的過(guò)程。目標是了解客戶(hù)搜索的潛在意圖,以及如何進(jìn)行搜索。
  它還涉及分析和比較 關(guān)鍵詞 以找到最好的 關(guān)鍵詞 機會(huì )。
  為什么 關(guān)鍵詞 研究很重要?
  關(guān)鍵詞研究是了解人們在搜索引擎中輸入的內容的唯一方法。您需要了解它以避免創(chuàng )建關(guān)于沒(méi)有人搜索的主題的內容。然而,許多網(wǎng)站都犯了這個(gè)錯誤,這可能是 90.63% 的頁(yè)面沒(méi)有從 Google 獲得流量的一個(gè)重要原因。
  關(guān)鍵詞研究還可以幫助您解決以下問(wèn)題:
  了解這些問(wèn)題的答案將幫助您更好地定位自己。
  第 2 章如何找到 關(guān)鍵詞 建議
  關(guān)鍵詞研究首先考慮潛在客戶(hù)如何搜索您的企業(yè)或網(wǎng)站。然后,您可以使用 關(guān)鍵詞 研究工具來(lái)擴展這些想法并找到更多 關(guān)鍵詞。
  這是一個(gè)簡(jiǎn)單的過(guò)程,但要做好,必須做兩件事:
  你需要對你的行業(yè)有很好的了解。您需要了解 關(guān)鍵詞 研究工具的工作原理以及如何充分利用它們。
  下面我們將介紹一些可行的方法來(lái)提高您在這兩個(gè)領(lǐng)域的知識,并在此過(guò)程中發(fā)現您網(wǎng)站的潛在質(zhì)量 關(guān)鍵詞。
  想想你的“種子”關(guān)鍵詞 查看競爭對手的排名 關(guān)鍵詞 使用 關(guān)鍵詞 工具研究你的利基市場(chǎng) 1. 想想你的“種子”關(guān)鍵詞
  種子 關(guān)鍵詞 是 關(guān)鍵詞 研究過(guò)程的基礎。他們定義了你的利基并幫助你識別你的競爭對手。您還可以將 關(guān)鍵詞 播種到 關(guān)鍵詞 工具中以查找數以千計的 關(guān)鍵詞 建議(稍后會(huì )詳細介紹)。
  如果您已經(jīng)有想要在線(xiàn)推廣的產(chǎn)品或業(yè)務(wù),則尋找種子 關(guān)鍵詞 很容易。想想人們將如何在 Google 中搜索以找到您提供的產(chǎn)品。
  例如,如果您銷(xiāo)售咖啡機和設備,則種子 關(guān)鍵詞 可能是:
  請注意,種子 關(guān)鍵詞 本身不一定值得在您的網(wǎng)站上定位。畢竟,您只需要將它們作為“種子”來(lái)使用即可。所以不要太依賴(lài)你的種子關(guān)鍵詞。只需幾分鐘即可找到它們。找到與網(wǎng)站主題相關(guān)的種子詞后,您可以繼續下一步。
  2. 查看競爭對手的排名 關(guān)鍵詞
  查看哪些 關(guān)鍵詞 正在為您的競爭對手帶來(lái)流量通常是進(jìn)行 關(guān)鍵詞 研究的最佳方式。但首先,您需要確定您的競爭對手是誰(shuí)。這就是您的頭腦風(fēng)暴 關(guān)鍵詞 列表派上用場(chǎng)的地方。只需用谷歌搜索你的一個(gè)種子 關(guān)鍵詞,看看誰(shuí)排在第一頁(yè)上。
  如果您的種子文件中排名靠前的 關(guān)鍵詞 站點(diǎn)均不匹配您的站點(diǎn)(或您計劃使用的站點(diǎn)),請嘗試通過(guò)選擇 Google 自動(dòng)完成功能提供的 關(guān)鍵詞 建議再次搜索。
  例如,如果您銷(xiāo)售咖啡設備,您會(huì )在“卡布奇諾咖啡機”的搜索結果中發(fā)現比“卡布奇諾咖啡”更多的實(shí)際競爭對手。那是因為大部分商城網(wǎng)站排名第一,博客內容排名靠后。
  無(wú)論哪種方式,您在識別競爭站點(diǎn)時(shí)仍然需要使用判斷力。如果您看到像亞馬遜或紐約時(shí)報這樣的大品牌在您的種子 關(guān)鍵詞 上排名,不一定要將它們視為競爭對手。始終尋找與您自己的網(wǎng)站(或您計劃創(chuàng )建的網(wǎng)站)相似的網(wǎng)站。
  然后你可以將這些站點(diǎn)依次放入 AhrefsSite Explorer(網(wǎng)站分析)并查看 Top Pages(熱門(mén)頁(yè)面)報告。這將顯示他們從中獲得最多流量的頁(yè)面。它還顯示 關(guān)鍵詞 這些頁(yè)面從哪些頁(yè)面獲得最多流量。
  我們使用 Site Explorer 分析了一個(gè)競爭網(wǎng)站,并為我們假設的咖啡店找到了一些有趣的 關(guān)鍵詞:
  如您所見(jiàn),即使您非常熟悉這個(gè)行業(yè),通過(guò)研究您的競爭對手,您仍然可以找到很多您自己無(wú)法找到的獨特的 關(guān)鍵詞 金阿姨。
  如果您已經(jīng)檢查了搜索結果中的所有競爭對手并且仍然需要更多 關(guān)鍵詞 建議,您可以在 Site Explorer 的競爭域報告中找到更多的競爭對手。只要插入一個(gè)你已知的競爭對手,它就會(huì )根據站點(diǎn)參與排名的關(guān)鍵詞來(lái)匹配對應的競爭對手網(wǎng)站。
  您可以針對幾乎無(wú)限數量的 關(guān)鍵詞 建議一遍又一遍地重復上述過(guò)程。
  您是否看到了很多您已經(jīng)涵蓋的主題?
  如果您正在關(guān)鍵詞研究您所在行業(yè)的成熟網(wǎng)站,您可能會(huì )發(fā)現您已經(jīng)關(guān)鍵詞涵蓋了您的大部分競爭對手。在這種情況下,您可以試試我們的內容差距工具。它會(huì )找到一個(gè)或多個(gè) 關(guān)鍵詞 正在排名但您沒(méi)有排名的競爭對手。只需將一些競爭對手的域名放在頂部,將您的網(wǎng)站放在底部,然后點(diǎn)擊“顯示 關(guān)鍵詞”。
  以下是 Homegrounds 和 Roasty Coffee 排名的數千個(gè) 關(guān)鍵詞 中的幾個(gè) 關(guān)鍵詞,關(guān)鍵詞 沒(méi)有參與排名:
  在此視頻中了解有關(guān)使用 Content Gap 的更多信息。
  3. 使用關(guān)鍵詞研究工具
  競爭對手可以成為關(guān)鍵詞建議的重要來(lái)源。但是,您的競爭對手可能仍然沒(méi)有涵蓋很多 關(guān)鍵詞,您可以使用 關(guān)鍵詞 研究工具找到 關(guān)鍵詞。
  關(guān)鍵詞研究工具的工作方式大致相同。您輸入種子 關(guān)鍵詞,它們會(huì )生成 關(guān)鍵詞 建議。
  Google 的 關(guān)鍵詞 規劃器可能是最著(zhù)名的 關(guān)鍵詞 工具。它是免費使用的。雖然它主要針對 Google Ads 客戶(hù),但您也可以使用它來(lái)查找 關(guān)鍵詞 以進(jìn)行 SEO。
  讓我們輸入一些種子 關(guān)鍵詞 并查看它提供的數據:
  您會(huì )注意到其中一些建議收錄
種子 關(guān)鍵詞。這些稱(chēng)為部分匹配 關(guān)鍵詞。然而,并非所有 關(guān)鍵詞 都是如此。比如“k杯”這個(gè)詞,除非你是咖啡鑒賞家,否則你可能不知道這個(gè)詞和咖啡有關(guān)。
  暗示。
  您在 Google 的 關(guān)鍵詞 規劃器中看到的“競爭”指標與 SEO 無(wú)關(guān)。它指的是有多少廣告商愿意為那個(gè)關(guān)鍵詞投放付費廣告。所以你不需要關(guān)注它。
  除了 關(guān)鍵詞 規劃器,還有許多免費的 關(guān)鍵詞 研究工具。如果您的預算緊張,使用這些工具也是個(gè)好主意。但是你也會(huì )發(fā)現這些工具有些問(wèn)題。畢竟,這些工具的目的是將您轉化為它們的用戶(hù)。
  如果您想認真對待 關(guān)鍵詞 研究,不妨跳過(guò)免費工具,開(kāi)始使用專(zhuān)業(yè)的 關(guān)鍵詞 研究工具,例如 Ahrefs Keywords Explorer(關(guān)鍵詞分析)。
  讓我們輸入一些種子 關(guān)鍵詞 并查看它生成了多少 關(guān)鍵詞 建議。
  370 萬(wàn)條建議,這僅來(lái)自短語(yǔ)匹配(部分匹配)報告,其他報告也以不同方式提供關(guān)鍵詞建議。
  以下是關(guān)鍵字資源管理器(關(guān)鍵詞分析)中的報告如何匹配 關(guān)鍵詞:
  現在,您可能會(huì )收到大量關(guān)鍵詞建議,但不要擔心,您將在下一節中學(xué)習如何縮小建議范圍。
  暗示。
  Keywords Explorer (關(guān)鍵詞analytics) 還為其他搜索提供大量關(guān)鍵詞建議,其中一些搜索包括 Bing、YouTube、Amazon、百度等。
  4.研究你的利基
  到目前為止我們所討論的一切都足以產(chǎn)生幾乎無(wú)限數量的關(guān)鍵詞建議。但與此同時(shí),該過(guò)程會(huì )讓您“陷入困境”。因為結果將受到 關(guān)鍵詞 種子的限制,這意味著(zhù)您幾乎肯定會(huì )錯過(guò)一些很棒的 關(guān)鍵詞 建議。
  您可以通過(guò)更詳細地研究細分市場(chǎng)來(lái)解決這個(gè)問(wèn)題。從瀏覽行業(yè)論壇和問(wèn)答網(wǎng)站開(kāi)始。這將幫助您找到潛在客戶(hù)遇到的問(wèn)題,這些問(wèn)題未收錄
在 關(guān)鍵詞 工具中。
  例如,這是 /r/coffee subreddit 上的一篇熱門(mén)帖子:
  這個(gè)人問(wèn)的是關(guān)于 Aeropress 咖啡機的問(wèn)題。如果我們將該術(shù)語(yǔ)放入關(guān)鍵字資源管理器(關(guān)鍵詞分析),我們會(huì )發(fā)現它在美國的平均每月搜索量為 61,000 次。
  這樣的主題可能無(wú)法用關(guān)鍵詞研究工具發(fā)現,因為它不收錄
任何種子關(guān)鍵詞。
  以下是該目錄中值得我們關(guān)注的其他一些有趣主題:
  如果您發(fā)現一個(gè)熱門(mén)話(huà)題,您可以為它添加新種子 關(guān)鍵詞 并將其放入關(guān)鍵字資源管理器(關(guān)鍵詞分析)以找到更多建議。例如,如果我們用“aeropress”作為種子 關(guān)鍵詞 并檢查“短語(yǔ)匹配”報告,我們可以看到成千上萬(wàn)的 關(guān)鍵詞 建議。
  除了瀏覽論壇等,您的客戶(hù)也可以成為 關(guān)鍵詞 創(chuàng )意的重要來(lái)源。請記住,這些是您已經(jīng)與之有業(yè)務(wù)往來(lái)的人。您想要的是吸引更多像他們一樣的人訪(fǎng)問(wèn)您的網(wǎng)站。
  以下是從客戶(hù)那里提取主題的幾種方法:
  執行此操作時(shí),請務(wù)必注意它們使用的語(yǔ)句。它通常與您使用的聲明不同。例如,如果您在線(xiàn)銷(xiāo)售咖啡機,您的客戶(hù)可能會(huì )搜索之前對特定咖啡機的比較。
  第 3 章如何分析 關(guān)鍵詞
  
  有很多關(guān)鍵詞建議很好。但是你怎么知道哪個(gè)是最好的呢?畢竟,手工梳理如此多的數據幾乎是不可能的。
  解決方案很簡(jiǎn)單:在創(chuàng )建有關(guān)這些主題的內容之前,使用 SEO 指標和數據縮小范圍并將它們分開(kāi)。
  您可以使用以下五個(gè) 關(guān)鍵詞 指標來(lái)執行此操作。
  知名度
  搜索量告訴您每月 關(guān)鍵詞 搜索的平均次數。例如,在美國每月約有 40,000 次搜索“摩卡壺”。
  這個(gè)值需要注意三點(diǎn):
  是搜索次數,而不是搜索人數。在某些情況下,某人可能會(huì )在一個(gè)月內多次搜索 關(guān)鍵詞,例如“新加坡的天氣”。這些都會(huì )增加搜索量,甚至可能是同一個(gè)人搜索。它不會(huì )告訴您通過(guò)排名會(huì )獲得多少流量。即使您排名第一,關(guān)鍵詞 也很少會(huì )超過(guò)該數字的 30%。如果它超過(guò)了,那么你真的很幸運。這是一年中的月平均值。如果在 12 月有 120,000 次 關(guān)鍵詞 搜索,而在剩余的 11 個(gè)月中沒(méi)有 關(guān)鍵詞 搜索,則每月搜索量為 10,000(120,000/12 個(gè)月)
  在關(guān)鍵字資源管理器(關(guān)鍵詞 分析)的任何報告中,您都會(huì )看到搜索量過(guò)濾器:
  此過(guò)濾器主要用于兩個(gè)方面:
  過(guò)濾掉多余的 關(guān)鍵詞。如果您的站點(diǎn)是新站點(diǎn),您可能不想過(guò)濾每月搜索量超過(guò) 100,000 次的 關(guān)鍵詞,因為它們可能非常有競爭力。專(zhuān)門(mén)針對小批量 關(guān)鍵詞 進(jìn)行過(guò)濾。也許你想找競爭少、流量小的關(guān)鍵詞,這樣你就可以輕松地用短文吸引更多流量。我們稱(chēng)之為長(cháng)尾 關(guān)鍵詞。
  你知道大多數 關(guān)鍵詞 都是長(cháng)尾巴 關(guān)鍵詞 嗎?
  長(cháng)尾 關(guān)鍵詞 指的是搜索量較低的 關(guān)鍵詞。之所以這樣稱(chēng)呼它們,是因為它們位于所謂的“搜索需求曲線(xiàn)”的最末端:
  如您所見(jiàn),在曲線(xiàn)的頂部,我們有少量非常受歡迎的搜索詞,例如:
  這些我們稱(chēng)之為頭詞。
  曲線(xiàn)的尾端由數億個(gè)搜索量非常低的關(guān)鍵詞組成,例如:
  如果您想了解更多關(guān)于處理不同類(lèi)型的長(cháng)尾 關(guān)鍵詞 的信息,請查看我們的完整指南。
  如果您需要查看美國以外國家/地區的搜索量,關(guān)鍵字資源管理器 (關(guān)鍵詞analytics) 中有 171 個(gè)國家/地區可供選擇。您還可以查看全球搜索量(所有國家/地區的搜索總和)。如果您的業(yè)務(wù)是全球性的,以下兩條建議對您很重要:
  你不應該將自己局限于一個(gè)國家。如果您在全球范圍內銷(xiāo)售產(chǎn)品,美國可能只占您市場(chǎng)的一小部分。如果人們正在尋找您在其他地區提供的產(chǎn)品,您需要及時(shí)了解。您應該考慮具有搜索量的國家/地區的“購買(mǎi)力”。也許你看到一個(gè)有前途的 關(guān)鍵詞 每月有 100,000 次搜索,但其中 90% 來(lái)自一個(gè) GDP 較低的國家。在這種情況下,這個(gè) 關(guān)鍵詞 可能不是一個(gè)好的目標,因為搜索者的“購買(mǎi)力”可能很低。
  例如,看看 關(guān)鍵詞 “反向鏈接生成器”。它有 13,000 次全球搜索,但其中超過(guò) 70% 的搜索來(lái)自印度、印度尼西亞、孟加拉國和巴基斯坦等人均 GDP 較低的低收入國家。因此,即使您可能為此 關(guān)鍵詞 獲得很多流量排名,但與 關(guān)鍵詞 相比,該流量的“商業(yè)價(jià)值”可能仍然很低,關(guān)鍵詞 超過(guò) 70% 的搜索來(lái)自美國。
  關(guān)于搜索量要記住的另一件重要事情是它因工具而異。因為每個(gè)工具計算和更新此指標的方式不同。您可以在此處和此處了解搜索量估算的復雜性以及為什么有時(shí) Google 的數字并不真正“準確”。
  注意 關(guān)鍵詞 趨勢
  由于搜索量是每年的月平均值,因此通??梢栽陉P(guān)鍵字資源管理器(關(guān)鍵詞 分析)中查看 關(guān)鍵詞 的趨勢圖。如果 關(guān)鍵詞 是季節性或驟降,則搜索量可能會(huì )發(fā)生變化。
  與圣誕節相關(guān)的搜索詞就是一個(gè)很好的例子。它們都在 12 月達到峰值并在 2 月降至零,但搜索量并未反映出這一點(diǎn)。
  閱讀我們的 Google 趨勢指南,了解有關(guān)研究趨勢 關(guān)鍵詞 的更多有用提示。
  點(diǎn)擊
  很多人可能會(huì )在 Google 上搜索某些內容,但這并不意味著(zhù)他們都會(huì )點(diǎn)擊搜索結果并訪(fǎng)問(wèn)排名靠前的頁(yè)面。這就是關(guān)鍵字資源管理器(關(guān)鍵詞分析)中的點(diǎn)擊指示器派上用場(chǎng)的地方。它告訴您 關(guān)鍵詞 搜索結果的平均每月點(diǎn)擊次數。
  例如,“咖啡中含有多少咖啡因”這個(gè)詞
  盡管每月有 48,000 次搜索,但它只獲得了 8,600 次點(diǎn)擊。
  發(fā)生這種情況是因為谷歌會(huì )直接在搜索結果中顯示問(wèn)題的災難性。人們無(wú)需點(diǎn)擊即可找到所需的信息。
  谷歌將在搜索結果中為越來(lái)越多的搜索詞提供答案。因此,您需要使用 Keywords Explorer 中的 Clicks 過(guò)濾器(關(guān)鍵詞 分析)。您可以使用它來(lái)過(guò)濾掉具有潛在搜索流量的關(guān)鍵詞建議。
  您還應注意,付費廣告可能會(huì )“竊取”大量關(guān)鍵詞點(diǎn)擊次數。例如,“braun coffee maker”的點(diǎn)擊次數中有 32% 轉到了付費廣告,因此 關(guān)鍵詞 可能更適合投放廣告。
  交通潛力
  假設您正在考慮 關(guān)鍵詞 諸如“咖啡的副作用”之類(lèi)的東西。根據 Keywords Explorer 的估計(關(guān)鍵詞 分析),該術(shù)語(yǔ)每月有 1,000 次搜索和 800 次點(diǎn)擊。
  但是,請記住,如果您為這個(gè) 關(guān)鍵詞 排名,您的頁(yè)面也可能為所有相關(guān)的 關(guān)鍵詞 和同義詞排名,例如:
  由于所有這些搜索詞的意思大致相同,因此僅根據一個(gè)搜索詞來(lái)估計您的潛在搜索流量是錯誤的。查看當前排名靠前的頁(yè)面獲得的流量是個(gè)好主意,使用關(guān)鍵字瀏覽器(關(guān)鍵詞分析)很容易做到這一點(diǎn)。
  在這里,我們看到“咖啡的副作用”排名靠前的頁(yè)面估計每月有大約 3,500 次訪(fǎng)問(wèn),并參與了 930 多個(gè) 關(guān)鍵詞 排名:
  像這樣對多個(gè) 關(guān)鍵詞 進(jìn)行排名是正常的。我們研究了 300 萬(wàn)個(gè)搜索詞,排名前 10 的頁(yè)面平均每頁(yè)超過(guò) 1,000 個(gè)其他 關(guān)鍵詞 頁(yè)面。
  所以不要僅根據搜索量(或點(diǎn)擊量)來(lái)判斷 關(guān)鍵詞。查看頂部結果以估計該主題的總搜索流量潛力。在大多數情況下,關(guān)鍵詞 的搜索量確實(shí)與該主題的整體“流量潛力”相關(guān)。但是注意這個(gè)細節將幫助您確定 關(guān)鍵詞 的優(yōu)先級并找到您的競爭對手忽略的 關(guān)鍵詞 機會(huì )。
  關(guān)鍵詞難度
  SEO 專(zhuān)業(yè)人員經(jīng)常手動(dòng)測量 關(guān)鍵詞 排名難度。也就是說(shuō),通過(guò)查看其目標 關(guān)鍵詞 的排名靠前的頁(yè)面。他們考慮了許多不同的因素來(lái)判斷排名的難易程度:
  反向鏈接的數量和質(zhì)量;域名評級;內容長(cháng)度、相關(guān)性、及時(shí)性;目標 關(guān)鍵詞,同義詞的使用;搜索意圖;牌; 等等
  這個(gè)過(guò)程因人而異,因為對于究竟什么是重要的,什么是不重要的,這里沒(méi)有達成共識。一個(gè)人可能會(huì )爭辯說(shuō)修復錯誤很重要,而另一個(gè)人可能會(huì )爭辯說(shuō)依賴(lài)關(guān)系起著(zhù)更大的作用。關(guān)鍵詞 研究工具的創(chuàng )建者都在努力將 關(guān)鍵詞 排名難度設置為客觀(guān)可靠的分數,因為缺乏共識。
  在與許多專(zhuān)業(yè) SEO 討論 關(guān)鍵詞 難度分數應該考慮的因素后,我們意識到每個(gè)人都至少同意一件事:反向鏈接對排名至關(guān)重要。所以最后,我們決定根據鏈接到前 10 個(gè)頁(yè)面的唯一站點(diǎn)的數量來(lái)計算關(guān)鍵字難度 (關(guān)鍵詞難度) 分數。
  正如您在上圖中所見(jiàn),KD 分數與排名前十的搜索結果中的網(wǎng)站獲得的鏈接域數量相關(guān)。
  暗示。
  請注意,這是“前 10 名”參考。Ahrefs 的 KD 分數并不能說(shuō)明特定 關(guān)鍵詞 #1 排名的絕對數字。它只是為您提供進(jìn)入前 10 名的建議。
  了解 KD 的工作原理后,許多人通過(guò)將過(guò)濾器設置為 0 到 30 來(lái)僅關(guān)注低難度詞。他們沒(méi)有涵蓋站點(diǎn)上的高 KD 關(guān)鍵詞,這是一個(gè)很大的錯誤,原因有二:
  你應該盡早放置高 KD 關(guān)鍵詞。由于您將進(jìn)行大量鏈接建設,因此創(chuàng )建您的頁(yè)面并盡快開(kāi)始推廣它是有意義的。拖延的時(shí)間越長(cháng),你給競爭對手的領(lǐng)先優(yōu)勢就越大,將來(lái)更難超越他們。您應該將高 KD 關(guān)鍵詞 視為獲取鏈接的機會(huì )。排名靠前的頁(yè)面有很多反向鏈接的事實(shí)表明這些是“值得鏈接”的主題。換句話(huà)說(shuō),如果您確保精心設計該主題,它可能會(huì )吸引很多反向鏈接。
  重點(diǎn)是:KD 不會(huì )阻止您針對特定的 關(guān)鍵詞。它可以幫助您了解如何對給定主題進(jìn)行排名以及該主題的“鏈接價(jià)值”。
  在評估之前,您應該始終手動(dòng)評估 關(guān)鍵詞,而不是僅僅依靠工具的關(guān)鍵字難度 (關(guān)鍵詞difficulty) 分數來(lái)做出最終決定。沒(méi)有 關(guān)鍵詞 工具可以將 Google 排名算法的復雜性提煉為一個(gè)數字。所以你需要時(shí)刻注意一些工具的提示。
  如果您想了解有關(guān)關(guān)鍵字難度(關(guān)鍵詞難度)的更多信息,請查看我們的關(guān)鍵字難度(關(guān)鍵詞難度)指南。
  每次點(diǎn)擊費用 (CPC)
  每次點(diǎn)擊費用 (CPC) 顯示廣告商愿意為每次 關(guān)鍵詞 點(diǎn)擊他們的廣告支付多少錢(qián)。對于廣告商來(lái)說(shuō),它比 SEO 更像是一個(gè)指標。但它間接地衡量了 關(guān)鍵詞 對我們的價(jià)值。
  例如,關(guān)鍵詞“office coffee”的 CPC 相對較高,為 12 美元。那是因為大多數搜索者都希望為辦公室購買(mǎi)一臺咖啡機,這可能要花費數百或數千美元。相反,“how to make good espresso”的點(diǎn)擊價(jià)格非常低,因為大多數搜索者都不愿意買(mǎi)東西。他們正在尋找有關(guān)如何沖泡濃縮咖啡的信息。
  一件重要的事情是 CPC 比搜索量更不穩定。雖然大多數 關(guān)鍵詞 的搜索需求每個(gè)月都大致保持不變,但他們的 CPC 會(huì )隨著(zhù)時(shí)間的推移而變化。這意味著(zhù)你在第三方關(guān)鍵詞工具中看到的CPC值是特定時(shí)間的快照。如果您需要實(shí)時(shí)數據,則必須使用 AdWords。
  第 4 章 如何分組 關(guān)鍵詞
  對于列表中的每個(gè) 關(guān)鍵詞,您都需要有正確的頁(yè)面和內容。知道如何做到這一點(diǎn)是 關(guān)鍵詞 研究過(guò)程的核心步驟。幸運的是,您可以通過(guò)兩個(gè)簡(jiǎn)單的步驟完成此操作:
  定位父主題 定位搜索意圖 1. 定位父主題
  假設您的列表收錄
以下 關(guān)鍵詞:
  您可能想知道,您應該為每個(gè) 關(guān)鍵詞 構建不同的頁(yè)面還是將它們全部放在一個(gè)頁(yè)面上?
  答案在很大程度上取決于谷歌如何看待這些 關(guān)鍵詞。它是否將它們視為同一主題的一部分(例如如何制作生咖啡)?還是將它們都視為單獨的主題?你可以通過(guò)查看谷歌的搜索結果來(lái)了解這一點(diǎn)。
  
  例如,我們在“如何制作生咖啡”和“什么是生咖啡”中看到一些相同的結果頁(yè)面。
  這似乎表明 Google 認為 關(guān)鍵詞 是同一個(gè)線(xiàn)程的一部分。
  我們還看到,這兩個(gè)搜索的大部分結果都是關(guān)于制作奶油咖啡的文章。這告訴我們“hat is whipped coffee”是如何制作奶油咖啡主題的一個(gè)副主題。
  因此,將這兩個(gè) 關(guān)鍵詞 放在一個(gè)頁(yè)面上比創(chuàng )建兩個(gè)單獨的頁(yè)面更有意義。
  然而,如果我們看一下“不加糖的鮮奶咖啡”,我們會(huì )發(fā)現相反的情況:
  結果證明,幾乎所有這些都是完全無(wú)糖、健康的生咖啡,而不是普通的生咖啡。這告訴我們“不加糖的攪打咖啡”不是制作奶油咖啡的副題(盡管不加糖的奶油咖啡實(shí)際上仍然是奶油咖啡)
  這種方法的問(wèn)題是它主要是手動(dòng)的并且速度慢,所以如果你有很多 關(guān)鍵詞 需要分析,可能需要一些時(shí)間。
  在關(guān)鍵字資源管理器(關(guān)鍵詞 分析)中,我們解決這個(gè)問(wèn)題的方法是為每個(gè) 關(guān)鍵詞 顯示一個(gè)“父主題”。它告訴您這些子主題是否可以收錄
在父主題中。
  為了確定“父主題”,我們分析了每個(gè) 關(guān)鍵詞 排名第一的頁(yè)面,并找到向該頁(yè)面發(fā)送最多流量的 關(guān)鍵詞。
  讓我們把之前的關(guān)鍵詞放到Keywords Explorer(關(guān)鍵詞分析)中,查看它的“parent topic”:
  我們在這里看到的內容反映了我們在搜索結果中看到的內容。我們的大多數 關(guān)鍵詞 都屬于同一主題。唯一的例外是“不加糖的攪打咖啡”,因此這需要一個(gè)單獨的頁(yè)面。
  然而,我們的父主題的功能并不是絕對完美的。在關(guān)鍵詞分組方面,沒(méi)辦法每次都給你最準確的建議(這一步在SEO中也叫“關(guān)鍵詞聚合”),畢竟谷歌搜索結果不是固定的.
  例如,在發(fā)布本指南后不久,當我在 關(guān)鍵詞 報告中查看上述 關(guān)鍵詞 的父主題時(shí),我得到了不同的結果:
  在這里你最好使用關(guān)鍵字資源管理器中的“流量份額&gt;按頁(yè)面”報告(關(guān)鍵詞分析)。通過(guò)這種方式,您可以很容易地找出同一頁(yè)面是否參與了這些 關(guān)鍵詞 排名。
  2. 目標搜索意圖
  假設您的列表中有以下 關(guān)鍵詞:
  如果你通過(guò)博客經(jīng)營(yíng)在線(xiàn)商店,你需要知道你的博客和你的產(chǎn)品針對的是什么詞。
  對于某些 關(guān)鍵詞 來(lái)說(shuō),這是顯而易見(jiàn)的。您不會(huì )為“如何沖泡冷萃咖啡”創(chuàng )建產(chǎn)品頁(yè)面,因為那沒(méi)有意義。搜索者想知道如何制作冷萃咖啡,而不是購買(mǎi)沖泡設備。
  但是 關(guān)鍵詞 像“手動(dòng)毛刺咖啡研磨機”呢?您使用的是博客文章還是顯示您銷(xiāo)售的研磨機的產(chǎn)品列表頁(yè)面?
  鑒于您的目標可能是銷(xiāo)售更多咖啡研磨機,您的直覺(jué)很可能會(huì )創(chuàng )建一個(gè)類(lèi)別頁(yè)面,其中收錄
您要銷(xiāo)售的所有咖啡研磨機。其實(shí)這是錯誤的舉動(dòng),因為這種內容不符合搜索者想看到的,也就是搜索意圖。
  我們怎么知道?如果您在 Google 中查看此 關(guān)鍵詞 的首頁(yè),它們都是關(guān)于最好的咖啡研磨機的博客文章。
  Google 比任何人都更了解用戶(hù)意圖,因此排名靠前的 關(guān)鍵詞 結果通常意味著(zhù)它們更符合用戶(hù)意圖。如果你想獲得最高的排名機會(huì ),你應該創(chuàng )建與排名靠前的頁(yè)面相同類(lèi)型的內容。
  您可以在關(guān)鍵字資源管理器(關(guān)鍵詞 分析)中查看排名靠前的結果,只需單擊“SERP”下拉按鈕即可。
  從這里,您可以分析我們所說(shuō)的搜索意圖 3C,以了解如何最好地定位 關(guān)鍵詞:
  內容類(lèi)型(content type) 內容格式(content format) 內容角度(content angle) 1.內容類(lèi)型(content type)
  內容類(lèi)型通常屬于以下五個(gè)類(lèi)別之一:博客、產(chǎn)品、類(lèi)別、登錄頁(yè)面或視頻。
  2. 內容格式
  內容格式主要適用于“信息”內容。典型的例子是操作指南、清單、新聞文章、評論等。
  3.內容角度
  內容角度是內容的主要賣(mài)點(diǎn)。例如,搜索“如何制作拿鐵”的任何人似乎都想知道如何在沒(méi)有機器或任何特殊設備的情況下制作。
  您只需要知道將您的內容與搜索者的期望保持一致,但您不必效仿或將搜索者困在期望泡沫中。如果你確信你可以用不同的內容類(lèi)型、格式和角度來(lái)吸引搜索者的注意力,那就試試吧。
  第 5 章如何確定 關(guān)鍵詞 優(yōu)先級
  關(guān)鍵詞確定優(yōu)先級并不是關(guān)鍵詞研究過(guò)程的最后一步。相反,這是在您準備好做任何其他事情之前需要完成的事情。當您搜索、分析、分組 關(guān)鍵詞 時(shí),問(wèn)問(wèn)自己:
  最后一點(diǎn)尤為重要。雖然搜索量、流量潛力、關(guān)鍵詞 難度和搜索意圖都是重要的考慮因素,但您還需要考慮哪些 關(guān)鍵詞 量對您的業(yè)務(wù)有價(jià)值。.
  如何衡量關(guān)鍵詞的“商業(yè)潛力”
  許多內容營(yíng)銷(xiāo)人員和 SEO 通過(guò)將 關(guān)鍵詞 映射到用戶(hù)購買(mǎi)渠道(人們在購買(mǎi)前經(jīng)歷的過(guò)程)來(lái)判斷 關(guān)鍵詞 的“價(jià)值”。傳統觀(guān)點(diǎn)認為,渠道越高,您購買(mǎi)的可能性就越小。
  怎么做?最流行的方法是將 關(guān)鍵詞 提案分為三類(lèi):TOFU、MOFU、BOFU。
  以下是 Ahrefs 的一些 TOFU、MOFU、BOFU關(guān)鍵詞 示例:
  一般來(lái)說(shuō),TOFU關(guān)鍵詞 具有最高的點(diǎn)擊潛力,但訪(fǎng)問(wèn)者還不想購買(mǎi)任何東西。而 MOFU 和 BOFU 關(guān)鍵詞 會(huì )給你帶來(lái)更少的流量,但這些人更接近成為你的客戶(hù)。
  在 Ahrefs,我們認為這種方法是有限的并且可能會(huì )產(chǎn)生誤導。
  以下是三個(gè)原因:
  首先,它沒(méi)有考慮到你實(shí)際上可以引導一個(gè)沒(méi)有“腿部意識”的用戶(hù)在一個(gè)頁(yè)面上完成從理解到購買(mǎi)的整個(gè)階段。事實(shí)上,這就是登陸頁(yè)面上的許多內容編輯器所做的。他們不會(huì )根據 TOFU / MOFU / BOFU 制作廣告頁(yè)面。在大多數情況下,他們會(huì )制作一個(gè)廣告登陸頁(yè)面,讓用戶(hù)自發(fā)地產(chǎn)生問(wèn)題,了解問(wèn)題,并提供問(wèn)題的解決方案。
  其次,要確認每個(gè)關(guān)鍵詞到底是TOFU、MOFU還是BOFU其實(shí)很難。因為很多話(huà)不是那么清楚。例如,對于 Ahrefs,“鏈接構建工具”可能是我們的 MOFU 或 BOFU 關(guān)鍵詞,這完全取決于您如何看待它。
  第三,一些營(yíng)銷(xiāo)人員將 TOFU 的范圍擴大到這樣一種程度,以至于他們最終涵蓋了很多不相關(guān)的話(huà)題。例如 Hubspot:
  鑒于他們的業(yè)務(wù)是銷(xiāo)售營(yíng)銷(xiāo)軟件,您如何看待他們的流量來(lái)源內容:
  為了解決這個(gè)問(wèn)題,我們創(chuàng )建了一個(gè)簡(jiǎn)單而客觀(guān)的“業(yè)務(wù)評分”來(lái)確定 關(guān)鍵詞 的價(jià)值。這主要基于我們將產(chǎn)品放置在內容中的能力。
  以下是我們用于博客主題的評分標準:
  分數定義示例
  3個(gè)
  我們的產(chǎn)品是解決這個(gè)問(wèn)題的不可替代的解決方案。
  “如何在 Google 中獲得更好的排名”——因為沒(méi)有領(lǐng)導像 Ahrefs 這樣的工具集是很難做到的。
  2個(gè)
  我們的產(chǎn)品有很大幫助,但不是解決問(wèn)題所必需的。
  “SEO 技巧”——因為有些技巧適用于我們的產(chǎn)品,有些則不然。
  1個(gè)
  我們的產(chǎn)品只能簡(jiǎn)要提及。
  “營(yíng)銷(xiāo)理念”- 因為 SEO 是眾多營(yíng)銷(xiāo)理念中的一種,但 Ahrefs 可以提供幫助。
  絕對沒(méi)有辦法提及我們的產(chǎn)品。
  《社交媒體營(yíng)銷(xiāo)》——因為在這些方面,Ahrefs 沒(méi)有辦法提供幫助。
  通過(guò)將此分數與主題的估計搜索流量潛力配對,我們可以很好地了解哪些主題對我們的業(yè)務(wù)最有價(jià)值。您會(huì )注意到我們的博客上幾乎沒(méi)有任何商業(yè)評級為零的文章(無(wú)法接觸我們的產(chǎn)品)。
  最后,在完成此過(guò)程時(shí),請記住,您不僅在尋找“易于排名”的 關(guān)鍵詞,而且還在尋找具有最高投資回報率的 關(guān)鍵詞。
  許多網(wǎng)站所有者錯誤地只關(guān)注簡(jiǎn)單、低難度的 關(guān)鍵詞。你應該始終有短期、中期和長(cháng)期的排名目標。如果你只關(guān)注短期目標,你永遠不會(huì )參加最賺錢(qián)的關(guān)鍵詞排名。如果只著(zhù)眼于中長(cháng)期目標,獲取流量需要很長(cháng)時(shí)間。
  可以這樣想:采摘較低的果實(shí)很容易,但通常樹(shù)頂的果實(shí)會(huì )多汁。但這是否意味著(zhù)不值得采摘低價(jià)水果?不,您仍然應該選擇它們。但是,您還應該提前計劃并準備好您的梯子,以便稍后采摘更高的水果。
  總結
  以上應該足以幫助您了解關(guān)鍵詞研究的基本概念并開(kāi)始規劃您的內容策略。
  如果您想了解更多信息并深入研究 關(guān)鍵詞 研究,請查看散布在本指南中的推薦閱讀鏈接。這些將使您更深入地了解各種指標和工具以及如何使用它們。

解決方案:面向容器日志的技術(shù)實(shí)踐

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 70 次瀏覽 ? 2022-11-30 09:48 ? 來(lái)自相關(guān)話(huà)題

  解決方案:面向容器日志的技術(shù)實(shí)踐
  摘要:本文以Docker為例,結合阿里云日志服務(wù)團隊在日志領(lǐng)域多年積累的豐富經(jīng)驗,介紹容器日志處理的通用方法和最佳實(shí)踐。
  背景
  自2013年dotCloud開(kāi)源Docker以來(lái),以Docker為代表的容器產(chǎn)品以其隔離性好、可移植性高、資源占用低、啟動(dòng)快等特點(diǎn)迅速風(fēng)靡全球。下圖顯示了自 2013 年以來(lái) Docker 和 OpenStack 的搜索趨勢。
  容器技術(shù)在部署和交付方面給人們帶來(lái)了很多便利,但也給日志處理領(lǐng)域帶來(lái)了很多新的挑戰,包括:
  如果日志保存在容器內,當容器被銷(xiāo)毀時(shí),日志將被刪除。由于容器的生命周期比虛擬機短很多,創(chuàng )建和銷(xiāo)毀是很正常的,所以需要一種持久化保存日志的方法;
  進(jìn)入容器時(shí)代后,需要管理的目標對象遠多于虛擬機或物理機,登錄目標容器排查問(wèn)題會(huì )變得更加復雜和不經(jīng)濟;
  容器的出現讓微服務(wù)更容易落地。它引入了更多組件,同時(shí)為我們的系統帶來(lái)了松耦合。因此,我們需要一種技術(shù),既能幫助我們全局了解系統的運行情況,又能快速定位問(wèn)題點(diǎn),還原上下文。
  日志處理流程
  本文以Docker為例,依托阿里云日志服務(wù)團隊在日志領(lǐng)域多年積累的豐富經(jīng)驗,介紹容器日志處理的通用方法和最佳實(shí)踐,包括:
  實(shí)時(shí)采集
容器日志;
  查詢(xún)分析和可視化;
  日志上下文分析;
  LiveTail - 云上的 tail -f。
  實(shí)時(shí)采集
容器日志
  容器日志分類(lèi)
  要采集
日志,您必須首先找到日志所在的位置。這里我們以Nginx和Tomcat這兩個(gè)常用的容器為例進(jìn)行分析。
  Nginx產(chǎn)生的日志包括access.log和error.log。根據 nginx Dockerfile,access.log 和 error.log 分別重定向到 STDOUT 和 STDERR。
  Tomcat會(huì )產(chǎn)生很多日志,包括catalina.log、access.log、manager.log、host-manager.log等。Tomcat Dockerfile不會(huì )將這些日志重定向到標準輸出,它們存在于容器內部。
  容器產(chǎn)生的大部分日志都可以歸結為以上幾種情況。在這里,我們不妨將容器日志分為以下兩類(lèi)。
  標準輸出
  使用日志記錄驅動(dòng)程序
  容器的標準輸出將由日志驅動(dòng)統一處理。如下圖所示,不同的日志記錄驅動(dòng)程序會(huì )將標準輸出寫(xiě)入不同的目的地。
  通過(guò)logging driver采集
容器的標準輸出的好處是使用方便,例如:
  缺點(diǎn)
  使用除 json-file 和 journald 之外的其他日志記錄驅動(dòng)程序將使 docker logs API 無(wú)法使用。例如,當你在宿主機上使用portainer管理容器,使用除上述兩種之外的日志驅動(dòng)時(shí),你會(huì )發(fā)現無(wú)法通過(guò)UI界面觀(guān)察到容器的標準輸出。
  使用 docker 日志 API
  對于那些使用默認日志驅動(dòng)的容器,我們可以通過(guò)向 docker 守護進(jìn)程發(fā)送 docker logs 命令來(lái)獲取容器的標準輸出。使用這種方式采集
日志的工具有logspout、sematext-agent-docker等。以下示例中的命令表示獲取容器自2018-01-01T15:00:00以來(lái)的最新5條日志。
  缺點(diǎn)
  當日志量較大時(shí),這種方式會(huì )給docker daemon帶來(lái)很大的壓力,導致docker daemon無(wú)法及時(shí)響應創(chuàng )建容器、銷(xiāo)毀容器等命令。
  采集
json-file 文件
  默認的logging driver會(huì )將日志以json格式寫(xiě)入host文件,文件路徑為/var/lib/docker/containers//-json.log。這樣就可以通過(guò)直接采集宿主機文件來(lái)達到采集容器標準輸出的目的。
  推薦這個(gè)方案,因為既不會(huì )導致docker logs API不可用,也不會(huì )影響docker daemon,而且現在很多工具都原生支持采集
host文件,比如filebeat、logtail等。
  文本日志
  掛載主機目錄
  在容器中采集
文本日志,最簡(jiǎn)單的方式是在啟動(dòng)容器時(shí),通過(guò)bind mount或volumes將宿主機目錄掛載到容器日志所在的目錄,如下圖所示。
  
  tomcat容器的access log,使用命令docker run -it -v /tmp/app/vol1:/usr/local/tomcat/logs tomcat掛載host目錄/tmp/app/vol1到access log in容器在/usr/local/tomcat/logs目錄下,通過(guò)采集
host目錄/tmp/app/vol1下的日志來(lái)達到采集
tomcat訪(fǎng)問(wèn)日志的目的。
  計算容器rootfs掛載點(diǎn)
  使用掛載宿主機目錄的方式采集
日志會(huì )對應用程序造成侵入,因為它要求容器在啟動(dòng)時(shí)收錄
掛載命令。如果捕獲過(guò)程可以對用戶(hù)透明,那就太好了。其實(shí)這可以通過(guò)計算容器的rootfs掛載點(diǎn)來(lái)實(shí)現。
  容器rootfs掛載點(diǎn)離不開(kāi)的一個(gè)概念就是存儲驅動(dòng)。在實(shí)際使用中,用戶(hù)往往會(huì )根據Linux版本、文件系統類(lèi)型、容器讀寫(xiě)情況等因素選擇合適的存儲驅動(dòng)。在不同的存儲驅動(dòng)下,容器的rootfs掛載點(diǎn)遵循一定的規則,所以我們可以根據存儲驅動(dòng)的類(lèi)型推斷出容器的rootfs掛載點(diǎn),然后采集
容器的內部日志。下表是一些存儲驅動(dòng)的rootfs掛載點(diǎn)及其計算方法。
  Logtail解決方案
  日志服務(wù)團隊在充分對比各種容器日志采集
方式,綜合梳理用戶(hù)的反饋和訴求后,推出了容器日志一站式解決方案。
  特征
  logtail解決方案包括以下功能:
  支持采集
主機上容器的主機文件和日志(包括標準輸出和日志文件);
  支持容器自動(dòng)發(fā)現,即在你配置好采集目標后,只要有符合條件的容器被創(chuàng )建,就會(huì )自動(dòng)采集該容器上的目標日志;
  支持通過(guò)docker標簽和環(huán)境變量過(guò)濾指定容器,支持白名單和黑名單機制;
  自動(dòng)標記采集到的數據,即在采集到的日志中自動(dòng)添加容器名稱(chēng)、容器IP、文件路徑等標識數據來(lái)源的信息;
  支持采集
K8s容器日志。
  核心優(yōu)勢
  通過(guò)檢查點(diǎn)機制和額外監控進(jìn)程的部署確保至少一次語(yǔ)義;
  經(jīng)過(guò)多次雙十一、雙十二的測試,以及阿里集團內部百萬(wàn)級別的部署規模,穩定性和性能都非常有保障。
  k8s容器日志采集
  與K8s生態(tài)深度融合,能夠便捷采集K8s容器日志是日志服務(wù)l(shuí)ogtail方案的另一大特色。
  采集配置管理:
  支持通過(guò)WEB控制臺進(jìn)行采集和配置管理;
  支持通過(guò)CRD(CustomResourceDefinition)進(jìn)行采集和配置管理(這種方式更容易與K8s的部署發(fā)布流程結合)。
  采集方式:
  支持通過(guò)DaemonSet方式采集
K8s容器日志,即在每個(gè)節點(diǎn)運行一個(gè)采集
客戶(hù)端logtail,適用于單功能集群;
  支持通過(guò)Sidecar方式采集
K8s容器日志,即每個(gè)Pod以容器的形式運行一個(gè)采集
客戶(hù)端logtail,適用于大型、混合、PaaS集群。
  關(guān)于Logtail方案的詳細描述,請參考文章整體提升,阿里云Docker/Kubernetes(K8S)日志方案及選型對比。
  查詢(xún)分析和可視化
  日志采集完成后,下一步就是對這些日志進(jìn)行查詢(xún)、分析和可視化。這里以Tomcat訪(fǎng)問(wèn)日志為例,介紹日志服務(wù)提供的強大的查詢(xún)、分析、可視化功能。
  快速搜索
  采集
容器日志時(shí)會(huì )攜帶容器名稱(chēng)、容器IP、目標文件路徑等信息,查詢(xún)時(shí)可以利用這些信息快速定位目標容器和文件。關(guān)于查詢(xún)功能的詳細介紹,請參考文檔查詢(xún)語(yǔ)法。
  實(shí)時(shí)分析
  日志服務(wù)實(shí)時(shí)分析功能兼容SQL語(yǔ)法,提供200多種聚合函數。如果您有使用SQL的經(jīng)驗,您可以輕松編寫(xiě)出符合業(yè)務(wù)需求的分析語(yǔ)句。例如:
  統計訪(fǎng)問(wèn)次數最多的前 10 個(gè) URI。
  統計當前15分鐘內網(wǎng)絡(luò )流量相對于前一小時(shí)的變化情況。
  該語(yǔ)句使用 YoY 函數計算不同時(shí)間段的網(wǎng)絡(luò )流量。
  可視化
  為了讓數據更加生動(dòng),您可以使用日志服務(wù)內置的各種圖表將SQL計算結果可視化,并將圖表組合成儀表盤(pán)。
  下圖是一個(gè)基于Tomcat訪(fǎng)問(wèn)日志的dashboard,展示了錯誤請求率、網(wǎng)絡(luò )流量、狀態(tài)碼隨時(shí)間變化的趨勢等信息。儀表板顯示多個(gè) Tomcat 容器的聚合數據。您可以使用dashboard filter功能,通過(guò)指定容器名稱(chēng)查看單個(gè)容器的數據。
  
  日志上下文分析
  查詢(xún)分析、儀表盤(pán)等功能可以幫助我們把握整體信息,了解系統的整體運行情況,但定位具體問(wèn)題往往需要借助上下文信息。
  上下文定義
  上下文是指圍繞問(wèn)題的線(xiàn)索,例如日志中錯誤的上下文。上下文由兩個(gè)元素組成:
  下表顯示了不同數據源的最小粒度。
  上下文查詢(xún)的挑戰
  在日志集中存儲的場(chǎng)景下,采集器和服務(wù)器都很難保證日志的原創(chuàng )
順序:
  在客戶(hù)端層面,一臺主機上運行著(zhù)多個(gè)容器,每個(gè)容器都有多個(gè)目標文件需要采集
。日志采集軟件需要利用機器的多個(gè)CPU核對日志進(jìn)行解析和預處理,通過(guò)多線(xiàn)程并發(fā)或單線(xiàn)程異步回調處理網(wǎng)絡(luò )發(fā)送的慢IO問(wèn)題。這可以防止日志數據按照在機器上生成事件的順序到達服務(wù)器。
  在服務(wù)器層面,由于橫向擴展的多機負載均衡架構,同一臺客戶(hù)端機器的日志會(huì )分散在多個(gè)存儲節點(diǎn)上。很難根據分布式日志恢復原來(lái)的順序。
  原則
  日志服務(wù)通過(guò)在每條日志中附加一些附加信息和服務(wù)端的關(guān)鍵詞查詢(xún)能力,巧妙地解決了上述問(wèn)題。原理如下圖所示。
  采集日志時(shí),會(huì )自動(dòng)添加用于標識日志來(lái)源的信息(即上面提到的最小區分粒度),作為source_id。對于容器場(chǎng)景,該信息包括容器名稱(chēng)、文件路徑等;
  日志服務(wù)的各種采集客戶(hù)端一般會(huì )選擇批量上傳日志,幾條日志組成一個(gè)數據包??蛻?hù)端會(huì )在這些數據包中寫(xiě)入一個(gè)單調遞增的package_id,包中的每條日志在包內都有一個(gè)偏移量;
  服務(wù)器會(huì )將source_id、package_id和offset組合成一個(gè)字段,并為其建立索引。這樣即使各種日志混雜存放在服務(wù)器端,我們也可以根據source_id、package_id、offset準確定位到一條日志。
  了解更多上下文分析功能,請參考文章上下文查詢(xún),分布式系統日志上下文查詢(xún)功能。
  LiveTail - 云端尾巴 -f
  除了查看日志的上下文信息,有時(shí)我們還希望能夠持續觀(guān)察容器的輸出。
  傳統方式
  傳統模式下實(shí)時(shí)監控容器日志的方法如下表所示。
  痛點(diǎn)
  傳統方式監控容器日志存在以下痛點(diǎn):
  當容器較多時(shí),定位目標容器費時(shí)費力;
  不同類(lèi)型的容器日志需要不同的觀(guān)察方式,增加了使用成本;
  關(guān)鍵信息查詢(xún)展示不夠簡(jiǎn)潔直觀(guān)。
  功能與原理
  為了解決這些問(wèn)題,日志服務(wù)推出了LiveTail功能。與傳統模式相比,具有以下優(yōu)點(diǎn):
  可根據單條日志或日志服務(wù)的查詢(xún)分析功能快速定位目標容器;
  不進(jìn)入目標容器,統一觀(guān)察不同類(lèi)型的容器日志;
  支持關(guān)鍵詞過(guò)濾;
  支持設置鍵列。
  在實(shí)現上,LiveTail主要是利用上一章提到的上下文查詢(xún)原理,快速定位到目標容器和目標文件。然后客戶(hù)端周期性的向服務(wù)端發(fā)送請求拉取最新的數據。
  視頻樣本
  您也可以觀(guān)看視頻進(jìn)一步了解容器日志的采集、查詢(xún)、分析和可視化。
  參考
  結尾
  更令人興奮的
  解決方案:網(wǎng)站首頁(yè)設計需要注意的問(wèn)題
  首頁(yè)是我們網(wǎng)站中最重要的頁(yè)面,所以有才華的設計師花最多的時(shí)間和精力來(lái)思考首頁(yè)的設計。那么在設計主頁(yè)時(shí)主要要注意哪些事項呢?
  頁(yè)面內容要新穎
  突出一個(gè)“新”字,這個(gè)原則要求我們在設計網(wǎng)站內容時(shí)不能抄襲別人的內容,而是要結合自己的實(shí)際情況,打造一個(gè)獨一無(wú)二的網(wǎng)站。所以,在設計網(wǎng)頁(yè)的時(shí)候,一定要在選材上下功夫。選材盡量“少”“精”,要突出“新”
  網(wǎng)站 關(guān)鍵詞
  
  關(guān)鍵詞是用戶(hù)在尋找我們想要的信息時(shí)在搜索引擎上輸入的字符,所以關(guān)鍵詞對于網(wǎng)站優(yōu)化來(lái)說(shuō)是極其重要的,它幾乎決定了網(wǎng)站的排名和流量,而關(guān)鍵詞可以在首頁(yè)設置,首頁(yè)的關(guān)鍵詞是優(yōu)化網(wǎng)站最重要的方式。關(guān)鍵詞的設計形式主要是關(guān)鍵詞加長(cháng)尾關(guān)鍵詞,而關(guān)鍵詞的布局形式首頁(yè)采用一級關(guān)鍵詞,內頁(yè)采用二級關(guān)鍵詞。
  網(wǎng)站布局
  網(wǎng)站的布局也是設計首頁(yè)時(shí)需要注意的,因為首頁(yè)的布局風(fēng)格與用戶(hù)的瀏覽習慣有關(guān)。一種排版模式。但現在用戶(hù)普遍能夠接受新穎的排版方式。不同的設計布局可能會(huì )給用戶(hù)帶來(lái)亮點(diǎn),增加用戶(hù)瀏覽網(wǎng)站的時(shí)間。
  使用較少的特殊字體
  
  盡管您可以在 HTML 中使用特殊字體,但無(wú)法預測訪(fǎng)問(wèn)者將在他們的計算機上看到什么。在您的計算機上看起來(lái)不錯的頁(yè)面在不同的平臺上可能看起來(lái)很糟糕。一些網(wǎng)頁(yè)設計師喜歡使用定義屬性,這允許您使用特殊字體,但仍然需要一些解決方法,以防您選擇的字體不顯示在訪(fǎng)問(wèn)者的計算機上。
  聯(lián)亞網(wǎng)絡(luò )科技有限公司是一家以戰略、創(chuàng )意、設計、技術(shù)和服務(wù)為核心的互聯(lián)網(wǎng)公司。核心技術(shù)自主研發(fā),擁有眾多網(wǎng)頁(yè)設計行業(yè)知名設計師,經(jīng)過(guò)12年的發(fā)展,與數百家上市公司的成功合作經(jīng)驗,數萬(wàn)家企業(yè)放心選擇的服務(wù)商,讓我們成長(cháng)為一家互聯(lián)網(wǎng)精英公司——一家集策劃思維、設計執行、服務(wù)意識為一體的深圳網(wǎng)站建設公司。
  聯(lián)亞產(chǎn)品一定要生產(chǎn)高品質(zhì)的產(chǎn)品,這是我們的核心理念。
  聯(lián)亞愿與客戶(hù)共同成長(cháng),攜手前行。咨詢(xún)熱線(xiàn):0755-82940957 查看全部

  解決方案:面向容器日志的技術(shù)實(shí)踐
  摘要:本文以Docker為例,結合阿里云日志服務(wù)團隊在日志領(lǐng)域多年積累的豐富經(jīng)驗,介紹容器日志處理的通用方法和最佳實(shí)踐。
  背景
  自2013年dotCloud開(kāi)源Docker以來(lái),以Docker為代表的容器產(chǎn)品以其隔離性好、可移植性高、資源占用低、啟動(dòng)快等特點(diǎn)迅速風(fēng)靡全球。下圖顯示了自 2013 年以來(lái) Docker 和 OpenStack 的搜索趨勢。
  容器技術(shù)在部署和交付方面給人們帶來(lái)了很多便利,但也給日志處理領(lǐng)域帶來(lái)了很多新的挑戰,包括:
  如果日志保存在容器內,當容器被銷(xiāo)毀時(shí),日志將被刪除。由于容器的生命周期比虛擬機短很多,創(chuàng )建和銷(xiāo)毀是很正常的,所以需要一種持久化保存日志的方法;
  進(jìn)入容器時(shí)代后,需要管理的目標對象遠多于虛擬機或物理機,登錄目標容器排查問(wèn)題會(huì )變得更加復雜和不經(jīng)濟;
  容器的出現讓微服務(wù)更容易落地。它引入了更多組件,同時(shí)為我們的系統帶來(lái)了松耦合。因此,我們需要一種技術(shù),既能幫助我們全局了解系統的運行情況,又能快速定位問(wèn)題點(diǎn),還原上下文。
  日志處理流程
  本文以Docker為例,依托阿里云日志服務(wù)團隊在日志領(lǐng)域多年積累的豐富經(jīng)驗,介紹容器日志處理的通用方法和最佳實(shí)踐,包括:
  實(shí)時(shí)采集
容器日志;
  查詢(xún)分析和可視化;
  日志上下文分析;
  LiveTail - 云上的 tail -f。
  實(shí)時(shí)采集
容器日志
  容器日志分類(lèi)
  要采集
日志,您必須首先找到日志所在的位置。這里我們以Nginx和Tomcat這兩個(gè)常用的容器為例進(jìn)行分析。
  Nginx產(chǎn)生的日志包括access.log和error.log。根據 nginx Dockerfile,access.log 和 error.log 分別重定向到 STDOUT 和 STDERR。
  Tomcat會(huì )產(chǎn)生很多日志,包括catalina.log、access.log、manager.log、host-manager.log等。Tomcat Dockerfile不會(huì )將這些日志重定向到標準輸出,它們存在于容器內部。
  容器產(chǎn)生的大部分日志都可以歸結為以上幾種情況。在這里,我們不妨將容器日志分為以下兩類(lèi)。
  標準輸出
  使用日志記錄驅動(dòng)程序
  容器的標準輸出將由日志驅動(dòng)統一處理。如下圖所示,不同的日志記錄驅動(dòng)程序會(huì )將標準輸出寫(xiě)入不同的目的地。
  通過(guò)logging driver采集
容器的標準輸出的好處是使用方便,例如:
  缺點(diǎn)
  使用除 json-file 和 journald 之外的其他日志記錄驅動(dòng)程序將使 docker logs API 無(wú)法使用。例如,當你在宿主機上使用portainer管理容器,使用除上述兩種之外的日志驅動(dòng)時(shí),你會(huì )發(fā)現無(wú)法通過(guò)UI界面觀(guān)察到容器的標準輸出。
  使用 docker 日志 API
  對于那些使用默認日志驅動(dòng)的容器,我們可以通過(guò)向 docker 守護進(jìn)程發(fā)送 docker logs 命令來(lái)獲取容器的標準輸出。使用這種方式采集
日志的工具有logspout、sematext-agent-docker等。以下示例中的命令表示獲取容器自2018-01-01T15:00:00以來(lái)的最新5條日志。
  缺點(diǎn)
  當日志量較大時(shí),這種方式會(huì )給docker daemon帶來(lái)很大的壓力,導致docker daemon無(wú)法及時(shí)響應創(chuàng )建容器、銷(xiāo)毀容器等命令。
  采集
json-file 文件
  默認的logging driver會(huì )將日志以json格式寫(xiě)入host文件,文件路徑為/var/lib/docker/containers//-json.log。這樣就可以通過(guò)直接采集宿主機文件來(lái)達到采集容器標準輸出的目的。
  推薦這個(gè)方案,因為既不會(huì )導致docker logs API不可用,也不會(huì )影響docker daemon,而且現在很多工具都原生支持采集
host文件,比如filebeat、logtail等。
  文本日志
  掛載主機目錄
  在容器中采集
文本日志,最簡(jiǎn)單的方式是在啟動(dòng)容器時(shí),通過(guò)bind mount或volumes將宿主機目錄掛載到容器日志所在的目錄,如下圖所示。
  
  tomcat容器的access log,使用命令docker run -it -v /tmp/app/vol1:/usr/local/tomcat/logs tomcat掛載host目錄/tmp/app/vol1到access log in容器在/usr/local/tomcat/logs目錄下,通過(guò)采集
host目錄/tmp/app/vol1下的日志來(lái)達到采集
tomcat訪(fǎng)問(wèn)日志的目的。
  計算容器rootfs掛載點(diǎn)
  使用掛載宿主機目錄的方式采集
日志會(huì )對應用程序造成侵入,因為它要求容器在啟動(dòng)時(shí)收錄
掛載命令。如果捕獲過(guò)程可以對用戶(hù)透明,那就太好了。其實(shí)這可以通過(guò)計算容器的rootfs掛載點(diǎn)來(lái)實(shí)現。
  容器rootfs掛載點(diǎn)離不開(kāi)的一個(gè)概念就是存儲驅動(dòng)。在實(shí)際使用中,用戶(hù)往往會(huì )根據Linux版本、文件系統類(lèi)型、容器讀寫(xiě)情況等因素選擇合適的存儲驅動(dòng)。在不同的存儲驅動(dòng)下,容器的rootfs掛載點(diǎn)遵循一定的規則,所以我們可以根據存儲驅動(dòng)的類(lèi)型推斷出容器的rootfs掛載點(diǎn),然后采集
容器的內部日志。下表是一些存儲驅動(dòng)的rootfs掛載點(diǎn)及其計算方法。
  Logtail解決方案
  日志服務(wù)團隊在充分對比各種容器日志采集
方式,綜合梳理用戶(hù)的反饋和訴求后,推出了容器日志一站式解決方案。
  特征
  logtail解決方案包括以下功能:
  支持采集
主機上容器的主機文件和日志(包括標準輸出和日志文件);
  支持容器自動(dòng)發(fā)現,即在你配置好采集目標后,只要有符合條件的容器被創(chuàng )建,就會(huì )自動(dòng)采集該容器上的目標日志;
  支持通過(guò)docker標簽和環(huán)境變量過(guò)濾指定容器,支持白名單和黑名單機制;
  自動(dòng)標記采集到的數據,即在采集到的日志中自動(dòng)添加容器名稱(chēng)、容器IP、文件路徑等標識數據來(lái)源的信息;
  支持采集
K8s容器日志。
  核心優(yōu)勢
  通過(guò)檢查點(diǎn)機制和額外監控進(jìn)程的部署確保至少一次語(yǔ)義;
  經(jīng)過(guò)多次雙十一、雙十二的測試,以及阿里集團內部百萬(wàn)級別的部署規模,穩定性和性能都非常有保障。
  k8s容器日志采集
  與K8s生態(tài)深度融合,能夠便捷采集K8s容器日志是日志服務(wù)l(shuí)ogtail方案的另一大特色。
  采集配置管理:
  支持通過(guò)WEB控制臺進(jìn)行采集和配置管理;
  支持通過(guò)CRD(CustomResourceDefinition)進(jìn)行采集和配置管理(這種方式更容易與K8s的部署發(fā)布流程結合)。
  采集方式:
  支持通過(guò)DaemonSet方式采集
K8s容器日志,即在每個(gè)節點(diǎn)運行一個(gè)采集
客戶(hù)端logtail,適用于單功能集群;
  支持通過(guò)Sidecar方式采集
K8s容器日志,即每個(gè)Pod以容器的形式運行一個(gè)采集
客戶(hù)端logtail,適用于大型、混合、PaaS集群。
  關(guān)于Logtail方案的詳細描述,請參考文章整體提升,阿里云Docker/Kubernetes(K8S)日志方案及選型對比。
  查詢(xún)分析和可視化
  日志采集完成后,下一步就是對這些日志進(jìn)行查詢(xún)、分析和可視化。這里以Tomcat訪(fǎng)問(wèn)日志為例,介紹日志服務(wù)提供的強大的查詢(xún)、分析、可視化功能。
  快速搜索
  采集
容器日志時(shí)會(huì )攜帶容器名稱(chēng)、容器IP、目標文件路徑等信息,查詢(xún)時(shí)可以利用這些信息快速定位目標容器和文件。關(guān)于查詢(xún)功能的詳細介紹,請參考文檔查詢(xún)語(yǔ)法。
  實(shí)時(shí)分析
  日志服務(wù)實(shí)時(shí)分析功能兼容SQL語(yǔ)法,提供200多種聚合函數。如果您有使用SQL的經(jīng)驗,您可以輕松編寫(xiě)出符合業(yè)務(wù)需求的分析語(yǔ)句。例如:
  統計訪(fǎng)問(wèn)次數最多的前 10 個(gè) URI。
  統計當前15分鐘內網(wǎng)絡(luò )流量相對于前一小時(shí)的變化情況。
  該語(yǔ)句使用 YoY 函數計算不同時(shí)間段的網(wǎng)絡(luò )流量。
  可視化
  為了讓數據更加生動(dòng),您可以使用日志服務(wù)內置的各種圖表將SQL計算結果可視化,并將圖表組合成儀表盤(pán)。
  下圖是一個(gè)基于Tomcat訪(fǎng)問(wèn)日志的dashboard,展示了錯誤請求率、網(wǎng)絡(luò )流量、狀態(tài)碼隨時(shí)間變化的趨勢等信息。儀表板顯示多個(gè) Tomcat 容器的聚合數據。您可以使用dashboard filter功能,通過(guò)指定容器名稱(chēng)查看單個(gè)容器的數據。
  
  日志上下文分析
  查詢(xún)分析、儀表盤(pán)等功能可以幫助我們把握整體信息,了解系統的整體運行情況,但定位具體問(wèn)題往往需要借助上下文信息。
  上下文定義
  上下文是指圍繞問(wèn)題的線(xiàn)索,例如日志中錯誤的上下文。上下文由兩個(gè)元素組成:
  下表顯示了不同數據源的最小粒度。
  上下文查詢(xún)的挑戰
  在日志集中存儲的場(chǎng)景下,采集器和服務(wù)器都很難保證日志的原創(chuàng )
順序:
  在客戶(hù)端層面,一臺主機上運行著(zhù)多個(gè)容器,每個(gè)容器都有多個(gè)目標文件需要采集
。日志采集軟件需要利用機器的多個(gè)CPU核對日志進(jìn)行解析和預處理,通過(guò)多線(xiàn)程并發(fā)或單線(xiàn)程異步回調處理網(wǎng)絡(luò )發(fā)送的慢IO問(wèn)題。這可以防止日志數據按照在機器上生成事件的順序到達服務(wù)器。
  在服務(wù)器層面,由于橫向擴展的多機負載均衡架構,同一臺客戶(hù)端機器的日志會(huì )分散在多個(gè)存儲節點(diǎn)上。很難根據分布式日志恢復原來(lái)的順序。
  原則
  日志服務(wù)通過(guò)在每條日志中附加一些附加信息和服務(wù)端的關(guān)鍵詞查詢(xún)能力,巧妙地解決了上述問(wèn)題。原理如下圖所示。
  采集日志時(shí),會(huì )自動(dòng)添加用于標識日志來(lái)源的信息(即上面提到的最小區分粒度),作為source_id。對于容器場(chǎng)景,該信息包括容器名稱(chēng)、文件路徑等;
  日志服務(wù)的各種采集客戶(hù)端一般會(huì )選擇批量上傳日志,幾條日志組成一個(gè)數據包??蛻?hù)端會(huì )在這些數據包中寫(xiě)入一個(gè)單調遞增的package_id,包中的每條日志在包內都有一個(gè)偏移量;
  服務(wù)器會(huì )將source_id、package_id和offset組合成一個(gè)字段,并為其建立索引。這樣即使各種日志混雜存放在服務(wù)器端,我們也可以根據source_id、package_id、offset準確定位到一條日志。
  了解更多上下文分析功能,請參考文章上下文查詢(xún),分布式系統日志上下文查詢(xún)功能。
  LiveTail - 云端尾巴 -f
  除了查看日志的上下文信息,有時(shí)我們還希望能夠持續觀(guān)察容器的輸出。
  傳統方式
  傳統模式下實(shí)時(shí)監控容器日志的方法如下表所示。
  痛點(diǎn)
  傳統方式監控容器日志存在以下痛點(diǎn):
  當容器較多時(shí),定位目標容器費時(shí)費力;
  不同類(lèi)型的容器日志需要不同的觀(guān)察方式,增加了使用成本;
  關(guān)鍵信息查詢(xún)展示不夠簡(jiǎn)潔直觀(guān)。
  功能與原理
  為了解決這些問(wèn)題,日志服務(wù)推出了LiveTail功能。與傳統模式相比,具有以下優(yōu)點(diǎn):
  可根據單條日志或日志服務(wù)的查詢(xún)分析功能快速定位目標容器;
  不進(jìn)入目標容器,統一觀(guān)察不同類(lèi)型的容器日志;
  支持關(guān)鍵詞過(guò)濾;
  支持設置鍵列。
  在實(shí)現上,LiveTail主要是利用上一章提到的上下文查詢(xún)原理,快速定位到目標容器和目標文件。然后客戶(hù)端周期性的向服務(wù)端發(fā)送請求拉取最新的數據。
  視頻樣本
  您也可以觀(guān)看視頻進(jìn)一步了解容器日志的采集、查詢(xún)、分析和可視化。
  參考
  結尾
  更令人興奮的
  解決方案:網(wǎng)站首頁(yè)設計需要注意的問(wèn)題
  首頁(yè)是我們網(wǎng)站中最重要的頁(yè)面,所以有才華的設計師花最多的時(shí)間和精力來(lái)思考首頁(yè)的設計。那么在設計主頁(yè)時(shí)主要要注意哪些事項呢?
  頁(yè)面內容要新穎
  突出一個(gè)“新”字,這個(gè)原則要求我們在設計網(wǎng)站內容時(shí)不能抄襲別人的內容,而是要結合自己的實(shí)際情況,打造一個(gè)獨一無(wú)二的網(wǎng)站。所以,在設計網(wǎng)頁(yè)的時(shí)候,一定要在選材上下功夫。選材盡量“少”“精”,要突出“新”
  網(wǎng)站 關(guān)鍵詞
  
  關(guān)鍵詞是用戶(hù)在尋找我們想要的信息時(shí)在搜索引擎上輸入的字符,所以關(guān)鍵詞對于網(wǎng)站優(yōu)化來(lái)說(shuō)是極其重要的,它幾乎決定了網(wǎng)站的排名和流量,而關(guān)鍵詞可以在首頁(yè)設置,首頁(yè)的關(guān)鍵詞是優(yōu)化網(wǎng)站最重要的方式。關(guān)鍵詞的設計形式主要是關(guān)鍵詞加長(cháng)尾關(guān)鍵詞,而關(guān)鍵詞的布局形式首頁(yè)采用一級關(guān)鍵詞,內頁(yè)采用二級關(guān)鍵詞。
  網(wǎng)站布局
  網(wǎng)站的布局也是設計首頁(yè)時(shí)需要注意的,因為首頁(yè)的布局風(fēng)格與用戶(hù)的瀏覽習慣有關(guān)。一種排版模式。但現在用戶(hù)普遍能夠接受新穎的排版方式。不同的設計布局可能會(huì )給用戶(hù)帶來(lái)亮點(diǎn),增加用戶(hù)瀏覽網(wǎng)站的時(shí)間。
  使用較少的特殊字體
  
  盡管您可以在 HTML 中使用特殊字體,但無(wú)法預測訪(fǎng)問(wèn)者將在他們的計算機上看到什么。在您的計算機上看起來(lái)不錯的頁(yè)面在不同的平臺上可能看起來(lái)很糟糕。一些網(wǎng)頁(yè)設計師喜歡使用定義屬性,這允許您使用特殊字體,但仍然需要一些解決方法,以防您選擇的字體不顯示在訪(fǎng)問(wèn)者的計算機上。
  聯(lián)亞網(wǎng)絡(luò )科技有限公司是一家以戰略、創(chuàng )意、設計、技術(shù)和服務(wù)為核心的互聯(lián)網(wǎng)公司。核心技術(shù)自主研發(fā),擁有眾多網(wǎng)頁(yè)設計行業(yè)知名設計師,經(jīng)過(guò)12年的發(fā)展,與數百家上市公司的成功合作經(jīng)驗,數萬(wàn)家企業(yè)放心選擇的服務(wù)商,讓我們成長(cháng)為一家互聯(lián)網(wǎng)精英公司——一家集策劃思維、設計執行、服務(wù)意識為一體的深圳網(wǎng)站建設公司。
  聯(lián)亞產(chǎn)品一定要生產(chǎn)高品質(zhì)的產(chǎn)品,這是我們的核心理念。
  聯(lián)亞愿與客戶(hù)共同成長(cháng),攜手前行。咨詢(xún)熱線(xiàn):0755-82940957

解決方案:基于情境感知的智慧課堂動(dòng)態(tài)生成性數據采集方法與模型

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 159 次瀏覽 ? 2022-11-30 09:44 ? 來(lái)自相關(guān)話(huà)題

  解決方案:基于情境感知的智慧課堂動(dòng)態(tài)生成性數據采集方法與模型
  汪冬青1、韓厚2、邱美玲1、凌海燕1
  (1. 華南師范大學(xué)教育信息技術(shù)學(xué)院, 廣東 廣州 510631;
  2. 華南師范大學(xué)藝術(shù)學(xué)院, 廣東廣州 510631)
  [摘要] 智慧教學(xué)過(guò)程中動(dòng)態(tài)生成的數據具有多源異構、不完備、關(guān)聯(lián)性強等特點(diǎn)。數據已成為當前智慧教育研究亟待解決的問(wèn)題。本文提出了一種基于情境感知技術(shù)的智慧教學(xué)數據采集模型,使用用戶(hù)、任務(wù)、位置、時(shí)間、設備、基礎設施六類(lèi)信息來(lái)表征智慧教學(xué)情境。定義動(dòng)態(tài)生成數據描述框架和云數據交換機制,解決云環(huán)境下基于教學(xué)情境的多源異構數據采集問(wèn)題,為教育大數據模型的建立和提供新的思路和方法。發(fā)展教育大數據云服務(wù)。
  [關(guān)鍵詞] 情境意識;智能教室;動(dòng)態(tài)生成數據;數據采集
  一、簡(jiǎn)介
  隨著(zhù)云計算、移動(dòng)互聯(lián)網(wǎng)、人機交互等新一代信息技術(shù)融入教育教學(xué)全過(guò)程,智慧教育逐漸興起,受到國內外學(xué)者的廣泛關(guān)注。與傳統教育相比,智慧教育能夠帶來(lái)更簡(jiǎn)單、更高效、智能化和個(gè)性化的教學(xué)體驗,是教育信息化發(fā)展的必然階段[1]。
  教育部印發(fā)的《“十三五”教育信息化規劃》明確提出“要依托信息技術(shù),打造信息化教學(xué)環(huán)境”。智慧教育被認為是下一代信息化教學(xué)環(huán)境的發(fā)展方向,各地不斷加大投入,掀起建設智慧校園的熱潮。以廣東省為例,《廣東省教育發(fā)展“十三五”規劃(2016-2020年)》提出,到2020年,全省建設100所“智慧校園”、300所“未來(lái)課堂”,培育500所A智慧教育示范工程。
  本文所關(guān)注的智慧教學(xué)環(huán)境是指智慧教育的基礎設施和保障條件,能夠為師生提供一個(gè)帶有移動(dòng)終端的課堂教育場(chǎng)所或活動(dòng)空間。智慧教學(xué)支持系統是智慧教學(xué)環(huán)境的核心組成部分。能夠提供適合的學(xué)習資源和便捷的交互工具,開(kāi)展教學(xué)互動(dòng)和學(xué)習評價(jià)活動(dòng),有效支持個(gè)性化學(xué)習全過(guò)程,讓各類(lèi)用戶(hù)在學(xué)校和課堂上都能學(xué)習。和家庭等環(huán)境隨時(shí)隨地訪(fǎng)問(wèn)教育教學(xué)云平臺。
  2. 問(wèn)題的呈現
  知識的生成和共享是智慧教學(xué)環(huán)境的典型特征?,F代教育觀(guān)認為教學(xué)是一種具有生成性?xún)热莸闹饔^(guān)活動(dòng)[2]。學(xué)生掌握知識的過(guò)程本質(zhì)上是一個(gè)探究、分析、選擇和創(chuàng )造的動(dòng)態(tài)過(guò)程。在傳統的教學(xué)環(huán)境中,由于缺乏信息技術(shù)手段或軟件平臺支持,無(wú)法科學(xué)準確地記錄、分析和呈現教學(xué)過(guò)程中隱含的、轉瞬即逝的動(dòng)態(tài)內容。而在“云+終端”的智慧教學(xué)環(huán)境中,基于云計算和大數據服務(wù),可以對動(dòng)態(tài)生成的內容進(jìn)行采集、記錄和分析。
  動(dòng)態(tài)生成數據的采集與分析是智慧教學(xué)研究的關(guān)鍵問(wèn)題。采集
和分析動(dòng)態(tài)生成數據可以促進(jìn)學(xué)生更好地掌握知識[3]。動(dòng)態(tài)生成數據主要是指師生在教學(xué)活動(dòng)中產(chǎn)生的過(guò)程性數據,包括教師的教學(xué)行為數據和學(xué)生的學(xué)習體驗數據(如學(xué)生的學(xué)習行為、學(xué)習活動(dòng)、學(xué)習進(jìn)度等,與學(xué)生互動(dòng)的數據)。與學(xué)習環(huán)境的數據、學(xué)生操作各種資源產(chǎn)生的數據、上述各種因素之間的關(guān)系數據等)。智慧教學(xué)環(huán)境中動(dòng)態(tài)生成的數據的數據結構更加多樣化。常規的結構化數據仍然很重要,是數據采集
和分析的基礎,但非結構化數據(如圖片、視頻、教案、課堂作業(yè)、作品、音頻、教學(xué)軟件等)越來(lái)越占主導地位,顯示出增長(cháng)勢頭迅猛,但對它們的采集還處于起步階段,遠不能滿(mǎn)足蓬勃發(fā)展的智慧課堂教學(xué)應用需求。此外,教學(xué)活動(dòng)組織實(shí)施的主觀(guān)性和不確定性等因素進(jìn)一步增加了過(guò)程數據采集的復雜性。但對它們的采集
還處于起步階段,遠遠不能滿(mǎn)足蓬勃發(fā)展的智慧課堂教學(xué)應用需求。此外,教學(xué)活動(dòng)組織實(shí)施的主觀(guān)性和不確定性等因素進(jìn)一步增加了過(guò)程數據采集的復雜性。但對它們的采集
還處于起步階段,遠遠不能滿(mǎn)足蓬勃發(fā)展的智慧課堂教學(xué)應用需求。此外,教學(xué)活動(dòng)組織實(shí)施的主觀(guān)性和不確定性等因素進(jìn)一步增加了過(guò)程數據采集的復雜性。
  目前各種跨終端的智慧教學(xué)支撐系統功能大同小異,更能滿(mǎn)足智慧課堂的教學(xué)需求,但在數據采集方面還有很大的發(fā)展空間。一方面,大多停留在簡(jiǎn)單記錄零散的學(xué)習成績(jì)數據層面,較少涉及過(guò)程性數據和非結構化數據,數據與真實(shí)教學(xué)情境緊密結合,難以全面、科學(xué)地反映教學(xué)的動(dòng)態(tài)過(guò)程而學(xué)習方面,各類(lèi)智慧教學(xué)支持系統具有獨立的數據存儲格式和傳輸方式,采集的數據相互分離,互操作性不強,難以提取和挖掘有價(jià)值的信息[ 4].
  因此,在自然狀態(tài)下不確定的教學(xué)環(huán)境中,數據采集方法和技術(shù)是智慧教學(xué)研究面臨的重大挑戰,成為困擾教育大數據研究的突出問(wèn)題。目前已有的研究主要集中在如何記錄和分析單個(gè)教學(xué)系統或MOOC平臺(如coursera、edx等)的教學(xué)管理數據或用戶(hù)行為數據。對于一人一機的智慧教學(xué)環(huán)境,對于多源異構教學(xué)系統中動(dòng)態(tài)產(chǎn)生的數據,目前還沒(méi)有形成有效的采集方法。
  為了解決上述問(wèn)題,本文針對智慧教學(xué)過(guò)程中數據來(lái)源多樣、結構復雜、采集標準規范不一致等問(wèn)題,構建了基于情境感知技術(shù)的數據采集模型,定義了一個(gè)遵循xAPI規范和Caliper框架的數據描述規范,設計與數據類(lèi)型及其應用上下文相匹配的數據存儲方式,以規范和標準實(shí)現數據的跨平臺互操作,為教育建設提供新的思路和方法大數據模型和發(fā)展教育大數據服務(wù)。
  三、研究現狀
  智慧課堂教學(xué)過(guò)程中的動(dòng)態(tài)生成數據與教學(xué)情境密切相關(guān)。建立基于態(tài)勢感知的動(dòng)態(tài)生成數據采集模型和描述規范是當前研究的關(guān)鍵問(wèn)題之一。關(guān)鍵在于教學(xué)情境感知和動(dòng)態(tài)生成數據。采集技術(shù)。
  (1) 情境意識教學(xué)
  情境是構建學(xué)習模型的重要因素,也是教育數據的重要特征。目前,態(tài)勢感知廣泛應用于災害監測、動(dòng)態(tài)資源分配、服務(wù)推薦等領(lǐng)域。在教育領(lǐng)域,主要關(guān)注情境意識在學(xué)習資源檢索、自適應學(xué)習路徑推薦等泛在學(xué)習中的應用。緒方等人。構建了一個(gè)情境感知的英語(yǔ)泛在學(xué)習系統[5],通過(guò)GPS定位學(xué)習者的位置,為學(xué)習者提供合適的英語(yǔ)詞匯;程等。構建自學(xué)習室系統,監測學(xué)習者是否在指定時(shí)間出現在指定地點(diǎn),進(jìn)而推斷學(xué)習者是否參與了學(xué)習活動(dòng)[6];Tan利用普適計算、嵌入式系統、無(wú)線(xiàn)網(wǎng)絡(luò )和RFID技術(shù)開(kāi)發(fā)了EULER系統[7],可以為他們提供合適的教材;Hwang和Chang將這些技術(shù)應用到小學(xué)生的戶(hù)外學(xué)習活動(dòng)中,引導學(xué)生通過(guò)移動(dòng)設備進(jìn)行探究性學(xué)習[8]。上述研究表明,與情境感知相關(guān)的技術(shù)正逐漸應用于單一教學(xué)活動(dòng)的數據采集,但缺乏系統、深入的面向豐富應用場(chǎng)景的全教學(xué)過(guò)程數據采集解決方案. Hwang和Chang將這些技術(shù)應用到小學(xué)生的戶(hù)外學(xué)習活動(dòng)中,引導學(xué)生通過(guò)移動(dòng)設備進(jìn)行探究性學(xué)習[8]。上述研究表明,與情境感知相關(guān)的技術(shù)正逐漸應用于單一教學(xué)活動(dòng)的數據采集,但缺乏系統、深入的面向豐富應用場(chǎng)景的全教學(xué)過(guò)程數據采集解決方案. Hwang和Chang將這些技術(shù)應用到小學(xué)生的戶(hù)外學(xué)習活動(dòng)中,引導學(xué)生通過(guò)移動(dòng)設備進(jìn)行探究性學(xué)習[8]。上述研究表明,與情境感知相關(guān)的技術(shù)正逐漸應用于單一教學(xué)活動(dòng)的數據采集,但缺乏系統、深入的面向豐富應用場(chǎng)景的全教學(xué)過(guò)程數據采集解決方案.
  一、情況分類(lèi)
  要實(shí)現情境感知的數字化學(xué)習,首先需要準確感知和采集
情境信息。先前的研究已經(jīng)提出了多種上下文分類(lèi)方法。Korhonen將情境分為八種類(lèi)型:環(huán)境情境、用戶(hù)情境、任務(wù)情境、社會(huì )情境、時(shí)空情境、設備情境、服務(wù)情境和網(wǎng)絡(luò )連接情境[9]。體現在時(shí)間和空間兩個(gè)最基本的上下文的結合上,設備、服務(wù)、網(wǎng)絡(luò )連接這三個(gè)上下文沒(méi)有明顯區別;Jumisko-Pyykk?Jumisko-Pyykk?這五種類(lèi)型對用戶(hù)使用移動(dòng)終端的情況進(jìn)行了分類(lèi)[10]。分類(lèi)數量少,使用過(guò)程中會(huì )增加分類(lèi)級別,不利于后期處理。在確定情境分類(lèi)標準的過(guò)程中,需要考慮分類(lèi)之間的完整性、差異性、同質(zhì)性、適度性、符合習慣等因素,關(guān)注用戶(hù)活動(dòng)中的任務(wù)和任務(wù)執行場(chǎng)景. 情境分類(lèi)是構建智慧教學(xué)情境本體的關(guān)鍵,為建立情境推理規則庫提供了處理方法。并關(guān)注用戶(hù)活動(dòng)中的任務(wù)和任務(wù)執行場(chǎng)景。情境分類(lèi)是構建智慧教學(xué)情境本體的關(guān)鍵,為建立情境推理規則庫提供了處理方法。并關(guān)注用戶(hù)活動(dòng)中的任務(wù)和任務(wù)執行場(chǎng)景。情境分類(lèi)是構建智慧教學(xué)情境本體的關(guān)鍵,為建立情境推理規則庫提供了處理方法。
  2. 情況表示
  在情境分類(lèi)的基礎上,需要使用理論模型或方法將獲得的情境表示為有意義的線(xiàn)索。目前,常用的上下文表示模型有:鍵值模型、標簽模型、對象角色模型、空間模型和本體模型[11]。本體建立的模型具有表達能力強、可理解性、可重用性和可共享性等優(yōu)點(diǎn),適用于描述和定義情境以及情境之間的關(guān)系,也便于計算機進(jìn)行推理。使用基于本體的方法來(lái)定義和構建情境模型也是目前主要的發(fā)展方向和趨勢。
  3. 情境處理
  在上下文處理環(huán)節,通常直接上下文不能描述用戶(hù)當前的完整上下文。為了進(jìn)一步獲取用戶(hù)的完整上下文,需要使用上下文推理對獲取的上下文進(jìn)行處理。在推理方法上,可分為基于本體的推理和基于規則的推理。在實(shí)際應用中,需要在分析其優(yōu)缺點(diǎn)的基礎上做出選擇。
  (2)教學(xué)數據采集技術(shù)
  教育領(lǐng)域具有產(chǎn)生大量數據的能力[12]。為了提高數據采集
和存儲的性能,需要考慮采集
哪些數據可以提供最有用的信息。此外,數據來(lái)源多樣、結構復雜、相關(guān)性高[13]也是數據采集
過(guò)程中需要考慮的問(wèn)題。數據采集??是數據生命周期的第一階段[14],是數據分析和應用的基礎。數據采集??技術(shù)主要包括數據采集方法、模型、規范和方法。
  一、數據采集方式
  現有教育領(lǐng)域的研究更關(guān)注學(xué)習者數據,其采集
方式包括以下三類(lèi):一是從在線(xiàn)學(xué)習環(huán)境中獲取學(xué)習者數據,包括學(xué)習日志數據、學(xué)習行為和結果數據等。研究較多的方法;二是基于攝像頭、傳感器等設備感知學(xué)習者的生理特征,推斷學(xué)生在學(xué)習活動(dòng)中的參與情況,了解學(xué)習者是否認同教師的觀(guān)點(diǎn)[12]等;三是采用問(wèn)卷或量表等方法采集
學(xué)習者的具體信息。豐富的應用場(chǎng)景需要進(jìn)行動(dòng)態(tài)生成數據的采集,
  2.數據采集模型
  針對采集
到的不同類(lèi)型的數據,Edu-graph 從五個(gè)方面對教育數據進(jìn)行建模:學(xué)習內容、學(xué)習活動(dòng)、操作行為、職業(yè)以及學(xué)習者或教師參數數據[15];Koch提出在課堂教學(xué)數據采集框架中,不僅包括學(xué)習者在教學(xué)環(huán)境中的操作行為數據,還包括學(xué)習者的績(jì)效評價(jià)數據[16];此外,為了滿(mǎn)足學(xué)生的個(gè)性化學(xué)習需求,Jeong 等人。認為智慧教育系統應該關(guān)注學(xué)習者參數和學(xué)習者特征等信息[17];Raghuveer 提出構建基于學(xué)習者參數和學(xué)習對象元數據的學(xué)習體驗模型框架[18],顧曉青等人。
  3. 數據采集標準
  數據采集??標準是實(shí)現不同廠(chǎng)商軟硬件產(chǎn)品數據互通的基礎。隨著(zhù)基于新技術(shù)的新產(chǎn)品的普及和學(xué)習內容形式的日益豐富,研究人員在學(xué)習系統的技術(shù)標準和規范方面開(kāi)展了大量的前期工作,提出了學(xué)習工具的互操作性、學(xué)習信息服務(wù)和問(wèn)題和測試互操作性等標準規范來(lái)封裝學(xué)習活動(dòng)、標簽應用場(chǎng)景等。大數據和數據科學(xué)的快速發(fā)展催生了新的標準和規范,包括Experience API(簡(jiǎn)稱(chēng)xAPI)、IMS Caliper等。 研究人員基于xAPI規范進(jìn)行了大量研究,
  4.數據采集方式
  教學(xué)由一系列具有時(shí)間順序的活動(dòng)或事件組成 [27]?;顒?dòng)過(guò)程的記錄是智慧教學(xué)過(guò)程分析的基礎和前提。一些研究者從工作流、學(xué)習流、學(xué)習活動(dòng)流等不同角度研究記錄(描述)活動(dòng)過(guò)程的方式。例如,王將課堂活動(dòng)分為三個(gè)不同的層次:學(xué)習流程、學(xué)習事件和學(xué)習功能[28]。
  目前,教育數據采集技術(shù)主要面向具體應用,采集往往是在非自然狀態(tài)下分階段進(jìn)行的(在用戶(hù)不知情的情況下,如使用問(wèn)卷或量表等),而過(guò)程中產(chǎn)生的智慧教學(xué)環(huán)境數據具有更強的實(shí)時(shí)性、連貫性、綜合性和自然性,引入態(tài)勢感知技術(shù)研究此類(lèi)數據采集逐漸成為一種趨勢和方向。
  
  綜上所述,本文探索將xAPI規范和Caliper框架引入上下文感知動(dòng)態(tài)生成數據采集,并結合數據類(lèi)型和教學(xué)情境,提出一種調用數據采集模型和存儲機制的方法。這是一種動(dòng)態(tài)、開(kāi)放的情境感知數據方法,更好地適應智慧教學(xué)環(huán)境復雜應用場(chǎng)景和高系統異構性的需求,能夠有效支撐教育大數據情境下的實(shí)時(shí)、大規模應用。研究。微教與學(xué)習過(guò)程數據的持續采集,需要實(shí)現智慧教學(xué)動(dòng)態(tài)生成數據采集與分析的服務(wù)生態(tài)。
  4. 基于情境感知的智慧教學(xué)動(dòng)態(tài)生成數據采集模型
  智慧教學(xué)通常由一系列復雜的教學(xué)活動(dòng)和環(huán)節組成。每個(gè)活動(dòng)中產(chǎn)生的動(dòng)態(tài)數據具有與情境緊密結合的特點(diǎn)。分析與活動(dòng)相關(guān)的情境數據,并基于情境數據構建采集模型,可以確保準確的感知上下文,在正確的時(shí)間采集
正確的數據。
  (1) 智慧教學(xué)情境的表示與處理
  智慧教學(xué)的動(dòng)態(tài)生成數據具有來(lái)源多、異構、不完整、不一致等特點(diǎn)。本文引入態(tài)勢感知技術(shù),對教育專(zhuān)家的態(tài)勢感知過(guò)程進(jìn)行建模,如圖1所示。具體工作包括情境獲取、情境處理和服務(wù)調用三個(gè)階段[29]。
  圖1 上下文感知過(guò)程
  上下文獲取是上下文數據建模的關(guān)鍵。研究智慧教學(xué)活動(dòng)的特征和內涵,細化教學(xué)情境數據分類(lèi)框架,從直接情境和間接情境兩個(gè)方面對智慧教學(xué)情境數據進(jìn)行分類(lèi)并篩選其具體指標,重點(diǎn)關(guān)注智慧教學(xué)情境中交互性強的任務(wù)和任務(wù)執行。教學(xué)活動(dòng)場(chǎng)景。本文將動(dòng)態(tài)生成數據采集涉及的智慧教學(xué)情境分為用戶(hù)、任務(wù)、地點(diǎn)、時(shí)間、設備、基礎設施六類(lèi);將智慧教學(xué)的具體活動(dòng)分解為不同的階段;將每個(gè)階段分解為具體的行為;以教師或學(xué)生的具體行為或與具體行為相關(guān)的情境為觸發(fā)契機,獲取智慧教學(xué)動(dòng)態(tài)生成數據的生成情況,用本體模型表示獲取的情況,如圖2所示。直接子類(lèi)和直接上下文可以通過(guò)終端或其他方式直接獲??;間接子類(lèi)和間接上下文需要通過(guò)推理獲得。
  圖2 態(tài)勢表征模型
  在情境推理階段,根據智慧教學(xué)情境模型,設計了基于本體和規則的推理方法對情境進(jìn)行推理。一方面通過(guò)直接情境得到當前完整的情境教化,另一方面檢測情境的一致性,排除沖突情境。
  在服務(wù)調用階段,設計數據采集方法調用規則,結合教學(xué)過(guò)程中師生任務(wù)行為序列,推斷數據采集情況,實(shí)現當特定的智慧教學(xué)情境或情境組合出現時(shí),調用相應的數據采集??方法獲取動(dòng)態(tài)生成的數據,同時(shí)針對不同場(chǎng)景下的結構化和非結構化數據的采集和存儲,選擇高效的存儲機制和合適的分析方法。
  (2) 智慧教學(xué)動(dòng)態(tài)生成數據采集規范
  數據只是用來(lái)描述事物的符號記錄,不提供判斷或意義解釋。數據的含義需要與具體的業(yè)務(wù)相關(guān)聯(lián)。因此,數據描述是數據采集的基礎和前提。智慧教學(xué)的生成數據具有明顯的非結構化、層次化和相關(guān)性特征。其中,相關(guān)性表現在知識概念之間、知識概念與學(xué)習資源之間、教學(xué)前后環(huán)節之間、教師行為與學(xué)生行為之間等諸多方面。借鑒國內外對學(xué)習過(guò)程的形式化描述方法和xAPI規范中學(xué)習經(jīng)驗的分解過(guò)程(即“經(jīng)驗-事件-陳述”),從目標、活動(dòng)、事件和行為,從抽象到具體。在教學(xué)過(guò)程中,構建了智慧教學(xué)動(dòng)態(tài)生成數據的層次化描述框架,如圖3所示。教學(xué)目標,再將教學(xué)活動(dòng)細化為教師或學(xué)生與資源、工具或服務(wù)進(jìn)行交互的具體事件,最后用交互行為描述學(xué)習事件。
  圖3 智慧教學(xué)動(dòng)態(tài)生成數據采集層級框架
  一、行為數據說(shuō)明
  "Participant(Actor)+action(Verb)+object包括教師、學(xué)生或個(gè)體群體;Verb是行為動(dòng)詞,指教師或學(xué)生進(jìn)行的外顯行為;Object是動(dòng)作實(shí)施的對象,包括soft、Hardware設備還包括教學(xué)內容和數據,xAPI規范在發(fā)布時(shí)就定義了一套常用詞匯,用于記錄學(xué)習者的學(xué)習體驗。屏幕)和學(xué)習者行為(如做筆記),參考xAPI動(dòng)詞創(chuàng )建方法創(chuàng )建。
  2.事件數據說(shuō)明
  學(xué)習事件以“參與者(Actor)+動(dòng)作(Verb)+客體(Object)+情境(Context)”的形式描述,其中情境信息包括學(xué)習情境和活動(dòng)情境。學(xué)習情境包括課程、教師、學(xué)生、學(xué)習平臺、項目、組織等基本信息;活動(dòng)情境包括閱讀、看視頻、測試、討論等。xAPI規范公布了常用的活動(dòng)類(lèi)型,Caliper框架給出了每類(lèi)活動(dòng)的測量參數。以考試活動(dòng)為例,其參數包括分數、嘗試次數、批改次數等,這部分數據由系統自動(dòng)記錄。
  三、活動(dòng)數據說(shuō)明
  本文從可操作性和分類(lèi)的角度將智慧課堂教學(xué)活動(dòng)歸納為以下幾類(lèi):課前準備、復習、介紹、講授、學(xué)習、實(shí)踐、成果展示和總結提高?;顒?dòng)信息通過(guò)人工設置或自動(dòng)判斷獲得。手動(dòng)設置,即教師在備課過(guò)程中預先設定教學(xué)活動(dòng),安排好要使用的內容和工具,或教師在課后查看課堂記錄時(shí)手動(dòng)標注;自動(dòng)判斷,即根據學(xué)生行為和教師行為的先后順序和行為發(fā)生的時(shí)間等信息推斷出教學(xué)活動(dòng),如“教師打開(kāi)本地資源-教師鎖定學(xué)生”
  4.目標數據說(shuō)明
  在教學(xué)目標集合方面,本文基于布盧姆的教學(xué)目標分類(lèi)理論[30],從知識和認知過(guò)程兩個(gè)維度描述了云交互課堂的教學(xué)目標。在智慧課堂中,教學(xué)目標數據的獲取可以由教師在備課階段手動(dòng)設置。為了能夠做到深入分析,教師在備課過(guò)程中還需要建立教學(xué)目標與教學(xué)活動(dòng)之間的關(guān)系。
  (3) 動(dòng)態(tài)生成數據的存儲和交換機制
  1、動(dòng)態(tài)生成數據的存儲
  在存儲機制層面,基于xAPI規范中的LRS(Learning Record Store)數據存儲模塊[31]獲取和共享學(xué)習經(jīng)驗數據,支持學(xué)習者的學(xué)習數據在任意系統和系統中離線(xiàn)和在線(xiàn)存儲支持 xAPI 規范。在設備中,針對不同場(chǎng)景和格式的數據提供了差異化的存儲機制。例如,課堂教學(xué)過(guò)程中有大量的數據輸入輸出操作和各種數據類(lèi)型。為了節省設備能耗,提高應用效率,課堂教學(xué)應用中的數據暫存于本地服務(wù)器(具有簡(jiǎn)單的統計分析功能)。結束后系統自動(dòng)將數據推送到云端,
  圖 4 數據存儲和管理框架
  對于智慧課堂動(dòng)態(tài)生成的教學(xué)視頻、學(xué)生作品等非結構化文件,具體存儲過(guò)程包括:首先,根據小文件的分類(lèi)關(guān)聯(lián),結合上下文數據,將小文件上傳到分布式文件之前系統,基于數據分類(lèi)層框架和情境聚類(lèi)算法,為分類(lèi)數據建立關(guān)聯(lián),并生成關(guān)聯(lián)小文件。二是針對教學(xué)資源視頻等大文件的處理,采用大文件分割處理技術(shù),分解成小文件,實(shí)現斷點(diǎn)續傳,保證良好的用戶(hù)體驗;對于圖片、音頻等小文件的處理,使用小文件合并為大文件的技術(shù)提高了分布式存儲的性能。三是創(chuàng )建索引文件,為大文件創(chuàng )建數據結構,記錄大文件中收錄
的小文件的長(cháng)度和起始偏移量,用來(lái)解決小文件的快速訪(fǎng)問(wèn)問(wèn)題。四是建立基于上下文的元數據緩存和關(guān)聯(lián)小文件預取策略,在智慧教學(xué)環(huán)境中使用移動(dòng)智能終端緩存元數據,實(shí)現基于終端緩存的小文件快速預取,減少與相關(guān)數據節點(diǎn)的不必要通信. 相互作用。并用它們來(lái)解決快速訪(fǎng)問(wèn)小文件的問(wèn)題。四是建立基于上下文的元數據緩存和關(guān)聯(lián)小文件預取策略,在智慧教學(xué)環(huán)境中使用移動(dòng)智能終端緩存元數據,實(shí)現基于終端緩存的小文件快速預取,減少與相關(guān)數據節點(diǎn)的不必要通信. 相互作用。并用它們來(lái)解決快速訪(fǎng)問(wèn)小文件的問(wèn)題。四是建立基于上下文的元數據緩存和關(guān)聯(lián)小文件預取策略,在智慧教學(xué)環(huán)境中使用移動(dòng)智能終端緩存元數據,實(shí)現基于終端緩存的小文件快速預取,減少與相關(guān)數據節點(diǎn)的不必要通信. 相互作用。
  2.動(dòng)態(tài)生成數據的交換
  基于動(dòng)態(tài)生成數據采集模型,形成智慧教學(xué)終端應用與云公共服務(wù)平臺的數據交互接口,實(shí)現不同來(lái)源的智慧教學(xué)動(dòng)態(tài)生成數據的采集和統一呈現,支持更高層次的非結構化數據的分析應用。通過(guò)在智慧教學(xué)支撐系統之間設置xAPI配置文件,即云公共服務(wù)平臺的數據采集標準遵循相同的動(dòng)詞使用、活動(dòng)跟蹤、排序規則、應用場(chǎng)景等約定,經(jīng)過(guò)數據合并、去重、以及結構處理,將以JSON或XML格式描述的教學(xué)數據源同步到云端公共服務(wù)平臺;同時(shí),
  五、總結
  數據采集??是大數據應用于教育的前提和基礎。目前,在智慧教學(xué)環(huán)境下的數據采集模型和方法研究中,基礎理論研究滯后于實(shí)際應用,已成為困擾教育大數據研究的前沿問(wèn)題。當前,我國正面臨新一輪教學(xué)環(huán)境建設與應用改革,而“智慧”是教學(xué)環(huán)境發(fā)展的最高追求。率先在教學(xué)動(dòng)態(tài)生成數據采集方面取得進(jìn)展,提升新一輪教學(xué)環(huán)境的智慧化。本文提出了一種面向智慧教學(xué)的情境感知模型,一種基于情境感知的動(dòng)態(tài)生成數據采集模型,以及規范和存儲機制,對大規??缦到y數據采集和分析具有指導價(jià)值和參考意義。下一步的研究將著(zhù)重構建云端結合的教育大數據分析生態(tài)系統。在數據采集
的基礎上,需要考慮如何對采集
到的數據進(jìn)行解讀,使這些數據轉化為知識服務(wù)于教學(xué),提高教學(xué)決策質(zhì)量。
  本文發(fā)表于2018年第5期《電子教育研究》,轉載請聯(lián)系電化教育研究雜志社編輯部(官方郵箱:)
  【參考】
  [1] 朱志廷,何斌.智慧教育:教育信息化的新境界[J].電子教育研究, 2012(12): 7-15.
  
  [2] AHO E、HAVERINEN HL、JUUSO H 等。教師決策和課堂管理原則;個(gè)案研究和一種新的觀(guān)察方法[J]. Procedia-社會(huì )和行為科學(xué),2010(9):395-402。
  [3] NYSTRAND M、LAWRENCE LW、ADAM G 等。及時(shí)提問(wèn):調查展開(kāi)課堂話(huà)語(yǔ)的結構和動(dòng)態(tài)[J]. 話(huà)語(yǔ)過(guò)程, 2003, 35(2): 135-198。
  [4] 丁繼紅,劉華中.大數據環(huán)境下基于多維關(guān)聯(lián)分析的學(xué)習資源精準推薦[J].電化教育研究, 2018(2): 53-59.
  [5] OGATA H, CHENGJIU Y, ROSA GP, et al. 支持課堂外的移動(dòng)語(yǔ)言學(xué)習[C]// IEEE 高級學(xué)習技術(shù)國際會(huì )議。IEEE 計算機學(xué)會(huì ),2006:928-932。
  [6] Zixue C, SHENGGUO S, MIZUO K, et al. 通過(guò)比較學(xué)習教學(xué)要求與學(xué)習者行為的個(gè)性化泛在教育支持環(huán)境[C]//先進(jìn)信息網(wǎng)絡(luò )與應用國際會(huì )議。IEEE 計算機學(xué)會(huì ),2005:5 -573。
  [7] TAN-HSU T, TSUNG-YU L, CHI-CHENG. 基于 RFID 的戶(hù)外學(xué)習無(wú)所不在學(xué)習環(huán)境的開(kāi)發(fā)與評估[J]。交互式學(xué)習環(huán)境, 2007, 15(3): 253-269 .
  [8] GWO-JEN H, HSUN-FANG C. 一種基于形成性評估的移動(dòng)學(xué)習方法,以提高學(xué)生的學(xué)習態(tài)度和成績(jì)[J]。計算機與教育, 2011, 56(4): 1023-1031.
  [9] KORHONEN H, ARRASVUORI J. 通過(guò)上下文因素分析個(gè)人移動(dòng)產(chǎn)品的用戶(hù)體驗[C]// 移動(dòng)和無(wú)處不在的多媒體國際會(huì )議,Mum 2010,塞浦路斯利馬索爾,12 月。DBLP,2010:1-10。
  [10] JUNISKO-PYYKKO S, VAINIO T. 構建移動(dòng) HCI 的使用背景[J]。國際移動(dòng)人機交互雜志, 2010, 2(4): 1-28.
  [11] BALDAUF M, DUSTDAR S, ROSENBERG F. 情境感知系統綜述[J]。Ad Hoc 和普適計算國際期刊,2007 年,2(4):263-277。
  [12] AGHABOZORGI S、MAHROEIAN H、DUTT A 等。教育大數據挖掘的可行性分析研究[J]. Computational science and its applications–ICCSA 2014 Springer, 2014, 8583(03): 721-737.
  [13] LARA JA、LIZCANO D、MARTINEZ MA 等。歐洲高等教育區電子學(xué)習環(huán)境中的知識發(fā)現系統——在馬德里開(kāi)放大學(xué)學(xué)生數據中的應用[J]。計算機與教育, 2014, 72: 23-36.
  [14] DYCKHOFF AL、ZIELKE D、BULTMANN M 等人。教師學(xué)習分析工具包的設計與實(shí)現[J]. 教育技術(shù)與社會(huì ), 2012, 15(3): 58-76.
  [15] IMS GLC。Caliper AnalyticsTM 背景 [EB/OL]。[2015-12-23]。。
  [16] KOCH F, RAO C. 通過(guò)績(jì)效評估分析實(shí)現大規模個(gè)人教育 [J]。國際信息與教育技術(shù)雜志, 2014, 4(4): 297-301.
  [17] JEONG JS, KIM M, YOO K H. 基于云計算的面向內容的智慧教育系統[J]. 國際多媒體與普適工程雜志, 2013, 8(6): 313-328.
  [18] RAGHUVEER VR,TRIPATHY B K. 電子學(xué)習環(huán)境中自適應內容檢索學(xué)習體驗的按需分析[J]。電子學(xué)習與知識社會(huì )雜志, 2015, 11(1): 171-188.
  [19] 顧曉晴,鄭龍偉,簡(jiǎn)靜.獲取教育大數據:基于xAPI規范的學(xué)習體驗數據獲取與共享[J]. 現代遠程教育研究, 2014(5): 13-23.
  [20] MURRAY K, SILVERS A. 一次學(xué)習經(jīng)歷[J]. 先進(jìn)分布式學(xué)習技術(shù)學(xué)報, 2013, 1(3-4): 7-13.
  [21] SOTTILARE RA、RARSA C、HOFFMAN M 等人。表征個(gè)人和團隊輔導的自適應輔導學(xué)習效果鏈[C]// Interservice/industry Training Simulation &amp; Education Conference。2013.
  [22] HUNG N M. 論與學(xué)習生態(tài)系統相關(guān)的形成性評價(jià)語(yǔ)義模型[J]. 國際信息與教育技術(shù)雜志, 2016, 6(1): 54-57.
  [23] CORBI A, SOLANS D B. 回顧以電子學(xué)習為中心的推薦系統和學(xué)習分析中使用的當前學(xué)生監控技術(shù)。Experience API &amp; LIME 模型案例研究[J]. 國際人工智能與交互式多媒體雜志, 2014 , 2(7): 44-52.
  [24] JOHNSON A. 應用標準在嚴肅游戲中系統化學(xué)習分析[J]。計算機標準與接口, 2017, 50(C): 116-123.
  [25] DODERO JM、GONZALEZ-CONEJERO EJ、GUTIERREZ-HERRERA G 等。設計學(xué)習分析架構時(shí)互操作性和數據采集
性能之間的權衡[J]. 下一代計算機系統, 2017, 68: 31-37.
  [26] 李青, 趙越.學(xué)習分析數據互操作規范IMS Caliper Analytics解讀[J].現代遠程教育研究, 2016(2): 98-106.
  [27] DILLENBOURG P. 課堂編排設計[J]. 計算機與教育, 2013, 69(4): 485-492.
  [28] HSUE-YIE W, TZU-CHIEN L, CHIH-YUEH C, et al. 增強無(wú)線(xiàn)學(xué)習環(huán)境可用性和可行性的三個(gè)學(xué)習活動(dòng)水平框架[J]. 教育計算研究雜志, 2004, 30(4):331-351.
  [29] 韓力,劉正杰,李輝,等.基于情境感知的遠程用戶(hù)體驗數據采集方法[J].計算機科學(xué)學(xué)報, 2015(11): 2234-2246.
  [30] 洛林·安德森。布盧姆教育目標分類(lèi)學(xué):分類(lèi)學(xué)視角下的學(xué)習、教學(xué)與評價(jià)[M].姜小平等譯。北京:外語(yǔ)教學(xué)與研究出版社,2009.
  [31] CORBI A, SOLANS D B. 以電子學(xué)習為中心的推薦系統和學(xué)習分析中使用的當前學(xué)生監控技術(shù)回顧:體驗 API 和 LIME 模型案例研究 [J]。國際交互式多媒體與人工智能雜志, 2014 , 2(7): 44-52.
  智慧課堂中基于情境感知的動(dòng)態(tài)生成數據獲取方法與模型
  王冬青1、韓厚2、邱美玲1、凌海燕1
  (1.華南師范大學(xué)教育信息技術(shù)學(xué)院,廣東廣州510631;2.華南師范大學(xué)文學(xué)院,廣東廣州510631)
  [摘要] 智能學(xué)習中動(dòng)態(tài)生成的數據具有異構性、不完整性和強相關(guān)性的特點(diǎn)。由于傳統方法難以對這些數據進(jìn)行有效的采集和存儲,建立統一的數據采集規范和存儲機制,有效采集和分析過(guò)程數據成為智慧教育亟待解決的問(wèn)題。本文構建了一個(gè)基于情境感知技術(shù)的智能學(xué)習數據獲取模型,采用用戶(hù)、任務(wù)、位置、時(shí)間、設備和基礎設施六類(lèi)信息來(lái)表示智能學(xué)習的情境。
  本文基于xAPI規范和Caliper框架,采用四層定義動(dòng)態(tài)生成數據描述框架和云數據交換機制,以解決云環(huán)境下基于教學(xué)場(chǎng)景的多源異構數據獲取問(wèn)題,為建立教育大數據模型、開(kāi)發(fā)教育大數據云服務(wù)提供新的思路和方法。
  [關(guān)鍵詞] 情境意識;智慧教室;動(dòng)態(tài)生成的數據;數據采集
  【作者簡(jiǎn)介】王冬青(1978—),女,山東煙臺人。副教授,博士,主要從事智慧課堂學(xué)習環(huán)境的設計與應用,以及基于教學(xué)大數據的學(xué)習分析研究。電子郵件: 。
  [基金項目] 國家自然科學(xué)基金青年科學(xué)基金項目“基于情境感知的智慧教學(xué)動(dòng)態(tài)生成數據采集模型及交互式可視化分析機制研究”(項目編號:71701071);教育部人文社會(huì )科學(xué)研究青年基金項目“‘互聯(lián)網(wǎng)+’模式下兒童數字閱讀行為數據分析、設計與應用”(項目編號:17YJC880032)
  技巧:關(guān)鍵詞優(yōu)化大師:最好的關(guān)鍵詞排名優(yōu)化工具
  最佳 關(guān)鍵詞 排名優(yōu)化工具
  如果你有幾個(gè)網(wǎng)站,你可以像我一樣購買(mǎi)一個(gè)繁榮的 關(guān)鍵詞 排名優(yōu)化工具。我之前用的是免費的,但是免費的是為了給網(wǎng)站增加流量等等。其實(shí)我不需要這些。我主要是想提高我網(wǎng)站的排名。后來(lái)咨詢(xún)了Netway的售前技術(shù)。他們幫我分析了我網(wǎng)站的情況,然后給我推薦了一個(gè)6000。是的,到此為止了。
  費用,Netway的關(guān)鍵詞排名優(yōu)化軟件,他們好像費用不一樣,幾萬(wàn),你需要什么,我用了9000多,是的,我的關(guān)鍵詞有這么多人競爭,還好我排名第一頁(yè)不會(huì )急于簽單。
  關(guān)鍵詞 優(yōu)化工具是什么?
  
  關(guān)鍵詞優(yōu)化工具,又稱(chēng)點(diǎn)石關(guān)鍵詞排名優(yōu)化軟件,是一款可以在短時(shí)間內有效提升指定詞組、詞組、句子等關(guān)鍵詞的百度排名工具.
  有利于品牌推廣,穩定的自然排名可以獲得同行和客戶(hù)的信任。
  是不是我們有了這個(gè)東西就不用做優(yōu)化了,讓他直接上百度首頁(yè)。
  百度優(yōu)化大師有什么用
  優(yōu)化器是一種用于優(yōu)化計算機軟件的工具,但請謹慎使用。初學(xué)者一般不要使用,以免造成不必要的麻煩。
  
  百度優(yōu)化大師是一款針對百度關(guān)鍵詞排名優(yōu)化的軟件。其官方網(wǎng)站為 油花。有更詳細的解釋。
  優(yōu)化器用于優(yōu)化windows系統,清除一些垃圾文件,更改一些設置等。
  對百度關(guān)鍵詞優(yōu)化大師影響大嗎
  軟件只能作為輔助手段,更難達到大的效果。想一想,如果一個(gè)軟件可以操縱百度排名,那百度排名一定是一塌糊涂?,F在百度排名很亂?不會(huì ),所有的影響都不會(huì )太大。個(gè)人觀(guān)點(diǎn),僅供參考
  愛(ài)牛,讓您的網(wǎng)絡(luò )營(yíng)銷(xiāo)一步到位!愛(ài)牛,讓您的網(wǎng)絡(luò )營(yíng)銷(xiāo)真正高枕無(wú)憂(yōu)!愛(ài)牛,讓你真正享受等客戶(hù)上門(mén)的樂(lè )趣!愛(ài)牛網(wǎng)絡(luò )營(yíng)銷(xiāo),讓你的網(wǎng)絡(luò )開(kāi)始吧!看看別人怎么說(shuō)。 查看全部

  解決方案:基于情境感知的智慧課堂動(dòng)態(tài)生成性數據采集方法與模型
  汪冬青1、韓厚2、邱美玲1、凌海燕1
  (1. 華南師范大學(xué)教育信息技術(shù)學(xué)院, 廣東 廣州 510631;
  2. 華南師范大學(xué)藝術(shù)學(xué)院, 廣東廣州 510631)
  [摘要] 智慧教學(xué)過(guò)程中動(dòng)態(tài)生成的數據具有多源異構、不完備、關(guān)聯(lián)性強等特點(diǎn)。數據已成為當前智慧教育研究亟待解決的問(wèn)題。本文提出了一種基于情境感知技術(shù)的智慧教學(xué)數據采集模型,使用用戶(hù)、任務(wù)、位置、時(shí)間、設備、基礎設施六類(lèi)信息來(lái)表征智慧教學(xué)情境。定義動(dòng)態(tài)生成數據描述框架和云數據交換機制,解決云環(huán)境下基于教學(xué)情境的多源異構數據采集問(wèn)題,為教育大數據模型的建立和提供新的思路和方法。發(fā)展教育大數據云服務(wù)。
  [關(guān)鍵詞] 情境意識;智能教室;動(dòng)態(tài)生成數據;數據采集
  一、簡(jiǎn)介
  隨著(zhù)云計算、移動(dòng)互聯(lián)網(wǎng)、人機交互等新一代信息技術(shù)融入教育教學(xué)全過(guò)程,智慧教育逐漸興起,受到國內外學(xué)者的廣泛關(guān)注。與傳統教育相比,智慧教育能夠帶來(lái)更簡(jiǎn)單、更高效、智能化和個(gè)性化的教學(xué)體驗,是教育信息化發(fā)展的必然階段[1]。
  教育部印發(fā)的《“十三五”教育信息化規劃》明確提出“要依托信息技術(shù),打造信息化教學(xué)環(huán)境”。智慧教育被認為是下一代信息化教學(xué)環(huán)境的發(fā)展方向,各地不斷加大投入,掀起建設智慧校園的熱潮。以廣東省為例,《廣東省教育發(fā)展“十三五”規劃(2016-2020年)》提出,到2020年,全省建設100所“智慧校園”、300所“未來(lái)課堂”,培育500所A智慧教育示范工程。
  本文所關(guān)注的智慧教學(xué)環(huán)境是指智慧教育的基礎設施和保障條件,能夠為師生提供一個(gè)帶有移動(dòng)終端的課堂教育場(chǎng)所或活動(dòng)空間。智慧教學(xué)支持系統是智慧教學(xué)環(huán)境的核心組成部分。能夠提供適合的學(xué)習資源和便捷的交互工具,開(kāi)展教學(xué)互動(dòng)和學(xué)習評價(jià)活動(dòng),有效支持個(gè)性化學(xué)習全過(guò)程,讓各類(lèi)用戶(hù)在學(xué)校和課堂上都能學(xué)習。和家庭等環(huán)境隨時(shí)隨地訪(fǎng)問(wèn)教育教學(xué)云平臺。
  2. 問(wèn)題的呈現
  知識的生成和共享是智慧教學(xué)環(huán)境的典型特征?,F代教育觀(guān)認為教學(xué)是一種具有生成性?xún)热莸闹饔^(guān)活動(dòng)[2]。學(xué)生掌握知識的過(guò)程本質(zhì)上是一個(gè)探究、分析、選擇和創(chuàng )造的動(dòng)態(tài)過(guò)程。在傳統的教學(xué)環(huán)境中,由于缺乏信息技術(shù)手段或軟件平臺支持,無(wú)法科學(xué)準確地記錄、分析和呈現教學(xué)過(guò)程中隱含的、轉瞬即逝的動(dòng)態(tài)內容。而在“云+終端”的智慧教學(xué)環(huán)境中,基于云計算和大數據服務(wù),可以對動(dòng)態(tài)生成的內容進(jìn)行采集、記錄和分析。
  動(dòng)態(tài)生成數據的采集與分析是智慧教學(xué)研究的關(guān)鍵問(wèn)題。采集
和分析動(dòng)態(tài)生成數據可以促進(jìn)學(xué)生更好地掌握知識[3]。動(dòng)態(tài)生成數據主要是指師生在教學(xué)活動(dòng)中產(chǎn)生的過(guò)程性數據,包括教師的教學(xué)行為數據和學(xué)生的學(xué)習體驗數據(如學(xué)生的學(xué)習行為、學(xué)習活動(dòng)、學(xué)習進(jìn)度等,與學(xué)生互動(dòng)的數據)。與學(xué)習環(huán)境的數據、學(xué)生操作各種資源產(chǎn)生的數據、上述各種因素之間的關(guān)系數據等)。智慧教學(xué)環(huán)境中動(dòng)態(tài)生成的數據的數據結構更加多樣化。常規的結構化數據仍然很重要,是數據采集
和分析的基礎,但非結構化數據(如圖片、視頻、教案、課堂作業(yè)、作品、音頻、教學(xué)軟件等)越來(lái)越占主導地位,顯示出增長(cháng)勢頭迅猛,但對它們的采集還處于起步階段,遠不能滿(mǎn)足蓬勃發(fā)展的智慧課堂教學(xué)應用需求。此外,教學(xué)活動(dòng)組織實(shí)施的主觀(guān)性和不確定性等因素進(jìn)一步增加了過(guò)程數據采集的復雜性。但對它們的采集
還處于起步階段,遠遠不能滿(mǎn)足蓬勃發(fā)展的智慧課堂教學(xué)應用需求。此外,教學(xué)活動(dòng)組織實(shí)施的主觀(guān)性和不確定性等因素進(jìn)一步增加了過(guò)程數據采集的復雜性。但對它們的采集
還處于起步階段,遠遠不能滿(mǎn)足蓬勃發(fā)展的智慧課堂教學(xué)應用需求。此外,教學(xué)活動(dòng)組織實(shí)施的主觀(guān)性和不確定性等因素進(jìn)一步增加了過(guò)程數據采集的復雜性。
  目前各種跨終端的智慧教學(xué)支撐系統功能大同小異,更能滿(mǎn)足智慧課堂的教學(xué)需求,但在數據采集方面還有很大的發(fā)展空間。一方面,大多停留在簡(jiǎn)單記錄零散的學(xué)習成績(jì)數據層面,較少涉及過(guò)程性數據和非結構化數據,數據與真實(shí)教學(xué)情境緊密結合,難以全面、科學(xué)地反映教學(xué)的動(dòng)態(tài)過(guò)程而學(xué)習方面,各類(lèi)智慧教學(xué)支持系統具有獨立的數據存儲格式和傳輸方式,采集的數據相互分離,互操作性不強,難以提取和挖掘有價(jià)值的信息[ 4].
  因此,在自然狀態(tài)下不確定的教學(xué)環(huán)境中,數據采集方法和技術(shù)是智慧教學(xué)研究面臨的重大挑戰,成為困擾教育大數據研究的突出問(wèn)題。目前已有的研究主要集中在如何記錄和分析單個(gè)教學(xué)系統或MOOC平臺(如coursera、edx等)的教學(xué)管理數據或用戶(hù)行為數據。對于一人一機的智慧教學(xué)環(huán)境,對于多源異構教學(xué)系統中動(dòng)態(tài)產(chǎn)生的數據,目前還沒(méi)有形成有效的采集方法。
  為了解決上述問(wèn)題,本文針對智慧教學(xué)過(guò)程中數據來(lái)源多樣、結構復雜、采集標準規范不一致等問(wèn)題,構建了基于情境感知技術(shù)的數據采集模型,定義了一個(gè)遵循xAPI規范和Caliper框架的數據描述規范,設計與數據類(lèi)型及其應用上下文相匹配的數據存儲方式,以規范和標準實(shí)現數據的跨平臺互操作,為教育建設提供新的思路和方法大數據模型和發(fā)展教育大數據服務(wù)。
  三、研究現狀
  智慧課堂教學(xué)過(guò)程中的動(dòng)態(tài)生成數據與教學(xué)情境密切相關(guān)。建立基于態(tài)勢感知的動(dòng)態(tài)生成數據采集模型和描述規范是當前研究的關(guān)鍵問(wèn)題之一。關(guān)鍵在于教學(xué)情境感知和動(dòng)態(tài)生成數據。采集技術(shù)。
  (1) 情境意識教學(xué)
  情境是構建學(xué)習模型的重要因素,也是教育數據的重要特征。目前,態(tài)勢感知廣泛應用于災害監測、動(dòng)態(tài)資源分配、服務(wù)推薦等領(lǐng)域。在教育領(lǐng)域,主要關(guān)注情境意識在學(xué)習資源檢索、自適應學(xué)習路徑推薦等泛在學(xué)習中的應用。緒方等人。構建了一個(gè)情境感知的英語(yǔ)泛在學(xué)習系統[5],通過(guò)GPS定位學(xué)習者的位置,為學(xué)習者提供合適的英語(yǔ)詞匯;程等。構建自學(xué)習室系統,監測學(xué)習者是否在指定時(shí)間出現在指定地點(diǎn),進(jìn)而推斷學(xué)習者是否參與了學(xué)習活動(dòng)[6];Tan利用普適計算、嵌入式系統、無(wú)線(xiàn)網(wǎng)絡(luò )和RFID技術(shù)開(kāi)發(fā)了EULER系統[7],可以為他們提供合適的教材;Hwang和Chang將這些技術(shù)應用到小學(xué)生的戶(hù)外學(xué)習活動(dòng)中,引導學(xué)生通過(guò)移動(dòng)設備進(jìn)行探究性學(xué)習[8]。上述研究表明,與情境感知相關(guān)的技術(shù)正逐漸應用于單一教學(xué)活動(dòng)的數據采集,但缺乏系統、深入的面向豐富應用場(chǎng)景的全教學(xué)過(guò)程數據采集解決方案. Hwang和Chang將這些技術(shù)應用到小學(xué)生的戶(hù)外學(xué)習活動(dòng)中,引導學(xué)生通過(guò)移動(dòng)設備進(jìn)行探究性學(xué)習[8]。上述研究表明,與情境感知相關(guān)的技術(shù)正逐漸應用于單一教學(xué)活動(dòng)的數據采集,但缺乏系統、深入的面向豐富應用場(chǎng)景的全教學(xué)過(guò)程數據采集解決方案. Hwang和Chang將這些技術(shù)應用到小學(xué)生的戶(hù)外學(xué)習活動(dòng)中,引導學(xué)生通過(guò)移動(dòng)設備進(jìn)行探究性學(xué)習[8]。上述研究表明,與情境感知相關(guān)的技術(shù)正逐漸應用于單一教學(xué)活動(dòng)的數據采集,但缺乏系統、深入的面向豐富應用場(chǎng)景的全教學(xué)過(guò)程數據采集解決方案.
  一、情況分類(lèi)
  要實(shí)現情境感知的數字化學(xué)習,首先需要準確感知和采集
情境信息。先前的研究已經(jīng)提出了多種上下文分類(lèi)方法。Korhonen將情境分為八種類(lèi)型:環(huán)境情境、用戶(hù)情境、任務(wù)情境、社會(huì )情境、時(shí)空情境、設備情境、服務(wù)情境和網(wǎng)絡(luò )連接情境[9]。體現在時(shí)間和空間兩個(gè)最基本的上下文的結合上,設備、服務(wù)、網(wǎng)絡(luò )連接這三個(gè)上下文沒(méi)有明顯區別;Jumisko-Pyykk?Jumisko-Pyykk?這五種類(lèi)型對用戶(hù)使用移動(dòng)終端的情況進(jìn)行了分類(lèi)[10]。分類(lèi)數量少,使用過(guò)程中會(huì )增加分類(lèi)級別,不利于后期處理。在確定情境分類(lèi)標準的過(guò)程中,需要考慮分類(lèi)之間的完整性、差異性、同質(zhì)性、適度性、符合習慣等因素,關(guān)注用戶(hù)活動(dòng)中的任務(wù)和任務(wù)執行場(chǎng)景. 情境分類(lèi)是構建智慧教學(xué)情境本體的關(guān)鍵,為建立情境推理規則庫提供了處理方法。并關(guān)注用戶(hù)活動(dòng)中的任務(wù)和任務(wù)執行場(chǎng)景。情境分類(lèi)是構建智慧教學(xué)情境本體的關(guān)鍵,為建立情境推理規則庫提供了處理方法。并關(guān)注用戶(hù)活動(dòng)中的任務(wù)和任務(wù)執行場(chǎng)景。情境分類(lèi)是構建智慧教學(xué)情境本體的關(guān)鍵,為建立情境推理規則庫提供了處理方法。
  2. 情況表示
  在情境分類(lèi)的基礎上,需要使用理論模型或方法將獲得的情境表示為有意義的線(xiàn)索。目前,常用的上下文表示模型有:鍵值模型、標簽模型、對象角色模型、空間模型和本體模型[11]。本體建立的模型具有表達能力強、可理解性、可重用性和可共享性等優(yōu)點(diǎn),適用于描述和定義情境以及情境之間的關(guān)系,也便于計算機進(jìn)行推理。使用基于本體的方法來(lái)定義和構建情境模型也是目前主要的發(fā)展方向和趨勢。
  3. 情境處理
  在上下文處理環(huán)節,通常直接上下文不能描述用戶(hù)當前的完整上下文。為了進(jìn)一步獲取用戶(hù)的完整上下文,需要使用上下文推理對獲取的上下文進(jìn)行處理。在推理方法上,可分為基于本體的推理和基于規則的推理。在實(shí)際應用中,需要在分析其優(yōu)缺點(diǎn)的基礎上做出選擇。
  (2)教學(xué)數據采集技術(shù)
  教育領(lǐng)域具有產(chǎn)生大量數據的能力[12]。為了提高數據采集
和存儲的性能,需要考慮采集
哪些數據可以提供最有用的信息。此外,數據來(lái)源多樣、結構復雜、相關(guān)性高[13]也是數據采集
過(guò)程中需要考慮的問(wèn)題。數據采集??是數據生命周期的第一階段[14],是數據分析和應用的基礎。數據采集??技術(shù)主要包括數據采集方法、模型、規范和方法。
  一、數據采集方式
  現有教育領(lǐng)域的研究更關(guān)注學(xué)習者數據,其采集
方式包括以下三類(lèi):一是從在線(xiàn)學(xué)習環(huán)境中獲取學(xué)習者數據,包括學(xué)習日志數據、學(xué)習行為和結果數據等。研究較多的方法;二是基于攝像頭、傳感器等設備感知學(xué)習者的生理特征,推斷學(xué)生在學(xué)習活動(dòng)中的參與情況,了解學(xué)習者是否認同教師的觀(guān)點(diǎn)[12]等;三是采用問(wèn)卷或量表等方法采集
學(xué)習者的具體信息。豐富的應用場(chǎng)景需要進(jìn)行動(dòng)態(tài)生成數據的采集,
  2.數據采集模型
  針對采集
到的不同類(lèi)型的數據,Edu-graph 從五個(gè)方面對教育數據進(jìn)行建模:學(xué)習內容、學(xué)習活動(dòng)、操作行為、職業(yè)以及學(xué)習者或教師參數數據[15];Koch提出在課堂教學(xué)數據采集框架中,不僅包括學(xué)習者在教學(xué)環(huán)境中的操作行為數據,還包括學(xué)習者的績(jì)效評價(jià)數據[16];此外,為了滿(mǎn)足學(xué)生的個(gè)性化學(xué)習需求,Jeong 等人。認為智慧教育系統應該關(guān)注學(xué)習者參數和學(xué)習者特征等信息[17];Raghuveer 提出構建基于學(xué)習者參數和學(xué)習對象元數據的學(xué)習體驗模型框架[18],顧曉青等人。
  3. 數據采集標準
  數據采集??標準是實(shí)現不同廠(chǎng)商軟硬件產(chǎn)品數據互通的基礎。隨著(zhù)基于新技術(shù)的新產(chǎn)品的普及和學(xué)習內容形式的日益豐富,研究人員在學(xué)習系統的技術(shù)標準和規范方面開(kāi)展了大量的前期工作,提出了學(xué)習工具的互操作性、學(xué)習信息服務(wù)和問(wèn)題和測試互操作性等標準規范來(lái)封裝學(xué)習活動(dòng)、標簽應用場(chǎng)景等。大數據和數據科學(xué)的快速發(fā)展催生了新的標準和規范,包括Experience API(簡(jiǎn)稱(chēng)xAPI)、IMS Caliper等。 研究人員基于xAPI規范進(jìn)行了大量研究,
  4.數據采集方式
  教學(xué)由一系列具有時(shí)間順序的活動(dòng)或事件組成 [27]?;顒?dòng)過(guò)程的記錄是智慧教學(xué)過(guò)程分析的基礎和前提。一些研究者從工作流、學(xué)習流、學(xué)習活動(dòng)流等不同角度研究記錄(描述)活動(dòng)過(guò)程的方式。例如,王將課堂活動(dòng)分為三個(gè)不同的層次:學(xué)習流程、學(xué)習事件和學(xué)習功能[28]。
  目前,教育數據采集技術(shù)主要面向具體應用,采集往往是在非自然狀態(tài)下分階段進(jìn)行的(在用戶(hù)不知情的情況下,如使用問(wèn)卷或量表等),而過(guò)程中產(chǎn)生的智慧教學(xué)環(huán)境數據具有更強的實(shí)時(shí)性、連貫性、綜合性和自然性,引入態(tài)勢感知技術(shù)研究此類(lèi)數據采集逐漸成為一種趨勢和方向。
  
  綜上所述,本文探索將xAPI規范和Caliper框架引入上下文感知動(dòng)態(tài)生成數據采集,并結合數據類(lèi)型和教學(xué)情境,提出一種調用數據采集模型和存儲機制的方法。這是一種動(dòng)態(tài)、開(kāi)放的情境感知數據方法,更好地適應智慧教學(xué)環(huán)境復雜應用場(chǎng)景和高系統異構性的需求,能夠有效支撐教育大數據情境下的實(shí)時(shí)、大規模應用。研究。微教與學(xué)習過(guò)程數據的持續采集,需要實(shí)現智慧教學(xué)動(dòng)態(tài)生成數據采集與分析的服務(wù)生態(tài)。
  4. 基于情境感知的智慧教學(xué)動(dòng)態(tài)生成數據采集模型
  智慧教學(xué)通常由一系列復雜的教學(xué)活動(dòng)和環(huán)節組成。每個(gè)活動(dòng)中產(chǎn)生的動(dòng)態(tài)數據具有與情境緊密結合的特點(diǎn)。分析與活動(dòng)相關(guān)的情境數據,并基于情境數據構建采集模型,可以確保準確的感知上下文,在正確的時(shí)間采集
正確的數據。
  (1) 智慧教學(xué)情境的表示與處理
  智慧教學(xué)的動(dòng)態(tài)生成數據具有來(lái)源多、異構、不完整、不一致等特點(diǎn)。本文引入態(tài)勢感知技術(shù),對教育專(zhuān)家的態(tài)勢感知過(guò)程進(jìn)行建模,如圖1所示。具體工作包括情境獲取、情境處理和服務(wù)調用三個(gè)階段[29]。
  圖1 上下文感知過(guò)程
  上下文獲取是上下文數據建模的關(guān)鍵。研究智慧教學(xué)活動(dòng)的特征和內涵,細化教學(xué)情境數據分類(lèi)框架,從直接情境和間接情境兩個(gè)方面對智慧教學(xué)情境數據進(jìn)行分類(lèi)并篩選其具體指標,重點(diǎn)關(guān)注智慧教學(xué)情境中交互性強的任務(wù)和任務(wù)執行。教學(xué)活動(dòng)場(chǎng)景。本文將動(dòng)態(tài)生成數據采集涉及的智慧教學(xué)情境分為用戶(hù)、任務(wù)、地點(diǎn)、時(shí)間、設備、基礎設施六類(lèi);將智慧教學(xué)的具體活動(dòng)分解為不同的階段;將每個(gè)階段分解為具體的行為;以教師或學(xué)生的具體行為或與具體行為相關(guān)的情境為觸發(fā)契機,獲取智慧教學(xué)動(dòng)態(tài)生成數據的生成情況,用本體模型表示獲取的情況,如圖2所示。直接子類(lèi)和直接上下文可以通過(guò)終端或其他方式直接獲??;間接子類(lèi)和間接上下文需要通過(guò)推理獲得。
  圖2 態(tài)勢表征模型
  在情境推理階段,根據智慧教學(xué)情境模型,設計了基于本體和規則的推理方法對情境進(jìn)行推理。一方面通過(guò)直接情境得到當前完整的情境教化,另一方面檢測情境的一致性,排除沖突情境。
  在服務(wù)調用階段,設計數據采集方法調用規則,結合教學(xué)過(guò)程中師生任務(wù)行為序列,推斷數據采集情況,實(shí)現當特定的智慧教學(xué)情境或情境組合出現時(shí),調用相應的數據采集??方法獲取動(dòng)態(tài)生成的數據,同時(shí)針對不同場(chǎng)景下的結構化和非結構化數據的采集和存儲,選擇高效的存儲機制和合適的分析方法。
  (2) 智慧教學(xué)動(dòng)態(tài)生成數據采集規范
  數據只是用來(lái)描述事物的符號記錄,不提供判斷或意義解釋。數據的含義需要與具體的業(yè)務(wù)相關(guān)聯(lián)。因此,數據描述是數據采集的基礎和前提。智慧教學(xué)的生成數據具有明顯的非結構化、層次化和相關(guān)性特征。其中,相關(guān)性表現在知識概念之間、知識概念與學(xué)習資源之間、教學(xué)前后環(huán)節之間、教師行為與學(xué)生行為之間等諸多方面。借鑒國內外對學(xué)習過(guò)程的形式化描述方法和xAPI規范中學(xué)習經(jīng)驗的分解過(guò)程(即“經(jīng)驗-事件-陳述”),從目標、活動(dòng)、事件和行為,從抽象到具體。在教學(xué)過(guò)程中,構建了智慧教學(xué)動(dòng)態(tài)生成數據的層次化描述框架,如圖3所示。教學(xué)目標,再將教學(xué)活動(dòng)細化為教師或學(xué)生與資源、工具或服務(wù)進(jìn)行交互的具體事件,最后用交互行為描述學(xué)習事件。
  圖3 智慧教學(xué)動(dòng)態(tài)生成數據采集層級框架
  一、行為數據說(shuō)明
  "Participant(Actor)+action(Verb)+object包括教師、學(xué)生或個(gè)體群體;Verb是行為動(dòng)詞,指教師或學(xué)生進(jìn)行的外顯行為;Object是動(dòng)作實(shí)施的對象,包括soft、Hardware設備還包括教學(xué)內容和數據,xAPI規范在發(fā)布時(shí)就定義了一套常用詞匯,用于記錄學(xué)習者的學(xué)習體驗。屏幕)和學(xué)習者行為(如做筆記),參考xAPI動(dòng)詞創(chuàng )建方法創(chuàng )建。
  2.事件數據說(shuō)明
  學(xué)習事件以“參與者(Actor)+動(dòng)作(Verb)+客體(Object)+情境(Context)”的形式描述,其中情境信息包括學(xué)習情境和活動(dòng)情境。學(xué)習情境包括課程、教師、學(xué)生、學(xué)習平臺、項目、組織等基本信息;活動(dòng)情境包括閱讀、看視頻、測試、討論等。xAPI規范公布了常用的活動(dòng)類(lèi)型,Caliper框架給出了每類(lèi)活動(dòng)的測量參數。以考試活動(dòng)為例,其參數包括分數、嘗試次數、批改次數等,這部分數據由系統自動(dòng)記錄。
  三、活動(dòng)數據說(shuō)明
  本文從可操作性和分類(lèi)的角度將智慧課堂教學(xué)活動(dòng)歸納為以下幾類(lèi):課前準備、復習、介紹、講授、學(xué)習、實(shí)踐、成果展示和總結提高?;顒?dòng)信息通過(guò)人工設置或自動(dòng)判斷獲得。手動(dòng)設置,即教師在備課過(guò)程中預先設定教學(xué)活動(dòng),安排好要使用的內容和工具,或教師在課后查看課堂記錄時(shí)手動(dòng)標注;自動(dòng)判斷,即根據學(xué)生行為和教師行為的先后順序和行為發(fā)生的時(shí)間等信息推斷出教學(xué)活動(dòng),如“教師打開(kāi)本地資源-教師鎖定學(xué)生”
  4.目標數據說(shuō)明
  在教學(xué)目標集合方面,本文基于布盧姆的教學(xué)目標分類(lèi)理論[30],從知識和認知過(guò)程兩個(gè)維度描述了云交互課堂的教學(xué)目標。在智慧課堂中,教學(xué)目標數據的獲取可以由教師在備課階段手動(dòng)設置。為了能夠做到深入分析,教師在備課過(guò)程中還需要建立教學(xué)目標與教學(xué)活動(dòng)之間的關(guān)系。
  (3) 動(dòng)態(tài)生成數據的存儲和交換機制
  1、動(dòng)態(tài)生成數據的存儲
  在存儲機制層面,基于xAPI規范中的LRS(Learning Record Store)數據存儲模塊[31]獲取和共享學(xué)習經(jīng)驗數據,支持學(xué)習者的學(xué)習數據在任意系統和系統中離線(xiàn)和在線(xiàn)存儲支持 xAPI 規范。在設備中,針對不同場(chǎng)景和格式的數據提供了差異化的存儲機制。例如,課堂教學(xué)過(guò)程中有大量的數據輸入輸出操作和各種數據類(lèi)型。為了節省設備能耗,提高應用效率,課堂教學(xué)應用中的數據暫存于本地服務(wù)器(具有簡(jiǎn)單的統計分析功能)。結束后系統自動(dòng)將數據推送到云端,
  圖 4 數據存儲和管理框架
  對于智慧課堂動(dòng)態(tài)生成的教學(xué)視頻、學(xué)生作品等非結構化文件,具體存儲過(guò)程包括:首先,根據小文件的分類(lèi)關(guān)聯(lián),結合上下文數據,將小文件上傳到分布式文件之前系統,基于數據分類(lèi)層框架和情境聚類(lèi)算法,為分類(lèi)數據建立關(guān)聯(lián),并生成關(guān)聯(lián)小文件。二是針對教學(xué)資源視頻等大文件的處理,采用大文件分割處理技術(shù),分解成小文件,實(shí)現斷點(diǎn)續傳,保證良好的用戶(hù)體驗;對于圖片、音頻等小文件的處理,使用小文件合并為大文件的技術(shù)提高了分布式存儲的性能。三是創(chuàng )建索引文件,為大文件創(chuàng )建數據結構,記錄大文件中收錄
的小文件的長(cháng)度和起始偏移量,用來(lái)解決小文件的快速訪(fǎng)問(wèn)問(wèn)題。四是建立基于上下文的元數據緩存和關(guān)聯(lián)小文件預取策略,在智慧教學(xué)環(huán)境中使用移動(dòng)智能終端緩存元數據,實(shí)現基于終端緩存的小文件快速預取,減少與相關(guān)數據節點(diǎn)的不必要通信. 相互作用。并用它們來(lái)解決快速訪(fǎng)問(wèn)小文件的問(wèn)題。四是建立基于上下文的元數據緩存和關(guān)聯(lián)小文件預取策略,在智慧教學(xué)環(huán)境中使用移動(dòng)智能終端緩存元數據,實(shí)現基于終端緩存的小文件快速預取,減少與相關(guān)數據節點(diǎn)的不必要通信. 相互作用。并用它們來(lái)解決快速訪(fǎng)問(wèn)小文件的問(wèn)題。四是建立基于上下文的元數據緩存和關(guān)聯(lián)小文件預取策略,在智慧教學(xué)環(huán)境中使用移動(dòng)智能終端緩存元數據,實(shí)現基于終端緩存的小文件快速預取,減少與相關(guān)數據節點(diǎn)的不必要通信. 相互作用。
  2.動(dòng)態(tài)生成數據的交換
  基于動(dòng)態(tài)生成數據采集模型,形成智慧教學(xué)終端應用與云公共服務(wù)平臺的數據交互接口,實(shí)現不同來(lái)源的智慧教學(xué)動(dòng)態(tài)生成數據的采集和統一呈現,支持更高層次的非結構化數據的分析應用。通過(guò)在智慧教學(xué)支撐系統之間設置xAPI配置文件,即云公共服務(wù)平臺的數據采集標準遵循相同的動(dòng)詞使用、活動(dòng)跟蹤、排序規則、應用場(chǎng)景等約定,經(jīng)過(guò)數據合并、去重、以及結構處理,將以JSON或XML格式描述的教學(xué)數據源同步到云端公共服務(wù)平臺;同時(shí),
  五、總結
  數據采集??是大數據應用于教育的前提和基礎。目前,在智慧教學(xué)環(huán)境下的數據采集模型和方法研究中,基礎理論研究滯后于實(shí)際應用,已成為困擾教育大數據研究的前沿問(wèn)題。當前,我國正面臨新一輪教學(xué)環(huán)境建設與應用改革,而“智慧”是教學(xué)環(huán)境發(fā)展的最高追求。率先在教學(xué)動(dòng)態(tài)生成數據采集方面取得進(jìn)展,提升新一輪教學(xué)環(huán)境的智慧化。本文提出了一種面向智慧教學(xué)的情境感知模型,一種基于情境感知的動(dòng)態(tài)生成數據采集模型,以及規范和存儲機制,對大規??缦到y數據采集和分析具有指導價(jià)值和參考意義。下一步的研究將著(zhù)重構建云端結合的教育大數據分析生態(tài)系統。在數據采集
的基礎上,需要考慮如何對采集
到的數據進(jìn)行解讀,使這些數據轉化為知識服務(wù)于教學(xué),提高教學(xué)決策質(zhì)量。
  本文發(fā)表于2018年第5期《電子教育研究》,轉載請聯(lián)系電化教育研究雜志社編輯部(官方郵箱:)
  【參考】
  [1] 朱志廷,何斌.智慧教育:教育信息化的新境界[J].電子教育研究, 2012(12): 7-15.
  
  [2] AHO E、HAVERINEN HL、JUUSO H 等。教師決策和課堂管理原則;個(gè)案研究和一種新的觀(guān)察方法[J]. Procedia-社會(huì )和行為科學(xué),2010(9):395-402。
  [3] NYSTRAND M、LAWRENCE LW、ADAM G 等。及時(shí)提問(wèn):調查展開(kāi)課堂話(huà)語(yǔ)的結構和動(dòng)態(tài)[J]. 話(huà)語(yǔ)過(guò)程, 2003, 35(2): 135-198。
  [4] 丁繼紅,劉華中.大數據環(huán)境下基于多維關(guān)聯(lián)分析的學(xué)習資源精準推薦[J].電化教育研究, 2018(2): 53-59.
  [5] OGATA H, CHENGJIU Y, ROSA GP, et al. 支持課堂外的移動(dòng)語(yǔ)言學(xué)習[C]// IEEE 高級學(xué)習技術(shù)國際會(huì )議。IEEE 計算機學(xué)會(huì ),2006:928-932。
  [6] Zixue C, SHENGGUO S, MIZUO K, et al. 通過(guò)比較學(xué)習教學(xué)要求與學(xué)習者行為的個(gè)性化泛在教育支持環(huán)境[C]//先進(jìn)信息網(wǎng)絡(luò )與應用國際會(huì )議。IEEE 計算機學(xué)會(huì ),2005:5 -573。
  [7] TAN-HSU T, TSUNG-YU L, CHI-CHENG. 基于 RFID 的戶(hù)外學(xué)習無(wú)所不在學(xué)習環(huán)境的開(kāi)發(fā)與評估[J]。交互式學(xué)習環(huán)境, 2007, 15(3): 253-269 .
  [8] GWO-JEN H, HSUN-FANG C. 一種基于形成性評估的移動(dòng)學(xué)習方法,以提高學(xué)生的學(xué)習態(tài)度和成績(jì)[J]。計算機與教育, 2011, 56(4): 1023-1031.
  [9] KORHONEN H, ARRASVUORI J. 通過(guò)上下文因素分析個(gè)人移動(dòng)產(chǎn)品的用戶(hù)體驗[C]// 移動(dòng)和無(wú)處不在的多媒體國際會(huì )議,Mum 2010,塞浦路斯利馬索爾,12 月。DBLP,2010:1-10。
  [10] JUNISKO-PYYKKO S, VAINIO T. 構建移動(dòng) HCI 的使用背景[J]。國際移動(dòng)人機交互雜志, 2010, 2(4): 1-28.
  [11] BALDAUF M, DUSTDAR S, ROSENBERG F. 情境感知系統綜述[J]。Ad Hoc 和普適計算國際期刊,2007 年,2(4):263-277。
  [12] AGHABOZORGI S、MAHROEIAN H、DUTT A 等。教育大數據挖掘的可行性分析研究[J]. Computational science and its applications–ICCSA 2014 Springer, 2014, 8583(03): 721-737.
  [13] LARA JA、LIZCANO D、MARTINEZ MA 等。歐洲高等教育區電子學(xué)習環(huán)境中的知識發(fā)現系統——在馬德里開(kāi)放大學(xué)學(xué)生數據中的應用[J]。計算機與教育, 2014, 72: 23-36.
  [14] DYCKHOFF AL、ZIELKE D、BULTMANN M 等人。教師學(xué)習分析工具包的設計與實(shí)現[J]. 教育技術(shù)與社會(huì ), 2012, 15(3): 58-76.
  [15] IMS GLC。Caliper AnalyticsTM 背景 [EB/OL]。[2015-12-23]。。
  [16] KOCH F, RAO C. 通過(guò)績(jì)效評估分析實(shí)現大規模個(gè)人教育 [J]。國際信息與教育技術(shù)雜志, 2014, 4(4): 297-301.
  [17] JEONG JS, KIM M, YOO K H. 基于云計算的面向內容的智慧教育系統[J]. 國際多媒體與普適工程雜志, 2013, 8(6): 313-328.
  [18] RAGHUVEER VR,TRIPATHY B K. 電子學(xué)習環(huán)境中自適應內容檢索學(xué)習體驗的按需分析[J]。電子學(xué)習與知識社會(huì )雜志, 2015, 11(1): 171-188.
  [19] 顧曉晴,鄭龍偉,簡(jiǎn)靜.獲取教育大數據:基于xAPI規范的學(xué)習體驗數據獲取與共享[J]. 現代遠程教育研究, 2014(5): 13-23.
  [20] MURRAY K, SILVERS A. 一次學(xué)習經(jīng)歷[J]. 先進(jìn)分布式學(xué)習技術(shù)學(xué)報, 2013, 1(3-4): 7-13.
  [21] SOTTILARE RA、RARSA C、HOFFMAN M 等人。表征個(gè)人和團隊輔導的自適應輔導學(xué)習效果鏈[C]// Interservice/industry Training Simulation &amp; Education Conference。2013.
  [22] HUNG N M. 論與學(xué)習生態(tài)系統相關(guān)的形成性評價(jià)語(yǔ)義模型[J]. 國際信息與教育技術(shù)雜志, 2016, 6(1): 54-57.
  [23] CORBI A, SOLANS D B. 回顧以電子學(xué)習為中心的推薦系統和學(xué)習分析中使用的當前學(xué)生監控技術(shù)。Experience API &amp; LIME 模型案例研究[J]. 國際人工智能與交互式多媒體雜志, 2014 , 2(7): 44-52.
  [24] JOHNSON A. 應用標準在嚴肅游戲中系統化學(xué)習分析[J]。計算機標準與接口, 2017, 50(C): 116-123.
  [25] DODERO JM、GONZALEZ-CONEJERO EJ、GUTIERREZ-HERRERA G 等。設計學(xué)習分析架構時(shí)互操作性和數據采集
性能之間的權衡[J]. 下一代計算機系統, 2017, 68: 31-37.
  [26] 李青, 趙越.學(xué)習分析數據互操作規范IMS Caliper Analytics解讀[J].現代遠程教育研究, 2016(2): 98-106.
  [27] DILLENBOURG P. 課堂編排設計[J]. 計算機與教育, 2013, 69(4): 485-492.
  [28] HSUE-YIE W, TZU-CHIEN L, CHIH-YUEH C, et al. 增強無(wú)線(xiàn)學(xué)習環(huán)境可用性和可行性的三個(gè)學(xué)習活動(dòng)水平框架[J]. 教育計算研究雜志, 2004, 30(4):331-351.
  [29] 韓力,劉正杰,李輝,等.基于情境感知的遠程用戶(hù)體驗數據采集方法[J].計算機科學(xué)學(xué)報, 2015(11): 2234-2246.
  [30] 洛林·安德森。布盧姆教育目標分類(lèi)學(xué):分類(lèi)學(xué)視角下的學(xué)習、教學(xué)與評價(jià)[M].姜小平等譯。北京:外語(yǔ)教學(xué)與研究出版社,2009.
  [31] CORBI A, SOLANS D B. 以電子學(xué)習為中心的推薦系統和學(xué)習分析中使用的當前學(xué)生監控技術(shù)回顧:體驗 API 和 LIME 模型案例研究 [J]。國際交互式多媒體與人工智能雜志, 2014 , 2(7): 44-52.
  智慧課堂中基于情境感知的動(dòng)態(tài)生成數據獲取方法與模型
  王冬青1、韓厚2、邱美玲1、凌海燕1
  (1.華南師范大學(xué)教育信息技術(shù)學(xué)院,廣東廣州510631;2.華南師范大學(xué)文學(xué)院,廣東廣州510631)
  [摘要] 智能學(xué)習中動(dòng)態(tài)生成的數據具有異構性、不完整性和強相關(guān)性的特點(diǎn)。由于傳統方法難以對這些數據進(jìn)行有效的采集和存儲,建立統一的數據采集規范和存儲機制,有效采集和分析過(guò)程數據成為智慧教育亟待解決的問(wèn)題。本文構建了一個(gè)基于情境感知技術(shù)的智能學(xué)習數據獲取模型,采用用戶(hù)、任務(wù)、位置、時(shí)間、設備和基礎設施六類(lèi)信息來(lái)表示智能學(xué)習的情境。
  本文基于xAPI規范和Caliper框架,采用四層定義動(dòng)態(tài)生成數據描述框架和云數據交換機制,以解決云環(huán)境下基于教學(xué)場(chǎng)景的多源異構數據獲取問(wèn)題,為建立教育大數據模型、開(kāi)發(fā)教育大數據云服務(wù)提供新的思路和方法。
  [關(guān)鍵詞] 情境意識;智慧教室;動(dòng)態(tài)生成的數據;數據采集
  【作者簡(jiǎn)介】王冬青(1978—),女,山東煙臺人。副教授,博士,主要從事智慧課堂學(xué)習環(huán)境的設計與應用,以及基于教學(xué)大數據的學(xué)習分析研究。電子郵件: 。
  [基金項目] 國家自然科學(xué)基金青年科學(xué)基金項目“基于情境感知的智慧教學(xué)動(dòng)態(tài)生成數據采集模型及交互式可視化分析機制研究”(項目編號:71701071);教育部人文社會(huì )科學(xué)研究青年基金項目“‘互聯(lián)網(wǎng)+’模式下兒童數字閱讀行為數據分析、設計與應用”(項目編號:17YJC880032)
  技巧:關(guān)鍵詞優(yōu)化大師:最好的關(guān)鍵詞排名優(yōu)化工具
  最佳 關(guān)鍵詞 排名優(yōu)化工具
  如果你有幾個(gè)網(wǎng)站,你可以像我一樣購買(mǎi)一個(gè)繁榮的 關(guān)鍵詞 排名優(yōu)化工具。我之前用的是免費的,但是免費的是為了給網(wǎng)站增加流量等等。其實(shí)我不需要這些。我主要是想提高我網(wǎng)站的排名。后來(lái)咨詢(xún)了Netway的售前技術(shù)。他們幫我分析了我網(wǎng)站的情況,然后給我推薦了一個(gè)6000。是的,到此為止了。
  費用,Netway的關(guān)鍵詞排名優(yōu)化軟件,他們好像費用不一樣,幾萬(wàn),你需要什么,我用了9000多,是的,我的關(guān)鍵詞有這么多人競爭,還好我排名第一頁(yè)不會(huì )急于簽單。
  關(guān)鍵詞 優(yōu)化工具是什么?
  
  關(guān)鍵詞優(yōu)化工具,又稱(chēng)點(diǎn)石關(guān)鍵詞排名優(yōu)化軟件,是一款可以在短時(shí)間內有效提升指定詞組、詞組、句子等關(guān)鍵詞的百度排名工具.
  有利于品牌推廣,穩定的自然排名可以獲得同行和客戶(hù)的信任。
  是不是我們有了這個(gè)東西就不用做優(yōu)化了,讓他直接上百度首頁(yè)。
  百度優(yōu)化大師有什么用
  優(yōu)化器是一種用于優(yōu)化計算機軟件的工具,但請謹慎使用。初學(xué)者一般不要使用,以免造成不必要的麻煩。
  
  百度優(yōu)化大師是一款針對百度關(guān)鍵詞排名優(yōu)化的軟件。其官方網(wǎng)站為 油花。有更詳細的解釋。
  優(yōu)化器用于優(yōu)化windows系統,清除一些垃圾文件,更改一些設置等。
  對百度關(guān)鍵詞優(yōu)化大師影響大嗎
  軟件只能作為輔助手段,更難達到大的效果。想一想,如果一個(gè)軟件可以操縱百度排名,那百度排名一定是一塌糊涂?,F在百度排名很亂?不會(huì ),所有的影響都不會(huì )太大。個(gè)人觀(guān)點(diǎn),僅供參考
  愛(ài)牛,讓您的網(wǎng)絡(luò )營(yíng)銷(xiāo)一步到位!愛(ài)牛,讓您的網(wǎng)絡(luò )營(yíng)銷(xiāo)真正高枕無(wú)憂(yōu)!愛(ài)牛,讓你真正享受等客戶(hù)上門(mén)的樂(lè )趣!愛(ài)牛網(wǎng)絡(luò )營(yíng)銷(xiāo),讓你的網(wǎng)絡(luò )開(kāi)始吧!看看別人怎么說(shuō)。

總結:用 R 收集和映射推特數據的初學(xué)者向導

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 69 次瀏覽 ? 2022-11-29 19:13 ? 來(lái)自相關(guān)話(huà)題

  總結:用 R 收集和映射推特數據的初學(xué)者向導
  學(xué)習使用 R 的 twitteR 和 leaflet 包,您可以映射任何主題的推文位置?!嗬锼埂に箍铺?br />   文章導航
  學(xué)習使用 R 的 twitteR 和 leaflet 包,您可以映射任何主題的推文位置。
  當我開(kāi)始學(xué)習 R 時(shí),我還需要學(xué)習如何采集
推特數據并將其映射以用于研究目的。盡管網(wǎng)上有很多關(guān)于此主題的信息,但我發(fā)現很難理解與采集
和映射 Twitter 數據相關(guān)的內容。我不僅是 R 的新手,而且對各種教程中的技術(shù)術(shù)語(yǔ)也不熟悉。但是,盡管困難重重,我還是做到了!在本教程中,我將介紹如何采集
Twitter 數據并將其以新手程序員可以理解的方式顯示在地圖上。
  創(chuàng )建應用程序
  如果您沒(méi)有 Twitter 帳戶(hù),首先您需要注冊一個(gè)[1]。然后,轉至 [2] 創(chuàng )建一個(gè)允許您采集
Twitter 數據的應用程序。別擔心,創(chuàng )建應用程序非常簡(jiǎn)單。您創(chuàng )建的應用程序將與 Twitter 應用程序編程接口 (API) 連接。Imagine API 是一個(gè)多功能電子個(gè)人助理。您可以使用 API 讓其他程序為您做事。通過(guò)這種方式,您可以訪(fǎng)問(wèn) Twitter API 來(lái)采集
數據。請確保不要請求太多,因為推文數據請求的數量是有限的 [3]。
  有兩個(gè) API 可用于采集
推文。如果您想一次性采集
推文,請使用 REST API。如果您想在特定時(shí)間段內連續采集
,可以使用流式 API。在本教程中,我主要使用 REST API。
  創(chuàng )建應用程序后,轉到密鑰和訪(fǎng)問(wèn)令牌選項卡。您需要 Consumer Key (API key)、Consumer Secret (API secret)、Access Token 和 Access Token Secret 來(lái)訪(fǎng)問(wèn)您在 R 中的應用程序。
  采集
推特數據
  接下來(lái)就是打開(kāi)R,準備寫(xiě)代碼了。對于初學(xué)者,我推薦 RStudio [4],它是 R 的集成開(kāi)發(fā)環(huán)境 (IDE)。我發(fā)現 RStudio 在解決問(wèn)題和測試代碼時(shí)非常有用。R 有一個(gè)用于訪(fǎng)問(wèn)此 REST API 的包,稱(chēng)為 twitteR[5]。
  打開(kāi) RStudio 并創(chuàng )建一個(gè)新的 RScript。這樣做之后,您需要安裝并加載 twitteR 包:
  <p>install.packages("twitteR")
  #安裝 TwitteR
  library (twitteR)
  #載入 TwitteR</p>
  安裝并加載 twitteR 包后,您必須輸入上述應用程序的 API 信息:
<p><p>api_key 查看全部

  總結:用 R 收集和映射推特數據的初學(xué)者向導
  學(xué)習使用 R 的 twitteR 和 leaflet 包,您可以映射任何主題的推文位置?!嗬锼埂に箍铺?br />   文章導航
  學(xué)習使用 R 的 twitteR 和 leaflet 包,您可以映射任何主題的推文位置。
  當我開(kāi)始學(xué)習 R 時(shí),我還需要學(xué)習如何采集
推特數據并將其映射以用于研究目的。盡管網(wǎng)上有很多關(guān)于此主題的信息,但我發(fā)現很難理解與采集
和映射 Twitter 數據相關(guān)的內容。我不僅是 R 的新手,而且對各種教程中的技術(shù)術(shù)語(yǔ)也不熟悉。但是,盡管困難重重,我還是做到了!在本教程中,我將介紹如何采集
Twitter 數據并將其以新手程序員可以理解的方式顯示在地圖上。
  創(chuàng )建應用程序
  如果您沒(méi)有 Twitter 帳戶(hù),首先您需要注冊一個(gè)[1]。然后,轉至 [2] 創(chuàng )建一個(gè)允許您采集
Twitter 數據的應用程序。別擔心,創(chuàng )建應用程序非常簡(jiǎn)單。您創(chuàng )建的應用程序將與 Twitter 應用程序編程接口 (API) 連接。Imagine API 是一個(gè)多功能電子個(gè)人助理。您可以使用 API 讓其他程序為您做事。通過(guò)這種方式,您可以訪(fǎng)問(wèn) Twitter API 來(lái)采集
數據。請確保不要請求太多,因為推文數據請求的數量是有限的 [3]。
  有兩個(gè) API 可用于采集
推文。如果您想一次性采集
推文,請使用 REST API。如果您想在特定時(shí)間段內連續采集
,可以使用流式 API。在本教程中,我主要使用 REST API。
  創(chuàng )建應用程序后,轉到密鑰和訪(fǎng)問(wèn)令牌選項卡。您需要 Consumer Key (API key)、Consumer Secret (API secret)、Access Token 和 Access Token Secret 來(lái)訪(fǎng)問(wèn)您在 R 中的應用程序。
  采集
推特數據
  接下來(lái)就是打開(kāi)R,準備寫(xiě)代碼了。對于初學(xué)者,我推薦 RStudio [4],它是 R 的集成開(kāi)發(fā)環(huán)境 (IDE)。我發(fā)現 RStudio 在解決問(wèn)題和測試代碼時(shí)非常有用。R 有一個(gè)用于訪(fǎng)問(wèn)此 REST API 的包,稱(chēng)為 twitteR[5]。
  打開(kāi) RStudio 并創(chuàng )建一個(gè)新的 RScript。這樣做之后,您需要安裝并加載 twitteR 包:
  <p>install.packages("twitteR")
  #安裝 TwitteR
  library (twitteR)
  #載入 TwitteR</p>
  安裝并加載 twitteR 包后,您必須輸入上述應用程序的 API 信息:
<p><p>api_key

內容分享:通過(guò)關(guān)鍵詞采集文章采集api接口_網(wǎng)易云音樂(lè )歌單榜單_知乎文章列表

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 131 次瀏覽 ? 2022-11-28 09:32 ? 來(lái)自相關(guān)話(huà)題

  內容分享:通過(guò)關(guān)鍵詞采集文章采集api接口_網(wǎng)易云音樂(lè )歌單榜單_知乎文章列表
  通過(guò)關(guān)鍵詞采集文章采集api接口_網(wǎng)易云音樂(lè )歌單榜單_知乎文章列表的數據是不是聽(tīng)起來(lái)非常熟悉,下面跟大家介紹一下這幾個(gè)api的用法。一、關(guān)鍵詞采集api接口網(wǎng)易云音樂(lè )的歌單列表數據是通過(guò)關(guān)鍵詞和鏈接來(lái)獲取。需要注意,關(guān)鍵詞除了像我們通常會(huì )用到的"歌曲"、"歌單"、"歌曲列表"、"小眾"這樣的名詞以外,還可以是"餐廳"、"門(mén)店"等介詞組成的長(cháng)字符串。
  
  下面我們來(lái)介紹一下接口的使用方法,登錄網(wǎng)易云音樂(lè )app,搜索"歌單"這個(gè)關(guān)鍵詞,點(diǎn)擊"關(guān)鍵詞采集"按鈕,首頁(yè)就會(huì )出現相應的采集列表,選擇自己需要的數據,點(diǎn)擊"采集"按鈕,就會(huì )自動(dòng)跳轉到網(wǎng)易云音樂(lè )的采集服務(wù)器,根據指令進(jìn)行文件采集,然后點(diǎn)擊提交即可。搜索"小眾"歌單,一般就會(huì )出現本地的歌單列表列表頁(yè)面。
  可以在列表右側有"下載"、"保存"、"去重"、"分享"的選項,選擇需要的文件下載即可。百度網(wǎng)盤(pán)鏈接二、關(guān)鍵詞爬蟲(chóng)api接口采集小眾音樂(lè )列表列表頁(yè)面打開(kāi)后,下方"采集小眾列表頁(yè)"的選項,選擇"小眾列表"這個(gè)關(guān)鍵詞,里面有五個(gè)鏈接,分別是"小眾列表"-bin/miantiao-api?aid=61465&aid=61465"和"小眾列表-api&aid=61465",我們從"小眾列表-api&aid=61465"這個(gè)連接開(kāi)始。
  
  具體怎么采集呢?登錄百度網(wǎng)盤(pán),打開(kāi)"文件",點(diǎn)擊"添加文件",選擇下載至網(wǎng)盤(pán),這里直接是"api"里面關(guān)鍵詞"小眾"點(diǎn)擊打開(kāi)分享鏈接,就會(huì )自動(dòng)跳轉到百度網(wǎng)盤(pán)的api接口,選擇"baidumapi"這個(gè)連接開(kāi)始爬取歌單數據??梢钥吹礁鑶瘟斜頂祿織l數據都是".txt"格式,就是一個(gè)文本文件。下面繼續對列表進(jìn)行爬取。
  我們點(diǎn)擊"搜索",搜索"歌曲",這里會(huì )自動(dòng)跳轉到網(wǎng)易云音樂(lè )的用戶(hù)數據,點(diǎn)擊"保存",還有保存至本地的選項,而這里就是"%20"關(guān)鍵詞列表里面的歌曲名。需要注意的是,網(wǎng)易云音樂(lè )給這個(gè)關(guān)鍵詞添加了"百度云"的標識,大家可以點(diǎn)擊"保存至百度云"選項,把"百度云"的數據也保存進(jìn)去。具體用法是,百度網(wǎng)盤(pán)打開(kāi)"文件"里面的"保存至網(wǎng)盤(pán)",選擇"從百度云",這里會(huì )自動(dòng)跳轉到網(wǎng)易云音樂(lè )的接口界面,這時(shí)就可以把保存至本地的百度云數據,點(diǎn)擊"保存",就會(huì )保存網(wǎng)易云音樂(lè )的數據了。
  需要注意的是,如果"小眾列表"-bin/miantiao-api?aid=61465"這個(gè)關(guān)鍵詞被搜索過(guò),然后沒(méi)有保存下來(lái)數據,就直接不要再重復搜索了。而一般來(lái)說(shuō),使用百度云接口爬取的數據,就不會(huì )有這個(gè)問(wèn)題。twoys4.github.io,我們找到了一個(gè)網(wǎng)站叫做"bandwidthread"。 查看全部

  內容分享:通過(guò)關(guān)鍵詞采集文章采集api接口_網(wǎng)易云音樂(lè )歌單榜單_知乎文章列表
  通過(guò)關(guān)鍵詞采集文章采集api接口_網(wǎng)易云音樂(lè )歌單榜單_知乎文章列表的數據是不是聽(tīng)起來(lái)非常熟悉,下面跟大家介紹一下這幾個(gè)api的用法。一、關(guān)鍵詞采集api接口網(wǎng)易云音樂(lè )的歌單列表數據是通過(guò)關(guān)鍵詞和鏈接來(lái)獲取。需要注意,關(guān)鍵詞除了像我們通常會(huì )用到的"歌曲"、"歌單"、"歌曲列表"、"小眾"這樣的名詞以外,還可以是"餐廳"、"門(mén)店"等介詞組成的長(cháng)字符串。
  
  下面我們來(lái)介紹一下接口的使用方法,登錄網(wǎng)易云音樂(lè )app,搜索"歌單"這個(gè)關(guān)鍵詞,點(diǎn)擊"關(guān)鍵詞采集"按鈕,首頁(yè)就會(huì )出現相應的采集列表,選擇自己需要的數據,點(diǎn)擊"采集"按鈕,就會(huì )自動(dòng)跳轉到網(wǎng)易云音樂(lè )的采集服務(wù)器,根據指令進(jìn)行文件采集,然后點(diǎn)擊提交即可。搜索"小眾"歌單,一般就會(huì )出現本地的歌單列表列表頁(yè)面。
  可以在列表右側有"下載"、"保存"、"去重"、"分享"的選項,選擇需要的文件下載即可。百度網(wǎng)盤(pán)鏈接二、關(guān)鍵詞爬蟲(chóng)api接口采集小眾音樂(lè )列表列表頁(yè)面打開(kāi)后,下方"采集小眾列表頁(yè)"的選項,選擇"小眾列表"這個(gè)關(guān)鍵詞,里面有五個(gè)鏈接,分別是"小眾列表"-bin/miantiao-api?aid=61465&aid=61465"和"小眾列表-api&aid=61465",我們從"小眾列表-api&aid=61465"這個(gè)連接開(kāi)始。
  
  具體怎么采集呢?登錄百度網(wǎng)盤(pán),打開(kāi)"文件",點(diǎn)擊"添加文件",選擇下載至網(wǎng)盤(pán),這里直接是"api"里面關(guān)鍵詞"小眾"點(diǎn)擊打開(kāi)分享鏈接,就會(huì )自動(dòng)跳轉到百度網(wǎng)盤(pán)的api接口,選擇"baidumapi"這個(gè)連接開(kāi)始爬取歌單數據??梢钥吹礁鑶瘟斜頂祿織l數據都是".txt"格式,就是一個(gè)文本文件。下面繼續對列表進(jìn)行爬取。
  我們點(diǎn)擊"搜索",搜索"歌曲",這里會(huì )自動(dòng)跳轉到網(wǎng)易云音樂(lè )的用戶(hù)數據,點(diǎn)擊"保存",還有保存至本地的選項,而這里就是"%20"關(guān)鍵詞列表里面的歌曲名。需要注意的是,網(wǎng)易云音樂(lè )給這個(gè)關(guān)鍵詞添加了"百度云"的標識,大家可以點(diǎn)擊"保存至百度云"選項,把"百度云"的數據也保存進(jìn)去。具體用法是,百度網(wǎng)盤(pán)打開(kāi)"文件"里面的"保存至網(wǎng)盤(pán)",選擇"從百度云",這里會(huì )自動(dòng)跳轉到網(wǎng)易云音樂(lè )的接口界面,這時(shí)就可以把保存至本地的百度云數據,點(diǎn)擊"保存",就會(huì )保存網(wǎng)易云音樂(lè )的數據了。
  需要注意的是,如果"小眾列表"-bin/miantiao-api?aid=61465"這個(gè)關(guān)鍵詞被搜索過(guò),然后沒(méi)有保存下來(lái)數據,就直接不要再重復搜索了。而一般來(lái)說(shuō),使用百度云接口爬取的數據,就不會(huì )有這個(gè)問(wèn)題。twoys4.github.io,我們找到了一個(gè)網(wǎng)站叫做"bandwidthread"。

專(zhuān)業(yè)知識:一篇文章帶你從0到1掌握用戶(hù)畫(huà)像知識體系

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 73 次瀏覽 ? 2022-11-28 04:21 ? 來(lái)自相關(guān)話(huà)題

  專(zhuān)業(yè)知識:一篇文章帶你從0到1掌握用戶(hù)畫(huà)像知識體系
  這里推薦:
  一個(gè)。OSM 模型(目標、策略、測量)
  b. 銷(xiāo)售公式=流量*轉化率*客單價(jià)*復購率
  3、面向業(yè)務(wù)目的的運營(yíng)策略設計和用戶(hù)標簽需求針對不同的業(yè)務(wù)目的,標簽體系的構建也不同,因此標簽必須來(lái)源于運營(yíng)策略。比如業(yè)務(wù)部門(mén)要做個(gè)性化推薦,做一些關(guān)于事物或人的興趣愛(ài)好的標簽會(huì )更有價(jià)值;但如果要做精細化運營(yíng),保留和激活用戶(hù)標簽會(huì )更有價(jià)值。用戶(hù)標簽選擇參考以下示例:
  量化目標是提高掃碼方式的關(guān)注率,選擇的運營(yíng)策略是通過(guò)推送優(yōu)惠券的方式吸引微信用戶(hù)掃碼。新粉絲掃碼關(guān)注推送100元優(yōu)惠券,老粉絲掃碼關(guān)注推送50元優(yōu)惠券。,那么在執行運營(yíng)策略的過(guò)程中,需要使用“是否是新粉”這個(gè)標簽。
  這個(gè)階段可以準備一個(gè)簡(jiǎn)單的Excel模板,用于記錄交流內容。列表頭包括標簽名稱(chēng)、標簽規則、使用場(chǎng)景等,記錄與業(yè)務(wù)方的溝通內容。
  4. 組織標簽對于組織標簽,需要基于對業(yè)務(wù)和政策的理解,站在用戶(hù)的角度進(jìn)行分類(lèi)管理。這是一個(gè)參考框架:
 ?。?)用戶(hù)屬性標簽:性別、年齡、省份、城市、注冊日期、手機號等。
 ?。?)用戶(hù)行為標簽:近30天訪(fǎng)問(wèn)次數、近30天客單價(jià)、近30天活躍天數、近30天訪(fǎng)問(wèn)時(shí)長(cháng)、平均訪(fǎng)問(wèn)深度等。
  (3) 用戶(hù)消費標簽:收入狀況、購買(mǎi)力水平、購買(mǎi)的產(chǎn)品、購買(mǎi)渠道偏好、上次購買(mǎi)時(shí)間、購買(mǎi)頻率等 (4) 產(chǎn)品品類(lèi)標簽:高跟鞋、靴子、襯衫、法式連衣裙、牛仔褲, ETC。
  (5)社交屬性標簽:頻繁活躍時(shí)間段、活躍地點(diǎn)、單身、評價(jià)次數、好評等。
  2.2.2輸出標簽要求文檔
  經(jīng)過(guò)前面的需求采集
和分析,明確了業(yè)務(wù)方的標簽需求。為了研發(fā)順利交付,下一步是:編寫(xiě)標注系統文檔——根據標注規則確定埋點(diǎn)——編寫(xiě)數據需求文檔。
  1.編寫(xiě)標簽系統文檔
  在這個(gè)環(huán)節,數據產(chǎn)品經(jīng)理需要根據前期與業(yè)務(wù)方的溝通內容,制作出具體的標簽體系文檔:
  (1)Tag ID:例如ATTRITUBE_U_01_001,其中“ATTRITUBE”為人口屬性主體,“_”后的“U”為userid維度,“_”后的“01”為一級分類(lèi),“001” "末尾為該一級標簽下的標簽詳情
  (2)標簽名稱(chēng):英文格式名稱(chēng),例如famale
  (3) 標注中文:女
  (4)標簽主題:描述標簽所屬的主題,例如用戶(hù)屬性維度標簽、用戶(hù)行為維度標簽、用戶(hù)消費維度標簽 (5)標簽級別ID:標簽所屬的級別,一般分為2 levels (6) Name : ID對應的名稱(chēng)
  (7) 標簽類(lèi)型:統計標簽、規則標簽、機器學(xué)習算法標簽
 ?。?)更新頻率:實(shí)時(shí)更新,離線(xiàn)T+1更新,單次計算(9)標簽算法規則:
  一個(gè)。需要描述選擇哪個(gè)數據表中的哪個(gè)具體字段。如果需要關(guān)聯(lián)多張表,還需要說(shuō)明join是用哪個(gè)字段
  b. 具體的算法邏輯和統計周期,比如“最近7天的支付次數”,需要統計最近7天的支付總數。
 ?。ㄊ┦褂脠?chǎng)景說(shuō)明
  (11) 調度
  (12) 開(kāi)發(fā)商
 ?。ㄊ┬枨蠓?br />   (14)優(yōu)先權
  2.根據標注規則確定埋點(diǎn)
  上面已經(jīng)闡明了標簽的算法規則。接下來(lái),還需要進(jìn)一步確定應該埋哪些點(diǎn)來(lái)采集需要的數據。下面是具體的
  案子:
  對于標簽“Purchase Product Category Preference”,會(huì )用到點(diǎn)擊下單按鈕的事件數據,以及產(chǎn)品名稱(chēng)、產(chǎn)品類(lèi)別等事件屬性數據,所以需要埋掉點(diǎn)擊下單按鈕的事件。
  3.編寫(xiě)數據需求文檔
  確定好埋哪些數據后,需要制作具體的數據需求文檔,交付給負責埋的開(kāi)發(fā)同事埋。在數據需求文件中,應規定以下內容:
  (1) 墓葬名稱(chēng):click_order
  (2)埋點(diǎn)顯示名稱(chēng):點(diǎn)擊訂購按鈕
  (3)上報時(shí)間:根據實(shí)際情況,選擇上報時(shí)間。比如點(diǎn)擊下單事件,可以選擇點(diǎn)擊下單按鈕時(shí)上報
  (4)埋點(diǎn)類(lèi)型:根據實(shí)際情況,選擇埋點(diǎn)在客戶(hù)端還是服務(wù)端。比如“購買(mǎi)商品類(lèi)別偏好”標簽上的訂購按鈕的點(diǎn)擊事件,因為它只是判斷用戶(hù)對購買(mǎi)商品的偏好。用戶(hù)點(diǎn)擊按鈕后,已經(jīng)可以提示是否有偏好,無(wú)需等待服務(wù)器返回是否成功的提示。因此,適合客戶(hù)端埋點(diǎn)
  (5) 屬性名稱(chēng):事件屬性的名稱(chēng),如點(diǎn)擊下單按鈕事件的商品名稱(chēng)屬性
  (6) 屬性值:比如襯衫
 ?。ㄆ撸﹤渥?br />   在實(shí)際工作中,編寫(xiě)標簽系統文檔、根據標簽規則確定埋點(diǎn)、編寫(xiě)數據需求文檔將是一個(gè)相互完善、相輔相成的過(guò)程。
  2.2.3 標簽開(kāi)發(fā)
  在整個(gè)工程方案中,系統所依賴(lài)的基礎設施包括Spark、Hive、HBase、Airflow、MySQL、Redis、Elasticsearch。除了基礎設施,系統主體還包括三個(gè)重要的組成部分:ETL操作、用戶(hù)畫(huà)像主題建模、應用端標簽結果數據的存儲。如圖所示是用戶(hù)畫(huà)像數據倉庫的架構圖,下面簡(jiǎn)單介紹一下。
  1、Hive數據倉庫ETL作業(yè)
  下圖虛線(xiàn)框展示了常見(jiàn)的數倉ETL處理流程,即日常業(yè)務(wù)數據、日志數據、埋點(diǎn)數據等通過(guò)處理進(jìn)入數倉對應的ODS層、DW層、DM層ETL 過(guò)程。
  2、Hive數倉用戶(hù)畫(huà)像主題建模
  中間的虛線(xiàn)框是用戶(hù)畫(huà)像建模的主要環(huán)節,會(huì )基于數據倉庫的ODS層、DW層、DM層對用戶(hù)相關(guān)數據進(jìn)行二次建模和處理。
  3、應用端標簽結果數據的存儲
  在用戶(hù)畫(huà)像的主題建模過(guò)程中,會(huì )將用戶(hù)標簽的計算結果寫(xiě)入Hive。由于不同的數據庫有不同的應用場(chǎng)景,下面分別介紹:
  (1) MySQL
  作為關(guān)系型數據庫,可用于元數據管理、監控預警數據、用戶(hù)畫(huà)像中的結果集存儲等應用。下面詳細介紹這三種應用場(chǎng)景:
  一個(gè)。元數據管理:MySQL讀寫(xiě)速度更快。平臺標簽視圖(Web端產(chǎn)品)中的標簽元數據可以維護在MySQL關(guān)系數據庫中,方便標簽的編輯、查詢(xún)和管理。
  b. 監控預警數據:在畫(huà)像的數據監控中,調度流每跑過(guò)相應的模塊,都會(huì )將該模塊的監控數據插入MySQL,當驗證任務(wù)判斷達到觸發(fā)告警閾值時(shí),告警將被觸發(fā)。
  C。結果集存儲:存儲多維視角分析的標簽,圈人服務(wù)的用戶(hù)標簽,記錄當天每個(gè)標簽的數量等。
 ?。ǘ〩Base
  與Hive不同,HBase可以在數據庫上實(shí)時(shí)運行,而不是運行MapReduce任務(wù),適用于大數據的實(shí)時(shí)查詢(xún)。下面以案例介紹HBase在畫(huà)像系統中的應用場(chǎng)景及工程實(shí)現:某渠道商擬通過(guò)App首頁(yè)彈窗發(fā)放紅包或優(yōu)惠券,以促進(jìn)其注冊下單。未注冊的新安裝用戶(hù)啟動(dòng)。每天畫(huà)像系統ETL調度完成后,會(huì )推送相應的人群數據到廣告系統(存儲在HBase數據庫中)。當滿(mǎn)足條件的新用戶(hù)訪(fǎng)問(wèn)App時(shí),在線(xiàn)接口讀取HBase數據庫,在查詢(xún)用戶(hù)時(shí)向用戶(hù)推送彈窗。
  (3) 彈性搜索
  它是一個(gè)開(kāi)源分布式全文搜索引擎,可以近乎實(shí)時(shí)地存儲和檢索數據。對于響應時(shí)間要求高的場(chǎng)景,比如用戶(hù)標簽查詢(xún)、用戶(hù)人口統計、用戶(hù)群體多維度透視分析等,也可以考慮使用Elasticsearch進(jìn)行存儲。
  2.2.4 標簽發(fā)布及效果跟蹤
  經(jīng)過(guò)開(kāi)發(fā)測試,上線(xiàn)后需要持續跟蹤標簽應用的效果和業(yè)務(wù)方的反饋,調整優(yōu)化模型和相關(guān)權重配置。
  03.用戶(hù)畫(huà)像產(chǎn)品化
  在商業(yè)價(jià)值上,標簽和畫(huà)像類(lèi)似于一個(gè)中間層的系統模塊,為前端服務(wù)提供數據支持。開(kāi)發(fā)出人像標簽數據后,如果只是“躺在”數據倉庫中,將無(wú)法發(fā)揮更大的商業(yè)價(jià)值。只有將人像數據商業(yè)化后,數據處理環(huán)節上各個(gè)環(huán)節的效率才能得到標準化的提升,同時(shí)也更加方便業(yè)務(wù)方使用。下面從標簽生產(chǎn)架構和產(chǎn)品化后覆蓋的功能模塊兩個(gè)角度進(jìn)行總結:
  3.1 用戶(hù)畫(huà)像產(chǎn)品體系架構
  下圖是一個(gè)用戶(hù)畫(huà)像產(chǎn)品體系的結構圖。數據從左到右,主要包括數據采集、數據接入、數據集成/標簽計算、標簽應用四個(gè)層次。讓我們嘗試簡(jiǎn)要描述一下:
  3.1.1 數據采集
  
  在數據采集模塊中,主要通過(guò)客戶(hù)端/服務(wù)端SDK、導入、與第三方應用對接等方式采集日志數據、業(yè)務(wù)數據、第三方數據。
  1.開(kāi)發(fā)工具包
 ?。?)客戶(hù)端SDK:通過(guò)嵌入客戶(hù)端SDK,可以采集iOS、Android、小程序、網(wǎng)站等各類(lèi)客戶(hù)端的用戶(hù)行為數據和用戶(hù)屬性信息。
  (2) 服務(wù)端SDK:如果數據已經(jīng)存在于數據庫或者數據倉庫中,比如訂單信息,可以使用開(kāi)發(fā)語(yǔ)言對應的服務(wù)端SDK來(lái)采集數據。
  2.進(jìn)口商
  根據運行環(huán)境、源數據格式、導入數據大小等因素,可選擇不同的大導入方式,將歷史文件數據導入用戶(hù)畫(huà)像產(chǎn)品系統。
  3、領(lǐng)克根據不同第三方產(chǎn)品OpenAPI的特點(diǎn),采用接收事件消息推送或主動(dòng)輪詢(xún)的方式采集
用戶(hù)在不同第三方應用系統中的個(gè)人屬性和行為事件數據。
  3.1.2 數據訪(fǎng)問(wèn)
  埋點(diǎn)數據先大量進(jìn)入Kafka,然后慢慢消費訪(fǎng)問(wèn)后續的數據集成存儲系統。
  3.1.3 數據整合/標簽計算
  在用戶(hù)畫(huà)像系統中,Hive主要作為數據倉庫進(jìn)行ETL處理,開(kāi)發(fā)相應的用戶(hù)屬性表和用戶(hù)行為表,計算標簽。
  1、數據整合
  從各個(gè)渠道接收到的數據存在隔離、空值、格式不匹配、超出限制范圍等數據質(zhì)量問(wèn)題。因此,需要進(jìn)行臟數據清洗、格式轉換、用戶(hù)識別和合并等集成工作:
  (1) 清理/改造
  a.Clean:比如用戶(hù)的出生日期是未來(lái)的某個(gè)日期,所以需要過(guò)濾掉這種臟數據
  b.Transform:例如通過(guò)第三方應用API獲取的所有用戶(hù)的地域信息,采用IPB標準編碼形式。為了和其他渠道的信息一起分析,需要按照IPB標準編碼轉換成標準的省、省、省。城市格式
  (2) ID映射
  一個(gè)。從各個(gè)通道接收到的用戶(hù)屬性數據和行為事件數據是相互隔離的。為了計算用戶(hù)的全面綜合標簽,需要對用戶(hù)進(jìn)行識別和合并。比如通過(guò)unionID,識別并合并同一個(gè)微信公眾號、小程序、開(kāi)放平臺網(wǎng)站的同一個(gè)用戶(hù)的信息。
  經(jīng)過(guò)數據整合處理后,數據將進(jìn)入如下數據模型:
  2.標簽計算
  在用戶(hù)畫(huà)像系統中,將構建批量離線(xiàn)標簽處理引擎,依托于相對穩定的底層數據結構。標簽引擎同時(shí)讀取事件數據和用戶(hù)屬性數據,然后按照特定的標簽規則進(jìn)行批量計算,最終生成用戶(hù)標簽。
  3.1.4 標簽申請
  標簽的應用主要分為前端畫(huà)像展示和通過(guò)API訪(fǎng)問(wèn)其他系統兩種應用方式,在后面的“3.2用戶(hù)畫(huà)像產(chǎn)品化功能模塊”一章中有詳細介紹。
  3.2 用戶(hù)畫(huà)像產(chǎn)品功能模塊
  3.2.1 系統看板
  通常,用戶(hù)畫(huà)像系統的數據儀表盤(pán)以可視化的形式展示企業(yè)的核心用戶(hù)數據資產(chǎn)或關(guān)注人群的數據。旨在建立和統一用戶(hù)對企業(yè)數據資產(chǎn)或核心人口數據的基本認識,主要分為以下幾類(lèi):
  1、用戶(hù)量級及變化趨勢:不同設備類(lèi)型ID量級,不同類(lèi)型用戶(hù)量級(如注冊用戶(hù)與非注冊用戶(hù)、付費用戶(hù)與非付費用戶(hù)等);
  2. 標簽資產(chǎn):按主要類(lèi)別統計標簽數量等;
  3、核心用戶(hù)標簽:展示固有或自定義群體的關(guān)鍵標簽畫(huà)像數據等;
  3.2.2 標簽管理
  供業(yè)務(wù)人員對標簽進(jìn)行增刪改查,包括:標簽分類(lèi)、新建標簽、標簽審核、標簽下架、標簽覆蓋率監控等。
  根據用戶(hù)行為數據和用戶(hù)屬性數據設置標簽規則創(chuàng )建標簽:
  3.2.3 單用戶(hù)畫(huà)像
  主要能力包括通過(guò)輸入用戶(hù)ID查看單個(gè)用戶(hù)畫(huà)像的詳細數據,如用戶(hù)屬性信息、用戶(hù)行為等數據。
  3.2.4 用戶(hù)分群及用戶(hù)群畫(huà)像
  1、用戶(hù)分組
  用戶(hù)分組功能主要面向業(yè)務(wù)人員。產(chǎn)品經(jīng)理、運營(yíng)、客服等業(yè)務(wù)人員在應用標簽時(shí),可能不僅僅查看某個(gè)標簽對應的群體情況,可能需要組合多個(gè)標簽來(lái)滿(mǎn)足他們對群體的業(yè)務(wù)定義。例如:結合“近7天多次領(lǐng)取優(yōu)惠券”、“活躍度等于高和極高”、“女性”用戶(hù)3個(gè)標簽定義目標人群,查看覆蓋用戶(hù)數這個(gè)組。
  2、用戶(hù)群體畫(huà)像
  與用戶(hù)分組功能類(lèi)似,用戶(hù)群畫(huà)像功能首先需要結合標簽來(lái)圈定用戶(hù)群體。不同的是,用戶(hù)群畫(huà)像功能支持從多維度分析所圈定的用戶(hù)群體的特征,而用戶(hù)分群功能則側重于篩選出用戶(hù)群體,推送到各個(gè)業(yè)務(wù)系統,提供服務(wù)支持。
  3.2.5 BI分析
  BI平臺與這些數據打通后,可以豐富數據的維度,通過(guò)各種分析模型支持更豐富、更深入的分析對比。
  3.2.6 開(kāi)放API
  OpenAPI可以保證畫(huà)像系統數據與推送系統、營(yíng)銷(xiāo)系統、廣告系統、推薦系統、BI等各個(gè)平臺的連接,保證各個(gè)系統數據的實(shí)時(shí)更新,避免來(lái)自同一來(lái)源的不同數字的問(wèn)題。
  04.用戶(hù)畫(huà)像應用
  前面提到,用戶(hù)畫(huà)像主要包括三個(gè)應用:業(yè)務(wù)分析、精準營(yíng)銷(xiāo)、個(gè)性化推薦與服務(wù)。具體可以分為:
  4.1 經(jīng)營(yíng)分析
  用戶(hù)畫(huà)像系統的標簽數據通過(guò)API進(jìn)入分析系統后,可以豐富分析數據的維度,支持對各類(lèi)業(yè)務(wù)對象的業(yè)務(wù)分析。下面總結了一些市場(chǎng)、運營(yíng)、產(chǎn)品人員分析時(shí)會(huì )關(guān)注的指標:
  4.1.1 流量分析
  一、流量來(lái)源
  2、流量:UV、PV
  3、流量質(zhì)量:瀏覽深度(UV、PV)、停留時(shí)長(cháng)、來(lái)源轉化、ROI(投資回報率)
  4.1.2 用戶(hù)分析
  1. 用戶(hù)數:新用戶(hù)數、老用戶(hù)數、新老用戶(hù)比
  2、用戶(hù)質(zhì)量:新用戶(hù)數(app啟動(dòng))、活躍用戶(hù)數(app啟動(dòng))、用戶(hù)留存(app啟動(dòng)-app啟動(dòng))、用戶(hù)參與度、睡意、客單價(jià)
  4.1.3 產(chǎn)品分析
  1、商品銷(xiāo)量:GMV、客單價(jià)、下單人數、退購人數、退貨人數、各終端復購率、購買(mǎi)頻率分布、經(jīng)營(yíng)崗位購買(mǎi)轉化
  2、商品類(lèi):支付訂單狀態(tài)(次數、人數、趨勢、復購)、訪(fǎng)問(wèn)購買(mǎi)狀態(tài)、申請退貨狀態(tài)、訂單取消狀態(tài)、關(guān)注狀態(tài)
  4.1.4 順序分析
  1、訂單指標:總訂單量、退款訂單量、訂單應付金額、訂單實(shí)際支付金額、下單人數
  2、轉化率指標:新訂單/訪(fǎng)問(wèn)UV、有效訂單/訪(fǎng)問(wèn)UV
  4.1.5 渠道分析
  1.活躍用戶(hù)
  (1)活躍用戶(hù):UV、PV
  
 ?。ǘ┬略鲇脩?hù):注冊量、注冊量同比比較
  2、用戶(hù)質(zhì)量
  (1)留存率:次日留存率/7天/30天
  3、渠道收入
  (1)訂單:訂單量、日均訂單量、同比訂單量
 ?。?)收入:支付金額、日均支付金額、同比金額(3)用戶(hù):人均訂單量、人均訂單金額
  4.1.6 產(chǎn)品分析
  1、搜索功能:搜索人數/次,搜索功能滲透率,search關(guān)鍵詞
  2.關(guān)鍵路徑漏斗等產(chǎn)品功能設計分析
  4.2 精準營(yíng)銷(xiāo)
  4.2.1 短信/郵件/推送營(yíng)銷(xiāo)
  在日常生活中,我們經(jīng)常會(huì )從很多渠道收到營(yíng)銷(xiāo)信息。紅包到賬的短信推送可能會(huì )提示用戶(hù)打開(kāi)很久沒(méi)有訪(fǎng)問(wèn)的應用,心愿單中圖書(shū)降價(jià)的郵件推送可能會(huì )刺激用戶(hù)打開(kāi)推送鏈接直接下單。營(yíng)銷(xiāo)有哪些類(lèi)型?大致可以分為以下4類(lèi):
  1、行為營(yíng)銷(xiāo):商品瀏覽、加入購物車(chē)、店鋪掃碼、取消訂單、退貨等。
  2. 位置營(yíng)銷(xiāo):周邊門(mén)店、周邊活動(dòng)、常去區域等 3. 節日營(yíng)銷(xiāo):生日、春節、雙十一、雙十二、圣誕節等。
  4、會(huì )員營(yíng)銷(xiāo):歡迎加入、優(yōu)惠券提醒、積分變化、等級變化、會(huì )員福利等。
  4.2.2客服語(yǔ)音技巧
  當我們向某平臺客服部門(mén)投訴、咨詢(xún)或反饋時(shí),客服人員可以準確地告訴我們我們在該平臺的購買(mǎi)情況、上次咨詢(xún)問(wèn)題的結果等信息,并及時(shí)提出解決方案有針對性的方式。為價(jià)值用戶(hù)提供VIP客服通道等特色服務(wù)。
  4.3 個(gè)性化推薦和服務(wù)
  應用運營(yíng)方可以通過(guò)在用戶(hù)畫(huà)像中推送性別、年齡段、興趣愛(ài)好、瀏覽和購買(mǎi)行為等標簽,向用戶(hù)推薦不同的內容。例如今日頭條的個(gè)性化文章內容推薦,抖音基于用戶(hù)畫(huà)像的個(gè)性化視頻內容推薦,淘寶基于用戶(hù)瀏覽行為等畫(huà)像數據的個(gè)性化商品推薦。
  05.用戶(hù)畫(huà)像實(shí)踐案例
  基于畫(huà)像系統做多方位的數據分析和用戶(hù)可觸達的運營(yíng)方案,標簽數據可以快速應用到服務(wù)層(T+1,實(shí)時(shí)應用),通過(guò)效果分析得到用戶(hù)反饋后,它有助于迭代營(yíng)銷(xiāo)策略或產(chǎn)品設計。下面通過(guò)一些實(shí)際案例,場(chǎng)景化地復現用戶(hù)畫(huà)像的應用要點(diǎn)和應用方法。
  5.1 A/B人群效應測試
  5.1.1 案例背景
  為了在大促期間獲得更好的銷(xiāo)量,某快消產(chǎn)品計劃通過(guò)新聞推送的方式,對新上架的產(chǎn)品和產(chǎn)品的保健功能進(jìn)行系列文章植入,為大促造勢,刺激銷(xiāo)量。銷(xiāo)售轉化。為了準確定位目標人群流量,渠道運營(yíng)商現計劃進(jìn)行兩次A/B人群效應測試:
  1、不同內容標題對流量的影響;
  2、與普通推送相比,精準推送帶來(lái)更多流量。
  5.1.2 用戶(hù)畫(huà)像入口
  在整個(gè)項目中,需要梳理AB組流量如何劃分,AB組人群規則如何設計以及效果監控。下面分步介紹人像系統在A(yíng)B人群測試中的使用方法。
  1. 對AB組用戶(hù)進(jìn)行細分要想做A/B組測試,首先要做好流量的細分。您可以使用A/B分布和隨機分布的形式將用戶(hù)劃分為A/B組。
  2. 文案對流量影響測試方案 某平臺渠道商為了在大促期間召回更多用戶(hù)訪(fǎng)問(wèn)APP,計劃抽取少量用戶(hù)進(jìn)行AB效果測試。在活動(dòng)預熱期間復制標題。
  本次測試方案中,控制組A選擇路徑A的用戶(hù)組,在過(guò)去x天訪(fǎng)問(wèn)過(guò),在過(guò)去x天瀏覽/采集
/購買(mǎi)過(guò)零食,將零售文案A推送給這些用戶(hù); 控制組B選擇對于走過(guò)路徑B,在過(guò)去x天訪(fǎng)問(wèn)過(guò),并且在過(guò)去x天瀏覽/采集
/購買(mǎi)過(guò)零食的用戶(hù)群,將零食文案B推送給該組用戶(hù)。control group和control group的用戶(hù)數是一樣的,但是文案不同。跟進(jìn)監測兩組人的點(diǎn)擊率,然后分析不同文案對用戶(hù)點(diǎn)擊的影響。例如通過(guò)用戶(hù)分組功能選擇A組中的用戶(hù),如下圖:
  3、精準推送相比普通推送帶來(lái)的流量提升測試方案
  在使用畫(huà)像系統精細推送人之前,某平臺以亂推送消息的形式推送用戶(hù)。為了測試精細化運營(yíng)組相比無(wú)差異化運營(yíng)帶來(lái)的流量提升,渠道運營(yíng)人員決定在目前重點(diǎn)運營(yíng)的零食營(yíng)銷(xiāo)場(chǎng)館進(jìn)行AB效果測試。
  在本次測試計劃中,控制組A選擇了路徑A,在過(guò)去x天內訪(fǎng)問(wèn)過(guò),并在過(guò)去x天內瀏覽/采集
/購買(mǎi)了零食;對照組B選擇路徑B,在過(guò)去x天訪(fǎng)問(wèn)過(guò),A用戶(hù)組沒(méi)有類(lèi)別偏好。將同樣的文字推送給A組和B組的用戶(hù)群,然后監控兩組人的點(diǎn)擊率,進(jìn)而分析精準營(yíng)銷(xiāo)推送帶來(lái)的增長(cháng)點(diǎn)。
  5.1.3 效果分析
  AB群消息推送上線(xiàn)后,需要構建監控報表,監控控制組和測試組的流量和轉化情況,重點(diǎn)關(guān)注下表指標:
  例如,使用事件分析模型構建的AB人群的GMV對比報告如下圖所示:
  5.2 女神節精準營(yíng)銷(xiāo)
  5.2.1 案例背景
  某主打女性產(chǎn)品的品牌商計劃在女神節期間針對不同品類(lèi)偏好的女神進(jìn)行針對性營(yíng)銷(xiāo)。營(yíng)銷(xiāo)信息會(huì )推送兩次,第一次是在當天10:00推送促銷(xiāo)信息,第二次是在當晚10:00發(fā)送一波促銷(xiāo)提醒。最后,通過(guò)跟蹤目標受眾支付訂單的當天完成率來(lái)評估營(yíng)銷(xiāo)效果。
  5.2.2 實(shí)現邏輯
  首先根據用戶(hù)性別標簽和年齡標簽圈選擇18-40歲的女性用戶(hù)。然后延遲到2020-03-08上午10點(diǎn),根據用戶(hù)的品類(lèi)偏好標簽推送不同的營(yíng)銷(xiāo)內容。第二波推送延遲至2020-03-08晚上10點(diǎn),推送信息為統一促銷(xiāo)提醒。
  5.3 新裝未注冊用戶(hù)實(shí)時(shí)營(yíng)銷(xiāo)
  5.3.1 案例背景
  某小吃商城App運營(yíng)方為促進(jìn)未注冊新裝用戶(hù)注冊下單,制定了運營(yíng)規則:新裝未注冊用戶(hù)打開(kāi)App時(shí),通過(guò)App彈窗推送優(yōu)惠券進(jìn)行營(yíng)銷(xiāo). 例如,如果用戶(hù)安裝APP后沒(méi)有注冊,改天用戶(hù)打開(kāi)后會(huì )第一時(shí)間推送APP彈窗優(yōu)惠券,更好的引導用戶(hù)完成注冊下單。
  5.3.2 用戶(hù)畫(huà)像入口
  渠道運營(yíng)商通過(guò)組合用戶(hù)標簽(如“未注冊用戶(hù)”、“今日安裝量”小于××天)篩選出相應的用戶(hù)群體,然后選擇將相應的群體推送至“廣告系統”。這樣每天畫(huà)像系統的ETL調度完成后,就會(huì )將對應的人群數據推送到HBase數據庫中存儲。當滿(mǎn)足條件的新用戶(hù)訪(fǎng)問(wèn)App時(shí),在線(xiàn)接口讀取HBase數據庫,在查詢(xún)用戶(hù)時(shí)向用戶(hù)推送彈窗。
  5.4 電子商務(wù)再營(yíng)銷(xiāo)廣告
  5.4.1 案例背景
  某電商APP產(chǎn)品運營(yíng)團隊希望提高老客戶(hù)對電子產(chǎn)品的復購率和新客戶(hù)的下單率,選擇與今日頭條合作投放再營(yíng)銷(xiāo)廣告。例如,某用戶(hù)在電商APP中看到了一款vivo手機,第二天查看今日頭條時(shí),看到了對應手機的廣告信息。
  5.4.2 實(shí)現邏輯
  首先需要保證電商APP和今日頭條的API已經(jīng)開(kāi)放,然后根據用戶(hù)在A(yíng)PP中的行為(瀏覽、采集
、追加、搜索等)進(jìn)行算法挖掘。生成用戶(hù)產(chǎn)品偏好的標簽。今日頭條在抓取用戶(hù)的設備信息后,會(huì )向電商發(fā)送請求,詢(xún)問(wèn)是否需要向用戶(hù)展示廣告。這時(shí)電商平臺會(huì )判斷該用戶(hù)是否是自己的用戶(hù)。如果是自己的用戶(hù),會(huì )返回一個(gè)推薦結果給今日頭條,用戶(hù)會(huì )看到自己之前在今日頭條瀏覽過(guò)的商品信息。您現在可以跳轉到電子商務(wù)應用程序中的產(chǎn)品詳細信息頁(yè)面。
  06.總結
  1、首先,描述了用戶(hù)畫(huà)像、用戶(hù)標簽、用戶(hù)群體的認知概念;
  2.然后,對標簽系統的分類(lèi)、標簽構建的過(guò)程和方法進(jìn)行了說(shuō)明;
  3、為了說(shuō)明如何讓數據倉庫中“躺著(zhù)”的畫(huà)像標簽數據發(fā)揮更大的商業(yè)價(jià)值,從系統架構和應用層功能兩個(gè)角度對用戶(hù)畫(huà)像系統的構建進(jìn)行簡(jiǎn)要總結;
  4.最后從業(yè)務(wù)分析、精準營(yíng)銷(xiāo)、個(gè)性化推薦三個(gè)角度總結了用戶(hù)畫(huà)像的應用,并在實(shí)戰案例部分列舉了幾個(gè)用戶(hù)畫(huà)像的實(shí)際應用案例。
  參考:
  [1] 趙紅天,《用戶(hù)畫(huà)像:方法論與工程化解決方案》
  [2] 曉峰老師,21天訓練營(yíng)
  [3] 草帽小子,如何從0-1搭建用戶(hù)畫(huà)像系統
  [4] 酒仙橋@道明前輩,從0開(kāi)始構建用戶(hù)畫(huà)像系統的系列文章
  [5]秦璐,什么是用戶(hù)畫(huà)像,一般用戶(hù)畫(huà)像的作用是什么
  [6] 蔡青青,如何打造有效的用戶(hù)畫(huà)像(Persona)
  [7] 趙紅天,《數據化運營(yíng):系統方法與實(shí)戰案例》 [8] 劉振華,《電商數據分析與數據化運營(yíng)》
  分享文章:百度到底是喜歡原創(chuàng )文章還是采集文章的網(wǎng)站(自媒體網(wǎng)站如何采集文章優(yōu)化)
  本文主要為您介紹SEO網(wǎng)站文章優(yōu)化。有需要的朋友可以參考一下。如果您覺(jué)得對您有幫助,希望您能關(guān)注本站。
  剛開(kāi)始做網(wǎng)站的時(shí)候,一直在想一個(gè)問(wèn)題,
  百度是喜歡原創(chuàng )文章的網(wǎng)站還是采集
文章的網(wǎng)站?雖然百度出過(guò)打擊采集網(wǎng)站的算法,但感覺(jué)并沒(méi)有真正落地。
  不僅如此,對于那些辛勤工作的原創(chuàng )站長(cháng)來(lái)說(shuō),
  有時(shí)候效果還不如別人的輕松采集
效果好,那么今天我們就來(lái)和大家分析一下網(wǎng)站是如何進(jìn)行SEO的采集
文章的。
  如何采集
文章:
  
  采集
文章的本質(zhì)是移動(dòng)它們。我認為在互聯(lián)網(wǎng)上移動(dòng)文章有兩種方法:
  1、自己手動(dòng)復制和傳輸。手動(dòng)復制太費時(shí)間和精力了。你得去各大網(wǎng)站找你要的文章,然后復制采集
。不過(guò)人工運輸也有好處,就是我們可以改Find exactly what you want。
  2.使用采集軟件批量采集。之前跟大家說(shuō)的小說(shuō)采集
站的玩法其實(shí)和采集
軟件差不多。采集軟件可以根據我們提供的關(guān)鍵詞自動(dòng)采集,對于自媒體網(wǎng)站的文章也會(huì )顯示閱讀數、評論數等。
  使用采集軟件有利于我們分析數據,比如哪篇文章更受歡迎,更受歡迎。我們可以通過(guò)數據分析所有這些,然后將它們傳輸到我們的網(wǎng)站。
  使用采集
的文章來(lái)優(yōu)化網(wǎng)站:
  對于一個(gè)網(wǎng)站來(lái)說(shuō),內容很重要,除非你是付費玩家(SEM),否則不做內容也能獲得好的排名。對于我們草根站長(cháng)來(lái)說(shuō),內容就像是一棟樓的地基。
  必須先打好地基,才能建造摩天大樓。
  
  所以如果你想利用采集
的文章來(lái)優(yōu)化你的網(wǎng)站,我建議你重點(diǎn)關(guān)注網(wǎng)站優(yōu)化的幾個(gè)要點(diǎn)。首先是網(wǎng)站的TDK編寫(xiě)。網(wǎng)站的TDK編寫(xiě)很重要。
  百度蜘蛛進(jìn)入你的網(wǎng)站后,首先抓取的是網(wǎng)頁(yè)的TDK。
  有的朋友可能不知道什么是TDK。主要是網(wǎng)頁(yè)的三大標簽,標題(title),關(guān)鍵詞(keywords)和描述(description),所以在發(fā)表文章的時(shí)候一定要合理設置。
  第二點(diǎn)是網(wǎng)頁(yè)內鏈的錨文本。由于我們選擇采集文章進(jìn)行優(yōu)化,所以每天都有大量的文章發(fā)布。這時(shí)候可能會(huì )有更多的百度蜘蛛來(lái)抓取網(wǎng)站內容。
  而我們就是想利用好這樣一個(gè)特性,讓百度蜘蛛繼續深入爬取。通過(guò)設置網(wǎng)站文章的內部鏈接,它會(huì )在我們的網(wǎng)站中不斷爬取和抓取。這將有助于增加我們網(wǎng)站的整體權重。
  第三點(diǎn)是關(guān)于網(wǎng)站內部的評論模塊。雖然前期可能會(huì )說(shuō)沒(méi)有人會(huì )在我們的網(wǎng)站上發(fā)表評論,但是我們可以自己發(fā)表評論。其實(shí)百度蜘蛛也會(huì )抓取評論模塊,那我們應該怎么使用呢?好評呢?
  我的拙見(jiàn)是我們可以使用注釋來(lái)增加關(guān)鍵詞的密度。百度也評估了頁(yè)面上關(guān)鍵詞的密度。我們在站長(cháng)工具中看到推薦的密度在2%到8%之間。之間,
  至于是真是假,我不知道,但不管是真是假,還是建議大家好好利用評論模塊。如果有效怎么辦?沒(méi)錯,這些都是不準確的。 查看全部

  專(zhuān)業(yè)知識:一篇文章帶你從0到1掌握用戶(hù)畫(huà)像知識體系
  這里推薦:
  一個(gè)。OSM 模型(目標、策略、測量)
  b. 銷(xiāo)售公式=流量*轉化率*客單價(jià)*復購率
  3、面向業(yè)務(wù)目的的運營(yíng)策略設計和用戶(hù)標簽需求針對不同的業(yè)務(wù)目的,標簽體系的構建也不同,因此標簽必須來(lái)源于運營(yíng)策略。比如業(yè)務(wù)部門(mén)要做個(gè)性化推薦,做一些關(guān)于事物或人的興趣愛(ài)好的標簽會(huì )更有價(jià)值;但如果要做精細化運營(yíng),保留和激活用戶(hù)標簽會(huì )更有價(jià)值。用戶(hù)標簽選擇參考以下示例:
  量化目標是提高掃碼方式的關(guān)注率,選擇的運營(yíng)策略是通過(guò)推送優(yōu)惠券的方式吸引微信用戶(hù)掃碼。新粉絲掃碼關(guān)注推送100元優(yōu)惠券,老粉絲掃碼關(guān)注推送50元優(yōu)惠券。,那么在執行運營(yíng)策略的過(guò)程中,需要使用“是否是新粉”這個(gè)標簽。
  這個(gè)階段可以準備一個(gè)簡(jiǎn)單的Excel模板,用于記錄交流內容。列表頭包括標簽名稱(chēng)、標簽規則、使用場(chǎng)景等,記錄與業(yè)務(wù)方的溝通內容。
  4. 組織標簽對于組織標簽,需要基于對業(yè)務(wù)和政策的理解,站在用戶(hù)的角度進(jìn)行分類(lèi)管理。這是一個(gè)參考框架:
 ?。?)用戶(hù)屬性標簽:性別、年齡、省份、城市、注冊日期、手機號等。
 ?。?)用戶(hù)行為標簽:近30天訪(fǎng)問(wèn)次數、近30天客單價(jià)、近30天活躍天數、近30天訪(fǎng)問(wèn)時(shí)長(cháng)、平均訪(fǎng)問(wèn)深度等。
  (3) 用戶(hù)消費標簽:收入狀況、購買(mǎi)力水平、購買(mǎi)的產(chǎn)品、購買(mǎi)渠道偏好、上次購買(mǎi)時(shí)間、購買(mǎi)頻率等 (4) 產(chǎn)品品類(lèi)標簽:高跟鞋、靴子、襯衫、法式連衣裙、牛仔褲, ETC。
  (5)社交屬性標簽:頻繁活躍時(shí)間段、活躍地點(diǎn)、單身、評價(jià)次數、好評等。
  2.2.2輸出標簽要求文檔
  經(jīng)過(guò)前面的需求采集
和分析,明確了業(yè)務(wù)方的標簽需求。為了研發(fā)順利交付,下一步是:編寫(xiě)標注系統文檔——根據標注規則確定埋點(diǎn)——編寫(xiě)數據需求文檔。
  1.編寫(xiě)標簽系統文檔
  在這個(gè)環(huán)節,數據產(chǎn)品經(jīng)理需要根據前期與業(yè)務(wù)方的溝通內容,制作出具體的標簽體系文檔:
  (1)Tag ID:例如ATTRITUBE_U_01_001,其中“ATTRITUBE”為人口屬性主體,“_”后的“U”為userid維度,“_”后的“01”為一級分類(lèi),“001” "末尾為該一級標簽下的標簽詳情
  (2)標簽名稱(chēng):英文格式名稱(chēng),例如famale
  (3) 標注中文:女
  (4)標簽主題:描述標簽所屬的主題,例如用戶(hù)屬性維度標簽、用戶(hù)行為維度標簽、用戶(hù)消費維度標簽 (5)標簽級別ID:標簽所屬的級別,一般分為2 levels (6) Name : ID對應的名稱(chēng)
  (7) 標簽類(lèi)型:統計標簽、規則標簽、機器學(xué)習算法標簽
 ?。?)更新頻率:實(shí)時(shí)更新,離線(xiàn)T+1更新,單次計算(9)標簽算法規則:
  一個(gè)。需要描述選擇哪個(gè)數據表中的哪個(gè)具體字段。如果需要關(guān)聯(lián)多張表,還需要說(shuō)明join是用哪個(gè)字段
  b. 具體的算法邏輯和統計周期,比如“最近7天的支付次數”,需要統計最近7天的支付總數。
 ?。ㄊ┦褂脠?chǎng)景說(shuō)明
  (11) 調度
  (12) 開(kāi)發(fā)商
 ?。ㄊ┬枨蠓?br />   (14)優(yōu)先權
  2.根據標注規則確定埋點(diǎn)
  上面已經(jīng)闡明了標簽的算法規則。接下來(lái),還需要進(jìn)一步確定應該埋哪些點(diǎn)來(lái)采集需要的數據。下面是具體的
  案子:
  對于標簽“Purchase Product Category Preference”,會(huì )用到點(diǎn)擊下單按鈕的事件數據,以及產(chǎn)品名稱(chēng)、產(chǎn)品類(lèi)別等事件屬性數據,所以需要埋掉點(diǎn)擊下單按鈕的事件。
  3.編寫(xiě)數據需求文檔
  確定好埋哪些數據后,需要制作具體的數據需求文檔,交付給負責埋的開(kāi)發(fā)同事埋。在數據需求文件中,應規定以下內容:
  (1) 墓葬名稱(chēng):click_order
  (2)埋點(diǎn)顯示名稱(chēng):點(diǎn)擊訂購按鈕
  (3)上報時(shí)間:根據實(shí)際情況,選擇上報時(shí)間。比如點(diǎn)擊下單事件,可以選擇點(diǎn)擊下單按鈕時(shí)上報
  (4)埋點(diǎn)類(lèi)型:根據實(shí)際情況,選擇埋點(diǎn)在客戶(hù)端還是服務(wù)端。比如“購買(mǎi)商品類(lèi)別偏好”標簽上的訂購按鈕的點(diǎn)擊事件,因為它只是判斷用戶(hù)對購買(mǎi)商品的偏好。用戶(hù)點(diǎn)擊按鈕后,已經(jīng)可以提示是否有偏好,無(wú)需等待服務(wù)器返回是否成功的提示。因此,適合客戶(hù)端埋點(diǎn)
  (5) 屬性名稱(chēng):事件屬性的名稱(chēng),如點(diǎn)擊下單按鈕事件的商品名稱(chēng)屬性
  (6) 屬性值:比如襯衫
 ?。ㄆ撸﹤渥?br />   在實(shí)際工作中,編寫(xiě)標簽系統文檔、根據標簽規則確定埋點(diǎn)、編寫(xiě)數據需求文檔將是一個(gè)相互完善、相輔相成的過(guò)程。
  2.2.3 標簽開(kāi)發(fā)
  在整個(gè)工程方案中,系統所依賴(lài)的基礎設施包括Spark、Hive、HBase、Airflow、MySQL、Redis、Elasticsearch。除了基礎設施,系統主體還包括三個(gè)重要的組成部分:ETL操作、用戶(hù)畫(huà)像主題建模、應用端標簽結果數據的存儲。如圖所示是用戶(hù)畫(huà)像數據倉庫的架構圖,下面簡(jiǎn)單介紹一下。
  1、Hive數據倉庫ETL作業(yè)
  下圖虛線(xiàn)框展示了常見(jiàn)的數倉ETL處理流程,即日常業(yè)務(wù)數據、日志數據、埋點(diǎn)數據等通過(guò)處理進(jìn)入數倉對應的ODS層、DW層、DM層ETL 過(guò)程。
  2、Hive數倉用戶(hù)畫(huà)像主題建模
  中間的虛線(xiàn)框是用戶(hù)畫(huà)像建模的主要環(huán)節,會(huì )基于數據倉庫的ODS層、DW層、DM層對用戶(hù)相關(guān)數據進(jìn)行二次建模和處理。
  3、應用端標簽結果數據的存儲
  在用戶(hù)畫(huà)像的主題建模過(guò)程中,會(huì )將用戶(hù)標簽的計算結果寫(xiě)入Hive。由于不同的數據庫有不同的應用場(chǎng)景,下面分別介紹:
  (1) MySQL
  作為關(guān)系型數據庫,可用于元數據管理、監控預警數據、用戶(hù)畫(huà)像中的結果集存儲等應用。下面詳細介紹這三種應用場(chǎng)景:
  一個(gè)。元數據管理:MySQL讀寫(xiě)速度更快。平臺標簽視圖(Web端產(chǎn)品)中的標簽元數據可以維護在MySQL關(guān)系數據庫中,方便標簽的編輯、查詢(xún)和管理。
  b. 監控預警數據:在畫(huà)像的數據監控中,調度流每跑過(guò)相應的模塊,都會(huì )將該模塊的監控數據插入MySQL,當驗證任務(wù)判斷達到觸發(fā)告警閾值時(shí),告警將被觸發(fā)。
  C。結果集存儲:存儲多維視角分析的標簽,圈人服務(wù)的用戶(hù)標簽,記錄當天每個(gè)標簽的數量等。
 ?。ǘ〩Base
  與Hive不同,HBase可以在數據庫上實(shí)時(shí)運行,而不是運行MapReduce任務(wù),適用于大數據的實(shí)時(shí)查詢(xún)。下面以案例介紹HBase在畫(huà)像系統中的應用場(chǎng)景及工程實(shí)現:某渠道商擬通過(guò)App首頁(yè)彈窗發(fā)放紅包或優(yōu)惠券,以促進(jìn)其注冊下單。未注冊的新安裝用戶(hù)啟動(dòng)。每天畫(huà)像系統ETL調度完成后,會(huì )推送相應的人群數據到廣告系統(存儲在HBase數據庫中)。當滿(mǎn)足條件的新用戶(hù)訪(fǎng)問(wèn)App時(shí),在線(xiàn)接口讀取HBase數據庫,在查詢(xún)用戶(hù)時(shí)向用戶(hù)推送彈窗。
  (3) 彈性搜索
  它是一個(gè)開(kāi)源分布式全文搜索引擎,可以近乎實(shí)時(shí)地存儲和檢索數據。對于響應時(shí)間要求高的場(chǎng)景,比如用戶(hù)標簽查詢(xún)、用戶(hù)人口統計、用戶(hù)群體多維度透視分析等,也可以考慮使用Elasticsearch進(jìn)行存儲。
  2.2.4 標簽發(fā)布及效果跟蹤
  經(jīng)過(guò)開(kāi)發(fā)測試,上線(xiàn)后需要持續跟蹤標簽應用的效果和業(yè)務(wù)方的反饋,調整優(yōu)化模型和相關(guān)權重配置。
  03.用戶(hù)畫(huà)像產(chǎn)品化
  在商業(yè)價(jià)值上,標簽和畫(huà)像類(lèi)似于一個(gè)中間層的系統模塊,為前端服務(wù)提供數據支持。開(kāi)發(fā)出人像標簽數據后,如果只是“躺在”數據倉庫中,將無(wú)法發(fā)揮更大的商業(yè)價(jià)值。只有將人像數據商業(yè)化后,數據處理環(huán)節上各個(gè)環(huán)節的效率才能得到標準化的提升,同時(shí)也更加方便業(yè)務(wù)方使用。下面從標簽生產(chǎn)架構和產(chǎn)品化后覆蓋的功能模塊兩個(gè)角度進(jìn)行總結:
  3.1 用戶(hù)畫(huà)像產(chǎn)品體系架構
  下圖是一個(gè)用戶(hù)畫(huà)像產(chǎn)品體系的結構圖。數據從左到右,主要包括數據采集、數據接入、數據集成/標簽計算、標簽應用四個(gè)層次。讓我們嘗試簡(jiǎn)要描述一下:
  3.1.1 數據采集
  
  在數據采集模塊中,主要通過(guò)客戶(hù)端/服務(wù)端SDK、導入、與第三方應用對接等方式采集日志數據、業(yè)務(wù)數據、第三方數據。
  1.開(kāi)發(fā)工具包
 ?。?)客戶(hù)端SDK:通過(guò)嵌入客戶(hù)端SDK,可以采集iOS、Android、小程序、網(wǎng)站等各類(lèi)客戶(hù)端的用戶(hù)行為數據和用戶(hù)屬性信息。
  (2) 服務(wù)端SDK:如果數據已經(jīng)存在于數據庫或者數據倉庫中,比如訂單信息,可以使用開(kāi)發(fā)語(yǔ)言對應的服務(wù)端SDK來(lái)采集數據。
  2.進(jìn)口商
  根據運行環(huán)境、源數據格式、導入數據大小等因素,可選擇不同的大導入方式,將歷史文件數據導入用戶(hù)畫(huà)像產(chǎn)品系統。
  3、領(lǐng)克根據不同第三方產(chǎn)品OpenAPI的特點(diǎn),采用接收事件消息推送或主動(dòng)輪詢(xún)的方式采集
用戶(hù)在不同第三方應用系統中的個(gè)人屬性和行為事件數據。
  3.1.2 數據訪(fǎng)問(wèn)
  埋點(diǎn)數據先大量進(jìn)入Kafka,然后慢慢消費訪(fǎng)問(wèn)后續的數據集成存儲系統。
  3.1.3 數據整合/標簽計算
  在用戶(hù)畫(huà)像系統中,Hive主要作為數據倉庫進(jìn)行ETL處理,開(kāi)發(fā)相應的用戶(hù)屬性表和用戶(hù)行為表,計算標簽。
  1、數據整合
  從各個(gè)渠道接收到的數據存在隔離、空值、格式不匹配、超出限制范圍等數據質(zhì)量問(wèn)題。因此,需要進(jìn)行臟數據清洗、格式轉換、用戶(hù)識別和合并等集成工作:
  (1) 清理/改造
  a.Clean:比如用戶(hù)的出生日期是未來(lái)的某個(gè)日期,所以需要過(guò)濾掉這種臟數據
  b.Transform:例如通過(guò)第三方應用API獲取的所有用戶(hù)的地域信息,采用IPB標準編碼形式。為了和其他渠道的信息一起分析,需要按照IPB標準編碼轉換成標準的省、省、省。城市格式
  (2) ID映射
  一個(gè)。從各個(gè)通道接收到的用戶(hù)屬性數據和行為事件數據是相互隔離的。為了計算用戶(hù)的全面綜合標簽,需要對用戶(hù)進(jìn)行識別和合并。比如通過(guò)unionID,識別并合并同一個(gè)微信公眾號、小程序、開(kāi)放平臺網(wǎng)站的同一個(gè)用戶(hù)的信息。
  經(jīng)過(guò)數據整合處理后,數據將進(jìn)入如下數據模型:
  2.標簽計算
  在用戶(hù)畫(huà)像系統中,將構建批量離線(xiàn)標簽處理引擎,依托于相對穩定的底層數據結構。標簽引擎同時(shí)讀取事件數據和用戶(hù)屬性數據,然后按照特定的標簽規則進(jìn)行批量計算,最終生成用戶(hù)標簽。
  3.1.4 標簽申請
  標簽的應用主要分為前端畫(huà)像展示和通過(guò)API訪(fǎng)問(wèn)其他系統兩種應用方式,在后面的“3.2用戶(hù)畫(huà)像產(chǎn)品化功能模塊”一章中有詳細介紹。
  3.2 用戶(hù)畫(huà)像產(chǎn)品功能模塊
  3.2.1 系統看板
  通常,用戶(hù)畫(huà)像系統的數據儀表盤(pán)以可視化的形式展示企業(yè)的核心用戶(hù)數據資產(chǎn)或關(guān)注人群的數據。旨在建立和統一用戶(hù)對企業(yè)數據資產(chǎn)或核心人口數據的基本認識,主要分為以下幾類(lèi):
  1、用戶(hù)量級及變化趨勢:不同設備類(lèi)型ID量級,不同類(lèi)型用戶(hù)量級(如注冊用戶(hù)與非注冊用戶(hù)、付費用戶(hù)與非付費用戶(hù)等);
  2. 標簽資產(chǎn):按主要類(lèi)別統計標簽數量等;
  3、核心用戶(hù)標簽:展示固有或自定義群體的關(guān)鍵標簽畫(huà)像數據等;
  3.2.2 標簽管理
  供業(yè)務(wù)人員對標簽進(jìn)行增刪改查,包括:標簽分類(lèi)、新建標簽、標簽審核、標簽下架、標簽覆蓋率監控等。
  根據用戶(hù)行為數據和用戶(hù)屬性數據設置標簽規則創(chuàng )建標簽:
  3.2.3 單用戶(hù)畫(huà)像
  主要能力包括通過(guò)輸入用戶(hù)ID查看單個(gè)用戶(hù)畫(huà)像的詳細數據,如用戶(hù)屬性信息、用戶(hù)行為等數據。
  3.2.4 用戶(hù)分群及用戶(hù)群畫(huà)像
  1、用戶(hù)分組
  用戶(hù)分組功能主要面向業(yè)務(wù)人員。產(chǎn)品經(jīng)理、運營(yíng)、客服等業(yè)務(wù)人員在應用標簽時(shí),可能不僅僅查看某個(gè)標簽對應的群體情況,可能需要組合多個(gè)標簽來(lái)滿(mǎn)足他們對群體的業(yè)務(wù)定義。例如:結合“近7天多次領(lǐng)取優(yōu)惠券”、“活躍度等于高和極高”、“女性”用戶(hù)3個(gè)標簽定義目標人群,查看覆蓋用戶(hù)數這個(gè)組。
  2、用戶(hù)群體畫(huà)像
  與用戶(hù)分組功能類(lèi)似,用戶(hù)群畫(huà)像功能首先需要結合標簽來(lái)圈定用戶(hù)群體。不同的是,用戶(hù)群畫(huà)像功能支持從多維度分析所圈定的用戶(hù)群體的特征,而用戶(hù)分群功能則側重于篩選出用戶(hù)群體,推送到各個(gè)業(yè)務(wù)系統,提供服務(wù)支持。
  3.2.5 BI分析
  BI平臺與這些數據打通后,可以豐富數據的維度,通過(guò)各種分析模型支持更豐富、更深入的分析對比。
  3.2.6 開(kāi)放API
  OpenAPI可以保證畫(huà)像系統數據與推送系統、營(yíng)銷(xiāo)系統、廣告系統、推薦系統、BI等各個(gè)平臺的連接,保證各個(gè)系統數據的實(shí)時(shí)更新,避免來(lái)自同一來(lái)源的不同數字的問(wèn)題。
  04.用戶(hù)畫(huà)像應用
  前面提到,用戶(hù)畫(huà)像主要包括三個(gè)應用:業(yè)務(wù)分析、精準營(yíng)銷(xiāo)、個(gè)性化推薦與服務(wù)。具體可以分為:
  4.1 經(jīng)營(yíng)分析
  用戶(hù)畫(huà)像系統的標簽數據通過(guò)API進(jìn)入分析系統后,可以豐富分析數據的維度,支持對各類(lèi)業(yè)務(wù)對象的業(yè)務(wù)分析。下面總結了一些市場(chǎng)、運營(yíng)、產(chǎn)品人員分析時(shí)會(huì )關(guān)注的指標:
  4.1.1 流量分析
  一、流量來(lái)源
  2、流量:UV、PV
  3、流量質(zhì)量:瀏覽深度(UV、PV)、停留時(shí)長(cháng)、來(lái)源轉化、ROI(投資回報率)
  4.1.2 用戶(hù)分析
  1. 用戶(hù)數:新用戶(hù)數、老用戶(hù)數、新老用戶(hù)比
  2、用戶(hù)質(zhì)量:新用戶(hù)數(app啟動(dòng))、活躍用戶(hù)數(app啟動(dòng))、用戶(hù)留存(app啟動(dòng)-app啟動(dòng))、用戶(hù)參與度、睡意、客單價(jià)
  4.1.3 產(chǎn)品分析
  1、商品銷(xiāo)量:GMV、客單價(jià)、下單人數、退購人數、退貨人數、各終端復購率、購買(mǎi)頻率分布、經(jīng)營(yíng)崗位購買(mǎi)轉化
  2、商品類(lèi):支付訂單狀態(tài)(次數、人數、趨勢、復購)、訪(fǎng)問(wèn)購買(mǎi)狀態(tài)、申請退貨狀態(tài)、訂單取消狀態(tài)、關(guān)注狀態(tài)
  4.1.4 順序分析
  1、訂單指標:總訂單量、退款訂單量、訂單應付金額、訂單實(shí)際支付金額、下單人數
  2、轉化率指標:新訂單/訪(fǎng)問(wèn)UV、有效訂單/訪(fǎng)問(wèn)UV
  4.1.5 渠道分析
  1.活躍用戶(hù)
  (1)活躍用戶(hù):UV、PV
  
 ?。ǘ┬略鲇脩?hù):注冊量、注冊量同比比較
  2、用戶(hù)質(zhì)量
  (1)留存率:次日留存率/7天/30天
  3、渠道收入
  (1)訂單:訂單量、日均訂單量、同比訂單量
 ?。?)收入:支付金額、日均支付金額、同比金額(3)用戶(hù):人均訂單量、人均訂單金額
  4.1.6 產(chǎn)品分析
  1、搜索功能:搜索人數/次,搜索功能滲透率,search關(guān)鍵詞
  2.關(guān)鍵路徑漏斗等產(chǎn)品功能設計分析
  4.2 精準營(yíng)銷(xiāo)
  4.2.1 短信/郵件/推送營(yíng)銷(xiāo)
  在日常生活中,我們經(jīng)常會(huì )從很多渠道收到營(yíng)銷(xiāo)信息。紅包到賬的短信推送可能會(huì )提示用戶(hù)打開(kāi)很久沒(méi)有訪(fǎng)問(wèn)的應用,心愿單中圖書(shū)降價(jià)的郵件推送可能會(huì )刺激用戶(hù)打開(kāi)推送鏈接直接下單。營(yíng)銷(xiāo)有哪些類(lèi)型?大致可以分為以下4類(lèi):
  1、行為營(yíng)銷(xiāo):商品瀏覽、加入購物車(chē)、店鋪掃碼、取消訂單、退貨等。
  2. 位置營(yíng)銷(xiāo):周邊門(mén)店、周邊活動(dòng)、常去區域等 3. 節日營(yíng)銷(xiāo):生日、春節、雙十一、雙十二、圣誕節等。
  4、會(huì )員營(yíng)銷(xiāo):歡迎加入、優(yōu)惠券提醒、積分變化、等級變化、會(huì )員福利等。
  4.2.2客服語(yǔ)音技巧
  當我們向某平臺客服部門(mén)投訴、咨詢(xún)或反饋時(shí),客服人員可以準確地告訴我們我們在該平臺的購買(mǎi)情況、上次咨詢(xún)問(wèn)題的結果等信息,并及時(shí)提出解決方案有針對性的方式。為價(jià)值用戶(hù)提供VIP客服通道等特色服務(wù)。
  4.3 個(gè)性化推薦和服務(wù)
  應用運營(yíng)方可以通過(guò)在用戶(hù)畫(huà)像中推送性別、年齡段、興趣愛(ài)好、瀏覽和購買(mǎi)行為等標簽,向用戶(hù)推薦不同的內容。例如今日頭條的個(gè)性化文章內容推薦,抖音基于用戶(hù)畫(huà)像的個(gè)性化視頻內容推薦,淘寶基于用戶(hù)瀏覽行為等畫(huà)像數據的個(gè)性化商品推薦。
  05.用戶(hù)畫(huà)像實(shí)踐案例
  基于畫(huà)像系統做多方位的數據分析和用戶(hù)可觸達的運營(yíng)方案,標簽數據可以快速應用到服務(wù)層(T+1,實(shí)時(shí)應用),通過(guò)效果分析得到用戶(hù)反饋后,它有助于迭代營(yíng)銷(xiāo)策略或產(chǎn)品設計。下面通過(guò)一些實(shí)際案例,場(chǎng)景化地復現用戶(hù)畫(huà)像的應用要點(diǎn)和應用方法。
  5.1 A/B人群效應測試
  5.1.1 案例背景
  為了在大促期間獲得更好的銷(xiāo)量,某快消產(chǎn)品計劃通過(guò)新聞推送的方式,對新上架的產(chǎn)品和產(chǎn)品的保健功能進(jìn)行系列文章植入,為大促造勢,刺激銷(xiāo)量。銷(xiāo)售轉化。為了準確定位目標人群流量,渠道運營(yíng)商現計劃進(jìn)行兩次A/B人群效應測試:
  1、不同內容標題對流量的影響;
  2、與普通推送相比,精準推送帶來(lái)更多流量。
  5.1.2 用戶(hù)畫(huà)像入口
  在整個(gè)項目中,需要梳理AB組流量如何劃分,AB組人群規則如何設計以及效果監控。下面分步介紹人像系統在A(yíng)B人群測試中的使用方法。
  1. 對AB組用戶(hù)進(jìn)行細分要想做A/B組測試,首先要做好流量的細分。您可以使用A/B分布和隨機分布的形式將用戶(hù)劃分為A/B組。
  2. 文案對流量影響測試方案 某平臺渠道商為了在大促期間召回更多用戶(hù)訪(fǎng)問(wèn)APP,計劃抽取少量用戶(hù)進(jìn)行AB效果測試。在活動(dòng)預熱期間復制標題。
  本次測試方案中,控制組A選擇路徑A的用戶(hù)組,在過(guò)去x天訪(fǎng)問(wèn)過(guò),在過(guò)去x天瀏覽/采集
/購買(mǎi)過(guò)零食,將零售文案A推送給這些用戶(hù); 控制組B選擇對于走過(guò)路徑B,在過(guò)去x天訪(fǎng)問(wèn)過(guò),并且在過(guò)去x天瀏覽/采集
/購買(mǎi)過(guò)零食的用戶(hù)群,將零食文案B推送給該組用戶(hù)。control group和control group的用戶(hù)數是一樣的,但是文案不同。跟進(jìn)監測兩組人的點(diǎn)擊率,然后分析不同文案對用戶(hù)點(diǎn)擊的影響。例如通過(guò)用戶(hù)分組功能選擇A組中的用戶(hù),如下圖:
  3、精準推送相比普通推送帶來(lái)的流量提升測試方案
  在使用畫(huà)像系統精細推送人之前,某平臺以亂推送消息的形式推送用戶(hù)。為了測試精細化運營(yíng)組相比無(wú)差異化運營(yíng)帶來(lái)的流量提升,渠道運營(yíng)人員決定在目前重點(diǎn)運營(yíng)的零食營(yíng)銷(xiāo)場(chǎng)館進(jìn)行AB效果測試。
  在本次測試計劃中,控制組A選擇了路徑A,在過(guò)去x天內訪(fǎng)問(wèn)過(guò),并在過(guò)去x天內瀏覽/采集
/購買(mǎi)了零食;對照組B選擇路徑B,在過(guò)去x天訪(fǎng)問(wèn)過(guò),A用戶(hù)組沒(méi)有類(lèi)別偏好。將同樣的文字推送給A組和B組的用戶(hù)群,然后監控兩組人的點(diǎn)擊率,進(jìn)而分析精準營(yíng)銷(xiāo)推送帶來(lái)的增長(cháng)點(diǎn)。
  5.1.3 效果分析
  AB群消息推送上線(xiàn)后,需要構建監控報表,監控控制組和測試組的流量和轉化情況,重點(diǎn)關(guān)注下表指標:
  例如,使用事件分析模型構建的AB人群的GMV對比報告如下圖所示:
  5.2 女神節精準營(yíng)銷(xiāo)
  5.2.1 案例背景
  某主打女性產(chǎn)品的品牌商計劃在女神節期間針對不同品類(lèi)偏好的女神進(jìn)行針對性營(yíng)銷(xiāo)。營(yíng)銷(xiāo)信息會(huì )推送兩次,第一次是在當天10:00推送促銷(xiāo)信息,第二次是在當晚10:00發(fā)送一波促銷(xiāo)提醒。最后,通過(guò)跟蹤目標受眾支付訂單的當天完成率來(lái)評估營(yíng)銷(xiāo)效果。
  5.2.2 實(shí)現邏輯
  首先根據用戶(hù)性別標簽和年齡標簽圈選擇18-40歲的女性用戶(hù)。然后延遲到2020-03-08上午10點(diǎn),根據用戶(hù)的品類(lèi)偏好標簽推送不同的營(yíng)銷(xiāo)內容。第二波推送延遲至2020-03-08晚上10點(diǎn),推送信息為統一促銷(xiāo)提醒。
  5.3 新裝未注冊用戶(hù)實(shí)時(shí)營(yíng)銷(xiāo)
  5.3.1 案例背景
  某小吃商城App運營(yíng)方為促進(jìn)未注冊新裝用戶(hù)注冊下單,制定了運營(yíng)規則:新裝未注冊用戶(hù)打開(kāi)App時(shí),通過(guò)App彈窗推送優(yōu)惠券進(jìn)行營(yíng)銷(xiāo). 例如,如果用戶(hù)安裝APP后沒(méi)有注冊,改天用戶(hù)打開(kāi)后會(huì )第一時(shí)間推送APP彈窗優(yōu)惠券,更好的引導用戶(hù)完成注冊下單。
  5.3.2 用戶(hù)畫(huà)像入口
  渠道運營(yíng)商通過(guò)組合用戶(hù)標簽(如“未注冊用戶(hù)”、“今日安裝量”小于××天)篩選出相應的用戶(hù)群體,然后選擇將相應的群體推送至“廣告系統”。這樣每天畫(huà)像系統的ETL調度完成后,就會(huì )將對應的人群數據推送到HBase數據庫中存儲。當滿(mǎn)足條件的新用戶(hù)訪(fǎng)問(wèn)App時(shí),在線(xiàn)接口讀取HBase數據庫,在查詢(xún)用戶(hù)時(shí)向用戶(hù)推送彈窗。
  5.4 電子商務(wù)再營(yíng)銷(xiāo)廣告
  5.4.1 案例背景
  某電商APP產(chǎn)品運營(yíng)團隊希望提高老客戶(hù)對電子產(chǎn)品的復購率和新客戶(hù)的下單率,選擇與今日頭條合作投放再營(yíng)銷(xiāo)廣告。例如,某用戶(hù)在電商APP中看到了一款vivo手機,第二天查看今日頭條時(shí),看到了對應手機的廣告信息。
  5.4.2 實(shí)現邏輯
  首先需要保證電商APP和今日頭條的API已經(jīng)開(kāi)放,然后根據用戶(hù)在A(yíng)PP中的行為(瀏覽、采集
、追加、搜索等)進(jìn)行算法挖掘。生成用戶(hù)產(chǎn)品偏好的標簽。今日頭條在抓取用戶(hù)的設備信息后,會(huì )向電商發(fā)送請求,詢(xún)問(wèn)是否需要向用戶(hù)展示廣告。這時(shí)電商平臺會(huì )判斷該用戶(hù)是否是自己的用戶(hù)。如果是自己的用戶(hù),會(huì )返回一個(gè)推薦結果給今日頭條,用戶(hù)會(huì )看到自己之前在今日頭條瀏覽過(guò)的商品信息。您現在可以跳轉到電子商務(wù)應用程序中的產(chǎn)品詳細信息頁(yè)面。
  06.總結
  1、首先,描述了用戶(hù)畫(huà)像、用戶(hù)標簽、用戶(hù)群體的認知概念;
  2.然后,對標簽系統的分類(lèi)、標簽構建的過(guò)程和方法進(jìn)行了說(shuō)明;
  3、為了說(shuō)明如何讓數據倉庫中“躺著(zhù)”的畫(huà)像標簽數據發(fā)揮更大的商業(yè)價(jià)值,從系統架構和應用層功能兩個(gè)角度對用戶(hù)畫(huà)像系統的構建進(jìn)行簡(jiǎn)要總結;
  4.最后從業(yè)務(wù)分析、精準營(yíng)銷(xiāo)、個(gè)性化推薦三個(gè)角度總結了用戶(hù)畫(huà)像的應用,并在實(shí)戰案例部分列舉了幾個(gè)用戶(hù)畫(huà)像的實(shí)際應用案例。
  參考:
  [1] 趙紅天,《用戶(hù)畫(huà)像:方法論與工程化解決方案》
  [2] 曉峰老師,21天訓練營(yíng)
  [3] 草帽小子,如何從0-1搭建用戶(hù)畫(huà)像系統
  [4] 酒仙橋@道明前輩,從0開(kāi)始構建用戶(hù)畫(huà)像系統的系列文章
  [5]秦璐,什么是用戶(hù)畫(huà)像,一般用戶(hù)畫(huà)像的作用是什么
  [6] 蔡青青,如何打造有效的用戶(hù)畫(huà)像(Persona)
  [7] 趙紅天,《數據化運營(yíng):系統方法與實(shí)戰案例》 [8] 劉振華,《電商數據分析與數據化運營(yíng)》
  分享文章:百度到底是喜歡原創(chuàng )文章還是采集文章的網(wǎng)站(自媒體網(wǎng)站如何采集文章優(yōu)化)
  本文主要為您介紹SEO網(wǎng)站文章優(yōu)化。有需要的朋友可以參考一下。如果您覺(jué)得對您有幫助,希望您能關(guān)注本站。
  剛開(kāi)始做網(wǎng)站的時(shí)候,一直在想一個(gè)問(wèn)題,
  百度是喜歡原創(chuàng )文章的網(wǎng)站還是采集
文章的網(wǎng)站?雖然百度出過(guò)打擊采集網(wǎng)站的算法,但感覺(jué)并沒(méi)有真正落地。
  不僅如此,對于那些辛勤工作的原創(chuàng )站長(cháng)來(lái)說(shuō),
  有時(shí)候效果還不如別人的輕松采集
效果好,那么今天我們就來(lái)和大家分析一下網(wǎng)站是如何進(jìn)行SEO的采集
文章的。
  如何采集
文章:
  
  采集
文章的本質(zhì)是移動(dòng)它們。我認為在互聯(lián)網(wǎng)上移動(dòng)文章有兩種方法:
  1、自己手動(dòng)復制和傳輸。手動(dòng)復制太費時(shí)間和精力了。你得去各大網(wǎng)站找你要的文章,然后復制采集
。不過(guò)人工運輸也有好處,就是我們可以改Find exactly what you want。
  2.使用采集軟件批量采集。之前跟大家說(shuō)的小說(shuō)采集
站的玩法其實(shí)和采集
軟件差不多。采集軟件可以根據我們提供的關(guān)鍵詞自動(dòng)采集,對于自媒體網(wǎng)站的文章也會(huì )顯示閱讀數、評論數等。
  使用采集軟件有利于我們分析數據,比如哪篇文章更受歡迎,更受歡迎。我們可以通過(guò)數據分析所有這些,然后將它們傳輸到我們的網(wǎng)站。
  使用采集
的文章來(lái)優(yōu)化網(wǎng)站:
  對于一個(gè)網(wǎng)站來(lái)說(shuō),內容很重要,除非你是付費玩家(SEM),否則不做內容也能獲得好的排名。對于我們草根站長(cháng)來(lái)說(shuō),內容就像是一棟樓的地基。
  必須先打好地基,才能建造摩天大樓。
  
  所以如果你想利用采集
的文章來(lái)優(yōu)化你的網(wǎng)站,我建議你重點(diǎn)關(guān)注網(wǎng)站優(yōu)化的幾個(gè)要點(diǎn)。首先是網(wǎng)站的TDK編寫(xiě)。網(wǎng)站的TDK編寫(xiě)很重要。
  百度蜘蛛進(jìn)入你的網(wǎng)站后,首先抓取的是網(wǎng)頁(yè)的TDK。
  有的朋友可能不知道什么是TDK。主要是網(wǎng)頁(yè)的三大標簽,標題(title),關(guān)鍵詞(keywords)和描述(description),所以在發(fā)表文章的時(shí)候一定要合理設置。
  第二點(diǎn)是網(wǎng)頁(yè)內鏈的錨文本。由于我們選擇采集文章進(jìn)行優(yōu)化,所以每天都有大量的文章發(fā)布。這時(shí)候可能會(huì )有更多的百度蜘蛛來(lái)抓取網(wǎng)站內容。
  而我們就是想利用好這樣一個(gè)特性,讓百度蜘蛛繼續深入爬取。通過(guò)設置網(wǎng)站文章的內部鏈接,它會(huì )在我們的網(wǎng)站中不斷爬取和抓取。這將有助于增加我們網(wǎng)站的整體權重。
  第三點(diǎn)是關(guān)于網(wǎng)站內部的評論模塊。雖然前期可能會(huì )說(shuō)沒(méi)有人會(huì )在我們的網(wǎng)站上發(fā)表評論,但是我們可以自己發(fā)表評論。其實(shí)百度蜘蛛也會(huì )抓取評論模塊,那我們應該怎么使用呢?好評呢?
  我的拙見(jiàn)是我們可以使用注釋來(lái)增加關(guān)鍵詞的密度。百度也評估了頁(yè)面上關(guān)鍵詞的密度。我們在站長(cháng)工具中看到推薦的密度在2%到8%之間。之間,
  至于是真是假,我不知道,但不管是真是假,還是建議大家好好利用評論模塊。如果有效怎么辦?沒(méi)錯,這些都是不準確的。

詳細數據:精通日志查詢(xún):如何翻頁(yè)獲取日志和計算結果

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 82 次瀏覽 ? 2022-11-27 09:37 ? 來(lái)自相關(guān)話(huà)題

  詳細數據:精通日志查詢(xún):如何翻頁(yè)獲取日志和計算結果
  摘要: 精通日志查詢(xún):如何翻頁(yè)獲取日志和計算結果 日志服務(wù)提供一站式的日志采集、存儲、查詢(xún)、計算功能。交互式日志采集體驗,釋放用戶(hù)運維壓力,解放用戶(hù)雙手;交互式查詢(xún)分析體驗,讓用戶(hù)自由構建數據模型,探索性分析,深入挖掘數據。
  精通日志查詢(xún):如何翻頁(yè)獲取日志和計算結果
  日志服務(wù)提供一站式的日志采集、存儲、查詢(xún)、計算功能。交互式日志采集體驗,釋放用戶(hù)運維壓力,解放用戶(hù)雙手;交互式查詢(xún)分析體驗,讓用戶(hù)自由構建數據模型,探索性分析,深入挖掘數據。
  用戶(hù)可以利用日志服務(wù)的查詢(xún)分析能力,不僅可以在控制臺進(jìn)行交互查詢(xún),還可以通過(guò)SDK在程序中使用查詢(xún)分析。當計算結果比較大時(shí),如何在本地讀取全量結果是一個(gè)比較麻煩的問(wèn)題。好在日志服務(wù)提供了翻頁(yè)功能,不僅可以翻頁(yè)閱讀原創(chuàng )
日志內容,還可以翻頁(yè)閱讀本地的SQL計算結果。開(kāi)發(fā)者可以使用日志服務(wù)提供的SDK,或者CLI,通過(guò)讀取數據接口讀取日志。
  查詢(xún)和分析使用不同的分頁(yè)方式
  日志服務(wù)提供統一的查詢(xún)日志入口:GetLogstoreLogs,可以根據關(guān)鍵字查詢(xún)日志原創(chuàng )
內容,也可以提交SQL計算獲取計算結果。
  查詢(xún)翻頁(yè)用例
  在GetLogStoreLogs api中,有offset和lines兩個(gè)參數
  閱讀頁(yè)面時(shí),不斷增加偏移量。讀取到某個(gè)偏移量后,得到的結果行數為0,結果進(jìn)度為完成狀態(tài)。認為所有的數據都讀完了,可以結束了。.
  翻頁(yè)代碼示??例
  翻頁(yè)偽代碼:
  
  Python翻頁(yè)閱讀示例
  更詳細的案例參考文檔:
  Java翻頁(yè)閱讀示例
  更詳細的案例參考文檔
  翻頁(yè)讀取SQL分析結果
  SQL分析中,GetLogStoreLogs API參數中的offset和lines是無(wú)效的,補上。也就是說(shuō),如果按照上面翻頁(yè)的方法遍歷offset翻頁(yè),讀取原來(lái)的內容,那么每條SQL執行的結果都是一樣的。理論上我們可以一次調用得到所有的計算結果,但是如果結果集過(guò)大,可能會(huì )出現以下問(wèn)題:
  為了解決SQL翻頁(yè)問(wèn)題,我們提供了標準的SQL限制翻頁(yè)語(yǔ)法
  一個(gè)典型的案例,如果下面的SQL一共產(chǎn)生了2000條日志
  
  然后可以翻頁(yè),每次閱讀500行,共完成4次閱讀:
  SQL翻頁(yè)示例
  在程序中,SQL翻頁(yè)的偽代碼是這樣寫(xiě)的:
  示例 Python 程序:
  示例 Java 程序:
  擴展信息
  日志服務(wù)使用手冊,最全資料
  日志服務(wù)器分析demo,Nginx日志,CDN日志,DDOS日志,SLB日志demo,grafana,Datav大屏demo
  5分鐘搭建實(shí)時(shí)分析網(wǎng)站:Grafana+日志服務(wù)實(shí)戰
  匯總:02數據采集、清洗處理及質(zhì)量檢查流程匯編v1 0.pdf 30頁(yè)
  旅游局旅游基礎數據庫建設項目數據采集、清洗處理及質(zhì)量檢測過(guò)程編制版本控制信息版本日期起草及修改說(shuō)明V1.0版本2014年12月華勝天成V1.1版本2015年8月華勝天成所有內容為用戶(hù)所有,專(zhuān)有. 未經(jīng)用戶(hù)明確書(shū)面許可,任何組織和個(gè)人不得為任何目的、以任何形式、以任何方式傳播本文的部分或全部?jì)热?。華勝天成科技二目錄 1. 概述 2 2. 總體設計 22.1 總體架構 22.2 數據集成流程 32.3 數據交換流程設計 42.3.
  云源數據既包括景區、旅行社、酒店等重要的結構化旅游要素,也包括博客、新聞、貼吧、微博等非結構化旅游衍生數據。這兩類(lèi)數據不僅相互關(guān)聯(lián),而且形成一個(gè)系統。因此,尤其需要對相關(guān)數據的采集、同步、處理、清洗等進(jìn)行梳理,使各環(huán)節環(huán)環(huán)相扣、有序執行。行業(yè)系統數據源包括景區管理系統、導游數據管理系統、旅行社報備系統和國家重點(diǎn)景區客流系統。2. 總體設計 2.1 總體框架 總體框架圖 華盛天成科技 2 2.2 數據集成流程 根據總體設計思路,數據集成的實(shí)現按照處理過(guò)程可以分解為數據采集、數據同步、數據清洗(包括自動(dòng)處理和人工審核處理)。以及數據質(zhì)檢等環(huán)節,最終實(shí)現數據入庫工作。云基礎數據(包括景區、酒店、旅行社等基礎數據)的采集、存儲、審核、清洗、歸并??傮w流程圖如下: 數據集成流程圖。增量數據同步到云數據鏡像庫(V1)庫。Reiking數據交換平臺是整個(gè)數據清洗和轉換檢查的核心。定時(shí)觸發(fā)自動(dòng)程序進(jìn)行數據清洗處理,生成大數據平臺需要的Json格式信息。他終于意識到:1、將處理后的基礎數據推送到基礎數據庫(Oracle);2. 將處理后的動(dòng)態(tài)數據(Json)推送到大數據平臺。
  3、將基礎數據庫(Oracle)中的導游、景點(diǎn)等基礎數據推送給華盛天成科技 3 2.3 數據交換流程設計 2.3.1 數據交換流程標準化 數據庫接口名稱(chēng)標準化權限,避免對數據庫的操作。數據庫接口名根據對應的數據庫類(lèi)型和數據庫所在的IP地址來(lái)命名。比如11中的MySql數據庫中的Test數據庫可以按照MySql-111-Test命名。對于其他類(lèi)型的數據庫,以上命名規則通用,特殊情況具體考慮,命名一定要規范。目錄名稱(chēng)標準化目錄采用分級格式排列,各級目錄均以中文標注??偰夸浢Q(chēng)為:旅游局基礎數據庫嫉妒數據處理。子節點(diǎn)大致可分為:01采集庫與鏡像庫同步、02鏡像庫到大數據平臺、03鏡像庫到PDA數據倉庫、04鏡像庫到信息網(wǎng)(DB2)、05鏡像庫到基礎庫, 06 從業(yè)務(wù)數據庫到基礎數據庫,07業(yè)務(wù)數據庫到PDA數倉,08 PDA數倉到大數據平臺的八類(lèi)數據交換處理服務(wù)。各種名稱(chēng)是根據不同的目的和數據處理順序來(lái)命名的。其中,01采集庫與鏡像庫的同步還包括:基本信息同步、評論信息同步、路線(xiàn)\策略同步、圖片庫同步、
  
  02 到大數據平臺的鏡像庫包括:推送到第一平臺、推送到第二平臺、推送到第三平臺等樣式名稱(chēng)。華勝天成科技 4 服務(wù)名稱(chēng)標準化 服務(wù)名稱(chēng)多樣化,可以根據不同的類(lèi)型、不同的數據庫表名、源IP和目標IP地址等進(jìn)行命名,例如基礎信息同步的服務(wù)名稱(chēng)為:Travel__71,即就是,表名是把Travel表從數據庫同步到71數據庫。其他需要特殊處理的,按特殊處理。運行菜單格式規范了運行菜單需要和服務(wù)目錄創(chuàng )建對應的運行菜單,目錄結構遵循服務(wù)目錄結構。如下圖所示:華勝天成科技 5 2.4 業(yè)務(wù)代碼標準化 2.4.1 行政區劃代碼標準化 根據國家標準統一行政區劃代碼,代碼標準根據每年發(fā)布的數據進(jìn)行更新。2.4.2 新建行政區劃代碼表 參照已發(fā)布的行政區劃代碼表,創(chuàng )建行政區劃代碼標準表。來(lái)源:MySQL數據庫 服務(wù)器:26 數據庫:weibo_info_2:city_code 目的:MySQL數據庫 服務(wù)器:1(192.168.102.) 數據庫:pom_ct_data 新建_:sta_city_code 華盛天成科技 6 2.4.3 更新采集數據庫elint_dest_city中的行政區劃代碼表采集
database 在表中增加一個(gè)標準的行政區劃代碼字段,
  添加字段SQL語(yǔ)句:alter elint_dest_city add(`sta_city_code` int(6) DEFAULT NULL COMMENT '標準行政區劃代碼') 匹配過(guò)程程序代碼: 主類(lèi)名:MatchCode 注:此項已實(shí)現,不用動(dòng),如果你需要打電話(huà)直接上桌就行了。2.5 數據采集與同步 2.5.1 云數據采集 1. 基礎數據采集 基礎數據采集渠道主要是基于全國31個(gè)省市旅游信息網(wǎng)站發(fā)布的景區、旅行社、酒店等基本信息。2.電商點(diǎn)評數據采集 電商點(diǎn)評數據采集渠道主要為國內各大電商,包括旅游、驢媽媽、同程旅行、馬蜂窩等。3、微博數據采集(微博熱詞、熱詞等處理)) 抓取微博數據的方式有以下三種: 1) 單獨使用爬蟲(chóng),使用類(lèi)似的元詞搜索方式。2)編寫(xiě)程序調用API接口采集關(guān)注度視角的微博數據。3)爬蟲(chóng)與API的結合。針對新浪微博越來(lái)越嚴格的限制,通過(guò)爬蟲(chóng)和API相結合的方式進(jìn)行數據采集。微博先找轉發(fā),再找評論。接下來(lái),找到轉發(fā)器的詳細信息。(微博采集
深入了解) 華盛天成科技7條微博建議:少采集
轉發(fā)。采集
是順序的。4、貼吧數據主要以貼吧、天涯論壇等帖子數據為主。2)編寫(xiě)程序調用API接口采集關(guān)注度視角的微博數據。3)爬蟲(chóng)與API的結合。針對新浪微博越來(lái)越嚴格的限制,通過(guò)爬蟲(chóng)和API相結合的方式進(jìn)行數據采集。微博先找轉發(fā),再找評論。接下來(lái),找到轉發(fā)器的詳細信息。(微博采集
深入了解) 華盛天成科技7條微博建議:少采集
轉發(fā)。采集
是順序的。4、貼吧數據主要以貼吧、天涯論壇等帖子數據為主。2)編寫(xiě)程序調用API接口采集關(guān)注度視角的微博數據。3)爬蟲(chóng)與API的結合。針對新浪微博越來(lái)越嚴格的限制,通過(guò)爬蟲(chóng)和API相結合的方式進(jìn)行數據采集。微博先找轉發(fā),再找評論。接下來(lái),找到轉發(fā)器的詳細信息。(微博采集
深入了解) 華盛天成科技7條微博建議:少采集
轉發(fā)。采集
是順序的。4、貼吧數據主要以貼吧、天涯論壇等帖子數據為主。微博先找轉發(fā),再找評論。接下來(lái),找到轉發(fā)器的詳細信息。(微博采集
深入了解) 華盛天成科技7條微博建議:少采集
轉發(fā)。采集
是順序的。4、貼吧數據主要以貼吧、天涯論壇等帖子數據為主。微博先找轉發(fā),再找評論。接下來(lái),找到轉發(fā)器的詳細信息。(微博采集
深入了解) 華盛天成科技7條微博建議:少采集
轉發(fā)。采集
是順序的。4、貼吧數據主要以貼吧、天涯論壇等帖子數據為主。
  5、新聞博客數據 新聞博客數據主要來(lái)源于國內門(mén)戶(hù)網(wǎng)站旅游頻道,包括人民網(wǎng)旅游頻道和新華網(wǎng)旅游頻道。博客主要是新浪博客和搜狐博客。2.5.2 云數據同步 實(shí)現云采集數據庫與云采集數據庫鏡像數據庫的同步,將實(shí)時(shí)數據第一時(shí)間同步到鏡像數據庫中使用。數據同步分為基礎數據同步和動(dòng)態(tài)數據同步。其中,基礎數據與更新的時(shí)間間隔比較長(cháng),周期為一個(gè)月。由于動(dòng)態(tài)數據更新快,每小時(shí)新增數據量在萬(wàn)條級別。下面是具體配置。1. 基礎數據同步 基礎數據采集后會(huì )略有增加,大部分是更新操作,所以基礎數據同步是基于時(shí)間戳的。同步周期:一周 2、動(dòng)態(tài)數據同步 動(dòng)態(tài)數據包括實(shí)時(shí)添加的數據,如電商評論、旅游路線(xiàn)、新聞信息等,該類(lèi)數據量增長(cháng)迅速。同步間隔很短。同步周期:1小時(shí) 2.6業(yè)務(wù)系統數據抽取 2.6.1國家重點(diǎn)景區客流系統數據增量抽取并輸出結果。通過(guò)ReiKing工具實(shí)現客流系統數據庫和PDA數據倉庫的增量數據提取,并將增量數據實(shí)時(shí)推送到PDA數據倉庫。對Oracle數據性能影響不大。
  
  國家重點(diǎn)景區客流數據庫:Oracle 抽取目的地:PDA數據倉庫 華盛天成科技 8 抽取周期: 2.6.2 A級景區管理系統增量數據抽取 A級景區管理系統采用MySql數據庫,同樣采用ETL該工具建立連接,將A級景區管理系統的數據提取到PDA數據倉庫進(jìn)行數據處理。A級景區管理系統數據庫:MySql數據庫 提取目的地:PDA數據倉庫 提取時(shí)間:1個(gè)月 2.6.3導游系統數據提取 導游系統使用Sybase數據庫,用戶(hù)未提供數據庫級賬號暫且。ETL的提取暫時(shí)沒(méi)有實(shí)現。旅游局提供導游數據庫導出的TXT文件,約150M,共約80萬(wàn)條導游信息。以及導游一寸證件照734797張。導游資料中各字段含義:、導游編號、姓名、性別、資格證書(shū)編號、等級證書(shū)編號、地區、年審有效期、發(fā)卡時(shí)間、語(yǔ)言、等級、旅行社、國籍、電話(huà)、教育、出生日期、專(zhuān)業(yè)兼職。導游數據處理流程如下: 導游基本信息入庫:將旅游局提供的導游信息150M TXT文件導入基礎數據庫。導入底層數據庫中字段屬性對應的文本文件的字段屬性,
  保持圖片字段類(lèi)型為CLOB,為下一步導入圖片做準備。1、導游圖片信息導入 [1] 旅游局贈送的圖片包內含導游1寸照片734797張,圖片類(lèi)型為jpg格式,以導游編號命名。例如:.jpg?!?】圖片存儲中間表。由于圖片是以指南編號命名的,所以編號作為唯一匹配的關(guān)系字段。為了導入方便,先把圖片導入到中間表中,包括三個(gè)字段:ID、NAME、PICTURE。該表的作用是將本地jpg格式的圖片導入到該表中,天成科技9的NAME字段為圖片文件名。方便之后,導游的圖片信息通過(guò)與導游基本信息中的編號匹配存儲。[3] 將所有jpg格式的圖片存入中間表后,按編號匹配存入。即中間表的NAME字段與基礎庫中導游表的字段匹配。最后將圖片導入基礎數據庫?!?】導入過(guò)程中的問(wèn)題。問(wèn)題一:導出的734797張圖片中,有52張圖片名稱(chēng)不規則。導出時(shí)有中文“(”和“)”,導致Linux系統下出現亂名,找不到本地文件。個(gè)別文件的亂碼只有重命名后才能入庫。問(wèn)題2:指南數據中有14條重復數據。導游和年檢日期不一樣,其他領(lǐng)域的信息是一樣的。2、巡查員信息存儲 2、業(yè)務(wù)系統數據及大數據平臺接口定義(待補充) A級景區管理系統、重點(diǎn)景區客流系統數據結構字段見(jiàn)附件。
  如何將這些數據推送到大數據平臺,利用虛擬數據訪(fǎng)問(wèn)來(lái)支持臨時(shí)策略,從長(cháng)遠考慮是否需要補充長(cháng)效機制。3、云端數據處理 云端采集的數據具有互聯(lián)網(wǎng)數據的共同特點(diǎn),如:數據量大、數據類(lèi)型多樣、數據來(lái)源廣泛。云端采集
的處理過(guò)的數據一定是雜亂無(wú)章的,這就不可避免地需要對數據進(jìn)行人工處理。我們需要使用 ETL 工具和其他數據處理工具來(lái)提取、處理和轉置在云端采集
的數據。經(jīng)過(guò)深度處理的數據就是我們需要的可用數據。3.1 基礎數據處理 3.1.1 核心基礎數據 基礎數據包括景區、酒店、旅行社、導游等。1. 景區基礎數據處理 華盛天成科技10個(gè)景區基礎數據云源包括各省旅游信息網(wǎng)站、電商渠道、景區官網(wǎng)渠道。待處理數據包括五星級景區、四星級景區、三星級景區、二星級景區、一星級景區等,待處理數據量為180個(gè)5星和 2000 為 4 星。景區基礎數據的業(yè)務(wù)系統來(lái)源包括A級景區管理系統。2、酒店基礎數據處理酒店基礎數據云源包括各省旅游信息網(wǎng)站、電商渠道、景區官網(wǎng)渠道,需要處理的數據包 待處理數據包括五星級景區、四星級景區、三星級景區、二星級景區、一星級景區等,待處理數據量為180個(gè)5星和 2000 為 4 星。景區基礎數據的業(yè)務(wù)系統來(lái)源包括A級景區管理系統。2、酒店基礎數據處理酒店基礎數據云源包括各省旅游信息網(wǎng)站、電商渠道、景區官網(wǎng)渠道,需要處理的數據包 待處理數據包括五星級景區、四星級景區、三星級景區、二星級景區、一星級景區等,待處理數據量為180個(gè)5星和 2000 為 4 星。景區基礎數據的業(yè)務(wù)系統來(lái)源包括A級景區管理系統。2、酒店基礎數據處理酒店基礎數據云源包括各省旅游信息網(wǎng)站、電商渠道、景區官網(wǎng)渠道,需要處理的數據包 景區基礎數據的業(yè)務(wù)系統來(lái)源包括A級景區管理系統。2、酒店基礎數據處理酒店基礎數據云源包括各省旅游信息網(wǎng)站、電商渠道、景區官網(wǎng)渠道,需要處理的數據包 景區基礎數據的業(yè)務(wù)系統來(lái)源包括A級景區管理系統。2、酒店基礎數據處理酒店基礎數據云源包括各省旅游信息網(wǎng)站、電商渠道、景區官網(wǎng)渠道,需要處理的數據包 查看全部

  詳細數據:精通日志查詢(xún):如何翻頁(yè)獲取日志和計算結果
  摘要: 精通日志查詢(xún):如何翻頁(yè)獲取日志和計算結果 日志服務(wù)提供一站式的日志采集、存儲、查詢(xún)、計算功能。交互式日志采集體驗,釋放用戶(hù)運維壓力,解放用戶(hù)雙手;交互式查詢(xún)分析體驗,讓用戶(hù)自由構建數據模型,探索性分析,深入挖掘數據。
  精通日志查詢(xún):如何翻頁(yè)獲取日志和計算結果
  日志服務(wù)提供一站式的日志采集、存儲、查詢(xún)、計算功能。交互式日志采集體驗,釋放用戶(hù)運維壓力,解放用戶(hù)雙手;交互式查詢(xún)分析體驗,讓用戶(hù)自由構建數據模型,探索性分析,深入挖掘數據。
  用戶(hù)可以利用日志服務(wù)的查詢(xún)分析能力,不僅可以在控制臺進(jìn)行交互查詢(xún),還可以通過(guò)SDK在程序中使用查詢(xún)分析。當計算結果比較大時(shí),如何在本地讀取全量結果是一個(gè)比較麻煩的問(wèn)題。好在日志服務(wù)提供了翻頁(yè)功能,不僅可以翻頁(yè)閱讀原創(chuàng )
日志內容,還可以翻頁(yè)閱讀本地的SQL計算結果。開(kāi)發(fā)者可以使用日志服務(wù)提供的SDK,或者CLI,通過(guò)讀取數據接口讀取日志。
  查詢(xún)和分析使用不同的分頁(yè)方式
  日志服務(wù)提供統一的查詢(xún)日志入口:GetLogstoreLogs,可以根據關(guān)鍵字查詢(xún)日志原創(chuàng )
內容,也可以提交SQL計算獲取計算結果。
  查詢(xún)翻頁(yè)用例
  在GetLogStoreLogs api中,有offset和lines兩個(gè)參數
  閱讀頁(yè)面時(shí),不斷增加偏移量。讀取到某個(gè)偏移量后,得到的結果行數為0,結果進(jìn)度為完成狀態(tài)。認為所有的數據都讀完了,可以結束了。.
  翻頁(yè)代碼示??例
  翻頁(yè)偽代碼:
  
  Python翻頁(yè)閱讀示例
  更詳細的案例參考文檔:
  Java翻頁(yè)閱讀示例
  更詳細的案例參考文檔
  翻頁(yè)讀取SQL分析結果
  SQL分析中,GetLogStoreLogs API參數中的offset和lines是無(wú)效的,補上。也就是說(shuō),如果按照上面翻頁(yè)的方法遍歷offset翻頁(yè),讀取原來(lái)的內容,那么每條SQL執行的結果都是一樣的。理論上我們可以一次調用得到所有的計算結果,但是如果結果集過(guò)大,可能會(huì )出現以下問(wèn)題:
  為了解決SQL翻頁(yè)問(wèn)題,我們提供了標準的SQL限制翻頁(yè)語(yǔ)法
  一個(gè)典型的案例,如果下面的SQL一共產(chǎn)生了2000條日志
  
  然后可以翻頁(yè),每次閱讀500行,共完成4次閱讀:
  SQL翻頁(yè)示例
  在程序中,SQL翻頁(yè)的偽代碼是這樣寫(xiě)的:
  示例 Python 程序:
  示例 Java 程序:
  擴展信息
  日志服務(wù)使用手冊,最全資料
  日志服務(wù)器分析demo,Nginx日志,CDN日志,DDOS日志,SLB日志demo,grafana,Datav大屏demo
  5分鐘搭建實(shí)時(shí)分析網(wǎng)站:Grafana+日志服務(wù)實(shí)戰
  匯總:02數據采集、清洗處理及質(zhì)量檢查流程匯編v1 0.pdf 30頁(yè)
  旅游局旅游基礎數據庫建設項目數據采集、清洗處理及質(zhì)量檢測過(guò)程編制版本控制信息版本日期起草及修改說(shuō)明V1.0版本2014年12月華勝天成V1.1版本2015年8月華勝天成所有內容為用戶(hù)所有,專(zhuān)有. 未經(jīng)用戶(hù)明確書(shū)面許可,任何組織和個(gè)人不得為任何目的、以任何形式、以任何方式傳播本文的部分或全部?jì)热?。華勝天成科技二目錄 1. 概述 2 2. 總體設計 22.1 總體架構 22.2 數據集成流程 32.3 數據交換流程設計 42.3.
  云源數據既包括景區、旅行社、酒店等重要的結構化旅游要素,也包括博客、新聞、貼吧、微博等非結構化旅游衍生數據。這兩類(lèi)數據不僅相互關(guān)聯(lián),而且形成一個(gè)系統。因此,尤其需要對相關(guān)數據的采集、同步、處理、清洗等進(jìn)行梳理,使各環(huán)節環(huán)環(huán)相扣、有序執行。行業(yè)系統數據源包括景區管理系統、導游數據管理系統、旅行社報備系統和國家重點(diǎn)景區客流系統。2. 總體設計 2.1 總體框架 總體框架圖 華盛天成科技 2 2.2 數據集成流程 根據總體設計思路,數據集成的實(shí)現按照處理過(guò)程可以分解為數據采集、數據同步、數據清洗(包括自動(dòng)處理和人工審核處理)。以及數據質(zhì)檢等環(huán)節,最終實(shí)現數據入庫工作。云基礎數據(包括景區、酒店、旅行社等基礎數據)的采集、存儲、審核、清洗、歸并??傮w流程圖如下: 數據集成流程圖。增量數據同步到云數據鏡像庫(V1)庫。Reiking數據交換平臺是整個(gè)數據清洗和轉換檢查的核心。定時(shí)觸發(fā)自動(dòng)程序進(jìn)行數據清洗處理,生成大數據平臺需要的Json格式信息。他終于意識到:1、將處理后的基礎數據推送到基礎數據庫(Oracle);2. 將處理后的動(dòng)態(tài)數據(Json)推送到大數據平臺。
  3、將基礎數據庫(Oracle)中的導游、景點(diǎn)等基礎數據推送給華盛天成科技 3 2.3 數據交換流程設計 2.3.1 數據交換流程標準化 數據庫接口名稱(chēng)標準化權限,避免對數據庫的操作。數據庫接口名根據對應的數據庫類(lèi)型和數據庫所在的IP地址來(lái)命名。比如11中的MySql數據庫中的Test數據庫可以按照MySql-111-Test命名。對于其他類(lèi)型的數據庫,以上命名規則通用,特殊情況具體考慮,命名一定要規范。目錄名稱(chēng)標準化目錄采用分級格式排列,各級目錄均以中文標注??偰夸浢Q(chēng)為:旅游局基礎數據庫嫉妒數據處理。子節點(diǎn)大致可分為:01采集庫與鏡像庫同步、02鏡像庫到大數據平臺、03鏡像庫到PDA數據倉庫、04鏡像庫到信息網(wǎng)(DB2)、05鏡像庫到基礎庫, 06 從業(yè)務(wù)數據庫到基礎數據庫,07業(yè)務(wù)數據庫到PDA數倉,08 PDA數倉到大數據平臺的八類(lèi)數據交換處理服務(wù)。各種名稱(chēng)是根據不同的目的和數據處理順序來(lái)命名的。其中,01采集庫與鏡像庫的同步還包括:基本信息同步、評論信息同步、路線(xiàn)\策略同步、圖片庫同步、
  
  02 到大數據平臺的鏡像庫包括:推送到第一平臺、推送到第二平臺、推送到第三平臺等樣式名稱(chēng)。華勝天成科技 4 服務(wù)名稱(chēng)標準化 服務(wù)名稱(chēng)多樣化,可以根據不同的類(lèi)型、不同的數據庫表名、源IP和目標IP地址等進(jìn)行命名,例如基礎信息同步的服務(wù)名稱(chēng)為:Travel__71,即就是,表名是把Travel表從數據庫同步到71數據庫。其他需要特殊處理的,按特殊處理。運行菜單格式規范了運行菜單需要和服務(wù)目錄創(chuàng )建對應的運行菜單,目錄結構遵循服務(wù)目錄結構。如下圖所示:華勝天成科技 5 2.4 業(yè)務(wù)代碼標準化 2.4.1 行政區劃代碼標準化 根據國家標準統一行政區劃代碼,代碼標準根據每年發(fā)布的數據進(jìn)行更新。2.4.2 新建行政區劃代碼表 參照已發(fā)布的行政區劃代碼表,創(chuàng )建行政區劃代碼標準表。來(lái)源:MySQL數據庫 服務(wù)器:26 數據庫:weibo_info_2:city_code 目的:MySQL數據庫 服務(wù)器:1(192.168.102.) 數據庫:pom_ct_data 新建_:sta_city_code 華盛天成科技 6 2.4.3 更新采集數據庫elint_dest_city中的行政區劃代碼表采集
database 在表中增加一個(gè)標準的行政區劃代碼字段,
  添加字段SQL語(yǔ)句:alter elint_dest_city add(`sta_city_code` int(6) DEFAULT NULL COMMENT '標準行政區劃代碼') 匹配過(guò)程程序代碼: 主類(lèi)名:MatchCode 注:此項已實(shí)現,不用動(dòng),如果你需要打電話(huà)直接上桌就行了。2.5 數據采集與同步 2.5.1 云數據采集 1. 基礎數據采集 基礎數據采集渠道主要是基于全國31個(gè)省市旅游信息網(wǎng)站發(fā)布的景區、旅行社、酒店等基本信息。2.電商點(diǎn)評數據采集 電商點(diǎn)評數據采集渠道主要為國內各大電商,包括旅游、驢媽媽、同程旅行、馬蜂窩等。3、微博數據采集(微博熱詞、熱詞等處理)) 抓取微博數據的方式有以下三種: 1) 單獨使用爬蟲(chóng),使用類(lèi)似的元詞搜索方式。2)編寫(xiě)程序調用API接口采集關(guān)注度視角的微博數據。3)爬蟲(chóng)與API的結合。針對新浪微博越來(lái)越嚴格的限制,通過(guò)爬蟲(chóng)和API相結合的方式進(jìn)行數據采集。微博先找轉發(fā),再找評論。接下來(lái),找到轉發(fā)器的詳細信息。(微博采集
深入了解) 華盛天成科技7條微博建議:少采集
轉發(fā)。采集
是順序的。4、貼吧數據主要以貼吧、天涯論壇等帖子數據為主。2)編寫(xiě)程序調用API接口采集關(guān)注度視角的微博數據。3)爬蟲(chóng)與API的結合。針對新浪微博越來(lái)越嚴格的限制,通過(guò)爬蟲(chóng)和API相結合的方式進(jìn)行數據采集。微博先找轉發(fā),再找評論。接下來(lái),找到轉發(fā)器的詳細信息。(微博采集
深入了解) 華盛天成科技7條微博建議:少采集
轉發(fā)。采集
是順序的。4、貼吧數據主要以貼吧、天涯論壇等帖子數據為主。2)編寫(xiě)程序調用API接口采集關(guān)注度視角的微博數據。3)爬蟲(chóng)與API的結合。針對新浪微博越來(lái)越嚴格的限制,通過(guò)爬蟲(chóng)和API相結合的方式進(jìn)行數據采集。微博先找轉發(fā),再找評論。接下來(lái),找到轉發(fā)器的詳細信息。(微博采集
深入了解) 華盛天成科技7條微博建議:少采集
轉發(fā)。采集
是順序的。4、貼吧數據主要以貼吧、天涯論壇等帖子數據為主。微博先找轉發(fā),再找評論。接下來(lái),找到轉發(fā)器的詳細信息。(微博采集
深入了解) 華盛天成科技7條微博建議:少采集
轉發(fā)。采集
是順序的。4、貼吧數據主要以貼吧、天涯論壇等帖子數據為主。微博先找轉發(fā),再找評論。接下來(lái),找到轉發(fā)器的詳細信息。(微博采集
深入了解) 華盛天成科技7條微博建議:少采集
轉發(fā)。采集
是順序的。4、貼吧數據主要以貼吧、天涯論壇等帖子數據為主。
  5、新聞博客數據 新聞博客數據主要來(lái)源于國內門(mén)戶(hù)網(wǎng)站旅游頻道,包括人民網(wǎng)旅游頻道和新華網(wǎng)旅游頻道。博客主要是新浪博客和搜狐博客。2.5.2 云數據同步 實(shí)現云采集數據庫與云采集數據庫鏡像數據庫的同步,將實(shí)時(shí)數據第一時(shí)間同步到鏡像數據庫中使用。數據同步分為基礎數據同步和動(dòng)態(tài)數據同步。其中,基礎數據與更新的時(shí)間間隔比較長(cháng),周期為一個(gè)月。由于動(dòng)態(tài)數據更新快,每小時(shí)新增數據量在萬(wàn)條級別。下面是具體配置。1. 基礎數據同步 基礎數據采集后會(huì )略有增加,大部分是更新操作,所以基礎數據同步是基于時(shí)間戳的。同步周期:一周 2、動(dòng)態(tài)數據同步 動(dòng)態(tài)數據包括實(shí)時(shí)添加的數據,如電商評論、旅游路線(xiàn)、新聞信息等,該類(lèi)數據量增長(cháng)迅速。同步間隔很短。同步周期:1小時(shí) 2.6業(yè)務(wù)系統數據抽取 2.6.1國家重點(diǎn)景區客流系統數據增量抽取并輸出結果。通過(guò)ReiKing工具實(shí)現客流系統數據庫和PDA數據倉庫的增量數據提取,并將增量數據實(shí)時(shí)推送到PDA數據倉庫。對Oracle數據性能影響不大。
  
  國家重點(diǎn)景區客流數據庫:Oracle 抽取目的地:PDA數據倉庫 華盛天成科技 8 抽取周期: 2.6.2 A級景區管理系統增量數據抽取 A級景區管理系統采用MySql數據庫,同樣采用ETL該工具建立連接,將A級景區管理系統的數據提取到PDA數據倉庫進(jìn)行數據處理。A級景區管理系統數據庫:MySql數據庫 提取目的地:PDA數據倉庫 提取時(shí)間:1個(gè)月 2.6.3導游系統數據提取 導游系統使用Sybase數據庫,用戶(hù)未提供數據庫級賬號暫且。ETL的提取暫時(shí)沒(méi)有實(shí)現。旅游局提供導游數據庫導出的TXT文件,約150M,共約80萬(wàn)條導游信息。以及導游一寸證件照734797張。導游資料中各字段含義:、導游編號、姓名、性別、資格證書(shū)編號、等級證書(shū)編號、地區、年審有效期、發(fā)卡時(shí)間、語(yǔ)言、等級、旅行社、國籍、電話(huà)、教育、出生日期、專(zhuān)業(yè)兼職。導游數據處理流程如下: 導游基本信息入庫:將旅游局提供的導游信息150M TXT文件導入基礎數據庫。導入底層數據庫中字段屬性對應的文本文件的字段屬性,
  保持圖片字段類(lèi)型為CLOB,為下一步導入圖片做準備。1、導游圖片信息導入 [1] 旅游局贈送的圖片包內含導游1寸照片734797張,圖片類(lèi)型為jpg格式,以導游編號命名。例如:.jpg?!?】圖片存儲中間表。由于圖片是以指南編號命名的,所以編號作為唯一匹配的關(guān)系字段。為了導入方便,先把圖片導入到中間表中,包括三個(gè)字段:ID、NAME、PICTURE。該表的作用是將本地jpg格式的圖片導入到該表中,天成科技9的NAME字段為圖片文件名。方便之后,導游的圖片信息通過(guò)與導游基本信息中的編號匹配存儲。[3] 將所有jpg格式的圖片存入中間表后,按編號匹配存入。即中間表的NAME字段與基礎庫中導游表的字段匹配。最后將圖片導入基礎數據庫?!?】導入過(guò)程中的問(wèn)題。問(wèn)題一:導出的734797張圖片中,有52張圖片名稱(chēng)不規則。導出時(shí)有中文“(”和“)”,導致Linux系統下出現亂名,找不到本地文件。個(gè)別文件的亂碼只有重命名后才能入庫。問(wèn)題2:指南數據中有14條重復數據。導游和年檢日期不一樣,其他領(lǐng)域的信息是一樣的。2、巡查員信息存儲 2、業(yè)務(wù)系統數據及大數據平臺接口定義(待補充) A級景區管理系統、重點(diǎn)景區客流系統數據結構字段見(jiàn)附件。
  如何將這些數據推送到大數據平臺,利用虛擬數據訪(fǎng)問(wèn)來(lái)支持臨時(shí)策略,從長(cháng)遠考慮是否需要補充長(cháng)效機制。3、云端數據處理 云端采集的數據具有互聯(lián)網(wǎng)數據的共同特點(diǎn),如:數據量大、數據類(lèi)型多樣、數據來(lái)源廣泛。云端采集
的處理過(guò)的數據一定是雜亂無(wú)章的,這就不可避免地需要對數據進(jìn)行人工處理。我們需要使用 ETL 工具和其他數據處理工具來(lái)提取、處理和轉置在云端采集
的數據。經(jīng)過(guò)深度處理的數據就是我們需要的可用數據。3.1 基礎數據處理 3.1.1 核心基礎數據 基礎數據包括景區、酒店、旅行社、導游等。1. 景區基礎數據處理 華盛天成科技10個(gè)景區基礎數據云源包括各省旅游信息網(wǎng)站、電商渠道、景區官網(wǎng)渠道。待處理數據包括五星級景區、四星級景區、三星級景區、二星級景區、一星級景區等,待處理數據量為180個(gè)5星和 2000 為 4 星。景區基礎數據的業(yè)務(wù)系統來(lái)源包括A級景區管理系統。2、酒店基礎數據處理酒店基礎數據云源包括各省旅游信息網(wǎng)站、電商渠道、景區官網(wǎng)渠道,需要處理的數據包 待處理數據包括五星級景區、四星級景區、三星級景區、二星級景區、一星級景區等,待處理數據量為180個(gè)5星和 2000 為 4 星。景區基礎數據的業(yè)務(wù)系統來(lái)源包括A級景區管理系統。2、酒店基礎數據處理酒店基礎數據云源包括各省旅游信息網(wǎng)站、電商渠道、景區官網(wǎng)渠道,需要處理的數據包 待處理數據包括五星級景區、四星級景區、三星級景區、二星級景區、一星級景區等,待處理數據量為180個(gè)5星和 2000 為 4 星。景區基礎數據的業(yè)務(wù)系統來(lái)源包括A級景區管理系統。2、酒店基礎數據處理酒店基礎數據云源包括各省旅游信息網(wǎng)站、電商渠道、景區官網(wǎng)渠道,需要處理的數據包 景區基礎數據的業(yè)務(wù)系統來(lái)源包括A級景區管理系統。2、酒店基礎數據處理酒店基礎數據云源包括各省旅游信息網(wǎng)站、電商渠道、景區官網(wǎng)渠道,需要處理的數據包 景區基礎數據的業(yè)務(wù)系統來(lái)源包括A級景區管理系統。2、酒店基礎數據處理酒店基礎數據云源包括各省旅游信息網(wǎng)站、電商渠道、景區官網(wǎng)渠道,需要處理的數據包

技巧:seo必備工具腳本,批量挖掘采集關(guān)鍵詞到EXCEL表

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 125 次瀏覽 ? 2022-11-26 22:57 ? 來(lái)自相關(guān)話(huà)題

  技巧:seo必備工具腳本,批量挖掘采集關(guān)鍵詞到EXCEL表
  下午收到朋友反饋無(wú)效。為什么經(jīng)常失???因為現在是付費時(shí)代,什么都需要充值,不然什么都得不到,而且有限制,所以需要的話(huà)還是選擇付費吧。時(shí)間把文章里的代碼改成了A站的api,感覺(jué)一勞永逸,本帖不再更新。
  下午收到朋友反饋無(wú)效。我花了幾分鐘來(lái)修復它。代碼更新于2020年12月1日,最新下載地址在文末:
  想知道為什么我能第一時(shí)間收到好友的反饋嗎?點(diǎn)擊進(jìn)入這篇文章:
  我還記得我是在疫情期間的情人節注冊的。期間也學(xué)習了很多大佬分享的教程和源碼,收獲頗豐。
  這不,昨天逛論壇的時(shí)候發(fā)現了一個(gè)python寫(xiě)的seo關(guān)鍵詞采集挖掘腳本(原帖:%3D1%26filter%3Dtypeid%26typeid%3D29&amp;page=1),因為我也做了一個(gè)小自己做網(wǎng)站,雖然平時(shí)不太關(guān)注seo,但是還是很喜歡這種可以解放雙手的工具,所以立馬復制試了一下,發(fā)現代碼報錯,于是入手看了帖子的評論,發(fā)現很多人和我報同樣的錯誤,比如下面這位,和我一樣是新手,求助。
  幾年前,我自學(xué)了一段時(shí)間的python。另外,我有一點(diǎn)編程語(yǔ)言基礎,擅長(cháng)使用百度搜索。終于,功夫不負有心人。我修復了這個(gè)腳本,至少我可以運行它。,現分享給大家,回饋論壇,對你我都有幫助。先貼代碼。大佬們不會(huì )笑
  【Python】純文本查看復制代碼
  #愛(ài)站網(wǎng)長(cháng)尾關(guān)鍵詞挖掘
#2021-5-11更新
# -*- coding=utf-8 -*-
import requests
import xlwt
import json
#secrect_Id 登錄愛(ài)站后獲取
secrect_Id ='805422c95131161b845661eb7afe14c5'
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36',
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
"Connection": "keep-alive",
"Accept-Encoding": "gzip, deflate, br",
"Accept-Language": "zh-CN,zh;q=0.9"
}
#獲取關(guān)鍵詞數據
def get_keyword_datas(keyword):
<p>
data={
'word': keyword,
}
url = "https://apistore.aizhan.com/word/related/{0}".format(secrect_Id)
print(url)
html=requests.post(url,data=data,headers=headers).text
res = json.loads(html)
# print(res)
data_list = []
if res['code'] == 200000:
if res['data']['count'] > 0 :
print('已采集到{0}關(guān)鍵詞,正在保存中...'.format(res['data']['count']))
for value in res['data']['list']:
item = []
for k,v in value.items():
item.append(v)
data_list.append(item)
elif res['code'] == 100003:
print("接口維護")
elif res['code'] == 200002:
print("非法關(guān)鍵詞")
elif res['code'] == 100005:
print("余額不足,請充值")
else:
print("系統錯誤")
return data_list
#保存關(guān)鍵詞數據為excel格式
  
def bcsj(keyword,data):
workbook = xlwt.Workbook(encoding='utf-8')
booksheet = workbook.add_sheet('Sheet 1', cell_overwrite_ok=True)
title = [['長(cháng)尾關(guān)鍵詞', '全網(wǎng)指數', 'pc指數', '移動(dòng)指數']]
title.extend(data)
#print(title)
for i, row in enumerate(title):
for j, col in enumerate(row):
booksheet.write(i, j, col)
workbook.save(f'{keyword}.xls')
print(f"保存數據為 {keyword}.xls 成功!")
if __name__ == '__main__':
keyword = input('請輸入關(guān)鍵詞>>')
print('正在采集長(cháng)尾關(guān)鍵詞數據,請稍后...')
datas_list=get_keyword_datas(keyword)
if datas_list:
print('========================采集結束========================\n')
bcsj(keyword, datas_list)
else:
print('采集失敗\n')</p>
  附上采集部分的流程圖:
  部分結果圖:
  我的exe文件是用pyinstaller打包的。包有點(diǎn)大,有需要的可以下載。
  2021-5-11更新下載:
  如果覺(jué)得有用,能不能給我打個(gè)分鼓勵一下,謝謝大家!
  技巧:用金花站主工具挖掘長(cháng)尾關(guān)鍵詞
  金花網(wǎng)站大師工具也是如此,搜索引擎優(yōu)化
  在SEO行業(yè)有名的工具,如何在工作中使用金花網(wǎng)站大師工具?
  批量查詢(xún)網(wǎng)站關(guān)鍵詞排名
  我們只需要輸入域名,然后在查詢(xún)底部輸入關(guān)鍵字
  然后點(diǎn)擊底部開(kāi)始查詢(xún),我們可以查詢(xún)關(guān)鍵詞在主要搜索引擎中的排名。具體來(lái)說(shuō),我們還可以觀(guān)察關(guān)鍵詞的相關(guān)指數和平均指數!
  
  使用金花站大師工具挖掘長(cháng)尾關(guān)鍵詞
  我們也可以使用金花站長(cháng)工具挖掘長(cháng)尾關(guān)鍵詞,因為之前用過(guò)其他工具,但長(cháng)尾擴展效果不佳。比如詞重SEO,我可以在百度擴展不超過(guò)20個(gè)關(guān)鍵詞,豐超和5118,但用金華站長(cháng)工具擴展400個(gè)左右的長(cháng)尾關(guān)鍵詞,免費版的長(cháng)尾模式可以擴展。 顯示 500 個(gè)長(cháng)尾關(guān)鍵字。如果您需要更強大的功能,可以選擇升級 VIP。
  /
  d/file/titlepic/20220430/l2ua31fhq0a.jpg' title='' alt=''>
  使用黃金網(wǎng)站站長(cháng)工具查詢(xún)網(wǎng)站收錄內容
  點(diǎn)擊頂部數據分析,查詢(xún)網(wǎng)站PC查詢(xún)機和手機收錄率。有些人可能會(huì )說(shuō)使用網(wǎng)站是可以的。是的,網(wǎng)站確實(shí)是可以的,但金華網(wǎng)站的主要工具還有其他幾個(gè)功能,比如是否有死鏈接、入口鏈、退出鏈。我覺(jué)得沒(méi)關(guān)系!
  
  關(guān)鍵詞密度分析
  您可以分析頁(yè)面的關(guān)鍵字密度,直接進(jìn)入對應的頁(yè)面,單擊OKURL,如下圖所示:
  我們可以直觀(guān)地分析我們寫(xiě)的文章的頻率和密度。
  網(wǎng)絡(luò )日志分析
  我認為這個(gè)功能還可以。我自己分析高殼網(wǎng)站日志,不過(guò)小白也不難,我們可以直接用金華站長(cháng)工具分析網(wǎng)站日志,感覺(jué)很實(shí)用,哈哈! 查看全部

  技巧:seo必備工具腳本,批量挖掘采集關(guān)鍵詞到EXCEL表
  下午收到朋友反饋無(wú)效。為什么經(jīng)常失???因為現在是付費時(shí)代,什么都需要充值,不然什么都得不到,而且有限制,所以需要的話(huà)還是選擇付費吧。時(shí)間把文章里的代碼改成了A站的api,感覺(jué)一勞永逸,本帖不再更新。
  下午收到朋友反饋無(wú)效。我花了幾分鐘來(lái)修復它。代碼更新于2020年12月1日,最新下載地址在文末:
  想知道為什么我能第一時(shí)間收到好友的反饋嗎?點(diǎn)擊進(jìn)入這篇文章:
  我還記得我是在疫情期間的情人節注冊的。期間也學(xué)習了很多大佬分享的教程和源碼,收獲頗豐。
  這不,昨天逛論壇的時(shí)候發(fā)現了一個(gè)python寫(xiě)的seo關(guān)鍵詞采集挖掘腳本(原帖:%3D1%26filter%3Dtypeid%26typeid%3D29&amp;page=1),因為我也做了一個(gè)小自己做網(wǎng)站,雖然平時(shí)不太關(guān)注seo,但是還是很喜歡這種可以解放雙手的工具,所以立馬復制試了一下,發(fā)現代碼報錯,于是入手看了帖子的評論,發(fā)現很多人和我報同樣的錯誤,比如下面這位,和我一樣是新手,求助。
  幾年前,我自學(xué)了一段時(shí)間的python。另外,我有一點(diǎn)編程語(yǔ)言基礎,擅長(cháng)使用百度搜索。終于,功夫不負有心人。我修復了這個(gè)腳本,至少我可以運行它。,現分享給大家,回饋論壇,對你我都有幫助。先貼代碼。大佬們不會(huì )笑
  【Python】純文本查看復制代碼
  #愛(ài)站網(wǎng)長(cháng)尾關(guān)鍵詞挖掘
#2021-5-11更新
# -*- coding=utf-8 -*-
import requests
import xlwt
import json
#secrect_Id 登錄愛(ài)站后獲取
secrect_Id ='805422c95131161b845661eb7afe14c5'
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36',
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
"Connection": "keep-alive",
"Accept-Encoding": "gzip, deflate, br",
"Accept-Language": "zh-CN,zh;q=0.9"
}
#獲取關(guān)鍵詞數據
def get_keyword_datas(keyword):
<p>
data={
'word': keyword,
}
url = "https://apistore.aizhan.com/word/related/{0}".format(secrect_Id)
print(url)
html=requests.post(url,data=data,headers=headers).text
res = json.loads(html)
# print(res)
data_list = []
if res['code'] == 200000:
if res['data']['count'] > 0 :
print('已采集到{0}關(guān)鍵詞,正在保存中...'.format(res['data']['count']))
for value in res['data']['list']:
item = []
for k,v in value.items():
item.append(v)
data_list.append(item)
elif res['code'] == 100003:
print("接口維護")
elif res['code'] == 200002:
print("非法關(guān)鍵詞")
elif res['code'] == 100005:
print("余額不足,請充值")
else:
print("系統錯誤")
return data_list
#保存關(guān)鍵詞數據為excel格式
  
def bcsj(keyword,data):
workbook = xlwt.Workbook(encoding='utf-8')
booksheet = workbook.add_sheet('Sheet 1', cell_overwrite_ok=True)
title = [['長(cháng)尾關(guān)鍵詞', '全網(wǎng)指數', 'pc指數', '移動(dòng)指數']]
title.extend(data)
#print(title)
for i, row in enumerate(title):
for j, col in enumerate(row):
booksheet.write(i, j, col)
workbook.save(f'{keyword}.xls')
print(f"保存數據為 {keyword}.xls 成功!")
if __name__ == '__main__':
keyword = input('請輸入關(guān)鍵詞>>')
print('正在采集長(cháng)尾關(guān)鍵詞數據,請稍后...')
datas_list=get_keyword_datas(keyword)
if datas_list:
print('========================采集結束========================\n')
bcsj(keyword, datas_list)
else:
print('采集失敗\n')</p>
  附上采集部分的流程圖:
  部分結果圖:
  我的exe文件是用pyinstaller打包的。包有點(diǎn)大,有需要的可以下載。
  2021-5-11更新下載:
  如果覺(jué)得有用,能不能給我打個(gè)分鼓勵一下,謝謝大家!
  技巧:用金花站主工具挖掘長(cháng)尾關(guān)鍵詞
  金花網(wǎng)站大師工具也是如此,搜索引擎優(yōu)化
  在SEO行業(yè)有名的工具,如何在工作中使用金花網(wǎng)站大師工具?
  批量查詢(xún)網(wǎng)站關(guān)鍵詞排名
  我們只需要輸入域名,然后在查詢(xún)底部輸入關(guān)鍵字
  然后點(diǎn)擊底部開(kāi)始查詢(xún),我們可以查詢(xún)關(guān)鍵詞在主要搜索引擎中的排名。具體來(lái)說(shuō),我們還可以觀(guān)察關(guān)鍵詞的相關(guān)指數和平均指數!
  
  使用金花站大師工具挖掘長(cháng)尾關(guān)鍵詞
  我們也可以使用金花站長(cháng)工具挖掘長(cháng)尾關(guān)鍵詞,因為之前用過(guò)其他工具,但長(cháng)尾擴展效果不佳。比如詞重SEO,我可以在百度擴展不超過(guò)20個(gè)關(guān)鍵詞,豐超和5118,但用金華站長(cháng)工具擴展400個(gè)左右的長(cháng)尾關(guān)鍵詞,免費版的長(cháng)尾模式可以擴展。 顯示 500 個(gè)長(cháng)尾關(guān)鍵字。如果您需要更強大的功能,可以選擇升級 VIP。
  /
  d/file/titlepic/20220430/l2ua31fhq0a.jpg' title='' alt=''>
  使用黃金網(wǎng)站站長(cháng)工具查詢(xún)網(wǎng)站收錄內容
  點(diǎn)擊頂部數據分析,查詢(xún)網(wǎng)站PC查詢(xún)機和手機收錄率。有些人可能會(huì )說(shuō)使用網(wǎng)站是可以的。是的,網(wǎng)站確實(shí)是可以的,但金華網(wǎng)站的主要工具還有其他幾個(gè)功能,比如是否有死鏈接、入口鏈、退出鏈。我覺(jué)得沒(méi)關(guān)系!
  
  關(guān)鍵詞密度分析
  您可以分析頁(yè)面的關(guān)鍵字密度,直接進(jìn)入對應的頁(yè)面,單擊OKURL,如下圖所示:
  我們可以直觀(guān)地分析我們寫(xiě)的文章的頻率和密度。
  網(wǎng)絡(luò )日志分析
  我認為這個(gè)功能還可以。我自己分析高殼網(wǎng)站日志,不過(guò)小白也不難,我們可以直接用金華站長(cháng)工具分析網(wǎng)站日志,感覺(jué)很實(shí)用,哈哈!

解決方案:程序日志處理挑戰與方案

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 59 次瀏覽 ? 2022-11-26 14:19 ? 來(lái)自相關(guān)話(huà)題

  解決方案:程序日志處理挑戰與方案
  本文作者:簡(jiǎn)志,阿里云計算資深專(zhuān)家,擅長(cháng)領(lǐng)域日志分析處理。
  程序日志(AppLog)有什么特點(diǎn)?
  內容最全:程序日志由程序員給出,重要的位置、變量值、異常都會(huì )被記錄下來(lái)??梢哉f(shuō)90%以上的線(xiàn)上bug都是通過(guò)程序日志輸出來(lái)定位的
  格式比較隨意:代碼往往由不同的人開(kāi)發(fā),每個(gè)程序員都有自己喜歡的格式,一般很難統一,引入的一些第三方庫的日志樣式也不同
  具有一定的共性:雖然格式是任意的,但一般都有一些共性。例如,對于 Log4J 日志,需要以下字段:
  時(shí)間
  等級
  在文件或類(lèi)(file or class)
  電話(huà)號碼
  線(xiàn)程號(ThreadId)
  處理程序日志的挑戰是什么?
  1、數據量大
  程序日志一般比訪(fǎng)問(wèn)日志大一個(gè)數量級:假設一個(gè)網(wǎng)站一天有100萬(wàn)次獨立訪(fǎng)問(wèn),每次訪(fǎng)問(wèn)大約有20個(gè)邏輯模塊,每個(gè)邏輯模塊中有10個(gè)主要邏輯點(diǎn)需要記錄.
  那么日志總數為:
  每個(gè)長(cháng)度為200字節,則存儲大小為
  隨著(zhù)業(yè)務(wù)系統的復雜化,這個(gè)數據會(huì )越來(lái)越大。一個(gè)中型網(wǎng)站每天登錄 100-200GB 是很常見(jiàn)的。
  2. 多臺分布式服務(wù)器
  大多數應用程序都是無(wú)狀態(tài)的,運行在不同的框架中,例如:
  服務(wù)器
  碼頭工人(容器)
  函數計算(容器服務(wù))
  對應的實(shí)例數會(huì )從幾到幾千不等,需要跨服務(wù)器的日志采集方案
  3、運行環(huán)境復雜
  程序落在不同的環(huán)境中,例如:
  應用相關(guān)的都會(huì )在容器中
  API相關(guān)日志會(huì )在FunctionCompute中
  傳統 IDC 中的遺留系統日志
  與移動(dòng)相關(guān)的日志位于用戶(hù)站點(diǎn)
  瀏覽器中的網(wǎng)頁(yè)(M站)
  為了獲得全貌,我們必須統一和存儲所有數據。
  如何解決程序日志記錄需求
  1.統一存儲
  目標:將各個(gè)渠道的數據采集
到一個(gè)中心化的中心,這樣后續的工作只有在它們連接起來(lái)的時(shí)候才能完成。
  我們可以在日志服務(wù)中創(chuàng )建一個(gè)項目來(lái)存放應用日志。日志服務(wù)提供了30多種日志采集方式:無(wú)論是埋在硬件服務(wù)器中,還是網(wǎng)頁(yè)上的JS,還是服務(wù)器上輸出的日志,都可以實(shí)時(shí)采集。在列表中找到。
  在服務(wù)端日志上,日志服務(wù)除了使用SDK直接寫(xiě)入外,還提供了一個(gè)方便、穩定、高性能的Agent——Logtail。logtail提供windows,
  
  linux有兩個(gè)版本。在控制臺定義機器組并配置日志采集后,即可實(shí)時(shí)采集業(yè)務(wù)日志。這是一個(gè) 5 分鐘的視頻。
  創(chuàng )建好日志采集配置后,我們就可以對項目中的各種日志進(jìn)行操作了。
  可能有人會(huì )問(wèn),日志采集代理有很多,有Logstash、Flume、FluentD、Beats等,那么Logtash和這些相比有什么特點(diǎn)呢?
  簡(jiǎn)單易用:提供API、遠程管理和監控功能,集成阿里巴巴集團百萬(wàn)級服務(wù)器日志采集和管理經(jīng)驗,配置一個(gè)采集點(diǎn)到幾十萬(wàn)臺設備只需幾秒
  適應各種環(huán)境:無(wú)論是公網(wǎng)、VPC、自定義IDC等均可支持,https和斷點(diǎn)續傳功能,輕松訪(fǎng)問(wèn)公網(wǎng)數據
  性能強,資源消耗極?。航?jīng)過(guò)多年磨練,性能和資源消耗均優(yōu)于開(kāi)源,詳見(jiàn)對比測試
  2.快速搜索定位
  目標:無(wú)論數據量如何增長(cháng),服務(wù)器如何部署,都能保證定位問(wèn)題的時(shí)間是恒定的
  例如,訂單錯誤和長(cháng)時(shí)間延遲。如何在一周的幾TB數據日志中快速定位問(wèn)題。它還將涉及各種條件過(guò)濾和故障排除。
  比如程序中記錄延遲的日志,我們排查延遲大于1秒,方法以Post開(kāi)頭的請求數據:
  對于收錄
error關(guān)鍵詞 但不收錄
merge關(guān)鍵詞 的日志
  當天的結果
  本周結果
  更長(cháng)的結果
  這些查詢(xún)在 1 秒內返回
  3.關(guān)聯(lián)分析
  有兩種類(lèi)型的關(guān)聯(lián),進(jìn)程內關(guān)聯(lián)和跨進(jìn)程關(guān)聯(lián)。我們先來(lái)看看兩者的區別:
  進(jìn)程內關(guān)聯(lián):一般比較簡(jiǎn)單,因為同一個(gè)函數前后的日志都在一個(gè)文件里。在多線(xiàn)程鏈接中,我們只需要根據線(xiàn)程Id進(jìn)行過(guò)濾即可
  跨進(jìn)程關(guān)聯(lián):跨進(jìn)程請求一般沒(méi)有明確的線(xiàn)索,一般通過(guò)RPC中傳遞TracerId來(lái)關(guān)聯(lián)
  3.1 上下文關(guān)聯(lián)
  點(diǎn)擊上下文查詢(xún)后,會(huì )跳轉到前后N個(gè)上下文
  顯示框可以通過(guò)“早期”和“更新”等按鈕加載更多上下文
  也可以點(diǎn)擊“返回正常搜索模式”,通過(guò)過(guò)濾框進(jìn)一步調查過(guò)濾ThreadID,精準上下文過(guò)濾
  更多上下文查詢(xún)文檔請參考文檔索引查詢(xún)下的上下文查詢(xún)
  3.2 跨進(jìn)程關(guān)聯(lián)
  跨進(jìn)程關(guān)聯(lián)也稱(chēng)為 Tracing。最早的作品是谷歌在2010年大名鼎鼎的《Dapper,一個(gè)大型分布式系統跟蹤基礎設施》,后來(lái)開(kāi)源社區借鑒了谷歌的思想,做出了各種已經(jīng)平民化的Tracer版本。比較有名的有:
  Dapper (Google):每個(gè)追蹤器的基礎
  StackDriver Trace (Google),現在兼容 ZipKin
  Zipkin:twitter 開(kāi)源 Tracing 系統
  Appdash:golang 版本
  
  鷹眼:阿里巴巴集團中間件技術(shù)部研發(fā)
  X 射線(xiàn):AWS 在 Re:Invent 2016 上推出技術(shù)
  從頭開(kāi)始使用 Tracer 相對容易,但在現有系統中使用它成本高且具有挑戰性。
  今天我們可以基于日志服務(wù)實(shí)現一個(gè)基本的Tracing功能:在各個(gè)模塊的日志中輸出Request_id、OrderId等相關(guān)的標志字段,通過(guò)在不同的日志庫中查找得到所有相關(guān)的日志。
  比如我們可以通過(guò)SDK查詢(xún)前端機、后端機、支付系統、訂單系統等日志,得到結果后做一個(gè)前端頁(yè)面關(guān)聯(lián)跨進(jìn)程調用
  綜上所述,下面是基于日志服務(wù)快速搭建的追溯系統。
  4、統計分析
  找到特征日志后,我們有時(shí)希望做一些分析,比如網(wǎng)上有多少種不同類(lèi)型的錯誤日志?
  我們先查詢(xún)“__level__”的日志級別字段,得知一天有2720條錯誤:
  接下來(lái)我們可以根據file和line這兩個(gè)字段進(jìn)行統計聚合(確定唯一的日志類(lèi)型)
  可以得到所有錯誤的類(lèi)型和位置的分布
  其他包括基于錯誤代碼和高延遲等條件的 IP 定位和分析。更多信息請參考訪(fǎng)問(wèn)日志分析案例。
  5.其他
  1.備份日志審計
  日志可以備份到存儲成本較低的OSS或IA,也可以直接備份到MaxCompute。詳見(jiàn)日志投遞
  2. 關(guān)鍵詞鬧鐘
  目前報警方式有以下幾種
  1.將日志查詢(xún)保存為日志服務(wù)中的定時(shí)任務(wù),并對結果進(jìn)行告警,見(jiàn)文檔
  2.通過(guò)云監控日志告警功能,見(jiàn)文檔
  3、日志查詢(xún)權限分配管理
  開(kāi)發(fā)、PE等權限可以通過(guò)子賬號+授權組的方式進(jìn)行隔離,見(jiàn)文檔
  最后,讓我們談?wù)剝r(jià)格和成本。程序日志主要使用日志服務(wù)LogHub + LogSearch功能。這是與開(kāi)源解決方案的比較。查詢(xún)成本是開(kāi)源方案的25%。使用起來(lái)非常方便,讓您的開(kāi)發(fā)工作更有效率。
  往期精彩文章
  1個(gè)
  2個(gè)
  3個(gè)
  4個(gè)
  -結尾-
  云棲社區
  ID:云棲
  云計算丨互聯(lián)網(wǎng)架構丨大數據丨機器學(xué)習丨運維
  解決方案:《自適應-體育新聞》帝國CMS模板(自適應
  源碼名稱(chēng):(自適應-體育新聞)帝國CMS模板足球籃球資訊門(mén)戶(hù)源碼帶多站采集
  關(guān)鍵詞:首頁(yè)NBA 英超 西甲 德甲 意甲 歐冠 法甲 亞冠 CBA
  說(shuō)明:主要為您提供國內足球、國際足球、NBA、CBA、綜合體育、奧運會(huì )、直播、彩票、競猜等欄目,各項指標均處于絕對領(lǐng)先地位。
  整站模板采用自適應結構制作,抱歉MIP端是真正的三合一帝國cms源碼,自適應模板方便管理權重也集中,網(wǎng)站打開(kāi)速度快,用戶(hù)體驗好,欄目和子欄目可以下拉 全自動(dòng)按順序調用,網(wǎng)站結構簡(jiǎn)潔明了,程序仿帝皇cms7.5內核,開(kāi)源無(wú)任何限制,模板按標簽分類(lèi),可以使用多批次構建和MIP專(zhuān)用網(wǎng)站,內容由優(yōu)采云
采集
和更新,生成和維護也很方便。
  《自適應體育新聞》帝國CMS模板開(kāi)發(fā)環(huán)境:
  
  帝國cms 7.5
  安裝環(huán)境:
  php+mysql
  采集規則:
  收錄
優(yōu)采云
采集規則和模塊,采集目標站和多站采集。包年獲取規則更新
  
  《自適應體育新聞》帝國CMS模板的優(yōu)勢:
  1、更新快,包更新,包安裝,包技術(shù)指導,經(jīng)濟方便。
  2、《自適應-體育新聞》帝國CMS模板價(jià)格實(shí)惠,源碼在同行業(yè)中質(zhì)優(yōu)價(jià)廉。本站源碼采集后,經(jīng)過(guò)D盾、云鎖、天鵝絨掃描。
  3、一站式包安裝服務(wù),從程序上傳到環(huán)境搭建所有包,自行安裝免費提供專(zhuān)業(yè)技術(shù)支持。所有模板都有至少一年的技術(shù)服務(wù)支持!
  《自適應-體育新聞》帝國CMS源碼安裝不了,《自適應-體育新聞》帝國CMS源碼優(yōu)采云
采集規則無(wú)效,《自適應-體育新聞》帝國CMS源碼最新版,找站長(cháng)來(lái)解決 不用擔心,小白站長(cháng)真的可以上手了!
  另:如有需要,可聯(lián)系站長(cháng)。本站還提供網(wǎng)站定制、自適應改造、數據生成更新、優(yōu)采云
高級偽原創(chuàng )API插件,可讀性強,采集
效果好。 查看全部

  解決方案:程序日志處理挑戰與方案
  本文作者:簡(jiǎn)志,阿里云計算資深專(zhuān)家,擅長(cháng)領(lǐng)域日志分析處理。
  程序日志(AppLog)有什么特點(diǎn)?
  內容最全:程序日志由程序員給出,重要的位置、變量值、異常都會(huì )被記錄下來(lái)??梢哉f(shuō)90%以上的線(xiàn)上bug都是通過(guò)程序日志輸出來(lái)定位的
  格式比較隨意:代碼往往由不同的人開(kāi)發(fā),每個(gè)程序員都有自己喜歡的格式,一般很難統一,引入的一些第三方庫的日志樣式也不同
  具有一定的共性:雖然格式是任意的,但一般都有一些共性。例如,對于 Log4J 日志,需要以下字段:
  時(shí)間
  等級
  在文件或類(lèi)(file or class)
  電話(huà)號碼
  線(xiàn)程號(ThreadId)
  處理程序日志的挑戰是什么?
  1、數據量大
  程序日志一般比訪(fǎng)問(wèn)日志大一個(gè)數量級:假設一個(gè)網(wǎng)站一天有100萬(wàn)次獨立訪(fǎng)問(wèn),每次訪(fǎng)問(wèn)大約有20個(gè)邏輯模塊,每個(gè)邏輯模塊中有10個(gè)主要邏輯點(diǎn)需要記錄.
  那么日志總數為:
  每個(gè)長(cháng)度為200字節,則存儲大小為
  隨著(zhù)業(yè)務(wù)系統的復雜化,這個(gè)數據會(huì )越來(lái)越大。一個(gè)中型網(wǎng)站每天登錄 100-200GB 是很常見(jiàn)的。
  2. 多臺分布式服務(wù)器
  大多數應用程序都是無(wú)狀態(tài)的,運行在不同的框架中,例如:
  服務(wù)器
  碼頭工人(容器)
  函數計算(容器服務(wù))
  對應的實(shí)例數會(huì )從幾到幾千不等,需要跨服務(wù)器的日志采集方案
  3、運行環(huán)境復雜
  程序落在不同的環(huán)境中,例如:
  應用相關(guān)的都會(huì )在容器中
  API相關(guān)日志會(huì )在FunctionCompute中
  傳統 IDC 中的遺留系統日志
  與移動(dòng)相關(guān)的日志位于用戶(hù)站點(diǎn)
  瀏覽器中的網(wǎng)頁(yè)(M站)
  為了獲得全貌,我們必須統一和存儲所有數據。
  如何解決程序日志記錄需求
  1.統一存儲
  目標:將各個(gè)渠道的數據采集
到一個(gè)中心化的中心,這樣后續的工作只有在它們連接起來(lái)的時(shí)候才能完成。
  我們可以在日志服務(wù)中創(chuàng )建一個(gè)項目來(lái)存放應用日志。日志服務(wù)提供了30多種日志采集方式:無(wú)論是埋在硬件服務(wù)器中,還是網(wǎng)頁(yè)上的JS,還是服務(wù)器上輸出的日志,都可以實(shí)時(shí)采集。在列表中找到。
  在服務(wù)端日志上,日志服務(wù)除了使用SDK直接寫(xiě)入外,還提供了一個(gè)方便、穩定、高性能的Agent——Logtail。logtail提供windows,
  
  linux有兩個(gè)版本。在控制臺定義機器組并配置日志采集后,即可實(shí)時(shí)采集業(yè)務(wù)日志。這是一個(gè) 5 分鐘的視頻。
  創(chuàng )建好日志采集配置后,我們就可以對項目中的各種日志進(jìn)行操作了。
  可能有人會(huì )問(wèn),日志采集代理有很多,有Logstash、Flume、FluentD、Beats等,那么Logtash和這些相比有什么特點(diǎn)呢?
  簡(jiǎn)單易用:提供API、遠程管理和監控功能,集成阿里巴巴集團百萬(wàn)級服務(wù)器日志采集和管理經(jīng)驗,配置一個(gè)采集點(diǎn)到幾十萬(wàn)臺設備只需幾秒
  適應各種環(huán)境:無(wú)論是公網(wǎng)、VPC、自定義IDC等均可支持,https和斷點(diǎn)續傳功能,輕松訪(fǎng)問(wèn)公網(wǎng)數據
  性能強,資源消耗極?。航?jīng)過(guò)多年磨練,性能和資源消耗均優(yōu)于開(kāi)源,詳見(jiàn)對比測試
  2.快速搜索定位
  目標:無(wú)論數據量如何增長(cháng),服務(wù)器如何部署,都能保證定位問(wèn)題的時(shí)間是恒定的
  例如,訂單錯誤和長(cháng)時(shí)間延遲。如何在一周的幾TB數據日志中快速定位問(wèn)題。它還將涉及各種條件過(guò)濾和故障排除。
  比如程序中記錄延遲的日志,我們排查延遲大于1秒,方法以Post開(kāi)頭的請求數據:
  對于收錄
error關(guān)鍵詞 但不收錄
merge關(guān)鍵詞 的日志
  當天的結果
  本周結果
  更長(cháng)的結果
  這些查詢(xún)在 1 秒內返回
  3.關(guān)聯(lián)分析
  有兩種類(lèi)型的關(guān)聯(lián),進(jìn)程內關(guān)聯(lián)和跨進(jìn)程關(guān)聯(lián)。我們先來(lái)看看兩者的區別:
  進(jìn)程內關(guān)聯(lián):一般比較簡(jiǎn)單,因為同一個(gè)函數前后的日志都在一個(gè)文件里。在多線(xiàn)程鏈接中,我們只需要根據線(xiàn)程Id進(jìn)行過(guò)濾即可
  跨進(jìn)程關(guān)聯(lián):跨進(jìn)程請求一般沒(méi)有明確的線(xiàn)索,一般通過(guò)RPC中傳遞TracerId來(lái)關(guān)聯(lián)
  3.1 上下文關(guān)聯(lián)
  點(diǎn)擊上下文查詢(xún)后,會(huì )跳轉到前后N個(gè)上下文
  顯示框可以通過(guò)“早期”和“更新”等按鈕加載更多上下文
  也可以點(diǎn)擊“返回正常搜索模式”,通過(guò)過(guò)濾框進(jìn)一步調查過(guò)濾ThreadID,精準上下文過(guò)濾
  更多上下文查詢(xún)文檔請參考文檔索引查詢(xún)下的上下文查詢(xún)
  3.2 跨進(jìn)程關(guān)聯(lián)
  跨進(jìn)程關(guān)聯(lián)也稱(chēng)為 Tracing。最早的作品是谷歌在2010年大名鼎鼎的《Dapper,一個(gè)大型分布式系統跟蹤基礎設施》,后來(lái)開(kāi)源社區借鑒了谷歌的思想,做出了各種已經(jīng)平民化的Tracer版本。比較有名的有:
  Dapper (Google):每個(gè)追蹤器的基礎
  StackDriver Trace (Google),現在兼容 ZipKin
  Zipkin:twitter 開(kāi)源 Tracing 系統
  Appdash:golang 版本
  
  鷹眼:阿里巴巴集團中間件技術(shù)部研發(fā)
  X 射線(xiàn):AWS 在 Re:Invent 2016 上推出技術(shù)
  從頭開(kāi)始使用 Tracer 相對容易,但在現有系統中使用它成本高且具有挑戰性。
  今天我們可以基于日志服務(wù)實(shí)現一個(gè)基本的Tracing功能:在各個(gè)模塊的日志中輸出Request_id、OrderId等相關(guān)的標志字段,通過(guò)在不同的日志庫中查找得到所有相關(guān)的日志。
  比如我們可以通過(guò)SDK查詢(xún)前端機、后端機、支付系統、訂單系統等日志,得到結果后做一個(gè)前端頁(yè)面關(guān)聯(lián)跨進(jìn)程調用
  綜上所述,下面是基于日志服務(wù)快速搭建的追溯系統。
  4、統計分析
  找到特征日志后,我們有時(shí)希望做一些分析,比如網(wǎng)上有多少種不同類(lèi)型的錯誤日志?
  我們先查詢(xún)“__level__”的日志級別字段,得知一天有2720條錯誤:
  接下來(lái)我們可以根據file和line這兩個(gè)字段進(jìn)行統計聚合(確定唯一的日志類(lèi)型)
  可以得到所有錯誤的類(lèi)型和位置的分布
  其他包括基于錯誤代碼和高延遲等條件的 IP 定位和分析。更多信息請參考訪(fǎng)問(wèn)日志分析案例。
  5.其他
  1.備份日志審計
  日志可以備份到存儲成本較低的OSS或IA,也可以直接備份到MaxCompute。詳見(jiàn)日志投遞
  2. 關(guān)鍵詞鬧鐘
  目前報警方式有以下幾種
  1.將日志查詢(xún)保存為日志服務(wù)中的定時(shí)任務(wù),并對結果進(jìn)行告警,見(jiàn)文檔
  2.通過(guò)云監控日志告警功能,見(jiàn)文檔
  3、日志查詢(xún)權限分配管理
  開(kāi)發(fā)、PE等權限可以通過(guò)子賬號+授權組的方式進(jìn)行隔離,見(jiàn)文檔
  最后,讓我們談?wù)剝r(jià)格和成本。程序日志主要使用日志服務(wù)LogHub + LogSearch功能。這是與開(kāi)源解決方案的比較。查詢(xún)成本是開(kāi)源方案的25%。使用起來(lái)非常方便,讓您的開(kāi)發(fā)工作更有效率。
  往期精彩文章
  1個(gè)
  2個(gè)
  3個(gè)
  4個(gè)
  -結尾-
  云棲社區
  ID:云棲
  云計算丨互聯(lián)網(wǎng)架構丨大數據丨機器學(xué)習丨運維
  解決方案:《自適應-體育新聞》帝國CMS模板(自適應
  源碼名稱(chēng):(自適應-體育新聞)帝國CMS模板足球籃球資訊門(mén)戶(hù)源碼帶多站采集
  關(guān)鍵詞:首頁(yè)NBA 英超 西甲 德甲 意甲 歐冠 法甲 亞冠 CBA
  說(shuō)明:主要為您提供國內足球、國際足球、NBA、CBA、綜合體育、奧運會(huì )、直播、彩票、競猜等欄目,各項指標均處于絕對領(lǐng)先地位。
  整站模板采用自適應結構制作,抱歉MIP端是真正的三合一帝國cms源碼,自適應模板方便管理權重也集中,網(wǎng)站打開(kāi)速度快,用戶(hù)體驗好,欄目和子欄目可以下拉 全自動(dòng)按順序調用,網(wǎng)站結構簡(jiǎn)潔明了,程序仿帝皇cms7.5內核,開(kāi)源無(wú)任何限制,模板按標簽分類(lèi),可以使用多批次構建和MIP專(zhuān)用網(wǎng)站,內容由優(yōu)采云
采集
和更新,生成和維護也很方便。
  《自適應體育新聞》帝國CMS模板開(kāi)發(fā)環(huán)境:
  
  帝國cms 7.5
  安裝環(huán)境:
  php+mysql
  采集規則:
  收錄
優(yōu)采云
采集規則和模塊,采集目標站和多站采集。包年獲取規則更新
  
  《自適應體育新聞》帝國CMS模板的優(yōu)勢:
  1、更新快,包更新,包安裝,包技術(shù)指導,經(jīng)濟方便。
  2、《自適應-體育新聞》帝國CMS模板價(jià)格實(shí)惠,源碼在同行業(yè)中質(zhì)優(yōu)價(jià)廉。本站源碼采集后,經(jīng)過(guò)D盾、云鎖、天鵝絨掃描。
  3、一站式包安裝服務(wù),從程序上傳到環(huán)境搭建所有包,自行安裝免費提供專(zhuān)業(yè)技術(shù)支持。所有模板都有至少一年的技術(shù)服務(wù)支持!
  《自適應-體育新聞》帝國CMS源碼安裝不了,《自適應-體育新聞》帝國CMS源碼優(yōu)采云
采集規則無(wú)效,《自適應-體育新聞》帝國CMS源碼最新版,找站長(cháng)來(lái)解決 不用擔心,小白站長(cháng)真的可以上手了!
  另:如有需要,可聯(lián)系站長(cháng)。本站還提供網(wǎng)站定制、自適應改造、數據生成更新、優(yōu)采云
高級偽原創(chuàng )API插件,可讀性強,采集
效果好。

核心方法:通過(guò)關(guān)鍵詞采集文章采集api,利用正則表達式實(shí)現方法相同

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 108 次瀏覽 ? 2022-11-26 10:38 ? 來(lái)自相關(guān)話(huà)題

  核心方法:通過(guò)關(guān)鍵詞采集文章采集api,利用正則表達式實(shí)現方法相同
  
  通過(guò)關(guān)鍵詞采集文章采集api,利用正則表達式進(jìn)行關(guān)鍵詞篩選,保存、檢索、復制到wordview文件實(shí)現。通過(guò)函數可以獲取文章列表、定向、關(guān)鍵詞采集。reeder中實(shí)現方法相同。reeder也通過(guò)關(guān)鍵詞檢索文章。但通過(guò)正則表達式可以實(shí)現采集關(guān)鍵詞,通過(guò)wordview這個(gè)文件,復制到html后實(shí)現效果。
  
  功能中需要注意下:1.采集關(guān)鍵詞不能泄露。2.文件的讀寫(xiě)權限做好設置,權限越小,性能越慢,如權限設置為g,在分享給對應用戶(hù)時(shí)文件讀寫(xiě)權限為g,會(huì )造成權限泄露,權限泄露代碼就可能被修改。而且正則表達式效率非常低。下面做一個(gè)二次開(kāi)發(fā):1.寫(xiě)入列表。reeder首先通過(guò)正則表達式遍歷關(guān)鍵詞列表,具體的一些寫(xiě)法:正則表達式s[0]=‘/’[1]="/"[2]="/"[3]="/"[4]="/"[5]="/"[6]="/"[7]="/"//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//$//$//^([1-9]+)([0-9]+)$/$//$//^([1-9]+)([0-9]+)$/$//$//^([1-9]+)([0-9]+)$/$//$//$//^([1-9]+)([0-9]+)$/$//$//^([1-9]+)([0-9]+)$/$//$//^([1-9]+)([0-9]+)$/$//$//$//$//^([1-9]+)([0-9]+)$/$//$//$//^([1-9]+)([0-9]+)$/$//$//$//$//^([1-9]+)([0-9]+)$/$/$//$//$//^([1-9]+)([0-9]+)$/$/$//$//$//^([1-9]+)([0-9]+)$/$/$//$//$//$//$//^([1-9]+)([0-9]+)$/$/$/$/$//$//$//$//$//^([1-9]+)([0-9]+)$/$/$/$/$/$/$/$/$/$/$/$/$/$/$/$/。 查看全部

  核心方法:通過(guò)關(guān)鍵詞采集文章采集api,利用正則表達式實(shí)現方法相同
  
  通過(guò)關(guān)鍵詞采集文章采集api,利用正則表達式進(jìn)行關(guān)鍵詞篩選,保存、檢索、復制到wordview文件實(shí)現。通過(guò)函數可以獲取文章列表、定向、關(guān)鍵詞采集。reeder中實(shí)現方法相同。reeder也通過(guò)關(guān)鍵詞檢索文章。但通過(guò)正則表達式可以實(shí)現采集關(guān)鍵詞,通過(guò)wordview這個(gè)文件,復制到html后實(shí)現效果。
  
  功能中需要注意下:1.采集關(guān)鍵詞不能泄露。2.文件的讀寫(xiě)權限做好設置,權限越小,性能越慢,如權限設置為g,在分享給對應用戶(hù)時(shí)文件讀寫(xiě)權限為g,會(huì )造成權限泄露,權限泄露代碼就可能被修改。而且正則表達式效率非常低。下面做一個(gè)二次開(kāi)發(fā):1.寫(xiě)入列表。reeder首先通過(guò)正則表達式遍歷關(guān)鍵詞列表,具體的一些寫(xiě)法:正則表達式s[0]=‘/’[1]="/"[2]="/"[3]="/"[4]="/"[5]="/"[6]="/"[7]="/"//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//$//$//^([1-9]+)([0-9]+)$/$//$//^([1-9]+)([0-9]+)$/$//$//^([1-9]+)([0-9]+)$/$//$//$//^([1-9]+)([0-9]+)$/$//$//^([1-9]+)([0-9]+)$/$//$//^([1-9]+)([0-9]+)$/$//$//$//$//^([1-9]+)([0-9]+)$/$//$//$//^([1-9]+)([0-9]+)$/$//$//$//$//^([1-9]+)([0-9]+)$/$/$//$//$//^([1-9]+)([0-9]+)$/$/$//$//$//^([1-9]+)([0-9]+)$/$/$//$//$//$//$//^([1-9]+)([0-9]+)$/$/$/$/$//$//$//$//$//^([1-9]+)([0-9]+)$/$/$/$/$/$/$/$/$/$/$/$/$/$/$/$/。

操作方法:實(shí)戰運行手冊——爬蟲(chóng)工具之三:ParseHub

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 806 次瀏覽 ? 2022-11-25 04:20 ? 來(lái)自相關(guān)話(huà)題

  操作方法:實(shí)戰運行手冊——爬蟲(chóng)工具之三:ParseHub
  任何項目的開(kāi)展都需要數據的支持,數據采集的準確性直接關(guān)系到數據分析結果的價(jià)值,而從各個(gè)網(wǎng)站采集數據(web scraping)是一項非常繁瑣的工作。
  由于工作原因,我會(huì )繼續嘗試一些爬蟲(chóng)工具,后面會(huì )出一系列的“爬蟲(chóng)工具”,盡量找那些比較簡(jiǎn)單易用高效的小工具,說(shuō)說(shuō)它們的特點(diǎn),以及用截圖做實(shí)戰演示。
  本期為ParseHub,主要用于爬取Web上各類(lèi)數據。
  地址:
  下面是操作步驟的簡(jiǎn)單演示
  第一步:點(diǎn)擊下載安裝地址
 ?。ㄟx擇對應的系統版本)
  第二步:注冊賬號
  
  第三步:下載安裝完成,登錄ParseHub 第四步:開(kāi)始使用
  點(diǎn)擊新建項目
  進(jìn)入后如下圖,右側是抓取網(wǎng)頁(yè)的縮略圖展示,左側是被縮略的頁(yè)面元素列表,可以點(diǎn)擊左側的列表項進(jìn)行關(guān)注向上操作
  比如這個(gè)看電影的網(wǎng)站可以選擇電影名稱(chēng)、電影播放時(shí)間和海報進(jìn)行抓取
  下面你可以選擇你要爬取的數據的格式
  單擊獲取數據按鈕
  點(diǎn)擊運行開(kāi)始爬取數據
  
  數據爬取
  抓取完成
  選擇需要的數據類(lèi)型,這里選擇json,將數據保存到本地
  打開(kāi)可以看到爬取的數據
  以上是我個(gè)人用ParseHub制作的數據爬取截圖示例,希望對大家有所幫助。
  我個(gè)人對這款產(chǎn)品的技術(shù)特點(diǎn)的理解總結如下:
  ParseHub是一款強大免費的網(wǎng)絡(luò )爬蟲(chóng)工具,類(lèi)似于國內的優(yōu)采云
采集器等,它使用機器學(xué)習關(guān)系引擎過(guò)濾頁(yè)面,理解元素的層次結構,秒查看它爬取數百萬(wàn)的數據確保我們擁有成千上萬(wàn)的鏈接和關(guān)鍵字全景的網(wǎng)頁(yè);不懂網(wǎng)絡(luò )技術(shù)也能輕松采集數據,一鍵獲取數據;本工具可以支持對采集到的數據進(jìn)行實(shí)時(shí)預覽,還可以設置爬取時(shí)間,保證采集到最新的數據;ParseHub 最大的優(yōu)勢是可以爬取一些相對復雜的頁(yè)面和元素,例如,你可以用它來(lái)檢索表單、菜單、登陸頁(yè)面,甚至可以點(diǎn)擊圖片或地圖來(lái)獲取它們背后的更多數據;有時(shí),待抓取的目標頁(yè)面技術(shù)太落后,別著(zhù)急!無(wú)論是JS還是AJAX編寫(xiě)的頁(yè)面,都可以使用ParseHub來(lái)采集
和存儲數據;我們還可以使用 REST API 以 JSON 或 CSV 格式下載提取的數據,或者將采集
的數據導出到 Google Sheet、Tableau 等。
  操作方法:優(yōu)采云
采集規則基本步驟介紹:循環(huán)
  循環(huán)
  1)該步驟用于重復一系列步驟,根據不同的配置支持多種模式。
  循環(huán)固定單個(gè)元素,比如循環(huán)點(diǎn)擊每一頁(yè)的下一頁(yè)按鈕;
  1)循環(huán)固定列表,比如循環(huán)遍歷頁(yè)面中指定的多個(gè)元素;
  2)循環(huán)變量列表,當需要循環(huán)多個(gè)頁(yè)面,但每頁(yè)處理的元素個(gè)數不固定時(shí)使用;
  3)循環(huán)URL列表,主要用于循環(huán)打開(kāi)一批指定URL的網(wǎng)頁(yè),然后執行相同的處理步驟。
  循環(huán)步驟注意事項
  
  1)元素在IFRAME中
  如果循環(huán)中設置的元素在IFRAME中,請勾選此選項,并在后面的IFAMEXPah中填寫(xiě)IFRAME的XPATH
  4) IFAMEX路徑
  元素所在的IFRAME的路徑,只有勾選'Element in IFRAME'時(shí)該設置才會(huì )生效。
  5) 修復了一個(gè)元素
  循環(huán)對某個(gè)元素進(jìn)行特定的操作,比如循環(huán)點(diǎn)擊下一頁(yè),向下滾動(dòng)下拉列表等,當翻到最后一頁(yè)或下拉列表到達最后一項時(shí),當前循環(huán)自動(dòng)結束.
  6) 固定元素列表
  對列表中的元素一一進(jìn)行具體操作,如循環(huán)點(diǎn)擊、提取數據、將鼠標懸停在元素上等。當所有元素循環(huán)完畢后,本次循環(huán)自動(dòng)結束。
  
  7)動(dòng)態(tài)元素列表
  當元素列表不固定時(shí),可以指定一個(gè)動(dòng)態(tài)路徑(多個(gè)元素符合這個(gè)路徑,即可以根據這個(gè)路徑定位多個(gè)元素),系統會(huì )先根據指定的路徑找到一個(gè)元素列表,然后執行“固定”路徑 Element List' 做同樣的事情。
  8) 網(wǎng)址列表
  結合打開(kāi)網(wǎng)頁(yè)的操作,指定一個(gè)URL列表,并確保在循環(huán)打開(kāi)網(wǎng)頁(yè)的操作中勾選當前循環(huán)項標志的使用,從而打開(kāi)URL列表中的連接一個(gè)。
  9) 循環(huán)執行次數等于
  執行指定次數后退出循環(huán)。
  更多 優(yōu)采云
采集
步驟 查看全部

  操作方法:實(shí)戰運行手冊——爬蟲(chóng)工具之三:ParseHub
  任何項目的開(kāi)展都需要數據的支持,數據采集的準確性直接關(guān)系到數據分析結果的價(jià)值,而從各個(gè)網(wǎng)站采集數據(web scraping)是一項非常繁瑣的工作。
  由于工作原因,我會(huì )繼續嘗試一些爬蟲(chóng)工具,后面會(huì )出一系列的“爬蟲(chóng)工具”,盡量找那些比較簡(jiǎn)單易用高效的小工具,說(shuō)說(shuō)它們的特點(diǎn),以及用截圖做實(shí)戰演示。
  本期為ParseHub,主要用于爬取Web上各類(lèi)數據。
  地址:
  下面是操作步驟的簡(jiǎn)單演示
  第一步:點(diǎn)擊下載安裝地址
 ?。ㄟx擇對應的系統版本)
  第二步:注冊賬號
  
  第三步:下載安裝完成,登錄ParseHub 第四步:開(kāi)始使用
  點(diǎn)擊新建項目
  進(jìn)入后如下圖,右側是抓取網(wǎng)頁(yè)的縮略圖展示,左側是被縮略的頁(yè)面元素列表,可以點(diǎn)擊左側的列表項進(jìn)行關(guān)注向上操作
  比如這個(gè)看電影的網(wǎng)站可以選擇電影名稱(chēng)、電影播放時(shí)間和海報進(jìn)行抓取
  下面你可以選擇你要爬取的數據的格式
  單擊獲取數據按鈕
  點(diǎn)擊運行開(kāi)始爬取數據
  
  數據爬取
  抓取完成
  選擇需要的數據類(lèi)型,這里選擇json,將數據保存到本地
  打開(kāi)可以看到爬取的數據
  以上是我個(gè)人用ParseHub制作的數據爬取截圖示例,希望對大家有所幫助。
  我個(gè)人對這款產(chǎn)品的技術(shù)特點(diǎn)的理解總結如下:
  ParseHub是一款強大免費的網(wǎng)絡(luò )爬蟲(chóng)工具,類(lèi)似于國內的優(yōu)采云
采集器等,它使用機器學(xué)習關(guān)系引擎過(guò)濾頁(yè)面,理解元素的層次結構,秒查看它爬取數百萬(wàn)的數據確保我們擁有成千上萬(wàn)的鏈接和關(guān)鍵字全景的網(wǎng)頁(yè);不懂網(wǎng)絡(luò )技術(shù)也能輕松采集數據,一鍵獲取數據;本工具可以支持對采集到的數據進(jìn)行實(shí)時(shí)預覽,還可以設置爬取時(shí)間,保證采集到最新的數據;ParseHub 最大的優(yōu)勢是可以爬取一些相對復雜的頁(yè)面和元素,例如,你可以用它來(lái)檢索表單、菜單、登陸頁(yè)面,甚至可以點(diǎn)擊圖片或地圖來(lái)獲取它們背后的更多數據;有時(shí),待抓取的目標頁(yè)面技術(shù)太落后,別著(zhù)急!無(wú)論是JS還是AJAX編寫(xiě)的頁(yè)面,都可以使用ParseHub來(lái)采集
和存儲數據;我們還可以使用 REST API 以 JSON 或 CSV 格式下載提取的數據,或者將采集
的數據導出到 Google Sheet、Tableau 等。
  操作方法:優(yōu)采云
采集規則基本步驟介紹:循環(huán)
  循環(huán)
  1)該步驟用于重復一系列步驟,根據不同的配置支持多種模式。
  循環(huán)固定單個(gè)元素,比如循環(huán)點(diǎn)擊每一頁(yè)的下一頁(yè)按鈕;
  1)循環(huán)固定列表,比如循環(huán)遍歷頁(yè)面中指定的多個(gè)元素;
  2)循環(huán)變量列表,當需要循環(huán)多個(gè)頁(yè)面,但每頁(yè)處理的元素個(gè)數不固定時(shí)使用;
  3)循環(huán)URL列表,主要用于循環(huán)打開(kāi)一批指定URL的網(wǎng)頁(yè),然后執行相同的處理步驟。
  循環(huán)步驟注意事項
  
  1)元素在IFRAME中
  如果循環(huán)中設置的元素在IFRAME中,請勾選此選項,并在后面的IFAMEXPah中填寫(xiě)IFRAME的XPATH
  4) IFAMEX路徑
  元素所在的IFRAME的路徑,只有勾選'Element in IFRAME'時(shí)該設置才會(huì )生效。
  5) 修復了一個(gè)元素
  循環(huán)對某個(gè)元素進(jìn)行特定的操作,比如循環(huán)點(diǎn)擊下一頁(yè),向下滾動(dòng)下拉列表等,當翻到最后一頁(yè)或下拉列表到達最后一項時(shí),當前循環(huán)自動(dòng)結束.
  6) 固定元素列表
  對列表中的元素一一進(jìn)行具體操作,如循環(huán)點(diǎn)擊、提取數據、將鼠標懸停在元素上等。當所有元素循環(huán)完畢后,本次循環(huán)自動(dòng)結束。
  
  7)動(dòng)態(tài)元素列表
  當元素列表不固定時(shí),可以指定一個(gè)動(dòng)態(tài)路徑(多個(gè)元素符合這個(gè)路徑,即可以根據這個(gè)路徑定位多個(gè)元素),系統會(huì )先根據指定的路徑找到一個(gè)元素列表,然后執行“固定”路徑 Element List' 做同樣的事情。
  8) 網(wǎng)址列表
  結合打開(kāi)網(wǎng)頁(yè)的操作,指定一個(gè)URL列表,并確保在循環(huán)打開(kāi)網(wǎng)頁(yè)的操作中勾選當前循環(huán)項標志的使用,從而打開(kāi)URL列表中的連接一個(gè)。
  9) 循環(huán)執行次數等于
  執行指定次數后退出循環(huán)。
  更多 優(yōu)采云
采集
步驟

解決方案:第五期百度大腦開(kāi)放日:EasyDL讓每人都能用起AI

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 184 次瀏覽 ? 2022-11-25 04:16 ? 來(lái)自相關(guān)話(huà)題

  解決方案:第五期百度大腦開(kāi)放日:EasyDL讓每人都能用起AI
  8月22日,第五屆百度大腦開(kāi)放日EasyDL專(zhuān)場(chǎng)在北京中關(guān)村創(chuàng )業(yè)大街百度大腦創(chuàng )新體驗中心舉行。本期開(kāi)放日,百度大腦AI開(kāi)放平臺發(fā)布并更新了多項技術(shù)能力,包括深度學(xué)習框架、一站式內容審核平臺、OCR識別等。
  其中,作為本次開(kāi)放日的重點(diǎn)內容,“硬核”能力爆棚的EasyDL讓開(kāi)發(fā)者大呼過(guò)癮。同時(shí),中國專(zhuān)利信息中心、茅臺博物館、農信互聯(lián)等合作伙伴的技術(shù)負責人也在現場(chǎng)分享了使用EasyDL的實(shí)際案例,向開(kāi)發(fā)者和行業(yè)人士展示了百度大腦領(lǐng)先的AI技術(shù)能力和AI產(chǎn)業(yè)。加速成果落地。
  百度大腦EasyDL:零算法基礎獲得高精度AI模型,Everyone Can AI
  AI在各個(gè)行業(yè)和場(chǎng)景的應用中,往往需要定制AI能力。但是,要訓練出高精度、符合業(yè)務(wù)需求的AI模型,首先需要學(xué)習專(zhuān)業(yè)知識和相關(guān)經(jīng)驗。其次,傳統訓練需要大量的標注數據。從數據采集到數據標注周期長(cháng),模型往往需要部署到實(shí)際業(yè)務(wù)中。為了真正反饋業(yè)務(wù)效果,模型迭代可以從一個(gè)月到幾個(gè)月不等。
  百度大腦推出的EasyDL平臺是一個(gè)基于零算法的高精度AI模型定制化訓練和服務(wù)平臺。用戶(hù)根據可視化頁(yè)面的提示,分四步創(chuàng )建模型-上傳并標注數據-訓練模型-發(fā)布模型。您可以獲得公有云API、端計算離線(xiàn)SDK、軟硬件一體化解決方案,快速融入業(yè)務(wù)場(chǎng)景。百度AI技術(shù)生態(tài)部高級產(chǎn)品經(jīng)理李靜秋分享了EasyDL的一系列經(jīng)典案例,并演示了如何快速訓練一個(gè)常見(jiàn)的物體識別模型,并集成到EdgeBoard中進(jìn)行離線(xiàn)計算,充分展示了EasyDL的產(chǎn)品功能,參與者和優(yōu)勢。
  據李靜秋在會(huì )上介紹,EasyDL是百度大腦于2017年底推出的一站式模型訓練與服務(wù)平臺。目前EasyDL通用版支持圖像分類(lèi)、物體檢測等模型類(lèi)型的定制化訓練。 、文本分類(lèi)、聲音分類(lèi)、視頻分類(lèi),而EasyDL零售行業(yè)版可以解決特定的行業(yè)問(wèn)題。洞察數據、算法、工具、預制技能等一系列服務(wù),讓AI模型生產(chǎn)更高效。EasyDL產(chǎn)品和服務(wù)因其零算法基礎即可上手的超低門(mén)檻特性,已廣泛應用于工業(yè)、安防、互聯(lián)網(wǎng)、零售、物流、智能硬件、教育、醫療、電子商務(wù)等,成為眾多企業(yè)的首選。首選。
  例如,杭州市氣象局使用EasyDL訓練打造智能“看云”氣象觀(guān)測系統。通過(guò)訓練云量、云形、霜露等多個(gè)模型,有效提高了氣象觀(guān)測的密度和效率,識別準確率普遍超過(guò)85%。以上; 北京新橋結合歷史積累的道路和病害圖像(塌方、裂縫等),分別使用百度EasyDL圖像分類(lèi)和目標檢測算法,訓練路橋類(lèi)型、路橋病害類(lèi)型等多個(gè)模型,用于日常全國道路橋梁養護檢查;而愛(ài)寶花飾使用百度EasyDL物體檢測算法輔助人工檢測針頭,箱包X光照片中遺留的金屬等零件,讓箱包生產(chǎn)線(xiàn)質(zhì)檢人員告別“放大鏡”“老花眼”。EasyDL 是真正在用技術(shù)一次又一次地幫助工作者降低工作的復雜性和負擔。
  
  李靜秋還預告了EasyDL即將推出的圖像分割模型以及即將支持的服務(wù)器本地化部署。其中,EasyDL新的圖像分割模型類(lèi)型支持非矩形(圓、直線(xiàn)、多邊形)標注,支持目標形狀不規則、不方便用矩形框標注的業(yè)務(wù)場(chǎng)景??蓱糜诠I(yè)缺陷檢測、道路檢測等場(chǎng)景。EasyDL圖像分類(lèi)和目標檢測云服務(wù)高性能模型即將支持服務(wù)端本地部署預測服務(wù)。
  使用 EasyDL 加速企業(yè) AI 轉型
  活動(dòng)當天,百度大腦的合作伙伴通過(guò)實(shí)際案例與大家分享了不同領(lǐng)域的企業(yè)如何通過(guò)百度EasyDL的賦能,實(shí)現業(yè)務(wù)智能化創(chuàng )新升級。
 ?。◤淖笾劣遥褐袊鴮?zhuān)利信息中心軟件設計師崔亞坤、貓友公社APP負責人張瑞祥、農信互聯(lián)網(wǎng)高級工程師孫凌軍)
  中國專(zhuān)利信息中心軟件設計師崔亞坤現場(chǎng)分享道:“在知識產(chǎn)權保護方面,鑒于互聯(lián)網(wǎng)信息量大、更新快,知識產(chǎn)權侵權假冒的認定具有很強的專(zhuān)業(yè)性,而人工發(fā)現線(xiàn)索的方法需要大量投入和效率,低、不及時(shí)、權利人成本高,EasyDL可以根據專(zhuān)利保護領(lǐng)域訓練定制的解決方案,有效解決圖像分類(lèi)、圖像中物體檢測、等等,結合百度大腦的文字識別、圖片搜索、NLP語(yǔ)義處理等能力,有效提升了自動(dòng)化審稿流程的效率?!?br />   茅友公社APP負責人張瑞祥介紹,茅友公社APP是一款集茅臺知識在線(xiàn)交流、茅臺酒及其配套產(chǎn)品購買(mǎi)于一體的應用。為了更好地挖掘中國酒文化和茅臺文化的歷史脈絡(luò ),借助EasyDL平臺,僅用三周時(shí)間就完成了模型的多次迭代,快速實(shí)現了AI酒類(lèi)識別的定制化圖像識別模型。每種酒種只用不到100張瓶身圖片就可以訓練出高達99%的模型效果。
  農信互聯(lián)網(wǎng)高級工程師孫凌軍也在會(huì )上肯定了百度EasyDL的行業(yè)價(jià)值。他說(shuō):“自主研發(fā)AI技術(shù)的投入成本比較高,實(shí)施的不確定性也很大。EasyDL平臺可用率高,無(wú)需運維。成本低,只需少量數據即可用于訓練豬舍場(chǎng)景定制模型,基于百度大腦EasyDL物體檢測,減少豬場(chǎng)管理人力,減少人豬接觸頻率,降低疾病風(fēng)險,方便遠程管理,以及有效改善目前養殖業(yè)生產(chǎn)效率低下的現狀。
  不斷創(chuàng )新升級百度大腦,邁向全民“AI”時(shí)代
  “百度大腦自2016年底開(kāi)放,是目前最大的AI開(kāi)放平臺,超過(guò)130萬(wàn)開(kāi)發(fā)者在使用,開(kāi)放了210多項核心技術(shù)能力,面向廣大企業(yè)和開(kāi)發(fā)者開(kāi)放正在不斷降低AI應用落地的門(mén)檻?!?百度AI技術(shù)生態(tài)部高級產(chǎn)品經(jīng)理樓雙雙在活動(dòng)中表示。本次開(kāi)放日除了重點(diǎn)介紹EasyDL的內容外,一如既往地介紹了百度大腦8月份的最新開(kāi)放升級能力。
  
  深度平臺方面,全新發(fā)布Paddle Lite,重點(diǎn)加強多平臺、多硬件的支持能力,新增70種各類(lèi)硬件Kernel,易用性和性能大幅提升。值得一提的是,新增了對華為海思NPU的深度支持,成為首個(gè)支持華為NPU在線(xiàn)編譯的框架。
  為幫助開(kāi)發(fā)者更好地學(xué)習和應用深度學(xué)習技術(shù),百度大腦為AI Studio制定了億元算力扶持計劃,AI Studio深受開(kāi)發(fā)者認可,可免費提供海量算力資源。深度學(xué)習在線(xiàn)訓練營(yíng)PaddleCamp也全新準備了實(shí)戰課程,只需4-6周時(shí)間,幫助開(kāi)發(fā)者從入門(mén)到精通深度學(xué)習。百度大腦還建立了國內最完善的深度學(xué)習企業(yè)培訓體系:包括企業(yè)深度學(xué)習實(shí)戰營(yíng)AI快車(chē)道和黃埔學(xué)院“首席AI架構師培養計劃”;國內最活躍的深度學(xué)習研發(fā)精英俱樂(lè )部:包括“博士生協(xié)會(huì )”等“飛槳活動(dòng)” 而《飛槳領(lǐng)航團》也在繼續。與此同時(shí),每年舉辦10余場(chǎng)比賽的Baidu AI Studio人工智能大賽也在如火如荼地進(jìn)行,總獎金超百萬(wàn)元。
  在今年的百度AI開(kāi)發(fā)者大會(huì )上,全面升級為軟硬件一體的AI生產(chǎn)平臺的百度大腦5.0擁有最全面的AI開(kāi)放能力,并不斷豐富升級。本次開(kāi)放日,在OCR文字識別方面,進(jìn)行了三項產(chǎn)品升級,包括名片識別的識別率和識別速度;二維碼/條碼識別的識別率和手寫(xiě)識別的識別率。截至目前,OCR文字識別全系列已有35款產(chǎn)品,可滿(mǎn)足各種文檔結構應用場(chǎng)景。人體分析方面,升級人數統計(動(dòng)態(tài)版)能力,準確率提升至92%以上。在圖像處理方面,
  第五次開(kāi)放日,全面、靈活、實(shí)時(shí)的百度大腦內容審核平臺,一站式滿(mǎn)足所有AI審核需求。這一次,它還帶來(lái)了新的功能升級。兩大核心升級是:通過(guò)EasyDL,支持審計模型定制,分鐘級策略更新更及時(shí)。百度大腦的內容審核平臺集成了百度大腦的視覺(jué)、語(yǔ)音、語(yǔ)義能力。專(zhuān)業(yè)的內容審核服務(wù),可以幫助更多平臺提升內容質(zhì)量。
  語(yǔ)音自訓練平臺增加了搜索模型和輸入法模型的API調用方法。調用方式簡(jiǎn)單,適用于多平臺、多場(chǎng)景。據現場(chǎng)介紹,平臺上線(xiàn)以來(lái),已有醫療、金融、農業(yè)、教育、餐飲、物流、建筑、地產(chǎn)等多個(gè)行業(yè)的客戶(hù)。在語(yǔ)音助手、呼叫中心等多種語(yǔ)音識別場(chǎng)景下,專(zhuān)業(yè)領(lǐng)域詞匯識別率可有效提升5-25%。
  在百度大腦的開(kāi)放生態(tài)中,開(kāi)發(fā)者始終是最重要的一環(huán)。百度大腦持續為AI開(kāi)發(fā)者提供最新的AI產(chǎn)品和案例分享,真正實(shí)現平等開(kāi)放的賦能。因此,在第五期的活動(dòng)現場(chǎng),百度大腦還發(fā)布了感恩回饋活動(dòng),100萬(wàn)話(huà)費免費贈送,還有更多商品限時(shí)優(yōu)惠低至40%。
  百度大腦一直貫徹“Everyone Can AI”的理念,無(wú)論是因操作簡(jiǎn)單、智能化程度高、覆蓋面廣、可定制而深受用戶(hù)和開(kāi)發(fā)者喜愛(ài)的EasyDL平臺,還是每月定期更新升級的EasyDL平臺。百度大腦開(kāi)放日活動(dòng),百度大腦從未停止前行的腳步,充分體現了其希望在解決行業(yè)痛點(diǎn)的同時(shí),為有需求的企業(yè)提供更多服務(wù),真正用領(lǐng)先的AI技術(shù)助力企業(yè)智能化轉型,邁向智能化轉型。一起AI時(shí)代。
  解決方案:常用的三款APP和網(wǎng)站數據分析工具,運營(yíng)者必備
  我們都知道,網(wǎng)站和APP上線(xiàn)后,需要進(jìn)行數據分析。如何借助一些外部數據分析工具來(lái)評估自己網(wǎng)站和APP的用戶(hù)體驗和運營(yíng)質(zhì)量是非常重要的。
  下面我們將介紹三款在國內應用廣泛的非常好用的數據分析工具,可用于網(wǎng)站統計、APP分析、小程序數據分析等用戶(hù)行為分析。
  1. 極客數
  官方網(wǎng)站:
  
  數記客是國內新一代大數據用戶(hù)行為分析平臺。支持無(wú)追點(diǎn)、前端追點(diǎn)、后端追點(diǎn)、API導入四種混合數據采集方式。自動(dòng)監測分析網(wǎng)站推廣、APP推廣、小程序推廣。它是增長(cháng)黑客必備的數據分析工具。支持APP數據分析、網(wǎng)站統計、網(wǎng)站分析、用戶(hù)畫(huà)像等應用場(chǎng)景。國內首創(chuàng )提高轉化率的數據分析模型。是用戶(hù)行為分析領(lǐng)域首款應用定量和定性分析方法的數據分析產(chǎn)品??蛻?hù)用戶(hù)行為錄屏系統以視頻的形式回放用戶(hù)行為,幫助企業(yè)快速提升用戶(hù)體驗。
  數記客的優(yōu)勢在于支持非常豐富的數據分析模型。由于采用了最新的實(shí)時(shí)OLAP分析技術(shù),保證了數據的實(shí)時(shí)性。它還支持在線(xiàn)版本和私有化部署版本。對于要求高的企業(yè)來(lái)說(shuō)是不錯的選擇。缺點(diǎn)是目前只有商業(yè)付費版本。
  2.百度統計
  官方網(wǎng)站:
  百度統計是百度推出的免費專(zhuān)業(yè)網(wǎng)站流量分析工具,可以告訴用戶(hù)訪(fǎng)問(wèn)者是如何找到和瀏覽用戶(hù)網(wǎng)站的,以及他們在網(wǎng)站上做了什么。網(wǎng)站的用戶(hù)體驗不斷提高網(wǎng)站的投資回報率。
  
  百度統計的好處是可以統計百度搜索關(guān)鍵詞的數據(畢竟是百度自己的產(chǎn)品,只為自己打開(kāi)搜索關(guān)鍵詞接口)。缺點(diǎn)是數據量大時(shí),數據查詢(xún)速度慢。此外,支持的分析模型相對較少。數據分割也不夠。
  3.友盟統計
  友盟是阿里巴巴旗下的一款APP分析工具。該工具最大的優(yōu)點(diǎn)是免費,并提供安裝、激活、留存等基本統計功能。就需求而言,還是基本能夠滿(mǎn)足的。友盟統計目前只支持APP分析,不支持網(wǎng)站分析。友盟有獨立的網(wǎng)站分析工具,但是網(wǎng)站和APP的數據無(wú)法打通。
  友盟是國內較早的APP分析工具。因為使用的技術(shù)是上一代,它的主要缺點(diǎn)是數據不能細分,實(shí)時(shí)性弱。一般只能查看幾個(gè)小時(shí)前的數據。
  以上就是我在工作中遇到和使用的三種數據分析工具。你有你想要的嗎?歡迎給我留言。 查看全部

  解決方案:第五期百度大腦開(kāi)放日:EasyDL讓每人都能用起AI
  8月22日,第五屆百度大腦開(kāi)放日EasyDL專(zhuān)場(chǎng)在北京中關(guān)村創(chuàng )業(yè)大街百度大腦創(chuàng )新體驗中心舉行。本期開(kāi)放日,百度大腦AI開(kāi)放平臺發(fā)布并更新了多項技術(shù)能力,包括深度學(xué)習框架、一站式內容審核平臺、OCR識別等。
  其中,作為本次開(kāi)放日的重點(diǎn)內容,“硬核”能力爆棚的EasyDL讓開(kāi)發(fā)者大呼過(guò)癮。同時(shí),中國專(zhuān)利信息中心、茅臺博物館、農信互聯(lián)等合作伙伴的技術(shù)負責人也在現場(chǎng)分享了使用EasyDL的實(shí)際案例,向開(kāi)發(fā)者和行業(yè)人士展示了百度大腦領(lǐng)先的AI技術(shù)能力和AI產(chǎn)業(yè)。加速成果落地。
  百度大腦EasyDL:零算法基礎獲得高精度AI模型,Everyone Can AI
  AI在各個(gè)行業(yè)和場(chǎng)景的應用中,往往需要定制AI能力。但是,要訓練出高精度、符合業(yè)務(wù)需求的AI模型,首先需要學(xué)習專(zhuān)業(yè)知識和相關(guān)經(jīng)驗。其次,傳統訓練需要大量的標注數據。從數據采集到數據標注周期長(cháng),模型往往需要部署到實(shí)際業(yè)務(wù)中。為了真正反饋業(yè)務(wù)效果,模型迭代可以從一個(gè)月到幾個(gè)月不等。
  百度大腦推出的EasyDL平臺是一個(gè)基于零算法的高精度AI模型定制化訓練和服務(wù)平臺。用戶(hù)根據可視化頁(yè)面的提示,分四步創(chuàng )建模型-上傳并標注數據-訓練模型-發(fā)布模型。您可以獲得公有云API、端計算離線(xiàn)SDK、軟硬件一體化解決方案,快速融入業(yè)務(wù)場(chǎng)景。百度AI技術(shù)生態(tài)部高級產(chǎn)品經(jīng)理李靜秋分享了EasyDL的一系列經(jīng)典案例,并演示了如何快速訓練一個(gè)常見(jiàn)的物體識別模型,并集成到EdgeBoard中進(jìn)行離線(xiàn)計算,充分展示了EasyDL的產(chǎn)品功能,參與者和優(yōu)勢。
  據李靜秋在會(huì )上介紹,EasyDL是百度大腦于2017年底推出的一站式模型訓練與服務(wù)平臺。目前EasyDL通用版支持圖像分類(lèi)、物體檢測等模型類(lèi)型的定制化訓練。 、文本分類(lèi)、聲音分類(lèi)、視頻分類(lèi),而EasyDL零售行業(yè)版可以解決特定的行業(yè)問(wèn)題。洞察數據、算法、工具、預制技能等一系列服務(wù),讓AI模型生產(chǎn)更高效。EasyDL產(chǎn)品和服務(wù)因其零算法基礎即可上手的超低門(mén)檻特性,已廣泛應用于工業(yè)、安防、互聯(lián)網(wǎng)、零售、物流、智能硬件、教育、醫療、電子商務(wù)等,成為眾多企業(yè)的首選。首選。
  例如,杭州市氣象局使用EasyDL訓練打造智能“看云”氣象觀(guān)測系統。通過(guò)訓練云量、云形、霜露等多個(gè)模型,有效提高了氣象觀(guān)測的密度和效率,識別準確率普遍超過(guò)85%。以上; 北京新橋結合歷史積累的道路和病害圖像(塌方、裂縫等),分別使用百度EasyDL圖像分類(lèi)和目標檢測算法,訓練路橋類(lèi)型、路橋病害類(lèi)型等多個(gè)模型,用于日常全國道路橋梁養護檢查;而愛(ài)寶花飾使用百度EasyDL物體檢測算法輔助人工檢測針頭,箱包X光照片中遺留的金屬等零件,讓箱包生產(chǎn)線(xiàn)質(zhì)檢人員告別“放大鏡”“老花眼”。EasyDL 是真正在用技術(shù)一次又一次地幫助工作者降低工作的復雜性和負擔。
  
  李靜秋還預告了EasyDL即將推出的圖像分割模型以及即將支持的服務(wù)器本地化部署。其中,EasyDL新的圖像分割模型類(lèi)型支持非矩形(圓、直線(xiàn)、多邊形)標注,支持目標形狀不規則、不方便用矩形框標注的業(yè)務(wù)場(chǎng)景??蓱糜诠I(yè)缺陷檢測、道路檢測等場(chǎng)景。EasyDL圖像分類(lèi)和目標檢測云服務(wù)高性能模型即將支持服務(wù)端本地部署預測服務(wù)。
  使用 EasyDL 加速企業(yè) AI 轉型
  活動(dòng)當天,百度大腦的合作伙伴通過(guò)實(shí)際案例與大家分享了不同領(lǐng)域的企業(yè)如何通過(guò)百度EasyDL的賦能,實(shí)現業(yè)務(wù)智能化創(chuàng )新升級。
 ?。◤淖笾劣遥褐袊鴮?zhuān)利信息中心軟件設計師崔亞坤、貓友公社APP負責人張瑞祥、農信互聯(lián)網(wǎng)高級工程師孫凌軍)
  中國專(zhuān)利信息中心軟件設計師崔亞坤現場(chǎng)分享道:“在知識產(chǎn)權保護方面,鑒于互聯(lián)網(wǎng)信息量大、更新快,知識產(chǎn)權侵權假冒的認定具有很強的專(zhuān)業(yè)性,而人工發(fā)現線(xiàn)索的方法需要大量投入和效率,低、不及時(shí)、權利人成本高,EasyDL可以根據專(zhuān)利保護領(lǐng)域訓練定制的解決方案,有效解決圖像分類(lèi)、圖像中物體檢測、等等,結合百度大腦的文字識別、圖片搜索、NLP語(yǔ)義處理等能力,有效提升了自動(dòng)化審稿流程的效率?!?br />   茅友公社APP負責人張瑞祥介紹,茅友公社APP是一款集茅臺知識在線(xiàn)交流、茅臺酒及其配套產(chǎn)品購買(mǎi)于一體的應用。為了更好地挖掘中國酒文化和茅臺文化的歷史脈絡(luò ),借助EasyDL平臺,僅用三周時(shí)間就完成了模型的多次迭代,快速實(shí)現了AI酒類(lèi)識別的定制化圖像識別模型。每種酒種只用不到100張瓶身圖片就可以訓練出高達99%的模型效果。
  農信互聯(lián)網(wǎng)高級工程師孫凌軍也在會(huì )上肯定了百度EasyDL的行業(yè)價(jià)值。他說(shuō):“自主研發(fā)AI技術(shù)的投入成本比較高,實(shí)施的不確定性也很大。EasyDL平臺可用率高,無(wú)需運維。成本低,只需少量數據即可用于訓練豬舍場(chǎng)景定制模型,基于百度大腦EasyDL物體檢測,減少豬場(chǎng)管理人力,減少人豬接觸頻率,降低疾病風(fēng)險,方便遠程管理,以及有效改善目前養殖業(yè)生產(chǎn)效率低下的現狀。
  不斷創(chuàng )新升級百度大腦,邁向全民“AI”時(shí)代
  “百度大腦自2016年底開(kāi)放,是目前最大的AI開(kāi)放平臺,超過(guò)130萬(wàn)開(kāi)發(fā)者在使用,開(kāi)放了210多項核心技術(shù)能力,面向廣大企業(yè)和開(kāi)發(fā)者開(kāi)放正在不斷降低AI應用落地的門(mén)檻?!?百度AI技術(shù)生態(tài)部高級產(chǎn)品經(jīng)理樓雙雙在活動(dòng)中表示。本次開(kāi)放日除了重點(diǎn)介紹EasyDL的內容外,一如既往地介紹了百度大腦8月份的最新開(kāi)放升級能力。
  
  深度平臺方面,全新發(fā)布Paddle Lite,重點(diǎn)加強多平臺、多硬件的支持能力,新增70種各類(lèi)硬件Kernel,易用性和性能大幅提升。值得一提的是,新增了對華為海思NPU的深度支持,成為首個(gè)支持華為NPU在線(xiàn)編譯的框架。
  為幫助開(kāi)發(fā)者更好地學(xué)習和應用深度學(xué)習技術(shù),百度大腦為AI Studio制定了億元算力扶持計劃,AI Studio深受開(kāi)發(fā)者認可,可免費提供海量算力資源。深度學(xué)習在線(xiàn)訓練營(yíng)PaddleCamp也全新準備了實(shí)戰課程,只需4-6周時(shí)間,幫助開(kāi)發(fā)者從入門(mén)到精通深度學(xué)習。百度大腦還建立了國內最完善的深度學(xué)習企業(yè)培訓體系:包括企業(yè)深度學(xué)習實(shí)戰營(yíng)AI快車(chē)道和黃埔學(xué)院“首席AI架構師培養計劃”;國內最活躍的深度學(xué)習研發(fā)精英俱樂(lè )部:包括“博士生協(xié)會(huì )”等“飛槳活動(dòng)” 而《飛槳領(lǐng)航團》也在繼續。與此同時(shí),每年舉辦10余場(chǎng)比賽的Baidu AI Studio人工智能大賽也在如火如荼地進(jìn)行,總獎金超百萬(wàn)元。
  在今年的百度AI開(kāi)發(fā)者大會(huì )上,全面升級為軟硬件一體的AI生產(chǎn)平臺的百度大腦5.0擁有最全面的AI開(kāi)放能力,并不斷豐富升級。本次開(kāi)放日,在OCR文字識別方面,進(jìn)行了三項產(chǎn)品升級,包括名片識別的識別率和識別速度;二維碼/條碼識別的識別率和手寫(xiě)識別的識別率。截至目前,OCR文字識別全系列已有35款產(chǎn)品,可滿(mǎn)足各種文檔結構應用場(chǎng)景。人體分析方面,升級人數統計(動(dòng)態(tài)版)能力,準確率提升至92%以上。在圖像處理方面,
  第五次開(kāi)放日,全面、靈活、實(shí)時(shí)的百度大腦內容審核平臺,一站式滿(mǎn)足所有AI審核需求。這一次,它還帶來(lái)了新的功能升級。兩大核心升級是:通過(guò)EasyDL,支持審計模型定制,分鐘級策略更新更及時(shí)。百度大腦的內容審核平臺集成了百度大腦的視覺(jué)、語(yǔ)音、語(yǔ)義能力。專(zhuān)業(yè)的內容審核服務(wù),可以幫助更多平臺提升內容質(zhì)量。
  語(yǔ)音自訓練平臺增加了搜索模型和輸入法模型的API調用方法。調用方式簡(jiǎn)單,適用于多平臺、多場(chǎng)景。據現場(chǎng)介紹,平臺上線(xiàn)以來(lái),已有醫療、金融、農業(yè)、教育、餐飲、物流、建筑、地產(chǎn)等多個(gè)行業(yè)的客戶(hù)。在語(yǔ)音助手、呼叫中心等多種語(yǔ)音識別場(chǎng)景下,專(zhuān)業(yè)領(lǐng)域詞匯識別率可有效提升5-25%。
  在百度大腦的開(kāi)放生態(tài)中,開(kāi)發(fā)者始終是最重要的一環(huán)。百度大腦持續為AI開(kāi)發(fā)者提供最新的AI產(chǎn)品和案例分享,真正實(shí)現平等開(kāi)放的賦能。因此,在第五期的活動(dòng)現場(chǎng),百度大腦還發(fā)布了感恩回饋活動(dòng),100萬(wàn)話(huà)費免費贈送,還有更多商品限時(shí)優(yōu)惠低至40%。
  百度大腦一直貫徹“Everyone Can AI”的理念,無(wú)論是因操作簡(jiǎn)單、智能化程度高、覆蓋面廣、可定制而深受用戶(hù)和開(kāi)發(fā)者喜愛(ài)的EasyDL平臺,還是每月定期更新升級的EasyDL平臺。百度大腦開(kāi)放日活動(dòng),百度大腦從未停止前行的腳步,充分體現了其希望在解決行業(yè)痛點(diǎn)的同時(shí),為有需求的企業(yè)提供更多服務(wù),真正用領(lǐng)先的AI技術(shù)助力企業(yè)智能化轉型,邁向智能化轉型。一起AI時(shí)代。
  解決方案:常用的三款APP和網(wǎng)站數據分析工具,運營(yíng)者必備
  我們都知道,網(wǎng)站和APP上線(xiàn)后,需要進(jìn)行數據分析。如何借助一些外部數據分析工具來(lái)評估自己網(wǎng)站和APP的用戶(hù)體驗和運營(yíng)質(zhì)量是非常重要的。
  下面我們將介紹三款在國內應用廣泛的非常好用的數據分析工具,可用于網(wǎng)站統計、APP分析、小程序數據分析等用戶(hù)行為分析。
  1. 極客數
  官方網(wǎng)站:
  
  數記客是國內新一代大數據用戶(hù)行為分析平臺。支持無(wú)追點(diǎn)、前端追點(diǎn)、后端追點(diǎn)、API導入四種混合數據采集方式。自動(dòng)監測分析網(wǎng)站推廣、APP推廣、小程序推廣。它是增長(cháng)黑客必備的數據分析工具。支持APP數據分析、網(wǎng)站統計、網(wǎng)站分析、用戶(hù)畫(huà)像等應用場(chǎng)景。國內首創(chuàng )提高轉化率的數據分析模型。是用戶(hù)行為分析領(lǐng)域首款應用定量和定性分析方法的數據分析產(chǎn)品??蛻?hù)用戶(hù)行為錄屏系統以視頻的形式回放用戶(hù)行為,幫助企業(yè)快速提升用戶(hù)體驗。
  數記客的優(yōu)勢在于支持非常豐富的數據分析模型。由于采用了最新的實(shí)時(shí)OLAP分析技術(shù),保證了數據的實(shí)時(shí)性。它還支持在線(xiàn)版本和私有化部署版本。對于要求高的企業(yè)來(lái)說(shuō)是不錯的選擇。缺點(diǎn)是目前只有商業(yè)付費版本。
  2.百度統計
  官方網(wǎng)站:
  百度統計是百度推出的免費專(zhuān)業(yè)網(wǎng)站流量分析工具,可以告訴用戶(hù)訪(fǎng)問(wèn)者是如何找到和瀏覽用戶(hù)網(wǎng)站的,以及他們在網(wǎng)站上做了什么。網(wǎng)站的用戶(hù)體驗不斷提高網(wǎng)站的投資回報率。
  
  百度統計的好處是可以統計百度搜索關(guān)鍵詞的數據(畢竟是百度自己的產(chǎn)品,只為自己打開(kāi)搜索關(guān)鍵詞接口)。缺點(diǎn)是數據量大時(shí),數據查詢(xún)速度慢。此外,支持的分析模型相對較少。數據分割也不夠。
  3.友盟統計
  友盟是阿里巴巴旗下的一款APP分析工具。該工具最大的優(yōu)點(diǎn)是免費,并提供安裝、激活、留存等基本統計功能。就需求而言,還是基本能夠滿(mǎn)足的。友盟統計目前只支持APP分析,不支持網(wǎng)站分析。友盟有獨立的網(wǎng)站分析工具,但是網(wǎng)站和APP的數據無(wú)法打通。
  友盟是國內較早的APP分析工具。因為使用的技術(shù)是上一代,它的主要缺點(diǎn)是數據不能細分,實(shí)時(shí)性弱。一般只能查看幾個(gè)小時(shí)前的數據。
  以上就是我在工作中遇到和使用的三種數據分析工具。你有你想要的嗎?歡迎給我留言。

最佳實(shí)踐:python 通過(guò)k8s API采集k8s 集群信息

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 114 次瀏覽 ? 2022-11-24 06:14 ? 來(lái)自相關(guān)話(huà)題

  最佳實(shí)踐:python 通過(guò)k8s API采集k8s 集群信息
  用于在 K8s 中獲取部署的 curl 模式
  curl \
--header "Authorization: Bearer eyJhbGciOiJSUzI1NiIs_OVpAqcsnBZeqwwiwfkFWiykIobYEMgbMzbXa27r02Q_mGnqGzA6PiUq1SKDTq_SlBhAO_dCdnaZ6eOJ71ew" \
--insecure \
-X GET https://10.20.12.13:6443/apis/ ... ments
  Python 獲取 K8S API
  import requests
<p>
headers = {
&#39;Authorization&#39;: &#39;Bearer eyJhbGciOiJSUzI1NiIsImtpZCI6IERVlsdjlVMWxNd3dIOHJEMUVBV1phMEhuUkFaNUt1Z1EifQ.eyJpc3MiOiJrdWJlcmw&#39;,
}
response = requests.get(&#39;https://10.20.12.13:6443:6443/ ... 39%3B, headers=headers, verify=False)
print(response.json())
  
</p>
  獲取 K8S Pod 日志接口
  GET /api/v1/namespaces/{namespace}/pods/{name}/log
  獲取 k8s 集群信息的更多方法 kube/config
  神奇的網(wǎng)站屈服于蟒蛇的請求
  Curl to Python 請求
  更多接口參考
  Python 3.5 通過(guò) API 管理 k8s - 創(chuàng )建和刪除部署、服務(wù)
  解決方案:快播資源采集易語(yǔ)言源碼
  (71)數據采集
關(guān)鍵詞
  數據采集??軟件排行榜下載,輔助采集工具是一款采集輔助工具,用于采集特定數據信息并歸檔,數據采集工具可以適合很多人,比如銷(xiāo)售是企業(yè)和客戶(hù)的信息采集,視頻剪輯。首先是視頻數據等的采集
。采集
器工具是幫助用戶(hù)采集
特定的信息,讓人們不需要花費大量的時(shí)間和精力去搜索或者下載。輔助采集器工具是人們處理簡(jiǎn)單任務(wù)的好幫手。更多&gt;&gt;
  (112)易語(yǔ)言編程關(guān)鍵詞
  Easy Language 5.6完美破解版,免費中文編程平臺,無(wú)需使用破解補丁,安裝完成后為企業(yè)版注冊授權;Easy Language 5.11完美破解版簡(jiǎn)化了知識庫和多媒體教程,節省了安裝文件大小。Easy Language是自主研發(fā)的適合國情、不同層次、不同專(zhuān)業(yè)人士易學(xué)易用的中文編程語(yǔ)言。Easy語(yǔ)言降低了廣大計算機用戶(hù)的編程門(mén)檻,尤其是那些完全不懂英語(yǔ)或英語(yǔ)水平很低的人,使用該語(yǔ)言可以極快地進(jìn)入Windows程序編寫(xiě)的大門(mén)。更多&gt;&gt;
  VS2010 中文終極版是一個(gè)集成環(huán)境,可簡(jiǎn)化與創(chuàng )建、調試和部署應用程序相關(guān)的基本任務(wù)。使用 Visual Studio 2010 專(zhuān)業(yè)版,您可以盡情發(fā)揮您的想象力,輕松實(shí)現您的目標。借助強大的設計界面以及使設計人員和開(kāi)發(fā)人員能夠協(xié)同工作的能力,釋放您的創(chuàng )造力并實(shí)現您的夢(mèng)想。在越來(lái)越多的平臺(包括 Silverlight、SharePoint 和云應用程序)的個(gè)性化環(huán)境中工作,使用現有技術(shù)加快編碼過(guò)程。對測試先行開(kāi)發(fā)和新調試工具的集成支持讓您可以快速找到并修復所有錯誤,并幫助確保高質(zhì)量的解決方案。
  支持的操作系統:
  Windows 7的; Windows Server 2003 R2(32 位 x86);Windows Server 2003 R2 x64 版本;Windows Server 2003 服務(wù)包 2;Windows 服務(wù)器 2008 R2;3個(gè)
  Windows XP (x86) Service Pack 3 – 除 Starter Edition 之外的所有版本
  Windows Vista(x86 和 x64)Service Pack 2 - 除 Starter Edition 之外的所有版本
  Windows 7(x86 和 x64)
  Windows Server 2003(x86 和 x64)Service Pack 2 – 所有版本
  如果 MSXML6 不存在,用戶(hù)需要安裝它
  Windows Server 2003 R2(x86 和 x64)- 所有版本
  Windows Server 2008(x86 和 x64)Service Pack 2 – 所有版本
  Windows Server 2008 R2 (x64) - 所有版本
  Visual Studio 2010 中的新增功能
  它將是一個(gè)經(jīng)典版本,相當于當年的6.0版本。
  新功能還包括:
  (1) C#4.0中的動(dòng)態(tài)類(lèi)型和動(dòng)態(tài)規劃;
  (2) 多顯示器支持;
  
  (3)利用Visual Studio 2010的特性支持TDD;
 ?。ㄋ模┖笄谵k公室;
  (5) 快速搜索功能;
  (6) C++0x的新特性;
  (7) IDE增強;
  (8) 使用Visual C++ 2010創(chuàng )建Ribbon界面;
  (9) 基于.NET平臺的新語(yǔ)言
  根據微軟發(fā)布的一份官方文件,Visual Studio 2010 和.NET Framework 4.0 將在以下五個(gè)方面進(jìn)行創(chuàng )新: ·民主化的應用程序生命周期管理 在一個(gè)組織中,應用程序生命周期管理(ALM)將涉及多個(gè)角色。但并非流程中的每個(gè)角色在傳統意義上都是平等的。Visual Studio Team System 2010 將繼續為組織內的應用程序生命周期管理流程創(chuàng )建一個(gè)功能相同的共享平臺?!ぞo跟新技術(shù)潮流 每一年,行業(yè)內的新技術(shù)、新趨勢層出不窮。借助 Visual Studio 2010,微軟將為開(kāi)發(fā)人員提供合適的工具和框架,以支持軟件開(kāi)發(fā)中的最新架構、開(kāi)發(fā)和部署?!?給開(kāi)發(fā)者驚喜 從第一個(gè)版本的 Visual Studio 開(kāi)始,微軟就將提高開(kāi)發(fā)者的生產(chǎn)力和靈活性作為其目標。Visual Studio 2010 將繼續關(guān)注并顯著(zhù)改善核心開(kāi)發(fā)人員體驗?!は乱淮脚_浪潮的引領(lǐng)者 微軟將繼續投入市場(chǎng)領(lǐng)先的操作系統、工具軟件和服務(wù)器平臺,為客戶(hù)創(chuàng )造更高的價(jià)值。使用 Visual Studio 2010,您將能夠在下一代應用程序平臺上為您的客戶(hù)創(chuàng )建出色的解決方案?!?跨部門(mén)應用程序 客戶(hù)將在各種規模的組織內創(chuàng )建應用程序,從單個(gè)部門(mén)到整個(gè)企業(yè)。Visual Studio 2010 將繼續關(guān)注并顯著(zhù)改善核心開(kāi)發(fā)人員體驗?!は乱淮脚_浪潮的引領(lǐng)者 微軟將繼續投入市場(chǎng)領(lǐng)先的操作系統、工具軟件和服務(wù)器平臺,為客戶(hù)創(chuàng )造更高的價(jià)值。使用 Visual Studio 2010,您將能夠在下一代應用程序平臺上為您的客戶(hù)創(chuàng )建出色的解決方案?!?跨部門(mén)應用程序 客戶(hù)將在各種規模的組織內創(chuàng )建應用程序,從單個(gè)部門(mén)到整個(gè)企業(yè)。Visual Studio 2010 將繼續關(guān)注并顯著(zhù)改善核心開(kāi)發(fā)人員體驗?!は乱淮脚_浪潮的引領(lǐng)者 微軟將繼續投入市場(chǎng)領(lǐng)先的操作系統、工具軟件和服務(wù)器平臺,為客戶(hù)創(chuàng )造更高的價(jià)值。使用 Visual Studio 2010,您將能夠在下一代應用程序平臺上為您的客戶(hù)創(chuàng )建出色的解決方案?!?跨部門(mén)應用程序 客戶(hù)將在各種規模的組織內創(chuàng )建應用程序,從單個(gè)部門(mén)到整個(gè)企業(yè)。工具軟件和服務(wù)器平臺,為客戶(hù)創(chuàng )造更高的價(jià)值。使用 Visual Studio 2010,您將能夠在下一代應用程序平臺上為您的客戶(hù)創(chuàng )建出色的解決方案?!?跨部門(mén)應用程序 客戶(hù)將在各種規模的組織內創(chuàng )建應用程序,從單個(gè)部門(mén)到整個(gè)企業(yè)。工具軟件和服務(wù)器平臺,為客戶(hù)創(chuàng )造更高的價(jià)值。使用 Visual Studio 2010,您將能夠在下一代應用程序平臺上為您的客戶(hù)創(chuàng )建出色的解決方案?!?跨部門(mén)應用程序 客戶(hù)將在各種規模的組織內創(chuàng )建應用程序,從單個(gè)部門(mén)到整個(gè)企業(yè)。
  Visual Studio 2010 將確保支持如此廣泛的應用程序開(kāi)發(fā)。
  指示:
  創(chuàng )建您的第一個(gè) C 項目
  運行vs10,點(diǎn)擊【新建項目】,會(huì )彈出如下新建項目框,選擇【Visual c++】-&gt;【win32控制臺應用程序】,輸入項目名稱(chēng)和位置,或者選擇默認,然后點(diǎn)擊【確定】。
  彈出如下應用向導框,點(diǎn)擊【下一步】
  選擇【空項目】,點(diǎn)擊【完成】
  然后,在項目的左邊一欄,可以看到新建的項目(我創(chuàng )建的是test),然后,右擊【源文件】-&gt;【添加】-&gt;【新建項】,如下:
  然后會(huì )彈出Add New Item框,如下,選擇【c++文件】,輸入文件名,點(diǎn)擊【Add】。
  此時(shí)在左邊的源文件下可以看到新建的文件,比如我創(chuàng )建的main.c文件,然后進(jìn)入程序按【Ctrl+F5】運行。示例如下:
  
  按【F5】調試。
  Visual Studio Community 2015 是免費的,具有用于為 Windows、iOS、Android 設備或云服務(wù)器開(kāi)發(fā)桌面、移動(dòng)和 Web 應用程序的全套功能。該版本面向小型公司、初創(chuàng )企業(yè)、學(xué)生和開(kāi)源軟件開(kāi)發(fā)人員開(kāi)發(fā)的非企業(yè)軟件。提供統一的客戶(hù)端和服務(wù)端開(kāi)發(fā)平臺,支持移動(dòng)端跨平臺開(kāi)發(fā),具有可擴展性,具有先進(jìn)高效的編程功能。
  軟件介紹:
  VS2015版本新增多平臺開(kāi)發(fā)工具,支持開(kāi)發(fā)全平臺Win10通用應用,包括Windows10手機、Win10 PC、Xbox和HoloLens增強現實(shí)等。此外,通過(guò)VS2015,開(kāi)發(fā)者還可以使用語(yǔ)言或 Apache Cordova、Xamarin 或 C++ 等技術(shù),為 iOS 和 Android 平臺開(kāi)發(fā)應用程序。對于WEB 和服務(wù)器開(kāi)發(fā),您可以使用Python、Node.js 技術(shù)以及C#、Visual Basic 或F# 語(yǔ)言。
  Visual Studio 2015今天如期發(fā)布了正式版。Visual Studio 2015 包括許多新功能和更新,例如通用 Windows 應用程序開(kāi)發(fā)工具、適用于 iOS、Android、Windows 的跨平臺移動(dòng)開(kāi)發(fā)工具(包括 Xamarin、Apache Cordova、Unity)、可移植 C++ 庫、本機 Active C++ 模板等。 ,對Cordova、Xamarin、C++的跨平臺支持都很好。它可以讓您通過(guò)一個(gè)工具完成iOS、Android、Windows平臺的應用。絕對是Windows 10乃至跨平臺開(kāi)發(fā)的首選。
  跨平臺支持已經(jīng)成為VS2015最新的DNA。在智能手機APP的開(kāi)發(fā)中,無(wú)論是針對什么樣的智能設備,無(wú)論是支持Native應用還是基于HTML5的混合應用,都可以借助VS2015強大的編碼、調試、調試等功能幫助程序員快速開(kāi)發(fā)。和智能提示。特別是VS2015已經(jīng)集成了Xamarin的安裝包,Visual Studio也可以為Apple Watch開(kāi)發(fā)應用了!
  本次發(fā)布的Visual Studio 2015正式版收錄
32/64位安裝鏡像和相關(guān)工具。有標準版、企業(yè)版、專(zhuān)業(yè)版、測試專(zhuān)業(yè)版、精簡(jiǎn)版等多種版本。它支持簡(jiǎn)體中文和其他語(yǔ)言。MSDN 開(kāi)發(fā)人員現在可以下載并使用它。
  同時(shí),Visual Studio 2013 Update 5和.NET Framework 4.6正式版也已經(jīng)發(fā)布,但Team Foundation Server 2015還沒(méi)有發(fā)布,只給出了一個(gè)Team Foundation Server 2013 Update 5。
  整個(gè) Visual Studio 2015 包括 Visual Studio、Visual Studio Online 和 Visual Studio Code。Visual Studio Online 提供完整、輕量級、基于 Microsoft 云平臺的軟件生命周期支持。Online版本和TFS2015為開(kāi)發(fā)團隊提供了基于DevOps理念的完整解決方案。幫助開(kāi)發(fā)者完成應用管理、工作、開(kāi)發(fā)、聯(lián)調、測試、發(fā)布的全生命周期,提供高效工具完成應用使用狀態(tài)和使用監控。
  Visual Code 提供了微軟第一個(gè)跨平臺開(kāi)發(fā)工具,支持開(kāi)發(fā)者在windows、linux、Mac 上開(kāi)發(fā)ASP.NET 或NodeJS 應用程序。
  微軟的其他公告包括:
  Visual Studio Community 2013 – 新的、免費的、全功能的 Visual Studio 版本,可用于開(kāi)發(fā)桌面、移動(dòng)、Web 和云應用程序,只允許開(kāi)發(fā)非企業(yè)應用程序。
  Visual Studio 2015 預覽版和 .NET 2015 預覽版 – Visual Studio 2015 支持 Windows、iOS 和 Android 應用程序的跨平臺開(kāi)發(fā),內置對 Apache Cordova 的支持。微軟和 Xamarin 宣布將簡(jiǎn)化在 Visual Studio 中安裝 Xamarin 的過(guò)程,并宣布將在今年年底發(fā)布的免費版 Xamarin Starter Edition 中增加對 Visual Studio 的支持。
  Visual Studio 2013 Update 4 已發(fā)布,具有大量改進(jìn)和多項新功能。
  Visual Studio Online DevOps:發(fā)布管理服務(wù)和云部署項目。
  微軟還回顧了過(guò)去的一些成就。目前,微軟擁有 18 億個(gè) .NET 安裝量、700 萬(wàn)次 Visual Studio 2013 下載量和 170 萬(wàn)個(gè) Visual Studio Online 注冊帳戶(hù)。
  vs2015各版本價(jià)格:
  價(jià)格方面,Visual Studio Enterprise 2015首年年費為5999美元,續訂價(jià)格為2569美元。這個(gè)價(jià)格明顯低于 Visual Studio Ultimate 的 $13299/$4249,也低于 Visual Studio Premium 的 $6119/2569。
  對于參與微軟開(kāi)源項目的客戶(hù),Visual Studio Enterprise 2015最終官方售價(jià)為每人每年4466美元,續費1640美元。注冊該計劃的客戶(hù)可以以 7,793 美元的新用戶(hù)價(jià)格和 2,861 美元的續訂價(jià)格購買(mǎi) Visual Studio Ultimate 2013。Visual Studio Premium 2013 的官方價(jià)格為新用戶(hù) 3,573 美元,續訂用戶(hù) 1,312 美元。
  微軟表示,對于批量許可,Visual Studio 2015 Enterprise 的成本將比 VS 2013 Ultimate 低 43%,而對于零售,VS 2015 Enterprise 實(shí)際上將比 VS 2013 便宜 55%。
  Visual Studio 2015 正式發(fā)布后,現有的 Visual Studio Ultimate 和 Visual Studio Premium 用戶(hù)將通過(guò) MSDN 自動(dòng)升級到 Visual Studio Enterprise。 查看全部

  最佳實(shí)踐:python 通過(guò)k8s API采集k8s 集群信息
  用于在 K8s 中獲取部署的 curl 模式
  curl \
--header "Authorization: Bearer eyJhbGciOiJSUzI1NiIs_OVpAqcsnBZeqwwiwfkFWiykIobYEMgbMzbXa27r02Q_mGnqGzA6PiUq1SKDTq_SlBhAO_dCdnaZ6eOJ71ew" \
--insecure \
-X GET https://10.20.12.13:6443/apis/ ... ments
  Python 獲取 K8S API
  import requests
<p>
headers = {
&#39;Authorization&#39;: &#39;Bearer eyJhbGciOiJSUzI1NiIsImtpZCI6IERVlsdjlVMWxNd3dIOHJEMUVBV1phMEhuUkFaNUt1Z1EifQ.eyJpc3MiOiJrdWJlcmw&#39;,
}
response = requests.get(&#39;https://10.20.12.13:6443:6443/ ... 39%3B, headers=headers, verify=False)
print(response.json())
  
</p>
  獲取 K8S Pod 日志接口
  GET /api/v1/namespaces/{namespace}/pods/{name}/log
  獲取 k8s 集群信息的更多方法 kube/config
  神奇的網(wǎng)站屈服于蟒蛇的請求
  Curl to Python 請求
  更多接口參考
  Python 3.5 通過(guò) API 管理 k8s - 創(chuàng )建和刪除部署、服務(wù)
  解決方案:快播資源采集易語(yǔ)言源碼
  (71)數據采集
關(guān)鍵詞
  數據采集??軟件排行榜下載,輔助采集工具是一款采集輔助工具,用于采集特定數據信息并歸檔,數據采集工具可以適合很多人,比如銷(xiāo)售是企業(yè)和客戶(hù)的信息采集,視頻剪輯。首先是視頻數據等的采集
。采集
器工具是幫助用戶(hù)采集
特定的信息,讓人們不需要花費大量的時(shí)間和精力去搜索或者下載。輔助采集器工具是人們處理簡(jiǎn)單任務(wù)的好幫手。更多&gt;&gt;
  (112)易語(yǔ)言編程關(guān)鍵詞
  Easy Language 5.6完美破解版,免費中文編程平臺,無(wú)需使用破解補丁,安裝完成后為企業(yè)版注冊授權;Easy Language 5.11完美破解版簡(jiǎn)化了知識庫和多媒體教程,節省了安裝文件大小。Easy Language是自主研發(fā)的適合國情、不同層次、不同專(zhuān)業(yè)人士易學(xué)易用的中文編程語(yǔ)言。Easy語(yǔ)言降低了廣大計算機用戶(hù)的編程門(mén)檻,尤其是那些完全不懂英語(yǔ)或英語(yǔ)水平很低的人,使用該語(yǔ)言可以極快地進(jìn)入Windows程序編寫(xiě)的大門(mén)。更多&gt;&gt;
  VS2010 中文終極版是一個(gè)集成環(huán)境,可簡(jiǎn)化與創(chuàng )建、調試和部署應用程序相關(guān)的基本任務(wù)。使用 Visual Studio 2010 專(zhuān)業(yè)版,您可以盡情發(fā)揮您的想象力,輕松實(shí)現您的目標。借助強大的設計界面以及使設計人員和開(kāi)發(fā)人員能夠協(xié)同工作的能力,釋放您的創(chuàng )造力并實(shí)現您的夢(mèng)想。在越來(lái)越多的平臺(包括 Silverlight、SharePoint 和云應用程序)的個(gè)性化環(huán)境中工作,使用現有技術(shù)加快編碼過(guò)程。對測試先行開(kāi)發(fā)和新調試工具的集成支持讓您可以快速找到并修復所有錯誤,并幫助確保高質(zhì)量的解決方案。
  支持的操作系統:
  Windows 7的; Windows Server 2003 R2(32 位 x86);Windows Server 2003 R2 x64 版本;Windows Server 2003 服務(wù)包 2;Windows 服務(wù)器 2008 R2;3個(gè)
  Windows XP (x86) Service Pack 3 – 除 Starter Edition 之外的所有版本
  Windows Vista(x86 和 x64)Service Pack 2 - 除 Starter Edition 之外的所有版本
  Windows 7(x86 和 x64)
  Windows Server 2003(x86 和 x64)Service Pack 2 – 所有版本
  如果 MSXML6 不存在,用戶(hù)需要安裝它
  Windows Server 2003 R2(x86 和 x64)- 所有版本
  Windows Server 2008(x86 和 x64)Service Pack 2 – 所有版本
  Windows Server 2008 R2 (x64) - 所有版本
  Visual Studio 2010 中的新增功能
  它將是一個(gè)經(jīng)典版本,相當于當年的6.0版本。
  新功能還包括:
  (1) C#4.0中的動(dòng)態(tài)類(lèi)型和動(dòng)態(tài)規劃;
  (2) 多顯示器支持;
  
  (3)利用Visual Studio 2010的特性支持TDD;
 ?。ㄋ模┖笄谵k公室;
  (5) 快速搜索功能;
  (6) C++0x的新特性;
  (7) IDE增強;
  (8) 使用Visual C++ 2010創(chuàng )建Ribbon界面;
  (9) 基于.NET平臺的新語(yǔ)言
  根據微軟發(fā)布的一份官方文件,Visual Studio 2010 和.NET Framework 4.0 將在以下五個(gè)方面進(jìn)行創(chuàng )新: ·民主化的應用程序生命周期管理 在一個(gè)組織中,應用程序生命周期管理(ALM)將涉及多個(gè)角色。但并非流程中的每個(gè)角色在傳統意義上都是平等的。Visual Studio Team System 2010 將繼續為組織內的應用程序生命周期管理流程創(chuàng )建一個(gè)功能相同的共享平臺?!ぞo跟新技術(shù)潮流 每一年,行業(yè)內的新技術(shù)、新趨勢層出不窮。借助 Visual Studio 2010,微軟將為開(kāi)發(fā)人員提供合適的工具和框架,以支持軟件開(kāi)發(fā)中的最新架構、開(kāi)發(fā)和部署?!?給開(kāi)發(fā)者驚喜 從第一個(gè)版本的 Visual Studio 開(kāi)始,微軟就將提高開(kāi)發(fā)者的生產(chǎn)力和靈活性作為其目標。Visual Studio 2010 將繼續關(guān)注并顯著(zhù)改善核心開(kāi)發(fā)人員體驗?!は乱淮脚_浪潮的引領(lǐng)者 微軟將繼續投入市場(chǎng)領(lǐng)先的操作系統、工具軟件和服務(wù)器平臺,為客戶(hù)創(chuàng )造更高的價(jià)值。使用 Visual Studio 2010,您將能夠在下一代應用程序平臺上為您的客戶(hù)創(chuàng )建出色的解決方案?!?跨部門(mén)應用程序 客戶(hù)將在各種規模的組織內創(chuàng )建應用程序,從單個(gè)部門(mén)到整個(gè)企業(yè)。Visual Studio 2010 將繼續關(guān)注并顯著(zhù)改善核心開(kāi)發(fā)人員體驗?!は乱淮脚_浪潮的引領(lǐng)者 微軟將繼續投入市場(chǎng)領(lǐng)先的操作系統、工具軟件和服務(wù)器平臺,為客戶(hù)創(chuàng )造更高的價(jià)值。使用 Visual Studio 2010,您將能夠在下一代應用程序平臺上為您的客戶(hù)創(chuàng )建出色的解決方案?!?跨部門(mén)應用程序 客戶(hù)將在各種規模的組織內創(chuàng )建應用程序,從單個(gè)部門(mén)到整個(gè)企業(yè)。Visual Studio 2010 將繼續關(guān)注并顯著(zhù)改善核心開(kāi)發(fā)人員體驗?!は乱淮脚_浪潮的引領(lǐng)者 微軟將繼續投入市場(chǎng)領(lǐng)先的操作系統、工具軟件和服務(wù)器平臺,為客戶(hù)創(chuàng )造更高的價(jià)值。使用 Visual Studio 2010,您將能夠在下一代應用程序平臺上為您的客戶(hù)創(chuàng )建出色的解決方案?!?跨部門(mén)應用程序 客戶(hù)將在各種規模的組織內創(chuàng )建應用程序,從單個(gè)部門(mén)到整個(gè)企業(yè)。工具軟件和服務(wù)器平臺,為客戶(hù)創(chuàng )造更高的價(jià)值。使用 Visual Studio 2010,您將能夠在下一代應用程序平臺上為您的客戶(hù)創(chuàng )建出色的解決方案?!?跨部門(mén)應用程序 客戶(hù)將在各種規模的組織內創(chuàng )建應用程序,從單個(gè)部門(mén)到整個(gè)企業(yè)。工具軟件和服務(wù)器平臺,為客戶(hù)創(chuàng )造更高的價(jià)值。使用 Visual Studio 2010,您將能夠在下一代應用程序平臺上為您的客戶(hù)創(chuàng )建出色的解決方案?!?跨部門(mén)應用程序 客戶(hù)將在各種規模的組織內創(chuàng )建應用程序,從單個(gè)部門(mén)到整個(gè)企業(yè)。
  Visual Studio 2010 將確保支持如此廣泛的應用程序開(kāi)發(fā)。
  指示:
  創(chuàng )建您的第一個(gè) C 項目
  運行vs10,點(diǎn)擊【新建項目】,會(huì )彈出如下新建項目框,選擇【Visual c++】-&gt;【win32控制臺應用程序】,輸入項目名稱(chēng)和位置,或者選擇默認,然后點(diǎn)擊【確定】。
  彈出如下應用向導框,點(diǎn)擊【下一步】
  選擇【空項目】,點(diǎn)擊【完成】
  然后,在項目的左邊一欄,可以看到新建的項目(我創(chuàng )建的是test),然后,右擊【源文件】-&gt;【添加】-&gt;【新建項】,如下:
  然后會(huì )彈出Add New Item框,如下,選擇【c++文件】,輸入文件名,點(diǎn)擊【Add】。
  此時(shí)在左邊的源文件下可以看到新建的文件,比如我創(chuàng )建的main.c文件,然后進(jìn)入程序按【Ctrl+F5】運行。示例如下:
  
  按【F5】調試。
  Visual Studio Community 2015 是免費的,具有用于為 Windows、iOS、Android 設備或云服務(wù)器開(kāi)發(fā)桌面、移動(dòng)和 Web 應用程序的全套功能。該版本面向小型公司、初創(chuàng )企業(yè)、學(xué)生和開(kāi)源軟件開(kāi)發(fā)人員開(kāi)發(fā)的非企業(yè)軟件。提供統一的客戶(hù)端和服務(wù)端開(kāi)發(fā)平臺,支持移動(dòng)端跨平臺開(kāi)發(fā),具有可擴展性,具有先進(jìn)高效的編程功能。
  軟件介紹:
  VS2015版本新增多平臺開(kāi)發(fā)工具,支持開(kāi)發(fā)全平臺Win10通用應用,包括Windows10手機、Win10 PC、Xbox和HoloLens增強現實(shí)等。此外,通過(guò)VS2015,開(kāi)發(fā)者還可以使用語(yǔ)言或 Apache Cordova、Xamarin 或 C++ 等技術(shù),為 iOS 和 Android 平臺開(kāi)發(fā)應用程序。對于WEB 和服務(wù)器開(kāi)發(fā),您可以使用Python、Node.js 技術(shù)以及C#、Visual Basic 或F# 語(yǔ)言。
  Visual Studio 2015今天如期發(fā)布了正式版。Visual Studio 2015 包括許多新功能和更新,例如通用 Windows 應用程序開(kāi)發(fā)工具、適用于 iOS、Android、Windows 的跨平臺移動(dòng)開(kāi)發(fā)工具(包括 Xamarin、Apache Cordova、Unity)、可移植 C++ 庫、本機 Active C++ 模板等。 ,對Cordova、Xamarin、C++的跨平臺支持都很好。它可以讓您通過(guò)一個(gè)工具完成iOS、Android、Windows平臺的應用。絕對是Windows 10乃至跨平臺開(kāi)發(fā)的首選。
  跨平臺支持已經(jīng)成為VS2015最新的DNA。在智能手機APP的開(kāi)發(fā)中,無(wú)論是針對什么樣的智能設備,無(wú)論是支持Native應用還是基于HTML5的混合應用,都可以借助VS2015強大的編碼、調試、調試等功能幫助程序員快速開(kāi)發(fā)。和智能提示。特別是VS2015已經(jīng)集成了Xamarin的安裝包,Visual Studio也可以為Apple Watch開(kāi)發(fā)應用了!
  本次發(fā)布的Visual Studio 2015正式版收錄
32/64位安裝鏡像和相關(guān)工具。有標準版、企業(yè)版、專(zhuān)業(yè)版、測試專(zhuān)業(yè)版、精簡(jiǎn)版等多種版本。它支持簡(jiǎn)體中文和其他語(yǔ)言。MSDN 開(kāi)發(fā)人員現在可以下載并使用它。
  同時(shí),Visual Studio 2013 Update 5和.NET Framework 4.6正式版也已經(jīng)發(fā)布,但Team Foundation Server 2015還沒(méi)有發(fā)布,只給出了一個(gè)Team Foundation Server 2013 Update 5。
  整個(gè) Visual Studio 2015 包括 Visual Studio、Visual Studio Online 和 Visual Studio Code。Visual Studio Online 提供完整、輕量級、基于 Microsoft 云平臺的軟件生命周期支持。Online版本和TFS2015為開(kāi)發(fā)團隊提供了基于DevOps理念的完整解決方案。幫助開(kāi)發(fā)者完成應用管理、工作、開(kāi)發(fā)、聯(lián)調、測試、發(fā)布的全生命周期,提供高效工具完成應用使用狀態(tài)和使用監控。
  Visual Code 提供了微軟第一個(gè)跨平臺開(kāi)發(fā)工具,支持開(kāi)發(fā)者在windows、linux、Mac 上開(kāi)發(fā)ASP.NET 或NodeJS 應用程序。
  微軟的其他公告包括:
  Visual Studio Community 2013 – 新的、免費的、全功能的 Visual Studio 版本,可用于開(kāi)發(fā)桌面、移動(dòng)、Web 和云應用程序,只允許開(kāi)發(fā)非企業(yè)應用程序。
  Visual Studio 2015 預覽版和 .NET 2015 預覽版 – Visual Studio 2015 支持 Windows、iOS 和 Android 應用程序的跨平臺開(kāi)發(fā),內置對 Apache Cordova 的支持。微軟和 Xamarin 宣布將簡(jiǎn)化在 Visual Studio 中安裝 Xamarin 的過(guò)程,并宣布將在今年年底發(fā)布的免費版 Xamarin Starter Edition 中增加對 Visual Studio 的支持。
  Visual Studio 2013 Update 4 已發(fā)布,具有大量改進(jìn)和多項新功能。
  Visual Studio Online DevOps:發(fā)布管理服務(wù)和云部署項目。
  微軟還回顧了過(guò)去的一些成就。目前,微軟擁有 18 億個(gè) .NET 安裝量、700 萬(wàn)次 Visual Studio 2013 下載量和 170 萬(wàn)個(gè) Visual Studio Online 注冊帳戶(hù)。
  vs2015各版本價(jià)格:
  價(jià)格方面,Visual Studio Enterprise 2015首年年費為5999美元,續訂價(jià)格為2569美元。這個(gè)價(jià)格明顯低于 Visual Studio Ultimate 的 $13299/$4249,也低于 Visual Studio Premium 的 $6119/2569。
  對于參與微軟開(kāi)源項目的客戶(hù),Visual Studio Enterprise 2015最終官方售價(jià)為每人每年4466美元,續費1640美元。注冊該計劃的客戶(hù)可以以 7,793 美元的新用戶(hù)價(jià)格和 2,861 美元的續訂價(jià)格購買(mǎi) Visual Studio Ultimate 2013。Visual Studio Premium 2013 的官方價(jià)格為新用戶(hù) 3,573 美元,續訂用戶(hù) 1,312 美元。
  微軟表示,對于批量許可,Visual Studio 2015 Enterprise 的成本將比 VS 2013 Ultimate 低 43%,而對于零售,VS 2015 Enterprise 實(shí)際上將比 VS 2013 便宜 55%。
  Visual Studio 2015 正式發(fā)布后,現有的 Visual Studio Ultimate 和 Visual Studio Premium 用戶(hù)將通過(guò) MSDN 自動(dòng)升級到 Visual Studio Enterprise。

匯總:數據收集的方法有哪些,數據收集的10個(gè)方法?

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 447 次瀏覽 ? 2022-11-24 00:36 ? 來(lái)自相關(guān)話(huà)題

  匯總:數據收集的方法有哪些,數據收集的10個(gè)方法?
  00 基本概念
  數據集,也稱(chēng)為數據集、數據集合或數據集合,是由數據組成的集合。
  數據集(或數據集)是數據的集合,通常以表格形式存在。每列代表一個(gè)特定的變量。每行對應于成員數據集的一個(gè)問(wèn)題。它列出了每個(gè)變量的值,例如對象的高度和重量或隨機數的值。每個(gè)值稱(chēng)為一個(gè)數據配置文件。該數據集的數據可能包括一個(gè)或多個(gè)與行數相對應的成員。
  數據采集??(Data Acquisition,簡(jiǎn)稱(chēng)DAQ)是指自動(dòng)采集傳感器等被測器件等模擬和數字被測單元的非電信號或電信號,并傳送給上位機進(jìn)行分析處理。數據采集??系統是以計算機或其他專(zhuān)用測試平臺為基礎,結合測量軟硬件產(chǎn)品的靈活的、用戶(hù)自定義的測量系統。
  在計算機廣泛使用的今天,數據采集的重要性非常顯著(zhù)。它是連接計算機與外部物理世界的橋梁。獲取各種類(lèi)型信號的難易程度差異很大。在實(shí)際采集中,噪聲也可能造成一些麻煩。在采集
數據的時(shí)候,有一些基本原則需要注意,需要解決的實(shí)際問(wèn)題也比較多。
  根據網(wǎng)絡(luò )和個(gè)人學(xué)習,提供十種數據采集方式,順序如下:
  01 公共數據集
  開(kāi)放數據,開(kāi)放數據,大數據新詞。
  2020年7月,大數據戰略重點(diǎn)實(shí)驗室全國科學(xué)技術(shù)術(shù)語(yǔ)審定研究基地收錄審定的第一批108個(gè)大數據新詞報送國家審定委科學(xué)技術(shù)術(shù)語(yǔ)報批并向社會(huì )公開(kāi)試行。
  定義:開(kāi)放數據是一種理念和實(shí)踐,它要求任何人都可以自由訪(fǎng)問(wèn)某些數據,而不受版權、專(zhuān)利或其他機制的限制。
  網(wǎng)上有各種開(kāi)發(fā)數據集。我們只需要找到對應的網(wǎng)站獲取下載鏈接,就可以得到不同領(lǐng)域的數據集。一般來(lái)說(shuō),這些數據集是為了幫助學(xué)習者或者數據分析人員,也有一些是為了舉辦各種比賽,為了找到更好的數據分析方案和結果。
  關(guān)于公開(kāi)資料,我在這里整理了一份,
  互聯(lián)網(wǎng)上有哪些公開(kāi)的數據源可以用來(lái)做數據分析?– PurStar – 博客園
  當然還不夠全面,所以我們可以通過(guò)百度、bing搜索等找到各種整理好的博客或者導航,找到我們想要的數據集,方便下一步的數據分析。
  02 數據報采集
  要了解數據報集合,首先要了解什么是數據報?數據報的定義如下:
  從上面的定義不難看出數據報是計算機網(wǎng)絡(luò )中的一個(gè)概念,所以我們可以使用一些抓包工具來(lái)獲取數據報的相關(guān)數據,比如常見(jiàn)的Wireshark,簡(jiǎn)單介紹如下:
  除了Wireshark,類(lèi)似的工具還有fiddler、Charles、Firebug、httpwatch、SmartSniff、……等,對網(wǎng)絡(luò )原理或者網(wǎng)絡(luò )安全感興趣的朋友可以試試這些工具!
  03 網(wǎng)絡(luò )爬蟲(chóng)
  網(wǎng)絡(luò )爬蟲(chóng)的定義如下:
  通過(guò)網(wǎng)絡(luò )爬蟲(chóng),我們可以爬取存在于網(wǎng)絡(luò )中的各種數據,并將爬取到的數據按照一定的格式存儲在指定的數據存儲文件系統或數據庫中,以方便下一步的數據整理或數據采集
. 分析。
  根據系統結構和實(shí)現技術(shù),網(wǎng)絡(luò )爬蟲(chóng)大致可以分為以下幾種類(lèi)型:
  實(shí)際的網(wǎng)絡(luò )爬蟲(chóng)系統通常是由多種爬蟲(chóng)技術(shù)組合實(shí)現的。
  3.1 通用網(wǎng)絡(luò )爬蟲(chóng)
  通用網(wǎng)絡(luò )爬蟲(chóng)也稱(chēng)為可擴展網(wǎng)絡(luò )爬蟲(chóng)。其爬取對象從一些種子URL擴展到整個(gè)Web,主要為門(mén)戶(hù)網(wǎng)站搜索引擎和大型Web服務(wù)商采集
數據。由于商業(yè)原因,他們的技術(shù)細節很少公布。這類(lèi)網(wǎng)絡(luò )爬蟲(chóng)的爬取范圍和數量巨大,對爬取速度和存儲空間要求高,對爬取頁(yè)面的順序要求相對較低。同時(shí),由于需要刷新的頁(yè)面太多,通常采用并行工作的方式,但耗時(shí)較長(cháng)。刷新頁(yè)面需要時(shí)間。雖然存在一定的缺陷,但一般的網(wǎng)絡(luò )爬蟲(chóng)適用于搜索引擎搜索范圍廣泛的主題,具有很強的應用價(jià)值。
  3.2 關(guān)注網(wǎng)絡(luò )爬蟲(chóng)
  Focused Crawler,也稱(chēng)為T(mén)opical Crawler,是指一種網(wǎng)絡(luò )爬蟲(chóng),它有選擇地爬取與預先定義的主題相關(guān)的頁(yè)面。與通用網(wǎng)絡(luò )爬蟲(chóng)相比,專(zhuān)注爬蟲(chóng)只需要爬取與主題相關(guān)的頁(yè)面,大大節省了硬件和網(wǎng)絡(luò )資源。存頁(yè)數也因為數量少更新快,也能滿(mǎn)足特定領(lǐng)域的一些特定人群。信息需求。
  3.3 增量網(wǎng)絡(luò )爬蟲(chóng)
  增量式網(wǎng)絡(luò )爬蟲(chóng)(Incremental Web Crawler)是指增量更新下載的網(wǎng)頁(yè),只爬取新生成或變化的網(wǎng)頁(yè)的爬蟲(chóng)??梢栽谝欢ǔ潭壬媳WC爬取的頁(yè)面盡可能的新。頁(yè)。與周期性爬取和刷新頁(yè)面的網(wǎng)絡(luò )爬蟲(chóng)相比,增量爬蟲(chóng)只在需要時(shí)爬取新生成或更新的頁(yè)面,不會(huì )重新下載沒(méi)有變化的頁(yè)面,可以有效減少數據下載量并及時(shí)更新爬取的網(wǎng)頁(yè)pages 減少了時(shí)間和空間的消耗,但是增加了爬取算法的復雜度和實(shí)現難度。增量網(wǎng)絡(luò )爬蟲(chóng)架構[包括爬取模塊、排序模塊、更新模塊、本地頁(yè)面集、待爬URL集、本地頁(yè)面URL集。
  3.4 深網(wǎng)爬蟲(chóng)
  網(wǎng)頁(yè)按其存在方式可分為表層網(wǎng)頁(yè)(Surface Web)和深層網(wǎng)頁(yè)(Deep Web,又稱(chēng)Invisible Web Pages或Hidden Web)。表面網(wǎng)頁(yè)是指可以被傳統搜索引擎收錄的頁(yè)面,主要由可以通過(guò)超鏈接到達的靜態(tài)網(wǎng)頁(yè)組成。深網(wǎng)是那些大部分內容無(wú)法通過(guò)靜態(tài)鏈接獲得的網(wǎng)頁(yè),隱藏在搜索表單后面,并且只有在用戶(hù)提交一些 關(guān)鍵詞 時(shí)才可用。例如,那些內容只有在用戶(hù)注冊后才能看到的網(wǎng)頁(yè)就屬于深網(wǎng)。2000年,光明星球指出,Deep Web的可訪(fǎng)問(wèn)信息容量是Surface Web的數百倍,是互聯(lián)網(wǎng)上規模最大、發(fā)展最快的新信息資源。
  3.5 學(xué)習資料推薦
  其實(shí)我們只要打開(kāi)一些網(wǎng)購平臺,搜索爬蟲(chóng),就會(huì )發(fā)現彈出來(lái)很多關(guān)于爬蟲(chóng)的書(shū)籍,基本上都是python的,毫不夸張的說(shuō),很多書(shū)籍的內容都會(huì )涉及到一個(gè)Python網(wǎng)絡(luò )爬蟲(chóng)——Scrapy。
  相應的書(shū)籍我這里就不介紹了。網(wǎng)購平臺的銷(xiāo)量和知名度已經(jīng)告訴你,你應該學(xué)習那些資料。另外,這里為一些沒(méi)有編程基礎的朋友提供一些傻瓜式的爬蟲(chóng)。它們的功能非常強大。對于沒(méi)有編程基礎又想體驗和使用爬蟲(chóng)的朋友來(lái)說(shuō)非常方便。參考鏈接如下:
  不會(huì )編程也能用的幾款數據爬取工具!– PurStar – 博客園
  04 日志采集
  日志采集
也是一個(gè)比較常見(jiàn)的場(chǎng)景。采集
的數據可用于監控硬件設備或軟件系統的運行狀態(tài)。當出現問(wèn)題時(shí),這些數據可以為運維工程師提供一些告警和關(guān)鍵信息,有助于故障排除。
  對于一些大中型企業(yè),機房管理的設備較多,可以采用相關(guān)的日志采集方案,方便后續的數據分析和問(wèn)題解決。關(guān)于日志采集
的概念我就不多介紹了。幾種常見(jiàn)的日志采集
工具包括 Logstash、Filebeat、Flume、Fluentd、Logagent、rsyslog 和 syslog-ng。
  這里僅提供三個(gè)模型進(jìn)行比較:
  4.1 水槽
  Flume 是一種分布式、高可靠、高可用的服務(wù),用于高效采集
、聚合和移動(dòng)大量日志數據。它具有基于流數據流的簡(jiǎn)單靈活的架構。具有可調的可靠性機制、故障轉移和恢復機制,容錯能力強。它使用允許在線(xiàn)分析應用程序的簡(jiǎn)單可擴展數據模型。
  Flume旨在將基于事件的海量數據批量導入Hadoop集群。系統中的核心角色是agent,Flume采集系統由各個(gè)agent連接而成。每個(gè)代理相當于一個(gè)數據傳輸器,內部收錄
三個(gè)組件:
  source:采集源,用于連接數據源獲取數據
  sink:傳輸數據的目的地,用于將數據傳輸到下一級代理或最終存儲系統
  channel:agent內部的數據傳輸通道,用于將數據從source傳輸到sink
  4.2 日志存儲
  Logstash 是一個(gè)開(kāi)源的服務(wù)器端數據處理管道,能夠同時(shí)從多個(gè)源獲取數據、轉換數據并將數據發(fā)送到存儲庫。當數據從源傳輸到存儲庫時(shí),Logstash 過(guò)濾器會(huì )解析單個(gè)事件,識別命名字段以構建結構,并將它們轉換為通用格式,以便更輕松、更快速地進(jìn)行分析并實(shí)現業(yè)務(wù)價(jià)值。
  Logstash是基于管道的方式進(jìn)行數據處理的,管道可以理解為對數據處理過(guò)程的抽象。在管道中,數據通過(guò)上游數據源匯聚到消息隊列中,然后經(jīng)過(guò)多個(gè)工作線(xiàn)程轉換處理,最后輸出到下游組件。一個(gè) logstash 可以收錄
多個(gè)管道。
  Logstash 管道有兩個(gè)必需的元素,輸入和輸出,以及一個(gè)可選的元素過(guò)濾器:
  Input:數據輸入組件,用于連接各種數據源,訪(fǎng)問(wèn)數據,支持解碼器,允許對數據進(jìn)行編解碼操作;所需組件;
  output:數據輸出組件,用于連接下游組件,發(fā)送處理后的數據,支持解碼器,允許對數據進(jìn)行編解碼操作;必需的組件;
  filter:數據過(guò)濾組件,負責處理輸入數據;可選組件;Logstash安裝部署
  管道:數據處理流程的邏輯抽象,類(lèi)似于管道,數據從一端流入,處理后從另一端流出;一個(gè)管道包括輸入、過(guò)濾和輸出三部分,其中輸入和輸出部分是必選組件,過(guò)濾是可選組件;
  instance:一個(gè)Logstash實(shí)例,可以收錄
多個(gè)數據處理進(jìn)程,即多個(gè)pipeline;
  事件:管道中的數據是基于事件的,一個(gè)事件可以看作是數據流中的一條數據或者一條消息;
  4.3 文件拍
  Filebeat 是一個(gè)日志文件傳輸工具。在服務(wù)端安裝客戶(hù)端后,Filebeat會(huì )監控日志目錄或指定的日志文件,跟蹤并讀取這些文件(track file changes,連續讀?。?,并將信息轉發(fā)到ElasticSearch或Logstarsh中存儲。
  
  當您啟動(dòng) Filebeat 程序時(shí),它會(huì )啟動(dòng)一個(gè)或多個(gè)探測器(prospectors)來(lái)檢測您指定的日志目錄或文件。對于探針找到的每一個(gè)日志文件,Filebeat 都會(huì )啟動(dòng)收割進(jìn)程(harvester),每一個(gè)收割進(jìn)程都會(huì )讀取一個(gè)日志文件的新內容,并將這些新的日志數據發(fā)送給處理程序(spooler),處理程序會(huì )聚合這些事件,最后 filebeat 會(huì )將匯總的數據發(fā)送到您指定的位置。
  Filebeat 簡(jiǎn)介
  Filebeat 由兩個(gè)主要組件組成:prospectors 和 harvesters。這些組件協(xié)同工作以讀取文件并將事件數據發(fā)送到指定的輸出。
  Harvesters:負責讀取單個(gè)文件的內容。收割機逐行讀取每個(gè)文件并將內容發(fā)送到輸出。每個(gè)文件都會(huì )啟動(dòng)一個(gè)收割機。收割機負責打開(kāi)和關(guān)閉文件,這意味著(zhù)文件在收割機運行時(shí)保持打開(kāi)狀態(tài)。如果在采集過(guò)程中,即使文件被刪除或重命名,Filebeat 也會(huì )繼續讀取文件。此時(shí)會(huì )一直占用該文件對應的磁盤(pán)空間,直到Harvester關(guān)閉。默認情況下,Filebeat 將保持文件打開(kāi),直到超過(guò)配置的 close_inactive 參數,然后 Filebeat 將關(guān)閉 Harvester。
  Prospector:負責管理Harvsters,找到所有需要讀取的數據源。如果輸入類(lèi)型配置為日志類(lèi)型,Prospector會(huì )在配置路徑中搜索所有匹配的文件,然后為每個(gè)文件創(chuàng )建一個(gè)Harvster。每個(gè) Prospector 都在自己的 Go 例程中運行。
  Filebeat 目前支持兩種 Prospector 類(lèi)型:日志和標準輸入??梢栽谂渲梦募卸x多個(gè) Prospector 類(lèi)型。日志Prospector會(huì )檢查每個(gè)文件是否需要啟動(dòng)Harvster,啟動(dòng)的Harvster是否還在運行,或者文件是否被忽略(配置ignore_order可以忽略文件)。如果是Filebeat運行過(guò)程中新創(chuàng )建的文件,只有關(guān)閉Harvster后文件大小發(fā)生變化,Prospector才會(huì )選擇新文件。
  4.4 比較:
  水槽
  日志存儲
  文件拍
  記憶
  大的
  大的
  小的
  中央處理器
  大的
  小的
  背壓敏感協(xié)議
  不
  不
  是的
  插入
  需要一些API
  許多
  許多
  功能
  從各種輸入和輸出到各種輸出獲取數據
  從各種輸入中獲取數據,實(shí)時(shí)解析數據并將其轉換為各種輸出
  傳播
  嚴重程度
  比較重
  比較重
  輕量級二進(jìn)制文件
  過(guò)濾能力
  自帶分區和攔截器功能
  強大的過(guò)濾能力
  有過(guò)濾能力但弱
  過(guò)程
  一臺服務(wù)器可以有多個(gè)進(jìn)程,掛掉后需要手動(dòng)拉起
  一臺服務(wù)器只允許一個(gè)logstash進(jìn)程,掛掉后需要手動(dòng)拉起
  非常穩定
  原則
  當源接收到事件時(shí),它會(huì )將其存儲在一個(gè)或多個(gè)通道中。通道是一個(gè)被動(dòng)存儲,它保存事件直到它們被 Flume 消費。sink 從通道中移除事件并將其放入外部存儲庫(例如 HDFS)或將其轉發(fā)到流中下一個(gè) Flume 代理的源。代理中的源和接收器與通道中分段的事件異步運行。
  Logstash使用管道采集
和輸出日志,分為輸入input -&gt; processing filter(非必須) -&gt; output輸出,每個(gè)階段都有不同的備選方案
  啟動(dòng)進(jìn)程后,會(huì )啟動(dòng)一個(gè)或多個(gè)探測器(prospectors)來(lái)探測指定的日志目錄或文件。對于探針找到的每一個(gè)日志文件,filebeat都會(huì )啟動(dòng)采集進(jìn)程(harvester),每一個(gè)采集進(jìn)程都會(huì )讀取一個(gè)日志文件的新內容,并將這些新的日志數據發(fā)送給處理程序(spooler),處理程序會(huì )采集
這些事件,最后filebeat會(huì )將采集
到的數據發(fā)送到你指定的位置。
  書(shū)寫(xiě)語(yǔ)言
  爪哇
  朱比
  去語(yǔ)言
  簇
  分散式
  單節點(diǎn)
  單節點(diǎn)
  輸出到多個(gè)接收器
  支持
  支持
  6.0之前支持
  
  二次開(kāi)發(fā)或擴展開(kāi)發(fā)
  一般來(lái)說(shuō)
  災難
  簡(jiǎn)單的
  4.5 總結
  Flume更注重數據的傳輸,對數據的預處理不如Logstash。Flume在傳輸方面比Logstash更可靠,因為數據會(huì )持久化在通道中。只有當數據存儲在接收器中時(shí),數據才會(huì )從通道中刪除。這個(gè)過(guò)程由事物來(lái)控制,以保證數據的可靠性。Logstash 是 ELK 組件之一。一般與其他ELK組件一起使用,更側重于數據預處理。Logstash的插件比Flume多,所以在擴展功能上比Flume更全面。但是Logstash內部沒(méi)有持久化隊列,所以在異常情況下可能會(huì )出現數據丟失的情況。Filebeat 是一個(gè)輕量級的日志采集
工具。因為 Filebeat 是 Elastic Stack 的一部分,它可以與 ELK 組件無(wú)縫協(xié)作。Filebeat 比 Logstash 占用內存少很多。性能比較穩定,很少停機。
  參考鏈接:
  流式數據采集與計算(三):Flume、Logstash、Filebeat研究報告_葉葉來(lái)-CSDN博客_filebeat與flume
  05 社會(huì )調查
  我們先來(lái)看看什么是社會(huì )調查?社會(huì )調查是社會(huì )“調查”、“研究”的簡(jiǎn)稱(chēng)。社會(huì )調查是指人們?yōu)榱诉_到一定的目的,通過(guò)對社會(huì )現象的調查、了解、分析和研究,有意識地了解社會(huì )的真實(shí)情況的一種有意識的認識活動(dòng)。它收錄
以下四層含義:(1)社會(huì )調查是一種自覺(jué)的意識活動(dòng)。(2)社會(huì )調查的對象是社會(huì )現象。(三)社會(huì )調查必須采用一定的方法。(4)社會(huì )調查具有一定的目的性。社會(huì )調查的上述定義適用于所有社會(huì )調查,包括科學(xué)社會(huì )調查。
  可能這個(gè)定義不太好理解,但是比如說(shuō)我們做的問(wèn)卷其實(shí)就是一種社會(huì )調查的方法。由于我們討論的是數據采集
,因此我們將只關(guān)注數據社會(huì )調查的常用方法。一般有九種。詳細內容如下:
  參考鏈接如下:
  調查研究中常用的九種方法
  5.1. 野外觀(guān)察法
  偵查人員通過(guò)實(shí)地觀(guān)察,獲得直接、生動(dòng)的感性認識和真實(shí)可靠的第一手資料。但由于該方法觀(guān)察的往往是事物的表面現象或外在聯(lián)系,具有一定的偶然性,受調查者主觀(guān)因素的影響較大,故不能大樣本觀(guān)察,必須采用結合其他調查方法。通常適用于無(wú)法、不希望或不希望進(jìn)行口頭交流的情況調查。
  5.2. 訪(fǎng)談?wù){查法
  這種方法是比野外觀(guān)察法更深入的調查方法。它可以獲得越來(lái)越多有價(jià)值的信息。地點(diǎn)不易接近等。包括個(gè)人面試法、小組面試法、電話(huà)面試法等。但由于訪(fǎng)談標準不同,難以對結果進(jìn)行量化研究,且訪(fǎng)談過(guò)程耗時(shí)、成本高、隱蔽性差、受周?chē)h(huán)境影響大,難以進(jìn)行大數據分析。規模采訪(fǎng)。
  5.3. 會(huì )議調查法
  這種方法是訪(fǎng)談?wù){查法的擴展和延伸,由于其簡(jiǎn)單易用,在調查研究工作中更為常用。通過(guò)邀請幾位調查受訪(fǎng)者參加研討會(huì )來(lái)采集
數據、分析和研究社會(huì )問(wèn)題。最突出的優(yōu)點(diǎn)是工作效率高,可以快速了解更詳細可靠的社會(huì )信息,節省人力和時(shí)間。但由于這種方法不能完全排除被調查者社會(huì )心理因素的影響,調查結論往往難以充分反映真實(shí)的客觀(guān)情況。且受時(shí)間條件限制,難以進(jìn)行深入細致的交談,
  5.4. 問(wèn)卷調查法
  即間接筆試。這種方法的最大優(yōu)點(diǎn)是可以突破時(shí)間和空間的限制,在大范圍內同時(shí)對大量調查對象進(jìn)行調查。、受訪(fǎng)者應具備一定的寫(xiě)作理解能力和表達能力。如某地區農村黨員教育培訓情況調查、中小學(xué)教師科研狀況調查等。由于問(wèn)卷調查法只能獲取書(shū)面社會(huì )信息,無(wú)法形象地了解和特定的社會(huì )條件,這種方法不能代替實(shí)地調查,特別是對于那些新事物、新情況、新問(wèn)題。方法一起。
  5.5. 專(zhuān)家調查法
  這是一種預測方法,即以專(zhuān)家為索取信息的對象,依靠他們的知識和經(jīng)驗,通過(guò)調查研究對問(wèn)題作出判斷和評價(jià)。最大的優(yōu)點(diǎn)是簡(jiǎn)單直觀(guān),特別適用于缺乏信息資料和歷史數據,受社會(huì )、政治和人為因素影響較大的信息分析和預測題材。廣泛用于對某個(gè)方案進(jìn)行評價(jià),或評價(jià)多個(gè)備選方案的相對排名,選出最佳方案;估計實(shí)現某一目標的條件、途徑、手段及其相對重要性等。
  5.6. 抽樣調查法
  是指以一定的方式從被調查人群中抽取部分樣本進(jìn)行調查,并用所獲得的結果來(lái)說(shuō)明總體情況。其最大的優(yōu)點(diǎn)是節省了人力、物力和財力,可以在較短的時(shí)間內獲得相對準確的調查結果,時(shí)效性強。組織全面調查范圍廣、時(shí)間長(cháng)、難度大,多采用抽樣調查的方法進(jìn)行檢查核實(shí)。如在全省開(kāi)展黨風(fēng)廉政建設社會(huì )調查、流動(dòng)黨員現狀社會(huì )調查等。局限性在于當樣本數量不足時(shí),會(huì )影響調查結果的準確性。
  5.7. 典型調查方法
  是指在一定范圍內選取具有代表性的特定對象進(jìn)行調查研究,以了解同類(lèi)事物的發(fā)展變化規律和本質(zhì)的一種方法。當調查樣本過(guò)大時(shí)可以采用這種方法。但在對象的選擇上一定要注意,一定要準確地選擇比較熟悉全局的有代表性的對象。例如,地級市對區縣市農村黨員情況進(jìn)行調查,應選擇經(jīng)濟發(fā)展較快、農村黨員致富能力強的縣市作為典型調查對象。 .
  5.8. 統計調查法
  通過(guò)分析固定統計報表的形式來(lái)反映下列情況的一種調查方法。由于統計報表的內容比較固定,適合分析某事物的發(fā)展軌跡和未來(lái)趨勢。例如,通過(guò)黨員統計年報,可以分析某地全年黨員發(fā)展、轉移、流動(dòng)情況,與上年同期相比增減情況。年,并預測下一個(gè)趨勢。使用統計調查方法時(shí),要特別注意統一統計口徑,以統計部門(mén)的數字為準,報表分析要結合實(shí)際調查,報表不能簡(jiǎn)單分析。例如,某項數據大幅增加或減少的原因很難在報表中反映出來(lái),只有通過(guò)實(shí)際調查才能形成一個(gè)完整的概念。
  5.9. 文獻調查法
  通過(guò)采集
和提取文件來(lái)獲取有關(guān)調查對象信息的方法。適用于研究調查對象在一段時(shí)間內的發(fā)展變化。研究的角度往往是探索一種趨勢或闡明一種演變過(guò)程。這種方法可以突破時(shí)間和空間的限制,進(jìn)行大范圍的調查,而且調查數據易于采集
和分析。同時(shí),它還具有數據可靠、人力物力少、效果大等優(yōu)點(diǎn)。但它往往是一種先進(jìn)的偵查手段,一般只能作為偵查的先導,不能作為偵查結論的現實(shí)依據。
  06 業(yè)務(wù)數據集
  相信在很多公司都會(huì )有相應的日常運營(yíng)和業(yè)務(wù)部門(mén),各種相關(guān)的數據都會(huì )記錄在某些文件或系統中,比如常見(jiàn)的Excel文件,各種辦公系統的數據庫系統等,一般公司DBA人員可能會(huì )向數據分析師開(kāi)放一定的查詢(xún)權限,供數據分析師提取對應的業(yè)務(wù)數據集,提取時(shí)也可能涉及一些數據脫敏問(wèn)題。
  什么是數據脫敏?
  說(shuō)白了,數據脫敏的意義在于保護客戶(hù)的重要隱私信息,但在保護的同時(shí),不能讓數據分析變得毫無(wú)意義。
  相對于這個(gè)領(lǐng)域來(lái)說(shuō),學(xué)好數據庫的相關(guān)語(yǔ)言SQL就很重要了。只有足夠好地掌握SQL,才能在提取和分析數據時(shí)快速、準確地完成相應的任務(wù)!
  07 埋點(diǎn)采集
  埋點(diǎn)分析是應用系統分析常用的數據采集方法。數據嵌入點(diǎn)分為初級、中級和高級三種方式。數據埋點(diǎn)是為私有化部署采集
數據的好方法。
  數據嵌入點(diǎn)分為初級、中級、高級三種方式,即: 初級:在產(chǎn)品和服務(wù)轉化的關(guān)鍵點(diǎn)植入統計代碼,根據其獨立的ID(如點(diǎn)擊)保證數據采集不重復購買(mǎi)按鈕的費率);中間:插入多段代碼跟蹤用戶(hù)在平臺各個(gè)界面的一系列行為,事件相互獨立(如打開(kāi)商品詳情頁(yè)-選擇商品型號-加入購物車(chē)-下單訂單 - 完成購買(mǎi));進(jìn)階:配合公司工程及ETL,對用戶(hù)行為進(jìn)行全量采集分析,建立用戶(hù)畫(huà)像,還原用戶(hù)行為模型,作為產(chǎn)品分析和優(yōu)化的依據。毫無(wú)疑問(wèn),數據埋點(diǎn)是為私有化部署采集
數據的好方法。精準的數據采集滿(mǎn)足企業(yè)去其糟粕和取其精華的需求,實(shí)現產(chǎn)品和服務(wù)的快速優(yōu)化和迭代。埋藏數據采集
的方法廣泛存在于網(wǎng)站和移動(dòng)應用程序中。網(wǎng)站埋點(diǎn)一般存在于網(wǎng)站的按鈕或訪(fǎng)問(wèn)記錄中。系統前端會(huì )有相應的代碼記錄用戶(hù)的操作行為,并將這些數據傳遞給后臺,最終可能以日志或者數據庫表數據的形式記錄下來(lái)。事實(shí)上,它可以理解最終會(huì )成為業(yè)務(wù)數據集的一部分,以便數據分析師可以利用這些用戶(hù)數據建立用戶(hù)畫(huà)像,做分層模型進(jìn)行精準營(yíng)銷(xiāo)等等!大同小異,網(wǎng)站的框架技術(shù)不同但原理相似,擴展到App應用也是一樣的。開(kāi)發(fā)工程師需要將記錄用戶(hù)操作的代碼植入到手機或平板應用的程序中,以滿(mǎn)足相應的數據采集需求,最后返回后臺后,與網(wǎng)站埋點(diǎn)基本相同。擴展到App應用也是一樣。開(kāi)發(fā)工程師需要將記錄用戶(hù)操作的代碼植入到手機或平板應用的程序中,以滿(mǎn)足相應的數據采集需求,最后返回后臺后,與網(wǎng)站埋點(diǎn)基本相同。擴展到App應用也是一樣。開(kāi)發(fā)工程師需要將記錄用戶(hù)操作的代碼植入到手機或平板應用的程序中,以滿(mǎn)足相應的數據采集需求,最后返回后臺后,與網(wǎng)站埋點(diǎn)基本相同。
  08 傳感器采集
  傳感器(英文名稱(chēng):transducer/sensor)是一種檢測裝置,它能感知被測量的信息,并將感知到的信息按照一定的規則轉換成電信號或其他所需形式的信息輸出,以滿(mǎn)足信息要求。傳輸、處理、存儲、顯示、記錄和控制要求。
  傳感器的特點(diǎn)包括:小型化、數字化、智能化、多功能化、系統化、網(wǎng)絡(luò )化。它是實(shí)現自動(dòng)檢測和自動(dòng)控制的第一個(gè)環(huán)節。傳感器的存在和發(fā)展,讓物體有了觸覺(jué)、味覺(jué)、嗅覺(jué)等感官,讓物體慢慢活了過(guò)來(lái)。通常按其基本感知功能可分為熱傳感器、光傳感器、氣體傳感器、力傳感器、磁傳感器、濕度傳感器、聲音傳感器、輻射傳感器、顏色傳感器和味覺(jué)傳感器等十大類(lèi)。.
  通過(guò)配備各種傳感器的軟硬件結合,我們可以很容易地獲取現實(shí)物理世界中的各種相關(guān)數據。例如,我們使用攝像頭、錄音設備、體溫檢測、氣候檢測等設備。一般這類(lèi)設備都會(huì )內置很多不同款式的傳感器。其實(shí)對于數據分析師來(lái)說(shuō),沒(méi)有必要對傳感器的原理了解太多。更重要的是要了解數據從哪里來(lái),以及傳感器本身采集的數據的一些特性,比如誤差、靈敏度、使用環(huán)境等,這些都會(huì )影響數據采集效果。所以我不會(huì )在這里詳細介紹。
  09 數據交易平臺
  大家常說(shuō)的數據交易平臺,正式名稱(chēng)為大數據交易所,定義如下:
  全國首家大數據交易所——貴陽(yáng)大數據交易所于2015年4月15日正式掛牌,并與深圳市騰訊計算機系統有限公司、廣東省數字廣東研究院完成合作。買(mǎi)家是京東云平臺和中金數據系統有限公司的第一筆數據交易。首批數據交易的完成,標志著(zhù)國內首家大數據交易所正式運營(yíng)。同時(shí),在交流平臺的基礎上,大數據領(lǐng)域的相關(guān)專(zhuān)家、學(xué)者、企業(yè)共同成立了大數據交易商(貴陽(yáng))聯(lián)盟。企業(yè)。
  當然,現在已經(jīng)有很多大數據交易所了。關(guān)于數據交易平臺的更多信息,您可以參考此鏈接:
  國內有哪些好的“數據交易”平臺,比如淘寶之類(lèi)的平臺?- 知乎
  10 個(gè)人資料采集
  最后,讓我們談?wù)剛€(gè)人數據。其實(shí)網(wǎng)上都在講這種數據管理。其實(shí)更多的是用在企業(yè)或者相關(guān)組織中。但是讓我們仔細想想。如果對自己要求嚴格的話(huà),其實(shí)也可以在個(gè)人管理方面采集
數據,然后分析個(gè)人數據,最終引導自己的人生方向。
  例如,對于我們個(gè)人的財務(wù)狀況,我們可以使用Excel進(jìn)行基本的財務(wù)分析,然后根據自己的財務(wù)狀況進(jìn)行財務(wù)規劃。
  再比如,我們可以數自己的時(shí)間。這就是著(zhù)名的時(shí)間統計方法。有興趣的朋友可以了解一下?!镀娈惾松芬粫?shū)講的是柳比雪夫的時(shí)間統計方法。.
  再比如,我們可以統計自己每天做的任務(wù),從而得到每個(gè)時(shí)間點(diǎn)的工作效率,從而總結出自己的生物鐘規律。關(guān)于生物鐘的內容,強烈推薦《神奇的人體生物鐘》和《時(shí)間管理》。對于這類(lèi)書(shū)籍,可以通過(guò)數據統計分析的結果來(lái)判斷內容是否正確。
  ...
  生活的方方面面太多了,我們都可以通過(guò)采集
采集
來(lái)記錄自己。當我們想要在某一方面做出決策時(shí),數據分析就成為了一個(gè)強有力的切入點(diǎn)。比如我們要買(mǎi)房子,我們可以通過(guò)分析房?jì)r(jià)數據來(lái)選擇合適的房子,同樣的例子還包括基金,我們可以分別研究基金和基金經(jīng)理數據的一些特征,從而篩選合適的投資基金...
  例子太多,這里就不贅述了。當我們開(kāi)始以各種方式采集
自己的數據時(shí),其實(shí)就是開(kāi)始了一種新的生活模式,量化生活。相信這樣的生活會(huì )給你帶來(lái)不一樣的精彩,
  好了,書(shū)川這篇文章的內容就分享到這里了!
  核心方法:SEO: 亞馬遜關(guān)鍵詞研究工具!這個(gè)插件你用上了嗎?
  Amazon 搜索引擎是世界上最大的產(chǎn)品查找引擎,為商業(yè)目的提供 關(guān)鍵詞“基本見(jiàn)解”。
  但亞馬遜并未透露廣告數量或按點(diǎn)擊付費的廣告信息。因此,賣(mài)家只能自己發(fā)現消費者搜索 關(guān)鍵詞。下面我們將介紹幾個(gè)關(guān)鍵詞工具來(lái)幫助賣(mài)家優(yōu)化他們在亞馬遜上的排名。
  Amazon autosuggest 會(huì )在搜索者輸入時(shí)顯示單詞和短語(yǔ)。AutoSuggest 類(lèi)似于 Google Suggest。用戶(hù)在搜索框中鍵入的內容越多,給出的建議就越少。因此,所有這些建議都是潛在的關(guān)鍵字。
  亞馬遜沒(méi)有說(shuō)明這些 關(guān)鍵詞 是如何訂購的。我們只能假設更受歡迎的 關(guān)鍵詞 排在第一位。
  亞馬遜會(huì )針對用戶(hù)之前的搜索做出個(gè)性化的建議,所以建議先退出賬戶(hù)再查看亞馬遜給出的“自動(dòng)建議”關(guān)鍵詞。
  Amazon autosuggest 會(huì )在用戶(hù)鍵入時(shí)顯示單詞和短語(yǔ)。用戶(hù)在搜索框中鍵入的信息越多,給出的建議就越少,例如這個(gè)“洗衣機洗滌劑”示例。
  亞馬遜搜索建議擴展
  這個(gè)免費的 Chrome 擴展程序值得賣(mài)家下載。
  只需在搜索欄中輸入關(guān)鍵詞,它會(huì )很快拉出大量亞馬遜推薦搜索關(guān)鍵詞,您可以將其下載為Excel文件。
  “Before”關(guān)鍵詞,即在查詢(xún)前添加詞生成的建議?!案郊印苯ㄗh,在輸入較長(cháng)的句子時(shí)也會(huì )顯示建議 關(guān)鍵詞。
  
  搜索建議擴展
  以下是亞馬遜對“甲板清潔劑”的推薦。
  亞馬遜對“deckcleaner”的自動(dòng)建議
  這就是 Amazon Search Suggestion 擴展:您可以將建議下載到 Excel 文件中。
  來(lái)自搜索建議擴展的“deckcleaner”建議
  這個(gè)工具最好的地方是研究基于類(lèi)別的關(guān)鍵詞來(lái)探索購買(mǎi)過(guò)程。例如,您可以鍵入“washing”并選擇“Baby”類(lèi)別作為關(guān)鍵字建議,例如“washingBabyhairshield”和“awashingmachinetoy”
  Keywordtool.io 將亞馬遜的自動(dòng)提示 關(guān)鍵詞 與 Google Ads 的數據進(jìn)行比較。最初的關(guān)鍵詞“洗滌”顯示在這里
  該工具有助于產(chǎn)生更多的產(chǎn)品創(chuàng )意。在類(lèi)別中輸入 關(guān)鍵詞,該工具將提供實(shí)際的、相關(guān)的亞馬遜搜索詞。您還可以過(guò)濾常用修飾符以對 關(guān)鍵詞 進(jìn)行分組。Keywordtool.io 是每月 69 美元。
  MerchantWords 是唯一專(zhuān)為亞馬遜賣(mài)家提供的 關(guān)鍵詞 工具。因此,該工具可以提供:
  Amazon 的搜索量,MerchantWords 使用自己的算法計算量。下面列出了與這些搜索相匹配的主要產(chǎn)品類(lèi)別。季節性 關(guān)鍵詞(如果存在)。過(guò)去幾個(gè)月的搜索趨勢,關(guān)鍵詞。
  MerchantWords 的起價(jià)為每月 79 美元。
  
  MerchantWords 是唯一專(zhuān)用于亞馬遜賣(mài)家的主要 關(guān)鍵詞 工具,提供 關(guān)鍵詞 搜索量、主要類(lèi)別和趨勢。例如“高爾夫球”關(guān)鍵詞
  與谷歌搜索一樣,亞馬遜搜索提供了很多關(guān)于消費者如何查詢(xún)你的核心主題的線(xiàn)索。作為賣(mài)家,您需要密切關(guān)注亞馬遜上的產(chǎn)品列表、相關(guān)搜索和“部門(mén)”。
  當產(chǎn)品是新產(chǎn)品時(shí),查看產(chǎn)品列表以深入了解 關(guān)鍵詞 和修飾符。例如,搜索“甲板清潔劑”會(huì )出現諸如“防滑”、“多用途”、“戶(hù)外清潔劑”、“去污劑”和“保護劑”等修飾語(yǔ)。
  查看產(chǎn)品列表以深入了解 關(guān)鍵詞 和修飾符。例如,關(guān)鍵字“deckcleaner”會(huì )產(chǎn)生諸如“防滑”和“多用途”之類(lèi)的修飾語(yǔ)
  相關(guān)搜索。在原創(chuàng )
搜索結果下方,亞馬遜會(huì )生成一個(gè)“相關(guān)搜索”列表,這些搜索可能來(lái)自類(lèi)似購買(mǎi)過(guò)程中的實(shí)際搜索。在產(chǎn)品名稱(chēng)和類(lèi)別中收錄
相關(guān)術(shù)語(yǔ)。
  亞馬遜根據類(lèi)似購買(mǎi)旅程的實(shí)際搜索生成“相關(guān)搜索”列表。此示例顯示“deckcleaner”的相關(guān)搜索詞:“deckcleanerforpressurewasher”、“deckbrush”等。
  部門(mén):留意亞馬遜上收錄
使用 關(guān)鍵詞 的產(chǎn)品的“部門(mén)”??紤]以類(lèi)似的方式構建您自己的網(wǎng)站,因為“部門(mén)”可以等同于一個(gè)類(lèi)別。
  亞馬遜內部的“部門(mén)”相當于分類(lèi),為賣(mài)家提供建站思路。例如,與“deckcleaner”相關(guān)的產(chǎn)品部門(mén)。
  亞馬遜不會(huì )細分搜索量或點(diǎn)擊費用。因此,賣(mài)家需要善用亞馬遜的工具和第三方工具,讓消費者能夠輕松找到我們銷(xiāo)售的商品。 查看全部

  匯總:數據收集的方法有哪些,數據收集的10個(gè)方法?
  00 基本概念
  數據集,也稱(chēng)為數據集、數據集合或數據集合,是由數據組成的集合。
  數據集(或數據集)是數據的集合,通常以表格形式存在。每列代表一個(gè)特定的變量。每行對應于成員數據集的一個(gè)問(wèn)題。它列出了每個(gè)變量的值,例如對象的高度和重量或隨機數的值。每個(gè)值稱(chēng)為一個(gè)數據配置文件。該數據集的數據可能包括一個(gè)或多個(gè)與行數相對應的成員。
  數據采集??(Data Acquisition,簡(jiǎn)稱(chēng)DAQ)是指自動(dòng)采集傳感器等被測器件等模擬和數字被測單元的非電信號或電信號,并傳送給上位機進(jìn)行分析處理。數據采集??系統是以計算機或其他專(zhuān)用測試平臺為基礎,結合測量軟硬件產(chǎn)品的靈活的、用戶(hù)自定義的測量系統。
  在計算機廣泛使用的今天,數據采集的重要性非常顯著(zhù)。它是連接計算機與外部物理世界的橋梁。獲取各種類(lèi)型信號的難易程度差異很大。在實(shí)際采集中,噪聲也可能造成一些麻煩。在采集
數據的時(shí)候,有一些基本原則需要注意,需要解決的實(shí)際問(wèn)題也比較多。
  根據網(wǎng)絡(luò )和個(gè)人學(xué)習,提供十種數據采集方式,順序如下:
  01 公共數據集
  開(kāi)放數據,開(kāi)放數據,大數據新詞。
  2020年7月,大數據戰略重點(diǎn)實(shí)驗室全國科學(xué)技術(shù)術(shù)語(yǔ)審定研究基地收錄審定的第一批108個(gè)大數據新詞報送國家審定委科學(xué)技術(shù)術(shù)語(yǔ)報批并向社會(huì )公開(kāi)試行。
  定義:開(kāi)放數據是一種理念和實(shí)踐,它要求任何人都可以自由訪(fǎng)問(wèn)某些數據,而不受版權、專(zhuān)利或其他機制的限制。
  網(wǎng)上有各種開(kāi)發(fā)數據集。我們只需要找到對應的網(wǎng)站獲取下載鏈接,就可以得到不同領(lǐng)域的數據集。一般來(lái)說(shuō),這些數據集是為了幫助學(xué)習者或者數據分析人員,也有一些是為了舉辦各種比賽,為了找到更好的數據分析方案和結果。
  關(guān)于公開(kāi)資料,我在這里整理了一份,
  互聯(lián)網(wǎng)上有哪些公開(kāi)的數據源可以用來(lái)做數據分析?– PurStar – 博客園
  當然還不夠全面,所以我們可以通過(guò)百度、bing搜索等找到各種整理好的博客或者導航,找到我們想要的數據集,方便下一步的數據分析。
  02 數據報采集
  要了解數據報集合,首先要了解什么是數據報?數據報的定義如下:
  從上面的定義不難看出數據報是計算機網(wǎng)絡(luò )中的一個(gè)概念,所以我們可以使用一些抓包工具來(lái)獲取數據報的相關(guān)數據,比如常見(jiàn)的Wireshark,簡(jiǎn)單介紹如下:
  除了Wireshark,類(lèi)似的工具還有fiddler、Charles、Firebug、httpwatch、SmartSniff、……等,對網(wǎng)絡(luò )原理或者網(wǎng)絡(luò )安全感興趣的朋友可以試試這些工具!
  03 網(wǎng)絡(luò )爬蟲(chóng)
  網(wǎng)絡(luò )爬蟲(chóng)的定義如下:
  通過(guò)網(wǎng)絡(luò )爬蟲(chóng),我們可以爬取存在于網(wǎng)絡(luò )中的各種數據,并將爬取到的數據按照一定的格式存儲在指定的數據存儲文件系統或數據庫中,以方便下一步的數據整理或數據采集
. 分析。
  根據系統結構和實(shí)現技術(shù),網(wǎng)絡(luò )爬蟲(chóng)大致可以分為以下幾種類(lèi)型:
  實(shí)際的網(wǎng)絡(luò )爬蟲(chóng)系統通常是由多種爬蟲(chóng)技術(shù)組合實(shí)現的。
  3.1 通用網(wǎng)絡(luò )爬蟲(chóng)
  通用網(wǎng)絡(luò )爬蟲(chóng)也稱(chēng)為可擴展網(wǎng)絡(luò )爬蟲(chóng)。其爬取對象從一些種子URL擴展到整個(gè)Web,主要為門(mén)戶(hù)網(wǎng)站搜索引擎和大型Web服務(wù)商采集
數據。由于商業(yè)原因,他們的技術(shù)細節很少公布。這類(lèi)網(wǎng)絡(luò )爬蟲(chóng)的爬取范圍和數量巨大,對爬取速度和存儲空間要求高,對爬取頁(yè)面的順序要求相對較低。同時(shí),由于需要刷新的頁(yè)面太多,通常采用并行工作的方式,但耗時(shí)較長(cháng)。刷新頁(yè)面需要時(shí)間。雖然存在一定的缺陷,但一般的網(wǎng)絡(luò )爬蟲(chóng)適用于搜索引擎搜索范圍廣泛的主題,具有很強的應用價(jià)值。
  3.2 關(guān)注網(wǎng)絡(luò )爬蟲(chóng)
  Focused Crawler,也稱(chēng)為T(mén)opical Crawler,是指一種網(wǎng)絡(luò )爬蟲(chóng),它有選擇地爬取與預先定義的主題相關(guān)的頁(yè)面。與通用網(wǎng)絡(luò )爬蟲(chóng)相比,專(zhuān)注爬蟲(chóng)只需要爬取與主題相關(guān)的頁(yè)面,大大節省了硬件和網(wǎng)絡(luò )資源。存頁(yè)數也因為數量少更新快,也能滿(mǎn)足特定領(lǐng)域的一些特定人群。信息需求。
  3.3 增量網(wǎng)絡(luò )爬蟲(chóng)
  增量式網(wǎng)絡(luò )爬蟲(chóng)(Incremental Web Crawler)是指增量更新下載的網(wǎng)頁(yè),只爬取新生成或變化的網(wǎng)頁(yè)的爬蟲(chóng)??梢栽谝欢ǔ潭壬媳WC爬取的頁(yè)面盡可能的新。頁(yè)。與周期性爬取和刷新頁(yè)面的網(wǎng)絡(luò )爬蟲(chóng)相比,增量爬蟲(chóng)只在需要時(shí)爬取新生成或更新的頁(yè)面,不會(huì )重新下載沒(méi)有變化的頁(yè)面,可以有效減少數據下載量并及時(shí)更新爬取的網(wǎng)頁(yè)pages 減少了時(shí)間和空間的消耗,但是增加了爬取算法的復雜度和實(shí)現難度。增量網(wǎng)絡(luò )爬蟲(chóng)架構[包括爬取模塊、排序模塊、更新模塊、本地頁(yè)面集、待爬URL集、本地頁(yè)面URL集。
  3.4 深網(wǎng)爬蟲(chóng)
  網(wǎng)頁(yè)按其存在方式可分為表層網(wǎng)頁(yè)(Surface Web)和深層網(wǎng)頁(yè)(Deep Web,又稱(chēng)Invisible Web Pages或Hidden Web)。表面網(wǎng)頁(yè)是指可以被傳統搜索引擎收錄的頁(yè)面,主要由可以通過(guò)超鏈接到達的靜態(tài)網(wǎng)頁(yè)組成。深網(wǎng)是那些大部分內容無(wú)法通過(guò)靜態(tài)鏈接獲得的網(wǎng)頁(yè),隱藏在搜索表單后面,并且只有在用戶(hù)提交一些 關(guān)鍵詞 時(shí)才可用。例如,那些內容只有在用戶(hù)注冊后才能看到的網(wǎng)頁(yè)就屬于深網(wǎng)。2000年,光明星球指出,Deep Web的可訪(fǎng)問(wèn)信息容量是Surface Web的數百倍,是互聯(lián)網(wǎng)上規模最大、發(fā)展最快的新信息資源。
  3.5 學(xué)習資料推薦
  其實(shí)我們只要打開(kāi)一些網(wǎng)購平臺,搜索爬蟲(chóng),就會(huì )發(fā)現彈出來(lái)很多關(guān)于爬蟲(chóng)的書(shū)籍,基本上都是python的,毫不夸張的說(shuō),很多書(shū)籍的內容都會(huì )涉及到一個(gè)Python網(wǎng)絡(luò )爬蟲(chóng)——Scrapy。
  相應的書(shū)籍我這里就不介紹了。網(wǎng)購平臺的銷(xiāo)量和知名度已經(jīng)告訴你,你應該學(xué)習那些資料。另外,這里為一些沒(méi)有編程基礎的朋友提供一些傻瓜式的爬蟲(chóng)。它們的功能非常強大。對于沒(méi)有編程基礎又想體驗和使用爬蟲(chóng)的朋友來(lái)說(shuō)非常方便。參考鏈接如下:
  不會(huì )編程也能用的幾款數據爬取工具!– PurStar – 博客園
  04 日志采集
  日志采集
也是一個(gè)比較常見(jiàn)的場(chǎng)景。采集
的數據可用于監控硬件設備或軟件系統的運行狀態(tài)。當出現問(wèn)題時(shí),這些數據可以為運維工程師提供一些告警和關(guān)鍵信息,有助于故障排除。
  對于一些大中型企業(yè),機房管理的設備較多,可以采用相關(guān)的日志采集方案,方便后續的數據分析和問(wèn)題解決。關(guān)于日志采集
的概念我就不多介紹了。幾種常見(jiàn)的日志采集
工具包括 Logstash、Filebeat、Flume、Fluentd、Logagent、rsyslog 和 syslog-ng。
  這里僅提供三個(gè)模型進(jìn)行比較:
  4.1 水槽
  Flume 是一種分布式、高可靠、高可用的服務(wù),用于高效采集
、聚合和移動(dòng)大量日志數據。它具有基于流數據流的簡(jiǎn)單靈活的架構。具有可調的可靠性機制、故障轉移和恢復機制,容錯能力強。它使用允許在線(xiàn)分析應用程序的簡(jiǎn)單可擴展數據模型。
  Flume旨在將基于事件的海量數據批量導入Hadoop集群。系統中的核心角色是agent,Flume采集系統由各個(gè)agent連接而成。每個(gè)代理相當于一個(gè)數據傳輸器,內部收錄
三個(gè)組件:
  source:采集源,用于連接數據源獲取數據
  sink:傳輸數據的目的地,用于將數據傳輸到下一級代理或最終存儲系統
  channel:agent內部的數據傳輸通道,用于將數據從source傳輸到sink
  4.2 日志存儲
  Logstash 是一個(gè)開(kāi)源的服務(wù)器端數據處理管道,能夠同時(shí)從多個(gè)源獲取數據、轉換數據并將數據發(fā)送到存儲庫。當數據從源傳輸到存儲庫時(shí),Logstash 過(guò)濾器會(huì )解析單個(gè)事件,識別命名字段以構建結構,并將它們轉換為通用格式,以便更輕松、更快速地進(jìn)行分析并實(shí)現業(yè)務(wù)價(jià)值。
  Logstash是基于管道的方式進(jìn)行數據處理的,管道可以理解為對數據處理過(guò)程的抽象。在管道中,數據通過(guò)上游數據源匯聚到消息隊列中,然后經(jīng)過(guò)多個(gè)工作線(xiàn)程轉換處理,最后輸出到下游組件。一個(gè) logstash 可以收錄
多個(gè)管道。
  Logstash 管道有兩個(gè)必需的元素,輸入和輸出,以及一個(gè)可選的元素過(guò)濾器:
  Input:數據輸入組件,用于連接各種數據源,訪(fǎng)問(wèn)數據,支持解碼器,允許對數據進(jìn)行編解碼操作;所需組件;
  output:數據輸出組件,用于連接下游組件,發(fā)送處理后的數據,支持解碼器,允許對數據進(jìn)行編解碼操作;必需的組件;
  filter:數據過(guò)濾組件,負責處理輸入數據;可選組件;Logstash安裝部署
  管道:數據處理流程的邏輯抽象,類(lèi)似于管道,數據從一端流入,處理后從另一端流出;一個(gè)管道包括輸入、過(guò)濾和輸出三部分,其中輸入和輸出部分是必選組件,過(guò)濾是可選組件;
  instance:一個(gè)Logstash實(shí)例,可以收錄
多個(gè)數據處理進(jìn)程,即多個(gè)pipeline;
  事件:管道中的數據是基于事件的,一個(gè)事件可以看作是數據流中的一條數據或者一條消息;
  4.3 文件拍
  Filebeat 是一個(gè)日志文件傳輸工具。在服務(wù)端安裝客戶(hù)端后,Filebeat會(huì )監控日志目錄或指定的日志文件,跟蹤并讀取這些文件(track file changes,連續讀?。?,并將信息轉發(fā)到ElasticSearch或Logstarsh中存儲。
  
  當您啟動(dòng) Filebeat 程序時(shí),它會(huì )啟動(dòng)一個(gè)或多個(gè)探測器(prospectors)來(lái)檢測您指定的日志目錄或文件。對于探針找到的每一個(gè)日志文件,Filebeat 都會(huì )啟動(dòng)收割進(jìn)程(harvester),每一個(gè)收割進(jìn)程都會(huì )讀取一個(gè)日志文件的新內容,并將這些新的日志數據發(fā)送給處理程序(spooler),處理程序會(huì )聚合這些事件,最后 filebeat 會(huì )將匯總的數據發(fā)送到您指定的位置。
  Filebeat 簡(jiǎn)介
  Filebeat 由兩個(gè)主要組件組成:prospectors 和 harvesters。這些組件協(xié)同工作以讀取文件并將事件數據發(fā)送到指定的輸出。
  Harvesters:負責讀取單個(gè)文件的內容。收割機逐行讀取每個(gè)文件并將內容發(fā)送到輸出。每個(gè)文件都會(huì )啟動(dòng)一個(gè)收割機。收割機負責打開(kāi)和關(guān)閉文件,這意味著(zhù)文件在收割機運行時(shí)保持打開(kāi)狀態(tài)。如果在采集過(guò)程中,即使文件被刪除或重命名,Filebeat 也會(huì )繼續讀取文件。此時(shí)會(huì )一直占用該文件對應的磁盤(pán)空間,直到Harvester關(guān)閉。默認情況下,Filebeat 將保持文件打開(kāi),直到超過(guò)配置的 close_inactive 參數,然后 Filebeat 將關(guān)閉 Harvester。
  Prospector:負責管理Harvsters,找到所有需要讀取的數據源。如果輸入類(lèi)型配置為日志類(lèi)型,Prospector會(huì )在配置路徑中搜索所有匹配的文件,然后為每個(gè)文件創(chuàng )建一個(gè)Harvster。每個(gè) Prospector 都在自己的 Go 例程中運行。
  Filebeat 目前支持兩種 Prospector 類(lèi)型:日志和標準輸入??梢栽谂渲梦募卸x多個(gè) Prospector 類(lèi)型。日志Prospector會(huì )檢查每個(gè)文件是否需要啟動(dòng)Harvster,啟動(dòng)的Harvster是否還在運行,或者文件是否被忽略(配置ignore_order可以忽略文件)。如果是Filebeat運行過(guò)程中新創(chuàng )建的文件,只有關(guān)閉Harvster后文件大小發(fā)生變化,Prospector才會(huì )選擇新文件。
  4.4 比較:
  水槽
  日志存儲
  文件拍
  記憶
  大的
  大的
  小的
  中央處理器
  大的
  小的
  背壓敏感協(xié)議
  不
  不
  是的
  插入
  需要一些API
  許多
  許多
  功能
  從各種輸入和輸出到各種輸出獲取數據
  從各種輸入中獲取數據,實(shí)時(shí)解析數據并將其轉換為各種輸出
  傳播
  嚴重程度
  比較重
  比較重
  輕量級二進(jìn)制文件
  過(guò)濾能力
  自帶分區和攔截器功能
  強大的過(guò)濾能力
  有過(guò)濾能力但弱
  過(guò)程
  一臺服務(wù)器可以有多個(gè)進(jìn)程,掛掉后需要手動(dòng)拉起
  一臺服務(wù)器只允許一個(gè)logstash進(jìn)程,掛掉后需要手動(dòng)拉起
  非常穩定
  原則
  當源接收到事件時(shí),它會(huì )將其存儲在一個(gè)或多個(gè)通道中。通道是一個(gè)被動(dòng)存儲,它保存事件直到它們被 Flume 消費。sink 從通道中移除事件并將其放入外部存儲庫(例如 HDFS)或將其轉發(fā)到流中下一個(gè) Flume 代理的源。代理中的源和接收器與通道中分段的事件異步運行。
  Logstash使用管道采集
和輸出日志,分為輸入input -&gt; processing filter(非必須) -&gt; output輸出,每個(gè)階段都有不同的備選方案
  啟動(dòng)進(jìn)程后,會(huì )啟動(dòng)一個(gè)或多個(gè)探測器(prospectors)來(lái)探測指定的日志目錄或文件。對于探針找到的每一個(gè)日志文件,filebeat都會(huì )啟動(dòng)采集進(jìn)程(harvester),每一個(gè)采集進(jìn)程都會(huì )讀取一個(gè)日志文件的新內容,并將這些新的日志數據發(fā)送給處理程序(spooler),處理程序會(huì )采集
這些事件,最后filebeat會(huì )將采集
到的數據發(fā)送到你指定的位置。
  書(shū)寫(xiě)語(yǔ)言
  爪哇
  朱比
  去語(yǔ)言
  簇
  分散式
  單節點(diǎn)
  單節點(diǎn)
  輸出到多個(gè)接收器
  支持
  支持
  6.0之前支持
  
  二次開(kāi)發(fā)或擴展開(kāi)發(fā)
  一般來(lái)說(shuō)
  災難
  簡(jiǎn)單的
  4.5 總結
  Flume更注重數據的傳輸,對數據的預處理不如Logstash。Flume在傳輸方面比Logstash更可靠,因為數據會(huì )持久化在通道中。只有當數據存儲在接收器中時(shí),數據才會(huì )從通道中刪除。這個(gè)過(guò)程由事物來(lái)控制,以保證數據的可靠性。Logstash 是 ELK 組件之一。一般與其他ELK組件一起使用,更側重于數據預處理。Logstash的插件比Flume多,所以在擴展功能上比Flume更全面。但是Logstash內部沒(méi)有持久化隊列,所以在異常情況下可能會(huì )出現數據丟失的情況。Filebeat 是一個(gè)輕量級的日志采集
工具。因為 Filebeat 是 Elastic Stack 的一部分,它可以與 ELK 組件無(wú)縫協(xié)作。Filebeat 比 Logstash 占用內存少很多。性能比較穩定,很少停機。
  參考鏈接:
  流式數據采集與計算(三):Flume、Logstash、Filebeat研究報告_葉葉來(lái)-CSDN博客_filebeat與flume
  05 社會(huì )調查
  我們先來(lái)看看什么是社會(huì )調查?社會(huì )調查是社會(huì )“調查”、“研究”的簡(jiǎn)稱(chēng)。社會(huì )調查是指人們?yōu)榱诉_到一定的目的,通過(guò)對社會(huì )現象的調查、了解、分析和研究,有意識地了解社會(huì )的真實(shí)情況的一種有意識的認識活動(dòng)。它收錄
以下四層含義:(1)社會(huì )調查是一種自覺(jué)的意識活動(dòng)。(2)社會(huì )調查的對象是社會(huì )現象。(三)社會(huì )調查必須采用一定的方法。(4)社會(huì )調查具有一定的目的性。社會(huì )調查的上述定義適用于所有社會(huì )調查,包括科學(xué)社會(huì )調查。
  可能這個(gè)定義不太好理解,但是比如說(shuō)我們做的問(wèn)卷其實(shí)就是一種社會(huì )調查的方法。由于我們討論的是數據采集
,因此我們將只關(guān)注數據社會(huì )調查的常用方法。一般有九種。詳細內容如下:
  參考鏈接如下:
  調查研究中常用的九種方法
  5.1. 野外觀(guān)察法
  偵查人員通過(guò)實(shí)地觀(guān)察,獲得直接、生動(dòng)的感性認識和真實(shí)可靠的第一手資料。但由于該方法觀(guān)察的往往是事物的表面現象或外在聯(lián)系,具有一定的偶然性,受調查者主觀(guān)因素的影響較大,故不能大樣本觀(guān)察,必須采用結合其他調查方法。通常適用于無(wú)法、不希望或不希望進(jìn)行口頭交流的情況調查。
  5.2. 訪(fǎng)談?wù){查法
  這種方法是比野外觀(guān)察法更深入的調查方法。它可以獲得越來(lái)越多有價(jià)值的信息。地點(diǎn)不易接近等。包括個(gè)人面試法、小組面試法、電話(huà)面試法等。但由于訪(fǎng)談標準不同,難以對結果進(jìn)行量化研究,且訪(fǎng)談過(guò)程耗時(shí)、成本高、隱蔽性差、受周?chē)h(huán)境影響大,難以進(jìn)行大數據分析。規模采訪(fǎng)。
  5.3. 會(huì )議調查法
  這種方法是訪(fǎng)談?wù){查法的擴展和延伸,由于其簡(jiǎn)單易用,在調查研究工作中更為常用。通過(guò)邀請幾位調查受訪(fǎng)者參加研討會(huì )來(lái)采集
數據、分析和研究社會(huì )問(wèn)題。最突出的優(yōu)點(diǎn)是工作效率高,可以快速了解更詳細可靠的社會(huì )信息,節省人力和時(shí)間。但由于這種方法不能完全排除被調查者社會(huì )心理因素的影響,調查結論往往難以充分反映真實(shí)的客觀(guān)情況。且受時(shí)間條件限制,難以進(jìn)行深入細致的交談,
  5.4. 問(wèn)卷調查法
  即間接筆試。這種方法的最大優(yōu)點(diǎn)是可以突破時(shí)間和空間的限制,在大范圍內同時(shí)對大量調查對象進(jìn)行調查。、受訪(fǎng)者應具備一定的寫(xiě)作理解能力和表達能力。如某地區農村黨員教育培訓情況調查、中小學(xué)教師科研狀況調查等。由于問(wèn)卷調查法只能獲取書(shū)面社會(huì )信息,無(wú)法形象地了解和特定的社會(huì )條件,這種方法不能代替實(shí)地調查,特別是對于那些新事物、新情況、新問(wèn)題。方法一起。
  5.5. 專(zhuān)家調查法
  這是一種預測方法,即以專(zhuān)家為索取信息的對象,依靠他們的知識和經(jīng)驗,通過(guò)調查研究對問(wèn)題作出判斷和評價(jià)。最大的優(yōu)點(diǎn)是簡(jiǎn)單直觀(guān),特別適用于缺乏信息資料和歷史數據,受社會(huì )、政治和人為因素影響較大的信息分析和預測題材。廣泛用于對某個(gè)方案進(jìn)行評價(jià),或評價(jià)多個(gè)備選方案的相對排名,選出最佳方案;估計實(shí)現某一目標的條件、途徑、手段及其相對重要性等。
  5.6. 抽樣調查法
  是指以一定的方式從被調查人群中抽取部分樣本進(jìn)行調查,并用所獲得的結果來(lái)說(shuō)明總體情況。其最大的優(yōu)點(diǎn)是節省了人力、物力和財力,可以在較短的時(shí)間內獲得相對準確的調查結果,時(shí)效性強。組織全面調查范圍廣、時(shí)間長(cháng)、難度大,多采用抽樣調查的方法進(jìn)行檢查核實(shí)。如在全省開(kāi)展黨風(fēng)廉政建設社會(huì )調查、流動(dòng)黨員現狀社會(huì )調查等。局限性在于當樣本數量不足時(shí),會(huì )影響調查結果的準確性。
  5.7. 典型調查方法
  是指在一定范圍內選取具有代表性的特定對象進(jìn)行調查研究,以了解同類(lèi)事物的發(fā)展變化規律和本質(zhì)的一種方法。當調查樣本過(guò)大時(shí)可以采用這種方法。但在對象的選擇上一定要注意,一定要準確地選擇比較熟悉全局的有代表性的對象。例如,地級市對區縣市農村黨員情況進(jìn)行調查,應選擇經(jīng)濟發(fā)展較快、農村黨員致富能力強的縣市作為典型調查對象。 .
  5.8. 統計調查法
  通過(guò)分析固定統計報表的形式來(lái)反映下列情況的一種調查方法。由于統計報表的內容比較固定,適合分析某事物的發(fā)展軌跡和未來(lái)趨勢。例如,通過(guò)黨員統計年報,可以分析某地全年黨員發(fā)展、轉移、流動(dòng)情況,與上年同期相比增減情況。年,并預測下一個(gè)趨勢。使用統計調查方法時(shí),要特別注意統一統計口徑,以統計部門(mén)的數字為準,報表分析要結合實(shí)際調查,報表不能簡(jiǎn)單分析。例如,某項數據大幅增加或減少的原因很難在報表中反映出來(lái),只有通過(guò)實(shí)際調查才能形成一個(gè)完整的概念。
  5.9. 文獻調查法
  通過(guò)采集
和提取文件來(lái)獲取有關(guān)調查對象信息的方法。適用于研究調查對象在一段時(shí)間內的發(fā)展變化。研究的角度往往是探索一種趨勢或闡明一種演變過(guò)程。這種方法可以突破時(shí)間和空間的限制,進(jìn)行大范圍的調查,而且調查數據易于采集
和分析。同時(shí),它還具有數據可靠、人力物力少、效果大等優(yōu)點(diǎn)。但它往往是一種先進(jìn)的偵查手段,一般只能作為偵查的先導,不能作為偵查結論的現實(shí)依據。
  06 業(yè)務(wù)數據集
  相信在很多公司都會(huì )有相應的日常運營(yíng)和業(yè)務(wù)部門(mén),各種相關(guān)的數據都會(huì )記錄在某些文件或系統中,比如常見(jiàn)的Excel文件,各種辦公系統的數據庫系統等,一般公司DBA人員可能會(huì )向數據分析師開(kāi)放一定的查詢(xún)權限,供數據分析師提取對應的業(yè)務(wù)數據集,提取時(shí)也可能涉及一些數據脫敏問(wèn)題。
  什么是數據脫敏?
  說(shuō)白了,數據脫敏的意義在于保護客戶(hù)的重要隱私信息,但在保護的同時(shí),不能讓數據分析變得毫無(wú)意義。
  相對于這個(gè)領(lǐng)域來(lái)說(shuō),學(xué)好數據庫的相關(guān)語(yǔ)言SQL就很重要了。只有足夠好地掌握SQL,才能在提取和分析數據時(shí)快速、準確地完成相應的任務(wù)!
  07 埋點(diǎn)采集
  埋點(diǎn)分析是應用系統分析常用的數據采集方法。數據嵌入點(diǎn)分為初級、中級和高級三種方式。數據埋點(diǎn)是為私有化部署采集
數據的好方法。
  數據嵌入點(diǎn)分為初級、中級、高級三種方式,即: 初級:在產(chǎn)品和服務(wù)轉化的關(guān)鍵點(diǎn)植入統計代碼,根據其獨立的ID(如點(diǎn)擊)保證數據采集不重復購買(mǎi)按鈕的費率);中間:插入多段代碼跟蹤用戶(hù)在平臺各個(gè)界面的一系列行為,事件相互獨立(如打開(kāi)商品詳情頁(yè)-選擇商品型號-加入購物車(chē)-下單訂單 - 完成購買(mǎi));進(jìn)階:配合公司工程及ETL,對用戶(hù)行為進(jìn)行全量采集分析,建立用戶(hù)畫(huà)像,還原用戶(hù)行為模型,作為產(chǎn)品分析和優(yōu)化的依據。毫無(wú)疑問(wèn),數據埋點(diǎn)是為私有化部署采集
數據的好方法。精準的數據采集滿(mǎn)足企業(yè)去其糟粕和取其精華的需求,實(shí)現產(chǎn)品和服務(wù)的快速優(yōu)化和迭代。埋藏數據采集
的方法廣泛存在于網(wǎng)站和移動(dòng)應用程序中。網(wǎng)站埋點(diǎn)一般存在于網(wǎng)站的按鈕或訪(fǎng)問(wèn)記錄中。系統前端會(huì )有相應的代碼記錄用戶(hù)的操作行為,并將這些數據傳遞給后臺,最終可能以日志或者數據庫表數據的形式記錄下來(lái)。事實(shí)上,它可以理解最終會(huì )成為業(yè)務(wù)數據集的一部分,以便數據分析師可以利用這些用戶(hù)數據建立用戶(hù)畫(huà)像,做分層模型進(jìn)行精準營(yíng)銷(xiāo)等等!大同小異,網(wǎng)站的框架技術(shù)不同但原理相似,擴展到App應用也是一樣的。開(kāi)發(fā)工程師需要將記錄用戶(hù)操作的代碼植入到手機或平板應用的程序中,以滿(mǎn)足相應的數據采集需求,最后返回后臺后,與網(wǎng)站埋點(diǎn)基本相同。擴展到App應用也是一樣。開(kāi)發(fā)工程師需要將記錄用戶(hù)操作的代碼植入到手機或平板應用的程序中,以滿(mǎn)足相應的數據采集需求,最后返回后臺后,與網(wǎng)站埋點(diǎn)基本相同。擴展到App應用也是一樣。開(kāi)發(fā)工程師需要將記錄用戶(hù)操作的代碼植入到手機或平板應用的程序中,以滿(mǎn)足相應的數據采集需求,最后返回后臺后,與網(wǎng)站埋點(diǎn)基本相同。
  08 傳感器采集
  傳感器(英文名稱(chēng):transducer/sensor)是一種檢測裝置,它能感知被測量的信息,并將感知到的信息按照一定的規則轉換成電信號或其他所需形式的信息輸出,以滿(mǎn)足信息要求。傳輸、處理、存儲、顯示、記錄和控制要求。
  傳感器的特點(diǎn)包括:小型化、數字化、智能化、多功能化、系統化、網(wǎng)絡(luò )化。它是實(shí)現自動(dòng)檢測和自動(dòng)控制的第一個(gè)環(huán)節。傳感器的存在和發(fā)展,讓物體有了觸覺(jué)、味覺(jué)、嗅覺(jué)等感官,讓物體慢慢活了過(guò)來(lái)。通常按其基本感知功能可分為熱傳感器、光傳感器、氣體傳感器、力傳感器、磁傳感器、濕度傳感器、聲音傳感器、輻射傳感器、顏色傳感器和味覺(jué)傳感器等十大類(lèi)。.
  通過(guò)配備各種傳感器的軟硬件結合,我們可以很容易地獲取現實(shí)物理世界中的各種相關(guān)數據。例如,我們使用攝像頭、錄音設備、體溫檢測、氣候檢測等設備。一般這類(lèi)設備都會(huì )內置很多不同款式的傳感器。其實(shí)對于數據分析師來(lái)說(shuō),沒(méi)有必要對傳感器的原理了解太多。更重要的是要了解數據從哪里來(lái),以及傳感器本身采集的數據的一些特性,比如誤差、靈敏度、使用環(huán)境等,這些都會(huì )影響數據采集效果。所以我不會(huì )在這里詳細介紹。
  09 數據交易平臺
  大家常說(shuō)的數據交易平臺,正式名稱(chēng)為大數據交易所,定義如下:
  全國首家大數據交易所——貴陽(yáng)大數據交易所于2015年4月15日正式掛牌,并與深圳市騰訊計算機系統有限公司、廣東省數字廣東研究院完成合作。買(mǎi)家是京東云平臺和中金數據系統有限公司的第一筆數據交易。首批數據交易的完成,標志著(zhù)國內首家大數據交易所正式運營(yíng)。同時(shí),在交流平臺的基礎上,大數據領(lǐng)域的相關(guān)專(zhuān)家、學(xué)者、企業(yè)共同成立了大數據交易商(貴陽(yáng))聯(lián)盟。企業(yè)。
  當然,現在已經(jīng)有很多大數據交易所了。關(guān)于數據交易平臺的更多信息,您可以參考此鏈接:
  國內有哪些好的“數據交易”平臺,比如淘寶之類(lèi)的平臺?- 知乎
  10 個(gè)人資料采集
  最后,讓我們談?wù)剛€(gè)人數據。其實(shí)網(wǎng)上都在講這種數據管理。其實(shí)更多的是用在企業(yè)或者相關(guān)組織中。但是讓我們仔細想想。如果對自己要求嚴格的話(huà),其實(shí)也可以在個(gè)人管理方面采集
數據,然后分析個(gè)人數據,最終引導自己的人生方向。
  例如,對于我們個(gè)人的財務(wù)狀況,我們可以使用Excel進(jìn)行基本的財務(wù)分析,然后根據自己的財務(wù)狀況進(jìn)行財務(wù)規劃。
  再比如,我們可以數自己的時(shí)間。這就是著(zhù)名的時(shí)間統計方法。有興趣的朋友可以了解一下?!镀娈惾松芬粫?shū)講的是柳比雪夫的時(shí)間統計方法。.
  再比如,我們可以統計自己每天做的任務(wù),從而得到每個(gè)時(shí)間點(diǎn)的工作效率,從而總結出自己的生物鐘規律。關(guān)于生物鐘的內容,強烈推薦《神奇的人體生物鐘》和《時(shí)間管理》。對于這類(lèi)書(shū)籍,可以通過(guò)數據統計分析的結果來(lái)判斷內容是否正確。
  ...
  生活的方方面面太多了,我們都可以通過(guò)采集
采集
來(lái)記錄自己。當我們想要在某一方面做出決策時(shí),數據分析就成為了一個(gè)強有力的切入點(diǎn)。比如我們要買(mǎi)房子,我們可以通過(guò)分析房?jì)r(jià)數據來(lái)選擇合適的房子,同樣的例子還包括基金,我們可以分別研究基金和基金經(jīng)理數據的一些特征,從而篩選合適的投資基金...
  例子太多,這里就不贅述了。當我們開(kāi)始以各種方式采集
自己的數據時(shí),其實(shí)就是開(kāi)始了一種新的生活模式,量化生活。相信這樣的生活會(huì )給你帶來(lái)不一樣的精彩,
  好了,書(shū)川這篇文章的內容就分享到這里了!
  核心方法:SEO: 亞馬遜關(guān)鍵詞研究工具!這個(gè)插件你用上了嗎?
  Amazon 搜索引擎是世界上最大的產(chǎn)品查找引擎,為商業(yè)目的提供 關(guān)鍵詞“基本見(jiàn)解”。
  但亞馬遜并未透露廣告數量或按點(diǎn)擊付費的廣告信息。因此,賣(mài)家只能自己發(fā)現消費者搜索 關(guān)鍵詞。下面我們將介紹幾個(gè)關(guān)鍵詞工具來(lái)幫助賣(mài)家優(yōu)化他們在亞馬遜上的排名。
  Amazon autosuggest 會(huì )在搜索者輸入時(shí)顯示單詞和短語(yǔ)。AutoSuggest 類(lèi)似于 Google Suggest。用戶(hù)在搜索框中鍵入的內容越多,給出的建議就越少。因此,所有這些建議都是潛在的關(guān)鍵字。
  亞馬遜沒(méi)有說(shuō)明這些 關(guān)鍵詞 是如何訂購的。我們只能假設更受歡迎的 關(guān)鍵詞 排在第一位。
  亞馬遜會(huì )針對用戶(hù)之前的搜索做出個(gè)性化的建議,所以建議先退出賬戶(hù)再查看亞馬遜給出的“自動(dòng)建議”關(guān)鍵詞。
  Amazon autosuggest 會(huì )在用戶(hù)鍵入時(shí)顯示單詞和短語(yǔ)。用戶(hù)在搜索框中鍵入的信息越多,給出的建議就越少,例如這個(gè)“洗衣機洗滌劑”示例。
  亞馬遜搜索建議擴展
  這個(gè)免費的 Chrome 擴展程序值得賣(mài)家下載。
  只需在搜索欄中輸入關(guān)鍵詞,它會(huì )很快拉出大量亞馬遜推薦搜索關(guān)鍵詞,您可以將其下載為Excel文件。
  “Before”關(guān)鍵詞,即在查詢(xún)前添加詞生成的建議?!案郊印苯ㄗh,在輸入較長(cháng)的句子時(shí)也會(huì )顯示建議 關(guān)鍵詞。
  
  搜索建議擴展
  以下是亞馬遜對“甲板清潔劑”的推薦。
  亞馬遜對“deckcleaner”的自動(dòng)建議
  這就是 Amazon Search Suggestion 擴展:您可以將建議下載到 Excel 文件中。
  來(lái)自搜索建議擴展的“deckcleaner”建議
  這個(gè)工具最好的地方是研究基于類(lèi)別的關(guān)鍵詞來(lái)探索購買(mǎi)過(guò)程。例如,您可以鍵入“washing”并選擇“Baby”類(lèi)別作為關(guān)鍵字建議,例如“washingBabyhairshield”和“awashingmachinetoy”
  Keywordtool.io 將亞馬遜的自動(dòng)提示 關(guān)鍵詞 與 Google Ads 的數據進(jìn)行比較。最初的關(guān)鍵詞“洗滌”顯示在這里
  該工具有助于產(chǎn)生更多的產(chǎn)品創(chuàng )意。在類(lèi)別中輸入 關(guān)鍵詞,該工具將提供實(shí)際的、相關(guān)的亞馬遜搜索詞。您還可以過(guò)濾常用修飾符以對 關(guān)鍵詞 進(jìn)行分組。Keywordtool.io 是每月 69 美元。
  MerchantWords 是唯一專(zhuān)為亞馬遜賣(mài)家提供的 關(guān)鍵詞 工具。因此,該工具可以提供:
  Amazon 的搜索量,MerchantWords 使用自己的算法計算量。下面列出了與這些搜索相匹配的主要產(chǎn)品類(lèi)別。季節性 關(guān)鍵詞(如果存在)。過(guò)去幾個(gè)月的搜索趨勢,關(guān)鍵詞。
  MerchantWords 的起價(jià)為每月 79 美元。
  
  MerchantWords 是唯一專(zhuān)用于亞馬遜賣(mài)家的主要 關(guān)鍵詞 工具,提供 關(guān)鍵詞 搜索量、主要類(lèi)別和趨勢。例如“高爾夫球”關(guān)鍵詞
  與谷歌搜索一樣,亞馬遜搜索提供了很多關(guān)于消費者如何查詢(xún)你的核心主題的線(xiàn)索。作為賣(mài)家,您需要密切關(guān)注亞馬遜上的產(chǎn)品列表、相關(guān)搜索和“部門(mén)”。
  當產(chǎn)品是新產(chǎn)品時(shí),查看產(chǎn)品列表以深入了解 關(guān)鍵詞 和修飾符。例如,搜索“甲板清潔劑”會(huì )出現諸如“防滑”、“多用途”、“戶(hù)外清潔劑”、“去污劑”和“保護劑”等修飾語(yǔ)。
  查看產(chǎn)品列表以深入了解 關(guān)鍵詞 和修飾符。例如,關(guān)鍵字“deckcleaner”會(huì )產(chǎn)生諸如“防滑”和“多用途”之類(lèi)的修飾語(yǔ)
  相關(guān)搜索。在原創(chuàng )
搜索結果下方,亞馬遜會(huì )生成一個(gè)“相關(guān)搜索”列表,這些搜索可能來(lái)自類(lèi)似購買(mǎi)過(guò)程中的實(shí)際搜索。在產(chǎn)品名稱(chēng)和類(lèi)別中收錄
相關(guān)術(shù)語(yǔ)。
  亞馬遜根據類(lèi)似購買(mǎi)旅程的實(shí)際搜索生成“相關(guān)搜索”列表。此示例顯示“deckcleaner”的相關(guān)搜索詞:“deckcleanerforpressurewasher”、“deckbrush”等。
  部門(mén):留意亞馬遜上收錄
使用 關(guān)鍵詞 的產(chǎn)品的“部門(mén)”??紤]以類(lèi)似的方式構建您自己的網(wǎng)站,因為“部門(mén)”可以等同于一個(gè)類(lèi)別。
  亞馬遜內部的“部門(mén)”相當于分類(lèi),為賣(mài)家提供建站思路。例如,與“deckcleaner”相關(guān)的產(chǎn)品部門(mén)。
  亞馬遜不會(huì )細分搜索量或點(diǎn)擊費用。因此,賣(mài)家需要善用亞馬遜的工具和第三方工具,讓消費者能夠輕松找到我們銷(xiāo)售的商品。

干貨內容:分享一個(gè)牛逼的Python項目:公眾號文章爬蟲(chóng)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 242 次瀏覽 ? 2022-12-14 04:41 ? 來(lái)自相關(guān)話(huà)題

  干貨內容:分享一個(gè)牛逼的Python項目:公眾號文章爬蟲(chóng)
  我有
  訂閱了近100個(gè)公眾號,有時(shí)候想找之前看過(guò)的文章,卻覺(jué)得特別難找,如果忘了采集,估計要找半個(gè)小時(shí),更無(wú)語(yǔ)的是文章被發(fā)布者刪掉了,或者文章違規刪掉了。那么有沒(méi)有這樣的爬蟲(chóng),可以將公眾號的所有文章抓取到本地,并提供方便的搜索功能,這樣在我想找到某類(lèi)文章的時(shí)候會(huì )非常方便,同時(shí)文章都是本地的,不用擔心被刪。
  最近,我偶然看到一個(gè)很棒的Python爬蟲(chóng)項目,就是微信公眾號的爬文章,看了功能介紹,我真的很想看晚了,作者的水平真的很厲害,我奉獻了我的崇拜,特意分享一下,大家可以使用它的功能,也可以研究它的技術(shù), 請不用謝。訪(fǎng)問(wèn)項目地址并相信您能夠獨立部署。
  項目地址:
  特征顯示
  用戶(hù)界面主界面
  爬蟲(chóng)的主界面.gif添加公眾號
  抓取任務(wù)和已爬網(wǎng)的公眾號列表
  公眾號.png
  爬蟲(chóng)界面
  設置界面
  設置.png
  官方賬號歷史文章列表
  歷史文章 .gif列表
  報告
  報告.gif
  搜索
  搜索.gif
  
  介紹
  weixin_crawler是一個(gè)微信公眾號文章爬蟲(chóng),使用Scrapy、Flask、Echarts、Elasticsearch等,具有自己的分析報告和全文搜索功能,可以即時(shí)搜索數百萬(wàn)份文檔。weixin_crawler設計的初衷是盡可能快地抓取盡可能多的歷史帖子。
  weixin_crawler仍在維護中,該計劃有效,請隨時(shí)嘗試。
  無(wú)需部署即可體驗公眾號數據采集
  使用免安裝的可執行文件WCplus.exe您可以立即體驗weixin_crawler數據采集并導出Excel和PDF功能。
  主要特點(diǎn)是它是用Python 3編寫(xiě)的Python3 用于 Scrapy
  的爬蟲(chóng)框架,實(shí)際上使用了 Scrapy 的許多功能,這是一個(gè)很好的開(kāi)源項目,用于深入學(xué)習 Scrapy
  充分利用了scrapy,如果你正在為scrapy而苦苦掙扎,這個(gè)存儲庫有助于Sparks通過(guò)Flask,Flask-socketio和Vue實(shí)現高可用性UI界面。功能強大實(shí)用,是新媒體運營(yíng)等崗位的良好數據助手
  瓶
  Flask-socketio,Vue用于構建全棧項目爬蟲(chóng) 由于使用了Scrapy,MongoDB和Elasticsearch,數據爬取,存儲和索引變得簡(jiǎn)單高效
  感謝刮擦的mongodb elasticsearch weixin_crawler不僅是爬蟲(chóng),還是搜索引擎,支持微信公眾號所有歷史帖子的抓取
  可抓取任意微信公眾號的所有歷史文章,支持微信公眾號文章瀏覽量、點(diǎn)贊、點(diǎn)贊、評論數等數據進(jìn)行抓取
  能夠抓取讀取數據附帶單個(gè)公共帳戶(hù)的數據分析報告發(fā)布
  基于sigle公眾號的報告模塊,利用Elasticsearch進(jìn)行全文搜索,支持多種搜索和模式和排序模式,并為搜索結果提供趨勢分析圖表
  也是支持對公眾號進(jìn)行分組的搜索引擎,分組數據可以用來(lái)限制搜索范圍
  可分組公眾號,可用于定義搜索范圍原創(chuàng )手機自動(dòng)化操作方法,可實(shí)現爬蟲(chóng)無(wú)人監督
  借助adb,weixin_crawler能夠自動(dòng)操作Android手機,這意味著(zhù)它可以在沒(méi)有任何人工監控的情況下工作,支持多個(gè)微信APP同時(shí)采集,理論上采集速度可以線(xiàn)性提高
  支持多個(gè)微信應用程序線(xiàn)性提高爬行速度
  使用的主要工具
  語(yǔ)言: Python 3.6 前端 Web 框架 Flask / Flask-socketio / gevent js/css 庫 Vue / Jquery / W3css / Echarts / 前端 awsome 后端 爬蟲(chóng) 刮板存儲 Mongodb / Redis Index 彈性搜索
  運行方法
  weixin_crawler已經(jīng)在Win/Mac/Linux系統下成功運行,建議嘗試weixin_crawler可以在win/mac/Linux上運行,盡管建議先在win操作系統上嘗試。
  Insatall mongodb / redis / elasticsearch并在后臺運行它們
  Downlaod MongoDB / Redis / Elasticsearch從他們的官方網(wǎng)站安裝它們
  在默認配置下同時(shí)運行它們。在這種情況下,mongodb 是 localhost:27017 redis 是 localhost:6379(或者你必須在 weixin_crawler/project/configs/auth.py 中進(jìn)行配置)
  
  為了標記中文,必須為Elasticsearch安裝elasticsearch-analysis-ik。
  安裝代理服務(wù)器并運行代理.js安裝
  nodeJS,然后 npm 在 weixin_crawler/proxy 中安裝 anyproxy 和 Redis
  CD 到 weixin_crawler/代理并運行節點(diǎn)代理.js
  在計算機和電話(huà)端安裝任何代理 https CA
  如果您不確定如何使用任何代理,這里是文檔
  安裝所需的 python 包
  注意:您不能簡(jiǎn)單地鍵入pip install -r要求.txt要安裝每個(gè)軟件包,扭曲是Scrapy需要的其中之一。當您遇到有關(guān)安裝python包(例如扭曲)的問(wèn)題時(shí),這里總有一個(gè)解決方案-將正確的版本包下載到您的驅動(dòng)器并運行$ pip安裝package_name
  我不確定您的python環(huán)境是否會(huì )拋出其他軟件包未找到錯誤,只需安裝所需的任何軟件包
  有些源代碼需要修改(也許不合理)
  scrapy Python36\Lib\site-packages\scrapy\http\request\ _init_.py --> weixin_crawler\source_code\request\_init_.py
  scrapy Python36\Lib\site-packages\scrapy\http\response\ _init_.py --> weixin_crawler\source_code\response\_init_.py
  pyecharts Python36\Lib\site-packages\pyecharts\base.py --> weixin_crawler\source_code\base.py.在這種情況下,函數get_echarts_options在第 106 行添加
  如果您希望自動(dòng)工作weixin_crawler這些步驟是必要的,或者您應該操作電話(huà)以獲取將由 Anyproxy 手冊檢測到的請求數據
  安裝 adb 并將其添加到您的路徑中(例如窗口)
  安裝安卓模擬器(建議使用NOX)或插入手機,并確保您可以從命令行工具使用abd操作它們
  如果多部手機連接到您的計算機,您必須找出它們的adb端口,這些端口將用于添加爬蟲(chóng)
  亞行不支持中文輸入,這對微信公眾號搜索來(lái)說(shuō)是個(gè)壞消息。為了輸入中文,adb鍵盤(pán)必須安裝在您的Android手機中并將其設置為默認輸入法,更多在這里
  為什么weixin_crawler可以自動(dòng)工作?原因如下:
  如果要抓取微信公眾號,則必須在手機中搜索該帳戶(hù)并單擊其“所有消息”,然后您將獲得一個(gè)消息列表,如果向下滾動(dòng)將加載更多列表。如果您想抓取此帳戶(hù)的閱讀數據,可以錄制列表中的任何消息 如果給出了微信公眾號的昵稱(chēng),那么wexin_crawler操作安裝在手機中的微信應用程序,同時(shí)任何代理都在“收聽(tīng)背景”......無(wú)論如何,weixin_crawler獲取微信應用程序要求的所有請求數據,那么就是抓取時(shí)間了 正如您所推測的那樣,為了讓weixin_crawler操作微信應用程序,我們必須告訴adb在哪里點(diǎn)擊交換和輸入,其中大多數是在weixin_crawler/project/phone_operate/config.py中定義的。順便說(shuō)一句,phone_operate像人類(lèi)一樣負責微信運營(yíng),它的眼睛是百度OCR API和預定義的位置點(diǎn)擊區域,它的手指是adb運行 main.py
  $ CD weixin_crawler/項目/
  $ python(3) ./main.py
  現在打開(kāi)瀏覽器,您想要的所有內容都將在 localhost:5000 中。
  在這個(gè)長(cháng)步驟列表中,您可能會(huì )陷入困境,加入我們的社區尋求幫助,告訴我們您做了什么以及您發(fā)現了什么樣的錯誤。
  一起去探索世界吧:5000
  分享文章:seo自動(dòng)增加外鏈
  
  自然會(huì )迅速增加。查找外部鏈接有兩種方法,第一種是使用英文雅虎外部鏈接工具查找競爭對手的外部鏈接資源;二是利用百度的域名命令分析競爭對手的外鏈資源。越熟練,越能有效增加外鏈,主要還是積累經(jīng)驗!. 不要將此類(lèi)論壇添加到您的采集夾。第三:如果只做論壇博客的外鏈,是遠遠不夠的。合理使用工具,比如現在做好外鏈,就是網(wǎng)道SEO優(yōu)化工具,它提供了專(zhuān)門(mén)的外鏈平臺。這是一個(gè)致力于獨立網(wǎng)站外部鏈接的平臺。第四:發(fā)帖,一個(gè)高質(zhì)量的軟文往往受到很多人的青睞。如果你的 軟文 被轉發(fā)很多,說(shuō)明別人給你發(fā)了很多外鏈。這種增加網(wǎng)站外鏈的自然方法是非常穩定和快速的方法。2.友情鏈接交換 友情鏈接交換也是我們快速增加外鏈的一種方式。. xyz域名第一年便宜,所以很多人大量做非法站。最近,搜索引擎的算法也在不斷更新。具有此域名后綴的站點(diǎn)是 mass-k 站點(diǎn)或已降級。推薦使用頂級域名來(lái)做網(wǎng)站吧。網(wǎng)站基本的SEO優(yōu)化我就不提了,但是如何增加外鏈呢?加入網(wǎng)站目錄,提高。不建議使用它。下面來(lái)分析一下優(yōu)缺點(diǎn): 優(yōu)點(diǎn):外鏈和排名會(huì )迅速增加,流量也會(huì )增加;缺點(diǎn):一段時(shí)間后,BD發(fā)現作弊,降級,K個(gè)外鏈,K個(gè)站 個(gè)人建議:做個(gè)網(wǎng)站要
   查看全部

  干貨內容:分享一個(gè)牛逼的Python項目:公眾號文章爬蟲(chóng)
  我有
  訂閱了近100個(gè)公眾號,有時(shí)候想找之前看過(guò)的文章,卻覺(jué)得特別難找,如果忘了采集,估計要找半個(gè)小時(shí),更無(wú)語(yǔ)的是文章被發(fā)布者刪掉了,或者文章違規刪掉了。那么有沒(méi)有這樣的爬蟲(chóng),可以將公眾號的所有文章抓取到本地,并提供方便的搜索功能,這樣在我想找到某類(lèi)文章的時(shí)候會(huì )非常方便,同時(shí)文章都是本地的,不用擔心被刪。
  最近,我偶然看到一個(gè)很棒的Python爬蟲(chóng)項目,就是微信公眾號的爬文章,看了功能介紹,我真的很想看晚了,作者的水平真的很厲害,我奉獻了我的崇拜,特意分享一下,大家可以使用它的功能,也可以研究它的技術(shù), 請不用謝。訪(fǎng)問(wèn)項目地址并相信您能夠獨立部署。
  項目地址:
  特征顯示
  用戶(hù)界面主界面
  爬蟲(chóng)的主界面.gif添加公眾號
  抓取任務(wù)和已爬網(wǎng)的公眾號列表
  公眾號.png
  爬蟲(chóng)界面
  設置界面
  設置.png
  官方賬號歷史文章列表
  歷史文章 .gif列表
  報告
  報告.gif
  搜索
  搜索.gif
  
  介紹
  weixin_crawler是一個(gè)微信公眾號文章爬蟲(chóng),使用Scrapy、Flask、Echarts、Elasticsearch等,具有自己的分析報告和全文搜索功能,可以即時(shí)搜索數百萬(wàn)份文檔。weixin_crawler設計的初衷是盡可能快地抓取盡可能多的歷史帖子。
  weixin_crawler仍在維護中,該計劃有效,請隨時(shí)嘗試。
  無(wú)需部署即可體驗公眾號數據采集
  使用免安裝的可執行文件WCplus.exe您可以立即體驗weixin_crawler數據采集并導出Excel和PDF功能。
  主要特點(diǎn)是它是用Python 3編寫(xiě)的Python3 用于 Scrapy
  的爬蟲(chóng)框架,實(shí)際上使用了 Scrapy 的許多功能,這是一個(gè)很好的開(kāi)源項目,用于深入學(xué)習 Scrapy
  充分利用了scrapy,如果你正在為scrapy而苦苦掙扎,這個(gè)存儲庫有助于Sparks通過(guò)Flask,Flask-socketio和Vue實(shí)現高可用性UI界面。功能強大實(shí)用,是新媒體運營(yíng)等崗位的良好數據助手
  瓶
  Flask-socketio,Vue用于構建全棧項目爬蟲(chóng) 由于使用了Scrapy,MongoDB和Elasticsearch,數據爬取,存儲和索引變得簡(jiǎn)單高效
  感謝刮擦的mongodb elasticsearch weixin_crawler不僅是爬蟲(chóng),還是搜索引擎,支持微信公眾號所有歷史帖子的抓取
  可抓取任意微信公眾號的所有歷史文章,支持微信公眾號文章瀏覽量、點(diǎn)贊、點(diǎn)贊、評論數等數據進(jìn)行抓取
  能夠抓取讀取數據附帶單個(gè)公共帳戶(hù)的數據分析報告發(fā)布
  基于sigle公眾號的報告模塊,利用Elasticsearch進(jìn)行全文搜索,支持多種搜索和模式和排序模式,并為搜索結果提供趨勢分析圖表
  也是支持對公眾號進(jìn)行分組的搜索引擎,分組數據可以用來(lái)限制搜索范圍
  可分組公眾號,可用于定義搜索范圍原創(chuàng )手機自動(dòng)化操作方法,可實(shí)現爬蟲(chóng)無(wú)人監督
  借助adb,weixin_crawler能夠自動(dòng)操作Android手機,這意味著(zhù)它可以在沒(méi)有任何人工監控的情況下工作,支持多個(gè)微信APP同時(shí)采集,理論上采集速度可以線(xiàn)性提高
  支持多個(gè)微信應用程序線(xiàn)性提高爬行速度
  使用的主要工具
  語(yǔ)言: Python 3.6 前端 Web 框架 Flask / Flask-socketio / gevent js/css 庫 Vue / Jquery / W3css / Echarts / 前端 awsome 后端 爬蟲(chóng) 刮板存儲 Mongodb / Redis Index 彈性搜索
  運行方法
  weixin_crawler已經(jīng)在Win/Mac/Linux系統下成功運行,建議嘗試weixin_crawler可以在win/mac/Linux上運行,盡管建議先在win操作系統上嘗試。
  Insatall mongodb / redis / elasticsearch并在后臺運行它們
  Downlaod MongoDB / Redis / Elasticsearch從他們的官方網(wǎng)站安裝它們
  在默認配置下同時(shí)運行它們。在這種情況下,mongodb 是 localhost:27017 redis 是 localhost:6379(或者你必須在 weixin_crawler/project/configs/auth.py 中進(jìn)行配置)
  
  為了標記中文,必須為Elasticsearch安裝elasticsearch-analysis-ik。
  安裝代理服務(wù)器并運行代理.js安裝
  nodeJS,然后 npm 在 weixin_crawler/proxy 中安裝 anyproxy 和 Redis
  CD 到 weixin_crawler/代理并運行節點(diǎn)代理.js
  在計算機和電話(huà)端安裝任何代理 https CA
  如果您不確定如何使用任何代理,這里是文檔
  安裝所需的 python 包
  注意:您不能簡(jiǎn)單地鍵入pip install -r要求.txt要安裝每個(gè)軟件包,扭曲是Scrapy需要的其中之一。當您遇到有關(guān)安裝python包(例如扭曲)的問(wèn)題時(shí),這里總有一個(gè)解決方案-將正確的版本包下載到您的驅動(dòng)器并運行$ pip安裝package_name
  我不確定您的python環(huán)境是否會(huì )拋出其他軟件包未找到錯誤,只需安裝所需的任何軟件包
  有些源代碼需要修改(也許不合理)
  scrapy Python36\Lib\site-packages\scrapy\http\request\ _init_.py --> weixin_crawler\source_code\request\_init_.py
  scrapy Python36\Lib\site-packages\scrapy\http\response\ _init_.py --> weixin_crawler\source_code\response\_init_.py
  pyecharts Python36\Lib\site-packages\pyecharts\base.py --> weixin_crawler\source_code\base.py.在這種情況下,函數get_echarts_options在第 106 行添加
  如果您希望自動(dòng)工作weixin_crawler這些步驟是必要的,或者您應該操作電話(huà)以獲取將由 Anyproxy 手冊檢測到的請求數據
  安裝 adb 并將其添加到您的路徑中(例如窗口)
  安裝安卓模擬器(建議使用NOX)或插入手機,并確保您可以從命令行工具使用abd操作它們
  如果多部手機連接到您的計算機,您必須找出它們的adb端口,這些端口將用于添加爬蟲(chóng)
  亞行不支持中文輸入,這對微信公眾號搜索來(lái)說(shuō)是個(gè)壞消息。為了輸入中文,adb鍵盤(pán)必須安裝在您的Android手機中并將其設置為默認輸入法,更多在這里
  為什么weixin_crawler可以自動(dòng)工作?原因如下:
  如果要抓取微信公眾號,則必須在手機中搜索該帳戶(hù)并單擊其“所有消息”,然后您將獲得一個(gè)消息列表,如果向下滾動(dòng)將加載更多列表。如果您想抓取此帳戶(hù)的閱讀數據,可以錄制列表中的任何消息 如果給出了微信公眾號的昵稱(chēng),那么wexin_crawler操作安裝在手機中的微信應用程序,同時(shí)任何代理都在“收聽(tīng)背景”......無(wú)論如何,weixin_crawler獲取微信應用程序要求的所有請求數據,那么就是抓取時(shí)間了 正如您所推測的那樣,為了讓weixin_crawler操作微信應用程序,我們必須告訴adb在哪里點(diǎn)擊交換和輸入,其中大多數是在weixin_crawler/project/phone_operate/config.py中定義的。順便說(shuō)一句,phone_operate像人類(lèi)一樣負責微信運營(yíng),它的眼睛是百度OCR API和預定義的位置點(diǎn)擊區域,它的手指是adb運行 main.py
  $ CD weixin_crawler/項目/
  $ python(3) ./main.py
  現在打開(kāi)瀏覽器,您想要的所有內容都將在 localhost:5000 中。
  在這個(gè)長(cháng)步驟列表中,您可能會(huì )陷入困境,加入我們的社區尋求幫助,告訴我們您做了什么以及您發(fā)現了什么樣的錯誤。
  一起去探索世界吧:5000
  分享文章:seo自動(dòng)增加外鏈
  
  自然會(huì )迅速增加。查找外部鏈接有兩種方法,第一種是使用英文雅虎外部鏈接工具查找競爭對手的外部鏈接資源;二是利用百度的域名命令分析競爭對手的外鏈資源。越熟練,越能有效增加外鏈,主要還是積累經(jīng)驗!. 不要將此類(lèi)論壇添加到您的采集夾。第三:如果只做論壇博客的外鏈,是遠遠不夠的。合理使用工具,比如現在做好外鏈,就是網(wǎng)道SEO優(yōu)化工具,它提供了專(zhuān)門(mén)的外鏈平臺。這是一個(gè)致力于獨立網(wǎng)站外部鏈接的平臺。第四:發(fā)帖,一個(gè)高質(zhì)量的軟文往往受到很多人的青睞。如果你的 軟文 被轉發(fā)很多,說(shuō)明別人給你發(fā)了很多外鏈。這種增加網(wǎng)站外鏈的自然方法是非常穩定和快速的方法。2.友情鏈接交換 友情鏈接交換也是我們快速增加外鏈的一種方式。. xyz域名第一年便宜,所以很多人大量做非法站。最近,搜索引擎的算法也在不斷更新。具有此域名后綴的站點(diǎn)是 mass-k 站點(diǎn)或已降級。推薦使用頂級域名來(lái)做網(wǎng)站吧。網(wǎng)站基本的SEO優(yōu)化我就不提了,但是如何增加外鏈呢?加入網(wǎng)站目錄,提高。不建議使用它。下面來(lái)分析一下優(yōu)缺點(diǎn): 優(yōu)點(diǎn):外鏈和排名會(huì )迅速增加,流量也會(huì )增加;缺點(diǎn):一段時(shí)間后,BD發(fā)現作弊,降級,K個(gè)外鏈,K個(gè)站 個(gè)人建議:做個(gè)網(wǎng)站要
  

解決方案:多API接口集成TXT批量翻譯工具

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 160 次瀏覽 ? 2022-12-12 13:25 ? 來(lái)自相關(guān)話(huà)題

  解決方案:多API接口集成TXT批量翻譯工具
  TXT批量翻譯工具可以讓我們批量翻譯一個(gè)TXT文檔和一個(gè)文件夾中的所有TXT文檔。TXT批量翻譯工具對接百度、有道、谷歌,自帶翻譯接口,無(wú)需多個(gè)軟件或網(wǎng)頁(yè)跳轉到批量翻譯。
  TXT批量翻譯工具支持全球數十種主流語(yǔ)言。只需輕點(diǎn)鼠標,我們就可以在不同語(yǔ)言之間進(jìn)行翻譯,甚至進(jìn)行反向翻譯。反向翻譯功能允許我們將文章翻譯成其他語(yǔ)言,然后再反向翻譯成原創(chuàng )語(yǔ)言,這樣一個(gè)文章可以拆分成多個(gè)文章,在網(wǎng)站 和 自媒體 實(shí)現了 文章 的高質(zhì)量 原創(chuàng )。
  TXT 批量翻譯工具 批量?jì)热萏幚硎刮覀兡軌虿杉?文章我們想要的材料。只需要輸入關(guān)鍵詞即可查看全網(wǎng)文章采集,也可以輸入目標網(wǎng)址,鼠標點(diǎn)擊相應元素編輯英文、日文、泰文、韓文和其他語(yǔ)言網(wǎng)站做采集。文章批量翻譯采集后,保留原文格式標簽,去除原文敏感信息。實(shí)現 文章 整潔。
  TXT批量翻譯工具可用于網(wǎng)站 SEO優(yōu)化和自媒體文章批量編輯。在 軟文 和高權重 網(wǎng)站 中建立外部鏈接是我們的日常推廣工作,TXT 批量翻譯工具是一個(gè)很棒的鏈接構建工具,但重要的是要記住我們不能保證反向鏈接。確保我們的演講對記者來(lái)說(shuō)是相關(guān)且有趣的。如果是這樣,那么我們很有可能會(huì )出現在他們的 文章 中。社交媒體是與目標受眾建立聯(lián)系和互動(dòng)并建立有意義關(guān)系的好方法。這有助于我們建立信任和信譽(yù),隨著(zhù)時(shí)間的推移會(huì )產(chǎn)生自然的反向鏈接。
  要充分利用社交媒體,請確保我們活躍在最有可能接觸到我們理想受眾的平臺上。與其他用戶(hù)互動(dòng),分享我們的內容,關(guān)注我們行業(yè)的人。這些活動(dòng)不僅可以幫助我們建立聯(lián)系,還可以提高品牌知名度和銷(xiāo)量。
  每個(gè)人都喜歡信息圖表。它以一種易于理解的格式呈現復雜的數據,這種格式具有視覺(jué)吸引力、吸引力和令人難忘。這有助于我們獲得曝光率并與其他 網(wǎng)站 建立關(guān)系。另一種獲得曝光率和鏈接的好方法是創(chuàng )建其他“可鏈接”資產(chǎn),例如電子書(shū)、備忘單和模板。通常由其他 網(wǎng)站 共享,這些資產(chǎn)幫助我們自然地建立聯(lián)系。
  創(chuàng )建信息圖表和可連接資產(chǎn)顯著(zhù)增加了我們的內容創(chuàng )建工作流程,但這是值得的,因為它們非常有效。要獲得出色的結果,請確保您: 與設計師合作創(chuàng )造高質(zhì)量的視覺(jué)效果;在創(chuàng )建這些資產(chǎn)時(shí)留出額外的時(shí)間;并確保內容有價(jià)值并且與我們的目標受眾相關(guān)。
  import json, requests
def main(query):
url = &#39;http://fanyi.youdao.com/translate&#39;
data = {
<p>
"i": query, # 待翻譯的字符串
"from": "AUTO",
"to": "AUTO",
"smartresult": "dict",
"client": "fanyideskweb",
"salt": "16081210430989",
"doctype": "json",
"version": "2.1",
"keyfrom": "fanyi.web",
"action": "FY_BY_CLICKBUTTION"
}
res = requests.post(url, data=data).json()
print(json.dumps(res, indent=2, ensure_ascii=False))
main(&#39;hello&#39;)</p>
  按照我們分享的提示開(kāi)始建立鏈接并幫助我們實(shí)現營(yíng)銷(xiāo)和業(yè)務(wù)目標。實(shí)施白帽 SEO 鏈接構建策略可能需要比其他策略更多的時(shí)間和精力,但這是值得的,因為我們會(huì )看到長(cháng)期的結果。然后使用一些與我們的業(yè)務(wù)最相關(guān)和適用的白帽 SEO 鏈接構建策略。
  import requests
def main(query):
<p>
url = &#39;http://fanyi.youdao.com/translate&#39;
data = {
"i": query, # 待翻譯的字符串
"from": "AUTO",
"to": "AUTO",
"smartresult": "dict",
"client": "fanyideskweb",
"salt": "16081210430989",
"doctype": "json",
"version": "2.1",
"keyfrom": "fanyi.web",
"action": "FY_BY_CLICKBUTTION"
}
res = requests.post(url, data=data).json()
print(res[&#39;translateResult&#39;][0][0][&#39;tgt&#39;]) # 打印翻譯后的結果
main(&#39;你好&#39;) # 輸出: hello</p>
  TXT批量翻譯工具的分享到此結束。該工具可以替代手動(dòng)批量和重復的工作,讓我們更多地思考工作和生活中的規律和趨勢,然后使用TXT批量翻譯工具來(lái)達到更多意想不到的效果。每個(gè)人對此都有不同的看法,請在下面的評論中告訴我們。
  解決方案:功能1.音頻提取一鍵式批量提取2.音頻剪輯毫秒精密切削
  音頻提取工件可以應用于許多不同的場(chǎng)景。您可以打開(kāi)和導入音頻資源以進(jìn)行在線(xiàn)編輯。收錄的服務(wù)非常詳細,還支持不同的格式。編輯和操作并不困難。視頻提取音頻軟件,在頁(yè)面中 功能和信息齊全。視頻鏈接也可以提取音頻,也可以批量提取。毫秒級精準裁剪,讓用戶(hù)達到想要的效果。
  音頻提取器介紹
  一款視頻提取音頻軟件apk,強大的音頻編輯工具。非常簡(jiǎn)單易用。為用戶(hù)提供簡(jiǎn)單易用的編輯功能和非常專(zhuān)業(yè)的轉碼轉換功能。
  專(zhuān)業(yè)的手機音頻提取軟件,支持音頻編輯、格式轉換、音量放大等功能,輕松提取音頻文件,享受更便捷的音頻提取服務(wù),讓音頻處理更簡(jiǎn)單。
  也是一款功能強大的音頻處理APP,支持音頻格式轉換、音量速度調節、音頻合并、音頻編輯等功能。音頻提取軟件不僅可以從各種格式的視頻中提取各種格式的音頻,
  操作極其簡(jiǎn)單,支持碼率、采樣率、通道、轉碼等參數設置。音頻提取和轉換軟件操作簡(jiǎn)單,功能強大,轉換速度快,可以輕松編輯您的音頻文件。
  音頻提取神器功能
  1. 音頻提取
  一鍵批量提取音頻
  2.音頻剪輯
  毫秒級精準切割,包括原創(chuàng )質(zhì)量、高質(zhì)量、中等質(zhì)量和低質(zhì)量,
  3.格式轉換
  可以使用各種音頻格式。
  4.視頻鏈接提取
  
  復制一鍵式鏈接以提取音頻。另外,有多種格式可供選擇,使用方法也很簡(jiǎn)單
  音頻提取神器的特點(diǎn)
  1.從音頻或視頻中提取需要的音頻片段,您可以預先自由選擇質(zhì)量選擇,
  2.自由選擇和轉換各種音頻格式,可以幫助用戶(hù)一鍵從視頻中提取音頻文件,
  3.采集喜歡的音頻或視頻,小白也能輕松上手,還可以轉換音頻文件格式
  4.智能切割提取音樂(lè )內容,本軟件功能強大,操作簡(jiǎn)單,
  音頻提取神器的優(yōu)勢
  1. 本地視頻提取音頻:選擇一個(gè)或多個(gè)本地視頻,一鍵提取音頻。
  2.音頻剪輯:精確剪輯毫秒級音頻,放大音量、速度和音調調節。
  3、視頻鏈接提取音頻:復制視頻鏈接視頻提取音頻軟件,一鍵提取視頻中的音頻。
  4、格式轉換:支持mp3、AAC、M4A、FLAC、WAV等格式。
  音頻提取工件細節
  [視頻轉音頻]
  
  * 可以從本地文件導入視頻;
  * 音頻轉換器將視頻轉換為音樂(lè )。
  * 音頻提?。簭囊纛l或視頻中提取需要的音頻;
  * 無(wú)格式損壞提?。阂曨l格式的音頻文件是無(wú)損音樂(lè );
  *支持多種視頻格式:3GP、FLV、MP4、MOV、MXF、MKV、AVI、MPG、MPEG等。
  * 支持從視頻中提取各種類(lèi)型的音頻、MP3、AAC、M4A、M4R、WAV、OPUS等格式;
  * 音頻提取過(guò)程快速且省時(shí)。
  [音樂(lè )剪輯]
  * 輕松編輯提取的音頻;
  * 個(gè)性化剪裁,哪里聽(tīng)剪裁;
  * 可用作音頻播放器。
  *支持用其他應用打開(kāi);
  * 支持音頻編輯器的音頻文件重命名。
  *支持分享 查看全部

  解決方案:多API接口集成TXT批量翻譯工具
  TXT批量翻譯工具可以讓我們批量翻譯一個(gè)TXT文檔和一個(gè)文件夾中的所有TXT文檔。TXT批量翻譯工具對接百度、有道、谷歌,自帶翻譯接口,無(wú)需多個(gè)軟件或網(wǎng)頁(yè)跳轉到批量翻譯。
  TXT批量翻譯工具支持全球數十種主流語(yǔ)言。只需輕點(diǎn)鼠標,我們就可以在不同語(yǔ)言之間進(jìn)行翻譯,甚至進(jìn)行反向翻譯。反向翻譯功能允許我們將文章翻譯成其他語(yǔ)言,然后再反向翻譯成原創(chuàng )語(yǔ)言,這樣一個(gè)文章可以拆分成多個(gè)文章,在網(wǎng)站 和 自媒體 實(shí)現了 文章 的高質(zhì)量 原創(chuàng )。
  TXT 批量翻譯工具 批量?jì)热萏幚硎刮覀兡軌?a href="http://www.hqbet6457.com/" target="_blank">采集 文章我們想要的材料。只需要輸入關(guān)鍵詞即可查看全網(wǎng)文章采集,也可以輸入目標網(wǎng)址,鼠標點(diǎn)擊相應元素編輯英文、日文、泰文、韓文和其他語(yǔ)言網(wǎng)站做采集。文章批量翻譯采集后,保留原文格式標簽,去除原文敏感信息。實(shí)現 文章 整潔。
  TXT批量翻譯工具可用于網(wǎng)站 SEO優(yōu)化和自媒體文章批量編輯。在 軟文 和高權重 網(wǎng)站 中建立外部鏈接是我們的日常推廣工作,TXT 批量翻譯工具是一個(gè)很棒的鏈接構建工具,但重要的是要記住我們不能保證反向鏈接。確保我們的演講對記者來(lái)說(shuō)是相關(guān)且有趣的。如果是這樣,那么我們很有可能會(huì )出現在他們的 文章 中。社交媒體是與目標受眾建立聯(lián)系和互動(dòng)并建立有意義關(guān)系的好方法。這有助于我們建立信任和信譽(yù),隨著(zhù)時(shí)間的推移會(huì )產(chǎn)生自然的反向鏈接。
  要充分利用社交媒體,請確保我們活躍在最有可能接觸到我們理想受眾的平臺上。與其他用戶(hù)互動(dòng),分享我們的內容,關(guān)注我們行業(yè)的人。這些活動(dòng)不僅可以幫助我們建立聯(lián)系,還可以提高品牌知名度和銷(xiāo)量。
  每個(gè)人都喜歡信息圖表。它以一種易于理解的格式呈現復雜的數據,這種格式具有視覺(jué)吸引力、吸引力和令人難忘。這有助于我們獲得曝光率并與其他 網(wǎng)站 建立關(guān)系。另一種獲得曝光率和鏈接的好方法是創(chuàng )建其他“可鏈接”資產(chǎn),例如電子書(shū)、備忘單和模板。通常由其他 網(wǎng)站 共享,這些資產(chǎn)幫助我們自然地建立聯(lián)系。
  創(chuàng )建信息圖表和可連接資產(chǎn)顯著(zhù)增加了我們的內容創(chuàng )建工作流程,但這是值得的,因為它們非常有效。要獲得出色的結果,請確保您: 與設計師合作創(chuàng )造高質(zhì)量的視覺(jué)效果;在創(chuàng )建這些資產(chǎn)時(shí)留出額外的時(shí)間;并確保內容有價(jià)值并且與我們的目標受眾相關(guān)。
  import json, requests
def main(query):
url = &#39;http://fanyi.youdao.com/translate&#39;
data = {
<p>
"i": query, # 待翻譯的字符串
"from": "AUTO",
"to": "AUTO",
"smartresult": "dict",
"client": "fanyideskweb",
"salt": "16081210430989",
"doctype": "json",
"version": "2.1",
"keyfrom": "fanyi.web",
"action": "FY_BY_CLICKBUTTION"
}
res = requests.post(url, data=data).json()
print(json.dumps(res, indent=2, ensure_ascii=False))
main(&#39;hello&#39;)</p>
  按照我們分享的提示開(kāi)始建立鏈接并幫助我們實(shí)現營(yíng)銷(xiāo)和業(yè)務(wù)目標。實(shí)施白帽 SEO 鏈接構建策略可能需要比其他策略更多的時(shí)間和精力,但這是值得的,因為我們會(huì )看到長(cháng)期的結果。然后使用一些與我們的業(yè)務(wù)最相關(guān)和適用的白帽 SEO 鏈接構建策略。
  import requests
def main(query):
<p>
url = &#39;http://fanyi.youdao.com/translate&#39;
data = {
"i": query, # 待翻譯的字符串
"from": "AUTO",
"to": "AUTO",
"smartresult": "dict",
"client": "fanyideskweb",
"salt": "16081210430989",
"doctype": "json",
"version": "2.1",
"keyfrom": "fanyi.web",
"action": "FY_BY_CLICKBUTTION"
}
res = requests.post(url, data=data).json()
print(res[&#39;translateResult&#39;][0][0][&#39;tgt&#39;]) # 打印翻譯后的結果
main(&#39;你好&#39;) # 輸出: hello</p>
  TXT批量翻譯工具的分享到此結束。該工具可以替代手動(dòng)批量和重復的工作,讓我們更多地思考工作和生活中的規律和趨勢,然后使用TXT批量翻譯工具來(lái)達到更多意想不到的效果。每個(gè)人對此都有不同的看法,請在下面的評論中告訴我們。
  解決方案:功能1.音頻提取一鍵式批量提取2.音頻剪輯毫秒精密切削
  音頻提取工件可以應用于許多不同的場(chǎng)景。您可以打開(kāi)和導入音頻資源以進(jìn)行在線(xiàn)編輯。收錄的服務(wù)非常詳細,還支持不同的格式。編輯和操作并不困難。視頻提取音頻軟件,在頁(yè)面中 功能和信息齊全。視頻鏈接也可以提取音頻,也可以批量提取。毫秒級精準裁剪,讓用戶(hù)達到想要的效果。
  音頻提取器介紹
  一款視頻提取音頻軟件apk,強大的音頻編輯工具。非常簡(jiǎn)單易用。為用戶(hù)提供簡(jiǎn)單易用的編輯功能和非常專(zhuān)業(yè)的轉碼轉換功能。
  專(zhuān)業(yè)的手機音頻提取軟件,支持音頻編輯、格式轉換、音量放大等功能,輕松提取音頻文件,享受更便捷的音頻提取服務(wù),讓音頻處理更簡(jiǎn)單。
  也是一款功能強大的音頻處理APP,支持音頻格式轉換、音量速度調節、音頻合并、音頻編輯等功能。音頻提取軟件不僅可以從各種格式的視頻中提取各種格式的音頻,
  操作極其簡(jiǎn)單,支持碼率、采樣率、通道、轉碼等參數設置。音頻提取和轉換軟件操作簡(jiǎn)單,功能強大,轉換速度快,可以輕松編輯您的音頻文件。
  音頻提取神器功能
  1. 音頻提取
  一鍵批量提取音頻
  2.音頻剪輯
  毫秒級精準切割,包括原創(chuàng )質(zhì)量、高質(zhì)量、中等質(zhì)量和低質(zhì)量,
  3.格式轉換
  可以使用各種音頻格式。
  4.視頻鏈接提取
  
  復制一鍵式鏈接以提取音頻。另外,有多種格式可供選擇,使用方法也很簡(jiǎn)單
  音頻提取神器的特點(diǎn)
  1.從音頻或視頻中提取需要的音頻片段,您可以預先自由選擇質(zhì)量選擇,
  2.自由選擇和轉換各種音頻格式,可以幫助用戶(hù)一鍵從視頻中提取音頻文件,
  3.采集喜歡的音頻或視頻,小白也能輕松上手,還可以轉換音頻文件格式
  4.智能切割提取音樂(lè )內容,本軟件功能強大,操作簡(jiǎn)單,
  音頻提取神器的優(yōu)勢
  1. 本地視頻提取音頻:選擇一個(gè)或多個(gè)本地視頻,一鍵提取音頻。
  2.音頻剪輯:精確剪輯毫秒級音頻,放大音量、速度和音調調節。
  3、視頻鏈接提取音頻:復制視頻鏈接視頻提取音頻軟件,一鍵提取視頻中的音頻。
  4、格式轉換:支持mp3、AAC、M4A、FLAC、WAV等格式。
  音頻提取工件細節
  [視頻轉音頻]
  
  * 可以從本地文件導入視頻;
  * 音頻轉換器將視頻轉換為音樂(lè )。
  * 音頻提?。簭囊纛l或視頻中提取需要的音頻;
  * 無(wú)格式損壞提?。阂曨l格式的音頻文件是無(wú)損音樂(lè );
  *支持多種視頻格式:3GP、FLV、MP4、MOV、MXF、MKV、AVI、MPG、MPEG等。
  * 支持從視頻中提取各種類(lèi)型的音頻、MP3、AAC、M4A、M4R、WAV、OPUS等格式;
  * 音頻提取過(guò)程快速且省時(shí)。
  [音樂(lè )剪輯]
  * 輕松編輯提取的音頻;
  * 個(gè)性化剪裁,哪里聽(tīng)剪裁;
  * 可用作音頻播放器。
  *支持用其他應用打開(kāi);
  * 支持音頻編輯器的音頻文件重命名。
  *支持分享

教程:利用 Python 爬取網(wǎng)站的新手指南 | Linux 中國

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 141 次瀏覽 ? 2022-12-05 22:25 ? 來(lái)自相關(guān)話(huà)題

  教程:利用 Python 爬取網(wǎng)站的新手指南 | Linux 中國
  關(guān)于合法性,訪(fǎng)問(wèn)大量有價(jià)值的信息可能令人興奮,但僅僅因為它可能并不意味著(zhù)應該這樣做。
  值得慶幸的是,有一些公共信息可以指導我們的道德準則和網(wǎng)絡(luò )抓取工具。大多數 網(wǎng)站 都有一個(gè)與那個(gè) 網(wǎng)站 相關(guān)聯(lián)的 robots.txt 文件,指示哪些爬行活動(dòng)是允許的,哪些是不允許的。它主要用于與搜索引擎交互(網(wǎng)絡(luò )抓取的最終形式)。但是,網(wǎng)站 上的大部分信息都被視為公共信息。出于這個(gè)原因,有些人將 robots.txt 文件視為一組建議,而不是具有法律約束力的文件。robots.txt 文件不涉及諸如合乎道德的數據采集和使用等主題。
  在開(kāi)始爬取項目之前,請問(wèn)自己以下問(wèn)題:
  當我抓取 網(wǎng)站 時(shí),請確保您可以對所有這些問(wèn)題回答“否”。
  要深入了解這些法律問(wèn)題,請參閱 Krotov 和 Silva 撰寫(xiě)的網(wǎng)絡(luò )抓取的合法性和道德規范以及 Sellars 撰寫(xiě)的二十年網(wǎng)絡(luò )抓取和計算機欺詐和濫用法案,均于 2018 年出版。
  現在開(kāi)始爬行 網(wǎng)站
  經(jīng)過(guò)上面的評估,我想出了一個(gè)項目。我的目標是抓取愛(ài)達荷州所有 Family Dollar 商店的地址。這些商店在農村地區都很大,所以我想知道有多少家。
  起點(diǎn)是 Family Dollar 位置頁(yè)面
  愛(ài)達荷家庭美元位置頁(yè)面
  首先,讓我們在 Python 虛擬環(huán)境中加載先決條件。此處的代碼將添加到 Python 文件(如果需要名稱(chēng),則為 scraper.py)或在 JupyterLab 的單元格中運行。
  import requests # for making standard html requests
from bs4 import BeautifulSoup # magical tool for parsing html data
import json # for parsing data
from pandas import DataFrame as df # premier library for data organization
  接下來(lái),我們從目標 URL 請求數據。
  page = requests.get("https://locations.familydollar.com/id/")
soup = BeautifulSoup(page.text, &#39;html.parser&#39;)
  BeautifulSoup 將 HTML 或 XML 內容轉換為復雜的樹(shù)對象。以下是我們將使用的一些常見(jiàn)對象類(lèi)型。
  當我們查看 requests.get() 輸出時(shí),需要考慮更多內容。我只是使用 page.text() 將請求的頁(yè)面轉換為可讀的內容,但還有其他輸出類(lèi)型:
  我只使用拉丁字母對簡(jiǎn)單的英語(yǔ) 網(wǎng)站 進(jìn)行操作。請求中的默認編碼設置對此很有效。然而,除了簡(jiǎn)單的英語(yǔ) 網(wǎng)站 之外,還有更大的互聯(lián)網(wǎng)世界。為確保請求正確解析內容,您可以設置文本的編碼:
  page = requests.get(URL)
page.encoding = &#39;ISO-885901&#39;
soup = BeautifulSoup(page.text, &#39;html.parser&#39;)
  仔細觀(guān)察 BeautifulSoup 標簽,我們看到:
  確定如何獲取內容
  警告:此過(guò)程可能令人沮喪。
  網(wǎng)站 抓取過(guò)程中的提取可能是一個(gè)充滿(mǎn)陷阱的艱巨過(guò)程。我認為解決這個(gè)問(wèn)題的最好方法是從一個(gè)有代表性的例子開(kāi)始,然后擴展(這個(gè)原則適用于任何編程任務(wù))。查看頁(yè)面的 HTML 源代碼至關(guān)重要。有很多方法可以做到這一點(diǎn)。
  可以在終端使用Python查看頁(yè)面的全部源碼(不推薦)。運行此代碼需要您自擔風(fēng)險:
  print(soup.prettify())
  雖然打印出頁(yè)面的整個(gè)源代碼可能適用于某些教程中顯示的玩具示例,但大多數現代 網(wǎng)站 頁(yè)面上都有很多東西。即使是 404 頁(yè)面也可以填充頁(yè)眉、頁(yè)腳等代碼。
  通常,在您最喜歡的瀏覽器中通過(guò)“查看頁(yè)面源代碼”瀏覽源代碼最簡(jiǎn)單(右鍵單擊,然后選擇“查看頁(yè)面源代碼”)。這是查找所需內容的最可靠方法(稍后我將解釋原因)。
  Family Dollar頁(yè)面源代碼
  在這種情況下,我需要在這個(gè)巨大的 HTML 海洋中找到我的目標內容——地址、城市、州和郵政編碼。通常只需簡(jiǎn)單搜索頁(yè)面源 (ctrl+F) 即可為您提供目標位置所在的位置。一旦我真正看到我的目標內容示例(至少一家商店的地址),我就會(huì )找到一個(gè)屬性或標簽來(lái)區分該內容與其他內容。
  首先,我需要采集愛(ài)達荷州 Family Dollar 商店中不同城市的 URL,并訪(fǎng)問(wèn)這些 網(wǎng)站 以獲取地址信息。這些 url 似乎收錄在 href 標簽中。驚人的!我將嘗試使用 find_all 命令進(jìn)行搜索:
  dollar_tree_list = soup.find_all(&#39;href&#39;)
dollar_tree_list
  搜索 href 沒(méi)有結果,該死的。這可能會(huì )失敗,因為 href 嵌套在 itemlist 類(lèi)中。下次嘗試時(shí),搜索 item_list。由于 class 是 Python 中的保留字,因此請改用 class_。soup.find_all() 原來(lái)是 bs4 函數的瑞士軍刀。
  dollar_tree_list = soup.find_all(class_ = &#39;itemlist&#39;)
for i in dollar_tree_list[:2]:
? print(i)
  有趣的是,我發(fā)現搜索特定類(lèi)的方法通常是一種成功的方法。通過(guò)找出對象的類(lèi)型和長(cháng)度,我們可以了解更多有關(guān)該對象的信息。
  type(dollar_tree_list)
len(dollar_tree_list)
  您可以使用 .contents 從 BeautifulSoup“結果集”中提取內容。這也是創(chuàng )建單個(gè)代表性示例的好時(shí)機。
  example = dollar_tree_list[2] # a representative example
example_content = example.contents
print(example_content)
  使用 .attr 查找對象內容中存在的屬性。注意:.contents 通常會(huì )返回一個(gè)精確的項目列表,因此第一步是使用括號符號對項目進(jìn)行索引。
  example_content = example.contents[0]
example_content.attrs
  現在,我可以看到 href 是一個(gè)屬性,它可以像字典項一樣被提?。?br />   example_href = example_content[&#39;href&#39;]
print(example_href)
  集成 網(wǎng)站 爬蟲(chóng)
  所有這些探索都為我們提供了前進(jìn)的道路。這是一個(gè)清理版本,以闡明上述邏輯。
  city_hrefs = [] # initialise empty list
for i in dollar_tree_list:
? ? cont = i.contents[0]
? ? href = cont[&#39;href&#39;]
? ? city_hrefs.append(href)
# ?check to be sure all went well
<p>
for i in city_hrefs[:2]:
? print(i)
</p>
  輸出是用于抓取愛(ài)達荷州 Family Dollar 商店的 URL 列表。
  也就是說(shuō),我仍然沒(méi)有得到地址信息!現在需要爬取每個(gè)城市的URL來(lái)獲取這些信息。所以我們從一個(gè)有代表性的例子開(kāi)始。
  page2 = requests.get(city_hrefs[2]) # again establish a representative example
soup2 = BeautifulSoup(page2.text, &#39;html.parser&#39;)
  家庭美元地圖和代碼
  地址信息嵌套在type="application/ld+json"中。在進(jìn)行了大量的地理定位抓取之后,我開(kāi)始意識到這是存儲地址信息的通用結構。幸運的是, soup.find_all() 打開(kāi)了按類(lèi)型搜索。
  arco = soup2.find_all(type="application/ld+json")
print(arco[1])
  地址信息在第二個(gè)列表成員中!我懂了!
  使用 .contents 提取內容(從第二個(gè)列表項)(這是過(guò)濾后合適的默認操作)。同樣,由于輸出是一個(gè)列表,我索引了列表項:
  arco_contents = arco[1].contents[0]
arco_contents
  哦,那看起來(lái)不錯。此處提供的格式與 JSON 格式一致(并且該類(lèi)型的名稱(chēng)中確實(shí)有“json”)。JSON 對象的行為類(lèi)似于具有嵌套字典的字典。一旦您習慣了使用它,它實(shí)際上是一種很好的格式(當然,它比一長(cháng)串正則表達式命令更容易編程)。雖然在結構上它看起來(lái)像一個(gè) JSON 對象,但它仍然是一個(gè) bs4 對象,需要以編程方式轉換為 JSON 對象才能訪(fǎng)問(wèn)它:
  arco_json = ?json.loads(arco_contents)
  type(arco_json)
print(arco_json)
  在該內容中,有一個(gè)名為 address 的鍵,它需要一個(gè)相對較小的嵌套字典中的地址信息。它可以像這樣檢索:
  arco_address = arco_json[&#39;address&#39;]
arco_address
  嗯,請注意?,F在我可以遍歷存儲愛(ài)達荷州 URL 的列表:
  locs_dict = [] # initialise empty list
for link in city_hrefs:
? locpage = requests.get(link) ? # request page info
? locsoup = BeautifulSoup(locpage.text, &#39;html.parser&#39;)
? ? ? # parse the page&#39;s content
? locinfo = locsoup.find_all(type="application/ld+json")
? ? ? # extract specific element
? loccont = locinfo[1].contents[0] ?
? ? ? # get contents from the bs4 element set
? locjson = json.loads(loccont) ?# convert to json
? locaddr = locjson[&#39;address&#39;] # get address
? locs_dict.append(locaddr) # add address to list
  使用 Pandas 組織我們的 網(wǎng)站 抓取結果
  我們已經(jīng)用大量數據加載了字典,但是還有一些額外的無(wú)用項目使得數據的重用變得比需要的更復雜。為了執行最終的數據組織,我們需要將其轉換為 Pandas 數據框,刪除不需要的列@type 和 country,并檢查前五行以確保一切正常。
  locs_df = df.from_records(locs_dict)
locs_df.drop([&#39;@type&#39;, &#39;addressCountry&#39;], axis = 1, inplace = True)
locs_df.head(n = 5)
  一定要保存結果??!
  df.to_csv(locs_df, "family_dollar_ID_locations.csv", sep = ",", index = False)
  我們做到了!Idaho Family Dollar 商店有一個(gè)逗號分隔的列表。多么激動(dòng)人心。
  關(guān)于 Selenium 和數據抓取的一些說(shuō)明
  Selenium 是一種用于自動(dòng)與網(wǎng)頁(yè)交互的常用工具。為了解釋為什么它有時(shí)是必要的,讓我們看一個(gè)使用 Walgreens 網(wǎng)站 的例子?!癐nspect Element”提供瀏覽器顯示內容的代碼:
  雖然“查看頁(yè)面源代碼”提供了有關(guān)將獲得哪些請求的代碼:
  如果這兩者不匹配,則有修改源代碼的插件——因此應該在瀏覽器加載頁(yè)面后訪(fǎng)問(wèn)它。requests 不能做到這一點(diǎn),但 Selenium 可以。
  Selenium 需要網(wǎng)絡(luò )驅動(dòng)程序來(lái)檢索內容。實(shí)際上,它打開(kāi)一個(gè)網(wǎng)絡(luò )瀏覽器并采集該頁(yè)面的內容。Selenium 功能強大 - 它可以通過(guò)多種方式與加載的內容進(jìn)行交互(閱讀文檔)。使用 Selenium 獲取數據后,繼續像以前一樣使用 BeautifulSoup:
  url = "https://www.walgreens.com/stor ... ot%3B
driver = webdriver.Firefox(executable_path = &#39;mypath/geckodriver.exe&#39;)
driver.get(url)
soup_ID = BeautifulSoup(driver.page_source, &#39;html.parser&#39;)
store_link_soup = soup_ID.find_all(class_ = &#39;col-xl-4 col-lg-4 col-md-4&#39;)
  對于 Family Dollar 案例,我不需要 Selenium,但當呈現的內容與源代碼不同時(shí),我會(huì )繼續使用 Selenium。
  概括
  綜上所述,在使用網(wǎng)站爬取完成有意義的任務(wù)時(shí):
  如果您對答案感到好奇:
  家庭美元位置圖
  美國有很多 Family Dollar 商店。
  完整的源代碼是:
  
  import requests
from bs4 import BeautifulSoup
import json
from pandas import DataFrame as df
page = requests.get("https://www.familydollar.com/locations/")
soup = BeautifulSoup(page.text, &#39;html.parser&#39;)
# find all state links
state_list = soup.find_all(class_ = &#39;itemlist&#39;)
state_links = []
for i in state_list:
????cont = i.contents[0]
????attr = cont.attrs
????hrefs = attr[&#39;href&#39;]
????state_links.append(hrefs)
# find all city links
city_links = []
for link in state_links:
????page = requests.get(link)
????soup = BeautifulSoup(page.text, &#39;html.parser&#39;)
????familydollar_list = soup.find_all(class_ = &#39;itemlist&#39;)
????for store in familydollar_list:
????????cont = store.contents[0]
????????attr = cont.attrs
????????city_hrefs = attr[&#39;href&#39;]
????????city_links.append(city_hrefs)
# to get individual store links
store_links = []
for link in city_links:
????locpage = requests.get(link)
????locsoup = BeautifulSoup(locpage.text, &#39;html.parser&#39;)
????locinfo = locsoup.find_all(type="application/ld+json")
????for i in locinfo:
????????loccont = i.contents[0]
????????locjson = json.loads(loccont)
????????try:
????????????store_url = locjson[&#39;url&#39;]
????????????store_links.append(store_url)
????????except:
????????????pass
# get address and geolocation information
stores = []
for store in store_links:
????storepage = requests.get(store)
????storesoup = BeautifulSoup(storepage.text, &#39;html.parser&#39;)
????storeinfo = storesoup.find_all(type="application/ld+json")
????for i in storeinfo:
????????storecont = i.contents[0]
????????storejson = json.loads(storecont)
????????try:
????????????store_addr = storejson[&#39;address&#39;]
????????????store_addr.update(storejson[&#39;geo&#39;])
????????????stores.append(store_addr)
????????except:
????????????pass
# final data parsing
stores_df = df.from_records(stores)
stores_df.drop([&#39;@type&#39;, &#39;addressCountry&#39;], axis = 1, inplace = True)
stores_df[&#39;Store&#39;] = "Family Dollar"
df.to_csv(stores_df, "family_dollar_locations.csv", sep = ",", index = False)
  作者注:本文改編自我于 2020 年 2 月 9 日在俄勒岡州波特蘭的 PyCascades 上的演講。
  通過(guò):
  作者:Julia Piaskowski 題目:lujun9972 譯者:stevenzdg988 校對:wxy
  本文由LCTT原創(chuàng )編譯,Linux中國榮幸推出
  教程:站長(cháng)工具網(wǎng)怎么樣 站長(cháng)工具網(wǎng)介紹
  網(wǎng)站站長(cháng)工具怎么樣?當然很受歡迎!他可以說(shuō)是一款非常流行的SEO工具。這在百度搜索引擎中對SEO關(guān)鍵詞的排名就可以看出來(lái)。一個(gè)沒(méi)有太多內容支持的簡(jiǎn)單工具頁(yè)面就可以做SEO,關(guān)鍵詞,百度搜索引擎搜索結果的自然排名。其次,可以看出 SEO 人員使用此工具的頻率。
  
  它還為我們的 SEO 流程帶來(lái)了新想法,網(wǎng)站 最終的成功在于對用戶(hù)有價(jià)值。下面杭州seo就為大家介紹一下站長(cháng)工具,讓我們看看它們?yōu)槭裁词艿骄W(wǎng)站站長(cháng)的青睞。
  可以看出這個(gè)工具的使用非常簡(jiǎn)單,用戶(hù)只需要輸入網(wǎng)址查詢(xún),然后點(diǎn)擊即可!
   還提供豐富的數據和信息。查詢(xún)主要包括:網(wǎng)站基本信息、百度相關(guān)、網(wǎng)站反鏈、歷史收錄、網(wǎng)站標題、關(guān)鍵詞、描述信息、關(guān)鍵詞排名信息、服務(wù)器信息等。
  
  還有一個(gè)很實(shí)用的功能,長(cháng)尾詞推薦,系統會(huì )推薦一些可以根據我們的網(wǎng)站關(guān)鍵詞優(yōu)化的長(cháng)尾關(guān)鍵詞。在后續的優(yōu)化中加入這些長(cháng)尾關(guān)鍵詞會(huì )大大增加網(wǎng)站的權重。
  SEO站長(cháng)工具可以根據需要對各種信息進(jìn)行分類(lèi)查詢(xún),可以查詢(xún)到的信息比較完整、全面、準確度高。友情鏈接查詢(xún)也比較完善。用戶(hù)體驗,速度和設計都不錯,唯一就是廣告太多。
  但缺點(diǎn)并不能掩蓋優(yōu)點(diǎn)。這也是為什么有3000多種SEO工具,站長(cháng)們卻偏偏偏愛(ài)他的原因!哎~媽的,站長(cháng)工具的魅力無(wú)處安放! 查看全部

  教程:利用 Python 爬取網(wǎng)站的新手指南 | Linux 中國
  關(guān)于合法性,訪(fǎng)問(wèn)大量有價(jià)值的信息可能令人興奮,但僅僅因為它可能并不意味著(zhù)應該這樣做。
  值得慶幸的是,有一些公共信息可以指導我們的道德準則和網(wǎng)絡(luò )抓取工具。大多數 網(wǎng)站 都有一個(gè)與那個(gè) 網(wǎng)站 相關(guān)聯(lián)的 robots.txt 文件,指示哪些爬行活動(dòng)是允許的,哪些是不允許的。它主要用于與搜索引擎交互(網(wǎng)絡(luò )抓取的最終形式)。但是,網(wǎng)站 上的大部分信息都被視為公共信息。出于這個(gè)原因,有些人將 robots.txt 文件視為一組建議,而不是具有法律約束力的文件。robots.txt 文件不涉及諸如合乎道德的數據采集和使用等主題。
  在開(kāi)始爬取項目之前,請問(wèn)自己以下問(wèn)題:
  當我抓取 網(wǎng)站 時(shí),請確保您可以對所有這些問(wèn)題回答“否”。
  要深入了解這些法律問(wèn)題,請參閱 Krotov 和 Silva 撰寫(xiě)的網(wǎng)絡(luò )抓取的合法性和道德規范以及 Sellars 撰寫(xiě)的二十年網(wǎng)絡(luò )抓取和計算機欺詐和濫用法案,均于 2018 年出版。
  現在開(kāi)始爬行 網(wǎng)站
  經(jīng)過(guò)上面的評估,我想出了一個(gè)項目。我的目標是抓取愛(ài)達荷州所有 Family Dollar 商店的地址。這些商店在農村地區都很大,所以我想知道有多少家。
  起點(diǎn)是 Family Dollar 位置頁(yè)面
  愛(ài)達荷家庭美元位置頁(yè)面
  首先,讓我們在 Python 虛擬環(huán)境中加載先決條件。此處的代碼將添加到 Python 文件(如果需要名稱(chēng),則為 scraper.py)或在 JupyterLab 的單元格中運行。
  import requests # for making standard html requests
from bs4 import BeautifulSoup # magical tool for parsing html data
import json # for parsing data
from pandas import DataFrame as df # premier library for data organization
  接下來(lái),我們從目標 URL 請求數據。
  page = requests.get("https://locations.familydollar.com/id/";)
soup = BeautifulSoup(page.text, &#39;html.parser&#39;)
  BeautifulSoup 將 HTML 或 XML 內容轉換為復雜的樹(shù)對象。以下是我們將使用的一些常見(jiàn)對象類(lèi)型。
  當我們查看 requests.get() 輸出時(shí),需要考慮更多內容。我只是使用 page.text() 將請求的頁(yè)面轉換為可讀的內容,但還有其他輸出類(lèi)型:
  我只使用拉丁字母對簡(jiǎn)單的英語(yǔ) 網(wǎng)站 進(jìn)行操作。請求中的默認編碼設置對此很有效。然而,除了簡(jiǎn)單的英語(yǔ) 網(wǎng)站 之外,還有更大的互聯(lián)網(wǎng)世界。為確保請求正確解析內容,您可以設置文本的編碼:
  page = requests.get(URL)
page.encoding = &#39;ISO-885901&#39;
soup = BeautifulSoup(page.text, &#39;html.parser&#39;)
  仔細觀(guān)察 BeautifulSoup 標簽,我們看到:
  確定如何獲取內容
  警告:此過(guò)程可能令人沮喪。
  網(wǎng)站 抓取過(guò)程中的提取可能是一個(gè)充滿(mǎn)陷阱的艱巨過(guò)程。我認為解決這個(gè)問(wèn)題的最好方法是從一個(gè)有代表性的例子開(kāi)始,然后擴展(這個(gè)原則適用于任何編程任務(wù))。查看頁(yè)面的 HTML 源代碼至關(guān)重要。有很多方法可以做到這一點(diǎn)。
  可以在終端使用Python查看頁(yè)面的全部源碼(不推薦)。運行此代碼需要您自擔風(fēng)險:
  print(soup.prettify())
  雖然打印出頁(yè)面的整個(gè)源代碼可能適用于某些教程中顯示的玩具示例,但大多數現代 網(wǎng)站 頁(yè)面上都有很多東西。即使是 404 頁(yè)面也可以填充頁(yè)眉、頁(yè)腳等代碼。
  通常,在您最喜歡的瀏覽器中通過(guò)“查看頁(yè)面源代碼”瀏覽源代碼最簡(jiǎn)單(右鍵單擊,然后選擇“查看頁(yè)面源代碼”)。這是查找所需內容的最可靠方法(稍后我將解釋原因)。
  Family Dollar頁(yè)面源代碼
  在這種情況下,我需要在這個(gè)巨大的 HTML 海洋中找到我的目標內容——地址、城市、州和郵政編碼。通常只需簡(jiǎn)單搜索頁(yè)面源 (ctrl+F) 即可為您提供目標位置所在的位置。一旦我真正看到我的目標內容示例(至少一家商店的地址),我就會(huì )找到一個(gè)屬性或標簽來(lái)區分該內容與其他內容。
  首先,我需要采集愛(ài)達荷州 Family Dollar 商店中不同城市的 URL,并訪(fǎng)問(wèn)這些 網(wǎng)站 以獲取地址信息。這些 url 似乎收錄在 href 標簽中。驚人的!我將嘗試使用 find_all 命令進(jìn)行搜索:
  dollar_tree_list = soup.find_all(&#39;href&#39;)
dollar_tree_list
  搜索 href 沒(méi)有結果,該死的。這可能會(huì )失敗,因為 href 嵌套在 itemlist 類(lèi)中。下次嘗試時(shí),搜索 item_list。由于 class 是 Python 中的保留字,因此請改用 class_。soup.find_all() 原來(lái)是 bs4 函數的瑞士軍刀。
  dollar_tree_list = soup.find_all(class_ = &#39;itemlist&#39;)
for i in dollar_tree_list[:2]:
? print(i)
  有趣的是,我發(fā)現搜索特定類(lèi)的方法通常是一種成功的方法。通過(guò)找出對象的類(lèi)型和長(cháng)度,我們可以了解更多有關(guān)該對象的信息。
  type(dollar_tree_list)
len(dollar_tree_list)
  您可以使用 .contents 從 BeautifulSoup“結果集”中提取內容。這也是創(chuàng )建單個(gè)代表性示例的好時(shí)機。
  example = dollar_tree_list[2] # a representative example
example_content = example.contents
print(example_content)
  使用 .attr 查找對象內容中存在的屬性。注意:.contents 通常會(huì )返回一個(gè)精確的項目列表,因此第一步是使用括號符號對項目進(jìn)行索引。
  example_content = example.contents[0]
example_content.attrs
  現在,我可以看到 href 是一個(gè)屬性,它可以像字典項一樣被提?。?br />   example_href = example_content[&#39;href&#39;]
print(example_href)
  集成 網(wǎng)站 爬蟲(chóng)
  所有這些探索都為我們提供了前進(jìn)的道路。這是一個(gè)清理版本,以闡明上述邏輯。
  city_hrefs = [] # initialise empty list
for i in dollar_tree_list:
? ? cont = i.contents[0]
? ? href = cont[&#39;href&#39;]
? ? city_hrefs.append(href)
# ?check to be sure all went well
<p>
for i in city_hrefs[:2]:
? print(i)
</p>
  輸出是用于抓取愛(ài)達荷州 Family Dollar 商店的 URL 列表。
  也就是說(shuō),我仍然沒(méi)有得到地址信息!現在需要爬取每個(gè)城市的URL來(lái)獲取這些信息。所以我們從一個(gè)有代表性的例子開(kāi)始。
  page2 = requests.get(city_hrefs[2]) # again establish a representative example
soup2 = BeautifulSoup(page2.text, &#39;html.parser&#39;)
  家庭美元地圖和代碼
  地址信息嵌套在type="application/ld+json"中。在進(jìn)行了大量的地理定位抓取之后,我開(kāi)始意識到這是存儲地址信息的通用結構。幸運的是, soup.find_all() 打開(kāi)了按類(lèi)型搜索。
  arco = soup2.find_all(type="application/ld+json")
print(arco[1])
  地址信息在第二個(gè)列表成員中!我懂了!
  使用 .contents 提取內容(從第二個(gè)列表項)(這是過(guò)濾后合適的默認操作)。同樣,由于輸出是一個(gè)列表,我索引了列表項:
  arco_contents = arco[1].contents[0]
arco_contents
  哦,那看起來(lái)不錯。此處提供的格式與 JSON 格式一致(并且該類(lèi)型的名稱(chēng)中確實(shí)有“json”)。JSON 對象的行為類(lèi)似于具有嵌套字典的字典。一旦您習慣了使用它,它實(shí)際上是一種很好的格式(當然,它比一長(cháng)串正則表達式命令更容易編程)。雖然在結構上它看起來(lái)像一個(gè) JSON 對象,但它仍然是一個(gè) bs4 對象,需要以編程方式轉換為 JSON 對象才能訪(fǎng)問(wèn)它:
  arco_json = ?json.loads(arco_contents)
  type(arco_json)
print(arco_json)
  在該內容中,有一個(gè)名為 address 的鍵,它需要一個(gè)相對較小的嵌套字典中的地址信息。它可以像這樣檢索:
  arco_address = arco_json[&#39;address&#39;]
arco_address
  嗯,請注意?,F在我可以遍歷存儲愛(ài)達荷州 URL 的列表:
  locs_dict = [] # initialise empty list
for link in city_hrefs:
? locpage = requests.get(link) ? # request page info
? locsoup = BeautifulSoup(locpage.text, &#39;html.parser&#39;)
? ? ? # parse the page&#39;s content
? locinfo = locsoup.find_all(type="application/ld+json")
? ? ? # extract specific element
? loccont = locinfo[1].contents[0] ?
? ? ? # get contents from the bs4 element set
? locjson = json.loads(loccont) ?# convert to json
? locaddr = locjson[&#39;address&#39;] # get address
? locs_dict.append(locaddr) # add address to list
  使用 Pandas 組織我們的 網(wǎng)站 抓取結果
  我們已經(jīng)用大量數據加載了字典,但是還有一些額外的無(wú)用項目使得數據的重用變得比需要的更復雜。為了執行最終的數據組織,我們需要將其轉換為 Pandas 數據框,刪除不需要的列@type 和 country,并檢查前五行以確保一切正常。
  locs_df = df.from_records(locs_dict)
locs_df.drop([&#39;@type&#39;, &#39;addressCountry&#39;], axis = 1, inplace = True)
locs_df.head(n = 5)
  一定要保存結果??!
  df.to_csv(locs_df, "family_dollar_ID_locations.csv", sep = ",", index = False)
  我們做到了!Idaho Family Dollar 商店有一個(gè)逗號分隔的列表。多么激動(dòng)人心。
  關(guān)于 Selenium 和數據抓取的一些說(shuō)明
  Selenium 是一種用于自動(dòng)與網(wǎng)頁(yè)交互的常用工具。為了解釋為什么它有時(shí)是必要的,讓我們看一個(gè)使用 Walgreens 網(wǎng)站 的例子?!癐nspect Element”提供瀏覽器顯示內容的代碼:
  雖然“查看頁(yè)面源代碼”提供了有關(guān)將獲得哪些請求的代碼:
  如果這兩者不匹配,則有修改源代碼的插件——因此應該在瀏覽器加載頁(yè)面后訪(fǎng)問(wèn)它。requests 不能做到這一點(diǎn),但 Selenium 可以。
  Selenium 需要網(wǎng)絡(luò )驅動(dòng)程序來(lái)檢索內容。實(shí)際上,它打開(kāi)一個(gè)網(wǎng)絡(luò )瀏覽器并采集該頁(yè)面的內容。Selenium 功能強大 - 它可以通過(guò)多種方式與加載的內容進(jìn)行交互(閱讀文檔)。使用 Selenium 獲取數據后,繼續像以前一樣使用 BeautifulSoup:
  url = "https://www.walgreens.com/stor ... ot%3B
driver = webdriver.Firefox(executable_path = &#39;mypath/geckodriver.exe&#39;)
driver.get(url)
soup_ID = BeautifulSoup(driver.page_source, &#39;html.parser&#39;)
store_link_soup = soup_ID.find_all(class_ = &#39;col-xl-4 col-lg-4 col-md-4&#39;)
  對于 Family Dollar 案例,我不需要 Selenium,但當呈現的內容與源代碼不同時(shí),我會(huì )繼續使用 Selenium。
  概括
  綜上所述,在使用網(wǎng)站爬取完成有意義的任務(wù)時(shí):
  如果您對答案感到好奇:
  家庭美元位置圖
  美國有很多 Family Dollar 商店。
  完整的源代碼是:
  
  import requests
from bs4 import BeautifulSoup
import json
from pandas import DataFrame as df
page = requests.get("https://www.familydollar.com/locations/";)
soup = BeautifulSoup(page.text, &#39;html.parser&#39;)
# find all state links
state_list = soup.find_all(class_ = &#39;itemlist&#39;)
state_links = []
for i in state_list:
????cont = i.contents[0]
????attr = cont.attrs
????hrefs = attr[&#39;href&#39;]
????state_links.append(hrefs)
# find all city links
city_links = []
for link in state_links:
????page = requests.get(link)
????soup = BeautifulSoup(page.text, &#39;html.parser&#39;)
????familydollar_list = soup.find_all(class_ = &#39;itemlist&#39;)
????for store in familydollar_list:
????????cont = store.contents[0]
????????attr = cont.attrs
????????city_hrefs = attr[&#39;href&#39;]
????????city_links.append(city_hrefs)
# to get individual store links
store_links = []
for link in city_links:
????locpage = requests.get(link)
????locsoup = BeautifulSoup(locpage.text, &#39;html.parser&#39;)
????locinfo = locsoup.find_all(type="application/ld+json")
????for i in locinfo:
????????loccont = i.contents[0]
????????locjson = json.loads(loccont)
????????try:
????????????store_url = locjson[&#39;url&#39;]
????????????store_links.append(store_url)
????????except:
????????????pass
# get address and geolocation information
stores = []
for store in store_links:
????storepage = requests.get(store)
????storesoup = BeautifulSoup(storepage.text, &#39;html.parser&#39;)
????storeinfo = storesoup.find_all(type="application/ld+json")
????for i in storeinfo:
????????storecont = i.contents[0]
????????storejson = json.loads(storecont)
????????try:
????????????store_addr = storejson[&#39;address&#39;]
????????????store_addr.update(storejson[&#39;geo&#39;])
????????????stores.append(store_addr)
????????except:
????????????pass
# final data parsing
stores_df = df.from_records(stores)
stores_df.drop([&#39;@type&#39;, &#39;addressCountry&#39;], axis = 1, inplace = True)
stores_df[&#39;Store&#39;] = "Family Dollar"
df.to_csv(stores_df, "family_dollar_locations.csv", sep = ",", index = False)
  作者注:本文改編自我于 2020 年 2 月 9 日在俄勒岡州波特蘭的 PyCascades 上的演講。
  通過(guò):
  作者:Julia Piaskowski 題目:lujun9972 譯者:stevenzdg988 校對:wxy
  本文由LCTT原創(chuàng )編譯,Linux中國榮幸推出
  教程:站長(cháng)工具網(wǎng)怎么樣 站長(cháng)工具網(wǎng)介紹
  網(wǎng)站站長(cháng)工具怎么樣?當然很受歡迎!他可以說(shuō)是一款非常流行的SEO工具。這在百度搜索引擎中對SEO關(guān)鍵詞的排名就可以看出來(lái)。一個(gè)沒(méi)有太多內容支持的簡(jiǎn)單工具頁(yè)面就可以做SEO,關(guān)鍵詞,百度搜索引擎搜索結果的自然排名。其次,可以看出 SEO 人員使用此工具的頻率。
  
  它還為我們的 SEO 流程帶來(lái)了新想法,網(wǎng)站 最終的成功在于對用戶(hù)有價(jià)值。下面杭州seo就為大家介紹一下站長(cháng)工具,讓我們看看它們?yōu)槭裁词艿骄W(wǎng)站站長(cháng)的青睞。
  可以看出這個(gè)工具的使用非常簡(jiǎn)單,用戶(hù)只需要輸入網(wǎng)址查詢(xún),然后點(diǎn)擊即可!
   還提供豐富的數據和信息。查詢(xún)主要包括:網(wǎng)站基本信息、百度相關(guān)、網(wǎng)站反鏈、歷史收錄、網(wǎng)站標題、關(guān)鍵詞、描述信息、關(guān)鍵詞排名信息、服務(wù)器信息等。
  
  還有一個(gè)很實(shí)用的功能,長(cháng)尾詞推薦,系統會(huì )推薦一些可以根據我們的網(wǎng)站關(guān)鍵詞優(yōu)化的長(cháng)尾關(guān)鍵詞。在后續的優(yōu)化中加入這些長(cháng)尾關(guān)鍵詞會(huì )大大增加網(wǎng)站的權重。
  SEO站長(cháng)工具可以根據需要對各種信息進(jìn)行分類(lèi)查詢(xún),可以查詢(xún)到的信息比較完整、全面、準確度高。友情鏈接查詢(xún)也比較完善。用戶(hù)體驗,速度和設計都不錯,唯一就是廣告太多。
  但缺點(diǎn)并不能掩蓋優(yōu)點(diǎn)。這也是為什么有3000多種SEO工具,站長(cháng)們卻偏偏偏愛(ài)他的原因!哎~媽的,站長(cháng)工具的魅力無(wú)處安放!

解決方案:一種基于影視素材本體的關(guān)鍵詞查詢(xún)擴展方法研究

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 94 次瀏覽 ? 2022-12-05 22:15 ? 來(lái)自相關(guān)話(huà)題

  解決方案:一種基于影視素材本體的關(guān)鍵詞查詢(xún)擴展方法研究
  沉毅1,趙琳2
  (1.上海大學(xué)計算機中心 上海 200444;2.上海大學(xué)計算機工程與科學(xué)學(xué)院 上海 200444)
  : 在語(yǔ)義搜索引擎系統中,為了在不限制用戶(hù)輸入的情況下使檢索內容更貼近用戶(hù)需求,提出了一種基于視頻素材本體的查詢(xún)擴展方法。根據本體模型對用戶(hù)檢索文本中的關(guān)鍵詞進(jìn)行推理,并根據相似語(yǔ)義進(jìn)行擴展,旨在得到更符合用戶(hù)檢索需求的擴展關(guān)鍵詞集,并在以此為基礎來(lái)檢索視頻素材,從而提高搜索引擎的召回率。
 ?。赫Z(yǔ)義搜索;本體;查詢(xún)擴展;視頻片段
  基于關(guān)鍵詞的搜索引擎的查詢(xún)擴展通常以檢索文本中的關(guān)鍵詞為中心,與這些關(guān)鍵詞相關(guān)的語(yǔ)義概念很少被收錄在擴展集中。在這種情況下,當用戶(hù)輸入的搜索內容較少時(shí),系統根據擴展集搜索得到的結果準確率和召回率較低,不能滿(mǎn)足用戶(hù)的需求。因此,基于關(guān)鍵詞的搜索引擎無(wú)法消除用戶(hù)需求與檢索結果之間的不一致?;诒倔w的關(guān)鍵詞查詢(xún)擴展彌補了這一不足。該技術(shù)結合了本體、搜索引擎、計算機語(yǔ)言學(xué)等技術(shù),將用戶(hù)輸入的搜索文本中的關(guān)鍵詞提取出來(lái),并與這些關(guān)鍵詞相關(guān)的詞一起,形成一個(gè)新的、更長(cháng)、擴展的 關(guān)鍵詞 集,可以更準確地表達用戶(hù)的搜索需求。根據這個(gè)集合,我們可以盡可能全面地了解用戶(hù)的搜索意圖。在[1]的基礎上對信息資源進(jìn)行檢索,從而在一定程度上彌補了用戶(hù)檢索信息的不足,同時(shí)提高了搜索引擎的召回率。
  1 相關(guān)研究
  本體論起源于哲學(xué),又稱(chēng)本體論、本體論或本體論。GRUBER TR [2] 對本體的定義“本體是共享概念模型的清晰和形式化的規范”得到了最廣泛的認可。自2000年本體概念被引入人工智能領(lǐng)域以來(lái),本體引起了各個(gè)學(xué)科的極大興趣。
  目前,本體描述語(yǔ)言有很多種。由于Web Ontology Language (OWL)格式在所有本體語(yǔ)言中具有最強的描述能力,能夠清晰地表達詞表中術(shù)語(yǔ)的含義和術(shù)語(yǔ)之間的關(guān)系,使其在Web內容的可理解性上更勝一籌到其他幾種本體語(yǔ)言,所以本文選擇OWL作為本文的本體描述語(yǔ)言。
  1.2 本體推理
  除了本體中直接定義的知識外,還有很多隱含的其他知識,需要借助推理工具進(jìn)行關(guān)鍵詞推理和查詢(xún),從而獲得隱含的知識。本文選擇Jena[3]作為影視領(lǐng)域的本體推理引擎。Jena 是惠普開(kāi)發(fā)的 Java 開(kāi)源工具包。其推理API以其強大的推理功能可以操作OWL描述的本體。它已廣泛用于語(yǔ)義 Web 應用程序中。
  在本文中,Jena推理需要實(shí)現以下內容: (1) 實(shí)現將本體持久化到數據庫的操作;(2)推理類(lèi)間關(guān)系,對視頻素材本體模型進(jìn)行分析,生成一組描述概念上下關(guān)系的三元組,用于后續計算本體模型中的概念相似度。
  1.3 查詢(xún)擴展
  為了提高檢索的命中率,需要利用查詢(xún)擴展技術(shù)[4],在不限制檢索文本內容的情況下,根據用戶(hù)輸入的檢索信息中的關(guān)鍵詞進(jìn)行語(yǔ)義擴展由用戶(hù)輸入?;诒倔w的查詢(xún)擴展技術(shù)的引入在信息檢索過(guò)程中取得了一定的效果。該技術(shù)基于領(lǐng)域本體推理得到的知識,通過(guò)計算本體概念的相似度,將本體中與檢索關(guān)鍵詞相關(guān)的概念作為查詢(xún)擴展的一部分。這種通過(guò)量化得到的query expansion set,不僅降低了search bias,而且限制了檢索關(guān)鍵詞擴展的范圍,從而大大提高了召回率。
  2 基于視頻素材本體的查詢(xún)擴展
  2.1 視頻素材本體建模
  基于影視素材本體的關(guān)鍵詞查詢(xún)擴展采用語(yǔ)義技術(shù)對本體中的概念進(jìn)行推理擴展,推理擴展基于影視素材本體模型。
  本文采用Protégé,采用圖解建模的方法構建影視本體模型。您可以在Protégé中點(diǎn)擊相應的項,添加或編輯類(lèi)、子類(lèi)、屬性、實(shí)例等。建模完成后,保存為OWL格式文件,Protégé自動(dòng)將本體轉換為OWL格式語(yǔ)言。視頻素材本體建模后的部分效果如圖1所示。
  2.2 查詢(xún)推理規則
  Jena自帶的通用規則[5]不會(huì )限定具體領(lǐng)域,主要檢查本體中基于實(shí)例、公理和規則的層次關(guān)系、傳遞性、類(lèi)間不相交性等概念和約束的可滿(mǎn)足性,因此實(shí)現查詢(xún)隱式。收錄信息并擴展隱性知識。當Jena自帶的規則不能滿(mǎn)足系統的推理需求時(shí),可以自定義規則來(lái)滿(mǎn)足系統的個(gè)性化需求。本文借助SPARQL[6]查詢(xún)語(yǔ)言,建立自定義查詢(xún)規則,以獲得更準確的查詢(xún)結果。
  SPARQL 由 W3C 發(fā)起。它根據定義匹配的三元組模板查詢(xún)RDF,可以將RDF中滿(mǎn)足一定條件的三元組以集合或RDF圖的形式作為查詢(xún)結果返回。SPARQL提供了四種不同的查詢(xún)形式[7]:SELECT、ASK、CONSTRUCT、DESCRIBE,其中SELECT是最常用的查詢(xún)類(lèi)型,本文也采用這種查詢(xún)形式。SPARQL的查詢(xún)語(yǔ)法是四元組(GP, DS, SM, R),其中DS和R可以根據查詢(xún)需要省略。查詢(xún)語(yǔ)句的格式如表1所示。
  2.3 相似度值和查詢(xún)擴展閾值的確定
  
  本文不討論相似度和查詢(xún)擴展閾值的詳細計算過(guò)程,僅給出簡(jiǎn)要的處理方法。
  影響概念語(yǔ)義相似度的因素很多,常見(jiàn)的有:字面相似度、語(yǔ)義重合度、距離相似度、層次差異和層次深度、屬性匹配等,需要結合本體的結構和屬性模型,將相關(guān)因素帶入相似度計算方法,綜合各種影響因素,得到概念相似度計算公式。
  得到本體中概念的相似度后,在查詢(xún)擴展的過(guò)程中,需要確定一個(gè)閾值,過(guò)濾相似度不滿(mǎn)足閾值的概念,將滿(mǎn)足閾值的概念加入到查詢(xún)擴展集中。通常的閾值確定方式是:根據本體中小規模測試概念的相似度值和暫定閾值,人工評估相似度滿(mǎn)足閾值的概念是否滿(mǎn)足系統要求,通過(guò)不斷實(shí)驗調整閾值,最后確定閾值。
  3 語(yǔ)義擴展
  3.1關(guān)鍵詞查詢(xún)擴展過(guò)程
  本節結合本體模型和推理規則,在參考文獻[1]和[8]的基礎上,總結了擴展視頻素材檢索文本中關(guān)鍵詞的語(yǔ)義相似度的過(guò)程,如圖2所示. 其中,sim1(A,B)和sim2(A,B)表示根據關(guān)鍵詞是否為影視素材本體中的概念來(lái)判斷不同情況下的相似度計算公式,綜合影響影響概念相似度的各種因素;而a和b是用來(lái)過(guò)濾相似度概念的閾值。經(jīng)過(guò)實(shí)驗和不斷調整參數,最終將a設為0.51,b設為0.63。
  關(guān)鍵詞語(yǔ)義相似度擴展過(guò)程如下:首先將檢索文本預處理后得到的關(guān)鍵詞集中的關(guān)鍵詞添加到擴展的關(guān)鍵詞集中,然后依次添加關(guān)鍵詞集中的每一個(gè)關(guān)鍵詞判斷它是否是視頻素材本體中的一個(gè)概念。如果當前關(guān)鍵詞不是本體中的概念,則需要找到本體中根據公式sim1(A,B)計算的相似度大于閾值a的概念,將這些概念添加到擴展的 關(guān)鍵詞 集;如果當前關(guān)鍵詞是影視素材本體中的概念,則檢查本體中是否存在與當前關(guān)鍵詞等價(jià)的關(guān)鍵詞,如果有,則添加&lt; 中擴展名的等效詞
  3.2 查詢(xún)擴展實(shí)現
  在關(guān)鍵詞查詢(xún)擴展實(shí)現部分,本文使用MySQL數據庫存儲數據。以下是查詢(xún)擴展實(shí)現計算中用到的數據表:
  searchText:用于存儲預處理后得到的檢索到的關(guān)鍵詞;
  classCon:存放Jena解析本體文件后得到的概念信息,包括(節點(diǎn)ID,節點(diǎn)名稱(chēng),節點(diǎn)層級,父節點(diǎn)ID);
  classInOnt:存儲本體中滿(mǎn)足閾值b的節點(diǎn)對及其相似度信息,包括(節點(diǎn)AID,節點(diǎn)BID,相似度);
  classDouble:存儲預處理得到的關(guān)鍵詞,而不是本體中的節點(diǎn),以及本體中與這個(gè)關(guān)鍵詞相似度達到閾值b的節點(diǎn)信息,以及兩者信息的相似度. 包括(關(guān)鍵詞, 節點(diǎn)ID, 節點(diǎn)名稱(chēng), 相似度);
  expandKeywords:存儲展開(kāi)的關(guān)鍵詞,包括(節點(diǎn)ID,節點(diǎn)名稱(chēng),相似度)。
  下面給出基于視頻素材本體的關(guān)鍵詞查詢(xún)擴展的實(shí)現:
  (1) 獲取領(lǐng)域本體文件;
  (2)利用Jena解析本體文件,生成一組描述上下關(guān)系概念的三元組,以文件的形式存入內存;
  (3) 對于步驟(2)中文件中的三元組,從根節點(diǎn)開(kāi)始,依次遍歷每個(gè)節點(diǎn),將節點(diǎn)信息保存到表classCon中;
  (4)從表classCon中讀取節點(diǎn)并組成所有節點(diǎn)對,以(節點(diǎn)1,節點(diǎn)2,相似度)的形式寫(xiě)入到表classInOnt中,其中相似度值設置為0;
  (5)將表classInOnt中未處理的記錄一一取出,根據取出的記錄和本體模型計算影響兩個(gè)概念相似度的不同因素的值;
  (6)根據公式sim2(A,B)根據步驟(5)中計算出的決定語(yǔ)義相似度的因子的值計算概念對的相似度,修改表classInOnt中對應的相似度值;
  (7)檢查表classInOnt中是否有未處理的記錄,如果有,轉步驟(5);否則轉步驟(8);
  (8)刪除表classInOnt中相似度小于閾值b的節點(diǎn)對,完成本體中節點(diǎn)對相似度值的更新;
  
  (9) 根據步驟(4)~(8),可以完成表classDouble中關(guān)鍵詞和節點(diǎn)對的更新。不同的是概念相似度需要根據公式sim1(A,B)計算,保留的關(guān)鍵詞與節點(diǎn)對的相似度需要滿(mǎn)足閾值a;
  (10) 從表searchText中取出一個(gè)未處理的關(guān)鍵詞,判斷是否是本體中的概念,如果是則將其相似度設為1,將關(guān)鍵詞和相似度值相加給extension中的關(guān)鍵詞設置expandKeywords,判斷本體中是否有與當前關(guān)鍵詞等價(jià)的概念,如果有,則在expandKeywords中加入等價(jià)詞,并設置對應的相似度值與 1 等價(jià)的詞,轉步驟(11),否則轉步驟(12);
  (11) 從表classInOnt中找到與當前關(guān)鍵詞的節點(diǎn)對的關(guān)鍵詞,將這些關(guān)鍵詞和節點(diǎn)對的相似度添加到expandKeywords;
  (12) 從表classDouble中找到與當前關(guān)鍵詞組成的節點(diǎn)對的節點(diǎn),將這些節點(diǎn)及其相似度添加到expandKeywords;
  (13)檢查searchText中是否有未處理的關(guān)鍵詞,如果有則轉步驟(10),否則轉步驟(14);
  (14) 輸出存儲擴展后的關(guān)鍵詞的表expandKeywords,算法結束。
  通過(guò)上述算法得到擴展的關(guān)鍵詞集合。
  3.3 查詢(xún)擴展實(shí)驗
  為了驗證關(guān)鍵詞相似度查詢(xún)擴展算法的有效性,用視頻素材本體模型對該算法進(jìn)行了驗證。選擇搜索文本“兩個(gè)孩子在路上騎自行車(chē)”。"、"Bicycle",根據3.2節的擴展實(shí)現算法查詢(xún)擴展這些關(guān)鍵詞,得到擴展后的關(guān)鍵詞和對應的相似度,如表2所示。
  從表2可以看出,對檢索到的文本“兩個(gè)孩子騎自行車(chē)”進(jìn)行預處理和語(yǔ)義相似度擴展后,得到擴展的關(guān)鍵詞集合,計算集合的相似度值從大到小排序, 如表 3 所示。
  由表2和表3可知,根據本文的研究,檢索關(guān)鍵詞基于影視素材本體模型進(jìn)行了擴展,擴展集中的概念能夠反映用戶(hù)的檢索意圖更完整,從而驗證了本文。所提出的關(guān)鍵詞 查詢(xún)擴展方法的有效性。
  4。結論
  本文基于影視領(lǐng)域的本體模型,研究了關(guān)鍵詞在素材檢索過(guò)程中的查詢(xún)擴展,提出了關(guān)鍵詞根據相似度進(jìn)行擴展的實(shí)現方案,即在搜索文本中搜索關(guān)鍵詞,對影視素材本體模型中的概念進(jìn)行推理,得到相似度滿(mǎn)足閾值的查詢(xún)擴展集。實(shí)驗結果表明,擴展后的關(guān)鍵詞集能夠充分收錄用戶(hù)的檢索需求。本文的下一步是對根據擴展關(guān)鍵詞集關(guān)鍵詞中的相似關(guān)系對檢索結果進(jìn)行排序進(jìn)行深入研究。
  參考
  [1] 干建侯, 蔣悅.本體方法及其應用[M].北京:科學(xué)出版社,2011.
 ?。?]GRUBER T R. 用于知識共享的本體設計原則[J].國際人機研究雜志, 1995, 43(56): 907928.
 ?。?]Apache Jena入門(mén)[EB/OL].(2015××××)[20160130].
  [4]李帥.基于語(yǔ)義相似度的查詢(xún)擴展優(yōu)化[D].杭州: 杭州電子科技大學(xué), 2011.
 ?。?]李冰.基于領(lǐng)域本體的專(zhuān)利語(yǔ)義檢索研究[D].北京:北京理工大學(xué),2015.
  [6] W3C.SPARQL Query Language for RDF [EB/OL].(2013-03-21)[2016-01-20]. /TR/2013/REC-sparql11-query-20130321/.
 ?。?]岳曉璐.語(yǔ)義Web中RDF數據關(guān)聯(lián)規則挖掘方法研究[D].大連: 大連海事大學(xué), 2015.
  [8] 陸靖.基于語(yǔ)義網(wǎng)的語(yǔ)義搜索研究與應用[D].北京:北京工業(yè)大學(xué),2013.
  最新版本:dxc采集器破解版vip3.0 discuz論壇采集插件 vip商業(yè)版dz3
  溫馨提示:本插件所有者親身測試后方可使用。樓主使用的程序是dz3.3,請放過(guò)小白
  DXC 3.0 的主要功能包括:
  1. 采集文章 各種形式的url列表,包括rss地址、列表頁(yè)、多級列表等。
  2.多種規則編寫(xiě)方式,DOM模式,字符截取,智能獲取,更方便的獲取想要的內容
  3.規則繼承,自動(dòng)檢測匹配規則功能,你會(huì )逐漸體會(huì )到規則繼承帶來(lái)的便利
  4、獨特的網(wǎng)頁(yè)文本提取算法,自動(dòng)學(xué)習歸納規則,平移采集更方便。
  5.支持圖片定位和水印
  
  6.靈活的發(fā)布機制,可以設置發(fā)布者、發(fā)布時(shí)間點(diǎn)擊率等。
  7、強大的內容編輯后臺,可以輕松編輯采集內容,發(fā)布到門(mén)戶(hù)、論壇、博客
  8、內容過(guò)濾功能,針對采集的內容過(guò)濾廣告,剔除不必要的區域
  9.批量采集,注冊會(huì )員,批量采集,設置會(huì )員頭像
  10. 無(wú)人值守定期量化采集和發(fā)布文章
  ★、這個(gè)插件里面有詳細的教程,仔細看就會(huì )安裝
  ★、本插件為DXC3.0版本,
  【鄭重聲明】:由于模板價(jià)格極低,#標簽不提供技術(shù)支持#。插件安裝需要一定的discuz安裝使用經(jīng)驗,新手和不接受的請勿拍。需要幫忙安裝的可以加50元,我可以幫忙安裝
  
  請看下圖 查看全部

  解決方案:一種基于影視素材本體的關(guān)鍵詞查詢(xún)擴展方法研究
  沉毅1,趙琳2
  (1.上海大學(xué)計算機中心 上海 200444;2.上海大學(xué)計算機工程與科學(xué)學(xué)院 上海 200444)
  : 在語(yǔ)義搜索引擎系統中,為了在不限制用戶(hù)輸入的情況下使檢索內容更貼近用戶(hù)需求,提出了一種基于視頻素材本體的查詢(xún)擴展方法。根據本體模型對用戶(hù)檢索文本中的關(guān)鍵詞進(jìn)行推理,并根據相似語(yǔ)義進(jìn)行擴展,旨在得到更符合用戶(hù)檢索需求的擴展關(guān)鍵詞集,并在以此為基礎來(lái)檢索視頻素材,從而提高搜索引擎的召回率。
 ?。赫Z(yǔ)義搜索;本體;查詢(xún)擴展;視頻片段
  基于關(guān)鍵詞的搜索引擎的查詢(xún)擴展通常以檢索文本中的關(guān)鍵詞為中心,與這些關(guān)鍵詞相關(guān)的語(yǔ)義概念很少被收錄在擴展集中。在這種情況下,當用戶(hù)輸入的搜索內容較少時(shí),系統根據擴展集搜索得到的結果準確率和召回率較低,不能滿(mǎn)足用戶(hù)的需求。因此,基于關(guān)鍵詞的搜索引擎無(wú)法消除用戶(hù)需求與檢索結果之間的不一致?;诒倔w的關(guān)鍵詞查詢(xún)擴展彌補了這一不足。該技術(shù)結合了本體、搜索引擎、計算機語(yǔ)言學(xué)等技術(shù),將用戶(hù)輸入的搜索文本中的關(guān)鍵詞提取出來(lái),并與這些關(guān)鍵詞相關(guān)的詞一起,形成一個(gè)新的、更長(cháng)、擴展的 關(guān)鍵詞 集,可以更準確地表達用戶(hù)的搜索需求。根據這個(gè)集合,我們可以盡可能全面地了解用戶(hù)的搜索意圖。在[1]的基礎上對信息資源進(jìn)行檢索,從而在一定程度上彌補了用戶(hù)檢索信息的不足,同時(shí)提高了搜索引擎的召回率。
  1 相關(guān)研究
  本體論起源于哲學(xué),又稱(chēng)本體論、本體論或本體論。GRUBER TR [2] 對本體的定義“本體是共享概念模型的清晰和形式化的規范”得到了最廣泛的認可。自2000年本體概念被引入人工智能領(lǐng)域以來(lái),本體引起了各個(gè)學(xué)科的極大興趣。
  目前,本體描述語(yǔ)言有很多種。由于Web Ontology Language (OWL)格式在所有本體語(yǔ)言中具有最強的描述能力,能夠清晰地表達詞表中術(shù)語(yǔ)的含義和術(shù)語(yǔ)之間的關(guān)系,使其在Web內容的可理解性上更勝一籌到其他幾種本體語(yǔ)言,所以本文選擇OWL作為本文的本體描述語(yǔ)言。
  1.2 本體推理
  除了本體中直接定義的知識外,還有很多隱含的其他知識,需要借助推理工具進(jìn)行關(guān)鍵詞推理和查詢(xún),從而獲得隱含的知識。本文選擇Jena[3]作為影視領(lǐng)域的本體推理引擎。Jena 是惠普開(kāi)發(fā)的 Java 開(kāi)源工具包。其推理API以其強大的推理功能可以操作OWL描述的本體。它已廣泛用于語(yǔ)義 Web 應用程序中。
  在本文中,Jena推理需要實(shí)現以下內容: (1) 實(shí)現將本體持久化到數據庫的操作;(2)推理類(lèi)間關(guān)系,對視頻素材本體模型進(jìn)行分析,生成一組描述概念上下關(guān)系的三元組,用于后續計算本體模型中的概念相似度。
  1.3 查詢(xún)擴展
  為了提高檢索的命中率,需要利用查詢(xún)擴展技術(shù)[4],在不限制檢索文本內容的情況下,根據用戶(hù)輸入的檢索信息中的關(guān)鍵詞進(jìn)行語(yǔ)義擴展由用戶(hù)輸入?;诒倔w的查詢(xún)擴展技術(shù)的引入在信息檢索過(guò)程中取得了一定的效果。該技術(shù)基于領(lǐng)域本體推理得到的知識,通過(guò)計算本體概念的相似度,將本體中與檢索關(guān)鍵詞相關(guān)的概念作為查詢(xún)擴展的一部分。這種通過(guò)量化得到的query expansion set,不僅降低了search bias,而且限制了檢索關(guān)鍵詞擴展的范圍,從而大大提高了召回率。
  2 基于視頻素材本體的查詢(xún)擴展
  2.1 視頻素材本體建模
  基于影視素材本體的關(guān)鍵詞查詢(xún)擴展采用語(yǔ)義技術(shù)對本體中的概念進(jìn)行推理擴展,推理擴展基于影視素材本體模型。
  本文采用Protégé,采用圖解建模的方法構建影視本體模型。您可以在Protégé中點(diǎn)擊相應的項,添加或編輯類(lèi)、子類(lèi)、屬性、實(shí)例等。建模完成后,保存為OWL格式文件,Protégé自動(dòng)將本體轉換為OWL格式語(yǔ)言。視頻素材本體建模后的部分效果如圖1所示。
  2.2 查詢(xún)推理規則
  Jena自帶的通用規則[5]不會(huì )限定具體領(lǐng)域,主要檢查本體中基于實(shí)例、公理和規則的層次關(guān)系、傳遞性、類(lèi)間不相交性等概念和約束的可滿(mǎn)足性,因此實(shí)現查詢(xún)隱式。收錄信息并擴展隱性知識。當Jena自帶的規則不能滿(mǎn)足系統的推理需求時(shí),可以自定義規則來(lái)滿(mǎn)足系統的個(gè)性化需求。本文借助SPARQL[6]查詢(xún)語(yǔ)言,建立自定義查詢(xún)規則,以獲得更準確的查詢(xún)結果。
  SPARQL 由 W3C 發(fā)起。它根據定義匹配的三元組模板查詢(xún)RDF,可以將RDF中滿(mǎn)足一定條件的三元組以集合或RDF圖的形式作為查詢(xún)結果返回。SPARQL提供了四種不同的查詢(xún)形式[7]:SELECT、ASK、CONSTRUCT、DESCRIBE,其中SELECT是最常用的查詢(xún)類(lèi)型,本文也采用這種查詢(xún)形式。SPARQL的查詢(xún)語(yǔ)法是四元組(GP, DS, SM, R),其中DS和R可以根據查詢(xún)需要省略。查詢(xún)語(yǔ)句的格式如表1所示。
  2.3 相似度值和查詢(xún)擴展閾值的確定
  
  本文不討論相似度和查詢(xún)擴展閾值的詳細計算過(guò)程,僅給出簡(jiǎn)要的處理方法。
  影響概念語(yǔ)義相似度的因素很多,常見(jiàn)的有:字面相似度、語(yǔ)義重合度、距離相似度、層次差異和層次深度、屬性匹配等,需要結合本體的結構和屬性模型,將相關(guān)因素帶入相似度計算方法,綜合各種影響因素,得到概念相似度計算公式。
  得到本體中概念的相似度后,在查詢(xún)擴展的過(guò)程中,需要確定一個(gè)閾值,過(guò)濾相似度不滿(mǎn)足閾值的概念,將滿(mǎn)足閾值的概念加入到查詢(xún)擴展集中。通常的閾值確定方式是:根據本體中小規模測試概念的相似度值和暫定閾值,人工評估相似度滿(mǎn)足閾值的概念是否滿(mǎn)足系統要求,通過(guò)不斷實(shí)驗調整閾值,最后確定閾值。
  3 語(yǔ)義擴展
  3.1關(guān)鍵詞查詢(xún)擴展過(guò)程
  本節結合本體模型和推理規則,在參考文獻[1]和[8]的基礎上,總結了擴展視頻素材檢索文本中關(guān)鍵詞的語(yǔ)義相似度的過(guò)程,如圖2所示. 其中,sim1(A,B)和sim2(A,B)表示根據關(guān)鍵詞是否為影視素材本體中的概念來(lái)判斷不同情況下的相似度計算公式,綜合影響影響概念相似度的各種因素;而a和b是用來(lái)過(guò)濾相似度概念的閾值。經(jīng)過(guò)實(shí)驗和不斷調整參數,最終將a設為0.51,b設為0.63。
  關(guān)鍵詞語(yǔ)義相似度擴展過(guò)程如下:首先將檢索文本預處理后得到的關(guān)鍵詞集中的關(guān)鍵詞添加到擴展的關(guān)鍵詞集中,然后依次添加關(guān)鍵詞集中的每一個(gè)關(guān)鍵詞判斷它是否是視頻素材本體中的一個(gè)概念。如果當前關(guān)鍵詞不是本體中的概念,則需要找到本體中根據公式sim1(A,B)計算的相似度大于閾值a的概念,將這些概念添加到擴展的 關(guān)鍵詞 集;如果當前關(guān)鍵詞是影視素材本體中的概念,則檢查本體中是否存在與當前關(guān)鍵詞等價(jià)的關(guān)鍵詞,如果有,則添加&lt; 中擴展名的等效詞
  3.2 查詢(xún)擴展實(shí)現
  在關(guān)鍵詞查詢(xún)擴展實(shí)現部分,本文使用MySQL數據庫存儲數據。以下是查詢(xún)擴展實(shí)現計算中用到的數據表:
  searchText:用于存儲預處理后得到的檢索到的關(guān)鍵詞;
  classCon:存放Jena解析本體文件后得到的概念信息,包括(節點(diǎn)ID,節點(diǎn)名稱(chēng),節點(diǎn)層級,父節點(diǎn)ID);
  classInOnt:存儲本體中滿(mǎn)足閾值b的節點(diǎn)對及其相似度信息,包括(節點(diǎn)AID,節點(diǎn)BID,相似度);
  classDouble:存儲預處理得到的關(guān)鍵詞,而不是本體中的節點(diǎn),以及本體中與這個(gè)關(guān)鍵詞相似度達到閾值b的節點(diǎn)信息,以及兩者信息的相似度. 包括(關(guān)鍵詞, 節點(diǎn)ID, 節點(diǎn)名稱(chēng), 相似度);
  expandKeywords:存儲展開(kāi)的關(guān)鍵詞,包括(節點(diǎn)ID,節點(diǎn)名稱(chēng),相似度)。
  下面給出基于視頻素材本體的關(guān)鍵詞查詢(xún)擴展的實(shí)現:
  (1) 獲取領(lǐng)域本體文件;
  (2)利用Jena解析本體文件,生成一組描述上下關(guān)系概念的三元組,以文件的形式存入內存;
  (3) 對于步驟(2)中文件中的三元組,從根節點(diǎn)開(kāi)始,依次遍歷每個(gè)節點(diǎn),將節點(diǎn)信息保存到表classCon中;
  (4)從表classCon中讀取節點(diǎn)并組成所有節點(diǎn)對,以(節點(diǎn)1,節點(diǎn)2,相似度)的形式寫(xiě)入到表classInOnt中,其中相似度值設置為0;
  (5)將表classInOnt中未處理的記錄一一取出,根據取出的記錄和本體模型計算影響兩個(gè)概念相似度的不同因素的值;
  (6)根據公式sim2(A,B)根據步驟(5)中計算出的決定語(yǔ)義相似度的因子的值計算概念對的相似度,修改表classInOnt中對應的相似度值;
  (7)檢查表classInOnt中是否有未處理的記錄,如果有,轉步驟(5);否則轉步驟(8);
  (8)刪除表classInOnt中相似度小于閾值b的節點(diǎn)對,完成本體中節點(diǎn)對相似度值的更新;
  
  (9) 根據步驟(4)~(8),可以完成表classDouble中關(guān)鍵詞和節點(diǎn)對的更新。不同的是概念相似度需要根據公式sim1(A,B)計算,保留的關(guān)鍵詞與節點(diǎn)對的相似度需要滿(mǎn)足閾值a;
  (10) 從表searchText中取出一個(gè)未處理的關(guān)鍵詞,判斷是否是本體中的概念,如果是則將其相似度設為1,將關(guān)鍵詞和相似度值相加給extension中的關(guān)鍵詞設置expandKeywords,判斷本體中是否有與當前關(guān)鍵詞等價(jià)的概念,如果有,則在expandKeywords中加入等價(jià)詞,并設置對應的相似度值與 1 等價(jià)的詞,轉步驟(11),否則轉步驟(12);
  (11) 從表classInOnt中找到與當前關(guān)鍵詞的節點(diǎn)對的關(guān)鍵詞,將這些關(guān)鍵詞和節點(diǎn)對的相似度添加到expandKeywords;
  (12) 從表classDouble中找到與當前關(guān)鍵詞組成的節點(diǎn)對的節點(diǎn),將這些節點(diǎn)及其相似度添加到expandKeywords;
  (13)檢查searchText中是否有未處理的關(guān)鍵詞,如果有則轉步驟(10),否則轉步驟(14);
  (14) 輸出存儲擴展后的關(guān)鍵詞的表expandKeywords,算法結束。
  通過(guò)上述算法得到擴展的關(guān)鍵詞集合。
  3.3 查詢(xún)擴展實(shí)驗
  為了驗證關(guān)鍵詞相似度查詢(xún)擴展算法的有效性,用視頻素材本體模型對該算法進(jìn)行了驗證。選擇搜索文本“兩個(gè)孩子在路上騎自行車(chē)”。"、"Bicycle",根據3.2節的擴展實(shí)現算法查詢(xún)擴展這些關(guān)鍵詞,得到擴展后的關(guān)鍵詞和對應的相似度,如表2所示。
  從表2可以看出,對檢索到的文本“兩個(gè)孩子騎自行車(chē)”進(jìn)行預處理和語(yǔ)義相似度擴展后,得到擴展的關(guān)鍵詞集合,計算集合的相似度值從大到小排序, 如表 3 所示。
  由表2和表3可知,根據本文的研究,檢索關(guān)鍵詞基于影視素材本體模型進(jìn)行了擴展,擴展集中的概念能夠反映用戶(hù)的檢索意圖更完整,從而驗證了本文。所提出的關(guān)鍵詞 查詢(xún)擴展方法的有效性。
  4。結論
  本文基于影視領(lǐng)域的本體模型,研究了關(guān)鍵詞在素材檢索過(guò)程中的查詢(xún)擴展,提出了關(guān)鍵詞根據相似度進(jìn)行擴展的實(shí)現方案,即在搜索文本中搜索關(guān)鍵詞,對影視素材本體模型中的概念進(jìn)行推理,得到相似度滿(mǎn)足閾值的查詢(xún)擴展集。實(shí)驗結果表明,擴展后的關(guān)鍵詞集能夠充分收錄用戶(hù)的檢索需求。本文的下一步是對根據擴展關(guān)鍵詞集關(guān)鍵詞中的相似關(guān)系對檢索結果進(jìn)行排序進(jìn)行深入研究。
  參考
  [1] 干建侯, 蔣悅.本體方法及其應用[M].北京:科學(xué)出版社,2011.
 ?。?]GRUBER T R. 用于知識共享的本體設計原則[J].國際人機研究雜志, 1995, 43(56): 907928.
 ?。?]Apache Jena入門(mén)[EB/OL].(2015××××)[20160130].
  [4]李帥.基于語(yǔ)義相似度的查詢(xún)擴展優(yōu)化[D].杭州: 杭州電子科技大學(xué), 2011.
 ?。?]李冰.基于領(lǐng)域本體的專(zhuān)利語(yǔ)義檢索研究[D].北京:北京理工大學(xué),2015.
  [6] W3C.SPARQL Query Language for RDF [EB/OL].(2013-03-21)[2016-01-20]. /TR/2013/REC-sparql11-query-20130321/.
 ?。?]岳曉璐.語(yǔ)義Web中RDF數據關(guān)聯(lián)規則挖掘方法研究[D].大連: 大連海事大學(xué), 2015.
  [8] 陸靖.基于語(yǔ)義網(wǎng)的語(yǔ)義搜索研究與應用[D].北京:北京工業(yè)大學(xué),2013.
  最新版本:dxc采集器破解版vip3.0 discuz論壇采集插件 vip商業(yè)版dz3
  溫馨提示:本插件所有者親身測試后方可使用。樓主使用的程序是dz3.3,請放過(guò)小白
  DXC 3.0 的主要功能包括:
  1. 采集文章 各種形式的url列表,包括rss地址、列表頁(yè)、多級列表等。
  2.多種規則編寫(xiě)方式,DOM模式,字符截取,智能獲取,更方便的獲取想要的內容
  3.規則繼承,自動(dòng)檢測匹配規則功能,你會(huì )逐漸體會(huì )到規則繼承帶來(lái)的便利
  4、獨特的網(wǎng)頁(yè)文本提取算法,自動(dòng)學(xué)習歸納規則,平移采集更方便。
  5.支持圖片定位和水印
  
  6.靈活的發(fā)布機制,可以設置發(fā)布者、發(fā)布時(shí)間點(diǎn)擊率等。
  7、強大的內容編輯后臺,可以輕松編輯采集內容,發(fā)布到門(mén)戶(hù)、論壇、博客
  8、內容過(guò)濾功能,針對采集的內容過(guò)濾廣告,剔除不必要的區域
  9.批量采集,注冊會(huì )員,批量采集,設置會(huì )員頭像
  10. 無(wú)人值守定期量化采集和發(fā)布文章
  ★、這個(gè)插件里面有詳細的教程,仔細看就會(huì )安裝
  ★、本插件為DXC3.0版本,
  【鄭重聲明】:由于模板價(jià)格極低,#標簽不提供技術(shù)支持#。插件安裝需要一定的discuz安裝使用經(jīng)驗,新手和不接受的請勿拍。需要幫忙安裝的可以加50元,我可以幫忙安裝
  
  請看下圖

解決方案:新接口——“淘特”關(guān)鍵詞搜索的API接口

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 198 次瀏覽 ? 2022-12-03 11:44 ? 來(lái)自相關(guān)話(huà)題

  解決方案:新接口——“淘特”關(guān)鍵詞搜索的API接口
  
  淘特站內的搜索引擎由淘特JSP搜索引擎發(fā)展而來(lái)。系統基于Lucene.Net內核,通過(guò)高效的中文分詞算法對數據庫中的內容進(jìn)行分析、索引并保存到硬盤(pán)。在前臺搜索時(shí),通過(guò)讀取索引文件查詢(xún),避免了傳統數據庫查詢(xún)在高并發(fā)、海量數據下的性能問(wèn)題。由于前臺搜索不連接數據庫,為不希望數據庫放在前臺的特殊用戶(hù)群體提供了一種快速的數據查詢(xún)解決方案。淘特搜索引擎(C#版)v3.3更新內容: 1.解決生成的文件鏈接總是第一個(gè)的錯誤。2、解決GbK碼搜索程序Default_Gbk鏈接到下一頁(yè)的bug。aspx 是錯誤的。3. 優(yōu)化中文分詞算法,提高文章在大數下的索引和搜索速度。4. 增加索引視頻教程供用戶(hù)學(xué)習和使用。
  
  解決方案:360自動(dòng)繁衍批量采集關(guān)鍵詞【穩定速度】
  360自動(dòng)乘法批量采集關(guān)鍵詞【速度穩定】很多人想做網(wǎng)站SEO需要采集很多關(guān)鍵詞,這個(gè)工具主要是針對想要采集搜索引擎下來(lái)關(guān)鍵詞做排名的網(wǎng)站站長(cháng),如果你考慮怎么采集下拉網(wǎng)站排名,這個(gè)工具軟件還是不錯的, 之后,我們來(lái)看看這個(gè)軟件的界面, 以及軟件的介紹,以及如何使用該工具
  
  軟件介紹1:根據關(guān)鍵詞自動(dòng)乘法批處理采集360搜索引擎下拉關(guān)鍵詞的自動(dòng)擴展關(guān)鍵詞 2:當采集關(guān)鍵詞到某個(gè)內容時(shí),關(guān)鍵詞會(huì )自動(dòng)保存到txt數據進(jìn)行自動(dòng)保存采集200關(guān)鍵詞自動(dòng)保存一次 3:工具自動(dòng)通過(guò)360屏蔽機制,自動(dòng)鍛造協(xié)議,自動(dòng)批量采集關(guān)鍵詞
  
  如何使用軟件1:先搞幾個(gè)核心主關(guān)鍵詞放進(jìn)關(guān)鍵詞txt,
  txt 設置為 UTF-8 格式,采集時(shí)根據核心詞進(jìn)行擴展 2:點(diǎn)擊軟件關(guān)鍵詞采集工具,批量挖掘關(guān)鍵詞,批量擴展關(guān)鍵詞 軟件使用中會(huì )出現哪些問(wèn)題 應該如何解決 1:軟件 如果出現啟動(dòng)畫(huà)面情況,如何解決,檢查電腦中是否安裝了VC++插件, 如果沒(méi)有安裝,找我拿安裝插件工具檢查T(mén)XT文本文檔格式是否正確,如果不準確,請另存為UTF-8格式 由 PY 開(kāi)發(fā)的軟件系統軟件暫時(shí)只支持 winds 7 和 winds 10 64 位系統 為什么采集 360下拉關(guān)鍵詞1:可以采集 有指標和需求關(guān)鍵詞這種類(lèi)型的關(guān)鍵詞可以增加3602的權重: 帶下拉關(guān)鍵詞是需求量比較高的詞,客戶(hù)容易用下拉介紹流量 查看全部

  解決方案:新接口——“淘特”關(guān)鍵詞搜索的API接口
  
  淘特站內的搜索引擎由淘特JSP搜索引擎發(fā)展而來(lái)。系統基于Lucene.Net內核,通過(guò)高效的中文分詞算法對數據庫中的內容進(jìn)行分析、索引并保存到硬盤(pán)。在前臺搜索時(shí),通過(guò)讀取索引文件查詢(xún),避免了傳統數據庫查詢(xún)在高并發(fā)、海量數據下的性能問(wèn)題。由于前臺搜索不連接數據庫,為不希望數據庫放在前臺的特殊用戶(hù)群體提供了一種快速的數據查詢(xún)解決方案。淘特搜索引擎(C#版)v3.3更新內容: 1.解決生成的文件鏈接總是第一個(gè)的錯誤。2、解決GbK碼搜索程序Default_Gbk鏈接到下一頁(yè)的bug。aspx 是錯誤的。3. 優(yōu)化中文分詞算法,提高文章在大數下的索引和搜索速度。4. 增加索引視頻教程供用戶(hù)學(xué)習和使用。
  
  解決方案:360自動(dòng)繁衍批量采集關(guān)鍵詞【穩定速度】
  360自動(dòng)乘法批量采集關(guān)鍵詞【速度穩定】很多人想做網(wǎng)站SEO需要采集很多關(guān)鍵詞,這個(gè)工具主要是針對想要采集搜索引擎下來(lái)關(guān)鍵詞做排名的網(wǎng)站站長(cháng),如果你考慮怎么采集下拉網(wǎng)站排名,這個(gè)工具軟件還是不錯的, 之后,我們來(lái)看看這個(gè)軟件的界面, 以及軟件的介紹,以及如何使用該工具
  
  軟件介紹1:根據關(guān)鍵詞自動(dòng)乘法批處理采集360搜索引擎下拉關(guān)鍵詞的自動(dòng)擴展關(guān)鍵詞 2:當采集關(guān)鍵詞到某個(gè)內容時(shí),關(guān)鍵詞會(huì )自動(dòng)保存到txt數據進(jìn)行自動(dòng)保存采集200關(guān)鍵詞自動(dòng)保存一次 3:工具自動(dòng)通過(guò)360屏蔽機制,自動(dòng)鍛造協(xié)議,自動(dòng)批量采集關(guān)鍵詞
  
  如何使用軟件1:先搞幾個(gè)核心主關(guān)鍵詞放進(jìn)關(guān)鍵詞txt,
  txt 設置為 UTF-8 格式,采集時(shí)根據核心詞進(jìn)行擴展 2:點(diǎn)擊軟件關(guān)鍵詞采集工具,批量挖掘關(guān)鍵詞,批量擴展關(guān)鍵詞 軟件使用中會(huì )出現哪些問(wèn)題 應該如何解決 1:軟件 如果出現啟動(dòng)畫(huà)面情況,如何解決,檢查電腦中是否安裝了VC++插件, 如果沒(méi)有安裝,找我拿安裝插件工具檢查T(mén)XT文本文檔格式是否正確,如果不準確,請另存為UTF-8格式 由 PY 開(kāi)發(fā)的軟件系統軟件暫時(shí)只支持 winds 7 和 winds 10 64 位系統 為什么采集 360下拉關(guān)鍵詞1:可以采集 有指標和需求關(guān)鍵詞這種類(lèi)型的關(guān)鍵詞可以增加3602的權重: 帶下拉關(guān)鍵詞是需求量比較高的詞,客戶(hù)容易用下拉介紹流量

解決方案:通過(guò)關(guān)鍵詞采集文章采集api接口獲取目標(圖)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 98 次瀏覽 ? 2022-11-30 21:23 ? 來(lái)自相關(guān)話(huà)題

  解決方案:通過(guò)關(guān)鍵詞采集文章采集api接口獲取目標(圖)
  通過(guò)關(guān)鍵詞采集文章采集api接口獲取目標關(guān)鍵詞
  你用百度api吧
  隨便抓吧,
  在外國我會(huì )告訴你是按日期抓的?
  我用的drupal的header代理iframe
  
  你要申請谷歌開(kāi)發(fā)者賬號,申請后,你就有谷歌的抓取代理了,都在谷歌開(kāi)發(fā)者工具里。
  搜索jpg
  谷歌api是個(gè)坑,不懂得話(huà)肯定是抓不到的,
  谷歌api有7天試用期的。
  我沒(méi)有申請。主要嫌麻煩。
  我申請了,最大的好處是可以知道waqihart的api。(5a)也可以在api下載article的代碼。(5f)自己寫(xiě)一個(gè),找我算我輸。
  
  lazylog很新!在它幫助下實(shí)現我所有photoshop工具的代理加速!很方便
  代理ip抓取大公司的api確實(shí)很費勁的,抓不到也不一定非要放在api目錄下,整個(gè)目錄下都放滿(mǎn)了。
  可以先試一下,如果有效果就可以申請,有的公司直接進(jìn)不去,好公司都是放在tabreview目錄下,自己弄個(gè)爬蟲(chóng)抓過(guò)來(lái)就可以了,你去網(wǎng)上搜下,大把大把的案例.
  你先可以試試7daylog的lazylogapi接口可以做圖片的一些數據抓取
  誰(shuí)給申請試試,
  jojo7daylog
  百度網(wǎng)站所有數據你可以靠這個(gè)api進(jìn)行抓取收集。不過(guò)一般情況下我們能獲取到的數據質(zhì)量不高。除非你是在格式化的數據庫中存儲的。如果需要這樣的數據,你需要你的服務(wù)器性能強悍,自己管理與使用的話(huà)??梢钥紤]自己對數據做一個(gè)相關(guān)的策略,進(jìn)行數據分析。這個(gè)前提是你很了解這個(gè)網(wǎng)站的情況下。 查看全部

  解決方案:通過(guò)關(guān)鍵詞采集文章采集api接口獲取目標(圖)
  通過(guò)關(guān)鍵詞采集文章采集api接口獲取目標關(guān)鍵詞
  你用百度api吧
  隨便抓吧,
  在外國我會(huì )告訴你是按日期抓的?
  我用的drupal的header代理iframe
  
  你要申請谷歌開(kāi)發(fā)者賬號,申請后,你就有谷歌的抓取代理了,都在谷歌開(kāi)發(fā)者工具里。
  搜索jpg
  谷歌api是個(gè)坑,不懂得話(huà)肯定是抓不到的,
  谷歌api有7天試用期的。
  我沒(méi)有申請。主要嫌麻煩。
  我申請了,最大的好處是可以知道waqihart的api。(5a)也可以在api下載article的代碼。(5f)自己寫(xiě)一個(gè),找我算我輸。
  
  lazylog很新!在它幫助下實(shí)現我所有photoshop工具的代理加速!很方便
  代理ip抓取大公司的api確實(shí)很費勁的,抓不到也不一定非要放在api目錄下,整個(gè)目錄下都放滿(mǎn)了。
  可以先試一下,如果有效果就可以申請,有的公司直接進(jìn)不去,好公司都是放在tabreview目錄下,自己弄個(gè)爬蟲(chóng)抓過(guò)來(lái)就可以了,你去網(wǎng)上搜下,大把大把的案例.
  你先可以試試7daylog的lazylogapi接口可以做圖片的一些數據抓取
  誰(shuí)給申請試試,
  jojo7daylog
  百度網(wǎng)站所有數據你可以靠這個(gè)api進(jìn)行抓取收集。不過(guò)一般情況下我們能獲取到的數據質(zhì)量不高。除非你是在格式化的數據庫中存儲的。如果需要這樣的數據,你需要你的服務(wù)器性能強悍,自己管理與使用的話(huà)??梢钥紤]自己對數據做一個(gè)相關(guān)的策略,進(jìn)行數據分析。這個(gè)前提是你很了解這個(gè)網(wǎng)站的情況下。

解決方案:Google優(yōu)化-如何精準分析頁(yè)面高轉化關(guān)鍵詞?

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 60 次瀏覽 ? 2022-11-30 13:51 ? 來(lái)自相關(guān)話(huà)題

  解決方案:Google優(yōu)化-如何精準分析頁(yè)面高轉化關(guān)鍵詞?
  1.具有一定的商業(yè)價(jià)值(Business Value)
  我們一般在必應、谷歌等搜索引擎中搜索這個(gè)詞。觀(guān)察搜索引擎結果的頂部或底部是否會(huì )有搜索引擎競價(jià)廣告。如果有競價(jià)廣告,則說(shuō)明該詞具有一定的商業(yè)價(jià)值。
  通過(guò)自己對行業(yè)的了解,推測當前詞匯的商業(yè)價(jià)值。例如,當通用詞匯中有price(價(jià)格)、manufacturer(制造商)、China(中國)等詞時(shí),大部分詞是可以轉化的,具有一定的商業(yè)價(jià)值。當然,這種做法因行業(yè)而異,所以只是備選方案。
  2.具有一定的搜索量(Search Volume)
  關(guān)于關(guān)鍵詞的搜索量,搜索引擎不會(huì )準確的告訴你準確的數值。但是我們可以通過(guò)多套工具來(lái)判斷。
  
  Chrome 瀏覽器的 Keywords Everywhere 插件。下載安裝后,驗證API,即可查看任意詞的搜索量。
  用于 Google Adwords 的關(guān)鍵字規劃器 (關(guān)鍵詞planner) 工具。關(guān)鍵詞 規劃工具可以檢查關(guān)鍵詞 在最高 CPC 下的曝光率?;旧峡梢岳斫鉃椋鹤畲驝PC曝光量≈搜索量。
  3、有一定的衍生詞儲備(Expandable)
  1.什么是衍生詞
  
  簡(jiǎn)單的說(shuō),就是你選擇的詞匯能否進(jìn)一步推導出來(lái)。因為一個(gè)頁(yè)面不會(huì )只參與一個(gè)詞的排名,而是多個(gè)詞。通常是您的目標 關(guān)鍵詞 的派生物。同時(shí),這意味著(zhù)您可以獲得多組詞的有機搜索流量。
  2. 如何判斷關(guān)鍵詞是否可以導出?
  很簡(jiǎn)單,打開(kāi)谷歌搜索首頁(yè),把關(guān)鍵詞放進(jìn)去,看下拉框里出現了多少個(gè)詞,就知道一個(gè)詞的出處。
  如果一個(gè)詞匯表沒(méi)有任何下拉框,基本上就意味著(zhù)這個(gè)詞匯表已經(jīng)用完了。那么這個(gè)關(guān)鍵詞可能不是一個(gè)好的目標關(guān)鍵詞,因為沒(méi)有下拉意味著(zhù)這個(gè)關(guān)鍵詞可能沒(méi)有太大的音量。同時(shí)沒(méi)有足夠的衍生詞來(lái)支撐流量,這個(gè)頁(yè)面帶來(lái)的價(jià)值可能比較低。
  我們希望我們的頁(yè)面能夠排在谷歌的第一頁(yè),以實(shí)現高轉化和表單查詢(xún)。我們首先需要做好前期分析的關(guān)鍵詞,然后加入更多有吸引力的原創(chuàng )優(yōu)質(zhì)內容,進(jìn)行精準布局。
  核心方法:如何進(jìn)行SEO關(guān)鍵詞研究(入門(mén)指南) –
  內容
  第 1 章關(guān)鍵詞研究基礎
  在深入研究復雜的 關(guān)鍵詞 研究以及如何為您的業(yè)務(wù)找到最好的 關(guān)鍵詞 之前,先了解一些基礎知識。
  什么是關(guān)鍵詞研究?
  關(guān)鍵詞 研究是在搜索引擎中尋找 關(guān)鍵詞 進(jìn)行排名的過(guò)程。目標是了解客戶(hù)搜索的潛在意圖,以及如何進(jìn)行搜索。
  它還涉及分析和比較 關(guān)鍵詞 以找到最好的 關(guān)鍵詞 機會(huì )。
  為什么 關(guān)鍵詞 研究很重要?
  關(guān)鍵詞研究是了解人們在搜索引擎中輸入的內容的唯一方法。您需要了解它以避免創(chuàng )建關(guān)于沒(méi)有人搜索的主題的內容。然而,許多網(wǎng)站都犯了這個(gè)錯誤,這可能是 90.63% 的頁(yè)面沒(méi)有從 Google 獲得流量的一個(gè)重要原因。
  關(guān)鍵詞研究還可以幫助您解決以下問(wèn)題:
  了解這些問(wèn)題的答案將幫助您更好地定位自己。
  第 2 章如何找到 關(guān)鍵詞 建議
  關(guān)鍵詞研究首先考慮潛在客戶(hù)如何搜索您的企業(yè)或網(wǎng)站。然后,您可以使用 關(guān)鍵詞 研究工具來(lái)擴展這些想法并找到更多 關(guān)鍵詞。
  這是一個(gè)簡(jiǎn)單的過(guò)程,但要做好,必須做兩件事:
  你需要對你的行業(yè)有很好的了解。您需要了解 關(guān)鍵詞 研究工具的工作原理以及如何充分利用它們。
  下面我們將介紹一些可行的方法來(lái)提高您在這兩個(gè)領(lǐng)域的知識,并在此過(guò)程中發(fā)現您網(wǎng)站的潛在質(zhì)量 關(guān)鍵詞。
  想想你的“種子”關(guān)鍵詞 查看競爭對手的排名 關(guān)鍵詞 使用 關(guān)鍵詞 工具研究你的利基市場(chǎng) 1. 想想你的“種子”關(guān)鍵詞
  種子 關(guān)鍵詞 是 關(guān)鍵詞 研究過(guò)程的基礎。他們定義了你的利基并幫助你識別你的競爭對手。您還可以將 關(guān)鍵詞 播種到 關(guān)鍵詞 工具中以查找數以千計的 關(guān)鍵詞 建議(稍后會(huì )詳細介紹)。
  如果您已經(jīng)有想要在線(xiàn)推廣的產(chǎn)品或業(yè)務(wù),則尋找種子 關(guān)鍵詞 很容易。想想人們將如何在 Google 中搜索以找到您提供的產(chǎn)品。
  例如,如果您銷(xiāo)售咖啡機和設備,則種子 關(guān)鍵詞 可能是:
  請注意,種子 關(guān)鍵詞 本身不一定值得在您的網(wǎng)站上定位。畢竟,您只需要將它們作為“種子”來(lái)使用即可。所以不要太依賴(lài)你的種子關(guān)鍵詞。只需幾分鐘即可找到它們。找到與網(wǎng)站主題相關(guān)的種子詞后,您可以繼續下一步。
  2. 查看競爭對手的排名 關(guān)鍵詞
  查看哪些 關(guān)鍵詞 正在為您的競爭對手帶來(lái)流量通常是進(jìn)行 關(guān)鍵詞 研究的最佳方式。但首先,您需要確定您的競爭對手是誰(shuí)。這就是您的頭腦風(fēng)暴 關(guān)鍵詞 列表派上用場(chǎng)的地方。只需用谷歌搜索你的一個(gè)種子 關(guān)鍵詞,看看誰(shuí)排在第一頁(yè)上。
  如果您的種子文件中排名靠前的 關(guān)鍵詞 站點(diǎn)均不匹配您的站點(diǎn)(或您計劃使用的站點(diǎn)),請嘗試通過(guò)選擇 Google 自動(dòng)完成功能提供的 關(guān)鍵詞 建議再次搜索。
  例如,如果您銷(xiāo)售咖啡設備,您會(huì )在“卡布奇諾咖啡機”的搜索結果中發(fā)現比“卡布奇諾咖啡”更多的實(shí)際競爭對手。那是因為大部分商城網(wǎng)站排名第一,博客內容排名靠后。
  無(wú)論哪種方式,您在識別競爭站點(diǎn)時(shí)仍然需要使用判斷力。如果您看到像亞馬遜或紐約時(shí)報這樣的大品牌在您的種子 關(guān)鍵詞 上排名,不一定要將它們視為競爭對手。始終尋找與您自己的網(wǎng)站(或您計劃創(chuàng )建的網(wǎng)站)相似的網(wǎng)站。
  然后你可以將這些站點(diǎn)依次放入 AhrefsSite Explorer(網(wǎng)站分析)并查看 Top Pages(熱門(mén)頁(yè)面)報告。這將顯示他們從中獲得最多流量的頁(yè)面。它還顯示 關(guān)鍵詞 這些頁(yè)面從哪些頁(yè)面獲得最多流量。
  我們使用 Site Explorer 分析了一個(gè)競爭網(wǎng)站,并為我們假設的咖啡店找到了一些有趣的 關(guān)鍵詞:
  如您所見(jiàn),即使您非常熟悉這個(gè)行業(yè),通過(guò)研究您的競爭對手,您仍然可以找到很多您自己無(wú)法找到的獨特的 關(guān)鍵詞 金阿姨。
  如果您已經(jīng)檢查了搜索結果中的所有競爭對手并且仍然需要更多 關(guān)鍵詞 建議,您可以在 Site Explorer 的競爭域報告中找到更多的競爭對手。只要插入一個(gè)你已知的競爭對手,它就會(huì )根據站點(diǎn)參與排名的關(guān)鍵詞來(lái)匹配對應的競爭對手網(wǎng)站。
  您可以針對幾乎無(wú)限數量的 關(guān)鍵詞 建議一遍又一遍地重復上述過(guò)程。
  您是否看到了很多您已經(jīng)涵蓋的主題?
  如果您正在關(guān)鍵詞研究您所在行業(yè)的成熟網(wǎng)站,您可能會(huì )發(fā)現您已經(jīng)關(guān)鍵詞涵蓋了您的大部分競爭對手。在這種情況下,您可以試試我們的內容差距工具。它會(huì )找到一個(gè)或多個(gè) 關(guān)鍵詞 正在排名但您沒(méi)有排名的競爭對手。只需將一些競爭對手的域名放在頂部,將您的網(wǎng)站放在底部,然后點(diǎn)擊“顯示 關(guān)鍵詞”。
  以下是 Homegrounds 和 Roasty Coffee 排名的數千個(gè) 關(guān)鍵詞 中的幾個(gè) 關(guān)鍵詞,關(guān)鍵詞 沒(méi)有參與排名:
  在此視頻中了解有關(guān)使用 Content Gap 的更多信息。
  3. 使用關(guān)鍵詞研究工具
  競爭對手可以成為關(guān)鍵詞建議的重要來(lái)源。但是,您的競爭對手可能仍然沒(méi)有涵蓋很多 關(guān)鍵詞,您可以使用 關(guān)鍵詞 研究工具找到 關(guān)鍵詞。
  關(guān)鍵詞研究工具的工作方式大致相同。您輸入種子 關(guān)鍵詞,它們會(huì )生成 關(guān)鍵詞 建議。
  Google 的 關(guān)鍵詞 規劃器可能是最著(zhù)名的 關(guān)鍵詞 工具。它是免費使用的。雖然它主要針對 Google Ads 客戶(hù),但您也可以使用它來(lái)查找 關(guān)鍵詞 以進(jìn)行 SEO。
  讓我們輸入一些種子 關(guān)鍵詞 并查看它提供的數據:
  您會(huì )注意到其中一些建議收錄
種子 關(guān)鍵詞。這些稱(chēng)為部分匹配 關(guān)鍵詞。然而,并非所有 關(guān)鍵詞 都是如此。比如“k杯”這個(gè)詞,除非你是咖啡鑒賞家,否則你可能不知道這個(gè)詞和咖啡有關(guān)。
  暗示。
  您在 Google 的 關(guān)鍵詞 規劃器中看到的“競爭”指標與 SEO 無(wú)關(guān)。它指的是有多少廣告商愿意為那個(gè)關(guān)鍵詞投放付費廣告。所以你不需要關(guān)注它。
  除了 關(guān)鍵詞 規劃器,還有許多免費的 關(guān)鍵詞 研究工具。如果您的預算緊張,使用這些工具也是個(gè)好主意。但是你也會(huì )發(fā)現這些工具有些問(wèn)題。畢竟,這些工具的目的是將您轉化為它們的用戶(hù)。
  如果您想認真對待 關(guān)鍵詞 研究,不妨跳過(guò)免費工具,開(kāi)始使用專(zhuān)業(yè)的 關(guān)鍵詞 研究工具,例如 Ahrefs Keywords Explorer(關(guān)鍵詞分析)。
  讓我們輸入一些種子 關(guān)鍵詞 并查看它生成了多少 關(guān)鍵詞 建議。
  370 萬(wàn)條建議,這僅來(lái)自短語(yǔ)匹配(部分匹配)報告,其他報告也以不同方式提供關(guān)鍵詞建議。
  以下是關(guān)鍵字資源管理器(關(guān)鍵詞分析)中的報告如何匹配 關(guān)鍵詞:
  現在,您可能會(huì )收到大量關(guān)鍵詞建議,但不要擔心,您將在下一節中學(xué)習如何縮小建議范圍。
  暗示。
  Keywords Explorer (關(guān)鍵詞analytics) 還為其他搜索提供大量關(guān)鍵詞建議,其中一些搜索包括 Bing、YouTube、Amazon、百度等。
  4.研究你的利基
  到目前為止我們所討論的一切都足以產(chǎn)生幾乎無(wú)限數量的關(guān)鍵詞建議。但與此同時(shí),該過(guò)程會(huì )讓您“陷入困境”。因為結果將受到 關(guān)鍵詞 種子的限制,這意味著(zhù)您幾乎肯定會(huì )錯過(guò)一些很棒的 關(guān)鍵詞 建議。
  您可以通過(guò)更詳細地研究細分市場(chǎng)來(lái)解決這個(gè)問(wèn)題。從瀏覽行業(yè)論壇和問(wèn)答網(wǎng)站開(kāi)始。這將幫助您找到潛在客戶(hù)遇到的問(wèn)題,這些問(wèn)題未收錄
在 關(guān)鍵詞 工具中。
  例如,這是 /r/coffee subreddit 上的一篇熱門(mén)帖子:
  這個(gè)人問(wèn)的是關(guān)于 Aeropress 咖啡機的問(wèn)題。如果我們將該術(shù)語(yǔ)放入關(guān)鍵字資源管理器(關(guān)鍵詞分析),我們會(huì )發(fā)現它在美國的平均每月搜索量為 61,000 次。
  這樣的主題可能無(wú)法用關(guān)鍵詞研究工具發(fā)現,因為它不收錄
任何種子關(guān)鍵詞。
  以下是該目錄中值得我們關(guān)注的其他一些有趣主題:
  如果您發(fā)現一個(gè)熱門(mén)話(huà)題,您可以為它添加新種子 關(guān)鍵詞 并將其放入關(guān)鍵字資源管理器(關(guān)鍵詞分析)以找到更多建議。例如,如果我們用“aeropress”作為種子 關(guān)鍵詞 并檢查“短語(yǔ)匹配”報告,我們可以看到成千上萬(wàn)的 關(guān)鍵詞 建議。
  除了瀏覽論壇等,您的客戶(hù)也可以成為 關(guān)鍵詞 創(chuàng )意的重要來(lái)源。請記住,這些是您已經(jīng)與之有業(yè)務(wù)往來(lái)的人。您想要的是吸引更多像他們一樣的人訪(fǎng)問(wèn)您的網(wǎng)站。
  以下是從客戶(hù)那里提取主題的幾種方法:
  執行此操作時(shí),請務(wù)必注意它們使用的語(yǔ)句。它通常與您使用的聲明不同。例如,如果您在線(xiàn)銷(xiāo)售咖啡機,您的客戶(hù)可能會(huì )搜索之前對特定咖啡機的比較。
  第 3 章如何分析 關(guān)鍵詞
  
  有很多關(guān)鍵詞建議很好。但是你怎么知道哪個(gè)是最好的呢?畢竟,手工梳理如此多的數據幾乎是不可能的。
  解決方案很簡(jiǎn)單:在創(chuàng )建有關(guān)這些主題的內容之前,使用 SEO 指標和數據縮小范圍并將它們分開(kāi)。
  您可以使用以下五個(gè) 關(guān)鍵詞 指標來(lái)執行此操作。
  知名度
  搜索量告訴您每月 關(guān)鍵詞 搜索的平均次數。例如,在美國每月約有 40,000 次搜索“摩卡壺”。
  這個(gè)值需要注意三點(diǎn):
  是搜索次數,而不是搜索人數。在某些情況下,某人可能會(huì )在一個(gè)月內多次搜索 關(guān)鍵詞,例如“新加坡的天氣”。這些都會(huì )增加搜索量,甚至可能是同一個(gè)人搜索。它不會(huì )告訴您通過(guò)排名會(huì )獲得多少流量。即使您排名第一,關(guān)鍵詞 也很少會(huì )超過(guò)該數字的 30%。如果它超過(guò)了,那么你真的很幸運。這是一年中的月平均值。如果在 12 月有 120,000 次 關(guān)鍵詞 搜索,而在剩余的 11 個(gè)月中沒(méi)有 關(guān)鍵詞 搜索,則每月搜索量為 10,000(120,000/12 個(gè)月)
  在關(guān)鍵字資源管理器(關(guān)鍵詞 分析)的任何報告中,您都會(huì )看到搜索量過(guò)濾器:
  此過(guò)濾器主要用于兩個(gè)方面:
  過(guò)濾掉多余的 關(guān)鍵詞。如果您的站點(diǎn)是新站點(diǎn),您可能不想過(guò)濾每月搜索量超過(guò) 100,000 次的 關(guān)鍵詞,因為它們可能非常有競爭力。專(zhuān)門(mén)針對小批量 關(guān)鍵詞 進(jìn)行過(guò)濾。也許你想找競爭少、流量小的關(guān)鍵詞,這樣你就可以輕松地用短文吸引更多流量。我們稱(chēng)之為長(cháng)尾 關(guān)鍵詞。
  你知道大多數 關(guān)鍵詞 都是長(cháng)尾巴 關(guān)鍵詞 嗎?
  長(cháng)尾 關(guān)鍵詞 指的是搜索量較低的 關(guān)鍵詞。之所以這樣稱(chēng)呼它們,是因為它們位于所謂的“搜索需求曲線(xiàn)”的最末端:
  如您所見(jiàn),在曲線(xiàn)的頂部,我們有少量非常受歡迎的搜索詞,例如:
  這些我們稱(chēng)之為頭詞。
  曲線(xiàn)的尾端由數億個(gè)搜索量非常低的關(guān)鍵詞組成,例如:
  如果您想了解更多關(guān)于處理不同類(lèi)型的長(cháng)尾 關(guān)鍵詞 的信息,請查看我們的完整指南。
  如果您需要查看美國以外國家/地區的搜索量,關(guān)鍵字資源管理器 (關(guān)鍵詞analytics) 中有 171 個(gè)國家/地區可供選擇。您還可以查看全球搜索量(所有國家/地區的搜索總和)。如果您的業(yè)務(wù)是全球性的,以下兩條建議對您很重要:
  你不應該將自己局限于一個(gè)國家。如果您在全球范圍內銷(xiāo)售產(chǎn)品,美國可能只占您市場(chǎng)的一小部分。如果人們正在尋找您在其他地區提供的產(chǎn)品,您需要及時(shí)了解。您應該考慮具有搜索量的國家/地區的“購買(mǎi)力”。也許你看到一個(gè)有前途的 關(guān)鍵詞 每月有 100,000 次搜索,但其中 90% 來(lái)自一個(gè) GDP 較低的國家。在這種情況下,這個(gè) 關(guān)鍵詞 可能不是一個(gè)好的目標,因為搜索者的“購買(mǎi)力”可能很低。
  例如,看看 關(guān)鍵詞 “反向鏈接生成器”。它有 13,000 次全球搜索,但其中超過(guò) 70% 的搜索來(lái)自印度、印度尼西亞、孟加拉國和巴基斯坦等人均 GDP 較低的低收入國家。因此,即使您可能為此 關(guān)鍵詞 獲得很多流量排名,但與 關(guān)鍵詞 相比,該流量的“商業(yè)價(jià)值”可能仍然很低,關(guān)鍵詞 超過(guò) 70% 的搜索來(lái)自美國。
  關(guān)于搜索量要記住的另一件重要事情是它因工具而異。因為每個(gè)工具計算和更新此指標的方式不同。您可以在此處和此處了解搜索量估算的復雜性以及為什么有時(shí) Google 的數字并不真正“準確”。
  注意 關(guān)鍵詞 趨勢
  由于搜索量是每年的月平均值,因此通??梢栽陉P(guān)鍵字資源管理器(關(guān)鍵詞 分析)中查看 關(guān)鍵詞 的趨勢圖。如果 關(guān)鍵詞 是季節性或驟降,則搜索量可能會(huì )發(fā)生變化。
  與圣誕節相關(guān)的搜索詞就是一個(gè)很好的例子。它們都在 12 月達到峰值并在 2 月降至零,但搜索量并未反映出這一點(diǎn)。
  閱讀我們的 Google 趨勢指南,了解有關(guān)研究趨勢 關(guān)鍵詞 的更多有用提示。
  點(diǎn)擊
  很多人可能會(huì )在 Google 上搜索某些內容,但這并不意味著(zhù)他們都會(huì )點(diǎn)擊搜索結果并訪(fǎng)問(wèn)排名靠前的頁(yè)面。這就是關(guān)鍵字資源管理器(關(guān)鍵詞分析)中的點(diǎn)擊指示器派上用場(chǎng)的地方。它告訴您 關(guān)鍵詞 搜索結果的平均每月點(diǎn)擊次數。
  例如,“咖啡中含有多少咖啡因”這個(gè)詞
  盡管每月有 48,000 次搜索,但它只獲得了 8,600 次點(diǎn)擊。
  發(fā)生這種情況是因為谷歌會(huì )直接在搜索結果中顯示問(wèn)題的災難性。人們無(wú)需點(diǎn)擊即可找到所需的信息。
  谷歌將在搜索結果中為越來(lái)越多的搜索詞提供答案。因此,您需要使用 Keywords Explorer 中的 Clicks 過(guò)濾器(關(guān)鍵詞 分析)。您可以使用它來(lái)過(guò)濾掉具有潛在搜索流量的關(guān)鍵詞建議。
  您還應注意,付費廣告可能會(huì )“竊取”大量關(guān)鍵詞點(diǎn)擊次數。例如,“braun coffee maker”的點(diǎn)擊次數中有 32% 轉到了付費廣告,因此 關(guān)鍵詞 可能更適合投放廣告。
  交通潛力
  假設您正在考慮 關(guān)鍵詞 諸如“咖啡的副作用”之類(lèi)的東西。根據 Keywords Explorer 的估計(關(guān)鍵詞 分析),該術(shù)語(yǔ)每月有 1,000 次搜索和 800 次點(diǎn)擊。
  但是,請記住,如果您為這個(gè) 關(guān)鍵詞 排名,您的頁(yè)面也可能為所有相關(guān)的 關(guān)鍵詞 和同義詞排名,例如:
  由于所有這些搜索詞的意思大致相同,因此僅根據一個(gè)搜索詞來(lái)估計您的潛在搜索流量是錯誤的。查看當前排名靠前的頁(yè)面獲得的流量是個(gè)好主意,使用關(guān)鍵字瀏覽器(關(guān)鍵詞分析)很容易做到這一點(diǎn)。
  在這里,我們看到“咖啡的副作用”排名靠前的頁(yè)面估計每月有大約 3,500 次訪(fǎng)問(wèn),并參與了 930 多個(gè) 關(guān)鍵詞 排名:
  像這樣對多個(gè) 關(guān)鍵詞 進(jìn)行排名是正常的。我們研究了 300 萬(wàn)個(gè)搜索詞,排名前 10 的頁(yè)面平均每頁(yè)超過(guò) 1,000 個(gè)其他 關(guān)鍵詞 頁(yè)面。
  所以不要僅根據搜索量(或點(diǎn)擊量)來(lái)判斷 關(guān)鍵詞。查看頂部結果以估計該主題的總搜索流量潛力。在大多數情況下,關(guān)鍵詞 的搜索量確實(shí)與該主題的整體“流量潛力”相關(guān)。但是注意這個(gè)細節將幫助您確定 關(guān)鍵詞 的優(yōu)先級并找到您的競爭對手忽略的 關(guān)鍵詞 機會(huì )。
  關(guān)鍵詞難度
  SEO 專(zhuān)業(yè)人員經(jīng)常手動(dòng)測量 關(guān)鍵詞 排名難度。也就是說(shuō),通過(guò)查看其目標 關(guān)鍵詞 的排名靠前的頁(yè)面。他們考慮了許多不同的因素來(lái)判斷排名的難易程度:
  反向鏈接的數量和質(zhì)量;域名評級;內容長(cháng)度、相關(guān)性、及時(shí)性;目標 關(guān)鍵詞,同義詞的使用;搜索意圖;牌; 等等
  這個(gè)過(guò)程因人而異,因為對于究竟什么是重要的,什么是不重要的,這里沒(méi)有達成共識。一個(gè)人可能會(huì )爭辯說(shuō)修復錯誤很重要,而另一個(gè)人可能會(huì )爭辯說(shuō)依賴(lài)關(guān)系起著(zhù)更大的作用。關(guān)鍵詞 研究工具的創(chuàng )建者都在努力將 關(guān)鍵詞 排名難度設置為客觀(guān)可靠的分數,因為缺乏共識。
  在與許多專(zhuān)業(yè) SEO 討論 關(guān)鍵詞 難度分數應該考慮的因素后,我們意識到每個(gè)人都至少同意一件事:反向鏈接對排名至關(guān)重要。所以最后,我們決定根據鏈接到前 10 個(gè)頁(yè)面的唯一站點(diǎn)的數量來(lái)計算關(guān)鍵字難度 (關(guān)鍵詞難度) 分數。
  正如您在上圖中所見(jiàn),KD 分數與排名前十的搜索結果中的網(wǎng)站獲得的鏈接域數量相關(guān)。
  暗示。
  請注意,這是“前 10 名”參考。Ahrefs 的 KD 分數并不能說(shuō)明特定 關(guān)鍵詞 #1 排名的絕對數字。它只是為您提供進(jìn)入前 10 名的建議。
  了解 KD 的工作原理后,許多人通過(guò)將過(guò)濾器設置為 0 到 30 來(lái)僅關(guān)注低難度詞。他們沒(méi)有涵蓋站點(diǎn)上的高 KD 關(guān)鍵詞,這是一個(gè)很大的錯誤,原因有二:
  你應該盡早放置高 KD 關(guān)鍵詞。由于您將進(jìn)行大量鏈接建設,因此創(chuàng )建您的頁(yè)面并盡快開(kāi)始推廣它是有意義的。拖延的時(shí)間越長(cháng),你給競爭對手的領(lǐng)先優(yōu)勢就越大,將來(lái)更難超越他們。您應該將高 KD 關(guān)鍵詞 視為獲取鏈接的機會(huì )。排名靠前的頁(yè)面有很多反向鏈接的事實(shí)表明這些是“值得鏈接”的主題。換句話(huà)說(shuō),如果您確保精心設計該主題,它可能會(huì )吸引很多反向鏈接。
  重點(diǎn)是:KD 不會(huì )阻止您針對特定的 關(guān)鍵詞。它可以幫助您了解如何對給定主題進(jìn)行排名以及該主題的“鏈接價(jià)值”。
  在評估之前,您應該始終手動(dòng)評估 關(guān)鍵詞,而不是僅僅依靠工具的關(guān)鍵字難度 (關(guān)鍵詞difficulty) 分數來(lái)做出最終決定。沒(méi)有 關(guān)鍵詞 工具可以將 Google 排名算法的復雜性提煉為一個(gè)數字。所以你需要時(shí)刻注意一些工具的提示。
  如果您想了解有關(guān)關(guān)鍵字難度(關(guān)鍵詞難度)的更多信息,請查看我們的關(guān)鍵字難度(關(guān)鍵詞難度)指南。
  每次點(diǎn)擊費用 (CPC)
  每次點(diǎn)擊費用 (CPC) 顯示廣告商愿意為每次 關(guān)鍵詞 點(diǎn)擊他們的廣告支付多少錢(qián)。對于廣告商來(lái)說(shuō),它比 SEO 更像是一個(gè)指標。但它間接地衡量了 關(guān)鍵詞 對我們的價(jià)值。
  例如,關(guān)鍵詞“office coffee”的 CPC 相對較高,為 12 美元。那是因為大多數搜索者都希望為辦公室購買(mǎi)一臺咖啡機,這可能要花費數百或數千美元。相反,“how to make good espresso”的點(diǎn)擊價(jià)格非常低,因為大多數搜索者都不愿意買(mǎi)東西。他們正在尋找有關(guān)如何沖泡濃縮咖啡的信息。
  一件重要的事情是 CPC 比搜索量更不穩定。雖然大多數 關(guān)鍵詞 的搜索需求每個(gè)月都大致保持不變,但他們的 CPC 會(huì )隨著(zhù)時(shí)間的推移而變化。這意味著(zhù)你在第三方關(guān)鍵詞工具中看到的CPC值是特定時(shí)間的快照。如果您需要實(shí)時(shí)數據,則必須使用 AdWords。
  第 4 章 如何分組 關(guān)鍵詞
  對于列表中的每個(gè) 關(guān)鍵詞,您都需要有正確的頁(yè)面和內容。知道如何做到這一點(diǎn)是 關(guān)鍵詞 研究過(guò)程的核心步驟。幸運的是,您可以通過(guò)兩個(gè)簡(jiǎn)單的步驟完成此操作:
  定位父主題 定位搜索意圖 1. 定位父主題
  假設您的列表收錄
以下 關(guān)鍵詞:
  您可能想知道,您應該為每個(gè) 關(guān)鍵詞 構建不同的頁(yè)面還是將它們全部放在一個(gè)頁(yè)面上?
  答案在很大程度上取決于谷歌如何看待這些 關(guān)鍵詞。它是否將它們視為同一主題的一部分(例如如何制作生咖啡)?還是將它們都視為單獨的主題?你可以通過(guò)查看谷歌的搜索結果來(lái)了解這一點(diǎn)。
  
  例如,我們在“如何制作生咖啡”和“什么是生咖啡”中看到一些相同的結果頁(yè)面。
  這似乎表明 Google 認為 關(guān)鍵詞 是同一個(gè)線(xiàn)程的一部分。
  我們還看到,這兩個(gè)搜索的大部分結果都是關(guān)于制作奶油咖啡的文章。這告訴我們“hat is whipped coffee”是如何制作奶油咖啡主題的一個(gè)副主題。
  因此,將這兩個(gè) 關(guān)鍵詞 放在一個(gè)頁(yè)面上比創(chuàng )建兩個(gè)單獨的頁(yè)面更有意義。
  然而,如果我們看一下“不加糖的鮮奶咖啡”,我們會(huì )發(fā)現相反的情況:
  結果證明,幾乎所有這些都是完全無(wú)糖、健康的生咖啡,而不是普通的生咖啡。這告訴我們“不加糖的攪打咖啡”不是制作奶油咖啡的副題(盡管不加糖的奶油咖啡實(shí)際上仍然是奶油咖啡)
  這種方法的問(wèn)題是它主要是手動(dòng)的并且速度慢,所以如果你有很多 關(guān)鍵詞 需要分析,可能需要一些時(shí)間。
  在關(guān)鍵字資源管理器(關(guān)鍵詞 分析)中,我們解決這個(gè)問(wèn)題的方法是為每個(gè) 關(guān)鍵詞 顯示一個(gè)“父主題”。它告訴您這些子主題是否可以收錄
在父主題中。
  為了確定“父主題”,我們分析了每個(gè) 關(guān)鍵詞 排名第一的頁(yè)面,并找到向該頁(yè)面發(fā)送最多流量的 關(guān)鍵詞。
  讓我們把之前的關(guān)鍵詞放到Keywords Explorer(關(guān)鍵詞分析)中,查看它的“parent topic”:
  我們在這里看到的內容反映了我們在搜索結果中看到的內容。我們的大多數 關(guān)鍵詞 都屬于同一主題。唯一的例外是“不加糖的攪打咖啡”,因此這需要一個(gè)單獨的頁(yè)面。
  然而,我們的父主題的功能并不是絕對完美的。在關(guān)鍵詞分組方面,沒(méi)辦法每次都給你最準確的建議(這一步在SEO中也叫“關(guān)鍵詞聚合”),畢竟谷歌搜索結果不是固定的.
  例如,在發(fā)布本指南后不久,當我在 關(guān)鍵詞 報告中查看上述 關(guān)鍵詞 的父主題時(shí),我得到了不同的結果:
  在這里你最好使用關(guān)鍵字資源管理器中的“流量份額&gt;按頁(yè)面”報告(關(guān)鍵詞分析)。通過(guò)這種方式,您可以很容易地找出同一頁(yè)面是否參與了這些 關(guān)鍵詞 排名。
  2. 目標搜索意圖
  假設您的列表中有以下 關(guān)鍵詞:
  如果你通過(guò)博客經(jīng)營(yíng)在線(xiàn)商店,你需要知道你的博客和你的產(chǎn)品針對的是什么詞。
  對于某些 關(guān)鍵詞 來(lái)說(shuō),這是顯而易見(jiàn)的。您不會(huì )為“如何沖泡冷萃咖啡”創(chuàng )建產(chǎn)品頁(yè)面,因為那沒(méi)有意義。搜索者想知道如何制作冷萃咖啡,而不是購買(mǎi)沖泡設備。
  但是 關(guān)鍵詞 像“手動(dòng)毛刺咖啡研磨機”呢?您使用的是博客文章還是顯示您銷(xiāo)售的研磨機的產(chǎn)品列表頁(yè)面?
  鑒于您的目標可能是銷(xiāo)售更多咖啡研磨機,您的直覺(jué)很可能會(huì )創(chuàng )建一個(gè)類(lèi)別頁(yè)面,其中收錄
您要銷(xiāo)售的所有咖啡研磨機。其實(shí)這是錯誤的舉動(dòng),因為這種內容不符合搜索者想看到的,也就是搜索意圖。
  我們怎么知道?如果您在 Google 中查看此 關(guān)鍵詞 的首頁(yè),它們都是關(guān)于最好的咖啡研磨機的博客文章。
  Google 比任何人都更了解用戶(hù)意圖,因此排名靠前的 關(guān)鍵詞 結果通常意味著(zhù)它們更符合用戶(hù)意圖。如果你想獲得最高的排名機會(huì ),你應該創(chuàng )建與排名靠前的頁(yè)面相同類(lèi)型的內容。
  您可以在關(guān)鍵字資源管理器(關(guān)鍵詞 分析)中查看排名靠前的結果,只需單擊“SERP”下拉按鈕即可。
  從這里,您可以分析我們所說(shuō)的搜索意圖 3C,以了解如何最好地定位 關(guān)鍵詞:
  內容類(lèi)型(content type) 內容格式(content format) 內容角度(content angle) 1.內容類(lèi)型(content type)
  內容類(lèi)型通常屬于以下五個(gè)類(lèi)別之一:博客、產(chǎn)品、類(lèi)別、登錄頁(yè)面或視頻。
  2. 內容格式
  內容格式主要適用于“信息”內容。典型的例子是操作指南、清單、新聞文章、評論等。
  3.內容角度
  內容角度是內容的主要賣(mài)點(diǎn)。例如,搜索“如何制作拿鐵”的任何人似乎都想知道如何在沒(méi)有機器或任何特殊設備的情況下制作。
  您只需要知道將您的內容與搜索者的期望保持一致,但您不必效仿或將搜索者困在期望泡沫中。如果你確信你可以用不同的內容類(lèi)型、格式和角度來(lái)吸引搜索者的注意力,那就試試吧。
  第 5 章如何確定 關(guān)鍵詞 優(yōu)先級
  關(guān)鍵詞確定優(yōu)先級并不是關(guān)鍵詞研究過(guò)程的最后一步。相反,這是在您準備好做任何其他事情之前需要完成的事情。當您搜索、分析、分組 關(guān)鍵詞 時(shí),問(wèn)問(wèn)自己:
  最后一點(diǎn)尤為重要。雖然搜索量、流量潛力、關(guān)鍵詞 難度和搜索意圖都是重要的考慮因素,但您還需要考慮哪些 關(guān)鍵詞 量對您的業(yè)務(wù)有價(jià)值。.
  如何衡量關(guān)鍵詞的“商業(yè)潛力”
  許多內容營(yíng)銷(xiāo)人員和 SEO 通過(guò)將 關(guān)鍵詞 映射到用戶(hù)購買(mǎi)渠道(人們在購買(mǎi)前經(jīng)歷的過(guò)程)來(lái)判斷 關(guān)鍵詞 的“價(jià)值”。傳統觀(guān)點(diǎn)認為,渠道越高,您購買(mǎi)的可能性就越小。
  怎么做?最流行的方法是將 關(guān)鍵詞 提案分為三類(lèi):TOFU、MOFU、BOFU。
  以下是 Ahrefs 的一些 TOFU、MOFU、BOFU關(guān)鍵詞 示例:
  一般來(lái)說(shuō),TOFU關(guān)鍵詞 具有最高的點(diǎn)擊潛力,但訪(fǎng)問(wèn)者還不想購買(mǎi)任何東西。而 MOFU 和 BOFU 關(guān)鍵詞 會(huì )給你帶來(lái)更少的流量,但這些人更接近成為你的客戶(hù)。
  在 Ahrefs,我們認為這種方法是有限的并且可能會(huì )產(chǎn)生誤導。
  以下是三個(gè)原因:
  首先,它沒(méi)有考慮到你實(shí)際上可以引導一個(gè)沒(méi)有“腿部意識”的用戶(hù)在一個(gè)頁(yè)面上完成從理解到購買(mǎi)的整個(gè)階段。事實(shí)上,這就是登陸頁(yè)面上的許多內容編輯器所做的。他們不會(huì )根據 TOFU / MOFU / BOFU 制作廣告頁(yè)面。在大多數情況下,他們會(huì )制作一個(gè)廣告登陸頁(yè)面,讓用戶(hù)自發(fā)地產(chǎn)生問(wèn)題,了解問(wèn)題,并提供問(wèn)題的解決方案。
  其次,要確認每個(gè)關(guān)鍵詞到底是TOFU、MOFU還是BOFU其實(shí)很難。因為很多話(huà)不是那么清楚。例如,對于 Ahrefs,“鏈接構建工具”可能是我們的 MOFU 或 BOFU 關(guān)鍵詞,這完全取決于您如何看待它。
  第三,一些營(yíng)銷(xiāo)人員將 TOFU 的范圍擴大到這樣一種程度,以至于他們最終涵蓋了很多不相關(guān)的話(huà)題。例如 Hubspot:
  鑒于他們的業(yè)務(wù)是銷(xiāo)售營(yíng)銷(xiāo)軟件,您如何看待他們的流量來(lái)源內容:
  為了解決這個(gè)問(wèn)題,我們創(chuàng )建了一個(gè)簡(jiǎn)單而客觀(guān)的“業(yè)務(wù)評分”來(lái)確定 關(guān)鍵詞 的價(jià)值。這主要基于我們將產(chǎn)品放置在內容中的能力。
  以下是我們用于博客主題的評分標準:
  分數定義示例
  3個(gè)
  我們的產(chǎn)品是解決這個(gè)問(wèn)題的不可替代的解決方案。
  “如何在 Google 中獲得更好的排名”——因為沒(méi)有領(lǐng)導像 Ahrefs 這樣的工具集是很難做到的。
  2個(gè)
  我們的產(chǎn)品有很大幫助,但不是解決問(wèn)題所必需的。
  “SEO 技巧”——因為有些技巧適用于我們的產(chǎn)品,有些則不然。
  1個(gè)
  我們的產(chǎn)品只能簡(jiǎn)要提及。
  “營(yíng)銷(xiāo)理念”- 因為 SEO 是眾多營(yíng)銷(xiāo)理念中的一種,但 Ahrefs 可以提供幫助。
  絕對沒(méi)有辦法提及我們的產(chǎn)品。
  《社交媒體營(yíng)銷(xiāo)》——因為在這些方面,Ahrefs 沒(méi)有辦法提供幫助。
  通過(guò)將此分數與主題的估計搜索流量潛力配對,我們可以很好地了解哪些主題對我們的業(yè)務(wù)最有價(jià)值。您會(huì )注意到我們的博客上幾乎沒(méi)有任何商業(yè)評級為零的文章(無(wú)法接觸我們的產(chǎn)品)。
  最后,在完成此過(guò)程時(shí),請記住,您不僅在尋找“易于排名”的 關(guān)鍵詞,而且還在尋找具有最高投資回報率的 關(guān)鍵詞。
  許多網(wǎng)站所有者錯誤地只關(guān)注簡(jiǎn)單、低難度的 關(guān)鍵詞。你應該始終有短期、中期和長(cháng)期的排名目標。如果你只關(guān)注短期目標,你永遠不會(huì )參加最賺錢(qián)的關(guān)鍵詞排名。如果只著(zhù)眼于中長(cháng)期目標,獲取流量需要很長(cháng)時(shí)間。
  可以這樣想:采摘較低的果實(shí)很容易,但通常樹(shù)頂的果實(shí)會(huì )多汁。但這是否意味著(zhù)不值得采摘低價(jià)水果?不,您仍然應該選擇它們。但是,您還應該提前計劃并準備好您的梯子,以便稍后采摘更高的水果。
  總結
  以上應該足以幫助您了解關(guān)鍵詞研究的基本概念并開(kāi)始規劃您的內容策略。
  如果您想了解更多信息并深入研究 關(guān)鍵詞 研究,請查看散布在本指南中的推薦閱讀鏈接。這些將使您更深入地了解各種指標和工具以及如何使用它們。 查看全部

  解決方案:Google優(yōu)化-如何精準分析頁(yè)面高轉化關(guān)鍵詞?
  1.具有一定的商業(yè)價(jià)值(Business Value)
  我們一般在必應、谷歌等搜索引擎中搜索這個(gè)詞。觀(guān)察搜索引擎結果的頂部或底部是否會(huì )有搜索引擎競價(jià)廣告。如果有競價(jià)廣告,則說(shuō)明該詞具有一定的商業(yè)價(jià)值。
  通過(guò)自己對行業(yè)的了解,推測當前詞匯的商業(yè)價(jià)值。例如,當通用詞匯中有price(價(jià)格)、manufacturer(制造商)、China(中國)等詞時(shí),大部分詞是可以轉化的,具有一定的商業(yè)價(jià)值。當然,這種做法因行業(yè)而異,所以只是備選方案。
  2.具有一定的搜索量(Search Volume)
  關(guān)于關(guān)鍵詞的搜索量,搜索引擎不會(huì )準確的告訴你準確的數值。但是我們可以通過(guò)多套工具來(lái)判斷。
  
  Chrome 瀏覽器的 Keywords Everywhere 插件。下載安裝后,驗證API,即可查看任意詞的搜索量。
  用于 Google Adwords 的關(guān)鍵字規劃器 (關(guān)鍵詞planner) 工具。關(guān)鍵詞 規劃工具可以檢查關(guān)鍵詞 在最高 CPC 下的曝光率?;旧峡梢岳斫鉃椋鹤畲驝PC曝光量≈搜索量。
  3、有一定的衍生詞儲備(Expandable)
  1.什么是衍生詞
  
  簡(jiǎn)單的說(shuō),就是你選擇的詞匯能否進(jìn)一步推導出來(lái)。因為一個(gè)頁(yè)面不會(huì )只參與一個(gè)詞的排名,而是多個(gè)詞。通常是您的目標 關(guān)鍵詞 的派生物。同時(shí),這意味著(zhù)您可以獲得多組詞的有機搜索流量。
  2. 如何判斷關(guān)鍵詞是否可以導出?
  很簡(jiǎn)單,打開(kāi)谷歌搜索首頁(yè),把關(guān)鍵詞放進(jìn)去,看下拉框里出現了多少個(gè)詞,就知道一個(gè)詞的出處。
  如果一個(gè)詞匯表沒(méi)有任何下拉框,基本上就意味著(zhù)這個(gè)詞匯表已經(jīng)用完了。那么這個(gè)關(guān)鍵詞可能不是一個(gè)好的目標關(guān)鍵詞,因為沒(méi)有下拉意味著(zhù)這個(gè)關(guān)鍵詞可能沒(méi)有太大的音量。同時(shí)沒(méi)有足夠的衍生詞來(lái)支撐流量,這個(gè)頁(yè)面帶來(lái)的價(jià)值可能比較低。
  我們希望我們的頁(yè)面能夠排在谷歌的第一頁(yè),以實(shí)現高轉化和表單查詢(xún)。我們首先需要做好前期分析的關(guān)鍵詞,然后加入更多有吸引力的原創(chuàng )優(yōu)質(zhì)內容,進(jìn)行精準布局。
  核心方法:如何進(jìn)行SEO關(guān)鍵詞研究(入門(mén)指南) –
  內容
  第 1 章關(guān)鍵詞研究基礎
  在深入研究復雜的 關(guān)鍵詞 研究以及如何為您的業(yè)務(wù)找到最好的 關(guān)鍵詞 之前,先了解一些基礎知識。
  什么是關(guān)鍵詞研究?
  關(guān)鍵詞 研究是在搜索引擎中尋找 關(guān)鍵詞 進(jìn)行排名的過(guò)程。目標是了解客戶(hù)搜索的潛在意圖,以及如何進(jìn)行搜索。
  它還涉及分析和比較 關(guān)鍵詞 以找到最好的 關(guān)鍵詞 機會(huì )。
  為什么 關(guān)鍵詞 研究很重要?
  關(guān)鍵詞研究是了解人們在搜索引擎中輸入的內容的唯一方法。您需要了解它以避免創(chuàng )建關(guān)于沒(méi)有人搜索的主題的內容。然而,許多網(wǎng)站都犯了這個(gè)錯誤,這可能是 90.63% 的頁(yè)面沒(méi)有從 Google 獲得流量的一個(gè)重要原因。
  關(guān)鍵詞研究還可以幫助您解決以下問(wèn)題:
  了解這些問(wèn)題的答案將幫助您更好地定位自己。
  第 2 章如何找到 關(guān)鍵詞 建議
  關(guān)鍵詞研究首先考慮潛在客戶(hù)如何搜索您的企業(yè)或網(wǎng)站。然后,您可以使用 關(guān)鍵詞 研究工具來(lái)擴展這些想法并找到更多 關(guān)鍵詞。
  這是一個(gè)簡(jiǎn)單的過(guò)程,但要做好,必須做兩件事:
  你需要對你的行業(yè)有很好的了解。您需要了解 關(guān)鍵詞 研究工具的工作原理以及如何充分利用它們。
  下面我們將介紹一些可行的方法來(lái)提高您在這兩個(gè)領(lǐng)域的知識,并在此過(guò)程中發(fā)現您網(wǎng)站的潛在質(zhì)量 關(guān)鍵詞。
  想想你的“種子”關(guān)鍵詞 查看競爭對手的排名 關(guān)鍵詞 使用 關(guān)鍵詞 工具研究你的利基市場(chǎng) 1. 想想你的“種子”關(guān)鍵詞
  種子 關(guān)鍵詞 是 關(guān)鍵詞 研究過(guò)程的基礎。他們定義了你的利基并幫助你識別你的競爭對手。您還可以將 關(guān)鍵詞 播種到 關(guān)鍵詞 工具中以查找數以千計的 關(guān)鍵詞 建議(稍后會(huì )詳細介紹)。
  如果您已經(jīng)有想要在線(xiàn)推廣的產(chǎn)品或業(yè)務(wù),則尋找種子 關(guān)鍵詞 很容易。想想人們將如何在 Google 中搜索以找到您提供的產(chǎn)品。
  例如,如果您銷(xiāo)售咖啡機和設備,則種子 關(guān)鍵詞 可能是:
  請注意,種子 關(guān)鍵詞 本身不一定值得在您的網(wǎng)站上定位。畢竟,您只需要將它們作為“種子”來(lái)使用即可。所以不要太依賴(lài)你的種子關(guān)鍵詞。只需幾分鐘即可找到它們。找到與網(wǎng)站主題相關(guān)的種子詞后,您可以繼續下一步。
  2. 查看競爭對手的排名 關(guān)鍵詞
  查看哪些 關(guān)鍵詞 正在為您的競爭對手帶來(lái)流量通常是進(jìn)行 關(guān)鍵詞 研究的最佳方式。但首先,您需要確定您的競爭對手是誰(shuí)。這就是您的頭腦風(fēng)暴 關(guān)鍵詞 列表派上用場(chǎng)的地方。只需用谷歌搜索你的一個(gè)種子 關(guān)鍵詞,看看誰(shuí)排在第一頁(yè)上。
  如果您的種子文件中排名靠前的 關(guān)鍵詞 站點(diǎn)均不匹配您的站點(diǎn)(或您計劃使用的站點(diǎn)),請嘗試通過(guò)選擇 Google 自動(dòng)完成功能提供的 關(guān)鍵詞 建議再次搜索。
  例如,如果您銷(xiāo)售咖啡設備,您會(huì )在“卡布奇諾咖啡機”的搜索結果中發(fā)現比“卡布奇諾咖啡”更多的實(shí)際競爭對手。那是因為大部分商城網(wǎng)站排名第一,博客內容排名靠后。
  無(wú)論哪種方式,您在識別競爭站點(diǎn)時(shí)仍然需要使用判斷力。如果您看到像亞馬遜或紐約時(shí)報這樣的大品牌在您的種子 關(guān)鍵詞 上排名,不一定要將它們視為競爭對手。始終尋找與您自己的網(wǎng)站(或您計劃創(chuàng )建的網(wǎng)站)相似的網(wǎng)站。
  然后你可以將這些站點(diǎn)依次放入 AhrefsSite Explorer(網(wǎng)站分析)并查看 Top Pages(熱門(mén)頁(yè)面)報告。這將顯示他們從中獲得最多流量的頁(yè)面。它還顯示 關(guān)鍵詞 這些頁(yè)面從哪些頁(yè)面獲得最多流量。
  我們使用 Site Explorer 分析了一個(gè)競爭網(wǎng)站,并為我們假設的咖啡店找到了一些有趣的 關(guān)鍵詞:
  如您所見(jiàn),即使您非常熟悉這個(gè)行業(yè),通過(guò)研究您的競爭對手,您仍然可以找到很多您自己無(wú)法找到的獨特的 關(guān)鍵詞 金阿姨。
  如果您已經(jīng)檢查了搜索結果中的所有競爭對手并且仍然需要更多 關(guān)鍵詞 建議,您可以在 Site Explorer 的競爭域報告中找到更多的競爭對手。只要插入一個(gè)你已知的競爭對手,它就會(huì )根據站點(diǎn)參與排名的關(guān)鍵詞來(lái)匹配對應的競爭對手網(wǎng)站。
  您可以針對幾乎無(wú)限數量的 關(guān)鍵詞 建議一遍又一遍地重復上述過(guò)程。
  您是否看到了很多您已經(jīng)涵蓋的主題?
  如果您正在關(guān)鍵詞研究您所在行業(yè)的成熟網(wǎng)站,您可能會(huì )發(fā)現您已經(jīng)關(guān)鍵詞涵蓋了您的大部分競爭對手。在這種情況下,您可以試試我們的內容差距工具。它會(huì )找到一個(gè)或多個(gè) 關(guān)鍵詞 正在排名但您沒(méi)有排名的競爭對手。只需將一些競爭對手的域名放在頂部,將您的網(wǎng)站放在底部,然后點(diǎn)擊“顯示 關(guān)鍵詞”。
  以下是 Homegrounds 和 Roasty Coffee 排名的數千個(gè) 關(guān)鍵詞 中的幾個(gè) 關(guān)鍵詞,關(guān)鍵詞 沒(méi)有參與排名:
  在此視頻中了解有關(guān)使用 Content Gap 的更多信息。
  3. 使用關(guān)鍵詞研究工具
  競爭對手可以成為關(guān)鍵詞建議的重要來(lái)源。但是,您的競爭對手可能仍然沒(méi)有涵蓋很多 關(guān)鍵詞,您可以使用 關(guān)鍵詞 研究工具找到 關(guān)鍵詞。
  關(guān)鍵詞研究工具的工作方式大致相同。您輸入種子 關(guān)鍵詞,它們會(huì )生成 關(guān)鍵詞 建議。
  Google 的 關(guān)鍵詞 規劃器可能是最著(zhù)名的 關(guān)鍵詞 工具。它是免費使用的。雖然它主要針對 Google Ads 客戶(hù),但您也可以使用它來(lái)查找 關(guān)鍵詞 以進(jìn)行 SEO。
  讓我們輸入一些種子 關(guān)鍵詞 并查看它提供的數據:
  您會(huì )注意到其中一些建議收錄
種子 關(guān)鍵詞。這些稱(chēng)為部分匹配 關(guān)鍵詞。然而,并非所有 關(guān)鍵詞 都是如此。比如“k杯”這個(gè)詞,除非你是咖啡鑒賞家,否則你可能不知道這個(gè)詞和咖啡有關(guān)。
  暗示。
  您在 Google 的 關(guān)鍵詞 規劃器中看到的“競爭”指標與 SEO 無(wú)關(guān)。它指的是有多少廣告商愿意為那個(gè)關(guān)鍵詞投放付費廣告。所以你不需要關(guān)注它。
  除了 關(guān)鍵詞 規劃器,還有許多免費的 關(guān)鍵詞 研究工具。如果您的預算緊張,使用這些工具也是個(gè)好主意。但是你也會(huì )發(fā)現這些工具有些問(wèn)題。畢竟,這些工具的目的是將您轉化為它們的用戶(hù)。
  如果您想認真對待 關(guān)鍵詞 研究,不妨跳過(guò)免費工具,開(kāi)始使用專(zhuān)業(yè)的 關(guān)鍵詞 研究工具,例如 Ahrefs Keywords Explorer(關(guān)鍵詞分析)。
  讓我們輸入一些種子 關(guān)鍵詞 并查看它生成了多少 關(guān)鍵詞 建議。
  370 萬(wàn)條建議,這僅來(lái)自短語(yǔ)匹配(部分匹配)報告,其他報告也以不同方式提供關(guān)鍵詞建議。
  以下是關(guān)鍵字資源管理器(關(guān)鍵詞分析)中的報告如何匹配 關(guān)鍵詞:
  現在,您可能會(huì )收到大量關(guān)鍵詞建議,但不要擔心,您將在下一節中學(xué)習如何縮小建議范圍。
  暗示。
  Keywords Explorer (關(guān)鍵詞analytics) 還為其他搜索提供大量關(guān)鍵詞建議,其中一些搜索包括 Bing、YouTube、Amazon、百度等。
  4.研究你的利基
  到目前為止我們所討論的一切都足以產(chǎn)生幾乎無(wú)限數量的關(guān)鍵詞建議。但與此同時(shí),該過(guò)程會(huì )讓您“陷入困境”。因為結果將受到 關(guān)鍵詞 種子的限制,這意味著(zhù)您幾乎肯定會(huì )錯過(guò)一些很棒的 關(guān)鍵詞 建議。
  您可以通過(guò)更詳細地研究細分市場(chǎng)來(lái)解決這個(gè)問(wèn)題。從瀏覽行業(yè)論壇和問(wèn)答網(wǎng)站開(kāi)始。這將幫助您找到潛在客戶(hù)遇到的問(wèn)題,這些問(wèn)題未收錄
在 關(guān)鍵詞 工具中。
  例如,這是 /r/coffee subreddit 上的一篇熱門(mén)帖子:
  這個(gè)人問(wèn)的是關(guān)于 Aeropress 咖啡機的問(wèn)題。如果我們將該術(shù)語(yǔ)放入關(guān)鍵字資源管理器(關(guān)鍵詞分析),我們會(huì )發(fā)現它在美國的平均每月搜索量為 61,000 次。
  這樣的主題可能無(wú)法用關(guān)鍵詞研究工具發(fā)現,因為它不收錄
任何種子關(guān)鍵詞。
  以下是該目錄中值得我們關(guān)注的其他一些有趣主題:
  如果您發(fā)現一個(gè)熱門(mén)話(huà)題,您可以為它添加新種子 關(guān)鍵詞 并將其放入關(guān)鍵字資源管理器(關(guān)鍵詞分析)以找到更多建議。例如,如果我們用“aeropress”作為種子 關(guān)鍵詞 并檢查“短語(yǔ)匹配”報告,我們可以看到成千上萬(wàn)的 關(guān)鍵詞 建議。
  除了瀏覽論壇等,您的客戶(hù)也可以成為 關(guān)鍵詞 創(chuàng )意的重要來(lái)源。請記住,這些是您已經(jīng)與之有業(yè)務(wù)往來(lái)的人。您想要的是吸引更多像他們一樣的人訪(fǎng)問(wèn)您的網(wǎng)站。
  以下是從客戶(hù)那里提取主題的幾種方法:
  執行此操作時(shí),請務(wù)必注意它們使用的語(yǔ)句。它通常與您使用的聲明不同。例如,如果您在線(xiàn)銷(xiāo)售咖啡機,您的客戶(hù)可能會(huì )搜索之前對特定咖啡機的比較。
  第 3 章如何分析 關(guān)鍵詞
  
  有很多關(guān)鍵詞建議很好。但是你怎么知道哪個(gè)是最好的呢?畢竟,手工梳理如此多的數據幾乎是不可能的。
  解決方案很簡(jiǎn)單:在創(chuàng )建有關(guān)這些主題的內容之前,使用 SEO 指標和數據縮小范圍并將它們分開(kāi)。
  您可以使用以下五個(gè) 關(guān)鍵詞 指標來(lái)執行此操作。
  知名度
  搜索量告訴您每月 關(guān)鍵詞 搜索的平均次數。例如,在美國每月約有 40,000 次搜索“摩卡壺”。
  這個(gè)值需要注意三點(diǎn):
  是搜索次數,而不是搜索人數。在某些情況下,某人可能會(huì )在一個(gè)月內多次搜索 關(guān)鍵詞,例如“新加坡的天氣”。這些都會(huì )增加搜索量,甚至可能是同一個(gè)人搜索。它不會(huì )告訴您通過(guò)排名會(huì )獲得多少流量。即使您排名第一,關(guān)鍵詞 也很少會(huì )超過(guò)該數字的 30%。如果它超過(guò)了,那么你真的很幸運。這是一年中的月平均值。如果在 12 月有 120,000 次 關(guān)鍵詞 搜索,而在剩余的 11 個(gè)月中沒(méi)有 關(guān)鍵詞 搜索,則每月搜索量為 10,000(120,000/12 個(gè)月)
  在關(guān)鍵字資源管理器(關(guān)鍵詞 分析)的任何報告中,您都會(huì )看到搜索量過(guò)濾器:
  此過(guò)濾器主要用于兩個(gè)方面:
  過(guò)濾掉多余的 關(guān)鍵詞。如果您的站點(diǎn)是新站點(diǎn),您可能不想過(guò)濾每月搜索量超過(guò) 100,000 次的 關(guān)鍵詞,因為它們可能非常有競爭力。專(zhuān)門(mén)針對小批量 關(guān)鍵詞 進(jìn)行過(guò)濾。也許你想找競爭少、流量小的關(guān)鍵詞,這樣你就可以輕松地用短文吸引更多流量。我們稱(chēng)之為長(cháng)尾 關(guān)鍵詞。
  你知道大多數 關(guān)鍵詞 都是長(cháng)尾巴 關(guān)鍵詞 嗎?
  長(cháng)尾 關(guān)鍵詞 指的是搜索量較低的 關(guān)鍵詞。之所以這樣稱(chēng)呼它們,是因為它們位于所謂的“搜索需求曲線(xiàn)”的最末端:
  如您所見(jiàn),在曲線(xiàn)的頂部,我們有少量非常受歡迎的搜索詞,例如:
  這些我們稱(chēng)之為頭詞。
  曲線(xiàn)的尾端由數億個(gè)搜索量非常低的關(guān)鍵詞組成,例如:
  如果您想了解更多關(guān)于處理不同類(lèi)型的長(cháng)尾 關(guān)鍵詞 的信息,請查看我們的完整指南。
  如果您需要查看美國以外國家/地區的搜索量,關(guān)鍵字資源管理器 (關(guān)鍵詞analytics) 中有 171 個(gè)國家/地區可供選擇。您還可以查看全球搜索量(所有國家/地區的搜索總和)。如果您的業(yè)務(wù)是全球性的,以下兩條建議對您很重要:
  你不應該將自己局限于一個(gè)國家。如果您在全球范圍內銷(xiāo)售產(chǎn)品,美國可能只占您市場(chǎng)的一小部分。如果人們正在尋找您在其他地區提供的產(chǎn)品,您需要及時(shí)了解。您應該考慮具有搜索量的國家/地區的“購買(mǎi)力”。也許你看到一個(gè)有前途的 關(guān)鍵詞 每月有 100,000 次搜索,但其中 90% 來(lái)自一個(gè) GDP 較低的國家。在這種情況下,這個(gè) 關(guān)鍵詞 可能不是一個(gè)好的目標,因為搜索者的“購買(mǎi)力”可能很低。
  例如,看看 關(guān)鍵詞 “反向鏈接生成器”。它有 13,000 次全球搜索,但其中超過(guò) 70% 的搜索來(lái)自印度、印度尼西亞、孟加拉國和巴基斯坦等人均 GDP 較低的低收入國家。因此,即使您可能為此 關(guān)鍵詞 獲得很多流量排名,但與 關(guān)鍵詞 相比,該流量的“商業(yè)價(jià)值”可能仍然很低,關(guān)鍵詞 超過(guò) 70% 的搜索來(lái)自美國。
  關(guān)于搜索量要記住的另一件重要事情是它因工具而異。因為每個(gè)工具計算和更新此指標的方式不同。您可以在此處和此處了解搜索量估算的復雜性以及為什么有時(shí) Google 的數字并不真正“準確”。
  注意 關(guān)鍵詞 趨勢
  由于搜索量是每年的月平均值,因此通??梢栽陉P(guān)鍵字資源管理器(關(guān)鍵詞 分析)中查看 關(guān)鍵詞 的趨勢圖。如果 關(guān)鍵詞 是季節性或驟降,則搜索量可能會(huì )發(fā)生變化。
  與圣誕節相關(guān)的搜索詞就是一個(gè)很好的例子。它們都在 12 月達到峰值并在 2 月降至零,但搜索量并未反映出這一點(diǎn)。
  閱讀我們的 Google 趨勢指南,了解有關(guān)研究趨勢 關(guān)鍵詞 的更多有用提示。
  點(diǎn)擊
  很多人可能會(huì )在 Google 上搜索某些內容,但這并不意味著(zhù)他們都會(huì )點(diǎn)擊搜索結果并訪(fǎng)問(wèn)排名靠前的頁(yè)面。這就是關(guān)鍵字資源管理器(關(guān)鍵詞分析)中的點(diǎn)擊指示器派上用場(chǎng)的地方。它告訴您 關(guān)鍵詞 搜索結果的平均每月點(diǎn)擊次數。
  例如,“咖啡中含有多少咖啡因”這個(gè)詞
  盡管每月有 48,000 次搜索,但它只獲得了 8,600 次點(diǎn)擊。
  發(fā)生這種情況是因為谷歌會(huì )直接在搜索結果中顯示問(wèn)題的災難性。人們無(wú)需點(diǎn)擊即可找到所需的信息。
  谷歌將在搜索結果中為越來(lái)越多的搜索詞提供答案。因此,您需要使用 Keywords Explorer 中的 Clicks 過(guò)濾器(關(guān)鍵詞 分析)。您可以使用它來(lái)過(guò)濾掉具有潛在搜索流量的關(guān)鍵詞建議。
  您還應注意,付費廣告可能會(huì )“竊取”大量關(guān)鍵詞點(diǎn)擊次數。例如,“braun coffee maker”的點(diǎn)擊次數中有 32% 轉到了付費廣告,因此 關(guān)鍵詞 可能更適合投放廣告。
  交通潛力
  假設您正在考慮 關(guān)鍵詞 諸如“咖啡的副作用”之類(lèi)的東西。根據 Keywords Explorer 的估計(關(guān)鍵詞 分析),該術(shù)語(yǔ)每月有 1,000 次搜索和 800 次點(diǎn)擊。
  但是,請記住,如果您為這個(gè) 關(guān)鍵詞 排名,您的頁(yè)面也可能為所有相關(guān)的 關(guān)鍵詞 和同義詞排名,例如:
  由于所有這些搜索詞的意思大致相同,因此僅根據一個(gè)搜索詞來(lái)估計您的潛在搜索流量是錯誤的。查看當前排名靠前的頁(yè)面獲得的流量是個(gè)好主意,使用關(guān)鍵字瀏覽器(關(guān)鍵詞分析)很容易做到這一點(diǎn)。
  在這里,我們看到“咖啡的副作用”排名靠前的頁(yè)面估計每月有大約 3,500 次訪(fǎng)問(wèn),并參與了 930 多個(gè) 關(guān)鍵詞 排名:
  像這樣對多個(gè) 關(guān)鍵詞 進(jìn)行排名是正常的。我們研究了 300 萬(wàn)個(gè)搜索詞,排名前 10 的頁(yè)面平均每頁(yè)超過(guò) 1,000 個(gè)其他 關(guān)鍵詞 頁(yè)面。
  所以不要僅根據搜索量(或點(diǎn)擊量)來(lái)判斷 關(guān)鍵詞。查看頂部結果以估計該主題的總搜索流量潛力。在大多數情況下,關(guān)鍵詞 的搜索量確實(shí)與該主題的整體“流量潛力”相關(guān)。但是注意這個(gè)細節將幫助您確定 關(guān)鍵詞 的優(yōu)先級并找到您的競爭對手忽略的 關(guān)鍵詞 機會(huì )。
  關(guān)鍵詞難度
  SEO 專(zhuān)業(yè)人員經(jīng)常手動(dòng)測量 關(guān)鍵詞 排名難度。也就是說(shuō),通過(guò)查看其目標 關(guān)鍵詞 的排名靠前的頁(yè)面。他們考慮了許多不同的因素來(lái)判斷排名的難易程度:
  反向鏈接的數量和質(zhì)量;域名評級;內容長(cháng)度、相關(guān)性、及時(shí)性;目標 關(guān)鍵詞,同義詞的使用;搜索意圖;牌; 等等
  這個(gè)過(guò)程因人而異,因為對于究竟什么是重要的,什么是不重要的,這里沒(méi)有達成共識。一個(gè)人可能會(huì )爭辯說(shuō)修復錯誤很重要,而另一個(gè)人可能會(huì )爭辯說(shuō)依賴(lài)關(guān)系起著(zhù)更大的作用。關(guān)鍵詞 研究工具的創(chuàng )建者都在努力將 關(guān)鍵詞 排名難度設置為客觀(guān)可靠的分數,因為缺乏共識。
  在與許多專(zhuān)業(yè) SEO 討論 關(guān)鍵詞 難度分數應該考慮的因素后,我們意識到每個(gè)人都至少同意一件事:反向鏈接對排名至關(guān)重要。所以最后,我們決定根據鏈接到前 10 個(gè)頁(yè)面的唯一站點(diǎn)的數量來(lái)計算關(guān)鍵字難度 (關(guān)鍵詞難度) 分數。
  正如您在上圖中所見(jiàn),KD 分數與排名前十的搜索結果中的網(wǎng)站獲得的鏈接域數量相關(guān)。
  暗示。
  請注意,這是“前 10 名”參考。Ahrefs 的 KD 分數并不能說(shuō)明特定 關(guān)鍵詞 #1 排名的絕對數字。它只是為您提供進(jìn)入前 10 名的建議。
  了解 KD 的工作原理后,許多人通過(guò)將過(guò)濾器設置為 0 到 30 來(lái)僅關(guān)注低難度詞。他們沒(méi)有涵蓋站點(diǎn)上的高 KD 關(guān)鍵詞,這是一個(gè)很大的錯誤,原因有二:
  你應該盡早放置高 KD 關(guān)鍵詞。由于您將進(jìn)行大量鏈接建設,因此創(chuàng )建您的頁(yè)面并盡快開(kāi)始推廣它是有意義的。拖延的時(shí)間越長(cháng),你給競爭對手的領(lǐng)先優(yōu)勢就越大,將來(lái)更難超越他們。您應該將高 KD 關(guān)鍵詞 視為獲取鏈接的機會(huì )。排名靠前的頁(yè)面有很多反向鏈接的事實(shí)表明這些是“值得鏈接”的主題。換句話(huà)說(shuō),如果您確保精心設計該主題,它可能會(huì )吸引很多反向鏈接。
  重點(diǎn)是:KD 不會(huì )阻止您針對特定的 關(guān)鍵詞。它可以幫助您了解如何對給定主題進(jìn)行排名以及該主題的“鏈接價(jià)值”。
  在評估之前,您應該始終手動(dòng)評估 關(guān)鍵詞,而不是僅僅依靠工具的關(guān)鍵字難度 (關(guān)鍵詞difficulty) 分數來(lái)做出最終決定。沒(méi)有 關(guān)鍵詞 工具可以將 Google 排名算法的復雜性提煉為一個(gè)數字。所以你需要時(shí)刻注意一些工具的提示。
  如果您想了解有關(guān)關(guān)鍵字難度(關(guān)鍵詞難度)的更多信息,請查看我們的關(guān)鍵字難度(關(guān)鍵詞難度)指南。
  每次點(diǎn)擊費用 (CPC)
  每次點(diǎn)擊費用 (CPC) 顯示廣告商愿意為每次 關(guān)鍵詞 點(diǎn)擊他們的廣告支付多少錢(qián)。對于廣告商來(lái)說(shuō),它比 SEO 更像是一個(gè)指標。但它間接地衡量了 關(guān)鍵詞 對我們的價(jià)值。
  例如,關(guān)鍵詞“office coffee”的 CPC 相對較高,為 12 美元。那是因為大多數搜索者都希望為辦公室購買(mǎi)一臺咖啡機,這可能要花費數百或數千美元。相反,“how to make good espresso”的點(diǎn)擊價(jià)格非常低,因為大多數搜索者都不愿意買(mǎi)東西。他們正在尋找有關(guān)如何沖泡濃縮咖啡的信息。
  一件重要的事情是 CPC 比搜索量更不穩定。雖然大多數 關(guān)鍵詞 的搜索需求每個(gè)月都大致保持不變,但他們的 CPC 會(huì )隨著(zhù)時(shí)間的推移而變化。這意味著(zhù)你在第三方關(guān)鍵詞工具中看到的CPC值是特定時(shí)間的快照。如果您需要實(shí)時(shí)數據,則必須使用 AdWords。
  第 4 章 如何分組 關(guān)鍵詞
  對于列表中的每個(gè) 關(guān)鍵詞,您都需要有正確的頁(yè)面和內容。知道如何做到這一點(diǎn)是 關(guān)鍵詞 研究過(guò)程的核心步驟。幸運的是,您可以通過(guò)兩個(gè)簡(jiǎn)單的步驟完成此操作:
  定位父主題 定位搜索意圖 1. 定位父主題
  假設您的列表收錄
以下 關(guān)鍵詞:
  您可能想知道,您應該為每個(gè) 關(guān)鍵詞 構建不同的頁(yè)面還是將它們全部放在一個(gè)頁(yè)面上?
  答案在很大程度上取決于谷歌如何看待這些 關(guān)鍵詞。它是否將它們視為同一主題的一部分(例如如何制作生咖啡)?還是將它們都視為單獨的主題?你可以通過(guò)查看谷歌的搜索結果來(lái)了解這一點(diǎn)。
  
  例如,我們在“如何制作生咖啡”和“什么是生咖啡”中看到一些相同的結果頁(yè)面。
  這似乎表明 Google 認為 關(guān)鍵詞 是同一個(gè)線(xiàn)程的一部分。
  我們還看到,這兩個(gè)搜索的大部分結果都是關(guān)于制作奶油咖啡的文章。這告訴我們“hat is whipped coffee”是如何制作奶油咖啡主題的一個(gè)副主題。
  因此,將這兩個(gè) 關(guān)鍵詞 放在一個(gè)頁(yè)面上比創(chuàng )建兩個(gè)單獨的頁(yè)面更有意義。
  然而,如果我們看一下“不加糖的鮮奶咖啡”,我們會(huì )發(fā)現相反的情況:
  結果證明,幾乎所有這些都是完全無(wú)糖、健康的生咖啡,而不是普通的生咖啡。這告訴我們“不加糖的攪打咖啡”不是制作奶油咖啡的副題(盡管不加糖的奶油咖啡實(shí)際上仍然是奶油咖啡)
  這種方法的問(wèn)題是它主要是手動(dòng)的并且速度慢,所以如果你有很多 關(guān)鍵詞 需要分析,可能需要一些時(shí)間。
  在關(guān)鍵字資源管理器(關(guān)鍵詞 分析)中,我們解決這個(gè)問(wèn)題的方法是為每個(gè) 關(guān)鍵詞 顯示一個(gè)“父主題”。它告訴您這些子主題是否可以收錄
在父主題中。
  為了確定“父主題”,我們分析了每個(gè) 關(guān)鍵詞 排名第一的頁(yè)面,并找到向該頁(yè)面發(fā)送最多流量的 關(guān)鍵詞。
  讓我們把之前的關(guān)鍵詞放到Keywords Explorer(關(guān)鍵詞分析)中,查看它的“parent topic”:
  我們在這里看到的內容反映了我們在搜索結果中看到的內容。我們的大多數 關(guān)鍵詞 都屬于同一主題。唯一的例外是“不加糖的攪打咖啡”,因此這需要一個(gè)單獨的頁(yè)面。
  然而,我們的父主題的功能并不是絕對完美的。在關(guān)鍵詞分組方面,沒(méi)辦法每次都給你最準確的建議(這一步在SEO中也叫“關(guān)鍵詞聚合”),畢竟谷歌搜索結果不是固定的.
  例如,在發(fā)布本指南后不久,當我在 關(guān)鍵詞 報告中查看上述 關(guān)鍵詞 的父主題時(shí),我得到了不同的結果:
  在這里你最好使用關(guān)鍵字資源管理器中的“流量份額&gt;按頁(yè)面”報告(關(guān)鍵詞分析)。通過(guò)這種方式,您可以很容易地找出同一頁(yè)面是否參與了這些 關(guān)鍵詞 排名。
  2. 目標搜索意圖
  假設您的列表中有以下 關(guān)鍵詞:
  如果你通過(guò)博客經(jīng)營(yíng)在線(xiàn)商店,你需要知道你的博客和你的產(chǎn)品針對的是什么詞。
  對于某些 關(guān)鍵詞 來(lái)說(shuō),這是顯而易見(jiàn)的。您不會(huì )為“如何沖泡冷萃咖啡”創(chuàng )建產(chǎn)品頁(yè)面,因為那沒(méi)有意義。搜索者想知道如何制作冷萃咖啡,而不是購買(mǎi)沖泡設備。
  但是 關(guān)鍵詞 像“手動(dòng)毛刺咖啡研磨機”呢?您使用的是博客文章還是顯示您銷(xiāo)售的研磨機的產(chǎn)品列表頁(yè)面?
  鑒于您的目標可能是銷(xiāo)售更多咖啡研磨機,您的直覺(jué)很可能會(huì )創(chuàng )建一個(gè)類(lèi)別頁(yè)面,其中收錄
您要銷(xiāo)售的所有咖啡研磨機。其實(shí)這是錯誤的舉動(dòng),因為這種內容不符合搜索者想看到的,也就是搜索意圖。
  我們怎么知道?如果您在 Google 中查看此 關(guān)鍵詞 的首頁(yè),它們都是關(guān)于最好的咖啡研磨機的博客文章。
  Google 比任何人都更了解用戶(hù)意圖,因此排名靠前的 關(guān)鍵詞 結果通常意味著(zhù)它們更符合用戶(hù)意圖。如果你想獲得最高的排名機會(huì ),你應該創(chuàng )建與排名靠前的頁(yè)面相同類(lèi)型的內容。
  您可以在關(guān)鍵字資源管理器(關(guān)鍵詞 分析)中查看排名靠前的結果,只需單擊“SERP”下拉按鈕即可。
  從這里,您可以分析我們所說(shuō)的搜索意圖 3C,以了解如何最好地定位 關(guān)鍵詞:
  內容類(lèi)型(content type) 內容格式(content format) 內容角度(content angle) 1.內容類(lèi)型(content type)
  內容類(lèi)型通常屬于以下五個(gè)類(lèi)別之一:博客、產(chǎn)品、類(lèi)別、登錄頁(yè)面或視頻。
  2. 內容格式
  內容格式主要適用于“信息”內容。典型的例子是操作指南、清單、新聞文章、評論等。
  3.內容角度
  內容角度是內容的主要賣(mài)點(diǎn)。例如,搜索“如何制作拿鐵”的任何人似乎都想知道如何在沒(méi)有機器或任何特殊設備的情況下制作。
  您只需要知道將您的內容與搜索者的期望保持一致,但您不必效仿或將搜索者困在期望泡沫中。如果你確信你可以用不同的內容類(lèi)型、格式和角度來(lái)吸引搜索者的注意力,那就試試吧。
  第 5 章如何確定 關(guān)鍵詞 優(yōu)先級
  關(guān)鍵詞確定優(yōu)先級并不是關(guān)鍵詞研究過(guò)程的最后一步。相反,這是在您準備好做任何其他事情之前需要完成的事情。當您搜索、分析、分組 關(guān)鍵詞 時(shí),問(wèn)問(wèn)自己:
  最后一點(diǎn)尤為重要。雖然搜索量、流量潛力、關(guān)鍵詞 難度和搜索意圖都是重要的考慮因素,但您還需要考慮哪些 關(guān)鍵詞 量對您的業(yè)務(wù)有價(jià)值。.
  如何衡量關(guān)鍵詞的“商業(yè)潛力”
  許多內容營(yíng)銷(xiāo)人員和 SEO 通過(guò)將 關(guān)鍵詞 映射到用戶(hù)購買(mǎi)渠道(人們在購買(mǎi)前經(jīng)歷的過(guò)程)來(lái)判斷 關(guān)鍵詞 的“價(jià)值”。傳統觀(guān)點(diǎn)認為,渠道越高,您購買(mǎi)的可能性就越小。
  怎么做?最流行的方法是將 關(guān)鍵詞 提案分為三類(lèi):TOFU、MOFU、BOFU。
  以下是 Ahrefs 的一些 TOFU、MOFU、BOFU關(guān)鍵詞 示例:
  一般來(lái)說(shuō),TOFU關(guān)鍵詞 具有最高的點(diǎn)擊潛力,但訪(fǎng)問(wèn)者還不想購買(mǎi)任何東西。而 MOFU 和 BOFU 關(guān)鍵詞 會(huì )給你帶來(lái)更少的流量,但這些人更接近成為你的客戶(hù)。
  在 Ahrefs,我們認為這種方法是有限的并且可能會(huì )產(chǎn)生誤導。
  以下是三個(gè)原因:
  首先,它沒(méi)有考慮到你實(shí)際上可以引導一個(gè)沒(méi)有“腿部意識”的用戶(hù)在一個(gè)頁(yè)面上完成從理解到購買(mǎi)的整個(gè)階段。事實(shí)上,這就是登陸頁(yè)面上的許多內容編輯器所做的。他們不會(huì )根據 TOFU / MOFU / BOFU 制作廣告頁(yè)面。在大多數情況下,他們會(huì )制作一個(gè)廣告登陸頁(yè)面,讓用戶(hù)自發(fā)地產(chǎn)生問(wèn)題,了解問(wèn)題,并提供問(wèn)題的解決方案。
  其次,要確認每個(gè)關(guān)鍵詞到底是TOFU、MOFU還是BOFU其實(shí)很難。因為很多話(huà)不是那么清楚。例如,對于 Ahrefs,“鏈接構建工具”可能是我們的 MOFU 或 BOFU 關(guān)鍵詞,這完全取決于您如何看待它。
  第三,一些營(yíng)銷(xiāo)人員將 TOFU 的范圍擴大到這樣一種程度,以至于他們最終涵蓋了很多不相關(guān)的話(huà)題。例如 Hubspot:
  鑒于他們的業(yè)務(wù)是銷(xiāo)售營(yíng)銷(xiāo)軟件,您如何看待他們的流量來(lái)源內容:
  為了解決這個(gè)問(wèn)題,我們創(chuàng )建了一個(gè)簡(jiǎn)單而客觀(guān)的“業(yè)務(wù)評分”來(lái)確定 關(guān)鍵詞 的價(jià)值。這主要基于我們將產(chǎn)品放置在內容中的能力。
  以下是我們用于博客主題的評分標準:
  分數定義示例
  3個(gè)
  我們的產(chǎn)品是解決這個(gè)問(wèn)題的不可替代的解決方案。
  “如何在 Google 中獲得更好的排名”——因為沒(méi)有領(lǐng)導像 Ahrefs 這樣的工具集是很難做到的。
  2個(gè)
  我們的產(chǎn)品有很大幫助,但不是解決問(wèn)題所必需的。
  “SEO 技巧”——因為有些技巧適用于我們的產(chǎn)品,有些則不然。
  1個(gè)
  我們的產(chǎn)品只能簡(jiǎn)要提及。
  “營(yíng)銷(xiāo)理念”- 因為 SEO 是眾多營(yíng)銷(xiāo)理念中的一種,但 Ahrefs 可以提供幫助。
  絕對沒(méi)有辦法提及我們的產(chǎn)品。
  《社交媒體營(yíng)銷(xiāo)》——因為在這些方面,Ahrefs 沒(méi)有辦法提供幫助。
  通過(guò)將此分數與主題的估計搜索流量潛力配對,我們可以很好地了解哪些主題對我們的業(yè)務(wù)最有價(jià)值。您會(huì )注意到我們的博客上幾乎沒(méi)有任何商業(yè)評級為零的文章(無(wú)法接觸我們的產(chǎn)品)。
  最后,在完成此過(guò)程時(shí),請記住,您不僅在尋找“易于排名”的 關(guān)鍵詞,而且還在尋找具有最高投資回報率的 關(guān)鍵詞。
  許多網(wǎng)站所有者錯誤地只關(guān)注簡(jiǎn)單、低難度的 關(guān)鍵詞。你應該始終有短期、中期和長(cháng)期的排名目標。如果你只關(guān)注短期目標,你永遠不會(huì )參加最賺錢(qián)的關(guān)鍵詞排名。如果只著(zhù)眼于中長(cháng)期目標,獲取流量需要很長(cháng)時(shí)間。
  可以這樣想:采摘較低的果實(shí)很容易,但通常樹(shù)頂的果實(shí)會(huì )多汁。但這是否意味著(zhù)不值得采摘低價(jià)水果?不,您仍然應該選擇它們。但是,您還應該提前計劃并準備好您的梯子,以便稍后采摘更高的水果。
  總結
  以上應該足以幫助您了解關(guān)鍵詞研究的基本概念并開(kāi)始規劃您的內容策略。
  如果您想了解更多信息并深入研究 關(guān)鍵詞 研究,請查看散布在本指南中的推薦閱讀鏈接。這些將使您更深入地了解各種指標和工具以及如何使用它們。

解決方案:面向容器日志的技術(shù)實(shí)踐

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 70 次瀏覽 ? 2022-11-30 09:48 ? 來(lái)自相關(guān)話(huà)題

  解決方案:面向容器日志的技術(shù)實(shí)踐
  摘要:本文以Docker為例,結合阿里云日志服務(wù)團隊在日志領(lǐng)域多年積累的豐富經(jīng)驗,介紹容器日志處理的通用方法和最佳實(shí)踐。
  背景
  自2013年dotCloud開(kāi)源Docker以來(lái),以Docker為代表的容器產(chǎn)品以其隔離性好、可移植性高、資源占用低、啟動(dòng)快等特點(diǎn)迅速風(fēng)靡全球。下圖顯示了自 2013 年以來(lái) Docker 和 OpenStack 的搜索趨勢。
  容器技術(shù)在部署和交付方面給人們帶來(lái)了很多便利,但也給日志處理領(lǐng)域帶來(lái)了很多新的挑戰,包括:
  如果日志保存在容器內,當容器被銷(xiāo)毀時(shí),日志將被刪除。由于容器的生命周期比虛擬機短很多,創(chuàng )建和銷(xiāo)毀是很正常的,所以需要一種持久化保存日志的方法;
  進(jìn)入容器時(shí)代后,需要管理的目標對象遠多于虛擬機或物理機,登錄目標容器排查問(wèn)題會(huì )變得更加復雜和不經(jīng)濟;
  容器的出現讓微服務(wù)更容易落地。它引入了更多組件,同時(shí)為我們的系統帶來(lái)了松耦合。因此,我們需要一種技術(shù),既能幫助我們全局了解系統的運行情況,又能快速定位問(wèn)題點(diǎn),還原上下文。
  日志處理流程
  本文以Docker為例,依托阿里云日志服務(wù)團隊在日志領(lǐng)域多年積累的豐富經(jīng)驗,介紹容器日志處理的通用方法和最佳實(shí)踐,包括:
  實(shí)時(shí)采集
容器日志;
  查詢(xún)分析和可視化;
  日志上下文分析;
  LiveTail - 云上的 tail -f。
  實(shí)時(shí)采集
容器日志
  容器日志分類(lèi)
  要采集
日志,您必須首先找到日志所在的位置。這里我們以Nginx和Tomcat這兩個(gè)常用的容器為例進(jìn)行分析。
  Nginx產(chǎn)生的日志包括access.log和error.log。根據 nginx Dockerfile,access.log 和 error.log 分別重定向到 STDOUT 和 STDERR。
  Tomcat會(huì )產(chǎn)生很多日志,包括catalina.log、access.log、manager.log、host-manager.log等。Tomcat Dockerfile不會(huì )將這些日志重定向到標準輸出,它們存在于容器內部。
  容器產(chǎn)生的大部分日志都可以歸結為以上幾種情況。在這里,我們不妨將容器日志分為以下兩類(lèi)。
  標準輸出
  使用日志記錄驅動(dòng)程序
  容器的標準輸出將由日志驅動(dòng)統一處理。如下圖所示,不同的日志記錄驅動(dòng)程序會(huì )將標準輸出寫(xiě)入不同的目的地。
  通過(guò)logging driver采集
容器的標準輸出的好處是使用方便,例如:
  缺點(diǎn)
  使用除 json-file 和 journald 之外的其他日志記錄驅動(dòng)程序將使 docker logs API 無(wú)法使用。例如,當你在宿主機上使用portainer管理容器,使用除上述兩種之外的日志驅動(dòng)時(shí),你會(huì )發(fā)現無(wú)法通過(guò)UI界面觀(guān)察到容器的標準輸出。
  使用 docker 日志 API
  對于那些使用默認日志驅動(dòng)的容器,我們可以通過(guò)向 docker 守護進(jìn)程發(fā)送 docker logs 命令來(lái)獲取容器的標準輸出。使用這種方式采集
日志的工具有logspout、sematext-agent-docker等。以下示例中的命令表示獲取容器自2018-01-01T15:00:00以來(lái)的最新5條日志。
  缺點(diǎn)
  當日志量較大時(shí),這種方式會(huì )給docker daemon帶來(lái)很大的壓力,導致docker daemon無(wú)法及時(shí)響應創(chuàng )建容器、銷(xiāo)毀容器等命令。
  采集
json-file 文件
  默認的logging driver會(huì )將日志以json格式寫(xiě)入host文件,文件路徑為/var/lib/docker/containers//-json.log。這樣就可以通過(guò)直接采集宿主機文件來(lái)達到采集容器標準輸出的目的。
  推薦這個(gè)方案,因為既不會(huì )導致docker logs API不可用,也不會(huì )影響docker daemon,而且現在很多工具都原生支持采集
host文件,比如filebeat、logtail等。
  文本日志
  掛載主機目錄
  在容器中采集
文本日志,最簡(jiǎn)單的方式是在啟動(dòng)容器時(shí),通過(guò)bind mount或volumes將宿主機目錄掛載到容器日志所在的目錄,如下圖所示。
  
  tomcat容器的access log,使用命令docker run -it -v /tmp/app/vol1:/usr/local/tomcat/logs tomcat掛載host目錄/tmp/app/vol1到access log in容器在/usr/local/tomcat/logs目錄下,通過(guò)采集
host目錄/tmp/app/vol1下的日志來(lái)達到采集
tomcat訪(fǎng)問(wèn)日志的目的。
  計算容器rootfs掛載點(diǎn)
  使用掛載宿主機目錄的方式采集
日志會(huì )對應用程序造成侵入,因為它要求容器在啟動(dòng)時(shí)收錄
掛載命令。如果捕獲過(guò)程可以對用戶(hù)透明,那就太好了。其實(shí)這可以通過(guò)計算容器的rootfs掛載點(diǎn)來(lái)實(shí)現。
  容器rootfs掛載點(diǎn)離不開(kāi)的一個(gè)概念就是存儲驅動(dòng)。在實(shí)際使用中,用戶(hù)往往會(huì )根據Linux版本、文件系統類(lèi)型、容器讀寫(xiě)情況等因素選擇合適的存儲驅動(dòng)。在不同的存儲驅動(dòng)下,容器的rootfs掛載點(diǎn)遵循一定的規則,所以我們可以根據存儲驅動(dòng)的類(lèi)型推斷出容器的rootfs掛載點(diǎn),然后采集
容器的內部日志。下表是一些存儲驅動(dòng)的rootfs掛載點(diǎn)及其計算方法。
  Logtail解決方案
  日志服務(wù)團隊在充分對比各種容器日志采集
方式,綜合梳理用戶(hù)的反饋和訴求后,推出了容器日志一站式解決方案。
  特征
  logtail解決方案包括以下功能:
  支持采集
主機上容器的主機文件和日志(包括標準輸出和日志文件);
  支持容器自動(dòng)發(fā)現,即在你配置好采集目標后,只要有符合條件的容器被創(chuàng )建,就會(huì )自動(dòng)采集該容器上的目標日志;
  支持通過(guò)docker標簽和環(huán)境變量過(guò)濾指定容器,支持白名單和黑名單機制;
  自動(dòng)標記采集到的數據,即在采集到的日志中自動(dòng)添加容器名稱(chēng)、容器IP、文件路徑等標識數據來(lái)源的信息;
  支持采集
K8s容器日志。
  核心優(yōu)勢
  通過(guò)檢查點(diǎn)機制和額外監控進(jìn)程的部署確保至少一次語(yǔ)義;
  經(jīng)過(guò)多次雙十一、雙十二的測試,以及阿里集團內部百萬(wàn)級別的部署規模,穩定性和性能都非常有保障。
  k8s容器日志采集
  與K8s生態(tài)深度融合,能夠便捷采集K8s容器日志是日志服務(wù)l(shuí)ogtail方案的另一大特色。
  采集配置管理:
  支持通過(guò)WEB控制臺進(jìn)行采集和配置管理;
  支持通過(guò)CRD(CustomResourceDefinition)進(jìn)行采集和配置管理(這種方式更容易與K8s的部署發(fā)布流程結合)。
  采集方式:
  支持通過(guò)DaemonSet方式采集
K8s容器日志,即在每個(gè)節點(diǎn)運行一個(gè)采集
客戶(hù)端logtail,適用于單功能集群;
  支持通過(guò)Sidecar方式采集
K8s容器日志,即每個(gè)Pod以容器的形式運行一個(gè)采集
客戶(hù)端logtail,適用于大型、混合、PaaS集群。
  關(guān)于Logtail方案的詳細描述,請參考文章整體提升,阿里云Docker/Kubernetes(K8S)日志方案及選型對比。
  查詢(xún)分析和可視化
  日志采集完成后,下一步就是對這些日志進(jìn)行查詢(xún)、分析和可視化。這里以Tomcat訪(fǎng)問(wèn)日志為例,介紹日志服務(wù)提供的強大的查詢(xún)、分析、可視化功能。
  快速搜索
  采集
容器日志時(shí)會(huì )攜帶容器名稱(chēng)、容器IP、目標文件路徑等信息,查詢(xún)時(shí)可以利用這些信息快速定位目標容器和文件。關(guān)于查詢(xún)功能的詳細介紹,請參考文檔查詢(xún)語(yǔ)法。
  實(shí)時(shí)分析
  日志服務(wù)實(shí)時(shí)分析功能兼容SQL語(yǔ)法,提供200多種聚合函數。如果您有使用SQL的經(jīng)驗,您可以輕松編寫(xiě)出符合業(yè)務(wù)需求的分析語(yǔ)句。例如:
  統計訪(fǎng)問(wèn)次數最多的前 10 個(gè) URI。
  統計當前15分鐘內網(wǎng)絡(luò )流量相對于前一小時(shí)的變化情況。
  該語(yǔ)句使用 YoY 函數計算不同時(shí)間段的網(wǎng)絡(luò )流量。
  可視化
  為了讓數據更加生動(dòng),您可以使用日志服務(wù)內置的各種圖表將SQL計算結果可視化,并將圖表組合成儀表盤(pán)。
  下圖是一個(gè)基于Tomcat訪(fǎng)問(wèn)日志的dashboard,展示了錯誤請求率、網(wǎng)絡(luò )流量、狀態(tài)碼隨時(shí)間變化的趨勢等信息。儀表板顯示多個(gè) Tomcat 容器的聚合數據。您可以使用dashboard filter功能,通過(guò)指定容器名稱(chēng)查看單個(gè)容器的數據。
  
  日志上下文分析
  查詢(xún)分析、儀表盤(pán)等功能可以幫助我們把握整體信息,了解系統的整體運行情況,但定位具體問(wèn)題往往需要借助上下文信息。
  上下文定義
  上下文是指圍繞問(wèn)題的線(xiàn)索,例如日志中錯誤的上下文。上下文由兩個(gè)元素組成:
  下表顯示了不同數據源的最小粒度。
  上下文查詢(xún)的挑戰
  在日志集中存儲的場(chǎng)景下,采集器和服務(wù)器都很難保證日志的原創(chuàng )
順序:
  在客戶(hù)端層面,一臺主機上運行著(zhù)多個(gè)容器,每個(gè)容器都有多個(gè)目標文件需要采集
。日志采集軟件需要利用機器的多個(gè)CPU核對日志進(jìn)行解析和預處理,通過(guò)多線(xiàn)程并發(fā)或單線(xiàn)程異步回調處理網(wǎng)絡(luò )發(fā)送的慢IO問(wèn)題。這可以防止日志數據按照在機器上生成事件的順序到達服務(wù)器。
  在服務(wù)器層面,由于橫向擴展的多機負載均衡架構,同一臺客戶(hù)端機器的日志會(huì )分散在多個(gè)存儲節點(diǎn)上。很難根據分布式日志恢復原來(lái)的順序。
  原則
  日志服務(wù)通過(guò)在每條日志中附加一些附加信息和服務(wù)端的關(guān)鍵詞查詢(xún)能力,巧妙地解決了上述問(wèn)題。原理如下圖所示。
  采集日志時(shí),會(huì )自動(dòng)添加用于標識日志來(lái)源的信息(即上面提到的最小區分粒度),作為source_id。對于容器場(chǎng)景,該信息包括容器名稱(chēng)、文件路徑等;
  日志服務(wù)的各種采集客戶(hù)端一般會(huì )選擇批量上傳日志,幾條日志組成一個(gè)數據包??蛻?hù)端會(huì )在這些數據包中寫(xiě)入一個(gè)單調遞增的package_id,包中的每條日志在包內都有一個(gè)偏移量;
  服務(wù)器會(huì )將source_id、package_id和offset組合成一個(gè)字段,并為其建立索引。這樣即使各種日志混雜存放在服務(wù)器端,我們也可以根據source_id、package_id、offset準確定位到一條日志。
  了解更多上下文分析功能,請參考文章上下文查詢(xún),分布式系統日志上下文查詢(xún)功能。
  LiveTail - 云端尾巴 -f
  除了查看日志的上下文信息,有時(shí)我們還希望能夠持續觀(guān)察容器的輸出。
  傳統方式
  傳統模式下實(shí)時(shí)監控容器日志的方法如下表所示。
  痛點(diǎn)
  傳統方式監控容器日志存在以下痛點(diǎn):
  當容器較多時(shí),定位目標容器費時(shí)費力;
  不同類(lèi)型的容器日志需要不同的觀(guān)察方式,增加了使用成本;
  關(guān)鍵信息查詢(xún)展示不夠簡(jiǎn)潔直觀(guān)。
  功能與原理
  為了解決這些問(wèn)題,日志服務(wù)推出了LiveTail功能。與傳統模式相比,具有以下優(yōu)點(diǎn):
  可根據單條日志或日志服務(wù)的查詢(xún)分析功能快速定位目標容器;
  不進(jìn)入目標容器,統一觀(guān)察不同類(lèi)型的容器日志;
  支持關(guān)鍵詞過(guò)濾;
  支持設置鍵列。
  在實(shí)現上,LiveTail主要是利用上一章提到的上下文查詢(xún)原理,快速定位到目標容器和目標文件。然后客戶(hù)端周期性的向服務(wù)端發(fā)送請求拉取最新的數據。
  視頻樣本
  您也可以觀(guān)看視頻進(jìn)一步了解容器日志的采集、查詢(xún)、分析和可視化。
  參考
  結尾
  更令人興奮的
  解決方案:網(wǎng)站首頁(yè)設計需要注意的問(wèn)題
  首頁(yè)是我們網(wǎng)站中最重要的頁(yè)面,所以有才華的設計師花最多的時(shí)間和精力來(lái)思考首頁(yè)的設計。那么在設計主頁(yè)時(shí)主要要注意哪些事項呢?
  頁(yè)面內容要新穎
  突出一個(gè)“新”字,這個(gè)原則要求我們在設計網(wǎng)站內容時(shí)不能抄襲別人的內容,而是要結合自己的實(shí)際情況,打造一個(gè)獨一無(wú)二的網(wǎng)站。所以,在設計網(wǎng)頁(yè)的時(shí)候,一定要在選材上下功夫。選材盡量“少”“精”,要突出“新”
  網(wǎng)站 關(guān)鍵詞
  
  關(guān)鍵詞是用戶(hù)在尋找我們想要的信息時(shí)在搜索引擎上輸入的字符,所以關(guān)鍵詞對于網(wǎng)站優(yōu)化來(lái)說(shuō)是極其重要的,它幾乎決定了網(wǎng)站的排名和流量,而關(guān)鍵詞可以在首頁(yè)設置,首頁(yè)的關(guān)鍵詞是優(yōu)化網(wǎng)站最重要的方式。關(guān)鍵詞的設計形式主要是關(guān)鍵詞加長(cháng)尾關(guān)鍵詞,而關(guān)鍵詞的布局形式首頁(yè)采用一級關(guān)鍵詞,內頁(yè)采用二級關(guān)鍵詞。
  網(wǎng)站布局
  網(wǎng)站的布局也是設計首頁(yè)時(shí)需要注意的,因為首頁(yè)的布局風(fēng)格與用戶(hù)的瀏覽習慣有關(guān)。一種排版模式。但現在用戶(hù)普遍能夠接受新穎的排版方式。不同的設計布局可能會(huì )給用戶(hù)帶來(lái)亮點(diǎn),增加用戶(hù)瀏覽網(wǎng)站的時(shí)間。
  使用較少的特殊字體
  
  盡管您可以在 HTML 中使用特殊字體,但無(wú)法預測訪(fǎng)問(wèn)者將在他們的計算機上看到什么。在您的計算機上看起來(lái)不錯的頁(yè)面在不同的平臺上可能看起來(lái)很糟糕。一些網(wǎng)頁(yè)設計師喜歡使用定義屬性,這允許您使用特殊字體,但仍然需要一些解決方法,以防您選擇的字體不顯示在訪(fǎng)問(wèn)者的計算機上。
  聯(lián)亞網(wǎng)絡(luò )科技有限公司是一家以戰略、創(chuàng )意、設計、技術(shù)和服務(wù)為核心的互聯(lián)網(wǎng)公司。核心技術(shù)自主研發(fā),擁有眾多網(wǎng)頁(yè)設計行業(yè)知名設計師,經(jīng)過(guò)12年的發(fā)展,與數百家上市公司的成功合作經(jīng)驗,數萬(wàn)家企業(yè)放心選擇的服務(wù)商,讓我們成長(cháng)為一家互聯(lián)網(wǎng)精英公司——一家集策劃思維、設計執行、服務(wù)意識為一體的深圳網(wǎng)站建設公司。
  聯(lián)亞產(chǎn)品一定要生產(chǎn)高品質(zhì)的產(chǎn)品,這是我們的核心理念。
  聯(lián)亞愿與客戶(hù)共同成長(cháng),攜手前行。咨詢(xún)熱線(xiàn):0755-82940957 查看全部

  解決方案:面向容器日志的技術(shù)實(shí)踐
  摘要:本文以Docker為例,結合阿里云日志服務(wù)團隊在日志領(lǐng)域多年積累的豐富經(jīng)驗,介紹容器日志處理的通用方法和最佳實(shí)踐。
  背景
  自2013年dotCloud開(kāi)源Docker以來(lái),以Docker為代表的容器產(chǎn)品以其隔離性好、可移植性高、資源占用低、啟動(dòng)快等特點(diǎn)迅速風(fēng)靡全球。下圖顯示了自 2013 年以來(lái) Docker 和 OpenStack 的搜索趨勢。
  容器技術(shù)在部署和交付方面給人們帶來(lái)了很多便利,但也給日志處理領(lǐng)域帶來(lái)了很多新的挑戰,包括:
  如果日志保存在容器內,當容器被銷(xiāo)毀時(shí),日志將被刪除。由于容器的生命周期比虛擬機短很多,創(chuàng )建和銷(xiāo)毀是很正常的,所以需要一種持久化保存日志的方法;
  進(jìn)入容器時(shí)代后,需要管理的目標對象遠多于虛擬機或物理機,登錄目標容器排查問(wèn)題會(huì )變得更加復雜和不經(jīng)濟;
  容器的出現讓微服務(wù)更容易落地。它引入了更多組件,同時(shí)為我們的系統帶來(lái)了松耦合。因此,我們需要一種技術(shù),既能幫助我們全局了解系統的運行情況,又能快速定位問(wèn)題點(diǎn),還原上下文。
  日志處理流程
  本文以Docker為例,依托阿里云日志服務(wù)團隊在日志領(lǐng)域多年積累的豐富經(jīng)驗,介紹容器日志處理的通用方法和最佳實(shí)踐,包括:
  實(shí)時(shí)采集
容器日志;
  查詢(xún)分析和可視化;
  日志上下文分析;
  LiveTail - 云上的 tail -f。
  實(shí)時(shí)采集
容器日志
  容器日志分類(lèi)
  要采集
日志,您必須首先找到日志所在的位置。這里我們以Nginx和Tomcat這兩個(gè)常用的容器為例進(jìn)行分析。
  Nginx產(chǎn)生的日志包括access.log和error.log。根據 nginx Dockerfile,access.log 和 error.log 分別重定向到 STDOUT 和 STDERR。
  Tomcat會(huì )產(chǎn)生很多日志,包括catalina.log、access.log、manager.log、host-manager.log等。Tomcat Dockerfile不會(huì )將這些日志重定向到標準輸出,它們存在于容器內部。
  容器產(chǎn)生的大部分日志都可以歸結為以上幾種情況。在這里,我們不妨將容器日志分為以下兩類(lèi)。
  標準輸出
  使用日志記錄驅動(dòng)程序
  容器的標準輸出將由日志驅動(dòng)統一處理。如下圖所示,不同的日志記錄驅動(dòng)程序會(huì )將標準輸出寫(xiě)入不同的目的地。
  通過(guò)logging driver采集
容器的標準輸出的好處是使用方便,例如:
  缺點(diǎn)
  使用除 json-file 和 journald 之外的其他日志記錄驅動(dòng)程序將使 docker logs API 無(wú)法使用。例如,當你在宿主機上使用portainer管理容器,使用除上述兩種之外的日志驅動(dòng)時(shí),你會(huì )發(fā)現無(wú)法通過(guò)UI界面觀(guān)察到容器的標準輸出。
  使用 docker 日志 API
  對于那些使用默認日志驅動(dòng)的容器,我們可以通過(guò)向 docker 守護進(jìn)程發(fā)送 docker logs 命令來(lái)獲取容器的標準輸出。使用這種方式采集
日志的工具有logspout、sematext-agent-docker等。以下示例中的命令表示獲取容器自2018-01-01T15:00:00以來(lái)的最新5條日志。
  缺點(diǎn)
  當日志量較大時(shí),這種方式會(huì )給docker daemon帶來(lái)很大的壓力,導致docker daemon無(wú)法及時(shí)響應創(chuàng )建容器、銷(xiāo)毀容器等命令。
  采集
json-file 文件
  默認的logging driver會(huì )將日志以json格式寫(xiě)入host文件,文件路徑為/var/lib/docker/containers//-json.log。這樣就可以通過(guò)直接采集宿主機文件來(lái)達到采集容器標準輸出的目的。
  推薦這個(gè)方案,因為既不會(huì )導致docker logs API不可用,也不會(huì )影響docker daemon,而且現在很多工具都原生支持采集
host文件,比如filebeat、logtail等。
  文本日志
  掛載主機目錄
  在容器中采集
文本日志,最簡(jiǎn)單的方式是在啟動(dòng)容器時(shí),通過(guò)bind mount或volumes將宿主機目錄掛載到容器日志所在的目錄,如下圖所示。
  
  tomcat容器的access log,使用命令docker run -it -v /tmp/app/vol1:/usr/local/tomcat/logs tomcat掛載host目錄/tmp/app/vol1到access log in容器在/usr/local/tomcat/logs目錄下,通過(guò)采集
host目錄/tmp/app/vol1下的日志來(lái)達到采集
tomcat訪(fǎng)問(wèn)日志的目的。
  計算容器rootfs掛載點(diǎn)
  使用掛載宿主機目錄的方式采集
日志會(huì )對應用程序造成侵入,因為它要求容器在啟動(dòng)時(shí)收錄
掛載命令。如果捕獲過(guò)程可以對用戶(hù)透明,那就太好了。其實(shí)這可以通過(guò)計算容器的rootfs掛載點(diǎn)來(lái)實(shí)現。
  容器rootfs掛載點(diǎn)離不開(kāi)的一個(gè)概念就是存儲驅動(dòng)。在實(shí)際使用中,用戶(hù)往往會(huì )根據Linux版本、文件系統類(lèi)型、容器讀寫(xiě)情況等因素選擇合適的存儲驅動(dòng)。在不同的存儲驅動(dòng)下,容器的rootfs掛載點(diǎn)遵循一定的規則,所以我們可以根據存儲驅動(dòng)的類(lèi)型推斷出容器的rootfs掛載點(diǎn),然后采集
容器的內部日志。下表是一些存儲驅動(dòng)的rootfs掛載點(diǎn)及其計算方法。
  Logtail解決方案
  日志服務(wù)團隊在充分對比各種容器日志采集
方式,綜合梳理用戶(hù)的反饋和訴求后,推出了容器日志一站式解決方案。
  特征
  logtail解決方案包括以下功能:
  支持采集
主機上容器的主機文件和日志(包括標準輸出和日志文件);
  支持容器自動(dòng)發(fā)現,即在你配置好采集目標后,只要有符合條件的容器被創(chuàng )建,就會(huì )自動(dòng)采集該容器上的目標日志;
  支持通過(guò)docker標簽和環(huán)境變量過(guò)濾指定容器,支持白名單和黑名單機制;
  自動(dòng)標記采集到的數據,即在采集到的日志中自動(dòng)添加容器名稱(chēng)、容器IP、文件路徑等標識數據來(lái)源的信息;
  支持采集
K8s容器日志。
  核心優(yōu)勢
  通過(guò)檢查點(diǎn)機制和額外監控進(jìn)程的部署確保至少一次語(yǔ)義;
  經(jīng)過(guò)多次雙十一、雙十二的測試,以及阿里集團內部百萬(wàn)級別的部署規模,穩定性和性能都非常有保障。
  k8s容器日志采集
  與K8s生態(tài)深度融合,能夠便捷采集K8s容器日志是日志服務(wù)l(shuí)ogtail方案的另一大特色。
  采集配置管理:
  支持通過(guò)WEB控制臺進(jìn)行采集和配置管理;
  支持通過(guò)CRD(CustomResourceDefinition)進(jìn)行采集和配置管理(這種方式更容易與K8s的部署發(fā)布流程結合)。
  采集方式:
  支持通過(guò)DaemonSet方式采集
K8s容器日志,即在每個(gè)節點(diǎn)運行一個(gè)采集
客戶(hù)端logtail,適用于單功能集群;
  支持通過(guò)Sidecar方式采集
K8s容器日志,即每個(gè)Pod以容器的形式運行一個(gè)采集
客戶(hù)端logtail,適用于大型、混合、PaaS集群。
  關(guān)于Logtail方案的詳細描述,請參考文章整體提升,阿里云Docker/Kubernetes(K8S)日志方案及選型對比。
  查詢(xún)分析和可視化
  日志采集完成后,下一步就是對這些日志進(jìn)行查詢(xún)、分析和可視化。這里以Tomcat訪(fǎng)問(wèn)日志為例,介紹日志服務(wù)提供的強大的查詢(xún)、分析、可視化功能。
  快速搜索
  采集
容器日志時(shí)會(huì )攜帶容器名稱(chēng)、容器IP、目標文件路徑等信息,查詢(xún)時(shí)可以利用這些信息快速定位目標容器和文件。關(guān)于查詢(xún)功能的詳細介紹,請參考文檔查詢(xún)語(yǔ)法。
  實(shí)時(shí)分析
  日志服務(wù)實(shí)時(shí)分析功能兼容SQL語(yǔ)法,提供200多種聚合函數。如果您有使用SQL的經(jīng)驗,您可以輕松編寫(xiě)出符合業(yè)務(wù)需求的分析語(yǔ)句。例如:
  統計訪(fǎng)問(wèn)次數最多的前 10 個(gè) URI。
  統計當前15分鐘內網(wǎng)絡(luò )流量相對于前一小時(shí)的變化情況。
  該語(yǔ)句使用 YoY 函數計算不同時(shí)間段的網(wǎng)絡(luò )流量。
  可視化
  為了讓數據更加生動(dòng),您可以使用日志服務(wù)內置的各種圖表將SQL計算結果可視化,并將圖表組合成儀表盤(pán)。
  下圖是一個(gè)基于Tomcat訪(fǎng)問(wèn)日志的dashboard,展示了錯誤請求率、網(wǎng)絡(luò )流量、狀態(tài)碼隨時(shí)間變化的趨勢等信息。儀表板顯示多個(gè) Tomcat 容器的聚合數據。您可以使用dashboard filter功能,通過(guò)指定容器名稱(chēng)查看單個(gè)容器的數據。
  
  日志上下文分析
  查詢(xún)分析、儀表盤(pán)等功能可以幫助我們把握整體信息,了解系統的整體運行情況,但定位具體問(wèn)題往往需要借助上下文信息。
  上下文定義
  上下文是指圍繞問(wèn)題的線(xiàn)索,例如日志中錯誤的上下文。上下文由兩個(gè)元素組成:
  下表顯示了不同數據源的最小粒度。
  上下文查詢(xún)的挑戰
  在日志集中存儲的場(chǎng)景下,采集器和服務(wù)器都很難保證日志的原創(chuàng )
順序:
  在客戶(hù)端層面,一臺主機上運行著(zhù)多個(gè)容器,每個(gè)容器都有多個(gè)目標文件需要采集
。日志采集軟件需要利用機器的多個(gè)CPU核對日志進(jìn)行解析和預處理,通過(guò)多線(xiàn)程并發(fā)或單線(xiàn)程異步回調處理網(wǎng)絡(luò )發(fā)送的慢IO問(wèn)題。這可以防止日志數據按照在機器上生成事件的順序到達服務(wù)器。
  在服務(wù)器層面,由于橫向擴展的多機負載均衡架構,同一臺客戶(hù)端機器的日志會(huì )分散在多個(gè)存儲節點(diǎn)上。很難根據分布式日志恢復原來(lái)的順序。
  原則
  日志服務(wù)通過(guò)在每條日志中附加一些附加信息和服務(wù)端的關(guān)鍵詞查詢(xún)能力,巧妙地解決了上述問(wèn)題。原理如下圖所示。
  采集日志時(shí),會(huì )自動(dòng)添加用于標識日志來(lái)源的信息(即上面提到的最小區分粒度),作為source_id。對于容器場(chǎng)景,該信息包括容器名稱(chēng)、文件路徑等;
  日志服務(wù)的各種采集客戶(hù)端一般會(huì )選擇批量上傳日志,幾條日志組成一個(gè)數據包??蛻?hù)端會(huì )在這些數據包中寫(xiě)入一個(gè)單調遞增的package_id,包中的每條日志在包內都有一個(gè)偏移量;
  服務(wù)器會(huì )將source_id、package_id和offset組合成一個(gè)字段,并為其建立索引。這樣即使各種日志混雜存放在服務(wù)器端,我們也可以根據source_id、package_id、offset準確定位到一條日志。
  了解更多上下文分析功能,請參考文章上下文查詢(xún),分布式系統日志上下文查詢(xún)功能。
  LiveTail - 云端尾巴 -f
  除了查看日志的上下文信息,有時(shí)我們還希望能夠持續觀(guān)察容器的輸出。
  傳統方式
  傳統模式下實(shí)時(shí)監控容器日志的方法如下表所示。
  痛點(diǎn)
  傳統方式監控容器日志存在以下痛點(diǎn):
  當容器較多時(shí),定位目標容器費時(shí)費力;
  不同類(lèi)型的容器日志需要不同的觀(guān)察方式,增加了使用成本;
  關(guān)鍵信息查詢(xún)展示不夠簡(jiǎn)潔直觀(guān)。
  功能與原理
  為了解決這些問(wèn)題,日志服務(wù)推出了LiveTail功能。與傳統模式相比,具有以下優(yōu)點(diǎn):
  可根據單條日志或日志服務(wù)的查詢(xún)分析功能快速定位目標容器;
  不進(jìn)入目標容器,統一觀(guān)察不同類(lèi)型的容器日志;
  支持關(guān)鍵詞過(guò)濾;
  支持設置鍵列。
  在實(shí)現上,LiveTail主要是利用上一章提到的上下文查詢(xún)原理,快速定位到目標容器和目標文件。然后客戶(hù)端周期性的向服務(wù)端發(fā)送請求拉取最新的數據。
  視頻樣本
  您也可以觀(guān)看視頻進(jìn)一步了解容器日志的采集、查詢(xún)、分析和可視化。
  參考
  結尾
  更令人興奮的
  解決方案:網(wǎng)站首頁(yè)設計需要注意的問(wèn)題
  首頁(yè)是我們網(wǎng)站中最重要的頁(yè)面,所以有才華的設計師花最多的時(shí)間和精力來(lái)思考首頁(yè)的設計。那么在設計主頁(yè)時(shí)主要要注意哪些事項呢?
  頁(yè)面內容要新穎
  突出一個(gè)“新”字,這個(gè)原則要求我們在設計網(wǎng)站內容時(shí)不能抄襲別人的內容,而是要結合自己的實(shí)際情況,打造一個(gè)獨一無(wú)二的網(wǎng)站。所以,在設計網(wǎng)頁(yè)的時(shí)候,一定要在選材上下功夫。選材盡量“少”“精”,要突出“新”
  網(wǎng)站 關(guān)鍵詞
  
  關(guān)鍵詞是用戶(hù)在尋找我們想要的信息時(shí)在搜索引擎上輸入的字符,所以關(guān)鍵詞對于網(wǎng)站優(yōu)化來(lái)說(shuō)是極其重要的,它幾乎決定了網(wǎng)站的排名和流量,而關(guān)鍵詞可以在首頁(yè)設置,首頁(yè)的關(guān)鍵詞是優(yōu)化網(wǎng)站最重要的方式。關(guān)鍵詞的設計形式主要是關(guān)鍵詞加長(cháng)尾關(guān)鍵詞,而關(guān)鍵詞的布局形式首頁(yè)采用一級關(guān)鍵詞,內頁(yè)采用二級關(guān)鍵詞。
  網(wǎng)站布局
  網(wǎng)站的布局也是設計首頁(yè)時(shí)需要注意的,因為首頁(yè)的布局風(fēng)格與用戶(hù)的瀏覽習慣有關(guān)。一種排版模式。但現在用戶(hù)普遍能夠接受新穎的排版方式。不同的設計布局可能會(huì )給用戶(hù)帶來(lái)亮點(diǎn),增加用戶(hù)瀏覽網(wǎng)站的時(shí)間。
  使用較少的特殊字體
  
  盡管您可以在 HTML 中使用特殊字體,但無(wú)法預測訪(fǎng)問(wèn)者將在他們的計算機上看到什么。在您的計算機上看起來(lái)不錯的頁(yè)面在不同的平臺上可能看起來(lái)很糟糕。一些網(wǎng)頁(yè)設計師喜歡使用定義屬性,這允許您使用特殊字體,但仍然需要一些解決方法,以防您選擇的字體不顯示在訪(fǎng)問(wèn)者的計算機上。
  聯(lián)亞網(wǎng)絡(luò )科技有限公司是一家以戰略、創(chuàng )意、設計、技術(shù)和服務(wù)為核心的互聯(lián)網(wǎng)公司。核心技術(shù)自主研發(fā),擁有眾多網(wǎng)頁(yè)設計行業(yè)知名設計師,經(jīng)過(guò)12年的發(fā)展,與數百家上市公司的成功合作經(jīng)驗,數萬(wàn)家企業(yè)放心選擇的服務(wù)商,讓我們成長(cháng)為一家互聯(lián)網(wǎng)精英公司——一家集策劃思維、設計執行、服務(wù)意識為一體的深圳網(wǎng)站建設公司。
  聯(lián)亞產(chǎn)品一定要生產(chǎn)高品質(zhì)的產(chǎn)品,這是我們的核心理念。
  聯(lián)亞愿與客戶(hù)共同成長(cháng),攜手前行。咨詢(xún)熱線(xiàn):0755-82940957

解決方案:基于情境感知的智慧課堂動(dòng)態(tài)生成性數據采集方法與模型

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 159 次瀏覽 ? 2022-11-30 09:44 ? 來(lái)自相關(guān)話(huà)題

  解決方案:基于情境感知的智慧課堂動(dòng)態(tài)生成性數據采集方法與模型
  汪冬青1、韓厚2、邱美玲1、凌海燕1
  (1. 華南師范大學(xué)教育信息技術(shù)學(xué)院, 廣東 廣州 510631;
  2. 華南師范大學(xué)藝術(shù)學(xué)院, 廣東廣州 510631)
  [摘要] 智慧教學(xué)過(guò)程中動(dòng)態(tài)生成的數據具有多源異構、不完備、關(guān)聯(lián)性強等特點(diǎn)。數據已成為當前智慧教育研究亟待解決的問(wèn)題。本文提出了一種基于情境感知技術(shù)的智慧教學(xué)數據采集模型,使用用戶(hù)、任務(wù)、位置、時(shí)間、設備、基礎設施六類(lèi)信息來(lái)表征智慧教學(xué)情境。定義動(dòng)態(tài)生成數據描述框架和云數據交換機制,解決云環(huán)境下基于教學(xué)情境的多源異構數據采集問(wèn)題,為教育大數據模型的建立和提供新的思路和方法。發(fā)展教育大數據云服務(wù)。
  [關(guān)鍵詞] 情境意識;智能教室;動(dòng)態(tài)生成數據;數據采集
  一、簡(jiǎn)介
  隨著(zhù)云計算、移動(dòng)互聯(lián)網(wǎng)、人機交互等新一代信息技術(shù)融入教育教學(xué)全過(guò)程,智慧教育逐漸興起,受到國內外學(xué)者的廣泛關(guān)注。與傳統教育相比,智慧教育能夠帶來(lái)更簡(jiǎn)單、更高效、智能化和個(gè)性化的教學(xué)體驗,是教育信息化發(fā)展的必然階段[1]。
  教育部印發(fā)的《“十三五”教育信息化規劃》明確提出“要依托信息技術(shù),打造信息化教學(xué)環(huán)境”。智慧教育被認為是下一代信息化教學(xué)環(huán)境的發(fā)展方向,各地不斷加大投入,掀起建設智慧校園的熱潮。以廣東省為例,《廣東省教育發(fā)展“十三五”規劃(2016-2020年)》提出,到2020年,全省建設100所“智慧校園”、300所“未來(lái)課堂”,培育500所A智慧教育示范工程。
  本文所關(guān)注的智慧教學(xué)環(huán)境是指智慧教育的基礎設施和保障條件,能夠為師生提供一個(gè)帶有移動(dòng)終端的課堂教育場(chǎng)所或活動(dòng)空間。智慧教學(xué)支持系統是智慧教學(xué)環(huán)境的核心組成部分。能夠提供適合的學(xué)習資源和便捷的交互工具,開(kāi)展教學(xué)互動(dòng)和學(xué)習評價(jià)活動(dòng),有效支持個(gè)性化學(xué)習全過(guò)程,讓各類(lèi)用戶(hù)在學(xué)校和課堂上都能學(xué)習。和家庭等環(huán)境隨時(shí)隨地訪(fǎng)問(wèn)教育教學(xué)云平臺。
  2. 問(wèn)題的呈現
  知識的生成和共享是智慧教學(xué)環(huán)境的典型特征?,F代教育觀(guān)認為教學(xué)是一種具有生成性?xún)热莸闹饔^(guān)活動(dòng)[2]。學(xué)生掌握知識的過(guò)程本質(zhì)上是一個(gè)探究、分析、選擇和創(chuàng )造的動(dòng)態(tài)過(guò)程。在傳統的教學(xué)環(huán)境中,由于缺乏信息技術(shù)手段或軟件平臺支持,無(wú)法科學(xué)準確地記錄、分析和呈現教學(xué)過(guò)程中隱含的、轉瞬即逝的動(dòng)態(tài)內容。而在“云+終端”的智慧教學(xué)環(huán)境中,基于云計算和大數據服務(wù),可以對動(dòng)態(tài)生成的內容進(jìn)行采集、記錄和分析。
  動(dòng)態(tài)生成數據的采集與分析是智慧教學(xué)研究的關(guān)鍵問(wèn)題。采集
和分析動(dòng)態(tài)生成數據可以促進(jìn)學(xué)生更好地掌握知識[3]。動(dòng)態(tài)生成數據主要是指師生在教學(xué)活動(dòng)中產(chǎn)生的過(guò)程性數據,包括教師的教學(xué)行為數據和學(xué)生的學(xué)習體驗數據(如學(xué)生的學(xué)習行為、學(xué)習活動(dòng)、學(xué)習進(jìn)度等,與學(xué)生互動(dòng)的數據)。與學(xué)習環(huán)境的數據、學(xué)生操作各種資源產(chǎn)生的數據、上述各種因素之間的關(guān)系數據等)。智慧教學(xué)環(huán)境中動(dòng)態(tài)生成的數據的數據結構更加多樣化。常規的結構化數據仍然很重要,是數據采集
和分析的基礎,但非結構化數據(如圖片、視頻、教案、課堂作業(yè)、作品、音頻、教學(xué)軟件等)越來(lái)越占主導地位,顯示出增長(cháng)勢頭迅猛,但對它們的采集還處于起步階段,遠不能滿(mǎn)足蓬勃發(fā)展的智慧課堂教學(xué)應用需求。此外,教學(xué)活動(dòng)組織實(shí)施的主觀(guān)性和不確定性等因素進(jìn)一步增加了過(guò)程數據采集的復雜性。但對它們的采集
還處于起步階段,遠遠不能滿(mǎn)足蓬勃發(fā)展的智慧課堂教學(xué)應用需求。此外,教學(xué)活動(dòng)組織實(shí)施的主觀(guān)性和不確定性等因素進(jìn)一步增加了過(guò)程數據采集的復雜性。但對它們的采集
還處于起步階段,遠遠不能滿(mǎn)足蓬勃發(fā)展的智慧課堂教學(xué)應用需求。此外,教學(xué)活動(dòng)組織實(shí)施的主觀(guān)性和不確定性等因素進(jìn)一步增加了過(guò)程數據采集的復雜性。
  目前各種跨終端的智慧教學(xué)支撐系統功能大同小異,更能滿(mǎn)足智慧課堂的教學(xué)需求,但在數據采集方面還有很大的發(fā)展空間。一方面,大多停留在簡(jiǎn)單記錄零散的學(xué)習成績(jì)數據層面,較少涉及過(guò)程性數據和非結構化數據,數據與真實(shí)教學(xué)情境緊密結合,難以全面、科學(xué)地反映教學(xué)的動(dòng)態(tài)過(guò)程而學(xué)習方面,各類(lèi)智慧教學(xué)支持系統具有獨立的數據存儲格式和傳輸方式,采集的數據相互分離,互操作性不強,難以提取和挖掘有價(jià)值的信息[ 4].
  因此,在自然狀態(tài)下不確定的教學(xué)環(huán)境中,數據采集方法和技術(shù)是智慧教學(xué)研究面臨的重大挑戰,成為困擾教育大數據研究的突出問(wèn)題。目前已有的研究主要集中在如何記錄和分析單個(gè)教學(xué)系統或MOOC平臺(如coursera、edx等)的教學(xué)管理數據或用戶(hù)行為數據。對于一人一機的智慧教學(xué)環(huán)境,對于多源異構教學(xué)系統中動(dòng)態(tài)產(chǎn)生的數據,目前還沒(méi)有形成有效的采集方法。
  為了解決上述問(wèn)題,本文針對智慧教學(xué)過(guò)程中數據來(lái)源多樣、結構復雜、采集標準規范不一致等問(wèn)題,構建了基于情境感知技術(shù)的數據采集模型,定義了一個(gè)遵循xAPI規范和Caliper框架的數據描述規范,設計與數據類(lèi)型及其應用上下文相匹配的數據存儲方式,以規范和標準實(shí)現數據的跨平臺互操作,為教育建設提供新的思路和方法大數據模型和發(fā)展教育大數據服務(wù)。
  三、研究現狀
  智慧課堂教學(xué)過(guò)程中的動(dòng)態(tài)生成數據與教學(xué)情境密切相關(guān)。建立基于態(tài)勢感知的動(dòng)態(tài)生成數據采集模型和描述規范是當前研究的關(guān)鍵問(wèn)題之一。關(guān)鍵在于教學(xué)情境感知和動(dòng)態(tài)生成數據。采集技術(shù)。
  (1) 情境意識教學(xué)
  情境是構建學(xué)習模型的重要因素,也是教育數據的重要特征。目前,態(tài)勢感知廣泛應用于災害監測、動(dòng)態(tài)資源分配、服務(wù)推薦等領(lǐng)域。在教育領(lǐng)域,主要關(guān)注情境意識在學(xué)習資源檢索、自適應學(xué)習路徑推薦等泛在學(xué)習中的應用。緒方等人。構建了一個(gè)情境感知的英語(yǔ)泛在學(xué)習系統[5],通過(guò)GPS定位學(xué)習者的位置,為學(xué)習者提供合適的英語(yǔ)詞匯;程等。構建自學(xué)習室系統,監測學(xué)習者是否在指定時(shí)間出現在指定地點(diǎn),進(jìn)而推斷學(xué)習者是否參與了學(xué)習活動(dòng)[6];Tan利用普適計算、嵌入式系統、無(wú)線(xiàn)網(wǎng)絡(luò )和RFID技術(shù)開(kāi)發(fā)了EULER系統[7],可以為他們提供合適的教材;Hwang和Chang將這些技術(shù)應用到小學(xué)生的戶(hù)外學(xué)習活動(dòng)中,引導學(xué)生通過(guò)移動(dòng)設備進(jìn)行探究性學(xué)習[8]。上述研究表明,與情境感知相關(guān)的技術(shù)正逐漸應用于單一教學(xué)活動(dòng)的數據采集,但缺乏系統、深入的面向豐富應用場(chǎng)景的全教學(xué)過(guò)程數據采集解決方案. Hwang和Chang將這些技術(shù)應用到小學(xué)生的戶(hù)外學(xué)習活動(dòng)中,引導學(xué)生通過(guò)移動(dòng)設備進(jìn)行探究性學(xué)習[8]。上述研究表明,與情境感知相關(guān)的技術(shù)正逐漸應用于單一教學(xué)活動(dòng)的數據采集,但缺乏系統、深入的面向豐富應用場(chǎng)景的全教學(xué)過(guò)程數據采集解決方案. Hwang和Chang將這些技術(shù)應用到小學(xué)生的戶(hù)外學(xué)習活動(dòng)中,引導學(xué)生通過(guò)移動(dòng)設備進(jìn)行探究性學(xué)習[8]。上述研究表明,與情境感知相關(guān)的技術(shù)正逐漸應用于單一教學(xué)活動(dòng)的數據采集,但缺乏系統、深入的面向豐富應用場(chǎng)景的全教學(xué)過(guò)程數據采集解決方案.
  一、情況分類(lèi)
  要實(shí)現情境感知的數字化學(xué)習,首先需要準確感知和采集
情境信息。先前的研究已經(jīng)提出了多種上下文分類(lèi)方法。Korhonen將情境分為八種類(lèi)型:環(huán)境情境、用戶(hù)情境、任務(wù)情境、社會(huì )情境、時(shí)空情境、設備情境、服務(wù)情境和網(wǎng)絡(luò )連接情境[9]。體現在時(shí)間和空間兩個(gè)最基本的上下文的結合上,設備、服務(wù)、網(wǎng)絡(luò )連接這三個(gè)上下文沒(méi)有明顯區別;Jumisko-Pyykk?Jumisko-Pyykk?這五種類(lèi)型對用戶(hù)使用移動(dòng)終端的情況進(jìn)行了分類(lèi)[10]。分類(lèi)數量少,使用過(guò)程中會(huì )增加分類(lèi)級別,不利于后期處理。在確定情境分類(lèi)標準的過(guò)程中,需要考慮分類(lèi)之間的完整性、差異性、同質(zhì)性、適度性、符合習慣等因素,關(guān)注用戶(hù)活動(dòng)中的任務(wù)和任務(wù)執行場(chǎng)景. 情境分類(lèi)是構建智慧教學(xué)情境本體的關(guān)鍵,為建立情境推理規則庫提供了處理方法。并關(guān)注用戶(hù)活動(dòng)中的任務(wù)和任務(wù)執行場(chǎng)景。情境分類(lèi)是構建智慧教學(xué)情境本體的關(guān)鍵,為建立情境推理規則庫提供了處理方法。并關(guān)注用戶(hù)活動(dòng)中的任務(wù)和任務(wù)執行場(chǎng)景。情境分類(lèi)是構建智慧教學(xué)情境本體的關(guān)鍵,為建立情境推理規則庫提供了處理方法。
  2. 情況表示
  在情境分類(lèi)的基礎上,需要使用理論模型或方法將獲得的情境表示為有意義的線(xiàn)索。目前,常用的上下文表示模型有:鍵值模型、標簽模型、對象角色模型、空間模型和本體模型[11]。本體建立的模型具有表達能力強、可理解性、可重用性和可共享性等優(yōu)點(diǎn),適用于描述和定義情境以及情境之間的關(guān)系,也便于計算機進(jìn)行推理。使用基于本體的方法來(lái)定義和構建情境模型也是目前主要的發(fā)展方向和趨勢。
  3. 情境處理
  在上下文處理環(huán)節,通常直接上下文不能描述用戶(hù)當前的完整上下文。為了進(jìn)一步獲取用戶(hù)的完整上下文,需要使用上下文推理對獲取的上下文進(jìn)行處理。在推理方法上,可分為基于本體的推理和基于規則的推理。在實(shí)際應用中,需要在分析其優(yōu)缺點(diǎn)的基礎上做出選擇。
  (2)教學(xué)數據采集技術(shù)
  教育領(lǐng)域具有產(chǎn)生大量數據的能力[12]。為了提高數據采集
和存儲的性能,需要考慮采集
哪些數據可以提供最有用的信息。此外,數據來(lái)源多樣、結構復雜、相關(guān)性高[13]也是數據采集
過(guò)程中需要考慮的問(wèn)題。數據采集??是數據生命周期的第一階段[14],是數據分析和應用的基礎。數據采集??技術(shù)主要包括數據采集方法、模型、規范和方法。
  一、數據采集方式
  現有教育領(lǐng)域的研究更關(guān)注學(xué)習者數據,其采集
方式包括以下三類(lèi):一是從在線(xiàn)學(xué)習環(huán)境中獲取學(xué)習者數據,包括學(xué)習日志數據、學(xué)習行為和結果數據等。研究較多的方法;二是基于攝像頭、傳感器等設備感知學(xué)習者的生理特征,推斷學(xué)生在學(xué)習活動(dòng)中的參與情況,了解學(xué)習者是否認同教師的觀(guān)點(diǎn)[12]等;三是采用問(wèn)卷或量表等方法采集
學(xué)習者的具體信息。豐富的應用場(chǎng)景需要進(jìn)行動(dòng)態(tài)生成數據的采集,
  2.數據采集模型
  針對采集
到的不同類(lèi)型的數據,Edu-graph 從五個(gè)方面對教育數據進(jìn)行建模:學(xué)習內容、學(xué)習活動(dòng)、操作行為、職業(yè)以及學(xué)習者或教師參數數據[15];Koch提出在課堂教學(xué)數據采集框架中,不僅包括學(xué)習者在教學(xué)環(huán)境中的操作行為數據,還包括學(xué)習者的績(jì)效評價(jià)數據[16];此外,為了滿(mǎn)足學(xué)生的個(gè)性化學(xué)習需求,Jeong 等人。認為智慧教育系統應該關(guān)注學(xué)習者參數和學(xué)習者特征等信息[17];Raghuveer 提出構建基于學(xué)習者參數和學(xué)習對象元數據的學(xué)習體驗模型框架[18],顧曉青等人。
  3. 數據采集標準
  數據采集??標準是實(shí)現不同廠(chǎng)商軟硬件產(chǎn)品數據互通的基礎。隨著(zhù)基于新技術(shù)的新產(chǎn)品的普及和學(xué)習內容形式的日益豐富,研究人員在學(xué)習系統的技術(shù)標準和規范方面開(kāi)展了大量的前期工作,提出了學(xué)習工具的互操作性、學(xué)習信息服務(wù)和問(wèn)題和測試互操作性等標準規范來(lái)封裝學(xué)習活動(dòng)、標簽應用場(chǎng)景等。大數據和數據科學(xué)的快速發(fā)展催生了新的標準和規范,包括Experience API(簡(jiǎn)稱(chēng)xAPI)、IMS Caliper等。 研究人員基于xAPI規范進(jìn)行了大量研究,
  4.數據采集方式
  教學(xué)由一系列具有時(shí)間順序的活動(dòng)或事件組成 [27]?;顒?dòng)過(guò)程的記錄是智慧教學(xué)過(guò)程分析的基礎和前提。一些研究者從工作流、學(xué)習流、學(xué)習活動(dòng)流等不同角度研究記錄(描述)活動(dòng)過(guò)程的方式。例如,王將課堂活動(dòng)分為三個(gè)不同的層次:學(xué)習流程、學(xué)習事件和學(xué)習功能[28]。
  目前,教育數據采集技術(shù)主要面向具體應用,采集往往是在非自然狀態(tài)下分階段進(jìn)行的(在用戶(hù)不知情的情況下,如使用問(wèn)卷或量表等),而過(guò)程中產(chǎn)生的智慧教學(xué)環(huán)境數據具有更強的實(shí)時(shí)性、連貫性、綜合性和自然性,引入態(tài)勢感知技術(shù)研究此類(lèi)數據采集逐漸成為一種趨勢和方向。
  
  綜上所述,本文探索將xAPI規范和Caliper框架引入上下文感知動(dòng)態(tài)生成數據采集,并結合數據類(lèi)型和教學(xué)情境,提出一種調用數據采集模型和存儲機制的方法。這是一種動(dòng)態(tài)、開(kāi)放的情境感知數據方法,更好地適應智慧教學(xué)環(huán)境復雜應用場(chǎng)景和高系統異構性的需求,能夠有效支撐教育大數據情境下的實(shí)時(shí)、大規模應用。研究。微教與學(xué)習過(guò)程數據的持續采集,需要實(shí)現智慧教學(xué)動(dòng)態(tài)生成數據采集與分析的服務(wù)生態(tài)。
  4. 基于情境感知的智慧教學(xué)動(dòng)態(tài)生成數據采集模型
  智慧教學(xué)通常由一系列復雜的教學(xué)活動(dòng)和環(huán)節組成。每個(gè)活動(dòng)中產(chǎn)生的動(dòng)態(tài)數據具有與情境緊密結合的特點(diǎn)。分析與活動(dòng)相關(guān)的情境數據,并基于情境數據構建采集模型,可以確保準確的感知上下文,在正確的時(shí)間采集
正確的數據。
  (1) 智慧教學(xué)情境的表示與處理
  智慧教學(xué)的動(dòng)態(tài)生成數據具有來(lái)源多、異構、不完整、不一致等特點(diǎn)。本文引入態(tài)勢感知技術(shù),對教育專(zhuān)家的態(tài)勢感知過(guò)程進(jìn)行建模,如圖1所示。具體工作包括情境獲取、情境處理和服務(wù)調用三個(gè)階段[29]。
  圖1 上下文感知過(guò)程
  上下文獲取是上下文數據建模的關(guān)鍵。研究智慧教學(xué)活動(dòng)的特征和內涵,細化教學(xué)情境數據分類(lèi)框架,從直接情境和間接情境兩個(gè)方面對智慧教學(xué)情境數據進(jìn)行分類(lèi)并篩選其具體指標,重點(diǎn)關(guān)注智慧教學(xué)情境中交互性強的任務(wù)和任務(wù)執行。教學(xué)活動(dòng)場(chǎng)景。本文將動(dòng)態(tài)生成數據采集涉及的智慧教學(xué)情境分為用戶(hù)、任務(wù)、地點(diǎn)、時(shí)間、設備、基礎設施六類(lèi);將智慧教學(xué)的具體活動(dòng)分解為不同的階段;將每個(gè)階段分解為具體的行為;以教師或學(xué)生的具體行為或與具體行為相關(guān)的情境為觸發(fā)契機,獲取智慧教學(xué)動(dòng)態(tài)生成數據的生成情況,用本體模型表示獲取的情況,如圖2所示。直接子類(lèi)和直接上下文可以通過(guò)終端或其他方式直接獲??;間接子類(lèi)和間接上下文需要通過(guò)推理獲得。
  圖2 態(tài)勢表征模型
  在情境推理階段,根據智慧教學(xué)情境模型,設計了基于本體和規則的推理方法對情境進(jìn)行推理。一方面通過(guò)直接情境得到當前完整的情境教化,另一方面檢測情境的一致性,排除沖突情境。
  在服務(wù)調用階段,設計數據采集方法調用規則,結合教學(xué)過(guò)程中師生任務(wù)行為序列,推斷數據采集情況,實(shí)現當特定的智慧教學(xué)情境或情境組合出現時(shí),調用相應的數據采集??方法獲取動(dòng)態(tài)生成的數據,同時(shí)針對不同場(chǎng)景下的結構化和非結構化數據的采集和存儲,選擇高效的存儲機制和合適的分析方法。
  (2) 智慧教學(xué)動(dòng)態(tài)生成數據采集規范
  數據只是用來(lái)描述事物的符號記錄,不提供判斷或意義解釋。數據的含義需要與具體的業(yè)務(wù)相關(guān)聯(lián)。因此,數據描述是數據采集的基礎和前提。智慧教學(xué)的生成數據具有明顯的非結構化、層次化和相關(guān)性特征。其中,相關(guān)性表現在知識概念之間、知識概念與學(xué)習資源之間、教學(xué)前后環(huán)節之間、教師行為與學(xué)生行為之間等諸多方面。借鑒國內外對學(xué)習過(guò)程的形式化描述方法和xAPI規范中學(xué)習經(jīng)驗的分解過(guò)程(即“經(jīng)驗-事件-陳述”),從目標、活動(dòng)、事件和行為,從抽象到具體。在教學(xué)過(guò)程中,構建了智慧教學(xué)動(dòng)態(tài)生成數據的層次化描述框架,如圖3所示。教學(xué)目標,再將教學(xué)活動(dòng)細化為教師或學(xué)生與資源、工具或服務(wù)進(jìn)行交互的具體事件,最后用交互行為描述學(xué)習事件。
  圖3 智慧教學(xué)動(dòng)態(tài)生成數據采集層級框架
  一、行為數據說(shuō)明
  "Participant(Actor)+action(Verb)+object包括教師、學(xué)生或個(gè)體群體;Verb是行為動(dòng)詞,指教師或學(xué)生進(jìn)行的外顯行為;Object是動(dòng)作實(shí)施的對象,包括soft、Hardware設備還包括教學(xué)內容和數據,xAPI規范在發(fā)布時(shí)就定義了一套常用詞匯,用于記錄學(xué)習者的學(xué)習體驗。屏幕)和學(xué)習者行為(如做筆記),參考xAPI動(dòng)詞創(chuàng )建方法創(chuàng )建。
  2.事件數據說(shuō)明
  學(xué)習事件以“參與者(Actor)+動(dòng)作(Verb)+客體(Object)+情境(Context)”的形式描述,其中情境信息包括學(xué)習情境和活動(dòng)情境。學(xué)習情境包括課程、教師、學(xué)生、學(xué)習平臺、項目、組織等基本信息;活動(dòng)情境包括閱讀、看視頻、測試、討論等。xAPI規范公布了常用的活動(dòng)類(lèi)型,Caliper框架給出了每類(lèi)活動(dòng)的測量參數。以考試活動(dòng)為例,其參數包括分數、嘗試次數、批改次數等,這部分數據由系統自動(dòng)記錄。
  三、活動(dòng)數據說(shuō)明
  本文從可操作性和分類(lèi)的角度將智慧課堂教學(xué)活動(dòng)歸納為以下幾類(lèi):課前準備、復習、介紹、講授、學(xué)習、實(shí)踐、成果展示和總結提高?;顒?dòng)信息通過(guò)人工設置或自動(dòng)判斷獲得。手動(dòng)設置,即教師在備課過(guò)程中預先設定教學(xué)活動(dòng),安排好要使用的內容和工具,或教師在課后查看課堂記錄時(shí)手動(dòng)標注;自動(dòng)判斷,即根據學(xué)生行為和教師行為的先后順序和行為發(fā)生的時(shí)間等信息推斷出教學(xué)活動(dòng),如“教師打開(kāi)本地資源-教師鎖定學(xué)生”
  4.目標數據說(shuō)明
  在教學(xué)目標集合方面,本文基于布盧姆的教學(xué)目標分類(lèi)理論[30],從知識和認知過(guò)程兩個(gè)維度描述了云交互課堂的教學(xué)目標。在智慧課堂中,教學(xué)目標數據的獲取可以由教師在備課階段手動(dòng)設置。為了能夠做到深入分析,教師在備課過(guò)程中還需要建立教學(xué)目標與教學(xué)活動(dòng)之間的關(guān)系。
  (3) 動(dòng)態(tài)生成數據的存儲和交換機制
  1、動(dòng)態(tài)生成數據的存儲
  在存儲機制層面,基于xAPI規范中的LRS(Learning Record Store)數據存儲模塊[31]獲取和共享學(xué)習經(jīng)驗數據,支持學(xué)習者的學(xué)習數據在任意系統和系統中離線(xiàn)和在線(xiàn)存儲支持 xAPI 規范。在設備中,針對不同場(chǎng)景和格式的數據提供了差異化的存儲機制。例如,課堂教學(xué)過(guò)程中有大量的數據輸入輸出操作和各種數據類(lèi)型。為了節省設備能耗,提高應用效率,課堂教學(xué)應用中的數據暫存于本地服務(wù)器(具有簡(jiǎn)單的統計分析功能)。結束后系統自動(dòng)將數據推送到云端,
  圖 4 數據存儲和管理框架
  對于智慧課堂動(dòng)態(tài)生成的教學(xué)視頻、學(xué)生作品等非結構化文件,具體存儲過(guò)程包括:首先,根據小文件的分類(lèi)關(guān)聯(lián),結合上下文數據,將小文件上傳到分布式文件之前系統,基于數據分類(lèi)層框架和情境聚類(lèi)算法,為分類(lèi)數據建立關(guān)聯(lián),并生成關(guān)聯(lián)小文件。二是針對教學(xué)資源視頻等大文件的處理,采用大文件分割處理技術(shù),分解成小文件,實(shí)現斷點(diǎn)續傳,保證良好的用戶(hù)體驗;對于圖片、音頻等小文件的處理,使用小文件合并為大文件的技術(shù)提高了分布式存儲的性能。三是創(chuàng )建索引文件,為大文件創(chuàng )建數據結構,記錄大文件中收錄
的小文件的長(cháng)度和起始偏移量,用來(lái)解決小文件的快速訪(fǎng)問(wèn)問(wèn)題。四是建立基于上下文的元數據緩存和關(guān)聯(lián)小文件預取策略,在智慧教學(xué)環(huán)境中使用移動(dòng)智能終端緩存元數據,實(shí)現基于終端緩存的小文件快速預取,減少與相關(guān)數據節點(diǎn)的不必要通信. 相互作用。并用它們來(lái)解決快速訪(fǎng)問(wèn)小文件的問(wèn)題。四是建立基于上下文的元數據緩存和關(guān)聯(lián)小文件預取策略,在智慧教學(xué)環(huán)境中使用移動(dòng)智能終端緩存元數據,實(shí)現基于終端緩存的小文件快速預取,減少與相關(guān)數據節點(diǎn)的不必要通信. 相互作用。并用它們來(lái)解決快速訪(fǎng)問(wèn)小文件的問(wèn)題。四是建立基于上下文的元數據緩存和關(guān)聯(lián)小文件預取策略,在智慧教學(xué)環(huán)境中使用移動(dòng)智能終端緩存元數據,實(shí)現基于終端緩存的小文件快速預取,減少與相關(guān)數據節點(diǎn)的不必要通信. 相互作用。
  2.動(dòng)態(tài)生成數據的交換
  基于動(dòng)態(tài)生成數據采集模型,形成智慧教學(xué)終端應用與云公共服務(wù)平臺的數據交互接口,實(shí)現不同來(lái)源的智慧教學(xué)動(dòng)態(tài)生成數據的采集和統一呈現,支持更高層次的非結構化數據的分析應用。通過(guò)在智慧教學(xué)支撐系統之間設置xAPI配置文件,即云公共服務(wù)平臺的數據采集標準遵循相同的動(dòng)詞使用、活動(dòng)跟蹤、排序規則、應用場(chǎng)景等約定,經(jīng)過(guò)數據合并、去重、以及結構處理,將以JSON或XML格式描述的教學(xué)數據源同步到云端公共服務(wù)平臺;同時(shí),
  五、總結
  數據采集??是大數據應用于教育的前提和基礎。目前,在智慧教學(xué)環(huán)境下的數據采集模型和方法研究中,基礎理論研究滯后于實(shí)際應用,已成為困擾教育大數據研究的前沿問(wèn)題。當前,我國正面臨新一輪教學(xué)環(huán)境建設與應用改革,而“智慧”是教學(xué)環(huán)境發(fā)展的最高追求。率先在教學(xué)動(dòng)態(tài)生成數據采集方面取得進(jìn)展,提升新一輪教學(xué)環(huán)境的智慧化。本文提出了一種面向智慧教學(xué)的情境感知模型,一種基于情境感知的動(dòng)態(tài)生成數據采集模型,以及規范和存儲機制,對大規??缦到y數據采集和分析具有指導價(jià)值和參考意義。下一步的研究將著(zhù)重構建云端結合的教育大數據分析生態(tài)系統。在數據采集
的基礎上,需要考慮如何對采集
到的數據進(jìn)行解讀,使這些數據轉化為知識服務(wù)于教學(xué),提高教學(xué)決策質(zhì)量。
  本文發(fā)表于2018年第5期《電子教育研究》,轉載請聯(lián)系電化教育研究雜志社編輯部(官方郵箱:)
  【參考】
  [1] 朱志廷,何斌.智慧教育:教育信息化的新境界[J].電子教育研究, 2012(12): 7-15.
  
  [2] AHO E、HAVERINEN HL、JUUSO H 等。教師決策和課堂管理原則;個(gè)案研究和一種新的觀(guān)察方法[J]. Procedia-社會(huì )和行為科學(xué),2010(9):395-402。
  [3] NYSTRAND M、LAWRENCE LW、ADAM G 等。及時(shí)提問(wèn):調查展開(kāi)課堂話(huà)語(yǔ)的結構和動(dòng)態(tài)[J]. 話(huà)語(yǔ)過(guò)程, 2003, 35(2): 135-198。
  [4] 丁繼紅,劉華中.大數據環(huán)境下基于多維關(guān)聯(lián)分析的學(xué)習資源精準推薦[J].電化教育研究, 2018(2): 53-59.
  [5] OGATA H, CHENGJIU Y, ROSA GP, et al. 支持課堂外的移動(dòng)語(yǔ)言學(xué)習[C]// IEEE 高級學(xué)習技術(shù)國際會(huì )議。IEEE 計算機學(xué)會(huì ),2006:928-932。
  [6] Zixue C, SHENGGUO S, MIZUO K, et al. 通過(guò)比較學(xué)習教學(xué)要求與學(xué)習者行為的個(gè)性化泛在教育支持環(huán)境[C]//先進(jìn)信息網(wǎng)絡(luò )與應用國際會(huì )議。IEEE 計算機學(xué)會(huì ),2005:5 -573。
  [7] TAN-HSU T, TSUNG-YU L, CHI-CHENG. 基于 RFID 的戶(hù)外學(xué)習無(wú)所不在學(xué)習環(huán)境的開(kāi)發(fā)與評估[J]。交互式學(xué)習環(huán)境, 2007, 15(3): 253-269 .
  [8] GWO-JEN H, HSUN-FANG C. 一種基于形成性評估的移動(dòng)學(xué)習方法,以提高學(xué)生的學(xué)習態(tài)度和成績(jì)[J]。計算機與教育, 2011, 56(4): 1023-1031.
  [9] KORHONEN H, ARRASVUORI J. 通過(guò)上下文因素分析個(gè)人移動(dòng)產(chǎn)品的用戶(hù)體驗[C]// 移動(dòng)和無(wú)處不在的多媒體國際會(huì )議,Mum 2010,塞浦路斯利馬索爾,12 月。DBLP,2010:1-10。
  [10] JUNISKO-PYYKKO S, VAINIO T. 構建移動(dòng) HCI 的使用背景[J]。國際移動(dòng)人機交互雜志, 2010, 2(4): 1-28.
  [11] BALDAUF M, DUSTDAR S, ROSENBERG F. 情境感知系統綜述[J]。Ad Hoc 和普適計算國際期刊,2007 年,2(4):263-277。
  [12] AGHABOZORGI S、MAHROEIAN H、DUTT A 等。教育大數據挖掘的可行性分析研究[J]. Computational science and its applications–ICCSA 2014 Springer, 2014, 8583(03): 721-737.
  [13] LARA JA、LIZCANO D、MARTINEZ MA 等。歐洲高等教育區電子學(xué)習環(huán)境中的知識發(fā)現系統——在馬德里開(kāi)放大學(xué)學(xué)生數據中的應用[J]。計算機與教育, 2014, 72: 23-36.
  [14] DYCKHOFF AL、ZIELKE D、BULTMANN M 等人。教師學(xué)習分析工具包的設計與實(shí)現[J]. 教育技術(shù)與社會(huì ), 2012, 15(3): 58-76.
  [15] IMS GLC。Caliper AnalyticsTM 背景 [EB/OL]。[2015-12-23]。。
  [16] KOCH F, RAO C. 通過(guò)績(jì)效評估分析實(shí)現大規模個(gè)人教育 [J]。國際信息與教育技術(shù)雜志, 2014, 4(4): 297-301.
  [17] JEONG JS, KIM M, YOO K H. 基于云計算的面向內容的智慧教育系統[J]. 國際多媒體與普適工程雜志, 2013, 8(6): 313-328.
  [18] RAGHUVEER VR,TRIPATHY B K. 電子學(xué)習環(huán)境中自適應內容檢索學(xué)習體驗的按需分析[J]。電子學(xué)習與知識社會(huì )雜志, 2015, 11(1): 171-188.
  [19] 顧曉晴,鄭龍偉,簡(jiǎn)靜.獲取教育大數據:基于xAPI規范的學(xué)習體驗數據獲取與共享[J]. 現代遠程教育研究, 2014(5): 13-23.
  [20] MURRAY K, SILVERS A. 一次學(xué)習經(jīng)歷[J]. 先進(jìn)分布式學(xué)習技術(shù)學(xué)報, 2013, 1(3-4): 7-13.
  [21] SOTTILARE RA、RARSA C、HOFFMAN M 等人。表征個(gè)人和團隊輔導的自適應輔導學(xué)習效果鏈[C]// Interservice/industry Training Simulation &amp; Education Conference。2013.
  [22] HUNG N M. 論與學(xué)習生態(tài)系統相關(guān)的形成性評價(jià)語(yǔ)義模型[J]. 國際信息與教育技術(shù)雜志, 2016, 6(1): 54-57.
  [23] CORBI A, SOLANS D B. 回顧以電子學(xué)習為中心的推薦系統和學(xué)習分析中使用的當前學(xué)生監控技術(shù)。Experience API &amp; LIME 模型案例研究[J]. 國際人工智能與交互式多媒體雜志, 2014 , 2(7): 44-52.
  [24] JOHNSON A. 應用標準在嚴肅游戲中系統化學(xué)習分析[J]。計算機標準與接口, 2017, 50(C): 116-123.
  [25] DODERO JM、GONZALEZ-CONEJERO EJ、GUTIERREZ-HERRERA G 等。設計學(xué)習分析架構時(shí)互操作性和數據采集
性能之間的權衡[J]. 下一代計算機系統, 2017, 68: 31-37.
  [26] 李青, 趙越.學(xué)習分析數據互操作規范IMS Caliper Analytics解讀[J].現代遠程教育研究, 2016(2): 98-106.
  [27] DILLENBOURG P. 課堂編排設計[J]. 計算機與教育, 2013, 69(4): 485-492.
  [28] HSUE-YIE W, TZU-CHIEN L, CHIH-YUEH C, et al. 增強無(wú)線(xiàn)學(xué)習環(huán)境可用性和可行性的三個(gè)學(xué)習活動(dòng)水平框架[J]. 教育計算研究雜志, 2004, 30(4):331-351.
  [29] 韓力,劉正杰,李輝,等.基于情境感知的遠程用戶(hù)體驗數據采集方法[J].計算機科學(xué)學(xué)報, 2015(11): 2234-2246.
  [30] 洛林·安德森。布盧姆教育目標分類(lèi)學(xué):分類(lèi)學(xué)視角下的學(xué)習、教學(xué)與評價(jià)[M].姜小平等譯。北京:外語(yǔ)教學(xué)與研究出版社,2009.
  [31] CORBI A, SOLANS D B. 以電子學(xué)習為中心的推薦系統和學(xué)習分析中使用的當前學(xué)生監控技術(shù)回顧:體驗 API 和 LIME 模型案例研究 [J]。國際交互式多媒體與人工智能雜志, 2014 , 2(7): 44-52.
  智慧課堂中基于情境感知的動(dòng)態(tài)生成數據獲取方法與模型
  王冬青1、韓厚2、邱美玲1、凌海燕1
  (1.華南師范大學(xué)教育信息技術(shù)學(xué)院,廣東廣州510631;2.華南師范大學(xué)文學(xué)院,廣東廣州510631)
  [摘要] 智能學(xué)習中動(dòng)態(tài)生成的數據具有異構性、不完整性和強相關(guān)性的特點(diǎn)。由于傳統方法難以對這些數據進(jìn)行有效的采集和存儲,建立統一的數據采集規范和存儲機制,有效采集和分析過(guò)程數據成為智慧教育亟待解決的問(wèn)題。本文構建了一個(gè)基于情境感知技術(shù)的智能學(xué)習數據獲取模型,采用用戶(hù)、任務(wù)、位置、時(shí)間、設備和基礎設施六類(lèi)信息來(lái)表示智能學(xué)習的情境。
  本文基于xAPI規范和Caliper框架,采用四層定義動(dòng)態(tài)生成數據描述框架和云數據交換機制,以解決云環(huán)境下基于教學(xué)場(chǎng)景的多源異構數據獲取問(wèn)題,為建立教育大數據模型、開(kāi)發(fā)教育大數據云服務(wù)提供新的思路和方法。
  [關(guān)鍵詞] 情境意識;智慧教室;動(dòng)態(tài)生成的數據;數據采集
  【作者簡(jiǎn)介】王冬青(1978—),女,山東煙臺人。副教授,博士,主要從事智慧課堂學(xué)習環(huán)境的設計與應用,以及基于教學(xué)大數據的學(xué)習分析研究。電子郵件: 。
  [基金項目] 國家自然科學(xué)基金青年科學(xué)基金項目“基于情境感知的智慧教學(xué)動(dòng)態(tài)生成數據采集模型及交互式可視化分析機制研究”(項目編號:71701071);教育部人文社會(huì )科學(xué)研究青年基金項目“‘互聯(lián)網(wǎng)+’模式下兒童數字閱讀行為數據分析、設計與應用”(項目編號:17YJC880032)
  技巧:關(guān)鍵詞優(yōu)化大師:最好的關(guān)鍵詞排名優(yōu)化工具
  最佳 關(guān)鍵詞 排名優(yōu)化工具
  如果你有幾個(gè)網(wǎng)站,你可以像我一樣購買(mǎi)一個(gè)繁榮的 關(guān)鍵詞 排名優(yōu)化工具。我之前用的是免費的,但是免費的是為了給網(wǎng)站增加流量等等。其實(shí)我不需要這些。我主要是想提高我網(wǎng)站的排名。后來(lái)咨詢(xún)了Netway的售前技術(shù)。他們幫我分析了我網(wǎng)站的情況,然后給我推薦了一個(gè)6000。是的,到此為止了。
  費用,Netway的關(guān)鍵詞排名優(yōu)化軟件,他們好像費用不一樣,幾萬(wàn),你需要什么,我用了9000多,是的,我的關(guān)鍵詞有這么多人競爭,還好我排名第一頁(yè)不會(huì )急于簽單。
  關(guān)鍵詞 優(yōu)化工具是什么?
  
  關(guān)鍵詞優(yōu)化工具,又稱(chēng)點(diǎn)石關(guān)鍵詞排名優(yōu)化軟件,是一款可以在短時(shí)間內有效提升指定詞組、詞組、句子等關(guān)鍵詞的百度排名工具.
  有利于品牌推廣,穩定的自然排名可以獲得同行和客戶(hù)的信任。
  是不是我們有了這個(gè)東西就不用做優(yōu)化了,讓他直接上百度首頁(yè)。
  百度優(yōu)化大師有什么用
  優(yōu)化器是一種用于優(yōu)化計算機軟件的工具,但請謹慎使用。初學(xué)者一般不要使用,以免造成不必要的麻煩。
  
  百度優(yōu)化大師是一款針對百度關(guān)鍵詞排名優(yōu)化的軟件。其官方網(wǎng)站為 油花。有更詳細的解釋。
  優(yōu)化器用于優(yōu)化windows系統,清除一些垃圾文件,更改一些設置等。
  對百度關(guān)鍵詞優(yōu)化大師影響大嗎
  軟件只能作為輔助手段,更難達到大的效果。想一想,如果一個(gè)軟件可以操縱百度排名,那百度排名一定是一塌糊涂?,F在百度排名很亂?不會(huì ),所有的影響都不會(huì )太大。個(gè)人觀(guān)點(diǎn),僅供參考
  愛(ài)牛,讓您的網(wǎng)絡(luò )營(yíng)銷(xiāo)一步到位!愛(ài)牛,讓您的網(wǎng)絡(luò )營(yíng)銷(xiāo)真正高枕無(wú)憂(yōu)!愛(ài)牛,讓你真正享受等客戶(hù)上門(mén)的樂(lè )趣!愛(ài)牛網(wǎng)絡(luò )營(yíng)銷(xiāo),讓你的網(wǎng)絡(luò )開(kāi)始吧!看看別人怎么說(shuō)。 查看全部

  解決方案:基于情境感知的智慧課堂動(dòng)態(tài)生成性數據采集方法與模型
  汪冬青1、韓厚2、邱美玲1、凌海燕1
  (1. 華南師范大學(xué)教育信息技術(shù)學(xué)院, 廣東 廣州 510631;
  2. 華南師范大學(xué)藝術(shù)學(xué)院, 廣東廣州 510631)
  [摘要] 智慧教學(xué)過(guò)程中動(dòng)態(tài)生成的數據具有多源異構、不完備、關(guān)聯(lián)性強等特點(diǎn)。數據已成為當前智慧教育研究亟待解決的問(wèn)題。本文提出了一種基于情境感知技術(shù)的智慧教學(xué)數據采集模型,使用用戶(hù)、任務(wù)、位置、時(shí)間、設備、基礎設施六類(lèi)信息來(lái)表征智慧教學(xué)情境。定義動(dòng)態(tài)生成數據描述框架和云數據交換機制,解決云環(huán)境下基于教學(xué)情境的多源異構數據采集問(wèn)題,為教育大數據模型的建立和提供新的思路和方法。發(fā)展教育大數據云服務(wù)。
  [關(guān)鍵詞] 情境意識;智能教室;動(dòng)態(tài)生成數據;數據采集
  一、簡(jiǎn)介
  隨著(zhù)云計算、移動(dòng)互聯(lián)網(wǎng)、人機交互等新一代信息技術(shù)融入教育教學(xué)全過(guò)程,智慧教育逐漸興起,受到國內外學(xué)者的廣泛關(guān)注。與傳統教育相比,智慧教育能夠帶來(lái)更簡(jiǎn)單、更高效、智能化和個(gè)性化的教學(xué)體驗,是教育信息化發(fā)展的必然階段[1]。
  教育部印發(fā)的《“十三五”教育信息化規劃》明確提出“要依托信息技術(shù),打造信息化教學(xué)環(huán)境”。智慧教育被認為是下一代信息化教學(xué)環(huán)境的發(fā)展方向,各地不斷加大投入,掀起建設智慧校園的熱潮。以廣東省為例,《廣東省教育發(fā)展“十三五”規劃(2016-2020年)》提出,到2020年,全省建設100所“智慧校園”、300所“未來(lái)課堂”,培育500所A智慧教育示范工程。
  本文所關(guān)注的智慧教學(xué)環(huán)境是指智慧教育的基礎設施和保障條件,能夠為師生提供一個(gè)帶有移動(dòng)終端的課堂教育場(chǎng)所或活動(dòng)空間。智慧教學(xué)支持系統是智慧教學(xué)環(huán)境的核心組成部分。能夠提供適合的學(xué)習資源和便捷的交互工具,開(kāi)展教學(xué)互動(dòng)和學(xué)習評價(jià)活動(dòng),有效支持個(gè)性化學(xué)習全過(guò)程,讓各類(lèi)用戶(hù)在學(xué)校和課堂上都能學(xué)習。和家庭等環(huán)境隨時(shí)隨地訪(fǎng)問(wèn)教育教學(xué)云平臺。
  2. 問(wèn)題的呈現
  知識的生成和共享是智慧教學(xué)環(huán)境的典型特征?,F代教育觀(guān)認為教學(xué)是一種具有生成性?xún)热莸闹饔^(guān)活動(dòng)[2]。學(xué)生掌握知識的過(guò)程本質(zhì)上是一個(gè)探究、分析、選擇和創(chuàng )造的動(dòng)態(tài)過(guò)程。在傳統的教學(xué)環(huán)境中,由于缺乏信息技術(shù)手段或軟件平臺支持,無(wú)法科學(xué)準確地記錄、分析和呈現教學(xué)過(guò)程中隱含的、轉瞬即逝的動(dòng)態(tài)內容。而在“云+終端”的智慧教學(xué)環(huán)境中,基于云計算和大數據服務(wù),可以對動(dòng)態(tài)生成的內容進(jìn)行采集、記錄和分析。
  動(dòng)態(tài)生成數據的采集與分析是智慧教學(xué)研究的關(guān)鍵問(wèn)題。采集
和分析動(dòng)態(tài)生成數據可以促進(jìn)學(xué)生更好地掌握知識[3]。動(dòng)態(tài)生成數據主要是指師生在教學(xué)活動(dòng)中產(chǎn)生的過(guò)程性數據,包括教師的教學(xué)行為數據和學(xué)生的學(xué)習體驗數據(如學(xué)生的學(xué)習行為、學(xué)習活動(dòng)、學(xué)習進(jìn)度等,與學(xué)生互動(dòng)的數據)。與學(xué)習環(huán)境的數據、學(xué)生操作各種資源產(chǎn)生的數據、上述各種因素之間的關(guān)系數據等)。智慧教學(xué)環(huán)境中動(dòng)態(tài)生成的數據的數據結構更加多樣化。常規的結構化數據仍然很重要,是數據采集
和分析的基礎,但非結構化數據(如圖片、視頻、教案、課堂作業(yè)、作品、音頻、教學(xué)軟件等)越來(lái)越占主導地位,顯示出增長(cháng)勢頭迅猛,但對它們的采集還處于起步階段,遠不能滿(mǎn)足蓬勃發(fā)展的智慧課堂教學(xué)應用需求。此外,教學(xué)活動(dòng)組織實(shí)施的主觀(guān)性和不確定性等因素進(jìn)一步增加了過(guò)程數據采集的復雜性。但對它們的采集
還處于起步階段,遠遠不能滿(mǎn)足蓬勃發(fā)展的智慧課堂教學(xué)應用需求。此外,教學(xué)活動(dòng)組織實(shí)施的主觀(guān)性和不確定性等因素進(jìn)一步增加了過(guò)程數據采集的復雜性。但對它們的采集
還處于起步階段,遠遠不能滿(mǎn)足蓬勃發(fā)展的智慧課堂教學(xué)應用需求。此外,教學(xué)活動(dòng)組織實(shí)施的主觀(guān)性和不確定性等因素進(jìn)一步增加了過(guò)程數據采集的復雜性。
  目前各種跨終端的智慧教學(xué)支撐系統功能大同小異,更能滿(mǎn)足智慧課堂的教學(xué)需求,但在數據采集方面還有很大的發(fā)展空間。一方面,大多停留在簡(jiǎn)單記錄零散的學(xué)習成績(jì)數據層面,較少涉及過(guò)程性數據和非結構化數據,數據與真實(shí)教學(xué)情境緊密結合,難以全面、科學(xué)地反映教學(xué)的動(dòng)態(tài)過(guò)程而學(xué)習方面,各類(lèi)智慧教學(xué)支持系統具有獨立的數據存儲格式和傳輸方式,采集的數據相互分離,互操作性不強,難以提取和挖掘有價(jià)值的信息[ 4].
  因此,在自然狀態(tài)下不確定的教學(xué)環(huán)境中,數據采集方法和技術(shù)是智慧教學(xué)研究面臨的重大挑戰,成為困擾教育大數據研究的突出問(wèn)題。目前已有的研究主要集中在如何記錄和分析單個(gè)教學(xué)系統或MOOC平臺(如coursera、edx等)的教學(xué)管理數據或用戶(hù)行為數據。對于一人一機的智慧教學(xué)環(huán)境,對于多源異構教學(xué)系統中動(dòng)態(tài)產(chǎn)生的數據,目前還沒(méi)有形成有效的采集方法。
  為了解決上述問(wèn)題,本文針對智慧教學(xué)過(guò)程中數據來(lái)源多樣、結構復雜、采集標準規范不一致等問(wèn)題,構建了基于情境感知技術(shù)的數據采集模型,定義了一個(gè)遵循xAPI規范和Caliper框架的數據描述規范,設計與數據類(lèi)型及其應用上下文相匹配的數據存儲方式,以規范和標準實(shí)現數據的跨平臺互操作,為教育建設提供新的思路和方法大數據模型和發(fā)展教育大數據服務(wù)。
  三、研究現狀
  智慧課堂教學(xué)過(guò)程中的動(dòng)態(tài)生成數據與教學(xué)情境密切相關(guān)。建立基于態(tài)勢感知的動(dòng)態(tài)生成數據采集模型和描述規范是當前研究的關(guān)鍵問(wèn)題之一。關(guān)鍵在于教學(xué)情境感知和動(dòng)態(tài)生成數據。采集技術(shù)。
  (1) 情境意識教學(xué)
  情境是構建學(xué)習模型的重要因素,也是教育數據的重要特征。目前,態(tài)勢感知廣泛應用于災害監測、動(dòng)態(tài)資源分配、服務(wù)推薦等領(lǐng)域。在教育領(lǐng)域,主要關(guān)注情境意識在學(xué)習資源檢索、自適應學(xué)習路徑推薦等泛在學(xué)習中的應用。緒方等人。構建了一個(gè)情境感知的英語(yǔ)泛在學(xué)習系統[5],通過(guò)GPS定位學(xué)習者的位置,為學(xué)習者提供合適的英語(yǔ)詞匯;程等。構建自學(xué)習室系統,監測學(xué)習者是否在指定時(shí)間出現在指定地點(diǎn),進(jìn)而推斷學(xué)習者是否參與了學(xué)習活動(dòng)[6];Tan利用普適計算、嵌入式系統、無(wú)線(xiàn)網(wǎng)絡(luò )和RFID技術(shù)開(kāi)發(fā)了EULER系統[7],可以為他們提供合適的教材;Hwang和Chang將這些技術(shù)應用到小學(xué)生的戶(hù)外學(xué)習活動(dòng)中,引導學(xué)生通過(guò)移動(dòng)設備進(jìn)行探究性學(xué)習[8]。上述研究表明,與情境感知相關(guān)的技術(shù)正逐漸應用于單一教學(xué)活動(dòng)的數據采集,但缺乏系統、深入的面向豐富應用場(chǎng)景的全教學(xué)過(guò)程數據采集解決方案. Hwang和Chang將這些技術(shù)應用到小學(xué)生的戶(hù)外學(xué)習活動(dòng)中,引導學(xué)生通過(guò)移動(dòng)設備進(jìn)行探究性學(xué)習[8]。上述研究表明,與情境感知相關(guān)的技術(shù)正逐漸應用于單一教學(xué)活動(dòng)的數據采集,但缺乏系統、深入的面向豐富應用場(chǎng)景的全教學(xué)過(guò)程數據采集解決方案. Hwang和Chang將這些技術(shù)應用到小學(xué)生的戶(hù)外學(xué)習活動(dòng)中,引導學(xué)生通過(guò)移動(dòng)設備進(jìn)行探究性學(xué)習[8]。上述研究表明,與情境感知相關(guān)的技術(shù)正逐漸應用于單一教學(xué)活動(dòng)的數據采集,但缺乏系統、深入的面向豐富應用場(chǎng)景的全教學(xué)過(guò)程數據采集解決方案.
  一、情況分類(lèi)
  要實(shí)現情境感知的數字化學(xué)習,首先需要準確感知和采集
情境信息。先前的研究已經(jīng)提出了多種上下文分類(lèi)方法。Korhonen將情境分為八種類(lèi)型:環(huán)境情境、用戶(hù)情境、任務(wù)情境、社會(huì )情境、時(shí)空情境、設備情境、服務(wù)情境和網(wǎng)絡(luò )連接情境[9]。體現在時(shí)間和空間兩個(gè)最基本的上下文的結合上,設備、服務(wù)、網(wǎng)絡(luò )連接這三個(gè)上下文沒(méi)有明顯區別;Jumisko-Pyykk?Jumisko-Pyykk?這五種類(lèi)型對用戶(hù)使用移動(dòng)終端的情況進(jìn)行了分類(lèi)[10]。分類(lèi)數量少,使用過(guò)程中會(huì )增加分類(lèi)級別,不利于后期處理。在確定情境分類(lèi)標準的過(guò)程中,需要考慮分類(lèi)之間的完整性、差異性、同質(zhì)性、適度性、符合習慣等因素,關(guān)注用戶(hù)活動(dòng)中的任務(wù)和任務(wù)執行場(chǎng)景. 情境分類(lèi)是構建智慧教學(xué)情境本體的關(guān)鍵,為建立情境推理規則庫提供了處理方法。并關(guān)注用戶(hù)活動(dòng)中的任務(wù)和任務(wù)執行場(chǎng)景。情境分類(lèi)是構建智慧教學(xué)情境本體的關(guān)鍵,為建立情境推理規則庫提供了處理方法。并關(guān)注用戶(hù)活動(dòng)中的任務(wù)和任務(wù)執行場(chǎng)景。情境分類(lèi)是構建智慧教學(xué)情境本體的關(guān)鍵,為建立情境推理規則庫提供了處理方法。
  2. 情況表示
  在情境分類(lèi)的基礎上,需要使用理論模型或方法將獲得的情境表示為有意義的線(xiàn)索。目前,常用的上下文表示模型有:鍵值模型、標簽模型、對象角色模型、空間模型和本體模型[11]。本體建立的模型具有表達能力強、可理解性、可重用性和可共享性等優(yōu)點(diǎn),適用于描述和定義情境以及情境之間的關(guān)系,也便于計算機進(jìn)行推理。使用基于本體的方法來(lái)定義和構建情境模型也是目前主要的發(fā)展方向和趨勢。
  3. 情境處理
  在上下文處理環(huán)節,通常直接上下文不能描述用戶(hù)當前的完整上下文。為了進(jìn)一步獲取用戶(hù)的完整上下文,需要使用上下文推理對獲取的上下文進(jìn)行處理。在推理方法上,可分為基于本體的推理和基于規則的推理。在實(shí)際應用中,需要在分析其優(yōu)缺點(diǎn)的基礎上做出選擇。
  (2)教學(xué)數據采集技術(shù)
  教育領(lǐng)域具有產(chǎn)生大量數據的能力[12]。為了提高數據采集
和存儲的性能,需要考慮采集
哪些數據可以提供最有用的信息。此外,數據來(lái)源多樣、結構復雜、相關(guān)性高[13]也是數據采集
過(guò)程中需要考慮的問(wèn)題。數據采集??是數據生命周期的第一階段[14],是數據分析和應用的基礎。數據采集??技術(shù)主要包括數據采集方法、模型、規范和方法。
  一、數據采集方式
  現有教育領(lǐng)域的研究更關(guān)注學(xué)習者數據,其采集
方式包括以下三類(lèi):一是從在線(xiàn)學(xué)習環(huán)境中獲取學(xué)習者數據,包括學(xué)習日志數據、學(xué)習行為和結果數據等。研究較多的方法;二是基于攝像頭、傳感器等設備感知學(xué)習者的生理特征,推斷學(xué)生在學(xué)習活動(dòng)中的參與情況,了解學(xué)習者是否認同教師的觀(guān)點(diǎn)[12]等;三是采用問(wèn)卷或量表等方法采集
學(xué)習者的具體信息。豐富的應用場(chǎng)景需要進(jìn)行動(dòng)態(tài)生成數據的采集,
  2.數據采集模型
  針對采集
到的不同類(lèi)型的數據,Edu-graph 從五個(gè)方面對教育數據進(jìn)行建模:學(xué)習內容、學(xué)習活動(dòng)、操作行為、職業(yè)以及學(xué)習者或教師參數數據[15];Koch提出在課堂教學(xué)數據采集框架中,不僅包括學(xué)習者在教學(xué)環(huán)境中的操作行為數據,還包括學(xué)習者的績(jì)效評價(jià)數據[16];此外,為了滿(mǎn)足學(xué)生的個(gè)性化學(xué)習需求,Jeong 等人。認為智慧教育系統應該關(guān)注學(xué)習者參數和學(xué)習者特征等信息[17];Raghuveer 提出構建基于學(xué)習者參數和學(xué)習對象元數據的學(xué)習體驗模型框架[18],顧曉青等人。
  3. 數據采集標準
  數據采集??標準是實(shí)現不同廠(chǎng)商軟硬件產(chǎn)品數據互通的基礎。隨著(zhù)基于新技術(shù)的新產(chǎn)品的普及和學(xué)習內容形式的日益豐富,研究人員在學(xué)習系統的技術(shù)標準和規范方面開(kāi)展了大量的前期工作,提出了學(xué)習工具的互操作性、學(xué)習信息服務(wù)和問(wèn)題和測試互操作性等標準規范來(lái)封裝學(xué)習活動(dòng)、標簽應用場(chǎng)景等。大數據和數據科學(xué)的快速發(fā)展催生了新的標準和規范,包括Experience API(簡(jiǎn)稱(chēng)xAPI)、IMS Caliper等。 研究人員基于xAPI規范進(jìn)行了大量研究,
  4.數據采集方式
  教學(xué)由一系列具有時(shí)間順序的活動(dòng)或事件組成 [27]?;顒?dòng)過(guò)程的記錄是智慧教學(xué)過(guò)程分析的基礎和前提。一些研究者從工作流、學(xué)習流、學(xué)習活動(dòng)流等不同角度研究記錄(描述)活動(dòng)過(guò)程的方式。例如,王將課堂活動(dòng)分為三個(gè)不同的層次:學(xué)習流程、學(xué)習事件和學(xué)習功能[28]。
  目前,教育數據采集技術(shù)主要面向具體應用,采集往往是在非自然狀態(tài)下分階段進(jìn)行的(在用戶(hù)不知情的情況下,如使用問(wèn)卷或量表等),而過(guò)程中產(chǎn)生的智慧教學(xué)環(huán)境數據具有更強的實(shí)時(shí)性、連貫性、綜合性和自然性,引入態(tài)勢感知技術(shù)研究此類(lèi)數據采集逐漸成為一種趨勢和方向。
  
  綜上所述,本文探索將xAPI規范和Caliper框架引入上下文感知動(dòng)態(tài)生成數據采集,并結合數據類(lèi)型和教學(xué)情境,提出一種調用數據采集模型和存儲機制的方法。這是一種動(dòng)態(tài)、開(kāi)放的情境感知數據方法,更好地適應智慧教學(xué)環(huán)境復雜應用場(chǎng)景和高系統異構性的需求,能夠有效支撐教育大數據情境下的實(shí)時(shí)、大規模應用。研究。微教與學(xué)習過(guò)程數據的持續采集,需要實(shí)現智慧教學(xué)動(dòng)態(tài)生成數據采集與分析的服務(wù)生態(tài)。
  4. 基于情境感知的智慧教學(xué)動(dòng)態(tài)生成數據采集模型
  智慧教學(xué)通常由一系列復雜的教學(xué)活動(dòng)和環(huán)節組成。每個(gè)活動(dòng)中產(chǎn)生的動(dòng)態(tài)數據具有與情境緊密結合的特點(diǎn)。分析與活動(dòng)相關(guān)的情境數據,并基于情境數據構建采集模型,可以確保準確的感知上下文,在正確的時(shí)間采集
正確的數據。
  (1) 智慧教學(xué)情境的表示與處理
  智慧教學(xué)的動(dòng)態(tài)生成數據具有來(lái)源多、異構、不完整、不一致等特點(diǎn)。本文引入態(tài)勢感知技術(shù),對教育專(zhuān)家的態(tài)勢感知過(guò)程進(jìn)行建模,如圖1所示。具體工作包括情境獲取、情境處理和服務(wù)調用三個(gè)階段[29]。
  圖1 上下文感知過(guò)程
  上下文獲取是上下文數據建模的關(guān)鍵。研究智慧教學(xué)活動(dòng)的特征和內涵,細化教學(xué)情境數據分類(lèi)框架,從直接情境和間接情境兩個(gè)方面對智慧教學(xué)情境數據進(jìn)行分類(lèi)并篩選其具體指標,重點(diǎn)關(guān)注智慧教學(xué)情境中交互性強的任務(wù)和任務(wù)執行。教學(xué)活動(dòng)場(chǎng)景。本文將動(dòng)態(tài)生成數據采集涉及的智慧教學(xué)情境分為用戶(hù)、任務(wù)、地點(diǎn)、時(shí)間、設備、基礎設施六類(lèi);將智慧教學(xué)的具體活動(dòng)分解為不同的階段;將每個(gè)階段分解為具體的行為;以教師或學(xué)生的具體行為或與具體行為相關(guān)的情境為觸發(fā)契機,獲取智慧教學(xué)動(dòng)態(tài)生成數據的生成情況,用本體模型表示獲取的情況,如圖2所示。直接子類(lèi)和直接上下文可以通過(guò)終端或其他方式直接獲??;間接子類(lèi)和間接上下文需要通過(guò)推理獲得。
  圖2 態(tài)勢表征模型
  在情境推理階段,根據智慧教學(xué)情境模型,設計了基于本體和規則的推理方法對情境進(jìn)行推理。一方面通過(guò)直接情境得到當前完整的情境教化,另一方面檢測情境的一致性,排除沖突情境。
  在服務(wù)調用階段,設計數據采集方法調用規則,結合教學(xué)過(guò)程中師生任務(wù)行為序列,推斷數據采集情況,實(shí)現當特定的智慧教學(xué)情境或情境組合出現時(shí),調用相應的數據采集??方法獲取動(dòng)態(tài)生成的數據,同時(shí)針對不同場(chǎng)景下的結構化和非結構化數據的采集和存儲,選擇高效的存儲機制和合適的分析方法。
  (2) 智慧教學(xué)動(dòng)態(tài)生成數據采集規范
  數據只是用來(lái)描述事物的符號記錄,不提供判斷或意義解釋。數據的含義需要與具體的業(yè)務(wù)相關(guān)聯(lián)。因此,數據描述是數據采集的基礎和前提。智慧教學(xué)的生成數據具有明顯的非結構化、層次化和相關(guān)性特征。其中,相關(guān)性表現在知識概念之間、知識概念與學(xué)習資源之間、教學(xué)前后環(huán)節之間、教師行為與學(xué)生行為之間等諸多方面。借鑒國內外對學(xué)習過(guò)程的形式化描述方法和xAPI規范中學(xué)習經(jīng)驗的分解過(guò)程(即“經(jīng)驗-事件-陳述”),從目標、活動(dòng)、事件和行為,從抽象到具體。在教學(xué)過(guò)程中,構建了智慧教學(xué)動(dòng)態(tài)生成數據的層次化描述框架,如圖3所示。教學(xué)目標,再將教學(xué)活動(dòng)細化為教師或學(xué)生與資源、工具或服務(wù)進(jìn)行交互的具體事件,最后用交互行為描述學(xué)習事件。
  圖3 智慧教學(xué)動(dòng)態(tài)生成數據采集層級框架
  一、行為數據說(shuō)明
  "Participant(Actor)+action(Verb)+object包括教師、學(xué)生或個(gè)體群體;Verb是行為動(dòng)詞,指教師或學(xué)生進(jìn)行的外顯行為;Object是動(dòng)作實(shí)施的對象,包括soft、Hardware設備還包括教學(xué)內容和數據,xAPI規范在發(fā)布時(shí)就定義了一套常用詞匯,用于記錄學(xué)習者的學(xué)習體驗。屏幕)和學(xué)習者行為(如做筆記),參考xAPI動(dòng)詞創(chuàng )建方法創(chuàng )建。
  2.事件數據說(shuō)明
  學(xué)習事件以“參與者(Actor)+動(dòng)作(Verb)+客體(Object)+情境(Context)”的形式描述,其中情境信息包括學(xué)習情境和活動(dòng)情境。學(xué)習情境包括課程、教師、學(xué)生、學(xué)習平臺、項目、組織等基本信息;活動(dòng)情境包括閱讀、看視頻、測試、討論等。xAPI規范公布了常用的活動(dòng)類(lèi)型,Caliper框架給出了每類(lèi)活動(dòng)的測量參數。以考試活動(dòng)為例,其參數包括分數、嘗試次數、批改次數等,這部分數據由系統自動(dòng)記錄。
  三、活動(dòng)數據說(shuō)明
  本文從可操作性和分類(lèi)的角度將智慧課堂教學(xué)活動(dòng)歸納為以下幾類(lèi):課前準備、復習、介紹、講授、學(xué)習、實(shí)踐、成果展示和總結提高?;顒?dòng)信息通過(guò)人工設置或自動(dòng)判斷獲得。手動(dòng)設置,即教師在備課過(guò)程中預先設定教學(xué)活動(dòng),安排好要使用的內容和工具,或教師在課后查看課堂記錄時(shí)手動(dòng)標注;自動(dòng)判斷,即根據學(xué)生行為和教師行為的先后順序和行為發(fā)生的時(shí)間等信息推斷出教學(xué)活動(dòng),如“教師打開(kāi)本地資源-教師鎖定學(xué)生”
  4.目標數據說(shuō)明
  在教學(xué)目標集合方面,本文基于布盧姆的教學(xué)目標分類(lèi)理論[30],從知識和認知過(guò)程兩個(gè)維度描述了云交互課堂的教學(xué)目標。在智慧課堂中,教學(xué)目標數據的獲取可以由教師在備課階段手動(dòng)設置。為了能夠做到深入分析,教師在備課過(guò)程中還需要建立教學(xué)目標與教學(xué)活動(dòng)之間的關(guān)系。
  (3) 動(dòng)態(tài)生成數據的存儲和交換機制
  1、動(dòng)態(tài)生成數據的存儲
  在存儲機制層面,基于xAPI規范中的LRS(Learning Record Store)數據存儲模塊[31]獲取和共享學(xué)習經(jīng)驗數據,支持學(xué)習者的學(xué)習數據在任意系統和系統中離線(xiàn)和在線(xiàn)存儲支持 xAPI 規范。在設備中,針對不同場(chǎng)景和格式的數據提供了差異化的存儲機制。例如,課堂教學(xué)過(guò)程中有大量的數據輸入輸出操作和各種數據類(lèi)型。為了節省設備能耗,提高應用效率,課堂教學(xué)應用中的數據暫存于本地服務(wù)器(具有簡(jiǎn)單的統計分析功能)。結束后系統自動(dòng)將數據推送到云端,
  圖 4 數據存儲和管理框架
  對于智慧課堂動(dòng)態(tài)生成的教學(xué)視頻、學(xué)生作品等非結構化文件,具體存儲過(guò)程包括:首先,根據小文件的分類(lèi)關(guān)聯(lián),結合上下文數據,將小文件上傳到分布式文件之前系統,基于數據分類(lèi)層框架和情境聚類(lèi)算法,為分類(lèi)數據建立關(guān)聯(lián),并生成關(guān)聯(lián)小文件。二是針對教學(xué)資源視頻等大文件的處理,采用大文件分割處理技術(shù),分解成小文件,實(shí)現斷點(diǎn)續傳,保證良好的用戶(hù)體驗;對于圖片、音頻等小文件的處理,使用小文件合并為大文件的技術(shù)提高了分布式存儲的性能。三是創(chuàng )建索引文件,為大文件創(chuàng )建數據結構,記錄大文件中收錄
的小文件的長(cháng)度和起始偏移量,用來(lái)解決小文件的快速訪(fǎng)問(wèn)問(wèn)題。四是建立基于上下文的元數據緩存和關(guān)聯(lián)小文件預取策略,在智慧教學(xué)環(huán)境中使用移動(dòng)智能終端緩存元數據,實(shí)現基于終端緩存的小文件快速預取,減少與相關(guān)數據節點(diǎn)的不必要通信. 相互作用。并用它們來(lái)解決快速訪(fǎng)問(wèn)小文件的問(wèn)題。四是建立基于上下文的元數據緩存和關(guān)聯(lián)小文件預取策略,在智慧教學(xué)環(huán)境中使用移動(dòng)智能終端緩存元數據,實(shí)現基于終端緩存的小文件快速預取,減少與相關(guān)數據節點(diǎn)的不必要通信. 相互作用。并用它們來(lái)解決快速訪(fǎng)問(wèn)小文件的問(wèn)題。四是建立基于上下文的元數據緩存和關(guān)聯(lián)小文件預取策略,在智慧教學(xué)環(huán)境中使用移動(dòng)智能終端緩存元數據,實(shí)現基于終端緩存的小文件快速預取,減少與相關(guān)數據節點(diǎn)的不必要通信. 相互作用。
  2.動(dòng)態(tài)生成數據的交換
  基于動(dòng)態(tài)生成數據采集模型,形成智慧教學(xué)終端應用與云公共服務(wù)平臺的數據交互接口,實(shí)現不同來(lái)源的智慧教學(xué)動(dòng)態(tài)生成數據的采集和統一呈現,支持更高層次的非結構化數據的分析應用。通過(guò)在智慧教學(xué)支撐系統之間設置xAPI配置文件,即云公共服務(wù)平臺的數據采集標準遵循相同的動(dòng)詞使用、活動(dòng)跟蹤、排序規則、應用場(chǎng)景等約定,經(jīng)過(guò)數據合并、去重、以及結構處理,將以JSON或XML格式描述的教學(xué)數據源同步到云端公共服務(wù)平臺;同時(shí),
  五、總結
  數據采集??是大數據應用于教育的前提和基礎。目前,在智慧教學(xué)環(huán)境下的數據采集模型和方法研究中,基礎理論研究滯后于實(shí)際應用,已成為困擾教育大數據研究的前沿問(wèn)題。當前,我國正面臨新一輪教學(xué)環(huán)境建設與應用改革,而“智慧”是教學(xué)環(huán)境發(fā)展的最高追求。率先在教學(xué)動(dòng)態(tài)生成數據采集方面取得進(jìn)展,提升新一輪教學(xué)環(huán)境的智慧化。本文提出了一種面向智慧教學(xué)的情境感知模型,一種基于情境感知的動(dòng)態(tài)生成數據采集模型,以及規范和存儲機制,對大規??缦到y數據采集和分析具有指導價(jià)值和參考意義。下一步的研究將著(zhù)重構建云端結合的教育大數據分析生態(tài)系統。在數據采集
的基礎上,需要考慮如何對采集
到的數據進(jìn)行解讀,使這些數據轉化為知識服務(wù)于教學(xué),提高教學(xué)決策質(zhì)量。
  本文發(fā)表于2018年第5期《電子教育研究》,轉載請聯(lián)系電化教育研究雜志社編輯部(官方郵箱:)
  【參考】
  [1] 朱志廷,何斌.智慧教育:教育信息化的新境界[J].電子教育研究, 2012(12): 7-15.
  
  [2] AHO E、HAVERINEN HL、JUUSO H 等。教師決策和課堂管理原則;個(gè)案研究和一種新的觀(guān)察方法[J]. Procedia-社會(huì )和行為科學(xué),2010(9):395-402。
  [3] NYSTRAND M、LAWRENCE LW、ADAM G 等。及時(shí)提問(wèn):調查展開(kāi)課堂話(huà)語(yǔ)的結構和動(dòng)態(tài)[J]. 話(huà)語(yǔ)過(guò)程, 2003, 35(2): 135-198。
  [4] 丁繼紅,劉華中.大數據環(huán)境下基于多維關(guān)聯(lián)分析的學(xué)習資源精準推薦[J].電化教育研究, 2018(2): 53-59.
  [5] OGATA H, CHENGJIU Y, ROSA GP, et al. 支持課堂外的移動(dòng)語(yǔ)言學(xué)習[C]// IEEE 高級學(xué)習技術(shù)國際會(huì )議。IEEE 計算機學(xué)會(huì ),2006:928-932。
  [6] Zixue C, SHENGGUO S, MIZUO K, et al. 通過(guò)比較學(xué)習教學(xué)要求與學(xué)習者行為的個(gè)性化泛在教育支持環(huán)境[C]//先進(jìn)信息網(wǎng)絡(luò )與應用國際會(huì )議。IEEE 計算機學(xué)會(huì ),2005:5 -573。
  [7] TAN-HSU T, TSUNG-YU L, CHI-CHENG. 基于 RFID 的戶(hù)外學(xué)習無(wú)所不在學(xué)習環(huán)境的開(kāi)發(fā)與評估[J]。交互式學(xué)習環(huán)境, 2007, 15(3): 253-269 .
  [8] GWO-JEN H, HSUN-FANG C. 一種基于形成性評估的移動(dòng)學(xué)習方法,以提高學(xué)生的學(xué)習態(tài)度和成績(jì)[J]。計算機與教育, 2011, 56(4): 1023-1031.
  [9] KORHONEN H, ARRASVUORI J. 通過(guò)上下文因素分析個(gè)人移動(dòng)產(chǎn)品的用戶(hù)體驗[C]// 移動(dòng)和無(wú)處不在的多媒體國際會(huì )議,Mum 2010,塞浦路斯利馬索爾,12 月。DBLP,2010:1-10。
  [10] JUNISKO-PYYKKO S, VAINIO T. 構建移動(dòng) HCI 的使用背景[J]。國際移動(dòng)人機交互雜志, 2010, 2(4): 1-28.
  [11] BALDAUF M, DUSTDAR S, ROSENBERG F. 情境感知系統綜述[J]。Ad Hoc 和普適計算國際期刊,2007 年,2(4):263-277。
  [12] AGHABOZORGI S、MAHROEIAN H、DUTT A 等。教育大數據挖掘的可行性分析研究[J]. Computational science and its applications–ICCSA 2014 Springer, 2014, 8583(03): 721-737.
  [13] LARA JA、LIZCANO D、MARTINEZ MA 等。歐洲高等教育區電子學(xué)習環(huán)境中的知識發(fā)現系統——在馬德里開(kāi)放大學(xué)學(xué)生數據中的應用[J]。計算機與教育, 2014, 72: 23-36.
  [14] DYCKHOFF AL、ZIELKE D、BULTMANN M 等人。教師學(xué)習分析工具包的設計與實(shí)現[J]. 教育技術(shù)與社會(huì ), 2012, 15(3): 58-76.
  [15] IMS GLC。Caliper AnalyticsTM 背景 [EB/OL]。[2015-12-23]。。
  [16] KOCH F, RAO C. 通過(guò)績(jì)效評估分析實(shí)現大規模個(gè)人教育 [J]。國際信息與教育技術(shù)雜志, 2014, 4(4): 297-301.
  [17] JEONG JS, KIM M, YOO K H. 基于云計算的面向內容的智慧教育系統[J]. 國際多媒體與普適工程雜志, 2013, 8(6): 313-328.
  [18] RAGHUVEER VR,TRIPATHY B K. 電子學(xué)習環(huán)境中自適應內容檢索學(xué)習體驗的按需分析[J]。電子學(xué)習與知識社會(huì )雜志, 2015, 11(1): 171-188.
  [19] 顧曉晴,鄭龍偉,簡(jiǎn)靜.獲取教育大數據:基于xAPI規范的學(xué)習體驗數據獲取與共享[J]. 現代遠程教育研究, 2014(5): 13-23.
  [20] MURRAY K, SILVERS A. 一次學(xué)習經(jīng)歷[J]. 先進(jìn)分布式學(xué)習技術(shù)學(xué)報, 2013, 1(3-4): 7-13.
  [21] SOTTILARE RA、RARSA C、HOFFMAN M 等人。表征個(gè)人和團隊輔導的自適應輔導學(xué)習效果鏈[C]// Interservice/industry Training Simulation &amp; Education Conference。2013.
  [22] HUNG N M. 論與學(xué)習生態(tài)系統相關(guān)的形成性評價(jià)語(yǔ)義模型[J]. 國際信息與教育技術(shù)雜志, 2016, 6(1): 54-57.
  [23] CORBI A, SOLANS D B. 回顧以電子學(xué)習為中心的推薦系統和學(xué)習分析中使用的當前學(xué)生監控技術(shù)。Experience API &amp; LIME 模型案例研究[J]. 國際人工智能與交互式多媒體雜志, 2014 , 2(7): 44-52.
  [24] JOHNSON A. 應用標準在嚴肅游戲中系統化學(xué)習分析[J]。計算機標準與接口, 2017, 50(C): 116-123.
  [25] DODERO JM、GONZALEZ-CONEJERO EJ、GUTIERREZ-HERRERA G 等。設計學(xué)習分析架構時(shí)互操作性和數據采集
性能之間的權衡[J]. 下一代計算機系統, 2017, 68: 31-37.
  [26] 李青, 趙越.學(xué)習分析數據互操作規范IMS Caliper Analytics解讀[J].現代遠程教育研究, 2016(2): 98-106.
  [27] DILLENBOURG P. 課堂編排設計[J]. 計算機與教育, 2013, 69(4): 485-492.
  [28] HSUE-YIE W, TZU-CHIEN L, CHIH-YUEH C, et al. 增強無(wú)線(xiàn)學(xué)習環(huán)境可用性和可行性的三個(gè)學(xué)習活動(dòng)水平框架[J]. 教育計算研究雜志, 2004, 30(4):331-351.
  [29] 韓力,劉正杰,李輝,等.基于情境感知的遠程用戶(hù)體驗數據采集方法[J].計算機科學(xué)學(xué)報, 2015(11): 2234-2246.
  [30] 洛林·安德森。布盧姆教育目標分類(lèi)學(xué):分類(lèi)學(xué)視角下的學(xué)習、教學(xué)與評價(jià)[M].姜小平等譯。北京:外語(yǔ)教學(xué)與研究出版社,2009.
  [31] CORBI A, SOLANS D B. 以電子學(xué)習為中心的推薦系統和學(xué)習分析中使用的當前學(xué)生監控技術(shù)回顧:體驗 API 和 LIME 模型案例研究 [J]。國際交互式多媒體與人工智能雜志, 2014 , 2(7): 44-52.
  智慧課堂中基于情境感知的動(dòng)態(tài)生成數據獲取方法與模型
  王冬青1、韓厚2、邱美玲1、凌海燕1
  (1.華南師范大學(xué)教育信息技術(shù)學(xué)院,廣東廣州510631;2.華南師范大學(xué)文學(xué)院,廣東廣州510631)
  [摘要] 智能學(xué)習中動(dòng)態(tài)生成的數據具有異構性、不完整性和強相關(guān)性的特點(diǎn)。由于傳統方法難以對這些數據進(jìn)行有效的采集和存儲,建立統一的數據采集規范和存儲機制,有效采集和分析過(guò)程數據成為智慧教育亟待解決的問(wèn)題。本文構建了一個(gè)基于情境感知技術(shù)的智能學(xué)習數據獲取模型,采用用戶(hù)、任務(wù)、位置、時(shí)間、設備和基礎設施六類(lèi)信息來(lái)表示智能學(xué)習的情境。
  本文基于xAPI規范和Caliper框架,采用四層定義動(dòng)態(tài)生成數據描述框架和云數據交換機制,以解決云環(huán)境下基于教學(xué)場(chǎng)景的多源異構數據獲取問(wèn)題,為建立教育大數據模型、開(kāi)發(fā)教育大數據云服務(wù)提供新的思路和方法。
  [關(guān)鍵詞] 情境意識;智慧教室;動(dòng)態(tài)生成的數據;數據采集
  【作者簡(jiǎn)介】王冬青(1978—),女,山東煙臺人。副教授,博士,主要從事智慧課堂學(xué)習環(huán)境的設計與應用,以及基于教學(xué)大數據的學(xué)習分析研究。電子郵件: 。
  [基金項目] 國家自然科學(xué)基金青年科學(xué)基金項目“基于情境感知的智慧教學(xué)動(dòng)態(tài)生成數據采集模型及交互式可視化分析機制研究”(項目編號:71701071);教育部人文社會(huì )科學(xué)研究青年基金項目“‘互聯(lián)網(wǎng)+’模式下兒童數字閱讀行為數據分析、設計與應用”(項目編號:17YJC880032)
  技巧:關(guān)鍵詞優(yōu)化大師:最好的關(guān)鍵詞排名優(yōu)化工具
  最佳 關(guān)鍵詞 排名優(yōu)化工具
  如果你有幾個(gè)網(wǎng)站,你可以像我一樣購買(mǎi)一個(gè)繁榮的 關(guān)鍵詞 排名優(yōu)化工具。我之前用的是免費的,但是免費的是為了給網(wǎng)站增加流量等等。其實(shí)我不需要這些。我主要是想提高我網(wǎng)站的排名。后來(lái)咨詢(xún)了Netway的售前技術(shù)。他們幫我分析了我網(wǎng)站的情況,然后給我推薦了一個(gè)6000。是的,到此為止了。
  費用,Netway的關(guān)鍵詞排名優(yōu)化軟件,他們好像費用不一樣,幾萬(wàn),你需要什么,我用了9000多,是的,我的關(guān)鍵詞有這么多人競爭,還好我排名第一頁(yè)不會(huì )急于簽單。
  關(guān)鍵詞 優(yōu)化工具是什么?
  
  關(guān)鍵詞優(yōu)化工具,又稱(chēng)點(diǎn)石關(guān)鍵詞排名優(yōu)化軟件,是一款可以在短時(shí)間內有效提升指定詞組、詞組、句子等關(guān)鍵詞的百度排名工具.
  有利于品牌推廣,穩定的自然排名可以獲得同行和客戶(hù)的信任。
  是不是我們有了這個(gè)東西就不用做優(yōu)化了,讓他直接上百度首頁(yè)。
  百度優(yōu)化大師有什么用
  優(yōu)化器是一種用于優(yōu)化計算機軟件的工具,但請謹慎使用。初學(xué)者一般不要使用,以免造成不必要的麻煩。
  
  百度優(yōu)化大師是一款針對百度關(guān)鍵詞排名優(yōu)化的軟件。其官方網(wǎng)站為 油花。有更詳細的解釋。
  優(yōu)化器用于優(yōu)化windows系統,清除一些垃圾文件,更改一些設置等。
  對百度關(guān)鍵詞優(yōu)化大師影響大嗎
  軟件只能作為輔助手段,更難達到大的效果。想一想,如果一個(gè)軟件可以操縱百度排名,那百度排名一定是一塌糊涂?,F在百度排名很亂?不會(huì ),所有的影響都不會(huì )太大。個(gè)人觀(guān)點(diǎn),僅供參考
  愛(ài)牛,讓您的網(wǎng)絡(luò )營(yíng)銷(xiāo)一步到位!愛(ài)牛,讓您的網(wǎng)絡(luò )營(yíng)銷(xiāo)真正高枕無(wú)憂(yōu)!愛(ài)牛,讓你真正享受等客戶(hù)上門(mén)的樂(lè )趣!愛(ài)牛網(wǎng)絡(luò )營(yíng)銷(xiāo),讓你的網(wǎng)絡(luò )開(kāi)始吧!看看別人怎么說(shuō)。

總結:用 R 收集和映射推特數據的初學(xué)者向導

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 69 次瀏覽 ? 2022-11-29 19:13 ? 來(lái)自相關(guān)話(huà)題

  總結:用 R 收集和映射推特數據的初學(xué)者向導
  學(xué)習使用 R 的 twitteR 和 leaflet 包,您可以映射任何主題的推文位置?!嗬锼埂に箍铺?br />   文章導航
  學(xué)習使用 R 的 twitteR 和 leaflet 包,您可以映射任何主題的推文位置。
  當我開(kāi)始學(xué)習 R 時(shí),我還需要學(xué)習如何采集
推特數據并將其映射以用于研究目的。盡管網(wǎng)上有很多關(guān)于此主題的信息,但我發(fā)現很難理解與采集
和映射 Twitter 數據相關(guān)的內容。我不僅是 R 的新手,而且對各種教程中的技術(shù)術(shù)語(yǔ)也不熟悉。但是,盡管困難重重,我還是做到了!在本教程中,我將介紹如何采集
Twitter 數據并將其以新手程序員可以理解的方式顯示在地圖上。
  創(chuàng )建應用程序
  如果您沒(méi)有 Twitter 帳戶(hù),首先您需要注冊一個(gè)[1]。然后,轉至 [2] 創(chuàng )建一個(gè)允許您采集
Twitter 數據的應用程序。別擔心,創(chuàng )建應用程序非常簡(jiǎn)單。您創(chuàng )建的應用程序將與 Twitter 應用程序編程接口 (API) 連接。Imagine API 是一個(gè)多功能電子個(gè)人助理。您可以使用 API 讓其他程序為您做事。通過(guò)這種方式,您可以訪(fǎng)問(wèn) Twitter API 來(lái)采集
數據。請確保不要請求太多,因為推文數據請求的數量是有限的 [3]。
  有兩個(gè) API 可用于采集
推文。如果您想一次性采集
推文,請使用 REST API。如果您想在特定時(shí)間段內連續采集
,可以使用流式 API。在本教程中,我主要使用 REST API。
  創(chuàng )建應用程序后,轉到密鑰和訪(fǎng)問(wèn)令牌選項卡。您需要 Consumer Key (API key)、Consumer Secret (API secret)、Access Token 和 Access Token Secret 來(lái)訪(fǎng)問(wèn)您在 R 中的應用程序。
  采集
推特數據
  接下來(lái)就是打開(kāi)R,準備寫(xiě)代碼了。對于初學(xué)者,我推薦 RStudio [4],它是 R 的集成開(kāi)發(fā)環(huán)境 (IDE)。我發(fā)現 RStudio 在解決問(wèn)題和測試代碼時(shí)非常有用。R 有一個(gè)用于訪(fǎng)問(wèn)此 REST API 的包,稱(chēng)為 twitteR[5]。
  打開(kāi) RStudio 并創(chuàng )建一個(gè)新的 RScript。這樣做之后,您需要安裝并加載 twitteR 包:
  <p>install.packages("twitteR")
  #安裝 TwitteR
  library (twitteR)
  #載入 TwitteR</p>
  安裝并加載 twitteR 包后,您必須輸入上述應用程序的 API 信息:
<p><p>api_key 查看全部

  總結:用 R 收集和映射推特數據的初學(xué)者向導
  學(xué)習使用 R 的 twitteR 和 leaflet 包,您可以映射任何主題的推文位置?!嗬锼埂に箍铺?br />   文章導航
  學(xué)習使用 R 的 twitteR 和 leaflet 包,您可以映射任何主題的推文位置。
  當我開(kāi)始學(xué)習 R 時(shí),我還需要學(xué)習如何采集
推特數據并將其映射以用于研究目的。盡管網(wǎng)上有很多關(guān)于此主題的信息,但我發(fā)現很難理解與采集
和映射 Twitter 數據相關(guān)的內容。我不僅是 R 的新手,而且對各種教程中的技術(shù)術(shù)語(yǔ)也不熟悉。但是,盡管困難重重,我還是做到了!在本教程中,我將介紹如何采集
Twitter 數據并將其以新手程序員可以理解的方式顯示在地圖上。
  創(chuàng )建應用程序
  如果您沒(méi)有 Twitter 帳戶(hù),首先您需要注冊一個(gè)[1]。然后,轉至 [2] 創(chuàng )建一個(gè)允許您采集
Twitter 數據的應用程序。別擔心,創(chuàng )建應用程序非常簡(jiǎn)單。您創(chuàng )建的應用程序將與 Twitter 應用程序編程接口 (API) 連接。Imagine API 是一個(gè)多功能電子個(gè)人助理。您可以使用 API 讓其他程序為您做事。通過(guò)這種方式,您可以訪(fǎng)問(wèn) Twitter API 來(lái)采集
數據。請確保不要請求太多,因為推文數據請求的數量是有限的 [3]。
  有兩個(gè) API 可用于采集
推文。如果您想一次性采集
推文,請使用 REST API。如果您想在特定時(shí)間段內連續采集
,可以使用流式 API。在本教程中,我主要使用 REST API。
  創(chuàng )建應用程序后,轉到密鑰和訪(fǎng)問(wèn)令牌選項卡。您需要 Consumer Key (API key)、Consumer Secret (API secret)、Access Token 和 Access Token Secret 來(lái)訪(fǎng)問(wèn)您在 R 中的應用程序。
  采集
推特數據
  接下來(lái)就是打開(kāi)R,準備寫(xiě)代碼了。對于初學(xué)者,我推薦 RStudio [4],它是 R 的集成開(kāi)發(fā)環(huán)境 (IDE)。我發(fā)現 RStudio 在解決問(wèn)題和測試代碼時(shí)非常有用。R 有一個(gè)用于訪(fǎng)問(wèn)此 REST API 的包,稱(chēng)為 twitteR[5]。
  打開(kāi) RStudio 并創(chuàng )建一個(gè)新的 RScript。這樣做之后,您需要安裝并加載 twitteR 包:
  <p>install.packages("twitteR")
  #安裝 TwitteR
  library (twitteR)
  #載入 TwitteR</p>
  安裝并加載 twitteR 包后,您必須輸入上述應用程序的 API 信息:
<p><p>api_key

內容分享:通過(guò)關(guān)鍵詞采集文章采集api接口_網(wǎng)易云音樂(lè )歌單榜單_知乎文章列表

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 131 次瀏覽 ? 2022-11-28 09:32 ? 來(lái)自相關(guān)話(huà)題

  內容分享:通過(guò)關(guān)鍵詞采集文章采集api接口_網(wǎng)易云音樂(lè )歌單榜單_知乎文章列表
  通過(guò)關(guān)鍵詞采集文章采集api接口_網(wǎng)易云音樂(lè )歌單榜單_知乎文章列表的數據是不是聽(tīng)起來(lái)非常熟悉,下面跟大家介紹一下這幾個(gè)api的用法。一、關(guān)鍵詞采集api接口網(wǎng)易云音樂(lè )的歌單列表數據是通過(guò)關(guān)鍵詞和鏈接來(lái)獲取。需要注意,關(guān)鍵詞除了像我們通常會(huì )用到的"歌曲"、"歌單"、"歌曲列表"、"小眾"這樣的名詞以外,還可以是"餐廳"、"門(mén)店"等介詞組成的長(cháng)字符串。
  
  下面我們來(lái)介紹一下接口的使用方法,登錄網(wǎng)易云音樂(lè )app,搜索"歌單"這個(gè)關(guān)鍵詞,點(diǎn)擊"關(guān)鍵詞采集"按鈕,首頁(yè)就會(huì )出現相應的采集列表,選擇自己需要的數據,點(diǎn)擊"采集"按鈕,就會(huì )自動(dòng)跳轉到網(wǎng)易云音樂(lè )的采集服務(wù)器,根據指令進(jìn)行文件采集,然后點(diǎn)擊提交即可。搜索"小眾"歌單,一般就會(huì )出現本地的歌單列表列表頁(yè)面。
  可以在列表右側有"下載"、"保存"、"去重"、"分享"的選項,選擇需要的文件下載即可。百度網(wǎng)盤(pán)鏈接二、關(guān)鍵詞爬蟲(chóng)api接口采集小眾音樂(lè )列表列表頁(yè)面打開(kāi)后,下方"采集小眾列表頁(yè)"的選項,選擇"小眾列表"這個(gè)關(guān)鍵詞,里面有五個(gè)鏈接,分別是"小眾列表"-bin/miantiao-api?aid=61465&aid=61465"和"小眾列表-api&aid=61465",我們從"小眾列表-api&aid=61465"這個(gè)連接開(kāi)始。
  
  具體怎么采集呢?登錄百度網(wǎng)盤(pán),打開(kāi)"文件",點(diǎn)擊"添加文件",選擇下載至網(wǎng)盤(pán),這里直接是"api"里面關(guān)鍵詞"小眾"點(diǎn)擊打開(kāi)分享鏈接,就會(huì )自動(dòng)跳轉到百度網(wǎng)盤(pán)的api接口,選擇"baidumapi"這個(gè)連接開(kāi)始爬取歌單數據??梢钥吹礁鑶瘟斜頂祿織l數據都是".txt"格式,就是一個(gè)文本文件。下面繼續對列表進(jìn)行爬取。
  我們點(diǎn)擊"搜索",搜索"歌曲",這里會(huì )自動(dòng)跳轉到網(wǎng)易云音樂(lè )的用戶(hù)數據,點(diǎn)擊"保存",還有保存至本地的選項,而這里就是"%20"關(guān)鍵詞列表里面的歌曲名。需要注意的是,網(wǎng)易云音樂(lè )給這個(gè)關(guān)鍵詞添加了"百度云"的標識,大家可以點(diǎn)擊"保存至百度云"選項,把"百度云"的數據也保存進(jìn)去。具體用法是,百度網(wǎng)盤(pán)打開(kāi)"文件"里面的"保存至網(wǎng)盤(pán)",選擇"從百度云",這里會(huì )自動(dòng)跳轉到網(wǎng)易云音樂(lè )的接口界面,這時(shí)就可以把保存至本地的百度云數據,點(diǎn)擊"保存",就會(huì )保存網(wǎng)易云音樂(lè )的數據了。
  需要注意的是,如果"小眾列表"-bin/miantiao-api?aid=61465"這個(gè)關(guān)鍵詞被搜索過(guò),然后沒(méi)有保存下來(lái)數據,就直接不要再重復搜索了。而一般來(lái)說(shuō),使用百度云接口爬取的數據,就不會(huì )有這個(gè)問(wèn)題。twoys4.github.io,我們找到了一個(gè)網(wǎng)站叫做"bandwidthread"。 查看全部

  內容分享:通過(guò)關(guān)鍵詞采集文章采集api接口_網(wǎng)易云音樂(lè )歌單榜單_知乎文章列表
  通過(guò)關(guān)鍵詞采集文章采集api接口_網(wǎng)易云音樂(lè )歌單榜單_知乎文章列表的數據是不是聽(tīng)起來(lái)非常熟悉,下面跟大家介紹一下這幾個(gè)api的用法。一、關(guān)鍵詞采集api接口網(wǎng)易云音樂(lè )的歌單列表數據是通過(guò)關(guān)鍵詞和鏈接來(lái)獲取。需要注意,關(guān)鍵詞除了像我們通常會(huì )用到的"歌曲"、"歌單"、"歌曲列表"、"小眾"這樣的名詞以外,還可以是"餐廳"、"門(mén)店"等介詞組成的長(cháng)字符串。
  
  下面我們來(lái)介紹一下接口的使用方法,登錄網(wǎng)易云音樂(lè )app,搜索"歌單"這個(gè)關(guān)鍵詞,點(diǎn)擊"關(guān)鍵詞采集"按鈕,首頁(yè)就會(huì )出現相應的采集列表,選擇自己需要的數據,點(diǎn)擊"采集"按鈕,就會(huì )自動(dòng)跳轉到網(wǎng)易云音樂(lè )的采集服務(wù)器,根據指令進(jìn)行文件采集,然后點(diǎn)擊提交即可。搜索"小眾"歌單,一般就會(huì )出現本地的歌單列表列表頁(yè)面。
  可以在列表右側有"下載"、"保存"、"去重"、"分享"的選項,選擇需要的文件下載即可。百度網(wǎng)盤(pán)鏈接二、關(guān)鍵詞爬蟲(chóng)api接口采集小眾音樂(lè )列表列表頁(yè)面打開(kāi)后,下方"采集小眾列表頁(yè)"的選項,選擇"小眾列表"這個(gè)關(guān)鍵詞,里面有五個(gè)鏈接,分別是"小眾列表"-bin/miantiao-api?aid=61465&aid=61465"和"小眾列表-api&aid=61465",我們從"小眾列表-api&aid=61465"這個(gè)連接開(kāi)始。
  
  具體怎么采集呢?登錄百度網(wǎng)盤(pán),打開(kāi)"文件",點(diǎn)擊"添加文件",選擇下載至網(wǎng)盤(pán),這里直接是"api"里面關(guān)鍵詞"小眾"點(diǎn)擊打開(kāi)分享鏈接,就會(huì )自動(dòng)跳轉到百度網(wǎng)盤(pán)的api接口,選擇"baidumapi"這個(gè)連接開(kāi)始爬取歌單數據??梢钥吹礁鑶瘟斜頂祿織l數據都是".txt"格式,就是一個(gè)文本文件。下面繼續對列表進(jìn)行爬取。
  我們點(diǎn)擊"搜索",搜索"歌曲",這里會(huì )自動(dòng)跳轉到網(wǎng)易云音樂(lè )的用戶(hù)數據,點(diǎn)擊"保存",還有保存至本地的選項,而這里就是"%20"關(guān)鍵詞列表里面的歌曲名。需要注意的是,網(wǎng)易云音樂(lè )給這個(gè)關(guān)鍵詞添加了"百度云"的標識,大家可以點(diǎn)擊"保存至百度云"選項,把"百度云"的數據也保存進(jìn)去。具體用法是,百度網(wǎng)盤(pán)打開(kāi)"文件"里面的"保存至網(wǎng)盤(pán)",選擇"從百度云",這里會(huì )自動(dòng)跳轉到網(wǎng)易云音樂(lè )的接口界面,這時(shí)就可以把保存至本地的百度云數據,點(diǎn)擊"保存",就會(huì )保存網(wǎng)易云音樂(lè )的數據了。
  需要注意的是,如果"小眾列表"-bin/miantiao-api?aid=61465"這個(gè)關(guān)鍵詞被搜索過(guò),然后沒(méi)有保存下來(lái)數據,就直接不要再重復搜索了。而一般來(lái)說(shuō),使用百度云接口爬取的數據,就不會(huì )有這個(gè)問(wèn)題。twoys4.github.io,我們找到了一個(gè)網(wǎng)站叫做"bandwidthread"。

專(zhuān)業(yè)知識:一篇文章帶你從0到1掌握用戶(hù)畫(huà)像知識體系

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 73 次瀏覽 ? 2022-11-28 04:21 ? 來(lái)自相關(guān)話(huà)題

  專(zhuān)業(yè)知識:一篇文章帶你從0到1掌握用戶(hù)畫(huà)像知識體系
  這里推薦:
  一個(gè)。OSM 模型(目標、策略、測量)
  b. 銷(xiāo)售公式=流量*轉化率*客單價(jià)*復購率
  3、面向業(yè)務(wù)目的的運營(yíng)策略設計和用戶(hù)標簽需求針對不同的業(yè)務(wù)目的,標簽體系的構建也不同,因此標簽必須來(lái)源于運營(yíng)策略。比如業(yè)務(wù)部門(mén)要做個(gè)性化推薦,做一些關(guān)于事物或人的興趣愛(ài)好的標簽會(huì )更有價(jià)值;但如果要做精細化運營(yíng),保留和激活用戶(hù)標簽會(huì )更有價(jià)值。用戶(hù)標簽選擇參考以下示例:
  量化目標是提高掃碼方式的關(guān)注率,選擇的運營(yíng)策略是通過(guò)推送優(yōu)惠券的方式吸引微信用戶(hù)掃碼。新粉絲掃碼關(guān)注推送100元優(yōu)惠券,老粉絲掃碼關(guān)注推送50元優(yōu)惠券。,那么在執行運營(yíng)策略的過(guò)程中,需要使用“是否是新粉”這個(gè)標簽。
  這個(gè)階段可以準備一個(gè)簡(jiǎn)單的Excel模板,用于記錄交流內容。列表頭包括標簽名稱(chēng)、標簽規則、使用場(chǎng)景等,記錄與業(yè)務(wù)方的溝通內容。
  4. 組織標簽對于組織標簽,需要基于對業(yè)務(wù)和政策的理解,站在用戶(hù)的角度進(jìn)行分類(lèi)管理。這是一個(gè)參考框架:
 ?。?)用戶(hù)屬性標簽:性別、年齡、省份、城市、注冊日期、手機號等。
 ?。?)用戶(hù)行為標簽:近30天訪(fǎng)問(wèn)次數、近30天客單價(jià)、近30天活躍天數、近30天訪(fǎng)問(wèn)時(shí)長(cháng)、平均訪(fǎng)問(wèn)深度等。
  (3) 用戶(hù)消費標簽:收入狀況、購買(mǎi)力水平、購買(mǎi)的產(chǎn)品、購買(mǎi)渠道偏好、上次購買(mǎi)時(shí)間、購買(mǎi)頻率等 (4) 產(chǎn)品品類(lèi)標簽:高跟鞋、靴子、襯衫、法式連衣裙、牛仔褲, ETC。
  (5)社交屬性標簽:頻繁活躍時(shí)間段、活躍地點(diǎn)、單身、評價(jià)次數、好評等。
  2.2.2輸出標簽要求文檔
  經(jīng)過(guò)前面的需求采集
和分析,明確了業(yè)務(wù)方的標簽需求。為了研發(fā)順利交付,下一步是:編寫(xiě)標注系統文檔——根據標注規則確定埋點(diǎn)——編寫(xiě)數據需求文檔。
  1.編寫(xiě)標簽系統文檔
  在這個(gè)環(huán)節,數據產(chǎn)品經(jīng)理需要根據前期與業(yè)務(wù)方的溝通內容,制作出具體的標簽體系文檔:
  (1)Tag ID:例如ATTRITUBE_U_01_001,其中“ATTRITUBE”為人口屬性主體,“_”后的“U”為userid維度,“_”后的“01”為一級分類(lèi),“001” "末尾為該一級標簽下的標簽詳情
  (2)標簽名稱(chēng):英文格式名稱(chēng),例如famale
  (3) 標注中文:女
  (4)標簽主題:描述標簽所屬的主題,例如用戶(hù)屬性維度標簽、用戶(hù)行為維度標簽、用戶(hù)消費維度標簽 (5)標簽級別ID:標簽所屬的級別,一般分為2 levels (6) Name : ID對應的名稱(chēng)
  (7) 標簽類(lèi)型:統計標簽、規則標簽、機器學(xué)習算法標簽
 ?。?)更新頻率:實(shí)時(shí)更新,離線(xiàn)T+1更新,單次計算(9)標簽算法規則:
  一個(gè)。需要描述選擇哪個(gè)數據表中的哪個(gè)具體字段。如果需要關(guān)聯(lián)多張表,還需要說(shuō)明join是用哪個(gè)字段
  b. 具體的算法邏輯和統計周期,比如“最近7天的支付次數”,需要統計最近7天的支付總數。
 ?。ㄊ┦褂脠?chǎng)景說(shuō)明
  (11) 調度
  (12) 開(kāi)發(fā)商
 ?。ㄊ┬枨蠓?br />   (14)優(yōu)先權
  2.根據標注規則確定埋點(diǎn)
  上面已經(jīng)闡明了標簽的算法規則。接下來(lái),還需要進(jìn)一步確定應該埋哪些點(diǎn)來(lái)采集需要的數據。下面是具體的
  案子:
  對于標簽“Purchase Product Category Preference”,會(huì )用到點(diǎn)擊下單按鈕的事件數據,以及產(chǎn)品名稱(chēng)、產(chǎn)品類(lèi)別等事件屬性數據,所以需要埋掉點(diǎn)擊下單按鈕的事件。
  3.編寫(xiě)數據需求文檔
  確定好埋哪些數據后,需要制作具體的數據需求文檔,交付給負責埋的開(kāi)發(fā)同事埋。在數據需求文件中,應規定以下內容:
  (1) 墓葬名稱(chēng):click_order
  (2)埋點(diǎn)顯示名稱(chēng):點(diǎn)擊訂購按鈕
  (3)上報時(shí)間:根據實(shí)際情況,選擇上報時(shí)間。比如點(diǎn)擊下單事件,可以選擇點(diǎn)擊下單按鈕時(shí)上報
  (4)埋點(diǎn)類(lèi)型:根據實(shí)際情況,選擇埋點(diǎn)在客戶(hù)端還是服務(wù)端。比如“購買(mǎi)商品類(lèi)別偏好”標簽上的訂購按鈕的點(diǎn)擊事件,因為它只是判斷用戶(hù)對購買(mǎi)商品的偏好。用戶(hù)點(diǎn)擊按鈕后,已經(jīng)可以提示是否有偏好,無(wú)需等待服務(wù)器返回是否成功的提示。因此,適合客戶(hù)端埋點(diǎn)
  (5) 屬性名稱(chēng):事件屬性的名稱(chēng),如點(diǎn)擊下單按鈕事件的商品名稱(chēng)屬性
  (6) 屬性值:比如襯衫
 ?。ㄆ撸﹤渥?br />   在實(shí)際工作中,編寫(xiě)標簽系統文檔、根據標簽規則確定埋點(diǎn)、編寫(xiě)數據需求文檔將是一個(gè)相互完善、相輔相成的過(guò)程。
  2.2.3 標簽開(kāi)發(fā)
  在整個(gè)工程方案中,系統所依賴(lài)的基礎設施包括Spark、Hive、HBase、Airflow、MySQL、Redis、Elasticsearch。除了基礎設施,系統主體還包括三個(gè)重要的組成部分:ETL操作、用戶(hù)畫(huà)像主題建模、應用端標簽結果數據的存儲。如圖所示是用戶(hù)畫(huà)像數據倉庫的架構圖,下面簡(jiǎn)單介紹一下。
  1、Hive數據倉庫ETL作業(yè)
  下圖虛線(xiàn)框展示了常見(jiàn)的數倉ETL處理流程,即日常業(yè)務(wù)數據、日志數據、埋點(diǎn)數據等通過(guò)處理進(jìn)入數倉對應的ODS層、DW層、DM層ETL 過(guò)程。
  2、Hive數倉用戶(hù)畫(huà)像主題建模
  中間的虛線(xiàn)框是用戶(hù)畫(huà)像建模的主要環(huán)節,會(huì )基于數據倉庫的ODS層、DW層、DM層對用戶(hù)相關(guān)數據進(jìn)行二次建模和處理。
  3、應用端標簽結果數據的存儲
  在用戶(hù)畫(huà)像的主題建模過(guò)程中,會(huì )將用戶(hù)標簽的計算結果寫(xiě)入Hive。由于不同的數據庫有不同的應用場(chǎng)景,下面分別介紹:
  (1) MySQL
  作為關(guān)系型數據庫,可用于元數據管理、監控預警數據、用戶(hù)畫(huà)像中的結果集存儲等應用。下面詳細介紹這三種應用場(chǎng)景:
  一個(gè)。元數據管理:MySQL讀寫(xiě)速度更快。平臺標簽視圖(Web端產(chǎn)品)中的標簽元數據可以維護在MySQL關(guān)系數據庫中,方便標簽的編輯、查詢(xún)和管理。
  b. 監控預警數據:在畫(huà)像的數據監控中,調度流每跑過(guò)相應的模塊,都會(huì )將該模塊的監控數據插入MySQL,當驗證任務(wù)判斷達到觸發(fā)告警閾值時(shí),告警將被觸發(fā)。
  C。結果集存儲:存儲多維視角分析的標簽,圈人服務(wù)的用戶(hù)標簽,記錄當天每個(gè)標簽的數量等。
 ?。ǘ〩Base
  與Hive不同,HBase可以在數據庫上實(shí)時(shí)運行,而不是運行MapReduce任務(wù),適用于大數據的實(shí)時(shí)查詢(xún)。下面以案例介紹HBase在畫(huà)像系統中的應用場(chǎng)景及工程實(shí)現:某渠道商擬通過(guò)App首頁(yè)彈窗發(fā)放紅包或優(yōu)惠券,以促進(jìn)其注冊下單。未注冊的新安裝用戶(hù)啟動(dòng)。每天畫(huà)像系統ETL調度完成后,會(huì )推送相應的人群數據到廣告系統(存儲在HBase數據庫中)。當滿(mǎn)足條件的新用戶(hù)訪(fǎng)問(wèn)App時(shí),在線(xiàn)接口讀取HBase數據庫,在查詢(xún)用戶(hù)時(shí)向用戶(hù)推送彈窗。
  (3) 彈性搜索
  它是一個(gè)開(kāi)源分布式全文搜索引擎,可以近乎實(shí)時(shí)地存儲和檢索數據。對于響應時(shí)間要求高的場(chǎng)景,比如用戶(hù)標簽查詢(xún)、用戶(hù)人口統計、用戶(hù)群體多維度透視分析等,也可以考慮使用Elasticsearch進(jìn)行存儲。
  2.2.4 標簽發(fā)布及效果跟蹤
  經(jīng)過(guò)開(kāi)發(fā)測試,上線(xiàn)后需要持續跟蹤標簽應用的效果和業(yè)務(wù)方的反饋,調整優(yōu)化模型和相關(guān)權重配置。
  03.用戶(hù)畫(huà)像產(chǎn)品化
  在商業(yè)價(jià)值上,標簽和畫(huà)像類(lèi)似于一個(gè)中間層的系統模塊,為前端服務(wù)提供數據支持。開(kāi)發(fā)出人像標簽數據后,如果只是“躺在”數據倉庫中,將無(wú)法發(fā)揮更大的商業(yè)價(jià)值。只有將人像數據商業(yè)化后,數據處理環(huán)節上各個(gè)環(huán)節的效率才能得到標準化的提升,同時(shí)也更加方便業(yè)務(wù)方使用。下面從標簽生產(chǎn)架構和產(chǎn)品化后覆蓋的功能模塊兩個(gè)角度進(jìn)行總結:
  3.1 用戶(hù)畫(huà)像產(chǎn)品體系架構
  下圖是一個(gè)用戶(hù)畫(huà)像產(chǎn)品體系的結構圖。數據從左到右,主要包括數據采集、數據接入、數據集成/標簽計算、標簽應用四個(gè)層次。讓我們嘗試簡(jiǎn)要描述一下:
  3.1.1 數據采集
  
  在數據采集模塊中,主要通過(guò)客戶(hù)端/服務(wù)端SDK、導入、與第三方應用對接等方式采集日志數據、業(yè)務(wù)數據、第三方數據。
  1.開(kāi)發(fā)工具包
 ?。?)客戶(hù)端SDK:通過(guò)嵌入客戶(hù)端SDK,可以采集iOS、Android、小程序、網(wǎng)站等各類(lèi)客戶(hù)端的用戶(hù)行為數據和用戶(hù)屬性信息。
  (2) 服務(wù)端SDK:如果數據已經(jīng)存在于數據庫或者數據倉庫中,比如訂單信息,可以使用開(kāi)發(fā)語(yǔ)言對應的服務(wù)端SDK來(lái)采集數據。
  2.進(jìn)口商
  根據運行環(huán)境、源數據格式、導入數據大小等因素,可選擇不同的大導入方式,將歷史文件數據導入用戶(hù)畫(huà)像產(chǎn)品系統。
  3、領(lǐng)克根據不同第三方產(chǎn)品OpenAPI的特點(diǎn),采用接收事件消息推送或主動(dòng)輪詢(xún)的方式采集
用戶(hù)在不同第三方應用系統中的個(gè)人屬性和行為事件數據。
  3.1.2 數據訪(fǎng)問(wèn)
  埋點(diǎn)數據先大量進(jìn)入Kafka,然后慢慢消費訪(fǎng)問(wèn)后續的數據集成存儲系統。
  3.1.3 數據整合/標簽計算
  在用戶(hù)畫(huà)像系統中,Hive主要作為數據倉庫進(jìn)行ETL處理,開(kāi)發(fā)相應的用戶(hù)屬性表和用戶(hù)行為表,計算標簽。
  1、數據整合
  從各個(gè)渠道接收到的數據存在隔離、空值、格式不匹配、超出限制范圍等數據質(zhì)量問(wèn)題。因此,需要進(jìn)行臟數據清洗、格式轉換、用戶(hù)識別和合并等集成工作:
  (1) 清理/改造
  a.Clean:比如用戶(hù)的出生日期是未來(lái)的某個(gè)日期,所以需要過(guò)濾掉這種臟數據
  b.Transform:例如通過(guò)第三方應用API獲取的所有用戶(hù)的地域信息,采用IPB標準編碼形式。為了和其他渠道的信息一起分析,需要按照IPB標準編碼轉換成標準的省、省、省。城市格式
  (2) ID映射
  一個(gè)。從各個(gè)通道接收到的用戶(hù)屬性數據和行為事件數據是相互隔離的。為了計算用戶(hù)的全面綜合標簽,需要對用戶(hù)進(jìn)行識別和合并。比如通過(guò)unionID,識別并合并同一個(gè)微信公眾號、小程序、開(kāi)放平臺網(wǎng)站的同一個(gè)用戶(hù)的信息。
  經(jīng)過(guò)數據整合處理后,數據將進(jìn)入如下數據模型:
  2.標簽計算
  在用戶(hù)畫(huà)像系統中,將構建批量離線(xiàn)標簽處理引擎,依托于相對穩定的底層數據結構。標簽引擎同時(shí)讀取事件數據和用戶(hù)屬性數據,然后按照特定的標簽規則進(jìn)行批量計算,最終生成用戶(hù)標簽。
  3.1.4 標簽申請
  標簽的應用主要分為前端畫(huà)像展示和通過(guò)API訪(fǎng)問(wèn)其他系統兩種應用方式,在后面的“3.2用戶(hù)畫(huà)像產(chǎn)品化功能模塊”一章中有詳細介紹。
  3.2 用戶(hù)畫(huà)像產(chǎn)品功能模塊
  3.2.1 系統看板
  通常,用戶(hù)畫(huà)像系統的數據儀表盤(pán)以可視化的形式展示企業(yè)的核心用戶(hù)數據資產(chǎn)或關(guān)注人群的數據。旨在建立和統一用戶(hù)對企業(yè)數據資產(chǎn)或核心人口數據的基本認識,主要分為以下幾類(lèi):
  1、用戶(hù)量級及變化趨勢:不同設備類(lèi)型ID量級,不同類(lèi)型用戶(hù)量級(如注冊用戶(hù)與非注冊用戶(hù)、付費用戶(hù)與非付費用戶(hù)等);
  2. 標簽資產(chǎn):按主要類(lèi)別統計標簽數量等;
  3、核心用戶(hù)標簽:展示固有或自定義群體的關(guān)鍵標簽畫(huà)像數據等;
  3.2.2 標簽管理
  供業(yè)務(wù)人員對標簽進(jìn)行增刪改查,包括:標簽分類(lèi)、新建標簽、標簽審核、標簽下架、標簽覆蓋率監控等。
  根據用戶(hù)行為數據和用戶(hù)屬性數據設置標簽規則創(chuàng )建標簽:
  3.2.3 單用戶(hù)畫(huà)像
  主要能力包括通過(guò)輸入用戶(hù)ID查看單個(gè)用戶(hù)畫(huà)像的詳細數據,如用戶(hù)屬性信息、用戶(hù)行為等數據。
  3.2.4 用戶(hù)分群及用戶(hù)群畫(huà)像
  1、用戶(hù)分組
  用戶(hù)分組功能主要面向業(yè)務(wù)人員。產(chǎn)品經(jīng)理、運營(yíng)、客服等業(yè)務(wù)人員在應用標簽時(shí),可能不僅僅查看某個(gè)標簽對應的群體情況,可能需要組合多個(gè)標簽來(lái)滿(mǎn)足他們對群體的業(yè)務(wù)定義。例如:結合“近7天多次領(lǐng)取優(yōu)惠券”、“活躍度等于高和極高”、“女性”用戶(hù)3個(gè)標簽定義目標人群,查看覆蓋用戶(hù)數這個(gè)組。
  2、用戶(hù)群體畫(huà)像
  與用戶(hù)分組功能類(lèi)似,用戶(hù)群畫(huà)像功能首先需要結合標簽來(lái)圈定用戶(hù)群體。不同的是,用戶(hù)群畫(huà)像功能支持從多維度分析所圈定的用戶(hù)群體的特征,而用戶(hù)分群功能則側重于篩選出用戶(hù)群體,推送到各個(gè)業(yè)務(wù)系統,提供服務(wù)支持。
  3.2.5 BI分析
  BI平臺與這些數據打通后,可以豐富數據的維度,通過(guò)各種分析模型支持更豐富、更深入的分析對比。
  3.2.6 開(kāi)放API
  OpenAPI可以保證畫(huà)像系統數據與推送系統、營(yíng)銷(xiāo)系統、廣告系統、推薦系統、BI等各個(gè)平臺的連接,保證各個(gè)系統數據的實(shí)時(shí)更新,避免來(lái)自同一來(lái)源的不同數字的問(wèn)題。
  04.用戶(hù)畫(huà)像應用
  前面提到,用戶(hù)畫(huà)像主要包括三個(gè)應用:業(yè)務(wù)分析、精準營(yíng)銷(xiāo)、個(gè)性化推薦與服務(wù)。具體可以分為:
  4.1 經(jīng)營(yíng)分析
  用戶(hù)畫(huà)像系統的標簽數據通過(guò)API進(jìn)入分析系統后,可以豐富分析數據的維度,支持對各類(lèi)業(yè)務(wù)對象的業(yè)務(wù)分析。下面總結了一些市場(chǎng)、運營(yíng)、產(chǎn)品人員分析時(shí)會(huì )關(guān)注的指標:
  4.1.1 流量分析
  一、流量來(lái)源
  2、流量:UV、PV
  3、流量質(zhì)量:瀏覽深度(UV、PV)、停留時(shí)長(cháng)、來(lái)源轉化、ROI(投資回報率)
  4.1.2 用戶(hù)分析
  1. 用戶(hù)數:新用戶(hù)數、老用戶(hù)數、新老用戶(hù)比
  2、用戶(hù)質(zhì)量:新用戶(hù)數(app啟動(dòng))、活躍用戶(hù)數(app啟動(dòng))、用戶(hù)留存(app啟動(dòng)-app啟動(dòng))、用戶(hù)參與度、睡意、客單價(jià)
  4.1.3 產(chǎn)品分析
  1、商品銷(xiāo)量:GMV、客單價(jià)、下單人數、退購人數、退貨人數、各終端復購率、購買(mǎi)頻率分布、經(jīng)營(yíng)崗位購買(mǎi)轉化
  2、商品類(lèi):支付訂單狀態(tài)(次數、人數、趨勢、復購)、訪(fǎng)問(wèn)購買(mǎi)狀態(tài)、申請退貨狀態(tài)、訂單取消狀態(tài)、關(guān)注狀態(tài)
  4.1.4 順序分析
  1、訂單指標:總訂單量、退款訂單量、訂單應付金額、訂單實(shí)際支付金額、下單人數
  2、轉化率指標:新訂單/訪(fǎng)問(wèn)UV、有效訂單/訪(fǎng)問(wèn)UV
  4.1.5 渠道分析
  1.活躍用戶(hù)
  (1)活躍用戶(hù):UV、PV
  
 ?。ǘ┬略鲇脩?hù):注冊量、注冊量同比比較
  2、用戶(hù)質(zhì)量
  (1)留存率:次日留存率/7天/30天
  3、渠道收入
  (1)訂單:訂單量、日均訂單量、同比訂單量
 ?。?)收入:支付金額、日均支付金額、同比金額(3)用戶(hù):人均訂單量、人均訂單金額
  4.1.6 產(chǎn)品分析
  1、搜索功能:搜索人數/次,搜索功能滲透率,search關(guān)鍵詞
  2.關(guān)鍵路徑漏斗等產(chǎn)品功能設計分析
  4.2 精準營(yíng)銷(xiāo)
  4.2.1 短信/郵件/推送營(yíng)銷(xiāo)
  在日常生活中,我們經(jīng)常會(huì )從很多渠道收到營(yíng)銷(xiāo)信息。紅包到賬的短信推送可能會(huì )提示用戶(hù)打開(kāi)很久沒(méi)有訪(fǎng)問(wèn)的應用,心愿單中圖書(shū)降價(jià)的郵件推送可能會(huì )刺激用戶(hù)打開(kāi)推送鏈接直接下單。營(yíng)銷(xiāo)有哪些類(lèi)型?大致可以分為以下4類(lèi):
  1、行為營(yíng)銷(xiāo):商品瀏覽、加入購物車(chē)、店鋪掃碼、取消訂單、退貨等。
  2. 位置營(yíng)銷(xiāo):周邊門(mén)店、周邊活動(dòng)、常去區域等 3. 節日營(yíng)銷(xiāo):生日、春節、雙十一、雙十二、圣誕節等。
  4、會(huì )員營(yíng)銷(xiāo):歡迎加入、優(yōu)惠券提醒、積分變化、等級變化、會(huì )員福利等。
  4.2.2客服語(yǔ)音技巧
  當我們向某平臺客服部門(mén)投訴、咨詢(xún)或反饋時(shí),客服人員可以準確地告訴我們我們在該平臺的購買(mǎi)情況、上次咨詢(xún)問(wèn)題的結果等信息,并及時(shí)提出解決方案有針對性的方式。為價(jià)值用戶(hù)提供VIP客服通道等特色服務(wù)。
  4.3 個(gè)性化推薦和服務(wù)
  應用運營(yíng)方可以通過(guò)在用戶(hù)畫(huà)像中推送性別、年齡段、興趣愛(ài)好、瀏覽和購買(mǎi)行為等標簽,向用戶(hù)推薦不同的內容。例如今日頭條的個(gè)性化文章內容推薦,抖音基于用戶(hù)畫(huà)像的個(gè)性化視頻內容推薦,淘寶基于用戶(hù)瀏覽行為等畫(huà)像數據的個(gè)性化商品推薦。
  05.用戶(hù)畫(huà)像實(shí)踐案例
  基于畫(huà)像系統做多方位的數據分析和用戶(hù)可觸達的運營(yíng)方案,標簽數據可以快速應用到服務(wù)層(T+1,實(shí)時(shí)應用),通過(guò)效果分析得到用戶(hù)反饋后,它有助于迭代營(yíng)銷(xiāo)策略或產(chǎn)品設計。下面通過(guò)一些實(shí)際案例,場(chǎng)景化地復現用戶(hù)畫(huà)像的應用要點(diǎn)和應用方法。
  5.1 A/B人群效應測試
  5.1.1 案例背景
  為了在大促期間獲得更好的銷(xiāo)量,某快消產(chǎn)品計劃通過(guò)新聞推送的方式,對新上架的產(chǎn)品和產(chǎn)品的保健功能進(jìn)行系列文章植入,為大促造勢,刺激銷(xiāo)量。銷(xiāo)售轉化。為了準確定位目標人群流量,渠道運營(yíng)商現計劃進(jìn)行兩次A/B人群效應測試:
  1、不同內容標題對流量的影響;
  2、與普通推送相比,精準推送帶來(lái)更多流量。
  5.1.2 用戶(hù)畫(huà)像入口
  在整個(gè)項目中,需要梳理AB組流量如何劃分,AB組人群規則如何設計以及效果監控。下面分步介紹人像系統在A(yíng)B人群測試中的使用方法。
  1. 對AB組用戶(hù)進(jìn)行細分要想做A/B組測試,首先要做好流量的細分。您可以使用A/B分布和隨機分布的形式將用戶(hù)劃分為A/B組。
  2. 文案對流量影響測試方案 某平臺渠道商為了在大促期間召回更多用戶(hù)訪(fǎng)問(wèn)APP,計劃抽取少量用戶(hù)進(jìn)行AB效果測試。在活動(dòng)預熱期間復制標題。
  本次測試方案中,控制組A選擇路徑A的用戶(hù)組,在過(guò)去x天訪(fǎng)問(wèn)過(guò),在過(guò)去x天瀏覽/采集
/購買(mǎi)過(guò)零食,將零售文案A推送給這些用戶(hù); 控制組B選擇對于走過(guò)路徑B,在過(guò)去x天訪(fǎng)問(wèn)過(guò),并且在過(guò)去x天瀏覽/采集
/購買(mǎi)過(guò)零食的用戶(hù)群,將零食文案B推送給該組用戶(hù)。control group和control group的用戶(hù)數是一樣的,但是文案不同。跟進(jìn)監測兩組人的點(diǎn)擊率,然后分析不同文案對用戶(hù)點(diǎn)擊的影響。例如通過(guò)用戶(hù)分組功能選擇A組中的用戶(hù),如下圖:
  3、精準推送相比普通推送帶來(lái)的流量提升測試方案
  在使用畫(huà)像系統精細推送人之前,某平臺以亂推送消息的形式推送用戶(hù)。為了測試精細化運營(yíng)組相比無(wú)差異化運營(yíng)帶來(lái)的流量提升,渠道運營(yíng)人員決定在目前重點(diǎn)運營(yíng)的零食營(yíng)銷(xiāo)場(chǎng)館進(jìn)行AB效果測試。
  在本次測試計劃中,控制組A選擇了路徑A,在過(guò)去x天內訪(fǎng)問(wèn)過(guò),并在過(guò)去x天內瀏覽/采集
/購買(mǎi)了零食;對照組B選擇路徑B,在過(guò)去x天訪(fǎng)問(wèn)過(guò),A用戶(hù)組沒(méi)有類(lèi)別偏好。將同樣的文字推送給A組和B組的用戶(hù)群,然后監控兩組人的點(diǎn)擊率,進(jìn)而分析精準營(yíng)銷(xiāo)推送帶來(lái)的增長(cháng)點(diǎn)。
  5.1.3 效果分析
  AB群消息推送上線(xiàn)后,需要構建監控報表,監控控制組和測試組的流量和轉化情況,重點(diǎn)關(guān)注下表指標:
  例如,使用事件分析模型構建的AB人群的GMV對比報告如下圖所示:
  5.2 女神節精準營(yíng)銷(xiāo)
  5.2.1 案例背景
  某主打女性產(chǎn)品的品牌商計劃在女神節期間針對不同品類(lèi)偏好的女神進(jìn)行針對性營(yíng)銷(xiāo)。營(yíng)銷(xiāo)信息會(huì )推送兩次,第一次是在當天10:00推送促銷(xiāo)信息,第二次是在當晚10:00發(fā)送一波促銷(xiāo)提醒。最后,通過(guò)跟蹤目標受眾支付訂單的當天完成率來(lái)評估營(yíng)銷(xiāo)效果。
  5.2.2 實(shí)現邏輯
  首先根據用戶(hù)性別標簽和年齡標簽圈選擇18-40歲的女性用戶(hù)。然后延遲到2020-03-08上午10點(diǎn),根據用戶(hù)的品類(lèi)偏好標簽推送不同的營(yíng)銷(xiāo)內容。第二波推送延遲至2020-03-08晚上10點(diǎn),推送信息為統一促銷(xiāo)提醒。
  5.3 新裝未注冊用戶(hù)實(shí)時(shí)營(yíng)銷(xiāo)
  5.3.1 案例背景
  某小吃商城App運營(yíng)方為促進(jìn)未注冊新裝用戶(hù)注冊下單,制定了運營(yíng)規則:新裝未注冊用戶(hù)打開(kāi)App時(shí),通過(guò)App彈窗推送優(yōu)惠券進(jìn)行營(yíng)銷(xiāo). 例如,如果用戶(hù)安裝APP后沒(méi)有注冊,改天用戶(hù)打開(kāi)后會(huì )第一時(shí)間推送APP彈窗優(yōu)惠券,更好的引導用戶(hù)完成注冊下單。
  5.3.2 用戶(hù)畫(huà)像入口
  渠道運營(yíng)商通過(guò)組合用戶(hù)標簽(如“未注冊用戶(hù)”、“今日安裝量”小于××天)篩選出相應的用戶(hù)群體,然后選擇將相應的群體推送至“廣告系統”。這樣每天畫(huà)像系統的ETL調度完成后,就會(huì )將對應的人群數據推送到HBase數據庫中存儲。當滿(mǎn)足條件的新用戶(hù)訪(fǎng)問(wèn)App時(shí),在線(xiàn)接口讀取HBase數據庫,在查詢(xún)用戶(hù)時(shí)向用戶(hù)推送彈窗。
  5.4 電子商務(wù)再營(yíng)銷(xiāo)廣告
  5.4.1 案例背景
  某電商APP產(chǎn)品運營(yíng)團隊希望提高老客戶(hù)對電子產(chǎn)品的復購率和新客戶(hù)的下單率,選擇與今日頭條合作投放再營(yíng)銷(xiāo)廣告。例如,某用戶(hù)在電商APP中看到了一款vivo手機,第二天查看今日頭條時(shí),看到了對應手機的廣告信息。
  5.4.2 實(shí)現邏輯
  首先需要保證電商APP和今日頭條的API已經(jīng)開(kāi)放,然后根據用戶(hù)在A(yíng)PP中的行為(瀏覽、采集
、追加、搜索等)進(jìn)行算法挖掘。生成用戶(hù)產(chǎn)品偏好的標簽。今日頭條在抓取用戶(hù)的設備信息后,會(huì )向電商發(fā)送請求,詢(xún)問(wèn)是否需要向用戶(hù)展示廣告。這時(shí)電商平臺會(huì )判斷該用戶(hù)是否是自己的用戶(hù)。如果是自己的用戶(hù),會(huì )返回一個(gè)推薦結果給今日頭條,用戶(hù)會(huì )看到自己之前在今日頭條瀏覽過(guò)的商品信息。您現在可以跳轉到電子商務(wù)應用程序中的產(chǎn)品詳細信息頁(yè)面。
  06.總結
  1、首先,描述了用戶(hù)畫(huà)像、用戶(hù)標簽、用戶(hù)群體的認知概念;
  2.然后,對標簽系統的分類(lèi)、標簽構建的過(guò)程和方法進(jìn)行了說(shuō)明;
  3、為了說(shuō)明如何讓數據倉庫中“躺著(zhù)”的畫(huà)像標簽數據發(fā)揮更大的商業(yè)價(jià)值,從系統架構和應用層功能兩個(gè)角度對用戶(hù)畫(huà)像系統的構建進(jìn)行簡(jiǎn)要總結;
  4.最后從業(yè)務(wù)分析、精準營(yíng)銷(xiāo)、個(gè)性化推薦三個(gè)角度總結了用戶(hù)畫(huà)像的應用,并在實(shí)戰案例部分列舉了幾個(gè)用戶(hù)畫(huà)像的實(shí)際應用案例。
  參考:
  [1] 趙紅天,《用戶(hù)畫(huà)像:方法論與工程化解決方案》
  [2] 曉峰老師,21天訓練營(yíng)
  [3] 草帽小子,如何從0-1搭建用戶(hù)畫(huà)像系統
  [4] 酒仙橋@道明前輩,從0開(kāi)始構建用戶(hù)畫(huà)像系統的系列文章
  [5]秦璐,什么是用戶(hù)畫(huà)像,一般用戶(hù)畫(huà)像的作用是什么
  [6] 蔡青青,如何打造有效的用戶(hù)畫(huà)像(Persona)
  [7] 趙紅天,《數據化運營(yíng):系統方法與實(shí)戰案例》 [8] 劉振華,《電商數據分析與數據化運營(yíng)》
  分享文章:百度到底是喜歡原創(chuàng )文章還是采集文章的網(wǎng)站(自媒體網(wǎng)站如何采集文章優(yōu)化)
  本文主要為您介紹SEO網(wǎng)站文章優(yōu)化。有需要的朋友可以參考一下。如果您覺(jué)得對您有幫助,希望您能關(guān)注本站。
  剛開(kāi)始做網(wǎng)站的時(shí)候,一直在想一個(gè)問(wèn)題,
  百度是喜歡原創(chuàng )文章的網(wǎng)站還是采集
文章的網(wǎng)站?雖然百度出過(guò)打擊采集網(wǎng)站的算法,但感覺(jué)并沒(méi)有真正落地。
  不僅如此,對于那些辛勤工作的原創(chuàng )站長(cháng)來(lái)說(shuō),
  有時(shí)候效果還不如別人的輕松采集
效果好,那么今天我們就來(lái)和大家分析一下網(wǎng)站是如何進(jìn)行SEO的采集
文章的。
  如何采集
文章:
  
  采集
文章的本質(zhì)是移動(dòng)它們。我認為在互聯(lián)網(wǎng)上移動(dòng)文章有兩種方法:
  1、自己手動(dòng)復制和傳輸。手動(dòng)復制太費時(shí)間和精力了。你得去各大網(wǎng)站找你要的文章,然后復制采集
。不過(guò)人工運輸也有好處,就是我們可以改Find exactly what you want。
  2.使用采集軟件批量采集。之前跟大家說(shuō)的小說(shuō)采集
站的玩法其實(shí)和采集
軟件差不多。采集軟件可以根據我們提供的關(guān)鍵詞自動(dòng)采集,對于自媒體網(wǎng)站的文章也會(huì )顯示閱讀數、評論數等。
  使用采集軟件有利于我們分析數據,比如哪篇文章更受歡迎,更受歡迎。我們可以通過(guò)數據分析所有這些,然后將它們傳輸到我們的網(wǎng)站。
  使用采集
的文章來(lái)優(yōu)化網(wǎng)站:
  對于一個(gè)網(wǎng)站來(lái)說(shuō),內容很重要,除非你是付費玩家(SEM),否則不做內容也能獲得好的排名。對于我們草根站長(cháng)來(lái)說(shuō),內容就像是一棟樓的地基。
  必須先打好地基,才能建造摩天大樓。
  
  所以如果你想利用采集
的文章來(lái)優(yōu)化你的網(wǎng)站,我建議你重點(diǎn)關(guān)注網(wǎng)站優(yōu)化的幾個(gè)要點(diǎn)。首先是網(wǎng)站的TDK編寫(xiě)。網(wǎng)站的TDK編寫(xiě)很重要。
  百度蜘蛛進(jìn)入你的網(wǎng)站后,首先抓取的是網(wǎng)頁(yè)的TDK。
  有的朋友可能不知道什么是TDK。主要是網(wǎng)頁(yè)的三大標簽,標題(title),關(guān)鍵詞(keywords)和描述(description),所以在發(fā)表文章的時(shí)候一定要合理設置。
  第二點(diǎn)是網(wǎng)頁(yè)內鏈的錨文本。由于我們選擇采集文章進(jìn)行優(yōu)化,所以每天都有大量的文章發(fā)布。這時(shí)候可能會(huì )有更多的百度蜘蛛來(lái)抓取網(wǎng)站內容。
  而我們就是想利用好這樣一個(gè)特性,讓百度蜘蛛繼續深入爬取。通過(guò)設置網(wǎng)站文章的內部鏈接,它會(huì )在我們的網(wǎng)站中不斷爬取和抓取。這將有助于增加我們網(wǎng)站的整體權重。
  第三點(diǎn)是關(guān)于網(wǎng)站內部的評論模塊。雖然前期可能會(huì )說(shuō)沒(méi)有人會(huì )在我們的網(wǎng)站上發(fā)表評論,但是我們可以自己發(fā)表評論。其實(shí)百度蜘蛛也會(huì )抓取評論模塊,那我們應該怎么使用呢?好評呢?
  我的拙見(jiàn)是我們可以使用注釋來(lái)增加關(guān)鍵詞的密度。百度也評估了頁(yè)面上關(guān)鍵詞的密度。我們在站長(cháng)工具中看到推薦的密度在2%到8%之間。之間,
  至于是真是假,我不知道,但不管是真是假,還是建議大家好好利用評論模塊。如果有效怎么辦?沒(méi)錯,這些都是不準確的。 查看全部

  專(zhuān)業(yè)知識:一篇文章帶你從0到1掌握用戶(hù)畫(huà)像知識體系
  這里推薦:
  一個(gè)。OSM 模型(目標、策略、測量)
  b. 銷(xiāo)售公式=流量*轉化率*客單價(jià)*復購率
  3、面向業(yè)務(wù)目的的運營(yíng)策略設計和用戶(hù)標簽需求針對不同的業(yè)務(wù)目的,標簽體系的構建也不同,因此標簽必須來(lái)源于運營(yíng)策略。比如業(yè)務(wù)部門(mén)要做個(gè)性化推薦,做一些關(guān)于事物或人的興趣愛(ài)好的標簽會(huì )更有價(jià)值;但如果要做精細化運營(yíng),保留和激活用戶(hù)標簽會(huì )更有價(jià)值。用戶(hù)標簽選擇參考以下示例:
  量化目標是提高掃碼方式的關(guān)注率,選擇的運營(yíng)策略是通過(guò)推送優(yōu)惠券的方式吸引微信用戶(hù)掃碼。新粉絲掃碼關(guān)注推送100元優(yōu)惠券,老粉絲掃碼關(guān)注推送50元優(yōu)惠券。,那么在執行運營(yíng)策略的過(guò)程中,需要使用“是否是新粉”這個(gè)標簽。
  這個(gè)階段可以準備一個(gè)簡(jiǎn)單的Excel模板,用于記錄交流內容。列表頭包括標簽名稱(chēng)、標簽規則、使用場(chǎng)景等,記錄與業(yè)務(wù)方的溝通內容。
  4. 組織標簽對于組織標簽,需要基于對業(yè)務(wù)和政策的理解,站在用戶(hù)的角度進(jìn)行分類(lèi)管理。這是一個(gè)參考框架:
 ?。?)用戶(hù)屬性標簽:性別、年齡、省份、城市、注冊日期、手機號等。
 ?。?)用戶(hù)行為標簽:近30天訪(fǎng)問(wèn)次數、近30天客單價(jià)、近30天活躍天數、近30天訪(fǎng)問(wèn)時(shí)長(cháng)、平均訪(fǎng)問(wèn)深度等。
  (3) 用戶(hù)消費標簽:收入狀況、購買(mǎi)力水平、購買(mǎi)的產(chǎn)品、購買(mǎi)渠道偏好、上次購買(mǎi)時(shí)間、購買(mǎi)頻率等 (4) 產(chǎn)品品類(lèi)標簽:高跟鞋、靴子、襯衫、法式連衣裙、牛仔褲, ETC。
  (5)社交屬性標簽:頻繁活躍時(shí)間段、活躍地點(diǎn)、單身、評價(jià)次數、好評等。
  2.2.2輸出標簽要求文檔
  經(jīng)過(guò)前面的需求采集
和分析,明確了業(yè)務(wù)方的標簽需求。為了研發(fā)順利交付,下一步是:編寫(xiě)標注系統文檔——根據標注規則確定埋點(diǎn)——編寫(xiě)數據需求文檔。
  1.編寫(xiě)標簽系統文檔
  在這個(gè)環(huán)節,數據產(chǎn)品經(jīng)理需要根據前期與業(yè)務(wù)方的溝通內容,制作出具體的標簽體系文檔:
  (1)Tag ID:例如ATTRITUBE_U_01_001,其中“ATTRITUBE”為人口屬性主體,“_”后的“U”為userid維度,“_”后的“01”為一級分類(lèi),“001” "末尾為該一級標簽下的標簽詳情
  (2)標簽名稱(chēng):英文格式名稱(chēng),例如famale
  (3) 標注中文:女
  (4)標簽主題:描述標簽所屬的主題,例如用戶(hù)屬性維度標簽、用戶(hù)行為維度標簽、用戶(hù)消費維度標簽 (5)標簽級別ID:標簽所屬的級別,一般分為2 levels (6) Name : ID對應的名稱(chēng)
  (7) 標簽類(lèi)型:統計標簽、規則標簽、機器學(xué)習算法標簽
 ?。?)更新頻率:實(shí)時(shí)更新,離線(xiàn)T+1更新,單次計算(9)標簽算法規則:
  一個(gè)。需要描述選擇哪個(gè)數據表中的哪個(gè)具體字段。如果需要關(guān)聯(lián)多張表,還需要說(shuō)明join是用哪個(gè)字段
  b. 具體的算法邏輯和統計周期,比如“最近7天的支付次數”,需要統計最近7天的支付總數。
 ?。ㄊ┦褂脠?chǎng)景說(shuō)明
  (11) 調度
  (12) 開(kāi)發(fā)商
 ?。ㄊ┬枨蠓?br />   (14)優(yōu)先權
  2.根據標注規則確定埋點(diǎn)
  上面已經(jīng)闡明了標簽的算法規則。接下來(lái),還需要進(jìn)一步確定應該埋哪些點(diǎn)來(lái)采集需要的數據。下面是具體的
  案子:
  對于標簽“Purchase Product Category Preference”,會(huì )用到點(diǎn)擊下單按鈕的事件數據,以及產(chǎn)品名稱(chēng)、產(chǎn)品類(lèi)別等事件屬性數據,所以需要埋掉點(diǎn)擊下單按鈕的事件。
  3.編寫(xiě)數據需求文檔
  確定好埋哪些數據后,需要制作具體的數據需求文檔,交付給負責埋的開(kāi)發(fā)同事埋。在數據需求文件中,應規定以下內容:
  (1) 墓葬名稱(chēng):click_order
  (2)埋點(diǎn)顯示名稱(chēng):點(diǎn)擊訂購按鈕
  (3)上報時(shí)間:根據實(shí)際情況,選擇上報時(shí)間。比如點(diǎn)擊下單事件,可以選擇點(diǎn)擊下單按鈕時(shí)上報
  (4)埋點(diǎn)類(lèi)型:根據實(shí)際情況,選擇埋點(diǎn)在客戶(hù)端還是服務(wù)端。比如“購買(mǎi)商品類(lèi)別偏好”標簽上的訂購按鈕的點(diǎn)擊事件,因為它只是判斷用戶(hù)對購買(mǎi)商品的偏好。用戶(hù)點(diǎn)擊按鈕后,已經(jīng)可以提示是否有偏好,無(wú)需等待服務(wù)器返回是否成功的提示。因此,適合客戶(hù)端埋點(diǎn)
  (5) 屬性名稱(chēng):事件屬性的名稱(chēng),如點(diǎn)擊下單按鈕事件的商品名稱(chēng)屬性
  (6) 屬性值:比如襯衫
 ?。ㄆ撸﹤渥?br />   在實(shí)際工作中,編寫(xiě)標簽系統文檔、根據標簽規則確定埋點(diǎn)、編寫(xiě)數據需求文檔將是一個(gè)相互完善、相輔相成的過(guò)程。
  2.2.3 標簽開(kāi)發(fā)
  在整個(gè)工程方案中,系統所依賴(lài)的基礎設施包括Spark、Hive、HBase、Airflow、MySQL、Redis、Elasticsearch。除了基礎設施,系統主體還包括三個(gè)重要的組成部分:ETL操作、用戶(hù)畫(huà)像主題建模、應用端標簽結果數據的存儲。如圖所示是用戶(hù)畫(huà)像數據倉庫的架構圖,下面簡(jiǎn)單介紹一下。
  1、Hive數據倉庫ETL作業(yè)
  下圖虛線(xiàn)框展示了常見(jiàn)的數倉ETL處理流程,即日常業(yè)務(wù)數據、日志數據、埋點(diǎn)數據等通過(guò)處理進(jìn)入數倉對應的ODS層、DW層、DM層ETL 過(guò)程。
  2、Hive數倉用戶(hù)畫(huà)像主題建模
  中間的虛線(xiàn)框是用戶(hù)畫(huà)像建模的主要環(huán)節,會(huì )基于數據倉庫的ODS層、DW層、DM層對用戶(hù)相關(guān)數據進(jìn)行二次建模和處理。
  3、應用端標簽結果數據的存儲
  在用戶(hù)畫(huà)像的主題建模過(guò)程中,會(huì )將用戶(hù)標簽的計算結果寫(xiě)入Hive。由于不同的數據庫有不同的應用場(chǎng)景,下面分別介紹:
  (1) MySQL
  作為關(guān)系型數據庫,可用于元數據管理、監控預警數據、用戶(hù)畫(huà)像中的結果集存儲等應用。下面詳細介紹這三種應用場(chǎng)景:
  一個(gè)。元數據管理:MySQL讀寫(xiě)速度更快。平臺標簽視圖(Web端產(chǎn)品)中的標簽元數據可以維護在MySQL關(guān)系數據庫中,方便標簽的編輯、查詢(xún)和管理。
  b. 監控預警數據:在畫(huà)像的數據監控中,調度流每跑過(guò)相應的模塊,都會(huì )將該模塊的監控數據插入MySQL,當驗證任務(wù)判斷達到觸發(fā)告警閾值時(shí),告警將被觸發(fā)。
  C。結果集存儲:存儲多維視角分析的標簽,圈人服務(wù)的用戶(hù)標簽,記錄當天每個(gè)標簽的數量等。
 ?。ǘ〩Base
  與Hive不同,HBase可以在數據庫上實(shí)時(shí)運行,而不是運行MapReduce任務(wù),適用于大數據的實(shí)時(shí)查詢(xún)。下面以案例介紹HBase在畫(huà)像系統中的應用場(chǎng)景及工程實(shí)現:某渠道商擬通過(guò)App首頁(yè)彈窗發(fā)放紅包或優(yōu)惠券,以促進(jìn)其注冊下單。未注冊的新安裝用戶(hù)啟動(dòng)。每天畫(huà)像系統ETL調度完成后,會(huì )推送相應的人群數據到廣告系統(存儲在HBase數據庫中)。當滿(mǎn)足條件的新用戶(hù)訪(fǎng)問(wèn)App時(shí),在線(xiàn)接口讀取HBase數據庫,在查詢(xún)用戶(hù)時(shí)向用戶(hù)推送彈窗。
  (3) 彈性搜索
  它是一個(gè)開(kāi)源分布式全文搜索引擎,可以近乎實(shí)時(shí)地存儲和檢索數據。對于響應時(shí)間要求高的場(chǎng)景,比如用戶(hù)標簽查詢(xún)、用戶(hù)人口統計、用戶(hù)群體多維度透視分析等,也可以考慮使用Elasticsearch進(jìn)行存儲。
  2.2.4 標簽發(fā)布及效果跟蹤
  經(jīng)過(guò)開(kāi)發(fā)測試,上線(xiàn)后需要持續跟蹤標簽應用的效果和業(yè)務(wù)方的反饋,調整優(yōu)化模型和相關(guān)權重配置。
  03.用戶(hù)畫(huà)像產(chǎn)品化
  在商業(yè)價(jià)值上,標簽和畫(huà)像類(lèi)似于一個(gè)中間層的系統模塊,為前端服務(wù)提供數據支持。開(kāi)發(fā)出人像標簽數據后,如果只是“躺在”數據倉庫中,將無(wú)法發(fā)揮更大的商業(yè)價(jià)值。只有將人像數據商業(yè)化后,數據處理環(huán)節上各個(gè)環(huán)節的效率才能得到標準化的提升,同時(shí)也更加方便業(yè)務(wù)方使用。下面從標簽生產(chǎn)架構和產(chǎn)品化后覆蓋的功能模塊兩個(gè)角度進(jìn)行總結:
  3.1 用戶(hù)畫(huà)像產(chǎn)品體系架構
  下圖是一個(gè)用戶(hù)畫(huà)像產(chǎn)品體系的結構圖。數據從左到右,主要包括數據采集、數據接入、數據集成/標簽計算、標簽應用四個(gè)層次。讓我們嘗試簡(jiǎn)要描述一下:
  3.1.1 數據采集
  
  在數據采集模塊中,主要通過(guò)客戶(hù)端/服務(wù)端SDK、導入、與第三方應用對接等方式采集日志數據、業(yè)務(wù)數據、第三方數據。
  1.開(kāi)發(fā)工具包
 ?。?)客戶(hù)端SDK:通過(guò)嵌入客戶(hù)端SDK,可以采集iOS、Android、小程序、網(wǎng)站等各類(lèi)客戶(hù)端的用戶(hù)行為數據和用戶(hù)屬性信息。
  (2) 服務(wù)端SDK:如果數據已經(jīng)存在于數據庫或者數據倉庫中,比如訂單信息,可以使用開(kāi)發(fā)語(yǔ)言對應的服務(wù)端SDK來(lái)采集數據。
  2.進(jìn)口商
  根據運行環(huán)境、源數據格式、導入數據大小等因素,可選擇不同的大導入方式,將歷史文件數據導入用戶(hù)畫(huà)像產(chǎn)品系統。
  3、領(lǐng)克根據不同第三方產(chǎn)品OpenAPI的特點(diǎn),采用接收事件消息推送或主動(dòng)輪詢(xún)的方式采集
用戶(hù)在不同第三方應用系統中的個(gè)人屬性和行為事件數據。
  3.1.2 數據訪(fǎng)問(wèn)
  埋點(diǎn)數據先大量進(jìn)入Kafka,然后慢慢消費訪(fǎng)問(wèn)后續的數據集成存儲系統。
  3.1.3 數據整合/標簽計算
  在用戶(hù)畫(huà)像系統中,Hive主要作為數據倉庫進(jìn)行ETL處理,開(kāi)發(fā)相應的用戶(hù)屬性表和用戶(hù)行為表,計算標簽。
  1、數據整合
  從各個(gè)渠道接收到的數據存在隔離、空值、格式不匹配、超出限制范圍等數據質(zhì)量問(wèn)題。因此,需要進(jìn)行臟數據清洗、格式轉換、用戶(hù)識別和合并等集成工作:
  (1) 清理/改造
  a.Clean:比如用戶(hù)的出生日期是未來(lái)的某個(gè)日期,所以需要過(guò)濾掉這種臟數據
  b.Transform:例如通過(guò)第三方應用API獲取的所有用戶(hù)的地域信息,采用IPB標準編碼形式。為了和其他渠道的信息一起分析,需要按照IPB標準編碼轉換成標準的省、省、省。城市格式
  (2) ID映射
  一個(gè)。從各個(gè)通道接收到的用戶(hù)屬性數據和行為事件數據是相互隔離的。為了計算用戶(hù)的全面綜合標簽,需要對用戶(hù)進(jìn)行識別和合并。比如通過(guò)unionID,識別并合并同一個(gè)微信公眾號、小程序、開(kāi)放平臺網(wǎng)站的同一個(gè)用戶(hù)的信息。
  經(jīng)過(guò)數據整合處理后,數據將進(jìn)入如下數據模型:
  2.標簽計算
  在用戶(hù)畫(huà)像系統中,將構建批量離線(xiàn)標簽處理引擎,依托于相對穩定的底層數據結構。標簽引擎同時(shí)讀取事件數據和用戶(hù)屬性數據,然后按照特定的標簽規則進(jìn)行批量計算,最終生成用戶(hù)標簽。
  3.1.4 標簽申請
  標簽的應用主要分為前端畫(huà)像展示和通過(guò)API訪(fǎng)問(wèn)其他系統兩種應用方式,在后面的“3.2用戶(hù)畫(huà)像產(chǎn)品化功能模塊”一章中有詳細介紹。
  3.2 用戶(hù)畫(huà)像產(chǎn)品功能模塊
  3.2.1 系統看板
  通常,用戶(hù)畫(huà)像系統的數據儀表盤(pán)以可視化的形式展示企業(yè)的核心用戶(hù)數據資產(chǎn)或關(guān)注人群的數據。旨在建立和統一用戶(hù)對企業(yè)數據資產(chǎn)或核心人口數據的基本認識,主要分為以下幾類(lèi):
  1、用戶(hù)量級及變化趨勢:不同設備類(lèi)型ID量級,不同類(lèi)型用戶(hù)量級(如注冊用戶(hù)與非注冊用戶(hù)、付費用戶(hù)與非付費用戶(hù)等);
  2. 標簽資產(chǎn):按主要類(lèi)別統計標簽數量等;
  3、核心用戶(hù)標簽:展示固有或自定義群體的關(guān)鍵標簽畫(huà)像數據等;
  3.2.2 標簽管理
  供業(yè)務(wù)人員對標簽進(jìn)行增刪改查,包括:標簽分類(lèi)、新建標簽、標簽審核、標簽下架、標簽覆蓋率監控等。
  根據用戶(hù)行為數據和用戶(hù)屬性數據設置標簽規則創(chuàng )建標簽:
  3.2.3 單用戶(hù)畫(huà)像
  主要能力包括通過(guò)輸入用戶(hù)ID查看單個(gè)用戶(hù)畫(huà)像的詳細數據,如用戶(hù)屬性信息、用戶(hù)行為等數據。
  3.2.4 用戶(hù)分群及用戶(hù)群畫(huà)像
  1、用戶(hù)分組
  用戶(hù)分組功能主要面向業(yè)務(wù)人員。產(chǎn)品經(jīng)理、運營(yíng)、客服等業(yè)務(wù)人員在應用標簽時(shí),可能不僅僅查看某個(gè)標簽對應的群體情況,可能需要組合多個(gè)標簽來(lái)滿(mǎn)足他們對群體的業(yè)務(wù)定義。例如:結合“近7天多次領(lǐng)取優(yōu)惠券”、“活躍度等于高和極高”、“女性”用戶(hù)3個(gè)標簽定義目標人群,查看覆蓋用戶(hù)數這個(gè)組。
  2、用戶(hù)群體畫(huà)像
  與用戶(hù)分組功能類(lèi)似,用戶(hù)群畫(huà)像功能首先需要結合標簽來(lái)圈定用戶(hù)群體。不同的是,用戶(hù)群畫(huà)像功能支持從多維度分析所圈定的用戶(hù)群體的特征,而用戶(hù)分群功能則側重于篩選出用戶(hù)群體,推送到各個(gè)業(yè)務(wù)系統,提供服務(wù)支持。
  3.2.5 BI分析
  BI平臺與這些數據打通后,可以豐富數據的維度,通過(guò)各種分析模型支持更豐富、更深入的分析對比。
  3.2.6 開(kāi)放API
  OpenAPI可以保證畫(huà)像系統數據與推送系統、營(yíng)銷(xiāo)系統、廣告系統、推薦系統、BI等各個(gè)平臺的連接,保證各個(gè)系統數據的實(shí)時(shí)更新,避免來(lái)自同一來(lái)源的不同數字的問(wèn)題。
  04.用戶(hù)畫(huà)像應用
  前面提到,用戶(hù)畫(huà)像主要包括三個(gè)應用:業(yè)務(wù)分析、精準營(yíng)銷(xiāo)、個(gè)性化推薦與服務(wù)。具體可以分為:
  4.1 經(jīng)營(yíng)分析
  用戶(hù)畫(huà)像系統的標簽數據通過(guò)API進(jìn)入分析系統后,可以豐富分析數據的維度,支持對各類(lèi)業(yè)務(wù)對象的業(yè)務(wù)分析。下面總結了一些市場(chǎng)、運營(yíng)、產(chǎn)品人員分析時(shí)會(huì )關(guān)注的指標:
  4.1.1 流量分析
  一、流量來(lái)源
  2、流量:UV、PV
  3、流量質(zhì)量:瀏覽深度(UV、PV)、停留時(shí)長(cháng)、來(lái)源轉化、ROI(投資回報率)
  4.1.2 用戶(hù)分析
  1. 用戶(hù)數:新用戶(hù)數、老用戶(hù)數、新老用戶(hù)比
  2、用戶(hù)質(zhì)量:新用戶(hù)數(app啟動(dòng))、活躍用戶(hù)數(app啟動(dòng))、用戶(hù)留存(app啟動(dòng)-app啟動(dòng))、用戶(hù)參與度、睡意、客單價(jià)
  4.1.3 產(chǎn)品分析
  1、商品銷(xiāo)量:GMV、客單價(jià)、下單人數、退購人數、退貨人數、各終端復購率、購買(mǎi)頻率分布、經(jīng)營(yíng)崗位購買(mǎi)轉化
  2、商品類(lèi):支付訂單狀態(tài)(次數、人數、趨勢、復購)、訪(fǎng)問(wèn)購買(mǎi)狀態(tài)、申請退貨狀態(tài)、訂單取消狀態(tài)、關(guān)注狀態(tài)
  4.1.4 順序分析
  1、訂單指標:總訂單量、退款訂單量、訂單應付金額、訂單實(shí)際支付金額、下單人數
  2、轉化率指標:新訂單/訪(fǎng)問(wèn)UV、有效訂單/訪(fǎng)問(wèn)UV
  4.1.5 渠道分析
  1.活躍用戶(hù)
  (1)活躍用戶(hù):UV、PV
  
 ?。ǘ┬略鲇脩?hù):注冊量、注冊量同比比較
  2、用戶(hù)質(zhì)量
  (1)留存率:次日留存率/7天/30天
  3、渠道收入
  (1)訂單:訂單量、日均訂單量、同比訂單量
 ?。?)收入:支付金額、日均支付金額、同比金額(3)用戶(hù):人均訂單量、人均訂單金額
  4.1.6 產(chǎn)品分析
  1、搜索功能:搜索人數/次,搜索功能滲透率,search關(guān)鍵詞
  2.關(guān)鍵路徑漏斗等產(chǎn)品功能設計分析
  4.2 精準營(yíng)銷(xiāo)
  4.2.1 短信/郵件/推送營(yíng)銷(xiāo)
  在日常生活中,我們經(jīng)常會(huì )從很多渠道收到營(yíng)銷(xiāo)信息。紅包到賬的短信推送可能會(huì )提示用戶(hù)打開(kāi)很久沒(méi)有訪(fǎng)問(wèn)的應用,心愿單中圖書(shū)降價(jià)的郵件推送可能會(huì )刺激用戶(hù)打開(kāi)推送鏈接直接下單。營(yíng)銷(xiāo)有哪些類(lèi)型?大致可以分為以下4類(lèi):
  1、行為營(yíng)銷(xiāo):商品瀏覽、加入購物車(chē)、店鋪掃碼、取消訂單、退貨等。
  2. 位置營(yíng)銷(xiāo):周邊門(mén)店、周邊活動(dòng)、常去區域等 3. 節日營(yíng)銷(xiāo):生日、春節、雙十一、雙十二、圣誕節等。
  4、會(huì )員營(yíng)銷(xiāo):歡迎加入、優(yōu)惠券提醒、積分變化、等級變化、會(huì )員福利等。
  4.2.2客服語(yǔ)音技巧
  當我們向某平臺客服部門(mén)投訴、咨詢(xún)或反饋時(shí),客服人員可以準確地告訴我們我們在該平臺的購買(mǎi)情況、上次咨詢(xún)問(wèn)題的結果等信息,并及時(shí)提出解決方案有針對性的方式。為價(jià)值用戶(hù)提供VIP客服通道等特色服務(wù)。
  4.3 個(gè)性化推薦和服務(wù)
  應用運營(yíng)方可以通過(guò)在用戶(hù)畫(huà)像中推送性別、年齡段、興趣愛(ài)好、瀏覽和購買(mǎi)行為等標簽,向用戶(hù)推薦不同的內容。例如今日頭條的個(gè)性化文章內容推薦,抖音基于用戶(hù)畫(huà)像的個(gè)性化視頻內容推薦,淘寶基于用戶(hù)瀏覽行為等畫(huà)像數據的個(gè)性化商品推薦。
  05.用戶(hù)畫(huà)像實(shí)踐案例
  基于畫(huà)像系統做多方位的數據分析和用戶(hù)可觸達的運營(yíng)方案,標簽數據可以快速應用到服務(wù)層(T+1,實(shí)時(shí)應用),通過(guò)效果分析得到用戶(hù)反饋后,它有助于迭代營(yíng)銷(xiāo)策略或產(chǎn)品設計。下面通過(guò)一些實(shí)際案例,場(chǎng)景化地復現用戶(hù)畫(huà)像的應用要點(diǎn)和應用方法。
  5.1 A/B人群效應測試
  5.1.1 案例背景
  為了在大促期間獲得更好的銷(xiāo)量,某快消產(chǎn)品計劃通過(guò)新聞推送的方式,對新上架的產(chǎn)品和產(chǎn)品的保健功能進(jìn)行系列文章植入,為大促造勢,刺激銷(xiāo)量。銷(xiāo)售轉化。為了準確定位目標人群流量,渠道運營(yíng)商現計劃進(jìn)行兩次A/B人群效應測試:
  1、不同內容標題對流量的影響;
  2、與普通推送相比,精準推送帶來(lái)更多流量。
  5.1.2 用戶(hù)畫(huà)像入口
  在整個(gè)項目中,需要梳理AB組流量如何劃分,AB組人群規則如何設計以及效果監控。下面分步介紹人像系統在A(yíng)B人群測試中的使用方法。
  1. 對AB組用戶(hù)進(jìn)行細分要想做A/B組測試,首先要做好流量的細分。您可以使用A/B分布和隨機分布的形式將用戶(hù)劃分為A/B組。
  2. 文案對流量影響測試方案 某平臺渠道商為了在大促期間召回更多用戶(hù)訪(fǎng)問(wèn)APP,計劃抽取少量用戶(hù)進(jìn)行AB效果測試。在活動(dòng)預熱期間復制標題。
  本次測試方案中,控制組A選擇路徑A的用戶(hù)組,在過(guò)去x天訪(fǎng)問(wèn)過(guò),在過(guò)去x天瀏覽/采集
/購買(mǎi)過(guò)零食,將零售文案A推送給這些用戶(hù); 控制組B選擇對于走過(guò)路徑B,在過(guò)去x天訪(fǎng)問(wèn)過(guò),并且在過(guò)去x天瀏覽/采集
/購買(mǎi)過(guò)零食的用戶(hù)群,將零食文案B推送給該組用戶(hù)。control group和control group的用戶(hù)數是一樣的,但是文案不同。跟進(jìn)監測兩組人的點(diǎn)擊率,然后分析不同文案對用戶(hù)點(diǎn)擊的影響。例如通過(guò)用戶(hù)分組功能選擇A組中的用戶(hù),如下圖:
  3、精準推送相比普通推送帶來(lái)的流量提升測試方案
  在使用畫(huà)像系統精細推送人之前,某平臺以亂推送消息的形式推送用戶(hù)。為了測試精細化運營(yíng)組相比無(wú)差異化運營(yíng)帶來(lái)的流量提升,渠道運營(yíng)人員決定在目前重點(diǎn)運營(yíng)的零食營(yíng)銷(xiāo)場(chǎng)館進(jìn)行AB效果測試。
  在本次測試計劃中,控制組A選擇了路徑A,在過(guò)去x天內訪(fǎng)問(wèn)過(guò),并在過(guò)去x天內瀏覽/采集
/購買(mǎi)了零食;對照組B選擇路徑B,在過(guò)去x天訪(fǎng)問(wèn)過(guò),A用戶(hù)組沒(méi)有類(lèi)別偏好。將同樣的文字推送給A組和B組的用戶(hù)群,然后監控兩組人的點(diǎn)擊率,進(jìn)而分析精準營(yíng)銷(xiāo)推送帶來(lái)的增長(cháng)點(diǎn)。
  5.1.3 效果分析
  AB群消息推送上線(xiàn)后,需要構建監控報表,監控控制組和測試組的流量和轉化情況,重點(diǎn)關(guān)注下表指標:
  例如,使用事件分析模型構建的AB人群的GMV對比報告如下圖所示:
  5.2 女神節精準營(yíng)銷(xiāo)
  5.2.1 案例背景
  某主打女性產(chǎn)品的品牌商計劃在女神節期間針對不同品類(lèi)偏好的女神進(jìn)行針對性營(yíng)銷(xiāo)。營(yíng)銷(xiāo)信息會(huì )推送兩次,第一次是在當天10:00推送促銷(xiāo)信息,第二次是在當晚10:00發(fā)送一波促銷(xiāo)提醒。最后,通過(guò)跟蹤目標受眾支付訂單的當天完成率來(lái)評估營(yíng)銷(xiāo)效果。
  5.2.2 實(shí)現邏輯
  首先根據用戶(hù)性別標簽和年齡標簽圈選擇18-40歲的女性用戶(hù)。然后延遲到2020-03-08上午10點(diǎn),根據用戶(hù)的品類(lèi)偏好標簽推送不同的營(yíng)銷(xiāo)內容。第二波推送延遲至2020-03-08晚上10點(diǎn),推送信息為統一促銷(xiāo)提醒。
  5.3 新裝未注冊用戶(hù)實(shí)時(shí)營(yíng)銷(xiāo)
  5.3.1 案例背景
  某小吃商城App運營(yíng)方為促進(jìn)未注冊新裝用戶(hù)注冊下單,制定了運營(yíng)規則:新裝未注冊用戶(hù)打開(kāi)App時(shí),通過(guò)App彈窗推送優(yōu)惠券進(jìn)行營(yíng)銷(xiāo). 例如,如果用戶(hù)安裝APP后沒(méi)有注冊,改天用戶(hù)打開(kāi)后會(huì )第一時(shí)間推送APP彈窗優(yōu)惠券,更好的引導用戶(hù)完成注冊下單。
  5.3.2 用戶(hù)畫(huà)像入口
  渠道運營(yíng)商通過(guò)組合用戶(hù)標簽(如“未注冊用戶(hù)”、“今日安裝量”小于××天)篩選出相應的用戶(hù)群體,然后選擇將相應的群體推送至“廣告系統”。這樣每天畫(huà)像系統的ETL調度完成后,就會(huì )將對應的人群數據推送到HBase數據庫中存儲。當滿(mǎn)足條件的新用戶(hù)訪(fǎng)問(wèn)App時(shí),在線(xiàn)接口讀取HBase數據庫,在查詢(xún)用戶(hù)時(shí)向用戶(hù)推送彈窗。
  5.4 電子商務(wù)再營(yíng)銷(xiāo)廣告
  5.4.1 案例背景
  某電商APP產(chǎn)品運營(yíng)團隊希望提高老客戶(hù)對電子產(chǎn)品的復購率和新客戶(hù)的下單率,選擇與今日頭條合作投放再營(yíng)銷(xiāo)廣告。例如,某用戶(hù)在電商APP中看到了一款vivo手機,第二天查看今日頭條時(shí),看到了對應手機的廣告信息。
  5.4.2 實(shí)現邏輯
  首先需要保證電商APP和今日頭條的API已經(jīng)開(kāi)放,然后根據用戶(hù)在A(yíng)PP中的行為(瀏覽、采集
、追加、搜索等)進(jìn)行算法挖掘。生成用戶(hù)產(chǎn)品偏好的標簽。今日頭條在抓取用戶(hù)的設備信息后,會(huì )向電商發(fā)送請求,詢(xún)問(wèn)是否需要向用戶(hù)展示廣告。這時(shí)電商平臺會(huì )判斷該用戶(hù)是否是自己的用戶(hù)。如果是自己的用戶(hù),會(huì )返回一個(gè)推薦結果給今日頭條,用戶(hù)會(huì )看到自己之前在今日頭條瀏覽過(guò)的商品信息。您現在可以跳轉到電子商務(wù)應用程序中的產(chǎn)品詳細信息頁(yè)面。
  06.總結
  1、首先,描述了用戶(hù)畫(huà)像、用戶(hù)標簽、用戶(hù)群體的認知概念;
  2.然后,對標簽系統的分類(lèi)、標簽構建的過(guò)程和方法進(jìn)行了說(shuō)明;
  3、為了說(shuō)明如何讓數據倉庫中“躺著(zhù)”的畫(huà)像標簽數據發(fā)揮更大的商業(yè)價(jià)值,從系統架構和應用層功能兩個(gè)角度對用戶(hù)畫(huà)像系統的構建進(jìn)行簡(jiǎn)要總結;
  4.最后從業(yè)務(wù)分析、精準營(yíng)銷(xiāo)、個(gè)性化推薦三個(gè)角度總結了用戶(hù)畫(huà)像的應用,并在實(shí)戰案例部分列舉了幾個(gè)用戶(hù)畫(huà)像的實(shí)際應用案例。
  參考:
  [1] 趙紅天,《用戶(hù)畫(huà)像:方法論與工程化解決方案》
  [2] 曉峰老師,21天訓練營(yíng)
  [3] 草帽小子,如何從0-1搭建用戶(hù)畫(huà)像系統
  [4] 酒仙橋@道明前輩,從0開(kāi)始構建用戶(hù)畫(huà)像系統的系列文章
  [5]秦璐,什么是用戶(hù)畫(huà)像,一般用戶(hù)畫(huà)像的作用是什么
  [6] 蔡青青,如何打造有效的用戶(hù)畫(huà)像(Persona)
  [7] 趙紅天,《數據化運營(yíng):系統方法與實(shí)戰案例》 [8] 劉振華,《電商數據分析與數據化運營(yíng)》
  分享文章:百度到底是喜歡原創(chuàng )文章還是采集文章的網(wǎng)站(自媒體網(wǎng)站如何采集文章優(yōu)化)
  本文主要為您介紹SEO網(wǎng)站文章優(yōu)化。有需要的朋友可以參考一下。如果您覺(jué)得對您有幫助,希望您能關(guān)注本站。
  剛開(kāi)始做網(wǎng)站的時(shí)候,一直在想一個(gè)問(wèn)題,
  百度是喜歡原創(chuàng )文章的網(wǎng)站還是采集
文章的網(wǎng)站?雖然百度出過(guò)打擊采集網(wǎng)站的算法,但感覺(jué)并沒(méi)有真正落地。
  不僅如此,對于那些辛勤工作的原創(chuàng )站長(cháng)來(lái)說(shuō),
  有時(shí)候效果還不如別人的輕松采集
效果好,那么今天我們就來(lái)和大家分析一下網(wǎng)站是如何進(jìn)行SEO的采集
文章的。
  如何采集
文章:
  
  采集
文章的本質(zhì)是移動(dòng)它們。我認為在互聯(lián)網(wǎng)上移動(dòng)文章有兩種方法:
  1、自己手動(dòng)復制和傳輸。手動(dòng)復制太費時(shí)間和精力了。你得去各大網(wǎng)站找你要的文章,然后復制采集
。不過(guò)人工運輸也有好處,就是我們可以改Find exactly what you want。
  2.使用采集軟件批量采集。之前跟大家說(shuō)的小說(shuō)采集
站的玩法其實(shí)和采集
軟件差不多。采集軟件可以根據我們提供的關(guān)鍵詞自動(dòng)采集,對于自媒體網(wǎng)站的文章也會(huì )顯示閱讀數、評論數等。
  使用采集軟件有利于我們分析數據,比如哪篇文章更受歡迎,更受歡迎。我們可以通過(guò)數據分析所有這些,然后將它們傳輸到我們的網(wǎng)站。
  使用采集
的文章來(lái)優(yōu)化網(wǎng)站:
  對于一個(gè)網(wǎng)站來(lái)說(shuō),內容很重要,除非你是付費玩家(SEM),否則不做內容也能獲得好的排名。對于我們草根站長(cháng)來(lái)說(shuō),內容就像是一棟樓的地基。
  必須先打好地基,才能建造摩天大樓。
  
  所以如果你想利用采集
的文章來(lái)優(yōu)化你的網(wǎng)站,我建議你重點(diǎn)關(guān)注網(wǎng)站優(yōu)化的幾個(gè)要點(diǎn)。首先是網(wǎng)站的TDK編寫(xiě)。網(wǎng)站的TDK編寫(xiě)很重要。
  百度蜘蛛進(jìn)入你的網(wǎng)站后,首先抓取的是網(wǎng)頁(yè)的TDK。
  有的朋友可能不知道什么是TDK。主要是網(wǎng)頁(yè)的三大標簽,標題(title),關(guān)鍵詞(keywords)和描述(description),所以在發(fā)表文章的時(shí)候一定要合理設置。
  第二點(diǎn)是網(wǎng)頁(yè)內鏈的錨文本。由于我們選擇采集文章進(jìn)行優(yōu)化,所以每天都有大量的文章發(fā)布。這時(shí)候可能會(huì )有更多的百度蜘蛛來(lái)抓取網(wǎng)站內容。
  而我們就是想利用好這樣一個(gè)特性,讓百度蜘蛛繼續深入爬取。通過(guò)設置網(wǎng)站文章的內部鏈接,它會(huì )在我們的網(wǎng)站中不斷爬取和抓取。這將有助于增加我們網(wǎng)站的整體權重。
  第三點(diǎn)是關(guān)于網(wǎng)站內部的評論模塊。雖然前期可能會(huì )說(shuō)沒(méi)有人會(huì )在我們的網(wǎng)站上發(fā)表評論,但是我們可以自己發(fā)表評論。其實(shí)百度蜘蛛也會(huì )抓取評論模塊,那我們應該怎么使用呢?好評呢?
  我的拙見(jiàn)是我們可以使用注釋來(lái)增加關(guān)鍵詞的密度。百度也評估了頁(yè)面上關(guān)鍵詞的密度。我們在站長(cháng)工具中看到推薦的密度在2%到8%之間。之間,
  至于是真是假,我不知道,但不管是真是假,還是建議大家好好利用評論模塊。如果有效怎么辦?沒(méi)錯,這些都是不準確的。

詳細數據:精通日志查詢(xún):如何翻頁(yè)獲取日志和計算結果

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 82 次瀏覽 ? 2022-11-27 09:37 ? 來(lái)自相關(guān)話(huà)題

  詳細數據:精通日志查詢(xún):如何翻頁(yè)獲取日志和計算結果
  摘要: 精通日志查詢(xún):如何翻頁(yè)獲取日志和計算結果 日志服務(wù)提供一站式的日志采集、存儲、查詢(xún)、計算功能。交互式日志采集體驗,釋放用戶(hù)運維壓力,解放用戶(hù)雙手;交互式查詢(xún)分析體驗,讓用戶(hù)自由構建數據模型,探索性分析,深入挖掘數據。
  精通日志查詢(xún):如何翻頁(yè)獲取日志和計算結果
  日志服務(wù)提供一站式的日志采集、存儲、查詢(xún)、計算功能。交互式日志采集體驗,釋放用戶(hù)運維壓力,解放用戶(hù)雙手;交互式查詢(xún)分析體驗,讓用戶(hù)自由構建數據模型,探索性分析,深入挖掘數據。
  用戶(hù)可以利用日志服務(wù)的查詢(xún)分析能力,不僅可以在控制臺進(jìn)行交互查詢(xún),還可以通過(guò)SDK在程序中使用查詢(xún)分析。當計算結果比較大時(shí),如何在本地讀取全量結果是一個(gè)比較麻煩的問(wèn)題。好在日志服務(wù)提供了翻頁(yè)功能,不僅可以翻頁(yè)閱讀原創(chuàng )
日志內容,還可以翻頁(yè)閱讀本地的SQL計算結果。開(kāi)發(fā)者可以使用日志服務(wù)提供的SDK,或者CLI,通過(guò)讀取數據接口讀取日志。
  查詢(xún)和分析使用不同的分頁(yè)方式
  日志服務(wù)提供統一的查詢(xún)日志入口:GetLogstoreLogs,可以根據關(guān)鍵字查詢(xún)日志原創(chuàng )
內容,也可以提交SQL計算獲取計算結果。
  查詢(xún)翻頁(yè)用例
  在GetLogStoreLogs api中,有offset和lines兩個(gè)參數
  閱讀頁(yè)面時(shí),不斷增加偏移量。讀取到某個(gè)偏移量后,得到的結果行數為0,結果進(jìn)度為完成狀態(tài)。認為所有的數據都讀完了,可以結束了。.
  翻頁(yè)代碼示??例
  翻頁(yè)偽代碼:
  
  Python翻頁(yè)閱讀示例
  更詳細的案例參考文檔:
  Java翻頁(yè)閱讀示例
  更詳細的案例參考文檔
  翻頁(yè)讀取SQL分析結果
  SQL分析中,GetLogStoreLogs API參數中的offset和lines是無(wú)效的,補上。也就是說(shuō),如果按照上面翻頁(yè)的方法遍歷offset翻頁(yè),讀取原來(lái)的內容,那么每條SQL執行的結果都是一樣的。理論上我們可以一次調用得到所有的計算結果,但是如果結果集過(guò)大,可能會(huì )出現以下問(wèn)題:
  為了解決SQL翻頁(yè)問(wèn)題,我們提供了標準的SQL限制翻頁(yè)語(yǔ)法
  一個(gè)典型的案例,如果下面的SQL一共產(chǎn)生了2000條日志
  
  然后可以翻頁(yè),每次閱讀500行,共完成4次閱讀:
  SQL翻頁(yè)示例
  在程序中,SQL翻頁(yè)的偽代碼是這樣寫(xiě)的:
  示例 Python 程序:
  示例 Java 程序:
  擴展信息
  日志服務(wù)使用手冊,最全資料
  日志服務(wù)器分析demo,Nginx日志,CDN日志,DDOS日志,SLB日志demo,grafana,Datav大屏demo
  5分鐘搭建實(shí)時(shí)分析網(wǎng)站:Grafana+日志服務(wù)實(shí)戰
  匯總:02數據采集、清洗處理及質(zhì)量檢查流程匯編v1 0.pdf 30頁(yè)
  旅游局旅游基礎數據庫建設項目數據采集、清洗處理及質(zhì)量檢測過(guò)程編制版本控制信息版本日期起草及修改說(shuō)明V1.0版本2014年12月華勝天成V1.1版本2015年8月華勝天成所有內容為用戶(hù)所有,專(zhuān)有. 未經(jīng)用戶(hù)明確書(shū)面許可,任何組織和個(gè)人不得為任何目的、以任何形式、以任何方式傳播本文的部分或全部?jì)热?。華勝天成科技二目錄 1. 概述 2 2. 總體設計 22.1 總體架構 22.2 數據集成流程 32.3 數據交換流程設計 42.3.
  云源數據既包括景區、旅行社、酒店等重要的結構化旅游要素,也包括博客、新聞、貼吧、微博等非結構化旅游衍生數據。這兩類(lèi)數據不僅相互關(guān)聯(lián),而且形成一個(gè)系統。因此,尤其需要對相關(guān)數據的采集、同步、處理、清洗等進(jìn)行梳理,使各環(huán)節環(huán)環(huán)相扣、有序執行。行業(yè)系統數據源包括景區管理系統、導游數據管理系統、旅行社報備系統和國家重點(diǎn)景區客流系統。2. 總體設計 2.1 總體框架 總體框架圖 華盛天成科技 2 2.2 數據集成流程 根據總體設計思路,數據集成的實(shí)現按照處理過(guò)程可以分解為數據采集、數據同步、數據清洗(包括自動(dòng)處理和人工審核處理)。以及數據質(zhì)檢等環(huán)節,最終實(shí)現數據入庫工作。云基礎數據(包括景區、酒店、旅行社等基礎數據)的采集、存儲、審核、清洗、歸并??傮w流程圖如下: 數據集成流程圖。增量數據同步到云數據鏡像庫(V1)庫。Reiking數據交換平臺是整個(gè)數據清洗和轉換檢查的核心。定時(shí)觸發(fā)自動(dòng)程序進(jìn)行數據清洗處理,生成大數據平臺需要的Json格式信息。他終于意識到:1、將處理后的基礎數據推送到基礎數據庫(Oracle);2. 將處理后的動(dòng)態(tài)數據(Json)推送到大數據平臺。
  3、將基礎數據庫(Oracle)中的導游、景點(diǎn)等基礎數據推送給華盛天成科技 3 2.3 數據交換流程設計 2.3.1 數據交換流程標準化 數據庫接口名稱(chēng)標準化權限,避免對數據庫的操作。數據庫接口名根據對應的數據庫類(lèi)型和數據庫所在的IP地址來(lái)命名。比如11中的MySql數據庫中的Test數據庫可以按照MySql-111-Test命名。對于其他類(lèi)型的數據庫,以上命名規則通用,特殊情況具體考慮,命名一定要規范。目錄名稱(chēng)標準化目錄采用分級格式排列,各級目錄均以中文標注??偰夸浢Q(chēng)為:旅游局基礎數據庫嫉妒數據處理。子節點(diǎn)大致可分為:01采集庫與鏡像庫同步、02鏡像庫到大數據平臺、03鏡像庫到PDA數據倉庫、04鏡像庫到信息網(wǎng)(DB2)、05鏡像庫到基礎庫, 06 從業(yè)務(wù)數據庫到基礎數據庫,07業(yè)務(wù)數據庫到PDA數倉,08 PDA數倉到大數據平臺的八類(lèi)數據交換處理服務(wù)。各種名稱(chēng)是根據不同的目的和數據處理順序來(lái)命名的。其中,01采集庫與鏡像庫的同步還包括:基本信息同步、評論信息同步、路線(xiàn)\策略同步、圖片庫同步、
  
  02 到大數據平臺的鏡像庫包括:推送到第一平臺、推送到第二平臺、推送到第三平臺等樣式名稱(chēng)。華勝天成科技 4 服務(wù)名稱(chēng)標準化 服務(wù)名稱(chēng)多樣化,可以根據不同的類(lèi)型、不同的數據庫表名、源IP和目標IP地址等進(jìn)行命名,例如基礎信息同步的服務(wù)名稱(chēng)為:Travel__71,即就是,表名是把Travel表從數據庫同步到71數據庫。其他需要特殊處理的,按特殊處理。運行菜單格式規范了運行菜單需要和服務(wù)目錄創(chuàng )建對應的運行菜單,目錄結構遵循服務(wù)目錄結構。如下圖所示:華勝天成科技 5 2.4 業(yè)務(wù)代碼標準化 2.4.1 行政區劃代碼標準化 根據國家標準統一行政區劃代碼,代碼標準根據每年發(fā)布的數據進(jìn)行更新。2.4.2 新建行政區劃代碼表 參照已發(fā)布的行政區劃代碼表,創(chuàng )建行政區劃代碼標準表。來(lái)源:MySQL數據庫 服務(wù)器:26 數據庫:weibo_info_2:city_code 目的:MySQL數據庫 服務(wù)器:1(192.168.102.) 數據庫:pom_ct_data 新建_:sta_city_code 華盛天成科技 6 2.4.3 更新采集數據庫elint_dest_city中的行政區劃代碼表采集
database 在表中增加一個(gè)標準的行政區劃代碼字段,
  添加字段SQL語(yǔ)句:alter elint_dest_city add(`sta_city_code` int(6) DEFAULT NULL COMMENT '標準行政區劃代碼') 匹配過(guò)程程序代碼: 主類(lèi)名:MatchCode 注:此項已實(shí)現,不用動(dòng),如果你需要打電話(huà)直接上桌就行了。2.5 數據采集與同步 2.5.1 云數據采集 1. 基礎數據采集 基礎數據采集渠道主要是基于全國31個(gè)省市旅游信息網(wǎng)站發(fā)布的景區、旅行社、酒店等基本信息。2.電商點(diǎn)評數據采集 電商點(diǎn)評數據采集渠道主要為國內各大電商,包括旅游、驢媽媽、同程旅行、馬蜂窩等。3、微博數據采集(微博熱詞、熱詞等處理)) 抓取微博數據的方式有以下三種: 1) 單獨使用爬蟲(chóng),使用類(lèi)似的元詞搜索方式。2)編寫(xiě)程序調用API接口采集關(guān)注度視角的微博數據。3)爬蟲(chóng)與API的結合。針對新浪微博越來(lái)越嚴格的限制,通過(guò)爬蟲(chóng)和API相結合的方式進(jìn)行數據采集。微博先找轉發(fā),再找評論。接下來(lái),找到轉發(fā)器的詳細信息。(微博采集
深入了解) 華盛天成科技7條微博建議:少采集
轉發(fā)。采集
是順序的。4、貼吧數據主要以貼吧、天涯論壇等帖子數據為主。2)編寫(xiě)程序調用API接口采集關(guān)注度視角的微博數據。3)爬蟲(chóng)與API的結合。針對新浪微博越來(lái)越嚴格的限制,通過(guò)爬蟲(chóng)和API相結合的方式進(jìn)行數據采集。微博先找轉發(fā),再找評論。接下來(lái),找到轉發(fā)器的詳細信息。(微博采集
深入了解) 華盛天成科技7條微博建議:少采集
轉發(fā)。采集
是順序的。4、貼吧數據主要以貼吧、天涯論壇等帖子數據為主。2)編寫(xiě)程序調用API接口采集關(guān)注度視角的微博數據。3)爬蟲(chóng)與API的結合。針對新浪微博越來(lái)越嚴格的限制,通過(guò)爬蟲(chóng)和API相結合的方式進(jìn)行數據采集。微博先找轉發(fā),再找評論。接下來(lái),找到轉發(fā)器的詳細信息。(微博采集
深入了解) 華盛天成科技7條微博建議:少采集
轉發(fā)。采集
是順序的。4、貼吧數據主要以貼吧、天涯論壇等帖子數據為主。微博先找轉發(fā),再找評論。接下來(lái),找到轉發(fā)器的詳細信息。(微博采集
深入了解) 華盛天成科技7條微博建議:少采集
轉發(fā)。采集
是順序的。4、貼吧數據主要以貼吧、天涯論壇等帖子數據為主。微博先找轉發(fā),再找評論。接下來(lái),找到轉發(fā)器的詳細信息。(微博采集
深入了解) 華盛天成科技7條微博建議:少采集
轉發(fā)。采集
是順序的。4、貼吧數據主要以貼吧、天涯論壇等帖子數據為主。
  5、新聞博客數據 新聞博客數據主要來(lái)源于國內門(mén)戶(hù)網(wǎng)站旅游頻道,包括人民網(wǎng)旅游頻道和新華網(wǎng)旅游頻道。博客主要是新浪博客和搜狐博客。2.5.2 云數據同步 實(shí)現云采集數據庫與云采集數據庫鏡像數據庫的同步,將實(shí)時(shí)數據第一時(shí)間同步到鏡像數據庫中使用。數據同步分為基礎數據同步和動(dòng)態(tài)數據同步。其中,基礎數據與更新的時(shí)間間隔比較長(cháng),周期為一個(gè)月。由于動(dòng)態(tài)數據更新快,每小時(shí)新增數據量在萬(wàn)條級別。下面是具體配置。1. 基礎數據同步 基礎數據采集后會(huì )略有增加,大部分是更新操作,所以基礎數據同步是基于時(shí)間戳的。同步周期:一周 2、動(dòng)態(tài)數據同步 動(dòng)態(tài)數據包括實(shí)時(shí)添加的數據,如電商評論、旅游路線(xiàn)、新聞信息等,該類(lèi)數據量增長(cháng)迅速。同步間隔很短。同步周期:1小時(shí) 2.6業(yè)務(wù)系統數據抽取 2.6.1國家重點(diǎn)景區客流系統數據增量抽取并輸出結果。通過(guò)ReiKing工具實(shí)現客流系統數據庫和PDA數據倉庫的增量數據提取,并將增量數據實(shí)時(shí)推送到PDA數據倉庫。對Oracle數據性能影響不大。
  
  國家重點(diǎn)景區客流數據庫:Oracle 抽取目的地:PDA數據倉庫 華盛天成科技 8 抽取周期: 2.6.2 A級景區管理系統增量數據抽取 A級景區管理系統采用MySql數據庫,同樣采用ETL該工具建立連接,將A級景區管理系統的數據提取到PDA數據倉庫進(jìn)行數據處理。A級景區管理系統數據庫:MySql數據庫 提取目的地:PDA數據倉庫 提取時(shí)間:1個(gè)月 2.6.3導游系統數據提取 導游系統使用Sybase數據庫,用戶(hù)未提供數據庫級賬號暫且。ETL的提取暫時(shí)沒(méi)有實(shí)現。旅游局提供導游數據庫導出的TXT文件,約150M,共約80萬(wàn)條導游信息。以及導游一寸證件照734797張。導游資料中各字段含義:、導游編號、姓名、性別、資格證書(shū)編號、等級證書(shū)編號、地區、年審有效期、發(fā)卡時(shí)間、語(yǔ)言、等級、旅行社、國籍、電話(huà)、教育、出生日期、專(zhuān)業(yè)兼職。導游數據處理流程如下: 導游基本信息入庫:將旅游局提供的導游信息150M TXT文件導入基礎數據庫。導入底層數據庫中字段屬性對應的文本文件的字段屬性,
  保持圖片字段類(lèi)型為CLOB,為下一步導入圖片做準備。1、導游圖片信息導入 [1] 旅游局贈送的圖片包內含導游1寸照片734797張,圖片類(lèi)型為jpg格式,以導游編號命名。例如:.jpg?!?】圖片存儲中間表。由于圖片是以指南編號命名的,所以編號作為唯一匹配的關(guān)系字段。為了導入方便,先把圖片導入到中間表中,包括三個(gè)字段:ID、NAME、PICTURE。該表的作用是將本地jpg格式的圖片導入到該表中,天成科技9的NAME字段為圖片文件名。方便之后,導游的圖片信息通過(guò)與導游基本信息中的編號匹配存儲。[3] 將所有jpg格式的圖片存入中間表后,按編號匹配存入。即中間表的NAME字段與基礎庫中導游表的字段匹配。最后將圖片導入基礎數據庫?!?】導入過(guò)程中的問(wèn)題。問(wèn)題一:導出的734797張圖片中,有52張圖片名稱(chēng)不規則。導出時(shí)有中文“(”和“)”,導致Linux系統下出現亂名,找不到本地文件。個(gè)別文件的亂碼只有重命名后才能入庫。問(wèn)題2:指南數據中有14條重復數據。導游和年檢日期不一樣,其他領(lǐng)域的信息是一樣的。2、巡查員信息存儲 2、業(yè)務(wù)系統數據及大數據平臺接口定義(待補充) A級景區管理系統、重點(diǎn)景區客流系統數據結構字段見(jiàn)附件。
  如何將這些數據推送到大數據平臺,利用虛擬數據訪(fǎng)問(wèn)來(lái)支持臨時(shí)策略,從長(cháng)遠考慮是否需要補充長(cháng)效機制。3、云端數據處理 云端采集的數據具有互聯(lián)網(wǎng)數據的共同特點(diǎn),如:數據量大、數據類(lèi)型多樣、數據來(lái)源廣泛。云端采集
的處理過(guò)的數據一定是雜亂無(wú)章的,這就不可避免地需要對數據進(jìn)行人工處理。我們需要使用 ETL 工具和其他數據處理工具來(lái)提取、處理和轉置在云端采集
的數據。經(jīng)過(guò)深度處理的數據就是我們需要的可用數據。3.1 基礎數據處理 3.1.1 核心基礎數據 基礎數據包括景區、酒店、旅行社、導游等。1. 景區基礎數據處理 華盛天成科技10個(gè)景區基礎數據云源包括各省旅游信息網(wǎng)站、電商渠道、景區官網(wǎng)渠道。待處理數據包括五星級景區、四星級景區、三星級景區、二星級景區、一星級景區等,待處理數據量為180個(gè)5星和 2000 為 4 星。景區基礎數據的業(yè)務(wù)系統來(lái)源包括A級景區管理系統。2、酒店基礎數據處理酒店基礎數據云源包括各省旅游信息網(wǎng)站、電商渠道、景區官網(wǎng)渠道,需要處理的數據包 待處理數據包括五星級景區、四星級景區、三星級景區、二星級景區、一星級景區等,待處理數據量為180個(gè)5星和 2000 為 4 星。景區基礎數據的業(yè)務(wù)系統來(lái)源包括A級景區管理系統。2、酒店基礎數據處理酒店基礎數據云源包括各省旅游信息網(wǎng)站、電商渠道、景區官網(wǎng)渠道,需要處理的數據包 待處理數據包括五星級景區、四星級景區、三星級景區、二星級景區、一星級景區等,待處理數據量為180個(gè)5星和 2000 為 4 星。景區基礎數據的業(yè)務(wù)系統來(lái)源包括A級景區管理系統。2、酒店基礎數據處理酒店基礎數據云源包括各省旅游信息網(wǎng)站、電商渠道、景區官網(wǎng)渠道,需要處理的數據包 景區基礎數據的業(yè)務(wù)系統來(lái)源包括A級景區管理系統。2、酒店基礎數據處理酒店基礎數據云源包括各省旅游信息網(wǎng)站、電商渠道、景區官網(wǎng)渠道,需要處理的數據包 景區基礎數據的業(yè)務(wù)系統來(lái)源包括A級景區管理系統。2、酒店基礎數據處理酒店基礎數據云源包括各省旅游信息網(wǎng)站、電商渠道、景區官網(wǎng)渠道,需要處理的數據包 查看全部

  詳細數據:精通日志查詢(xún):如何翻頁(yè)獲取日志和計算結果
  摘要: 精通日志查詢(xún):如何翻頁(yè)獲取日志和計算結果 日志服務(wù)提供一站式的日志采集、存儲、查詢(xún)、計算功能。交互式日志采集體驗,釋放用戶(hù)運維壓力,解放用戶(hù)雙手;交互式查詢(xún)分析體驗,讓用戶(hù)自由構建數據模型,探索性分析,深入挖掘數據。
  精通日志查詢(xún):如何翻頁(yè)獲取日志和計算結果
  日志服務(wù)提供一站式的日志采集、存儲、查詢(xún)、計算功能。交互式日志采集體驗,釋放用戶(hù)運維壓力,解放用戶(hù)雙手;交互式查詢(xún)分析體驗,讓用戶(hù)自由構建數據模型,探索性分析,深入挖掘數據。
  用戶(hù)可以利用日志服務(wù)的查詢(xún)分析能力,不僅可以在控制臺進(jìn)行交互查詢(xún),還可以通過(guò)SDK在程序中使用查詢(xún)分析。當計算結果比較大時(shí),如何在本地讀取全量結果是一個(gè)比較麻煩的問(wèn)題。好在日志服務(wù)提供了翻頁(yè)功能,不僅可以翻頁(yè)閱讀原創(chuàng )
日志內容,還可以翻頁(yè)閱讀本地的SQL計算結果。開(kāi)發(fā)者可以使用日志服務(wù)提供的SDK,或者CLI,通過(guò)讀取數據接口讀取日志。
  查詢(xún)和分析使用不同的分頁(yè)方式
  日志服務(wù)提供統一的查詢(xún)日志入口:GetLogstoreLogs,可以根據關(guān)鍵字查詢(xún)日志原創(chuàng )
內容,也可以提交SQL計算獲取計算結果。
  查詢(xún)翻頁(yè)用例
  在GetLogStoreLogs api中,有offset和lines兩個(gè)參數
  閱讀頁(yè)面時(shí),不斷增加偏移量。讀取到某個(gè)偏移量后,得到的結果行數為0,結果進(jìn)度為完成狀態(tài)。認為所有的數據都讀完了,可以結束了。.
  翻頁(yè)代碼示??例
  翻頁(yè)偽代碼:
  
  Python翻頁(yè)閱讀示例
  更詳細的案例參考文檔:
  Java翻頁(yè)閱讀示例
  更詳細的案例參考文檔
  翻頁(yè)讀取SQL分析結果
  SQL分析中,GetLogStoreLogs API參數中的offset和lines是無(wú)效的,補上。也就是說(shuō),如果按照上面翻頁(yè)的方法遍歷offset翻頁(yè),讀取原來(lái)的內容,那么每條SQL執行的結果都是一樣的。理論上我們可以一次調用得到所有的計算結果,但是如果結果集過(guò)大,可能會(huì )出現以下問(wèn)題:
  為了解決SQL翻頁(yè)問(wèn)題,我們提供了標準的SQL限制翻頁(yè)語(yǔ)法
  一個(gè)典型的案例,如果下面的SQL一共產(chǎn)生了2000條日志
  
  然后可以翻頁(yè),每次閱讀500行,共完成4次閱讀:
  SQL翻頁(yè)示例
  在程序中,SQL翻頁(yè)的偽代碼是這樣寫(xiě)的:
  示例 Python 程序:
  示例 Java 程序:
  擴展信息
  日志服務(wù)使用手冊,最全資料
  日志服務(wù)器分析demo,Nginx日志,CDN日志,DDOS日志,SLB日志demo,grafana,Datav大屏demo
  5分鐘搭建實(shí)時(shí)分析網(wǎng)站:Grafana+日志服務(wù)實(shí)戰
  匯總:02數據采集、清洗處理及質(zhì)量檢查流程匯編v1 0.pdf 30頁(yè)
  旅游局旅游基礎數據庫建設項目數據采集、清洗處理及質(zhì)量檢測過(guò)程編制版本控制信息版本日期起草及修改說(shuō)明V1.0版本2014年12月華勝天成V1.1版本2015年8月華勝天成所有內容為用戶(hù)所有,專(zhuān)有. 未經(jīng)用戶(hù)明確書(shū)面許可,任何組織和個(gè)人不得為任何目的、以任何形式、以任何方式傳播本文的部分或全部?jì)热?。華勝天成科技二目錄 1. 概述 2 2. 總體設計 22.1 總體架構 22.2 數據集成流程 32.3 數據交換流程設計 42.3.
  云源數據既包括景區、旅行社、酒店等重要的結構化旅游要素,也包括博客、新聞、貼吧、微博等非結構化旅游衍生數據。這兩類(lèi)數據不僅相互關(guān)聯(lián),而且形成一個(gè)系統。因此,尤其需要對相關(guān)數據的采集、同步、處理、清洗等進(jìn)行梳理,使各環(huán)節環(huán)環(huán)相扣、有序執行。行業(yè)系統數據源包括景區管理系統、導游數據管理系統、旅行社報備系統和國家重點(diǎn)景區客流系統。2. 總體設計 2.1 總體框架 總體框架圖 華盛天成科技 2 2.2 數據集成流程 根據總體設計思路,數據集成的實(shí)現按照處理過(guò)程可以分解為數據采集、數據同步、數據清洗(包括自動(dòng)處理和人工審核處理)。以及數據質(zhì)檢等環(huán)節,最終實(shí)現數據入庫工作。云基礎數據(包括景區、酒店、旅行社等基礎數據)的采集、存儲、審核、清洗、歸并??傮w流程圖如下: 數據集成流程圖。增量數據同步到云數據鏡像庫(V1)庫。Reiking數據交換平臺是整個(gè)數據清洗和轉換檢查的核心。定時(shí)觸發(fā)自動(dòng)程序進(jìn)行數據清洗處理,生成大數據平臺需要的Json格式信息。他終于意識到:1、將處理后的基礎數據推送到基礎數據庫(Oracle);2. 將處理后的動(dòng)態(tài)數據(Json)推送到大數據平臺。
  3、將基礎數據庫(Oracle)中的導游、景點(diǎn)等基礎數據推送給華盛天成科技 3 2.3 數據交換流程設計 2.3.1 數據交換流程標準化 數據庫接口名稱(chēng)標準化權限,避免對數據庫的操作。數據庫接口名根據對應的數據庫類(lèi)型和數據庫所在的IP地址來(lái)命名。比如11中的MySql數據庫中的Test數據庫可以按照MySql-111-Test命名。對于其他類(lèi)型的數據庫,以上命名規則通用,特殊情況具體考慮,命名一定要規范。目錄名稱(chēng)標準化目錄采用分級格式排列,各級目錄均以中文標注??偰夸浢Q(chēng)為:旅游局基礎數據庫嫉妒數據處理。子節點(diǎn)大致可分為:01采集庫與鏡像庫同步、02鏡像庫到大數據平臺、03鏡像庫到PDA數據倉庫、04鏡像庫到信息網(wǎng)(DB2)、05鏡像庫到基礎庫, 06 從業(yè)務(wù)數據庫到基礎數據庫,07業(yè)務(wù)數據庫到PDA數倉,08 PDA數倉到大數據平臺的八類(lèi)數據交換處理服務(wù)。各種名稱(chēng)是根據不同的目的和數據處理順序來(lái)命名的。其中,01采集庫與鏡像庫的同步還包括:基本信息同步、評論信息同步、路線(xiàn)\策略同步、圖片庫同步、
  
  02 到大數據平臺的鏡像庫包括:推送到第一平臺、推送到第二平臺、推送到第三平臺等樣式名稱(chēng)。華勝天成科技 4 服務(wù)名稱(chēng)標準化 服務(wù)名稱(chēng)多樣化,可以根據不同的類(lèi)型、不同的數據庫表名、源IP和目標IP地址等進(jìn)行命名,例如基礎信息同步的服務(wù)名稱(chēng)為:Travel__71,即就是,表名是把Travel表從數據庫同步到71數據庫。其他需要特殊處理的,按特殊處理。運行菜單格式規范了運行菜單需要和服務(wù)目錄創(chuàng )建對應的運行菜單,目錄結構遵循服務(wù)目錄結構。如下圖所示:華勝天成科技 5 2.4 業(yè)務(wù)代碼標準化 2.4.1 行政區劃代碼標準化 根據國家標準統一行政區劃代碼,代碼標準根據每年發(fā)布的數據進(jìn)行更新。2.4.2 新建行政區劃代碼表 參照已發(fā)布的行政區劃代碼表,創(chuàng )建行政區劃代碼標準表。來(lái)源:MySQL數據庫 服務(wù)器:26 數據庫:weibo_info_2:city_code 目的:MySQL數據庫 服務(wù)器:1(192.168.102.) 數據庫:pom_ct_data 新建_:sta_city_code 華盛天成科技 6 2.4.3 更新采集數據庫elint_dest_city中的行政區劃代碼表采集
database 在表中增加一個(gè)標準的行政區劃代碼字段,
  添加字段SQL語(yǔ)句:alter elint_dest_city add(`sta_city_code` int(6) DEFAULT NULL COMMENT '標準行政區劃代碼') 匹配過(guò)程程序代碼: 主類(lèi)名:MatchCode 注:此項已實(shí)現,不用動(dòng),如果你需要打電話(huà)直接上桌就行了。2.5 數據采集與同步 2.5.1 云數據采集 1. 基礎數據采集 基礎數據采集渠道主要是基于全國31個(gè)省市旅游信息網(wǎng)站發(fā)布的景區、旅行社、酒店等基本信息。2.電商點(diǎn)評數據采集 電商點(diǎn)評數據采集渠道主要為國內各大電商,包括旅游、驢媽媽、同程旅行、馬蜂窩等。3、微博數據采集(微博熱詞、熱詞等處理)) 抓取微博數據的方式有以下三種: 1) 單獨使用爬蟲(chóng),使用類(lèi)似的元詞搜索方式。2)編寫(xiě)程序調用API接口采集關(guān)注度視角的微博數據。3)爬蟲(chóng)與API的結合。針對新浪微博越來(lái)越嚴格的限制,通過(guò)爬蟲(chóng)和API相結合的方式進(jìn)行數據采集。微博先找轉發(fā),再找評論。接下來(lái),找到轉發(fā)器的詳細信息。(微博采集
深入了解) 華盛天成科技7條微博建議:少采集
轉發(fā)。采集
是順序的。4、貼吧數據主要以貼吧、天涯論壇等帖子數據為主。2)編寫(xiě)程序調用API接口采集關(guān)注度視角的微博數據。3)爬蟲(chóng)與API的結合。針對新浪微博越來(lái)越嚴格的限制,通過(guò)爬蟲(chóng)和API相結合的方式進(jìn)行數據采集。微博先找轉發(fā),再找評論。接下來(lái),找到轉發(fā)器的詳細信息。(微博采集
深入了解) 華盛天成科技7條微博建議:少采集
轉發(fā)。采集
是順序的。4、貼吧數據主要以貼吧、天涯論壇等帖子數據為主。2)編寫(xiě)程序調用API接口采集關(guān)注度視角的微博數據。3)爬蟲(chóng)與API的結合。針對新浪微博越來(lái)越嚴格的限制,通過(guò)爬蟲(chóng)和API相結合的方式進(jìn)行數據采集。微博先找轉發(fā),再找評論。接下來(lái),找到轉發(fā)器的詳細信息。(微博采集
深入了解) 華盛天成科技7條微博建議:少采集
轉發(fā)。采集
是順序的。4、貼吧數據主要以貼吧、天涯論壇等帖子數據為主。微博先找轉發(fā),再找評論。接下來(lái),找到轉發(fā)器的詳細信息。(微博采集
深入了解) 華盛天成科技7條微博建議:少采集
轉發(fā)。采集
是順序的。4、貼吧數據主要以貼吧、天涯論壇等帖子數據為主。微博先找轉發(fā),再找評論。接下來(lái),找到轉發(fā)器的詳細信息。(微博采集
深入了解) 華盛天成科技7條微博建議:少采集
轉發(fā)。采集
是順序的。4、貼吧數據主要以貼吧、天涯論壇等帖子數據為主。
  5、新聞博客數據 新聞博客數據主要來(lái)源于國內門(mén)戶(hù)網(wǎng)站旅游頻道,包括人民網(wǎng)旅游頻道和新華網(wǎng)旅游頻道。博客主要是新浪博客和搜狐博客。2.5.2 云數據同步 實(shí)現云采集數據庫與云采集數據庫鏡像數據庫的同步,將實(shí)時(shí)數據第一時(shí)間同步到鏡像數據庫中使用。數據同步分為基礎數據同步和動(dòng)態(tài)數據同步。其中,基礎數據與更新的時(shí)間間隔比較長(cháng),周期為一個(gè)月。由于動(dòng)態(tài)數據更新快,每小時(shí)新增數據量在萬(wàn)條級別。下面是具體配置。1. 基礎數據同步 基礎數據采集后會(huì )略有增加,大部分是更新操作,所以基礎數據同步是基于時(shí)間戳的。同步周期:一周 2、動(dòng)態(tài)數據同步 動(dòng)態(tài)數據包括實(shí)時(shí)添加的數據,如電商評論、旅游路線(xiàn)、新聞信息等,該類(lèi)數據量增長(cháng)迅速。同步間隔很短。同步周期:1小時(shí) 2.6業(yè)務(wù)系統數據抽取 2.6.1國家重點(diǎn)景區客流系統數據增量抽取并輸出結果。通過(guò)ReiKing工具實(shí)現客流系統數據庫和PDA數據倉庫的增量數據提取,并將增量數據實(shí)時(shí)推送到PDA數據倉庫。對Oracle數據性能影響不大。
  
  國家重點(diǎn)景區客流數據庫:Oracle 抽取目的地:PDA數據倉庫 華盛天成科技 8 抽取周期: 2.6.2 A級景區管理系統增量數據抽取 A級景區管理系統采用MySql數據庫,同樣采用ETL該工具建立連接,將A級景區管理系統的數據提取到PDA數據倉庫進(jìn)行數據處理。A級景區管理系統數據庫:MySql數據庫 提取目的地:PDA數據倉庫 提取時(shí)間:1個(gè)月 2.6.3導游系統數據提取 導游系統使用Sybase數據庫,用戶(hù)未提供數據庫級賬號暫且。ETL的提取暫時(shí)沒(méi)有實(shí)現。旅游局提供導游數據庫導出的TXT文件,約150M,共約80萬(wàn)條導游信息。以及導游一寸證件照734797張。導游資料中各字段含義:、導游編號、姓名、性別、資格證書(shū)編號、等級證書(shū)編號、地區、年審有效期、發(fā)卡時(shí)間、語(yǔ)言、等級、旅行社、國籍、電話(huà)、教育、出生日期、專(zhuān)業(yè)兼職。導游數據處理流程如下: 導游基本信息入庫:將旅游局提供的導游信息150M TXT文件導入基礎數據庫。導入底層數據庫中字段屬性對應的文本文件的字段屬性,
  保持圖片字段類(lèi)型為CLOB,為下一步導入圖片做準備。1、導游圖片信息導入 [1] 旅游局贈送的圖片包內含導游1寸照片734797張,圖片類(lèi)型為jpg格式,以導游編號命名。例如:.jpg?!?】圖片存儲中間表。由于圖片是以指南編號命名的,所以編號作為唯一匹配的關(guān)系字段。為了導入方便,先把圖片導入到中間表中,包括三個(gè)字段:ID、NAME、PICTURE。該表的作用是將本地jpg格式的圖片導入到該表中,天成科技9的NAME字段為圖片文件名。方便之后,導游的圖片信息通過(guò)與導游基本信息中的編號匹配存儲。[3] 將所有jpg格式的圖片存入中間表后,按編號匹配存入。即中間表的NAME字段與基礎庫中導游表的字段匹配。最后將圖片導入基礎數據庫?!?】導入過(guò)程中的問(wèn)題。問(wèn)題一:導出的734797張圖片中,有52張圖片名稱(chēng)不規則。導出時(shí)有中文“(”和“)”,導致Linux系統下出現亂名,找不到本地文件。個(gè)別文件的亂碼只有重命名后才能入庫。問(wèn)題2:指南數據中有14條重復數據。導游和年檢日期不一樣,其他領(lǐng)域的信息是一樣的。2、巡查員信息存儲 2、業(yè)務(wù)系統數據及大數據平臺接口定義(待補充) A級景區管理系統、重點(diǎn)景區客流系統數據結構字段見(jiàn)附件。
  如何將這些數據推送到大數據平臺,利用虛擬數據訪(fǎng)問(wèn)來(lái)支持臨時(shí)策略,從長(cháng)遠考慮是否需要補充長(cháng)效機制。3、云端數據處理 云端采集的數據具有互聯(lián)網(wǎng)數據的共同特點(diǎn),如:數據量大、數據類(lèi)型多樣、數據來(lái)源廣泛。云端采集
的處理過(guò)的數據一定是雜亂無(wú)章的,這就不可避免地需要對數據進(jìn)行人工處理。我們需要使用 ETL 工具和其他數據處理工具來(lái)提取、處理和轉置在云端采集
的數據。經(jīng)過(guò)深度處理的數據就是我們需要的可用數據。3.1 基礎數據處理 3.1.1 核心基礎數據 基礎數據包括景區、酒店、旅行社、導游等。1. 景區基礎數據處理 華盛天成科技10個(gè)景區基礎數據云源包括各省旅游信息網(wǎng)站、電商渠道、景區官網(wǎng)渠道。待處理數據包括五星級景區、四星級景區、三星級景區、二星級景區、一星級景區等,待處理數據量為180個(gè)5星和 2000 為 4 星。景區基礎數據的業(yè)務(wù)系統來(lái)源包括A級景區管理系統。2、酒店基礎數據處理酒店基礎數據云源包括各省旅游信息網(wǎng)站、電商渠道、景區官網(wǎng)渠道,需要處理的數據包 待處理數據包括五星級景區、四星級景區、三星級景區、二星級景區、一星級景區等,待處理數據量為180個(gè)5星和 2000 為 4 星。景區基礎數據的業(yè)務(wù)系統來(lái)源包括A級景區管理系統。2、酒店基礎數據處理酒店基礎數據云源包括各省旅游信息網(wǎng)站、電商渠道、景區官網(wǎng)渠道,需要處理的數據包 待處理數據包括五星級景區、四星級景區、三星級景區、二星級景區、一星級景區等,待處理數據量為180個(gè)5星和 2000 為 4 星。景區基礎數據的業(yè)務(wù)系統來(lái)源包括A級景區管理系統。2、酒店基礎數據處理酒店基礎數據云源包括各省旅游信息網(wǎng)站、電商渠道、景區官網(wǎng)渠道,需要處理的數據包 景區基礎數據的業(yè)務(wù)系統來(lái)源包括A級景區管理系統。2、酒店基礎數據處理酒店基礎數據云源包括各省旅游信息網(wǎng)站、電商渠道、景區官網(wǎng)渠道,需要處理的數據包 景區基礎數據的業(yè)務(wù)系統來(lái)源包括A級景區管理系統。2、酒店基礎數據處理酒店基礎數據云源包括各省旅游信息網(wǎng)站、電商渠道、景區官網(wǎng)渠道,需要處理的數據包

技巧:seo必備工具腳本,批量挖掘采集關(guān)鍵詞到EXCEL表

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 125 次瀏覽 ? 2022-11-26 22:57 ? 來(lái)自相關(guān)話(huà)題

  技巧:seo必備工具腳本,批量挖掘采集關(guān)鍵詞到EXCEL表
  下午收到朋友反饋無(wú)效。為什么經(jīng)常失???因為現在是付費時(shí)代,什么都需要充值,不然什么都得不到,而且有限制,所以需要的話(huà)還是選擇付費吧。時(shí)間把文章里的代碼改成了A站的api,感覺(jué)一勞永逸,本帖不再更新。
  下午收到朋友反饋無(wú)效。我花了幾分鐘來(lái)修復它。代碼更新于2020年12月1日,最新下載地址在文末:
  想知道為什么我能第一時(shí)間收到好友的反饋嗎?點(diǎn)擊進(jìn)入這篇文章:
  我還記得我是在疫情期間的情人節注冊的。期間也學(xué)習了很多大佬分享的教程和源碼,收獲頗豐。
  這不,昨天逛論壇的時(shí)候發(fā)現了一個(gè)python寫(xiě)的seo關(guān)鍵詞采集挖掘腳本(原帖:%3D1%26filter%3Dtypeid%26typeid%3D29&amp;page=1),因為我也做了一個(gè)小自己做網(wǎng)站,雖然平時(shí)不太關(guān)注seo,但是還是很喜歡這種可以解放雙手的工具,所以立馬復制試了一下,發(fā)現代碼報錯,于是入手看了帖子的評論,發(fā)現很多人和我報同樣的錯誤,比如下面這位,和我一樣是新手,求助。
  幾年前,我自學(xué)了一段時(shí)間的python。另外,我有一點(diǎn)編程語(yǔ)言基礎,擅長(cháng)使用百度搜索。終于,功夫不負有心人。我修復了這個(gè)腳本,至少我可以運行它。,現分享給大家,回饋論壇,對你我都有幫助。先貼代碼。大佬們不會(huì )笑
  【Python】純文本查看復制代碼
  #愛(ài)站網(wǎng)長(cháng)尾關(guān)鍵詞挖掘
#2021-5-11更新
# -*- coding=utf-8 -*-
import requests
import xlwt
import json
#secrect_Id 登錄愛(ài)站后獲取
secrect_Id ='805422c95131161b845661eb7afe14c5'
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36',
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
"Connection": "keep-alive",
"Accept-Encoding": "gzip, deflate, br",
"Accept-Language": "zh-CN,zh;q=0.9"
}
#獲取關(guān)鍵詞數據
def get_keyword_datas(keyword):
<p>
data={
'word': keyword,
}
url = "https://apistore.aizhan.com/word/related/{0}".format(secrect_Id)
print(url)
html=requests.post(url,data=data,headers=headers).text
res = json.loads(html)
# print(res)
data_list = []
if res['code'] == 200000:
if res['data']['count'] > 0 :
print('已采集到{0}關(guān)鍵詞,正在保存中...'.format(res['data']['count']))
for value in res['data']['list']:
item = []
for k,v in value.items():
item.append(v)
data_list.append(item)
elif res['code'] == 100003:
print("接口維護")
elif res['code'] == 200002:
print("非法關(guān)鍵詞")
elif res['code'] == 100005:
print("余額不足,請充值")
else:
print("系統錯誤")
return data_list
#保存關(guān)鍵詞數據為excel格式
  
def bcsj(keyword,data):
workbook = xlwt.Workbook(encoding='utf-8')
booksheet = workbook.add_sheet('Sheet 1', cell_overwrite_ok=True)
title = [['長(cháng)尾關(guān)鍵詞', '全網(wǎng)指數', 'pc指數', '移動(dòng)指數']]
title.extend(data)
#print(title)
for i, row in enumerate(title):
for j, col in enumerate(row):
booksheet.write(i, j, col)
workbook.save(f'{keyword}.xls')
print(f"保存數據為 {keyword}.xls 成功!")
if __name__ == '__main__':
keyword = input('請輸入關(guān)鍵詞>>')
print('正在采集長(cháng)尾關(guān)鍵詞數據,請稍后...')
datas_list=get_keyword_datas(keyword)
if datas_list:
print('========================采集結束========================\n')
bcsj(keyword, datas_list)
else:
print('采集失敗\n')</p>
  附上采集部分的流程圖:
  部分結果圖:
  我的exe文件是用pyinstaller打包的。包有點(diǎn)大,有需要的可以下載。
  2021-5-11更新下載:
  如果覺(jué)得有用,能不能給我打個(gè)分鼓勵一下,謝謝大家!
  技巧:用金花站主工具挖掘長(cháng)尾關(guān)鍵詞
  金花網(wǎng)站大師工具也是如此,搜索引擎優(yōu)化
  在SEO行業(yè)有名的工具,如何在工作中使用金花網(wǎng)站大師工具?
  批量查詢(xún)網(wǎng)站關(guān)鍵詞排名
  我們只需要輸入域名,然后在查詢(xún)底部輸入關(guān)鍵字
  然后點(diǎn)擊底部開(kāi)始查詢(xún),我們可以查詢(xún)關(guān)鍵詞在主要搜索引擎中的排名。具體來(lái)說(shuō),我們還可以觀(guān)察關(guān)鍵詞的相關(guān)指數和平均指數!
  
  使用金花站大師工具挖掘長(cháng)尾關(guān)鍵詞
  我們也可以使用金花站長(cháng)工具挖掘長(cháng)尾關(guān)鍵詞,因為之前用過(guò)其他工具,但長(cháng)尾擴展效果不佳。比如詞重SEO,我可以在百度擴展不超過(guò)20個(gè)關(guān)鍵詞,豐超和5118,但用金華站長(cháng)工具擴展400個(gè)左右的長(cháng)尾關(guān)鍵詞,免費版的長(cháng)尾模式可以擴展。 顯示 500 個(gè)長(cháng)尾關(guān)鍵字。如果您需要更強大的功能,可以選擇升級 VIP。
  /
  d/file/titlepic/20220430/l2ua31fhq0a.jpg' title='' alt=''>
  使用黃金網(wǎng)站站長(cháng)工具查詢(xún)網(wǎng)站收錄內容
  點(diǎn)擊頂部數據分析,查詢(xún)網(wǎng)站PC查詢(xún)機和手機收錄率。有些人可能會(huì )說(shuō)使用網(wǎng)站是可以的。是的,網(wǎng)站確實(shí)是可以的,但金華網(wǎng)站的主要工具還有其他幾個(gè)功能,比如是否有死鏈接、入口鏈、退出鏈。我覺(jué)得沒(méi)關(guān)系!
  
  關(guān)鍵詞密度分析
  您可以分析頁(yè)面的關(guān)鍵字密度,直接進(jìn)入對應的頁(yè)面,單擊OKURL,如下圖所示:
  我們可以直觀(guān)地分析我們寫(xiě)的文章的頻率和密度。
  網(wǎng)絡(luò )日志分析
  我認為這個(gè)功能還可以。我自己分析高殼網(wǎng)站日志,不過(guò)小白也不難,我們可以直接用金華站長(cháng)工具分析網(wǎng)站日志,感覺(jué)很實(shí)用,哈哈! 查看全部

  技巧:seo必備工具腳本,批量挖掘采集關(guān)鍵詞到EXCEL表
  下午收到朋友反饋無(wú)效。為什么經(jīng)常失???因為現在是付費時(shí)代,什么都需要充值,不然什么都得不到,而且有限制,所以需要的話(huà)還是選擇付費吧。時(shí)間把文章里的代碼改成了A站的api,感覺(jué)一勞永逸,本帖不再更新。
  下午收到朋友反饋無(wú)效。我花了幾分鐘來(lái)修復它。代碼更新于2020年12月1日,最新下載地址在文末:
  想知道為什么我能第一時(shí)間收到好友的反饋嗎?點(diǎn)擊進(jìn)入這篇文章:
  我還記得我是在疫情期間的情人節注冊的。期間也學(xué)習了很多大佬分享的教程和源碼,收獲頗豐。
  這不,昨天逛論壇的時(shí)候發(fā)現了一個(gè)python寫(xiě)的seo關(guān)鍵詞采集挖掘腳本(原帖:%3D1%26filter%3Dtypeid%26typeid%3D29&amp;page=1),因為我也做了一個(gè)小自己做網(wǎng)站,雖然平時(shí)不太關(guān)注seo,但是還是很喜歡這種可以解放雙手的工具,所以立馬復制試了一下,發(fā)現代碼報錯,于是入手看了帖子的評論,發(fā)現很多人和我報同樣的錯誤,比如下面這位,和我一樣是新手,求助。
  幾年前,我自學(xué)了一段時(shí)間的python。另外,我有一點(diǎn)編程語(yǔ)言基礎,擅長(cháng)使用百度搜索。終于,功夫不負有心人。我修復了這個(gè)腳本,至少我可以運行它。,現分享給大家,回饋論壇,對你我都有幫助。先貼代碼。大佬們不會(huì )笑
  【Python】純文本查看復制代碼
  #愛(ài)站網(wǎng)長(cháng)尾關(guān)鍵詞挖掘
#2021-5-11更新
# -*- coding=utf-8 -*-
import requests
import xlwt
import json
#secrect_Id 登錄愛(ài)站后獲取
secrect_Id ='805422c95131161b845661eb7afe14c5'
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36',
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
"Connection": "keep-alive",
"Accept-Encoding": "gzip, deflate, br",
"Accept-Language": "zh-CN,zh;q=0.9"
}
#獲取關(guān)鍵詞數據
def get_keyword_datas(keyword):
<p>
data={
'word': keyword,
}
url = "https://apistore.aizhan.com/word/related/{0}".format(secrect_Id)
print(url)
html=requests.post(url,data=data,headers=headers).text
res = json.loads(html)
# print(res)
data_list = []
if res['code'] == 200000:
if res['data']['count'] > 0 :
print('已采集到{0}關(guān)鍵詞,正在保存中...'.format(res['data']['count']))
for value in res['data']['list']:
item = []
for k,v in value.items():
item.append(v)
data_list.append(item)
elif res['code'] == 100003:
print("接口維護")
elif res['code'] == 200002:
print("非法關(guān)鍵詞")
elif res['code'] == 100005:
print("余額不足,請充值")
else:
print("系統錯誤")
return data_list
#保存關(guān)鍵詞數據為excel格式
  
def bcsj(keyword,data):
workbook = xlwt.Workbook(encoding='utf-8')
booksheet = workbook.add_sheet('Sheet 1', cell_overwrite_ok=True)
title = [['長(cháng)尾關(guān)鍵詞', '全網(wǎng)指數', 'pc指數', '移動(dòng)指數']]
title.extend(data)
#print(title)
for i, row in enumerate(title):
for j, col in enumerate(row):
booksheet.write(i, j, col)
workbook.save(f'{keyword}.xls')
print(f"保存數據為 {keyword}.xls 成功!")
if __name__ == '__main__':
keyword = input('請輸入關(guān)鍵詞>>')
print('正在采集長(cháng)尾關(guān)鍵詞數據,請稍后...')
datas_list=get_keyword_datas(keyword)
if datas_list:
print('========================采集結束========================\n')
bcsj(keyword, datas_list)
else:
print('采集失敗\n')</p>
  附上采集部分的流程圖:
  部分結果圖:
  我的exe文件是用pyinstaller打包的。包有點(diǎn)大,有需要的可以下載。
  2021-5-11更新下載:
  如果覺(jué)得有用,能不能給我打個(gè)分鼓勵一下,謝謝大家!
  技巧:用金花站主工具挖掘長(cháng)尾關(guān)鍵詞
  金花網(wǎng)站大師工具也是如此,搜索引擎優(yōu)化
  在SEO行業(yè)有名的工具,如何在工作中使用金花網(wǎng)站大師工具?
  批量查詢(xún)網(wǎng)站關(guān)鍵詞排名
  我們只需要輸入域名,然后在查詢(xún)底部輸入關(guān)鍵字
  然后點(diǎn)擊底部開(kāi)始查詢(xún),我們可以查詢(xún)關(guān)鍵詞在主要搜索引擎中的排名。具體來(lái)說(shuō),我們還可以觀(guān)察關(guān)鍵詞的相關(guān)指數和平均指數!
  
  使用金花站大師工具挖掘長(cháng)尾關(guān)鍵詞
  我們也可以使用金花站長(cháng)工具挖掘長(cháng)尾關(guān)鍵詞,因為之前用過(guò)其他工具,但長(cháng)尾擴展效果不佳。比如詞重SEO,我可以在百度擴展不超過(guò)20個(gè)關(guān)鍵詞,豐超和5118,但用金華站長(cháng)工具擴展400個(gè)左右的長(cháng)尾關(guān)鍵詞,免費版的長(cháng)尾模式可以擴展。 顯示 500 個(gè)長(cháng)尾關(guān)鍵字。如果您需要更強大的功能,可以選擇升級 VIP。
  /
  d/file/titlepic/20220430/l2ua31fhq0a.jpg' title='' alt=''>
  使用黃金網(wǎng)站站長(cháng)工具查詢(xún)網(wǎng)站收錄內容
  點(diǎn)擊頂部數據分析,查詢(xún)網(wǎng)站PC查詢(xún)機和手機收錄率。有些人可能會(huì )說(shuō)使用網(wǎng)站是可以的。是的,網(wǎng)站確實(shí)是可以的,但金華網(wǎng)站的主要工具還有其他幾個(gè)功能,比如是否有死鏈接、入口鏈、退出鏈。我覺(jué)得沒(méi)關(guān)系!
  
  關(guān)鍵詞密度分析
  您可以分析頁(yè)面的關(guān)鍵字密度,直接進(jìn)入對應的頁(yè)面,單擊OKURL,如下圖所示:
  我們可以直觀(guān)地分析我們寫(xiě)的文章的頻率和密度。
  網(wǎng)絡(luò )日志分析
  我認為這個(gè)功能還可以。我自己分析高殼網(wǎng)站日志,不過(guò)小白也不難,我們可以直接用金華站長(cháng)工具分析網(wǎng)站日志,感覺(jué)很實(shí)用,哈哈!

解決方案:程序日志處理挑戰與方案

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 59 次瀏覽 ? 2022-11-26 14:19 ? 來(lái)自相關(guān)話(huà)題

  解決方案:程序日志處理挑戰與方案
  本文作者:簡(jiǎn)志,阿里云計算資深專(zhuān)家,擅長(cháng)領(lǐng)域日志分析處理。
  程序日志(AppLog)有什么特點(diǎn)?
  內容最全:程序日志由程序員給出,重要的位置、變量值、異常都會(huì )被記錄下來(lái)??梢哉f(shuō)90%以上的線(xiàn)上bug都是通過(guò)程序日志輸出來(lái)定位的
  格式比較隨意:代碼往往由不同的人開(kāi)發(fā),每個(gè)程序員都有自己喜歡的格式,一般很難統一,引入的一些第三方庫的日志樣式也不同
  具有一定的共性:雖然格式是任意的,但一般都有一些共性。例如,對于 Log4J 日志,需要以下字段:
  時(shí)間
  等級
  在文件或類(lèi)(file or class)
  電話(huà)號碼
  線(xiàn)程號(ThreadId)
  處理程序日志的挑戰是什么?
  1、數據量大
  程序日志一般比訪(fǎng)問(wèn)日志大一個(gè)數量級:假設一個(gè)網(wǎng)站一天有100萬(wàn)次獨立訪(fǎng)問(wèn),每次訪(fǎng)問(wèn)大約有20個(gè)邏輯模塊,每個(gè)邏輯模塊中有10個(gè)主要邏輯點(diǎn)需要記錄.
  那么日志總數為:
  每個(gè)長(cháng)度為200字節,則存儲大小為
  隨著(zhù)業(yè)務(wù)系統的復雜化,這個(gè)數據會(huì )越來(lái)越大。一個(gè)中型網(wǎng)站每天登錄 100-200GB 是很常見(jiàn)的。
  2. 多臺分布式服務(wù)器
  大多數應用程序都是無(wú)狀態(tài)的,運行在不同的框架中,例如:
  服務(wù)器
  碼頭工人(容器)
  函數計算(容器服務(wù))
  對應的實(shí)例數會(huì )從幾到幾千不等,需要跨服務(wù)器的日志采集方案
  3、運行環(huán)境復雜
  程序落在不同的環(huán)境中,例如:
  應用相關(guān)的都會(huì )在容器中
  API相關(guān)日志會(huì )在FunctionCompute中
  傳統 IDC 中的遺留系統日志
  與移動(dòng)相關(guān)的日志位于用戶(hù)站點(diǎn)
  瀏覽器中的網(wǎng)頁(yè)(M站)
  為了獲得全貌,我們必須統一和存儲所有數據。
  如何解決程序日志記錄需求
  1.統一存儲
  目標:將各個(gè)渠道的數據采集
到一個(gè)中心化的中心,這樣后續的工作只有在它們連接起來(lái)的時(shí)候才能完成。
  我們可以在日志服務(wù)中創(chuàng )建一個(gè)項目來(lái)存放應用日志。日志服務(wù)提供了30多種日志采集方式:無(wú)論是埋在硬件服務(wù)器中,還是網(wǎng)頁(yè)上的JS,還是服務(wù)器上輸出的日志,都可以實(shí)時(shí)采集。在列表中找到。
  在服務(wù)端日志上,日志服務(wù)除了使用SDK直接寫(xiě)入外,還提供了一個(gè)方便、穩定、高性能的Agent——Logtail。logtail提供windows,
  
  linux有兩個(gè)版本。在控制臺定義機器組并配置日志采集后,即可實(shí)時(shí)采集業(yè)務(wù)日志。這是一個(gè) 5 分鐘的視頻。
  創(chuàng )建好日志采集配置后,我們就可以對項目中的各種日志進(jìn)行操作了。
  可能有人會(huì )問(wèn),日志采集代理有很多,有Logstash、Flume、FluentD、Beats等,那么Logtash和這些相比有什么特點(diǎn)呢?
  簡(jiǎn)單易用:提供API、遠程管理和監控功能,集成阿里巴巴集團百萬(wàn)級服務(wù)器日志采集和管理經(jīng)驗,配置一個(gè)采集點(diǎn)到幾十萬(wàn)臺設備只需幾秒
  適應各種環(huán)境:無(wú)論是公網(wǎng)、VPC、自定義IDC等均可支持,https和斷點(diǎn)續傳功能,輕松訪(fǎng)問(wèn)公網(wǎng)數據
  性能強,資源消耗極?。航?jīng)過(guò)多年磨練,性能和資源消耗均優(yōu)于開(kāi)源,詳見(jiàn)對比測試
  2.快速搜索定位
  目標:無(wú)論數據量如何增長(cháng),服務(wù)器如何部署,都能保證定位問(wèn)題的時(shí)間是恒定的
  例如,訂單錯誤和長(cháng)時(shí)間延遲。如何在一周的幾TB數據日志中快速定位問(wèn)題。它還將涉及各種條件過(guò)濾和故障排除。
  比如程序中記錄延遲的日志,我們排查延遲大于1秒,方法以Post開(kāi)頭的請求數據:
  對于收錄
error關(guān)鍵詞 但不收錄
merge關(guān)鍵詞 的日志
  當天的結果
  本周結果
  更長(cháng)的結果
  這些查詢(xún)在 1 秒內返回
  3.關(guān)聯(lián)分析
  有兩種類(lèi)型的關(guān)聯(lián),進(jìn)程內關(guān)聯(lián)和跨進(jìn)程關(guān)聯(lián)。我們先來(lái)看看兩者的區別:
  進(jìn)程內關(guān)聯(lián):一般比較簡(jiǎn)單,因為同一個(gè)函數前后的日志都在一個(gè)文件里。在多線(xiàn)程鏈接中,我們只需要根據線(xiàn)程Id進(jìn)行過(guò)濾即可
  跨進(jìn)程關(guān)聯(lián):跨進(jìn)程請求一般沒(méi)有明確的線(xiàn)索,一般通過(guò)RPC中傳遞TracerId來(lái)關(guān)聯(lián)
  3.1 上下文關(guān)聯(lián)
  點(diǎn)擊上下文查詢(xún)后,會(huì )跳轉到前后N個(gè)上下文
  顯示框可以通過(guò)“早期”和“更新”等按鈕加載更多上下文
  也可以點(diǎn)擊“返回正常搜索模式”,通過(guò)過(guò)濾框進(jìn)一步調查過(guò)濾ThreadID,精準上下文過(guò)濾
  更多上下文查詢(xún)文檔請參考文檔索引查詢(xún)下的上下文查詢(xún)
  3.2 跨進(jìn)程關(guān)聯(lián)
  跨進(jìn)程關(guān)聯(lián)也稱(chēng)為 Tracing。最早的作品是谷歌在2010年大名鼎鼎的《Dapper,一個(gè)大型分布式系統跟蹤基礎設施》,后來(lái)開(kāi)源社區借鑒了谷歌的思想,做出了各種已經(jīng)平民化的Tracer版本。比較有名的有:
  Dapper (Google):每個(gè)追蹤器的基礎
  StackDriver Trace (Google),現在兼容 ZipKin
  Zipkin:twitter 開(kāi)源 Tracing 系統
  Appdash:golang 版本
  
  鷹眼:阿里巴巴集團中間件技術(shù)部研發(fā)
  X 射線(xiàn):AWS 在 Re:Invent 2016 上推出技術(shù)
  從頭開(kāi)始使用 Tracer 相對容易,但在現有系統中使用它成本高且具有挑戰性。
  今天我們可以基于日志服務(wù)實(shí)現一個(gè)基本的Tracing功能:在各個(gè)模塊的日志中輸出Request_id、OrderId等相關(guān)的標志字段,通過(guò)在不同的日志庫中查找得到所有相關(guān)的日志。
  比如我們可以通過(guò)SDK查詢(xún)前端機、后端機、支付系統、訂單系統等日志,得到結果后做一個(gè)前端頁(yè)面關(guān)聯(lián)跨進(jìn)程調用
  綜上所述,下面是基于日志服務(wù)快速搭建的追溯系統。
  4、統計分析
  找到特征日志后,我們有時(shí)希望做一些分析,比如網(wǎng)上有多少種不同類(lèi)型的錯誤日志?
  我們先查詢(xún)“__level__”的日志級別字段,得知一天有2720條錯誤:
  接下來(lái)我們可以根據file和line這兩個(gè)字段進(jìn)行統計聚合(確定唯一的日志類(lèi)型)
  可以得到所有錯誤的類(lèi)型和位置的分布
  其他包括基于錯誤代碼和高延遲等條件的 IP 定位和分析。更多信息請參考訪(fǎng)問(wèn)日志分析案例。
  5.其他
  1.備份日志審計
  日志可以備份到存儲成本較低的OSS或IA,也可以直接備份到MaxCompute。詳見(jiàn)日志投遞
  2. 關(guān)鍵詞鬧鐘
  目前報警方式有以下幾種
  1.將日志查詢(xún)保存為日志服務(wù)中的定時(shí)任務(wù),并對結果進(jìn)行告警,見(jiàn)文檔
  2.通過(guò)云監控日志告警功能,見(jiàn)文檔
  3、日志查詢(xún)權限分配管理
  開(kāi)發(fā)、PE等權限可以通過(guò)子賬號+授權組的方式進(jìn)行隔離,見(jiàn)文檔
  最后,讓我們談?wù)剝r(jià)格和成本。程序日志主要使用日志服務(wù)LogHub + LogSearch功能。這是與開(kāi)源解決方案的比較。查詢(xún)成本是開(kāi)源方案的25%。使用起來(lái)非常方便,讓您的開(kāi)發(fā)工作更有效率。
  往期精彩文章
  1個(gè)
  2個(gè)
  3個(gè)
  4個(gè)
  -結尾-
  云棲社區
  ID:云棲
  云計算丨互聯(lián)網(wǎng)架構丨大數據丨機器學(xué)習丨運維
  解決方案:《自適應-體育新聞》帝國CMS模板(自適應
  源碼名稱(chēng):(自適應-體育新聞)帝國CMS模板足球籃球資訊門(mén)戶(hù)源碼帶多站采集
  關(guān)鍵詞:首頁(yè)NBA 英超 西甲 德甲 意甲 歐冠 法甲 亞冠 CBA
  說(shuō)明:主要為您提供國內足球、國際足球、NBA、CBA、綜合體育、奧運會(huì )、直播、彩票、競猜等欄目,各項指標均處于絕對領(lǐng)先地位。
  整站模板采用自適應結構制作,抱歉MIP端是真正的三合一帝國cms源碼,自適應模板方便管理權重也集中,網(wǎng)站打開(kāi)速度快,用戶(hù)體驗好,欄目和子欄目可以下拉 全自動(dòng)按順序調用,網(wǎng)站結構簡(jiǎn)潔明了,程序仿帝皇cms7.5內核,開(kāi)源無(wú)任何限制,模板按標簽分類(lèi),可以使用多批次構建和MIP專(zhuān)用網(wǎng)站,內容由優(yōu)采云
采集
和更新,生成和維護也很方便。
  《自適應體育新聞》帝國CMS模板開(kāi)發(fā)環(huán)境:
  
  帝國cms 7.5
  安裝環(huán)境:
  php+mysql
  采集規則:
  收錄
優(yōu)采云
采集規則和模塊,采集目標站和多站采集。包年獲取規則更新
  
  《自適應體育新聞》帝國CMS模板的優(yōu)勢:
  1、更新快,包更新,包安裝,包技術(shù)指導,經(jīng)濟方便。
  2、《自適應-體育新聞》帝國CMS模板價(jià)格實(shí)惠,源碼在同行業(yè)中質(zhì)優(yōu)價(jià)廉。本站源碼采集后,經(jīng)過(guò)D盾、云鎖、天鵝絨掃描。
  3、一站式包安裝服務(wù),從程序上傳到環(huán)境搭建所有包,自行安裝免費提供專(zhuān)業(yè)技術(shù)支持。所有模板都有至少一年的技術(shù)服務(wù)支持!
  《自適應-體育新聞》帝國CMS源碼安裝不了,《自適應-體育新聞》帝國CMS源碼優(yōu)采云
采集規則無(wú)效,《自適應-體育新聞》帝國CMS源碼最新版,找站長(cháng)來(lái)解決 不用擔心,小白站長(cháng)真的可以上手了!
  另:如有需要,可聯(lián)系站長(cháng)。本站還提供網(wǎng)站定制、自適應改造、數據生成更新、優(yōu)采云
高級偽原創(chuàng )API插件,可讀性強,采集
效果好。 查看全部

  解決方案:程序日志處理挑戰與方案
  本文作者:簡(jiǎn)志,阿里云計算資深專(zhuān)家,擅長(cháng)領(lǐng)域日志分析處理。
  程序日志(AppLog)有什么特點(diǎn)?
  內容最全:程序日志由程序員給出,重要的位置、變量值、異常都會(huì )被記錄下來(lái)??梢哉f(shuō)90%以上的線(xiàn)上bug都是通過(guò)程序日志輸出來(lái)定位的
  格式比較隨意:代碼往往由不同的人開(kāi)發(fā),每個(gè)程序員都有自己喜歡的格式,一般很難統一,引入的一些第三方庫的日志樣式也不同
  具有一定的共性:雖然格式是任意的,但一般都有一些共性。例如,對于 Log4J 日志,需要以下字段:
  時(shí)間
  等級
  在文件或類(lèi)(file or class)
  電話(huà)號碼
  線(xiàn)程號(ThreadId)
  處理程序日志的挑戰是什么?
  1、數據量大
  程序日志一般比訪(fǎng)問(wèn)日志大一個(gè)數量級:假設一個(gè)網(wǎng)站一天有100萬(wàn)次獨立訪(fǎng)問(wèn),每次訪(fǎng)問(wèn)大約有20個(gè)邏輯模塊,每個(gè)邏輯模塊中有10個(gè)主要邏輯點(diǎn)需要記錄.
  那么日志總數為:
  每個(gè)長(cháng)度為200字節,則存儲大小為
  隨著(zhù)業(yè)務(wù)系統的復雜化,這個(gè)數據會(huì )越來(lái)越大。一個(gè)中型網(wǎng)站每天登錄 100-200GB 是很常見(jiàn)的。
  2. 多臺分布式服務(wù)器
  大多數應用程序都是無(wú)狀態(tài)的,運行在不同的框架中,例如:
  服務(wù)器
  碼頭工人(容器)
  函數計算(容器服務(wù))
  對應的實(shí)例數會(huì )從幾到幾千不等,需要跨服務(wù)器的日志采集方案
  3、運行環(huán)境復雜
  程序落在不同的環(huán)境中,例如:
  應用相關(guān)的都會(huì )在容器中
  API相關(guān)日志會(huì )在FunctionCompute中
  傳統 IDC 中的遺留系統日志
  與移動(dòng)相關(guān)的日志位于用戶(hù)站點(diǎn)
  瀏覽器中的網(wǎng)頁(yè)(M站)
  為了獲得全貌,我們必須統一和存儲所有數據。
  如何解決程序日志記錄需求
  1.統一存儲
  目標:將各個(gè)渠道的數據采集
到一個(gè)中心化的中心,這樣后續的工作只有在它們連接起來(lái)的時(shí)候才能完成。
  我們可以在日志服務(wù)中創(chuàng )建一個(gè)項目來(lái)存放應用日志。日志服務(wù)提供了30多種日志采集方式:無(wú)論是埋在硬件服務(wù)器中,還是網(wǎng)頁(yè)上的JS,還是服務(wù)器上輸出的日志,都可以實(shí)時(shí)采集。在列表中找到。
  在服務(wù)端日志上,日志服務(wù)除了使用SDK直接寫(xiě)入外,還提供了一個(gè)方便、穩定、高性能的Agent——Logtail。logtail提供windows,
  
  linux有兩個(gè)版本。在控制臺定義機器組并配置日志采集后,即可實(shí)時(shí)采集業(yè)務(wù)日志。這是一個(gè) 5 分鐘的視頻。
  創(chuàng )建好日志采集配置后,我們就可以對項目中的各種日志進(jìn)行操作了。
  可能有人會(huì )問(wèn),日志采集代理有很多,有Logstash、Flume、FluentD、Beats等,那么Logtash和這些相比有什么特點(diǎn)呢?
  簡(jiǎn)單易用:提供API、遠程管理和監控功能,集成阿里巴巴集團百萬(wàn)級服務(wù)器日志采集和管理經(jīng)驗,配置一個(gè)采集點(diǎn)到幾十萬(wàn)臺設備只需幾秒
  適應各種環(huán)境:無(wú)論是公網(wǎng)、VPC、自定義IDC等均可支持,https和斷點(diǎn)續傳功能,輕松訪(fǎng)問(wèn)公網(wǎng)數據
  性能強,資源消耗極?。航?jīng)過(guò)多年磨練,性能和資源消耗均優(yōu)于開(kāi)源,詳見(jiàn)對比測試
  2.快速搜索定位
  目標:無(wú)論數據量如何增長(cháng),服務(wù)器如何部署,都能保證定位問(wèn)題的時(shí)間是恒定的
  例如,訂單錯誤和長(cháng)時(shí)間延遲。如何在一周的幾TB數據日志中快速定位問(wèn)題。它還將涉及各種條件過(guò)濾和故障排除。
  比如程序中記錄延遲的日志,我們排查延遲大于1秒,方法以Post開(kāi)頭的請求數據:
  對于收錄
error關(guān)鍵詞 但不收錄
merge關(guān)鍵詞 的日志
  當天的結果
  本周結果
  更長(cháng)的結果
  這些查詢(xún)在 1 秒內返回
  3.關(guān)聯(lián)分析
  有兩種類(lèi)型的關(guān)聯(lián),進(jìn)程內關(guān)聯(lián)和跨進(jìn)程關(guān)聯(lián)。我們先來(lái)看看兩者的區別:
  進(jìn)程內關(guān)聯(lián):一般比較簡(jiǎn)單,因為同一個(gè)函數前后的日志都在一個(gè)文件里。在多線(xiàn)程鏈接中,我們只需要根據線(xiàn)程Id進(jìn)行過(guò)濾即可
  跨進(jìn)程關(guān)聯(lián):跨進(jìn)程請求一般沒(méi)有明確的線(xiàn)索,一般通過(guò)RPC中傳遞TracerId來(lái)關(guān)聯(lián)
  3.1 上下文關(guān)聯(lián)
  點(diǎn)擊上下文查詢(xún)后,會(huì )跳轉到前后N個(gè)上下文
  顯示框可以通過(guò)“早期”和“更新”等按鈕加載更多上下文
  也可以點(diǎn)擊“返回正常搜索模式”,通過(guò)過(guò)濾框進(jìn)一步調查過(guò)濾ThreadID,精準上下文過(guò)濾
  更多上下文查詢(xún)文檔請參考文檔索引查詢(xún)下的上下文查詢(xún)
  3.2 跨進(jìn)程關(guān)聯(lián)
  跨進(jìn)程關(guān)聯(lián)也稱(chēng)為 Tracing。最早的作品是谷歌在2010年大名鼎鼎的《Dapper,一個(gè)大型分布式系統跟蹤基礎設施》,后來(lái)開(kāi)源社區借鑒了谷歌的思想,做出了各種已經(jīng)平民化的Tracer版本。比較有名的有:
  Dapper (Google):每個(gè)追蹤器的基礎
  StackDriver Trace (Google),現在兼容 ZipKin
  Zipkin:twitter 開(kāi)源 Tracing 系統
  Appdash:golang 版本
  
  鷹眼:阿里巴巴集團中間件技術(shù)部研發(fā)
  X 射線(xiàn):AWS 在 Re:Invent 2016 上推出技術(shù)
  從頭開(kāi)始使用 Tracer 相對容易,但在現有系統中使用它成本高且具有挑戰性。
  今天我們可以基于日志服務(wù)實(shí)現一個(gè)基本的Tracing功能:在各個(gè)模塊的日志中輸出Request_id、OrderId等相關(guān)的標志字段,通過(guò)在不同的日志庫中查找得到所有相關(guān)的日志。
  比如我們可以通過(guò)SDK查詢(xún)前端機、后端機、支付系統、訂單系統等日志,得到結果后做一個(gè)前端頁(yè)面關(guān)聯(lián)跨進(jìn)程調用
  綜上所述,下面是基于日志服務(wù)快速搭建的追溯系統。
  4、統計分析
  找到特征日志后,我們有時(shí)希望做一些分析,比如網(wǎng)上有多少種不同類(lèi)型的錯誤日志?
  我們先查詢(xún)“__level__”的日志級別字段,得知一天有2720條錯誤:
  接下來(lái)我們可以根據file和line這兩個(gè)字段進(jìn)行統計聚合(確定唯一的日志類(lèi)型)
  可以得到所有錯誤的類(lèi)型和位置的分布
  其他包括基于錯誤代碼和高延遲等條件的 IP 定位和分析。更多信息請參考訪(fǎng)問(wèn)日志分析案例。
  5.其他
  1.備份日志審計
  日志可以備份到存儲成本較低的OSS或IA,也可以直接備份到MaxCompute。詳見(jiàn)日志投遞
  2. 關(guān)鍵詞鬧鐘
  目前報警方式有以下幾種
  1.將日志查詢(xún)保存為日志服務(wù)中的定時(shí)任務(wù),并對結果進(jìn)行告警,見(jiàn)文檔
  2.通過(guò)云監控日志告警功能,見(jiàn)文檔
  3、日志查詢(xún)權限分配管理
  開(kāi)發(fā)、PE等權限可以通過(guò)子賬號+授權組的方式進(jìn)行隔離,見(jiàn)文檔
  最后,讓我們談?wù)剝r(jià)格和成本。程序日志主要使用日志服務(wù)LogHub + LogSearch功能。這是與開(kāi)源解決方案的比較。查詢(xún)成本是開(kāi)源方案的25%。使用起來(lái)非常方便,讓您的開(kāi)發(fā)工作更有效率。
  往期精彩文章
  1個(gè)
  2個(gè)
  3個(gè)
  4個(gè)
  -結尾-
  云棲社區
  ID:云棲
  云計算丨互聯(lián)網(wǎng)架構丨大數據丨機器學(xué)習丨運維
  解決方案:《自適應-體育新聞》帝國CMS模板(自適應
  源碼名稱(chēng):(自適應-體育新聞)帝國CMS模板足球籃球資訊門(mén)戶(hù)源碼帶多站采集
  關(guān)鍵詞:首頁(yè)NBA 英超 西甲 德甲 意甲 歐冠 法甲 亞冠 CBA
  說(shuō)明:主要為您提供國內足球、國際足球、NBA、CBA、綜合體育、奧運會(huì )、直播、彩票、競猜等欄目,各項指標均處于絕對領(lǐng)先地位。
  整站模板采用自適應結構制作,抱歉MIP端是真正的三合一帝國cms源碼,自適應模板方便管理權重也集中,網(wǎng)站打開(kāi)速度快,用戶(hù)體驗好,欄目和子欄目可以下拉 全自動(dòng)按順序調用,網(wǎng)站結構簡(jiǎn)潔明了,程序仿帝皇cms7.5內核,開(kāi)源無(wú)任何限制,模板按標簽分類(lèi),可以使用多批次構建和MIP專(zhuān)用網(wǎng)站,內容由優(yōu)采云
采集
和更新,生成和維護也很方便。
  《自適應體育新聞》帝國CMS模板開(kāi)發(fā)環(huán)境:
  
  帝國cms 7.5
  安裝環(huán)境:
  php+mysql
  采集規則:
  收錄
優(yōu)采云
采集規則和模塊,采集目標站和多站采集。包年獲取規則更新
  
  《自適應體育新聞》帝國CMS模板的優(yōu)勢:
  1、更新快,包更新,包安裝,包技術(shù)指導,經(jīng)濟方便。
  2、《自適應-體育新聞》帝國CMS模板價(jià)格實(shí)惠,源碼在同行業(yè)中質(zhì)優(yōu)價(jià)廉。本站源碼采集后,經(jīng)過(guò)D盾、云鎖、天鵝絨掃描。
  3、一站式包安裝服務(wù),從程序上傳到環(huán)境搭建所有包,自行安裝免費提供專(zhuān)業(yè)技術(shù)支持。所有模板都有至少一年的技術(shù)服務(wù)支持!
  《自適應-體育新聞》帝國CMS源碼安裝不了,《自適應-體育新聞》帝國CMS源碼優(yōu)采云
采集規則無(wú)效,《自適應-體育新聞》帝國CMS源碼最新版,找站長(cháng)來(lái)解決 不用擔心,小白站長(cháng)真的可以上手了!
  另:如有需要,可聯(lián)系站長(cháng)。本站還提供網(wǎng)站定制、自適應改造、數據生成更新、優(yōu)采云
高級偽原創(chuàng )API插件,可讀性強,采集
效果好。

核心方法:通過(guò)關(guān)鍵詞采集文章采集api,利用正則表達式實(shí)現方法相同

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 108 次瀏覽 ? 2022-11-26 10:38 ? 來(lái)自相關(guān)話(huà)題

  核心方法:通過(guò)關(guān)鍵詞采集文章采集api,利用正則表達式實(shí)現方法相同
  
  通過(guò)關(guān)鍵詞采集文章采集api,利用正則表達式進(jìn)行關(guān)鍵詞篩選,保存、檢索、復制到wordview文件實(shí)現。通過(guò)函數可以獲取文章列表、定向、關(guān)鍵詞采集。reeder中實(shí)現方法相同。reeder也通過(guò)關(guān)鍵詞檢索文章。但通過(guò)正則表達式可以實(shí)現采集關(guān)鍵詞,通過(guò)wordview這個(gè)文件,復制到html后實(shí)現效果。
  
  功能中需要注意下:1.采集關(guān)鍵詞不能泄露。2.文件的讀寫(xiě)權限做好設置,權限越小,性能越慢,如權限設置為g,在分享給對應用戶(hù)時(shí)文件讀寫(xiě)權限為g,會(huì )造成權限泄露,權限泄露代碼就可能被修改。而且正則表達式效率非常低。下面做一個(gè)二次開(kāi)發(fā):1.寫(xiě)入列表。reeder首先通過(guò)正則表達式遍歷關(guān)鍵詞列表,具體的一些寫(xiě)法:正則表達式s[0]=‘/’[1]="/"[2]="/"[3]="/"[4]="/"[5]="/"[6]="/"[7]="/"//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//$//$//^([1-9]+)([0-9]+)$/$//$//^([1-9]+)([0-9]+)$/$//$//^([1-9]+)([0-9]+)$/$//$//$//^([1-9]+)([0-9]+)$/$//$//^([1-9]+)([0-9]+)$/$//$//^([1-9]+)([0-9]+)$/$//$//$//$//^([1-9]+)([0-9]+)$/$//$//$//^([1-9]+)([0-9]+)$/$//$//$//$//^([1-9]+)([0-9]+)$/$/$//$//$//^([1-9]+)([0-9]+)$/$/$//$//$//^([1-9]+)([0-9]+)$/$/$//$//$//$//$//^([1-9]+)([0-9]+)$/$/$/$/$//$//$//$//$//^([1-9]+)([0-9]+)$/$/$/$/$/$/$/$/$/$/$/$/$/$/$/$/。 查看全部

  核心方法:通過(guò)關(guān)鍵詞采集文章采集api,利用正則表達式實(shí)現方法相同
  
  通過(guò)關(guān)鍵詞采集文章采集api,利用正則表達式進(jìn)行關(guān)鍵詞篩選,保存、檢索、復制到wordview文件實(shí)現。通過(guò)函數可以獲取文章列表、定向、關(guān)鍵詞采集。reeder中實(shí)現方法相同。reeder也通過(guò)關(guān)鍵詞檢索文章。但通過(guò)正則表達式可以實(shí)現采集關(guān)鍵詞,通過(guò)wordview這個(gè)文件,復制到html后實(shí)現效果。
  
  功能中需要注意下:1.采集關(guān)鍵詞不能泄露。2.文件的讀寫(xiě)權限做好設置,權限越小,性能越慢,如權限設置為g,在分享給對應用戶(hù)時(shí)文件讀寫(xiě)權限為g,會(huì )造成權限泄露,權限泄露代碼就可能被修改。而且正則表達式效率非常低。下面做一個(gè)二次開(kāi)發(fā):1.寫(xiě)入列表。reeder首先通過(guò)正則表達式遍歷關(guān)鍵詞列表,具體的一些寫(xiě)法:正則表達式s[0]=‘/’[1]="/"[2]="/"[3]="/"[4]="/"[5]="/"[6]="/"[7]="/"//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//^([1-9]+)([0-9]+)$/$//$//$//^([1-9]+)([0-9]+)$/$//$//^([1-9]+)([0-9]+)$/$//$//^([1-9]+)([0-9]+)$/$//$//$//^([1-9]+)([0-9]+)$/$//$//^([1-9]+)([0-9]+)$/$//$//^([1-9]+)([0-9]+)$/$//$//$//$//^([1-9]+)([0-9]+)$/$//$//$//^([1-9]+)([0-9]+)$/$//$//$//$//^([1-9]+)([0-9]+)$/$/$//$//$//^([1-9]+)([0-9]+)$/$/$//$//$//^([1-9]+)([0-9]+)$/$/$//$//$//$//$//^([1-9]+)([0-9]+)$/$/$/$/$//$//$//$//$//^([1-9]+)([0-9]+)$/$/$/$/$/$/$/$/$/$/$/$/$/$/$/$/。

操作方法:實(shí)戰運行手冊——爬蟲(chóng)工具之三:ParseHub

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 806 次瀏覽 ? 2022-11-25 04:20 ? 來(lái)自相關(guān)話(huà)題

  操作方法:實(shí)戰運行手冊——爬蟲(chóng)工具之三:ParseHub
  任何項目的開(kāi)展都需要數據的支持,數據采集的準確性直接關(guān)系到數據分析結果的價(jià)值,而從各個(gè)網(wǎng)站采集數據(web scraping)是一項非常繁瑣的工作。
  由于工作原因,我會(huì )繼續嘗試一些爬蟲(chóng)工具,后面會(huì )出一系列的“爬蟲(chóng)工具”,盡量找那些比較簡(jiǎn)單易用高效的小工具,說(shuō)說(shuō)它們的特點(diǎn),以及用截圖做實(shí)戰演示。
  本期為ParseHub,主要用于爬取Web上各類(lèi)數據。
  地址:
  下面是操作步驟的簡(jiǎn)單演示
  第一步:點(diǎn)擊下載安裝地址
 ?。ㄟx擇對應的系統版本)
  第二步:注冊賬號
  
  第三步:下載安裝完成,登錄ParseHub 第四步:開(kāi)始使用
  點(diǎn)擊新建項目
  進(jìn)入后如下圖,右側是抓取網(wǎng)頁(yè)的縮略圖展示,左側是被縮略的頁(yè)面元素列表,可以點(diǎn)擊左側的列表項進(jìn)行關(guān)注向上操作
  比如這個(gè)看電影的網(wǎng)站可以選擇電影名稱(chēng)、電影播放時(shí)間和海報進(jìn)行抓取
  下面你可以選擇你要爬取的數據的格式
  單擊獲取數據按鈕
  點(diǎn)擊運行開(kāi)始爬取數據
  
  數據爬取
  抓取完成
  選擇需要的數據類(lèi)型,這里選擇json,將數據保存到本地
  打開(kāi)可以看到爬取的數據
  以上是我個(gè)人用ParseHub制作的數據爬取截圖示例,希望對大家有所幫助。
  我個(gè)人對這款產(chǎn)品的技術(shù)特點(diǎn)的理解總結如下:
  ParseHub是一款強大免費的網(wǎng)絡(luò )爬蟲(chóng)工具,類(lèi)似于國內的優(yōu)采云
采集器等,它使用機器學(xué)習關(guān)系引擎過(guò)濾頁(yè)面,理解元素的層次結構,秒查看它爬取數百萬(wàn)的數據確保我們擁有成千上萬(wàn)的鏈接和關(guān)鍵字全景的網(wǎng)頁(yè);不懂網(wǎng)絡(luò )技術(shù)也能輕松采集數據,一鍵獲取數據;本工具可以支持對采集到的數據進(jìn)行實(shí)時(shí)預覽,還可以設置爬取時(shí)間,保證采集到最新的數據;ParseHub 最大的優(yōu)勢是可以爬取一些相對復雜的頁(yè)面和元素,例如,你可以用它來(lái)檢索表單、菜單、登陸頁(yè)面,甚至可以點(diǎn)擊圖片或地圖來(lái)獲取它們背后的更多數據;有時(shí),待抓取的目標頁(yè)面技術(shù)太落后,別著(zhù)急!無(wú)論是JS還是AJAX編寫(xiě)的頁(yè)面,都可以使用ParseHub來(lái)采集
和存儲數據;我們還可以使用 REST API 以 JSON 或 CSV 格式下載提取的數據,或者將采集
的數據導出到 Google Sheet、Tableau 等。
  操作方法:優(yōu)采云
采集規則基本步驟介紹:循環(huán)
  循環(huán)
  1)該步驟用于重復一系列步驟,根據不同的配置支持多種模式。
  循環(huán)固定單個(gè)元素,比如循環(huán)點(diǎn)擊每一頁(yè)的下一頁(yè)按鈕;
  1)循環(huán)固定列表,比如循環(huán)遍歷頁(yè)面中指定的多個(gè)元素;
  2)循環(huán)變量列表,當需要循環(huán)多個(gè)頁(yè)面,但每頁(yè)處理的元素個(gè)數不固定時(shí)使用;
  3)循環(huán)URL列表,主要用于循環(huán)打開(kāi)一批指定URL的網(wǎng)頁(yè),然后執行相同的處理步驟。
  循環(huán)步驟注意事項
  
  1)元素在IFRAME中
  如果循環(huán)中設置的元素在IFRAME中,請勾選此選項,并在后面的IFAMEXPah中填寫(xiě)IFRAME的XPATH
  4) IFAMEX路徑
  元素所在的IFRAME的路徑,只有勾選'Element in IFRAME'時(shí)該設置才會(huì )生效。
  5) 修復了一個(gè)元素
  循環(huán)對某個(gè)元素進(jìn)行特定的操作,比如循環(huán)點(diǎn)擊下一頁(yè),向下滾動(dòng)下拉列表等,當翻到最后一頁(yè)或下拉列表到達最后一項時(shí),當前循環(huán)自動(dòng)結束.
  6) 固定元素列表
  對列表中的元素一一進(jìn)行具體操作,如循環(huán)點(diǎn)擊、提取數據、將鼠標懸停在元素上等。當所有元素循環(huán)完畢后,本次循環(huán)自動(dòng)結束。
  
  7)動(dòng)態(tài)元素列表
  當元素列表不固定時(shí),可以指定一個(gè)動(dòng)態(tài)路徑(多個(gè)元素符合這個(gè)路徑,即可以根據這個(gè)路徑定位多個(gè)元素),系統會(huì )先根據指定的路徑找到一個(gè)元素列表,然后執行“固定”路徑 Element List' 做同樣的事情。
  8) 網(wǎng)址列表
  結合打開(kāi)網(wǎng)頁(yè)的操作,指定一個(gè)URL列表,并確保在循環(huán)打開(kāi)網(wǎng)頁(yè)的操作中勾選當前循環(huán)項標志的使用,從而打開(kāi)URL列表中的連接一個(gè)。
  9) 循環(huán)執行次數等于
  執行指定次數后退出循環(huán)。
  更多 優(yōu)采云
采集
步驟 查看全部

  操作方法:實(shí)戰運行手冊——爬蟲(chóng)工具之三:ParseHub
  任何項目的開(kāi)展都需要數據的支持,數據采集的準確性直接關(guān)系到數據分析結果的價(jià)值,而從各個(gè)網(wǎng)站采集數據(web scraping)是一項非常繁瑣的工作。
  由于工作原因,我會(huì )繼續嘗試一些爬蟲(chóng)工具,后面會(huì )出一系列的“爬蟲(chóng)工具”,盡量找那些比較簡(jiǎn)單易用高效的小工具,說(shuō)說(shuō)它們的特點(diǎn),以及用截圖做實(shí)戰演示。
  本期為ParseHub,主要用于爬取Web上各類(lèi)數據。
  地址:
  下面是操作步驟的簡(jiǎn)單演示
  第一步:點(diǎn)擊下載安裝地址
 ?。ㄟx擇對應的系統版本)
  第二步:注冊賬號
  
  第三步:下載安裝完成,登錄ParseHub 第四步:開(kāi)始使用
  點(diǎn)擊新建項目
  進(jìn)入后如下圖,右側是抓取網(wǎng)頁(yè)的縮略圖展示,左側是被縮略的頁(yè)面元素列表,可以點(diǎn)擊左側的列表項進(jìn)行關(guān)注向上操作
  比如這個(gè)看電影的網(wǎng)站可以選擇電影名稱(chēng)、電影播放時(shí)間和海報進(jìn)行抓取
  下面你可以選擇你要爬取的數據的格式
  單擊獲取數據按鈕
  點(diǎn)擊運行開(kāi)始爬取數據
  
  數據爬取
  抓取完成
  選擇需要的數據類(lèi)型,這里選擇json,將數據保存到本地
  打開(kāi)可以看到爬取的數據
  以上是我個(gè)人用ParseHub制作的數據爬取截圖示例,希望對大家有所幫助。
  我個(gè)人對這款產(chǎn)品的技術(shù)特點(diǎn)的理解總結如下:
  ParseHub是一款強大免費的網(wǎng)絡(luò )爬蟲(chóng)工具,類(lèi)似于國內的優(yōu)采云
采集器等,它使用機器學(xué)習關(guān)系引擎過(guò)濾頁(yè)面,理解元素的層次結構,秒查看它爬取數百萬(wàn)的數據確保我們擁有成千上萬(wàn)的鏈接和關(guān)鍵字全景的網(wǎng)頁(yè);不懂網(wǎng)絡(luò )技術(shù)也能輕松采集數據,一鍵獲取數據;本工具可以支持對采集到的數據進(jìn)行實(shí)時(shí)預覽,還可以設置爬取時(shí)間,保證采集到最新的數據;ParseHub 最大的優(yōu)勢是可以爬取一些相對復雜的頁(yè)面和元素,例如,你可以用它來(lái)檢索表單、菜單、登陸頁(yè)面,甚至可以點(diǎn)擊圖片或地圖來(lái)獲取它們背后的更多數據;有時(shí),待抓取的目標頁(yè)面技術(shù)太落后,別著(zhù)急!無(wú)論是JS還是AJAX編寫(xiě)的頁(yè)面,都可以使用ParseHub來(lái)采集
和存儲數據;我們還可以使用 REST API 以 JSON 或 CSV 格式下載提取的數據,或者將采集
的數據導出到 Google Sheet、Tableau 等。
  操作方法:優(yōu)采云
采集規則基本步驟介紹:循環(huán)
  循環(huán)
  1)該步驟用于重復一系列步驟,根據不同的配置支持多種模式。
  循環(huán)固定單個(gè)元素,比如循環(huán)點(diǎn)擊每一頁(yè)的下一頁(yè)按鈕;
  1)循環(huán)固定列表,比如循環(huán)遍歷頁(yè)面中指定的多個(gè)元素;
  2)循環(huán)變量列表,當需要循環(huán)多個(gè)頁(yè)面,但每頁(yè)處理的元素個(gè)數不固定時(shí)使用;
  3)循環(huán)URL列表,主要用于循環(huán)打開(kāi)一批指定URL的網(wǎng)頁(yè),然后執行相同的處理步驟。
  循環(huán)步驟注意事項
  
  1)元素在IFRAME中
  如果循環(huán)中設置的元素在IFRAME中,請勾選此選項,并在后面的IFAMEXPah中填寫(xiě)IFRAME的XPATH
  4) IFAMEX路徑
  元素所在的IFRAME的路徑,只有勾選'Element in IFRAME'時(shí)該設置才會(huì )生效。
  5) 修復了一個(gè)元素
  循環(huán)對某個(gè)元素進(jìn)行特定的操作,比如循環(huán)點(diǎn)擊下一頁(yè),向下滾動(dòng)下拉列表等,當翻到最后一頁(yè)或下拉列表到達最后一項時(shí),當前循環(huán)自動(dòng)結束.
  6) 固定元素列表
  對列表中的元素一一進(jìn)行具體操作,如循環(huán)點(diǎn)擊、提取數據、將鼠標懸停在元素上等。當所有元素循環(huán)完畢后,本次循環(huán)自動(dòng)結束。
  
  7)動(dòng)態(tài)元素列表
  當元素列表不固定時(shí),可以指定一個(gè)動(dòng)態(tài)路徑(多個(gè)元素符合這個(gè)路徑,即可以根據這個(gè)路徑定位多個(gè)元素),系統會(huì )先根據指定的路徑找到一個(gè)元素列表,然后執行“固定”路徑 Element List' 做同樣的事情。
  8) 網(wǎng)址列表
  結合打開(kāi)網(wǎng)頁(yè)的操作,指定一個(gè)URL列表,并確保在循環(huán)打開(kāi)網(wǎng)頁(yè)的操作中勾選當前循環(huán)項標志的使用,從而打開(kāi)URL列表中的連接一個(gè)。
  9) 循環(huán)執行次數等于
  執行指定次數后退出循環(huán)。
  更多 優(yōu)采云
采集
步驟

解決方案:第五期百度大腦開(kāi)放日:EasyDL讓每人都能用起AI

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 184 次瀏覽 ? 2022-11-25 04:16 ? 來(lái)自相關(guān)話(huà)題

  解決方案:第五期百度大腦開(kāi)放日:EasyDL讓每人都能用起AI
  8月22日,第五屆百度大腦開(kāi)放日EasyDL專(zhuān)場(chǎng)在北京中關(guān)村創(chuàng )業(yè)大街百度大腦創(chuàng )新體驗中心舉行。本期開(kāi)放日,百度大腦AI開(kāi)放平臺發(fā)布并更新了多項技術(shù)能力,包括深度學(xué)習框架、一站式內容審核平臺、OCR識別等。
  其中,作為本次開(kāi)放日的重點(diǎn)內容,“硬核”能力爆棚的EasyDL讓開(kāi)發(fā)者大呼過(guò)癮。同時(shí),中國專(zhuān)利信息中心、茅臺博物館、農信互聯(lián)等合作伙伴的技術(shù)負責人也在現場(chǎng)分享了使用EasyDL的實(shí)際案例,向開(kāi)發(fā)者和行業(yè)人士展示了百度大腦領(lǐng)先的AI技術(shù)能力和AI產(chǎn)業(yè)。加速成果落地。
  百度大腦EasyDL:零算法基礎獲得高精度AI模型,Everyone Can AI
  AI在各個(gè)行業(yè)和場(chǎng)景的應用中,往往需要定制AI能力。但是,要訓練出高精度、符合業(yè)務(wù)需求的AI模型,首先需要學(xué)習專(zhuān)業(yè)知識和相關(guān)經(jīng)驗。其次,傳統訓練需要大量的標注數據。從數據采集到數據標注周期長(cháng),模型往往需要部署到實(shí)際業(yè)務(wù)中。為了真正反饋業(yè)務(wù)效果,模型迭代可以從一個(gè)月到幾個(gè)月不等。
  百度大腦推出的EasyDL平臺是一個(gè)基于零算法的高精度AI模型定制化訓練和服務(wù)平臺。用戶(hù)根據可視化頁(yè)面的提示,分四步創(chuàng )建模型-上傳并標注數據-訓練模型-發(fā)布模型。您可以獲得公有云API、端計算離線(xiàn)SDK、軟硬件一體化解決方案,快速融入業(yè)務(wù)場(chǎng)景。百度AI技術(shù)生態(tài)部高級產(chǎn)品經(jīng)理李靜秋分享了EasyDL的一系列經(jīng)典案例,并演示了如何快速訓練一個(gè)常見(jiàn)的物體識別模型,并集成到EdgeBoard中進(jìn)行離線(xiàn)計算,充分展示了EasyDL的產(chǎn)品功能,參與者和優(yōu)勢。
  據李靜秋在會(huì )上介紹,EasyDL是百度大腦于2017年底推出的一站式模型訓練與服務(wù)平臺。目前EasyDL通用版支持圖像分類(lèi)、物體檢測等模型類(lèi)型的定制化訓練。 、文本分類(lèi)、聲音分類(lèi)、視頻分類(lèi),而EasyDL零售行業(yè)版可以解決特定的行業(yè)問(wèn)題。洞察數據、算法、工具、預制技能等一系列服務(wù),讓AI模型生產(chǎn)更高效。EasyDL產(chǎn)品和服務(wù)因其零算法基礎即可上手的超低門(mén)檻特性,已廣泛應用于工業(yè)、安防、互聯(lián)網(wǎng)、零售、物流、智能硬件、教育、醫療、電子商務(wù)等,成為眾多企業(yè)的首選。首選。
  例如,杭州市氣象局使用EasyDL訓練打造智能“看云”氣象觀(guān)測系統。通過(guò)訓練云量、云形、霜露等多個(gè)模型,有效提高了氣象觀(guān)測的密度和效率,識別準確率普遍超過(guò)85%。以上; 北京新橋結合歷史積累的道路和病害圖像(塌方、裂縫等),分別使用百度EasyDL圖像分類(lèi)和目標檢測算法,訓練路橋類(lèi)型、路橋病害類(lèi)型等多個(gè)模型,用于日常全國道路橋梁養護檢查;而愛(ài)寶花飾使用百度EasyDL物體檢測算法輔助人工檢測針頭,箱包X光照片中遺留的金屬等零件,讓箱包生產(chǎn)線(xiàn)質(zhì)檢人員告別“放大鏡”“老花眼”。EasyDL 是真正在用技術(shù)一次又一次地幫助工作者降低工作的復雜性和負擔。
  
  李靜秋還預告了EasyDL即將推出的圖像分割模型以及即將支持的服務(wù)器本地化部署。其中,EasyDL新的圖像分割模型類(lèi)型支持非矩形(圓、直線(xiàn)、多邊形)標注,支持目標形狀不規則、不方便用矩形框標注的業(yè)務(wù)場(chǎng)景??蓱糜诠I(yè)缺陷檢測、道路檢測等場(chǎng)景。EasyDL圖像分類(lèi)和目標檢測云服務(wù)高性能模型即將支持服務(wù)端本地部署預測服務(wù)。
  使用 EasyDL 加速企業(yè) AI 轉型
  活動(dòng)當天,百度大腦的合作伙伴通過(guò)實(shí)際案例與大家分享了不同領(lǐng)域的企業(yè)如何通過(guò)百度EasyDL的賦能,實(shí)現業(yè)務(wù)智能化創(chuàng )新升級。
 ?。◤淖笾劣遥褐袊鴮?zhuān)利信息中心軟件設計師崔亞坤、貓友公社APP負責人張瑞祥、農信互聯(lián)網(wǎng)高級工程師孫凌軍)
  中國專(zhuān)利信息中心軟件設計師崔亞坤現場(chǎng)分享道:“在知識產(chǎn)權保護方面,鑒于互聯(lián)網(wǎng)信息量大、更新快,知識產(chǎn)權侵權假冒的認定具有很強的專(zhuān)業(yè)性,而人工發(fā)現線(xiàn)索的方法需要大量投入和效率,低、不及時(shí)、權利人成本高,EasyDL可以根據專(zhuān)利保護領(lǐng)域訓練定制的解決方案,有效解決圖像分類(lèi)、圖像中物體檢測、等等,結合百度大腦的文字識別、圖片搜索、NLP語(yǔ)義處理等能力,有效提升了自動(dòng)化審稿流程的效率?!?br />   茅友公社APP負責人張瑞祥介紹,茅友公社APP是一款集茅臺知識在線(xiàn)交流、茅臺酒及其配套產(chǎn)品購買(mǎi)于一體的應用。為了更好地挖掘中國酒文化和茅臺文化的歷史脈絡(luò ),借助EasyDL平臺,僅用三周時(shí)間就完成了模型的多次迭代,快速實(shí)現了AI酒類(lèi)識別的定制化圖像識別模型。每種酒種只用不到100張瓶身圖片就可以訓練出高達99%的模型效果。
  農信互聯(lián)網(wǎng)高級工程師孫凌軍也在會(huì )上肯定了百度EasyDL的行業(yè)價(jià)值。他說(shuō):“自主研發(fā)AI技術(shù)的投入成本比較高,實(shí)施的不確定性也很大。EasyDL平臺可用率高,無(wú)需運維。成本低,只需少量數據即可用于訓練豬舍場(chǎng)景定制模型,基于百度大腦EasyDL物體檢測,減少豬場(chǎng)管理人力,減少人豬接觸頻率,降低疾病風(fēng)險,方便遠程管理,以及有效改善目前養殖業(yè)生產(chǎn)效率低下的現狀。
  不斷創(chuàng )新升級百度大腦,邁向全民“AI”時(shí)代
  “百度大腦自2016年底開(kāi)放,是目前最大的AI開(kāi)放平臺,超過(guò)130萬(wàn)開(kāi)發(fā)者在使用,開(kāi)放了210多項核心技術(shù)能力,面向廣大企業(yè)和開(kāi)發(fā)者開(kāi)放正在不斷降低AI應用落地的門(mén)檻?!?百度AI技術(shù)生態(tài)部高級產(chǎn)品經(jīng)理樓雙雙在活動(dòng)中表示。本次開(kāi)放日除了重點(diǎn)介紹EasyDL的內容外,一如既往地介紹了百度大腦8月份的最新開(kāi)放升級能力。
  
  深度平臺方面,全新發(fā)布Paddle Lite,重點(diǎn)加強多平臺、多硬件的支持能力,新增70種各類(lèi)硬件Kernel,易用性和性能大幅提升。值得一提的是,新增了對華為海思NPU的深度支持,成為首個(gè)支持華為NPU在線(xiàn)編譯的框架。
  為幫助開(kāi)發(fā)者更好地學(xué)習和應用深度學(xué)習技術(shù),百度大腦為AI Studio制定了億元算力扶持計劃,AI Studio深受開(kāi)發(fā)者認可,可免費提供海量算力資源。深度學(xué)習在線(xiàn)訓練營(yíng)PaddleCamp也全新準備了實(shí)戰課程,只需4-6周時(shí)間,幫助開(kāi)發(fā)者從入門(mén)到精通深度學(xué)習。百度大腦還建立了國內最完善的深度學(xué)習企業(yè)培訓體系:包括企業(yè)深度學(xué)習實(shí)戰營(yíng)AI快車(chē)道和黃埔學(xué)院“首席AI架構師培養計劃”;國內最活躍的深度學(xué)習研發(fā)精英俱樂(lè )部:包括“博士生協(xié)會(huì )”等“飛槳活動(dòng)” 而《飛槳領(lǐng)航團》也在繼續。與此同時(shí),每年舉辦10余場(chǎng)比賽的Baidu AI Studio人工智能大賽也在如火如荼地進(jìn)行,總獎金超百萬(wàn)元。
  在今年的百度AI開(kāi)發(fā)者大會(huì )上,全面升級為軟硬件一體的AI生產(chǎn)平臺的百度大腦5.0擁有最全面的AI開(kāi)放能力,并不斷豐富升級。本次開(kāi)放日,在OCR文字識別方面,進(jìn)行了三項產(chǎn)品升級,包括名片識別的識別率和識別速度;二維碼/條碼識別的識別率和手寫(xiě)識別的識別率。截至目前,OCR文字識別全系列已有35款產(chǎn)品,可滿(mǎn)足各種文檔結構應用場(chǎng)景。人體分析方面,升級人數統計(動(dòng)態(tài)版)能力,準確率提升至92%以上。在圖像處理方面,
  第五次開(kāi)放日,全面、靈活、實(shí)時(shí)的百度大腦內容審核平臺,一站式滿(mǎn)足所有AI審核需求。這一次,它還帶來(lái)了新的功能升級。兩大核心升級是:通過(guò)EasyDL,支持審計模型定制,分鐘級策略更新更及時(shí)。百度大腦的內容審核平臺集成了百度大腦的視覺(jué)、語(yǔ)音、語(yǔ)義能力。專(zhuān)業(yè)的內容審核服務(wù),可以幫助更多平臺提升內容質(zhì)量。
  語(yǔ)音自訓練平臺增加了搜索模型和輸入法模型的API調用方法。調用方式簡(jiǎn)單,適用于多平臺、多場(chǎng)景。據現場(chǎng)介紹,平臺上線(xiàn)以來(lái),已有醫療、金融、農業(yè)、教育、餐飲、物流、建筑、地產(chǎn)等多個(gè)行業(yè)的客戶(hù)。在語(yǔ)音助手、呼叫中心等多種語(yǔ)音識別場(chǎng)景下,專(zhuān)業(yè)領(lǐng)域詞匯識別率可有效提升5-25%。
  在百度大腦的開(kāi)放生態(tài)中,開(kāi)發(fā)者始終是最重要的一環(huán)。百度大腦持續為AI開(kāi)發(fā)者提供最新的AI產(chǎn)品和案例分享,真正實(shí)現平等開(kāi)放的賦能。因此,在第五期的活動(dòng)現場(chǎng),百度大腦還發(fā)布了感恩回饋活動(dòng),100萬(wàn)話(huà)費免費贈送,還有更多商品限時(shí)優(yōu)惠低至40%。
  百度大腦一直貫徹“Everyone Can AI”的理念,無(wú)論是因操作簡(jiǎn)單、智能化程度高、覆蓋面廣、可定制而深受用戶(hù)和開(kāi)發(fā)者喜愛(ài)的EasyDL平臺,還是每月定期更新升級的EasyDL平臺。百度大腦開(kāi)放日活動(dòng),百度大腦從未停止前行的腳步,充分體現了其希望在解決行業(yè)痛點(diǎn)的同時(shí),為有需求的企業(yè)提供更多服務(wù),真正用領(lǐng)先的AI技術(shù)助力企業(yè)智能化轉型,邁向智能化轉型。一起AI時(shí)代。
  解決方案:常用的三款APP和網(wǎng)站數據分析工具,運營(yíng)者必備
  我們都知道,網(wǎng)站和APP上線(xiàn)后,需要進(jìn)行數據分析。如何借助一些外部數據分析工具來(lái)評估自己網(wǎng)站和APP的用戶(hù)體驗和運營(yíng)質(zhì)量是非常重要的。
  下面我們將介紹三款在國內應用廣泛的非常好用的數據分析工具,可用于網(wǎng)站統計、APP分析、小程序數據分析等用戶(hù)行為分析。
  1. 極客數
  官方網(wǎng)站:
  
  數記客是國內新一代大數據用戶(hù)行為分析平臺。支持無(wú)追點(diǎn)、前端追點(diǎn)、后端追點(diǎn)、API導入四種混合數據采集方式。自動(dòng)監測分析網(wǎng)站推廣、APP推廣、小程序推廣。它是增長(cháng)黑客必備的數據分析工具。支持APP數據分析、網(wǎng)站統計、網(wǎng)站分析、用戶(hù)畫(huà)像等應用場(chǎng)景。國內首創(chuàng )提高轉化率的數據分析模型。是用戶(hù)行為分析領(lǐng)域首款應用定量和定性分析方法的數據分析產(chǎn)品??蛻?hù)用戶(hù)行為錄屏系統以視頻的形式回放用戶(hù)行為,幫助企業(yè)快速提升用戶(hù)體驗。
  數記客的優(yōu)勢在于支持非常豐富的數據分析模型。由于采用了最新的實(shí)時(shí)OLAP分析技術(shù),保證了數據的實(shí)時(shí)性。它還支持在線(xiàn)版本和私有化部署版本。對于要求高的企業(yè)來(lái)說(shuō)是不錯的選擇。缺點(diǎn)是目前只有商業(yè)付費版本。
  2.百度統計
  官方網(wǎng)站:
  百度統計是百度推出的免費專(zhuān)業(yè)網(wǎng)站流量分析工具,可以告訴用戶(hù)訪(fǎng)問(wèn)者是如何找到和瀏覽用戶(hù)網(wǎng)站的,以及他們在網(wǎng)站上做了什么。網(wǎng)站的用戶(hù)體驗不斷提高網(wǎng)站的投資回報率。
  
  百度統計的好處是可以統計百度搜索關(guān)鍵詞的數據(畢竟是百度自己的產(chǎn)品,只為自己打開(kāi)搜索關(guān)鍵詞接口)。缺點(diǎn)是數據量大時(shí),數據查詢(xún)速度慢。此外,支持的分析模型相對較少。數據分割也不夠。
  3.友盟統計
  友盟是阿里巴巴旗下的一款APP分析工具。該工具最大的優(yōu)點(diǎn)是免費,并提供安裝、激活、留存等基本統計功能。就需求而言,還是基本能夠滿(mǎn)足的。友盟統計目前只支持APP分析,不支持網(wǎng)站分析。友盟有獨立的網(wǎng)站分析工具,但是網(wǎng)站和APP的數據無(wú)法打通。
  友盟是國內較早的APP分析工具。因為使用的技術(shù)是上一代,它的主要缺點(diǎn)是數據不能細分,實(shí)時(shí)性弱。一般只能查看幾個(gè)小時(shí)前的數據。
  以上就是我在工作中遇到和使用的三種數據分析工具。你有你想要的嗎?歡迎給我留言。 查看全部

  解決方案:第五期百度大腦開(kāi)放日:EasyDL讓每人都能用起AI
  8月22日,第五屆百度大腦開(kāi)放日EasyDL專(zhuān)場(chǎng)在北京中關(guān)村創(chuàng )業(yè)大街百度大腦創(chuàng )新體驗中心舉行。本期開(kāi)放日,百度大腦AI開(kāi)放平臺發(fā)布并更新了多項技術(shù)能力,包括深度學(xué)習框架、一站式內容審核平臺、OCR識別等。
  其中,作為本次開(kāi)放日的重點(diǎn)內容,“硬核”能力爆棚的EasyDL讓開(kāi)發(fā)者大呼過(guò)癮。同時(shí),中國專(zhuān)利信息中心、茅臺博物館、農信互聯(lián)等合作伙伴的技術(shù)負責人也在現場(chǎng)分享了使用EasyDL的實(shí)際案例,向開(kāi)發(fā)者和行業(yè)人士展示了百度大腦領(lǐng)先的AI技術(shù)能力和AI產(chǎn)業(yè)。加速成果落地。
  百度大腦EasyDL:零算法基礎獲得高精度AI模型,Everyone Can AI
  AI在各個(gè)行業(yè)和場(chǎng)景的應用中,往往需要定制AI能力。但是,要訓練出高精度、符合業(yè)務(wù)需求的AI模型,首先需要學(xué)習專(zhuān)業(yè)知識和相關(guān)經(jīng)驗。其次,傳統訓練需要大量的標注數據。從數據采集到數據標注周期長(cháng),模型往往需要部署到實(shí)際業(yè)務(wù)中。為了真正反饋業(yè)務(wù)效果,模型迭代可以從一個(gè)月到幾個(gè)月不等。
  百度大腦推出的EasyDL平臺是一個(gè)基于零算法的高精度AI模型定制化訓練和服務(wù)平臺。用戶(hù)根據可視化頁(yè)面的提示,分四步創(chuàng )建模型-上傳并標注數據-訓練模型-發(fā)布模型。您可以獲得公有云API、端計算離線(xiàn)SDK、軟硬件一體化解決方案,快速融入業(yè)務(wù)場(chǎng)景。百度AI技術(shù)生態(tài)部高級產(chǎn)品經(jīng)理李靜秋分享了EasyDL的一系列經(jīng)典案例,并演示了如何快速訓練一個(gè)常見(jiàn)的物體識別模型,并集成到EdgeBoard中進(jìn)行離線(xiàn)計算,充分展示了EasyDL的產(chǎn)品功能,參與者和優(yōu)勢。
  據李靜秋在會(huì )上介紹,EasyDL是百度大腦于2017年底推出的一站式模型訓練與服務(wù)平臺。目前EasyDL通用版支持圖像分類(lèi)、物體檢測等模型類(lèi)型的定制化訓練。 、文本分類(lèi)、聲音分類(lèi)、視頻分類(lèi),而EasyDL零售行業(yè)版可以解決特定的行業(yè)問(wèn)題。洞察數據、算法、工具、預制技能等一系列服務(wù),讓AI模型生產(chǎn)更高效。EasyDL產(chǎn)品和服務(wù)因其零算法基礎即可上手的超低門(mén)檻特性,已廣泛應用于工業(yè)、安防、互聯(lián)網(wǎng)、零售、物流、智能硬件、教育、醫療、電子商務(wù)等,成為眾多企業(yè)的首選。首選。
  例如,杭州市氣象局使用EasyDL訓練打造智能“看云”氣象觀(guān)測系統。通過(guò)訓練云量、云形、霜露等多個(gè)模型,有效提高了氣象觀(guān)測的密度和效率,識別準確率普遍超過(guò)85%。以上; 北京新橋結合歷史積累的道路和病害圖像(塌方、裂縫等),分別使用百度EasyDL圖像分類(lèi)和目標檢測算法,訓練路橋類(lèi)型、路橋病害類(lèi)型等多個(gè)模型,用于日常全國道路橋梁養護檢查;而愛(ài)寶花飾使用百度EasyDL物體檢測算法輔助人工檢測針頭,箱包X光照片中遺留的金屬等零件,讓箱包生產(chǎn)線(xiàn)質(zhì)檢人員告別“放大鏡”“老花眼”。EasyDL 是真正在用技術(shù)一次又一次地幫助工作者降低工作的復雜性和負擔。
  
  李靜秋還預告了EasyDL即將推出的圖像分割模型以及即將支持的服務(wù)器本地化部署。其中,EasyDL新的圖像分割模型類(lèi)型支持非矩形(圓、直線(xiàn)、多邊形)標注,支持目標形狀不規則、不方便用矩形框標注的業(yè)務(wù)場(chǎng)景??蓱糜诠I(yè)缺陷檢測、道路檢測等場(chǎng)景。EasyDL圖像分類(lèi)和目標檢測云服務(wù)高性能模型即將支持服務(wù)端本地部署預測服務(wù)。
  使用 EasyDL 加速企業(yè) AI 轉型
  活動(dòng)當天,百度大腦的合作伙伴通過(guò)實(shí)際案例與大家分享了不同領(lǐng)域的企業(yè)如何通過(guò)百度EasyDL的賦能,實(shí)現業(yè)務(wù)智能化創(chuàng )新升級。
 ?。◤淖笾劣遥褐袊鴮?zhuān)利信息中心軟件設計師崔亞坤、貓友公社APP負責人張瑞祥、農信互聯(lián)網(wǎng)高級工程師孫凌軍)
  中國專(zhuān)利信息中心軟件設計師崔亞坤現場(chǎng)分享道:“在知識產(chǎn)權保護方面,鑒于互聯(lián)網(wǎng)信息量大、更新快,知識產(chǎn)權侵權假冒的認定具有很強的專(zhuān)業(yè)性,而人工發(fā)現線(xiàn)索的方法需要大量投入和效率,低、不及時(shí)、權利人成本高,EasyDL可以根據專(zhuān)利保護領(lǐng)域訓練定制的解決方案,有效解決圖像分類(lèi)、圖像中物體檢測、等等,結合百度大腦的文字識別、圖片搜索、NLP語(yǔ)義處理等能力,有效提升了自動(dòng)化審稿流程的效率?!?br />   茅友公社APP負責人張瑞祥介紹,茅友公社APP是一款集茅臺知識在線(xiàn)交流、茅臺酒及其配套產(chǎn)品購買(mǎi)于一體的應用。為了更好地挖掘中國酒文化和茅臺文化的歷史脈絡(luò ),借助EasyDL平臺,僅用三周時(shí)間就完成了模型的多次迭代,快速實(shí)現了AI酒類(lèi)識別的定制化圖像識別模型。每種酒種只用不到100張瓶身圖片就可以訓練出高達99%的模型效果。
  農信互聯(lián)網(wǎng)高級工程師孫凌軍也在會(huì )上肯定了百度EasyDL的行業(yè)價(jià)值。他說(shuō):“自主研發(fā)AI技術(shù)的投入成本比較高,實(shí)施的不確定性也很大。EasyDL平臺可用率高,無(wú)需運維。成本低,只需少量數據即可用于訓練豬舍場(chǎng)景定制模型,基于百度大腦EasyDL物體檢測,減少豬場(chǎng)管理人力,減少人豬接觸頻率,降低疾病風(fēng)險,方便遠程管理,以及有效改善目前養殖業(yè)生產(chǎn)效率低下的現狀。
  不斷創(chuàng )新升級百度大腦,邁向全民“AI”時(shí)代
  “百度大腦自2016年底開(kāi)放,是目前最大的AI開(kāi)放平臺,超過(guò)130萬(wàn)開(kāi)發(fā)者在使用,開(kāi)放了210多項核心技術(shù)能力,面向廣大企業(yè)和開(kāi)發(fā)者開(kāi)放正在不斷降低AI應用落地的門(mén)檻?!?百度AI技術(shù)生態(tài)部高級產(chǎn)品經(jīng)理樓雙雙在活動(dòng)中表示。本次開(kāi)放日除了重點(diǎn)介紹EasyDL的內容外,一如既往地介紹了百度大腦8月份的最新開(kāi)放升級能力。
  
  深度平臺方面,全新發(fā)布Paddle Lite,重點(diǎn)加強多平臺、多硬件的支持能力,新增70種各類(lèi)硬件Kernel,易用性和性能大幅提升。值得一提的是,新增了對華為海思NPU的深度支持,成為首個(gè)支持華為NPU在線(xiàn)編譯的框架。
  為幫助開(kāi)發(fā)者更好地學(xué)習和應用深度學(xué)習技術(shù),百度大腦為AI Studio制定了億元算力扶持計劃,AI Studio深受開(kāi)發(fā)者認可,可免費提供海量算力資源。深度學(xué)習在線(xiàn)訓練營(yíng)PaddleCamp也全新準備了實(shí)戰課程,只需4-6周時(shí)間,幫助開(kāi)發(fā)者從入門(mén)到精通深度學(xué)習。百度大腦還建立了國內最完善的深度學(xué)習企業(yè)培訓體系:包括企業(yè)深度學(xué)習實(shí)戰營(yíng)AI快車(chē)道和黃埔學(xué)院“首席AI架構師培養計劃”;國內最活躍的深度學(xué)習研發(fā)精英俱樂(lè )部:包括“博士生協(xié)會(huì )”等“飛槳活動(dòng)” 而《飛槳領(lǐng)航團》也在繼續。與此同時(shí),每年舉辦10余場(chǎng)比賽的Baidu AI Studio人工智能大賽也在如火如荼地進(jìn)行,總獎金超百萬(wàn)元。
  在今年的百度AI開(kāi)發(fā)者大會(huì )上,全面升級為軟硬件一體的AI生產(chǎn)平臺的百度大腦5.0擁有最全面的AI開(kāi)放能力,并不斷豐富升級。本次開(kāi)放日,在OCR文字識別方面,進(jìn)行了三項產(chǎn)品升級,包括名片識別的識別率和識別速度;二維碼/條碼識別的識別率和手寫(xiě)識別的識別率。截至目前,OCR文字識別全系列已有35款產(chǎn)品,可滿(mǎn)足各種文檔結構應用場(chǎng)景。人體分析方面,升級人數統計(動(dòng)態(tài)版)能力,準確率提升至92%以上。在圖像處理方面,
  第五次開(kāi)放日,全面、靈活、實(shí)時(shí)的百度大腦內容審核平臺,一站式滿(mǎn)足所有AI審核需求。這一次,它還帶來(lái)了新的功能升級。兩大核心升級是:通過(guò)EasyDL,支持審計模型定制,分鐘級策略更新更及時(shí)。百度大腦的內容審核平臺集成了百度大腦的視覺(jué)、語(yǔ)音、語(yǔ)義能力。專(zhuān)業(yè)的內容審核服務(wù),可以幫助更多平臺提升內容質(zhì)量。
  語(yǔ)音自訓練平臺增加了搜索模型和輸入法模型的API調用方法。調用方式簡(jiǎn)單,適用于多平臺、多場(chǎng)景。據現場(chǎng)介紹,平臺上線(xiàn)以來(lái),已有醫療、金融、農業(yè)、教育、餐飲、物流、建筑、地產(chǎn)等多個(gè)行業(yè)的客戶(hù)。在語(yǔ)音助手、呼叫中心等多種語(yǔ)音識別場(chǎng)景下,專(zhuān)業(yè)領(lǐng)域詞匯識別率可有效提升5-25%。
  在百度大腦的開(kāi)放生態(tài)中,開(kāi)發(fā)者始終是最重要的一環(huán)。百度大腦持續為AI開(kāi)發(fā)者提供最新的AI產(chǎn)品和案例分享,真正實(shí)現平等開(kāi)放的賦能。因此,在第五期的活動(dòng)現場(chǎng),百度大腦還發(fā)布了感恩回饋活動(dòng),100萬(wàn)話(huà)費免費贈送,還有更多商品限時(shí)優(yōu)惠低至40%。
  百度大腦一直貫徹“Everyone Can AI”的理念,無(wú)論是因操作簡(jiǎn)單、智能化程度高、覆蓋面廣、可定制而深受用戶(hù)和開(kāi)發(fā)者喜愛(ài)的EasyDL平臺,還是每月定期更新升級的EasyDL平臺。百度大腦開(kāi)放日活動(dòng),百度大腦從未停止前行的腳步,充分體現了其希望在解決行業(yè)痛點(diǎn)的同時(shí),為有需求的企業(yè)提供更多服務(wù),真正用領(lǐng)先的AI技術(shù)助力企業(yè)智能化轉型,邁向智能化轉型。一起AI時(shí)代。
  解決方案:常用的三款APP和網(wǎng)站數據分析工具,運營(yíng)者必備
  我們都知道,網(wǎng)站和APP上線(xiàn)后,需要進(jìn)行數據分析。如何借助一些外部數據分析工具來(lái)評估自己網(wǎng)站和APP的用戶(hù)體驗和運營(yíng)質(zhì)量是非常重要的。
  下面我們將介紹三款在國內應用廣泛的非常好用的數據分析工具,可用于網(wǎng)站統計、APP分析、小程序數據分析等用戶(hù)行為分析。
  1. 極客數
  官方網(wǎng)站:
  
  數記客是國內新一代大數據用戶(hù)行為分析平臺。支持無(wú)追點(diǎn)、前端追點(diǎn)、后端追點(diǎn)、API導入四種混合數據采集方式。自動(dòng)監測分析網(wǎng)站推廣、APP推廣、小程序推廣。它是增長(cháng)黑客必備的數據分析工具。支持APP數據分析、網(wǎng)站統計、網(wǎng)站分析、用戶(hù)畫(huà)像等應用場(chǎng)景。國內首創(chuàng )提高轉化率的數據分析模型。是用戶(hù)行為分析領(lǐng)域首款應用定量和定性分析方法的數據分析產(chǎn)品??蛻?hù)用戶(hù)行為錄屏系統以視頻的形式回放用戶(hù)行為,幫助企業(yè)快速提升用戶(hù)體驗。
  數記客的優(yōu)勢在于支持非常豐富的數據分析模型。由于采用了最新的實(shí)時(shí)OLAP分析技術(shù),保證了數據的實(shí)時(shí)性。它還支持在線(xiàn)版本和私有化部署版本。對于要求高的企業(yè)來(lái)說(shuō)是不錯的選擇。缺點(diǎn)是目前只有商業(yè)付費版本。
  2.百度統計
  官方網(wǎng)站:
  百度統計是百度推出的免費專(zhuān)業(yè)網(wǎng)站流量分析工具,可以告訴用戶(hù)訪(fǎng)問(wèn)者是如何找到和瀏覽用戶(hù)網(wǎng)站的,以及他們在網(wǎng)站上做了什么。網(wǎng)站的用戶(hù)體驗不斷提高網(wǎng)站的投資回報率。
  
  百度統計的好處是可以統計百度搜索關(guān)鍵詞的數據(畢竟是百度自己的產(chǎn)品,只為自己打開(kāi)搜索關(guān)鍵詞接口)。缺點(diǎn)是數據量大時(shí),數據查詢(xún)速度慢。此外,支持的分析模型相對較少。數據分割也不夠。
  3.友盟統計
  友盟是阿里巴巴旗下的一款APP分析工具。該工具最大的優(yōu)點(diǎn)是免費,并提供安裝、激活、留存等基本統計功能。就需求而言,還是基本能夠滿(mǎn)足的。友盟統計目前只支持APP分析,不支持網(wǎng)站分析。友盟有獨立的網(wǎng)站分析工具,但是網(wǎng)站和APP的數據無(wú)法打通。
  友盟是國內較早的APP分析工具。因為使用的技術(shù)是上一代,它的主要缺點(diǎn)是數據不能細分,實(shí)時(shí)性弱。一般只能查看幾個(gè)小時(shí)前的數據。
  以上就是我在工作中遇到和使用的三種數據分析工具。你有你想要的嗎?歡迎給我留言。

最佳實(shí)踐:python 通過(guò)k8s API采集k8s 集群信息

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 114 次瀏覽 ? 2022-11-24 06:14 ? 來(lái)自相關(guān)話(huà)題

  最佳實(shí)踐:python 通過(guò)k8s API采集k8s 集群信息
  用于在 K8s 中獲取部署的 curl 模式
  curl \
--header "Authorization: Bearer eyJhbGciOiJSUzI1NiIs_OVpAqcsnBZeqwwiwfkFWiykIobYEMgbMzbXa27r02Q_mGnqGzA6PiUq1SKDTq_SlBhAO_dCdnaZ6eOJ71ew" \
--insecure \
-X GET https://10.20.12.13:6443/apis/ ... ments
  Python 獲取 K8S API
  import requests
<p>
headers = {
&#39;Authorization&#39;: &#39;Bearer eyJhbGciOiJSUzI1NiIsImtpZCI6IERVlsdjlVMWxNd3dIOHJEMUVBV1phMEhuUkFaNUt1Z1EifQ.eyJpc3MiOiJrdWJlcmw&#39;,
}
response = requests.get(&#39;https://10.20.12.13:6443:6443/ ... 39%3B, headers=headers, verify=False)
print(response.json())
  
</p>
  獲取 K8S Pod 日志接口
  GET /api/v1/namespaces/{namespace}/pods/{name}/log
  獲取 k8s 集群信息的更多方法 kube/config
  神奇的網(wǎng)站屈服于蟒蛇的請求
  Curl to Python 請求
  更多接口參考
  Python 3.5 通過(guò) API 管理 k8s - 創(chuàng )建和刪除部署、服務(wù)
  解決方案:快播資源采集易語(yǔ)言源碼
  (71)數據采集
關(guān)鍵詞
  數據采集??軟件排行榜下載,輔助采集工具是一款采集輔助工具,用于采集特定數據信息并歸檔,數據采集工具可以適合很多人,比如銷(xiāo)售是企業(yè)和客戶(hù)的信息采集,視頻剪輯。首先是視頻數據等的采集
。采集
器工具是幫助用戶(hù)采集
特定的信息,讓人們不需要花費大量的時(shí)間和精力去搜索或者下載。輔助采集器工具是人們處理簡(jiǎn)單任務(wù)的好幫手。更多&gt;&gt;
  (112)易語(yǔ)言編程關(guān)鍵詞
  Easy Language 5.6完美破解版,免費中文編程平臺,無(wú)需使用破解補丁,安裝完成后為企業(yè)版注冊授權;Easy Language 5.11完美破解版簡(jiǎn)化了知識庫和多媒體教程,節省了安裝文件大小。Easy Language是自主研發(fā)的適合國情、不同層次、不同專(zhuān)業(yè)人士易學(xué)易用的中文編程語(yǔ)言。Easy語(yǔ)言降低了廣大計算機用戶(hù)的編程門(mén)檻,尤其是那些完全不懂英語(yǔ)或英語(yǔ)水平很低的人,使用該語(yǔ)言可以極快地進(jìn)入Windows程序編寫(xiě)的大門(mén)。更多&gt;&gt;
  VS2010 中文終極版是一個(gè)集成環(huán)境,可簡(jiǎn)化與創(chuàng )建、調試和部署應用程序相關(guān)的基本任務(wù)。使用 Visual Studio 2010 專(zhuān)業(yè)版,您可以盡情發(fā)揮您的想象力,輕松實(shí)現您的目標。借助強大的設計界面以及使設計人員和開(kāi)發(fā)人員能夠協(xié)同工作的能力,釋放您的創(chuàng )造力并實(shí)現您的夢(mèng)想。在越來(lái)越多的平臺(包括 Silverlight、SharePoint 和云應用程序)的個(gè)性化環(huán)境中工作,使用現有技術(shù)加快編碼過(guò)程。對測試先行開(kāi)發(fā)和新調試工具的集成支持讓您可以快速找到并修復所有錯誤,并幫助確保高質(zhì)量的解決方案。
  支持的操作系統:
  Windows 7的; Windows Server 2003 R2(32 位 x86);Windows Server 2003 R2 x64 版本;Windows Server 2003 服務(wù)包 2;Windows 服務(wù)器 2008 R2;3個(gè)
  Windows XP (x86) Service Pack 3 – 除 Starter Edition 之外的所有版本
  Windows Vista(x86 和 x64)Service Pack 2 - 除 Starter Edition 之外的所有版本
  Windows 7(x86 和 x64)
  Windows Server 2003(x86 和 x64)Service Pack 2 – 所有版本
  如果 MSXML6 不存在,用戶(hù)需要安裝它
  Windows Server 2003 R2(x86 和 x64)- 所有版本
  Windows Server 2008(x86 和 x64)Service Pack 2 – 所有版本
  Windows Server 2008 R2 (x64) - 所有版本
  Visual Studio 2010 中的新增功能
  它將是一個(gè)經(jīng)典版本,相當于當年的6.0版本。
  新功能還包括:
  (1) C#4.0中的動(dòng)態(tài)類(lèi)型和動(dòng)態(tài)規劃;
  (2) 多顯示器支持;
  
  (3)利用Visual Studio 2010的特性支持TDD;
 ?。ㄋ模┖笄谵k公室;
  (5) 快速搜索功能;
  (6) C++0x的新特性;
  (7) IDE增強;
  (8) 使用Visual C++ 2010創(chuàng )建Ribbon界面;
  (9) 基于.NET平臺的新語(yǔ)言
  根據微軟發(fā)布的一份官方文件,Visual Studio 2010 和.NET Framework 4.0 將在以下五個(gè)方面進(jìn)行創(chuàng )新: ·民主化的應用程序生命周期管理 在一個(gè)組織中,應用程序生命周期管理(ALM)將涉及多個(gè)角色。但并非流程中的每個(gè)角色在傳統意義上都是平等的。Visual Studio Team System 2010 將繼續為組織內的應用程序生命周期管理流程創(chuàng )建一個(gè)功能相同的共享平臺?!ぞo跟新技術(shù)潮流 每一年,行業(yè)內的新技術(shù)、新趨勢層出不窮。借助 Visual Studio 2010,微軟將為開(kāi)發(fā)人員提供合適的工具和框架,以支持軟件開(kāi)發(fā)中的最新架構、開(kāi)發(fā)和部署?!?給開(kāi)發(fā)者驚喜 從第一個(gè)版本的 Visual Studio 開(kāi)始,微軟就將提高開(kāi)發(fā)者的生產(chǎn)力和靈活性作為其目標。Visual Studio 2010 將繼續關(guān)注并顯著(zhù)改善核心開(kāi)發(fā)人員體驗?!は乱淮脚_浪潮的引領(lǐng)者 微軟將繼續投入市場(chǎng)領(lǐng)先的操作系統、工具軟件和服務(wù)器平臺,為客戶(hù)創(chuàng )造更高的價(jià)值。使用 Visual Studio 2010,您將能夠在下一代應用程序平臺上為您的客戶(hù)創(chuàng )建出色的解決方案?!?跨部門(mén)應用程序 客戶(hù)將在各種規模的組織內創(chuàng )建應用程序,從單個(gè)部門(mén)到整個(gè)企業(yè)。Visual Studio 2010 將繼續關(guān)注并顯著(zhù)改善核心開(kāi)發(fā)人員體驗?!は乱淮脚_浪潮的引領(lǐng)者 微軟將繼續投入市場(chǎng)領(lǐng)先的操作系統、工具軟件和服務(wù)器平臺,為客戶(hù)創(chuàng )造更高的價(jià)值。使用 Visual Studio 2010,您將能夠在下一代應用程序平臺上為您的客戶(hù)創(chuàng )建出色的解決方案?!?跨部門(mén)應用程序 客戶(hù)將在各種規模的組織內創(chuàng )建應用程序,從單個(gè)部門(mén)到整個(gè)企業(yè)。Visual Studio 2010 將繼續關(guān)注并顯著(zhù)改善核心開(kāi)發(fā)人員體驗?!は乱淮脚_浪潮的引領(lǐng)者 微軟將繼續投入市場(chǎng)領(lǐng)先的操作系統、工具軟件和服務(wù)器平臺,為客戶(hù)創(chuàng )造更高的價(jià)值。使用 Visual Studio 2010,您將能夠在下一代應用程序平臺上為您的客戶(hù)創(chuàng )建出色的解決方案?!?跨部門(mén)應用程序 客戶(hù)將在各種規模的組織內創(chuàng )建應用程序,從單個(gè)部門(mén)到整個(gè)企業(yè)。工具軟件和服務(wù)器平臺,為客戶(hù)創(chuàng )造更高的價(jià)值。使用 Visual Studio 2010,您將能夠在下一代應用程序平臺上為您的客戶(hù)創(chuàng )建出色的解決方案?!?跨部門(mén)應用程序 客戶(hù)將在各種規模的組織內創(chuàng )建應用程序,從單個(gè)部門(mén)到整個(gè)企業(yè)。工具軟件和服務(wù)器平臺,為客戶(hù)創(chuàng )造更高的價(jià)值。使用 Visual Studio 2010,您將能夠在下一代應用程序平臺上為您的客戶(hù)創(chuàng )建出色的解決方案?!?跨部門(mén)應用程序 客戶(hù)將在各種規模的組織內創(chuàng )建應用程序,從單個(gè)部門(mén)到整個(gè)企業(yè)。
  Visual Studio 2010 將確保支持如此廣泛的應用程序開(kāi)發(fā)。
  指示:
  創(chuàng )建您的第一個(gè) C 項目
  運行vs10,點(diǎn)擊【新建項目】,會(huì )彈出如下新建項目框,選擇【Visual c++】-&gt;【win32控制臺應用程序】,輸入項目名稱(chēng)和位置,或者選擇默認,然后點(diǎn)擊【確定】。
  彈出如下應用向導框,點(diǎn)擊【下一步】
  選擇【空項目】,點(diǎn)擊【完成】
  然后,在項目的左邊一欄,可以看到新建的項目(我創(chuàng )建的是test),然后,右擊【源文件】-&gt;【添加】-&gt;【新建項】,如下:
  然后會(huì )彈出Add New Item框,如下,選擇【c++文件】,輸入文件名,點(diǎn)擊【Add】。
  此時(shí)在左邊的源文件下可以看到新建的文件,比如我創(chuàng )建的main.c文件,然后進(jìn)入程序按【Ctrl+F5】運行。示例如下:
  
  按【F5】調試。
  Visual Studio Community 2015 是免費的,具有用于為 Windows、iOS、Android 設備或云服務(wù)器開(kāi)發(fā)桌面、移動(dòng)和 Web 應用程序的全套功能。該版本面向小型公司、初創(chuàng )企業(yè)、學(xué)生和開(kāi)源軟件開(kāi)發(fā)人員開(kāi)發(fā)的非企業(yè)軟件。提供統一的客戶(hù)端和服務(wù)端開(kāi)發(fā)平臺,支持移動(dòng)端跨平臺開(kāi)發(fā),具有可擴展性,具有先進(jìn)高效的編程功能。
  軟件介紹:
  VS2015版本新增多平臺開(kāi)發(fā)工具,支持開(kāi)發(fā)全平臺Win10通用應用,包括Windows10手機、Win10 PC、Xbox和HoloLens增強現實(shí)等。此外,通過(guò)VS2015,開(kāi)發(fā)者還可以使用語(yǔ)言或 Apache Cordova、Xamarin 或 C++ 等技術(shù),為 iOS 和 Android 平臺開(kāi)發(fā)應用程序。對于WEB 和服務(wù)器開(kāi)發(fā),您可以使用Python、Node.js 技術(shù)以及C#、Visual Basic 或F# 語(yǔ)言。
  Visual Studio 2015今天如期發(fā)布了正式版。Visual Studio 2015 包括許多新功能和更新,例如通用 Windows 應用程序開(kāi)發(fā)工具、適用于 iOS、Android、Windows 的跨平臺移動(dòng)開(kāi)發(fā)工具(包括 Xamarin、Apache Cordova、Unity)、可移植 C++ 庫、本機 Active C++ 模板等。 ,對Cordova、Xamarin、C++的跨平臺支持都很好。它可以讓您通過(guò)一個(gè)工具完成iOS、Android、Windows平臺的應用。絕對是Windows 10乃至跨平臺開(kāi)發(fā)的首選。
  跨平臺支持已經(jīng)成為VS2015最新的DNA。在智能手機APP的開(kāi)發(fā)中,無(wú)論是針對什么樣的智能設備,無(wú)論是支持Native應用還是基于HTML5的混合應用,都可以借助VS2015強大的編碼、調試、調試等功能幫助程序員快速開(kāi)發(fā)。和智能提示。特別是VS2015已經(jīng)集成了Xamarin的安裝包,Visual Studio也可以為Apple Watch開(kāi)發(fā)應用了!
  本次發(fā)布的Visual Studio 2015正式版收錄
32/64位安裝鏡像和相關(guān)工具。有標準版、企業(yè)版、專(zhuān)業(yè)版、測試專(zhuān)業(yè)版、精簡(jiǎn)版等多種版本。它支持簡(jiǎn)體中文和其他語(yǔ)言。MSDN 開(kāi)發(fā)人員現在可以下載并使用它。
  同時(shí),Visual Studio 2013 Update 5和.NET Framework 4.6正式版也已經(jīng)發(fā)布,但Team Foundation Server 2015還沒(méi)有發(fā)布,只給出了一個(gè)Team Foundation Server 2013 Update 5。
  整個(gè) Visual Studio 2015 包括 Visual Studio、Visual Studio Online 和 Visual Studio Code。Visual Studio Online 提供完整、輕量級、基于 Microsoft 云平臺的軟件生命周期支持。Online版本和TFS2015為開(kāi)發(fā)團隊提供了基于DevOps理念的完整解決方案。幫助開(kāi)發(fā)者完成應用管理、工作、開(kāi)發(fā)、聯(lián)調、測試、發(fā)布的全生命周期,提供高效工具完成應用使用狀態(tài)和使用監控。
  Visual Code 提供了微軟第一個(gè)跨平臺開(kāi)發(fā)工具,支持開(kāi)發(fā)者在windows、linux、Mac 上開(kāi)發(fā)ASP.NET 或NodeJS 應用程序。
  微軟的其他公告包括:
  Visual Studio Community 2013 – 新的、免費的、全功能的 Visual Studio 版本,可用于開(kāi)發(fā)桌面、移動(dòng)、Web 和云應用程序,只允許開(kāi)發(fā)非企業(yè)應用程序。
  Visual Studio 2015 預覽版和 .NET 2015 預覽版 – Visual Studio 2015 支持 Windows、iOS 和 Android 應用程序的跨平臺開(kāi)發(fā),內置對 Apache Cordova 的支持。微軟和 Xamarin 宣布將簡(jiǎn)化在 Visual Studio 中安裝 Xamarin 的過(guò)程,并宣布將在今年年底發(fā)布的免費版 Xamarin Starter Edition 中增加對 Visual Studio 的支持。
  Visual Studio 2013 Update 4 已發(fā)布,具有大量改進(jìn)和多項新功能。
  Visual Studio Online DevOps:發(fā)布管理服務(wù)和云部署項目。
  微軟還回顧了過(guò)去的一些成就。目前,微軟擁有 18 億個(gè) .NET 安裝量、700 萬(wàn)次 Visual Studio 2013 下載量和 170 萬(wàn)個(gè) Visual Studio Online 注冊帳戶(hù)。
  vs2015各版本價(jià)格:
  價(jià)格方面,Visual Studio Enterprise 2015首年年費為5999美元,續訂價(jià)格為2569美元。這個(gè)價(jià)格明顯低于 Visual Studio Ultimate 的 $13299/$4249,也低于 Visual Studio Premium 的 $6119/2569。
  對于參與微軟開(kāi)源項目的客戶(hù),Visual Studio Enterprise 2015最終官方售價(jià)為每人每年4466美元,續費1640美元。注冊該計劃的客戶(hù)可以以 7,793 美元的新用戶(hù)價(jià)格和 2,861 美元的續訂價(jià)格購買(mǎi) Visual Studio Ultimate 2013。Visual Studio Premium 2013 的官方價(jià)格為新用戶(hù) 3,573 美元,續訂用戶(hù) 1,312 美元。
  微軟表示,對于批量許可,Visual Studio 2015 Enterprise 的成本將比 VS 2013 Ultimate 低 43%,而對于零售,VS 2015 Enterprise 實(shí)際上將比 VS 2013 便宜 55%。
  Visual Studio 2015 正式發(fā)布后,現有的 Visual Studio Ultimate 和 Visual Studio Premium 用戶(hù)將通過(guò) MSDN 自動(dòng)升級到 Visual Studio Enterprise。 查看全部

  最佳實(shí)踐:python 通過(guò)k8s API采集k8s 集群信息
  用于在 K8s 中獲取部署的 curl 模式
  curl \
--header "Authorization: Bearer eyJhbGciOiJSUzI1NiIs_OVpAqcsnBZeqwwiwfkFWiykIobYEMgbMzbXa27r02Q_mGnqGzA6PiUq1SKDTq_SlBhAO_dCdnaZ6eOJ71ew" \
--insecure \
-X GET https://10.20.12.13:6443/apis/ ... ments
  Python 獲取 K8S API
  import requests
<p>
headers = {
&#39;Authorization&#39;: &#39;Bearer eyJhbGciOiJSUzI1NiIsImtpZCI6IERVlsdjlVMWxNd3dIOHJEMUVBV1phMEhuUkFaNUt1Z1EifQ.eyJpc3MiOiJrdWJlcmw&#39;,
}
response = requests.get(&#39;https://10.20.12.13:6443:6443/ ... 39%3B, headers=headers, verify=False)
print(response.json())
  
</p>
  獲取 K8S Pod 日志接口
  GET /api/v1/namespaces/{namespace}/pods/{name}/log
  獲取 k8s 集群信息的更多方法 kube/config
  神奇的網(wǎng)站屈服于蟒蛇的請求
  Curl to Python 請求
  更多接口參考
  Python 3.5 通過(guò) API 管理 k8s - 創(chuàng )建和刪除部署、服務(wù)
  解決方案:快播資源采集易語(yǔ)言源碼
  (71)數據采集
關(guān)鍵詞
  數據采集??軟件排行榜下載,輔助采集工具是一款采集輔助工具,用于采集特定數據信息并歸檔,數據采集工具可以適合很多人,比如銷(xiāo)售是企業(yè)和客戶(hù)的信息采集,視頻剪輯。首先是視頻數據等的采集
。采集
器工具是幫助用戶(hù)采集
特定的信息,讓人們不需要花費大量的時(shí)間和精力去搜索或者下載。輔助采集器工具是人們處理簡(jiǎn)單任務(wù)的好幫手。更多&gt;&gt;
  (112)易語(yǔ)言編程關(guān)鍵詞
  Easy Language 5.6完美破解版,免費中文編程平臺,無(wú)需使用破解補丁,安裝完成后為企業(yè)版注冊授權;Easy Language 5.11完美破解版簡(jiǎn)化了知識庫和多媒體教程,節省了安裝文件大小。Easy Language是自主研發(fā)的適合國情、不同層次、不同專(zhuān)業(yè)人士易學(xué)易用的中文編程語(yǔ)言。Easy語(yǔ)言降低了廣大計算機用戶(hù)的編程門(mén)檻,尤其是那些完全不懂英語(yǔ)或英語(yǔ)水平很低的人,使用該語(yǔ)言可以極快地進(jìn)入Windows程序編寫(xiě)的大門(mén)。更多&gt;&gt;
  VS2010 中文終極版是一個(gè)集成環(huán)境,可簡(jiǎn)化與創(chuàng )建、調試和部署應用程序相關(guān)的基本任務(wù)。使用 Visual Studio 2010 專(zhuān)業(yè)版,您可以盡情發(fā)揮您的想象力,輕松實(shí)現您的目標。借助強大的設計界面以及使設計人員和開(kāi)發(fā)人員能夠協(xié)同工作的能力,釋放您的創(chuàng )造力并實(shí)現您的夢(mèng)想。在越來(lái)越多的平臺(包括 Silverlight、SharePoint 和云應用程序)的個(gè)性化環(huán)境中工作,使用現有技術(shù)加快編碼過(guò)程。對測試先行開(kāi)發(fā)和新調試工具的集成支持讓您可以快速找到并修復所有錯誤,并幫助確保高質(zhì)量的解決方案。
  支持的操作系統:
  Windows 7的; Windows Server 2003 R2(32 位 x86);Windows Server 2003 R2 x64 版本;Windows Server 2003 服務(wù)包 2;Windows 服務(wù)器 2008 R2;3個(gè)
  Windows XP (x86) Service Pack 3 – 除 Starter Edition 之外的所有版本
  Windows Vista(x86 和 x64)Service Pack 2 - 除 Starter Edition 之外的所有版本
  Windows 7(x86 和 x64)
  Windows Server 2003(x86 和 x64)Service Pack 2 – 所有版本
  如果 MSXML6 不存在,用戶(hù)需要安裝它
  Windows Server 2003 R2(x86 和 x64)- 所有版本
  Windows Server 2008(x86 和 x64)Service Pack 2 – 所有版本
  Windows Server 2008 R2 (x64) - 所有版本
  Visual Studio 2010 中的新增功能
  它將是一個(gè)經(jīng)典版本,相當于當年的6.0版本。
  新功能還包括:
  (1) C#4.0中的動(dòng)態(tài)類(lèi)型和動(dòng)態(tài)規劃;
  (2) 多顯示器支持;
  
  (3)利用Visual Studio 2010的特性支持TDD;
 ?。ㄋ模┖笄谵k公室;
  (5) 快速搜索功能;
  (6) C++0x的新特性;
  (7) IDE增強;
  (8) 使用Visual C++ 2010創(chuàng )建Ribbon界面;
  (9) 基于.NET平臺的新語(yǔ)言
  根據微軟發(fā)布的一份官方文件,Visual Studio 2010 和.NET Framework 4.0 將在以下五個(gè)方面進(jìn)行創(chuàng )新: ·民主化的應用程序生命周期管理 在一個(gè)組織中,應用程序生命周期管理(ALM)將涉及多個(gè)角色。但并非流程中的每個(gè)角色在傳統意義上都是平等的。Visual Studio Team System 2010 將繼續為組織內的應用程序生命周期管理流程創(chuàng )建一個(gè)功能相同的共享平臺?!ぞo跟新技術(shù)潮流 每一年,行業(yè)內的新技術(shù)、新趨勢層出不窮。借助 Visual Studio 2010,微軟將為開(kāi)發(fā)人員提供合適的工具和框架,以支持軟件開(kāi)發(fā)中的最新架構、開(kāi)發(fā)和部署?!?給開(kāi)發(fā)者驚喜 從第一個(gè)版本的 Visual Studio 開(kāi)始,微軟就將提高開(kāi)發(fā)者的生產(chǎn)力和靈活性作為其目標。Visual Studio 2010 將繼續關(guān)注并顯著(zhù)改善核心開(kāi)發(fā)人員體驗?!は乱淮脚_浪潮的引領(lǐng)者 微軟將繼續投入市場(chǎng)領(lǐng)先的操作系統、工具軟件和服務(wù)器平臺,為客戶(hù)創(chuàng )造更高的價(jià)值。使用 Visual Studio 2010,您將能夠在下一代應用程序平臺上為您的客戶(hù)創(chuàng )建出色的解決方案?!?跨部門(mén)應用程序 客戶(hù)將在各種規模的組織內創(chuàng )建應用程序,從單個(gè)部門(mén)到整個(gè)企業(yè)。Visual Studio 2010 將繼續關(guān)注并顯著(zhù)改善核心開(kāi)發(fā)人員體驗?!は乱淮脚_浪潮的引領(lǐng)者 微軟將繼續投入市場(chǎng)領(lǐng)先的操作系統、工具軟件和服務(wù)器平臺,為客戶(hù)創(chuàng )造更高的價(jià)值。使用 Visual Studio 2010,您將能夠在下一代應用程序平臺上為您的客戶(hù)創(chuàng )建出色的解決方案?!?跨部門(mén)應用程序 客戶(hù)將在各種規模的組織內創(chuàng )建應用程序,從單個(gè)部門(mén)到整個(gè)企業(yè)。Visual Studio 2010 將繼續關(guān)注并顯著(zhù)改善核心開(kāi)發(fā)人員體驗?!は乱淮脚_浪潮的引領(lǐng)者 微軟將繼續投入市場(chǎng)領(lǐng)先的操作系統、工具軟件和服務(wù)器平臺,為客戶(hù)創(chuàng )造更高的價(jià)值。使用 Visual Studio 2010,您將能夠在下一代應用程序平臺上為您的客戶(hù)創(chuàng )建出色的解決方案?!?跨部門(mén)應用程序 客戶(hù)將在各種規模的組織內創(chuàng )建應用程序,從單個(gè)部門(mén)到整個(gè)企業(yè)。工具軟件和服務(wù)器平臺,為客戶(hù)創(chuàng )造更高的價(jià)值。使用 Visual Studio 2010,您將能夠在下一代應用程序平臺上為您的客戶(hù)創(chuàng )建出色的解決方案?!?跨部門(mén)應用程序 客戶(hù)將在各種規模的組織內創(chuàng )建應用程序,從單個(gè)部門(mén)到整個(gè)企業(yè)。工具軟件和服務(wù)器平臺,為客戶(hù)創(chuàng )造更高的價(jià)值。使用 Visual Studio 2010,您將能夠在下一代應用程序平臺上為您的客戶(hù)創(chuàng )建出色的解決方案?!?跨部門(mén)應用程序 客戶(hù)將在各種規模的組織內創(chuàng )建應用程序,從單個(gè)部門(mén)到整個(gè)企業(yè)。
  Visual Studio 2010 將確保支持如此廣泛的應用程序開(kāi)發(fā)。
  指示:
  創(chuàng )建您的第一個(gè) C 項目
  運行vs10,點(diǎn)擊【新建項目】,會(huì )彈出如下新建項目框,選擇【Visual c++】-&gt;【win32控制臺應用程序】,輸入項目名稱(chēng)和位置,或者選擇默認,然后點(diǎn)擊【確定】。
  彈出如下應用向導框,點(diǎn)擊【下一步】
  選擇【空項目】,點(diǎn)擊【完成】
  然后,在項目的左邊一欄,可以看到新建的項目(我創(chuàng )建的是test),然后,右擊【源文件】-&gt;【添加】-&gt;【新建項】,如下:
  然后會(huì )彈出Add New Item框,如下,選擇【c++文件】,輸入文件名,點(diǎn)擊【Add】。
  此時(shí)在左邊的源文件下可以看到新建的文件,比如我創(chuàng )建的main.c文件,然后進(jìn)入程序按【Ctrl+F5】運行。示例如下:
  
  按【F5】調試。
  Visual Studio Community 2015 是免費的,具有用于為 Windows、iOS、Android 設備或云服務(wù)器開(kāi)發(fā)桌面、移動(dòng)和 Web 應用程序的全套功能。該版本面向小型公司、初創(chuàng )企業(yè)、學(xué)生和開(kāi)源軟件開(kāi)發(fā)人員開(kāi)發(fā)的非企業(yè)軟件。提供統一的客戶(hù)端和服務(wù)端開(kāi)發(fā)平臺,支持移動(dòng)端跨平臺開(kāi)發(fā),具有可擴展性,具有先進(jìn)高效的編程功能。
  軟件介紹:
  VS2015版本新增多平臺開(kāi)發(fā)工具,支持開(kāi)發(fā)全平臺Win10通用應用,包括Windows10手機、Win10 PC、Xbox和HoloLens增強現實(shí)等。此外,通過(guò)VS2015,開(kāi)發(fā)者還可以使用語(yǔ)言或 Apache Cordova、Xamarin 或 C++ 等技術(shù),為 iOS 和 Android 平臺開(kāi)發(fā)應用程序。對于WEB 和服務(wù)器開(kāi)發(fā),您可以使用Python、Node.js 技術(shù)以及C#、Visual Basic 或F# 語(yǔ)言。
  Visual Studio 2015今天如期發(fā)布了正式版。Visual Studio 2015 包括許多新功能和更新,例如通用 Windows 應用程序開(kāi)發(fā)工具、適用于 iOS、Android、Windows 的跨平臺移動(dòng)開(kāi)發(fā)工具(包括 Xamarin、Apache Cordova、Unity)、可移植 C++ 庫、本機 Active C++ 模板等。 ,對Cordova、Xamarin、C++的跨平臺支持都很好。它可以讓您通過(guò)一個(gè)工具完成iOS、Android、Windows平臺的應用。絕對是Windows 10乃至跨平臺開(kāi)發(fā)的首選。
  跨平臺支持已經(jīng)成為VS2015最新的DNA。在智能手機APP的開(kāi)發(fā)中,無(wú)論是針對什么樣的智能設備,無(wú)論是支持Native應用還是基于HTML5的混合應用,都可以借助VS2015強大的編碼、調試、調試等功能幫助程序員快速開(kāi)發(fā)。和智能提示。特別是VS2015已經(jīng)集成了Xamarin的安裝包,Visual Studio也可以為Apple Watch開(kāi)發(fā)應用了!
  本次發(fā)布的Visual Studio 2015正式版收錄
32/64位安裝鏡像和相關(guān)工具。有標準版、企業(yè)版、專(zhuān)業(yè)版、測試專(zhuān)業(yè)版、精簡(jiǎn)版等多種版本。它支持簡(jiǎn)體中文和其他語(yǔ)言。MSDN 開(kāi)發(fā)人員現在可以下載并使用它。
  同時(shí),Visual Studio 2013 Update 5和.NET Framework 4.6正式版也已經(jīng)發(fā)布,但Team Foundation Server 2015還沒(méi)有發(fā)布,只給出了一個(gè)Team Foundation Server 2013 Update 5。
  整個(gè) Visual Studio 2015 包括 Visual Studio、Visual Studio Online 和 Visual Studio Code。Visual Studio Online 提供完整、輕量級、基于 Microsoft 云平臺的軟件生命周期支持。Online版本和TFS2015為開(kāi)發(fā)團隊提供了基于DevOps理念的完整解決方案。幫助開(kāi)發(fā)者完成應用管理、工作、開(kāi)發(fā)、聯(lián)調、測試、發(fā)布的全生命周期,提供高效工具完成應用使用狀態(tài)和使用監控。
  Visual Code 提供了微軟第一個(gè)跨平臺開(kāi)發(fā)工具,支持開(kāi)發(fā)者在windows、linux、Mac 上開(kāi)發(fā)ASP.NET 或NodeJS 應用程序。
  微軟的其他公告包括:
  Visual Studio Community 2013 – 新的、免費的、全功能的 Visual Studio 版本,可用于開(kāi)發(fā)桌面、移動(dòng)、Web 和云應用程序,只允許開(kāi)發(fā)非企業(yè)應用程序。
  Visual Studio 2015 預覽版和 .NET 2015 預覽版 – Visual Studio 2015 支持 Windows、iOS 和 Android 應用程序的跨平臺開(kāi)發(fā),內置對 Apache Cordova 的支持。微軟和 Xamarin 宣布將簡(jiǎn)化在 Visual Studio 中安裝 Xamarin 的過(guò)程,并宣布將在今年年底發(fā)布的免費版 Xamarin Starter Edition 中增加對 Visual Studio 的支持。
  Visual Studio 2013 Update 4 已發(fā)布,具有大量改進(jìn)和多項新功能。
  Visual Studio Online DevOps:發(fā)布管理服務(wù)和云部署項目。
  微軟還回顧了過(guò)去的一些成就。目前,微軟擁有 18 億個(gè) .NET 安裝量、700 萬(wàn)次 Visual Studio 2013 下載量和 170 萬(wàn)個(gè) Visual Studio Online 注冊帳戶(hù)。
  vs2015各版本價(jià)格:
  價(jià)格方面,Visual Studio Enterprise 2015首年年費為5999美元,續訂價(jià)格為2569美元。這個(gè)價(jià)格明顯低于 Visual Studio Ultimate 的 $13299/$4249,也低于 Visual Studio Premium 的 $6119/2569。
  對于參與微軟開(kāi)源項目的客戶(hù),Visual Studio Enterprise 2015最終官方售價(jià)為每人每年4466美元,續費1640美元。注冊該計劃的客戶(hù)可以以 7,793 美元的新用戶(hù)價(jià)格和 2,861 美元的續訂價(jià)格購買(mǎi) Visual Studio Ultimate 2013。Visual Studio Premium 2013 的官方價(jià)格為新用戶(hù) 3,573 美元,續訂用戶(hù) 1,312 美元。
  微軟表示,對于批量許可,Visual Studio 2015 Enterprise 的成本將比 VS 2013 Ultimate 低 43%,而對于零售,VS 2015 Enterprise 實(shí)際上將比 VS 2013 便宜 55%。
  Visual Studio 2015 正式發(fā)布后,現有的 Visual Studio Ultimate 和 Visual Studio Premium 用戶(hù)將通過(guò) MSDN 自動(dòng)升級到 Visual Studio Enterprise。

匯總:數據收集的方法有哪些,數據收集的10個(gè)方法?

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 447 次瀏覽 ? 2022-11-24 00:36 ? 來(lái)自相關(guān)話(huà)題

  匯總:數據收集的方法有哪些,數據收集的10個(gè)方法?
  00 基本概念
  數據集,也稱(chēng)為數據集、數據集合或數據集合,是由數據組成的集合。
  數據集(或數據集)是數據的集合,通常以表格形式存在。每列代表一個(gè)特定的變量。每行對應于成員數據集的一個(gè)問(wèn)題。它列出了每個(gè)變量的值,例如對象的高度和重量或隨機數的值。每個(gè)值稱(chēng)為一個(gè)數據配置文件。該數據集的數據可能包括一個(gè)或多個(gè)與行數相對應的成員。
  數據采集??(Data Acquisition,簡(jiǎn)稱(chēng)DAQ)是指自動(dòng)采集傳感器等被測器件等模擬和數字被測單元的非電信號或電信號,并傳送給上位機進(jìn)行分析處理。數據采集??系統是以計算機或其他專(zhuān)用測試平臺為基礎,結合測量軟硬件產(chǎn)品的靈活的、用戶(hù)自定義的測量系統。
  在計算機廣泛使用的今天,數據采集的重要性非常顯著(zhù)。它是連接計算機與外部物理世界的橋梁。獲取各種類(lèi)型信號的難易程度差異很大。在實(shí)際采集中,噪聲也可能造成一些麻煩。在采集
數據的時(shí)候,有一些基本原則需要注意,需要解決的實(shí)際問(wèn)題也比較多。
  根據網(wǎng)絡(luò )和個(gè)人學(xué)習,提供十種數據采集方式,順序如下:
  01 公共數據集
  開(kāi)放數據,開(kāi)放數據,大數據新詞。
  2020年7月,大數據戰略重點(diǎn)實(shí)驗室全國科學(xué)技術(shù)術(shù)語(yǔ)審定研究基地收錄審定的第一批108個(gè)大數據新詞報送國家審定委科學(xué)技術(shù)術(shù)語(yǔ)報批并向社會(huì )公開(kāi)試行。
  定義:開(kāi)放數據是一種理念和實(shí)踐,它要求任何人都可以自由訪(fǎng)問(wèn)某些數據,而不受版權、專(zhuān)利或其他機制的限制。
  網(wǎng)上有各種開(kāi)發(fā)數據集。我們只需要找到對應的網(wǎng)站獲取下載鏈接,就可以得到不同領(lǐng)域的數據集。一般來(lái)說(shuō),這些數據集是為了幫助學(xué)習者或者數據分析人員,也有一些是為了舉辦各種比賽,為了找到更好的數據分析方案和結果。
  關(guān)于公開(kāi)資料,我在這里整理了一份,
  互聯(lián)網(wǎng)上有哪些公開(kāi)的數據源可以用來(lái)做數據分析?– PurStar – 博客園
  當然還不夠全面,所以我們可以通過(guò)百度、bing搜索等找到各種整理好的博客或者導航,找到我們想要的數據集,方便下一步的數據分析。
  02 數據報采集
  要了解數據報集合,首先要了解什么是數據報?數據報的定義如下:
  從上面的定義不難看出數據報是計算機網(wǎng)絡(luò )中的一個(gè)概念,所以我們可以使用一些抓包工具來(lái)獲取數據報的相關(guān)數據,比如常見(jiàn)的Wireshark,簡(jiǎn)單介紹如下:
  除了Wireshark,類(lèi)似的工具還有fiddler、Charles、Firebug、httpwatch、SmartSniff、……等,對網(wǎng)絡(luò )原理或者網(wǎng)絡(luò )安全感興趣的朋友可以試試這些工具!
  03 網(wǎng)絡(luò )爬蟲(chóng)
  網(wǎng)絡(luò )爬蟲(chóng)的定義如下:
  通過(guò)網(wǎng)絡(luò )爬蟲(chóng),我們可以爬取存在于網(wǎng)絡(luò )中的各種數據,并將爬取到的數據按照一定的格式存儲在指定的數據存儲文件系統或數據庫中,以方便下一步的數據整理或數據采集
. 分析。
  根據系統結構和實(shí)現技術(shù),網(wǎng)絡(luò )爬蟲(chóng)大致可以分為以下幾種類(lèi)型:
  實(shí)際的網(wǎng)絡(luò )爬蟲(chóng)系統通常是由多種爬蟲(chóng)技術(shù)組合實(shí)現的。
  3.1 通用網(wǎng)絡(luò )爬蟲(chóng)
  通用網(wǎng)絡(luò )爬蟲(chóng)也稱(chēng)為可擴展網(wǎng)絡(luò )爬蟲(chóng)。其爬取對象從一些種子URL擴展到整個(gè)Web,主要為門(mén)戶(hù)網(wǎng)站搜索引擎和大型Web服務(wù)商采集
數據。由于商業(yè)原因,他們的技術(shù)細節很少公布。這類(lèi)網(wǎng)絡(luò )爬蟲(chóng)的爬取范圍和數量巨大,對爬取速度和存儲空間要求高,對爬取頁(yè)面的順序要求相對較低。同時(shí),由于需要刷新的頁(yè)面太多,通常采用并行工作的方式,但耗時(shí)較長(cháng)。刷新頁(yè)面需要時(shí)間。雖然存在一定的缺陷,但一般的網(wǎng)絡(luò )爬蟲(chóng)適用于搜索引擎搜索范圍廣泛的主題,具有很強的應用價(jià)值。
  3.2 關(guān)注網(wǎng)絡(luò )爬蟲(chóng)
  Focused Crawler,也稱(chēng)為T(mén)opical Crawler,是指一種網(wǎng)絡(luò )爬蟲(chóng),它有選擇地爬取與預先定義的主題相關(guān)的頁(yè)面。與通用網(wǎng)絡(luò )爬蟲(chóng)相比,專(zhuān)注爬蟲(chóng)只需要爬取與主題相關(guān)的頁(yè)面,大大節省了硬件和網(wǎng)絡(luò )資源。存頁(yè)數也因為數量少更新快,也能滿(mǎn)足特定領(lǐng)域的一些特定人群。信息需求。
  3.3 增量網(wǎng)絡(luò )爬蟲(chóng)
  增量式網(wǎng)絡(luò )爬蟲(chóng)(Incremental Web Crawler)是指增量更新下載的網(wǎng)頁(yè),只爬取新生成或變化的網(wǎng)頁(yè)的爬蟲(chóng)??梢栽谝欢ǔ潭壬媳WC爬取的頁(yè)面盡可能的新。頁(yè)。與周期性爬取和刷新頁(yè)面的網(wǎng)絡(luò )爬蟲(chóng)相比,增量爬蟲(chóng)只在需要時(shí)爬取新生成或更新的頁(yè)面,不會(huì )重新下載沒(méi)有變化的頁(yè)面,可以有效減少數據下載量并及時(shí)更新爬取的網(wǎng)頁(yè)pages 減少了時(shí)間和空間的消耗,但是增加了爬取算法的復雜度和實(shí)現難度。增量網(wǎng)絡(luò )爬蟲(chóng)架構[包括爬取模塊、排序模塊、更新模塊、本地頁(yè)面集、待爬URL集、本地頁(yè)面URL集。
  3.4 深網(wǎng)爬蟲(chóng)
  網(wǎng)頁(yè)按其存在方式可分為表層網(wǎng)頁(yè)(Surface Web)和深層網(wǎng)頁(yè)(Deep Web,又稱(chēng)Invisible Web Pages或Hidden Web)。表面網(wǎng)頁(yè)是指可以被傳統搜索引擎收錄的頁(yè)面,主要由可以通過(guò)超鏈接到達的靜態(tài)網(wǎng)頁(yè)組成。深網(wǎng)是那些大部分內容無(wú)法通過(guò)靜態(tài)鏈接獲得的網(wǎng)頁(yè),隱藏在搜索表單后面,并且只有在用戶(hù)提交一些 關(guān)鍵詞 時(shí)才可用。例如,那些內容只有在用戶(hù)注冊后才能看到的網(wǎng)頁(yè)就屬于深網(wǎng)。2000年,光明星球指出,Deep Web的可訪(fǎng)問(wèn)信息容量是Surface Web的數百倍,是互聯(lián)網(wǎng)上規模最大、發(fā)展最快的新信息資源。
  3.5 學(xué)習資料推薦
  其實(shí)我們只要打開(kāi)一些網(wǎng)購平臺,搜索爬蟲(chóng),就會(huì )發(fā)現彈出來(lái)很多關(guān)于爬蟲(chóng)的書(shū)籍,基本上都是python的,毫不夸張的說(shuō),很多書(shū)籍的內容都會(huì )涉及到一個(gè)Python網(wǎng)絡(luò )爬蟲(chóng)——Scrapy。
  相應的書(shū)籍我這里就不介紹了。網(wǎng)購平臺的銷(xiāo)量和知名度已經(jīng)告訴你,你應該學(xué)習那些資料。另外,這里為一些沒(méi)有編程基礎的朋友提供一些傻瓜式的爬蟲(chóng)。它們的功能非常強大。對于沒(méi)有編程基礎又想體驗和使用爬蟲(chóng)的朋友來(lái)說(shuō)非常方便。參考鏈接如下:
  不會(huì )編程也能用的幾款數據爬取工具!– PurStar – 博客園
  04 日志采集
  日志采集
也是一個(gè)比較常見(jiàn)的場(chǎng)景。采集
的數據可用于監控硬件設備或軟件系統的運行狀態(tài)。當出現問(wèn)題時(shí),這些數據可以為運維工程師提供一些告警和關(guān)鍵信息,有助于故障排除。
  對于一些大中型企業(yè),機房管理的設備較多,可以采用相關(guān)的日志采集方案,方便后續的數據分析和問(wèn)題解決。關(guān)于日志采集
的概念我就不多介紹了。幾種常見(jiàn)的日志采集
工具包括 Logstash、Filebeat、Flume、Fluentd、Logagent、rsyslog 和 syslog-ng。
  這里僅提供三個(gè)模型進(jìn)行比較:
  4.1 水槽
  Flume 是一種分布式、高可靠、高可用的服務(wù),用于高效采集
、聚合和移動(dòng)大量日志數據。它具有基于流數據流的簡(jiǎn)單靈活的架構。具有可調的可靠性機制、故障轉移和恢復機制,容錯能力強。它使用允許在線(xiàn)分析應用程序的簡(jiǎn)單可擴展數據模型。
  Flume旨在將基于事件的海量數據批量導入Hadoop集群。系統中的核心角色是agent,Flume采集系統由各個(gè)agent連接而成。每個(gè)代理相當于一個(gè)數據傳輸器,內部收錄
三個(gè)組件:
  source:采集源,用于連接數據源獲取數據
  sink:傳輸數據的目的地,用于將數據傳輸到下一級代理或最終存儲系統
  channel:agent內部的數據傳輸通道,用于將數據從source傳輸到sink
  4.2 日志存儲
  Logstash 是一個(gè)開(kāi)源的服務(wù)器端數據處理管道,能夠同時(shí)從多個(gè)源獲取數據、轉換數據并將數據發(fā)送到存儲庫。當數據從源傳輸到存儲庫時(shí),Logstash 過(guò)濾器會(huì )解析單個(gè)事件,識別命名字段以構建結構,并將它們轉換為通用格式,以便更輕松、更快速地進(jìn)行分析并實(shí)現業(yè)務(wù)價(jià)值。
  Logstash是基于管道的方式進(jìn)行數據處理的,管道可以理解為對數據處理過(guò)程的抽象。在管道中,數據通過(guò)上游數據源匯聚到消息隊列中,然后經(jīng)過(guò)多個(gè)工作線(xiàn)程轉換處理,最后輸出到下游組件。一個(gè) logstash 可以收錄
多個(gè)管道。
  Logstash 管道有兩個(gè)必需的元素,輸入和輸出,以及一個(gè)可選的元素過(guò)濾器:
  Input:數據輸入組件,用于連接各種數據源,訪(fǎng)問(wèn)數據,支持解碼器,允許對數據進(jìn)行編解碼操作;所需組件;
  output:數據輸出組件,用于連接下游組件,發(fā)送處理后的數據,支持解碼器,允許對數據進(jìn)行編解碼操作;必需的組件;
  filter:數據過(guò)濾組件,負責處理輸入數據;可選組件;Logstash安裝部署
  管道:數據處理流程的邏輯抽象,類(lèi)似于管道,數據從一端流入,處理后從另一端流出;一個(gè)管道包括輸入、過(guò)濾和輸出三部分,其中輸入和輸出部分是必選組件,過(guò)濾是可選組件;
  instance:一個(gè)Logstash實(shí)例,可以收錄
多個(gè)數據處理進(jìn)程,即多個(gè)pipeline;
  事件:管道中的數據是基于事件的,一個(gè)事件可以看作是數據流中的一條數據或者一條消息;
  4.3 文件拍
  Filebeat 是一個(gè)日志文件傳輸工具。在服務(wù)端安裝客戶(hù)端后,Filebeat會(huì )監控日志目錄或指定的日志文件,跟蹤并讀取這些文件(track file changes,連續讀?。?,并將信息轉發(fā)到ElasticSearch或Logstarsh中存儲。
  
  當您啟動(dòng) Filebeat 程序時(shí),它會(huì )啟動(dòng)一個(gè)或多個(gè)探測器(prospectors)來(lái)檢測您指定的日志目錄或文件。對于探針找到的每一個(gè)日志文件,Filebeat 都會(huì )啟動(dòng)收割進(jìn)程(harvester),每一個(gè)收割進(jìn)程都會(huì )讀取一個(gè)日志文件的新內容,并將這些新的日志數據發(fā)送給處理程序(spooler),處理程序會(huì )聚合這些事件,最后 filebeat 會(huì )將匯總的數據發(fā)送到您指定的位置。
  Filebeat 簡(jiǎn)介
  Filebeat 由兩個(gè)主要組件組成:prospectors 和 harvesters。這些組件協(xié)同工作以讀取文件并將事件數據發(fā)送到指定的輸出。
  Harvesters:負責讀取單個(gè)文件的內容。收割機逐行讀取每個(gè)文件并將內容發(fā)送到輸出。每個(gè)文件都會(huì )啟動(dòng)一個(gè)收割機。收割機負責打開(kāi)和關(guān)閉文件,這意味著(zhù)文件在收割機運行時(shí)保持打開(kāi)狀態(tài)。如果在采集過(guò)程中,即使文件被刪除或重命名,Filebeat 也會(huì )繼續讀取文件。此時(shí)會(huì )一直占用該文件對應的磁盤(pán)空間,直到Harvester關(guān)閉。默認情況下,Filebeat 將保持文件打開(kāi),直到超過(guò)配置的 close_inactive 參數,然后 Filebeat 將關(guān)閉 Harvester。
  Prospector:負責管理Harvsters,找到所有需要讀取的數據源。如果輸入類(lèi)型配置為日志類(lèi)型,Prospector會(huì )在配置路徑中搜索所有匹配的文件,然后為每個(gè)文件創(chuàng )建一個(gè)Harvster。每個(gè) Prospector 都在自己的 Go 例程中運行。
  Filebeat 目前支持兩種 Prospector 類(lèi)型:日志和標準輸入??梢栽谂渲梦募卸x多個(gè) Prospector 類(lèi)型。日志Prospector會(huì )檢查每個(gè)文件是否需要啟動(dòng)Harvster,啟動(dòng)的Harvster是否還在運行,或者文件是否被忽略(配置ignore_order可以忽略文件)。如果是Filebeat運行過(guò)程中新創(chuàng )建的文件,只有關(guān)閉Harvster后文件大小發(fā)生變化,Prospector才會(huì )選擇新文件。
  4.4 比較:
  水槽
  日志存儲
  文件拍
  記憶
  大的
  大的
  小的
  中央處理器
  大的
  小的
  背壓敏感協(xié)議
  不
  不
  是的
  插入
  需要一些API
  許多
  許多
  功能
  從各種輸入和輸出到各種輸出獲取數據
  從各種輸入中獲取數據,實(shí)時(shí)解析數據并將其轉換為各種輸出
  傳播
  嚴重程度
  比較重
  比較重
  輕量級二進(jìn)制文件
  過(guò)濾能力
  自帶分區和攔截器功能
  強大的過(guò)濾能力
  有過(guò)濾能力但弱
  過(guò)程
  一臺服務(wù)器可以有多個(gè)進(jìn)程,掛掉后需要手動(dòng)拉起
  一臺服務(wù)器只允許一個(gè)logstash進(jìn)程,掛掉后需要手動(dòng)拉起
  非常穩定
  原則
  當源接收到事件時(shí),它會(huì )將其存儲在一個(gè)或多個(gè)通道中。通道是一個(gè)被動(dòng)存儲,它保存事件直到它們被 Flume 消費。sink 從通道中移除事件并將其放入外部存儲庫(例如 HDFS)或將其轉發(fā)到流中下一個(gè) Flume 代理的源。代理中的源和接收器與通道中分段的事件異步運行。
  Logstash使用管道采集
和輸出日志,分為輸入input -&gt; processing filter(非必須) -&gt; output輸出,每個(gè)階段都有不同的備選方案
  啟動(dòng)進(jìn)程后,會(huì )啟動(dòng)一個(gè)或多個(gè)探測器(prospectors)來(lái)探測指定的日志目錄或文件。對于探針找到的每一個(gè)日志文件,filebeat都會(huì )啟動(dòng)采集進(jìn)程(harvester),每一個(gè)采集進(jìn)程都會(huì )讀取一個(gè)日志文件的新內容,并將這些新的日志數據發(fā)送給處理程序(spooler),處理程序會(huì )采集
這些事件,最后filebeat會(huì )將采集
到的數據發(fā)送到你指定的位置。
  書(shū)寫(xiě)語(yǔ)言
  爪哇
  朱比
  去語(yǔ)言
  簇
  分散式
  單節點(diǎn)
  單節點(diǎn)
  輸出到多個(gè)接收器
  支持
  支持
  6.0之前支持
  
  二次開(kāi)發(fā)或擴展開(kāi)發(fā)
  一般來(lái)說(shuō)
  災難
  簡(jiǎn)單的
  4.5 總結
  Flume更注重數據的傳輸,對數據的預處理不如Logstash。Flume在傳輸方面比Logstash更可靠,因為數據會(huì )持久化在通道中。只有當數據存儲在接收器中時(shí),數據才會(huì )從通道中刪除。這個(gè)過(guò)程由事物來(lái)控制,以保證數據的可靠性。Logstash 是 ELK 組件之一。一般與其他ELK組件一起使用,更側重于數據預處理。Logstash的插件比Flume多,所以在擴展功能上比Flume更全面。但是Logstash內部沒(méi)有持久化隊列,所以在異常情況下可能會(huì )出現數據丟失的情況。Filebeat 是一個(gè)輕量級的日志采集
工具。因為 Filebeat 是 Elastic Stack 的一部分,它可以與 ELK 組件無(wú)縫協(xié)作。Filebeat 比 Logstash 占用內存少很多。性能比較穩定,很少停機。
  參考鏈接:
  流式數據采集與計算(三):Flume、Logstash、Filebeat研究報告_葉葉來(lái)-CSDN博客_filebeat與flume
  05 社會(huì )調查
  我們先來(lái)看看什么是社會(huì )調查?社會(huì )調查是社會(huì )“調查”、“研究”的簡(jiǎn)稱(chēng)。社會(huì )調查是指人們?yōu)榱诉_到一定的目的,通過(guò)對社會(huì )現象的調查、了解、分析和研究,有意識地了解社會(huì )的真實(shí)情況的一種有意識的認識活動(dòng)。它收錄
以下四層含義:(1)社會(huì )調查是一種自覺(jué)的意識活動(dòng)。(2)社會(huì )調查的對象是社會(huì )現象。(三)社會(huì )調查必須采用一定的方法。(4)社會(huì )調查具有一定的目的性。社會(huì )調查的上述定義適用于所有社會(huì )調查,包括科學(xué)社會(huì )調查。
  可能這個(gè)定義不太好理解,但是比如說(shuō)我們做的問(wèn)卷其實(shí)就是一種社會(huì )調查的方法。由于我們討論的是數據采集
,因此我們將只關(guān)注數據社會(huì )調查的常用方法。一般有九種。詳細內容如下:
  參考鏈接如下:
  調查研究中常用的九種方法
  5.1. 野外觀(guān)察法
  偵查人員通過(guò)實(shí)地觀(guān)察,獲得直接、生動(dòng)的感性認識和真實(shí)可靠的第一手資料。但由于該方法觀(guān)察的往往是事物的表面現象或外在聯(lián)系,具有一定的偶然性,受調查者主觀(guān)因素的影響較大,故不能大樣本觀(guān)察,必須采用結合其他調查方法。通常適用于無(wú)法、不希望或不希望進(jìn)行口頭交流的情況調查。
  5.2. 訪(fǎng)談?wù){查法
  這種方法是比野外觀(guān)察法更深入的調查方法。它可以獲得越來(lái)越多有價(jià)值的信息。地點(diǎn)不易接近等。包括個(gè)人面試法、小組面試法、電話(huà)面試法等。但由于訪(fǎng)談標準不同,難以對結果進(jìn)行量化研究,且訪(fǎng)談過(guò)程耗時(shí)、成本高、隱蔽性差、受周?chē)h(huán)境影響大,難以進(jìn)行大數據分析。規模采訪(fǎng)。
  5.3. 會(huì )議調查法
  這種方法是訪(fǎng)談?wù){查法的擴展和延伸,由于其簡(jiǎn)單易用,在調查研究工作中更為常用。通過(guò)邀請幾位調查受訪(fǎng)者參加研討會(huì )來(lái)采集
數據、分析和研究社會(huì )問(wèn)題。最突出的優(yōu)點(diǎn)是工作效率高,可以快速了解更詳細可靠的社會(huì )信息,節省人力和時(shí)間。但由于這種方法不能完全排除被調查者社會(huì )心理因素的影響,調查結論往往難以充分反映真實(shí)的客觀(guān)情況。且受時(shí)間條件限制,難以進(jìn)行深入細致的交談,
  5.4. 問(wèn)卷調查法
  即間接筆試。這種方法的最大優(yōu)點(diǎn)是可以突破時(shí)間和空間的限制,在大范圍內同時(shí)對大量調查對象進(jìn)行調查。、受訪(fǎng)者應具備一定的寫(xiě)作理解能力和表達能力。如某地區農村黨員教育培訓情況調查、中小學(xué)教師科研狀況調查等。由于問(wèn)卷調查法只能獲取書(shū)面社會(huì )信息,無(wú)法形象地了解和特定的社會(huì )條件,這種方法不能代替實(shí)地調查,特別是對于那些新事物、新情況、新問(wèn)題。方法一起。
  5.5. 專(zhuān)家調查法
  這是一種預測方法,即以專(zhuān)家為索取信息的對象,依靠他們的知識和經(jīng)驗,通過(guò)調查研究對問(wèn)題作出判斷和評價(jià)。最大的優(yōu)點(diǎn)是簡(jiǎn)單直觀(guān),特別適用于缺乏信息資料和歷史數據,受社會(huì )、政治和人為因素影響較大的信息分析和預測題材。廣泛用于對某個(gè)方案進(jìn)行評價(jià),或評價(jià)多個(gè)備選方案的相對排名,選出最佳方案;估計實(shí)現某一目標的條件、途徑、手段及其相對重要性等。
  5.6. 抽樣調查法
  是指以一定的方式從被調查人群中抽取部分樣本進(jìn)行調查,并用所獲得的結果來(lái)說(shuō)明總體情況。其最大的優(yōu)點(diǎn)是節省了人力、物力和財力,可以在較短的時(shí)間內獲得相對準確的調查結果,時(shí)效性強。組織全面調查范圍廣、時(shí)間長(cháng)、難度大,多采用抽樣調查的方法進(jìn)行檢查核實(shí)。如在全省開(kāi)展黨風(fēng)廉政建設社會(huì )調查、流動(dòng)黨員現狀社會(huì )調查等。局限性在于當樣本數量不足時(shí),會(huì )影響調查結果的準確性。
  5.7. 典型調查方法
  是指在一定范圍內選取具有代表性的特定對象進(jìn)行調查研究,以了解同類(lèi)事物的發(fā)展變化規律和本質(zhì)的一種方法。當調查樣本過(guò)大時(shí)可以采用這種方法。但在對象的選擇上一定要注意,一定要準確地選擇比較熟悉全局的有代表性的對象。例如,地級市對區縣市農村黨員情況進(jìn)行調查,應選擇經(jīng)濟發(fā)展較快、農村黨員致富能力強的縣市作為典型調查對象。 .
  5.8. 統計調查法
  通過(guò)分析固定統計報表的形式來(lái)反映下列情況的一種調查方法。由于統計報表的內容比較固定,適合分析某事物的發(fā)展軌跡和未來(lái)趨勢。例如,通過(guò)黨員統計年報,可以分析某地全年黨員發(fā)展、轉移、流動(dòng)情況,與上年同期相比增減情況。年,并預測下一個(gè)趨勢。使用統計調查方法時(shí),要特別注意統一統計口徑,以統計部門(mén)的數字為準,報表分析要結合實(shí)際調查,報表不能簡(jiǎn)單分析。例如,某項數據大幅增加或減少的原因很難在報表中反映出來(lái),只有通過(guò)實(shí)際調查才能形成一個(gè)完整的概念。
  5.9. 文獻調查法
  通過(guò)采集
和提取文件來(lái)獲取有關(guān)調查對象信息的方法。適用于研究調查對象在一段時(shí)間內的發(fā)展變化。研究的角度往往是探索一種趨勢或闡明一種演變過(guò)程。這種方法可以突破時(shí)間和空間的限制,進(jìn)行大范圍的調查,而且調查數據易于采集
和分析。同時(shí),它還具有數據可靠、人力物力少、效果大等優(yōu)點(diǎn)。但它往往是一種先進(jìn)的偵查手段,一般只能作為偵查的先導,不能作為偵查結論的現實(shí)依據。
  06 業(yè)務(wù)數據集
  相信在很多公司都會(huì )有相應的日常運營(yíng)和業(yè)務(wù)部門(mén),各種相關(guān)的數據都會(huì )記錄在某些文件或系統中,比如常見(jiàn)的Excel文件,各種辦公系統的數據庫系統等,一般公司DBA人員可能會(huì )向數據分析師開(kāi)放一定的查詢(xún)權限,供數據分析師提取對應的業(yè)務(wù)數據集,提取時(shí)也可能涉及一些數據脫敏問(wèn)題。
  什么是數據脫敏?
  說(shuō)白了,數據脫敏的意義在于保護客戶(hù)的重要隱私信息,但在保護的同時(shí),不能讓數據分析變得毫無(wú)意義。
  相對于這個(gè)領(lǐng)域來(lái)說(shuō),學(xué)好數據庫的相關(guān)語(yǔ)言SQL就很重要了。只有足夠好地掌握SQL,才能在提取和分析數據時(shí)快速、準確地完成相應的任務(wù)!
  07 埋點(diǎn)采集
  埋點(diǎn)分析是應用系統分析常用的數據采集方法。數據嵌入點(diǎn)分為初級、中級和高級三種方式。數據埋點(diǎn)是為私有化部署采集
數據的好方法。
  數據嵌入點(diǎn)分為初級、中級、高級三種方式,即: 初級:在產(chǎn)品和服務(wù)轉化的關(guān)鍵點(diǎn)植入統計代碼,根據其獨立的ID(如點(diǎn)擊)保證數據采集不重復購買(mǎi)按鈕的費率);中間:插入多段代碼跟蹤用戶(hù)在平臺各個(gè)界面的一系列行為,事件相互獨立(如打開(kāi)商品詳情頁(yè)-選擇商品型號-加入購物車(chē)-下單訂單 - 完成購買(mǎi));進(jìn)階:配合公司工程及ETL,對用戶(hù)行為進(jìn)行全量采集分析,建立用戶(hù)畫(huà)像,還原用戶(hù)行為模型,作為產(chǎn)品分析和優(yōu)化的依據。毫無(wú)疑問(wèn),數據埋點(diǎn)是為私有化部署采集
數據的好方法。精準的數據采集滿(mǎn)足企業(yè)去其糟粕和取其精華的需求,實(shí)現產(chǎn)品和服務(wù)的快速優(yōu)化和迭代。埋藏數據采集
的方法廣泛存在于網(wǎng)站和移動(dòng)應用程序中。網(wǎng)站埋點(diǎn)一般存在于網(wǎng)站的按鈕或訪(fǎng)問(wèn)記錄中。系統前端會(huì )有相應的代碼記錄用戶(hù)的操作行為,并將這些數據傳遞給后臺,最終可能以日志或者數據庫表數據的形式記錄下來(lái)。事實(shí)上,它可以理解最終會(huì )成為業(yè)務(wù)數據集的一部分,以便數據分析師可以利用這些用戶(hù)數據建立用戶(hù)畫(huà)像,做分層模型進(jìn)行精準營(yíng)銷(xiāo)等等!大同小異,網(wǎng)站的框架技術(shù)不同但原理相似,擴展到App應用也是一樣的。開(kāi)發(fā)工程師需要將記錄用戶(hù)操作的代碼植入到手機或平板應用的程序中,以滿(mǎn)足相應的數據采集需求,最后返回后臺后,與網(wǎng)站埋點(diǎn)基本相同。擴展到App應用也是一樣。開(kāi)發(fā)工程師需要將記錄用戶(hù)操作的代碼植入到手機或平板應用的程序中,以滿(mǎn)足相應的數據采集需求,最后返回后臺后,與網(wǎng)站埋點(diǎn)基本相同。擴展到App應用也是一樣。開(kāi)發(fā)工程師需要將記錄用戶(hù)操作的代碼植入到手機或平板應用的程序中,以滿(mǎn)足相應的數據采集需求,最后返回后臺后,與網(wǎng)站埋點(diǎn)基本相同。
  08 傳感器采集
  傳感器(英文名稱(chēng):transducer/sensor)是一種檢測裝置,它能感知被測量的信息,并將感知到的信息按照一定的規則轉換成電信號或其他所需形式的信息輸出,以滿(mǎn)足信息要求。傳輸、處理、存儲、顯示、記錄和控制要求。
  傳感器的特點(diǎn)包括:小型化、數字化、智能化、多功能化、系統化、網(wǎng)絡(luò )化。它是實(shí)現自動(dòng)檢測和自動(dòng)控制的第一個(gè)環(huán)節。傳感器的存在和發(fā)展,讓物體有了觸覺(jué)、味覺(jué)、嗅覺(jué)等感官,讓物體慢慢活了過(guò)來(lái)。通常按其基本感知功能可分為熱傳感器、光傳感器、氣體傳感器、力傳感器、磁傳感器、濕度傳感器、聲音傳感器、輻射傳感器、顏色傳感器和味覺(jué)傳感器等十大類(lèi)。.
  通過(guò)配備各種傳感器的軟硬件結合,我們可以很容易地獲取現實(shí)物理世界中的各種相關(guān)數據。例如,我們使用攝像頭、錄音設備、體溫檢測、氣候檢測等設備。一般這類(lèi)設備都會(huì )內置很多不同款式的傳感器。其實(shí)對于數據分析師來(lái)說(shuō),沒(méi)有必要對傳感器的原理了解太多。更重要的是要了解數據從哪里來(lái),以及傳感器本身采集的數據的一些特性,比如誤差、靈敏度、使用環(huán)境等,這些都會(huì )影響數據采集效果。所以我不會(huì )在這里詳細介紹。
  09 數據交易平臺
  大家常說(shuō)的數據交易平臺,正式名稱(chēng)為大數據交易所,定義如下:
  全國首家大數據交易所——貴陽(yáng)大數據交易所于2015年4月15日正式掛牌,并與深圳市騰訊計算機系統有限公司、廣東省數字廣東研究院完成合作。買(mǎi)家是京東云平臺和中金數據系統有限公司的第一筆數據交易。首批數據交易的完成,標志著(zhù)國內首家大數據交易所正式運營(yíng)。同時(shí),在交流平臺的基礎上,大數據領(lǐng)域的相關(guān)專(zhuān)家、學(xué)者、企業(yè)共同成立了大數據交易商(貴陽(yáng))聯(lián)盟。企業(yè)。
  當然,現在已經(jīng)有很多大數據交易所了。關(guān)于數據交易平臺的更多信息,您可以參考此鏈接:
  國內有哪些好的“數據交易”平臺,比如淘寶之類(lèi)的平臺?- 知乎
  10 個(gè)人資料采集
  最后,讓我們談?wù)剛€(gè)人數據。其實(shí)網(wǎng)上都在講這種數據管理。其實(shí)更多的是用在企業(yè)或者相關(guān)組織中。但是讓我們仔細想想。如果對自己要求嚴格的話(huà),其實(shí)也可以在個(gè)人管理方面采集
數據,然后分析個(gè)人數據,最終引導自己的人生方向。
  例如,對于我們個(gè)人的財務(wù)狀況,我們可以使用Excel進(jìn)行基本的財務(wù)分析,然后根據自己的財務(wù)狀況進(jìn)行財務(wù)規劃。
  再比如,我們可以數自己的時(shí)間。這就是著(zhù)名的時(shí)間統計方法。有興趣的朋友可以了解一下?!镀娈惾松芬粫?shū)講的是柳比雪夫的時(shí)間統計方法。.
  再比如,我們可以統計自己每天做的任務(wù),從而得到每個(gè)時(shí)間點(diǎn)的工作效率,從而總結出自己的生物鐘規律。關(guān)于生物鐘的內容,強烈推薦《神奇的人體生物鐘》和《時(shí)間管理》。對于這類(lèi)書(shū)籍,可以通過(guò)數據統計分析的結果來(lái)判斷內容是否正確。
  ...
  生活的方方面面太多了,我們都可以通過(guò)采集
采集
來(lái)記錄自己。當我們想要在某一方面做出決策時(shí),數據分析就成為了一個(gè)強有力的切入點(diǎn)。比如我們要買(mǎi)房子,我們可以通過(guò)分析房?jì)r(jià)數據來(lái)選擇合適的房子,同樣的例子還包括基金,我們可以分別研究基金和基金經(jīng)理數據的一些特征,從而篩選合適的投資基金...
  例子太多,這里就不贅述了。當我們開(kāi)始以各種方式采集
自己的數據時(shí),其實(shí)就是開(kāi)始了一種新的生活模式,量化生活。相信這樣的生活會(huì )給你帶來(lái)不一樣的精彩,
  好了,書(shū)川這篇文章的內容就分享到這里了!
  核心方法:SEO: 亞馬遜關(guān)鍵詞研究工具!這個(gè)插件你用上了嗎?
  Amazon 搜索引擎是世界上最大的產(chǎn)品查找引擎,為商業(yè)目的提供 關(guān)鍵詞“基本見(jiàn)解”。
  但亞馬遜并未透露廣告數量或按點(diǎn)擊付費的廣告信息。因此,賣(mài)家只能自己發(fā)現消費者搜索 關(guān)鍵詞。下面我們將介紹幾個(gè)關(guān)鍵詞工具來(lái)幫助賣(mài)家優(yōu)化他們在亞馬遜上的排名。
  Amazon autosuggest 會(huì )在搜索者輸入時(shí)顯示單詞和短語(yǔ)。AutoSuggest 類(lèi)似于 Google Suggest。用戶(hù)在搜索框中鍵入的內容越多,給出的建議就越少。因此,所有這些建議都是潛在的關(guān)鍵字。
  亞馬遜沒(méi)有說(shuō)明這些 關(guān)鍵詞 是如何訂購的。我們只能假設更受歡迎的 關(guān)鍵詞 排在第一位。
  亞馬遜會(huì )針對用戶(hù)之前的搜索做出個(gè)性化的建議,所以建議先退出賬戶(hù)再查看亞馬遜給出的“自動(dòng)建議”關(guān)鍵詞。
  Amazon autosuggest 會(huì )在用戶(hù)鍵入時(shí)顯示單詞和短語(yǔ)。用戶(hù)在搜索框中鍵入的信息越多,給出的建議就越少,例如這個(gè)“洗衣機洗滌劑”示例。
  亞馬遜搜索建議擴展
  這個(gè)免費的 Chrome 擴展程序值得賣(mài)家下載。
  只需在搜索欄中輸入關(guān)鍵詞,它會(huì )很快拉出大量亞馬遜推薦搜索關(guān)鍵詞,您可以將其下載為Excel文件。
  “Before”關(guān)鍵詞,即在查詢(xún)前添加詞生成的建議?!案郊印苯ㄗh,在輸入較長(cháng)的句子時(shí)也會(huì )顯示建議 關(guān)鍵詞。
  
  搜索建議擴展
  以下是亞馬遜對“甲板清潔劑”的推薦。
  亞馬遜對“deckcleaner”的自動(dòng)建議
  這就是 Amazon Search Suggestion 擴展:您可以將建議下載到 Excel 文件中。
  來(lái)自搜索建議擴展的“deckcleaner”建議
  這個(gè)工具最好的地方是研究基于類(lèi)別的關(guān)鍵詞來(lái)探索購買(mǎi)過(guò)程。例如,您可以鍵入“washing”并選擇“Baby”類(lèi)別作為關(guān)鍵字建議,例如“washingBabyhairshield”和“awashingmachinetoy”
  Keywordtool.io 將亞馬遜的自動(dòng)提示 關(guān)鍵詞 與 Google Ads 的數據進(jìn)行比較。最初的關(guān)鍵詞“洗滌”顯示在這里
  該工具有助于產(chǎn)生更多的產(chǎn)品創(chuàng )意。在類(lèi)別中輸入 關(guān)鍵詞,該工具將提供實(shí)際的、相關(guān)的亞馬遜搜索詞。您還可以過(guò)濾常用修飾符以對 關(guān)鍵詞 進(jìn)行分組。Keywordtool.io 是每月 69 美元。
  MerchantWords 是唯一專(zhuān)為亞馬遜賣(mài)家提供的 關(guān)鍵詞 工具。因此,該工具可以提供:
  Amazon 的搜索量,MerchantWords 使用自己的算法計算量。下面列出了與這些搜索相匹配的主要產(chǎn)品類(lèi)別。季節性 關(guān)鍵詞(如果存在)。過(guò)去幾個(gè)月的搜索趨勢,關(guān)鍵詞。
  MerchantWords 的起價(jià)為每月 79 美元。
  
  MerchantWords 是唯一專(zhuān)用于亞馬遜賣(mài)家的主要 關(guān)鍵詞 工具,提供 關(guān)鍵詞 搜索量、主要類(lèi)別和趨勢。例如“高爾夫球”關(guān)鍵詞
  與谷歌搜索一樣,亞馬遜搜索提供了很多關(guān)于消費者如何查詢(xún)你的核心主題的線(xiàn)索。作為賣(mài)家,您需要密切關(guān)注亞馬遜上的產(chǎn)品列表、相關(guān)搜索和“部門(mén)”。
  當產(chǎn)品是新產(chǎn)品時(shí),查看產(chǎn)品列表以深入了解 關(guān)鍵詞 和修飾符。例如,搜索“甲板清潔劑”會(huì )出現諸如“防滑”、“多用途”、“戶(hù)外清潔劑”、“去污劑”和“保護劑”等修飾語(yǔ)。
  查看產(chǎn)品列表以深入了解 關(guān)鍵詞 和修飾符。例如,關(guān)鍵字“deckcleaner”會(huì )產(chǎn)生諸如“防滑”和“多用途”之類(lèi)的修飾語(yǔ)
  相關(guān)搜索。在原創(chuàng )
搜索結果下方,亞馬遜會(huì )生成一個(gè)“相關(guān)搜索”列表,這些搜索可能來(lái)自類(lèi)似購買(mǎi)過(guò)程中的實(shí)際搜索。在產(chǎn)品名稱(chēng)和類(lèi)別中收錄
相關(guān)術(shù)語(yǔ)。
  亞馬遜根據類(lèi)似購買(mǎi)旅程的實(shí)際搜索生成“相關(guān)搜索”列表。此示例顯示“deckcleaner”的相關(guān)搜索詞:“deckcleanerforpressurewasher”、“deckbrush”等。
  部門(mén):留意亞馬遜上收錄
使用 關(guān)鍵詞 的產(chǎn)品的“部門(mén)”??紤]以類(lèi)似的方式構建您自己的網(wǎng)站,因為“部門(mén)”可以等同于一個(gè)類(lèi)別。
  亞馬遜內部的“部門(mén)”相當于分類(lèi),為賣(mài)家提供建站思路。例如,與“deckcleaner”相關(guān)的產(chǎn)品部門(mén)。
  亞馬遜不會(huì )細分搜索量或點(diǎn)擊費用。因此,賣(mài)家需要善用亞馬遜的工具和第三方工具,讓消費者能夠輕松找到我們銷(xiāo)售的商品。 查看全部

  匯總:數據收集的方法有哪些,數據收集的10個(gè)方法?
  00 基本概念
  數據集,也稱(chēng)為數據集、數據集合或數據集合,是由數據組成的集合。
  數據集(或數據集)是數據的集合,通常以表格形式存在。每列代表一個(gè)特定的變量。每行對應于成員數據集的一個(gè)問(wèn)題。它列出了每個(gè)變量的值,例如對象的高度和重量或隨機數的值。每個(gè)值稱(chēng)為一個(gè)數據配置文件。該數據集的數據可能包括一個(gè)或多個(gè)與行數相對應的成員。
  數據采集??(Data Acquisition,簡(jiǎn)稱(chēng)DAQ)是指自動(dòng)采集傳感器等被測器件等模擬和數字被測單元的非電信號或電信號,并傳送給上位機進(jìn)行分析處理。數據采集??系統是以計算機或其他專(zhuān)用測試平臺為基礎,結合測量軟硬件產(chǎn)品的靈活的、用戶(hù)自定義的測量系統。
  在計算機廣泛使用的今天,數據采集的重要性非常顯著(zhù)。它是連接計算機與外部物理世界的橋梁。獲取各種類(lèi)型信號的難易程度差異很大。在實(shí)際采集中,噪聲也可能造成一些麻煩。在采集
數據的時(shí)候,有一些基本原則需要注意,需要解決的實(shí)際問(wèn)題也比較多。
  根據網(wǎng)絡(luò )和個(gè)人學(xué)習,提供十種數據采集方式,順序如下:
  01 公共數據集
  開(kāi)放數據,開(kāi)放數據,大數據新詞。
  2020年7月,大數據戰略重點(diǎn)實(shí)驗室全國科學(xué)技術(shù)術(shù)語(yǔ)審定研究基地收錄審定的第一批108個(gè)大數據新詞報送國家審定委科學(xué)技術(shù)術(shù)語(yǔ)報批并向社會(huì )公開(kāi)試行。
  定義:開(kāi)放數據是一種理念和實(shí)踐,它要求任何人都可以自由訪(fǎng)問(wèn)某些數據,而不受版權、專(zhuān)利或其他機制的限制。
  網(wǎng)上有各種開(kāi)發(fā)數據集。我們只需要找到對應的網(wǎng)站獲取下載鏈接,就可以得到不同領(lǐng)域的數據集。一般來(lái)說(shuō),這些數據集是為了幫助學(xué)習者或者數據分析人員,也有一些是為了舉辦各種比賽,為了找到更好的數據分析方案和結果。
  關(guān)于公開(kāi)資料,我在這里整理了一份,
  互聯(lián)網(wǎng)上有哪些公開(kāi)的數據源可以用來(lái)做數據分析?– PurStar – 博客園
  當然還不夠全面,所以我們可以通過(guò)百度、bing搜索等找到各種整理好的博客或者導航,找到我們想要的數據集,方便下一步的數據分析。
  02 數據報采集
  要了解數據報集合,首先要了解什么是數據報?數據報的定義如下:
  從上面的定義不難看出數據報是計算機網(wǎng)絡(luò )中的一個(gè)概念,所以我們可以使用一些抓包工具來(lái)獲取數據報的相關(guān)數據,比如常見(jiàn)的Wireshark,簡(jiǎn)單介紹如下:
  除了Wireshark,類(lèi)似的工具還有fiddler、Charles、Firebug、httpwatch、SmartSniff、……等,對網(wǎng)絡(luò )原理或者網(wǎng)絡(luò )安全感興趣的朋友可以試試這些工具!
  03 網(wǎng)絡(luò )爬蟲(chóng)
  網(wǎng)絡(luò )爬蟲(chóng)的定義如下:
  通過(guò)網(wǎng)絡(luò )爬蟲(chóng),我們可以爬取存在于網(wǎng)絡(luò )中的各種數據,并將爬取到的數據按照一定的格式存儲在指定的數據存儲文件系統或數據庫中,以方便下一步的數據整理或數據采集
. 分析。
  根據系統結構和實(shí)現技術(shù),網(wǎng)絡(luò )爬蟲(chóng)大致可以分為以下幾種類(lèi)型:
  實(shí)際的網(wǎng)絡(luò )爬蟲(chóng)系統通常是由多種爬蟲(chóng)技術(shù)組合實(shí)現的。
  3.1 通用網(wǎng)絡(luò )爬蟲(chóng)
  通用網(wǎng)絡(luò )爬蟲(chóng)也稱(chēng)為可擴展網(wǎng)絡(luò )爬蟲(chóng)。其爬取對象從一些種子URL擴展到整個(gè)Web,主要為門(mén)戶(hù)網(wǎng)站搜索引擎和大型Web服務(wù)商采集
數據。由于商業(yè)原因,他們的技術(shù)細節很少公布。這類(lèi)網(wǎng)絡(luò )爬蟲(chóng)的爬取范圍和數量巨大,對爬取速度和存儲空間要求高,對爬取頁(yè)面的順序要求相對較低。同時(shí),由于需要刷新的頁(yè)面太多,通常采用并行工作的方式,但耗時(shí)較長(cháng)。刷新頁(yè)面需要時(shí)間。雖然存在一定的缺陷,但一般的網(wǎng)絡(luò )爬蟲(chóng)適用于搜索引擎搜索范圍廣泛的主題,具有很強的應用價(jià)值。
  3.2 關(guān)注網(wǎng)絡(luò )爬蟲(chóng)
  Focused Crawler,也稱(chēng)為T(mén)opical Crawler,是指一種網(wǎng)絡(luò )爬蟲(chóng),它有選擇地爬取與預先定義的主題相關(guān)的頁(yè)面。與通用網(wǎng)絡(luò )爬蟲(chóng)相比,專(zhuān)注爬蟲(chóng)只需要爬取與主題相關(guān)的頁(yè)面,大大節省了硬件和網(wǎng)絡(luò )資源。存頁(yè)數也因為數量少更新快,也能滿(mǎn)足特定領(lǐng)域的一些特定人群。信息需求。
  3.3 增量網(wǎng)絡(luò )爬蟲(chóng)
  增量式網(wǎng)絡(luò )爬蟲(chóng)(Incremental Web Crawler)是指增量更新下載的網(wǎng)頁(yè),只爬取新生成或變化的網(wǎng)頁(yè)的爬蟲(chóng)??梢栽谝欢ǔ潭壬媳WC爬取的頁(yè)面盡可能的新。頁(yè)。與周期性爬取和刷新頁(yè)面的網(wǎng)絡(luò )爬蟲(chóng)相比,增量爬蟲(chóng)只在需要時(shí)爬取新生成或更新的頁(yè)面,不會(huì )重新下載沒(méi)有變化的頁(yè)面,可以有效減少數據下載量并及時(shí)更新爬取的網(wǎng)頁(yè)pages 減少了時(shí)間和空間的消耗,但是增加了爬取算法的復雜度和實(shí)現難度。增量網(wǎng)絡(luò )爬蟲(chóng)架構[包括爬取模塊、排序模塊、更新模塊、本地頁(yè)面集、待爬URL集、本地頁(yè)面URL集。
  3.4 深網(wǎng)爬蟲(chóng)
  網(wǎng)頁(yè)按其存在方式可分為表層網(wǎng)頁(yè)(Surface Web)和深層網(wǎng)頁(yè)(Deep Web,又稱(chēng)Invisible Web Pages或Hidden Web)。表面網(wǎng)頁(yè)是指可以被傳統搜索引擎收錄的頁(yè)面,主要由可以通過(guò)超鏈接到達的靜態(tài)網(wǎng)頁(yè)組成。深網(wǎng)是那些大部分內容無(wú)法通過(guò)靜態(tài)鏈接獲得的網(wǎng)頁(yè),隱藏在搜索表單后面,并且只有在用戶(hù)提交一些 關(guān)鍵詞 時(shí)才可用。例如,那些內容只有在用戶(hù)注冊后才能看到的網(wǎng)頁(yè)就屬于深網(wǎng)。2000年,光明星球指出,Deep Web的可訪(fǎng)問(wèn)信息容量是Surface Web的數百倍,是互聯(lián)網(wǎng)上規模最大、發(fā)展最快的新信息資源。
  3.5 學(xué)習資料推薦
  其實(shí)我們只要打開(kāi)一些網(wǎng)購平臺,搜索爬蟲(chóng),就會(huì )發(fā)現彈出來(lái)很多關(guān)于爬蟲(chóng)的書(shū)籍,基本上都是python的,毫不夸張的說(shuō),很多書(shū)籍的內容都會(huì )涉及到一個(gè)Python網(wǎng)絡(luò )爬蟲(chóng)——Scrapy。
  相應的書(shū)籍我這里就不介紹了。網(wǎng)購平臺的銷(xiāo)量和知名度已經(jīng)告訴你,你應該學(xué)習那些資料。另外,這里為一些沒(méi)有編程基礎的朋友提供一些傻瓜式的爬蟲(chóng)。它們的功能非常強大。對于沒(méi)有編程基礎又想體驗和使用爬蟲(chóng)的朋友來(lái)說(shuō)非常方便。參考鏈接如下:
  不會(huì )編程也能用的幾款數據爬取工具!– PurStar – 博客園
  04 日志采集
  日志采集
也是一個(gè)比較常見(jiàn)的場(chǎng)景。采集
的數據可用于監控硬件設備或軟件系統的運行狀態(tài)。當出現問(wèn)題時(shí),這些數據可以為運維工程師提供一些告警和關(guān)鍵信息,有助于故障排除。
  對于一些大中型企業(yè),機房管理的設備較多,可以采用相關(guān)的日志采集方案,方便后續的數據分析和問(wèn)題解決。關(guān)于日志采集
的概念我就不多介紹了。幾種常見(jiàn)的日志采集
工具包括 Logstash、Filebeat、Flume、Fluentd、Logagent、rsyslog 和 syslog-ng。
  這里僅提供三個(gè)模型進(jìn)行比較:
  4.1 水槽
  Flume 是一種分布式、高可靠、高可用的服務(wù),用于高效采集
、聚合和移動(dòng)大量日志數據。它具有基于流數據流的簡(jiǎn)單靈活的架構。具有可調的可靠性機制、故障轉移和恢復機制,容錯能力強。它使用允許在線(xiàn)分析應用程序的簡(jiǎn)單可擴展數據模型。
  Flume旨在將基于事件的海量數據批量導入Hadoop集群。系統中的核心角色是agent,Flume采集系統由各個(gè)agent連接而成。每個(gè)代理相當于一個(gè)數據傳輸器,內部收錄
三個(gè)組件:
  source:采集源,用于連接數據源獲取數據
  sink:傳輸數據的目的地,用于將數據傳輸到下一級代理或最終存儲系統
  channel:agent內部的數據傳輸通道,用于將數據從source傳輸到sink
  4.2 日志存儲
  Logstash 是一個(gè)開(kāi)源的服務(wù)器端數據處理管道,能夠同時(shí)從多個(gè)源獲取數據、轉換數據并將數據發(fā)送到存儲庫。當數據從源傳輸到存儲庫時(shí),Logstash 過(guò)濾器會(huì )解析單個(gè)事件,識別命名字段以構建結構,并將它們轉換為通用格式,以便更輕松、更快速地進(jìn)行分析并實(shí)現業(yè)務(wù)價(jià)值。
  Logstash是基于管道的方式進(jìn)行數據處理的,管道可以理解為對數據處理過(guò)程的抽象。在管道中,數據通過(guò)上游數據源匯聚到消息隊列中,然后經(jīng)過(guò)多個(gè)工作線(xiàn)程轉換處理,最后輸出到下游組件。一個(gè) logstash 可以收錄
多個(gè)管道。
  Logstash 管道有兩個(gè)必需的元素,輸入和輸出,以及一個(gè)可選的元素過(guò)濾器:
  Input:數據輸入組件,用于連接各種數據源,訪(fǎng)問(wèn)數據,支持解碼器,允許對數據進(jìn)行編解碼操作;所需組件;
  output:數據輸出組件,用于連接下游組件,發(fā)送處理后的數據,支持解碼器,允許對數據進(jìn)行編解碼操作;必需的組件;
  filter:數據過(guò)濾組件,負責處理輸入數據;可選組件;Logstash安裝部署
  管道:數據處理流程的邏輯抽象,類(lèi)似于管道,數據從一端流入,處理后從另一端流出;一個(gè)管道包括輸入、過(guò)濾和輸出三部分,其中輸入和輸出部分是必選組件,過(guò)濾是可選組件;
  instance:一個(gè)Logstash實(shí)例,可以收錄
多個(gè)數據處理進(jìn)程,即多個(gè)pipeline;
  事件:管道中的數據是基于事件的,一個(gè)事件可以看作是數據流中的一條數據或者一條消息;
  4.3 文件拍
  Filebeat 是一個(gè)日志文件傳輸工具。在服務(wù)端安裝客戶(hù)端后,Filebeat會(huì )監控日志目錄或指定的日志文件,跟蹤并讀取這些文件(track file changes,連續讀?。?,并將信息轉發(fā)到ElasticSearch或Logstarsh中存儲。
  
  當您啟動(dòng) Filebeat 程序時(shí),它會(huì )啟動(dòng)一個(gè)或多個(gè)探測器(prospectors)來(lái)檢測您指定的日志目錄或文件。對于探針找到的每一個(gè)日志文件,Filebeat 都會(huì )啟動(dòng)收割進(jìn)程(harvester),每一個(gè)收割進(jìn)程都會(huì )讀取一個(gè)日志文件的新內容,并將這些新的日志數據發(fā)送給處理程序(spooler),處理程序會(huì )聚合這些事件,最后 filebeat 會(huì )將匯總的數據發(fā)送到您指定的位置。
  Filebeat 簡(jiǎn)介
  Filebeat 由兩個(gè)主要組件組成:prospectors 和 harvesters。這些組件協(xié)同工作以讀取文件并將事件數據發(fā)送到指定的輸出。
  Harvesters:負責讀取單個(gè)文件的內容。收割機逐行讀取每個(gè)文件并將內容發(fā)送到輸出。每個(gè)文件都會(huì )啟動(dòng)一個(gè)收割機。收割機負責打開(kāi)和關(guān)閉文件,這意味著(zhù)文件在收割機運行時(shí)保持打開(kāi)狀態(tài)。如果在采集過(guò)程中,即使文件被刪除或重命名,Filebeat 也會(huì )繼續讀取文件。此時(shí)會(huì )一直占用該文件對應的磁盤(pán)空間,直到Harvester關(guān)閉。默認情況下,Filebeat 將保持文件打開(kāi),直到超過(guò)配置的 close_inactive 參數,然后 Filebeat 將關(guān)閉 Harvester。
  Prospector:負責管理Harvsters,找到所有需要讀取的數據源。如果輸入類(lèi)型配置為日志類(lèi)型,Prospector會(huì )在配置路徑中搜索所有匹配的文件,然后為每個(gè)文件創(chuàng )建一個(gè)Harvster。每個(gè) Prospector 都在自己的 Go 例程中運行。
  Filebeat 目前支持兩種 Prospector 類(lèi)型:日志和標準輸入??梢栽谂渲梦募卸x多個(gè) Prospector 類(lèi)型。日志Prospector會(huì )檢查每個(gè)文件是否需要啟動(dòng)Harvster,啟動(dòng)的Harvster是否還在運行,或者文件是否被忽略(配置ignore_order可以忽略文件)。如果是Filebeat運行過(guò)程中新創(chuàng )建的文件,只有關(guān)閉Harvster后文件大小發(fā)生變化,Prospector才會(huì )選擇新文件。
  4.4 比較:
  水槽
  日志存儲
  文件拍
  記憶
  大的
  大的
  小的
  中央處理器
  大的
  小的
  背壓敏感協(xié)議
  不
  不
  是的
  插入
  需要一些API
  許多
  許多
  功能
  從各種輸入和輸出到各種輸出獲取數據
  從各種輸入中獲取數據,實(shí)時(shí)解析數據并將其轉換為各種輸出
  傳播
  嚴重程度
  比較重
  比較重
  輕量級二進(jìn)制文件
  過(guò)濾能力
  自帶分區和攔截器功能
  強大的過(guò)濾能力
  有過(guò)濾能力但弱
  過(guò)程
  一臺服務(wù)器可以有多個(gè)進(jìn)程,掛掉后需要手動(dòng)拉起
  一臺服務(wù)器只允許一個(gè)logstash進(jìn)程,掛掉后需要手動(dòng)拉起
  非常穩定
  原則
  當源接收到事件時(shí),它會(huì )將其存儲在一個(gè)或多個(gè)通道中。通道是一個(gè)被動(dòng)存儲,它保存事件直到它們被 Flume 消費。sink 從通道中移除事件并將其放入外部存儲庫(例如 HDFS)或將其轉發(fā)到流中下一個(gè) Flume 代理的源。代理中的源和接收器與通道中分段的事件異步運行。
  Logstash使用管道采集
和輸出日志,分為輸入input -&gt; processing filter(非必須) -&gt; output輸出,每個(gè)階段都有不同的備選方案
  啟動(dòng)進(jìn)程后,會(huì )啟動(dòng)一個(gè)或多個(gè)探測器(prospectors)來(lái)探測指定的日志目錄或文件。對于探針找到的每一個(gè)日志文件,filebeat都會(huì )啟動(dòng)采集進(jìn)程(harvester),每一個(gè)采集進(jìn)程都會(huì )讀取一個(gè)日志文件的新內容,并將這些新的日志數據發(fā)送給處理程序(spooler),處理程序會(huì )采集
這些事件,最后filebeat會(huì )將采集
到的數據發(fā)送到你指定的位置。
  書(shū)寫(xiě)語(yǔ)言
  爪哇
  朱比
  去語(yǔ)言
  簇
  分散式
  單節點(diǎn)
  單節點(diǎn)
  輸出到多個(gè)接收器
  支持
  支持
  6.0之前支持
  
  二次開(kāi)發(fā)或擴展開(kāi)發(fā)
  一般來(lái)說(shuō)
  災難
  簡(jiǎn)單的
  4.5 總結
  Flume更注重數據的傳輸,對數據的預處理不如Logstash。Flume在傳輸方面比Logstash更可靠,因為數據會(huì )持久化在通道中。只有當數據存儲在接收器中時(shí),數據才會(huì )從通道中刪除。這個(gè)過(guò)程由事物來(lái)控制,以保證數據的可靠性。Logstash 是 ELK 組件之一。一般與其他ELK組件一起使用,更側重于數據預處理。Logstash的插件比Flume多,所以在擴展功能上比Flume更全面。但是Logstash內部沒(méi)有持久化隊列,所以在異常情況下可能會(huì )出現數據丟失的情況。Filebeat 是一個(gè)輕量級的日志采集
工具。因為 Filebeat 是 Elastic Stack 的一部分,它可以與 ELK 組件無(wú)縫協(xié)作。Filebeat 比 Logstash 占用內存少很多。性能比較穩定,很少停機。
  參考鏈接:
  流式數據采集與計算(三):Flume、Logstash、Filebeat研究報告_葉葉來(lái)-CSDN博客_filebeat與flume
  05 社會(huì )調查
  我們先來(lái)看看什么是社會(huì )調查?社會(huì )調查是社會(huì )“調查”、“研究”的簡(jiǎn)稱(chēng)。社會(huì )調查是指人們?yōu)榱诉_到一定的目的,通過(guò)對社會(huì )現象的調查、了解、分析和研究,有意識地了解社會(huì )的真實(shí)情況的一種有意識的認識活動(dòng)。它收錄
以下四層含義:(1)社會(huì )調查是一種自覺(jué)的意識活動(dòng)。(2)社會(huì )調查的對象是社會(huì )現象。(三)社會(huì )調查必須采用一定的方法。(4)社會(huì )調查具有一定的目的性。社會(huì )調查的上述定義適用于所有社會(huì )調查,包括科學(xué)社會(huì )調查。
  可能這個(gè)定義不太好理解,但是比如說(shuō)我們做的問(wèn)卷其實(shí)就是一種社會(huì )調查的方法。由于我們討論的是數據采集
,因此我們將只關(guān)注數據社會(huì )調查的常用方法。一般有九種。詳細內容如下:
  參考鏈接如下:
  調查研究中常用的九種方法
  5.1. 野外觀(guān)察法
  偵查人員通過(guò)實(shí)地觀(guān)察,獲得直接、生動(dòng)的感性認識和真實(shí)可靠的第一手資料。但由于該方法觀(guān)察的往往是事物的表面現象或外在聯(lián)系,具有一定的偶然性,受調查者主觀(guān)因素的影響較大,故不能大樣本觀(guān)察,必須采用結合其他調查方法。通常適用于無(wú)法、不希望或不希望進(jìn)行口頭交流的情況調查。
  5.2. 訪(fǎng)談?wù){查法
  這種方法是比野外觀(guān)察法更深入的調查方法。它可以獲得越來(lái)越多有價(jià)值的信息。地點(diǎn)不易接近等。包括個(gè)人面試法、小組面試法、電話(huà)面試法等。但由于訪(fǎng)談標準不同,難以對結果進(jìn)行量化研究,且訪(fǎng)談過(guò)程耗時(shí)、成本高、隱蔽性差、受周?chē)h(huán)境影響大,難以進(jìn)行大數據分析。規模采訪(fǎng)。
  5.3. 會(huì )議調查法
  這種方法是訪(fǎng)談?wù){查法的擴展和延伸,由于其簡(jiǎn)單易用,在調查研究工作中更為常用。通過(guò)邀請幾位調查受訪(fǎng)者參加研討會(huì )來(lái)采集
數據、分析和研究社會(huì )問(wèn)題。最突出的優(yōu)點(diǎn)是工作效率高,可以快速了解更詳細可靠的社會(huì )信息,節省人力和時(shí)間。但由于這種方法不能完全排除被調查者社會(huì )心理因素的影響,調查結論往往難以充分反映真實(shí)的客觀(guān)情況。且受時(shí)間條件限制,難以進(jìn)行深入細致的交談,
  5.4. 問(wèn)卷調查法
  即間接筆試。這種方法的最大優(yōu)點(diǎn)是可以突破時(shí)間和空間的限制,在大范圍內同時(shí)對大量調查對象進(jìn)行調查。、受訪(fǎng)者應具備一定的寫(xiě)作理解能力和表達能力。如某地區農村黨員教育培訓情況調查、中小學(xué)教師科研狀況調查等。由于問(wèn)卷調查法只能獲取書(shū)面社會(huì )信息,無(wú)法形象地了解和特定的社會(huì )條件,這種方法不能代替實(shí)地調查,特別是對于那些新事物、新情況、新問(wèn)題。方法一起。
  5.5. 專(zhuān)家調查法
  這是一種預測方法,即以專(zhuān)家為索取信息的對象,依靠他們的知識和經(jīng)驗,通過(guò)調查研究對問(wèn)題作出判斷和評價(jià)。最大的優(yōu)點(diǎn)是簡(jiǎn)單直觀(guān),特別適用于缺乏信息資料和歷史數據,受社會(huì )、政治和人為因素影響較大的信息分析和預測題材。廣泛用于對某個(gè)方案進(jìn)行評價(jià),或評價(jià)多個(gè)備選方案的相對排名,選出最佳方案;估計實(shí)現某一目標的條件、途徑、手段及其相對重要性等。
  5.6. 抽樣調查法
  是指以一定的方式從被調查人群中抽取部分樣本進(jìn)行調查,并用所獲得的結果來(lái)說(shuō)明總體情況。其最大的優(yōu)點(diǎn)是節省了人力、物力和財力,可以在較短的時(shí)間內獲得相對準確的調查結果,時(shí)效性強。組織全面調查范圍廣、時(shí)間長(cháng)、難度大,多采用抽樣調查的方法進(jìn)行檢查核實(shí)。如在全省開(kāi)展黨風(fēng)廉政建設社會(huì )調查、流動(dòng)黨員現狀社會(huì )調查等。局限性在于當樣本數量不足時(shí),會(huì )影響調查結果的準確性。
  5.7. 典型調查方法
  是指在一定范圍內選取具有代表性的特定對象進(jìn)行調查研究,以了解同類(lèi)事物的發(fā)展變化規律和本質(zhì)的一種方法。當調查樣本過(guò)大時(shí)可以采用這種方法。但在對象的選擇上一定要注意,一定要準確地選擇比較熟悉全局的有代表性的對象。例如,地級市對區縣市農村黨員情況進(jìn)行調查,應選擇經(jīng)濟發(fā)展較快、農村黨員致富能力強的縣市作為典型調查對象。 .
  5.8. 統計調查法
  通過(guò)分析固定統計報表的形式來(lái)反映下列情況的一種調查方法。由于統計報表的內容比較固定,適合分析某事物的發(fā)展軌跡和未來(lái)趨勢。例如,通過(guò)黨員統計年報,可以分析某地全年黨員發(fā)展、轉移、流動(dòng)情況,與上年同期相比增減情況。年,并預測下一個(gè)趨勢。使用統計調查方法時(shí),要特別注意統一統計口徑,以統計部門(mén)的數字為準,報表分析要結合實(shí)際調查,報表不能簡(jiǎn)單分析。例如,某項數據大幅增加或減少的原因很難在報表中反映出來(lái),只有通過(guò)實(shí)際調查才能形成一個(gè)完整的概念。
  5.9. 文獻調查法
  通過(guò)采集
和提取文件來(lái)獲取有關(guān)調查對象信息的方法。適用于研究調查對象在一段時(shí)間內的發(fā)展變化。研究的角度往往是探索一種趨勢或闡明一種演變過(guò)程。這種方法可以突破時(shí)間和空間的限制,進(jìn)行大范圍的調查,而且調查數據易于采集
和分析。同時(shí),它還具有數據可靠、人力物力少、效果大等優(yōu)點(diǎn)。但它往往是一種先進(jìn)的偵查手段,一般只能作為偵查的先導,不能作為偵查結論的現實(shí)依據。
  06 業(yè)務(wù)數據集
  相信在很多公司都會(huì )有相應的日常運營(yíng)和業(yè)務(wù)部門(mén),各種相關(guān)的數據都會(huì )記錄在某些文件或系統中,比如常見(jiàn)的Excel文件,各種辦公系統的數據庫系統等,一般公司DBA人員可能會(huì )向數據分析師開(kāi)放一定的查詢(xún)權限,供數據分析師提取對應的業(yè)務(wù)數據集,提取時(shí)也可能涉及一些數據脫敏問(wèn)題。
  什么是數據脫敏?
  說(shuō)白了,數據脫敏的意義在于保護客戶(hù)的重要隱私信息,但在保護的同時(shí),不能讓數據分析變得毫無(wú)意義。
  相對于這個(gè)領(lǐng)域來(lái)說(shuō),學(xué)好數據庫的相關(guān)語(yǔ)言SQL就很重要了。只有足夠好地掌握SQL,才能在提取和分析數據時(shí)快速、準確地完成相應的任務(wù)!
  07 埋點(diǎn)采集
  埋點(diǎn)分析是應用系統分析常用的數據采集方法。數據嵌入點(diǎn)分為初級、中級和高級三種方式。數據埋點(diǎn)是為私有化部署采集
數據的好方法。
  數據嵌入點(diǎn)分為初級、中級、高級三種方式,即: 初級:在產(chǎn)品和服務(wù)轉化的關(guān)鍵點(diǎn)植入統計代碼,根據其獨立的ID(如點(diǎn)擊)保證數據采集不重復購買(mǎi)按鈕的費率);中間:插入多段代碼跟蹤用戶(hù)在平臺各個(gè)界面的一系列行為,事件相互獨立(如打開(kāi)商品詳情頁(yè)-選擇商品型號-加入購物車(chē)-下單訂單 - 完成購買(mǎi));進(jìn)階:配合公司工程及ETL,對用戶(hù)行為進(jìn)行全量采集分析,建立用戶(hù)畫(huà)像,還原用戶(hù)行為模型,作為產(chǎn)品分析和優(yōu)化的依據。毫無(wú)疑問(wèn),數據埋點(diǎn)是為私有化部署采集
數據的好方法。精準的數據采集滿(mǎn)足企業(yè)去其糟粕和取其精華的需求,實(shí)現產(chǎn)品和服務(wù)的快速優(yōu)化和迭代。埋藏數據采集
的方法廣泛存在于網(wǎng)站和移動(dòng)應用程序中。網(wǎng)站埋點(diǎn)一般存在于網(wǎng)站的按鈕或訪(fǎng)問(wèn)記錄中。系統前端會(huì )有相應的代碼記錄用戶(hù)的操作行為,并將這些數據傳遞給后臺,最終可能以日志或者數據庫表數據的形式記錄下來(lái)。事實(shí)上,它可以理解最終會(huì )成為業(yè)務(wù)數據集的一部分,以便數據分析師可以利用這些用戶(hù)數據建立用戶(hù)畫(huà)像,做分層模型進(jìn)行精準營(yíng)銷(xiāo)等等!大同小異,網(wǎng)站的框架技術(shù)不同但原理相似,擴展到App應用也是一樣的。開(kāi)發(fā)工程師需要將記錄用戶(hù)操作的代碼植入到手機或平板應用的程序中,以滿(mǎn)足相應的數據采集需求,最后返回后臺后,與網(wǎng)站埋點(diǎn)基本相同。擴展到App應用也是一樣。開(kāi)發(fā)工程師需要將記錄用戶(hù)操作的代碼植入到手機或平板應用的程序中,以滿(mǎn)足相應的數據采集需求,最后返回后臺后,與網(wǎng)站埋點(diǎn)基本相同。擴展到App應用也是一樣。開(kāi)發(fā)工程師需要將記錄用戶(hù)操作的代碼植入到手機或平板應用的程序中,以滿(mǎn)足相應的數據采集需求,最后返回后臺后,與網(wǎng)站埋點(diǎn)基本相同。
  08 傳感器采集
  傳感器(英文名稱(chēng):transducer/sensor)是一種檢測裝置,它能感知被測量的信息,并將感知到的信息按照一定的規則轉換成電信號或其他所需形式的信息輸出,以滿(mǎn)足信息要求。傳輸、處理、存儲、顯示、記錄和控制要求。
  傳感器的特點(diǎn)包括:小型化、數字化、智能化、多功能化、系統化、網(wǎng)絡(luò )化。它是實(shí)現自動(dòng)檢測和自動(dòng)控制的第一個(gè)環(huán)節。傳感器的存在和發(fā)展,讓物體有了觸覺(jué)、味覺(jué)、嗅覺(jué)等感官,讓物體慢慢活了過(guò)來(lái)。通常按其基本感知功能可分為熱傳感器、光傳感器、氣體傳感器、力傳感器、磁傳感器、濕度傳感器、聲音傳感器、輻射傳感器、顏色傳感器和味覺(jué)傳感器等十大類(lèi)。.
  通過(guò)配備各種傳感器的軟硬件結合,我們可以很容易地獲取現實(shí)物理世界中的各種相關(guān)數據。例如,我們使用攝像頭、錄音設備、體溫檢測、氣候檢測等設備。一般這類(lèi)設備都會(huì )內置很多不同款式的傳感器。其實(shí)對于數據分析師來(lái)說(shuō),沒(méi)有必要對傳感器的原理了解太多。更重要的是要了解數據從哪里來(lái),以及傳感器本身采集的數據的一些特性,比如誤差、靈敏度、使用環(huán)境等,這些都會(huì )影響數據采集效果。所以我不會(huì )在這里詳細介紹。
  09 數據交易平臺
  大家常說(shuō)的數據交易平臺,正式名稱(chēng)為大數據交易所,定義如下:
  全國首家大數據交易所——貴陽(yáng)大數據交易所于2015年4月15日正式掛牌,并與深圳市騰訊計算機系統有限公司、廣東省數字廣東研究院完成合作。買(mǎi)家是京東云平臺和中金數據系統有限公司的第一筆數據交易。首批數據交易的完成,標志著(zhù)國內首家大數據交易所正式運營(yíng)。同時(shí),在交流平臺的基礎上,大數據領(lǐng)域的相關(guān)專(zhuān)家、學(xué)者、企業(yè)共同成立了大數據交易商(貴陽(yáng))聯(lián)盟。企業(yè)。
  當然,現在已經(jīng)有很多大數據交易所了。關(guān)于數據交易平臺的更多信息,您可以參考此鏈接:
  國內有哪些好的“數據交易”平臺,比如淘寶之類(lèi)的平臺?- 知乎
  10 個(gè)人資料采集
  最后,讓我們談?wù)剛€(gè)人數據。其實(shí)網(wǎng)上都在講這種數據管理。其實(shí)更多的是用在企業(yè)或者相關(guān)組織中。但是讓我們仔細想想。如果對自己要求嚴格的話(huà),其實(shí)也可以在個(gè)人管理方面采集
數據,然后分析個(gè)人數據,最終引導自己的人生方向。
  例如,對于我們個(gè)人的財務(wù)狀況,我們可以使用Excel進(jìn)行基本的財務(wù)分析,然后根據自己的財務(wù)狀況進(jìn)行財務(wù)規劃。
  再比如,我們可以數自己的時(shí)間。這就是著(zhù)名的時(shí)間統計方法。有興趣的朋友可以了解一下?!镀娈惾松芬粫?shū)講的是柳比雪夫的時(shí)間統計方法。.
  再比如,我們可以統計自己每天做的任務(wù),從而得到每個(gè)時(shí)間點(diǎn)的工作效率,從而總結出自己的生物鐘規律。關(guān)于生物鐘的內容,強烈推薦《神奇的人體生物鐘》和《時(shí)間管理》。對于這類(lèi)書(shū)籍,可以通過(guò)數據統計分析的結果來(lái)判斷內容是否正確。
  ...
  生活的方方面面太多了,我們都可以通過(guò)采集
采集
來(lái)記錄自己。當我們想要在某一方面做出決策時(shí),數據分析就成為了一個(gè)強有力的切入點(diǎn)。比如我們要買(mǎi)房子,我們可以通過(guò)分析房?jì)r(jià)數據來(lái)選擇合適的房子,同樣的例子還包括基金,我們可以分別研究基金和基金經(jīng)理數據的一些特征,從而篩選合適的投資基金...
  例子太多,這里就不贅述了。當我們開(kāi)始以各種方式采集
自己的數據時(shí),其實(shí)就是開(kāi)始了一種新的生活模式,量化生活。相信這樣的生活會(huì )給你帶來(lái)不一樣的精彩,
  好了,書(shū)川這篇文章的內容就分享到這里了!
  核心方法:SEO: 亞馬遜關(guān)鍵詞研究工具!這個(gè)插件你用上了嗎?
  Amazon 搜索引擎是世界上最大的產(chǎn)品查找引擎,為商業(yè)目的提供 關(guān)鍵詞“基本見(jiàn)解”。
  但亞馬遜并未透露廣告數量或按點(diǎn)擊付費的廣告信息。因此,賣(mài)家只能自己發(fā)現消費者搜索 關(guān)鍵詞。下面我們將介紹幾個(gè)關(guān)鍵詞工具來(lái)幫助賣(mài)家優(yōu)化他們在亞馬遜上的排名。
  Amazon autosuggest 會(huì )在搜索者輸入時(shí)顯示單詞和短語(yǔ)。AutoSuggest 類(lèi)似于 Google Suggest。用戶(hù)在搜索框中鍵入的內容越多,給出的建議就越少。因此,所有這些建議都是潛在的關(guān)鍵字。
  亞馬遜沒(méi)有說(shuō)明這些 關(guān)鍵詞 是如何訂購的。我們只能假設更受歡迎的 關(guān)鍵詞 排在第一位。
  亞馬遜會(huì )針對用戶(hù)之前的搜索做出個(gè)性化的建議,所以建議先退出賬戶(hù)再查看亞馬遜給出的“自動(dòng)建議”關(guān)鍵詞。
  Amazon autosuggest 會(huì )在用戶(hù)鍵入時(shí)顯示單詞和短語(yǔ)。用戶(hù)在搜索框中鍵入的信息越多,給出的建議就越少,例如這個(gè)“洗衣機洗滌劑”示例。
  亞馬遜搜索建議擴展
  這個(gè)免費的 Chrome 擴展程序值得賣(mài)家下載。
  只需在搜索欄中輸入關(guān)鍵詞,它會(huì )很快拉出大量亞馬遜推薦搜索關(guān)鍵詞,您可以將其下載為Excel文件。
  “Before”關(guān)鍵詞,即在查詢(xún)前添加詞生成的建議?!案郊印苯ㄗh,在輸入較長(cháng)的句子時(shí)也會(huì )顯示建議 關(guān)鍵詞。
  
  搜索建議擴展
  以下是亞馬遜對“甲板清潔劑”的推薦。
  亞馬遜對“deckcleaner”的自動(dòng)建議
  這就是 Amazon Search Suggestion 擴展:您可以將建議下載到 Excel 文件中。
  來(lái)自搜索建議擴展的“deckcleaner”建議
  這個(gè)工具最好的地方是研究基于類(lèi)別的關(guān)鍵詞來(lái)探索購買(mǎi)過(guò)程。例如,您可以鍵入“washing”并選擇“Baby”類(lèi)別作為關(guān)鍵字建議,例如“washingBabyhairshield”和“awashingmachinetoy”
  Keywordtool.io 將亞馬遜的自動(dòng)提示 關(guān)鍵詞 與 Google Ads 的數據進(jìn)行比較。最初的關(guān)鍵詞“洗滌”顯示在這里
  該工具有助于產(chǎn)生更多的產(chǎn)品創(chuàng )意。在類(lèi)別中輸入 關(guān)鍵詞,該工具將提供實(shí)際的、相關(guān)的亞馬遜搜索詞。您還可以過(guò)濾常用修飾符以對 關(guān)鍵詞 進(jìn)行分組。Keywordtool.io 是每月 69 美元。
  MerchantWords 是唯一專(zhuān)為亞馬遜賣(mài)家提供的 關(guān)鍵詞 工具。因此,該工具可以提供:
  Amazon 的搜索量,MerchantWords 使用自己的算法計算量。下面列出了與這些搜索相匹配的主要產(chǎn)品類(lèi)別。季節性 關(guān)鍵詞(如果存在)。過(guò)去幾個(gè)月的搜索趨勢,關(guān)鍵詞。
  MerchantWords 的起價(jià)為每月 79 美元。
  
  MerchantWords 是唯一專(zhuān)用于亞馬遜賣(mài)家的主要 關(guān)鍵詞 工具,提供 關(guān)鍵詞 搜索量、主要類(lèi)別和趨勢。例如“高爾夫球”關(guān)鍵詞
  與谷歌搜索一樣,亞馬遜搜索提供了很多關(guān)于消費者如何查詢(xún)你的核心主題的線(xiàn)索。作為賣(mài)家,您需要密切關(guān)注亞馬遜上的產(chǎn)品列表、相關(guān)搜索和“部門(mén)”。
  當產(chǎn)品是新產(chǎn)品時(shí),查看產(chǎn)品列表以深入了解 關(guān)鍵詞 和修飾符。例如,搜索“甲板清潔劑”會(huì )出現諸如“防滑”、“多用途”、“戶(hù)外清潔劑”、“去污劑”和“保護劑”等修飾語(yǔ)。
  查看產(chǎn)品列表以深入了解 關(guān)鍵詞 和修飾符。例如,關(guān)鍵字“deckcleaner”會(huì )產(chǎn)生諸如“防滑”和“多用途”之類(lèi)的修飾語(yǔ)
  相關(guān)搜索。在原創(chuàng )
搜索結果下方,亞馬遜會(huì )生成一個(gè)“相關(guān)搜索”列表,這些搜索可能來(lái)自類(lèi)似購買(mǎi)過(guò)程中的實(shí)際搜索。在產(chǎn)品名稱(chēng)和類(lèi)別中收錄
相關(guān)術(shù)語(yǔ)。
  亞馬遜根據類(lèi)似購買(mǎi)旅程的實(shí)際搜索生成“相關(guān)搜索”列表。此示例顯示“deckcleaner”的相關(guān)搜索詞:“deckcleanerforpressurewasher”、“deckbrush”等。
  部門(mén):留意亞馬遜上收錄
使用 關(guān)鍵詞 的產(chǎn)品的“部門(mén)”??紤]以類(lèi)似的方式構建您自己的網(wǎng)站,因為“部門(mén)”可以等同于一個(gè)類(lèi)別。
  亞馬遜內部的“部門(mén)”相當于分類(lèi),為賣(mài)家提供建站思路。例如,與“deckcleaner”相關(guān)的產(chǎn)品部門(mén)。
  亞馬遜不會(huì )細分搜索量或點(diǎn)擊費用。因此,賣(mài)家需要善用亞馬遜的工具和第三方工具,讓消費者能夠輕松找到我們銷(xiāo)售的商品。

官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久