亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久

優(yōu)采集平臺

優(yōu)采集平臺

做網(wǎng)站SEO優(yōu)化,一定要正規就會(huì )有穩定的排行

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 315 次瀏覽 ? 2020-08-22 18:14 ? 來(lái)自相關(guān)話(huà)題

  做網(wǎng)站SEO優(yōu)化,一定要正規就會(huì )有穩定的排行
  隨著(zhù)百度算法的不斷調整,很多的采集網(wǎng)站,以及快排手段都遭到了百度的懲罰,百度k站無(wú)數,讓無(wú)數seoer“一朝回到解放前”,因此做網(wǎng)站SEO優(yōu)化,一定要正規就會(huì )有穩定的排行。
  
  網(wǎng)站頁(yè)面和內容
  頁(yè)面的布局,以及內容和網(wǎng)站的結構是我們網(wǎng)站最有效的推動(dòng),頁(yè)面內容的建立和網(wǎng)站整體結構的合理否是常??梢詻Q定我們優(yōu)化的結果。
  網(wǎng)站結構:網(wǎng)站的結構我們要理解htm、外鏈獲取方法、內部層次結構等對這個(gè)有興趣的同學(xué)可以查看我們(網(wǎng)站結構與設計怎么易于優(yōu)化)。
  保證網(wǎng)站安全
  網(wǎng)站的安全是我們網(wǎng)站排名提高的前提,沒(méi)有安全的網(wǎng)站,就不可能有排行的提示,事項,哪怕你把網(wǎng)站做出一個(gè)花來(lái),百度也不會(huì )對一個(gè)查查打不開(kāi),經(jīng)常被提權的網(wǎng)站有任何的SEOYOUH 排名。網(wǎng)站安全我們必須要做到以下幾點(diǎn):
  防采集:防采集是我們保證網(wǎng)站內容安全的一大手段。主要手段可以通過(guò)IP訪(fǎng)問(wèn)分級機制、鍵盤(pán)滑鼠行為、瀏覽器指紋、給假數據、驗證碼、防模擬搜索引擎爬蟲(chóng)、登陸、建立黑名單、必須完整渲染jswindows特殊對象、圖片防采集來(lái)完成。
  防入侵:防入侵可以通過(guò)身分驗證、數據加密傳輸、確保數據的完整、避免中間人攻擊、力度的扶植、瀏覽器安全標識、補丁、用戶(hù)權限、被動(dòng)檢測、端口等等方式來(lái)解決。
  數據安全:如果未能保證數據安全,那有可能你辛辛苦苦建立大半年的內容,執照回到解放前。主要的方式有:磁盤(pán)陣列、磁盤(pán)陣列、線(xiàn)下備份、文件云備份等。
  防功擊: 主要方防ddos,ddos是分布式拒絕服務(wù)攻擊(Distributed Denial of Service,簡(jiǎn)稱(chēng)DDoS)是指處于不同位置的多個(gè)攻擊者同時(shí)向一個(gè)或數個(gè) 目標發(fā)動(dòng)功擊,或者一個(gè)攻擊者控制了坐落不同位置的多臺機器并借助這種機器對受害者同時(shí)施行功擊。由于功擊的發(fā)出點(diǎn)是分布在不同地方的,這類(lèi)功擊稱(chēng)為分布式拒絕服務(wù)攻擊,其中的攻擊者可以有多個(gè)。
  干涉搜索引擎于、搜索引擎排名核心
  干涉搜索引擎主要有被動(dòng)爬取干涉、主動(dòng)遞交(哪些情況會(huì )干預搜索引擎)。引擎排行核心:內容相關(guān)性指標、原創(chuàng )性指標、可訪(fǎng)問(wèn)性指標、用戶(hù)性檢查。
  如何運用正規SEO優(yōu)化操作使網(wǎng)站有排行,經(jīng)過(guò)我們的分享早已有所了解,網(wǎng)站優(yōu)化的核心是用戶(hù)和符合搜索引擎抓取的規則,只要滿(mǎn)足這兩點(diǎn),網(wǎng)站優(yōu)化得心應手。
  深圳市云天下信息技術(shù)(集團)有限公司主營(yíng)、網(wǎng)站優(yōu)化、SEO優(yōu)化、優(yōu)化公司、網(wǎng)站SEO、SEO公司、SEO推廣、網(wǎng)絡(luò )推廣、網(wǎng)絡(luò )推廣公司、網(wǎng)站推廣、網(wǎng)站推廣公司、網(wǎng)絡(luò )營(yíng)銷(xiāo)、網(wǎng)站SEO優(yōu)化、網(wǎng)站優(yōu)化公司、SEO優(yōu)化公司、搜索引擎優(yōu)化、網(wǎng)站排名、快速排行、關(guān)鍵詞排行、關(guān)鍵詞優(yōu)化、網(wǎng)站建設、網(wǎng)站設計、網(wǎng)站制作、網(wǎng)站建設公司、網(wǎng)站設計公司、網(wǎng)站制作公司、整站優(yōu)化!官網(wǎng): 查看全部

  做網(wǎng)站SEO優(yōu)化,一定要正規就會(huì )有穩定的排行
  隨著(zhù)百度算法的不斷調整,很多的采集網(wǎng)站,以及快排手段都遭到了百度的懲罰,百度k站無(wú)數,讓無(wú)數seoer“一朝回到解放前”,因此做網(wǎng)站SEO優(yōu)化,一定要正規就會(huì )有穩定的排行。
  
  網(wǎng)站頁(yè)面和內容
  頁(yè)面的布局,以及內容和網(wǎng)站的結構是我們網(wǎng)站最有效的推動(dòng),頁(yè)面內容的建立和網(wǎng)站整體結構的合理否是常??梢詻Q定我們優(yōu)化的結果。
  網(wǎng)站結構:網(wǎng)站的結構我們要理解htm、外鏈獲取方法、內部層次結構等對這個(gè)有興趣的同學(xué)可以查看我們(網(wǎng)站結構與設計怎么易于優(yōu)化)。
  保證網(wǎng)站安全
  網(wǎng)站的安全是我們網(wǎng)站排名提高的前提,沒(méi)有安全的網(wǎng)站,就不可能有排行的提示,事項,哪怕你把網(wǎng)站做出一個(gè)花來(lái),百度也不會(huì )對一個(gè)查查打不開(kāi),經(jīng)常被提權的網(wǎng)站有任何的SEOYOUH 排名。網(wǎng)站安全我們必須要做到以下幾點(diǎn):
  防采集:防采集是我們保證網(wǎng)站內容安全的一大手段。主要手段可以通過(guò)IP訪(fǎng)問(wèn)分級機制、鍵盤(pán)滑鼠行為、瀏覽器指紋、給假數據、驗證碼、防模擬搜索引擎爬蟲(chóng)、登陸、建立黑名單、必須完整渲染jswindows特殊對象、圖片防采集來(lái)完成。
  防入侵:防入侵可以通過(guò)身分驗證、數據加密傳輸、確保數據的完整、避免中間人攻擊、力度的扶植、瀏覽器安全標識、補丁、用戶(hù)權限、被動(dòng)檢測、端口等等方式來(lái)解決。
  數據安全:如果未能保證數據安全,那有可能你辛辛苦苦建立大半年的內容,執照回到解放前。主要的方式有:磁盤(pán)陣列、磁盤(pán)陣列、線(xiàn)下備份、文件云備份等。
  防功擊: 主要方防ddos,ddos是分布式拒絕服務(wù)攻擊(Distributed Denial of Service,簡(jiǎn)稱(chēng)DDoS)是指處于不同位置的多個(gè)攻擊者同時(shí)向一個(gè)或數個(gè) 目標發(fā)動(dòng)功擊,或者一個(gè)攻擊者控制了坐落不同位置的多臺機器并借助這種機器對受害者同時(shí)施行功擊。由于功擊的發(fā)出點(diǎn)是分布在不同地方的,這類(lèi)功擊稱(chēng)為分布式拒絕服務(wù)攻擊,其中的攻擊者可以有多個(gè)。
  干涉搜索引擎于、搜索引擎排名核心
  干涉搜索引擎主要有被動(dòng)爬取干涉、主動(dòng)遞交(哪些情況會(huì )干預搜索引擎)。引擎排行核心:內容相關(guān)性指標、原創(chuàng )性指標、可訪(fǎng)問(wèn)性指標、用戶(hù)性檢查。
  如何運用正規SEO優(yōu)化操作使網(wǎng)站有排行,經(jīng)過(guò)我們的分享早已有所了解,網(wǎng)站優(yōu)化的核心是用戶(hù)和符合搜索引擎抓取的規則,只要滿(mǎn)足這兩點(diǎn),網(wǎng)站優(yōu)化得心應手。
  深圳市云天下信息技術(shù)(集團)有限公司主營(yíng)、網(wǎng)站優(yōu)化、SEO優(yōu)化、優(yōu)化公司、網(wǎng)站SEO、SEO公司、SEO推廣、網(wǎng)絡(luò )推廣、網(wǎng)絡(luò )推廣公司、網(wǎng)站推廣、網(wǎng)站推廣公司、網(wǎng)絡(luò )營(yíng)銷(xiāo)、網(wǎng)站SEO優(yōu)化、網(wǎng)站優(yōu)化公司、SEO優(yōu)化公司、搜索引擎優(yōu)化、網(wǎng)站排名、快速排行、關(guān)鍵詞排行、關(guān)鍵詞優(yōu)化、網(wǎng)站建設、網(wǎng)站設計、網(wǎng)站制作、網(wǎng)站建設公司、網(wǎng)站設計公司、網(wǎng)站制作公司、整站優(yōu)化!官網(wǎng):

請問(wèn)有什么好用的校友會(huì )平臺?需要構建數據庫嗎?

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 167 次瀏覽 ? 2020-08-20 00:59 ? 來(lái)自相關(guān)話(huà)題

  請問(wèn)有什么好用的校友會(huì )平臺?需要構建數據庫嗎?
  一、傳統校友數據庫系統特性與不足
  【1】數據搜集及更新冗長(cháng)
  主要來(lái)源于原有紙質(zhì)化登記及電子表格錄入,通常都借助校友會(huì )負責人人工統籌搜集;信息錄入后就極少變更,而校友信息總是在不斷變換(如更換電話(huà)、單位、所在城市等等),學(xué)校倘若更新數據庫,則又需重新收錄。
  【2】系統封閉,不具備開(kāi)放性、互動(dòng)性
  傳統數據庫系統屬于校友會(huì )老師的雙向管理平臺,雖然便捷中學(xué)管理校友數據,但互動(dòng)性低,難以滿(mǎn)足校友與母校溝通、校友聯(lián)絡(luò )校友等需求。
  【3】成本高,需專(zhuān)人維護,迭代升級平緩、低效
  學(xué)校開(kāi)發(fā)校友數據庫系統,通常需專(zhuān)人維護(如網(wǎng)路辦),一旦出現問(wèn)題,則需專(zhuān)門(mén)人員到場(chǎng)解決。加之隨著(zhù)工作的推動(dòng),校友會(huì )部門(mén)將會(huì )須要更多新功能,迭代升級過(guò)程中,又會(huì )涉及人力、物力、財力的再度調配及使用,整個(gè)周期一般起碼須要半年至一年。
  【4】數據利用率低,應用價(jià)值小
  存儲在本地數據庫的信息,未能激活,一般僅限于查詢(xún)、分類(lèi)、統計等基礎使用上,難以廣泛應用于各類(lèi)現實(shí)場(chǎng)景中,校友數據的價(jià)值難以充分利用。
  二、“互聯(lián)網(wǎng)+”校友會(huì )系統平臺
  自2016年開(kāi)始,全國諸多院校都開(kāi)始了互聯(lián)網(wǎng)模式下的校友系統平臺的追尋與建設。
  通常業(yè)內稱(chēng)傳統校友會(huì )數據庫建設為校友會(huì )工作的1.0時(shí)期,通過(guò)互聯(lián)網(wǎng)技術(shù)推動(dòng)校友會(huì )工作高效發(fā)展的階段為2.0時(shí)期。
  
  以友笑·社匯為例,2.0系統有以下優(yōu)勢與亮點(diǎn):
 ?。?)以?xún)热?、活?dòng)等為依托,多方、多款式搜集數據借助于內容、活動(dòng)等載體,嵌入信息搜集的需求,把數據搜集做到自然而然,總會(huì )、分會(huì )直接可便捷的進(jìn)行信息共享。
 ?。?)傳播快,互動(dòng)性強
  如華誕、地方晚會(huì )、返校約請、項目捐款等信息,依托互聯(lián)網(wǎng)的傳播手段(如陌陌、H5頁(yè)面等)可快速傳達到諸多校友的面前,每一位校友都屬于傳播連接點(diǎn),形成指數級宣傳和下降。移動(dòng)互聯(lián)網(wǎng)模式的社匯系統,不僅限于中學(xué)向校友傳播內容或動(dòng)態(tài),也支持校友與校友的互動(dòng),達成溝通與合作,以及校友對母校的交流和回饋。
 ?。?)雙向溝通互動(dòng),加強校友與母校的聯(lián)絡(luò )
  周期性溝通聯(lián)絡(luò )校友,讓校友工作愈加溫暖。借助互聯(lián)網(wǎng)的高效方便工具,可通過(guò)短信、短信等周期性?xún)热?,利用感恩橋概念,讓校友體會(huì )母校的發(fā)展動(dòng)態(tài),并參與到母校的建設中來(lái)。
 ?。?)數據應用價(jià)值大,使用場(chǎng)景廣泛
  學(xué)??山柚S褦祿e辦更多應用場(chǎng)景的拓展,利用平臺與校友資源,打造校企合作良性互利模式,為校友提供更多服務(wù)。社匯系統平臺支持對于校友企業(yè)的展示、宣傳與合作,校友云卡可以實(shí)現“高校-校企-校友”三方互惠互利模式。
 ?。?)融入AI技術(shù),挖掘優(yōu)秀校友信息和資源
  服務(wù)全體校友是基礎,維護優(yōu)秀校友是關(guān)鍵。借助AI技術(shù),挖掘優(yōu)秀校友資源,找到優(yōu)秀校友,讓校友工作在更有重點(diǎn)。
 ?。?)云服務(wù)器儲存,維護、升級方便高效
  以阿里云為代表的云服務(wù)儲存技術(shù),讓系統的維護和迭代更新,更加安全、快速、高效,學(xué)校無(wú)需專(zhuān)人維護,總會(huì )老師只需使用和提需求,升級更新全交給專(zhuān)業(yè)團隊,新功能的降低與優(yōu)化,通常只需7-15天。
  放上幾個(gè)算是國外做得最好的校友會(huì )社群鏈接:
  北京大學(xué)校友會(huì )
  
  浙江大學(xué)校友總會(huì )
  
  總結:系統仍然只是工具,核心的工作還須要校友會(huì )老師實(shí)際去舉辦,因此營(yíng)運是關(guān)鍵。通過(guò)“系統工具+運營(yíng)”的高效模式,可以使資源、人力有限的院校,實(shí)現校友工作的逐步趕超。 查看全部

  請問(wèn)有什么好用的校友會(huì )平臺?需要構建數據庫嗎?
  一、傳統校友數據庫系統特性與不足
  【1】數據搜集及更新冗長(cháng)
  主要來(lái)源于原有紙質(zhì)化登記及電子表格錄入,通常都借助校友會(huì )負責人人工統籌搜集;信息錄入后就極少變更,而校友信息總是在不斷變換(如更換電話(huà)、單位、所在城市等等),學(xué)校倘若更新數據庫,則又需重新收錄。
  【2】系統封閉,不具備開(kāi)放性、互動(dòng)性
  傳統數據庫系統屬于校友會(huì )老師的雙向管理平臺,雖然便捷中學(xué)管理校友數據,但互動(dòng)性低,難以滿(mǎn)足校友與母校溝通、校友聯(lián)絡(luò )校友等需求。
  【3】成本高,需專(zhuān)人維護,迭代升級平緩、低效
  學(xué)校開(kāi)發(fā)校友數據庫系統,通常需專(zhuān)人維護(如網(wǎng)路辦),一旦出現問(wèn)題,則需專(zhuān)門(mén)人員到場(chǎng)解決。加之隨著(zhù)工作的推動(dòng),校友會(huì )部門(mén)將會(huì )須要更多新功能,迭代升級過(guò)程中,又會(huì )涉及人力、物力、財力的再度調配及使用,整個(gè)周期一般起碼須要半年至一年。
  【4】數據利用率低,應用價(jià)值小
  存儲在本地數據庫的信息,未能激活,一般僅限于查詢(xún)、分類(lèi)、統計等基礎使用上,難以廣泛應用于各類(lèi)現實(shí)場(chǎng)景中,校友數據的價(jià)值難以充分利用。
  二、“互聯(lián)網(wǎng)+”校友會(huì )系統平臺
  自2016年開(kāi)始,全國諸多院校都開(kāi)始了互聯(lián)網(wǎng)模式下的校友系統平臺的追尋與建設。
  通常業(yè)內稱(chēng)傳統校友會(huì )數據庫建設為校友會(huì )工作的1.0時(shí)期,通過(guò)互聯(lián)網(wǎng)技術(shù)推動(dòng)校友會(huì )工作高效發(fā)展的階段為2.0時(shí)期。
  
  以友笑·社匯為例,2.0系統有以下優(yōu)勢與亮點(diǎn):
 ?。?)以?xún)热?、活?dòng)等為依托,多方、多款式搜集數據借助于內容、活動(dòng)等載體,嵌入信息搜集的需求,把數據搜集做到自然而然,總會(huì )、分會(huì )直接可便捷的進(jìn)行信息共享。
 ?。?)傳播快,互動(dòng)性強
  如華誕、地方晚會(huì )、返校約請、項目捐款等信息,依托互聯(lián)網(wǎng)的傳播手段(如陌陌、H5頁(yè)面等)可快速傳達到諸多校友的面前,每一位校友都屬于傳播連接點(diǎn),形成指數級宣傳和下降。移動(dòng)互聯(lián)網(wǎng)模式的社匯系統,不僅限于中學(xué)向校友傳播內容或動(dòng)態(tài),也支持校友與校友的互動(dòng),達成溝通與合作,以及校友對母校的交流和回饋。
 ?。?)雙向溝通互動(dòng),加強校友與母校的聯(lián)絡(luò )
  周期性溝通聯(lián)絡(luò )校友,讓校友工作愈加溫暖。借助互聯(lián)網(wǎng)的高效方便工具,可通過(guò)短信、短信等周期性?xún)热?,利用感恩橋概念,讓校友體會(huì )母校的發(fā)展動(dòng)態(tài),并參與到母校的建設中來(lái)。
 ?。?)數據應用價(jià)值大,使用場(chǎng)景廣泛
  學(xué)??山柚S褦祿e辦更多應用場(chǎng)景的拓展,利用平臺與校友資源,打造校企合作良性互利模式,為校友提供更多服務(wù)。社匯系統平臺支持對于校友企業(yè)的展示、宣傳與合作,校友云卡可以實(shí)現“高校-校企-校友”三方互惠互利模式。
 ?。?)融入AI技術(shù),挖掘優(yōu)秀校友信息和資源
  服務(wù)全體校友是基礎,維護優(yōu)秀校友是關(guān)鍵。借助AI技術(shù),挖掘優(yōu)秀校友資源,找到優(yōu)秀校友,讓校友工作在更有重點(diǎn)。
 ?。?)云服務(wù)器儲存,維護、升級方便高效
  以阿里云為代表的云服務(wù)儲存技術(shù),讓系統的維護和迭代更新,更加安全、快速、高效,學(xué)校無(wú)需專(zhuān)人維護,總會(huì )老師只需使用和提需求,升級更新全交給專(zhuān)業(yè)團隊,新功能的降低與優(yōu)化,通常只需7-15天。
  放上幾個(gè)算是國外做得最好的校友會(huì )社群鏈接:
  北京大學(xué)校友會(huì )
  
  浙江大學(xué)校友總會(huì )
  
  總結:系統仍然只是工具,核心的工作還須要校友會(huì )老師實(shí)際去舉辦,因此營(yíng)運是關(guān)鍵。通過(guò)“系統工具+運營(yíng)”的高效模式,可以使資源、人力有限的院校,實(shí)現校友工作的逐步趕超。

提交網(wǎng)站到搜索引擎站長(cháng)平臺網(wǎng)路推廣優(yōu)化32云丶速丶捷47

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 181 次瀏覽 ? 2020-08-19 05:14 ? 來(lái)自相關(guān)話(huà)題

  提交網(wǎng)站到搜索引擎站長(cháng)平臺網(wǎng)路推廣優(yōu)化32云丶速丶捷47
  
  1、這些操作會(huì )使百度不收錄新站內容Robots.txt只能?chē)澜ト?,無(wú)法嚴禁收錄
  2、關(guān)于網(wǎng)站優(yōu)化如何做好原創(chuàng ),云優(yōu)SEO在此僅提兩點(diǎn)(細品):
  3、網(wǎng)站一直不收錄的誘因內容質(zhì)量差,內容是SEO優(yōu)化的最重要部份,也是站長(cháng)最容易忽視的部份,站長(cháng)往往為了湊內容而采集其它網(wǎng)站的數據,或是進(jìn)行簡(jiǎn)單的偽原創(chuàng ),嚴重影響了用戶(hù)體驗,百度非常注重原創(chuàng )內容,而且始終嚴打盜版內容,如果網(wǎng)站內容采集于互聯(lián)網(wǎng),而且都是低質(zhì)量的文章,百度不收錄是正常的。
  4、快速收錄上線(xiàn)對SEO意味著(zhù)哪些?快速收錄上線(xiàn)站點(diǎn)管理一方面是便捷百度開(kāi)發(fā)人員維護調試,統一化管理,另一方面也便捷的用戶(hù),這樣不用多個(gè)后臺去遞交(以前自動(dòng)遞交須要到站點(diǎn)管理,天級遞交須要到聯(lián)通專(zhuān)區后臺)??焖偈珍浌δ苌暇€(xiàn)也就代表聯(lián)通專(zhuān)區距離徹底下線(xiàn)也不遠了,或者就是這幾天了。
  5、文章內容生成工具雖然說(shuō)白了與偽原創(chuàng )工具一個(gè)樣,自動(dòng)生成的文章可讀性太差,非常影響用戶(hù)體驗?;緝热菥褪枪菲ú煌?,上句不接下句,自動(dòng)插入些關(guān)鍵詞來(lái)調整文章相關(guān)性。這種效率比文章自動(dòng)采集也不差,能日更成千上萬(wàn)篇文章。
  6、提高文章質(zhì)量;數量是一個(gè)方面,質(zhì)量也是很重要的一個(gè)方面,數量要構建在質(zhì)量的基礎上,不能以犧牲文章質(zhì)量為代價(jià)來(lái)成全文章數量,失去了質(zhì)量的文章,數量再多也只是浮云而已,搜索引擎最終會(huì )依據用戶(hù)體驗來(lái)給與一篇文章排名,好文章指的是用戶(hù)喜歡的文章,用戶(hù)不喜歡的文章,是不可能被搜索引擎認可的,并不是說(shuō)收錄的內容就會(huì )給與排行。
  7、域名歷史選擇域名要非常慎重,確認域名是否有以前使用的痕跡,有收錄歷史的域名千萬(wàn)別用,說(shuō)不定就是一個(gè)被降權的域名,若真使用了這樣的域名,是很難洗白的,尤其對于個(gè)人站長(cháng)而言,經(jīng)營(yíng)的都是一些個(gè)人博客,單頁(yè)網(wǎng)站等,想要洗白簡(jiǎn)直比登天還難。 查看全部

  提交網(wǎng)站到搜索引擎站長(cháng)平臺網(wǎng)路推廣優(yōu)化32云丶速丶捷47
  
  1、這些操作會(huì )使百度不收錄新站內容Robots.txt只能?chē)澜ト?,無(wú)法嚴禁收錄
  2、關(guān)于網(wǎng)站優(yōu)化如何做好原創(chuàng ),云優(yōu)SEO在此僅提兩點(diǎn)(細品):
  3、網(wǎng)站一直不收錄的誘因內容質(zhì)量差,內容是SEO優(yōu)化的最重要部份,也是站長(cháng)最容易忽視的部份,站長(cháng)往往為了湊內容而采集其它網(wǎng)站的數據,或是進(jìn)行簡(jiǎn)單的偽原創(chuàng ),嚴重影響了用戶(hù)體驗,百度非常注重原創(chuàng )內容,而且始終嚴打盜版內容,如果網(wǎng)站內容采集于互聯(lián)網(wǎng),而且都是低質(zhì)量的文章,百度不收錄是正常的。
  4、快速收錄上線(xiàn)對SEO意味著(zhù)哪些?快速收錄上線(xiàn)站點(diǎn)管理一方面是便捷百度開(kāi)發(fā)人員維護調試,統一化管理,另一方面也便捷的用戶(hù),這樣不用多個(gè)后臺去遞交(以前自動(dòng)遞交須要到站點(diǎn)管理,天級遞交須要到聯(lián)通專(zhuān)區后臺)??焖偈珍浌δ苌暇€(xiàn)也就代表聯(lián)通專(zhuān)區距離徹底下線(xiàn)也不遠了,或者就是這幾天了。
  5、文章內容生成工具雖然說(shuō)白了與偽原創(chuàng )工具一個(gè)樣,自動(dòng)生成的文章可讀性太差,非常影響用戶(hù)體驗?;緝热菥褪枪菲ú煌?,上句不接下句,自動(dòng)插入些關(guān)鍵詞來(lái)調整文章相關(guān)性。這種效率比文章自動(dòng)采集也不差,能日更成千上萬(wàn)篇文章。
  6、提高文章質(zhì)量;數量是一個(gè)方面,質(zhì)量也是很重要的一個(gè)方面,數量要構建在質(zhì)量的基礎上,不能以犧牲文章質(zhì)量為代價(jià)來(lái)成全文章數量,失去了質(zhì)量的文章,數量再多也只是浮云而已,搜索引擎最終會(huì )依據用戶(hù)體驗來(lái)給與一篇文章排名,好文章指的是用戶(hù)喜歡的文章,用戶(hù)不喜歡的文章,是不可能被搜索引擎認可的,并不是說(shuō)收錄的內容就會(huì )給與排行。
  7、域名歷史選擇域名要非常慎重,確認域名是否有以前使用的痕跡,有收錄歷史的域名千萬(wàn)別用,說(shuō)不定就是一個(gè)被降權的域名,若真使用了這樣的域名,是很難洗白的,尤其對于個(gè)人站長(cháng)而言,經(jīng)營(yíng)的都是一些個(gè)人博客,單頁(yè)網(wǎng)站等,想要洗白簡(jiǎn)直比登天還難。

網(wǎng)絡(luò )剖析系列之五 Wireshark介紹與優(yōu)缺點(diǎn)剖析

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 598 次瀏覽 ? 2020-08-17 20:28 ? 來(lái)自相關(guān)話(huà)題

  網(wǎng)絡(luò )剖析系列之五 Wireshark介紹與優(yōu)缺點(diǎn)剖析
  作為全球使用與開(kāi)發(fā)維護人數最多的數據包剖析軟件,Wireshark受到廣大合同剖析愛(ài)好者、網(wǎng)絡(luò )運維工程師及科研人員的偏愛(ài)。從本節開(kāi)始,將逐漸深入介紹Wireshark的相關(guān)內容,包括產(chǎn)品安裝、配置和使用等信息。
  Wireshark簡(jiǎn)史
  Wireshark的作者Gerald Combs,于1998年因為在校項目需求而開(kāi)發(fā),早期名為Ethereal。Wireshark是世界上最重要和最廣泛使用的網(wǎng)路合同剖析儀。它可以使您在微觀(guān)層面上見(jiàn)到網(wǎng)路上發(fā)生的事情,并且是許多商業(yè)和非營(yíng)利企業(yè),政府機構和教育機構的事實(shí)上(通常是法律上的)標準。由于全球網(wǎng)路專(zhuān)家的志愿者貢獻,Wireshark的發(fā)展蓬勃發(fā)展,并且是Gerald Combs在1998年啟動(dòng)的項目的延續。
  Ethereal和Wireshark之間有個(gè)小插曲。在發(fā)布了Ethereal 8年以后, Combs離職另謀高就,但是在哪個(gè)時(shí)侯他的雇主公司把握著(zhù)Ethereal的商標權,而Combs也沒(méi)能和其雇主就取得 Ethereal商標達成協(xié)議。于是Combs和整個(gè)開(kāi)發(fā)團隊在2006年中的時(shí)侯將這個(gè)項目重新命名為Wireshark。Wireshark隨即迅速地取得了大眾的喜愛(ài),而其合作開(kāi)發(fā)團隊人數也達到500人以上,然而之前的Ethereal項目卻止步不前。
  
  Wireshark優(yōu)缺點(diǎn)
  在好多地方,只見(jiàn)到有人介紹Wireshark的優(yōu)點(diǎn)。但在現代企業(yè)級環(huán)境中快速采集和剖析數據包,尤其動(dòng)輒跟業(yè)務(wù)、應用及用戶(hù)性能問(wèn)題的智能告警和關(guān)聯(lián)分析,使用Wireshark通過(guò)傳統的方法進(jìn)行剖析和故障定位,效率低下不說(shuō),有些功能則未能實(shí)現。
  Wireshark優(yōu)點(diǎn)
  Wireshark在日常應用中具有許多優(yōu)點(diǎn),無(wú)論你是初學(xué)者還是數據包剖析專(zhuān)家, Wireshark都能通過(guò)豐富的功能來(lái)滿(mǎn)足你的須要。
  支持的合同
  Wireshark在支持合同的數目方面是出類(lèi)拔萃的,目前已提供了超過(guò)上千種種合同的支持。這些合同包括從最基礎的IP協(xié)議和DHCP合同到中級的專(zhuān)用合同例如Appletalk和Bittorrente等。由于Wireshark在開(kāi)源模式下進(jìn)行開(kāi)發(fā),每次更新還會(huì )降低一些對新合同的支持。
  當然,在一些特殊情況下,Wireshark可能并不支持你所要的合同,你還可以通過(guò)目己編撰代碼提供相應的支持,并提供給Wireshark的開(kāi)發(fā)者,以便于讓之能被收錄在以后版本中。
  用戶(hù)友好度
  Wireshark的界面是數據包嗅探工具中最容易理解的工具之一?;贕UI,并提供了清晰的菜單欄和簡(jiǎn)明的布局。為了提高實(shí)用性,它還提供了不同合同的彩色高亮,以及通過(guò)圖形展示原創(chuàng )數據細節等不同功能。與 tcpdump使用復雜命令行的這些數據包嗅探工具相比, Wireshark的圖形化界面對于這些數據包剖析的初學(xué)者而言,是非常便捷的。
  價(jià)格
  由于Wireshark是開(kāi)源的,它在價(jià)錢(qián)里面是無(wú)以抗衡的,Wireshark是依循GPL協(xié)議發(fā)布的自由軟件,任何人無(wú)論出于私人還是商業(yè)目的,都可以下載而且使用 Wireshark。
  程序支持
  一個(gè)軟件的勝敗一般取決于其程序支持的優(yōu)劣。雖然象Wireshark這樣的自由分發(fā)軟件極少會(huì )有即將的程序支持,而是依賴(lài)于開(kāi)源社區的用戶(hù)群,但是辛運的是, Wireshark社區是最活躍的開(kāi)源項目社區之ー。Wireshark網(wǎng)頁(yè)上給出了許多種程序支持的相關(guān)鏈接,包括在線(xiàn)文檔、支持與開(kāi)發(fā)wiki、FAQ,并可以注冊Wireshark開(kāi)發(fā)者都關(guān)注的電郵列表。
  支持的操作系統
  Wireshark對主流的操作系統都提供了支持,其中包括Windows、Mac OS X以及基于Linux的系統。你可以在Wireshark的主頁(yè)上查詢(xún)所有 Wireshark支持的操作系統列表。
  Wireshark缺點(diǎn)
  在講完Wireshark優(yōu)點(diǎn)后,再瞧瞧Wireshark的缺點(diǎn)。尤其說(shuō)說(shuō)在現代企業(yè)網(wǎng)路環(huán)境中使用的話(huà),其存在的不足。
  數據采集能力弱
  在現代企業(yè)網(wǎng)路大流量傳輸環(huán)境下,以便攜式工具采集流量,無(wú)論對采集系統硬件的要求,還是數據保存采集靈活性和存儲能力,Wireshark就會(huì )碰到各類(lèi)困局。
  舉個(gè)事例,200Mbps環(huán)境下,如果要采集60秒的數據包,則這個(gè)數據包大小為1.2G,而數據包個(gè)數超過(guò)百萬(wàn)級,這對快速剖析問(wèn)題存在挑戰。
  圖形界面不夠直觀(guān)
  在Wireshark中,缺乏形象直觀(guān)的圖形詮釋?zhuān)顼灎顖D、柱狀圖等等靈活的詮釋方法。
  智能剖析不夠
  Wireshark對合同底層解碼能力太強,但要剖析應用層,或應用層多個(gè)指標關(guān)聯(lián)分析,則須要耗費大量的時(shí)間和精力去完成。
  專(zhuān)業(yè)性要求高
  Wireshark似乎具備詳盡的剖析能力,但剖析結果常常因人而異。對網(wǎng)路知識、協(xié)議知識的把握程度,決定了是否就能快速精確的剖析出問(wèn)題根本誘因。
  以剖析某個(gè)應用的響應響應速率為例,Wireshark須要過(guò)濾出獨立的會(huì )話(huà)信息,標記各類(lèi)時(shí)間信息,然后在文本界面得出相對精確的推論。而這個(gè)過(guò)程絕對是對使用者技術(shù)能力的考驗。
  下圖是網(wǎng)深科技NetInside網(wǎng)路流量剖析系統對響應時(shí)間的剖析結果,通過(guò)這些直觀(guān)的剖析,系統對客戶(hù)端訪(fǎng)問(wèn)服務(wù)器過(guò)程中能形成的所有時(shí)間信息,如聯(lián)接構建的時(shí)間、服務(wù)器響應時(shí)間、數據傳輸時(shí)間,重傳時(shí)間等等。通過(guò)圖形形式,一目了然。
  
  續更(下一節《Wireshark安裝》)
  更多請點(diǎn)擊了解 查看全部

  網(wǎng)絡(luò )剖析系列之五 Wireshark介紹與優(yōu)缺點(diǎn)剖析
  作為全球使用與開(kāi)發(fā)維護人數最多的數據包剖析軟件,Wireshark受到廣大合同剖析愛(ài)好者、網(wǎng)絡(luò )運維工程師及科研人員的偏愛(ài)。從本節開(kāi)始,將逐漸深入介紹Wireshark的相關(guān)內容,包括產(chǎn)品安裝、配置和使用等信息。
  Wireshark簡(jiǎn)史
  Wireshark的作者Gerald Combs,于1998年因為在校項目需求而開(kāi)發(fā),早期名為Ethereal。Wireshark是世界上最重要和最廣泛使用的網(wǎng)路合同剖析儀。它可以使您在微觀(guān)層面上見(jiàn)到網(wǎng)路上發(fā)生的事情,并且是許多商業(yè)和非營(yíng)利企業(yè),政府機構和教育機構的事實(shí)上(通常是法律上的)標準。由于全球網(wǎng)路專(zhuān)家的志愿者貢獻,Wireshark的發(fā)展蓬勃發(fā)展,并且是Gerald Combs在1998年啟動(dòng)的項目的延續。
  Ethereal和Wireshark之間有個(gè)小插曲。在發(fā)布了Ethereal 8年以后, Combs離職另謀高就,但是在哪個(gè)時(shí)侯他的雇主公司把握著(zhù)Ethereal的商標權,而Combs也沒(méi)能和其雇主就取得 Ethereal商標達成協(xié)議。于是Combs和整個(gè)開(kāi)發(fā)團隊在2006年中的時(shí)侯將這個(gè)項目重新命名為Wireshark。Wireshark隨即迅速地取得了大眾的喜愛(ài),而其合作開(kāi)發(fā)團隊人數也達到500人以上,然而之前的Ethereal項目卻止步不前。
  
  Wireshark優(yōu)缺點(diǎn)
  在好多地方,只見(jiàn)到有人介紹Wireshark的優(yōu)點(diǎn)。但在現代企業(yè)級環(huán)境中快速采集和剖析數據包,尤其動(dòng)輒跟業(yè)務(wù)、應用及用戶(hù)性能問(wèn)題的智能告警和關(guān)聯(lián)分析,使用Wireshark通過(guò)傳統的方法進(jìn)行剖析和故障定位,效率低下不說(shuō),有些功能則未能實(shí)現。
  Wireshark優(yōu)點(diǎn)
  Wireshark在日常應用中具有許多優(yōu)點(diǎn),無(wú)論你是初學(xué)者還是數據包剖析專(zhuān)家, Wireshark都能通過(guò)豐富的功能來(lái)滿(mǎn)足你的須要。
  支持的合同
  Wireshark在支持合同的數目方面是出類(lèi)拔萃的,目前已提供了超過(guò)上千種種合同的支持。這些合同包括從最基礎的IP協(xié)議和DHCP合同到中級的專(zhuān)用合同例如Appletalk和Bittorrente等。由于Wireshark在開(kāi)源模式下進(jìn)行開(kāi)發(fā),每次更新還會(huì )降低一些對新合同的支持。
  當然,在一些特殊情況下,Wireshark可能并不支持你所要的合同,你還可以通過(guò)目己編撰代碼提供相應的支持,并提供給Wireshark的開(kāi)發(fā)者,以便于讓之能被收錄在以后版本中。
  用戶(hù)友好度
  Wireshark的界面是數據包嗅探工具中最容易理解的工具之一?;贕UI,并提供了清晰的菜單欄和簡(jiǎn)明的布局。為了提高實(shí)用性,它還提供了不同合同的彩色高亮,以及通過(guò)圖形展示原創(chuàng )數據細節等不同功能。與 tcpdump使用復雜命令行的這些數據包嗅探工具相比, Wireshark的圖形化界面對于這些數據包剖析的初學(xué)者而言,是非常便捷的。
  價(jià)格
  由于Wireshark是開(kāi)源的,它在價(jià)錢(qián)里面是無(wú)以抗衡的,Wireshark是依循GPL協(xié)議發(fā)布的自由軟件,任何人無(wú)論出于私人還是商業(yè)目的,都可以下載而且使用 Wireshark。
  程序支持
  一個(gè)軟件的勝敗一般取決于其程序支持的優(yōu)劣。雖然象Wireshark這樣的自由分發(fā)軟件極少會(huì )有即將的程序支持,而是依賴(lài)于開(kāi)源社區的用戶(hù)群,但是辛運的是, Wireshark社區是最活躍的開(kāi)源項目社區之ー。Wireshark網(wǎng)頁(yè)上給出了許多種程序支持的相關(guān)鏈接,包括在線(xiàn)文檔、支持與開(kāi)發(fā)wiki、FAQ,并可以注冊Wireshark開(kāi)發(fā)者都關(guān)注的電郵列表。
  支持的操作系統
  Wireshark對主流的操作系統都提供了支持,其中包括Windows、Mac OS X以及基于Linux的系統。你可以在Wireshark的主頁(yè)上查詢(xún)所有 Wireshark支持的操作系統列表。
  Wireshark缺點(diǎn)
  在講完Wireshark優(yōu)點(diǎn)后,再瞧瞧Wireshark的缺點(diǎn)。尤其說(shuō)說(shuō)在現代企業(yè)網(wǎng)路環(huán)境中使用的話(huà),其存在的不足。
  數據采集能力弱
  在現代企業(yè)網(wǎng)路大流量傳輸環(huán)境下,以便攜式工具采集流量,無(wú)論對采集系統硬件的要求,還是數據保存采集靈活性和存儲能力,Wireshark就會(huì )碰到各類(lèi)困局。
  舉個(gè)事例,200Mbps環(huán)境下,如果要采集60秒的數據包,則這個(gè)數據包大小為1.2G,而數據包個(gè)數超過(guò)百萬(wàn)級,這對快速剖析問(wèn)題存在挑戰。
  圖形界面不夠直觀(guān)
  在Wireshark中,缺乏形象直觀(guān)的圖形詮釋?zhuān)顼灎顖D、柱狀圖等等靈活的詮釋方法。
  智能剖析不夠
  Wireshark對合同底層解碼能力太強,但要剖析應用層,或應用層多個(gè)指標關(guān)聯(lián)分析,則須要耗費大量的時(shí)間和精力去完成。
  專(zhuān)業(yè)性要求高
  Wireshark似乎具備詳盡的剖析能力,但剖析結果常常因人而異。對網(wǎng)路知識、協(xié)議知識的把握程度,決定了是否就能快速精確的剖析出問(wèn)題根本誘因。
  以剖析某個(gè)應用的響應響應速率為例,Wireshark須要過(guò)濾出獨立的會(huì )話(huà)信息,標記各類(lèi)時(shí)間信息,然后在文本界面得出相對精確的推論。而這個(gè)過(guò)程絕對是對使用者技術(shù)能力的考驗。
  下圖是網(wǎng)深科技NetInside網(wǎng)路流量剖析系統對響應時(shí)間的剖析結果,通過(guò)這些直觀(guān)的剖析,系統對客戶(hù)端訪(fǎng)問(wèn)服務(wù)器過(guò)程中能形成的所有時(shí)間信息,如聯(lián)接構建的時(shí)間、服務(wù)器響應時(shí)間、數據傳輸時(shí)間,重傳時(shí)間等等。通過(guò)圖形形式,一目了然。
  
  續更(下一節《Wireshark安裝》)
  更多請點(diǎn)擊了解

APP數據埋點(diǎn)分類(lèi)方法

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 269 次瀏覽 ? 2020-08-16 22:21 ? 來(lái)自相關(guān)話(huà)題

  APP數據埋點(diǎn)分類(lèi)方法
  1、數據埋點(diǎn)的重要性
  在現實(shí)工作中,數據的整體流程為:數據生產(chǎn)-數據采集-數據處理-數據剖析和挖掘-數據可視化,其中,數據采集是很重要的一個(gè)環(huán)節,數據采集得全不全、對不對,直接決定數據廣度和質(zhì)量,影響后續所有的環(huán)節。如果采集的數據維度極少,那我們想要進(jìn)行深入剖析的時(shí)侯才會(huì )變得無(wú)處著(zhù)手,比如我們想要剖析某個(gè)APP某個(gè)功能的使用情況,但是卻根本沒(méi)有采集相關(guān)的數據,那我們也不能進(jìn)行后續的剖析了。如果數據采集是錯誤的,如漏報、誤報等,那這肯定是太致命的,會(huì )欺騙我們基于數據的決策。
  在互聯(lián)網(wǎng)行業(yè),數據采集的形式按照采集數據端的不同,主要分為網(wǎng)頁(yè)數據采集、APP數據采集。網(wǎng)頁(yè)數據的采集主要是使用JS采集,常用的數據剖析工具主要是Google Analytics,APP數據采集主要是通過(guò)埋點(diǎn)采集,主要有后端埋點(diǎn)和前端埋點(diǎn)之分,相應的移動(dòng)端數據剖析廠(chǎng)商也好多。隨著(zhù)越來(lái)越多的用戶(hù)傾向于在移動(dòng)端上網(wǎng)和使用APP,APP數據采集就變得愈發(fā)重要。
  2、數據埋點(diǎn)是哪些
  要做好APP的數據剖析,讓數據支撐決策、產(chǎn)品和營(yíng)運,首先是要有數據,就像煮飯須要米一樣,而要采集用戶(hù)數據就要進(jìn)行APP數據埋點(diǎn)。產(chǎn)品人員在產(chǎn)品規劃時(shí)就要思索數據埋點(diǎn)問(wèn)題,如果在產(chǎn)品外發(fā)后再考慮如何埋點(diǎn),就會(huì )造成前期版本用戶(hù)的數據難以搜集,想要看某個(gè)數據時(shí)就無(wú)可奈何,只有等到新版本建立來(lái)填補。思考要埋什么點(diǎn)的時(shí)侯,要緊密結合產(chǎn)品、運營(yíng)需求,并跟數據剖析、ETL人員等進(jìn)行充分溝通,例如須要監控什么指標、需要通過(guò)什么埋點(diǎn)來(lái)實(shí)現、怎樣埋點(diǎn)更能符合統計的需求,這是一個(gè)集思廣益的過(guò)程。
  數據埋點(diǎn)包括客戶(hù)端后端埋點(diǎn)和服務(wù)端前端埋點(diǎn),客戶(hù)端后端埋點(diǎn)是用戶(hù)在客戶(hù)端上的操作記錄,服務(wù)端前端埋點(diǎn)是用戶(hù)在線(xiàn)懇求服務(wù)器的日志,兩者各有利弊,最好二者都埋點(diǎn),可以互相補充。
  數據埋點(diǎn)雖然就是在產(chǎn)品功能代碼前面加上統計代碼,記錄用戶(hù)操作行為,當用戶(hù)進(jìn)行某個(gè)操作時(shí),如點(diǎn)擊某個(gè)按鍵、呈現某個(gè)頁(yè)面等,開(kāi)發(fā)會(huì )在相應地方加上統計代碼,埋點(diǎn)會(huì )生成一條log記錄。
  3、怎樣數據埋點(diǎn)
  3.1、數據埋點(diǎn)技術(shù)
  現在業(yè)界客戶(hù)端埋點(diǎn)通常都是采取key-value的方式,key代表某個(gè)風(fēng)波,value代表相應的參數值,埋點(diǎn)邏輯大約為:用戶(hù)形成點(diǎn)擊行為,生成一個(gè)點(diǎn)擊風(fēng)波,當有頁(yè)面呈現在屏幕前時(shí),生成一個(gè)頁(yè)面風(fēng)波。
  現在SDK上報埋點(diǎn)風(fēng)波主要分為兩類(lèi):1)點(diǎn)擊風(fēng)波,主要描述用戶(hù)在應用內的點(diǎn)擊行為,如點(diǎn)擊tab、點(diǎn)擊按鍵等,同時(shí)一些參數風(fēng)波也被歸類(lèi)為點(diǎn)擊風(fēng)波,如頁(yè)面描述、試聽(tīng)時(shí)長(cháng)等,把那些參數風(fēng)波歸類(lèi)為點(diǎn)擊風(fēng)波主要是便捷頁(yè)面風(fēng)波估算用戶(hù)應用使用時(shí)長(cháng);2)頁(yè)面風(fēng)波,主要描述用戶(hù)瀏覽過(guò)的頁(yè)面,如首頁(yè)、詳情頁(yè)等,同時(shí)通過(guò)頁(yè)面逗留時(shí)長(cháng)估算用戶(hù)應用使用時(shí)長(cháng)。
  常見(jiàn)的有三種埋點(diǎn)技術(shù):
  代碼埋點(diǎn):控件操作發(fā)生時(shí)通過(guò)預先寫(xiě)好的代碼來(lái)發(fā)送數據。優(yōu)點(diǎn):控制發(fā)送數據時(shí)間,事件自定義屬性詳盡記錄;缺點(diǎn):時(shí)間、人力成本大,數據傳輸的時(shí)效性。
  可視化埋點(diǎn):利用可視化交互手段,通過(guò)可視化界面配置控件操作與風(fēng)波操作發(fā)生關(guān)系,通過(guò)后臺截屏的方法采集數據。優(yōu)點(diǎn):成本低,速度快;缺點(diǎn):行為記錄信息少,支持的剖析方法少。
  無(wú)埋點(diǎn):用戶(hù)詮釋界面元素時(shí),通過(guò)控件綁定觸發(fā)風(fēng)波,事件被觸發(fā)的時(shí)侯系統會(huì )有相應的插口使開(kāi)發(fā)者處理這種行為?,F在市面上主流無(wú)埋點(diǎn)做法有兩種,一種是預先跟蹤所有的渲染信息,一種是滯后跟蹤的渲染信息。優(yōu)點(diǎn):無(wú)需埋點(diǎn),方便快捷;缺點(diǎn):行為記錄信息少,傳輸壓力大。
  3.2、數據埋點(diǎn)優(yōu)缺點(diǎn)
  3.2.1、客戶(hù)端埋點(diǎn)的優(yōu)缺點(diǎn)
  APP客戶(hù)端埋點(diǎn)的用處是:
  1)能夠采集愈發(fā)全面的用戶(hù)數據,可以對客戶(hù)端各個(gè)點(diǎn)擊、頁(yè)面埋點(diǎn);
  2)可以搜集不需要懇求服務(wù)器的數據,如音樂(lè )的本地播放、頁(yè)面逗留時(shí)長(cháng)等。
  APP客戶(hù)端數據埋點(diǎn)存在問(wèn)題主要有:
  1)數據上報時(shí)需手機聯(lián)網(wǎng),如果用戶(hù)手機未聯(lián)網(wǎng),則會(huì )延后上報數據,同時(shí)數據上報通常有相應的規則,不會(huì )實(shí)時(shí)上報,一般存在15%左右的延后上報和漏報;
  2)如果用戶(hù)刪掉自己的APP操作記錄,則沒(méi)有上報的記錄。
  3)當須要改變埋點(diǎn)時(shí),需要更新版本才行,但是會(huì )存在有些用戶(hù)不更新版本情況,影響數據質(zhì)量。
  3.2.2、服務(wù)端埋點(diǎn)的優(yōu)缺點(diǎn)
  APP服務(wù)端前端埋點(diǎn)的優(yōu)點(diǎn)是:
  1)實(shí)時(shí)搜集,數據太確切,不存在延時(shí)上報;
  2)當要改變埋點(diǎn)時(shí),只要改變,上報數據都會(huì )改變;
  3)能夠搜集不在A(yíng)PP內發(fā)生的行為,只要懇求服務(wù)器就行,而客戶(hù)端只能搜集在客戶(hù)端中的操作行為,如統計從其他APP引流的安裝量。
  服務(wù)端前端埋點(diǎn)缺點(diǎn)是:
  1)不能搜集不需要懇求服務(wù)器的數據;
  2)用戶(hù)沒(méi)聯(lián)網(wǎng)的時(shí)侯不能否采集數據。
  3.2.3、服務(wù)端和客戶(hù)端的結合
  結合客戶(hù)端后端埋點(diǎn)和服務(wù)端前端埋點(diǎn)的優(yōu)缺點(diǎn),服務(wù)端數據實(shí)時(shí)性高、很確切,最好用戶(hù)須要懇求服務(wù)器的關(guān)鍵業(yè)務(wù)量均使用服務(wù)器前端埋點(diǎn),如在線(xiàn)播放、游戲安裝等,在統計抽獎?dòng)脩?hù)這種,顯然服務(wù)端數據更合理,客戶(hù)端數據可能會(huì )漏掉部份抽獎?dòng)脩?hù),導致用戶(hù)投訴;客戶(hù)端數據太全,記錄了用戶(hù)絕大多數操作行為,其它非關(guān)鍵業(yè)務(wù)量或則不需要懇求服務(wù)器的行為使用后客戶(hù)端后端埋點(diǎn)。服務(wù)端埋點(diǎn)和客戶(hù)端埋點(diǎn)各有利弊,應該兩種數據同時(shí)都存在,可以互相印證,當一方數據發(fā)生重大問(wèn)題時(shí)可以通過(guò)另一方發(fā)覺(jué),同時(shí),數據也能互補,如數據采集突然有問(wèn)題了,可以用另一方數據代替。
  3.3、數據埋點(diǎn)內容
  數據埋點(diǎn)主要是為了采集用戶(hù)行為數據,根據用戶(hù)應用使用行為,各應用埋點(diǎn)主要包括以下幾個(gè)方面:
  3.3.1、功能按鍵埋點(diǎn)
  功能按鍵的埋點(diǎn)主要是為了解用戶(hù)對應用中的按鍵、功能、入口等的使用,從而洞察用戶(hù)內容偏好、功能偏好、使用路徑等。主要包括以下幾個(gè)方面:
  1)用戶(hù)對應用底部tab、底部tab、內容篩選tab等的點(diǎn)擊,了解用戶(hù)對應用各個(gè)藍籌股的喜好和內容偏好等;
  2)用戶(hù)對應用內各入口、頻道的點(diǎn)擊,了解用戶(hù)的內容偏好、產(chǎn)品使用路徑等;
  3)用戶(hù)對應用中具體內容的點(diǎn)擊,如點(diǎn)擊某款游戲、某個(gè)商品、某個(gè)視頻等,了解用戶(hù)內容偏好、產(chǎn)品使用路徑等;
  4)用戶(hù)對應用設置中選項的點(diǎn)擊,如是否打開(kāi)push開(kāi)關(guān),了解用戶(hù)應用的基本設置情況。
  5)用戶(hù)對其它功能按鍵的點(diǎn)擊,如音樂(lè )播放器中暫停、下一首等按鍵的點(diǎn)擊。
  3.3.2、主要行為埋點(diǎn)
  用戶(hù)應用主要行為埋點(diǎn)主要是為了解用戶(hù)應用內使用行為,從而洞察用戶(hù)內容偏好、產(chǎn)品使用習慣、用戶(hù)忠誠度、用戶(hù)活躍度等,用戶(hù)應用中主要行為包括:
  1)用戶(hù)核心行為,包括下載、安裝、試聽(tīng)、播放、閱讀等,各業(yè)務(wù)依據其產(chǎn)品性質(zhì)的不同,有不同的核心業(yè)務(wù)行為,如視頻的播放、音樂(lè )的試聽(tīng),可以了解用戶(hù)的內容偏好、業(yè)務(wù)活躍度等 查看全部

  APP數據埋點(diǎn)分類(lèi)方法
  1、數據埋點(diǎn)的重要性
  在現實(shí)工作中,數據的整體流程為:數據生產(chǎn)-數據采集-數據處理-數據剖析和挖掘-數據可視化,其中,數據采集是很重要的一個(gè)環(huán)節,數據采集得全不全、對不對,直接決定數據廣度和質(zhì)量,影響后續所有的環(huán)節。如果采集的數據維度極少,那我們想要進(jìn)行深入剖析的時(shí)侯才會(huì )變得無(wú)處著(zhù)手,比如我們想要剖析某個(gè)APP某個(gè)功能的使用情況,但是卻根本沒(méi)有采集相關(guān)的數據,那我們也不能進(jìn)行后續的剖析了。如果數據采集是錯誤的,如漏報、誤報等,那這肯定是太致命的,會(huì )欺騙我們基于數據的決策。
  在互聯(lián)網(wǎng)行業(yè),數據采集的形式按照采集數據端的不同,主要分為網(wǎng)頁(yè)數據采集、APP數據采集。網(wǎng)頁(yè)數據的采集主要是使用JS采集,常用的數據剖析工具主要是Google Analytics,APP數據采集主要是通過(guò)埋點(diǎn)采集,主要有后端埋點(diǎn)和前端埋點(diǎn)之分,相應的移動(dòng)端數據剖析廠(chǎng)商也好多。隨著(zhù)越來(lái)越多的用戶(hù)傾向于在移動(dòng)端上網(wǎng)和使用APP,APP數據采集就變得愈發(fā)重要。
  2、數據埋點(diǎn)是哪些
  要做好APP的數據剖析,讓數據支撐決策、產(chǎn)品和營(yíng)運,首先是要有數據,就像煮飯須要米一樣,而要采集用戶(hù)數據就要進(jìn)行APP數據埋點(diǎn)。產(chǎn)品人員在產(chǎn)品規劃時(shí)就要思索數據埋點(diǎn)問(wèn)題,如果在產(chǎn)品外發(fā)后再考慮如何埋點(diǎn),就會(huì )造成前期版本用戶(hù)的數據難以搜集,想要看某個(gè)數據時(shí)就無(wú)可奈何,只有等到新版本建立來(lái)填補。思考要埋什么點(diǎn)的時(shí)侯,要緊密結合產(chǎn)品、運營(yíng)需求,并跟數據剖析、ETL人員等進(jìn)行充分溝通,例如須要監控什么指標、需要通過(guò)什么埋點(diǎn)來(lái)實(shí)現、怎樣埋點(diǎn)更能符合統計的需求,這是一個(gè)集思廣益的過(guò)程。
  數據埋點(diǎn)包括客戶(hù)端后端埋點(diǎn)和服務(wù)端前端埋點(diǎn),客戶(hù)端后端埋點(diǎn)是用戶(hù)在客戶(hù)端上的操作記錄,服務(wù)端前端埋點(diǎn)是用戶(hù)在線(xiàn)懇求服務(wù)器的日志,兩者各有利弊,最好二者都埋點(diǎn),可以互相補充。
  數據埋點(diǎn)雖然就是在產(chǎn)品功能代碼前面加上統計代碼,記錄用戶(hù)操作行為,當用戶(hù)進(jìn)行某個(gè)操作時(shí),如點(diǎn)擊某個(gè)按鍵、呈現某個(gè)頁(yè)面等,開(kāi)發(fā)會(huì )在相應地方加上統計代碼,埋點(diǎn)會(huì )生成一條log記錄。
  3、怎樣數據埋點(diǎn)
  3.1、數據埋點(diǎn)技術(shù)
  現在業(yè)界客戶(hù)端埋點(diǎn)通常都是采取key-value的方式,key代表某個(gè)風(fēng)波,value代表相應的參數值,埋點(diǎn)邏輯大約為:用戶(hù)形成點(diǎn)擊行為,生成一個(gè)點(diǎn)擊風(fēng)波,當有頁(yè)面呈現在屏幕前時(shí),生成一個(gè)頁(yè)面風(fēng)波。
  現在SDK上報埋點(diǎn)風(fēng)波主要分為兩類(lèi):1)點(diǎn)擊風(fēng)波,主要描述用戶(hù)在應用內的點(diǎn)擊行為,如點(diǎn)擊tab、點(diǎn)擊按鍵等,同時(shí)一些參數風(fēng)波也被歸類(lèi)為點(diǎn)擊風(fēng)波,如頁(yè)面描述、試聽(tīng)時(shí)長(cháng)等,把那些參數風(fēng)波歸類(lèi)為點(diǎn)擊風(fēng)波主要是便捷頁(yè)面風(fēng)波估算用戶(hù)應用使用時(shí)長(cháng);2)頁(yè)面風(fēng)波,主要描述用戶(hù)瀏覽過(guò)的頁(yè)面,如首頁(yè)、詳情頁(yè)等,同時(shí)通過(guò)頁(yè)面逗留時(shí)長(cháng)估算用戶(hù)應用使用時(shí)長(cháng)。
  常見(jiàn)的有三種埋點(diǎn)技術(shù):
  代碼埋點(diǎn):控件操作發(fā)生時(shí)通過(guò)預先寫(xiě)好的代碼來(lái)發(fā)送數據。優(yōu)點(diǎn):控制發(fā)送數據時(shí)間,事件自定義屬性詳盡記錄;缺點(diǎn):時(shí)間、人力成本大,數據傳輸的時(shí)效性。
  可視化埋點(diǎn):利用可視化交互手段,通過(guò)可視化界面配置控件操作與風(fēng)波操作發(fā)生關(guān)系,通過(guò)后臺截屏的方法采集數據。優(yōu)點(diǎn):成本低,速度快;缺點(diǎn):行為記錄信息少,支持的剖析方法少。
  無(wú)埋點(diǎn):用戶(hù)詮釋界面元素時(shí),通過(guò)控件綁定觸發(fā)風(fēng)波,事件被觸發(fā)的時(shí)侯系統會(huì )有相應的插口使開(kāi)發(fā)者處理這種行為?,F在市面上主流無(wú)埋點(diǎn)做法有兩種,一種是預先跟蹤所有的渲染信息,一種是滯后跟蹤的渲染信息。優(yōu)點(diǎn):無(wú)需埋點(diǎn),方便快捷;缺點(diǎn):行為記錄信息少,傳輸壓力大。
  3.2、數據埋點(diǎn)優(yōu)缺點(diǎn)
  3.2.1、客戶(hù)端埋點(diǎn)的優(yōu)缺點(diǎn)
  APP客戶(hù)端埋點(diǎn)的用處是:
  1)能夠采集愈發(fā)全面的用戶(hù)數據,可以對客戶(hù)端各個(gè)點(diǎn)擊、頁(yè)面埋點(diǎn);
  2)可以搜集不需要懇求服務(wù)器的數據,如音樂(lè )的本地播放、頁(yè)面逗留時(shí)長(cháng)等。
  APP客戶(hù)端數據埋點(diǎn)存在問(wèn)題主要有:
  1)數據上報時(shí)需手機聯(lián)網(wǎng),如果用戶(hù)手機未聯(lián)網(wǎng),則會(huì )延后上報數據,同時(shí)數據上報通常有相應的規則,不會(huì )實(shí)時(shí)上報,一般存在15%左右的延后上報和漏報;
  2)如果用戶(hù)刪掉自己的APP操作記錄,則沒(méi)有上報的記錄。
  3)當須要改變埋點(diǎn)時(shí),需要更新版本才行,但是會(huì )存在有些用戶(hù)不更新版本情況,影響數據質(zhì)量。
  3.2.2、服務(wù)端埋點(diǎn)的優(yōu)缺點(diǎn)
  APP服務(wù)端前端埋點(diǎn)的優(yōu)點(diǎn)是:
  1)實(shí)時(shí)搜集,數據太確切,不存在延時(shí)上報;
  2)當要改變埋點(diǎn)時(shí),只要改變,上報數據都會(huì )改變;
  3)能夠搜集不在A(yíng)PP內發(fā)生的行為,只要懇求服務(wù)器就行,而客戶(hù)端只能搜集在客戶(hù)端中的操作行為,如統計從其他APP引流的安裝量。
  服務(wù)端前端埋點(diǎn)缺點(diǎn)是:
  1)不能搜集不需要懇求服務(wù)器的數據;
  2)用戶(hù)沒(méi)聯(lián)網(wǎng)的時(shí)侯不能否采集數據。
  3.2.3、服務(wù)端和客戶(hù)端的結合
  結合客戶(hù)端后端埋點(diǎn)和服務(wù)端前端埋點(diǎn)的優(yōu)缺點(diǎn),服務(wù)端數據實(shí)時(shí)性高、很確切,最好用戶(hù)須要懇求服務(wù)器的關(guān)鍵業(yè)務(wù)量均使用服務(wù)器前端埋點(diǎn),如在線(xiàn)播放、游戲安裝等,在統計抽獎?dòng)脩?hù)這種,顯然服務(wù)端數據更合理,客戶(hù)端數據可能會(huì )漏掉部份抽獎?dòng)脩?hù),導致用戶(hù)投訴;客戶(hù)端數據太全,記錄了用戶(hù)絕大多數操作行為,其它非關(guān)鍵業(yè)務(wù)量或則不需要懇求服務(wù)器的行為使用后客戶(hù)端后端埋點(diǎn)。服務(wù)端埋點(diǎn)和客戶(hù)端埋點(diǎn)各有利弊,應該兩種數據同時(shí)都存在,可以互相印證,當一方數據發(fā)生重大問(wèn)題時(shí)可以通過(guò)另一方發(fā)覺(jué),同時(shí),數據也能互補,如數據采集突然有問(wèn)題了,可以用另一方數據代替。
  3.3、數據埋點(diǎn)內容
  數據埋點(diǎn)主要是為了采集用戶(hù)行為數據,根據用戶(hù)應用使用行為,各應用埋點(diǎn)主要包括以下幾個(gè)方面:
  3.3.1、功能按鍵埋點(diǎn)
  功能按鍵的埋點(diǎn)主要是為了解用戶(hù)對應用中的按鍵、功能、入口等的使用,從而洞察用戶(hù)內容偏好、功能偏好、使用路徑等。主要包括以下幾個(gè)方面:
  1)用戶(hù)對應用底部tab、底部tab、內容篩選tab等的點(diǎn)擊,了解用戶(hù)對應用各個(gè)藍籌股的喜好和內容偏好等;
  2)用戶(hù)對應用內各入口、頻道的點(diǎn)擊,了解用戶(hù)的內容偏好、產(chǎn)品使用路徑等;
  3)用戶(hù)對應用中具體內容的點(diǎn)擊,如點(diǎn)擊某款游戲、某個(gè)商品、某個(gè)視頻等,了解用戶(hù)內容偏好、產(chǎn)品使用路徑等;
  4)用戶(hù)對應用設置中選項的點(diǎn)擊,如是否打開(kāi)push開(kāi)關(guān),了解用戶(hù)應用的基本設置情況。
  5)用戶(hù)對其它功能按鍵的點(diǎn)擊,如音樂(lè )播放器中暫停、下一首等按鍵的點(diǎn)擊。
  3.3.2、主要行為埋點(diǎn)
  用戶(hù)應用主要行為埋點(diǎn)主要是為了解用戶(hù)應用內使用行為,從而洞察用戶(hù)內容偏好、產(chǎn)品使用習慣、用戶(hù)忠誠度、用戶(hù)活躍度等,用戶(hù)應用中主要行為包括:
  1)用戶(hù)核心行為,包括下載、安裝、試聽(tīng)、播放、閱讀等,各業(yè)務(wù)依據其產(chǎn)品性質(zhì)的不同,有不同的核心業(yè)務(wù)行為,如視頻的播放、音樂(lè )的試聽(tīng),可以了解用戶(hù)的內容偏好、業(yè)務(wù)活躍度等

數據下降第一步:選擇“最優(yōu)”的埋點(diǎn)采集方式

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 349 次瀏覽 ? 2020-08-13 06:17 ? 來(lái)自相關(guān)話(huà)題

  本文講的是數據下降第一步:選擇“最優(yōu)”的埋點(diǎn)采集方式【IT168 評論】在這一個(gè)大數據的時(shí)代,憑經(jīng)驗拍胸口的決策方法已成過(guò)去,數據的重要性不言而喻,數據剖析的第一步就是從數據源頭做好采集工作,我們明天的主題:數據埋點(diǎn)。
  埋點(diǎn):數據剖析的第一步
  大數據,從繁雜的數據背后挖掘、分析用戶(hù)的行為習慣和喜好,找出更符合用戶(hù)“口味”的產(chǎn)品和服務(wù),并結合用戶(hù)需求有針對性地調整和優(yōu)化自身,正是大數據的價(jià)值。而這信息的匯集、分析就繞不開(kāi)“埋點(diǎn)”。諸葛io為企業(yè)提供靈活的埋點(diǎn)方法,讓各個(gè)部門(mén)、各個(gè)角色輕松駕馭數據采集:
  有碼(代碼)埋點(diǎn):更精準的數據采集,更聚焦業(yè)務(wù)價(jià)值的數據采集(諸葛io專(zhuān)業(yè)的數據顧問(wèn)團隊可提供多樣化埋點(diǎn)方案,讓數據剖析有的放矢);
  全埋點(diǎn):無(wú)需人工埋點(diǎn),一切操作皆手動(dòng)埋點(diǎn),統計數據按需處理;
  - 可視化埋點(diǎn):界面化埋點(diǎn)管理配置無(wú)需開(kāi)發(fā)人員介入,更便捷的埋點(diǎn)更新,生效快;
  關(guān)于“埋點(diǎn)”的小科普
  埋點(diǎn)就是在有須要的位置采集相應的信息,就好似道路上的攝像頭,可以采集到汽車(chē)的屬性,比如:顏色、車(chē)牌號,車(chē)型等信息,還可以采集到汽車(chē)的行為,比如:有沒(méi)有闖紅燈,有沒(méi)有壓線(xiàn),車(chē)速多少,司機有沒(méi)有在駕駛中接聽(tīng)電話(huà)等,如果攝像頭分布是理想狀態(tài),那么通過(guò)疊加不同位置的攝像頭所采集的信息,完全可以還原出某一輛車(chē)的路徑、目的地,甚至猜測出司機的駕車(chē)習慣、是否是老司機等信息。
  那么,每一個(gè)埋點(diǎn)如同攝像頭,采集用戶(hù)行為數據,將數據進(jìn)行多維度的交叉剖析,可真實(shí)還原出用戶(hù)使用場(chǎng)景,挖掘用戶(hù)需求,從而提高用戶(hù)全生命周期的最大價(jià)值。
  解鎖4種埋點(diǎn)“姿勢”
  為了將海量數據采集得愈發(fā)精準,為后續營(yíng)造“純凈”的數據剖析環(huán)境,埋點(diǎn)技術(shù)應運而生。數據基礎筑牢與否,取決于數據的采集方式。埋點(diǎn)方法多種多樣,按照埋點(diǎn)位置不同,可以分為后端(客戶(hù)端)埋點(diǎn)與前端(服務(wù)器端)埋點(diǎn),其中后端埋點(diǎn)包括:代碼埋點(diǎn)、全埋點(diǎn)、可視化埋點(diǎn)。
  
  多采集方式對比
  全埋點(diǎn):通過(guò)SDK,采集頁(yè)面所有控件操作數據,通過(guò)“統計數據篩”,配置待處理的數據的特點(diǎn)。
  優(yōu)勢:一切操作皆埋點(diǎn),簡(jiǎn)單、快捷,無(wú)需埋點(diǎn)統計數據按需處理
  劣勢:數據上傳消耗流量大,數據維度單一(僅點(diǎn)擊、加載、刷新);影響用戶(hù)使用體驗——用戶(hù)使用過(guò)程中容易出現卡頓,嚴重影響用戶(hù)體驗;噪點(diǎn)多,數據準確性不高,容易形成干擾;不能自定義埋點(diǎn)搜集信息
  如同衛星拍攝,無(wú)需逐一安裝攝像頭,但數據量巨大,且容易遺漏,不易挖掘關(guān)鍵信息,因此全埋點(diǎn)的形式,主要應用于簡(jiǎn)單頁(yè)面的場(chǎng)景,比如:短期活動(dòng)中的落地頁(yè)/專(zhuān)題頁(yè)中,需要快速評判點(diǎn)擊分布等療效。
  JS可視化埋點(diǎn):嵌入SDK,可視化圈選定義風(fēng)波
  為了便捷產(chǎn)品和營(yíng)運朋友可以直接在頁(yè)面上進(jìn)行簡(jiǎn)單圈選,以追蹤用戶(hù)的行為(定義風(fēng)波),
  僅采集click(點(diǎn)擊)操作,節省開(kāi)發(fā)時(shí)間,諸葛io已于近日支持JS可視化埋點(diǎn)。
  優(yōu)勢:界面化配置,無(wú)需開(kāi)發(fā),埋點(diǎn)更新方便,生效快
  劣勢:埋點(diǎn)自定義屬性支持較差;重構或則頁(yè)面變化時(shí)須要重新配置;
  如同衛星航拍,無(wú)需安裝攝像頭,數據量小,支持局部區域的信息獲取 ,因此JS可視化埋點(diǎn)更適用于短平快的數據采集方式,如活動(dòng)/H5等簡(jiǎn)單頁(yè)面,業(yè)務(wù)人員可直接圈選,操作無(wú)門(mén)檻,減少技術(shù)人員的介入(從此世界和平),此種數據采集方式,方便業(yè)務(wù)人員早日把握頁(yè)面中關(guān)鍵節點(diǎn)的轉化情況,但是對用戶(hù)行為數據的應用較淺,無(wú)法支持更深度的剖析。
  此外,若頁(yè)面臨時(shí)調整,可靈活的追加埋點(diǎn),可作為代碼埋點(diǎn)的補充,以便及時(shí)降低采集數據
  代碼埋點(diǎn):嵌入SDK,定義風(fēng)波并添加風(fēng)波代碼,按需采集,業(yè)務(wù)信息更完善,對數據的剖析更聚焦,因此代碼埋點(diǎn)是一種以業(yè)務(wù)價(jià)值為出發(fā)的行為剖析。
  優(yōu)勢:數據搜集全面且確切,便于后續深度剖析(埋點(diǎn)準確性次序:代碼埋點(diǎn)>可視化埋點(diǎn)>全埋點(diǎn)),SDK較小,對應用本身的使用體驗沒(méi)有影響
  劣勢:需要研制人員配合,有一定的工作量
  如果你不希望在采集數據的同時(shí),降低用戶(hù)體驗;如果你不希望采集到海量無(wú)用數據;如果你希望采集的數據:顆粒度更細,維度更多,數據剖析的準確性更高。那么,從業(yè)務(wù)下降的長(cháng)遠價(jià)值考慮,請選擇代碼埋點(diǎn)。
  服務(wù)端埋點(diǎn):可支持其他業(yè)務(wù)數據采集和整合,如CRM等用戶(hù)數據,通過(guò)插口調用,將數據結構化,由于直接從服務(wù)器端采集,數據準確性更高,適用于自身具備采集能力的顧客,或可與客戶(hù)端采集相結合采集。
  如:
  1、通過(guò)調用API接口,將CRM等數據與用戶(hù)行為數據進(jìn)行整合,全量、多角度剖析用戶(hù);
  2、若企業(yè)已有自身的埋點(diǎn)體系,那么可直接通過(guò)服務(wù)端采集將用戶(hù)行為數據上傳到諸葛io平臺,進(jìn)行數據剖析,無(wú)需維護兩套埋點(diǎn)系統;
  3、打通歷史數據(埋點(diǎn)前的數據)與新數據(埋點(diǎn)后),提高數據準確性。如在接入客戶(hù)端采集之后的顧客,導入原有歷史數據后,此前的已有的用戶(hù)訪(fǎng)問(wèn)平臺,不會(huì )被標記為新用戶(hù),減少數據偏差。
  如何“埋點(diǎn)”?
  埋點(diǎn)聽(tīng)上去“不明覺(jué)厲”,其實(shí)十分的簡(jiǎn)單,就猶如“在道路上安裝攝像頭”。
  1、梳理產(chǎn)品用戶(hù)行為,確定風(fēng)波布點(diǎn)
  埋點(diǎn)方案≈攝像頭安裝的分布方案
  經(jīng)常有童鞋咨詢(xún)諸葛君:究竟獲取什么數據來(lái)進(jìn)行數據剖析?回答這個(gè)問(wèn)題,先要明晰目的,厘清邏輯。
  諸葛io數據剖析的對象和基礎是用戶(hù)行為,選擇記錄和剖析什么用戶(hù)行為,直接影響到剖析工作的價(jià)值產(chǎn)出,諸葛君建議:選擇與產(chǎn)品目標和當下首要問(wèn)題最為密切相關(guān)的用戶(hù)行為,作為風(fēng)波。以電商為例,將流程中的每位用戶(hù)行為定義為一類(lèi)風(fēng)波,從中獲得風(fēng)波布點(diǎn)的邏輯。
  2、記錄風(fēng)波,了解剖析用戶(hù)行為
  ≈確定攝像頭要記錄的信息,是違章照相還是測速?
  對須要記錄和剖析的用戶(hù)行為進(jìn)行梳理,并完成風(fēng)波布點(diǎn)表后,接下來(lái),需要在研制工程師的協(xié)助下,根據您應用的平臺類(lèi)型(iOS、Android、JS)完成SDK的接入,每個(gè)風(fēng)波的布點(diǎn),將弄成一段十分簡(jiǎn)略的程序代碼——當用戶(hù)做相應的行為時(shí),您的應用會(huì )運行這段代碼,向諸葛io記錄相應風(fēng)波。在布點(diǎn)完成、產(chǎn)品發(fā)版后,用戶(hù)開(kāi)始使用新版的應用時(shí),使用行為的數據都會(huì )手動(dòng)傳遞到諸葛io,以便您進(jìn)行下邊的剖析。
  這一步,諸葛io的CS團隊將為企業(yè)提供支持,協(xié)助技術(shù)團隊順利完成數據采集的第一步。
  3、通過(guò)identify記錄用戶(hù)身分
  在諸葛io中記錄了用戶(hù)的行為,即:用戶(hù)做了哪些? 在對用戶(hù)剖析的過(guò)程中,還有一類(lèi)信息是很有用的,即:用戶(hù)是誰(shuí)(TA的id、名字)以及具備哪些特征(TA的年紀、類(lèi)型……)?您可以通過(guò)諸葛io平臺的identify過(guò)程,將用戶(hù)的身分及特征傳遞給諸葛io,利用identify的信息進(jìn)行精細化剖析:
  細分用戶(hù)群:用戶(hù)屬性的一個(gè)很重要的作用就是將用戶(hù)分群。您可以按照identify的屬性定義篩選條件,進(jìn)行用戶(hù)群的細分,比如用「性別=女」的條件將所有的女生篩選下來(lái),然后剖析妹子們的行為特征和轉化率……
  基于屬性的對比:細分的重要目的之一就是對比,您可以基于「性別」細分,然后對比「妹子們」和「漢子們」的行為、轉化、留存等的區別;
  基于屬性的人群畫(huà)像:您可以基于用戶(hù)屬性,對產(chǎn)品的任意用戶(hù)群進(jìn)行「畫(huà)像剖析」——該用戶(hù)群的男女比列、地區分布、年齡層次、用戶(hù)類(lèi)型……
  回到一開(kāi)始的問(wèn)題:何種埋點(diǎn)方法最理想呢?
  正就像硬幣有兩面,任何單一的埋點(diǎn)方法都存在優(yōu)點(diǎn)與缺點(diǎn),企圖通過(guò)簡(jiǎn)單粗暴的幾行代碼/一次布署、甚至犧牲用戶(hù)體驗的埋點(diǎn)形式,都不是企業(yè)所期望的。
  因此,數據采集只是數據剖析的第一步,數據剖析的目的是洞察用戶(hù)行為,挖掘用戶(hù)價(jià)值,進(jìn)而促使業(yè)務(wù)下降,諸葛io覺(jué)得,最理想的埋點(diǎn)方案是按照不同的業(yè)務(wù)和場(chǎng)景以及行業(yè)特點(diǎn)和自身實(shí)際需求,將埋點(diǎn)通過(guò)好壞互補形式進(jìn)行組合,比如:
  1、代碼埋點(diǎn)+全埋點(diǎn):在須要對落地頁(yè)進(jìn)行整體點(diǎn)擊剖析時(shí),細節位置逐一埋點(diǎn)的工作量相對較大,且在頻繁優(yōu)化調整落地頁(yè)時(shí),更新埋點(diǎn)的工作量愈發(fā)不容輕視,但復雜的頁(yè)面存在著(zhù)全埋點(diǎn)不能采集的死角,因此,可將代碼埋點(diǎn)作為輔助,將用戶(hù)核心行為進(jìn)行采集,從而實(shí)現精準的可交叉的用戶(hù)行為剖析;
  2、代碼埋點(diǎn)+服務(wù)端埋點(diǎn):以電商平臺為例, 用戶(hù)在支付環(huán)節,由于中途會(huì )跳轉到第三方支付平臺,是否支付成功須要通過(guò)服務(wù)器中的交易數據來(lái)驗證,此時(shí)可通過(guò)代碼埋點(diǎn)和服務(wù)端埋點(diǎn)相結合的方法,提升數據的準確性;
  3、代碼埋點(diǎn)+可視化埋點(diǎn):因代碼埋點(diǎn)的工作量大,可通過(guò)核心風(fēng)波代碼埋點(diǎn),可視化埋點(diǎn)用于追加和補充的形式采集數據。
  要滿(mǎn)足精細化、精準化的數據剖析需求,可依照實(shí)際須要的剖析場(chǎng)景,選擇一種或多種組合的采集方式,畢竟采集全量數據不是目的,實(shí)現有效的數據剖析,從數據中找到關(guān)鍵決策信息實(shí)現增速才是重中之重。
  原文發(fā)布時(shí)間為:2017-08-11
  本文作者:廠(chǎng)商投稿
  本文來(lái)自云棲社區合作伙伴IT168,了解相關(guān)信息可以關(guān)注IT168
  原文標題:數據下降第一步:選擇“最優(yōu)”的埋點(diǎn)采集方式 查看全部

  本文講的是數據下降第一步:選擇“最優(yōu)”的埋點(diǎn)采集方式【IT168 評論】在這一個(gè)大數據的時(shí)代,憑經(jīng)驗拍胸口的決策方法已成過(guò)去,數據的重要性不言而喻,數據剖析的第一步就是從數據源頭做好采集工作,我們明天的主題:數據埋點(diǎn)。
  埋點(diǎn):數據剖析的第一步
  大數據,從繁雜的數據背后挖掘、分析用戶(hù)的行為習慣和喜好,找出更符合用戶(hù)“口味”的產(chǎn)品和服務(wù),并結合用戶(hù)需求有針對性地調整和優(yōu)化自身,正是大數據的價(jià)值。而這信息的匯集、分析就繞不開(kāi)“埋點(diǎn)”。諸葛io為企業(yè)提供靈活的埋點(diǎn)方法,讓各個(gè)部門(mén)、各個(gè)角色輕松駕馭數據采集:
  有碼(代碼)埋點(diǎn):更精準的數據采集,更聚焦業(yè)務(wù)價(jià)值的數據采集(諸葛io專(zhuān)業(yè)的數據顧問(wèn)團隊可提供多樣化埋點(diǎn)方案,讓數據剖析有的放矢);
  全埋點(diǎn):無(wú)需人工埋點(diǎn),一切操作皆手動(dòng)埋點(diǎn),統計數據按需處理;
  - 可視化埋點(diǎn):界面化埋點(diǎn)管理配置無(wú)需開(kāi)發(fā)人員介入,更便捷的埋點(diǎn)更新,生效快;
  關(guān)于“埋點(diǎn)”的小科普
  埋點(diǎn)就是在有須要的位置采集相應的信息,就好似道路上的攝像頭,可以采集到汽車(chē)的屬性,比如:顏色、車(chē)牌號,車(chē)型等信息,還可以采集到汽車(chē)的行為,比如:有沒(méi)有闖紅燈,有沒(méi)有壓線(xiàn),車(chē)速多少,司機有沒(méi)有在駕駛中接聽(tīng)電話(huà)等,如果攝像頭分布是理想狀態(tài),那么通過(guò)疊加不同位置的攝像頭所采集的信息,完全可以還原出某一輛車(chē)的路徑、目的地,甚至猜測出司機的駕車(chē)習慣、是否是老司機等信息。
  那么,每一個(gè)埋點(diǎn)如同攝像頭,采集用戶(hù)行為數據,將數據進(jìn)行多維度的交叉剖析,可真實(shí)還原出用戶(hù)使用場(chǎng)景,挖掘用戶(hù)需求,從而提高用戶(hù)全生命周期的最大價(jià)值。
  解鎖4種埋點(diǎn)“姿勢”
  為了將海量數據采集得愈發(fā)精準,為后續營(yíng)造“純凈”的數據剖析環(huán)境,埋點(diǎn)技術(shù)應運而生。數據基礎筑牢與否,取決于數據的采集方式。埋點(diǎn)方法多種多樣,按照埋點(diǎn)位置不同,可以分為后端(客戶(hù)端)埋點(diǎn)與前端(服務(wù)器端)埋點(diǎn),其中后端埋點(diǎn)包括:代碼埋點(diǎn)、全埋點(diǎn)、可視化埋點(diǎn)。
  
  多采集方式對比
  全埋點(diǎn):通過(guò)SDK,采集頁(yè)面所有控件操作數據,通過(guò)“統計數據篩”,配置待處理的數據的特點(diǎn)。
  優(yōu)勢:一切操作皆埋點(diǎn),簡(jiǎn)單、快捷,無(wú)需埋點(diǎn)統計數據按需處理
  劣勢:數據上傳消耗流量大,數據維度單一(僅點(diǎn)擊、加載、刷新);影響用戶(hù)使用體驗——用戶(hù)使用過(guò)程中容易出現卡頓,嚴重影響用戶(hù)體驗;噪點(diǎn)多,數據準確性不高,容易形成干擾;不能自定義埋點(diǎn)搜集信息
  如同衛星拍攝,無(wú)需逐一安裝攝像頭,但數據量巨大,且容易遺漏,不易挖掘關(guān)鍵信息,因此全埋點(diǎn)的形式,主要應用于簡(jiǎn)單頁(yè)面的場(chǎng)景,比如:短期活動(dòng)中的落地頁(yè)/專(zhuān)題頁(yè)中,需要快速評判點(diǎn)擊分布等療效。
  JS可視化埋點(diǎn):嵌入SDK,可視化圈選定義風(fēng)波
  為了便捷產(chǎn)品和營(yíng)運朋友可以直接在頁(yè)面上進(jìn)行簡(jiǎn)單圈選,以追蹤用戶(hù)的行為(定義風(fēng)波),
  僅采集click(點(diǎn)擊)操作,節省開(kāi)發(fā)時(shí)間,諸葛io已于近日支持JS可視化埋點(diǎn)。
  優(yōu)勢:界面化配置,無(wú)需開(kāi)發(fā),埋點(diǎn)更新方便,生效快
  劣勢:埋點(diǎn)自定義屬性支持較差;重構或則頁(yè)面變化時(shí)須要重新配置;
  如同衛星航拍,無(wú)需安裝攝像頭,數據量小,支持局部區域的信息獲取 ,因此JS可視化埋點(diǎn)更適用于短平快的數據采集方式,如活動(dòng)/H5等簡(jiǎn)單頁(yè)面,業(yè)務(wù)人員可直接圈選,操作無(wú)門(mén)檻,減少技術(shù)人員的介入(從此世界和平),此種數據采集方式,方便業(yè)務(wù)人員早日把握頁(yè)面中關(guān)鍵節點(diǎn)的轉化情況,但是對用戶(hù)行為數據的應用較淺,無(wú)法支持更深度的剖析。
  此外,若頁(yè)面臨時(shí)調整,可靈活的追加埋點(diǎn),可作為代碼埋點(diǎn)的補充,以便及時(shí)降低采集數據
  代碼埋點(diǎn):嵌入SDK,定義風(fēng)波并添加風(fēng)波代碼,按需采集,業(yè)務(wù)信息更完善,對數據的剖析更聚焦,因此代碼埋點(diǎn)是一種以業(yè)務(wù)價(jià)值為出發(fā)的行為剖析。
  優(yōu)勢:數據搜集全面且確切,便于后續深度剖析(埋點(diǎn)準確性次序:代碼埋點(diǎn)>可視化埋點(diǎn)>全埋點(diǎn)),SDK較小,對應用本身的使用體驗沒(méi)有影響
  劣勢:需要研制人員配合,有一定的工作量
  如果你不希望在采集數據的同時(shí),降低用戶(hù)體驗;如果你不希望采集到海量無(wú)用數據;如果你希望采集的數據:顆粒度更細,維度更多,數據剖析的準確性更高。那么,從業(yè)務(wù)下降的長(cháng)遠價(jià)值考慮,請選擇代碼埋點(diǎn)。
  服務(wù)端埋點(diǎn):可支持其他業(yè)務(wù)數據采集和整合,如CRM等用戶(hù)數據,通過(guò)插口調用,將數據結構化,由于直接從服務(wù)器端采集,數據準確性更高,適用于自身具備采集能力的顧客,或可與客戶(hù)端采集相結合采集。
  如:
  1、通過(guò)調用API接口,將CRM等數據與用戶(hù)行為數據進(jìn)行整合,全量、多角度剖析用戶(hù);
  2、若企業(yè)已有自身的埋點(diǎn)體系,那么可直接通過(guò)服務(wù)端采集將用戶(hù)行為數據上傳到諸葛io平臺,進(jìn)行數據剖析,無(wú)需維護兩套埋點(diǎn)系統;
  3、打通歷史數據(埋點(diǎn)前的數據)與新數據(埋點(diǎn)后),提高數據準確性。如在接入客戶(hù)端采集之后的顧客,導入原有歷史數據后,此前的已有的用戶(hù)訪(fǎng)問(wèn)平臺,不會(huì )被標記為新用戶(hù),減少數據偏差。
  如何“埋點(diǎn)”?
  埋點(diǎn)聽(tīng)上去“不明覺(jué)厲”,其實(shí)十分的簡(jiǎn)單,就猶如“在道路上安裝攝像頭”。
  1、梳理產(chǎn)品用戶(hù)行為,確定風(fēng)波布點(diǎn)
  埋點(diǎn)方案≈攝像頭安裝的分布方案
  經(jīng)常有童鞋咨詢(xún)諸葛君:究竟獲取什么數據來(lái)進(jìn)行數據剖析?回答這個(gè)問(wèn)題,先要明晰目的,厘清邏輯。
  諸葛io數據剖析的對象和基礎是用戶(hù)行為,選擇記錄和剖析什么用戶(hù)行為,直接影響到剖析工作的價(jià)值產(chǎn)出,諸葛君建議:選擇與產(chǎn)品目標和當下首要問(wèn)題最為密切相關(guān)的用戶(hù)行為,作為風(fēng)波。以電商為例,將流程中的每位用戶(hù)行為定義為一類(lèi)風(fēng)波,從中獲得風(fēng)波布點(diǎn)的邏輯。
  2、記錄風(fēng)波,了解剖析用戶(hù)行為
  ≈確定攝像頭要記錄的信息,是違章照相還是測速?
  對須要記錄和剖析的用戶(hù)行為進(jìn)行梳理,并完成風(fēng)波布點(diǎn)表后,接下來(lái),需要在研制工程師的協(xié)助下,根據您應用的平臺類(lèi)型(iOS、Android、JS)完成SDK的接入,每個(gè)風(fēng)波的布點(diǎn),將弄成一段十分簡(jiǎn)略的程序代碼——當用戶(hù)做相應的行為時(shí),您的應用會(huì )運行這段代碼,向諸葛io記錄相應風(fēng)波。在布點(diǎn)完成、產(chǎn)品發(fā)版后,用戶(hù)開(kāi)始使用新版的應用時(shí),使用行為的數據都會(huì )手動(dòng)傳遞到諸葛io,以便您進(jìn)行下邊的剖析。
  這一步,諸葛io的CS團隊將為企業(yè)提供支持,協(xié)助技術(shù)團隊順利完成數據采集的第一步。
  3、通過(guò)identify記錄用戶(hù)身分
  在諸葛io中記錄了用戶(hù)的行為,即:用戶(hù)做了哪些? 在對用戶(hù)剖析的過(guò)程中,還有一類(lèi)信息是很有用的,即:用戶(hù)是誰(shuí)(TA的id、名字)以及具備哪些特征(TA的年紀、類(lèi)型……)?您可以通過(guò)諸葛io平臺的identify過(guò)程,將用戶(hù)的身分及特征傳遞給諸葛io,利用identify的信息進(jìn)行精細化剖析:
  細分用戶(hù)群:用戶(hù)屬性的一個(gè)很重要的作用就是將用戶(hù)分群。您可以按照identify的屬性定義篩選條件,進(jìn)行用戶(hù)群的細分,比如用「性別=女」的條件將所有的女生篩選下來(lái),然后剖析妹子們的行為特征和轉化率……
  基于屬性的對比:細分的重要目的之一就是對比,您可以基于「性別」細分,然后對比「妹子們」和「漢子們」的行為、轉化、留存等的區別;
  基于屬性的人群畫(huà)像:您可以基于用戶(hù)屬性,對產(chǎn)品的任意用戶(hù)群進(jìn)行「畫(huà)像剖析」——該用戶(hù)群的男女比列、地區分布、年齡層次、用戶(hù)類(lèi)型……
  回到一開(kāi)始的問(wèn)題:何種埋點(diǎn)方法最理想呢?
  正就像硬幣有兩面,任何單一的埋點(diǎn)方法都存在優(yōu)點(diǎn)與缺點(diǎn),企圖通過(guò)簡(jiǎn)單粗暴的幾行代碼/一次布署、甚至犧牲用戶(hù)體驗的埋點(diǎn)形式,都不是企業(yè)所期望的。
  因此,數據采集只是數據剖析的第一步,數據剖析的目的是洞察用戶(hù)行為,挖掘用戶(hù)價(jià)值,進(jìn)而促使業(yè)務(wù)下降,諸葛io覺(jué)得,最理想的埋點(diǎn)方案是按照不同的業(yè)務(wù)和場(chǎng)景以及行業(yè)特點(diǎn)和自身實(shí)際需求,將埋點(diǎn)通過(guò)好壞互補形式進(jìn)行組合,比如:
  1、代碼埋點(diǎn)+全埋點(diǎn):在須要對落地頁(yè)進(jìn)行整體點(diǎn)擊剖析時(shí),細節位置逐一埋點(diǎn)的工作量相對較大,且在頻繁優(yōu)化調整落地頁(yè)時(shí),更新埋點(diǎn)的工作量愈發(fā)不容輕視,但復雜的頁(yè)面存在著(zhù)全埋點(diǎn)不能采集的死角,因此,可將代碼埋點(diǎn)作為輔助,將用戶(hù)核心行為進(jìn)行采集,從而實(shí)現精準的可交叉的用戶(hù)行為剖析;
  2、代碼埋點(diǎn)+服務(wù)端埋點(diǎn):以電商平臺為例, 用戶(hù)在支付環(huán)節,由于中途會(huì )跳轉到第三方支付平臺,是否支付成功須要通過(guò)服務(wù)器中的交易數據來(lái)驗證,此時(shí)可通過(guò)代碼埋點(diǎn)和服務(wù)端埋點(diǎn)相結合的方法,提升數據的準確性;
  3、代碼埋點(diǎn)+可視化埋點(diǎn):因代碼埋點(diǎn)的工作量大,可通過(guò)核心風(fēng)波代碼埋點(diǎn),可視化埋點(diǎn)用于追加和補充的形式采集數據。
  要滿(mǎn)足精細化、精準化的數據剖析需求,可依照實(shí)際須要的剖析場(chǎng)景,選擇一種或多種組合的采集方式,畢竟采集全量數據不是目的,實(shí)現有效的數據剖析,從數據中找到關(guān)鍵決策信息實(shí)現增速才是重中之重。
  原文發(fā)布時(shí)間為:2017-08-11
  本文作者:廠(chǎng)商投稿
  本文來(lái)自云棲社區合作伙伴IT168,了解相關(guān)信息可以關(guān)注IT168
  原文標題:數據下降第一步:選擇“最優(yōu)”的埋點(diǎn)采集方式

良心總結:常用的第三方統計平臺優(yōu)缺點(diǎn)剖析

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 226 次瀏覽 ? 2020-08-13 06:08 ? 來(lái)自相關(guān)話(huà)題

  缺點(diǎn)
  在A(yíng)PP開(kāi)發(fā)的時(shí)侯須要用戶(hù)自動(dòng)埋點(diǎn),增、刪、改代碼非常麻煩,工作量大
  另外,友盟早已確認被阿里競購了,如果你不介意公司數據曝露在阿里面前的話(huà)。
  2.TalkingData
  TalkingData是獨立的第三方聯(lián)通數據服務(wù)品牌。其產(chǎn)品及服務(wù)涵括聯(lián)通應用數據統計、移動(dòng)廣告檢測、移動(dòng)游戲營(yíng)運、公共數據查詢(xún)、綜合數據管理等多款極具針對性的產(chǎn)品及服務(wù)。在工行、互聯(lián)網(wǎng)、電商行業(yè)有廣泛的數據服務(wù)應用。
  優(yōu)點(diǎn):
  界面清晰,不會(huì )象友盟看著(zhù)這么累
  支持直接在報表后臺中設定追蹤點(diǎn)并手動(dòng)布署追蹤代碼的“靈動(dòng)風(fēng)波”;
  可以基于統計數據對不同的用戶(hù)人群完成精準推送營(yíng)銷(xiāo)
  不光可以使用TalkingData提供的推送通道,還可以與個(gè)推、極光等推送平臺組合使用,讓往年的粗放推送達到實(shí)時(shí)精準化,并實(shí)時(shí)查閱療效數據。
  缺點(diǎn):
  手動(dòng)埋點(diǎn),工作量大
  采集錯誤報告信息,如果使用TalkingData SDK手動(dòng)捕獲異常會(huì )耗損用戶(hù)流量,而主動(dòng)傳送錯誤信息給SDK目前僅Android SDK提供此功能
  不支持cocoapods集成
  沒(méi)有crash統計
  3.GrowingIO
  GrowingIO是基于互聯(lián)網(wǎng)的用戶(hù)行為數據剖析產(chǎn)品,具有無(wú)埋點(diǎn)的數據采集技術(shù),可以通過(guò)網(wǎng)頁(yè)或APP的瀏覽軌跡、點(diǎn)擊記錄和鍵盤(pán)滑動(dòng)軌跡等行為數據,進(jìn)行實(shí)時(shí)的用戶(hù)行為數據剖析,用于優(yōu)化產(chǎn)品體驗,實(shí)現精益化營(yíng)運。
  優(yōu)點(diǎn):不需要埋點(diǎn)
  缺點(diǎn);不埋點(diǎn)是指使數據分析師不需要去埋點(diǎn),但實(shí)際開(kāi)發(fā)過(guò)程中,需要開(kāi)發(fā)者去設置個(gè)每個(gè)點(diǎn)的名稱(chēng),并且她們的數據上傳十分特別頻繁,網(wǎng)站輪詢(xún),感覺(jué)象bug,不停的循環(huán)。
  如果UI發(fā)生變化,可能造成難以準確地統計已圈選的元素,所以還須要自動(dòng)為界面元素設置固定的惟一ID,代碼量也不小
  4. Sensorsdata(神策數據)
  與GrowingIO類(lèi)似,也是基于用戶(hù)網(wǎng)路行為,采集數據進(jìn)行剖析。技術(shù)上提供開(kāi)放的查詢(xún) API 和完整的 SQL 接口,同時(shí)與 MapReduce 和 Spark等估算引擎無(wú)縫融合,隨時(shí)以最高效的方法來(lái)訪(fǎng)問(wèn)干凈、規范的數據。
  優(yōu)點(diǎn):
  提供了可視化埋點(diǎn)的解決方案
  支持多種語(yǔ)言的SDK
  API功能豐富
  缺點(diǎn):
  公司剛開(kāi)始起步不久,沒(méi)有市面上的大公司成熟。
  5.shareinstall
  APP開(kāi)發(fā)者可以通過(guò)Shareinstall更精準的進(jìn)行產(chǎn)品的推廣。另外,Shareinstall還是一款渠道統計工具,能夠全方位的剖析渠道推廣療效。Shareinstall是一種APP市場(chǎng)營(yíng)銷(xiāo)技術(shù)。通過(guò)集成Shareinstall,開(kāi)發(fā)者可依照自身APP的業(yè)務(wù)參數、軟硬件參數、結合自身業(yè)務(wù),對APP的流程進(jìn)行優(yōu)化重整,以便向用戶(hù)提供更好的體驗。Shareinstall強悍的功能和靈活的插口,能夠為不限數目和服務(wù)類(lèi)型的APP提供支持。由于Shareinstall可為各種APP提供支持,這將形成未能用盡的應用場(chǎng)景。
  優(yōu)點(diǎn):
  1)攜參安裝
  ShareinstallSDK可以通過(guò)攜參安裝,簡(jiǎn)化用戶(hù)的安裝體驗,豐富用戶(hù)的安裝信息,例如:免填邀請碼,自動(dòng)添加好友,自動(dòng)加入游戲臥室,商品導購等
  2)渠道統計
  幫助統計并剖析渠道推廣的療效,通過(guò)數據幫助決策者調整渠道推廣策略
  3)一鍵拉起
  可實(shí)現各類(lèi)瀏覽器的一鍵拉起
  缺點(diǎn):第三方,需要應用集成SDK。除了這點(diǎn)以外,其余方面還是做的很不錯的,不介意這點(diǎn)的可以選擇shareinstall。
  總結
  僅僅是剖析UV、PV、點(diǎn)擊量等基本指標,可以選擇代碼埋點(diǎn)或則可視化埋點(diǎn)等后端埋點(diǎn)方案;
  精細化剖析核心轉化流程,則可能須要借助前端 SDK 或者 LogAgent 接入前端日志;
  活動(dòng)/新功能快速上線(xiàn)迭代時(shí)的療效評估,則可以借助可視化埋點(diǎn)快速完成;
  對客服服務(wù)質(zhì)量的考評,或者不同快件在不同省份運送不同品類(lèi)產(chǎn)品的速率的比較,則須要使用前端 SDK 來(lái)對接第三方系統便于導出數據。
  一個(gè)產(chǎn)品首次使用 Sensors Analytics時(shí),初期采用可視化埋點(diǎn)方案,快速完成布署,以便快速評估剖析療效,做出快速決策;而對可視化埋點(diǎn)得到的數據,在剖析評析后,再針對性地逐漸采用其它數據采集方案,獲取更詳盡、更全面的數據剖析結果。 查看全部

  缺點(diǎn)
  在A(yíng)PP開(kāi)發(fā)的時(shí)侯須要用戶(hù)自動(dòng)埋點(diǎn),增、刪、改代碼非常麻煩,工作量大
  另外,友盟早已確認被阿里競購了,如果你不介意公司數據曝露在阿里面前的話(huà)。
  2.TalkingData
  TalkingData是獨立的第三方聯(lián)通數據服務(wù)品牌。其產(chǎn)品及服務(wù)涵括聯(lián)通應用數據統計、移動(dòng)廣告檢測、移動(dòng)游戲營(yíng)運、公共數據查詢(xún)、綜合數據管理等多款極具針對性的產(chǎn)品及服務(wù)。在工行、互聯(lián)網(wǎng)、電商行業(yè)有廣泛的數據服務(wù)應用。
  優(yōu)點(diǎn):
  界面清晰,不會(huì )象友盟看著(zhù)這么累
  支持直接在報表后臺中設定追蹤點(diǎn)并手動(dòng)布署追蹤代碼的“靈動(dòng)風(fēng)波”;
  可以基于統計數據對不同的用戶(hù)人群完成精準推送營(yíng)銷(xiāo)
  不光可以使用TalkingData提供的推送通道,還可以與個(gè)推、極光等推送平臺組合使用,讓往年的粗放推送達到實(shí)時(shí)精準化,并實(shí)時(shí)查閱療效數據。
  缺點(diǎn):
  手動(dòng)埋點(diǎn),工作量大
  采集錯誤報告信息,如果使用TalkingData SDK手動(dòng)捕獲異常會(huì )耗損用戶(hù)流量,而主動(dòng)傳送錯誤信息給SDK目前僅Android SDK提供此功能
  不支持cocoapods集成
  沒(méi)有crash統計
  3.GrowingIO
  GrowingIO是基于互聯(lián)網(wǎng)的用戶(hù)行為數據剖析產(chǎn)品,具有無(wú)埋點(diǎn)的數據采集技術(shù),可以通過(guò)網(wǎng)頁(yè)或APP的瀏覽軌跡、點(diǎn)擊記錄和鍵盤(pán)滑動(dòng)軌跡等行為數據,進(jìn)行實(shí)時(shí)的用戶(hù)行為數據剖析,用于優(yōu)化產(chǎn)品體驗,實(shí)現精益化營(yíng)運。
  優(yōu)點(diǎn):不需要埋點(diǎn)
  缺點(diǎn);不埋點(diǎn)是指使數據分析師不需要去埋點(diǎn),但實(shí)際開(kāi)發(fā)過(guò)程中,需要開(kāi)發(fā)者去設置個(gè)每個(gè)點(diǎn)的名稱(chēng),并且她們的數據上傳十分特別頻繁,網(wǎng)站輪詢(xún),感覺(jué)象bug,不停的循環(huán)。
  如果UI發(fā)生變化,可能造成難以準確地統計已圈選的元素,所以還須要自動(dòng)為界面元素設置固定的惟一ID,代碼量也不小
  4. Sensorsdata(神策數據)
  與GrowingIO類(lèi)似,也是基于用戶(hù)網(wǎng)路行為,采集數據進(jìn)行剖析。技術(shù)上提供開(kāi)放的查詢(xún) API 和完整的 SQL 接口,同時(shí)與 MapReduce 和 Spark等估算引擎無(wú)縫融合,隨時(shí)以最高效的方法來(lái)訪(fǎng)問(wèn)干凈、規范的數據。
  優(yōu)點(diǎn):
  提供了可視化埋點(diǎn)的解決方案
  支持多種語(yǔ)言的SDK
  API功能豐富
  缺點(diǎn):
  公司剛開(kāi)始起步不久,沒(méi)有市面上的大公司成熟。
  5.shareinstall
  APP開(kāi)發(fā)者可以通過(guò)Shareinstall更精準的進(jìn)行產(chǎn)品的推廣。另外,Shareinstall還是一款渠道統計工具,能夠全方位的剖析渠道推廣療效。Shareinstall是一種APP市場(chǎng)營(yíng)銷(xiāo)技術(shù)。通過(guò)集成Shareinstall,開(kāi)發(fā)者可依照自身APP的業(yè)務(wù)參數、軟硬件參數、結合自身業(yè)務(wù),對APP的流程進(jìn)行優(yōu)化重整,以便向用戶(hù)提供更好的體驗。Shareinstall強悍的功能和靈活的插口,能夠為不限數目和服務(wù)類(lèi)型的APP提供支持。由于Shareinstall可為各種APP提供支持,這將形成未能用盡的應用場(chǎng)景。
  優(yōu)點(diǎn):
  1)攜參安裝
  ShareinstallSDK可以通過(guò)攜參安裝,簡(jiǎn)化用戶(hù)的安裝體驗,豐富用戶(hù)的安裝信息,例如:免填邀請碼,自動(dòng)添加好友,自動(dòng)加入游戲臥室,商品導購等
  2)渠道統計
  幫助統計并剖析渠道推廣的療效,通過(guò)數據幫助決策者調整渠道推廣策略
  3)一鍵拉起
  可實(shí)現各類(lèi)瀏覽器的一鍵拉起
  缺點(diǎn):第三方,需要應用集成SDK。除了這點(diǎn)以外,其余方面還是做的很不錯的,不介意這點(diǎn)的可以選擇shareinstall。
  總結
  僅僅是剖析UV、PV、點(diǎn)擊量等基本指標,可以選擇代碼埋點(diǎn)或則可視化埋點(diǎn)等后端埋點(diǎn)方案;
  精細化剖析核心轉化流程,則可能須要借助前端 SDK 或者 LogAgent 接入前端日志;
  活動(dòng)/新功能快速上線(xiàn)迭代時(shí)的療效評估,則可以借助可視化埋點(diǎn)快速完成;
  對客服服務(wù)質(zhì)量的考評,或者不同快件在不同省份運送不同品類(lèi)產(chǎn)品的速率的比較,則須要使用前端 SDK 來(lái)對接第三方系統便于導出數據。
  一個(gè)產(chǎn)品首次使用 Sensors Analytics時(shí),初期采用可視化埋點(diǎn)方案,快速完成布署,以便快速評估剖析療效,做出快速決策;而對可視化埋點(diǎn)得到的數據,在剖析評析后,再針對性地逐漸采用其它數據采集方案,獲取更詳盡、更全面的數據剖析結果。

我為何用 ElasticSearch 做 Redis 監控?

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 221 次瀏覽 ? 2020-08-12 01:38 ? 來(lái)自相關(guān)話(huà)題

  本文按照李猛老師在〖deeplus直播第220期〗線(xiàn)上分享講演內容整理而成。(文末有獲取本期PPT&回放的途徑,不要錯過(guò))
  
  李猛
  數據技術(shù)專(zhuān)家
  序言
  
  圖示:Redis熱度排行
  Redis當下挺流行,也挺好用,無(wú)論是在業(yè)務(wù)應用系統,還是在大數據領(lǐng)域都有重要的地位;但Redis也太脆弱,用不好,問(wèn)題多多。2012年以前都是以memcached為主,之后轉入Redis陣營(yíng),經(jīng)歷過(guò)單實(shí)例模式、主從模式、哨兵模式、代理模式,集群模式,真正公司層面用得好的極少,對于Redis掌控都太片面,導致實(shí)際項目中問(wèn)題不少。
  Redis要想用得好,需要整體把握3個(gè)層面:
  其中構架與運維至關(guān)重要,多數中小型企業(yè)僅在開(kāi)發(fā)層面滿(mǎn)足常用功能,數據規模稍為大些,業(yè)務(wù)復雜度高些,就容易出現各類(lèi)構架與運維問(wèn)題。本文主旨是闡述Redis監控體系,目前業(yè)界其實(shí)也有好多成熟的產(chǎn)品,但個(gè)人感覺(jué)都太常規,只做到一些粗細度的監控, 沒(méi)有根據業(yè)務(wù)需求特性因地制宜去細化,從而反向的提供構架開(kāi)發(fā)優(yōu)化方案。
  本文內容將圍繞如下幾個(gè)問(wèn)題展開(kāi)討論:
  需求背景
  項目描述
  公司業(yè)務(wù)范圍屬于車(chē)聯(lián)網(wǎng)行業(yè),有上百萬(wàn)級的真實(shí)車(chē)主用戶(hù),業(yè)務(wù)項目圍繞車(chē)主生活服務(wù)展開(kāi),為了提升系統性能,引入了Redis作為緩存中間件,具體描述如下:
  
  圖示:Redis集群構架與應用構架示意圖
  問(wèn)題描述
  系統剛開(kāi)始關(guān)于Redis的一切都很正常,隨著(zhù)應用系統接入越來(lái)越多,應用系統子模塊接入也越來(lái)越多,開(kāi)始出現一些問(wèn)題,應用系統有感知,集群服務(wù)端也有感知,如下描述:
  其實(shí)問(wèn)題的癥結都是構架運維層面的缺乏,對于Redis集群服務(wù)端的運行監控雖然挺好做,本身也提供了好多直接的命令形式,但只能看見(jiàn)服務(wù)端的一些常用指標信息,無(wú)法深入剖析,治標不治本,對于Redis的內部運行一無(wú)所知,特別是對于業(yè)務(wù)應用怎樣使用Redis集群一無(wú)所知:
  監控體系
  監控的目的不僅僅是監控Redis本身,而是為了更好的使用Redis。傳統的監控通常比較單一化,沒(méi)有系統化,但對于Redis來(lái)說(shuō),個(gè)人覺(jué)得起碼包括:一是服務(wù)端,二是應用端,三是服務(wù)端與應用端聯(lián)合剖析。
  服務(wù)端:
  應用端:
  應用端、獲取應用端使用Redis的一些行為,具體什么應用什么模塊最占用 Redis資源、哪些應用什么模塊最消耗Redis資源、哪些應用什么模塊用法有誤等。
  聯(lián)合剖析:
  聯(lián)合剖析結合服務(wù)端的運行與應用端使用的行為,如:一些導致服務(wù)端忽然阻塞的緣由,可能是應用端設置了一個(gè)很大的緩存通配符,或者使用的通配符列表,數據量超大導致阻塞。
  解決方案
  為什么會(huì )選擇Elastic-Stack技術(shù)棧呢?
  多數的第三方只監控一些指標,對于明細日志還是采用ELK(Elasticsearch、Logstash、Kibana),也就是說(shuō)用第三方監控指標以后,還得再搭建一個(gè)ELK集群看明細日志。
  再就是說(shuō)Elastic-Stack技術(shù)棧整合的優(yōu)勢,指標也可以、日志文件也可以,從采集開(kāi)始到儲存、到最終報表面板都整合得非常好,門(mén)檻太低。
  下面詳盡談?wù)勎覀兙唧w如何做的,做了什么工作?
  服務(wù)端系統
  Elastic-Stack家族有Metricbeat產(chǎn)品,支持系統層面的信息搜集,簡(jiǎn)單的配置下Elastic集群地址和系統指標模塊即可上線(xiàn),并且會(huì )在Kibana中創(chuàng )建已有的系統監控面板,非常簡(jiǎn)單快速,一般運維就可以搞定。
  
  圖示:metrcibeat示意圖
  系統指標信息搜集配置樣例如下:
  服務(wù)端集群
  采集Redis集群運行信息,業(yè)界一般做法都是采用Redis提供的info命令,定期搜集。
  info獲取的信息包括如下:
  Elastic-Stack家族的Metricbeat產(chǎn)品也支持Redis模塊,也是采用info命令獲取的,但是有一些實(shí)現的局限性,如下描述:
  所以這兒參考了CacheCloud產(chǎn)品(搜狐團隊開(kāi)源),我們自定義設計開(kāi)發(fā)了 Agent,定時(shí)從Redis集群采集信息,并在內部做一些統計數值的簡(jiǎn)單估算,轉換成Json,寫(xiě)入到本地文件,通過(guò)Logstash采集發(fā)送到Elasticsearch。
  
  圖示:Redis服務(wù)端運行信息采集架構示意圖
  服務(wù)端日志
  Redis服務(wù)端運行日志采集很簡(jiǎn)單,直接通過(guò)Elastic-Stack家族的Filebeat產(chǎn)品,其中有Redis模塊,配置一下Elastic服務(wù)端,日志文件地址即可。
  
  圖示:服務(wù)端日志采集過(guò)程
  Redis運行日志采集配置:
  
  應用端
  應用端信息采集是整個(gè)Redis監控體系最重要的部份,也是實(shí)現最麻煩、鏈路最長(cháng)的。首先是更改jedis(技術(shù)棧Java)源碼,增加埋點(diǎn)代碼,重新編譯并引用到應用項目中,應用端對于Redis集群的任何命令操作,都會(huì )被捕捉,并記錄下關(guān)鍵信息,之后寫(xiě)入到本地文件。
  
  圖示:Redis應用端行為采集架構圖
  應用端采集的數據格式如下:
  圖示:應用端采集的數據案例
  jedis更改:
  jedis整修記錄的信息如下:
  在jedis整修有幾處地方,如下:
  在類(lèi)Connection.java文件中有2處:
  
  圖示:類(lèi)Connection.java文件埋點(diǎn)代碼的地方
  
  圖示:類(lèi)Connection.java文件埋點(diǎn)代碼的地方
  類(lèi)JedisClusterCommand文件埋點(diǎn)代碼.java文件中有1處:
  
  圖示:類(lèi)JedisClusterCommand文件埋點(diǎn)代碼
  logback更改:
  應用端就會(huì )使用logback寫(xiě)入日志文件,同時(shí)為了愈發(fā)精準,應用端寫(xiě)入日志時(shí)還須要獲取應用端的一些信息,如下:
  自定義一個(gè)Layout,自動(dòng)獲取應用端的IP地址與服務(wù)器名稱(chēng):
  
  圖示:自定義Logback的Layout
  app配置:
  app配置屬于最后掃尾工作,主要是輸出埋點(diǎn)的日志數據,配置日志logback.xml文件即可:
  
  圖示:配置應用端日志文件logback.xml
  日志采集:
  應用端日志采集采用Logstash,配置日志目錄,指向Elastic集群,這樣整體的監控日志采集部分就結束了。
  日志剖析
  Redis服務(wù)端的日志剖析比較簡(jiǎn)單,常規的一些指標而已,創(chuàng )建好關(guān)鍵的圖表,容易看出問(wèn)題。重點(diǎn)討論應用端的日志剖析。
  
  圖示:應用端使用Redis一些行為圖表
  ELK監控體系上線(xiàn)以后,我們連續觀(guān)察剖析兩周,獲得了一些監控成果,如:
  后續方案
  監控體系相當于架構師的雙眼,有了這個(gè),Redis方面的優(yōu)化整修方案就挺好制訂了:
  結語(yǔ)
  監控體系項目前后經(jīng)歷過(guò)幾個(gè)月,服務(wù)端部份短期內就完成的,應用端是隨著(zhù)應用發(fā)布逐漸完成的。上線(xiàn)完成以后又經(jīng)歷幾周的跟蹤剖析,才確定出來(lái)整體的優(yōu)化方案。
  監控體系本身并不是為了監控,而是發(fā)覺(jué)問(wèn)題、預見(jiàn)問(wèn)題,最終提早解決問(wèn)題,監控做得好,下班下得早。
  Redis集群是個(gè)好東西,完全把握還是須要太長(cháng)的時(shí)間,特別是構架、運維層面,如果沒(méi)有,請做好監控。
  > > > >
  Q&A
  Q1:請問(wèn)單臺機器通常布署幾個(gè)Redis實(shí)例呢?
  A:依據服務(wù)器資源設置:
  1、CPU核數,Redis是單線(xiàn)程工作模型,實(shí)際運行并非進(jìn)程只有一個(gè)線(xiàn)程,這個(gè)要搞清楚;
  2、內存,一個(gè)Redis進(jìn)程配置部份顯存,需要起碼對等的顯存閑置,fork子進(jìn)程使用, 所以配置多實(shí)例要簡(jiǎn)單估算下;
  3、網(wǎng)絡(luò ),網(wǎng)絡(luò )IO超過(guò)網(wǎng)卡限制,會(huì )出問(wèn)題。
  Q2:直播中提到的大key,hash要改成哪些?分片嗎?
  A:1、比如,一個(gè)面包車(chē)的基本信息,包括好多區塊部份,用hash確實(shí)非常好理解,但是過(guò)期以后整個(gè)hash都刪掉了,其實(shí)好多信息是固定的,不用定時(shí)過(guò)期的;2、拆分成小的string更合適。
  Q3:在客戶(hù)端復印key和value,如果是bigkey的話(huà),qps有個(gè)1000,打印日志就占用很高的機器負載了吧?
  A:1、打印的key,不包括value值內容,只有key以及value的大??;2、logback這種框架似乎支持的性能相當不錯的,可以配置成異步的形式,如果還不夠,可以直接輸出到Kafka隊列等。
  Q4:請問(wèn)ES如何布署MongoDB慢查詢(xún)報表平臺呢?
  A:1、沒(méi)有深度使用過(guò)MongoDB;2、基于Elastic-Stack做慢查詢(xún)報表平臺思路與Redis一樣的,不管哪些指標+日志全部都采集到ES完事。
  Q5:info all執行頻繁,會(huì )時(shí)常阻塞服務(wù)器,怎么平衡它的性能呢?
  A:1、因為采集的是服務(wù)端運行的快照信息,定時(shí)采集,可以設定時(shí)間間隔大一些,比如5s;2、執行info all,是在 java客戶(hù)端,可以更改jedis,在其中捕獲info命令,采集數據,觀(guān)察剖析一段時(shí)間。
  Q6:請問(wèn)應用端jedis要如何埋點(diǎn)呢?
  A:1、原有jedis版本基于2.9,在2個(gè)類(lèi)中更改埋點(diǎn),參考了CacheCloud產(chǎn)品。最新版本的程序近來(lái)沒(méi)有關(guān)注,思路一樣;2、詳細見(jiàn)本文中貼出的代碼。
  Q7:監控的話(huà),個(gè)人認為置于K8S上面,不是最優(yōu)方案,您對這個(gè)如何看?
  A:1、本人未使用過(guò)K8S布署產(chǎn)品;2、Redis監控體系,整體服務(wù)端,應用端,在Docker中也僅服務(wù)端可以,將metrcibeats這種集成在一起,但也有一些服務(wù)端監指標估算,需要自己編撰Agent來(lái)完成,也是可以到Docker中去。應用端的就沒(méi)有辦法了,這個(gè)屬于后端的行為統計。
  Q8:請問(wèn)您的ES有多少節點(diǎn)?要用ssd盤(pán)嗎?
  A:1、標準集群,起步3個(gè)實(shí)例節點(diǎn);2、固態(tài)硬盤(pán)應用看場(chǎng)景,業(yè)務(wù)系統用用可以,日志系統通常不需要,即使須要也可以做冷熱隔離,少量的數據使用ssd,歷史的數據全部hdd足矣。
  Q9:如果公司缺少足夠的人力物力,是用ES、Prometheus還是Zabbix做監控比較適宜呢?能分別說(shuō)一下它們各自最適用的情況嗎?
  A:1、ES,Elastic-Stack,首選考慮,ES擅長(cháng)的領(lǐng)域好多,應用系統查詢(xún)加速、大數據領(lǐng)域、監控領(lǐng)域;2、其它兩個(gè)產(chǎn)品主要是做指標型的監控,但實(shí)際項目中,僅僅指標監控是不夠的,需要一個(gè)整體型的監控體系,便于聯(lián)合剖析。ES雖然好多方面比時(shí)序數據庫做得更好,騰訊有資深專(zhuān)家做過(guò)詳盡的ES與TSDB對比的測試,性能與功能都完全超過(guò)專(zhuān)門(mén)的時(shí)序數據庫。返回搜狐,查看更多 查看全部

  本文按照李猛老師在〖deeplus直播第220期〗線(xiàn)上分享講演內容整理而成。(文末有獲取本期PPT&回放的途徑,不要錯過(guò))
  
  李猛
  數據技術(shù)專(zhuān)家
  序言
  
  圖示:Redis熱度排行
  Redis當下挺流行,也挺好用,無(wú)論是在業(yè)務(wù)應用系統,還是在大數據領(lǐng)域都有重要的地位;但Redis也太脆弱,用不好,問(wèn)題多多。2012年以前都是以memcached為主,之后轉入Redis陣營(yíng),經(jīng)歷過(guò)單實(shí)例模式、主從模式、哨兵模式、代理模式,集群模式,真正公司層面用得好的極少,對于Redis掌控都太片面,導致實(shí)際項目中問(wèn)題不少。
  Redis要想用得好,需要整體把握3個(gè)層面:
  其中構架與運維至關(guān)重要,多數中小型企業(yè)僅在開(kāi)發(fā)層面滿(mǎn)足常用功能,數據規模稍為大些,業(yè)務(wù)復雜度高些,就容易出現各類(lèi)構架與運維問(wèn)題。本文主旨是闡述Redis監控體系,目前業(yè)界其實(shí)也有好多成熟的產(chǎn)品,但個(gè)人感覺(jué)都太常規,只做到一些粗細度的監控, 沒(méi)有根據業(yè)務(wù)需求特性因地制宜去細化,從而反向的提供構架開(kāi)發(fā)優(yōu)化方案。
  本文內容將圍繞如下幾個(gè)問(wèn)題展開(kāi)討論:
  需求背景
  項目描述
  公司業(yè)務(wù)范圍屬于車(chē)聯(lián)網(wǎng)行業(yè),有上百萬(wàn)級的真實(shí)車(chē)主用戶(hù),業(yè)務(wù)項目圍繞車(chē)主生活服務(wù)展開(kāi),為了提升系統性能,引入了Redis作為緩存中間件,具體描述如下:
  
  圖示:Redis集群構架與應用構架示意圖
  問(wèn)題描述
  系統剛開(kāi)始關(guān)于Redis的一切都很正常,隨著(zhù)應用系統接入越來(lái)越多,應用系統子模塊接入也越來(lái)越多,開(kāi)始出現一些問(wèn)題,應用系統有感知,集群服務(wù)端也有感知,如下描述:
  其實(shí)問(wèn)題的癥結都是構架運維層面的缺乏,對于Redis集群服務(wù)端的運行監控雖然挺好做,本身也提供了好多直接的命令形式,但只能看見(jiàn)服務(wù)端的一些常用指標信息,無(wú)法深入剖析,治標不治本,對于Redis的內部運行一無(wú)所知,特別是對于業(yè)務(wù)應用怎樣使用Redis集群一無(wú)所知:
  監控體系
  監控的目的不僅僅是監控Redis本身,而是為了更好的使用Redis。傳統的監控通常比較單一化,沒(méi)有系統化,但對于Redis來(lái)說(shuō),個(gè)人覺(jué)得起碼包括:一是服務(wù)端,二是應用端,三是服務(wù)端與應用端聯(lián)合剖析。
  服務(wù)端:
  應用端:
  應用端、獲取應用端使用Redis的一些行為,具體什么應用什么模塊最占用 Redis資源、哪些應用什么模塊最消耗Redis資源、哪些應用什么模塊用法有誤等。
  聯(lián)合剖析:
  聯(lián)合剖析結合服務(wù)端的運行與應用端使用的行為,如:一些導致服務(wù)端忽然阻塞的緣由,可能是應用端設置了一個(gè)很大的緩存通配符,或者使用的通配符列表,數據量超大導致阻塞。
  解決方案
  為什么會(huì )選擇Elastic-Stack技術(shù)棧呢?
  多數的第三方只監控一些指標,對于明細日志還是采用ELK(Elasticsearch、Logstash、Kibana),也就是說(shuō)用第三方監控指標以后,還得再搭建一個(gè)ELK集群看明細日志。
  再就是說(shuō)Elastic-Stack技術(shù)棧整合的優(yōu)勢,指標也可以、日志文件也可以,從采集開(kāi)始到儲存、到最終報表面板都整合得非常好,門(mén)檻太低。
  下面詳盡談?wù)勎覀兙唧w如何做的,做了什么工作?
  服務(wù)端系統
  Elastic-Stack家族有Metricbeat產(chǎn)品,支持系統層面的信息搜集,簡(jiǎn)單的配置下Elastic集群地址和系統指標模塊即可上線(xiàn),并且會(huì )在Kibana中創(chuàng )建已有的系統監控面板,非常簡(jiǎn)單快速,一般運維就可以搞定。
  
  圖示:metrcibeat示意圖
  系統指標信息搜集配置樣例如下:
  服務(wù)端集群
  采集Redis集群運行信息,業(yè)界一般做法都是采用Redis提供的info命令,定期搜集。
  info獲取的信息包括如下:
  Elastic-Stack家族的Metricbeat產(chǎn)品也支持Redis模塊,也是采用info命令獲取的,但是有一些實(shí)現的局限性,如下描述:
  所以這兒參考了CacheCloud產(chǎn)品(搜狐團隊開(kāi)源),我們自定義設計開(kāi)發(fā)了 Agent,定時(shí)從Redis集群采集信息,并在內部做一些統計數值的簡(jiǎn)單估算,轉換成Json,寫(xiě)入到本地文件,通過(guò)Logstash采集發(fā)送到Elasticsearch。
  
  圖示:Redis服務(wù)端運行信息采集架構示意圖
  服務(wù)端日志
  Redis服務(wù)端運行日志采集很簡(jiǎn)單,直接通過(guò)Elastic-Stack家族的Filebeat產(chǎn)品,其中有Redis模塊,配置一下Elastic服務(wù)端,日志文件地址即可。
  
  圖示:服務(wù)端日志采集過(guò)程
  Redis運行日志采集配置:
  
  應用端
  應用端信息采集是整個(gè)Redis監控體系最重要的部份,也是實(shí)現最麻煩、鏈路最長(cháng)的。首先是更改jedis(技術(shù)棧Java)源碼,增加埋點(diǎn)代碼,重新編譯并引用到應用項目中,應用端對于Redis集群的任何命令操作,都會(huì )被捕捉,并記錄下關(guān)鍵信息,之后寫(xiě)入到本地文件。
  
  圖示:Redis應用端行為采集架構圖
  應用端采集的數據格式如下:
  圖示:應用端采集的數據案例
  jedis更改:
  jedis整修記錄的信息如下:
  在jedis整修有幾處地方,如下:
  在類(lèi)Connection.java文件中有2處:
  
  圖示:類(lèi)Connection.java文件埋點(diǎn)代碼的地方
  
  圖示:類(lèi)Connection.java文件埋點(diǎn)代碼的地方
  類(lèi)JedisClusterCommand文件埋點(diǎn)代碼.java文件中有1處:
  
  圖示:類(lèi)JedisClusterCommand文件埋點(diǎn)代碼
  logback更改:
  應用端就會(huì )使用logback寫(xiě)入日志文件,同時(shí)為了愈發(fā)精準,應用端寫(xiě)入日志時(shí)還須要獲取應用端的一些信息,如下:
  自定義一個(gè)Layout,自動(dòng)獲取應用端的IP地址與服務(wù)器名稱(chēng):
  
  圖示:自定義Logback的Layout
  app配置:
  app配置屬于最后掃尾工作,主要是輸出埋點(diǎn)的日志數據,配置日志logback.xml文件即可:
  
  圖示:配置應用端日志文件logback.xml
  日志采集:
  應用端日志采集采用Logstash,配置日志目錄,指向Elastic集群,這樣整體的監控日志采集部分就結束了。
  日志剖析
  Redis服務(wù)端的日志剖析比較簡(jiǎn)單,常規的一些指標而已,創(chuàng )建好關(guān)鍵的圖表,容易看出問(wèn)題。重點(diǎn)討論應用端的日志剖析。
  
  圖示:應用端使用Redis一些行為圖表
  ELK監控體系上線(xiàn)以后,我們連續觀(guān)察剖析兩周,獲得了一些監控成果,如:
  后續方案
  監控體系相當于架構師的雙眼,有了這個(gè),Redis方面的優(yōu)化整修方案就挺好制訂了:
  結語(yǔ)
  監控體系項目前后經(jīng)歷過(guò)幾個(gè)月,服務(wù)端部份短期內就完成的,應用端是隨著(zhù)應用發(fā)布逐漸完成的。上線(xiàn)完成以后又經(jīng)歷幾周的跟蹤剖析,才確定出來(lái)整體的優(yōu)化方案。
  監控體系本身并不是為了監控,而是發(fā)覺(jué)問(wèn)題、預見(jiàn)問(wèn)題,最終提早解決問(wèn)題,監控做得好,下班下得早。
  Redis集群是個(gè)好東西,完全把握還是須要太長(cháng)的時(shí)間,特別是構架、運維層面,如果沒(méi)有,請做好監控。
  > > > >
  Q&A
  Q1:請問(wèn)單臺機器通常布署幾個(gè)Redis實(shí)例呢?
  A:依據服務(wù)器資源設置:
  1、CPU核數,Redis是單線(xiàn)程工作模型,實(shí)際運行并非進(jìn)程只有一個(gè)線(xiàn)程,這個(gè)要搞清楚;
  2、內存,一個(gè)Redis進(jìn)程配置部份顯存,需要起碼對等的顯存閑置,fork子進(jìn)程使用, 所以配置多實(shí)例要簡(jiǎn)單估算下;
  3、網(wǎng)絡(luò ),網(wǎng)絡(luò )IO超過(guò)網(wǎng)卡限制,會(huì )出問(wèn)題。
  Q2:直播中提到的大key,hash要改成哪些?分片嗎?
  A:1、比如,一個(gè)面包車(chē)的基本信息,包括好多區塊部份,用hash確實(shí)非常好理解,但是過(guò)期以后整個(gè)hash都刪掉了,其實(shí)好多信息是固定的,不用定時(shí)過(guò)期的;2、拆分成小的string更合適。
  Q3:在客戶(hù)端復印key和value,如果是bigkey的話(huà),qps有個(gè)1000,打印日志就占用很高的機器負載了吧?
  A:1、打印的key,不包括value值內容,只有key以及value的大??;2、logback這種框架似乎支持的性能相當不錯的,可以配置成異步的形式,如果還不夠,可以直接輸出到Kafka隊列等。
  Q4:請問(wèn)ES如何布署MongoDB慢查詢(xún)報表平臺呢?
  A:1、沒(méi)有深度使用過(guò)MongoDB;2、基于Elastic-Stack做慢查詢(xún)報表平臺思路與Redis一樣的,不管哪些指標+日志全部都采集到ES完事。
  Q5:info all執行頻繁,會(huì )時(shí)常阻塞服務(wù)器,怎么平衡它的性能呢?
  A:1、因為采集的是服務(wù)端運行的快照信息,定時(shí)采集,可以設定時(shí)間間隔大一些,比如5s;2、執行info all,是在 java客戶(hù)端,可以更改jedis,在其中捕獲info命令,采集數據,觀(guān)察剖析一段時(shí)間。
  Q6:請問(wèn)應用端jedis要如何埋點(diǎn)呢?
  A:1、原有jedis版本基于2.9,在2個(gè)類(lèi)中更改埋點(diǎn),參考了CacheCloud產(chǎn)品。最新版本的程序近來(lái)沒(méi)有關(guān)注,思路一樣;2、詳細見(jiàn)本文中貼出的代碼。
  Q7:監控的話(huà),個(gè)人認為置于K8S上面,不是最優(yōu)方案,您對這個(gè)如何看?
  A:1、本人未使用過(guò)K8S布署產(chǎn)品;2、Redis監控體系,整體服務(wù)端,應用端,在Docker中也僅服務(wù)端可以,將metrcibeats這種集成在一起,但也有一些服務(wù)端監指標估算,需要自己編撰Agent來(lái)完成,也是可以到Docker中去。應用端的就沒(méi)有辦法了,這個(gè)屬于后端的行為統計。
  Q8:請問(wèn)您的ES有多少節點(diǎn)?要用ssd盤(pán)嗎?
  A:1、標準集群,起步3個(gè)實(shí)例節點(diǎn);2、固態(tài)硬盤(pán)應用看場(chǎng)景,業(yè)務(wù)系統用用可以,日志系統通常不需要,即使須要也可以做冷熱隔離,少量的數據使用ssd,歷史的數據全部hdd足矣。
  Q9:如果公司缺少足夠的人力物力,是用ES、Prometheus還是Zabbix做監控比較適宜呢?能分別說(shuō)一下它們各自最適用的情況嗎?
  A:1、ES,Elastic-Stack,首選考慮,ES擅長(cháng)的領(lǐng)域好多,應用系統查詢(xún)加速、大數據領(lǐng)域、監控領(lǐng)域;2、其它兩個(gè)產(chǎn)品主要是做指標型的監控,但實(shí)際項目中,僅僅指標監控是不夠的,需要一個(gè)整體型的監控體系,便于聯(lián)合剖析。ES雖然好多方面比時(shí)序數據庫做得更好,騰訊有資深專(zhuān)家做過(guò)詳盡的ES與TSDB對比的測試,性能與功能都完全超過(guò)專(zhuān)門(mén)的時(shí)序數據庫。返回搜狐,查看更多

神州優(yōu)車(chē)數據交換平臺的構架、建設與疼點(diǎn)難點(diǎn)解讀

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 165 次瀏覽 ? 2020-08-11 21:51 ? 來(lái)自相關(guān)話(huà)題

  講師介紹
  盧彪
  神州優(yōu)車(chē)集團架構部技術(shù)專(zhuān)家
  百度百科:
  數據交換平臺,是指將分散建設的若干應用信息系統進(jìn)行整合,通過(guò)計算機網(wǎng)路建立的信息交換平臺,它讓若干個(gè)應用子系統進(jìn)行信息/數據的傳輸及共享,提高信息資源的利用率,成為進(jìn)行信息化建設的基本目標,保證分布異構系統之間互聯(lián)互通,建立中心數據庫,完成數據的抽取、集中、加載、展現,構造統一的數據處理和交換。
  筆者覺(jué)得,數據交換平臺是建立分布式系統的三駕馬車(chē)之一。這三駕馬車(chē)分別是基于RPC的服務(wù)調用、基于MQ的風(fēng)波驅動(dòng)以及基于Data Sync的數據共享。
  而驅動(dòng)數據交換平臺出現和發(fā)展的根本動(dòng)力是:用空間換時(shí)間。
  一、交換平臺淺談
  1、服務(wù)場(chǎng)景
  概括來(lái)講,數據交換平臺可以服務(wù)的場(chǎng)景可以分為三大類(lèi),分別是:基礎構架、容災備份和異構重塑。
  基礎構架
  場(chǎng)景舉例一:EDA
  通過(guò)數據交換平臺,把數據庫Log風(fēng)波(如MySQL的Binlog)發(fā)送到MQ,然后由不同的消費者進(jìn)行消費,驅動(dòng)不同的業(yè)務(wù)流程(如:刷新緩存、構造搜索引擎、下單以后發(fā)短信、支付以后通知發(fā)貨等),基于這樣的構架,免去了業(yè)務(wù)方自己定義領(lǐng)域風(fēng)波和發(fā)送風(fēng)波的工作,大大節約了工作量。
  更重要的是,基于數據庫自己的Log機制,數據一致性更有保證,其它例如容錯處理、HA等機制也只靠數據交換平臺去保證即可。
  當然,如果風(fēng)波定義比較復雜,普通的業(yè)務(wù)表對應的LogEvent未能抒發(fā)的話(huà),還須要自行設計領(lǐng)域風(fēng)波,此時(shí)我們可以定義一張通用的風(fēng)波表用于保存自定義風(fēng)波;而發(fā)送風(fēng)波的操作對應風(fēng)波表的插入操作而且隨業(yè)務(wù)操作放在一個(gè)事務(wù)中,待事務(wù)遞交后,交換平臺拉取風(fēng)波表的日志,然后提取風(fēng)波內容發(fā)送到MQ即可。
  
  通過(guò)消費數據庫的Log,可做的文章非常多,我們團隊內部正在研制一個(gè)風(fēng)波平臺,也是基于消費MySQL-Binlog來(lái)實(shí)現的,大體構架如下所示:
  
  事件平臺提供了風(fēng)波訂閱,事件配置(如:是實(shí)時(shí)觸發(fā)下一操作還是倒計時(shí)定時(shí)觸發(fā)下一操作,下一操作是插口反彈還是形成一個(gè)新的風(fēng)波等),事件編排和實(shí)時(shí)監控等基礎支撐,使用方只需提供配置規則和開(kāi)發(fā)反彈插口即可,免去了各研制團隊各自為政、重復建設的各類(lèi)問(wèn)題。
  另外,該平臺最大的一個(gè)特色就是引入了風(fēng)波驅動(dòng)的定時(shí)器機制,沒(méi)有這樣一個(gè)機制之前,涉及到時(shí)間要素相關(guān)的判定時(shí)(如:下單后多長(cháng)時(shí)間未結算訂單手動(dòng)轉為無(wú)效,租車(chē)時(shí)長(cháng)超過(guò)一定時(shí)間后,結算類(lèi)型手動(dòng)由短租產(chǎn)品轉為長(cháng)租產(chǎn)品等),業(yè)務(wù)研制團隊須要寫(xiě)大量的定時(shí)任務(wù)掃描數據庫來(lái)估算時(shí)間區間,不僅開(kāi)發(fā)成本巨大而且常常也存在較大的性能問(wèn)題。
  有了定時(shí)器機制,業(yè)務(wù)方只需配置時(shí)間規則即可,并且風(fēng)波平臺是分布式的,可以提供更高的性能支撐。
  場(chǎng)景舉例二:CQRS(Command Query Responsibility Segregation)
  這里套用DDD領(lǐng)域中的一個(gè)概念CQRS,具體介紹可參考鏈接:
  CQRS的思想本質(zhì)上就是為同一份數據構建兩套模型(或叫視圖):
  CQRS架構模式的一個(gè)開(kāi)源實(shí)現是Axon-Framework,基于A(yíng)xon可以建立自己的領(lǐng)域模型、領(lǐng)域風(fēng)波、事件庫房、查詢(xún)視圖等,其提供了聚合根定義、事件重放、事件消費、數據鏡像等基礎支撐,套用一下它的構架圖如下:
  
  理想是豐腴的現實(shí)卻是肉感的,DDD提出早已很多年了,卻因難于實(shí)踐,絕大部分公司還是逗留在靠數據庫表進(jìn)行建模的階段,但CQRS的思想是挺好的。
  那么我們拋掉DDD,基于表模型來(lái)理解CQRS:數據表模型也是領(lǐng)域模型,只不過(guò)不是面向對象的領(lǐng)域模型,數據庫的Log也是風(fēng)波,只不過(guò)抒發(fā)能力不象DDD中的領(lǐng)域風(fēng)波這么豐富。
  基于此,靠數據庫管理模型和風(fēng)波,加上一個(gè)數據交換平臺進(jìn)行風(fēng)波轉發(fā)和消費,便可以建立一個(gè)廣義上的CQRS構架,如下所示:
  
  場(chǎng)景舉例三:數據采集和回流
  很多公司正在建設或則早已建設了自己的大數據平臺,其中數據采集和回流是必不可少的一個(gè)環(huán)節,一般小一些的公司在數據采集這一層做的比較零散,各種開(kāi)源產(chǎn)品堆積在一起完成采集相關(guān)的工作,而大一些的公司會(huì )考慮平臺化,把數據采集放到整個(gè)數據交換平臺的規劃中,以便于提高效率和減少成本。
  下圖是我們團隊的數據交換平臺和大數據平臺的關(guān)系示意圖:
  
  容災備份
  場(chǎng)景舉例一:多機房
  多中心、多備份、異地雙活、異地多活等是好多大公司正在實(shí)踐或則早已實(shí)踐過(guò)的技術(shù)困局,這中間的核心便是一整套完整的數據同步方案。
  場(chǎng)景舉例二:數據鏡像
  通過(guò)數據交換平臺,可以創(chuàng )建各類(lèi)類(lèi)型的DB鏡像,滿(mǎn)足不同場(chǎng)景下的使用須要。
  場(chǎng)景舉例三:數據歸檔
  通過(guò)增量交換,在同步過(guò)程中忽視刪掉風(fēng)波,可以實(shí)現實(shí)時(shí)歸檔。
  異構構建
  場(chǎng)景舉例一:DB升級換代,遷庫、拆庫、合庫
  對DB進(jìn)行升級換代,日常的遷庫、拆庫和合庫等運維操作,就要涉及到數據遷移,如果有平臺,遷移工作都會(huì )顯得很簡(jiǎn)單。
  場(chǎng)景舉例二:資產(chǎn)復用
  越大的公司,包袱也越重,很多公司擁有各類(lèi)類(lèi)型的數據庫和儲存產(chǎn)品,為了復用那些資產(chǎn),就涉及到各類(lèi)場(chǎng)景下的數據同步,統一的數據交換平臺會(huì )使這種場(chǎng)景各異的同步顯得容易好多。
  2、建設思路
  一千個(gè)讀者就有一千個(gè)哈姆雷特,一千個(gè)架構師就有一千種構架思想,數據交換平臺的建設也沒(méi)有哪些手炮可言。不同團隊面對的場(chǎng)景各異,進(jìn)化下來(lái)的構架也就不盡相同。此處結合自己的經(jīng)驗和心得,談一談數據交換平臺建設過(guò)程的一些方法論和注意事項。
  架構選型
  數據同步流程是生產(chǎn)者-消費者模式的典型彰顯,生產(chǎn)者負責從不同的數據源拉取數據,消費者負責把數據講到不同的數據源,生產(chǎn)者和消費者之間可以是1對1的關(guān)系,也可以是1對多的關(guān)系。
  那么,數據交換平臺就是把生產(chǎn)者和消費者串聯(lián)上去的中樞,并且可以在串聯(lián)的過(guò)程中控制流程,概括來(lái)講就是進(jìn)行數據集成。
  數據集成是數據交換平臺最基本的工作,架構的選型和設計應當僅僅圍繞這個(gè)基本點(diǎn)展開(kāi),只有以便快速集成的構架能夠支撐不斷變化的數據同步需求。
  在進(jìn)行構架設計時(shí),需要考慮的點(diǎn),大致總結如下:
  很多公司都在基于消息中間件建立自己的數據交換平臺(有的稱(chēng)之為數據總線(xiàn)),生產(chǎn)者把數據發(fā)送到MQ,消費者從MQ上消費數據,并且數據可以自描述,此模式的一個(gè)典型開(kāi)源實(shí)現就是Kafka-Connect,其構架圖如下所示:
  
  優(yōu)點(diǎn):
  缺點(diǎn):
  不論怎樣,該構架模式是太優(yōu)秀的,能滿(mǎn)足百分之六七十的應用場(chǎng)景。但我們團隊并沒(méi)有直接套用該構架,而是針對其缺點(diǎn),并受Kafka-Connect思路的啟發(fā),實(shí)現了一套基于消息中間件和直連同步的混和構架,如下所示(即DataLink的構架):
  
  在Kafka-Connect的構架中,因為要以Kafka做數據中轉站,所以運行的Task要么是SourceTask、要么是SinkTask,而DataLink中的Task可以對Reader和Writer進(jìn)行任意組合(理論上)。
  基于這樣的特點(diǎn),要建立基于消息中間件的同步,組合Mq-Writer和Mq-Reader即可;要建立直連式的同步,繞過(guò)Mq直接組合源端Reader和目標Writer即可。根據不同場(chǎng)景選擇不同模式,更加靈活。
  消息中間件的方案也好,混合方案也好,針對的大部分場(chǎng)景都是實(shí)時(shí)增量同步(雖然也支持部份場(chǎng)景下的全量同步,但其實(shí)不是其主業(yè)),針對離線(xiàn)全量同步場(chǎng)景,目前你們用的最多的方案是阿里開(kāi)源的DataX,有興趣的可以研究一下。
  簡(jiǎn)單總結,沒(méi)有最好的構架只有最合適的構架,基于消息中間件建立數據交換平臺是目前比較流行的構架模式,但它也有自身的缺點(diǎn),組合各類(lèi)技術(shù),揚長(cháng)避短,針對自己的問(wèn)題和疼點(diǎn)找到適宜自己的方案才是最合理的方案。
  方式方式
  如果說(shuō)構架選型是制訂戰略,那方法技巧就是具體戰術(shù)。從同步行為上來(lái)?yè)Q分,可以分為實(shí)時(shí)增量同步和離線(xiàn)全量同步。
  前者的可行戰術(shù)主要有觸發(fā)器、日志解析和基于時(shí)間戳的數據抽?。ó斎?,不同DB都會(huì )有自己的一些特殊方案,如Oracle的物化視圖機制,SQL Server的CDC等),后者的可行戰術(shù)主要有文件Dump和API抽取。
  實(shí)時(shí)增量同步
  先說(shuō)實(shí)時(shí)增量同步?;谟|發(fā)器的形式獲取數據比較傳統,并且由于運維冗長(cháng)和性能較差等緣由,用的也越來(lái)越少。
  但在個(gè)別特定場(chǎng)景下還是有適用空間的,有一個(gè)開(kāi)源的產(chǎn)品代號為SymmetricDS,可以自動(dòng)化管理觸發(fā)器并提供統一的數據抓取和消費機制,如果想基于觸發(fā)器做數據同步的話(huà)可以參考該產(chǎn)品。
  基于日志解析的方法去做同步目前最受偏愛(ài),像MySQL、HBase等都提供了日志重放機制,并且合同開(kāi)源.
  該方法的主要優(yōu)點(diǎn)有:對業(yè)務(wù)表零侵入、異步解析日志沒(méi)有性能問(wèn)題、實(shí)時(shí)性比較高等。
  日志解析太美好,但并不是所有DB都提供了這樣的機制(如SQL Server),當觸發(fā)器和日志解析都搞不定時(shí),通過(guò)時(shí)間戳數組(如:modify_time)定時(shí)掃表,拿到變更數據并進(jìn)行同步,也是常用的一種手段.
  該方法有幾個(gè)顯著(zhù)的缺點(diǎn):實(shí)時(shí)性比較低、需要業(yè)務(wù)方保證時(shí)間戳數組不能出現漏更新,定時(shí)掃表查詢(xún)也可能會(huì )帶來(lái)一些性能問(wèn)題等。
  離線(xiàn)全量同步
  再說(shuō)離線(xiàn)全量同步。文件Dump的形式通常用在同構數據源之間的同步場(chǎng)景,并且須要靠DB自己的導出導入機制進(jìn)行支持,可以服務(wù)的場(chǎng)景比較單一。API抽取的方法更通用和靈活一些,同構異構都可以編碼進(jìn)行實(shí)現,做的好的話(huà),還可通過(guò)靈活的參數控制提供各類(lèi)中級功能特點(diǎn),如開(kāi)源產(chǎn)品DataX。
  
  難點(diǎn)問(wèn)題
  把數據從一個(gè)地方遷往另一個(gè)地方,怎樣保證在同步過(guò)程中數據不出問(wèn)題(不丟、不重、不亂)或者出現問(wèn)題后能快速恢復,要考慮的點(diǎn)十分多也十分雜,這里結合自己的經(jīng)驗聊聊主要的難點(diǎn)以及常用的解決方案。
  其一:種類(lèi)繁雜的API
  看上去其實(shí)也沒(méi)有哪些難的,不就是調用API進(jìn)行數據操作嗎?其實(shí)不然,市面上的儲存產(chǎn)品有上百種,常用的也有幾十種,其產(chǎn)品特點(diǎn)是千差萬(wàn)別的。
  為了建立一個(gè)高效可靠的平臺,對這種產(chǎn)品的API及其內部機制進(jìn)行透徹的研究是必須要做的 (如:是否支持事務(wù)?事務(wù)細度是表級別還是記錄級別?是支持隨機讀寫(xiě)還是只能支持Append?操作API時(shí)有沒(méi)有客戶(hù)端緩存?HA是如何實(shí)現的?性能困局點(diǎn)在哪些地方?調優(yōu)參數都有什么?自帶的Replication機制是如何實(shí)現的?等等),否則平臺也就僅僅逗留在能用的階段。
  拿我們自己的經(jīng)歷舉個(gè)反例:在建設大數據平臺時(shí),需要數據交換平臺把MySQL和HBase的數據實(shí)時(shí)同步到HDFS中,基于DataLink我們開(kāi)發(fā)了HDFS Writer插件,在實(shí)踐過(guò)程中沒(méi)少趟坑。
  解決這個(gè)難點(diǎn)問(wèn)題,沒(méi)有捷徑,只能靠降低自身硬實(shí)力來(lái)進(jìn)行突破。
  其二:同步關(guān)系整治
  對于服務(wù)框架來(lái)說(shuō),隨著(zhù)服務(wù)數目不斷降低,我們須要服務(wù)整治;對于數據交換平臺來(lái)說(shuō),隨著(zhù)同步關(guān)系的不斷降低,同樣須要對同步關(guān)系進(jìn)行整治。
  需要整治的點(diǎn)主要有:
  避免回環(huán)同步通常加入DAG檢查機制即可。
  保證Schema的一致性通常有兩個(gè)思路:一個(gè)是在同步過(guò)程中獲取到源端的ddl句子手動(dòng)同步到目標端,另一個(gè)是平臺提供同步關(guān)系檢查機制供外部系統使用,前者在異構數據源比較多的時(shí)侯實(shí)現上去困難比較大(腳本轉換、性能問(wèn)題、冪等判定等),并且不是所有的方案都能領(lǐng)到ddl句子,而后者更具有通用性和可行性。
  目前我們內部的方案是,SQL腳本上線(xiàn)時(shí),由數據交換平臺進(jìn)行SQL解析,然后返回同步關(guān)系樹(shù)給DBA團隊的DBMS系統,然后由DBMS系統根據同步關(guān)系的提示逐庫執行腳本即可。
  同步關(guān)系樹(shù)的一個(gè)示意圖如下所示:
  
  其三:數據質(zhì)量
  保證數據質(zhì)量是數據交換平臺的核心使命,同步過(guò)程中做到不丟、不重、不亂,通過(guò)數據巡檢能迅速發(fā)覺(jué)問(wèn)題;發(fā)現問(wèn)題后能快速修補。
  如果能把事前、事中、事后這三個(gè)階段都控制好,那平臺已然達到優(yōu)秀的級別了。
  事前階段靠建立的設計和測試,事中階段靠立體化的監控報案,事后階段靠功能豐富的修補工具,但每位階段實(shí)踐上去都不容易,原因在于場(chǎng)景的靈活性和復雜性,如:
  目前我們團隊也還在不斷探求的路上,沒(méi)有絕對完美的方案,針對自己的場(chǎng)景和對數據一致性要求的程度,找到最合適的方案才是正解。下面借用一張圖來(lái)展示數據質(zhì)量的設計要點(diǎn):
  
  其四:擴展性
  技術(shù)的發(fā)展是快速的,業(yè)務(wù)的演化也是千變萬(wàn)化的,為了應對這種變化,平臺肯定也要跟隨變,但如何用最小的變化帶來(lái)最大的利潤,是判定一個(gè)平臺、一個(gè)產(chǎn)品成熟與否的關(guān)鍵指標。
  筆者篤信一句諺語(yǔ):架構是進(jìn)化下來(lái)的,而不是設計下來(lái)的;但同時(shí)也篤信另一句諺語(yǔ):好的設計是成功的一半。二者并不矛盾,主要在于如何去折中。
  做平臺和做工具的一個(gè)重要區別在于,前者要重點(diǎn)考慮具象、建模和參數化,以提供靈活的擴展性。
  那么擴展性應當考慮到哪些程度呢?一句話(huà)來(lái)概括:我們在平臺的建設過(guò)程中應當不斷歸納、不斷糾錯、不斷具象、不斷迭代、不斷推演,把已知的事情做到模型化,把未知的事情做到可預見(jiàn),不做過(guò)度設計,但也要充分設計。
  開(kāi)源數據同步中間件中,擴展性做的比較好的:阿里的DataX不錯,KafKa-Connect不錯,基于觸發(fā)器的SymmetricDS也不錯,下文要介紹的我們近來(lái)開(kāi)源的DataLink也在這方面做了好多考慮。
  3、開(kāi)源產(chǎn)品
  在這里列舉一下數據同步相關(guān)的開(kāi)源產(chǎn)品,供參考學(xué)習:
  
  二、實(shí)戰項目介紹
  1、DataLink項目介紹
  名稱(chēng): DataLink['deit lik]
  譯意: 數據鏈路,數據(自動(dòng))傳輸器
  語(yǔ)言: 純Java開(kāi)發(fā)(JDK1.8+)
  定位: 滿(mǎn)足各類(lèi)異構數據源之間的實(shí)時(shí)增量同步,一個(gè)分布式、可擴充的數據同步系統
  開(kāi)源地址:
  此次開(kāi)源為消除內部依賴(lài)后的版本(開(kāi)源的是增量同步子系統),在集團內部DataLink和阿里的DataX還進(jìn)行了深度集成,增量(DataLink)+全量(DataX)共同組成統一的數據交換平臺(如果去做類(lèi)比的話(huà),DataLink可以看做增量版的DataX),平臺構架如下所示:
  
  2、項目背景
  隨著(zhù)神州優(yōu)車(chē)集團業(yè)務(wù)的高速發(fā)展,各種各樣的數據同步場(chǎng)景應運而生,原有的系統構架未能支撐復雜多變的業(yè)務(wù)需求。所以,從2016年底開(kāi)始,團隊內部開(kāi)始醞釀DataLink這個(gè)產(chǎn)品。
  著(zhù)眼于未來(lái),我們的目標是構建一個(gè)新平臺,滿(mǎn)足各類(lèi)異構數據源之間的實(shí)時(shí)增量同步,支撐公司業(yè)務(wù)的快速發(fā)展。在充分督查的基礎之上,我們發(fā)覺(jué),沒(méi)有任何一款開(kāi)源產(chǎn)品能輕易的滿(mǎn)足我們的目標,每個(gè)產(chǎn)品都有其顯著(zhù)的弱項和局限性,所以最終的選項只有“自行設計”。
  但自行設計并不是陡然設計,現有的數據交換平臺、已有的經(jīng)驗、大大小小的開(kāi)源產(chǎn)品都是我們的設計根基,與其說(shuō)是自行設計,倒不如說(shuō)是站在巨人的右臂上做了一次飛越。由此誕生了DataLink這樣一個(gè)產(chǎn)品,其產(chǎn)品特點(diǎn)主要如下:
  3、應用現況
  DataLink從2016年12月開(kāi)始立項,第一版于2017年5月份上線(xiàn),在神州優(yōu)車(chē)集團內部服役到如今,基本上滿(mǎn)足了公司所有業(yè)務(wù)線(xiàn)的同步需求,目前內部的同步規模大體如下:
  4、架構模型
  基礎構架
  
  DataLink是典型的Master-Slave構架,Manager(管理節點(diǎn))+Worker(工作節點(diǎn)),下面對基礎構架的重點(diǎn)模塊做概要介紹:
  Manager
  Manager是整個(gè)DataLink集群的腦部,有三個(gè)核心功能:
  Group
  Worker
  Task
  (Re-)Balance
  (Re-)Balance的定義:通過(guò)一定的負載均衡策略,使Task在Worker節點(diǎn)上均衡的分布。(Re-)Balance的單位是Group,一個(gè)分組發(fā)生(Re-)Balance不會(huì )影響其它分組的正常運行。
  發(fā)生(Re-)Balance的時(shí)機有:
  Plugin
  插件模型最大的意義在于前饋和復用,只須要提供一套基礎框架,開(kāi)發(fā)一系列同步插件,通過(guò)配置組合便可以支持“無(wú)限多”的同步場(chǎng)景。
  插件界定為兩種:Reader插件和Writer插件,插件之間通過(guò)Task串聯(lián)上去。Task運行時(shí),每個(gè)插件都有自己獨立的Classloader,保證插件之間的JAR包隔離。
  MySQL
  DataLink的運行須要依賴(lài)各類(lèi)配置信息,這些配置信息統一保存到MySQL中。DataLink在運行過(guò)程中會(huì )動(dòng)態(tài)形成監控和統計數據,這些數據也統一保存到MySQL中。
  存儲的配置信息主要有:同步任務(wù)信息、工作節點(diǎn)信息、分組信息、數據源配置信息、映射規則信息、監控信息、角色權限信息等。
  ZooKeeper
  Manager的高可用須要依賴(lài)于ZooKeeper,通過(guò)占領(lǐng)和竊聽(tīng)“/datalink/managers/active”節點(diǎn),實(shí)現秒級Switch。
  注:Worker的高可用并不依賴(lài)ZooKeeper,只要Manager才能保證高可用,Worker就是高可用的。
  Task會(huì )將運行時(shí)信息注冊到ZooKeeper,注冊信息主要有兩類(lèi):
  具體介紹可參見(jiàn)wiki:
  總體構架
  概念模型
  
  一句話(huà)概括概念模型:高度可擴充的、可對接任意存儲之間數據同步的松散模型。架構選型章節對該模型已有介紹,此處不再贅言。
  領(lǐng)域模型
  
  Contract
  契約即規范,是對不同領(lǐng)域內數據類(lèi)型的高層具象,其在Datalink中的主要表現形式為Record,如針對關(guān)系型數據庫有RdbEventRecord、針對Hbase有HRecord。
  在整個(gè)產(chǎn)品規劃中,契約處于最頂樓,無(wú)論采用何種基礎設施、何種業(yè)務(wù)模型、何種開(kāi)發(fā)語(yǔ)言,契約都是一套獨立的規范。契約是聯(lián)接Reader和Writer的紐帶,Reader和Writer互不感知,它們通過(guò)辨識共同的契約實(shí)現數據交換。
  Business Model
  Business Model是對數據交換業(yè)務(wù)場(chǎng)景的高層具象,將不同場(chǎng)景的共性需求進(jìn)行了歸納和總結,抽象出了一套統一的模型定義。
  當然,它不是萬(wàn)能的,不能收錄所有的需求點(diǎn),并且是隨著(zhù)場(chǎng)景的增多不斷演變的。但它是必須的,統一的模型具象可以支撐80%場(chǎng)景下的功能復用。
  主要模型定義如下:
  具體介紹可參見(jiàn)wiki:
  深入領(lǐng)域
  插件模型
  
  插件體系:一般由兩部份組成,Framework+Plugin。DataLink中的Framework主要指【TaskRuntime】,Plugin對應的是各類(lèi)類(lèi)型的【TaskReader&TaskWriter】。
  TaskRuntime:提供了Task的高層具象、Task的運行時(shí)環(huán)境和Task的插件規范。
  TaskReader&TaskWriter:一個(gè)個(gè)具體的數據同步插件,遵從Task插件規范,功能自治,和TaskRuntime完全前饋,理論上插件數目可無(wú)限擴展。
  Task:DataLink中數據同步的基本單位是Task,一個(gè)Worker進(jìn)程中可以運行一批Task,一個(gè)運行中的Task由一個(gè)TaskReader和起碼一個(gè)TaskWriter組成,即有:
  具體介紹可參見(jiàn)wiki:
  深入插件
  5、項目未來(lái)
  DataLink項目借鑒了好多開(kāi)源產(chǎn)品的思想,這里要重點(diǎn)謝謝的產(chǎn)品有:Canal、Otter、DataX、Yugong、Databus、Kafka-Connect、Ersatz。
  站在巨人的右臂上,我們進(jìn)行了開(kāi)源,一方面回饋社區,一方面拋磚引玉。展望未來(lái),我們希望這個(gè)項目就能活躍上去,為社區作出更大的貢獻,內部的各類(lèi)新特點(diǎn)也會(huì )盡早同步到開(kāi)源版本,同時(shí)也希望有更多的人參與進(jìn)來(lái)。
  目前內部正在規劃中的功能有:雙機房(中心)同步、通用審計功能、各種同步工具和插件、實(shí)時(shí)數據庫房、整個(gè)更多已有開(kāi)源產(chǎn)品的功能特點(diǎn)和各類(lèi)大數據構架進(jìn)行深度融合等。
  直播回放 查看全部

  講師介紹
  盧彪
  神州優(yōu)車(chē)集團架構部技術(shù)專(zhuān)家
  百度百科:
  數據交換平臺,是指將分散建設的若干應用信息系統進(jìn)行整合,通過(guò)計算機網(wǎng)路建立的信息交換平臺,它讓若干個(gè)應用子系統進(jìn)行信息/數據的傳輸及共享,提高信息資源的利用率,成為進(jìn)行信息化建設的基本目標,保證分布異構系統之間互聯(lián)互通,建立中心數據庫,完成數據的抽取、集中、加載、展現,構造統一的數據處理和交換。
  筆者覺(jué)得,數據交換平臺是建立分布式系統的三駕馬車(chē)之一。這三駕馬車(chē)分別是基于RPC的服務(wù)調用、基于MQ的風(fēng)波驅動(dòng)以及基于Data Sync的數據共享。
  而驅動(dòng)數據交換平臺出現和發(fā)展的根本動(dòng)力是:用空間換時(shí)間。
  一、交換平臺淺談
  1、服務(wù)場(chǎng)景
  概括來(lái)講,數據交換平臺可以服務(wù)的場(chǎng)景可以分為三大類(lèi),分別是:基礎構架、容災備份和異構重塑。
  基礎構架
  場(chǎng)景舉例一:EDA
  通過(guò)數據交換平臺,把數據庫Log風(fēng)波(如MySQL的Binlog)發(fā)送到MQ,然后由不同的消費者進(jìn)行消費,驅動(dòng)不同的業(yè)務(wù)流程(如:刷新緩存、構造搜索引擎、下單以后發(fā)短信、支付以后通知發(fā)貨等),基于這樣的構架,免去了業(yè)務(wù)方自己定義領(lǐng)域風(fēng)波和發(fā)送風(fēng)波的工作,大大節約了工作量。
  更重要的是,基于數據庫自己的Log機制,數據一致性更有保證,其它例如容錯處理、HA等機制也只靠數據交換平臺去保證即可。
  當然,如果風(fēng)波定義比較復雜,普通的業(yè)務(wù)表對應的LogEvent未能抒發(fā)的話(huà),還須要自行設計領(lǐng)域風(fēng)波,此時(shí)我們可以定義一張通用的風(fēng)波表用于保存自定義風(fēng)波;而發(fā)送風(fēng)波的操作對應風(fēng)波表的插入操作而且隨業(yè)務(wù)操作放在一個(gè)事務(wù)中,待事務(wù)遞交后,交換平臺拉取風(fēng)波表的日志,然后提取風(fēng)波內容發(fā)送到MQ即可。
  
  通過(guò)消費數據庫的Log,可做的文章非常多,我們團隊內部正在研制一個(gè)風(fēng)波平臺,也是基于消費MySQL-Binlog來(lái)實(shí)現的,大體構架如下所示:
  
  事件平臺提供了風(fēng)波訂閱,事件配置(如:是實(shí)時(shí)觸發(fā)下一操作還是倒計時(shí)定時(shí)觸發(fā)下一操作,下一操作是插口反彈還是形成一個(gè)新的風(fēng)波等),事件編排和實(shí)時(shí)監控等基礎支撐,使用方只需提供配置規則和開(kāi)發(fā)反彈插口即可,免去了各研制團隊各自為政、重復建設的各類(lèi)問(wèn)題。
  另外,該平臺最大的一個(gè)特色就是引入了風(fēng)波驅動(dòng)的定時(shí)器機制,沒(méi)有這樣一個(gè)機制之前,涉及到時(shí)間要素相關(guān)的判定時(shí)(如:下單后多長(cháng)時(shí)間未結算訂單手動(dòng)轉為無(wú)效,租車(chē)時(shí)長(cháng)超過(guò)一定時(shí)間后,結算類(lèi)型手動(dòng)由短租產(chǎn)品轉為長(cháng)租產(chǎn)品等),業(yè)務(wù)研制團隊須要寫(xiě)大量的定時(shí)任務(wù)掃描數據庫來(lái)估算時(shí)間區間,不僅開(kāi)發(fā)成本巨大而且常常也存在較大的性能問(wèn)題。
  有了定時(shí)器機制,業(yè)務(wù)方只需配置時(shí)間規則即可,并且風(fēng)波平臺是分布式的,可以提供更高的性能支撐。
  場(chǎng)景舉例二:CQRS(Command Query Responsibility Segregation)
  這里套用DDD領(lǐng)域中的一個(gè)概念CQRS,具體介紹可參考鏈接:
  CQRS的思想本質(zhì)上就是為同一份數據構建兩套模型(或叫視圖):
  CQRS架構模式的一個(gè)開(kāi)源實(shí)現是Axon-Framework,基于A(yíng)xon可以建立自己的領(lǐng)域模型、領(lǐng)域風(fēng)波、事件庫房、查詢(xún)視圖等,其提供了聚合根定義、事件重放、事件消費、數據鏡像等基礎支撐,套用一下它的構架圖如下:
  
  理想是豐腴的現實(shí)卻是肉感的,DDD提出早已很多年了,卻因難于實(shí)踐,絕大部分公司還是逗留在靠數據庫表進(jìn)行建模的階段,但CQRS的思想是挺好的。
  那么我們拋掉DDD,基于表模型來(lái)理解CQRS:數據表模型也是領(lǐng)域模型,只不過(guò)不是面向對象的領(lǐng)域模型,數據庫的Log也是風(fēng)波,只不過(guò)抒發(fā)能力不象DDD中的領(lǐng)域風(fēng)波這么豐富。
  基于此,靠數據庫管理模型和風(fēng)波,加上一個(gè)數據交換平臺進(jìn)行風(fēng)波轉發(fā)和消費,便可以建立一個(gè)廣義上的CQRS構架,如下所示:
  
  場(chǎng)景舉例三:數據采集和回流
  很多公司正在建設或則早已建設了自己的大數據平臺,其中數據采集和回流是必不可少的一個(gè)環(huán)節,一般小一些的公司在數據采集這一層做的比較零散,各種開(kāi)源產(chǎn)品堆積在一起完成采集相關(guān)的工作,而大一些的公司會(huì )考慮平臺化,把數據采集放到整個(gè)數據交換平臺的規劃中,以便于提高效率和減少成本。
  下圖是我們團隊的數據交換平臺和大數據平臺的關(guān)系示意圖:
  
  容災備份
  場(chǎng)景舉例一:多機房
  多中心、多備份、異地雙活、異地多活等是好多大公司正在實(shí)踐或則早已實(shí)踐過(guò)的技術(shù)困局,這中間的核心便是一整套完整的數據同步方案。
  場(chǎng)景舉例二:數據鏡像
  通過(guò)數據交換平臺,可以創(chuàng )建各類(lèi)類(lèi)型的DB鏡像,滿(mǎn)足不同場(chǎng)景下的使用須要。
  場(chǎng)景舉例三:數據歸檔
  通過(guò)增量交換,在同步過(guò)程中忽視刪掉風(fēng)波,可以實(shí)現實(shí)時(shí)歸檔。
  異構構建
  場(chǎng)景舉例一:DB升級換代,遷庫、拆庫、合庫
  對DB進(jìn)行升級換代,日常的遷庫、拆庫和合庫等運維操作,就要涉及到數據遷移,如果有平臺,遷移工作都會(huì )顯得很簡(jiǎn)單。
  場(chǎng)景舉例二:資產(chǎn)復用
  越大的公司,包袱也越重,很多公司擁有各類(lèi)類(lèi)型的數據庫和儲存產(chǎn)品,為了復用那些資產(chǎn),就涉及到各類(lèi)場(chǎng)景下的數據同步,統一的數據交換平臺會(huì )使這種場(chǎng)景各異的同步顯得容易好多。
  2、建設思路
  一千個(gè)讀者就有一千個(gè)哈姆雷特,一千個(gè)架構師就有一千種構架思想,數據交換平臺的建設也沒(méi)有哪些手炮可言。不同團隊面對的場(chǎng)景各異,進(jìn)化下來(lái)的構架也就不盡相同。此處結合自己的經(jīng)驗和心得,談一談數據交換平臺建設過(guò)程的一些方法論和注意事項。
  架構選型
  數據同步流程是生產(chǎn)者-消費者模式的典型彰顯,生產(chǎn)者負責從不同的數據源拉取數據,消費者負責把數據講到不同的數據源,生產(chǎn)者和消費者之間可以是1對1的關(guān)系,也可以是1對多的關(guān)系。
  那么,數據交換平臺就是把生產(chǎn)者和消費者串聯(lián)上去的中樞,并且可以在串聯(lián)的過(guò)程中控制流程,概括來(lái)講就是進(jìn)行數據集成。
  數據集成是數據交換平臺最基本的工作,架構的選型和設計應當僅僅圍繞這個(gè)基本點(diǎn)展開(kāi),只有以便快速集成的構架能夠支撐不斷變化的數據同步需求。
  在進(jìn)行構架設計時(shí),需要考慮的點(diǎn),大致總結如下:
  很多公司都在基于消息中間件建立自己的數據交換平臺(有的稱(chēng)之為數據總線(xiàn)),生產(chǎn)者把數據發(fā)送到MQ,消費者從MQ上消費數據,并且數據可以自描述,此模式的一個(gè)典型開(kāi)源實(shí)現就是Kafka-Connect,其構架圖如下所示:
  
  優(yōu)點(diǎn):
  缺點(diǎn):
  不論怎樣,該構架模式是太優(yōu)秀的,能滿(mǎn)足百分之六七十的應用場(chǎng)景。但我們團隊并沒(méi)有直接套用該構架,而是針對其缺點(diǎn),并受Kafka-Connect思路的啟發(fā),實(shí)現了一套基于消息中間件和直連同步的混和構架,如下所示(即DataLink的構架):
  
  在Kafka-Connect的構架中,因為要以Kafka做數據中轉站,所以運行的Task要么是SourceTask、要么是SinkTask,而DataLink中的Task可以對Reader和Writer進(jìn)行任意組合(理論上)。
  基于這樣的特點(diǎn),要建立基于消息中間件的同步,組合Mq-Writer和Mq-Reader即可;要建立直連式的同步,繞過(guò)Mq直接組合源端Reader和目標Writer即可。根據不同場(chǎng)景選擇不同模式,更加靈活。
  消息中間件的方案也好,混合方案也好,針對的大部分場(chǎng)景都是實(shí)時(shí)增量同步(雖然也支持部份場(chǎng)景下的全量同步,但其實(shí)不是其主業(yè)),針對離線(xiàn)全量同步場(chǎng)景,目前你們用的最多的方案是阿里開(kāi)源的DataX,有興趣的可以研究一下。
  簡(jiǎn)單總結,沒(méi)有最好的構架只有最合適的構架,基于消息中間件建立數據交換平臺是目前比較流行的構架模式,但它也有自身的缺點(diǎn),組合各類(lèi)技術(shù),揚長(cháng)避短,針對自己的問(wèn)題和疼點(diǎn)找到適宜自己的方案才是最合理的方案。
  方式方式
  如果說(shuō)構架選型是制訂戰略,那方法技巧就是具體戰術(shù)。從同步行為上來(lái)?yè)Q分,可以分為實(shí)時(shí)增量同步和離線(xiàn)全量同步。
  前者的可行戰術(shù)主要有觸發(fā)器、日志解析和基于時(shí)間戳的數據抽?。ó斎?,不同DB都會(huì )有自己的一些特殊方案,如Oracle的物化視圖機制,SQL Server的CDC等),后者的可行戰術(shù)主要有文件Dump和API抽取。
  實(shí)時(shí)增量同步
  先說(shuō)實(shí)時(shí)增量同步?;谟|發(fā)器的形式獲取數據比較傳統,并且由于運維冗長(cháng)和性能較差等緣由,用的也越來(lái)越少。
  但在個(gè)別特定場(chǎng)景下還是有適用空間的,有一個(gè)開(kāi)源的產(chǎn)品代號為SymmetricDS,可以自動(dòng)化管理觸發(fā)器并提供統一的數據抓取和消費機制,如果想基于觸發(fā)器做數據同步的話(huà)可以參考該產(chǎn)品。
  基于日志解析的方法去做同步目前最受偏愛(ài),像MySQL、HBase等都提供了日志重放機制,并且合同開(kāi)源.
  該方法的主要優(yōu)點(diǎn)有:對業(yè)務(wù)表零侵入、異步解析日志沒(méi)有性能問(wèn)題、實(shí)時(shí)性比較高等。
  日志解析太美好,但并不是所有DB都提供了這樣的機制(如SQL Server),當觸發(fā)器和日志解析都搞不定時(shí),通過(guò)時(shí)間戳數組(如:modify_time)定時(shí)掃表,拿到變更數據并進(jìn)行同步,也是常用的一種手段.
  該方法有幾個(gè)顯著(zhù)的缺點(diǎn):實(shí)時(shí)性比較低、需要業(yè)務(wù)方保證時(shí)間戳數組不能出現漏更新,定時(shí)掃表查詢(xún)也可能會(huì )帶來(lái)一些性能問(wèn)題等。
  離線(xiàn)全量同步
  再說(shuō)離線(xiàn)全量同步。文件Dump的形式通常用在同構數據源之間的同步場(chǎng)景,并且須要靠DB自己的導出導入機制進(jìn)行支持,可以服務(wù)的場(chǎng)景比較單一。API抽取的方法更通用和靈活一些,同構異構都可以編碼進(jìn)行實(shí)現,做的好的話(huà),還可通過(guò)靈活的參數控制提供各類(lèi)中級功能特點(diǎn),如開(kāi)源產(chǎn)品DataX。
  
  難點(diǎn)問(wèn)題
  把數據從一個(gè)地方遷往另一個(gè)地方,怎樣保證在同步過(guò)程中數據不出問(wèn)題(不丟、不重、不亂)或者出現問(wèn)題后能快速恢復,要考慮的點(diǎn)十分多也十分雜,這里結合自己的經(jīng)驗聊聊主要的難點(diǎn)以及常用的解決方案。
  其一:種類(lèi)繁雜的API
  看上去其實(shí)也沒(méi)有哪些難的,不就是調用API進(jìn)行數據操作嗎?其實(shí)不然,市面上的儲存產(chǎn)品有上百種,常用的也有幾十種,其產(chǎn)品特點(diǎn)是千差萬(wàn)別的。
  為了建立一個(gè)高效可靠的平臺,對這種產(chǎn)品的API及其內部機制進(jìn)行透徹的研究是必須要做的 (如:是否支持事務(wù)?事務(wù)細度是表級別還是記錄級別?是支持隨機讀寫(xiě)還是只能支持Append?操作API時(shí)有沒(méi)有客戶(hù)端緩存?HA是如何實(shí)現的?性能困局點(diǎn)在哪些地方?調優(yōu)參數都有什么?自帶的Replication機制是如何實(shí)現的?等等),否則平臺也就僅僅逗留在能用的階段。
  拿我們自己的經(jīng)歷舉個(gè)反例:在建設大數據平臺時(shí),需要數據交換平臺把MySQL和HBase的數據實(shí)時(shí)同步到HDFS中,基于DataLink我們開(kāi)發(fā)了HDFS Writer插件,在實(shí)踐過(guò)程中沒(méi)少趟坑。
  解決這個(gè)難點(diǎn)問(wèn)題,沒(méi)有捷徑,只能靠降低自身硬實(shí)力來(lái)進(jìn)行突破。
  其二:同步關(guān)系整治
  對于服務(wù)框架來(lái)說(shuō),隨著(zhù)服務(wù)數目不斷降低,我們須要服務(wù)整治;對于數據交換平臺來(lái)說(shuō),隨著(zhù)同步關(guān)系的不斷降低,同樣須要對同步關(guān)系進(jìn)行整治。
  需要整治的點(diǎn)主要有:
  避免回環(huán)同步通常加入DAG檢查機制即可。
  保證Schema的一致性通常有兩個(gè)思路:一個(gè)是在同步過(guò)程中獲取到源端的ddl句子手動(dòng)同步到目標端,另一個(gè)是平臺提供同步關(guān)系檢查機制供外部系統使用,前者在異構數據源比較多的時(shí)侯實(shí)現上去困難比較大(腳本轉換、性能問(wèn)題、冪等判定等),并且不是所有的方案都能領(lǐng)到ddl句子,而后者更具有通用性和可行性。
  目前我們內部的方案是,SQL腳本上線(xiàn)時(shí),由數據交換平臺進(jìn)行SQL解析,然后返回同步關(guān)系樹(shù)給DBA團隊的DBMS系統,然后由DBMS系統根據同步關(guān)系的提示逐庫執行腳本即可。
  同步關(guān)系樹(shù)的一個(gè)示意圖如下所示:
  
  其三:數據質(zhì)量
  保證數據質(zhì)量是數據交換平臺的核心使命,同步過(guò)程中做到不丟、不重、不亂,通過(guò)數據巡檢能迅速發(fā)覺(jué)問(wèn)題;發(fā)現問(wèn)題后能快速修補。
  如果能把事前、事中、事后這三個(gè)階段都控制好,那平臺已然達到優(yōu)秀的級別了。
  事前階段靠建立的設計和測試,事中階段靠立體化的監控報案,事后階段靠功能豐富的修補工具,但每位階段實(shí)踐上去都不容易,原因在于場(chǎng)景的靈活性和復雜性,如:
  目前我們團隊也還在不斷探求的路上,沒(méi)有絕對完美的方案,針對自己的場(chǎng)景和對數據一致性要求的程度,找到最合適的方案才是正解。下面借用一張圖來(lái)展示數據質(zhì)量的設計要點(diǎn):
  
  其四:擴展性
  技術(shù)的發(fā)展是快速的,業(yè)務(wù)的演化也是千變萬(wàn)化的,為了應對這種變化,平臺肯定也要跟隨變,但如何用最小的變化帶來(lái)最大的利潤,是判定一個(gè)平臺、一個(gè)產(chǎn)品成熟與否的關(guān)鍵指標。
  筆者篤信一句諺語(yǔ):架構是進(jìn)化下來(lái)的,而不是設計下來(lái)的;但同時(shí)也篤信另一句諺語(yǔ):好的設計是成功的一半。二者并不矛盾,主要在于如何去折中。
  做平臺和做工具的一個(gè)重要區別在于,前者要重點(diǎn)考慮具象、建模和參數化,以提供靈活的擴展性。
  那么擴展性應當考慮到哪些程度呢?一句話(huà)來(lái)概括:我們在平臺的建設過(guò)程中應當不斷歸納、不斷糾錯、不斷具象、不斷迭代、不斷推演,把已知的事情做到模型化,把未知的事情做到可預見(jiàn),不做過(guò)度設計,但也要充分設計。
  開(kāi)源數據同步中間件中,擴展性做的比較好的:阿里的DataX不錯,KafKa-Connect不錯,基于觸發(fā)器的SymmetricDS也不錯,下文要介紹的我們近來(lái)開(kāi)源的DataLink也在這方面做了好多考慮。
  3、開(kāi)源產(chǎn)品
  在這里列舉一下數據同步相關(guān)的開(kāi)源產(chǎn)品,供參考學(xué)習:
  
  二、實(shí)戰項目介紹
  1、DataLink項目介紹
  名稱(chēng): DataLink['deit lik]
  譯意: 數據鏈路,數據(自動(dòng))傳輸器
  語(yǔ)言: 純Java開(kāi)發(fā)(JDK1.8+)
  定位: 滿(mǎn)足各類(lèi)異構數據源之間的實(shí)時(shí)增量同步,一個(gè)分布式、可擴充的數據同步系統
  開(kāi)源地址:
  此次開(kāi)源為消除內部依賴(lài)后的版本(開(kāi)源的是增量同步子系統),在集團內部DataLink和阿里的DataX還進(jìn)行了深度集成,增量(DataLink)+全量(DataX)共同組成統一的數據交換平臺(如果去做類(lèi)比的話(huà),DataLink可以看做增量版的DataX),平臺構架如下所示:
  
  2、項目背景
  隨著(zhù)神州優(yōu)車(chē)集團業(yè)務(wù)的高速發(fā)展,各種各樣的數據同步場(chǎng)景應運而生,原有的系統構架未能支撐復雜多變的業(yè)務(wù)需求。所以,從2016年底開(kāi)始,團隊內部開(kāi)始醞釀DataLink這個(gè)產(chǎn)品。
  著(zhù)眼于未來(lái),我們的目標是構建一個(gè)新平臺,滿(mǎn)足各類(lèi)異構數據源之間的實(shí)時(shí)增量同步,支撐公司業(yè)務(wù)的快速發(fā)展。在充分督查的基礎之上,我們發(fā)覺(jué),沒(méi)有任何一款開(kāi)源產(chǎn)品能輕易的滿(mǎn)足我們的目標,每個(gè)產(chǎn)品都有其顯著(zhù)的弱項和局限性,所以最終的選項只有“自行設計”。
  但自行設計并不是陡然設計,現有的數據交換平臺、已有的經(jīng)驗、大大小小的開(kāi)源產(chǎn)品都是我們的設計根基,與其說(shuō)是自行設計,倒不如說(shuō)是站在巨人的右臂上做了一次飛越。由此誕生了DataLink這樣一個(gè)產(chǎn)品,其產(chǎn)品特點(diǎn)主要如下:
  3、應用現況
  DataLink從2016年12月開(kāi)始立項,第一版于2017年5月份上線(xiàn),在神州優(yōu)車(chē)集團內部服役到如今,基本上滿(mǎn)足了公司所有業(yè)務(wù)線(xiàn)的同步需求,目前內部的同步規模大體如下:
  4、架構模型
  基礎構架
  
  DataLink是典型的Master-Slave構架,Manager(管理節點(diǎn))+Worker(工作節點(diǎn)),下面對基礎構架的重點(diǎn)模塊做概要介紹:
  Manager
  Manager是整個(gè)DataLink集群的腦部,有三個(gè)核心功能:
  Group
  Worker
  Task
  (Re-)Balance
  (Re-)Balance的定義:通過(guò)一定的負載均衡策略,使Task在Worker節點(diǎn)上均衡的分布。(Re-)Balance的單位是Group,一個(gè)分組發(fā)生(Re-)Balance不會(huì )影響其它分組的正常運行。
  發(fā)生(Re-)Balance的時(shí)機有:
  Plugin
  插件模型最大的意義在于前饋和復用,只須要提供一套基礎框架,開(kāi)發(fā)一系列同步插件,通過(guò)配置組合便可以支持“無(wú)限多”的同步場(chǎng)景。
  插件界定為兩種:Reader插件和Writer插件,插件之間通過(guò)Task串聯(lián)上去。Task運行時(shí),每個(gè)插件都有自己獨立的Classloader,保證插件之間的JAR包隔離。
  MySQL
  DataLink的運行須要依賴(lài)各類(lèi)配置信息,這些配置信息統一保存到MySQL中。DataLink在運行過(guò)程中會(huì )動(dòng)態(tài)形成監控和統計數據,這些數據也統一保存到MySQL中。
  存儲的配置信息主要有:同步任務(wù)信息、工作節點(diǎn)信息、分組信息、數據源配置信息、映射規則信息、監控信息、角色權限信息等。
  ZooKeeper
  Manager的高可用須要依賴(lài)于ZooKeeper,通過(guò)占領(lǐng)和竊聽(tīng)“/datalink/managers/active”節點(diǎn),實(shí)現秒級Switch。
  注:Worker的高可用并不依賴(lài)ZooKeeper,只要Manager才能保證高可用,Worker就是高可用的。
  Task會(huì )將運行時(shí)信息注冊到ZooKeeper,注冊信息主要有兩類(lèi):
  具體介紹可參見(jiàn)wiki:
  總體構架
  概念模型
  
  一句話(huà)概括概念模型:高度可擴充的、可對接任意存儲之間數據同步的松散模型。架構選型章節對該模型已有介紹,此處不再贅言。
  領(lǐng)域模型
  
  Contract
  契約即規范,是對不同領(lǐng)域內數據類(lèi)型的高層具象,其在Datalink中的主要表現形式為Record,如針對關(guān)系型數據庫有RdbEventRecord、針對Hbase有HRecord。
  在整個(gè)產(chǎn)品規劃中,契約處于最頂樓,無(wú)論采用何種基礎設施、何種業(yè)務(wù)模型、何種開(kāi)發(fā)語(yǔ)言,契約都是一套獨立的規范。契約是聯(lián)接Reader和Writer的紐帶,Reader和Writer互不感知,它們通過(guò)辨識共同的契約實(shí)現數據交換。
  Business Model
  Business Model是對數據交換業(yè)務(wù)場(chǎng)景的高層具象,將不同場(chǎng)景的共性需求進(jìn)行了歸納和總結,抽象出了一套統一的模型定義。
  當然,它不是萬(wàn)能的,不能收錄所有的需求點(diǎn),并且是隨著(zhù)場(chǎng)景的增多不斷演變的。但它是必須的,統一的模型具象可以支撐80%場(chǎng)景下的功能復用。
  主要模型定義如下:
  具體介紹可參見(jiàn)wiki:
  深入領(lǐng)域
  插件模型
  
  插件體系:一般由兩部份組成,Framework+Plugin。DataLink中的Framework主要指【TaskRuntime】,Plugin對應的是各類(lèi)類(lèi)型的【TaskReader&TaskWriter】。
  TaskRuntime:提供了Task的高層具象、Task的運行時(shí)環(huán)境和Task的插件規范。
  TaskReader&TaskWriter:一個(gè)個(gè)具體的數據同步插件,遵從Task插件規范,功能自治,和TaskRuntime完全前饋,理論上插件數目可無(wú)限擴展。
  Task:DataLink中數據同步的基本單位是Task,一個(gè)Worker進(jìn)程中可以運行一批Task,一個(gè)運行中的Task由一個(gè)TaskReader和起碼一個(gè)TaskWriter組成,即有:
  具體介紹可參見(jiàn)wiki:
  深入插件
  5、項目未來(lái)
  DataLink項目借鑒了好多開(kāi)源產(chǎn)品的思想,這里要重點(diǎn)謝謝的產(chǎn)品有:Canal、Otter、DataX、Yugong、Databus、Kafka-Connect、Ersatz。
  站在巨人的右臂上,我們進(jìn)行了開(kāi)源,一方面回饋社區,一方面拋磚引玉。展望未來(lái),我們希望這個(gè)項目就能活躍上去,為社區作出更大的貢獻,內部的各類(lèi)新特點(diǎn)也會(huì )盡早同步到開(kāi)源版本,同時(shí)也希望有更多的人參與進(jìn)來(lái)。
  目前內部正在規劃中的功能有:雙機房(中心)同步、通用審計功能、各種同步工具和插件、實(shí)時(shí)數據庫房、整個(gè)更多已有開(kāi)源產(chǎn)品的功能特點(diǎn)和各類(lèi)大數據構架進(jìn)行深度融合等。
  直播回放

國內常用的采集器優(yōu)缺點(diǎn)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 389 次瀏覽 ? 2020-08-11 20:02 ? 來(lái)自相關(guān)話(huà)題

  優(yōu)采云云采集引擎
  可能大部分人還不知道,這是我自主研制的,以前仍然用爬蟲(chóng)寫(xiě)程序,java、python等,后面認為很麻煩,就擺弄著(zhù)要做的簡(jiǎn)單一些,然后就無(wú)法收手了,最近仍然在進(jìn)行產(chǎn)品迭代。
  優(yōu)點(diǎn):功能聚合性強、速度快、saas構架、數據可預覽、數據規則市場(chǎng)、api等多種輸出方法、免費。自動(dòng)高效防屏蔽全球海量實(shí)時(shí)高匿IP手動(dòng)切換,高效分布式節點(diǎn)策略無(wú)須代碼輕松配置快速獲取數據,實(shí)時(shí)手動(dòng)更新數據精準完整獲取目標數據,無(wú)縫對接自有系統支持多種CMS系統手動(dòng)發(fā)布。
  真正的云采集引擎,任何網(wǎng)站都可以采集,任何人都可以使用,海量數據市場(chǎng)。
  缺點(diǎn):知名度還比較低
  ET工具
  優(yōu)點(diǎn):無(wú)人值守,自動(dòng)更新,適合常年做站,用戶(hù)群主要集中在常年做站潛水站長(cháng)。軟件清晰,必備功能也挺齊全,關(guān)鍵是軟件免費,聽(tīng)說(shuō)早已降低采集中英文翻譯功能。
  技術(shù):論壇支持,軟件本身免費,但是也提供收費服務(wù)。幫助文件較少,上手不容易
  缺點(diǎn):對峰會(huì )和CMS的支持通常
  三人行
  主要針對峰會(huì )的采集,功能比較健全
  優(yōu)點(diǎn):還是針對峰會(huì ),適合開(kāi)峰會(huì )的
  技術(shù):收費技術(shù),免費有廣告
  缺點(diǎn):超級復雜,上手難,對cms支持比較差
  優(yōu)采云
  優(yōu)采云應該是國外采集軟件最成功的典型之一,使用人數包括收費用戶(hù)數目上應當是最多的
  優(yōu)點(diǎn):功能比較齊全,采集速度比較快,主要針對cms,短時(shí)間可以采集很多,過(guò)濾,替換都不錯,比較詳盡;
  技術(shù):技術(shù)主要是峰會(huì )支持,幫助文件多,上手容易。有收費、免費版本
  缺點(diǎn):功能復雜,軟件越來(lái)越大,比較占用顯存和CPU資源,大批量采集速度不行,資源回收控制得不好,受CS構架限制
  海納
  優(yōu)點(diǎn):海量,可以抓取網(wǎng)站很多一個(gè)關(guān)鍵詞文章,似乎適合做網(wǎng)站的專(zhuān)題,特別是文章類(lèi)、博客類(lèi)
  技術(shù):無(wú)論壇 收費,免費有功能限制
  缺點(diǎn):分類(lèi)不便捷,也就說(shuō)采集文章歸類(lèi)不便捷,要自動(dòng)(自動(dòng)容易混淆),特定插口,采集的內容有限
  優(yōu)采云
  優(yōu)點(diǎn):非常適宜采集discuz峰會(huì ) 查看全部

  優(yōu)采云云采集引擎
  可能大部分人還不知道,這是我自主研制的,以前仍然用爬蟲(chóng)寫(xiě)程序,java、python等,后面認為很麻煩,就擺弄著(zhù)要做的簡(jiǎn)單一些,然后就無(wú)法收手了,最近仍然在進(jìn)行產(chǎn)品迭代。
  優(yōu)點(diǎn):功能聚合性強、速度快、saas構架、數據可預覽、數據規則市場(chǎng)、api等多種輸出方法、免費。自動(dòng)高效防屏蔽全球海量實(shí)時(shí)高匿IP手動(dòng)切換,高效分布式節點(diǎn)策略無(wú)須代碼輕松配置快速獲取數據,實(shí)時(shí)手動(dòng)更新數據精準完整獲取目標數據,無(wú)縫對接自有系統支持多種CMS系統手動(dòng)發(fā)布。
  真正的云采集引擎,任何網(wǎng)站都可以采集,任何人都可以使用,海量數據市場(chǎng)。
  缺點(diǎn):知名度還比較低
  ET工具
  優(yōu)點(diǎn):無(wú)人值守,自動(dòng)更新,適合常年做站,用戶(hù)群主要集中在常年做站潛水站長(cháng)。軟件清晰,必備功能也挺齊全,關(guān)鍵是軟件免費,聽(tīng)說(shuō)早已降低采集中英文翻譯功能。
  技術(shù):論壇支持,軟件本身免費,但是也提供收費服務(wù)。幫助文件較少,上手不容易
  缺點(diǎn):對峰會(huì )和CMS的支持通常
  三人行
  主要針對峰會(huì )的采集,功能比較健全
  優(yōu)點(diǎn):還是針對峰會(huì ),適合開(kāi)峰會(huì )的
  技術(shù):收費技術(shù),免費有廣告
  缺點(diǎn):超級復雜,上手難,對cms支持比較差
  優(yōu)采云
  優(yōu)采云應該是國外采集軟件最成功的典型之一,使用人數包括收費用戶(hù)數目上應當是最多的
  優(yōu)點(diǎn):功能比較齊全,采集速度比較快,主要針對cms,短時(shí)間可以采集很多,過(guò)濾,替換都不錯,比較詳盡;
  技術(shù):技術(shù)主要是峰會(huì )支持,幫助文件多,上手容易。有收費、免費版本
  缺點(diǎn):功能復雜,軟件越來(lái)越大,比較占用顯存和CPU資源,大批量采集速度不行,資源回收控制得不好,受CS構架限制
  海納
  優(yōu)點(diǎn):海量,可以抓取網(wǎng)站很多一個(gè)關(guān)鍵詞文章,似乎適合做網(wǎng)站的專(zhuān)題,特別是文章類(lèi)、博客類(lèi)
  技術(shù):無(wú)論壇 收費,免費有功能限制
  缺點(diǎn):分類(lèi)不便捷,也就說(shuō)采集文章歸類(lèi)不便捷,要自動(dòng)(自動(dòng)容易混淆),特定插口,采集的內容有限
  優(yōu)采云
  優(yōu)點(diǎn):非常適宜采集discuz峰會(huì )

建網(wǎng)站優(yōu)化須要注意的幾點(diǎn),你曉得嗎?

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 215 次瀏覽 ? 2020-08-11 16:45 ? 來(lái)自相關(guān)話(huà)題

  互聯(lián)網(wǎng)迅速發(fā)展,企業(yè)網(wǎng)站建設必不可少,網(wǎng)站建設就是企業(yè)互聯(lián)網(wǎng)對外宣傳的虛擬平臺,引導流量,實(shí)現網(wǎng)站優(yōu)化,提升企業(yè)品牌知名度。說(shuō)道網(wǎng)站建設,我不得不提及網(wǎng)站SEO優(yōu)化。但是,我們常常占網(wǎng)站優(yōu)化過(guò)程中,會(huì )不知不覺(jué)的墜入好多圈套,我們該怎么辨識并防止圈套呢?
  辛勤的小編來(lái)給你說(shuō)到說(shuō)到,我們在優(yōu)化網(wǎng)站的時(shí)侯一定要注意一下幾點(diǎn):
  1.不可很狂躁。
  欲速則不達,心急吃不了熱豆腐,seo必須要有一個(gè)好態(tài)度,尤其百度對新站收錄極慢,一個(gè)針對百度優(yōu)化的新站,必須做好打持久戰的打算。搜索引擎為什么會(huì )遭到歡迎,就是由于用戶(hù)能在里面找到須要的東西,搜索引擎對網(wǎng)站的要求也同樣這么,做seo也應當多站在用戶(hù)的角度考慮,seo就是用戶(hù)體驗,搜索引擎的算法是常常改進(jìn)的,作弊的網(wǎng)站,就算能一時(shí)得逞,但終有三天,會(huì )被k掉,因為搜索越來(lái)越成熟。所以,在做站的時(shí)侯,應該多了解seo的忌諱,避免觸底線(xiàn)。
  2、采集。
  搜索引擎是喜新厭舊的,如果一個(gè)網(wǎng)站的內容都是在網(wǎng)路上高度重復的,那么排行絕對不會(huì )好,采集的網(wǎng)站百度會(huì )收,但是收錄后會(huì )被漸漸的k掉,而且極少會(huì )給改過(guò)自新的機會(huì ),哪怕以后天天更新原創(chuàng )文章,也無(wú)濟于事。但是這并不意味著(zhù)不可以采集,我們可以針對采集來(lái)的文章做一些修改,比如替換內容、更改標題等。
  3、關(guān)鍵詞選擇錯誤。
  流量偏低的關(guān)鍵詞,優(yōu)化得再完美,也無(wú)濟于事,而關(guān)注度很高的關(guān)鍵詞,就算排在第二頁(yè),也會(huì )帶來(lái)很大的流量。
  4.網(wǎng)站代碼過(guò)長(cháng)而零亂。
  蛛蛛是從網(wǎng)頁(yè)代碼讀取網(wǎng)頁(yè)內容的,如果代碼過(guò)長(cháng),蜘蛛將很難曉得哪為重點(diǎn)甚至會(huì )截斷蜘蛛的爬行。
  5.關(guān)鍵詞拼湊。
  這個(gè)你們應當都曉得了吧,但是怎樣才算拼湊,就不好說(shuō)了,我覺(jué)得文章首段關(guān)鍵詞的出現次數最好不要超過(guò)兩次,否則都會(huì )有作弊嫌疑,尤其是新站,應該盡量避開(kāi)很過(guò)顯著(zhù)的優(yōu)化 就是由于剛收錄時(shí)優(yōu)化過(guò)度,被百度懲罰,至今還未恢復。
  6.網(wǎng)頁(yè)標題頻繁修改。
  一個(gè)不穩定的網(wǎng)站,百度是不會(huì )喜歡的,我的站就由于頻繁修改標題而被百度拔毛,所以,在建站之初,就應當把網(wǎng)站的各個(gè)細節都考慮好,一旦構建,便不再輕易修改。
  7.頁(yè)面全Flash或圖片。
  Flash和圖片尚且有吸引力,但不是相對用戶(hù)需求及搜索引擎而言的。搜索引擎蜘蛛是不能讀取Flash內容。
  8.眾多垃圾鏈接、鏈接懲罰域名。
  使用群發(fā)軟件群發(fā)垃圾鏈接,認為鏈接越多總是更好的,其實(shí)搜索引擎要的是鏈接的質(zhì)量。
  9.網(wǎng)站主題與內容不符。
  網(wǎng)站內容和主題相剝離,搜索自然不會(huì )喜歡,不過(guò)有一個(gè)常用方式,在內容頁(yè)的title里加上網(wǎng)站的名稱(chēng),這對網(wǎng)站主頁(yè)的排行有一定作用。
  10.和作弊網(wǎng)站在同一服務(wù)器上。
  在買(mǎi)空間之前,應該針對空間做一些考察,可以向客服索取空間的ip,查一下這個(gè)ip下都有些哪些網(wǎng)站,如果多數站點(diǎn)都沒(méi)有被收錄,那最好舍棄這個(gè)空間了。
  好了,今天我就說(shuō)這么多吧!希望諸位做SEO的同仁們,且行且珍惜,以免墮入圈套。 查看全部

  互聯(lián)網(wǎng)迅速發(fā)展,企業(yè)網(wǎng)站建設必不可少,網(wǎng)站建設就是企業(yè)互聯(lián)網(wǎng)對外宣傳的虛擬平臺,引導流量,實(shí)現網(wǎng)站優(yōu)化,提升企業(yè)品牌知名度。說(shuō)道網(wǎng)站建設,我不得不提及網(wǎng)站SEO優(yōu)化。但是,我們常常占網(wǎng)站優(yōu)化過(guò)程中,會(huì )不知不覺(jué)的墜入好多圈套,我們該怎么辨識并防止圈套呢?
  辛勤的小編來(lái)給你說(shuō)到說(shuō)到,我們在優(yōu)化網(wǎng)站的時(shí)侯一定要注意一下幾點(diǎn):
  1.不可很狂躁。
  欲速則不達,心急吃不了熱豆腐,seo必須要有一個(gè)好態(tài)度,尤其百度對新站收錄極慢,一個(gè)針對百度優(yōu)化的新站,必須做好打持久戰的打算。搜索引擎為什么會(huì )遭到歡迎,就是由于用戶(hù)能在里面找到須要的東西,搜索引擎對網(wǎng)站的要求也同樣這么,做seo也應當多站在用戶(hù)的角度考慮,seo就是用戶(hù)體驗,搜索引擎的算法是常常改進(jìn)的,作弊的網(wǎng)站,就算能一時(shí)得逞,但終有三天,會(huì )被k掉,因為搜索越來(lái)越成熟。所以,在做站的時(shí)侯,應該多了解seo的忌諱,避免觸底線(xiàn)。
  2、采集。
  搜索引擎是喜新厭舊的,如果一個(gè)網(wǎng)站的內容都是在網(wǎng)路上高度重復的,那么排行絕對不會(huì )好,采集的網(wǎng)站百度會(huì )收,但是收錄后會(huì )被漸漸的k掉,而且極少會(huì )給改過(guò)自新的機會(huì ),哪怕以后天天更新原創(chuàng )文章,也無(wú)濟于事。但是這并不意味著(zhù)不可以采集,我們可以針對采集來(lái)的文章做一些修改,比如替換內容、更改標題等。
  3、關(guān)鍵詞選擇錯誤。
  流量偏低的關(guān)鍵詞,優(yōu)化得再完美,也無(wú)濟于事,而關(guān)注度很高的關(guān)鍵詞,就算排在第二頁(yè),也會(huì )帶來(lái)很大的流量。
  4.網(wǎng)站代碼過(guò)長(cháng)而零亂。
  蛛蛛是從網(wǎng)頁(yè)代碼讀取網(wǎng)頁(yè)內容的,如果代碼過(guò)長(cháng),蜘蛛將很難曉得哪為重點(diǎn)甚至會(huì )截斷蜘蛛的爬行。
  5.關(guān)鍵詞拼湊。
  這個(gè)你們應當都曉得了吧,但是怎樣才算拼湊,就不好說(shuō)了,我覺(jué)得文章首段關(guān)鍵詞的出現次數最好不要超過(guò)兩次,否則都會(huì )有作弊嫌疑,尤其是新站,應該盡量避開(kāi)很過(guò)顯著(zhù)的優(yōu)化 就是由于剛收錄時(shí)優(yōu)化過(guò)度,被百度懲罰,至今還未恢復。
  6.網(wǎng)頁(yè)標題頻繁修改。
  一個(gè)不穩定的網(wǎng)站,百度是不會(huì )喜歡的,我的站就由于頻繁修改標題而被百度拔毛,所以,在建站之初,就應當把網(wǎng)站的各個(gè)細節都考慮好,一旦構建,便不再輕易修改。
  7.頁(yè)面全Flash或圖片。
  Flash和圖片尚且有吸引力,但不是相對用戶(hù)需求及搜索引擎而言的。搜索引擎蜘蛛是不能讀取Flash內容。
  8.眾多垃圾鏈接、鏈接懲罰域名。
  使用群發(fā)軟件群發(fā)垃圾鏈接,認為鏈接越多總是更好的,其實(shí)搜索引擎要的是鏈接的質(zhì)量。
  9.網(wǎng)站主題與內容不符。
  網(wǎng)站內容和主題相剝離,搜索自然不會(huì )喜歡,不過(guò)有一個(gè)常用方式,在內容頁(yè)的title里加上網(wǎng)站的名稱(chēng),這對網(wǎng)站主頁(yè)的排行有一定作用。
  10.和作弊網(wǎng)站在同一服務(wù)器上。
  在買(mǎi)空間之前,應該針對空間做一些考察,可以向客服索取空間的ip,查一下這個(gè)ip下都有些哪些網(wǎng)站,如果多數站點(diǎn)都沒(méi)有被收錄,那最好舍棄這個(gè)空間了。
  好了,今天我就說(shuō)這么多吧!希望諸位做SEO的同仁們,且行且珍惜,以免墮入圈套。

天機鏡—優(yōu)土大數據平臺應用級別監控利器

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 185 次瀏覽 ? 2020-08-11 05:34 ? 來(lái)自相關(guān)話(huà)題

  轉自:
  動(dòng)機
  在業(yè)務(wù)系統開(kāi)發(fā)的早期,我們常常只關(guān)注到核心邏輯,而忽視了對系統本身的監控。運維朋友提供的ZENOSS(ganglia)能挺好的滿(mǎn)足了我們對硬件資源(IO、cpu負載、內存、load、連接數等)的監控。但介于核心功能與硬件指標之間的系統指標監控是空白的,如服務(wù)本身的負載,jvm狀態(tài),qps,tps,隊列大小,等等。這些數據雖不屬業(yè)務(wù)功能,但是對后續服務(wù)擴容,定位問(wèn)題才能提供良好的根據。
  天機鏡的設計本意就是為解決這部份需求,提供一個(gè)輕量級的數據采集接口,采集業(yè)務(wù)系統的各類(lèi)指標,并將這種指標以圖表的方式直觀(guān)清晰的呈現下來(lái)。也支持對關(guān)鍵指標的實(shí)時(shí)監控和報案,同時(shí)還為用戶(hù)提供簡(jiǎn)單的營(yíng)運報表服務(wù)。
  天機鏡上線(xiàn)一年多,歷經(jīng)數次版本迭代,當前已為集團上百個(gè)大數據應用場(chǎng)景提供了分鐘級指標監控服務(wù),每天搜集5億條指標數據,分鐘級監控數據可持久儲存達30天。
  場(chǎng)景示例
  kafka全集群負載流量(byte)對比圖
  
  每個(gè)ip表示一個(gè)kafka節點(diǎn),可以直觀(guān)看出流量是否均衡,是否穩定。
  Storm應用內存泄漏
  
  曲線(xiàn)名稱(chēng)為ip::pid,可以看出106的進(jìn)程穩定,而107的進(jìn)程顯存到一定值后OOM,然后重啟,進(jìn)程號改變。
  Web服務(wù)頁(yè)面的響應歷時(shí)分布
  
  p999=0.196...的意義在于在近來(lái)的1024個(gè)樣本中,存在了1~2(0.01%)個(gè)190毫秒以上的懇求??梢钥闯?,99.9%的懇求延后基本都在微秒級別,但時(shí)常會(huì )出現若干190毫秒以上的懇求。你還可以依照p99,p98,p75,p50等指標進(jìn)行對比。
  度量
  天機鏡參考Metrics設計了四類(lèi)統計測度:
  絕對值:隊列大小,緩存使用量,在線(xiàn)用戶(hù)(通常是一些頓時(shí)值)
  計數:GC次數、出錯次數、累計時(shí)間,總銷(xiāo)售額等(通常是一些求和值)
  速率:tps,qps,每秒上線(xiàn)都用戶(hù)數等(通常是一些比值)
  分布:可以是時(shí)間分布,數值分布,如:某懇求調用歷時(shí)須要 99.99%在100毫秒以下,通過(guò)這個(gè)指標定義響應性能。
  監控采集的每一個(gè)指標必然屬于前面的某一類(lèi)測度,或是一個(gè)值或是一個(gè)分布。此外我們還提下來(lái)一個(gè)場(chǎng)景的概念,不同的業(yè)務(wù)人員對同一個(gè)系統的監控指標關(guān)注點(diǎn)會(huì )不一樣,通過(guò)場(chǎng)景的概念,對指標進(jìn)行分組,方便業(yè)務(wù)人員查看剖析。
  數據模型與查詢(xún)插口
  數據模型的設計應權衡功能與存取效率,而查詢(xún)插口須要結合模型直觀(guān)多元的呈現數據。我們在設計監控數據結構時(shí)參考了現實(shí)世界的破案手段—現場(chǎng)復原。因為最初的設計動(dòng)機就是為了快速定位系統出現的問(wèn)題,尋找案發(fā)現場(chǎng)的蛛絲馬跡(人物,時(shí)間,地點(diǎn),事件)。對應到程序問(wèn)題排查就是:(應用,時(shí)間戳,進(jìn)程惟一標識符,指標名稱(chēng) ,指標值)。
  我們可以回過(guò)頭去看里面OOM的事例,在視覺(jué)影像完全靠腦補的日子里,只能從黑白控制臺北借助丑惡的命令行去查看系統日志。天機鏡出現之后,在界面上簡(jiǎn)單的點(diǎn)擊幾下,它就可以幫你把現場(chǎng)信息回放下來(lái)。
  存儲表:
  
  查詢(xún)插口十分簡(jiǎn)單,我們須要設定一個(gè)條件:時(shí)間區間,哪些指標,哪些進(jìn)程(ip or ip+pid)。另外我們提供了多種展示方法,可以將不同來(lái)源的相同指標置于一起比較(例如:負載均衡比較),也可以將同一來(lái)源的不同指標置于一起比較 (消息系統流入流出的流量比較,命中與未命中數目的比較)。
  采集客戶(hù)端設計
  采集客戶(hù)端的設計決定了監控平臺的易用性,使用者常常是業(yè)務(wù)開(kāi)發(fā)人員。對于她們來(lái)說(shuō),要用最小的成本換來(lái)最大的利潤。所以在設計客戶(hù)端時(shí)我們從不同的角度考慮了其易用性:
  1. 輕量化的客戶(hù)端:對于完成api層面的監控,我們首先要將采集客戶(hù)端植入寄主應用之中。這里我們選擇在client端做輕量化的統計估算,并且開(kāi)啟一個(gè)沉靜線(xiàn)程每一分鐘把當前的估算結果發(fā)送到前端儲存,監控模塊永遠都不會(huì )影響到寄主程序的運行,即使在網(wǎng)路不通暢的情況下,宿主客戶(hù)端也感知不到異常的存在。同步監控統計結果很頻繁除了會(huì )導致前端儲存壓力過(guò)大,也會(huì )影響用戶(hù)應用的性能。更重要的一個(gè)前提是,對于實(shí)時(shí)性需求,1分鐘足以。
  2. 超簡(jiǎn)單的API:用戶(hù)最希望的是寫(xiě)一行代碼就完成了監控工作,而現實(shí)中我們也的確是如此做的。之所以能做到這一點(diǎn),也正是由于我們梳理出80%的通用需求來(lái)設計API,而另外20%個(gè)性需求才須要調用較為復雜的API才可滿(mǎn)足。另外,有些通用監控是無(wú)需設置的,比如JVM相關(guān)的各類(lèi)監控。
  對于監控數據的搜集,我們的設計目標是:歸檔時(shí)間長(cháng),允許遺失,近實(shí)時(shí),統計量豐富??赡苡靡粋€(gè)詞匯描述監控數據比較合適:“可視化應用日志”。
  服務(wù)端設計
  對于簡(jiǎn)單表結構儲存大量數據的場(chǎng)景,Hbase是我們的極佳選擇。為了滿(mǎn)足天機鏡的查詢(xún)需求,我們在Hbase集群上安裝了Phoenix插件。Phoenix支持了類(lèi)SQL語(yǔ)言,很容易與后端界面集成在一起。
  對于接收服務(wù)器,我們簡(jiǎn)單的使用nginx+webserver的形式。針對更大的并發(fā)量,可以在接收服務(wù)器做一些batch以及throttle。接收服務(wù)器組件挺好的前饋了采集層與儲存層。得益于前饋的設計,天機鏡不僅支持Hbase儲存之外,還支持了mysql儲存。另外對于不同的數據源,接收服務(wù)器還可以支持采集jmx監控數據。
  
  豈止于監控,數據總是有用的。我們對數據平臺的基礎服務(wù)層做了一定的封裝,內置了好多通用指標的監控,這樣可以對所有平臺的使用者的應用作出大致的資源占用情況監控,比如消息系統的流量貢獻、消費與生產(chǎn)消息量的核實(shí)、請求量統計、緩存命中率、數據掃描量等等。天機鏡開(kāi)放了數據訪(fǎng)問(wèn)插口,用戶(hù)可以定做報表,平臺管理員可以生成消費資源報表。另外,利用其逾實(shí)時(shí)(一分鐘內)的特點(diǎn)做郵件和短信的報案等等。
  結論與建議
  總體而言,天機鏡的工作是把應用的運行日志圖形化詮釋?zhuān)⑶铱梢园凑杖魏螘r(shí)間以多元形式對比呈現,大大通分了排查問(wèn)題的難度,同時(shí)通過(guò)報表也能使我們更直觀(guān)的了解程序,預警功能防止一些問(wèn)題的發(fā)生。天機鏡像是一種描畫(huà)數據平臺生態(tài)鏈各環(huán)節狀態(tài)的數據引擎,當然,這須要悉心設計出一個(gè)更好的交互式UI或則報表。
  客戶(hù)端
  需求的梳理,最簡(jiǎn)單的api滿(mǎn)足最大眾的需求,如果想兼具,那么必然會(huì )使api愈加復雜難用;
  不需要刻意追求數據的高實(shí)時(shí)性,增大80%的成本卻提升了1%的利潤這是得不償失的;
  靜默,不要由于監控影響了自己的應用運行;
  服務(wù)端
  做好前饋,這樣無(wú)論你是擴容升級,還是功能升級,都便于操作;
  中間件的數據處理策略會(huì )使你的基礎服務(wù)愈發(fā)穩定、高效、靈活。
  存儲端
  Phoenix on hbase可以使你借助sql取代繁雜的scan查詢(xún),理解Hbase的儲存原理,有助于你設計愈發(fā)高效的Phoenix庫表,原則是把查詢(xún)條件的高頻數組置于后面。對于更大量級數據的儲存,可以采用按量分表,刪除操作與追加操作分離,這樣可以避免IO風(fēng)暴。
  天機鏡—優(yōu)土大數據平臺應用級別監控利器 查看全部

  轉自:
  動(dòng)機
  在業(yè)務(wù)系統開(kāi)發(fā)的早期,我們常常只關(guān)注到核心邏輯,而忽視了對系統本身的監控。運維朋友提供的ZENOSS(ganglia)能挺好的滿(mǎn)足了我們對硬件資源(IO、cpu負載、內存、load、連接數等)的監控。但介于核心功能與硬件指標之間的系統指標監控是空白的,如服務(wù)本身的負載,jvm狀態(tài),qps,tps,隊列大小,等等。這些數據雖不屬業(yè)務(wù)功能,但是對后續服務(wù)擴容,定位問(wèn)題才能提供良好的根據。
  天機鏡的設計本意就是為解決這部份需求,提供一個(gè)輕量級的數據采集接口,采集業(yè)務(wù)系統的各類(lèi)指標,并將這種指標以圖表的方式直觀(guān)清晰的呈現下來(lái)。也支持對關(guān)鍵指標的實(shí)時(shí)監控和報案,同時(shí)還為用戶(hù)提供簡(jiǎn)單的營(yíng)運報表服務(wù)。
  天機鏡上線(xiàn)一年多,歷經(jīng)數次版本迭代,當前已為集團上百個(gè)大數據應用場(chǎng)景提供了分鐘級指標監控服務(wù),每天搜集5億條指標數據,分鐘級監控數據可持久儲存達30天。
  場(chǎng)景示例
  kafka全集群負載流量(byte)對比圖
  http://mmbiz.qpic.cn/mmbiz/kj0 ... ApWA/0" />
  每個(gè)ip表示一個(gè)kafka節點(diǎn),可以直觀(guān)看出流量是否均衡,是否穩定。
  Storm應用內存泄漏
  http://mmbiz.qpic.cn/mmbiz/kj0 ... 2QQw/0" />
  曲線(xiàn)名稱(chēng)為ip::pid,可以看出106的進(jìn)程穩定,而107的進(jìn)程顯存到一定值后OOM,然后重啟,進(jìn)程號改變。
  Web服務(wù)頁(yè)面的響應歷時(shí)分布
  http://mmbiz.qpic.cn/mmbiz/kj0 ... 0yNA/0" />
  p999=0.196...的意義在于在近來(lái)的1024個(gè)樣本中,存在了1~2(0.01%)個(gè)190毫秒以上的懇求??梢钥闯?,99.9%的懇求延后基本都在微秒級別,但時(shí)常會(huì )出現若干190毫秒以上的懇求。你還可以依照p99,p98,p75,p50等指標進(jìn)行對比。
  度量
  天機鏡參考Metrics設計了四類(lèi)統計測度:
  絕對值:隊列大小,緩存使用量,在線(xiàn)用戶(hù)(通常是一些頓時(shí)值)
  計數:GC次數、出錯次數、累計時(shí)間,總銷(xiāo)售額等(通常是一些求和值)
  速率:tps,qps,每秒上線(xiàn)都用戶(hù)數等(通常是一些比值)
  分布:可以是時(shí)間分布,數值分布,如:某懇求調用歷時(shí)須要 99.99%在100毫秒以下,通過(guò)這個(gè)指標定義響應性能。
  監控采集的每一個(gè)指標必然屬于前面的某一類(lèi)測度,或是一個(gè)值或是一個(gè)分布。此外我們還提下來(lái)一個(gè)場(chǎng)景的概念,不同的業(yè)務(wù)人員對同一個(gè)系統的監控指標關(guān)注點(diǎn)會(huì )不一樣,通過(guò)場(chǎng)景的概念,對指標進(jìn)行分組,方便業(yè)務(wù)人員查看剖析。
  數據模型與查詢(xún)插口
  數據模型的設計應權衡功能與存取效率,而查詢(xún)插口須要結合模型直觀(guān)多元的呈現數據。我們在設計監控數據結構時(shí)參考了現實(shí)世界的破案手段—現場(chǎng)復原。因為最初的設計動(dòng)機就是為了快速定位系統出現的問(wèn)題,尋找案發(fā)現場(chǎng)的蛛絲馬跡(人物,時(shí)間,地點(diǎn),事件)。對應到程序問(wèn)題排查就是:(應用,時(shí)間戳,進(jìn)程惟一標識符,指標名稱(chēng) ,指標值)。
  我們可以回過(guò)頭去看里面OOM的事例,在視覺(jué)影像完全靠腦補的日子里,只能從黑白控制臺北借助丑惡的命令行去查看系統日志。天機鏡出現之后,在界面上簡(jiǎn)單的點(diǎn)擊幾下,它就可以幫你把現場(chǎng)信息回放下來(lái)。
  存儲表:
  http://mmbiz.qpic.cn/mmbiz/kj0 ... bb2g/0" />
  查詢(xún)插口十分簡(jiǎn)單,我們須要設定一個(gè)條件:時(shí)間區間,哪些指標,哪些進(jìn)程(ip or ip+pid)。另外我們提供了多種展示方法,可以將不同來(lái)源的相同指標置于一起比較(例如:負載均衡比較),也可以將同一來(lái)源的不同指標置于一起比較 (消息系統流入流出的流量比較,命中與未命中數目的比較)。
  采集客戶(hù)端設計
  采集客戶(hù)端的設計決定了監控平臺的易用性,使用者常常是業(yè)務(wù)開(kāi)發(fā)人員。對于她們來(lái)說(shuō),要用最小的成本換來(lái)最大的利潤。所以在設計客戶(hù)端時(shí)我們從不同的角度考慮了其易用性:
  1. 輕量化的客戶(hù)端:對于完成api層面的監控,我們首先要將采集客戶(hù)端植入寄主應用之中。這里我們選擇在client端做輕量化的統計估算,并且開(kāi)啟一個(gè)沉靜線(xiàn)程每一分鐘把當前的估算結果發(fā)送到前端儲存,監控模塊永遠都不會(huì )影響到寄主程序的運行,即使在網(wǎng)路不通暢的情況下,宿主客戶(hù)端也感知不到異常的存在。同步監控統計結果很頻繁除了會(huì )導致前端儲存壓力過(guò)大,也會(huì )影響用戶(hù)應用的性能。更重要的一個(gè)前提是,對于實(shí)時(shí)性需求,1分鐘足以。
  2. 超簡(jiǎn)單的API:用戶(hù)最希望的是寫(xiě)一行代碼就完成了監控工作,而現實(shí)中我們也的確是如此做的。之所以能做到這一點(diǎn),也正是由于我們梳理出80%的通用需求來(lái)設計API,而另外20%個(gè)性需求才須要調用較為復雜的API才可滿(mǎn)足。另外,有些通用監控是無(wú)需設置的,比如JVM相關(guān)的各類(lèi)監控。
  對于監控數據的搜集,我們的設計目標是:歸檔時(shí)間長(cháng),允許遺失,近實(shí)時(shí),統計量豐富??赡苡靡粋€(gè)詞匯描述監控數據比較合適:“可視化應用日志”。
  服務(wù)端設計
  對于簡(jiǎn)單表結構儲存大量數據的場(chǎng)景,Hbase是我們的極佳選擇。為了滿(mǎn)足天機鏡的查詢(xún)需求,我們在Hbase集群上安裝了Phoenix插件。Phoenix支持了類(lèi)SQL語(yǔ)言,很容易與后端界面集成在一起。
  對于接收服務(wù)器,我們簡(jiǎn)單的使用nginx+webserver的形式。針對更大的并發(fā)量,可以在接收服務(wù)器做一些batch以及throttle。接收服務(wù)器組件挺好的前饋了采集層與儲存層。得益于前饋的設計,天機鏡不僅支持Hbase儲存之外,還支持了mysql儲存。另外對于不同的數據源,接收服務(wù)器還可以支持采集jmx監控數據。
  http://mmbiz.qpic.cn/mmbiz/kj0 ... aPvA/0" />
  豈止于監控,數據總是有用的。我們對數據平臺的基礎服務(wù)層做了一定的封裝,內置了好多通用指標的監控,這樣可以對所有平臺的使用者的應用作出大致的資源占用情況監控,比如消息系統的流量貢獻、消費與生產(chǎn)消息量的核實(shí)、請求量統計、緩存命中率、數據掃描量等等。天機鏡開(kāi)放了數據訪(fǎng)問(wèn)插口,用戶(hù)可以定做報表,平臺管理員可以生成消費資源報表。另外,利用其逾實(shí)時(shí)(一分鐘內)的特點(diǎn)做郵件和短信的報案等等。
  結論與建議
  總體而言,天機鏡的工作是把應用的運行日志圖形化詮釋?zhuān)⑶铱梢园凑杖魏螘r(shí)間以多元形式對比呈現,大大通分了排查問(wèn)題的難度,同時(shí)通過(guò)報表也能使我們更直觀(guān)的了解程序,預警功能防止一些問(wèn)題的發(fā)生。天機鏡像是一種描畫(huà)數據平臺生態(tài)鏈各環(huán)節狀態(tài)的數據引擎,當然,這須要悉心設計出一個(gè)更好的交互式UI或則報表。
  客戶(hù)端
  需求的梳理,最簡(jiǎn)單的api滿(mǎn)足最大眾的需求,如果想兼具,那么必然會(huì )使api愈加復雜難用;
  不需要刻意追求數據的高實(shí)時(shí)性,增大80%的成本卻提升了1%的利潤這是得不償失的;
  靜默,不要由于監控影響了自己的應用運行;
  服務(wù)端
  做好前饋,這樣無(wú)論你是擴容升級,還是功能升級,都便于操作;
  中間件的數據處理策略會(huì )使你的基礎服務(wù)愈發(fā)穩定、高效、靈活。
  存儲端
  Phoenix on hbase可以使你借助sql取代繁雜的scan查詢(xún),理解Hbase的儲存原理,有助于你設計愈發(fā)高效的Phoenix庫表,原則是把查詢(xún)條件的高頻數組置于后面。對于更大量級數據的儲存,可以采用按量分表,刪除操作與追加操作分離,這樣可以避免IO風(fēng)暴。
  天機鏡—優(yōu)土大數據平臺應用級別監控利器

智能防封

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 182 次瀏覽 ? 2020-08-11 02:24 ? 來(lái)自相關(guān)話(huà)題

  一、功能簡(jiǎn)介
  隨著(zhù)網(wǎng)路采集越來(lái)越流行,很多網(wǎng)站也針對性地進(jìn)行了大規模的反采集措施,其中封禁特定IP為主要手段。
  針對這些情況,優(yōu)采云推出獨家的「智能防封」技術(shù)組合包,您可以按照實(shí)際網(wǎng)站封鎖情況,通過(guò)靈活設置UA、Cookie、優(yōu)質(zhì)代理IP的切換頻度,來(lái)達到穩定采集的療效。
  二、購買(mǎi)后是否可永久穩定采集天貓/大眾點(diǎn)評等網(wǎng)站?
  購買(mǎi)優(yōu)質(zhì)代理IP后,我們沒(méi)法保證「智能防封」技術(shù)組合包,能100%穩定破解淘寶、大眾點(diǎn)評等網(wǎng)站的防采集手段,您訂購代理IP后,還須要不斷調試+測試規則,方可穩定使用。
  實(shí)際使用過(guò)程中,天貓、大眾點(diǎn)評等網(wǎng)站可能會(huì )隨時(shí)升級防采集手段,屆時(shí)可能現有的手段將會(huì )臨時(shí)失效,我們承諾會(huì )同步進(jìn)行研究,但研究須要時(shí)間,所以我們不承諾一定能在某個(gè)時(shí)間點(diǎn)前可以完成研究。
  如您期望此功能可以100%穩定、永久采集天貓、大眾點(diǎn)評等高強度反采集網(wǎng)站,請勿訂購本功能。
  三、功能使用限制
  目前本地采集、云采集均可使用該功能
  此功能為付費用戶(hù)專(zhuān)屬功能
  專(zhuān)業(yè)版用戶(hù)可設置每5-10分鐘切換一次代理IP
  旗艦版及私有云用戶(hù)可設置每30秒-10分鐘切換一次代理IP
  四、功能使用說(shuō)明
  找到目標任務(wù),進(jìn)入目標任務(wù)的編輯頁(yè)面,然后點(diǎn)擊
  
  按鈕,進(jìn)入設置頁(yè)面。
  
  接下來(lái),就可以根據需求進(jìn)行配置。
  1、勾選「使用代理IP」,接下來(lái)再勾選「優(yōu)質(zhì)代理IP」,即可配置切換周期。
  比如設置切換周期為5分鐘,則優(yōu)采云將會(huì )每采集5分鐘,就會(huì )切換一個(gè)代理IP,再繼續采集。
  
  相關(guān)說(shuō)明:
  切換周期越短,采集效果越好,代理IP消耗速率越快
  代理IP存在一定的廢棄率,在啟用優(yōu)質(zhì)代理IP采集數據過(guò)程中,我們就會(huì )實(shí)時(shí)檢測每位代理IP的可用性
  當發(fā)覺(jué)某個(gè)代理IP沒(méi)到設置的切換周期時(shí)(比如設置10分鐘切換一次,但該IP到第9分鐘就無(wú)效了),優(yōu)采云將會(huì )手動(dòng)為您切換代理IP,確保采集過(guò)程不會(huì )中斷
  2、勾選「定時(shí)切換瀏覽器版本」后,再點(diǎn)擊右邊的「設置」,就可以配置須要切換的瀏覽器版本(UA)列表。
  請注意,有些網(wǎng)站并不能在所有UA下都完美顯示,需要進(jìn)行調試和觀(guān)察。
  切換周期可單獨設置,也可以跟著(zhù)代理IP切換頻度,當優(yōu)采云切換代理IP時(shí),也切換UA。
  
  3、勾選「定時(shí)切換瀏覽器版本」,就可以配置Cookie的清理頻度;
  清除頻度可單獨設置,也可以跟著(zhù)代理IP切換頻度,當優(yōu)采云切換代理IP時(shí),也消除cookie。
  
  五、優(yōu)質(zhì)代理IP怎么收費?點(diǎn)擊立刻訂購
  
  六、已訂購的優(yōu)質(zhì)代理IP有效期?
  永久有效,但僅當您的帳戶(hù)為付費帳戶(hù)時(shí)方可使用。 查看全部

  一、功能簡(jiǎn)介
  隨著(zhù)網(wǎng)路采集越來(lái)越流行,很多網(wǎng)站也針對性地進(jìn)行了大規模的反采集措施,其中封禁特定IP為主要手段。
  針對這些情況,優(yōu)采云推出獨家的「智能防封」技術(shù)組合包,您可以按照實(shí)際網(wǎng)站封鎖情況,通過(guò)靈活設置UA、Cookie、優(yōu)質(zhì)代理IP的切換頻度,來(lái)達到穩定采集的療效。
  二、購買(mǎi)后是否可永久穩定采集天貓/大眾點(diǎn)評等網(wǎng)站?
  購買(mǎi)優(yōu)質(zhì)代理IP后,我們沒(méi)法保證「智能防封」技術(shù)組合包,能100%穩定破解淘寶、大眾點(diǎn)評等網(wǎng)站的防采集手段,您訂購代理IP后,還須要不斷調試+測試規則,方可穩定使用。
  實(shí)際使用過(guò)程中,天貓、大眾點(diǎn)評等網(wǎng)站可能會(huì )隨時(shí)升級防采集手段,屆時(shí)可能現有的手段將會(huì )臨時(shí)失效,我們承諾會(huì )同步進(jìn)行研究,但研究須要時(shí)間,所以我們不承諾一定能在某個(gè)時(shí)間點(diǎn)前可以完成研究。
  如您期望此功能可以100%穩定、永久采集天貓、大眾點(diǎn)評等高強度反采集網(wǎng)站,請勿訂購本功能。
  三、功能使用限制
  目前本地采集、云采集均可使用該功能
  此功能為付費用戶(hù)專(zhuān)屬功能
  專(zhuān)業(yè)版用戶(hù)可設置每5-10分鐘切換一次代理IP
  旗艦版及私有云用戶(hù)可設置每30秒-10分鐘切換一次代理IP
  四、功能使用說(shuō)明
  找到目標任務(wù),進(jìn)入目標任務(wù)的編輯頁(yè)面,然后點(diǎn)擊
  
  按鈕,進(jìn)入設置頁(yè)面。
  
  接下來(lái),就可以根據需求進(jìn)行配置。
  1、勾選「使用代理IP」,接下來(lái)再勾選「優(yōu)質(zhì)代理IP」,即可配置切換周期。
  比如設置切換周期為5分鐘,則優(yōu)采云將會(huì )每采集5分鐘,就會(huì )切換一個(gè)代理IP,再繼續采集。
  
  相關(guān)說(shuō)明:
  切換周期越短,采集效果越好,代理IP消耗速率越快
  代理IP存在一定的廢棄率,在啟用優(yōu)質(zhì)代理IP采集數據過(guò)程中,我們就會(huì )實(shí)時(shí)檢測每位代理IP的可用性
  當發(fā)覺(jué)某個(gè)代理IP沒(méi)到設置的切換周期時(shí)(比如設置10分鐘切換一次,但該IP到第9分鐘就無(wú)效了),優(yōu)采云將會(huì )手動(dòng)為您切換代理IP,確保采集過(guò)程不會(huì )中斷
  2、勾選「定時(shí)切換瀏覽器版本」后,再點(diǎn)擊右邊的「設置」,就可以配置須要切換的瀏覽器版本(UA)列表。
  請注意,有些網(wǎng)站并不能在所有UA下都完美顯示,需要進(jìn)行調試和觀(guān)察。
  切換周期可單獨設置,也可以跟著(zhù)代理IP切換頻度,當優(yōu)采云切換代理IP時(shí),也切換UA。
  
  3、勾選「定時(shí)切換瀏覽器版本」,就可以配置Cookie的清理頻度;
  清除頻度可單獨設置,也可以跟著(zhù)代理IP切換頻度,當優(yōu)采云切換代理IP時(shí),也消除cookie。
  
  五、優(yōu)質(zhì)代理IP怎么收費?點(diǎn)擊立刻訂購
  
  六、已訂購的優(yōu)質(zhì)代理IP有效期?
  永久有效,但僅當您的帳戶(hù)為付費帳戶(hù)時(shí)方可使用。

百度指數采集工具 V4.71 官方版

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 387 次瀏覽 ? 2020-08-09 17:51 ? 來(lái)自相關(guān)話(huà)題

  百度指數采集工具是款針對百度搜索引擎構建的百度指數采集工具。它可以幫助用戶(hù)搜集最熱門(mén)的詞句,讓用戶(hù)關(guān)注最新的熱點(diǎn),及時(shí)留住流量,非常好用。
  
  【功能特性】
  采集數據100%精準,類(lèi)型全面
  支持整體趨勢、PC、移動(dòng)指數采集抓取,支持需求圖譜、資訊關(guān)注、人群畫(huà)像的采集抓??!
  采集速度飛快,秒采集完成
  飛象采集器采用頂尖系統配置,反復優(yōu)化性能,讓采集速度快到飛起來(lái)!
  可視化UI操作,便捷易上手
  通過(guò)精致的UI設置采集條件,簡(jiǎn)單易用,純紅色軟件,簡(jiǎn)易安裝即可上手!
  數據建模、論文數據必備
  軟件不斷建立,擴展用戶(hù)建議功能,大數據行業(yè)數據建模必備軟件!
  
  【軟件特色】
 ?。?)可視化的界面,簡(jiǎn)單容易上手。
 ?。?)采集精準快速,一個(gè)詞幾十秒鐘即可完成采集。
 ?。?)軟件帶手動(dòng)升級功能。官方升級后客戶(hù)端會(huì )手動(dòng)升級到最新版本。
  【使用說(shuō)明】
  一、安裝注意事項
  1、獲取軟件包之后,先要解壓zip包(注:不得解壓到桌面,請解壓到在D:\、E:\等非系統盤(pán)盤(pán)路徑
 ?。ú豢稍趜ip壓縮包中直接運行?。?br />   2、將軟件添加到360任目錄,避免被被刺死或誤刪掉文件
 ?。◤娏医ㄗh添加到信任目錄,這樣后期使用會(huì )少好多麻煩。)
  3、對于VIP用戶(hù),務(wù)必通過(guò)短信或其它形式備份好自己的授權文件,授權文件官方不重復領(lǐng)取。
  二、注冊登入常見(jiàn)問(wèn)題
  1、試用用戶(hù),請點(diǎn)擊“登錄”,使用默認試用帳號即可直接試用體驗。
  2、VIP用戶(hù),打開(kāi)登陸窗口左側有一個(gè)'免費注冊'按鈕,點(diǎn)擊打開(kāi)'注冊'彈窗'
  3、在注冊窗體依次填入賬號和密碼等信息。(注:若填寫(xiě)有誤,對應項兩側有白色覺(jué)得號,鼠標移到紅色嘆號上,軟件會(huì )提示錯誤緣由。)
  4、注冊完成后,再登入即可開(kāi)始使用。
  三、使用過(guò)程中注意事項
  1、軟件狀態(tài)――因軟件是多進(jìn)程模式,軟件界面狀態(tài)欄中的'軟件狀態(tài)'為《正常運行》說(shuō)明軟件處于正常工作狀態(tài);若仍然為白色文字則處于不可用狀態(tài)。
  2、若碰到軟件難以打開(kāi)、或工作狀態(tài)不正常,點(diǎn)擊注冊頁(yè)面左邊的”點(diǎn)擊清除恢復“,然后重啟軟件。95%的概率可解決您的問(wèn)題。
  
  【更新日志】
  V4.71(2018.9.12)
  升級內容:
  1、局部?jì)?yōu)化升級。
  V4.69(2018.9.5)
  升級內容:
  1、添加對含空格的關(guān)鍵詞的處理。 查看全部

  百度指數采集工具是款針對百度搜索引擎構建的百度指數采集工具。它可以幫助用戶(hù)搜集最熱門(mén)的詞句,讓用戶(hù)關(guān)注最新的熱點(diǎn),及時(shí)留住流量,非常好用。
  
  【功能特性】
  采集數據100%精準,類(lèi)型全面
  支持整體趨勢、PC、移動(dòng)指數采集抓取,支持需求圖譜、資訊關(guān)注、人群畫(huà)像的采集抓??!
  采集速度飛快,秒采集完成
  飛象采集器采用頂尖系統配置,反復優(yōu)化性能,讓采集速度快到飛起來(lái)!
  可視化UI操作,便捷易上手
  通過(guò)精致的UI設置采集條件,簡(jiǎn)單易用,純紅色軟件,簡(jiǎn)易安裝即可上手!
  數據建模、論文數據必備
  軟件不斷建立,擴展用戶(hù)建議功能,大數據行業(yè)數據建模必備軟件!
  
  【軟件特色】
 ?。?)可視化的界面,簡(jiǎn)單容易上手。
 ?。?)采集精準快速,一個(gè)詞幾十秒鐘即可完成采集。
 ?。?)軟件帶手動(dòng)升級功能。官方升級后客戶(hù)端會(huì )手動(dòng)升級到最新版本。
  【使用說(shuō)明】
  一、安裝注意事項
  1、獲取軟件包之后,先要解壓zip包(注:不得解壓到桌面,請解壓到在D:\、E:\等非系統盤(pán)盤(pán)路徑
 ?。ú豢稍趜ip壓縮包中直接運行?。?br />   2、將軟件添加到360任目錄,避免被被刺死或誤刪掉文件
 ?。◤娏医ㄗh添加到信任目錄,這樣后期使用會(huì )少好多麻煩。)
  3、對于VIP用戶(hù),務(wù)必通過(guò)短信或其它形式備份好自己的授權文件,授權文件官方不重復領(lǐng)取。
  二、注冊登入常見(jiàn)問(wèn)題
  1、試用用戶(hù),請點(diǎn)擊“登錄”,使用默認試用帳號即可直接試用體驗。
  2、VIP用戶(hù),打開(kāi)登陸窗口左側有一個(gè)'免費注冊'按鈕,點(diǎn)擊打開(kāi)'注冊'彈窗'
  3、在注冊窗體依次填入賬號和密碼等信息。(注:若填寫(xiě)有誤,對應項兩側有白色覺(jué)得號,鼠標移到紅色嘆號上,軟件會(huì )提示錯誤緣由。)
  4、注冊完成后,再登入即可開(kāi)始使用。
  三、使用過(guò)程中注意事項
  1、軟件狀態(tài)――因軟件是多進(jìn)程模式,軟件界面狀態(tài)欄中的'軟件狀態(tài)'為《正常運行》說(shuō)明軟件處于正常工作狀態(tài);若仍然為白色文字則處于不可用狀態(tài)。
  2、若碰到軟件難以打開(kāi)、或工作狀態(tài)不正常,點(diǎn)擊注冊頁(yè)面左邊的”點(diǎn)擊清除恢復“,然后重啟軟件。95%的概率可解決您的問(wèn)題。
  
  【更新日志】
  V4.71(2018.9.12)
  升級內容:
  1、局部?jì)?yōu)化升級。
  V4.69(2018.9.5)
  升級內容:
  1、添加對含空格的關(guān)鍵詞的處理。

面對百度算法對采集站的抗議,未來(lái)采集站能夠存留多久?

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 338 次瀏覽 ? 2020-08-09 15:35 ? 來(lái)自相關(guān)話(huà)題

  1、是時(shí)侯和采集站說(shuō)再見(jiàn)了嗎?
  答案基本上是肯定的。雖然百度一直不能挺好地對原創(chuàng )內容和采集內容進(jìn)行排行,但熊掌號正企圖扭轉這些局面,這也是百度搜索可持續發(fā)展的核心戰略。這是一個(gè)挑戰,但卻是必須的。
  2、百度是否支持合理的“采集”?
  顯然,這里的“采集”可以理解為轉載復制,基于搜索引擎的本質(zhì),百度企圖快速找到比較合適的解決方案,百度支持合理的“采集”,值得注意的是,它必須有原創(chuàng )鏈接,這樣就不容易被覺(jué)得是低質(zhì)量的內容。
  同時(shí),需要明晰的是,一個(gè)網(wǎng)站的“文章采集”數量須要控制在一個(gè)合理的范圍內,而不是整個(gè)站點(diǎn)都在采集。
  3、采集站會(huì )遭到懲罰嗎?
  不一定,這取決于具體情況。除了合理采集上述事例外,網(wǎng)站導航和網(wǎng)站目錄理論上都是采集網(wǎng)站,但為何不處罰呢?
  原因很簡(jiǎn)單,搜索引擎是一個(gè)開(kāi)發(fā)平臺,它將為真正解決用戶(hù)需求的站點(diǎn)提供一些支持,同時(shí),高質(zhì)量的網(wǎng)站導航只推薦高質(zhì)量的網(wǎng)站,它代表著(zhù)一定程度的權威。
  因此,一個(gè)網(wǎng)站適度的采集和轉發(fā)一些內容,不會(huì )遭到百度的懲罰,只是步入個(gè)人站長(cháng)或不害怕這個(gè)問(wèn)題。
  
  4、使用采集軟件采集內容否可行?
  如果我們企圖對原稿進(jìn)行分類(lèi),它可以分為中級原稿和中級原稿。
 ?。?)初步稿件打算:通常使用搜集軟件,如博客搜索工具,采集帶有特定關(guān)鍵字的博客文章,然后將它們組合成一篇文章。有時(shí)上下文的邏輯結構不平滑,這是絕對不可行的。 查看全部

  1、是時(shí)侯和采集站說(shuō)再見(jiàn)了嗎?
  答案基本上是肯定的。雖然百度一直不能挺好地對原創(chuàng )內容和采集內容進(jìn)行排行,但熊掌號正企圖扭轉這些局面,這也是百度搜索可持續發(fā)展的核心戰略。這是一個(gè)挑戰,但卻是必須的。
  2、百度是否支持合理的“采集”?
  顯然,這里的“采集”可以理解為轉載復制,基于搜索引擎的本質(zhì),百度企圖快速找到比較合適的解決方案,百度支持合理的“采集”,值得注意的是,它必須有原創(chuàng )鏈接,這樣就不容易被覺(jué)得是低質(zhì)量的內容。
  同時(shí),需要明晰的是,一個(gè)網(wǎng)站的“文章采集”數量須要控制在一個(gè)合理的范圍內,而不是整個(gè)站點(diǎn)都在采集。
  3、采集站會(huì )遭到懲罰嗎?
  不一定,這取決于具體情況。除了合理采集上述事例外,網(wǎng)站導航和網(wǎng)站目錄理論上都是采集網(wǎng)站,但為何不處罰呢?
  原因很簡(jiǎn)單,搜索引擎是一個(gè)開(kāi)發(fā)平臺,它將為真正解決用戶(hù)需求的站點(diǎn)提供一些支持,同時(shí),高質(zhì)量的網(wǎng)站導航只推薦高質(zhì)量的網(wǎng)站,它代表著(zhù)一定程度的權威。
  因此,一個(gè)網(wǎng)站適度的采集和轉發(fā)一些內容,不會(huì )遭到百度的懲罰,只是步入個(gè)人站長(cháng)或不害怕這個(gè)問(wèn)題。
  
  4、使用采集軟件采集內容否可行?
  如果我們企圖對原稿進(jìn)行分類(lèi),它可以分為中級原稿和中級原稿。
 ?。?)初步稿件打算:通常使用搜集軟件,如博客搜索工具,采集帶有特定關(guān)鍵字的博客文章,然后將它們組合成一篇文章。有時(shí)上下文的邏輯結構不平滑,這是絕對不可行的。

采集、發(fā)現優(yōu)秀App設計靈感,優(yōu)靈要從分類(lèi)標簽入手解決UI設計師找圖困局

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 334 次瀏覽 ? 2020-08-09 14:42 ? 來(lái)自相關(guān)話(huà)題

  界面設計師、網(wǎng)頁(yè)設計師、視覺(jué)設計師、互動(dòng)設計師、UI設計師……這是隨手一搜互聯(lián)網(wǎng)急聘以后彈出的答案。雖然很大程度上這種職位的工作內容都是類(lèi)似的,其中“UI設計師”卻是我所見(jiàn)到的最火的一個(gè),究其原因,無(wú)異于是高薪。
  在設計師門(mén)檻這么低的情況下,如何能夠培養出一個(gè)好的UI設計師呢?
  獵云網(wǎng)(微信:ilieyun)近日接觸到的優(yōu)靈創(chuàng )始人龍國富,在提到這個(gè)問(wèn)題時(shí),他的想法是:“我認為這個(gè)行業(yè)比較‘亂’,UI設計師不僅學(xué)習專(zhuān)業(yè)的技能知識外,還須要把握大量的美學(xué)、心理學(xué)等內容,可以說(shuō)沒(méi)有一個(gè)好的積累是不能孵化出一個(gè)好的設計師的”。
  優(yōu)靈致力于為從事App產(chǎn)品與設計的用戶(hù),采集全球海量?jì)?yōu)秀APP設計界面,提供最新、最in的App界面設計時(shí)尚資訊。讓產(chǎn)品總監和UI設計師們足不出戶(hù),也可以使靈感隨手可得。通過(guò)靈感的碰撞,能夠使產(chǎn)品圈、設計圈誕生更多優(yōu)秀的設計。
  談到為何會(huì )開(kāi)辦優(yōu)靈,龍國富說(shuō):“其實(shí)我們團隊之前都是做創(chuàng )意類(lèi)的,在找App設計素材的過(guò)程中發(fā)覺(jué)有很多界面是十分雷同的,想找到比較優(yōu)質(zhì)的內容是比較難的,于是就創(chuàng )立了優(yōu)靈,方便自己采集市面上比較優(yōu)秀的App界面,其次是幫助一些剛入門(mén)做UI設計的小白們,設計某一些類(lèi)型的模塊時(shí)才能快速找到特別多的參照事例,提高效率”。
  “最好的產(chǎn)品一般會(huì )做好兩件事情:功能和細節。功能才能吸引用戶(hù)關(guān)注這個(gè)產(chǎn)品,而細節則才能使關(guān)注的用戶(hù)留下來(lái)?!盌an Saffer 的這句話(huà)揭示了許多成功產(chǎn)品的竅門(mén)。值得注意的是,功能和細節二者都很重要,但是功能居首,細節次之。
  不過(guò),讓用戶(hù)喜歡或則厭惡一個(gè)APP或則網(wǎng)站,往往緣起于細節。隨著(zhù)網(wǎng)站交互設計和動(dòng)效的大規模普及,我們如今所見(jiàn)到的許多細節設計,都可以歸類(lèi)于微交互。雖然在整體性的設計當中,微交互雖然變得微不足道,但是整個(gè)產(chǎn)品體驗,與之息息相關(guān)。龍國富如是說(shuō)道。
  
  對于分類(lèi)方式,龍國富說(shuō):“其實(shí)我們的分類(lèi)方式還是比較不同的,首先是從App的類(lèi)型來(lái)分,拿金融類(lèi)舉例,不同類(lèi)型的產(chǎn)品在行內的名稱(chēng)也是不一樣的,就訂購頁(yè)面而言,有購物頁(yè)、商品詳情頁(yè)……從事不同行業(yè)的人所須要的產(chǎn)品內頁(yè)也就不一樣,優(yōu)靈對此也做了一些特定地規范。其次是不同頁(yè)面也有不同的屬性,通過(guò)這種屬性標簽做一個(gè)特定地檢索,比如說(shuō)時(shí)鐘、天氣、顏色……除此之外優(yōu)靈都會(huì )根據大眾搜索率比較高的產(chǎn)品來(lái)進(jìn)行標簽命名,及時(shí)作出判定,將這些標簽手動(dòng)配到相關(guān)聯(lián)的某一個(gè)App上”。
  他覺(jué)得,作為一個(gè)產(chǎn)品總監,經(jīng)驗之談是一年到五年的產(chǎn)品總監,他們一定會(huì )看大量的App,遇到不錯的App她們會(huì )截圖出來(lái),保存以后放在印象筆記上,導致的結果是,截了一大堆圖,需要用的時(shí)侯卻不知道放在那個(gè)文件了……所以?xún)?yōu)靈要做的就是垂直于UI設計領(lǐng)域,除了搜羅一些優(yōu)秀的App界面外,也能使用戶(hù)在此保存自己的一些采集文件,還能在此進(jìn)行‘以圖搜圖’的操作。
  龍國富半開(kāi)玩笑地說(shuō):“其實(shí)這真的是一個(gè)不能再初創(chuàng )的項目了,優(yōu)靈是我們團隊花一個(gè)星期做下來(lái)的產(chǎn)品,從2016年10月份上線(xiàn)到目前,已獲得了1萬(wàn)多用戶(hù)。市面上90%的APP都是特別標準化的界面,或者是功能流程都是特別標準化的,而優(yōu)靈期望的是,把標準化的東西弄成一個(gè)既定的方案。
  目前沒(méi)有贏(yíng)利,很多用戶(hù)反饋說(shuō)須要一些比較深入的功能,所以近日準備迭代一些功能,未來(lái)贏(yíng)利方向上,會(huì )提供一些增值服務(wù)進(jìn)行贏(yíng)利。
  融資方面,龍國富表示,目前暫時(shí)沒(méi)有融資看法,達到一定用戶(hù)量以后再思考融資問(wèn)題。
  目前主要是以人工采集為主,通過(guò)微信群里用戶(hù)的推薦,在做嘗試的部份,預計到了今年十月份會(huì )發(fā)布一些新的版本,希望能成為一個(gè)垂直于UI領(lǐng)域的一個(gè)細分產(chǎn)品。龍國富最后說(shuō)道。
  產(chǎn)品:優(yōu)靈
  公司:深圳市少先隊科技有限公司
  本文來(lái)自獵云網(wǎng),如若轉載,請標明出處: 查看全部

  界面設計師、網(wǎng)頁(yè)設計師、視覺(jué)設計師、互動(dòng)設計師、UI設計師……這是隨手一搜互聯(lián)網(wǎng)急聘以后彈出的答案。雖然很大程度上這種職位的工作內容都是類(lèi)似的,其中“UI設計師”卻是我所見(jiàn)到的最火的一個(gè),究其原因,無(wú)異于是高薪。
  在設計師門(mén)檻這么低的情況下,如何能夠培養出一個(gè)好的UI設計師呢?
  獵云網(wǎng)(微信:ilieyun)近日接觸到的優(yōu)靈創(chuàng )始人龍國富,在提到這個(gè)問(wèn)題時(shí),他的想法是:“我認為這個(gè)行業(yè)比較‘亂’,UI設計師不僅學(xué)習專(zhuān)業(yè)的技能知識外,還須要把握大量的美學(xué)、心理學(xué)等內容,可以說(shuō)沒(méi)有一個(gè)好的積累是不能孵化出一個(gè)好的設計師的”。
  優(yōu)靈致力于為從事App產(chǎn)品與設計的用戶(hù),采集全球海量?jì)?yōu)秀APP設計界面,提供最新、最in的App界面設計時(shí)尚資訊。讓產(chǎn)品總監和UI設計師們足不出戶(hù),也可以使靈感隨手可得。通過(guò)靈感的碰撞,能夠使產(chǎn)品圈、設計圈誕生更多優(yōu)秀的設計。
  談到為何會(huì )開(kāi)辦優(yōu)靈,龍國富說(shuō):“其實(shí)我們團隊之前都是做創(chuàng )意類(lèi)的,在找App設計素材的過(guò)程中發(fā)覺(jué)有很多界面是十分雷同的,想找到比較優(yōu)質(zhì)的內容是比較難的,于是就創(chuàng )立了優(yōu)靈,方便自己采集市面上比較優(yōu)秀的App界面,其次是幫助一些剛入門(mén)做UI設計的小白們,設計某一些類(lèi)型的模塊時(shí)才能快速找到特別多的參照事例,提高效率”。
  “最好的產(chǎn)品一般會(huì )做好兩件事情:功能和細節。功能才能吸引用戶(hù)關(guān)注這個(gè)產(chǎn)品,而細節則才能使關(guān)注的用戶(hù)留下來(lái)?!盌an Saffer 的這句話(huà)揭示了許多成功產(chǎn)品的竅門(mén)。值得注意的是,功能和細節二者都很重要,但是功能居首,細節次之。
  不過(guò),讓用戶(hù)喜歡或則厭惡一個(gè)APP或則網(wǎng)站,往往緣起于細節。隨著(zhù)網(wǎng)站交互設計和動(dòng)效的大規模普及,我們如今所見(jiàn)到的許多細節設計,都可以歸類(lèi)于微交互。雖然在整體性的設計當中,微交互雖然變得微不足道,但是整個(gè)產(chǎn)品體驗,與之息息相關(guān)。龍國富如是說(shuō)道。
  
  對于分類(lèi)方式,龍國富說(shuō):“其實(shí)我們的分類(lèi)方式還是比較不同的,首先是從App的類(lèi)型來(lái)分,拿金融類(lèi)舉例,不同類(lèi)型的產(chǎn)品在行內的名稱(chēng)也是不一樣的,就訂購頁(yè)面而言,有購物頁(yè)、商品詳情頁(yè)……從事不同行業(yè)的人所須要的產(chǎn)品內頁(yè)也就不一樣,優(yōu)靈對此也做了一些特定地規范。其次是不同頁(yè)面也有不同的屬性,通過(guò)這種屬性標簽做一個(gè)特定地檢索,比如說(shuō)時(shí)鐘、天氣、顏色……除此之外優(yōu)靈都會(huì )根據大眾搜索率比較高的產(chǎn)品來(lái)進(jìn)行標簽命名,及時(shí)作出判定,將這些標簽手動(dòng)配到相關(guān)聯(lián)的某一個(gè)App上”。
  他覺(jué)得,作為一個(gè)產(chǎn)品總監,經(jīng)驗之談是一年到五年的產(chǎn)品總監,他們一定會(huì )看大量的App,遇到不錯的App她們會(huì )截圖出來(lái),保存以后放在印象筆記上,導致的結果是,截了一大堆圖,需要用的時(shí)侯卻不知道放在那個(gè)文件了……所以?xún)?yōu)靈要做的就是垂直于UI設計領(lǐng)域,除了搜羅一些優(yōu)秀的App界面外,也能使用戶(hù)在此保存自己的一些采集文件,還能在此進(jìn)行‘以圖搜圖’的操作。
  龍國富半開(kāi)玩笑地說(shuō):“其實(shí)這真的是一個(gè)不能再初創(chuàng )的項目了,優(yōu)靈是我們團隊花一個(gè)星期做下來(lái)的產(chǎn)品,從2016年10月份上線(xiàn)到目前,已獲得了1萬(wàn)多用戶(hù)。市面上90%的APP都是特別標準化的界面,或者是功能流程都是特別標準化的,而優(yōu)靈期望的是,把標準化的東西弄成一個(gè)既定的方案。
  目前沒(méi)有贏(yíng)利,很多用戶(hù)反饋說(shuō)須要一些比較深入的功能,所以近日準備迭代一些功能,未來(lái)贏(yíng)利方向上,會(huì )提供一些增值服務(wù)進(jìn)行贏(yíng)利。
  融資方面,龍國富表示,目前暫時(shí)沒(méi)有融資看法,達到一定用戶(hù)量以后再思考融資問(wèn)題。
  目前主要是以人工采集為主,通過(guò)微信群里用戶(hù)的推薦,在做嘗試的部份,預計到了今年十月份會(huì )發(fā)布一些新的版本,希望能成為一個(gè)垂直于UI領(lǐng)域的一個(gè)細分產(chǎn)品。龍國富最后說(shuō)道。
  產(chǎn)品:優(yōu)靈
  公司:深圳市少先隊科技有限公司
  本文來(lái)自獵云網(wǎng),如若轉載,請標明出處:

如何優(yōu)化網(wǎng)站SEO排名

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 175 次瀏覽 ? 2020-08-08 16:16 ? 來(lái)自相關(guān)話(huà)題

  如何優(yōu)化網(wǎng)站SEO排名
  作為網(wǎng)站管理員,關(guān)于如何優(yōu)化網(wǎng)站排名,大多數人認為它不過(guò)是站點(diǎn)內和站點(diǎn)外. 一般來(lái)說(shuō),這是對的,因為公司網(wǎng)站的某些優(yōu)化方法基本相同. 我認為主要原因是當前的優(yōu)化方法太普遍了. 許多優(yōu)化方法的效果中等. 因此,許多優(yōu)化人員已轉行. 因此,針對此問(wèn)題,以下是我當前的網(wǎng)站優(yōu)化排名的一些摘要:
  
  其他一些黑帽優(yōu)化已被阻止,因此,除了站點(diǎn)中的基礎工作之外,我認為外鏈仍然是優(yōu)化工作的核心,因此外鏈也是該工作的一個(gè)非常重要的方面. 優(yōu)化人員,這也是我們應該做的事情. 我不會(huì )在這里描述方法. 您可以根據自己的情況進(jìn)行操作.
  與該站點(diǎn)相比,隨著(zhù)百度颶風(fēng)算法和晴風(fēng)算法的引入,不可避免的是網(wǎng)站內容的原創(chuàng )性仍然是非常重要的一部分,因此現在許多采集站點(diǎn)都產(chǎn)生了很大的負面影響. 對此,我們必須花一些時(shí)間來(lái)處理網(wǎng)站的內容. 不要從任何地方采集文章. 我們必須確保網(wǎng)站的準確性.
  此外,一旦網(wǎng)站確定了核心關(guān)鍵字,網(wǎng)站的布局應基于該詞. 相關(guān)性也是一個(gè)非常重要的部分. 在許多情況下,我們不僅在積累關(guān)鍵字的密度,而且實(shí)際上在積累更多的信息,大多數是在改善網(wǎng)頁(yè)和目標關(guān)鍵字的相關(guān)性. 查看全部

  如何優(yōu)化網(wǎng)站SEO排名
  作為網(wǎng)站管理員,關(guān)于如何優(yōu)化網(wǎng)站排名,大多數人認為它不過(guò)是站點(diǎn)內和站點(diǎn)外. 一般來(lái)說(shuō),這是對的,因為公司網(wǎng)站的某些優(yōu)化方法基本相同. 我認為主要原因是當前的優(yōu)化方法太普遍了. 許多優(yōu)化方法的效果中等. 因此,許多優(yōu)化人員已轉行. 因此,針對此問(wèn)題,以下是我當前的網(wǎng)站優(yōu)化排名的一些摘要:
  
  其他一些黑帽優(yōu)化已被阻止,因此,除了站點(diǎn)中的基礎工作之外,我認為外鏈仍然是優(yōu)化工作的核心,因此外鏈也是該工作的一個(gè)非常重要的方面. 優(yōu)化人員,這也是我們應該做的事情. 我不會(huì )在這里描述方法. 您可以根據自己的情況進(jìn)行操作.
  與該站點(diǎn)相比,隨著(zhù)百度颶風(fēng)算法和晴風(fēng)算法的引入,不可避免的是網(wǎng)站內容的原創(chuàng )性仍然是非常重要的一部分,因此現在許多采集站點(diǎn)都產(chǎn)生了很大的負面影響. 對此,我們必須花一些時(shí)間來(lái)處理網(wǎng)站的內容. 不要從任何地方采集文章. 我們必須確保網(wǎng)站的準確性.
  此外,一旦網(wǎng)站確定了核心關(guān)鍵字,網(wǎng)站的布局應基于該詞. 相關(guān)性也是一個(gè)非常重要的部分. 在許多情況下,我們不僅在積累關(guān)鍵字的密度,而且實(shí)際上在積累更多的信息,大多數是在改善網(wǎng)頁(yè)和目標關(guān)鍵字的相關(guān)性.

數據采集技術(shù)的優(yōu)缺點(diǎn)是什么?

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 1423 次瀏覽 ? 2020-08-08 15:14 ? 來(lái)自相關(guān)話(huà)題

  1. 通過(guò)每個(gè)軟件制造商的開(kāi)放數據接口實(shí)現不同軟件數據的互連和互通. 這是目前最常用的數據連接方法.
  2. 優(yōu)點(diǎn): 接口對接方法的數據可靠性和價(jià)值很高,一般不存在數據重復;可以通過(guò)界面實(shí)時(shí)傳輸數據,以滿(mǎn)足實(shí)時(shí)數據應用的需求.
  3. 缺點(diǎn): ①接口開(kāi)發(fā)成本高; ②需要與多家軟件廠(chǎng)商協(xié)調,工作量大,難以完成; ③可伸縮性不高,例如: 新業(yè)務(wù)需要從軟件系統開(kāi)發(fā)新業(yè)務(wù)模塊和大數據平臺之間的數據接口也需要相應修改和更改,甚至所有以前的數據接口代碼都必須翻轉,這是很多工作并且很耗時(shí).
  4. 目前,軟件機器人是一種相對先進(jìn)的軟件數據對接技術(shù),可以同時(shí)在網(wǎng)站上采集客戶(hù)端軟件數據和軟件數據.
  5. 最常見(jiàn)的一種是Bowei Xiaobang軟件機器人. 產(chǎn)品設計原則是“所見(jiàn)即所得”,即在沒(méi)有軟件制造商合作的情況下,將采集軟件接口上的數據,并將輸出結果構造為數據庫或excel表.
  6. 如果您只需要界面上的業(yè)務(wù)數據,或者當軟件制造商不配合/關(guān)閉并且數據庫分析困難時(shí),最好使用軟件機器人來(lái)采集數據,尤其是詳細信息頁(yè)面的數據采集功能更多特色.
  7. 技術(shù)特點(diǎn)如下: ①不需要原創(chuàng )軟件制造商; ②兼容性強,可以在Windows平臺上采集和聚合各種軟件系統數據; ③輸出結構化數據; ④安裝使用,實(shí)施周期短,簡(jiǎn)單高效⑤配置簡(jiǎn)單,無(wú)需編程,每個(gè)人都可以自己動(dòng)手做軟件機器人; ⑥價(jià)格低于手冊和界面.
  8. 缺點(diǎn): 軟件數據采集的實(shí)時(shí)性有一定的局限性.
  9. Web爬網(wǎng)程序是模擬客戶(hù)端的網(wǎng)絡(luò )請求并接收對該請求的響應的程序或腳本. 它是一種程序或腳本,可以根據某些規則自動(dòng)在萬(wàn)維網(wǎng)上捕獲信息.
  10. 爬蟲(chóng)數據采集的缺點(diǎn): ①輸出數據大多為非結構化數據; ②它只能采集網(wǎng)站數據,很容易受到網(wǎng)站反爬升機制的影響; ③用戶(hù)群體狹窄,需要專(zhuān)業(yè)的編程知識才能玩.
  11. 對于數據采集和集成,開(kāi)放數據庫是最直接的方法.
  12. 優(yōu)點(diǎn): 開(kāi)放的數據庫方法可以直接從目標數據庫中獲取所需的數據,具有較高的準確性和實(shí)時(shí)性. 這是最直接,最方便的方法.
  13. 缺點(diǎn): 開(kāi)放數據庫方法還需要協(xié)調各種軟件供應商的開(kāi)放數據庫. 這取決于另一方的意愿. 通常,出于安全考慮,它不會(huì )開(kāi)放;如果一個(gè)平臺同時(shí)連接到多個(gè)軟件供應商的數據庫,那將是實(shí)時(shí)的. 獲取數據也是對平臺性能的巨大挑戰. 查看全部

  1. 通過(guò)每個(gè)軟件制造商的開(kāi)放數據接口實(shí)現不同軟件數據的互連和互通. 這是目前最常用的數據連接方法.
  2. 優(yōu)點(diǎn): 接口對接方法的數據可靠性和價(jià)值很高,一般不存在數據重復;可以通過(guò)界面實(shí)時(shí)傳輸數據,以滿(mǎn)足實(shí)時(shí)數據應用的需求.
  3. 缺點(diǎn): ①接口開(kāi)發(fā)成本高; ②需要與多家軟件廠(chǎng)商協(xié)調,工作量大,難以完成; ③可伸縮性不高,例如: 新業(yè)務(wù)需要從軟件系統開(kāi)發(fā)新業(yè)務(wù)模塊和大數據平臺之間的數據接口也需要相應修改和更改,甚至所有以前的數據接口代碼都必須翻轉,這是很多工作并且很耗時(shí).
  4. 目前,軟件機器人是一種相對先進(jìn)的軟件數據對接技術(shù),可以同時(shí)在網(wǎng)站上采集客戶(hù)端軟件數據和軟件數據.
  5. 最常見(jiàn)的一種是Bowei Xiaobang軟件機器人. 產(chǎn)品設計原則是“所見(jiàn)即所得”,即在沒(méi)有軟件制造商合作的情況下,將采集軟件接口上的數據,并將輸出結果構造為數據庫或excel表.
  6. 如果您只需要界面上的業(yè)務(wù)數據,或者當軟件制造商不配合/關(guān)閉并且數據庫分析困難時(shí),最好使用軟件機器人來(lái)采集數據,尤其是詳細信息頁(yè)面的數據采集功能更多特色.
  7. 技術(shù)特點(diǎn)如下: ①不需要原創(chuàng )軟件制造商; ②兼容性強,可以在Windows平臺上采集和聚合各種軟件系統數據; ③輸出結構化數據; ④安裝使用,實(shí)施周期短,簡(jiǎn)單高效⑤配置簡(jiǎn)單,無(wú)需編程,每個(gè)人都可以自己動(dòng)手做軟件機器人; ⑥價(jià)格低于手冊和界面.
  8. 缺點(diǎn): 軟件數據采集的實(shí)時(shí)性有一定的局限性.
  9. Web爬網(wǎng)程序是模擬客戶(hù)端的網(wǎng)絡(luò )請求并接收對該請求的響應的程序或腳本. 它是一種程序或腳本,可以根據某些規則自動(dòng)在萬(wàn)維網(wǎng)上捕獲信息.
  10. 爬蟲(chóng)數據采集的缺點(diǎn): ①輸出數據大多為非結構化數據; ②它只能采集網(wǎng)站數據,很容易受到網(wǎng)站反爬升機制的影響; ③用戶(hù)群體狹窄,需要專(zhuān)業(yè)的編程知識才能玩.
  11. 對于數據采集和集成,開(kāi)放數據庫是最直接的方法.
  12. 優(yōu)點(diǎn): 開(kāi)放的數據庫方法可以直接從目標數據庫中獲取所需的數據,具有較高的準確性和實(shí)時(shí)性. 這是最直接,最方便的方法.
  13. 缺點(diǎn): 開(kāi)放數據庫方法還需要協(xié)調各種軟件供應商的開(kāi)放數據庫. 這取決于另一方的意愿. 通常,出于安全考慮,它不會(huì )開(kāi)放;如果一個(gè)平臺同時(shí)連接到多個(gè)軟件供應商的數據庫,那將是實(shí)時(shí)的. 獲取數據也是對平臺性能的巨大挑戰.

4. 騰訊指南針模型和指標描述

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 206 次瀏覽 ? 2020-08-07 23:57 ? 來(lái)自相關(guān)話(huà)題

 ?。?)在管理中心的主頁(yè)上,可以看到所有應用程序的分析和分析的摘要顯示. 如下圖所示:
  
 ?。?)選擇一個(gè)應用程序后,您將看到“業(yè)務(wù)數據”選項卡,單擊以進(jìn)入該應用程序的特定數據顯示頁(yè)面. 如下圖所示:
  
  3. 如何使用騰訊羅盤(pán)提供的數據服務(wù)3.1了解騰訊羅盤(pán)的數據處理原理
  為了幫助您更好地使用指南針,有必要了解指南針處理數據的原理.
  羅盤(pán)提供了兩種數據服務(wù)解決方案: 平臺分析模型和高級分析模型.
  下圖顯示了指南針系統處理兩個(gè)分析模型的過(guò)程.
  
  對于這兩種數據服務(wù)解決方案,指南針具有不同的數據采集渠道:
  平臺分析模型: 騰訊羅盤(pán)的后端系統通過(guò)openapi自動(dòng)采集數據并顯示業(yè)務(wù)數據的基本視圖.
  高級分析模型: 開(kāi)發(fā)人員需要調用數據報告API來(lái)報告數據. 騰訊羅盤(pán)的數據倉庫計算用戶(hù)數據并顯示各種維度的業(yè)務(wù)數據視圖. 另外,指南針會(huì )根據不同的數據采集渠道顯示出一些數據差異.
  3.2選擇合適的數據服務(wù)計劃
  1. 請參考平臺分析模型和高級分析模型提供的數據服務(wù)的詳細信息.
  2. 下表比較了平臺分析模型和高級分析模型的優(yōu)缺點(diǎn):
  平臺分析模型高級分析模型
  您需要這樣做
  數據來(lái)自騰訊指南針采集的應用程序進(jìn)行的OpenAPI調用的后臺記錄. 您無(wú)需執行任何操作即可使用它.
  您需要調用數據報告API,以將應用程序數據報告給騰訊指南針的API服務(wù)器,并通過(guò)騰訊強大的云計算平臺計算各種應用程序數據.
  優(yōu)勢
  無(wú)需部署任何代碼,直接查看數據.
  用戶(hù)可以查看大量數據. 依靠騰訊云平臺,騰訊羅盤(pán)將繼續根據這些數據豐富財務(wù)數據.
  缺點(diǎn)
  查看的數據類(lèi)型較少,更新的數據較少.
  需要調用數據報告API,這需要進(jìn)行大量工作.
  使用場(chǎng)景
  無(wú)需復雜數據分析要求的工具和日常生活等應用.
  對于游戲應用程序,建議使用數據報告API通道來(lái)報告數據以提供更豐富的數據.
  3.3向騰訊羅盤(pán)報告數據
  有關(guān)更多信息,請參閱騰訊指南針數據報告說(shuō)明.
  4. 騰訊指南針模型和指標描述
  有關(guān)更多信息,請參閱騰訊指南針模型和指標說(shuō)明.
  5. 常見(jiàn)問(wèn)題解答
  有關(guān)更多信息,請參閱騰訊指南針常見(jiàn)問(wèn)題解答.
  以上信息是否解決了您的問(wèn)題?
  為了使我們更有效地優(yōu)化數據庫并有針對性地改善我們的服務(wù),我們需要您進(jìn)一步的反饋信息:
  提交成功!
  非常感謝您的反饋,我們將繼續努力,以求更好!
  提交成功!
  感謝您的批評和建議,我們將針對性地進(jìn)行優(yōu)化,為您提供更好的服務(wù).
  開(kāi)放平臺與您一同成長(cháng)!
  從“%E8%85%BE%E8%AE%AF%E7%BD%97%E7%9B%98%E7%AE%80%E4%BB%8B”中檢索 查看全部

 ?。?)在管理中心的主頁(yè)上,可以看到所有應用程序的分析和分析的摘要顯示. 如下圖所示:
  
 ?。?)選擇一個(gè)應用程序后,您將看到“業(yè)務(wù)數據”選項卡,單擊以進(jìn)入該應用程序的特定數據顯示頁(yè)面. 如下圖所示:
  
  3. 如何使用騰訊羅盤(pán)提供的數據服務(wù)3.1了解騰訊羅盤(pán)的數據處理原理
  為了幫助您更好地使用指南針,有必要了解指南針處理數據的原理.
  羅盤(pán)提供了兩種數據服務(wù)解決方案: 平臺分析模型和高級分析模型.
  下圖顯示了指南針系統處理兩個(gè)分析模型的過(guò)程.
  
  對于這兩種數據服務(wù)解決方案,指南針具有不同的數據采集渠道:
  平臺分析模型: 騰訊羅盤(pán)的后端系統通過(guò)openapi自動(dòng)采集數據并顯示業(yè)務(wù)數據的基本視圖.
  高級分析模型: 開(kāi)發(fā)人員需要調用數據報告API來(lái)報告數據. 騰訊羅盤(pán)的數據倉庫計算用戶(hù)數據并顯示各種維度的業(yè)務(wù)數據視圖. 另外,指南針會(huì )根據不同的數據采集渠道顯示出一些數據差異.
  3.2選擇合適的數據服務(wù)計劃
  1. 請參考平臺分析模型和高級分析模型提供的數據服務(wù)的詳細信息.
  2. 下表比較了平臺分析模型和高級分析模型的優(yōu)缺點(diǎn):
  平臺分析模型高級分析模型
  您需要這樣做
  數據來(lái)自騰訊指南針采集的應用程序進(jìn)行的OpenAPI調用的后臺記錄. 您無(wú)需執行任何操作即可使用它.
  您需要調用數據報告API,以將應用程序數據報告給騰訊指南針的API服務(wù)器,并通過(guò)騰訊強大的云計算平臺計算各種應用程序數據.
  優(yōu)勢
  無(wú)需部署任何代碼,直接查看數據.
  用戶(hù)可以查看大量數據. 依靠騰訊云平臺,騰訊羅盤(pán)將繼續根據這些數據豐富財務(wù)數據.
  缺點(diǎn)
  查看的數據類(lèi)型較少,更新的數據較少.
  需要調用數據報告API,這需要進(jìn)行大量工作.
  使用場(chǎng)景
  無(wú)需復雜數據分析要求的工具和日常生活等應用.
  對于游戲應用程序,建議使用數據報告API通道來(lái)報告數據以提供更豐富的數據.
  3.3向騰訊羅盤(pán)報告數據
  有關(guān)更多信息,請參閱騰訊指南針數據報告說(shuō)明.
  4. 騰訊指南針模型和指標描述
  有關(guān)更多信息,請參閱騰訊指南針模型和指標說(shuō)明.
  5. 常見(jiàn)問(wèn)題解答
  有關(guān)更多信息,請參閱騰訊指南針常見(jiàn)問(wèn)題解答.
  以上信息是否解決了您的問(wèn)題?
  為了使我們更有效地優(yōu)化數據庫并有針對性地改善我們的服務(wù),我們需要您進(jìn)一步的反饋信息:
  提交成功!
  非常感謝您的反饋,我們將繼續努力,以求更好!
  提交成功!
  感謝您的批評和建議,我們將針對性地進(jìn)行優(yōu)化,為您提供更好的服務(wù).
  開(kāi)放平臺與您一同成長(cháng)!
  從“%E8%85%BE%E8%AE%AF%E7%BD%97%E7%9B%98%E7%AE%80%E4%BB%8B”中檢索

自動(dòng)優(yōu)化平臺采集文章

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 306 次瀏覽 ? 2020-08-07 18:58 ? 來(lái)自相關(guān)話(huà)題

  
  1. 當網(wǎng)站權重較低時(shí),網(wǎng)站權重較低,百度的包容性容易波動(dòng),并且在重大更新過(guò)程中包容性可能會(huì )急劇增加或減少,因此我們必須考慮如何增加網(wǎng)站的權重.
  2. 內容不是很相關(guān);如果您的網(wǎng)站標題是關(guān)于美容的信息,但其中收錄許多在線(xiàn)促銷(xiāo)信息或最新的政治新聞,則該內容在發(fā)布時(shí)將包括在內,但是一段時(shí)間后,搜索引擎還會(huì )發(fā)現您的網(wǎng)站正在銷(xiāo)售狗肉,這些不相關(guān)的內容將被刪除,甚至會(huì )有更低的權利. 用戶(hù)體驗不好.
  3. 獨特的同義詞替換詞典可以生成原創(chuàng )文章,而無(wú)需更改文章的語(yǔ)義.
  4. 網(wǎng)站內容經(jīng)常更新
  5. 網(wǎng)站內容的質(zhì)量太差. 百度蜘蛛抓取頁(yè)面時(shí),是否會(huì )進(jìn)行進(jìn)一步分析,部分原因還取決于內容的質(zhì)量. 例如,在一個(gè)采集網(wǎng)站上,所有內容都是在Internet上采集的. 這樣的網(wǎng)站通常會(huì )具有異常的收錄性,因為對于百度蜘蛛來(lái)說(shuō),大量重復的內容根本毫無(wú)價(jià)值,而且爬網(wǎng)也浪費資源.
  6. 物品質(zhì)量差;文章的質(zhì)量也是決定收錄速度的重要因素. 如果文章質(zhì)量不好,即使網(wǎng)站的重量很大,也可能不收錄該文章. 一些網(wǎng)站依靠較高的網(wǎng)站重量在各處復制和采集文章. 即使使用偽原創(chuàng )軟件創(chuàng )建垃圾郵件文章,如果這種情況繼續發(fā)生,越來(lái)越多的垃圾郵件文章也會(huì )降低網(wǎng)站的重量.
  7. 人們通常會(huì )說(shuō)文章的原創(chuàng )性可能是文章的采集很麻煩,甚至沒(méi)有收錄. 因為百度蜘蛛痣喜歡原創(chuàng )內容,并且此原創(chuàng )內容需要被查看并且對用戶(hù)有幫助,所以它將具有很好的采集價(jià)值. 如果不是,那么它實(shí)際上不是偽原創(chuàng )的,不需要的. 花了很多時(shí)間.
  8. 將網(wǎng)站提交到搜索引擎網(wǎng)站管理員平臺. 目前,主流搜索引擎都具有網(wǎng)站管理員平臺. 因此,對于新網(wǎng)站,您仍應積極將URL提交給搜索引擎,并做好積極推送網(wǎng)站的工作. 這可以吸引搜索引擎蜘蛛來(lái)爬網(wǎng)站點(diǎn)并提高包容性. 至于如何提交,您可以參考搜索引擎網(wǎng)站管理員平臺的正式文件,這基本上并不困難.
  ————————————————————————————————
  問(wèn): 黑帽seo是什么意思?
  A: 黑帽SEO旨在利用和擴大搜索引擎的戰略缺陷(實(shí)際上,不存在完善的系統)來(lái)獲得更多的用戶(hù)訪(fǎng)問(wèn),而這些更多的訪(fǎng)問(wèn)是以犧牲用戶(hù)體驗為代價(jià)的. SEO行為.
  問(wèn): 頁(yè)面標題和描述適合多少個(gè)單詞?
  回答: 網(wǎng)站標題搜索引擎只能在搜索結果中顯示63個(gè)字節,以下內容被省略. 通常,建議網(wǎng)頁(yè)標題不超過(guò)32個(gè)漢字,描述說(shuō)明不超過(guò)72個(gè)漢字.
  問(wèn): 要購買(mǎi)多少合適的網(wǎng)站服務(wù)器空間?
  答案: 根據網(wǎng)站的規模和要提供的服務(wù)確定要購買(mǎi)的空間(服務(wù)器),選擇功能強大的常規空間提供商,并根據用戶(hù)組的分布選擇訪(fǎng)問(wèn)提供商以確保用戶(hù)訪(fǎng)問(wèn)速度和穩定性. 查看全部

  
  1. 當網(wǎng)站權重較低時(shí),網(wǎng)站權重較低,百度的包容性容易波動(dòng),并且在重大更新過(guò)程中包容性可能會(huì )急劇增加或減少,因此我們必須考慮如何增加網(wǎng)站的權重.
  2. 內容不是很相關(guān);如果您的網(wǎng)站標題是關(guān)于美容的信息,但其中收錄許多在線(xiàn)促銷(xiāo)信息或最新的政治新聞,則該內容在發(fā)布時(shí)將包括在內,但是一段時(shí)間后,搜索引擎還會(huì )發(fā)現您的網(wǎng)站正在銷(xiāo)售狗肉,這些不相關(guān)的內容將被刪除,甚至會(huì )有更低的權利. 用戶(hù)體驗不好.
  3. 獨特的同義詞替換詞典可以生成原創(chuàng )文章,而無(wú)需更改文章的語(yǔ)義.
  4. 網(wǎng)站內容經(jīng)常更新
  5. 網(wǎng)站內容的質(zhì)量太差. 百度蜘蛛抓取頁(yè)面時(shí),是否會(huì )進(jìn)行進(jìn)一步分析,部分原因還取決于內容的質(zhì)量. 例如,在一個(gè)采集網(wǎng)站上,所有內容都是在Internet上采集的. 這樣的網(wǎng)站通常會(huì )具有異常的收錄性,因為對于百度蜘蛛來(lái)說(shuō),大量重復的內容根本毫無(wú)價(jià)值,而且爬網(wǎng)也浪費資源.
  6. 物品質(zhì)量差;文章的質(zhì)量也是決定收錄速度的重要因素. 如果文章質(zhì)量不好,即使網(wǎng)站的重量很大,也可能不收錄該文章. 一些網(wǎng)站依靠較高的網(wǎng)站重量在各處復制和采集文章. 即使使用偽原創(chuàng )軟件創(chuàng )建垃圾郵件文章,如果這種情況繼續發(fā)生,越來(lái)越多的垃圾郵件文章也會(huì )降低網(wǎng)站的重量.
  7. 人們通常會(huì )說(shuō)文章的原創(chuàng )性可能是文章的采集很麻煩,甚至沒(méi)有收錄. 因為百度蜘蛛痣喜歡原創(chuàng )內容,并且此原創(chuàng )內容需要被查看并且對用戶(hù)有幫助,所以它將具有很好的采集價(jià)值. 如果不是,那么它實(shí)際上不是偽原創(chuàng )的,不需要的. 花了很多時(shí)間.
  8. 將網(wǎng)站提交到搜索引擎網(wǎng)站管理員平臺. 目前,主流搜索引擎都具有網(wǎng)站管理員平臺. 因此,對于新網(wǎng)站,您仍應積極將URL提交給搜索引擎,并做好積極推送網(wǎng)站的工作. 這可以吸引搜索引擎蜘蛛來(lái)爬網(wǎng)站點(diǎn)并提高包容性. 至于如何提交,您可以參考搜索引擎網(wǎng)站管理員平臺的正式文件,這基本上并不困難.
  ————————————————————————————————
  問(wèn): 黑帽seo是什么意思?
  A: 黑帽SEO旨在利用和擴大搜索引擎的戰略缺陷(實(shí)際上,不存在完善的系統)來(lái)獲得更多的用戶(hù)訪(fǎng)問(wèn),而這些更多的訪(fǎng)問(wèn)是以犧牲用戶(hù)體驗為代價(jià)的. SEO行為.
  問(wèn): 頁(yè)面標題和描述適合多少個(gè)單詞?
  回答: 網(wǎng)站標題搜索引擎只能在搜索結果中顯示63個(gè)字節,以下內容被省略. 通常,建議網(wǎng)頁(yè)標題不超過(guò)32個(gè)漢字,描述說(shuō)明不超過(guò)72個(gè)漢字.
  問(wèn): 要購買(mǎi)多少合適的網(wǎng)站服務(wù)器空間?
  答案: 根據網(wǎng)站的規模和要提供的服務(wù)確定要購買(mǎi)的空間(服務(wù)器),選擇功能強大的常規空間提供商,并根據用戶(hù)組的分布選擇訪(fǎng)問(wèn)提供商以確保用戶(hù)訪(fǎng)問(wèn)速度和穩定性.

做網(wǎng)站SEO優(yōu)化,一定要正規就會(huì )有穩定的排行

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 315 次瀏覽 ? 2020-08-22 18:14 ? 來(lái)自相關(guān)話(huà)題

  做網(wǎng)站SEO優(yōu)化,一定要正規就會(huì )有穩定的排行
  隨著(zhù)百度算法的不斷調整,很多的采集網(wǎng)站,以及快排手段都遭到了百度的懲罰,百度k站無(wú)數,讓無(wú)數seoer“一朝回到解放前”,因此做網(wǎng)站SEO優(yōu)化,一定要正規就會(huì )有穩定的排行。
  
  網(wǎng)站頁(yè)面和內容
  頁(yè)面的布局,以及內容和網(wǎng)站的結構是我們網(wǎng)站最有效的推動(dòng),頁(yè)面內容的建立和網(wǎng)站整體結構的合理否是常??梢詻Q定我們優(yōu)化的結果。
  網(wǎng)站結構:網(wǎng)站的結構我們要理解htm、外鏈獲取方法、內部層次結構等對這個(gè)有興趣的同學(xué)可以查看我們(網(wǎng)站結構與設計怎么易于優(yōu)化)。
  保證網(wǎng)站安全
  網(wǎng)站的安全是我們網(wǎng)站排名提高的前提,沒(méi)有安全的網(wǎng)站,就不可能有排行的提示,事項,哪怕你把網(wǎng)站做出一個(gè)花來(lái),百度也不會(huì )對一個(gè)查查打不開(kāi),經(jīng)常被提權的網(wǎng)站有任何的SEOYOUH 排名。網(wǎng)站安全我們必須要做到以下幾點(diǎn):
  防采集:防采集是我們保證網(wǎng)站內容安全的一大手段。主要手段可以通過(guò)IP訪(fǎng)問(wèn)分級機制、鍵盤(pán)滑鼠行為、瀏覽器指紋、給假數據、驗證碼、防模擬搜索引擎爬蟲(chóng)、登陸、建立黑名單、必須完整渲染jswindows特殊對象、圖片防采集來(lái)完成。
  防入侵:防入侵可以通過(guò)身分驗證、數據加密傳輸、確保數據的完整、避免中間人攻擊、力度的扶植、瀏覽器安全標識、補丁、用戶(hù)權限、被動(dòng)檢測、端口等等方式來(lái)解決。
  數據安全:如果未能保證數據安全,那有可能你辛辛苦苦建立大半年的內容,執照回到解放前。主要的方式有:磁盤(pán)陣列、磁盤(pán)陣列、線(xiàn)下備份、文件云備份等。
  防功擊: 主要方防ddos,ddos是分布式拒絕服務(wù)攻擊(Distributed Denial of Service,簡(jiǎn)稱(chēng)DDoS)是指處于不同位置的多個(gè)攻擊者同時(shí)向一個(gè)或數個(gè) 目標發(fā)動(dòng)功擊,或者一個(gè)攻擊者控制了坐落不同位置的多臺機器并借助這種機器對受害者同時(shí)施行功擊。由于功擊的發(fā)出點(diǎn)是分布在不同地方的,這類(lèi)功擊稱(chēng)為分布式拒絕服務(wù)攻擊,其中的攻擊者可以有多個(gè)。
  干涉搜索引擎于、搜索引擎排名核心
  干涉搜索引擎主要有被動(dòng)爬取干涉、主動(dòng)遞交(哪些情況會(huì )干預搜索引擎)。引擎排行核心:內容相關(guān)性指標、原創(chuàng )性指標、可訪(fǎng)問(wèn)性指標、用戶(hù)性檢查。
  如何運用正規SEO優(yōu)化操作使網(wǎng)站有排行,經(jīng)過(guò)我們的分享早已有所了解,網(wǎng)站優(yōu)化的核心是用戶(hù)和符合搜索引擎抓取的規則,只要滿(mǎn)足這兩點(diǎn),網(wǎng)站優(yōu)化得心應手。
  深圳市云天下信息技術(shù)(集團)有限公司主營(yíng)、網(wǎng)站優(yōu)化、SEO優(yōu)化、優(yōu)化公司、網(wǎng)站SEO、SEO公司、SEO推廣、網(wǎng)絡(luò )推廣、網(wǎng)絡(luò )推廣公司、網(wǎng)站推廣、網(wǎng)站推廣公司、網(wǎng)絡(luò )營(yíng)銷(xiāo)、網(wǎng)站SEO優(yōu)化、網(wǎng)站優(yōu)化公司、SEO優(yōu)化公司、搜索引擎優(yōu)化、網(wǎng)站排名、快速排行、關(guān)鍵詞排行、關(guān)鍵詞優(yōu)化、網(wǎng)站建設、網(wǎng)站設計、網(wǎng)站制作、網(wǎng)站建設公司、網(wǎng)站設計公司、網(wǎng)站制作公司、整站優(yōu)化!官網(wǎng): 查看全部

  做網(wǎng)站SEO優(yōu)化,一定要正規就會(huì )有穩定的排行
  隨著(zhù)百度算法的不斷調整,很多的采集網(wǎng)站,以及快排手段都遭到了百度的懲罰,百度k站無(wú)數,讓無(wú)數seoer“一朝回到解放前”,因此做網(wǎng)站SEO優(yōu)化,一定要正規就會(huì )有穩定的排行。
  
  網(wǎng)站頁(yè)面和內容
  頁(yè)面的布局,以及內容和網(wǎng)站的結構是我們網(wǎng)站最有效的推動(dòng),頁(yè)面內容的建立和網(wǎng)站整體結構的合理否是常??梢詻Q定我們優(yōu)化的結果。
  網(wǎng)站結構:網(wǎng)站的結構我們要理解htm、外鏈獲取方法、內部層次結構等對這個(gè)有興趣的同學(xué)可以查看我們(網(wǎng)站結構與設計怎么易于優(yōu)化)。
  保證網(wǎng)站安全
  網(wǎng)站的安全是我們網(wǎng)站排名提高的前提,沒(méi)有安全的網(wǎng)站,就不可能有排行的提示,事項,哪怕你把網(wǎng)站做出一個(gè)花來(lái),百度也不會(huì )對一個(gè)查查打不開(kāi),經(jīng)常被提權的網(wǎng)站有任何的SEOYOUH 排名。網(wǎng)站安全我們必須要做到以下幾點(diǎn):
  防采集:防采集是我們保證網(wǎng)站內容安全的一大手段。主要手段可以通過(guò)IP訪(fǎng)問(wèn)分級機制、鍵盤(pán)滑鼠行為、瀏覽器指紋、給假數據、驗證碼、防模擬搜索引擎爬蟲(chóng)、登陸、建立黑名單、必須完整渲染jswindows特殊對象、圖片防采集來(lái)完成。
  防入侵:防入侵可以通過(guò)身分驗證、數據加密傳輸、確保數據的完整、避免中間人攻擊、力度的扶植、瀏覽器安全標識、補丁、用戶(hù)權限、被動(dòng)檢測、端口等等方式來(lái)解決。
  數據安全:如果未能保證數據安全,那有可能你辛辛苦苦建立大半年的內容,執照回到解放前。主要的方式有:磁盤(pán)陣列、磁盤(pán)陣列、線(xiàn)下備份、文件云備份等。
  防功擊: 主要方防ddos,ddos是分布式拒絕服務(wù)攻擊(Distributed Denial of Service,簡(jiǎn)稱(chēng)DDoS)是指處于不同位置的多個(gè)攻擊者同時(shí)向一個(gè)或數個(gè) 目標發(fā)動(dòng)功擊,或者一個(gè)攻擊者控制了坐落不同位置的多臺機器并借助這種機器對受害者同時(shí)施行功擊。由于功擊的發(fā)出點(diǎn)是分布在不同地方的,這類(lèi)功擊稱(chēng)為分布式拒絕服務(wù)攻擊,其中的攻擊者可以有多個(gè)。
  干涉搜索引擎于、搜索引擎排名核心
  干涉搜索引擎主要有被動(dòng)爬取干涉、主動(dòng)遞交(哪些情況會(huì )干預搜索引擎)。引擎排行核心:內容相關(guān)性指標、原創(chuàng )性指標、可訪(fǎng)問(wèn)性指標、用戶(hù)性檢查。
  如何運用正規SEO優(yōu)化操作使網(wǎng)站有排行,經(jīng)過(guò)我們的分享早已有所了解,網(wǎng)站優(yōu)化的核心是用戶(hù)和符合搜索引擎抓取的規則,只要滿(mǎn)足這兩點(diǎn),網(wǎng)站優(yōu)化得心應手。
  深圳市云天下信息技術(shù)(集團)有限公司主營(yíng)、網(wǎng)站優(yōu)化、SEO優(yōu)化、優(yōu)化公司、網(wǎng)站SEO、SEO公司、SEO推廣、網(wǎng)絡(luò )推廣、網(wǎng)絡(luò )推廣公司、網(wǎng)站推廣、網(wǎng)站推廣公司、網(wǎng)絡(luò )營(yíng)銷(xiāo)、網(wǎng)站SEO優(yōu)化、網(wǎng)站優(yōu)化公司、SEO優(yōu)化公司、搜索引擎優(yōu)化、網(wǎng)站排名、快速排行、關(guān)鍵詞排行、關(guān)鍵詞優(yōu)化、網(wǎng)站建設、網(wǎng)站設計、網(wǎng)站制作、網(wǎng)站建設公司、網(wǎng)站設計公司、網(wǎng)站制作公司、整站優(yōu)化!官網(wǎng):

請問(wèn)有什么好用的校友會(huì )平臺?需要構建數據庫嗎?

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 167 次瀏覽 ? 2020-08-20 00:59 ? 來(lái)自相關(guān)話(huà)題

  請問(wèn)有什么好用的校友會(huì )平臺?需要構建數據庫嗎?
  一、傳統校友數據庫系統特性與不足
  【1】數據搜集及更新冗長(cháng)
  主要來(lái)源于原有紙質(zhì)化登記及電子表格錄入,通常都借助校友會(huì )負責人人工統籌搜集;信息錄入后就極少變更,而校友信息總是在不斷變換(如更換電話(huà)、單位、所在城市等等),學(xué)校倘若更新數據庫,則又需重新收錄。
  【2】系統封閉,不具備開(kāi)放性、互動(dòng)性
  傳統數據庫系統屬于校友會(huì )老師的雙向管理平臺,雖然便捷中學(xué)管理校友數據,但互動(dòng)性低,難以滿(mǎn)足校友與母校溝通、校友聯(lián)絡(luò )校友等需求。
  【3】成本高,需專(zhuān)人維護,迭代升級平緩、低效
  學(xué)校開(kāi)發(fā)校友數據庫系統,通常需專(zhuān)人維護(如網(wǎng)路辦),一旦出現問(wèn)題,則需專(zhuān)門(mén)人員到場(chǎng)解決。加之隨著(zhù)工作的推動(dòng),校友會(huì )部門(mén)將會(huì )須要更多新功能,迭代升級過(guò)程中,又會(huì )涉及人力、物力、財力的再度調配及使用,整個(gè)周期一般起碼須要半年至一年。
  【4】數據利用率低,應用價(jià)值小
  存儲在本地數據庫的信息,未能激活,一般僅限于查詢(xún)、分類(lèi)、統計等基礎使用上,難以廣泛應用于各類(lèi)現實(shí)場(chǎng)景中,校友數據的價(jià)值難以充分利用。
  二、“互聯(lián)網(wǎng)+”校友會(huì )系統平臺
  自2016年開(kāi)始,全國諸多院校都開(kāi)始了互聯(lián)網(wǎng)模式下的校友系統平臺的追尋與建設。
  通常業(yè)內稱(chēng)傳統校友會(huì )數據庫建設為校友會(huì )工作的1.0時(shí)期,通過(guò)互聯(lián)網(wǎng)技術(shù)推動(dòng)校友會(huì )工作高效發(fā)展的階段為2.0時(shí)期。
  
  以友笑·社匯為例,2.0系統有以下優(yōu)勢與亮點(diǎn):
 ?。?)以?xún)热?、活?dòng)等為依托,多方、多款式搜集數據借助于內容、活動(dòng)等載體,嵌入信息搜集的需求,把數據搜集做到自然而然,總會(huì )、分會(huì )直接可便捷的進(jìn)行信息共享。
 ?。?)傳播快,互動(dòng)性強
  如華誕、地方晚會(huì )、返校約請、項目捐款等信息,依托互聯(lián)網(wǎng)的傳播手段(如陌陌、H5頁(yè)面等)可快速傳達到諸多校友的面前,每一位校友都屬于傳播連接點(diǎn),形成指數級宣傳和下降。移動(dòng)互聯(lián)網(wǎng)模式的社匯系統,不僅限于中學(xué)向校友傳播內容或動(dòng)態(tài),也支持校友與校友的互動(dòng),達成溝通與合作,以及校友對母校的交流和回饋。
 ?。?)雙向溝通互動(dòng),加強校友與母校的聯(lián)絡(luò )
  周期性溝通聯(lián)絡(luò )校友,讓校友工作愈加溫暖。借助互聯(lián)網(wǎng)的高效方便工具,可通過(guò)短信、短信等周期性?xún)热?,利用感恩橋概念,讓校友體會(huì )母校的發(fā)展動(dòng)態(tài),并參與到母校的建設中來(lái)。
 ?。?)數據應用價(jià)值大,使用場(chǎng)景廣泛
  學(xué)??山柚S褦祿e辦更多應用場(chǎng)景的拓展,利用平臺與校友資源,打造校企合作良性互利模式,為校友提供更多服務(wù)。社匯系統平臺支持對于校友企業(yè)的展示、宣傳與合作,校友云卡可以實(shí)現“高校-校企-校友”三方互惠互利模式。
 ?。?)融入AI技術(shù),挖掘優(yōu)秀校友信息和資源
  服務(wù)全體校友是基礎,維護優(yōu)秀校友是關(guān)鍵。借助AI技術(shù),挖掘優(yōu)秀校友資源,找到優(yōu)秀校友,讓校友工作在更有重點(diǎn)。
 ?。?)云服務(wù)器儲存,維護、升級方便高效
  以阿里云為代表的云服務(wù)儲存技術(shù),讓系統的維護和迭代更新,更加安全、快速、高效,學(xué)校無(wú)需專(zhuān)人維護,總會(huì )老師只需使用和提需求,升級更新全交給專(zhuān)業(yè)團隊,新功能的降低與優(yōu)化,通常只需7-15天。
  放上幾個(gè)算是國外做得最好的校友會(huì )社群鏈接:
  北京大學(xué)校友會(huì )
  
  浙江大學(xué)校友總會(huì )
  
  總結:系統仍然只是工具,核心的工作還須要校友會(huì )老師實(shí)際去舉辦,因此營(yíng)運是關(guān)鍵。通過(guò)“系統工具+運營(yíng)”的高效模式,可以使資源、人力有限的院校,實(shí)現校友工作的逐步趕超。 查看全部

  請問(wèn)有什么好用的校友會(huì )平臺?需要構建數據庫嗎?
  一、傳統校友數據庫系統特性與不足
  【1】數據搜集及更新冗長(cháng)
  主要來(lái)源于原有紙質(zhì)化登記及電子表格錄入,通常都借助校友會(huì )負責人人工統籌搜集;信息錄入后就極少變更,而校友信息總是在不斷變換(如更換電話(huà)、單位、所在城市等等),學(xué)校倘若更新數據庫,則又需重新收錄。
  【2】系統封閉,不具備開(kāi)放性、互動(dòng)性
  傳統數據庫系統屬于校友會(huì )老師的雙向管理平臺,雖然便捷中學(xué)管理校友數據,但互動(dòng)性低,難以滿(mǎn)足校友與母校溝通、校友聯(lián)絡(luò )校友等需求。
  【3】成本高,需專(zhuān)人維護,迭代升級平緩、低效
  學(xué)校開(kāi)發(fā)校友數據庫系統,通常需專(zhuān)人維護(如網(wǎng)路辦),一旦出現問(wèn)題,則需專(zhuān)門(mén)人員到場(chǎng)解決。加之隨著(zhù)工作的推動(dòng),校友會(huì )部門(mén)將會(huì )須要更多新功能,迭代升級過(guò)程中,又會(huì )涉及人力、物力、財力的再度調配及使用,整個(gè)周期一般起碼須要半年至一年。
  【4】數據利用率低,應用價(jià)值小
  存儲在本地數據庫的信息,未能激活,一般僅限于查詢(xún)、分類(lèi)、統計等基礎使用上,難以廣泛應用于各類(lèi)現實(shí)場(chǎng)景中,校友數據的價(jià)值難以充分利用。
  二、“互聯(lián)網(wǎng)+”校友會(huì )系統平臺
  自2016年開(kāi)始,全國諸多院校都開(kāi)始了互聯(lián)網(wǎng)模式下的校友系統平臺的追尋與建設。
  通常業(yè)內稱(chēng)傳統校友會(huì )數據庫建設為校友會(huì )工作的1.0時(shí)期,通過(guò)互聯(lián)網(wǎng)技術(shù)推動(dòng)校友會(huì )工作高效發(fā)展的階段為2.0時(shí)期。
  
  以友笑·社匯為例,2.0系統有以下優(yōu)勢與亮點(diǎn):
 ?。?)以?xún)热?、活?dòng)等為依托,多方、多款式搜集數據借助于內容、活動(dòng)等載體,嵌入信息搜集的需求,把數據搜集做到自然而然,總會(huì )、分會(huì )直接可便捷的進(jìn)行信息共享。
 ?。?)傳播快,互動(dòng)性強
  如華誕、地方晚會(huì )、返校約請、項目捐款等信息,依托互聯(lián)網(wǎng)的傳播手段(如陌陌、H5頁(yè)面等)可快速傳達到諸多校友的面前,每一位校友都屬于傳播連接點(diǎn),形成指數級宣傳和下降。移動(dòng)互聯(lián)網(wǎng)模式的社匯系統,不僅限于中學(xué)向校友傳播內容或動(dòng)態(tài),也支持校友與校友的互動(dòng),達成溝通與合作,以及校友對母校的交流和回饋。
 ?。?)雙向溝通互動(dòng),加強校友與母校的聯(lián)絡(luò )
  周期性溝通聯(lián)絡(luò )校友,讓校友工作愈加溫暖。借助互聯(lián)網(wǎng)的高效方便工具,可通過(guò)短信、短信等周期性?xún)热?,利用感恩橋概念,讓校友體會(huì )母校的發(fā)展動(dòng)態(tài),并參與到母校的建設中來(lái)。
 ?。?)數據應用價(jià)值大,使用場(chǎng)景廣泛
  學(xué)??山柚S褦祿e辦更多應用場(chǎng)景的拓展,利用平臺與校友資源,打造校企合作良性互利模式,為校友提供更多服務(wù)。社匯系統平臺支持對于校友企業(yè)的展示、宣傳與合作,校友云卡可以實(shí)現“高校-校企-校友”三方互惠互利模式。
 ?。?)融入AI技術(shù),挖掘優(yōu)秀校友信息和資源
  服務(wù)全體校友是基礎,維護優(yōu)秀校友是關(guān)鍵。借助AI技術(shù),挖掘優(yōu)秀校友資源,找到優(yōu)秀校友,讓校友工作在更有重點(diǎn)。
 ?。?)云服務(wù)器儲存,維護、升級方便高效
  以阿里云為代表的云服務(wù)儲存技術(shù),讓系統的維護和迭代更新,更加安全、快速、高效,學(xué)校無(wú)需專(zhuān)人維護,總會(huì )老師只需使用和提需求,升級更新全交給專(zhuān)業(yè)團隊,新功能的降低與優(yōu)化,通常只需7-15天。
  放上幾個(gè)算是國外做得最好的校友會(huì )社群鏈接:
  北京大學(xué)校友會(huì )
  
  浙江大學(xué)校友總會(huì )
  
  總結:系統仍然只是工具,核心的工作還須要校友會(huì )老師實(shí)際去舉辦,因此營(yíng)運是關(guān)鍵。通過(guò)“系統工具+運營(yíng)”的高效模式,可以使資源、人力有限的院校,實(shí)現校友工作的逐步趕超。

提交網(wǎng)站到搜索引擎站長(cháng)平臺網(wǎng)路推廣優(yōu)化32云丶速丶捷47

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 181 次瀏覽 ? 2020-08-19 05:14 ? 來(lái)自相關(guān)話(huà)題

  提交網(wǎng)站到搜索引擎站長(cháng)平臺網(wǎng)路推廣優(yōu)化32云丶速丶捷47
  
  1、這些操作會(huì )使百度不收錄新站內容Robots.txt只能?chē)澜ト?,無(wú)法嚴禁收錄
  2、關(guān)于網(wǎng)站優(yōu)化如何做好原創(chuàng ),云優(yōu)SEO在此僅提兩點(diǎn)(細品):
  3、網(wǎng)站一直不收錄的誘因內容質(zhì)量差,內容是SEO優(yōu)化的最重要部份,也是站長(cháng)最容易忽視的部份,站長(cháng)往往為了湊內容而采集其它網(wǎng)站的數據,或是進(jìn)行簡(jiǎn)單的偽原創(chuàng ),嚴重影響了用戶(hù)體驗,百度非常注重原創(chuàng )內容,而且始終嚴打盜版內容,如果網(wǎng)站內容采集于互聯(lián)網(wǎng),而且都是低質(zhì)量的文章,百度不收錄是正常的。
  4、快速收錄上線(xiàn)對SEO意味著(zhù)哪些?快速收錄上線(xiàn)站點(diǎn)管理一方面是便捷百度開(kāi)發(fā)人員維護調試,統一化管理,另一方面也便捷的用戶(hù),這樣不用多個(gè)后臺去遞交(以前自動(dòng)遞交須要到站點(diǎn)管理,天級遞交須要到聯(lián)通專(zhuān)區后臺)??焖偈珍浌δ苌暇€(xiàn)也就代表聯(lián)通專(zhuān)區距離徹底下線(xiàn)也不遠了,或者就是這幾天了。
  5、文章內容生成工具雖然說(shuō)白了與偽原創(chuàng )工具一個(gè)樣,自動(dòng)生成的文章可讀性太差,非常影響用戶(hù)體驗?;緝热菥褪枪菲ú煌?,上句不接下句,自動(dòng)插入些關(guān)鍵詞來(lái)調整文章相關(guān)性。這種效率比文章自動(dòng)采集也不差,能日更成千上萬(wàn)篇文章。
  6、提高文章質(zhì)量;數量是一個(gè)方面,質(zhì)量也是很重要的一個(gè)方面,數量要構建在質(zhì)量的基礎上,不能以犧牲文章質(zhì)量為代價(jià)來(lái)成全文章數量,失去了質(zhì)量的文章,數量再多也只是浮云而已,搜索引擎最終會(huì )依據用戶(hù)體驗來(lái)給與一篇文章排名,好文章指的是用戶(hù)喜歡的文章,用戶(hù)不喜歡的文章,是不可能被搜索引擎認可的,并不是說(shuō)收錄的內容就會(huì )給與排行。
  7、域名歷史選擇域名要非常慎重,確認域名是否有以前使用的痕跡,有收錄歷史的域名千萬(wàn)別用,說(shuō)不定就是一個(gè)被降權的域名,若真使用了這樣的域名,是很難洗白的,尤其對于個(gè)人站長(cháng)而言,經(jīng)營(yíng)的都是一些個(gè)人博客,單頁(yè)網(wǎng)站等,想要洗白簡(jiǎn)直比登天還難。 查看全部

  提交網(wǎng)站到搜索引擎站長(cháng)平臺網(wǎng)路推廣優(yōu)化32云丶速丶捷47
  
  1、這些操作會(huì )使百度不收錄新站內容Robots.txt只能?chē)澜ト?,無(wú)法嚴禁收錄
  2、關(guān)于網(wǎng)站優(yōu)化如何做好原創(chuàng ),云優(yōu)SEO在此僅提兩點(diǎn)(細品):
  3、網(wǎng)站一直不收錄的誘因內容質(zhì)量差,內容是SEO優(yōu)化的最重要部份,也是站長(cháng)最容易忽視的部份,站長(cháng)往往為了湊內容而采集其它網(wǎng)站的數據,或是進(jìn)行簡(jiǎn)單的偽原創(chuàng ),嚴重影響了用戶(hù)體驗,百度非常注重原創(chuàng )內容,而且始終嚴打盜版內容,如果網(wǎng)站內容采集于互聯(lián)網(wǎng),而且都是低質(zhì)量的文章,百度不收錄是正常的。
  4、快速收錄上線(xiàn)對SEO意味著(zhù)哪些?快速收錄上線(xiàn)站點(diǎn)管理一方面是便捷百度開(kāi)發(fā)人員維護調試,統一化管理,另一方面也便捷的用戶(hù),這樣不用多個(gè)后臺去遞交(以前自動(dòng)遞交須要到站點(diǎn)管理,天級遞交須要到聯(lián)通專(zhuān)區后臺)??焖偈珍浌δ苌暇€(xiàn)也就代表聯(lián)通專(zhuān)區距離徹底下線(xiàn)也不遠了,或者就是這幾天了。
  5、文章內容生成工具雖然說(shuō)白了與偽原創(chuàng )工具一個(gè)樣,自動(dòng)生成的文章可讀性太差,非常影響用戶(hù)體驗?;緝热菥褪枪菲ú煌?,上句不接下句,自動(dòng)插入些關(guān)鍵詞來(lái)調整文章相關(guān)性。這種效率比文章自動(dòng)采集也不差,能日更成千上萬(wàn)篇文章。
  6、提高文章質(zhì)量;數量是一個(gè)方面,質(zhì)量也是很重要的一個(gè)方面,數量要構建在質(zhì)量的基礎上,不能以犧牲文章質(zhì)量為代價(jià)來(lái)成全文章數量,失去了質(zhì)量的文章,數量再多也只是浮云而已,搜索引擎最終會(huì )依據用戶(hù)體驗來(lái)給與一篇文章排名,好文章指的是用戶(hù)喜歡的文章,用戶(hù)不喜歡的文章,是不可能被搜索引擎認可的,并不是說(shuō)收錄的內容就會(huì )給與排行。
  7、域名歷史選擇域名要非常慎重,確認域名是否有以前使用的痕跡,有收錄歷史的域名千萬(wàn)別用,說(shuō)不定就是一個(gè)被降權的域名,若真使用了這樣的域名,是很難洗白的,尤其對于個(gè)人站長(cháng)而言,經(jīng)營(yíng)的都是一些個(gè)人博客,單頁(yè)網(wǎng)站等,想要洗白簡(jiǎn)直比登天還難。

網(wǎng)絡(luò )剖析系列之五 Wireshark介紹與優(yōu)缺點(diǎn)剖析

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 598 次瀏覽 ? 2020-08-17 20:28 ? 來(lái)自相關(guān)話(huà)題

  網(wǎng)絡(luò )剖析系列之五 Wireshark介紹與優(yōu)缺點(diǎn)剖析
  作為全球使用與開(kāi)發(fā)維護人數最多的數據包剖析軟件,Wireshark受到廣大合同剖析愛(ài)好者、網(wǎng)絡(luò )運維工程師及科研人員的偏愛(ài)。從本節開(kāi)始,將逐漸深入介紹Wireshark的相關(guān)內容,包括產(chǎn)品安裝、配置和使用等信息。
  Wireshark簡(jiǎn)史
  Wireshark的作者Gerald Combs,于1998年因為在校項目需求而開(kāi)發(fā),早期名為Ethereal。Wireshark是世界上最重要和最廣泛使用的網(wǎng)路合同剖析儀。它可以使您在微觀(guān)層面上見(jiàn)到網(wǎng)路上發(fā)生的事情,并且是許多商業(yè)和非營(yíng)利企業(yè),政府機構和教育機構的事實(shí)上(通常是法律上的)標準。由于全球網(wǎng)路專(zhuān)家的志愿者貢獻,Wireshark的發(fā)展蓬勃發(fā)展,并且是Gerald Combs在1998年啟動(dòng)的項目的延續。
  Ethereal和Wireshark之間有個(gè)小插曲。在發(fā)布了Ethereal 8年以后, Combs離職另謀高就,但是在哪個(gè)時(shí)侯他的雇主公司把握著(zhù)Ethereal的商標權,而Combs也沒(méi)能和其雇主就取得 Ethereal商標達成協(xié)議。于是Combs和整個(gè)開(kāi)發(fā)團隊在2006年中的時(shí)侯將這個(gè)項目重新命名為Wireshark。Wireshark隨即迅速地取得了大眾的喜愛(ài),而其合作開(kāi)發(fā)團隊人數也達到500人以上,然而之前的Ethereal項目卻止步不前。
  
  Wireshark優(yōu)缺點(diǎn)
  在好多地方,只見(jiàn)到有人介紹Wireshark的優(yōu)點(diǎn)。但在現代企業(yè)級環(huán)境中快速采集和剖析數據包,尤其動(dòng)輒跟業(yè)務(wù)、應用及用戶(hù)性能問(wèn)題的智能告警和關(guān)聯(lián)分析,使用Wireshark通過(guò)傳統的方法進(jìn)行剖析和故障定位,效率低下不說(shuō),有些功能則未能實(shí)現。
  Wireshark優(yōu)點(diǎn)
  Wireshark在日常應用中具有許多優(yōu)點(diǎn),無(wú)論你是初學(xué)者還是數據包剖析專(zhuān)家, Wireshark都能通過(guò)豐富的功能來(lái)滿(mǎn)足你的須要。
  支持的合同
  Wireshark在支持合同的數目方面是出類(lèi)拔萃的,目前已提供了超過(guò)上千種種合同的支持。這些合同包括從最基礎的IP協(xié)議和DHCP合同到中級的專(zhuān)用合同例如Appletalk和Bittorrente等。由于Wireshark在開(kāi)源模式下進(jìn)行開(kāi)發(fā),每次更新還會(huì )降低一些對新合同的支持。
  當然,在一些特殊情況下,Wireshark可能并不支持你所要的合同,你還可以通過(guò)目己編撰代碼提供相應的支持,并提供給Wireshark的開(kāi)發(fā)者,以便于讓之能被收錄在以后版本中。
  用戶(hù)友好度
  Wireshark的界面是數據包嗅探工具中最容易理解的工具之一?;贕UI,并提供了清晰的菜單欄和簡(jiǎn)明的布局。為了提高實(shí)用性,它還提供了不同合同的彩色高亮,以及通過(guò)圖形展示原創(chuàng )數據細節等不同功能。與 tcpdump使用復雜命令行的這些數據包嗅探工具相比, Wireshark的圖形化界面對于這些數據包剖析的初學(xué)者而言,是非常便捷的。
  價(jià)格
  由于Wireshark是開(kāi)源的,它在價(jià)錢(qián)里面是無(wú)以抗衡的,Wireshark是依循GPL協(xié)議發(fā)布的自由軟件,任何人無(wú)論出于私人還是商業(yè)目的,都可以下載而且使用 Wireshark。
  程序支持
  一個(gè)軟件的勝敗一般取決于其程序支持的優(yōu)劣。雖然象Wireshark這樣的自由分發(fā)軟件極少會(huì )有即將的程序支持,而是依賴(lài)于開(kāi)源社區的用戶(hù)群,但是辛運的是, Wireshark社區是最活躍的開(kāi)源項目社區之ー。Wireshark網(wǎng)頁(yè)上給出了許多種程序支持的相關(guān)鏈接,包括在線(xiàn)文檔、支持與開(kāi)發(fā)wiki、FAQ,并可以注冊Wireshark開(kāi)發(fā)者都關(guān)注的電郵列表。
  支持的操作系統
  Wireshark對主流的操作系統都提供了支持,其中包括Windows、Mac OS X以及基于Linux的系統。你可以在Wireshark的主頁(yè)上查詢(xún)所有 Wireshark支持的操作系統列表。
  Wireshark缺點(diǎn)
  在講完Wireshark優(yōu)點(diǎn)后,再瞧瞧Wireshark的缺點(diǎn)。尤其說(shuō)說(shuō)在現代企業(yè)網(wǎng)路環(huán)境中使用的話(huà),其存在的不足。
  數據采集能力弱
  在現代企業(yè)網(wǎng)路大流量傳輸環(huán)境下,以便攜式工具采集流量,無(wú)論對采集系統硬件的要求,還是數據保存采集靈活性和存儲能力,Wireshark就會(huì )碰到各類(lèi)困局。
  舉個(gè)事例,200Mbps環(huán)境下,如果要采集60秒的數據包,則這個(gè)數據包大小為1.2G,而數據包個(gè)數超過(guò)百萬(wàn)級,這對快速剖析問(wèn)題存在挑戰。
  圖形界面不夠直觀(guān)
  在Wireshark中,缺乏形象直觀(guān)的圖形詮釋?zhuān)顼灎顖D、柱狀圖等等靈活的詮釋方法。
  智能剖析不夠
  Wireshark對合同底層解碼能力太強,但要剖析應用層,或應用層多個(gè)指標關(guān)聯(lián)分析,則須要耗費大量的時(shí)間和精力去完成。
  專(zhuān)業(yè)性要求高
  Wireshark似乎具備詳盡的剖析能力,但剖析結果常常因人而異。對網(wǎng)路知識、協(xié)議知識的把握程度,決定了是否就能快速精確的剖析出問(wèn)題根本誘因。
  以剖析某個(gè)應用的響應響應速率為例,Wireshark須要過(guò)濾出獨立的會(huì )話(huà)信息,標記各類(lèi)時(shí)間信息,然后在文本界面得出相對精確的推論。而這個(gè)過(guò)程絕對是對使用者技術(shù)能力的考驗。
  下圖是網(wǎng)深科技NetInside網(wǎng)路流量剖析系統對響應時(shí)間的剖析結果,通過(guò)這些直觀(guān)的剖析,系統對客戶(hù)端訪(fǎng)問(wèn)服務(wù)器過(guò)程中能形成的所有時(shí)間信息,如聯(lián)接構建的時(shí)間、服務(wù)器響應時(shí)間、數據傳輸時(shí)間,重傳時(shí)間等等。通過(guò)圖形形式,一目了然。
  
  續更(下一節《Wireshark安裝》)
  更多請點(diǎn)擊了解 查看全部

  網(wǎng)絡(luò )剖析系列之五 Wireshark介紹與優(yōu)缺點(diǎn)剖析
  作為全球使用與開(kāi)發(fā)維護人數最多的數據包剖析軟件,Wireshark受到廣大合同剖析愛(ài)好者、網(wǎng)絡(luò )運維工程師及科研人員的偏愛(ài)。從本節開(kāi)始,將逐漸深入介紹Wireshark的相關(guān)內容,包括產(chǎn)品安裝、配置和使用等信息。
  Wireshark簡(jiǎn)史
  Wireshark的作者Gerald Combs,于1998年因為在校項目需求而開(kāi)發(fā),早期名為Ethereal。Wireshark是世界上最重要和最廣泛使用的網(wǎng)路合同剖析儀。它可以使您在微觀(guān)層面上見(jiàn)到網(wǎng)路上發(fā)生的事情,并且是許多商業(yè)和非營(yíng)利企業(yè),政府機構和教育機構的事實(shí)上(通常是法律上的)標準。由于全球網(wǎng)路專(zhuān)家的志愿者貢獻,Wireshark的發(fā)展蓬勃發(fā)展,并且是Gerald Combs在1998年啟動(dòng)的項目的延續。
  Ethereal和Wireshark之間有個(gè)小插曲。在發(fā)布了Ethereal 8年以后, Combs離職另謀高就,但是在哪個(gè)時(shí)侯他的雇主公司把握著(zhù)Ethereal的商標權,而Combs也沒(méi)能和其雇主就取得 Ethereal商標達成協(xié)議。于是Combs和整個(gè)開(kāi)發(fā)團隊在2006年中的時(shí)侯將這個(gè)項目重新命名為Wireshark。Wireshark隨即迅速地取得了大眾的喜愛(ài),而其合作開(kāi)發(fā)團隊人數也達到500人以上,然而之前的Ethereal項目卻止步不前。
  
  Wireshark優(yōu)缺點(diǎn)
  在好多地方,只見(jiàn)到有人介紹Wireshark的優(yōu)點(diǎn)。但在現代企業(yè)級環(huán)境中快速采集和剖析數據包,尤其動(dòng)輒跟業(yè)務(wù)、應用及用戶(hù)性能問(wèn)題的智能告警和關(guān)聯(lián)分析,使用Wireshark通過(guò)傳統的方法進(jìn)行剖析和故障定位,效率低下不說(shuō),有些功能則未能實(shí)現。
  Wireshark優(yōu)點(diǎn)
  Wireshark在日常應用中具有許多優(yōu)點(diǎn),無(wú)論你是初學(xué)者還是數據包剖析專(zhuān)家, Wireshark都能通過(guò)豐富的功能來(lái)滿(mǎn)足你的須要。
  支持的合同
  Wireshark在支持合同的數目方面是出類(lèi)拔萃的,目前已提供了超過(guò)上千種種合同的支持。這些合同包括從最基礎的IP協(xié)議和DHCP合同到中級的專(zhuān)用合同例如Appletalk和Bittorrente等。由于Wireshark在開(kāi)源模式下進(jìn)行開(kāi)發(fā),每次更新還會(huì )降低一些對新合同的支持。
  當然,在一些特殊情況下,Wireshark可能并不支持你所要的合同,你還可以通過(guò)目己編撰代碼提供相應的支持,并提供給Wireshark的開(kāi)發(fā)者,以便于讓之能被收錄在以后版本中。
  用戶(hù)友好度
  Wireshark的界面是數據包嗅探工具中最容易理解的工具之一?;贕UI,并提供了清晰的菜單欄和簡(jiǎn)明的布局。為了提高實(shí)用性,它還提供了不同合同的彩色高亮,以及通過(guò)圖形展示原創(chuàng )數據細節等不同功能。與 tcpdump使用復雜命令行的這些數據包嗅探工具相比, Wireshark的圖形化界面對于這些數據包剖析的初學(xué)者而言,是非常便捷的。
  價(jià)格
  由于Wireshark是開(kāi)源的,它在價(jià)錢(qián)里面是無(wú)以抗衡的,Wireshark是依循GPL協(xié)議發(fā)布的自由軟件,任何人無(wú)論出于私人還是商業(yè)目的,都可以下載而且使用 Wireshark。
  程序支持
  一個(gè)軟件的勝敗一般取決于其程序支持的優(yōu)劣。雖然象Wireshark這樣的自由分發(fā)軟件極少會(huì )有即將的程序支持,而是依賴(lài)于開(kāi)源社區的用戶(hù)群,但是辛運的是, Wireshark社區是最活躍的開(kāi)源項目社區之ー。Wireshark網(wǎng)頁(yè)上給出了許多種程序支持的相關(guān)鏈接,包括在線(xiàn)文檔、支持與開(kāi)發(fā)wiki、FAQ,并可以注冊Wireshark開(kāi)發(fā)者都關(guān)注的電郵列表。
  支持的操作系統
  Wireshark對主流的操作系統都提供了支持,其中包括Windows、Mac OS X以及基于Linux的系統。你可以在Wireshark的主頁(yè)上查詢(xún)所有 Wireshark支持的操作系統列表。
  Wireshark缺點(diǎn)
  在講完Wireshark優(yōu)點(diǎn)后,再瞧瞧Wireshark的缺點(diǎn)。尤其說(shuō)說(shuō)在現代企業(yè)網(wǎng)路環(huán)境中使用的話(huà),其存在的不足。
  數據采集能力弱
  在現代企業(yè)網(wǎng)路大流量傳輸環(huán)境下,以便攜式工具采集流量,無(wú)論對采集系統硬件的要求,還是數據保存采集靈活性和存儲能力,Wireshark就會(huì )碰到各類(lèi)困局。
  舉個(gè)事例,200Mbps環(huán)境下,如果要采集60秒的數據包,則這個(gè)數據包大小為1.2G,而數據包個(gè)數超過(guò)百萬(wàn)級,這對快速剖析問(wèn)題存在挑戰。
  圖形界面不夠直觀(guān)
  在Wireshark中,缺乏形象直觀(guān)的圖形詮釋?zhuān)顼灎顖D、柱狀圖等等靈活的詮釋方法。
  智能剖析不夠
  Wireshark對合同底層解碼能力太強,但要剖析應用層,或應用層多個(gè)指標關(guān)聯(lián)分析,則須要耗費大量的時(shí)間和精力去完成。
  專(zhuān)業(yè)性要求高
  Wireshark似乎具備詳盡的剖析能力,但剖析結果常常因人而異。對網(wǎng)路知識、協(xié)議知識的把握程度,決定了是否就能快速精確的剖析出問(wèn)題根本誘因。
  以剖析某個(gè)應用的響應響應速率為例,Wireshark須要過(guò)濾出獨立的會(huì )話(huà)信息,標記各類(lèi)時(shí)間信息,然后在文本界面得出相對精確的推論。而這個(gè)過(guò)程絕對是對使用者技術(shù)能力的考驗。
  下圖是網(wǎng)深科技NetInside網(wǎng)路流量剖析系統對響應時(shí)間的剖析結果,通過(guò)這些直觀(guān)的剖析,系統對客戶(hù)端訪(fǎng)問(wèn)服務(wù)器過(guò)程中能形成的所有時(shí)間信息,如聯(lián)接構建的時(shí)間、服務(wù)器響應時(shí)間、數據傳輸時(shí)間,重傳時(shí)間等等。通過(guò)圖形形式,一目了然。
  
  續更(下一節《Wireshark安裝》)
  更多請點(diǎn)擊了解

APP數據埋點(diǎn)分類(lèi)方法

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 269 次瀏覽 ? 2020-08-16 22:21 ? 來(lái)自相關(guān)話(huà)題

  APP數據埋點(diǎn)分類(lèi)方法
  1、數據埋點(diǎn)的重要性
  在現實(shí)工作中,數據的整體流程為:數據生產(chǎn)-數據采集-數據處理-數據剖析和挖掘-數據可視化,其中,數據采集是很重要的一個(gè)環(huán)節,數據采集得全不全、對不對,直接決定數據廣度和質(zhì)量,影響后續所有的環(huán)節。如果采集的數據維度極少,那我們想要進(jìn)行深入剖析的時(shí)侯才會(huì )變得無(wú)處著(zhù)手,比如我們想要剖析某個(gè)APP某個(gè)功能的使用情況,但是卻根本沒(méi)有采集相關(guān)的數據,那我們也不能進(jìn)行后續的剖析了。如果數據采集是錯誤的,如漏報、誤報等,那這肯定是太致命的,會(huì )欺騙我們基于數據的決策。
  在互聯(lián)網(wǎng)行業(yè),數據采集的形式按照采集數據端的不同,主要分為網(wǎng)頁(yè)數據采集、APP數據采集。網(wǎng)頁(yè)數據的采集主要是使用JS采集,常用的數據剖析工具主要是Google Analytics,APP數據采集主要是通過(guò)埋點(diǎn)采集,主要有后端埋點(diǎn)和前端埋點(diǎn)之分,相應的移動(dòng)端數據剖析廠(chǎng)商也好多。隨著(zhù)越來(lái)越多的用戶(hù)傾向于在移動(dòng)端上網(wǎng)和使用APP,APP數據采集就變得愈發(fā)重要。
  2、數據埋點(diǎn)是哪些
  要做好APP的數據剖析,讓數據支撐決策、產(chǎn)品和營(yíng)運,首先是要有數據,就像煮飯須要米一樣,而要采集用戶(hù)數據就要進(jìn)行APP數據埋點(diǎn)。產(chǎn)品人員在產(chǎn)品規劃時(shí)就要思索數據埋點(diǎn)問(wèn)題,如果在產(chǎn)品外發(fā)后再考慮如何埋點(diǎn),就會(huì )造成前期版本用戶(hù)的數據難以搜集,想要看某個(gè)數據時(shí)就無(wú)可奈何,只有等到新版本建立來(lái)填補。思考要埋什么點(diǎn)的時(shí)侯,要緊密結合產(chǎn)品、運營(yíng)需求,并跟數據剖析、ETL人員等進(jìn)行充分溝通,例如須要監控什么指標、需要通過(guò)什么埋點(diǎn)來(lái)實(shí)現、怎樣埋點(diǎn)更能符合統計的需求,這是一個(gè)集思廣益的過(guò)程。
  數據埋點(diǎn)包括客戶(hù)端后端埋點(diǎn)和服務(wù)端前端埋點(diǎn),客戶(hù)端后端埋點(diǎn)是用戶(hù)在客戶(hù)端上的操作記錄,服務(wù)端前端埋點(diǎn)是用戶(hù)在線(xiàn)懇求服務(wù)器的日志,兩者各有利弊,最好二者都埋點(diǎn),可以互相補充。
  數據埋點(diǎn)雖然就是在產(chǎn)品功能代碼前面加上統計代碼,記錄用戶(hù)操作行為,當用戶(hù)進(jìn)行某個(gè)操作時(shí),如點(diǎn)擊某個(gè)按鍵、呈現某個(gè)頁(yè)面等,開(kāi)發(fā)會(huì )在相應地方加上統計代碼,埋點(diǎn)會(huì )生成一條log記錄。
  3、怎樣數據埋點(diǎn)
  3.1、數據埋點(diǎn)技術(shù)
  現在業(yè)界客戶(hù)端埋點(diǎn)通常都是采取key-value的方式,key代表某個(gè)風(fēng)波,value代表相應的參數值,埋點(diǎn)邏輯大約為:用戶(hù)形成點(diǎn)擊行為,生成一個(gè)點(diǎn)擊風(fēng)波,當有頁(yè)面呈現在屏幕前時(shí),生成一個(gè)頁(yè)面風(fēng)波。
  現在SDK上報埋點(diǎn)風(fēng)波主要分為兩類(lèi):1)點(diǎn)擊風(fēng)波,主要描述用戶(hù)在應用內的點(diǎn)擊行為,如點(diǎn)擊tab、點(diǎn)擊按鍵等,同時(shí)一些參數風(fēng)波也被歸類(lèi)為點(diǎn)擊風(fēng)波,如頁(yè)面描述、試聽(tīng)時(shí)長(cháng)等,把那些參數風(fēng)波歸類(lèi)為點(diǎn)擊風(fēng)波主要是便捷頁(yè)面風(fēng)波估算用戶(hù)應用使用時(shí)長(cháng);2)頁(yè)面風(fēng)波,主要描述用戶(hù)瀏覽過(guò)的頁(yè)面,如首頁(yè)、詳情頁(yè)等,同時(shí)通過(guò)頁(yè)面逗留時(shí)長(cháng)估算用戶(hù)應用使用時(shí)長(cháng)。
  常見(jiàn)的有三種埋點(diǎn)技術(shù):
  代碼埋點(diǎn):控件操作發(fā)生時(shí)通過(guò)預先寫(xiě)好的代碼來(lái)發(fā)送數據。優(yōu)點(diǎn):控制發(fā)送數據時(shí)間,事件自定義屬性詳盡記錄;缺點(diǎn):時(shí)間、人力成本大,數據傳輸的時(shí)效性。
  可視化埋點(diǎn):利用可視化交互手段,通過(guò)可視化界面配置控件操作與風(fēng)波操作發(fā)生關(guān)系,通過(guò)后臺截屏的方法采集數據。優(yōu)點(diǎn):成本低,速度快;缺點(diǎn):行為記錄信息少,支持的剖析方法少。
  無(wú)埋點(diǎn):用戶(hù)詮釋界面元素時(shí),通過(guò)控件綁定觸發(fā)風(fēng)波,事件被觸發(fā)的時(shí)侯系統會(huì )有相應的插口使開(kāi)發(fā)者處理這種行為?,F在市面上主流無(wú)埋點(diǎn)做法有兩種,一種是預先跟蹤所有的渲染信息,一種是滯后跟蹤的渲染信息。優(yōu)點(diǎn):無(wú)需埋點(diǎn),方便快捷;缺點(diǎn):行為記錄信息少,傳輸壓力大。
  3.2、數據埋點(diǎn)優(yōu)缺點(diǎn)
  3.2.1、客戶(hù)端埋點(diǎn)的優(yōu)缺點(diǎn)
  APP客戶(hù)端埋點(diǎn)的用處是:
  1)能夠采集愈發(fā)全面的用戶(hù)數據,可以對客戶(hù)端各個(gè)點(diǎn)擊、頁(yè)面埋點(diǎn);
  2)可以搜集不需要懇求服務(wù)器的數據,如音樂(lè )的本地播放、頁(yè)面逗留時(shí)長(cháng)等。
  APP客戶(hù)端數據埋點(diǎn)存在問(wèn)題主要有:
  1)數據上報時(shí)需手機聯(lián)網(wǎng),如果用戶(hù)手機未聯(lián)網(wǎng),則會(huì )延后上報數據,同時(shí)數據上報通常有相應的規則,不會(huì )實(shí)時(shí)上報,一般存在15%左右的延后上報和漏報;
  2)如果用戶(hù)刪掉自己的APP操作記錄,則沒(méi)有上報的記錄。
  3)當須要改變埋點(diǎn)時(shí),需要更新版本才行,但是會(huì )存在有些用戶(hù)不更新版本情況,影響數據質(zhì)量。
  3.2.2、服務(wù)端埋點(diǎn)的優(yōu)缺點(diǎn)
  APP服務(wù)端前端埋點(diǎn)的優(yōu)點(diǎn)是:
  1)實(shí)時(shí)搜集,數據太確切,不存在延時(shí)上報;
  2)當要改變埋點(diǎn)時(shí),只要改變,上報數據都會(huì )改變;
  3)能夠搜集不在A(yíng)PP內發(fā)生的行為,只要懇求服務(wù)器就行,而客戶(hù)端只能搜集在客戶(hù)端中的操作行為,如統計從其他APP引流的安裝量。
  服務(wù)端前端埋點(diǎn)缺點(diǎn)是:
  1)不能搜集不需要懇求服務(wù)器的數據;
  2)用戶(hù)沒(méi)聯(lián)網(wǎng)的時(shí)侯不能否采集數據。
  3.2.3、服務(wù)端和客戶(hù)端的結合
  結合客戶(hù)端后端埋點(diǎn)和服務(wù)端前端埋點(diǎn)的優(yōu)缺點(diǎn),服務(wù)端數據實(shí)時(shí)性高、很確切,最好用戶(hù)須要懇求服務(wù)器的關(guān)鍵業(yè)務(wù)量均使用服務(wù)器前端埋點(diǎn),如在線(xiàn)播放、游戲安裝等,在統計抽獎?dòng)脩?hù)這種,顯然服務(wù)端數據更合理,客戶(hù)端數據可能會(huì )漏掉部份抽獎?dòng)脩?hù),導致用戶(hù)投訴;客戶(hù)端數據太全,記錄了用戶(hù)絕大多數操作行為,其它非關(guān)鍵業(yè)務(wù)量或則不需要懇求服務(wù)器的行為使用后客戶(hù)端后端埋點(diǎn)。服務(wù)端埋點(diǎn)和客戶(hù)端埋點(diǎn)各有利弊,應該兩種數據同時(shí)都存在,可以互相印證,當一方數據發(fā)生重大問(wèn)題時(shí)可以通過(guò)另一方發(fā)覺(jué),同時(shí),數據也能互補,如數據采集突然有問(wèn)題了,可以用另一方數據代替。
  3.3、數據埋點(diǎn)內容
  數據埋點(diǎn)主要是為了采集用戶(hù)行為數據,根據用戶(hù)應用使用行為,各應用埋點(diǎn)主要包括以下幾個(gè)方面:
  3.3.1、功能按鍵埋點(diǎn)
  功能按鍵的埋點(diǎn)主要是為了解用戶(hù)對應用中的按鍵、功能、入口等的使用,從而洞察用戶(hù)內容偏好、功能偏好、使用路徑等。主要包括以下幾個(gè)方面:
  1)用戶(hù)對應用底部tab、底部tab、內容篩選tab等的點(diǎn)擊,了解用戶(hù)對應用各個(gè)藍籌股的喜好和內容偏好等;
  2)用戶(hù)對應用內各入口、頻道的點(diǎn)擊,了解用戶(hù)的內容偏好、產(chǎn)品使用路徑等;
  3)用戶(hù)對應用中具體內容的點(diǎn)擊,如點(diǎn)擊某款游戲、某個(gè)商品、某個(gè)視頻等,了解用戶(hù)內容偏好、產(chǎn)品使用路徑等;
  4)用戶(hù)對應用設置中選項的點(diǎn)擊,如是否打開(kāi)push開(kāi)關(guān),了解用戶(hù)應用的基本設置情況。
  5)用戶(hù)對其它功能按鍵的點(diǎn)擊,如音樂(lè )播放器中暫停、下一首等按鍵的點(diǎn)擊。
  3.3.2、主要行為埋點(diǎn)
  用戶(hù)應用主要行為埋點(diǎn)主要是為了解用戶(hù)應用內使用行為,從而洞察用戶(hù)內容偏好、產(chǎn)品使用習慣、用戶(hù)忠誠度、用戶(hù)活躍度等,用戶(hù)應用中主要行為包括:
  1)用戶(hù)核心行為,包括下載、安裝、試聽(tīng)、播放、閱讀等,各業(yè)務(wù)依據其產(chǎn)品性質(zhì)的不同,有不同的核心業(yè)務(wù)行為,如視頻的播放、音樂(lè )的試聽(tīng),可以了解用戶(hù)的內容偏好、業(yè)務(wù)活躍度等 查看全部

  APP數據埋點(diǎn)分類(lèi)方法
  1、數據埋點(diǎn)的重要性
  在現實(shí)工作中,數據的整體流程為:數據生產(chǎn)-數據采集-數據處理-數據剖析和挖掘-數據可視化,其中,數據采集是很重要的一個(gè)環(huán)節,數據采集得全不全、對不對,直接決定數據廣度和質(zhì)量,影響后續所有的環(huán)節。如果采集的數據維度極少,那我們想要進(jìn)行深入剖析的時(shí)侯才會(huì )變得無(wú)處著(zhù)手,比如我們想要剖析某個(gè)APP某個(gè)功能的使用情況,但是卻根本沒(méi)有采集相關(guān)的數據,那我們也不能進(jìn)行后續的剖析了。如果數據采集是錯誤的,如漏報、誤報等,那這肯定是太致命的,會(huì )欺騙我們基于數據的決策。
  在互聯(lián)網(wǎng)行業(yè),數據采集的形式按照采集數據端的不同,主要分為網(wǎng)頁(yè)數據采集、APP數據采集。網(wǎng)頁(yè)數據的采集主要是使用JS采集,常用的數據剖析工具主要是Google Analytics,APP數據采集主要是通過(guò)埋點(diǎn)采集,主要有后端埋點(diǎn)和前端埋點(diǎn)之分,相應的移動(dòng)端數據剖析廠(chǎng)商也好多。隨著(zhù)越來(lái)越多的用戶(hù)傾向于在移動(dòng)端上網(wǎng)和使用APP,APP數據采集就變得愈發(fā)重要。
  2、數據埋點(diǎn)是哪些
  要做好APP的數據剖析,讓數據支撐決策、產(chǎn)品和營(yíng)運,首先是要有數據,就像煮飯須要米一樣,而要采集用戶(hù)數據就要進(jìn)行APP數據埋點(diǎn)。產(chǎn)品人員在產(chǎn)品規劃時(shí)就要思索數據埋點(diǎn)問(wèn)題,如果在產(chǎn)品外發(fā)后再考慮如何埋點(diǎn),就會(huì )造成前期版本用戶(hù)的數據難以搜集,想要看某個(gè)數據時(shí)就無(wú)可奈何,只有等到新版本建立來(lái)填補。思考要埋什么點(diǎn)的時(shí)侯,要緊密結合產(chǎn)品、運營(yíng)需求,并跟數據剖析、ETL人員等進(jìn)行充分溝通,例如須要監控什么指標、需要通過(guò)什么埋點(diǎn)來(lái)實(shí)現、怎樣埋點(diǎn)更能符合統計的需求,這是一個(gè)集思廣益的過(guò)程。
  數據埋點(diǎn)包括客戶(hù)端后端埋點(diǎn)和服務(wù)端前端埋點(diǎn),客戶(hù)端后端埋點(diǎn)是用戶(hù)在客戶(hù)端上的操作記錄,服務(wù)端前端埋點(diǎn)是用戶(hù)在線(xiàn)懇求服務(wù)器的日志,兩者各有利弊,最好二者都埋點(diǎn),可以互相補充。
  數據埋點(diǎn)雖然就是在產(chǎn)品功能代碼前面加上統計代碼,記錄用戶(hù)操作行為,當用戶(hù)進(jìn)行某個(gè)操作時(shí),如點(diǎn)擊某個(gè)按鍵、呈現某個(gè)頁(yè)面等,開(kāi)發(fā)會(huì )在相應地方加上統計代碼,埋點(diǎn)會(huì )生成一條log記錄。
  3、怎樣數據埋點(diǎn)
  3.1、數據埋點(diǎn)技術(shù)
  現在業(yè)界客戶(hù)端埋點(diǎn)通常都是采取key-value的方式,key代表某個(gè)風(fēng)波,value代表相應的參數值,埋點(diǎn)邏輯大約為:用戶(hù)形成點(diǎn)擊行為,生成一個(gè)點(diǎn)擊風(fēng)波,當有頁(yè)面呈現在屏幕前時(shí),生成一個(gè)頁(yè)面風(fēng)波。
  現在SDK上報埋點(diǎn)風(fēng)波主要分為兩類(lèi):1)點(diǎn)擊風(fēng)波,主要描述用戶(hù)在應用內的點(diǎn)擊行為,如點(diǎn)擊tab、點(diǎn)擊按鍵等,同時(shí)一些參數風(fēng)波也被歸類(lèi)為點(diǎn)擊風(fēng)波,如頁(yè)面描述、試聽(tīng)時(shí)長(cháng)等,把那些參數風(fēng)波歸類(lèi)為點(diǎn)擊風(fēng)波主要是便捷頁(yè)面風(fēng)波估算用戶(hù)應用使用時(shí)長(cháng);2)頁(yè)面風(fēng)波,主要描述用戶(hù)瀏覽過(guò)的頁(yè)面,如首頁(yè)、詳情頁(yè)等,同時(shí)通過(guò)頁(yè)面逗留時(shí)長(cháng)估算用戶(hù)應用使用時(shí)長(cháng)。
  常見(jiàn)的有三種埋點(diǎn)技術(shù):
  代碼埋點(diǎn):控件操作發(fā)生時(shí)通過(guò)預先寫(xiě)好的代碼來(lái)發(fā)送數據。優(yōu)點(diǎn):控制發(fā)送數據時(shí)間,事件自定義屬性詳盡記錄;缺點(diǎn):時(shí)間、人力成本大,數據傳輸的時(shí)效性。
  可視化埋點(diǎn):利用可視化交互手段,通過(guò)可視化界面配置控件操作與風(fēng)波操作發(fā)生關(guān)系,通過(guò)后臺截屏的方法采集數據。優(yōu)點(diǎn):成本低,速度快;缺點(diǎn):行為記錄信息少,支持的剖析方法少。
  無(wú)埋點(diǎn):用戶(hù)詮釋界面元素時(shí),通過(guò)控件綁定觸發(fā)風(fēng)波,事件被觸發(fā)的時(shí)侯系統會(huì )有相應的插口使開(kāi)發(fā)者處理這種行為?,F在市面上主流無(wú)埋點(diǎn)做法有兩種,一種是預先跟蹤所有的渲染信息,一種是滯后跟蹤的渲染信息。優(yōu)點(diǎn):無(wú)需埋點(diǎn),方便快捷;缺點(diǎn):行為記錄信息少,傳輸壓力大。
  3.2、數據埋點(diǎn)優(yōu)缺點(diǎn)
  3.2.1、客戶(hù)端埋點(diǎn)的優(yōu)缺點(diǎn)
  APP客戶(hù)端埋點(diǎn)的用處是:
  1)能夠采集愈發(fā)全面的用戶(hù)數據,可以對客戶(hù)端各個(gè)點(diǎn)擊、頁(yè)面埋點(diǎn);
  2)可以搜集不需要懇求服務(wù)器的數據,如音樂(lè )的本地播放、頁(yè)面逗留時(shí)長(cháng)等。
  APP客戶(hù)端數據埋點(diǎn)存在問(wèn)題主要有:
  1)數據上報時(shí)需手機聯(lián)網(wǎng),如果用戶(hù)手機未聯(lián)網(wǎng),則會(huì )延后上報數據,同時(shí)數據上報通常有相應的規則,不會(huì )實(shí)時(shí)上報,一般存在15%左右的延后上報和漏報;
  2)如果用戶(hù)刪掉自己的APP操作記錄,則沒(méi)有上報的記錄。
  3)當須要改變埋點(diǎn)時(shí),需要更新版本才行,但是會(huì )存在有些用戶(hù)不更新版本情況,影響數據質(zhì)量。
  3.2.2、服務(wù)端埋點(diǎn)的優(yōu)缺點(diǎn)
  APP服務(wù)端前端埋點(diǎn)的優(yōu)點(diǎn)是:
  1)實(shí)時(shí)搜集,數據太確切,不存在延時(shí)上報;
  2)當要改變埋點(diǎn)時(shí),只要改變,上報數據都會(huì )改變;
  3)能夠搜集不在A(yíng)PP內發(fā)生的行為,只要懇求服務(wù)器就行,而客戶(hù)端只能搜集在客戶(hù)端中的操作行為,如統計從其他APP引流的安裝量。
  服務(wù)端前端埋點(diǎn)缺點(diǎn)是:
  1)不能搜集不需要懇求服務(wù)器的數據;
  2)用戶(hù)沒(méi)聯(lián)網(wǎng)的時(shí)侯不能否采集數據。
  3.2.3、服務(wù)端和客戶(hù)端的結合
  結合客戶(hù)端后端埋點(diǎn)和服務(wù)端前端埋點(diǎn)的優(yōu)缺點(diǎn),服務(wù)端數據實(shí)時(shí)性高、很確切,最好用戶(hù)須要懇求服務(wù)器的關(guān)鍵業(yè)務(wù)量均使用服務(wù)器前端埋點(diǎn),如在線(xiàn)播放、游戲安裝等,在統計抽獎?dòng)脩?hù)這種,顯然服務(wù)端數據更合理,客戶(hù)端數據可能會(huì )漏掉部份抽獎?dòng)脩?hù),導致用戶(hù)投訴;客戶(hù)端數據太全,記錄了用戶(hù)絕大多數操作行為,其它非關(guān)鍵業(yè)務(wù)量或則不需要懇求服務(wù)器的行為使用后客戶(hù)端后端埋點(diǎn)。服務(wù)端埋點(diǎn)和客戶(hù)端埋點(diǎn)各有利弊,應該兩種數據同時(shí)都存在,可以互相印證,當一方數據發(fā)生重大問(wèn)題時(shí)可以通過(guò)另一方發(fā)覺(jué),同時(shí),數據也能互補,如數據采集突然有問(wèn)題了,可以用另一方數據代替。
  3.3、數據埋點(diǎn)內容
  數據埋點(diǎn)主要是為了采集用戶(hù)行為數據,根據用戶(hù)應用使用行為,各應用埋點(diǎn)主要包括以下幾個(gè)方面:
  3.3.1、功能按鍵埋點(diǎn)
  功能按鍵的埋點(diǎn)主要是為了解用戶(hù)對應用中的按鍵、功能、入口等的使用,從而洞察用戶(hù)內容偏好、功能偏好、使用路徑等。主要包括以下幾個(gè)方面:
  1)用戶(hù)對應用底部tab、底部tab、內容篩選tab等的點(diǎn)擊,了解用戶(hù)對應用各個(gè)藍籌股的喜好和內容偏好等;
  2)用戶(hù)對應用內各入口、頻道的點(diǎn)擊,了解用戶(hù)的內容偏好、產(chǎn)品使用路徑等;
  3)用戶(hù)對應用中具體內容的點(diǎn)擊,如點(diǎn)擊某款游戲、某個(gè)商品、某個(gè)視頻等,了解用戶(hù)內容偏好、產(chǎn)品使用路徑等;
  4)用戶(hù)對應用設置中選項的點(diǎn)擊,如是否打開(kāi)push開(kāi)關(guān),了解用戶(hù)應用的基本設置情況。
  5)用戶(hù)對其它功能按鍵的點(diǎn)擊,如音樂(lè )播放器中暫停、下一首等按鍵的點(diǎn)擊。
  3.3.2、主要行為埋點(diǎn)
  用戶(hù)應用主要行為埋點(diǎn)主要是為了解用戶(hù)應用內使用行為,從而洞察用戶(hù)內容偏好、產(chǎn)品使用習慣、用戶(hù)忠誠度、用戶(hù)活躍度等,用戶(hù)應用中主要行為包括:
  1)用戶(hù)核心行為,包括下載、安裝、試聽(tīng)、播放、閱讀等,各業(yè)務(wù)依據其產(chǎn)品性質(zhì)的不同,有不同的核心業(yè)務(wù)行為,如視頻的播放、音樂(lè )的試聽(tīng),可以了解用戶(hù)的內容偏好、業(yè)務(wù)活躍度等

數據下降第一步:選擇“最優(yōu)”的埋點(diǎn)采集方式

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 349 次瀏覽 ? 2020-08-13 06:17 ? 來(lái)自相關(guān)話(huà)題

  本文講的是數據下降第一步:選擇“最優(yōu)”的埋點(diǎn)采集方式【IT168 評論】在這一個(gè)大數據的時(shí)代,憑經(jīng)驗拍胸口的決策方法已成過(guò)去,數據的重要性不言而喻,數據剖析的第一步就是從數據源頭做好采集工作,我們明天的主題:數據埋點(diǎn)。
  埋點(diǎn):數據剖析的第一步
  大數據,從繁雜的數據背后挖掘、分析用戶(hù)的行為習慣和喜好,找出更符合用戶(hù)“口味”的產(chǎn)品和服務(wù),并結合用戶(hù)需求有針對性地調整和優(yōu)化自身,正是大數據的價(jià)值。而這信息的匯集、分析就繞不開(kāi)“埋點(diǎn)”。諸葛io為企業(yè)提供靈活的埋點(diǎn)方法,讓各個(gè)部門(mén)、各個(gè)角色輕松駕馭數據采集:
  有碼(代碼)埋點(diǎn):更精準的數據采集,更聚焦業(yè)務(wù)價(jià)值的數據采集(諸葛io專(zhuān)業(yè)的數據顧問(wèn)團隊可提供多樣化埋點(diǎn)方案,讓數據剖析有的放矢);
  全埋點(diǎn):無(wú)需人工埋點(diǎn),一切操作皆手動(dòng)埋點(diǎn),統計數據按需處理;
  - 可視化埋點(diǎn):界面化埋點(diǎn)管理配置無(wú)需開(kāi)發(fā)人員介入,更便捷的埋點(diǎn)更新,生效快;
  關(guān)于“埋點(diǎn)”的小科普
  埋點(diǎn)就是在有須要的位置采集相應的信息,就好似道路上的攝像頭,可以采集到汽車(chē)的屬性,比如:顏色、車(chē)牌號,車(chē)型等信息,還可以采集到汽車(chē)的行為,比如:有沒(méi)有闖紅燈,有沒(méi)有壓線(xiàn),車(chē)速多少,司機有沒(méi)有在駕駛中接聽(tīng)電話(huà)等,如果攝像頭分布是理想狀態(tài),那么通過(guò)疊加不同位置的攝像頭所采集的信息,完全可以還原出某一輛車(chē)的路徑、目的地,甚至猜測出司機的駕車(chē)習慣、是否是老司機等信息。
  那么,每一個(gè)埋點(diǎn)如同攝像頭,采集用戶(hù)行為數據,將數據進(jìn)行多維度的交叉剖析,可真實(shí)還原出用戶(hù)使用場(chǎng)景,挖掘用戶(hù)需求,從而提高用戶(hù)全生命周期的最大價(jià)值。
  解鎖4種埋點(diǎn)“姿勢”
  為了將海量數據采集得愈發(fā)精準,為后續營(yíng)造“純凈”的數據剖析環(huán)境,埋點(diǎn)技術(shù)應運而生。數據基礎筑牢與否,取決于數據的采集方式。埋點(diǎn)方法多種多樣,按照埋點(diǎn)位置不同,可以分為后端(客戶(hù)端)埋點(diǎn)與前端(服務(wù)器端)埋點(diǎn),其中后端埋點(diǎn)包括:代碼埋點(diǎn)、全埋點(diǎn)、可視化埋點(diǎn)。
  
  多采集方式對比
  全埋點(diǎn):通過(guò)SDK,采集頁(yè)面所有控件操作數據,通過(guò)“統計數據篩”,配置待處理的數據的特點(diǎn)。
  優(yōu)勢:一切操作皆埋點(diǎn),簡(jiǎn)單、快捷,無(wú)需埋點(diǎn)統計數據按需處理
  劣勢:數據上傳消耗流量大,數據維度單一(僅點(diǎn)擊、加載、刷新);影響用戶(hù)使用體驗——用戶(hù)使用過(guò)程中容易出現卡頓,嚴重影響用戶(hù)體驗;噪點(diǎn)多,數據準確性不高,容易形成干擾;不能自定義埋點(diǎn)搜集信息
  如同衛星拍攝,無(wú)需逐一安裝攝像頭,但數據量巨大,且容易遺漏,不易挖掘關(guān)鍵信息,因此全埋點(diǎn)的形式,主要應用于簡(jiǎn)單頁(yè)面的場(chǎng)景,比如:短期活動(dòng)中的落地頁(yè)/專(zhuān)題頁(yè)中,需要快速評判點(diǎn)擊分布等療效。
  JS可視化埋點(diǎn):嵌入SDK,可視化圈選定義風(fēng)波
  為了便捷產(chǎn)品和營(yíng)運朋友可以直接在頁(yè)面上進(jìn)行簡(jiǎn)單圈選,以追蹤用戶(hù)的行為(定義風(fēng)波),
  僅采集click(點(diǎn)擊)操作,節省開(kāi)發(fā)時(shí)間,諸葛io已于近日支持JS可視化埋點(diǎn)。
  優(yōu)勢:界面化配置,無(wú)需開(kāi)發(fā),埋點(diǎn)更新方便,生效快
  劣勢:埋點(diǎn)自定義屬性支持較差;重構或則頁(yè)面變化時(shí)須要重新配置;
  如同衛星航拍,無(wú)需安裝攝像頭,數據量小,支持局部區域的信息獲取 ,因此JS可視化埋點(diǎn)更適用于短平快的數據采集方式,如活動(dòng)/H5等簡(jiǎn)單頁(yè)面,業(yè)務(wù)人員可直接圈選,操作無(wú)門(mén)檻,減少技術(shù)人員的介入(從此世界和平),此種數據采集方式,方便業(yè)務(wù)人員早日把握頁(yè)面中關(guān)鍵節點(diǎn)的轉化情況,但是對用戶(hù)行為數據的應用較淺,無(wú)法支持更深度的剖析。
  此外,若頁(yè)面臨時(shí)調整,可靈活的追加埋點(diǎn),可作為代碼埋點(diǎn)的補充,以便及時(shí)降低采集數據
  代碼埋點(diǎn):嵌入SDK,定義風(fēng)波并添加風(fēng)波代碼,按需采集,業(yè)務(wù)信息更完善,對數據的剖析更聚焦,因此代碼埋點(diǎn)是一種以業(yè)務(wù)價(jià)值為出發(fā)的行為剖析。
  優(yōu)勢:數據搜集全面且確切,便于后續深度剖析(埋點(diǎn)準確性次序:代碼埋點(diǎn)>可視化埋點(diǎn)>全埋點(diǎn)),SDK較小,對應用本身的使用體驗沒(méi)有影響
  劣勢:需要研制人員配合,有一定的工作量
  如果你不希望在采集數據的同時(shí),降低用戶(hù)體驗;如果你不希望采集到海量無(wú)用數據;如果你希望采集的數據:顆粒度更細,維度更多,數據剖析的準確性更高。那么,從業(yè)務(wù)下降的長(cháng)遠價(jià)值考慮,請選擇代碼埋點(diǎn)。
  服務(wù)端埋點(diǎn):可支持其他業(yè)務(wù)數據采集和整合,如CRM等用戶(hù)數據,通過(guò)插口調用,將數據結構化,由于直接從服務(wù)器端采集,數據準確性更高,適用于自身具備采集能力的顧客,或可與客戶(hù)端采集相結合采集。
  如:
  1、通過(guò)調用API接口,將CRM等數據與用戶(hù)行為數據進(jìn)行整合,全量、多角度剖析用戶(hù);
  2、若企業(yè)已有自身的埋點(diǎn)體系,那么可直接通過(guò)服務(wù)端采集將用戶(hù)行為數據上傳到諸葛io平臺,進(jìn)行數據剖析,無(wú)需維護兩套埋點(diǎn)系統;
  3、打通歷史數據(埋點(diǎn)前的數據)與新數據(埋點(diǎn)后),提高數據準確性。如在接入客戶(hù)端采集之后的顧客,導入原有歷史數據后,此前的已有的用戶(hù)訪(fǎng)問(wèn)平臺,不會(huì )被標記為新用戶(hù),減少數據偏差。
  如何“埋點(diǎn)”?
  埋點(diǎn)聽(tīng)上去“不明覺(jué)厲”,其實(shí)十分的簡(jiǎn)單,就猶如“在道路上安裝攝像頭”。
  1、梳理產(chǎn)品用戶(hù)行為,確定風(fēng)波布點(diǎn)
  埋點(diǎn)方案≈攝像頭安裝的分布方案
  經(jīng)常有童鞋咨詢(xún)諸葛君:究竟獲取什么數據來(lái)進(jìn)行數據剖析?回答這個(gè)問(wèn)題,先要明晰目的,厘清邏輯。
  諸葛io數據剖析的對象和基礎是用戶(hù)行為,選擇記錄和剖析什么用戶(hù)行為,直接影響到剖析工作的價(jià)值產(chǎn)出,諸葛君建議:選擇與產(chǎn)品目標和當下首要問(wèn)題最為密切相關(guān)的用戶(hù)行為,作為風(fēng)波。以電商為例,將流程中的每位用戶(hù)行為定義為一類(lèi)風(fēng)波,從中獲得風(fēng)波布點(diǎn)的邏輯。
  2、記錄風(fēng)波,了解剖析用戶(hù)行為
  ≈確定攝像頭要記錄的信息,是違章照相還是測速?
  對須要記錄和剖析的用戶(hù)行為進(jìn)行梳理,并完成風(fēng)波布點(diǎn)表后,接下來(lái),需要在研制工程師的協(xié)助下,根據您應用的平臺類(lèi)型(iOS、Android、JS)完成SDK的接入,每個(gè)風(fēng)波的布點(diǎn),將弄成一段十分簡(jiǎn)略的程序代碼——當用戶(hù)做相應的行為時(shí),您的應用會(huì )運行這段代碼,向諸葛io記錄相應風(fēng)波。在布點(diǎn)完成、產(chǎn)品發(fā)版后,用戶(hù)開(kāi)始使用新版的應用時(shí),使用行為的數據都會(huì )手動(dòng)傳遞到諸葛io,以便您進(jìn)行下邊的剖析。
  這一步,諸葛io的CS團隊將為企業(yè)提供支持,協(xié)助技術(shù)團隊順利完成數據采集的第一步。
  3、通過(guò)identify記錄用戶(hù)身分
  在諸葛io中記錄了用戶(hù)的行為,即:用戶(hù)做了哪些? 在對用戶(hù)剖析的過(guò)程中,還有一類(lèi)信息是很有用的,即:用戶(hù)是誰(shuí)(TA的id、名字)以及具備哪些特征(TA的年紀、類(lèi)型……)?您可以通過(guò)諸葛io平臺的identify過(guò)程,將用戶(hù)的身分及特征傳遞給諸葛io,利用identify的信息進(jìn)行精細化剖析:
  細分用戶(hù)群:用戶(hù)屬性的一個(gè)很重要的作用就是將用戶(hù)分群。您可以按照identify的屬性定義篩選條件,進(jìn)行用戶(hù)群的細分,比如用「性別=女」的條件將所有的女生篩選下來(lái),然后剖析妹子們的行為特征和轉化率……
  基于屬性的對比:細分的重要目的之一就是對比,您可以基于「性別」細分,然后對比「妹子們」和「漢子們」的行為、轉化、留存等的區別;
  基于屬性的人群畫(huà)像:您可以基于用戶(hù)屬性,對產(chǎn)品的任意用戶(hù)群進(jìn)行「畫(huà)像剖析」——該用戶(hù)群的男女比列、地區分布、年齡層次、用戶(hù)類(lèi)型……
  回到一開(kāi)始的問(wèn)題:何種埋點(diǎn)方法最理想呢?
  正就像硬幣有兩面,任何單一的埋點(diǎn)方法都存在優(yōu)點(diǎn)與缺點(diǎn),企圖通過(guò)簡(jiǎn)單粗暴的幾行代碼/一次布署、甚至犧牲用戶(hù)體驗的埋點(diǎn)形式,都不是企業(yè)所期望的。
  因此,數據采集只是數據剖析的第一步,數據剖析的目的是洞察用戶(hù)行為,挖掘用戶(hù)價(jià)值,進(jìn)而促使業(yè)務(wù)下降,諸葛io覺(jué)得,最理想的埋點(diǎn)方案是按照不同的業(yè)務(wù)和場(chǎng)景以及行業(yè)特點(diǎn)和自身實(shí)際需求,將埋點(diǎn)通過(guò)好壞互補形式進(jìn)行組合,比如:
  1、代碼埋點(diǎn)+全埋點(diǎn):在須要對落地頁(yè)進(jìn)行整體點(diǎn)擊剖析時(shí),細節位置逐一埋點(diǎn)的工作量相對較大,且在頻繁優(yōu)化調整落地頁(yè)時(shí),更新埋點(diǎn)的工作量愈發(fā)不容輕視,但復雜的頁(yè)面存在著(zhù)全埋點(diǎn)不能采集的死角,因此,可將代碼埋點(diǎn)作為輔助,將用戶(hù)核心行為進(jìn)行采集,從而實(shí)現精準的可交叉的用戶(hù)行為剖析;
  2、代碼埋點(diǎn)+服務(wù)端埋點(diǎn):以電商平臺為例, 用戶(hù)在支付環(huán)節,由于中途會(huì )跳轉到第三方支付平臺,是否支付成功須要通過(guò)服務(wù)器中的交易數據來(lái)驗證,此時(shí)可通過(guò)代碼埋點(diǎn)和服務(wù)端埋點(diǎn)相結合的方法,提升數據的準確性;
  3、代碼埋點(diǎn)+可視化埋點(diǎn):因代碼埋點(diǎn)的工作量大,可通過(guò)核心風(fēng)波代碼埋點(diǎn),可視化埋點(diǎn)用于追加和補充的形式采集數據。
  要滿(mǎn)足精細化、精準化的數據剖析需求,可依照實(shí)際須要的剖析場(chǎng)景,選擇一種或多種組合的采集方式,畢竟采集全量數據不是目的,實(shí)現有效的數據剖析,從數據中找到關(guān)鍵決策信息實(shí)現增速才是重中之重。
  原文發(fā)布時(shí)間為:2017-08-11
  本文作者:廠(chǎng)商投稿
  本文來(lái)自云棲社區合作伙伴IT168,了解相關(guān)信息可以關(guān)注IT168
  原文標題:數據下降第一步:選擇“最優(yōu)”的埋點(diǎn)采集方式 查看全部

  本文講的是數據下降第一步:選擇“最優(yōu)”的埋點(diǎn)采集方式【IT168 評論】在這一個(gè)大數據的時(shí)代,憑經(jīng)驗拍胸口的決策方法已成過(guò)去,數據的重要性不言而喻,數據剖析的第一步就是從數據源頭做好采集工作,我們明天的主題:數據埋點(diǎn)。
  埋點(diǎn):數據剖析的第一步
  大數據,從繁雜的數據背后挖掘、分析用戶(hù)的行為習慣和喜好,找出更符合用戶(hù)“口味”的產(chǎn)品和服務(wù),并結合用戶(hù)需求有針對性地調整和優(yōu)化自身,正是大數據的價(jià)值。而這信息的匯集、分析就繞不開(kāi)“埋點(diǎn)”。諸葛io為企業(yè)提供靈活的埋點(diǎn)方法,讓各個(gè)部門(mén)、各個(gè)角色輕松駕馭數據采集:
  有碼(代碼)埋點(diǎn):更精準的數據采集,更聚焦業(yè)務(wù)價(jià)值的數據采集(諸葛io專(zhuān)業(yè)的數據顧問(wèn)團隊可提供多樣化埋點(diǎn)方案,讓數據剖析有的放矢);
  全埋點(diǎn):無(wú)需人工埋點(diǎn),一切操作皆手動(dòng)埋點(diǎn),統計數據按需處理;
  - 可視化埋點(diǎn):界面化埋點(diǎn)管理配置無(wú)需開(kāi)發(fā)人員介入,更便捷的埋點(diǎn)更新,生效快;
  關(guān)于“埋點(diǎn)”的小科普
  埋點(diǎn)就是在有須要的位置采集相應的信息,就好似道路上的攝像頭,可以采集到汽車(chē)的屬性,比如:顏色、車(chē)牌號,車(chē)型等信息,還可以采集到汽車(chē)的行為,比如:有沒(méi)有闖紅燈,有沒(méi)有壓線(xiàn),車(chē)速多少,司機有沒(méi)有在駕駛中接聽(tīng)電話(huà)等,如果攝像頭分布是理想狀態(tài),那么通過(guò)疊加不同位置的攝像頭所采集的信息,完全可以還原出某一輛車(chē)的路徑、目的地,甚至猜測出司機的駕車(chē)習慣、是否是老司機等信息。
  那么,每一個(gè)埋點(diǎn)如同攝像頭,采集用戶(hù)行為數據,將數據進(jìn)行多維度的交叉剖析,可真實(shí)還原出用戶(hù)使用場(chǎng)景,挖掘用戶(hù)需求,從而提高用戶(hù)全生命周期的最大價(jià)值。
  解鎖4種埋點(diǎn)“姿勢”
  為了將海量數據采集得愈發(fā)精準,為后續營(yíng)造“純凈”的數據剖析環(huán)境,埋點(diǎn)技術(shù)應運而生。數據基礎筑牢與否,取決于數據的采集方式。埋點(diǎn)方法多種多樣,按照埋點(diǎn)位置不同,可以分為后端(客戶(hù)端)埋點(diǎn)與前端(服務(wù)器端)埋點(diǎn),其中后端埋點(diǎn)包括:代碼埋點(diǎn)、全埋點(diǎn)、可視化埋點(diǎn)。
  
  多采集方式對比
  全埋點(diǎn):通過(guò)SDK,采集頁(yè)面所有控件操作數據,通過(guò)“統計數據篩”,配置待處理的數據的特點(diǎn)。
  優(yōu)勢:一切操作皆埋點(diǎn),簡(jiǎn)單、快捷,無(wú)需埋點(diǎn)統計數據按需處理
  劣勢:數據上傳消耗流量大,數據維度單一(僅點(diǎn)擊、加載、刷新);影響用戶(hù)使用體驗——用戶(hù)使用過(guò)程中容易出現卡頓,嚴重影響用戶(hù)體驗;噪點(diǎn)多,數據準確性不高,容易形成干擾;不能自定義埋點(diǎn)搜集信息
  如同衛星拍攝,無(wú)需逐一安裝攝像頭,但數據量巨大,且容易遺漏,不易挖掘關(guān)鍵信息,因此全埋點(diǎn)的形式,主要應用于簡(jiǎn)單頁(yè)面的場(chǎng)景,比如:短期活動(dòng)中的落地頁(yè)/專(zhuān)題頁(yè)中,需要快速評判點(diǎn)擊分布等療效。
  JS可視化埋點(diǎn):嵌入SDK,可視化圈選定義風(fēng)波
  為了便捷產(chǎn)品和營(yíng)運朋友可以直接在頁(yè)面上進(jìn)行簡(jiǎn)單圈選,以追蹤用戶(hù)的行為(定義風(fēng)波),
  僅采集click(點(diǎn)擊)操作,節省開(kāi)發(fā)時(shí)間,諸葛io已于近日支持JS可視化埋點(diǎn)。
  優(yōu)勢:界面化配置,無(wú)需開(kāi)發(fā),埋點(diǎn)更新方便,生效快
  劣勢:埋點(diǎn)自定義屬性支持較差;重構或則頁(yè)面變化時(shí)須要重新配置;
  如同衛星航拍,無(wú)需安裝攝像頭,數據量小,支持局部區域的信息獲取 ,因此JS可視化埋點(diǎn)更適用于短平快的數據采集方式,如活動(dòng)/H5等簡(jiǎn)單頁(yè)面,業(yè)務(wù)人員可直接圈選,操作無(wú)門(mén)檻,減少技術(shù)人員的介入(從此世界和平),此種數據采集方式,方便業(yè)務(wù)人員早日把握頁(yè)面中關(guān)鍵節點(diǎn)的轉化情況,但是對用戶(hù)行為數據的應用較淺,無(wú)法支持更深度的剖析。
  此外,若頁(yè)面臨時(shí)調整,可靈活的追加埋點(diǎn),可作為代碼埋點(diǎn)的補充,以便及時(shí)降低采集數據
  代碼埋點(diǎn):嵌入SDK,定義風(fēng)波并添加風(fēng)波代碼,按需采集,業(yè)務(wù)信息更完善,對數據的剖析更聚焦,因此代碼埋點(diǎn)是一種以業(yè)務(wù)價(jià)值為出發(fā)的行為剖析。
  優(yōu)勢:數據搜集全面且確切,便于后續深度剖析(埋點(diǎn)準確性次序:代碼埋點(diǎn)>可視化埋點(diǎn)>全埋點(diǎn)),SDK較小,對應用本身的使用體驗沒(méi)有影響
  劣勢:需要研制人員配合,有一定的工作量
  如果你不希望在采集數據的同時(shí),降低用戶(hù)體驗;如果你不希望采集到海量無(wú)用數據;如果你希望采集的數據:顆粒度更細,維度更多,數據剖析的準確性更高。那么,從業(yè)務(wù)下降的長(cháng)遠價(jià)值考慮,請選擇代碼埋點(diǎn)。
  服務(wù)端埋點(diǎn):可支持其他業(yè)務(wù)數據采集和整合,如CRM等用戶(hù)數據,通過(guò)插口調用,將數據結構化,由于直接從服務(wù)器端采集,數據準確性更高,適用于自身具備采集能力的顧客,或可與客戶(hù)端采集相結合采集。
  如:
  1、通過(guò)調用API接口,將CRM等數據與用戶(hù)行為數據進(jìn)行整合,全量、多角度剖析用戶(hù);
  2、若企業(yè)已有自身的埋點(diǎn)體系,那么可直接通過(guò)服務(wù)端采集將用戶(hù)行為數據上傳到諸葛io平臺,進(jìn)行數據剖析,無(wú)需維護兩套埋點(diǎn)系統;
  3、打通歷史數據(埋點(diǎn)前的數據)與新數據(埋點(diǎn)后),提高數據準確性。如在接入客戶(hù)端采集之后的顧客,導入原有歷史數據后,此前的已有的用戶(hù)訪(fǎng)問(wèn)平臺,不會(huì )被標記為新用戶(hù),減少數據偏差。
  如何“埋點(diǎn)”?
  埋點(diǎn)聽(tīng)上去“不明覺(jué)厲”,其實(shí)十分的簡(jiǎn)單,就猶如“在道路上安裝攝像頭”。
  1、梳理產(chǎn)品用戶(hù)行為,確定風(fēng)波布點(diǎn)
  埋點(diǎn)方案≈攝像頭安裝的分布方案
  經(jīng)常有童鞋咨詢(xún)諸葛君:究竟獲取什么數據來(lái)進(jìn)行數據剖析?回答這個(gè)問(wèn)題,先要明晰目的,厘清邏輯。
  諸葛io數據剖析的對象和基礎是用戶(hù)行為,選擇記錄和剖析什么用戶(hù)行為,直接影響到剖析工作的價(jià)值產(chǎn)出,諸葛君建議:選擇與產(chǎn)品目標和當下首要問(wèn)題最為密切相關(guān)的用戶(hù)行為,作為風(fēng)波。以電商為例,將流程中的每位用戶(hù)行為定義為一類(lèi)風(fēng)波,從中獲得風(fēng)波布點(diǎn)的邏輯。
  2、記錄風(fēng)波,了解剖析用戶(hù)行為
  ≈確定攝像頭要記錄的信息,是違章照相還是測速?
  對須要記錄和剖析的用戶(hù)行為進(jìn)行梳理,并完成風(fēng)波布點(diǎn)表后,接下來(lái),需要在研制工程師的協(xié)助下,根據您應用的平臺類(lèi)型(iOS、Android、JS)完成SDK的接入,每個(gè)風(fēng)波的布點(diǎn),將弄成一段十分簡(jiǎn)略的程序代碼——當用戶(hù)做相應的行為時(shí),您的應用會(huì )運行這段代碼,向諸葛io記錄相應風(fēng)波。在布點(diǎn)完成、產(chǎn)品發(fā)版后,用戶(hù)開(kāi)始使用新版的應用時(shí),使用行為的數據都會(huì )手動(dòng)傳遞到諸葛io,以便您進(jìn)行下邊的剖析。
  這一步,諸葛io的CS團隊將為企業(yè)提供支持,協(xié)助技術(shù)團隊順利完成數據采集的第一步。
  3、通過(guò)identify記錄用戶(hù)身分
  在諸葛io中記錄了用戶(hù)的行為,即:用戶(hù)做了哪些? 在對用戶(hù)剖析的過(guò)程中,還有一類(lèi)信息是很有用的,即:用戶(hù)是誰(shuí)(TA的id、名字)以及具備哪些特征(TA的年紀、類(lèi)型……)?您可以通過(guò)諸葛io平臺的identify過(guò)程,將用戶(hù)的身分及特征傳遞給諸葛io,利用identify的信息進(jìn)行精細化剖析:
  細分用戶(hù)群:用戶(hù)屬性的一個(gè)很重要的作用就是將用戶(hù)分群。您可以按照identify的屬性定義篩選條件,進(jìn)行用戶(hù)群的細分,比如用「性別=女」的條件將所有的女生篩選下來(lái),然后剖析妹子們的行為特征和轉化率……
  基于屬性的對比:細分的重要目的之一就是對比,您可以基于「性別」細分,然后對比「妹子們」和「漢子們」的行為、轉化、留存等的區別;
  基于屬性的人群畫(huà)像:您可以基于用戶(hù)屬性,對產(chǎn)品的任意用戶(hù)群進(jìn)行「畫(huà)像剖析」——該用戶(hù)群的男女比列、地區分布、年齡層次、用戶(hù)類(lèi)型……
  回到一開(kāi)始的問(wèn)題:何種埋點(diǎn)方法最理想呢?
  正就像硬幣有兩面,任何單一的埋點(diǎn)方法都存在優(yōu)點(diǎn)與缺點(diǎn),企圖通過(guò)簡(jiǎn)單粗暴的幾行代碼/一次布署、甚至犧牲用戶(hù)體驗的埋點(diǎn)形式,都不是企業(yè)所期望的。
  因此,數據采集只是數據剖析的第一步,數據剖析的目的是洞察用戶(hù)行為,挖掘用戶(hù)價(jià)值,進(jìn)而促使業(yè)務(wù)下降,諸葛io覺(jué)得,最理想的埋點(diǎn)方案是按照不同的業(yè)務(wù)和場(chǎng)景以及行業(yè)特點(diǎn)和自身實(shí)際需求,將埋點(diǎn)通過(guò)好壞互補形式進(jìn)行組合,比如:
  1、代碼埋點(diǎn)+全埋點(diǎn):在須要對落地頁(yè)進(jìn)行整體點(diǎn)擊剖析時(shí),細節位置逐一埋點(diǎn)的工作量相對較大,且在頻繁優(yōu)化調整落地頁(yè)時(shí),更新埋點(diǎn)的工作量愈發(fā)不容輕視,但復雜的頁(yè)面存在著(zhù)全埋點(diǎn)不能采集的死角,因此,可將代碼埋點(diǎn)作為輔助,將用戶(hù)核心行為進(jìn)行采集,從而實(shí)現精準的可交叉的用戶(hù)行為剖析;
  2、代碼埋點(diǎn)+服務(wù)端埋點(diǎn):以電商平臺為例, 用戶(hù)在支付環(huán)節,由于中途會(huì )跳轉到第三方支付平臺,是否支付成功須要通過(guò)服務(wù)器中的交易數據來(lái)驗證,此時(shí)可通過(guò)代碼埋點(diǎn)和服務(wù)端埋點(diǎn)相結合的方法,提升數據的準確性;
  3、代碼埋點(diǎn)+可視化埋點(diǎn):因代碼埋點(diǎn)的工作量大,可通過(guò)核心風(fēng)波代碼埋點(diǎn),可視化埋點(diǎn)用于追加和補充的形式采集數據。
  要滿(mǎn)足精細化、精準化的數據剖析需求,可依照實(shí)際須要的剖析場(chǎng)景,選擇一種或多種組合的采集方式,畢竟采集全量數據不是目的,實(shí)現有效的數據剖析,從數據中找到關(guān)鍵決策信息實(shí)現增速才是重中之重。
  原文發(fā)布時(shí)間為:2017-08-11
  本文作者:廠(chǎng)商投稿
  本文來(lái)自云棲社區合作伙伴IT168,了解相關(guān)信息可以關(guān)注IT168
  原文標題:數據下降第一步:選擇“最優(yōu)”的埋點(diǎn)采集方式

良心總結:常用的第三方統計平臺優(yōu)缺點(diǎn)剖析

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 226 次瀏覽 ? 2020-08-13 06:08 ? 來(lái)自相關(guān)話(huà)題

  缺點(diǎn)
  在A(yíng)PP開(kāi)發(fā)的時(shí)侯須要用戶(hù)自動(dòng)埋點(diǎn),增、刪、改代碼非常麻煩,工作量大
  另外,友盟早已確認被阿里競購了,如果你不介意公司數據曝露在阿里面前的話(huà)。
  2.TalkingData
  TalkingData是獨立的第三方聯(lián)通數據服務(wù)品牌。其產(chǎn)品及服務(wù)涵括聯(lián)通應用數據統計、移動(dòng)廣告檢測、移動(dòng)游戲營(yíng)運、公共數據查詢(xún)、綜合數據管理等多款極具針對性的產(chǎn)品及服務(wù)。在工行、互聯(lián)網(wǎng)、電商行業(yè)有廣泛的數據服務(wù)應用。
  優(yōu)點(diǎn):
  界面清晰,不會(huì )象友盟看著(zhù)這么累
  支持直接在報表后臺中設定追蹤點(diǎn)并手動(dòng)布署追蹤代碼的“靈動(dòng)風(fēng)波”;
  可以基于統計數據對不同的用戶(hù)人群完成精準推送營(yíng)銷(xiāo)
  不光可以使用TalkingData提供的推送通道,還可以與個(gè)推、極光等推送平臺組合使用,讓往年的粗放推送達到實(shí)時(shí)精準化,并實(shí)時(shí)查閱療效數據。
  缺點(diǎn):
  手動(dòng)埋點(diǎn),工作量大
  采集錯誤報告信息,如果使用TalkingData SDK手動(dòng)捕獲異常會(huì )耗損用戶(hù)流量,而主動(dòng)傳送錯誤信息給SDK目前僅Android SDK提供此功能
  不支持cocoapods集成
  沒(méi)有crash統計
  3.GrowingIO
  GrowingIO是基于互聯(lián)網(wǎng)的用戶(hù)行為數據剖析產(chǎn)品,具有無(wú)埋點(diǎn)的數據采集技術(shù),可以通過(guò)網(wǎng)頁(yè)或APP的瀏覽軌跡、點(diǎn)擊記錄和鍵盤(pán)滑動(dòng)軌跡等行為數據,進(jìn)行實(shí)時(shí)的用戶(hù)行為數據剖析,用于優(yōu)化產(chǎn)品體驗,實(shí)現精益化營(yíng)運。
  優(yōu)點(diǎn):不需要埋點(diǎn)
  缺點(diǎn);不埋點(diǎn)是指使數據分析師不需要去埋點(diǎn),但實(shí)際開(kāi)發(fā)過(guò)程中,需要開(kāi)發(fā)者去設置個(gè)每個(gè)點(diǎn)的名稱(chēng),并且她們的數據上傳十分特別頻繁,網(wǎng)站輪詢(xún),感覺(jué)象bug,不停的循環(huán)。
  如果UI發(fā)生變化,可能造成難以準確地統計已圈選的元素,所以還須要自動(dòng)為界面元素設置固定的惟一ID,代碼量也不小
  4. Sensorsdata(神策數據)
  與GrowingIO類(lèi)似,也是基于用戶(hù)網(wǎng)路行為,采集數據進(jìn)行剖析。技術(shù)上提供開(kāi)放的查詢(xún) API 和完整的 SQL 接口,同時(shí)與 MapReduce 和 Spark等估算引擎無(wú)縫融合,隨時(shí)以最高效的方法來(lái)訪(fǎng)問(wèn)干凈、規范的數據。
  優(yōu)點(diǎn):
  提供了可視化埋點(diǎn)的解決方案
  支持多種語(yǔ)言的SDK
  API功能豐富
  缺點(diǎn):
  公司剛開(kāi)始起步不久,沒(méi)有市面上的大公司成熟。
  5.shareinstall
  APP開(kāi)發(fā)者可以通過(guò)Shareinstall更精準的進(jìn)行產(chǎn)品的推廣。另外,Shareinstall還是一款渠道統計工具,能夠全方位的剖析渠道推廣療效。Shareinstall是一種APP市場(chǎng)營(yíng)銷(xiāo)技術(shù)。通過(guò)集成Shareinstall,開(kāi)發(fā)者可依照自身APP的業(yè)務(wù)參數、軟硬件參數、結合自身業(yè)務(wù),對APP的流程進(jìn)行優(yōu)化重整,以便向用戶(hù)提供更好的體驗。Shareinstall強悍的功能和靈活的插口,能夠為不限數目和服務(wù)類(lèi)型的APP提供支持。由于Shareinstall可為各種APP提供支持,這將形成未能用盡的應用場(chǎng)景。
  優(yōu)點(diǎn):
  1)攜參安裝
  ShareinstallSDK可以通過(guò)攜參安裝,簡(jiǎn)化用戶(hù)的安裝體驗,豐富用戶(hù)的安裝信息,例如:免填邀請碼,自動(dòng)添加好友,自動(dòng)加入游戲臥室,商品導購等
  2)渠道統計
  幫助統計并剖析渠道推廣的療效,通過(guò)數據幫助決策者調整渠道推廣策略
  3)一鍵拉起
  可實(shí)現各類(lèi)瀏覽器的一鍵拉起
  缺點(diǎn):第三方,需要應用集成SDK。除了這點(diǎn)以外,其余方面還是做的很不錯的,不介意這點(diǎn)的可以選擇shareinstall。
  總結
  僅僅是剖析UV、PV、點(diǎn)擊量等基本指標,可以選擇代碼埋點(diǎn)或則可視化埋點(diǎn)等后端埋點(diǎn)方案;
  精細化剖析核心轉化流程,則可能須要借助前端 SDK 或者 LogAgent 接入前端日志;
  活動(dòng)/新功能快速上線(xiàn)迭代時(shí)的療效評估,則可以借助可視化埋點(diǎn)快速完成;
  對客服服務(wù)質(zhì)量的考評,或者不同快件在不同省份運送不同品類(lèi)產(chǎn)品的速率的比較,則須要使用前端 SDK 來(lái)對接第三方系統便于導出數據。
  一個(gè)產(chǎn)品首次使用 Sensors Analytics時(shí),初期采用可視化埋點(diǎn)方案,快速完成布署,以便快速評估剖析療效,做出快速決策;而對可視化埋點(diǎn)得到的數據,在剖析評析后,再針對性地逐漸采用其它數據采集方案,獲取更詳盡、更全面的數據剖析結果。 查看全部

  缺點(diǎn)
  在A(yíng)PP開(kāi)發(fā)的時(shí)侯須要用戶(hù)自動(dòng)埋點(diǎn),增、刪、改代碼非常麻煩,工作量大
  另外,友盟早已確認被阿里競購了,如果你不介意公司數據曝露在阿里面前的話(huà)。
  2.TalkingData
  TalkingData是獨立的第三方聯(lián)通數據服務(wù)品牌。其產(chǎn)品及服務(wù)涵括聯(lián)通應用數據統計、移動(dòng)廣告檢測、移動(dòng)游戲營(yíng)運、公共數據查詢(xún)、綜合數據管理等多款極具針對性的產(chǎn)品及服務(wù)。在工行、互聯(lián)網(wǎng)、電商行業(yè)有廣泛的數據服務(wù)應用。
  優(yōu)點(diǎn):
  界面清晰,不會(huì )象友盟看著(zhù)這么累
  支持直接在報表后臺中設定追蹤點(diǎn)并手動(dòng)布署追蹤代碼的“靈動(dòng)風(fēng)波”;
  可以基于統計數據對不同的用戶(hù)人群完成精準推送營(yíng)銷(xiāo)
  不光可以使用TalkingData提供的推送通道,還可以與個(gè)推、極光等推送平臺組合使用,讓往年的粗放推送達到實(shí)時(shí)精準化,并實(shí)時(shí)查閱療效數據。
  缺點(diǎn):
  手動(dòng)埋點(diǎn),工作量大
  采集錯誤報告信息,如果使用TalkingData SDK手動(dòng)捕獲異常會(huì )耗損用戶(hù)流量,而主動(dòng)傳送錯誤信息給SDK目前僅Android SDK提供此功能
  不支持cocoapods集成
  沒(méi)有crash統計
  3.GrowingIO
  GrowingIO是基于互聯(lián)網(wǎng)的用戶(hù)行為數據剖析產(chǎn)品,具有無(wú)埋點(diǎn)的數據采集技術(shù),可以通過(guò)網(wǎng)頁(yè)或APP的瀏覽軌跡、點(diǎn)擊記錄和鍵盤(pán)滑動(dòng)軌跡等行為數據,進(jìn)行實(shí)時(shí)的用戶(hù)行為數據剖析,用于優(yōu)化產(chǎn)品體驗,實(shí)現精益化營(yíng)運。
  優(yōu)點(diǎn):不需要埋點(diǎn)
  缺點(diǎn);不埋點(diǎn)是指使數據分析師不需要去埋點(diǎn),但實(shí)際開(kāi)發(fā)過(guò)程中,需要開(kāi)發(fā)者去設置個(gè)每個(gè)點(diǎn)的名稱(chēng),并且她們的數據上傳十分特別頻繁,網(wǎng)站輪詢(xún),感覺(jué)象bug,不停的循環(huán)。
  如果UI發(fā)生變化,可能造成難以準確地統計已圈選的元素,所以還須要自動(dòng)為界面元素設置固定的惟一ID,代碼量也不小
  4. Sensorsdata(神策數據)
  與GrowingIO類(lèi)似,也是基于用戶(hù)網(wǎng)路行為,采集數據進(jìn)行剖析。技術(shù)上提供開(kāi)放的查詢(xún) API 和完整的 SQL 接口,同時(shí)與 MapReduce 和 Spark等估算引擎無(wú)縫融合,隨時(shí)以最高效的方法來(lái)訪(fǎng)問(wèn)干凈、規范的數據。
  優(yōu)點(diǎn):
  提供了可視化埋點(diǎn)的解決方案
  支持多種語(yǔ)言的SDK
  API功能豐富
  缺點(diǎn):
  公司剛開(kāi)始起步不久,沒(méi)有市面上的大公司成熟。
  5.shareinstall
  APP開(kāi)發(fā)者可以通過(guò)Shareinstall更精準的進(jìn)行產(chǎn)品的推廣。另外,Shareinstall還是一款渠道統計工具,能夠全方位的剖析渠道推廣療效。Shareinstall是一種APP市場(chǎng)營(yíng)銷(xiāo)技術(shù)。通過(guò)集成Shareinstall,開(kāi)發(fā)者可依照自身APP的業(yè)務(wù)參數、軟硬件參數、結合自身業(yè)務(wù),對APP的流程進(jìn)行優(yōu)化重整,以便向用戶(hù)提供更好的體驗。Shareinstall強悍的功能和靈活的插口,能夠為不限數目和服務(wù)類(lèi)型的APP提供支持。由于Shareinstall可為各種APP提供支持,這將形成未能用盡的應用場(chǎng)景。
  優(yōu)點(diǎn):
  1)攜參安裝
  ShareinstallSDK可以通過(guò)攜參安裝,簡(jiǎn)化用戶(hù)的安裝體驗,豐富用戶(hù)的安裝信息,例如:免填邀請碼,自動(dòng)添加好友,自動(dòng)加入游戲臥室,商品導購等
  2)渠道統計
  幫助統計并剖析渠道推廣的療效,通過(guò)數據幫助決策者調整渠道推廣策略
  3)一鍵拉起
  可實(shí)現各類(lèi)瀏覽器的一鍵拉起
  缺點(diǎn):第三方,需要應用集成SDK。除了這點(diǎn)以外,其余方面還是做的很不錯的,不介意這點(diǎn)的可以選擇shareinstall。
  總結
  僅僅是剖析UV、PV、點(diǎn)擊量等基本指標,可以選擇代碼埋點(diǎn)或則可視化埋點(diǎn)等后端埋點(diǎn)方案;
  精細化剖析核心轉化流程,則可能須要借助前端 SDK 或者 LogAgent 接入前端日志;
  活動(dòng)/新功能快速上線(xiàn)迭代時(shí)的療效評估,則可以借助可視化埋點(diǎn)快速完成;
  對客服服務(wù)質(zhì)量的考評,或者不同快件在不同省份運送不同品類(lèi)產(chǎn)品的速率的比較,則須要使用前端 SDK 來(lái)對接第三方系統便于導出數據。
  一個(gè)產(chǎn)品首次使用 Sensors Analytics時(shí),初期采用可視化埋點(diǎn)方案,快速完成布署,以便快速評估剖析療效,做出快速決策;而對可視化埋點(diǎn)得到的數據,在剖析評析后,再針對性地逐漸采用其它數據采集方案,獲取更詳盡、更全面的數據剖析結果。

我為何用 ElasticSearch 做 Redis 監控?

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 221 次瀏覽 ? 2020-08-12 01:38 ? 來(lái)自相關(guān)話(huà)題

  本文按照李猛老師在〖deeplus直播第220期〗線(xiàn)上分享講演內容整理而成。(文末有獲取本期PPT&回放的途徑,不要錯過(guò))
  
  李猛
  數據技術(shù)專(zhuān)家
  序言
  
  圖示:Redis熱度排行
  Redis當下挺流行,也挺好用,無(wú)論是在業(yè)務(wù)應用系統,還是在大數據領(lǐng)域都有重要的地位;但Redis也太脆弱,用不好,問(wèn)題多多。2012年以前都是以memcached為主,之后轉入Redis陣營(yíng),經(jīng)歷過(guò)單實(shí)例模式、主從模式、哨兵模式、代理模式,集群模式,真正公司層面用得好的極少,對于Redis掌控都太片面,導致實(shí)際項目中問(wèn)題不少。
  Redis要想用得好,需要整體把握3個(gè)層面:
  其中構架與運維至關(guān)重要,多數中小型企業(yè)僅在開(kāi)發(fā)層面滿(mǎn)足常用功能,數據規模稍為大些,業(yè)務(wù)復雜度高些,就容易出現各類(lèi)構架與運維問(wèn)題。本文主旨是闡述Redis監控體系,目前業(yè)界其實(shí)也有好多成熟的產(chǎn)品,但個(gè)人感覺(jué)都太常規,只做到一些粗細度的監控, 沒(méi)有根據業(yè)務(wù)需求特性因地制宜去細化,從而反向的提供構架開(kāi)發(fā)優(yōu)化方案。
  本文內容將圍繞如下幾個(gè)問(wèn)題展開(kāi)討論:
  需求背景
  項目描述
  公司業(yè)務(wù)范圍屬于車(chē)聯(lián)網(wǎng)行業(yè),有上百萬(wàn)級的真實(shí)車(chē)主用戶(hù),業(yè)務(wù)項目圍繞車(chē)主生活服務(wù)展開(kāi),為了提升系統性能,引入了Redis作為緩存中間件,具體描述如下:
  
  圖示:Redis集群構架與應用構架示意圖
  問(wèn)題描述
  系統剛開(kāi)始關(guān)于Redis的一切都很正常,隨著(zhù)應用系統接入越來(lái)越多,應用系統子模塊接入也越來(lái)越多,開(kāi)始出現一些問(wèn)題,應用系統有感知,集群服務(wù)端也有感知,如下描述:
  其實(shí)問(wèn)題的癥結都是構架運維層面的缺乏,對于Redis集群服務(wù)端的運行監控雖然挺好做,本身也提供了好多直接的命令形式,但只能看見(jiàn)服務(wù)端的一些常用指標信息,無(wú)法深入剖析,治標不治本,對于Redis的內部運行一無(wú)所知,特別是對于業(yè)務(wù)應用怎樣使用Redis集群一無(wú)所知:
  監控體系
  監控的目的不僅僅是監控Redis本身,而是為了更好的使用Redis。傳統的監控通常比較單一化,沒(méi)有系統化,但對于Redis來(lái)說(shuō),個(gè)人覺(jué)得起碼包括:一是服務(wù)端,二是應用端,三是服務(wù)端與應用端聯(lián)合剖析。
  服務(wù)端:
  應用端:
  應用端、獲取應用端使用Redis的一些行為,具體什么應用什么模塊最占用 Redis資源、哪些應用什么模塊最消耗Redis資源、哪些應用什么模塊用法有誤等。
  聯(lián)合剖析:
  聯(lián)合剖析結合服務(wù)端的運行與應用端使用的行為,如:一些導致服務(wù)端忽然阻塞的緣由,可能是應用端設置了一個(gè)很大的緩存通配符,或者使用的通配符列表,數據量超大導致阻塞。
  解決方案
  為什么會(huì )選擇Elastic-Stack技術(shù)棧呢?
  多數的第三方只監控一些指標,對于明細日志還是采用ELK(Elasticsearch、Logstash、Kibana),也就是說(shuō)用第三方監控指標以后,還得再搭建一個(gè)ELK集群看明細日志。
  再就是說(shuō)Elastic-Stack技術(shù)棧整合的優(yōu)勢,指標也可以、日志文件也可以,從采集開(kāi)始到儲存、到最終報表面板都整合得非常好,門(mén)檻太低。
  下面詳盡談?wù)勎覀兙唧w如何做的,做了什么工作?
  服務(wù)端系統
  Elastic-Stack家族有Metricbeat產(chǎn)品,支持系統層面的信息搜集,簡(jiǎn)單的配置下Elastic集群地址和系統指標模塊即可上線(xiàn),并且會(huì )在Kibana中創(chuàng )建已有的系統監控面板,非常簡(jiǎn)單快速,一般運維就可以搞定。
  
  圖示:metrcibeat示意圖
  系統指標信息搜集配置樣例如下:
  服務(wù)端集群
  采集Redis集群運行信息,業(yè)界一般做法都是采用Redis提供的info命令,定期搜集。
  info獲取的信息包括如下:
  Elastic-Stack家族的Metricbeat產(chǎn)品也支持Redis模塊,也是采用info命令獲取的,但是有一些實(shí)現的局限性,如下描述:
  所以這兒參考了CacheCloud產(chǎn)品(搜狐團隊開(kāi)源),我們自定義設計開(kāi)發(fā)了 Agent,定時(shí)從Redis集群采集信息,并在內部做一些統計數值的簡(jiǎn)單估算,轉換成Json,寫(xiě)入到本地文件,通過(guò)Logstash采集發(fā)送到Elasticsearch。
  
  圖示:Redis服務(wù)端運行信息采集架構示意圖
  服務(wù)端日志
  Redis服務(wù)端運行日志采集很簡(jiǎn)單,直接通過(guò)Elastic-Stack家族的Filebeat產(chǎn)品,其中有Redis模塊,配置一下Elastic服務(wù)端,日志文件地址即可。
  
  圖示:服務(wù)端日志采集過(guò)程
  Redis運行日志采集配置:
  
  應用端
  應用端信息采集是整個(gè)Redis監控體系最重要的部份,也是實(shí)現最麻煩、鏈路最長(cháng)的。首先是更改jedis(技術(shù)棧Java)源碼,增加埋點(diǎn)代碼,重新編譯并引用到應用項目中,應用端對于Redis集群的任何命令操作,都會(huì )被捕捉,并記錄下關(guān)鍵信息,之后寫(xiě)入到本地文件。
  
  圖示:Redis應用端行為采集架構圖
  應用端采集的數據格式如下:
  圖示:應用端采集的數據案例
  jedis更改:
  jedis整修記錄的信息如下:
  在jedis整修有幾處地方,如下:
  在類(lèi)Connection.java文件中有2處:
  
  圖示:類(lèi)Connection.java文件埋點(diǎn)代碼的地方
  
  圖示:類(lèi)Connection.java文件埋點(diǎn)代碼的地方
  類(lèi)JedisClusterCommand文件埋點(diǎn)代碼.java文件中有1處:
  
  圖示:類(lèi)JedisClusterCommand文件埋點(diǎn)代碼
  logback更改:
  應用端就會(huì )使用logback寫(xiě)入日志文件,同時(shí)為了愈發(fā)精準,應用端寫(xiě)入日志時(shí)還須要獲取應用端的一些信息,如下:
  自定義一個(gè)Layout,自動(dòng)獲取應用端的IP地址與服務(wù)器名稱(chēng):
  
  圖示:自定義Logback的Layout
  app配置:
  app配置屬于最后掃尾工作,主要是輸出埋點(diǎn)的日志數據,配置日志logback.xml文件即可:
  
  圖示:配置應用端日志文件logback.xml
  日志采集:
  應用端日志采集采用Logstash,配置日志目錄,指向Elastic集群,這樣整體的監控日志采集部分就結束了。
  日志剖析
  Redis服務(wù)端的日志剖析比較簡(jiǎn)單,常規的一些指標而已,創(chuàng )建好關(guān)鍵的圖表,容易看出問(wèn)題。重點(diǎn)討論應用端的日志剖析。
  
  圖示:應用端使用Redis一些行為圖表
  ELK監控體系上線(xiàn)以后,我們連續觀(guān)察剖析兩周,獲得了一些監控成果,如:
  后續方案
  監控體系相當于架構師的雙眼,有了這個(gè),Redis方面的優(yōu)化整修方案就挺好制訂了:
  結語(yǔ)
  監控體系項目前后經(jīng)歷過(guò)幾個(gè)月,服務(wù)端部份短期內就完成的,應用端是隨著(zhù)應用發(fā)布逐漸完成的。上線(xiàn)完成以后又經(jīng)歷幾周的跟蹤剖析,才確定出來(lái)整體的優(yōu)化方案。
  監控體系本身并不是為了監控,而是發(fā)覺(jué)問(wèn)題、預見(jiàn)問(wèn)題,最終提早解決問(wèn)題,監控做得好,下班下得早。
  Redis集群是個(gè)好東西,完全把握還是須要太長(cháng)的時(shí)間,特別是構架、運維層面,如果沒(méi)有,請做好監控。
  > > > >
  Q&A
  Q1:請問(wèn)單臺機器通常布署幾個(gè)Redis實(shí)例呢?
  A:依據服務(wù)器資源設置:
  1、CPU核數,Redis是單線(xiàn)程工作模型,實(shí)際運行并非進(jìn)程只有一個(gè)線(xiàn)程,這個(gè)要搞清楚;
  2、內存,一個(gè)Redis進(jìn)程配置部份顯存,需要起碼對等的顯存閑置,fork子進(jìn)程使用, 所以配置多實(shí)例要簡(jiǎn)單估算下;
  3、網(wǎng)絡(luò ),網(wǎng)絡(luò )IO超過(guò)網(wǎng)卡限制,會(huì )出問(wèn)題。
  Q2:直播中提到的大key,hash要改成哪些?分片嗎?
  A:1、比如,一個(gè)面包車(chē)的基本信息,包括好多區塊部份,用hash確實(shí)非常好理解,但是過(guò)期以后整個(gè)hash都刪掉了,其實(shí)好多信息是固定的,不用定時(shí)過(guò)期的;2、拆分成小的string更合適。
  Q3:在客戶(hù)端復印key和value,如果是bigkey的話(huà),qps有個(gè)1000,打印日志就占用很高的機器負載了吧?
  A:1、打印的key,不包括value值內容,只有key以及value的大??;2、logback這種框架似乎支持的性能相當不錯的,可以配置成異步的形式,如果還不夠,可以直接輸出到Kafka隊列等。
  Q4:請問(wèn)ES如何布署MongoDB慢查詢(xún)報表平臺呢?
  A:1、沒(méi)有深度使用過(guò)MongoDB;2、基于Elastic-Stack做慢查詢(xún)報表平臺思路與Redis一樣的,不管哪些指標+日志全部都采集到ES完事。
  Q5:info all執行頻繁,會(huì )時(shí)常阻塞服務(wù)器,怎么平衡它的性能呢?
  A:1、因為采集的是服務(wù)端運行的快照信息,定時(shí)采集,可以設定時(shí)間間隔大一些,比如5s;2、執行info all,是在 java客戶(hù)端,可以更改jedis,在其中捕獲info命令,采集數據,觀(guān)察剖析一段時(shí)間。
  Q6:請問(wèn)應用端jedis要如何埋點(diǎn)呢?
  A:1、原有jedis版本基于2.9,在2個(gè)類(lèi)中更改埋點(diǎn),參考了CacheCloud產(chǎn)品。最新版本的程序近來(lái)沒(méi)有關(guān)注,思路一樣;2、詳細見(jiàn)本文中貼出的代碼。
  Q7:監控的話(huà),個(gè)人認為置于K8S上面,不是最優(yōu)方案,您對這個(gè)如何看?
  A:1、本人未使用過(guò)K8S布署產(chǎn)品;2、Redis監控體系,整體服務(wù)端,應用端,在Docker中也僅服務(wù)端可以,將metrcibeats這種集成在一起,但也有一些服務(wù)端監指標估算,需要自己編撰Agent來(lái)完成,也是可以到Docker中去。應用端的就沒(méi)有辦法了,這個(gè)屬于后端的行為統計。
  Q8:請問(wèn)您的ES有多少節點(diǎn)?要用ssd盤(pán)嗎?
  A:1、標準集群,起步3個(gè)實(shí)例節點(diǎn);2、固態(tài)硬盤(pán)應用看場(chǎng)景,業(yè)務(wù)系統用用可以,日志系統通常不需要,即使須要也可以做冷熱隔離,少量的數據使用ssd,歷史的數據全部hdd足矣。
  Q9:如果公司缺少足夠的人力物力,是用ES、Prometheus還是Zabbix做監控比較適宜呢?能分別說(shuō)一下它們各自最適用的情況嗎?
  A:1、ES,Elastic-Stack,首選考慮,ES擅長(cháng)的領(lǐng)域好多,應用系統查詢(xún)加速、大數據領(lǐng)域、監控領(lǐng)域;2、其它兩個(gè)產(chǎn)品主要是做指標型的監控,但實(shí)際項目中,僅僅指標監控是不夠的,需要一個(gè)整體型的監控體系,便于聯(lián)合剖析。ES雖然好多方面比時(shí)序數據庫做得更好,騰訊有資深專(zhuān)家做過(guò)詳盡的ES與TSDB對比的測試,性能與功能都完全超過(guò)專(zhuān)門(mén)的時(shí)序數據庫。返回搜狐,查看更多 查看全部

  本文按照李猛老師在〖deeplus直播第220期〗線(xiàn)上分享講演內容整理而成。(文末有獲取本期PPT&回放的途徑,不要錯過(guò))
  
  李猛
  數據技術(shù)專(zhuān)家
  序言
  
  圖示:Redis熱度排行
  Redis當下挺流行,也挺好用,無(wú)論是在業(yè)務(wù)應用系統,還是在大數據領(lǐng)域都有重要的地位;但Redis也太脆弱,用不好,問(wèn)題多多。2012年以前都是以memcached為主,之后轉入Redis陣營(yíng),經(jīng)歷過(guò)單實(shí)例模式、主從模式、哨兵模式、代理模式,集群模式,真正公司層面用得好的極少,對于Redis掌控都太片面,導致實(shí)際項目中問(wèn)題不少。
  Redis要想用得好,需要整體把握3個(gè)層面:
  其中構架與運維至關(guān)重要,多數中小型企業(yè)僅在開(kāi)發(fā)層面滿(mǎn)足常用功能,數據規模稍為大些,業(yè)務(wù)復雜度高些,就容易出現各類(lèi)構架與運維問(wèn)題。本文主旨是闡述Redis監控體系,目前業(yè)界其實(shí)也有好多成熟的產(chǎn)品,但個(gè)人感覺(jué)都太常規,只做到一些粗細度的監控, 沒(méi)有根據業(yè)務(wù)需求特性因地制宜去細化,從而反向的提供構架開(kāi)發(fā)優(yōu)化方案。
  本文內容將圍繞如下幾個(gè)問(wèn)題展開(kāi)討論:
  需求背景
  項目描述
  公司業(yè)務(wù)范圍屬于車(chē)聯(lián)網(wǎng)行業(yè),有上百萬(wàn)級的真實(shí)車(chē)主用戶(hù),業(yè)務(wù)項目圍繞車(chē)主生活服務(wù)展開(kāi),為了提升系統性能,引入了Redis作為緩存中間件,具體描述如下:
  
  圖示:Redis集群構架與應用構架示意圖
  問(wèn)題描述
  系統剛開(kāi)始關(guān)于Redis的一切都很正常,隨著(zhù)應用系統接入越來(lái)越多,應用系統子模塊接入也越來(lái)越多,開(kāi)始出現一些問(wèn)題,應用系統有感知,集群服務(wù)端也有感知,如下描述:
  其實(shí)問(wèn)題的癥結都是構架運維層面的缺乏,對于Redis集群服務(wù)端的運行監控雖然挺好做,本身也提供了好多直接的命令形式,但只能看見(jiàn)服務(wù)端的一些常用指標信息,無(wú)法深入剖析,治標不治本,對于Redis的內部運行一無(wú)所知,特別是對于業(yè)務(wù)應用怎樣使用Redis集群一無(wú)所知:
  監控體系
  監控的目的不僅僅是監控Redis本身,而是為了更好的使用Redis。傳統的監控通常比較單一化,沒(méi)有系統化,但對于Redis來(lái)說(shuō),個(gè)人覺(jué)得起碼包括:一是服務(wù)端,二是應用端,三是服務(wù)端與應用端聯(lián)合剖析。
  服務(wù)端:
  應用端:
  應用端、獲取應用端使用Redis的一些行為,具體什么應用什么模塊最占用 Redis資源、哪些應用什么模塊最消耗Redis資源、哪些應用什么模塊用法有誤等。
  聯(lián)合剖析:
  聯(lián)合剖析結合服務(wù)端的運行與應用端使用的行為,如:一些導致服務(wù)端忽然阻塞的緣由,可能是應用端設置了一個(gè)很大的緩存通配符,或者使用的通配符列表,數據量超大導致阻塞。
  解決方案
  為什么會(huì )選擇Elastic-Stack技術(shù)棧呢?
  多數的第三方只監控一些指標,對于明細日志還是采用ELK(Elasticsearch、Logstash、Kibana),也就是說(shuō)用第三方監控指標以后,還得再搭建一個(gè)ELK集群看明細日志。
  再就是說(shuō)Elastic-Stack技術(shù)棧整合的優(yōu)勢,指標也可以、日志文件也可以,從采集開(kāi)始到儲存、到最終報表面板都整合得非常好,門(mén)檻太低。
  下面詳盡談?wù)勎覀兙唧w如何做的,做了什么工作?
  服務(wù)端系統
  Elastic-Stack家族有Metricbeat產(chǎn)品,支持系統層面的信息搜集,簡(jiǎn)單的配置下Elastic集群地址和系統指標模塊即可上線(xiàn),并且會(huì )在Kibana中創(chuàng )建已有的系統監控面板,非常簡(jiǎn)單快速,一般運維就可以搞定。
  
  圖示:metrcibeat示意圖
  系統指標信息搜集配置樣例如下:
  服務(wù)端集群
  采集Redis集群運行信息,業(yè)界一般做法都是采用Redis提供的info命令,定期搜集。
  info獲取的信息包括如下:
  Elastic-Stack家族的Metricbeat產(chǎn)品也支持Redis模塊,也是采用info命令獲取的,但是有一些實(shí)現的局限性,如下描述:
  所以這兒參考了CacheCloud產(chǎn)品(搜狐團隊開(kāi)源),我們自定義設計開(kāi)發(fā)了 Agent,定時(shí)從Redis集群采集信息,并在內部做一些統計數值的簡(jiǎn)單估算,轉換成Json,寫(xiě)入到本地文件,通過(guò)Logstash采集發(fā)送到Elasticsearch。
  
  圖示:Redis服務(wù)端運行信息采集架構示意圖
  服務(wù)端日志
  Redis服務(wù)端運行日志采集很簡(jiǎn)單,直接通過(guò)Elastic-Stack家族的Filebeat產(chǎn)品,其中有Redis模塊,配置一下Elastic服務(wù)端,日志文件地址即可。
  
  圖示:服務(wù)端日志采集過(guò)程
  Redis運行日志采集配置:
  
  應用端
  應用端信息采集是整個(gè)Redis監控體系最重要的部份,也是實(shí)現最麻煩、鏈路最長(cháng)的。首先是更改jedis(技術(shù)棧Java)源碼,增加埋點(diǎn)代碼,重新編譯并引用到應用項目中,應用端對于Redis集群的任何命令操作,都會(huì )被捕捉,并記錄下關(guān)鍵信息,之后寫(xiě)入到本地文件。
  
  圖示:Redis應用端行為采集架構圖
  應用端采集的數據格式如下:
  圖示:應用端采集的數據案例
  jedis更改:
  jedis整修記錄的信息如下:
  在jedis整修有幾處地方,如下:
  在類(lèi)Connection.java文件中有2處:
  
  圖示:類(lèi)Connection.java文件埋點(diǎn)代碼的地方
  
  圖示:類(lèi)Connection.java文件埋點(diǎn)代碼的地方
  類(lèi)JedisClusterCommand文件埋點(diǎn)代碼.java文件中有1處:
  
  圖示:類(lèi)JedisClusterCommand文件埋點(diǎn)代碼
  logback更改:
  應用端就會(huì )使用logback寫(xiě)入日志文件,同時(shí)為了愈發(fā)精準,應用端寫(xiě)入日志時(shí)還須要獲取應用端的一些信息,如下:
  自定義一個(gè)Layout,自動(dòng)獲取應用端的IP地址與服務(wù)器名稱(chēng):
  
  圖示:自定義Logback的Layout
  app配置:
  app配置屬于最后掃尾工作,主要是輸出埋點(diǎn)的日志數據,配置日志logback.xml文件即可:
  
  圖示:配置應用端日志文件logback.xml
  日志采集:
  應用端日志采集采用Logstash,配置日志目錄,指向Elastic集群,這樣整體的監控日志采集部分就結束了。
  日志剖析
  Redis服務(wù)端的日志剖析比較簡(jiǎn)單,常規的一些指標而已,創(chuàng )建好關(guān)鍵的圖表,容易看出問(wèn)題。重點(diǎn)討論應用端的日志剖析。
  
  圖示:應用端使用Redis一些行為圖表
  ELK監控體系上線(xiàn)以后,我們連續觀(guān)察剖析兩周,獲得了一些監控成果,如:
  后續方案
  監控體系相當于架構師的雙眼,有了這個(gè),Redis方面的優(yōu)化整修方案就挺好制訂了:
  結語(yǔ)
  監控體系項目前后經(jīng)歷過(guò)幾個(gè)月,服務(wù)端部份短期內就完成的,應用端是隨著(zhù)應用發(fā)布逐漸完成的。上線(xiàn)完成以后又經(jīng)歷幾周的跟蹤剖析,才確定出來(lái)整體的優(yōu)化方案。
  監控體系本身并不是為了監控,而是發(fā)覺(jué)問(wèn)題、預見(jiàn)問(wèn)題,最終提早解決問(wèn)題,監控做得好,下班下得早。
  Redis集群是個(gè)好東西,完全把握還是須要太長(cháng)的時(shí)間,特別是構架、運維層面,如果沒(méi)有,請做好監控。
  > > > >
  Q&A
  Q1:請問(wèn)單臺機器通常布署幾個(gè)Redis實(shí)例呢?
  A:依據服務(wù)器資源設置:
  1、CPU核數,Redis是單線(xiàn)程工作模型,實(shí)際運行并非進(jìn)程只有一個(gè)線(xiàn)程,這個(gè)要搞清楚;
  2、內存,一個(gè)Redis進(jìn)程配置部份顯存,需要起碼對等的顯存閑置,fork子進(jìn)程使用, 所以配置多實(shí)例要簡(jiǎn)單估算下;
  3、網(wǎng)絡(luò ),網(wǎng)絡(luò )IO超過(guò)網(wǎng)卡限制,會(huì )出問(wèn)題。
  Q2:直播中提到的大key,hash要改成哪些?分片嗎?
  A:1、比如,一個(gè)面包車(chē)的基本信息,包括好多區塊部份,用hash確實(shí)非常好理解,但是過(guò)期以后整個(gè)hash都刪掉了,其實(shí)好多信息是固定的,不用定時(shí)過(guò)期的;2、拆分成小的string更合適。
  Q3:在客戶(hù)端復印key和value,如果是bigkey的話(huà),qps有個(gè)1000,打印日志就占用很高的機器負載了吧?
  A:1、打印的key,不包括value值內容,只有key以及value的大??;2、logback這種框架似乎支持的性能相當不錯的,可以配置成異步的形式,如果還不夠,可以直接輸出到Kafka隊列等。
  Q4:請問(wèn)ES如何布署MongoDB慢查詢(xún)報表平臺呢?
  A:1、沒(méi)有深度使用過(guò)MongoDB;2、基于Elastic-Stack做慢查詢(xún)報表平臺思路與Redis一樣的,不管哪些指標+日志全部都采集到ES完事。
  Q5:info all執行頻繁,會(huì )時(shí)常阻塞服務(wù)器,怎么平衡它的性能呢?
  A:1、因為采集的是服務(wù)端運行的快照信息,定時(shí)采集,可以設定時(shí)間間隔大一些,比如5s;2、執行info all,是在 java客戶(hù)端,可以更改jedis,在其中捕獲info命令,采集數據,觀(guān)察剖析一段時(shí)間。
  Q6:請問(wèn)應用端jedis要如何埋點(diǎn)呢?
  A:1、原有jedis版本基于2.9,在2個(gè)類(lèi)中更改埋點(diǎn),參考了CacheCloud產(chǎn)品。最新版本的程序近來(lái)沒(méi)有關(guān)注,思路一樣;2、詳細見(jiàn)本文中貼出的代碼。
  Q7:監控的話(huà),個(gè)人認為置于K8S上面,不是最優(yōu)方案,您對這個(gè)如何看?
  A:1、本人未使用過(guò)K8S布署產(chǎn)品;2、Redis監控體系,整體服務(wù)端,應用端,在Docker中也僅服務(wù)端可以,將metrcibeats這種集成在一起,但也有一些服務(wù)端監指標估算,需要自己編撰Agent來(lái)完成,也是可以到Docker中去。應用端的就沒(méi)有辦法了,這個(gè)屬于后端的行為統計。
  Q8:請問(wèn)您的ES有多少節點(diǎn)?要用ssd盤(pán)嗎?
  A:1、標準集群,起步3個(gè)實(shí)例節點(diǎn);2、固態(tài)硬盤(pán)應用看場(chǎng)景,業(yè)務(wù)系統用用可以,日志系統通常不需要,即使須要也可以做冷熱隔離,少量的數據使用ssd,歷史的數據全部hdd足矣。
  Q9:如果公司缺少足夠的人力物力,是用ES、Prometheus還是Zabbix做監控比較適宜呢?能分別說(shuō)一下它們各自最適用的情況嗎?
  A:1、ES,Elastic-Stack,首選考慮,ES擅長(cháng)的領(lǐng)域好多,應用系統查詢(xún)加速、大數據領(lǐng)域、監控領(lǐng)域;2、其它兩個(gè)產(chǎn)品主要是做指標型的監控,但實(shí)際項目中,僅僅指標監控是不夠的,需要一個(gè)整體型的監控體系,便于聯(lián)合剖析。ES雖然好多方面比時(shí)序數據庫做得更好,騰訊有資深專(zhuān)家做過(guò)詳盡的ES與TSDB對比的測試,性能與功能都完全超過(guò)專(zhuān)門(mén)的時(shí)序數據庫。返回搜狐,查看更多

神州優(yōu)車(chē)數據交換平臺的構架、建設與疼點(diǎn)難點(diǎn)解讀

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 165 次瀏覽 ? 2020-08-11 21:51 ? 來(lái)自相關(guān)話(huà)題

  講師介紹
  盧彪
  神州優(yōu)車(chē)集團架構部技術(shù)專(zhuān)家
  百度百科:
  數據交換平臺,是指將分散建設的若干應用信息系統進(jìn)行整合,通過(guò)計算機網(wǎng)路建立的信息交換平臺,它讓若干個(gè)應用子系統進(jìn)行信息/數據的傳輸及共享,提高信息資源的利用率,成為進(jìn)行信息化建設的基本目標,保證分布異構系統之間互聯(lián)互通,建立中心數據庫,完成數據的抽取、集中、加載、展現,構造統一的數據處理和交換。
  筆者覺(jué)得,數據交換平臺是建立分布式系統的三駕馬車(chē)之一。這三駕馬車(chē)分別是基于RPC的服務(wù)調用、基于MQ的風(fēng)波驅動(dòng)以及基于Data Sync的數據共享。
  而驅動(dòng)數據交換平臺出現和發(fā)展的根本動(dòng)力是:用空間換時(shí)間。
  一、交換平臺淺談
  1、服務(wù)場(chǎng)景
  概括來(lái)講,數據交換平臺可以服務(wù)的場(chǎng)景可以分為三大類(lèi),分別是:基礎構架、容災備份和異構重塑。
  基礎構架
  場(chǎng)景舉例一:EDA
  通過(guò)數據交換平臺,把數據庫Log風(fēng)波(如MySQL的Binlog)發(fā)送到MQ,然后由不同的消費者進(jìn)行消費,驅動(dòng)不同的業(yè)務(wù)流程(如:刷新緩存、構造搜索引擎、下單以后發(fā)短信、支付以后通知發(fā)貨等),基于這樣的構架,免去了業(yè)務(wù)方自己定義領(lǐng)域風(fēng)波和發(fā)送風(fēng)波的工作,大大節約了工作量。
  更重要的是,基于數據庫自己的Log機制,數據一致性更有保證,其它例如容錯處理、HA等機制也只靠數據交換平臺去保證即可。
  當然,如果風(fēng)波定義比較復雜,普通的業(yè)務(wù)表對應的LogEvent未能抒發(fā)的話(huà),還須要自行設計領(lǐng)域風(fēng)波,此時(shí)我們可以定義一張通用的風(fēng)波表用于保存自定義風(fēng)波;而發(fā)送風(fēng)波的操作對應風(fēng)波表的插入操作而且隨業(yè)務(wù)操作放在一個(gè)事務(wù)中,待事務(wù)遞交后,交換平臺拉取風(fēng)波表的日志,然后提取風(fēng)波內容發(fā)送到MQ即可。
  
  通過(guò)消費數據庫的Log,可做的文章非常多,我們團隊內部正在研制一個(gè)風(fēng)波平臺,也是基于消費MySQL-Binlog來(lái)實(shí)現的,大體構架如下所示:
  
  事件平臺提供了風(fēng)波訂閱,事件配置(如:是實(shí)時(shí)觸發(fā)下一操作還是倒計時(shí)定時(shí)觸發(fā)下一操作,下一操作是插口反彈還是形成一個(gè)新的風(fēng)波等),事件編排和實(shí)時(shí)監控等基礎支撐,使用方只需提供配置規則和開(kāi)發(fā)反彈插口即可,免去了各研制團隊各自為政、重復建設的各類(lèi)問(wèn)題。
  另外,該平臺最大的一個(gè)特色就是引入了風(fēng)波驅動(dòng)的定時(shí)器機制,沒(méi)有這樣一個(gè)機制之前,涉及到時(shí)間要素相關(guān)的判定時(shí)(如:下單后多長(cháng)時(shí)間未結算訂單手動(dòng)轉為無(wú)效,租車(chē)時(shí)長(cháng)超過(guò)一定時(shí)間后,結算類(lèi)型手動(dòng)由短租產(chǎn)品轉為長(cháng)租產(chǎn)品等),業(yè)務(wù)研制團隊須要寫(xiě)大量的定時(shí)任務(wù)掃描數據庫來(lái)估算時(shí)間區間,不僅開(kāi)發(fā)成本巨大而且常常也存在較大的性能問(wèn)題。
  有了定時(shí)器機制,業(yè)務(wù)方只需配置時(shí)間規則即可,并且風(fēng)波平臺是分布式的,可以提供更高的性能支撐。
  場(chǎng)景舉例二:CQRS(Command Query Responsibility Segregation)
  這里套用DDD領(lǐng)域中的一個(gè)概念CQRS,具體介紹可參考鏈接:
  CQRS的思想本質(zhì)上就是為同一份數據構建兩套模型(或叫視圖):
  CQRS架構模式的一個(gè)開(kāi)源實(shí)現是Axon-Framework,基于A(yíng)xon可以建立自己的領(lǐng)域模型、領(lǐng)域風(fēng)波、事件庫房、查詢(xún)視圖等,其提供了聚合根定義、事件重放、事件消費、數據鏡像等基礎支撐,套用一下它的構架圖如下:
  
  理想是豐腴的現實(shí)卻是肉感的,DDD提出早已很多年了,卻因難于實(shí)踐,絕大部分公司還是逗留在靠數據庫表進(jìn)行建模的階段,但CQRS的思想是挺好的。
  那么我們拋掉DDD,基于表模型來(lái)理解CQRS:數據表模型也是領(lǐng)域模型,只不過(guò)不是面向對象的領(lǐng)域模型,數據庫的Log也是風(fēng)波,只不過(guò)抒發(fā)能力不象DDD中的領(lǐng)域風(fēng)波這么豐富。
  基于此,靠數據庫管理模型和風(fēng)波,加上一個(gè)數據交換平臺進(jìn)行風(fēng)波轉發(fā)和消費,便可以建立一個(gè)廣義上的CQRS構架,如下所示:
  
  場(chǎng)景舉例三:數據采集和回流
  很多公司正在建設或則早已建設了自己的大數據平臺,其中數據采集和回流是必不可少的一個(gè)環(huán)節,一般小一些的公司在數據采集這一層做的比較零散,各種開(kāi)源產(chǎn)品堆積在一起完成采集相關(guān)的工作,而大一些的公司會(huì )考慮平臺化,把數據采集放到整個(gè)數據交換平臺的規劃中,以便于提高效率和減少成本。
  下圖是我們團隊的數據交換平臺和大數據平臺的關(guān)系示意圖:
  
  容災備份
  場(chǎng)景舉例一:多機房
  多中心、多備份、異地雙活、異地多活等是好多大公司正在實(shí)踐或則早已實(shí)踐過(guò)的技術(shù)困局,這中間的核心便是一整套完整的數據同步方案。
  場(chǎng)景舉例二:數據鏡像
  通過(guò)數據交換平臺,可以創(chuàng )建各類(lèi)類(lèi)型的DB鏡像,滿(mǎn)足不同場(chǎng)景下的使用須要。
  場(chǎng)景舉例三:數據歸檔
  通過(guò)增量交換,在同步過(guò)程中忽視刪掉風(fēng)波,可以實(shí)現實(shí)時(shí)歸檔。
  異構構建
  場(chǎng)景舉例一:DB升級換代,遷庫、拆庫、合庫
  對DB進(jìn)行升級換代,日常的遷庫、拆庫和合庫等運維操作,就要涉及到數據遷移,如果有平臺,遷移工作都會(huì )顯得很簡(jiǎn)單。
  場(chǎng)景舉例二:資產(chǎn)復用
  越大的公司,包袱也越重,很多公司擁有各類(lèi)類(lèi)型的數據庫和儲存產(chǎn)品,為了復用那些資產(chǎn),就涉及到各類(lèi)場(chǎng)景下的數據同步,統一的數據交換平臺會(huì )使這種場(chǎng)景各異的同步顯得容易好多。
  2、建設思路
  一千個(gè)讀者就有一千個(gè)哈姆雷特,一千個(gè)架構師就有一千種構架思想,數據交換平臺的建設也沒(méi)有哪些手炮可言。不同團隊面對的場(chǎng)景各異,進(jìn)化下來(lái)的構架也就不盡相同。此處結合自己的經(jīng)驗和心得,談一談數據交換平臺建設過(guò)程的一些方法論和注意事項。
  架構選型
  數據同步流程是生產(chǎn)者-消費者模式的典型彰顯,生產(chǎn)者負責從不同的數據源拉取數據,消費者負責把數據講到不同的數據源,生產(chǎn)者和消費者之間可以是1對1的關(guān)系,也可以是1對多的關(guān)系。
  那么,數據交換平臺就是把生產(chǎn)者和消費者串聯(lián)上去的中樞,并且可以在串聯(lián)的過(guò)程中控制流程,概括來(lái)講就是進(jìn)行數據集成。
  數據集成是數據交換平臺最基本的工作,架構的選型和設計應當僅僅圍繞這個(gè)基本點(diǎn)展開(kāi),只有以便快速集成的構架能夠支撐不斷變化的數據同步需求。
  在進(jìn)行構架設計時(shí),需要考慮的點(diǎn),大致總結如下:
  很多公司都在基于消息中間件建立自己的數據交換平臺(有的稱(chēng)之為數據總線(xiàn)),生產(chǎn)者把數據發(fā)送到MQ,消費者從MQ上消費數據,并且數據可以自描述,此模式的一個(gè)典型開(kāi)源實(shí)現就是Kafka-Connect,其構架圖如下所示:
  
  優(yōu)點(diǎn):
  缺點(diǎn):
  不論怎樣,該構架模式是太優(yōu)秀的,能滿(mǎn)足百分之六七十的應用場(chǎng)景。但我們團隊并沒(méi)有直接套用該構架,而是針對其缺點(diǎn),并受Kafka-Connect思路的啟發(fā),實(shí)現了一套基于消息中間件和直連同步的混和構架,如下所示(即DataLink的構架):
  
  在Kafka-Connect的構架中,因為要以Kafka做數據中轉站,所以運行的Task要么是SourceTask、要么是SinkTask,而DataLink中的Task可以對Reader和Writer進(jìn)行任意組合(理論上)。
  基于這樣的特點(diǎn),要建立基于消息中間件的同步,組合Mq-Writer和Mq-Reader即可;要建立直連式的同步,繞過(guò)Mq直接組合源端Reader和目標Writer即可。根據不同場(chǎng)景選擇不同模式,更加靈活。
  消息中間件的方案也好,混合方案也好,針對的大部分場(chǎng)景都是實(shí)時(shí)增量同步(雖然也支持部份場(chǎng)景下的全量同步,但其實(shí)不是其主業(yè)),針對離線(xiàn)全量同步場(chǎng)景,目前你們用的最多的方案是阿里開(kāi)源的DataX,有興趣的可以研究一下。
  簡(jiǎn)單總結,沒(méi)有最好的構架只有最合適的構架,基于消息中間件建立數據交換平臺是目前比較流行的構架模式,但它也有自身的缺點(diǎn),組合各類(lèi)技術(shù),揚長(cháng)避短,針對自己的問(wèn)題和疼點(diǎn)找到適宜自己的方案才是最合理的方案。
  方式方式
  如果說(shuō)構架選型是制訂戰略,那方法技巧就是具體戰術(shù)。從同步行為上來(lái)?yè)Q分,可以分為實(shí)時(shí)增量同步和離線(xiàn)全量同步。
  前者的可行戰術(shù)主要有觸發(fā)器、日志解析和基于時(shí)間戳的數據抽?。ó斎?,不同DB都會(huì )有自己的一些特殊方案,如Oracle的物化視圖機制,SQL Server的CDC等),后者的可行戰術(shù)主要有文件Dump和API抽取。
  實(shí)時(shí)增量同步
  先說(shuō)實(shí)時(shí)增量同步?;谟|發(fā)器的形式獲取數據比較傳統,并且由于運維冗長(cháng)和性能較差等緣由,用的也越來(lái)越少。
  但在個(gè)別特定場(chǎng)景下還是有適用空間的,有一個(gè)開(kāi)源的產(chǎn)品代號為SymmetricDS,可以自動(dòng)化管理觸發(fā)器并提供統一的數據抓取和消費機制,如果想基于觸發(fā)器做數據同步的話(huà)可以參考該產(chǎn)品。
  基于日志解析的方法去做同步目前最受偏愛(ài),像MySQL、HBase等都提供了日志重放機制,并且合同開(kāi)源.
  該方法的主要優(yōu)點(diǎn)有:對業(yè)務(wù)表零侵入、異步解析日志沒(méi)有性能問(wèn)題、實(shí)時(shí)性比較高等。
  日志解析太美好,但并不是所有DB都提供了這樣的機制(如SQL Server),當觸發(fā)器和日志解析都搞不定時(shí),通過(guò)時(shí)間戳數組(如:modify_time)定時(shí)掃表,拿到變更數據并進(jìn)行同步,也是常用的一種手段.
  該方法有幾個(gè)顯著(zhù)的缺點(diǎn):實(shí)時(shí)性比較低、需要業(yè)務(wù)方保證時(shí)間戳數組不能出現漏更新,定時(shí)掃表查詢(xún)也可能會(huì )帶來(lái)一些性能問(wèn)題等。
  離線(xiàn)全量同步
  再說(shuō)離線(xiàn)全量同步。文件Dump的形式通常用在同構數據源之間的同步場(chǎng)景,并且須要靠DB自己的導出導入機制進(jìn)行支持,可以服務(wù)的場(chǎng)景比較單一。API抽取的方法更通用和靈活一些,同構異構都可以編碼進(jìn)行實(shí)現,做的好的話(huà),還可通過(guò)靈活的參數控制提供各類(lèi)中級功能特點(diǎn),如開(kāi)源產(chǎn)品DataX。
  
  難點(diǎn)問(wèn)題
  把數據從一個(gè)地方遷往另一個(gè)地方,怎樣保證在同步過(guò)程中數據不出問(wèn)題(不丟、不重、不亂)或者出現問(wèn)題后能快速恢復,要考慮的點(diǎn)十分多也十分雜,這里結合自己的經(jīng)驗聊聊主要的難點(diǎn)以及常用的解決方案。
  其一:種類(lèi)繁雜的API
  看上去其實(shí)也沒(méi)有哪些難的,不就是調用API進(jìn)行數據操作嗎?其實(shí)不然,市面上的儲存產(chǎn)品有上百種,常用的也有幾十種,其產(chǎn)品特點(diǎn)是千差萬(wàn)別的。
  為了建立一個(gè)高效可靠的平臺,對這種產(chǎn)品的API及其內部機制進(jìn)行透徹的研究是必須要做的 (如:是否支持事務(wù)?事務(wù)細度是表級別還是記錄級別?是支持隨機讀寫(xiě)還是只能支持Append?操作API時(shí)有沒(méi)有客戶(hù)端緩存?HA是如何實(shí)現的?性能困局點(diǎn)在哪些地方?調優(yōu)參數都有什么?自帶的Replication機制是如何實(shí)現的?等等),否則平臺也就僅僅逗留在能用的階段。
  拿我們自己的經(jīng)歷舉個(gè)反例:在建設大數據平臺時(shí),需要數據交換平臺把MySQL和HBase的數據實(shí)時(shí)同步到HDFS中,基于DataLink我們開(kāi)發(fā)了HDFS Writer插件,在實(shí)踐過(guò)程中沒(méi)少趟坑。
  解決這個(gè)難點(diǎn)問(wèn)題,沒(méi)有捷徑,只能靠降低自身硬實(shí)力來(lái)進(jìn)行突破。
  其二:同步關(guān)系整治
  對于服務(wù)框架來(lái)說(shuō),隨著(zhù)服務(wù)數目不斷降低,我們須要服務(wù)整治;對于數據交換平臺來(lái)說(shuō),隨著(zhù)同步關(guān)系的不斷降低,同樣須要對同步關(guān)系進(jìn)行整治。
  需要整治的點(diǎn)主要有:
  避免回環(huán)同步通常加入DAG檢查機制即可。
  保證Schema的一致性通常有兩個(gè)思路:一個(gè)是在同步過(guò)程中獲取到源端的ddl句子手動(dòng)同步到目標端,另一個(gè)是平臺提供同步關(guān)系檢查機制供外部系統使用,前者在異構數據源比較多的時(shí)侯實(shí)現上去困難比較大(腳本轉換、性能問(wèn)題、冪等判定等),并且不是所有的方案都能領(lǐng)到ddl句子,而后者更具有通用性和可行性。
  目前我們內部的方案是,SQL腳本上線(xiàn)時(shí),由數據交換平臺進(jìn)行SQL解析,然后返回同步關(guān)系樹(shù)給DBA團隊的DBMS系統,然后由DBMS系統根據同步關(guān)系的提示逐庫執行腳本即可。
  同步關(guān)系樹(shù)的一個(gè)示意圖如下所示:
  
  其三:數據質(zhì)量
  保證數據質(zhì)量是數據交換平臺的核心使命,同步過(guò)程中做到不丟、不重、不亂,通過(guò)數據巡檢能迅速發(fā)覺(jué)問(wèn)題;發(fā)現問(wèn)題后能快速修補。
  如果能把事前、事中、事后這三個(gè)階段都控制好,那平臺已然達到優(yōu)秀的級別了。
  事前階段靠建立的設計和測試,事中階段靠立體化的監控報案,事后階段靠功能豐富的修補工具,但每位階段實(shí)踐上去都不容易,原因在于場(chǎng)景的靈活性和復雜性,如:
  目前我們團隊也還在不斷探求的路上,沒(méi)有絕對完美的方案,針對自己的場(chǎng)景和對數據一致性要求的程度,找到最合適的方案才是正解。下面借用一張圖來(lái)展示數據質(zhì)量的設計要點(diǎn):
  
  其四:擴展性
  技術(shù)的發(fā)展是快速的,業(yè)務(wù)的演化也是千變萬(wàn)化的,為了應對這種變化,平臺肯定也要跟隨變,但如何用最小的變化帶來(lái)最大的利潤,是判定一個(gè)平臺、一個(gè)產(chǎn)品成熟與否的關(guān)鍵指標。
  筆者篤信一句諺語(yǔ):架構是進(jìn)化下來(lái)的,而不是設計下來(lái)的;但同時(shí)也篤信另一句諺語(yǔ):好的設計是成功的一半。二者并不矛盾,主要在于如何去折中。
  做平臺和做工具的一個(gè)重要區別在于,前者要重點(diǎn)考慮具象、建模和參數化,以提供靈活的擴展性。
  那么擴展性應當考慮到哪些程度呢?一句話(huà)來(lái)概括:我們在平臺的建設過(guò)程中應當不斷歸納、不斷糾錯、不斷具象、不斷迭代、不斷推演,把已知的事情做到模型化,把未知的事情做到可預見(jiàn),不做過(guò)度設計,但也要充分設計。
  開(kāi)源數據同步中間件中,擴展性做的比較好的:阿里的DataX不錯,KafKa-Connect不錯,基于觸發(fā)器的SymmetricDS也不錯,下文要介紹的我們近來(lái)開(kāi)源的DataLink也在這方面做了好多考慮。
  3、開(kāi)源產(chǎn)品
  在這里列舉一下數據同步相關(guān)的開(kāi)源產(chǎn)品,供參考學(xué)習:
  
  二、實(shí)戰項目介紹
  1、DataLink項目介紹
  名稱(chēng): DataLink['deit lik]
  譯意: 數據鏈路,數據(自動(dòng))傳輸器
  語(yǔ)言: 純Java開(kāi)發(fā)(JDK1.8+)
  定位: 滿(mǎn)足各類(lèi)異構數據源之間的實(shí)時(shí)增量同步,一個(gè)分布式、可擴充的數據同步系統
  開(kāi)源地址:
  此次開(kāi)源為消除內部依賴(lài)后的版本(開(kāi)源的是增量同步子系統),在集團內部DataLink和阿里的DataX還進(jìn)行了深度集成,增量(DataLink)+全量(DataX)共同組成統一的數據交換平臺(如果去做類(lèi)比的話(huà),DataLink可以看做增量版的DataX),平臺構架如下所示:
  
  2、項目背景
  隨著(zhù)神州優(yōu)車(chē)集團業(yè)務(wù)的高速發(fā)展,各種各樣的數據同步場(chǎng)景應運而生,原有的系統構架未能支撐復雜多變的業(yè)務(wù)需求。所以,從2016年底開(kāi)始,團隊內部開(kāi)始醞釀DataLink這個(gè)產(chǎn)品。
  著(zhù)眼于未來(lái),我們的目標是構建一個(gè)新平臺,滿(mǎn)足各類(lèi)異構數據源之間的實(shí)時(shí)增量同步,支撐公司業(yè)務(wù)的快速發(fā)展。在充分督查的基礎之上,我們發(fā)覺(jué),沒(méi)有任何一款開(kāi)源產(chǎn)品能輕易的滿(mǎn)足我們的目標,每個(gè)產(chǎn)品都有其顯著(zhù)的弱項和局限性,所以最終的選項只有“自行設計”。
  但自行設計并不是陡然設計,現有的數據交換平臺、已有的經(jīng)驗、大大小小的開(kāi)源產(chǎn)品都是我們的設計根基,與其說(shuō)是自行設計,倒不如說(shuō)是站在巨人的右臂上做了一次飛越。由此誕生了DataLink這樣一個(gè)產(chǎn)品,其產(chǎn)品特點(diǎn)主要如下:
  3、應用現況
  DataLink從2016年12月開(kāi)始立項,第一版于2017年5月份上線(xiàn),在神州優(yōu)車(chē)集團內部服役到如今,基本上滿(mǎn)足了公司所有業(yè)務(wù)線(xiàn)的同步需求,目前內部的同步規模大體如下:
  4、架構模型
  基礎構架
  
  DataLink是典型的Master-Slave構架,Manager(管理節點(diǎn))+Worker(工作節點(diǎn)),下面對基礎構架的重點(diǎn)模塊做概要介紹:
  Manager
  Manager是整個(gè)DataLink集群的腦部,有三個(gè)核心功能:
  Group
  Worker
  Task
  (Re-)Balance
  (Re-)Balance的定義:通過(guò)一定的負載均衡策略,使Task在Worker節點(diǎn)上均衡的分布。(Re-)Balance的單位是Group,一個(gè)分組發(fā)生(Re-)Balance不會(huì )影響其它分組的正常運行。
  發(fā)生(Re-)Balance的時(shí)機有:
  Plugin
  插件模型最大的意義在于前饋和復用,只須要提供一套基礎框架,開(kāi)發(fā)一系列同步插件,通過(guò)配置組合便可以支持“無(wú)限多”的同步場(chǎng)景。
  插件界定為兩種:Reader插件和Writer插件,插件之間通過(guò)Task串聯(lián)上去。Task運行時(shí),每個(gè)插件都有自己獨立的Classloader,保證插件之間的JAR包隔離。
  MySQL
  DataLink的運行須要依賴(lài)各類(lèi)配置信息,這些配置信息統一保存到MySQL中。DataLink在運行過(guò)程中會(huì )動(dòng)態(tài)形成監控和統計數據,這些數據也統一保存到MySQL中。
  存儲的配置信息主要有:同步任務(wù)信息、工作節點(diǎn)信息、分組信息、數據源配置信息、映射規則信息、監控信息、角色權限信息等。
  ZooKeeper
  Manager的高可用須要依賴(lài)于ZooKeeper,通過(guò)占領(lǐng)和竊聽(tīng)“/datalink/managers/active”節點(diǎn),實(shí)現秒級Switch。
  注:Worker的高可用并不依賴(lài)ZooKeeper,只要Manager才能保證高可用,Worker就是高可用的。
  Task會(huì )將運行時(shí)信息注冊到ZooKeeper,注冊信息主要有兩類(lèi):
  具體介紹可參見(jiàn)wiki:
  總體構架
  概念模型
  
  一句話(huà)概括概念模型:高度可擴充的、可對接任意存儲之間數據同步的松散模型。架構選型章節對該模型已有介紹,此處不再贅言。
  領(lǐng)域模型
  
  Contract
  契約即規范,是對不同領(lǐng)域內數據類(lèi)型的高層具象,其在Datalink中的主要表現形式為Record,如針對關(guān)系型數據庫有RdbEventRecord、針對Hbase有HRecord。
  在整個(gè)產(chǎn)品規劃中,契約處于最頂樓,無(wú)論采用何種基礎設施、何種業(yè)務(wù)模型、何種開(kāi)發(fā)語(yǔ)言,契約都是一套獨立的規范。契約是聯(lián)接Reader和Writer的紐帶,Reader和Writer互不感知,它們通過(guò)辨識共同的契約實(shí)現數據交換。
  Business Model
  Business Model是對數據交換業(yè)務(wù)場(chǎng)景的高層具象,將不同場(chǎng)景的共性需求進(jìn)行了歸納和總結,抽象出了一套統一的模型定義。
  當然,它不是萬(wàn)能的,不能收錄所有的需求點(diǎn),并且是隨著(zhù)場(chǎng)景的增多不斷演變的。但它是必須的,統一的模型具象可以支撐80%場(chǎng)景下的功能復用。
  主要模型定義如下:
  具體介紹可參見(jiàn)wiki:
  深入領(lǐng)域
  插件模型
  
  插件體系:一般由兩部份組成,Framework+Plugin。DataLink中的Framework主要指【TaskRuntime】,Plugin對應的是各類(lèi)類(lèi)型的【TaskReader&TaskWriter】。
  TaskRuntime:提供了Task的高層具象、Task的運行時(shí)環(huán)境和Task的插件規范。
  TaskReader&TaskWriter:一個(gè)個(gè)具體的數據同步插件,遵從Task插件規范,功能自治,和TaskRuntime完全前饋,理論上插件數目可無(wú)限擴展。
  Task:DataLink中數據同步的基本單位是Task,一個(gè)Worker進(jìn)程中可以運行一批Task,一個(gè)運行中的Task由一個(gè)TaskReader和起碼一個(gè)TaskWriter組成,即有:
  具體介紹可參見(jiàn)wiki:
  深入插件
  5、項目未來(lái)
  DataLink項目借鑒了好多開(kāi)源產(chǎn)品的思想,這里要重點(diǎn)謝謝的產(chǎn)品有:Canal、Otter、DataX、Yugong、Databus、Kafka-Connect、Ersatz。
  站在巨人的右臂上,我們進(jìn)行了開(kāi)源,一方面回饋社區,一方面拋磚引玉。展望未來(lái),我們希望這個(gè)項目就能活躍上去,為社區作出更大的貢獻,內部的各類(lèi)新特點(diǎn)也會(huì )盡早同步到開(kāi)源版本,同時(shí)也希望有更多的人參與進(jìn)來(lái)。
  目前內部正在規劃中的功能有:雙機房(中心)同步、通用審計功能、各種同步工具和插件、實(shí)時(shí)數據庫房、整個(gè)更多已有開(kāi)源產(chǎn)品的功能特點(diǎn)和各類(lèi)大數據構架進(jìn)行深度融合等。
  直播回放 查看全部

  講師介紹
  盧彪
  神州優(yōu)車(chē)集團架構部技術(shù)專(zhuān)家
  百度百科:
  數據交換平臺,是指將分散建設的若干應用信息系統進(jìn)行整合,通過(guò)計算機網(wǎng)路建立的信息交換平臺,它讓若干個(gè)應用子系統進(jìn)行信息/數據的傳輸及共享,提高信息資源的利用率,成為進(jìn)行信息化建設的基本目標,保證分布異構系統之間互聯(lián)互通,建立中心數據庫,完成數據的抽取、集中、加載、展現,構造統一的數據處理和交換。
  筆者覺(jué)得,數據交換平臺是建立分布式系統的三駕馬車(chē)之一。這三駕馬車(chē)分別是基于RPC的服務(wù)調用、基于MQ的風(fēng)波驅動(dòng)以及基于Data Sync的數據共享。
  而驅動(dòng)數據交換平臺出現和發(fā)展的根本動(dòng)力是:用空間換時(shí)間。
  一、交換平臺淺談
  1、服務(wù)場(chǎng)景
  概括來(lái)講,數據交換平臺可以服務(wù)的場(chǎng)景可以分為三大類(lèi),分別是:基礎構架、容災備份和異構重塑。
  基礎構架
  場(chǎng)景舉例一:EDA
  通過(guò)數據交換平臺,把數據庫Log風(fēng)波(如MySQL的Binlog)發(fā)送到MQ,然后由不同的消費者進(jìn)行消費,驅動(dòng)不同的業(yè)務(wù)流程(如:刷新緩存、構造搜索引擎、下單以后發(fā)短信、支付以后通知發(fā)貨等),基于這樣的構架,免去了業(yè)務(wù)方自己定義領(lǐng)域風(fēng)波和發(fā)送風(fēng)波的工作,大大節約了工作量。
  更重要的是,基于數據庫自己的Log機制,數據一致性更有保證,其它例如容錯處理、HA等機制也只靠數據交換平臺去保證即可。
  當然,如果風(fēng)波定義比較復雜,普通的業(yè)務(wù)表對應的LogEvent未能抒發(fā)的話(huà),還須要自行設計領(lǐng)域風(fēng)波,此時(shí)我們可以定義一張通用的風(fēng)波表用于保存自定義風(fēng)波;而發(fā)送風(fēng)波的操作對應風(fēng)波表的插入操作而且隨業(yè)務(wù)操作放在一個(gè)事務(wù)中,待事務(wù)遞交后,交換平臺拉取風(fēng)波表的日志,然后提取風(fēng)波內容發(fā)送到MQ即可。
  
  通過(guò)消費數據庫的Log,可做的文章非常多,我們團隊內部正在研制一個(gè)風(fēng)波平臺,也是基于消費MySQL-Binlog來(lái)實(shí)現的,大體構架如下所示:
  
  事件平臺提供了風(fēng)波訂閱,事件配置(如:是實(shí)時(shí)觸發(fā)下一操作還是倒計時(shí)定時(shí)觸發(fā)下一操作,下一操作是插口反彈還是形成一個(gè)新的風(fēng)波等),事件編排和實(shí)時(shí)監控等基礎支撐,使用方只需提供配置規則和開(kāi)發(fā)反彈插口即可,免去了各研制團隊各自為政、重復建設的各類(lèi)問(wèn)題。
  另外,該平臺最大的一個(gè)特色就是引入了風(fēng)波驅動(dòng)的定時(shí)器機制,沒(méi)有這樣一個(gè)機制之前,涉及到時(shí)間要素相關(guān)的判定時(shí)(如:下單后多長(cháng)時(shí)間未結算訂單手動(dòng)轉為無(wú)效,租車(chē)時(shí)長(cháng)超過(guò)一定時(shí)間后,結算類(lèi)型手動(dòng)由短租產(chǎn)品轉為長(cháng)租產(chǎn)品等),業(yè)務(wù)研制團隊須要寫(xiě)大量的定時(shí)任務(wù)掃描數據庫來(lái)估算時(shí)間區間,不僅開(kāi)發(fā)成本巨大而且常常也存在較大的性能問(wèn)題。
  有了定時(shí)器機制,業(yè)務(wù)方只需配置時(shí)間規則即可,并且風(fēng)波平臺是分布式的,可以提供更高的性能支撐。
  場(chǎng)景舉例二:CQRS(Command Query Responsibility Segregation)
  這里套用DDD領(lǐng)域中的一個(gè)概念CQRS,具體介紹可參考鏈接:
  CQRS的思想本質(zhì)上就是為同一份數據構建兩套模型(或叫視圖):
  CQRS架構模式的一個(gè)開(kāi)源實(shí)現是Axon-Framework,基于A(yíng)xon可以建立自己的領(lǐng)域模型、領(lǐng)域風(fēng)波、事件庫房、查詢(xún)視圖等,其提供了聚合根定義、事件重放、事件消費、數據鏡像等基礎支撐,套用一下它的構架圖如下:
  
  理想是豐腴的現實(shí)卻是肉感的,DDD提出早已很多年了,卻因難于實(shí)踐,絕大部分公司還是逗留在靠數據庫表進(jìn)行建模的階段,但CQRS的思想是挺好的。
  那么我們拋掉DDD,基于表模型來(lái)理解CQRS:數據表模型也是領(lǐng)域模型,只不過(guò)不是面向對象的領(lǐng)域模型,數據庫的Log也是風(fēng)波,只不過(guò)抒發(fā)能力不象DDD中的領(lǐng)域風(fēng)波這么豐富。
  基于此,靠數據庫管理模型和風(fēng)波,加上一個(gè)數據交換平臺進(jìn)行風(fēng)波轉發(fā)和消費,便可以建立一個(gè)廣義上的CQRS構架,如下所示:
  
  場(chǎng)景舉例三:數據采集和回流
  很多公司正在建設或則早已建設了自己的大數據平臺,其中數據采集和回流是必不可少的一個(gè)環(huán)節,一般小一些的公司在數據采集這一層做的比較零散,各種開(kāi)源產(chǎn)品堆積在一起完成采集相關(guān)的工作,而大一些的公司會(huì )考慮平臺化,把數據采集放到整個(gè)數據交換平臺的規劃中,以便于提高效率和減少成本。
  下圖是我們團隊的數據交換平臺和大數據平臺的關(guān)系示意圖:
  
  容災備份
  場(chǎng)景舉例一:多機房
  多中心、多備份、異地雙活、異地多活等是好多大公司正在實(shí)踐或則早已實(shí)踐過(guò)的技術(shù)困局,這中間的核心便是一整套完整的數據同步方案。
  場(chǎng)景舉例二:數據鏡像
  通過(guò)數據交換平臺,可以創(chuàng )建各類(lèi)類(lèi)型的DB鏡像,滿(mǎn)足不同場(chǎng)景下的使用須要。
  場(chǎng)景舉例三:數據歸檔
  通過(guò)增量交換,在同步過(guò)程中忽視刪掉風(fēng)波,可以實(shí)現實(shí)時(shí)歸檔。
  異構構建
  場(chǎng)景舉例一:DB升級換代,遷庫、拆庫、合庫
  對DB進(jìn)行升級換代,日常的遷庫、拆庫和合庫等運維操作,就要涉及到數據遷移,如果有平臺,遷移工作都會(huì )顯得很簡(jiǎn)單。
  場(chǎng)景舉例二:資產(chǎn)復用
  越大的公司,包袱也越重,很多公司擁有各類(lèi)類(lèi)型的數據庫和儲存產(chǎn)品,為了復用那些資產(chǎn),就涉及到各類(lèi)場(chǎng)景下的數據同步,統一的數據交換平臺會(huì )使這種場(chǎng)景各異的同步顯得容易好多。
  2、建設思路
  一千個(gè)讀者就有一千個(gè)哈姆雷特,一千個(gè)架構師就有一千種構架思想,數據交換平臺的建設也沒(méi)有哪些手炮可言。不同團隊面對的場(chǎng)景各異,進(jìn)化下來(lái)的構架也就不盡相同。此處結合自己的經(jīng)驗和心得,談一談數據交換平臺建設過(guò)程的一些方法論和注意事項。
  架構選型
  數據同步流程是生產(chǎn)者-消費者模式的典型彰顯,生產(chǎn)者負責從不同的數據源拉取數據,消費者負責把數據講到不同的數據源,生產(chǎn)者和消費者之間可以是1對1的關(guān)系,也可以是1對多的關(guān)系。
  那么,數據交換平臺就是把生產(chǎn)者和消費者串聯(lián)上去的中樞,并且可以在串聯(lián)的過(guò)程中控制流程,概括來(lái)講就是進(jìn)行數據集成。
  數據集成是數據交換平臺最基本的工作,架構的選型和設計應當僅僅圍繞這個(gè)基本點(diǎn)展開(kāi),只有以便快速集成的構架能夠支撐不斷變化的數據同步需求。
  在進(jìn)行構架設計時(shí),需要考慮的點(diǎn),大致總結如下:
  很多公司都在基于消息中間件建立自己的數據交換平臺(有的稱(chēng)之為數據總線(xiàn)),生產(chǎn)者把數據發(fā)送到MQ,消費者從MQ上消費數據,并且數據可以自描述,此模式的一個(gè)典型開(kāi)源實(shí)現就是Kafka-Connect,其構架圖如下所示:
  
  優(yōu)點(diǎn):
  缺點(diǎn):
  不論怎樣,該構架模式是太優(yōu)秀的,能滿(mǎn)足百分之六七十的應用場(chǎng)景。但我們團隊并沒(méi)有直接套用該構架,而是針對其缺點(diǎn),并受Kafka-Connect思路的啟發(fā),實(shí)現了一套基于消息中間件和直連同步的混和構架,如下所示(即DataLink的構架):
  
  在Kafka-Connect的構架中,因為要以Kafka做數據中轉站,所以運行的Task要么是SourceTask、要么是SinkTask,而DataLink中的Task可以對Reader和Writer進(jìn)行任意組合(理論上)。
  基于這樣的特點(diǎn),要建立基于消息中間件的同步,組合Mq-Writer和Mq-Reader即可;要建立直連式的同步,繞過(guò)Mq直接組合源端Reader和目標Writer即可。根據不同場(chǎng)景選擇不同模式,更加靈活。
  消息中間件的方案也好,混合方案也好,針對的大部分場(chǎng)景都是實(shí)時(shí)增量同步(雖然也支持部份場(chǎng)景下的全量同步,但其實(shí)不是其主業(yè)),針對離線(xiàn)全量同步場(chǎng)景,目前你們用的最多的方案是阿里開(kāi)源的DataX,有興趣的可以研究一下。
  簡(jiǎn)單總結,沒(méi)有最好的構架只有最合適的構架,基于消息中間件建立數據交換平臺是目前比較流行的構架模式,但它也有自身的缺點(diǎn),組合各類(lèi)技術(shù),揚長(cháng)避短,針對自己的問(wèn)題和疼點(diǎn)找到適宜自己的方案才是最合理的方案。
  方式方式
  如果說(shuō)構架選型是制訂戰略,那方法技巧就是具體戰術(shù)。從同步行為上來(lái)?yè)Q分,可以分為實(shí)時(shí)增量同步和離線(xiàn)全量同步。
  前者的可行戰術(shù)主要有觸發(fā)器、日志解析和基于時(shí)間戳的數據抽?。ó斎?,不同DB都會(huì )有自己的一些特殊方案,如Oracle的物化視圖機制,SQL Server的CDC等),后者的可行戰術(shù)主要有文件Dump和API抽取。
  實(shí)時(shí)增量同步
  先說(shuō)實(shí)時(shí)增量同步?;谟|發(fā)器的形式獲取數據比較傳統,并且由于運維冗長(cháng)和性能較差等緣由,用的也越來(lái)越少。
  但在個(gè)別特定場(chǎng)景下還是有適用空間的,有一個(gè)開(kāi)源的產(chǎn)品代號為SymmetricDS,可以自動(dòng)化管理觸發(fā)器并提供統一的數據抓取和消費機制,如果想基于觸發(fā)器做數據同步的話(huà)可以參考該產(chǎn)品。
  基于日志解析的方法去做同步目前最受偏愛(ài),像MySQL、HBase等都提供了日志重放機制,并且合同開(kāi)源.
  該方法的主要優(yōu)點(diǎn)有:對業(yè)務(wù)表零侵入、異步解析日志沒(méi)有性能問(wèn)題、實(shí)時(shí)性比較高等。
  日志解析太美好,但并不是所有DB都提供了這樣的機制(如SQL Server),當觸發(fā)器和日志解析都搞不定時(shí),通過(guò)時(shí)間戳數組(如:modify_time)定時(shí)掃表,拿到變更數據并進(jìn)行同步,也是常用的一種手段.
  該方法有幾個(gè)顯著(zhù)的缺點(diǎn):實(shí)時(shí)性比較低、需要業(yè)務(wù)方保證時(shí)間戳數組不能出現漏更新,定時(shí)掃表查詢(xún)也可能會(huì )帶來(lái)一些性能問(wèn)題等。
  離線(xiàn)全量同步
  再說(shuō)離線(xiàn)全量同步。文件Dump的形式通常用在同構數據源之間的同步場(chǎng)景,并且須要靠DB自己的導出導入機制進(jìn)行支持,可以服務(wù)的場(chǎng)景比較單一。API抽取的方法更通用和靈活一些,同構異構都可以編碼進(jìn)行實(shí)現,做的好的話(huà),還可通過(guò)靈活的參數控制提供各類(lèi)中級功能特點(diǎn),如開(kāi)源產(chǎn)品DataX。
  
  難點(diǎn)問(wèn)題
  把數據從一個(gè)地方遷往另一個(gè)地方,怎樣保證在同步過(guò)程中數據不出問(wèn)題(不丟、不重、不亂)或者出現問(wèn)題后能快速恢復,要考慮的點(diǎn)十分多也十分雜,這里結合自己的經(jīng)驗聊聊主要的難點(diǎn)以及常用的解決方案。
  其一:種類(lèi)繁雜的API
  看上去其實(shí)也沒(méi)有哪些難的,不就是調用API進(jìn)行數據操作嗎?其實(shí)不然,市面上的儲存產(chǎn)品有上百種,常用的也有幾十種,其產(chǎn)品特點(diǎn)是千差萬(wàn)別的。
  為了建立一個(gè)高效可靠的平臺,對這種產(chǎn)品的API及其內部機制進(jìn)行透徹的研究是必須要做的 (如:是否支持事務(wù)?事務(wù)細度是表級別還是記錄級別?是支持隨機讀寫(xiě)還是只能支持Append?操作API時(shí)有沒(méi)有客戶(hù)端緩存?HA是如何實(shí)現的?性能困局點(diǎn)在哪些地方?調優(yōu)參數都有什么?自帶的Replication機制是如何實(shí)現的?等等),否則平臺也就僅僅逗留在能用的階段。
  拿我們自己的經(jīng)歷舉個(gè)反例:在建設大數據平臺時(shí),需要數據交換平臺把MySQL和HBase的數據實(shí)時(shí)同步到HDFS中,基于DataLink我們開(kāi)發(fā)了HDFS Writer插件,在實(shí)踐過(guò)程中沒(méi)少趟坑。
  解決這個(gè)難點(diǎn)問(wèn)題,沒(méi)有捷徑,只能靠降低自身硬實(shí)力來(lái)進(jìn)行突破。
  其二:同步關(guān)系整治
  對于服務(wù)框架來(lái)說(shuō),隨著(zhù)服務(wù)數目不斷降低,我們須要服務(wù)整治;對于數據交換平臺來(lái)說(shuō),隨著(zhù)同步關(guān)系的不斷降低,同樣須要對同步關(guān)系進(jìn)行整治。
  需要整治的點(diǎn)主要有:
  避免回環(huán)同步通常加入DAG檢查機制即可。
  保證Schema的一致性通常有兩個(gè)思路:一個(gè)是在同步過(guò)程中獲取到源端的ddl句子手動(dòng)同步到目標端,另一個(gè)是平臺提供同步關(guān)系檢查機制供外部系統使用,前者在異構數據源比較多的時(shí)侯實(shí)現上去困難比較大(腳本轉換、性能問(wèn)題、冪等判定等),并且不是所有的方案都能領(lǐng)到ddl句子,而后者更具有通用性和可行性。
  目前我們內部的方案是,SQL腳本上線(xiàn)時(shí),由數據交換平臺進(jìn)行SQL解析,然后返回同步關(guān)系樹(shù)給DBA團隊的DBMS系統,然后由DBMS系統根據同步關(guān)系的提示逐庫執行腳本即可。
  同步關(guān)系樹(shù)的一個(gè)示意圖如下所示:
  
  其三:數據質(zhì)量
  保證數據質(zhì)量是數據交換平臺的核心使命,同步過(guò)程中做到不丟、不重、不亂,通過(guò)數據巡檢能迅速發(fā)覺(jué)問(wèn)題;發(fā)現問(wèn)題后能快速修補。
  如果能把事前、事中、事后這三個(gè)階段都控制好,那平臺已然達到優(yōu)秀的級別了。
  事前階段靠建立的設計和測試,事中階段靠立體化的監控報案,事后階段靠功能豐富的修補工具,但每位階段實(shí)踐上去都不容易,原因在于場(chǎng)景的靈活性和復雜性,如:
  目前我們團隊也還在不斷探求的路上,沒(méi)有絕對完美的方案,針對自己的場(chǎng)景和對數據一致性要求的程度,找到最合適的方案才是正解。下面借用一張圖來(lái)展示數據質(zhì)量的設計要點(diǎn):
  
  其四:擴展性
  技術(shù)的發(fā)展是快速的,業(yè)務(wù)的演化也是千變萬(wàn)化的,為了應對這種變化,平臺肯定也要跟隨變,但如何用最小的變化帶來(lái)最大的利潤,是判定一個(gè)平臺、一個(gè)產(chǎn)品成熟與否的關(guān)鍵指標。
  筆者篤信一句諺語(yǔ):架構是進(jìn)化下來(lái)的,而不是設計下來(lái)的;但同時(shí)也篤信另一句諺語(yǔ):好的設計是成功的一半。二者并不矛盾,主要在于如何去折中。
  做平臺和做工具的一個(gè)重要區別在于,前者要重點(diǎn)考慮具象、建模和參數化,以提供靈活的擴展性。
  那么擴展性應當考慮到哪些程度呢?一句話(huà)來(lái)概括:我們在平臺的建設過(guò)程中應當不斷歸納、不斷糾錯、不斷具象、不斷迭代、不斷推演,把已知的事情做到模型化,把未知的事情做到可預見(jiàn),不做過(guò)度設計,但也要充分設計。
  開(kāi)源數據同步中間件中,擴展性做的比較好的:阿里的DataX不錯,KafKa-Connect不錯,基于觸發(fā)器的SymmetricDS也不錯,下文要介紹的我們近來(lái)開(kāi)源的DataLink也在這方面做了好多考慮。
  3、開(kāi)源產(chǎn)品
  在這里列舉一下數據同步相關(guān)的開(kāi)源產(chǎn)品,供參考學(xué)習:
  
  二、實(shí)戰項目介紹
  1、DataLink項目介紹
  名稱(chēng): DataLink['deit lik]
  譯意: 數據鏈路,數據(自動(dòng))傳輸器
  語(yǔ)言: 純Java開(kāi)發(fā)(JDK1.8+)
  定位: 滿(mǎn)足各類(lèi)異構數據源之間的實(shí)時(shí)增量同步,一個(gè)分布式、可擴充的數據同步系統
  開(kāi)源地址:
  此次開(kāi)源為消除內部依賴(lài)后的版本(開(kāi)源的是增量同步子系統),在集團內部DataLink和阿里的DataX還進(jìn)行了深度集成,增量(DataLink)+全量(DataX)共同組成統一的數據交換平臺(如果去做類(lèi)比的話(huà),DataLink可以看做增量版的DataX),平臺構架如下所示:
  
  2、項目背景
  隨著(zhù)神州優(yōu)車(chē)集團業(yè)務(wù)的高速發(fā)展,各種各樣的數據同步場(chǎng)景應運而生,原有的系統構架未能支撐復雜多變的業(yè)務(wù)需求。所以,從2016年底開(kāi)始,團隊內部開(kāi)始醞釀DataLink這個(gè)產(chǎn)品。
  著(zhù)眼于未來(lái),我們的目標是構建一個(gè)新平臺,滿(mǎn)足各類(lèi)異構數據源之間的實(shí)時(shí)增量同步,支撐公司業(yè)務(wù)的快速發(fā)展。在充分督查的基礎之上,我們發(fā)覺(jué),沒(méi)有任何一款開(kāi)源產(chǎn)品能輕易的滿(mǎn)足我們的目標,每個(gè)產(chǎn)品都有其顯著(zhù)的弱項和局限性,所以最終的選項只有“自行設計”。
  但自行設計并不是陡然設計,現有的數據交換平臺、已有的經(jīng)驗、大大小小的開(kāi)源產(chǎn)品都是我們的設計根基,與其說(shuō)是自行設計,倒不如說(shuō)是站在巨人的右臂上做了一次飛越。由此誕生了DataLink這樣一個(gè)產(chǎn)品,其產(chǎn)品特點(diǎn)主要如下:
  3、應用現況
  DataLink從2016年12月開(kāi)始立項,第一版于2017年5月份上線(xiàn),在神州優(yōu)車(chē)集團內部服役到如今,基本上滿(mǎn)足了公司所有業(yè)務(wù)線(xiàn)的同步需求,目前內部的同步規模大體如下:
  4、架構模型
  基礎構架
  
  DataLink是典型的Master-Slave構架,Manager(管理節點(diǎn))+Worker(工作節點(diǎn)),下面對基礎構架的重點(diǎn)模塊做概要介紹:
  Manager
  Manager是整個(gè)DataLink集群的腦部,有三個(gè)核心功能:
  Group
  Worker
  Task
  (Re-)Balance
  (Re-)Balance的定義:通過(guò)一定的負載均衡策略,使Task在Worker節點(diǎn)上均衡的分布。(Re-)Balance的單位是Group,一個(gè)分組發(fā)生(Re-)Balance不會(huì )影響其它分組的正常運行。
  發(fā)生(Re-)Balance的時(shí)機有:
  Plugin
  插件模型最大的意義在于前饋和復用,只須要提供一套基礎框架,開(kāi)發(fā)一系列同步插件,通過(guò)配置組合便可以支持“無(wú)限多”的同步場(chǎng)景。
  插件界定為兩種:Reader插件和Writer插件,插件之間通過(guò)Task串聯(lián)上去。Task運行時(shí),每個(gè)插件都有自己獨立的Classloader,保證插件之間的JAR包隔離。
  MySQL
  DataLink的運行須要依賴(lài)各類(lèi)配置信息,這些配置信息統一保存到MySQL中。DataLink在運行過(guò)程中會(huì )動(dòng)態(tài)形成監控和統計數據,這些數據也統一保存到MySQL中。
  存儲的配置信息主要有:同步任務(wù)信息、工作節點(diǎn)信息、分組信息、數據源配置信息、映射規則信息、監控信息、角色權限信息等。
  ZooKeeper
  Manager的高可用須要依賴(lài)于ZooKeeper,通過(guò)占領(lǐng)和竊聽(tīng)“/datalink/managers/active”節點(diǎn),實(shí)現秒級Switch。
  注:Worker的高可用并不依賴(lài)ZooKeeper,只要Manager才能保證高可用,Worker就是高可用的。
  Task會(huì )將運行時(shí)信息注冊到ZooKeeper,注冊信息主要有兩類(lèi):
  具體介紹可參見(jiàn)wiki:
  總體構架
  概念模型
  
  一句話(huà)概括概念模型:高度可擴充的、可對接任意存儲之間數據同步的松散模型。架構選型章節對該模型已有介紹,此處不再贅言。
  領(lǐng)域模型
  
  Contract
  契約即規范,是對不同領(lǐng)域內數據類(lèi)型的高層具象,其在Datalink中的主要表現形式為Record,如針對關(guān)系型數據庫有RdbEventRecord、針對Hbase有HRecord。
  在整個(gè)產(chǎn)品規劃中,契約處于最頂樓,無(wú)論采用何種基礎設施、何種業(yè)務(wù)模型、何種開(kāi)發(fā)語(yǔ)言,契約都是一套獨立的規范。契約是聯(lián)接Reader和Writer的紐帶,Reader和Writer互不感知,它們通過(guò)辨識共同的契約實(shí)現數據交換。
  Business Model
  Business Model是對數據交換業(yè)務(wù)場(chǎng)景的高層具象,將不同場(chǎng)景的共性需求進(jìn)行了歸納和總結,抽象出了一套統一的模型定義。
  當然,它不是萬(wàn)能的,不能收錄所有的需求點(diǎn),并且是隨著(zhù)場(chǎng)景的增多不斷演變的。但它是必須的,統一的模型具象可以支撐80%場(chǎng)景下的功能復用。
  主要模型定義如下:
  具體介紹可參見(jiàn)wiki:
  深入領(lǐng)域
  插件模型
  
  插件體系:一般由兩部份組成,Framework+Plugin。DataLink中的Framework主要指【TaskRuntime】,Plugin對應的是各類(lèi)類(lèi)型的【TaskReader&TaskWriter】。
  TaskRuntime:提供了Task的高層具象、Task的運行時(shí)環(huán)境和Task的插件規范。
  TaskReader&TaskWriter:一個(gè)個(gè)具體的數據同步插件,遵從Task插件規范,功能自治,和TaskRuntime完全前饋,理論上插件數目可無(wú)限擴展。
  Task:DataLink中數據同步的基本單位是Task,一個(gè)Worker進(jìn)程中可以運行一批Task,一個(gè)運行中的Task由一個(gè)TaskReader和起碼一個(gè)TaskWriter組成,即有:
  具體介紹可參見(jiàn)wiki:
  深入插件
  5、項目未來(lái)
  DataLink項目借鑒了好多開(kāi)源產(chǎn)品的思想,這里要重點(diǎn)謝謝的產(chǎn)品有:Canal、Otter、DataX、Yugong、Databus、Kafka-Connect、Ersatz。
  站在巨人的右臂上,我們進(jìn)行了開(kāi)源,一方面回饋社區,一方面拋磚引玉。展望未來(lái),我們希望這個(gè)項目就能活躍上去,為社區作出更大的貢獻,內部的各類(lèi)新特點(diǎn)也會(huì )盡早同步到開(kāi)源版本,同時(shí)也希望有更多的人參與進(jìn)來(lái)。
  目前內部正在規劃中的功能有:雙機房(中心)同步、通用審計功能、各種同步工具和插件、實(shí)時(shí)數據庫房、整個(gè)更多已有開(kāi)源產(chǎn)品的功能特點(diǎn)和各類(lèi)大數據構架進(jìn)行深度融合等。
  直播回放

國內常用的采集器優(yōu)缺點(diǎn)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 389 次瀏覽 ? 2020-08-11 20:02 ? 來(lái)自相關(guān)話(huà)題

  優(yōu)采云云采集引擎
  可能大部分人還不知道,這是我自主研制的,以前仍然用爬蟲(chóng)寫(xiě)程序,java、python等,后面認為很麻煩,就擺弄著(zhù)要做的簡(jiǎn)單一些,然后就無(wú)法收手了,最近仍然在進(jìn)行產(chǎn)品迭代。
  優(yōu)點(diǎn):功能聚合性強、速度快、saas構架、數據可預覽、數據規則市場(chǎng)、api等多種輸出方法、免費。自動(dòng)高效防屏蔽全球海量實(shí)時(shí)高匿IP手動(dòng)切換,高效分布式節點(diǎn)策略無(wú)須代碼輕松配置快速獲取數據,實(shí)時(shí)手動(dòng)更新數據精準完整獲取目標數據,無(wú)縫對接自有系統支持多種CMS系統手動(dòng)發(fā)布。
  真正的云采集引擎,任何網(wǎng)站都可以采集,任何人都可以使用,海量數據市場(chǎng)。
  缺點(diǎn):知名度還比較低
  ET工具
  優(yōu)點(diǎn):無(wú)人值守,自動(dòng)更新,適合常年做站,用戶(hù)群主要集中在常年做站潛水站長(cháng)。軟件清晰,必備功能也挺齊全,關(guān)鍵是軟件免費,聽(tīng)說(shuō)早已降低采集中英文翻譯功能。
  技術(shù):論壇支持,軟件本身免費,但是也提供收費服務(wù)。幫助文件較少,上手不容易
  缺點(diǎn):對峰會(huì )和CMS的支持通常
  三人行
  主要針對峰會(huì )的采集,功能比較健全
  優(yōu)點(diǎn):還是針對峰會(huì ),適合開(kāi)峰會(huì )的
  技術(shù):收費技術(shù),免費有廣告
  缺點(diǎn):超級復雜,上手難,對cms支持比較差
  優(yōu)采云
  優(yōu)采云應該是國外采集軟件最成功的典型之一,使用人數包括收費用戶(hù)數目上應當是最多的
  優(yōu)點(diǎn):功能比較齊全,采集速度比較快,主要針對cms,短時(shí)間可以采集很多,過(guò)濾,替換都不錯,比較詳盡;
  技術(shù):技術(shù)主要是峰會(huì )支持,幫助文件多,上手容易。有收費、免費版本
  缺點(diǎn):功能復雜,軟件越來(lái)越大,比較占用顯存和CPU資源,大批量采集速度不行,資源回收控制得不好,受CS構架限制
  海納
  優(yōu)點(diǎn):海量,可以抓取網(wǎng)站很多一個(gè)關(guān)鍵詞文章,似乎適合做網(wǎng)站的專(zhuān)題,特別是文章類(lèi)、博客類(lèi)
  技術(shù):無(wú)論壇 收費,免費有功能限制
  缺點(diǎn):分類(lèi)不便捷,也就說(shuō)采集文章歸類(lèi)不便捷,要自動(dòng)(自動(dòng)容易混淆),特定插口,采集的內容有限
  優(yōu)采云
  優(yōu)點(diǎn):非常適宜采集discuz峰會(huì ) 查看全部

  優(yōu)采云云采集引擎
  可能大部分人還不知道,這是我自主研制的,以前仍然用爬蟲(chóng)寫(xiě)程序,java、python等,后面認為很麻煩,就擺弄著(zhù)要做的簡(jiǎn)單一些,然后就無(wú)法收手了,最近仍然在進(jìn)行產(chǎn)品迭代。
  優(yōu)點(diǎn):功能聚合性強、速度快、saas構架、數據可預覽、數據規則市場(chǎng)、api等多種輸出方法、免費。自動(dòng)高效防屏蔽全球海量實(shí)時(shí)高匿IP手動(dòng)切換,高效分布式節點(diǎn)策略無(wú)須代碼輕松配置快速獲取數據,實(shí)時(shí)手動(dòng)更新數據精準完整獲取目標數據,無(wú)縫對接自有系統支持多種CMS系統手動(dòng)發(fā)布。
  真正的云采集引擎,任何網(wǎng)站都可以采集,任何人都可以使用,海量數據市場(chǎng)。
  缺點(diǎn):知名度還比較低
  ET工具
  優(yōu)點(diǎn):無(wú)人值守,自動(dòng)更新,適合常年做站,用戶(hù)群主要集中在常年做站潛水站長(cháng)。軟件清晰,必備功能也挺齊全,關(guān)鍵是軟件免費,聽(tīng)說(shuō)早已降低采集中英文翻譯功能。
  技術(shù):論壇支持,軟件本身免費,但是也提供收費服務(wù)。幫助文件較少,上手不容易
  缺點(diǎn):對峰會(huì )和CMS的支持通常
  三人行
  主要針對峰會(huì )的采集,功能比較健全
  優(yōu)點(diǎn):還是針對峰會(huì ),適合開(kāi)峰會(huì )的
  技術(shù):收費技術(shù),免費有廣告
  缺點(diǎn):超級復雜,上手難,對cms支持比較差
  優(yōu)采云
  優(yōu)采云應該是國外采集軟件最成功的典型之一,使用人數包括收費用戶(hù)數目上應當是最多的
  優(yōu)點(diǎn):功能比較齊全,采集速度比較快,主要針對cms,短時(shí)間可以采集很多,過(guò)濾,替換都不錯,比較詳盡;
  技術(shù):技術(shù)主要是峰會(huì )支持,幫助文件多,上手容易。有收費、免費版本
  缺點(diǎn):功能復雜,軟件越來(lái)越大,比較占用顯存和CPU資源,大批量采集速度不行,資源回收控制得不好,受CS構架限制
  海納
  優(yōu)點(diǎn):海量,可以抓取網(wǎng)站很多一個(gè)關(guān)鍵詞文章,似乎適合做網(wǎng)站的專(zhuān)題,特別是文章類(lèi)、博客類(lèi)
  技術(shù):無(wú)論壇 收費,免費有功能限制
  缺點(diǎn):分類(lèi)不便捷,也就說(shuō)采集文章歸類(lèi)不便捷,要自動(dòng)(自動(dòng)容易混淆),特定插口,采集的內容有限
  優(yōu)采云
  優(yōu)點(diǎn):非常適宜采集discuz峰會(huì )

建網(wǎng)站優(yōu)化須要注意的幾點(diǎn),你曉得嗎?

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 215 次瀏覽 ? 2020-08-11 16:45 ? 來(lái)自相關(guān)話(huà)題

  互聯(lián)網(wǎng)迅速發(fā)展,企業(yè)網(wǎng)站建設必不可少,網(wǎng)站建設就是企業(yè)互聯(lián)網(wǎng)對外宣傳的虛擬平臺,引導流量,實(shí)現網(wǎng)站優(yōu)化,提升企業(yè)品牌知名度。說(shuō)道網(wǎng)站建設,我不得不提及網(wǎng)站SEO優(yōu)化。但是,我們常常占網(wǎng)站優(yōu)化過(guò)程中,會(huì )不知不覺(jué)的墜入好多圈套,我們該怎么辨識并防止圈套呢?
  辛勤的小編來(lái)給你說(shuō)到說(shuō)到,我們在優(yōu)化網(wǎng)站的時(shí)侯一定要注意一下幾點(diǎn):
  1.不可很狂躁。
  欲速則不達,心急吃不了熱豆腐,seo必須要有一個(gè)好態(tài)度,尤其百度對新站收錄極慢,一個(gè)針對百度優(yōu)化的新站,必須做好打持久戰的打算。搜索引擎為什么會(huì )遭到歡迎,就是由于用戶(hù)能在里面找到須要的東西,搜索引擎對網(wǎng)站的要求也同樣這么,做seo也應當多站在用戶(hù)的角度考慮,seo就是用戶(hù)體驗,搜索引擎的算法是常常改進(jìn)的,作弊的網(wǎng)站,就算能一時(shí)得逞,但終有三天,會(huì )被k掉,因為搜索越來(lái)越成熟。所以,在做站的時(shí)侯,應該多了解seo的忌諱,避免觸底線(xiàn)。
  2、采集。
  搜索引擎是喜新厭舊的,如果一個(gè)網(wǎng)站的內容都是在網(wǎng)路上高度重復的,那么排行絕對不會(huì )好,采集的網(wǎng)站百度會(huì )收,但是收錄后會(huì )被漸漸的k掉,而且極少會(huì )給改過(guò)自新的機會(huì ),哪怕以后天天更新原創(chuàng )文章,也無(wú)濟于事。但是這并不意味著(zhù)不可以采集,我們可以針對采集來(lái)的文章做一些修改,比如替換內容、更改標題等。
  3、關(guān)鍵詞選擇錯誤。
  流量偏低的關(guān)鍵詞,優(yōu)化得再完美,也無(wú)濟于事,而關(guān)注度很高的關(guān)鍵詞,就算排在第二頁(yè),也會(huì )帶來(lái)很大的流量。
  4.網(wǎng)站代碼過(guò)長(cháng)而零亂。
  蛛蛛是從網(wǎng)頁(yè)代碼讀取網(wǎng)頁(yè)內容的,如果代碼過(guò)長(cháng),蜘蛛將很難曉得哪為重點(diǎn)甚至會(huì )截斷蜘蛛的爬行。
  5.關(guān)鍵詞拼湊。
  這個(gè)你們應當都曉得了吧,但是怎樣才算拼湊,就不好說(shuō)了,我覺(jué)得文章首段關(guān)鍵詞的出現次數最好不要超過(guò)兩次,否則都會(huì )有作弊嫌疑,尤其是新站,應該盡量避開(kāi)很過(guò)顯著(zhù)的優(yōu)化 就是由于剛收錄時(shí)優(yōu)化過(guò)度,被百度懲罰,至今還未恢復。
  6.網(wǎng)頁(yè)標題頻繁修改。
  一個(gè)不穩定的網(wǎng)站,百度是不會(huì )喜歡的,我的站就由于頻繁修改標題而被百度拔毛,所以,在建站之初,就應當把網(wǎng)站的各個(gè)細節都考慮好,一旦構建,便不再輕易修改。
  7.頁(yè)面全Flash或圖片。
  Flash和圖片尚且有吸引力,但不是相對用戶(hù)需求及搜索引擎而言的。搜索引擎蜘蛛是不能讀取Flash內容。
  8.眾多垃圾鏈接、鏈接懲罰域名。
  使用群發(fā)軟件群發(fā)垃圾鏈接,認為鏈接越多總是更好的,其實(shí)搜索引擎要的是鏈接的質(zhì)量。
  9.網(wǎng)站主題與內容不符。
  網(wǎng)站內容和主題相剝離,搜索自然不會(huì )喜歡,不過(guò)有一個(gè)常用方式,在內容頁(yè)的title里加上網(wǎng)站的名稱(chēng),這對網(wǎng)站主頁(yè)的排行有一定作用。
  10.和作弊網(wǎng)站在同一服務(wù)器上。
  在買(mǎi)空間之前,應該針對空間做一些考察,可以向客服索取空間的ip,查一下這個(gè)ip下都有些哪些網(wǎng)站,如果多數站點(diǎn)都沒(méi)有被收錄,那最好舍棄這個(gè)空間了。
  好了,今天我就說(shuō)這么多吧!希望諸位做SEO的同仁們,且行且珍惜,以免墮入圈套。 查看全部

  互聯(lián)網(wǎng)迅速發(fā)展,企業(yè)網(wǎng)站建設必不可少,網(wǎng)站建設就是企業(yè)互聯(lián)網(wǎng)對外宣傳的虛擬平臺,引導流量,實(shí)現網(wǎng)站優(yōu)化,提升企業(yè)品牌知名度。說(shuō)道網(wǎng)站建設,我不得不提及網(wǎng)站SEO優(yōu)化。但是,我們常常占網(wǎng)站優(yōu)化過(guò)程中,會(huì )不知不覺(jué)的墜入好多圈套,我們該怎么辨識并防止圈套呢?
  辛勤的小編來(lái)給你說(shuō)到說(shuō)到,我們在優(yōu)化網(wǎng)站的時(shí)侯一定要注意一下幾點(diǎn):
  1.不可很狂躁。
  欲速則不達,心急吃不了熱豆腐,seo必須要有一個(gè)好態(tài)度,尤其百度對新站收錄極慢,一個(gè)針對百度優(yōu)化的新站,必須做好打持久戰的打算。搜索引擎為什么會(huì )遭到歡迎,就是由于用戶(hù)能在里面找到須要的東西,搜索引擎對網(wǎng)站的要求也同樣這么,做seo也應當多站在用戶(hù)的角度考慮,seo就是用戶(hù)體驗,搜索引擎的算法是常常改進(jìn)的,作弊的網(wǎng)站,就算能一時(shí)得逞,但終有三天,會(huì )被k掉,因為搜索越來(lái)越成熟。所以,在做站的時(shí)侯,應該多了解seo的忌諱,避免觸底線(xiàn)。
  2、采集。
  搜索引擎是喜新厭舊的,如果一個(gè)網(wǎng)站的內容都是在網(wǎng)路上高度重復的,那么排行絕對不會(huì )好,采集的網(wǎng)站百度會(huì )收,但是收錄后會(huì )被漸漸的k掉,而且極少會(huì )給改過(guò)自新的機會(huì ),哪怕以后天天更新原創(chuàng )文章,也無(wú)濟于事。但是這并不意味著(zhù)不可以采集,我們可以針對采集來(lái)的文章做一些修改,比如替換內容、更改標題等。
  3、關(guān)鍵詞選擇錯誤。
  流量偏低的關(guān)鍵詞,優(yōu)化得再完美,也無(wú)濟于事,而關(guān)注度很高的關(guān)鍵詞,就算排在第二頁(yè),也會(huì )帶來(lái)很大的流量。
  4.網(wǎng)站代碼過(guò)長(cháng)而零亂。
  蛛蛛是從網(wǎng)頁(yè)代碼讀取網(wǎng)頁(yè)內容的,如果代碼過(guò)長(cháng),蜘蛛將很難曉得哪為重點(diǎn)甚至會(huì )截斷蜘蛛的爬行。
  5.關(guān)鍵詞拼湊。
  這個(gè)你們應當都曉得了吧,但是怎樣才算拼湊,就不好說(shuō)了,我覺(jué)得文章首段關(guān)鍵詞的出現次數最好不要超過(guò)兩次,否則都會(huì )有作弊嫌疑,尤其是新站,應該盡量避開(kāi)很過(guò)顯著(zhù)的優(yōu)化 就是由于剛收錄時(shí)優(yōu)化過(guò)度,被百度懲罰,至今還未恢復。
  6.網(wǎng)頁(yè)標題頻繁修改。
  一個(gè)不穩定的網(wǎng)站,百度是不會(huì )喜歡的,我的站就由于頻繁修改標題而被百度拔毛,所以,在建站之初,就應當把網(wǎng)站的各個(gè)細節都考慮好,一旦構建,便不再輕易修改。
  7.頁(yè)面全Flash或圖片。
  Flash和圖片尚且有吸引力,但不是相對用戶(hù)需求及搜索引擎而言的。搜索引擎蜘蛛是不能讀取Flash內容。
  8.眾多垃圾鏈接、鏈接懲罰域名。
  使用群發(fā)軟件群發(fā)垃圾鏈接,認為鏈接越多總是更好的,其實(shí)搜索引擎要的是鏈接的質(zhì)量。
  9.網(wǎng)站主題與內容不符。
  網(wǎng)站內容和主題相剝離,搜索自然不會(huì )喜歡,不過(guò)有一個(gè)常用方式,在內容頁(yè)的title里加上網(wǎng)站的名稱(chēng),這對網(wǎng)站主頁(yè)的排行有一定作用。
  10.和作弊網(wǎng)站在同一服務(wù)器上。
  在買(mǎi)空間之前,應該針對空間做一些考察,可以向客服索取空間的ip,查一下這個(gè)ip下都有些哪些網(wǎng)站,如果多數站點(diǎn)都沒(méi)有被收錄,那最好舍棄這個(gè)空間了。
  好了,今天我就說(shuō)這么多吧!希望諸位做SEO的同仁們,且行且珍惜,以免墮入圈套。

天機鏡—優(yōu)土大數據平臺應用級別監控利器

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 185 次瀏覽 ? 2020-08-11 05:34 ? 來(lái)自相關(guān)話(huà)題

  轉自:
  動(dòng)機
  在業(yè)務(wù)系統開(kāi)發(fā)的早期,我們常常只關(guān)注到核心邏輯,而忽視了對系統本身的監控。運維朋友提供的ZENOSS(ganglia)能挺好的滿(mǎn)足了我們對硬件資源(IO、cpu負載、內存、load、連接數等)的監控。但介于核心功能與硬件指標之間的系統指標監控是空白的,如服務(wù)本身的負載,jvm狀態(tài),qps,tps,隊列大小,等等。這些數據雖不屬業(yè)務(wù)功能,但是對后續服務(wù)擴容,定位問(wèn)題才能提供良好的根據。
  天機鏡的設計本意就是為解決這部份需求,提供一個(gè)輕量級的數據采集接口,采集業(yè)務(wù)系統的各類(lèi)指標,并將這種指標以圖表的方式直觀(guān)清晰的呈現下來(lái)。也支持對關(guān)鍵指標的實(shí)時(shí)監控和報案,同時(shí)還為用戶(hù)提供簡(jiǎn)單的營(yíng)運報表服務(wù)。
  天機鏡上線(xiàn)一年多,歷經(jīng)數次版本迭代,當前已為集團上百個(gè)大數據應用場(chǎng)景提供了分鐘級指標監控服務(wù),每天搜集5億條指標數據,分鐘級監控數據可持久儲存達30天。
  場(chǎng)景示例
  kafka全集群負載流量(byte)對比圖
  
  每個(gè)ip表示一個(gè)kafka節點(diǎn),可以直觀(guān)看出流量是否均衡,是否穩定。
  Storm應用內存泄漏
  
  曲線(xiàn)名稱(chēng)為ip::pid,可以看出106的進(jìn)程穩定,而107的進(jìn)程顯存到一定值后OOM,然后重啟,進(jìn)程號改變。
  Web服務(wù)頁(yè)面的響應歷時(shí)分布
  
  p999=0.196...的意義在于在近來(lái)的1024個(gè)樣本中,存在了1~2(0.01%)個(gè)190毫秒以上的懇求??梢钥闯?,99.9%的懇求延后基本都在微秒級別,但時(shí)常會(huì )出現若干190毫秒以上的懇求。你還可以依照p99,p98,p75,p50等指標進(jìn)行對比。
  度量
  天機鏡參考Metrics設計了四類(lèi)統計測度:
  絕對值:隊列大小,緩存使用量,在線(xiàn)用戶(hù)(通常是一些頓時(shí)值)
  計數:GC次數、出錯次數、累計時(shí)間,總銷(xiāo)售額等(通常是一些求和值)
  速率:tps,qps,每秒上線(xiàn)都用戶(hù)數等(通常是一些比值)
  分布:可以是時(shí)間分布,數值分布,如:某懇求調用歷時(shí)須要 99.99%在100毫秒以下,通過(guò)這個(gè)指標定義響應性能。
  監控采集的每一個(gè)指標必然屬于前面的某一類(lèi)測度,或是一個(gè)值或是一個(gè)分布。此外我們還提下來(lái)一個(gè)場(chǎng)景的概念,不同的業(yè)務(wù)人員對同一個(gè)系統的監控指標關(guān)注點(diǎn)會(huì )不一樣,通過(guò)場(chǎng)景的概念,對指標進(jìn)行分組,方便業(yè)務(wù)人員查看剖析。
  數據模型與查詢(xún)插口
  數據模型的設計應權衡功能與存取效率,而查詢(xún)插口須要結合模型直觀(guān)多元的呈現數據。我們在設計監控數據結構時(shí)參考了現實(shí)世界的破案手段—現場(chǎng)復原。因為最初的設計動(dòng)機就是為了快速定位系統出現的問(wèn)題,尋找案發(fā)現場(chǎng)的蛛絲馬跡(人物,時(shí)間,地點(diǎn),事件)。對應到程序問(wèn)題排查就是:(應用,時(shí)間戳,進(jìn)程惟一標識符,指標名稱(chēng) ,指標值)。
  我們可以回過(guò)頭去看里面OOM的事例,在視覺(jué)影像完全靠腦補的日子里,只能從黑白控制臺北借助丑惡的命令行去查看系統日志。天機鏡出現之后,在界面上簡(jiǎn)單的點(diǎn)擊幾下,它就可以幫你把現場(chǎng)信息回放下來(lái)。
  存儲表:
  
  查詢(xún)插口十分簡(jiǎn)單,我們須要設定一個(gè)條件:時(shí)間區間,哪些指標,哪些進(jìn)程(ip or ip+pid)。另外我們提供了多種展示方法,可以將不同來(lái)源的相同指標置于一起比較(例如:負載均衡比較),也可以將同一來(lái)源的不同指標置于一起比較 (消息系統流入流出的流量比較,命中與未命中數目的比較)。
  采集客戶(hù)端設計
  采集客戶(hù)端的設計決定了監控平臺的易用性,使用者常常是業(yè)務(wù)開(kāi)發(fā)人員。對于她們來(lái)說(shuō),要用最小的成本換來(lái)最大的利潤。所以在設計客戶(hù)端時(shí)我們從不同的角度考慮了其易用性:
  1. 輕量化的客戶(hù)端:對于完成api層面的監控,我們首先要將采集客戶(hù)端植入寄主應用之中。這里我們選擇在client端做輕量化的統計估算,并且開(kāi)啟一個(gè)沉靜線(xiàn)程每一分鐘把當前的估算結果發(fā)送到前端儲存,監控模塊永遠都不會(huì )影響到寄主程序的運行,即使在網(wǎng)路不通暢的情況下,宿主客戶(hù)端也感知不到異常的存在。同步監控統計結果很頻繁除了會(huì )導致前端儲存壓力過(guò)大,也會(huì )影響用戶(hù)應用的性能。更重要的一個(gè)前提是,對于實(shí)時(shí)性需求,1分鐘足以。
  2. 超簡(jiǎn)單的API:用戶(hù)最希望的是寫(xiě)一行代碼就完成了監控工作,而現實(shí)中我們也的確是如此做的。之所以能做到這一點(diǎn),也正是由于我們梳理出80%的通用需求來(lái)設計API,而另外20%個(gè)性需求才須要調用較為復雜的API才可滿(mǎn)足。另外,有些通用監控是無(wú)需設置的,比如JVM相關(guān)的各類(lèi)監控。
  對于監控數據的搜集,我們的設計目標是:歸檔時(shí)間長(cháng),允許遺失,近實(shí)時(shí),統計量豐富??赡苡靡粋€(gè)詞匯描述監控數據比較合適:“可視化應用日志”。
  服務(wù)端設計
  對于簡(jiǎn)單表結構儲存大量數據的場(chǎng)景,Hbase是我們的極佳選擇。為了滿(mǎn)足天機鏡的查詢(xún)需求,我們在Hbase集群上安裝了Phoenix插件。Phoenix支持了類(lèi)SQL語(yǔ)言,很容易與后端界面集成在一起。
  對于接收服務(wù)器,我們簡(jiǎn)單的使用nginx+webserver的形式。針對更大的并發(fā)量,可以在接收服務(wù)器做一些batch以及throttle。接收服務(wù)器組件挺好的前饋了采集層與儲存層。得益于前饋的設計,天機鏡不僅支持Hbase儲存之外,還支持了mysql儲存。另外對于不同的數據源,接收服務(wù)器還可以支持采集jmx監控數據。
  
  豈止于監控,數據總是有用的。我們對數據平臺的基礎服務(wù)層做了一定的封裝,內置了好多通用指標的監控,這樣可以對所有平臺的使用者的應用作出大致的資源占用情況監控,比如消息系統的流量貢獻、消費與生產(chǎn)消息量的核實(shí)、請求量統計、緩存命中率、數據掃描量等等。天機鏡開(kāi)放了數據訪(fǎng)問(wèn)插口,用戶(hù)可以定做報表,平臺管理員可以生成消費資源報表。另外,利用其逾實(shí)時(shí)(一分鐘內)的特點(diǎn)做郵件和短信的報案等等。
  結論與建議
  總體而言,天機鏡的工作是把應用的運行日志圖形化詮釋?zhuān)⑶铱梢园凑杖魏螘r(shí)間以多元形式對比呈現,大大通分了排查問(wèn)題的難度,同時(shí)通過(guò)報表也能使我們更直觀(guān)的了解程序,預警功能防止一些問(wèn)題的發(fā)生。天機鏡像是一種描畫(huà)數據平臺生態(tài)鏈各環(huán)節狀態(tài)的數據引擎,當然,這須要悉心設計出一個(gè)更好的交互式UI或則報表。
  客戶(hù)端
  需求的梳理,最簡(jiǎn)單的api滿(mǎn)足最大眾的需求,如果想兼具,那么必然會(huì )使api愈加復雜難用;
  不需要刻意追求數據的高實(shí)時(shí)性,增大80%的成本卻提升了1%的利潤這是得不償失的;
  靜默,不要由于監控影響了自己的應用運行;
  服務(wù)端
  做好前饋,這樣無(wú)論你是擴容升級,還是功能升級,都便于操作;
  中間件的數據處理策略會(huì )使你的基礎服務(wù)愈發(fā)穩定、高效、靈活。
  存儲端
  Phoenix on hbase可以使你借助sql取代繁雜的scan查詢(xún),理解Hbase的儲存原理,有助于你設計愈發(fā)高效的Phoenix庫表,原則是把查詢(xún)條件的高頻數組置于后面。對于更大量級數據的儲存,可以采用按量分表,刪除操作與追加操作分離,這樣可以避免IO風(fēng)暴。
  天機鏡—優(yōu)土大數據平臺應用級別監控利器 查看全部

  轉自:
  動(dòng)機
  在業(yè)務(wù)系統開(kāi)發(fā)的早期,我們常常只關(guān)注到核心邏輯,而忽視了對系統本身的監控。運維朋友提供的ZENOSS(ganglia)能挺好的滿(mǎn)足了我們對硬件資源(IO、cpu負載、內存、load、連接數等)的監控。但介于核心功能與硬件指標之間的系統指標監控是空白的,如服務(wù)本身的負載,jvm狀態(tài),qps,tps,隊列大小,等等。這些數據雖不屬業(yè)務(wù)功能,但是對后續服務(wù)擴容,定位問(wèn)題才能提供良好的根據。
  天機鏡的設計本意就是為解決這部份需求,提供一個(gè)輕量級的數據采集接口,采集業(yè)務(wù)系統的各類(lèi)指標,并將這種指標以圖表的方式直觀(guān)清晰的呈現下來(lái)。也支持對關(guān)鍵指標的實(shí)時(shí)監控和報案,同時(shí)還為用戶(hù)提供簡(jiǎn)單的營(yíng)運報表服務(wù)。
  天機鏡上線(xiàn)一年多,歷經(jīng)數次版本迭代,當前已為集團上百個(gè)大數據應用場(chǎng)景提供了分鐘級指標監控服務(wù),每天搜集5億條指標數據,分鐘級監控數據可持久儲存達30天。
  場(chǎng)景示例
  kafka全集群負載流量(byte)對比圖
  http://mmbiz.qpic.cn/mmbiz/kj0 ... ApWA/0" />
  每個(gè)ip表示一個(gè)kafka節點(diǎn),可以直觀(guān)看出流量是否均衡,是否穩定。
  Storm應用內存泄漏
  http://mmbiz.qpic.cn/mmbiz/kj0 ... 2QQw/0" />
  曲線(xiàn)名稱(chēng)為ip::pid,可以看出106的進(jìn)程穩定,而107的進(jìn)程顯存到一定值后OOM,然后重啟,進(jìn)程號改變。
  Web服務(wù)頁(yè)面的響應歷時(shí)分布
  http://mmbiz.qpic.cn/mmbiz/kj0 ... 0yNA/0" />
  p999=0.196...的意義在于在近來(lái)的1024個(gè)樣本中,存在了1~2(0.01%)個(gè)190毫秒以上的懇求??梢钥闯?,99.9%的懇求延后基本都在微秒級別,但時(shí)常會(huì )出現若干190毫秒以上的懇求。你還可以依照p99,p98,p75,p50等指標進(jìn)行對比。
  度量
  天機鏡參考Metrics設計了四類(lèi)統計測度:
  絕對值:隊列大小,緩存使用量,在線(xiàn)用戶(hù)(通常是一些頓時(shí)值)
  計數:GC次數、出錯次數、累計時(shí)間,總銷(xiāo)售額等(通常是一些求和值)
  速率:tps,qps,每秒上線(xiàn)都用戶(hù)數等(通常是一些比值)
  分布:可以是時(shí)間分布,數值分布,如:某懇求調用歷時(shí)須要 99.99%在100毫秒以下,通過(guò)這個(gè)指標定義響應性能。
  監控采集的每一個(gè)指標必然屬于前面的某一類(lèi)測度,或是一個(gè)值或是一個(gè)分布。此外我們還提下來(lái)一個(gè)場(chǎng)景的概念,不同的業(yè)務(wù)人員對同一個(gè)系統的監控指標關(guān)注點(diǎn)會(huì )不一樣,通過(guò)場(chǎng)景的概念,對指標進(jìn)行分組,方便業(yè)務(wù)人員查看剖析。
  數據模型與查詢(xún)插口
  數據模型的設計應權衡功能與存取效率,而查詢(xún)插口須要結合模型直觀(guān)多元的呈現數據。我們在設計監控數據結構時(shí)參考了現實(shí)世界的破案手段—現場(chǎng)復原。因為最初的設計動(dòng)機就是為了快速定位系統出現的問(wèn)題,尋找案發(fā)現場(chǎng)的蛛絲馬跡(人物,時(shí)間,地點(diǎn),事件)。對應到程序問(wèn)題排查就是:(應用,時(shí)間戳,進(jìn)程惟一標識符,指標名稱(chēng) ,指標值)。
  我們可以回過(guò)頭去看里面OOM的事例,在視覺(jué)影像完全靠腦補的日子里,只能從黑白控制臺北借助丑惡的命令行去查看系統日志。天機鏡出現之后,在界面上簡(jiǎn)單的點(diǎn)擊幾下,它就可以幫你把現場(chǎng)信息回放下來(lái)。
  存儲表:
  http://mmbiz.qpic.cn/mmbiz/kj0 ... bb2g/0" />
  查詢(xún)插口十分簡(jiǎn)單,我們須要設定一個(gè)條件:時(shí)間區間,哪些指標,哪些進(jìn)程(ip or ip+pid)。另外我們提供了多種展示方法,可以將不同來(lái)源的相同指標置于一起比較(例如:負載均衡比較),也可以將同一來(lái)源的不同指標置于一起比較 (消息系統流入流出的流量比較,命中與未命中數目的比較)。
  采集客戶(hù)端設計
  采集客戶(hù)端的設計決定了監控平臺的易用性,使用者常常是業(yè)務(wù)開(kāi)發(fā)人員。對于她們來(lái)說(shuō),要用最小的成本換來(lái)最大的利潤。所以在設計客戶(hù)端時(shí)我們從不同的角度考慮了其易用性:
  1. 輕量化的客戶(hù)端:對于完成api層面的監控,我們首先要將采集客戶(hù)端植入寄主應用之中。這里我們選擇在client端做輕量化的統計估算,并且開(kāi)啟一個(gè)沉靜線(xiàn)程每一分鐘把當前的估算結果發(fā)送到前端儲存,監控模塊永遠都不會(huì )影響到寄主程序的運行,即使在網(wǎng)路不通暢的情況下,宿主客戶(hù)端也感知不到異常的存在。同步監控統計結果很頻繁除了會(huì )導致前端儲存壓力過(guò)大,也會(huì )影響用戶(hù)應用的性能。更重要的一個(gè)前提是,對于實(shí)時(shí)性需求,1分鐘足以。
  2. 超簡(jiǎn)單的API:用戶(hù)最希望的是寫(xiě)一行代碼就完成了監控工作,而現實(shí)中我們也的確是如此做的。之所以能做到這一點(diǎn),也正是由于我們梳理出80%的通用需求來(lái)設計API,而另外20%個(gè)性需求才須要調用較為復雜的API才可滿(mǎn)足。另外,有些通用監控是無(wú)需設置的,比如JVM相關(guān)的各類(lèi)監控。
  對于監控數據的搜集,我們的設計目標是:歸檔時(shí)間長(cháng),允許遺失,近實(shí)時(shí),統計量豐富??赡苡靡粋€(gè)詞匯描述監控數據比較合適:“可視化應用日志”。
  服務(wù)端設計
  對于簡(jiǎn)單表結構儲存大量數據的場(chǎng)景,Hbase是我們的極佳選擇。為了滿(mǎn)足天機鏡的查詢(xún)需求,我們在Hbase集群上安裝了Phoenix插件。Phoenix支持了類(lèi)SQL語(yǔ)言,很容易與后端界面集成在一起。
  對于接收服務(wù)器,我們簡(jiǎn)單的使用nginx+webserver的形式。針對更大的并發(fā)量,可以在接收服務(wù)器做一些batch以及throttle。接收服務(wù)器組件挺好的前饋了采集層與儲存層。得益于前饋的設計,天機鏡不僅支持Hbase儲存之外,還支持了mysql儲存。另外對于不同的數據源,接收服務(wù)器還可以支持采集jmx監控數據。
  http://mmbiz.qpic.cn/mmbiz/kj0 ... aPvA/0" />
  豈止于監控,數據總是有用的。我們對數據平臺的基礎服務(wù)層做了一定的封裝,內置了好多通用指標的監控,這樣可以對所有平臺的使用者的應用作出大致的資源占用情況監控,比如消息系統的流量貢獻、消費與生產(chǎn)消息量的核實(shí)、請求量統計、緩存命中率、數據掃描量等等。天機鏡開(kāi)放了數據訪(fǎng)問(wèn)插口,用戶(hù)可以定做報表,平臺管理員可以生成消費資源報表。另外,利用其逾實(shí)時(shí)(一分鐘內)的特點(diǎn)做郵件和短信的報案等等。
  結論與建議
  總體而言,天機鏡的工作是把應用的運行日志圖形化詮釋?zhuān)⑶铱梢园凑杖魏螘r(shí)間以多元形式對比呈現,大大通分了排查問(wèn)題的難度,同時(shí)通過(guò)報表也能使我們更直觀(guān)的了解程序,預警功能防止一些問(wèn)題的發(fā)生。天機鏡像是一種描畫(huà)數據平臺生態(tài)鏈各環(huán)節狀態(tài)的數據引擎,當然,這須要悉心設計出一個(gè)更好的交互式UI或則報表。
  客戶(hù)端
  需求的梳理,最簡(jiǎn)單的api滿(mǎn)足最大眾的需求,如果想兼具,那么必然會(huì )使api愈加復雜難用;
  不需要刻意追求數據的高實(shí)時(shí)性,增大80%的成本卻提升了1%的利潤這是得不償失的;
  靜默,不要由于監控影響了自己的應用運行;
  服務(wù)端
  做好前饋,這樣無(wú)論你是擴容升級,還是功能升級,都便于操作;
  中間件的數據處理策略會(huì )使你的基礎服務(wù)愈發(fā)穩定、高效、靈活。
  存儲端
  Phoenix on hbase可以使你借助sql取代繁雜的scan查詢(xún),理解Hbase的儲存原理,有助于你設計愈發(fā)高效的Phoenix庫表,原則是把查詢(xún)條件的高頻數組置于后面。對于更大量級數據的儲存,可以采用按量分表,刪除操作與追加操作分離,這樣可以避免IO風(fēng)暴。
  天機鏡—優(yōu)土大數據平臺應用級別監控利器

智能防封

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 182 次瀏覽 ? 2020-08-11 02:24 ? 來(lái)自相關(guān)話(huà)題

  一、功能簡(jiǎn)介
  隨著(zhù)網(wǎng)路采集越來(lái)越流行,很多網(wǎng)站也針對性地進(jìn)行了大規模的反采集措施,其中封禁特定IP為主要手段。
  針對這些情況,優(yōu)采云推出獨家的「智能防封」技術(shù)組合包,您可以按照實(shí)際網(wǎng)站封鎖情況,通過(guò)靈活設置UA、Cookie、優(yōu)質(zhì)代理IP的切換頻度,來(lái)達到穩定采集的療效。
  二、購買(mǎi)后是否可永久穩定采集天貓/大眾點(diǎn)評等網(wǎng)站?
  購買(mǎi)優(yōu)質(zhì)代理IP后,我們沒(méi)法保證「智能防封」技術(shù)組合包,能100%穩定破解淘寶、大眾點(diǎn)評等網(wǎng)站的防采集手段,您訂購代理IP后,還須要不斷調試+測試規則,方可穩定使用。
  實(shí)際使用過(guò)程中,天貓、大眾點(diǎn)評等網(wǎng)站可能會(huì )隨時(shí)升級防采集手段,屆時(shí)可能現有的手段將會(huì )臨時(shí)失效,我們承諾會(huì )同步進(jìn)行研究,但研究須要時(shí)間,所以我們不承諾一定能在某個(gè)時(shí)間點(diǎn)前可以完成研究。
  如您期望此功能可以100%穩定、永久采集天貓、大眾點(diǎn)評等高強度反采集網(wǎng)站,請勿訂購本功能。
  三、功能使用限制
  目前本地采集、云采集均可使用該功能
  此功能為付費用戶(hù)專(zhuān)屬功能
  專(zhuān)業(yè)版用戶(hù)可設置每5-10分鐘切換一次代理IP
  旗艦版及私有云用戶(hù)可設置每30秒-10分鐘切換一次代理IP
  四、功能使用說(shuō)明
  找到目標任務(wù),進(jìn)入目標任務(wù)的編輯頁(yè)面,然后點(diǎn)擊
  
  按鈕,進(jìn)入設置頁(yè)面。
  
  接下來(lái),就可以根據需求進(jìn)行配置。
  1、勾選「使用代理IP」,接下來(lái)再勾選「優(yōu)質(zhì)代理IP」,即可配置切換周期。
  比如設置切換周期為5分鐘,則優(yōu)采云將會(huì )每采集5分鐘,就會(huì )切換一個(gè)代理IP,再繼續采集。
  
  相關(guān)說(shuō)明:
  切換周期越短,采集效果越好,代理IP消耗速率越快
  代理IP存在一定的廢棄率,在啟用優(yōu)質(zhì)代理IP采集數據過(guò)程中,我們就會(huì )實(shí)時(shí)檢測每位代理IP的可用性
  當發(fā)覺(jué)某個(gè)代理IP沒(méi)到設置的切換周期時(shí)(比如設置10分鐘切換一次,但該IP到第9分鐘就無(wú)效了),優(yōu)采云將會(huì )手動(dòng)為您切換代理IP,確保采集過(guò)程不會(huì )中斷
  2、勾選「定時(shí)切換瀏覽器版本」后,再點(diǎn)擊右邊的「設置」,就可以配置須要切換的瀏覽器版本(UA)列表。
  請注意,有些網(wǎng)站并不能在所有UA下都完美顯示,需要進(jìn)行調試和觀(guān)察。
  切換周期可單獨設置,也可以跟著(zhù)代理IP切換頻度,當優(yōu)采云切換代理IP時(shí),也切換UA。
  
  3、勾選「定時(shí)切換瀏覽器版本」,就可以配置Cookie的清理頻度;
  清除頻度可單獨設置,也可以跟著(zhù)代理IP切換頻度,當優(yōu)采云切換代理IP時(shí),也消除cookie。
  
  五、優(yōu)質(zhì)代理IP怎么收費?點(diǎn)擊立刻訂購
  
  六、已訂購的優(yōu)質(zhì)代理IP有效期?
  永久有效,但僅當您的帳戶(hù)為付費帳戶(hù)時(shí)方可使用。 查看全部

  一、功能簡(jiǎn)介
  隨著(zhù)網(wǎng)路采集越來(lái)越流行,很多網(wǎng)站也針對性地進(jìn)行了大規模的反采集措施,其中封禁特定IP為主要手段。
  針對這些情況,優(yōu)采云推出獨家的「智能防封」技術(shù)組合包,您可以按照實(shí)際網(wǎng)站封鎖情況,通過(guò)靈活設置UA、Cookie、優(yōu)質(zhì)代理IP的切換頻度,來(lái)達到穩定采集的療效。
  二、購買(mǎi)后是否可永久穩定采集天貓/大眾點(diǎn)評等網(wǎng)站?
  購買(mǎi)優(yōu)質(zhì)代理IP后,我們沒(méi)法保證「智能防封」技術(shù)組合包,能100%穩定破解淘寶、大眾點(diǎn)評等網(wǎng)站的防采集手段,您訂購代理IP后,還須要不斷調試+測試規則,方可穩定使用。
  實(shí)際使用過(guò)程中,天貓、大眾點(diǎn)評等網(wǎng)站可能會(huì )隨時(shí)升級防采集手段,屆時(shí)可能現有的手段將會(huì )臨時(shí)失效,我們承諾會(huì )同步進(jìn)行研究,但研究須要時(shí)間,所以我們不承諾一定能在某個(gè)時(shí)間點(diǎn)前可以完成研究。
  如您期望此功能可以100%穩定、永久采集天貓、大眾點(diǎn)評等高強度反采集網(wǎng)站,請勿訂購本功能。
  三、功能使用限制
  目前本地采集、云采集均可使用該功能
  此功能為付費用戶(hù)專(zhuān)屬功能
  專(zhuān)業(yè)版用戶(hù)可設置每5-10分鐘切換一次代理IP
  旗艦版及私有云用戶(hù)可設置每30秒-10分鐘切換一次代理IP
  四、功能使用說(shuō)明
  找到目標任務(wù),進(jìn)入目標任務(wù)的編輯頁(yè)面,然后點(diǎn)擊
  
  按鈕,進(jìn)入設置頁(yè)面。
  
  接下來(lái),就可以根據需求進(jìn)行配置。
  1、勾選「使用代理IP」,接下來(lái)再勾選「優(yōu)質(zhì)代理IP」,即可配置切換周期。
  比如設置切換周期為5分鐘,則優(yōu)采云將會(huì )每采集5分鐘,就會(huì )切換一個(gè)代理IP,再繼續采集。
  
  相關(guān)說(shuō)明:
  切換周期越短,采集效果越好,代理IP消耗速率越快
  代理IP存在一定的廢棄率,在啟用優(yōu)質(zhì)代理IP采集數據過(guò)程中,我們就會(huì )實(shí)時(shí)檢測每位代理IP的可用性
  當發(fā)覺(jué)某個(gè)代理IP沒(méi)到設置的切換周期時(shí)(比如設置10分鐘切換一次,但該IP到第9分鐘就無(wú)效了),優(yōu)采云將會(huì )手動(dòng)為您切換代理IP,確保采集過(guò)程不會(huì )中斷
  2、勾選「定時(shí)切換瀏覽器版本」后,再點(diǎn)擊右邊的「設置」,就可以配置須要切換的瀏覽器版本(UA)列表。
  請注意,有些網(wǎng)站并不能在所有UA下都完美顯示,需要進(jìn)行調試和觀(guān)察。
  切換周期可單獨設置,也可以跟著(zhù)代理IP切換頻度,當優(yōu)采云切換代理IP時(shí),也切換UA。
  
  3、勾選「定時(shí)切換瀏覽器版本」,就可以配置Cookie的清理頻度;
  清除頻度可單獨設置,也可以跟著(zhù)代理IP切換頻度,當優(yōu)采云切換代理IP時(shí),也消除cookie。
  
  五、優(yōu)質(zhì)代理IP怎么收費?點(diǎn)擊立刻訂購
  
  六、已訂購的優(yōu)質(zhì)代理IP有效期?
  永久有效,但僅當您的帳戶(hù)為付費帳戶(hù)時(shí)方可使用。

百度指數采集工具 V4.71 官方版

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 387 次瀏覽 ? 2020-08-09 17:51 ? 來(lái)自相關(guān)話(huà)題

  百度指數采集工具是款針對百度搜索引擎構建的百度指數采集工具。它可以幫助用戶(hù)搜集最熱門(mén)的詞句,讓用戶(hù)關(guān)注最新的熱點(diǎn),及時(shí)留住流量,非常好用。
  
  【功能特性】
  采集數據100%精準,類(lèi)型全面
  支持整體趨勢、PC、移動(dòng)指數采集抓取,支持需求圖譜、資訊關(guān)注、人群畫(huà)像的采集抓??!
  采集速度飛快,秒采集完成
  飛象采集器采用頂尖系統配置,反復優(yōu)化性能,讓采集速度快到飛起來(lái)!
  可視化UI操作,便捷易上手
  通過(guò)精致的UI設置采集條件,簡(jiǎn)單易用,純紅色軟件,簡(jiǎn)易安裝即可上手!
  數據建模、論文數據必備
  軟件不斷建立,擴展用戶(hù)建議功能,大數據行業(yè)數據建模必備軟件!
  
  【軟件特色】
 ?。?)可視化的界面,簡(jiǎn)單容易上手。
 ?。?)采集精準快速,一個(gè)詞幾十秒鐘即可完成采集。
 ?。?)軟件帶手動(dòng)升級功能。官方升級后客戶(hù)端會(huì )手動(dòng)升級到最新版本。
  【使用說(shuō)明】
  一、安裝注意事項
  1、獲取軟件包之后,先要解壓zip包(注:不得解壓到桌面,請解壓到在D:\、E:\等非系統盤(pán)盤(pán)路徑
 ?。ú豢稍趜ip壓縮包中直接運行?。?br />   2、將軟件添加到360任目錄,避免被被刺死或誤刪掉文件
 ?。◤娏医ㄗh添加到信任目錄,這樣后期使用會(huì )少好多麻煩。)
  3、對于VIP用戶(hù),務(wù)必通過(guò)短信或其它形式備份好自己的授權文件,授權文件官方不重復領(lǐng)取。
  二、注冊登入常見(jiàn)問(wèn)題
  1、試用用戶(hù),請點(diǎn)擊“登錄”,使用默認試用帳號即可直接試用體驗。
  2、VIP用戶(hù),打開(kāi)登陸窗口左側有一個(gè)'免費注冊'按鈕,點(diǎn)擊打開(kāi)'注冊'彈窗'
  3、在注冊窗體依次填入賬號和密碼等信息。(注:若填寫(xiě)有誤,對應項兩側有白色覺(jué)得號,鼠標移到紅色嘆號上,軟件會(huì )提示錯誤緣由。)
  4、注冊完成后,再登入即可開(kāi)始使用。
  三、使用過(guò)程中注意事項
  1、軟件狀態(tài)――因軟件是多進(jìn)程模式,軟件界面狀態(tài)欄中的'軟件狀態(tài)'為《正常運行》說(shuō)明軟件處于正常工作狀態(tài);若仍然為白色文字則處于不可用狀態(tài)。
  2、若碰到軟件難以打開(kāi)、或工作狀態(tài)不正常,點(diǎn)擊注冊頁(yè)面左邊的”點(diǎn)擊清除恢復“,然后重啟軟件。95%的概率可解決您的問(wèn)題。
  
  【更新日志】
  V4.71(2018.9.12)
  升級內容:
  1、局部?jì)?yōu)化升級。
  V4.69(2018.9.5)
  升級內容:
  1、添加對含空格的關(guān)鍵詞的處理。 查看全部

  百度指數采集工具是款針對百度搜索引擎構建的百度指數采集工具。它可以幫助用戶(hù)搜集最熱門(mén)的詞句,讓用戶(hù)關(guān)注最新的熱點(diǎn),及時(shí)留住流量,非常好用。
  
  【功能特性】
  采集數據100%精準,類(lèi)型全面
  支持整體趨勢、PC、移動(dòng)指數采集抓取,支持需求圖譜、資訊關(guān)注、人群畫(huà)像的采集抓??!
  采集速度飛快,秒采集完成
  飛象采集器采用頂尖系統配置,反復優(yōu)化性能,讓采集速度快到飛起來(lái)!
  可視化UI操作,便捷易上手
  通過(guò)精致的UI設置采集條件,簡(jiǎn)單易用,純紅色軟件,簡(jiǎn)易安裝即可上手!
  數據建模、論文數據必備
  軟件不斷建立,擴展用戶(hù)建議功能,大數據行業(yè)數據建模必備軟件!
  
  【軟件特色】
 ?。?)可視化的界面,簡(jiǎn)單容易上手。
 ?。?)采集精準快速,一個(gè)詞幾十秒鐘即可完成采集。
 ?。?)軟件帶手動(dòng)升級功能。官方升級后客戶(hù)端會(huì )手動(dòng)升級到最新版本。
  【使用說(shuō)明】
  一、安裝注意事項
  1、獲取軟件包之后,先要解壓zip包(注:不得解壓到桌面,請解壓到在D:\、E:\等非系統盤(pán)盤(pán)路徑
 ?。ú豢稍趜ip壓縮包中直接運行?。?br />   2、將軟件添加到360任目錄,避免被被刺死或誤刪掉文件
 ?。◤娏医ㄗh添加到信任目錄,這樣后期使用會(huì )少好多麻煩。)
  3、對于VIP用戶(hù),務(wù)必通過(guò)短信或其它形式備份好自己的授權文件,授權文件官方不重復領(lǐng)取。
  二、注冊登入常見(jiàn)問(wèn)題
  1、試用用戶(hù),請點(diǎn)擊“登錄”,使用默認試用帳號即可直接試用體驗。
  2、VIP用戶(hù),打開(kāi)登陸窗口左側有一個(gè)'免費注冊'按鈕,點(diǎn)擊打開(kāi)'注冊'彈窗'
  3、在注冊窗體依次填入賬號和密碼等信息。(注:若填寫(xiě)有誤,對應項兩側有白色覺(jué)得號,鼠標移到紅色嘆號上,軟件會(huì )提示錯誤緣由。)
  4、注冊完成后,再登入即可開(kāi)始使用。
  三、使用過(guò)程中注意事項
  1、軟件狀態(tài)――因軟件是多進(jìn)程模式,軟件界面狀態(tài)欄中的'軟件狀態(tài)'為《正常運行》說(shuō)明軟件處于正常工作狀態(tài);若仍然為白色文字則處于不可用狀態(tài)。
  2、若碰到軟件難以打開(kāi)、或工作狀態(tài)不正常,點(diǎn)擊注冊頁(yè)面左邊的”點(diǎn)擊清除恢復“,然后重啟軟件。95%的概率可解決您的問(wèn)題。
  
  【更新日志】
  V4.71(2018.9.12)
  升級內容:
  1、局部?jì)?yōu)化升級。
  V4.69(2018.9.5)
  升級內容:
  1、添加對含空格的關(guān)鍵詞的處理。

面對百度算法對采集站的抗議,未來(lái)采集站能夠存留多久?

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 338 次瀏覽 ? 2020-08-09 15:35 ? 來(lái)自相關(guān)話(huà)題

  1、是時(shí)侯和采集站說(shuō)再見(jiàn)了嗎?
  答案基本上是肯定的。雖然百度一直不能挺好地對原創(chuàng )內容和采集內容進(jìn)行排行,但熊掌號正企圖扭轉這些局面,這也是百度搜索可持續發(fā)展的核心戰略。這是一個(gè)挑戰,但卻是必須的。
  2、百度是否支持合理的“采集”?
  顯然,這里的“采集”可以理解為轉載復制,基于搜索引擎的本質(zhì),百度企圖快速找到比較合適的解決方案,百度支持合理的“采集”,值得注意的是,它必須有原創(chuàng )鏈接,這樣就不容易被覺(jué)得是低質(zhì)量的內容。
  同時(shí),需要明晰的是,一個(gè)網(wǎng)站的“文章采集”數量須要控制在一個(gè)合理的范圍內,而不是整個(gè)站點(diǎn)都在采集。
  3、采集站會(huì )遭到懲罰嗎?
  不一定,這取決于具體情況。除了合理采集上述事例外,網(wǎng)站導航和網(wǎng)站目錄理論上都是采集網(wǎng)站,但為何不處罰呢?
  原因很簡(jiǎn)單,搜索引擎是一個(gè)開(kāi)發(fā)平臺,它將為真正解決用戶(hù)需求的站點(diǎn)提供一些支持,同時(shí),高質(zhì)量的網(wǎng)站導航只推薦高質(zhì)量的網(wǎng)站,它代表著(zhù)一定程度的權威。
  因此,一個(gè)網(wǎng)站適度的采集和轉發(fā)一些內容,不會(huì )遭到百度的懲罰,只是步入個(gè)人站長(cháng)或不害怕這個(gè)問(wèn)題。
  
  4、使用采集軟件采集內容否可行?
  如果我們企圖對原稿進(jìn)行分類(lèi),它可以分為中級原稿和中級原稿。
 ?。?)初步稿件打算:通常使用搜集軟件,如博客搜索工具,采集帶有特定關(guān)鍵字的博客文章,然后將它們組合成一篇文章。有時(shí)上下文的邏輯結構不平滑,這是絕對不可行的。 查看全部

  1、是時(shí)侯和采集站說(shuō)再見(jiàn)了嗎?
  答案基本上是肯定的。雖然百度一直不能挺好地對原創(chuàng )內容和采集內容進(jìn)行排行,但熊掌號正企圖扭轉這些局面,這也是百度搜索可持續發(fā)展的核心戰略。這是一個(gè)挑戰,但卻是必須的。
  2、百度是否支持合理的“采集”?
  顯然,這里的“采集”可以理解為轉載復制,基于搜索引擎的本質(zhì),百度企圖快速找到比較合適的解決方案,百度支持合理的“采集”,值得注意的是,它必須有原創(chuàng )鏈接,這樣就不容易被覺(jué)得是低質(zhì)量的內容。
  同時(shí),需要明晰的是,一個(gè)網(wǎng)站的“文章采集”數量須要控制在一個(gè)合理的范圍內,而不是整個(gè)站點(diǎn)都在采集。
  3、采集站會(huì )遭到懲罰嗎?
  不一定,這取決于具體情況。除了合理采集上述事例外,網(wǎng)站導航和網(wǎng)站目錄理論上都是采集網(wǎng)站,但為何不處罰呢?
  原因很簡(jiǎn)單,搜索引擎是一個(gè)開(kāi)發(fā)平臺,它將為真正解決用戶(hù)需求的站點(diǎn)提供一些支持,同時(shí),高質(zhì)量的網(wǎng)站導航只推薦高質(zhì)量的網(wǎng)站,它代表著(zhù)一定程度的權威。
  因此,一個(gè)網(wǎng)站適度的采集和轉發(fā)一些內容,不會(huì )遭到百度的懲罰,只是步入個(gè)人站長(cháng)或不害怕這個(gè)問(wèn)題。
  
  4、使用采集軟件采集內容否可行?
  如果我們企圖對原稿進(jìn)行分類(lèi),它可以分為中級原稿和中級原稿。
 ?。?)初步稿件打算:通常使用搜集軟件,如博客搜索工具,采集帶有特定關(guān)鍵字的博客文章,然后將它們組合成一篇文章。有時(shí)上下文的邏輯結構不平滑,這是絕對不可行的。

采集、發(fā)現優(yōu)秀App設計靈感,優(yōu)靈要從分類(lèi)標簽入手解決UI設計師找圖困局

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 334 次瀏覽 ? 2020-08-09 14:42 ? 來(lái)自相關(guān)話(huà)題

  界面設計師、網(wǎng)頁(yè)設計師、視覺(jué)設計師、互動(dòng)設計師、UI設計師……這是隨手一搜互聯(lián)網(wǎng)急聘以后彈出的答案。雖然很大程度上這種職位的工作內容都是類(lèi)似的,其中“UI設計師”卻是我所見(jiàn)到的最火的一個(gè),究其原因,無(wú)異于是高薪。
  在設計師門(mén)檻這么低的情況下,如何能夠培養出一個(gè)好的UI設計師呢?
  獵云網(wǎng)(微信:ilieyun)近日接觸到的優(yōu)靈創(chuàng )始人龍國富,在提到這個(gè)問(wèn)題時(shí),他的想法是:“我認為這個(gè)行業(yè)比較‘亂’,UI設計師不僅學(xué)習專(zhuān)業(yè)的技能知識外,還須要把握大量的美學(xué)、心理學(xué)等內容,可以說(shuō)沒(méi)有一個(gè)好的積累是不能孵化出一個(gè)好的設計師的”。
  優(yōu)靈致力于為從事App產(chǎn)品與設計的用戶(hù),采集全球海量?jì)?yōu)秀APP設計界面,提供最新、最in的App界面設計時(shí)尚資訊。讓產(chǎn)品總監和UI設計師們足不出戶(hù),也可以使靈感隨手可得。通過(guò)靈感的碰撞,能夠使產(chǎn)品圈、設計圈誕生更多優(yōu)秀的設計。
  談到為何會(huì )開(kāi)辦優(yōu)靈,龍國富說(shuō):“其實(shí)我們團隊之前都是做創(chuàng )意類(lèi)的,在找App設計素材的過(guò)程中發(fā)覺(jué)有很多界面是十分雷同的,想找到比較優(yōu)質(zhì)的內容是比較難的,于是就創(chuàng )立了優(yōu)靈,方便自己采集市面上比較優(yōu)秀的App界面,其次是幫助一些剛入門(mén)做UI設計的小白們,設計某一些類(lèi)型的模塊時(shí)才能快速找到特別多的參照事例,提高效率”。
  “最好的產(chǎn)品一般會(huì )做好兩件事情:功能和細節。功能才能吸引用戶(hù)關(guān)注這個(gè)產(chǎn)品,而細節則才能使關(guān)注的用戶(hù)留下來(lái)?!盌an Saffer 的這句話(huà)揭示了許多成功產(chǎn)品的竅門(mén)。值得注意的是,功能和細節二者都很重要,但是功能居首,細節次之。
  不過(guò),讓用戶(hù)喜歡或則厭惡一個(gè)APP或則網(wǎng)站,往往緣起于細節。隨著(zhù)網(wǎng)站交互設計和動(dòng)效的大規模普及,我們如今所見(jiàn)到的許多細節設計,都可以歸類(lèi)于微交互。雖然在整體性的設計當中,微交互雖然變得微不足道,但是整個(gè)產(chǎn)品體驗,與之息息相關(guān)。龍國富如是說(shuō)道。
  
  對于分類(lèi)方式,龍國富說(shuō):“其實(shí)我們的分類(lèi)方式還是比較不同的,首先是從App的類(lèi)型來(lái)分,拿金融類(lèi)舉例,不同類(lèi)型的產(chǎn)品在行內的名稱(chēng)也是不一樣的,就訂購頁(yè)面而言,有購物頁(yè)、商品詳情頁(yè)……從事不同行業(yè)的人所須要的產(chǎn)品內頁(yè)也就不一樣,優(yōu)靈對此也做了一些特定地規范。其次是不同頁(yè)面也有不同的屬性,通過(guò)這種屬性標簽做一個(gè)特定地檢索,比如說(shuō)時(shí)鐘、天氣、顏色……除此之外優(yōu)靈都會(huì )根據大眾搜索率比較高的產(chǎn)品來(lái)進(jìn)行標簽命名,及時(shí)作出判定,將這些標簽手動(dòng)配到相關(guān)聯(lián)的某一個(gè)App上”。
  他覺(jué)得,作為一個(gè)產(chǎn)品總監,經(jīng)驗之談是一年到五年的產(chǎn)品總監,他們一定會(huì )看大量的App,遇到不錯的App她們會(huì )截圖出來(lái),保存以后放在印象筆記上,導致的結果是,截了一大堆圖,需要用的時(shí)侯卻不知道放在那個(gè)文件了……所以?xún)?yōu)靈要做的就是垂直于UI設計領(lǐng)域,除了搜羅一些優(yōu)秀的App界面外,也能使用戶(hù)在此保存自己的一些采集文件,還能在此進(jìn)行‘以圖搜圖’的操作。
  龍國富半開(kāi)玩笑地說(shuō):“其實(shí)這真的是一個(gè)不能再初創(chuàng )的項目了,優(yōu)靈是我們團隊花一個(gè)星期做下來(lái)的產(chǎn)品,從2016年10月份上線(xiàn)到目前,已獲得了1萬(wàn)多用戶(hù)。市面上90%的APP都是特別標準化的界面,或者是功能流程都是特別標準化的,而優(yōu)靈期望的是,把標準化的東西弄成一個(gè)既定的方案。
  目前沒(méi)有贏(yíng)利,很多用戶(hù)反饋說(shuō)須要一些比較深入的功能,所以近日準備迭代一些功能,未來(lái)贏(yíng)利方向上,會(huì )提供一些增值服務(wù)進(jìn)行贏(yíng)利。
  融資方面,龍國富表示,目前暫時(shí)沒(méi)有融資看法,達到一定用戶(hù)量以后再思考融資問(wèn)題。
  目前主要是以人工采集為主,通過(guò)微信群里用戶(hù)的推薦,在做嘗試的部份,預計到了今年十月份會(huì )發(fā)布一些新的版本,希望能成為一個(gè)垂直于UI領(lǐng)域的一個(gè)細分產(chǎn)品。龍國富最后說(shuō)道。
  產(chǎn)品:優(yōu)靈
  公司:深圳市少先隊科技有限公司
  本文來(lái)自獵云網(wǎng),如若轉載,請標明出處: 查看全部

  界面設計師、網(wǎng)頁(yè)設計師、視覺(jué)設計師、互動(dòng)設計師、UI設計師……這是隨手一搜互聯(lián)網(wǎng)急聘以后彈出的答案。雖然很大程度上這種職位的工作內容都是類(lèi)似的,其中“UI設計師”卻是我所見(jiàn)到的最火的一個(gè),究其原因,無(wú)異于是高薪。
  在設計師門(mén)檻這么低的情況下,如何能夠培養出一個(gè)好的UI設計師呢?
  獵云網(wǎng)(微信:ilieyun)近日接觸到的優(yōu)靈創(chuàng )始人龍國富,在提到這個(gè)問(wèn)題時(shí),他的想法是:“我認為這個(gè)行業(yè)比較‘亂’,UI設計師不僅學(xué)習專(zhuān)業(yè)的技能知識外,還須要把握大量的美學(xué)、心理學(xué)等內容,可以說(shuō)沒(méi)有一個(gè)好的積累是不能孵化出一個(gè)好的設計師的”。
  優(yōu)靈致力于為從事App產(chǎn)品與設計的用戶(hù),采集全球海量?jì)?yōu)秀APP設計界面,提供最新、最in的App界面設計時(shí)尚資訊。讓產(chǎn)品總監和UI設計師們足不出戶(hù),也可以使靈感隨手可得。通過(guò)靈感的碰撞,能夠使產(chǎn)品圈、設計圈誕生更多優(yōu)秀的設計。
  談到為何會(huì )開(kāi)辦優(yōu)靈,龍國富說(shuō):“其實(shí)我們團隊之前都是做創(chuàng )意類(lèi)的,在找App設計素材的過(guò)程中發(fā)覺(jué)有很多界面是十分雷同的,想找到比較優(yōu)質(zhì)的內容是比較難的,于是就創(chuàng )立了優(yōu)靈,方便自己采集市面上比較優(yōu)秀的App界面,其次是幫助一些剛入門(mén)做UI設計的小白們,設計某一些類(lèi)型的模塊時(shí)才能快速找到特別多的參照事例,提高效率”。
  “最好的產(chǎn)品一般會(huì )做好兩件事情:功能和細節。功能才能吸引用戶(hù)關(guān)注這個(gè)產(chǎn)品,而細節則才能使關(guān)注的用戶(hù)留下來(lái)?!盌an Saffer 的這句話(huà)揭示了許多成功產(chǎn)品的竅門(mén)。值得注意的是,功能和細節二者都很重要,但是功能居首,細節次之。
  不過(guò),讓用戶(hù)喜歡或則厭惡一個(gè)APP或則網(wǎng)站,往往緣起于細節。隨著(zhù)網(wǎng)站交互設計和動(dòng)效的大規模普及,我們如今所見(jiàn)到的許多細節設計,都可以歸類(lèi)于微交互。雖然在整體性的設計當中,微交互雖然變得微不足道,但是整個(gè)產(chǎn)品體驗,與之息息相關(guān)。龍國富如是說(shuō)道。
  
  對于分類(lèi)方式,龍國富說(shuō):“其實(shí)我們的分類(lèi)方式還是比較不同的,首先是從App的類(lèi)型來(lái)分,拿金融類(lèi)舉例,不同類(lèi)型的產(chǎn)品在行內的名稱(chēng)也是不一樣的,就訂購頁(yè)面而言,有購物頁(yè)、商品詳情頁(yè)……從事不同行業(yè)的人所須要的產(chǎn)品內頁(yè)也就不一樣,優(yōu)靈對此也做了一些特定地規范。其次是不同頁(yè)面也有不同的屬性,通過(guò)這種屬性標簽做一個(gè)特定地檢索,比如說(shuō)時(shí)鐘、天氣、顏色……除此之外優(yōu)靈都會(huì )根據大眾搜索率比較高的產(chǎn)品來(lái)進(jìn)行標簽命名,及時(shí)作出判定,將這些標簽手動(dòng)配到相關(guān)聯(lián)的某一個(gè)App上”。
  他覺(jué)得,作為一個(gè)產(chǎn)品總監,經(jīng)驗之談是一年到五年的產(chǎn)品總監,他們一定會(huì )看大量的App,遇到不錯的App她們會(huì )截圖出來(lái),保存以后放在印象筆記上,導致的結果是,截了一大堆圖,需要用的時(shí)侯卻不知道放在那個(gè)文件了……所以?xún)?yōu)靈要做的就是垂直于UI設計領(lǐng)域,除了搜羅一些優(yōu)秀的App界面外,也能使用戶(hù)在此保存自己的一些采集文件,還能在此進(jìn)行‘以圖搜圖’的操作。
  龍國富半開(kāi)玩笑地說(shuō):“其實(shí)這真的是一個(gè)不能再初創(chuàng )的項目了,優(yōu)靈是我們團隊花一個(gè)星期做下來(lái)的產(chǎn)品,從2016年10月份上線(xiàn)到目前,已獲得了1萬(wàn)多用戶(hù)。市面上90%的APP都是特別標準化的界面,或者是功能流程都是特別標準化的,而優(yōu)靈期望的是,把標準化的東西弄成一個(gè)既定的方案。
  目前沒(méi)有贏(yíng)利,很多用戶(hù)反饋說(shuō)須要一些比較深入的功能,所以近日準備迭代一些功能,未來(lái)贏(yíng)利方向上,會(huì )提供一些增值服務(wù)進(jìn)行贏(yíng)利。
  融資方面,龍國富表示,目前暫時(shí)沒(méi)有融資看法,達到一定用戶(hù)量以后再思考融資問(wèn)題。
  目前主要是以人工采集為主,通過(guò)微信群里用戶(hù)的推薦,在做嘗試的部份,預計到了今年十月份會(huì )發(fā)布一些新的版本,希望能成為一個(gè)垂直于UI領(lǐng)域的一個(gè)細分產(chǎn)品。龍國富最后說(shuō)道。
  產(chǎn)品:優(yōu)靈
  公司:深圳市少先隊科技有限公司
  本文來(lái)自獵云網(wǎng),如若轉載,請標明出處:

如何優(yōu)化網(wǎng)站SEO排名

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 175 次瀏覽 ? 2020-08-08 16:16 ? 來(lái)自相關(guān)話(huà)題

  如何優(yōu)化網(wǎng)站SEO排名
  作為網(wǎng)站管理員,關(guān)于如何優(yōu)化網(wǎng)站排名,大多數人認為它不過(guò)是站點(diǎn)內和站點(diǎn)外. 一般來(lái)說(shuō),這是對的,因為公司網(wǎng)站的某些優(yōu)化方法基本相同. 我認為主要原因是當前的優(yōu)化方法太普遍了. 許多優(yōu)化方法的效果中等. 因此,許多優(yōu)化人員已轉行. 因此,針對此問(wèn)題,以下是我當前的網(wǎng)站優(yōu)化排名的一些摘要:
  
  其他一些黑帽優(yōu)化已被阻止,因此,除了站點(diǎn)中的基礎工作之外,我認為外鏈仍然是優(yōu)化工作的核心,因此外鏈也是該工作的一個(gè)非常重要的方面. 優(yōu)化人員,這也是我們應該做的事情. 我不會(huì )在這里描述方法. 您可以根據自己的情況進(jìn)行操作.
  與該站點(diǎn)相比,隨著(zhù)百度颶風(fēng)算法和晴風(fēng)算法的引入,不可避免的是網(wǎng)站內容的原創(chuàng )性仍然是非常重要的一部分,因此現在許多采集站點(diǎn)都產(chǎn)生了很大的負面影響. 對此,我們必須花一些時(shí)間來(lái)處理網(wǎng)站的內容. 不要從任何地方采集文章. 我們必須確保網(wǎng)站的準確性.
  此外,一旦網(wǎng)站確定了核心關(guān)鍵字,網(wǎng)站的布局應基于該詞. 相關(guān)性也是一個(gè)非常重要的部分. 在許多情況下,我們不僅在積累關(guān)鍵字的密度,而且實(shí)際上在積累更多的信息,大多數是在改善網(wǎng)頁(yè)和目標關(guān)鍵字的相關(guān)性. 查看全部

  如何優(yōu)化網(wǎng)站SEO排名
  作為網(wǎng)站管理員,關(guān)于如何優(yōu)化網(wǎng)站排名,大多數人認為它不過(guò)是站點(diǎn)內和站點(diǎn)外. 一般來(lái)說(shuō),這是對的,因為公司網(wǎng)站的某些優(yōu)化方法基本相同. 我認為主要原因是當前的優(yōu)化方法太普遍了. 許多優(yōu)化方法的效果中等. 因此,許多優(yōu)化人員已轉行. 因此,針對此問(wèn)題,以下是我當前的網(wǎng)站優(yōu)化排名的一些摘要:
  
  其他一些黑帽優(yōu)化已被阻止,因此,除了站點(diǎn)中的基礎工作之外,我認為外鏈仍然是優(yōu)化工作的核心,因此外鏈也是該工作的一個(gè)非常重要的方面. 優(yōu)化人員,這也是我們應該做的事情. 我不會(huì )在這里描述方法. 您可以根據自己的情況進(jìn)行操作.
  與該站點(diǎn)相比,隨著(zhù)百度颶風(fēng)算法和晴風(fēng)算法的引入,不可避免的是網(wǎng)站內容的原創(chuàng )性仍然是非常重要的一部分,因此現在許多采集站點(diǎn)都產(chǎn)生了很大的負面影響. 對此,我們必須花一些時(shí)間來(lái)處理網(wǎng)站的內容. 不要從任何地方采集文章. 我們必須確保網(wǎng)站的準確性.
  此外,一旦網(wǎng)站確定了核心關(guān)鍵字,網(wǎng)站的布局應基于該詞. 相關(guān)性也是一個(gè)非常重要的部分. 在許多情況下,我們不僅在積累關(guān)鍵字的密度,而且實(shí)際上在積累更多的信息,大多數是在改善網(wǎng)頁(yè)和目標關(guān)鍵字的相關(guān)性.

數據采集技術(shù)的優(yōu)缺點(diǎn)是什么?

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 1423 次瀏覽 ? 2020-08-08 15:14 ? 來(lái)自相關(guān)話(huà)題

  1. 通過(guò)每個(gè)軟件制造商的開(kāi)放數據接口實(shí)現不同軟件數據的互連和互通. 這是目前最常用的數據連接方法.
  2. 優(yōu)點(diǎn): 接口對接方法的數據可靠性和價(jià)值很高,一般不存在數據重復;可以通過(guò)界面實(shí)時(shí)傳輸數據,以滿(mǎn)足實(shí)時(shí)數據應用的需求.
  3. 缺點(diǎn): ①接口開(kāi)發(fā)成本高; ②需要與多家軟件廠(chǎng)商協(xié)調,工作量大,難以完成; ③可伸縮性不高,例如: 新業(yè)務(wù)需要從軟件系統開(kāi)發(fā)新業(yè)務(wù)模塊和大數據平臺之間的數據接口也需要相應修改和更改,甚至所有以前的數據接口代碼都必須翻轉,這是很多工作并且很耗時(shí).
  4. 目前,軟件機器人是一種相對先進(jìn)的軟件數據對接技術(shù),可以同時(shí)在網(wǎng)站上采集客戶(hù)端軟件數據和軟件數據.
  5. 最常見(jiàn)的一種是Bowei Xiaobang軟件機器人. 產(chǎn)品設計原則是“所見(jiàn)即所得”,即在沒(méi)有軟件制造商合作的情況下,將采集軟件接口上的數據,并將輸出結果構造為數據庫或excel表.
  6. 如果您只需要界面上的業(yè)務(wù)數據,或者當軟件制造商不配合/關(guān)閉并且數據庫分析困難時(shí),最好使用軟件機器人來(lái)采集數據,尤其是詳細信息頁(yè)面的數據采集功能更多特色.
  7. 技術(shù)特點(diǎn)如下: ①不需要原創(chuàng )軟件制造商; ②兼容性強,可以在Windows平臺上采集和聚合各種軟件系統數據; ③輸出結構化數據; ④安裝使用,實(shí)施周期短,簡(jiǎn)單高效⑤配置簡(jiǎn)單,無(wú)需編程,每個(gè)人都可以自己動(dòng)手做軟件機器人; ⑥價(jià)格低于手冊和界面.
  8. 缺點(diǎn): 軟件數據采集的實(shí)時(shí)性有一定的局限性.
  9. Web爬網(wǎng)程序是模擬客戶(hù)端的網(wǎng)絡(luò )請求并接收對該請求的響應的程序或腳本. 它是一種程序或腳本,可以根據某些規則自動(dòng)在萬(wàn)維網(wǎng)上捕獲信息.
  10. 爬蟲(chóng)數據采集的缺點(diǎn): ①輸出數據大多為非結構化數據; ②它只能采集網(wǎng)站數據,很容易受到網(wǎng)站反爬升機制的影響; ③用戶(hù)群體狹窄,需要專(zhuān)業(yè)的編程知識才能玩.
  11. 對于數據采集和集成,開(kāi)放數據庫是最直接的方法.
  12. 優(yōu)點(diǎn): 開(kāi)放的數據庫方法可以直接從目標數據庫中獲取所需的數據,具有較高的準確性和實(shí)時(shí)性. 這是最直接,最方便的方法.
  13. 缺點(diǎn): 開(kāi)放數據庫方法還需要協(xié)調各種軟件供應商的開(kāi)放數據庫. 這取決于另一方的意愿. 通常,出于安全考慮,它不會(huì )開(kāi)放;如果一個(gè)平臺同時(shí)連接到多個(gè)軟件供應商的數據庫,那將是實(shí)時(shí)的. 獲取數據也是對平臺性能的巨大挑戰. 查看全部

  1. 通過(guò)每個(gè)軟件制造商的開(kāi)放數據接口實(shí)現不同軟件數據的互連和互通. 這是目前最常用的數據連接方法.
  2. 優(yōu)點(diǎn): 接口對接方法的數據可靠性和價(jià)值很高,一般不存在數據重復;可以通過(guò)界面實(shí)時(shí)傳輸數據,以滿(mǎn)足實(shí)時(shí)數據應用的需求.
  3. 缺點(diǎn): ①接口開(kāi)發(fā)成本高; ②需要與多家軟件廠(chǎng)商協(xié)調,工作量大,難以完成; ③可伸縮性不高,例如: 新業(yè)務(wù)需要從軟件系統開(kāi)發(fā)新業(yè)務(wù)模塊和大數據平臺之間的數據接口也需要相應修改和更改,甚至所有以前的數據接口代碼都必須翻轉,這是很多工作并且很耗時(shí).
  4. 目前,軟件機器人是一種相對先進(jìn)的軟件數據對接技術(shù),可以同時(shí)在網(wǎng)站上采集客戶(hù)端軟件數據和軟件數據.
  5. 最常見(jiàn)的一種是Bowei Xiaobang軟件機器人. 產(chǎn)品設計原則是“所見(jiàn)即所得”,即在沒(méi)有軟件制造商合作的情況下,將采集軟件接口上的數據,并將輸出結果構造為數據庫或excel表.
  6. 如果您只需要界面上的業(yè)務(wù)數據,或者當軟件制造商不配合/關(guān)閉并且數據庫分析困難時(shí),最好使用軟件機器人來(lái)采集數據,尤其是詳細信息頁(yè)面的數據采集功能更多特色.
  7. 技術(shù)特點(diǎn)如下: ①不需要原創(chuàng )軟件制造商; ②兼容性強,可以在Windows平臺上采集和聚合各種軟件系統數據; ③輸出結構化數據; ④安裝使用,實(shí)施周期短,簡(jiǎn)單高效⑤配置簡(jiǎn)單,無(wú)需編程,每個(gè)人都可以自己動(dòng)手做軟件機器人; ⑥價(jià)格低于手冊和界面.
  8. 缺點(diǎn): 軟件數據采集的實(shí)時(shí)性有一定的局限性.
  9. Web爬網(wǎng)程序是模擬客戶(hù)端的網(wǎng)絡(luò )請求并接收對該請求的響應的程序或腳本. 它是一種程序或腳本,可以根據某些規則自動(dòng)在萬(wàn)維網(wǎng)上捕獲信息.
  10. 爬蟲(chóng)數據采集的缺點(diǎn): ①輸出數據大多為非結構化數據; ②它只能采集網(wǎng)站數據,很容易受到網(wǎng)站反爬升機制的影響; ③用戶(hù)群體狹窄,需要專(zhuān)業(yè)的編程知識才能玩.
  11. 對于數據采集和集成,開(kāi)放數據庫是最直接的方法.
  12. 優(yōu)點(diǎn): 開(kāi)放的數據庫方法可以直接從目標數據庫中獲取所需的數據,具有較高的準確性和實(shí)時(shí)性. 這是最直接,最方便的方法.
  13. 缺點(diǎn): 開(kāi)放數據庫方法還需要協(xié)調各種軟件供應商的開(kāi)放數據庫. 這取決于另一方的意愿. 通常,出于安全考慮,它不會(huì )開(kāi)放;如果一個(gè)平臺同時(shí)連接到多個(gè)軟件供應商的數據庫,那將是實(shí)時(shí)的. 獲取數據也是對平臺性能的巨大挑戰.

4. 騰訊指南針模型和指標描述

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 206 次瀏覽 ? 2020-08-07 23:57 ? 來(lái)自相關(guān)話(huà)題

 ?。?)在管理中心的主頁(yè)上,可以看到所有應用程序的分析和分析的摘要顯示. 如下圖所示:
  
 ?。?)選擇一個(gè)應用程序后,您將看到“業(yè)務(wù)數據”選項卡,單擊以進(jìn)入該應用程序的特定數據顯示頁(yè)面. 如下圖所示:
  
  3. 如何使用騰訊羅盤(pán)提供的數據服務(wù)3.1了解騰訊羅盤(pán)的數據處理原理
  為了幫助您更好地使用指南針,有必要了解指南針處理數據的原理.
  羅盤(pán)提供了兩種數據服務(wù)解決方案: 平臺分析模型和高級分析模型.
  下圖顯示了指南針系統處理兩個(gè)分析模型的過(guò)程.
  
  對于這兩種數據服務(wù)解決方案,指南針具有不同的數據采集渠道:
  平臺分析模型: 騰訊羅盤(pán)的后端系統通過(guò)openapi自動(dòng)采集數據并顯示業(yè)務(wù)數據的基本視圖.
  高級分析模型: 開(kāi)發(fā)人員需要調用數據報告API來(lái)報告數據. 騰訊羅盤(pán)的數據倉庫計算用戶(hù)數據并顯示各種維度的業(yè)務(wù)數據視圖. 另外,指南針會(huì )根據不同的數據采集渠道顯示出一些數據差異.
  3.2選擇合適的數據服務(wù)計劃
  1. 請參考平臺分析模型和高級分析模型提供的數據服務(wù)的詳細信息.
  2. 下表比較了平臺分析模型和高級分析模型的優(yōu)缺點(diǎn):
  平臺分析模型高級分析模型
  您需要這樣做
  數據來(lái)自騰訊指南針采集的應用程序進(jìn)行的OpenAPI調用的后臺記錄. 您無(wú)需執行任何操作即可使用它.
  您需要調用數據報告API,以將應用程序數據報告給騰訊指南針的API服務(wù)器,并通過(guò)騰訊強大的云計算平臺計算各種應用程序數據.
  優(yōu)勢
  無(wú)需部署任何代碼,直接查看數據.
  用戶(hù)可以查看大量數據. 依靠騰訊云平臺,騰訊羅盤(pán)將繼續根據這些數據豐富財務(wù)數據.
  缺點(diǎn)
  查看的數據類(lèi)型較少,更新的數據較少.
  需要調用數據報告API,這需要進(jìn)行大量工作.
  使用場(chǎng)景
  無(wú)需復雜數據分析要求的工具和日常生活等應用.
  對于游戲應用程序,建議使用數據報告API通道來(lái)報告數據以提供更豐富的數據.
  3.3向騰訊羅盤(pán)報告數據
  有關(guān)更多信息,請參閱騰訊指南針數據報告說(shuō)明.
  4. 騰訊指南針模型和指標描述
  有關(guān)更多信息,請參閱騰訊指南針模型和指標說(shuō)明.
  5. 常見(jiàn)問(wèn)題解答
  有關(guān)更多信息,請參閱騰訊指南針常見(jiàn)問(wèn)題解答.
  以上信息是否解決了您的問(wèn)題?
  為了使我們更有效地優(yōu)化數據庫并有針對性地改善我們的服務(wù),我們需要您進(jìn)一步的反饋信息:
  提交成功!
  非常感謝您的反饋,我們將繼續努力,以求更好!
  提交成功!
  感謝您的批評和建議,我們將針對性地進(jìn)行優(yōu)化,為您提供更好的服務(wù).
  開(kāi)放平臺與您一同成長(cháng)!
  從“%E8%85%BE%E8%AE%AF%E7%BD%97%E7%9B%98%E7%AE%80%E4%BB%8B”中檢索 查看全部

 ?。?)在管理中心的主頁(yè)上,可以看到所有應用程序的分析和分析的摘要顯示. 如下圖所示:
  
 ?。?)選擇一個(gè)應用程序后,您將看到“業(yè)務(wù)數據”選項卡,單擊以進(jìn)入該應用程序的特定數據顯示頁(yè)面. 如下圖所示:
  
  3. 如何使用騰訊羅盤(pán)提供的數據服務(wù)3.1了解騰訊羅盤(pán)的數據處理原理
  為了幫助您更好地使用指南針,有必要了解指南針處理數據的原理.
  羅盤(pán)提供了兩種數據服務(wù)解決方案: 平臺分析模型和高級分析模型.
  下圖顯示了指南針系統處理兩個(gè)分析模型的過(guò)程.
  
  對于這兩種數據服務(wù)解決方案,指南針具有不同的數據采集渠道:
  平臺分析模型: 騰訊羅盤(pán)的后端系統通過(guò)openapi自動(dòng)采集數據并顯示業(yè)務(wù)數據的基本視圖.
  高級分析模型: 開(kāi)發(fā)人員需要調用數據報告API來(lái)報告數據. 騰訊羅盤(pán)的數據倉庫計算用戶(hù)數據并顯示各種維度的業(yè)務(wù)數據視圖. 另外,指南針會(huì )根據不同的數據采集渠道顯示出一些數據差異.
  3.2選擇合適的數據服務(wù)計劃
  1. 請參考平臺分析模型和高級分析模型提供的數據服務(wù)的詳細信息.
  2. 下表比較了平臺分析模型和高級分析模型的優(yōu)缺點(diǎn):
  平臺分析模型高級分析模型
  您需要這樣做
  數據來(lái)自騰訊指南針采集的應用程序進(jìn)行的OpenAPI調用的后臺記錄. 您無(wú)需執行任何操作即可使用它.
  您需要調用數據報告API,以將應用程序數據報告給騰訊指南針的API服務(wù)器,并通過(guò)騰訊強大的云計算平臺計算各種應用程序數據.
  優(yōu)勢
  無(wú)需部署任何代碼,直接查看數據.
  用戶(hù)可以查看大量數據. 依靠騰訊云平臺,騰訊羅盤(pán)將繼續根據這些數據豐富財務(wù)數據.
  缺點(diǎn)
  查看的數據類(lèi)型較少,更新的數據較少.
  需要調用數據報告API,這需要進(jìn)行大量工作.
  使用場(chǎng)景
  無(wú)需復雜數據分析要求的工具和日常生活等應用.
  對于游戲應用程序,建議使用數據報告API通道來(lái)報告數據以提供更豐富的數據.
  3.3向騰訊羅盤(pán)報告數據
  有關(guān)更多信息,請參閱騰訊指南針數據報告說(shuō)明.
  4. 騰訊指南針模型和指標描述
  有關(guān)更多信息,請參閱騰訊指南針模型和指標說(shuō)明.
  5. 常見(jiàn)問(wèn)題解答
  有關(guān)更多信息,請參閱騰訊指南針常見(jiàn)問(wèn)題解答.
  以上信息是否解決了您的問(wèn)題?
  為了使我們更有效地優(yōu)化數據庫并有針對性地改善我們的服務(wù),我們需要您進(jìn)一步的反饋信息:
  提交成功!
  非常感謝您的反饋,我們將繼續努力,以求更好!
  提交成功!
  感謝您的批評和建議,我們將針對性地進(jìn)行優(yōu)化,為您提供更好的服務(wù).
  開(kāi)放平臺與您一同成長(cháng)!
  從“%E8%85%BE%E8%AE%AF%E7%BD%97%E7%9B%98%E7%AE%80%E4%BB%8B”中檢索

自動(dòng)優(yōu)化平臺采集文章

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 306 次瀏覽 ? 2020-08-07 18:58 ? 來(lái)自相關(guān)話(huà)題

  
  1. 當網(wǎng)站權重較低時(shí),網(wǎng)站權重較低,百度的包容性容易波動(dòng),并且在重大更新過(guò)程中包容性可能會(huì )急劇增加或減少,因此我們必須考慮如何增加網(wǎng)站的權重.
  2. 內容不是很相關(guān);如果您的網(wǎng)站標題是關(guān)于美容的信息,但其中收錄許多在線(xiàn)促銷(xiāo)信息或最新的政治新聞,則該內容在發(fā)布時(shí)將包括在內,但是一段時(shí)間后,搜索引擎還會(huì )發(fā)現您的網(wǎng)站正在銷(xiāo)售狗肉,這些不相關(guān)的內容將被刪除,甚至會(huì )有更低的權利. 用戶(hù)體驗不好.
  3. 獨特的同義詞替換詞典可以生成原創(chuàng )文章,而無(wú)需更改文章的語(yǔ)義.
  4. 網(wǎng)站內容經(jīng)常更新
  5. 網(wǎng)站內容的質(zhì)量太差. 百度蜘蛛抓取頁(yè)面時(shí),是否會(huì )進(jìn)行進(jìn)一步分析,部分原因還取決于內容的質(zhì)量. 例如,在一個(gè)采集網(wǎng)站上,所有內容都是在Internet上采集的. 這樣的網(wǎng)站通常會(huì )具有異常的收錄性,因為對于百度蜘蛛來(lái)說(shuō),大量重復的內容根本毫無(wú)價(jià)值,而且爬網(wǎng)也浪費資源.
  6. 物品質(zhì)量差;文章的質(zhì)量也是決定收錄速度的重要因素. 如果文章質(zhì)量不好,即使網(wǎng)站的重量很大,也可能不收錄該文章. 一些網(wǎng)站依靠較高的網(wǎng)站重量在各處復制和采集文章. 即使使用偽原創(chuàng )軟件創(chuàng )建垃圾郵件文章,如果這種情況繼續發(fā)生,越來(lái)越多的垃圾郵件文章也會(huì )降低網(wǎng)站的重量.
  7. 人們通常會(huì )說(shuō)文章的原創(chuàng )性可能是文章的采集很麻煩,甚至沒(méi)有收錄. 因為百度蜘蛛痣喜歡原創(chuàng )內容,并且此原創(chuàng )內容需要被查看并且對用戶(hù)有幫助,所以它將具有很好的采集價(jià)值. 如果不是,那么它實(shí)際上不是偽原創(chuàng )的,不需要的. 花了很多時(shí)間.
  8. 將網(wǎng)站提交到搜索引擎網(wǎng)站管理員平臺. 目前,主流搜索引擎都具有網(wǎng)站管理員平臺. 因此,對于新網(wǎng)站,您仍應積極將URL提交給搜索引擎,并做好積極推送網(wǎng)站的工作. 這可以吸引搜索引擎蜘蛛來(lái)爬網(wǎng)站點(diǎn)并提高包容性. 至于如何提交,您可以參考搜索引擎網(wǎng)站管理員平臺的正式文件,這基本上并不困難.
  ————————————————————————————————
  問(wèn): 黑帽seo是什么意思?
  A: 黑帽SEO旨在利用和擴大搜索引擎的戰略缺陷(實(shí)際上,不存在完善的系統)來(lái)獲得更多的用戶(hù)訪(fǎng)問(wèn),而這些更多的訪(fǎng)問(wèn)是以犧牲用戶(hù)體驗為代價(jià)的. SEO行為.
  問(wèn): 頁(yè)面標題和描述適合多少個(gè)單詞?
  回答: 網(wǎng)站標題搜索引擎只能在搜索結果中顯示63個(gè)字節,以下內容被省略. 通常,建議網(wǎng)頁(yè)標題不超過(guò)32個(gè)漢字,描述說(shuō)明不超過(guò)72個(gè)漢字.
  問(wèn): 要購買(mǎi)多少合適的網(wǎng)站服務(wù)器空間?
  答案: 根據網(wǎng)站的規模和要提供的服務(wù)確定要購買(mǎi)的空間(服務(wù)器),選擇功能強大的常規空間提供商,并根據用戶(hù)組的分布選擇訪(fǎng)問(wèn)提供商以確保用戶(hù)訪(fǎng)問(wèn)速度和穩定性. 查看全部

  
  1. 當網(wǎng)站權重較低時(shí),網(wǎng)站權重較低,百度的包容性容易波動(dòng),并且在重大更新過(guò)程中包容性可能會(huì )急劇增加或減少,因此我們必須考慮如何增加網(wǎng)站的權重.
  2. 內容不是很相關(guān);如果您的網(wǎng)站標題是關(guān)于美容的信息,但其中收錄許多在線(xiàn)促銷(xiāo)信息或最新的政治新聞,則該內容在發(fā)布時(shí)將包括在內,但是一段時(shí)間后,搜索引擎還會(huì )發(fā)現您的網(wǎng)站正在銷(xiāo)售狗肉,這些不相關(guān)的內容將被刪除,甚至會(huì )有更低的權利. 用戶(hù)體驗不好.
  3. 獨特的同義詞替換詞典可以生成原創(chuàng )文章,而無(wú)需更改文章的語(yǔ)義.
  4. 網(wǎng)站內容經(jīng)常更新
  5. 網(wǎng)站內容的質(zhì)量太差. 百度蜘蛛抓取頁(yè)面時(shí),是否會(huì )進(jìn)行進(jìn)一步分析,部分原因還取決于內容的質(zhì)量. 例如,在一個(gè)采集網(wǎng)站上,所有內容都是在Internet上采集的. 這樣的網(wǎng)站通常會(huì )具有異常的收錄性,因為對于百度蜘蛛來(lái)說(shuō),大量重復的內容根本毫無(wú)價(jià)值,而且爬網(wǎng)也浪費資源.
  6. 物品質(zhì)量差;文章的質(zhì)量也是決定收錄速度的重要因素. 如果文章質(zhì)量不好,即使網(wǎng)站的重量很大,也可能不收錄該文章. 一些網(wǎng)站依靠較高的網(wǎng)站重量在各處復制和采集文章. 即使使用偽原創(chuàng )軟件創(chuàng )建垃圾郵件文章,如果這種情況繼續發(fā)生,越來(lái)越多的垃圾郵件文章也會(huì )降低網(wǎng)站的重量.
  7. 人們通常會(huì )說(shuō)文章的原創(chuàng )性可能是文章的采集很麻煩,甚至沒(méi)有收錄. 因為百度蜘蛛痣喜歡原創(chuàng )內容,并且此原創(chuàng )內容需要被查看并且對用戶(hù)有幫助,所以它將具有很好的采集價(jià)值. 如果不是,那么它實(shí)際上不是偽原創(chuàng )的,不需要的. 花了很多時(shí)間.
  8. 將網(wǎng)站提交到搜索引擎網(wǎng)站管理員平臺. 目前,主流搜索引擎都具有網(wǎng)站管理員平臺. 因此,對于新網(wǎng)站,您仍應積極將URL提交給搜索引擎,并做好積極推送網(wǎng)站的工作. 這可以吸引搜索引擎蜘蛛來(lái)爬網(wǎng)站點(diǎn)并提高包容性. 至于如何提交,您可以參考搜索引擎網(wǎng)站管理員平臺的正式文件,這基本上并不困難.
  ————————————————————————————————
  問(wèn): 黑帽seo是什么意思?
  A: 黑帽SEO旨在利用和擴大搜索引擎的戰略缺陷(實(shí)際上,不存在完善的系統)來(lái)獲得更多的用戶(hù)訪(fǎng)問(wèn),而這些更多的訪(fǎng)問(wèn)是以犧牲用戶(hù)體驗為代價(jià)的. SEO行為.
  問(wèn): 頁(yè)面標題和描述適合多少個(gè)單詞?
  回答: 網(wǎng)站標題搜索引擎只能在搜索結果中顯示63個(gè)字節,以下內容被省略. 通常,建議網(wǎng)頁(yè)標題不超過(guò)32個(gè)漢字,描述說(shuō)明不超過(guò)72個(gè)漢字.
  問(wèn): 要購買(mǎi)多少合適的網(wǎng)站服務(wù)器空間?
  答案: 根據網(wǎng)站的規模和要提供的服務(wù)確定要購買(mǎi)的空間(服務(wù)器),選擇功能強大的常規空間提供商,并根據用戶(hù)組的分布選擇訪(fǎng)問(wèn)提供商以確保用戶(hù)訪(fǎng)問(wèn)速度和穩定性.

官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

亚洲国产精品无码久久大片,亚洲AV无码乱码麻豆精品国产,亚洲品质自拍网站,少妇伦子伦精品无码STYLES,国产精久久久久久久