分析當前三種數據采集方法的優(yōu)缺點(diǎn)
優(yōu)采云 發(fā)布時(shí)間: 2020-08-07 09:27隨著(zhù)信息時(shí)代的到來(lái),大數據受到越來(lái)越多的關(guān)注,數據采集的挑戰變得尤為突出.
許多大型企業(yè)和政府機構在信息化過(guò)程中結合自己的業(yè)務(wù)構建了各種軟件系統,這些軟件系統積累了大量的行業(yè)和*敏*感*詞*. 他們迫切需要聚合這些數據以形成自己的大型數據平臺,進(jìn)行數據挖掘和分析,并準確地為其客戶(hù)提供服務(wù).
當前數據采集面臨的挑戰如下
1. 各種數據源
2. 數據量大,更新快
3. 如何確保數據采集的可靠性和性能?
4. 如何避免重復數據
5. 如何確保數據質(zhì)量.
今天,我將討論用于各種軟件系統的幾種數據采集方法. 著(zhù)眼于它們的實(shí)現過(guò)程以及它們各自的優(yōu)缺點(diǎn).
3. 軟件界面對接方法
實(shí)現過(guò)程如下:
1)協(xié)調來(lái)自多個(gè)軟件供應商的工程師
2)確定計劃和代碼
3)編碼后,進(jìn)入測試和調試階段
4)交付和使用
接口對接方法的數據可靠性高;同時(shí),數據通過(guò)接口實(shí)時(shí)傳輸,完全滿(mǎn)足大數據平臺的實(shí)時(shí)需求.
接口對接方法需要大量的人力和時(shí)間來(lái)協(xié)調各種軟件供應商進(jìn)行數據接口對接;同時(shí),它的可擴展性不高. 例如,由于業(yè)務(wù)需求,各種軟件系統開(kāi)發(fā)了新的業(yè)務(wù)模塊,這些模塊與大數據平臺兼容. 需要對兩者之間的數據接口進(jìn)行相應的修改和更改,甚至要顛覆所有以前的數據接口代碼,這是很費時(shí)費力的.
2. 打開(kāi)數據庫方法
通常來(lái)說(shuō),來(lái)自不同公司的系統不太可能打開(kāi)自己的數據庫來(lái)相互連接,因為這會(huì )引起安全問(wèn)題. 為了實(shí)現數據采集和匯總,開(kāi)放數據庫是最直接的方法.
兩個(gè)系統都有自己的數據庫,對于相同類(lèi)型的數據庫,它更方便:
1)如果兩個(gè)數據庫位于同一服務(wù)器上,則只要用戶(hù)名設置沒(méi)有問(wèn)題,它們就可以直接相互訪(fǎng)問(wèn). 您需要在from之后輸入數據庫名稱(chēng)和表模式所有者.
select * fromDATABASE1.dbo.table1
2)如果兩個(gè)系統的數據庫不在同一服務(wù)器上,建議使用鏈接服務(wù)器進(jìn)行處理,或者使用openset和opendatasource. 這需要*敏*感*詞*服務(wù)器配置才能訪(fǎng)問(wèn)數據庫.
不同類(lèi)型的數據庫之間的連接比較麻煩,需要大量設置才能生效. 我不會(huì )在這里詳細說(shuō)明.
開(kāi)放數據庫方法可以直接,準確地從目標數據庫獲取所需數據,這是最直接,最方便的方法;實(shí)時(shí)性能也得到保證;
開(kāi)放數據庫方法要求協(xié)調各種軟件供應商的開(kāi)放數據庫,這非常困難;如果平臺必須同時(shí)連接到許多軟件供應商的數據庫并實(shí)時(shí)獲取數據,那么這對于平臺本身的性能也是一個(gè)巨大的挑戰.
?。ㄒc(diǎn))
1. 直接采集基礎數據
通過(guò)獲取軟件系統的基礎數據交換,軟件客戶(hù)端和數據庫之間的網(wǎng)絡(luò )流量數據包,執行數據包流分析以采集應用程序數據. 同時(shí),可以使用仿真技術(shù)來(lái)仿真客戶(hù)請求以實(shí)現自動(dòng)數據寫(xiě)入.
實(shí)現過(guò)程如下: 使用數據采集引擎偵聽(tīng)目標軟件的內部數據交換(網(wǎng)絡(luò )流量,內存),然后分析所需的數據,并經(jīng)過(guò)一系列處理和封裝以實(shí)現確保數據的唯一性和準確性,并輸出結構化數據. 經(jīng)過(guò)相應的配置,實(shí)現了數據采集的自動(dòng)化.
基于基礎數據交換的直接數據采集方法的技術(shù)特點(diǎn)如下:
1)在沒(méi)有軟件制造商合作的情況下進(jìn)行獨立爬網(wǎng);
2)實(shí)時(shí)數據采集;
3)幾乎所有與Windows平臺兼容的軟件(C / S,B / S);作為數據挖掘和大數據分析的基礎;
4)自動(dòng)建立數據之間的關(guān)聯(lián);
5)配置簡(jiǎn)單,實(shí)施周期短;
6)支持歷史數據的自動(dòng)導入.
目前,由于缺乏數據采集和融合技術(shù),通常通過(guò)原創(chuàng )軟件制造商開(kāi)發(fā)數據接口來(lái)實(shí)*敏*感*詞*錢(qián),而且還因為系統開(kāi)發(fā)團隊的解體,源代碼丟失等原因. 死胡同的原因使實(shí)現數據采集和融合變得極為困難.
在這種緊急需求的環(huán)境中,基于底層數據交換的直接數據采集方法應運而生,從各種軟件系統中挖掘數據,連續獲取所需的準確實(shí)時(shí)數據,并自動(dòng)建立數據關(guān)聯(lián),以極高的利用率輸出結構化數據,使數據有序,安全,可控地流向所需的企業(yè)和用戶(hù),使不同系統的數據源實(shí)現聯(lián)動(dòng)流通,為客戶(hù)提供決策支持,提高運營(yíng)效率并產(chǎn)生經(jīng)濟價(jià)值.
—上方—






