網(wǎng)絡(luò )爬蟲(chóng)技術(shù)在大數據審計中的應用
優(yōu)采云 發(fā)布時(shí)間: 2020-05-10 08:03?。厶嵋菰诖髷祿徲嬅媾R著(zhù)眾多機遇和挑戰的大背景下,有效清晰的數據在審計過(guò)程中發(fā)揮著(zhù)重大作用大數據網(wǎng)絡(luò )爬蟲(chóng)原理,本文剖析不同的審計數據的特性以及采集審計數據的方式。在傳統數據采集方法基礎上研究怎樣基于Python借助網(wǎng)路爬蟲(chóng)采集審計數據,以為大數據審計技術(shù)的發(fā)展提供支持。
關(guān)鍵詞:網(wǎng)絡(luò )爬蟲(chóng);數據采集;審計剖析;Python
本文為2017年安徽財貿職業(yè)學(xué)院“內涵提高全員行動(dòng)計劃”科學(xué)研究項目(人文社科):“大數據在審計剖析程序中的運用研究”(項目編號:2017nhrwc15)
中圖分類(lèi)號:F239 文獻標識碼:A
收錄日期:2019年1月18日
一、引言
無(wú)論是國家審計還是民間審計,在*敏*感*詞*(2017)將大數據審計平臺拆分為采集、預處理、分析和可視化四個(gè)子平臺,基于方式支撐、過(guò)程建模和運行機理等方面對各個(gè)子平臺作以專(zhuān)項研究,旨在為大數據審計實(shí)踐提供建設性思路。秦榮生(2014)指出大數據、云計算技術(shù)的形成和發(fā)展,正在逐步影響審計技術(shù)和技巧的發(fā)展。
大數據具有數據體量巨大、處理速率快、數量種類(lèi)多和商業(yè)價(jià)值高的特性。被審計對象的信息化使得審計人員在審計方式上愈發(fā)的信息化,如果將這種大量的、散落的、無(wú)序的數據進(jìn)行集中化、結構化,將其弄成才能便捷獲得可讀取的審計數據,并通過(guò)審計剖析程序發(fā)覺(jué)愈發(fā)有效和清晰的審計線(xiàn)索,那么大數據將會(huì )發(fā)揮重大的商業(yè)價(jià)值。由此可見(jiàn),數據是審計剖析的重要前提,獲取高質(zhì)量數據常常就能幫助審計人員快速發(fā)覺(jué)風(fēng)險點(diǎn)進(jìn)行應對,大大提升審計的效率和療效。目前,尚未有成熟的審計大數據搜集與整理技術(shù),這影響了大數據在審計中使用的效率。本文將基于目前大數據的研究現況,主要闡述審計人員應該怎樣借助網(wǎng)路爬蟲(chóng)技術(shù)從網(wǎng)路渠道獲取所需審計數據,從而擴展審計數據的范圍,獲得更多的審計線(xiàn)索,提高審計剖析療效。
二、審計大數據采集分析
?。ㄒ唬徲嫶髷祿?lèi)型。大數據審計區別于傳統的審計模式,傳統審計模式傾向于根據被審計單位提供的相關(guān)資料去鑒證其是否真實(shí)可靠。而大數據審計是一種實(shí)時(shí)審計,強調審計人員應該主動(dòng)地去獲取企業(yè)內部和企業(yè)外部的數據,企業(yè)內部的業(yè)務(wù)數據主要借助被審計單位提供,而外部數據,比如法律、銀行、稅務(wù)、供應商、客戶(hù)、物流等其他數據須要審計人員去挖掘和剖析。從目前來(lái)看,審計大數據可以分為兩類(lèi):一類(lèi)是結構化數據,它由明晰定義的數據類(lèi)型組成,比如數字、貨幣、日期等,其模式可以讓其便于搜索。這種數據通常存儲在數據庫里,比如企業(yè)ERP系統中的銷(xiāo)售數據、生產(chǎn)數據、財務(wù)數據等;另一類(lèi)是非結構化數據,是指這些不便捷用數據庫二維邏輯來(lái)表現的數據,如辦公文檔、文本、圖片、HTML圖象等,審計人員須要的外部數據以非結構化數據類(lèi)型居多。
?。ǘ徲嫶髷祿杉椒?/p>
1、直接拷貝讀取。審計人員首先判定出自己須要的審計數據,然后按照被審計單位使用的財務(wù)軟件(如用友、用友)的使用特性,利用軟件數據庫早已預設好的指令去提取轉換審計人員所須要的數據,并將其保存為Excel等格式。
2、開(kāi)放數據互聯(lián)(ODBC)。如果被審計單位與審計人員使用的是可以對接的數據庫,可以通過(guò)相關(guān)的數據訪(fǎng)問(wèn)插口訪(fǎng)問(wèn)被審計單位所使用的業(yè)務(wù)系統數據庫,并將數據進(jìn)行還原后轉出,成為審計人員可以直接借助的數據。
3、中間文件采集。指審計人員與被審計單位約定好數據的格式,被審計單位根據要求將自己的相關(guān)數據轉換成約定的格式,比如說(shuō)文本文件格式,這種大部分數據庫都還能直接讀取的格式,從而省去了兩種不同數據庫對接的問(wèn)題。
4、網(wǎng)上采集。除了被審計單位或則上級審計機關(guān)提供的相關(guān)數據以外,審計人員依然須要從被審計單位外部獲得相關(guān)的工商、稅務(wù)、行業(yè)、媒體等公開(kāi)數據以進(jìn)行多方面的審計剖析,這些數據并不是被直接提供的結構化數據,需要審計人員采用一定的方式從網(wǎng)上進(jìn)行采集。
目前,審計數據采集大部分采用的是上述的前三種方式,往往依托一定的數據庫基礎,能夠獲得的信息大多基于被審計單位,最后一種網(wǎng)上采集數據的方式因為沒(méi)有統一的方式和技術(shù),耗費大量時(shí)間和經(jīng)歷,往往未能實(shí)現,這大大限制了審計人員進(jìn)行審計剖析的范圍,同時(shí)也讓審計的取證率無(wú)法達到預期,從某種程度上提升了審計風(fēng)險。在大數據審計背景下,審計人員執行剖析程序不能僅僅將眼光局限于內部數據,更應該從網(wǎng)路公開(kāi)數據中獲取愈發(fā)全面的信息,但是這種信息大多以網(wǎng)頁(yè)等格式存在,難以被審計人員直接用于剖析,所以本文提出可以借助網(wǎng)路爬蟲(chóng)技術(shù)抓取網(wǎng)頁(yè)上的信息,并整理成一定的格式,方便審計人員從海量數據中發(fā)覺(jué)審計線(xiàn)索,使審計剖析程序發(fā)揮更大的效用。
三、網(wǎng)絡(luò )爬蟲(chóng)在審計大數據采集中的應用
網(wǎng)絡(luò )爬蟲(chóng)技術(shù)又被稱(chēng)為網(wǎng)路蜘蛛,是一種根據被設定的規則手動(dòng)獲取網(wǎng)頁(yè)內容的程序腳本。目前,網(wǎng)絡(luò )爬蟲(chóng)技術(shù)被越來(lái)越多的運用于互聯(lián)網(wǎng)中,它還能依據不同的程序代碼設定指令,自動(dòng)獲取網(wǎng)頁(yè)內任何權限的信息數據。程序開(kāi)始后,按照設定程序,網(wǎng)絡(luò )爬蟲(chóng)會(huì )不斷地從URL抓取用戶(hù)須要的內容,直到滿(mǎn)足停止條件,并對抓取到的數據進(jìn)行分類(lèi)整合處理大數據網(wǎng)絡(luò )爬蟲(chóng)原理,用戶(hù)可以按照自己的查詢(xún)需求,從中篩選自己所須要的數據。通過(guò)網(wǎng)路爬蟲(chóng)還能為大數據剖析提供更高質(zhì)量的數據源。
利用網(wǎng)路爬蟲(chóng)技術(shù)施行審計剖析程序的過(guò)程主要有以下幾步:首先,鎖定目標。根據審計目標確定想要獲取的目標數據,明確這種數據主要分布的網(wǎng)頁(yè)是哪些;其次,目標網(wǎng)頁(yè)剖析。為了更高效率的抓取到相關(guān)數據,要對目標網(wǎng)頁(yè)進(jìn)行結構上的剖析,主要是其數據訪(fǎng)問(wèn)的路徑和邏輯;再次,數據抓取。通過(guò)選擇好的軟件執行命令,獲得數據結果進(jìn)行保存;最后,數據剖析。將通過(guò)上述程序獲得的數據進(jìn)行清洗,獲得目標數據,可以結合例如SQL查詢(xún)、Excel剖析、數據可視化等技術(shù)對數據進(jìn)行進(jìn)一步的剖析、擴展和確認。
利用網(wǎng)路爬蟲(chóng)技術(shù)施行審計剖析程序的原理主要是能否從被審計單位*敏*感*詞*,發(fā)現更多相關(guān)線(xiàn)索,同時(shí)也促使審計證據愈發(fā)充分可靠。
四、網(wǎng)絡(luò )爬蟲(chóng)在審計大數據采集中應用案例
XX集團*敏*感*詞*創(chuàng )建于1957年,*敏*感*詞*屬貿易、智能健康、教育與技術(shù)服務(wù)等產(chǎn)業(yè)格局的小型企業(yè)集團。截至2017年底,擁有全資及控股一級子公司34家。2017年,完成銷(xiāo)售收入933億元、利潤25億元,甲*敏*感*詞*事務(wù)所接受委托對該公司進(jìn)行2017年年度財務(wù)報表審計。審計人員在審計過(guò)程中發(fā)覺(jué)該公司下一子公司有大量進(jìn)行一次*敏*感*詞*易的顧客,并且這種顧客都采用了賒購的形式,所以審計人員對這種交易形成了懷疑,認為被審計單位的應收賬款“存在”認定有重大錯報風(fēng)險。為進(jìn)一步獲得審計證據,審計人員首先須要被審計單位提供數據庫內關(guān)于顧客的信息并進(jìn)行查驗以驗證這種顧客的真實(shí)性。此時(shí),被審計單位提供信息的可靠性較差,審計人員只能考慮從外部獲得審計數據進(jìn)行比較剖析,從而判定顧客信息的準確性。如果考慮直接從官方網(wǎng)站獲得具體工商數據,審計人員將面臨權限受限和工作量巨大等問(wèn)題。此時(shí),網(wǎng)絡(luò )爬蟲(chóng)技術(shù)才能為這一困局提供挺好的解決方案,提高工作效率。
在選擇網(wǎng)路爬蟲(chóng)技術(shù)時(shí),審計人員選擇了目前應用范圍相對較廣的Python。相對于其他網(wǎng)路爬蟲(chóng)技術(shù),基于Python的網(wǎng)路爬蟲(chóng)技術(shù)具有以下優(yōu)點(diǎn):一是簡(jiǎn)約便捷。Python語(yǔ)言最大的特征就是只須要一個(gè)簡(jiǎn)單的編輯器才能滿(mǎn)足大部分用戶(hù)的網(wǎng)路爬蟲(chóng)技術(shù)需求,可以使操作人員很快的適應環(huán)境,而不用耗費過(guò)多的精力;二是具有框架技術(shù)。如果所須要抓取的數據量較大,則可以使用Python的Scrapy框架實(shí)現,它能提供一個(gè)功能強悍的模板來(lái)實(shí)現爬蟲(chóng),僅僅須要根據需求進(jìn)行簡(jiǎn)單的更改就可以使用,而不是去進(jìn)行重新的開(kāi)發(fā)。
審計人員通過(guò)Python實(shí)現了網(wǎng)路爬蟲(chóng),從“天眼查”網(wǎng)站上獲取相關(guān)企業(yè)的工商信息。其中部份代碼如圖1所示,獲得的部份結果如表1、圖2所示。最終審計人員通過(guò)網(wǎng)路爬蟲(chóng)技術(shù)迅速獲得了審計須要的相關(guān)數據,篩選出目標企業(yè),進(jìn)一步進(jìn)行了審計剖析,與被審計單位提供的有關(guān)信息進(jìn)行比對,得出了其中有18家企業(yè)信息涉嫌作假,實(shí)為虛構交易的推論,為預收賬款的進(jìn)一步審計提供了重要審計證據。(圖1、圖2、表1)
五、結語(yǔ)
隨著(zhù)大數據在審計中的運用廣泛,高效的數據采集辦法也是值得研究的重要內容。本文通過(guò)研究大數據的特性,以及對審計數據的采集辦法進(jìn)行剖析,提出了基于Python的數據爬蟲(chóng)在審計數據采集中的運用,幫助審計人員快速高效地從網(wǎng)頁(yè)上獲得相關(guān)數據,為進(jìn)一步的審計剖析奠定了基礎,這也為大數據在審計中的應用技術(shù)研究提供了支持。
?。ㄗ髡邌挝唬喊不肇斮Q職業(yè)學(xué)院)
主要參考文獻:
?。?]秦榮生.大數據、云計算技術(shù)對審計的影響研究[J].審計研究,2014(6).
?。?]劉國城,王會(huì )金.大數據審計平臺建立研究[J].審計研究,2017(11).
?。?]韋瑋.精通Python網(wǎng)絡(luò )爬蟲(chóng)[M].北京機械工業(yè)出版社,2017.


