本文摘要:本篇文章是由《 對(duì)外經(jīng)貿(mào) 》發(fā)表的一篇電子經(jīng)濟(jì)論文,傳對(duì)外經(jīng)濟(jì)貿(mào)易方針政策,傳遞國(guó)內(nèi)外市場(chǎng)信息,提供世界經(jīng)濟(jì)貿(mào)易發(fā)展趨勢(shì)和貿(mào)易機(jī)會(huì),探討研究對(duì)外貿(mào)易理論和外貿(mào)體制改革、傳授對(duì)外經(jīng)濟(jì)貿(mào)易知識(shí),交流經(jīng)貿(mào)工作經(jīng)驗(yàn)。 [摘要] 本文針對(duì)計(jì)算機(jī)審計(jì)的現(xiàn)狀,提
本篇文章是由《對(duì)外經(jīng)貿(mào)》發(fā)表的一篇電子經(jīng)濟(jì)論文,傳對(duì)外經(jīng)濟(jì)貿(mào)易方針政策,傳遞國(guó)內(nèi)外市場(chǎng)信息,提供世界經(jīng)濟(jì)貿(mào)易發(fā)展趨勢(shì)和貿(mào)易機(jī)會(huì),探討研究對(duì)外貿(mào)易理論和外貿(mào)體制改革、傳授對(duì)外經(jīng)濟(jì)貿(mào)易知識(shí),交流經(jīng)貿(mào)工作經(jīng)驗(yàn)。
[摘要] 本文針對(duì)計(jì)算機(jī)審計(jì)的現(xiàn)狀,提出了基于數(shù)據(jù)挖掘的審計(jì)數(shù)據(jù)分析流程,以及應(yīng)用DBSCAN聚類(lèi)算法查找審計(jì)證據(jù)的方法。
[關(guān)鍵詞] 計(jì)算機(jī)審計(jì);數(shù)據(jù)挖掘;聚類(lèi)算法;噪聲數(shù)據(jù)
隨著經(jīng)濟(jì)和信息技術(shù)的不斷發(fā)展,許多企業(yè)開(kāi)始引入了ERP等系統(tǒng),這些系統(tǒng)使得企業(yè)的眾多活動(dòng)數(shù)據(jù)可以實(shí)時(shí)記錄,形成了大量有關(guān)企業(yè)經(jīng)營(yíng)管理的數(shù)據(jù)倉(cāng)庫(kù)。從這些海量數(shù)據(jù)中獲取有用的審計(jì)數(shù)據(jù)是目前計(jì)算機(jī)審計(jì)的一個(gè)應(yīng)用。對(duì)于審計(jì)人員來(lái)說(shuō),如何從被審計(jì)單位的海量數(shù)據(jù)中找出全面、高質(zhì)量的審計(jì)數(shù)據(jù)從而找出審計(jì)證據(jù)是一個(gè)難題。本文利用數(shù)據(jù)挖掘技術(shù)對(duì)此問(wèn)題進(jìn)行了探討并提出了解決的方法。
數(shù)據(jù)挖掘(Data Mining)指的是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取出隱藏的、不為人知的卻潛在有用的信息和知識(shí)的過(guò)程[1]。事實(shí)上,實(shí)際應(yīng)用數(shù)據(jù)的質(zhì)量和存儲(chǔ)模式對(duì)于實(shí)施計(jì)算機(jī)審計(jì)并成功獲取審計(jì)證據(jù)非常重要。由于被審單位信息系統(tǒng)軟硬件平臺(tái)的異構(gòu)性和可能存在的人為故意隱瞞、造假等,為保證計(jì)算機(jī)審計(jì)工作順利進(jìn)行和審計(jì)結(jié)論的正確,對(duì)審計(jì)數(shù)據(jù)進(jìn)行采集時(shí)必須對(duì)數(shù)據(jù)進(jìn)行檢查、控制和分析。
1審計(jì)數(shù)據(jù)采集
審計(jì)數(shù)據(jù)采集指在開(kāi)展計(jì)算機(jī)審計(jì)時(shí)從被審計(jì)單位的財(cái)務(wù)及業(yè)務(wù)信息系統(tǒng)及其他數(shù)據(jù)源獲得審計(jì)所需的電子數(shù)據(jù)并進(jìn)行適當(dāng)?shù)母袷睫D(zhuǎn)換[3]。一般來(lái)說(shuō),計(jì)算機(jī)審計(jì)中數(shù)據(jù)采集的方法主要包括以下幾種:
(1)利用被審單位信息系統(tǒng)的數(shù)據(jù)導(dǎo)出功能。大多數(shù)的信息管理系統(tǒng)都提供了數(shù)據(jù)導(dǎo)出的功能,審計(jì)人員直接可以利用該功能導(dǎo)出企業(yè)財(cái)務(wù)數(shù)據(jù)完成數(shù)據(jù)的采集。
(2)利用通用的數(shù)據(jù)處理軟件完成數(shù)據(jù)采集。如Access、SQL Server等都具有較強(qiáng)大的數(shù)據(jù)導(dǎo)入導(dǎo)出功能和數(shù)據(jù)轉(zhuǎn)換功能。審計(jì)人員可以利用這些軟件完成數(shù)據(jù)的采集。如被審企業(yè)原始數(shù)據(jù)為文本格式可以轉(zhuǎn)換為數(shù)據(jù)庫(kù)表格格式。
(3)利用審計(jì)軟件完成數(shù)據(jù)采集。如國(guó)家從2002年開(kāi)始建設(shè)的“金審工程”就以現(xiàn)場(chǎng)審計(jì)實(shí)施系統(tǒng)(AO)及審計(jì)辦公系統(tǒng)(OA)作為計(jì)算機(jī)輔助審計(jì)的工具。別外應(yīng)用國(guó)內(nèi)的企業(yè)財(cái)務(wù)審計(jì)軟件、審計(jì)數(shù)據(jù)采集分析軟件等都可以完成審計(jì)數(shù)據(jù)的采集。
(4)利用專(zhuān)用程序接口完成數(shù)據(jù)采集。當(dāng)被審計(jì)單位提供的審計(jì)數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)與已有的審計(jì)數(shù)據(jù)處理軟件系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)差異較大時(shí),可以在審計(jì)人員的協(xié)助下由專(zhuān)門(mén)的程序員開(kāi)發(fā)接口程序,完成數(shù)據(jù)的采集,但成本相對(duì)較高。
2 數(shù)據(jù)清洗
利用數(shù)據(jù)挖掘?qū)徲?jì)數(shù)據(jù)進(jìn)行處理分類(lèi)時(shí),為了提高分類(lèi)的準(zhǔn)確性、高效性和可伸縮性,必須對(duì)數(shù)據(jù)庫(kù)進(jìn)行預(yù)處理,包括:數(shù)據(jù)的清洗、相關(guān)性分析、數(shù)據(jù)轉(zhuǎn)換等。
文獻(xiàn)[4]中給出數(shù)據(jù)清洗的定義為:發(fā)現(xiàn)和消除數(shù)據(jù)中的錯(cuò)誤和不一致來(lái)提高數(shù)據(jù)的質(zhì)量。一般而言,審計(jì)數(shù)據(jù)庫(kù)中數(shù)據(jù)采集于異質(zhì)操作數(shù)據(jù)庫(kù),不可避免存在著數(shù)據(jù)的錯(cuò)誤或不一致等問(wèn)題,如數(shù)據(jù)造假、數(shù)據(jù)重復(fù)、數(shù)據(jù)缺失等錯(cuò)誤。根據(jù)文獻(xiàn)[5]提出的審計(jì)數(shù)據(jù)質(zhì)量特征,必須要對(duì)采集的原始數(shù)據(jù)進(jìn)行清洗,即由“臟”變“干凈”,提高審計(jì)數(shù)據(jù)質(zhì)量,這是保證審計(jì)結(jié)論正確的關(guān)鍵。
數(shù)據(jù)清洗的一般過(guò)程如圖2所示。
(1)數(shù)據(jù)分析:為了清洗出干凈的數(shù)據(jù),必須對(duì)數(shù)據(jù)進(jìn)行詳盡的分析,包括數(shù)據(jù)的格式類(lèi)別等。比如采集來(lái)的財(cái)務(wù)數(shù)據(jù)的字段類(lèi)型、寬度、含義等。
(2)模式轉(zhuǎn)換:模式轉(zhuǎn)換主要是指將源數(shù)據(jù)映射成目標(biāo)數(shù)據(jù)模型,如屬性的轉(zhuǎn)換,字段的約束條件和數(shù)據(jù)庫(kù)中各個(gè)數(shù)據(jù)集之間的映射和轉(zhuǎn)換等。有時(shí)需要將多個(gè)數(shù)據(jù)表合并成一個(gè)二維表格,有時(shí)卻要將一個(gè)數(shù)據(jù)表拆分成多個(gè)二維表格以便于問(wèn)題的解決。
(3)數(shù)據(jù)校驗(yàn):上一步的模式轉(zhuǎn)換可行否,需要進(jìn)行評(píng)估測(cè)試,經(jīng)過(guò)反復(fù)分析、設(shè)計(jì)、計(jì)算、分析才能更好地清洗數(shù)據(jù)。否則不經(jīng)過(guò)數(shù)據(jù)校驗(yàn)可能有些錯(cuò)誤數(shù)據(jù)不是很明顯,不能被很好地篩選出來(lái)。比如模式轉(zhuǎn)換時(shí)將一個(gè)數(shù)據(jù)集分解成多個(gè)數(shù)據(jù)表的時(shí)候,造成父表的主關(guān)鍵字的值和子表外部關(guān)鍵字的值不一致,從而形成孤立記錄,影響審計(jì)人員審計(jì)證據(jù)的正確性,進(jìn)而影響審計(jì)結(jié)論的正確性。
(4)數(shù)據(jù)回流:用“干凈”的數(shù)據(jù)替代原始數(shù)據(jù)源中的“臟”數(shù)據(jù),避免下次數(shù)據(jù)采集時(shí)重做數(shù)據(jù)的清洗。
有時(shí)候數(shù)據(jù)的清洗需要反復(fù)進(jìn)行,審計(jì)人員需要對(duì)采集到的電子數(shù)據(jù)進(jìn)行多次清洗,這樣才能得到高質(zhì)量的審計(jì)數(shù)據(jù)。
3 數(shù)據(jù)挖掘?qū)崿F(xiàn)
經(jīng)過(guò)數(shù)據(jù)預(yù)處理后的審計(jì)數(shù)據(jù)庫(kù)包含了多個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集又包含了若干數(shù)據(jù)記錄或者稱為元組,如何從這些二維表格數(shù)據(jù)中挖掘出有意義的審計(jì)數(shù)據(jù)至關(guān)重要。本文介紹一種利用聚類(lèi)算法進(jìn)行審計(jì)數(shù)據(jù)挖掘的算法。
3.1 算法概述
3.1.1聚類(lèi)算法
所謂聚類(lèi)就是根據(jù)相似性對(duì)數(shù)據(jù)對(duì)象進(jìn)行分組,發(fā)現(xiàn)數(shù)據(jù)的分布特征,使得每個(gè)聚類(lèi)中數(shù)據(jù)有非常高的相似性而不同聚類(lèi)中的數(shù)據(jù)盡可能不同[6]。它同分類(lèi)的主要區(qū)別在于,分類(lèi)事先知道所依據(jù)的數(shù)據(jù)特征,而聚類(lèi)是要找到這個(gè)數(shù)據(jù)特征。作為數(shù)據(jù)挖掘的功能,聚類(lèi)分析可以作為一個(gè)獲取數(shù)據(jù)分布情況、觀察每個(gè)類(lèi)的特征和對(duì)特定類(lèi)進(jìn)行進(jìn)一步獨(dú)立分析的工具;聚類(lèi)也能夠有效處理噪聲數(shù)據(jù),比如數(shù)據(jù)庫(kù)中普遍包含的孤立點(diǎn)、空缺或錯(cuò)誤數(shù)據(jù)等。
聚類(lèi)分析算法通常有5類(lèi)[7]:①基于劃分的方法,如CLARANS;②基于層次的方法,如CURE和BIRCH;③基于密度的方法,如DBSCAN、OPTICS、GDBSCAN和DBRS;④基于網(wǎng)格的方法,如STING和WaveCluster;⑤基于模型的方法,如COBWEB。其中DBSCAN算法具有很好的過(guò)濾噪聲數(shù)據(jù)的優(yōu)點(diǎn)。本文探討利用DBSCAN算法對(duì)審計(jì)數(shù)據(jù)進(jìn)行處理,找出異常數(shù)據(jù),查找出審計(jì)證據(jù)。
3.1.2 DBSCAN算法
DBSCAN算法的基本思想為[8]:對(duì)于同一個(gè)聚類(lèi)中的每個(gè)對(duì)象,在給定的半徑d的鄰域中包含的對(duì)象不能少于某一個(gè)給定的最小數(shù)目MinPts(也稱密度)。
為了生存一個(gè)聚類(lèi),DBSCAN算法首先從數(shù)據(jù)集DB中選擇任意一個(gè)對(duì)象p,并查找數(shù)據(jù)集DB中關(guān)于半徑d的所有鄰域?qū)ο,如果這個(gè)鄰域?qū)ο蟮膫(gè)數(shù)小于最小數(shù)目MinPts,則p為噪聲數(shù)據(jù);否則p的鄰域?qū)ο笮纬梢粋(gè)初始聚類(lèi)N,N中包含對(duì)象p及p直接密度可達(dá)的所有對(duì)象。然后確定該類(lèi)中的每一個(gè)對(duì)象q是否為核心對(duì)象,若是,就將q的d—鄰域內(nèi)尚未包含到N的所有對(duì)象追加到N中,并繼續(xù)判定新追加的對(duì)象是否為核心對(duì)象,如果是,重復(fù)上述追加過(guò)程,直到這個(gè)聚類(lèi)不能再擴(kuò)大為止。然后DBSCAN算法再在數(shù)據(jù)集DB中另選一個(gè)沒(méi)有被標(biāo)識(shí)為某個(gè)聚類(lèi)或者噪聲的對(duì)象,重復(fù)上面的操作,一直到數(shù)據(jù)集DB中的所有對(duì)象要么被標(biāo)識(shí)為某個(gè)聚類(lèi)、要么被標(biāo)識(shí)為噪聲數(shù)據(jù)為止。
DBSCAN算法進(jìn)行聚類(lèi)的過(guò)程就是不斷執(zhí)行數(shù)據(jù)集查詢比較的過(guò)程,最后產(chǎn)生的噪聲數(shù)據(jù)就是通常所說(shuō)的異常數(shù)據(jù),對(duì)于幫助審計(jì)人員進(jìn)行審計(jì)判斷非常有效。圖3表示了二維平面坐標(biāo)下的噪聲數(shù)據(jù)和若干聚類(lèi)。
3.2數(shù)據(jù)模式定義
3.2.1項(xiàng)間的距離
設(shè)Ri和Rj是數(shù)據(jù)集DB中的任意兩條記錄即某兩個(gè)數(shù)據(jù)項(xiàng),它們之間的距離定義為:
式中,Ri(Rix,Riy),Rj(Rjx,Rjy)表示數(shù)據(jù)集中兩個(gè)項(xiàng)Ri和Rj在二維空間的坐標(biāo)點(diǎn),因此dij表示Ri和Rj在二維空間坐標(biāo)的距離。如果dij大于給定的值d,則表示Ri和Rj不屬于同一個(gè)聚類(lèi)分組。
3.2.2審計(jì)數(shù)據(jù)預(yù)處理
數(shù)據(jù)挖掘時(shí)數(shù)據(jù)的選擇是在二維平面上進(jìn)行的,首先選擇列(字段或?qū)傩?,再選擇行(記錄或元組)。為了能夠獲得有效的審計(jì)證據(jù)得出正確的審計(jì)結(jié)論,有時(shí)候必須對(duì)源數(shù)據(jù)集進(jìn)行數(shù)據(jù)轉(zhuǎn)換。
因?yàn)楦鱾(gè)企事業(yè)單位的規(guī)模不同,財(cái)務(wù)數(shù)據(jù)的數(shù)量級(jí)或者數(shù)量單位可能不同,為了得到更加科學(xué)可靠的聚類(lèi)分析結(jié)果,需要對(duì)財(cái)務(wù)數(shù)據(jù)進(jìn)行預(yù)處理,一般進(jìn)行比例變換。如將x軸定義為某公司某月?tīng)I(yíng)業(yè)收入與利潤(rùn)總額的比值,將y軸定義為財(cái)務(wù)費(fèi)用與凈利潤(rùn)的比值,這樣處理的數(shù)據(jù)能更好地反映該企業(yè)的實(shí)際情況。這里的財(cái)務(wù)數(shù)據(jù)預(yù)處理都是由用戶來(lái)定義的,可以根據(jù)不同的審計(jì)要求和審計(jì)目的來(lái)定義。
建立一個(gè)新的二維表格數(shù)據(jù)至少包含4個(gè)屬性項(xiàng):記錄號(hào),x軸數(shù)據(jù),y軸數(shù)據(jù),標(biāo)記。其中記錄號(hào)保持對(duì)應(yīng)源數(shù)據(jù)集DB中的記錄號(hào), x坐標(biāo)和y坐標(biāo)即為經(jīng)過(guò)比例變換后的數(shù)值,標(biāo)記字段初始內(nèi)容為空。
3.3算法描述及流程圖
給定一個(gè)計(jì)算機(jī)審計(jì)數(shù)據(jù)集,假設(shè)具有N個(gè)元組或者記錄,利用DBSCAN算法思想構(gòu)造出L個(gè)分組(L
(1)每個(gè)分組至少包含MinPts個(gè)元組。
(2)每個(gè)分組中的任意兩個(gè)元組直接的距離小于等于給定的距離d。
(3)每個(gè)元組僅屬于一個(gè)分組。
圖4為實(shí)現(xiàn)審計(jì)數(shù)據(jù)挖掘的算法(稱為AUDBSCAN)的流程圖。
3.4 聚類(lèi)算法的實(shí)現(xiàn)
算法:審計(jì)數(shù)據(jù)挖掘聚類(lèi)算法(AUDBSCAN)
輸入:根據(jù)數(shù)據(jù)集DB產(chǎn)生的二維表格數(shù)據(jù)
//至少含有4個(gè)字段:rec 記錄號(hào),rx x坐標(biāo)數(shù)據(jù),ry y坐標(biāo)數(shù)據(jù),rno 標(biāo)記
轉(zhuǎn)載請(qǐng)注明來(lái)自發(fā)表學(xué)術(shù)論文網(wǎng):http:///jjlw/5987.html