經(jīng)濟(jì)雜志數(shù)據(jù)挖掘的審計(jì)數(shù)據(jù)

所屬分類：經(jīng)濟(jì)論文閱讀次時(shí)間：2016-01-22 16:51

本文摘要：本篇文章是由《對(duì)外經(jīng)貿(mào) 》發(fā)表的一篇電子經(jīng)濟(jì)論文，傳對(duì)外經(jīng)濟(jì)貿(mào)易方針政策,傳遞國(guó)內(nèi)外市場(chǎng)信息,提供世界經(jīng)濟(jì)貿(mào)易發(fā)展趨勢(shì)和貿(mào)易機(jī)會(huì),探討研究對(duì)外貿(mào)易理論和外貿(mào)體制改革、傳授對(duì)外經(jīng)濟(jì)貿(mào)易知識(shí),交流經(jīng)貿(mào)工作經(jīng)驗(yàn)。 [摘要] 本文針對(duì)計(jì)算機(jī)審計(jì)的現(xiàn)狀，提

　　本篇文章是由《對(duì)外經(jīng)貿(mào)》發(fā)表的一篇電子經(jīng)濟(jì)論文，傳對(duì)外經(jīng)濟(jì)貿(mào)易方針政策,傳遞國(guó)內(nèi)外市場(chǎng)信息,提供世界經(jīng)濟(jì)貿(mào)易發(fā)展趨勢(shì)和貿(mào)易機(jī)會(huì),探討研究對(duì)外貿(mào)易理論和外貿(mào)體制改革、傳授對(duì)外經(jīng)濟(jì)貿(mào)易知識(shí),交流經(jīng)貿(mào)工作經(jīng)驗(yàn)。

　　[摘要] 本文針對(duì)計(jì)算機(jī)審計(jì)的現(xiàn)狀，提出了基于數(shù)據(jù)挖掘的審計(jì)數(shù)據(jù)分析流程，以及應(yīng)用DBSCAN聚類算法查找審計(jì)證據(jù)的方法。

　　[關(guān)鍵詞] 計(jì)算機(jī)審計(jì);數(shù)據(jù)挖掘;聚類算法;噪聲數(shù)據(jù)

　　隨著經(jīng)濟(jì)和信息技術(shù)的不斷發(fā)展，許多企業(yè)開始引入了ERP等系統(tǒng)，這些系統(tǒng)使得企業(yè)的眾多活動(dòng)數(shù)據(jù)可以實(shí)時(shí)記錄，形成了大量有關(guān)企業(yè)經(jīng)營(yíng)管理的數(shù)據(jù)倉(cāng)庫(kù)。從這些海量數(shù)據(jù)中獲取有用的審計(jì)數(shù)據(jù)是目前計(jì)算機(jī)審計(jì)的一個(gè)應(yīng)用。對(duì)于審計(jì)人員來(lái)說(shuō)，如何從被審計(jì)單位的海量數(shù)據(jù)中找出全面、高質(zhì)量的審計(jì)數(shù)據(jù)從而找出審計(jì)證據(jù)是一個(gè)難題。本文利用數(shù)據(jù)挖掘技術(shù)對(duì)此問(wèn)題進(jìn)行了探討并提出了解決的方法。

　　數(shù)據(jù)挖掘(Data Mining)指的是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取出隱藏的、不為人知的卻潛在有用的信息和知識(shí)的過(guò)程[1]。事實(shí)上，實(shí)際應(yīng)用數(shù)據(jù)的質(zhì)量和存儲(chǔ)模式對(duì)于實(shí)施計(jì)算機(jī)審計(jì)并成功獲取審計(jì)證據(jù)非常重要。由于被審單位信息系統(tǒng)軟硬件平臺(tái)的異構(gòu)性和可能存在的人為故意隱瞞、造假等，為保證計(jì)算機(jī)審計(jì)工作順利進(jìn)行和審計(jì)結(jié)論的正確，對(duì)審計(jì)數(shù)據(jù)進(jìn)行采集時(shí)必須對(duì)數(shù)據(jù)進(jìn)行檢查、控制和分析。

　　1審計(jì)數(shù)據(jù)采集

　　審計(jì)數(shù)據(jù)采集指在開展計(jì)算機(jī)審計(jì)時(shí)從被審計(jì)單位的財(cái)務(wù)及業(yè)務(wù)信息系統(tǒng)及其他數(shù)據(jù)源獲得審計(jì)所需的電子數(shù)據(jù)并進(jìn)行適當(dāng)?shù)母袷睫D(zhuǎn)換[3]。一般來(lái)說(shuō)，計(jì)算機(jī)審計(jì)中數(shù)據(jù)采集的方法主要包括以下幾種：

　　(1)利用被審單位信息系統(tǒng)的數(shù)據(jù)導(dǎo)出功能。大多數(shù)的信息管理系統(tǒng)都提供了數(shù)據(jù)導(dǎo)出的功能，審計(jì)人員直接可以利用該功能導(dǎo)出企業(yè)財(cái)務(wù)數(shù)據(jù)完成數(shù)據(jù)的采集。

　　(2)利用通用的數(shù)據(jù)處理軟件完成數(shù)據(jù)采集。如Access、SQL Server等都具有較強(qiáng)大的數(shù)據(jù)導(dǎo)入導(dǎo)出功能和數(shù)據(jù)轉(zhuǎn)換功能。審計(jì)人員可以利用這些軟件完成數(shù)據(jù)的采集。如被審企業(yè)原始數(shù)據(jù)為文本格式可以轉(zhuǎn)換為數(shù)據(jù)庫(kù)表格格式。

　　(3)利用審計(jì)軟件完成數(shù)據(jù)采集。如國(guó)家從2002年開始建設(shè)的“金審工程”就以現(xiàn)場(chǎng)審計(jì)實(shí)施系統(tǒng)(AO)及審計(jì)辦公系統(tǒng)(OA)作為計(jì)算機(jī)輔助審計(jì)的工具。別外應(yīng)用國(guó)內(nèi)的企業(yè)財(cái)務(wù)審計(jì)軟件、審計(jì)數(shù)據(jù)采集分析軟件等都可以完成審計(jì)數(shù)據(jù)的采集。

　　(4)利用專用程序接口完成數(shù)據(jù)采集。當(dāng)被審計(jì)單位提供的審計(jì)數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)與已有的審計(jì)數(shù)據(jù)處理軟件系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)差異較大時(shí)，可以在審計(jì)人員的協(xié)助下由專門的程序員開發(fā)接口程序，完成數(shù)據(jù)的采集，但成本相對(duì)較高。

　　2 數(shù)據(jù)清洗

　　利用數(shù)據(jù)挖掘?qū)徲?jì)數(shù)據(jù)進(jìn)行處理分類時(shí)，為了提高分類的準(zhǔn)確性、高效性和可伸縮性，必須對(duì)數(shù)據(jù)庫(kù)進(jìn)行預(yù)處理，包括：數(shù)據(jù)的清洗、相關(guān)性分析、數(shù)據(jù)轉(zhuǎn)換等。

　　文獻(xiàn)[4]中給出數(shù)據(jù)清洗的定義為：發(fā)現(xiàn)和消除數(shù)據(jù)中的錯(cuò)誤和不一致來(lái)提高數(shù)據(jù)的質(zhì)量。一般而言，審計(jì)數(shù)據(jù)庫(kù)中數(shù)據(jù)采集于異質(zhì)操作數(shù)據(jù)庫(kù)，不可避免存在著數(shù)據(jù)的錯(cuò)誤或不一致等問(wèn)題，如數(shù)據(jù)造假、數(shù)據(jù)重復(fù)、數(shù)據(jù)缺失等錯(cuò)誤。根據(jù)文獻(xiàn)[5]提出的審計(jì)數(shù)據(jù)質(zhì)量特征，必須要對(duì)采集的原始數(shù)據(jù)進(jìn)行清洗，即由“臟”變“干凈”，提高審計(jì)數(shù)據(jù)質(zhì)量，這是保證審計(jì)結(jié)論正確的關(guān)鍵。

　　數(shù)據(jù)清洗的一般過(guò)程如圖2所示。

　　(1)數(shù)據(jù)分析：為了清洗出干凈的數(shù)據(jù)，必須對(duì)數(shù)據(jù)進(jìn)行詳盡的分析，包括數(shù)據(jù)的格式類別等。比如采集來(lái)的財(cái)務(wù)數(shù)據(jù)的字段類型、寬度、含義等。

　　(2)模式轉(zhuǎn)換：模式轉(zhuǎn)換主要是指將源數(shù)據(jù)映射成目標(biāo)數(shù)據(jù)模型，如屬性的轉(zhuǎn)換，字段的約束條件和數(shù)據(jù)庫(kù)中各個(gè)數(shù)據(jù)集之間的映射和轉(zhuǎn)換等。有時(shí)需要將多個(gè)數(shù)據(jù)表合并成一個(gè)二維表格，有時(shí)卻要將一個(gè)數(shù)據(jù)表拆分成多個(gè)二維表格以便于問(wèn)題的解決。

　　(3)數(shù)據(jù)校驗(yàn)：上一步的模式轉(zhuǎn)換可行否，需要進(jìn)行評(píng)估測(cè)試，經(jīng)過(guò)反復(fù)分析、設(shè)計(jì)、計(jì)算、分析才能更好地清洗數(shù)據(jù)。否則不經(jīng)過(guò)數(shù)據(jù)校驗(yàn)可能有些錯(cuò)誤數(shù)據(jù)不是很明顯，不能被很好地篩選出來(lái)。比如模式轉(zhuǎn)換時(shí)將一個(gè)數(shù)據(jù)集分解成多個(gè)數(shù)據(jù)表的時(shí)候，造成父表的主關(guān)鍵字的值和子表外部關(guān)鍵字的值不一致，從而形成孤立記錄，影響審計(jì)人員審計(jì)證據(jù)的正確性，進(jìn)而影響審計(jì)結(jié)論的正確性。

　　(4)數(shù)據(jù)回流：用“干凈”的數(shù)據(jù)替代原始數(shù)據(jù)源中的“臟”數(shù)據(jù)，避免下次數(shù)據(jù)采集時(shí)重做數(shù)據(jù)的清洗。

　　有時(shí)候數(shù)據(jù)的清洗需要反復(fù)進(jìn)行，審計(jì)人員需要對(duì)采集到的電子數(shù)據(jù)進(jìn)行多次清洗，這樣才能得到高質(zhì)量的審計(jì)數(shù)據(jù)。

　　3 數(shù)據(jù)挖掘?qū)崿F(xiàn)

　　經(jīng)過(guò)數(shù)據(jù)預(yù)處理后的審計(jì)數(shù)據(jù)庫(kù)包含了多個(gè)數(shù)據(jù)集，每個(gè)數(shù)據(jù)集又包含了若干數(shù)據(jù)記錄或者稱為元組，如何從這些二維表格數(shù)據(jù)中挖掘出有意義的審計(jì)數(shù)據(jù)至關(guān)重要。本文介紹一種利用聚類算法進(jìn)行審計(jì)數(shù)據(jù)挖掘的算法。

　　3.1 算法概述

　　3.1.1聚類算法

　　所謂聚類就是根據(jù)相似性對(duì)數(shù)據(jù)對(duì)象進(jìn)行分組，發(fā)現(xiàn)數(shù)據(jù)的分布特征，使得每個(gè)聚類中數(shù)據(jù)有非常高的相似性而不同聚類中的數(shù)據(jù)盡可能不同[6]。它同分類的主要區(qū)別在于，分類事先知道所依據(jù)的數(shù)據(jù)特征，而聚類是要找到這個(gè)數(shù)據(jù)特征。作為數(shù)據(jù)挖掘的功能，聚類分析可以作為一個(gè)獲取數(shù)據(jù)分布情況、觀察每個(gè)類的特征和對(duì)特定類進(jìn)行進(jìn)一步獨(dú)立分析的工具;聚類也能夠有效處理噪聲數(shù)據(jù)，比如數(shù)據(jù)庫(kù)中普遍包含的孤立點(diǎn)、空缺或錯(cuò)誤數(shù)據(jù)等。

　　聚類分析算法通常有5類[7]：①基于劃分的方法，如CLARANS;②基于層次的方法，如CURE和BIRCH;③基于密度的方法，如DBSCAN、OPTICS、GDBSCAN和DBRS;④基于網(wǎng)格的方法，如STING和WaveCluster;⑤基于模型的方法，如COBWEB。其中DBSCAN算法具有很好的過(guò)濾噪聲數(shù)據(jù)的優(yōu)點(diǎn)。本文探討利用DBSCAN算法對(duì)審計(jì)數(shù)據(jù)進(jìn)行處理，找出異常數(shù)據(jù)，查找出審計(jì)證據(jù)。

　　3.1.2 DBSCAN算法

　　DBSCAN算法的基本思想為[8]：對(duì)于同一個(gè)聚類中的每個(gè)對(duì)象，在給定的半徑d的鄰域中包含的對(duì)象不能少于某一個(gè)給定的最小數(shù)目MinPts(也稱密度)。

　　為了生存一個(gè)聚類，DBSCAN算法首先從數(shù)據(jù)集DB中選擇任意一個(gè)對(duì)象p，并查找數(shù)據(jù)集DB中關(guān)于半徑d的所有鄰域?qū)ο�，如果這個(gè)鄰域?qū)ο蟮膫€(gè)數(shù)小于最小數(shù)目MinPts，則p為噪聲數(shù)據(jù);否則p的鄰域?qū)ο笮纬梢粋€(gè)初始聚類N，N中包含對(duì)象p及p直接密度可達(dá)的所有對(duì)象。然后確定該類中的每一個(gè)對(duì)象q是否為核心對(duì)象，若是，就將q的d—鄰域內(nèi)尚未包含到N的所有對(duì)象追加到N中，并繼續(xù)判定新追加的對(duì)象是否為核心對(duì)象，如果是，重復(fù)上述追加過(guò)程，直到這個(gè)聚類不能再擴(kuò)大為止。然后DBSCAN算法再在數(shù)據(jù)集DB中另選一個(gè)沒有被標(biāo)識(shí)為某個(gè)聚類或者噪聲的對(duì)象，重復(fù)上面的操作，一直到數(shù)據(jù)集DB中的所有對(duì)象要么被標(biāo)識(shí)為某個(gè)聚類、要么被標(biāo)識(shí)為噪聲數(shù)據(jù)為止。

　　DBSCAN算法進(jìn)行聚類的過(guò)程就是不斷執(zhí)行數(shù)據(jù)集查詢比較的過(guò)程，最后產(chǎn)生的噪聲數(shù)據(jù)就是通常所說(shuō)的異常數(shù)據(jù)，對(duì)于幫助審計(jì)人員進(jìn)行審計(jì)判斷非常有效。圖3表示了二維平面坐標(biāo)下的噪聲數(shù)據(jù)和若干聚類。

　　3.2數(shù)據(jù)模式定義

　　3.2.1項(xiàng)間的距離

　　設(shè)Ri和Rj是數(shù)據(jù)集DB中的任意兩條記錄即某兩個(gè)數(shù)據(jù)項(xiàng)，它們之間的距離定義為：

　　式中，Ri(Rix，Riy)，Rj(Rjx，Rjy)表示數(shù)據(jù)集中兩個(gè)項(xiàng)Ri和Rj在二維空間的坐標(biāo)點(diǎn)，因此dij表示Ri和Rj在二維空間坐標(biāo)的距離。如果dij大于給定的值d，則表示Ri和Rj不屬于同一個(gè)聚類分組。

　　3.2.2審計(jì)數(shù)據(jù)預(yù)處理

　　數(shù)據(jù)挖掘時(shí)數(shù)據(jù)的選擇是在二維平面上進(jìn)行的，首先選擇列(字段或?qū)傩?，再選擇行(記錄或元組)。為了能夠獲得有效的審計(jì)證據(jù)得出正確的審計(jì)結(jié)論，有時(shí)候必須對(duì)源數(shù)據(jù)集進(jìn)行數(shù)據(jù)轉(zhuǎn)換。

　　因?yàn)楦鱾€(gè)企事業(yè)單位的規(guī)模不同，財(cái)務(wù)數(shù)據(jù)的數(shù)量級(jí)或者數(shù)量單位可能不同，為了得到更加科學(xué)可靠的聚類分析結(jié)果，需要對(duì)財(cái)務(wù)數(shù)據(jù)進(jìn)行預(yù)處理，一般進(jìn)行比例變換。如將x軸定義為某公司某月營(yíng)業(yè)收入與利潤(rùn)總額的比值，將y軸定義為財(cái)務(wù)費(fèi)用與凈利潤(rùn)的比值，這樣處理的數(shù)據(jù)能更好地反映該企業(yè)的實(shí)際情況。這里的財(cái)務(wù)數(shù)據(jù)預(yù)處理都是由用戶來(lái)定義的，可以根據(jù)不同的審計(jì)要求和審計(jì)目的來(lái)定義。

　　建立一個(gè)新的二維表格數(shù)據(jù)至少包含4個(gè)屬性項(xiàng)：記錄號(hào)，x軸數(shù)據(jù)，y軸數(shù)據(jù)，標(biāo)記。其中記錄號(hào)保持對(duì)應(yīng)源數(shù)據(jù)集DB中的記錄號(hào)， x坐標(biāo)和y坐標(biāo)即為經(jīng)過(guò)比例變換后的數(shù)值，標(biāo)記字段初始內(nèi)容為空。

　　3.3算法描述及流程圖

　　給定一個(gè)計(jì)算機(jī)審計(jì)數(shù)據(jù)集，假設(shè)具有N個(gè)元組或者記錄，利用DBSCAN算法思想構(gòu)造出L個(gè)分組(L

　　(1)每個(gè)分組至少包含MinPts個(gè)元組。

　　(2)每個(gè)分組中的任意兩個(gè)元組直接的距離小于等于給定的距離d。

　　(3)每個(gè)元組僅屬于一個(gè)分組。

　　圖4為實(shí)現(xiàn)審計(jì)數(shù)據(jù)挖掘的算法(稱為AUDBSCAN)的流程圖。

　　3.4 聚類算法的實(shí)現(xiàn)

　　算法：審計(jì)數(shù)據(jù)挖掘聚類算法(AUDBSCAN)

　　輸入：根據(jù)數(shù)據(jù)集DB產(chǎn)生的二維表格數(shù)據(jù)

　　//至少含有4個(gè)字段：rec 記錄號(hào)，rx x坐標(biāo)數(shù)據(jù)，ry y坐標(biāo)數(shù)據(jù)，rno 標(biāo)記