- 相關(guān)推薦
對孤立點(diǎn)分析方法在現代審計中的運用技巧分析經(jīng)濟論文
一、引言
隨著(zhù)計算機信息技術(shù)的迅猛發(fā)展,大型企業(yè)和信息型產(chǎn)業(yè)大多都正在使用供應鏈管理(Supply Chain Management,SCM)系統或企業(yè)資源計劃(EnterpriseResource
Planiling,ERP)系統或客戶(hù)關(guān)系管理(Customer RelationshipManagement,CRM)系統或財務(wù)管理(Financial Management)系統等,使企業(yè)的管理制度更加完善,同時(shí)企業(yè)所有運營(yíng)環(huán)節都充斥著(zhù)信息資源(包含各個(gè)部門(mén)大量財務(wù)數據和經(jīng)營(yíng)管理數據的數據倉庫)。審計人員從被審計單位的信息系統數據倉庫中獲取大量審計數據,面對被審計單位海量數據中蘊含著(zhù)極其豐富信息的挑戰,僅僅依靠只是將傳統手工的審計流程計算機化的信息技術(shù),如結構化查詢(xún)語(yǔ)言(SQL)等,很難滿(mǎn)足信息時(shí)代審計的需求。
計算機輔助審計技術(shù)的不斷發(fā)展,數據挖掘技術(shù)為被審計單位在面對海量數據時(shí)提供了新的思路,在審計工作中引入對海量數據進(jìn)行“輕松處理”的數據挖掘技術(shù)(如決策樹(shù)算法、聚類(lèi)算法、關(guān)聯(lián)規則發(fā)現算法等),是對計算機審計方法的補充,“減弱”傳統審計方法的限制條件,為現代審計開(kāi)拓了便捷的路徑?梢哉f(shuō)是現代計算機審計方法一個(gè)里程碑式的突破,也是計算機審計方法探索的悄然趨勢。審計人員在面對存在著(zhù)復雜的審計環(huán)境和海量的財務(wù)數據時(shí),若利用數據挖掘技術(shù),可以在短時(shí)間內發(fā)現異常數據(因它在發(fā)現審計線(xiàn)索特征方面可以發(fā)揮其特有的功能),有助于對被審計單位進(jìn)行系統全面的審計,把風(fēng)險盡可能降低,進(jìn)而拓寬審計領(lǐng)域。
本文基于數據挖掘技術(shù)中的孤立點(diǎn)分析方法來(lái)發(fā)現一些異常的審計現象,孤立點(diǎn)分析方法先對這些大量的審計數據進(jìn)行預處理(除噪),然后建立數據挖掘模型,運用此模型分析出具有一定特征且小比例的異常數據,供審計人員決策分析時(shí)參考。
二、孤立點(diǎn)分析方法
孤立點(diǎn)分析是數據挖掘技術(shù)中用來(lái)檢測審計數據中異常數據的一項重要技術(shù)。由于審計分析中的疑點(diǎn)數據往往表現為孤立點(diǎn),通常情況下,在對被審計數據進(jìn)行分析時(shí),常常選擇孤立點(diǎn)分析技術(shù)。
(一)孤立點(diǎn)
孤立點(diǎn)是數據集中與眾不同的數據,使人懷疑這些數據并非隨機偏差,而是產(chǎn)生于完全不同的機制。在聚類(lèi)分析中,有的數據對象不屬于任何的類(lèi)或簇,這樣的數據對象在聚類(lèi)中稱(chēng)為噪聲,而在孤立點(diǎn)分析中,則稱(chēng)為孤立點(diǎn)。孤立點(diǎn)是個(gè)相對的定義,特別地,在審計領(lǐng)域,審計數據初始分布模型假設的不同,或研究者在不同的檢測背景下,都會(huì )得出不同的結論。
鑒于很多人為或非人為的原因都會(huì )導致孤立點(diǎn)的產(chǎn)生,如人為執行錯誤或人為故意操縱數據為達到某種目的而致使孤立點(diǎn)的產(chǎn)生,再如儀器測量錯誤、系統故障、數據總體中的自然偏差或固有的數據變異都會(huì )導致孤立點(diǎn)的產(chǎn)生,我們要對孤立點(diǎn)產(chǎn)生的原因進(jìn)行全面分析。但最重要的是,審計人員要對這些孤立點(diǎn)保持敏感性,并分析出孤立點(diǎn)背后產(chǎn)生的深層次原因,來(lái)獲取有價(jià)值的審計信息。
(二)孤立點(diǎn)分析方法
1.孤立點(diǎn)分析方法的概念
孤立點(diǎn)分析方法可簡(jiǎn)述為:給定一個(gè)有n個(gè)數據點(diǎn)或對象的集合及預期的孤立點(diǎn)數目k,發(fā)現與剩余的數據相比是顯著(zhù)異常的、孤立的、或不一致的前k個(gè)對象的過(guò)程。因此,孤立點(diǎn)分析實(shí)際上可以被看作兩個(gè)子問(wèn)題:
(1)在給定的數據集合中定義什么樣的數據是不一致的;
(2)找到一個(gè)有效的方法來(lái)檢測這樣的不一致數據。
2.孤立點(diǎn)分析方法介紹
(1)基于統計的方法
當數據集的概率分布及參數(如正態(tài)分布、泊松分布等,均值、方差)已知或需經(jīng)多次驗證并試圖得出數據真實(shí)的概率分布或參數特征時(shí),一般使用基于統計的方法。此方法尤其用于數值型數據。孤立點(diǎn)的確定主要是通過(guò)檢驗偏離統計模型的不一致數據,并統計出其個(gè)數,分析其性態(tài)。
(2)基于距離的方法
Knorr和Ng提出了一種體現孤立點(diǎn)本質(zhì)的定義,即若一個(gè)數據對象與數據域中大多數對象之間的距離(相異度)都大于某個(gè)閾值,將此數據對象確認為一個(gè)孤立點(diǎn)。閾值的設定是在對被審計數據清洗,并檢驗其有效性之后,據審計數據所屬行業(yè)的特點(diǎn),將行業(yè)常規值預先設定為閾值,或經(jīng)公式計算得出閾值。此方法有效的避免了基于統計方法中數據分布特征確定的問(wèn)題。
(3)基于偏離的方法
基于偏離的孤立點(diǎn)挖掘是通過(guò)檢查一組對象的主要特征來(lái)確定孤立點(diǎn)。與給出的描述“偏離”的對象被認為是孤立點(diǎn)。此孤立點(diǎn)挖掘有兩種常用的技術(shù):第一種序列異常技術(shù),是一種基于相異度函數(往往是審計數據集的總方差)的有效方法,預先定義樣本集的一般特征,其余“偏離”這些特征的樣本屬于異常樣本。第二種OLAP數據立方體技術(shù),在審計時(shí),對那些標為異常的單元下鉆,可能會(huì )發(fā)現更細節或較低層次的異常。
(4)基于密度的方法
Breuning等人基于密度聚類(lèi)思想的啟發(fā),于2000年提出了一種基于局部密度來(lái)檢測孤立點(diǎn)的新方法,通過(guò)該數據對象周?chē)鷧^域的局部密度,與它鄰近的局部密度之比來(lái)確定該對象的局部孤立點(diǎn)因子(Locai OutlierFactor,LOF),LOF的值越大說(shuō)明該對象越可能是孤立點(diǎn),需引起審計人員多加注意。該方法對發(fā)現局部孤立點(diǎn)有很好的效果。
(5)基于距離和密度的聚類(lèi)和孤立點(diǎn)檢測方法
基于距離和密度的聚類(lèi)和孤立點(diǎn)檢測算法(Distance & Density Based Clusteringand Outlier Detection algorithm,簡(jiǎn)稱(chēng)DDBCOB),是將基于距離和密度這兩種方法融合來(lái)確定聚類(lèi)和孤立點(diǎn)。經(jīng)過(guò)反復驗證,證明融合了兩者優(yōu)點(diǎn)的DDBCOB算法可以對任意形狀的聚類(lèi)進(jìn)行識別,可以有效地識別出高維數據中的孤立點(diǎn)。
(6)基于人工神經(jīng)網(wǎng)絡(luò )模型的孤立點(diǎn)
Williams等提出的人工神經(jīng)網(wǎng)絡(luò )孤立點(diǎn)檢測算法(Repntor Neural Networks,RNN),數據源往往使用通用統計數據集(一般較小)和專(zhuān)用數據挖掘數據集(較大,并且是現實(shí)的數據集),RNN算法對大的或小的數據集的孤立點(diǎn)檢測結果都達到了預期效果,但它不適于檢測含有放射狀的孤立點(diǎn)數據集。
孤立點(diǎn)分析技術(shù)在審計中的具體應用在兩方面:一是審計數據預處理過(guò)程中,審計人員對審計數據清理和檢測之后,通過(guò)規則集中預定義的孤立點(diǎn)識別規則,來(lái)識別此類(lèi)數據是否為孤立點(diǎn)。二是異常檢測(即讓經(jīng)驗豐富的審計人員判別孤立點(diǎn)是否可疑)。
審計人員在進(jìn)行審計時(shí),對可用的原始數據進(jìn)行采集、清洗以及驗證,使之達到建模的需求,然而最關(guān)鍵的一步是在明確了挖掘任務(wù)之后,據數據的類(lèi)型和特征,尋找與之相適應的孤立點(diǎn)算法,則審計人員選取以上介紹的孤立點(diǎn)分析方法的一種或幾種的組合,來(lái)滿(mǎn)足客戶(hù)對尋求異常數據的審計需求。
三、孤立點(diǎn)分析方法在審計運用中的一般流程
圖1是孤立點(diǎn)分析方法在審計中運用的一般流程,具體流程如下:
、賹徲嬋藛T提出需求,此需求往往是據審計人員的經(jīng)驗和敏銳的洞察力識別出被審計單位財務(wù)數據或經(jīng)營(yíng)業(yè)務(wù)有些異常,需找出數據或業(yè)務(wù)中的噪點(diǎn)(孤立點(diǎn)),數據挖掘人員通過(guò)和審計人員的溝通來(lái)加深對審計需求的理解。在此進(jìn)行的理解具體有業(yè)務(wù)理解和數據理解,其中業(yè)務(wù)理解包括據需求確定審計項目目標、評估審計目標的資源和審計人員的假設、確定數據挖掘目標、生成項目計劃,數據理解包括對被審計單位的信息系統和業(yè)務(wù)流程進(jìn)行理解、采集原始數據并分析、初步檢測數據質(zhì)量、探索數據變量。
、跀祿诰蛉藛T在理解需求的前提下檢驗此需求能否用孤立點(diǎn)分析方法解決。一般情況下都是可以采用孤立點(diǎn)分析方法來(lái)分析疑點(diǎn)數據的,首先對孤立點(diǎn)檢測算法的參數和孤立點(diǎn)識別規則進(jìn)行預定義,然后調用數據清理算法對被審計數據進(jìn)行清理,來(lái)提高定位孤立點(diǎn)的精準度。
、蹟祿诰蛉藛T提出挖掘模型,并向審計人員詳細的介紹此模型的功能和作用,進(jìn)而他們可以對模型的算法細節進(jìn)行商討并加以確認,最后對數據挖掘模型進(jìn)行試用;
、軐徲嬋藛T在理解挖掘模型的基礎上,對模型所產(chǎn)生的挖掘結果進(jìn)行評價(jià)。
、輰徲嬋藛T對所試用的數據挖掘模型得出的結果進(jìn)行評價(jià)時(shí),若此數據挖掘模型不符合審計需求,此時(shí),要對模型以及模型的輸入參數值等進(jìn)行反復的修正和完善,即不斷調試模型的輸入參數值,不斷完善模型來(lái)迎合審計需求。
、奕魯祿诰蚪Y果是異常并且是重要的,則符合審計需求。
、呷魯祿诰蚪Y果是異常但是合理的(若由于固有數據變異性引起的結果等),或異常但影響較小,達不到重要性水平,此時(shí)審計人員對原來(lái)假設審計數據有異常的情況不予處理。此重要性水平,主要依據審計人員的職業(yè)判斷和對審計項目的了解情況等。
另外,在建立數據挖掘模型初期,審計人員對審計數據的理解與把握程度,審計人員提出的需求與孤立點(diǎn)算法的融合程度,這兩個(gè)方面的因素對數據挖掘模型的建立起著(zhù)決定性的作用。因此,審計人員和數據挖掘人員對審計需求的理解、孤立點(diǎn)分析算法及數據挖掘模型的確定、算法與審計需求的融合,這些過(guò)程將是一個(gè)不斷反饋、不斷論證的過(guò)程,以確保最終形成針對性強、實(shí)時(shí)的、最優(yōu)的挖掘模型及方案。
綜上所述,建立數據挖掘模型是一個(gè)與或的過(guò)程,需要進(jìn)行不斷的論證,通過(guò)分析提出的不同特征的數據或目標,來(lái)確定最佳孤立點(diǎn)分析的算法,從而達到審計的目的。當然,最佳算法只是相對的,只是符合當前挖掘出的數據、目標及審計環(huán)境。對于實(shí)時(shí)的用戶(hù)需求及實(shí)際的審計目標,作為審計人員要深刻理解各類(lèi)算法的相似點(diǎn)和相異[文秘站-您的專(zhuān)屬秘書(shū),中國最強免費!]點(diǎn),集各類(lèi)算法之所長(cháng),合理的組合或改進(jìn),形成符合審計需求的孤立點(diǎn)分析算法?梢哉f(shuō),在數據挖掘過(guò)程,人的因素是最重要的,在算法選擇和模型建立時(shí)都需要人的參與,同時(shí)需要具備扎實(shí)的專(zhuān)業(yè)技能和經(jīng)驗豐富的審計人員和數據挖掘人員,需要他們時(shí)時(shí)溝通和配合。對于挖掘得出的結果,審計人員還需結合自己對審計項目的了解程度,并證實(shí)先前的孤立點(diǎn)假設,尋找出疑點(diǎn),并分析出現這些異,F象的原因,給客戶(hù)一個(gè)滿(mǎn)意的、可以正常使用的數據挖掘模型。對于挖掘結果可能是審計問(wèn)題線(xiàn)索證據的,需要審計人員進(jìn)一步追蹤、查閱相關(guān)資料進(jìn)行延伸調查,對新的疑點(diǎn)運用恰當的孤立點(diǎn)算法進(jìn)行深入挖掘,探尋異常問(wèn)題的本質(zhì)。
四、總結
數據挖掘技術(shù),已從研究階段逐步走向了實(shí)際應用階段。數據挖掘技術(shù)中有可能用于審計的技術(shù)可以和孤立點(diǎn)分析方法結合起來(lái)使用,可能會(huì )達到較好的效果,可能用于審計中的技術(shù)如統計分析技術(shù),常運用在信息系統開(kāi)發(fā)審計階段,它可發(fā)現偏差數據,即對審計數據分析得出的預測值和預定義的審計值進(jìn)行比較,易于發(fā)現異常審計數據,獲得審計線(xiàn)索,又如聚類(lèi)分析技術(shù)可確定審計重點(diǎn),在審計過(guò)程中,通過(guò)聚類(lèi)分析技術(shù)對被審計單位的同類(lèi)型的財務(wù)數據或業(yè)務(wù)數據進(jìn)行分類(lèi),使其成為有相似特性的聚類(lèi),進(jìn)而發(fā)現審計中需要重點(diǎn)關(guān)注的異常區域特征。并且借助該技術(shù)對計算機日志的審查,可對系統安全運行起到重要保護作用;再如關(guān)聯(lián)分析技術(shù),用于發(fā)現大量數據集合間隱藏的有意義的關(guān)聯(lián),常運用在財務(wù)和業(yè)務(wù)數據審計中,挖掘出財務(wù)報表數據屬性間可能的相互影響,減小審計工作量,并為后續審計活動(dòng)提供參考和支持。數據挖掘的主要目的是向管理者提供分析決策上的支持,能夠幫助管理人員在較短的時(shí)間從大量的數據中篩選出具有代表性、規律性的數據樣本,從而為精確分析、判斷、決策提供有力的數據支撐。但是,審計工作中不僅僅需要通過(guò)數據挖掘來(lái)尋找規律性、代表性的數據,同時(shí)對異常的、典型的數據有為關(guān)注。數據挖掘中孤立點(diǎn)分析方法主要用于發(fā)現隱藏大量正常數據下的少量異常數據。對于大多數的被審計單位,是可以嘗試使用孤立點(diǎn)分析技術(shù),檢測出一些特殊的、反常的數據,發(fā)現審計線(xiàn)索,驗證是否存在舞弊、違背規律和規定,可有效提高了審計效率,降低審計風(fēng)險,符合成本效益原則
【對孤立點(diǎn)分析方法在現代審計中的運用技巧分析經(jīng)濟論文】相關(guān)文章:
傳統紋樣在現代設計中的運用分析03-01
財務(wù)分析方法在經(jīng)濟責任審計中的運用03-22
編制審計報告的技巧分析03-24
無(wú)差別點(diǎn)分析在資法本結構決策中的運用12-08
回歸分析法在審計分析程序中的應用03-24
淺談統計分析在企業(yè)中的運用12-20