- 相關(guān)推薦
基于數據挖掘技術(shù)的保險行業(yè)決策分析研究
摘要:本文針對目前保險行業(yè)信息管理的現狀,提出數據挖掘技術(shù)對保險行業(yè)的重大影響,簡(jiǎn)要說(shuō)明了“保險行業(yè)決策系統V1.0”項目及其對挖掘算法的改進(jìn)等。并通過(guò)實(shí)驗論證了改進(jìn)算法的優(yōu)勢,通過(guò)分析結果展示了數據挖掘技術(shù)能使保險行業(yè)有效地利用現有數據實(shí)現經(jīng)營(yíng)目標,預測保險業(yè)的發(fā)展趨勢,進(jìn)而在激烈的競爭中贏(yíng)得先機。
關(guān)鍵詞:數據挖掘;關(guān)聯(lián)分析;Apriori
1 引言
隨著(zhù)數據庫技術(shù)的迅速發(fā)展以及數據庫管理系統的廣泛應用,各行各業(yè)積累的數據越來(lái)越多。日益劇增的數據背后隱藏著(zhù)許多重要的信息,人們希望能夠對其進(jìn)行更高層次的分析,以便更好地利用這些數據。目前的數據庫系統可以高效地實(shí)現數據的錄入、查詢(xún)、統計等功能,但無(wú)法發(fā)現數據中存在的關(guān)系和規則,無(wú)法根據現有的數據預測未來(lái)的發(fā)展趨勢。缺乏挖掘數據背后隱藏的知識手段,導致了“數據爆炸但知識貧乏”的現象。
隨著(zhù)計算機及網(wǎng)絡(luò )技術(shù)的發(fā)展,獲得某一行業(yè)有關(guān)資料已切實(shí)可行。而對于數量大、涉及面廣的數據,依靠傳統的簡(jiǎn)單匯總、按指定模式去分析的統計方法無(wú)法完成對數據的分析。因此,一種智能化的信息分析技術(shù)——“數據挖掘”(Data Mining)應運而生。
數據挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過(guò)程。通過(guò)挖掘數據倉庫中存儲的大量數據,從中發(fā)現有意義的新的關(guān)聯(lián)模式和趨勢的過(guò)程。數據挖掘是一種新的商業(yè)信息處理技術(shù),是對商業(yè)數據庫中的大量業(yè)務(wù)數據進(jìn)行抽取、轉換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數據。從而使企業(yè)在激烈的市場(chǎng)競爭中獲得先機。就保險行業(yè)而言,目前具有廣闊的市場(chǎng)需求。
2 項目說(shuō)明
本項目開(kāi)發(fā)了“保險行業(yè)決策系統V1.0”。本系統操作主界面利用ASP編程實(shí)現:數據預處理、客戶(hù)購買(mǎi)險種分析、客戶(hù)購買(mǎi)習慣分析、分析結果輸出等功能;后臺數據庫利用Sql Server 2005網(wǎng)絡(luò )數據庫實(shí)現;挖掘工具采用SPSS Clementine 11.0;在研究實(shí)驗階段,針對Apriori算法存在的“存儲復雜度”及“大量冗余規則”兩大缺點(diǎn)進(jìn)行了算法改進(jìn),通過(guò)利用一個(gè)模式樹(shù)結構來(lái)降低Apriori算法的存儲復雜度,并同時(shí)減少冗余規則的出現。
本系統共分:數據預處理、客戶(hù)購買(mǎi)險種分析、客戶(hù)購買(mǎi)習慣分析、分析結果輸出等主要功能模塊。
(1)“數據預處理”模塊包括:上傳、數據平臺、數據處理、統計、生成數據集等功能。
● 上傳:可完成保險總公司下設所有分公司數據的上傳。
● 數據平臺:在數據上傳前允許對數據平臺進(jìn)行選擇。
● 數據處理:對數據進(jìn)行清理、格式轉換等操作。
● 統計:對經(jīng)過(guò)預處理的數據進(jìn)行分析,提取有效性數據。
● 生成數據集:將統計過(guò)程提取的有效數據生成數據集,為數據挖掘提供較高質(zhì)量的數據源。
(2)“客戶(hù)購買(mǎi)險種分析”模塊包括:數據導入、參數設定、結果分析等功能。
● 數據導入:在此操作界面上,可通過(guò)選擇不同數據平臺將經(jīng)過(guò)“數據預處理”生成的數據集分別導入。
● 參數設定:在此操作界面上設定“支持度”“置信度”等參數,對有效數據集中有分析價(jià)值的數據記錄范圍進(jìn)行篩選。
● 結果分析:在此操作界面上可將“客戶(hù)購買(mǎi)險種分析”的最終分析結果以“報表”、“圖表”形式展示,此分析結果為行業(yè)提供了“同一客戶(hù)購買(mǎi)本公司多種(次)保險”的客戶(hù)信息,進(jìn)而為行業(yè)提供了“可爭取客戶(hù)”的決策依據。
(3)“客戶(hù)購買(mǎi)習慣分析”模塊包括:數據導入、參數設定、結果分析等功能。
● 數據導入:此操作同(2)“客戶(hù)購買(mǎi)險種分析”模塊中的“數據導入”。
● 參數設定:在此分別設定“輸入參數”(包括:年齡、性別、職業(yè)等客戶(hù)基本信息)及“輸出參數”(客戶(hù)購買(mǎi)的險種信息)。
● 結果分析:通過(guò)此操作界面可展示出客戶(hù)購買(mǎi)習慣的分析結果,進(jìn)而為行業(yè)提供了“可保持客戶(hù)”的決策依據。
(4)“分析結果輸出”模塊包括:“客戶(hù)購買(mǎi)險種分析”“客戶(hù)購買(mǎi)習慣分析”等分析結果的打印輸出功能。
3 項目中改進(jìn)的快速算法
由于A(yíng)priori算法存在時(shí)間空間復雜度高及產(chǎn)生大量冗余規則兩大缺陷。因此本項目通過(guò)利用一個(gè)模式樹(shù)結構來(lái)降低Apriori算法的存儲復雜度,并同時(shí)減少冗余規則的出現。
3.1 一個(gè)模式樹(shù)的結構
root是一個(gè)標為“null”的根結點(diǎn),root以下是作為根結點(diǎn)的孩子的項目前綴子樹(shù)集合,以及項目頭表組成;樹(shù)中的每一結點(diǎn)包含四個(gè)域user_id,count,node_link,node_next。其中,user_id為user的標記(唯一標識一個(gè)user),count為該父結點(diǎn)到達該結點(diǎn)的路徑的數目,node_link指向樹(shù)中具有相同的user_id的下一個(gè)結點(diǎn)的下一結點(diǎn),當下一個(gè)結點(diǎn)不存在時(shí),node_link為null,node_next指向樹(shù)中其子結點(diǎn);項目頭表的每一表項包含三個(gè)域:user_id,count,head of node,user_id與樹(shù)中的定義相同,count為樹(shù)中所有相同user_id之和,head of node指向樹(shù)中具有相同user_id值的首結點(diǎn)的指針。
3.2 建立模式樹(shù)
算法如下:
設事務(wù)數據庫為A,其中的一個(gè)項集為Ai。
算法:Patterntree(tree,p),構造模式樹(shù)
輸入:用戶(hù)事務(wù)數據庫A
輸出:用戶(hù)模式樹(shù)
Procedure Patterntree(T,p)
{create_ tree (T);//創(chuàng )建Pattern-Tree的根節點(diǎn),以“null”標記
t=T; //t為當前結點(diǎn)
While A<>null do
{讀入一個(gè)事務(wù)數據庫項集Ai
while p !=null
do
{if p.user_id==t的祖先n.user_id
then
{ n.count=n.count+l;
t=n;
}
Elseif p.user_id==T的孩子c.user_id
then
{ c.count=c.count+ l;
t=c ;
}
else
insert_Patterntree(T,p) ;//把p作為新結點(diǎn)插入樹(shù)中,作為當前結點(diǎn)的孩子結點(diǎn)
p=p.next;
}
}
}
3.3 對模式樹(shù)進(jìn)行剪枝
模式樹(shù)建立后,可能存在大量的冗余的分枝,為了保證數據挖掘結果不被這些冗余分枝產(chǎn)生的噪聲所影響,因此需要對樹(shù)進(jìn)行剪枝,剔除噪聲信息。
算法:SPT(Tree,a),通過(guò)調用此算法對模式樹(shù)進(jìn)行剪枝
//SPT為支持度模式樹(shù),即Supported Access Pattern Tree;a為項目頭表
輸入:模式樹(shù)PatternTree,Min_Sup(模式樹(shù)的最小支持度)
輸出:經(jīng)過(guò)修剪后的支持度模式樹(shù)SPT,模式B={bi|i=1,2,3……n}
SPT(Tree,a)
{ i=1;
While(ai!= null) // 為項目頭表的某一項
{
if(ai.count>= Min_Sup)
then
{
模式bi= ai.head of node ;
p= ai.head of node ;//p指向ai在模式樹(shù)中
的位置
While (p!= null and ai.count>= Min_Sup)
{
查找p的前綴基,將p的前綴基和p連接,構
成模式b;
if (bi.count>= Min_Sup)
then
{
//bi.count 為模式b中p與p的前綴基中
的最小計數
在模式bi中保留p及其前綴基;
bi = bi. node_link
}
else
{
根據模式b中的p及其前綴基刪除
PatternTree中的相應節點(diǎn),重構子節點(diǎn)
與父節點(diǎn),同時(shí)修改項目頭表中的ai;
p=p. node_next//p指向 在模式樹(shù)中的
下一個(gè)位置;
}
}
}
else
{
修改項目頭結點(diǎn)的ai值;
刪除模式樹(shù)中相應的節點(diǎn)及其前綴基,重構父子
節點(diǎn);
i++;
}
}
}
通過(guò)模式樹(shù)的建立可以避免多次掃描事務(wù)數據庫;同時(shí)利用count域有效的保留了項集的數目,避免大量產(chǎn)生頻繁項集,對于減小空間時(shí)間復雜度起到了一定的作用。通過(guò)樹(shù)形結構可以避免產(chǎn)生大量冗余規則。
通過(guò)對模式樹(shù)的剪枝,可以減除在模式樹(shù)產(chǎn)生過(guò)程中產(chǎn)生的大量冗余分枝,起到了減小空間復雜度的作用,同時(shí)可以利用輸出模式B產(chǎn)生規則,避免了多項集的頻繁出現,減小了時(shí)間復雜度。
4 結束語(yǔ)
本項目中通過(guò)模式樹(shù)結構改進(jìn)了Apriori算法,彌補了Apriori算法存在的缺陷。此種方法既能夠對Apriori算法從時(shí)間復雜度和空間復雜度上進(jìn)行改進(jìn),同時(shí)又避免了中間規則的產(chǎn)生。本研究表明,通過(guò)利用一個(gè)模式樹(shù)結構來(lái)降低Apriori算法的存儲復雜度,并同時(shí)減少冗余規則的出現,這對于A(yíng)priori算法的改進(jìn)是一種有效的措施。
參考文獻
[1]鄧納姆.數據挖掘教程[M].郭崇慧,田鳳占,靳曉明,等譯.北京:清華大學(xué)出版社,2005.
[2]蘇新寧,楊建林,江念南,等.數據倉庫和數據挖掘[M].北京:清華大學(xué)出版社,2006.
[3]GAL C S, KANTOR P B, SHAPIRA B. Security Informatics and Terrorism: Patrolling the Web. Amsterdam: IOS Press,2008.
[4]BORGES J, LEVENE M. Evaluating Variable Length Markov Chain Models for Analysis of User Web Navigation Sessions.IEEE Transactions on Knowledge and Data Engineering.2007,19(4): 441-452.
【基于數據挖掘技術(shù)的保險行業(yè)決策分析研究】相關(guān)文章:
基于數據挖掘技術(shù)的交叉銷(xiāo)售分析12-08
基于數據挖掘的網(wǎng)絡(luò )入侵檢測技術(shù)11-23
基于數據挖掘技術(shù)的現代物流管理03-25
基于愛(ài)好的電子商務(wù)數據挖掘技術(shù)的研究12-08
基于聚類(lèi)分析的數據挖掘方法03-08
HIS數據的挖掘統計對醫院管理決策的意義03-14
數據挖掘技術(shù)在CRM中的應用03-22
數據挖掘在財務(wù)決策中的應用03-22