- 相關(guān)推薦
計算機畢業(yè)論文--數據挖掘技術(shù)研究
[摘要] 本文主要介紹了數據挖掘的基本概念,以及數據挖掘的方法。[關(guān)鍵詞] 數據挖掘 數據挖掘方法
隨著(zhù)信息技術(shù)迅速發(fā)展,數據庫的規模不斷擴大,產(chǎn)生了大量的數據。但大量的數據往往無(wú)法辨別隱藏在其中的能對決策提供支持的信息,而傳統的查詢(xún)、報表工具無(wú)法滿(mǎn)足挖掘這些信息的需求。因此,需要一種新的數據分析技術(shù)處理大量數據,并從中抽取有價(jià)值的潛在知識,數據挖掘(Data Mining)技術(shù)由此應運而生。
一、數據挖掘的定義
數據挖掘是指從數據集合中自動(dòng)抽取隱藏在數據中的那些有用信息的非平凡過(guò)程,這些信息的表現形式為:規則、概念、規律及模式等。它可幫助決策者分析歷史數據及當前數據,并從中發(fā)現隱藏的關(guān)系和模式,進(jìn)而預測未來(lái)可能發(fā)生的行為。數據挖掘的過(guò)程也叫知識發(fā)現的過(guò)程。
二、數據挖掘的方法
1.統計方法。傳統的統計學(xué)為數據挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數據集概率分布的基本工具,處理數據挖掘中的分類(lèi)問(wèn)題,回歸分析用來(lái)找到一個(gè)輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來(lái)描述一個(gè)變量的變化趨勢和別的變量值的關(guān)系的線(xiàn)性回歸,還有用來(lái)為某些事件發(fā)生的概率建模為預測變量集的對數回歸、統計方法中的方差分析一般用于分析估計回歸直線(xiàn)的性能和自變量對最終回歸的影響,是許多挖掘應用中有力的工具之一。
2.關(guān)聯(lián)規則。關(guān)聯(lián)規則是一種簡(jiǎn)單,實(shí)用的分析規則,它描述了一個(gè)事物中某些屬性同時(shí)出現的規律和模式,是數據挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規則在數據挖掘領(lǐng)域應用很廣泛適合于在大型數據集中發(fā)現數據之間的有意義關(guān)系,原因之一是它不受只選擇一個(gè)因變量的限制。大多數關(guān)聯(lián)規則挖掘算法能夠無(wú)遺漏發(fā)現隱藏在所挖掘數據中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過(guò)關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應用價(jià)值,要對這些規則要進(jìn)行有效的評價(jià),篩選有意義的關(guān)聯(lián)規則。
3.聚類(lèi)分析。聚類(lèi)分析是根據所選樣本間關(guān)聯(lián)的標準將其劃分成幾個(gè)組,同組內的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類(lèi)和增量聚類(lèi)。聚類(lèi)方法適合于探討樣本間的內部關(guān)系,從而對樣本結構做出合理的評價(jià),此外,聚類(lèi)分析還用于對孤立點(diǎn)的檢測。并非由聚類(lèi)分析算法得到的類(lèi)對決策都有效,在運用某一個(gè)算法之前,一般要先對數據的聚類(lèi)趨勢進(jìn)行檢驗。
4.決策樹(shù)方法。決策樹(shù)學(xué)習是一種通過(guò)逼近離散值目標函數的方法,通過(guò)把實(shí)例從根結點(diǎn)排列到某個(gè)葉子結點(diǎn)來(lái)分類(lèi)實(shí)例,葉子結點(diǎn)即為實(shí)例所屬的分類(lèi)。樹(shù)上的每個(gè)結點(diǎn)說(shuō)明了對實(shí)例的某個(gè)屬性的測試,該結點(diǎn)的每一個(gè)后繼分支對應于該屬性的一個(gè)可能值,分類(lèi)實(shí)例的方法是從這棵樹(shù)的根結點(diǎn)開(kāi)始,測試這個(gè)結點(diǎn)指定的屬性,然后按照給定實(shí)例的該屬性值對應的樹(shù)枝向下移動(dòng)。決策樹(shù)方法是要應用于數據挖掘的分類(lèi)方面。
5.神經(jīng)網(wǎng)絡(luò )。神經(jīng)網(wǎng)絡(luò )建立在自學(xué)習的數學(xué)模型基礎之上,能夠對大量復雜的數據進(jìn)行分析,并可以完成對人腦或其他計算機來(lái)說(shuō)極為復雜的模式抽取及趨勢分析,神經(jīng)網(wǎng)絡(luò )既可以表現為有指導的學(xué)習也可以是無(wú)指導聚類(lèi),無(wú)論哪種,輸入到神經(jīng)網(wǎng)絡(luò )中的值都是數值型的。人工神經(jīng)元網(wǎng)絡(luò )模擬人腦神經(jīng)元結構,建立三大類(lèi)多種神經(jīng)元網(wǎng)絡(luò ),具有非線(xiàn)形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學(xué)習、自組織和自適應能力的種種優(yōu)點(diǎn)。
6.遺傳算法。遺傳算法是一種受生物進(jìn)化啟發(fā)的學(xué)習方法,通過(guò)變異和重組當前己知的最好假設來(lái)生成后續的假設。每一步,通過(guò)使用目前適應性最高的假設的后代替代群體的某個(gè)部分,來(lái)更新當前群體的一組假設,來(lái)實(shí)現各個(gè)個(gè)體的適應性的提高。遺傳算法由三個(gè)基本過(guò)程組成:繁殖(選擇)是從一個(gè)舊種群(父代)選出生命力強的個(gè)體,產(chǎn)生新種群(后代)的過(guò)程;交叉〔重組)選擇兩個(gè)不同個(gè)體〔染色體)的部分(基因)進(jìn)行交換,形成新個(gè)體的過(guò)程;變異(突變)是對某些個(gè)體的某些基因進(jìn)行變異的過(guò)程。在數據挖掘中,可以被用作評估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關(guān)于數據先驗知識的情況下,只以考察數據的分類(lèi)能力為基礎,解決模糊或不確定數據的分析和處理問(wèn)題。粗糙集用于從數據庫中發(fā)現分類(lèi)規則的基本思想是將數據庫中的屬性分為條件屬性和結論屬性,對數據庫中的元組根據各個(gè)屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結論屬性劃分的子集之間上下近似關(guān)系生成判定規則。所有相似對象的集合稱(chēng)為初等集合,形成知識的基本成分。任何初等集合的并集稱(chēng)為精確集,否則,一個(gè)集合就是粗糙的(不精確的)。每個(gè)粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應用于數據挖掘中的分類(lèi)、發(fā)現不準確數據或噪聲數據內在的結構聯(lián)系。
8.支持向量機。支持向量機(SVM)是在統計學(xué)習理論的基礎上發(fā)展出來(lái)的一種新的機器學(xué)習方法。它基于結構風(fēng)險最小化原則上的,盡量提高學(xué)習機的泛化能力,具有良好的推廣性能和較好的分類(lèi)精確性,能有效的解決過(guò)學(xué)習問(wèn)題,現已成為訓練多層感知器、RBF神經(jīng)網(wǎng)絡(luò )和多項式神經(jīng)元網(wǎng)絡(luò )的替代性方法。另外,支持向量機算法是一個(gè)凸優(yōu)化問(wèn)題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點(diǎn)都是包括神經(jīng)元網(wǎng)絡(luò )在內的其他算法所不能及的。支持向量機可以應用于數據挖掘的分類(lèi)、回歸、對未知事物的探索等方面。
事實(shí)上,任何一種挖掘工具往往是根據具體問(wèn)題來(lái)選擇合適挖掘方法,很難說(shuō)哪種方法好,那種方法劣,而是視具體問(wèn)題而定。
三、結束語(yǔ)
目前,數據挖掘技術(shù)雖然得到了一定程度的應用,并取得了顯著(zhù)成效,但仍存在著(zhù)許多尚未解決的問(wèn)題。隨著(zhù)人們對數據挖掘技術(shù)的深人研究,數據挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應用,并取得更加顯著(zhù)的效果。
參考文獻:
蘇新寧楊建林鄧三鴻等:數據挖掘理論與技術(shù)[M].北京:科學(xué)技術(shù)文獻出版社,2003
【計算機畢業(yè)論文--數據挖掘技術(shù)研究】相關(guān)文章:
空間數據挖掘技術(shù)研究分析03-22
數據挖掘理論在數據采集中的運用03-16
數據挖掘的論文參考文獻10-14
基于聚類(lèi)分析的數據挖掘方法03-08
數據挖掘在CRM中的應用分析03-22
數據挖掘技術(shù)在CRM中的應用03-22
數據新聞畢業(yè)論文12-05
數據挖掘技術(shù)在飯店營(yíng)銷(xiāo)中的運用03-28
旅游管理下數據挖掘運用論文11-18