基于聚類(lèi)分析的數據挖掘方法

時(shí)間：2024-06-27 07:27:15 計算機應用畢業(yè)論文我要投稿

相關(guān)推薦

基于聚類(lèi)分析的數據挖掘方法

畢業(yè)論文

基于聚類(lèi)分析的數據挖掘方法

目錄
前言 1
1 相關(guān)理論 2
1．1 數據挖掘（DATA MINING）理論 2
1．1．1 概念 2
1．1．2 數據挖掘的任務(wù) 2
1．1．3 數據挖掘的應用 3
1．1．4 數據挖掘的發(fā)展現狀 4
1．2 聚類(lèi)（CLUSTERING）理論 5
1．2．1概念 5
1．2．2聚類(lèi)算法的分類(lèi) 5
1．2．3分割聚類(lèi)方法 6
1．2．4聚類(lèi)算法的應用 6
1．3 WEB數據挖掘理論 7
1．3．1 文本檢索概念 7
1．3．2 Web數據挖掘概念 8
1．3．3 Web數據挖掘工作原理 8
1．3．4 Web挖掘分類(lèi)及各自的研究現狀及發(fā)展 9
1．4 ASP理論 11
1．4．1概念 11
1．4．2 ASP服務(wù)器（IIS） 12
1．4．3 ASP程序的發(fā)布與執行 13
1．4．4 ASP的內置對象 13
1．5 數據庫理論 14
1．5．1 SQL概念 14
1．5．2 Microsoft Access 2003數據庫介紹 15
1．5．3 Access數據庫的安全性 15
2 需求分析 17
2．1 任務(wù)概述 17
2．1．1研究背景 17
2．1．2問(wèn)題提出 17
2．1．3研究現狀 17
2．1．4研究目標 18
2．2 數據需求 18
2．2．1靜態(tài)數據 18
2．2．2動(dòng)態(tài)數據 19
2．2．3數據庫描述 19
2．2．4數據采集 19
2．3 功能需求 19
2．4 性能需求 19
2．4．1數據精確度需求 19
2．4．2適應性需求 20
2．5 運行需求 20
2．5．1用戶(hù)界面 20
2．5．2運行環(huán)境 21
3 概要設計 22
3．1 總體設計 22
3．1．1總體結構 22
3．1．2處理流程 22
3．1．3模塊設計 24
3．2 接口設計 26
3．2．1外部接口 26
3．2．2內部接口 26
4 詳細設計 27
4．1 系統結構 27
4．1．1系統框架 27
4．1．2數據流圖 28
4．2 模塊詳細設計 28
4．2．1人機交互模塊 28
4．2．2聚類(lèi)分析模塊 31
4．2．3數據庫模塊 33
4．3 數據字典 34
5 編碼與實(shí)現 36
5．1 人機交互模塊實(shí)現 36
5．1．1數據庫連接部分 36
5．1．2查詢(xún)匹配部分 37
5．1．3結果顯示部分 37
5．2 聚類(lèi)模塊實(shí)現 38
5．2．1分詞部分 38
5．2．2文本向量空間模型部分 39
5．2．3聚類(lèi)部分 40
5．3 數據庫模塊實(shí)現 41
5．3．1網(wǎng)絡(luò )蜘蛛（spider） 41
5．3．2數據庫表 41
6 性能測試與分析 41
6．1 測試實(shí)例的研究與選擇 41
6．2 測試環(huán)境與測試條件 41
6．2．1測試環(huán)境 41
6．2．2 Web服務(wù)器的安裝 41
6．3 實(shí)例測試 43
結束語(yǔ) 45
參考文獻 46
致謝 47

摘要本設計課題為基于聚類(lèi)分析的數據挖掘方法，為實(shí)現這1課題，我利用ASP技術(shù)，設計了1個(gè)Web搜索引擎。通過(guò)對搜索引擎的優(yōu)化，使其對檢索的初始結果進(jìn)行聚類(lèi)分析，返回結果給用戶(hù)。從而也實(shí)現了“基于聚類(lèi)分析的數據挖掘方法”這1目標。搜索引擎我設計了3個(gè)模塊，分別為人機交互模塊、聚類(lèi)模塊、數據庫模塊3個(gè)模塊。人機交互模塊通過(guò)ADO對象進(jìn)行數據庫連接。當用戶(hù)輸入關(guān)鍵字，檢索數據庫的網(wǎng)頁(yè)數據，得到初始數據結果集，聚類(lèi)模塊對這些結果進(jìn)行聚類(lèi)分析，再把聚類(lèi)結果返回給用戶(hù)。由于Web文本是無(wú)結構或半結構化的，進(jìn)行聚類(lèi)分析之前要對文本建立向量空間。建立向量空間模型，首先對文本分詞，再掃描文本提取特征值，計算這些特征值的權重，依據文本相似度對文本進(jìn)行聚類(lèi)，聚類(lèi)算法采用k-means算法。最后把結果返回給用戶(hù)。數據庫模塊設計了兩個(gè)表，1個(gè)保存網(wǎng)頁(yè)數據，另1個(gè)表是分詞時(shí)所需要用到的表，數據的獲取，由開(kāi)源網(wǎng)絡(luò )蜘蛛執行。通過(guò)設計實(shí)現，基本實(shí)現了基于聚類(lèi)分析的數據挖掘方法的初衷。
關(guān)鍵詞數據挖掘；聚類(lèi)分析；搜索引擎；文本向量

The method of Data Mining Based on Clustering Analysis

Abstract this design concentrates on data mining method which based on clustering analysis. In order to realize this task, I design a web search engine with the technique of ASP. From optimizing the search engine, the early results can be proceeded clustering analysis. This can make the similar results in a cluster. Finally, the search engine returns these results to the user. Also, from this, I can give my voice to the "The method of Data Mining Based on Clustering Analysis ". The search engine composes with the module of user, the module of clustering and the module of database. The module of user connect database with the object of ADO. After users enter the key words and recall the web page data of database, the user could get the initial results. The module of clustering clusters these results, and returns the results to the user. Because web text editing is non-structure or half-structure, vector space should be established for text editing before carry out clustering. In order to establish vector space model, the words should be extracted from the text editing firstly. Then the trait value should be extracted after the scanning of the text editing. According to the similar sign, the results make together. The method bases on k-means. Finally, return the results to the user. In the module of database, I design two tables. One is a data of web; the other is a dictionary table. From a spider, I can get the web data on the Internet and save this data to the database. From this design, I carry out the method of data mining based on clustering. .
Key words Data Mining; Clustering; Search Engine; Text Vector

前言
網(wǎng)絡(luò )和存儲技術(shù)的迅猛發(fā)展，使數據的傳播和積累速度不斷提高，但當我們?yōu)閾碛袠O其詳盡的數據而欣喜的同時(shí)，也發(fā)現新的數據處理和提煉技術(shù)非常匱乏。面對日益龐大的數據資源，人們迫切需要更強有力的工具來(lái)“挖掘”其中有用的信息。數據挖掘就是針對這1要求而發(fā)展來(lái)的。
近年來(lái), Internet 已成為計算機領(lǐng)域最熱門(mén)的1項技術(shù),Internet 的普及使人們可以突破空間、地域的限制,方便地共享資源。但在實(shí)際使用中,Web 網(wǎng)上龐大的數據量會(huì )給用戶(hù)的信息查詢(xún)帶來(lái)極大的困難。鑒于此,各種搜索引擎應運而生,比較有名的有Yahoo 、Alta Vista、Google、百度、北大天網(wǎng)等,另外還有許多針對新聞、論壇、音樂(lè )、游戲等的搜索引擎。
現階段網(wǎng)上大多數搜索工具都采用列表式目錄鏈接和關(guān)鍵詞查詢(xún)的方式,只要在題名和文章中含有該關(guān)鍵詞,則返回給用戶(hù),這樣往往帶來(lái)大量的無(wú)用信息,難以找到真正有用的內容。而現代社會(huì )的競爭趨勢要求必須對Web 上大量復雜的信息進(jìn)行實(shí)時(shí)地和深層次地分析,從中找出真正有價(jià)值的信息知識。因此,人們迫切感到需要1種新的技術(shù),可以從Web 海量的數據中自動(dòng)地、智能地抽取隱藏于這些數據中的知識。于是Web 挖掘作為數據挖掘技術(shù)和Web 的結合應運而生了。Web 挖掘不僅能夠幫助人們迅速找到所需要的信息,還能挖掘出用戶(hù)的潛在需求,主動(dòng)向用戶(hù)提供信息。理想的Web 挖掘可以在網(wǎng)絡(luò )上實(shí)現阮岡納贊的“圖書(shū)館5定律”,即在Web 上實(shí)現“信息是為了用的;每個(gè)用戶(hù)有其信息;每個(gè)有用信息有其用戶(hù);節省用戶(hù)的時(shí)間;網(wǎng)絡(luò )是1個(gè)生長(cháng)中的有機體”。如果把整個(gè)網(wǎng)絡(luò )看成1個(gè)巨大的數字圖書(shū)館則理想的Web 挖掘就相當于圖書(shū)館員,是網(wǎng)絡(luò )信息海洋的導航者,能夠從Web 海量信息中找到有用的知識。由于目前Web 頁(yè)面的重要信息主要集中在Web 的文本中,而聚類(lèi)分析作為數據挖掘的1個(gè)重要功能,也能作為1個(gè)獨立的工具來(lái)獲得數據分布的情況�？梢杂行У膶eb文本進(jìn)行聚類(lèi)，是檢索度大大提高。
現在對搜索引擎進(jìn)行聚類(lèi)，普遍采用下面的方法：首先建立Web文本向量空間模型，把非結構化或半結構化的文本文檔轉換成結構化的向量空間模型（即把文本轉化成數字表示的形式）。再對Web文本進(jìn)行聚類(lèi)。在搜索引擎應用中，常采用的聚類(lèi)算法現階段文本聚類(lèi)以層次凝聚法(以G- HAC 算法為代表) 和平面劃分法(以K- Means 算法為代表) 為主。此外也有研究工作者改進(jìn)的聚類(lèi)算法。
本文中，作者描述采用k-means算法設計的1個(gè)搜索引擎。通過(guò)聚類(lèi)算法的應用，使搜索引擎檢索精確度有了很大提高。但是由于作者的水平、時(shí)間有限，設計實(shí)現的功能不是很完善，本論文也存在1些缺點(diǎn)和錯誤，殷切希望老師批評指正。

【基于聚類(lèi)分析的數據挖掘方法】相關(guān)文章：

基于數據挖掘技術(shù)的交叉銷(xiāo)售分析12-08

基于數據挖掘的網(wǎng)絡(luò )入侵檢測技術(shù)11-23

基于數據挖掘技術(shù)的現代物流管理03-25

基于愛(ài)好的電子商務(wù)數據挖掘技術(shù)的研究12-08

電子商務(wù)中數據挖掘方法淺談03-01

基于數據挖掘技術(shù)的保險行業(yè)決策分析研究03-09

基于數據挖掘的差異化車(chē)險收入管理研究論文12-03

組合營(yíng)銷(xiāo)策略中基于約束的關(guān)聯(lián)規則挖掘方法03-07

數據挖掘理論在數據采集中的運用03-16

一级日韩免费大片,亚洲一区二区三区高清,性欧美乱妇高清come,久久婷婷国产麻豆91天堂,亚洲av无码a片在线观看

基于聚類(lèi)分析的數據挖掘方法