- 相關(guān)推薦
基于WEB文本挖掘的統計分析VB+ACCESS
畢業(yè)論文
基于WEB文本挖掘的統計分析
---用戶(hù)興趣建模與中文網(wǎng)頁(yè)自動(dòng)分類(lèi)
摘 要 本文介紹了運用Web文本挖掘技術(shù),在Windows平臺上實(shí)現用戶(hù)興趣建模和智能網(wǎng)頁(yè)推薦系統的方法和過(guò)程。首先簡(jiǎn)要介紹了目前國內外的研究動(dòng)態(tài)和水平,然后介紹了興趣模型的相關(guān)知識,主要包括:web文本挖掘的分類(lèi),web文本挖掘的靜態(tài)和動(dòng)態(tài)統計分析,興趣模型的發(fā)現與建立,用戶(hù)興趣模型的獲得與實(shí)現,中文分詞技術(shù)等內容。在簡(jiǎn)單介紹現有算法的基礎上,經(jīng)過(guò)實(shí)踐調查統計,根據課題的需要和實(shí)際情況,提出1種相對簡(jiǎn)單的用戶(hù)興趣模型的建立和實(shí)現的方法。并用VB 6.0 和Access 2003實(shí)現了相關(guān)功能。
關(guān)鍵詞: Web文本挖掘; 網(wǎng)志分析;統計分析;用戶(hù)興趣模型; 中文分詞
Stat and Analyse Based on Web Textual Mining
---User’s Interests Modeling and Chinese Pages Auto-Classify
Abstract In this paper,introduced the method and process of how to realize User’s Interest Modeling and Chinese Pages Commend System on Windows platform,which uses Web Textual Mining.In the begining,we introduce the resemble thesiss research developments and level at home and abroad.Then,we introduce the correlation knowledge of interest modeling,which include the classes of Web Textual Mining,static and dynamic statistic and analyze of Web Textual Mining,detect and build the interest model,obtain and realize the users interest model,Chinese Split Word technique etc.For the tasks requirements and practical situation,after introduced some algorithm in existence we produce a relative simple way of users interest modeling and the realize methods,by investigate and stat.The systems realize tool is Microsoft VB 6.0 and Microsoft Access 2003.
Keywords:Web Textual Mining; Web-log analyse; Stat and analyse; User’ s Interests Model;Word split
目 錄
1 前 言 1
1.1 課題背景 1
1.2 國內外研究動(dòng)態(tài)和水平 1
1.3 本文的主要工作 2
1.4 課題研究的意義 3
1.5 論文的大致結構 3
2 WEB文本挖掘 4
2.1 數據挖掘 4
2.1.1 WEB挖掘的概述及分類(lèi) 4
2.1.2 Web 挖掘的任務(wù) 5
2.1.3 Web數據挖掘幾個(gè)步驟 6
2.1.4 Web數據挖掘的分類(lèi) 7
2.2 WEB 文本挖掘 9
3 興趣模型的發(fā)現與建立 11
3.1 現有算法介紹 11
3.1.1 用戶(hù)主動(dòng)提供 11
3.1.2 相關(guān)反饋 12
3.1.3 現有興趣發(fā)現算法的缺陷 13
3.2 靜態(tài)和動(dòng)態(tài)相結合的方法 13
3.2.1 Web訪(fǎng)問(wèn)動(dòng)機的靜態(tài)分析 14
3.2.2 Web訪(fǎng)問(wèn)動(dòng)機的動(dòng)態(tài)分析 17
3.3 結論與模型的建立 17
3.3.1 根據隱式反饋[6]建立和更新用戶(hù)興趣模型 17
4 用戶(hù)興趣模型獲得與實(shí)現 22
4.1 COOKIES 22
4.1.1 Cookies的概述及屬性 22
4.1.2 Cookies的存取方法 23
4.1.3 Cookies安全需求和造成的安全威脅 24
4.1.4 Cookies的作用 25
4.2 收藏夾分析 26
4.1.1 獲取 “收藏夾”文件 26
4.1.2 收藏夾的目錄結構 28
4.1.3 如何分析網(wǎng)志中的頁(yè)面 28
4.3中文分詞技術(shù)介紹 30
4.3.1 中文分詞和對興趣收集的重要意義 30
4.3.2 CSW 5.0 中分詞組件簡(jiǎn)介 32
4.3.3本系統調用CSW5. DLL 示例 33
4.4 VB中的鉤子 34
4.4.1 鉤子的概述和分類(lèi) 34
4.4.2 VB中鉤子的實(shí)現 36
5 中文網(wǎng)頁(yè)自動(dòng)分類(lèi)技術(shù) 38
5.1 文檔自動(dòng)分類(lèi)算法的類(lèi)型 38
5.2 實(shí)現中文網(wǎng)頁(yè)自動(dòng)分類(lèi)的1般過(guò)程 39
5.3 影響自動(dòng)分類(lèi)的關(guān)鍵因素 40
5.3.1 分類(lèi)體系 40
5.3.2 特征提取 41
5.3.3 分類(lèi)算法介紹 41
6 系統設計與實(shí)現 42
6.1系統可行性研究 42
6.1.1 背景 42
6.1.2可行性研究的前提 42
6.1.3要求 42
6.1.4進(jìn)行可行性研究的方法 42
6.1.5設備 42
6.1.6 局限性 43
6.1.7 技術(shù)條件方面的可行性 43
6.1.8 社會(huì )因素方面的可行性 43
6.1.9 結論 43
6.2需求分析 43
6.2.1任務(wù)概述 43
6.2.2需求規定 44
6.2.3 數據管理 45
6.2.4 故障處理要求 45
6.2.5 運行環(huán)境規定 45
6.3總體設計 45
6.3.1 系統實(shí)現方案 45
6.3.2 功能模塊分解 45
6.3.3 數據庫設計 46
6.4詳細設計 47
6.4.1 結構程序設計 47
6.4.2 人機界面設計 53
6.5系統實(shí)現 53
7 結 論 54
致 謝 55
參考文獻 56
附錄1 CSW 5.0分詞軟件DLL介紹 57
附錄2 漢語(yǔ)詞性對照表[北大標準/中科院標準] 61
附錄3 部分程序源代碼 63
1 前 言
1.1 課題背景
近年來(lái),Internet的網(wǎng)絡(luò )和應用都在以驚人的速度在發(fā)展。根據中國互聯(lián)網(wǎng)絡(luò )信息中心2003年1月公布的中國互聯(lián)網(wǎng)絡(luò )發(fā)展狀況的統計數據,在中國,上網(wǎng)計算機總數達到2083萬(wàn),上網(wǎng)用戶(hù)總數達到5910萬(wàn),WWW站點(diǎn)數約為371600個(gè)。而就全世界而言,上網(wǎng)用戶(hù)數達到數億。同時(shí),各種各樣的網(wǎng)絡(luò )應用早己走進(jìn)各行各業(yè),尤其是遠程教育、電子商務(wù)、搜索引擎等等。但是由于 Internet是1個(gè)開(kāi)放、分布的信息空間,它本身所固有的 3個(gè)特點(diǎn)己經(jīng)明顯地阻礙了人們充分地使用 Internet上的信息資源:[1](1) Internet上可利用的信息是無(wú)組織的,多種結構形式的,并且分布在全世界的各個(gè)站點(diǎn)上;(2)數據和服務(wù)的類(lèi)型以及數量每天都在大量增加,因而信息可利用性和可靠性也在不斷地變化;(3)由于信息源的動(dòng)態(tài)性以及潛在的有用信息的更新和保存問(wèn)題,信息常常是模糊的:有時(shí)甚至是錯誤的。由于上述原因,在 Internet上進(jìn)行信息檢索經(jīng)常會(huì )出現“信息過(guò)載”,即網(wǎng)上的信息是海量和無(wú)組織的,易發(fā)生“資源迷向”,即用戶(hù)不知道如何更加有效地利用資源等問(wèn)題。
人們迫切需要1些智能的和個(gè)性化的工Internet系統,能學(xué)習和了解用戶(hù)的興趣愛(ài)好,成為用戶(hù)的助手或秘書(shū),能幫助用戶(hù)從浩如煙海的工Internet信息中快速而準確地搜索出他們感興趣的內容:
能為用戶(hù)提供主動(dòng)的、最新的信息服務(wù)和推薦;能幫助用戶(hù)實(shí)現個(gè)性化的遠程學(xué)習等。而這些系統的基礎都離不開(kāi)1個(gè) “個(gè)性化的用戶(hù)興趣模型”。
電子商務(wù)(E-Business)發(fā)展到現在,它提供的高效和安全的服務(wù),讓人們體會(huì )到了Internet應用的神奇。但是,電子商務(wù)服務(wù)提供商和用戶(hù)同時(shí)對它的提出了新的要求:如何才能象現實(shí)生活中的商家和客戶(hù)交流1樣,商家為客戶(hù)推薦適合其興趣愛(ài)好的商品和服務(wù),這在現實(shí)生活中,是靠商家與客戶(hù)的多次不同形式的交流達到的,然而,通過(guò)什么的途徑,能夠在Internet上,在商家與客戶(hù)沒(méi)有見(jiàn)面的環(huán)境下達到這1點(diǎn)呢。根據用戶(hù)顯式反饋的信息,進(jìn)行綜合整理,也許是1條途徑,但是這里面包含了太多的主觀(guān)和不確定因素。隱式反饋成了人們關(guān)注的焦點(diǎn),通過(guò)對用戶(hù)靜態(tài)的動(dòng)態(tài)的興趣體現,通過(guò)統計分析得到用戶(hù)興趣,從而為用戶(hù)量身定制web服務(wù)和page推薦,當然,這不可避免地涉及到個(gè)人隱私問(wèn)題。本課題就是在這樣的背景下提出來(lái)的。
【基于WEB文本挖掘的統計分析VB+ACCESS】相關(guān)文章:
基于WEB的在線(xiàn)考試系統03-09
基于Web服務(wù)的集成研究03-08
基于Web技術(shù)的網(wǎng)絡(luò )考試系統03-18
基于PHP的Web數據庫訪(fǎng)問(wèn)03-19
基于Web服務(wù)的短信網(wǎng)關(guān)設計03-26
基于聚類(lèi)分析的數據挖掘方法03-08
基于WEB的網(wǎng)絡(luò )考試系統ASP+SQL03-08
基于粗糙集的文本分類(lèi)研究03-03
基于Web的嵌入式數控系統實(shí)現03-07