- 相關(guān)推薦
文件自動(dòng)分類(lèi)系統Delphi
畢業(yè)論文
文件自動(dòng)分類(lèi)系統
摘要:隨著(zhù)網(wǎng)絡(luò )信息的迅猛發(fā)展,信息分類(lèi)已經(jīng)成為人們獲取有用信息不可缺少的工具,文件自動(dòng)分類(lèi)系統是信息分類(lèi)的重要研究方向,它是指在給定的分類(lèi)體系下,根據文件的內容自動(dòng)判別文件類(lèi)別的過(guò)程。
目前,向量空間模型是進(jìn)行大規模文件處理的最佳模型,論文首先對向量空間模型進(jìn)行了研究和探討,包括:向量空間模型的基本概念、特征項的選擇、特征項的提取算法等等。
然后,本文介紹了幾種常用的基于向量空間模型的文件分類(lèi)算法,同時(shí)描述了具體的算法步驟。
針對訓練樣本收集整理工作困難的問(wèn)題,本文重點(diǎn)探討了文件分類(lèi)算法結合的可能性,并具體提出了1種實(shí)際可行的的文件分類(lèi)系統的設計方法,該分類(lèi)系統由訓練過(guò)程、分類(lèi)過(guò)程兩部分組成,系統采用細致的模塊化設計,具有很強的擴展性和靈活性。在本文提出并實(shí)現的文件分類(lèi)系統上,進(jìn)行了測試工作,并得到了嚴格的實(shí)驗數據。
關(guān)鍵詞:文件分類(lèi);向量空間模型;特征項的提;特征項的選擇
Automatic classification of documents system
ABSTRACT: In recent years , information categorization turns more and more important for us to get useful information . File Categorization, i.e. automated assigning files to predefined categories based on their contents, is a task of increasing importance.
Now, Vector Space Model (VSM) is the best model for large scale of file processing. Firstly, We discuss the key techniques of VSM, including: basic conception of VSM, Feature Selection and Feature Extraction.
The second part is the introduction to several common File Categorization methods and the algorithms are presented in detail.
In many important file classification problems, acquiring class labels for training documents is costly. This paper show that the accuracy of file classifiers trained with a small number of labeled documents can be improved by using VSM methods. The proposed classification system is divided into two parts: training procedure and classifying procedure . The system has good scalability and flexibility. Based on the file classification system, we have done much work on testing and have got much precise data.
Keywords: File Classification;Vector Space Model; Feature Selection; Feature Extraction
目錄
1 前言 1
1.1 文件分類(lèi)系統的問(wèn)題描述 1
1.2 系統概述 1
1.3 文本分類(lèi)系統的研究目的和意義 2
1.4 論文的主要內容 3
1.4.1研究?jì)热?nbsp;3
1.4.2本文的組織 3
2.發(fā)展現狀及相關(guān)技術(shù)、工具介紹 5
2.1 系統發(fā)展現狀 5
2.2 Delphi的概述 5
2.3 Delphi開(kāi)發(fā)數據庫應用程序 9
2.4 Delphi應用程序框架和設計 9
2.5 Delphi多媒體應用程序 10
3.系統的總體設計 11
3.1 系統需求分析 11
3.2 設計的基本思想 11
3.3 系統的結構設計 11
3.4 文件分類(lèi)關(guān)鍵技術(shù) 13
3.5 系統開(kāi)發(fā)環(huán)境 18
3.6 運行環(huán)境 19
4.系統的結構與實(shí)現 20
4.1 功能模塊的實(shí)現和程序框圖 20
4.1.1 創(chuàng )建1個(gè)工程 20
4.1.2 語(yǔ)料庫維護模塊 20
4.1.4 特征提取 21
4.1.5 系統流程 22
4.1.6 文件分類(lèi)模塊 23
4.1.7 文件分類(lèi)流程 24
4.2 測試結果 25
4.3運行結果 28
5.結論和展望 29
致 謝 30
參考文獻 31
附錄 32
1 前言
210世紀910年代以來(lái),Internet 以驚人的速度發(fā)展起來(lái),它容納了海量的各種類(lèi)型的原始信息,包括文本信息、聲音信息、圖像信息等等。信息的高速增長(cháng)迫切要求信息處理技術(shù)的不斷進(jìn)步,文本分類(lèi)系統是近年來(lái)信息處理領(lǐng)域的1個(gè)很重要的方向[10]。它能夠依據文本的語(yǔ)義將大量的文件自動(dòng)分門(mén)別類(lèi),從而更好地幫助人們把握文本信息。
本章將簡(jiǎn)單地介紹文件分類(lèi)課題,討論文件分類(lèi)系統的研究意義及可能的應用范圍,并觀(guān)察了文件分類(lèi)系統當前的研究現狀,最后羅列了本文的結構和主要內容。
1.1文件分類(lèi)系統的問(wèn)題描述
文件自動(dòng)分類(lèi)是數值分類(lèi)學(xué)與信息處理技術(shù)相結合而產(chǎn)生的研究方向。在最初的分類(lèi)學(xué)中,人們往往通過(guò)經(jīng)驗和專(zhuān)業(yè)知識對事物進(jìn)行定性分析,很少使用數學(xué)工具。隨著(zhù)信息的不斷增長(cháng),信息之間的關(guān)系也日益復雜,從而導致分類(lèi)程度越來(lái)越細,分類(lèi)規模也越來(lái)越大,這時(shí)僅僅依靠定性分析將無(wú)法滿(mǎn)足要求,于是人們在分類(lèi)過(guò)程中引入了數學(xué)工具,使用統計、人工智能等各種方法處理信息,從而形成了數值分類(lèi)學(xué)(Numerical Taxology),也大大推動(dòng)了信息處理技術(shù)前進(jìn)的步伐[3]。
1.2 系統概述
系統可對文件集進(jìn)行有序的組織,即把相似的、相關(guān)主題的文件組織在1起,從而為用戶(hù)提供更高效的搜索與更準確的查詢(xún)結果。除了作為文件集的組織工具,文件分類(lèi)系統還有更廣泛的應用:
① 電子會(huì )議:通過(guò)對與會(huì )者意見(jiàn)、建議進(jìn)行分類(lèi)以確定進(jìn)1步討論的主題。
② 郵件分類(lèi):對用戶(hù)收到的電子郵件按主題進(jìn)行分類(lèi)。
③ 信息過(guò)濾:根據用戶(hù)的要求,將相關(guān)文件分配給可能感興趣的用戶(hù)。
文件分類(lèi)系統的實(shí)現通常有統計方法與知識工程方法兩種技術(shù)。知識工程方法必須編制大量的推理規則,費時(shí)費力,代價(jià)很高,因而不大適用于復雜的系統。而統計方法的實(shí)現較為簡(jiǎn)單,且在實(shí)際應用中表現出良好的性能,因此得到了廣泛的應用。系統采用了基于概率統計的方法。
【文件自動(dòng)分類(lèi)系統Delphi】相關(guān)文章:
delphi題庫系統(一)03-07
基于Delphi的試卷智能生成系統設計Delphi+SQL11-23
文本文件壓縮算法研究Delphi03-08
家庭理財系統Delphi+SQL11-23
世界杯投注系統Delphi+SQL03-08