一级日韩免费大片,亚洲一区二区三区高清,性欧美乱妇高清come,久久婷婷国产麻豆91天堂,亚洲av无码a片在线观看

文本聚類(lèi)開(kāi)題報告

時(shí)間:2024-08-06 11:57:25 開(kāi)題報告 我要投稿
  • 相關(guān)推薦

文本聚類(lèi)開(kāi)題報告范文

  文檔聚類(lèi)可以作為多文檔自動(dòng)文摘等自然語(yǔ)言處理應用的預處理步驟,可以將重要新聞文本進(jìn)行聚類(lèi)處理,是一種處理文本信息的重要手段。

文本聚類(lèi)開(kāi)題報告范文

  基于K―Mean文本聚類(lèi)的研究

  摘 要 文本聚類(lèi)能夠把相似性大的文本聚到同一類(lèi)中。K-Means常用來(lái)聚類(lèi)文本,但是由于聚類(lèi)中心的選取對聚類(lèi)結果有影響,導致聚類(lèi)不穩定,因此采用一種基于聚類(lèi)中心的改進(jìn)算法分析文本,通過(guò)實(shí)驗,驗證算法的有效性。

  關(guān)鍵詞 文本聚類(lèi);k-means;相似性;度量準則

  中圖分類(lèi)號:TP391 文獻標識碼:B

  文章編號:1671-489X(20XX)18-0050-03

  Research for Text Clustering based on K-Mean//ZHANG Yue, LI Baoqing, HU Lingfang, MENG Li

  Abstract Text clustering can make the text similarity large clustered into the same class, K-Means usually is used in text clustering, because of impacting on the cluster center, which results in the clustering instability. Therefore, this paper uses a text analysis of improved algorithm based on the clustering center, through the experiment, it verifies the effectiveness of the improved algorithm.

  Key words text clustering; k-means; similarity; measure criterion

  文本聚類(lèi)是把不同的文本分別聚在不同的類(lèi)別中,是文本挖掘的重要技術(shù),它是一種無(wú)監督的學(xué)習技術(shù),每個(gè)類(lèi)中包含的文本之間具有較大的相似性,不同類(lèi)間的文本相似性比較小。文本聚類(lèi)是數據挖掘的重要分支,它應用神經(jīng)網(wǎng)絡(luò )、機器學(xué)習等技術(shù),能夠自動(dòng)地對不同文本進(jìn)行分類(lèi)。

  在文本聚類(lèi)分析中,文本特征表示一般采用向量空間模型[1],這種模型能更好表現文本。在對文本聚類(lèi)的研究中,Steinbach等人研究了基于劃分的方法和基于層次的方法在文本聚類(lèi)中的適用程度[2-3],得出結論:采用K-Means算法進(jìn)行聚類(lèi),不僅聚類(lèi)結果較好,而且適用于數據量比較大的聚類(lèi)場(chǎng)合。在文章中根據研究者對K-Means的發(fā)現,結合實(shí)際研究,采用一種基于K-Means的改進(jìn)算法來(lái)聚類(lèi)。Dhillod等人對文本聚類(lèi)進(jìn)行研究發(fā)現,采用余弦?jiàn)A角作為相似性度量比采用歐氏距離度量的結果好很多[4]。

  1 文本聚類(lèi)

  文本聚類(lèi)的方法很多,主要分為基于層次的方法、基于劃分的方法、基于密度的方法、基于模型的方法、基于網(wǎng)格的方法[5]。在這些聚類(lèi)方法中,基于劃分的K-Mean是最常用也是很多改進(jìn)方法的基礎,文章中采取的改進(jìn)方法也是基于K-Mean的。

  K-Mean首先由MacQueent[6]提出。它能在大數據集中廣泛被使用,因為算法效率較高、算法執行過(guò)程理解容易。當前進(jìn)行的很多研究都是以K-Mean為基礎開(kāi)展進(jìn)行的,它的計算復雜度低,具有與文檔數量成線(xiàn)性關(guān)系的特性,計算效率不僅高,而且伸縮性較強,適應大數據集的能力也很強。K-Mean以k為初始聚類(lèi)數,然后把n個(gè)文本分到k個(gè)聚類(lèi)中,這樣類(lèi)內的文本具有較高的相似度,不同類(lèi)間的相似度較小。

  K-Mean具體的算法過(guò)程如下:

  1)首先給定n個(gè)數據文本,從其中任選k個(gè)文本,這k個(gè)數據文本初始地代表了k個(gè)類(lèi)的數據中心;

  2)對剩余的每個(gè)文本計算其到每個(gè)中心的距離,并把它歸到最近的中心類(lèi)中;

  3)重新計算已經(jīng)得到的各個(gè)類(lèi)的中心,通常計算中心的準則函數采用平方誤差準則,這個(gè)準則能夠使生成的結果類(lèi)盡可能地獨立和緊湊;

  4)迭代執行第二步和第三步的動(dòng)作直至新的中心與原中心相等或小于指定閾值,直到算法結束。

  具體的算法流程如圖1所示。

  2 改進(jìn)的聚類(lèi)算法

  雖然使用K-Mean算法進(jìn)行文本聚類(lèi)時(shí),具有計算復雜度低,計算效率不僅高,而且伸縮性較強,適應大數據集的能力也很強的優(yōu)點(diǎn),但是實(shí)驗發(fā)現,不僅初始聚類(lèi)中心的選取對聚類(lèi)結果有影響,孤立點(diǎn)的存在對文本的相似性的判斷也有很大的影響,這就導致聚類(lèi)判斷不穩定;诖,文章采用一種改進(jìn)的方法來(lái)進(jìn)行文本聚類(lèi),改進(jìn)關(guān)鍵點(diǎn)在于聚類(lèi)中心的計算,用與原聚類(lèi)中心相似的文本數據來(lái)計算平均值作為該聚類(lèi)中心。

  改進(jìn)的K-Means算法描述如下所示:

  1)首先給定n個(gè)數據文本,從其中任選k個(gè)文本,這k個(gè)數據文本初始地代表了k個(gè)類(lèi)的數據中心;

  2)對剩余的每個(gè)文本計算其到每個(gè)中心的距離,并把它歸到最近的中心類(lèi)中,記作means;

  3)選擇類(lèi)中與類(lèi)中心大于等于(1+a)*means的文本集合{D1,D2,...,Dk},其中a[-0.31,0.31],重新計算新文本集中的類(lèi)中心;

  4)迭代執行第2步和第3步的動(dòng)作直至新的中心與原中心相等或小于指定閾值,直到算法結束。

  3 相似度計算

  文本聚類(lèi)中涉及文本的相似性計算,只有相似性大的文本才能聚到同一類(lèi)中,因此,相似性的度量對文本的聚類(lèi)很關(guān)鍵。在文本聚類(lèi)中,相似度度量方式一般有曼哈頓距離、Cosine距離、歐式距離,其中Cosine距離更能體現文本的相似性。本文主要采用Cosine距離,當兩個(gè)文本之間的文本相似度越大,它們之間的相關(guān)性越強。文本集用向量空間模型表示后,文本的相似度采用向量之間距離表示:

  4 評價(jià)標準

  文本聚類(lèi)的有效性需要進(jìn)行驗證,文章中主要采用F度量、平均純度來(lái)對聚類(lèi)結果進(jìn)行評價(jià)。

  1)F度量。F度量把召回率和評價(jià)標準準確率結合在一起。

  準確率:P(i,r)=nir/nr (2)

  召回率:R(i,r)=nir/ni (3)

  其中nir是類(lèi)別r中包含類(lèi)別i中的文本的個(gè)數,nr是類(lèi)別r中實(shí)際文本的數目,ni是原本類(lèi)別i中應有的文本數,F值的計算公式:

  (4)

  由公式(4)最后得到評價(jià)函數為:

  (5)

  其中n為文本的總數。從公式看出F值越高,聚類(lèi)效果越好。

  2)平均純度。除了用F度量來(lái)評價(jià)聚類(lèi),文章中還使用平均純度來(lái)度量文本聚類(lèi)質(zhì)量好壞[7]。設類(lèi)ci的大小為ni,則該類(lèi)的純度為:

  (6)

  其中nj表示類(lèi)ci與第j類(lèi)的交集大小,則平均純度公式為:

  (7)

  其中k為最終的聚類(lèi)數目。一般說(shuō)來(lái)純度越高聚類(lèi)效果越好。

  5 聚類(lèi)實(shí)驗結果分析

  文章中采用的實(shí)驗數據主要是搜狗語(yǔ)料庫。搜狗語(yǔ)料庫主要包括10種文本類(lèi)別:軍事、招聘、IT、文化、健康、汽車(chē)、體育、旅游、財經(jīng)、教育。搜狗語(yǔ)料庫包含了每一類(lèi)的文件夾,在文件夾中都是txt文本。為了驗證改進(jìn)后的算法比原算法更有效,進(jìn)行了多次實(shí)驗,最終選取了其中一次實(shí)驗結果為例子,對兩種算法的F度量和純度進(jìn)行比較,分別如表1和表2所示。

  從表1可以看出,改進(jìn)聚類(lèi)中心的K-Means算法在純度方面相對有一些提高;從表2可以看到F值提高明顯;從兩個(gè)表中的實(shí)驗結果可以看到改進(jìn)的算法是有效的。

  6 結論

  基于文本的聚類(lèi)分析能夠對大量的文本進(jìn)行聚類(lèi),分析中采用的聚類(lèi)算法的改進(jìn)能在很大程度上提高聚類(lèi)的準確性。實(shí)驗證明達到設計的效果,同時(shí)也為后期的各種數據挖掘工作打下基礎。

  參考文獻

  [1]Salton G, Wong A, Yang C S. A vector space model for automatic indexing[J].Comm. ACM,1975,18(11):613-620.

  [2]Steinbach M, KaryPis G, Kumar V. A comparison of document clustering techniques[C].Proceedings of KDD 2000 Workshop on Text Mining.2000:1-20.

  [3]Ying Zhao, KaryPis G. Hierarchical Clustering Algorithms for Document Datasets[J].Proceedings of Data Mining and Knowledge Discovery,2005,10(2):141-168.

  [4]Dhillon I S, Modha D S. Concept decompositions for large sparse text data using clustering[J].Machine Learning,2001,

  42(1):143-175.

  [5]邵峰晶,于忠清.數據挖掘原理與算法[M].北京:中國水利水電出版社,2003.

  [6]MacQueen J. Some methods for classification and analysis

  of multivariate observations[C]//Proceedings of 5th Berkeley

  Symposium on Mathematics. Statistics and Science.1967:281-

  296.

  [7]Hammouda K, Kamel M. Collaborative document clu-stering[C]//2006 SIAM Conference on Data Mining (SDM06).

  2006:453-463.

【文本聚類(lèi)開(kāi)題報告】相關(guān)文章:

化學(xué)類(lèi)的開(kāi)題報告03-18

建筑、工程類(lèi)論文開(kāi)題報告12-04

醫學(xué)類(lèi)畢業(yè)開(kāi)題報告11-30

建筑工程類(lèi)論文開(kāi)題報告02-28

醫學(xué)類(lèi)開(kāi)題報告的基本寫(xiě)法11-21

關(guān)于理工類(lèi)開(kāi)題報告范文03-16

醫學(xué)類(lèi)開(kāi)題報告基本寫(xiě)法03-19

翻譯類(lèi)英語(yǔ)論文開(kāi)題報告11-19

基于網(wǎng)格的聚類(lèi)方法研究03-13

一级日韩免费大片,亚洲一区二区三区高清,性欧美乱妇高清come,久久婷婷国产麻豆91天堂,亚洲av无码a片在线观看