- 相關(guān)推薦
網(wǎng)頁(yè)模糊歸類(lèi)算法的應用與實(shí)現
摘要:本文運用以模糊綜合評判為核心的理論實(shí)現對網(wǎng)頁(yè)的模糊自動(dòng)歸類(lèi),詳細闡述了網(wǎng)頁(yè)模糊歸類(lèi)算法(FWCA),并且通過(guò)一個(gè)實(shí)例闡明了實(shí)現過(guò)程。作者利用此算法親自設計實(shí)現了一個(gè)“網(wǎng)頁(yè)模糊歸類(lèi)測試系統”,通過(guò)分析大量實(shí)驗數據證明了利用此算法得歸類(lèi)效果非常穩定和準確。
關(guān)鍵詞:FWCA 模糊綜合評判 網(wǎng)頁(yè)歸類(lèi) 分類(lèi)瀏覽 搜索引擎
自有文字和書(shū)籍以來(lái),人類(lèi)就開(kāi)始注意文章的分門(mén)別類(lèi)和編撰目錄。那些目錄事實(shí)上就將文章按照內容的類(lèi)別進(jìn)行了分類(lèi)。九十年代以來(lái),Internet 以驚人的速度發(fā)展起來(lái),Web的容量增長(cháng)迅速,平均每天增加100萬(wàn)個(gè)頁(yè)面。計算技術(shù)發(fā)展到今天,靠人來(lái)閱讀互聯(lián)網(wǎng)上信息和對網(wǎng)上信息做分門(mén)別類(lèi)和總結已經(jīng)不可能。
搜索引擎的分類(lèi)瀏覽模式由此應運而生。它的目錄分類(lèi)的質(zhì)量較高,檢索效果好;但是需要人工維護,因此存在成本高、信息更新慢、維護的工作量大的缺點(diǎn)。而基于模糊技術(shù)的網(wǎng)頁(yè)自動(dòng)歸類(lèi)能依據網(wǎng)頁(yè)中所包含的文本的語(yǔ)義將大量的網(wǎng)頁(yè)自動(dòng)分門(mén)別類(lèi),從而更好地幫助人們把握網(wǎng)絡(luò )信息。
網(wǎng)頁(yè)模糊歸類(lèi)步驟與算法
簡(jiǎn)單地說(shuō),網(wǎng)頁(yè)自動(dòng)歸類(lèi)所要完成的任務(wù)就是在給定的分類(lèi)體系下,根據網(wǎng)頁(yè)的內容自動(dòng)地確定網(wǎng)頁(yè)關(guān)聯(lián)的類(lèi)別。如果從純數學(xué)角度來(lái)看,網(wǎng)頁(yè)分類(lèi)的過(guò)程實(shí)際上就是一個(gè)多對多的映射過(guò)程。依據“貝葉斯假設”的內容,可以假定組成網(wǎng)頁(yè)的元素在確定網(wǎng)頁(yè)類(lèi)別的作用上相互獨立。這樣,可以使用網(wǎng)頁(yè)中出現的字或詞的集合來(lái)代替網(wǎng)頁(yè),即用一個(gè)向量來(lái)表示文本:D(W1,W2,W3……Wn),其中 Wi 為第 i 個(gè)元素(以下均稱(chēng)為“特征項”)的數值。當然,這將丟失大量關(guān)于網(wǎng)頁(yè)內容的信息,但是這種假設可以使網(wǎng)頁(yè)的表示和處理形式化,從而讓計算機可以處理網(wǎng)頁(yè)。
構成網(wǎng)頁(yè)中的文本的詞匯,數量是相當大的,因此,表示網(wǎng)頁(yè)的向量空間的維數也相當大,可以達到幾萬(wàn)維,所有幾萬(wàn)個(gè)詞匯對網(wǎng)頁(yè)分類(lèi)的意義是不同的。首先,需要考慮詞語(yǔ)的性質(zhì)。一些通用的、各個(gè)類(lèi)別都普遍存在的詞匯對分類(lèi)的貢獻是很小的,因此特征提取過(guò)程需要去掉對表達網(wǎng)頁(yè)類(lèi)別不太重要的詞匯。例如“的”、“地”、“得”、“著(zhù)”、“了”等等。其次,在某特定類(lèi)中出現比重大而在其他類(lèi)中出現比重小的詞匯對文本分類(lèi)的貢獻大,為了提高分類(lèi)精度,可以利用詞語(yǔ)的互信息量篩選出針對該類(lèi)的特征項集合。具體操作方法是算出每個(gè)詞語(yǔ)的互信息量并排序,然后抽取前n個(gè)詞語(yǔ)作為該類(lèi)別的特征項,抽取的原則是反復試驗使得網(wǎng)頁(yè)歸類(lèi)效果最優(yōu);バ畔⒘(I)計算公式由下式給出:
為了讓計算機為我們進(jìn)行網(wǎng)頁(yè)的自動(dòng)歸類(lèi),必須先對計算機進(jìn)行訓練。只要訓練網(wǎng)頁(yè)足夠多,那么由計算機進(jìn)行的歸類(lèi)活動(dòng)也將是準確的。所有的訓練樣本都需表示為向量 。并使用每個(gè)詞的相對詞頻(TF-IDF 公式)對網(wǎng)頁(yè)樣本的特征項進(jìn)行量化。然后,將每個(gè)類(lèi)別中的所有訓練樣本數據合成為一個(gè)平均參照樣本,計算方法就是將每個(gè)特征項的值求算術(shù)平均。相對詞頻計算公式由下式給出:
在歸類(lèi)過(guò)程中,采用三級模糊綜合評判。一級指標因素集(網(wǎng)頁(yè)中出現位置)包括:網(wǎng)頁(yè)題名、文章標題、第一段首句、第一段尾句、第二段首句、第二段尾句、第三段首句、第三段尾句、首段、尾段、HTML標記。二級指標因素集(詞性)包括:名詞, 動(dòng)詞, 形容詞, 副詞, 介詞, 連詞, 助詞, 數字, 符號。三級指標因素集:待分類(lèi)網(wǎng)頁(yè)中所包含的全部詞語(yǔ)的頻數。評價(jià)集確定為V={V1(不屬于0), V2(不太可能屬于0.25), V3(可能屬于0.5), V4(很可能屬于0.75), V5(屬于1)}。
專(zhuān)家隨機抽取了300篇網(wǎng)頁(yè),對這些網(wǎng)頁(yè)進(jìn)行人工自由標引、人工打分、詞頻統計,并進(jìn)行統計數據的分析、研究,將一級指標因素權重集確定為A={0.128, 0.128, 0.128, 0.104, 0.104, 0.104, 0.06, 0.06, 0.06, 0.06, 0.05, 0.05};根據語(yǔ)言學(xué)專(zhuān)家對各類(lèi)別中不同詞性的詞語(yǔ)對標志一個(gè)類(lèi)別(以中圖分類(lèi)法為標準)重要性程度統計和評分,將二級指標因素權重集確定為An={0.28, 0.18, 0.24, 0.06, 0.05, 0.04, 0.04, 0.06, 0.05};根據詞語(yǔ)的互信息量確定出三級指標因素權重為Anm={Anm1, Anm2 … Anmx} 其中,Anmx即為對應詞語(yǔ)的互信息量
隸屬函數采用卡夫曼教授提出的隸屬函數確定方法(正態(tài)分布模型)確定如下:
① 詞頻針對“不屬于”的隸屬函數
② 詞頻針對“不太可能屬于”的隸屬函數
③ 詞頻針對“不可能屬于”的隸屬函數
④ 詞頻針對“很可能屬于”的隸屬函數
⑤ 頻針對“屬于”的隸屬函數
其中,axyz是訓練樣本中詞語(yǔ)的相對詞頻;x為樣本網(wǎng)頁(yè)中對應詞的統計詞頻;系數是通過(guò)人工評判得到一些特殊點(diǎn),由待定系數法求出的。
下面就要根據多級模糊綜合評判的計算方法與步驟將待歸類(lèi)網(wǎng)頁(yè)與所有類(lèi)別的平均參照樣本進(jìn)行一遍計算,得出一組表示該網(wǎng)頁(yè)與各個(gè)類(lèi)別貼近度的數值。然后按照“最大隸屬原則”,將網(wǎng)頁(yè)劃到Vn值最大的對應的類(lèi)別中;或者用“域值法”,事先確定一個(gè)不大于1的域值λ,若Vn
【網(wǎng)頁(yè)模糊歸類(lèi)算法的應用與實(shí)現】相關(guān)文章:
圖像處理中的模糊算法及實(shí)現03-13
圖像拼接算法及實(shí)現03-03
FFT算法的研究與DSP實(shí)現03-07
鐵路行包配裝算法研究與實(shí)現03-02
高級加密標準Rijndael算法的分析及實(shí)現11-23
指紋預處理算法與實(shí)現的研究03-07