一级日韩免费大片,亚洲一区二区三区高清,性欧美乱妇高清come,久久婷婷国产麻豆91天堂,亚洲av无码a片在线观看

Web日志的研究分析

時(shí)間:2024-09-27 14:51:20 Web Services 我要投稿
  • 相關(guān)推薦

關(guān)于Web日志的研究分析

  描述了Web日志數據預處理技術(shù)的一種改進(jìn)技術(shù)——Frame過(guò)濾技術(shù),對其關(guān)鍵部分與運作模式進(jìn)行了研究與改進(jìn)。討論了Frame頁(yè)面過(guò)濾預處理技術(shù)在Web頁(yè)面挖掘中的效率問(wèn)題,分析了決策樹(shù)算法中最著(zhù)名的算法——ID3算法,并用ID3算法對Frame過(guò)濾算法進(jìn)行了改進(jìn),比較新舊算法的執行效率及算法結果質(zhì)量,得出了新算法執行效率更高及質(zhì)量更好的結論,從而搞高了對存在Frame頁(yè)面的網(wǎng)站實(shí)施Web日志挖掘算法時(shí)挖掘結果的興趣度。

關(guān)于Web日志的研究分析

  1 引言

  Internet的迅速發(fā)展使得Web為人們提供了內容豐富且數量龐大的信息,隨著(zhù)數據挖掘技術(shù)的出現以及發(fā)展,數據挖掘逐漸被應用于Web數據。

  Web日志挖掘是三大類(lèi)Web挖掘之一,它主要包括數據預處理和挖掘算法實(shí)施兩個(gè)主要階段.實(shí)施挖掘算法之前要對Web日志文件進(jìn)行預處理,將其轉化為用戶(hù)會(huì )話(huà)集.本文著(zhù)重討論Web日志挖掘預處理技術(shù)中的Frame頁(yè)面過(guò)濾預處理技術(shù),即在傳統的Web日志預處理過(guò)程中加入Frame頁(yè)面過(guò)濾這一步驟,并提出了用決策樹(shù)算法著(zhù)名的ID3算法進(jìn)行Frame頁(yè)面過(guò)濾,進(jìn)一步提高了日志數據預處理的質(zhì)量和效率,從而為挖掘算法的實(shí)施提供更為準確的數據,提高了對存在Frame頁(yè)面的網(wǎng)站實(shí)施Web日志挖掘算法時(shí)整個(gè)Web日志挖掘的效率及挖掘結果的興趣性。

  2 Web日志預處理中的Frame頁(yè)面過(guò)濾技術(shù)[2]2.1 Web日志預處理技術(shù)現狀

  Web日志挖掘[1] [3-4]是指將數據挖掘技術(shù)應用于Web服務(wù)器日志文件,以發(fā)現隱藏在其中的用戶(hù)訪(fǎng)問(wèn)模式。Web日志預處理是在Web日志挖掘前,對Web日志進(jìn)行清理、過(guò)濾以及重新組合的過(guò)程,其目的是剔除日志中對挖掘過(guò)程無(wú)用的屬性及數據,并將Web日志數據轉換為挖掘算法可識別的保存形式。到目前為止提出的Web日志的預處理技術(shù),它包含三種方法識別用戶(hù)的活動(dòng)集合:

  (1) Web服務(wù)器提供Cookie,則具有相同Cookie值的頁(yè)面請求是來(lái)自同一個(gè)用戶(hù),則用戶(hù)會(huì )話(huà)識別的主要的任務(wù)就是將Web日志劃分為不同Cookie值所對應的頁(yè)面請求集合。

  (2) Web服務(wù)器沒(méi)有提供Cookie,但每個(gè)網(wǎng)站用戶(hù)都要一個(gè)登錄標識符方可訪(fǎng)問(wèn)站點(diǎn),則分析工具即可利用登錄標識符識別會(huì )話(huà)。

 、湃绻鸚eb服務(wù)器既沒(méi)有Cookie也沒(méi)有登錄標識符,可以利用主機地址,同時(shí)分析日志中每條記錄的請求頁(yè)和引用頁(yè)的URL,然后根據Web站點(diǎn)的拓撲結構(超鏈接)和其它啟發(fā)式規則識別用戶(hù)會(huì )話(huà),但是這種方法的精確度較低,不能100%正確地識別出每個(gè)請求對應的用戶(hù)。這里主要討論第3種預處理方法。一般Web日志預處理主要包括:數據凈化、用戶(hù)識別、會(huì )話(huà)識別、路徑補充、事務(wù)識別數據凈化指刪除Web服務(wù)器日志中與挖掘算法無(wú)關(guān)的數據。由于在Web日志中通常只有HTML文件與用戶(hù)會(huì )話(huà)相關(guān),所以通過(guò)檢查URL的后綴刪除不相關(guān)的數據。

  用戶(hù)識別是指要識別出每個(gè)訪(fǎng)問(wèn)網(wǎng)站的用戶(hù)。一般Web日志挖掘工具中常使用基于日志/站點(diǎn)的方法,并輔助一些啟發(fā)式規則幫助識別用戶(hù)。

  會(huì )話(huà)識別是將用戶(hù)的訪(fǎng)問(wèn)記錄分為單個(gè)的會(huì )話(huà)。通常采用超時(shí)方法識別用戶(hù)會(huì )話(huà),如果兩頁(yè)間請求時(shí)間的差值超過(guò)一定的界限(超時(shí)閾值)就認為用戶(hù)開(kāi)始了一個(gè)新的會(huì )話(huà)。路徑補充是由于本地緩存和代理服務(wù)器緩存的存在,使得服務(wù)器的日志會(huì )遺漏一些重要的頁(yè)面請求。路徑補充就是將這些遺漏的請求補充到用戶(hù)會(huì )話(huà)中,解決的方法類(lèi)似于用戶(hù)識別中的方法。

  事務(wù)識別,用戶(hù)會(huì )話(huà)是Web日志挖掘中唯一具備自然事務(wù)特征的元素,但是,對于某些挖掘算法來(lái)說(shuō)可能用戶(hù)會(huì )話(huà)的粒度太大,需要利用分割算法將其轉化為更小的事務(wù)。一般通常采用圖1所示的數據預處理過(guò)程。如果按照前面所介紹的日志預處理技術(shù)對Web日志進(jìn)行預處理,則Frame頁(yè)面和其SubFrame頁(yè)面也將一起出現在用戶(hù)會(huì )話(huà)文件中。在這樣的用戶(hù)會(huì )話(huà)文件上進(jìn)行數據挖掘,Frame頁(yè)面和SubFrame頁(yè)面作為頻繁遍歷路徑或者頻繁訪(fǎng)問(wèn)頁(yè)組出現的概率很高,并且他們同時(shí)出現在挖掘結果中,這就降低了挖掘結果的興趣性。

  HTML規范通過(guò)“Frame”標記支持多窗口頁(yè)面,每個(gè)窗口里裝載的頁(yè)面對應一個(gè)URL。 當用戶(hù)請求Frame頁(yè)面的URL時(shí),Frame頁(yè)面和其中的SubFrame頁(yè)面作為一個(gè)多窗口頁(yè)面展現在用戶(hù)面前,我們可以將用戶(hù)對Frame頁(yè)面的請求看成就是對多窗口頁(yè)面的請求。這樣,在數據預處理階段將Frame頁(yè)面和其中的SubFrame頁(yè)面作為一個(gè)整體考慮,并且把Frame頁(yè)面對應的URL當作這個(gè)整體的代表。從全局而言,這樣處理可以有效地消除Frame頁(yè)面對日志挖掘的影響,最終提高挖掘結果的興趣性。

  改進(jìn)的Web日志數據預處理過(guò)程中,在會(huì )話(huà)識別與路徑補充這兩個(gè)步驟之間增加了Frame頁(yè)面過(guò)濾。Frame頁(yè)面過(guò)濾要完成的任務(wù)是,根據從站點(diǎn)的拓撲結構中提取出的Frame-SubFrame關(guān)系表,從會(huì )話(huà)識別過(guò)程中生成的會(huì )話(huà)文件中,尋找Frame頁(yè)面及其SubFrame頁(yè)面,將會(huì )話(huà)文件中對Frame和其SubFrame頁(yè)面的請求用Frame頁(yè)面代替,從而刪除會(huì )話(huà)文件中多余的SubFrame頁(yè)面。由于刪除了會(huì )話(huà)文件中的SubFrame頁(yè)面,因此會(huì )丟失SubFrame頁(yè)面中包含的超鏈接信息,所以接下來(lái)的路徑補充步驟中必須使用提升的站點(diǎn)結構。

  3 基于ID3算法的Frame頁(yè)面過(guò)濾預處理技術(shù)

  如上文所述,我們應用Frame頁(yè)面過(guò)濾技術(shù)有效地消除了Frame頁(yè)面對日志挖掘的影響,然而我們知道Web日志挖掘的記錄是成千上萬(wàn)的,上述Frame頁(yè)面過(guò)濾算法中是對每個(gè)用戶(hù)對話(huà)的每個(gè)頁(yè)面進(jìn)行是否Frame和SubFrame的判斷,并且對判斷出的子框架逐個(gè)地進(jìn)行刪除,而且因為SubFrame頁(yè)面的刪除導致后面必須用提升的站點(diǎn)結構,雖然較一般預處理技術(shù)增加了興趣度,但是效率還是比較低的,而且也增加了開(kāi)銷(xiāo)。并且SubFrame過(guò)濾中被刪去,在后面的路徑補全中能否完全恢復也值得高榷。而且有快速分類(lèi)性質(zhì)允許多粒度層的決策樹(shù)分類(lèi)算法可以解決此問(wèn)題。

  ID3算法的基本思想是貪心算法,采用自上而下的分而治之的方法構造決策樹(shù)。首先檢測訓練數據集的所有特征,選擇信息增益最大的特征A建立決策樹(shù)根節點(diǎn),由該特征的不同取值建立分枝,對各分枝的實(shí)例子集遞歸,用該方法建立樹(shù)的節點(diǎn)和分枝,直到某一子集中的數據都屬于同一類(lèi)別,或者沒(méi)有特征可以在用于對數據進(jìn)行分割。

【W(wǎng)eb日志的研究分析】相關(guān)文章:

基于web的綜合測評與分析05-20

面向電子商務(wù)的Web日志挖掘系統09-27

網(wǎng)站日志分析診斷和作用10-16

Web Workers加速移動(dòng)Web應用07-01

關(guān)于Meta標簽元素分析研究分析07-21

基于Web的MES系統安全架構設計及分析10-16

解析企業(yè)內訓研究與分析01-11

新西蘭研究生留學(xué)的優(yōu)勢分析08-01

日本研究生留學(xué)趨勢分析06-30

關(guān)于網(wǎng)絡(luò )營(yíng)銷(xiāo)策略的分析與研究01-22

一级日韩免费大片,亚洲一区二区三区高清,性欧美乱妇高清come,久久婷婷国产麻豆91天堂,亚洲av无码a片在线观看