一级日韩免费大片,亚洲一区二区三区高清,性欧美乱妇高清come,久久婷婷国产麻豆91天堂,亚洲av无码a片在线观看

<form id="rsqaw"></form>

Web日志的研究分析

時(shí)間：2024-09-27 14:51:20 Web Services 我要投稿

相關(guān)推薦

關(guān)于Web日志的研究分析

　　描述了Web日志數據預處理技術(shù)的一種改進(jìn)技術(shù)——Frame過(guò)濾技術(shù)，對其關(guān)鍵部分與運作模式進(jìn)行了研究與改進(jìn)。討論了Frame頁(yè)面過(guò)濾預處理技術(shù)在Web頁(yè)面挖掘中的效率問(wèn)題，分析了決策樹(shù)算法中最著(zhù)名的算法——ID3算法，并用ID3算法對Frame過(guò)濾算法進(jìn)行了改進(jìn)，比較新舊算法的執行效率及算法結果質(zhì)量，得出了新算法執行效率更高及質(zhì)量更好的結論，從而搞高了對存在Frame頁(yè)面的網(wǎng)站實(shí)施Web日志挖掘算法時(shí)挖掘結果的興趣度。

關(guān)于Web日志的研究分析

　　1 引言

　　Internet的迅速發(fā)展使得Web為人們提供了內容豐富且數量龐大的信息，隨著(zhù)數據挖掘技術(shù)的出現以及發(fā)展，數據挖掘逐漸被應用于Web數據。

　　Web日志挖掘是三大類(lèi)Web挖掘之一，它主要包括數據預處理和挖掘算法實(shí)施兩個(gè)主要階段.實(shí)施挖掘算法之前要對Web日志文件進(jìn)行預處理，將其轉化為用戶(hù)會(huì )話(huà)集.本文著(zhù)重討論Web日志挖掘預處理技術(shù)中的Frame頁(yè)面過(guò)濾預處理技術(shù)，即在傳統的Web日志預處理過(guò)程中加入Frame頁(yè)面過(guò)濾這一步驟，并提出了用決策樹(shù)算法著(zhù)名的ID3算法進(jìn)行Frame頁(yè)面過(guò)濾，進(jìn)一步提高了日志數據預處理的質(zhì)量和效率，從而為挖掘算法的實(shí)施提供更為準確的數據，提高了對存在Frame頁(yè)面的網(wǎng)站實(shí)施Web日志挖掘算法時(shí)整個(gè)Web日志挖掘的效率及挖掘結果的興趣性。

　　2 Web日志預處理中的Frame頁(yè)面過(guò)濾技術(shù)[2]2.1 Web日志預處理技術(shù)現狀

　　Web日志挖掘[1] [3－4]是指將數據挖掘技術(shù)應用于Web服務(wù)器日志文件，以發(fā)現隱藏在其中的用戶(hù)訪(fǎng)問(wèn)模式。Web日志預處理是在Web日志挖掘前，對Web日志進(jìn)行清理、過(guò)濾以及重新組合的過(guò)程，其目的是剔除日志中對挖掘過(guò)程無(wú)用的屬性及數據，并將Web日志數據轉換為挖掘算法可識別的保存形式。到目前為止提出的Web日志的預處理技術(shù)，它包含三種方法識別用戶(hù)的活動(dòng)集合：

　　(1) Web服務(wù)器提供Cookie，則具有相同Cookie值的頁(yè)面請求是來(lái)自同一個(gè)用戶(hù)，則用戶(hù)會(huì )話(huà)識別的主要的任務(wù)就是將Web日志劃分為不同Cookie值所對應的頁(yè)面請求集合。

　　(2) Web服務(wù)器沒(méi)有提供Cookie，但每個(gè)網(wǎng)站用戶(hù)都要一個(gè)登錄標識符方可訪(fǎng)問(wèn)站點(diǎn)，則分析工具即可利用登錄標識符識別會(huì )話(huà)。

　�、湃绻鸚eb服務(wù)器既沒(méi)有Cookie也沒(méi)有登錄標識符，可以利用主機地址，同時(shí)分析日志中每條記錄的請求頁(yè)和引用頁(yè)的URL，然后根據Web站點(diǎn)的拓撲結構（超鏈接）和其它啟發(fā)式規則識別用戶(hù)會(huì )話(huà)，但是這種方法的精確度較低，不能100％正確地識別出每個(gè)請求對應的用戶(hù)。這里主要討論第3種預處理方法。一般Web日志預處理主要包括：數據凈化、用戶(hù)識別、會(huì )話(huà)識別、路徑補充、事務(wù)識別數據凈化指刪除Web服務(wù)器日志中與挖掘算法無(wú)關(guān)的數據。由于在Web日志中通常只有HTML文件與用戶(hù)會(huì )話(huà)相關(guān)，所以通過(guò)檢查URL的后綴刪除不相關(guān)的數據。

　　用戶(hù)識別是指要識別出每個(gè)訪(fǎng)問(wèn)網(wǎng)站的用戶(hù)。一般Web日志挖掘工具中常使用基于日志/站點(diǎn)的方法，并輔助一些啟發(fā)式規則幫助識別用戶(hù)。

　　會(huì )話(huà)識別是將用戶(hù)的訪(fǎng)問(wèn)記錄分為單個(gè)的會(huì )話(huà)。通常采用超時(shí)方法識別用戶(hù)會(huì )話(huà)，如果兩頁(yè)間請求時(shí)間的差值超過(guò)一定的界限(超時(shí)閾值)就認為用戶(hù)開(kāi)始了一個(gè)新的會(huì )話(huà)。路徑補充是由于本地緩存和代理服務(wù)器緩存的存在，使得服務(wù)器的日志會(huì )遺漏一些重要的頁(yè)面請求。路徑補充就是將這些遺漏的請求補充到用戶(hù)會(huì )話(huà)中，解決的方法類(lèi)似于用戶(hù)識別中的方法。

　　事務(wù)識別，用戶(hù)會(huì )話(huà)是Web日志挖掘中唯一具備自然事務(wù)特征的元素，但是，對于某些挖掘算法來(lái)說(shuō)可能用戶(hù)會(huì )話(huà)的粒度太大，需要利用分割算法將其轉化為更小的事務(wù)。一般通常采用圖1所示的數據預處理過(guò)程。如果按照前面所介紹的日志預處理技術(shù)對Web日志進(jìn)行預處理，則Frame頁(yè)面和其SubFrame頁(yè)面也將一起出現在用戶(hù)會(huì )話(huà)文件中。在這樣的用戶(hù)會(huì )話(huà)文件上進(jìn)行數據挖掘，Frame頁(yè)面和SubFrame頁(yè)面作為頻繁遍歷路徑或者頻繁訪(fǎng)問(wèn)頁(yè)組出現的概率很高，并且他們同時(shí)出現在挖掘結果中，這就降低了挖掘結果的興趣性。

　　HTML規范通過(guò)“Frame”標記支持多窗口頁(yè)面，每個(gè)窗口里裝載的頁(yè)面對應一個(gè)URL。當用戶(hù)請求Frame頁(yè)面的URL時(shí)，Frame頁(yè)面和其中的SubFrame頁(yè)面作為一個(gè)多窗口頁(yè)面展現在用戶(hù)面前，我們可以將用戶(hù)對Frame頁(yè)面的請求看成就是對多窗口頁(yè)面的請求。這樣，在數據預處理階段將Frame頁(yè)面和其中的SubFrame頁(yè)面作為一個(gè)整體考慮，并且把Frame頁(yè)面對應的URL當作這個(gè)整體的代表。從全局而言，這樣處理可以有效地消除Frame頁(yè)面對日志挖掘的影響，最終提高挖掘結果的興趣性。

　　改進(jìn)的Web日志數據預處理過(guò)程中，在會(huì )話(huà)識別與路徑補充這兩個(gè)步驟之間增加了Frame頁(yè)面過(guò)濾。Frame頁(yè)面過(guò)濾要完成的任務(wù)是，根據從站點(diǎn)的拓撲結構中提取出的Frame-SubFrame關(guān)系表，從會(huì )話(huà)識別過(guò)程中生成的會(huì )話(huà)文件中，尋找Frame頁(yè)面及其SubFrame頁(yè)面，將會(huì )話(huà)文件中對Frame和其SubFrame頁(yè)面的請求用Frame頁(yè)面代替，從而刪除會(huì )話(huà)文件中多余的SubFrame頁(yè)面。由于刪除了會(huì )話(huà)文件中的SubFrame頁(yè)面，因此會(huì )丟失SubFrame頁(yè)面中包含的超鏈接信息，所以接下來(lái)的路徑補充步驟中必須使用提升的站點(diǎn)結構。

　　3 基于ID3算法的Frame頁(yè)面過(guò)濾預處理技術(shù)

　　如上文所述，我們應用Frame頁(yè)面過(guò)濾技術(shù)有效地消除了Frame頁(yè)面對日志挖掘的影響，然而我們知道Web日志挖掘的記錄是成千上萬(wàn)的，上述Frame頁(yè)面過(guò)濾算法中是對每個(gè)用戶(hù)對話(huà)的每個(gè)頁(yè)面進(jìn)行是否Frame和SubFrame的判斷，并且對判斷出的子框架逐個(gè)地進(jìn)行刪除，而且因為SubFrame頁(yè)面的刪除導致后面必須用提升的站點(diǎn)結構，雖然較一般預處理技術(shù)增加了興趣度，但是效率還是比較低的，而且也增加了開(kāi)銷(xiāo)。并且SubFrame過(guò)濾中被刪去，在后面的路徑補全中能否完全恢復也值得高榷。而且有快速分類(lèi)性質(zhì)允許多粒度層的決策樹(shù)分類(lèi)算法可以解決此問(wèn)題。

　　ID3算法的基本思想是貪心算法，采用自上而下的分而治之的方法構造決策樹(shù)。首先檢測訓練數據集的所有特征，選擇信息增益最大的特征A建立決策樹(shù)根節點(diǎn)，由該特征的不同取值建立分枝，對各分枝的實(shí)例子集遞歸，用該方法建立樹(shù)的節點(diǎn)和分枝，直到某一子集中的數據都屬于同一類(lèi)別，或者沒(méi)有特征可以在用于對數據進(jìn)行分割。

【W(wǎng)eb日志的研究分析】相關(guān)文章：

基于web的綜合測評與分析05-20

面向電子商務(wù)的Web日志挖掘系統09-27

網(wǎng)站日志分析診斷和作用10-16

Web Workers加速移動(dòng)Web應用07-01

關(guān)于Meta標簽元素分析研究分析07-21

基于Web的MES系統安全架構設計及分析10-16

解析企業(yè)內訓研究與分析01-11

新西蘭研究生留學(xué)的優(yōu)勢分析08-01

日本研究生留學(xué)趨勢分析06-30

關(guān)于網(wǎng)絡(luò )營(yíng)銷(xiāo)策略的分析與研究01-22

一级日韩免费大片,亚洲一区二区三区高清,性欧美乱妇高清come,久久婷婷国产麻豆91天堂,亚洲av无码a片在线观看

<style id="jhlaj"></style><style id="jhlaj"></style>