一级日韩免费大片,亚洲一区二区三区高清,性欧美乱妇高清come,久久婷婷国产麻豆91天堂,亚洲av无码a片在线观看

用戶(hù)訪(fǎng)問(wèn)模式挖掘及在電子商務(wù)中的應用

時(shí)間:2024-08-29 08:46:12 電子商務(wù)畢業(yè)論文 我要投稿
  • 相關(guān)推薦

用戶(hù)訪(fǎng)問(wèn)模式挖掘及在電子商務(wù)中的應用

摘要:當今電子商務(wù)網(wǎng)站日益增多,網(wǎng)站所提供的功能和服務(wù)也越來(lái)越豐富,然而也存在不足。比如,提供的服務(wù)或信息分布不公道,未能充分考慮到用戶(hù)的需求;信息的訪(fǎng)問(wèn)路徑未能考慮到信息的重要性和普遍關(guān)注性等等。本文研究將集中在基于圖結構的用戶(hù)訪(fǎng)問(wèn)模式挖掘及其在電子商務(wù)中的應用上,通過(guò)對基于Web拓撲結構(圖結構)挖掘用戶(hù)訪(fǎng)問(wèn)模式的數據挖掘,可對已存在的Web站點(diǎn)的結構及站點(diǎn)內的頁(yè)面進(jìn)行調整和改善,方便地向瀏覽模式相似的用戶(hù)組推薦其感愛(ài)好的主題相似的頁(yè)面,使各類(lèi)信息和服務(wù)以更有效的方式提供給用戶(hù)。
  關(guān)鍵詞:數據挖掘 Web日志挖掘 用戶(hù)訪(fǎng)問(wèn)模式 Web拓撲結構
  
  一、引言
  
  近幾年因特網(wǎng)已經(jīng)成為一個(gè)巨大的、分布廣泛的和全球性的信息服務(wù)中心,逐漸滲透到人們的日常工作、生活及其它領(lǐng)域,它為用戶(hù)提供了各種信息。然而,用戶(hù)面對一堆雜亂無(wú)章的信息往往花費了大量的精力卻無(wú)法找到理想的結果。如何有效得分析用戶(hù)的需求,幫助用戶(hù)從因特網(wǎng)的信息海洋中發(fā)現他們感愛(ài)好的信息和資源,已經(jīng)成為一項迫切而重要的課題。解決這些題目的一個(gè)途徑,就是將傳統的數據挖掘技術(shù)與Web結合起來(lái),進(jìn)行Web數據挖掘。其中的Web日志挖掘可以把握用戶(hù)在瀏覽站點(diǎn)時(shí)的行為,并且將挖掘出的用戶(hù)訪(fǎng)問(wèn)模式應用于網(wǎng)站上,在改善Web站點(diǎn)的結構以及頁(yè)面間的超鏈接結構,進(jìn)步站點(diǎn)的服務(wù)質(zhì)量等方面有重要的意義。
  
  二、Web數據挖掘概述
  
  (一)Web數據挖掘的定義及分類(lèi)
  Web數據挖掘我們這里采用一個(gè)更一般的定義:Web數據挖掘是指從與WWW相關(guān)的資源和行為中抽取感愛(ài)好的、有用的模式和隱含信息。
  Web信息的多樣性決定了Web挖掘任務(wù)的多樣性,Web數據挖掘總的來(lái)說(shuō)分為內容挖掘、結構挖掘和日志挖掘三類(lèi),如圖l所示:
  
  (二)Web日志挖掘
  Web日志挖掘也稱(chēng)Web使用挖掘,是指從Web使用數據中抽取用戶(hù)訪(fǎng)問(wèn)模式的過(guò)程。
  一般Web日志挖掘的過(guò)程分為以下三步:
  1.數據預備:對Web日志內容進(jìn)行預處理,刪除無(wú)用數據,識別用戶(hù)會(huì )話(huà),完善訪(fǎng)問(wèn)路徑。
  2.模式識別:采用相應的數據挖掘算法,對預處理之后的數據進(jìn)行挖掘,天生模式。
  3.模式分析:排除模式識別中沒(méi)有價(jià)值的規則或模式,將有價(jià)值的模式提取出來(lái)。
  
  三、基于圖結構的Web日志挖掘
  
  (一)數據預備
  1.數據源
  目前的Web日志挖掘的數據源主要是Web服務(wù)器日志文件,它記錄了用戶(hù)訪(fǎng)問(wèn)站點(diǎn)的數據,每當站點(diǎn)上的頁(yè)面被訪(fǎng)問(wèn)一次,Web服務(wù)器就在日志中增加一條相應的記錄。服務(wù)器上的日志不僅具體記錄了站點(diǎn)訪(fǎng)問(wèn)者的瀏覽行為,而且匯集了訪(fǎng)問(wèn)同一站點(diǎn)的多個(gè)訪(fǎng)問(wèn)者的行為。
  2.數據預處理
  在Web日志挖掘中,主要分析的數據源是服務(wù)器日志,但是由于服務(wù)器日志記錄的數據并不完整,直接在其上進(jìn)行挖掘非常困難。因此要對日志數據進(jìn)行預處理主要包括以下步驟:
  數據轉換:將原始日志文件導進(jìn)數據庫中。
  數據清理:刪除與日志分析目的無(wú)關(guān)的記錄。
  用戶(hù)識別:將用戶(hù)和請求的頁(yè)面相關(guān)聯(lián)。
  會(huì )話(huà)識別:將用戶(hù)在一段時(shí)間內的請求頁(yè)面分解成能反映實(shí)際瀏覽習慣的用戶(hù)會(huì )話(huà)。
  路徑補充:將本地或者代理服務(wù)器中緩存而沒(méi)有被日志記錄的請求頁(yè)面增加到會(huì )話(huà)中。
  
  (二)基于圖結構的用戶(hù)訪(fǎng)問(wèn)模式挖掘
  本文中的算法在現有的挖掘關(guān)聯(lián)規則算法的基礎上上進(jìn)行延伸,并且在支持度計算,候選路徑的產(chǎn)生和剪除階段時(shí)考慮網(wǎng)站的圖結構。這樣,在候選集的天生和剪除過(guò)程中減少了候選集的數目,可進(jìn)步發(fā)現模式的精確性和效率,并且避免了“交易變質(zhì)”的題目。首先,分析站點(diǎn)結構,并給出“圖”的相關(guān)定義和定理。其次,對現有的Web日志挖掘方法進(jìn)行簡(jiǎn)單的先容和分析。接著(zhù),給出基于圖結構的用戶(hù)訪(fǎng)問(wèn)模式挖掘算法。
  1.站點(diǎn)結構的分析
  
  每個(gè)Web網(wǎng)站并不是平面結構,而是有自己的特定結構。我們可將Web結構看作是一個(gè)多層的模型,每個(gè)層面包含很多頁(yè)面,這些頁(yè)面上有很多文本、圖片、音樂(lè )等頁(yè)面元素組成,它們可以鏈接本層面或其他層面的頁(yè)面元素。
  Web可以用一個(gè)有向圖來(lái)表示,G=(V,E),V是頁(yè)面的集合,E是頁(yè)面之間的超鏈接集合。頁(yè)面抽象為圖中的頂點(diǎn),而頁(yè)面之間的超鏈接抽象為圖中的有向邊。頂點(diǎn)v的進(jìn)邊表示對v的引用,出邊表示v引用了其它的頁(yè)面。 所以Web頁(yè)面之間的超鏈接揭示了Web結構。通過(guò)對Web結構的分析可對Web數據挖掘有很大的幫助,如圖4,某站點(diǎn)拓撲結構示例圖。
  2.基于圖結構的用戶(hù)訪(fǎng)問(wèn)模式挖掘算法
  Web用戶(hù)訪(fǎng)問(wèn)模式的挖掘過(guò)程可描述為:把用戶(hù)會(huì )話(huà)序列看成是對圖的遍歷,結合數據庫和Web圖結構確定訪(fǎng)問(wèn)的最大向前路徑。從中找出支持度大于值的所有子路徑即頻繁遍歷路徑,最后確定最大頻繁遍歷路徑;趫D結構的用戶(hù)訪(fǎng)問(wèn)模式的挖掘和現有方法最大的不同是,訪(fǎng)問(wèn)模式也被以為是圖遍歷,而不是二叉樹(shù)訪(fǎng)問(wèn)順序,即用戶(hù)會(huì )話(huà)序列是圖中的路徑。
  (1)天生最大向前路徑
  Web用戶(hù)訪(fǎng)問(wèn)模式的挖掘過(guò)程的第一步是把用戶(hù)會(huì )話(huà)序列看成是對圖的遍歷,結合數據庫和Web圖結構確定訪(fǎng)問(wèn)的最大向前路徑。所謂最大向前路徑(MFP)是指從起始頁(yè)開(kāi)始到回溯發(fā)生前,用戶(hù)連續訪(fǎng)問(wèn)的最大頁(yè)面序列。
  假設代表一個(gè)用戶(hù)會(huì )話(huà),代表一個(gè)含有潛伏MFP的字符串,初值為空,f1ag表明當前的遍歷方向是前進(jìn)還是后退,數據庫D存儲MFP序列。算法依次對每一個(gè)用戶(hù)會(huì )話(huà)進(jìn)行如下操縱:
 、僖来巫x取頁(yè)面xi(1≤i≤m)。
 、谌鬤i不存在于{y1,…,y-1}中,即xi是沒(méi)有訪(fǎng)問(wèn)過(guò)的頁(yè)面,則將xi作為yj加進(jìn)當前可能的MFP中,f1ag標記為前進(jìn),轉(1)。
 、鄯駝t若xi=yk(1≤k  假如f1ag標明前進(jìn)遍歷,則將{y1,…,y-1}作為一個(gè)M F P輸出到最大前向路徑集合F中,然后從中刪除{yk 1,…,yj-1},并設標志f1ag為向后移動(dòng),轉(1)。
  假如flag標明為回退,刪除{yk i,…,yj-1}后轉(1)。
 、墚斕幚淼接脩(hù)會(huì )話(huà)中的最后一頁(yè)時(shí),假如f1ag標志仍-標明向前,則此時(shí)的{y1,…,yj 1}是該會(huì )話(huà)中的最后一個(gè)MFP。   此算法的形式化描述如下:
  for aU Sn∈S //依次處理繪畫(huà)文件中的每個(gè)會(huì )話(huà)Sn1
  y1=x1;j=2;i=2 f1ag=YES; ////初始化頁(yè)面序列,將遍歷方向設置為前進(jìn);
  while(i≤m)//循環(huán)處理用戶(hù)會(huì )話(huà)Sn中每個(gè)頁(yè)面;
{
  if(xi==yk)for some 1≤k  (2)挖掘頻繁遍歷路徑
  頻繁遍歷路徑是指MFP中滿(mǎn)足一定支持度的子路徑序列(不是連續頁(yè)面序列)。頻繁遍歷路徑的確定能用像Aprior算法中的逐層搜索算法實(shí)現。在算法的每步中,都要掃描數據庫,并計算所有的候選集的支持度。每步中的所有候選集都有相同的長(cháng)度。在每個(gè)過(guò)程的結束,天生候選集Ck,然后計算Ck中每個(gè)候選項的支持度并剪除小于支持度值的候選項,以減少下一循環(huán)的掃描時(shí)間,由此頻繁遍歷路徑集合Lk被確定,并用于在下個(gè)步中候選集的計算。算法的一般結構如下。支持度的最小值記為minSupport,Ck表示所有長(cháng)度為k的候選集,Lk表示所有長(cháng)度為k的頻繁遍歷路徑的集合,D表示數據庫,G表示圖。
  算法4-逐層搜索確定圖G中的頻繁遍歷路徑 盡管逐層搜索算法的基本結構相似于A(yíng)priori,但是它的組成部分(i)候選集支持度計算(ii)產(chǎn)生下一階段的候選集,明顯不同于A(yíng)priori,由于,該算法中的候選集必須是圖中的路徑。該算法基于定理4執行Apriori剪除。對于支持度計算(第6,7步),基于子路徑的數目。
  在圖4的例子中,是一條頻繁遍歷路徑,也是用戶(hù)會(huì )話(huà)2和4的一條子路徑,盡管在用戶(hù)會(huì )話(huà)4中,它的頂點(diǎn)是不連續的,但在圖5中,它是一條路徑。還有,頻繁遍歷路徑不能再延伸,由于如圖4所示,它的終結點(diǎn)A只有到頂點(diǎn)B和C的兩條弧,并已經(jīng)包含在這條路徑中。頻繁遍歷路徑不能延伸,既不是由于已經(jīng)包含在路徑中的頂點(diǎn)C,也不是由于頂點(diǎn)B,由于不是頻繁遍歷路徑。
  
  四、Web日志挖掘的應用
   從Web使用數據中挖掘出的訪(fǎng)問(wèn)模式可以應用到廣闊的領(lǐng)域,以下僅先容在電子商務(wù)中的應用。
  
  (一)個(gè)性化服務(wù)
  
  根據網(wǎng)站用戶(hù)的訪(fǎng)問(wèn)情況,為用戶(hù)提供個(gè)性化信息服務(wù),這是很多互聯(lián)網(wǎng)應用,尤其是互聯(lián)網(wǎng)信息服務(wù)或電子商務(wù)(網(wǎng)站)所追求的目標。根據用戶(hù)的訪(fǎng)問(wèn)行為和檔案向使用者進(jìn)行動(dòng)態(tài)的推薦,對很多應用都有很大的吸引力。Web日志挖掘是一個(gè)能夠出色地完成這個(gè)目標的方式。
  例如141:SiteHelper可以通過(guò)分析每個(gè)用戶(hù)的網(wǎng)頁(yè)訪(fǎng)問(wèn)情況,了解用戶(hù)的愛(ài)好,并從用戶(hù)瀏覽時(shí)間較長(cháng)的網(wǎng)頁(yè)中抽取出相應關(guān)鍵字,匯總后給用戶(hù),獲得反饋后,再向用戶(hù)推薦網(wǎng)站中其他類(lèi)似或相關(guān)網(wǎng)頁(yè)。又如:WebWatcher“跟蹤”用戶(hù)瀏覽網(wǎng)頁(yè)過(guò)程,識別用戶(hù)可能感愛(ài)好的鏈接,WebWatcher根據用戶(hù)本人和其他類(lèi)似用戶(hù)的瀏覽情況,對每個(gè)新網(wǎng)頁(yè)進(jìn)行評估,以幫助用戶(hù)能夠及時(shí)地瀏覽自己感愛(ài)好的網(wǎng)頁(yè)。
  
  (二)貿易智能
  有關(guān)用戶(hù)訪(fǎng)問(wèn)網(wǎng)站的行為模式,對于電子商務(wù)中的市場(chǎng)職員來(lái)說(shuō)是非常重要的,通過(guò)定義Web使用日志的超維數據立方,將Web使用數據與電子商務(wù)應用數占有機地結合在一起。這樣就可以利用數據挖掘方法與技術(shù)來(lái)為客戶(hù)關(guān)系治理中的四個(gè)重要階段(吸引顧客,保存顧客,交叉銷(xiāo)售,顧客離開(kāi))提供決策支持。例如:WebLogMiner可以將Web日志數據轉換為超維數據立方的形式以便能夠進(jìn)行OLAP分析處理和數據挖掘工作。在WebLogMiner系統中還使用了關(guān)聯(lián)規則,分類(lèi)和序列模式分析等數據挖掘方法,得到了電子商務(wù)交易行為序列、特征和交易預期的分析。
  
  五、小結
  
  本文運用一種基于Web拓撲結構(圖結構)挖掘用戶(hù)訪(fǎng)問(wèn)模式的方法,區別于常用的基于樹(shù)形結構的Web路徑分析技術(shù),進(jìn)步了發(fā)現模式的精確性和效率。我們給出一個(gè)像Aprior那樣的逐層搜索算法,得到用戶(hù)的瀏覽模式。

【用戶(hù)訪(fǎng)問(wèn)模式挖掘及在電子商務(wù)中的應用】相關(guān)文章:

Web數據挖掘在電子商務(wù)中的應用.03-21

電子商務(wù)在圖書(shū)銷(xiāo)售模式中的應用03-22

數據挖掘在旅游電子商務(wù)中應用論文11-28

談聚類(lèi)挖掘在電子商務(wù)中的應用03-18

談數據挖掘技術(shù)在電子商務(wù)中的應用03-21

論網(wǎng)格技術(shù)在電子商務(wù)模式中的應用03-22

數據挖掘技術(shù)在電子商務(wù)網(wǎng)站中的應用03-28

Web數據挖掘在電子商務(wù)中的應用研究03-07

電子商務(wù)網(wǎng)站的用戶(hù)治理模式研究03-21

一级日韩免费大片,亚洲一区二区三区高清,性欧美乱妇高清come,久久婷婷国产麻豆91天堂,亚洲av无码a片在线观看