- 相關(guān)推薦
面向電子商務(wù)的Web日志挖掘系統
電子商務(wù)是指個(gè)人或企業(yè)通過(guò)國際互聯(lián)網(wǎng),采用數字化方式進(jìn)行商務(wù)數據交換和開(kāi)展商務(wù)活動(dòng)。目前,電子商務(wù)正在企業(yè)和商貿領(lǐng)域占據著(zhù)越來(lái)越多的市場(chǎng)份額,網(wǎng)絡(luò )信息挖掘主要用于對商品的市場(chǎng)定位和消費分析,以輔助制定市場(chǎng)策略,分析購物模式,預測銷(xiāo)售行情改進(jìn)站點(diǎn)設計和提高站點(diǎn)效率。向特定的客戶(hù)推薦有關(guān)的商品。網(wǎng)絡(luò )信息挖掘可以提供不同用戶(hù)的特定信息,有的放矢地傳播網(wǎng)絡(luò )廣告。利用網(wǎng)絡(luò )數據挖掘技術(shù)建立客戶(hù)關(guān)系管理系統,可以極大地提升企業(yè)的競爭優(yōu)勢。
一、Web挖掘模式的應用
。ㄒ唬┌l(fā)現潛在客戶(hù)。對一個(gè)電子商務(wù)網(wǎng)站來(lái)說(shuō),了解、關(guān)注在冊客戶(hù)群體非常重要,但從眾多的訪(fǎng)問(wèn)者中發(fā)現潛在客戶(hù)群體也同樣非常關(guān)鍵。如果發(fā)現某些客戶(hù)為潛在客戶(hù)群體,就可以對這類(lèi)客戶(hù)實(shí)施一定的策略,使他們盡快成為在冊客戶(hù)群體。對一個(gè)電子商務(wù)網(wǎng)站來(lái)說(shuō),也許就意味著(zhù)訂單數的增多、效益的增加。通過(guò)利用WEB挖掘的分類(lèi)技術(shù)先對歷史數據進(jìn)行挖掘,可以有效的發(fā)現潛在客戶(hù)。
。ǘ┭娱L(cháng)客戶(hù)的駐留時(shí)間。對客戶(hù)來(lái)說(shuō),傳統客戶(hù)與銷(xiāo)售商之間的空間距離在電子商務(wù)中已經(jīng)不存在了,Internet上每一個(gè)銷(xiāo)售商對于客戶(hù)來(lái)說(shuō)都是一樣的,那么如何使客戶(hù)在自己的銷(xiāo)售站點(diǎn)上駐留更長(cháng)的時(shí)間,這對銷(xiāo)售商來(lái)說(shuō)將是一個(gè)挑戰。為了使客戶(hù)在自己的網(wǎng)站上駐留更長(cháng)的時(shí)間,就應該了解客戶(hù)的瀏覽行為,知道客戶(hù)的興趣及需求所在,動(dòng)態(tài)地調整Web頁(yè)面,以滿(mǎn)足客戶(hù)的需要。通過(guò)運用數據挖掘中的序列模式發(fā)現技術(shù)對客戶(hù)訪(fǎng)問(wèn)信息的挖掘,就能知道客戶(hù)的瀏覽行為,從而了解客戶(hù)的興趣及需求。
。ㄈ└倪M(jìn)站點(diǎn)設計。站點(diǎn)上頁(yè)面內容的安排就如超級市場(chǎng)中物品在貨架上的擺設一樣,把具有一定支持度和信任度的相關(guān)聯(lián)物品擺放在一起有助于銷(xiāo)售,利用關(guān)聯(lián)規則發(fā)現可以針對客戶(hù)動(dòng)態(tài)調整站點(diǎn)的結構,使客戶(hù)訪(fǎng)問(wèn)的有關(guān)聯(lián)的文件間的鏈接能夠比較直接,讓客戶(hù)更容易訪(fǎng)問(wèn)到想訪(fǎng)問(wèn)的頁(yè)面。
。ㄋ模┽槍Σ煌蛻(hù)提供個(gè)性化產(chǎn)品。商家可以對客戶(hù)登記注冊記錄中和Web日志進(jìn)行挖掘,從而獲知訪(fǎng)問(wèn)者的個(gè)人愛(ài)好,更加充分地了解客戶(hù)地需要,根據各個(gè)細分市場(chǎng),甚至是每一個(gè)顧客的獨特需求提供個(gè)性化產(chǎn)品,有利于提高客戶(hù)的滿(mǎn)意度。
綜上所說(shuō),Web挖掘技術(shù)推動(dòng)了個(gè)性化推薦,使站點(diǎn)瀏覽者變?yōu)橘徺I(mǎi)者,增加交叉銷(xiāo)售和提升銷(xiāo)售,每一次購買(mǎi)都增加客戶(hù)的忠誠度。
二、面向電子商務(wù)的Web挖掘應用系統模型
當用戶(hù)訪(fǎng)問(wèn)Web服務(wù)器時(shí),Web服務(wù)器會(huì )自動(dòng)建立訪(fǎng)問(wèn)日志信息。隨著(zhù)WWW技術(shù)的快速發(fā)展和時(shí)間的積累,Web服務(wù)器中Web日志文件將越來(lái)越大,基于Web的電子商務(wù)服務(wù)器將保存大量的Web訪(fǎng)問(wèn)日志記錄。如何對這些大量的Web日志記錄進(jìn)行自動(dòng)分析清理存儲并從中發(fā)現有用的、重要的知識,包括模式、規則和可視化結構等是目前Web日志挖掘的主要任務(wù)。
面向電子商務(wù)的Web挖掘系統模型包括數據采集、數據處理、數據存儲、模式發(fā)現、模式分析利用及客戶(hù)6個(gè)層次,見(jiàn)圖1。
數據采集層所采集的數據對象為Web服務(wù)器日志、客戶(hù)登記信息和交易數據庫等。Web服務(wù)器日志是客戶(hù)訪(fǎng)問(wèn)所產(chǎn)生的服務(wù)器日志數據?蛻(hù)登記信息必須和訪(fǎng)問(wèn)日志集成,以提高數據挖掘的準確度。交易數據庫存儲用戶(hù)在商務(wù)網(wǎng)站上購買(mǎi)商品的信息,其內容隨數據庫結構的不同而有所不同,一般包括:用戶(hù)名、時(shí)間、商品ID、采購數量及價(jià)格等。
數據處理層實(shí)現對數據采集層所采集的源數據進(jìn)行處理,包括日志文件的處理和數據倉庫的建立。日志文件處理得好壞直接影響挖掘算法產(chǎn)生的結果,其處理過(guò)程是保證Web挖掘質(zhì)量的關(guān)鍵。經(jīng)過(guò)處理后的數據由數據存儲層進(jìn)行保存和管理。
模式發(fā)現層次包括:路徑分析、關(guān)聯(lián)規則挖掘、序列模式挖掘以及聚類(lèi)和分類(lèi)分析。
模式分析利用層由兩部分組成:個(gè)性化網(wǎng)站及商業(yè)智能。這也代表了Web挖掘在電子商務(wù)中的兩大應用方向。數據挖掘的結果可以幫助他們了解客戶(hù),調整營(yíng)銷(xiāo)策略,改進(jìn)促銷(xiāo)手段,從而達到贏(yíng)得競爭的目的。
三、改進(jìn)站點(diǎn)設計的算法
對Web站點(diǎn)的鏈接結構的優(yōu)化可從兩個(gè)方面來(lái)考慮:一是通過(guò)對Web日志的挖掘,發(fā)現用戶(hù)訪(fǎng)問(wèn)頁(yè)面的相關(guān)性,從而對密切聯(lián)系的頁(yè)面之間增加鏈接,方便用戶(hù)使用。二是通過(guò)對Web日志的挖掘,發(fā)現用戶(hù)的期望位置。如果在期望位置的訪(fǎng)問(wèn)頻率高于實(shí)際位置的訪(fǎng)問(wèn)頻率,可考慮在期望位置和實(shí)際位置之間建立導航鏈接,從而實(shí)現對Web站點(diǎn)的優(yōu)化。本文對第二點(diǎn)做深入探討。
通過(guò)該算法,我們可以找到用戶(hù)的返回點(diǎn),這個(gè)位置可能是期望位置,也可能是目標頁(yè)面,但可以通過(guò)確定時(shí)間閾值來(lái)解決這個(gè)問(wèn)題。當用戶(hù)在返回點(diǎn)停留的時(shí)間較長(cháng),超過(guò)指定的閾值,則認為該頁(yè)面是目標頁(yè)面,、否則可以認為該頁(yè)面是期望位置找不到目標頁(yè)面,就會(huì )在第二期望位置找,如果還找不到,會(huì )在第三期望位置找……。其中我們最關(guān)心的是第一期望位置,而且是那些被第一期望且發(fā)生頻率高于系統設計者指定值的所有頁(yè)面。因此,尋找第一期望位置便成了我們關(guān)注的焦點(diǎn)。
、诎l(fā)現第一期望位置算法。設Ei表示第一期望位置,算法如下:先以用戶(hù)的ID為主關(guān)鍵字,時(shí)間為次關(guān)鍵字,對Web日志文件建立索引,掃描Web日志索引文件,對每一個(gè)用戶(hù)ID,摘取出頁(yè)面序列。
For(I=1;I<=1;I )// n為Web日志中的記錄數
{統計EI中所有頁(yè)面支持數;sort page by support;
if support(P)>=SI // SI為Web設計者指定的閾值;
則P為被第一期望且發(fā)生頻率高于系統設計者指定值的頁(yè)面;}
根據該算法的挖掘結果,我們可以及時(shí)調整Web站點(diǎn)鏈接結構,在第一期望位置和實(shí)際位置之間增加導航鏈接,從而優(yōu)化Web站點(diǎn)的鏈接結構。
。ǘ┐_定請求網(wǎng)頁(yè)的相關(guān)性
用戶(hù)對Web站點(diǎn)的訪(fǎng)問(wèn)存在某種有序關(guān)系,這種有序關(guān)系反映的是一種用戶(hù)的訪(fǎng)問(wèn)興趣,也就是說(shuō)群體用戶(hù)的訪(fǎng)問(wèn)興趣與他們的訪(fǎng)問(wèn)序列有很強的相關(guān)性,通過(guò)興趣關(guān)聯(lián)規則挖掘算法能夠挖掘出這種有序關(guān)系。具體算法如下:
設用戶(hù)訪(fǎng)問(wèn)的頁(yè)面集P={p1,p2,…,pn},用weight表示由一個(gè)節點(diǎn)轉向另一個(gè)節點(diǎn)的可能性,則三元組(Pi,weight,Pj)表示有Pi轉向Pj的可能性,其中weight值定義為Pi到Pj的訪(fǎng)問(wèn)次數之和與所有Pi到其它節點(diǎn)訪(fǎng)問(wèn)次數之和的比值,0<WEIGHT<1。
●根據下式統計三元組
●if weight>St并為Sm個(gè)用戶(hù)所關(guān)注(其中St和Sm是根據實(shí)際情況確定的閾值);
●則Pi與Pj之間存在相關(guān)性。
通過(guò)實(shí)驗證明我們可以根據挖掘結果,在Pi和Pj之間直接建立鏈接,通過(guò)該方法可以改進(jìn)網(wǎng)站的設計和布局,方便用戶(hù)訪(fǎng)問(wèn)站點(diǎn),為用戶(hù)提供方便、快捷的服務(wù),實(shí)現為客戶(hù)的個(gè)性化服務(wù)。
四、結束語(yǔ)
通過(guò)Web數據挖掘,我們可以從數以?xún)|計的存儲大量多種多樣信息的Web頁(yè)面中提取出我們需要的有用的知識。通過(guò)Web數據挖掘,對總的用戶(hù)訪(fǎng)問(wèn)行為、頻度、內容等的分析,可以得到關(guān)于群體用戶(hù)訪(fǎng)問(wèn)行為和方式的普遍知識,用以改進(jìn)我們的Web服務(wù)器設計,而更重要的是,通過(guò)對這些用戶(hù)特征的理解和分析,可以有助于開(kāi)展有針對性的電子商務(wù)活動(dòng),給每個(gè)用戶(hù)個(gè)性化的界面,提供個(gè)性化的電子商務(wù)服務(wù)。
【面向電子商務(wù)的Web日志挖掘系統】相關(guān)文章:
基于Web的MES系統安全架構設計及分析02-28
Web Workers加速移動(dòng)Web應用03-30
電子商務(wù)與ERP系統整合的重要性03-07
輪胎式液壓挖掘機的轉向操縱系統介紹01-16
web瀏覽創(chuàng )作效果精選03-29
Web 2.0技術(shù)的內容03-30