一级日韩免费大片,亚洲一区二区三区高清,性欧美乱妇高清come,久久婷婷国产麻豆91天堂,亚洲av无码a片在线观看

科技論文發(fā)表基于Web數據挖掘技術(shù)的研究論文

時(shí)間:2024-10-09 11:31:19 論文發(fā)表 我要投稿
  • 相關(guān)推薦

科技論文發(fā)表基于Web數據挖掘技術(shù)的研究論文

  互聯(lián)網(wǎng)的不斷得到發(fā)展,網(wǎng)頁(yè)中數據量迅速增加,如何從這么多的網(wǎng)頁(yè)信息中獲取有用的數據已經(jīng)成功數據挖掘領(lǐng)域的一個(gè)熱門(mén)的研究方向,數據挖掘是近幾年來(lái)迅速發(fā)展的進(jìn)行信息獲取的一個(gè)重要渠道, 尤其大量運用與社會(huì )和科學(xué)的方方面面。一般來(lái)說(shuō)數據挖掘主要利用計算機和相關(guān)的信息技術(shù),把有用的數據從海量的網(wǎng)頁(yè)數據中挖掘出來(lái),為我們從事其他方面的運用;诰W(wǎng)頁(yè)的數據挖掘是一門(mén)技術(shù)的綜合研究方向,它的思想是從Internet中提取網(wǎng)頁(yè)中的大量數據,也就是從網(wǎng)頁(yè)的數據結構中發(fā)現隱含的模式[1]。

科技論文發(fā)表基于Web數據挖掘技術(shù)的研究論文

  1 數據挖掘的特點(diǎn)

  1)數據挖掘的特點(diǎn)之一就是半結構化,這個(gè)特別算是網(wǎng)頁(yè)數據挖掘的最大特點(diǎn)[2],因為網(wǎng)頁(yè)上的數據分布沒(méi)有規律,非常復雜,沒(méi)有任何固定的模式能夠很好的描述它的特點(diǎn)。因此稱(chēng)它為半結構化。

  2)數據挖掘的特點(diǎn)之二是網(wǎng)頁(yè)中的數據比較分散,這些網(wǎng)頁(yè)數據存在世界各地的很多服務(wù)器上,因此是一種數據源分散的結構。

  3) 數據挖掘的特點(diǎn)之三是數據庫的結構存在不同,因為互聯(lián)網(wǎng)上的一個(gè)網(wǎng)站可以存為一個(gè)數據源,它們的結構互不相關(guān),異構性特點(diǎn)比較強,由它們構成的數據庫自然而然也屬于一種異構的形式。

  4) 數據挖掘的特點(diǎn)之四是動(dòng)態(tài)性強,網(wǎng)站上的數據資源是不斷更新變化的,找不到固定的形式,網(wǎng)站與網(wǎng)站的直接訪(fǎng)問(wèn)的鏈接是形式變化的。

  2 數據挖掘過(guò)程

  基于Web的數據挖掘與傳統的數據倉庫相比,網(wǎng)頁(yè)上的信息是半結構化的或非結構化、不容易識別、變化的,正因為它這些特點(diǎn),要想在網(wǎng)頁(yè)上開(kāi)展直接數據挖掘,可謂很費功夫,就要借助一些方法來(lái)預處理數據,才能方便挖掘。通常進(jìn)行網(wǎng)頁(yè)數據挖掘可分為的如圖1所示的四個(gè)步奏。

  1)數據源的獲取,在網(wǎng)站的各個(gè)頁(yè)面中獲取數據信息,組成目標數據信息源,再從這些信息源中找到相關(guān)有用的數據。這個(gè)過(guò)程的目的就是從像網(wǎng)頁(yè)文檔、email、網(wǎng)頁(yè)記錄、新聞信息、各種網(wǎng)站數據庫中挖掘出有用的數據。

  2)把獲取的數據進(jìn)行加工處理,網(wǎng)頁(yè)數據挖掘的好壞直接與數據源的好壞相關(guān),如果獲取的數據源有大量的垃圾數據,對數據挖掘過(guò)程有很大的影響,因此挖掘之前需要對數據源進(jìn)行篩選,消除那些雜音數據,保證數據源的純正,然后將這些已經(jīng)過(guò)濾的數據再次裝入數據庫中進(jìn)行下一步的分析。

  3)對數據經(jīng)過(guò)提純處理后,進(jìn)入模式尋找階段,這需要各種挖掘算法分析、挖掘大量的、隱藏的、潛在的、可被利用的數據模式。在挖掘的過(guò)程中,經(jīng)常會(huì )使用到一些相關(guān)的方法,例如聚類(lèi)分析法、關(guān)聯(lián)規則發(fā)等挖掘方法。

  4)在對數據模式發(fā)現后,需要對這些模式進(jìn)行挖掘,也就是知識的轉換過(guò)程,把提取到的模式再進(jìn)行信息轉化,轉化為我們能夠理解,識別的知識,為我們的決策需要提供有用的參考源。

  3 數據挖掘分類(lèi)

  在進(jìn)行數據挖掘的時(shí)候,針對不同的數據結構,會(huì )采用不同的挖掘方法,這樣才能有效、合理挖掘到有用的數據,不能籠統采用一種方法,這樣挖掘的數據相應的雜音數據就比較多。大體上,我們把數據挖掘分為三種類(lèi)型,即:網(wǎng)頁(yè)使用挖掘、網(wǎng)頁(yè)結構挖掘、網(wǎng)頁(yè)內容挖 [3],如圖2所示。

  4 數據挖掘相關(guān)技術(shù)

  互聯(lián)網(wǎng)的發(fā)展促進(jìn)網(wǎng)頁(yè)數據挖掘得到越來(lái)越多的應用,于是針對網(wǎng)頁(yè)挖掘的各種方法和技術(shù)不斷出現,就這些相關(guān)的技術(shù)[4],下面分別一一介紹。

  4.1 網(wǎng)頁(yè)內容挖掘

  4.1.1 網(wǎng)頁(yè)文檔挖掘

  網(wǎng)頁(yè)文檔挖掘就是分析網(wǎng)站上存在的數量很多的網(wǎng)頁(yè)文檔采用聚類(lèi)、分類(lèi)、關(guān)聯(lián)處理等多種方法進(jìn)行分析,然后根據網(wǎng)頁(yè)文檔進(jìn)行預測。在Internet的文檔數據一般都是以html格式的網(wǎng)頁(yè)文檔出現,要采集這些網(wǎng)頁(yè)文檔數據,然后把這些文檔數據變成記錄的形式存貯進(jìn)數據庫,把這些記錄用來(lái)表示文檔內容特征,為后續的分析提供保障。表示文檔的特征形式通常使用文檔特征向量形式, 由于文檔的特征表示中存在一些缺陷,文檔的特征向量的維數非常高,對數據分析不利,因此一個(gè)好特征表示主要集中在特征集的選取方面,特征集需求好,對數據進(jìn)行分析的時(shí)間就相對少,如果選取不好,將要花很長(cháng)時(shí)間去等待。因此特征集選取好壞成為數據分析額關(guān)鍵。一旦特征集選擇好后,就可以采用聚類(lèi)、分類(lèi)、數據關(guān)聯(lián)等方法來(lái)進(jìn)行提取信息,然后對這些提取的信息進(jìn)行評價(jià)分析,找到有用的信息,為后續的決策工作提供指導。

  4.1.2 挖掘網(wǎng)頁(yè)多媒體

  在進(jìn)行網(wǎng)頁(yè)多媒體挖掘主要關(guān)注的是特征提取,這點(diǎn)網(wǎng)頁(yè)內容挖掘不一樣。在網(wǎng)頁(yè)多媒體挖掘中提取的多媒體特征主要關(guān)注視頻或者圖片的顏色特征、鍵值、形式以及它們的URL,最后根據這些特征進(jìn)行數據挖掘。

  4.2挖掘網(wǎng)頁(yè)結構

  挖掘網(wǎng)站空間中的知識,不僅關(guān)注包含在各個(gè)網(wǎng)頁(yè)內容中的信息數據,同時(shí)也關(guān)注網(wǎng)站與網(wǎng)站之間的網(wǎng)頁(yè)結構和超級鏈接結構,這也是非常重要的。進(jìn)行網(wǎng)頁(yè)結構挖掘主要分析網(wǎng)頁(yè)結構之間的特征,利用聚類(lèi)和分類(lèi)來(lái)分析頁(yè)面結構特征,找到特征模式。

  4.3 網(wǎng)頁(yè)使用挖掘

  網(wǎng)頁(yè)使用挖掘也是挖掘網(wǎng)頁(yè)記錄,實(shí)際就是挖掘用戶(hù)在網(wǎng)頁(yè)上留下的相關(guān)的記錄信息,網(wǎng)頁(yè)使用挖掘就是分析用戶(hù)留言記錄的相關(guān)信息,通過(guò)這些信息時(shí)報未來(lái)需要發(fā)展的用戶(hù); 網(wǎng)頁(yè)使用挖掘通常使用擴展有向樹(shù)模型分析用戶(hù)的各種瀏覽行為習慣,挖掘出用戶(hù)的日志信息,以及用戶(hù)關(guān)心、關(guān)注的興趣領(lǐng)域,把這些信息存放在知識庫中,未下一步的分析工作提供數據, 對網(wǎng)頁(yè)使用日志挖掘可分為三個(gè)步驟:日志預分析、分析方法處理、 模式分析階段。在網(wǎng)頁(yè)使用分析中,關(guān)注網(wǎng)頁(yè)服務(wù)器記錄的相關(guān)信息,這些信息主要包括用戶(hù)訪(fǎng)問(wèn)的時(shí)間、URL、IP、使用方法、代理、返回結構、傳輸數據等相關(guān)信息雖然信息比較多,但是還存在無(wú)用的數據,需要進(jìn)行提純處理。一旦數據處理后,就能采用關(guān)聯(lián)分析、如路徑分析等模式發(fā)現技術(shù)來(lái)分析日志,獲取有用的信息。

  5 結束語(yǔ)

  本文介紹了網(wǎng)頁(yè)數據挖掘的相關(guān)概念、挖掘過(guò)程、分類(lèi)方法以及相關(guān)技術(shù)。在Internet發(fā)展的今天, 網(wǎng)頁(yè)數據挖掘的研究方面更加寬,人們不斷關(guān)注如何對這些網(wǎng)頁(yè)數據的處理。網(wǎng)頁(yè)數據挖掘在各個(gè)方面,特別在結合語(yǔ)言問(wèn)題、查詢(xún)半結構化、數據庫方面會(huì )得到不斷發(fā)展。

【科技論文發(fā)表基于Web數據挖掘技術(shù)的研究論文】相關(guān)文章:

基于數據挖掘的差異化車(chē)險收入管理研究論文10-17

基于愛(ài)好的電子商務(wù)數據挖掘技術(shù)的研究06-13

計算機畢業(yè)論文--數據挖掘技術(shù)研究09-10

科技論文的發(fā)表流程09-19

數據挖掘技術(shù)工程管理論文07-14

基于數據挖掘技術(shù)的交叉銷(xiāo)售分析09-27

基于數據挖掘的網(wǎng)絡(luò )入侵檢測技術(shù)05-16

數據挖掘技術(shù)在機房信息管理的運用論文08-25

科技論文寫(xiě)作與發(fā)表的意義07-09

Web數據挖掘技術(shù)在個(gè)性化網(wǎng)絡(luò )教學(xué)中的應用研究08-07

一级日韩免费大片,亚洲一区二区三区高清,性欧美乱妇高清come,久久婷婷国产麻豆91天堂,亚洲av无码a片在线观看