一级日韩免费大片,亚洲一区二区三区高清,性欧美乱妇高清come,久久婷婷国产麻豆91天堂,亚洲av无码a片在线观看

Hadoop物聯(lián)網(wǎng)數據挖掘的算法分析論文

時(shí)間:2025-12-06 15:04:29 論文范文

Hadoop物聯(lián)網(wǎng)數據挖掘的算法分析論文

  摘要:介紹了物聯(lián)網(wǎng)數據處理的若干關(guān)鍵技術(shù),如大數據采集、大數據存儲、大數據的分析與挖掘等。以Hadoop為平臺對物聯(lián)網(wǎng)數據進(jìn)行挖掘與分析,為了提高處理龐大數據的實(shí)效性,基于MapReduce架構采用了樸素貝葉斯分類(lèi)算法、K-modes聚類(lèi)算法以及ECLAT算法。分析認為,應用這三類(lèi)算法,提高了數據分類(lèi)效率,優(yōu)化了類(lèi)內對象之間的相似性以及類(lèi)間對象之間的關(guān)聯(lián)性,為更高效的數據挖掘提供了很好的思路。

Hadoop物聯(lián)網(wǎng)數據挖掘的算法分析論文

  關(guān)鍵詞:物聯(lián)網(wǎng);Hadoop;樸素貝葉斯;K-modes;ECLAT

  0引言

  當前計算機技術(shù)發(fā)展迅速,物聯(lián)網(wǎng)是在計算機、互聯(lián)網(wǎng)之后信息產(chǎn)業(yè)發(fā)展的第三次浪潮,它必將成為社會(huì )發(fā)展的重要推力,它能夠實(shí)現人與人、人與物和物與物之間的溝通與交流。物聯(lián)網(wǎng)的興起也必將再次引發(fā)數據的快速增長(cháng),對許多行業(yè)來(lái)說(shuō)既是更嚴峻的挑戰,也是更寶貴的機遇。物聯(lián)網(wǎng)正在深刻改變著(zhù)人們的生活習慣、工作方式。本文主要采用Hadoop分布式系統架構處理物聯(lián)網(wǎng)環(huán)境下的大數據,Hadoop是一個(gè)分布式計算平臺,具有高可靠性、高擴展性、高效性以及高容錯性等優(yōu)點(diǎn)。其主要由三大部分構成,HDFS(HadoopDistributedFileSystem)分布式文件系統、HadoopMapReduce分布式計算模型和HBase分布式數據庫。因此,如何更好地應用Hadoop計算平臺處理好物聯(lián)網(wǎng)大數據,將是一個(gè)待攻克的難題。本文主要分析如何運用Hadoop平臺處理大數據的理論依據,以及物聯(lián)網(wǎng)的應用前景。

  1物聯(lián)網(wǎng)概述

  物聯(lián)網(wǎng)[1]底層網(wǎng)絡(luò )通過(guò)RFID(RadioFrequencyIdentification)、WSNs(WirelessSensorNetworks)、無(wú)線(xiàn)局域網(wǎng)等網(wǎng)絡(luò )技術(shù)采集物物交換信息并傳輸到智能匯聚網(wǎng)關(guān),通過(guò)智能匯聚網(wǎng)關(guān)接入到網(wǎng)絡(luò )融合體系,最后利用包括廣播電視網(wǎng)、互聯(lián)網(wǎng)、電信網(wǎng)等網(wǎng)絡(luò )途徑使信息到達終端用戶(hù)應用系統。作為底層的數據感知層次[2],在這個(gè)階段主要感知各種各樣的信息內容,例如二維標簽、識別器、攝像頭信息、傳感網(wǎng)絡(luò )等。然后,整理收集到的數據通過(guò)傳輸層進(jìn)行傳遞,例如網(wǎng)絡(luò )管理中心、通信網(wǎng)絡(luò )和智能處理等。最后,系統處理傳輸層的數據,通過(guò)人機交互解決信息處理和人機界面的問(wèn)題。

  2Hadoop工作原理

  2.1Hadoop基本架構

  Hadoop主要是處理大數據的開(kāi)源式平臺,其具有海量存儲、成本低廉、效率高以及牢靠性高等特點(diǎn),因此可以應用到物聯(lián)網(wǎng)平臺的大數據處理[3]。Hadoop的兩大主要元件是HDFS和MapReduce。前者的工作主要是存儲海量的數據,其存儲方式是分布式的;后者主要是計算處理這些大數據,其計算方式也是分布式處理[4]。為了更好的理解這兩個(gè)元件的體系結構及其工作流程.

  2.2HDFS分布式文件系統

  HDFS是一個(gè)分布式文件系統,其具有高容錯性和低廉的成本。HDFS實(shí)現的主要目標有以下幾點(diǎn)。①以最快的速度檢查出硬件異常情況并且及時(shí)解決異常。②進(jìn)行批量化處理文件,提高效率節省時(shí)間,重點(diǎn)強調數據的吞吐量。③支持大數據集,不僅可以處理聚集式的高寬帶數據,而且可以支持成百個(gè)節點(diǎn)的單個(gè)集群。④其訪(fǎng)問(wèn)模式是“一次輸入,多次讀取”,保證了數據訪(fǎng)問(wèn)吞吐量的高效性。⑤HDFS設計可實(shí)現不同平臺間的互相轉移,因而促進(jìn)了大數據程序平臺的廣泛應用。HDFS以主從(Master/Slave)結構為主,HDFS集群由一個(gè)NameNode和許多個(gè)DataNode組成。NameNode為主服務(wù)器,主要負責管理存儲文件以及訪(fǎng)問(wèn)客戶(hù)端操作文件。DataNode主要負責管理存儲數據,也就是存儲小的數據塊。

  2.3MapReduce分布式計算框架

  MapReduce的兩大階段主要是Map階段和Reduce階段。Map階段構成:①輸入數據格式解析(InputFormat);②輸入數據處理(Mapper);③數據分組(Partitioner)。而Reduce階段構成:①數據遠程拷貝;②數據按照KEY排序;③數據處理(Reduce);④數據輸出格式(OutputFormat)。其工作流程如下。⑴數據預處理:從HDFS數據庫中讀取數據,分析輸入數據格式。⑵MAP映射任務(wù):讀取自己所屬的文件分片,將每一條數據轉換成鍵值對,運用MAP函數得到新的鍵值對并將其存儲到中間節點(diǎn)上。⑶定位緩存文件:將上一步得到的鍵值對的存儲位置信息發(fā)送給Reducer。⑷Reduce階段:通過(guò)位置信息讀取文件,將所有數據進(jìn)行重新排序并且合并同一KEY值,再通過(guò)Reduce函數化簡(jiǎn),最后輸出最終結果值。

  3數據挖掘算法分析

  MapReduce架構具有簡(jiǎn)易性、效率高、靠譜性以及并行的運算方式等特點(diǎn),同時(shí)MapReduce架構的運用廣度也有局限性,不能實(shí)現全部算法的應用。因此,最關(guān)鍵的是此算法需滿(mǎn)足可伸縮性的特點(diǎn),這里采用三類(lèi)算法:分類(lèi)算法、聚類(lèi)算法和關(guān)聯(lián)規則算法,研究改造并且能夠應用到MapReduce架構中。

  3.1樸素貝葉斯分類(lèi)算法

  樸素貝葉斯分類(lèi)算法[5](NaiveBayesianclassifi-cation,NBC),即將所有數據進(jìn)行分類(lèi),先以一個(gè)特定的點(diǎn)定義好類(lèi)別,建造一個(gè)分類(lèi)器,其作用是將待定的數據先通過(guò)映射,劃分到確定的類(lèi)別。簡(jiǎn)言之,首先需構建一個(gè)分類(lèi)器,獲得某個(gè)已知樣本的先驗概率的前提,再運用貝葉斯公式:()()()()PABPBPBAPA=⑴得出一個(gè)后驗概率,最后確定后驗概率最大的類(lèi)是對象所屬的類(lèi)。樸素貝葉斯分類(lèi)算法采用的是掃描式方式,其算法操作如下:⑴Main函數:讀取數據集;⑵Map函數:計算離散屬性取值的總和、其連續屬性的平均值μ以及標準差δ;⑶Reduce函數:整合輸出統計值;⑷Main函數:由步驟3的結果生成分類(lèi)器。

  3.2K-modes聚類(lèi)算法

  K-modes聚類(lèi)算法[6],即先將對象進(jìn)行聚集劃分成不同的類(lèi)別和子集,通過(guò)靜態(tài)分類(lèi)的方法將相似的成員對象分為一類(lèi),以區別于其他簇中的對象。由于這種方式不需要進(jìn)行人工標注處理,因而具有一定的自適應性即無(wú)需看管監督的算法。K-modes算法不僅其算法思想容易實(shí)現,而且本身簡(jiǎn)單易用,因此成為最常用的聚類(lèi)算法之一。K-modes算法是K-means算法基礎上的延伸,不僅可以處理數值型數值,也可以處理分類(lèi)屬性型的數據,這是一個(gè)大的改進(jìn)。K-modes算法可以很好的處理數量少的數據集,同時(shí)也可以高效處理龐大的數據集,其算法時(shí)間復雜度為O(tnkm),共同決定于迭代數t,數據集中對象數n,劃分子類(lèi)數k,以及屬性數量m。K-modes算法中modes可直接描述每一個(gè)類(lèi)的屬性和特性,便于解析聚類(lèi)結果。K-modes算法是收斂的。以上是傳統的K-modes算法的優(yōu)點(diǎn),其也有缺點(diǎn)。K-modes算法雖然是收斂的,但是Huang證明其只能在局限收斂中實(shí)現最小值,在全局收斂中實(shí)現不了。聚類(lèi)算法的好壞取決于相異度度量方法,K-modes算法在展示兩者的差異性不占優(yōu)勢。聚類(lèi)算法中modes決定了結果的精確度,而此算法的modes不是獨一無(wú)二的。因此,采用改進(jìn)的K-modes算法。K-modes聚類(lèi)算法[7]采用迭代式的方式,其算法操作如下。⑴main函數:讀取數據集中的初始中心點(diǎn)。⑵map函數:主要計算差異值、眾數和目標函數值。⑶main函數:最后讀取和判斷目標函數值,若連續兩輪的結果無(wú)變化,則結束這次過(guò)程,得出中心點(diǎn),反之需要進(jìn)行下一輪的迭代進(jìn)程。因此,聚類(lèi)算法的應用能夠將類(lèi)內對象的相似性達到最大,類(lèi)間對象的相似性盡量的小,從而可以更好的區分對象間的差別。

  3.3ECLAT頻繁項集挖掘算法

  關(guān)聯(lián)規則挖掘算法的主要作用是找出不同項集之間的關(guān)聯(lián)性,并且應用到大數據中。例如,顧客去便利超市買(mǎi)東西,觀(guān)察分析顧客的購物車(chē),會(huì )發(fā)現商品間的聯(lián)系。因而調整商品的擺放位置,可以更好的促銷(xiāo)商品。ECLAT算法[8]其本質(zhì)是一種頻繁項集挖掘算法,其異于傳統的數據結構,是基于垂直數據結構格式。其工作流程如下:首先全面掃描所有數據,然后將數據的格式展示為垂直的,最后得到一個(gè)項集的長(cháng)度值,即項集支持度的計數。依據算法Apriori的特性,從K=1開(kāi)始,對頻繁K項集的交進(jìn)行計算,構建備選的K+1項集并且選出第K+1項時(shí),反復操作,將K的值加一,當不能挖掘出頻繁項集便結束這個(gè)工作。ECLAT頻繁項集挖掘算法也是采用迭代式,其算法操作如下。⑴Main函數:讀取上一輪的挖掘數據。⑵Map函數:存儲垂直K項集。⑶Reduce函數:對垂直K項集挖掘出頻繁K項集。⑷Main函數:讀取最終的Reduce函數中的結果,如果不是空值,繼續進(jìn)行下一輪挖掘,反之就結束此程序。因此,ECLAT算法的最大優(yōu)勢是更快地找出數據間的關(guān)聯(lián)性,為數據挖掘提供了很好的解決方法。

  4應用前景

  隨著(zhù)物聯(lián)網(wǎng)技術(shù)的發(fā)展,其能夠廣泛應用到各行各業(yè)[9]。例如,農業(yè)物聯(lián)網(wǎng)即物聯(lián)網(wǎng)技術(shù)應用于農業(yè)領(lǐng)域,從農業(yè)的生產(chǎn)、經(jīng)營(yíng)、管理到服務(wù)都可以提供支持,通過(guò)農業(yè)信息感知設備,提高農業(yè)生產(chǎn)的品質(zhì)與效率。智能交通中,將物聯(lián)網(wǎng)技術(shù)應用到交通運輸領(lǐng)域,實(shí)現交通運輸的智能化,提高國家的整體實(shí)力和科技水平。城市安全管理是將物聯(lián)網(wǎng)技術(shù)應用到公共安全領(lǐng)域。例如城軌站點(diǎn)安全監測,人員密集的公共場(chǎng)所安全監測,橋梁建筑物安全監測,以及特定危險品的生產(chǎn)場(chǎng)所的安全監測等。同時(shí),物聯(lián)網(wǎng)可以應用到石油行業(yè)中,從油氣勘探、鉆井、油田生產(chǎn)到管理運輸和煉油化工等方面,物聯(lián)網(wǎng)技術(shù)大大提高了生產(chǎn)和管理效率,從而增強我國石油行業(yè)的可持續發(fā)展能力和國際影響力。

  5結束語(yǔ)

  本文通過(guò)Hadoop平臺挖掘分析物聯(lián)網(wǎng)數據,并且將樸素貝葉斯分類(lèi)算法、K-modes聚類(lèi)算法以及ECLAT頻繁項集挖掘算法應用于MapReduce架構。結果表明,這三類(lèi)算法的運用可以更高效的處理大數據,從而獲取更有價(jià)值的信息。優(yōu)化物聯(lián)網(wǎng)數據挖掘分析方法,進(jìn)而促進(jìn)物聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展。物聯(lián)網(wǎng)作為新一代信息技術(shù)的典型代表,不僅滲透到農業(yè)生產(chǎn)、智能交通、公共安全、石油產(chǎn)業(yè)等領(lǐng)域,而且對將來(lái)的經(jīng)濟發(fā)展和社會(huì )生活都將產(chǎn)生深遠影響。物聯(lián)網(wǎng)的挖掘分析方法在實(shí)際運用中還需要進(jìn)一步探索與研究。

【Hadoop物聯(lián)網(wǎng)數據挖掘的算法分析論文】相關(guān)文章:

數據挖掘實(shí)習報告10-05

關(guān)于物聯(lián)網(wǎng)的信息安全技術(shù)研究論文09-29

數據分析報告07-15

數據分析報告03-26

物聯(lián)網(wǎng)產(chǎn)業(yè)調研報告02-14

數據分析報告通用12-15

數據分析個(gè)人報告12-20

個(gè)人的數據分析報告10-27

銷(xiāo)售數據分析報告07-10

數據分析報告優(yōu)秀09-10

一级日韩免费大片,亚洲一区二区三区高清,性欧美乱妇高清come,久久婷婷国产麻豆91天堂,亚洲av无码a片在线观看