圖書(shū)館對學(xué)生學(xué)業(yè)成效貢獻的大數據分析平臺構論文
高校圖書(shū)館因擁有豐富的數字資源和良好的學(xué)習環(huán)境,成為學(xué)校師生學(xué)習和休閑的重要場(chǎng)所.學(xué)生作為高校圖書(shū)館服務(wù)對象主體之一,其學(xué)業(yè)和高校圖書(shū)館所提供的服務(wù)必然存在一定的關(guān)系,因此圖書(shū)館對學(xué)生學(xué)業(yè)成效貢獻研究是指導高校圖書(shū)館投入產(chǎn)出的重要組成部分

大數據技術(shù)作為一種新興的海量數據分析工具越來(lái)越受到各行各業(yè)的重視.互聯(lián)網(wǎng)企業(yè)Google及Facebook之所以取得令人矚目的成績(jì),其核心的本質(zhì)就是其公司記錄和分析了用戶(hù)的行為大數據,從而精確掌握用戶(hù)行為并形成預判.
由此可見(jiàn),大數據技術(shù)對于海量、高速發(fā)展的數據具有很好的分析和管理能力,它被用來(lái)研究圖書(shū)館用戶(hù)行為的“大數據”是最佳選擇,研究成果可以為高校圖書(shū)館服務(wù)決策提供客觀(guān)的依據,具有重要理論研究意義和實(shí)際應用價(jià)值.
1大數據技術(shù)
大數據技術(shù)是一系列收集、存儲、管理、處理、分析、共享和可視化技術(shù)的集合.大數據的關(guān)鍵技術(shù)有很多,如借鑒生物界的進(jìn)化規律演化的隨機化搜索方法已被人們廣泛應用于組合優(yōu)化、機器學(xué)習、信號處理、自適應控制等領(lǐng)域;再如分布式技術(shù)包含分布式文件系統、分布式數據庫、分布式計算框架等,其已經(jīng)全面運用于各類(lèi)大數據應用中.大數據價(jià)值的完整體現則需要多種技術(shù)的協(xié)同,總的來(lái)說(shuō)可以歸納為以下幾種:
(1)分布式技術(shù).最典型的是Apache基金會(huì )的Hadoop大數據分布式處理軟件框架,主要延續了Google分布式文件系統GFS的開(kāi)源思想、分布式計算框架MapReduce和分布式數據庫BigTable的實(shí)現機理,開(kāi)發(fā)了自有的產(chǎn)品--HDFS分布式文件系統、MapReduce分布式編程框架和HBase分布式數據庫.
(2)大數據預處理技術(shù).大數據的一個(gè)重要特點(diǎn)是多樣性,這就意味著(zhù)數據來(lái)源極其廣泛、數據類(lèi)型極為繁雜,這種復雜的數據環(huán)境給大數據處理帶來(lái)了極大的挑戰.所以在分析大數據前,首先必須對海量數據源進(jìn)行預處理,以保證數據質(zhì)量及可信性.
大數據挖掘技術(shù).數據挖掘是整個(gè)大數據處理流程的核心,因為大數據的價(jià)值產(chǎn)生于挖掘過(guò)程.數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、P逭機的實(shí)際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過(guò)程.大數據挖掘的算法眾多,其中(1)以分類(lèi)算法、聚類(lèi)挖掘算法、關(guān)聯(lián)挖掘算法、序列挖掘算法最為主流.
2圍書(shū)館大數據分析面臨的問(wèn)題及數據構成
2.1圖書(shū)館大數據分析面臨的問(wèn)題
大數據時(shí)代的圖書(shū)館讀者行為大數據具有數據海量、類(lèi)型復雜、處理速度快和價(jià)值密度低的特點(diǎn),要對這些大數據進(jìn)行統一的存儲與分析,對圖書(shū)館來(lái)說(shuō)有著(zhù)極大的挑戰性.以下是3個(gè)亟待解決問(wèn)題:⑴數據的存儲能九學(xué)生在圖書(shū)館的所有行為活動(dòng)都將產(chǎn)生數據,數據量已由TB級升至PB級,而且還在源源不斷地增加,數據量的增長(cháng)速度已遠遠大于存儲能力的增長(cháng)速度.(2)數據類(lèi)型復雜繁多.學(xué)生對圖書(shū)館的利用行為數據不僅僅是簡(jiǎn)單的二維表格式存儲的結構化數據,還有以文本、圖片、XML文檔、JSON文檔、日志文件和音頻/視頻等半結構化和非結構化數據,關(guān)系型數據庫已經(jīng)無(wú)法有效管理這些數據.(3)數據處理的實(shí)時(shí)性.大數據時(shí)代強調的是數據處理的及時(shí)有效,圖書(shū)館要求大數據分析平臺可以快速地獲取、存儲和分析學(xué)生的行為數據,為圖書(shū)館提供快速的決策支持.
面對上述問(wèn)題,傳統數據分析工具已不再適合,而Hadoop大數據分布式存儲與計算框架能很好地解決了這些問(wèn)題,因此基于Hadoop建立統一的圖書(shū)館大數據存儲和分析平臺變得尤為迫切.
2.2圖書(shū)館大數據的構成分析
針對目前寧波大學(xué)在校的本科學(xué)生,將其對圖書(shū)館利用行為和學(xué)業(yè)成效相關(guān)數據(2010?2014年)作為此次實(shí)驗的數據源.經(jīng)過(guò)分析,確定數據源由學(xué)生個(gè)人信息、學(xué)生學(xué)業(yè)相關(guān)數據及圖書(shū)館利用行為數據三部分組成,數據類(lèi)型包括結構化的二維表數據和非結構化的日志數據,數據總量共計6108萬(wàn)條記錄.其中,學(xué)生學(xué)業(yè)相關(guān)完整數據有120萬(wàn)條記錄;圖書(shū)館利用行為數據包括從圖書(shū)館門(mén)禁系統(357萬(wàn))、閱覽室座位管理系統(320萬(wàn))、圖書(shū)借閱系統(247萬(wàn))、數字資源訪(fǎng)問(wèn)日志(5064萬(wàn))等途徑獲取學(xué)生的圖書(shū)館服務(wù)數據共計5988萬(wàn)條記錄,為圖書(shū)館服務(wù)對學(xué)生學(xué)業(yè)成效貢獻研究提供基礎的大數據參考樣本.
從上述統計來(lái)看,實(shí)驗涉及到的數據量級已在十億字節以上,而且還在隨著(zhù)時(shí)間的推移成線(xiàn)性增長(cháng),因此定期將相關(guān)系統中每天生成的數據導入Hadoop大數據平臺成為必然的選擇.目前此次實(shí)驗數據的收集整理工作已經(jīng)基本完成,初步擬定大數據主題分析的內容見(jiàn)表1.
高校大學(xué)生學(xué)業(yè)成效主要由學(xué)業(yè)成績(jì)、獎勵情況和科研能力三部分組成.學(xué)業(yè)成績(jì)主要是學(xué)生的在校的各類(lèi)專(zhuān)業(yè)課和選修課的考試成績(jì)積點(diǎn)分,獎勵情況是在校期間參加社團活動(dòng)、校級活動(dòng)等獲得的獎勵或榮譽(yù)稱(chēng)號,科研能力是指參與科研項目或發(fā)表論文等.
圖書(shū)館利用行為此內容,并綜合已有的相關(guān)研究關(guān)注的內容,再結合寧波大學(xué)的實(shí)際情況,考慮選取以下幾方面:(1)X寸紙質(zhì)館藏的利用,包括入館記錄(室內閱讀情況)和借閱記錄等;(2)對閱覽室的利用,包括入室記錄和在館時(shí)間(座位管理系統記錄情況)等;(3)數字資源的利用,包括數據庫檢索次數和全文下載次數等;(4)其他,如對網(wǎng)絡(luò )的利用等.
上述是高校圖書(shū)館服務(wù)對學(xué)生學(xué)業(yè)成效貢獻研究中主題分析的相關(guān)內容,但在實(shí)際的分析建模過(guò)程中,可以進(jìn)行適當的取舍或增加.
3圖書(shū)館成效貢獻的大數據分析平臺構建
3.1圖書(shū)館大數據分析平臺的總體架構
基于Hadoop的圖書(shū)館大數據分析平臺主要分為兩層一大數據預處理層和主題模型構建層,自下往上每層都為上層提供服務(wù).整體的架構設計如圖1所示.
3.2圖書(shū)館大數據預處理方案的設計
圖書(shū)館大數據預處理層主要是利用Hadoop集群在存儲和計算能力的優(yōu)越性,并結合大數據預處理技術(shù),來(lái)對學(xué)生圖書(shū)館活動(dòng)及學(xué)業(yè)數據進(jìn)行預處理?具體的設計方案流程如圖2所示.
整個(gè)方案采用分層設計思想,底層是Hadoop分布式平臺層.目前實(shí)驗采用10臺Linux操作系統的普通服務(wù)器機子,并分別在每臺機器上安裝JDK、SSH、Hadoop和Hbase,搭建Hadoop完全分布式運行環(huán)境.整個(gè)集群規劃為:NameNode:10.22.102.46,DataNode1~DataNode9:10.22.102.47?10.22.102.55.HDFS是分布式計算的存儲基礎,主要用于存儲學(xué)生圖書(shū)館利用行為和學(xué)業(yè)成效相關(guān)源數據氣其采用Master/Slave結構,集群包括1個(gè)NameNode和多個(gè)DataNodes,NameNode負責整個(gè)集群的任務(wù)調度分配,DataNode則是存儲實(shí)際的數據?MapReduce過(guò)程是把從HDFS中待處理的學(xué)生圖書(shū)館利用行為和學(xué)業(yè)成效相關(guān)源數據集分解成M個(gè)小數據集進(jìn)行并行Map操作,輸出中間態(tài)鍵值對<眾,value〉,然后根據眾值進(jìn)行Group操作,形成新的小數據組集<々,list(value)>,最后將這些小數據組集分割成R個(gè)集合,進(jìn)行Reduce操作后存儲到分布式數據庫中.Hbase是個(gè)基于列存儲的分布式數據庫,數據行有3種基本類(lèi)型:行關(guān)鍵字、時(shí)間戳和列,行關(guān)鍵字是數據表的唯一標示.海量的學(xué)生圖書(shū)館利用行為和學(xué)業(yè)成效相關(guān)數據通過(guò)MapReduce計算后,可以A:值作為行關(guān)鍵字進(jìn)行分布式存儲,實(shí)現海量數據的存儲與管理功能.
在Hadoop層之上,則為相應的大數據預處理模塊,可以透明地調用Hadoop底層的計算和存儲能力,包括數據清理、變換、集成及歸一化4個(gè)子模塊.數據清理是刪除那些不符合要求的記錄.數據集成是將來(lái)自不同應用系統中的數據源合并到一起,形成一致的數據存儲.數據轉換是將學(xué)生學(xué)業(yè)相關(guān)數據和圖書(shū)館相關(guān)應用系統中的數據用一定的格式來(lái)表示,以方便后期做關(guān)聯(lián)挖掘.歸一化處理是把數據值控制在一定的范圍內,保證程序運行時(shí)收斂加快.最終將處理好的數據通過(guò)接口或其他方式輸出.
3.2圖書(shū)館服務(wù)對學(xué)生學(xué)業(yè)成效貢獻的主題模型
構建思路
圖書(shū)館服務(wù)對學(xué)生學(xué)業(yè)成效貢獻的主題建模主要是利用大數據挖掘算法對相關(guān)數據進(jìn)行深入分析挖掘,精確發(fā)現數據之間的關(guān)聯(lián)關(guān)系,構建相應的主題分析模型.具體的分析挖掘過(guò)程如下:首先選擇合適的聚類(lèi)算法將學(xué)生群體和圖書(shū)館服務(wù)資源數據按照一定的規則分割成不同的集合,分析不同集合表現出的特征;其次利用關(guān)聯(lián)規則挖掘算法對主題分析的內容進(jìn)行關(guān)聯(lián)挖掘,分析各項數據之間存在的關(guān)系;最后采用決策樹(shù)分類(lèi)算法做一些預測性主題分析?
最終擬定圖書(shū)館服務(wù)與學(xué)生學(xué)業(yè)成效的主題模型主要從以下幾個(gè)主題分析方向進(jìn)行構建:
(1)各學(xué)院在某學(xué)年/學(xué)期學(xué)生整體學(xué)業(yè)成效情況分別與對圖書(shū)館利用行為(學(xué)院平均進(jìn)出閱覽室時(shí)長(cháng)、借閱次數、數字資源利用)的相關(guān)性分析.
(2)各專(zhuān)業(yè)在某學(xué)年/學(xué)期不同班級間學(xué)業(yè)成效分布情況與對圖書(shū)館利用行為(班級平均進(jìn)出閱覽室時(shí)長(cháng)、借閱次數、數字資源利用)的相關(guān)性分析.
(3)相同專(zhuān)業(yè)學(xué)業(yè)成效相差較大的個(gè)人與對圖書(shū)館利用行為(個(gè)人進(jìn)出閱覽室時(shí)長(cháng)、借閱次數、數字資源利用)的相關(guān)性分析.
(4)圖書(shū)館不同的資源服務(wù)(紙質(zhì)館藏、閱覽室利用、數字資源等)對學(xué)生學(xué)業(yè)成效貢獻的比重進(jìn)行分析.
此外,在上述主題分析中分別加入控制因素(性別、生源地以及高考成績(jì)),分析它們與學(xué)生學(xué)業(yè)成效的相關(guān)性,建立相應的主題關(guān)聯(lián)模型,達到指導服務(wù)決策與優(yōu)化資源配置的目的,最終更好的為用戶(hù)提供服務(wù)資源.
4結語(yǔ)
高校圖書(shū)館對學(xué)生學(xué)業(yè)成效貢獻的研究,以學(xué)生作為研究主體,以學(xué)生的學(xué)業(yè)成效作為關(guān)注目標,提出基于Hadoop開(kāi)源平臺與大數據技術(shù)進(jìn)行分析與主題建模,探索學(xué)生對于圖書(shū)館的利用與其學(xué)業(yè)成效之間的關(guān)系.在整個(gè)主題模型構建過(guò)程中,將一些控制因素加入到圖書(shū)館與學(xué)業(yè)成效的關(guān)聯(lián)分析中,根據分析結果可以反過(guò)來(lái)指導完善圖書(shū)館服務(wù)對學(xué)生學(xué)業(yè)成效貢獻主題模型的構建,從而更全面地對高校圖書(shū)館資源與服務(wù)在幫助學(xué)生提高學(xué)業(yè)成效方面的作用進(jìn)行考察.最終的研究成果可指導圖書(shū)館進(jìn)一步將服務(wù)嵌入到學(xué)生學(xué)習的每一個(gè)細節處,并以此為依據提升圖書(shū)館服務(wù)的質(zhì)量與水平.
【圖書(shū)館對學(xué)生學(xué)業(yè)成效貢獻的大數據分析平臺構論文】相關(guān)文章:
大數據云平臺推廣語(yǔ)10-24
學(xué)生學(xué)業(yè)職業(yè)規劃書(shū)11-07
大學(xué)生的學(xué)業(yè)規劃書(shū)08-17
學(xué)生學(xué)業(yè)生涯規劃書(shū)10-10
祝福學(xué)生學(xué)業(yè)進(jìn)步的祝福語(yǔ)10-10
竹子的貢獻作文08-27
大數的認識教案11-23
數據分析報告03-26