- 相關(guān)推薦
大數據架構下的文獻資源管理應用論文
摘要:本文介紹了在圖書(shū)館情報領(lǐng)域數據管理中存在的信息孤島、數據類(lèi)型缺乏統一架構等問(wèn)題,通過(guò)對實(shí)際應用中數據類(lèi)型的分析,利用大數據存儲的系統架構,使用關(guān)系型數據庫與非關(guān)系型數據庫結合,同時(shí)輔以?xún)却鏀祿䦷旌头植际轿募到y,對內部用戶(hù)提供統一元數據管理,對外部提供統一數據訪(fǎng)問(wèn)平臺和統一數據搜索引擎,從而實(shí)現對多種結構數據資源的管理和應用.
關(guān)鍵詞:圖書(shū)館;大數據;數據存儲;異構數據;非關(guān)系型數據庫
作為以圖書(shū)館為基礎的情報研究機構,隨著(zhù)近年數據資源量的不斷增加,各類(lèi)文獻、圖書(shū)、期刊、基礎數據等都需要進(jìn)行穩定的存儲與高效率的分析。同時(shí),基于這些數據的知識庫、咨詢(xún)服務(wù)智庫等系統的建設也都迫在眉睫。為了能充分管理眾多數據,為各類(lèi)系統提供數據基礎,有必要建設一個(gè)結構統一、技術(shù)先進(jìn)、可重復利用的數據資源平臺,統一管理各類(lèi)數字化資源。
1存在問(wèn)題
面對大量的數據資源,在信息化過(guò)程中通常會(huì )碰到以下問(wèn)題:1.1信息孤島現象這種現象是指需求建設的應用系統存在相互之間在功能上不關(guān)聯(lián)互助、信息無(wú)法共享互換以及信息與業(yè)務(wù)流程和應用相互脫節等問(wèn)題,缺乏統一元數據管理。1.2多種類(lèi)型數據缺乏統一數據架構每個(gè)業(yè)務(wù)環(huán)節都會(huì )有大量非結構化、結構化、半結構化數據,如何對這類(lèi)數據進(jìn)行統一分析管理。在這些多種結構的數據中存在大量?jì)仍陉P(guān)聯(lián),只有統一數據存儲,才能進(jìn)一步挖掘出數據中存在的深層價(jià)值。1.3軟硬件環(huán)境重復購買(mǎi)現象在信息化建設過(guò)程中,新建應用系統都會(huì )根據自身需求重新搭建軟件、硬件環(huán)境,大部分系統運行所需軟硬件并沒(méi)有達到資源的滿(mǎn)負荷利用。1.4缺乏統一數據標準由于多年系統建設過(guò)程中由不同團隊開(kāi)發(fā),造成相同數據內容格式不統一,存在大量冗余數據,彼此數據更新不暢通。1.5缺乏統一數據安全管理方案在日常工作過(guò)程中需要進(jìn)行大量數據交互與實(shí)時(shí)操作,缺乏統一的信息化安全手段對數據分配權限進(jìn)行管理,并實(shí)現定期的資源備份。
2建設目標
基于以上狀況,考慮基于大數據架構的文獻資源管理方案應可達到以下目標:(1)實(shí)現基于統一元數據定義的信息集中管理和信息共享,為數字出版、數據加工、咨詢(xún)服務(wù)、日常管理等各項工作提供統一數據資源平臺。(2)實(shí)現統一大數據環(huán)境,滿(mǎn)足各個(gè)應用對于文檔數據、關(guān)系型數據、非關(guān)系型數據和內存型數據的統一存儲需求。(3)構建基于SOA架構的應用系統,保證在應用對于數據訪(fǎng)問(wèn)權限的統一管理。(4)建設統一搜索環(huán)境,滿(mǎn)足于各種數據資源能夠統一搜索查詢(xún)訪(fǎng)問(wèn)。(5)建設必須具備高度的先進(jìn)性、可靠性、可用性、安全性并具備良好的擴展性和靈活性。
3建設方案
3.1資源建設方案
圖書(shū)館中常見(jiàn)資源主要包括文獻、圖書(shū)、期刊、數值型數據、動(dòng)態(tài)信息等。依據數據結構的不同,可主要分為基礎數據、結構化數值型數據、非結構化數據、動(dòng)態(tài)信息、其他文字類(lèi)信息等幾類(lèi)。其特點(diǎn)如下:(1)基礎數據:主要如書(shū)目、期刊文獻等數據;(2)動(dòng)態(tài)信息:主要包括各類(lèi)網(wǎng)站、媒體發(fā)布的信息,時(shí)效性比較強;(3)非結構化數據:主要包括格式不夠統一的數值型數據;(4)結構化數值型數據:可以定期獲取的格式相對規范的數據,如海關(guān)進(jìn)出口數據、圖書(shū)期刊銷(xiāo)售數據;(5)其他文字類(lèi)信息:更新頻度較慢的文字類(lèi)數據,如各類(lèi)法律庫、研究報告等;針對不同類(lèi)型的數據資源,應對其采用特定的方式進(jìn)行處理、保存及利用。3.1.1基礎數據包括如數據、期刊文獻等基礎數據都應經(jīng)過(guò)數字化加工、元數據定義、自動(dòng)標引、關(guān)鍵數據提取等多個(gè)步驟,分別保存至相應數據庫。3.1.2動(dòng)態(tài)信息動(dòng)態(tài)信息的來(lái)源主要是各個(gè)網(wǎng)站,包括網(wǎng)站文章及各類(lèi)輿情信息?梢杂杉夹g(shù)手段完成從信息采集、分類(lèi)整理到分發(fā)的所有過(guò)程。整個(gè)流程由三個(gè)規則來(lái)體現:分別是采集規則、分類(lèi)規則、分發(fā)規則。采集規則:采集規則由編輯確定,包括來(lái)源網(wǎng)站、欄目等。利用爬蟲(chóng)技術(shù),可對所有網(wǎng)站的資源進(jìn)行自動(dòng)增量采集,并裝入“待分類(lèi)庫”。分類(lèi)規則:分類(lèi)規則利用到詞表、詞庫以及自動(dòng)標引技術(shù)。由專(zhuān)家及編輯對所有資源進(jìn)行多維度分類(lèi),并提供相應的語(yǔ)料,經(jīng)過(guò)學(xué)習,對之前進(jìn)入“待分類(lèi)庫”中的所有數據進(jìn)行自動(dòng)標引。之后,所有的數據將被從多個(gè)維度被分類(lèi)。保存后即可方便準確的提取。分發(fā)規則:在完成上述兩項工作之后,所有的動(dòng)態(tài)信息已經(jīng)被分門(mén)別類(lèi)的整理好。通過(guò)分類(lèi)、關(guān)鍵詞即可快速提取相關(guān)的信息。對于已經(jīng)經(jīng)過(guò)規范化處理的動(dòng)態(tài)信息,也可以直接利用形成產(chǎn)品,同樣依據自有的多維分類(lèi),即可把相關(guān)的動(dòng)態(tài)信息直接推送給用戶(hù)。3.1.3結構化數值型數據結構化數值型數據包括海關(guān)進(jìn)出口數據、統計局數據、產(chǎn)品庫等眾多格式相對規范資源。由于數據量的不斷增大,需要考慮使用數據倉庫技術(shù)對所有的結構化數據進(jìn)行規范保存,利用建模的方式保存數據。這類(lèi)數據的主要用途分為兩部分對內提供數據的查詢(xún),對外提供報告的自動(dòng)生成。(1)數據查詢(xún)。規范化存儲之后的數據可以方便的通過(guò)多個(gè)維度進(jìn)行查詢(xún)、鉆取,內容的研究人員可以直接通過(guò)輸入查詢(xún)條件進(jìn)行數據的查詢(xún),同時(shí)生成各類(lèi)圖表。(2)自動(dòng)報告。對外可以以產(chǎn)品的形式提供多種數據報告,利用預先準備的模板,在用戶(hù)選擇所需報告之后,利用已有數據,套用不同模板形成一份自動(dòng)的報告。3.1.4非結構化數據對于非結構化數據,將主要通過(guò)兩種方式來(lái)處理。(1)非結構化數據的結構化。部分非結構化數據本質(zhì)是結構化數據,因為某些原因才造成了數據的不完整,對于這類(lèi)數據,需要整理結構的最大集并將相應的數據填入對應字段。在完成此步驟之后,可采用類(lèi)似對于結構化處理的方式對這些資源進(jìn)行處理。(2)非結構化數據的標引分類(lèi)。除上述的數據之外,還有一部分非結構化數據過(guò)于零散,只能采用標引的方法實(shí)現這些數據的歸檔利用。方法和動(dòng)態(tài)信息的處理方式類(lèi)似。3.1.5文字類(lèi)信息文字類(lèi)信息的特點(diǎn)是實(shí)效性不強,每次發(fā)布后都會(huì )長(cháng)期使用。比如法律法規、咨詢(xún)報告等。這類(lèi)資源應主要采用自動(dòng)標引的技術(shù)進(jìn)行處理。首先也需有多個(gè)維度的分類(lèi)、詞庫、詞表以及語(yǔ)料,經(jīng)過(guò)學(xué)習后將每篇文章進(jìn)行標引分類(lèi),之后再將文章內的段落進(jìn)行二次標引。這樣,所有的資源都可以通過(guò)關(guān)鍵詞、多個(gè)維度的分類(lèi)進(jìn)行提取,即可獲取具體段落資源、也可以獲取完整的文章報告。這類(lèi)規整后的信息可提供給內部科研人員作為資料進(jìn)行調用,同時(shí)可以為結構化數據的自動(dòng)生成報告提供文字資源。
3.2技術(shù)建設架構
針對資源建設的方案,考慮采用關(guān)系型數據庫與非關(guān)系型數據庫結合的方式建立存儲架構。3.2.1數據存儲技術(shù)一個(gè)完整的數據環(huán)境,需要面對來(lái)自于各個(gè)方面的數據存儲需求挑戰,主要存在的數據存儲需求為:(1)文檔型數據存儲需求(2)關(guān)系型數據庫數據存儲需求(3)實(shí)時(shí)型數據存儲需求(4)非關(guān)系型數據關(guān)系型數據庫的優(yōu)勢在于保持數據的一致性,由于以數據標準化為前提,數據更新的系統開(kāi)銷(xiāo)很小,同時(shí)可以方便的進(jìn)行Join等復雜查詢(xún)。MySQL是目前最流行的關(guān)系型數據庫管理系統。尤其在WEB應用方面,它與PHP語(yǔ)言的結合是目前最為成熟、穩定、安全的技術(shù)之一。針對現有數據,絕大多數的結構化數據都可以保存在該類(lèi)數據庫中,從而實(shí)現復雜條件下的檢索操作。同時(shí),關(guān)系型數據庫擔任保存整個(gè)系統元數據架構與基本數據的任務(wù),是其他結構數據庫存儲及導入導出的基礎。NoSQL泛指非關(guān)系型的數據庫。它的優(yōu)勢在于性能,由于NoSQL是基于鍵值對的,可以想象成表中的主鍵和值的對應關(guān)系,而且不需要經(jīng)過(guò)SQL層的解析,所以性能非常高。另外可擴展性同樣也是因為基于鍵值對,數據之間沒(méi)有耦合性,所以非常容易水平擴展。它可以最大程度的解決關(guān)系型數據庫所不擅長(cháng)的大量數據的寫(xiě)入處理和為有數據更新的表做索引或表結構變更等問(wèn)題。用NoSQL可以方便的保存系統中的非結構化數據,并根據實(shí)際需求隨時(shí)調整其結構。分布式文件系統(DistributedFileSystem)是指文件系統管理的物理存儲資源不一定直接連接在本地節點(diǎn)上,而是通過(guò)計算機網(wǎng)絡(luò )與節點(diǎn)相連。由于系統中數據資源過(guò)于龐大,為提高其使用訪(fǎng)問(wèn)效率,利用HDFS的一次寫(xiě)入、多次讀寫(xiě)的特性。數據集一旦由數據源生成,就會(huì )被復制分發(fā)到不同的存儲節點(diǎn)中,從而響應各種各樣的數據分析任務(wù)請求。以Redis為代表的內存數據庫,是基于全部數據都存在內存中的技術(shù)體系,拋棄了磁盤(pán)數據管理的方式,它在采用半持久化模式運行時(shí)所有數據都是保存在內存中,然后不定期的通過(guò)異步方式保存到磁盤(pán)上。通過(guò)這種方式,內存數據庫在保證讀寫(xiě)速度遠超過(guò)傳統數據庫的基礎上,又可對其數據進(jìn)行分布式存儲且具有可恢復性。針對以上需求內容,結合各種軟件的特性:(1)MySQL滿(mǎn)足關(guān)系型數據庫需求;(2)NoSQL滿(mǎn)足對數據結構要求靈活需求;(3)HDFS滿(mǎn)足文檔類(lèi)型數據存儲需求;(4)Redis內存型數據庫,滿(mǎn)足高速存取需求;提供統一數據存儲環(huán)境,為后續數據統一元數據管理、數據統一權限管理、數據統一搜索等建設提供了充分必要條件。3.2.2數據訪(fǎng)問(wèn)平臺統一數據存儲提供大容量數據存儲環(huán)境,滿(mǎn)足數據存儲的大量、高速、多樣的需求。在這個(gè)基礎上,還需要有統一元數據對存儲的數據結構進(jìn)行定義,統一數據訪(fǎng)問(wèn)安全控制對數據訪(fǎng)問(wèn)者進(jìn)行權限控制,用數據統一搜索打通各種類(lèi)型數據,為后續數據挖掘分析提供數據高速訪(fǎng)問(wèn)接口。3.2.3統一元數據管理元數據(Metadata),又稱(chēng)中介數據、中繼數據,為描述數據的數據(dataaboutdata),主要是描述數據屬性(property)的信息,用來(lái)支持如指示存儲位置、歷史數據、資源查找、文件記錄等功能。元數據算是一種電子式目錄,為了達到編制目錄的目的,必須在描述并收藏數據的內容或特色,進(jìn)而達成協(xié)助數據檢索的目的。將所有資源的元數據統一管理,是進(jìn)一步應用的前提。3.2.4數據統一搜索在具備數據存儲與數據訪(fǎng)問(wèn)平臺基礎上,構建滿(mǎn)足于融合關(guān)系型數據庫、非關(guān)系型數據庫、文件數據庫以及內存數據庫的統一搜索引擎,并在構建搜索索引過(guò)程中融入專(zhuān)業(yè)詞庫詞表。以Web服務(wù)方式提供搜索引擎服務(wù),對用戶(hù)所輸入的文字進(jìn)行分詞,并結合搜索引擎索引,進(jìn)行詞關(guān)系匹配,并按用戶(hù)所需排序格式提供數據排序給用戶(hù)。搜索服務(wù)提供web服務(wù)方式給應用系統使用,應用系統需根據自身權限范圍進(jìn)行數據搜索范圍設置。通過(guò)上述平臺的組合,可以為圖書(shū)館中文獻、圖書(shū)、期刊、數值型數據、動(dòng)態(tài)信息等為主的各類(lèi)型數據提供完整的管理解決方案,并通過(guò)具有詞表技術(shù)的搜索引擎提供對外接口。
4結束語(yǔ)
雖然關(guān)系型數據庫有著(zhù)技術(shù)成熟、易維護、支持SQL方式的復雜查詢(xún)、豐富的完整性約束等諸多優(yōu)勢,且在圖書(shū)館情報領(lǐng)域被廣泛應用。但隨著(zhù)數據量的不斷增大,數據類(lèi)型的不斷增多以及應用模式的不斷變化,嘗試傳統數據架構+大數據架構的存儲、管理和應用將是圖情領(lǐng)域未來(lái)的技術(shù)架構發(fā)展方向。
參考文獻
[1]朱潔,羅華霖.大數據架構詳解:從數據獲取到深度學(xué)習[M].電子工業(yè)出版社,2012.
[2][美]湯姆,懷特(TomWhite)著(zhù).王海,華東,劉喻,呂粵海譯.Hadoop權威指南:大數據的存儲與分析(第4版)[M].清華大學(xué)出版社,2011.
[3]栗蔚,魏凱.大數據的技術(shù)、應用和價(jià)值變革[J].電信網(wǎng)技術(shù),2013(07).
[4]孟小峰,慈祥.大數據管理:概念、技術(shù)與挑戰[J].計算機研究與發(fā)展,2013(01).
[5]申德榮,于戈,王習特,聶鐵錚,寇月.支持大數據管理的nosql系統研究綜述[J].軟件學(xué)報,2013(08).
【大數據架構下的文獻資源管理應用論文】相關(guān)文章:
數據挖掘的論文參考文獻10-14
安卓應用論文參考文獻04-19
計算機應用論文參考文獻05-30
旅游管理下數據挖掘運用論文11-18
人力資源管理畢業(yè)論文參考文獻03-11
人力資源管理論文參考文獻05-08
數據挖掘在旅游電子商務(wù)中應用論文11-28
標準文獻論文文獻格式12-04