淺析基于數據挖掘的數字檔案信息管理研究
論文關(guān)鍵詞:數字化 圖書(shū)管理 檔案化
論文摘要:隨著(zhù)社會(huì )主義現代化的發(fā)展,計算機技術(shù)的進(jìn)步,信息技術(shù)在社會(huì )發(fā)展的各個(gè)領(lǐng)域都扮演著(zhù)極其重要的角色。信息化建設更是被我國列為經(jīng)濟社會(huì )發(fā)展的首要內容。網(wǎng)頁(yè)檔案化管理包括文檔、文字翻譯轉換、圖片資料、聲像資料、多媒體遠程會(huì )議等。尤其是大學(xué)檔案館更側重教學(xué)與科研,網(wǎng)頁(yè)檔案化管理是必然的趨勢。
在信息化發(fā)展的今天,圖書(shū)館,特別是大學(xué)圖書(shū)館不僅要對信息進(jìn)行簡(jiǎn)單的數字轉換和管理,更要對新興事物網(wǎng)絡(luò )進(jìn)行檔案化管理和歸檔,包括文檔、文字翻譯轉換、圖片資料、聲像資料、多媒體遠程會(huì )議等。所以網(wǎng)絡(luò )檔案化管理,成為當今圖書(shū)管理的必然趨勢,這就必須對檔案化管理的技術(shù)和法律相關(guān)問(wèn)題進(jìn)行深入闡述和探討。
所謂數據挖掘(Data Mining),就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識的過(guò)程。這些數據可以是結構化的,如關(guān)系數據庫中的數據,也可以是半結構化的,如文本,圖形,圖像數據,甚至是分布在網(wǎng)絡(luò )上的異構型數據。發(fā)現知識的方法可以是數學(xué)的,也可以是非數學(xué)的;可以是演繹的,也可以是歸納的。發(fā)現了的知識可以被用于信息管理、查詢(xún)優(yōu)化、決策支持、過(guò)程控制等,還可以進(jìn)行數據自身的維護。數據挖掘借助了多年來(lái)數理統計技術(shù)和人工智能以及知識工程等領(lǐng)域的研究成果構建自己的理論體系,是涉及數據庫、人工智能、數理統計、機械學(xué)、人工神經(jīng)網(wǎng)絡(luò )、可視化、并行計算等的交叉學(xué)科,是目前國際上數據庫和決策支持領(lǐng)域的最前沿的研究方向之一。
一、數據挖掘的功能
數據挖掘通過(guò)預測未來(lái)趨勢及行為,做出預測性的、基于知識的決策。數據挖掘的目標是從數據庫中發(fā)現隱含的、有意義的知識,按其功能可分為以下幾類(lèi)。
1、關(guān)聯(lián)分析
關(guān)聯(lián)分析能尋找到數據庫中大量數據的相關(guān)聯(lián)系,常用的一種技術(shù)為關(guān)聯(lián)規則和序列模式。關(guān)聯(lián)規則是發(fā)現一個(gè)事物與其他事物間的相互關(guān)聯(lián)性或相互依賴(lài)性。
2、聚類(lèi)
輸入的數據并無(wú)任何類(lèi)型標記,聚類(lèi)就是按一定的規則將數據劃分為合理的集合,即將對象分組為多個(gè)類(lèi)或簇,使得在同一個(gè)簇中的對象之間具有較高的相似度,而在不同簇中的對象差別很大。聚類(lèi)增強了人們對客觀(guān)現實(shí)的認識,是概念描述和偏差分析的先決條件。聚類(lèi)技術(shù)主要包括傳統的模式識別方法和數學(xué)分類(lèi)學(xué)。
3、自動(dòng)預測趨勢和行為
數據挖掘自動(dòng)在大型數據庫中進(jìn)行分類(lèi)和預測,尋找預測性信息,自動(dòng)地提出描述重要數據類(lèi)的模型或預測未來(lái)的數據趨勢,這樣以往需要進(jìn)行大量手工分析的問(wèn)題如今可以迅速直接由數據本身得出結論。
4、概念描述
對于數據庫中龐雜的數據,人們期望以簡(jiǎn)潔的描述形式來(lái)描述匯集的數據集。概念描述就是對某類(lèi)對象的內涵進(jìn)行描述并概括出這類(lèi)對象的有關(guān)特征。概念描述分為特征性描述和區別性描述,前者描述某類(lèi)對象的共同特征,后者描述不同類(lèi)對象之間的區別。生成一個(gè)類(lèi)的特征性只涉及該類(lèi)對象中所有對象的共性。生成區別性描述的方法很多,如決策樹(shù)方法、遺傳算法等。
5、偏差檢測
數據庫中的數據常有一些異常記錄,從數據庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類(lèi)中的反常實(shí)例、不滿(mǎn)足規則的特例、觀(guān)測結果與模型預測值的偏差、量值隨時(shí)間的變化等。偏差檢測的基本方法是尋找觀(guān)測結果與參照值之間有意義的差別。這常用于金融銀行業(yè)中檢測欺詐行為,或市場(chǎng)分析中分析特殊消費者的消費習慣。
二、數據挖掘在建設現代化高校檔案館中的應用
1、資源類(lèi)數據包括館藏檔案經(jīng)過(guò)數字化加工而產(chǎn)生的各類(lèi)電子檔案、電子文件中心中存儲的各類(lèi)電子檔案、檔案軟件收集的信息、檔案信息網(wǎng)建設和維護信息。我們從研究大學(xué)檔案用戶(hù)的信息需求出發(fā),數據挖掘為大學(xué)檔案館全面掌握和準確理解檔案用戶(hù)的信息需求提供了方法。
(1) 利用Web訪(fǎng)問(wèn)信息挖掘技術(shù)發(fā)現其中的關(guān)聯(lián)模式、序列模式和Web訪(fǎng)問(wèn)趨勢等,構建多維視圖的用戶(hù)興趣模型。從而可以確定檔案信息或服務(wù)受歡迎的程度,發(fā)現用戶(hù)訪(fǎng)問(wèn)模式和用戶(hù)需求的趨勢,從不同側面來(lái)研究用戶(hù)的信息需求,為優(yōu)化檔案館的檔案信息資源建設提供了科學(xué)依據。
(2) 收集大學(xué)檔案網(wǎng)web服務(wù)器保留的用戶(hù)注冊信息、訪(fǎng)問(wèn)記錄,以及有關(guān)用戶(hù)與系統交互的信息等原始數據,經(jīng)過(guò)清洗、濃縮和轉換形成便于統計分析的用戶(hù)查閱數據庫、日志數據庫、用戶(hù)定制信息庫、用戶(hù)反饋信息等各種數據集合。

2、從建設大學(xué)檔案館館藏信息資源出發(fā),數據挖掘為大學(xué)檔案館提供了選擇一條科學(xué)發(fā)展道路的重要依據。
(1) 利用檔案網(wǎng)和檔案管理軟件訪(fǎng)問(wèn)信息的挖掘分析出檔案資源的利用率,將利用率高、需求量大的傳統載體檔案優(yōu)先數字化。例如:通過(guò)對檔案信息的訪(fǎng)問(wèn)記錄、檢索請求中用戶(hù)請求失敗的數據進(jìn)行分析,按類(lèi)統計檔案拒用集和頻繁利用集,結合聚集算法發(fā)現館藏資源的缺漏,有針對性地補充和豐富檔案信息資源。
(2) 在大學(xué)檔案館藏管理過(guò)程中利用文本挖掘,運用關(guān)聯(lián)、分類(lèi)、聚類(lèi)等方法,從海量檔案信息中按照相關(guān)專(zhuān)題進(jìn)行挖掘、分類(lèi)、加工、整理和有序化重組,構建特色檔案信息庫及各類(lèi)專(zhuān)題檔案信息庫等。
3、從做好大學(xué)檔案館信息管理工作的角度出發(fā),數據挖掘為優(yōu)化館藏信息和對未來(lái)工作的預測發(fā)揮重要作用。
(1) 在提供利用環(huán)節中,對用戶(hù)每次借閱的信息進(jìn)行關(guān)聯(lián)分析,發(fā)現各類(lèi)檔案信息之間的關(guān)聯(lián)規則或比例關(guān)系,這樣可以進(jìn)一步優(yōu)化館藏信息。
(2) 開(kāi)展大學(xué)檔案館館藏信息文本特征的建立、特征提取、特征匹配、特征集縮減和模型評價(jià)工作,實(shí)現對大量文檔集合的內容進(jìn)行總結、分類(lèi)、聚類(lèi)、關(guān)聯(lián)分析、分布分析,通過(guò)歸納與總結,發(fā)現的知識可以為未來(lái)檔案工作的趨勢進(jìn)行預測。
三、數據挖掘在管理類(lèi)數據中的應用
大學(xué)檔案館的管理類(lèi)數據包括:智能監控系統、消防系統、溫濕度控制系統、智能密集架、數據管理系統、數據利用系統等在日常工作產(chǎn)生大量的管理類(lèi)數據。我們得用數據挖掘工具在這類(lèi)看似無(wú)用的數據中提取有價(jià)值的知識并運用到大學(xué)檔案館工作中,并在大學(xué)檔案館的現代化建設中發(fā)揮作用。
大學(xué)檔案館檔案工作的重點(diǎn)是為師生服務(wù),以服務(wù)為中心開(kāi)展各項工作,如何使用先進(jìn)的工具,提高服務(wù)的質(zhì)量是一直困擾我們的難題。數據挖掘為大學(xué)檔案館檔案工作的智能化、個(gè)性化、精品化提供了行之有效的方法。在智能檢索系統可調用用戶(hù)興趣模型,自動(dòng)修正檢索策略并可依用戶(hù)興趣將檢索結果迅速聚類(lèi)和分類(lèi),并條理化地排序出來(lái);對于設計院、社科院等科研型檔案用戶(hù),可借助數據挖掘開(kāi)展針對性的檔案信息挖掘,并將研究成果以概述、成果報告等形式提供給用戶(hù)。這樣不光實(shí)現了大學(xué)檔案的二次開(kāi)發(fā),也會(huì )給用戶(hù)帶來(lái)意外的驚喜。
網(wǎng)絡(luò )最初只是科學(xué)家與研究人員之間交換文件的軟件,把因特網(wǎng)用于教育和研究可以得到政府的補貼。在中國,大學(xué)有撥款,圖書(shū)館有大學(xué)支持,數字圖書(shū)館的網(wǎng)絡(luò )檔案館是不贏(yíng)利的,產(chǎn)出是教學(xué)和科研的長(cháng)期社會(huì )效益。今天,因特網(wǎng)已經(jīng)越來(lái)越商業(yè)化了,網(wǎng)絡(luò )在數字經(jīng)濟中已成為極具潛力的技術(shù)投資對象。大學(xué)數字圖書(shū)館也可以考慮建立以贏(yíng)利為目的的網(wǎng)絡(luò )檔案庫,采用網(wǎng)絡(luò )商務(wù)中的一些商務(wù)模式,例如網(wǎng)絡(luò )廣告、旗幟廣告、贊助廣告、訂閱、B2C等。收入可用于大學(xué)數字圖書(shū)館網(wǎng)絡(luò )檔案館建設的滾動(dòng)發(fā)展。目前人們對這些處于萌芽中的經(jīng)濟模式認識甚少。管理網(wǎng)絡(luò )的公共政策制定主體是政府部門(mén),推行電子政務(wù),開(kāi)發(fā)網(wǎng)絡(luò )資源,促進(jìn)從文字印刷向網(wǎng)絡(luò )出版的轉移是當前相關(guān)政府部門(mén)的重要任務(wù)。大學(xué)的政策、態(tài)度和措施對數字圖書(shū)館的發(fā)展至關(guān)重要。市場(chǎng)手段和政策平衡是網(wǎng)絡(luò )檔案館建設,網(wǎng)絡(luò )檔案庫運行,網(wǎng)上內容傳遞和保存應該和必須考慮的。
參考文獻:
[1]Peer to peer Networking and Digital Right Management,by Michael A. Einhorn, Bill Rosenblatt, Policy Analysis No.534, CATO Institute. Fabruary 17,2005
[2]What Every Citizen Should Know About DRM, aka Digital Right Management, by Mike Godwin Seuitoo Technology Counsel At Public Knowledge, 30 January, 2008, Ebook-Computer & Internet, www.asiaing.com
[3]彼得·萊曼.把萬(wàn)維網(wǎng)檔案化.信息化參考,2004(13)
[4]周宏仁等.信息化助建和諧社會(huì )的14個(gè)著(zhù)力點(diǎn).中國信息界,2008(3)
[5]ITU-T Technology Watch Reports. 2006-2008, Telecommunication Standardization Policy Division, ITU Telecommunication Standardization Sector
上一頁(yè) [1] [2]
【淺析基于數據挖掘的數字檔案信息管理研究】相關(guān)文章:
試論基于數據挖掘技術(shù)的保護設備故障信息管理與分析系統08-25
基于物聯(lián)網(wǎng)的設施農業(yè)環(huán)境監控與數據挖掘技術(shù)的研究應用論文07-27
淺析基于網(wǎng)絡(luò )的企業(yè)人力資源信息管理系統研究07-27
時(shí)間序列數據挖掘研究論文提綱06-25
淺析基于數據加密的網(wǎng)絡(luò )通信系統的設計與應用10-03
數據挖掘技術(shù)在臨床醫學(xué)的應用研究06-11
淺析數據挖掘技術(shù)在企業(yè)職工培訓中的應用論文09-23
- 相關(guān)推薦