- 相關(guān)推薦
“互聯(lián)網(wǎng)+”時(shí)代的古籍數字化新思路
人類(lèi)社會(huì )已經(jīng)進(jìn)入一個(gè)大數據時(shí)代,人工智能是大數據時(shí)代最為重要的技術(shù)樣態(tài),它對人類(lèi)社會(huì )生活的方方面面正在產(chǎn)生深遠的影響,也勢必對包括古籍整理在內的國學(xué)研究工作提出許多新的問(wèn)題。以下是小編整理的“互聯(lián)網(wǎng)+”時(shí)代的古籍數字化新思路,歡迎閱讀。

“互聯(lián)網(wǎng)+”時(shí)代的古籍數字化新思路
問(wèn)題一:大數據時(shí)代,人們應具有什么樣的大數據觀(guān)?
在大數據時(shí)代,判斷一個(gè)人思維能力的重要標準之一是看他有沒(méi)有大數據觀(guān)。大數據觀(guān)實(shí)為一種新的世界觀(guān)。在大數據時(shí)代,首先應該轉變思維方式,由過(guò)去慣常的邏輯思維轉換為數據思維(當然,這并不意味著(zhù)邏輯思維的失效,相反,它與演繹思維一起,仍是人類(lèi)最基本的思維方法)。充分認識到人工智能是大數據時(shí)代最為重要的技術(shù)樣態(tài)。
人工智能的發(fā)展不再是簡(jiǎn)單模仿人腦的思維,而是通過(guò)算法革命,不斷提升大數據的收集和處理能力,從而形成類(lèi)似于人類(lèi)甚至部分超越人類(lèi)的認知能力,挑戰人類(lèi)的認知極限。人工智能的思維方式就是數據思維,大數據是人工智能的基礎;诖髷祿占吞幚砟芰Φ娜斯ぶ悄,代表了一種思維方式的轉換,即從邏輯思維轉換為數據思維,確切地說(shuō)就是從尋求因果關(guān)系的邏輯思維轉換為尋求萬(wàn)物相關(guān)性的數據思維。在這里,萬(wàn)物相關(guān)性也可表述為萬(wàn)物互聯(lián)。
從技術(shù)的角度講,說(shuō)大數據是人工智能的基礎還不夠,還要加上另外一個(gè)要素:云計算。人工智能(AI)、大數據(Big Data)、云計算(Cloud)三者共同構成了一個(gè)“ABC新時(shí)代”!癆BC新時(shí)代”代表新的產(chǎn)業(yè)趨勢和技術(shù)革命,它是繼PC時(shí)代、移動(dòng)互聯(lián)網(wǎng)時(shí)代后的又一波新的產(chǎn)業(yè)變革,標志著(zhù)一個(gè)全新的時(shí)代已經(jīng)來(lái)臨,其對人類(lèi)社會(huì )生活的影響、滲透是深遠的。在古籍整理方面,傳統紙質(zhì)文獻將會(huì )被完全數字化;在古籍研究方面,人們研究所依據的“底本”將是數字化的古籍文獻。紙本古籍依舊會(huì )長(cháng)期存在,人們可能在“懷舊”的意義上對其保持一份“親切”或“敬意”。
對于從事包括古籍整理在內的國學(xué)研究者來(lái)說(shuō),要從對傳統紙質(zhì)文獻整理研究的手工操作轉向充分利用古籍數據庫的智能操作。因此,未來(lái)不懂得如何智能操作古籍數據庫的學(xué)者將會(huì )落伍,甚至被時(shí)代淘汰。就像當下的衣食住行消費,我們如果不會(huì )運用手機移動(dòng)支付就會(huì )寸步難行一樣。
問(wèn)題二:大數據時(shí)代,古籍數據的量化尺度如何把握?
人們常說(shuō),中國的古籍浩如煙海。從量的方面來(lái)說(shuō),1912年以前產(chǎn)生并留存下來(lái)的中國古籍總量有19萬(wàn)種和20萬(wàn)種等不同說(shuō)法。李明杰指出:“據不完全統計,我國現存古籍仍有約19萬(wàn)種,其中僅保存在公共圖書(shū)館系統的就有2750萬(wàn)冊,可列入善本的約有250萬(wàn)冊!保ā吨腥A善本在當代中國的保護與傳播》,載光明網(wǎng)-文藝評論頻道2019-05-15)杜志強指出:“據《中國古籍總目》,我國古籍存世總量大約20萬(wàn)種,可謂浩如煙海。其中,善本大約占其三分之一!保ā豆偶票緝r(jià)值重大,中華文明源遠流長(cháng)》,載光明網(wǎng)-文藝評論頻道2019-06-04)我們就暫時(shí)以20萬(wàn)種作為現存古籍的總量。當然,古籍總量在某種意義上是動(dòng)態(tài)的,如新出土文獻、海內外新發(fā)現的漢文典籍等都可增加古籍的總量,不過(guò),這類(lèi)文獻的量都不會(huì )太大。
如果從傳統的數據量化意識來(lái)看,20萬(wàn)種古籍確實(shí)可以說(shuō)“浩如煙!,但是,在大數據時(shí)代,20萬(wàn)種古籍又不能說(shuō)是“浩如煙!。在大數據視野下,它又可看作是“寥若晨星”,20萬(wàn)種古籍被完全數字化的時(shí)間指日可待。美國谷歌公司有一個(gè)宏偉的野心,它想通過(guò)掃描把全世界的圖書(shū)數字化,建立一個(gè)包羅一切的數字圖書(shū)館。盡管遇到版權等方面的障礙,谷歌公司還是只用了9年時(shí)間就達到了一個(gè)驚人的數量,到2013年,“谷歌完成了3000多萬(wàn)本書(shū)的數字化,相當于歷史上出版圖書(shū)總數的1/4”(【美】埃雷茲·艾登,【法】讓-巴蒂斯特·米歇爾著(zhù),王彤彤等譯,《可視化未來(lái)——數據透視下的人文大趨勢》,浙江人民出版社2015年版。下同)。相對于世界上3000萬(wàn)種圖書(shū)來(lái)說(shuō),20萬(wàn)種中國古籍可能只是“小菜一碟”。
客觀(guān)地評估,中國古籍的數字化應該說(shuō)已經(jīng)取得長(cháng)足的發(fā)展。其中國家圖書(shū)館的“中華古籍資源庫”是“中華古籍保護計劃”的重要成果,目前在線(xiàn)發(fā)布的古籍影像資源包括國家圖書(shū)館藏善本和普通古籍、法國國家圖書(shū)館藏敦煌遺書(shū)、天津圖書(shū)館藏普通古籍等,資源總量超過(guò)3.2萬(wàn)部,可在國圖官網(wǎng)上直接瀏覽。另外,中華再造善本工程一期、二期都已完成,且制作了數據庫,提供全文瀏覽。唐宋編和金元編共影印善本古籍758種。清人陸心源“皕宋樓”以藏200種宋刻本引以為傲,今天我們足不出戶(hù)便可閱覽幾百種宋本。不過(guò),如果對標谷歌公司,我們有待完成的工作量還很大。中國古籍整理與研究的當務(wù)之急,是整合海內外各種古籍數據庫,建立一個(gè)由國家和民間、高校和企業(yè)共同參與管理的包含全部20萬(wàn)種古籍的“古籍數字圖書(shū)館”,以實(shí)現古籍整理與研究資源的全面共享。
大數據時(shí)代正在重構新的文獻統計學(xué)或計量文獻學(xué)。如果能正確把握當下古籍量化的尺度,就不會(huì )產(chǎn)生古人經(jīng)常發(fā)出的“望洋興嘆”的感慨,就能完成過(guò)去在人工統計時(shí)代不可能完成的各種古籍量化工作。
數據思維的前提是數據。也就是說(shuō),古籍整理與研究的基礎不再僅僅是傳統意義上的資料或文獻,而是數據,各種大數據。所謂“大數據”,首先是一個(gè)“量級”的概念,大數據不是以個(gè)、十、百、千為量級,而是以百萬(wàn)、千萬(wàn)、上億為量級,單個(gè)研究者依靠手工是無(wú)法完成這些大數據的收集與處理的,必須依靠機器,依靠人工智能。不少信息的統計手段發(fā)生前所未有的變化,必須依靠高科技的技術(shù)手段來(lái)分析海量的信息。數據思維的數據規模特點(diǎn),除了量級的變化,還意味著(zhù)某種龐大數據集。正如《可視化未來(lái)——數據透視下的人文大趨勢》一書(shū)中指出的,我們面臨的第一個(gè)主要的挑戰是,“大數據和數據科學(xué)家們之前運用的數據在結構上差異很大”,“大數據是雜亂的數據集”。當我們收集并處理的古典文獻從具體的、單個(gè)的文本轉化為龐大而雜亂的數據集時(shí),就必須運用尋求萬(wàn)物相關(guān)性的人工智能的數據思維方式,而不是簡(jiǎn)單地尋求線(xiàn)性的因果關(guān)系的邏輯思維方式。這一點(diǎn)將賦能包括古籍整理在內的國學(xué)研究以新的時(shí)代特征。
問(wèn)題三:大數據時(shí)代,如何構建古籍數據和古籍數據庫的目錄學(xué)?
古典文獻學(xué)是一套包含有目錄學(xué)、版本學(xué)和?睂W(xué)等主干性知識的知識譜系,它們在大數據時(shí)代都面臨著(zhù)知識結構和研究方式的轉型。其中,目錄學(xué)具有優(yōu)先性地位。
在大數據時(shí)代,我們需要構建新的古籍數據和古籍數據庫的目錄學(xué)。這種目錄學(xué),首先要對古籍數據進(jìn)行重新分類(lèi),我們依照的既不是《漢書(shū)·藝文志》那樣的七分法、《隋書(shū)·經(jīng)籍志》那樣的四分法,也不是按照針對紙質(zhì)文獻所流行的杜威分類(lèi)法或中圖法分類(lèi)體系,甚至也不是按照傳統的科學(xué)數據分類(lèi),如實(shí)驗數據與觀(guān)察數據之類(lèi)的數據分類(lèi)。
如何進(jìn)行古籍數據分類(lèi)?分類(lèi)方法可以有多種,從層次上可分為表層數據與深層數據;從價(jià)值上可分為有用數據與垃圾數據;從可靠性上可分為真實(shí)數據與虛假數據;從時(shí)間上可分為長(cháng)期數據和短期數據,等等。
上海寶藤生物醫藥公司董事長(cháng)樓敬偉曾表示,在生物醫學(xué)數據方面,不關(guān)注淺層數據,如身高、體重、呼吸、心跳等,而關(guān)注基因組數據、蛋白質(zhì)組數據、代謝組數據等深層數據,關(guān)注這些深層數據所反映的人體表征之間的數據關(guān)系,關(guān)注人體生物學(xué)的這些表征,和影像學(xué)存在什么關(guān)系。我們在意的是人體的腸道微生態(tài),人體與社會(huì )環(huán)境的互動(dòng),掌握多緯度的數據。我們不能收集一堆垃圾數據,而要開(kāi)辟智能醫療的試驗場(chǎng)。樓敬偉的說(shuō)法,對于我們重新認識古籍數據的分類(lèi)是有啟發(fā)性的。哪些東西是古籍數據中的表層數據,哪些是古籍數據中的深層數據;哪些是古籍數據中的長(cháng)期數據,哪些是古籍數據中的短期數據,這些都是需要進(jìn)一步思考的問(wèn)題。
至于古籍數據庫的分類(lèi),我們曾做過(guò)嘗試性工作。我和毛建軍博士主編的《漢語(yǔ)古籍電子文獻知見(jiàn)錄》(世界圖書(shū)出版公司2015年版),就是“從古典文獻學(xué)教學(xué)資源利用視野對這些電子文獻進(jìn)行了科學(xué)分類(lèi)與導航設計”。我們改變傳統書(shū)目以“經(jīng)、史、子、集”及其下設各小類(lèi)進(jìn)行分類(lèi)提要的標準,而以古籍電子文獻開(kāi)發(fā)所在區域和機構個(gè)人設置一、二級目錄進(jìn)行解題。一級目錄的安排次序為:中國大陸、中國臺灣、中國香港、中國澳門(mén)、國外(日本、韓國、美國、歐美、澳洲);二級目錄的安排次序為:圖書(shū)館、檔案館等古籍典藏機構、高校等研究機構、古籍數字化企業(yè)公司、個(gè)人等。其中,中國大陸有古籍電子文獻數據庫166種;中國臺灣有古籍電子文獻數據庫70種;中國香港有古籍電子文獻數據庫9種;中國澳門(mén)有古籍電子文獻數據庫兩種;國外地區有古籍電子文獻數據庫22種;合作開(kāi)發(fā)的古籍電子文獻數據庫有6種。二級目錄里所列古籍電子文獻數據庫共計275種,每種都有展現其研究特色的數據庫名稱(chēng)。
另外,我們也試圖改變傳統書(shū)目對古典文獻的版本分類(lèi),將古籍電子文獻分為古籍書(shū)目數據庫、古漢語(yǔ)電子語(yǔ)料庫、古籍全文數據庫、數字圖書(shū)館、古籍電子出版平臺,等等。我們的嘗試一定還存在不少值得改進(jìn)的地方,所收的古籍電子文獻數據庫遠沒(méi)有做到“大而全”,還有很大的增補空間。古籍數據庫的分類(lèi),自然還可以按現代學(xué)科體制來(lái)分,分為文、史、哲、政、經(jīng)、法等,數據庫所收古籍文獻最好有標點(diǎn)。對于專(zhuān)業(yè)研究人員來(lái)說(shuō),好的古籍數據庫應具備兩大特點(diǎn),一是全(搜集的數據越多越好),二是專(zhuān)(就是說(shuō),可按學(xué)科分類(lèi),也可按文體分類(lèi),還可按文獻主題分類(lèi),按文獻載體分類(lèi)),且不需要標點(diǎn)(如果有標點(diǎn),自然更好)。我本人也一直在準備《漢語(yǔ)古籍電子文獻知見(jiàn)錄》的修訂工作。
在古籍整理與研究領(lǐng)域,除了基于大數據技術(shù)的目錄學(xué)外,還有基于大數據技術(shù)的版本學(xué)、?睂W(xué)、辨偽學(xué)、輯佚學(xué)、索引學(xué)等,它們都會(huì )包括許多與古典文獻學(xué)完全不同的知識結構,需要我們重新加以建構。
問(wèn)題四:大數據時(shí)代,我們應該培養什么樣的古籍整理與研究人才?
大數據時(shí)代,我們迫切需要培養同時(shí)具有古典文獻學(xué)基礎、古籍數據庫開(kāi)發(fā)和利用能力的高級人才或復合型人才。最近,清華大學(xué)人文學(xué)院劉石教授“基于大數據技術(shù)的古代文學(xué)經(jīng)典文本分析與研究”課題組因研究需要,面向國內外招收博士生(直博生)或招聘博士后若干名。申請者的要求條件之一就是“應具有一定的計算機技術(shù)基礎,或者具有一定的數字人文研究經(jīng)驗。入學(xué)或進(jìn)站后,從事中國古代文學(xué)經(jīng)典文本的數據分析與研究”。這種人才培養意識在國內學(xué)術(shù)界和高教界開(kāi)了一個(gè)好頭!盎诖髷祿夹g(shù)的古代文學(xué)經(jīng)典文本分析與研究”以及“數字人文”均屬于人文社會(huì )科學(xué)研究的新興領(lǐng)域,它要求學(xué)生在古典文獻學(xué)、數據分析和認知哲學(xué)上都有一定基礎,而目前能將這幾方面專(zhuān)長(cháng)結合起來(lái)的人才并不多。大數據時(shí)代會(huì )催生許多新的跨學(xué)科分支。
事實(shí)上,在古籍整理與研究的數字化推廣領(lǐng)域,已經(jīng)產(chǎn)生一些新型專(zhuān)家,比如“數字文獻學(xué)家”兼“數字文獻企業(yè)家”,F在清華大學(xué)人文學(xué)院已經(jīng)在培養自己的“數字人文學(xué)家”,未來(lái)中國可能還會(huì )出現“古籍數據目錄學(xué)家”“古籍數據平臺設計師”“古籍數據統計師”“古籍數據分析師”“古漢語(yǔ)語(yǔ)料庫語(yǔ)言學(xué)家”“古籍數字出版家”,等等。對此,我們沒(méi)有理由不伸開(kāi)雙臂歡迎他們。我們的高等教育機構與研究機構必須立即行動(dòng)起來(lái)推進(jìn)有關(guān)的跨學(xué)科人才的培養。作為學(xué)者個(gè)人,我們也必須對此進(jìn)行充分的思想準備、知識儲備與技能訓練。
古籍數字化研究現狀
古籍又稱(chēng)典籍、文獻,是指沒(méi)有采用現代印刷技術(shù)來(lái)印制的書(shū)籍。中華文明五千年從甲骨文、簡(jiǎn)牘、卷軸再到線(xiàn)裝,留下了大量寶貴的古籍,作為中華文明文化延續的印證,古籍整理是非常重要的。
古籍整理的傳統方法,是通過(guò)對古籍進(jìn)行審校釋(審定、?、注釋)等加工整理后形成新版本,便于現代人進(jìn)行閱讀。古籍整理的傳統方法主要依賴(lài)手工進(jìn)行,有著(zhù)操作過(guò)程繁雜、效率低的缺點(diǎn),而且新版本仍然是書(shū)本形式,難以再次利用。在計算機技術(shù)出現后,古籍整理有了新的工具和方法,即古籍數字化技術(shù)。通過(guò)利用信息技術(shù)將古籍文獻進(jìn)行加工和整理,并使其轉化為電子數據,可以通過(guò)光盤(pán)、網(wǎng)絡(luò )進(jìn)行保存和傳播,有效解決了傳統古籍整理的缺點(diǎn)。
中文古籍的數字化最早是二十世紀七十年代,從計算機技術(shù)發(fā)達的美國開(kāi)始的。我國在引入相關(guān)技術(shù)后,產(chǎn)生了大批有價(jià)值的成果。國家圖書(shū)館的“古籍特藏文獻數字化計劃”,完成了“甲骨文”、“數字方志”、“碑砧菁華”、“敦煌遺珍”、“西夏碎金”、“永樂(lè )大典”等成果。
互聯(lián)網(wǎng)+古籍數字化
“互聯(lián)網(wǎng)+”實(shí)際上是互聯(lián)網(wǎng)發(fā)展新形態(tài),通過(guò)互聯(lián)網(wǎng)的云計算技術(shù)和大數據技術(shù),來(lái)組建一個(gè)知識社會(huì ),進(jìn)而推動(dòng)傳統產(chǎn)業(yè)發(fā)展!盎ヂ(lián)網(wǎng)+”所面臨的不光是互聯(lián)網(wǎng)移動(dòng),也不是僅僅應用于某一個(gè)傳統行業(yè),在加入了云計算、大數據和知識后,從而造就了創(chuàng )新,進(jìn)而改變了人們的生產(chǎn)、工作、生活方式;ヂ(lián)網(wǎng)+古籍數字化工作就是“互聯(lián)網(wǎng)+”浪潮中的一個(gè)創(chuàng )新.
1、用戶(hù)參與內容制造。與原有的古籍數字化單向信息發(fā)布的模式不同,新型古籍數字化平臺的內容通常是網(wǎng)絡(luò )用戶(hù)發(fā)布的,網(wǎng)絡(luò )用戶(hù)不僅僅是知識體系的瀏覽者同時(shí)也成為了知識體系的制造者,這也就意味著(zhù)新型古籍數字化平臺為用戶(hù)提供了更多參與的機會(huì )。
2、全方位交互性。以知識網(wǎng)絡(luò )為架構的新古籍數字化平臺,不僅實(shí)現了用戶(hù)在發(fā)布內容過(guò)程中與網(wǎng)絡(luò )服務(wù)器之間交互,而且也實(shí)現了同一網(wǎng)站不同用戶(hù)之間的交互,所發(fā)布內容之間的交互
3、輕便訪(fǎng)問(wèn)的網(wǎng)站。早期的古籍數字化成骨展示平臺是以局域網(wǎng)訪(fǎng)問(wèn)為目的設計,即使是在進(jìn)入全文檢索階段后實(shí)現了網(wǎng)絡(luò )化訪(fǎng)問(wèn),仍然是重系統輕內容的設計。
【“互聯(lián)網(wǎng)+”時(shí)代的古籍數字化新思路】相關(guān)文章:
10-08
10-05
10-26
02-24
03-25
07-01
10-11
10-13
10-08
10-08