- 相關(guān)推薦
計算機網(wǎng)絡(luò )畢業(yè)論文-基于網(wǎng)格的面向專(zhuān)業(yè)內容的Web信息檢索體系結
摘要:利用網(wǎng)格、集群系統、XML等技術(shù)對分散的Web信息資源按地區按專(zhuān)業(yè)從邏輯上進(jìn)行了有效的組織和管理,設計了一個(gè)基于網(wǎng)格的面向專(zhuān)業(yè)內容的Web信息檢索體系結構,為用戶(hù)高效地獲取面向專(zhuān)業(yè)內容的信息資源提供了一種。關(guān)鍵詞:網(wǎng)格計算,集群系統,XML, Agent, Web
1、引言
近年來(lái),互聯(lián)網(wǎng)得到了迅速的,網(wǎng)上信息資源愈來(lái)愈龐大,且信息具有量大、分散、異構等特性,因此,傳統的Web信息檢索工具開(kāi)始暴露出它性能低下的一面,具體體現在現有的信息檢索工具對用戶(hù)的要求常常是找出了幾千甚至上萬(wàn)條記錄,根本無(wú)法從中再細找,或者找到的內容和要找的內容不是一個(gè)專(zhuān)業(yè)領(lǐng)域的,造成信息無(wú)效的現象。但隨著(zhù)人們信息意識的增強,對信息內容及信息服務(wù)的需求也在不斷的演變和發(fā)展,對獲取信息的專(zhuān)業(yè)化、實(shí)效性等方面有了新的要求。如何針對專(zhuān)業(yè)領(lǐng)域中特定的用戶(hù)群為他們提供專(zhuān)業(yè)的、度身量造的信息服務(wù),使用戶(hù)在盡可能短的時(shí)間內有效的找到最需要的信息內容是大家普遍關(guān)注的一個(gè)。本文利用網(wǎng)格計算、集群系統、XML等技術(shù)設計了一個(gè)基于網(wǎng)格的面向專(zhuān)業(yè)內容的Web信息檢索體系結構,它能將地理位置分散的、異構的信息按地區按專(zhuān)業(yè)內容從邏輯上進(jìn)行合理的組織和管理,為用戶(hù)快速、有效地獲取自己所需要的信息提供了一種方法。
2、基于網(wǎng)格的面向專(zhuān)業(yè)內容的Web信息檢索體系結構的設計
網(wǎng)格計算是近年來(lái)國際上興起的一種重要信息技術(shù),其目的是將網(wǎng)上各種資源組織在一個(gè)統一的大框架下,為解決大型復雜計算、數據服務(wù)和各種信息服務(wù)提供一個(gè)方便用戶(hù)使用的虛擬平臺,實(shí)現互聯(lián)網(wǎng)上所有資源的全面連通,實(shí)現信息資源的全面共享。
為解決不同領(lǐng)域復雜計算與海量信息服務(wù)問(wèn)題,人們以網(wǎng)絡(luò )互連為基礎構造了不同的網(wǎng)格,他們在體系結構,要解決的問(wèn)題類(lèi)型等方面各不相同,但網(wǎng)格計算至少需要具有三種基本功能:資源管理、任務(wù)管理、任務(wù)調度。本文設計的信息檢索體系結構,圍繞網(wǎng)格計算的基本功能及信息檢索的特點(diǎn),主要有以下三個(gè)層次組成:見(jiàn)圖1
。1) 網(wǎng)格結點(diǎn):結點(diǎn)是網(wǎng)格計算資源的提供者,本系統主要是由一系列的集群系統組成,它們在地理位置上是分布的,構成了一個(gè)分布檢索群體,作為信息共享的基礎結構平臺。集群系統負責整個(gè)集群范圍內的信息管理,維護和查詢(xún)。
。2) 網(wǎng)格計算中間件:中間件是信息資源管理和用戶(hù)任務(wù)調度、任務(wù)管理的工具。它是整個(gè)網(wǎng)格信息資源管理的核心部分,它根據用戶(hù)的信息請求任務(wù),在整個(gè)網(wǎng)格內負責信息資源的匹配、定位,實(shí)現用戶(hù)任務(wù)到集群系統的映射。
。3) 網(wǎng)格用戶(hù)層:主要為用戶(hù)提供接口,支持用戶(hù)對所需要的信息資源進(jìn)行描述、創(chuàng )建、提交等。
本系統的主要思想是在邏輯上將地理位置分散的、異構的信息劃分、組建成多個(gè)集群系統,集群系統對集群內的資源進(jìn)行管理和任務(wù)調度,再利用網(wǎng)格中間件對各集群系統進(jìn)行管理,從而形成對整個(gè)網(wǎng)格資源的管理,并對用戶(hù)的信息需求進(jìn)行統一的管理和調度。這種管理模型既可以尊重各個(gè)集群系統的本地信息管理策略,又可利用中間件在全局意義上對網(wǎng)格信息資源進(jìn)行管理。
2.1 集群系統的設計
由于Web信息資源數量十分龐大,用戶(hù)在利用現有搜索引擎檢索信息時(shí)面臨一個(gè)海量數據的查詢(xún)問(wèn)題,往往造成在消耗巨大的通信資源后依然存在資源查不準、查不全的問(wèn)題;趩我幌到y映射的Web服務(wù)器集群系統能把若干服務(wù)器用局域網(wǎng)連接成一個(gè)整體,并使其從客戶(hù)端看來(lái)就如同一臺服務(wù)器在服務(wù),這使得在邏輯上合并、組織地理位置分布的信息資源成為可能。因此本文首先考慮采用分布協(xié)作策略,將Web信息資源按地區按專(zhuān)業(yè)內容分割,一方面使信息資源數量相對縮小,便于數據的組織、管理和維護,另一方面按專(zhuān)業(yè)內容易于制定一個(gè)公用的XML規范,便于集群內各類(lèi)信息資源的描述,從而可建立一個(gè)基于XML的面向專(zhuān)業(yè)內容的信息集成系統。集群系統的具體結構見(jiàn)圖2。
集群服務(wù)器主要由接口A(yíng)gent,基于專(zhuān)業(yè)內容的XML信息集成系統、資源服務(wù)Agent、資源發(fā)布Agent等組成。其中接口A(yíng)gent根據任務(wù)提供的接口參數登記、接收、管理各種信息資源請求任務(wù),并提供安全認證和授權。資源服務(wù)Agent根據信息資源請求任務(wù),利用XML信息集成系統提供的數據,為用戶(hù)提供實(shí)際的資源檢索操作,并將檢索結果信息發(fā)送給用戶(hù)。資源發(fā)布Agent用于向網(wǎng)格中間件提供本地信息資源的邏輯數據及接口參數。
下面主要說(shuō)明基于專(zhuān)業(yè)內容的XML信息集成系統的構造方法:
XML(the eXtensible Markup Language)是 W3C于1998年宣布作為Internet上數據表示和數據交換的新標準,它是一種可以對信息進(jìn)行自我描述的語(yǔ)言,它允許開(kāi)發(fā)人員通過(guò)創(chuàng )建格式文件DTD(Document Type Definitions)定制標記來(lái)描述自己的數據,DTD規范是一個(gè)用來(lái)定義XML文件的語(yǔ)法、句法和數據結構的標準。 XML使用普通文本,因此具有跨平臺的優(yōu)點(diǎn),XML的優(yōu)點(diǎn)在于
。1)簡(jiǎn)單、規范性:XML文檔基于文本標簽,有一套嚴謹而簡(jiǎn)潔的語(yǔ)法結構,便于計算機、用戶(hù)理解;
。2)可擴展性:用戶(hù)可以自定義具有特定意義的標簽,自定義的標簽可以在任何組織、客戶(hù)、應用之間共享;
。3)自描述性:自描述性使其非常適用不同應用間的數據交換,而且這種交換是不以預先定義一組數據結構為前提,因此具有很強的開(kāi)放性;
。4)互操作性:XML可以把所有信息都存于文檔中傳輸,而遠程的應用程序又可以從中提取需要的信息。XML數據是不依賴(lài)于某個(gè)特定的平臺的應用,因此它為基于特定專(zhuān)業(yè)內容的表達提供了一種極好的手段,可以作為表示專(zhuān)業(yè)內容的語(yǔ)言。
目前人們研制Web信息集成系統其基本方法可分成兩類(lèi):存入倉庫法(the ware-housing approach)和虛擬法(the virtual approach),可使用這兩類(lèi)方法利用XML在數據組織和交換方面的優(yōu)越性,采用格式文件DTD和XML文檔表示基于專(zhuān)業(yè)內容的集成模式和集成模式與資源之間的映射,建立基于XML的Web信息集成系統,其結構與獲取信息的工作過(guò)程參見(jiàn)[2]。
2.2 網(wǎng)格中間件的設計
圖3所示的網(wǎng)格中間件的主要功能是
(1)消除不同用戶(hù)與集群系統之間數據表達的差異,使信息資源數據對用戶(hù)來(lái)說(shuō)是透明的;
(2)管理、維護Web上分布的各集群系統,網(wǎng)格中間件以關(guān)系數據庫方式記錄所有集群系統及其所包含的專(zhuān)業(yè)的邏輯信息,對關(guān)系數據庫的操作可維護集群系統的分布式邏輯,使本結構在可變性和擴充性上具有柔性;
(3)接受用戶(hù)的信息請求任務(wù),能快速定位于滿(mǎn)足要求的集群系統,通過(guò)對關(guān)系數據庫的查詢(xún)實(shí)現用戶(hù)信息請求任務(wù)與集群系統的對應關(guān)系。
內部主要功能模塊說(shuō)明如下:
。1)接收Agent模塊:主要用于登記、接收、管理各種信息資源請求任務(wù),并提供安全認證和授權。
。2)關(guān)系數據庫及數據服務(wù)Agent: 關(guān)系數據庫記錄了所有集群系統及其所包含的專(zhuān)業(yè)內容的邏輯信息。數據服務(wù)Agent提供集群系統對關(guān)系數據庫的使用權限和對數據記錄的增加、刪除、檢索和修改等操作。
。3)格式轉換Agent模塊:提供用戶(hù)信息資源請求文檔與各集群系統中文檔的格式轉換功能。由于XML是自定義的,各用戶(hù)對同一數據有不同的表示(對信息資源描述存在差異)由于XML文檔中這種格式差異體現在與之相關(guān)的DTD/Schema上,因此經(jīng)過(guò)格式轉換,可使信息資源的格式對用戶(hù)是透明的。
。4)XML文檔Agent模塊:提取格式轉換后的XML文檔中各個(gè)標簽,通過(guò)查詢(xún)網(wǎng)格中間件中的關(guān)系數據庫,實(shí)現用戶(hù)信息請求任務(wù)與集群系統的對應關(guān)系,并得到滿(mǎn)足條件的集群系統的相關(guān)信息,獲取各集群系統的接口參數。
。5)發(fā)送Agent模塊:將轉換過(guò)的信息資源請求XML文檔發(fā)送到相應的集群系統中。
其中Agent技術(shù)是解決分布式智能的關(guān)鍵技術(shù),Agent是指能夠自主地、連續地在一動(dòng)態(tài)變化的、存在于其它系統中運行的、且不斷于環(huán)境交互的實(shí)體。在系統中引入Agent可使系統具有人的特征,代表用戶(hù)完成用戶(hù)的任務(wù),并能動(dòng)態(tài)適應環(huán)境的變化更好地滿(mǎn)足用戶(hù)的需求,提高信息檢索的能力。
3、工作過(guò)程
要使本體系結構具有高協(xié)作性和互操作性,用戶(hù)、網(wǎng)格中間件、集群系統以及其它Agent等實(shí)體之間的通信是整個(gè)系統運轉的關(guān)鍵。由于XML為基于特定專(zhuān)業(yè)內容的表達提供了一種極好的手段,XML是一種元語(yǔ)言,其嚴格的定義和規則集使人和機器都能更容易的閱讀文檔,因此本文將XML集成到各部分的通信語(yǔ)言中,在用戶(hù)發(fā)出的信息檢索請求文檔、網(wǎng)格中間件、集群系統之間的通信均利用XML定義,這樣做增強了通信的語(yǔ)義信息和靈活性并可以在多種平臺使用,并且基于XML的通信語(yǔ)言其通信內容的表達比其它方法更容易開(kāi)發(fā)語(yǔ)法分析器。
具體的工作過(guò)程如下:
(1)請求、定位過(guò)程:由網(wǎng)格用戶(hù)層向網(wǎng)格中間件發(fā)送用戶(hù)的信息檢索請求文檔,描述網(wǎng)格接口參數、信息請求內容等,在接受Agent進(jìn)行身份確認及權限確認后,經(jīng)文檔格式轉換Agent模塊、文檔分析Agent模塊、發(fā)送Agent模塊處理后,定位于某些特定的集群系統服務(wù)器。
(2)應答、處理過(guò)程:集群系統服務(wù)器經(jīng)驗證、調用資源服務(wù)Agent對信息集成系統進(jìn)行查詢(xún)后,將查詢(xún)結果信息傳輸給用戶(hù)。
4、 結語(yǔ)
本文利用網(wǎng)格、集群系統、XML在數據組織、交換、共享方面的優(yōu)勢,對大量分散、異構的面向專(zhuān)業(yè)內容的信息資源提供了一種有效組織和管理方法;并通過(guò)網(wǎng)格中間件,實(shí)現了信息資源的數據格式轉換與快速定位,提高了信息檢索的效果。本文僅提出了一個(gè)體系結構設計,對更為復雜的實(shí)際問(wèn)題的適用性,還有待進(jìn)一步的完善和改進(jìn)。
。
[1] 洪學(xué)海,許卓群,丁文魁. 網(wǎng)格計算技術(shù)及應用綜述[J]. 計算機,2003,30(8):1-5.
[2] 孟小峰. Web數據管理綜述[J]. 計算機研究與,2001,38(4):385-395.
[3] 葉修洪,陳根才. 基于XML的數據交換的研究和實(shí)現[J]. 計算機應用研究,2000,17(12):25-27.
【計算機網(wǎng)絡(luò )畢業(yè)論文-基于網(wǎng)格的面向專(zhuān)業(yè)內容的Web信息檢索體系結】相關(guān)文章:
基于內容的圖像檢索研究11-20
基于內容的模糊圖像檢索技術(shù)研究03-18
基于A(yíng)SP技術(shù)開(kāi)發(fā)Web數據庫檢索程序03-18
《信息檢索與畢業(yè)論文寫(xiě)作》課程教學(xué)大綱03-02
基于WEB的在線(xiàn)考試系統03-09
基于Web服務(wù)的集成研究03-08
談面向產(chǎn)業(yè)需求的物流工程專(zhuān)業(yè)培養體系優(yōu)化03-22
基于Web的世界禽流感地理信息系統03-07