- 相關(guān)推薦
目錄式搜索引擎的體系架構研究
爬蟲(chóng)子系統是搜索引擎獲取資源的主要方式,下面是小編搜集整理的一篇關(guān)于目錄式搜索引擎的體系架構研究的論文范文,歡迎閱讀借鑒。
引言
信息檢索系統主要為互聯(lián)網(wǎng)用戶(hù)提供對資源的檢索服務(wù),用戶(hù)通過(guò)輸入自己想要尋找的資源信息(諸如資源的部分名稱(chēng),資源內容中相關(guān)關(guān)鍵詞等),信息檢索系統根據用戶(hù)提供的檢索需求進(jìn)行資源匹配和資源定位,并按照一定的順序將匹配的資源反饋給用戶(hù)。搜索引擎是在信息檢索系統的基礎上發(fā)展而來(lái),目前的搜索引擎可以大致分為:目錄式搜索引擎,元搜索引擎,語(yǔ)義搜索引擎等。目錄式搜索引擎以當前主流的百度搜索引擎(基于中文的搜索)和谷歌搜索引擎(基于多種語(yǔ)言的搜索)為代表,本文也主要以目錄式搜索引擎為例,展開(kāi)對搜索引擎體系架構的研究。
搜索引擎體系架構
相比于信息檢索系統,搜索引擎在檢索詞輸入時(shí)更加靈活,對資源的預處理方面,搜索引擎系統優(yōu)化了更多的細節,在對資源的相似度匹配方面,搜索引擎需要考慮更多的因素在綜合定量用戶(hù)檢索詞和資源之間的相似度,最后的排序輸出更是衍生出很多優(yōu)秀的排序算法?傮w來(lái)說(shuō),搜索引擎主要分為:索引子系統,內容管理子系統,鏈接分析子系統和結果排序子系統,搜索引擎的體系架構如圖1所示。
1、爬蟲(chóng)子系統
爬蟲(chóng)子系統是搜索引擎獲取資源的主要方式,爬蟲(chóng)子系統通過(guò)在互聯(lián)網(wǎng)環(huán)境下運行爬蟲(chóng)子程序,定期的對互聯(lián)網(wǎng)資源進(jìn)行檢查,判斷指定URL鏈接的內容是否發(fā)生變更并適時(shí)的對數據進(jìn)行更新,并將更新后的數據反饋給數據庫系統。爬蟲(chóng)子系統目前主要采用兩種方式進(jìn)行資源爬。涸隽渴脚廊『屠鄯e式爬取。增量式爬取表示爬蟲(chóng)子系統根據當前URL鏈接遞增的去遍歷下一條網(wǎng)頁(yè);累積式爬取表示根據當前URL鏈接遍歷所有與之相連的網(wǎng)頁(yè),并將新得到的URL鏈接加入到隊列,完成遍歷后從隊列中取新的URL繼續遍歷。爬蟲(chóng)子系統性能的優(yōu)良直接決定了最終搜索引擎結果的輸出質(zhì)量,因為在數據的篩選階段主要也是依賴(lài)爬蟲(chóng)子系統進(jìn)行數據過(guò)濾,篩選出有價(jià)值的資源信息。
2、索引子系統
索引子系統則是承接了爬蟲(chóng)子系統的數據資源,互聯(lián)網(wǎng)數據呈現的是一種無(wú)規則或者半結構的數據,面對如此不規整的數據格式,搜索引擎難以完成對資源的篩選和排序工作,因此索引子系統主要針對這種情況,通過(guò)對網(wǎng)絡(luò )爬蟲(chóng)爬取的數據資源進(jìn)行梳理,按照規則對數據進(jìn)行規則化。倒排索引堪稱(chēng)是在信息檢索領(lǐng)域對數據規則化最為有效的方式,我們通常對數據的認知是從正排索引開(kāi)始,即根據資源名稱(chēng),聯(lián)想到資源的內容相關(guān)信息;倒排索引則與此相反,倒排索引根據關(guān)鍵詞和概念特征去反推具體的資源名稱(chēng)。諸如我們在討論武俠時(shí),會(huì )先想到“孤獨求敗”、“喬峰”等,根據這些關(guān)鍵詞和概念特征,我們會(huì )繼續反推得到對應的金庸先生相關(guān)武俠著(zhù)作的書(shū)名:“神雕俠侶”和“天龍八部”等。這種推理的方式和我們的搜索引擎系統是何其相似,用戶(hù)通過(guò)輸入相關(guān)關(guān)鍵詞和概念來(lái)獲得對應的資源信息。
基于倒排索引的理論基礎,我們對搜索引擎的數據資源進(jìn)行結構重組。首先需要對數據進(jìn)行數據分詞和關(guān)鍵詞提取,對中文的分詞是一項非常復雜的工作,中文不像英文那樣,天然的以空格進(jìn)行分割,中文分詞需要將中文字符序列按照詞義進(jìn)行分割,分割后的每個(gè)單元都是一個(gè)關(guān)鍵詞,進(jìn)行對中文進(jìn)行分詞需要符合中文的語(yǔ)言規范和特點(diǎn),需要保證分詞之后,每個(gè)單元都是一個(gè)完整的語(yǔ)義部分,同時(shí)還需要考慮分割之后語(yǔ)義的最大完整性,另一方面,在分詞過(guò)程中要考慮對停用詞(對整個(gè)語(yǔ)義表達沒(méi)有實(shí)際含義的詞,如“的”)的去重工作。分詞和停用詞操作相當于對數據的初始化處理,經(jīng)過(guò)初始化之后,則完成了數據的初始化工作,索引子系統的構建是建立在數據初始化之后,文檔經(jīng)過(guò)分詞之后,文檔都由一系列關(guān)鍵詞組成,此時(shí)可以建立文檔和關(guān)鍵詞之間的二維矩陣,二維矩陣中對應的權值信息表示關(guān)鍵詞在文檔中的權值信息,關(guān)鍵詞在文檔中的權值可以通過(guò)多種方式加以計算,目前主要由:TF方法,DF方法,TF-IDF方法,CHI方法,IG方法和MI方法。
3、鏈接分析子系統
鏈接分析子系統曾是谷歌的發(fā)家算法,并且在數據挖掘和搜索引擎享有極高的評價(jià),鏈接分析子系統通過(guò)對互聯(lián)網(wǎng)中數據進(jìn)行建模分析,發(fā)現互聯(lián)網(wǎng)網(wǎng)頁(yè)之間通過(guò)URL鏈接建立彼此之間的聯(lián)系,網(wǎng)頁(yè)之間通過(guò)超鏈接關(guān)系進(jìn)行頁(yè)面跳轉。通過(guò)對互聯(lián)網(wǎng)鏈接關(guān)系的深度分析,網(wǎng)頁(yè)質(zhì)量越高的網(wǎng)頁(yè),其被其它網(wǎng)頁(yè)所鏈向的可能性越大,反之亦然,通過(guò)對這一規律進(jìn)行深度分析并構建模型,得出互聯(lián)網(wǎng)網(wǎng)頁(yè)的質(zhì)量評價(jià)模型:即網(wǎng)頁(yè)的質(zhì)量由鏈向其網(wǎng)頁(yè)的數量所決定。網(wǎng)頁(yè)的質(zhì)量用PageRank值(PR值)表示,如公式1所示。
PageRank(PR)值=重新訪(fǎng)問(wèn)概率+迭代訪(fǎng)問(wèn)概率(公式1)。
假設互聯(lián)網(wǎng)用戶(hù)采用兩種方式進(jìn)行網(wǎng)頁(yè):其一、通過(guò)一個(gè)網(wǎng)頁(yè)目錄,隨機的選擇其中一個(gè)網(wǎng)頁(yè)進(jìn)行瀏覽,瀏覽結束之后,重新回到網(wǎng)頁(yè)目錄,再次選取新的URL進(jìn)行訪(fǎng)問(wèn);其二、隨機選擇一個(gè)網(wǎng)頁(yè)URL進(jìn)行訪(fǎng)問(wèn),從該網(wǎng)頁(yè)中提取URL鏈接列表,從URL鏈接列表中隨機選擇一個(gè)網(wǎng)頁(yè)URL繼續訪(fǎng)問(wèn)。我們定義為該訪(fǎng)問(wèn)模式和隨機游走模型,并得出網(wǎng)頁(yè)質(zhì)量的量化評價(jià)公式,如公式2所示。
在公式2中,p表示采用重新訪(fǎng)問(wèn)的方式進(jìn)行頁(yè)面瀏覽的概率,相應地采用迭代訪(fǎng)問(wèn)的概率為(1-p),迭代訪(fǎng)問(wèn)時(shí)用戶(hù)選擇下一個(gè)頁(yè)面進(jìn)行訪(fǎng)問(wèn)的概率取決于下一個(gè)頁(yè)面的PR值,從某個(gè)頁(yè)面鏈出的網(wǎng)頁(yè)可能有多個(gè),表示的是對每一個(gè)鏈出網(wǎng)頁(yè)都采取平均分配權值的方式。
4、結果排序子系統
結果排序子系統是用戶(hù)直接與搜索引擎進(jìn)行交互的部分,結果排序子系統通過(guò)對符合用戶(hù)篩選條件的數據庫中資源進(jìn)行排序并輸出。排序子系統需要綜合考慮多種因素,諸如網(wǎng)頁(yè)自身的PR值,用戶(hù)檢索詞和數據資源之間的相似度值等多個(gè)方面。同時(shí),排序子系統需要考慮如何保證用戶(hù)需要的資源排在靠前的位置。相關(guān)研究發(fā)現,用戶(hù)通常只會(huì )對前幾頁(yè)的搜索引擎結果進(jìn)行點(diǎn)擊,因此排序子系統不僅要保證結構輸出的準確性,即既要保證準確率和召回率,同時(shí)非常重要的因素是首頁(yè)命中率。
總結
本文通過(guò)對當前主流的目錄式搜索引擎的體系架構進(jìn)行研究,主要就爬蟲(chóng)子系統、索引子系統、鏈接分析子系統和結果排序子系統四部分進(jìn)行論述,并就每種子系統中關(guān)鍵詞技術(shù)進(jìn)行了介紹。
參考文獻:
[1]羊晶璟,鞠時(shí)光,王秀紅;赪eb的個(gè)性化搜索引擎的研究[J].計算機工程與設計,2008,20:5206-5208.
[2]李廣麗,劉覺(jué)夫。垂直搜索引擎系統的研究與實(shí)現[J].情報雜志,2009,10:144-147+169.
[3]文必龍,張璇,趙晶浩,趙滿(mǎn)。企業(yè)搜索引擎個(gè)性化排序方法[J].計算機系統應用,2013,04:199-203.
[4]佟曉筠,王翥。一種特定領(lǐng)域智能搜索引擎技術(shù)的研究[J].計算機應用研究,2004,05:49-51.
【目錄式搜索引擎的體系架構研究】相關(guān)文章:
綜合業(yè)務(wù)體系架構研究05-14
Home.Net模型/架構研究08-28
淺談網(wǎng)絡(luò )工程垂直式循環(huán)教學(xué)體系的研究的優(yōu)秀論文10-03
梯進(jìn)式雙語(yǔ)教學(xué)體系在旅游管理專(zhuān)業(yè)的應用研究論文07-17
基于環(huán)境視角的創(chuàng )業(yè)研究框架構建06-26
最新理論架構研究管理論文09-06
醫院成本會(huì )計體系架構論述05-25