一级日韩免费大片,亚洲一区二区三区高清,性欧美乱妇高清come,久久婷婷国产麻豆91天堂,亚洲av无码a片在线观看

目錄式搜索引擎的體系架構研究

時(shí)間：2024-09-07 03:35:01 計算機應用畢業(yè)論文我要投稿

相關(guān)推薦

目錄式搜索引擎的體系架構研究

　　爬蟲(chóng)子系統是搜索引擎獲取資源的主要方式，下面是小編搜集整理的一篇關(guān)于目錄式搜索引擎的體系架構研究的論文范文，歡迎閱讀借鑒。

目錄式搜索引擎的體系架構研究

　　引言

　　信息檢索系統主要為互聯(lián)網(wǎng)用戶(hù)提供對資源的檢索服務(wù)，用戶(hù)通過(guò)輸入自己想要尋找的資源信息(諸如資源的部分名稱(chēng)，資源內容中相關(guān)關(guān)鍵詞等)，信息檢索系統根據用戶(hù)提供的檢索需求進(jìn)行資源匹配和資源定位，并按照一定的順序將匹配的資源反饋給用戶(hù)。搜索引擎是在信息檢索系統的基礎上發(fā)展而來(lái)，目前的搜索引擎可以大致分為：目錄式搜索引擎，元搜索引擎，語(yǔ)義搜索引擎等。目錄式搜索引擎以當前主流的百度搜索引擎(基于中文的搜索)和谷歌搜索引擎(基于多種語(yǔ)言的搜索)為代表，本文也主要以目錄式搜索引擎為例，展開(kāi)對搜索引擎體系架構的研究。

　　搜索引擎體系架構

　　相比于信息檢索系統，搜索引擎在檢索詞輸入時(shí)更加靈活，對資源的預處理方面，搜索引擎系統優(yōu)化了更多的細節，在對資源的相似度匹配方面，搜索引擎需要考慮更多的因素在綜合定量用戶(hù)檢索詞和資源之間的相似度，最后的排序輸出更是衍生出很多優(yōu)秀的排序算法�？傮w來(lái)說(shuō)，搜索引擎主要分為：索引子系統，內容管理子系統，鏈接分析子系統和結果排序子系統，搜索引擎的體系架構如圖1所示。

　　1、爬蟲(chóng)子系統

　　爬蟲(chóng)子系統是搜索引擎獲取資源的主要方式，爬蟲(chóng)子系統通過(guò)在互聯(lián)網(wǎng)環(huán)境下運行爬蟲(chóng)子程序，定期的對互聯(lián)網(wǎng)資源進(jìn)行檢查，判斷指定URL鏈接的內容是否發(fā)生變更并適時(shí)的對數據進(jìn)行更新，并將更新后的數據反饋給數據庫系統。爬蟲(chóng)子系統目前主要采用兩種方式進(jìn)行資源爬�。涸隽渴脚廊『屠鄯e式爬取。增量式爬取表示爬蟲(chóng)子系統根據當前URL鏈接遞增的去遍歷下一條網(wǎng)頁(yè);累積式爬取表示根據當前URL鏈接遍歷所有與之相連的網(wǎng)頁(yè)，并將新得到的URL鏈接加入到隊列，完成遍歷后從隊列中取新的URL繼續遍歷。爬蟲(chóng)子系統性能的優(yōu)良直接決定了最終搜索引擎結果的輸出質(zhì)量，因為在數據的篩選階段主要也是依賴(lài)爬蟲(chóng)子系統進(jìn)行數據過(guò)濾，篩選出有價(jià)值的資源信息。

　　2、索引子系統

　　索引子系統則是承接了爬蟲(chóng)子系統的數據資源，互聯(lián)網(wǎng)數據呈現的是一種無(wú)規則或者半結構的數據，面對如此不規整的數據格式，搜索引擎難以完成對資源的篩選和排序工作，因此索引子系統主要針對這種情況，通過(guò)對網(wǎng)絡(luò )爬蟲(chóng)爬取的數據資源進(jìn)行梳理，按照規則對數據進(jìn)行規則化。倒排索引堪稱(chēng)是在信息檢索領(lǐng)域對數據規則化最為有效的方式，我們通常對數據的認知是從正排索引開(kāi)始，即根據資源名稱(chēng)，聯(lián)想到資源的內容相關(guān)信息;倒排索引則與此相反，倒排索引根據關(guān)鍵詞和概念特征去反推具體的資源名稱(chēng)。諸如我們在討論武俠時(shí)，會(huì )先想到“孤獨求敗”、“喬峰”等，根據這些關(guān)鍵詞和概念特征，我們會(huì )繼續反推得到對應的金庸先生相關(guān)武俠著(zhù)作的書(shū)名：“神雕俠侶”和“天龍八部”等。這種推理的方式和我們的搜索引擎系統是何其相似，用戶(hù)通過(guò)輸入相關(guān)關(guān)鍵詞和概念來(lái)獲得對應的資源信息。

　　基于倒排索引的理論基礎，我們對搜索引擎的數據資源進(jìn)行結構重組。首先需要對數據進(jìn)行數據分詞和關(guān)鍵詞提取，對中文的分詞是一項非常復雜的工作，中文不像英文那樣，天然的以空格進(jìn)行分割，中文分詞需要將中文字符序列按照詞義進(jìn)行分割，分割后的每個(gè)單元都是一個(gè)關(guān)鍵詞，進(jìn)行對中文進(jìn)行分詞需要符合中文的語(yǔ)言規范和特點(diǎn)，需要保證分詞之后，每個(gè)單元都是一個(gè)完整的語(yǔ)義部分，同時(shí)還需要考慮分割之后語(yǔ)義的最大完整性，另一方面，在分詞過(guò)程中要考慮對停用詞(對整個(gè)語(yǔ)義表達沒(méi)有實(shí)際含義的詞，如“的”)的去重工作。分詞和停用詞操作相當于對數據的初始化處理，經(jīng)過(guò)初始化之后，則完成了數據的初始化工作，索引子系統的構建是建立在數據初始化之后，文檔經(jīng)過(guò)分詞之后，文檔都由一系列關(guān)鍵詞組成，此時(shí)可以建立文檔和關(guān)鍵詞之間的二維矩陣，二維矩陣中對應的權值信息表示關(guān)鍵詞在文檔中的權值信息，關(guān)鍵詞在文檔中的權值可以通過(guò)多種方式加以計算，目前主要由：TF方法，DF方法，TF-IDF方法，CHI方法，IG方法和MI方法。

　　3、鏈接分析子系統

　　鏈接分析子系統曾是谷歌的發(fā)家算法，并且在數據挖掘和搜索引擎享有極高的評價(jià)，鏈接分析子系統通過(guò)對互聯(lián)網(wǎng)中數據進(jìn)行建模分析，發(fā)現互聯(lián)網(wǎng)網(wǎng)頁(yè)之間通過(guò)URL鏈接建立彼此之間的聯(lián)系，網(wǎng)頁(yè)之間通過(guò)超鏈接關(guān)系進(jìn)行頁(yè)面跳轉。通過(guò)對互聯(lián)網(wǎng)鏈接關(guān)系的深度分析，網(wǎng)頁(yè)質(zhì)量越高的網(wǎng)頁(yè)，其被其它網(wǎng)頁(yè)所鏈向的可能性越大，反之亦然，通過(guò)對這一規律進(jìn)行深度分析并構建模型，得出互聯(lián)網(wǎng)網(wǎng)頁(yè)的質(zhì)量評價(jià)模型：即網(wǎng)頁(yè)的質(zhì)量由鏈向其網(wǎng)頁(yè)的數量所決定。網(wǎng)頁(yè)的質(zhì)量用PageRank值(PR值)表示，如公式1所示。

　　PageRank(PR)值=重新訪(fǎng)問(wèn)概率+迭代訪(fǎng)問(wèn)概率(公式1)。

　　假設互聯(lián)網(wǎng)用戶(hù)采用兩種方式進(jìn)行網(wǎng)頁(yè)：其一、通過(guò)一個(gè)網(wǎng)頁(yè)目錄，隨機的選擇其中一個(gè)網(wǎng)頁(yè)進(jìn)行瀏覽，瀏覽結束之后，重新回到網(wǎng)頁(yè)目錄，再次選取新的URL進(jìn)行訪(fǎng)問(wèn);其二、隨機選擇一個(gè)網(wǎng)頁(yè)URL進(jìn)行訪(fǎng)問(wèn)，從該網(wǎng)頁(yè)中提取URL鏈接列表，從URL鏈接列表中隨機選擇一個(gè)網(wǎng)頁(yè)URL繼續訪(fǎng)問(wèn)。我們定義為該訪(fǎng)問(wèn)模式和隨機游走模型，并得出網(wǎng)頁(yè)質(zhì)量的量化評價(jià)公式，如公式2所示。

　　在公式2中，p表示采用重新訪(fǎng)問(wèn)的方式進(jìn)行頁(yè)面瀏覽的概率，相應地采用迭代訪(fǎng)問(wèn)的概率為(1-p)，迭代訪(fǎng)問(wèn)時(shí)用戶(hù)選擇下一個(gè)頁(yè)面進(jìn)行訪(fǎng)問(wèn)的概率取決于下一個(gè)頁(yè)面的PR值，從某個(gè)頁(yè)面鏈出的網(wǎng)頁(yè)可能有多個(gè)，表示的是對每一個(gè)鏈出網(wǎng)頁(yè)都采取平均分配權值的方式。

　　4、結果排序子系統

　　結果排序子系統是用戶(hù)直接與搜索引擎進(jìn)行交互的部分，結果排序子系統通過(guò)對符合用戶(hù)篩選條件的數據庫中資源進(jìn)行排序并輸出。排序子系統需要綜合考慮多種因素，諸如網(wǎng)頁(yè)自身的PR值，用戶(hù)檢索詞和數據資源之間的相似度值等多個(gè)方面。同時(shí)，排序子系統需要考慮如何保證用戶(hù)需要的資源排在靠前的位置。相關(guān)研究發(fā)現，用戶(hù)通常只會(huì )對前幾頁(yè)的搜索引擎結果進(jìn)行點(diǎn)擊，因此排序子系統不僅要保證結構輸出的準確性，即既要保證準確率和召回率，同時(shí)非常重要的因素是首頁(yè)命中率。

　　總結

　　本文通過(guò)對當前主流的目錄式搜索引擎的體系架構進(jìn)行研究，主要就爬蟲(chóng)子系統、索引子系統、鏈接分析子系統和結果排序子系統四部分進(jìn)行論述，并就每種子系統中關(guān)鍵詞技術(shù)進(jìn)行了介紹。

　　參考文獻：

　　[1]羊晶璟，鞠時(shí)光，王秀紅�；赪eb的個(gè)性化搜索引擎的研究[J].計算機工程與設計，2008,20:5206-5208.

　　[2]李廣麗，劉覺(jué)夫。垂直搜索引擎系統的研究與實(shí)現[J].情報雜志，2009,10:144-147+169.

　　[3]文必龍，張璇，趙晶浩，趙滿(mǎn)。企業(yè)搜索引擎個(gè)性化排序方法[J].計算機系統應用，2013,04:199-203.

　　[4]佟曉筠，王翥。一種特定領(lǐng)域智能搜索引擎技術(shù)的研究[J].計算機應用研究，2004,05:49-51.

【目錄式搜索引擎的體系架構研究】相關(guān)文章：

綜合業(yè)務(wù)體系架構研究05-14

Home.Net模型/架構研究08-28

淺談網(wǎng)絡(luò )工程垂直式循環(huán)教學(xué)體系的研究的優(yōu)秀論文10-03

梯進(jìn)式雙語(yǔ)教學(xué)體系在旅游管理專(zhuān)業(yè)的應用研究論文07-17

基于環(huán)境視角的創(chuàng )業(yè)研究框架構建06-26

最新理論架構研究管理論文09-06

3層體系架構下的電子政務(wù)系統設計論文07-15

搜索引擎的研究與實(shí)現ASP+SQL論文09-15

基于Davinci架構的嵌入式Web播放器05-13

醫院成本會(huì )計體系架構論述05-25

最新推薦

一级日韩免费大片,亚洲一区二区三区高清,性欧美乱妇高清come,久久婷婷国产麻豆91天堂,亚洲av无码a片在线观看