卡方技術(shù)在企業(yè)搜索引擎角色信息分析中的運用論文
對于少于 1 000 人的企業(yè)單位,60% 的員工認為在企業(yè)信息化平臺中找到自己想要的數據是非常困難的。

而在公司人數超過(guò) 1 000 人的情況下,認為獲取不到自己想要數據的員工竟然達到公司人數的 77%.因此,企業(yè)的規模越大,企業(yè)的人數越多,企業(yè)信息化平臺中產(chǎn)生的數據量就越多,員工查找信息就更加困難。根據調查顯示,對于少于 1 000 人的企業(yè)里,有 67% 的員工認為找到所需的信息對企業(yè)的發(fā)展是有影響的,而對于多于 1 000 人的企業(yè)中,這個(gè)數字竟然高達 89%.在大中型企業(yè)中,每天有 70% 的員工耗費 1 ~ 2 小時(shí)來(lái)查找所需要的信息,加大了企業(yè)的成本,尤其是用戶(hù)想要查看已經(jīng)離職員工之前記錄的信息,由于人員已經(jīng)離開(kāi),想要查找對應信息的難度加大,搜索耗費的時(shí)間就更長(cháng)。
傳統企業(yè)搜索引擎雖然在一定程度上已經(jīng)解決該問(wèn)題。然而,不同角色的用戶(hù)有著(zhù)不同的需求,例如,財務(wù)角色的用戶(hù)和銷(xiāo)售角色的用戶(hù)對于相同的查詢(xún)詞會(huì )有不同的需求。本文提出采用卡方的方法進(jìn)行角色信息的分析,使不同角色的用戶(hù)雖采用相同的查詢(xún)詞,但得到與其角色更相關(guān)的信息。
1 基于卡方的角色分析理論
企業(yè)內部每個(gè)用戶(hù)在不同系統中的職位不一樣,對于相同角色下的用戶(hù),偏好可能相同,如角色 A 下的用戶(hù)關(guān)注財務(wù)信息,經(jīng)常搜索和點(diǎn)擊財務(wù)方面的數據。當角色 A 下的其他用戶(hù)搜索時(shí),如果查詢(xún)詞跟 A 輸入的查詢(xún)詞相關(guān)時(shí),根據 LUCENE,獲取文檔應排在后面,但根據角色信息,角色 A 下的用戶(hù)點(diǎn)擊過(guò)多的文檔應排在前面,這樣就隱含地為用戶(hù)推送了相關(guān)文檔。針對這個(gè)可能性,進(jìn)行角色分析!1】
其中,N 是一個(gè)定值,系統的數據條目數;A 代表在某角色中文檔包含該詞的篇數;B 代表在該角色中文檔沒(méi)有包含該詞的篇數;C 代表的是不在該角色下有多少篇文檔包含該詞;D 代表的是不在該角色下有多少篇文檔沒(méi)有包含該詞;而 A+C 是一個(gè)定值,B+D 也是一個(gè)定值,因此公式(1)可以簡(jiǎn)化,如下所示:【2】
2 基于卡方的角色分析理論算法過(guò)程
因為企業(yè)中有多個(gè)系統,分系統考慮,統計一個(gè)系統下所有角色對應的特征詞。
第一步獲取某系統下的所有數據,獲取文檔對應的用戶(hù)以及角色,并對正文部分進(jìn)行分詞。
第二步獲取角色 A 在該系統下的所有數據并分詞。
第三步對角色 A 下的每個(gè)詞 T,統計詞 T 在該角色下出現的樣本頻率,獲取詞 T 在該角色中沒(méi)有出現的樣本頻率,獲取詞 T 不在該角色下出現的樣本頻率,獲取詞 T 不在該角色下沒(méi)有出現的樣本頻率。
第四步,根據公式(2)計算該系統下角色 A 中詞T 的權重;獲取每個(gè)系統下的每個(gè)角色對應的特征詞,并保存。
第五步獲取用戶(hù)所能訪(fǎng)問(wèn)系統中角色對應的特征詞,并根據特征詞進(jìn)行全文檢索,獲取排名前300的文檔。
當獲取某系統下角色 A 權重最大的 10 個(gè)詞時(shí),需考慮特征詞在該系統下所有角色中出現的次數,如果次數大于角色個(gè)數的一個(gè)比值時(shí),則這樣的詞排除掉,因為這樣的詞不具有特性。
當用戶(hù)查詢(xún)時(shí),根據輸入查詢(xún)詞,得到搜索結果,分析前 300 篇文檔中是否包含該文檔,如果包含,則將文檔的分數提高。
3 結 語(yǔ)
針對目前企業(yè)搜索中存在的問(wèn)題,不同角色的用戶(hù)有著(zhù)不同的需求,本文提出基于卡方的角色分析方法,使不同角色的用戶(hù)雖采用相同的查詢(xún)詞,但得到與其角色更相關(guān)的信息。該方法已經(jīng)應用在實(shí)際平臺中,進(jìn)一步證明了該方法的有效性。
參考文獻
[1] 吳慶濤 . 個(gè)性化搜索引擎中的用戶(hù)興趣模型分析與研究 [J]. 研究與開(kāi)發(fā) ,2010(10)。
[2] 李紹華 , 高文宇 . 搜索引擎頁(yè)面排序算法研究綜述 [J]. 計算機應用研究 ,2007(24)。
【卡方技術(shù)在企業(yè)搜索引擎角色信息分析中的運用論文】相關(guān)文章:
傳統紋樣在現代設計中的運用分析論文05-12
水文勘測技術(shù)在水污染環(huán)境地質(zhì)中的運用分析論文03-09
目標管理在企業(yè)管理中運用分析11-14
管理會(huì )計在企業(yè)中的運用狀況調查與分析論文02-21
- 相關(guān)推薦