基于層次分析法的網頁排序技術論文
1概要

經過多年的探索發展,向量空間模型、語言模型、布爾模型、鏈接分析算法、相關性排序模型等都曾或正被應用到搜索引擎中。目前用得比較多的排序算法是在鏈接分析算法的基礎上加入更多的排序因素:關鍵詞在網頁中出現的位置、點擊次數和網頁被引用次數等。這些方法最大的不足是不同用戶搜索得到的網頁結果排序是一樣。
2層次分析法
2.1層次分析法原理
層次分析法(AHP),其主要思想是通過對復雜系統的有關要素及其相互關系進行分析,將其簡化為有序的遞階層次結構,使這些要素歸類到不同的層次,形成一個多層次的分析結構模型,最終把系統分析轉化為確定最低層( 決策方案) 相對于最高層( 總目標) 的相對重要性權值的問題。
AHP 使用時先將問題中的因素劃分到不同層次中,利用一致矩陣法確定各層次因素間的權重,經過歸一化得出由同層次因素對于上一層次某因素的相對重要性的權值所組成的矩陣。然后計算某層次所有因素對最高層相對重要性的權值。兩次相對重要性權值計算都需進行一致性檢驗。
AHP 實現網頁排序的原理是以網頁和搜索關鍵詞之間的相關度為最高層,點擊次數、詞頻、詞位置、引用次數、瀏覽時間和用戶個人信息作為中間層,搜索的結果網頁為最底層。通過結合搜索和層次分析法排序完成搜索任務。
2.2基于層次分析的網頁排序
首先對用戶提交的關鍵詞進行同義詞查詢,基于關鍵詞及其同義詞進行擴展查詢,查詢返回關鍵詞在頁面中的位置、瀏覽平均時間、點擊率、被引用次數等信息,然后對返回的結果頁面結合AHP 分析得出相關性排序網頁,最終向用戶反饋排序結果。
假設用戶提交關鍵詞后得到5 個頁面, 為得到的頁面創建SearchedPage 實例。該實例有以下字段:id( 頁面在DB 中的編號),relevance( 關鍵詞與頁面的相關程度),hitWeight( 頁面被點擊次數權重,/100),refWeight( 頁面被引用次數權重),posWeight( 關鍵詞位置權重,根據關鍵詞第一次出現的位置判斷,標題部分取20,正文按每10% 減1,正文前10% 取10),freWeight( 關鍵詞頻率權重,*100),readTWeight( 頁面平均瀏覽時間權重,*100),cusWeight( 用戶個性化相關權重, 頁面類別與用戶愛好匹配取3,否則取1),synWeight( 詞義距離權值,取值0-5,直接匹配取0)。假設這5個頁面:(hitWeight,refWeight,posWeight,freWeight,readTWeight,cusWeight,synWeight)
5 個頁面取值分別為:P1(9.6,24,20,0.93,2.7,1,1),P2(3.1,7,9,0.2,1.76,1,1),P3(8.2,13,10,0.98,0.84,3,1),P4(9.7,8,10,1.15,0.79,1,0),P5(5.4,36,20,0.81,0.8,3,2)。利用AHP 求解relevance。
根據中間層因素對relevance 取值的影響程度,建立比較矩陣T,其中t12 = 1/3 表示作者認為關鍵詞在頁面中的位置比其出現頻率更重要。
通過計算,得比較矩陣T 的最大特征根λ = 7.3,相應特征變量為W=(0.11,0.34,0.05,0.24,0.10,0.08,0.09)T,一致性檢驗指標CI = (λ- n)/(n - 1) = 0.05,n = 7。查表知隨機一致性指標為RI=1.32,一致性比率CR=CI/RI=0.038<0.1,通過一致性檢驗。
根據SearchedPage 屬性值,構建P1 到P5 實例對freWeight 等指標的判斷矩陣。
因為篇幅有限, 本文不列出K2—K10,只給出K2—K10 比較矩陣的最大特征值λi(i=1,2,3,??,7) 與對應的特征向量Wi(i=1,2,3,??,7)。
λ1=10.04 W1=(0.14,0.05,0.16,0.14,0.12)
λ2=10.86 W2=(0.13,0.02,0.08,0.10,0.17)
λ3=10.09 W3=(0.17,0.03,0.14,0.17,0.11)
λ4=10.11 W4=(0.19,0.07,0.07,0.05,0.04)
λ5=10.12 W5=(0.12,0.03,0.08,0.04,0.25)
λ6=10.01 W6=(0.03,0.04,0.19,0.03,0.18)
λ7=10.29 W7=(0.11,0.03,0.12,0.13,0.07)
算出K1—K10 最大特征值、特征向量對應的CI、CR 知通過一致性檢驗,層次總排序一致性比率:CR=(t1CI1+t2CI2+L+a7CI7)/(a1RI1+a2RI2+L+a7RI7), 其中:(t1,t2,t3,t4,t5,t6,t7)T=(0.11,0.34,0.05,0.24,0.10,0.08,0.09)T,算得CR = 0.032,CR<0.1 通過檢驗。
因此,通過同義詞和個性化搜索后得到SearchedPage 的5 個實例P1、P2、P3、P4、P5 排序為P1、P5、P3、P4、P2。
3結語
基于層次分析的搜索排序技術可以較好的解決傳統的同義詞擴展方式又會帶來更多的查詢結果難以合理排序的問題,并有利于提高搜索的精確率和覆蓋率。
【基于層次分析法的網頁排序技術論文】相關文章:
初中信息技術網頁設計教案12-22
排序的教案10-14
網頁信息技術服務合同03-07
《有趣的排序》教案10-02
基于多媒體網絡技術的大學英語自主學習04-07
數控加工技術論文06-09
小學教學教育技術論文06-21
醫學影像技術論文06-08
排序的教案15篇10-23
《排序一》大班教案12-19
- 相關推薦