基于潛在語(yǔ)義的個(gè)性化搜索關(guān)鍵技術(shù)研究

-
【作 者】陳冬玲 著
【I S B N 】978-7-5170-1031-9
【責(zé)任編輯】陳潔
【適用讀者群】本專通用
【出版時(shí)間】2013-08-26
【開(kāi) 本】16開(kāi)
【裝幀信息】平裝(光膜)
【版 次】第1版第1次印刷
【頁(yè) 數(shù)】152
【千字?jǐn)?shù)】170
【印 張】9.5
【定 價(jià)】¥36
【叢 書】暫無(wú)分類
【備注信息】
簡(jiǎn)介
本書特色
前言
章節(jié)列表
精彩閱讀
下載資源
相關(guān)圖書
隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,信息爆炸所產(chǎn)生的個(gè)人信息疲勞和信息壓力使搜索引擎變得越來(lái)越重要,搜索引擎已經(jīng)成為名副其實(shí)的信息樞紐和信息門戶,是用戶獲取網(wǎng)絡(luò)信息的首選工具。然而,在搜索引擎返回的巨大的結(jié)果列表中,只有一小部分信息符合用戶的偏好,甚至在top K結(jié)果中,沒(méi)有符合用戶偏好的信息。面對(duì)如此窘境,我們不得不重新審視,究竟如何才能為用戶提供符合其偏好的個(gè)性化信息?
本文分析其主要原因在于,沒(méi)有真正理解用戶查詢背后的潛在語(yǔ)義動(dòng)機(jī),不清楚用戶要做什么,故無(wú)法為其提供高質(zhì)量的個(gè)性化服務(wù)。
搜索引擎直接面對(duì)知識(shí)背景及搜索意圖各異的用戶,因此,不可能有一種普適的查詢方式,能弄清楚不同用戶輸入同一查詢?cè)~,他們各自的潛在動(dòng)機(jī)分別是什么,他們到底想要得到什么樣的信息。例如:用戶輸入“東北大學(xué)”,其可能是想隨機(jī)了解一些東北大學(xué)的普遍信息,也可能是想查詢今年的招生政策,還可能是想了解外界對(duì)東北大學(xué)有些什么評(píng)價(jià)。由此可見(jiàn),用戶的潛在語(yǔ)義動(dòng)機(jī)理解是個(gè)性化搜索的基石,如該環(huán)節(jié)理解得不夠準(zhǔn)確,與用戶實(shí)際需求匹配性不高,那么后續(xù)進(jìn)行的個(gè)性化服務(wù)工作就有可能誤入歧途。在實(shí)際查詢中,輸入“關(guān)鍵詞”是用戶在搜索中的第一步,代表了用戶對(duì)于自身的搜索需求的TAG化表述,互聯(lián)網(wǎng)“全息搜索理論”創(chuàng)始人順風(fēng)認(rèn)為:需要深刻的認(rèn)識(shí)到在傳統(tǒng)搜索系統(tǒng)中“關(guān)鍵詞”在用戶心中產(chǎn)生的過(guò)程和搜索輸出之間的相互關(guān)系,發(fā)現(xiàn)在用戶搜索動(dòng)機(jī)、搜索前思維量與搜索引擎反饋之間的全息聯(lián)系,用戶輸入的“關(guān)鍵詞”實(shí)際上就是一個(gè)將心算出的TAG引入搜索行為的過(guò)程,而且此類TAG應(yīng)該成為最有質(zhì)量的TAG,因?yàn)槠渲心哿怂阉饔脩舻谝环从车臒o(wú)意識(shí)性的內(nèi)心智慧。搜索引擎只有準(zhǔn)確把握用戶的搜索動(dòng)機(jī),才能有的放矢地為其提供高質(zhì)量的個(gè)性化服務(wù)。
基于上述分析,本文從用戶潛在語(yǔ)義的用戶動(dòng)機(jī)分析入手,并以此為主線,對(duì)多種個(gè)性化服務(wù)關(guān)鍵技術(shù)進(jìn)行了研究,主要工作包括以下幾個(gè)方面:
(1)在計(jì)算機(jī)研究領(lǐng)域內(nèi),從哲學(xué)、心理學(xué)角度剖析用戶搜索行為,并從認(rèn)知學(xué)的角度,提出了基于概率潛在語(yǔ)義動(dòng)機(jī)分析的用戶行為模型,高度概括了各種具體搜索行為,從抽象的角度去理解用戶的搜索行為。該模型的提出為進(jìn)一步研究個(gè)性化搜索提供了新的思路。
(2)在文檔潛在語(yǔ)義空間中,應(yīng)用Zipf分布與概率潛在語(yǔ)義分析算法相結(jié)合的方式進(jìn)行文檔潛在主題提取,改善了文檔潛在主題提取的質(zhì)量。
(3)以狄氏先驗(yàn)的有限混合模型理論為基礎(chǔ),提出了高效無(wú)監(jiān)督的網(wǎng)頁(yè)聚類算法。可以有效克服一般的文本聚類算法無(wú)法有效應(yīng)對(duì)的高維性、稀疏性文本,以及文本數(shù)據(jù)之間的相似性函數(shù)定義困難,聚類質(zhì)量和效率低等不足,改善了聚類效果,提高了捕獲用戶興趣潛在主題需求的能力。
(4)提出了一種新的基于用戶潛在語(yǔ)義分析的查詢擴(kuò)展技術(shù)。即將通用搜索中查詢擴(kuò)展的技術(shù)與用戶動(dòng)機(jī)挖掘技術(shù)相結(jié)合,而開(kāi)發(fā)出的一種新的查詢擴(kuò)展技術(shù),解決了搜索引擎由于通用的性質(zhì)而缺乏面向用戶的個(gè)性化的信息處理的能力,從了解用戶的語(yǔ)義上的搜索動(dòng)機(jī)以及了解認(rèn)知與心理相互作用的角度出發(fā),從根本上解決了查詢過(guò)程中的一詞多義及多詞同義等問(wèn)題,在個(gè)性化搜索過(guò)程中有效的進(jìn)行語(yǔ)義消歧。
(5)針對(duì)面向查詢的排名算法的不足提出了面向用戶的重排名算法。即在原有網(wǎng)頁(yè)排序算法的基礎(chǔ)上,根據(jù)用戶的興趣偏好而提出的一種局部?jī)?yōu)化排序算法,既符合用戶的個(gè)性化需求,又不影響搜索結(jié)果的查全率,盡可能做到其排序結(jié)果與用戶語(yǔ)義動(dòng)機(jī)相符合。
總之,本文從用戶潛在語(yǔ)義動(dòng)機(jī)的理解出發(fā),針對(duì)個(gè)性化搜索各個(gè)環(huán)節(jié)中的關(guān)鍵技術(shù)展開(kāi)研究,如用戶建模技術(shù)、查詢擴(kuò)展技術(shù)、網(wǎng)頁(yè)局部?jī)?yōu)化排序技術(shù)、聚類技術(shù)等,力求達(dá)到用戶查詢與搜索引擎返回結(jié)果的高效匹配。
第1章 緒論 1
1.1 搜索引擎體系結(jié)構(gòu)及功能 1
1.1.1 信息的收集 2
1.1.2 信息預(yù)處理 2
1.1.3 查詢服務(wù) 2
1.2 個(gè)性化搜索引擎 2
1.2.1 個(gè)性化搜索引擎的體系結(jié)構(gòu) 2
1.2.2 個(gè)性化搜索關(guān)鍵技術(shù) 4
1.2.3 個(gè)性化搜索研究現(xiàn)狀 9
1.2.4 個(gè)性化搜索面臨的問(wèn)題與挑戰(zhàn) 16
1.3 本文研究的主要內(nèi)容 18
1.4 本文的組織結(jié)構(gòu) 20
第2章 基于概率潛在語(yǔ)義的用戶模型構(gòu)造 21
2.1 問(wèn)題提出 21
2.2 用戶模型研究綜述 23
2.2.1 用戶模型的創(chuàng)建技術(shù)研究 23
2.2.2 用戶模型的學(xué)習(xí)與更新技術(shù)研究 27
2.2.3 用戶模型應(yīng)用技術(shù)的研究 29
2.3 用戶搜索行為的理論分析 29
2.3.1 從認(rèn)知角度分析用戶的搜索行為 29
2.3.2 用戶搜索行為的不確定性 33
2.3.3 用戶搜索行為分析的邏輯框架 34
2.4 用戶動(dòng)機(jī)分析的兩類不確定問(wèn)題 36
2.5 基于PLSA的潛在概念獲取與用戶模型構(gòu)建 37
2.5.1 概率潛在語(yǔ)義分析 37
2.5.2 潛在語(yǔ)義空間的Zipf分布 38
2.5.3 基于PLSA的用戶動(dòng)機(jī)建模 39
2.5.4 用戶模型的學(xué)習(xí)與更新 43
2.6 實(shí)驗(yàn)及評(píng)價(jià) 45
2.6.1 數(shù)據(jù)集 45
2.6.2 評(píng)價(jià)標(biāo)準(zhǔn) 47
2.6.3 實(shí)驗(yàn)結(jié)果及分析 48
2.7 本章小結(jié) 51
第3章 基于有限混合模型的文本聚類 53
3.1 問(wèn)題提出 53
3.2 傳統(tǒng)聚類算法的概述 54
3.2.1 基于相似性的聚類方法 55
3.2.2 基于模型的聚類 58
3.2.3 各類算法的對(duì)比分析 59
3.3 傳統(tǒng)聚類方式在個(gè)性化搜索中存在的問(wèn)題 60
3.4 基于有限混合主題模型的文檔聚類分析 62
3.4.1 有限混合模型 62
3.4.2 EM算法 63
3.4.3 基于有限混合模型的文檔聚類 68
3.5 實(shí)驗(yàn)及評(píng)價(jià) 73
3.5.1 實(shí)驗(yàn)數(shù)據(jù)集 73
3.5.2 評(píng)價(jià)標(biāo)準(zhǔn) 74
3.5.3 實(shí)驗(yàn)結(jié)果及分析 74
3.6 本章小結(jié) 78
第4章 基于用戶潛在語(yǔ)義動(dòng)機(jī)的查詢擴(kuò)展 79
4.1 問(wèn)題提出 79
4.2 現(xiàn)有的查詢擴(kuò)展方法概述 80
4.2.1 基于大規(guī)模語(yǔ)料庫(kù)的查詢擴(kuò)展方法 80
4.2.2 基于語(yǔ)義關(guān)系/語(yǔ)義結(jié)構(gòu)的查詢擴(kuò)展方法 84
4.3 目前查詢擴(kuò)展方法的不足 87
4.4 基于潛在語(yǔ)義動(dòng)機(jī)的查詢擴(kuò)展 88
4.4.1 ULSM-QE的框架 88
4.4.2 查詢?cè)~處理 90
4.4.3 查詢語(yǔ)義動(dòng)機(jī)分析 90
4.4.4 相關(guān)度計(jì)算 94
4.4.5 查詢?cè)~的語(yǔ)義消歧 95
4.4.6 生成新查詢 98
4.5 實(shí)驗(yàn)及評(píng)價(jià) 101
4.5.1 數(shù)據(jù)集 101
4.5.2 評(píng)價(jià)標(biāo)準(zhǔn) 102
4.5.3 實(shí)驗(yàn)結(jié)果及分析 103
4.6 本章小結(jié) 109
第5章 基于用戶偏好的網(wǎng)頁(yè)排序局部?jī)?yōu)化策略 110
5.1 問(wèn)題提出 110
5.2 傳統(tǒng)網(wǎng)頁(yè)排序算法介紹 111
5.2.1 PageRank算法及其衍生算法 111
5.2.2 HITS算法 113
5.3 傳統(tǒng)排序算法存在的問(wèn)題 114
5.4 基于用戶偏好的網(wǎng)頁(yè)排序 116
5.4.1 UP-PR框架 117
5.4.2 查詢?cè)~的主題分類 119
5.4.3 網(wǎng)頁(yè)的主題分類 120
5.4.4 參數(shù)的選擇 122
5.5 實(shí)驗(yàn)及評(píng)價(jià) 123
5.5.1 數(shù)據(jù)集 123
5.5.2 評(píng)價(jià)標(biāo)準(zhǔn) 124
5.5.3 實(shí)驗(yàn)結(jié)果及分析 124
5.6 本章小結(jié) 128
第6章 結(jié)論 129
6.1 本文的主要貢獻(xiàn)與結(jié)論 129
6.2 進(jìn)一步的工作 130
參考文獻(xiàn) 132
作者簡(jiǎn)介 142
- 物聯(lián)網(wǎng)導(dǎo)論(第三版) [主 編 張翼英]
- 物聯(lián)網(wǎng)編程與應(yīng)用(C#) [主編 王浩 王偉旗]
- 物聯(lián)網(wǎng)實(shí)訓(xùn)案例設(shè)計(jì) [主編 張翼英 梁琨]
- 物聯(lián)網(wǎng)通信技術(shù) [主編 張翼英 史艷翠]
- 物聯(lián)網(wǎng)應(yīng)用綜合項(xiàng)目開(kāi)發(fā) [主編 陳廣]
- 物聯(lián)網(wǎng)典型應(yīng)用案例 [主編 張翼英]
- 醫(yī)學(xué)信息技術(shù)應(yīng)用 [主編 王梅 何敏]
- 網(wǎng)絡(luò)廣告實(shí)務(wù)(第二版) [主編 馮暉]
- 物聯(lián)網(wǎng)技術(shù)應(yīng)用開(kāi)發(fā) [主編 王浩 浦靈敏]
- Web開(kāi)發(fā)與安全防范 [主編 武春嶺]
- 智能農(nóng)業(yè)技術(shù)及應(yīng)用 [鄒承俊 張霞 魯剛強(qiáng) 余攀 雍]
- Web數(shù)據(jù)庫(kù)程序設(shè)計(jì) [呂阿璐]
- 物聯(lián)網(wǎng)導(dǎo)論 [張翼英 楊巨成 李曉卉 等編著]
- 信息檢索 [陳明兵]
- 網(wǎng)絡(luò)互聯(lián)技術(shù)與實(shí)訓(xùn) [主編 魯頂柱 劉邦桂]
- 用戶名: 密碼:
- 匿名?
- 注冊(cè)
- 生活經(jīng)管more>>
- 計(jì)算機(jī)基礎(chǔ)實(shí)訓(xùn)指導(dǎo)
- 用英語(yǔ)介紹中國(guó)經(jīng)典小故事
- 新概念英語(yǔ)單詞循環(huán)速記1:14天刻意練
- 新能源場(chǎng)站繼電保護(hù)傳動(dòng)作業(yè)指導(dǎo)書
- 高職院校“德技并修·三育協(xié)同”的育人
- 網(wǎng)絡(luò)規(guī)劃設(shè)計(jì)師真題及模考卷精析(適用
- 涼山脫貧地區(qū)鄉(xiāng)村治理研究
- 中國(guó)—東盟競(jìng)技體育文化共同體研究
- 數(shù)值分析
- 用英語(yǔ)介紹中國(guó)(四六級(jí)版)
- 用英語(yǔ)介紹中國(guó)(第二版)
- 基于AI的Java技術(shù)項(xiàng)目實(shí)戰(zhàn)
- 信息處理技術(shù)員真題及模考卷精析(適用
- 系統(tǒng)集成項(xiàng)目管理工程師案例分析一本通
- 信息安全工程師考前沖刺100題(第二版
- 信息系統(tǒng)項(xiàng)目管理師考前沖刺100題(配