搜索引擎與信息檢索教程

-
【作 者】袁津生 趙傳剛 等編著
【I S B N 】978-7-5084-5394-1
【責(zé)任編輯】王艷燕
【適用讀者群】本科
【出版時間】2008-04-01
【開 本】16開本
【裝幀信息】平裝(光膜)
【版 次】2008年04月第1版
【頁 數(shù)】288
【千字?jǐn)?shù)】
【印 張】
【定 價】¥28
【叢 書】21世紀(jì)高等學(xué)校精品教材
【備注信息】
簡介
本書特色
前言
章節(jié)列表
精彩閱讀
下載資源
相關(guān)圖書
隨著搜索引擎技術(shù)的發(fā)展和不斷完善,越來越多的人開始對搜索引擎原理和技術(shù)進(jìn)行研究,越來越多的人喜歡上了搜索引擎。
本書從教學(xué)的角度出發(fā),全面地闡述了搜索引擎的技術(shù)和信息檢索技術(shù),包括:搜索引擎的基本原理與技術(shù)、搜索引擎的數(shù)據(jù)結(jié)構(gòu)和搜索引擎的爬蟲、信息獲取與信息檢索技術(shù)、分類與聚類技術(shù)以及Web信息檢索技術(shù)。
本書適合高等院校計算機(jī)科學(xué)與技術(shù)專業(yè)及相關(guān)專業(yè)的高年級學(xué)生和研究生閱讀參考,也適合相關(guān)領(lǐng)域的工程技術(shù)人員參閱。
網(wǎng)絡(luò)的發(fā)展徹底改變了我們的生活和工作方式,它讓我們在更容易獲取信息的同時,也將自己拋棄在無邊無際的信息海洋之中。每時每刻我們都要自覺或不自覺,被動或主動地面對數(shù)十億網(wǎng)頁的網(wǎng)絡(luò)信息,想找到自己需要的信息簡直就是“大海撈針”。那么在巨大的網(wǎng)絡(luò)信息世界里,怎樣才能找到需要的數(shù)據(jù)呢?這就要依靠搜索引擎。
當(dāng)Internet走入我們的生活并逐漸改變這個世界的時候,搜索引擎作為信息檢索最有效的工具也逐漸為我們熟悉和使用。Internet給我們帶來了信息共享的一次巨大革命,搜索引擎給這場革命注入了鮮活的血液。面對浩如煙海的網(wǎng)絡(luò)資源,搜索引擎就好像是航船的指南針,引領(lǐng)著人們在網(wǎng)絡(luò)中沖浪。據(jù)統(tǒng)計,搜索引擎已經(jīng)成為僅次于電子郵件的第二大網(wǎng)絡(luò)應(yīng)用服務(wù),是用戶獲取信息的首要途徑,在美國有超過84%的網(wǎng)民經(jīng)常使用搜索引擎,在中國,這個數(shù)字每天都在增長。
全書較為系統(tǒng)地闡述搜索引擎和信息檢索研究領(lǐng)域所涉及的相關(guān)內(nèi)容,共分為9章。第1章全面地介紹搜索引擎的概念、搜索引擎的發(fā)展、分類、搜索引擎的信息檢索模型以及建立搜索引擎的關(guān)鍵技術(shù)。第2章討論搜索引擎的基本結(jié)構(gòu)、工作原理以及工作的過程。第3章講述信息檢索的經(jīng)典模型、代數(shù)模型和概率模型。第4章介紹文本操作的技術(shù),主要有文本預(yù)處理技術(shù)、文本聚類技術(shù)和文本壓縮技術(shù)。第5章介紹文本信息檢索技術(shù),主要內(nèi)容有順排文檔檢索技術(shù)、倒排文檔檢索技術(shù)、布爾檢索技術(shù)、加權(quán)檢索技術(shù)、全文檢索技術(shù)、超文本檢索技術(shù)以及分布式信息檢索和分布式數(shù)據(jù)庫查詢技術(shù)。第6章討論信息檢索系統(tǒng)的性能評價問題,主要有相關(guān)性的評價、查全率和查準(zhǔn)率等內(nèi)容。第7章介紹常用文本分類方法和常用文本聚類的方法。第8章討論Web信息檢索技術(shù),主要內(nèi)容有Web信息處理的基本技術(shù)和Web數(shù)據(jù)挖掘以及Web信息檢索的關(guān)鍵技術(shù)、搜索引擎的基本結(jié)構(gòu)、搜索引擎的數(shù)據(jù)結(jié)構(gòu)、搜索引擎爬蟲、元搜索引擎。第9章介紹搜索引擎開發(fā)技術(shù),主要內(nèi)容有搜索引擎環(huán)境的搭建與配置、網(wǎng)頁搜集的實現(xiàn)、預(yù)處理的實現(xiàn)和查詢服務(wù)。
我們編寫本書的目的就是幫助讀者對搜索引擎技術(shù)有一個全面的了解和提高,同時為更加深入地學(xué)習(xí)和研究搜索引擎打下良好的基礎(chǔ)。我們希望本書的出版能夠?qū)λ阉饕娴脑O(shè)計者、Web站點的管理員以及廣大用戶有所幫助,也希望它成為搜索引擎和信息檢索領(lǐng)域?qū)W生學(xué)習(xí)的參考書。
本書是作者在多年的教學(xué)基礎(chǔ)上,參考若干資料整理而成的。在教材的編寫過程中,對基本概念、基礎(chǔ)知識的介紹力求做到簡明扼要;各章相互配合,又自成體系,并附有小結(jié)和習(xí)題,同時還有相關(guān)的實驗。建議本課程為40學(xué)時,其中講課30學(xué)時,實驗10學(xué)時。
本書由袁津生、趙傳剛編寫,蔡岳參與編寫了本書的第9章并調(diào)試了部分程序。參加書稿的編寫和審閱的還有高寶、齊建東、曹佳、李群等,郭敏哲、武曉島、胡鴻、夏麗、陳雅嫻、王春燕、郭艷芬參與了資料的收集、試驗及程序的編寫工作。由于作者水平有限,書中難免有錯誤和不當(dāng)之處,敬請讀者批評指正。
第1章 搜索引擎概述 1
1.1 搜索引擎的概念 1
1.2 搜索引擎的發(fā)展史 2
1.3 搜索引擎的分類 5
1.4 搜索引擎的信息檢索模型 7
1.5 建立搜索引擎的關(guān)鍵技術(shù) 8
1.6 中文搜索引擎的發(fā)展趨勢 9
1.7 主要搜索引擎介紹 10
1.7.1 谷歌(Google)搜索 10
1.7.2 雅虎(Yahoo)搜索 13
1.7.3 百度(Baidu)搜索 15
1.7.4 天網(wǎng)搜索 18
1.8 小結(jié) 19
思考題 21
第2章 搜索引擎的工作原理 22
2.1 搜索引擎的基本結(jié)構(gòu)及工作原理 22
2.2 網(wǎng)頁的搜集 24
2.3 網(wǎng)頁內(nèi)容的提取 25
2.4 查詢服務(wù) 26
2.5 小結(jié) 28
思考題 28
第3章 信息檢索的模型 29
3.1 經(jīng)典模型 29
3.1.1 布爾模型 29
3.1.2 向量模型 30
3.1.3 概率模型 31
3.2 代數(shù)模型 33
3.2.1 廣義向量空間模型 34
3.2.2 神經(jīng)網(wǎng)絡(luò)模型 34
3.3 其他概率模型 37
3.3.1 貝葉斯網(wǎng)絡(luò) 37
3.3.2 推理網(wǎng)絡(luò)模型 37
3.3.3 信任度網(wǎng)絡(luò)模型 38
3.4 小結(jié) 40
思考題 41
第4章 文本操作 42
4.1 文本預(yù)處理 42
4.1.1 文本的詞法分析 42
4.1.2 中文分詞技術(shù) 43
4.1.3 無用詞匯的刪除 48
4.1.4 詞干提取技術(shù) 48
4.1.5 索引詞條的選擇 56
4.1.6 詞典 56
4.2 文本聚類 57
4.2.1 文本聚類算法 57
4.2.2 文本聚類中的相關(guān)概念 58
4.2.3 特征空間的降維處理 59
4.3 文本壓縮 59
4.3.1 基本概念 59
4.3.2 統(tǒng)計方法 60
4.3.3 字典方法 66
4.3.4 倒排文檔壓縮 71
4.4 小結(jié) 74
思考題 75
第5章 文本信息檢索技術(shù) 77
5.1 順排文檔檢索 77
5.1.1 表展開法 77
5.1.2 邏輯樹展開法 80
5.1.3 其他順排文檔檢索算法 86
5.2 倒排文檔檢索 91
5.2.1 倒排文檔的檢索 91
5.2.2 倒排文檔的建立 92
5.2.3 逆波蘭表達(dá)式 94
5.2.4 檢索指令表的生成 96
5.2.5 檢索實施 97
5.3 布爾檢索 97
5.4 加權(quán)檢索 98
5.4.1 檢索詞加權(quán)檢索 98
5.4.2 詞頻加權(quán)檢索 99
5.4.3 標(biāo)引加權(quán)檢索 99
5.5 全文檢索 100
5.5.1 全文檢索的技術(shù)指標(biāo) 100
5.5.2 全文檢索的實現(xiàn) 102
5.5.3 全文檢索效率的提高 104
5.6 超文本檢索 105
5.6.1 超文本技術(shù)概述 105
5.6.2 超文本的功能及結(jié)構(gòu) 108
5.6.3 超文本檢索的優(yōu)缺點 108
5.7 分布式信息檢索 110
5.7.1 分布式檢索的查詢協(xié)議 110
5.7.2 分布式檢索系統(tǒng)的結(jié)構(gòu) 112
5.7.3 分布式信息檢索模式 114
5.7.4 分布式檢索資源選擇 119
5.8 分布式數(shù)據(jù)庫查詢技術(shù) 122
5.8.1 分布式數(shù)據(jù)庫的基本概念 123
5.8.2 利用C#實現(xiàn)分布式數(shù)據(jù)庫查詢 125
5.8.3 基于.NET Remoting的查詢技術(shù) 128
5.8.4 基于DCOM的分布式查詢技術(shù) 131
5.8.5 基于JDBC的查詢技術(shù) 133
5.8.6 基于Servlet的查詢技術(shù) 135
5.8.7 基于CORBA的查詢技術(shù) 137
5.8.8 基于Agent的查詢技術(shù) 139
5.9 小結(jié) 142
思考題 143
第6章 信息檢索評價 144
6.1 相關(guān)性 144
6.1.1 相關(guān)性的特征 144
6.1.2 相關(guān)性研究類別 145
6.1.3 相關(guān)性模型 146
6.2 信息檢索性能評價 149
6.2.1 信息檢索系統(tǒng)的有效性 149
6.2.2 評價指標(biāo) 150
6.2.3 Web檢索系統(tǒng)性能評價 152
6.3 信息檢索領(lǐng)域的相關(guān)組織和會議 153
6.4 小結(jié) 154
思考題 155
第7章 文本分類與聚類 156
7.1 分類與聚類介紹 156
7.1.1 文本分類 156
7.1.2 文本聚類 157
7.1.3 文本分類的算法 158
7.1.4 文本聚類的算法 159
7.1.5 自動分類與自動聚類 161
7.1.6 文本分類的評測方法與指標(biāo) 161
7.1.7 文本聚類的評測方法與指標(biāo) 163
7.2 常用文本分類方法 165
7.2.1 文本分類的問題 165
7.2.2 kNN分類算法 166
7.2.3 NB分類算法 167
7.2.4 決策樹分類算法 167
7.2.5 Rocchio分類算法 167
7.2.6 支持向量機(jī)分類算法 168
7.2.7 特征選擇分類算法 169
7.2.8 文本分類系統(tǒng)的實現(xiàn) 171
7.3 常用文本聚類方法 174
7.3.1 層次聚類算法 175
7.3.2 分割聚類算法 177
7.3.3 基于密度的聚類算法 178
7.3.4 基于網(wǎng)格的聚類算法 179
7.3.5 基于模型的聚類算法 181
7.4 小結(jié) 182
思考題 184
第8章 Web信息檢索技術(shù) 185
8.1 Web信息處理的基本技術(shù) 185
8.1.1 Web信息的基本特點 185
8.1.2 Web信息的表現(xiàn)方式 186
8.1.3 Web信息系統(tǒng)結(jié)構(gòu) 186
8.1.4 網(wǎng)絡(luò)信息資源的組織與管理 188
8.2 Web數(shù)據(jù)挖掘 191
8.2.1 Web挖掘流程 191
8.2.2 Web挖掘的分類及現(xiàn)狀 192
8.2.3 Web數(shù)據(jù)挖掘和Web信息檢索的區(qū)別 194
8.3 Web信息檢索的關(guān)鍵技術(shù) 195
8.3.1 文檔搜集 195
8.3.2 文檔預(yù)處理 197
8.3.3 索引數(shù)據(jù)庫的建立 198
8.3.4 相似度計算與排序方法 199
8.4 搜索引擎的基本結(jié)構(gòu) 203
8.4.1 搜索引擎的結(jié)構(gòu)分類 203
8.4.2 網(wǎng)頁收集模塊 204
8.4.3 網(wǎng)頁索引模塊 205
8.4.4 查詢模塊 206
8.4.5 用戶界面 206
8.4.6 搜索引擎的主要指標(biāo)及分析 206
8.5 搜索引擎的數(shù)據(jù)結(jié)構(gòu) 207
8.5.1 存儲結(jié)構(gòu) 207
8.5.2 信息庫 209
8.5.3 文本索引 209
8.5.4 詞典 210
8.5.5 采樣表 210
8.5.6 前向索引 210
8.5.7 后向索引 211
8.6 搜索引擎爬蟲 212
8.6.1 網(wǎng)絡(luò)爬蟲 212
8.6.2 深度優(yōu)先策略 213
8.6.3 廣度優(yōu)先策略 214
8.6.4 不重復(fù)抓取策略 215
8.6.5 網(wǎng)頁抓取優(yōu)先策略 219
8.6.6 網(wǎng)頁重訪策略 220
8.6.7 網(wǎng)頁抓取提速策略 220
8.6.8 Robots協(xié)議 221
8.6.9 網(wǎng)頁內(nèi)容提取技術(shù) 223
8.7 元搜索引擎 224
8.7.1 元搜索引擎的基本構(gòu)成 225
8.7.2 常用元搜索引擎介紹及其分類 226
8.7.3 與獨立搜索引擎的比較 229
8.7.4 主要技術(shù)指標(biāo)及分析 230
8.8 小結(jié) 231
思考題 233
第9章 搜索引擎開發(fā)技術(shù) 234
9.1 實例簡介 234
9.1.1 搜索引擎的體系結(jié)構(gòu) 235
9.1.2 網(wǎng)頁搜集 236
9.1.3 網(wǎng)頁預(yù)處理 236
9.1.4 查詢服務(wù) 237
9.2 環(huán)境搭建與配置 238
9.2.1 jdk1.6的安裝與配置 239
9.2.2 eclipse的安裝與配置 240
9.2.3 Tomcat的安裝與配置 241
9.2.4 Heritrix的安裝與配置 244
9.3 網(wǎng)頁搜集的實現(xiàn) 255
9.3.1 擴(kuò)展Heritrix 255
9.3.2 抓取網(wǎng)頁 257
9.4 預(yù)處理的實現(xiàn) 259
9.4.1 原始網(wǎng)頁的處理 259
9.4.2 建立索引——Lucene 265
9.5 提供查詢服務(wù) 268
9.5.1 搜索引擎架構(gòu)設(shè)計 268
9.5.2 后臺設(shè)計和實現(xiàn) 269
9.5.3 頁面設(shè)計和實現(xiàn) 273
9.5.4 部署到Tomcat 275
9.6 小結(jié) 276
實驗 276
參考文獻(xiàn) 277
- 信息系統(tǒng)項目管理師考試32小時通關(guān)(適用第4版考綱) [薛大龍]
- 信息系統(tǒng)管理工程師考試32小時通關(guān)(適配第2版考綱) [薛大龍 劉偉]
- 科技信息檢索與論文寫作實用教程 [李振華]
- 信息技術(shù)基礎(chǔ)(Windows 10+WPS Office)(微課版) [主編 石利平 田輝平 謝盛嘉]
- 信息系統(tǒng)項目管理師(適用第4版大綱)一站通關(guān) [指尖瘋]
- 信息安全工程師真題及?季砭觯ㄟm用機(jī)考) [朱小平 施游]
- 信息處理技術(shù)員真題及模考卷精析(適用機(jī)考) [主編 薛大龍]
- 信息安全工程師考前沖刺100題(第二版) [施 游 朱小平 編著]
- 信息系統(tǒng)項目管理師考前沖刺100題(配套第四版大綱) [劉毅 朱小平 編著]
- 計算機(jī)信息素養(yǎng)基礎(chǔ)(第二版) [主編 陳艷]
- 信息系統(tǒng)項目管理師真題及沖刺卷精析(適用機(jī)考) [主編 薛大龍]
- 信息系統(tǒng)監(jiān)理師章節(jié)習(xí)題與考點特訓(xùn)(適用第2版考綱) [薛大龍]
- 信息技術(shù)(文科版) [主編 李佳 楊纓]
- 計算機(jī)信息技術(shù)基礎(chǔ)(第2版) [付玲 肖楊 夏雪飛]
- 信息技術(shù)(微課版)(第二版) [徐江鴻 王 云 李清霞 羅學(xué)鋒]
- 大學(xué)生創(chuàng)新創(chuàng)業(yè)實踐——信息類 [主編 陸超 袁靜 秦玉龍]
- 信息系統(tǒng)監(jiān)理師考試32小時通關(guān) (第二版) [薛大龍]
- 信息安全工程師考試32小時通關(guān) [薛大龍]
- 信息系統(tǒng)項目管理師案例分析一本通(第二版) [王樹文 編著]
- 面向知識元的領(lǐng)域信息抽取與圖譜構(gòu)建 [朱小龍 著]
- 軟考論文高分特訓(xùn)與范文10篇—信息系統(tǒng)項目管理師(第二版) [主編 薛大龍]
- 大學(xué)信息技術(shù) [曾翰穎 編著]
- 信息處理技術(shù)員考試32小時通關(guān) [薛大龍]
- 信息系統(tǒng)項目管理師章節(jié)習(xí)題與考點特訓(xùn)(第二版) [主編 薛大龍]
- 信息系統(tǒng)項目管理師5天修煉(第四版) [施游 劉毅 編著]
- 信息技術(shù)基礎(chǔ)實驗與習(xí)題解析 [主編 王劍波 闕清賢]
- 信息技術(shù)基礎(chǔ) [主編 闕清賢 黃詮]
- 信息系統(tǒng)項目管理師考試32小時通關(guān)(第二版) [薛大龍]
- 大學(xué)英語信息化教學(xué)探索研究 [張強(qiáng) 著]
- 大學(xué)生信息檢索與網(wǎng)絡(luò)安全教程 [劉軍 楊昌堯 黃榮森]
- Web程序設(shè)計及應(yīng)用
- AutoCAD建筑設(shè)計與繪圖實用教程(2012
- Java面向?qū)ο蟪绦蛟O(shè)計實訓(xùn)與考試指導(dǎo)(
- 數(shù)據(jù)挖掘技術(shù)
- 計算機(jī)網(wǎng)絡(luò)概論
- 計算機(jī)輔助設(shè)計與繪圖實用教程——Auto
- 計算機(jī)輔助設(shè)計與繪圖實用教程學(xué)習(xí)指導(dǎo)
- AutoCAD建筑設(shè)計與繪圖實用教程學(xué)習(xí)指
- AutoCAD建筑設(shè)計與繪圖實用教程
- Authorware多媒體課件制作技術(shù)
- Photoshop圖像處理技術(shù)
- Flash基礎(chǔ)教程與創(chuàng)作實例
- 多媒體技術(shù)與應(yīng)用--Photoshop、Authorw
- 單片機(jī)接口技術(shù)(C51版)
- CorelDRAW基礎(chǔ)教程
- JSP程序設(shè)計實用教程