XML數(shù)據(jù)查詢與信息檢索系統(tǒng)

-
【作 者】韓忠明 著
【I S B N 】978-7-5084-7151-8
【責(zé)任編輯】張玉玲
【適用讀者群】科技
【出版時(shí)間】2010-03-01
【開 本】16開本
【裝幀信息】平裝(光膜)
【版 次】第1版
【頁 數(shù)】
【千字?jǐn)?shù)】
【印 張】
【定 價(jià)】¥30
【叢 書】暫無分類
【備注信息】
簡(jiǎn)介
本書特色
前言
章節(jié)列表
精彩閱讀
下載資源
相關(guān)圖書
本書主要研究改進(jìn)XML數(shù)據(jù)查詢和信息檢索的相關(guān)理論與技術(shù),以便于它們更好地集成在一起,從而可以更加優(yōu)化地執(zhí)行用戶的查詢需求,針對(duì)這個(gè)研究目標(biāo),本書做了大量的研究工作。本書提出了一個(gè)新穎有效的節(jié)點(diǎn)編號(hào)模式,詳細(xì)討論了節(jié)點(diǎn)編號(hào)模式的定義和性質(zhì),還提出了一種新穎有效的對(duì)基于XML信息檢索查詢進(jìn)行相關(guān)度打分的算法,這個(gè)打分機(jī)制結(jié)合了檢索查詢關(guān)鍵詞的頻度、文檔的結(jié)構(gòu)化特性、文檔的語義特性等。基于對(duì)結(jié)構(gòu)化查詢和信息檢索的相關(guān)研究成果,本書提出了處理XML結(jié)構(gòu)化查詢和信息檢索的有效算法與機(jī)制。本書還討論了一個(gè)原型系統(tǒng)的設(shè)計(jì)目標(biāo)、分析與設(shè)計(jì)過程。
XML已經(jīng)成為互聯(lián)網(wǎng)上數(shù)據(jù)表示和數(shù)據(jù)交換的標(biāo)準(zhǔn)。隨著XML文檔數(shù)據(jù)量和文檔數(shù)量的快速增長,產(chǎn)生了很多問題,其中很重要的一個(gè)問題就是如何有效地查詢這些文檔,也就是結(jié)構(gòu)化查詢,亦稱為數(shù)據(jù)查詢。而有效的數(shù)據(jù)查詢又涉及文檔的存儲(chǔ)機(jī)制和索引結(jié)構(gòu)等問題,這些問題已經(jīng)引起了學(xué)術(shù)界和工業(yè)界廣泛的研究熱情,學(xué)者們?cè)谶@些問題上作了大量的研究工作。另外一個(gè)問題是基于XML文檔的信息檢索,這也是一個(gè)新產(chǎn)生的研究問題。面對(duì)巨大的網(wǎng)絡(luò)信息,如何才能為用戶檢索出真正有效的信息是一個(gè)非常具有挑戰(zhàn)性的研究問題。現(xiàn)存的大部分搜索引擎是基于關(guān)鍵字搜索的,頁面排序算法采用頁面的超鏈接或頁面內(nèi)容的文本特性。如果頁面采用XML來編寫,那么就需要合理地利用XML的結(jié)構(gòu)特性、語義特性以及其他的相關(guān)性質(zhì)來提高檢索的效果和效率。這就促使對(duì)XML文檔進(jìn)行信息檢索成為了一個(gè)非常有意義的問題。XML上的信息檢索正開始受到學(xué)術(shù)界的高度重視。
對(duì)XML進(jìn)行結(jié)構(gòu)化查詢和信息檢索是兩個(gè)既具有相關(guān)性又具有不同特性的研究問題,如何集成這兩個(gè)研究問題就更加具有研究意義。本書的主要研究對(duì)象就是如何改進(jìn)XML的結(jié)構(gòu)化查詢以及信息檢索的相關(guān)理論與技術(shù),以便于它們更好地集成在一起,從而可以更加優(yōu)化地執(zhí)行用戶的查詢需求。
針對(duì)這個(gè)研究目標(biāo),本書做了大量的研究工作。首先,本書在XQuery語言的基礎(chǔ)上擴(kuò)充了全文本檢索功能,為了與原來的XQuery區(qū)分,擴(kuò)充后的語言稱為XQuery+(XQuery Plus)。XQuery+語言有如下特點(diǎn):在XQuery+語言里,擴(kuò)充了XQuery的檢索功能,增加了一個(gè)為檢索服務(wù)的謂詞;在XQuery+中還支持檢索詞的布爾操作。
本書的主要研究任務(wù)之一是如何有效地處理XML的結(jié)構(gòu)化查詢。作為處理XML結(jié)構(gòu)化查詢的基礎(chǔ),XML文檔的節(jié)點(diǎn)編碼模式和索引結(jié)構(gòu)是研究的核心問題。本書提出了一個(gè)新穎有效的節(jié)點(diǎn)編號(hào)模式,詳細(xì)地討論了節(jié)點(diǎn)編號(hào)模式的定義和性質(zhì)。節(jié)點(diǎn)編號(hào)模式為XML文檔索引和查詢提供了基礎(chǔ),一個(gè)有效的節(jié)點(diǎn)編號(hào)模式應(yīng)該可以包含結(jié)構(gòu)信息,易于支持索引和查詢。從本書給出的節(jié)點(diǎn)編號(hào)定義和性質(zhì)分析,我們知道編號(hào)模式可以滿足這些基本的要求。本書在這個(gè)節(jié)點(diǎn)編號(hào)模式的基礎(chǔ)上建立了一個(gè)HiD索引結(jié)構(gòu),HiD索引結(jié)構(gòu)有效地集成了結(jié)構(gòu)索引和值索引兩個(gè)部分。通過大量有競(jìng)爭(zhēng)性的實(shí)驗(yàn)分析表明,采用HiD索引機(jī)制方法可以在索引的構(gòu)建時(shí)間和空間消耗上得到很好的平衡和性能表現(xiàn)。
本書研究的第三個(gè)主要任務(wù)是基于XML的信息檢索。XML信息檢索的核心問題是如何進(jìn)行相關(guān)度打分。本書提出了一種新穎有效的對(duì)基于XML信息檢索查詢進(jìn)行相關(guān)度打分的算法,該算法同時(shí)考慮了結(jié)構(gòu)相關(guān)度和語義相關(guān)度。結(jié)構(gòu)相關(guān)度主要利用了檢索詞的距離概念;語義相關(guān)度的計(jì)算則采用了節(jié)點(diǎn)相關(guān)度語義權(quán)重系數(shù)的方法。為了合理地評(píng)價(jià)和比較本書提出的方法與其他研究者的方法之間的效果差異,本書還做了大量的實(shí)驗(yàn)。從所做的實(shí)驗(yàn)結(jié)果中可以看出,在合理應(yīng)用本書的方法后,檢索的查全率和查準(zhǔn)率都得到了顯著提高,檢索結(jié)果非常合乎用戶的需求。
基于對(duì)結(jié)構(gòu)化查詢和信息檢索的相關(guān)研究成果,本書提出了處理XML結(jié)構(gòu)化查詢和信息檢索的有效算法與機(jī)制。這些算法分別處理了XQuery和XQuery+查詢。雖然這些算法都基于HiD索引結(jié)構(gòu)之上,但是這些算法的特點(diǎn)不同,處理對(duì)象不同。對(duì)于XQuery查詢來說,本書給出的兩種算法分別是處理單路徑查詢的算法和具有兩個(gè)分支的樹模式查詢的算法。基于這兩種算法,可以方便地構(gòu)造出處理復(fù)雜查詢的算法。而對(duì)于XQuery+查詢的處理,本書也給出兩種不同的處理算法。算法XQuery+G-1采用了on-the-fly的查詢和打分機(jī)制,而算法XQuery+G-2則簡(jiǎn)單地采用了查詢后計(jì)算相關(guān)度的技術(shù)。通過實(shí)驗(yàn),本書還詳細(xì)地分析了各種算法的性能和效果,為了合理地評(píng)估相關(guān)算法的性能,實(shí)驗(yàn)中對(duì)不同的算法還選用了不同的、合理的比較算法。實(shí)驗(yàn)結(jié)果表明無論是處理結(jié)構(gòu)化查詢還是信息檢索,本書提出的對(duì)應(yīng)算法都表現(xiàn)出較高的執(zhí)行效率,有效地提高了查詢和檢索的速度。
課題的最后一個(gè)研究任務(wù)是在相關(guān)研究成果的基礎(chǔ)上設(shè)計(jì)開發(fā)一個(gè)原型系統(tǒng)。本書詳細(xì)地討論了原型系統(tǒng)的設(shè)計(jì)目標(biāo)、分析與設(shè)計(jì)過程,確定了原型系統(tǒng)的架構(gòu)。經(jīng)過分析原型系統(tǒng)的系統(tǒng)流程,得出各個(gè)模塊的功能與實(shí)現(xiàn)過程。最后,我們采用Java語言并在Qizx/open的基礎(chǔ)上實(shí)現(xiàn)了原型系統(tǒng)。從原型系統(tǒng)的體系架構(gòu)和模塊功能可以看出,原型系統(tǒng)基本可以滿足XML文檔查詢和檢索的需求。原型系統(tǒng)的特色在于:①開放和層次化的結(jié)構(gòu),這樣可以方便地支持和擴(kuò)充新的功能和算法;②原型系統(tǒng)實(shí)現(xiàn)了兩種過濾機(jī)制和兩種結(jié)果表示方法,這些都擴(kuò)展了原型系統(tǒng)的性能和表現(xiàn)力,為將來做成熟的系統(tǒng)打下了良好的基礎(chǔ)。
全書組織結(jié)構(gòu)如下:
第1章,介紹課題研究問題的背景以及相關(guān)研究,并分析課題研究的主要內(nèi)容及研究意義。
第2章,介紹如何在XQuery語言的基礎(chǔ)上擴(kuò)展檢索功能。為了使XQuery語言滿足信息檢索的要求,本書引入了一個(gè)新的檢索謂詞,并且在檢索謂詞中支持檢索條件的布爾組合。
第3章,主要論述節(jié)點(diǎn)編號(hào)模式與索引結(jié)構(gòu)。首先定義了基本概念,然后詳細(xì)地給出了節(jié)點(diǎn)編號(hào)模式定義、性質(zhì)以及一些應(yīng)用算法等,在節(jié)點(diǎn)編號(hào)模式的基礎(chǔ)上提出HiD索引結(jié)構(gòu), HiD索引結(jié)構(gòu)包含結(jié)構(gòu)索引和值索引結(jié)構(gòu)等。
第4章,解決了XML信息檢索的一個(gè)核心問題,即節(jié)點(diǎn)相關(guān)度打分機(jī)制問 題,這個(gè)研究為處理XML檢索查詢的算法提供了基礎(chǔ)。主要的研究?jī)?nèi)容包括 XML檢索的表達(dá)以及節(jié)點(diǎn)打分 算法和排序機(jī)制。
第5章,在第3章和第4章的基礎(chǔ)上詳細(xì)介紹了處理XML結(jié)構(gòu)化查詢和信息檢索的查詢處理算法以及合成兩種查詢算法的機(jī)制。
第6章,給出了原型系統(tǒng)的分析與設(shè)計(jì)過程,詳細(xì)描述了原型系統(tǒng)核心模塊的處理過程和功能,并介紹了原型系統(tǒng)的幾個(gè)特色與簡(jiǎn)單使用方法。
第7章,進(jìn)行了全書的總結(jié),分析了本書研究?jī)?nèi)容的主要結(jié)果以及可能存在的一些問題,最后討論了下一步可能的幾個(gè)研究方向。
第1章 緒論 1
1.1 研究背景 1
1.2 XML介紹 3
1.2.1 元素(Element) 4
1.2.2 屬性 5
1.2.3 指令/處理指令 6
1.2.4 注釋 7
1.2.5 CDATA 7
1.2.6 XML的語法規(guī)則 7
1.3 Xpath介紹 9
1.3.1 節(jié)點(diǎn)(Node) 9
1.3.2 XPath謂語 11
1.3.3 XPath軸 12
1.3.4 XPath節(jié)點(diǎn)測(cè)試 13
1.4 XQuery介紹 14
1.4.1 XQuery的語法 15
1.4.2 XQuery的運(yùn)算符 21
1.4.3 XQuery函數(shù) 22
1.4.4 XQuery條件表達(dá)式 24
1.5 相關(guān)研究 24
1.5.1 數(shù)據(jù)庫的研究 24
1.5.2 XML數(shù)據(jù)管理 25
1.5.3 XML數(shù)據(jù)查詢 28
1.5.4 信息檢索及基于XML的信息檢索 30
1.6 小結(jié) 35
第2章 基于XQuery的信息檢索語言 37
2.1 XML查詢語言 37
2.2 XML信息檢索語言的特點(diǎn) 39
2.3 XML信息檢索語言XQuery+ 40
2.3.1 XQuery+語法分析 40
2.3.2 XQuery+語義分析 41
2.4 小結(jié)與問題 43
第3章 XML節(jié)點(diǎn)編號(hào)模式與索引結(jié)構(gòu) 44
3.1 預(yù)備知識(shí) 44
3.2 XML節(jié)點(diǎn)編號(hào)模式 47
3.2.1 節(jié)點(diǎn)標(biāo)簽路徑數(shù) 47
3.2.2 節(jié)點(diǎn)數(shù)據(jù)路徑數(shù) 51
3.2.3 節(jié)點(diǎn)標(biāo)識(shí) 53
3.3 XML索引結(jié)構(gòu) 54
3.4 值索引結(jié)構(gòu) 56
3.5 相關(guān)實(shí)驗(yàn)及分析 58
3.6 小結(jié)與問題 61
第4章 XML相關(guān)度打分機(jī)制與算法 62
4.1 問題描述 62
4.2 IR查詢表達(dá) 63
4.3 相關(guān)度打分機(jī)制 65
4.3.1 結(jié)構(gòu)相關(guān)度 65
4.3.2 語義相關(guān)度 67
4.3.3 相關(guān)度集成 70
4.4 實(shí)例分析 71
4.5 實(shí)驗(yàn)與分析 74
4.6 小結(jié)與問題 79
第5章 查詢處理 81
5.1 問題描述 81
5.2 XQuery查詢處理算法 82
5.2.1 單路徑查詢 82
5.2.2 樹模式查詢算法 84
5.3 XQuery+查詢處理算法 86
5.4 XQuery查詢實(shí)驗(yàn)分析 88
5.5 XQuery+查詢算法實(shí)驗(yàn)分析 90
5.6 小結(jié)與問題 93
第6章 原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn) 94
6.1 原型系統(tǒng)分析與設(shè)計(jì) 94
6.1.1 系統(tǒng)設(shè)計(jì)目標(biāo)和原則 94
6.1.2 需求分析 95
6.1.3 數(shù)據(jù)流圖 96
6.1.4 系統(tǒng)架構(gòu) 96
6.2 原型系統(tǒng)模塊分析 98
6.2.1 系統(tǒng)處理流程 98
6.2.2 模塊設(shè)計(jì) 98
6.3 原型系統(tǒng)的實(shí)現(xiàn) 100
6.3.1 原型系統(tǒng)核心數(shù)據(jù)結(jié)構(gòu) 101
6.3.2 查詢引擎處理過程部分代碼分析 103
6.3.3 原型系統(tǒng)界面及使用介紹 105
6.4 小結(jié)與問題 108
第7章 結(jié)論與展望 109
參考文獻(xiàn) 111
- 生活經(jīng)管more>>
- 計(jì)算機(jī)基礎(chǔ)實(shí)訓(xùn)指導(dǎo)
- 用英語介紹中國經(jīng)典小故事
- 新概念英語單詞循環(huán)速記1:14天刻意練
- 新能源場(chǎng)站繼電保護(hù)傳動(dòng)作業(yè)指導(dǎo)書
- 高職院校“德技并修·三育協(xié)同”的育人
- 網(wǎng)絡(luò)規(guī)劃設(shè)計(jì)師真題及模考卷精析(適用
- 涼山脫貧地區(qū)鄉(xiāng)村治理研究
- 中國—東盟競(jìng)技體育文化共同體研究
- 數(shù)值分析
- 用英語介紹中國(四六級(jí)版)
- 用英語介紹中國(第二版)
- 基于AI的Java技術(shù)項(xiàng)目實(shí)戰(zhàn)
- 信息處理技術(shù)員真題及模考卷精析(適用
- 系統(tǒng)集成項(xiàng)目管理工程師案例分析一本通
- 信息安全工程師考前沖刺100題(第二版
- 信息系統(tǒng)項(xiàng)目管理師考前沖刺100題(配