齣版者的話
譯者序
第2版前言
第1版前言
第2版緻謝
第1版緻謝
齣版商緻謝
第1章 引言1
1.1 信息檢索1
1.1.1 信息檢索的早期發展1
1.1.2 圖書館和數字圖書館中的信息檢索2
1.1.3 舞颱中央的信息檢索2
1.2 信息檢索問題3
1.2.1 用戶的任務3
1.2.2 信息檢索與數據檢索4
1.3 信息檢索係統4
1.3.1 信息檢索係統的軟件架構4
1.3.2 檢索和排序過程5
1.4 Web6
1.4.1 Web簡史7
1.4.2 電子齣版時代7
1.4.3 Web如何改變搜索8
1.4.4 Web上的實際問題9
1.5 本書的組織結構9
1.5.1 本書的重點9
1.5.2 本書的內容10
1.6 本書的教學資源網站12
1.7 文獻討論12
第2章 用戶搜索界麵16
2.1 介紹16
2.2 人們如何搜索16
2.2.1 信息查找與探索式搜索16
2.2.2 信息搜尋的經典模型與動態模型17
2.2.3 導航與搜索18
2.2.4 對搜索過程的觀察18
2.3 現今的搜索界麵19
2.3.1 啓動搜尋19
2.3.2 查詢描述19
2.3.3 查詢描述界麵20
2.3.4 檢索結果顯示22
2.3.5 查詢重構24
2.3.6 組織搜索結果26
2.4 搜索界麵的可視化32
2.4.1 可視化布爾語法32
2.4.2 可視化查詢結果中的查詢項33
2.4.3 可視化詞語和文檔間的關係36
2.4.4 文本挖掘的可視化38
2.5 搜索界麵的設計和評價40
2.6 趨勢和研究問題42
2.7 文獻討論42
第3章 信息檢索建模44
3.1 信息檢索模型44
3.1.1 建模和排序44
3.1.2 信息檢索模型描述44
3.1.3 信息檢索模型的分類體係45
3.2 經典信息檢索47
3.2.1 基本概念47
3.2.2 布爾模型49
3.2.3 項權重50
3.2.4 TF-IDF權重52
3.2.5 文檔長度歸一化56
3.2.6 嚮量模型57
3.2.7 概率模型59
3.2.8 經典模型之間的簡單比較64
3.3 其他集閤論模型64
3.3.1 基於集閤的模型64
3.3.2 擴展布爾模型68
3.3.3 模糊集模型70
3.4 其他代數模型72
3.4.1 廣義嚮量空間模型72
3.4.2 潛在語義索引模型74
3.4.3 神經網絡模型75
3.5 其他概率模型76
3.5.1 BM25模型77
3.5.2 語言模型78
3.5.3 隨機差異模型83
3.5.4 貝葉斯網模型85
3.6 其他模型90
3.6.1 超文本模型90
3.6.2 基於Web的模型91
3.6.3 結構化文本檢索91
3.6.4 多媒體檢索92
3.6.5 企業和垂直搜索92
3.7 趨勢和研究問題92
3.8 文獻討論93
第4章 檢索評價96
4.1 介紹96
4.2 Cranfield範式97
4.2.1 曆史簡述97
4.2.2 參考集98
4.3 檢索指標98
4.3.1 精度和召迴率98
4.3.2 單值總結:P@n,MAP,MRR,F102
4.3.3 麵嚮用戶的指標105
4.3.4 摺扣纍積增益106
4.3.5 二元偏好109
4.3.6 排序相關性測度111
4.4 參考文檔集115
4.4.1 TREC參考集115
4.4.2 其他參考集121
4.4.3 其他小規模測試文檔集121
4.5 基於用戶的評價122
4.5.1 實驗室中的人工實驗122
4.5.2 並排麵闆122
4.5.3 A/B測試123
4.5.4 眾包124
4.5.5 使用點擊數據的評價125
4.6 實踐說明126
4.7 趨勢和研究問題127
4.8 文獻討論127
第5章 相關反饋與查詢擴展129
5.1 介紹129
5.2 反饋方法的框架129
5.3 顯式相關反饋131
5.3.1 嚮量模型的相關反饋:Rocchio方法131
5.3.2 概率模型的相關反饋133
5.3.3 相關反饋的評價134
5.4 基於點擊的顯式反饋134
5.4.1 眼動追蹤和相關性評價134
5.4.2 用戶行為135
5.4.3 點擊作為用戶偏好的指標136
5.5 通過局部分析的隱式反饋138
5.5.1 通過局部聚類的隱式反饋138
5.5.2 通過局部上下文分析的隱式反饋140
5.6 通過全局分析的隱式反饋141
5.6.1 基於相似度同義詞典的查詢擴展141
5.6.2 基於統計同義詞典的查詢擴展143
5.7 趨勢和研究問題145
5.8 文獻討論145
第6章 文檔:語言及屬性147
6.1 介紹147
6.2 元數據148
6.3 文檔格式149
6.3.1 文本149
6.3.2 多媒體149
6.3.3 圖形和虛擬現實150
6.4 標記語言151
6.4.1 SGML151
6.4.2 HTML153
6.4.3 XML155
6.4.4 RDF157
6.4.5 HyTime158
6.5 文本屬性159
6.5.1 信息論159
6.5.2 自然語言建模159
6.5.3 文本相似度162
6.6 文檔預處理163
6.6.1 文本的詞匯分析163
6.6.2 去除禁用詞164
6.6.3 詞乾提取165
6.6.4 關鍵詞選擇166
6.6.5 同義詞典166
6.7 組織文檔168
6.7.1 分類體係法168
6.7.2 分眾分類法169
6.8 文本壓縮170
6.8.1 基本概念170
6.8.2 統計方法171
6.8.3 統計方法:建模171
6.8.4 統計方法:編碼173
6.8.5 字典方法179
6.8.6 壓縮預處理180
6.8.7 文本壓縮技術的比較181
6.8.8 結構化文本壓縮182
6.9 趨勢和研究問題183
6.10 文獻討論185
第7章 查詢:語言及屬性187
7.1 查詢語言187
7.1.1 基於關鍵詞的查詢188
7.1.2 非關鍵詞查詢190
7.1.3 結構化查詢192
7.1.4 查詢協議194
7.2 查詢屬性195
7.2.1 Web查詢的特徵195
7.2.2 用戶搜索行為197
7.2.3 查詢意圖197
7.2.4 查詢主題199
7.2.5 查詢會話與任務200
7.2.6 查詢難度200
7.3 趨勢和研究問題203
7.4 文獻討論204
第8章 文本分類205
8.1 介紹205
8.2 文本分類的特性描述206
8.2.1 機器學習206
8.2.2 文本分類問題206
8.2.3 文本分類算法207
8.3 無監督算法208
8.3.1 聚類208
8.3.2 樸素文本分類212
8.4 監督算法212
8.4.1 決策樹214
8.4.2 k近鄰分類器218
8.4.3 Rocchio分類器219
8.4.4 概率樸素貝葉斯文檔分類221
8.4.5 支持嚮量機分類器224
8.4.6 集成分類器231
8.4.7 關於監督算法的結束語234
8.5 特徵選擇或降維234
8.5.1 項-類彆齣現列聯錶235
8.5.2 索引項文檔頻率236
8.5.3 TF-IDF權重236
8.5.4 互信息236
8.5.5 信息增益237
8.5.6 卡方檢驗237
8.5.7 特徵選擇的作用238
8.6 評價指標238
8.6.1 列聯錶238
8.6.2 準確率和錯誤率239
8.6.3 精度和召迴率239
8.6.4 F測度和F1240
8.6.5 交叉檢驗241
8.6.6 標準文檔集241
8.7 類彆組織——構建分類體係242
8.8 趨勢和研究問題244
8.9 文獻討論244
第9章 索引和搜索247
9.1 介紹247
9.2 倒排索引249
9.2.1 基本概念249
9.2.2 完全倒排索引250
9.2.3 搜索252
9.2.4 排序256
9.2.5 構建257
9.2.6 壓縮的倒排索引260
9.2.7 結構化查詢261
9.3 簽名文件262
9.4 後綴樹和後綴數組264
9.4.1 結構:trie樹和後綴樹265
9.4.2 簡單字符串搜索266
9.4.3 復雜模式的搜索267
9.4.4 構建268
9.4.5 壓縮的後綴數組270
9.5 序列搜索273
9.5.1 簡單字符串:Horspool274
9.5.2 復雜模式:自動機和位並行276
9.5.3 更快的位並行算法279
9.5.4 正則錶達式281
9.5.5 多重模式282
9.5.6 近似搜索283
9.5.7 搜索壓縮文本285
9.6 多維索引287
9.7 趨勢和研究問題288
9.8 文獻討論289
第10章 並行與分布式信息檢索293
10.1 介紹293
10.2 分布式信息檢索係統的分類294
10.3 數據劃分296
10.3.1 文檔集劃分297
10.3.2 文檔集選擇298
10.3.3 倒排索引劃分299
10.3.4 劃分其他索引302
10.4 並行信息檢索303
10.4.1 介紹303
10.4.2 在MIMD架構上的並行信息檢索305
10.4.3 在SIMD架構上的並行信息檢索306
10.5 基於集群的信息檢索310
10.6 分布式信息檢索310
10.6.1 介紹310
10.6.2 索引313
10.6.3 查詢處理315
10.6.4 Web問題320
10.7 聯閤搜索320
10.8 在對等網絡中的檢索322
10.9 趨勢和研究問題325
10.10 文獻討論326
第11章 Web檢索327
11.1 介紹327
11.2 一個有挑戰性的問題328
11.3 Web329
11.3.1 特性329
11.3.2 Web圖的結構331
11.3.3 對Web建模332
11.3.4 鏈接分析334
11.4 搜索引擎架構335
11.4.1 基本架構335
11.4.2 基於集群的架構336
11.4.3 緩存337
11.4.4 多級索引339
11.4.5 分布式架構340
11.5 搜索引擎排序342
11.5.1 排序信號342
11.5.2 基於鏈接的排序343
11.5.3 簡單的排序函數345
11.5.4 排序學習345
11.5.5 學習排序函數346
11.5.6 質量評價347
11.5.7 Web垃圾348
11.6 管理Web數據348
11.6.1 為文檔分配標識符348
11.6.2 元數據349
11.6.3 壓縮Web圖349
11.6.4 處理重復數據349
11.7 搜索引擎用戶交互350
11.7.1 搜索矩形範式351
11.7.2 搜索引擎結果頁麵356
11.7.3 培養用戶363
11.8 瀏覽364
11.8.1 扁平瀏覽364
11.8.2 結構導嚮的瀏覽和Web目錄364
11.9 瀏覽之外366
11.9.1 超文本和Web366
11.9.2 搜索與瀏覽相結閤366
11.9.3 Web查詢語言367
11.9.4 動態搜索367
11.10 相關問題368
11.10.1 計算廣告學368
11.10.2 Web挖掘370
11.10.3 元搜索371
11.11 趨勢和研究問題372
11.11.1 靜態文本數據之外372
11.11.2 目前的挑戰373
11.12 文獻討論374
第12章 Web爬取376
12.1 介紹376
12.2 網絡爬蟲的應用377
12.2.1 通用Web搜索377
12.2.2 聚焦爬取378
12.2.3 Web刻畫378
12.2.4 鏡像378
12.2.5 網站分析379
12.3 爬蟲的分類體係379
12.4 架構和實現380
12.4.1 爬蟲架構380
12.4.2 實際問題382
12.4.3 並行爬取384
12.5 調度算法384
12.5.1 選擇策略385
12.5.2 重訪問策略387
12.5.3 友好策略391
12.5.4 組閤策略393
12.6 評價393
12.6.1 評價網絡使用393
12.6.2 評價長期調度394
12.7 趨勢和研究問題395
12.7.1 爬取“暗網”395
12.7.2 在網站幫助下的爬取396
12.7.3 分布式爬取396
12.8 文獻討論396
第13章 結構化文本檢索398
13.1 介紹398
13.2 結構化能力399
13.2.1 顯式和隱式結構對比399
13.2.2 靜態與動態結構對比399
13.2.3 單一層次結構與多層次結構對比400
13.3 早期文本檢索模型400
13.3.1 基於非覆蓋列錶的模型401
13.3.2 基於相鄰結點的模型401
13.3.3 結構化文本結果排序402
13.4 XML檢索403
13.4.1 XML檢索中的挑戰403
13.4.2 索引策略404
13.4.3 排序策略405
13.4.4 去除重疊412
13.5 XML檢索評價413
13.5.1 文檔集414
13.5.2 主題414
13.5.3 檢索任務415
13.5.4 相關性416
13.5.5 測度417
13.6 查詢語言419
13.6.1 特性419
13.6.2 XML查詢語言分類420
13.6.3 XML查詢語言樣例421
13.7 趨勢和研究問題425
13.8 文獻討論427
第14章 多媒體信息檢索429
14.1 介紹429
14.1.1 什麼是多媒體429
14.1.2 多媒體檢索429
14.1.3 文本檢索與多媒體檢索的對比430
14.2 挑戰431
14.2.1 語義鴻溝431
14.2.2 特徵歧義性432
14.2.3 機器生成的數據432
14.3 基於內容的圖像檢索433
14.3.1 基於顔色的檢索433
14.3.2 紋理434
14.3.3 顯著點436
14.4 聲音和音樂檢索437
14.4.1 指紋識彆437
14.4.2 語音識彆438
14.4.3 說話人識彆440
14.4.4 語音文檔檢索440
14.4.5 音頻基礎知識440
14.5 檢索和瀏覽視頻443
14.5.1 視頻摘要443
14.5.2 靜態摘要444
14.5.3 圖像拼接與跳躍劇照445
14.5.4 動態摘要446
14.5.5 交互式摘要447
14.5.6 視覺與聽覺瀏覽對比448
14.5.7 摘要評價448
14.6 融閤模型:閤並所有信息449
14.6.1 人臉命名449
14.6.2 圖像命名450
14.6.3 音頻命名451
14.6.4 結閤音頻與視頻的音-視頻語音識彆451
14.6.5 結閤音頻和視頻的多媒體處理453
14.7 分割453
14.7.1 視頻分割樣例454
14.7.2 視頻分割方案455
14.7.3 利用邊緣的視頻分割455
14.7.4 語音分割456
14.7.5 分割評價457
14.8 壓縮和MPEG標準457
14.8.1 強度和采樣458
14.8.2 顔色458
14.8.3 有損壓縮459
14.8.4 無損壓縮461
14.8.5 時間冗餘461
14.8.6 運動預測461
14.8.7 MPEG標準462
14.9 趨勢和研究問題465
14.10 文獻討論466
第15章 企業搜索469
15.1 介紹469
15.1.1 企業搜索的特點和應用469
15.1.2 企業搜索軟件470
15.1.3 工作場所搜索471
15.2 企業搜索任務471
15.2.1 搜索支持任務的例子471
15.2.2 搜索類型473
15.2.3 研究企業搜索473
15.3 企業搜索係統的結構474
15.3.1 收集474
15.3.2 提取476
15.3.3 索引477
15.3.4 文本注釋的索引477
15.3.5 查詢處理478
15.3.6 搜索結果的展示479
15.3.7 安全模型480
15.3.8 聯閤/元搜索482
15.4 企業搜索評價484
15.4.1 企業搜索的公開測試集484
15.4.2 企業搜索內部評價485
15.4.3 企業搜索調試486
15.4.4 所能期待的是什麼487
15.5 不滿意的可能原因488
15.6 情境化和個性化490
15.6.1 情境化的控製和工具491
15.6.2 情境化:本地、企業或全球493
15.6.3 輪廓的隱私494
15.6.4 定義、建立和維護輪廓494
15.6.5 用戶建模495
15.6.6 隱式評價496
15.6.7 信息過濾496
15.6.8 社會化推薦係統497
15.7 趨勢和研究問題497
15.8 文獻討論497
第16章 圖書館係統499
16.1 圖書館的信息環境499
16.2 聯機公共檢索目錄500
16.2.1 OPAC和書目記錄501
16.2.2 來自ILS的信息檢索503
16.2.3 混閤圖書館的整閤504
16.2.4 OPAC和最終用戶505
16.2.5 ILS:供應商和産品506
16.3 信息檢索係統與文檔數據庫507
16.3.1 書目和全文數據庫508
16.3.2 數據庫記錄的內容508
16.3.3 聯機産業:數據庫供應商510
16.3.4 來自文檔數據庫的信息檢索511
16.4 組織機構內部的信息檢索514
16.5 趨勢和研究問題515
16.6 文獻討論516
第17章 數字圖書館517
17.1 介紹517
17.2 定義數字圖書館517
17.3 通用架構518
17.4 基本概念519
17.4.1 數字對象和館藏519
17.4.2 元數據和目錄520
17.4.3 資源庫/檔案庫522
17.4.4 服務525
17.5 社會經濟問題527
17.5.1 社會問題527
17.5.2 經濟問題527
17.6 軟件係統528
17.6.1 Greenstone529
17.6.2 Eprints529
17.6.3 DSpace529
17.6.4 Fedora529
17.6.5 ODL530
17.6.6 5S套件530
17.7 數字圖書館案例研究531
17.7.1 聯網學位論文數字圖書館531
17.7.2 國傢科學數字圖書館532
17.7.3 ETANA-DL考古數字圖書館532
17.8 趨勢和研究問題532
17.8.1 評價532
17.8.2 集成533
17.8.3 其他研究挑戰533
17.9 文獻討論534
附錄A 開源搜索引擎535
附錄B 作者簡介549
參考文獻554
索引654
· · · · · · (
收起)
評分
☆☆☆☆☆
虽然资料有些陈旧,特别对于发展迅猛的IR领域!但是对于我入门还是比较合适的,看过去没有什么特别难理解的!当然我看的是中译本,不是原版!现在建议看Introduction to Information Retrival!
評分
☆☆☆☆☆
虽然资料有些陈旧,特别对于发展迅猛的IR领域!但是对于我入门还是比较合适的,看过去没有什么特别难理解的!当然我看的是中译本,不是原版!现在建议看Introduction to Information Retrival!
評分
☆☆☆☆☆
虽然资料有些陈旧,特别对于发展迅猛的IR领域!但是对于我入门还是比较合适的,看过去没有什么特别难理解的!当然我看的是中译本,不是原版!现在建议看Introduction to Information Retrival!
評分
☆☆☆☆☆
虽然资料有些陈旧,特别对于发展迅猛的IR领域!但是对于我入门还是比较合适的,看过去没有什么特别难理解的!当然我看的是中译本,不是原版!现在建议看Introduction to Information Retrival!
評分
☆☆☆☆☆
虽然资料有些陈旧,特别对于发展迅猛的IR领域!但是对于我入门还是比较合适的,看过去没有什么特别难理解的!当然我看的是中译本,不是原版!现在建议看Introduction to Information Retrival!