第1章 為什麼要關注搜索引擎 1
1.1 互聯網上最重要的應用係統 1
1.2 人類曆史上最大規模的信息集散平颱 2
1.3 學術界重要的技術研發平颱 3
1.4 經濟領域能夠盈利的“生意” 4
第2章 搜索引擎的基本概念與發展曆史 6
2.1 互聯網與萬維網的發展 6
2.2 英雄輩齣:搜索引擎的發展曆史迴顧 11
2.3 搜索引擎的定義與運行原理概述 15
2.4 總結:我們能夠從曆史中學到什麼? 17
參考文獻 18
第3章 搜索引擎性能評價 20
3.1 搜索引擎評價與Cranfield評價體係 22
3.2 查詢樣例集閤構建 24
3.2.1 查詢樣例集閤構建中的真實性 24
3.2.2 查詢樣例集閤構建中的代錶性 26
3.2.3 查詢樣例集閤構建中信息需求錶述的完整性 27
3.3 正確答案集閤構建 31
3.4 搜索引擎評價指標 34
3.5 搜索引擎性能評價的新進展 39
參考文獻 42
第4章 搜索引擎體係結構概述 44
4.1 數據抓取子係統的主要功能與性能需求 46
4.1.1 及時性 47
4.1.2 全麵性 50
4.1.3 高效性 51
4.2 內容索引子係統的主要功能與性能需求 54
4.2.1 內容索引子係統的主要功能 54
4.2.2 倒排索引結構 55
4.2.3 內容索引子係統的性能需求 57
4.3 內容檢索子係統的主要功能與性能需求 60
4.3.1 內容檢索子係統與文本信息檢索係統 60
4.3.2 內容檢索子係統的相關性需求 62
4.3.3 內容檢索子係統的查詢理解需求 64
4.3.4 內容檢索子係統的效率需求 67
4.4 鏈接結構分析子係統的主要功能與性能需求 68
4.4.1 基於鏈接結構分析評價數據質量 68
4.4.2 基於鏈接結構分析擴展文檔描述 69
4.4.3 鏈接結構分析子係統的效率需求 71
4.5 搜索引擎體係結構設計理念 72
參考文獻 73
第5章 數據抓取子係統設計及核心算法 75
5.1 抓取係統的基本架構 75
5.2 數據抓取涉及的網絡協議 77
5.2.1 URL規範 77
5.2.2 HTTP協議 78
5.2.3 User-Agent 79
5.2.4 robots協議 80
5.3 網頁抓取技術 81
5.3.1 網頁抓取的基本過程 81
5.3.2 基於異步I/O模型的抓取器 82
5.3.3 抓取壓力控製 84
5.3.4 對URL重定嚮的支持 84
5.3.5 對HTTPS協議的支持 85
5.4 鏈接選取策略 86
5.4.1 爬蟲的抓取方式 86
5.4.2 抓取優先級策略 87
5.4.3 網頁的重訪策略 89
5.4.4 鏈接去重策略 90
5.5 網頁存儲技術 91
5.5.1 分布式哈希存儲係統 92
5.5.2 基於BigTable 的網頁存儲係統 94
參考文獻 94
第6章 內容索引子係統設計及核心算法 96
6.1 最小的語義單位--詞項 97
6.1.1 中文分詞問題 97
6.1.2 英文詞乾抽取 101
6.1.3 停用詞去除 102
6.1.4 詞項列錶的構建 103
6.2 索引的數據結構 105
6.2.1 詞項齣現信息記錄 105
6.2.2 倒排索引和正排索引 108
6.2.3 索引的並行存儲結構 108
6.3 索引子係統的運行方式 111
6.3.1 預處理 111
6.3.2 建立索引 113
6.3.3 使用索引 117
參考文獻 119
第7章 內容檢索子係統設計及其核心算法 121
7.1 文本信息檢索模型 121
7.1.1 布爾模型 122
7.1.2 嚮量空間模型 124
7.1.3 概率模型 129
7.1.4 語言模型 131
7.2 內容檢索子係統運行方式 136
7.2.1 內容相似程度 136
7.2.2 數據質量評估結果 138
7.2.3 用戶偏好情況 139
7.2.4 競價排名情況 140
7.2.5 閤並排序依據 141
參考文獻 142
第8章 鏈接結構分析子係統設計及核心算法 144
8.1 萬維網鏈接結構圖 144
8.1.1 萬維網鏈接圖的規模 145
8.1.2 萬維網鏈接圖的連通情況 146
8.1.3 萬維網鏈接圖的入度和齣度分布 148
8.2 超鏈接結構分析的基礎 149
8.3 HITS算法的基本思路及實現 153
8.4 PageRank算法的基本思路及實現 156
8.5 鏈接結構分析結果的應用與排序因素融閤 163
參考文獻 165
第9章 萬維網數據質量評估 167
9.1 萬維網數據質量評估睏境 168
9.2 數據質量評估的解決思路 169
9.2.1 宏觀粒度網絡數據質量評估技術 169
9.2.2 微觀粒度網絡數據質量評估技術 170
9.2.3 冗餘頁麵識彆技術 172
9.2.4 網絡數據質量評估方式總述 173
9.3 麵嚮搜索引擎需求的網絡數據質量定義 174
9.3.1 基於萬維網鏈接結構分析的網頁質量定義 174
9.3.2 基於搜索引擎用戶信息需求分析的網頁質量定義 174
9.4 基於萬維網鏈接結構分析的網頁質量評估 176
9.4.1 PageRank在真實萬維網環境中的睏境 176
9.4.2 用戶訪問數據與用戶瀏覽關係圖 179
9.4.3 基於用戶瀏覽關係圖的頁麵質量評估 180
9.5 基於搜索引擎用戶信息需求分析的網頁質量評估 182
9.5.1 網頁查詢無關特徵 182
9.5.2 查詢目標頁麵與普通頁麵的差異分析 183
9.5.3 查詢目標頁麵與普通頁麵的長度特徵差異 184
9.5.4 查詢目標頁麵與普通頁麵的PageRank特徵差異 185
9.5.5 基於用戶信息需求分析的網頁質量評估方法 186
9.5.6 基於用戶信息需求分析的網頁質量評估效果 187
參考文獻 190
第10章 萬維網垃圾網頁識彆 193
10.1 垃圾網頁作弊方式 195
10.1.1 基於內容的作弊方式 195
10.1.2 基於鏈接的作弊方式 205
10.1.3 垃圾網頁作弊與搜索引擎優化 210
10.2 垃圾網頁盈利方式 211
10.2.1 垃圾網頁作弊目的及其分類 212
10.2.2 促進廣告瀏覽及點擊 213
10.2.3 促進移動增值服務訂製 214
10.2.4 促進站點訪問流量提升 215
10.2.5 欺詐和違法信息宣傳 215
10.2.6 軟件産品推廣 217
10.2.7 垃圾網頁作弊目的分布情況 218
10.3 垃圾網頁識彆方法 219
10.3.1 垃圾網頁識彆的效果評價 219
10.3.2 基於網頁內容的垃圾網頁識彆 222
10.3.3 基於鏈接結構的垃圾網頁識彆 228
10.3.4 基於用戶行為的垃圾網頁識彆 231
參考文獻 233
第11章 搜索引擎廣告技術 235
11.1 引言 235
11.2 曆史、現狀和未來 235
11.3 搜索引擎付費搜索原理 240
11.4 搜索引擎廣告的檢索和匹配算法 244
11.5 計算廣告學 245
參考文獻 248
第12章 中文搜索引擎的現狀與未來 251
12.1 國內外搜索引擎市場的發展現狀 251
12.2 搜索引擎的未來發展展望 254
12.2.1 手持設備搜索 254
12.2.2 暗網數據與用戶産生內容(UGC)的獲取 255
12.2.3 搜索引擎將成為社會和自然科學研究的重要平颱? 255
12.2.4 搜索引擎嚮其他産業進軍 256
本書特色 257
· · · · · · (
收起)