目 录
第1章 信息检索模型 1
1.1 信息检索概述 1
1.1.1 信息过载 1
1.1.2 信息检索定义 2
1.1.3 信息检索常用术语 3
1.1.4 信息检索系统 4
1.2 分词算法 5
1.2.1 分词算法概述 5
1.2.2 词典匹配分词法 6
1.2.3 语义理解分词法 6
1.2.4 词频统计分词法 7
1.3 倒排索引 7
1.4 布尔检索模型 9
1.5 tf-idf权重计算 11
1.6 向量空间模型 13
1.7 概率检索模型 16
1.7.1 贝叶斯决策理论 17
1.7.2 二值独立模型 18
1.7.3 Okapi BM25模型 20
1.7.4 BM25F模型 20
1.8 本章小结 21
第2章 Lucene开发入门 22
2.1 Lucene概述 22
2.1.1 Lucene简介 22
2.1.2 Lucene特点 22
2.1.3 Lucene架构 23
2.2 Lucene开发准备 25
2.2.1 下载Lucene文件库 25
2.2.2 工程中引入Lucene 26
2.2.3 下载Luke 27
2.2.4 下载IK分词工具 28
2.2.5 工程搭建 29
2.3 Lucene分词详解 30
2.3.1 Lucene分词系统 30
2.3.2 分词器测试 31
2.3.3 IK分词器配置 34
2.3.4 中文分词器对比 36
2.3.5 扩展停用词词典 38
2.3.6 扩展自定义词典 38
2.4 Lucene索引详解 40
2.4.1 Lucene字段类型 40
2.4.2 索引文档示例 41
2.4.3 Luke中查看索引 46
2.4.4 索引的删除 48
2.4.5 索引的更新 49
2.5 Lucene查询详解 50
2.5.1 搜索入门 51
2.5.2 多域搜索(MultiFieldQueryParser) 52
2.5.3 词项搜索(TermQuery) 53
2.5.4 布尔搜索(BooleanQuery) 53
2.5.5 范围搜索(RangeQuery) 54
2.5.6 前缀搜索(PrefixQuery) 55
2.5.7 多关键字搜索(PhraseQuery) 55
2.5.8 模糊搜索(FuzzyQuery) 55
2.5.9 通配符搜索(WildcardQuery) 56
2.6 Lucene查询高亮 56
2.7 Lucene新闻高频词提取 58
2.7.1 问题提出 58
2.7.2 需求分析 58
2.7.3 编程实现 58
2.8 本章小结 61
第3章 Lucene文件检索项目实战 62
3.1 需求分析 62
3.2 架构设计 63
3.3 文本内容抽取 64
3.3.1 Tika简介 64
3.3.2 Tika下载 64
3.3.3 搭建工程 65
3.3.4 内容抽取 66
3.3.5 自动解析 68
3.4 工程搭建 71
3.5 索引文档 72
3.6 查询界面 75
3.7 文件检索 77
3.8 结果展示 80
3.9 本章小结 85
第4章 从Lucene到Elasticsearch 86
4.1 Elasticsearch概述 86
4.1.1 诞生过程 86
4.1.2 流行度分析 88
4.1.3 架构解读 89
4.1.4 优点 89
4.1.5 应用场景 90
4.1.6 核心概念 92
4.1.7 对比RDMS 94
4.1.8 文档结构 94
4.2 安装Elasticsearch 95
4.2.1 安装Java 96
4.2.2 下载Elasticsearch 97
4.2.3 启动Elasticsearch 97
4.2.4 后台运行Elasticsearch 99
4.2.5 关闭Elasticsearch 99
4.2.6 基本配置 100
4.3 中文分词器配置 101
4.3.1 IK分词器安装 101
4.3.2 扩展本地词库 102
4.3.3 配置远程词库 103
4.4 Head插件使用指南 105
4.4.1 Head插件的安装 105
4.4.2 Head插件的使用 107
4.5 REST命令 109
4.5.1 CURL工具 110
4.5.2 Kibana Dev Tools 111
4.6 本章小结 112
第5章 Elasticsearch集群入门 113
5.1 索引管理 113
5.1.1 新建索引 113
5.1.2 更新副本 115
5.1.3 读写权限 115
5.1.4 查看索引 116
5.1.5 删除索引 117
5.1.6 索引的打开与关闭 118
5.1.7 复制索引 118
5.1.8 收缩索引 119
5.1.9 索引别名 120
5.2 文档管理 123
5.2.1 新建文档 123
5.2.2 获取文档 125
5.2.3 更新文档 127
5.2.4 查询更新 129
5.2.5 删除文档 129
5.2.6 查询删除 130
5.2.7 批量操作 130
5.2.8 版本控制 133
5.2.9 路由机制 136
5.3 映射详解 137
5.3.1 映射分类 137
5.3.2 动态映射 138
5.3.3 日期检测 140
5.3.4 静态映射 141
5.3.5 字段类型 142
5.3.6 元字段 156
5.3.7 映射参数 162
5.3.8 映射模板 180
5.4 本章小结 181
· · · · · · (
收起)