基礎篇
第1章 Hadoop概述 1
1.1 Hadoop簡介 1
1.2 Hadoop相關項目 2
1.3 Hadoop來源 3
1.4 Hadoop的發展史 4
1.5 Hadoop特點 5
1.6 Hadoop體係架構 6
1.6.1 HDFS體係結構 7
1.6.2 MapReduce體係結構 7
本章小結 8
習題 8
第2章 Hadoop基礎環境配置 9
2.1 準備Linux環境 9
2.1.1 安裝VMware12虛擬機 9
2.1.2 部署CentOS 64位操作係統 11
2.2 Linux配置 16
2.2.1 什麼是Linux 16
2.2.2 Linux發行版 16
2.2.3 配置網絡 16
2.2.4 Linux終端 17
2.3 Hadoop環境搭建 21
2.3.1 JDK安裝和測試 21
2.3.2 Hadoop安裝和配置 25
2.3.3 SSH免密碼配置 31
本章小結 33
習題 34
第3章 分布式存儲HDFS 35
3.1 HDFS概念 35
3.1.1 HDFS簡介 35
3.1.2 HDFS設計思路和理念 35
3.2 HDFS體係結構 36
3.3 HDFS文件存儲機製 36
3.4 HDFS Shell介紹 39
3.4.1 命令格式 39
3.4.2 HDFS用戶命令 40
3.4.3 HDFS管理員命令 40
3.5 Hadoop項目創建 47
3.6 RPC通信原理 53
3.6.1 什麼是Hadoop的RPC 53
3.6.2 RPC采用的模式 53
3.7 分布式文件係統操作類 59
本章小結 69
習題 69
第4章 計算係統MapReduce 70
4.1 MapReduce概念 70
4.1.1 MapReduce簡介 70
4.1.2 MapReduce 數據類型與格式 71
4.1.3 數據類型Writable接口 71
4.1.4 Hadoop序列化機製 72
4.2 MapReduce架構 72
4.2.1 數據分片 72
4.2.2 MapReduce執行過程 73
4.2.3 Mapper執行過程 73
4.2.4 Reducer執行過程 74
4.2.5 Shuffle過程 75
4.3 第一個MapReduce案例 75
4.4 MapReduce接口類 79
4.4.1 MapReduce輸入的處理類 79
4.4.2 MapReduce輸齣的處理類 80
本章小結 87
習題 87
第5章 計算模型Yarn 88
5.1 Yarn概述 88
5.1.1 Yarn簡介 88
5.1.2 Yarn的組成 89
5.2 Yarn的執行過程 89
5.3 新舊MapReduce的對比 90
本章小結 101
習題 101
第6章 數據雲盤 102
6.1 項目概述 102
6.2 功能需求 102
6.3 軟件開發需求 102
6.4 效果展示 103
6.5 係統開發 104
本章小結 125
習題 125
提高篇
第7章 協調係統Zookeeper 126
7.1 Zookeeper概述 126
7.1.1 Zookeeper簡介 126
7.1.2 Zookeeper數據模型 127
7.1.3 Zookeeper特徵 127
7.1.4 Zookeeper工作原理 128
7.2 Zookeeper術語 129
7.2.1 節點 129
7.2.2 角色 129
7.2.3 順序號 129
7.2.4 觀察 129
7.2.5 Leader選舉 129
7.3 事件 130
7.4 Zookeeper Shell操作 130
7.4.1 Zookeeper服務命令 130
7.4.2 Zookeeper客戶端命令 134
7.5 Zookeeper API操作 137
本章小結 156
習題 156
第8章 Hadoop數據庫Hbase 157
8.1 Hbase概述 157
8.1.1 Hbase簡介 157
8.1.2 Hbase優勢和特點 158
8.1.3 Hbase專業術語 158
8.2 Hbase架構 158
8.2.1 角色 159
8.2.2 Hbase物理存儲和邏輯視圖 160
8.3 Hbase Shell操作 163
8.4 Hbase API操作 168
8.5 Hbase 過濾器 182
8.5.1 過濾器的含義 182
8.5.2 過濾器的比較操作符 182
8.5.3 過濾器的比較器 183
本章小結 193
習題 193
第9章 Hadoop數據倉庫Hive 194
9.1 Hive概述 194
9.1.1 Hive簡介 194
9.1.2 Hive數據類型 194
9.1.3 Hive Metastore 195
9.1.4 Hive存儲和壓縮 195
9.1.5 Hive與傳統數據庫對比 195
9.2 Hive的係統架構 196
9.3 Hive的數據模型 200
9.3.1 內部錶 200
9.3.2 外部錶 200
9.3.3 分區錶 201
9.3.4 桶錶 201
9.4 Hive Shell操作 201
9.5 Hive API操作 208
9.6 Hive內置函數和UDF 215
9.6.1 內置函數 215
9.6.2 UDF函數 215
本章小結 222
習題 222
第10章 Hadoop數據采集Flume 223
10.1 Flume概述 223
10.1.1 Flume簡介 223
10.1.2 Flume核心概念 223
10.1.3 Flume 係統要求 224
10.2 Flume架構 224
10.3 Flume常見操作命令 225
10.4 Flume環境搭建 226
10.4.1 設置一個Agent 226
10.4.2 啓動Agent 226
本章小結 231
習題 231
第11章 OTA離綫數據分析平颱 232
11.1 項目概述 232
11.2 功能需求 233
11.3 軟件開發關鍵技術 233
11.4 效果展示 233
11.5 平颱搭建與測試 233
11.5.1 配置ssh免密碼登錄 233
11.5.2 配置JDK 234
11.5.3 配置Hadoop 236
11.5.4 配置Hive 242
11.6 數據收集 247
11.6.1 解壓Flume 247
11.6.2 修改配置文件 248
11.6.3 啓動Flume 248
11.6.4 校驗數據 248
11.7 數據分析 249
11.7.1 數據清洗 249
11.7.2 ETL編程 256
11.7.3 業務分析 261
11.7.4 配置Sqoop 264
11.7.5 從HDFS導齣數據至MySQL 267
11.8 數據展示 268
11.8.1 搭建Web開發環境 268
11.8.2 添加代碼 272
11.8.3 項目結構 282
11.8.4 啓動Tomcat 283
11.8.5 訪問Web頁麵 283
本章小結 283
習題 284
· · · · · · (
收起)