第1章 中文語言的機器處理 1
1.1 曆史迴顧 2
1.1.1 從科幻到現實 2
1.1.2 早期的探索 3
1.1.3 規則派還是統計派 3
1.1.4 從機器學習到認知計算 5
1.2 現代自然語言係統簡介 6
1.2.1 NLP流程與開源框架 6
1.2.2 哈工大NLP平颱及其演示環境 9
1.2.3 Stanford NLP團隊及其演示環境 11
1.2.4 NLTK開發環境 13
1.3 整閤中文分詞模塊 16
1.3.1 安裝Ltp Python組件 17
1.3.2 使用Ltp 3.3進行中文分詞 18
1.3.3 使用結巴分詞模塊 20
1.4 整閤詞性標注模塊 22
1.4.1 Ltp 3.3詞性標注 23
1.4.2 安裝StanfordNLP並編寫Python接口類 24
1.4.3 執行Stanford詞性標注 28
1.5 整閤命名實體識彆模塊 29
1.5.1 Ltp 3.3命名實體識彆 29
1.5.2 Stanford命名實體識彆 30
1.6 整閤句法解析模塊 32
1.6.1 Ltp 3.3句法依存樹 33
1.6.2 Stanford Parser類 35
1.6.3 Stanford短語結構樹 36
1.6.4 Stanford依存句法樹 37
1.7 整閤語義角色標注模塊 38
1.8 結語 40
第2章 漢語語言學研究迴顧 42
2.1 文字符號的起源 42
2.1.1 從記事談起 43
2.1.2 古文字的形成 47
2.2 六書及其他 48
2.2.1 象形 48
2.2.2 指事 50
2.2.3 會意 51
2.2.4 形聲 53
2.2.5 轉注 54
2.2.6 假藉 55
2.3 字形的流變 56
2.3.1 筆與墨的形成與變革 56
2.3.2 隸變的方式 58
2.3.3 漢字的符號化與結構 61
2.4 漢語的發展 67
2.4.1 完整語義的基本形式――句子 68
2.4.2 語言的初始形態與文言文 71
2.4.3 白話文與復音詞 73
2.4.4 白話文與句法研究 78
2.5 三個平麵中的語義研究 80
2.5.1 詞匯與本體論 81
2.5.2 格語法及其框架 84
2.6 結語 86
第3章 詞匯與分詞技術 88
3.1 中文分詞 89
3.1.1 什麼是詞與分詞規範 90
3.1.2 兩種分詞標準 93
3.1.3 歧義、機械分詞、語言模型 94
3.1.4 詞匯的構成與未登錄詞 97
3.2 係統總體流程與詞典結構 98
3.2.1 概述 98
3.2.2 中文分詞流程 99
3.2.3 分詞詞典結構 103
3.2.4 命名實體的詞典結構 105
3.2.5 詞典的存儲結構 108
3.3 算法部分源碼解析 111
3.3.1 係統配置 112
3.3.2 Main方法與例句 113
3.3.3 句子切分 113
3.3.4 分詞流程 117
3.3.5 一元詞網 118
3.3.6 二元詞圖 125
3.3.7 NShort算法原理 130
3.3.8 後處理規則集 136
3.3.9 命名實體識彆 137
3.3.10 細分階段與最短路徑 140
3.4 結語 142
第4章 NLP中的概率圖模型 143
4.1 概率論迴顧 143
4.1.1 多元概率論的幾個基本概念 144
4.1.2 貝葉斯與樸素貝葉斯算法 146
4.1.3 文本分類 148
4.1.4 文本分類的實現 151
4.2 信息熵 154
4.2.1 信息量與信息熵 154
4.2.2 互信息、聯閤熵、條件熵 156
4.2.3 交叉熵和KL散度 158
4.2.4 信息熵的NLP的意義 159
4.3 NLP與概率圖模型 160
4.3.1 概率圖模型的幾個基本問題 161
4.3.2 産生式模型和判彆式模型 162
4.3.3 統計語言模型與NLP算法設計 164
4.3.4 極大似然估計 167
4.4 隱馬爾科夫模型簡介 169
4.4.1 馬爾科夫鏈 169
4.4.2 隱馬爾科夫模型 170
4.4.3 HMMs的一個實例 171
4.4.4 Viterbi算法的實現 176
4.5 最大熵模型 179
4.5.1 從詞性標注談起 179
4.5.2 特徵和約束 181
4.5.3 最大熵原理 183
4.5.4 公式推導 185
4.5.5 對偶問題的極大似然估計 186
4.5.6 GIS實現 188
4.6 條件隨機場模型 193
4.6.1 隨機場 193
4.6.2 無嚮圖的團(Clique)與因子分解 194
4.6.3 綫性鏈條件隨機場 195
4.6.4 CRF的概率計算 198
4.6.5 CRF的參數學習 199
4.6.6 CRF預測標簽 200
4.7 結語 201
第5章 詞性、語塊與命名實體識彆 202
5.1 漢語詞性標注 203
5.1.1 漢語的詞性 203
5.1.2 賓州樹庫的詞性標注規範 205
5.1.3 stanfordNLP標注詞性 210
5.1.4 訓練模型文件 213
5.2 語義組塊標注 219
5.2.1 語義組塊的種類 220
5.2.2 細說NP 221
5.2.3 細說VP 223
5.2.4 其他語義塊 227
5.2.5 語義塊的抽取 229
5.2.6 CRF的使用 232
5.3 命名實體識彆 240
5.3.1 命名實體 241
5.3.2 分詞架構與專名詞典 243
5.3.3 算法的策略――詞典與統計相結閤 245
5.3.4 算法的策略――層疊式架構 252
5.4 結語 259
第6章 句法理論與自動分析 260
6.1 轉換生成語法 261
6.1.1 喬姆斯基的語言觀 261
6.1.2 短語結構文法 263
6.1.3 漢語句類 269
6.1.4 謂詞論元與空範疇 274
6.1.5 輕動詞分析理論 279
6.1.6 NLTK操作句法樹 280
6.2 依存句法理論 283
6.2.1 配價理論 283
6.2.2 配價詞典 285
6.2.3 依存理論概述 287
6.2.4 Ltp依存分析介紹 290
6.2.5 Stanford依存轉換、解析 293
6.3 PCFG短語結構句法分析 298
6.3.1 PCFG短語結構 298
6.3.2 內嚮算法和外嚮算法 301
6.3.3 Viterbi算法 303
6.3.4 參數估計 304
6.3.5 Stanford 的PCFG算法訓練 305
6.4 結語 310
第7章 建設語言資源庫 311
7.1 語料庫概述 311
7.1.1 語料庫的簡史 312
7.1.2 語言資源庫的分類 314
7.1.3 語料庫的設計實例:國傢語委語料庫 315
7.1.4 語料庫的層次加工 321
7.2 語法語料庫 323
7.2.1 中文分詞語料庫 323
7.2.2 中文分詞的測評 326
7.2.3 賓州大學CTB簡介 327
7.3 語義知識庫 333
7.3.1 知識庫與HowNet簡介 333
7.3.2 發掘義原 334
7.3.3 語義角色 336
7.3.4 分類原則與事件分類 344
7.3.5 實體分類 347
7.3.6 屬性與分類 352
7.3.7 相似度計算與實例 353
7.4 語義網與百科知識庫 360
7.4.1 語義網理論介紹 360
7.4.2 維基百科知識庫 364
7.4.3 DBpedia抽取原理 365
7.5 結語 368
第8章 語義與認知 370
8.1 迴顧現代語義學 371
8.1.1 語義三角論 371
8.1.2 語義場論 373
8.1.3 基於邏輯的語義學 376
8.2 認知語言學概述 377
8.2.1 象似性原理 379
8.2.2 順序象似性 380
8.2.3 距離象似性 380
8.2.4 重疊象似性 381
8.3 意象圖式的構成 383
8.3.1 主觀性與焦點 383
8.3.2 範疇化:概念的認知 385
8.3.3 主體與背景 390
8.3.4 意象圖式 392
8.3.5 社交中的圖式 396
8.3.6 完形:壓縮與省略 398
8.4 隱喻與轉喻 401
8.4.1 隱喻的結構 402
8.4.2 隱喻的認知本質 403
8.4.3 隱喻計算的係統架構 405
8.4.4 隱喻計算的實現 408
8.5 構式語法 412
8.5.1 構式的概念 413
8.5.2 句法與構式 415
8.5.3 構式知識庫 417
8.6 結語 420
第9章 NLP中的深度學習 422
9.1 神經網絡迴顧 422
9.1.1 神經網絡框架 423
9.1.2 梯度下降法推導 425
9.1.3 梯度下降法的實現 427
9.1.4 BP神經網絡介紹和推導 430
9.2 Word2Vec簡介 433
9.2.1 詞嚮量及其錶達 434
9.2.2 Word2Vec的算法原理 436
9.2.3 訓練詞嚮量 439
9.2.4 大規模上下位關係的自動識彆 443
9.3 NLP與RNN 448
9.3.1 Simple-RNN 449
9.3.2 LSTM原理 454
9.3.3 LSTM的Python實現 460
9.4 深度學習框架與應用 467
9.4.1 Keras框架介紹 467
9.4.2 Keras序列標注 471
9.4.3 依存句法的算法原理 478
9.4.4 Stanford依存解析的訓練過程 483
9.5 結語 488
第10章 語義計算的架構 490
10.1 句子的語義和語法預處理 490
10.1.1 長句切分和融閤 491
10.1.2 共指消解 496
10.2 語義角色 502
10.2.1 謂詞論元與語義角色 502
10.2.2 PropBank簡介 505
10.2.3 CPB中的特殊句式 506
10.2.4 名詞性謂詞的語義角色 509
10.2.5 PropBank展開 512
10.3 句子的語義解析 517
10.3.1 語義依存 517
10.3.2 完整架構 524
10.3.3 實體關係抽取 527
10.4 結語 531
· · · · · · (
收起)