圖書標籤: 自然語言處理 NLP 人工智能 計算語言學 計算機 數據挖掘 計算機科學 自然語言理解
发表于2024-11-22
自然語言處理綜論 pdf epub mobi txt 電子書 下載 2024
本書是一本全麵係統地講述計算機自然語言處理的優秀教材。本書英文版齣版之後好評如潮,國外許多著名大學紛紛把本書選為自然語言處理和計算語言學課程的主要教材,該書被譽為該領域教材的“黃金標準”。本書包含的內容十分豐富,分為四個部分,共21章,深入細緻地探討瞭計算機處理自然語言的詞匯、句法、語義、語用等各個方麵的問題,介紹瞭自然語言處理的各種現代技術。從層次的角度看,本書的論述是按照自然語言的不同層麵逐步展開的,首先論述單詞的自動形態分析,接著論述自動句法分析,然後論述各種語言單位的自動語義分析,最後論述連貫文本的自動分析、對話與會話的智能代理以及自然語言生成。從技術的角度看,本書介紹瞭正則錶達式、有限狀態自動機、文本-語音轉換、發音與拼寫的概率模型、詞類自動標注、N元語法、隱馬爾可夫模型、上下文無關語法、特徵與閤一、詞匯化剖析與概率剖析、一階謂詞演算、詞義排歧、修辭結構理論、機器翻譯等非常廣泛的內容。本書具有“覆蓋全麵、注重實用、強調評測、語料為本”四大特色。在本書的配套網站上,還提供瞭相關的資源和工具,便於讀者在實踐中進一步提高。
-------
目錄
第1章 導論
1.1 語音與語言處理中的知識
1.2 歧義
1.3 模型和算法
1.4 語言. 思維和理解
1.5 學科現狀與近期發展
1.6 語音和語言處理簡史
1.6.1 基礎研究:20世紀40年代和20世紀50年代
1.6.2 兩個陣營:1957年至1970年
1.6.3 四個範型:1970年至1983年
1.6.4 經驗主義和有限狀態模型的復蘇:1983年至1993年
1.6.5 不同領域的閤流:1994年至1999年
1.6.6 多重發現
1.6.7 心理學的簡要注記
1.7 小結
1.8 文獻和曆史說明
第一部分 詞匯的計算機處理
第2章 正則錶達式與自動機
2.1 正則錶達式
2.1.1 基本正則錶達式模式
2.1.2 析取. 組閤與優先關係
2.1.3 一個簡單的例子
2.1.4 一個比較復雜的例子
2.1.5 高級算符
2.1.6 正則錶達式中的替換. 存儲器與ELIZA
2.2 有限狀態自動機
2.2.1 用FSA來識彆羊的語言
2.2.2 形式語言
2.2.3 另外的例子
2.2.4 非確定FSA
2.2.5 使用NFSA接收符號串
2.2.6 識彆就是搜索
2.2.7 確定自動機與非確定自動機的關係
2.3 正則語言與FSA
2.4 小結
2.5 文獻和曆史說明
第3章 形態學與有限狀態轉錄機
3.1 英語形態學概觀
3.1.1 屈摺形態學
3.1.2 派生形態學
3.2 有限狀態形態剖析
3.2.1 詞錶和形態順序規則
3.2.2 用有限狀態轉錄機進行形態剖析
3.2.3 正詞法規則和有限狀態轉錄機
3.3 把FST詞錶與規則相結閤
3.4 與詞錶無關的FST:PORTER詞乾處理器
3.5 人是怎樣進行形態處理的
3.6 小結
3.7 文獻和曆史說明
第4章 計算音係學與文本-語音轉換
4.1 言語語音與語音標音法
4.1.1 發音器官
4.1.2 輔音:發音部位
4.1.3 輔音:發音方法
4.1.4 元音
4.1.5 音節
4.2 音位和音位規則
4.3 音位規則和轉錄機
4.4 計算音係學中的一些高級問題
4.4.1 元音和諧
4.4.2 模闆式形態學
4.4.3 優選理論
4.5 音位規則的機器學習
4.6 TTS中從文本映射到語音
4.6.1 發音詞典
4.6.2 詞典之外的查找:文本分析
4.6.3 基於有限狀態轉錄機(FST)的發音詞典
4.7 文本-語音轉換中的韻律
4.7.1 韻律的音係學性質
4.7.2 韻律的語音和聲學性質
4.7.3 語音閤成中的韻律
4.8 人處理音位和形態的過程
4.9 小結
4.10 文獻和曆史說明
第5章 發音與拼寫的概率模型
5.1 關於拼寫錯誤
5.2 拼寫錯誤模式
5.3 非詞錯誤的檢查
5.4 概率模型
5.5 把貝葉斯方法應用於拼寫
5.6 最小編輯距離
5.7 英語的發音變異
5.8 發音問題研究中的貝葉斯方法
5.8.1 發音變異的決策樹模型
5.9 加權自動機
5.9.1 從加權自動機計算似然度:嚮前算法
5.9.2 解碼:Viterbi算法
5.9.3 加權自動機和切分
5.9.4 用切分來進行詞錶的自動歸納
5.10 人類發音研究
5.11 小結
5.12 文獻和曆史說明
第6章 N元語法
6.1 語料庫中單詞數目的計算
6.2 簡單的(非平滑的)N元語法
6.2.1 N元語法及其對訓練語料庫的敏感性
6.3 平滑
6.3.1 加1平滑
6.3.2 Witten-Bell打摺法
6.3.3 Good-Turing打摺法
6.4 迴退
6.4.1 迴退與打摺相結閤
6.5 刪除插值法
6.6 拼寫和發音的N元語法
6.6.1 上下文有關的錯拼更正
6.6.2 發音模型的N元語法
6.7 熵
6.7.1 用於比較模型的交叉熵
6.7.2 英語的熵
6.8 小結
6.9 文獻和曆史說明
第7章 HMM與語音識彆
7.1 語音識彆的總體結構
7.2 隱馬爾可夫模型概述
7.3 再談Viterbi算法
7.4 先進的解碼方法
7.4.1 A*解碼算法
7.5 語音的聲學處理
7.5.1 聲波
7.5.2 怎樣解釋波形
7.5.3 聲譜
7.5.4 特徵抽取
7.6 聲學概率的計算
7.7 語音識彆係統的訓練
7.8 用於語音閤成的波形生成
7.8.1 音高和音延的修正
7.8.2 單元選擇
7.9 人的語音識彆
7.10 小結
7.11 文獻和曆史說明
第二部分 句法的計算機處理
第8章 詞的分類與詞類標注
8.1 大多數英語詞的分類
8.2 英語的標記集
8.3 詞類標注
8.4 基於規則的詞類標注
8.5 隨機詞類標注
8.5.1 說明問題的一個例子
8.5.2 實際的HMM標注算法
8.6 基於轉換的標注
8.6.1 怎樣應用TBL規則
8.6.2 怎樣學習TBL規則
8.7 其他問題
8.7.1 多重標記和多項詞
8.7.2 未知詞
8.7.3 基於類的N元語法
8.8 小結
8.9 文獻和曆史說明
第9章 英語的上下文無關語法
9.1 組成性
9.2 上下文無關規則和樹
9.3 句子級的結構
9.4 名詞短語
9.4.1 在中心名詞前的成分
9.4.2 名詞後的成分
9.5 並列關係
9.6 一緻關係
9.7 動詞短語和次範疇化
9.8 助動詞
9.9 口語的句法
9.9.1 不流暢現象
9.10 語法等價與範式
9.11 有限狀態語法和上下文無關語法
9.12 語法和人的語言處理
9.13 小結
9.14 文獻和曆史說明
第10章 基於上下文無關語法的剖析
10.1 剖析就是搜索
10.1.1 自頂嚮下剖析
10.1.2 自底嚮上剖析
10.1.3 自頂嚮下剖析與自底嚮上剖析的對比
10.2 基本的自頂嚮下剖析
10.2.1 增加自底嚮上過濾
10.3 基本的自頂嚮下剖析的問題
10.3.1 左遞歸
10.3.2 歧義
10.3.3 子樹的重復剖析
10.4 Earley算法
10.4.1 預測
10.4.2 掃描
10.4.3 完成
10.4.4 示例
10.4.5 從綫圖中檢索剖析樹
10.5 有限狀態剖析方法
10.6 小結
10.7 文獻和曆史說明
第11章 特徵與閤一
11.1 特徵結構
11.2 特徵結構的閤一
11.3 語法中的特徵結構
11.3.1 一緻關係
11.3.2 中心語特徵
11.3.3 次範疇化
11.3.4 其他詞類的次範疇化
11.3.5 長距離依存關係
11.4 閤一的實現
11.4.1 閤一的數據結構
11.4.2 閤一算法
11.5 帶有閤一約束的剖析
11.5.1 把閤一結閤到Earley剖析器中
11.5.2 復製的必要性
11.5.3 閤一剖析
11.6 類型與繼承
11.6.1 類型的擴充
11.6.2 閤一的其他擴充
11.7 小結
11.8 文獻和曆史說明
第12章 詞匯化剖析與概率剖析
12.1 概率上下文無關語法
12.1.1 PCFG的概率CYK剖析
12.1.2 PCFG概率的學習
12.2 PCFG的問題
12.3 概率詞匯化的CFG
12.4 依存語法
12.4.1 範疇語法
12.5 人的剖析
12.6 小結
12.7 文獻和曆史說明
第13章 語言的復雜性
13.1 Chomsky層級
13.2 怎麼判斷一種語言不是正則的
13.2.1 抽吸引理
13.2.2 英語和其他自然語言是正則語言嗎
13.3 自然語言是上下文無關的嗎
13.4 計算復雜性和人的語言處理
13.5 小結
13.6 文獻和曆史說明
第三部分 語義的計算機處理
第14章 意義的錶示法
14.1 意義錶示的計算要求
14.1.1 可能性驗證
14.1.2 無歧義錶示
14.1.3 規範形式
14.1.4 推論與變元
14.1.5 錶達能力
14.2 語言的意義結構
14.2.1 謂詞論元結構
14.3 一階謂詞演算
14.3.1 FOPC基礎
14.3.2 FOPC的語義
14.3.3 變量和邏輯量詞
14.3.4 推論
14.4 某些與語言學相關的概念
14.4.1 範疇
14.4.2 事件
14.4.3 時間錶示
14.4.4 體
14.4.5 信念錶示
14.4.6 缺陷
14.5 有關的錶示方法
14.6 意義的其他錶示方法
14.6.1 作為行動的意義
14.6.2 作為真值的意義
14.7 小結
14.8 文獻和曆史說明
第15章 語義分析
15.1 句法驅動的語義分析
15.1.1 給上下文無關語法規則擴充語義
15.1.2 量詞轄域和復雜項的轉譯
15.2 給英語片斷附加語義分析
15.2.1 句子
15.2.2 名詞短語
15.2.3 動詞短語
15.2.4 介詞短語
15.3 把語義分析結閤到Earley剖析中
15.4 慣用語和組成性
15.5 魯棒的語義分析
15.5.1 語義語法
15.5.2 信息抽取
15.6 小結
15.7 文獻和曆史說明
第16章 詞匯語義學
16.1 詞位及其涵義之間的關係
16.1.1 同形關係
16.1.2 多義關係
16.1.3 同義關係
16.1.4 上下位關係
16.2 WORDNET:詞匯關係信息庫
16.3 詞的內在結構
16.3.1 題元角色
16.3.2 選擇限製
16.3.3 基元分解
16.3.4 語義場
16.4 語言的創造性與詞典
16.4.1 隱喻
16.4.2 換喻
16.4.3 隱喻和換喻的計算方法
16.5 小結
16.6 文獻和曆史說明
第17章 詞義排歧與信息檢索
17.1 基於選擇限製的排歧
17.1.1 選擇限製的局限性
17.2 魯棒的詞義排歧
17.2.1 機器學習方法
17.2.2 基於詞典的方法
17.3 信息檢索
17.3.1 嚮量空間模型
17.3.2 檢索詞加權
17.3.3 檢索詞的選擇和創造
17.3.4 同形關係. 多義關係和同義關係
17.3.5 改進用戶的查詢條件
17.4 信息檢索的其他任務
17.5 小結
17.6 文獻和曆史說明
第四部分 語用的計算機處理
第18章 話語
18.1 所指判定
18.1.1 所指現象
18.1.2 同指的句法和語義約束
18.1.3 代詞解釋中的優先關係
18.1.4 代詞判定算法
18.2 文本的連貫
18.2.1 現象
18.2.2 基於推理的判定算法
18.3 話語結構
18.4 所指和連貫的心理語言學研究
18.5 小結
18.6 文獻和曆史說明
第19章 對話與會話智能代理
19.1 什麼使對話齣現差彆
19.1.1 話輪和話段
19.1.2 對話的共同基礎
19.1.3 會話隱涵
19.2 對話行為
19.3 對話行為的自動解釋
19.3.1 對話行為的計劃推理解釋
19.3.2 對話行為的基於提示的解釋
19.3.3 要點
19.4 對話結構與連貫性
19.5 會話智能代理中的對話管理
19.6 小結
19.7 文獻和曆史說明
第20章 自然語言生成
20.1 語言生成導引
20.2 生成的體係結構
20.3 錶層實現
20.3.1 係統語法
20.3.2 功能閤一語法
20.3.3 要點
20.4 話語規劃
20.4.1 文本說明圖
20.4.2 修辭關係
20.4.3 小結
20.5 其他問題
20.5.1 微規劃
20.5.2 詞匯選擇
20.5.3 生成係統評價
20.5.4 語音生成
20.6 小結
20.7 文獻和曆史說明
第21章 機器翻譯
21.1 語言的相似性和差異性
21.2 轉換模型
21.2.1 句法轉換
21.2.2 詞匯轉換
21.3 中間語的思想:使用意義
21.4 直接轉換
21.5 使用統計技術
21.5.1 流暢性的量化
21.5.2 忠實性的量化
21.5.3 輸齣的搜索
21.6 可用性與係統開發
21.7 小結
21.8 文獻和曆史說明
附錄A 正則錶達式的算符
附錄B PORTER STEMMING算法
附錄C 標記集C5和C7
附錄D HMM模型的訓練:嚮前-嚮後算法
參考文獻
術語錶
Daniel Jurafsky
在美國加利福尼亞大學獲計算機科學博士學位, 現於美國科羅拉多大學語言學係和計算機科學係任教, 並在認知科學研究所工作, 主要研究方嚮為語言的概率模型和語音信息處理. 由於他在語音和語言處理方麵的成就, 於1997年獲美國NSF職業奬.
James H.Martin
在美國加利福尼亞大學獲計算機科學博士學位, 現任職於美國科羅拉多大學計算機科學係和認知科學研究所, 主要研究方嚮為計算語義學. 機器學習和信息檢索.
馮誌偉國傢教育部語言文字應用研究所研究員. 博士生導師. 先後在北京大學和中國科學技術大學獲雙碩士位, 在語音和語言的計算機處理領域具有多年的研究經驗, 曾在多個國傢參與研究和教學工作, 主要研究方嚮為自然語言處理. 計算語言學和機器翻譯, 主要著作有《自然語言的計算機處理》和《數理語言學》等18部。
好書,翻譯還行,看瞭HMM和Viterbi算法,對NLP有個大體的瞭解瞭。
評分內容非常全麵
評分後麵看得太纍
評分好書,翻譯還行,看瞭HMM和Viterbi算法,對NLP有個大體的瞭解瞭。
評分內容好多,條理清楚,覆蓋麵也灰常廣,不過對"規則"的內容很多所以就大體翻翻瞭。處理自然語言真的很難啊!
开篇第一句话:“在Stanley Kubrick的2001年的电影《太空奥德赛》中,有一台称为HAL的9000计算机。” 据说这一版翻译的还可以,但是第一句话就能把人晕翻了。如果译者当时把译文多给几个人看一下也不会出现这种低级错误。 重新翻一下:“在斯坦利库布里克的电影《2001太空漫游...
評分这本书的深度和宽度控制得当,适合对计算语言学和NLP各个领域都有初步的认识。来自CU Boulder的作者的组是VerbNet, Propbank和FrameNet整合者。 对于新入门的NLPer, 请务必到作者的个人主页看第三版! https://web.stanford.edu/~jurafsky/slp3/ 它大幅删减了对目前NLP意义没那...
評分一本不错的NLP教科书。这里有一篇书评,是评论此书和一本德语的计算语言学教科书的。各位如有兴趣可看看。http://lingviko.net/clcomp.pdf
評分书确实介绍了自然语言处理的方方面面,但是我个人读这本书却觉得非常的难受,不吐不快。 按理说这本书应该是可以面向初学者,当做教材使用的。而且这本书确实也是我们自然语言处理课程老师推荐的阅读教材。然而读起来我却觉得特别的难。 倒不是这本书的内容有多么的艰深,事实...
評分开篇第一句话:“在Stanley Kubrick的2001年的电影《太空奥德赛》中,有一台称为HAL的9000计算机。” 据说这一版翻译的还可以,但是第一句话就能把人晕翻了。如果译者当时把译文多给几个人看一下也不会出现这种低级错误。 重新翻一下:“在斯坦利库布里克的电影《2001太空漫游...
自然語言處理綜論 pdf epub mobi txt 電子書 下載 2024