注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)Python自然語(yǔ)言處理實(shí)戰(zhàn):核心技術(shù)與算法

Python自然語(yǔ)言處理實(shí)戰(zhàn):核心技術(shù)與算法

Python自然語(yǔ)言處理實(shí)戰(zhàn):核心技術(shù)與算法

定 價(jià):¥69.00

作 者: 涂銘 劉祥 劉樹春 著
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng): 智能系統(tǒng)與技術(shù)叢書
標(biāo) 簽: 暫缺

ISBN: 9787111597674 出版時(shí)間: 2018-06-01 包裝: 平裝
開本: 16開 頁(yè)數(shù): 281 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  這是一本自然語(yǔ)言處理理論和實(shí)踐完美結(jié)合的教材。讀者在了解自然語(yǔ)言處理全貌的同時(shí),可以根據(jù)本書的一些實(shí)踐案例快速上手并應(yīng)用于自己的項(xiàng)目中。作者結(jié)合自己的實(shí)踐經(jīng)驗(yàn),重點(diǎn)介紹了真實(shí)場(chǎng)景下快速構(gòu)建一些自然語(yǔ)言處理項(xiàng)目所需的技能,并提供了一些工具推薦或算法實(shí)現(xiàn)。本書著眼于實(shí)際應(yīng)用場(chǎng)景,主要介紹了分詞、詞性標(biāo)注和名實(shí)體識(shí)別、句法分析等基本技術(shù),并通過剖析近年來在自然語(yǔ)言處理領(lǐng)域大放光彩的深度學(xué)習(xí)技術(shù),力求快速地帶領(lǐng)讀者入門自然語(yǔ)言處理。作者在后還通過在大數(shù)據(jù)平臺(tái)上的實(shí)戰(zhàn)項(xiàng)目,完整呈現(xiàn)了真實(shí)場(chǎng)景下自然語(yǔ)言處理項(xiàng)目的整個(gè)環(huán)節(jié),以供讀者參考。

作者簡(jiǎn)介

  涂銘:阿里巴巴數(shù)據(jù)架構(gòu)師,對(duì)大數(shù)據(jù)、自然語(yǔ)言處理、Python、Java相關(guān)技術(shù)有深入的研究,積累了豐富的實(shí)踐經(jīng)驗(yàn)。曾就職于北京明略數(shù)據(jù),是大數(shù)據(jù)方面的高級(jí)咨詢顧問。在工業(yè)領(lǐng)域參與了設(shè)備故障診斷項(xiàng)目,在零售行業(yè)參與了精準(zhǔn)營(yíng)銷項(xiàng)目。在自然語(yǔ)言處理方面,擔(dān)任導(dǎo)購(gòu)機(jī)器人項(xiàng)目的架構(gòu)師,主導(dǎo)開發(fā)機(jī)器人的語(yǔ)義理解、短文本相似度匹配、上下文理解,以及通過自然語(yǔ)言檢索產(chǎn)品庫(kù),在項(xiàng)目中構(gòu)建了NoSQL+文本檢索等大數(shù)據(jù)架構(gòu),也同時(shí)負(fù)責(zé)問答對(duì)的整理和商品屬性的提取,帶領(lǐng)NLP團(tuán)隊(duì)構(gòu)建語(yǔ)義解析層。劉祥:百煉智能自然語(yǔ)言處理專家,主要研究知識(shí)圖譜、NLG等前沿技術(shù),參與機(jī)器自動(dòng)寫作產(chǎn)品的研發(fā)與設(shè)計(jì)。曾在明略數(shù)據(jù)擔(dān)當(dāng)數(shù)據(jù)技術(shù)合伙人兼數(shù)據(jù)科學(xué)家,負(fù)責(zé)工業(yè)、金融等業(yè)務(wù)領(lǐng)域的數(shù)據(jù)挖掘工作,在這些領(lǐng)域構(gòu)建了諸如故障診斷、關(guān)聯(lián)賬戶分析、新聞推薦、商品推薦等模型??釔坌录夹g(shù),活躍于開源社區(qū),是Spark MLlib和Zeppelin的Contributor。劉樹春:七牛云高級(jí)算法專家,七牛AI實(shí)驗(yàn)室NLP&OCR方向負(fù)責(zé)人,主要負(fù)責(zé)七牛NLP以及OCR相關(guān)項(xiàng)目的研究與落地。在七牛人工智能實(shí)驗(yàn)室期間,參與大量NLP相關(guān)項(xiàng)目,例如知識(shí)圖譜、問答系統(tǒng)、文本摘要、語(yǔ)音相關(guān)系統(tǒng)等;同時(shí)重點(diǎn)關(guān)注NLP與CV的交叉研究領(lǐng)域,主要有視覺問答(VQA),圖像標(biāo)注(Image Caption)等前沿問題。曾在Intel DCSG數(shù)據(jù)與云計(jì)算部門從事機(jī)器學(xué)習(xí)與云平臺(tái)的融合開發(fā),項(xiàng)目獲得IDF大獎(jiǎng)。碩士就讀于華東師范大學(xué)機(jī)器學(xué)習(xí)實(shí)驗(yàn)室,在校期間主攻機(jī)器學(xué)習(xí),機(jī)器視覺,圖像處理,并在相關(guān)國(guó)際會(huì)議發(fā)表多篇SCI/EI論文。

圖書目錄

目  錄
序一
序二
前言
第1章 NLP基礎(chǔ) 1
1.1 什么是NLP 1
1.1.1 NLP的概念 1
1.1.2 NLP的研究任務(wù) 3
1.2 NLP的發(fā)展歷程 5
1.3 NLP相關(guān)知識(shí)的構(gòu)成 7
1.3.1 基本術(shù)語(yǔ) 7
1.3.2 知識(shí)結(jié)構(gòu) 9
1.4 語(yǔ)料庫(kù) 10
1.5 探討NLP的幾個(gè)層面 11
1.6 NLP與人工智能 13
1.7 本章小結(jié) 15
第2章 NLP前置技術(shù)解析 16
2.1 搭建Python開發(fā)環(huán)境 16
2.1.1 Python的科學(xué)計(jì)算發(fā)行版——Anaconda 17
2.1.2 Anaconda的下載與安裝 19
2.2 正則表達(dá)式在NLP的基本應(yīng)用 21
2.2.1 匹配字符串 22
2.2.2 使用轉(zhuǎn)義符 26
2.2.3 抽取文本中的數(shù)字 26
2.3 Numpy使用詳解 27
2.3.1 創(chuàng)建數(shù)組 28
2.3.2 獲取Numpy中數(shù)組的維度 30
2.3.3 獲取本地?cái)?shù)據(jù) 31
2.3.4 正確讀取數(shù)據(jù) 32
2.3.5 Numpy數(shù)組索引 32
2.3.6 切片 33
2.3.7 數(shù)組比較 33
2.3.8 替代值 34
2.3.9 數(shù)據(jù)類型轉(zhuǎn)換 36
2.3.10 Numpy的統(tǒng)計(jì)計(jì)算方法 36
2.4 本章小結(jié) 37
第3章 中文分詞技術(shù) 38
3.1 中文分詞簡(jiǎn)介 38
3.2 規(guī)則分詞 39
3.2.1 正向最大匹配法 39
3.2.2 逆向最大匹配法 40
3.2.3 雙向最大匹配法 41
3.3 統(tǒng)計(jì)分詞 42
3.3.1 語(yǔ)言模型 43
3.3.2 HMM模型 44
3.3.3 其他統(tǒng)計(jì)分詞算法 52
3.4 混合分詞 52
3.5 中文分詞工具——Jieba 53
3.5.1 Jieba的三種分詞模式 54
3.5.2 實(shí)戰(zhàn)之高頻詞提取 55
3.6 本章小結(jié) 58
第4章 詞性標(biāo)注與命名實(shí)體識(shí)別 59
4.1 詞性標(biāo)注 59
4.1.1 詞性標(biāo)注簡(jiǎn)介 59
4.1.2 詞性標(biāo)注規(guī)范 60
4.1.3 Jieba分詞中的詞性標(biāo)注 61
4.2 命名實(shí)體識(shí)別 63
4.2.1 命名實(shí)體識(shí)別簡(jiǎn)介 63
4.2.2 基于條件隨機(jī)場(chǎng)的命名實(shí)體識(shí)別 65
4.2.3 實(shí)戰(zhàn)一:日期識(shí)別 69
4.2.4 實(shí)戰(zhàn)二:地名識(shí)別 75
4.3 總結(jié) 84
第5章 關(guān)鍵詞提取算法 85
5.1 關(guān)鍵詞提取技術(shù)概述 85
5.2 關(guān)鍵詞提取算法TF/IDF算法 86
5.3 TextRank算法 88
5.4 LSA/LSI/LDA算法 91
5.4.1 LSA/LSI算法 93
5.4.2 LDA算法 94
5.5 實(shí)戰(zhàn)提取文本關(guān)鍵詞 95
5.6 本章小結(jié) 105
第6章 句法分析 106
6.1 句法分析概述 106
6.2 句法分析的數(shù)據(jù)集與評(píng)測(cè)方法 107
6.2.1 句法分析的數(shù)據(jù)集 108
6.2.2 句法分析的評(píng)測(cè)方法 109
6.3 句法分析的常用方法 109
6.3.1 基于PCFG的句法分析 110
6.3.2 基于最大間隔馬爾可夫網(wǎng)絡(luò)的句法分析 112
6.3.3 基于CRF的句法分析 113
6.3.4 基于移進(jìn)–歸約的句法分析模型 113
6.4 使用Stanford Parser的PCFG算法進(jìn)行句法分析 115
6.4.1 Stanford Parser 115
6.4.2 基于PCFG的中文句法分析實(shí)戰(zhàn) 116
6.5 本章小結(jié) 119
第7章 文本向量化 120
7.1 文本向量化概述 120
7.2 向量化算法word2vec 121
7.2.1 神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型 122
7.2.2 C&W模型 124
7.2.3 CBOW模型和Skip-gram模型 125
7.3 向量化算法doc2vec/str2vec 127
7.4 案例:將網(wǎng)頁(yè)文本向量化 129
7.4.1 詞向量的訓(xùn)練 129
7.4.2 段落向量的訓(xùn)練 133
7.4.3 利用word2vec和doc2vec計(jì)算網(wǎng)頁(yè)相似度 134
7.5 本章小結(jié) 139
第8章 情感分析技術(shù) 140
8.1 情感分析的應(yīng)用 141
8.2 情感分析的基本方法 142
8.2.1 詞法分析 143
8.2.2 機(jī)器學(xué)習(xí)方法 144
8.2.3 混合分析 144
8.3 實(shí)戰(zhàn)電影評(píng)論情感分析 145
8.3.1 卷積神經(jīng)網(wǎng)絡(luò) 146
8.3.2 循環(huán)神經(jīng)網(wǎng)絡(luò) 147
8.3.3 長(zhǎng)短時(shí)記憶網(wǎng)絡(luò) 148
8.3.4 載入數(shù)據(jù) 150
8.3.5 輔助函數(shù) 154
8.3.6 模型設(shè)置 155
8.3.7 調(diào)參配置 158
8.3.8 訓(xùn)練過程 159
8.4 本章小結(jié) 159
第9章 NLP中用到的機(jī)器學(xué)習(xí)算法 160
9.1 簡(jiǎn)介 160
9.1.1 機(jī)器學(xué)習(xí)訓(xùn)練的要素 161
9.1.2 機(jī)器學(xué)習(xí)的組成部分 162
9.2 幾種常用的機(jī)器學(xué)習(xí)方法 166
9.2.1 文本分類 166
9.2.2 特征提取 168
9.2.3 標(biāo)注 169
9.2.4 搜索與排序 170
9.2.5 推薦系統(tǒng) 170
9.2.6 序列學(xué)習(xí) 172
9.3 分類器方法 173
9.3.1 樸素貝葉斯Naive Bayesian 173
9.3.2 邏輯回歸 174
9.3.3 支持向量機(jī) 175
9.4 無監(jiān)督學(xué)習(xí)的文本聚類 177
9.5 文本分類實(shí)戰(zhàn):中文垃圾郵件分類 180
9.5.1 實(shí)現(xiàn)代碼 180
9.5.2 評(píng)價(jià)指標(biāo) 187
9.6 文本聚類實(shí)戰(zhàn):用K-means對(duì)豆瓣讀書數(shù)據(jù)聚類 190
9.7 本章小結(jié) 194
第10章 基于深度學(xué)習(xí)的NLP算法 195
10.1 深度學(xué)習(xí)概述 195
10.1.1 神經(jīng)元模型 196
10.1.2 激活函數(shù) 197
10.1.3 感知機(jī)與多層網(wǎng)絡(luò) 198
10.2 神經(jīng)網(wǎng)絡(luò)模型 201
10.3 多輸出層模型 203
10.4 反向傳播算法 204
10.5 最優(yōu)化算法 208
10.5.1 梯度下降 208
10.5.2 隨機(jī)梯度下降 209
10.5.3 批量梯度下降 210
10.6 丟棄法 211
10.7 激活函數(shù) 211
10.7.1 tanh函數(shù) 212
10.7.2 ReLU函數(shù) 212
10.8 實(shí)現(xiàn)BP算法 213
10.9 詞嵌入算法 216
10.9.1 詞向量 217
10.9.2 word2vec簡(jiǎn)介 217
10.9.3 詞向量模型 220
10.9.4 CBOW和Skip-gram模型 222
10.1

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)