本書介紹了基于Python 3的語料庫相關技術與應用,內容主要包括語料自動獲取與語料分析實踐。全書共分為兩篇:理論篇和實踐篇。理論篇中,本書介紹了如何將Python 3應用到語料自動獲取、存儲與讀取、清洗與預處理、語料檢索與分析等典型應用場景。在第四章中還涉及部分自然語言處理的內容,包括情感分析和命名實體識別等。實踐篇中,本書從開發(fā)環(huán)境配置出發(fā),以IMDb為例,闡述了影評語料的自動獲取和基于機器學習的文本分析方法。從語料的獲取到分析的整個流程中,本書希望能夠在理論和實踐上傳達“語言+技術”的理念。