本書基礎理論和工程應用相結合,循序漸進地介紹了數(shù)據預處理的基本概念、基礎知識、工具應用和相關案例,包括網絡爬蟲、數(shù)據抽取、數(shù)據清洗、數(shù)據集成、數(shù)據變換、數(shù)據向量化、數(shù)據規(guī)約等知識,書中針對每個知識點,都給出了豐富的教學實例和實現(xiàn)代碼,*后,通過一個新聞文本分類的實際項目講解了數(shù)據預處理技術在實際中的應用。 本書的特點是幾乎涵蓋了數(shù)據預處理的各種常用技術及主流工具應用,示例代碼很豐富,適合于大數(shù)據從業(yè)者、AI技術開發(fā)人員以及高校大數(shù)據專業(yè)的學生使用。