本書根據現(xiàn)有的大數(shù)據技術理論,綜合介紹了大數(shù)據技術的相關基礎理論知識,并提供了部分實踐操作介紹。本書共8個章節(jié),內容包含大數(shù)據的概念和特征,大數(shù)據計量,大數(shù)據生命周期,大數(shù)據與云計算,Hadoop,HDFS,MapReduce,大數(shù)據編程語言Python、Spark、R語言,數(shù)據預處理,聚類分析,k-鄰近分類算法,數(shù)據可視化,大數(shù)據應用,大數(shù)據安全與威脅,爬蟲技術,MINIST數(shù)字識別技術。本書分別在大數(shù)據采集與預處理、數(shù)據挖掘與分析等重要章節(jié)中安排了入門級的實踐操作內容,以便讀者 好地學習和掌握大數(shù)據關鍵技術。本書可以作為高等院校數(shù)據科學與大數(shù)據等相關專業(yè)的課程教材,亦可作為大數(shù)據愛好者的科普讀物。