第1章Python數據分析與可視化概述
1.1從MATLAB到Python
1.2NumPy
1.3Pandas
1.4Matplotlib
1.5SciPy與SymPy
第2章新生數據分析與可視化
2.1使用Pandas對數據預處理
2.2使用Matplotlib庫畫圖
2.3使用Pandas進行繪圖
第3章Python表格處理分析
3.1背景介紹
3.2前期準備與基本操作
3.2.1基本術語概念說明
3.2.2安裝openpyxl并創(chuàng)建一個工作簿
3.2.3從Excel工作簿中讀取數據
3.2.4迭代訪問數據
3.2.5插入數據
3.3進階內容
3.3.1為Excel表單添加公式
3.3.2為表單添加條件格式
3.3.3為Excel表單添加圖表
3.4數據分析實例
3.4.1背景與前期準備
3.4.2使用openpyxl讀取數據并轉為DataFrame
3.4.3繪制數值列直方圖
3.4.4繪制相關性矩陣
3.4.5繪制散布矩陣
3.4.6將可視化結果插入Excel表格
第4章美國加利福尼亞州房價預測的數據分析
4.1數據的讀入和初步分析
4.1.1數據讀入
4.1.2分割測試集與訓練集
4.1.3數據的初步分析
4.2數據的預處理
4.2.1拆分數據
4.2.2空白值的填充
4.2.3數據標準化
4.2.4數據的流程化處理
4.3模型的構建
4.3.1查看不同模型的表現
4.3.2選擇效果最好的模型進行預測
第5章影評數據分析與電影推薦
5.1明確目標與準備數據
5.2工具選擇
5.3初步分析
5.3.1用戶角度分析
5.3.2電影角度分析
5.4電影推薦
第6章醫(yī)療花費預測
6.1數據讀取
6.2數據預處理
6.2.1字符串類型的轉換
6.2.2數據的分布和映射
6.3數據分析
6.3.1協方差矩陣和熱力圖
6.3.2DBSCAN聚類算法
6.3.3支持向量機分類算法
6.4線性回歸
6.5結果預測
6.6結果分析
第7章用戶消費行為分析
7.1RFM模型簡介
7.2數據讀入
7.3數據清洗和預處理
7.3.1數據清洗
7.3.2數據預處理
7.4RFM統(tǒng)計量計算
7.5RFM歸類
7.6結果保存
7.7可視化結果
第8章用戶流失預警
8.1讀入數據
8.2數據預處理和自變量標準化
8.3五折交叉驗證
8.4代入三種模型
8.5調整prob閾值,輸出精度評估
第9章在Kaggle上預測房價
9.1讀取數據集
9.2預處理數據集
9.3訓練模型
9.4k折交叉驗證
9.5模型選擇和調整
9.6在Kaggle上提交預測結果
第10章世界杯
10.1數據說明
10.2世界杯觀眾
10.3世界杯冠軍
10.4世界杯參賽隊伍與比賽
10.5世界杯進球
第11章股價預測
11.1使用Tsfresh進行升維和特征工程
11.2程序設計思路
11.3程序設計步驟
11.3.1讀入并分析數據
11.3.2移窗
11.3.3升維
11.3.4方差過濾
11.3.5使用AdaBoostRegressor模型進行回歸預測
11.3.6預測結果分析
第12章基于上下文感知的多模態(tài)交通推薦
12.1案例目標
12.2數據說明
12.2.1查詢記錄
12.2.2顯示記錄
12.2.3點擊記錄
12.2.4用戶記錄
12.3解決方案
12.3.1導入工具包和數據
12.3.2特征導入和數據處理
12.3.3模型訓練與結果保存
第13章美國波士頓房價預測
13.1背景介紹
13.2數據清洗
13.3數據分析
13.4分析結果
第14章機器人最優(yōu)路徑走迷宮
14.1關鍵技術
14.1.1馬爾可夫決策過程
14.1.2Bellman方程
14.2程序設計步驟
14.2.1初始化迷宮地圖
14.2.2計算不同位置的最優(yōu)路徑
第15章基于Kmeans算法的鳶尾花數據聚類和可視化
15.1數據及工具簡介
15.1.1Iris數據集(鳶尾花數據集)
15.1.2Tkinter
15.2案例分析
15.2.1模塊引入
15.2.2布局圖形界面
15.2.3讀取數據文件
15.2.4聚類
15.2.5聚類結果可視化
15.2.6誤差分析及其可視化
15.2.7使用流程
第16章利用手機的購物評論分析手機特征
16.1數據準備
16.2數據分析
16.2.1模型介紹
16.2.2算法應用
16.2.3名詞提取
16.2.4情感分析
第17章菜譜分析
17.1數據集介紹
17.2數據觀察
17.2.1數據讀入
17.2.2分布統(tǒng)計
17.3數據預處理
17.3.1英文單詞標準化
17.3.2數據向量化
17.4模型構建
第18章基于回歸問題和XGBoost模型的房價預測
18.1XGBoost模型介紹
18.2技術方案
18.2.1數據分析
18.2.2XGBoost模型參數
18.2.3調參過程
18.3完整代碼及結果展示
第19章基于VGG19和TensorBoard的圖像分類和數據可視化
19.1背景概念介紹
19.1.1VGG19模型
19.1.2TensorBoard
19.1.3CIFAR10數據集
19.2網絡搭建與TensorBoard可視化實戰(zhàn)
19.2.1網絡搭建
19.2.2準備數據并構建網絡實例
19.2.3TensorBoard訓練過程可視化
第20章基于Elasticsearch實現附近小區(qū)信息搜索
20.1Elasticsearch的簡介與安裝
20.1.1Elasticsearch的簡介
20.1.2Elasticsearch的安裝
20.2數據準備
20.2.1網頁分析與信息提取
20.2.2獲取經緯度
20.2.3數據格式轉換
20.3Python實現Elasticsearch基礎操作
20.3.1創(chuàng)建索引和插入數據
20.3.2查詢數據和數據類型
20.3.3刪除相關操作
20.3.4檢索功能
20.4房價地理位置坐標搜索實現
第21章汽車貸款違約的數據分析
21.1數據樣本分析
21.1.1數據樣本概述
21.1.2變量類型分析
21.1.3Python代碼實踐
21.2數據的預處理
21.2.1目標變量探索
21.2.2X變量初步探索
21.2.3連續(xù)變量的缺失值處理
21.2.4分類變量的缺失值處理
21.3數據分析的模型建立與評估
21.3.1數據的預處理與訓練集劃分
21.3.2采用回歸模型進行數據分析
21.3.3采用決策樹進行數據分析
21.3.4采用隨機森林優(yōu)化決策樹模型
第22章基于Spark的搜索引擎日志用戶行為分析
22.1功能需求
22.1.1搜索引擎用戶行為分析的意義
22.1.2搜索引擎日志概述
22.2系統(tǒng)架構
22.2.1用戶搜索流程
22.2.2系統(tǒng)架構設計
22.3功能實現
22.3.1Spark本地運行環(huán)境搭建
22.3.2搜索引擎日志數據獲取
22.3.3分析指標
22.3.4Spark任務提交
第23章科比職業(yè)生涯進球分析
23.1預處理
23.2分析科比的命中率
23.3分析科比的投籃習慣
附錄APyTorch環(huán)境搭建
A.1Linux平臺下PyTorch環(huán)境搭建
A.2Windows平臺下PyTorch環(huán)境搭建
參考文獻