• <nobr id="f0pst"></nobr>
  • <ins id="f0pst"><div id="f0pst"><rt id="f0pst"></rt></div></ins>
    <ins id="f0pst"></ins>
    <small id="f0pst"></small>
    注冊 | 登錄讀書好,好讀書,讀好書!
    讀書網(wǎng)-DuShu.com
    當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡(luò)數(shù)據(jù)庫Pandas數(shù)據(jù)分析

    Pandas數(shù)據(jù)分析

    Pandas數(shù)據(jù)分析

    定 價:¥169.00

    作 者: [美]斯蒂芬妮·莫林 著,李強 譯
    出版社: 清華大學出版社
    叢編項:
    標 簽: 暫缺

    購買這本書可以去


    ISBN: 9787302631354 出版時間: 2023-06-01 包裝: 平裝-膠訂
    開本: 16開 頁數(shù): 字數(shù):  

    內(nèi)容簡介

      《Pandas數(shù)據(jù)分析》詳細闡述了與Pandas數(shù)據(jù)分析相關(guān)的基本解決方案,主要包括數(shù)據(jù)分析導論、使用Pandas DataFrame、使用Pandas進行數(shù)據(jù)整理、聚合Pandas DataFrame、使用Pandas和Matplotlib可視化數(shù)據(jù)、使用Seaborn和自定義技術(shù)繪圖、金融分析、基于規(guī)則的異常檢測、Python機器學習入門、做出更好的預測、機器學習異常檢測等內(nèi)容。此外,本書還提供了相應(yīng)的示例、代碼,以幫助讀者進一步理解相關(guān)方案的實現(xiàn)過程。 本書適合作為高等院校計算機及相關(guān)專業(yè)的教材和教學參考書,也可作為相關(guān)開發(fā)人員的自學用書和參考手冊。

    作者簡介

      斯蒂芬妮·莫林是紐約彭博有限合伙企業(yè)(Bloomberg LP)的數(shù)據(jù)科學家和軟件工程師,負責解決信息安全方面的棘手問題,特別是圍繞異常檢測、構(gòu)建數(shù)據(jù)收集工具和知識共享等方面的工作。她在數(shù)據(jù)科學、設(shè)計異常檢測解決方案以及在廣告技術(shù)(AdTech)和金融科技(FinTech)行業(yè)中利用R和Python的機器學習方面擁有豐富的經(jīng)驗。她擁有哥倫比亞大學傅氏基金工程和應(yīng)用科學學院運籌學學士學位,輔修經(jīng)濟學、創(chuàng)業(yè)與創(chuàng)新。在閑暇時間,她喜歡環(huán)游世界、發(fā)明新食譜、學習人與計算機之間使用的新語言。

    圖書目錄

    第1篇  Pandas入門
    第1章  數(shù)據(jù)分析導論 3
    1.1  章節(jié)材料 3
    1.2  數(shù)據(jù)分析基礎(chǔ)知識 5
    1.2.1  數(shù)據(jù)收集 6
    1.2.2  數(shù)據(jù)整理 7
    1.2.3  探索性數(shù)據(jù)分析 8
    1.2.4  得出結(jié)論 9
    1.3  統(tǒng)計基礎(chǔ)知識 10
    1.3.1  采樣 11
    1.3.2  描述性統(tǒng)計 12
    1.3.3  集中趨勢的度量 12
    1.3.4  均值 12
    1.3.5  中位數(shù) 13
    1.3.6  眾數(shù) 13
    1.3.7  數(shù)據(jù)散布的度量 14
    1.3.8  全距 14
    1.3.9  方差 15
    1.3.10  標準差 15
    1.3.11  變異系數(shù) 16
    1.3.12  四分位距 17
    1.3.13  四分位離散系數(shù) 17
    1.3.14  匯總數(shù)據(jù) 18
    1.3.15  常見分布 22
    1.3.16  縮放數(shù)據(jù) 24
    1.3.17  量化變量之間的關(guān)系 25
    1.3.18  匯總統(tǒng)計的陷阱 27
    1.3.19  預測 28
    1.3.20  推論統(tǒng)計 32
    1.4  設(shè)置虛擬環(huán)境 35
    1.4.1  虛擬環(huán)境 35
    1.4.2  使用venv 36
    1.4.3  Windows中的操作 37
    1.4.4  Linux/macOS中的操作 37
    1.4.5  使用conda 38
    1.4.6  安裝所需的Python包 40
    1.4.7  關(guān)于Pandas 40
    1.4.8  Jupyter Notebook 41
    1.4.9  啟動JupyterLab 41
    1.4.10  驗證虛擬環(huán)境 43
    1.4.11  關(guān)閉JupyterLab 45
    1.5  小結(jié) 45
    1.6  練習 46
    1.7  延伸閱讀 47
    第2章  使用Pandas DataFrame 49
    2.1  章節(jié)材料 49
    2.2  Pandas數(shù)據(jù)結(jié)構(gòu) 50
    2.2.1  Series 55
    2.2.2  Index 56
    2.2.3  DataFrame 57
    2.3  創(chuàng)建Pandas DataFrame 60
    2.3.1  從Python對象中創(chuàng)建DataFrame 61
    2.3.2  從文件中創(chuàng)建DataFrame 65
    2.3.3  從數(shù)據(jù)庫中創(chuàng)建DataFrame 69
    2.3.4  從API中獲取數(shù)據(jù)以創(chuàng)建DataFrame 71
    2.4  檢查DataFrame對象 74
    2.4.1  檢查數(shù)據(jù) 74
    2.4.2  描述數(shù)據(jù) 77
    2.5  抓取數(shù)據(jù)的子集 80
    2.5.1  選擇列 81
    2.5.2  切片 84
    2.5.3  索引 86
    2.5.4  過濾 88
    2.6  添加和刪除數(shù)據(jù) 95
    2.6.1  創(chuàng)建新數(shù)據(jù) 96
    2.6.2  刪除不需要的數(shù)據(jù) 104
    2.7  小結(jié) 106
    2.8  練習 107
    2.9  延伸閱讀 107
    第2篇  使用Pandas進行數(shù)據(jù)分析
    第3章  使用Pandas進行數(shù)據(jù)整理 111
    3.1  章節(jié)材料 112
    3.2  關(guān)于數(shù)據(jù)整理 113
    3.2.1  數(shù)據(jù)清洗 114
    3.2.2  數(shù)據(jù)轉(zhuǎn)換 114
    3.2.3  寬數(shù)據(jù)格式 116
    3.2.4  長數(shù)據(jù)格式 118
    3.2.5  數(shù)據(jù)充實 121
    3.3  探索API以查找和收集溫度數(shù)據(jù) 122
    3.4  清洗數(shù)據(jù) 132
    3.4.1  重命名列 133
    3.4.2  類型轉(zhuǎn)換 134
    3.4.3  按值排序 140
    3.4.4  索引排序 143
    3.4.5  設(shè)置索引 144
    3.4.6  重置索引 145
    3.4.7  重新索引 146
    3.5  重塑數(shù)據(jù) 153
    3.5.1  轉(zhuǎn)置DataFrame 155
    3.5.2  旋轉(zhuǎn)DataFrame 155
    3.5.3  融合DataFrame 161
    3.6  處理重復、缺失或無效的數(shù)據(jù) 164
    3.6.1  查找有問題的數(shù)據(jù) 164
    3.6.2  處理潛在的問題 171
    3.7  小結(jié) 180
    3.8  練習 180
    3.9  延伸閱讀 182
    第4章  聚合Pandas DataFrame 183
    4.1  章節(jié)材料 183
    4.2  在DataFrame上執(zhí)行數(shù)據(jù)庫風格的操作 185
    4.2.1  查詢DataFrame 186
    4.2.2  合并DataFrame 187
    4.3  使用DataFrame操作充實數(shù)據(jù) 197
    4.3.1  算術(shù)和統(tǒng)計 198
    4.3.2  分箱 200
    4.3.3  應(yīng)用函數(shù) 205
    4.3.4  窗口計算 207
    4.3.5  滾動窗口 207
    4.3.6  擴展窗口 210
    4.3.7  指數(shù)加權(quán)移動窗口 211
    4.3.8  管道 212
    4.4  聚合數(shù)據(jù) 215
    4.4.1  匯總DataFrame 217
    4.4.2  按組聚合 218
    4.4.3  數(shù)據(jù)透視表和交叉表 224
    4.5  處理時間序列數(shù)據(jù) 227
    4.5.1  基于日期選擇和過濾數(shù)據(jù) 228
    4.5.2  基于時間選擇和過濾數(shù)據(jù) 230
    4.5.3  移動滯后數(shù)據(jù) 234
    4.5.4  差分數(shù)據(jù) 235
    4.5.5  重采樣 236
    4.5.6  合并時間序列 240
    4.6  小結(jié) 242
    4.7  練習 243
    4.8  延伸閱讀 245
    第5章  使用Pandas和Matplotlib可視化數(shù)據(jù) 247
    5.1  章節(jié)材料 247
    5.2  Matplotlib簡介 249
    5.2.1  基礎(chǔ)知識 249
    5.2.2  繪圖組件 255
    5.2.3  其他選項 258
    5.3  使用Pandas繪圖 260
    5.3.1  隨時間演變 262
    5.3.2  變量之間的關(guān)系 269
    5.3.3  分布 275
    5.3.4  計數(shù)和頻率 283
    5.4  pandas.plotting模塊 291
    5.4.1  散點圖矩陣 291
    5.4.2  滯后圖 294
    5.4.3  自相關(guān)圖 296
    5.4.4  自舉圖 297
    5.5  小結(jié) 298
    5.6  練習 299
    5.7  延伸閱讀 299
    第6章  使用Seaborn和自定義技術(shù)繪圖 301
    6.1  章節(jié)材料 301
    6.2  使用Seaborn進行高級繪圖 303
    6.2.1  分類數(shù)據(jù) 304
    6.2.2  相關(guān)性和熱圖 308
    6.2.3  回歸圖 317
    6.2.4  分面 321
    6.3  使用Matplotlib格式化繪圖 323
    6.3.1  標題和標簽 323
    6.3.2  圖例 326
    6.3.3  格式化軸 329
    6.4  自定義可視化 336
    6.4.1  添加參考線 336
    6.4.2  區(qū)域著色 341
    6.4.3  注解 344
    6.4.4  顏色 346
    6.4.5  顏色表 348
    6.4.6  條件著色 355
    6.4.7  紋理 357
    6.5  小結(jié) 360
    6.6  練習 360
    6.7  延伸閱讀 361
    第3篇  使用Pandas進行實際應(yīng)用分析
    第7章  金融分析 365
    7.1  章節(jié)材料 366
    7.2  構(gòu)建Python包 367
    7.2.1  封裝結(jié)構(gòu) 368
    7.2.2  stock_analysis包概述 369
    7.2.3  UML圖 371
    7.3  收集金融數(shù)據(jù) 372
    7.3.1  StockReader類 373
    7.3.2  從Yahoo!Finance中收集歷史數(shù)據(jù) 381
    7.4  探索性數(shù)據(jù)分析 383
    7.4.1  Visualizer類系列 388
    7.4.2  可視化股票 394
    7.4.3  可視化多個資產(chǎn) 407
    7.5  金融工具的技術(shù)分析 413
    7.5.1  StockAnalyzer類 414
    7.5.2  AssetGroupAnalyzer類 421
    7.5.3  比較資產(chǎn) 423
    7.6  使用歷史數(shù)據(jù)建模 427
    7.6.1  StockModeler類 427
    7.6.2  時間序列分解 433
    7.6.3  ARIMA 434
    7.6.4  使用statsmodel進行線性回歸 436
    7.6.5  比較模型 438
    7.7  小結(jié) 440
    7.8  練習 441
    7.9  延伸閱讀 442
    第8章  基于規(guī)則的異常檢測 445
    8.1  章節(jié)材料 445
    8.2  模擬登錄嘗試 446
    8.2.1  假設(shè) 446
    8.2.2  構(gòu)建login_attempt_simulator包 447
    8.2.3  輔助函數(shù) 448
    8.2.4  構(gòu)建LoginAttemptSimulator類 450
    8.2.5  從命令行中進行模擬 461
    8.3  探索性數(shù)據(jù)分析 467
    8.3.1  讀入模擬數(shù)據(jù) 467
    8.3.2  異常登錄行為的特點 468
    8.3.3  檢查數(shù)據(jù) 469
    8.3.4  比較登錄嘗試次數(shù) 470
    8.3.5  比較登錄成功率 473
    8.3.6  使用錯誤率指標 474
    8.3.7  通過可視化找出異常值 476
    8.4  實現(xiàn)基于規(guī)則的異常檢測 479
    8.4.1  百分比差異 480
    8.4.2  Tukey圍欄 485
    8.4.3  Z分數(shù) 486
    8.4.4  評估性能 488
    8.5  小結(jié) 493
    8.6  練習 493
    8.7  延伸閱讀 494
    第4篇  scikit-learn和機器學習
    第9章  Python機器學習入門 499
    9.1  章節(jié)材料 499
    9.2  機器學習概述 501
    9.2.1  機器學習的類型 502
    9.2.2  常見任務(wù) 502
    9.2.3  Python中的機器學習 503
    9.3  探索性數(shù)據(jù)分析 504
    9.3.1  紅酒品質(zhì)數(shù)據(jù) 505
    9.3.2  白葡萄酒和紅葡萄酒化學性質(zhì)數(shù)據(jù) 508
    9.3.3  行星和系外行星數(shù)據(jù) 511
    9.4  預處理數(shù)據(jù) 517
    9.4.1  訓練和測試集 518
    9.4.2  縮放和居中數(shù)據(jù) 520
    9.4.3  編碼數(shù)據(jù) 522
    9.4.4  估算 525
    9.4.5  附加轉(zhuǎn)換器 527
    9.4.6  構(gòu)建數(shù)據(jù)管道 529
    9.5  聚類 531
    9.5.1  k均值 532
    9.5.2  按軌道特征對行星進行分組 532
    9.5.3  使用肘點法確定k值 535
    9.5.4  解釋質(zhì)心并可視化聚類空間 537
    9.5.5  評估聚類結(jié)果 540
    9.6  回歸 542
    9.6.1  線性回歸 542
    9.6.2  預測行星一年的長度 543
    9.6.3  解釋線性回歸方程 544
    9.6.4  做出預測 545
    9.6.5  評估回歸結(jié)果 546
    9.6.6  指標 548
    9.7  分類 552
    9.7.1  邏輯回歸 552
    9.7.2  預測紅酒質(zhì)量 553
    9.7.3  通過化學性質(zhì)確定葡萄酒類型 554
    9.7.4  評估分類結(jié)果 555
    9.7.5  混淆矩陣 555
    9.7.6  分類指標 559
    9.7.7  準確率和錯誤率 559
    9.7.8  精確率和召回率 560
    9.7.9  F分數(shù) 562
    9.7.10  敏感性和特異性 563
    9.7.11  ROC曲線 564
    9.7.12  精確率-召回率曲線 568
    9.8  小結(jié) 571
    9.9  練習 572
    9.10  延伸閱讀 574
    第10章  做出更好的預測 577
    10.1  章節(jié)材料 577
    10.2  使用網(wǎng)格搜索調(diào)整超參數(shù) 580
    10.2.1  拆分驗證集 580
    10.2.2  使用交叉驗證 582
    10.2.3  使用RepeatedStratifiedKFold 585
    10.3  特征工程 588
    10.3.1  交互項和多項式特征 589
    10.3.2  降維 592
    10.3.3  特征聯(lián)合 601
    10.3.4  特征重要性 603
    10.4  集成方法 606
    10.4.1  隨機森林 608
    10.4.2  梯度提升 609
    10.4.3  投票 610
    10.4.4  檢查分類預測置信度 612
    10.5  解決類不平衡的問題 616
    10.5.1  欠采樣 618
    10.5.2  過采樣 619
    10.6  正則化 621
    10.7  小結(jié) 623
    10.8  練習 624
    10.9  延伸閱讀 626
    第11章  機器學習異常檢測 629
    11.1  章節(jié)材料 629
    11.2  探索模擬登錄嘗試數(shù)據(jù) 631
    11.3  利用無監(jiān)督學習執(zhí)行異常檢測 638
    11.3.1  隔離森林 639
    11.3.2  局部異常因子 641
    11.3.3  比較模型 643
    11.4  實現(xiàn)有監(jiān)督學習的異常檢測 647
    11.4.1  基線模型 649
    11.4.2  虛擬分類器 649
    11.4.3  樸素貝葉斯 651
    11.4.4  邏輯回歸 655
    11.5  將反饋循環(huán)與在線學習相結(jié)合 657
    11.5.1  創(chuàng)建PartialFitPipeline子類 658
    11.5.2  隨機梯度下降分類器 658
    11.5.3  構(gòu)建初始模型 660
    11.5.4  評估模型 661
    11.5.5  更新模型 666
    11.5.6  提交結(jié)果 668
    11.5.7  進一步改進 669
    11.6  小結(jié) 669
    11.7  練習 670
    11.8  延伸閱讀 671
    第5篇  其 他 資 源
    第12章  未來之路 675
    12.1  數(shù)據(jù)資源 675
    12.1.1  Python包 676
    12.1.2  Seaborn 676
    12.1.3  scikit-learn 676
    12.2  搜索數(shù)據(jù) 677
    12.3  API 677
    12.4  網(wǎng)站 678
    12.4.1  金融 678
    12.4.2  官方數(shù)據(jù) 679
    12.4.3  健康與經(jīng)濟 679
    12.4.4  社交網(wǎng)絡(luò) 680
    12.4.5  運動 680
    12.4.6  雜項 681
    12.5  練習使用數(shù)據(jù) 681
    12.5.1  Kaggle 682
    12.5.2  DataCamp 682
    12.6  Python練習 682
    12.7  小結(jié) 684
    12.8  練習 684
    12.9  延伸閱讀 685
    練習答案 693
    附錄A 695
    數(shù)據(jù)分析工作流程 695
    選擇合適的可視化結(jié)果 696
    機器學習工作流程 697

    本目錄推薦

    掃描二維碼
    Copyright ? 讀書網(wǎng) www.talentonion.com 2005-2020, All Rights Reserved.
    鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號