Python資料分析必備套件!Pandas資料清理、重塑、過濾、視覺化(中文書)

書名 Python資料分析必備套件!Pandas資料清理、重塑、過濾、視覺化(中文書)
Pandas 1.x Cookbook/Second Edition
作者 Matt Harrison、Theodore Petrou
譯者 蔣佑仁、李侑穎
出版社 旗標科技股份有限公司
出版日期 2021-11-26
ISBN 9789863126898
定價 780
特價 79折   616
特價期間:2024-07-01~2024-09-30
庫存

訂購後,立即為您進貨
分類 中文書>電腦>程式語言

商品簡介

【最齊全!徹底活用Pandas的114技】

想學Pandas,看官方文件就夠了?
對於Python使用者來說,Pandas無疑是資料分析的必備套件。有了Pandas,您可以非常高效地重塑、過濾、清理以及整合大部分類型的資料。的確,Pandas的官方網站提供了不同指令的使用範例。因此有的使用者會說:『不用買書看啦!網路資源這麼豐富,多看看官方文件就好了!』

不過,單單只知道某個指令的運作方式是不足夠的。在實際進行資料分析時,您可能需要結合多個指令來達成目標。這時候,您更需要知道如何活用Pandas。舉例來說,假設您現在面對DataFrame的記憶體用量過大,導致無法順利分析資料的難題時,該怎麼辦呢?

從Pandas的官方文件中,您可以了解轉換欄位型別的方法,也知道如何查詢欄位的浮點數精度。只要結合這兩個方法,您就可以非常輕鬆地降低DataFrame的記憶體用量。遺憾的是,官方文件並不會告訴您這個訣竅,而必須自己花時間來摸索。在摸索的過程中,不可避免地會多走許多彎路。

本書並非單純的Pandas語法參考手冊。作者寫作此書時的目標,是希望讀者們可以從完整的範例中學習,並充分了解活用Pandas技巧的重要性。此外,作者習慣給出同一問題的不同解法,同時比較不同做法的效能。由此一來,讀者日後在實際分析資料時,才能知道哪一種做法是最優解。

正面對決真實資料集!
目前市面上的Pandas書籍,多數是使用亂數產生的假資料集來進行教學。這會導致您在面對真實資料集時,不知該從何下手。有鑒於此,本書作者使用了眾多的真實資料集,讓讀者切身感受資料分析師的工作內容。書中的資料集包含:
●IMDB 5000電影資料集
●Tesla股票資料集
●Kaggle問卷資料集
●鑽石品質資料集
●美國大學資料集
●美國國內航班資料集
●丹佛市的犯罪案件資料集
●阿爾塔年積雪資料集
●美國燃油經濟資料集
…等

最齊全的Pandas技巧教學!
為了讓讀者可以更好的理解,書中每一小節的內容皆搭配完整範例。讀者可以從讀入資料集開始,循序漸進地搞懂資料分析的眉眉角角。全書共傳授了Pandas實戰的114種技巧,保證讀者可以全面掌握其中的精髓。讀者將會學到如何:
●處理資料集中的缺失值
●處理索引爆炸的問題
●組合多個Pandas物件
●在DataFrame中新增和刪除欄位
●取得特定欄位的統計資訊
●轉置DataFrame的運算方向
●減少DataFrame的記憶體用量
●混用位置和標籤來選取資料
●透過Pandas實現SQL的功能
●對多個欄位進行分組及聚合運算
●將資料集重塑成整齊的形式
●過濾包含時間序列資料的欄位
●搭配Matplotlib和Seaborn來視覺化資料
●在Jupyter中進行Pandas程式碼的除錯
…等

如果您不想只是死記硬背Pandas語法,還想學習如何活用其中的技巧,非常歡迎您跟著書中的範例動手試試看,保證可以讓您的資料分析能力更上一層樓!
本書特色:
●全面採用最新的Pandas 1.x版本
●最齊全的Pandas教學,傳授114招實用技巧
●附有超過114個範例,還有多到無法細數的資料分析的寶貴經驗,從做中學才更有效
●使用真實世界中的資料集,累積實戰能力
●搭配NumPy、Matplotlib、Seaborn、 Pandarallel、Great Expectations、pytest、Hypothesis 等工具,擴增你的武器庫
●完整說明CSV檔、JSON檔、SQL資料及HTML表格等資料類型的載入方式
●本書由施威銘研究室監修,書中針對原書進行大量補充,並適當添加註解,幫助讀者更好地理解內容
客服 02-2570-1233 | 會員服務使用條款 | 隱私權政策
PC版 TAAZE | Mobile版 TAAZE
Power By 學思行數位行銷股份有限公司

Python資料分析必備套件!Pandas資料清理、重塑、過濾、視覺化

作者簡介

Matt Harrison 自 2000 年起就開始使用 Python。他是 MetaSnake 的經營者,專門提供 Python 和資料科學的企業培訓服務。他也是《Machine Learning Pocket Reference》、《Illustrated Guide to Python 3》以及《Learning the Pandas Library》等暢銷書的作者。Theodore Petrou 是一名資料科學家,也是 Dunder Data(一家深耕於探索性資料分析的專業教育公司)的創辦人。同時,他是 Houston Data Science 的負責人。Houston Data Science 是一個擁有超過 2000 名成員的聚會群組,主要目標是讓當地的資料愛好者一起精進資料科學。在創辦Dunder Data 前,Ted 是 Schlumberger(一家大型石油服務公司)的資料科學家。在那裡,他花費了大部分時間來探索資料。

章節目錄

☆第0章:Pandas 套件的基礎0-1 DataFrame物件0-2 DataFrame的屬性(attributes)0-3 Series物件0-4 Pandas中的資料型別☆第1章:DataFrame及Series的基本操作1-1 選取DataFrame的欄位1-2 呼叫Series的方法(method)1-3 Series的相關操作1-4 串連Series的方法1-5 更改欄位名稱1-6 新增及刪除欄位☆第2章:DataFrame的運算技巧2-1 選取多個DataFrame的欄位2-2 用方法選取欄位2-3 對欄位名稱進行排序2-4 DataFrame的統計方法2-5 串連DataFrame的方法2-6 DataFrame的算符運算2-7 比較缺失值2-8 轉置DataFrame運算的方向2.9 案例演練:確定大學校園的多樣性☆第3章:建立與保存DataFrame3-1 從無到有建立DataFrame3-2 存取CSV檔案3-3 讀取大型的CSV檔案3-4 使用Excel檔案3-5 讀取ZIP檔案中的資料3-6 存取資料庫3-7 存取JSON格式的資料3-8 讀取HTML表格☆第4章:開始資料分析4-1 制定資料分析的例行程序4-2 資料字典4-3 改變資料型別以減少記憶體用量4-4 資料的排序4-5 排序後選取每組的最大值和最小值4-6 用sort_values()選取最大值4-7 案例演練:計算移動停損單價格☆第5章:探索式資料分析5-1 摘要統計資訊5-2 轉換欄位的資料型別5-3 資料轉換與缺失值處理5-4 檢視連續資料的分佈狀況5-5 檢視不同分類的資料分佈5-6 比較連續欄位的關聯性5-7 比較分類欄位的關聯性5-8 使用Profiling函式庫建立摘要報告☆第6章:選取資料的子集6-1 選取一筆或躲避Series資料6-2 選取DataFrame的列6-3 同時選取DataFrame的列與欄位6-4 混用位置與標籤來選取資料6-5 按標籤的字母順序進行切片☆第7章:用布林陣列篩選特定的資料7-1 計算布林陣列的統計資訊7-2 設定多個布林條件7-3 以布林陣列來進行過濾7-4 布林選取 vs 索引選取7-5 用唯一或已排序的索引標籤來選取資料7-6 利用Pandas實現SQL中的功能7-7 使用query方法提高布林選取的可讀性7-8 使用where()維持Series的大小7-9 對DataFrame的列進行遮罩7-10 以布林陣列、位置數字和標籤選擇資料☆第8章:索引對齊與尋找欄位最大值8-1 檢驗Index物件8-2 笛卡兒積8-3 索引爆炸8-4 填補缺失值8-5 從不同的DataFrame增加欄位8-6 凸顯每一欄位的最大值8-7 串連方法來實現idxmax()的功能8-8 尋找最常見的欄位最大值☆第9章:透過分組來進行聚合、過濾和轉換9-1 進行簡單的分組及聚合運算9-2 對多個欄位執行分組及聚合運算9-3 分組後刪除MultiIndex9-4 使用自訂的聚合函式來分組9-5 可接收多個參數的自訂聚合函式9-6 深入了解groupby物件9-7 過濾特定的組別9-8 分組轉換特定欄位的資料9-9 使用apply()計算加權平均數9-10 以連續變化的數值進行分組9-11 案例演練:計算城市之間的航班總數9-12 案例演練:尋找航班的連續準時記錄☆第10章:將資料重塑成整齊的形式10-1 使用stack()整理『欄位名稱為變數值』的資料10-2 使用melt()整理『欄位名稱為變數值』的資料10-3 同時堆疊多組變數10-4 欄位堆疊的反向操作10-5 在彙總資料後進行反堆疊操作10-6 使用groupby()模擬pivot_table的功能10-7 重新命名各軸內的不同層級10-8 重塑『欄位名稱包含多個變數』的資料10-9 重塑『多個變數儲存在單一欄位內』的資料10-10 整理『單一儲存格中包含多個值』的資料10-11 整理『欄位名稱及欄位值包含變數』的資料☆第11章:時間序列分析11-1 了解Python和Pandas日期工具的差別11-2 對時間序列切片11-3 過濾包含時間資料的欄位11-4 僅適用於DatetimeIndex的方法11-5 依據時間區段重新分組11-6 分組彙總同一時間單位的多個欄位11-7 案例演練:以『星期幾』來統計犯罪率11-8 使用匿名函式來分組11-9 使用Timestamp與另一欄位來分組☆第12章:利用Matplotlib、Pandas和Seaborn進行資料視覺化12-1 Matplotlib入門12-2 Matplotlib的物件導向指南12-3 用Matplotlib視覺化資料12-4 使用Pandas繪製基本圖形12-5 視覺化航班資料集12-6 使用堆疊面積圖找出趨勢12-7 了解Seaborn和Pandas之間的區別12-8 使用Seaborn進行多變量分析Bonus A:組合多個DataFrame或SeriesA-1 在DataFrame上添加新的列A-2 連接多個DataFrameA-3 concat()、join()和merge()的區別A-4 連接到SQL資料庫Bonus B:案例演練-使用Seaborn發現辛普森悖論Bonus C:Pandas的效能、除錯與測試C-1 轉換資料C-2 apply()方法的效能C-3 提高apply()的效能C-4 快速檢視程式碼的技巧C-5 在Jupyter中除錯C-6 以Great Expectations來管理資料完整性C-7 使用pytest來測試PandasC-8 使用Hypothesis產生測試
客服 02-2570-1233 | 會員服務使用條款 | 隱私權政策
PC版 TAAZE | Mobile版 TAAZE
Power By 學思行數位行銷股份有限公司