測試環境為 CentOS 8 (虛擬機)
參考資料 – https://ithelp.ithome.com.tw/articles/10233655
Pandas 可以處理兩類的資料
- 一維陣列 ,使用 Series 物件 ,這邊說明.
- 二維陣列 (資料類似 Excel 或是 RDBMS 關聯式資料庫) , 使用 DataFrame 物件.
安裝所需模組
[root@localhost ~]# pip install pandas
匯入模組
[root@localhost ~]# python3 Python 3.6.8 (default, Sep 10 2021, 09:13:53) [GCC 8.5.0 20210514 (Red Hat 8.5.0-3)] on linux Type "help", "copyright", "credits" or "license" for more information. >>> import pandas as pd
一維的數字陣列
>>> data = pd.Series([1, 2, 3, 4, 5]) >>> data 0 1 1 2 2 3 3 4 4 5 dtype: int64
系統會幫我們建立預設的索引 從 0 開始.
或是我們可以自訂索引值.
>>> data1 = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"]) >>> data1 a 1 b 2 c 3 d 4 e 5 dtype: int64
查看資料,可使用自訂索引值.
>>> print(data[0]) 1 >>> print(data1[0]) 1 >>> print(data1["a"]) 1
常用函數.
資料總和
>>> data.sum() 15
資料的平均
>>> data.mean() 3.0
標準差 , 主要看一組數據中常態分布的機率 – https://zh.wikipedia.org/zh-tw/%E6%A8%99%E6%BA%96%E5%B7%AE
>>> data.std() 1.5811388300841898
變異數 , 主要看一組數字與其平均值之間的距離 – https://zh.wikipedia.org/zh-tw/%E6%96%B9%E5%B7%AE
>>> data.var() 2.5
所有資料相乘
>>> data.prod() 120
資料中最大值
>>> data.max() 5
資料中最大值
>>> data.min() 1
資料中前 2 大的值
>>> data.nlargest(2) 4 5 3 4 dtype: int64
資料中前 2 小的值
>>> data.nsmallest(2) 0 1 1 2 dtype: int64
一維的字串陣列
str1 = pd.Series(["Apple", "Banana", "Cherry"])
將字串轉成小寫
>>> str1.str.lower() 0 apple 1 banana 2 cherry dtype: object
將字串轉成大寫
>>> str1.str.upper() 0 APPLE 1 BANANA 2 CHERRY dtype: object
將字串連接再一起,並使用逗號做區隔
>>> str1.str.cat(sep = ",") 'Apple,Banana,Cherry'
檢視字串是否包含指定字串,回傳 True / False 布林值
>>> str1.str.contains("a") 0 False 1 True 2 False dtype: bool
取代指定字串
>>> str1.str.replace("a","A") 0 Apple 1 BAnAnA 2 Cherry dtype: object
計算字串長度
>>> str1.str.len() 0 5 1 6 2 6 dtype: int64
沒有解決問題,試試搜尋本站其他內容