Python Pandas – 一維陣列

Loading

測試環境為 CentOS 8 (虛擬機)

參考資料 – https://ithelp.ithome.com.tw/articles/10233655

Pandas 可以處理兩類的資料

  • 一維陣列 ,使用 Series 物件 ,這邊說明.
  • 二維陣列 (資料類似 Excel 或是 RDBMS 關聯式資料庫) , 使用 DataFrame 物件.

安裝所需模組

[root@localhost ~]# pip install pandas

匯入模組

[root@localhost ~]# python3
Python 3.6.8 (default, Sep 10 2021, 09:13:53)
[GCC 8.5.0 20210514 (Red Hat 8.5.0-3)] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import pandas as pd

一維的數字陣列

>>> data = pd.Series([1, 2, 3, 4, 5])
>>> data
0    1
1    2
2    3
3    4
4    5
dtype: int64

系統會幫我們建立預設的索引 從 0 開始.

或是我們可以自訂索引值.

>>> data1 = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])
>>> data1
a    1
b    2
c    3
d    4
e    5
dtype: int64

查看資料,可使用自訂索引值.

>>> print(data[0])
1
>>> print(data1[0])
1
>>> print(data1["a"])
1

常用函數.
資料總和

>>> data.sum()
15

資料的平均

>>> data.mean()
3.0

標準差 , 主要看一組數據中常態分布的機率 – https://zh.wikipedia.org/zh-tw/%E6%A8%99%E6%BA%96%E5%B7%AE

>>> data.std()
1.5811388300841898

變異數 , 主要看一組數字與其平均值之間的距離 – https://zh.wikipedia.org/zh-tw/%E6%96%B9%E5%B7%AE

>>> data.var()
2.5

所有資料相乘

>>> data.prod()
120

資料中最大值

>>> data.max()
5

資料中最大值

>>> data.min()
1

資料中前 2 大的值

>>> data.nlargest(2)
4    5
3    4
dtype: int64

資料中前 2 小的值

>>> data.nsmallest(2)
0    1
1    2
dtype: int64

一維的字串陣列

str1 = pd.Series(["Apple", "Banana", "Cherry"])

將字串轉成小寫

>>> str1.str.lower()
0     apple
1    banana
2    cherry
dtype: object

將字串轉成大寫

>>> str1.str.upper()
0     APPLE
1    BANANA
2    CHERRY
dtype: object

將字串連接再一起,並使用逗號做區隔

>>> str1.str.cat(sep = ",")
'Apple,Banana,Cherry'

檢視字串是否包含指定字串,回傳 True / False 布林值

>>> str1.str.contains("a")
0    False
1     True
2    False
dtype: bool

取代指定字串

>>> str1.str.replace("a","A")
0     Apple
1    BAnAnA
2    Cherry
dtype: object

計算字串長度

>>> str1.str.len()
0    5
1    6
2    6
dtype: int64
沒有解決問題,試試搜尋本站其他內容

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料