Pandas 中 axis 参数的理解(附实例)

2024-06-27
标签: PANDAS

Pandas 一些函数带有 axis 的参数,对刚刚开始使用 Pandas 的新手来说,不好理解。网上有其他文章解释,但是感觉没有讲透。本文试着解释这个 axis 参数的含义。

问题

>>> import pandas as pd
>>>
>>> table = {
...   "A": [1, 2, 3],
...   "B": [4, 5, 6],
...   "C": [7, 8, 9],
... }
>>>
>>> df = pd.DataFrame(table)        # 从 dict 初始化
>>> df.sum(axis=0)                  # 沿 axis = 0 求和
A     6
B    15
C    24
dtype: int64
>>> df.sum(axis=1)                  # 沿 axis = 1 求和
0    12
1    15
2    18
dtype: int64
>>> df.drop(['B'])                  # drop 不指定 axis, 报错
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/.../frame.py", line 5581, in drop
    return super().drop()
  File "/.../generic.py", line 4788, in drop
    obj = obj._drop_axis(labels, axis, level=level, errors=errors)
  File "/.../generic.py", line 4830, in _drop_axis
    new_axis = axis.drop(labels, errors=errors)
  File "/.../base.py", line 7070, in drop
    raise KeyError(f"{labels[mask].tolist()} not found in axis")
KeyError: "['B'] not found in axis"

>>> df.drop(['B'], axis=1)          # drop 需要指定 axis=1
   A  C
0  1  7
1  2  8
2  3  9
>>>

观察上面的 sum()drop() 函数,当 axis=1 时, sum() 得到是按行求和,而 drop() 是按列操作,似乎参数的含义不统一。

下面尝试解释这个现象,我们从最常见的一维数组开始:

1维的情况

对于一维数组:

A = [1, 2, 3, 4, 5]

要想索引数组中的元素(可以理解为1维空间中的点),可以用一个数字作为下标:

A[2]

2维的情况

当一维数组中的某一个元素变成数组后,就扩张出了新的维度:

A = [ 
  [1, 2, 3], 
  [4, 5, 6], 
  [7, 8, 9],
]

要想索引数组最内层的元素(可以理解为2维空间中的点),需要用2个数字作为下标:

A[2][1]

这种表示法类似二维平面的 $(2, 1)$,最前面的 $2$ 称为第1维, 往后面的 $1$ 称为第2维。

数组的索引式中,靠前的 [2] 表示 A 最外层的索引,称为第1维;靠后的 [1] 表示 A 向内一层的索引,称为第2维。

结论:第1维是最外层,第2维是向内一层,以此类推。

上面数组的例子,是从最高维向下扩展维度,下面我们反方向观察如何向上扩展维度。

从一个标量开始

首先是一个标量开始,也就是空间中的点

1

多个点组合在一起,构成一个1维空间,扩展称为向量:

a = [1, 2, 3]

这时用一个坐标就可以指代任何一个点:

a[2]

这里的 $2$ 是第一维,也就是最外层的维度

当多个1维空间组合在一起,构成一个二维空间:

a1 = [1, 2, 3]
a2 = [4, 5, 6]
a3 = [7, 8, 9]
A = [a1, a2, a3]

注意:原来的空间被新的空间包裹起来,那么新扩张出的维度就变成了最外层,也就是第1维。原来的第1维,现在降到了第2维。

Pandas 的数据结构

Pandas 中的 Series 是个一维结构,DataFrame 是一个二维结构。 DataFrame 是 Series 更高维度的容器,

还是用 前面问题一节 中的例子:

>>> import pandas as pd
>>>
>>> table = {
...   "A": [1, 2, 3],
...   "B": [4, 5, 6],
...   "C": [7, 8, 9],
... }

最外层是 column 层,属于第1维,axis=0;内层是 index,坐标作为 Series 的坐标, 属于第2维,axis=1

如何理解 sum() 函数中的 axis 参数

观察下面这个 Dataframe

df.sum(axis=0) 中的 axis 参数指沿着 index 轴求和。“沿着 index 轴” 可以理解为:保留 index 轴,而将 column 维度坍塌到 index 轴。

df.sum(axis=1) 中的 axis 参数指沿着 column 轴求和。“沿着 column 轴” 可以理解为:保留 column 轴,而将 index 维度坍塌到 column 轴。

给个免费的赞吧~

如果您对本文有疑问或者寻求合作,欢迎 联系邮箱邮箱已到剪贴板

标签: PANDAS

精彩评论

欢迎转载本文,惟请保留 原文出处 ,且不得用于商业用途。
本站 是个人网站,若无特别说明,所刊文章均为原创,并采用 署名协议 CC-BY-NC 授权。