pandas汇总和描述性统计

文章列表

pandas汇总和描述性统计

本文介绍pandas中汇总和描述性统计中的基本内容，仅供参考。

1描述和汇总统计

1.1sum方法

1.2idxmin和idxmax方法

1.3describe方法

1.4描述和汇总统计的常用方法

2相关系数和协方差

3唯一值、值计数以及成员资格

3.1唯一值

3.2值计数

3.3成员资格

1描述和汇总统计

1.1sum方法

用DataFrame的sum方法将会返回一个含有列小计的Series：

NA值会自动被排除，除非整个切片（这里指的是行或列）都是N

函数格式：

df.sum( axis=None, skipna=None, level=None, numeric_only=None, min_count=0, kwargs, )

参数说明：

axis：约简的轴。DataFrame的行用0，列用1

skipna：排除缺失值，默认值为True

level：如果轴是层次化索引的（即Multiindex)，则根据level分组约简

案例：

from pandas import Series, DataFrame 
import pandas as pd
import numpy as npdf = DataFrame([[1.4, np.nan], [7.1, -4.5],[np.nan, np.nan], [0.75,-1.3]],index=['a','b','c','d'],columns=[ 'one', 'two'])df.sum()#传入axis=1将会按行进行求和运算：
df.sum(axis=1)df.mean(axis=1, skipna=False)

1.2idxmin和idxmax方法

idxmin和idxmax返回的是间接统计（达到最小值或最大值的索引）

案例：

df.idxmax()df.cumsum()    # 累计型的计算

1.3describe方法

用于一次性产生多个汇总统计

案例：

df1 = pd.DataFrame({'key':list('abcdfeg'),
'data1':range(7)})df1['data1'].describe()

对于非数值型数据，describe会产生另外一种汇总统计

案例：

obj = Series(['a','a','b','c'] * 4)obj.describe()obj.describe()['count']

1.4描述和汇总统计的常用方法

2相关系数和协方差

Series的corr方法用于计算两个Series中重叠的、非NA的、按索引对齐的值的相关系数

与此类似，cov用于计算协方差。

DataFrame的corr和cov方法将以DataFrame的形式返回完整的相关系数或协方差矩阵:

利用DataFrame的corrwith方法，可以计算其列或行跟另一个Series或DataFrame之间的相关系数。传入一个Series将会返回一个相关系数值Series (针对各列进行计算）：

3唯一值、值计数以及成员资格

3.1唯一值

函数是unique，它可以得到Series中的唯一值数组:

返回的唯一值是未排序的，如果需要的话，可以对结果再次进行排序

3.2值计数

value_counts用于计算一个Series中各值出现的频率：

结果Series是按值频率降序排列的（值作为行索引）。

value_counts还是一个顶级pandas方法，可用于任何数组或序列：

3.3成员资格

isin，它用于判断矢量化集合的成员资格，可用于选取 Series中或DataFrame列中数据的子集：

pandas汇总和描述性统计

1描述和汇总统计

1.1sum方法

1.2idxmin和idxmax方法

1.3describe方法

1.4描述和汇总统计的常用方法

2相关系数和协方差

3唯一值、值计数以及成员资格

3.1唯一值

3.2值计数

3.3成员资格

公告

标签

pandas汇总和描述性统计

1描述和汇总统计

1.1sum方法

1.2idxmin和idxmax方法

1.3describe方法

1.4描述和汇总统计的常用方法

2相关系数和协方差

3唯一值、值计数以及成员资格

3.1唯一值

3.2值计数

3.3成员资格

相关问题

公告

标签