> 文章列表 > pandas汇总和描述性统计

pandas汇总和描述性统计

pandas汇总和描述性统计

本文介绍pandas中汇总和描述性统计中的基本内容,仅供参考。

目录

1描述和汇总统计

1.1sum方法

1.2idxmin和idxmax方法

1.3describe方法

1.4描述和汇总统计的常用方法

2相关系数和协方差

3唯一值、值计数以及成员资格

3.1唯一值

3.2值计数

3.3成员资格

1描述和汇总统计

1.1sum方法

用DataFrame的sum方法将会返回一个含有列小计的Series:

  • NA值会自动被排除,除非整个切片(这里指的是行或列)都是N

函数格式:

df.sum( axis=None, skipna=None, level=None, numeric_only=None, min_count=0, **kwargs, )

参数说明:

axis:约简的轴。DataFrame的行用0,列用1

skipna:排除缺失值,默认值为True

level:如果轴是层次化索引的(即Multiindex),则根据level分组约简

案例:

from pandas import Series, DataFrame 
import pandas as pd
import numpy as npdf = DataFrame([[1.4, np.nan], [7.1, -4.5],[np.nan, np.nan], [0.75,-1.3]],index=['a','b','c','d'],columns=[ 'one', 'two'])df.sum()#传入axis=1将会按行进行求和运算:
df.sum(axis=1)df.mean(axis=1, skipna=False)

 

1.2idxmin和idxmax方法

idxmin和idxmax返回的是间接统计(达到最小值或最大值的索引)

案例:

df.idxmax()df.cumsum()    # 累计型的计算

 

1.3describe方法

用于一次性产生多个汇总统计

案例:

df1 = pd.DataFrame({'key':list('abcdfeg'),
'data1':range(7)})df1['data1'].describe()

对于非数值型数据,describe会产生另外一种汇总统计

案例:

obj = Series(['a','a','b','c'] * 4)obj.describe()obj.describe()['count']

 

1.4描述和汇总统计的常用方法

2相关系数和协方差

Series的corr方法用于计算两个Series中重叠的、非NA的、按索引对齐的值的相关系数

 

 与此类似,cov用于计算协方差。

DataFrame的corr和cov方法将以DataFrame的形式返回完整的相关系数或协方差矩阵:

利用DataFrame的corrwith方法,可以计算其列或行跟另一个Series或DataFrame之间的相关系数。传入一个Series将会返回一个相关系数值Series (针对各列进行计算):

3唯一值、值计数以及成员资格

3.1唯一值

函数是unique,它可以得到Series中的唯一值数组:

 返回的唯一值是未排序的,如果需要的话,可以对结果再次进行排序

3.2值计数

value_counts用于计算一个Series中各值出现的频率:

结果Series是按值频率降序排列的(值作为行索引)。

value_counts还是一个顶级pandas方法,可用于任何数组或序列:

 

3.3成员资格

isin,它用于判断矢量化集合的成员资格,可用于选取 Series中或DataFrame列中数据的子集: