对pandas进行数据预处理的实例讲解
引入包和加载数据
import pandas as pd
import numpy as np
train_df =pd.read_csv(‘…/datas/train.csv’) # train set
test_df = pd.read_csv(‘…/datas/test.csv’) # test set
combine = [train_df, test_df]
清洗数据
查看数据维度以及类型
缺失值处理
查看object数据统计信息
数值属性离散化
计算特征与target属性之间关系
查看数据维度以及类型
#查看前五条数据
print train_df.head(5)
#查看每列数据类型以及nan情况
print train_df.info()
获得所有object属性
print train_data.describe(include=[‘O’]).columns
查看object数据统计信息
#查看连续数值属性基本统计情况
print train_df.describe()
#查看object属性数据统计情况
print train_df.describe(include