一、数据来源
import numpy as npfrom pandas import Series,DataFrameimport pandas as pdimport seaborn as sns #导入seaborn库tips=sns.load_dataset('tips')#seaborn库自带的数据集tips.head()

二、问题探索
三、数据清洗
tips.shape #数据集的维度
tips.describe() #描述统计

描述统计结果如上所示。
tips.info() #查看缺失值信息

此例无缺失值。
四、数据探索
tips.plot(kind='scatter',x='total_bill',y='tip') #绘制散点图
male_tip = tips[tips['sex'] == 'Male']['tip'].mean() #男性平均消费金额male_tip
3.0896178343949052
female_tip = tips[tips['sex'] == 'Female']['tip'].mean() #女性平均消费金额female_tip
2.833448275862069
s = Series([male_tip,female_tip],index=['male','female'])s
male 3.089618
female 2.833448
dtype: float64
s.plot(kind='bar') #男女平均小费柱状图

tips['day'].unique() #日期的唯一值
sun_tip = tips[tips['day'] == 'Sun']['tip'].mean()sat_tip = tips[tips['day'] == 'Sat']['tip'].mean()thur_tip = tips[tips['day'] == 'Thur']['tip'].mean()fri_tip = tips[tips['day'] == 'Fri']['tip'].mean()#各个日期的平均小费值s = Series([thur_tip,fri_tip,sat_tip,sun_tip],index=['Thur','Fri','Sat','Sun'])s

s.plot(kind='bar') #日期平均小费柱状图

tips['percent_tip'] = tips['tip']/(tips['total_bill']+tips['tip'])tips.head(10) #小费所占百分比

tips['percent_tip'].hist(bins=50)#小费百分比直方图



