Seaborn热力图在案例解析中的应用- 大数跨境

热力图是一种数据可视化技术，它通过颜色的变化来展示数据的分布情况，在热力图中，用颜色的深浅程度来表示数据值的大小，通常颜色越深表示数据值越大或者数据越密集，颜色越浅表示数据值越小或者数据越稀疏。

热力图的应用非常广泛，它可以用于显示各种类型的数据分布，通过热力图可直观地看出数据的整体分布情况，以及不同变量之间的差异性，本案例使用双色球数据用热力图展示，用于研究每个中奖号码的分布情况。

如下选取了近30期的开奖号码数据，数据呈现不规则，需要使用Python进行数据处理，将其处理为标准数据。

首先，使用pandas函数导入开奖数据，由于原始数据有合并单元格，但是导入的时候默认会取消单元格，可以向下填充将数据补齐，并且，使用groupby函数按照'期号'和'开奖日期'将中奖号码分组聚合为list列表的形式，如下为数据处理后的结果。

  
   import pandas as pd

#数据导入
df=pd.read_excel(r'D:\系统桌面(勿删)\Desktop\双色球中奖号码.xlsx',usecols=['期号','开奖日期','开奖号码'],dtype={'期号': str,'开奖号码': str})
#数据筛选
df=df.iloc[1:]

#向下填充
df_ffilled = df.fillna(method='ffill')
#中奖号码分组聚合
result = df_ffilled.groupby(['期号','开奖日期']).apply(lambda x: x['开奖号码'].to_list()).reset_index() 
result.rename(columns={0:'中奖号码'},inplace=True)#重命名

result.head()#数据预览

中奖号码数据为列表的形式，将其转化为字符型，然后使用replace函数替换多余的符号，并且，使用split函数将中奖号码分列，如下为每一期中奖号码按照色球位置分列后的结果。

  
   #中奖号码分列
result['中奖号码'] = result['中奖号码'].astype(str)
result['中奖号码']=result['中奖号码'].str.replace("[","")
result['中奖号码']=result['中奖号码'].str.replace("]","")
result['中奖号码']=result['中奖号码'].str.replace("'","")
df_split=result['中奖号码'].str.split(',',expand=True)

df_split.head()

数据分列后，统计每一期中奖号码出现的次数，如下为号码出现的次数，由结果可以得知，以第一个红球位置号码出现次数为例，数字1出现了7次，数字10出现了3次，数据11出现了1次...，依此统计每个号码在该色球位置出现的次数。

  
   #对每一位的中奖号码统计出现次数
df1=df_split.groupby(0).size()
df2=df_split.groupby(1).size()
df3=df_split.groupby(2).size()
df4=df_split.groupby(3).size()
df5=df_split.groupby(4).size()
df6=df_split.groupby(5).size()
df7=df_split.groupby(6).size()

print(df1,df2,df3,df4,df5,df6,df7)

将统计的次数横向合并，由于有些数字没有出现，显示为NaN，为便于后面可视化展示，可将其替换为0，如下即为表格合并后的结果，其中，横向0到6代表着红球和蓝球的位置，竖向10到14代表着中奖号码，表格中的数字为中奖号码出现的次数。

  
   #横向表合并（行对齐）
data=pd.concat([df1,df2,df3,df4,df5,df6,df7],axis=1,sort=True)
data=data.fillna(0)#空值NaN替换为0
data=data.round(0).astype(int) #浮点数转换为整数

data.head()

导入seaborn库，使用sns.heatmap函数绘制热力图，由热力图可以直观地显示每一个中奖号码在每一个色球位置出现的频次，频次越大则出现该数字的概率越大。

  
   import matplotlib.pyplot as plt
import seaborn as sns
sns.set()#使用默认设置
plt.figure(figsize=(6,9))#设置图片大小
plt.rcParams['font.sans-serif'] = ['SimHei']#显示中文

plt.title('双色球中奖数字热力图')

#绘制热力图，annot显示数值 vmin,vmax用于设置颜色映射的数值范围 cmap颜色映射
sns.heatmap(data,annot=True,vmin=0,vmax=5,cmap="Blues") 
#坐标轴设置
plt.xlabel('双色球位数')
plt.ylabel('双色球数字')
x=['红球1','红球2','红球3','红球4','红球5','红球6','蓝球1']
plt.xticks(range(0,7,1),x,ha='left')

plt.show()

可视化结果如下，统计每个中奖号码出现频率越高的号码都有哪些？如下为每个色球位置中奖号码的频次。

红球1：1出现7次，2出现7次
红球2：8出现5次
红球3：13出现4次
红球4：25出现4次
红球5：25出现4次，29出现4次，30出现4次
红球6：33出现5次
蓝球1：4出现5次

基于此可以出现一些组合号码，比如01 08 13 25 25 33 04为一个组合，由于每次的组合号码的数字都是独立事件，上面的数字组合具有随机性。

以上，使用seaborn绘制一个双色球热力图，热力图上呈现每个中奖号码的出现频次，频率越高，热力图上的颜色就越深，借助案例演示数据可视化在实际生活中的应用，如果你想学习更多数据可视化内容，可以关注我，持续分享数据分析内容~

后台回复数据分析入门，获取数据分析入门资料

加入数据分析资料群，一起交流数据分析知识

关注和星标『大话数据分析』

和作者一起学习数据分析！

👆点击关注｜设为星标｜干货速递👆

三年互联网数据分析经验，擅长Excel、SQL、Python、PowerBI数据处理工具，数据可视化、商业数据分析技能，统计学、机器学习知识，持续创作数据分析内容，点赞关注，不迷路。