大数跨境
0
0

7000字好文,用Python制作《狂飙》角色热度排行"动态条形图"!

7000字好文,用Python制作《狂飙》角色热度排行"动态条形图"! 数据分析与统计学之美
2023-02-10
0

大家好,我是黄伟🤭

说起动态条形图,之前推荐过两个Python库,比如「Bar Chart Race」、「Pandas_Alive」,都可以实现。


今天就给大家再介绍一个新的Python库「pynimate」,一样可以制作动态条形图,而且样式更好看。


GitHub地址:

https://github.com/julkaar9/pynimate


文档地址:https://julkaar9.github.io/pynimate/


首先使用pip安装这个库,注意Python版本要大于等于3.9


# 安装pynimate
pip install pynimate -i https://pypi.tuna.tsinghua.edu.cn/simple

其中pynimate使用pandas数据帧格式,时间列设置为索引index。


time, col1, col2, col3
2012   1     2     1
2013   1     1     2
2014   2     1.5   3
2015   2.5   2     3.5

然后来看两个官方示例。


第一个示例比较简单,代码如下。


from matplotlib import pyplot as plt
import pandas as pd
import pynimate as nim

# 数据格式+索引
df = pd.DataFrame(
    {
        "time": ["1960-01-01""1961-01-01""1962-01-01"],
        "Afghanistan": [123],
        "Angola": [234],
        "Albania": [125],
        "USA": [534],
        "Argentina": [145],
    }
).set_index("time")

# Canvas类是动画的基础
cnv = nim.Canvas()
# 使用Barplot模块创建一个动态条形图, 插值频率为2天
bar = nim.Barplot(df, "%Y-%m-%d""2d")
# 使用了回调函数, 返回以月、年为单位格式化的datetime
bar.set_time(callback=lambda i, datafier: datafier.data.index[i].year)
# 将条形图添加到画布中
cnv.add_plot(bar)
cnv.animate()
plt.show()

Canvas类是动画的基础,它会处理matplotlib图、子图以及创建和保存动画。


Barplot模块创建动态条形图,有三个必传参数,data、time_format、ip_freq。


分别为数据、时间格式、插值频率(控制刷新频率)。


效果如下,就是一个简单的动态条形图。


我们还可以将结果保存为GIF或者是mp4,其中mp4需要安装ffmpeg。


# 保存gif, 1秒24帧
cnv.save("file"24"gif")

# 电脑安装好ffmpeg后, 安装Python库
pip install ffmpeg-python

# 保存mp4, 1秒24帧
cnv.save("file"24 ,"mp4")

第二个示例相对复杂一些,可以自定义参数,样式设置成深色模式。


from matplotlib import pyplot as plt
import numpy as np
import pandas as pd
import pynimate as nim


# 更新条形图
def post_update(ax, i, datafier, bar_attr):
    ax.spines["top"].set_visible(False)
    ax.spines["right"].set_visible(False)
    ax.spines["bottom"].set_visible(False)
    ax.spines["left"].set_visible(False)
    ax.set_facecolor("#001219")
    for bar, x, y in zip(
        bar_attr.top_bars,
        bar_attr.bar_length,
        bar_attr.bar_rank,
    ):
        ax.text(
            x - 0.3,
            y,
            datafier.col_var.loc[bar, "continent"],
            ha="right",
            color="k",
            size=12,
        )


# 读取数据
df = pd.read_csv("sample.csv").set_index("time")
# 分类
col = pd.DataFrame(
    {
        "columns": ["Afghanistan""Angola""Albania""USA""Argentina"],
        "continent": ["Asia""Africa""Europe""N America""S America"],
    }
).set_index("columns")
# 颜色
bar_cols = {
    "Afghanistan""#2a9d8f",
    "Angola""#e9c46a",
    "Albania""#e76f51",
    "USA""#a7c957",
    "Argentina""#e5989b",
}

# 新建画布
cnv = nim.Canvas(figsize=(12.87.2), facecolor="#001219")
bar = nim.Barplot(
    df, "%Y-%m-%d""3d", post_update=post_update, rounded_edges=True, grid=False
)
# 条形图分类
bar.add_var(col_var=col)
# 条形图颜色
bar.set_bar_color(bar_cols)
# 标题设置
bar.set_title("Sample Title", color="w", weight=600)
# x轴设置
bar.set_xlabel("xlabel", color="w")
# 时间设置
bar.set_time(
    callback=lambda i, datafier: datafier.data.index[i].strftime("%b, %Y"), color="w"
)
# 文字显示
bar.set_text(
    "sum",
    callback=lambda i, datafier: f"Total :{np.round(datafier.data.iloc[i].sum(),2)}",
    size=20,
    x=0.72,
    y=0.20,
    color="w",
)

# 文字颜色设置
bar.set_bar_annots(color="w", size=13)
bar.set_xticks(colors="w", length=0, labelsize=13)
bar.set_yticks(colors="w", labelsize=13)
# 条形图边框设置
bar.set_bar_border_props(
    edge_color="black", pad=0.1, mutation_aspect=1, radius=0.2, mutation_scale=0.6
)
cnv.add_plot(bar)
cnv.animate()
# 显示
# plt.show()
# 保存gif
cnv.save("example3"24"gif")

效果如下,可以看出比上面的简单示例好看了不少。


另外作者还提供了相关的接口文档。


帮助我们理解学习,如何去自定义参数设置。


包含画布设置、保存设置、条形图设置、数据设置等等。


下面我们就通过获取电视剧「狂飙」角色的百度指数数据,来制作一个动态条形图。


先对网页进行分析,账号登陆百度指数,搜索关键词「高启强」,查看数据情况。


发现数据经过js加密,所以需要对获取到的数据进行解析。


使用了一个开源的代码,分分钟就搞定数据问题。


具体代码如下,其中「cookie值」需要替换成你自己的。


  
import datetime
import requests
import json

word_url = 'http://index.baidu.com/api/SearchApi/thumbnail?area=0&word={}'


def get_html(url):
    headers = {
        "User-Agent""Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36",
        "Host""index.baidu.com",
        "Referer""http://index.baidu.com/v2/main/index.html",
        "Cipher-Text""1652425237825_1652501356206_VBpwl9UG8Dvs2fAi91KToRTSAP7sDsQU5phHL97raPDFJdYz3fHf9hBAQrGGCs+qJoP7yb44Uvf91F7vqJLVL0tKnIWE+W3jXAI30xx340rhcwUDQZ162FPAe0a1jsCluJRmMLZtiIplubGMW/QoE/0Pw+2caH39Ok8IsudE4wGLBUdYg1/bKl4MGwLrJZ7H6wbhR0vT5X0OdCX4bMJE7vcwRCSGquRjam03pWDGZ51X15fOlO0qMZ2kqa3BmxwNlfEZ81l3L9nZdrc3/Tl4+mNpaLM7vA5WNEQhTBoDVZs6GBRcJc/FSjd6e4aFGAiCp1Y8MD66chTiykjIN51s7gbJ44JfVS0NjBnsvuF55bs="
    }
    cookies = {
        'Cookie': 你的cookie
    }
    response = requests.get(url, headers=headers, cookies=cookies)
    return response.text


def decrypt(t, e):
    n = list(t)
    i = list(e)
    a = {}
    result = []
    ln = int(len(n) / 2)
    start = n[ln:]
    end = n[:ln]
    for j, k in zip(start, end):
        a.update({k: j})
    for j in e:
        result.append(a.get(j))
    return ''.join(result)


def get_ptbk(uniqid):
    url = 'http://index.baidu.com/Interface/ptbk?uniqid={}'
    resp = get_html(url.format(uniqid))
    return json.loads(resp)['data']


def get_data(keyword, start='2011-01-02', end='2023-01-02'):
    url = "https://index.baidu.com/api/SearchApi/index?area=0&word=[[%7B%22name%22:%22{}%22,%22wordType%22:1%7D]]&startDate={}&endDate={}".format(keyword, start, end)
    data = get_html(url)
    data = json.loads(data)
    uniqid = data['data']['uniqid']
    data = data['data']['userIndexes'][0]['all']['data']
    ptbk = get_ptbk(uniqid)
    result = decrypt(ptbk, data)
    result = result.split(',')
    start = start_date.split("-")
    end = end_date.split("-")
    a = datetime.date(int(start[0]), int(start[1]), int(start[2]))
    b = datetime.date(int(end[0]), int(end[1]), int(end[2]))
    node = 0
    for i in range(a.toordinal(), b.toordinal()):
        date = datetime.date.fromordinal(i)
        print(date, result[node])
        node += 1
        with open('data.csv''a+'as f:
            f.write(keyword + ',' + date.strftime('%Y-%m-%d') + ',' + result[node] + '\n')


if __name__ == '__main__':
    names = ['唐小龙''孟德海''孟钰''安欣''安长林''徐忠''徐江''曹闯''李响''李宏伟''李有田''杨健''泰叔''赵立冬''过山峰''陆寒''陈书婷''高启兰''高启强''高启盛''高晓晨']
    for keyword in names:
        start_date = "2023-01-14"
        end_date = "2023-02-04"
        get_data(keyword, start_date, end_date)

爬取数据情况如下,一共是400多条,其中有空值存在。


然后就是转换成pynimate所需的数据格式。


对数据进行数据透视表操作,并且将空值数据填充为0。


import pandas as pd

# 读取数据
df = pd.read_csv('data.csv', encoding='utf-8', header=None, names=['name''day''number'])

# 数据处理,数据透视表
df_result = pd.pivot_table(df, values='number', index=['day'], columns=['name'], fill_value=0)
# 保存
df_result.to_csv('result.csv')

保存文件,数据情况如下。


使用之前深色模式的可视化代码,并略微修改。


比如设置条形图数量(n_bars)、标题字体大小及位置、中文显示等等。


from matplotlib import pyplot as plt
import pandas as pd
import pynimate as nim

# 中文显示
plt.rcParams['font.sans-serif'] = ['SimHei']  #Windows
plt.rcParams['font.sans-serif'] = ['Hiragino Sans GB'#Mac
plt.rcParams['axes.unicode_minus'] = False


# 更新条形图
def post_update(ax, i, datafier, bar_attr):
    ax.spines["top"].set_visible(False)
    ax.spines["right"].set_visible(False)
    ax.spines["bottom"].set_visible(False)
    ax.spines["left"].set_visible(False)
    ax.set_facecolor("#001219")


# 读取数据
df = pd.read_csv("result.csv").set_index("day")

# 新建画布
cnv = nim.Canvas(figsize=(12.87.2), facecolor="#001219")
bar = nim.Barplot(
    df, "%Y-%m-%d""3h", post_update=post_update, rounded_edges=True, grid=False, n_bars=6
)
# 标题设置
bar.set_title("《狂飙》主要角色热度排行(百度指数)", color="w", weight=600, x=0.15, size=30)
# 时间设置
bar.set_time(
    callback=lambda i, datafier: datafier.data.index[i].strftime("%Y-%m-%d"), color="w", y=0.2, size=20
)

# 文字颜色设置
bar.set_bar_annots(color="w", size=13)
bar.set_xticks(colors="w", length=0, labelsize=13)
bar.set_yticks(colors="w", labelsize=13)
# 条形图边框设置
bar.set_bar_border_props(
    edge_color="black", pad=0.1, mutation_aspect=1, radius=0.2, mutation_scale=0.6
)
cnv.add_plot(bar)
cnv.animate()
# 显示
# plt.show()
# 保存gif
cnv.save("kuangbiao"24"gif")

执行代码,《狂飙》电视剧角色热度排行的动态条形图就制作好了。


结果如下,看着还不错。


万水千山总是情,点个 👍 行不行



  文末赠书  


本次为大家介绍一本Python数据分析相关的书籍。

《Python数据分析从入门到精通》循序渐进地讲解了使用Python语言实现数据分析的核心知识,并通过具体实例的实现过程演示了数据分析的方法和流程。点击下图可看详情/购买👇


【声明】内容源于网络
0
0
数据分析与统计学之美
免费领10w字"Python知识手册",共400页,后台回复“十万”领取!
内容 1080
粉丝 0
数据分析与统计学之美 免费领10w字"Python知识手册",共400页,后台回复“十万”领取!
总阅读210
粉丝0
内容1.1k