ThinkerD 第 26 篇原创
导读
主题:看见数据的力量,数据可视化最佳实践
By:马林
阅读时间:约 18000 字,预计 10 分钟
阅读收获:
在数据洪流席卷一切的今天,数据可视化早已超越“图表工具”的范畴,成为产品设计者手中的“战略望远镜”与“战术显微镜”。
从约翰・斯诺用点地图锁定霍乱源头,到南丁格尔用玫瑰图推动医疗改革,人类始终在借助可视化的力量,将无序的数据转化为改变世界的决策。
数据(及数据能力)这道墙困住了 99% 的产品人,市场调研、产品设计、灰度发布、A/B 测试、产品运营(用户增长)等,今天,我们通过本文打破这道墙开启通往数据可视化的窗,全面讲述数据可视化的全部所有,带你读懂数据可视化发展、数据可视化实现,及数据可视化的常用工具和图表。
第二部分:数据可视化发展史:人类用数据拯救世界的 170 年
前言:数据之墙的破壁密码
170 多年前,约翰·斯诺用一张标注霍乱病例的地图,开启了现代数据可视化的旅程。今天,当我们已将 AI 智能可视化、人机智能协同数据广泛应用时,数据可视化以超出了工具的范畴,数据可视化由数据拯救世界开始,仍在连接世界、拯救世界。
每天,人类会产生惊人的 2.5 Quintillion 字节数据,从我们的智能设备、计算机、传感器等处流式传输。信息雪崩触及我们生活的方方面面,从天气预报到金融交易、健康和健身统计数据以及进度更新。
尽管数据本身庞大而丰富,但它并不能说明自己,如果没有诠释,原始数字只能是原始的符号。
数据,是思维里的一道墙;数据可视化是装扮美丽的墙,你可能被束缚,从而无法看到真相,你也可能借助高墙看到更远更美妙的风景。
数据,是产品人思维里的一道墙,帮你阻挡干扰和诱惑,聚焦需求本质;数据的可视化,则是从简单到复杂转为引人入胜的智慧。
数据(及数据能力)这道墙困住了 99% 的产品人,市场调研、产品设计、灰度发布、A/B 测试、产品运营(用户增长)等,今天,我们通过本文打破这道墙开启通往数据可视化的窗。
数据可视化,是通过图形、表格、线条、符号、色彩等形式将数据蕴含的寓意呈现出来,更好地表达出事物背后的真相和本质。
利用人眼的感知能力对数据进行交互的可视表达以增强认知的技术称为可视化,它将不可见或难以分析的数据转化为可感知的图形、符号、线条、颜色、纹理等等,以提高数据识别和信息传递的效率。
我们拿到的原始数据,可能是半结构化,甚至非结构化的,经过数据清洗和 ETL (数据仓库技术)过程,我们得到规整的结构化数据表,再通过视觉映射,得到需要展示的视觉结构,即按照什么维度、展示什么指标,最后,将视觉结构通过图像转换,转化为最终的可视化图像,呈现给决策者。
ETL,是 Extract-Transform-Load 缩写,用来描述将数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程。ETL 一词较常用在数据仓库,但其对象并不限于数据仓库。
数据可视化,是关于数据视觉表现形式的科学技术研究。其中,数据的视觉表现形式被定义为,一种以某种概要形式抽离出来的信息,包括相应信息单位的各种属性和变量。
数据可视化,它是一个处于不断演变之中的概念,其边界在不断地扩大。主要指的是技术上较为高级的技术方法,而这些技术方法允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释,与立体建模之类的特殊技术方法相比,数据可视化所涵盖的技术方法要广泛得多。
企业每天都会产生销售收入、市场营销业绩、客户资料、库存状况、生产指标、人员编制水平、成本和其他 KPI 的数据。由于要筛选的数据这么多,因此人们很难看清它描述的真实情况。
数据可视化,可将所有这些粒度数据变为容易理解、具有视觉吸引力并且有用的业务信息。
通过利用外部数据源,结合数据可视化工具,经过分析可以更清楚地看到 KPI 状况,还汇集数据并应用 AI 驱动的分析以揭示 KPI、市场与全世界之间的各种关系。
从价值角度、或者从产品实践角度,数据可视化可以分成三个层次:
基础:以可视化的形式呈现数据,要比单纯的看百分比、表格,数字比大小直观;
进阶:通过使用图形化、立体化、多维度等方式呈现,恰如其分、重点突出,具有视觉锤效果,强化说服力;
镀金:为突出视觉效果刻意为之,所谓高大上(吊炸天)的特效,已经超出了表现数据结果的本身定义。例如:项目汇报、公司总结、绩效考评、toG 信息大屏幕、Dashboard 形态驾驶舱等。
善意提醒(敲黑板):如果是个人评级答辩 PPT、投标文件、甲方项目汇报等场景,请把所有的可视化特效都用上。
数据空间:是由 N 维属性和 M 个元素组成的数据集所构成的多维信息空间;
数据开发:是指利用一定的算法和工具对数据进行定量的推演和计算;
数据分析:指对多维数据进行切片、块、旋转等动作剖析数据,从而能多角度多侧面观察数据。
数据可视化已经提出许多方法,这些方法根据其可视化的原理不同可以划分为基于几何的技术、面向像素技术、图标的技术、基于层次的技术、基于图像的技术和分布式技术等等。
数据可视化的基本思想,是将数据库中每一个数据项作为单个图元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。
数据中往往隐藏着有助于推动业务发展的重要见解。但问题在于,只是凭借原始数据,无法洞悉真相。当以可视化形式呈现的数据时,脑海中就会出现在其他情况下发现不了的模式、关联和其他顿悟式的见解。
数据可视化可以生动地呈现数据,让你成为讲述数字背后见解的高手。通过实时数据仪表板中交互式报表、图表、图形和其他可视化表示形式,数据可视化可帮助用户快速而有效地形成强大的业务思路。
1. 视觉的力量
尝试找出图中数字“7”:
换种视觉呈现的方式,是不是很容易找到数字“7”:
2. 可视化辅助决策
研究表明,人眼是一个高带宽大量视觉信号并行 GPU,带宽在 2.339G/s,相当于一个两万兆网卡,具有超强的模式识别能力,且对可视符号的处理速度比数字或者文本快多个数量级,在大数据时代,数据可视化是人们洞察数据内涵、理解数据蕴藏价值的有力工具。
因此,可视化常常被用来辅助决策,如上图,中间的一张密密麻麻的客户表,到底能得出什么有价值的信息指导决策呢?光看一行行一列列的数据,可能需要很久才能得出一些结论,但是经过可视化,我们可以轻松地以各种形式的可视化快速掌握结论,从而辅助决策。
这就是:可视分析,即将信息提炼为知识,起到“观物至知”的作用,便于决策者从复杂、大量、多维度的数据中快速挖掘出有效信息。
数据可视化简史:人类用数据拯救世界的170年
察看数据可视化的发展过程,是信息技术与计算技术的进步,从 1854 年伦敦宽街霍乱到 2020 年全球新冠病毒,从中国人发明火药始于炼丹术,到欧洲人却用它直接终结了冷兵器时代,推动人类科技和文明进步的两大武器是:疫病和战争。
本章节记录数据可视化发展过程,在组织本章节内容时发现,数据、数据可视化这种形式来源生活、平常而真实存在,在我们的生活中、所看到的无处不在。诚然,当我们理解了数据其背后的本质、数据可视化在实际案例中运用才会恰如其分。
原则:学以致用,从剖析本质中找到学习、应用的兴趣和快乐。
|| 0 死亡地图与 COVID-19(1854-2020)
John Snow 大概永远不会想到,自己在排查霍乱传播途径时,在地图上标记死于霍乱病人的“霍乱地图”居然会被后人评为历史上十佳数据可视化的案例,并且成为了医药地理学和传染病学中一项基本的研究方法。
John Snow(约翰·斯诺,1813 年 3 月 15 日-1858 年 6 月 16 日),英国内科医生,曾经当过维多利亚女王的私人医师,因在 1854 年伦敦宽街霍乱爆发事件研究中作出重大贡献,被认为是麻醉医学和公共卫生医学的开拓者。
John Snow 生活的年代,对霍乱的起因的主流意见是空气污染论(认为霍乱像黑死病一样通过空气传播),另一种意见是未被广泛接受病菌学说。通过深入研究,在与当地居民的沟通中加上亨利·怀特海德的协助,John Snow 判断出宽街的公共水泵是污染源,随后使用点示图去解释霍乱案例爆发点是以水泵为中心。John Snow 通过连接霍乱事件与地理信息的关联,创制了著名的“霍乱地图”。
John Snow 将该地区的每一个水泵,以及四周的水井都标注到图中,最后他发现最多的霍乱患者围绕的水泵位于宽街。
死亡地图
始于 2020 年全球爆发的 COVID-19 ,我们每天都会查看疫情地图,要感谢祖师爷 John Snow 的伟大成就。
图片来源:全球在COVID-19肆虐下,活动又有什么变化呢? - Garmin
引用 Garmin 官网数据有意思的图表(2019 年 4 月 - 2020 年 4 月),说明大家都在居家,户外的行为也转为室内的器材训练。
全球在 COVID-19 肆虐下,全球整体步数在 2020 年 4 月下降了约 12%,全球步数从“训练活动中”增加 24%。
在中国、墨西哥、南非以及其他很多国家,器材训练相比于其他活动增加更多。以全球来说,室内有氧训练占其中的 50%;而去年同时期则是超过 50% 的比例为重量训练,这可以视为健身房结构的训练转向以家庭为主的替代训练。
人类早在公元前 6200 年就掌握了观测和绘制的能力,此后也一直通过手工的方式制作可视化作品。可视化萌芽出自地图和一些简单的图表,数据也不是测量而来,目的大多是展示一些重要的信息。
公元950年,欧洲人画出了基于时间变化的折线图,用于展示太阳,月亮等行星的位置变化趋势,开始出现如今的数据图表的雏形。
17 世纪以后,随着对物理基本量(时间、距离等)的测量理论和设备的完善,制图学理论也随着分析几何、概率论等学科迅速发展,17 世纪末产生了基于真实测量数据的可视化作品。
人类第一幅天气图( 1686 年)
这幅图是谁画的呢?Edmond Halley(1656 - 1742),埃德蒙·哈雷,是不是挺耳熟,就是发现哈雷彗星的那个哈雷。
图上绘制了信风和季风的方向,“一目了然地显示了这些风的所有不同地段和路线;据此,有可能比任何口头描述都更容易理解”。
Edmond Halley
进入 18 世纪,人类不再满足于地图上的几何信息,随着统计理论、实验数据分析等学科的发展,现在我们所熟悉的函数图、抽象图被广泛发明。
此图来自威廉·普莱费尔( William Playfair,1759 - 1823 ),他是来自苏格兰的工程师和政治经济学家,今天我们使用的折线图、条形图、饼图和面积图都是他发明的。图中,红线是出口额,黄线是进口额,通过两条折线可以很明显地看出,1754 年前,出口额小于进口额,之后出口额反超。
19 世纪,统计图、概念图等迅猛爆发,此时人们已经掌握了众多统计数据可视化工具,包括柱状图、饼图、折线图、时间线、轮廓线等。政府规划和运营也越来越多地采用可视化方法,19 世纪下半叶,迎来了数据可视化的黄金时期。这个时期的数据可视化代表作,除了上文中提到的“霍乱地图”,还有下面这张拿破仑东征流图。
1812-1813 对俄战争中,法军人力持续损失示意图(1869 年,被誉为史上最佳可视化图表)
这张图的信息量极大,是 1969 年法国工程师 Charles Joseph Minard 制作的,描绘了拿破仑 1812 年率军攻占莫斯科的行军图。
其中,最底层是地图,深黄色图形表示行军规模,黑色图形表示撤军规模,线条宽度代表了军队的人数,可以看出从出发时开始的 42 w 大军,行军规模逐渐缩减,撤军规模逐渐增加,到达莫斯科时只剩 1 w 人。当然,线条的走势也是行军/撤军路线。
同时,底部既有横向的时间轴,也有纵向的刻度标识了当时的气温。此图可以直观感受到,拿破仑的 40 万大军是如何在长途跋涉和寒冬中消耗殆尽,此次东征也视为拿破仑由盛转衰的转折点。
南丁格尔玫瑰图,就是那位护士弗罗伦斯·南丁格尔( Florence Nightingale ),护理学的奠基人,她的另一个身份是统计学家。
19 世纪 50 年代,英国、法国、土耳其和俄国进行了克里米亚战争。南丁格尔主动申请,自愿担任战地护士。当时的医院卫生条件极差,士兵死亡率高达 42%,直到 1855 年卫生委员会来到医院改善整体的卫生环境后,死亡率才戏剧性地降至 2.5% 。
当时,南丁格尔注意到这件事,认为政府应该改善战地医院的条件来拯救更多年轻的生命,“南丁格尔玫瑰图”直观展示了卫生条件对死亡人数的影响,因而争取到了更好的医疗条件。
进入 20 世纪,数据可视化的黄金时期终结,主要原因是随着数理统计的诞生,追求数理统计的数学基础成为数据科学行业的首要目标,而图形和可视化作为其辅助,没有得到太多重视,多维数据可视化是这个时期可视化的重要特点。
1904 年,关于太阳黑子随时间扰动的蝴蝶图验证了太阳黑子的周期性
随着计算机的发明和应用,人们开始采用计算机编程完成可视化过程。70 年代以后,随着人机交互界面、图形显示设备的普及,人们获得了将更复杂、更高维数据的可视化能力。
自 80 年代末开始,Windows 系统的问世使得人们能够直接与信息交互,也极大地提升了人们对于可视化的热情。同时,随着高维数据和高性能计算的进一步普及,对于多维、时变、非结构化数据呈现和分析的需求也更加强烈,可交互的可视化产品开始登上历史舞台。
|| 7. 2004 - 2015:可视分析时代(2004-2015)
进入 21 世纪,人们并不满足现有可视化技术对于数据的呈现和表示,开始将可视化和数据挖掘、图形学结合起来,以辅助用户从大尺度、复杂、矛盾甚至不完整的数据中快速挖掘出有用的信息,以便有效做出决策,这门学科就称为可视分析学。
大数据公司 Palantir 为美军分析的亚丁湾海盗概率热点图
|| 8. 2016-2019:AI 增强可视化时代(2016 - 2019 数据智能的第一次觉醒)
自 2016 年起,图像识别、语音识别等 AI 技术取得重大突破,数据可视化领域开始迈入一个全新的智能化辅助阶段。这一时期,机器学习算法逐渐被引入到数据可视化流程中。比如,算法能够依据数据特征,辅助用户更高效地选择合适的图表类型。
如果是面对一组销售数据,机器学习模型可通过分析数据的趋势、分布及相关性,自动推荐折线图以展示销售趋势,或用柱状图进行不同产品销售额的对比。AutoML 驱动的自动化可视化案例,是 Power BI 2017年推出Q&A自然语言交互功能,用户输入“显示销售额TOP5产品”即可自动生成优化图表布局。
同时,AI 助力的数据预处理也成为亮点,复杂且杂乱的原始数据,在 AI 算法的清洗和转换下,能够快速被规整为适合可视化的格式。在电商领域,大量用户行为数据经 AI 预处理后,可通过可视化清晰呈现用户浏览、购买路径等信息,为商家优化运营策略提供有力支撑。部分前沿的可视化工具开始尝试利用 AI 进行简单的可视化布局设计,根据数据的重要程度自动调整图表元素的位置和大小,增强可视化效果的表现力。
2016年 Ian Goodfellow 提出 GAN 架构,实现数据与视觉的跨模态生成。腾讯优图团队据此开发低光照增强算法,通过双分支网络结构(全分辨率+低分辨率)重建光照图,在移动端实现专业级图像调光效果。
腾讯优图开发算法,不完全依赖硬件,使用算法对图形处理
跨模态机器视觉 - 人工智能模型实现跨模态图像检索技术
|| 9. 2020 - 2022:人机协同智能时代:双向感知的融合跃迁
2020 年之后,大模型技术如 ChatGPT 等的迅猛发展,为数据可视化带来了革命性的变化,开启了深度融合与智能交互的全新时代。大模型具备强大的理解和生成能力,能够理解用户用自然语言描述的可视化需求,并将其转化为实际的可视化图表。例如,用户只需输入“展示过去一年公司不同产品线的销售额占比及变化趋势”,基于大模型的可视化工具就能快速生成包含饼图展示占比、折线图体现趋势的复合可视化界面。
在数据探索方面,大模型可对海量数据进行深度挖掘,发现隐藏在其中的复杂模式和关联,并以可视化方式呈现。在金融领域,通过大模型对市场行情数据、企业财务数据等多源异构数据的分析,能生成可视化图谱揭示不同金融产品、企业之间的潜在风险传导关系。
同时,智能交互达到新高度,用户能与可视化界面进行自然流畅的交互。比如,在展示城市交通流量的可视化大屏中,用户通过语音指令就能实现对特定区域、特定时段交通数据的聚焦查看,还能要求系统对数据进行深入分析并实时更新可视化结果,真正实现从“看数据”到“与数据对话”的转变,极大提升了数据洞察的效率和深度。
2023年 马斯克旗下研究脑机接口的公司 Neuralink 发布脑控热力图,猴脑电极操控,实现完成:生物智能-机器智能的双向感知闭环
|| 10. 2023+:自主智能体协同时代(2023+)
进入 2023 年,数据可视化领域借助自主智能体技术,迈入了协同运作的崭新时代,为数据洞察带来了前所未有的高效与深度。自主智能体是一种能够在特定环境中自主决策并行动的智能程序,它们可以理解任务目标,通过感知环境信息,自主规划并执行一系列操作以达成目标。在数据可视化中,多个自主智能体协同工作,形成了一个高度智能化的生态系统。
在数据收集与预处理阶段,自主智能体展现出强大的协作能力。不同类型的自主智能体被赋予特定任务,有的负责从多样化数据源(如分布式数据库、实时数据流、社交媒体平台等)精准采集数据,有的专注于清理数据中的噪声、异常值,以及进行数据格式转换。
以电商行业为例,一个智能体负责收集各个销售渠道的订单数据,另一个智能体则对这些数据进行清洗,将不同格式的日期、金额等数据统一规范,为后续的可视化分析做好准备。它们之间通过高效的通信机制共享信息,确保数据收集的全面性和预处理的准确性,极大提升了数据处理的效率和质量,为可视化提供了坚实可靠的数据基础。
进入可视化设计环节,自主智能体的协同优势愈发显著。基于大模型的智能体理解用户自然语言描述的可视化需求后,会与擅长图表布局设计的智能体合作。前者解析用户需求,确定关键数据指标和想要呈现的关系,后者依据这些信息,结合数据特点和可视化最佳实践,选择最合适的图表类型(如柱状图、折线图、散点图等),并进行优化布局,包括合理安排坐标轴、标题、标签以及调整图表元素的大小、颜色和位置等,以增强可视化效果的可读性和吸引力。
如果用户希望了解过去一年公司不同产品线的销售额变化趋势以及各产品在不同地区的销售占比情况,负责需求理解的智能体将这一复杂需求拆解,与负责布局设计的智能体协同,快速生成包含折线图展示趋势、饼图呈现地区销售占比的复合可视化方案。
在数据探索和交互方面,自主智能体协同进一步提升用户体验。当用户与可视化界面进行交互(如点击、缩放、筛选数据等)时,自主智能体实时感知用户操作,迅速做出响应。负责数据分析的智能体根据用户交互行为,深入挖掘数据中的潜在模式和关联,并将结果及时反馈给可视化呈现智能体,动态更新可视化内容。
在城市交通流量可视化系统中,用户通过语音指令要求查看特定高峰时段内某几个重点区域的交通拥堵情况,自主智能体协同工作,快速筛选出对应的数据,分析拥堵路段之间的关联,并以直观的可视化形式(如热力图叠加动态路线图)展示出来,帮助用户快速洞察交通状况,做出合理决策。
此外,自主智能体还能根据用户历史交互数据和偏好,持续学习并优化可视化流程。它们自动调整数据收集的侧重点、可视化设计策略以及交互响应方式,以更好地满足不同用户的个性化需求。随着时间推移,这个自主智能体协同系统不断进化,为用户提供越来越精准、高效、个性化的数据可视化服务,真正实现从数据到洞察的无缝衔接,推动数据可视化在各领域的应用达到新的高度。
数据可视化实现:从脏数据到决策利刃
进入“大数据时代”,复杂、异构、大尺度的数据中经过分析所得的知识,和人类所掌握知识的差异是导致新知识发现的根源,但如此复杂的数据也往往会让人感到困惑。
利用人的强大视觉识别能力和推理分析来表达、分析、检验这些差异正是“大数据时代”数据可视化的新思路。这就要求我们在进行数据可视化时必须理解数据含义、目标明确。
数据可视化本身并没有多么高级,但为什么从可视化的角度去观察、审视数据时,总能让我们叹为观止。数据可视化没有天花板,只有更“适合”,在所谓“适合”的标准上没有答案。我们在进行数据可视化时,结合数据分析目标、受众对象综合考虑。
定义获取数据的功能,并验证上报准确数据,俗称:“数据打点”。同时,为了提升后续处理数据的效率,尽量在前期按照结构化、干净的数据目标准备。
再漂亮的可视化,没有准确的数据支撑,也是空中楼阁。不光是可视化,基于数据的分析,模型,支撑风控、营销和运营,在缺少数据质量支撑的前提下几乎都无从谈起。
|| 2. 明确目标(理解数据含义)
做可视化,最容易进入的误区就是,拿到一堆数据,还没有理解数据有什么含义,直接就开始套用图形进行展示,把大部分时间用在美化图表上,而完全忽略数据本身传达的意义。
下面这张图信息量很大,可以帮助大家评估一个可视化作品是否成功。比如:把数据按照一个故事线组织起来,那多半是一个研究文档或者提纲,再加上特定的目标和功能介绍,这时可以画出线框图,再加上视觉形式,最终有可能变成一个成功的可视化作品。
比如:只有数据和视觉形式,只能是纯粹的数据艺术,看起来很美,其实没有价值,就算加上一个故事,也没有什么特定的用途,给不了任何启发,只有赋予它一个特定的目标,才有可能成为一个成功的可视化。
所以,明确一个可视化作品的目标是很重要的,知道要传达什么信息,达到什么目标,才知道要选择什么展现形式。不同的图表类型适合表达不同的含义,如果要比较趋势,折线图就比柱状图更合适;要表达占比,饼图不一定比堆积柱状图好用。
根据我们需要表达的可视化目标,选择合适的可视化呈现图形,这里并没有完全绝对完全正确的标准或规则,有个原则:选择最恰当最合适的图表形式来呈现目标。
引入 Andrew Abela 博士 在 2009 年创建的图表选择公式图,您想用数据表示什么,通常有 4 种主要类型:
• 对比:当我们想要比较数据中的不同值或属性时。有一些变体,具体取决于数据。例如:数据是否包含时间变量?多少个时间段?数据存在多少变量和类别?
• 组成:当我们想知道数据是如何组成时,即数据集中存在哪些一般特征。有些变体,具体取决于数据。例如:随着时间的推移是否有变化?有多少个时间段?在静态数据中,是否有累积的值?
• 分布:当我们想了解单个数据点如何在整个数据集中分布时。根据我们要分析分布的变量数量,我们可以选择条形图、折线图或散点图。
• 关系:在这种情况下,我们有兴趣了解值和属性如何相互关联。面对数值,当涉及两个变量时,通常使用散点图,当涉及三个变量时,使用气泡图。
在这四种类型中,大多数情况下最有可能使用前两种,比较和组合,除非有高级统计分析需求。
如果以上流程图看起来复杂,那么可以看一个简单的列表,有前辈们已经归纳好了。搬运自FT中文网提供的可视化词典参看下图。
FT 中文网 可视化词典,打印出来贴墙上吧,抬头就可以知道选用哪种图表合适。
图片可能被网络压缩后模糊,原图非常大,建议下载后看大图,需要原图可以私信。
Excel、Python、Matlab 和 SAS 等数据分析软件经常自带数据可视化包或工具,科研人员或技术人员可借此对数据进行初步可视化制作,以继续深入分析和挖掘,维度相对简单,对视觉要求较低,适合技术人员初步分析或学者发表研究论文。
下图是针对 2016 年美国大选选民学历的可视化分析,未接受高等教育的白人比例越大(相比 4年前),Trump 的胜算越大,而这个比例在男性中更为明显。
由设计人员根据清洗过的数据,充分分析其含义后,利用 illustrator、Corel Draw、PS 等平面设计软件进行手动加工,同时加入注解信息获得。可读性趣味性很强,但相对数据准确度不高,常出现于媒体资讯或者公司行业报告中,也就是大家经常看到的“一图看懂 XXXX”。
可借由 HTML5、JS 等技术动态地、可交互地展示高维数据,非技术背景的普通用户也可以对自己感兴趣的数据进行选取和下钻。
常由多个网页构成商业智能(BI)系统,但近年来也被媒体广泛采用展示热点数据。
数据可视化最佳实践
|| 1. 数据可视化原则
定义数据可视化的目的是什么?图形受众是谁?可视化需要重点表达哪些信息。
Boss 通常喜欢看有简单视觉效果的高级仪表盘,喜欢从全局视角观察。
分析师需要更精细化的可视化效果,使用散点图、热图。
通常,最简单的设计最易表达意图,因此,避免使用过多的图表形式和图表技术。
使用清晰的图表、标签和图例,遵循“少即是多”的原则,删除掉无关的元素。
数据的变化,要综合历史数据;数据的发展,确定数据在同样的发展路径下生成。
例如:销售数据,使用相同的时间段和度量单位。对比的数据,选取相应的发生背景。
一致的配色方案、字体和图表类型可防止混淆,并使用户专注于趋势,而不是格式设置。
某些情况下,数据可视化需要额外添加内容来阐述数据,添加标题、注释或标注,以解释数据趋势或异常。
例如:如果图表显示销售额下降,则添加注释解释季节性下降。
检查文本、背景、图表元素之间是否有足够的颜色对比度,以适应有色觉缺陷的用户。
避免仅依靠颜色来传达含义,添加图案、形状或注释以清晰起见。
对于数字仪表板,交互式功能应可通过键盘和屏幕阅读器进行分类导航。
目标:尽量做到大多数阅读者都能清晰的阅读可视化,颜色、图表、字体、布局等。
建立可视化时一并考虑数据更新的灵活性,综合时效性(天/周/月)、缓存策略(实时/静态)等要求确定集成数据更新方式和工具。
例如:实时仪表板需要自动化更新,静态月度报告可以定制设计。
展示数据有多重方式,通常我们会选择简单、直观、适用的类型。
选择可视化图表类型可以按照:基本数据、类比与趋势、关系与集群、分布与异常、流量与网络等,对照数据可视化矩阵选择表,选取对应的图表类型。
数据可视化选择矩阵图
数据可视化工具&资料
|| 1. 常用的图标类型
1. 表格与变体 (Tables and Variants)
2. 柱状图 (Basic Column Chart)
4. 分组柱状图 (Multi-set Bar Chart)
5. 双向条形图 (Bi-directional Bar Chart)
11. 南丁格尔玫瑰图 (Nightingale Rose Chart)
14. 堆叠面积图 (Stacked Area Chart)
15. 堆叠柱状图 (Stacked Bar Chart)
16. 瀑布图 (Waterfall Chart)
|| 1. 表格与变体 (Tables and Variants)
表格是用于呈现文本和数字信息的最通用工具之一。表格分为行和列,使其易于构建和理解,前提是标题和行标签设定定义。
除了标准表格之外,Excel 或 Google Sheets 等软件还可以通过分组和过滤来动态汇总、分析和探索数据,在数据透视表中,用户可以在其中快速重新排列行、列和值,可以实时、动态地获得见解。
|| 2. 柱状图 (Basic Column Chart)
柱状图用于不同分类的数据之间对比情况,是一种以长方形的长度为变量的统计图表,有且仅有一个变量,其中一个轴表示需要对比的分类维度,另一个轴代表相应的数值 。柱状图适用于描述分类数据(大小,数值)之间的对比。
矩形数量控制在 12 条以内最佳,分类太多建议使用横向柱状图。
横向柱状图,也有叫做条形图,和柱状图相似只是交换了 X 轴和 Y 轴,用于描述分类数据之间的对比,如果条目较多,比如大于 12 条,更适合用条形图,也常见用于手机端,Top 排行或分类名称较长的情况。
当条目较多,如大于 12 条,且移动端显示需求较大时,更适合用条形图( Y 轴一定从 0 开始的) ,也常用于排行榜或名称较长的情况。
数量一般不超过 30 条,否则易带来视觉和记忆负担。
|| 4. 分组柱状图 (Multi-set Bar Chart)
分组柱状图,又叫聚合柱状图或者分组条形图,可以在同一个轴上显示各个分类下不同数据情况, 跟柱状图类似,使用条柱的高度来展示和对比数据值,每个分组中的条柱用不同的颜色或相同颜色不同透明度区分类别,每组分组数据之间需要保持相应的间距。
根据分组数量,可以使用横向分组条形图(类目超过 10 个)也可以使用纵向分组条形图。同一个分组内,矩形用不同的颜色或相同颜色的不同透明图做区分。类似于柱状图,间距和大小并没有严格的规范,可根据实际业务内容进行调整,避免过粗或者过细,间距也要适中 。
|| 5. 双向条形图 (Bi-directional Bar Chart)
双向柱状图(又名正负条形图),使用正向和反向的条柱显示类别之间的数值比较。其中分类轴表示需要对比的分类维度,连续轴代表相应的数值,分为两种情况,一种是正向刻度值与反向刻度值完全对称,另一种是正向刻度值与反向刻度值反向对称,即互为相反数。和柱状图相似,最明显的区别是有正反数据的区分,更加强调其对比性 ,适用于两组以上分类数据比较,常见于收入和支出。
子弹图的样子很像子弹射出后划出的轨道,所以称为子弹图 ,其无修饰的线性表达方式使我们能够在狭小的空间中表达丰富的数据信息,相对于圆形构图的信息表达,在信息传递上有更大的效能优势。
子弹图的使用场景是对比分类数据的数值大小以及是否达标。
折线图是常用到的图表之一,又称为趋势图,是用于显示数据在一个连续时间区间或时间跨度上的变化,它的特点是反映事物随时间或有序类别而变化的趋势。
横轴为连续类别(如时间)且注重变化趋势时,适用折线图 。横轴需表示连续数值,否则折线图意义不大。在使用折线图时,不建议在曲线下方着色,曲线下方着色容易让人联想到面积图,有时为了视觉辅助加成,可以在下面做一个微渐变。同一图表内同时展示的折线数量不宜超过 4 个,太多可以分开列表展示 。为了视觉的美观可以将折线转换成平滑曲线。
面积图又叫区域图,是在折线图的基础上形成的,它将折线图中的折线与自变量坐标轴之间的区域用颜色或者纹理填充,需要注意的是颜色要有一定的透明度。这样的填充区域称作面积,可以更易突出趋势信息。
面积图和折线图一样,用于强调数量随时间而变化的程度,常用于表现趋势和关系,而不是表现特定的值。
• 面积图和折线图都是展示时间或者连续数据上的趋势,折线图相互之间不进行遮盖,可以用于显示更多的记录。
• 面积图可以进行层叠,非常适合观察总量和分量的变化。
漏斗图,随着流程的推进,每个环节所要达成的成功数(或到达数)在逐渐减少,整个过程像漏斗一样逐步流失。漏斗图适用于业务流程比较规范、周期长、环节多的单流程单向分析,通过漏斗各环节业务数据的比较能够直观地发现和说明问题所在的环节,进而做出决策 。
漏斗图从上到下,有逻辑上的顺序关系,表现了随着业务流程的推进业务目标完成的情况,适用于流程流量分析 ,漏斗图最常用在增长链路分析。漏斗图总是开始于一个 100% 的数量,结束于一个较小的数量,所以在设计时,图形面积是逐步变小 。
不同的环节用不同的颜色或者同一种颜色不同透明度进行区分,帮助用户更好区分各个环节之间的差异。
雷达又叫戴布拉图、蜘蛛网图,常出现在游戏或动漫人物属性介绍中(大家常说的六边形战士就是雷达图,六边即是 6 种属性),它将多个维度的数据量映射到坐标轴上,在坐标轴设置恰当的情况下雷达图所围面积能表现出一些信息量。
雷达图,常用于一些多维的性能数据,如综合评分,也可用于多组多维度对比。在使用中,一般会将多个坐标轴都统一成一个度量,比如统一成分数、百分比等,这样就成了一个二维图。
坐标轴可以是圆形或是多边形,具体可根据整体页面进行调整;不同数值之间需要用不同颜色或者相同颜色不同透明度区分。
|| 11. 南丁格尔玫瑰图 (Nightingale Rose Chart)
南丁格尔玫瑰图又名鸡冠花图、极坐标区域图,是南丁格尔在克里米亚战争期间提交的一份关于士兵死伤的报告时发明的一种图表,前文已经描述过。
南丁格尔玫瑰图是在极坐标下绘制的柱状图,使用圆弧的半径长短表示数据的大小(数量的多少)。
由于半径和面积的关系是平方的关系,南丁格尔玫瑰图会将数据的比例大小夸大,尤其适合对比分类数据的数值大小。图表中,不同数值颜色进行区分;不适用于分类过少的场景,或者部分分类数值过小的场景 ,最多不超过 30 条分类数据。
饼状图通过扇形区块的面积、弧度和颜色等视觉标记,用来表示不同分类的占比情况,整个圆饼代表数据的总和,每个区块(圆弧)表示该分类占总体的比例大小。
饼状图中,表示不同分类的占比情况,整个饼图代表数据的综合。
2 组以上分类数据,最多不超过 9 个,分组过多很难清晰对比各数据占比;分类占比差别不明显时,建议使用柱状图;当空间足够时,图例可以在扇形内,或者靠近扇形。
环形图,又称甜甜圈图,其本质是饼图中间区域留空,相较于饼状图关注面积占比情况,环形图更关注角度和弧长的对比。
与饼状图一样,用于对比分类数据的数值大小,当同一页面有多组数据需要进行对比时,建议使用环形图 。
饼图的整体性更强,适用于要将注意力集中在比较饼图内各个扇形之间占比整体比重的关系;环图相对于饼图控件利用率更高,适用于同个页面内重复使用,对其他元素干扰较小。
|| 14. 堆叠面积图 (Stacked Area Chart)
堆叠面积图和面积图一样,唯一的区别就是除了表达趋势外,也表达总量和分量的构成情况以及部分与整体的关系。
优先对比每个分组数据变化的趋势,其次表达总量和分量的构成情况;和折线图一样,横轴表示连续数值,否则意义不大;分类指标的纵轴起点,并不是从 0 开始,而是在上一个分类基础上叠加。
|| 15. 堆叠柱状图 (Stacked Bar Chart)
堆叠柱状图将每个柱进行分割以显示相同类型下各个数据的大小情况。它可以形象展示一个大分类包含的每个小分类的数据,以及各个小分类的占比,显示的是单个项目与整体之间的关系。
表达一级分类的对比,以及二级分类的占比构成;分类指标的纵轴起点是在上一个分类基础上叠加 ;分类不超过 12 个,分组颜色不超过 6 个,分类分组过多,数据识别度会相对降低。
|| 16. 瀑布图 (Waterfall Chart)
瀑布图,是由麦肯锡顾问公司所独创的图表类型,因为形似瀑布流水而称之为瀑布图,也被称为飞行砖图或马里奥图,瀑布图有助于理解依次引入正值或负值的累积效应。
瀑布图,用于表达多个数值之间的变化过程,通常用于了解初始值如何受到一系列中间正值或负值的影响。瀑布图,在使用时可参照柱状图设计,但要注意正值和负值的区分。
|| 17. 散点图 (Scatter Graph)
散点图也叫 X-Y 图,它将所有的数据以点的形式展现在直角坐标系上,以显示变量之间的相互影响程度,点的位置由变量的数值决定 。也有一种情况,根据数据的分类将坐标象限进行调整,表达数据在不同象限内的情况。
散点图,可以结合颜色来标记不同的类别,如果分类过少不推荐用散点图。
|| 18. 气泡图 (Bubble Chart)
气泡图是一种多变量图表,是散点图的变形,气泡图最基本的用法是使用三个值来确定每个数据序列,气泡的大小是映射的面积而不是半径或者直径绘制的。
气泡图,适合观察数据的分布情况,对比各个分类字段对应的数值大小;气泡图,可以结合颜色表达数据的分类;绘制时,气泡的大小是映射的面积而不是半径或者直径。
按照地图的形式,显示地理区域上的数据。在实际可视化中,使用地图作为背景,通过图形的位置来表现数据的地理位置,通常来展示数据在不同地理区域上的分布情况。
地图可以结合散点图、气泡图等,分为:带气泡的地图 (Bubble Map)、分级统计地图 (Choropleth Map)、点描法地图 (Dot Map) 三类常见的地图。
地图,多用于各地区的分布情况;地图,可以结合多种不同的可视化方式,比如结合远点动画,增强位置效果,结合飞线图表达起始点和重点的流向。
注意:《地图管理条例》(2015 年 11 月 26 日国务院令第 664 号公布)第十五条明确说明:“国家实行地图审核制度。向社会公开的地图,应当报送有审核权的测绘地理信息行政主管部门审核。但是,景区图、街区图、地铁线路图等内容简单的地图除外。”
在设计中运用地图元素一直是一个风险度极高的事情,主要是因为它的合规性和完整性非常的专业,容易触发红线,所以在遇到需要使用地图的情况时,设计前期可先向有关部门了解相关审批流程。
建议:我们在设计地图类的可视化图表时,借鉴地图的表现思维,而不是生搬地图具体样式。比如,我们经常看到热力图的用法,就是地图类图表的变形,借鉴地图的表现力。
某数据分析案例:电商平台用户购买行为与所在地域的关系,图表颜色深浅表现销量多少
直方图用于展示连续型数据分布的统计图表,通过将数据划分为若干个连续的区间(Bins),并用矩形的高度表示每个区间内数据的频数或频率,其核心作用是直观呈现数据的分布形态(如正态分布、偏态分布等)、中心趋势和离散程度。
直方图中的条形彼此相邻,因为它们表示连续的值范围。通常,条形的宽度相同,表示相等的范围。直方图可用于根据数据样本预测频率的宏观趋势。条形图形成的模式(例如对称、单峰或双峰)可以帮助识别趋势。
热力图是一种用颜色的深浅或不同色调来表示数值大小和分布的数据可视化方式。
行和列:通常是一个矩阵结构,每个单元格表示一个数值,行和列对应不同的类别、时间点、特征或其他维度。
颜色编码:用颜色深浅表示数值大小,数值越大颜色越深,数值越小颜色越浅,具体由配色方案决定。
热力图,直观地展示数据的大小分布、聚集和分散等特征,让用户快速了解数据在不同区域的分布情况。通过颜色的变化,易于发现数据中的模式、趋势和异常点,有助于用户理解数据的内在规律。
城市地区气温热力图
汇市热力图
箱型图,又称盒须图、箱线图,是一种通过四分位数、中位数和异常值等统计量,直观展示数据分布特征的图表。其核心由“箱子”和“须线”组成,可同时呈现数据的中心趋势、离散程度和偏态分布。
多维度统计展示:同时呈现中位数、四分位数、离散范围和异常值,比直方图更简洁地概括数据分布特征。
例如:对比不同班级成绩时,箱型图可直观显示“哪个班级中位数更高、分数更集中”。
适合组间对比:可在同一图表中并排展示多组数据的箱型图,快速比较不同组的中心趋势和离散程度。
例如:对比 A/B/C 三个渠道的用户消费金额分布,判断哪个渠道用户价值更集中。
利用箱型图分析对比病毒的传播情况
流程图是表示流程、算法或工作流的图表。它使用方框来表示步骤,并通过箭头连接以指示流的方向。
菱形框表示改变流程方向的 yes/no 问题。流程图对于设计、管理或记录流程非常有用。
|| 24. 桑基图(Sankey Diagram)
桑基图,是一种以流量为核心的可视化图表,通过带箭头的连线(称为 “边”)展示数据从起点(源节点)到终点(目标节点)的转移关系,连线的宽度与流量大小成正比。
桑基图,名称源于 1898 年爱尔兰工程师马修・桑基(Matthew Henry Phineas Riall Sankey)绘制的 “蒸汽机能量流图”,首次用线条粗细表示能量损耗比例。
桑基图是一种流程图,其中箭头的宽度与流量成正比,图表说明了定义系统内的传输或流动,通常显示守恒(无损)量。桑基图对于传达两组或多组数据之间的关系非常有效。它们在显示趋势方面非常强大,尤其是在具有复杂关系的系统中。
男生/女生、年级、科目、班级、等级比例变化
能源转化流向占比
-
https://datavizcatalogue.com/
-
https://observablehq.com/@didoesdigital/links
Chartio Data Tutorials (数据图表指南)
-
https://chartio.com/learn/charts/
Microsoft Power BI - 微软数据可视化平台工具
-
https://powerbi.microsoft.com
结尾:打破终极思维之墙
终于把数据可视化相关的内容整理完了,记得开篇时提到,数据可视化是思维里的一道墙……
回到原点:我们想通过数据、数据可视化讲述什么故事,想向人们表达什么;我们分析研究数据,想通过数据可视化在数据的迷阵里寻找什么;我们不断的调整变量、调整图表样式,时间、指标、数值、比值、增长、流失等等,试图从他们中间找到哪些微妙的关系。
数据分析旅程是美妙的,数据可视化输出结果是美丽的,真正理解数据蕴含的本质之后,你会发现思维里关于数据可视化那道墙根本就不存在。
在数据洪流席卷一切的今天,数据可视化早已超越“图表工具”的范畴,成为产品设计者手中的“战略望远镜”与“战术显微镜”。从约翰・斯诺用点地图锁定霍乱源头,到南丁格尔用玫瑰图推动医疗改革,人类始终在借助可视化的力量,将无序的数据转化为改变世界的决策。而在 AARRR 模型的实战中,每一张桑基图的流量流向、每一个热力图的热点分布、每一组箱线图的异常标记,都在诉说着数据背后的增长密码。
回顾以往文章中讨论的实战案例,我们见证过某电商平台如何用漏斗图 + 热力图组合,将注册转化率提升 15%;目睹了教育 APP 通过核密度图发现“深夜活跃用户留存率更高”的反常识洞察;更惊叹于社交产品借助动态桑基图,精准定位用户流失的关键节点。这些成功的背后,是可视化思维对传统数据分析范式的革命:是它让“数据开口说话”,更让沉默的数字成为驱动增长的“超级引擎”。
但警惕,可视化并非万能解药。正如文中反复强调的,错误的图表选择(如用 3D 环形图扭曲数据比例)、过度追求视觉效果(忽略“数据墨水比”原则)、脱离业务场景的图表堆砌,都会让可视化沦为“数据的漂亮外衣”。真正的高手,懂得在工具与思维之间找到平衡点:用箱线图发现异常,用热力图定位关联,用 K 线图捕捉趋势,最终构建起从“数据可视化”到“决策可视化”的完整闭环。
站在产品设计的十字路口,数据可视化既是挑战,更是机遇。当越来越多的企业陷入“数据丰富、洞察贫乏”的困境时,那些能将业务模型与可视化深度融合的设计者,正在开辟全新的数据可视化应用赛道。未来已来,你准备好用可视化的“超级引擎”,驱动产品突破增长天花板了吗?
欢迎在评论区分享你的故事,点赞 TOP3 的读者将获得《数据可视化实战案例集》电子版资料包,让我们一起用图表改写数据故事!
全文完。
如果觉得不错,就随手点个「赞」和「在看」吧。
以上文中提到的问题、及对应的解决方法,欢迎评论区留言讨论。
参考资料:
https://powerbi.microsoft.com/zh-cn/data-visualization/
https://www.secrss.com/articles/36649
http://www.boxui.com/ued/design-idea/46431.html
https://uxdesign.cc/data-visualization-how-to-choose-a-chart-type-7886dc0fe590
https://datavizcatalogue.com/#google_vignette
数据可视化项目 - datavizproject.com
https://datavizproject.com/data-type/donut-chart/
How to choose the right chart for your data
https://biuwer.com/en/blog/how-to-choose-the-right-chart-for-your-data/
https://github.com/Financial-Times/chart-doctor/tree/main/visual-vocabulary
https://www.36dianping.com/dianping/5557510010
https://uxmag.com/articles/the-ultimate-data-visualization-handbook-for-designers