大数跨境

09.【观视界】为什么要数据可视化?

09.【观视界】为什么要数据可视化? 广东省数字化学会
2018-10-25
0
导读:数据可视化的历史由来已久。3000年前古巴比伦人绘制出了最早的世界地图,将信息通过可视化的方式呈现。时至今日,可视化在我们的生活中早已无处不在。每一份数据都可以通过可视化呈现。

点绿色语音图标开始收听


大家好, 我是Tableau软件技术有限公司的售前顾问郑若兰。 Tableau公司于2003年在美国西雅图成立,致力于帮助人们查看并理解数据,最擅长做的事便是通过数据可视化的方式来帮助大家分析数据并从中获取洞见。所以,今天我想和大家一起谈谈数据可视化。


我们现在正处于一个信息爆炸性增长的年代,每一分钟我们的行为都能产生数据,通过我们的手机、穿戴设备、电脑等客户端写入某一个数据库。根据市场研究机构IDC的预测,“数据宇宙”(data universe),也就是我们每年所创造和复制的数据将会在2025年达到180ZB。如果你对ZB不太有概念,那么你可以想象一下以一个字节 (Byte) 为单位,180后面加上21个零。



正是基于这样的海量数据,人类对于数据可视化的需求变得比以往任何一个时刻都更加迫切。我所理解的数据可视化是一门结合艺术与科学的学问。我们通过现代工具将数据通过艺术的形式呈现,将枯燥繁琐海量的数据转化成美的可视化作品,来帮助我们去更快地发现数据中的价值。我们可以去阐述一个有趣的故事,或者快速发现我们真正关心的一小部分数据。


通过TableauDesktop, 作者分析了三天内纽约市出租车的行车记录,数据量超百万行。我们可以看出在纽约市平均一天会有超过48.5万出租车乘客,由全城5万的出租车司机服务, 占比96%的行程是30分钟以内的。一名典型的纽约市司机一年行驶7万英里。同时我们可以从视图中快速地发现纽约市的早高峰是7到8时,晚高峰为17到19时,到了凌晨,出行量大幅下降。此外,我们还会发现大部分乘客在曼哈顿上车,在布鲁克林和皇后区下车。在Tableau中,您还可以通过不同视图间的交互着重关注并分析某一个时间节点或地区等。        


数据可视化的历史由来已久。3000年前古巴比伦人绘制出了最早的世界地图,将信息通过可视化的方式呈现。时至今日,可视化在我们的生活中早已无处不在。每一份数据都可以通过可视化呈现,每一个地球村的居民也都主动或被动地成为了可视化读者和接收者。数据可视化的神奇之处在于接收者可以毫不费力地接收可视化作品所传递的信息,这正是传统数字分析所做不到的。这是由人类的大脑构造所决定的。如果您感兴趣,可以搜索一下“前意识属性”(Pre-Attentive Attributes)。 正是由于前意识属性,人类可以通过视觉几乎是无意识并立刻地处理和理解图像信息。


作者通过热力图分析了1974年至2011年以来美国一年365天酒驾的死亡人数趋势。由人类大脑的构造所决定,在看到这样一份可视化作品的时候,我们可以极其快速地发现元旦(1月1日)、美国独立日(7月4日)和平安夜(12月24日)是全年酒驾死亡人数最高的日子,并且夏季平均酒驾死亡人数也高于冬季。我们通过图像理解这份数据的速度是传统数字分析所远远达不到的,科学证明人类解读图像的速度在0.5秒以内。


尽管数据可视化已成为现代社会中相当普及的一种理解数据的手段有许多人在设计可视化作品的时候往往会陷入一个误区——以追求作品设计的酷炫为主,而忽视了可视化最重要的功能其实是理解数据的一种手段,作品的设计是为了能令人们更高效地理解数据。

《Designing DataVisualizations》的作者之一Julie Steele认为在设计一份可视化作品的时候,我们需要谨记三个要素——

1.    设计师 (Designer) ——你作为一名数据分析师/ 作品的设计师,希望通过这份作品表达并传递什么信息?

2.    读者 (Reader)—— 误解 (misunderstanding) 是人类交流时永恒存在的遗憾。你的读者是否理解这份数据的背景?又或者读者在解读作品的时候是否有可能因为个人原因导致他所理解的与你想表达的有所偏差 (Biases)?

3.    数据 (Data)—— 数据本身包括了什么信息?这个故事能给读者带来怎样的洞见?


考虑读者的背景, 比如不同的颜色在不同的文化中含义不同。


当然在这三要素中最核心的依然是数据。作为数据分析师,重中之重便是理解我们手上的数据。我们手上的数据都包括哪些信息,比如有哪些维度和度量,比如字段是否存在层级关系,比如我们是否能进行时间或空间上的分析等等。在对数据有一定理解的基础上,我们还可以跳出数据集本身从其他角度去看这份数据,比如在现有字段的基础上通过一定的逻辑去计算出新的字段,这可以大大丰富我们可分析的角度。在这些基础之上,不要忘了人类是感性动物,我们还可以通过作品的设计诸如颜色和排版来影响读者的感受


同样一份数据,左图和右图给的人感受是完全不同的。左图带给我们战争血淋淋的伤亡感受,而右图则让我们感觉死亡人数逐渐下降。


我认为关于数据可视化很有趣也是最有趣的一点是我们往往会从中得到令人出乎意料的发现, 在Tableau公司我们把这叫做 Finding the unknownunknowns。很多时候,我们分析一份数据是为了验证某一个结果,但通过玩转数据可视化,在探索数据的过程中我们却会发现许多看似不相关的数据实际是相关联的,比如经典的“啤酒与尿布”案例。数据中的未知(Unknowns)令人感到兴奋。大家能猜到下面这张图的指标是什么吗?有什么指标在3月份和11月份特别高,而在夏季又比较低呢?如果是我,也许会认为这是礼品的销售量,比如3月份是为复活节准备的礼物,11月份为圣诞节准备礼物。

然而事实出人意料!实际上这是由英国数据记者 (Data Journalist) David McCandless和他的伙伴Lee Byron 2008年在Facebook上获得的分手数据!那个时候的Facebook用户还主要以大学生群体为主,他们发现在春假3月份的时候迎来了分手的一波高峰(春假“大扫除”?),然后暑假前又迎来一波小高峰,这也许是因为年轻人希望过一个自由的单身假期,最后很有趣的是圣诞节其实是全年分手率最低的时候,毕竟在圣诞节分手也太残忍了呀!(具体可参见下图注解)

Knowledge is Beautiful by David McCandless

 

我们通过数据验证答案,也通过数据发现未知,数据可视化在这其中成为了学习的一种手段。

最后,我给大家留下耶鲁大学统计学教授Edward Tufte的一个问题 ——

We usuallysee to confirm things. It’s very economizing for the brain. How can we see notto confirm, but to see to learn?

 

此文仅代表个人观点,不代表Tableau软件技术公司官方意见。


 参考资料

1.  Datais Giving Rise to a New Economy. (2017, May 6). Retrieved from https://www.fcequities.com/files/00239319.PDF

2.  Informationis Beautiful. Retrievedfrom https://informationisbeautiful.net/

3.  PBSoffbook.(2013, May 9). The Art of DataVisualization. Retrieved from https://youtu.be/AdSZJzb-aX8

4.   Tableau Public. https://public.tableau.com/



【声明】内容源于网络
0
0
广东省数字化学会
帮助企业数字化转型,让数据成为生产力
内容 1127
粉丝 0
广东省数字化学会 帮助企业数字化转型,让数据成为生产力
总阅读359
粉丝0
内容1.1k