这一篇主要介绍数据表连接之后的几个重要概念,这个很重要。是进行数据分析的基座,所用数据集如下:
OK,废话不多说。直接进入正题,我们先来模拟这样一个场景:
你有没有想过,如果我分析的表有很多张,比如我一个Excel表中有很多sheet页,那Tableau可以基于这些多个sheet页进行关联分析吗?答案当然是肯定的。
照例,先将数据导入到Tableau中,然后你看着这个界面是不是有很多懵逼的点,不知道该点哪里进行操作了吧?很正常
好的,先暂停,关于这个页面,我介绍几个常用且重要的概念:
一、数据模型
什么是数据模型?它其实就是在你Excel文件的基础上建立的一个分析对象。Tableau是不会更改你原始导入的数据的,它只会基于你导入的创建一个类似“副本”的东西,然后基于这个副本进行各种分析,这就是数据模型。
比如这个例子,我导入源数据集之后,左侧有六个分析的表格,为什么会有六个呢?其实我也不知道,如果有知道的朋友也可以评论区评论一波,我恶补学习一下。反正我实际用的是前三个,另外三个经过我实测其实相当于复制品,没有区别。所以我分析的话一般用的就是前三个。
OK,比如我拖入一个sheet页,订单,那么我的数据模型就只有这个订单表,后续我的所有工作表分析都是基于这个订单表的数据来进行分析的。
如果我基于订单表与退货表进行联合分析,那么我就可以把退货表也拖入进行,并且设置一个两张表的关联关系:
表关联关系设置好之后,我进入到工作表,就会看到两个表的字段,这个时候我的数据模型就是基于这两个表来进行分析。
二、什么是数据解释器?我勾选了会怎么样?
我理解这玩意就相当于一个数据预处理,很多人在使用Excel的时候会有一些坏习惯,比如,合并单元格,空白行,多个表头等。如下所示:
这种其实在专业数据分析师看来,并不是标准的分析格式,当然也不能说谁对谁错哈,只是视角不同,这种合并单元格的打印出来美观呀。但这些东西如果你直接导入到Tableau中进行分析,这会严重影响到分析质量。
这个时候,就需要勾选数据解释器了,按照官网给的定义:
用于清理和分析Excel、CSV、PDF和Google Sheets中的数据。它能够检测并绕过标题、注释、页脚、空单元格等内容,从而确定数据集中的实际字段和值。
说白了,其实就是一个数据预处理,它会针对你当前导入的数据集创建一个副本,并且给出预处理的建议。
这是我未使用数据解释器时读取的源数据:
如果我勾选了数据解释器:
它会自动帮你处理成一个比较适合分析的结果,去掉合并单元格了。并且还会生成一个结果集,取消勾选则会恢复原状。


三、并集
什么是并集?如果你有SQL基础的话,它其实就是一个UNION操作,将两张表UNION起来而已。举个例子:
假设你建立了三张具有相同字段结构的表存储客户采购信息,分别May2016、June2016、July2016,如下所示:
那么这三张表,你导入到Tableau中后新建并集,那就会创建一个单表,并且这个表的内容如下:
顾名思义,其实就是将这三个表合并了。新建并集有两种方式,一种是直接手动添加,一种是通过通配符合并添加,其实并集操作在企业实践里用得并不多,至少我是没见过使用的。这里就不一一赘述了。感兴趣的朋友可以自行测试一下。
四、筛选器
这个筛选器的功能其实相当于对数据模型做一个过滤操作,也就是你最终分析的报表每次访问的时候都会在这里先做一层过滤,展示的就是过滤之后的分析结果。可以针对字段来进行各种条件过滤:
操作看界面基本上都能看懂,多测试几次就会了,这里也不用讲得太过详细。
五、总结
OK,简单总结一下,Tableau进行数据分析的思路是首先建立数据源,然后基于数据源建立数据模型,最后针对的是数据模型进行分析。大概是这样的一个数据流。
这一篇主要是介绍了Excel作为数据源连接后的界面的几个常用的重要概念。注意哈,还是有很多功能我没有介绍到的,但是我介绍的都是我工作过程中常用的,没有介绍到的我自己用得也比较少。感兴趣的朋友可以自行探索一下。今天就先写到这里~

