今天,还在上幼儿园的儿子问了我一个致命的问题:“爸爸,你是干什么的啊?”
这个问题恐怕每一个做数据分析的人都会被问到,可能是你的爸妈,也可能是你的七大姑八大姨,也有可能是你的相亲对象。

但是我估计很少有人能用一两句话解释清楚,而在数据分析面试当中,面试官又很喜欢用这样的方式考察面试者对于基础概念的理解,比如“用最通俗易懂的话解释正态分布”、“如何跟小学生解释清楚数据库的概念”、“用一句话解释数据挖掘的含义”........
如果不能很好的理解数据分析的本质,恐怕很难把这些问题说得既透彻全面、又通俗易懂。而数据分析的本质包含着“数据收集-数据分析-数据预测”三个基本环节,如果再跟幼儿园的小孩子们解释数据分析,你们可以这么做........

“你看,110和120都是数字对不对?但是我们现在做个实验,在纸上写下110和120这两个数字,然后拿给你妈妈看,你觉得妈妈会知道这两个数字的意思吗?”

“那如果我在110和120的下面写上一行小字——上个月和这个月的身高。你觉得妈妈会不会立马就能猜出来这两个数字的意思呢?”

“对了,这时候这些数字就不再是你老师讲的1、2、3了,而是变成了记录着你身高的一个故事,这个故事你能看懂、别人都能够看懂,这时候数字就变成了数据哦。”
“可是,我的同桌跟我一样也是120厘米,妈妈万一觉得那个数字是我的同桌呢?”
“那我们是不是可以在数字的下面写上你的名字呢,这样就不会认错了。不放心的话,我们还可以写上你的体重、班级、座位号,这样是不是就更不会认错了呢?”
这就是数据的特点,每一个数据都代表着一个专属的故事,而通过数据讲故事才是数据分析的真正本质。
“如果我们想知道你们班全部同学的身高,有没有办法呢?”
“我可以拿着我们家的尺子,去学校给每一个同学都量一遍,就能知道他们的身高了。”
“那么,如果是全校的同学呢?如果也要一个个去量的话,是不是会很累呢?”
“所以我们可以发一张登记表,就跟你们现在开学要填的温度表一样,把登记表发给每一个班的班主任,然而让班里的每个同学都填一遍自己的身高,最后我们把这些登记表收起来,是不是就能知道所有人的身高了呢?”

“对哦对哦!但是有的坏同学会乱填,昨天我同桌就随便写了个500度,被老师批评了。”
“问的很好哦,你现在已经是一个小小的数据收集师了。那我们怎么才能找到这些坏小朋友填的数据呢?”
“这就是爸爸我的工作之一了哦,爸爸要把这些登记表里那些胡乱填写的数据都找出来,因为这些数据背后的故事都是假的,假的故事我们绝对不能要哦!”

“我把你们班里的同学身高都收集好了,我想知道你在班里的身高是不是最高的,爸爸应该怎么做呢?”
“当然是最高的!不信爸爸可以比一比我们的身高数字,谁最大,谁就是最高的。”
“很聪明的办法哦,我们跟每一个人的身高数字进行比大小,或者我们就画一个图,每一个人就代表一个柱子,谁的柱子最高就代表谁最高,这样是不是更明显呢?”

“啊,我的柱子怎么排到了第三名,而且排在我前面的都是女生?”
“哈哈哈你已经找到这里面的规律了哦,你看我们通过这一张图,就能看出你们班里女生的身高普遍要比男生高,这就跟科学家发现规律一样,你也发现了一个规律哦!”

“太好了!那我要跟老师报告,把那两个女生的座位调后,因为她们总是挡着后面的人。”
“没错,把规律展现给别人,给他们一些不成熟的小建议,也是小小数据分析师的一个工作环节哦!”
“如果我想知道你两年后的身高大概是多高?爸爸该怎么做呢?”
“这还不简单,我在数据表里随便圈出一个比我大两岁的男孩子,就知道我两年后的身高了。”

“这也是一种方法。但如果你圈出身高不同的男孩子,他们都是比你大两岁,你应该参考哪一位的身高呢?”
“那如果用抛硬币的方法决定暑假要不要取消,行不行呢?”
“对的,我们还是有更好的办法噢。比如把所有比你大两岁的男孩圈出来,让他们商量出一个中间值,作为你两年后身高的一个预测。等你上了小学,学了除法和平均值这些知识后,就不需要他们商量了,这时候你作为一名小小数据分析师,能算出两年后的身高平均值,来预计自己大概会长高多少了呢。”

数据采集、数据分析和数据预测是我们进行数据分析的基本步骤和关键,这样故事的最后,已涉及到数据预测层面,甚至一些进阶知识的影子,比如移动平均、相似度计算、聚类算法等,都争取让对方感受到其中的思想。
最后,如果小孩子对数据分析感兴趣,那么可以注重培养他们的数据思维,但是想要以后从事数据分析,最好还是劝他们三思而行!

内容虚构,仅供娱乐!
如果是你,你会推荐别人学习数据分析吗?欢迎在下方评论区留言!!!
此外,启方的数据分析粉丝交流群已经破2000人了!添加下面的个人号,并回复“进群”,即可马上加入数据分析交流群!
如果觉得本文有价值,“在看+星标+转发”,三连是我更文的最大动力!
用数据瞒天过海!数据分析里那些难以置信的骗人把戏!