大数跨境

蓝鲸平台|实现数据挖掘的场景化教学

蓝鲸平台|实现数据挖掘的场景化教学 长风大数据
2021-12-24
1
导读:数据分析挖掘应用广泛,数据挖掘包含哪些流程,如何从零到一学习数据挖掘,实现数据挖掘的场景化教学。

1、人工智能的第四要素-场景

随着新一代信息技术的进步,传统产业都在向数字化智能化方向发展。数据分析与数据挖掘技术也渗透到各行各业。


数据分析的工具普及应用,数据挖掘不再是科研人员的专利,普通从业者也可以从中获取技术红利。


人人都需要具备数据分析的思维,掌握数据挖掘的方法。


本篇我们来聊一聊数据挖掘。

翻开数据挖掘的教程,随处可见复杂数学公式和符号,以理论为主的数据挖掘教学令人感到晦涩难懂,这提高了学习门槛和影响了学习效率。


而随着技术的不断进步和开放,算法不再是核心技术壁垒。


不久前的人工智能大讨论,产业界提出了人工智能三要素,即数据、算法、算力。


投资人不断追逐这三要素的热点,然而潮水褪去,才发现真正的要素是应用场景

因为,数据是场景和运营所产生的,不是创新;


算力是硬件,有钱就可以解决;算法几乎均为开放,并且差距在不断缩小。


而业务场景是真正与产业所结合的,具有大规模应用前景的领域。


因此,场景理所当然的成为了人工智能的第四要素

2、数据挖掘场景化教学

蓝鲸数据挖掘产品的推出就是要解决教学中的这一痛点,不讲枯燥的公式,注重算法的原理,


通过动手操作实现数据挖掘的建模流程,让学习者快速上手获得成就,从而激发学习兴趣,由浅入深,融会贯通。


基于场景的数据挖掘教学注重业务流程的建立。


根据交叉行业数据挖掘标准(CRISP-DM),数据挖掘流程包括了商业理解、数据理解、数据预处理、模型选择与训练、模型评估、部署反馈6个环节。

商业理解

重在了解业务目标和操作过程,了解业务场景下的数据价值点和不确定性痛点,以及挖掘的问题类型。

数据理解

是掌握数据的模型、各业务属性的含义、样本的分布、数据间的相关性等。

数据预处理

通常包括了数据过滤、缺失值处理、归一化处理、特征工程等。

模型选择与训练

包括了聚类模型、分类模型、回归模型、关联模型等。

模型评估

是模型选择的依据,根据模型的不同类型,评价指标也有不同,例如分类模型的评价指标通常为准确率、召回率等,回归模型的指标为平均绝对误差、均方误差、决定系数等。

部署反馈

指模型应用,对未知数据进行预测,并交由业务场景的下一环节进行处理。

蓝鲸数据挖掘平台包含了基于Web的蓝鲸数据挖掘教研平台以及蓝鲸数据挖掘工具


教研平台为教学提供了金融经济、医疗健康、物流、电子商务、交通运输、零售、汽车销售、供应链管理、生产制造等上百个场景。


此外,教研平台还支持教师开发并上传自己的教学数据和案例。


3、蓝鲸的分类学习工作流

蓝鲸数据挖掘工具是一款开放的、教学与研究一体的数据分析与数据挖掘工具。


该工具采用图形化的拖拽式工作流的交互方式让研究者快速完成数据建模及实验。


工具的核心功能区分为组件区和工作流区。


组件区将各个功能组件分成了不同的模块,包括数据处理、数据可视化、监督模型、非监督模型、时间序列、关联规则等。


在蓝鲸数据挖掘工具中可以使用教研平台数据集,也可以使用自有的数据进行教学和科研。

例如,以我们最常见的鸢尾花分类数据集为例。


鸢尾花分类是典型的分类任务,分类任务是监督机器学习(有目标标签)的一种。


场景:鸢尾花在生物学上分为三种不同的种类,而鉴别鸢尾花种类是一个难点。


鸢尾花数据集包含了花瓣长度、花瓣宽度、花萼长度、花萼宽度4个特征变量,以及类别1个目标变量,共150条数据。


任务目标:通过对这150条数据进行训练建立一个分类模型,可以通过花瓣长度、花瓣宽度、花萼长度、花萼宽度预测出该鸢尾花的具体种类。

通过在蓝鲸数据挖掘工具中采用决策树算法进行建模,可以很轻松的看出来机器学习的结果:三种不同类型鸢尾花的判别决策树。

由此可见,蓝鲸数据挖掘可以快速的实现机器学习算法和数据挖掘过程。


每个组件还有更进一步的超参数的设定功能,可以帮助用户对各算法模型加深理解。

4、由浅入深的实践教学设计

在教学过程中,我们可以遵从这几个步骤进行实践教学设计:过程认知、算法认知、调参实验、原理学习、算法研究。


这几个步骤逐级深入,可根据需要取舍。


1

过程认知相对比较轻松,确定好数据挖掘问题类型后,快速根据设计好的案例进行过程认知教学。

2

算法认知主要针对过程中所采用的核心算法的进行讲解,

包括算法能解决的问题,输入数据的特点(离散/连续),算法输出的结果以及算法涉及的超参数。

3

调参实验用来讲解各个参数对应算法实现的具体功能以及效果,并动手调参进行结果比较。

4

原理学习重点讲解算法的核心原则,例如“决策树”算法的原理就是递归式的逐级寻找每一级根节点上分类表现最好的属性。

5

算法研究需要深入到公式和代码进行学习,理解原理的计算过程,从而达到“知其然知其所以然”的效果。


教学设计的目的就是从不同角度对学生的脑神经网络进行强化训练,以实现融会贯通的目的。


脑神经科学的发展不仅让人工智能得以飞速发展,也让教育过程有了生理上的依据。


数据挖掘的过程往往都是人脑思考过程的仿生,学习数据挖掘不仅可以增强数据分析能力,也可以更好的训练大脑来认知世界、分析世界。


最后,借用scikit-learn的算法地图以飨诸君。

 / 2021.12.25

蓝鲸数据挖掘平台为第五届“长风杯”全国大学生大数据分析与挖掘竞赛推荐平台


关注长风大数据官网及微信公众号,了解大数据教研咨询!

关注我们

微信号|cf-dsj


  点击阅读原文查看蓝鲸官网


【声明】内容源于网络
0
0
长风大数据
欢迎关注长风大数据,一起探索大数据/人工智能/智能装备等前沿技术的实战技巧。
内容 0
粉丝 0
长风大数据 欢迎关注长风大数据,一起探索大数据/人工智能/智能装备等前沿技术的实战技巧。
总阅读0
粉丝0
内容0