大数跨境
0
0

数据挖掘应用热点研究 ———基于Kaggle竞赛数据

数据挖掘应用热点研究 ———基于Kaggle竞赛数据 数据皮皮侠
2020-03-15
0
导读:近年来,国内外学者都对数据挖掘领域的研究热点以及前沿趋势进行了很多研究。以文献、信息和数据为主

       近年来,国内外学者都对数据挖掘领域的研究热点以及前沿趋势进行了很多研究。以文献、信息和数据为主 要研究对象、密切关注新兴信息技术应用的图书情报以及计算机学科也迅速掀起了数据挖掘研究热潮。本文通过对数据挖掘在实际场景中的应用案例的相关数据进行多维统计分析,据此 研究数据挖掘应用热点。 

      数据来源与研究方法  Kaggle是 Google旗下的一个全球性的线上数据挖掘与机器学习竞赛平台,是全球最大的数据科学家社区。自 2010年成立以来,其举办了300 多场数据竞赛,包括 Google、Facebook、Winton Capital、MicroSoft、GE、Walmart 、腾讯等都在其平台上发起过数据竞赛,众多参赛者为这些知名公司提出的数据难题提供了非常多的、有 效的解决方案,其应用案例反映了目前数据挖掘技术或机器学习算法的现实应用现状以及应用趋势。

       本文以 Kaggle官网自2010年成立以来截至2018年12月15日举办的共计302场全球性数据竞赛及共计6万多个相关的 参赛者的Kernel(解决方案)的信息为数据来源,来研究数据挖掘技术的关注热点、数据挖掘技术的领域应用热 点以及应用趋势。

      本文利用python爬虫爬取Kaggle官网的相关的竞赛数据,采用Python相关工具包分别对竞赛主题、竞赛描 述、Kernel标签等提取关键词,并按照数据挖掘任务种类、数据类型、应用领域进行分类,利用词云、桑葚图等 相关图表进行可视化统计分析,研究数据挖掘语言、挖掘工具、挖掘算法以及不同挖掘算法在面对不同数据类型 时的应用情况。然后,本文对数据挖掘的具体应用领域进行统计分析,通过对各领域应用相关关键信息的提取, 研究数据挖掘的具体应用场景、领域研究热度及领域投入现状。 

      通过分析发现:(1)目前数据挖掘领域使用最多的编程语言为Python,使用最多的机器学习 工具包为Keras ;(2)数据挖掘的最热的研究方向主要包括机器视觉、自然语言处理等;( 3)现有数据挖掘热 点领域主要有医疗健康、公共管理、零售、电商、金融、文化娱乐、测绘遥感、保险、自动驾驶等;( 4)热点 数据挖掘算法主要包括随机森林、神经网络、增强算法等。

       

数据挖掘领域应用的如下发展趋势:

( 1)医疗健康是数据挖掘技术的热点以及重点应用领域,其在疾病机器诊断、病毒预防、个性化治疗等方面 有广泛的应用。同时,各公司机构对医疗健康领域的奖金投入也是所有领域中最多的,反映了各公司机构对医疗 健康领域的重视,数据挖掘在医疗健康领域的应用前景非常广阔。

( 2)零售、电商、金融、文化娱乐、医疗健康、房地产、公共管理、保险等与人们生活息息相关的领域,最 能吸引人们的研究兴趣。数据挖掘技术已经广泛应用于日常生活领域的各个方面,其在生活服务这个大领域有非 常广阔的应用前景,数据挖掘技术的未来应用将会更加贴近人们的生活。

( 3)计算机视觉以及自然语言处理是数据挖掘的重点研究方向。机器翻译、机器诊断、遥感测绘、自动驾驶 等高新前沿技术领域都会涉及到自然语言处理以及机器视觉,这两个研究方向是高智能机器的基础,也是未来数 据挖掘的前沿发展方向。 (作者:邓仲华 刘 斌)


【声明】内容源于网络
0
0
数据皮皮侠
社科数据综合服务中心,立志服务百千万社科学者
内容 2137
粉丝 0
数据皮皮侠 社科数据综合服务中心,立志服务百千万社科学者
总阅读615
粉丝0
内容2.1k