
大数据、数据挖掘、机器学习和可视化,近来计算界的几件大事好像总也绕不开数据这个主角。从统计学家到软件开发人员,再到图形设计师,一下子所有人都对数据科学产生了兴趣。便宜的硬件、可靠的处理工具和可视化工具,以及海量的免费数据,这些资源的汇集使得我们能够比以往任何一个时期更加精准地、轻松地发现趋势、预测未来。
不过,你可能还未听说过的是,数据科学的这些希望与梦想都建立在乱七八糟的数据之上。在正式应用于我们认为是数据科学的核心的算法和可视化之前,这些数据往往需要经过迁移、压缩、清洗、打散、分片、分块以及其他多种转换处理。
数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。

图-数据清洗路径
数据清洗的工具有很多,今天小编教大家如何用长风大数据平台的RMT(基于R语言的数据挖掘工具)来做数据清洗。
案例数据为经典的3种鸢尾花形态数据,数据格式是.csv,RMT支持多种类型的数据。
新建项目
开始工作之前,最好先建一个项目,保存项目中的数据、代码等。

上传数据
在本例中将数据上传到用户名所对应的文件夹,在比赛中直接连接数据库就可以,对于自己的数据可以通过网络来上传。

RMT从服务器读取数据

从数据到对象

数据查看
通过环境可以查看数据,对象等。

数据清洗操作

查看帮助

项目调试

可视化展示

结语
怎么样?小伙伴们get到新技能了吗?
想要了解更多详情,请登录长风大数据平台(http://www.cfdsj.cn)在工具模块查看!
报名参加了2017大数据分析专业竞赛的小伙伴都可以免费申请使用哦
声明:微信文章为独家原创,欢迎个人用户分享到朋友圈;其他任何形式的转载,请联系本公号取得授权,否则将追究法律责任。长风大数据(微信号:cf-dsj)隶属于Logis北京络捷斯特科技发展股份有限公司,简称:络捷斯特,证券代码:834832。

联系电话:010-65568598转8013
电子邮箱:sales@56dili.cn
网址:http://www.56dili.cn
2017大数据分析竞赛作品提交邮箱:cfdsj@logis.cn


