大数跨境

科普|用RMT怎么做数据清洗?

科普|用RMT怎么做数据清洗? 长风大数据
2017-09-18
1
导读:数据清洗很繁杂?试试用RMT来做吧!

大数据、数据挖掘、机器学习和可视化,近来计算界的几件大事好像总也绕不开数据这个主角。从统计学家到软件开发人员,再到图形设计师,一下子所有人都对数据科学产生了兴趣。便宜的硬件、可靠的处理工具和可视化工具,以及海量的免费数据,这些资源的汇集使得我们能够比以往任何一个时期更加精准地、轻松地发现趋势、预测未来。

不过,你可能还未听说过的是,数据科学的这些希望与梦想都建立在乱七八糟的数据之上。在正式应用于我们认为是数据科学的核心的算法和可视化之前,这些数据往往需要经过迁移、压缩、清洗、打散、分片、分块以及其他多种转换处理。

那么何谓数据清洗呢?

数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。

图-数据清洗路径

数据清洗的工具有很多,今天小编教大家如何用长风大数据平台的RMT(基于R语言的数据挖掘工具)来做数据清洗。

案例数据为经典的3种鸢尾花形态数据,数据格式是.csv,RMT支持多种类型的数据。

01

新建项目

开始工作之前,最好先建一个项目,保存项目中的数据、代码等。

02

上传数据

在本例中将数据上传到用户名所对应的文件夹,在比赛中直接连接数据库就可以,对于自己的数据可以通过网络来上传。

03

RMT从服务器读取数据

04

数据到对象


05

数据查看

通过环境可以查看数据,对象等。

06

数据清洗操作

07

查看帮助

08

项目调试

09

可视化展示

结语

怎么样?小伙伴们get到新技能了吗?

想要了解更多详情,请登录长风大数据平台(http://www.cfdsj.cn)在工具模块查看!

报名参加了2017大数据分析专业竞赛的小伙伴都可以免费申请使用哦

声明:微信文章为独家原创,欢迎个人用户分享到朋友圈;其他任何形式的转载,请联系本公号取得授权,否则将追究法律责任。长风大数据(微信号:cf-dsj)隶属于Logis北京络捷斯特科技发展股份有限公司,简称:络捷斯特,证券代码:834832。



长风大数据(微信号:cf-dsj基于多行业的海量数据资源,为企业运营和院校科研提供先进的数据挖掘分析工具,帮助用户释放数据价值、捕获深层信息。

联系电话:010-65568598转8013

电子邮箱:sales@56dili.cn

网址:http://www.56dili.cn

2017大数据分析竞赛作品提交邮箱:cfdsj@logis.cn

【声明】内容源于网络
0
0
长风大数据
欢迎关注长风大数据,一起探索大数据/人工智能/智能装备等前沿技术的实战技巧。
内容 0
粉丝 0
长风大数据 欢迎关注长风大数据,一起探索大数据/人工智能/智能装备等前沿技术的实战技巧。
总阅读0
粉丝0
内容0