“普搜”数据日志篇---带大家走入“小数据”的世界中。- 大数跨境

首页

“普搜”数据日志篇---带大家走入“小数据”的世界中。

西美信息

2017-02-04

导读：大家新年好，借着新春佳节的好日子，普搜数据日志也正式上线了。普搜数据日志一档专门介绍“小数据”应用的栏目，提供小数据应用知识以及每期一条的小数据，分享给大家。

大家新年好，借着新春佳节的好日子，普搜数据日志也正式上线了。普搜数据日志一档专门介绍“小数据”应用的栏目，提供小数据应用知识以及每期一条的小数据，分享给大家。

话不多说现在就开始带大家走入“小数据”的世界中。

小数据来自哪里？

科技公司的数据科学、关联性分析以及机械学习等方面的活动大多围绕着“大数据”，这些大型数据包含文档、用户、文件、查询、歌曲、图片等信息。规模数以千计、数十万、数百万、甚至数十亿。

过去十年里，处理这类型数据集的基础设施、工具和算法发展得非常迅速，并且得到不断改善。大多数数据科学家和机器学习从业人员就是在这样的情况下累积了经验，逐渐习惯于那些用着顺手的算法，并且在那些常见的需要权衡的问题上面拥有良好的直觉。但小数据集仍然时不是的出现，而且伴随的问题往往难以处理，需要一组不同的算法和不同的技能。小数据集出现在以下几种情况：

企业解决方案：

当您尝试为一个人员数量相对有限的企业提供解决方案，而不是为千万的用户提供单一的解决方案。

时间序列：

时间供不应求！尤其是和用户、查询指令、会话、文件等相比较。这显然取决于时间单位或采样率，但是想每次都能有效地采样率没那么容易，比如你得到的标定数据日期的话，那么你每天只有一个数据点。

关于以下样本的聚类模型：州市、国家或任何总体本身是有限的情况（或者采样成本昂贵）。

多变量A/B测试：实验方法或者它们的组合会成为数据点。如果你正在考虑3个维度，每个维度设置4个设置项，那么将拥有12个点。

任何罕见现象的模型：例如地震、洪水。

好的，今天“普搜”数据日志关于小数据的应用介绍先讲到这里，明天将为大家介绍小数据应用过程中遇到的问题和如何解决的方法，记得留意喔！接下来是每期一条的小数据彩蛋。

广东省中小型机械装备行业综合素质前5位