普搜数据日志一档专门介绍“小数据”应用的栏目,提供小数据应用知识以及每期一条的小数据,分享给大家。
小数据遇到的问题
小数据在应用过程中所遇到的问题主要围绕高方差方面:
问题1很难避免过度拟合
问题2不只有所过度拟合训练数据,有时更过度拟合了验证数据
问题3离群值(异常点)不可控
1、雇佣一个统计学家
小数据源于统计学,统计学是一门高层次的学科,统计学家是原始的数据科学家。统计学家非常清楚如何处理小数据样本问题,例如参数模型、统计检验等都需要系统的学习才能掌握其中的技巧。如果没有好的专业统计员,我建议大家可以雇佣一个,这绝对是一项很好的投资。现在也开始出现一些专业的服务公司帮助企业做数据统计并且提供相应的解决方案,也是一个很好的选择。
2、坚持使用简单的模型
更确切地说: 坚持一组有限的假设。预测建模可以看成一个搜索问题。从初始的一批可能模型中,选出那个最适合我们数据的模型。在某种程度上,每一个我们用来拟合的点会投票,给不倾向于产生这个点的模型投反对票,给倾向于产生这个点的模型投赞成票。当你有一大堆数据时,你能有效地在一大堆模型/假设中搜寻,最终找到适合的那个。当你一开始没有那么多的数据点时,你需要从一套相当小的可能的假设开始 (例如,含有 3个非零权重的线性模型,深度小于4的决策树模型,含有十个等间隔容器的直方图)。这意味着你排除复杂的设想,比如说那些非线性或特征之间相互作用的问题。这也意味着,你不能用太多自由度 (太多的权重或参数)拟合模型。适当时,请使用强假设 (例如,非负权重,没有交互作用的特征,特定分布等等) 来缩小可能的假设的范围。
3、尽可能使用更多的数据
您想构建一个个性化的垃圾邮件过滤器吗?尝试构建在一个通用模型,并为所有用户训练这个模型。你正在为某一个国家的GDP建模吗?尝试用你的模型去拟合所有能得到数据的国家,或许可以用重要性抽样来强调你感兴趣的国家。你试图预测特定的火山爆发吗?……你应该知道如何做了。
4、做试验要克制
不要过分使用验证集。如果你尝试过许多不同的技术,并使用一个保留数据集来对比它们,那么你应该清楚这些结果的统计效力如何,而且要意识到对于样本以外的数据它可能不是一个好的模型。
5、清洗您的数据
处理小数据集时,噪声和异常点都特别烦人。为了得到更好的模型,清洗您的数据可能是至关重要的。或者您可以使用鲁棒性更好的模型,尤其针对异常点。(例如分位数回归)
笔者概括:我不想把本栏目变成一个科普栏目,为大家讲解大量的公式和晦涩难懂的专业术语,而是变成一个通俗易懂生动有趣的科学小栏目,让观者可以从中了解到小数据带来的大作用。所以从明天开始笔者会通过案例分享来为大家解决日常问题。预告一下明天是介绍如何利用小数据解决产品定价问题,敬请期待。
广东省江门地区5家具有代表性电气机械和器材制造企业营收情况(排名不分先后)
序号 |
企业名称 |
行业类别 |
主营产品 |
2015年收入 |
年度目标 |
经营及生产改良方向 |
|
1. |
广东海昌电器制造有限公司 |
电气机械和器材制造业 |
家用电器、食物搅拌机、交直流电机、燃气炉具及配件、塑料模具 |
2500 |
营收翻一番 |
1.技术升级,继续电器产品的开发2.购入成套生产设备,提高自动化程度和生产效率。3.加大对自己品牌产品的研发 |
|
2 |
江门菲普森电器制造有限公司 |
电气机械和器材制造业 |
空气能热水器及空调热水器、家用电器、节能设备、LED |
4000 |
营业收入增长50% |
1.组建更强大的研发团队,开发新产品2.开设专卖店 |
|
3 |
江门市新会区嘉进电器制品有限公司 反馈 |
电气机械和器材制造业 |
电器、五金制品 |
2000 |
产品产量增长5%,技术设备更新比例达10% |
1.购买新型的机械、模具,改进生产流程和逐步实现生产自动化2.开拓销售渠道,参加展会、广交会 |
|
4 |
江门市羚霸电器实业有限公司 |
批发业 |
生产、销售:家用电器、电子产品、计算机外围设备 |
4000 |
目前营业收入在减少,希望能逐步平稳增长,大概在10%左右 |
1.初步会更改产品外观,逐步改进核心技术2.增加出口份额 |
|
5 |
海信(广东)空调有限公司 |
通用设备制造业 |
空调、制冷设备 |
150000 |
营业收入翻一番 |
1.研发自己的核心技术2.对产品进行技术改进,购买机械手,实现部分车间生产自动化,研发新技术,增加专利3.刚转移部分产能到江门 |
|
文章版权归广州市西美信息科技有限公司(Kcomber Inc.)所有,欢迎各媒体及企业与我们联系并转发。如果需转载,请注明来源.


