作家
登录

遇到有这六大缺陷的数据集该怎么办?这有一份数据处理急救包

作者: 来源: 2018-03-20 19:39:49 阅读 我要评论

解决筹划2:

将数据规范化,使每个样例在雷同的值范围内。

数据集被清理、扩充并打上标签后,你就须要把它们分个组了。

很多半据研究人员会将这些数据分成两组:80%用于练习,20%用于测试,这将会使发明过拟合变轻易。

然而,如不雅你在同一个测试集上测验测验多个模型,情况则有所不合。选择测试精度的最佳模型,实际上是对测试集进行过拟合处理。

将数据集分为练习、验证和测试三组,这可以保护你的测试集,防止它因为所选的模型而过拟合。那这个过程就变成了:

  • 在练习集上练习模型
  • 在验证集上测试它们,确保它们没有过拟合
  • 选择最佳模型,并用测试集测试,看看你的模型精确性有多高。

留意:提示一句,记得经常用全部数据集去练习模型,数据越多,效不雅越好。

总结

沙龙晃荡 | 3月31日 京东、微博、华为拭魅战专家与你合营商量容器技巧实践!

最后,送广大年夜数据科学工作者一句N字规语:

拥有最好模型的人不是赢家,拥有最好数据的人才是。



  推荐阅读

  Web 服务器是如何被应用服务器“收编”的?

沙龙晃荡 | 3月31日 京东、微博、华为拭魅战专家与你合营商量容器技巧实践! 在传统 Web 应用的独裁架构中系>>>详细阅读


本文标题:遇到有这六大缺陷的数据集该怎么办?这有一份数据处理急救包

地址:http://www.17bianji.com/lsqh/40792.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)