遇到有这六大缺陷的数据集该怎么办？这有一份数据处理急救包

解决筹划2：

将数据规范化，使每个样例在雷同的值范围内。

数据集被清理、扩充并打上标签后，你就须要把它们分个组了。

很多半据研究人员会将这些数据分成两组：80%用于练习，20%用于测试，这将会使发明过拟合变轻易。

然而，如不雅你在同一个测试集上测验测验多个模型，情况则有所不合。选择测试精度的最佳模型，实际上是对测试集进行过拟合处理。

将数据集分为练习、验证和测试三组，这可以保护你的测试集，防止它因为所选的模型而过拟合。那这个过程就变成了:

留意：提示一句，记得经常用全部数据集去练习模型，数据越多，效不雅越好。

总结

沙龙晃荡 | 3月31日京东、微博、华为拭魅战专家与你合营商量容器技巧实践！

最后，送广大年夜数据科学工作者一句N字规语：

拥有最好模型的人不是赢家，拥有最好数据的人才是。

　　推荐阅读

　　Web 服务器是如何被应用服务器“收编”的？

沙龙晃荡 | 3月31日京东、微博、华为拭魅战专家与你合营商量容器技巧实践！在传统 Web 应用的独裁架构中系>>>详细阅读

地址：http://www.17bianji.com/lsqh/40792.html