
解决筹划2:
将数据规范化,使每个样例在雷同的值范围内。

数据集被清理、扩充并打上标签后,你就须要把它们分个组了。
很多半据研究人员会将这些数据分成两组:80%用于练习,20%用于测试,这将会使发明过拟合变轻易。
然而,如不雅你在同一个测试集上测验测验多个模型,情况则有所不合。选择测试精度的最佳模型,实际上是对测试集进行过拟合处理。
将数据集分为练习、验证和测试三组,这可以保护你的测试集,防止它因为所选的模型而过拟合。那这个过程就变成了:
- 在练习集上练习模型
- 在验证集上测试它们,确保它们没有过拟合
- 选择最佳模型,并用测试集测试,看看你的模型精确性有多高。

留意:提示一句,记得经常用全部数据集去练习模型,数据越多,效不雅越好。
总结
沙龙晃荡 | 3月31日 京东、微博、华为拭魅战专家与你合营商量容器技巧实践!
最后,送广大年夜数据科学工作者一句N字规语:
拥有最好模型的人不是赢家,拥有最好数据的人才是。
推荐阅读
沙龙晃荡 | 3月31日 京东、微博、华为拭魅战专家与你合营商量容器技巧实践! 在传统 Web 应用的独裁架构中系>>>详细阅读
本文标题:遇到有这六大缺陷的数据集该怎么办?这有一份数据处理急救包
地址:http://www.17bianji.com/lsqh/40792.html
1/2 1