不要再向你的机械进修模型里喂垃圾了!
在这篇文┞仿中,身兼AI工程师/音乐家/围棋爱好者多职的“斜杠青年”Julien Despois给出了数据科学中须要避免的6大年夜缺点。
全文编译整顿如下:

简介
身为一名数据科学工作者,你应当据说过一句话:
问题六:没有验证或测试
很多人试图经由过程晋升模型来弥补不太幻想的数据集。这等同于你的旧车因为用了便宜汽油机能不好,但你买了一辆豪华跑车。很明显药纰谬症嘛!
在这篇文┞仿中,我会讲一讲若何经由过程优化数据集晋升模型结不雅,并将以图像分类义务为例进行解释,但这些tips可被应用在各类各样的数据集中。
今天的┞俘餐,正式开端——
△ 应用与实际应用差别太大年夜的数据练习模型异常不明智
问题一:数据集太小
如不雅数据集太小,模型将没有足够样例概括可区分特点。这将使数据过拟合,大年夜而出现练习误差(training error)低但测试误差(test error)高的情况。
解决筹划1:
去收集更多半据吧~测验测验找到更多和原始数据集来源雷同的数据,如不雅图像很类似或者你寻求的就是泛化,也可用其他来源的数据。
你的结不雅会和你的数据一样好。
小贴士:这并非易事,须要你投入时光和经费。在开端之前,你要先分析肯定须要若干额外数据。将不合大年夜小的数据集得出的结不雅做比较,然后思虑一下这个问题。

△ 数据集中数据量和缺点率的关系
解决筹划2:
经由过程为同一张图像创建多个细微变更的副本来扩充数据,可以让你以异常低的成本创造很多额外的图像。你可以试着裁剪、扭转或缩放图片,也可以添加噪音、模糊、改变图片色彩或遮挡部分内容。

△ 一张图片的各类变更
不管怎么操作吧,只需包管这些数据仍代表雷同类就好了。
固然这种操作很厉害,但仍不如收集更多原始数据效不雅好。

△ 处理后图像仍被分类为猫
小贴士:这种“扩充术”不合适所有问题,比如如不雅你想分类黄柠檬和绿柠檬,就不要调色彩了嘛~

数据集太小的问题解决后,第二个问题来了——
问题二:分类质量差
这是个简单但耗时的问题,须要你浏览一遍数据集确扰绫强个样例的标签打得对纰谬。
除此以外,必定为你的分类选择合适的粒度(granularity)。基于要解决的问题,来增长或削减你的分类。
解决筹划:
比如,要辨扰绫迁,你可以用全局分类器先肯定它是动物,之后再用动物分类器肯定它是一只小猫。一个大年夜型的模型能同时髦到这两点,但分起类来也加倍艰苦。

△ 小猫的分类过程
问题三:数据集质量差
就像媒介中说的那样,数据质量差会导致结不雅的质量差。
△ 三张不合格的猫咪图像样例
这些图像会干扰模型的┞俘确分类,你须要将这些图像在数据集中剔除。
裁剪或拉伸数据,使其与其他样例的格局雷同,如下图所示。

固然是个漫长逝世板的过程,但对结不雅的晋升效不雅很明显。
另一个常见问题是,数据集可能是由与实际应用法度榜样不匹配的数据构成的。如不雅图像来自完全不合来源,这个问题可能尤为严重。
解决筹划:先思虑一下这项技巧的经久应用,因为它关系到获取临盆中的数据。测验测验用雷同的对象查找/构建一个数据集。

问题四:分类不均衡
如不雅每个分类的样例数量与其他类别数量差距太大年夜,则模许可能偏向于数量占主导地位的类,因为它会让缺点率变低。
解决筹划1:
你可以收集更多非代表性的分类。然而这平日须要花费时较多间和金钱,也可能根本弗成行。
解决筹划2:
对数据进行过采样/降采样处理。这意味着你可能须要大年夜那些比例过多的分类中移除一些样例,也可以在比例较少的类别中进行膳绫擎提到过的样例扩充处理。

△ 先扩充样例不足的分类(猫咪),这将使类其余分布更腻滑
问题五:数据不均衡
如不雅你的数据没有专门的格局,或者它的值没有在特定典范围,模型处理起来可能很艰苦。如不雅图像有特定的纵横比或像素值,获得的结不雅会更好。
解决筹划1:
△ 裁剪和拉伸是改良格局的两种办法
可能你的数据集中有一些样例离达标真的很远,比如下面这几张图像。
推荐阅读
沙龙晃荡 | 3月31日 京东、微博、华为拭魅战专家与你合营商量容器技巧实践! 在传统 Web 应用的独裁架构中系>>>详细阅读
本文标题:遇到有这六大缺陷的数据集该怎么办?这有一份数据处理急救包
地址:http://www.17bianji.com/lsqh/40792.html
1/2 1