数据科学家必备的10种机器学习算法

http://scikitlearn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassiJer.html

http://scikitlearn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassiJer.html

http://xgboost.readthedocs.io/en/latest/

https://catboost.yandex/

最小二乘法可能会与异常值（outliers）、假字段（spurious fields）和数据中的噪声相混淆。是以，我们须要束缚以削减数据集上所进行拟合的线的方差。精确的办法是应用一个线性回归模型，以确保权重不会掉足。模许可以有L1范数（LASSO）或L2（岭回归，Ridge Regression）或兼具两者（弹性回归）。均方损掉获得优化。

入门教程：

http://xgboost.readthedocs.io/en/latest/model.html

https://arxiv.org/abs/1511.05741

http://education.parrotprediction.teachable.com/p/practical-xgboost-in-python

TD算法

你不必思虑上述哪种算法可以或许像DeepMind那样击包抄棋世界冠军，因为它们都不克不及做到这一点。我们之前谈及的10种算法都是模式辨认，而非策略进修者。为了进修可以或许解决多步调问题的策略，比如博得一盘棋或玩Atari游戏机，我们须要让一个空白的智能体在这世界上根据其自身面对的奖惩进行进修。这种类型的机械进修被称为强化进修。近期，在这个范畴内所取得的很多（并非全部）结不雅都是经由过程将convnet或LSTM的感知才能与一组名为时光差分进修算法（Temporal Difference Learning）的算法组合而得来的。这个中包含Q-Learning、SARSA及其他算法。这些算法是对贝尔曼方程的奇妙应用，大年夜而获得一个可以应用智能体大年夜情况中获得的嘉奖来练习的损掉函数。

这些算法重要用于主动运行游戏中，并在其他说话生成和目标检测项目中予以应用。

库：

https://github.com/keras-rl/keras-rl

https://github.com/tensorqow/minigo

入门教程：

Sutton与Barto的免费书本：https://web2.qatar.cmu.edu/~gdicaro/15381/additional/SuttonBarto-RL-5Nov17.pdf

不雅看David Silver的课程： https://www.youtube.com/watch?v=2pWv7GOvuf0

我们介绍了可以助你成为数据科学家的10中机械进修算法。

你可以在这里浏览机械进修库：https://blog.paralleldots.com/data-science/lesser-known-machine-learning-libraries-part-ii/

【编辑推荐】