数据科学家必备的10种机器学习算法

https://github.com/kuangliu/torchcv

https://github.com/chainer/chainercv

还记得你在大年夜学时所学的数值分析（Numerical Analysis）代码吗？个中，你应用直线和曲线连接点大年夜而获得一个等式方程。在机械进修中，你可以将它们用于拟合具有低维度的小型数据集的曲线。（而对于具有多个维度的大年夜型数据或数据集来说，实验的结不雅可能老是过度拟合，所以不必麻烦）。OLS有一个封闭情势的解决筹划，所以你不须要应用复杂的优化技巧。

https://keras.io/applications/

入门教程：

http://cs231n.github.io/

https://adeshpande3.github.io/A-Beginner%27s-Guide-To-Understanding-Convolutional-Neural-Networks/

8.轮回神经收集（RNNs）

RNNs模型序列经由过程在时光t递归地对集合器状况施加雷同的权重集，并且在时光t输入（给定一个序列，在时光0..t..T处有输入，并且在每个时光t具有隐蔽状况，来自RNN的t-1步调的输出）。如今很少应用纯RNN（pure RNN），然则像LSTM和GRU这类旗敌相当的算法在大年夜多半序列建模义务中仍是最先辈的。

RNN（如不雅这里是密集连接的单位与非线性，那么如今f一般是LSTM或GRU）。LSTM单位用于替代纯RNN中的简单致密层。

http://cs224d.stanford.edu/

9.前提随机场（CRFs）

应用RNN进行人物序列建模义务，特别是文本分类、机械翻译及说话建模。

库：

https://github.com/tensorqow/models

https://github.com/wabyking/TextClassiJcationBenchmark

可以应用FFNN作为主动编码器来练习分类器或提取特点。

http://opennmt.net/

入门教程：

http://www.wildml.com/category/neural-networks/recurrent-neural-networks/

http://colah.github.io/posts/2015-08-Understanding-LSTMs/

原文链接：https://towardsdatascience.com/ten-machine-learning-algorithms-you-should-know-to-become-a-data-scientist-8dc93d8ca52e?source=userActivityShare-dc302bd40f88-1521164030

CRFs或许是概率图形模型（PGMs）中应用频率最高的模型。它们可用于类似于RNN的序列建模，也可与RNN结合应用。在神经机械翻译体系出现之前，CRF是最先辈的技巧，在很多具有小数据集的序列标注义务中，它们仍然会比那些须要大年夜量数据才能推广的RNN表示得更好。它们也可被用于其他构造化的猜测义务，如图像瓜分等。CRF对序列中的每个元素（例如句子）进行建模，如许近邻会影响序列中某个组件的标签，而不是所有的标签互相自力。

库：

https://sklearn-crfsuite.readthedocs.io/en/latest/

入门教程：

http://blog.echen.me/2012/01/03/introduction-to-conditional-random-Jelds/

Hugo Larochelle在Youtube上的系列讲座: https://www.youtube.com/watch?v=GF3iSJkgPbA

https://arxiv.org/abs/1407.7502

例如我有一张有关各类水不雅数据的Excel工作表，我必须标明哪些是苹不雅。我们须要做的是提出一个问题“哪些水不雅是红的，哪些水不雅是圆的？”然后根据谜底，将“是”与“否”的水不雅区分开。然后，我们获得的红色和圆形的水不雅并不必定都是苹不雅，所有苹不雅也不必定都是红色和圆形的。是以，我会见向红色和圆形的水不雅提出一个问题，“哪些水不雅上有红色或黄色的标记” ？向不是红色和圆形的水不雅提出一个问题，“哪些水不雅是绿色和圆形的”。基于这些问题，我可以异常精确的分辨出哪些是苹不雅。这一系列的问题展示了什么是决定计划树。然而，这是基于我小我直觉的决定计划树。直觉并不克不及处理高维度和复杂的问题。我们必须经由过程查看标记的数据来主动得出问题的级联，这就是基于机械进修的决定计划树所做的工作。早期的CART树曾被用于简单的数据，但跟着数据集的赓续扩大年夜，误差-方差的衡量须要用更好地算法来解决。今朝常用的两种决定计划树算法是随机丛林（Random Forests）（在属性的随机子集上建立不合的分类器，并将它们结合起来输出）和晋升树（Boosting trees）（在其他树的基本上对树的级联进行练习，改┞俘它们下面的缺点）

https://www.youtube.com/watch?v=-la3q9d7AKQ

决定计划树可以用于分类数据点（甚至回归）。

3/4 首页上一页 1 2 3 4 下一页尾页

　　推荐阅读

　　2018区块链发展趋势及展望未来

沙龙晃荡 | 3月31日京东、微博、华为拭魅战专家与你合营商量容器技巧实践！趋势与瞻望关于区块链的商量和争辩，自其出生之日起就大年夜未暂停。一个是技巧范畴也存在着周期律。这个周期今朝看是 7-8 >>>详细阅读

本文标题：数据科学家必备的10种机器学习算法

地址：http://www.17bianji.com/lsqh/40943.html

1/2 1