作家
登录

数据科学家必备的10种机器学习算法

作者: 来源: 2018-03-27 12:03:51 阅读 我要评论

https://github.com/kuangliu/torchcv

https://github.com/chainer/chainercv

还记得你在大年夜学时所学的数值分析(Numerical Analysis)代码吗?个中,你应用直线和曲线连接点大年夜而获得一个等式方程。在机械进修中,你可以将它们用于拟合具有低维度的小型数据集的曲线。(而对于具有多个维度的大年夜型数据或数据集来说,实验的结不雅可能老是过度拟合,所以不必麻烦)。OLS有一个封闭情势的解决筹划,所以你不须要应用复杂的优化技巧。

 

https://keras.io/applications/

入门教程:

http://cs231n.github.io/

https://adeshpande3.github.io/A-Beginner%27s-Guide-To-Understanding-Convolutional-Neural-Networks/

8.轮回神经收集(RNNs)

RNNs模型序列经由过程在时光t递归地对集合器状况施加雷同的权重集,并且在时光t输入(给定一个序列,在时光0..t..T处有输入,并且在每个时光t具有隐蔽状况,来自RNN的t-1步调的输出)。如今很少应用纯RNN(pure RNN),然则像LSTM和GRU这类旗敌相当的算法在大年夜多半序列建模义务中仍是最先辈的。

 

RNN(如不雅这里是密集连接的单位与非线性,那么如今f一般是LSTM或GRU)。LSTM单位用于替代纯RNN中的简单致密层。

http://cs224d.stanford.edu/

9.前提随机场(CRFs)

应用RNN进行人物序列建模义务,特别是文本分类、机械翻译及说话建模。

库:

https://github.com/tensorqow/models

https://github.com/wabyking/TextClassiJcationBenchmark

可以应用FFNN作为主动编码器来练习分类器或提取特点。

http://opennmt.net/

入门教程:

http://www.wildml.com/category/neural-networks/recurrent-neural-networks/

http://colah.github.io/posts/2015-08-Understanding-LSTMs/

原文链接:https://towardsdatascience.com/ten-machine-learning-algorithms-you-should-know-to-become-a-data-scientist-8dc93d8ca52e?source=userActivityShare-dc302bd40f88-1521164030

CRFs或许是概率图形模型(PGMs)中应用频率最高的模型。它们可用于类似于RNN的序列建模,也可与RNN结合应用。在神经机械翻译体系出现之前,CRF是最先辈的技巧,在很多具有小数据集的序列标注义务中,它们仍然会比那些须要大年夜量数据才能推广的RNN表示得更好。它们也可被用于其他构造化的猜测义务,如图像瓜分等。CRF对序列中的每个元素(例如句子)进行建模,如许近邻会影响序列中某个组件的标签,而不是所有的标签互相自力。

库:

https://sklearn-crfsuite.readthedocs.io/en/latest/

入门教程:

http://blog.echen.me/2012/01/03/introduction-to-conditional-random-Jelds/

Hugo Larochelle在Youtube上的系列讲座: https://www.youtube.com/watch?v=GF3iSJkgPbA

https://arxiv.org/abs/1407.7502

例如我有一张有关各类水不雅数据的Excel工作表,我必须标明哪些是苹不雅。我们须要做的是提出一个问题“哪些水不雅是红的,哪些水不雅是圆的?”然后根据谜底,将“是”与“否”的水不雅区分开。然后,我们获得的红色和圆形的水不雅并不必定都是苹不雅,所有苹不雅也不必定都是红色和圆形的。是以,我会见向红色和圆形的水不雅提出一个问题,“哪些水不雅上有红色或黄色的标记” ?向不是红色和圆形的水不雅提出一个问题,“哪些水不雅是绿色和圆形的”。基于这些问题,我可以异常精确的分辨出哪些是苹不雅。这一系列的问题展示了什么是决定计划树。然而,这是基于我小我直觉的决定计划树。直觉并不克不及处理高维度和复杂的问题。我们必须经由过程查看标记的数据来主动得出问题的级联,这就是基于机械进修的决定计划树所做的工作。早期的CART树曾被用于简单的数据,但跟着数据集的赓续扩大年夜,误差-方差的衡量须要用更好地算法来解决。今朝常用的两种决定计划树算法是随机丛林(Random Forests)(在属性的随机子集上建立不合的分类器,并将它们结合起来输出)和晋升树(Boosting trees)(在其他树的基本上对树的级联进行练习,改┞俘它们下面的缺点)

https://www.youtube.com/watch?v=-la3q9d7AKQ

决定计划树可以用于分类数据点(甚至回归)。


  推荐阅读

  2018区块链发展趋势及展望未来

沙龙晃荡 | 3月31日 京东、微博、华为拭魅战专家与你合营商量容器技巧实践!趋势与瞻望关于区块链的商量和争辩,自其出生之日起就大年夜未暂停。一个是技巧范畴也存在着周期律。 这个周期今朝看是 7-8 >>>详细阅读


本文标题:数据科学家必备的10种机器学习算法

地址:http://www.17bianji.com/lsqh/40943.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)