沙龙晃荡 | 3月31日 京东、微博、华为拭魅战专家与你合营商量容器技巧实践!
GraphLab Greate 是一个 Python 库,由 C++ 引擎支撑,可以快速构建大年夜型高机能数据产品。
如不雅你有志于做一个数据专家,你就应当保持一颗好奇心,老是赓续摸索,进修,问各类问题。在耳目门教程和视频教程能帮你走出第一步,然则最好的方法就是经由过程熟悉各类已经在临盆情况中应用的对象而为成为一个真正的数据专家做好充分预备。
我咨询了我们真正的数据专家,收集整顿了他们认为所稀有据专家都应当会的七款 Python 对象。The Galvanize Data Science 和 GalvanizeU 课程重视绕揭捉?生们花大年夜量的时光沉浸在这些技巧里。当你找第一份工作的时刻,你曾经投入的时光而获得的对对象的深刻懂得将会使你有更大年夜的优势。下面就懂得它们一下吧:
1、IPython
IPython 是一个在多种编程说话之间进行交互计算的敕令行 shell,最开端是用 python 开辟的,供给加强的内省,富媒体,扩大的 shell 语法,tab 补全,丰富的汗青等功能。IPython 供给了如下特点:
- 更强的交互 shell(基于 Qt 的终端)
- 一个基于浏览器的记事本,支撑代码,纯文本,数学公式,内置图表和其他富媒体
- 支撑交互数据可视化和图形界面对象
- 灵活,可嵌入说冥器加载到随便率性一?自有工程里
- 简单易用,用于并行计算的高机能对象
- 由数据分析总监,Galvanize 专家 Nir Kaldero 供给。
2、GraphLab Greate
这有一些关于 GraphLab Greate 的特点:
- 可以在您的计算机上以交互的速度分析以 T 为计量单位的数据量。
- 在单一平台上可以分巫莨狁数据、曲线、文字、图像。
- 最新的机械进修算法包含深度进修,进化树和 factorization machines 理论。
- 可以用 Hadoop Yarn 或者 EC2 聚类在你的标记本或者分布体系上运行同样的代码。
- 借助于灵活的 API 函数专注于义务或者机械进修。
- 在云上用猜测办事便捷地设备数据产品。
- 为摸索和产品监测创建可视化的数据。
由 Galvanize 数据科学家 Benjamin Skrainka 供给。
3、Pandas
pandas 是一个开源的软件,它具有 BSD 的开源许可,为 Python 编程说话供给高机能,易用数据构造和数据分析对象。在数据修改和数据预处理方面,Python 早已名声显赫,然则在数据分析与建模方面,Python 是个短板。Pands 软件就弥补了这个空白,能让你用 Python 便利地进行你所稀有据的处理,而不消转而选择更主流的专业说话,例如 R 说话。
整合了劲爆的 IPyton 对象包和其他的看维它在 Python 中进行数据分析的开辟情况在处理机能,速度,和兼容方面都机能卓越。Pands 不会履行重要的建模函数超出线性回归和面板回归;对于这些,参考 statsmodel 统计建模对象和 scikit-learn 库。为了把 Python 打造成顶级的统计建模分析情况,我们须要进一步尽力,然则我们已经斗争在这条路上了。
由 Galvanize 专家,数据科学家 Nir Kaldero 供给。
4、PuLP
线性编程是一种优化,个一一个对象函数被最大年夜程度地限制了。PuLP 是一个用 Python 编写的线性编程模型。它能产生线性文件,能调用高度优化的求解器,GLPK,COIN CLP/CBC,CPLEX,和GUROBI,来求解这些线性问题。
由 Galvanize 数据科学家 Isaac Laughlin 供给
5、Matplotlib
matplotlib 是基于 Python 的 2D(数据)画图库,它产生(输出)出版级质量的图表,用于各类打印纸质的原件格局和跨平台的交互式情况。matplotlib 既可以用在 python 脚本, python 和 ipython 的 shell 界面 (ala MATLAB® 或 Mathematica®),web 应用办事器,和6类 GUI 对象箱。
matplotlib 测验测验使轻易工作变得更轻易,使艰苦工作变为可能。你只须要少量几行代码,就可以生成图表,直方图,能量光谱(power spectra),柱状图,errorcharts,散点图(scatterplots)等,。
为简化数据画图,pyplot 供给一个类 MATLAB 的接吵嘴面,尤其是它与 IPython 合营应用时。对于高等用户,你可以完全定制包含线型,字体属性,坐标属性等,借助面向对象接吵嘴面,或项 MATLAB 用户供给类似(MATLAB)的界面。
Galvanize 公司的首席科学官 Mike Tamir 供稿。
6、Scikit-Learn
Scikit-Learn 是一个简荡竽暌剐效地数据发掘和数据分析对象(库)。关于最值得一提的是,它人人可用,反复竽暌姑于多种语境。它基于 NumPy,SciPy 和 mathplotlib 等构建。Scikit 采取开源的 BSD 授权协定,同时也可用于贸易。Scikit-Learn 具备如下特点:
- 分类(Classification) – 辨认剖断一个对象属于哪一类别
- 回归(Regression) – 猜测对象接洽关系的持续值属性
- 聚类(Clustering) – 类似对象主动分组集合
- 降维(Dimensionality Reduction) – 削减须要推敲的随机变量数量
- 模型选择(Model Selection) –比较、验证和选择参数和模型
- 预处理(Preprocessing) – 特点提取和规范化
- Galvanize 公司数据科学讲师,Isaac Laughlin供给
Spark 由一个驱动法度榜样构成,它运行用户的 main 函数并在聚类上履行多个并行操作。Spark 最吸惹人的处地点于它供给的弹性分布数据集(RDD),那是一个按照聚类的节点进行分区的元素的集合,它可以在并行计算中应用。RDDs 可以年腋荷琐 Hadoop 文件体系中的文件(或者其他的 Hadoop 支撑的文件体系的文件)来创建,或者是驱动法度榜样中其他的已经存在的标量数据集合,把它进行变换。用户也许想要 Spark 在内存中永远保存 RDD,来经由过程并行操作有效地对 RDD 进行复竽暌姑。最终,RDDs 无法大年夜节点中主动答复复兴。
推荐阅读
沙龙晃荡 | 3月31日 京东、微博、华为拭魅战专家与你合营商量容器技巧实践! 近几年物联网已经成为各行各业和本钱争相追逐的风口,进入2018年,物联网热度持续不减,一个全球化的智能互联时>>>详细阅读
本文标题:数据分析师必知必会的7款Python工具
地址:http://www.17bianji.com/lsqh/40991.html
1/2 1