人类产生的数据量已经达到前所未有的水平,每天创造了近2.5万亿字节的数据。随着物联网和移动技术的进步,数据已成为大多数组织的核心利益。但是,比起简单地收集,更重要的是正确分析和解释数据以挖掘其中的价值。
大多数企业从各种来源收集数据,每个数据流提供的信号理想地汇集在一起形成有用的见解。但是,能否充分利用数据取决于是否有合适的工具来清理、准备、合并并正确分析。
以下介绍七个数据分析师必备的Python工具:
Pandas
pandas是一个开源的,BSD许可的库,为Python编程语言提供高性能,易于使用的数据结构和数据分析工具。Python长期以来一直非常适合数据整理和准备,但对于数据分析和建模则不那么重要。pandas有助于填补这一空白,使您能够在Python中执行整个数据分析工作流程,而无需切换到更像域特定的语言,如R.
结合优秀的IPython工具包和其他库,在Python中进行数据分析的环境在性能,生产力和协作能力方面表现出色。
PuLP
线性规划是一种优化,其中在给定一些约束的情况下应该最大化目标函数。PuLP是一个用python编写的线性编程建模器。PuLP可以生成LP文件并使用高度优化的解算器,GLPK,COIN CLP / CBC,CPLEX和GUROBI来解决这些线性问题。
Matplotlib
matplotlib是一个python 2D绘图库,可以生成各种硬拷贝格式和跨平台交互式环境的出版物质量数据。matplotlib可用于python脚本,python和ipython shell,Web应用程序服务器和六个图形用户界面工具包。
matplotlib试图让简单的事情变得容易和艰难。您只需几行代码即可生成绘图,直方图,功率谱,条形图,错误图,散点图等。
对于简单的绘图,pyplot接口提供类似MATLAB的接口,特别是与IPython结合使用时。对于高级用户,您可以通过面向对象的界面或通过MATLAB用户熟悉的一组函数完全控制线型,字体属性,轴属性等。
cikit-Learn
Scikit-Learn是一种简单有效的数据挖掘和数据分析工具。它的优点在于它可供所有人使用,并可在各种环境中重复使用。它建立在NumPy,SciPy和mathplotlib之上。Scikit也是一个商业上可用的开源软件 - BSD许可证。Scikit-Learn具有以下功能:
分类 - 确定对象属于哪个类别
回归 - 预测与对象关联的连续值属性
群集 - 将类似对象自动分组到集合中
降维 - 减少要考虑的随机变量的数量
模型选择 - 比较,验证和选择参数和模型
预处理 - 特征提取和规范化
Spark
Spark由一个驱动程序组成,该程序运行用户的主要功能并在集群上执行各种并行操作。Spark提供的主要抽象是弹性分布式数据集(RDD),它是跨群集节点分区的元素集合,可以并行操作。RDD是通过从Hadoop文件系统(或任何其他Hadoop支持的文件系统)中的文件或驱动程序中的现有Scala集合开始并对其进行转换来创建的。用户还可以要求Spark 在内存中保留 RDD,允许它在并行操作中有效地重用。最后,RDD会自动从节点故障中恢复。
Spark中的第二个抽象是可以在并行操作中使用的共享变量。默认情况下,当Spark并行运行一个函数作为不同节点上的一组任务时,它会将函数中使用的每个变量的副本发送给每个任务。有时,变量需要跨任务共享,或者在任务和驱动程序之间共享。Spark支持两种类型的共享变量:广播变量,可用于缓存所有节点的内存中的值; 累加器,它们是仅“添加”到的变量,例如计数器和总和。
IPython
IPython是一种用于多种编程语言的交互式计算的命令shell,最初是为Python编程语言开发的,它提供增强的内省,富媒体,附加shell语法,选项卡完成和丰富的历史记录。IPython提供以下功能:
强大的交互式shell(终端和基于Qt的)
基于浏览器的笔记本,支持代码,文本,数学表达式,内联图和其他富媒体
支持交互式数据可视化和GUI工具包的使用
灵活,可嵌入的解释器,可以加载到自己的项目中
易于使用,高性能的并行计算工具
GraphLab Create
GraphLab Create是一个由C ++引擎支持的Python库,用于快速构建大规模,高性能的数据产品。
以下是GraphLab Create的一些功能:
能够在桌面上以交互速度分析TB级数据
表格数据,图形,文本和图像的单一平台
最先进的机器学习算法,包括深度学习,提升树和分解机器
使用Hadoop Yarn或EC2群集在笔记本电脑或分布式系统中运行相同的代码
使用灵活的API专注于任务或机器学习
使用Predictive Services在云中轻松部署数据产品
可视化数据以进行勘探和生产监控
网友评论