数据分析库介绍
-
Numpy
Numpy是python的一个科学计算的基础库,它提供了如下功能:1. 快速高效的多维数据对象naarray 2. 用于对数组执行计算以及直接提供对数组进行科学计算的函数 3. 用于读写硬盘上基于数组的数学集工具 4. 线性代数运算、傅立叶变换、以及随机数生成 5. 用于将C、C++、Fortant代码集成到python的工具 6. 通常与Scipy和Matplotlib一起使用。
-
pandas
pandas提供了使我们能够快速处理结构化的大量数据结构和函数,pandas兼具Numpy高性能的数组计算功能以及电子表格和关系型数据(如SQL)灵活的数据处理能力。它提供了复杂精细的索引功能,以便更为便捷地完成重塑、切片和切块、聚合以及选取数据子集等操作。 对于金融行业的用户,pandas提供了大量适用于金融数据的高性能时间序列功能和工具。 DataFrame是pandas的一个对象,它是一个面向列的二维表结构,且含有行标和列标。 ps.引用一段网上的话说明DataFrame的强大之处: Excel 2007及其以后的版本的最大行数是1048576,最大列数是16384,超过这个规模的数据Excel就会弹出个框框“此文本包含多行文本,无法放置在一个工作表中”。Pandas处理上千万的数据是易如反掌的事情,同时随后我们也将看到它比SQL有更强的表达能力,可以做很多复杂的操作,要写的code也更少。 说了一大堆它的好处,要实际感触还得动手码代码。
-
matplotlib
matplotlib是最流行的用于绘制数据图表的python库
-
Scipy
Scipy是一组专门解决科学计算中各种标准问题域的包的集合
引用惯例
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
import statsmodels as sm
也就是说,当你看到np.arange时,就应该想到它引用的是NumPy中的arange函数。这样做的原因是:在Python软件开发过程中,不建议直接引入类似NumPy这种大型库的全部内容(from numpy import *)。
行话
由于你可能不太熟悉书中使用的一些有关编程和数据科学方面的常用术语,所以我在这里先给出其简单定义:
- 数据规整(Munge/Munging/Wrangling)
指的是将非结构化和(或)散乱数据处理为结构化或整洁形式的整个过程。这几个词已经悄悄成为当今数据黑客们的行话了。Munge这个词跟Lunge押韵。 - 伪码(Pseudocode)
算法或过程的“代码式”描述,而这些代码本身并不是实际有效的源代码。 - 语法糖(Syntactic sugar)
这是一种编程语法,它并不会带来新的特性,但却能使代码更易读、更易写。
网友评论