安装数据分析库
安装命令pip install/conda install
pip install numpy
pip install scipy
pip install pandas
pip install matplotlib
Numpy
提供常用的数值数组、矩阵等函数
优点:
是基于向量化的运算
进行数值运算时Numpy数组比list效率高
Scipy
是一种使用NumPy来做高等数学、信号处理、优化、统计的扩展包 http://docs.scipy.org/doc/
1 Linear Algebra (scipy.linalg)
2 Statistics (scipy.stats)
3 Spatial data structures and algorithms (scipy.spatial)
Pandas
是一种构建于Numpy的高级数据结构和精巧
工具,快速简单的处理数据。
n 支持自动或明确的数据对齐的带有标签轴的数据结构。
n 整合的时间序列功能。
n 以相同的数据结构来处理时间序列和非时间序列。
n 支持传递元数据(坐标轴标签)的算术运算和缩减。
n 灵活处理丢失数据。
n 在常用的基于数据的数据库(例如基于SQL)中的合并
和其它关系操作。
常用高级数据分析库nltk、igraph和scikit-learn介绍
自然语言处理工具包(Natural Language Toolkit)
n 安装:pip install -U nltk
n 引入:import nltk
n 下载预料库:nltk.download()
应用:
n 文本提取
n 词汇切分
n 词频分析
n 词袋模型
n 情感分析
igraph
o 图计算和社交网络分析http://igraph.org/python/
o 安装:
pip install -U python-igraph
conda install -c marufr python-igraph=0.7.1.post6
Scikit-learn
Scikit-learn是建立在Scipy之上的一个用于机器学习的Python模块。
安装:pip install -U scikit-learn / conda install scikit-learn
网友评论