Python | 快速入门Pandas模块（一）

作者: 金融测试民工 | 来源:发表于2020-02-03 14:53 被阅读0次

Content
Python简单分析微信好友
Pandas 教程 — 筛选让你动心的电影(1)
pandas快速入门
python合道-常规Pandas（1）
爬虫入门系列（二）：优雅的HTTP库requests
Python 入门之内置模块 -- 序列化模块（json模块、
数据分析学习计划
Python Requests模块快速入门
Pandas-Profilling：一行代码做探索性数据分析

Pandas简介

Pandas是基于Numpy的专业数据分析工具，可以灵活高效的处理各种数据集，也是进行数据分析的神器。它提供了两种类型的数据结构，分别是DataFrame和Series，我们可以简单粗暴的把DataFrame理解为Excel里面的一张表，而Series就是表中的某一列，后面学习和用到的所有Pandas骚操作，都是基于这些表和列进行的操作。Pandas和Excel、SQL相比，只是调用和处理数据的方式变了，核心都是对源数据进行一系列的处理。

数据的创建、读取和存储

1、创建

在Pandas中我们想要构造下面这一张表应该如何操作呢？

表

第一步一定是先导入我们的库

import pandas as pd

构造DataFrame最常用的方式是字典+列表，语句很简单，先是字典外括，然后依次打出每一列标题及其对应的列值（此处一定要用列表），这里列的顺序并不重要：

构建DataFrame

2、读取

在工作中，我们是把相关文件数据直接读进PANDAS中进行操作，这里介绍三种非常接近的读取方式，一种是CSV格式的文件，一种是EXCEL格式（.xlsx和xls后缀）的文件，一种是使用数据库，数据库本身自带简单的求和、计数等功能。数据库导出的数据文件通常为 CSV、UNL 格式。CSV 和 UNL 格式数据也可以用 Excel 打开并正常显示为表格，它们是使用特殊分隔符（比如 ,、| 或 ;）的文本型数据文件。

数据读写

读取csv文件

engine是使用的分析引擎，读取csv文件一般指定python避免中文和编码造成的报错。而读取Excel文件，则是一样的味道：

读取excel文件

# 读入MySQL数据库数据

# 导入第三方模块

importpymysql

# 连接MySQL数据库

conn = pymysql.connect(host='localhost', user='root', password='test',

database='test', port=3306, charset='utf8')

# 读取数据

user = pd.read_sql('select * from topy', conn)

# 关闭连接

conn.close()

# 数据输出

User