美文网首页Pandas
运用Pandas(Python3以上)连接MySQL进行读写,查

运用Pandas(Python3以上)连接MySQL进行读写,查

作者: Mingjie_MEL | 来源:发表于2020-07-14 09:03 被阅读0次

    Pandas是Python处理数据分析包。当需要处理大量数据时能比EXCEL提供更强大的运行效率。可以与读入,写出如:CSV,CST,Excel,MySQL等数据存储方式。

    任务:

    本次将要介绍的是如何利用Pandas以及一些辅助包来:

    1. 将Python中的DataFrame数据写入MySQL

    2. 将MySQL中的数据导入Pyhon,并且利用MySQL语句进行操作

    准备:

    利用到的模拟数据来自Stackoverflow 中的Stack Overflow Annual Developer Survey 2020 (CSV File)(https://insights.stackoverflow.com/survey)关于程序员的调查数据

    在操作之前确保已经安装相应的库:Pandas,SQLAlchemy,pymysql

    用到的工具:Anaconda,JupyterNotebook(IDLE 或 Pycharm也可,但Jupyter的数据界面比较清晰),MySQL Workbench(8.0版本)。

    方法如下(假设已经安装Anaconda):搜索Anaconda Prompt

    pip install PyMySQL

    pip install Pandas

    pip install SQLAlchemy

    安装package 举例

    操作阶段

    1. 导入数据到Jupyter

    将下载的CSV导入Jupyter,操作如下

    导入数据

    2. 提前设置好Mysql

    在Mysql中建立新的数据库(Schema)命名为sample_db

    设置实验数据库

    3. 创立连接

    首先import sqlalchemy 和 pymysql库

    create_engine 为一个方法(method),执行建立连接的操作

    engine变量储存所创立的连接,以便重复利用

    df.to_sql() 为写入sql的一个方法(method),其中arg1 为数据库中数据表的名称(此时新建的),engine 代表前期利用create_engine创建的连接。if_exists 检查是否之前已经存在此数据表,‘append’代表如果存在附加,‘replace’代表如果存在,覆盖原来数据。

    操作完毕,登录数据库,此时在数据库(sample_db)中将能看到新创建的数据表(sample_table)

    创立连接

    4. 读取数据库中的数据

    还是利用第三步创立的连接engine,在Jupyter中接着输入

    sql_df_test = pd.read_sql('sample_table',engine,index_col = 'Respondent')

    将sample_table 中的数据导入并且赋值给sql_df_test

    5. 利用Python操作查询导入想要的数据

    如果不想全部导入数据库中的数据,可以设置查询条件,只导入需要的数据。此时用到的语句为

    pd.read_sql_query (query 代表查询),arg1 为查询的条件(SQL语法),代表从sample_table中以age>30 为条件,* 代表查询所有的数据。

    验证sql_df_test['Age'].min() 为31

    从数据库中查询导入需要的数据

    6. Pandas语句查询与Mysql语句查询对比

    假设想查询模拟数据中,参与调查的中国程序员的平均年龄。

    利用pandas语句

    Pandas查询

    利用mysql语句(生成DataFrame格式,方便在Pandas中做进一步操作)

    生成DataFrame格式

    利用mysql语句(简单的结果输出)

    简单结果输出

    相关文章

      网友评论

        本文标题:运用Pandas(Python3以上)连接MySQL进行读写,查

        本文链接:https://www.haomeiwen.com/subject/mofthktx.html