Python pandas 2.0 初探

作者: 数据人阿多 | 来源:发表于2023-04-09 19:31 被阅读0次

数据处理基石：Pandas数据探索
第三方库-Series-基础
第三方库-Pandas-基础
Pandas实战——Pandas初探
Python - pandas库安装失败解决
Android程序员初探Vue（二）：项目结构
Android程序员初探Vue（一）：环境搭建（Vue2.0）
萝卜头学python:pandas 对EXCEL处理
pandas资料汇总
2020-08-02--Pandas-01--常用数据结构

背景

每门编程语言都有其独特的用途，目前python在数据科学方面发展的相对比较全面，大家目前也都喜欢使用python来处理数据、做模型开发等。python在数据处理方面离不开 pandas 库，该库在今年的4月3日发布了 2.0版更新，对底层进行了大量的重构以优化性能和稳定性

主要新增功能及优化

1、引擎增加pyarrow
最主要是底层的数据引擎增加了对pyarrow支持（Apache Arrow 内存数据交换格式），pandas之前的底层引擎是numpy，numpy在处理数值型数据时效率很高，但是在处理字符串型的数据时效率比较慢，pyarrow的引入，使字符串的处理效率得到明显提升

2、写入时复制（Copy-on-Write）的优化
当你复制一个pandas对象，如DataFrame或Series，而不是立即创建一个新的数据副本，pandas将创建一个对原始数据的引用（视图），推迟创建一个新的副本，直到你以某种方式修改数据时才创建一个副本，而原数据保持不变，

这可以大大减少内存的使用，提高性能，因为你不需要对数据进行不必要的复制。总的来说，写时拷贝是一种强大的优化技术，可以帮助你更有效地处理大型数据集，并减少内存占用

安装

必须要安装pyarrow库，否则运行时会报错

pip install --upgrade pandas    #更新pandas库
pip install pyarrow             #安装pyarrow库

安装

测试

测试数据是有12W+行数据

1、加载数据测试
从加载csv数据可以看出，速度有明显的提升，差不多有10倍

加载数据测试

2、字符串处理测试
从字符串处理方面看，速度大约是原来的40倍

字符串处理测试

3、修改时复制机制

默认该机制是关闭的，修改视图数据时，原始数据也会被修改

默认

打开修改时复制机制，修改视图数据时，原始数据保持不变

打开机制

历史相关文章

以上是自己实践中遇到的一些问题，分享出来供大家参考学习，欢迎关注微信公众号：DataShare ，不定期分享干货

网友评论

本文标题：Python pandas 2.0 初探

本文链接：https://www.haomeiwen.com/subject/ahdbddtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Python pandas 2.0 初探

背景

主要新增功能及优化

安装

测试

历史相关文章

相关文章

数据处理基石：Pandas数据探索

第三方库-Series-基础

第三方库-Pandas-基础

Pandas实战——Pandas初探

Python - pandas库安装失败解决

Android程序员初探Vue（二）：项目结构

Android程序员初探Vue（一）：环境搭建（Vue2.0）

萝卜头学python:pandas 对EXCEL处理

pandas资料汇总

2020-08-02--Pandas-01--常用数据结构

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读