5、pandas的字符串的分割之str.split()

作者: 让数据告诉你 | 来源:发表于2017-12-08 16:07 被阅读9430次

分列在我们日常工作中经常用到,从各种系统中导出的什么订单号、名称、日期很多都是复合组成的,这些列在匹配、合并时没有办法使用,我们经常需要将她们分开。

像下面的DataFrame, 城市是复合的,变电站也是复合的,我们只需要一部分,要怎么操作呢?

DataFrame数据

网上搜索了一下,以前的做法是将要分的那列迭代并用split()分开,然后将分开后的数据新建一个DataFrame,然后再与原数据合并。比较复杂,大概的代码如下:

使用split和merge函数

其实原理清楚的话也不是很复杂。

当然我这里还有稍微简单的办法,其实原理基本一样,只是不再使用迭代,只需要df['柜台名称'].str.split('-')取代 x.split('-') for x in df['柜台名称']

使用str.split分列

我们看到出来的结果已经有索引和列名,明显已经是一个DataFrame了,这就是参数expand=True的作用。

指定expand=True生成DataFrame

在这里新的DataFrame和原数据df都是使用的默认索引,索引是一致的,可以以索引为键,使用merge()合并。如果索引不同的话,就需要重新设置索引了。

使用merge函数连接 使用merge函数连接(简洁版)

注意:如果直接用某一列和split()来分列是不行的,因为Series数据类型是没有split()的,所以需要先用.str将这一列转换为类似字符串的格式,就能够使用split()了。

str.split()有三个参数:第一个参数就是引号里的内容:就是分列的依据,可以是空格,符号,字符串等等。

按字符串分列

在上面这个图里,使用‘岸’作为分列依据,含有岸行就分开了。

第二个参数就是前面用到的expand=True,这个参数直接将分列后的结果转换成DataFrame。

第三个参数n=数字就是限制分列的次数。

就是当用于分列的依据符号在有多个的话需要指定分列的次数(不指定的话就会根据符号有几个分列几次)。

我们先修改一下df的数据:

DataFrame数据

默认全部分列:

默认不选n的参数 n=1和n=2

如果我想从最右边的开始找分列的依据,可以使用rsplit(),rsplit和split()的用法类似,一个从右边开始,一个从左边开始。

使用rsplit函数

相关文章

  • pandas的字符串的分割之str.split()

    5、pandas的字符串的分割之str.split() - 简书[https://www.jianshu.com/...

  • 5、pandas的字符串的分割之str.split()

    分列在我们日常工作中经常用到,从各种系统中导出的什么订单号、名称、日期很多都是复合组成的,这些列在匹配、合并时没有...

  • 【2017-08-22】字符串及文本的处理(一)

    字符串的分割与匹配 字符串分割如何根据指定的分割符将一个字符串切割str.split()仅用于简单的分割符处理,只...

  • 随笔记

    分割字符串,并计算长度。 str = "a,b,c" str_split = str.split(",") ...

  • BMR计算器

    字符串分割str.split()字符串格式化输出,使用{}占位 str.format()如:‘{}公斤,{}厘米’...

  • 20.分割,连接

    split 分割 将字符串按分隔符分割 str.split(str1) str1不写按空白字符分割 分割后的结果保...

  • 常用的方法(字符串)

    现有字符串 str.split() 把字符串分割为字符串数组,和Array.join()相反,不改变原字符串 ...

  • python split()

    split() 通过指定分隔符对字符串进行切片,并返回分割后的字符串列表语法str.split(str="", n...

  • 3-1字符串的拆分、匹配和替换

    如何拆分多种分隔符的字符串 字符串对象str.split()方法只能处理非常简单的情况,而且不支持多个分割符,对分...

  • split()的用法

    python 中的str.split()是对字符串以指定的字符进行切片。语法是: str 是需要分割的字符,默认是...

网友评论

    本文标题:5、pandas的字符串的分割之str.split()

    本文链接:https://www.haomeiwen.com/subject/yzpeixtx.html