分列在我们日常工作中经常用到,从各种系统中导出的什么订单号、名称、日期很多都是复合组成的,这些列在匹配、合并时没有办法使用,我们经常需要将她们分开。
像下面的DataFrame, 城市是复合的,变电站也是复合的,我们只需要一部分,要怎么操作呢?
![](https://img.haomeiwen.com/i8612260/e8144d7462468bc2.png)
网上搜索了一下,以前的做法是将要分的那列迭代并用split()分开,然后将分开后的数据新建一个DataFrame,然后再与原数据合并。比较复杂,大概的代码如下:
![](https://img.haomeiwen.com/i8612260/03f8944a97411089.png)
其实原理清楚的话也不是很复杂。
当然我这里还有稍微简单的办法,其实原理基本一样,只是不再使用迭代,只需要df['柜台名称'].str.split('-')取代 x.split('-') for x in df['柜台名称']
![](https://img.haomeiwen.com/i8612260/bfb50753244ea5a9.png)
我们看到出来的结果已经有索引和列名,明显已经是一个DataFrame了,这就是参数expand=True的作用。
![](https://img.haomeiwen.com/i8612260/95365b54d3859f2c.png)
在这里新的DataFrame和原数据df都是使用的默认索引,索引是一致的,可以以索引为键,使用merge()合并。如果索引不同的话,就需要重新设置索引了。
![](https://img.haomeiwen.com/i8612260/ea22cb26a49346cf.png)
![](https://img.haomeiwen.com/i8612260/a6d9ef66f12997d2.png)
注意:如果直接用某一列和split()来分列是不行的,因为Series数据类型是没有split()的,所以需要先用.str将这一列转换为类似字符串的格式,就能够使用split()了。
str.split()有三个参数:第一个参数就是引号里的内容:就是分列的依据,可以是空格,符号,字符串等等。
![](https://img.haomeiwen.com/i8612260/84bfe4fe387dc837.png)
在上面这个图里,使用‘岸’作为分列依据,含有岸行就分开了。
第二个参数就是前面用到的expand=True,这个参数直接将分列后的结果转换成DataFrame。
第三个参数的n=数字就是限制分列的次数。
就是当用于分列的依据符号在有多个的话需要指定分列的次数(不指定的话就会根据符号有几个分列几次)。
我们先修改一下df的数据:
![](https://img.haomeiwen.com/i8612260/806208e35e6e3ff1.png)
默认全部分列:
![](https://img.haomeiwen.com/i8612260/eb80f70ba8fabfe9.png)
![](https://img.haomeiwen.com/i8612260/384fb978384f5e6b.png)
如果我想从最右边的开始找分列的依据,可以使用rsplit(),rsplit和split()的用法类似,一个从右边开始,一个从左边开始。
![](https://img.haomeiwen.com/i8612260/f01078552ebb156e.png)
网友评论