当您尝试将不同长度的numpy数组列表分配给数据帧时,会出现错误,并且可以按如下方式重现:
四行数据框:
df = pd.DataFrame({'A': [1,2,3,4]})
现在尝试为其分配两个元素的列表/数组:
df['B'] = [3,4] # or df['B'] = np.array([3,4])
两个错误:
ValueError: Length of values does not match length of index
因为数据框有四行,但列表和数组只有两个元素.
解决方案(谨慎使用):将列表/数组转换为pandas系列,然后在执行赋值时,系列中缺少的索引将填充NaN:
df['B'] = pd.Series([3,4])
df
A B
0 1 3.0
1 2 4.0
2 3 NaN # NaN because the value at index 2 and 3 doesn't exist in the Series
3 4 NaN
对于您的特定问题,如果您不关心索引或列之间的值的对应关系,则可以在删除重复项后重置每列的索引:
df.apply(lambda col: col.drop_duplicates().reset_index(drop=True))
网友评论