23 Pandas怎样实现Excel的vlookup并且在指定列后面输出?
背景:
- 有两个excel,他们有相同的一个列;
- 按照这个列合并成一个大的excel,即vlookup功能,要求:
- 只需要第二个excel的少量的列,比如从40个列中挑选2个列
- 新增的来自第二个excel的列需要放到第一个excel指定的列后面;
- 将结果输出到一个新的excel;
步骤1:读取两个数据表
import pandas as pd
# 学生成绩表
df_grade = pd.read_excel("./course_datas/c23_excel_vlookup/学生成绩表.xlsx")
df_grade.head()
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
<pre><code>.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
</code></pre>
班级 | 学号 | 语文成绩 | 数学成绩 | 英语成绩 | |
---|---|---|---|---|---|
0 | C01 | S001 | 99 | 84 | 88 |
1 | C01 | S002 | 66 | 95 | 77 |
2 | C01 | S003 | 68 | 68 | 61 |
3 | C01 | S004 | 63 | 66 | 82 |
4 | C01 | S005 | 72 | 95 | 94 |
# 学生信息表
df_sinfo = pd.read_excel("./course_datas/c23_excel_vlookup/学生信息表.xlsx")
df_sinfo.head()
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
<pre><code>.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
</code></pre>
学号 | 姓名 | 性别 | 年龄 | 籍贯 | |
---|---|---|---|---|---|
0 | S001 | 怠涵 | 女 | 23 | 山东 |
1 | S002 | 婉清 | 女 | 25 | 河南 |
2 | S003 | 溪榕 | 女 | 23 | 湖北 |
3 | S004 | 漠涓 | 女 | 19 | 陕西 |
4 | S005 | 祈博 | 女 | 24 | 山东 |
目标:怎样将第二个“学生信息表”的姓名、性别两列,添加到第一个表“学生成绩表”,并且放在第一个表的“学号”列后面?
步骤2:实现两个表的关联
即excel的vloopup功能
# 只筛选第二个表的少量的列
df_sinfo = df_sinfo[["学号", "姓名", "性别"]]
df_sinfo.head()
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
<pre><code>.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
</code></pre>
学号 | 姓名 | 性别 | |
---|---|---|---|
0 | S001 | 怠涵 | 女 |
1 | S002 | 婉清 | 女 |
2 | S003 | 溪榕 | 女 |
3 | S004 | 漠涓 | 女 |
4 | S005 | 祈博 | 女 |
df_merge = pd.merge(left=df_grade, right=df_sinfo, left_on="学号", right_on="学号")
df_merge.head()
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
<pre><code>.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
</code></pre>
班级 | 学号 | 语文成绩 | 数学成绩 | 英语成绩 | 姓名 | 性别 | |
---|---|---|---|---|---|---|---|
0 | C01 | S001 | 99 | 84 | 88 | 怠涵 | 女 |
1 | C01 | S002 | 66 | 95 | 77 | 婉清 | 女 |
2 | C01 | S003 | 68 | 68 | 61 | 溪榕 | 女 |
3 | C01 | S004 | 63 | 66 | 82 | 漠涓 | 女 |
4 | C01 | S005 | 72 | 95 | 94 | 祈博 | 女 |
步骤3:调整列的顺序
df_merge.columns
Index(['班级', '学号', '语文成绩', '数学成绩', '英语成绩', '姓名', '性别'], dtype='object')
问题:怎样将’姓名’, '性别’两列,放到’学号’的后面?
接下来需要用Python的语法实现列表的处理
# 将columns变成python的列表形式
new_columns = df_merge.columns.to_list()
new_columns
['班级', '学号', '语文成绩', '数学成绩', '英语成绩', '姓名', '性别']
# 按逆序insert,会将"姓名","性别"放到"学号"的后面
for name in ["姓名", "性别"][::-1]:
new_columns.remove(name)
new_columns.insert(new_columns.index("学号")+1, name)
new_columns
['班级', '学号', '姓名', '性别', '语文成绩', '数学成绩', '英语成绩']
df_merge = df_merge.reindex(columns=new_columns)
df_merge.head()
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
<pre><code>.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
</code></pre>
班级 | 学号 | 姓名 | 性别 | 语文成绩 | 数学成绩 | 英语成绩 | |
---|---|---|---|---|---|---|---|
0 | C01 | S001 | 怠涵 | 女 | 99 | 84 | 88 |
1 | C01 | S002 | 婉清 | 女 | 66 | 95 | 77 |
2 | C01 | S003 | 溪榕 | 女 | 68 | 68 | 61 |
3 | C01 | S004 | 漠涓 | 女 | 63 | 66 | 82 |
4 | C01 | S005 | 祈博 | 女 | 72 | 95 | 94 |
步骤4:输出最终的Excel文件
df_merge.to_excel("./course_datas/c23_excel_vlookup/合并后的数据表.xlsx", index=False)
本文使用 文章同步助手 同步
网友评论