20200902
pydata
pd.df批量转换列的类型
- 使用字典
- 列名和类型名都需要使用字符串形式
df = df.astype({'overdue_guid_y':'int64', 'quit_guid_y':'int64'\
, 'login_succ_guid_y':'int64', 'first_login_guid_y':'int64'})
Jupyter notebook将展示宽度设置为整个屏幕
from IPython.core.display import display, HTML
display(HTML("<style>.container { width:100% !important; }</style>"))
其他
windows的密码更改,git凭据报错
错误信息
fatal: Authentication failed for ....
解决方法
控制面板-凭据管理器-管理windows凭据-找到对应的git凭据-更正密码为当前锁屏密码
AB实验 统计学
样本容量的计算
MDE
20200914
pandas
pd.merge不能跨字段类型连接,如果两者字段类型不同需要转换成相同字段。
- Object最好转换成str。
20200916
hive
- 表类型
EXTERNAL_TABLE
INDEX_TABLE
MANAGED_TABLE
VIRTUAL_VIEW
20200923
1. pydata pandas
- 设置查看的最大行和列
import pandas as pd
pd.set_option('display.max_columns', None)#相应的我们可以设置显示的最大行数
pd.set_option('display.max_rows', None)#其中None可以是具体数字,例如10,100等等
- 筛选非空行
df[df['Column'].notna()]
- 修改列名的两种方法
# 1.使用列表修改全部列名。
df.columns = ['A','B']
# 2.使用字典修改指定列
df.rename(columns={'a':'A'})
20200929
调整Dataframe预览表格时显示表格线
%%HTML
<style type="text/css">
table.dataframe td, table.dataframe th {
border: 1px black solid !important;
color: black !important;
}
20201003
dataframe两列中较大列
df[['x', 'y']].max(axis=1)
df中解析 a=1&b=2&b=3的a值的方法
from urllib.parse import urlparse, parse_qs, parse_qsl
import json
def parse_url(astr):
jsonobj = json.loads(astr)
qua = jsonobj['qua']
query = urlparse('https://someurl.com/with/query_string?'+qua).query
pr = dict(parse_qsl(query))['a']
return pr
DataFrame对某列截取指定位的字符
df['colname'].str[1:4]
DF实现类似SQL的COUNT(DISTINCT colname1) GROUP BY colname2
table.groupby('colname2 ').colname1.nunique()
网友评论