1. 数据导入
利用pandas读取数据:
import pandas as pd
csv:data=pd.read_csv('路径')
excel:data=pd.read_excel('路径')
excel第几个sheet: data=pd.read_excel('路径', sheet_name='sheet名字')
jason:data=pd.read_jason('路径')
html: data=pd.read_html('网址')
读取SQL:
import pymysql
import sqlalchemy
from sqlalchemy import create_engine
读取MongoDB:
import json
from pymongo import MongoClient
2. 数据探索
- data.head() #前五行数据
- data.sample() #随机抽样五条数据
- data.info() #数据集的信息
- data.describe() #数据型数据的描述统计
- data.shape #数据集的维度
-type(data['column']) #数据类型
3. code
unique:查看唯一值:文件名['column'].unique()
替换:data[‘column'].str.replace('替代前的值', '替代后的值')
去掉间隔符:data[‘column'].str.split('-', expand=True )
分类:data.groupby()
排序:data.sort_values(ascending=False)
数数:data['column'].value_counts()
查看空值数量:data.isnull().sum()
丢弃值:data.dropna()
网友评论