#Python数据分析学习路线
一、数据获取
1、从公开数据源
UCI:加州大学欧文分校开放的经典数据集,真的很经典,被很多机器学习实验室采用。
http://archive.ics.uci.edu/ml/datasets.html
国家数据:数据来源于中国国家统计局,包含了我国经济民生等多个方面的数据。
http://data.stats.gov.cn/index.htm
CEIC:超过128个国家的经济数据,能够精确查找GDP、CPI、进出口以及国际利率等深度数据。
https://www.ceicdata.com/zh-hans
中国统计信息网:国家统计局的官方网站,汇集了海量的全国各级政府各年度的国民经济和社会发展统计信息。
http://www.tjcn.org/
政务数据网站:现在各个省都在很大程度上地开放政务数据,比如北京、上海、广东、贵州等等,都有专门的数据开放网站,搜索比如“北京政务数据开放”。
2、网络爬虫
通过爬虫获取数据
3、其他数据获取方式
如果你暂时不会爬虫,但又有采集数据的需求,可以尝试各种采集软件,不需要编程知识也可以轻松爬取信息,比如火车头、八爪鱼等。很多数据竞赛网站也会公开不错的数据集,比如国外的Kaggle,国内的DataCastle、天池。这些数据都是真实的业务数据,且规模通常不小,可以经常去搜集和整理。
推荐数据汇总资源:
数据获取方式汇总 https://dwz.cn/Q44MsDkH
二、数据存储与提取(以MySQL为例)
1、【数据库】数据库连接、创建、删除、查看、选择
https://www.runoob.com/python/python-mysql.html
2、【数据增删改】创建表、删除表、修改表、插入行、删除行、更新行
https://blog.csdn.net/qq_36761831/article/details/83245727
3、【数据查询】之基础查询
https://www.cnblogs.com/wangwei13631476567/p/8999429.html
4、【数据查询】之子查询
https://blog.csdn.net/weixin_44699728/article/details/90320104
5、【排序与索引】之排序语句
https://www.runoob.com/mysql/mysql-order-by.html
6、【排序与索引】之索引:创建索引、添加索引、建表时指定索引、删除索引
https://www.runoob.com/mysql/mysql-index.html
三、数据清洗与预分析(以Pandas框架为例)
1、【生成数据表】之数据读取
https://blog.csdn.net/weixin_42223833/article/details/92841384
2、【生成数据表】之创建数据表
https://blog.csdn.net/mengenqing/article/details/80548208
3、【数据查看】之基本信息
https://blog.csdn.net/qq1195365047/article/details/88561518
4、【数据查看】之查看空值和唯一值
https://blog.csdn.net/starter_____/article/details/79184196
5、【数据查看】之查看前/后 10行
http://sofasofa.io/forum_main_post.php?postid=1004019
6、【数据清洗】之缺失值处理
https://blog.csdn.net/lwgkzl/article/details/80948548
7、【数据清洗】之字符处理
https://www.cnblogs.com/gloria-zhang/p/10696307.html
8、【数据清洗】之重复值处理
https://www.cnblogs.com/hankleo/p/11462532.html
9、【数据预处理】之数据表合并
https://blog.csdn.net/qq_42413820/article/details/80780886
10、【数据预处理】之排序
https://blog.csdn.net/sinat_29957455/article/details/78993732
11、【数据提取】之loc和iloc
https://blog.csdn.net/jiangjiang_jian/article/details/81038638
12、【数据提取】之ix
https://blog.csdn.net/anshuai_aw1/article/details/82801435
13、【数据统计】之采样
https://blog.csdn.net/u013069552/article/details/88935644
14、【数据统计】之汇总
https://www.cnblogs.com/zhanghongfeng/p/8438891.html
四、Numpy框架
1、【数组】之创建数组
https://blog.csdn.net/qq_28893679/article/details/80969005
2、【数组】之切片和索引
https://www.cnblogs.com/sunshinewang/p/6882031.html
3、【数组】之数组操作
https://blog.csdn.net/somilong/article/details/79065847
4、【函数】之字符串函数
https://blog.csdn.net/phinoo/article/details/89678395
5、【函数】之数学函数
https://blog.csdn.net/mooneve/article/details/80156316
6、【函数】之统计函数
https://blog.csdn.net/weixin_44056331/article/details/89949742
五、数据分析统计
【描述性分析】之统计学基础:均值,中位数、众数、百分位数、极值
【描述性分析】之统计学基础:偏度、方差、标准差、显著性
【描述性分析】之统计学基础:总体和样本,参数和统计量,ErrorBar
【描述性分析】之统计学基础:概率分布和假设检验,各种分布,假设检验流程
【描述性分析】之统计学基础:条件概率,贝叶斯
【探索性分析及可视化】之直方图
【探索性分析及可视化】之条形图
【探索性分析及可视化】之计数图
【探索性分析及可视化】之散点图
【探索性分析及可视化】之箱线图
【探索性分析及可视化】之回归图
【探索性分析及可视化】之热力图
【预测性分析】之基本算法模型《回归》:一元线性回归
【预测性分析】之基本算法模型《回归》:多重线性回归
【预测性分析】之基本算法模型《回归》:逻辑回归
【预测性分析】之基本算法模型《分类》:决策树
【预测性分析】之基本算法模型《分类》:朴素贝叶斯
【预测性分析】之基本算法模型《分类》:KNN
【预测性分析】之基本算法模型《聚类》:Kmeans
【预测性分析】之基本算法模型《聚类》:密度聚类
推荐看,可汗学院的公开课-统计学:
http://open.163.com/movie/2011/6/6/0/M82IC6GQU_M83J9IK60.html
网友评论