数据获取渠道:
-
kaggle
-
github的仓库
-
谷歌高级搜索:搜索带后缀如csv格式
-
自取:
- rest api收集,python爬虫自取数据
-
相关links:
数据分析步骤:
- 提出问题:
- 数据Wrangle:获取数据,清洗数据
- 数据探索:建立直觉,寻找模式
- 数据结论:得出结论,或作出预测
- 数据交流:数据可视化
通常可视化比数字直观
误区:
- 噪声太多可能掩盖了真实的关系
-
看起来相关不一定是因果,比如:美国研发经费和自杀人数
美国研发经费和自杀人数
用A/B测试能看出是否是因果关系
经验之谈:
- 多特征的考虑得用机器学习方法
- 空的数据也可以用mean来填充
PCA可以降维,scikit-learn轻松实现 - 替换同义词的行,归一这些实际相同的
关于我:
linxinzhe,全栈工程师,目前供职于某500强通信企业。人工智能,区块链爱好者。
GitHub:https://github.com/linxinzhe
欢迎留言讨论,也欢迎关注我~
我也会关注你的哦!
网友评论