1 概述
数据类有多火就不多说了,数据和数据分析在生活中的实用性和重要性都是不言而喻。正是由于此类的原因,利用业余时间自学了一段时间的数据分析。
刚开始的时候,面对多如牛毛一样信息,感觉像是狗咬刺猬,无处下口。经过大约几个月的摸索,大概有了一定的了解。想着记录自己的学习历程能够帮助自己学习,或许也能够給相同境遇的人提供帮助,共同学习进步。于是乎,回过头来整理下自己的学习,借用狼人杀的话说就是将自己的心路历程记录与此,以兹共同进步。入门不久,道行尚浅,如有错误,不吝赐教。
数据分析是什么呢?百度如是说:
数据分析是指用适当利用统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
概括成一句话就是分析数据,得到结果。所以需要学习的东西为分析数据的方法。
2.1 知识构成
这里记录的是利用 Python 进行数据分析的情况,基于目前的认知 (后续可能修改),大体上需要的知识构成为:
数学知识
Python 基础知识
Python 数据分析包使用
进阶部分,需要掌握的知识有:
爬虫
机器学习和深度学习
大数据
由于本人为理工男,这一部分略过了。目前来看,需要的知识主要为 《概率论与数理统计》。
由于只需要掌握计算部分的知识,Python 的基础知识需要了解以下内容:
基本语法
数据类型和变量
条件语句和循环语句
函数和模块的概念
这里推荐两个教程:
1.Python编程 从入门到实践 :
本书是一本针对所有层次的Python读者而作的Python入门书。
全书分两部分:首部分介绍用Python 编程所必须了解的基本概念,包括matplotlib、NumPy和Pygal等强大的Python库和工具介绍,以及列表、字典、if语句、类、文件与异常、代码测试等内容;
第二部分将理论付诸实践,讲解如何开发三个项目,包括简单的Python 2D游戏开发,如何利用数据生成交互式的信息图,以及创建和定制简单的Web应用,并帮读者解决常见编程问题和困惑。
本书是一本全面的从入门到实践的Python编程教程,带领读者快速掌握编程基础知识、编写出能解决实际问题的代码并开发复杂项目。
2.Python核心编程(第3版)
《Python核心编程(第3版)》是经典畅销图书《Python核心编程(第二版)》的全新升级版本,总共分为3部分。
第1部分为讲解了Python的一些通用应用,包括正则表达式、网络编程、Internet客户端编程、多线程编程、GUI编程、数据库编程、Microsoft Office编程、扩展Python等内容。
第2部分讲解了与Web开发相关的主题,包括Web客户端和服务器、CGI和WSGI相关的Web编程、Django Web框架、云计算、高级Web服务。
第3部分则为一个补充/实验章节,包括文本处理以及一些其他内容。
《Python核心编程(第3版)》适合具有一定经验的Python开发人员阅读。
主要掌握 Python 相关数据分析包的使用,包括 Numpy/pandas/matplotlib 等。这也是需要重点掌握的内容。参考的书为《利用 Python 进行数据分析》。当时看完该书感觉学到了很多,然后过几天就忘记了。所以这部分的学习内容主要是练习各个包的使用,特别是 Pandas 包。另外,看书不练手往往使会使得自己很疑惑,不知道数据分析具体的工作内容到底是什么。为此,我爬取了一些数据,练习了几个数据分析。
利用Python进行数据分析 [Python for Data Analysis]
《利用Python进行数据分析》讲的是利用Python进行数据控制、处理、整理、分析等方面的具体细节和基本要点。同时,它也是利用Python进行科学计算的实用指南(专门针对数据密集型应用)。
《利用Python进行数据分析》重点介绍了用于高效解决各种数据分析问题的Python语言和库。《利用Python进行数据分析》没有阐述如何利用Python实现具体的分析方法。
大部分时间都花在学习这方面的内容,根据各人的基础不一样,感觉这部分学习可以稍后,可以主要学习前面的内容。大概记录下自己的学习过程。
爬虫的话主要参考崔庆才的:
Python 3网络爬虫开发实战
案例丰富,注重实战
博客文章过百万的静觅大神力作
全面介绍了数据采集、数据存储、动态网站爬取、App爬取、验证码破解、模拟登录、代理使用、爬虫框架、分布式爬取等知识
涉及的库或工具:urllib、requests、Beautiful Soup、XPath、pyquery、redis-py、PyMongo、PyMySQL、Selenium、Splash、Charles、mitmproxy、mitmdump、Appium、pyspider、Scrapy、Scrapy-Redis、Scrapy-Splash、Docker、Bloom Filter、Gerapy等
本书适合Python程序员阅读
看完上述部分内容后,爬取了几个网站的内容练手,也是后续文章中用于练手的数据来源。
断续看了三本书,推导了机器学习的常用算法。三本书为:
《机器学习》, 周志华
《统计学习方法》, 李航
Pattern Recognition and Machine Learning (PRML), Christopher M. Bishop.
主要参考的是两本中文书,第三本书看了部分内容,推导了常用的算法 (预想之后以简洁的不带公式的方式介绍这部分内容)。个人觉得不是做相关方面的研究者,只需要大体上掌握各类算法原理以及如何利用机器学习包。后续文章会有利用机器学习包实现数据分析的内容。
关于深度学习的话,目前还没有系统的学习,零碎的了解了一下。深度学习就是各种神经网络如何解算的问题。经过简单学习,认为最适合新手的深度学习包为Keras。(待续)
这里总结了大概上的学习历程,在后续的文章中将具体记录自己练手的例子。建议学习程度到了 《利用 Python 进行数据分析》 这一步,再去涉及相关实例。剩下还有一些好书推荐
Python数据分析与挖掘实战
10余位数据挖掘领域资深专家和科研人员,10余年大数据挖掘咨询与实施经验结晶。
从数据挖掘的应用出发,以电力、航空、医疗、互联网、生产制造以及公共服务等行业真实案例为主线,深入浅出介绍Python数据挖掘建模过程,实践性极强。
本书共15章,分两个部分:基础篇、实战篇。
基础篇介绍了数据挖掘的基本原理,实战篇介绍了一个个真实案例,通过对案例深入浅出的剖析,使读者在不知不觉中通过案例实践获得数据挖掘项目经验,同时快速领悟看似难懂的数据挖掘理论。
机器学习_周志华
机器学习是计算机科学与人工智能的重要分支领域. 本书作为该领域的入门教材,在内容上尽可能涵盖机器学习基础知识的各方面.
全书共16 章,大致分为3 个部分:第1 部分(第1~3 章)介绍机器学习的基础知识;
第2 部分(第4~10 章)讨论一些经典而常用的机器学习方法(决策树、神经网络、支持向量机、贝叶斯分类器、集成学习、聚类、降维与度量学习);
第3 部分(第11~16 章)为进阶知识,内容涉及特征选择与稀疏学习、计算学习理论、半监督学习、概率图模型、规则学习以及强化学习等.
每章都附有习题并介绍了相关阅读材料,以便有兴趣的读者进一步钻研探索。
本书可作为高等院校计算机、自动化及相关专业的本科生或研究生教材,也可供对机器学习感兴趣的研究人员和工程技术人员阅读参考。
统计学习方法-李航
统计学习是计算机及其应用领域的一门重要的学科。
《统计学习方法》全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与支持向量机、提升方法、em算法、隐马尔可夫模型和条件随机场等。
除第1章概论和最后一章总结外,每章介绍一种方法。
叙述从具体问题或实例入手,由浅入深,阐明思路,给出必要的数学推导,便于读者掌握统计学习方法的实质,学会运用。为满足读者进一步学习的需要,书中还介绍了一些相关研究,给出了少量习题,列出了主要参考文献。
《统计学习方法》是统计学习及相关课程的教学参考书,适用于高等院校文本数据挖掘、信息检索及自然语言处理等专业的大学生、研究生,也可供从事计算机应用相关专业的研发人员参考。
Tensorflow 实战Google深度学习框架
TensorFlow是谷歌2015年开源的主流深度学习框架 目前已在谷歌、优步-Uber、京东、小米等科技公司广泛应用。
'Tensorflow:实战Google深度学习框架'为使用TensorFlow深度学习框架的入门参考书
旨在帮助读者以最快、最有效的方式上手TensorFlow和深度学习。
书中省略了深度学习繁琐的数学模型推导 从实际应用问题出发 通过具体的TensorFlow样例程序介绍如何使用深度学习解决这些问题。
'Tensorflow:实战Google深度学习框架'包含了深度学习的入门知识和大量实践经验
机器学习实战 [Machine learning in action]
《机器学习实战》主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,
如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树(CART)算法等。
第三部分则重点介绍无监督学习及其一些主要算法:k均值聚类算法、Apriori算法、FP-Growth算法。第四部分介绍了机器学习算法的一些附属工具。
《机器学习实战》通过精心编排的实例,切入日常工作任务,摒弃学术化语言,利用高效的可复用Python代码来阐释如何处理统计数据,进行数据分析及可视化。
通过各种实例,读者可从中学会机器学习的核心算法,并能将其运用于一些策略性任务中,如分类、预测、推荐。另外,还可用它们来实现一些更高级的功能,如汇总和简化等。
百度云链接:链接:https://pan.baidu.com/s/1JrToJ_zUO71lcb7uIYPbWA 密码:dmin
现在还送PYTHON从入门到精通全套视频资料详情见:
https://blog.csdn.net/SHQWER/article/details/81702698
1.Python编程 从入门到实践
2.Python核心编程(第3版)
3.Python 3网络爬虫开发实战
4.利用Python进行数据分析 [Python for Data Analysis]
5.Python数据分析与挖掘实战
6机器学习_周志华
7统计学习方法-李航
8Tensorflow 实战Google深度学习框架
9.机器学习实战 [Machine learning in action]
原学有所成
网友评论