如今,每天来自手机、互联网、物联网、科学实验、新闻等等生活各处的信息创造着数以万亿字节的数据。在这万物互联的时代,信息技术将人类对数据的创造力一波又一波地推向新的巅峰。你对手机各种App和个人电脑的每一次点击与字符输入,你对歌曲、文章的每一次点赞、喜欢、评论等等操作都将零散单薄的数据汇入了信息的海洋,在大数据、人工智能技术的运用下激荡出新的浪花。而在这片汪洋大海下,数据科学成为沉淀下来的理论与科学基础。
我们都希望通过深入理解数据科学来指导生产或是研究工作——采集、存储数据、统计分析并进行决策。然而“合抱之木,生于毫末;九层之台,起于累土;千里之行,始于足下”,我们不可能平地起高楼,也不是吹吹谈谈就能做那掀起浪花的人。想要理解数据,寻求数据下的真实,就让我们从点点滴滴出发,跟随本书的指引,一起在知识的片段中探索数据背后的纷繁世界吧。
为什么选择Python
Python是当前(2018)最流行的编程语言之一,在过去几十年已经被广泛应用于系统管理任务的处理和网络编程等领域,接触过网络web编程的朋友必然Python写的Django框架不陌生。得益于机器学习、深度学习的兴起,Python在科学计算领域绽放出新的荣光。在IEEE发布的2017年编程语言排行榜中,Python高居首位。另外,不同于MATLAB这样的商业软件,Python是完全免费和开源的;又不同于R这样的主要用于统计分析与建模开源软件,比较难以将成果扩展为完整的应用程序,Python有着非常丰富的扩展库(模块),可以轻松完成各种高级任务,将项目的所有需求一起实现。
谁当阅读此书
本书是学习Python进行数据分析的入门教程,它主要是为新手设计,不过对于想要了解或者想要进入数据分析领域的程序员来说,它也同样有用。请注意,本书绝不是一本手册,它不会告诉你关于Python的所有领域的知识,比如网络编程、游戏编程、界面设计等等;它也不会事无巨细地告诉你所有Python的基础知识,而是侧重于数据分析和科学计算知识的解读和使用。
本书的由来
当收到简书邀请我写一本关于Python和数据分析方面的书时,我自己也是颇为意外。说实话,我虽然接触和使用过不少软硬件编程语言,但自我感觉水平还相当有限。Python这门语言知识面相当广,是出了名的多面手,我虽然了解和懂得不少Python基础知识,对于写书也是很没有把握的。我表达了自己的看法并表示需要积累积累再进行创作,感谢简书信任我并建议我写本入门书试试,于是这本书在我的酝酿中开始计划和与读者见面了。
一本书的名字是对一本书内容的提炼,可能有一部分读者会对本书的命名感兴趣,这里我略为解释一下。“交互”一词读者应当不会陌生,容易想到的就是“人机交互”,百度百科解释为“是一门研究系统与用户之间交互关系的学问”。与普通的Python编程或是其他编程(“编辑-编译-运行”的工作模式)有所不同,利用Python处理数据时,我们会感受到一种极强的交互性,不断地尝试各种分析——键入代码,查看结果,然后修正,重新运行查看结果,这一不断循环的过程往往是基于探索,因为数据分析时我们往往缺乏明确的目的和解决方案,我们可以简化这一过程为“运行-探索”的工作模式。除此之外,动态文档是数据分析的一个新的风潮,相对于普通的编程是进行应用程序的开发,数据分析则是进行数据的探索以及生成相关报表以供大家阅读和研究。所以在本书的设计中,我添加了关于markdown
标记语言的讲解和使用。数据分析过程,就应当像写一篇文章一样。
本书目前的状况
本书正在创作的过程中,即想即写,内容可能需要多次的补充和修正(所以欢迎大家多多反馈)。我是一个在读的学术研究生,所以平时只能在空余时间思考和进行写作,计划一到两周更新一次,更新内容的多少依据内容的多少和难度适应性调节。
因为本书创作周期比较长,感兴趣的朋友可以添加关注文集以获得内容更新提醒。
如何阅读本书
本书目录结构主要分为四大块,依次为基础篇、分析篇、统计篇和扩展篇。
基础篇主要讲解分析涉及的基础知识,包括Python基本语法(变量、操作符、运算符、列表、函数等)、Numpy库(用于计算)、Matplotlib库(用于画图)、Markdown基础(用于文档解释与说明)、Pandas(用于矩阵型数据运算操作)、控制流和循环。最后是一个综合型的案例研究。
分析篇主要介绍数据分析涉及的一些基本的操作与流程,包括数据导入、数据分析方法选择、数据清洗、数据操作以及可视化。
分析篇主要介绍一些基本的统计分析原理。
扩展篇主要介绍一下数据分析中一般不常用的一些概念和操作,以及高级的Python知识:面向对象编程和异常处理。
反馈
作为一本正在创作的书籍,读者的建议和反馈非常重要。我尽力让这本书既生动又准确,但个人难免出现疏忽、遗漏甚至错误。欢迎你对本书所有的章节内容和探讨的话题进行质疑或者询问,比如你的勘误、数据分析涉及的相关原理、建议增补数据集及分析乃至本书章节组织与结构。请你在简书连载文章下方留言,或者发邮件与我联系,我的邮箱是w_shixiang@163.com,也可以访问建立的讨论网站https://shixiangwang.freeflarum.com我学Python板块进行提问。
版权声明
本书版权归我与简书所共有,请不要在未经允许的情况下转载,侵权必究。
-- 王诗翔
网友评论