序
道德经阐述:道生一,一生二,二生三,三生万物。
1964年美国科学家盖尔曼提出中子,质子这一类强子是由三个更基本的单元夸克构成的,验证了道德经中《三生万物》的物理存在原理。
数据科学是一门日新月异的科学,数据库常变,软件常变,硬件常变 ……不变的只有洞察本质的思维方式和对问题解决之道的不懈追求。
为什么会产生数据科学
首先,随着社会发展,人类的社会实践、生产实践和科学实验产生了大量的数据。
同时,技术的进步使得数据的记录和整理变得越来越便利。
数据的海量增加使得人们对于数据采集、清洗、过滤、分析、建模和表达的需求越来越殷切。
人们的聚焦点从如何生产、收集和管理数据,转向如何更好地建立模型和分析数据。
数据科学应运而生。
数据科学的核心
数据科学的核心在于数据内容之间的相互作用,给定项目的目标以及用于实现这些目标的数据分析方法。
关键在于了解内部发生的事情:数据怎么了,我们得到了什么样的结果以及为什么会这样。
数据科学项目的三个阶段组织
- 第一阶段是准备,初期收集信息,便于后续处理
- 第二阶段是构建,利用在准备阶段采集的信息进行统计,采用合适的工具构建产品。
- 第三阶段是收工,交付产品,获得反馈,进行修改,支持产品和结束项目
第一章 讨论的重点在于数据科学家的思考过程,以及我们身边的数据科学。
作者希望将我们的注意力聚焦在最重要的事情上。
数据科学家需要拥有许多硬技能,其中包括软件研发和统计学的知识。
但是,保持适当的角度并意识到许多动态因素是重要的软技能。
有时候,重点是数据质量,有时候,重点则是数据规模,处理速度,算法参数,结果解读或问题的许多其他方面。
意识的可贵
小故事:一个刚起步的初创公司的创始人,想从旅行相关的电子邮件中提取姓名、地点、日期和其他关键信息,以便将这些数据用于移动应用,从而跟踪用户的旅行计划。
这个问题具有一定的共性:电子邮件格式和大小不同,来自航空公司、酒店、预定网站的电子邮件的格式不同,这些格式在一段时间之后可能还会变化,想要提取出有用的信息具有很大的挑战。
软件研发人员可能会认为自然语言处理工具可以解决这个问题。但事实上,当付诸行动去实现的时候会遇到很多意想不到的困难。
而作者在问题提出之初就意识到,这个问题可能会很复杂,想要解决这个问题有两种方案,一种是人工处理,一种是脚本处理,或者在两者之间折衷处理。作者认为折衷处理的方案似乎是最好的。即,针对常见的格式研发一些简单的模板,通过脚本提取有用信息,对于一些特殊的识别不了的文件则采取人工处理的方式。
作者从这个故事中学习到教训:当处理设计数据的问题时,意识是非常有机制的。在处理问题时,意识到处理的过程中会遇到的问题,将会使我们的处理更加顺畅。
数据科学家和软件研发人员的不同
软件研发人员需要处理的问题时具有明确逻辑的,若A,即B的问题。
而数据科学家处理的问题则是类似若A,则可能B的问题。导致这种可能的原因正是数据科学家需要回答的问题。
处理不确定性是数据科学家和软件研发人员的本质区别。
优先级:知识,技术,观点
- 知识第一 ——采取行动前,理解问题、数据、方法和目标,并在头脑中记住它们。
- 技术第二 ——软件只是工具,既可为你赋能也可以约束你。
- 观点最后 ——意见、直觉不是任何项目的重点,一切的观点都需要验证。
最佳时间
编写程序和项目的说明文档,管理好文档的版本。
代码组织符合约定的规范。
了解业务。
紧靠数据。(采用的方法不要过于繁杂。)
tips:用MLE来确定最可能引发不可预知结果的参数值。
网友评论