在说这本《数据科学入门》之前,我们先来讨论一下啥叫入门?我觉得入门其实就是做两件事:一是带你看看这物件是个什么鬼,也就是进门前带你在门口瞅一瞅。二是给你指条该怎么整地路,也就是告诉你门怎么开。做好这两件事,我觉得这个入门工作就算是“入门”了。以上述观点来看,这本书只算入了一半的门:它倒是给数据科学来了一个全方位立体式地介绍,第一件事完成的很漂亮。可第二件事嘛,它有点带偏了:不介绍现成的Python库怎么使用,而是从新发明轮子:从零开始写代码。这感觉就是你要去北京,我先告诉你内燃机原理,然后你可以自己制作汽车上路了。好吧,也许学习数据科学的同时再练习一下Python技巧是作者的初衷吧。我倒是建议大家还是偷懒学学具体库比较直接。所以,下文我将主要捋顺数据科学的框架,具体工具建议大家还是换别的书比较靠谱。
好的,我们现在开始说点正经的。我觉得数据科学整体的流程跟打麻将是一样样的(怎么感觉不太像说正经的呢?)就是“洗牌,码牌,摸牌看牌,摸牌看牌,胡了”这整个流程。别不信,我们一点点捋。
不过在开始之前,我们还是要先说一说麻将的玩法规矩,对应到数据科学里,就是数学原理。(诶,别走啊!数学没那么可怕)
数据科学要用的数学主要包括:
线性代数:多维空间变来变去那点事。没办法,数据科学打交道的数一般都是多维的,所以熟悉这套变换法则是必须的。
概率论:可能性的运算规矩。数据科学要分析的都是可能性事件(废话,确定性的事还分析个啥),所以还是要懂规矩地。
统计学:基于概率论的方法论。详细内容请出门左拐,参看我的《 统计思维》一文。
最优化理论:最主要的就是梯度下降法,可谓一招仙吃遍天。
好吧,上述数学知识我知道大家都还给老师了,还好书里有核心知识简介,大家可以简单地仔细看一下,唤起尘封的记忆。
现在开始打麻将了(知道你就等这个)。第一步,洗牌——数据收集。没麻将你打啥牌,没数据你分析啥。所以无论是网络爬虫,还是网页埋点,先呼啦呼啦把数据摆上桌再说。当然,少不了文件读取这样的基本功咯。
第二步,码牌——数据清洗和整理。你要是问为啥数据清洗不对应洗牌呢?我的回答是三个字:不愿意。其实数据清洗和整理是将数据规范化格式化的过程,对应的正是麻将里的码牌,把散乱的牌码整齐。和码牌一样,数据清洗和整理绝对是体力活——包括检查数据一致性,处理无效值和缺失值等等,这一步要花去你整个数据分析过程的绝大多数时间。耐心干活吧!
第三步——摸牌看牌。牌码好了,可以正式开始打牌了,是不是有点小兴奋?先等等,你知道怎么胡牌吗?为了胡牌,我们现在常用的技术是机器学习,就是给机器一套规则,一个判断标准,然后让机器自己在数据中锻炼自己。当然,这个规则就多种多样了,相当于各种胡牌方法:
谁近谁说了算的k近邻就是小屁胡。
将数据用简单直线表示的线性回归就是对对胡。
将数据通过变换映射到直线上再线性预测的逻辑回归是七小对。
考虑每一次决策使信息熵最大化的决策树是清一色。
不停调整细胞传递系数的人工神经网络是大三元。
还有不靠标记自己拉帮结派的聚类是十三幺。
……
算法很多,种有一款适合你。
第四步,胡牌——训练出可用模型,可以从数据中发现有预测未来能力的价值。当然,数据科学跟麻将不一样,不是算法越难回报越大。数据科学讲究不管黑猫白猫,抓住老鼠就是好猫。所以屁胡和十三幺一样,只要胡牌就是赢。
你以为到这里我们就说完了吗?并没有。如同各地有各自的麻将打法,数据科学也有不同的方向。比如有像血战到底的自然语言处理,分析语义、当前大火。还有像胡吃乱碰推倒胡的推荐系统,技术成熟,应用广泛……
总之,数据科学就如同麻将一样,千变万化,魅力无穷。你是不是也手痒了,想来摸两把。那就先从这本《数据科学入门》开始吧。
满分五星,《数据科学入门》我给三星。对于又想学数据科学,又想练习Python的小伙伴,不妨好好看一下。
网友评论