1.数据与数据分析
数据其实就是对事物特征的定性职称以及量化描述,比如一个人的身份证号,年龄,收入,身高,家庭情况等就构成了一组数据,如果把很多人的这些数据汇成表,便构成了“结构化”,但是有一些或者大部分的数据都不是规整的,也就是分布比较杂乱,没有按照相关规律排布或者不是按照我们的要求分布的称之为“非结构化”的数据。
数据分析的本质是什么?那就是将这些结构化或者非结构化的数据,映射到指定格式的数据空间里面,然后进行分析。
这句话说的比较绕,但是却非常深刻,它告诉我们,数据分析的一个基础就是寻找合适的数据空间映射方案或者可以理解为数据清洗。
2.掌握两类工具
工具则大体可以分为两种,一是基础性的excel,spss,sas等数据分析软件以及许多数据库管理工具,它们主要处理的是结构化的数据,也就是把数据生成表的规整数据;二是编程语言,包括python,R,Java,Ruby等,这些语言工具主要是处理数据空间映射和清洗工作的,其中,比较常用的是python和R,前者由于其可扩充性,已经在大多数情况下优于后者了。
3.学习
请注意一点:python学习,对于没有任何计算机基础的人来说,基本上是开头容易、越往后面越难!python一开始的类似自然语言的结构很友好,但你到了函数与面向对象的学习的时候,还是必须明确引用变量的变化以及作用域的动态变化等对入门者不友好的问题。
在这种情况下,《head first python》根本不适合,不要用它学习python!
如果有条件我的建议是,花点钱找个靠谱的数据分析培训机构学习,这样会节省很多时间,顺便说一下加米谷数据分析与挖掘培训,本月18号就开课了,有兴趣的可以来了解一下,一定不会让你失望的!
推荐几本书:
可以看看入门的统计学教材:《深入浅出统计学 》
以及入门与深入理解数据库原理:《MySQL必知必会 》+《数据库系统概念 》
《R语言编程艺术 》
最后,可以使用《利用Python进行数据分析 》将所有知识串接起来,感受pandas以及scipy,numpy中的数据计算是如何体现数据空间映射这个深刻概念的。
网友评论