摘要:灵蛇出现,必有异像,Python最热的领域,估计非数据分析、挖掘领域莫属了。以Scikit-Learn为代表的数据分析领域,从这里开始,便是Python的天下;一边操作实例,一边阅读文档,再辅助以相关的理论基础,持之数日,则大业可成也。
01 灵蛇出现,必有异像
蛇有灵性,蟒蛇更甚。民间关心打死蛇后出现的种种因果报应现象,相信各位也多有耳闻。身边听到的一个是,一个老太打死了一条蛇,第二年她女儿便离婚了。
青城山下的一条蟒蛇修行千年终得人生,由此可见,蛇有强大的灵性,而且还告诉我们一个道理:修得人的身体很难啊!
佛法有云:生中国难,得人身难,闻佛法难,生信心难。(注:中国,原指印度,中心之国。)
Python既是一条大蟒蛇,自然算是编程语言中很有灵性的了。
今既得人身,又闻佛法,且学Python,当然得用来做点什么吧!
当今,Python最热的领域,估计非数据分析、数据挖掘莫属了!
02 灵蟒Python,事实标准
只要你没有太久闭关修练绝世神功,只要你用眼睛余光了解过数据分析相关领域,相信你会有个感觉,怎么处处都有Python的踪影啊!
每种计算机编程语言,似乎都有自己成名或适用的领域。
在这个大家都在谈云计算、大数据、深度学习的时代,让我们来看看,这些领域里面的代表吧。
以Docker为代表的云计算与虚拟化,这是Go的天下。国内使用Go最出名的,当属七牛了;
以Hadoop为代表的大数据框架,这是java的天下。国内这块最强的,当然首推阿里了;
以Spark为代表的内存迭代框架,这是Scala的天下;
以Scikit-Learn为代表的数据分析领域,从这里开始,便是Python的天下;
说句不负责任的话,Python已经成为数据分析领域里事实上的标准语言。
03 Python一出,谁与争锋
且来看看,Python在数据分析领域的生态圈吧!
a. 基础库
Numpy: 矩阵计算与其它大多数框架的数据处理基础;
Scipy:科学计算库,提供了很多科学计算工具包和算法;
Matplotlab:专业画图工具,话说这个单词还是真是在Matlab之间插入了plot这个词形成的;
Pandas:提供类似于R语言的DataFrame操作,非常方便;
……
b. 机器学习与深度学习
OpenCV:提供图像识别的很多方便的操作;
Orange:基于图形界面的机器学习程序,也可以用Python脚本来操作调用;
Scikit-Learn:前面说了,这是Python在机器学习领域里面的代表作。尤其是它的文档,完全可以当成机器学习的参考资料来阅读了,曾经我向朋友推荐的时候说,说过,把scikit-learn的文档当成佛经来读,假以时日,功力定会大增。
Theano:深度学习里面非常有名的一个框架了,也非常具有代表性。是其它很多框架的基础。
Keras:基于Theano进行了抽象,建议入门的话使用这个,搭积木一样地就可以弄个神经网络出来了。
NLTK:自然语言处理,提供的功能也很强大。
国内出品的Mxnet的Python接口
……
c. 分布式机器学习与深度学习
Spark之MLlib的Python接口Pyspark
H2o的Python接口
收费的Graph Create的Python接口
Google最近刚出的TensorFlow的Python接口
三星最近刚出的Veles,目前只提供Python接口
……
也许,新的机器学习或深度学习框架,如果不提供Python接口的话,恐怕会被认为难以推广吧。
上面列举的只是其中一部分,还有很多很多。当然,他们很多并非是用Python来实现,但都共同的提供了Python接口,甚至好几个都把Python当成了头等公民(First-Class)。
在此并非想说Python这门语言很强大或者复杂,而恰恰相反,得益于Python的简洁和包容。才让它在数据挖掘领域有如此的地位。
这便是生态圈的力量,不以个人的意志为转移。
04 书山有路,学海无涯
对于想入门数据分析、数据挖掘、机器学习的朋友来说,Python是你值得花时间的选择。因为,除了上面的工具链生态圈,还有书籍和知识传播的生态圈。
如文章开篇之图,都是和数据分析相关的书籍,且都是用Python作为示例来讲解。
如若有心,且仔细看图识字!
05 念念不忘,必有回响
真若有心于数据领域,甚或欲从事数据科学之职业。请对Python有信心,值得你付出时间。想走机器学习之路,Scikit-learn是你最好的选择,一边操作实例,一边阅读文档,再辅助以相关的理论基础,持之数日,则大业可成也。
网友评论