这篇文章是关于什么的?
当我用谷歌搜索“数据科学”时,里面4/5的结果是关于数据科学课程的。当我打开这些课程时,我会看到一些常见的句子,例如,“学习数据科学中的Python”, “ Python中的数据分析基础知识”等。
科技行业的每个人都接受Python是目前数据科学最重要的语言。在此,我想证明这一结论,并找出原因。
此外,我还想谈谈python如何成为数据科学最重要的语言,以及它与数据科学的关系。在过去的十年中发生了什么事情使得python登上了数据科学的阶梯,并取代了R和SAS,直接占领了首要位置。
这篇文章不包括什么?
这篇文章不是教程。它不包含数据科学技术或Python编程。它将突出显示Python语言和数据科学之间的关系,包括它们是如何在一起工作的。
如果你想学习Python语言或数据科学技术,那么本文并不适合你。
什么是“数据科学家”,它是如何演变的?
数据科学家这一称呼,在90年代后期开始流行。我喜欢alexa.com给出的定义:数据科学家是一个不停问问题的孩子的成人版本 !他们总是在问为什么。数据科学的发展非常迅速,目前数据科学家是最具魅力的职位。
目前大约有4.4万亿GB的数字数据,预计在未来十年将翻一番。公司越来越有兴趣从可用数据中获取有意义的东西,以取得竞争优势。
那么问题来了,数据科学家是怎么火起来的呢?
2006年
职位:数据分析师或业务分析师
使用工具:SAS(最受欢迎)、R、WEKA、STATISTICA
背景:统计学、数学和经济学专业背景
2011年
公司意识到了领域知识的重要性。分析师为他们从未从事过的行业,从未使用的产品以及他们不了解的客户工作。在这个时候,商业理解成为关键。分析团队引入了MBA专业、工程甚至心理学专业的人才。
由于R语言是开源的,R成为SAS的强有力竞争对手。而后Hadoop出现了,数据集开始被称为大数据。
目前状况
数据科学家已与数据分析师区分开。前者可以出身数据科学、机器学习、大数据和数据可视化等专业。
所有这些专业都使从业者能根据自己的专业技能发挥专业作用。
任何想要学习数据科学的学生都必须花点时间来分析他自己所拥有的专业技能。
Python提供了什么?
Python提供了数据科学家所需的所有必要功能,并能够与诸如Hadoop和Spark等工具很好地融合在一起。
让我们看看它是如何做到这点的。
数据科学家的问题和Python的答案
如何轻松进行数值分析?
NumPy:支持大型的N维数组和强大的数学函数
如何操作数据?
Pandas:支持名为Data
Frame表的数据结构和操作
我应该如何可视化数据?
Matplotlib:建立在NumPy和Pandas上以支持数据可视化
如何进行科学分析和计算?
SciPy:支持科学计算和技术计算
如何做统计分析?
StatsModel:支持统计分析
如何实现机器学习?
Scikit-learn:支持机器学习和预测建模。它建立在NumPy,Pandas和Matplotlib之上
如何实现神经网络?
TensorFlow :支持直接或通过使用wrapper库创建深度学习模型
如何连接MySQL数据库?
PyMySQL:支持与MySQL数据库的简单连接,执行查询和提取数据
如何读取XML、HTML数据?
BeautifulSoup:支持轻松读取XML和HTML类型的数据
我想要一个交互式编程笔记本,该怎么办?
Jupyter Notebook:支持交互式编程和可视化
结论
本文并不是要建议你使用python去学数据科学,只是强调了python库的丰富性。开发人员一直在使用python数据包来提供更多的功能,这使python成为一个不错的选择。
原文链接:
https://www.codementor.io/kunaldhawan93/data-science-and-python-i2ai6pntw
来源:codementor
作者:Kunal Dhawan
智能观 编译
—完—
亲爱的朋友:
今天是清明假期后的第一个工作日,跟你分享一篇技术科普小文。希望能对你有所帮助。
祝安!
智能观 一米
2018-4-8 于北京中关村
想知道AI加教育领域有哪些最新研究成果?
想要AI领域更多的干货?
想了解更多专家的“智能观”?
请在对话界面点击“找找看”,去获取你想要的内容吧。
声明:
编译文章旨在帮助读者了解行业新思想、新观点及新动态,为原作者观点,不代表智能观观点。
网友评论