美文网首页大数据我爱编程程序员
学习Python for Data Science:在数据科学中

学习Python for Data Science:在数据科学中

作者: 大数据首席数据师 | 来源:发表于2018-07-26 14:38 被阅读15次

    Python for Data Science是数据分析领域专业人士必须学习的东西。随着IT行业的发展,对熟练数据科学家的需求急剧增加,Python已经发展成为最受欢迎的编程语言。通过这篇博客,您将学习基础知识,如何分析数据,然后使用Python创建一些漂亮的可视化。

    这篇关于“Python for Data Science”的文章包括以下主题:

    为什么要学习Python for Data Science?

    Python简介

    用于数据科学的Python的Jupyter安装

    Python基础知识

    用于数据科学的Python库

    演示:实际实施

    让我们开始吧!

    为什么学习Python用于数据科学?

    毫无疑问,Python是数据科学家最适合的语言。我列出了几点可以帮助您理解人们使用Python for Data Science的原因:

    Python是一种免费,灵活且功能强大的开源语言。

    Python以简单易读的语法将开发时间缩短了一半。

    使用Python,您可以执行数据操作,分析和可视化。

    Python为机器学习应用程序和其他科学计算提供了强大的库。

    你知道最好的部分吗?Data Scientist是目前收入最高的工作之一,每个Indeed.com 每年收入约为130,621美元

    Python由Guido Van Rossum于1989年创建。它是一种具有动态语义的解释语言。它可以在所有平台上免费访问和运行。Python是:

    面向对象

    高级语言

    简单易学

    面向过程

    使用数据科学进行Python的Jupyter安装

    让我指导您完成在系统上安装Jupyter的过程。只需按照以下步骤操作:

    第1步:转到链接:https//jupyter.org/

    第2步:您可以点击“在浏览器中试试”或“安装笔记本”。

    我建议你使用Anaconda发行版安装Python和Jupyter 。安装Jupyter后,可以在命令提示符下键入“Jupyter Notebook”,在默认浏览器中打开它。现在让我们在Jupyter上执行一个基本程序。

    name = input(“输入你的姓名:”)

    print(“你好”,姓名)

    现在,要运行此功能,请按“Shift + Enter”并查看输出。请参阅以下屏幕截图:

    Python数据科学基础知识

    现在是你在编程中弄脏的时候了。但为此,您应该对以下主题有基本的了解:

    变量术语“变量”是指用于存储值的保留存储器位置。在Python中,您不需要在使用变量之前声明变量,甚至不需要声明它们的类型。

    数据类型 Python支持多种数据类型,它们定义了变量和存储方法的可能操作。数据类型列表包括 - 数字,列表,字符串,元组,集和字典。

    运算符运算符有助于操纵操作数的值。Python中的运算符列表包括:算术,比较,赋值,逻辑,按位,成员身份和身份。

    条件语句条件语句有助于根据条件执行一组语句。有即三个条件语句-如果艾丽芙,和否则

    循环循环用于迭代小块代码。有三种类型的循环,即 while for嵌套循环。

    函数函数用于将代码划分为有用的块,允许您对代码进行排序,使其更具可读性,重用代码并节省一些时间。

    有关更多信息和实际实现,请参阅此博客:Python教程

    用于数据科学的Python库

    这是Python与数据科学的实际力量进入画面的部分。Python附带了许多用于科学计算,分析,可视化等的库。其中一些列表如下:

    NumPy - NumPy是Python for Data Science的核心库,代表'Numerical Python'。它用于科学计算,它包含一个强大的n维数组对象,并提供集成C,C ++等的工具。它还可以用作通用数据的多维容器,您可以在其中执行各种NumPy操作和特殊操作功能

    Matplotlib - Matplotlib是一个功能强大的Python可视化库。它可以在Python脚本,shell,Web应用程序服务器和其他GUI工具包中使用。您可以使用不同类型的图表,并查看使用Matplotlib的多个图表的工作方式。

    Scikit-learn - Scikit-learn是主要的吸引力之一,您可以使用Python实现机器学习。它是一个免费的库,包含简单有效的数据分析和挖掘工具。您可以使用scikit-learn实现各种算法,例如逻辑回归

    Seaborn - Seaborn是Python中的统计绘图库。因此,无论何时使用Python进行数据科学,您都将使用matplotlib(用于2D可视化)和Seaborn,它具有漂亮的默认样式和用于绘制统计图形的高级界面。

    Pandas - Pandas是Python数据科学的重要库。它用于数据处理和分析。它非常适用于不同的数据,如表格,有序和无序时间序列,矩阵数据等。本 教程视频介绍了Pandas和数据分析,然后再继续。

    演示:实际实施

    问题陈述:您将获得一个数据集,其中包含有关监狱机构的分布和性质,监狱过度拥挤,监狱囚犯类型等各方面的综合统计数据。您必须使用此数据集执行描述性统计并获得有用的数据洞察数据。以下是一些任务:

    数据加载:使用Pandas加载数据集“prisoners.csv”,并显示数据集中的第一行和最后五行。然后使用describe Pandas中的方法找出列数 。

    数据处理:创建一个新列 - “总收益” - 这是所有模式中受益的囚犯的总和。

    数据可视化:创建一个条形图,其中x轴上的每个州名称和他们的总受益囚犯作为他们的酒吧高度。

    对于数据加载,请编写以下代码:

    将pandas 导入为pd

    导入matplotlib。作为情节的pyplot

    %matplotlib 内联

    file_name = “prisoners.csv”

    囚犯 = pd。read_csv(file_name)

    犯人

    现在要describe 在Pandas中使用该方法,只需输入以下语句:

    囚犯。describe()

    接下来,让我们执行数据操作。

    囚犯 [ “total_benefited” ] = 囚犯。总和(轴 = 1)

    囚犯。头()

    最后,让我们在Python中执行一些可视化。请参考以下代码:

    导入numpy 为np

    xlabels = 囚犯 [ 'STATE / UT' ]。值

    情节。图(figsize =(20,3))

    情节。xticks(NP。人气指数(xlabels。塑造 [ 0 ]),xlabels,旋转 = '垂直',字体大小 = 18)

    情节。xticks

    情节。杆(NP。人气指数(犯人。值。塑造 [ 0 ]),囚犯 [ 'total_benefited' ],对准 = '边缘')

    要了解学习大数据的可以加群,群号: 834325294,群里有免费的学习资料和视频。

    相关文章

      网友评论

        本文标题:学习Python for Data Science:在数据科学中

        本文链接:https://www.haomeiwen.com/subject/harbmftx.html