美文网首页
1.《利用Python进行数据分析·第2版》介绍 2019031

1.《利用Python进行数据分析·第2版》介绍 2019031

作者: ghostdogss | 来源:发表于2019-03-20 14:06 被阅读0次

    1.1 本书的内容

    本书讲的是利用Python进行数据控制、处理、整理、分析等方面的具体细节和基本要点。我的目标是介绍Python编程和用于数据处理的库和工具环境,掌握这些,可以让你成为一个数据分析专家。虽然本书的标题是“数据分析”,重点却是Python编程、库,以及用于数据分析的工具。这就是数据分析要用到的Python编程。

    数据类型

    当书中出现“数据”时,究竟指的是什么呢?主要指的是结构化数据(structured data)。

    结构化数据,简单来说就是数据库。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。

    基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。

    1.2 为什么要使用Python进行数据分析

    Python成为成功的科学计算工具的部分原因是,它能够轻松地集成C、C++以及Fortran代码。大部分现代计算环境都利用了一些Fortran和C库来实现线性代数、优选、积分、快速傅里叶变换以及其他诸如此类的算法。许多企业和国家实验室也利用Python来“粘合”那些已经用了多年的遗留软件系统。

    为什么不选Python

    由于Python是一种解释型编程语言,因此大部分Python代码都要比用编译型语言(比如Java和C++)编写的代码运行慢得多。由于程序员的时间通常都比CPU时间值钱,因此许多人也愿意对此做一些取舍。但是,在那些延迟要求非常小或高资源利用率的应用中(例如高频交易系统),耗费时间使用诸如C++这样更低级、更低生产率的语言进行编程也是值得的。

    对于高并发、多线程的应用程序而言(尤其是拥有许多计算密集型线程的应用程序),Python并不是一种理想的编程语言。这是因为Python有一个叫做全局解释器锁(Global Interpreter Lock,GIL)的组件,这是一种防止解释器同时执行多条Python字节码指令的机制。有关“为什么会存在GIL”的技术性原因超出了本书的范围。虽然很多大数据处理应用程序为了能在较短的时间内完成数据集的处理工作都需要运行在计算机集群上,但是仍然有一些情况需要用单进程多线程系统来解决。

    1.3需要注意的问题

    当你使用conda和pip二者安装包时,千万不要用pip升级conda的包,这样会导致环境发生问题。当使用Anaconda或Miniconda时,最好首先使用conda进行升级。

    1.4行话

    数据规整(Munge/Munging/Wrangling)

    指的是将非结构化和(或)散乱数据处理为结构化或整洁形式的整个过程。这几个词已经悄悄成为当今数据黑客们的行话了。Munge这个词跟Lunge押韵。

    伪码(Pseudocode)

    算法或过程的“代码式”描述,而这些代码本身并不是实际有效的源代码。

    语法糖(Syntactic sugar)

    这是一种编程语法,它并不会带来新的特性,但却能使代码更易读、更易写。

    相关文章

      网友评论

          本文标题:1.《利用Python进行数据分析·第2版》介绍 2019031

          本文链接:https://www.haomeiwen.com/subject/uuhgpqtx.html