美文网首页
用MongoDB进行数据整理(一)

用MongoDB进行数据整理(一)

作者: mcdullsnow | 来源:发表于2017-05-01 14:25 被阅读86次

    用MongoDB进行数据整理(一)数据提取基础

    1.MongoDB简介

    数据预处理 Data Wrangling:数据预处理是一个获得、提取、清洗和存储数据的过程。只有在完成这些过程之后,一切的分析才有意义。比如你对华尔街做量化分析,你想建一个自动交易模型,你首先要确保你的模型基于可靠的数据。

    2.评估数据质量

    一般来讲,我们不应该信任数据。数据是从哪里来的?要么是人手动打出来的,要么是来自人编写的程序,要么是这两者的结合。这个过程中总是涉及到人,所以可能会给我们带来问题。

    比如某些excel文件中可能有些行列缺失了相应的值。

    比如excel中日期的格式

    3.表格格式 DataSet

    在表格数据中,每行(row)代表一个数据项(item)。每项可以有一个或者多个字段,每列(column)代表一个不同的字段(field)。

    在大多数表格数据中,第一行通常是这些字段的标签。

    每一个单元格(cell)包含某一个字段的值(value)。

    4.CSV格式

    表格数据最常见的发布方式是CSV的数据格式。Python中包含了CSV模块,可以处理CSV数据。

    CSV文件的第一行包含所有字段的标签。

    CSV每行文本都是呈现为行,字段被分隔符隔开,这个分隔符(delimeter)通常是逗号(comma)。

    5.练习解析CSV文件以及CSV模块的使用 CSV--->Dict

    代码如下:https://github.com/mcdullsnow/mongoDBStudy/blob/master/1.py

    6.XLRD简介

    xlrd安装:pip install xlrd

    如何以程序化模式处理Excel文件?Python中的XLRD模块可以处理老式的XLS格式和新的XLSX格式的Excel文件。利用这个模块我们可以载入excel工作簿中的所有数据,并在Python程序中对其进行各种处理。

    我们应该怎样将Excel文件中的数据完全读取成python列表并对其进行处理。我们要如何在Excel文件中,利用XLRD模块处理行、列和单元格。最后,还要讲一下日期,主要是因为日期在XML中显示的形式各有不同。

    7.JSON简介

    习题集

    1.

    相关文章

      网友评论

          本文标题:用MongoDB进行数据整理(一)

          本文链接:https://www.haomeiwen.com/subject/gllftxtx.html