美文网首页
数据分析案例--USDA食品数据库

数据分析案例--USDA食品数据库

作者: owolf | 来源:发表于2018-10-10 16:56 被阅读154次

本章节以及后续章节的源码,当然也可以从我的github下载,在源码中我自己加了一些中文注释。

美国农业部(USDA)制作了一份有关食物营养信息的数据库。JSON版如下:

        每种食物都带有若干标识性属性以及两个有关营养成分和分量的列表。这种形式的数据不是很适合分析工作,因此我们需要做一些规整化以使其具有更好用的形式:

        db中的每个条目都是一个含有某种食物全部数据的字典。nutrients字段是一个字典列表,其中的每个字典对应一种营养成分:

        在将字典列表转换为DataFrame时,可以只抽取其中的一部分字段。这里,我们将取出食物的名称、分类、编号以及制造商等信息:

通过value_counts,可以查看食物类别的分布情况:

        为了对全部营养数据做一些分析,最简单的办法是将所有食物的营养成分整合到一个大表中。我们分几个步骤来实现该目的。首先,将各食物的营养成分列表转换为一个DataFrame,并添加一个表示编号的列,然后将该DataFrame添加到一个列表中。最后通过concat将这些东西连接起来就可以了:

这个DataFrame中无论如何都会有一些重复项,所以直接丢弃就可以了:

由于两个DataFrame对象中(info 和 nutrients)都有"group"和"description",所以为了明确到底谁是谁,需要对它们进行重命名:

将info跟nutrients合并起来:

根据食物分类和营养类型画出一张中位值图:

根据营养分类得出的锌中位值

各营养成分最为丰富的食物是什么,这里只给出"Amino Acids"营养分组:

快速学习:

第一节 NumPy基础(一)

第二节 NumPy基础(二)

第三节 Pandas入门基础

第四节 数据加载、存储

第五节 数据清洗

第六节 数据合并、重塑

第七节 数据聚合与分组运算

第八节 数据可视化

第九节 pandas高级应用

第十节 时间序列

第十一节 Python建模库

数据分析案例--1880-2010年间全美婴儿姓名的处理

数据分析案例--MovieLens 1M数据集

数据分析案例--USA.gov数据

数据分析案例--2012联邦选举委员会数据库

数据分析案例--USDA食品数据库

相关文章

网友评论

      本文标题:数据分析案例--USDA食品数据库

      本文链接:https://www.haomeiwen.com/subject/dazpaftx.html