美文网首页
Dataset and Problems

Dataset and Problems

作者: 涂大宝 | 来源:发表于2017-11-29 16:22 被阅读0次

    1.POI (Person of Interest)

    2. Accuracy & Training set size

    More data>fine-tuned algorithm

    3. download anron dataset

    4. dataset type test1

    salary-numerical

    job-categorical

    timestamps on emails

    contents of emails-text

    5.安然欺诈案是一个混乱而又引人入胜的大事件,从中可以发现几乎所有想像得到的企业违法行为。安然的电子邮件和财务数据集还是巨大、混乱的信息宝藏,而且,在你稍微熟悉这些宝藏后,它们会变得更加有用。我们已将这些电子邮件和财务数据合并为一个数据集,而你将在此迷你项目中研究它。

    开始:

    克隆这个 GitHub 库:https://github.com/udacity/ud120-projects

    运行开始代码:datasets_questions/explore_enron_data.py

    6.聚合的安然电子邮件和财务数据集被存储到字典中,字典中的每个键是一个人名,而且值是包含此人所有特征的一个字典。

    电子邮件和财务 (E+F) 数据字典被存储在 pickle 文件中,该文件可直接存储和加载 python 对象,非常方便。 使用datasets_questions/explore_enron_data.py加载数据集。

    数据集中有多少数据点(人)?

    answer: 146

    7. For each person, how many features are available?

    answer: 21

    8.How many POIs are there in the E+F dataset

    18

    9.我们编辑了一个包含所有 POI 姓名的列表(在../final_project/poi_names.txt中)并附上了相应的邮箱地址(在../final_project/poi_email_addresses.py中)。

    总共有多少 POI?(使用姓名列表,不要用邮箱地址,因为许多雇员不止一个邮箱,而且其中少数人员不是安然的雇员,我们没有他们的邮箱地址。)

    35

    10.你可以看到,我们在 E+F 数据集中有许多 POI,但不是所有。这为何会是一个潜在的问题?

    我们将在稍后解释 POI 为何有可能不在安然 E+F 数据集中,这样你就可以在往下继续之前完全理解这个问题。

    11.和任何字典的字典一样,个人/特征可以这样被访问:

    enron_data["LASTNAME FIRSTNAME"]["feature_name"]

    或者

    enron_data["LASTNAME FIRSTNAME MIDDLEINITIAL"]["feature_name"]

    James Prentice 名下的股票总值是多少?

    1095040

    12.和任何字典的字典一样,个人/特征可以这样被访问:

    enron_data["LASTNAME FIRSTNAME"]["feature_name"]

    我们有多少来自 Wesley Colwell 的发给嫌疑人的电子邮件?

    11

    13.Jeffrey Skilling 行使的股票期权价值是多少?

    19250000

    14.如你刚才所见,不是每个 POI 在数据集中都有一个条目(比如:Michael Krautz)。那是因为数据集是通过你在final_project/enron61702insiderpay.pdf中找到的财务数据所创建的,这些数据中缺少了一些 POI(这些缺失的 POI 被传送至最终的数据集)。另一方面,对于这些“缺少的”POI,我们确实有他们的邮件。

    尽管向 E+F 数据集中添加这些 POI 和他们的信息,并且为财务信息设置“NaN”非常简单,但这会带来一个微妙的问题。你将在此处了解到这一问题。

    (当前的)E+F 数据集中有多少人的薪酬总额被设置了“NaN”?数据集中这些人的比例占多少?

    14.4

    15.E+F 数据集中有多少 POI 的薪酬总额被设置了“NaN”?这些 POI 占多少比例?

    0

    16.如果机器学习算法将 total_payments 用作特征,将“NaN”值关联到非 POI而不是POI

    相关文章

      网友评论

          本文标题:Dataset and Problems

          本文链接:https://www.haomeiwen.com/subject/aaikbxtx.html