美文网首页
预测泰坦尼克号乘客是否遇难

预测泰坦尼克号乘客是否遇难

作者: 毛小毛_abdd | 来源:发表于2019-03-10 15:35 被阅读0次

    第一篇文章也是泰坦尼克号乘客预测的主题,但是是结合了保险行业的需求,不仅仅是单一的0/1分类问题,详细可以参考第一篇文章(●'◡'●)

    今天这篇文章依然是泰坦尼克号主题,且是简单的0/1预测,继续看这样一个项目的初衷是想了解这个主题的初始研究目标,重点事项学习数据如何清理,特征如何选取,以及去了解完成一个数据项目的流程以及每个步骤的常见套路,所以今天,我们没有具体完整的代码,重点是关于数据预处理分析部分的分析和流程的记录(●ˇ∀ˇ●)

    1) 定义问题
    遇到一个待解决的问题——>产生一个新的需求——>想到一系列解决方案——>为验证解决方案设计实施步骤——>为了实施需要使用的技术。
    经常地,我们往往沉迷于新的技术,而不明白我们实际想解决的问题是什么。明白自己的问题是什么,业务需求是什么,研究一个算法优化一个模型才是有意义的。

    在这个案例中,
    问题是根据乘客性别,社会等级,年龄等一系列信息,如果这个乘客在泰坦尼克号游船上,他能不能幸存?
    需求可以描述为,能不能根据历史数据,预测泰坦尼克号乘客是否遇难?
    解决方案需要考虑到妇女儿童有限,社会等级高的人有限,很明显,遇难/幸存,是一个二分类问题。

    2) 收集数据
    数据已经存在(结构化的&非结构化的,主观的&客观的,etc),在于我们如何找到它。
    收集数据在于我们明确的自己的研究的问题目标和需求,去收集相关的各种数据。

    3) 准备数据
    旨在将无序的数据清理为有序的能满足我们业务需求的格式数据。
    我们需要完成两部分工作,
    1.分析每个数据变量,确定因变量和自变量

    1. 4C:
      Correcting,纠正异常值(年龄=800,城市距离=3000Km 等等)
      Completing,填补缺失值(均值,中位数,众数等等)
      Creating,组合新的特征用于分析(基于当前特征组合新的特征,如两地经纬度差值,)
      Converting,转换数据格式

    4) 探索性分析,描述性,图形化的分析,定性特征和定量特征的区分,对于厘清数据中潜在的相关性关系,非常关键。

    5) 数据建模,错误的模型,好的情况表现为性能差,查到情况会得到错误的结论。所以,模型很强大,但是我们依然是选择模型的master.

    6) 模型验证和实施,过拟合,欠拟合,通用化的。

    7) 模型优化并给出分析结果。
    从两个方面,一个是技术本身,模型能不能再优化,结果是否合理;一个是业务本身,模型是否已经满足需求,模型的输出是否解决问题。

    下一篇,我们尝试一下,数据分析在整车市场有哪些应用呢?


    55783122.jpg

    相关文章

      网友评论

          本文标题:预测泰坦尼克号乘客是否遇难

          本文链接:https://www.haomeiwen.com/subject/cnwupqtx.html