美文网首页
2019-02-25-项目回顾

2019-02-25-项目回顾

作者: 陆小杰_642e | 来源:发表于2019-02-25 23:22 被阅读0次

    一. 毕业设计

    1.背景

    传统的诊断都是单变量的,既通过一个一个变量的筛查,如果有异常的特征便将其诊断为患病;否则直接将其诊断为正常。然而致病因子的致病机理不是简单的单个变量的累加,当多个变量之间的关系发成变化时,即使每个变量都是正常的,也有可能是患病的情况。而且,疾病诊断的机理是未知的,对医生来时完全是一个黑盒子,这对掌握病情的发展趋势是无法掌控的。

    2.研究工作:

    将数据按照孕周时间划分为多个时期,每个时期内假设数据服从同一分布且不同时期之间的分布是独立的。

    • 1.在每个时期内,量化不同特征之间的关系。
      1. 在不同时期之间,各特征之间的关系是如何变化的。(增大还是变小,或者出现、消失)
      1. 可以量化正常胎儿特征关系的演变规律,为医生的诊断提供理论层面的解释;也在诊断方面提供参考。
    3. 数据预处理
    3.1 数据来源

    临床收集的关于诊断胎儿先天性心脏病测量的结构化数据,分为阳性和阴性数据,分别在一万六千多条和一千条左右。每个人测量的特征多达五十多个,维度是十分的庞大。

    3.2 数据清洗
    • 异常值的检测
      这里就是用简单的箱线图进行处理。从上至下分别是上限、上四分位数 、中位数、下四分位数 ,下限。 和 之间的距离称为箱子长度 ,箱线图定义的异常值数据是指样本数据值大于 和小于 的数据。
    • 删除缺失严重的特征变量(缺失比例大于0.5左右)
    • 数据缺失值处理
      单个变量的线性回归填充的方法
    3. 模型的建立
    • 最小化负对数的似然函数(证明是凸函数)
    • 增加L1正则化使其得到的结果是稀疏化的
    4. 模型超参数的选择
    • BIC贝叶斯信息准则(在模型的准确度和复杂度中间取中间平衡值)
    5. 模型选择(评估)
    • 仿真实验验证模型的准确性
      精度:预测正确边数占总预测边数的比例
      召回率:预测正确边数占总的正确边数的比例
      F1-score:加权平均值

    相关文章

      网友评论

          本文标题:2019-02-25-项目回顾

          本文链接:https://www.haomeiwen.com/subject/nfenyqtx.html