2019-02-25-项目回顾

作者: 陆小杰_642e | 来源:发表于2019-02-25 23:22 被阅读0次

一. 毕业设计

1.背景

传统的诊断都是单变量的，既通过一个一个变量的筛查，如果有异常的特征便将其诊断为患病；否则直接将其诊断为正常。然而致病因子的致病机理不是简单的单个变量的累加，当多个变量之间的关系发成变化时，即使每个变量都是正常的，也有可能是患病的情况。而且，疾病诊断的机理是未知的，对医生来时完全是一个黑盒子，这对掌握病情的发展趋势是无法掌控的。

2.研究工作：

将数据按照孕周时间划分为多个时期，每个时期内假设数据服从同一分布且不同时期之间的分布是独立的。

1.在每个时期内，量化不同特征之间的关系。
1. 在不同时期之间，各特征之间的关系是如何变化的。（增大还是变小，或者出现、消失）
1. 可以量化正常胎儿特征关系的演变规律，为医生的诊断提供理论层面的解释；也在诊断方面提供参考。

3. 数据预处理

3.1 数据来源

临床收集的关于诊断胎儿先天性心脏病测量的结构化数据，分为阳性和阴性数据，分别在一万六千多条和一千条左右。每个人测量的特征多达五十多个，维度是十分的庞大。

3.2 数据清洗

异常值的检测
这里就是用简单的箱线图进行处理。从上至下分别是上限、上四分位数、中位数、下四分位数，下限。和之间的距离称为箱子长度，箱线图定义的异常值数据是指样本数据值大于和小于的数据。
删除缺失严重的特征变量（缺失比例大于0.5左右）
数据缺失值处理
单个变量的线性回归填充的方法

3. 模型的建立

最小化负对数的似然函数（证明是凸函数）
增加L1正则化使其得到的结果是稀疏化的

4. 模型超参数的选择

BIC贝叶斯信息准则（在模型的准确度和复杂度中间取中间平衡值）

5. 模型选择（评估）

仿真实验验证模型的准确性
精度：预测正确边数占总预测边数的比例
召回率：预测正确边数占总的正确边数的比例
F1-score:加权平均值

网友评论

本文标题：2019-02-25-项目回顾

本文链接：https://www.haomeiwen.com/subject/nfenyqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！