美文网首页
【天池大赛】美年健康AI大赛

【天池大赛】美年健康AI大赛

作者: 美琦miki视觉笔记 | 来源:发表于2020-03-16 15:47 被阅读0次

初赛一阶段:4月10日12:00-5月5日22:00。系统每天进行2次评测和排名,评测开始时间为当天12:00和22:00,按照评测指标从高到低进行排序,定时更新排行榜;排行榜将选择参赛队伍在本阶段的历史最优成绩进行排名展示。

要完成的任务是,根据输入的体检客户各项体检结果(已脱敏),预测五项指标:收缩压,舒张压,甘油三酯,高密度脂蛋白胆固醇和低密度脂蛋白胆固醇。

从阿里天池官网上可以下载到初赛一阶段的4份文件,包括:

1、两份原始输入文件:meinian_round1_data_part1_20180408.txt 和 meinian_round1_data_part2_20180408.txt (网站下载的是zip包,下载后需要解压缩)

字符集编码:utf-8(注意存在BOM头U+FEFF)

字段,三个:vid(体检客户脱敏ID),table_id(体检项目脱敏id),field_results(体检项目结果)

分隔符:$

含有header:是

数据量

meinian_round1_data_part1_20180408.txt:4430919行,290MB

meinian_round1_data_part1_20180408.txt:3673451行,153MB

示例数据

<U+FEFF>vid$table_id$field_results002d1e4859fafd9ded2a2e1e7c839b62$2403$72.9002d1e4859fafd9ded2a2e1e7c839b62$2404$166.5002d1e4859fafd9ded2a2e1e7c839b62$2405$26.30002d1e4859fafd9ded2a2e1e7c839b62$2420$79002d1e4859fafd9ded2a2e1e7c839b62$0702$无002d1e4859fafd9ded2a2e1e7c839b62$0703$右上后牙龋坏,部分残根002d1e4859fafd9ded2a2e1e7c839b62$0705$牙结石002d1e4859fafd9ded2a2e1e7c839b62$0706$未见明显异常002d1e4859fafd9ded2a2e1e7c839b62$0707$未见明显异常002d1e4859fafd9ded2a2e1e7c839b62$0709$龋齿:右上后牙龋坏,部分残根牙周:牙结石002d1e4859fafd9ded2a2e1e7c839b62$0715$无002d1e4859fafd9ded2a2e1e7c839b62$0726$未见明显异常002d1e4859fafd9ded2a2e1e7c839b62$0730$无002d1e4859fafd9ded2a2e1e7c839b62$0731$未见明显异常002d1e4859fafd9ded2a2e1e7c839b62$0732$未见明显异常002d1e4859fafd9ded2a2e1e7c839b62$3601$骨质疏松(-2.9)002d1e4859fafd9ded2a2e1e7c839b62$0102$肝、胆、胰、脾、左肾、右肾未发现明显异常002d1e4859fafd9ded2a2e1e7c839b62$0113$肝脏形态大小正常,轮廓规整,实质回声均匀,肝内管道结构清晰。门静脉不宽。002d1e4859fafd9ded2a2e1e7c839b62$0114$胆囊形态大小正常,壁光滑,内未见明显异常光团。胆总管不扩张。......

2、用于训练的结果数据集:meinian_round1_train_20180408.csv

字符集编码:gbk

字段,六个:vid(体检客户脱敏ID),收缩压,舒张压,血清甘油三酯,血清高密度脂蛋白,血清低密度脂蛋白

分隔符:,

含有header:是

数据量

meinian_round1_train_20180408.csv:38200行,2MB

示例数据

vid,收缩压,舒张压,血清甘油三酯,血清高密度脂蛋白,血清低密度脂蛋白002d1e4859fafd9ded2a2e1e7c839b62,165,100,2.08,1.29,3.2492dd479df5e30ab6a0a1cf85ac53efc3,141,97,2.64,1.36,4.756bb59d517c4c70f8f50844d24fbd0355,120,80,1.37,1.25,2.660ebb42adae512906f7e1135da734ea63,100,70,1.27,2.21,1.73ebe7811e919109c42c092abbd98b4ca6,110,80,0.8,1.87,2.21c2690ddf171a3de695dced12fd93c1d1,110,80,1.4,1.74,2.09d7017fda4e550b14008c730854b89b95,130,78,2.5,1.22,4.53d6b92248a262a491d6250dcebc103e71,111,71,3.36,1.08,2.88345742c522a571dbb0483474242d3484,94,64,0.62,1.34,1.67......

3、用于提交结果的测试数据集:[new] meinian_round1_test_a_20180409.csv

字符集编码:gbk

字段,六个:vid(体检客户脱敏ID),收缩压,舒张压,血清甘油三酯,血清高密度脂蛋白,血清低密度脂蛋白【注意:除了vid,其他待预测字段都留空了,是需要参赛者把自己模型预测值填进去的】

分隔符:,

含有header:是

数据量

[new] meinian_round1_test_a_20180409.csv:9539行,372KB

示例数据

vid,收缩压,舒张压,血清甘油三酯,血清高密度脂蛋白,血清低密度脂蛋白c643a744e2e94f3ff354d920958bd37b,,,,,a81c1fc0cfa8c0fbc450d2ffeae14b9f,,,,,2af0da8f6f0b8d642f88b3a8194408b6,,,,,2bd361a4c5b9b0d5aab62c101daa4ee6,,,,,16107e514ed0f51c4e39b1a0fa5a04f9,,,,,3e44d83fe827ec930c56921efd7d91c9,,,,,5252eedd84ae34f02e3f64d0e4c7cd25,,,,,92522ca0ceacd8ac8cb745c9a2b05d85,,,,,ceffa608d98e2a863726d5514ed48b62,,,,,......

评价函数:

首先,对于5项预测结果的第j项指标,通过如下计算公式计算误差:

单项误差

其中m为总人数,yi'为选手预测的第i个人的指标j的数值,yi为第i个人的指标j的实际检测值。

然后,汇总5项误差得到平均误差:

平均误差

作者:hmisty

链接:https://www.jianshu.com/p/a1f3608601d1

来源:简书

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

相关文章

网友评论

      本文标题:【天池大赛】美年健康AI大赛

      本文链接:https://www.haomeiwen.com/subject/pjmwehtx.html