美文网首页
赛后总结:第四届工业大数据竞赛注塑成型

赛后总结:第四届工业大数据竞赛注塑成型

作者: YueTan | 来源:发表于2020-12-02 16:45 被阅读0次
在这里插入图片描述
原文首发于这里

前言

以第四届工业大数据竞赛虚拟量测任务为例,介绍大家的思路。自己代码乱写,导致不知道最后要复现的是哪个,加上工作上各种人员优化,就没有进一步。虽然放弃比赛,但对数据掌握的还算透彻,刚好决赛也都有答辩视频,就我个人理解和优秀选手的开源,在这里和大家一起分享一下。比赛链接:http://www.industrial-bigdata.com/Competition

只有一次评分的机会,本以为是摸奖赛,但前排还是很稳健。祝贺各位优秀的选手,也通过直播学习了一下大家的思路,学习了很多新思路和方法,总结如下。很多基于我对赛题的理解,以及根据答辩视频的猜测,如有错误之处,欢迎指正。

工业大数据

工业大数据有着自己的特点,因此结合工业特点和机器学习是关键的一点。

工业大数据数据质量的“3B”挑战:broken,bad,background

工业大数据的“3C”目的:Comparison(比较性),Correlation (相关性),Consequence (因果性)

关于数据和模型也可以参考我之前的两篇文章:

数据竞赛:第四届工业大数据竞赛-虚拟测量

数据挖掘III:数据敏感性

模型总结

由于预测存在外插(Extrapolation)部分,所以决赛第一和第二都在模型中运用了线性回归模型来增强外插的预测。看来对外插部分的预测是前排的关键,同时三四位的深度学习模型也很有可取之处,如果开源代码值得再仔细看看。

Teletraan:关键点在于,数据驱动(lightgbm)为主,用机理进一步优化。通过构造特征保压压力积分和,认识到了数据存在新工况并予以优化。验证时用了时间序列交叉验证的方法。

LHD战队:关键点在于,根据机理采用线性回归模型为主,用数据模型adaboost进一步优化为辅助。通过流体力学得到的启发,将复杂机理简化为小扰动下的线形模型,得到泛化性较好的模型。

star:关键点在于,深度学习模型一把梭,效果也非常好,能把深度学习模型调的效果如此之好很厉害。主要采用ResSluice模型,以及多个size同时学习的多任务学习。

中南小组:深挖机器参数和过程参数。也是深度学习模型,采用了卷积神经网络conv1D和spatial pyramid pooling,对时域特征裁补padding,并将时域特征进行整合。

Micro_i:主要在于运用了时间序列特征方法以及autoencoder的表征学习。打标,根据调机段对尺寸数据分组,也就是时间序列相关的衍生特征。在特征生成和特征筛选方面做的很细致。

GT_respect:详细细致的特征清洗、缺失填充、标准化、PCA降维。模型采用xgboost对size1和size2建模,size3采用LightGBM建模,并尝试了模型融合。

MX:树模型与阶段优化。时域统计特征,并注重了注射、保压、冷却、脱模阶段的时域特征,额外的比如peak-to-peak等特征,采用了Lightgbm模型。主要采用相关性降维。

DGAIBD:发现了训练集和测试集的不同。异常样本分析去掉了几个size异常点,而特征几乎差不多,因此去掉了这几个异常点。特征采用6个时间特征与3个频域特征。并且将size3的预测值作为size1的特征用来预测了。

石龙:去除唯一值特征、共线性特征和异常点,高频数据采用平均值、中位数、最大值、求和、标准差、偏度等。模型采用深度学习,bn层和dropout层,设计时借鉴无限宽的神经网络特点。loss函数优化、参数初始化。

许泽霖:特征工程上对高频传感器提取了mean\max\min\median\var等特征,还依据不同phase选取了很多的特征,skew,kurt,sum等。模型xgboost和lightgbm,样本选择时去除了几个异常点,也用了主成分分析。

答辩总结

PPT的角度:Teletraan浓浓的企业风,每页信息简明扼要,看来浸淫工业界多年。LHD和star浓浓的学术风,每页信息量密集紧凑、逻辑层层递进,风格不同却是高手。

答辩角度:本身最抑扬顿挫、有节奏感的是石龙团队,不过前面广告说的太多了。

欢迎关注,我是YueTan

相关文章

网友评论

      本文标题:赛后总结:第四届工业大数据竞赛注塑成型

      本文链接:https://www.haomeiwen.com/subject/eyjswktx.html