美文网首页
机器学习代码完整性自查清单

机器学习代码完整性自查清单

作者: 流星落黑光 | 来源:发表于2021-03-09 11:10 被阅读0次

    title: 机器学习代码完整性自查清单
    date: 2020-11-18 19:56:32
    categories:

    • 机器学习
      tags:
    • 代码完整性

    写机器学习算法代码的规范。

    [[1]机器之心-机器学习论文复现,这五大问题你需要注意](file:///D:/Documents/zotero/storage/GKIWGIGK/2020-11-02-5.html),一篇博客,作者分析了复现论文时的常见问题。

    [2]paperswithcode/releasing-research-code,[1]中提到的README样例

    [3]机器之心-PapersWithCode发布代码完整性自查清单:想获得更多星,你需要注意这五项,[2]的中文翻译

    [4]Joelle Pineau发布的机器学习可复现性检查清单,[1]中提到的检查清单。

    [2]paper with code提供的自查清单

    一份README文件示例:README.md template

    具体包括如下几项:

    依赖项

    写清楚安装的库和版本,提供requirements.txtenvironment.ymlsetup.py。在README中写清楚安装过程。

    可以考虑使用Docker

    训练脚本

    写清楚整个过程使用的超参数和技巧。

    提供train.py

    评估脚本

    提供eval.py

    预训练模型

    提供已经得出的数据对应的模型,这样其他用户不用重新训练就能看到结果是可信的。

    结果

    通过表格快速展示。

    项目示例

    https://github.com/kakaobrain/fast-autoaugment

    https://github.com/eth-sri/eran

    其他资源

    包括

    • 预训练模型文件托管平台
    • 模型文件管理工具
    • 标准化模型界面
    • 结果排行榜
    • 制作项目页面工具
    • 制作 demo 和教程工具

    详见[2]或[3]

    [4]机器学习可复现性检查清单

    对于模型和算法:

    • 数学公式、算法、模型的清晰描述
    • 假设的清晰描述
    • 算法的时间、空间复杂度分析

    对于定理声明:

    • 清晰的陈述
    • 完整的证明

    对于使用的数据集:

    • 简单的统计信息,例如数量
    • 用于训练、验证、测试的细节
    • 预处理步骤的说明
    • 下载链接
    • 如果对数据集有修改,写出修改过程

    对于代码:(这段和[2]相同)

    • 依赖性说明
    • train代码
    • eval代码
    • 预训练模型
    • README文件和结果

    对于实验结果:

    • 超参数的范围,选择最佳超参数的方法,生成结果的超参数
    • 训练和验证的参数(epoch等)
    • 指标的定义
    • 简单的统计描述(均值,方差等)
    • 训练时间和需要的硬件条件
    • 使用的计算基础架构(系统?)

    相关文章

      网友评论

          本文标题:机器学习代码完整性自查清单

          本文链接:https://www.haomeiwen.com/subject/kvivqltx.html