美文网首页
关于数据验证二三事

关于数据验证二三事

作者: Helen_Cat | 来源:发表于2018-06-23 16:01 被阅读14次
image.png

做数据挖掘和 模型训练评分,有时候不得不对数据是否正确进行验证,
先说 简单的我们验证行数是否正确

wc -l  file.txt

比如我们有时候又要看数据内容,一般是前五行和后五行比对

head -n 5 file.txt

tail -n 5 file.txt

有时候我们需要通过运行的输出日志来检验程序是否运行正常,我们知道 尤其是在启动时 日志的输出其实是日志时间序列流,会不断有日志输出,日志一般是以追加的形式写入到日志文件里,所以我们一般是通过监控日志的输出来判断 运行结果和异常

tail -f  log.txt

这些都比较简单,也都是shell 最简单的命令

另外高阶
我们通过文件的md5值来验证文件的内容是否在传输后被篡改,这个md5值只验证文件内容,如果你修改文件名,文件的md5值是不会改变的,
mac上的md5 文件检验

md5 file.txt

linux 上的md5文件检验

md5sum file.txt

还有更高阶,我们明知 两个文件有区别来定位区别的位置 ,使用diff

diff file1.txt  file2.txt

mac的diff 工具有很多,可视化的还有很多。

以上是大多是对原始文件的数据验证,还有很多时候是对加工处理过 加工后文件做验证,比如不同 加工逻辑特征工程处理过得训练数据 的中间变量,我们 不可能去比对 上千个特征列的每一行数据是否完全一致,毕竟是弱结构化的,而且缺失值严重 异常值也有,数据类型也会导致一部分问题,这个时候一是追本溯源,清源正本,我们要去关照我们的代码是怎么写的,加工逻辑有没有哪些具体的出入,结合加工文档来看,另外就是看最后的输出评分结果,我们将不同加工逻辑的输出结果以 gid phone idcard 等主键来关联 做join 我们来看 不同加工逻辑的评分结果对比,假如各段分箱 数量相似,且 每一个人的评分大致相差不多,说明加工逻辑相似的,假如大部分的人的 评分差异很大,分箱各段数量也发生了变化,那肯定有大问题

相关文章

  • 关于数据验证二三事

    做数据挖掘和 模型训练评分,有时候不得不对数据是否正确进行验证,先说 简单的我们验证行数是否正确 比如我们有时候又...

  • 关于NSArray的二三事

    关于NSArray的二三事

  • 关于String需要知道的二三事

    关于String需要知道的二三事 标签: Java基础 原文链接:关于String需要知道的二三事 转载请注明...

  • 关于,二三事

    备忘一 16. 12 .末 真的已经很久不码字 平时想要说的想要写的,断断续续的存在了备忘录里和记事本里 专门想要...

  • 纠错路上漫漫不会点套路怎么行呢

    今天我们来讲讲关于数据选项卡里数据工具组里的数据验证功能 数据验证功能能做个啥,当然是帮你节省时间啊 数据验证可根...

  • Excel单元格中加入下拉选项

    菜单→数据→数据验证→数据验证→验证条件:序列。

  • Excel高效录入数据—数据验证

    高效录入数据—数据验证 数据验证的作用 数据验证的方法 其他数据验证方法 数据验证的作用 今天来到公司,听到数据分...

  • 关于喜欢二三事

    海里有一条叫Alice的鲸鱼,她身边没有亲人和朋友。可能Alice自己也不会知道,它发出的频率,比正常鲸鱼高一倍。...

  • 关于git二三事

    为什么要使用git情景一(版本控制):我们做一个项目的时候,项目经理提出一个需求,我们在初始代码我们叫他代码一上面...

  • 关于成长二三事

    1、曾向总经理表达过,自己可以分析一些事、推测一些事、甚至预见一些事,但不知道该采用什么样行之有效的方法去处理。 ...

网友评论

      本文标题:关于数据验证二三事

      本文链接:https://www.haomeiwen.com/subject/fqzryftx.html