美文网首页
生信log38|拿到的数据就是想要的数据吗?-数据校验

生信log38|拿到的数据就是想要的数据吗?-数据校验

作者: 小周的万用胶囊 | 来源:发表于2023-08-06 23:53 被阅读0次

    最近需要下载和传输的数据,还有传输数据,过程中涉及到好多验证的问题,因此小记这一篇,关于验证的原理有机会再探讨,本log不作赘述。

    为什么需要校验数据及导致数据不一致的原因是什么

    • 传输过程中发生了数据丢失事件(信号/硬件引起的)
    • 网站上放错了文件(无意的就是放错,故意的就是病毒了)

    什么场景下数据要进行校验

    • 盘到桶的迁移,跨盘数据迁移后(数据的拷贝)
    • 网上下载数据后(有可能下到99.9%就断了,从文件大小看不出区别)
    • 自己需要上传文件(自身即官方或者服务提供方,需要给其他用户一个参考)

    怎么校验-策略与常用的方法

    目前使用最多的是md5校验,NCBI的FTP存储地址提供的序列文件一般都带有XXX.md5

    MD5

    • 用于检验文件内容的一致性和完整性
    md5sum 文件名
    

    SHA1

    sha1sum 文件名
    

    SHA256

    sha256sum 文件名
    

    Cosmic数据库的例子
    这个官方是见过比较严谨的了,NCBI一般只提供md5的校验,但这个官网是少有能提供由三种不同校验方式生成校验文件的

    Cosmic数据库提供的文件

    题外总结

    这只是信息分析小细节也是我的一个小小记录,数据分析的过程就是一个实验和生产过程,实验过程中谨慎谨慎再谨慎,严谨严谨再严谨,至少交出来的数据是保证可信度的。

    相关文章

      网友评论

          本文标题:生信log38|拿到的数据就是想要的数据吗?-数据校验

          本文链接:https://www.haomeiwen.com/subject/nsosedtx.html