最近需要下载和传输的数据,还有传输数据,过程中涉及到好多验证的问题,因此小记这一篇,关于验证的原理有机会再探讨,本log不作赘述。
为什么需要校验数据及导致数据不一致的原因是什么
- 传输过程中发生了数据丢失事件(信号/硬件引起的)
- 网站上放错了文件(无意的就是放错,故意的就是病毒了)
什么场景下数据要进行校验
- 盘到桶的迁移,跨盘数据迁移后(数据的拷贝)
- 网上下载数据后(有可能下到99.9%就断了,从文件大小看不出区别)
- 自己需要上传文件(自身即官方或者服务提供方,需要给其他用户一个参考)
怎么校验-策略与常用的方法
目前使用最多的是md5校验,NCBI的FTP存储地址提供的序列文件一般都带有XXX.md5
MD5
- 用于检验文件内容的一致性和完整性
md5sum 文件名
SHA1
sha1sum 文件名
SHA256
sha256sum 文件名
Cosmic数据库的例子
这个官方是见过比较严谨的了,NCBI一般只提供md5的校验,但这个官网是少有能提供由三种不同校验方式生成校验文件的
题外总结
这只是信息分析小细节也是我的一个小小记录,数据分析的过程就是一个实验和生产过程,实验过程中谨慎谨慎再谨慎,严谨严谨再严谨,至少交出来的数据是保证可信度的。
网友评论