在文件上传到服务器的时候,我们希望能够获得文件的指纹以确定文件没有被篡改过。
常用的算法最开始使用的是 MD5,随后随着技术的发展,MD5 算法已经被确定是不安全的了。
目前可能使用更多的是 HSA3_256 哈希算法。
哈希算法通常有以下几个特点:
正像快速:原始数据可以快速计算出哈希值
逆向困难:通过哈希值基本不可能推导出原始数据
输入敏感:原始数据只要有一点变动,得到的哈希值差别很大
冲突避免:很难找到不同的原始数据得到相同的哈希值
哈希算法主要有MD4、MD5、SHA。
MD4 1990年 输出128位 (已经不安全)
MD5 1991年 输出128位 (已经不安全)
SHA-0 1993年 输出160位 (发布之后很快就被NSA撤回,是SHA-1的前身)
SHA-1 1995年 输出160位 (已经不安全)
SHA-2包括SHA-224、SHA-256、SHA-384,和 SHA-512,分别输出224、256、384、512位。 (目前安全)
在 Java 中,可以使用 Apache 提供的 Apache Commons Codec,非常容易的获得文件的哈希字符串指纹。
方法也非常简单,第一步就是需要将文件读取为 InputStream。
如果自己写的话,可能这一步有点代码。
你可以使用 Apache 提供的
FileUtils.openInputStream
就可以直接将文件读取为 InputStream 了。
考察下面的代码:
InputStreamis= FileUtils.openInputStream(newFile(SCOConstants.PATH_DATA_EXCHANGE +"Estimated vs Original Manual (JIRA) 10-23-20.csv"));
MD5 哈希
在文件读取后,你只需要使用 Apache Commons Codec 提供的 DigestUtils 方法就可以了。
/** * Test to get file's MD5 Hash * *@throwsException */@TestpublicvoidfileMD5Test() throwsException{Stringmd5 = StringUtils.EMPTY;try{ InputStream is = FileUtils.openInputStream(newFile(SCOConstants.PATH_DATA_EXCHANGE +"Estimated vs Original Manual (JIRA) 10-23-20.csv")); md5 = DigestUtils.md5Hex(is); }catch(Exceptione) { e.printStackTrace(); } logger.debug("MD5 for File: {}", md5); }
上面的代码就可以直接获得 InputStream 的 MD5 哈希。
程序的输出为:
09:32:31.522[main]DEBUGc.i.s.c.t.utilities.CodecUtilsTest-MD5forFile: 1ec6473fc1bd50a982767f555734af64
SHA3 256
与 MD5 哈希算法是一致的。
你需要首先也将文件读取为 InputStream ,然后使用 Apache 提供的 DigestUtils.sha3_256Hex(is); 就可以了。
考察下面的代码:
/** * Test to get file's SHA3_256Hex Hash * *@throwsException */@TestpublicvoidfileSHA3_256HexTest() throwsException{Stringsha3Hex256 = StringUtils.EMPTY;try{ InputStream is = FileUtils.openInputStream(newFile(SCOConstants.PATH_DATA_EXCHANGE +"Estimated vs Original Manual (JIRA) 10-23-20.csv")); sha3Hex256 = DigestUtils.sha3_256Hex(is); }catch(Exceptione) { e.printStackTrace(); } logger.debug("SHA3_256Hex for File: {}", sha3Hex256); }
运行程序的输出为:
09:35:48.093[main]DEBUGc.i.s.c.t.utilities.CodecUtilsTest-SHA3_256HexforFile:
网友评论