根据文件后缀来判断文件类型,往往是不靠谱的,因为要考虑到,可能人为的更改文件后缀,导致一些问题。
因此,下面是详细的根据文件头信息来判断文件类型。
文件头的十六进制以后继续补充。
package com.sample.utils;
import javax.net.ssl.HttpsURLConnection;
import javax.net.ssl.SSLContext;
import javax.net.ssl.TrustManager;
import javax.net.ssl.X509TrustManager;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.net.URL;
import java.net.URLConnection;
import java.security.cert.CertificateException;
import java.security.cert.X509Certificate;
import java.util.HashMap;
/**
* @Description: ...
* @Author: Li Yalei - Robin
* @Date: 2020/12/28 16:37
*/
public class MineTypeUtils {
/**
* 缓存文件头信息-文件头信息
*/
public static final HashMap<String, String> mFileTypes = new HashMap<String, String>();
static {
// images
mFileTypes.put("FFD8FF", "jpg");
mFileTypes.put("89504E47", "png");
mFileTypes.put("47494638", "gif");
mFileTypes.put("49492A00", "tif");
mFileTypes.put("424D", "bmp");
/*CAD*/
mFileTypes.put("41433130", "dwg");
mFileTypes.put("38425053", "psd");
/* 日记本 */
mFileTypes.put("7B5C727466", "rtf");
mFileTypes.put("3C3F786D6C", "xml");
mFileTypes.put("68746D6C3E", "html");
// 邮件
mFileTypes.put("44656C69766572792D646174653A", "eml");
mFileTypes.put("D0CF11E0", "doc");
//excel2003版本文件
mFileTypes.put("D0CF11E0", "xls");
mFileTypes.put("5374616E64617264204A", "mdb");
mFileTypes.put("252150532D41646F6265", "ps");
mFileTypes.put("255044462D312E", "pdf");
mFileTypes.put("504B0304", "docx");
//excel2007以上版本文件
mFileTypes.put("504B0304", "xlsx");
mFileTypes.put("52617221", "rar");
mFileTypes.put("57415645", "wav");
mFileTypes.put("41564920", "avi");
mFileTypes.put("2E524D46", "rm");
mFileTypes.put("000001BA", "mpg");
mFileTypes.put("000001B3", "mpg");
mFileTypes.put("6D6F6F76", "mov");
mFileTypes.put("3026B2758E66CF11", "asf");
mFileTypes.put("4D546864", "mid");
mFileTypes.put("1F8B08", "gz");
}
/**
* <p>Title:getFileType </p>
* <p>Description: 根据文件路径获取文件头信息</p>
*
* @param filePath 文件路径(非网络文件)
* @return 文件头信息
*/
public static String getFileType(String filePath) {
//返回十六进制 如:504B0304
//System.out.println(mFileTypes.get(getFileHeader(filePath))); //xlsx
return mFileTypes.get(getFileHeader(filePath));
}
/**
* <p>Title:getFileTypeByFileInputStream </p>
* <p>Description: 根据文件流获取文件头信息</p>
*
* @param is 文件流
* @return 文件头信息
*/
public static String getFileTypeByFileInputStream(InputStream is) {
return mFileTypes.get(getFileHeaderByFileInputStream(is));
}
/**
* <p>Title:getFileHeader </p>
* <p>Description: 根据网络文件路径获取文件类型信息 </p>
*
* @param netFilePath
* @return 文件类型 @see mFileTypes
* @throws Exception
*/
public static String getFileTypeByNetFilePath(String netFilePath) throws Exception {
trustAllHosts();
URLConnection url = new URL(netFilePath).openConnection();
url.connect();
return getFileTypeByFileInputStream(url.getInputStream());
}
/**
* <p>Title:getFileHeader </p>
* <p>Description: 根据文件路径获取文件头信息 </p>
*
* @param filePath 文件路径
* @return 十六进制文件头信息
*/
private static String getFileHeader(String filePath) {
FileInputStream is = null;
String value = null;
try {
is = new FileInputStream(filePath);
byte[] b = new byte[4];
/*
* int read() 从此输入流中读取一个数据字节。int read(byte[] b) 从此输入流中将最多 b.length
* 个字节的数据读入一个 byte 数组中。 int read(byte[] b, int off, int len)
* 从此输入流中将最多 len 个字节的数据读入一个 byte 数组中。
*/
is.read(b, 0, b.length);
value = bytesToHexString(b);
} catch (Exception e) {
} finally {
if (null != is) {
try {
is.close();
} catch (IOException e) {
}
}
}
return value;
}
/**
* <p>Title:getFileHeaderByFileInputStream </p>
* <p>Description: 根据文件流获取文件头信息</p>
*
* @param is 文件流
* @return 十六进制文件头信息
*/
private static String getFileHeaderByFileInputStream(InputStream is) {
String value = null;
try {
byte[] b = new byte[4];
/*
* int read() 从此输入流中读取一个数据字节。int read(byte[] b) 从此输入流中将最多 b.length
* 个字节的数据读入一个 byte 数组中。 int read(byte[] b, int off, int len)
* 从此输入流中将最多 len 个字节的数据读入一个 byte 数组中。
*/
is.read(b, 0, b.length);
value = bytesToHexString(b);
} catch (Exception e) {
} finally {
if (null != is) {
try {
is.close();
} catch (IOException e) {
}
}
}
return value;
}
/**
* <p>Title:bytesToHexString </p>
* <p>Description: 将要读取文件头信息的文件的byte数组转换成string类型表示 </p>
*
* @param src 要读取文件头信息的文件的byte数组
* @return 文件头信息
*/
private static String bytesToHexString(byte[] src) {
StringBuilder builder = new StringBuilder();
if (src == null || src.length <= 0) {
return null;
}
String hv;
for (int i = 0; i < src.length; i++) {
// 以十六进制(基数 16)无符号整数形式返回一个整数参数的字符串表示形式,并转换为大写
hv = Integer.toHexString(src[i] & 0xFF).toUpperCase();
if (hv.length() < 2) {
builder.append(0);
}
builder.append(hv);
}
//System.out.println(builder.toString());
return builder.toString();
}
/**
* 解决网络证书问题
* 如下异常: unable to find valid certification path to requested target
*
* @throws Exception
*/
public static void trustAllHosts() throws Exception {
// Create a trust manager that does not validate certificate chains
TrustManager[] trustAllCerts = new TrustManager[]{new X509TrustManager() {
@Override
public java.security.cert.X509Certificate[] getAcceptedIssuers() {
return new java.security.cert.X509Certificate[]{};
}
@Override
public void checkClientTrusted(X509Certificate[] chain, String authType)
throws CertificateException {
}
@Override
public void checkServerTrusted(X509Certificate[] chain, String authType)
throws CertificateException {
}
}
};
try {
SSLContext sc = SSLContext.getInstance("TLS");
sc.init(null, trustAllCerts, new java.security.SecureRandom());
HttpsURLConnection.setDefaultSSLSocketFactory(sc.getSocketFactory());
} catch (Exception e) {
e.printStackTrace();
}
}
}
测试:
@Test
public void testSparkRun() throws Exception{
String panFile = "https://fft.xyyv.domain/s/b1Ll23rv?direct=1&access=DRaf9I";
String type = MineTypeUtils.getFileTypeByNetFilePath(panFile);
System.out.println(type);
}
输出:
image.png
注意:xlsx和docx是文件头是一样的,xls和doc的文件头是一样的,目前还没有找到合适的方式区分,欢迎留言告诉我你的解决办法。
上面我加了支持判断网络文件的判断,原始博文见
https://blog.csdn.net/ludongshun2016/article/details/53302272
网友评论