美文网首页全栈程序猿的成长@IT·互联网
EasyExcel读取excel(大数据量不会崩哦~)

EasyExcel读取excel(大数据量不会崩哦~)

作者: 小尘哥 | 来源:发表于2024-10-27 15:18 被阅读0次

导入excel作为日常开发中最最最常见的需求,可以简单做、也可以复杂做,也有很多很多的成形框架可以用,比如easyexcel、easypoi、jxls等等,各有优劣,大家可以根据业务要求进行选择。本文给出一个大数据量下读取excel的示例,若有需要,可以取源码参考。

造一个100w+的示例文件

image.png

引入pom

另外使用了hutool,主打一个懒人,通通加上。

 <dependency>
            <groupId>com.alibaba</groupId>
            <artifactId>easyexcel</artifactId>
            <version>4.0.3</version>
        </dependency>
 <dependency>
            <groupId>cn.hutool</groupId>
            <artifactId>hutool-all</artifactId>
            <version>5.8.22</version>
        </dependency>

定义实体类

实体类很简单,主要@ExcelProperty和excel文件中属性对应即可

@Data
public class StudentInfo implements Serializable  {

    private static final long serialVersionUID = 1L;

    private String id;

    @ExcelProperty("姓名")
    private String name;

    @ExcelProperty("年龄")
    private int age;

    @ExcelProperty("性别")
    private String gender;

    @ExcelProperty("班级")
    private String grade;

    private String fileName;
}

编写读取监听

注意:

  • 注释里的TODO,需要根据自己的业务进行补充,本文只写了读取excel,没有做数据存储
  • 全部读取完的回调方法里需要再保存一次,否则最后一次读取的会漏存;
  • invoke方法里可以执行自己对读取数据的其他操作,比如补充其他属性、对象转换等等
@Slf4j
public class StudentReaderListener implements ReadListener<StudentInfo> {

    /**
     * 每隔5条存储数据库,实际使用中可以100条,然后清理list ,方便内存回收
     */
    private static final int BATCH_COUNT = 10000;
    /**
     * 缓存的数据
     */
    private List<StudentInfo> cachedDataList = ListUtils.newArrayListWithExpectedSize(BATCH_COUNT);


    private String fileName;


    /**
     * 如果使用了spring,请使用这个构造方法。每次创建Listener的时候需要把spring管理的类传进来
     * 由于示例没有进行数据库操作,这里传了一个文件名作为额外参数示例,传DAO方法雷同
     *
     * @param fileName
     */
    public StudentReaderListener(String fileName) {
        this.fileName = fileName;
    }

    /**
     * 这个每一条数据解析都会来调用
     *
     * @param data    one row value. Is is same as {@link AnalysisContext#readRowHolder()}
     * @param context
     */
    @Override
    public void invoke(StudentInfo data, AnalysisContext context) {
//        log.info("解析到一条数据:{}", JSONUtil.toJsonStr(data));

        // TODO 如果需要对数据设置额外参数,可以在此处处理,比如创建人、创建时间等等
        data.setFileName(fileName);
        cachedDataList.add(data);

        // 达到BATCH_COUNT了,需要去存储一次数据库,防止数据几万条数据在内存,容易OOM
        if (cachedDataList.size() >= BATCH_COUNT) {
            saveData();
            // 存储完成清理 list
            cachedDataList = ListUtils.newArrayListWithExpectedSize(BATCH_COUNT);
        }
    }

    /**
     * 所有数据解析完成了 都会来调用
     *
     * @param context
     */
    @Override
    public void doAfterAllAnalysed(AnalysisContext context) {
        // 这里也要保存数据,确保最后遗留的数据也存储到数据库
        saveData();
        log.info("所有数据解析完成!");
    }

    /**
     * 加上存储数据库
     */
    private void saveData() {
        log.info("{}条数据,开始存储数据库!", cachedDataList.size());
        //todo 执行保存逻辑
        log.info("存储数据库成功!");
    }

}

main方法(可以改造到你的controller或者service)

最终读取只需要一个文件对象即可,无论是从前端传来的或者后台读取服务器上的均可。

public class EasyExcelDemo {

    private static final Logger log = LoggerFactory.getLogger(EasyExcelDemo.class);

    public static void main(String[] args) {
        ClassLoader classLoader = EasyExcelDemo.class.getClassLoader();
        URL resourceUrl = classLoader.getResource("demo/student.xlsx");
        File file = new File(resourceUrl.getFile());
        long start = System.currentTimeMillis();
        EasyExcel.read(file.getAbsoluteFile(), StudentInfo.class,
                        new StudentReaderListener(file.getName()))
                .sheet().doRead();
        long end = System.currentTimeMillis();
        log.info("文件大小:{}Mb,读取耗时{}ms",file.length()/1024/1024, end - start);
    }
}

读取结果

104w数据,16M大小,读取耗时大约8s。也试过47Mb大小文件,带入库约2min30s,根据数据量大小时间会有不同,但是由于此方法是一条一条读取,然后一批一批处理,不会把所有数据加到内存,因此不会OOM,除非每批数据量设置特别大或者你的内存特别小。


image.png

相关文章

网友评论

    本文标题:EasyExcel读取excel(大数据量不会崩哦~)

    本文链接:https://www.haomeiwen.com/subject/mcqudjtx.html