美文网首页JAVAJAVA文件相关链接
Apache POI自动生成Word文档(带目录)

Apache POI自动生成Word文档(带目录)

作者: 艾剪疏 | 来源:发表于2018-08-20 13:21 被阅读3555次

    1 什么是Apache POI
    2 Apache POI的组件
    3 安装Apache POI
    4 使用POI操作Word文档

    1 什么是Apache POI

    全称Apache POI,使用Java编写的免费开源的跨平台的Java API。 是创建和维护操作各种符合 Office Open XML(OOXML)标准和微软的 OLE 2 复合文档格式(OLE2)的 Java API。用它可以使用 Java 读取和创建, 修改 MS Excel 文件. 而且, 还可以使用 Java 读取和创建 MS Word 和 MSPowerPoint 文件。Apache POI 提供 Java 操作 Excel 解决方案(适用于 Excel97-2008)。

    2 Apache POI的组件

    Apache POI包含用于MS-Office的所有OLE2复合文档的类和方法。 此API的组件列表如下:

    • POIFS:此组件是所有其他POI元素的基本因素。 它用于显式读取不同的文件。
    • HSSF:用于读取和写入.xls格式的MS-Excel文件。
    • XSSF(XML SpreadSheet格式):用于MS-Excel的.xlsx文件格式。
    • HPSF:用于提取MS-Office文件的属性集。
    • HWPF:用于读取和写入MS-Word的.doc扩展文件。
    • XWPF(XML字处理器格式):用于读取和写入MS-Word的扩展文件 .docx 。
    • HSLF:用于阅读,创建和编辑PowerPoint演示文稿。
    • HDGF(Horrible DiaGram格式):它包含MS-Visio二进制文件的类和方法。
    • HPBF(Horrible PuBlisher格式):用于读取和写入MS-Publisher文件。

    3 安装Apache POI

    使用Maven依赖的方式,主要是下面三个依赖。

    操作docx文档需要的jar包有6个:dom4j.jar,poi-ooxml-3.10-FINA.jar,poi-ooxml-schemas-3.10-FINA.jar,xmlbean-2.3.0.jar,commons-lang.jar以及ooxml-schemas-1.1.jar

    操作doc文档需要的jar包有poi-3.10-FINAL.jar,poi-scratchpad-3.10-FINA.jar其中操作doc文档对模板的依赖很大,功能相对操作docx的接口很弱。

    <!-- https://mvnrepository.com/artifact/org.apache.poi/poi -->
            <dependency>
                <groupId>org.apache.poi</groupId>
                <artifactId>poi</artifactId>
                <version>3.17</version>
            </dependency>
    
            <dependency>
                <groupId>org.apache.poi</groupId>
                <artifactId>poi-ooxml</artifactId>
                <version>3.17</version>
            </dependency>
    
            <!-- https://mvnrepository.com/artifact/org.apache.poi/ooxml-schemas -->
            <dependency>
                <groupId>org.apache.poi</groupId>
                <artifactId>ooxml-schemas</artifactId>
                <version>1.1</version>
            </dependency>
    

    4 使用POI操作Word文档

    主要是使用POI操作Word文档,主要是写入文档操作的讲解:将网页中的数据导出,自动生成指定格式的Word文档。

    4.1 效果展示

    (1)在网站中选择需要导出的新闻,生成Word

    image.png

    (2)生成的Word展示

    目录页 内容详情页

    从上面可以看出,导出的文档含有:

    • 有指定格式的标题、时间、编著者等信息;
    • 会自动生成目录;
    • 有内容详情页;

    4.2 功能实现介绍

    4.2.1 前提知识:

    (1)官方API文档地址

    官方文档中主要包括Java操作Office文档的常用类,里面封装了常用的:读、写、设置格式等方法。
    例如:操作Word07之后的版本主要是使用XWPFDocument这个对象。

    image.png

    (2)另外,当现有的功能不能满足要求,你需要对现有功能进行重写时。有一个很重要的东西就是ooxml。简单的说,这个就是微软公布的一套使用XML操作Word的开放的标准。详情见下面网址:
    http://www.datypic.com/sc/ooxml/s-wml.xsd.html

    4.2.2 功能实现说明

    (1)功能的整体UML图如下:

    image.png

    (2)生成单文档

    基本的格式设置、写入数据等生成单文档的功能都不难,耐心的对照这官方API去看,基本就可以实现。
    下面贴一个生成单文档的例子:
    效果:


    image.png

    代码如下:基本的注释都有,自己跑一下就懂了

    public void write2Docx()throws Exception{
            XWPFDocument document= new XWPFDocument();
    
            //Write the Document in file system
            FileOutputStream out = new FileOutputStream(new File("G:\\Offer\\create_table.docx"));
    
            //添加标题
            XWPFParagraph titleParagraph = document.createParagraph();
            //设置段落居中
            titleParagraph.setAlignment(ParagraphAlignment.CENTER);
    
            XWPFRun titleParagraphRun = titleParagraph.createRun();
    
            titleParagraphRun.setText("Java PoI");
            titleParagraphRun.setColor("000000");
            titleParagraphRun.setFontSize(20);
    
            //段落
            XWPFParagraph firstParagraph = document.createParagraph();
            XWPFRun run = firstParagraph.createRun();
            run.setText("Java POI 生成word文件。");
            run.setColor("696969");
            run.setFontSize(16);
    
            //设置段落背景颜色
            CTShd cTShd = run.getCTR().addNewRPr().addNewShd();
            cTShd.setVal(STShd.CLEAR);
            cTShd.setFill("97FFFF");
    
            //换行
            XWPFParagraph paragraph1 = document.createParagraph();
            XWPFRun paragraphRun1 = paragraph1.createRun();
            paragraphRun1.setText("\r");
    
            //基本信息表格
            XWPFTable infoTable = document.createTable();
            //去表格边框
            infoTable.getCTTbl().getTblPr().unsetTblBorders();
    
            //列宽自动分割
            CTTblWidth infoTableWidth = infoTable.getCTTbl().addNewTblPr().addNewTblW();
            infoTableWidth.setType(STTblWidth.DXA);
            infoTableWidth.setW(BigInteger.valueOf(9072));
    
            //表格第一行
            XWPFTableRow infoTableRowOne = infoTable.getRow(0);
            infoTableRowOne.getCell(0).setText("职位");
            infoTableRowOne.addNewTableCell().setText(": Java 开发工程师");
    
            //表格第二行
            XWPFTableRow infoTableRowTwo = infoTable.createRow();
            infoTableRowTwo.getCell(0).setText("姓名");
            infoTableRowTwo.getCell(1).setText(": seawater");
    
            //表格第三行
            XWPFTableRow infoTableRowThree = infoTable.createRow();
            infoTableRowThree.getCell(0).setText("生日");
            infoTableRowThree.getCell(1).setText(": xxx-xx-xx");
    
            //表格第四行
            XWPFTableRow infoTableRowFour = infoTable.createRow();
            infoTableRowFour.getCell(0).setText("性别");
            infoTableRowFour.getCell(1).setText(": 男");
    
            //表格第五行
            XWPFTableRow infoTableRowFive = infoTable.createRow();
            infoTableRowFive.getCell(0).setText("现居地");
            infoTableRowFive.getCell(1).setText(": xx");
            CTSectPr sectPr = document.getDocument().getBody().addNewSectPr();
            XWPFHeaderFooterPolicy policy = new XWPFHeaderFooterPolicy(document, sectPr);
    
            //添加页眉
            CTP ctpHeader = CTP.Factory.newInstance();
            CTR ctrHeader = ctpHeader.addNewR();
            CTText ctHeader = ctrHeader.addNewT();
            String headerText = "ctpHeader";
            ctHeader.setStringValue(headerText);
            XWPFParagraph headerParagraph = new XWPFParagraph(ctpHeader, document);
            //设置为右对齐
            headerParagraph.setAlignment(ParagraphAlignment.RIGHT);
            XWPFParagraph[] parsHeader = new XWPFParagraph[1];
            parsHeader[0] = headerParagraph;
            policy.createHeader(XWPFHeaderFooterPolicy.DEFAULT, parsHeader);
    
            //添加页脚
            CTP ctpFooter = CTP.Factory.newInstance();
            CTR ctrFooter = ctpFooter.addNewR();
            CTText ctFooter = ctrFooter.addNewT();
            String footerText = "ctpFooter";
            ctFooter.setStringValue(footerText);
            XWPFParagraph footerParagraph = new XWPFParagraph(ctpFooter, document);
            headerParagraph.setAlignment(ParagraphAlignment.CENTER);
            XWPFParagraph[] parsFooter = new XWPFParagraph[1];
            parsFooter[0] = footerParagraph;
            policy.createFooter(XWPFHeaderFooterPolicy.DEFAULT, parsFooter);
    
            document.write(out);
            out.close();
        }
    

    (3) 重点说一说,目录的生成

    在API中是提供自动生成目录方法的。


    image.png

    但这个方法很难在实际应用,举例说明:

    image.png

    生成代码如下:

    public void writeTOC() throws IOException {
            XWPFDocument document= new XWPFDocument();
    
            //Write the Document in file system
            FileOutputStream out = new FileOutputStream(new File("G:\\Offer\\create_toc.docx"));
    
            //添加标题
            XWPFParagraph titleParagraph = document.createParagraph();
    
            //设置段落居中
            titleParagraph.setAlignment(ParagraphAlignment.CENTER);
    
            XWPFRun titleParagraphRun = titleParagraph.createRun();
            titleParagraphRun.setText("Java PoI");
            titleParagraphRun.setColor("000000");
            titleParagraphRun.setFontSize(20);
    
            //段落
            XWPFParagraph firstParagraph = document.createParagraph();
            firstParagraph.setStyle("Heading1");
            XWPFRun run = firstParagraph.createRun();
            run.setText("段落1。");
            run.setColor("696969");
            run.setFontSize(18);
    
    
            //段落
            XWPFParagraph firstParagraph1 = document.createParagraph();
            firstParagraph.setStyle("Heading1");
            XWPFRun run1 = firstParagraph1.createRun();
            run1.setText("段落2");
            run1.setColor("696969");
            run1.setFontSize(16);
    
            document.createTOC();
    
            document.write(out);
            out.close();
        }
    

    可以看出,目录存在如下问题:

    • 没有中文的目录两个字,是英文的Table of Contents。
    • 目录生成的位置不合适,因为createTOC源码方法实际上是读取文档中被Heading1修饰的部分,所以若该语句放在前面,则无法生成目录。

    导致问题的源码如下:

    • 没有中文目录二字。
    image.png
    • 读取文档中被Heading1修饰的部分,作为目录。
    image.png

    所以,需要自定义目录类。下面是我自定义的生成目录的类,下面代码的效果仅仅是生成了目录两个字:

        public CustomTOC(CTSdtBlock block) {
            this.block = block;
            CTSdtPr sdtPr = block.addNewSdtPr();
            CTDecimalNumber id = sdtPr.addNewId();
            id.setVal(new BigInteger("4844945"));
            sdtPr.addNewDocPartObj().addNewDocPartGallery().setVal("Table of contents");
            CTSdtEndPr sdtEndPr = block.addNewSdtEndPr();
            CTRPr rPr = sdtEndPr.addNewRPr();
            CTFonts fonts = rPr.addNewRFonts();
            fonts.setAsciiTheme(STTheme.MINOR_H_ANSI);
            fonts.setEastAsiaTheme(STTheme.MINOR_H_ANSI);
            fonts.setHAnsiTheme(STTheme.MINOR_H_ANSI);
            fonts.setCstheme(STTheme.MINOR_BIDI);
            rPr.addNewB().setVal(STOnOff.OFF);
            rPr.addNewBCs().setVal(STOnOff.OFF);
            rPr.addNewColor().setVal("auto");
            rPr.addNewSz().setVal(new BigInteger("24"));
            rPr.addNewSzCs().setVal(new BigInteger("24"));
            CTSdtContentBlock content = block.addNewSdtContent();
            CTP p = content.addNewP();
            p.setRsidR("00EF7E24".getBytes(LocaleUtil.CHARSET_1252));
            p.setRsidRDefault("00EF7E24".getBytes(LocaleUtil.CHARSET_1252));
            p.addNewPPr().addNewPStyle().setVal("TOCHeading");
            p.addNewR().addNewT().setStringValue("目     录");//源码中为"Table of contents"
            //设置段落对齐方式,即将“目录”二字居中
            CTPPr pr = p.getPPr();
            CTJc jc = pr.isSetJc() ? pr.getJc() : pr.addNewJc();
            STJc.Enum en = STJc.Enum.forInt(ParagraphAlignment.CENTER.getValue());
            jc.setVal(en);
            //"目录"二字的字体
            CTRPr pRpr = p.getRArray(0).addNewRPr();
            fonts = pRpr.isSetRFonts() ? pRpr.getRFonts() : pRpr.addNewRFonts();
            fonts.setAscii("Times New Roman");
            fonts.setEastAsia("华文中宋");
            fonts.setHAnsi("华文中宋");
            //"目录"二字加粗
            CTOnOff bold = pRpr.isSetB() ? pRpr.getB() : pRpr.addNewB();
            bold.setVal(STOnOff.TRUE);
            // 设置“目录”二字字体大小为24号
            CTHpsMeasure sz = pRpr.isSetSz() ? pRpr.getSz() : pRpr.addNewSz();
            sz.setVal(new BigInteger("36"));
        }
    
    image.png

    如此,第一个问题解决,中文的目录二字已经有了。而这段代码就已经涉及到我上面说的第二个重点:ooxml,即使用xml语言来操作文档。如果不去了解这个,上面的代码有很多是看不懂的。这个就需要自己去阅读那个网站上xml的说明了。
    上面语句对应的xml如下:

    image.png

    第二个问题(目录的位置和样式都不合适)的解决就需要更需要涉及ooxml了

    首先直接上效果和代码


    image.png

    添加不带页数的大字栏目

    public void addRowOnlyTitle(int level, String title) {
            CTSdtContentBlock contentBlock = this.block.getSdtContent();
            CTP p = contentBlock.addNewP();
            p.setRsidR("00EF7E24".getBytes(LocaleUtil.CHARSET_1252));
            p.setRsidRDefault("00EF7E24".getBytes(LocaleUtil.CHARSET_1252));
            CTPPr pPr = p.addNewPPr();
            pPr.addNewPStyle().setVal("TOC" + level);
            CTTabs tabs = pPr.addNewTabs();//Set of Custom Tab Stops自定义制表符集合
            CTTabStop tab = tabs.addNewTab();//Custom Tab Stop自定义制表符
            tab.setVal(STTabJc.RIGHT);
            tab.setLeader(STTabTlc.DOT);
            tab.setPos(new BigInteger("9190"));//默认为8290,因为调整过页边距,所有需要调整,手动设置找出最佳值
            pPr.addNewRPr().addNewNoProof();//不检查语法
            CTR run = p.addNewR();
            run.addNewRPr().addNewNoProof();
            run.addNewT().setStringValue(title);
            //设置行间距
            CTSpacing pSpacing = pPr.getSpacing() != null ? pPr.getSpacing(): pPr.addNewSpacing();
            pSpacing.setLineRule(STLineSpacingRule.AUTO);//行间距类型:多倍
            pSpacing.setLine(new BigInteger("360"));//此处1.5倍行间距
            pSpacing.setBeforeLines(new BigInteger("20"));//段前0.2
            pSpacing.setAfterLines(new BigInteger("10"));//段后0.1
            //设置字体
            CTRPr pRpr = run.getRPr();
            CTFonts fonts = pRpr.isSetRFonts() ? pRpr.getRFonts() : pRpr.addNewRFonts();
            fonts.setAscii("Times New Roman");
            fonts.setEastAsia("黑体");
            fonts.setHAnsi("黑体");
            // 设置字体大小
            CTHpsMeasure sz = pRpr.isSetSz() ? pRpr.getSz() : pRpr.addNewSz();
            sz.setVal(new BigInteger("24"));
    
            CTHpsMeasure szCs = pRpr.isSetSzCs() ? pRpr.getSzCs() : pRpr.addNewSzCs();
            szCs.setVal(new BigInteger("24"));
        }
    

    带页数的详细小字栏目

    public void addRow(int level, String title, int page, String bookmarkRef) {
            CTSdtContentBlock contentBlock = this.block.getSdtContent();
            CTP p = contentBlock.addNewP();
            p.setRsidR("00EF7E24".getBytes(LocaleUtil.CHARSET_1252));
            p.setRsidRDefault("00EF7E24".getBytes(LocaleUtil.CHARSET_1252));
            CTPPr pPr = p.addNewPPr();
            pPr.addNewPStyle().setVal("TOC" + level);
            CTTabs tabs = pPr.addNewTabs();//Set of Custom Tab Stops自定义制表符集合
            CTTabStop tab = tabs.addNewTab();//Custom Tab Stop自定义制表符
            tab.setVal(STTabJc.RIGHT);
            tab.setLeader(STTabTlc.DOT);
            tab.setPos(new BigInteger("9100"));//默认为8290,因为调整过页边距,所有需要调整,手动设置找出最佳值
            pPr.addNewRPr().addNewNoProof();//不检查语法
            CTR run = p.addNewR();
            run.addNewRPr().addNewNoProof();
            run.addNewT().setStringValue(title);//添加标题文字
            //设置标题字体
            CTRPr pRpr = run.getRPr();
            CTFonts fonts = pRpr.isSetRFonts() ? pRpr.getRFonts() : pRpr.addNewRFonts();
            fonts.setAscii("Times New Roman");
            fonts.setEastAsia("楷体");
            fonts.setHAnsi("楷体");
            // 设置标题字体大小
            CTHpsMeasure sz = pRpr.isSetSz() ? pRpr.getSz() : pRpr.addNewSz();
            sz.setVal(new BigInteger("21"));
            CTHpsMeasure szCs = pRpr.isSetSzCs() ? pRpr.getSzCs() : pRpr.addNewSzCs();
            szCs.setVal(new BigInteger("21"));
            //添加制表符
            run = p.addNewR();
            run.addNewRPr().addNewNoProof();
            run.addNewTab();
            //添加页码左括号
            p.addNewR().addNewT().setStringValue("(");
            //STFldCharType.BEGIN标识与结尾处STFldCharType.END相对应
            run = p.addNewR();
            run.addNewRPr().addNewNoProof();
            run.addNewFldChar().setFldCharType(STFldCharType.BEGIN);//Field Character Type
            // pageref run
            run = p.addNewR();
            run.addNewRPr().addNewNoProof();
            CTText text = run.addNewInstrText();//Field Code 添加域代码文本控件
            text.setSpace(SpaceAttribute.Space.PRESERVE);
            // bookmark reference
            //源码的域名为" PAGEREF _Toc","\h"含义为在目录内建立目录项与页码的超链接
            text.setStringValue(" PAGEREF "+bookmarkRef + " \\h ");
            p.addNewR().addNewRPr().addNewNoProof();
            run = p.addNewR();
            run.addNewRPr().addNewNoProof();
            run.addNewFldChar().setFldCharType(STFldCharType.SEPARATE);
            // page number run
            run = p.addNewR();
            run.addNewRPr().addNewNoProof();
            run.addNewT().setStringValue(Integer.toString(page));
            run = p.addNewR();
            run.addNewRPr().addNewNoProof();
            //STFldCharType.END标识与上面STFldCharType.BEGIN相对应
            run.addNewFldChar().setFldCharType(STFldCharType.END);
            //添加页码右括号
            p.addNewR().addNewT().setStringValue(")");
            //设置行间距
            CTSpacing pSpacing = pPr.getSpacing() != null ? pPr.getSpacing(): pPr.addNewSpacing();
            pSpacing.setLineRule(STLineSpacingRule.AUTO);//行间距类型:多倍
            pSpacing.setLine(new BigInteger("360"));//此处1.5倍行间距
        }
    

    下面代码就能解决目录位置的问题

        /**
         * 写多个文档
         */
        public void writeWordBanch() throws Exception {
            XWPFDocument doc = new XWPFDocument();
            FileOutputStream out = new FileOutputStream(new File("G:\\Offer\\create_OilWord_TOC.docx"));
            FileRedWordDynamic wordFile = new FileRedWordDynamic(doc);
            wordFile.writeFileHead();
    
            wordFile.createCustomTOC();
            List<News> newsData = DataSource.getInstance().getDataByJDBC();
            wordFile.writeAllNews(newsData);
            wordFile.addItem2TOC();
    
            doc.write(out);
            out.close();
        }
    

    可以看出源码在创建完目录索引后,立即判断根据Heading1插入目录


    image.png

    在我重写的方法中将其分为createCustomTOC()addItem2TOC()分开,先在顶部占位,然后等文档的标题和内容等信息全部写完之后,在写目录剩下的部分,如下:

    public void createCustomTOC() {
            CTSdtBlock block = doc.getDocument().getBody().addNewSdt();
            doc.createTOC();
            this.toc = new CustomTOC(block);
            wordSetting.setCustomHeadingStyle(doc, "Heading1", 1);
            wordSetting.setCustomHeadingStyle(doc, "Heading2", 2);
        }
    
     public void addItem2TOC() {
            List<XWPFParagraph> paragraphs = doc.getParagraphs();
            for (XWPFParagraph par : paragraphs) {
                String parStyle = par.getStyle();
                if (parStyle != null && parStyle.startsWith("Heading")) {
                    List<CTBookmark> bookmarkList=par.getCTP().getBookmarkStartList();
                    try {
                        int level = Integer.parseInt(parStyle.substring("Heading".length()));
                        if(level==1){
                            //添加栏目
                            toc.addRowOnlyTitle(level, par.getText());
                        }else{
                            //添加标题
                            toc.addRow(level, par.getText(), 1, bookmarkList.get(0).getName());
                        }
                    } catch (NumberFormatException e) {
                        e.printStackTrace();
                    }
                }
            }
        }
    

    如此,第二个问题也就解决了。

    (4)这里面也有个难点

    就是如何将内容部分和目录部分建立联系呢?

    就是通过下面代码

    text.setStringValue(" PAGEREF "+bookmarkRef + " \\h ");
    

    为什么是这样的格式,这个在Word中有说明的


    image.png

    OK,这一步如果走通了,就好多了。最后就是将需要添加为目录的部分传入对应的设置即可

        public void addItem2TOC() {
            List<XWPFParagraph> paragraphs = doc.getParagraphs();
            for (XWPFParagraph par : paragraphs) {
                String parStyle = par.getStyle();
                if (parStyle != null && parStyle.startsWith("Heading")) {
                    List<CTBookmark> bookmarkList=par.getCTP().getBookmarkStartList();
                    try {
                        int level = Integer.parseInt(parStyle.substring("Heading".length()));
                        if(level==1){
                            //添加栏目
                            toc.addRowOnlyTitle(level, par.getText());
                        }else{
                            //添加标题
                            toc.addRow(level, par.getText(), 1, bookmarkList.get(0).getName());
                        }
                    } catch (NumberFormatException e) {
                        e.printStackTrace();
                    }
                }
            }
        }
    

    通过上面的代码,就可以生成目录了。

    (5)最后还有个问题

    但是现在,还是存在一个问题。如下图:现在生成的文档,页数全部是1,必须要手动更新域才可以生成新的正确的页码,所以算不得是完全自动更新。


    image.png

    需要在上面的addRow方法的第二个参数中传入当前页码,但是现在就是不知道应该如何准确的获取Word的当前页数,这个问题可卡了我很久都没解决,我也找一一些方法,但存在以下问题:

    • 插入的页码不准,有误;
    • 通过Word转PDF生成页码较准,但这样Word目录不好操作,代码的完整性会被破坏;

    朋友们如果有好方法请分享一下,谢谢。


    END

    一些参考的链接

    https://blog.csdn.net/zhouseawater/article/details/54289495
    https://blog.csdn.net/yanyanhuihuijianjian/article/details/79084571
    https://blog.csdn.net/tiandixuanwuliang/article/details/71298406
    https://blog.csdn.net/dh1027/article/details/78095940
    http://53873039oycg.iteye.com/blog/2185999?utm_source=tuicool
    UML类图(继承、实现、依赖、关联、聚合、组合):
    http://blog.csdn.net/sfdev/article/details/3906243
    Myeclipse下实现UML类图:
    http://www.myeclipsecn.com/learningcenter/uml-modeling/myeclipse-uml-1/
    UML时序图:
    http://blog.csdn.net/road2010/article/details/7265413

    相关文章

      网友评论

        本文标题:Apache POI自动生成Word文档(带目录)

        本文链接:https://www.haomeiwen.com/subject/vrtciftx.html