Java使用Apache POI实现Word表格单元格合并-代码聚汇网

Java使用Apache POI实现Word表格单元格合并

gumw

1. 项目背景与需求解析

在日常的企业级应用开发中，我们经常遇到需要将业务数据导出为Word文档的需求。特别是当数据包含表格结构时，如何优雅地呈现这些数据就成了一项关键技术挑战。最近我在一个财务系统中就遇到了这样的需求：需要将数据库查询结果按照特定字段分组，并在Word表格中合并相同值的单元格。

这个需求看似简单，但实际开发中会遇到几个棘手问题：

Word文档的表格操作API相对复杂
合并单元格的逻辑需要精确控制
不同数据结构的适配问题
性能优化考虑

2. 技术方案选型

2.1 主流Java操作Word方案对比

在Java生态中，操作Word文档主要有以下几种方案：

方案	优点	缺点	适用场景
Apache POI	官方支持，功能全面	API复杂，学习曲线陡	复杂文档操作
docx4j	封装性好，易用性高	社区支持较弱	简单文档生成
JasperReports	报表功能强大	配置复杂	固定格式报表
Freemarker	模板化开发	动态表格处理弱	模板类文档

经过评估，我选择了Apache POI作为基础技术方案，主要基于以下考虑：

官方维护，稳定性有保障
支持复杂的表格操作
社区资源丰富
性能表现良好

2.2 核心实现思路

合并单元格的核心算法可以分解为：

数据预处理：按照合并字段排序
表格绘制：创建基础表格结构
合并检测：识别相邻相同值
区域合并：执行物理单元格合并

3. 详细实现步骤

3.1 环境准备

首先需要引入POI依赖：

xml复制<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi</artifactId>
    <version>5.2.3</version>
</dependency>
<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-ooxml</artifactId>
    <version>5.2.3</version>
</dependency>

3.2 基础表格创建

创建Word文档的基本框架：

java复制XWPFDocument document = new XWPFDocument();
XWPFTable table = document.createTable();

// 设置表格样式
table.setWidth("100%");
table.setCellMargins(100, 100, 100, 100);

3.3 数据预处理

关键的数据预处理代码：

java复制// 按照合并字段排序
dataList.sort(Comparator.comparing(DataObject::getMergeField));

// 初始化合并记录
Map<Integer, Integer> mergeMap = new HashMap<>();
int mergeStart = 0;
String currentValue = dataList.get(0).getMergeField();

3.4 合并算法实现

核心合并逻辑：

java复制for (int i = 1; i < dataList.size(); i++) {
    if (dataList.get(i).getMergeField().equals(currentValue)) {
        continue;
    }
    
    // 记录需要合并的行范围
    if (i - mergeStart > 1) {
        mergeMap.put(mergeStart, i - 1);
    }
    
    mergeStart = i;
    currentValue = dataList.get(i).getMergeField();
}

// 处理最后一组
if (dataList.size() - mergeStart > 1) {
    mergeMap.put(mergeStart, dataList.size() - 1);
}

3.5 执行单元格合并

实际的合并操作：

java复制mergeMap.forEach((start, end) -> {
    for (int col = 0; col < columnCount; col++) {
        // 只合并指定列
        if (needMerge(col)) {
            table.getRow(start).getCell(col).mergeVertically(end - start);
        }
    }
});

4. 性能优化技巧

在处理大数据量时，需要注意以下性能优化点：

批量操作：避免频繁的IO操作，先构建完整文档再一次性写入
样式复用：提前创建并复用单元格样式对象
内存管理：及时清理临时对象，特别是大对象
并行处理：对独立数据块可采用并行处理

优化后的样式设置示例：

java复制// 创建并缓存样式
CTShd cTShd = CTShd.Factory.newInstance();
cTShd.setFill("D3D3D3");

XWPFTableCellStyle style = document.createTableCellStyle();
style.setShading(cTShd);

5. 常见问题与解决方案

5.1 合并后格式错乱

现象：合并单元格后边框消失或样式不一致

解决方案：

在合并前统一设置所有相关单元格的样式
合并后重新应用一次样式
使用table.getCTTbl().unsetTblPr()清除默认样式

5.2 中文乱码问题

现象：导出的文档中中文显示为乱码

解决方案：

确保使用UTF-8编码
设置字体时指定中文字体

java复制XWPFRun run = cell.getParagraphs().get(0).createRun();
run.setFontFamily("宋体");

5.3 大文档内存溢出

现象：处理大量数据时出现OOM错误

解决方案：

分批次处理数据
使用SXSSFWorkbook类似的流式API
增加JVM内存参数

bash复制-Xms512m -Xmx2048m

6. 扩展应用场景

这个技术方案不仅适用于简单的表格导出，还可以应用于：

财务报表：合并相同科目或相同日期的数据
学生成绩单：按班级或科目合并显示
库存报表：合并相同品类或仓库的数据
项目进度表：合并相同负责人或状态的任务

在实际项目中，我进一步扩展了这个方案，支持：

多级合并（先按部门合并，再按职位合并）
交叉合并（行合并+列合并）
条件格式（不同合并区域显示不同颜色）

7. 完整代码示例

以下是经过优化的完整实现代码：

java复制public class WordTableMerger {
    private static final int MERGE_COLUMN_INDEX = 0; // 需要合并的列索引
    
    public void exportWithMerge(List<DataDTO> dataList, OutputStream out) throws IOException {
        XWPFDocument doc = new XWPFDocument();
        
        // 1. 数据预处理
        dataList.sort(Comparator.comparing(DataDTO::getMergeField));
        
        // 2. 创建表格
        XWPFTable table = doc.createTable(dataList.size(), getColumnCount());
        applyTableStyle(table);
        
        // 3. 填充数据
        fillTableData(table, dataList);
        
        // 4. 执行合并
        mergeCells(table, dataList);
        
        // 5. 输出文档
        doc.write(out);
        doc.close();
    }
    
    private void mergeCells(XWPFTable table, List<DataDTO> dataList) {
        int start = 0;
        String current = dataList.get(0).getMergeField();
        
        for (int i = 1; i < dataList.size(); i++) {
            if (!dataList.get(i).getMergeField().equals(current)) {
                if (i - start > 1) {
                    table.getRow(start).getCell(MERGE_COLUMN_INDEX)
                        .mergeVertically(i - 1 - start);
                }
                start = i;
                current = dataList.get(i).getMergeField();
            }
        }
        
        // 处理最后一组
        if (dataList.size() - start > 1) {
            table.getRow(start).getCell(MERGE_COLUMN_INDEX)
                .mergeVertically(dataList.size() - 1 - start);
        }
    }
    
    // 其他工具方法...
}

8. 最佳实践建议

根据多个项目的实践经验，我总结出以下建议：

预处理很重要：确保数据已按合并字段排序，这是合并正确的前提
样式先行：在添加数据前先设置好表格整体样式，避免后续覆盖
适度合并：不要过度合并单元格，会影响文档的可读性和后续处理
异常处理：对空数据、单行数据等边界情况要做好处理
文档测试：生成后务必用不同版本的Word软件打开测试

一个实用的调试技巧是临时添加边框：

java复制// 调试时显示所有单元格边框
table.setTopBorder(XWPFTable.XWPFBorderType.SINGLE, 1, 0, "000000");
table.setBottomBorder(XWPFTable.XWPFBorderType.SINGLE, 1, 0, "000000");
table.setLeftBorder(XWPFTable.XWPFBorderType.SINGLE, 1, 0, "000000");
table.setRightBorder(XWPFTable.XWPFBorderType.SINGLE, 1, 0, "000000");
table.setInsideHBorder(XWPFTable.XWPFBorderType.SINGLE, 1, 0, "000000");
table.setInsideVBorder(XWPFTable.XWPFBorderType.SINGLE, 1, 0, "000000");

9. 替代方案探讨

虽然Apache POI是主流选择，但在特定场景下也可以考虑：

OpenPDF+iText：适合需要PDF输出的场景
JXLS：基于Excel模板的方案，学习成本低
Thymeleaf+HTML：生成HTML后转换为Word

特别是在简单的报表场景下，使用模板引擎可能是更高效的选择。例如Thymeleaf方案：

html复制<table>
    <tr th:each="item,stat : ${items}">
        <td th:if="${stat.index == 0 || 
                     items[stat.index-1].mergeField != item.mergeField}"
            th:attr="rowspan=${getRowSpan(stat.index, items)}">
            [[${item.mergeField}]]
        </td>
        <td>[[${item.otherField}]]</td>
    </tr>
</table>

10. 项目总结与反思

这个技术方案在多个项目中得到了实际应用，效果良好。但在实施过程中也发现了一些值得改进的地方：

性能瓶颈：当处理超过10万行数据时，内存消耗较大
样式灵活性：复杂样式设置仍然比较繁琐
兼容性问题：不同版本的Word软件渲染效果有差异

针对这些问题，后续可以考虑：

实现分页导出功能
封装更友好的样式API
增加自动兼容性检测

在实际开发中，我发现最关键的还是对业务需求的准确把握。合并单元格看似是技术问题，实则是数据展示逻辑的体现。建议在开发前与业务方充分沟通，明确合并的规则和边界条件，这能避免很多后期的返工。

Java使用Apache POI实现Word表格单元格合并

1. 项目背景与需求解析

2. 技术方案选型

2.1 主流Java操作Word方案对比

2.2 核心实现思路

3. 详细实现步骤

3.1 环境准备

3.2 基础表格创建

3.3 数据预处理

3.4 合并算法实现

3.5 执行单元格合并

4. 性能优化技巧

5. 常见问题与解决方案

5.1 合并后格式错乱

5.2 中文乱码问题

5.3 大文档内存溢出

6. 扩展应用场景

7. 完整代码示例

8. 最佳实践建议

9. 替代方案探讨

10. 项目总结与反思

内容推荐