Java 获取PDF指定区域内的文本

时间:2024-10-15 22:20:35

读取PDF文档中的文本可以读取整篇文本内容,也可以只读取某部分指定文本内容。以下经验内容将分享如何通过java程序来读取指定矩形区域内的文本。

工具/原料

Free Spire.PDF for Java (免费版)

IntelliJ IDEA

jar文件获取及导入:

1、方法1:通过e-iceblue官网下载。下载后,解压文件,并将lib文件夹下的Spire.Pdf.jar文件导入到java程序。如下图:

Java 获取PDF指定区域内的文本

2、方法2:可通过maven仓库安装导入,配置路径及导入方法可参考链接里的步骤:https://www.e-iceblue.cn/licensing/i荏鱿胫协nstall-spirepdf-for-java-from-maven-repository.html 。

3、测试文档如下,读取红色矩形框内的文本内容:

Java 获取PDF指定区域内的文本

Java代码示例

1、import com.spire.pdf.*;import java.awt.*;import java.io.FileWriter;import java.io.IOException;public class GetText { public static void main(String[] args) { //加载PDF文档 PdfDocument pdf = new PdfDocument(); pdf.loadFromFile("sample.pdf"); //获取第一页 PdfPageBase page = pdf.getPages().get(0); //提取指定矩形区域的文本,写入到txt文档 String text = page.extractText(new Rectangle(60, 60, 500, 100)); StringBuilder sb = new StringBuilder(); sb.append(text); FileWriter writer; try { writer = new FileWriter("GetSpecifiedText.txt"); writer.write(sb.toString()); writer.flush(); } catch (IOException e) { e.printStackTrace(); } pdf.dispose(); }}

2、文本读取结果:

Java 获取PDF指定区域内的文本
© 手抄报圈