使用 REST API 和 Java SDK 解析和提取

解析发票、收据或财务表格等文档,从 40 多种流行的文档格式中提取文本、图像和元数据。

开始免费试用

GroupDocs.Parser Cloud for Java 是文档数据提取 REST API 的包装器,用于解析 50 多种文档类型。使用预定义模板解析文档是 GroupDocs.Parser Cloud API 最有价值的功能之一。定义模板并从发票或其他类型的典型文档中提取数据非常简单易行。 API 提供了从几乎所有最常见的文件格式中提取图像、提取文本和元数据的方法。除了常规文档之外,您还可以在 Java 应用程序中使用受密码保护的文件和容器(如 ZIP 存档、OST/PST 邮件数据文件、电子书、标记和 PDF 组合)的支持功能。

文档解析器 REST API 功能

解析 PDF、文字处理文档、电子表格和演示文稿

解析 Microsoft Word、Excel、PowerPoint 和 OpenDocument 模板文件

为 MS Word、Excel 和 PowerPoint 解析启用宏的文档和模板

从整个文档中提取文本内容

从特定页面中提取文本和图像

通过设置提取模式提取格式化文本

从 ZIP 档案或电子邮件中的文档中提取文本

从电子邮件、PDF 组合和 MS Outlook 存储中检索文档

获取文档页数和其他信息

从文档中提取图像

GroupDocs.Parser Cloud API,提供了几种从文档中提取图像的方法。您可以从整个文档中提取所有图像,通过设置页面范围从特定页面中提取图像。以下示例显示了如何从容器内的文档中提取图像。

从 PDF 包中提取图像 - Java

// Get AppKey and AppSID from https://dashboard.groupdocs.cloud
String MyAppKey = "";
String MyAppSid = "";

Configuration configuration = new Configuration(MyAppSid, MyAppKey);
ParseApi apiInstance = new ParseApi(configuration);

FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("pdf/PDF with attachments.pdf");
fileInfo.setPassword("password");

ContainerItemInfo containerItemInfo = new ContainerItemInfo();
containerItemInfo.setRelativePath("template-document.pdf");

ImagesOptions options = new ImagesOptions();
options.setFileInfo(fileInfo);
options.setContainerItemInfo(containerItemInfo);

ImagesRequest request = new ImagesRequest(options);
ImagesResult response = apiInstance.images(request);

// For complete examples and data files, visit https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-java-samples

支持和学习资源

GroupDocs.Parser Cloud 还为其他语言提供单独的文档解析 SDK,如下所示:

  中文