Анализ и извлечение с помощью REST API и Java SDK

Анализируйте такие документы, как счета, квитанции или финансовые таблицы, чтобы извлекать текст, изображения и метаданные из более чем 40 популярных форматов документов.

Начать бесплатную пробную версию

GroupDocs.Parser Cloud для Java — это оболочка REST API для извлечения данных из документов для анализа более 50 типов документов. Парсинг документов с предопределенными шаблонами — одна из самых ценных функций GroupDocs.Parser Cloud API. Очень просто и легко определить шаблоны и извлечь данные из счетов-фактур или других типовых документов. API предоставляет методы для извлечения изображений, текста и метаданных практически из всех наиболее распространенных форматов файлов. Наряду с обычными документами вы можете использовать поддерживаемые функции для защищенных паролем файлов и контейнеров, таких как ZIP-архивы, файлы почтовых данных OST/PST, электронные книги, пометки и портфолио PDF в ваших приложениях Java.

Возможности REST API парсера документов

Разбор PDF, текстовых документов, электронных таблиц и презентаций

Разбирать файлы шаблонов Microsoft Word, Excel, PowerPoint и OpenDocument

Анализ документов и шаблонов с поддержкой макросов для MS Word, Excel и PowerPoint

Извлечение текстового содержимого из всего документа

Извлечение текста и изображений с определенных страниц

Извлечь форматированный текст, установив режим извлечения

Извлечение текста из документов в ZIP-архивах или электронных письмах

Извлечение документов из электронных писем, портфолио PDF и хранилищ MS Outlook

Получить количество страниц документа и другую информацию

Извлечение изображений из документа

GroupDocs.Parser Cloud API предоставляет несколько способов извлечения изображений из документов. Вы можете извлечь все изображения из всего документа, извлечь изображения из определенных страниц, установив диапазон страниц. В следующем примере показано, как извлечь изображения из документа внутри контейнера.

Извлечение изображений из портфолио PDF — Java

// Get AppKey and AppSID from https://dashboard.groupdocs.cloud
String MyAppKey = "";
String MyAppSid = "";

Configuration configuration = new Configuration(MyAppSid, MyAppKey);
ParseApi apiInstance = new ParseApi(configuration);

FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("pdf/PDF with attachments.pdf");
fileInfo.setPassword("password");

ContainerItemInfo containerItemInfo = new ContainerItemInfo();
containerItemInfo.setRelativePath("template-document.pdf");

ImagesOptions options = new ImagesOptions();
options.setFileInfo(fileInfo);
options.setContainerItemInfo(containerItemInfo);

ImagesRequest request = new ImagesRequest(options);
ImagesResult response = apiInstance.images(request);

// For complete examples and data files, visit https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-java-samples

Ресурсы поддержки и обучения

GroupDocs.Parser Cloud также предлагает отдельные SDK для синтаксического анализа документов для других языков, перечисленных ниже:

  РУССКИЙ