RESTAPIとJavaSDKを使用した解析と抽出

請求書、領収書、財務表などのドキュメントを解析して、40以上の一般的なドキュメント形式からテキスト、画像、メタデータを抽出します。

無料トライアルを開始

GroupDocs.Parser Cloud for Javaは、50を超えるドキュメントタイプを解析するためのドキュメントデータ抽出RESTAPIのラッパーです。事前定義されたテンプレートを使用したドキュメントの解析は、GroupDocs.ParserCloudAPIの最も価値のある機能の1つです。テンプレートを定義し、請求書やその他の種類の一般的なドキュメントからデータを抽出するのは非常にシンプルで簡単です。 APIは、ほとんどすべての最も一般的なファイル形式から画像を抽出し、テキストとメタデータを抽出するメソッドを提供します。通常のドキュメントに加えて、パスワードで保護されたファイルや、JavaアプリケーションのZIPアーカイブ、OST / PSTメールデータファイル、電子書籍、マークアップ、PDFポートフォリオなどのコンテナでサポートされている機能を使用できます。

ドキュメントパーサーRESTAPIの機能

PDF、ワードプロセッシングドキュメント、スプレッドシート、プレゼンテーションを解析する

Microsoft Word、Excel、PowerPoint、OpenDocumentテンプレートファイルを解析します

MS Word、Excel、PowerPoint用のマクロ対応のドキュメントとテンプレートを解析する

ドキュメント全体からテキストコンテンツを抽出する

特定のページからテキストと画像を抽出する

抽出モードを設定してフォーマットされたテキストを抽出する

ZIPアーカイブまたは電子メールのドキュメントからテキストを抽出します

電子メール、PDFポートフォリオ、およびMSOutlookストレージからドキュメントを取得します

ドキュメントのページ数やその他の情報を取得する

ドキュメントから画像を抽出する

GroupDocs.Parser Cloud APIは、ドキュメントから画像を抽出するいくつかの方法を提供します。ページ範囲を設定することで、ドキュメント全体からすべての画像を抽出したり、特定のページから画像を抽出したりできます。次の例は、コンテナ内のドキュメントから画像を抽出する方法を示しています。

PDFポートフォリオから画像を抽出する-Java

// Get AppKey and AppSID from https://dashboard.groupdocs.cloud
String MyAppKey = "";
String MyAppSid = "";

Configuration configuration = new Configuration(MyAppSid, MyAppKey);
ParseApi apiInstance = new ParseApi(configuration);

FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("pdf/PDF with attachments.pdf");
fileInfo.setPassword("password");

ContainerItemInfo containerItemInfo = new ContainerItemInfo();
containerItemInfo.setRelativePath("template-document.pdf");

ImagesOptions options = new ImagesOptions();
options.setFileInfo(fileInfo);
options.setContainerItemInfo(containerItemInfo);

ImagesRequest request = new ImagesRequest(options);
ImagesResult response = apiInstance.images(request);

// For complete examples and data files, visit https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-java-samples

サポートおよび学習リソース

GroupDocs.Parser Cloudは、以下に示すように、他の言語用の個別のドキュメント解析SDKも提供します。

  日本語