GroupDocs.Parser Cloud SDK 帮助 .NET 开发人员解析任何文档以在基于 .NET 的应用程序中提取文本、提取图像和元数据。 SDK(REST API Client)是开发者加快开发速度的最简单快捷的方式。这让开发人员可以专注于编写特定于项目的代码,而不必担心发出请求和处理响应的低级细节。 文档可以通过易于使用的用户定义模板与数据字段定义和表定义进行解析。然后很容易从典型文档甚至从 ZIP 档案、OST/PST 邮件数据文件、电子书、标记和 PDF 组合等容器中提取文本字段、数字、表格等数据。
解析 PDF、文字处理文档、电子表格和演示文稿
解析 Microsoft Word、Excel、PowerPoint 和 OpenDocument 模板文件
为 MS Word、Excel 和 PowerPoint 解析启用宏的文档和模板
从整个文档中提取文本内容
从特定页面中提取文本和图像
通过设置提取模式提取格式化文本
从 ZIP 档案或电子邮件中的文档中提取文本
从电子邮件、PDF 组合和 MS Outlook 存储中检索文档
获取文档页数和其他信息
GroupDocs.Parser Cloud API,提供了几种从文档中提取文本的方法。您可以仅提取文本,通过设置提取模式提取格式化文本,通过设置页面范围从特定页面提取。以下示例显示了如何通过设置页面范围从 PDF 文档中提取文本。
// Get AppKey and AppSID from https://dashboard.groupdocs.cloud
string MyAppKey = "";
string MyAppSid = "";
var configuration = new Configuration(MyAppSid, MyAppKey);
var apiInstance = new ParseApi(configuration);
var fileInfo = new FileInfo
{
FilePath = "directory/document.pdf"
};
var options = new TextOptions
{
FileInfo = fileInfo,
StartPageNumber = 1,
CountPagesToExtract = 2
};
var request = new TextRequest(options);
var response = apiInstance.Text(request);
// For complete examples, visit https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet-samples