

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 用于异步分析的文件格式
<a name="class-inputs-async"></a>

使用模型运行异步分析时，您可以选择输入文档的格式：`One document per line` 或 `one document per file`。您使用的格式取决于您要分析的文档类型，如下表中所述。


| 说明 | Format | 
| --- | --- | 
| 输入包含多个文件。每个文件包含一个输入文档。这种格式最适合大型文档的集合，例如报纸文章或科学论文。 此外，使用原生文档分类器对半结构化文档（图像、PDF 或 Docx 文件）使用此格式。 | 每个文件一个文档 | 
|  输入是一个或多个文件。文件中的每一行都是一个单独的输入文档。这种格式最适合简短的文档，例如短信或社交媒体帖子。  | 每行一个文档 | 

**每个文件一个文档**

对于 `one document per file` 格式，每个文件代表一个输入文档。

**每行一个文档**

在 `One document per line` 格式中，每个文档都放在单独的行上，并且不使用标题。标签不包含在每行中（因为您还不知道文档的标签）。文件中的每一行（单个文档的结尾）必须以换行符 (LF, \$1n)、回车符 (CR, \$1r) 或两者兼有 (CRLF, \$1r\$1n) 结尾。您不能使用 UTF-8 行分隔符 (u\$12028) 来结束一行。

以下示例显示了输入文件的格式。

```
Text of document 1 \n
Text of document 2 \n
Text of document 3 \n
Text of document 4 \n
```

对于任一格式，文本文件都要使用 UTF-8 编码。准备好文件后，将其放入用于输入数据的 S3 存储桶中。

启动分类任务时，您需要为输入数据指定 Amazon S3 位置。URI 必须与所调用的 API 终端节点位于同一区域。URI 可以指向单个文件（例如使用“每行一个文档”的方法），也可以是一组数据文件的前缀。

例如，如果您使用 URI，如果前缀是单个文件 `S3://bucketName/prefix`，则 Amazon Comprehend 会使用该文件作为输入。如果有多个文件以该前缀开头，Amazon Comprehend 将使用所有文件作为输入。

授权 Amazon Comprehend 访问包含文档集合和输出文件的 S3 存储桶。有关更多信息，请参阅 [异步操作所需的基于角色的权限](security_iam_id-based-policy-examples.md#auth-role-permissions)。