

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 数据来源支持的文件类型
<a name="supported-data-file-sources"></a>

以下文件要求适用于存储在 Amazon S3 中的文件以及您从本地驱动器上传的文件。 DataBrew 支持以下文件格式：逗号分隔值 (CSV)、微软 Excel、JSON、ORC 和 Parquet。如果文件属于支持的类型之一，则可以使用带有非标准扩展名或没有扩展名的文件。

 DataBrew 如果无法推断出文件类型，请确保自己选择正确的文件类型（CSV、Excel、JSON、ORC 或 Parquet）。支持压缩的 CSV、JSON、ORC 和 Parquet 文件，但是 CSV 和 JSON 文件必须包含压缩编解码器作为文件扩展名。如果要导入文件夹，则该文件夹中的所有文件的文件类型必须相同。

下表中显示了文件格式和支持的压缩算法。

**注意**  
必须使用 Unicode（UTF-8）对 CSV、Excel 和 JSON 文件进行编码。<a name="datasets.databrew-input-formats"></a>


| **Format** | **文件扩展名（可选）** |  **压缩文件的扩展名（必需）**  | 
| --- | --- | --- | 
| 逗号分隔的值 | `.csv` | `.gz` <br />`.snappy`<br />`.lz4`<br />`.bz2`<br />`.deflate` | 
| Microsoft Excel 工作簿 | `.xlsx` | 不支持压缩 | 
| JSON（JSON 文档和 JSON Lines） | `.json, .jsonl` | `.gz`<br />`.snappy`<br />`.lz4`<br />`.bz2`<br />`.deflate` | 
| Apache ORC | `.orc` | `.zlib`<br />`.snappy` | 
| Apache Parquet | `.parquet` | `.gz`<br />`.snappy`<br />`.lz4` | 