

# 爬网程序在数据目录表上设置的参数


 这些表属性由 AWS Glue 爬网程序设置。我们希望用户使用 `classification` 和 `compressionType` 属性。其他属性（包括估算表大小）用于内部计算，我们无法保证其准确性或客户使用案例适用性。更改这些参数可能会改变爬网程序的行为，我们不支持此工作流程。


| 属性键 | 属性值 | 
| --- | --- | 
| UPDATED\$1BY\$1CRAWLER | 执行更新的爬网程序的名称。 | 
| connectionName | 用于连接到数据存储的爬网程序在“数据目录”中的连接名称。 | 
| recordCount | 根据文件大小和标题估算表中记录的数量。 | 
| skip.header.line.count | 跳过行以跳过标题。在被归类为 CSV 的表上设置。 | 
| CrawlerSchemaSerializerVersion | 供内部使用 | 
| classification | 由爬网程序推断数据格式。更多有关 AWS Glue 爬网程序支持的数据格式的信息，请参阅 [内置分类器](add-classifier.md#classifier-built-in)。 | 
| CrawlerSchemaDeserializerVersion | 供内部使用 | 
| sizeKey | 已爬取的表中文件的组合大小。 | 
| averageRecordSize | 表中行的平均大小（字节）。 | 
| compressionType | 对表中的数据使用的压缩类型。更多有关 AWS Glue 爬网程序支持的压缩类型的信息，请参阅 [内置分类器](add-classifier.md#classifier-built-in)。 | 
| typeOfData | `file`、`table` 或 `view`。 | 
| objectCount | Amazon S3 表路径下的对象数量。 | 

 这些额外的表属性是由 AWS Glue 爬网程序为 Snowflake 数据存储设置的。


| 属性键 | 属性值 | 
| --- | --- | 
| aws:RawTableLastAltered | 记录 Snowflake 表上次修改的时间戳。 | 
| ViewOriginalText | 查看 SQL 语句。 | 
| ViewExpandedText | 查看以 Base64 格式编码的 SQL 语句。 | 
| ExternalTable:S3Location | Snowflake 外部表的 Amazon S3 位置。 | 
| ExternalTable:FileFormat | Snowflake 外部表的 Amazon S3 文件格式。 | 

 这些额外的表属性是由 AWS Glue 爬网程序为 Amazon Redshift、Microsoft SQL Server、MySQL、PostgreSQL 和 Oracle 等 JDBC 类型的数据存储设置的。


| 属性键 | 属性值 | 
| --- | --- | 
| aws:RawType | 当爬网程序将数据存储在数据目录中时，它会将数据类型转换为与 Hive 兼容的类型，这往往会导致有关本机数据类型的信息丢失。爬网程序输出 `aws:RawType` 参数，以提供原生级别的数据类型。 | 
| aws:RawColumnComment | 如果注释与数据库中的列相关联，则爬网程序会在目录表中输出相应的注释。注释字符串被截断为 255 个字节。 Microsoft SQL Server 不支持注释。  | 
| aws:RawTableComment | 如果注释与数据库中的列相关联，则爬网程序会在目录表中输出相应的注释。注释字符串被截断为 255 个字节。 Microsoft SQL Server 不支持注释。 | 