

# 填充 AWS Glue Data Catalog
<a name="populate-catalog-methods"></a>

您可以使用以下方法填充 AWS Glue Data Catalog：
+ AWS Glue 爬网程序 – AWS Glue 爬网程序 可以自动发现数据库、数据湖和流式传输数据等数据来源并对其进行分类。爬网程序可以自动发现和推断各种数据来源的元数据，因此是填充 Data Catalog 的最常用和最推荐的方法。
+  手动添加元数据 – 您可以使用 AWS Glue 控制台、Lake Formation 控制台、AWS CLI 或 AWS Glue API 手动定义数据库、表和连接详细信息，并将其添加到 Data Catalog 中。当您要对无法爬取的数据来源进行分类时，手动输入非常有用。
+ 与其他 AWS 服务集成 – 您可以使用来自 AWS Lake Formation 和 Amazon Athena 等服务的元数据填充 Data Catalog。这些服务可以在 Data Catalog 中发现和注册数据来源。
+  从现有元数据存储库中填充 – 如果您有 Apache Hive Metastore 这样的现有元数据存储，则可以使用 AWS Glue 将该元数据导入到 Data Catalog 中。有关更多信息，请参阅 GitHub 上的[在 Hive 元存储和 AWS Glue Data Catalog 之间迁移](https://github.com/aws-samples/aws-glue-samples/tree/master/utilities/Hive_metastore_migration)。

**Topics**
+ [使用爬网程序填充 Data Catalog](add-crawler.md)
+ [手动定义元数据](populate-dg-manual.md)
+ [与 Amazon S3 表类数据存储服务集成](glue-federation-s3tables.md)
+ [与其他 AWS 服务集成](populate-dc-other-services.md)
+ [Data Catalog 设置](console-data-catalog-settings.md)