當爬蟲程式和已註冊的 Amazon S3 位置或資料型錄資料表位於同一帳戶 (帳戶內網路爬取) 時，需要進行設定

設定編目程式以使用 Lake Formation 憑證

您可以將爬蟲程式設定為使用 AWS Lake Formation 憑證，來存取 Amazon S3 資料存放區，或在相同 AWS 帳戶或其他 AWS 帳戶中具有基礎 Amazon S3 位置的資料型錄資料表。如果爬蟲程式和資料型錄資料表位於同一帳戶中，您可以將現有的資料型錄資料表設定為爬蟲程式的目標。目前，使用 Data Catalog 資料表作為編目程式的目標時，僅允許具有單一型錄資料表的單一型錄目標。

注意

將資料型錄資料表定義為爬蟲程式目標時，請確定資料型錄資料表的基礎位置是 Amazon S3 位置。使用 Lake Formation 憑證的爬蟲程式僅支援具有基礎 Amazon S3 位置的資料型錄目標。

當爬蟲程式和已註冊的 Amazon S3 位置或資料型錄資料表位於同一帳戶 (帳戶內網路爬取) 時，需要進行設定

若要允許爬蟲程式使用 Lake Formation 憑證存取資料存放區或資料型錄資料表，您需要向 Lake Formation 註冊資料位置。此外，爬蟲程式的 IAM 角色必須具備從 Amazon S3 儲存貯體註冊所在的目的地讀取資料的許可。

您可以使用 AWS 管理主控台或 AWS Command Line Interface (AWS CLI) 完成下列設定步驟。

AWS 管理主控台

在設定爬蟲程式以存取爬蟲程式來源之前，請先向 Lake Formation 註冊資料存放區或資料型錄的資料位置。在 Lake Formation 主控台 (https://console.aws.amazon.com/lakeformation/) 中，將 Amazon S3 位置註冊為爬蟲程式定義所在的 AWS 帳戶中資料湖根的位置。如需詳細資訊，請參閱 Registering an Amazon S3 location (註冊 Amazon S3 位置)。
向用於爬蟲程式執行的 IAM 角色授與 Data location (資料位置) 許可，以便爬蟲程式可以從 Lake Formation 中的目的地讀取資料。如需詳細資訊，請參閱 Granting data location permissions (same account) (授與資料位置許可 (相同帳戶))。
將爬蟲程式角色存取許可 (Create) 授與指定作為輸出資料庫的資料庫。如需詳細資訊，請參閱 Granting database permissions using the Lake Formation console and the named resource method (使用 Lake Formation 主控台和具名資源方法授與資料庫許可)。
在 IAM 主控台 (https://console.aws.amazon.com/iam/) 中，建立爬蟲程式的 IAM 角色。將 lakeformation:GetDataAccess 政策新增至該角色。
在 AWS Glue 主控台 (https://console.aws.amazon.com/glue/) 中，在設定爬蟲程式時，選取選項 Use Lake Formation credentials for crawling Amazon S3 data source (使用 Lake Formation 憑證對 Amazon S3 資料來源進行網路爬取)。

注意
accountId 欄位對於帳戶內網路爬取而言是選填的。

AWS CLI


aws glue --profile demo create-crawler --debug --cli-input-json '{
    "Name": "prod-test-crawler",
    "Role": "arn:aws:iam::111122223333:role/service-role/AWSGlueServiceRole-prod-test-run-role",
    "DatabaseName": "prod-run-db",
    "Description": "",
    "Targets": {
    "S3Targets":[
                {
                 "Path": "s3://amzn-s3-demo-bucket"
                }
                ]
                },
   "SchemaChangePolicy": {
      "UpdateBehavior": "LOG",
      "DeleteBehavior": "LOG"
  },
  "RecrawlPolicy": {
    "RecrawlBehavior": "CRAWL_EVERYTHING"
  },
  "LineageConfiguration": {
    "CrawlerLineageSettings": "DISABLE"
  },
  "LakeFormationConfiguration": {
    "UseLakeFormationCredentials": true,
    "AccountId": "111122223333"
  },
  "Configuration": {
           "Version": 1.0,
           "CrawlerOutput": {
             "Partitions": { "AddOrUpdateBehavior": "InheritFromTable" },
             "Tables": {"AddOrUpdateBehavior": "MergeNewColumns" }
           },
           "Grouping": { "TableGroupingPolicy": "CombineCompatibleSchemas" }
         },
  "CrawlerSecurityConfiguration": "",
  "Tags": {
    "KeyName": ""
  }
}'

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

指定資料表閾值

爬蟲程式和註冊的 Amazon S3 位置位於不同帳戶 (跨帳戶網路爬取) 時需要進行設定