本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
爬蟲程式 API
爬蟲程式 API 說明 AWS Glue 爬蟲程式資料類型,以及用於建立、刪除、更新和列出爬蟲程式的 API。
資料類型
Crawler 結構
指定爬蟲程式,以檢驗資料來源並使用分類器嘗試判斷其結構描述。如果成功,爬蟲程式會將與資料來源有關的中繼資料記錄到 AWS Glue Data Catalog。
欄位
-
Name– UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,需符合Single-line string pattern。爬蟲程式的名稱。
-
Role– UTF-8 字串。用來存取 Amazon Simple Storage Service (Amazon S3) 資料等客戶資源 IAM 角色的 Amazon Resource Name (ARN)。
-
Targets– CrawlerTargets 物件。待編目的目標集合。
-
DatabaseName– UTF-8 字串。爬蟲程式輸出存放所在的資料庫名稱。
-
Description– 描述字串,長度不可超過 2048 個位元組,需符合URI address multi-line string pattern。爬蟲程式的描述。
-
Classifiers– UTF-8 字串陣列。UTF-8 字串的清單,可藉由這些字串指定要與爬蟲程式建立關聯的自訂分類器。
-
RecrawlPolicy– RecrawlPolicy 物件。一種政策,指定是否要再次網路爬取整個資料集,或只網路爬取自上次執行爬蟲程式後新增的資料夾。
-
SchemaChangePolicy– SchemaChangePolicy 物件。指定爬蟲程式更新及刪除行為的政策。
-
LineageConfiguration– LineageConfiguration 物件。指定是否為爬蟲程式啟用資料歷程的組態。
-
State– UTF-8 字串 (有效值:READY|RUNNING|STOPPING)。指出爬蟲程式是否正在執行,或是否正在等待執行。
-
TablePrefix– UTF-8 字串,長度不可超過 128 個位元組。新增到所建立資料表名稱之前的字首。
-
Schedule– 排程 物件。如為排程的爬蟲程式,也就是爬蟲程式執行的排程。
-
CrawlElapsedTime– 數字 (long)。如果爬蟲程式正在執行,包含爬蟲程式上次啟動後經過的總時間。
-
CreationTime– 時間戳記。爬蟲程式建立的時間。
-
LastUpdated– 時間戳記。爬蟲程式上次更新的時間。
-
LastCrawl– LastCrawlInfo 物件。最後一次編目的狀態,以及發生錯誤時的可能錯誤資訊。
-
Version– 數字 (long)。爬蟲程式的版本。
-
Configuration– UTF-8 字串。爬蟲程式組態資訊。此版本的 JSON 字串可讓使用者指定爬蟲程式的各種行為。如需詳細資訊,請參閱設定爬蟲程式組態選項。
-
CrawlerSecurityConfiguration– UTF-8 字串,長度不可超過 128 個位元組。此爬蟲程式要使用的
SecurityConfiguration結構。 -
LakeFormationConfiguration– LakeFormationConfiguration 物件。指定爬蟲程式是否應使用爬蟲程式的 AWS Lake Formation 登入資料,而非 IAM 角色登入資料。
Schedule 結構
排程物件,使用 cron 陳述式來將事件排程。
欄位
-
ScheduleExpression– UTF-8 字串。用來指定排程的
cron表達式 (請參閱適用於任務與爬蟲程式的依時排程。例如,如果要每天在 12:15 UTC 執行某項動作,您可以指定:cron(15 12 * * ? *)。 -
State– UTF-8 字串 (有效值:SCHEDULED|NOT_SCHEDULED|TRANSITIONING)。排程的狀態。
CrawlerTargets 結構
指定要編目的資料存放區。
欄位
-
S3Targets– 一個 S3Target 物件陣列。指定 Amazon Simple Storage Service (Amazon S3) 的目標。
-
JdbcTargets– 一個 JdbcTarget 物件陣列。指定 JDBC 目標。
-
MongoDBTargets– 一個 MongoDBTarget 物件陣列。指定 Amazon DocumentDB 或 MongoDB 目標。
-
DynamoDBTargets– 一個 DynamoDBTarget 物件陣列。指定 Amazon DynamoDB 的目標。
-
CatalogTargets– 一個 CatalogTarget 物件陣列。指定 AWS Glue Data Catalog 目標。
-
DeltaTargets– 一個 DeltaTarget 物件陣列。指定 Delta 資料存放區目標。
-
IcebergTargets– 一個 IcebergTarget 物件陣列。指定 Apache Iceberg 資料存放區目標。
-
HudiTargets– 一個 HudiTarget 物件陣列。指定 Apache Hudi 資料存放區目標。
S3Target 結構
指定 Amazon Simple Storage Service (Amazon S3) 中資料存放區。
欄位
-
Path– UTF-8 字串。至 Amazon S3 目標的路徑。
-
Exclusions– UTF-8 字串陣列。用於排除於編目的 glob 模式清單。如需詳細資訊,請參閱使用爬蟲程式建立資料表目錄。
-
ConnectionName– UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 2,048 個位元組。連線的名稱,允許任務或爬蟲程式在 Amazon Virtual Private Cloud 環境 (Amazon VPC) 內存取 Amazon S3 中的資料。
-
SampleSize– 數字 (整數)。設定在資料集中網路爬取範例檔案時,每個分葉資料夾中要編目的檔案數目。如果未設定,則會網路爬取所有檔案。有效值是介於 1 到 249 之間的整數。
-
EventQueueArn– UTF-8 字串。有效的 Amazon SQS ARN。例如
arn:aws:sqs:region:account:sqs。 -
DlqEventQueueArn– UTF-8 字串。有效的 Amazon 無法投遞 SQS ARN。例如
arn:aws:sqs:region:account:deadLetterQueue。
S3DeltaCatalogTarget 結構
指定在 AWS Glue Data Catalog 中寫入 Delta Lake 資料來源的目標。
欄位
-
Name– 必要:UTF-8 字串,需符合Custom string pattern #63。資料目標的名稱。
-
Inputs– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。輸入到資料目標的節點。
-
PartitionKeys– UTF-8 字串陣列。指定使用一系列索引鍵的原生分割。
-
Table– 必要:UTF-8 字串,需符合Custom string pattern #61。要寫入之資料庫中資料表的名稱。
-
Database– 必要:UTF-8 字串,需符合Custom string pattern #61。要寫入之資料庫的名稱。
-
AdditionalOptions– 金鑰值對的映射陣列。每個金鑰都是 UTF-8 字串,需符合 Custom string pattern #61。
每個值都是 UTF-8 字串,需符合 Custom string pattern #61。
指定連接器的其他連接選項。
-
SchemaChangePolicy– CatalogSchemaChangePolicy 物件。可以針對爬蟲程式指定更新行為的政策。
-
AutoDataQuality– AutoDataQuality 物件。指定是否自動啟用 S3 Delta 型錄目標的資料品質評估。設為
true時,會在寫入操作期間自動執行資料品質檢查。 -
OutputSchemas– 一個 GlueSchema 物件陣列。指定 S3 Delta 型錄目標的資料結構描述。
S3DeltaDirectTarget 結構
指定寫入 Delta Lake 資料來源的目標 Amazon S3。
欄位
-
Name– 必要:UTF-8 字串,需符合Custom string pattern #63。資料目標的名稱。
-
Inputs– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。輸入到資料目標的節點。
-
PartitionKeys– UTF-8 字串陣列。指定使用一系列索引鍵的原生分割。
-
Path– 必要:UTF-8 字串,需符合Custom string pattern #61。要寫入 Delta Lake 資料來源的 Amazon S3 路徑。
-
Compression– 必要:UTF-8 字串 (有效值:uncompressed="UNCOMPRESSED"|snappy="SNAPPY")。指定資料的壓縮方式。一般來說,如果資料具有標準副檔名,則不需要此項目。可能值為
"gzip"和"bzip"。 -
NumberTargetPartitions– UTF-8 字串。指定跨 Amazon S3 分佈 Delta Lake 資料集檔案的目標分區數目。
-
Format– 必要:UTF-8 字串 (有效值:json="JSON"|csv="CSV"|avro="AVRO"|orc="ORC"|parquet="PARQUET"|hudi="HUDI"|delta="DELTA"|iceberg="ICEBERG"|hyper="HYPER"|xml="XML")。指定目標的資料輸出格式。
-
AdditionalOptions– 金鑰值對的映射陣列。每個金鑰都是 UTF-8 字串,需符合 Custom string pattern #61。
每個值都是 UTF-8 字串,需符合 Custom string pattern #61。
指定連接器的其他連接選項。
-
SchemaChangePolicy– DirectSchemaChangePolicy 物件。可以針對爬蟲程式指定更新行為的政策。
-
AutoDataQuality– AutoDataQuality 物件。指定是否自動啟用 S3 Delta 直接目標的資料品質評估。設為
true時,會在寫入操作期間自動執行資料品質檢查。
JdbcTarget 結構
指定要編目的 JDBC 資料存放區。
欄位
-
ConnectionName– UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 2,048 個位元組。用來連接到 JDBC 目標的連線名稱。
-
Path– UTF-8 字串。JDBC 目標的路徑。
-
Exclusions– UTF-8 字串陣列。用於排除於編目的 glob 模式清單。如需詳細資訊,請參閱使用爬蟲程式建立資料表目錄。
-
EnableAdditionalMetadata– UTF-8 字串陣列。指定值
RAWTYPES或COMMENTS,以在表格回應中啟用其他中繼資料。RAWTYPES提供本機層級的資料類型。COMMENTS提供與資料庫中的資料欄或資料表關聯的註解。若您不需要其他中繼資料,請讓欄位保持空白。
MongoDBTarget 結構
指定要網路爬取的 Amazon DocumentDB 資料庫或 MongoDB 資料存放區。
欄位
-
ConnectionName– UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 2,048 個位元組。用來連接到 Amazon DocumentDB 或 MongoDB 目標的連線名稱。
-
Path– UTF-8 字串。Amazon DocumentDB 或 MongoDB 目標 (資料庫/集合) 的路徑。
-
ScanAll– 布林值。指出是否掃描所有記錄,還是從資料表中取樣資料列。當資料表不是高傳輸量資料表時,掃描所有記錄可能需要很長的時間。
一個
true值代表會掃描所有記錄,而一個false值代表會取樣記錄。如果未指定任何值,則預設值為true。
DynamoDBTarget 結構
指定要抓取的 Amazon DynamoDB 資料表。
欄位
-
Path– UTF-8 字串。所要抓取 DynamoDB 資料表的名稱。
-
scanAll– 布林值。指出是否掃描所有記錄,還是從資料表中取樣資料列。當資料表不是高傳輸量資料表時,掃描所有記錄可能需要很長的時間。
一個
true值代表會掃描所有記錄,而一個false值代表會取樣記錄。如果未指定任何值,則預設值為true。 -
scanRate– 數字 (雙位數)。AWS Glue 爬蟲程式要使用的已設定讀取容量單位百分比。讀取容量單位是 DynamoDB 定義的術語,此數值可作為每秒可在該資料表上執行的讀取次數速率限制符號。
有效值為 null 值或介於 0.1 到 1.5 之間的值。當使用者未提供值,且預設為已設定讀取容量單位的 0.5 (針對已佈建的資料表),或最大設定讀取容量單位的 0.25 (針對使用隨需模式的資料表) 時,系統會使用 Null 值。
DeltaTarget 結構
指定用於網路爬取一個或多個 Delta 資料表的 Delta 資料存放區。
欄位
-
DeltaTables– UTF-8 字串陣列。Delta 資料表的 Amazon S3 路徑清單。
-
ConnectionName– UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 2,048 個位元組。用來連接到 Delta 資料表目標的連線名稱。
-
WriteManifest– 布林值。指定是否將資訊清單檔案寫入 Delta 資料表路徑。
-
CreateNativeDeltaTable– 布林值。指定爬蟲程式是否要建立原生資料表,以便與支援直接查詢 Delta 交易記錄日誌的查詢引擎整合。
IcebergTarget 結構
指定 Apache Iceberg 資料來源,其中 Iceberg 資料表存放在 Amazon S3中。
欄位
-
Paths– UTF-8 字串陣列。包含 Iceberg 中繼資料資料夾做為 的一或多個 Amazon S3 路徑
s3://bucket/prefix。 -
ConnectionName– UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 2,048 個位元組。用來連線到 Iceberg 目標的連線名稱。
-
Exclusions– UTF-8 字串陣列。用於排除於編目的 glob 模式清單。如需詳細資訊,請參閱使用爬蟲程式建立資料表目錄。
-
MaximumTraversalDepth– 數字 (整數)。爬蟲程式可以周遊的 Amazon S3 路徑深度上限,以探索 Amazon S3 路徑中的 Iceberg 中繼資料資料夾。用來限制爬蟲程式執行時間。
HudiTarget 結構
指定 Apache Hudi 資料來源。
欄位
-
Paths– UTF-8 字串陣列。Hudi Amazon S3 的位置字串陣列,每個字串都會指出 Hudi 資料表中繼資料檔案所在的根資料夾。Hudi 資料夾可能位於根資料夾的子資料夾中。
爬蟲程式將掃描路徑下所有資料夾中的 Hudi 資料夾。
-
ConnectionName– UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 2,048 個位元組。用來連線到 Hudi 目標的連線名稱。如果您的 Hudi 檔案存放在需要 VPC 授權的儲存貯體中,則可以在此處設定其連線屬性。
-
Exclusions– UTF-8 字串陣列。用於排除於編目的 glob 模式清單。如需詳細資訊,請參閱使用爬蟲程式建立資料表目錄。
-
MaximumTraversalDepth– 數字 (整數)。爬蟲程式可以周遊的 Amazon S3 路徑深度上限,以探索 Amazon S3 路徑中的 Hudi 中繼資料資料夾。用來限制爬蟲程式執行時間。
CatalogTarget 結構
指定 AWS Glue Data Catalog 目標。
欄位
-
DatabaseName– 必要:UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,且需符合Single-line string pattern。要同步的資料庫名稱。
-
Tables– 必要:UTF-8 字串的陣列,至少要有 1 個字串。要同步的資料表清單。
-
ConnectionName– UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 2,048 個位元組。配對使用
Catalog連接類型與NETWORK連接類型時,Amazon S3 支援的資料目錄資料表的連接名稱將作為編目的目標。 -
EventQueueArn– UTF-8 字串。有效的 Amazon SQS ARN。例如
arn:aws:sqs:region:account:sqs。 -
DlqEventQueueArn– UTF-8 字串。有效的 Amazon 無法投遞 SQS ARN。例如
arn:aws:sqs:region:account:deadLetterQueue。
CrawlerMetrics 結構
指定爬蟲程式的指標。
欄位
-
CrawlerName– UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,需符合Single-line string pattern。爬蟲程式的名稱。
-
TimeLeftSeconds– 數字 (雙精度浮點數),不可大於 None (無)。完成執行中爬蟲程式的預估剩餘時間。
-
StillEstimating– 布林值。假如爬蟲程式仍在預估完成執行所需要的時間,將顯示 True。
-
LastRuntimeSeconds– 數字 (雙精度浮點數),不可大於 None (無)。爬蟲程式最近一次執行的持續時間 (以秒為單位)。
-
MedianRuntimeSeconds– 數字 (雙精度浮點數),不可大於 None (無)。此爬蟲程式執行的中位數持續時間 (以秒為單位)。
-
TablesCreated– 數字 (整數),不可大於 None (無)。此爬蟲程式建立的資料表數量。
-
TablesUpdated– 數字 (整數),不可大於 None (無)。此爬蟲程式更新的資料表數量。
-
TablesDeleted– 數字 (整數),不可大於 None (無)。此爬蟲程式刪除的資料表數量。
CrawlerHistory 結構
包含爬蟲程式的執行資訊。
欄位
-
CrawlId– UTF-8 字串。每次網路爬取的 UUID 識別碼。
-
State– UTF-8 字串 (有效值:RUNNING|COMPLETED|FAILED|STOPPED)。網路爬取的狀態。
-
StartTime– 時間戳記。開始編目的日期和時間。
-
EndTime– 時間戳記。網路爬取結束的日期和時間。
-
Summary– UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,需符合Single-line string pattern。JSON 中特定網路爬取的執行摘要。包含已新增、更新或刪除的目錄資料表和分割區。
-
ErrorMessage– 描述字串,長度不可超過 2048 個位元組,需符合URI address multi-line string pattern。如果發生錯誤,則為與此網路爬取相關聯的錯誤訊息。
-
LogGroup– UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 512 個位元組,且需符合 Log group string pattern。與編目相關聯的日誌群組。
-
LogStream– UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 512 個位元組,且需符合 Log-stream string pattern。與編目相關聯的日誌串流。
-
MessagePrefix– UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,需符合Single-line string pattern。此網路爬取相關 CloudWatch 訊息的字首。
-
DPUHour– 數字 (雙精度浮點數),不可大於 None (無)。網路爬取所使用的資料處理單位 (DPU) 的數目 (以小時為單位)。
CrawlsFilter 結構
欄位、比較運算子和值的清單,您可以用來篩選指定爬蟲程式的爬蟲程式執行。
欄位
-
FieldName– UTF-8 字串 (有效值:CRAWL_ID|STATE|START_TIME|END_TIME|DPU_HOUR)。用來篩選特定爬蟲程式的爬蟲程式執行的索引鍵。每個欄位名稱的有效值為:
-
CRAWL_ID:代表網路爬取之 UUID 識別碼的字串。 -
STATE:代表網路爬取狀態的字串。 -
START_TIME和END_TIME:時間戳記,以毫秒為單位。 -
DPU_HOUR:用於網路爬取的資料處理單位 (DPU) 小時數。
-
-
FilterOperator– UTF-8 字串 (有效值:GT|GE|LT|LE|EQ|NE)。對值進行操作的已定義比較程式。可用的運算子包括:
-
GT:大於。 -
GE:大於或等於。 -
LT:小於。 -
LE:小於或等於。 -
EQ:等於。 -
NE:不等於。
-
-
FieldValue– UTF-8 字串。在網路爬取欄位上提供用於比較的值。
SchemaChangePolicy 結構
可以針對爬蟲程式指定更新和刪除行為的政策。
欄位
-
UpdateBehavior– UTF-8 字串 (有效值:LOG|UPDATE_IN_DATABASE)。爬蟲程式找到變更結構描述時的更新行為。
-
DeleteBehavior– UTF-8 字串 (有效值:LOG|DELETE_FROM_DATABASE|DEPRECATE_IN_DATABASE)。爬蟲程式找到刪除物件時的刪除行為。
LastCrawlInfo 結構
關於最近一次編目的狀態和錯誤探索。
欄位
-
Status– UTF-8 字串 (有效值:SUCCEEDED|CANCELLED|FAILED)。最近一次編目的狀態。
-
ErrorMessage– 描述字串,長度不可超過 2048 個位元組,需符合URI address multi-line string pattern。如果發生錯誤,則為最後一次編目的錯誤資訊。
-
LogGroup– UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 512 個位元組,且需符合 Log group string pattern。最後一次編目的日誌群組。
-
LogStream– UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 512 個位元組,且需符合 Log-stream string pattern。最後一次編目的日誌串流。
-
MessagePrefix– UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,需符合Single-line string pattern。此爬蟲程式相關訊息的字首。
-
StartTime– 時間戳記。爬蟲程式開始的時間。
RecrawlPolicy 結構
在第一次網路爬取完成後網路爬取 Amazon S3 資料來源時,指定是要再次網路爬取整個資料集,還是只網路爬取自上次爬蟲程式執行以來新增的資料夾。如需詳細資訊,請參閱開發人員指南中的 AWS Glue中的增量網路爬取。
欄位
-
RecrawlBehavior– UTF-8 字串 (有效值:CRAWL_EVERYTHING|CRAWL_NEW_FOLDERS_ONLY|CRAWL_EVENT_MODE)。指定是否要再次網路爬取整個資料集,或只網路爬取自上次執行爬蟲程式後新增的資料夾。
值為
CRAWL_EVERYTHING指定再次網路爬取整個資料集。值為
CRAWL_NEW_FOLDERS_ONLY指定只網路爬取自上次執行爬蟲程式之後,已新增的資料夾。CRAWL_EVENT_MODE值會指定只網路爬取 Amazon S3 事件所識別的變更。
LineageConfiguration 結構
指定爬蟲程式的資料歷程組態設定。
欄位
-
CrawlerLineageSettings– UTF-8 字串 (有效值:ENABLE|DISABLE)。指定是否啟用爬蟲程式的資料歷程。有效的值如下:
-
ENABLE:啟用爬蟲程式的資料歷程
-
DISABLE:停用爬蟲程式的資料歷程
-
LakeFormationConfiguration 結構
指定爬蟲程式的 AWS Lake Formation 組態設定。
欄位
-
UseLakeFormationCredentials– 布林值。指定是否使用爬蟲程式的 AWS Lake Formation 登入資料,而非 IAM 角色登入資料。
-
AccountId– UTF-8 字串,長度不可超過 12 個位元組。跨帳戶網路爬取的必要項目。對於與目標資料相同的帳戶網路爬取,則可以將其保留為 null。
作業
CreateCrawler 動作 (Python: create_crawler)
建立新的爬蟲程式,為其指定目標、角色、組態和選用的排程。至少必須在 s3Targets 欄位、jdbcTargets 欄位或 DynamoDBTargets 欄位中指定一個抓取目標。
請求
-
Name– 必要:UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,且需符合Single-line string pattern。新爬蟲程式的名稱。
-
Role– 必要:UTF-8 字串。新爬蟲程式用來存取客戶資源的 IAM 角色或某 IAM 角色的 Amazon Resource Name (ARN)。
-
DatabaseName– UTF-8 字串。寫入結果的 AWS Glue 資料庫,例如:
arn:aws:daylight:us-east-1::database/sometable/*。 -
Description– 描述字串,長度不可超過 2048 個位元組,需符合URI address multi-line string pattern。新爬蟲程式的描述。
-
Targets– 必要:CrawlerTargets 物件。待編目的目標集合清單。
-
Schedule– UTF-8 字串。用來指定排程的
cron表達式 (請參閱適用於任務與爬蟲程式的依時排程。例如,如果要每天在 12:15 UTC 執行某項動作,您可以指定:cron(15 12 * * ? *)。 -
Classifiers– UTF-8 字串陣列。使用者已註冊的自訂分類器清單。依預設,所有內建分類器均包含在編目內,但這些自訂分類器一律覆寫特定分類的預設分類器。
-
TablePrefix– UTF-8 字串,長度不可超過 128 個位元組。用於為所建立之資料表建立目錄的資料表字首。
-
SchemaChangePolicy– SchemaChangePolicy 物件。爬蟲程式的更新和刪除行為政策。
-
RecrawlPolicy– RecrawlPolicy 物件。一種政策,指定是否要再次網路爬取整個資料集,或只網路爬取自上次執行爬蟲程式後新增的資料夾。
-
LineageConfiguration– LineageConfiguration 物件。指定爬蟲程式的資料歷程組態設定。
-
LakeFormationConfiguration– LakeFormationConfiguration 物件。指定爬蟲程式的 AWS Lake Formation 組態設定。
-
Configuration– UTF-8 字串。爬蟲程式組態資訊。此版本的 JSON 字串可讓使用者指定爬蟲程式的各種行為。如需詳細資訊,請參閱設定爬蟲程式組態選項。
-
CrawlerSecurityConfiguration– UTF-8 字串,長度不可超過 128 個位元組。此爬蟲程式要使用的
SecurityConfiguration結構。 -
Tags– 金鑰值對的對應陣列,不超過 50 對。每個金鑰均為 UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 128 個位元組。
每個值都是 UTF-8 字串,長度不可超過 256 個位元組。
要搭配此爬蟲程式要求使用的標籤。您可以使用標籤來限制對於爬蟲程式的存取情況。如需 中標籤的詳細資訊 AWS Glue,請參閱 開發人員指南中的 AWS 中的標籤 AWS Glue。
回應
無回應參數。
錯誤
InvalidInputExceptionAlreadyExistsExceptionOperationTimeoutExceptionResourceNumberLimitExceededException
DeleteCrawler 動作 (Python: delete_crawler)
從 移除指定的爬蟲程式 AWS Glue Data Catalog,除非爬蟲程式狀態為 RUNNING。
請求
-
Name– 必要:UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,且需符合Single-line string pattern。要移除之爬蟲程式的名稱。
回應
無回應參數。
錯誤
EntityNotFoundExceptionCrawlerRunningExceptionSchedulerTransitioningExceptionOperationTimeoutException
GetCrawler 動作 (Python: get_crawler)
擷取特定爬蟲程式的中繼資料。
請求
-
Name– 必要:UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,且需符合Single-line string pattern。要擷取中繼資料之爬蟲程式的名稱。
回應
-
Crawler– 爬蟲程式 物件。特定爬蟲程式的中繼資料。
錯誤
EntityNotFoundExceptionOperationTimeoutException
GetCrawlers 動作 (Python: get_crawlers)
從客戶帳戶中定義之所有爬蟲程式擷取中繼資料。
請求
-
MaxResults– 數字 (整數),不可小於 1,也不可以大於 1000。每次呼叫要傳回的爬蟲程式數量。
-
NextToken– UTF-8 字串。接續符記,如果這是接續要求。
回應
-
Crawlers– 一個 爬蟲程式 物件陣列。爬蟲程式中繼資料清單。
-
NextToken– UTF-8 字串。持續字元,如果傳回的清單沒有達到此客戶帳戶中定義的結尾。
錯誤
OperationTimeoutException
GetCrawlerMetrics 動作 (Python: get_crawler_metrics)
擷取指定爬蟲程式的指標。
請求
-
CrawlerNameList– UTF-8 字串的陣列,不可超過 100 個字串。要擷取指標之爬蟲程式的名稱清單。
-
MaxResults– 數字 (整數),不可小於 1,也不可以大於 1000。所要回傳清單的大小上限。
-
NextToken– UTF-8 字串。接續符記,如果這是接續呼叫。
回應
-
CrawlerMetricsList– 一個 CrawlerMetrics 物件陣列。指定爬蟲程式的指標清單。
-
NextToken– UTF-8 字串。接續字元,如果傳回的清單未包含最後一個可用指標。
錯誤
OperationTimeoutException
UpdateCrawler 動作 (Python: update_crawler)
更新爬蟲程式。如果爬蟲程式執行中,您必須先使用 StopCrawler 停止爬蟲程式,然後再更新。
請求
-
Name– 必要:UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,且需符合Single-line string pattern。新爬蟲程式的名稱。
-
Role– UTF-8 字串。新爬蟲程式用來存取客戶資源的 IAM 角色或某 IAM 角色的 Amazon Resource Name (ARN)。
-
DatabaseName– UTF-8 字串。存放結果的 AWS Glue 資料庫,例如:
arn:aws:daylight:us-east-1::database/sometable/*。 -
Description– UTF-8 字串,長度不可超過 2048 個位元組,且需符合 URI address multi-line string pattern。新爬蟲程式的描述。
-
Targets– CrawlerTargets 物件。待編目的目標清單。
-
Schedule– UTF-8 字串。用來指定排程的
cron表達式 (請參閱適用於任務與爬蟲程式的依時排程。例如,如果要每天在 12:15 UTC 執行某項動作,您可以指定:cron(15 12 * * ? *)。 -
Classifiers– UTF-8 字串陣列。使用者已註冊的自訂分類器清單。依預設,所有內建分類器均包含在編目內,但這些自訂分類器一律覆寫特定分類的預設分類器。
-
TablePrefix– UTF-8 字串,長度不可超過 128 個位元組。用於為所建立之資料表建立目錄的資料表字首。
-
SchemaChangePolicy– SchemaChangePolicy 物件。爬蟲程式的更新和刪除行為政策。
-
RecrawlPolicy– RecrawlPolicy 物件。一種政策,指定是否要再次網路爬取整個資料集,或只網路爬取自上次執行爬蟲程式後新增的資料夾。
-
LineageConfiguration– LineageConfiguration 物件。指定爬蟲程式的資料歷程組態設定。
-
LakeFormationConfiguration– LakeFormationConfiguration 物件。指定爬蟲程式的 AWS Lake Formation 組態設定。
-
Configuration– UTF-8 字串。爬蟲程式組態資訊。此版本的 JSON 字串可讓使用者指定爬蟲程式的各種行為。如需詳細資訊,請參閱設定爬蟲程式組態選項。
-
CrawlerSecurityConfiguration– UTF-8 字串,長度不可超過 128 個位元組。此爬蟲程式要使用的
SecurityConfiguration結構。
回應
無回應參數。
錯誤
InvalidInputExceptionVersionMismatchExceptionEntityNotFoundExceptionCrawlerRunningExceptionOperationTimeoutException
StartCrawler 動作 (Python: start_crawler)
使用指定的爬蟲程式開始編目,無論排程。如果爬蟲程式已經在執行中,則會傳回 CrawlerRunningException。
請求
-
Name– 必要:UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,且需符合Single-line string pattern。要啟動的爬蟲程式名稱。
回應
無回應參數。
錯誤
EntityNotFoundExceptionCrawlerRunningExceptionOperationTimeoutException
StopCrawler 動作 (Python: stop_crawler)
如果指定的爬蟲程式正在執行中,停止編目。
請求
-
Name– 必要:UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,且需符合Single-line string pattern。要停止的爬蟲程式名稱。
回應
無回應參數。
錯誤
EntityNotFoundExceptionCrawlerNotRunningExceptionCrawlerStoppingExceptionOperationTimeoutException
BatchGetCrawlers 動作 (Python: batch_get_crawlers)
為指定的爬蟲程式名稱清單,傳回資源中繼資料的清單。呼叫 ListCrawlers 操作之後,您便可以呼叫此操作來存取您已授與許可的資料。此操作支援所有 IAM 許可,包括使用標籤的許可條件。
請求
-
CrawlerNames– 必要:UTF-8 字串的陣列,不可超過 100 個字串。爬蟲程式名稱清單,可能是從
ListCrawlers操作傳回的名稱。
回應
-
Crawlers– 一個 爬蟲程式 物件陣列。爬蟲程式定義的清單。
-
CrawlersNotFound– UTF-8 字串的陣列,不可超過 100 個字串。未尋獲爬蟲程式的名稱清單。
錯誤
InvalidInputExceptionOperationTimeoutException
ListCrawlers 動作 (Python: list_crawlers)
擷取此 AWS 帳戶中所有爬蟲程式資源的名稱,或使用指定標籤的資源。您可運用此操作,查看帳戶下有哪些可用資源及其名稱。
此操作會接收您可在回應時做為篩選條件的選用 Tags 欄位,因此已標記的資源可分組進行擷取。如果您選擇使用標籤進行篩選,則此時只會擷取包含該標籤的資源。
請求
-
MaxResults– 數字 (整數),不可小於 1,也不可以大於 1000。所要回傳清單的大小上限。
-
NextToken– UTF-8 字串。接續符記,如果這是接續要求。
-
Tags– 金鑰值對的對應陣列,不超過 50 對。每個金鑰均為 UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 128 個位元組。
每個值都是 UTF-8 字串,長度不可超過 256 個位元組。
指定只傳回包含這些標籤的資源。
回應
-
CrawlerNames– UTF-8 字串的陣列,不可超過 100 個字串。這個帳戶下所有爬蟲程式的名稱,或是使用指定標籤的爬蟲程式。
-
NextToken– UTF-8 字串。接續字元,如果傳回的清單未包含最後一個可用指標。
錯誤
OperationTimeoutException
ListCrawls 動作 (Python:list_crawls)
傳回指定爬蟲程式的所有網路爬取。僅傳回自爬蟲程式歷史記錄功能啟動日期以來發生的網路爬取,而且最多只會保留 12 個月的網路爬取。不會傳回較舊的網路爬取。
您可以使用此 API 來:
-
擷取指定爬蟲程式的所有網路爬取。
-
在有限的計數內擷取指定爬蟲程式的所有網路爬取。
-
擷取特定時間範圍內指定爬蟲程式的所有網路爬取。
-
擷取具有特定狀態、網路爬取 ID 或 DPU 小時值的指定爬蟲程式的所有網路爬取。
請求
-
CrawlerName– 必要:UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,且需符合Single-line string pattern。您希望擷取其執行的爬蟲程式名稱。
-
MaxResults– 數字 (整數),不可小於 1,也不可以大於 1000。回傳結果的數量上限。預設值為 20,最大值為 100。
-
Filters– 一個 CrawlsFilter 物件陣列。依照您在下列
CrawlsFilter物件的清單中指定的條件篩選網路爬取。 -
NextToken– UTF-8 字串。接續符記,如果這是接續呼叫。
回應
-
Crawls– 一個 CrawlerHistory 物件陣列。CrawlerHistory物件的清單,代表符合您條件的網路爬取執行。 -
NextToken– UTF-8 字串。為一種接續符記,用於將傳回的符記清單分頁,而如果清單目前的區段不是最後區段就會傳回。
錯誤
EntityNotFoundExceptionOperationTimeoutExceptionInvalidInputException