本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
爬蟲程式排程器 API
爬蟲程式排程器 API 說明 AWS Glue 爬蟲程式資料類型,以及用於建立、刪除、更新和列出爬蟲程式的 API。
資料類型
Schedule 結構
排程物件,使用 cron 陳述式來將事件排程。
欄位
-
ScheduleExpression– UTF-8 字串。用來指定排程的
cron表達式 (請參閱適用於任務與爬蟲程式的依時排程。例如,如果要每天在 12:15 UTC 執行某項動作,您可以指定:cron(15 12 * * ? *)。 -
State– UTF-8 字串 (有效值:SCHEDULED|NOT_SCHEDULED|TRANSITIONING)。排程的狀態。
作業
UpdateCrawlerSchedule 動作 (Python: update_crawler_schedule)
使用 cron 表達式來更新爬蟲程式排程。
請求
-
CrawlerName– 必要:UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,且需符合Single-line string pattern。要更新排程之爬蟲程式的名稱。
-
Schedule– UTF-8 字串。更新的
cron表達式,用來指定排程 (請參閱適用於任務與爬蟲程式的依時排程。例如,如果要每天在 12:15 UTC 執行某項動作,您可以指定:cron(15 12 * * ? *)。
回應
無回應參數。
錯誤
EntityNotFoundExceptionInvalidInputExceptionVersionMismatchExceptionSchedulerTransitioningExceptionOperationTimeoutException
StartCrawlerSchedule 動作 (Python: start_crawler_schedule)
將指定爬蟲程式的排程狀態變更為 SCHEDULED (除非爬蟲程式已在執行中,或排程狀態已經是 SCHEDULED。)
請求
-
CrawlerName– 必要:UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,且需符合Single-line string pattern。要排程的爬蟲程式的名稱。
回應
無回應參數。
錯誤
EntityNotFoundExceptionSchedulerRunningExceptionSchedulerTransitioningExceptionNoScheduleExceptionOperationTimeoutException
StopCrawlerSchedule 動作 (Python: stop_crawler_schedule)
將指定爬蟲程式的排程狀態設定為 NOT_SCHEDULED,但如果爬蟲程式已在執行中,此動作不會停止爬蟲程式。
請求
-
CrawlerName– 必要:UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 255 個位元組,且需符合Single-line string pattern。要更新其排程狀態的爬蟲程式的名稱。
回應
無回應參數。
錯誤
EntityNotFoundExceptionSchedulerNotRunningExceptionSchedulerTransitioningExceptionOperationTimeoutException