本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 AWS Glue 中使用 grokLog 格式
AWS Glue 會從各來源擷取資料,並將資料寫入以各種資料格式儲存和傳輸的目標。如果您的資料是以鬆散結構的純文字格式儲存或傳輸,本文件將向您介紹透過 Grok 模式在 AWS Glue 中使用資料的可用功能。
AWS Glue 支援使用 Grok 模式。Grok 模式類似於規則表達式擷取群組。它們辨識純文字檔案中字元序列的模式,並為其提供類型和用途。在 Glue AWS,其主要用途是讀取日誌。有關作者對 Grok 的介紹,請參閱 Logstash Reference: Grok filter plugin
| 讀取 | 寫入 | 串流讀取 | 對小型檔案進行分組 | 任務書籤 |
|---|---|---|---|---|
| 支援 | 不適用 | 支援 | 支援 | 不支援 |
grokLog 組態參考
可以使用下列的 format_options 值搭配 format="grokLog":
logFormat— 指定符合記錄格式的 Grok 模式。customPatterns— 指定此處使用的其他 Grok 模式。MISSING— 指定用於識別遺漏值的訊號。預設值為'-'。LineCount— 指定各個日誌記錄中的行數。預設為'1',目前也只支援單行記錄。StrictMode— 布林值,指定是否要開啟嚴格模式。在嚴格模式下,讀者不可自動轉換類型或復原。預設值為"false"。