Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Monitoraggio con parametri AWS Glue di osservabilità
Nota
I parametri di osservabilità AWS Glue sono disponibili in AWS Glue 4.0 e versioni successive.
Utilizza i parametri AWS Glue di osservabilità per generare approfondimenti su ciò che accade all'interno di AWS Glue per i processi di Apache Spark e migliorare la classificazione e l'analisi dei problemi. I parametri di osservabilità vengono visualizzati tramite i pannelli di controllo Amazon CloudWatch e possono essere utilizzati per aiutare a eseguire l'analisi delle cause principali degli errori e diagnosticare i rallentamenti delle prestazioni. È possibile ridurre il tempo impiegato per il debug dei problemi su larga scala così da poterti concentrare sulla risoluzione dei problemi in modo più rapido ed efficace.
L'osservabilità di AWS Glue fornisce parametri Amazon CloudWatch classificati nei seguenti quattro gruppi:
-
Affidabilità (ad esempio, classi di errori): identifica facilmente i motivi di errore più comuni in un determinato intervallo di tempo che potresti voler risolvere.
-
Prestazioni (ad esempio, asimmetria): individua un ostacolo prestazionale e applica tecniche di ottimizzazione. Ad esempio, quando riscontri un peggioramento delle prestazioni a causa dell'asimmetria del processo, potresti voler abilitare l'esecuzione delle query adattive Spark e ottimizzare la soglia di unione skew.
-
Velocità di trasmissione effettiva (ossia, velocità effettiva per sorgente/sink): monitora le tendenze delle letture e scritture dei dati. Puoi anche configurare allarmi Amazon CloudWatch in caso di anomalie.
-
Utilizzo delle risorse (ad esempio, personale, utilizzo della memoria e del disco): individuazione efficiente dei processi con un basso utilizzo della capacità. Potresti voler abilitare il dimensionamento automatico AWS Glue per questi processi.
Guida introduttiva ai parametri AWS Glue di osservabilità
Nota
I nuovi parametri sono abilitati per impostazione predefinita nella console AWS Glue Studio.
Per configurare i parametri di osservabilità in AWS Glue Studio:
-
Accedi alla console AWS Glue e scegli processi ETL dal menu della console.
-
Scegli un processo facendo clic sul suo nome nella sezione I tuoi processi.
-
Seleziona la scheda Job details (Dettagli del processo).
-
Scorri verso il basso e scegli Proprietà avanzate, quindi Parametri di osservabilità del processo.
Per abilitare i parametri AWS Glue di osservabilità tramite AWS CLI:
-
Aggiungi alla mappa
--default-argumentsil seguente valore-chiave nel file JSON di input:--enable-observability-metrics, true
Utilizzo dell'osservabilità AWS Glue
Poiché i parametri AWS Glue di osservabilità vengono forniti tramite Amazon CloudWatch, puoi utilizzare la console Amazon CloudWatch, la AWS CLI, l'SDK o l'API per interrogare i datapoint dei parametri di osservabilità. Consulta Utilizzo dell'osservabilità Glue per monitorare l'utilizzo delle risorse per ridurre i costi
Utilizzo dell'osservabilità AWS Glue nella console Amazon CloudWatch
Per interrogare e visualizzare i parametri nella console Amazon CloudWatch:
-
Apri la console Amazon CloudWatch e scegli Tutte i parametri.
-
In Spazi dei nomi personalizzati, seleziona AWS Glue.
-
Scegli Parametri di osservabilità del processo, Parametri di osservabilità per origine oppure Parametri di osservabilità per Sink.
-
Cerca il nome specifico del parametro, il nome del processo, l'ID di esecuzione del processo e selezionali.
-
Nella scheda Parametri nel grafico, configura la statistica, il periodo e altre opzioni che preferisci.
Per interrogare un parametro di osservabilità utilizzando AWS CLI:
-
Crea un file JSON di definizione dei parametri e sostituisci
your-Glue-job-nameeyour-Glue-job-run-idcon quelli pertinenti.$ cat multiplequeries.json [ { "Id": "avgWorkerUtil_0", "MetricStat": { "Metric": { "Namespace": "Glue", "MetricName": "glue.driver.workerUtilization", "Dimensions": [ { "Name": "JobName", "Value": "<your-Glue-job-name-A>" }, { "Name": "JobRunId", "Value": "<your-Glue-job-run-id-A>" }, { "Name": "Type", "Value": "gauge" }, { "Name": "ObservabilityGroup", "Value": "resource_utilization" } ] }, "Period": 1800, "Stat": "Minimum", "Unit": "None" } }, { "Id": "avgWorkerUtil_1", "MetricStat": { "Metric": { "Namespace": "Glue", "MetricName": "glue.driver.workerUtilization", "Dimensions": [ { "Name": "JobName", "Value": "<your-Glue-job-name-B>" }, { "Name": "JobRunId", "Value": "<your-Glue-job-run-id-B>" }, { "Name": "Type", "Value": "gauge" }, { "Name": "ObservabilityGroup", "Value": "resource_utilization" } ] }, "Period": 1800, "Stat": "Minimum", "Unit": "None" } } ] -
Eseguire il comando
get-metric-data:$ aws cloudwatch get-metric-data --metric-data-queries file: //multiplequeries.json \ --start-time '2023-10-28T18: 20' \ --end-time '2023-10-28T19: 10' \ --region us-east-1 { "MetricDataResults": [ { "Id": "avgWorkerUtil_0", "Label": "<your-label-for-A>", "Timestamps": [ "2023-10-28T18:20:00+00:00" ], "Values": [ 0.06718750000000001 ], "StatusCode": "Complete" }, { "Id": "avgWorkerUtil_1", "Label": "<your-label-for-B>", "Timestamps": [ "2023-10-28T18:50:00+00:00" ], "Values": [ 0.5959183673469387 ], "StatusCode": "Complete" } ], "Messages": [] }
Parametri di osservabilità
L'osservabilità di AWS Glue profila e invia i seguenti parametri a Amazon CloudWatch ogni 30 secondi e alcuni di questi parametri sono visibili nella pagina sul monitoraggio dell'esecuzione dei processi AWS Glue Studio.
| Parametro | Descrizione | Categoria |
|---|---|---|
| glue.driver.skewness.stage |
Categoria parametro: job_performance Indice di asimmetria di esecuzione delle fasi spark: questa metrica è un indicatore della durata massima dell'attività in una determinata fase rispetto alla durata media dell'attività in questa fase. Rileva l'asimmetria di esecuzione, che potrebbe essere causata dall'asimmetria dei dati di input o da una trasformazione (ad es. join asimmetrico). I valori di questo parametro rientrano nell'intervallo [0, infinito], dove 0 indica il rapporto tra il tempo di esecuzione massimo e quello medio delle attività. Tra tutte le attività nella fase, è inferiore a un determinato fattore di asimmetria della stessa. Il fattore predefinito di asimmetria della fase è “5” e può essere sovrascritto tramite la configurazione spark: spark.metrics.conf.driver.source.glue.jobPerformance.skewnessFactor Un valore di asimmetria della fase pari a 1 significa che il rapporto è il doppio del fattore di asimmetria della fase. Il valore dell'asimmetria della fase viene aggiornato ogni 30 secondi per riflettere l'asimmetria corrente. Il valore alla fine della fase riflette l'asimmetria della fase finale. Questa metrica a livello di fase viene utilizzata per calcolare la metrica a livello di lavoro Dimensioni valide: JobName (il nome del processo AWS Glue), JobRunId (l'ID JobRun o ALL), Type (conteggio) e ObservabilityGroup (job_performance) Statistiche valide: media, massimo, minimo, percentuale Unità: numero |
job_performance |
| glue.driver.skewness.job |
Categoria parametro: job_performance L'asimmetria del lavoro è l'asimmetria ponderata massima di tutte le fasi. L'asimmetria della fase (glue.driver.skewness.stage) viene ponderata in base alla durata della fase. In questo modo si evita il caso limite in cui una fase molto asimmetrica viene eseguita per un periodo molto breve rispetto ad altre fasi (quindi la sua asimmetria non è significativa per le prestazioni complessive del processo e non vale la pena cercare di correggerla). Questo parametro viene aggiornato al completamento di ogni fase, perciò l'ultimo valore riflette l'effettiva asimmetria complessiva del processo. Dimensioni valide: JobName (il nome del processo AWS Glue), JobRunId (l'ID JobRun o ALL), Type (conteggio) e ObservabilityGroup (job_performance) Statistiche valide: media, massimo, minimo, percentuale Unità: numero |
job_performance |
| glue.succeed.ALL |
Categoria parametro: errore Numero totale di processi eseguiti con successo, per completare il quadro delle categorie di errori Dimensioni valide: JobName (il nome del processo AWS Glue), JobRunId (l'ID JobRun o ALL), Type (conteggio) e ObservabilityGroup (errore) Statistiche valide: SOMMA Unità: numero |
error |
| glue.error.ALL |
Categoria parametro: errore Numero totale di errori di esecuzione del processo, per completare il quadro delle categorie di errori Dimensioni valide: JobName (il nome del processo AWS Glue), JobRunId (l'ID JobRun o ALL), Type (conteggio) e ObservabilityGroup (errore) Statistiche valide: SOMMA Unità: numero |
error |
| glue.error.[error category] |
Categoria parametro: errore Questo insieme di parametri viene aggiornato solo se l'esecuzione di un processo fallisce. La categorizzazione degli errori facilita la classificazione e il debug. Quando l'esecuzione di un processo fallisce, la causa dell'errore viene classificata e il parametro della categoria di errore corrispondente viene impostato su 1. Ciò consente di eseguire l'analisi degli errori nel corso tempo, nonché quella relativa a tutti i processi, per identificare le categorie di errore più comuni e risolverle. AWS Glue include 28 categorie di errore, tra cui OUT_OF_MEMORY (driver ed executor), AUTORIZZAZIONE, SINTASSI e LIMITAZIONE (DELLA LARGHEZZA DI BANDA DELLA RETE). Le categorie di errore includono anche COMPILAZIONE, AVVIO e TIMEOUT. Dimensioni valide: JobName (il nome del processo AWS Glue), JobRunId (l'ID JobRun o ALL), Type (conteggio) e ObservabilityGroup (errore) Statistiche valide: SOMMA Unità: numero |
error |
| glue.driver.workerUtilization |
Categoria parametro: resource_utilization La percentuale dei worker allocati che vengono effettivamente utilizzati. Se non va bene, può essere utile il dimensionamento automatico. Dimensioni valide: JobName (il nome del processo AWS Glue), JobRunId (l'ID JobRun o ALL), Type (conteggio) e ObservabilityGroup (resource_utilization) Statistiche valide: media, massimo, minimo, percentuale Unità: percentuale |
resource_utilization |
| glue.driver.memory.heap.[available | used] |
Categoria parametro: resource_utilization La memoria heap del driver disponibile/utilizzata durante l'esecuzione del processo. Ciò è utile per comprendere le tendenze di utilizzo della memoria, soprattutto nel tempo, il che può contribuire a evitare potenziali errori e a eseguirne il debug. Dimensioni valide: JobName (il nome del processo AWS Glue), JobRunId (l'ID JobRun o ALL), Type (conteggio) e ObservabilityGroup (resource_utilization) Statistiche valide: media Unità: byte |
resource_utilization |
| glue.driver.memory.heap.used.percentage |
Categoria parametro: resource_utilization La memoria heap del driver utilizzata (%) durante l'esecuzione del processo. Ciò è utile per comprendere le tendenze di utilizzo della memoria, soprattutto nel tempo, il che può contribuire a evitare potenziali errori e a eseguirne il debug. Dimensioni valide: JobName (il nome del processo AWS Glue), JobRunId (l'ID JobRun o ALL), Type (conteggio) e ObservabilityGroup (resource_utilization) Statistiche valide: media Unità: percentuale |
resource_utilization |
| glue.driver.memory.non-heap.[available | used] |
Categoria parametro: resource_utilization La memoria non heap del driver disponibile/utilizzata durante l'esecuzione del processo. Ciò è utile per comprendere le tendenze di utilizzo della memoria, soprattutto nel tempo, il che può contribuire a evitare potenziali errori e a eseguirne il debug. Dimensioni valide: JobName (il nome del processo AWS Glue), JobRunId (l'ID JobRun o ALL), Type (conteggio) e ObservabilityGroup (resource_utilization) Statistiche valide: media Unità: byte |
resource_utilization |
| glue.driver.memory.non-heap.used.percentage |
Categoria parametro: resource_utilization La memoria non heap del driver utilizzata (%) durante l'esecuzione del processo. Ciò è utile per comprendere le tendenze di utilizzo della memoria, soprattutto nel tempo, il che può contribuire a evitare potenziali errori e a eseguirne il debug. Dimensioni valide: JobName (il nome del processo AWS Glue), JobRunId (l'ID JobRun o ALL), Type (conteggio) e ObservabilityGroup (resource_utilization) Statistiche valide: media Unità: percentuale |
resource_utilization |
| glue.driver.memory.total.[available | used] |
Categoria parametro: resource_utilization La memoria totale del driver disponibile/utilizzata durante l'esecuzione del processo. Ciò è utile per comprendere le tendenze di utilizzo della memoria, soprattutto nel tempo, il che può contribuire a evitare potenziali errori e a eseguirne il debug. Dimensioni valide: JobName (il nome del processo AWS Glue), JobRunId (l'ID JobRun o ALL), Type (conteggio) e ObservabilityGroup (resource_utilization) Statistiche valide: media Unità: byte |
resource_utilization |
| glue.driver.memory.total.used.percentage |
Categoria parametro: resource_utilization La memoria totale del driver utilizzata (%) durante l'esecuzione del processo. Ciò è utile per comprendere le tendenze di utilizzo della memoria, soprattutto nel tempo, il che può contribuire a evitare potenziali errori e a eseguirne il debug. Dimensioni valide: JobName (il nome del processo AWS Glue), JobRunId (l'ID JobRun o ALL), Type (conteggio) e ObservabilityGroup (resource_utilization) Statistiche valide: media Unità: percentuale |
resource_utilization |
| glue.ALL.memory.heap.[available | used] |
Categoria parametro: resource_utilization La memoria heap degli executor disponibile/utilizzata. ALL significa tutti gli executor. Dimensioni valide: JobName (il nome del processo AWS Glue), JobRunId (l'ID JobRun o ALL), Type (conteggio) e ObservabilityGroup (resource_utilization) Statistiche valide: media Unità: byte |
resource_utilization |
| glue.ALL.memory.heap.used.percentage |
Categoria parametro: resource_utilization La memoria heap degli executor utilizzata (%). ALL significa tutti gli executor. Dimensioni valide: JobName (il nome del processo AWS Glue), JobRunId (l'ID JobRun o ALL), Type (conteggio) e ObservabilityGroup (resource_utilization) Statistiche valide: media Unità: percentuale |
resource_utilization |
| glue.ALL.memory.non-heap.[available | used] |
Categoria parametro: resource_utilization La memoria non heap degli executor disponibile/utilizzata. ALL significa tutti gli executor. Dimensioni valide: JobName (il nome del processo AWS Glue), JobRunId (l'ID JobRun o ALL), Type (conteggio) e ObservabilityGroup (resource_utilization) Statistiche valide: media Unità: byte |
resource_utilization |
| glue.ALL.memory.non-heap.used.percentage |
Categoria parametro: resource_utilization La memoria non heap degli executor utilizzata (%). ALL significa tutti gli executor. Dimensioni valide: JobName (il nome del processo AWS Glue), JobRunId (l'ID JobRun o ALL), Type (conteggio) e ObservabilityGroup (resource_utilization) Statistiche valide: media Unità: percentuale |
resource_utilization |
| glue.ALL.memory.total.[available | used] |
Categoria parametro: resource_utilization La memoria totale degli executor disponibile/utilizzata. ALL significa tutti gli executor. Dimensioni valide: JobName (il nome del processo AWS Glue), JobRunId (l'ID JobRun o ALL), Type (conteggio) e ObservabilityGroup (resource_utilization) Statistiche valide: media Unità: byte |
resource_utilization |
| glue.ALL.memory.total.used.percentage |
Categoria parametro: resource_utilization La memoria totale degli executor utilizzata (%). ALL significa tutti gli executor. Dimensioni valide: JobName (il nome del processo AWS Glue), JobRunId (l'ID JobRun o ALL), Type (conteggio) e ObservabilityGroup (resource_utilization) Statistiche valide: media Unità: percentuale |
resource_utilization |
| glue.driver.disk.[available_GB | used_GB] |
Categoria parametro: resource_utilization Lo spazio su disco del driver disponibile/utilizzato durante l'esecuzione del processo. Ciò è utile per comprendere le tendenze di utilizzo del disco, soprattutto nel tempo, il che può contribuire a evitare potenziali errori e a eseguire il debug di quelli relativi alla presenza di spazio non sufficiente sul disco. Dimensioni valide: JobName (il nome del processo AWS Glue), JobRunId (l'ID JobRun o ALL), Type (conteggio) e ObservabilityGroup (resource_utilization) Statistiche valide: media Unità: gigabyte |
resource_utilization |
| glue.driver.disk.used.percentage] |
Categoria parametro: resource_utilization Lo spazio su disco del driver disponibile/utilizzato durante l'esecuzione del processo. Ciò è utile per comprendere le tendenze di utilizzo del disco, soprattutto nel tempo, il che può contribuire a evitare potenziali errori e a eseguire il debug di quelli relativi alla presenza di spazio non sufficiente sul disco. Dimensioni valide: JobName (il nome del processo AWS Glue), JobRunId (l'ID JobRun o ALL), Type (conteggio) e ObservabilityGroup (resource_utilization) Statistiche valide: media Unità: percentuale |
resource_utilization |
| glue.ALL.disk.[available_GB | used_GB] |
Categoria parametro: resource_utilization Lo spazio su disco degli executor disponibile/utilizzato. ALL significa tutti gli executor. Dimensioni valide: JobName (il nome del processo AWS Glue), JobRunId (l'ID JobRun o ALL), Type (conteggio) e ObservabilityGroup (resource_utilization) Statistiche valide: media Unità: gigabyte |
resource_utilization |
| glue.ALL.disk.used.percentage |
Categoria parametro: resource_utilization Lo spazio su disco degli executor disponibile/utilizzato/utilizzato (%). ALL significa tutti gli executor. Dimensioni valide: JobName (il nome del processo AWS Glue), JobRunId (l'ID JobRun o ALL), Type (conteggio) e ObservabilityGroup (resource_utilization) Statistiche valide: media Unità: percentuale |
resource_utilization |
| glue.driver.bytesRead |
Categoria parametro: velocità di trasmissione effettiva Il numero di byte letti per ogni origine di input in questa esecuzione del processo e per TUTTE le origini. È possibile così comprendere il volume dei dati e le relative variazioni nel tempo, il che consente di risolvere problemi come l'asimmetria dei dati. Dimensioni valide: JobName (il nome del processo AWS Glue), JobRunId (l'ID JobRun o ALL), Type (conteggio), ObservabilityGroup (resource_utilization) e Source (posizione dei dati di origine) Statistiche valide: media Unità: byte |
velocità di trasmissione effettiva |
| glue.driver.[recordsRead | filesRead] |
Categoria parametro: velocità di trasmissione effettiva Il numero di record/file letti per ogni origine di input in questa esecuzione del processo e per TUTTE le origini. È possibile così comprendere il volume dei dati e le relative variazioni nel tempo, il che consente di risolvere problemi come l'asimmetria dei dati. Dimensioni valide: JobName (il nome del processo AWS Glue), JobRunId (l'ID JobRun o ALL), Type (conteggio), ObservabilityGroup (resource_utilization) e Source (posizione dei dati di origine) Statistiche valide: media Unità: numero |
velocità di trasmissione effettiva |
| glue.driver.partitionsRead |
Categoria parametro: velocità di trasmissione effettiva Il numero di partizioni lette per ogni origine di input di Amazon S3 in questa esecuzione del processo e per TUTTE le origini. Dimensioni valide: JobName (il nome del processo AWS Glue), JobRunId (l'ID JobRun o ALL), Type (conteggio), ObservabilityGroup (resource_utilization) e Source (posizione dei dati di origine) Statistiche valide: media Unità: numero |
velocità di trasmissione effettiva |
| glue.driver.bytesWrittten |
Categoria parametro: velocità di trasmissione effettiva Il numero di byte scritti per ogni sink di output in questa esecuzione del processo e per TUTTI i sink. È possibile così comprendere il volume dei dati e il modo in cui evolve nel tempo, il che consente di risolvere problemi come l'asimmetria dell'elaborazione. Dimensioni valide: JobName (il nome del processo AWS Glue), JobRunId (l'ID JobRun o ALL), Type (conteggio), ObservabilityGroup (resource_utilization) e Sink (posizione dei dati sink) Statistiche valide: media Unità: byte |
velocità di trasmissione effettiva |
| glue.driver.[recordsWritten | filesWritten] |
Categoria parametro: velocità di trasmissione effettiva Il numero di record/file scritti per ogni sink di output in questa esecuzione del processo e per TUTTI i sink. È possibile così comprendere il volume dei dati e il modo in cui evolve nel tempo, il che consente di risolvere problemi come l'asimmetria dell'elaborazione. Dimensioni valide: JobName (il nome del processo AWS Glue), JobRunId (l'ID JobRun o ALL), Type (conteggio), ObservabilityGroup (resource_utilization) e Sink (posizione dei dati sink) Statistiche valide: media Unità: numero |
velocità di trasmissione effettiva |
Categorie di errore
| Categorie di errore | Descrizione |
|---|---|
| COMPILATION_ERROR | Gli errori si verificano durante la compilazione del codice Scala. |
| CONNECTION_ERROR | Gli errori si verificano durante la connessione a un servizio/host remoto/servizio di database, ecc. |
| DISK_NO_SPACE_ERROR |
Gli errori si verificano quando non c'è più spazio nel disco sul driver/executor. |
| OUT_OF_MEMORY_ERROR | Gli errori si verificano quando non c'è più spazio nella memoria sul driver/executor. |
| IMPORT_ERROR | Gli errori si verificano durante l'importazione delle dipendenze. |
| INVALID_ARGUMENT_ERROR | Gli errori si verificano quando gli argomenti di input sono non validi o illegali. |
| PERMISSION_ERROR | Gli errori si verificano in mancanza di autorizzazioni per il servizio, per i dati, ecc. |
| RESOURCE_NOT_FOUND_ERROR |
Gli errori si verificano quando i dati, la posizione, ecc. non esistono. |
| QUERY_ERROR | Gli errori derivano dall'esecuzione delle query di Spark SQL. |
| SYNTAX_ERROR | Gli errori si verificano quando nello script è presente un errore di sintassi. |
| THROTTLING_ERROR | Gli errori si verificano quando si supera la limitazione della concorrenza del servizio o il limite della quota di servizio. |
| DATA_LAKE_FRAMEWORK_ERROR | Gli errori derivano da framework data lake supportati nativamente da AWS Glue, come Hudi, Iceberg, ecc. |
| UNSUPPORTED_OPERATION_ERROR | Gli errori si verificano quando si eseguono operazioni non supportate. |
| RESOURCES_ALREADY_EXISTS_ERROR | Gli errori si verificano quando una risorsa da creare o aggiungere esiste già. |
| GLUE_INTERNAL_SERVICE_ERROR | Gli errori si verificano quando c'è un problema interno al servizio AWS Glue. |
| GLUE_OPERATION_TIMEOUT_ERROR | Gli errori si verificano quando un'operazione AWS Glue è in timeout. |
| GLUE_VALIDATION_ERROR | Gli errori si verificano quando un valore richiesto non può essere convalidato per un processo AWS Glue. |
| GLUE_JOB_BOOKMARK_VERSION_MISMATCH_ERROR | Gli errori si verificano quando uno stesso processo è in esecuzione su uno stesso bucket di origine e scrive contemporaneamente nella stessa destinazione o in una destinazione diversa (simultaneità >1) |
| LAUNCH_ERROR | Gli errori si verificano durante la fase di avvio del processo AWS Glue. |
| DYNAMODB_ERROR | Gli errori generici derivano dal servizio Amazon DynamoDB. |
| GLUE_ERROR | Gli errori generici derivano dal servizio AWS Glue. |
| LAKEFORMATION_ERROR | Gli errori generici derivano dal servizio AWS Lake Formation. |
| REDSHIFT_ERROR | Gli errori generici derivano dal servizio Amazon Redshift. |
| S3_ERROR | Gli errori generici derivano dal servizio Amazon S3. |
| SYSTEM_EXIT_ERROR | Errore generico di uscita dal sistema. |
| TIMEOUT_ERROR | Gli errori generici si verificano quando il processo fallisce per timeout dell'operazione. |
| UNCLASSIFIED_SPARK_ERROR | Gli errori generici derivano da Spark. |
| UNCLASSIFIED_ERROR | Categoria di errore predefinita. |
Limitazioni
Nota
glueContext deve essere inizializzato per poter pubblicare i parametri.
Nella dimensione di origine, il valore corrisponde al percorso o al nome della tabella Amazon S3, a seconda del tipo di origine. Inoltre, se l'origine è JDBC e viene utilizzata l'opzione di query, la stringa di query viene impostata nella dimensione di origine. Se il valore supera i 500 caratteri, viene ridotto per rispettare questo limite. Di seguito sono riportate le limitazioni del valore:
-
I caratteri non ASCII verranno rimossi.
Se il nome dell'origine non contiene alcun carattere ASCII, verrà convertito in <non-ASCII input>.
Limitazioni e considerazioni relative ai parametri della velocità di trasmissione effettiva
-
DataFrame e DynamicFrame basato su DataFrame(ad es. JDBC, lettura da parquet su Amazon S3) sono supportati, mentre DynamicFrame basato su RDD (ad es. lettura di csv e json su Amazon S3, ecc.) non è supportato. Tecnicamente, tutte le letture e le scritture visibili sull'interfaccia utente di Spark sono supportate.
-
Il parametro
recordsReadviene emesso se l'origine dati è una tabella di catalogo e il formato è JSON, CSV, testo o Iceberg. -
I parametri
glue.driver.throughput.recordsWritten,glue.driver.throughput.bytesWritteneglue.driver.throughput.filesWrittennon sono disponibili nelle tabelle JDBC e Iceberg. -
I parametri potrebbero subire ritardi. Se il processo termina in circa un minuto, potrebbero non esserci parametri relativi alla velocità di trasmissione effettiva in Amazon CloudWatch Metrics.