

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Opsi format data untuk input dan output untuk Spark AWS Glue
<a name="aws-glue-programming-etl-format"></a>

Halaman ini menawarkan informasi tentang dukungan fitur dan parameter konfigurasi untuk format data yang didukung oleh AWS Glue for Spark. Lihat berikut ini untuk deskripsi penggunaan dan penerapan informasi ini. 

## Dukungan fitur di seluruh format data di AWS Glue
<a name="aws-glue-programming-etl-format-features"></a>

 Setiap format data dapat mendukung fitur AWS Glue yang berbeda. Fitur umum berikut mungkin atau mungkin tidak didukung berdasarkan jenis format Anda. Lihat dokumentasi untuk format data Anda untuk memahami cara memanfaatkan fitur kami untuk memenuhi kebutuhan Anda. 


|  |  | 
| --- |--- |
| Baca | AWS Glue dapat mengenali dan menafsirkan format data ini tanpa sumber daya tambahan, seperti konektor. | 
| Tulis | AWS Glue dapat menulis data dalam format ini tanpa sumber daya tambahan. Anda dapat menyertakan pustaka pihak ketiga dalam pekerjaan Anda dan menggunakan fungsi Apache Spark standar untuk menulis data, seperti yang Anda lakukan di lingkungan Spark lainnya. Untuk informasi selengkapnya tentang menyertakan pustaka, lihat[Menggunakan pustaka Python dengan Glue AWS](aws-glue-programming-python-libraries.md). | 
| Streaming dibaca | AWS Glue dapat mengenali dan menafsirkan format data ini dari Apache Kafka, Amazon Managed Streaming for Apache Kafka atau aliran pesan Amazon Kinesis. Kami mengharapkan aliran untuk menyajikan data dalam format yang konsisten, sehingga mereka dibaca sebagaiDataFrames. | 
| Kelompokkan file kecil | AWS Glue dapat mengelompokkan file bersama-sama untuk pekerjaan batch yang dikirim ke setiap node saat melakukan transformasi AWS Glue. Ini secara signifikan dapat meningkatkan kinerja untuk beban kerja yang melibatkan sejumlah besar file kecil. Untuk informasi selengkapnya, lihat [Membaca file input dalam kelompok yang lebih besar](grouping-input-files.md).  | 
| Bookmark tugas | AWS Glue dapat melacak kemajuan transformasi yang melakukan pekerjaan yang sama pada kumpulan data yang sama di seluruh pekerjaan yang dijalankan dengan bookmark pekerjaan. Ini dapat meningkatkan kinerja untuk beban kerja yang melibatkan kumpulan data di mana pekerjaan hanya perlu dilakukan pada data baru sejak pekerjaan terakhir dijalankan. Untuk informasi selengkapnya, lihat [Melacak data yang diproses menggunakan bookmark pekerjaan](monitor-continuations.md). | 

## Parameter yang digunakan untuk berinteraksi dengan format data di AWS Glue
<a name="aws-glue-programming-etl-format-parameters"></a>

Jenis koneksi AWS Glue tertentu mendukung beberapa `format` jenis, mengharuskan Anda menentukan informasi tentang format data Anda dengan `format_options` objek saat menggunakan metode seperti`GlueContext.write_dynamic_frame.from_options`.
+ `s3`— Untuk informasi selengkapnya, lihat Jenis dan opsi koneksi untuk ETL di AWS Glue:[Parameter koneksi S3](aws-glue-programming-etl-connect-s3-home.md#aws-glue-programming-etl-connect-s3). Anda juga dapat melihat dokumentasi untuk metode yang memfasilitasi jenis koneksi ini: [create\_dynamic\_frame\_from\_options](aws-glue-api-crawler-pyspark-extensions-glue-context.md#aws-glue-api-crawler-pyspark-extensions-glue-context-create_dynamic_frame_from_options) dan dengan Python dan [write\_dynamic\_frame\_from\_options](aws-glue-api-crawler-pyspark-extensions-glue-context.md#aws-glue-api-crawler-pyspark-extensions-glue-context-write_dynamic_frame_from_options) metode [Format def getSourceWith](glue-etl-scala-apis-glue-gluecontext.md#glue-etl-scala-apis-glue-gluecontext-defs-getSourceWithFormat) Scala yang sesuai dan. [Format def getSinkWith](glue-etl-scala-apis-glue-gluecontext.md#glue-etl-scala-apis-glue-gluecontext-defs-getSinkWithFormat) 

  
+ `kinesis`— Untuk informasi selengkapnya, lihat Jenis dan opsi koneksi untuk ETL di AWS Glue:[Parameter koneksi Kinesis](aws-glue-programming-etl-connect-kinesis-home.md#aws-glue-programming-etl-connect-kinesis). Anda juga dapat melihat dokumentasi untuk metode yang memfasilitasi jenis koneksi ini: [create\_data\_frame\_from\_options](aws-glue-api-crawler-pyspark-extensions-glue-context.md#aws-glue-api-crawler-pyspark-extensions-glue-context-create-dataframe-from-options) dan metode Scala yang sesuai. [def createDataFrame FromOptions](glue-etl-scala-apis-glue-gluecontext.md#glue-etl-scala-apis-glue-gluecontext-defs-createDataFrameFromOptions)
+ `kafka`— Untuk informasi selengkapnya, lihat Jenis dan opsi koneksi untuk ETL di AWS Glue:[Parameter koneksi Kafka](aws-glue-programming-etl-connect-kafka-home.md#aws-glue-programming-etl-connect-kafka). Anda juga dapat melihat dokumentasi untuk metode yang memfasilitasi jenis koneksi ini: [create\_data\_frame\_from\_options](aws-glue-api-crawler-pyspark-extensions-glue-context.md#aws-glue-api-crawler-pyspark-extensions-glue-context-create-dataframe-from-options) dan metode Scala yang sesuai. [def createDataFrame FromOptions](glue-etl-scala-apis-glue-gluecontext.md#glue-etl-scala-apis-glue-gluecontext-defs-createDataFrameFromOptions)

Beberapa jenis koneksi tidak memerlukan`format_options`. Misalnya, dalam penggunaan normal, koneksi JDBC ke database relasional mengambil data dalam format data tabular yang konsisten. Oleh karena itu, membaca dari koneksi JDBC tidak memerlukan. `format_options`

Beberapa metode untuk membaca dan menulis data dalam lem tidak diperlukan`format_options`. Misalnya, menggunakan `GlueContext.create_dynamic_frame.from_catalog` dengan AWS Glue crawler. Crawler menentukan bentuk data Anda. Saat menggunakan crawler, pengklasifikasi AWS Glue akan memeriksa data Anda untuk membuat keputusan cerdas tentang cara merepresentasikan format data Anda. Kemudian akan menyimpan representasi data Anda di AWS Glue Data Catalog, yang dapat digunakan dalam skrip AWS Glue ETL untuk mengambil data Anda dengan metode tersebut`GlueContext.create_dynamic_frame.from_catalog`. Crawler menghapus kebutuhan untuk menentukan informasi secara manual tentang format data Anda.

Untuk pekerjaan yang mengakses tabel yang AWS Lake Formation diatur, AWS Glue mendukung membaca dan menulis semua format yang didukung oleh tabel yang diatur Lake Formation. Untuk daftar format yang didukung saat ini untuk tabel yang AWS Lake Formation diatur, lihat [Catatan dan Pembatasan untuk Tabel yang Diatur](https://docs.aws.amazon.com/lake-formation/latest/dg/governed-table-restrictions.html) dalam Panduan *AWS Lake Formation Pengembang*.

**catatan**  
Untuk menulis Apache Parquet, AWS Glue ETL hanya mendukung penulisan ke tabel yang diatur dengan menentukan opsi untuk jenis penulis Parket kustom yang dioptimalkan untuk Dynamic Frames. Saat menulis ke tabel yang diatur dengan `parquet` format, Anda harus menambahkan kunci `useGlueParquetWriter` dengan nilai `true` dalam parameter tabel.

**Topics**
+ [Dukungan fitur di seluruh format data di AWS Glue](#aws-glue-programming-etl-format-features)
+ [Parameter yang digunakan untuk berinteraksi dengan format data di AWS Glue](#aws-glue-programming-etl-format-parameters)
+ [Menggunakan format CSV di AWS Glue](aws-glue-programming-etl-format-csv-home.md)
+ [Menggunakan format Parket di AWS Glue](aws-glue-programming-etl-format-parquet-home.md)
+ [Menggunakan format XHTML di AWS Glue](aws-glue-programming-etl-format-xml-home.md)
+ [Menggunakan format Avro di AWS Glue](aws-glue-programming-etl-format-avro-home.md)
+ [Menggunakan format GrokLog di Glue AWS](aws-glue-programming-etl-format-grokLog-home.md)
+ [Menggunakan format Ion di AWS Glue](aws-glue-programming-etl-format-ion-home.md)
+ [Menggunakan format JSON di AWS Glue](aws-glue-programming-etl-format-json-home.md)
+ [Menggunakan format ORC di AWS Glue](aws-glue-programming-etl-format-orc-home.md)
+ [Menggunakan kerangka kerja data lake dengan pekerjaan AWS Glue ETL](aws-glue-programming-etl-datalake-native-frameworks.md)
+ [Referensi konfigurasi bersama](#aws-glue-programming-etl-format-shared-reference)

## Referensi konfigurasi bersama
<a name="aws-glue-programming-etl-format-shared-reference"></a>

 Anda dapat menggunakan `format_options` nilai berikut dengan jenis format apa pun. 
+ `attachFilename`— Sebuah string dalam format yang sesuai untuk digunakan sebagai nama kolom. Jika Anda memberikan opsi ini, nama file sumber untuk catatan akan ditambahkan ke catatan. Nilai parameter akan digunakan sebagai nama kolom.
+ `attachTimestamp`— Sebuah string dalam format yang sesuai untuk digunakan sebagai nama kolom. Jika Anda memberikan opsi ini, waktu modifikasi file sumber untuk catatan akan ditambahkan ke catatan. Nilai parameter akan digunakan sebagai nama kolom.