AWS Glue で ORC 形式を使用する

AWS Glue はソースからデータを取得し、さまざまなデータ形式で保存および転送されたターゲットにデータを書き込みます。このドキュメントでは、データが ORC データ形式で保存または転送される場合に、AWS Glue でデータを使用する際に利用できる機能について説明します。

AWS Glue は、ORC 形式の使用をサポートしています。この形式は、パフォーマンス指向の列ベースのデータ形式です。標準局による形式の概要については、「Apache Orc」を参照してください。

AWS Glue を使用して、Amazon S3 およびストリーミングソースから ORC ファイルを読み取り、Amazon S3 に ORC ファイルを書き込むことができます。S3 から、ORC ファイルを含む bzip および gzip アーカイブを読み書きすることができます。このページで説明する設定ではなく、S3 接続パラメータ上で圧縮動作を設定します。

次の表は、ORC 形式のオプションをサポートする一般的な AWS Glue の機能を示しています。

読み込み	書き込み	ストリーミングの読み取り	小さなファイルのグループ化	ジョブのブックマーク
サポート	サポート対象	サポート	サポートされていません	サポート対象^*

^*AWS Glue バージョン 1.0+ でサポート

例: S3 から ORC ファイルまたはフォルダを読み取る

前提条件: 読み取る ORC ファイルまたはフォルダへの S3 パス (s3path) が必要です。

設定: 関数オプションで format="orc" を指定します。connection_options で、paths キーを使用して s3path を指定します。リーダーが S3 とやり取りする方法は、connection_options で設定できます。詳細については、AWS Glue: Amazon S3 接続のオプションのリファレンスの「ETL の接続タイプとオプション」を参照してください。

次の AWS Glue ETL スクリプトは、S3 から ORC ファイルまたはフォルダを読み取るプロセスを示しています。

例: ORC ファイルおよびフォルダを S3 に書き込む

前提条件: 初期化された DataFrame (dataFrame) または DynamicFrame (dynamicFrame) が必要です。また、予想される S3 出力パスである s3path も必要になります。

設定: 関数オプションで format="orc" を指定します。接続オプションでは、s3path を指定するための paths キーを使用します。ライターが S3 と対話する方法を、connection_options でさらに詳しく変更することができます。詳細については、AWS Glue: Amazon S3 接続のオプションのリファレンスの「ETL の入力および出力のデータ形式オプション」を参照してください。次のコード例は、プロセスを示しています。

ORC 設定リファレンス

format="orc" の format_options 値はありません。ただし、基になる SparkSQL コードで受け入れられるオプションは、connection_options マップパラメータを介して渡すことができます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

JSON

データレイクフレームワーク