翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
スカラー Python UDF を使用した Amazon Redshift クエリー結果の言語固有のソートの設定
Ethan Stark、Amazon Web Services
概要
このパターンは、スカラーの Python UDF (ユーザー定義関数) を使用した Amazon Redshift のクエリ結果について、大文字と小文字を区別しない言語ソートを設定する手順とサンプルコードを提供します。Amazon Redshift はバイナリ UTF-8 ソートに基づいて結果を返し、言語固有のソートをサポートしていないので、スカラー Python UDF を使用する必要があります。Python UDF は Python プログラム基づいた SQL 以外の処理コードで、データウェアハウス内で実行されます。1 つのクエリで SQL ステートメントを使用して Python UDF コードを実行できます。詳細については、Amazon Redshift ビッグデータブログ記事のUDFs の概要
このパターンのサンプルデータは、デモ用にトルコ語のアルファベットに基づいています。このパターンのスカラー Python UDF は、Amazon Redshift のデフォルトのクエリ結果をトルコ語の文字の言語順序に合うように構築されています。詳細については、このパターンの「追加情報」セクションにあるトルコ語の例を参照してください。このパターンのスカラー Python UDF を他の言語に変更できます。
前提条件と制限事項
前提条件
データベース、スキーマ、テーブルを含む Amazon Redshift クラスター
CREATE TABLEおよびCREATE FUNCTIONアクセス許可を持つ Amazon Redshift ユーザーPython 2.7
以降
機能制限
このパターンのクエリで使用される言語ソートでは、大文字と小文字は区別しません。
ツール
AWS のサービス
Amazon Redshift は、 AWS クラウド内でのフルマネージド型、ペタバイト規模のデータウェアハウスサービスです。Amazon Redshift はデータレイクと統合されているため、データを使用して、ビジネスと顧客に関する新しいインサイトを得られます。
その他のツール
Python (UDF) ユーザー定義関数
は、Python で記述し、SQL ステートメントで呼び出すことができる関数です。
エピック
| タスク | 説明 | 必要なスキル |
|---|---|---|
サンプルデータ用のテーブルを作成します。 | Amazon Redshift でテーブルを作成し、次の SQL ステートメントを使用してサンプルデータを挿入します。
注記サンプルデータのファーストネームには、トルコ語アルファベットの特殊文字が含まれます。この例のトルコ語の考慮事項については、このパターンの「追加情報」セクションにある「トルコ語の例」を参照してください。 | データエンジニア |
サンプルデータのデフォルトソートを確認します。 | Amazon Redshift のサンプルデータのデフォルトソートを確認するには、次のクエリを実行します。
このクエリは、以前に作成したテーブルからファーストネームのリストを返します。
デフォルトのバイナリ UTF-8 の順序がトルコ語の特殊文字の言語順序に対応していないため、クエリ結果の順序が正しくありません。 | データエンジニア |
スカラー Python UDF の作成 | スカラー Python UDF を作成するには、次の SQL コードを使用します。
| データエンジニア |
サンプルデータをクエリします。 | Python UDF を使用してサンプルデータをクエリするには、次の SQL クエリーを実行します:
これで、クエリはトルコ語の順序でサンプルデータを返すようになりました。
| データエンジニア |
関連リソース
「注文条件」 (Amazon Redshift ドキュメント)
「スカラー Python UDF の作成」 (Amazon Redshift ドキュメント)
追加情報
トルコ語の例
Amazon Redshift は、言語固有のソート順序ではなく、バイナリ UTF-8 の順序に基づいてクエリ結果を返します。つまり、トルコ語の文字を含む Amazon Redshift テーブルに対してクエリを実行した場合、クエリ結果はトルコ語の言語順でソートされません。トルコ語には、ラテン文字にはない 6 つの特殊文字 (、ı、、ö、ü) が含まれています。これらの特殊文字は、次のテーブルに示すように、UTF-8 バイナリの順序に基づいてソートされた結果セットの最後に配置されます。
UTF-8 バイナリの順序 | トルコ語の順序付け |
|---|---|
ある | ある |
b | b |
c | c |
d | çe (*) |
e | d |
f | e |
g | f |
h | g |
i | ğ (*) |
j | h |
k | ı (*) |
I | i |
m | j |
n | k |
o | I |
p | m |
r | n |
s | o |
t | ö (*) |
u | p |
v | r |
y | s |
z | ş (*) |
çe (*) | t |
ğ (*) | u |
ı (*) | ü (*) |
ö (*) | v |
ş (*) | y |
ü (*) | z |
注記
アスタリスク (*) はトルコ語の特殊文字を示します。
上の表が示すように、特殊文字 ç はトルコ語の順序では c と d の間ですが、UTF-8 バイナリの順序では z の後に表示されます。このモードのスカラー Python UDF は、トルコ語の特殊文字をラテン語の対応する文字に置き換えるために、次の文字置換辞書を使用します。
トルコ語の特殊文字 | ラテン語に相当する文字 |
|---|---|
ç | c~ |
ı | h~ |
ğ | g~ |
ö | o~ |
ş | s~ |
ü | u~ |
注記
トルコ語の特殊文字を置換するラテン文字の末尾には、チルダ (~) 文字が追加されます。
スカラー Python UDF 関数を変更する
スカラー Python UDF 関数が locate パラメータを受け入れ、マルチトランザクション辞書をサポートするように、このスキーマに基づいて変更するには、次の SQL コードを使用します:
CREATE OR REPLACE FUNCTION collate_sort (value varchar, locale varchar) RETURNS varchar IMMUTABLE AS $$ def sort_str(val): import string # Turkish Dictionary if locale == 'tr-TR': dictionary = { 'I': 'ı', 'ı': 'h~', 'İ': 'i', 'Ş': 's~', 'ş': 's~', 'Ğ': 'g~', 'ğ': 'g~', 'Ü': 'u~', 'ü': 'u~', 'Ö': 'o~', 'ö': 'o~', 'Ç': 'c~', 'ç': 'c~' } # German Dictionary if locale == 'de-DE': dictionary = { .... .... } for key, value in dictionary.items(): val = val.replace(key, value) return val.lower() return sort_str(value) $$ LANGUAGE plpythonu;
次のコード例では、変更された Python UDF をクエリする方法を示しています。
SELECT first_name FROM my_table ORDER BY collate_order(first_name, 'tr-TR');