例: Neptune DB インスタンスにデータをロードする

この例では、Amazon Neptune にデータをロードする方法を示しています。別途指定されていない限り、Neptune DB インスタンスと同じ Amazon Virtual Private Cloud (VPC) の Amazon Elastic Compute Cloud (Amazon EC2) インスタンスからの手順に従います。

データをロードする例の前提条件

始めるには以下のものが必要です。

Neptune DB インスタンス。

Neptune DB インスタンスの起動方法についての詳細は、Amazon Neptune クラスターの作成を参照してください。
データファイルを入れる Amazon Simple Storage Service (Amazon S3) バケット。

既存のバケットを使用することもできます。S3 バケットがない場合は、Amazon S3 入門ガイドのバケットの作成を参照してください。
ロードするグラフデータ (Neptune ローダーでサポートされている形式のいずれか):

Gremlin を使用してグラフのクエリを実行している場合、Neptune では、Gremlin ロードデータ形式の説明に従って、カンマ区切り値 (CSV) 形式でデータをロードできます。

openCypher を使用してグラフのクエリを実行している場合、Neptune では、openCypher データのロード形式の説明に従って、openCypher 固有の CSV 形式でデータをロードすることもできます。

SPARQL を使用している場合、Neptune は多くの RDF 形式でデータをロードできます (RDF ロードデータ形式を参照)。
S3 バケット内のデータファイルへのアクセスを許可する IAM ポリシーが設定されている Neptune DB インスタンスの IAM ロール。このポリシーが読み取りとリストアクセス許可を付与する必要があります。

Amazon S3 にアクセスできるロールを作成し、Neptune クラスターに関連付ける方法の詳細については、前提条件: IAM ロールと Amazon S3 アクセスを参照してください。

注記
Neptune Load API はデータファイルへの読み取りアクセスが必要です。IAM ポリシーに書き込みアクセスまたはバケット全体へのアクセスを許可する必要はありません。
Amazon S3 VPC エンドポイント詳細については「Amazon S3 VPC エンドポイントの作成」セクションを参照してください。

Amazon S3 VPC エンドポイントの作成

Neptune ローダーには Amazon S3 の VPC エンドポイントが必要です。

Amazon S3 のアクセスをセットアップするには

にサインイン AWS Management Console し、https://console.aws.amazon.com/vpc/ で Amazon VPC コンソールを開きます。
左のナビゲーションペインで [エンドポイント] を選択してください。
エンドポイントの作成 を選択します。
[Service Name] (サービス名) com.amazonaws.region.s3 を選択します。

注記
このリージョンが正しくない場合は、コンソールのリージョンが正しいことを確認してください。
[VPC] で、Neptune DB インスタンスが含まれている VPC を選択します。
クラスターに関連するサブネットに関連付けられているルートテーブルの横にあるチェックボックスをオンにします。ルートテーブルが 1 つだけの場合は、そのボックスを選択する必要があります。
エンドポイントの作成 を選択します。

エンドポイント作成の詳細については、Amazon VPC ユーザーガイドの VPC エンドポイントを参照してください。VPC エンドポイントの制限については、Amazon S3 の VPC エンドポイントを参照してください。

Neptune DB インスタンスにデータをロードするには

データファイルを Amazon S3 バケットにコピーします。S3 バケットは、データをロードするクラスターと同じ AWS リージョンに存在する必要があります。

次の AWS CLI コマンドを使用して、ファイルをバケットにコピーできます。

注記
このコマンドは、Amazon EC2 インスタンスから実行する必要はありません。
```
aws s3 cp data-file-name s3://bucket-name/object-key-name
```
注記
Amazon S3 で、オブジェクトキー名は、ファイル名を含むファイルの完全なパスです。
例: コマンド aws s3 cp datafile.txt s3://examplebucket/mydirectory/datafile.txt では、オブジェクトキー名は mydirectory/datafile.txt です。

または、を使用して AWS Management Console S3 バケットにファイルをアップロードすることもできます。Amazon S3 コンソール (https://console.aws.amazon.com/s3/) を開きバケットを選択ます。左上隅の [Upload] (アップロード) を選択して、ファイルをアップロードします。
コマンドラインウィンドウから次のように入力し、エンドポイント、Amazon S3 パス、フォーマット、IAM ロール ARN の正しい値を使用して Neptune ローダーを実行します。

format パラメータには、Gremlin の場合は csv、openCypher の場合は opencypher、または RDF の場合は ntriples、nquads、turtle、および rdfxml のいずれかの値を指定できます。他のパラメータについての詳細は、「Neptune ローダーコマンド」を参照してください。

Neptune DB インスタンスのホスト名を見つける方法については、Amazon Neptune エンドポイントに接続するセクションを参照してください。

region パラメータの値はクラスターおよび S3 バケットのリージョンと一致する必要があります。

Amazon Neptune は、次の AWS リージョンで使用できます。
- 米国東部 (バージニア北部): us-east-1
- 米国東部 (オハイオ): us-east-2
- 米国西部 (北カリフォルニア): us-west-1
- 米国西部 (オレゴン): us-west-2
- カナダ (中部): ca-central-1
- カナダ西部 (カルガリー): ca-west-1
- 南米 (サンパウロ): sa-east-1
- 欧州 (ストックホルム): eu-north-1
- 欧州 (スペイン): eu-south-2
- 欧州 (アイルランド): eu-west-1
- 欧州 (ロンドン): eu-west-2
- 欧州 (パリ): eu-west-3
- 欧州 (フランクフルト): eu-central-1
- 中東 (バーレーン): me-south-1
- 中東 (アラブ首長国連邦): me-central-1
- イスラエル (テルアビブ): il-central-1
- アフリカ (ケープタウン): af-south-1
- アジアパシフィック (香港): ap-east-1
- アジアパシフィック (東京): ap-northeast-1
- アジアパシフィック (ソウル): ap-northeast-2
- アジアパシフィック (大阪): ap-northeast-3
- アジアパシフィック (シンガポール): ap-southeast-1
- アジアパシフィック (シドニー): ap-southeast-2
- アジアパシフィック (ジャカルタ): ap-southeast-3
- アジアパシフィック (メルボルン): ap-southeast-4
- アジアパシフィック (マレーシア): ap-southeast-5
- アジアパシフィック (ムンバイ): ap-south-1
- アジアパシフィック (ハイデラバード): ap-south-2
- 中国 (北京): cn-north-1
- 中国 (寧夏): cn-northwest-1
- AWS GovCloud (米国西部): us-gov-west-1
- AWS GovCloud (米国東部): us-gov-east-1
AWS CLI
```
aws neptunedata start-loader-job \
  --endpoint-url https://your-neptune-endpoint:port \
  --source "s3://bucket-name/object-key-name" \
  --format "format" \
  --iam-role-arn "arn:aws:iam::account-id:role/role-name" \
  --s3-bucket-region "region" \
  --no-fail-on-error \
  --parallelism "MEDIUM" \
  --no-update-single-cardinality-properties \
  --queue-request \
  --dependencies "load_A_id" "load_B_id"
```
詳細については、 AWS CLI 「コマンドリファレンス」のstart-loader-job」を参照してください。
SDK
```
import boto3
from botocore.config import Config

client = boto3.client(
    'neptunedata',
    endpoint_url='https://your-neptune-endpoint:port',
    config=Config(read_timeout=None, retries={'total_max_attempts': 1})
)

response = client.start_loader_job(
    source='s3://bucket-name/object-key-name',
    format='format',
    iamRoleArn='arn:aws:iam::account-id:role/role-name',
    s3BucketRegion='region',
    failOnError=False,
    parallelism='MEDIUM',
    updateSingleCardinalityProperties=False,
    queueRequest=True,
    dependencies=['load_A_id', 'load_B_id']
)

print(response)
```
awscurl
```
awscurl https://your-neptune-endpoint:port/loader \
  --region us-east-1 \
  --service neptune-db \
  -X POST \
  -H 'Content-Type: application/json' \
  -d '{
        "source" : "s3://bucket-name/object-key-name",
        "format" : "format",
        "iamRoleArn" : "arn:aws:iam::account-id:role/role-name",
        "region" : "region",
        "failOnError" : "FALSE",
        "parallelism" : "MEDIUM",
        "updateSingleCardinalityProperties" : "FALSE",
        "queueRequest" : "TRUE",
        "dependencies" : ["load_A_id", "load_B_id"]
      }'
```
注記
この例では、 AWS 認証情報が環境で設定されていることを前提としています。us-east-1 を Neptune クラスターのリージョンに置き換えます。
curl
```
curl -X POST https://your-neptune-endpoint:port/loader \
  -H 'Content-Type: application/json' \
  -d '{
        "source" : "s3://bucket-name/object-key-name",
        "format" : "format",
        "iamRoleArn" : "arn:aws:iam::account-id:role/role-name",
        "region" : "region",
        "failOnError" : "FALSE",
        "parallelism" : "MEDIUM",
        "updateSingleCardinalityProperties" : "FALSE",
        "queueRequest" : "TRUE",
        "dependencies" : ["load_A_id", "load_B_id"]
      }'
```
Neptune クラスターへの IAM ロールの作成と関連付けの詳細については、前提条件: IAM ロールと Amazon S3 アクセスを参照してください。
注記
ロードリクエストパラメータの詳細については、Neptune ローダーのリクエストパラメータを参照してください。概要:
source パラメータは、単一のファイルまたはフォルダを指す Amazon S3 URl を受け取ります。フォルダを指定すると、Neptune はフォルダ内のすべてのデータファイルをロードします。
フォルダには複数の頂点ファイルおよび複数のエッジファイルが含まれている場合があります。
URI は、以下の形式のいずれかになります。
- s3://bucket_name/object-key-name
- https://s3.amazonaws.com/bucket_name/object-key-name
- https://s3-us-east-1.amazonaws.com/bucket_name/object-key-name
この format パラメータは、次のいずれかになります。
- Gremlin プロパティグラフの Gremlin CSV 形式 (csv)
- openCypher プロパティグラフの openCypher CSV 形式 (opencypher)
- RDF の N -Triples (ntriples) 形式 / SPARQL
- RDF の N-Quads (nquads) 形式 / SPARQL
- RDF の RDF/XML (rdfxml) 形式 / SPARQL
- RDF の Turtle (turtle) 形式 / SPARQL
オプションの parallelism パラメータを使用すると、バルクロードプロセスで使用されるスレッドの数を制限できます。LOW、MEDIUM、HIGH、または OVERSUBSCRIBE に設定できます。
updateSingleCardinalityProperties を "FALSE" に設定すると、エッジまたは単一カーディナリティ頂点プロパティにロードされているソースファイルに複数の値が指定されている場合、ローダーはエラーを返します。
queueRequest を "TRUE" に設定すると、ロードジョブが既に実行されている場合、キューにロードリクエストが配置されます。
dependencies パラメータは、既にキューに配置されている 1 つ以上のロードジョブが正常に完了した場合に、ロードリクエストを実行します。
Neptune ローダーは、ステータスを確認したり、ロードプロセスをキャンセルしたりできるジョブ id を返します。
```
{
    "status" : "200 OK",
    "payload" : {
        "loadId" : "ef478d76-d9da-4d94-8ff1-08d9d4863aa5"
    }
}
```
ステップ 3 の loadId でロードのステータスを取得するには、次のように入力します。
AWS CLI
```
aws neptunedata get-loader-job-status \
  --endpoint-url https://your-neptune-endpoint:port \
  --load-id ef478d76-d9da-4d94-8ff1-08d9d4863aa5
```
詳細については、 AWS CLI 「コマンドリファレンス」のget-loader-job-status」を参照してください。
SDK
```
import boto3
from botocore.config import Config

client = boto3.client(
    'neptunedata',
    endpoint_url='https://your-neptune-endpoint:port',
    config=Config(read_timeout=None, retries={'total_max_attempts': 1})
)

response = client.get_loader_job_status(
    loadId='ef478d76-d9da-4d94-8ff1-08d9d4863aa5'
)

print(response)
```
awscurl
```
awscurl 'https://your-neptune-endpoint:port/loader/ef478d76-d9da-4d94-8ff1-08d9d4863aa5' \
  --region us-east-1 \
  --service neptune-db
```
注記
この例では、 AWS 認証情報が環境で設定されていることを前提としています。us-east-1 を Neptune クラスターのリージョンに置き換えます。
curl
```
curl -G 'https://your-neptune-endpoint:port/loader/ef478d76-d9da-4d94-8ff1-08d9d4863aa5'
```
ロードのステータスにエラーが表示されている場合は、より詳細なステータスとエラーのリストをリクエストできます。詳細な説明と例については、Neptune Loader Get-Status API を参照してください。
(オプション) Load ジョブをキャンセルします。

ステップ 3 のジョブからの id とともに、次の Delete をローダージョブに入力します。
AWS CLI
```
aws neptunedata cancel-loader-job \
  --endpoint-url https://your-neptune-endpoint:port \
  --load-id ef478d76-d9da-4d94-8ff1-08d9d4863aa5
```
詳細については、 AWS CLI 「コマンドリファレンス」のcancel-loader-job」を参照してください。
SDK
```
import boto3
from botocore.config import Config

client = boto3.client(
    'neptunedata',
    endpoint_url='https://your-neptune-endpoint:port',
    config=Config(read_timeout=None, retries={'total_max_attempts': 1})
)

response = client.cancel_loader_job(
    loadId='ef478d76-d9da-4d94-8ff1-08d9d4863aa5'
)

print(response)
```
awscurl
```
awscurl 'https://your-neptune-endpoint:port/loader/ef478d76-d9da-4d94-8ff1-08d9d4863aa5' \
  --region us-east-1 \
  --service neptune-db \
  -X DELETE
```
注記
この例では、 AWS 認証情報が環境で設定されていることを前提としています。us-east-1 を Neptune クラスターのリージョンに置き換えます。
curl
```
curl -X DELETE 'https://your-neptune-endpoint:port/loader/ef478d76-d9da-4d94-8ff1-08d9d4863aa5'
```
この DELETE コマンドを使用すると、キャンセルが成功したときに HTTP コード 200 OK が返されます。

ロードが完了したロードジョブのファイルからのデータはロールバックされません。データは Neptune DB インスタンスに残ります。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

RDF データ形式

一括ロードの最適化

例: Neptune DB インスタンスにデータをロードする

データをロードする例の前提条件

注記

Amazon S3 VPC エンドポイントの作成

Amazon S3 のアクセスをセットアップするには

注記

Neptune DB インスタンスにデータをロードするには

注記

注記

注記

注記

注記

注記