Amazon Nova の抽出

このクイックスタートガイドは、SageMaker AI で教師ありファインチューニング (SFT) を使用して Amazon Nova モデル抽出を開始するのに役立ちます。

トピック

概念
前提条件
データ拡張の設定
SageMaker トレーニングジョブを開始する
拡張データ品質の検証

概念

モデル抽出は、大規模で高度なモデルから小規模で効率的なモデルに知識を転送する方法です。Amazon Nova モデルでは、より大きな「教師」モデル (Amazon Nova Pro や Amazon Nova Premier など) は、その機能をより小さな「学生」モデル (Amazon Nova Lite や Amazon Nova Micro など) に渡します。これにより、より少ないリソースを使用しながら高いパフォーマンスを維持するカスタマイズされたモデルが作成されます。

主要コンポーネント

留出プロセスには主に 2 種類のモデルが含まれます。

キャッチャーモデルはナレッジソースとして機能し、以下が含まれます。

Amazon Nova Pro (amazon.nova-pro-v1:0)
Amazon Nova Premier (amazon.nova-premier-v1:0)

学生モデルは知識を受け取り、実装します。

Amazon Nova Lite (amazon.nova-lite-v1:0:300k)
Amazon Nova Micro (amazon.nova-micro-v1:0:128k)
Amazon Nova Pro (amazon.nova-pro-v1:0:300k) - Amazon Nova Premier を教師として使用する場合にのみ使用できます

ユースケース

モードの抽出は、次の場合に特に有益です。

アプリケーションには、厳格なレイテンシー、コスト、精度の要件があります。
特定のタスクにはカスタムモデルが必要ですが、十分な高品質のラベル付きトレーニングデータがありません。
より小さなモデルの効率を維持しながら、高度なモデルのパフォーマンスを一致させたいとします。

前提条件

AWS アカウント Amazon Nova モデルと適切なサービスクォータ (最小 6 つの P5 インスタンスと 1 つの R5 インスタンス）。
SageMaker トレーニングジョブのアクセス許可を持つ IAM ロール。
トレーニングデータと出力を保存する Amazon S3 バケット。

データ拡張の設定

データ拡張フェーズでは、SageMaker トレーニングジョブを使用して、教師モデルを使用して高品質のトレーニングデータを生成します。このセクションでは、セットアッププロセスと要件について詳しく説明します。

IAM ロール

IAM ロールを作成してポリシーをアタッチするには、「ロールの作成とポリシーのアタッチ (コンソール）」を参照してください。を使用する場合は AWS CLI、create-role および attach-role-policy の手順に従います。詳細については、SageMaker AI デベロッパーガイド」の「SageMaker AI 実行ロールの使用方法」を参照してください。 SageMaker

参照用のコマンドの例を次に示します。

SageMaker AI 実行ロールを作成する

ロールは、SageMaker AI、Amazon Bedrock がこのロールを引き受けることを許可する信頼関係で作成されます。これにより、バッチ推論ジョブを実行するときに、これらのサービスがユーザーに代わって動作できるようになります。


aws iam create-role \
 --role-name NovaCustomizationRole \
 --assume-role-policy-document '{
 "Version": "2012-10-17",
 "Statement": [
 {
 "Effect": "Allow",
 "Principal": {
 "Service": ["sagemaker.amazonaws.com",
            "bedrock.amazonaws.com"]
 },
 "Action": "sts:AssumeRole"
 }
 ]
}'

必要なポリシーをアタッチする


# Attach AmazonSageMakerFullAccess
 aws iam attach-role-policy \
 --role-name NovaCustomizationRole \
 --policy-arn arn:aws:iam::aws:policy/AmazonSageMakerFullAccess

# Attach AmazonBedrockFullAccess
 aws iam attach-role-policy \
 --role-name NovaCustomizationRole \
 --policy-arn arn:aws:iam::aws:policy/AmazonBedrockFullAccess

 # Attach S3 access policy
 aws iam attach-role-policy \
 --role-name NovaCustomizationRole \
 --policy-arn arn:aws:iam::aws:policy/AmazonS3FullAccess
 
# Attach AmazonEC2FullAccess
 aws iam attach-role-policy \
 --role-name NovaCustomizationRole \
 --policy-arn arn:aws:iam::aws:policy/AmazonEC2FullAccess
 
# Attach AmazonEC2ContainerRegistryFullAccess
 aws iam attach-role-policy \
 --role-name NovaCustomizationRole \
 --policy-arn arn:aws:iam::aws:policy/AmazonEC2ContainerRegistryFullAccess
 
# Attach AmazonEC2ContainerRegistryFullAccess
 aws iam attach-role-policy \
 --role-name NovaCustomizationRole \
 --policy-arn arn:aws:iam::aws:policy/CloudWatchLogsFullAccess

次のインラインポリシーを、Distillation Container に必要なカスタマー実行ロールにアタッチします。

AWS KMS アクセス許可: 暗号化されたリソースへのアクセスや暗号化 AWS キーの管理に必要な Key Management Service とやり取りすることをロールに許可します。
IAM:PassRole: このアクセス許可は、多くの場合、あるサービスがこのロールを別のサービスに渡す必要がある場合に必要です。これは、 AWS サービス統合の一般的なパターンです。


aws iam put-role-policy \
 --role-name NovaCustomizationRole \
 --policy-name Distillation-Additional-Permissions\
 --policy-document '{
 "Version": "2012-10-17",
 "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "kms:*"
            ],
            "Resource": "*"
        },
        {
            "Effect": "Allow",
            "Action": [
                "iam:PassRole"
            ],
            "Resource": "*"
        }
    ]
}

Amazon VPC 設定

を使用して SageMaker AI トレーニングジョブの Amazon VPC 設定を作成するには AWS Management Console、SageMaker トレーニング用のプライベート VPC を設定する (コンソール）」の手順に従います。

新しい Amazon VPC を作成する


Name: Distillation-VPC
IPv4 CIDR: 10.0.0.0/16 (or your preferred range)
Availability Zones: 2
Public Subnets: 2
Private Subnets: 2
NAT Gateways: 1 (in one AZ)

セキュリティグループを作成する


Name: Distillation-SG
Description: Security group for data distillation jobs
Inbound Rules: Allow all traffic from self
Outbound Rules: Allow all traffic (0.0.0.0/0)

次のサービスの VPC エンドポイントを作成する


com.amazonaws.[region].s3
com.amazonaws.[region].sagemaker.api
com.amazonaws.[region].sagemaker.runtime
com.amazonaws.[region].bedrock.api
com.amazonaws.[region].bedrock.runtime
com.amazonaws.[region].sts
com.amazonaws.[region].logs
com.amazonaws.[region].ecr.api
com.amazonaws.[region].ecr.dkr

エンドポイントごとに：

Distillation-VPC を選択する
プライベートサブネットを選択する
Distillation-SG セキュリティグループを選択する

AWS KMS キー

Amazon Bedrock バッチ推論を使用する場合は、データのセキュリティとコンプライアンスに AWS KMS キーが必要です。Amazon Bedrock バッチ推論ジョブでは、保管時のデータ保護を確保するために、入力と出力の Amazon S3 バケットを AWS KMS キーで暗号化する必要があります。

次のコマンド AWS CLI でを使用して KMS キーを作成します。


# Create KMS key
aws kms create-key \
--description "KMS key for Amazon Bedrock batch inference Amazon S3 bucket" \
--region us-east-1

コマンドは、ARN を含むキー情報を出力します。出力例:


{
    "KeyMetadata": {
        "KeyId": "1234abcd-12ab-34cd-56ef-1234567890ab",
        "Arn": "arn:aws:kms:us-east-1:111122223333:key/1234abcd-12ab-34cd-56ef-1234567890ab"
    }
}

注記

次のセクションで Amazon S3 バケットの作成に必要なため、出力から KMS キー ARN を保存します。

Amazon S3 バケット

2 種類の Amazon S3 ストレージが必要です。カスタマー管理の Amazon S3 バケットは、入力データと出力manifest.jsonファイルを保存します。このバケットを作成および管理し、入力と出力の両方に 1 つのバケットを使用できます。このバケットは、機密出力データを保存し、Amazon Bedrock バッチ推論ジョブで使用されるため、KMS 暗号化で設定する必要があります。Amazon Bedrock では、バッチ推論タスクを処理するために KMS 暗号化バケットが必要です。

サービスマネージド Amazon S3 バケットは、モデルの重みを保存します。サービスマネージド Amazon S3 バケットは、最初のトレーニングジョブ中に自動的に作成されます。マニフェストファイルを介してのみアクセスできる特定のパスを持つアクセスコントロールが制限されています。

特定のにバケットを作成するには AWS リージョン、create-bucket CLI コマンドを使用します。

AWS KMS 暗号化を使用して Amazon S3 バケットを作成するコマンドの例。を AWS KMS キー ARN {kms_key_arn}に置き換えます。まだ作成していない場合は、最初に AWS KMS キーを作成する必要があります。


aws s3api create-bucket \
--bucket {my_bucket_name} \
--region {aws_region} \
--create-bucket-configuration LocationConstraint={aws_region} \
--server-side-encryption-configuration '{
    "Rules": [
        {
            "ApplyServerSideEncryptionByDefault": {
                "SSEAlgorithm": "aws:kms",
                "KMSMasterKeyID": "{kms_key_arn}"
            },
            "BucketKeyEnabled": true
        }
    ]
}'

SageMaker トレーニングジョブを開始する

トレーニングジョブを開始する前に、データを準備します。

データ形式の要件 - 入力データセットは JSONL 形式で、各行に逆形式のサンプルが含まれている必要があります。詳細については、「理解モデルを抽出するためのデータの準備」を参照してください。

データセットの制約

最小プロンプト: 100
最大ファイルサイズ: 2GB
最大行長: 180KB
ファイル形式: JSONL のみ

入力データをアップロードするには、次のコマンドを実行します。


aws s3 cp /path/to/input-data/ s3://customer-input-data-bucket/ —recursive

データ拡張レシピ

ディストリビューションレシピは、SageMaker HyperPod レシピリポジトリから取得できます。ディストリビューションレシピはディレクトリのにありますrecipes-collection/recipes/fine-tuning/nova。データ拡張プロセスは、YAML 設定ファイルによって制御されます。以下は、各パラメータの詳細な説明です。すべて必須フィールドです。

パラメータ	説明
名前	トレーニングジョブのわかりやすい名前。これにより、でジョブを識別できます AWS Management Console。
distillation_data	データ抽出ジョブを有効にします。このフィールドは変更しないでください。
maxNumberOfPrompts	データセット内のプロンプトの最大数。
maxResponseLength	プロンプトあたりの最大レスポンス長 (トークン）。
maxInputFileSizeInGB	入力ファイルの最大サイズ (GB 単位）。
maxLineLengthInKB	入力ファイル内の 1 行の最大サイズ (KB 単位）。
maxStudentModelFineTuningContextLengthInTokens	学生モデルの最大コンテキストウィンドウサイズ (トークン）。is 値は、学生モデルの容量を超えることはできません。この値は、学生モデルの容量に基づいて 32,000 または 64,000 に設定できます。
teacherModelId	教師モデル ID を設定するときは、次の 2 つから選択します。 Amazon Titan Premier の場合: IAD リージョンの「us.amazon.nova-premier-v1:0」。注: これは IAD リージョンでのみ使用できます。 Amazon Nova Pro の場合: IAD リージョンの場合は「us.amazon.nova-pro-v1:0」、ARN リージョンの場合は「eu.amazon.nova-pro-v1:0」。
温度	レスポンスのランダム性を制御します (バランスには 0.7 を推奨）。
top_p	トークンサンプリングの累積確率しきい値 (0.9 を推奨）。
customer_bucket	入出力データの Amazon S3 バケット。
kms_key	AWS KMS S3 で出力を暗号化するためのキー。これは、Bedrock バッチ推論が推論ジョブによって返された出力を保存するために必要です。

制限

ノバプレミアとしてのチェッカーモデルの場合 - Amazon Bedrock バッチ推論のため、IAD リージョン (us-east-1) でのみサポートされています。ARN (eu-north-1) リージョンでは利用できません。

ベストプラクティス

データ準備

100 個の高品質のラベル付きサンプルを含めて、教師モデルをガイドする
送信前に品質の低いラベルを削除する
テキスト理解プロンプトのベストプラクティスに従う
留出を開始する前に、教師モデルでプロンプトをテストする

モデルの選択

Nova Pro を一般的なユースケースの教師として使用する
専門的なドメイン知識のために Nova Premier を検討する
レイテンシーとコスト要件に基づいて学生モデルを選択する

パフォーマンスの最適化

推奨温度 (0.7) と top_p (0.9) から開始する
ファインチューニングの前に拡張データ品質を検証する
「ハイパーパラメータの選択」のガイドラインに従ってハイパーパラメータを調整します。

PySDK でジョブを開始する

次のサンプルノートブックは、留出用に SageMaker トレーニングジョブを実行する方法を示しています。詳細については、SageMaker AI 推定器を使用してトレーニングジョブを実行する」を参照してください。


import os
import sagemaker,boto3
from sagemaker.pytorch import PyTorch
from sagemaker.inputs import TrainingInput

sagemaker_session = sagemaker.Session()
role = sagemaker.get_execution_role()

# SETUP
job_name = <Your_job_name> # Must be unique for every run

input_s3_uri = <S3 URI to your input dataset> # Must end in .jsonl file
output_s3_uri = <S3 URI to your output bucket> + job_name

image_uri = "708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-distillation-repo:SM-TJ-DISTILL-LATEST" # Do not change
instance_type = "ml.r5.4xlarge" # Recommedation is to use cpu instances 
instance_count = 1 # Must be 1, do not change 
role_arn = <IAM role to execute the job with>
recipe_path = <Local path to your recipe>

# Execution

estimator = PyTorch(
    output_path=output_s3_uri,
    base_job_name=job_name,
    role=role_arn,
    instance_count=instance_count,
    instance_type=instance_type,
    training_recipe=recipe_path,
    max_run=432000,
    sagemaker_session=sagemaker_session,
    image_uri=image_uri,
    subnets= ['subnet-xxxxxxxxxxxxxxxxx','subnet-xxxxxxxxxxxxxxxxx'], # Add subnet groups created in previous steps
    security_group_ids= ['sg-xxxxxxxxxxxxxxxxx'], # Add security group created in previous steps
    disable_profiler=True,
    debugger_hook_config=False
)

trainingInput = TrainingInput(
    s3_data=input_s3_uri,
    distribution='FullyReplicated',
    s3_data_type='Converse'
)

# The keys must be "train".
estimator.fit(inputs={"train": trainingInput})

拡張データ品質の検証

ファインチューニングに進む前に、拡張データの品質を検証することが重要です。

出力バケット内の sample_training_data.jsonl ファイルを確認します。このファイルには、拡張データセットの 50 個のランダムサンプルが含まれています。
これらのサンプルに関連性、一貫性、ユースケースとの整合性がないかを手動で検査します。
品質が期待を満たさない場合は、入力データまたは留出パラメータを調整し、データ拡張プロセスを再実行する必要がある場合があります。

データ拡張が完了したら、2 番目のフェーズでは Amazon SageMaker HyperPod を使用して学生モデルを微調整します。詳細については、「教師ありファインチューニング (SFT)」を参照してください。

SFT トレーニングレシピでは、前のジョブから返されたデータセットパスを渡すことができます。


data_s3_path: "s3://[escrow-bucket]/[job-name]/distillation_data/training_data.jsonl"

また、前のステップで推奨されたトレーニング設定を上書きします。

制約事項

この拡張データでは、SFT Nova ファインチューニング手法のみがサポートされています。
Amazon SageMaker HyperPod では、SFT Nova ファインチューニング手法のみがサポートされています。
マルチモーダル留出はサポートされていません。
カスタム教師モデルはサポートされていません。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

SageMaker トレーニングジョブの場合

ファインチューニング