지속적인 사전 훈련을 위한 데이터세트 준비 - Amazon Bedrock

지속적인 사전 훈련을 위한 데이터세트 준비

텍스트 투 텍스트 모델에 대한 지속적인 사전 훈련을 수행하려면 훈련 데이터세트를 준비하고 필요한 경우 검증 데이터세트를 준비합니다. 지속적인 사전 훈련에는 레이블이 지정되지 않은 데이터가 포함되므로 각 JSON 라인은 input 필드만 포함하는 샘플입니다. 토큰 개수의 근사치로 토큰당 6자를 사용합니다. 형식은 다음과 같습니다.

{"input": "<input text>"} {"input": "<input text>"} {"input": "<input text>"}

다음은 훈련 데이터에 포함될 수 있는 예제 항목입니다.

{"input": "AWS stands for Amazon Web Services"}