생성형 AI의 데이터 수명 주기

엔터프라이즈에서 생성형 AI를 구현하려면 기존 AI/ML 수명 주기를 병렬화하는 데이터 수명 주기가 필요합니다. 그러나 각 단계마다 고유한 고려 사항이 있습니다. 주요 단계에는 데이터 준비, 모델 워크플로로의 통합(예: 검색 또는 미세 조정), 피드백 수집 및 지속적인 업데이트가 포함됩니다. 이 섹션에서는 상호 연결된 데이터 수명 주기 단계를 살펴보고 조직이 생성형 AI 솔루션을 개발하고 배포할 때 고려해야 하는 필수 프로세스, 과제 및 모범 사례를 자세히 설명합니다.

이 섹션은 다음 주제를 포함합니다:

사전 훈련을 위한 데이터 준비 및 정리
검색 증강 생성
미세 조정 및 특수 훈련
평가 데이터 세트
사용자 생성 데이터 및 피드백 루프

사전 훈련을 위한 데이터 준비 및 정리

가비지 인, 가비지 아웃은 품질이 낮은 입력으로 인해 품질이 비슷한 출력이 생성된다는 개념입니다. 모든 AI 프로젝트와 마찬가지로 데이터 품질은 make-or-break적인 요소입니다. 생성형 AI는 대규모 데이터 세트로 시작하는 경우가 많지만 볼륨만으로는 충분하지 않습니다. 신중한 정리, 필터링 및 사전 처리가 중요합니다.

이 단계에서 데이터 팀은 대량의 텍스트 또는 이미지 컬렉션과 같은 원시 데이터를 집계합니다. 그런 다음 노이즈, 오류 및 편향을 제거합니다. 예를 들어 LLM에 대한 텍스트를 준비하려면 중복을 제거하고, 민감한 개인 정보를 삭제하고, 유해하거나 관련 없는 콘텐츠를 필터링해야 할 수 있습니다. 목표는 모델이 캡처해야 하는 지식 또는 스타일을 진정으로 나타내는 고품질 데이터 세트를 만드는 것입니다. 데이터는 모델 수집에 적합한 구조로 정규화되거나 형식이 지정될 수도 있습니다. 예를 들어 텍스트를 토큰화하거나, HTML 태그를 제거하거나, 이미지 해상도를 정규화할 수 있습니다.

생성형 AI에서이 준비는 규모 때문에 특히 집약적일 수 있습니다. Anthropic Claude와 같은 모델은 공개적으로 사용 가능하고 라이선스가 부여된 다양한 데이터 소스에서 제공되는 수십억 개의 토큰(Wikipedia)에 대해 훈련됩니다. 불쾌한 콘텐츠나 사실적 오류를 포함하여 잘못된 데이터의 비율이 작더라도 출력에 큰 영향을 미칠 수 있습니다. 예를 들어, 다양한 LLM 공급자가 훈련 데이터 세트에서 Reddit 커뮤니티의 콘텐츠를 제외했다고 보고했습니다. 왜냐하면 게시물은 주로 마이크로웨이브의 노이즈를 모방하기 위해 문자 M의 긴 시퀀스로 구성되었기 때문입니다. 이러한 게시물은 모델 훈련과 성능을 방해했습니다.

이 단계에서 일부 기업은 특정 시나리오의 적용 범위를 높이기 위해 데이터 증강을 채택합니다. 데이터 증강은 추가 훈련 데이터를 합성하는 프로세스입니다. 자세한 내용은이 가이드의 데이터 합성을 참조하세요.

준비 및 사전 처리된 데이터에 대해 모델을 훈련할 때 완화 기술을 사용하여 특히 편향을 해결할 수 있습니다. 기법에는 구성 AI라고 하는 모델의 아키텍처 내에 윤리적 원칙을 포함하는 것이 포함됩니다. 또 다른 기법은 공격 편향으로, 훈련 중에 모델에 도전하여 다양한 그룹에 공정한 결과를 적용하는 것입니다. 마지막으로 훈련 후 사후 처리 조정을 수행하여 미세 조정을 통해 모델을 세분화할 수 있습니다. 이렇게 하면 나머지 편향을 수정하고 전반적인 공정성을 개선하는 데 도움이 될 수 있습니다.

검색 증강 생성

정적 ML 모델은 고정 훈련 세트에서만 예측을 수행합니다. 그러나 많은 엔터프라이즈 생성형 AI 솔루션은 검색 증강 생성(RAG)을 사용하여 모델의 지식을 최신 상태로 유지하고 관련성을 유지합니다. RAG에는 엔터프라이즈 문서, 데이터베이스 또는 기타 데이터 소스가 포함될 수 있는 외부 지식 리포지토리에 LLM을 연결하는 작업이 포함됩니다.

실제로 RAG는 추가 데이터 파이프라인을 구현해야 합니다. 이로 인해 어느 정도의 복잡성이 발생하며 다음과 같은 순차적 단계가 수반됩니다.

수집 및 필터링 - 다양한 소스에서 고품질의 관련 데이터를 수집합니다. 중복되거나 관련이 없는 정보를 제외하는 필터링 메커니즘을 구현하고 데이터 세트가 애플리케이션의 도메인과 관련이 있는지 확인합니다. 정보의 정확성과 관련성을 유지하려면 데이터 리포지토리를 정기적으로 업데이트하고 유지 관리하는 것이 필수적입니다.
구문 분석 및 추출 - 데이터 수집 후 데이터를 구문 분석하여 의미 있는 콘텐츠를 추출해야 합니다. HTML, JSON 또는 일반 텍스트와 같은 다양한 데이터 형식을 처리할 수 있는 파서를 사용합니다. 구문 분석기는 원시 데이터를 구조화된 형식으로 변환합니다. 이 프로세스를 통해 후속 단계에서 데이터를 더 쉽게 조작하고 분석할 수 있습니다.
청킹 전략 - 데이터를 관리 가능한 부분 또는 청크로 나눕니다. 이 단계는 효율적인 검색 및 처리에 매우 중요합니다. 청킹 전략에는 다음이 포함되지만 이에 국한되지는 않습니다.
- 표준 토큰 기반 청킹 - 특정 토큰 수를 기반으로 텍스트를 고정 크기 세그먼트로 분할합니다. 이는 가장 기본적인 청킹 전략이지만 균일한 청크 길이를 유지하는 데 도움이 됩니다.
- 계층적 청킹 - 콘텐츠를 계층 구조(예: 장, 섹션 또는 단락)로 구성하여 컨텍스트 관계를 유지합니다. 이 전략은 데이터 구조에 대한 모델의 이해를 향상시킵니다.
- 의미 체계 청킹 - 의미 체계 일관성에 따라 텍스트를 세분화합니다. 각 청크가 완전한 아이디어 또는 주제를 나타내는지 확인합니다. 이 전략은 검색된 정보의 관련성을 개선할 수 있습니다.
임베딩 모델 선택 - 벡터 데이터베이스는 의미와 컨텍스트를 보존하는 텍스트 청크의 숫자 표현인 임베딩을 저장합니다. 임베딩은 ML 모델이 의미 체계 검색을 수행하기 위해 이해하고 비교할 수 있는 형식입니다. 데이터 청크의 의미론적 핵심을 캡처하려면 적절한 임베딩 모델을 선택하는 것이 중요합니다. 도메인별 요구 사항에 부합하고 콘텐츠의 의미를 정확하게 반영하는 임베딩을 생성할 수 있는 모델을 선택합니다. 사용 사례에 가장 적합한 임베딩 모델을 선택하면 관련성과 컨텍스트 정확도가 향상될 수 있습니다.
인덱싱 및 검색 알고리즘 - 유사성 검색에 최적화된 벡터 데이터베이스의 임베딩을 인덱싱합니다. 고차원 데이터를 효율적으로 처리하고 관련 정보의 신속한 검색을 지원하는 검색 알고리즘을 사용합니다. 근사 근사 근사치 이웃(ANN) 검색과 같은 기법은 정확도를 손상시키지 않으면서 검색 속도를 크게 향상시킬 수 있습니다.

RAG 파이프라인은 본질적으로 복잡합니다. 효과적으로 설계하려면 여러 단계, 다양한 수준의 통합, 높은 수준의 전문 지식이 필요합니다. 올바르게 구현하면 생성형 AI 솔루션의 성능과 정확도를 크게 향상시킬 수 있습니다. 그러나 이러한 시스템을 유지 관리하려면 리소스 집약적이며 지속적인 모니터링, 최적화 및 규모 조정이 필요합니다. 이러한 복잡성으로 인해 RAG 파이프라인을 효율적으로 운영 및 관리하기 위한 전용 접근 방식인 RAGOps가 등장하여 장기적인 신뢰성과 효율성을 높였습니다.

의 RAG에 대한 자세한 내용은 다음 리소스를 AWS참조하세요.

의 Augmented Generation 옵션 및 아키텍처 검색 AWS(AWS 권고 가이드)
RAG 사용 사례를 위한 AWS 벡터 데이터베이스 선택(AWS 권장 가이드)
Terraform 및 Amazon Bedrock을 AWS 사용하여에 RAG 사용 사례 배포(AWS 권고 가이드)

미세 조정 및 특수 훈련

미세 조정은 도메인 미세 조정과 작업 미세 조정이라는 두 가지 고유한 형식을 취할 수 있습니다. 각 모델은 사전 훈련된 모델을 조정하는 데 있어 서로 다른 목적을 수행합니다. 비지도 도메인 미세 조정에는 특정 필드 또는 산업에 고유한 언어, 용어 및 컨텍스트를 더 잘 이해하는 데 도움이 되도록 도메인별 텍스트 본문에 대해 모델을 추가로 훈련하는 작업이 포함됩니다. 예를 들어 회사의 어조와 전문 어휘를 반영하기 위해 내부 기사 및 전문 용어 모음에서 미디어별 LLM을 미세 조정할 수 있습니다.

반면 지도 작업 미세 조정은 특정 함수 또는 출력 형식을 수행하도록 모델을 교육하는 데 중점을 둡니다. 예를 들어 고객 쿼리에 답변하거나, 법률 문서를 요약하거나, 구조화된 데이터를 추출하도록 가르칠 수 있습니다. 이를 위해서는 일반적으로 대상 작업에 대한 입력 및 원하는 출력의 예가 포함된 레이블이 지정된 데이터 세트를 준비해야 합니다.

두 접근 방식 모두 미세 조정 데이터를 신중하게 수집하고 큐레이션해야 합니다. 작업 미세 조정의 경우 데이터 세트에 명시적으로 레이블이 지정됩니다. 도메인 미세 조정의 경우 레이블이 지정되지 않은 텍스트를 사용하여 관련 컨텍스트에서 일반적인 언어 이해를 개선할 수 있습니다. 접근 방식에 관계없이 데이터 품질이 가장 중요합니다. 모델의 성능을 유지하고 향상하려면 깔끔하고 대표적이며 적절한 크기의 데이터 세트가 필수적입니다. 일반적으로 미세 조정 데이터 세트는 초기 사전 훈련에 사용되는 데이터 세트보다 훨씬 작지만 효과적인 모델 적응을 위해 신중하게 선택해야 합니다.

미세 조정의 대안은 더 작고 일반적인 모델의 성능을 복제하기 위해 더 작고 특수한 모델을 훈련시키는 기법인 모델 추출입니다. 기존 LLM을 미세 조정하는 대신 모델 추출은 보다 복잡한 원래 모델(교사)에서 생성된 출력에 대해 경량 모델(학생)을 훈련하여 지식을 전달합니다. 이 접근 방식은 작업별 성능을 유지하면서 분산 모델이 더 적은 리소스를 필요로 하기 때문에 컴퓨팅 효율성이 우선 순위일 때 특히 유용합니다.

모델 추출은 광범위한 도메인별 훈련 데이터를 필요로 하는 대신 합성 데이터 세트 또는 교사가 생성한 데이터 세트를 사용합니다. 복합 모델은 경량 모델이 학습할 수 있는 고품질 예제를 생성합니다. 이렇게 하면 독점 데이터를 큐레이팅해야 하는 부담이 줄어들지만 일반화 기능을 유지하려면 다양하고 편향되지 않은 훈련 예제를 신중하게 선택해야 합니다. 또한 민감한 레코드를 직접 노출하지 않고도 보호된 데이터에 대해 경량 모델을 훈련할 수 있으므로 데이터 프라이버시와 관련된 위험을 완화하는 데 도움이 될 수 있습니다.

즉, 대부분의 조직은 사용 사례에 불필요한 경우가 많고 운영 및 기술적 복잡성의 추가 계층이 발생하기 때문에 미세 조정 또는 추출을 수행할 가능성이 낮습니다. 사전 훈련된 파운데이션 모델을 사용하면 많은 비즈니스 요구 사항을 효과적으로 충족할 수 있으며, 경우에 따라 프롬프트 엔지니어링 또는 RAG와 같은 도구를 통해 간단한 사용자 지정을 수행할 수 있습니다. 미세 조정에는 기술 역량, 데이터 큐레이션 및 모델 거버넌스 측면에서 상당한 투자가 필요합니다. 따라서 이러한 노력이 정당화되는 고도로 전문화된 또는 대규모 엔터프라이즈 애플리케이션에 더 적합합니다.

평가 데이터 세트

생성형 AI 솔루션을 위한 평가 데이터 세트를 구성할 때는 강력한 데이터 전략을 개발하는 것이 중요합니다. 이러한 평가 데이터 세트는 모델 성능을 평가하기 위한 벤치마크 역할을 합니다. 신뢰할 수 있는 실측 데이터를 기반으로 해야 합니다.이 데이터는 정확하고 검증되었으며 실제 결과를 나타내는 것으로 알려진 데이터입니다. 예를 들어 실제 데이터는 훈련 또는 미세 조정 데이터 세트에서 보류한 실제 데이터일 수 있습니다. 실측 데이터는 여러 소스에서 가져올 수 있으며 각 소스마다 고유한 문제가 있습니다.

합성 데이터 생성은 민감한 정보를 노출하지 않고 특정 모델 기능을 테스트하기 위해 제어된 데이터 세트를 생성할 수 있는 확장 가능한 방법을 제공합니다. 그러나 그 효과는 실제 실측 분포를 얼마나 가깝게 복제하는지에 따라 달라집니다.

또는 골든 데이터 세트라고도 하는 수동으로 큐레이션된 데이터 세트에는 엄격하게 확인된 질문-응답 쌍 또는 레이블이 지정된 예제가 포함되어 있습니다. 이 데이터 세트는 강력한 모델 평가를 위한 고품질 실측 데이터 역할을 할 수 있습니다. 그러나 이러한 데이터 세트는 컴파일하는 데 시간이 많이 걸리고 리소스 집약적입니다. 실제 고객 상호 작용을 평가 데이터로 통합하면 엄격한 개인 정보 보호 및 규정 준수(예: GDPR 및 CCPA)가 필요하지만 실측 데이터의 관련성과 적용 범위를 더욱 향상시킬 수 있습니다.

포괄적인 데이터 전략은 이러한 접근 방식의 균형을 맞춰야 합니다. 생성형 AI 모델을 효과적으로 평가하려면 데이터 품질, 대표성, 윤리적 고려 사항, 비즈니스 목표와의 일치와 같은 요소를 고려하세요. 자세한 내용은 Amazon Bedrock 평가를 참조하세요.

사용자 생성 데이터 및 피드백 루프

생성형 AI 시스템이 배포되면 출력을 생성하고 사용자와 상호 작용하기 시작합니다. 이러한 상호 작용 자체는 중요한 데이터 소스가 됩니다. 사용자 생성 데이터에는 사용자 질문 및 프롬프트, 모델의 응답, 사용자가 제공하는 모든 명시적 피드백(예: 등급)이 포함됩니다. 기업은 이를 생성형 AI 데이터 수명 주기의 일부로 취급하고 모니터링 및 개선 프로세스에 다시 피드해야 합니다. 중요한 것은 사용자가 생성한 데이터를 실측 데이터 세트에 통합할 수 있다는 것입니다. 이렇게 하면 프롬프트를 추가로 최적화하고 시간이 지남에 따라 애플리케이션의 전반적인 성능을 향상시킬 수 있습니다. 또 다른 중요한 이유는 시간 경과에 따른 모델 드리프트와 성능을 관리하기 때문입니다. 실제 사용 후 모델이 훈련 도메인에서 분리되기 시작할 수 있습니다. 이에 대한 예로는 쿼리 또는 사용자에게 훈련 데이터에 없는 새로운 주제에 대해 질문하는 새로운 속어가 있습니다. 이 라이브 데이터를 모니터링하면 입력 분산이 이동하는 데이터 드리프트가 드러날 수 있으며, 이로 인해 모델 정확도가 저하될 수 있습니다.

이를 해결하기 위해 조직은 사용자 상호 작용을 캡처하고 최근 샘플에 대해 모델을 주기적으로 재훈련하거나 미세 조정하여 피드백 루프를 설정합니다. 피드백을 사용하여 프롬프트와 검색 데이터를 조정할 수도 있습니다. 예를 들어 내부 챗봇 어시스턴트가 새로 출시된 제품에 대한 답변을 지속적으로 환각하는 경우 팀은 실패한 Q&A 페어를 수집하고 올바른 정보를 추가 훈련 또는 검색 데이터로 포함할 수 있습니다.

경우에 따라 훈련 후 또는 미세 조정 단계에서 인적 피드백(RLHF)을 통한 강화 학습을 사용하여 LLM을 추가로 정렬할 수 있습니다. 이는 모델이 사람의 선호도와 값을 더 잘 반영하는 응답을 생성하는 데 도움이 됩니다. 강화 학습(RL) 기법은 소프트웨어를 교육하여 보상을 극대화하는 결정을 내리고 결과를 보다 정확하게 만듭니다. RLHF는 보상 함수에 인적 피드백을 통합하므로 ML 모델은 인적 목표, 요구 사항 및 요구 사항에 더 잘 맞는 작업을 수행할 수 있습니다. Amazon SageMaker AI에서 RLHF를 사용하는 방법에 대한 자세한 내용은 AWS AI 블로그의 Amazon SageMaker에서 RLHF를 사용하여 LLMs 개선을 참조하세요.

공식 RLHF가 없더라도 품질 보증과 마찬가지로 모델 출력의 일부를 지속적으로 수동으로 검토하는 것이 더 간단한 접근 방식입니다. 핵심은 프로세스에 지속적인 모니터링, 관찰성 및 학습이 구축된다는 것입니다. 생성형 AI 애플리케이션에서 인적 피드백을 수집하고 저장하는 방법에 대한 자세한 내용은 AWS 솔루션 라이브러리의 에서 Chatbot 사용자 피드백 및 분석을 위한 지침을 AWS AWS참조하세요.

드리프트를 선점하거나 해결하려면 기업은 여러 가지 형태를 취할 수 있는 지속적인 모델 업데이트를 계획해야 합니다. 한 가지 접근 방식은 정기적인 미세 조정 또는 지속적인 사전 훈련을 예약하는 것입니다. 예를 들어 모델을 매월 최신 내부 데이터, 지원 사례 또는 뉴스 기사로 업데이트할 수 있습니다. 지속적인 사전 훈련 중에 사전 훈련된 언어 모델은 특히 특정 도메인 또는 작업에서 성능을 향상시키기 위해 추가 데이터에 대해 추가로 훈련됩니다. 이 프로세스에는 레이블이 지정되지 않은 새로운 텍스트 데이터에 모델을 노출하여 처음부터 시작하지 않고도 모델을 이해하고 새로운 정보에 적응할 수 있습니다. 잠재적으로 복잡한 프로세스를 지원하기 위해 Amazon Bedrock을 사용하면 완전히 안전한 관리형 환경에서 미세 조정 및 지속적인 사전 훈련을 수행할 수 있습니다. 자세한 내용은 AWS 뉴스 블로그의 미세 조정 및 지속적인 사전 훈련을 사용하여 자체 데이터로 Amazon Bedrock에서 모델 사용자 지정을 참조하세요.

RAG와 함께 off-the-shelf 모델을 사용하는 시나리오에서는 Amazon Bedrock과 같은 클라우드 AI 서비스에 의존할 수 있습니다. 이러한 서비스는 릴리스될 때 정기적인 모델 업그레이드를 제공하고 사용 가능한 카탈로그에 추가합니다. 이렇게 하면 이러한 파운데이션 모델의 최신 버전을 사용하도록 솔루션을 업데이트할 수 있습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

데이터 차이점

데이터 보안 고려 사항