생성형 AI와 기존 ML 간의 데이터 차이

인공 지능의 환경은 특히 데이터를 처리하고 활용하는 방식에서 기존 기계 학습 접근 방식과 최신 생성형 AI 시스템을 근본적으로 구분하는 것이 특징입니다. 이 포괄적인 분석은 이러한 기술 진화의 세 가지 주요 차원, 즉 데이터 유형 간의 구조적 차이, 처리 요구 사항, 최신 AI 시스템이 처리할 수 있는 다양한 데이터 양식을 살펴봅니다. 또한 생성형 AI에서 생성된 합성 데이터가 훈련 데이터의 새로운 소스로 어떻게 나타나고 있는지 강조합니다. 합성 데이터를 사용하면 이전에 데이터 희소성과 데이터 프라이버시 제약으로 인해 제한되었던 기존 ML 사용 사례를 구현할 수 있습니다. 이러한 구분을 이해하는 것은 다양한 산업에서 데이터 관리, 모델 훈련 및 실제 애플리케이션의 복잡성을 탐색하는 데 도움이 되므로 조직에 매우 중요합니다.

정형 및 비정형 데이터

기존 ML 모델과 최신 생성형 AI 시스템은 데이터 요구 사항과 처리하는 데이터의 특성에 크게 분산되어 있습니다.

기존 ML은 주석이 있는 테이블 또는 고정 스키마 또는 큐레이션된 이미지 및 오디오 데이터 세트로 구성된 데이터를 사용합니다. 예를 들어 테이블 형식 데이터 또는 클래식 컴퓨터 비전을 분석하는 예측 모델이 있습니다. 이러한 시스템은 종종 체계적이고 레이블이 지정된 데이터 세트에 의존합니다. 지도 학습의 경우 각 데이터 포인트에는 일반적으로 레이블이 지정된 이미지 또는 대상 값이 있는 판매 데이터 행과 같은 명시적 레이블 cat 또는 대상이 함께 제공됩니다.

반면 생성형 AI 모델은 비정형 또는 반정형 데이터를 기반으로 합니다. 여기에는 대규모 언어 모델(LLMs)과 생성형 비전 또는 오디오 모델이 포함됩니다. 사전 훈련에는 명시적 레이블이 필요하지 않습니다. 즉, 방대하고 다양한 데이터 세트에서 일반적인 언어 이해를 배울 때입니다. 이러한 구분이 핵심입니다. 생성형 모델은 수동 레이블 지정 없이 방대한 양의 텍스트 또는 이미지를 수집하고 학습할 수 있습니다. 이는 기존의 감독 ML이 수행할 수 없는 작업입니다.

특정 작업 또는 도메인에서 뛰어난 성능을 발휘하기 위해 이러한 사전 훈련된 LLMs 작업별 훈련이 필요하며, 이를 종종 미세 조정이라고 합니다. 여기에는 지침 또는 완료 페어를 사용하여 더 작고 특수한 데이터 세트에서 사전 훈련된 모델을 추가로 훈련하는 작업이 포함됩니다. 이러한 방식으로 생성형 AI 모델을 미세 조정하는 것은 기존 ML 모델에 대한 지도 훈련 프로세스와 같습니다.

다양한 데이터 양식

최신 생성형 AI 모델은 텍스트, 코드, 이미지, 오디오, 비디오, 심지어 멀티모달 데이터라고 하는 조합 등 다양한 데이터 유형을 처리하고 생성합니다. 예를 들어 Anthropic Claude와 같은 파운데이션 모델은 텍스트 데이터(웹 페이지, 책, 기사) 및 대규모 코드 리포지토리에 대해 훈련됩니다. Amazon Nova Canvas 또는 Stable Diffusion과 같은 생성형 비전 모델은 텍스트(자막 또는 레이블)와 자주 페어링되는 이미지에서 학습합니다. 생성형 오디오 모델은 음파 데이터 또는 트랜스크립트를 사용하여 음성 또는 음악을 생성할 수 있습니다.

생성형 AI 시스템은 점점 더 멀티모달이 되고 있습니다. 이러한 시스템은 비정형 텍스트와 미디어를 대규모로 처리할 수 있는 기능을 통해 텍스트, 이미지, 오디오의 조합을 처리하고 생성할 수 있습니다. 기존의 구조화된 데이터 ML이 할 수 없는 언어, 비전 및 사운드의 미묘한 차이를 배울 수 있습니다. 이러한 유연성은 일반적으로 한 번에 하나의 데이터 유형을 전문으로 하는 일반적인 ML 모델과 대조됩니다. 예를 들어 이미지 분류기 모델은 텍스트를 생성할 수 없거나 감정 분석을 위해 훈련된 자연어 처리(NLP) 모델은 이미지를 생성할 수 없습니다.

LLMs 있습니다. CSV 파일과 같은 테이블 형식 데이터를 처리할 때 LLMs 추론 중에 눈에 띄는 문제에 직면합니다. 테이블에서 구하는 정보에서 대규모 언어 모델의 제한 사항 발견 연구에 따르면 LLMs은 종종 테이블 구조를 이해하고 정보를 정확하게 추출하는 데 어려움을 겪습니다. 이 연구에 따르면 모델의 성능이 미미하게 만족스러운 것부터 부적절한 것까지 다양하여 테이블 구조에 대한 이해도가 좋지 않은 것으로 나타났습니다. LLMs 기여합니다. 주로 순차적 텍스트 데이터를 기반으로 훈련되어 텍스트 기반 콘텐츠를 예측하고 생성할 수 있습니다. 그러나이 훈련은 행과 열 간의 관계를 이해하는 것이 중요한 테이블 형식 데이터를 해석하는 것으로 원활하게 해석되지는 않습니다. 따라서 LLMs 테이블 내 숫자 데이터의 컨텍스트 또는 중요성을 잘못 해석하여 분석이 부정확해질 수 있습니다.

기본적으로 생성형 AI를 위한 엔터프라이즈 데이터 전략은 이전보다 훨씬 더 많은 비정형 콘텐츠를 고려해야 합니다. 조직은 데이터 웨어하우스의 깔끔하게 구성된 테이블뿐만 아니라 텍스트 본문(문서, 이메일, 지식 기반), 코드 리포지토리, 오디오 및 비디오 아카이브, 기타 비정형 데이터 소스를 평가해야 합니다.

기존 ML을 위한 데이터 합성

생성형 AI는 기존 기계 학습에서 직면한 몇 가지 오랜 장벽, 특히 데이터 희소성 및 개인 정보 보호 제약과 관련된 장벽을 극복할 수 있습니다. 파운데이션 모델을 사용하여 실제 배포를 매우 모방한 인공 데이터 세트와 같은 합성 데이터를 생성하면 이제 조직은 데이터 희소성, 개인 정보 보호 문제, 대규모 데이터 세트 수집 및 주석 달기와 관련된 높은 비용으로 인해 이전에는 도달할 수 없었던 ML 사용 사례를 잠금 해제할 수 있습니다.

예를 들어 의료 분야에서는 합성 의료 이미지를 사용하여 기존 데이터 세트를 보강했습니다. 이를 통해 진단 모델을 개선하는 동시에 환자 기밀성을 보호할 수 있습니다. 금융 분야에서 합성 데이터는 민감한 정보를 노출하지 않고 위험 평가 및 알고리즘 거래를 지원하는 시장 시나리오를 시뮬레이션하는 데 도움이 될 수 있습니다. 다양한 주행 조건을 시뮬레이션하는 합성 데이터는 자율 주행 차량 개발에 도움이 됩니다. 실제로 캡처하기 어려운 시나리오에서 컴퓨터 비전 시스템을 쉽게 훈련할 수 있습니다. 합성 데이터 생성에 파운데이션 모델을 사용하면 조직은 ML 모델 성능을 개선하고, 데이터 개인 정보 보호 규정을 준수하고, 다양한 산업에서 새로운 사용 사례를 활용할 수 있습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

소개

데이터 수명 주기