RAG 애플리케이션에 영향을 미치는 소스 데이터의 문제

최적의 검색 증강 생성(RAG) 애플리케이션을 개발하는 데 있어 중요한 과제 중 하나는 사용되는 원시 데이터 또는 문서의 특성에 있습니다. 기업은 인간 참조용으로 생성된 기존 문서를 사용하는 경우가 많습니다. 이러한 문서에는 이해를 돕기 위한 하이퍼링크와 이미지 스크린샷이 포함되는 경우가 많습니다. 그러나 이러한 요소는 발췌 토큰 제한으로 인해 의미 체계 검색을 방해합니다. 이로 인해 리트리버 성능이 저하됩니다.

다음은 최적의 RAG 애플리케이션에서 가장 일반적인 원시 문서 과제입니다.

구조화된 형식 및 메타데이터 부족 - 원시 문서에는 명확한 섹션 제목, 부제목 또는 메타데이터가 없을 수 있습니다. 따라서 관련 정보를 식별하고 추출하기가 어렵습니다. 예를 들어 명확한 제목이 없는 긴 문서를 사용하면 특정 정보의 컨텍스트를 파악하기 어려울 수 있습니다.
비공식 및 일관되지 않은 언어 - 원시 문서에는 비공식 언어 또는 일관되지 않은 용어가 포함되는 경우가 많습니다. 이로 인해 RAG 모델이 혼동될 수 있습니다. 예를 들어 문서에 정의되지 않았거나 LLM에서 이미 알고 있는 약어가 문서 전체에서 사용될 수 있습니다.
세부 정보 및 중복성 - 원시 문서는 상세하고 불필요하거나 중복된 정보를 포함할 수 있습니다. 이로 인해 RAG 모델이 압도되어 간결하고 관련성이 높은 응답이 줄어들 수 있습니다. 예를 들어 동일한 정보를 여러 번 반복하는 문서 또는 유사하거나 모순되는 정보가 포함된 여러 문서가 있습니다.
모호한 용어 및 문구 - 원시 문서에는 여러 방식으로 해석될 수 있는 모호한 용어 또는 문구가 포함될 수 있습니다. 이러한 모호함으로 인해 RAG 모델에 의한 잘못된 해석과 부정확한 응답이 발생할 수 있습니다. 예를 들어 여러 의미의 용어를 사용하는 문서는 의도한 의미와 일치하지 않는 응답을 생성할 수 있습니다.
그래픽 및 하이퍼링크 요소 삽입 - 그래픽 및 하이퍼링크 정보가 포함된 원시 문서는 사람이 사용하기에 적합합니다. 그러나 이러한 요소는 검색 토큰 제한을 사용할 수 있습니다. 그 결과 발췌문이 불완전할 수 있습니다. 예를 들어 그래픽 및 하이퍼링크 URLs은 검색 토큰을 사용하는 검색의 일부로 반환되며, 후속 단락의 키 정보가 누락됩니다.
도메인별 지식 또는 컨텍스트 부족 - 원시 문서에는 정확한 생성에 필요한 도메인별 지식 또는 컨텍스트가 부족할 수 있습니다. 이렇게 하면 RAG 모델이 적절하고 정확한 응답을 생성하는 능력이 제한될 수 있습니다. 예를 들어 컨텍스트를 제공하지 않고 특수 개념을 참조하는 문서가 있습니다. 이로 인해 지정된 도메인에서 의미가 없는 응답이 발생할 수 있습니다.

이 목록은 포괄적이지 않지만 기업이 작동하지 않는 부분과 그 이유를 생각할 수 있는 출발점을 제공합니다. 문서에는 이러한 문제가 하나 이상 있을 수 있습니다. RAG 애플리케이션을 최적화하는 핵심은 검색을 최적화하는 쓰기 모범 사례를 준수하는 문서 세트를 사용하는 것입니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

LLMs 및 RAG 이해

모범 사례