View a markdown version of this page

RAG 애플리케이션에 대한 설명서 모범 사례 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

RAG 애플리케이션에 대한 설명서 모범 사례

성공적인 검색 증강 생성(RAG) 애플리케이션을 개발하려면 성능을 최적화하기 위해 다양한 문서 관련 요소를 신중하게 고려해야 합니다. 이 섹션의 모범 사례는 많은 조직 리더와 함께 RAG 시스템을 구축한 경험을 기반으로 큐레이션됩니다. 다음은 RAG 애플리케이션의 효과를 개선하기 위한 문서의 몇 가지 주요 모범 사례입니다.

  • 제목 및 부제목을 올바르게 사용 - 명확한 제목 및 부제목으로 콘텐츠를 구성하면 가독성이 향상되고 RAG 모델이 문서의 구조를 이해하는 데 도움이 됩니다. 이 방법을 사용하면 모델이 문서에서 정보를 더 잘 탐색하고 추출할 수 있으므로 생성된 응답의 품질이 향상됩니다.

  • 번호 지정이 순차적인지 확인 - 번호가 매겨진 목록을 사용할 때는 혼동을 방지하기 위해 적절한 번호 지정을 유지하는 것이 중요합니다. 번호를 건너뛰지 않고 각 목록 항목의 번호가 순차적으로 지정되었는지 확인합니다. 이를 통해 콘텐츠의 명확성과 일관성을 유지할 수 있습니다.

  • 목록 항목 간 전환 추가 - 글머리 기호 또는 번호가 매겨진 목록의 항목 간 전환을 제공하면 LLM이 콘텐츠를 안내하는 데 도움이 됩니다. 예를 들어 "2단계를 완료한 후...합니다"와 같은 문구를 사용하여 아이디어를 연결하고 정보 흐름을 개선할 수 있습니다.

  • 테이블 교체 - 테이블을 사용하지 마세요. 이 정보의 형식을 다중 수준 글머리표 목록 또는 플랫 수준 구문으로 지정합니다. 플랫 레벨 구문은 중첩된 하위 수준 없이 동일한 계층적 수준에서 요소 또는 항목을 정렬합니다. 이러한 구조는 LLMs 정보를 다이제스트하는 데 도움이 됩니다. 대부분의 인덱싱된 문서는 왼쪽에서 오른쪽으로 읽히기 때문에 플랫 레벨 구문을 사용하면 추가 차원을 참조할 필요 없이 정보를 보다 일관성 있게 따를 수 있습니다. 이 형식은 구조화되고 쉽게 이해할 수 있는 방식으로 정보를 제공하기 때문에 RAG 애플리케이션에 더 유용합니다.

  • 효율성을 위한 그래픽 정보 사전 처리 - 다중 모달 LLMs 이미지와 텍스트를 모두 수집할 수 있습니다. 이미지 해상도를 줄이고, 중복 이미지를 제거하고, 그래픽 요소의 내용을 텍스트 형식으로 설명합니다. 이러한 조치는 의미 있는 컨텍스트를 개선하고, 토큰을 불필요하게 사용하지 않으며, RAG 모델의 접근성을 개선합니다.

  • 일반적인 쿼리를 위한 세션 스타터 추가 - "소프트웨어를 주문하려면 어떻게 해야 합니까?"와 같은 일반적인 질문이나 작업을 처리할 때 리더를 프로세스로 전환하는 세션 스타터를 추가합니다. 예를 들어 "소프트웨어를 주문하려면 아래 단계를 따르세요."를 추가할 수 있습니다. 이렇게 하면 높은 의미 체계 일치를 생성하여 LLM이 일관된 응답을 구성하는 데 도움이 됩니다.

  • 각 섹션에 요약 추가 - 각 제목 또는 부제목 뒤에 해당 섹션의 콘텐츠에 대한 간결하고 간략한 요약을 추가합니다. 이렇게 하면 의미 체계 적용 범위를 늘리고 핵심 사항을 강화할 수 있습니다. 이렇게 하면 임베딩 공간 내에서 유사성 검색의 정확도가 향상되어 RAG 애플리케이션의 성능이 향상됩니다. 이는 문서가 LLM 및 인적 사용을 위한 것이거나 테이블 및 그래픽 요소가 필요한 경우에 특히 유용합니다.

  • 모호하지 않음 - 문서는 간결하고 초점을 맞춰야 합니다. LLMs 검색된 발췌문을 기반으로 응답을 생성하므로 모호성을 제거하면 모델이 명확하고 관련 있는 정보를 사용하는 데 도움이 됩니다. 이렇게 하면 더 정확하고 유용한 응답이 생성됩니다.

  • 약어 정의 및 컨텍스트 설정 - LLMs은 대량의 인터넷 데이터에 대해 훈련되며 대부분의 경우 엔터프라이즈 내부 문서의 컨텍스트가 없습니다. 따라서 컨텍스트를 설정하고, 약어를 정의하고, 회사별 용어를 피하거나 정의하면 LLM이 엔터프라이즈 데이터를 이해하는 데 도움이 됩니다. 이렇게 하면 LLM이 질문에 더 정확하게 답변하고 할루시네이션을 방지하는 데 도움이 됩니다.

  • 효율적인 태그 지정 및 인덱싱을 위해 대형 문서를 더 작은 문서로 재구성 - 여러 하위 주제가 포함된 대형 문서를 인덱싱하지 마세요. 대용량 문서를 명확한 제목이 있는 더 작고 독립적인 문서로 나누는 것이 좋습니다. 이렇게 하면 인덱싱 및 태그 지정이 개선됩니다.