기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
데이터 세트 보강
데이터 세트 강화는 데이터 세트 작성자가 데이터 세트에 풍부한 의미 체계 메타데이터를 추가할 수 있는 Amazon Quick Sight의 기능입니다. 설명, 사용자 지정 지침 및 구조화된 메타데이터를 제공하면 인간 소비자와 AI 기반 에이전트 모두 데이터 세트가 무엇을 나타내고 어떻게 사용하는지 이해할 수 있습니다.
데이터 세트 보강 개요
데이터 세트 강화를 통해 작성자와 작성자는 데이터 세트 수준과 열 수준 모두에서 의미 체계 컨텍스트로 데이터 세트에 주석을 달 수 있습니다. 이 메타데이터는 원시 데이터를 비즈니스 컨텍스트와 연결합니다. 다음 두 가지 대상을 제공합니다.
-
데이터 세트 소비자(기타 작성자, 독자 전문가) - 각 데이터 세트에 포함된 내용, 용도 및 적절한 사용 사례에 대한 더 나은 비즈니스 컨텍스트를 얻습니다.
-
AI 에이전트 - 데이터 세트 Q&A를 통해 질문에 답변할 때 더 풍부한 컨텍스트 정보를 받아 더 정확한 쿼리와 해석을 생성합니다.
데이터 세트 보강 구성 요소
데이터 세트 수준 보강
중요
데이터 세트 설명 또는 사용자 지정 지침 필드에 민감한 정보를 추가하지 마십시오. 이 정보는 모든 데이터 세트 뷰어에게 표시됩니다.
- 데이터 세트 설명
-
데이터 세트가 나타내는 내용, 범위 및 용도에 대한 비즈니스 수준 요약입니다. 이 설명은 UI의 모든 데이터 세트 소비자에게 표시되므로 데이터 세트의 목적을 빠르게 이해하는 데 도움이 됩니다. 최대 길이: 5,000자.
- 사용자 지정 지침
-
AI 에이전트가 특별히 사용하는 자유 형식 텍스트 지침입니다. 이 지침은 데이터 세트의 해석, 쿼리 및 이유를 AI에 안내합니다. 최대 길이: 5,000자.
- 파일 업로드
-
타사 도구(예: Databricks, dbt 또는 Alation)에서 내보낸 카탈로그 등급 의미 체계 메타데이터가 포함된 YAML, JSON 또는 TXT 형식의 단일 파일을 업로드할 수 있습니다. 이를 통해 수백 개의 열 정의, 비즈니스 규칙 및 지표 계산을 단일 업로드로 수집할 수 있으므로 column-by-column 수동 항목이 필요하지 않습니다. 최대 길이: 50,000자.
열 수준 보강
- 폴더
-
더 쉽게 탐색하고 이해할 수 있도록 열을 논리적 그룹으로 구성합니다.
- 열 설명
-
각 열이 나타내는 내용, 유효한 값 및 비즈니스 의미에 대한 사람이 읽을 수 있는 설명입니다. 최대 길이: 500자.
- 추가 참고 사항
-
데이터 품질 고려 사항, 관련 테이블 또는 일반적인 분석 패턴과 같은 각 열의 보충 컨텍스트입니다. 최대 길이: 2,000자.
데이터 세트 강화의 이점
-
더 정확한 AI 기반 데이터 세트 Q&A - 의미 체계 컨텍스트가 풍부하면 AI 에이전트가 더 정확한 SQL 쿼리 및 해석을 생성하여 훨씬 더 나은 답변을 얻을 수 있습니다.
-
소비자에 대한 이해 향상 - 설명과 메타데이터는 조직 전체의 모든 사용자가 데이터 세트에 포함된 항목과 데이터 세트를 올바르게 사용하는 방법을 이해하는 데 도움이 됩니다.
-
외부 카탈로그에서 메타데이터 크기 조정 - 파일 업로드를 사용하면 작성자가 열별로 정의 열을 수동으로 입력하지 않고 단일 작업으로 타사 카탈로그 도구에서 풍부한 메타데이터를 가져올 수 있습니다.
권한 및 요구 사항
Enterprise 라이선스가 있는 작성자 및 작성자 전문가는 자신이 소유하거나 관리하는 모든 데이터세트를 보강할 수 있습니다.
데이터 세트 보강 액세스
데이터 세트 보강에 액세스하려면 다음 단계를 완료하세요.
-
데이터 준비 환경에 데이터 세트를 저장합니다.
-
출력 탭을 선택합니다.
-
데이터 세트 설명 및 사용자 지정 지침을 입력하거나 의미 체계 메타데이터 파일을 업로드합니다.
효과적인 사용자 지정 지침 작성
사용자 지정 지침은 데이터 세트 강화의 가장 영향력 있는 구성 요소입니다. AI 에이전트에게 데이터 세트를 해석하고 쿼리하는 방법을 직접 안내합니다. 다음은 효과적이고 비효율적인 사용자 지정 지침의 예입니다.
올바른 사용자 지정 지침
예제 1 - 수익 데이터 세트
This dataset contains net revenue after returns and discounts, calculated on an accrual basis. Revenue is recognized at the point of sale for retail transactions and upon delivery confirmation for B2B orders. All figures are in USD. The 'revenue' column specifically excludes taxes, shipping fees, and promotional credits. For year-over-year comparisons, use the 'fiscal_year' field rather than 'calendar_year' as our fiscal year runs April–March.
효과가 있는 이유:
-
모호한 용어를 명확히 함(순 수익과 총 수익 비교)
-
계산 방법론을 정의합니다.
-
통화 및 제외 항목 지정
-
특정 필드를 올바르게 사용하는 방법에 대한 지침을 제공합니다.
예제 2 - 고객 데이터 세트
Customer status definitions: 'Active' = purchased within last 12 months; 'Dormant' = 12–24 months since last purchase; 'Churned' = 24+ months inactive. The 'customer_segment' field uses RFM analysis (Recency, Frequency, Monetary). 'Lifetime_value' is calculated as total historical spend, not predictive LTV. When analyzing customer counts, always filter out 'is_test_account = true' to exclude internal test data.
효과가 있는 이유:
-
비즈니스 로직 및 임계값을 정의합니다.
-
두문자어 및 방법론 설명
-
데이터 품질 고려 사항에 대한 경고
-
정확한 분석을 위한 적절한 필터링 안내
비효율적인 사용자 지정 지침
예 - 고객 데이터 세트
Contains customer information including names, addresses, purchase history, and other details. Use this for customer analysis.
효과적이지 않은 이유:
-
열 이름에서 이미 명백한 것을 설명합니다.
-
비즈니스 컨텍스트 또는 정의를 제공하지 않습니다.
-
데이터 품질, 계산 또는 적절한 사용에 대한 지침을 제공하지 않습니다.
-
AI가 유사한 개념을 구분하는 데 도움이 되지 않음
올바른 사용자 지정 지침을 작성하기 위한 주요 원칙
-
모호성 정의 - 여러 해석을 가질 수 있는 용어를 정의합니다.
-
비즈니스 로직 설명 - 계산, 임계값 및 분류를 문서화합니다.
-
컨텍스트 제공 - 단위, 기간, 통화 및 범위를 포함합니다.
-
가이드 사용 - 특정 분석에 사용할 필드를 설명합니다.
-
엣지 케이스에 대한 경고 - 데이터 품질 문제, 테스트 레코드 또는 특수 사례를 기록해 둡니다.
-
구체적으로 설명 - 구체적인 예제와 정확한 언어를 사용합니다.
의미 체계 보강에 대한 두 가지 접근 방식
수동 UI 기반 주석
데이터세트 작성자는 Quick Sight 인터페이스를 통해 데이터세트 및 열 설명과 사용자 지정 지침을 직접 추가합니다. Quick Sight는 UI에 설명을 눈에 띄게 표시하여 모든 사용자가 데이터 세트 콘텐츠, 열 정의 및 적절한 사용 사례를 이해하는 데 도움이 됩니다.
외부 카탈로그에서 파일 업로드
데이터 세트 작성자는 API 또는 UI를 통해 외부 카탈로그에서 의미 체계 메타데이터를 내보내고 데이터 세트당 파일을 YAML, JSON 또는 TXT 형식으로 연결할 수 있습니다. 이 정보는 UI에 표시되지 않고 AI 모델에서 사용하지만 카탈로그 수준 메타데이터를 대규모로 활성화합니다.
소비 계층: 데이터 세트 Q&A
데이터 세트 Q&A는 데이터 세트 보강 메타데이터를 사용하는 소비 계층입니다. 이를 통해 사용자는 사전 구축된 대시보드나 수동으로 구성된 주제 없이 액세스할 수 있는 데이터 세트에 대해 직접 개방형 자연어 질문을 할 수 있습니다.
AI 에이전트는 다음과 같은 방식으로 강화된 컨텍스트를 사용합니다.
-
자산 검색 - 에이전트는 데이터 세트 설명과 의미 체계 메타데이터를 사용하여 사용자의 질문에 적합한 데이터 세트를 식별합니다.
-
Text-to-SQL 생성 - 사용자 지정 지침, 열 설명 및 업로드된 메타데이터는 AI가 보다 정확한 SQL 쿼리를 생성하는 데 도움이 됩니다.
-
관리형 응답 - 모든 응답은 행 수준 보안(RLS) 및 열 수준 보안(CLS) 규칙을 준수합니다.
보강이 없으면 AI 에이전트에는 작업할 열 이름과 데이터 유형만 있으며, 이는 종종 모호합니다. 보강을 통해 에이전트는 다음을 수행하는 데 필요한 전체 비즈니스 컨텍스트를 수신합니다.
-
유사한 필드와 개념을 명확하게 구분합니다.
-
올바른 계산 및 필터 적용
-
비즈니스별 임계값 및 분류 이해
-
테스트 데이터를 제외하고 엣지 케이스를 적절하게 처리
데이터 세트에 의미 체계 컨텍스트를 추가한 후 사용자는 Q&A에서 데이터 세트를 참조하고 채팅을 통해 쿼리할 수 있습니다. AI 에이전트는 추가된 메타데이터를 사용하여 더 정확한 응답을 제공합니다.
요약
데이터 세트 강화는 AI 기반 분석을 위해 데이터 세트에 의미 체계 메타데이터를 추가합니다. 데이터 세트 작성자는 설명, 사용자 지정 지침 및 메타데이터 파일을 추가하는 데 몇 분을 투자하여 AI 기반 Q&A의 정확도를 개선하는 동시에 조직 전체의 모든 소비자가 데이터 세트를 더 쉽게 이해하고 액세스할 수 있도록 할 수 있습니다.