

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 분석을 사용하여 데이터 탐색
<a name="canvas-explore-data-analytics"></a>

**참고**  
SageMaker Canvas 분석은 테이블 형식 데이터세트를 기반으로 구축된 모델에만 사용할 수 있습니다. 다중 카테고리 텍스트 예측 모델도 제외됩니다.

Amazon SageMaker Canvas의 분석을 사용하면 모델을 구축하기 전에 데이터세트를 탐색하고 모든 변수에 대한 통찰력을 얻을 수 있습니다. 상관 행렬을 사용하여 데이터세트의 기능 간 관계를 확인할 수 있습니다. 이 기법을 사용하여 데이터세트를 두 개 이상의 값 간의 상관 관계를 보여주는 행렬로 요약할 수 있습니다. 이를 통해 특정 데이터세트의 패턴을 식별하고 시각화하여 고급 데이터 분석을 수행할 수 있습니다.

행렬은 각 기능 간의 상관 관계를 양수, 음수 또는 중립으로 보여줍니다. 모델을 구축할 때 서로 상관관계가 높은 기능을 포함하는 것이 좋습니다. 상관 관계가 거의 또는 전혀 없는 기능은 모델과 관련이 없을 수 있으므로 모델을 만들 때 이러한 기능을 삭제할 수 있습니다.

SageMaker Canvas에서 상관 행렬을 시작하려면 다음 섹션을 참조하세요.

## 상관 행렬 생성
<a name="canvas-explore-data-analytics-correlation-matrix"></a>

SageMaker Canvas 애플리케이션의 **빌드** 탭에서 모델을 빌드할 준비를 할 때 상관 행렬을 만들 수 있습니다.

모델 생성 시작 방법에 대한 지침은 [모델 빌드](canvas-build-model-how-to.md)을 참조하세요.

SageMaker Canvas 애플리케이션에서 모델 준비를 시작한 후 다음을 수행하세요.

1. **빌드** 탭에서 **데이터 시각화 도우미**를 선택합니다.

1. 그런 다음 **분석**을 선택합니다.

1. **상관 행렬**을 선택합니다.

상관 행렬로 구성된 최대 15개의 데이터세트 열을 보여주는 다음 스크린샷과 유사한 시각화가 표시됩니다.

![Canvas 애플리케이션의 상관 행렬 스크린샷입니다.](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/canvas-correlation-matrix-2.png)


상관 행렬을 만든 후 다음을 수행하여 이를 사용자 지정할 수 있습니다.

### 1. 열 선택
<a name="canvas-explore-data-analytics-correlation-matrix-columns"></a>

**열**의 경우 행렬에 포함시키고자 하는 열을 선택할 수 있습니다. 데이터세트에서 최대 15개의 열을 비교할 수 있습니다.

**참고**  
상관 행렬에는 숫자형, 범주형 또는 바이너리 열 유형을 사용할 수 있습니다. 상관 행렬은 날짜/시간 또는 텍스트 데이터 열 유형을 지원하지 않습니다.

상관 행렬에서 열을 추가하거나 제거하려면 **열** 패널에서 열을 선택하고 선택 취소하세요. 패널의 열을 행렬로 직접 끌어서 놓을 수도 있습니다. 데이터세트에 열이 많은 경우 **열 검색** 표시줄에서 원하는 열을 검색할 수 있습니다.

데이터 유형별로 열을 필터링하려면 드롭다운 목록을 선택하고 **모두**, **숫자** 또는 **범주형**을 선택합니다. **모두**를 선택하면 데이터세트의 모든 열이 표시되는 반면, **숫자형** 및 **범주형** 필터는 데이터세트의 숫자형 또는 범주형 열만 표시됩니다. 바이너리 열 유형은 숫자 또는 범주형 필터에 포함됩니다.

최상의 데이터 통찰력을 얻으려면 상관 행렬에 대상 열을 포함시키세요. 상관 행렬에 대상 열을 포함하면 대상 기호와 함께 행렬의 마지막 기능으로 나타납니다.

### 2. 상관 유형 선택
<a name="canvas-explore-data-analytics-correlation-matrix-cor-type"></a>

SageMaker Canvas는 다양한 *상관 유형* 또는 열 간의 상관 관계를 계산하는 방법을 지원합니다.

상관 관계 유형을 변경하려면 이전 섹션에서 언급한 **열** 필터를 사용하여 원하는 열 유형 및 열을 필터링하세요. 사이드 패널에 **상관 관계 유형**이 표시되어야 합니다. 수치로 비교하려면 **Pearson** 또는 **Spearman**을 선택할 수 있습니다. 범주형 비교의 경우 상관 관계 유형은 **MI**로 설정됩니다. 범주형 비교와 혼합 비교의 경우 상관 관계 유형은 **Spearman 및 MI**로 설정됩니다.

숫자형 열만 비교하는 행렬의 경우 상관 관계 유형은 Pearson 또는 Spearman입니다. Pearson 측정값은 두 연속형 변수 사이의 선형 관계를 평가합니다. Spearman 측정값은 두 변수 간의 단조 관계를 평가합니다. Pearson과 Spearman의 상관 척도 범위는 -1에서 1 사이이며, 상관 척도의 양쪽 끝은 완전한 상관(직접적인 1:1 관계)을 나타내고 0은 상관이 없음을 나타냅니다. [산점도 시각화](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-explore-data.html#canvas-explore-data-scatterplot)를 통해 알 수 있듯이 데이터에 더 많은 선형 관계가 있는 경우 Pearson을 선택할 수 있습니다. 데이터가 선형이 아니거나 선형 관계와 단조 관계가 혼합되어 있는 경우에는 Spearman을 선택하는 것이 좋습니다.

범주형 열만 비교하는 행렬의 경우 상관관계 유형은 상호 정보 분류(MI)로 설정됩니다. MI 값은 두 무작위 변수 간의 상호 의존성을 측정한 값입니다. MI 측정값은 0에서 1까지의 척도로, 0은 상관관계가 없음을 나타내고 1은 완벽한 상관관계를 나타냅니다.

숫자 열과 범주형 열의 혼합을 비교하는 행렬의 경우 상관관계 유형인 **Spearman 및 MI**는 Spearman과 MI 상관관계 유형의 조합입니다. 두 숫자 열 간의 상관관계에 대한 행렬은 Spearman 값을 나타냅니다. 숫자 열과 범주형 열 또는 두 범주형 열 간의 상관관계에 대해 행렬에는 MI 값이 표시됩니다.

마지막으로, 상관관계가 반드시 인과관계를 나타내는 것은 아니라는 점을 기억하세요. 상관관계 값이 크다는 것은 두 변수 사이에 관계가 있다는 것을 의미할 뿐, 변수에는 인과 관계가 없을 수도 있습니다. 모델을 구축할 때 편향이 생기지 않도록 관심 있는 열을 주의 깊게 검토하세요.

### 3. 상관 관계 필터링
<a name="canvas-explore-data-analytics-correlation-matrix-filter"></a>

사이드 패널에서 **상관관계 필터** 기능을 사용하여 행렬에 포함하려는 상관관계 값의 범위를 필터링할 수 있습니다. 예를 들어 양의 상관관계 또는 중립 상관관계만 있는 기능을 필터링하려는 경우 **최소값**을 0으로, **최대값**을 1로 설정할 수 있습니다(유효한 값은 -1\~1).

Spearman과 Pearson 비교의 경우 **필터 상관관계** 범위를 -1에서 1 사이로 설정할 수 있습니다.여기서 0은 상관 관계가 없음을 의미합니다.-1과 1은 각각 변수에 강한 음의 상관관계 또는 양의 상관관계가 있음을 의미합니다.

MI 비교의 경우 상관관계 범위는 0에서 1까지만 적용되며, 0은 상관관계가 없음을 의미하고 1은 변수에 양수 또는 음의 강한 상관관계가 있음을 의미합니다.

각 기능은 자체적으로 완벽한 상관관계 (1) 를 갖습니다. 따라서 상관관계 행렬의 맨 위 행은 항상 1이라는 것을 알 수 있습니다. 이러한 값을 제외하려는 경우 필터를 사용하여 **최대값**을 1보다 작게 설정할 수 있습니다.

행렬에서 숫자 열과 범주형 열의 혼합을 비교하고 **Spearman 및 MI** 상관관계 유형을 사용하는 경우, *범주형 x 숫자형* 및 *범주형 x 범주형* 상관관계(MI 측정값 사용)는 0에서 1의 척도인 반면, *숫자형 x 숫자형* 상관관계(Spearman 측정값 사용)는 -1에서 1의 척도라는 점을 기억하세요. 관심 있는 상관관계를 주의 깊게 검토하여 각 값을 계산하는 데 사용되는 상관관계 유형을 알고 있는지 확인하세요.

### 4. 시각화 메서드 선택
<a name="canvas-explore-data-analytics-correlation-matrix-viz-method"></a>

사이드 패널에서 **시각화 기준**을 사용하여 행렬의 시각화 방법을 변경할 수 있습니다. 상관관계(Pearson, Spearman 또는 MI) 값을 표시하려면 **숫자** 시각화 방법을 선택하고, 서로 다른 크기와 색상의 점으로 상관관계를 시각화하려면 **크기** 시각화 방법을 선택합니다. **크기**를 선택할 경우 행렬의 특정 점을 마우스로 가리키면 실제 상관관계 값을 볼 수 있습니다.

### 5. 색상표 선택
<a name="canvas-explore-data-analytics-correlation-matrix-color"></a>

사이드 패널에서 **색상 선택**을 사용하여 행렬의 음의 상관관계를 양의 상관관계로로 스케일링하는 데 사용되는 색상표를 변경할 수 있습니다. 매트릭스에 사용되는 색상을 변경하려면 대체 색상표 중 하나를 선택하세요.