데이터 파티셔닝을 사용하여 마이그레이션 가속화 - AWS DataSync

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

데이터 파티셔닝을 사용하여 마이그레이션 가속화

대규모 마이그레이션의 경우 데이터세트를 여러 DataSync 작업으로 파티셔닝하는 것이 좋습니다. 소스 데이터를 여러 작업(필요한 경우 에이전트)으로 분할하면 전송을 병렬로 처리하고 마이그레이션 타임라인을 줄일 수 있습니다.

파티셔닝은 DataSync 할당량 내에서 작업의 모니터링 및 디버깅을 간소화하는 데도 도움이 됩니다.

다음 다이어그램은 여러 DataSync 작업 및 에이전트를 사용하여 동일한 소스 스토리지 위치에서 데이터를 전송하는 방법을 보여줍니다. 이 시나리오에서 각 작업은 소스 위치의 특정 폴더를 대상으로 합니다. 이러한 방식에 대한 자세한 내용과 예시는 AWS DataSync 스케일 아웃 아키텍처로 데이터 전송을 가속화하는 방법을 참조하세요.

DataSync를 사용하여 소스 데이터를 파티셔닝하고 대규모 마이그레이션을 가속화하는 한 가지 접근 방식을 보여주는 다이어그램입니다.

폴더 또는 접두사별로 데이터세트 파티셔닝

DataSync 소스 위치 생성 시 DataSync가 읽을 폴더, 디렉터리, 접두사를 지정할 수 있습니다. 예를 들어 최상위 디렉터리가 있는 파일 공유를 마이그레이션하는 경우 다른 디렉터리 경로를 지정하여 여러 위치를 생성할 수 있습니다. 그런 다음 이러한 위치를 사용하여 마이그레이션 중에 여러 DataSync 작업을 실행할 수 있습니다.

필터를 사용하여 데이터세트 파티셔닝

전송 시 필터를 적용하여 소스 위치의 데이터를 포함하거나 제외할 수 있습니다. 대규모 마이그레이션 맥락에서 필터는 데이터세트의 특정 부분으로 작업 범위를 지정하는 데 도움이 될 수 있습니다.

예를 들어 연도별로 구성된 아카이브 데이터를 마이그레이션하는 경우 특정 연도 또는 여러 연도에 일치하는 포함 필터를 생성할 수 있습니다. 작업을 실행할 때마다 다른 연도와 일치하도록 필터를 수정할 수도 있습니다.

매니페스트를 사용하여 데이터세트 파티셔닝

매니페스트는 DataSync가 전송하려는 파일 또는 객체의 목록입니다. 매니페스트를 사용하면 DataSync가 전송할 대상을 결정하기 위해 소스 위치의 모든 데이터를 읽을 필요가 없습니다.

소스 스토리지의 인벤토리에서 또는 이벤트 기반 접근 방식을 통해 매니페스트를 생성할 수 있습니다(예: 수억 개의 객체를 가지고 AWS DataSync 구현 참조). 작업을 시작할 때마다 다른 매니페스트를 사용하면, 같은 작업을 통해 다양한 데이터세트를 전송할 수 있습니다.