백스테이지 및 셀프 서비스 Amazon SageMaker AI 템플릿을 사용하여 MLOps 가속화 - 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

백스테이지 및 셀프 서비스 Amazon SageMaker AI 템플릿을 사용하여 MLOps 가속화

Ashish Bhatt, Shashank hirematt, Shivanshu Suryakar, Amazon Web Services

요약

기계 학습 운영(MLOps) 시스템을 사용하는 조직은 ML 인프라를 확장, 표준화 및 보호하는 데 상당한 어려움을 겪고 있습니다. 이 패턴은 오픈 소스 개발자 포털인 BackstageAmazon SageMaker AI 및 강화된 코드형 인프라(IaC) 모듈과 결합하여 데이터 과학 팀이 ML 워크플로를 개발, 배포 및 관리하는 방법을 개선하는 혁신적인 접근 방식을 도입합니다.

이 패턴의 IaC 모듈은 GitHub AWS AIOps 모듈 리포지토리에 제공됩니다. 이러한 모듈은 ML 인프라를 설정하고 일관된 ML 환경을 생성하기 위해 사전 구축된 템플릿을 제공합니다. 그러나 데이터 과학자는 인프라 전문 지식이 필요하기 때문에 이러한 템플릿을 직접 사용하는 데 어려움을 겪는 경우가 많습니다. Backstage와 같은 개발자 포털을 추가하면 데이터 과학자가 기본 인프라 세부 정보를 이해할 필요 없이 표준화된 ML 환경을 배포할 수 있는 사용자 친화적인 방법이 생성됩니다.

백스테이지를 셀프 서비스 플랫폼으로 사용하고 미리 구성된 SageMaker AI 템플릿을 통합하여 다음을 수행할 수 있습니다.

  • ML 이니셔티브의 가치 실현 시간을 단축합니다.

  • 일관된 보안 및 거버넌스를 적용하는 데 도움이 됩니다.

  • 데이터 과학자에게 표준화된 규정 준수 환경을 제공합니다.

  • 운영 오버헤드와 인프라 복잡성을 줄입니다.

이 패턴은 MLOps의 중요한 문제를 해결하는 솔루션을 제공하고 조직 표준을 유지하면서 혁신을 가능하게 하는 확장 가능하고 반복 가능한 프레임워크도 제공합니다.

대상 청중

이 패턴은 조직 내 ML, 클라우드 아키텍처 및 플랫폼 엔지니어링과 관련된 광범위한 대상을 대상으로 합니다. 여기에는 다음이 포함됩니다.

  • ML 워크플로 배포를 표준화하고 자동화하려는 ML 엔지니어.

  • 사전 구성되고 규정을 준수하는 ML 환경에 대한 셀프 서비스 액세스를 원하는 데이터 과학자.

  • 내부 개발자 플랫폼 및 공유 인프라를 구축하고 유지 관리할 책임이 있는 플랫폼 엔지니어.

  • MLOps를 위한 확장 가능하고 안전하며 비용 효율적인 클라우드 솔루션을 설계하는 클라우드 아키텍트입니다.

  • 지속적 통합 및 지속적 전달(CI/CD) 사례를 ML 인프라 프로비저닝 및 워크플로로 확장하는 데 관심이 있는 DevOps 엔지니어.

  • ML 이니셔티브를 감독하고 팀 생산성, 거버넌스 및 시장 출시 시간을 개선하고자 하는 기술 책임자 및 관리자.

MLOps 과제, SageMaker AI MLOps 모듈 및이 패턴에서 제공하는 솔루션이 ML 팀의 요구 사항을 해결하는 방법에 대한 자세한 내용은 추가 정보 섹션을 참조하세요.

사전 조건 및 제한 사항

사전 조건 

제한 사항

  • 제한된 템플릿 적용 범위. 현재이 솔루션은 광범위한 AIOps 솔루션의 SageMaker AI 관련 AIOps 모듈만 지원합니다. Amazon Elastic Kubernetes Service(Amazon EKS)의 Ray, MLflow, Apache Airflow, Amazon Bedrock의 미세 조정과 같은 다른 모듈은 아직 백스테이지 템플릿으로 사용할 수 없습니다.

  • 구성할 수 없는 기본 설정입니다. 템플릿은 사용자 지정 없이 AIOps SageMaker 모듈의 고정 기본 구성을 사용합니다. 특정 사용 사례에 대한 유연성을 제한하는 백스테이지 인터페이스를 통해 인스턴스 유형, 스토리지 크기, 네트워킹 구성 또는 보안 정책을 수정할 수 없습니다.

  • AWS만 지원됩니다. 플랫폼은 AWS 배포 전용으로 설계되었으며 멀티클라우드 시나리오를 지원하지 않습니다. 외부에서 클라우드 서비스를 사용하는 조직은 ML 인프라 요구 사항에 이러한 템플릿을 사용할 수 AWS 클라우드 없습니다.

  • 수동 자격 증명 관리. 각 배포에 대한 AWS 자격 증명을 수동으로 제공해야 합니다. 이 솔루션은 기업 자격 증명 공급자와의 통합 AWS IAM Identity Center또는 자동 자격 증명 교체를 제공하지 않습니다.

  • 제한적 수명 주기 관리. 템플릿에는 자동 정리 정책, 비용 최적화 권장 사항, 인프라 드리프트 감지와 같은 포괄적인 리소스 수명 주기 관리 기능이 없습니다. 생성된 후 배포된 리소스를 수동으로 관리하고 모니터링해야 합니다.

아키텍처

다음 다이어그램은 환경 전반에서 SageMaker AI를 사용하여 ML 인프라 배포를 표준화하고 가속화하는 통합 개발자 포털의 솔루션 아키텍처를 보여줍니다.

Backstage, CNOE, GitHub Actions 및 Seed-Farmer를 사용하는 통합 개발자 포털용 아키텍처입니다.

이 아키텍처에서,

  1. AWS 애플리케이션 현대화 블루프린트는 클라우드 네이티브 운영 우수성(CNOE) 프레임워크의 기반으로 Amazon EKS 클러스터를 사용하여 인프라 설정을 프로비저닝합니다. 이 포괄적인 솔루션은 확장 가능한 내부 개발자 플랫폼(IDP)을 제공하여 복잡한 클라우드 네이티브 인프라 관리 문제를 해결합니다. 블루프린트는 진화하는 조직의 요구 사항에 맞게 조정할 수 있는 강력하고 유연한 인프라를 설정하는 구조화된 접근 방식을 제공합니다.

  2. CNOE 오픈 소스 프레임워크는 통합 플랫폼 엔지니어링 접근 방식을 통해 DevOps 도구를 통합하고 에코시스템 조각화를 해결합니다. 서로 다른 도구와 기술을 결합하여 클라우드 네이티브 개발의 복잡한 환경을 간소화하므로 팀은 도구 체인 관리 대신 혁신에 집중할 수 있습니다. 프레임워크는 개발 도구를 선택, 통합 및 관리하기 위한 표준화된 방법론을 제공합니다.

  3. CNOE를 사용하면 Backstage가 Amazon EKS 클러스터 내에 out-of-the-box 가능한 솔루션으로 배포됩니다. 백스테이지는Keycloak를 통한 강력한 인증과Argo CD를 통한 포괄적인 배포 워크플로로 번들링됩니다. 이 통합 플랫폼은 개발 프로세스를 관리하기 위한 중앙 집중식 환경을 만들고 팀이 여러 환경에서 인프라와 애플리케이션에 액세스, 배포 및 모니터링할 수 있는 단일 위치를 제공합니다.

  4. GitHub 리포지토리에는 전체 SageMaker AI 수명 주기를 포함하는 사전 구성된 AIOps 소프트웨어 템플릿이 포함되어 있습니다. 이러한 템플릿은 SageMaker Studio 프로비저닝, 모델 훈련, 추론 파이프라인 및 모델 모니터링을 비롯한 중요한 ML 인프라 요구 사항을 해결합니다. 이러한 템플릿은 ML 이니셔티브를 가속화하고 다양한 프로젝트 및 팀 간의 일관성을 보장하는 데 도움이 됩니다.

  5. GitHub ActionsSeed-Farmer 유틸리티를 통해 리소스 프로비저닝을 동적으로 트리거하는 자동화된 워크플로를 구현합니다. 이 접근 방식은 백스테이지 카탈로그를 AIOps 모듈 리포지토리와 통합하고 간소화된 인프라 배포 프로세스를 생성합니다. 이 자동화는 수동 개입을 줄이고 인적 오류를 최소화하며 다양한 환경에서 빠르고 일관된 인프라 생성을 보장합니다.

  6. 는 코드형 인프라를 정의하고 프로비저닝하는 AWS CDK 데 도움이 되며 지정된 간에 반복 가능하고 안전하며 규정을 준수하는 리소스 배포를 보장합니다 AWS 계정. 이 접근 방식은 최소한의 수동 개입으로 최대 거버넌스를 제공하므로 쉽게 복제, 버전 제어 및 감사할 수 있는 표준화된 인프라 템플릿을 생성할 수 있습니다.

도구

AWS 서비스

  • AWS 클라우드 개발 키트 (AWS CDK)는 코드로 AWS 클라우드 인프라를 정의하고 프로비저닝하는 데 도움이 되는 소프트웨어 개발 프레임워크입니다.

  • Amazon Elastic Kubernetes Service(Amazon EKS)를 사용하면 자체 Kubernetes 컨트롤 플레인 또는 노드를 설치하거나 유지 관리할 필요 AWS 없이에서 Kubernetes를 실행할 수 있습니다.

  • Amazon SageMaker AI는 ML 모델을 빌드 및 훈련한 다음 프로덕션 지원 호스팅 환경에 배포하는 데 도움이 되는 관리형 ML 서비스입니다.

기타 도구

  • 백스테이지는 내부 개발자 포털을 구축하는 데 도움이 되는 오픈 소스 프레임워크입니다.

  • GitHub Actions는 코드 빌드, 테스트 및 배포와 같은 작업을 포함하여 소프트웨어 개발 워크플로를 자동화하는 CI/CD 플랫폼입니다.

코드 리포지토리

이 패턴은 다음 GitHub 리포지토리의 코드와 템플릿을 사용합니다.

구현

이 구현은 리포지토리의 최신 엔지니어링 AWS에서 백스테이지용 프로덕션급 배포 패턴을 사용합니다. 이 접근 방식은 보안 및 확장성에 대한 AWS 모범 사례를 통합하면서 설정 프로세스를 크게 간소화합니다.

이 패턴의 에픽 섹션에서는 구현 접근 방식을 간략하게 설명합니다. 자세한 step-by-step 배포 지침은 Backstage 리포지토리가 있는 AIOps 내부 개발자 플랫폼(IDP)에서 제공되는 포괄적인 배포 가이드를 참조하세요. 구현에는 다음이 포함됩니다.

  • 초기 백스테이지 플랫폼 배포

  • SageMaker 소프트웨어 템플릿을 백스테이지와 통합

  • 백스테이지 템플릿 사용 및 유지 관리

배포 가이드에는 지속적인 유지 관리, 문제 해결 및 플랫폼 조정에 대한 지침도 포함되어 있습니다.

모범 사례

MLOps 인프라 구현에서 보안, 거버넌스 및 운영 우수성을 보장하려면 다음 모범 사례를 따르세요.

템플릿 관리

  • 라이브 템플릿을 절대 변경하지 마세요.

  • 프로덕션 배포 전에 항상 업데이트를 철저히 테스트합니다.

  • 명확하고 잘 문서화된 템플릿 버전을 유지 관리합니다.

[Security]

  • GitHub 작업을 특정 커밋 보안 해시 알고리즘(SHAs)에 고정하여 공급망 공격을 방지합니다.

  • 세분화된 권한으로 최소 권한 IAM 역할을 사용합니다.

  • GitHub 보안 암호 및에 민감한 자격 증명을 저장합니다AWS Secrets Manager.

  • 템플릿에서 자격 증명을 하드코딩하지 마십시오.

거버넌스 및 추적

  • 포괄적인 리소스 태그 지정 표준을 구현합니다.

  • 정확한 비용 추적 및 규정 준수 모니터링을 활성화합니다.

  • 인프라 변경에 대한 명확한 감사 추적을 유지 관리합니다.

이 가이드는 Backstage, SageMaker AI 및 IaC 모듈을 사용하여 이러한 모범 사례를 구현하기 위한 강력한 기반을 제공합니다.

에픽

작업설명필요한 기술

백스테이지를 배포합니다.

이 단계에서는 리포지토리의 최신 엔지니어링의 AWS 블루프린트를 사용하여 여러를 통합하여 ML 워크플로 AWS 서비스 를 위한 중앙 집중식 IDP를 생성하는 강력하고 확장 가능한 인프라를 구축합니다. 배포 가이드의 백스테이지 배포 섹션에 있는 지침에 따라 리포지토리를 복제하고, 종속성을 설치하고, 환경 변수 AWS CDK 구성을 부트스트랩하고, 백스테이지 플랫폼을 배포합니다.

인프라는 Amazon EKS를 IDP 구성 요소를 배포하기 위한 컨테이너 오케스트레이션 플랫폼으로 사용합니다. Amazon EKS 아키텍처에는 엄격한 네트워크 격리를 설정하고 액세스 패턴을 제어하는 보안 네트워킹 구성이 포함되어 있습니다. 플랫폼은 인증 메커니즘과 통합되어 서비스 및 환경 전반에서 사용자 액세스를 보호합니다.

플랫폼 엔지니어

SageMaker AI 템플릿을 설정합니다.

이 단계에서는 백스테이지 리포지토리와 함께 GitHub AIOps 내부 개발자 플랫폼(IDP)의 스크립트를 사용합니다. AIOps 배포 가이드의 SageMaker 템플릿 설정 섹션에 있는 지침에 따라 리포지토리를 복제하고, 사전 조건을 설정하고, 설정 스크립트를 실행합니다.

이 프로세스는 백스테이지와의 통합에 필요한 SageMaker AI 템플릿을 포함하는 리포지토리를 생성합니다.

플랫폼 엔지니어

SageMaker AI 템플릿을 백스테이지와 통합합니다.

배포 가이드의 SageMaker 템플릿 통합 섹션에 있는 지침에 따라 SageMaker AI 템플릿을 등록합니다.

이 단계에서는 AIOps 모듈(마지막 단계의 SageMaker AI 템플릿)을 백스테이지 배포에 통합하여 ML 인프라 요구 사항을 셀프 서비스할 수 있습니다.

플랫폼 엔지니어

백스테이지의 SageMaker AI 템플릿을 사용합니다.

배포 가이드의 SageMaker 템플릿 사용 섹션의 지침에 따라 Backstage 포털에 액세스하고 SageMaker Studio에서 ML 환경을 생성합니다.

백스테이지 포털에서 SageMaker Studio 환경, SageMaker 노트북, 사용자 지정 SageMaker 프로젝트 템플릿 및 모델 배포 파이프라인에 대한 옵션을 포함하여 사용 가능한 SageMaker AI 템플릿 중에서 선택할 수 있습니다. 구성 파라미터를 제공하면 플랫폼은 전용 리포지토리를 자동으로 생성하고 GitHub Actions 및 Seed-Farmer를 통해 AWS 리소스를 프로비저닝합니다. GitHub Actions 로그와 백스테이지 구성 요소 카탈로그를 통해 진행 상황을 모니터링할 수 있습니다.

데이터 과학자, 데이터 엔지니어, 개발자
작업설명필요한 기술

SageMaker AI 템플릿을 업데이트합니다.

백스테이지에서 SageMaker AI 템플릿을 업데이트하려면 다음 단계를 따르세요.

  1. 템플릿 콘텐츠를 수정합니다.

    1. template.yaml 파일에서 필요한 사항을 변경하거나 skeleton/ 디렉터리의 파일을 편집합니다.

    2. 로컬 또는 개발 환경에서 새 파라미터, 작업 또는 파일 구조를 테스트합니다.

  2. 테스트 변경 사항:

    1. 백스테이지 UI 또는 CLI(@backstage/create-app)를 사용하여 업데이트된 템플릿을 사용하여 테스트 구성 요소를 스캐폴드합니다.

    2. 모든 단계가 성공적으로 실행되고 생성된 코드가 기대치를 충족하는지 확인합니다.

  3. 변경 사항을 커밋하고 푸시합니다.

    1. 변경 사항을 템플릿이 저장되는 Git 리포지토리로 푸시합니다.

      템플릿이 특정 브랜치(예: main)에 등록된 경우 업데이트가 자동으로 반영됩니다.

    2. 버전 관리를 사용하는 경우(다음 단계 참조) 올바른 버전 또는 태그가 업데이트되었는지 확인합니다.

플랫폼 엔지니어

템플릿의 여러 버전을 생성하고 관리합니다.

주요 변경 사항 또는 업그레이드의 경우 SageMaker AI 템플릿의 여러 버전을 생성해야 할 수 있습니다.

  1. 각 버전에 대해 Git 태그 또는 브랜치를 사용합니다. 예:

    git checkout -b v2.0.0 git push origin v2.0.0
  2. (선택 사항이지만 권장됨) 각 버전을 별도로 등록합니다.

    백스테이지에서는 다양한 버전의 템플릿을 카탈로그에 별도의 엔터티로 등록할 수 있습니다. 여기서 각 엔터티는 특정 브랜치 또는 태그를 가리킵니다. 예(.yaml파일의 경우):

    metadata: name: node-service-template-v2 description: Node.js service template - Version 2 spec: type: template lifecycle: experimental version: '2.0.0'
  3. 템플릿 리포지토리에 CHANGELOG.md 파일을 유지하여 변경 사항을 명확하게 전달합니다. 이 파일에서 템플릿의 각 버전에 도입된 기능 또는 변경 사항을 문서화합니다.

  4. 필요한 경우 이전 버전의 템플릿을 사용 중지합니다.

    1. 템플릿 설명에서 더 이상 사용되지 않는 것으로 표시합니다.

    2. 더 이상 필요하지 않은 경우 카탈로그에서 버전을 제거합니다.

플랫폼 엔지니어
작업설명필요한 기술

SageMaker AI를 넘어 템플릿 적용 범위를 확장합니다.

현재 솔루션은 SageMaker AI 관련 AIOps 템플릿만 구현합니다. AIOps 모듈을 추가하고 추가 AWS 서비스 및 애플리케이션을 위한 사용자 지정 소프트웨어 템플릿을 통합하여 ML 환경을 확장할 수 있습니다. 백스테이지에서 템플릿 디자이너 인터페이스를 사용하거나, 사용자 지정 스캐폴더 작업을 구현하거나, 표준 메타데이터로 템플릿 리포지토리를 유지 관리하여 이를 생성할 수 있습니다. 플랫폼은 일관성을 위해 템플릿 버전 관리, 팀 간 공유 및 검증 워크플로를 지원합니다. 자세한 내용은 백스테이지 설명서를 참조하세요.

템플릿 상속 패턴을 구현하여 기본 템플릿의 특수 버전을 생성할 수도 있습니다. 이러한 확장성을 통해 SageMaker AI를 넘어 다양한 AWS 리소스와 애플리케이션을 관리하는 동시에 간소화된 개발자 환경을 유지하고 조직의 표준을 유지할 수 있습니다.

플랫폼 엔지니어

동적 파라미터 주입을 사용합니다.

현재 템플릿은 사용자 지정 없이 기본 구성을 사용하고 Seed-Farmer CLI를 실행하여 기본 변수가 있는 리소스를 배포합니다. 모듈별 구성에 동적 파라미터 주입을 사용하여 기본 구성을 확장할 수 있습니다.

플랫폼 엔지니어

보안 및 규정 준수를 개선합니다.

AWS 리소스 생성 시 보안을 강화하기 위해 역할 기반 액세스 제어(RBAC)와 Single Sign-On(SSO), SAML, OpenID Connect(OIDC) 및 정책을 코드 적용으로 사용할 수 있습니다.

플랫폼 엔지니어

자동 리소스 정리를 추가합니다.

자동 정리 정책에 대한 기능을 활성화하고 인프라 드리프트 감지 및 문제 해결을 추가할 수도 있습니다.

플랫폼 엔지니어
작업설명필요한 기술

백스테이지 인프라 및 SageMaker AI 리소스를 제거합니다.

ML 환경 사용을 마치면 배포 가이드의 정리 및 리소스 관리 섹션에 있는 지침에 따라 백스테이지 인프라를 제거하고 ML 환경에서 SageMaker AI 리소스를 삭제합니다.

플랫폼 엔지니어

문제 해결

문제Solution

AWS CDK 부트스트랩 실패

AWS 자격 증명 및 리전 구성을 확인합니다.

Amazon EKS 클러스터 액세스 문제

kubectl 구성 및 IAM 권한을 확인합니다.

Application Load Balancer 연결 문제

보안 그룹이 포트 80/443에서 인바운드 트래픽을 허용하는지 확인합니다.

GitHub 통합 문제

GitHub 토큰 권한 및 조직 액세스를 확인합니다.

SageMaker AI 배포 실패

AWS 서비스 할당량 및 IAM 권한을 확인합니다.

관련 리소스

추가 정보

비즈니스 과제

MLOps 이니셔티브를 시작하거나 확장하는 조직은 다음과 같은 비즈니스 및 기술 문제에 자주 직면합니다.

  • 일관되지 않은 환경. 표준화된 개발 및 배포 환경이 부족하면 협업이 어렵고 배포 위험이 증가합니다.

  • 수동 프로비저닝 오버헤드. SageMaker Studio, Amazon Simple Storage Service(Amazon S3) 버킷, IAM 역할 및 CI/CD 파이프라인을 사용하여 ML 인프라를 수동으로 설정하는 것은 시간이 많이 걸리고 오류가 발생하기 쉬우며 데이터 사이언티스트를 모델 개발의 핵심 작업에서 전환합니다.

  • 검색 가능성 및 재사용이 부족합니다. 중앙 집중식 카탈로그가 없기 때문에 기존 ML 모델, 데이터 세트 및 파이프라인을 찾기가 어렵습니다. 이로 인해 중복 작업이 발생하고 재사용 기회가 누락됩니다.

  • 복잡한 거버넌스 및 규정 준수. ML 프로젝트가 조직의 보안 정책, 데이터 개인 정보 보호 규정 및 HIPAA(Health Insurance Portability and Accountability Act) 및 GDPR(General Data Protection Regulation)과 같은 규정 준수 표준을 준수하도록 하는 것은 자동화된 가드레일 없이는 어려울 수 있습니다.

  • 느린 값 지정 시간입니다. 이러한 문제가 누적되면 ML 프로젝트 수명 주기가 연장되고 ML 투자로 인한 비즈니스 가치 실현이 지연됩니다.

  • 보안 위험. 구성 및 수동 프로세스가 일관되지 않으면 보안 취약성이 발생하여 최소 권한 및 네트워크 격리를 적용하기 어려울 수 있습니다.

이러한 문제는 개발 주기를 연장하고 운영 오버헤드를 높이며 보안 위험을 초래합니다. ML의 반복적인 특성에는 반복 가능한 워크플로와 효율적인 협업이 필요합니다.

2026년까지 소프트웨어 엔지니어링 조직의 80%에 플랫폼 팀이 있을 것으로 예상됩니다. (Gartner 웹 사이트의 Platform Engineering Empowers Developers to be Better, Faster, Happier를 참조하세요.) 이 예측은 IDP가 소프트웨어 전송을 가속화하는 방법을 강조합니다. IDP인 백스테이지는 복잡한 인프라로 순서를 복원하는 데 도움이 되므로 팀이 고품질 코드를 빠르고 안전하게 제공할 수 있습니다. 백스테이지와 강화된 AIOps 모듈을 통합하면 사후 문제 해결에서 사전 예방으로 전환할 수 있습니다.

MLOps SageMaker 모듈

이 패턴에 사용되는 GitHub 리포지토리의 AIOps 모듈은 재사용 가능하고 강화된 IaC를 AWS 통해에서 MLOps를 표준화하기 위한 중요한 기반을 제공합니다. 이러한 모듈은 복잡성을 줄이고 ML 환경 설정을 가속화하는 것을 목표로 SageMaker 프로젝트, 파이프라인 및 관련 네트워킹 및 스토리지 리소스를 프로비저닝하는 모범 사례를 캡슐화합니다. 이러한 템플릿을 다양한 MLOps 사용 사례에 사용하여 ML 워크플로에 대한 보다 통제되고 효율적인 접근 방식을 조성하는 일관되고 안전한 배포 패턴을 설정할 수 있습니다.

AIOps 모듈을 직접 사용하려면 플랫폼 팀이 이러한 IaC 템플릿을 배포하고 관리해야 하는 경우가 많으므로 셀프 서비스 액세스를 원하는 데이터 과학자에게 문제가 발생할 수 있습니다. 사용 가능한 템플릿을 검색하고 이해하며, 필요한 파라미터를 구성하고, 배포를 트리거하려면 AWS 서비스 콘솔을 탐색하거나 IaC 도구와 직접 상호 작용해야 할 수 있습니다. 이렇게 하면 마찰이 발생하고, ML 작업에 집중하려는 데이터 과학자의 인지 부하가 증가하며, 중앙 집중식의 사용자 친화적 인터페이스를 통해 이러한 템플릿을 관리하지 않으면 파라미터화가 일관되지 않거나 조직 표준에서 벗어나게 될 수 있습니다. 이러한 강력한 AIOps 모듈을 백스테이지와 같은 IDP와 통합하면 이러한 표준화된 MLOps 구성 요소를 사용하기 위한 간소화된 셀프 서비스 환경, 향상된 검색 가능성 및 강력한 거버넌스 제어를 제공하여 이러한 문제를 해결하는 데 도움이 됩니다.

IDP로서의 백스테이지

내부 개발자 플랫폼(IDP)은 플랫폼 팀이 개발자가 애플리케이션을 구축, 배포 및 관리하는 방법을 단순화하고 표준화하기 위해 구축한 셀프 서비스 계층입니다. 인프라 복잡성을 추상화하고 개발자가 통합 인터페이스를 통해 도구, 환경 및 서비스에 쉽게 액세스할 수 있도록 합니다.

IDP의 주요 목표는 다음을 통해 개발자 경험과 생산성을 개선하는 것입니다.

  • 서비스 생성 및 배포와 같은 작업에 대한 셀프 서비스 활성화.

  • 표준 템플릿을 통해 일관성과 규정 준수를 촉진합니다.

  • 개발 수명 주기(CI/CD, 모니터링 및 설명서) 전반에 걸쳐 도구를 통합합니다.

백스테이지는 Spotify에서 생성한 오픈 소스 개발자 포털이며 이제 CNCF(Cloud Native Computing Foundation)의 일부입니다. 이를 통해 조직은 소프트웨어 구성 요소, 도구 및 설명서를 관리할 수 있는 확장 가능한 중앙 집중식 플랫폼을 제공하여 자체 IDP를 구축할 수 있습니다. 백스테이지에서 개발자는 다음을 수행할 수 있습니다.

  • 소프트웨어 카탈로그를 통해 모든 내부 서비스를 검색하고 관리합니다.

  • 스캐폴더 플러그인을 통해 사전 정의된 템플릿을 사용하여 새 프로젝트를 생성합니다.

  • 한 위치에서 CI/CD 파이프라인, Kubernetes 대시보드, 모니터링 시스템과 같은 통합 도구에 액세스합니다.

  • TechDocs를 통해 일관된 마크다운 기반 설명서를 유지 관리합니다.

FAQ

이 백스테이지 템플릿을 사용하는 것과 SageMaker 콘솔을 통해 SageMaker Studio를 수동으로 배포하는 것의 차이점은 무엇인가요?

백스테이지 템플릿은 조직 모범 사례를 따르는 표준화된 구성, Seed-Farmer 및를 사용한 자동화된 IaC 배포 AWS CDK, 기본 제공 보안 정책 및 규정 준수 조치, GitHub를 통한 조직의 개발자 워크플로와의 통합 등 수동 AWS 콘솔 배포에 비해 여러 가지 이점을 제공합니다. 또한 템플릿은 버전 제어를 사용하여 재현 가능한 배포를 생성하므로 다양한 단계(개발, 스테이징, 프로덕션)에서 환경을 더 쉽게 복제하고 팀 간에 일관성을 유지할 수 있습니다. 또한 템플릿에는 자동 정리 기능이 포함되어 있으며 백스테이지를 통해 조직의 자격 증명 관리 시스템과 통합됩니다. 콘솔을 통한 수동 배포에는 심층적인 AWS 전문 지식이 필요하며 버전 제어 또는 템플릿이 제공하는 것과 동일한 수준의 표준화 및 거버넌스를 제공하지 않습니다. 이러한 이유로 콘솔 배포는 프로덕션 ML 환경보다 일회성 실험에 더 적합합니다.

Seed-Farmer란 무엇이며이 솔루션이 이를 사용하는 이유는 무엇입니까?

Seed-Farmer는를 사용하여 인프라 모듈을 관리하는 AWS 배포 오케스트레이션 도구입니다 AWS CDK. 이 패턴은 AI/ML 워크로드용으로 특별히 설계된 표준화된 재사용 가능한 인프라 구성 요소를 제공하고, 간의 복잡한 종속성을 AWS 서비스 자동으로 처리하고, 다양한 환경에 걸쳐 일관된 배포를 보장하기 때문에 Seed-Farmer를 사용합니다.

이러한 템플릿을 사용하려면 AWS CLI 를 설치해야 하나요?

아니요. 컴퓨터에 AWS CLI 를 설치할 필요가 없습니다. 템플릿은 클라우드의 GitHub Actions를 통해 완전히 실행됩니다. 백스테이지 인터페이스를 통해 AWS 자격 증명(액세스 키, 보안 키 및 세션 토큰)을 제공하면 GitHub Actions 환경에서 배포가 자동으로 수행됩니다.

SageMaker Studio 환경을 배포하는 데 얼마나 걸리나요?

일반적인 SageMaker Studio 배포를 완료하는 데 15~25분이 걸립니다. 여기에는 AWS CDK 부트스트래핑(2~3분), Seed-Farmer 도구 체인 설정(3~5분), 리소스 생성(10~15분)이 포함됩니다. 정확한 시간은 AWS 리전 및 네트워킹 설정의 복잡성에 따라 달라집니다.

동일한에 여러 SageMaker 환경을 배포할 수 있나요 AWS 계정?

예, 가능합니다. 각 배포는 템플릿에 제공한 구성 요소 이름을 기반으로 고유한 이름을 가진 리소스를 생성합니다. 그러나 할당 AWS 서비스 량에 유의하세요. 각 계정에는 리전당 제한된 수의 SageMaker 도메인이 있을 수 있으므로 여러 환경을 생성하기 전에 할당량을 확인하세요.