

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 사용자 지정 데이터 소스
<a name="feature-store-feature-processor-data-sources-custom"></a>

이 페이지에서는 사용자 지정 데이터 소스 클래스를 만드는 방법을 설명하고 몇 가지 사용 예를 보여줍니다. 사용자 지정 데이터 소스를 사용하면 Amazon SageMaker Feature Store에서 제공한 데이터 소스를 사용하는 것과 동일한 방식으로 SageMaker AI SDK for Python(Boto3)이 제공하는 API를 사용할 수 있습니다.

특성 처리를 통해 사용자 지정 데이터 소스를 사용하여 데이터를 특성 그룹으로 변환하고 수집하려면 다음 클래스 멤버 및 함수로 `PySparkDataSource`클래스를 확장해야 합니다.
+ `data_source_name` (str): 데이터 소스의 임의 이름입니다. Amazon Redshift, Snowflake, 또는 Glue Catalog ARN을 예로 들 수 있습니다.
+ `data_source_unique_id` (str): 액세스 중인 특정 리소스를 가리키는 고유 식별자입니다. 테이블 이름, DDB 테이블 ARN, Amazon S3 접두사를 예로 들 수 있습니다. 사용자 지정 데이터 소스에서 동일한 `data_source_unique_id`를 사용하는 경우 계보 보기의 동일한 데이터 소스에 모두 연결됩니다. 계보에는 특성 처리 워크플로의 실행 코드, 사용된 데이터 소스, 이러한 데이터 소스가 특성 그룹 또는 특성에 통합되는 방식에 대한 정보가 포함됩니다. **Studio**에서 특성 그룹의 계보를 보는 방법에 대한 자세한 내용은 [콘솔에서 계보 보기](feature-store-use-with-studio.md#feature-store-view-feature-processor-pipeline-lineage-studio) 섹션을 참조하세요.
+ `read_data` (func): 특성 프로세서와 연결하는 데 사용되는 메서드입니다. Spark 데이터 프레임을 반환합니다. 예를 보려면 [사용자 지정 데이터 소스 예제](feature-store-feature-processor-data-sources-custom-examples.md)섹션을 참조하세요.

`data_source_name`과 `data_source_unique_id`는 모두 계보 엔티티를 고유하게 식별하는 데 사용됩니다. 다음은 이름이 `CustomDataSource`인 사용자 지정 데이터 소스 클래스의 예입니다.

```
from sagemaker.feature_store.feature_processor import PySparkDataSource
from pyspark.sql import DataFrame

class CustomDataSource(PySparkDataSource):
    
    data_source_name = "custom-data-source-name"
    data_source_unique_id = "custom-data-source-id"
    
    def read_data(self, parameter, spark) -> DataFrame:
        your own code here to read data into a Spark dataframe
        return dataframe
```