

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 에서 ESG 데이터를 위한 확장 가능한 웹 크롤링 시스템 구축 AWS
<a name="introduction"></a>

*Vijit Vashishtha 및 Mansi Doshi, Amazon Web Services*

*2025년 *1월([문서 기록](doc-history.md))

잠재적 투자를 평가할 때 환경, 사회 및 거버넌스(ESG) 요인은 투자자에게 중요한 고려 사항입니다.
+ **환경** "" - 자연 환경에 미치는 회사의 영향에 중점을 둡니다. 여기에는 탄소 배출량, 리소스 관리 및 에너지 효율성과 같은 요소가 포함됩니다.
+ **소셜** "" - 회사가 직원, 공급업체, 고객 및 커뮤니티와의 관계를 관리하는 방법을 검사합니다. 여기에는 노동 관행, 다양성, 커뮤니티 참여와 같은 측면이 포함됩니다.
+ **거버넌스** "" - 회사의 리더십, 내부 통제 및 주주 권리를 살펴봅니다. 여기에는 이사회 구성, 임원 보상 및 비즈니스 원칙이 포함됩니다.

ESG 관행이 탄탄한 기업은 장기적인 지속 가능성과 수익성을 위한 더 나은 입지로 점점 더 인정받고 있습니다. ESG 정보에 대한 투자자 수요가 증가하고 있습니다. 안정적이고 유용한 ESG 데이터를 통해 지속 가능성 자격 증명을 입증할 수 있는 기업은 자본을 유치하고 경쟁을 유지할 수 있는 더 나은 위치에 있습니다. 기업은 뉴스, 기사 및 연간 보고서와 같은 다양한 소스를 통해 ESG 데이터를 게시합니다. 이 정보는 분산되어 있으므로 웹 크롤러는이 데이터를 효율적으로 수집하는 데 도움이 될 수 있습니다.

이 포괄적인 가이드는 [AWS Fargate](https://docs.aws.amazon.com/AmazonECS/latest/developerguide/AWS_Fargate.html), [Amazon Elastic Compute Cloud(Amazon EC2)](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/concepts.html), [AWS Batch](https://docs.aws.amazon.com/batch/latest/userguide/what-is-batch.html)및 [Amazon Simple Storage Service(Amazon S3)](https://docs.aws.amazon.com/AmazonS3/latest/userguide/Welcome.html)를 사용하여 강력하고 확장 가능하며 책임 있는 데이터 수집 파이프라인을 구축하는 방법을 보여줍니다. 다음에 대해 설명합니다.
+ 다음를 사용하여 확장 가능한 크롤링 시스템 설계 AWS 서비스:
  + 크롤러 애플리케이션을 실행하기 위한 Fargate 또는 Amazon EC2 
  + AWS Batch 대규모 크롤링 작업을 효율적으로 오케스트레이션하기 위한
  + 안전하고 내구성 있는 데이터 스토리지를 위한 Amazon S3 
+ 다음을 포함한 윤리적 크롤링 모범 사례 구현:
  + robots.txt 및 웹 사이트 정책 준수
  + 압도적인 대상 사이트를 방지하기 위한 속도 제한 관리
  + 데이터 개인 정보 보호 및 수집된 정보의 책임 있는 사용 보장
+ 인프라에 AWS 최적화된 Python기반 크롤러 개발
+ 윤리적 표준을 유지하면서 크롤러 성능 최적화

## 대상 독자
<a name="intended-audience"></a>

이 가이드는 퍼블릭 웹 사이트에서 대량의 up-to-date ESG 데이터를 효율적으로 수집하려는 데이터 엔지니어 및 클라우드 아키텍트를 대상으로 합니다. 특히 시장 분석, 지속 가능한 재무 평가 또는 재무 조사와 관련된 프로젝트와 관련이 있습니다.

## 목표 비즈니스 성과
<a name="targeted-business-outcomes"></a>

다음은 기업이 ESG 데이터를 사용하는 일반적인 이유입니다.
+ **위험 관리** - ESG 데이터는 환경, 사회 및 거버넌스 문제와 관련된 잠재적 위험을 식별하고 완화하는 데 도움이 됩니다.
+ **투자자 유치** - 이제 많은 투자자가 투자 결정을 내릴 때 ESG 요소를 고려합니다. 강력한 ESG 관행을 장기 지속 가능성 및 수익성의 지표로 간주합니다.
+ **평판 관리** - ESG 성능이 우수하면 고객, 직원 및 일반 대중 간의 평판을 높일 수 있습니다.
+ **규정 준수** - ESG 관련 규정이 증가함에 따라 ESG 관행을 채택하면 기업이 규정 준수 요구 사항보다 앞서는 데 도움이 됩니다.
+ **혁신 및 효율성** - ESG 요인에 집중하면 제품, 서비스 및 운영에서 혁신을 주도할 수 있습니다. 이로 인해 효율성이 향상되고 비용이 절감됩니다.
+ **경쟁 우위** - 강력한 ESG 성능은 회사를 경쟁자와 차별화하고 새로운 시장 기회를 창출할 수 있습니다.
+ **이해관계자 참여** - ESG 관행은 회사가 직원, 고객 및 현지 커뮤니티를 포함한 다양한 이해관계자의 기대치에 더 잘 참여하고 충족할 수 있도록 지원합니다.