

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 在 上建置可擴展的 Web 爬取系統以用於 的 ESG 資料 AWS
<a name="introduction"></a>

*Vijit Vashishtha 和 Mansi Doshi，Amazon Web Services*

*2025 年 1 月* ([文件歷史記錄](doc-history.md))

在評估潛在投資時，環境、社會和治理 (ESG) 因素是投資者的重要考量：
+ **環境** – 專注於公司對自然世界的影響。它包含碳排放、資源管理和能源效率等因素。
+ **社交** – 檢查公司如何管理與員工、供應商、客戶和社群的關係。它涵蓋了工作實務、多樣性和社群參與等層面。
+ **控管** – 著眼於公司的領導階層、內部控制和擁有者權利。其中包括董事會組成、高管補償和商業道德。

具有強大 ESG 實務的公司越來越適合長期永續性和獲利能力。投資者對 ESG 資訊的需求不斷增加。能夠透過可靠、實用的 ESG 資料來示範其永續性登入資料的公司，更能吸引資本並保持競爭。公司透過各種來源發佈 ESG 資料，例如新聞、文章和年度報告。由於此資訊分散，Web 爬蟲程式可協助您有效率地收集此資料。

此完整指南示範如何使用 [AWS Fargate](https://docs.aws.amazon.com/AmazonECS/latest/developerguide/AWS_Fargate.html)、[Amazon Elastic Compute Cloud (Amazon EC2)](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/concepts.html)[AWS Batch](https://docs.aws.amazon.com/batch/latest/userguide/what-is-batch.html)、 和 [Amazon Simple Storage Service (Amazon S3)](https://docs.aws.amazon.com/AmazonS3/latest/userguide/Welcome.html) 來建置強大、可擴展且負責任的資料收集管道。它討論了以下內容：
+ 使用下列 建構可擴展的爬蟲系統 AWS 服務：
  + 用於執行爬蟲程式應用程式的 Fargate 或 Amazon EC2 
  + AWS Batch 可有效率地協調大規模爬蟲任務
  + Amazon S3 提供安全且耐用的資料儲存
+ 實作道德爬蟲的最佳實務，包括：
  + 遵守 robots.txt 和網站政策
  + 管理速率限制以避免壓倒性目標網站
  + 確保資料隱私權和負責任地使用所收集的資訊
+ 開發針對 AWS 基礎設施最佳化的 Python型爬蟲程式
+ 最佳化爬蟲程式效能，同時維持安全標準

## 目標對象
<a name="intended-audience"></a>

本指南適用於希望從公有網站有效收集大量up-to-date ESG 資料的資料工程師和雲端架構師。它與涉及市場分析、永續財務評估或財務研究的專案特別相關。

## 目標業務成果
<a name="targeted-business-outcomes"></a>

以下是公司使用 ESG 資料的常見原因：
+ **風險管理** – ESG 資料可協助您識別和減輕與環境、社交和控管問題相關的潛在風險。
+ **吸引投資者** – 許多投資者現在在做出投資決策時會考慮 ESG 因素。他們將強大的 ESG 實務視為長期永續性和獲利能力的指標。
+ **評價管理** – 良好的 ESG 效能可以增強公司在客戶、員工和一般大眾之間的評價。
+ **法規合規** – 隨著 ESG 相關法規的增加，採用 ESG 實務有助於公司在合規要求方面保持領先。
+ **創新和效率** – 專注於 ESG 因素可以推動產品、服務和營運方面的創新。這可提升效率並節省成本。
+ **競爭優勢** – 強大的 ESG 效能可以讓公司與其競爭對手區分開來，並開啟新的市場機會。
+ **利益相關者參與** – ESG 實務可協助公司更好地參與並滿足各種利益相關者的期望，包括員工、客戶和當地社群。