

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 为 ESG 数据构建可扩展的 Web 抓取系统 AWS
<a name="introduction"></a>

*Vijit Vashishtha 和 Mansi Doshi，Amazon Web Services*

*2025 年 1 月*（[文档历史记录](doc-history.md)）

环境、社会和治理 (ESG) 因素是投资者在评估潜在投资时的关键考虑因素：
+ **环境** ——关注公司对自然世界的影响。它包括碳排放、资源管理和能源效率等因素。
+ **社交**-研究公司如何管理与员工、供应商、客户和社区的关系。它涵盖了劳动实践、多元化和社区参与等方面。
+ **治理**-着眼于公司的领导层、内部控制和股东权利。它包括董事会组成、高管薪酬和商业道德。

拥有强大ESG实践的公司越来越多地被视为更有能力实现长期可持续性和盈利能力。投资者对ESG信息的需求不断增长。能够通过可靠、有用的ESG数据证明其可持续发展资格的公司更有能力吸引资金并保持竞争力。公司通过各种来源发布ESG数据，例如新闻、文章和年度报告。由于这些信息是分散的，因此网络爬虫可以帮助您高效地收集这些数据。

本综合指南演示了如何使用[AWS Fargate](https://docs.aws.amazon.com/AmazonECS/latest/developerguide/AWS_Fargate.html)[亚马逊弹性计算云 (Amazon EC2)](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/concepts.html) 和[亚马逊简单存储服务 (](https://docs.aws.amazon.com/AmazonS3/latest/userguide/Welcome.html)Amazon S3) 来构建强大、可扩展且负责任的数据收集管道。[AWS Batch](https://docs.aws.amazon.com/batch/latest/userguide/what-is-batch.html)它讨论了以下内容：
+ 使用以下方法构建可扩展的抓取系统： AWS 服务
  + 用于运行爬虫应用程序的 Fargate 或 Amazon EC2
  + AWS Batch 用于高效协调大规模抓取作业
  + Amazon S3 可实现安全持久的数据存储
+ 实施符合道德标准的抓取的最佳实践，包括：
  + 尊重 robots.txt 和网站政策
  + 管理速率限制以避免目标网站不堪重负
  + 确保数据隐私和负责任地使用所收集的信息
+ 开发针对基础设施进行优化的Python基于爬虫的 AWS 爬虫
+ 在保持道德标准的同时优化爬虫性能

## 目标受众
<a name="intended-audience"></a>

本指南适用于希望从公共网站高效收集大量 up-to-date ESG 数据的数据工程师和云架构师。它对于涉及市场分析、可持续财务评估或财务研究的项目尤其重要。

## 目标业务成果
<a name="targeted-business-outcomes"></a>

以下是公司使用ESG数据的常见原因：
+ **风险管理** — ESG 数据可帮助您识别和缓解与环境、社会和治理问题相关的潜在风险。
+ **吸引投资者** — 许多投资者现在在做出投资决策时会考虑ESG因素。他们将强有力的ESG实践视为长期可持续性和盈利能力的指标。
+ **声誉管理** — 良好的ESG绩效可以提高公司在客户、员工和公众中的声誉。
+ **监管合规** — 随着ESG相关法规的增加，采用ESG实践有助于公司在合规要求之前保持领先地位。
+ **创新和效率** — 关注 ESG 因素可以推动产品、服务和运营的创新。这可以提高效率并节省成本。
+ **竞争优势** — 强劲的ESG表现可以使公司与竞争对手区分开来，并开辟新的市场机会。
+ **利益相关者参与** — ESG实践可帮助公司更好地与包括员工、客户和当地社区在内的各种利益相关者互动并满足他们的期望。