将 Amazon VPC 与 Amazon S3 数据来源结合使用
本主题提供了分步示例,说明如何使用 Amazon S3 连接器,通过 Amazon VPC 连接到 Amazon S3 存储桶。此示例假设您开始时使用的是现有的 S3 存储桶。我们建议您上传几个文档到 S3 存储桶来测试示例。
您可以通过 Amazon VPC 将 Amazon Kendra连接到您的 Amazon S3 存储桶。为此,您必须在创建 Amazon S3 数据来源连接器时指定 Amazon VPC 子网和 Amazon VPC 安全组。
重要
为了让 Amazon Kendra Amazon S3 连接器可以访问您的 Amazon S3 存储桶,请确保您已为虚拟私有云(VPC)分配了 Amazon S3 端点。
要让 Amazon Kendra通过 Amazon VPC 从 Amazon S3 存储桶进行同步,您必须完成以下步骤:
-
为 Amazon S3 设置 Amazon VPC 端点。有关如何设置 Amazon S3 端点的更多信息,请参阅《AWS PrivateLink Guide》中的 Gateway endpoints for Amazon S3。
-
(可选)检查了您的 Amazon S3 存储桶策略,确保可以从您分配给 Amazon Kendra的虚拟私有云(VPC)访问 Amazon S3 存储桶。有关更多信息,请参阅《Amazon S3 用户指南》中的使用存储桶策略控制从 VPC 端点的访问。
步骤 1:配置 Amazon VPC
创建一个 VPC 网络,包括一个带有 Amazon S3 网关端点的私有子网,以及一个供 Amazon Kendra 后续使用的安全组。
为 VPC 配置私有子网、S3 端点和安全组
-
登录到 AWS 管理控制台,然后通过以下网址打开 Amazon VPC 控制台:https://console.aws.amazon.com/vpc/
。 -
创建一个 VPC,包含一个私有子网和一个供 Amazon Kendra 使用的 S3 端点:
在导航窗格中,选择您的 VPC,然后选择创建 VPC。
-
对于要创建的资源,选择 VPC 等。
-
对于名称标签,启用自动生成,然后输入
kendra-s3-example。 -
对于 IPv4/IPv6 CIDR 数据块,保留默认值。
-
对于可用区(AZ)数量,选择 1。
-
选择自定义可用区,然后从第一个可用区列表中选择一个可用区。
Amazon Kendra 仅支持一组特定的可用区。
-
对于公有子网数量,选择 0。
-
对于私有子网数量,选择 1。
-
对于 NAT 网关,选择 无。
-
对于 VPC 端点,请选择Amazon S3 网关。
-
将其他值保留为默认值。
-
选择创建 VPC。
等待创建 VPC 工作流程完成。然后,选择查看 VPC 以检查您刚刚创建的 VPC。
现在,您已经创建了一个带有私有子网的 VPC 网络,该子网无法访问公共互联网。
-
-
复制您的 Amazon S3 端点的 VPC 端点 ID:
-
在导航窗格中,选择端点。
-
在端点列表中,找到您刚刚与您的 VPC 一起创建的 Amazon S3 端点
kendra-s3-example-vpce-s3。 -
记下 VPC 端点 ID。
现在,您已经创建了一个 Amazon S3 网关端点来通过子网访问您的 Amazon S3 存储桶。
-
-
创建供 Amazon Kendra 使用的安全组:
-
从导航窗格中,选择安全组,然后选择创建安全组。
-
对于安全组名称,输入
s3-data-source-security-group。 -
从 Amazon VPC 列表中选择您的 VPC。
-
将入站规则和出站规则保留为默认值。
-
选择创建安全组。
现在您已创建了 VPC 安全组。
-
在连接器配置过程中,您需要将创建的子网和安全组分配给 Amazon Kendra 的 Amazon S3 数据来源连接器。
(可选)步骤 2:配置 Amazon S3 存储桶策略
在此可选步骤中,您将学习如何配置 Amazon S3 存储桶策略,以使您的 Amazon S3 存储桶仅能从您分配给 Amazon Kendra 的 VPC 访问。
Amazon Kendra 使用 IAM 角色访问您的 Amazon S3 存储桶,并不要求您必须配置 Amazon S3 存储桶策略。但是,如果您希望使用带有现有策略、限制公共互联网访问的 Amazon S3 存储桶来配置 Amazon S3 连接器,创建存储桶策略可能会很有用。
要配置您的 Amazon S3 存储桶策略
-
打开 Amazon S3 控制台,网址为 https://console.aws.amazon.com/s3/
。 -
在导航窗格中选择存储桶。
-
选择要与 Amazon Kendra 同步的 Amazon S3 存储桶的名称。
-
选择权限选项卡,向下滚动到存储桶策略,然后单击编辑。
-
添加或修改您的存储桶策略,使其仅允许从您创建的 VPC 端点进行访问。
下面是一个示例存储桶策略。将
和bucket-name替换为您的 Amazon S3 存储桶名称和您之前记下的 Amazon S3 端点 ID。vpce-id -
选择保存更改。
现在,只能从您创建的特定 VPC 访问您的 S3 存储桶。
步骤 3:创建测试用的 Amazon S3 数据来源连接器
要测试您的 Amazon VPC 配置,创建一个 Amazon S3 连接器。然后,按照 Amazon S3 中概述的步骤,将其配置为使用您创建的 VPC。
对于 Amazon VPC 配置值,请选择您在本示例中创建的值:
-
Amazon VPC(VPC)–
kendra-s3-example-vpc -
子网 –
kendra-s3-example-subnet-private1-[availability zone] -
安全组 –
s3-data-source-security-group
等待连接器创建完成。创建 Amazon S3 连接器后,选择立即同步以启动同步。
根据您的 Amazon S3 存储桶中文档的数量,完成同步可能需要几分钟到几小时不等。为了测试该示例,我们建议您只上传少量文档到 S3 存储桶。如果您的配置正确,最终应该会看到同步状态为已完成。
如果遇到任何错误,请参见 Amazon VPC 连接故障排除。