部署流数据向量化蓝图
本主题描述如何部署流数据向量化蓝图。
部署流数据向量化蓝图
-
确保以下资源设置正确:
-
预置或无服务器 MSK 集群,其中具有一个或多个包含数据的主题。
-
-
Bedrock 设置:访问所需的 Bedrock 模型。目前受支持的 Bedrock 型号如下:
Amazon Titan Embeddings G1 - Text
Amazon Titan 文本嵌入 V2
Amazon Titan Multimodal Embeddings G1
Cohere Embed(英文版)
Cohere Embed(多语版)
-
AWS OpenSearch 集合:
可使用预配置的或无服务器的 OpenSearch Service 集合。
OpenSearch Service 集合必须至少有一个索引。
如果计划使用 OpenSearch 无服务器集合,请确保创建向量搜索集合。有关如何设置向量索引的详细信息,请参阅知识库中关于创建自有向量存储的先决条件。要了解有关向量化的更多信息,请参阅 Amazon OpenSearch Service 的向量数据库功能说明
。 注意
创建向量索引时,必须使用向量字段名称
embedded_data。如果计划使用 OpenSearch 预置集合,则需将蓝图创建的 MSF 应用程序角色(包含 Opensearch 访问策略)作为主用户添加至 OpenSearch 集合中。另外,请确认 OpenSearch 中的访问策略是否设置为“允许”操作。这是启用精细访问控制所必需的。
也可以选择启用 OpenSearch 控制面板的访问权限来查看结果。请参考启用精细访问控制。
使用允许 aws:CreateStack 权限的角色登录。
前往 MSF 控制台控制面板,选择创建流应用程序。
在选择流处理应用程序的设置方法中,选择使用蓝图。
从蓝图下拉菜单中,选择实时 AI 应用程序蓝图。
提供所需的配置。请参阅创建页面配置。
选择部署蓝图,启动 CloudFormation 部署。
CloudFormation 部署完成后,转到所部署的 Flink 应用程序。检查应用程序的运行时属性。
可选择对应用程序更改/添加运行时属性。有关配置这些属性的详细信息,请参阅运行时属性配置。
注意
注意:
如果使用的是预置 OpenSearch,请确保启用了精细访问控制。
如果预置集群是私有的,请将
https://添加到 OpenSearch 预置 VPC 端点 URL,并将sink.os.endpoint更改为指向此端点。如果预置集群是公有的,请确保 MSF 应用程序可以访问互联网。有关更多信息,请参阅 >>>>>> express-brokers-publication-merge type="documentation" url="managed-flink/latest/java/vpc-internet.html" >连接 VPC 的 Managed Service for Apache Flink 应用程序的互联网和服务访问。
对所有配置感到满意后,选择
Run。应用程序将开始运行。在 MSK 集群中推送消息。
导航到 OpenSearch 集群,转到 OpenSearch 控制面板。
在控制面板上,选择左侧菜单中的发现。此时应该看到持久保存的文档及其向量嵌入。
要了解如何才能使用索引中存储的向量,请参阅使用向量搜索集合。
创建页面配置
本主题介绍在为实时 AI 应用程序蓝图指定配置时要参考的“创建页面配置”。
- 应用程序名称
-
MSF 中的现有字段,请为应用程序提供任何名称。
- MSK 集群
-
从下拉列表中选择设置时创建的 MSK 集群。
- 主题
-
添加在设置中创建的主题的名称。
- 输入流数据类型
-
如果要向 MSK 流提供字符串输入,请选择字符串。
如果 MSK 流中的输入是 JSON 格式,请选择 JSON。在嵌入的 JSON 键中,请在输入 JSON 中填写要将其值发送至 Bedrock 以生成嵌入的字段的名称。
- Bedrock 嵌入模型
从列表中选择一项。确保您拥有所选模型的模型访问权限,否则该堆栈可能会失败。参阅添加或删除对 Amazon Bedrock 基础模型的访问权限。
- OpenSearch 集群
从下拉列表中选择所创建的集群。
- OpenSearch 向量索引名称
选择在上述步骤中创建的向量索引。