Amazon SageMaker AI - Amazon Timestream

有关与适用于 LiveAnalytics 的 Amazon Timestream 类似的功能,可以考虑使用适用于 InfluxDB 的 Amazon Timestream。适用于 InfluxDB 的 Amazon Timestream 提供简化的数据摄取和个位数毫秒级的查询响应时间,以实现实时分析。点击此处了解更多信息。

Amazon SageMaker AI

可使用 Amazon SageMaker 笔记本将机器学习模型与 Amazon Timestream 集成。为协助您开始使用,我们已创建示例 SageMaker 笔记本,用于处理来自 Timestream 的数据。该数据从持续发送数据的多线程 Python 应用程序插入到 Timestream 中。示例 SageMaker 笔记本及示例 Python 应用程序的源代码可在 GitHub 中获取。

  1. 按照 创建数据库创建表 中所述的说明创建数据库和表。

  2. 按照 GitHub 中的说明克隆多线程 Python 示例应用程序的 GitHub 存储库。

  3. 按照 GitHub 中的说明克隆示例 Timestream SageMaker 笔记本的 GitHub 存储库。

  4. 按照自述文件中的说明运行应用程序,持续将数据摄取到 Timestream 中。

  5. 按照此处所述的说明创建用于 Amazon SageMaker 的 Amazon S3 存储桶。

  6. 创建已安装最新 boto3 的 Amazon SageMaker 实例:除此处所述说明外,请按照以下步骤操作:

    1. 创建笔记本实例页面上,点击其他配置

    2. 点击生命周期配置:可选,然后选择创建新的生命周期配置

    3. 创建生命周期配置向导框中,执行以下操作:

      1. 在配置中填写所需名称,例如 on-start

      2. 在“启动笔记本”脚本中,复制并粘贴来自 Github 的脚本内容

      3. 在粘贴的脚本中,将 PACKAGE=scipy 替换为 PACKAGE=boto3

  7. 点击创建配置

  8. 转到 AWS 管理控制台中的 IAM 服务,查找为笔记本实例新创建的 SageMaker 执行角色。

  9. AmazonTimestreamFullAccess 的 IAM 策略附加到执行角色。

    注意

    AmazonTimestreamFullAccess IAM 策略不局限于特定资源,且不适用于生产环境。对于生产系统,建议使用限制特定资源访问权限的策略。

  10. 当笔记本实例的状态为正在使用时,选择打开 Jupyter,以便为该实例启用 SageMaker 笔记本。

  11. 选择上传按钮,将文件 timestreamquery.pyTimestream_SageMaker_Demo.ipynb 上传至笔记本中

  12. 选择 Timestream_SageMaker_Demo.ipynb

    注意

    如果弹出未找到内核提示框,请选择 conda_python3 并点击设置内核

  13. 修改 DB_NAMETABLE_NAMEbucketENDPOINT,以匹配训练模型的数据库名称、表名称、S3 存储桶名称和区域。

  14. 选择播放图标,以运行单个单元格

  15. 到达单元格 Leverage Timestream to find hosts with average CPU utilization across the fleet 时,请确保输出返回至少 2 个主机名。

    注意

    如果输出中的主机名少于 2 个,则可能需要重新运行示例 Python 应用程序,在向 Timestream 摄取数据时使用更多的线程和更大的主机规模。

  16. 到达单元格 Train a Random Cut Forest (RCF) model using the CPU utilization history 时,根据训练作业的资源要求更改 train_instance_type

  17. 到达单元格 Deploy the model for inference 时,根据推理作业的资源要求更改 instance_type

    注意

    训练模型可能需要几分钟时间。训练完成后,将在单元格的输出中看到消息已完成:训练作业已完成

  18. 运行单元格 Stop and delete the endpoint,以清除资源。也可以通过 SageMaker 控制台停止和删除实例