Amazon OpenSearch Ingestion 管道支持的插件和选项 - Amazon OpenSearch Service

Amazon OpenSearch Ingestion 管道支持的插件和选项

Amazon OpenSearch Ingestion 支持的源、处理器和接收器属于开源 OpenSearch Data Prepper 的一部分。此外,OpenSearch Ingestion 对支持的每个插件的可用选项提出了一些限制。以下各节介绍 OpenSearch Ingestion 支持的插件和相关选项。

注意

OpenSearch Ingestion 不支持任何缓冲区插件,因为它会自动配置默认缓冲区。如果您在管道配置中添加缓冲区,将收到验证错误。

支持的插件

OpenSearch Ingestion 支持以下 Data Prepper 插件:

处理器

接收器

  • OpenSearch(支持 OpenSearch Service、OpenSearch Serverless 以及 Elasticsearch 6.8 或更高版本)

  • S3

接收器编解码器

无状态与有状态处理器

无状态处理器执行转换和筛选等操作,而有状态处理器则执行聚合等操作,会记住上一次运行的结果。OpenSearch Ingestion 支持有状态处理器聚合服务映射。所有其他受支持的处理器均为无状态处理器。

对于仅包含无状态处理器的管道,最大容量限制为 96 个摄取 OCU。对于包含任何有状态处理器的管道,最大容量限制为 48 个摄取 OCU。但是,如果管道启用了永久缓冲区,则仅包含无状态处理器时最多可以有 384 个摄取 OCU,包含任何有状态处理器时最多可以有 192 个摄取 OCU。有关更多信息,请参阅 在 Amazon OpenSearch Ingestion 中扩展管道

仅无状态处理器支持端到端确认。有关更多信息,请参阅 端到端确认

配置要求和限制

除非下文另有说明,否则上文列出的受支持插件的 Data Prepper 配置参考中描述的所有选项均允许在 OpenSearch Ingestion 管道中使用。以下各节介绍了 OpenSearch Ingestion 对某些插件选项提出的限制。

注意

OpenSearch Ingestion 不支持任何缓冲区插件,因为它会自动配置默认缓冲区。如果您在管道配置中添加缓冲区,将收到验证错误。

很多选项由 OpenSearch Ingestion 在内部配置和管理,例如 authenticationacm_certificate_arn。其他选项(例如,thread_countrequest_timeout),一旦手动更改,则会影响性能。因此,将在内部设置这些值,以确保实现管道的最佳性能。

最后,某些选项无法传递到 OpenSearch Ingestion(例如,ism_policy_filesink_template),因为在开源 Data Prepper 中运行时它们是本地文件。这些值不受支持。

常规管道选项

以下常规管道选项由 OpenSearch Ingestion 设置,在管道配置中不受支持:

  • workers

  • delay

Grok 处理器

以下 Grok 处理器选项不受支持:

  • patterns_directories

  • patterns_files_glob

HTTP 源

HTTP 源插件具有以下要求和限制:

  • path 选项为必填项。路径是字符串(例如,/log/ingest),它表示日志摄取的 URI 路径。此路径定义用于向管道发送数据的 URI。例如 https://log-pipeline.us-west-2.osis.amazonaws.com/log/ingest。路径必须以斜杠 (/) 开头,而且可以包含特殊字符 ‘-'、‘_’、‘.’、‘/’以及 ${pipelineName} 占位符。

  • 以下 HTTP 源选项由 OpenSearch Ingestion 设置,在管道配置中不受支持:

    • port

    • ssl

    • ssl_key_file

    • ssl_certificate_file

    • aws_region

    • authentication

    • unauthenticated_health_check

    • use_acm_certificate_for_ssl

    • thread_count

    • request_timeout

    • max_connection_count

    • max_pending_requests

    • health_check_service

    • acm_private_key_password

    • acm_certificate_timeout_millis

    • acm_certificate_arn

OpenSearch 接收器

OpenSearch 接收器插件具有以下要求和限制。

  • aws 选项为必填项,必须包含以下选项:

    • sts_role_arn

    • region

    • hosts

    • serverless(如果接收器是 OpenSearch 无服务器集合)

  • sts_role_arn 选项必须指向 YAML 定义文件中每个接收器的同一角色。

  • hosts 选项必须指定 OpenSearch Service 域端点或 OpenSearch 无服务器集合端点。您不能为域指定自定义端点;必须是标准端点。

  • 如果 hosts 选项为无服务器集合端点,则必须将 serverless 选项设置为 true。此外,如果 YAML 定义文件包含 index_type 选项,则必须将其设置为 management_disabled,否则验证将失败。

  • 不支持以下选项:

    • username

    • password

    • cert

    • proxy

    • dlq_file - 如果要将失败事件卸载到死信队列 (DLQ),则必须使用 dlq 选项并指定 S3 存储桶。

    • ism_policy_file

    • socket_timeout

    • template_file

    • insecure

OTel 指标源、OTel 跟踪源和 OTel 日志源

OTel 指标源、OTel 跟踪源和 OTel 日志源插件具有以下要求和限制:

  • path 选项为必填项。路径是字符串(例如,/log/ingest),它表示日志摄取的 URI 路径。此路径定义用于向管道发送数据的 URI。例如 https://log-pipeline.us-west-2.osis.amazonaws.com/log/ingest。路径必须以斜杠 (/) 开头,而且可以包含特殊字符 ‘-'、‘_’、‘.’、‘/’以及 ${pipelineName} 占位符。

  • 以下选项由 OpenSearch Ingestion 设置,在管道配置中不受支持:

    • port

    • ssl

    • sslKeyFile

    • sslKeyCertChainFile

    • authentication

    • unauthenticated_health_check

    • useAcmCertForSSL

    • unframed_requests

    • proto_reflection_service

    • thread_count

    • request_timeout

    • max_connection_count

    • acmPrivateKeyPassword

    • acmCertIssueTimeOutMillis

    • health_check_service

    • acmCertificateArn

    • awsRegion

OTel 跟踪组处理器

OTel 跟踪组处理器具有以下要求和限制:

  • aws 选项为必填项,必须包含以下选项:

    • sts_role_arn

    • region

    • hosts

  • sts_role_arn 选项指定的角色与您在 OpenSearch 接收器配置中指定的管道角色相同。

  • 不支持 usernamepasswordcertinsecure 选项。

  • aws_sigv4 选项为必填项,必须设置为 true。

  • 不支持 OpenSearch 接收器插件中的 serverless 选项。Otel 跟踪组处理器目前不适用于 OpenSearch 无服务器集合。

  • 管道配置主体中的 otel_trace_group 处理器数量不能超过 8 个。

OTel 跟踪处理器

OTel 跟踪处理器具有以下要求和限制:

  • trace_flush_interval 选项的值不能超过 300 秒。

服务映射处理器

服务映射处理器具有以下要求和限制:

  • window_duration 选项的值不能超过 300 秒。

S3 源

S3 源插件具有以下要求和限制:

  • aws 选项为必填项,必须包含 regionsts_role_arn 选项。

  • records_to_accumulate 选项的值不能超过 200。

  • maximum_messages 选项的值不能超过 10。

  • 如果指定,则 disable_bucket_ownership_validation 选项必须设置为 false。

  • 如果指定,则 input_serialization 选项必须设置为 parquet