本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在 Quick Sight 中使用数据砖块
使用本节学习如何从 Quick Sight 连接到 Databricks。
连接到 Databricks
-
首先创建一个新数据集。从左侧的导航窗格中选择 “数据”。
-
选择创建,然后选择新数据集。
-
选择 Databricks 数据来源卡片。
-
对于数据来源名称,为 Databricks 数据来源连接输入描述性名称,例如
Databricks CS。您可以通过与 Databricks 的连接创建许多数据集,因此最好使用简洁的名称。 -
对于连接类型,选择您正在使用的网络类型。
-
公有网络 – 如果您的数据是公开共享的。
-
VPC – 如果您的数据位于 VPC 内。
注意
如果您使用的是 VPC,但其未列出,请咨询管理员。
-
-
对于数据库服务器,输入在 Databricks 连接详细信息中指定的工作区的主机名。
-
对于 HTTP 路径,输入在 Databricks 连接详细信息中指定的 spark 实例的部分 URL。
-
对于端口,输入在 Databricks 连接详细信息中指定的端口。
-
对于用户名和密码,输入您的连接凭证。
-
要验证连接是否正常,请单击验证连接。
-
要完成并创建数据来源,请单击创建数据来源。
为 Databricks 添加新的 Quick Sight 数据集
拥有 Databricks 数据的现有数据来源连接后,您可以创建 Databricks 数据集以用于分析。
使用 Databricks 创建数据集
-
选择左侧的 “数据”,然后向下滚动以查找 Databricks 连接的数据源卡。如果您有许多数据来源,则可以使用页面顶部的搜索栏来查找名称部分匹配的数据来源。
-
选择 Databricks 数据来源卡片,然后选择创建数据集。
-
要指定要连接的表,请先选择要使用的“目录”和“架构”。然后对于表,选择要使用的表。如果您更想使用自己的 SQL 语句,请选择使用自定义 SQL。
-
选择编辑/预览。
-
(可选)要添加更多数据,请按以下步骤进行操作:
-
选择右上角的添加数据。
-
要连接到不同的数据,请选择切换数据来源,然后选择不同的数据集。
-
按照 UI 提示完成数据添加。
-
将新数据添加到同一数据集后,选择配置此联接(两个红点)。为每个附加表设置联接。
-
如果要添加计算字段,请选择添加计算字段。
-
要从 SageMaker AI 添加模型,请选择 A ugment with。 SageMaker此选项仅在 Quick Suite 企业版中可用。
-
清除任何您要省略的字段的复选框。
-
更新任何您要更改的数据类型。
-
-
完成后,选择保存,以保存并关闭数据集。
Quick Sight 管理员关于连接 Databricks 的指南
你可以使用 Amazon Quick Sight 连接到 Databricks AWS无论你是通过 Marketpl AWS ace AWS 还是通过 Databricks 网站注册,你都可以连接 Databricks。
在连接到 Databricks 之前,您需要创建或识别连接所需的现有资源。使用本节来帮助你收集从 Quick Sight 连接到 Databricks 所需的资源。
-
要了解如何获取 Databricks 连接的详细信息,请参阅 Databricks ODBC and JDBC connections
。 -
要了解如何获取 Databricks 凭证(个人访问令牌或用户名和密码)进行身份验证,请参阅 Databricks documentation
中的 Authentication requirements 。 要连接到 Databricks 集群,您需要
Can Attach To和Can Restart权限。这些权限在 Databricks 中进行管理。有关更多信息,请参阅 Databricks documentation中的 Permission Requirements 。 -
如果您要为 Databricks 设置私有连接,则可以详细了解如何配置 VPC 以与 Quick Sight 配合使用,请参阅 Quick Sight 文档中的使用 Amazon Quick Sight 连接到 VPC。如果连接不可见,请向系统管理员确认该网络是否已开放 Amazon Route 53 的入站端点。Databricks 工作区的主机名使用公有 IP,需要有 DNS TCP 和 DNS UDP 入站和出站规则,以允许 Route 53 安全组的 DNS 端口 53 上的流量。管理员需要创建包含 2 条入站规则的安全组:一条用于端口 53 到 VPC CIDR 的 DNS(TCP),另一条用于端口 53 到 VPC CIDR 的 DNS(UDP)。
如果您使用的是 PrivateLink 而不是公共连接,则要了解与 Databricks 相关的详细信息,请参阅 Databricks 文档 AWS PrivateLink中的启用
。