将 SQL 查询结果保存在 pandas DataFrame 中 - Amazon SageMaker AI

将 SQL 查询结果保存在 pandas DataFrame 中

您可以将 SQL 查询结果存储在 pandas DataFrame 中。将查询结果输出到 DataFrame 的最简单方法是使用 JupyterLab SQL 扩展的 SQL 编辑器功能 查询结果下拉菜单,并选择 Pandas dataframe 选项。

或者,也可以在连接字符串中添加参数 --output '{"format": "DATAFRAME", "dataframe_name": "dataframe_name"}'

例如,以下查询使用 pandas 和 SQL 从 Snowflake TPCH_SF1 数据库的 Customer 表中提取余额最高的客户的详细信息:

  • 在本例中,我们从客户表中提取所有数据,并保存在名为 all_customer_data 的 DataFrame 中。

    %%sm_sql --output '{"format": "DATAFRAME", "dataframe_name": "all_customer_data"}' --metastore-id snowflake-connection-name --metastore-type GLUE_CONNECTION SELECT * FROM SNOWFLAKE_SAMPLE_DATA.TPCH_SF1.CUSTOMER
    Saved results to all_customer_data
  • 接下来,我们从 DataFrame 中提取最高账户余额的详细信息。

    all_customer_data.loc[all_customer_data['C_ACCTBAL'].idxmax()].values
    array([61453, 'Customer#000061453', 'RxNgWcyl5RZD4qOYnyT3', 15, '25-819-925-1077', Decimal('9999.99'), 'BUILDING','es. carefully regular requests among the blithely pending requests boost slyly alo'], dtype=object)