CREATE TABLE CREATE TABLE AS SELECT SHOW TABLE INSERT INTO DROP TABLE

SQL-Befehle

Apache Iceberg-Tabellen in Amazon Redshift bieten eine leistungsstarke Möglichkeit, große analytische Datensätze in Ihrem Data Lake zu verwalten. Diese Tabellen unterstützen ACID-Transaktionen, Schemaentwicklung und Zeitreisefähigkeiten und bieten gleichzeitig eine hohe Leistung für Analyse-Workloads. Mithilfe von Apache Iceberg-Tabellen können Sie Ihre Daten effizient organisieren und partitionieren, Dateiformate und Komprimierung kontrollieren und sich nahtlos in andere AWS Dienste integrieren.

Sie können partitionierte und unpartitionierte Iceberg-Tabellen mit den Befehlen and erstellen. CREATE TABLE ... USING ICEBERG CREATE TABLE ... USING ICEBERG AS SELECT Sie können auf Iceberg-Tabellen verweisen, indem Sie entweder die externe Schemanotation (external_schema.table_name) oder die dreiteilige Notation () verwenden. "catalog_name".database_name.table_name Die Beispiele in diesem Abschnitt veranschaulichen beide Methoden.

Nachdem Sie eine Tabelle erstellt haben, können Sie Daten mithilfe von INSERT Standardbefehlen hinzufügen. Beachten Sie, dass Amazon Redshift zwar mit vielen Iceberg-Datentypen funktioniert, Sie beim Einfügen von Informationen jedoch möglicherweise einige Datenformate konvertieren müssen.

Sie können Iceberg-Tabellen mit einem Befehl anzeigen. SHOW TABLES Wenn Sie eine Tabelle aus dem entfernen möchten AWS Glue Data Catalog, können Sie den DROP TABLE Befehl verwenden. Beachten Sie, dass dadurch nur die Tabellenregistrierung entfernt wird. Die tatsächlichen Daten bleiben im Speicher, bis Sie sie separat löschen.

Alle anderen SQL-Anweisungen, wie,DELETE, und UPDATE MERGEALTER TABLE, werden in Iceberg-Tabellen noch nicht unterstützt.

In den folgenden Abschnitten wird die SQL-Syntax für das Erstellen, Einfügen und Verwalten von Iceberg-Tabellen in Amazon Redshift demonstriert.

Inhalt

CREATE TABLE


CREATE TABLE [IF NOT EXISTS] <external_schema>.<table_name> (
  column_name data_type [, ...]
)
USING ICEBERG
[LOCATION 's3://your-bucket-name/prefix/']
[PARTITIONED BY [[column_name | transform_function]], ...]
[TABLE PROPERTIES ('compression_type'='<compression_value>')]

Sie können auch die dreiteilige Notation für S3-Tabellen-Buckets verwenden:


CREATE TABLE "<table_bucket_name>@s3tablescatalog".<database_name>.<table_name> (
  column_name data_type [, ...]
)
USING ICEBERG
[PARTITIONED BY [[column_name | transform_function]], ...]
[TABLE PROPERTIES ('compression_type'='<compression_value>')]

Beachten Sie, dass dies ein vorhandener externer Schemaname sein <external_schema> muss, in dem die externe Tabelle erstellt werden soll. Weitere Informationen zum Erstellen und Verwalten externer Schemas finden Sie unter CREATE EXTERNAL SCHEMA in der Amazon Redshift Redshift-Dokumentation.

Die LOCATION Klausel definiert den Tabellenstandort für diese neu erstellte Iceberg-Tabelle. Kann für Amazon S3 S3-Tabellen LOCATION nicht angegeben werden, da der Tabellenstandort durch den Amazon S3 S3-Tabellenkatalog (s3tablescatalog) bestimmt wird.

In allen anderen Fällen LOCATION ist dies erforderlich, und es sollte ein leerer Speicherort sein, was bedeutet, dass es keine vorhandenen Amazon S3 S3-Objekte gibt, die denselben Bucket und dasselbe Präfix teilen. Beachten Sie, dass sich die Amazon S3 S3-Bucket-Region in derselben Region wie der Amazon Redshift Redshift-Cluster befinden muss.

AWS Bietet jedoch eine Methode zum Replizieren von Daten aus Iceberg-Tabellen, die in einer anderen gespeichert sind, AWS Glue Data Catalog in eine andere AWS-Region, sodass Sie den Schreibvorgang in eine andere Region replizieren können. AWS-Region Weitere Informationen finden Sie unter Daten replizieren. AWS-Regionen

PARTITIONED BYdefiniert die Iceberg-Tabellenpartition. Amazon Redshift unterstützt alle Iceberg v2-Partitionstransformationen mit Ausnahme von. void Hier ist die Liste der unterstützten Transformationen:

Identität
Eimer [N]
kürzen [W]
Jahr
Monat
Tag
Stunde

Die vollständigen Definitionen dieser Transformationen und der kompatiblen Datentypen finden Sie unter Partitionstransformationen in der Apache Iceberg-Dokumentation.

Das PARTITIONED BY unterstützt mehrstufige Partitionierung. Sie können z. B. den folgenden Befehl ausführen:


CREATE TABLE ...
USING ICEBERG
LOCATION ...
PARTITIONED BY (bucket(16, id), year(ship_date));

Amazon Redshift unterstützt jedoch nicht die Verwendung einer einzelnen Spalte in mehr als einer Transformation. Beispielsweise wird die folgende Syntax nicht unterstützt:


CREATE TABLE ...
USING ICEBERG
LOCATION ...
PARTITIONED BY (bucket(16, ship_date), year(ship_date));

Die TABLE PROPERTIES Klausel definiert die zusätzlichen Tabelleneigenschaften für diese Iceberg-Tabelle. Die einzige Tabelleneigenschaft, die wir unterstützencompression_type, ist die Definition der Standardkomprimierung von Parquet-Datendateien. Wenn dies nicht angegeben ist, snappy wird es als Komprimierungscodec verwendet. Die möglichen Werte für compression_type sind:zstd,brotli, gzipsnappy, unduncompressed.

Anmerkung

CREATE TABLE ... LIKE ...wird für Iceberg-Tabellen nicht unterstützt. Eisberg-Tabellen unterstützen auch keine Spalteneinschränkungen und Spaltenattribute wie dies bei RMS-Tabellen der Fall ist.

Alternativ können Sie eine Eisberg-Tabelle in einem einzigen Vorgang erstellen und auffüllen, indem Sie Folgendes verwenden: CREATE TABLE AS SELECT

CREATE TABLE AS SELECT


CREATE TABLE <external_schema>.<table_name> [(
  column_name[, ...]
)]
USING ICEBERG
[LOCATION 's3://your-bucket-name/prefix/']
[PARTITIONED BY [[column_name | transform_function]], ...]
[TABLE PROPERTIES ('compression_type'='<compression-value>')]
AS
SELECT query

Sie können auch die dreiteilige Notation verwenden, um Tabellen in automatisch bereitgestellten Katalogen zu erstellen:


CREATE TABLE "<catalog_name>".<database_name>.<table_name> [(
  column_name[, ...]
)]
USING ICEBERG
[LOCATION 's3://your-bucket-name/prefix/']
[PARTITIONED BY [[column_name | transform_function]], ...]
[TABLE PROPERTIES ('compression_type'='<compression-value>')]
AS
SELECT query

Dies ähnelt der Anweisung, mit der Ausnahme, dass darauf eine CREATE TABLE SELECT Anweisung CREATE folgt, um die Tabelle mit Abfrageergebnissen zu füllen. SELECT

Mit CREATE TABLE dieser Klausel können Sie die Datentypen nicht mehr angeben, da die Spaltendatentypen von der SELECT Abfrage bestimmt werden.

Wenn die SELECT Abfrage aus irgendeinem Grund fehlschlägt, schlägt diese Abfrage fehl und die Iceberg-Tabelle wird nicht erstellt.

Sie können die Struktur Ihrer Iceberg-Tabellen wie folgt anzeigen: SHOW TABLE

SHOW TABLE


SHOW TABLE <external_schema>.<table_name>

Sie können auch die dreiteilige Notation für automatisch gemountete Kataloge verwenden:


SHOW TABLE "<catalog_name>".<database_name>.<table_name>

SHOW TABLEzeigt die CREATE TABLE Anweisung für die Iceberg-Tabelle an. Der Befehl zeigt je nach Typ der Tabelle die entsprechenden Ergebnisse an. Im Folgenden finden Sie ein Beispiel für die SHOW TABLE Ausgabe für die Iceberg-Tabelle:


CREATE TABLE my_schema.items (id int, price decimal(5, 2))
USING ICEBERG
LOCATION 's3://my_s3_bucket/items/'
PARTITIONED BY (bucket(16, id))
TABLE PROPERTIES ('compression_type'='snappy')

Anmerkung

Bei Amazon S3 S3-Tabellen wird die LOCATION Klausel in den SHOW TABLE Ergebnissen weggelassen, da der Tabellenspeicherort vom Amazon S3 S3-Tabellenkatalog verwaltet wird.

Nachdem Sie Tabellen erstellt haben, können Sie Daten hinzufügen, indem SieINSERT INTO:

INSERT INTO


INSERT INTO <external_schema>.<table_name> [(column_name [, ...])] VALUES (...)
INSERT INTO <external_schema>.<table_name> [(column_name [, ...])] (SELECT query)

-- Using three-part notation for S3 table buckets:
INSERT INTO "<table_bucket_name>@s3tablescatalog".<database_name>.<table_name> [(column_name [, ...])] VALUES (...)
INSERT INTO "<table_bucket_name>@s3tablescatalog".<database_name>.<table_name> [(column_name [, ...])] (SELECT query)

Sie können eine INSERT INTO bestehende Iceberg-Tabelle mit der obigen Syntax erstellen. Wenn eine VALUES Klausel verwendet wird, geben Sie die Werte für die Spalten an, die von aufgelistet sindcolumn_name, oder für alle Spalten, wenn column_name ein Teil weggelassen wird.

Wenn Daten in eine partitionierte Tabelle eingefügt werden, werden neue Zeilen gemäß der vordefinierten Partitionsspezifikation verteilt. Wenn die SELECT Abfrage aus irgendeinem Grund fehlschlägt, schlägt die Abfrage fehl und es werden keine Daten in die Iceberg-Tabelle eingefügt.

Sie können zu INSERT INTO einer Iceberg-Tabelle wechseln, die nicht von Amazon Redshift erstellt wurde. Es gibt jedoch einige Einschränkungen:

Die Tabelle muss eine Iceberg v2-Tabelle sein.
Die Tabelle muss Parquet als Standarddatenformat verwenden.
Für die Tabelle darf die Metadatenkomprimierung nicht auf True gesetzt sein.
Die Tabelle darf nicht aktiviert werden Write-Audit-Publish (WAP).

Verwenden Sie den DROP TABLE folgenden Befehl, um eine Iceberg-Tabelle aus dem Katalog zu entfernen:

DROP TABLE


DROP TABLE <external_schema>.<table_name>

Sie können auch die dreiteilige Notation für automatisch gemountete Kataloge verwenden:


DROP TABLE "<catalog_name>.<database_name>.<table_name>

Das Löschen einer Iceberg-Tabelle ist ein reiner Metadaten-Vorgang. Es entfernt den Tabelleneintrag aus AWS Glue Data Catalog einem Amazon S3 S3-Tabellenkatalog, falls es sich um eine Amazon S3 S3-Tabelle handelt. Amazon Redshift bereinigt oder löscht keine vorhandenen Datendateien oder Metadatendateien unter dem Tabellenspeicherort. Sie können Funktionen in AWS Glue und Amazon S3 S3-Tabellen verwenden, um verwaiste Dateien zu entfernen. Weitere Informationen finden Sie unter Löschen verwaister Dateien. AWS Glue Informationen zu Amazon S3 S3-Tabellen finden Sie unter Tabellenverwaltung.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

In Apache Iceberg-Tabellen schreiben

Semantik von Transaktionen