Verwenden der Datenkomprimierung

Wenn Sie mithilfe von Hive Daten zwischen verschiedenen Datenquellen kopieren, können Sie Datenkompression bei laufendem Betrieb anfordern. Hive bietet mehrere Kompressions-Codecs. Sie können einen Codec während der Hive-Sitzung auswählen. Die Daten werden dann in dem angegebenen Format komprimiert.

Das folgende Beispiel komprimiert Daten mit dem Lempel-Ziv-Oberhumer (LZO)-Algorithmus.


SET hive.exec.compress.output=true;
SET io.seqfile.compression.type=BLOCK;
SET mapred.output.compression.codec = com.hadoop.compression.lzo.LzopCodec;

CREATE EXTERNAL TABLE lzo_compression_table (line STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'
LOCATION 's3://bucketname/path/subpath/';

INSERT OVERWRITE TABLE lzo_compression_table SELECT *
FROM hiveTableName;

Die entsprechende Datei in Amazon S3 erhält einen vom System generierten Namen mit der Erweiterung .lzo am Ende (z.B. 8d436957-57ba-4af7-840c-96c2fc7bb6f5-000000.lzo).

Die verfügbaren Kompressions-Codecs sind:

org.apache.hadoop.io.compress.GzipCodec
org.apache.hadoop.io.compress.DefaultCodec
com.hadoop.compression.lzo.LzoCodec
com.hadoop.compression.lzo.LzopCodec
org.apache.hadoop.io.compress.BZip2Codec
org.apache.hadoop.io.compress.SnappyCodec

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Kopieren von Daten zwischen DynamoDB und HDFS

Lesen von nicht druckbaren UTF-8-Zeichendaten