Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Verwenden der Datenkomprimierung
Wenn Sie mithilfe von Hive Daten zwischen verschiedenen Datenquellen kopieren, können Sie Datenkompression bei laufendem Betrieb anfordern. Hive bietet mehrere Kompressions-Codecs. Sie können einen Codec während der Hive-Sitzung auswählen. Die Daten werden dann in dem angegebenen Format komprimiert.
Das folgende Beispiel komprimiert Daten mit dem Lempel-Ziv-Oberhumer (LZO)-Algorithmus.
SET hive.exec.compress.output=true; SET io.seqfile.compression.type=BLOCK; SET mapred.output.compression.codec = com.hadoop.compression.lzo.LzopCodec; CREATE EXTERNAL TABLElzo_compression_table(line STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' LOCATION 's3://bucketname/path/subpath/'; INSERT OVERWRITE TABLElzo_compression_tableSELECT * FROMhiveTableName;
Die entsprechende Datei in Amazon S3 erhält einen vom System generierten Namen mit der Erweiterung .lzo am Ende (z.B. 8d436957-57ba-4af7-840c-96c2fc7bb6f5-000000.lzo).
Die verfügbaren Kompressions-Codecs sind:
-
org.apache.hadoop.io.compress.GzipCodec -
org.apache.hadoop.io.compress.DefaultCodec -
com.hadoop.compression.lzo.LzoCodec -
com.hadoop.compression.lzo.LzopCodec -
org.apache.hadoop.io.compress.BZip2Codec -
org.apache.hadoop.io.compress.SnappyCodec