Amazon S3 V2のソースとターゲットでのデータ圧縮
Amazon S3からデータを読み取る場合にデータを解凍したり、Amazon S3にデータを書き込む場合にデータを圧縮したりすることができます。
詳細ソースプロパティと詳細ターゲットプロパティの[圧縮形式]オプションで圧縮形式を設定します。
圧縮形式はバイナリファイルには適用されません。
次の表に、Amazon S3からデータの読み取りを行う場合にさまざまなファイルタイプで使用できる圧縮形式の一覧を示します。
圧縮形式 | ファイルタイプ |
---|
なし | Avro、Delta1、Flat、JSON2、ORC、Parquet |
Bzip2 | JSON2 |
Deflate | Avro |
Gzip | Delta1、Flat、Parquet |
Lzo | どのファイルのタイプにも適用されません。 |
Snappy | Avro、Delta1、ORC、Parquet |
Zlib | ORC |
1詳細モードのマッピングには適用されません。 2詳細モードのマッピングにのみ適用されます。 |
次の表に、Amazon S3にデータの書き込みを行う場合にさまざまなファイルタイプで使用できる圧縮形式の一覧を示します。
圧縮形式 | ファイルタイプ |
---|
なし | Avro、Delta1、Flat、JSON2、ORC、Parquet |
Bzip2 | JSON2 |
Deflate | Avro、JSON2 |
Gzip | Delta1、Flat、JSON2、Parquet |
Lzo | どのファイルのタイプにも適用されません。 |
Snappy | Avro、Delta1、JSON2、ORC、Parquet |
Zlib | ORC |
1詳細モードのマッピングには適用されません。 2詳細モードのマッピングにのみ適用されます。 |
Avro、ORCおよびParquetのファイル形式の場合、詳細ソースプロパティの[圧縮形式]オプションに表示されていなくても、次の圧縮形式は暗黙的にサポートされます。
圧縮形式 | ファイルタイプ |
---|
Deflate | Avro |
Snappy | Avro、ORC、Parquet |
Zlib | ORC |
圧縮フラットファイルの読み取り
圧縮フラットファイルからデータを読み取るマッピングを実行する際には、スキーマファイルをアップロードし、圧縮形式としてGzipを選択する必要があります。Gzip圧縮形式を使用してフラットファイルからデータを読み取る際には.GZファイル名拡張子を使用します。
1必要な圧縮フラットファイルを選択します。
2[形式オプション]プロパティフィールドに移動します。
3[スキーマファイルからインポートする]オプションを選択し、スキーマをアップロードします。
フラットファイルのサンプルスキーマファイルを以下に示します。
{"Columns":[{"Name":"f_varchar","Type":"string","Precision":"256","Scale":"0"},{"Name":"f_char","Type":"string","Precision":"256","Scale":"0"},{"Name":"f_smallint","Type":"string","Precision":"256","Scale":"0"},{"Name":"f_integer","Type":"string","Precision":"256","Scale":"0"},{"Name":"f_bigint","Type":"string","Precision":"256","Scale":"0"},{"Name":"f_decimal_default","Type":"string","Precision":"256","Scale":"0"},{"Name":"f_real","Type":"string","Precision":"256","Scale":"0"},{"Name":"f_double_precision","Type":"string","Precision":"256","Scale":"0"},{"Name":"f_boolean","Type":"string","Precision":"256","Scale":"0"},{"Name":"f_date","Type":"string","Precision":"256","Scale":"0"},{"Name":"f_timestamp","Type":"string","Precision":"256","Scale":"0"}]}
4詳細ソースプロパティの[圧縮形式]で[GZIP]を選択します。
圧縮JSONファイルの読み取り
圧縮JSONファイルからデータを読み取るマッピングを実行する際には、スキーマファイルをアップロードし、圧縮形式としてBzip2を選択する必要があります。Bzip2圧縮形式を使用してJSONファイルを読み取る際には.BZ2ファイル名拡張子を使用します。
1必要な圧縮JSONファイルを選択します。
2[形式オプション]プロパティフィールドに移動します。
3[スキーマファイルからインポートする]オプションを選択し、スキーマをアップロードします。
次の図は、JSONファイルのサンプルスキーマファイルを示しています。
{"Field1":"<string>","Field2":"<string>","Field3":<integer>}
すべてのカラムのデータを含む行をJSONスキーマとして使用します。
4詳細ソースプロパティの[圧縮形式]で[Bzip2]を選択します。