魏长东

weichangdong

东邪

hadoop压缩格式

其中 打开方式 可用 

hadoop dfs -text output5/part-r-00000.deflate
hdfs dfs -text output5/part-r-00000.deflate
 
用 -text 可以查看数据
 

我们可以把数据文件压缩后再存入HDFS,以节省存储空间。但是,在使用MapReduce处理压缩文件时,必须考虑压缩文件的可分割性。目前,Hadoop支持以下几种压缩格式

 

压缩格式 UNIX工具 算       文件扩展名 支持多文件 可分割
DEFLATE DEFLATE .deflate No No
gzip gzip DEFLATE .gz No No
zip zip DEFLATE .zip YES YES
bzip bzip2 bzip2 .bz2 No YES
LZO lzop LZO .lzo No No

 

 
 
为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器,如下表所示
压缩格式 对应的编码/解码器
DEFLATE org.apache.hadoop.io.compress.DefaultCodec
gzip org.apache.hadoop.io.compress.GzipCodec
bzip org.apache.hadoop.io.compress.BZipCodec
Snappy org.apache.hadoop.io.compress.SnappyCodec