왜 hadoop이 큰 텍스트 파일을 분할 한 다음 gzip을 사용하여 분할을 압축 할 수 없습니까?

최근에 hadoop과 HDFS를 조사했습니다. 파일을 HDFS로로드하면 일반적으로 파일을 64MB 청크로 분할하고 이러한 청크를 클러스터에 배포합니다. gzip 파일은 분할 할 수 없기 때문에 gzip 파일로는이를 수행 할 수 없습니다. 나는 이것이 왜 그런지 완전히 이해합니다 (저는 gzip 파일을 분할 할 수없는 이유를 설명하는 사람이 필요하지 않습니다). 하지만 HDFS가 일반 텍스트 파일을 입력으로 가져 와서 보통처럼 분할 한 다음 gzip을 사용하여 각 분할을 개별적으로 압축 할 수없는 이유는 무엇입니까? 모든 분할에 액세스하면 즉시 압축이 해제됩니다.

내 시나리오에서 각 분할은 완전히 독립적으로 압축됩니다. 분할간에 종속성이 없으므로 분할 중 하나의 압축을 풀기 위해 전체 원본 파일이 필요하지 않습니다. 이것이이 패치가 취하는 접근 방식입니다. https://issues.apache.org/jira/browse/HADOOP-7076 , 이것이 내가 원하는 것이 아닙니다 .

이것은 매우 기본적인 것 같습니다 ... 내가 무엇을 놓치고 있습니까? 왜 이렇게 할 수 없습니까? 또는 가능하다면 왜 하둡 개발자가이 경로를 살펴 보지 않았을까요? HDFS에서 분할 된 gzip 파일을 원하는 사람들에 대해 내가 얼마나 많은 토론을했는지를 감안할 때 이상하게 보입니다.

7
задан onlynone 28 June 2011 в 20:20
поделиться