Er inndataformatet ansvarlig for implementering av datalokalitet i Hadoop's MapReduce?

Jeg prøver å forstå datalokaliteten slik den er relatert til Hadoop's Map / Reduce framework. Spesielt prøver jeg å forstå hvilken komponent som håndterer datalokalitet (dvs. er det inngangsformatet?)

Yahoos utviklernettverksside sier "Hadoop-rammeverket planlegger deretter disse prosessene i nærheten av plasseringen av data / poster ved hjelp av kunnskap fra det distribuerte filsystemet."Dette ser ut til å antyde at HDFS-inngangsformatet kanskje vil spørre navnetoden for å bestemme hvilke noder som inneholder de ønskede dataene, og vil starte kartoppgavene på disse nodene hvis mulig. Man kan forestille seg at en lignende tilnærming kan tas med HBase ved å spørre til bestemme hvilke regioner som serverer bestemte poster.

Hvis en utvikler skriver sitt eget inndataformat, ville de være ansvarlige for å implementere datalokalitet?

5
задан jmdev 25 May 2011 в 17:13
поделиться