Jeg prøver å forstå datalokaliteten slik den er relatert til Hadoop's Map / Reduce framework. Spesielt prøver jeg å forstå hvilken komponent som håndterer datalokalitet (dvs. er det inngangsformatet?)
Yahoos utviklernettverksside sier "Hadoop-rammeverket planlegger deretter disse prosessene i nærheten av plasseringen av data / poster ved hjelp av kunnskap fra det distribuerte filsystemet."Dette ser ut til å antyde at HDFS-inngangsformatet kanskje vil spørre navnetoden for å bestemme hvilke noder som inneholder de ønskede dataene, og vil starte kartoppgavene på disse nodene hvis mulig. Man kan forestille seg at en lignende tilnærming kan tas med HBase ved å spørre til bestemme hvilke regioner som serverer bestemte poster.
Hvis en utvikler skriver sitt eget inndataformat, ville de være ansvarlige for å implementere datalokalitet?