У меня есть программа "только карта" (без фазы сокращения ). Размер входного файла достаточно велик для создания 7 картографических задач, и я убедился, что, просмотрев выходные данные, мы получили от (часть -000 до части 006 ). Теперь мой кластер состоит из 8 узлов, каждый из которых имеет 8 ядер и 8 ГБ памяти, а также общую файловую систему, размещенную на головном узле.
Мой вопрос: могу ли я выбрать между запуском всех 7 задач карты только на 1 узле или запуском 7 задач карты на 7 разных подчиненных узлах (1 задача на узел ). Если я могу это сделать, то какие изменения в моем коде и файле конфигурации необходимы.
Я попытался установить для параметра "mapred.tasktracker.map.tasks.maximum" значения 1 и 7 только в своем коде, но не обнаружил заметной разницы во времени. В моем файле конфигурации он установлен как 1.