Как алгоритм сортировки MapReduce работает?

Question

Как алгоритм сортировки MapReduce работает?

Инициализатор экземпляра в данном случае просто синтаксический сахар, верно? Я не понимаю, зачем вам нужен дополнительный анонимный класс только для инициализации. И это не сработает, если создаваемый класс будет окончательным.

Вы также можете создать неизменную карту, используя статический инициализатор:

public class Test {
    private static final Map<Integer, String> myMap;
    static {
        Map<Integer, String> aMap = ....;
        aMap.put(1, "one");
        aMap.put(2, "two");
        myMap = Collections.unmodifiableMap(aMap);
    }
}

103

algorithm sorting parallel-processing hadoop mapreduce

задан Niels Basjes 20 July 2009 в 10:07

3 ответа

Просто догадываюсь ...

Учитывая огромный набор данных, вы должны разделить данные на несколько частей, которые будут обрабатываться параллельно (возможно, по номеру записи, например, запись 1 - 1000 = раздел 1 и т. Д.).

Назначьте / запланируйте каждый раздел конкретному узлу в кластере.

Каждый узел кластера будет дополнительно разбивать (отображать) раздел на свой собственный мини-раздел, возможно, в алфавитном порядке ключей. Итак, в разделе 1 достаньте мне все, что начинается с A, и выведите его в мини-раздел A из x. Создайте новый A (x), если в настоящее время уже существует A (x). Замените x порядковым номером (возможно, это задание планировщика). Т.е. дайте мне следующий уникальный идентификатор A (x).

Передать (запланировать) задания, выполненные картографом (предыдущий шаг), узлам кластера «уменьшить». Уменьшение кластера узлов затем дополнительно уточнит вид каждой части A (x), что произойдет только тогда, когда будут выполнены все задачи картографа (на самом деле невозможно начать сортировку всех слов, начиная с A, когда все еще существует вероятность того, что все еще есть будет еще один мини-раздел в процессе создания). Выведите результат в окончательный отсортированный раздел (например, Сортированный-A, Сортированный-B и т. Д.)

После этого снова объедините отсортированный раздел в единый набор данных. На данный момент это просто объединение n файлов (где n может быть 26, если вы выполняете только A - Z) и т. Д.