Сортировка больших данных с помощью MapReduce / Hadoop

Я читаю о MapReduce, и меня смущает следующее:

Предположим, у нас есть файл с 1 миллионом записей (целых чисел), и мы хотим отсортировать их с помощью MapReduce. Я понял, как это сделать:

Напишите функцию отображения, которая сортирует целые числа. Таким образом, фреймворк разделит входной файл на несколько частей и предоставит их разным картографам. Каждый маппер будет сортировать свою порцию данных независимо друг от друга. Как только все преобразователи будут выполнены, мы передадим каждый из их результатов в Reducer, и он объединит результат и даст мне окончательный результат.

Я сомневаюсь, что если у нас есть один редуктор, то как он использует распределенную среду Если, в конце концов, мы должны объединить результат в одном месте? Проблема сводится к объединению 1 миллиона записей в одном месте. Это так или я что-то упустил?

Спасибо, тогда как он использует распределенную структуру, если, в конце концов, мы должны объединить результат в одном месте? Проблема сводится к объединению 1 миллиона записей в одном месте. Это так или я что-то упустил?

Спасибо, тогда как он использует распределенную структуру, если, в конце концов, мы должны объединить результат в одном месте? Проблема сводится к объединению 1 миллиона записей в одном месте. Это так или я что-то упустил?

Спасибо, Чандер

32
задан Chander Shivdasani 2 September 2010 в 06:46
поделиться