Почему mergeValue требуется в CombineByKey [duplicate]

Исключение нулевого указателя - это индикатор того, что вы используете объект, не инициализируя его.

Например, ниже - класс ученика, который будет использовать его в нашем коде.

public class Student {

    private int id;

    public int getId() {
        return this.id;
    }

    public setId(int newId) {
        this.id = newId;
    }
}

Приведенный ниже код дает вам исключение с нулевым указателем.

public class School {

    Student obj_Student;

    public School() {
        try {
            obj_Student.getId();
        }
        catch(Exception e) {
            System.out.println("Null Pointer ");
        }
    }
}

Поскольку вы используете Obj_Student, но вы забыли инициализировать его, как в правильном коде, показанном ниже:

public class School {

    Student obj_Student;

    public School() {
        try {
            obj_Student = new Student();
            obj_Student.setId(12);
            obj_Student.getId();
        }
        catch(Exception e) {
            System.out.println("Null Pointer ");
        }
    }
}
18
задан Andy Korneyev 25 March 2015 в 08:05
поделиться

1 ответ

Сначала давайте разрушим процесс:

Во-первых, createCombiner создает начальное значение (объединитель) для первой встречи ключа в разделе, если он не найден --> (firstValueEncountered, 1). Таким образом, это просто инициализация кортежа с первым значением и счетчиком ключей 1.

Затем mergeValue запускается только в том случае, если объединитель (кортеж в нашем случае) уже создан для найденного на этом разделе --> (existingTuple._1 + subSequentValue, existingTuple._2 + 1). Это добавляет значение существующего кортежа (в первом слоте) с вновь обнаруженным значением и берет счетчик существующих кортежей (во втором слоте) и увеличивает его. Итак, мы

Затем mergeCombiner берет комбинаторы (кортежи), созданные на каждом разделе, и объединяет их --> (tupleFromPartition._1 + tupleFromPartition2._1, tupleFromPartition1._2 + tupleFromPartition2._2). Это просто добавление значений из каждого кортежа вместе, а счетчики - в один кортеж.

Затем разделим подмножество ваших данных на разделы и увидим его в действии:

("A", 3), ("A", 9), ("A", 12),("B", 4), ("B", 10), ("B", 11)

Раздел 1

A=3 --> createCombiner(3) ==> accum[A] = (3, 1)
A=9 --> mergeValue(accum[A], 9) ==> accum[A] = (3 + 9, 1 + 1)
B=11 --> createCombiner(11) ==> accum[B] = (11, 1)

Раздел 2

A=12 --> createCombiner(12) ==> accum[A] = (12, 1)
B=4 --> createCombiner(4) ==> accum[B] = (4, 1)
B=10 --> mergeValue(accum[B], 10) ==> accum[B] = (4 + 10, 1 + 1)

Объединить разделы вместе

A ==> mergeCombiner((12, 2), (12, 1)) ==> (12 + 12, 2 + 1)
B ==> mergeCombiner((11, 1), (14, 2)) ==> (11 + 14, 1 + 2)

Итак, вы должны вернуть массив, это:

Array((A, (24, 3)), (B, (25, 3)))
50
ответ дан Justin Pihony 19 August 2018 в 03:06
поделиться
  • 1
    почему в перегородке 1 вместо (A, 12) берется (B, 11) – Randomlogicx 25 March 2015 в 20:21
  • 2
    Я предполагаю случайный разделитель. Если бы это был отсортированный разделитель, тогда он должен быть таким, каким вы ожидаете – Justin Pihony 28 March 2015 в 21:12
  • 3
    Удивительная иллюстрация Джастин ..! – Jagadish Talluri 22 March 2016 в 16:08
  • 4
    Он должен быть отмечен как правильный ответ – Giorgio 19 December 2017 в 23:59
Другие вопросы по тегам:

Похожие вопросы: