В настоящее время реализую PageRank на Дискотеке. Как итеративный алгоритм, результаты одного повторения используются в качестве входа к следующему повторению.
У меня есть большой файл, который представляет все ссылки с каждой строкой, представляющей страницу и значения в строке, представляющей страницы, с которыми она связывается.
Для Дискотеки я повреждаю этот файл в блоки N, затем выполняю MapReduce для одного раунда. В результате я получаю ряд (страница, разряд) кортежи.
Я хотел бы подать этот разряд к следующему повторению. Однако теперь моему картопостроителю нужны два исходных данных: файл графика и уровни PageRank.
Это все кажется более сложным, чем необходимый, и как довольно простая операция (с наиболее существенным mapreduce алгоритмом), кажется, что я пропускаю что-то о Дискотеке, которая могла действительно упростить подход.
Какие-либо мысли?