Как бы вы предложили выполнить «Соединение» с потоковой передачей Hadoop?

У меня есть два файла в следующих форматах:

field1, field2, field3
field4, field1, field5

Другой номер поля указывает на другое значение.

Я хочу объединить два файла с помощью Hadoop Потоковая передача основана на взаимном поле ( field1 в приведенном выше примере), поэтому на выходе будет field1, field2, field3, field4, field5 (другие порядки допустимы, так как все они имеют поля).

11
задан exic 11 March 2014 в 11:47
поделиться