Настройка производительности запроса Hive

У меня есть запрос Hive, который выбирает около 30 столбцов и около 400 000 записей и вставляет их в другую таблицу. У меня есть одно соединение в моем предложении SQL, которое является просто внутренним соединением.

Запрос завершается ошибкой из-за превышения лимита накладных расходов Java GC.

Странно то, что если я уберу предложение соединения и просто выберу данные из таблицы (немного большего объема ), то запрос работает нормально.

Я новичок в Hive. Я не могу понять, почему это соединение вызывает исключения памяти.

Есть ли что-то, о чем я должен знать в отношении того, как я пишу запросы Hive, чтобы они не вызывали этих проблем? Может ли кто-нибудь объяснить, почему объединение может вызвать эту проблему, а выбор большего объема данных и такого же количества столбцов - нет.

Цените свои мысли по этому поводу. Спасибо

11
задан user1494355 8 July 2012 в 23:25
поделиться