Производительность Hive по сравнению с SQL Server

1) Я начал пользоваться ульем последние 2 месяца. У меня такая же задача, как и в SQL. Я обнаружил, что Hive работает медленно и требует больше времени для выполнения запросов, в то время как SQL выполняет его за очень несколько минут/секунд.

После выполнения задачи в Hive, когда я перепроверил результат в обоих (SQL и Hive), я обнаружил некоторую разницу в результатах (не во всех, но в некоторых таблицах). например : У меня есть одна таблица, в которой есть записи 2012 года, когда я выполнил задачу в Hive в той же таблице в Hive, я получил записи 2007 года.

Почему это происходит?

2) Если я думаю ускорить выполнение в Hive, то что мне для этого сделать? (В настоящее время я выполняю все это только на одном кластере. Если я думаю увеличить количество кластеров, то сколько кластеров мне нужно, чтобы повысить производительность)

Пожалуйста, предложите мне какое-нибудь решение или несколько хороших практик, чтобы я мог сделать это остро.

Спасибо.

6
задан Bhavesh Shah 3 April 2012 в 06:13
поделиться