Как разделить таблицу с помощью HIVE?

Я играю с Hive уже несколько дней, но у меня все еще есть проблемы с разделением.

Несколько месяцев я вел журналы Apache (в формате Combine) в Hadoop. Они хранятся в текстовом формате строк, разделенных по дате (через флюм): /logs/yyyy/mm/dd/hh/*

Пример:

/logs/2012/02/10/00/Part01xx (02/10/2012 12:00 am)
/logs/2012/02/10/00/Part02xx
/logs/2012/02/10/13/Part0xxx (02/10/2012 01:00 pm)

Дата в файле комбинированного журнала имеет следующий формат [10/Feb/2012:00:00:00 - 08:00]

Как я могу создать внешнюю таблицу с разделом в Hive, который использует мой физический раздел. Я не могу найти хорошую документацию по разделу Hive. Я нашел связанный вопрос, такой как:

Если я загружаю свои журналы во внешнюю таблицу с помощью Hive, я не могу разделить время, так как это не хороший формат (февраль 02). Даже если бы он был в хорошем формате, как преобразовать строку «02.10.2012:00:00:00 -0800» в несколько каталогов «/2012/02/10/00»?

В конечном итоге я мог бы использовать сценарий свиньи для преобразования моих необработанных журналов в таблицы куста, но на данный момент я должен просто использовать свинью вместо куста для создания отчетов.

6
задан Community 23 May 2017 в 12:06
поделиться