Лучшие практики Amazon MapReduce для анализа журналов

Я разбираю логи доступа, сгенерированные Apache, Nginx, Darwin (сервер потокового видео) и агрегирую статистику по каждому доставленному файлу по дате/рефереру/юзерагенту.

Каждый час генерируются тонны журналов, и это число, вероятно, резко возрастет в ближайшем будущем, поэтому обработка такого рода данных распределенным образом с помощью Amazon Elastic MapReduce кажется разумной.

Прямо сейчас я готов с преобразователями и редьюсерами обрабатывать мои данные и протестировал весь процесс следующим образом:

  • загрузил преобразователи, редьюсеры и данные в Amazon S3
  • настроил соответствующее задание и успешно его обработал
  • загрузил агрегированные результаты из Amazon S3 на свой сервер и вставил их в базу данных MySQL, запустив сценарий CLI.

Я сделал это вручную в соответствии с тысячами руководств по Amazon ERM, которые можно найти в Интернете.

Что мне делать дальше? Каков наилучший подход к автоматизации этого процесса?

  • Должен ли я управлять Amazon EMR jobTracker через API?
  • Как я могу убедиться, что мои журналы не будут обрабатываться дважды?
  • Как лучше всего переместить обработанные файлы в архив?
  • Как лучше всего вставлять результаты в PostgreSQL/MySQL?
  • Как данные для заданий должны располагаться во входных/выходных каталогах?
  • Нужно ли каждый раз создавать новое задание EMR с помощью API?
  • Как лучше всего загружать необработанные журналы в Amazon S3?
  • Кто-нибудь может поделиться своей настройкой потока обработки данных?
  • Как контролировать загрузку файлов и выполнение заданий?

Я думаю, что эта тема может быть полезна для многих людей, которые пытаются обрабатывать журналы доступа с помощью Amazon Elastic MapReduce, но не могут найти хорошие материалы и/или рекомендации.

UPD:Просто чтобы прояснить, вот последний вопрос:

Каковы передовые методы обработки журналов с помощью Amazon Elastic MapReduce?

Похожие сообщения:

Получение данных из Elastic MapReduce HDFS

8
задан webdevbyjoss 8 November 2018 в 22:31
поделиться