Я разбираю логи доступа, сгенерированные Apache, Nginx, Darwin (сервер потокового видео) и агрегирую статистику по каждому доставленному файлу по дате/рефереру/юзерагенту.
Каждый час генерируются тонны журналов, и это число, вероятно, резко возрастет в ближайшем будущем, поэтому обработка такого рода данных распределенным образом с помощью Amazon Elastic MapReduce кажется разумной.
Прямо сейчас я готов с преобразователями и редьюсерами обрабатывать мои данные и протестировал весь процесс следующим образом:
Я сделал это вручную в соответствии с тысячами руководств по Amazon ERM, которые можно найти в Интернете.
Что мне делать дальше? Каков наилучший подход к автоматизации этого процесса?
Я думаю, что эта тема может быть полезна для многих людей, которые пытаются обрабатывать журналы доступа с помощью Amazon Elastic MapReduce, но не могут найти хорошие материалы и/или рекомендации.
UPD:Просто чтобы прояснить, вот последний вопрос:
Каковы передовые методы обработки журналов с помощью Amazon Elastic MapReduce?
Похожие сообщения: