Лучшие практики Amazon MapReduce для анализа журналов

Question

Лучшие практики Amazon MapReduce для анализа журналов

Я разбираю логи доступа, сгенерированные Apache, Nginx, Darwin (сервер потокового видео) и агрегирую статистику по каждому доставленному файлу по дате/рефереру/юзерагенту.

Каждый час генерируются тонны журналов, и это число, вероятно, резко возрастет в ближайшем будущем, поэтому обработка такого рода данных распределенным образом с помощью Amazon Elastic MapReduce кажется разумной.

Прямо сейчас я готов с преобразователями и редьюсерами обрабатывать мои данные и протестировал весь процесс следующим образом:

загрузил преобразователи, редьюсеры и данные в Amazon S3
настроил соответствующее задание и успешно его обработал
загрузил агрегированные результаты из Amazon S3 на свой сервер и вставил их в базу данных MySQL, запустив сценарий CLI.

Я сделал это вручную в соответствии с тысячами руководств по Amazon ERM, которые можно найти в Интернете.

Что мне делать дальше? Каков наилучший подход к автоматизации этого процесса?

Должен ли я управлять Amazon EMR jobTracker через API?
Как я могу убедиться, что мои журналы не будут обрабатываться дважды?
Как лучше всего переместить обработанные файлы в архив?
Как лучше всего вставлять результаты в PostgreSQL/MySQL?
Как данные для заданий должны располагаться во входных/выходных каталогах?
Нужно ли каждый раз создавать новое задание EMR с помощью API?
Как лучше всего загружать необработанные журналы в Amazon S3?
Кто-нибудь может поделиться своей настройкой потока обработки данных?
Как контролировать загрузку файлов и выполнение заданий?

Я думаю, что эта тема может быть полезна для многих людей, которые пытаются обрабатывать журналы доступа с помощью Amazon Elastic MapReduce, но не могут найти хорошие материалы и/или рекомендации.

UPD:Просто чтобы прояснить, вот последний вопрос:

Каковы передовые методы обработки журналов с помощью Amazon Elastic MapReduce?

Похожие сообщения:

Получение данных из Elastic MapReduce HDFS

8

amazon-emr amazon-s3 hadoop-streaming hadoop logging

задан webdevbyjoss 8 November 2018 в 22:31

0 ответов

Другие вопросы по тегам:

amazon-emr amazon-s3 hadoop-streaming hadoop logging

Лучшие практики Amazon MapReduce для анализа журналов

0 ответов

Похожие вопросы: