Я хочу экспортировать из нескольких файлов журнала узлов (в моем апачском доступе случая и журналах ошибок) и агрегат что данные в пакете как запланированное задание. Я видел несколько решений, которые работают с потоковой передачей данных (т.е. думают скрайбирование). Я хотел бы инструмент, который дает мне гибкость для определения места назначения. Это требование прибывает из того, что я хочу использовать HDFS в качестве места назначения.
Я не смог найти инструмент, который поддерживает это в пакете. Прежде, чем воссоздать колесо я хотел попросить у сообщества StackOverflow их входа.
Если бы решение уже существует в Python, который был бы еще лучше.
PiCloud может помочь.
Платформа PiCloud дает вам свободу разрабатывать свои алгоритмы и программное обеспечение, не тратя время на все сантехнические работы, которые связаны с инициализацией, управлением и обслуживанием серверов.
взгляните на Zomhg, его систему агрегирования / отчетности для файлов журналов с использованием Hbase и Hdf: http://github.com/zohmg / zohmg
Scribe может удовлетворить ваши требования, есть версия ( ссылка ) scribe, которая может агрегировать журналы из нескольких источников и после достижения заданного порога сохраняет все в HDFS. Я использовал его, и он работает очень хорошо. Компиляция довольно сложная, поэтому при возникновении проблем задайте вопрос.
мы используем http://mergelog.sourceforge.net/ для объединения всех наших журналов apache...