Управление большим количеством файлов журналов, распределенных на многих машинах

Мы начали использовать стороннюю платформу (GigaSpaces), которая помогает нам с распределенными вычислениями. Одна из основных проблем, которые мы пытаемся решить сейчас, - это управление нашими файлами журналов в этой распределенной среде. В настоящее время у нас есть следующая установка.

Наша платформа распределена по 8 машинам. На каждой машине у нас есть 12-15 процессов, которые регистрируют отдельные файлы журналов с помощью java.util.logging. На вершине этой платформы у нас есть собственные приложения, которые используют log4j и ведут журнал для разделения файлов. Мы также перенаправляем stdout в отдельный файл для перехвата дампов потоков и т.п.

В результате получается около 200 различных файлов журналов.

На данный момент у нас нет инструментов, помогающих в управлении этими файлами. В следующих случаях это вызывает у нас серьезные головные боли.

  • Устранение неполадок, когда мы заранее не знаем, в каком процессе возникла проблема. В этом случае в настоящее время мы подключаемся к каждой машине с помощью ssh и начинаем использовать grep .

  • Пытаемся действовать на опережение, регулярно проверяя журналы на наличие чего-либо необычного. В этом случае мы также в настоящее время авторизуемся на всех машинах и просматриваем различные журналы, используя less и tail .

  • Настройка предупреждений. Мы хотим настроить оповещения о событиях, превышающих пороговое значение. Это выглядит головной болью, ведь нужно проверять 200 файлов журнала.

Сегодня у нас всего около 5 событий журнала в секунду, но это будет увеличиваться по мере того, как мы переносим все больше и больше кода на новую платформу.

Я бы хотел задать сообществу следующие вопросы.

  • Как вы справлялись с подобными случаями с множеством файлов журналов, распределенных по нескольким машинам, и регистрировались через разные платформы?
  • Почему вы выбрали именно это решение?
  • Как ваши решения работали. ? Что вы сочли хорошим, а что плохим?

Большое спасибо.

Обновление

В конце концов мы оценили пробную версию Splunk. Мы очень довольны тем, как он работает, и решили его приобрести. Простота настройки, быстрый поиск и множество функций для технически подкованных. Я могу порекомендовать любому в подобных ситуациях проверить это.

5
задан K Erlandsson 27 January 2011 в 12:40
поделиться