Мы начали использовать стороннюю платформу (GigaSpaces), которая помогает нам с распределенными вычислениями. Одна из основных проблем, которые мы пытаемся решить сейчас, - это управление нашими файлами журналов в этой распределенной среде. В настоящее время у нас есть следующая установка.
Наша платформа распределена по 8 машинам. На каждой машине у нас есть 12-15 процессов, которые регистрируют отдельные файлы журналов с помощью java.util.logging. На вершине этой платформы у нас есть собственные приложения, которые используют log4j и ведут журнал для разделения файлов. Мы также перенаправляем stdout в отдельный файл для перехвата дампов потоков и т.п.
В результате получается около 200 различных файлов журналов.
На данный момент у нас нет инструментов, помогающих в управлении этими файлами. В следующих случаях это вызывает у нас серьезные головные боли.
Устранение неполадок, когда мы заранее не знаем, в каком процессе возникла проблема. В этом случае в настоящее время мы подключаемся к каждой машине с помощью ssh и начинаем использовать grep
.
Пытаемся действовать на опережение, регулярно проверяя журналы на наличие чего-либо необычного. В этом случае мы также в настоящее время авторизуемся на всех машинах и просматриваем различные журналы, используя less
и tail
.
Настройка предупреждений. Мы хотим настроить оповещения о событиях, превышающих пороговое значение. Это выглядит головной болью, ведь нужно проверять 200 файлов журнала.
Сегодня у нас всего около 5 событий журнала в секунду, но это будет увеличиваться по мере того, как мы переносим все больше и больше кода на новую платформу.
Я бы хотел задать сообществу следующие вопросы.
Большое спасибо.
Обновление
В конце концов мы оценили пробную версию Splunk. Мы очень довольны тем, как он работает, и решили его приобрести. Простота настройки, быстрый поиск и множество функций для технически подкованных. Я могу порекомендовать любому в подобных ситуациях проверить это.