Я планирую написать веб-краулер для проекта НЛП, который будет читать структуру потоков форума каждый раз в определенный интервал и анализировать каждый поток с новым содержанием. С помощью регулярных выражений извлекаются автор, дата и содержание новых сообщений. Затем результат сохраняется в базе данных.
Язык и платформа, используемые для поискового робота, должны соответствовать следующим критериям:
После некоторого исследования я думаю, что Erlang может быть подходящим кандидатом, но я читал, что он не очень хорош при обработке строк (и, следовательно, сопоставлении регулярных выражений). Также у меня нет опыта в отношении фактора обслуживания.
Подходит ли Erlang для описанного выше сценария? А если нет, то что было бы хорошей альтернативой?