В Стэнфорде есть очень хорошая коллекция инструментов НЛП.
О других языках JVM смотрите
ClearTK предоставляет Java-фреймворк для статистического NLP. Его сила не столько в библиотеках, сколько в предоставлении инфраструктуры и обёрток для извлечения функций и обучения моделей.