Посмотрите, что вы думаете о версии в Apache Tika . Это предполагает, что вы хотите узнать, на каком языке написан текст, а не хотите создать синтаксический анализатор для языка программирования.
Я думаю, ANTLR вполне стандартен.