Алгоритм частотности слова для обработки естественного языка
В то время как ответ для того вопроса превосходен, я задавался вопросом, мог ли я использовать все время, я потратил узнающий SOLR для своей обработки естественного языка.
Я думал о SOLR потому что:
Хотя вышеупомянутые основания являются серьезными, я не знаю SOLR, ЧТО хорошо, таким образом, я должен знать, подходило ли это для моих требований.
Идеально, я хотел бы настроить SOLR и затем смочь отправить SOLR некоторый текст и получить индексируемое tonkenized содержание.
Я работаю над маленьким компонентом более крупного механизма рекомендации.
Думаю, вы можете использовать Solr и комбинировать его с другими инструментами. Токенизация, удаление стоп-слов, выделение корней и даже синонимы идут прямо из коробки с Solr. Если вам нужно распознавание именованных сущностей или извлечение базовых именных фраз, вам необходимо использовать OpenNLP или аналогичный инструмент в качестве этапа предварительной обработки. Вам, вероятно, понадобятся векторы терминов для поиска. Интеграция Apache Mahout с Apache Lucene и Solr может быть полезна, поскольку в ней обсуждается интеграция Lucene и Solr с механизмом машинного обучения (включая рекомендации). В остальном, не стесняйтесь задавать более конкретные вопросы.