Я новичок в ИК-методах.
Я ищу API на основе Java или инструмент, который выполняет следующие функции.
- Загрузить заданный набор URL-адресов
- Извлечь токены
- Удалить стоп-слова
- Выполнить Stemming
- Создать инвертированный индекс
- Рассчитать TF-IDF
Пожалуйста, дайте мне знать, как можно Lucene будет мне полезен.
С уважением
Юви
задан Yuval F 14 February 2011 в 11:00
поделиться