Java API: загрузка и вычисление tf-idf для данная веб-страница

Я новичок в ИК-методах.

Я ищу API на основе Java или инструмент, который выполняет следующие функции.

  1. Загрузить заданный набор URL-адресов
  2. Извлечь токены
  3. Удалить стоп-слова
  4. Выполнить Stemming
  5. Создать инвертированный индекс
  6. Рассчитать TF-IDF

Пожалуйста, дайте мне знать, как можно Lucene будет мне полезен.

С уважением Юви

5
задан Yuval F 14 February 2011 в 11:00
поделиться