Я должен создать набор данных из некоторых текстовых файлов, пишущий им как векторы функций.
Что-то вроде этого:
doc1: 1,0.45 6,0.001 94,0.1 ...
doc2: 3,0.5 98,0.2 ...
...
каждое положение вектора представляет слово, и счет дан чем-то как TF-IDF.
Вы знаете некоторый library/tool/whatever для этого? (Java лучше),
Конечно, их много, например http://en.wikipedia.org/wiki/Lucene
Однако
я рекомендую вам написать базовую ИК-систему с нуля. Заглядывать под капот - всегда полезный опыт.
Через несколько дней я нашел «идеальный инструмент» для этого: Word Vector Tool. http://sourceforge.net/projects/wvtool/