Создайте набор данных: функции извлечения из текстовых документов (TF-IDF)

Я должен создать набор данных из некоторых текстовых файлов, пишущий им как векторы функций.

Что-то вроде этого:

doc1: 1,0.45 6,0.001 94,0.1 ...

doc2: 3,0.5 98,0.2 ...

...

каждое положение вектора представляет слово, и счет дан чем-то как TF-IDF.

Вы знаете некоторый library/tool/whatever для этого? (Java лучше),

1
задан Brian Tompsett - 汤莱恩 8 December 2015 в 16:19
поделиться

3 ответа

Конечно, их много, например http://en.wikipedia.org/wiki/Lucene

Однако

я рекомендую вам написать базовую ИК-систему с нуля. Заглядывать под капот - всегда полезный опыт.

0
ответ дан 3 September 2019 в 00:16
поделиться

mallet. включая TF-IDF, POS, классификацию.

0
ответ дан 3 September 2019 в 00:16
поделиться

Через несколько дней я нашел «идеальный инструмент» для этого: Word Vector Tool. http://sourceforge.net/projects/wvtool/

2
ответ дан 3 September 2019 в 00:16
поделиться
Другие вопросы по тегам:

Похожие вопросы: