Как создать пакет слов, используя Weka?

У меня есть корпус документов, и я хочу представить каждый документ как вектор. В основном, вектор будет иметь 1 для слов, которые присутствуют внутри документа, а для других слов (которые присутствуют в других документах в корпусе, а не в этом конкретном документе) он будет иметь 0. Как мне создать этот вектор для всех документов в Weka ?

Есть ли быстрый способ сделать это с помощью Weka? Я также хочу, чтобы Weka удалила стоп-слова и, если возможно, некоторую предварительную обработку перед созданием этого вектора.

Спасибо Abhishek S

5
задан London guy 10 October 2011 в 07:26
поделиться