Вычисление IDF (Обратная частота документа )для категоризации документа

У меня есть сомнения в вычислении IDF (Обратной частоты документа )при категоризации документов. У меня более одной категории с несколькими документами для обучения. Я вычисляю IDF для каждого термина в документе по следующей формуле:

IDF(t,D)=log(Total Number documents/Number of Document matching term);

Мои вопросы:

  1. Что означает «Общее количество документов в корпусе»? Отсчитывается ли документ из текущей категории или из всех доступных категорий?
  2. Что означает «номер документа, совпадающий с термином»? Отсчитывается ли термин, совпадающий с документом, из текущей категории или из всех доступных категорий?
5
задан vignesh kumar rathakumar 29 August 2012 в 07:27
поделиться