У меня есть сомнения в вычислении IDF (Обратной частоты документа )при категоризации документов. У меня более одной категории с несколькими документами для обучения. Я вычисляю IDF для каждого термина в документе по следующей формуле:
IDF(t,D)=log(Total Number documents/Number of Document matching term);
Мои вопросы:
- Что означает «Общее количество документов в корпусе»? Отсчитывается ли документ из текущей категории или из всех доступных категорий?
- Что означает «номер документа, совпадающий с термином»? Отсчитывается ли термин, совпадающий с документом, из текущей категории или из всех доступных категорий?
задан vignesh kumar rathakumar 29 August 2012 в 07:27
поделиться