Какой алгоритм классификации можно использовать для категоризации документов?

Эй, вот моя проблема,

Учитывая набор документов, мне нужно присвоить каждому документу предопределенную категорию.

Я собирался использовать подход с n -граммами для представления текстового -содержимого каждого документа, а затем обучить SVM-классификатор на имеющихся у меня обучающих данных.
Поправьте меня, если я что-то не понял, пожалуйста.

Проблема сейчас в том, что категории должны быть динамическими. Это означает, что мой классификатор должен обрабатывать новые обучающие данные с новой категорией.

Так, например, если я обучил классификатор классифицировать данный документ как категорию A, категорию B или категорию C, а затем мне дали новые обучающие данные с категорией D, я должен иметь возможность постепенно обучать свой классификатор, предоставляя это с новыми тренировочными данными для «категории D».

Подводя итог, я НЕ хочу объединять старые данные обучения (с 3 категориями )и новые данные обучения (с новой/невидимой категорией )и снова обучать свой классификатор. Я хочу тренировать свой классификатор на лету

Возможно ли это реализовать с помощью SVM? если нет, не могли бы вы порекомендовать мне несколько алгоритмов классификации? или любую книгу/бумагу, которая может мне помочь.

Заранее спасибо.

7
задан TeFa 20 August 2012 в 01:54
поделиться