Какой алгоритм классификации можно использовать для категоризации документов?

Question

Какой алгоритм классификации можно использовать для категоризации документов?

Эй, вот моя проблема,

Учитывая набор документов, мне нужно присвоить каждому документу предопределенную категорию.

Я собирался использовать подход с n -граммами для представления текстового -содержимого каждого документа, а затем обучить SVM-классификатор на имеющихся у меня обучающих данных.
Поправьте меня, если я что-то не понял, пожалуйста.

Проблема сейчас в том, что категории должны быть динамическими. Это означает, что мой классификатор должен обрабатывать новые обучающие данные с новой категорией.

Так, например, если я обучил классификатор классифицировать данный документ как категорию A, категорию B или категорию C, а затем мне дали новые обучающие данные с категорией D, я должен иметь возможность постепенно обучать свой классификатор, предоставляя это с новыми тренировочными данными для «категории D».

Подводя итог, я НЕ хочу объединять старые данные обучения (с 3 категориями )и новые данные обучения (с новой/невидимой категорией )и снова обучать свой классификатор. Я хочу тренировать свой классификатор на лету

Возможно ли это реализовать с помощью SVM? если нет, не могли бы вы порекомендовать мне несколько алгоритмов классификации? или любую книгу/бумагу, которая может мне помочь.

Заранее спасибо.

7

algorithm classification document-classification machine-learning

задан TeFa 20 August 2012 в 01:54

0 ответов

Другие вопросы по тегам:

algorithm classification document-classification machine-learning

Какой алгоритм классификации можно использовать для категоризации документов?

0 ответов

Похожие вопросы: