Я хочу, чтобы машина училась категоризировать краткие тексты

Question

Я хочу, чтобы машина училась категоризировать краткие тексты

У меня есть тонна рассказов приблизительно 500 слов долго, и я хочу категоризировать их в один из, скажем, 20 категорий:

Развлечения
Еда
Музыка
и т.д.

Я могу вручить - классифицируют набор их, но я хочу реализовать машинное обучение для предположения категорий в конечном счете. Что лучший способ состоит в том, чтобы приблизиться к этому? Существует ли стандартный подход к машинному обучению, которое я должен использовать? Я не думаю, что дерево решений работало бы хорошо, так как это - текстовые данные... Я являюсь абсолютно новым в этом поле.

Любая справка ценилась бы, Спасибо!

20

machine-learning nlp classification

задан dmcer 30 April 2010 в 02:52

6 ответов

Я классифицировал десятки тысяч коротких текстов. Сначала я использовал модель векторного пространства tf-idf, а затем выполнил кластеризацию k-средних по этим векторам. Это очень хороший начальный шаг исследовательского анализа данных, позволяющий лучше понять ваш набор данных. Пакет, который я использовал для кластеризации, был cluto: http://glaros.dtc.umn.edu/gkhome/views/cluto/

Чтобы выполнить tf-idf, я просто написал быстрый скрипт на perl для токенизации не буквенно-цифровые. Тогда каждый документ состоит из пакета слов. Каждый документ представлен как вектор содержащихся в нем слов. Значение каждого индекса вектора - это частота термина (tf) * частота обратного документа (idf). Это просто произведение количества этого слова / термина в документе, умноженное на обратную долю документов, содержащих это слово. (потому что такое слово, как «the», очень неинформативно.)

Этот метод быстро даст вам точность примерно 80% -90%. Затем вы можете вручную пометить те, которые являются правильными (или, что более важно: неправильными), а затем, если хотите, провести контролируемое обучение.

10