Алгоритм классификации / категоризации текста [закрыт]

15
задан Max 27 August 2010 в 13:12
поделиться

4 ответа

Это не тривиально. Очевидно, вы можете создать словарь, который сопоставляет определенные ключевые слова с категориями. Простое нахождение ключевого слова подскажет определенную категорию.

Тем не менее, в тексте на естественном языке ключевые слова обычно не были бы в своей основной форме. Вам понадобятся некоторые инструменты морфологии, чтобы найти форму основы и использовать ее в словаре.

Но тогда кто-нибудь мог бы написать что-то вроде: «Эта статья не о…». Это привело бы к необходимости синтаксического и семантического анализа.

И тогда вы обнаружите, что определенные ключевые слова могут использоваться в нескольких категориях: «группа» может использоваться в музыке, технике или даже в рукоделии. Поэтому вам потребуется онтология и статистические или другие методы для взвешивания вероятности выбора категории, если она не определена.

Некоторые ключевые слова, возможно, даже трудно вписать в онтологию: кто ближе к программисту или садовнику? Но в своем вопросе вы сказали, что категории создаются мужчинами, поэтому они также могут помочь в построении онтологии.

Посмотрите вычислительную лингвистику здесь и в Википедии для дальнейших исследований.

Теперь, чем из более узкой области ваши тексты, тем более они структурированы, и чем меньше словарный запас, тем проще становится проблема.

Снова некоторые ключевые слова для дальнейшего изучения: морфология, синтаксический анализ, семантика, онтология, компьютерная лингвистика, индексирование, определение ключевых слов

19
ответ дан 1 December 2019 в 01:16
поделиться

Существует несколько подходов к автоматической классификации текста. Наивный байесовский классификатор, возможно, самый простой из них. Другой — это K-ближайший сосед, который вы можете использовать. Этот ответ Google о категоризации текста может вам помочь.

7
ответ дан 1 December 2019 в 01:16
поделиться

Машина опорных векторов. Все любят машины опорных векторов. Вам нужно будет много читать и, возможно, даже купить книгу. Но вы можете начать с прочтения статьи, чтобы понять, нравится ли вам эта идея.

2
ответ дан 1 December 2019 в 01:16
поделиться

Общий термин для этих методов - "многомерные методы". Что с поиском по «текстовой классификации» или «текстовой категоризации» должно привести к некоторым полезным зацепкам. Удачи !

1
ответ дан 1 December 2019 в 01:16
поделиться
Другие вопросы по тегам:

Похожие вопросы: