Классификация текста по категориям

Я работаю над проблемой классификации текста, я пытаюсь классифицировать набор слов по категориям, да, для классификации доступно множество библиотек, поэтому, пожалуйста, не отвечайте, если вы предлагаете их использовать.

Позвольте мне объяснить, что я хочу реализовать. (возьмем для примера)

Список слов:

  1. java
  2. программирование
  3. язык
  4. c-sharp

Список категорий.

  1. java
  2. c-sharp

здесь мы обучим набор следующим образом:

  1. java отображается в категорию 1. Программирование java
  2. отображается в категорию 1. java
  3. программирование отображается в категорию 2 .c-sharp
  4. отображается в категорию 1. java
  5. язык отображается в категорию 2.c-sharp
  6. c-sharp отображается в категорию 2.c-sharp

Теперь у нас есть фраза " Лучшая книга по программированию на java " из данной фразы следующие слова соответствуют нашему" Списку слов ":

  1. java
  2. программирование

" программирование "имеет два сопоставлены категории "java" и "c-sharp", так что это обычное слово.

«java» отображается только в категорию «java».

Итак, наша подходящая категория для фразы - "java".

Вот что пришло мне в голову, хорошее ли это решение, может ли оно быть реализовано, каковы ваши предложения, все, что я упускаю, недостатки и т. Д. ..

6
задан Toon Krijthe 15 November 2011 в 21:28
поделиться