Существуют ли какие-либо алгоритмы классификации, которые нацелены на данные от одного ко многим (1: n) взаимосвязь?

Проводились ли какие-либо исследования в области интеллектуального анализа данных относительно классификации данных, которые имеют отношение «один ко многим»?

Например, для такой проблемы, скажем, я пытаюсь предсказать, какие студенты выберутся из университета, на основе оценок в классе и личной информации. Очевидно, что существует взаимосвязь между личной информацией учащихся и оценками, которые они получили в своих классах.

Очевидные подходы включают:

  1. Совокупность - несколько записей могут быть объединены вместе, чтобы уменьшить проблему. к основной проблеме классификации. В случае классификации студентов среднее значение их оценок может быть объединено с их личными данными. Хотя это простое решение, часто ключевая информация теряется. Например, что, если большинство студентов, изучающих органическую химию и получивших оценку ниже C-, бросят учебу, даже если их средний рейтинг выше B +.

  2. Голосование - Создайте несколько классификаторов (часто слабых) и попросите их бросить голосов, чтобы определить общий класс рассматриваемых данных. Это было бы похоже на создание двух классификаторов: один для данных курса студента, а другой - для его личных данных. Каждая запись курса будет передана классификатору курса, и на основе оценки и названия курса классификатор будет предсказать, выбыл ли студент, используя только эту запись курса. Запись личных данных будет классифицироваться с использованием классификатора личных данных. Тогда все прогнозы записи класса вместе с прогнозом записи личной информации будут проголосованы вместе. Это голосование можно было бы провести разными способами, но, скорее всего, оно должно было бы принимать во внимание, насколько точны классификаторы и насколько уверен классификатор в голосовании. Очевидно, что эта схема допускает более сложные шаблоны классификации, чем агрегирование, но при этом возникает много дополнительных сложностей. Кроме того, если голосование не проходит должным образом, точность может легко пострадать.

Поэтому я ищу другие возможные решения для классификации данных с помощью отношения «один ко многим».

8
задан Nixuz 21 January 2011 в 22:06
поделиться