Генетические алгоритмы: функция соответствия для алгоритма выбора признаков

У меня есть набор данных n x m, где есть n наблюдений, и каждое наблюдение состоит из m значений для m атрибутов. Каждое наблюдение также имеет назначенный результат. м большой, слишком большой для моей задачи. Я пытаюсь найти лучшее и наименьшее подмножество m атрибутов, которое все еще достаточно хорошо представляет весь набор данных, чтобы я мог использовать только эти атрибуты для обучения нейронной сети.

Я хочу использовать для этого генетический алгоритм. Проблема в функции приспособленности. Он должен сказать, насколько хорошо сгенерированная модель (подмножество атрибутов) по-прежнему отражает исходные данные. И я не знаю, как оценить определенное подмножество атрибутов по сравнению со всем набором. Конечно, я мог бы использовать нейронную сеть (которая позже все равно будет использовать эти выбранные данные) для проверки качества подмножества - чем меньше ошибка, тем лучше подмножество. НО, в моем случае это занимает очень много времени, и я не хочу использовать это решение. Я ищу другой способ, который предпочтительно работал бы только с набором данных.

Я думал о том, что иметь подмножество S (найденное генетическим алгоритмом), обрезать набор данных так, чтобы он содержал значения только для подмножества S, и проверить, сколько наблюдений в этом сервере данных больше не различимы (имеют те же значения для тех же атрибуты), имея разные значения результатов. Чем больше число, тем хуже подмножество. Но мне это кажется слишком утомительным в вычислительном отношении.

Есть ли другие способы оценить, насколько хорошо подмножество атрибутов по-прежнему представляет весь набор данных?

8
задан Fred Foo 3 November 2011 в 10:01
поделиться