У меня есть набор данных n x m, где есть n наблюдений, и каждое наблюдение состоит из m значений для m атрибутов. Каждое наблюдение также имеет назначенный результат. м большой, слишком большой для моей задачи. Я пытаюсь найти лучшее и наименьшее подмножество m атрибутов, которое все еще достаточно хорошо представляет весь набор данных, чтобы я мог использовать только эти атрибуты для обучения нейронной сети.
Я хочу использовать для этого генетический алгоритм. Проблема в функции приспособленности. Он должен сказать, насколько хорошо сгенерированная модель (подмножество атрибутов) по-прежнему отражает исходные данные. И я не знаю, как оценить определенное подмножество атрибутов по сравнению со всем набором. Конечно, я мог бы использовать нейронную сеть (которая позже все равно будет использовать эти выбранные данные) для проверки качества подмножества - чем меньше ошибка, тем лучше подмножество. НО, в моем случае это занимает очень много времени, и я не хочу использовать это решение. Я ищу другой способ, который предпочтительно работал бы только с набором данных.
Я думал о том, что иметь подмножество S (найденное генетическим алгоритмом), обрезать набор данных так, чтобы он содержал значения только для подмножества S, и проверить, сколько наблюдений в этом сервере данных больше не различимы (имеют те же значения для тех же атрибуты), имея разные значения результатов. Чем больше число, тем хуже подмножество. Но мне это кажется слишком утомительным в вычислительном отношении.
Есть ли другие способы оценить, насколько хорошо подмножество атрибутов по-прежнему представляет весь набор данных?