Сокращение размера Категориальных данных с отсутствующими значениями

У меня есть модель регрессии, в которой зависимая переменная непрерывна, но девяносто процентов независимых переменных являются категориальными (и заказанный и незаказанный), и приблизительно тридцать процентов записей имеют отсутствующие значения (для усугубления положения, они отсутствуют случайным образом без любого шаблона, то есть, больше это сорок пять процентов данных hava по крайней мере одно отсутствующее значение). Нет никакой априорной теории для выбора спецификации модели, таким образом, одной из ключевых задач является сокращение размера прежде, чем выполнить регрессию. В то время как я знаю о нескольких методах для сокращения размера для непрерывных переменных, я не знаю о подобной статической литературе для категориальных данных (кроме, возможно, как часть анализа корреспонденции, который является в основном изменением анализа главных компонентов таблицы частот). Позвольте мне также добавить, что набор данных имеет умеренный размер 500 000 наблюдений с 200 переменными. У меня есть два вопроса.

  1. Существует ли хорошая статистическая ссылка там для сокращения размера для категориальных данных наряду с устойчивым обвинением (я думаю, что первым выпуском является обвинение и затем сокращение размера)?
  2. Это связано с реализацией вышеупомянутой проблемы. Я использовал R экстенсивно ранее и склонен использовать transcan и приписывать функцию в большой степени для непрерывных переменных и использовать изменение древовидного метода для приписывания категориальных значений. У меня есть практическое знание Python поэтому, если что-то будет хорошо там с этой целью затем, то я буду использовать его. Любые указатели реализации в Python или R очень помогут.Спасибо.
22
задан user227290 14 May 2010 в 21:50
поделиться

1 ответ

Что касается вменения категориальных данных, я бы предложил ознакомиться с пакетом mice. Также посмотрите эту презентацию, в которой объясняется, как он вменяет многомерные категориальные данные. Другой пакет для многократного вменения неполных многомерных данных - Amelia. Amelia включает некоторые ограниченные возможности для работы с порядковыми и номинальными переменными.

Что касается снижения размерности для категориальных данных (т.е. способа расположить переменные в однородные кластеры), я бы предложил метод Multiple Correspondence Analysis, который даст вам латентные переменные, максимизирующие однородность кластеров. Подобно тому, как это делается в анализе главных компонент (PCA) и факторном анализе, решение MCA также может быть повернуто для увеличения простоты компонентов. Идея вращения заключается в том, чтобы найти подмножества переменных, которые более четко совпадают с повернутыми компонентами. Это означает, что максимизация простоты компонентов может помочь в интерпретации факторов и в кластеризации переменных. В R методы MCA включены в пакеты ade4, MASS, FactoMineR и ca (по крайней мере). Что касается FactoMineR, то вы можете использовать его через графический интерфейс, если добавите его в качестве дополнительного меню к уже предложенным пакетом Rcmdr, установив RcmdrPlugin.FactoMineR

20
ответ дан 29 November 2019 в 05:41
поделиться
Другие вопросы по тегам:

Похожие вопросы: