У меня есть модель регрессии, в которой зависимая переменная непрерывна, но девяносто процентов независимых переменных являются категориальными (и заказанный и незаказанный), и приблизительно тридцать процентов записей имеют отсутствующие значения (для усугубления положения, они отсутствуют случайным образом без любого шаблона, то есть, больше это сорок пять процентов данных hava по крайней мере одно отсутствующее значение). Нет никакой априорной теории для выбора спецификации модели, таким образом, одной из ключевых задач является сокращение размера прежде, чем выполнить регрессию. В то время как я знаю о нескольких методах для сокращения размера для непрерывных переменных, я не знаю о подобной статической литературе для категориальных данных (кроме, возможно, как часть анализа корреспонденции, который является в основном изменением анализа главных компонентов таблицы частот). Позвольте мне также добавить, что набор данных имеет умеренный размер 500 000 наблюдений с 200 переменными. У меня есть два вопроса.
Что касается вменения категориальных данных, я бы предложил ознакомиться с пакетом mice. Также посмотрите эту презентацию, в которой объясняется, как он вменяет многомерные категориальные данные. Другой пакет для многократного вменения неполных многомерных данных - Amelia. Amelia включает некоторые ограниченные возможности для работы с порядковыми и номинальными переменными.
Что касается снижения размерности для категориальных данных (т.е. способа расположить переменные в однородные кластеры), я бы предложил метод Multiple Correspondence Analysis, который даст вам латентные переменные, максимизирующие однородность кластеров. Подобно тому, как это делается в анализе главных компонент (PCA) и факторном анализе, решение MCA также может быть повернуто для увеличения простоты компонентов. Идея вращения заключается в том, чтобы найти подмножества переменных, которые более четко совпадают с повернутыми компонентами. Это означает, что максимизация простоты компонентов может помочь в интерпретации факторов и в кластеризации переменных. В R методы MCA включены в пакеты ade4, MASS, FactoMineR и ca (по крайней мере). Что касается FactoMineR, то вы можете использовать его через графический интерфейс, если добавите его в качестве дополнительного меню к уже предложенным пакетом Rcmdr, установив RcmdrPlugin.FactoMineR