Совершенство приспособленных функций в R

Факты и Ошибки Разработки программного обеспечения Robert L. Glass http://www.codinghorror.com/blog/images/facts-and-fallacies-of-software-engineering.jpg

Факты и Ошибки Разработки программного обеспечения Robert L. Glass является действительно превосходной книгой. Я был профессиональным хакером в течение почти 10 лет, прежде чем я считал его, и я все еще изучил тонну материала.

23
задан Argalatyr 25 July 2009 в 21:10
поделиться

6 ответов

Только первая часть этого вопроса может заполнить целые книги. Просто несколько быстрых вариантов:

  • lm () для стандартных линейных моделей
  • glm () для обобщенных линейных моделей (например, для логистической регрессии)
  • rlm () из пакета MASS для робастные линейные модели
  • lmrob () из пакета robustbase для робастных линейных моделей
  • loess () для нелинейных / непараметрических моделей

Затем существуют модели, специфичные для предметной области, например, время сериалы, микроэконометрика, смешанные эффекты и многое другое. Некоторые из представлений задач, например Эконометрика , обсуждают это более подробно. Что касается степени соответствия, это тоже то, на что можно легко потратить всю книгу.

26
ответ дан 29 November 2019 в 01:20
поделиться

Рабочими лошадками подгонки канонической кривой в R являются lm () , glm () и nls () . Для меня степень соответствия - это подзадача в более крупной проблеме выбора модели. На самом деле, неправильное использование критерия согласия (например, с помощью пошаговой регрессии) может привести к серьезной неверной спецификации модели (см. Книгу Харрелла «Стратегии регрессионного моделирования»). Вместо того, чтобы обсуждать этот вопрос с нуля, я рекомендую книгу Харрелла для lm и glm . Библия Венейблса и Рипли кратка, но ее все же стоит прочитать. «Расширение линейной модели с помощью R» от Faraway исчерпывающе понятна. nls не рассматривается в этих источниках, но «Нелинейная регрессия с R» от Ritz & Streibig заполняет этот пробел и очень практична.

11
ответ дан 29 November 2019 в 01:20
поделиться

На сайте Quick R есть неплохой обзор основных функций, используемых для подгонки моделей и тестирования подгонок, а также пример кода R:

6
ответ дан 29 November 2019 в 01:20
поделиться

Функция nls () ( http: //sekhon.berkeley. edu / stats / html / nls.html ) довольно стандартен для подбора нелинейной кривой наименьших квадратов. Хи-квадрат (сумма квадратов остатков) - это показатель, который оптимизируется в этом случае, но он не нормализован, поэтому вы не можете легко использовать его, чтобы определить, насколько хорошо подходит соответствие. Главное, что вы должны гарантировать, - это нормальное распределение остатков. К сожалению, Я'

8
ответ дан 29 November 2019 в 01:20
поделиться

Вы можете использовать метод Axes.set_yscale . Это позволяет вам изменять масштаб после создания объекта Axes . Это также позволит вам создать элемент управления, позволяющий пользователю выбирать масштаб, если это необходимо.

Соответствующая строка для добавления:

ax.set_yscale('log')

Вы можете использовать 'linear' , чтобы вернуться к линейная шкала. Вот как будет выглядеть ваш код: что ваши остатки обычно распределены. К сожалению я не уверен в автоматическом способе сделать это.

qqnorm () , вероятно, можно было бы изменить, чтобы найти корреляцию между выборочными квантилями и теоретическими квантилями. По сути, это будет просто числовая интерпретация графика нормального квантиля. Возможно, было бы полезно предоставить несколько значений коэффициента корреляции для разных диапазонов квантилей. Например, если коэффициент корреляции близок к 1 для средних 97% данных и намного ниже на хвостах, это говорит нам, что распределение остатков примерно нормальное, с некоторой забавностью в хвостах.

3
ответ дан 29 November 2019 в 01:20
поделиться

Best to keep simple, and see if linear methods work "well enuff". You can judge your goodness of fit GENERALLY by looking at the R squared AND F statistic, together, never separate. Adding variables to your model that have no bearing on your dependant variable can increase R2, so you must also consider F statistic.

You should also compare your model to other nested, or more simpler, models. Do this using log liklihood ratio test, so long as dependant variables are the same.

Jarque–Bera test is good for testing the normality of the residual distribution.

2
ответ дан 29 November 2019 в 01:20
поделиться
Другие вопросы по тегам:

Похожие вопросы: