Язык R: Как мне распечатать / просмотреть сводную статистику для подмножества выборки?

Это несколько вопросов новичков о статистическом программировании для R, на которые я не смог найти ответ в Интернете. Мой фрейм данных помечен в приведенном ниже коде "eitc".

1) После того, как я загрузил фрейм данных, я хотел бы посмотреть сводную статистику. Я использовал следующие функции:

eitc <- read.dta(file="/Users/Documents/eitc.dta")
summary(eitc)
sapply(eitc,mean,na.rm=TRUE) #for sample mean, min, max, etc.

Как найти сводную статистику по моему фрейму данных, когда соблюдены определенные требования. Например, Я хотел бы видеть сводную статистику по всем переменным, когда переменная "children" больше или равна 1. Эквивалентный код Stata:

summarize if children >= 1

2) Аналогично, как мне найти конкретные параметры при определенных квалификациях которые встретились? Например, я хочу найти среднее значение переменной «работа», когда обе переменные «post93» равны нулю и переменная «anykids» равны 1. Эквивалентный код Stata:

mean work if post93==0 & anykids==1

3) В идеале , когда я запускаю приведенную выше сводную статистику, я хотел бы узнать, сколько наблюдений было включено в расчет / соответствовало критериям.

4) Когда я читаю в своем фрейме данных, было бы неплохо также посмотреть, сколько наблюдений включено в набор данных (и, возможно, сколько строк содержит пропущенные значения или «NA»).

5) Кроме того, Я создавал фиктивные переменные, используя следующий код. Это правильный способ сделать это или есть более эффективный маршрут?

post93.dummy <- as.numeric(eitc$year>1993)
eitc=cbind(eitc,post93.dummy)
5
задан Nick Cox 7 November 2016 в 19:41
поделиться