Кадр данных подмножества R зависит от значения повторяющихся переменных

Как я могу задать следующий пример фрейма данных, чтобы вернуть только один наблюдение за самым ранним событием [т.е. мин(год)] каждого идентификатора?

id <- c("A", "A", "C", "D", "E", "F")
year <- c(2000, 2001, 2001, 2002, 2003, 2004)
qty  <- c(100, 300, 100, 200, 100, 500)
df=data.frame(year, qty, id)

В приведенном выше примере есть два наблюдения за идентификатором «А» в 2000 и 2001 годах. В случае дубликатов идентификаторов я хотел бы, чтобы фрейм данных подмножества включал только первое появление (т.е. в 2000 году) наблюдений за дублирующим идентификатором.

df2 = subset(df, ???)

Вот что я пытаюсь вернуть:

df2

year qty id
2000 100  A
2001 100  C
2002 200  D
2003 100  E
2004 500  F

Любая помощь была бы очень признательна.

9
задан Matt Dowle 27 June 2012 в 13:52
поделиться