Я хотел бы использовать rfcv для отбраковки неважных переменных из набора данных перед созданием окончательного случайного леса с большим количеством деревьев (. Пожалуйста, исправьте и сообщите мне, если это не способ использования этой функции ). Например,
> data(fgl, package="MASS")
> tst <- rfcv(trainx = fgl[,-10], trainy = fgl[,10], scale = "log", step=0.7)
> tst$error.cv
9 6 4 3 2 1
0.2289720 0.2149533 0.2523364 0.2570093 0.3411215 0.5093458
В этом случае, если я правильно понимаю результат, кажется, что мы можем удалить три переменные без негативных побочных эффектов. Однако
> attributes(tst)
$names
[1] "n.var" "error.cv" "predicted"
Ни один из этих слотов не говорит мне, что на самом деле представляли собой первые три переменные, которые можно безвредно удалить из набора данных.