Чтение только части файла Stata .DTA в R

Заранее прошу прощения, если где-нибудь есть простой ответ. Это похоже на то, что могло бы быть, но я не могу найти его в файлах справки, поиском SO или поиском в Google.

Я сейчас работаю с некоторыми наборами данных размером в несколько ГБ. Это' Достаточно для размещения в памяти на одном из узлов кластера, к которому у меня есть доступ, но загрузка занимает довольно много времени. Для многих операций по отладке / программированию с этими данными мне не нужно загружать весь файл, только первые несколько тысяч наблюдений, чтобы иметь набор данных для тестирования кода. Я, конечно, могу просто прочитать весь файл и его подмножество, но мне было интересно, есть ли способ указать read.dta () читать только первые N строк? Это, конечно, было бы намного быстрее.

Я также мог бы использовать правильный формат, например .csv, а затем использовать аргумент nrows read.csv () , но тогда я потеряю метки факторов в набор данных Stata (и придется воссоздавать довольно много ГБ данных из чужого кода, который поступает в этот проект. Поэтому прямое решение для файлов .dta предпочтительнее.

9
задан Ari B. Friedman 24 July 2011 в 12:47
поделиться