Заранее прошу прощения, если где-нибудь есть простой ответ. Это похоже на то, что могло бы быть, но я не могу найти его в файлах справки, поиском SO или поиском в Google.
Я сейчас работаю с некоторыми наборами данных размером в несколько ГБ. Это' Достаточно для размещения в памяти на одном из узлов кластера, к которому у меня есть доступ, но загрузка занимает довольно много времени. Для многих операций по отладке / программированию с этими данными мне не нужно загружать весь файл, только первые несколько тысяч наблюдений, чтобы иметь набор данных для тестирования кода. Я, конечно, могу просто прочитать весь файл и его подмножество, но мне было интересно, есть ли способ указать read.dta ()
читать только первые N строк? Это, конечно, было бы намного быстрее.
Я также мог бы использовать правильный формат, например .csv, а затем использовать аргумент nrows read.csv ()
, но тогда я потеряю метки факторов в набор данных Stata (и придется воссоздавать довольно много ГБ данных из чужого кода, который поступает в этот проект. Поэтому прямое решение для файлов .dta предпочтительнее.