Как быстро загрузить данные в R?

У меня есть несколько сценариев R, в которых мне нужно как можно быстрее загрузить несколько фреймов данных в R. Это очень важно, так как чтение данных - самая медленная часть процедуры. Например: построение графиков из разных фреймов данных. Я получаю данные в формате sav (SPSS), но я мог преобразовать его в любой формат, как было предложено. К сожалению, объединение фреймов данных невозможно.

Какой способ загрузки данных может быть самым быстрым? Я думал о следующем:

  • преобразовать из sav в двоичный объект R ( Rdata ) в первый раз, а потом всегда загружать это, так как это кажется намного быстрее, чем read.spss .
  • преобразование из sav в csv файлов и чтение данных из файлов с заданными параметрами, обсуждаемых в этой теме,
  • или стоит ли устанавливать серверную часть MySQL на localhost и загружать с нее данные? Может быть быстрее? Если да, могу ли я также сохранить любые пользовательские значения attr переменных (например, переменная. метки из файлов, импортированных Spss)? Или это должно быть сделано в отдельной таблице?

Любые другие мысли приветствуются. Заранее благодарим вас за каждое предложение!


Я провел небольшой эксперимент ниже на основе ваших ответов, а также добавил (24.01.2011) довольно «хакерское», но действительно быстрое решение загрузка только нескольких переменных / столбцов из специального двоичного файла. Последнее кажется самым быстрым методом, который я могу себе представить сейчас, поэтому я сделал (05.03.2011: версия 0.3) небольшой пакет с именем saves для работы с этой функцией. Пакет находится в стадии «тяжелой» разработки, любые рекомендации приветствуются!

Я скоро опубликую виньетку с точными результатами тестов с помощью пакета микробенчмарков .

36
задан Community 23 May 2017 в 12:17
поделиться