Автоматизация чтения zip-файла в R

Question

Автоматизация чтения zip-файла в R

Мне нужно автоматизировать R, чтобы читать csv файл данных в zip-архиве.

Например, я бы набрал:

read.zip(file = "myfile.zip")

А внутри я бы сделал следующее:

Распаковать myfile.zip во временную папку
Прочитать единственный файл, содержащийся в нем, используя read.csv

Если в zip-файле содержится более одного файла, выдается ошибка.

Моя проблема состоит в том, чтобы получить имя файла, содержащегося в zip-файле, в порядке, необходимом для его предоставления, с помощью команды read.csv . Кто-нибудь знает, как это сделать?

ОБНОВЛЕНИЕ

Вот функция, которую я написал на основе ответа @Paul:

read.zip <- function(zipfile, row.names=NULL, dec=".") {
    # Create a name for the dir where we'll unzip
    zipdir <- tempfile()
    # Create the dir using that name
    dir.create(zipdir)
    # Unzip the file into the dir
    unzip(zipfile, exdir=zipdir)
    # Get the files into the dir
    files <- list.files(zipdir)
    # Throw an error if there's more than one
    if(length(files)>1) stop("More than one data file inside zip")
    # Get the full name of the file
    file <- paste(zipdir, files[1], sep="/")
    # Read the file
    read.csv(file, row.names, dec)
}

Поскольку я буду работать с большим количеством файлов внутри tempdir () , Я создал внутри него новый каталог, чтобы меня не путали с файлами. Надеюсь, это может быть полезно!

24

r compression

задан Jack Wasey 6 October 2015 в 10:08

6 ответов

Следующее уточняет приведенные выше ответы. FUN может быть read.csv, cat или чем угодно, при условии, что первый аргумент примет путь к файлу. Э.Г.

head(read.zip.url("http://www.cms.gov/Medicare/Coding/ICD9ProviderDiagnosticCodes/Downloads/ICD-9-CM-v32-master-descriptions.zip", filename = "CMS32_DESC_LONG_DX.txt"))

read.zip.url <- function(url, filename = NULL, FUN = readLines, ...) {
  zipfile <- tempfile()
  download.file(url = url, destfile = zipfile, quiet = TRUE)
  zipdir <- tempfile()
  dir.create(zipdir)
  unzip(zipfile, exdir = zipdir) # files="" so extract all
  files <- list.files(zipdir)
  if (is.null(filename)) {
    if (length(files) == 1) {
      filename <- files
    } else {
      stop("multiple files in zip, but no filename specified: ", paste(files, collapse = ", "))
    }
  } else { # filename specified
    stopifnot(length(filename) ==1)
    stopifnot(filename %in% files)
  }
  file <- paste(zipdir, files[1], sep="/")
  do.call(FUN, args = c(list(file.path(zipdir, filename)), list(...)))
}

1