Как создавать, структурировать, поддерживать и обновлять кодовые книги данных в R?

В интересах репликации я люблю вести кодовую книгу с метаданными для каждого кадра данных. Кодовая книга данных - это:

письменный или компьютеризированный список, который обеспечивает четкое и полное описание переменных, которые будут включены в базу данных. Марчик и др. ( 2010 )

Мне нравится документировать следующие атрибуты переменной:

  • имя
  • описание (метка, формат, масштаб и т. Д.)
  • источник (например, Всемирный банк)
  • исходный носитель (URL и дата доступа, CD и ISBN, или что-то еще)
  • имя файла исходных данных на диске (помогает при объединении кодовых книг)
  • примечания

Например, это то, что я реализую для документирования переменных во фрейме данных mydata1 с 8 переменными:

code.book.mydata1 <- data.frame(variable.name=c(names(mydata1)),
     label=c("Label 1",
              "State name",
              "Personal identifier",
              "Income per capita, thousand of US$, constant year 2000 prices",
              "Unique id",
              "Calendar year",
              "blah",
              "bah"),
      source=rep("unknown",length(mydata1)),
      source_media=rep("unknown",length(mydata1)),
      filename = rep("unknown",length(mydata1)),
      notes = rep("unknown",length(mydata1))
)

Я пишу разные кодовые книги для каждого набора данных, который я читал. Когда я объединяю фреймы данных, я также объединю соответствующие аспекты их связанной кодовой книги, чтобы задокументировать окончательную базу данных. Я делаю это путем копирования, вставляя приведенный выше код и меняя аргументы.

23
задан Mogsdad 19 January 2018 в 21:11
поделиться