Переработка текущего процесса с двумя кадрами данных. DF1 - строки из 65kish, 15 столбцов DF2 - 300kish строк, 270 столбцов. Мы объединяем zip как таковой: newdf & lt;-merge (df1, df2, by.x = "ZipA", by.y = ...
Я попробовал почти 100 кодов, доступных в Github / Stackoverflow, чтобы достичь своей цели, но все напрасно .... Итак, вот код, который я пытался получить для S3-файлов данных из Sparklyr в RStudio ...
У меня есть фрейм данных R, который я хотел бы преобразовать в фрейм данных Spark на удаленном кластере. Я решил записать свой фрейм данных в промежуточный CSV-файл, который затем читается с использованием sparklyr :: ...
Я использую dbplyr для выбора таблицы из удаленной базы данных с помощью Rstudio. Я подключился к Spark на сервере, используя livy. Он показывает мне базы данных, которые у меня есть, но когда я пытаюсь получить доступ к одной из таблиц ...
Я хотел бы заполнить значения (заменив NA на предыдущее значение) на фрейме данных sparklyr, поле содержит строки. По сути, я хотел бы преобразовать это: ID, String 1 a 2 NaN 3 b 4 ...
Я загрузил искру версии 2.3.1, и я получил следующую ошибку: Ошибка в spark_version_from_home (spark_home, default = spark_version): Не удалось обнаружить версию из SPARK_HOME или ...
Когда я читаю паркетный файл на s3 из контекста sparklyr следующим образом: {spark_read_parquet (sc, name = "parquet_test", path = "s3a: // < path-to-file >")} Это выдает мне ошибку, которая : Вызванный: ...