Мне было интересно, если есть какой-то способ указать пользовательскую функцию агрегирования для фреймов данных искры по нескольким столбцам. У меня есть такая таблица типа (имя, предмет, цена): Джон | помидор | 1 ....
Контекст: у меня есть DataFrame с 2 столбцами: слово и вектор. Где тип столбца "вектор" является VectorUDT. Пример: слово | вектор утверждать | [435,323,324,212 ...] И я хочу получить это: ...
Используя Apache Spark 1.6.4, с плагиномasticsearch4hadoop, я экспортирую индекс эластичного поиска (100 млн документов, 100Go, 5 осколков) в сжатый файл партера в HDFS 2.7. Я запускаю этот ETL как ...
Я из Java и новичок в Scala. Я использую Scala и Spark. Но я не могу понять, где я использую == и ===. Может ли кто-нибудь дать мне знать, в каком сценарии мне нужно использовать эти два ...
При работе с DataFrames Spark пользовательские функции (UDF) необходимы для отображения данных в столбцах. UDF требуют, чтобы типы аргументов были указаны явно. В моем случае мне нужно ...
Я делаю POC для запуска алгоритма машинного обучения на потоке данных. Моя первоначальная идея состояла в том, чтобы взять данные, использовать Spark Streaming -> Aggregate Data из нескольких таблиц -> запустить MLLib on Stream of ...
Я использую pyspark в ноутбуке zeppelin, чтобы попытаться выполнить SQL-запрос в базе данных postgres. Я использую драйвер postgresql jdbc. Я могу успешно сделать это с некоторыми запросами, но у меня есть один ...
В приведенном ниже коде создается папка, но в ней нет файлов. Я использую два машинных искрового кластера и отправляю работу в автономном режиме. df.coalesce (1) .write.format ("com.databricks.spark.csv") .option ("...
Я нашел пример кодирования строк Spark DataFrame для Avro в Scala. кредит: Spark Dataframe пишите на тему кафки в формате avro? Мои приложения написаны на Python, и у меня есть ...
Я использую Phoenix 4.9.0 с искровым 2.1.1, создали внешнюю таблицу в улье над фениксом, используя обработчик Хранения феникса. Я пытаюсь выполнить запрос с сервера Spark Thrift на улей. Всякий раз, когда я ...
Наличие данных CSV, как показано ниже (в разделе Sample data), пытается проанализировать данные с использованием искровой оболочки. Создал класс case: case class AadharDetails (Date: Int, Registrar: String, ...
Посмотрите на метод: public java.lang.Object takeSample (boolean withReplacement, int num, long seed) Если я использую его как: RDD.takeSample (false, 5) I ...
У меня проблема, когда я использую sparkSession.catalog.chche, тогда я использую uncache, table drop, но, я обнаружил, что этап 4040, память не может быть освобождена
Я читаю данные из hbase, используя искру sql. один столбец содержит данные xml. когда размер xml мал, я могу читать правильные данные. но как только размер увеличивается слишком сильно, некоторые столбцы в dataframe ...
Я в настоящее время использую Apache Zeppelin 0.8. Я попытался загрузить CSV-файл следующим образом: val df = spark.read.option ("header", "true"). Option ("inferSchema", "true"). Csv ("/ path / to / csv / name. csv ") у меня тоже ...
Я хотел бы включить нулевые значения в соединение Apache Spark. Spark по умолчанию не содержит строк с нулем. Вот поведение Spark по умолчанию. val numbersDf = Seq (("123"), ("456"), (ноль), ...
У меня есть два кадра данных со следующими столбцами: df1.columns // Array (ts, id, X1, X2) и df2.columns // Array (ts, id, Y1, Y2) После того, как я сделаю val df_combined = df1.join ( df2, seq (ts, id)) я заканчиваю ...
Как рассчитать совокупную сумму для каждой группы, в частности, используя абстракцию DataFrame; а в PySpark? С примером набора данных следующим образом: df = sqlContext.createDataFrame ([(1,2, "a"), (3,2, "a"), (...
Я пытался использовать sqlContext.read.format ("jdbc"). Options (driver = "org.apache.hive.jdbc.HiveDriver"), чтобы получить таблицу Hive в Spark без какого-либо успеха. Я провел исследование и прочитал ниже: Как ...
Вопрос в значительной степени в названии. Я не могу найти подробную документацию относительно различий. Я заметил разницу, потому что при обмене вызовами функций cube и groupBy я получаю ...
Правда ... это обсуждалось довольно много. Однако есть много двусмысленности и некоторые ответы предоставлены ... включая дублирование ссылок на jar в конфигурации jars / executor / driver или ...
Я использую кластер Spark с 5 узлами на AWS EMR каждого размера m3.xlarge (1 ведущий 4 подчиненных). Я успешно просмотрел сжатый CSV-файл размером 146 Мб bzip2 и в результате получил идеально агрегированный результат. ...
Я заметил странное поведение моего компилятора scala. Иногда при компиляции класса возникает ошибка OutOfMemoryError. Вот сообщение об ошибке: [info] Компиляция 1 исходного кода Scala в / Users / gruetter / ...
Я заметил, что в SparkML есть два класса LinearRegressionModel, один в ML и другой в пакете MLLib. Эти два реализованы совершенно по-разному - например, один из MLLib реализует ...
Глядя на новый API-интерфейс Spark Dataframe, неясно, можно ли изменить столбцы DataFrame. Как мне изменить значение в строке x столбца y кадра данных? В пандах это было бы ...
Есть ли простой способ преобразования данного объекта строки в JSON? Нашел это о преобразовании всего Dataframe в вывод json: Spark Row в JSON Но я просто хочу преобразовать один ряд в json. Вот ...
Моя команда создает процесс ETL для загрузки необработанных текстовых файлов с разделителями в «озеро данных» на основе Parquet с использованием Spark. Одним из обещаний хранилища столбцов Parquet является то, что запрос будет читать только ...