В начале руководства по структурированному потоковому потоку есть пример потокового примера World Count. Во-первых, мы выполняем nc -lk 8888 в отдельном терминале. Далее, следуя руководству Python ...
Я пытался измерить разницу между временами чтения между csv и паркет с искровым. Я знаю, что паркет работает быстрее, но мне нужно иметь несколько показателей для отчета. Я заметил, что когда я прочитал ...
У меня есть оператор конвейера данных, используемый для сбора показателей данных. Продукт данных, для которого я собираю метрики, называется foo. У меня есть следующий `foo.select (foo.id) .count ()` = & gt; 2M + `foo ....
У меня есть метод в файле Scala, который возвращает py4j.java_collections.JavaMap в моем pyspark-коде. Я считаю, что могу использовать словарные методы на моей карте Java. Но я не могу. Я пытаюсь использовать ...
Мне нужно добавить несколько банок к моей искровой оболочке. Итак, я добавил их, используя -jars. Внезапно, через какое-то время, я понимаю, что мне нужно добавить еще одну, и я нахожусь между работой, на которой я уже провел 2 часа. Так, ...
В настоящее время я пытаюсь передать некоторые запросы T-SQL для запуска на Apache Spark. У меня есть два поля, сохраненные как метки времени в паркет. Однако я хочу преобразовать условие where следующего SQL-запроса в ...
Я хочу получить текстовый метод подобия, отличающийся от 200 миллионов различных предложений, используя искру. Предположим, у меня есть 4 предложения, которые есть [«Привет, я слышал об искры», «Привет, я слышал о Spark World», «...
В настоящее время я создал простое приложение Spark с кодом ниже: SparkConf conf = new SparkConf (). SetAppName («Test»). SetMaster («local [2]») JavaSparkContext sc = new JavaSparkContext (conf); Строка ...
Как мы можем динамически передавать имя столбца в SQL-запрос Spark в Java? Я попытался сохранить SQL-запрос в строку, а затем передать эту строку в качестве параметра, такого как: SparkSession spark = ...
Я новичок в искру. Вот данные, над которыми я работаю: 12-12-1990,12347,34 25-10-1991,11337,24 17-05-1990,12347,34 24-07-1990,12098,45 21-01- 1992,76947,47 30-05-1991,12986,12 14-08-1992,43347,43 ...
Я действительно новичок в искру и у меня мало проблем. Предположим, у меня есть это: 'a' | 'b' 0 | 5416 1 | 5278 2 | 2 3 | 568 0 | 416 1 | 216 2 | 56 3 | 56, и я хочу третьего ...
Моя функция scala объединяет список значений и хеширует их. Я хотел бы использовать эту функцию в искровом dataframe. Но я получаю ошибку: не удалось выполнить пользовательскую функцию (anonfun $ 2: (string) ...
Как я могу вернуть объекты подкласса в наборе данных родительского класса ?. Ниже кода компилируется, но последняя строка не работает во время выполнения с помощью «scala.ScalaReflectionException: не является термином». Любая помощь очень высока ...
У меня есть мои таблицы, хранящиеся в MySQL с идентификатором в качестве первичного ключа. Я хочу написать, используя Spark для Mysql, где он игнорирует строки в фрейме данных, который уже существует в Mysql (на основе первичного ключа) и только ...
У меня есть список со списком (Map [String, Any]), и вам нужно построить DataFrame из этого со смешанными типами значений. Например: Строка 1 - Карта («a» - & gt; 1 (intType), «b» - & gt; «hi» (StringType)) Возможно ли это? ...
Я читаю JSON-файл с указанной схемой в Spark 2.3. Я обнаружил, что один из столбцов, не имеющих значения NULL, является нулевым, что не ожидается. Другими словами, я не смог указать схему для JSON. Видеть ...
Примечание. Я не могу переключиться на Structured Streaming, так как он не поддерживает некоторые из компонентов MLLib, которые я использую (KMeans, vectorizers и т. Д.) (Исправьте меня, если я ошибаюсь). Я знаю, что DStreams. ..
У меня есть DataFrame с различными типами столбцов. Для ясности, скажем, он структурирован, как показано ниже, с колонкой Ints, столбцом строк и столбцом Floats. + ------- + ------- + --...
Я использую PySpark 2.1. Я пытаюсь фильтровать данные по строке даты как таковой «2017-12-01». Однако в моих исходных данных это выглядит следующим образом. ID YEAR MONTH ДЕНЬ 1 2017 12 10 2 2017 ...
У меня есть Dataframe DF с последующей структурой: DF (тег, значение) и оценка, связанная со всем Dataframe (двойное значение). У меня есть функция, которая принимает параметр Dataframe и счет, ...
Как я могу получить первый элемент из вероятностной модели в виде кадра данных pyspark? + ------ + -------------------- + | labelh | вероятность | + ------ + -------------------- + | 1 | [0 ....
Здесь я передаю dataframe (CV_data), чтобы добавить метки для Decision Tree def label Данные (данные): # label: row [end], features: row [0: end-1] return data.map (лямбда-строка: LabeledPoint (строка [-1], ...
Это надуманный пример того, чего я пытаюсь достичь: import org.apache.spark.sql._ import org.apache.spark.sql.catalyst.encoders.RowEncoder import org.apache.spark.sql.types._ класс случая ...
У меня есть два фрейма данных, каждый из которых содержит столбец, который представляет собой массив структур, я хочу присоединиться к двум файлам данных, а затем объединить два массива структур в один массив структур при фильтрации ...
Я использую искру scala, чтобы прочитать большой json-файл и подтолкнуть его к elasticsearch. Я использовал dataFrame для чтения файла val df = spark.read.json (args (0)). Мне удалось передать данные в elasticsearch, но ...
У меня есть приложение Spark, которое считывает набор данных из HDFS и выполняет сложную операцию с использованием UDF. Это код: val ds = spark.read.json ("hdfs: //hdfshost/path/to/dataset.json") ....
Я использую искру apache для чтения файлов csv, я обнаружил, что если имя файла начинается с символа _ char, то загружаемый DataSet будет пустым, просто измените имя файла, удалив _ файл загружен правильно. ...