0
ответов

Чтение TSV в Spark Dataframe с помощью Scala API

Я пытался заставить библиотеку блоков данных для чтения CSV работать. Я пытаюсь прочитать TSV, созданный ульем в кадре данных искры, используя API Scala. Вот пример, который вы можете запустить ...
вопрос задан: 24 November 2015 15:48
0
ответов

Как заставить Spark, Python и MongoDB работать вместе

Я испытываю трудности при правильном соединении этих компонентов. У меня установлена ​​и успешно работает Spark, я могу запускать задания локально, автономно, а также через YARN. Я следовал за ...
вопрос задан: 17 November 2015 17:58
0
ответов

Могу ли я написать простой текстовый файл HDFS (или локальный) из программы Spark, а не из RDD?

У меня есть программа Spark (в Scala) и SparkContext. Я пишу некоторые файлы с помощью saveAsTextFile в RDD. На моей локальной машине я могу использовать локальный путь к файлу, и он работает с локальной файловой системой. На моем ...
вопрос задан: 6 October 2015 15:27
0
ответов

Spark - извлечение одного значения из DataFrame

У меня есть запрос Spark DataFrame, который гарантированно возвращает один столбец с одним значением Int. Каков наилучший способ извлечь это значение как Int из результирующего DataFrame?
вопрос задан: 23 September 2015 16:53
0
ответов

Рассчитать стандартное отклонение сгруппированных данных в Spark DataFrame

У меня есть пользовательские журналы, которые я взял из CSV и преобразовал в DataFrame, чтобы использовать возможности запросов SparkSQL. Один пользователь будет создавать множество записей в час, и я хотел бы ...
вопрос задан: 3 August 2015 14:28
0
ответов

Доступ к общедоступному файлу Amazon S3 из Apache Spark

У меня есть общедоступный ресурс Amazon s3 (текстовый файл), и я хочу получить к нему доступ из спарк. Это означает - у меня нет никаких учетных данных Amazon - все работает нормально, если я хочу просто загрузить его: val bucket = ...
вопрос задан: 19 July 2015 11:20
0
ответов

Требуется сериализация крио в Spark (Scala)

Я включил сериализацию kryo с этим: conf.set ("spark.serializer", "org.apache.spark.serializer.KryoSerializer") Я хочу убедиться, что пользовательский класс сериализуется с использованием kryo, когда ...
вопрос задан: 17 July 2015 17:19
0
ответов

Как проверить равенство с помощью Spark Dataframe без SQL-запросов?

Я хочу выбрать столбец, который соответствует определенному значению. Я делаю это в Скала и у меня есть небольшие проблемы. Вот мой код df.select (df ("state") === "TX"). Show () это возвращает столбец состояния с ...
вопрос задан: 9 July 2015 17:43
0
ответов

Широковещательная переменная Spark возвращает исключение NullPointerException при запуске в кластере Amazon EMR

Переменные, которыми я делюсь через широковещание, в кластере являются нулевыми Мое приложение довольно сложное, но я написал этот небольшой пример, который работает безупречно, когда я запускаю его локально, но в ...
вопрос задан: 8 July 2015 21:11
0
ответов

Pyspark StructType не определен

Я пытаюсь построить схему для тестирования БД, и StructType, по-видимому, по какой-то причине не работает. Я следую за сайтом, и он не импортирует никаких дополнительных модулей. , ...
вопрос задан: 23 June 2015 05:23
0
ответов

Spark: пытается запустить spark-shell, но get 'cmd' не распознается как внутренний или

Я пытаюсь установить Spark на рабочий стол Windows. Все должно работать нормально, но я получаю сообщение об ошибке "cmd не распознается как внутренняя или внешняя команда ..." Я установил Scala, Java JDK и ...
вопрос задан: 21 June 2015 15:03
0
ответов

Spark DataFrame TimestampType - как получить значения года, месяца, дня из поля?

У меня есть Spark DataFrame с верхними строками take (5) следующим образом: [Row (date = datetime.datetime (1984, 1, 1, 0, 0), hour = 1, value = 638.55), Row (date = datetime.datetime (1984, 1, 1, 0, 0), час = 2, значение = 638,55), ...
вопрос задан: 20 June 2015 22:14
0
ответов

Как добавить любую новую библиотеку, такую ​​как spark-csv, в готовую версию Apache Spark

Я собрал Spark-csv и могу использовать его из оболочки pyspark с помощью следующей команды bin / spark-shell --packages com.databricks: spark-csv_2.10: 1.0.3 ошибка получения > > > df_cat ....
вопрос задан: 10 June 2015 18:31
0
ответов

Транспонирование матрицы на RowMatrix в Spark

Предположим, у меня есть RowMatrix. Как я могу перенести это. В документации API, похоже, нет метода транспонирования. Матрица имеет метод transpose (). Но это не распространяется. Если у меня есть ...
вопрос задан: 31 May 2015 20:43
0
ответов

Как я могу отладить искровое приложение локально?

Я новичок в Spark, и я просто хотел бы узнать, как шаг за шагом отлаживать локально отладочное приложение? Может ли кто-нибудь подробно описать шаги, необходимые для этого? Я могу запустить simpleApp на ...
вопрос задан: 22 May 2015 18:37
0
ответов

Получить CSV для Spark DataFrame

Я использую Python на Spark и хотел бы получить CSV в dataframe. Документация по Spark SQL, как ни странно, не дает объяснения CSV в качестве источника. Я нашел Spark-CSV, однако я ...
вопрос задан: 29 April 2015 06:43
0
ответов

Что такое Spark Job?

Я уже закончил установку спарка и выполнил несколько тестовых сценариев, настраивая главный и рабочий узлы. Тем не менее, у меня очень жирная путаница в том, что именно означает работа в контексте Spark (не ...
вопрос задан: 10 March 2015 20:05
0
ответов

Как читать из hdfs используя spark-shell в Intel hadoop?

Я не могу читать из HDFS (дистрибутив Intel hadoop, версия Hadoop 1.0.3) из spark-shell (spark версия 1.2.1). Я собрал spark, используя команду mvn -Dhadoop.version = 1.0.3 clean package, ...
вопрос задан: 26 February 2015 11:14
0
ответов

Чтение секционированного файла паркета в Spark приводит к полям в неправильном порядке

Для таблицы с созданием таблицы mytable (..), разделенной на (my_part_column String) Мы выполняем hive sql следующим образом: из pyspark.sql import HiveContext hc = HiveContext (sc) ...
вопрос задан: 26 February 2015 05:18
0
ответов

ExException в потоке «main» java.lang.IllegalArgumentException: / home не может быть каталогом

Привет, я бегу упражнение на подсчет слов в Spark Java. Когда я выполняю в hdfs, я получаю подобное исключение в потоке "main" java.lang.IllegalArgumentException: / home / karun не может быть каталогом. в ...
вопрос задан: 25 February 2015 04:46
0
ответов

ошибка: ')' ожидается, но '(' найден

Я пытаюсь выполнить простой подсчет слов, используя Scala в Spark. Но я получаю эти две ошибки. Я относительно новичок в Scala и не могу понять это. ошибка: ')' ожидается, но '(' найдено. ...
вопрос задан: 15 November 2014 22:30
0
ответов

Какие факторы определяют количество исполнителей в автономном режиме?

Учитывая приложение Spark Какие факторы определяют количество исполнителей в автономном режиме? В Mesos и YARN согласно этим документам мы можем указать количество исполнителей / ядер и памяти ....
вопрос задан: 20 September 2014 23:39
0
ответов

Как я могу подключиться к базе данных postgreSQL в Apache Spark, используя scala?

Я хочу знать, как я могу делать следующие вещи в Scala? Подключитесь к базе данных postgreSQL, используя Spark Scala. Напишите SQL-запросы, такие как SELECT, UPDATE и т. Д., Чтобы изменить таблицу в этой базе данных. Я знаю, чтобы ...
вопрос задан: 23 July 2014 17:30
0
ответов

Можно ли запустить встроенный экземпляр узла Apache Spark?

Я хочу запустить экземпляр автономного кластера Apache Spark, встроенного в мое приложение Java. Я пытался найти документацию на их сайте, но пока не смотрел. Это возможно?
вопрос задан: 30 June 2014 14:18
0
ответов

Искра в бизнес-аналитике

В настоящее время я занимаюсь проектом в области бизнес-аналитики и больших данных, в двух областях, в котором я, честно говоря, новичок и очень экологичен. Я планировал построить Hive Datawarehouse, используя MongoDB и ...
вопрос задан: 6 June 2014 13:02
0
ответов

В обход org.apache.hadoop.mapred.InvalidInputException: шаблон ввода s3n: // […] соответствует 0 файлам

Это вопрос, который я уже задавал в списке рассылки spark, и я надеюсь добиться большего успеха здесь. Я не уверен, что это напрямую связано с искрой, хотя искра как-то связана с тем, что я ...
вопрос задан: 21 May 2014 13:00