19
ответов

Ошибка при добавлении искровой зависимости mlib [duplicate]

Привет, я пытаюсь добавить зависимость искры mllib в моем проекте maven следующим образом: & lt; dependency & gt; & Lt; идентификатор_группа & GT; org.apache.spark & ​​л; / идентификатор_группа & GT; & Lt; артефакт & GT; искровой mllib_2.10 & л; / ...
вопрос задан: 18 November 2012 15:44
7
ответов

py4j.protocol.Py4JJavaError: Произошла ошибка при вызове o243.trainRandomForestModel. : java.lang.OutOfMemoryError: пространство кучи Java [дубликат]

Я использую случайный лесной mllib pyspark в наборе данных HIGGS (который включает 11000000 экземпляров). Я хочу обучить 100 деревьев с 5 для глубины для каждого дерева. Кроме того, я создаю искру в автономном режиме с 4 узлами (...
вопрос задан: 25 November 2015 11:14
2
ответа

Повторная поездка Spark MLlib Рекомендация Модель [дубликат]

Я хочу создать систему рекомендаций, которая работает в режиме реального времени или каждые 30 секунд для наших пользователей на основе данных о рейтинге пользователя, количестве просмотров продукта и т. Д. Проблема заключается в том, что я не хочу запраш
вопрос задан: 23 May 2017 11:47
2
ответа

Получить класс Вероятность и метки в искровом мл случайного классификатора леса Spark V1.6 [duplicate]

Я пытаюсь получить вероятности классов для случайного классификатора леса, написанного в искровом разряде 1.6. У меня есть общий класс 55, который будет предсказан, наконец, я получу финальную метку предсказания. Вместо этого я хочу получить ярлык ...
вопрос задан: 1 June 2016 16:20
2
ответа

Как сохранить линейную регрессионную модель в PySpark 1.4.2? [Дубликат]

Я пытаюсь сохранить модель в PySpark 1.4.2. но ниже модели error.save (sc, modelpath) Traceback (последний последний вызов): Файл «& lt; stdin & gt;», строка 1, в & lt; module & gt; AttributeError: '...
вопрос задан: 9 October 2015 00:09
1
ответ

Восстановите Матрицу из компонентов SVD с помощью Pyspark

Я работаю над SVD, используя pyspark. Но в документации, как и в любом другом месте, я не нашел, как восстановить матрицу обратно, используя сегментированные векторы. Например, используя svd of ...
вопрос задан: 2 March 2019 09:11
1
ответ

Как выполнить поиск по сетке для Random Forest с использованием библиотеки Apache Spark ML

Я хочу выполнить поиск по сетке на моей модели случайного леса в Apache Spark. Но я не могу найти пример для этого. Есть ли пример на данных образца, где я могу сделать гипер-настройку параметров, используя ...
вопрос задан: 15 January 2019 21:37
1
ответ

См. Ошибки прогнозирования различных параметров из CrossValidator Spark MLlib (в Scala) [дубликат]

Недавно я воспользовался MLLib Spark, и у меня был некоторый успех, используя Spark's CrossValidator для настройки параметров моей модели. Но я думаю, что было бы полезно начать визуализацию модели ...
вопрос задан: 26 June 2018 11:33
1
ответ

Вычислить сходство между предложениями с помощью Spark [duplicate]

У меня есть следующий ввод для моей задачи: - ID - & gt; Список слов (101 - & gt; Массив («a1», «b2», «c4», «d2»)) (102 - & gt; Array («a6», «b1», «c5», «d3») ) (103 - & gt; Array ("a1", "b4", "c4", "d2")) (...
вопрос задан: 12 May 2017 13:14
1
ответ

Как я могу сделать DStream после использования foreachrdd ()? [Дубликат]

Примечание. Я не могу переключиться на Structured Streaming, так как он не поддерживает некоторые из компонентов MLLib, которые я использую (KMeans, vectorizers и т. Д.) (Исправьте меня, если я ошибаюсь). Я знаю, что DStreams. ..
вопрос задан: 6 January 2017 15:26
1
ответ

Рандомизация Dataframe или RDD для тренировки ML в Spark [дубликат]

Как я могу случайным образом перетасовать данные обучения для классификатора Spark? Прямо сейчас у меня есть dataframe, где первые N строк относятся к положительному классу, а остальные M строк относятся к отрицательному ...
вопрос задан: 22 April 2016 20:44
1
ответ

Как реализовать & ldquo; else if & rdquo; на искровом каркасе без UDF? [Дубликат]

В приведенной ниже ссылке объясняется, как реализовать IF ELSE в Spark. Как использовать несколько условий с помощью pyspark.sql.funtions.when ()? Если мой блок данных выглядит так A B C 10 2 300 20 3 200 30 7 ...
вопрос задан: 19 April 2016 21:15
0
ответов

Понимание функции разделения MLlib из PySpark

У меня есть следующие преобразованные данные. + -------- + ------------------ + | особенности | этикетки | + -------- + ------------------ + | [24,0] | +6,382551510879452 | | [29,0] | +6,233604067150788 | | [35,0] | ...
вопрос задан: 19 April 2019 20:39
0
ответов

python имеет атрибут .powers_ в функции PolynomialFeatures, хотите найти аналогичный атрибут в функции PolynomialExpansion в pyspark

Я пытаюсь найти атрибут, который работает аналогично атрибуту .powers_ в PolynomialFeatures (функция python) для функции PolynomialExpansion в pyspark. Я провел некоторое исследование, но не смог найти ...
вопрос задан: 9 April 2019 08:17
0
ответов

apache spark (в java) машинное обучение com.github.fommil.netlib.F2jBLAS.dscal (F2jBLAS.java:176) ошибка

В Java я хочу использовать библиотеку машинного обучения Apache и использовать пример кода с https://spark.apache.org/docs/2.2.0/ml-pipeline.html, чтобы использовать классификатор для подгонки / обучения данных и прогнозирования. на ...
вопрос задан: 28 March 2019 20:41
0
ответов

Как получить среднее сходство Jaccard среди строк текстового столбца, используя PySpark

Мой Dataframe выглядит так: schema = ['name', 'text'] rdd = sc.parallelize (["abc, xyz a", "abc, xyz a", "abc, xyz b", "att, xcy b "," att, vwa c "," acy, xyz a "," acy, xyz a "]) \ .map (lambda x: x.split (", ")) ...
вопрос задан: 27 March 2019 06:17
0
ответов

PYSPARK: применить квантильный дискретизатор для всех столбцов

Предположим, у меня есть 1000 столбцов. Как применить QuantileDiscretizer для всех столбцов? Это похоже на следующее для дискретизации одного столбца: result_discretizer1 = QuantileDiscretizer (numBuckets = 2, ...
вопрос задан: 7 March 2019 09:38
0
ответов

Spark ML: Как мне получить объект сценической модели из pipe.stages?

У меня есть трубопровод и несколько этапов в нем. Я могу получить доступ к этапам внутри модели. Однако я не рассматриваю их как (под) модели, а скорее как оценщиков. Например, если у меня есть конвейер с скажем ...
вопрос задан: 19 January 2019 06:58
0
ответов

В чем разница между пакетами Spark ML и MLLIB

Я заметил, что в SparkML есть два класса LinearRegressionModel, один в ML и другой в пакете MLLib. Эти два реализованы совершенно по-разному - например, один из MLLib реализует ...
вопрос задан: 19 August 2017 16:54
0
ответов

Как соотносится количество итераций и количество разделов в Apache spark Word2Vec?

Согласно документации mllib.feature.Word2Vec - spark 1.3.1 [1]: def setNumIterations (numIterations: Int): Word2Vec.this.type Устанавливает количество итераций (по умолчанию: 1), которое должно быть меньше ...
вопрос задан: 13 January 2017 22:00
0
ответов

Apache Spark ALS Рекомендация

Я запустил небольшую системную программу, рекомендованную ALS, которую можно найти на веб-сайте Apache Spark, в которой используется Mllib. При использовании набора данных с оценками 1-5 (я использовал набор данных MovieLens) он дает ...
вопрос задан: 25 April 2016 12:30
0
ответов

Разница между org.apache.spark.ml.classification и org.apache.spark.mllib.classification

Я пишу искровое приложение и хотел бы использовать алгоритмы в MLlib. В документе API я нашел два разных класса для одного и того же алгоритма. Например, в организации есть одна LogisticRegression ....
вопрос задан: 25 April 2016 12:21