apache-spark-mllib - список вопросов по программированию apache-spark-mllib

19

ответов

Ошибка при добавлении искровой зависимости mlib [duplicate]

Привет, я пытаюсь добавить зависимость искры mllib в моем проекте maven следующим образом: & lt; dependency & gt; & Lt; идентификатор_группа & GT; org.apache.spark & л; / идентификатор_группа & GT; & Lt; артефакт & GT; искровой mllib_2.10 & л; / ...

apache-spark apache-spark-mllib

вопрос задан: 18 November 2012 15:44

7

ответов

py4j.protocol.Py4JJavaError: Произошла ошибка при вызове o243.trainRandomForestModel. : java.lang.OutOfMemoryError: пространство кучи Java [дубликат]

Я использую случайный лесной mllib pyspark в наборе данных HIGGS (который включает 11000000 экземпляров). Я хочу обучить 100 деревьев с 5 для глубины для каждого дерева. Кроме того, я создаю искру в автономном режиме с 4 узлами (...

вопрос задан: 25 November 2015 11:14

2

ответа

Повторная поездка Spark MLlib Рекомендация Модель [дубликат]

Я хочу создать систему рекомендаций, которая работает в режиме реального времени или каждые 30 секунд для наших пользователей на основе данных о рейтинге пользователя, количестве просмотров продукта и т. Д. Проблема заключается в том, что я не хочу запраш

apache-spark apache-spark-mllib recommendation-engine collaborative-filtering

вопрос задан: 23 May 2017 11:47

2

ответа

Получить класс Вероятность и метки в искровом мл случайного классификатора леса Spark V1.6 [duplicate]

Я пытаюсь получить вероятности классов для случайного классификатора леса, написанного в искровом разряде 1.6. У меня есть общий класс 55, который будет предсказан, наконец, я получу финальную метку предсказания. Вместо этого я хочу получить ярлык ...

apache-spark apache-spark-mllib apache-spark-ml

вопрос задан: 1 June 2016 16:20

2

ответа

Как сохранить линейную регрессионную модель в PySpark 1.4.2? [Дубликат]

Я пытаюсь сохранить модель в PySpark 1.4.2. но ниже модели error.save (sc, modelpath) Traceback (последний последний вызов): Файл «& lt; stdin & gt;», строка 1, в & lt; module & gt; AttributeError: '...

python machine-learning pyspark apache-spark-mllib pyspark-sql

вопрос задан: 9 October 2015 00:09

1

ответ

Восстановите Матрицу из компонентов SVD с помощью Pyspark

Я работаю над SVD, используя pyspark. Но в документации, как и в любом другом месте, я не нашел, как восстановить матрицу обратно, используя сегментированные векторы. Например, используя svd of ...

apache-spark pyspark apache-spark-mllib svd

вопрос задан: 2 March 2019 09:11

1

ответ

Как выполнить поиск по сетке для Random Forest с использованием библиотеки Apache Spark ML

Я хочу выполнить поиск по сетке на моей модели случайного леса в Apache Spark. Но я не могу найти пример для этого. Есть ли пример на данных образца, где я могу сделать гипер-настройку параметров, используя ...

apache-spark apache-spark-mllib

вопрос задан: 15 January 2019 21:37

1

ответ

См. Ошибки прогнозирования различных параметров из CrossValidator Spark MLlib (в Scala) [дубликат]

Недавно я воспользовался MLLib Spark, и у меня был некоторый успех, используя Spark's CrossValidator для настройки параметров моей модели. Но я думаю, что было бы полезно начать визуализацию модели ...

scala apache-spark apache-spark-mllib databricks

вопрос задан: 26 June 2018 11:33

1

ответ

Вычислить сходство между предложениями с помощью Spark [duplicate]

У меня есть следующий ввод для моей задачи: - ID - & gt; Список слов (101 - & gt; Массив («a1», «b2», «c4», «d2»)) (102 - & gt; Array («a6», «b1», «c5», «d3») ) (103 - & gt; Array ("a1", "b4", "c4", "d2")) (...

apache-spark apache-spark-sql apache-spark-mllib similarity

вопрос задан: 12 May 2017 13:14

1

ответ

Как я могу сделать DStream после использования foreachrdd ()? [Дубликат]

Примечание. Я не могу переключиться на Structured Streaming, так как он не поддерживает некоторые из компонентов MLLib, которые я использую (KMeans, vectorizers и т. Д.) (Исправьте меня, если я ошибаюсь). Я знаю, что DStreams. ..

scala apache-spark dataframe spark-streaming apache-spark-mllib

вопрос задан: 6 January 2017 15:26

1

ответ

Рандомизация Dataframe или RDD для тренировки ML в Spark [дубликат]

Как я могу случайным образом перетасовать данные обучения для классификатора Spark? Прямо сейчас у меня есть dataframe, где первые N строк относятся к положительному классу, а остальные M строк относятся к отрицательному ...

apache-spark pyspark spark-dataframe apache-spark-mllib

вопрос задан: 22 April 2016 20:44

1

ответ

Как реализовать & ldquo; else if & rdquo; на искровом каркасе без UDF? [Дубликат]

В приведенной ниже ссылке объясняется, как реализовать IF ELSE в Spark. Как использовать несколько условий с помощью pyspark.sql.funtions.when ()? Если мой блок данных выглядит так A B C 10 2 300 20 3 200 30 7 ...

apache-spark pyspark apache-spark-sql spark-dataframe apache-spark-mllib

вопрос задан: 19 April 2016 21:15

0

ответов

Понимание функции разделения MLlib из PySpark

У меня есть следующие преобразованные данные. + -------- + ------------------ + | особенности | этикетки | + -------- + ------------------ + | [24,0] | +6,382551510879452 | | [29,0] | +6,233604067150788 | | [35,0] | ...

pyspark linear-regression apache-spark-mllib

вопрос задан: 19 April 2019 20:39

0

ответов

python имеет атрибут .powers_ в функции PolynomialFeatures, хотите найти аналогичный атрибут в функции PolynomialExpansion в pyspark

Я пытаюсь найти атрибут, который работает аналогично атрибуту .powers_ в PolynomialFeatures (функция python) для функции PolynomialExpansion в pyspark. Я провел некоторое исследование, но не смог найти ...

pyspark apache-spark-mllib

вопрос задан: 9 April 2019 08:17

0

ответов

apache spark (в java) машинное обучение com.github.fommil.netlib.F2jBLAS.dscal (F2jBLAS.java:176) ошибка

В Java я хочу использовать библиотеку машинного обучения Apache и использовать пример кода с https://spark.apache.org/docs/2.2.0/ml-pipeline.html, чтобы использовать классификатор для подгонки / обучения данных и прогнозирования. на ...

java apache-spark apache-spark-sql apache-spark-mllib

вопрос задан: 28 March 2019 20:41

0

ответов

Как получить среднее сходство Jaccard среди строк текстового столбца, используя PySpark

Мой Dataframe выглядит так: schema = ['name', 'text'] rdd = sc.parallelize (["abc, xyz a", "abc, xyz a", "abc, xyz b", "att, xcy b "," att, vwa c "," acy, xyz a "," acy, xyz a "]) \ .map (lambda x: x.split (", ")) ...

apache-spark pyspark apache-spark-mllib

вопрос задан: 27 March 2019 06:17

0

ответов

PYSPARK: применить квантильный дискретизатор для всех столбцов

Предположим, у меня есть 1000 столбцов. Как применить QuantileDiscretizer для всех столбцов? Это похоже на следующее для дискретизации одного столбца: result_discretizer1 = QuantileDiscretizer (numBuckets = 2, ...

pyspark apache-spark-mllib

вопрос задан: 7 March 2019 09:38

0

ответов

Spark ML: Как мне получить объект сценической модели из pipe.stages?

У меня есть трубопровод и несколько этапов в нем. Я могу получить доступ к этапам внутри модели. Однако я не рассматриваю их как (под) модели, а скорее как оценщиков. Например, если у меня есть конвейер с скажем ...

apache-spark-mllib

вопрос задан: 19 January 2019 06:58

0

ответов

В чем разница между пакетами Spark ML и MLLIB

Я заметил, что в SparkML есть два класса LinearRegressionModel, один в ML и другой в пакете MLLib. Эти два реализованы совершенно по-разному - например, один из MLLib реализует ...

apache-spark apache-spark-mllib apache-spark-ml

вопрос задан: 19 August 2017 16:54

0

ответов

Как соотносится количество итераций и количество разделов в Apache spark Word2Vec?

Согласно документации mllib.feature.Word2Vec - spark 1.3.1 [1]: def setNumIterations (numIterations: Int): Word2Vec.this.type Устанавливает количество итераций (по умолчанию: 1), которое должно быть меньше ...

word2vec apache-spark-mllib apache-spark

вопрос задан: 13 January 2017 22:00

0

ответов

Apache Spark ALS Рекомендация

Я запустил небольшую системную программу, рекомендованную ALS, которую можно найти на веб-сайте Apache Spark, в которой используется Mllib. При использовании набора данных с оценками 1-5 (я использовал набор данных MovieLens) он дает ...

collaborative-filtering apache-spark-mllib machine-learning apache-spark

вопрос задан: 25 April 2016 12:30

0

ответов

Разница между org.apache.spark.ml.classification и org.apache.spark.mllib.classification

Я пишу искровое приложение и хотел бы использовать алгоритмы в MLlib. В документе API я нашел два разных класса для одного и того же алгоритма. Например, в организации есть одна LogisticRegression ....

apache-spark-mllib apache-spark scala

вопрос задан: 25 April 2016 12:21