Вычислить сходство между предложениями с помощью Spark [duplicate]

Question

Вычислить сходство между предложениями с помощью Spark [duplicate]

Вы не можете просто назначить значение символу в строке. Используйте этот метод для замены значения определенного символа:

name = "India"
result=name .replace("d",'*')

Вывод: In * ia

Кроме того, если вы хотите заменить say * для всех вхождений первого символа кроме первого символа, например. строка = лепетный вывод = ba ** le

Код:

name = "babble"
front= name [0:1]
fromSecondCharacter = name [1:]
back=fromSecondCharacter.replace(front,'*')
return front+back

20

apache-spark apache-spark-sql apache-spark-mllib similarity

задан mrtnsd 12 May 2017 в 13:14

1 ответ


         
               
          Другие вопросы по тегам:          
         apache-spark apache-spark-sql apache-spark-mllib similarity       
        Похожие вопросы:

        
          
                          20 
 Ошибка записи данных в формате PySpark (данные MovieLens) [дубликат]  - 22 March 2016 14:59 
                            19 
 Ошибка при добавлении искровой зависимости mlib [duplicate]  - 18 November 2012 15:44 
                            18 
 Graphx java.lang.ArrayIndexOutOfBoundsException: 2 [дублировать]  - 20 October 2014 10:13 
                            15 
 SparkSQL - ошибка в схеме [дубликат]  - 20 October 2014 10:13 
                            12 
 Получение исключения NullPointerException, когда я запускаю искровую работу в режиме пряжи [дубликат]  - 26 May 2016 16:15 
                            12 
 Обновление версии python в pyspark [duplicate]  - 28 May 2015 22:52

score 20 · Answer 1

Я бы не использовал Spark в первую очередь, но если вы действительно привержены конкретному стеку, вы можете комбинировать кучу трансформаторов мл, чтобы получить наилучшие совпадения. Вам понадобятся Tokenizer (или split):

import org.apache.spark.ml.feature.RegexTokenizer

val tokenizer = new RegexTokenizer().setPattern("").setInputCol("text").setMinTokenLength(1).setOutputCol("tokens")

NGram (например, 3 грамма)

import org.apache.spark.ml.feature.NGram

val ngram = new NGram().setN(3).setInputCol("tokens").setOutputCol("ngrams")

Vectorizer (например CountVectorizer или HashingTF):

import org.apache.spark.ml.feature.HashingTF

val vectorizer = new HashingTF().setInputCol("ngrams").setOutputCol("vectors")

и LSH:

import org.apache.spark.ml.feature.{MinHashLSH, MinHashLSHModel}

// Increase numHashTables in practice.
val lsh = new MinHashLSH().setInputCol("vectors").setOutputCol("lsh")

Объединить с Pipeline

import org.apache.spark.ml.Pipeline

val pipeline = new Pipeline().setStages(Array(tokenizer, ngram, vectorizer, lsh))

Fit на примерах:

val query = Seq("Hello there 7l | real|y like Spark!").toDF("text")
val db = Seq(
  "Hello there

Как быстро это происходит? У меня есть два набора данных с 10 миллионами и 70 миллионами строк. Мне приходится сравнивать строки в них. Сколько времени это займет? И как упоминалось в этом ответе, что бы вы сделали, если не искры? — Ravi Ranjan, 11 January 2018 в 06:08
Я работаю над вычислением расстояния между левенштейном между 10 и 70 миллионами строк. Для этого, конечно, потребуется время, которое было бы очень много. У меня было два вопроса: как быстро вышеназванный алгоритм и что бы вы сделали, если не используете искру? — Ravi Ranjan, 22 January 2018 в 06:54