Разработать список вложенных списков / обход дерева

Question

Разработать список вложенных списков / обход дерева

Я бы не использовал Spark в первую очередь, но если вы действительно привержены конкретному стеку, вы можете комбинировать кучу трансформаторов мл, чтобы получить наилучшие совпадения. Вам понадобятся Tokenizer (или split):

import org.apache.spark.ml.feature.RegexTokenizer

val tokenizer = new RegexTokenizer().setPattern("").setInputCol("text").setMinTokenLength(1).setOutputCol("tokens")

NGram (например, 3 грамма)

import org.apache.spark.ml.feature.NGram

val ngram = new NGram().setN(3).setInputCol("tokens").setOutputCol("ngrams")

Vectorizer (например CountVectorizer или HashingTF):

import org.apache.spark.ml.feature.HashingTF

val vectorizer = new HashingTF().setInputCol("ngrams").setOutputCol("vectors")

и LSH:

import org.apache.spark.ml.feature.{MinHashLSH, MinHashLSHModel}

// Increase numHashTables in practice.
val lsh = new MinHashLSH().setInputCol("vectors").setOutputCol("lsh")

Объединить с Pipeline

import org.apache.spark.ml.Pipeline

val pipeline = new Pipeline().setStages(Array(tokenizer, ngram, vectorizer, lsh))

Fit на примерах:

val query = Seq("Hello there 7l | real|y like Spark!").toDF("text")
val db = Seq(
  "Hello there


         
            0

         
         
            recursion nested tuples nested-lists         
         
         
            задан Cosmogol999            20 March 2019 в 15:59 
         
         
         поделиться


  

      
    

    
   
   
      0 ответов
      

      
         
                     
      

            
          Другие вопросы по тегам:          
         recursion nested tuples nested-lists       
        Похожие вопросы:

        
          
                          50 
 [Закрываются] реальные примеры рекурсии - 11 May 2014 15:44 
                            38 
 Что такое рекурсия и когда я должен использовать ее? - 25 August 2008 05:15 
                            30 
 Возврат в инкапсулированной функции (js) [дубликат]  - 15 March 2018 06:12 
                            30 
 Рекурсивная функция Python: странная память для списков и словарей [дубликат]  - 29 January 2017 01:29 
                            30 
 Перемещение по списку & ldquo; стиль змеи & rdquo;  в Python [дубликат]  - 16 February 2011 05:49 
                            30 
 Регулярное выражение для вложенных тегов [duplicate]  - 26 May 2012 21:37 
                            30 
 атрибут класса неожиданно изменяется [дублировать]  - 29 January 2017 01:29