tokenize - список вопросов по программированию tokenize

1

ответ

Маркирование записей в Твиттере в Lucene

Мой вопрос вкратце: кто-либо знает о TwitterAnalyzer или TwitterTokenizer для Lucene? Более подробная версия: Я хочу индексировать много твитов в Lucene и сохранить условия как @user или #...

twitter lucene tokenize

вопрос задан: 31 March 2010 17:26

1

ответ

Парсинг/Маркирование Строки, Содержащей Команду SQL

Есть ли какие-либо библиотеки с открытым исходным кодом (какой-либо язык, python/PHP предпочтенный), который будет маркировать/анализировать строку ANSI SQL в ее различные компоненты? Таким образом, если у меня был следующий строковый ВЫБОР....

php python sql parsing tokenize

вопрос задан: 13 March 2010 19:19

0

ответов

Boost :: Разделить с помощью целой строки в виде разделителя

Я хотел бы знать, есть ли метод, использующий Boost :: Split, чтобы разделить строку с использованием цельных строк в качестве разделителя. Например: STR = "xxaxxxxxxxxxxbxxxcxxxx" Есть ли способ разделить эту строку ...

c++ string boost tokenize

вопрос задан: 6 July 2019 21:02

0

ответов

Разница между WhitespaceTokenizerFactory и StandardTokenizerFactory

Я новичок в Solr. Читая вики Solr, я не понимаю различий между WhitespaceTokenizerFactory и StandardTokenizerFactory. В чем их реальная разница?

solr tokenize

вопрос задан: 18 April 2019 10:13

0

ответов

Как токенизировать (слова), классифицируя пунктуацию как пробел

На основании этого вопроса, который был закрыт довольно быстро: Попытка создать программу для чтения пользовательского ввода, а затем разбить массив на отдельные слова, все ли мои указатели действительны? Вместо того, чтобы закрывать I ...

c++ locale tokenize

вопрос задан: 18 August 2018 17:10

0

ответов

Разница между StandardTokenizerFactory и KeywordTokenizerFactory в Solr?

Я новичок в Solr.Я хочу знать, когда использовать StandardTokenizerFactory и KeywordTokenizerFactory? Я прочитал документацию на Apache Wiki, но не понимаю. Кто-нибудь может объяснить разницу между ...

java solr solrnet tokenize

вопрос задан: 15 January 2018 10:35

0

ответов

RegEx Tokenizer: Text in Wörter, Ziffern, Interpunktion und Abstand aufteilen (nichts löschen)

Ich habe die Antwort auf diese Frage in diesem Thread fast gefunden (Antwort von samplebias); Ich muss jedoch eine Phrase in Wörter, Ziffern, Satzzeichen und Leerzeichen / Tabulatoren aufteilen. Ich brauche dies auch, um zu bewahren ...

python regex nltk tokenize

вопрос задан: 23 May 2017 12:33

0

ответов

Splitting comma separated string in a PL/SQL stored proc

I've CSV string 100.01,200.02,300.03 which I need to pass to a PL/SQL stored procedure in Oracle. Inside the proc,I need to insert these values in a Number column in the table. For this, I got a ...

oracle plsql tokenize

вопрос задан: 23 May 2017 12:25

0

ответов

Как разобрать базовую арифметику (, например, «5+5» ), используя простой анализатор рекурсивного спуска в C++?

Это было на моем Я заинтригован парсерами рекурсивного спуска и хотел бы знать, как их реализовать. Мне нужен простой синтаксический анализатор, который будет понимать простую арифметику...

parsing recursive-descent tokenize c++

вопрос задан: 23 May 2017 12:07

0

ответов

Разбить строку на массив в C ++ [дубликат]

Возможный дубликат: Как разбить строку в C ++? У меня есть входной файл данных, и каждая строка является записью. в каждой строке каждое "поле" разделено пробелом "", поэтому мне нужно разделить строку ...

tokenize string c++

вопрос задан: 23 May 2017 12:02

0

ответов

Разделение текста на предложения и предложения на слова: BreakIterator vs регулярные выражения

Я случайно ответил на вопрос, где находится оригинал проблема заключалась в разделении предложения на отдельные слова. И автор предложил использовать BreakIterator для токенизации входных строк и некоторых людей ...

java regex string comparison tokenize

вопрос задан: 23 May 2017 11:47

0

ответов

Java StringTokenizer.nextToken ()пропускает пустые поля

Я использую вкладку (/t )в качестве разделителя, и я знаю, что в моих данных есть несколько пустых полей, например. :один ->два -> ->три Где -> равно вкладке. Как видите, пустое поле все еще корректно...

java string tokenize

вопрос задан: 6 November 2016 18:56

0

ответов

Может ли строка кода Python знать свой уровень вложенности отступа?

Примерно так: print (get_indentation_level ()) print (get_indentation_level ()) print (get_indentation_level ()) Я хотел бы получить что-то вроде этого: 1 2 3 Может ли код ...

tokenize indentation metaprogramming reflection python

вопрос задан: 29 August 2016 00:51

0

ответов

Порядок приоритета для сопоставления токенов во Flex

Приношу свои извинения, если название этой ветки немного сбивает с толку. Я спрашиваю, как Flex (лексический анализатор) решает проблемы приоритета? Например, скажем, у меня есть два токена ...

tokenize flex-lexer lexical-analysis

вопрос задан: 22 June 2016 18:12

0

ответов

Разбить строку с помощью PowerShell и сделать что-то с каждым токеном

Я хочу разбить каждую строку канала на пробелы, а затем напечатать каждый токен в отдельной строке. Я понимаю, что могу получить этот результат, используя:(cat someFileInsteadOfAPipe ).split (" " )Но я хочу большего...

powershell string tokenize

вопрос задан: 8 February 2016 01:32

0

ответов

Есть ли функция для разделения строки в PL / SQL?

Мне нужно написать процедуру для нормализации записи, содержащей несколько токенов объединены одним символом. Мне нужно получить эти токены, разделяющие строку, и вставить каждый из них как новую запись в таблицу. ...

string oracle plsql split tokenize

вопрос задан: 12 November 2015 17:20

0

ответов

Что такое все японские пробельные символы?

Мне нужно разделить строку и извлекать слова, разделенные пробелами. Источник может быть на английском или японском языке. Английские пробельные символы включают табуляцию и пробел, а в японском тексте используется ...

text unicode whitespace tokenize cjk

вопрос задан: 30 June 2015 22:13

0

ответов

Boost :: токенизатор, разделенный запятыми (c ++)

Это должно быть легко для вас, ребята ... Я играю с токенизаторами, используя Boost, и я хочу создать токен, разделенный запятыми. вот мой код: string s = "это,,, тест"; ...

c++ boost tokenize boost-tokenizer

вопрос задан: 31 August 2014 11:33

0

ответов

Основы НЛП в CoffeeScript или JavaScript — токенизация точек, простые обученные байесовские модели — с чего начать? [закрыто]

Мой текущий проект веб-приложения -требует небольшого НЛП :Токенизация текста в предложения с помощью Punkt и подобных; Разбивая более длинные предложения придаточным предложением (, оно часто ставится через запятую, за исключением случаев, когда оно’...

coffeescript javascript nlp tokenize user-experience

вопрос задан: 21 February 2014 14:02

0

ответов

Разделить строку с использованием пробелов в Javascript?

Мне нужен токенизатор, который, задав строку с произвольным пробелом между словами, создаст массив слов без пустых подстрок. Например, дана строка: «Я не знаю, что вы имеете в виду под ...

javascript tokenize

вопрос задан: 15 February 2014 16:59

0

ответов

Как иметь «настраиваемый split ()» в списке с помощью strtk?

Я прочитал http://www.codeproject.com/KB/recipes/Tokenizer.aspx и Я хочу иметь последний пример (в конце, непосредственно перед всеми графиками) «Расширение предикатов разделителей» в моем основном файле, но я не…

c++ split tokenize

вопрос задан: 6 June 2013 19:03

0

ответов

ElasticSearch Stemming

Я использую ElasticSerach и хочу настроить базовую основу для английского языка. Таким образом, Fighter возвращает бой или любое слово, содержащее корень бой. Я немного запутался, как это реализовать. Я...

analyzer elasticsearch stemming tokenize lucene

вопрос задан: 30 January 2013 14:26

0

ответов

Токенизация арабских слов с использованием NLTK

Я использую NLTK word_tokenizer, чтобы разделить предложение на слова. Я хочу обозначить это предложение следующим образом:

nltk tokenize python

вопрос задан: 23 October 2012 19:30

0

ответов

Python: Regex выводит 12_34 - мне нужно 1234

Таким образом, у меня есть входные данные: 12_34 5_6_8_2 4_____3 1234, и мне нужны следующие выходные данные: 1234, 5682, 43, 1234 В настоящее время я работаю с r '[0-9] + [0-9 _] *' .replace ('_', ''), который, насколько ...

tokenize regex python

вопрос задан: 16 September 2012 07:58

0

ответов

Как использовать stringstream для разделения строк, разделенных запятыми [дубликат]

У меня есть следующий код :std ::string str = "abc def,ghi"; std ::stringstream ss (str ); строковый токен; в то время как (сс >> токен ){ printf ("%s\n", token.c _str ()); } Вывод: :abc def,...

stringstream tokenize c++

вопрос задан: 30 July 2012 10:21

0

ответов

Необязательное использование String.split(), разделить строку по последнему вхождению разделителя

У меня есть строка, соответствующая этому регулярному выражению: ^.+:[0-9]+(\.[0-9]+)*/[ 0-9]+$, который можно легко представить как (Text):(Double)/(Int). Мне нужно разбить эту строку на три части. Обычно...

java split string tokenize regex

вопрос задан: 7 June 2012 21:49

0

ответов

Токенизатор Boost обрабатывает строку в кавычках как один токен

Есть ли способ заставить токенизатор Boost разделять строку ниже, не разделяя часть в кавычках? string s = "1st 2nd \"3rd с некоторым комментарием\" 4th"; Ожидаемый результат: 1-й 2-й 3-й с некоторым комментарием 4-й

boost tokenize c++

вопрос задан: 1 June 2012 15:58

0

ответов

Токенизация и индексация с помощью Lucene, как справиться с внешней токенизацией и частью речи?

Я хотел бы создать свой собственный — здесь не уверен, какой именно — токенизатор (с точки зрения Lucene) или собственный анализатор. Я уже пишу код, который токенизирует мои документы в слове (в виде списка ...

java nlp tokenize lucene

вопрос задан: 21 May 2012 15:54

0

ответов

Есть ли способ усилить исходный термин при использовании синонимов Solr?

Например, у меня есть синонимы ноутбук,нетбук,ноутбук в index_synonyms.txt Когда пользователь ищет нетбук, я хочу повысить исходный текст больше, чем расширенный синонимами? Есть ли способ указать это в...

solr solr-schema tokenize synonym

вопрос задан: 18 May 2012 22:44

0

ответов

Как предотвратить токенизацию FacetTerms

Я использую FacetTerms, чтобы получить все уникальные значения и их количество для поля. И я получаю неправильные результаты. term:web Count:1191979 term:misc Count:1191979 term:passwd Count:1191979...

elasticsearch tokenize

вопрос задан: 11 April 2012 17:03