1
ответ

Маркирование записей в Твиттере в Lucene

Мой вопрос вкратце: кто-либо знает о TwitterAnalyzer или TwitterTokenizer для Lucene? Более подробная версия: Я хочу индексировать много твитов в Lucene и сохранить условия как @user или #...
вопрос задан: 31 March 2010 17:26
1
ответ

Парсинг/Маркирование Строки, Содержащей Команду SQL

Есть ли какие-либо библиотеки с открытым исходным кодом (какой-либо язык, python/PHP предпочтенный), который будет маркировать/анализировать строку ANSI SQL в ее различные компоненты? Таким образом, если у меня был следующий строковый ВЫБОР....
вопрос задан: 13 March 2010 19:19
0
ответов

Boost :: Разделить с помощью целой строки в виде разделителя

Я хотел бы знать, есть ли метод, использующий Boost :: Split, чтобы разделить строку с использованием цельных строк в качестве разделителя. Например: STR = "xxaxxxxxxxxxxbxxxcxxxx" Есть ли способ разделить эту строку ...
вопрос задан: 6 July 2019 21:02
0
ответов

Разница между WhitespaceTokenizerFactory и StandardTokenizerFactory

Я новичок в Solr. Читая вики Solr, я не понимаю различий между WhitespaceTokenizerFactory и StandardTokenizerFactory. В чем их реальная разница?
вопрос задан: 18 April 2019 10:13
0
ответов

Как токенизировать (слова), классифицируя пунктуацию как пробел

На основании этого вопроса, который был закрыт довольно быстро: Попытка создать программу для чтения пользовательского ввода, а затем разбить массив на отдельные слова, все ли мои указатели действительны? Вместо того, чтобы закрывать I ...
вопрос задан: 18 August 2018 17:10
0
ответов

Разница между StandardTokenizerFactory и KeywordTokenizerFactory в Solr?

Я новичок в Solr.Я хочу знать, когда использовать StandardTokenizerFactory и KeywordTokenizerFactory? Я прочитал документацию на Apache Wiki, но не понимаю. Кто-нибудь может объяснить разницу между ...
вопрос задан: 15 January 2018 10:35
0
ответов

RegEx Tokenizer: Text in Wörter, Ziffern, Interpunktion und Abstand aufteilen (nichts löschen)

Ich habe die Antwort auf diese Frage in diesem Thread fast gefunden (Antwort von samplebias); Ich muss jedoch eine Phrase in Wörter, Ziffern, Satzzeichen und Leerzeichen / Tabulatoren aufteilen. Ich brauche dies auch, um zu bewahren ...
вопрос задан: 23 May 2017 12:33
0
ответов

Splitting comma separated string in a PL/SQL stored proc

I've CSV string 100.01,200.02,300.03 which I need to pass to a PL/SQL stored procedure in Oracle. Inside the proc,I need to insert these values in a Number column in the table. For this, I got a ...
вопрос задан: 23 May 2017 12:25
0
ответов

Как разобрать базовую арифметику (, например, «5+5» ), используя простой анализатор рекурсивного спуска в C++?

Это было на моем Я заинтригован парсерами рекурсивного спуска и хотел бы знать, как их реализовать. Мне нужен простой синтаксический анализатор, который будет понимать простую арифметику...
вопрос задан: 23 May 2017 12:07
0
ответов

Разбить строку на массив в C ++ [дубликат]

Возможный дубликат: Как разбить строку в C ++? У меня есть входной файл данных, и каждая строка является записью. в каждой строке каждое "поле" разделено пробелом "", поэтому мне нужно разделить строку ...
вопрос задан: 23 May 2017 12:02
0
ответов

Разделение текста на предложения и предложения на слова: BreakIterator vs регулярные выражения

Я случайно ответил на вопрос, где находится оригинал проблема заключалась в разделении предложения на отдельные слова. И автор предложил использовать BreakIterator для токенизации входных строк и некоторых людей ...
вопрос задан: 23 May 2017 11:47
0
ответов

Java StringTokenizer.nextToken ()пропускает пустые поля

Я использую вкладку (/t )в качестве разделителя, и я знаю, что в моих данных есть несколько пустых полей, например. :один ->два -> ->три Где -> равно вкладке. Как видите, пустое поле все еще корректно...
вопрос задан: 6 November 2016 18:56
0
ответов

Может ли строка кода Python знать свой уровень вложенности отступа?

Примерно так: print (get_indentation_level ()) print (get_indentation_level ()) print (get_indentation_level ()) Я хотел бы получить что-то вроде этого: 1 2 3 Может ли код ...
вопрос задан: 29 August 2016 00:51
0
ответов

Порядок приоритета для сопоставления токенов во Flex

Приношу свои извинения, если название этой ветки немного сбивает с толку. Я спрашиваю, как Flex (лексический анализатор) решает проблемы приоритета? Например, скажем, у меня есть два токена ...
вопрос задан: 22 June 2016 18:12
0
ответов

Разбить строку с помощью PowerShell и сделать что-то с каждым токеном

Я хочу разбить каждую строку канала на пробелы, а затем напечатать каждый токен в отдельной строке. Я понимаю, что могу получить этот результат, используя:(cat someFileInsteadOfAPipe ).split (" " )Но я хочу большего...
вопрос задан: 8 February 2016 01:32
0
ответов

Есть ли функция для разделения строки в PL / SQL?

Мне нужно написать процедуру для нормализации записи, содержащей несколько токенов объединены одним символом. Мне нужно получить эти токены, разделяющие строку, и вставить каждый из них как новую запись в таблицу. ...
вопрос задан: 12 November 2015 17:20
0
ответов

Что такое все японские пробельные символы?

Мне нужно разделить строку и извлекать слова, разделенные пробелами. Источник может быть на английском или японском языке. Английские пробельные символы включают табуляцию и пробел, а в японском тексте используется ...
вопрос задан: 30 June 2015 22:13
0
ответов

Boost :: токенизатор, разделенный запятыми (c ++)

Это должно быть легко для вас, ребята ... Я играю с токенизаторами, используя Boost, и я хочу создать токен, разделенный запятыми. вот мой код: string s = "это,,, тест"; ...
вопрос задан: 31 August 2014 11:33
0
ответов

Основы НЛП в CoffeeScript или JavaScript — токенизация точек, простые обученные байесовские модели — с чего начать? [закрыто]

Мой текущий проект веб-приложения -требует небольшого НЛП :Токенизация текста в предложения с помощью Punkt и подобных; Разбивая более длинные предложения придаточным предложением (, оно часто ставится через запятую, за исключением случаев, когда оно’...
вопрос задан: 21 February 2014 14:02
0
ответов

Разделить строку с использованием пробелов в Javascript?

Мне нужен токенизатор, который, задав строку с произвольным пробелом между словами, создаст массив слов без пустых подстрок. Например, дана строка: «Я не знаю, что вы имеете в виду под ...
вопрос задан: 15 February 2014 16:59
0
ответов

Как иметь «настраиваемый split ()» в списке с помощью strtk?

Я прочитал http://www.codeproject.com/KB/recipes/Tokenizer.aspx и Я хочу иметь последний пример (в конце, непосредственно перед всеми графиками) «Расширение предикатов разделителей» в моем основном файле, но я не…
вопрос задан: 6 June 2013 19:03
0
ответов

ElasticSearch Stemming

Я использую ElasticSerach и хочу настроить базовую основу для английского языка. Таким образом, Fighter возвращает бой или любое слово, содержащее корень бой. Я немного запутался, как это реализовать. Я...
вопрос задан: 30 January 2013 14:26
0
ответов

Токенизация арабских слов с использованием NLTK

Я использую NLTK word_tokenizer, чтобы разделить предложение на слова. Я хочу обозначить это предложение следующим образом:
вопрос задан: 23 October 2012 19:30
0
ответов

Python: Regex выводит 12_34 - мне нужно 1234

Таким образом, у меня есть входные данные: 12_34 5_6_8_2 4_____3 1234, и мне нужны следующие выходные данные: 1234, 5682, 43, 1234 В настоящее время я работаю с r '[0-9] + [0-9 _] *' .replace ('_', ''), который, насколько ...
вопрос задан: 16 September 2012 07:58
0
ответов

Как использовать stringstream для разделения строк, разделенных запятыми [дубликат]

У меня есть следующий код :std ::string str = "abc def,ghi"; std ::stringstream ss (str ); строковый токен; в то время как (сс >> токен ){ printf ("%s\n", token.c _str ()); } Вывод: :abc def,...
вопрос задан: 30 July 2012 10:21
0
ответов

Необязательное использование String.split(), разделить строку по последнему вхождению разделителя

У меня есть строка, соответствующая этому регулярному выражению: ^.+:[0-9]+(\.[0-9]+)*/[ 0-9]+$, который можно легко представить как (Text):(Double)/(Int). Мне нужно разбить эту строку на три части. Обычно...
вопрос задан: 7 June 2012 21:49
0
ответов

Токенизатор Boost обрабатывает строку в кавычках как один токен

Есть ли способ заставить токенизатор Boost разделять строку ниже, не разделяя часть в кавычках? string s = "1st 2nd \"3rd с некоторым комментарием\" 4th"; Ожидаемый результат: 1-й 2-й 3-й с некоторым комментарием 4-й
вопрос задан: 1 June 2012 15:58
0
ответов

Токенизация и индексация с помощью Lucene, как справиться с внешней токенизацией и частью речи?

Я хотел бы создать свой собственный — здесь не уверен, какой именно — токенизатор (с точки зрения Lucene) или собственный анализатор. Я уже пишу код, который токенизирует мои документы в слове (в виде списка ...
вопрос задан: 21 May 2012 15:54
0
ответов

Есть ли способ усилить исходный термин при использовании синонимов Solr?

Например, у меня есть синонимы ноутбук,нетбук,ноутбук в index_synonyms.txt Когда пользователь ищет нетбук, я хочу повысить исходный текст больше, чем расширенный синонимами? Есть ли способ указать это в...
вопрос задан: 18 May 2012 22:44
0
ответов

Как предотвратить токенизацию FacetTerms

Я использую FacetTerms, чтобы получить все уникальные значения и их количество для поля. И я получаю неправильные результаты. term:web Count:1191979 term:misc Count:1191979 term:passwd Count:1191979...
вопрос задан: 11 April 2012 17:03