tokenize - список вопросов по программированию tokenize

3

ответа

Есть ли лучший способ токенизировать некоторые строки?

Я пытался написать код для токенизации строк в python для некоторого НЛП и придумал этот код: str = ['Я Бэтмен.', 'Я любил чай.', 'Я больше никогда не пойду в этот торговый центр ! '] s = [] a = 0 ...

вопрос задан: 15 January 2019 15:34

3

ответа

Ища четкое определение того, что “токенизатор”, “синтаксический анализатор” и “лексические анализаторы” и как они связываются друг с другом и используются?

Я ищу четкое определение того, что "токенизатор", "синтаксический анализатор" и "лексический анализатор" и как они связаны друг с другом (например, синтаксический анализатор использует токенизатор или наоборот)? Я должен созд

tokenize lexer parsing

вопрос задан: 28 March 2018 22:30

3

ответа

Парсинг классов, функций и аргументов в PHP

Я хочу создать функцию, которая получает отдельный аргумент, который содержит путь к файлу PHP и затем анализирует данный файл и возвращает что-то вроде этого: класс NameOfTheClass функционирует Method1 (...

php parsing tokenize code-analysis

вопрос задан: 24 July 2015 03:00

3

ответа

Как делает синтаксический анализатор (например, HTML) работа?

Поскольку польза аргумента позволяет, принимают синтаксический анализатор HTML. Я считал, что это маркирует все сначала и затем анализирует его. Что действительно маркирует средний? Делает синтаксический анализатор, читает каждый символ каждый, растя...

html browser parsing html-parsing tokenize

вопрос задан: 21 July 2014 00:23

3

ответа

Токенизатор, удаление стоп-слова, стемминг в Java

Я ищу класс или метод, который берет длинную строку многих 100 с слов и маркирует, удаляет стоп-слова и основы для использования в системе IR. Например: "Большая кошка, сказал 'Ваш...

java tokenize stemming stop-words

вопрос задан: 20 February 2013 05:07

3

ответа

Парсинг URL представляет в виде строки в Ruby

У меня есть довольно простая строка, которую я хочу проанализировать в рубине и пытающийся найти самое изящное решение. Строка имеет формат/xyz/mov/exdaf/daeed.mov? arg1=blabla&arg2=3bla3bla, Что я хотел бы...

ruby string url uri tokenize

вопрос задан: 18 July 2012 20:45

3

ответа

Как я маркирую эту строку в Ruby?

У меня есть эта строка: % {медицинское управление санитарией "Children^10" ^5} И я хочу преобразовать его для маркирования этого в массив хешей: [{: ключевые слова => "дети": повысьте => 10}, {: ключевые слова =>"...

text-parsing tokenize parsing ruby

вопрос задан: 18 July 2012 19:29

3

ответа

Проблема с использованием getline и strtok вместе в программе

В ниже программы, я намереваюсь считать каждую строку в файле в строку, сломать строку и отобразить отдельные слова. Проблема, с которой я сталкиваюсь, программа теперь выводы только первое...

c++ string tokenize strtok

вопрос задан: 21 June 2010 02:22

3

ответа

Маркируйте проблему в Java с разделителем “.”

Я должен разделить текст с помощью разделителя ".". Например, я хочу эту строку: Вашингтоном является U.S Capital. Barack живет там. Быть сокращенным в две части: Вашингтоном является U.S Capital...

java string tokenize stringtokenizer

вопрос задан: 6 June 2010 19:28

3

ответа

Подобная Google токенизация поискового запроса и строковое разделение

Я надеюсь маркировать поисковый запрос, подобный тому, как Google делает это. Например, если у меня есть следующий поисковый запрос: быстрая "коричневая лиса" перепрыгивает через "лентяя", которого я хотел бы иметь...

c# search tokenize

вопрос задан: 10 December 2009 18:54

3

ответа

Используя повышение:: токенизатор со строковыми разделителями

Я смотрел повышение:: токенизатор, и я нашел, что документация является очень тонкой. Действительно ли возможно заставить его маркировать строку, такую как "дельфин - обезьяна - бабуин" и сделать каждое слово маркером, как...

c++ string boost tokenize

вопрос задан: 9 August 2009 20:38

3

ответа

Международный токенизатор

Я знаю, что существуют строковые токенизаторы, но есть ли "международный токенизатор"? Например, я хочу разделить строку "12 34 46" и иметь: список [0] =12 списков [1] =34 списка [2] =46, В частности, я...

c++ tokenize

вопрос задан: 17 July 2009 06:55

2

ответа

Как повысить эффективность лексинга?

При анализе большого файла объемом 3 гигабайта с помощью DCG важна эффективность. Текущая версия моего лексера в основном использует предикат or; / 2, но я прочитал, что индексация может помочь Индексирование это ...

performance prolog lexical-analysis tokenize

вопрос задан: 3 March 2019 10:05

2

ответа

Строковый токенизатор в C++, который позволяет несколько разделителей

Существует ли способ маркировать строку в C++ с несколькими разделителями? В C# я сделал бы: строка [] маркеры = "adsl, dkks; dk".Split (новый [] {"", "", ";"}, StringSplitOptions. RemoveEmpty);

c# c++ string tokenize

вопрос задан: 12 June 2018 18:48

2

ответа

Маркирование Ошибки: java.util.regex. PatternSyntaxException, повисший метасимвол '*'

Я использую разделение () для маркирования Строки, разделенной с * после этого формата: % name*lastName*ID*school*age name*lastName*ID*school*age % name*lastName*ID*school*age я читаю это из файла...

java regex split tokenize

вопрос задан: 12 October 2017 00:53

2

ответа

Как токенизировать исходный код Perl?

У меня есть несколько разумных (не обфусцированных) исходных файлов Perl, и мне нужен токенизатор, который разделит его на токены и вернет тип токена каждого из них, например, для сценария печати "Hello, World! \ n" ...

perl tokenize

вопрос задан: 19 August 2010 09:29

2

ответа

Парсинг канала разграничил строку в столбцы?

У меня есть столбец с разделенными значениями канала, такими как: '23|12.1 | 450|30|9|78|82.5|92.1|120|185|52|11' я хочу проанализировать этот столбец для заполнения таблицы 12 соответствующими столбцами: month1, month2, month3.....

oracle plsql tokenize

вопрос задан: 31 May 2010 11:11

2

ответа

Ветер, дующий на Строке

Я имею некоторое общее представление о том, как сделать эту задачу, но я не уверен, делаю ли я его правильно. Таким образом, у нас есть класс WindyString с ударом метода. После использования его: System.out.println (WindyString.blow ("...

java string split tokenize

вопрос задан: 7 March 2010 20:30

2

ответа

Маркирование и сортировка с XSLT 1.0

У меня есть разграниченная строка (разграниченный пробелами в моем примере ниже), что я должен маркировать, отсортировать и затем присоединиться назад вместе, и я должен сделать весь этот XSLT 1.0 использования. Как я сделал бы это? Я знаю меня...

xslt sorting tokenize xslt-1.0

вопрос задан: 19 June 2009 17:33

1

ответ

Хранение частот токенов в эластичном поиске вместо хранения текста

Из моего понимания прочитанных документов я понимаю, как работает эластичный поиск, так как он учитывает частоту термина * частоту обратного термина. Он преобразует текст в какой-то термин словарь частоты, который ...

python elasticsearch tokenize word-frequency

вопрос задан: 4 March 2019 12:50

1

ответ

Невозможно получить правильный результат от эластичного поиска на основе запроса и токенизации документа

Я пытаюсь реализовать поисковую систему, в которой мне нужно использовать Edge NGRAM Tokenizer. Настройки для создания индекса показаны ниже. Я использовал один и тот же токенизатор как для документов, так и для поисковых запросов. (...

elasticsearch search tokenize n-gram elasticsearch-analyzers

вопрос задан: 19 January 2019 14:46

1

ответ

почему я не могу реализовать функцию декодирования в строку?

Я исследую набор данных и повторно запускаю код моего коллеги. При токенизации текстовых данных приведенный ниже код не работает на моем macbook, однако, хорошо работает на компьютере моего коллеги. Вот код. ...

python string nltk decode tokenize

вопрос задан: 18 January 2019 14:39

1

ответ

Доступ и изменение переменных с помощью конкатенации токенов в C

Я читал о строковом преобразовании и вставке токена и пытался получить доступ к переменной, используя вставку токена и изменив ее значение. Это возможно? Предположим, что переменные a0 и a1 ...

c tokenize stringification

вопрос задан: 17 January 2019 18:32

1

ответ

Извлечение терминов: Генерация отмечает из текста

Как получить те же результаты как http://developer.yahoo.com/search/content/V1/termExtraction.html, Этот вопрос задали довольно много раз прежде. лучший подход для анализа текста в PHP? Что...

parsing tags solr tokenize

вопрос задан: 23 May 2017 11:45

1

ответ

TypeError: doc2bow ожидает массив токенов unicode на входе, а не одну строку [duplicate]

Я искал все предложения, где каждый говорит, чтобы сломать строку в токены с помощью функции split. Все, что уже сделано, но все же кажется, что у него такая же ошибка снова и снова. для r в ...

python tokenize gensim corpus

вопрос задан: 20 October 2015 06:20

1

ответ

альтернатива shlex для Java

Существует ли shlex альтернатива для Java? Я хотел бы смочь разделить разграниченные строки кавычки как оболочка, обработает их. Например, если я отправил бы: два "три четыре" и выполняют разделение, я был бы...

java bash shell tokenize

вопрос задан: 11 March 2014 23:56

1

ответ

Использование нескольких токенизаторов в Solr

Что я хочу сделать, это выполнить запрос и получить результаты обратно, которые не чувствительны к регистру и которые соответствуют частичным словам из индекса. В данный момент у меня настроена схема Solr ...

solr tokenize

вопрос задан: 9 January 2012 13:17

1

ответ

Разрыв слова на языках без пробелов между словами (например, азиат)?

Я хотел бы заставить полнотекстовый поиск MySQL работать с японским и китайским текстом, а также любым другим языком. Проблема состоит в том, что у этих языков и вероятно других обычно нет пробела...

php full-text-search tokenize cjk wordbreaker

вопрос задан: 15 October 2010 05:37

1

ответ

Парсер против лексера и XML

Я сейчас читаю об архитектуре компиляторов и парсеров и Интересно об одном ... Когда у вас есть XML, XHTML, HTML или любой другой язык на основе SGML, какова будет роль лексера здесь и что ...

xml parsing tokenize lexer dfa

вопрос задан: 2 September 2010 02:07

1

ответ

Как получить Маркер от Lucene TokenStream?

Я пытаюсь использовать Apache Lucene для маркирования, и я экранирован при процессе для получения Маркеров из TokenStream. Худшая часть - то, что я смотрю на комментарии в JavaDocs, которые обращаются к моему...

java attributes lucene token tokenize

вопрос задан: 14 April 2010 14:30