3
ответа

Есть ли лучший способ токенизировать некоторые строки?

Я пытался написать код для токенизации строк в python для некоторого НЛП и придумал этот код: str = ['Я Бэтмен.', 'Я любил чай.', 'Я больше никогда не пойду в этот торговый центр ! '] s = [] a = 0 ...
вопрос задан: 15 January 2019 15:34
3
ответа

Ища четкое определение того, что “токенизатор”, “синтаксический анализатор” и “лексические анализаторы” и как они связываются друг с другом и используются?

Я ищу четкое определение того, что "токенизатор", "синтаксический анализатор" и "лексический анализатор" и как они связаны друг с другом (например, синтаксический анализатор использует токенизатор или наоборот)? Я должен созд
вопрос задан: 28 March 2018 22:30
3
ответа

Парсинг классов, функций и аргументов в PHP

Я хочу создать функцию, которая получает отдельный аргумент, который содержит путь к файлу PHP и затем анализирует данный файл и возвращает что-то вроде этого: класс NameOfTheClass функционирует Method1 (...
вопрос задан: 24 July 2015 03:00
3
ответа

Как делает синтаксический анализатор (например, HTML) работа?

Поскольку польза аргумента позволяет, принимают синтаксический анализатор HTML. Я считал, что это маркирует все сначала и затем анализирует его. Что действительно маркирует средний? Делает синтаксический анализатор, читает каждый символ каждый, растя...
вопрос задан: 21 July 2014 00:23
3
ответа

Токенизатор, удаление стоп-слова, стемминг в Java

Я ищу класс или метод, который берет длинную строку многих 100 с слов и маркирует, удаляет стоп-слова и основы для использования в системе IR. Например: "Большая кошка, сказал 'Ваш...
вопрос задан: 20 February 2013 05:07
3
ответа

Парсинг URL представляет в виде строки в Ruby

У меня есть довольно простая строка, которую я хочу проанализировать в рубине и пытающийся найти самое изящное решение. Строка имеет формат/xyz/mov/exdaf/daeed.mov? arg1=blabla&arg2=3bla3bla, Что я хотел бы...
вопрос задан: 18 July 2012 20:45
3
ответа

Как я маркирую эту строку в Ruby?

У меня есть эта строка: % {медицинское управление санитарией "Children^10" ^5} И я хочу преобразовать его для маркирования этого в массив хешей: [{: ключевые слова => "дети": повысьте => 10}, {: ключевые слова =>"...
вопрос задан: 18 July 2012 19:29
3
ответа

Проблема с использованием getline и strtok вместе в программе

В ниже программы, я намереваюсь считать каждую строку в файле в строку, сломать строку и отобразить отдельные слова. Проблема, с которой я сталкиваюсь, программа теперь выводы только первое...
вопрос задан: 21 June 2010 02:22
3
ответа

Маркируйте проблему в Java с разделителем “.”

Я должен разделить текст с помощью разделителя ".". Например, я хочу эту строку: Вашингтоном является U.S Capital. Barack живет там. Быть сокращенным в две части: Вашингтоном является U.S Capital...
вопрос задан: 6 June 2010 19:28
3
ответа

Подобная Google токенизация поискового запроса и строковое разделение

Я надеюсь маркировать поисковый запрос, подобный тому, как Google делает это. Например, если у меня есть следующий поисковый запрос: быстрая "коричневая лиса" перепрыгивает через "лентяя", которого я хотел бы иметь...
вопрос задан: 10 December 2009 18:54
3
ответа

Используя повышение:: токенизатор со строковыми разделителями

Я смотрел повышение:: токенизатор, и я нашел, что документация является очень тонкой. Действительно ли возможно заставить его маркировать строку, такую как "дельфин - обезьяна - бабуин" и сделать каждое слово маркером, как...
вопрос задан: 9 August 2009 20:38
3
ответа

Международный токенизатор

Я знаю, что существуют строковые токенизаторы, но есть ли "международный токенизатор"? Например, я хочу разделить строку "12 34 46" и иметь: список [0] =12 списков [1] =34 списка [2] =46, В частности, я...
вопрос задан: 17 July 2009 06:55
2
ответа

Как повысить эффективность лексинга?

При анализе большого файла объемом 3 гигабайта с помощью DCG важна эффективность. Текущая версия моего лексера в основном использует предикат or; / 2, но я прочитал, что индексация может помочь Индексирование это ...
вопрос задан: 3 March 2019 10:05
2
ответа

Строковый токенизатор в C++, который позволяет несколько разделителей

Существует ли способ маркировать строку в C++ с несколькими разделителями? В C# я сделал бы: строка [] маркеры = "adsl, dkks; dk".Split (новый [] {"", "", ";"}, StringSplitOptions. RemoveEmpty);
вопрос задан: 12 June 2018 18:48
2
ответа

Маркирование Ошибки: java.util.regex. PatternSyntaxException, повисший метасимвол '*'

Я использую разделение () для маркирования Строки, разделенной с * после этого формата: % name*lastName*ID*school*age name*lastName*ID*school*age % name*lastName*ID*school*age я читаю это из файла...
вопрос задан: 12 October 2017 00:53
2
ответа

Как токенизировать исходный код Perl?

У меня есть несколько разумных (не обфусцированных) исходных файлов Perl, и мне нужен токенизатор, который разделит его на токены и вернет тип токена каждого из них, например, для сценария печати "Hello, World! \ n" ...
вопрос задан: 19 August 2010 09:29
2
ответа

Парсинг канала разграничил строку в столбцы?

У меня есть столбец с разделенными значениями канала, такими как: '23|12.1 | 450|30|9|78|82.5|92.1|120|185|52|11' я хочу проанализировать этот столбец для заполнения таблицы 12 соответствующими столбцами: month1, month2, month3.....
вопрос задан: 31 May 2010 11:11
2
ответа

Ветер, дующий на Строке

Я имею некоторое общее представление о том, как сделать эту задачу, но я не уверен, делаю ли я его правильно. Таким образом, у нас есть класс WindyString с ударом метода. После использования его: System.out.println (WindyString.blow ("...
вопрос задан: 7 March 2010 20:30
2
ответа

Маркирование и сортировка с XSLT 1.0

У меня есть разграниченная строка (разграниченный пробелами в моем примере ниже), что я должен маркировать, отсортировать и затем присоединиться назад вместе, и я должен сделать весь этот XSLT 1.0 использования. Как я сделал бы это? Я знаю меня...
вопрос задан: 19 June 2009 17:33
1
ответ

Хранение частот токенов в эластичном поиске вместо хранения текста

Из моего понимания прочитанных документов я понимаю, как работает эластичный поиск, так как он учитывает частоту термина * частоту обратного термина. Он преобразует текст в какой-то термин словарь частоты, который ...
вопрос задан: 4 March 2019 12:50
1
ответ

Невозможно получить правильный результат от эластичного поиска на основе запроса и токенизации документа

Я пытаюсь реализовать поисковую систему, в которой мне нужно использовать Edge NGRAM Tokenizer. Настройки для создания индекса показаны ниже. Я использовал один и тот же токенизатор как для документов, так и для поисковых запросов. (...
вопрос задан: 19 January 2019 14:46
1
ответ

почему я не могу реализовать функцию декодирования в строку?

Я исследую набор данных и повторно запускаю код моего коллеги. При токенизации текстовых данных приведенный ниже код не работает на моем macbook, однако, хорошо работает на компьютере моего коллеги. Вот код. ...
вопрос задан: 18 January 2019 14:39
1
ответ

Доступ и изменение переменных с помощью конкатенации токенов в C

Я читал о строковом преобразовании и вставке токена и пытался получить доступ к переменной, используя вставку токена и изменив ее значение. Это возможно? Предположим, что переменные a0 и a1 ...
вопрос задан: 17 January 2019 18:32
1
ответ

Извлечение терминов: Генерация отмечает из текста

Как получить те же результаты как http://developer.yahoo.com/search/content/V1/termExtraction.html, Этот вопрос задали довольно много раз прежде. лучший подход для анализа текста в PHP? Что...
вопрос задан: 23 May 2017 11:45
1
ответ

TypeError: doc2bow ожидает массив токенов unicode на входе, а не одну строку [duplicate]

Я искал все предложения, где каждый говорит, чтобы сломать строку в токены с помощью функции split. Все, что уже сделано, но все же кажется, что у него такая же ошибка снова и снова. для r в ...
вопрос задан: 20 October 2015 06:20
1
ответ

альтернатива shlex для Java

Существует ли shlex альтернатива для Java? Я хотел бы смочь разделить разграниченные строки кавычки как оболочка, обработает их. Например, если я отправил бы: два "три четыре" и выполняют разделение, я был бы...
вопрос задан: 11 March 2014 23:56
1
ответ

Использование нескольких токенизаторов в Solr

Что я хочу сделать, это выполнить запрос и получить результаты обратно, которые не чувствительны к регистру и которые соответствуют частичным словам из индекса. В данный момент у меня настроена схема Solr ...
вопрос задан: 9 January 2012 13:17
1
ответ

Разрыв слова на языках без пробелов между словами (например, азиат)?

Я хотел бы заставить полнотекстовый поиск MySQL работать с японским и китайским текстом, а также любым другим языком. Проблема состоит в том, что у этих языков и вероятно других обычно нет пробела...
вопрос задан: 15 October 2010 05:37
1
ответ

Парсер против лексера и XML

Я сейчас читаю об архитектуре компиляторов и парсеров и Интересно об одном ... Когда у вас есть XML, XHTML, HTML или любой другой язык на основе SGML, какова будет роль лексера здесь и что ...
вопрос задан: 2 September 2010 02:07
1
ответ

Как получить Маркер от Lucene TokenStream?

Я пытаюсь использовать Apache Lucene для маркирования, и я экранирован при процессе для получения Маркеров из TokenStream. Худшая часть - то, что я смотрю на комментарии в JavaDocs, которые обращаются к моему...
вопрос задан: 14 April 2010 14:30