Я пытался написать код для токенизации строк в python для некоторого НЛП и придумал этот код: str = ['Я Бэтмен.', 'Я любил чай.', 'Я больше никогда не пойду в этот торговый центр ! '] s = [] a = 0 ...
Я ищу четкое определение того, что "токенизатор", "синтаксический анализатор" и "лексический анализатор" и как они связаны друг с другом (например, синтаксический анализатор использует токенизатор или наоборот)? Я должен созд
Я хочу создать функцию, которая получает отдельный аргумент, который содержит путь к файлу PHP и затем анализирует данный файл и возвращает что-то вроде этого: класс NameOfTheClass функционирует Method1 (...
Поскольку польза аргумента позволяет, принимают синтаксический анализатор HTML. Я считал, что это маркирует все сначала и затем анализирует его. Что действительно маркирует средний? Делает синтаксический анализатор, читает каждый символ каждый, растя...
Я ищу класс или метод, который берет длинную строку многих 100 с слов и маркирует, удаляет стоп-слова и основы для использования в системе IR. Например: "Большая кошка, сказал 'Ваш...
У меня есть довольно простая строка, которую я хочу проанализировать в рубине и пытающийся найти самое изящное решение. Строка имеет формат/xyz/mov/exdaf/daeed.mov? arg1=blabla&arg2=3bla3bla, Что я хотел бы...
У меня есть эта строка: % {медицинское управление санитарией "Children^10" ^5} И я хочу преобразовать его для маркирования этого в массив хешей: [{: ключевые слова => "дети": повысьте => 10}, {: ключевые слова =>"...
В ниже программы, я намереваюсь считать каждую строку в файле в строку, сломать строку и отобразить отдельные слова. Проблема, с которой я сталкиваюсь, программа теперь выводы только первое...
Я должен разделить текст с помощью разделителя ".". Например, я хочу эту строку: Вашингтоном является U.S Capital. Barack живет там. Быть сокращенным в две части: Вашингтоном является U.S Capital...
Я надеюсь маркировать поисковый запрос, подобный тому, как Google делает это. Например, если у меня есть следующий поисковый запрос: быстрая "коричневая лиса" перепрыгивает через "лентяя", которого я хотел бы иметь...
Я смотрел повышение:: токенизатор, и я нашел, что документация является очень тонкой. Действительно ли возможно заставить его маркировать строку, такую как "дельфин - обезьяна - бабуин" и сделать каждое слово маркером, как...
Я знаю, что существуют строковые токенизаторы, но есть ли "международный токенизатор"? Например, я хочу разделить строку "12 34 46" и иметь: список [0] =12 списков [1] =34 списка [2] =46, В частности, я...
При анализе большого файла объемом 3 гигабайта с помощью DCG важна эффективность. Текущая версия моего лексера в основном использует предикат or; / 2, но я прочитал, что индексация может помочь Индексирование это ...
Существует ли способ маркировать строку в C++ с несколькими разделителями? В C# я сделал бы: строка [] маркеры = "adsl, dkks; dk".Split (новый [] {"", "", ";"}, StringSplitOptions. RemoveEmpty);
Я использую разделение () для маркирования Строки, разделенной с * после этого формата: % name*lastName*ID*school*age name*lastName*ID*school*age % name*lastName*ID*school*age я читаю это из файла...
У меня есть несколько разумных (не обфусцированных) исходных файлов Perl, и мне нужен токенизатор, который разделит его на токены и вернет тип токена каждого из них, например, для сценария печати "Hello, World! \ n" ...
У меня есть столбец с разделенными значениями канала, такими как: '23|12.1 | 450|30|9|78|82.5|92.1|120|185|52|11' я хочу проанализировать этот столбец для заполнения таблицы 12 соответствующими столбцами: month1, month2, month3.....
Я имею некоторое общее представление о том, как сделать эту задачу, но я не уверен, делаю ли я его правильно. Таким образом, у нас есть класс WindyString с ударом метода. После использования его: System.out.println (WindyString.blow ("...
У меня есть разграниченная строка (разграниченный пробелами в моем примере ниже), что я должен маркировать, отсортировать и затем присоединиться назад вместе, и я должен сделать весь этот XSLT 1.0 использования. Как я сделал бы это? Я знаю меня...
Из моего понимания прочитанных документов я понимаю, как работает эластичный поиск, так как он учитывает частоту термина * частоту обратного термина. Он преобразует текст в какой-то термин словарь частоты, который ...
Я пытаюсь реализовать поисковую систему, в которой мне нужно использовать Edge NGRAM Tokenizer. Настройки для создания индекса показаны ниже. Я использовал один и тот же токенизатор как для документов, так и для поисковых запросов. (...
Я исследую набор данных и повторно запускаю код моего коллеги. При токенизации текстовых данных приведенный ниже код не работает на моем macbook, однако, хорошо работает на компьютере моего коллеги. Вот код. ...
Я читал о строковом преобразовании и вставке токена и пытался получить доступ к переменной, используя вставку токена и изменив ее значение. Это возможно? Предположим, что переменные a0 и a1 ...
Как получить те же результаты как http://developer.yahoo.com/search/content/V1/termExtraction.html, Этот вопрос задали довольно много раз прежде. лучший подход для анализа текста в PHP? Что...
Я искал все предложения, где каждый говорит, чтобы сломать строку в токены с помощью функции split. Все, что уже сделано, но все же кажется, что у него такая же ошибка снова и снова. для r в ...
Существует ли shlex альтернатива для Java? Я хотел бы смочь разделить разграниченные строки кавычки как оболочка, обработает их. Например, если я отправил бы: два "три четыре" и выполняют разделение, я был бы...
Что я хочу сделать, это выполнить запрос и получить результаты обратно, которые не чувствительны к регистру и которые соответствуют частичным словам из индекса. В данный момент у меня настроена схема Solr ...
Я хотел бы заставить полнотекстовый поиск MySQL работать с японским и китайским текстом, а также любым другим языком. Проблема состоит в том, что у этих языков и вероятно других обычно нет пробела...
Я сейчас читаю об архитектуре компиляторов и парсеров и Интересно об одном ...
Когда у вас есть XML, XHTML, HTML или любой другой язык на основе SGML, какова будет роль лексера здесь и что ...
Я пытаюсь использовать Apache Lucene для маркирования, и я экранирован при процессе для получения Маркеров из TokenStream. Худшая часть - то, что я смотрю на комментарии в JavaDocs, которые обращаются к моему...