0
ответов

Токенизация большого (>70MB) TXT-файла с помощью Python NLTK. Конкатенация и запись данных в поток ошибок

Прежде всего, я новичок в python/nltk, поэтому приношу свои извинения, если вопрос слишком прост. У меня есть большой файл, который я пытаюсь токенизировать; Я получаю ошибки памяти. Одно из решений, о котором я читал, - это прочитать ...
вопрос задан: 24 March 2012 19:11
0
ответов

Токенизация юникода с использованием nltk

У меня есть текстовые файлы, которые используют кодировку utf-8 и содержат символы вроде 'ö' , 'ü' и т. д. Я хотел бы проанализировать текст из этих файлов, но мне не удается заставить токенизатор работать должным образом. Если я использую стандартные ..
вопрос задан: 10 February 2012 13:33
0
ответов

Как остановить результат в solr, если фраза содержит стоп-слово?

У меня проблема при поиске с помощью Solr фразы, в которой есть стоп-слова. Solr отправляет результат со стоп-словом, и это не мой ожидаемый результат. Я добавил слово "test" в файл stopwords.txt. В schema.xml ...
вопрос задан: 30 November 2011 09:04
0
ответов

Solr: запрос точной фразы с EdgeNGramFilterFactory

Можно ли в Solr (3.3) сделать поле с возможностью побуквенного поиска через EdgeNGramFilterFactory, а также чувствительным к запросам фраз? Например, я ищу поле, которое, если ...
вопрос задан: 1 October 2011 07:50
0
ответов

Иерархия классов токенов и проверка их типа в анализаторе

Я пытаюсь написать многоразовую библиотеку синтаксического анализа (для развлечения). Я написал класс Lexer, который генерирует последовательность токенов. Токен - это базовый класс для иерархии подклассов, каждый из которых представляет ...
вопрос задан: 9 September 2011 21:27
0
ответов

Создан ли SQLite для Android с включенным токенизатором ICU для FTS?

Как сказано в заголовке: можем ли мы использовать ... ИСПОЛЬЗУЯ fts3 (tokenizer icu th_TH, ...). Если мы можем, знает ли кто-нибудь, какие языковые стандарты поддерживаются, и зависит ли они от версии платформы?
вопрос задан: 15 August 2011 20:09
0
ответов

Как использовать анализатор Lucene для токенизации строки?

Есть ли простой способ использовать любой подкласс анализатора Lucene для синтаксического анализа / токенизации строки? Что-то вроде: String to_be_parsed = "окно машины семь"; Analyzer analyzer = новый StandardAnalyzer (...) ...
вопрос задан: 13 June 2011 18:43
0
ответов

Это работа Лексера по паритету se Числа и строки?

Разбирать числа и строки - это задача лексера? Это может показаться глупым, а может и нет, учитывая тот факт, что я спрашиваю, должен ли лексер анализировать ввод. Однако я не уверен, действительно ли это ...
вопрос задан: 12 June 2011 04:33
0
ответов

PHP, Tokenizer, найдите все аргументы функции

Помогите мне найти все аргументы функции "funcname", используя функцию token_get_all () в исходном коде. Звучит просто, но есть много специальных опций, таких как массивы в качестве параметров или ...
вопрос задан: 6 June 2011 08:08
0
ответов

Как изменить URL-адрес места GWT с «:» по умолчанию на «/»?

По умолчанию URL-адрес места GWT состоит из простого имени класса места (например, " HelloPlace "), за которым следует двоеточие (:) и токен, возвращаемый PlaceTokenizer. У меня вопрос: как изменить ":" на ...
вопрос задан: 4 June 2011 22:09
0
ответов

Удаление / отображение пространства имен PHP и перезапись идентификаторов

Я пытаюсь автоматизировать удаление пространства имен из коллекции классов PHP, чтобы сделать их совместимыми с PHP 5.2. (Провайдеры общего хостинга не любят мошенническую установку PHP 5.3. Не знаю почему. Также ...
вопрос задан: 2 June 2011 14:50
0
ответов

Каковы практические применения PHP-токенизатора?

Каковы практические и повседневные примеры использования PHP-токенизатора? Кто-нибудь использовал это?
вопрос задан: 20 April 2011 09:10
0
ответов

Обновление поля DateTime в базе данных SQL Server из полей даты и времени

В базе данных SQL Server 2008 I есть таблица с полем Date для типа данных date и полем Time для типа данных time. В таблице есть некоторые данные. Затем я добавил поле DateTime типа данных datetime и ...
вопрос задан: 19 April 2011 08:58
0
ответов

Какие конструкции Javascript неправильно лексирует JsLex?

JsLex - это лексер Javascript, который я написал на Python. Он хорошо справляется с дневной работой (или около того), но я уверен, что в некоторых случаях он ошибается. В частности, он ничего не понимает в ...
вопрос задан: 4 April 2011 03:06
0
ответов

Python: Токенизация с помощью фраз

У меня есть блоки текста, которые я хочу токенизировать, но Я не хочу использовать пробелы и знаки препинания для токенизации, что, по-видимому, является стандартом для таких инструментов, как NLTK. Есть определенные фразы, которыми я хочу быть ...
вопрос задан: 3 April 2011 20:56
0
ответов

Рекурсивный анализатор спуска для чего-то простого?

Я пишу синтаксический анализатор для языка шаблонов, который компилируется в JS (если это актуально). Я начал с нескольких простых регулярных выражений, который, казалось, работает, но регулярные выражения очень хрупкие, поэтому я решил ...
вопрос задан: 3 April 2011 19:35
0
ответов

Какой инструмент с открытым исходным кодом является наиболее точным для разделения предложений? [closed]

Мне нужно разбить текст на предложения. В настоящее время я играю с инструментом обнаружения предложений OpenNLP. Я также слышал об инструментах NLTK и Stanford CoreNLP. Какое наиболее точное английское предложение ...
вопрос задан: 14 March 2011 16:48
0
ответов

Стандартный анализатор Lucene с разделением по периоду

Как заставить стандартный анализатор Lucene токенизироваться на '.' char? Например, при запросе «B» мне нужно, чтобы он возвращал B в «ABC» в качестве результата. Мне нужно относиться к числам так же, как и к стандартным ...
вопрос задан: 14 March 2011 12:37
0
ответов

Генерация PHP-кода (из токенов парсера)

Есть ли какое-либо доступное решение для (повторной) генерации PHP-кода из токенов парсера, возвращаемых token_get_all? Также приветствуются другие решения для генерации PHP-кода, предпочтительно с ...
вопрос задан: 21 February 2011 16:11
0
ответов

что означает «регулярный» в регулярном выражении / «регулярное выражение»?

Что означает «регулярный» во фразе «регулярное выражение»? Я слышал, что регулярные выражения когда-то были регулярными, но не более
вопрос задан: 26 January 2011 14:47
0
ответов

Конфликт деления / регулярного выражения при токенизации Javascript [дубликат]

Я пишу простой токенизатор javascript, который определяет основные типы: Word, Number, String, RegExp, Operator, Comment и Newline. Все идет хорошо, но я не могу понять, как определить, есть ли ...
вопрос задан: 18 January 2011 16:14
0
ответов

Проблема с вложенной функцией strtok в C [дубликат]

У меня есть такая строка: a; b; c; d; е f; g; h; i; j 1; 2; 3; 4; 5, и я хочу проанализировать его элемент за элементом. Я использовал вложенную функцию strtok, но она просто разделяет первую строку и обнуляет указатель токена. Как ...
вопрос задан: 14 January 2011 17:20
0
ответов

Индексирование и запрос URL-адресов в Solr

У меня есть база данных URL-адресов, которые я хотел бы поиск. Поскольку URL-адреса не всегда записываются одинаково (могут иметь или не иметь www), я ищу правильный способ индексирования и запроса URL-адресов. Я пробовал ...
вопрос задан: 13 January 2011 18:59
0
ответов

Замена всех токенов, основанных на файле свойств, на ANT

Я почти уверен, что это простой вопрос, на который нужно ответить, и я видел, как он задавался раньше, просто не было твердых ответов. У меня есть несколько файлов свойств, которые используются для разных сред, например xxxx-dev, xxxx -...
вопрос задан: 22 December 2010 10:16
0
ответов

Построчно вводить из входного файла и токенизировать с помощью strtok (), а вывод - в выходной файл

Я пытаюсь ввести файл ПО СТРОКЕ и разметить и вывести в выходной файл. Что я смог сделать, так это ввести первую строку в файл, но моя проблема в том, что я не могу ...
вопрос задан: 1 December 2010 21:17
0
ответов

Как разбить буквы слова на массив в C #?

Как разбить строку на массив символов в C #? Пример Используемое строковое слово - «робот». Программа должна распечатать: r о б о t Исходный фрагмент кода: using System; using System ....
вопрос задан: 22 November 2010 15:53
0
ответов

Преобразовать строку, разделенную запятыми, в массив в PL / SQL

Как преобразовать строку, разделенную запятыми, в массив? У меня есть вход '1,2,3', и мне нужно преобразовать его в массив.
вопрос задан: 4 October 2010 11:39
0
ответов

sqlite-fts3: пользовательский токенизатор?

Есть ли у кого-нибудь здесь опыт написания пользовательских токенизаторов FTS3 (расширение полнотекстового поиска)? Я ищу токенизатор, который игнорирует HTML-теги. Спасибо.
вопрос задан: 7 September 2010 10:52
0
ответов

Осведомленная о синтаксисе замена подстроки

У меня есть строка, содержащая допустимую форму Clojure. Я хочу заменить часть его, точно так же, как с помощником - в, но обработка целой строки как маркеры. => (помощник - в [: [: b: c]] [1 0]: новый) [: [:...
вопрос задан: 12 August 2010 22:18
0
ответов

Как делают меня анализирующий сложный формат файла в Delphi? (Не CSV, XML, и т.д.)

Это были несколько лет, с тех пор как я должен был проанализировать любые файлы, которые были более твердыми, чем CSV или XML, таким образом, я вне практики. Мне дали задачу парсинга формата файла под названием Nexus в Delphi...
вопрос задан: 20 July 2010 21:43