Неструктурированный текст к структурированным данным

Я ищу ссылки (учебные руководства, книги, академическая литература) относительно структурирования неструктурированного текста способом, подобным быстрому Google Календарю, добавляют кнопку.

Я понимаю, что это может прибыть под категорией обработки естественного языка, но я интересуюсь только процессом движения от чего-то как "размер джинсов Levi 32 A0b293"

кому: Бренд: Levi, Размер: 32, Категория: Джинсы, код: A0b293

Я предполагаю, что это была бы некоторая комбинация лексических методов парсинга и машинного обучения.

Я - скорее агностик языка, но, если продвинуто предпочел бы Python, Matlab или ссылки C++

Спасибо

8
задан Paused until further notice. 17 July 2010 в 02:37
поделиться

4 ответа

Вам необходимо предоставить дополнительную информацию информация об источнике текста (Интернет? пользовательский ввод?), предметная область (это просто одежда?), возможное форматирование и словарный запас ...

Предполагая худший сценарий, вам нужно начать изучать НЛП. Очень хорошая бесплатная книга - это документация NLTK: http://www.nltk.org/book . Это также очень хорошее введение в Python, а ПО предоставляется бесплатно (для различных целей). Имейте в виду: НЛП - это сложно. Не всегда получается. Иногда это не весело. Современное состояние находится далеко не там, где вы его себе представляете.

Предполагая лучший сценарий (ваш текст частично структурирован) - хорошим бесплатным инструментом является pyparsing . Есть книга, множество примеров, и полученный код чрезвычайно привлекателен.

Надеюсь, это поможет ...

7
ответ дан 5 December 2019 в 18:56
поделиться

После некоторого исследования я обнаружил, что эту проблему обычно называют Извлечение информации , и собрал несколько статей и сохранил их в Коллекции Менделей

http://www.mendeley.com / research-paper / collections / 3237331 / Information-Extraction /

Также, как отметил Тай Вайс, NLTK для python является хорошей отправной точкой, и эта глава книги посвящена конкретно извлечению информации

1
ответ дан 5 December 2019 в 18:56
поделиться

Если вы работаете только над случаями, подобными приведенному вами примеру, вам лучше использовать некоторые ручные правила, основанные на 100% предсказуемости и покрывающие 90% случаев, в которых может возникнуть производственная среда.

Вы можете перечислить списки всех возможных брендов и категорий и определение того, что есть что во входной строке, потому что эти два списка обычно очень мало пересекаются.

Два других можно легко обнаружить и извлечь с помощью регулярных выражений. (1-3-значные числа всегда имеют размер и т. Д.)

Ваша проблемная область не кажется достаточно большой, чтобы оправдать более тяжелый подход, такой как статистическое обучение.

0
ответ дан 5 December 2019 в 18:56
поделиться

Возможно, посмотрите "Коллективный разум" Тоби Сегарана. Я, кажется, помню, что рассматривал основы этого в одной главе.

1
ответ дан 5 December 2019 в 18:56
поделиться
Другие вопросы по тегам:

Похожие вопросы: