Фильтр шаблона POS?

Я пишу код, который повторяет набор тегов POS (сгенерированных pos_tag в NLTK) для поиска шаблонов POS. Соответствующие наборы тегов POS хранятся в списке для последующей обработки. Конечно, фильтр шаблона в стиле регулярного выражения уже существует для такой задачи, но пара начальных поисков в Google ничего мне не дала. Дэйв

РЕДАКТИРОВАТЬ: Полное решение (с использованием RegexParser и где сообщения - любая строка)

text = nltk.word_tokenize(message)
tags = nltk.pos_tag(text)
grammar = r"""
    RULE_1: {+**}
    """
chunker = nltk.RegexpParser(grammar)
chunked = chunker.parse(tags)
def filter(tree):
    return (tree.node == "RULE_1")
for s in chunked.subtrees(filter):
    print s

Проверьте http://nltk.googlecode.com/svn/trunk/doc/book/ch07.html и http://www.regular-expressions.info/reference.html для получения дополнительной информации о создании правил.

5
задан Trindaz 12 April 2011 в 01:49
поделиться