Python NLTK: Как сделать Помечать предложения с помощью упрощенного набора тегов части речи?

Глава 5 книги Python NLTK дает следующий пример тегирования слов в предложении:

>>> text = nltk.word_tokenize("And now for something completely different")
>>> nltk.pos_tag(text)
[('And', 'CC'), ('now', 'RB'), ('for', 'IN'), ('something', 'NN'), ('completely', 'RB'), ('different', 'JJ')]

nltk.pos_tag вызывает теггер по умолчанию, который использует полный набор тегов. Позже в этой главе будет представлен упрощенный набор тегов .

Как я могу пометить предложения с помощью этого упрощенного набора тегов части речи?

Также я понял теггер правильно, т.е. могу ли я изменить набор тегов, который использует теггер, как я прошу, или мне следует сопоставить теги, которые он возвращает, с упрощенным набором, или я должен создать новый теггер из нового, просто помеченного корпуса ?

25
задан Ollie Glass 26 April 2011 в 08:19
поделиться