pos_tag в NLTK не помечает предложения правильно

Я использовал этот код:

# Step 1 : TOKENIZE
from nltk.tokenize import *
words = word_tokenize(text)

# Step 2 : POS DISAMBIG
from nltk.tag import *
tags = pos_tag(words)

для пометки двух предложений: Джон очень милый. Джон очень милый?

Джон в первом предложении был NN, а во втором - VB! Итак, как мы можем исправить функцию pos_tag без обучения бэк-офф тегеров?

Измененный вопрос:

Я видел демонстрацию тегеров NLTK здесь http://text-processing.com/demo/tag/. Когда я попробовал вариант "English Taggers & Chunckers: Treebank" или "Brown Tagger", я получил правильные теги. Так как же использовать Brown Tagger, например, без его обучения?

5
задан user842457 3 December 2011 в 23:13
поделиться