Я использовал этот код:
# Step 1 : TOKENIZE
from nltk.tokenize import *
words = word_tokenize(text)
# Step 2 : POS DISAMBIG
from nltk.tag import *
tags = pos_tag(words)
для пометки двух предложений: Джон очень милый. Джон очень милый?
Джон в первом предложении был NN, а во втором - VB! Итак, как мы можем исправить функцию pos_tag без обучения бэк-офф тегеров?
Измененный вопрос:
Я видел демонстрацию тегеров NLTK здесь http://text-processing.com/demo/tag/. Когда я попробовал вариант "English Taggers & Chunckers: Treebank" или "Brown Tagger", я получил правильные теги. Так как же использовать Brown Tagger, например, без его обучения?