NLTK назвала распознавание объектов на голландском языке

Я пытаюсь извлечь именованные сущности из голландского текста. Я использовал nltk -тренер для обучения таггера и чанкера на голландском корпусе conll2002. Однако метод синтаксического анализа из фрагментатора не обнаруживает никаких именованных объектов. Вот мой код:

str = 'Christiane heeft een lam.'

tagger = nltk.data.load('taggers/dutch.pickle')
chunker = nltk.data.load('chunkers/dutch.pickle')

str_tags = tagger.tag(nltk.word_tokenize(str))
print str_tags

str_chunks = chunker.parse(str_tags)
print str_chunks

И вывод этой программы:

[('Christiane', u'N'), ('heeft', u'V'), ('een', u'Art'), ('lam', u'Adj'), ('.', u'Punc')]
(S Christiane/N heeft/V een/Art lam/Adj./Punc)

Я ожидал, что Кристиана будет обнаружена как именованная сущность. Любая помощь?

8
задан user1491915 2 July 2012 в 11:54
поделиться