Распознавание именованных объектов NLTK с пользовательскими данными

Я пытаюсь извлечь именованные объекты из своего текста, используя NLTK. Я считаю, что NLTK NER не очень точен для моей цели, и я также хочу добавить еще несколько собственных тегов. Я пытался найти способ тренировать свой собственный NER, но, похоже, мне не удалось найти подходящие ресурсы. У меня есть пара вопросов по NLTK-

  1. Могу ли я использовать свои собственные данные для обучения распознавателя именованных сущностей в NLTK?
  2. Если я могу тренироваться, используя свои собственные данные, нужно ли изменить файл с именем _entity.py?
  3. Должен ли формат входного файла быть в IOB, например. Эрик NNP B -ЧЕЛОВЕК ?
  4. Существуют ли какие-либо ресурсы -, кроме поваренной книги nltk и nlp с python, которые я могу использовать?

Я был бы очень признателен за помощь в этом отношении

47
задан user1502248 4 July 2012 в 18:24
поделиться