Я должен проанализировать неофициальный английский текст с большим количеством стенографий и локального малопонятного жаргона. Следовательно я думал о создании модели для стэнфордского теггера.
Как я создаю свой собственный набор маркированного корпуса для стэнфордского теггера для обучения на?
Каков синтаксис корпуса и сколько времени мой корпус должен быть в порядке для достижения желательной производительности?
Для обучения PoS tagger см. это сообщение списка рассылки , которое также включено в JavaDocs для класса MaxentTagger.
Документация javadocs для класса edu.stanford.nlp.tagger.maxent.Train определяет формат обучения:
Учебный файл должен находиться в следующий формат: одно слово и один тег на строку, разделенную пробелом или таб. Каждое предложение должно заканчиваться на Пара слово-тег EOS.(На самом деле я не совершенно уверен, что это все еще так, но, наверное, не повредит. -wmorgan)
Для Стэнфордского синтаксического анализатора вы используете формат Penn treebank и см. Часто задаваемые вопросы Стэнфорда о точных командах, которые следует использовать.Документы JavaDocs для класса LexicalizedParser также содержат соответствующие команды, в частности:
java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] \
-train trainFilesPath fileRange
-saveToSerializedFile serializedGrammarFilename