как я создаю свой собственный тренировочный корпус для стэнфордского теггера?

Я должен проанализировать неофициальный английский текст с большим количеством стенографий и локального малопонятного жаргона. Следовательно я думал о создании модели для стэнфордского теггера.

Как я создаю свой собственный набор маркированного корпуса для стэнфордского теггера для обучения на?

Каков синтаксис корпуса и сколько времени мой корпус должен быть в порядке для достижения желательной производительности?

15
задан goh 1 July 2010 в 08:49
поделиться

2 ответа

Для обучения PoS tagger см. это сообщение списка рассылки , которое также включено в JavaDocs для класса MaxentTagger.

Документация javadocs для класса edu.stanford.nlp.tagger.maxent.Train определяет формат обучения:

Учебный файл должен находиться в следующий формат: одно слово и один тег на строку, разделенную пробелом или таб. Каждое предложение должно заканчиваться на Пара слово-тег EOS.(На самом деле я не совершенно уверен, что это все еще так, но, наверное, не повредит. -wmorgan)

8
ответ дан 1 December 2019 в 04:17
поделиться

Для Стэнфордского синтаксического анализатора вы используете формат Penn treebank и см. Часто задаваемые вопросы Стэнфорда о точных командах, которые следует использовать.Документы JavaDocs для класса LexicalizedParser также содержат соответствующие команды, в частности:

java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] \
   -train trainFilesPath fileRange
   -saveToSerializedFile serializedGrammarFilename
1
ответ дан 1 December 2019 в 04:17
поделиться
Другие вопросы по тегам:

Похожие вопросы: