Основанная на преобразовании частеречная разметка (метки камбалы-ромба)

Каковы слабые места и преимущества морфологического анализатора Брилла? Можно ли предложить некоторые возможные улучшения для теггера?

5
задан user239135 26 February 2010 в 13:30
поделиться

1 ответ

Самым большим недостатком устройства тегов Brill является время, необходимое для фазы обучения (посмотрите на временные метки для ACOPOST здесь или попробуйте реализовать их с помощью NLTK чтобы получить представление). Помните, что вы всегда должны рассматривать устройство тегов Brill как последнее средство тегирования, которое будет использоваться в последовательности систем тегов (для простых тегов я обычно использую и обучаю теггер Brill на выходе устройства тегирования HMM). Помимо того, что этап обучения еще больше удлиняется, использование самого тега Brill обычно приводит к очень большому, обычно перекрывающемуся, а иногда и «неправильному» набору правил (т. Е. Правил, которые в «истинных» контекстах тегов нарушают работу многих правильных тегов).

Самая большая сила теггера Brill заключается в том, что его модель имеет смысл, в частности, когда вы храните правила в удобочитаемом формате, как это обычно делается. Ручная проверка модели статистического теггера утомительна, подвержена ошибкам и не очень полезна, в то время как набор правил преобразования можно не только понять и настроить вручную, но это могут сделать даже люди, не имеющие предыдущего опыта в НЛП ( Фактически, я это сделал много лет назад, когда некоторые студенты языковой программы оценивали правила, составленные на корпусе Brazilian Portugues). Фактически, вы даже можете написать свод правил самостоятельно.

Короче говоря, хотя теггер Brill полезен в качестве последнего шага в надежной системе каскадных тегеров, в целом это не лучшая альтернатива для использования отдельно (если вы хотите использовать один теггер, я бы посоветовал пойти с HMM).Мое предложение состоит в том, чтобы обучить и использовать теггер Brill для помеченного вывода другого теггера, предпочтительно комбинированной системы, такой как голосование (то есть, когда вы устанавливаете три или четыре разных теггера, используйте систему голосования, чтобы выбрать лучший тег для каждого токена. и только затем передайте эти результаты в теггер Brill, который, мы надеемся, исправит наиболее распространенные ошибки предыдущей системы).

7
ответ дан 14 December 2019 в 04:36
поделиться
Другие вопросы по тегам:

Похожие вопросы: