Пытаетесь использовать MEGAM в качестве NLTK ClassifierBasedPOSTagger?

В настоящее время я пытаюсь создать универсальный (или настолько общий, насколько это практично) POS tagger с NLTK. Я баловался коричневым корпусом и корпусом берега деревьев для обучения, но, вероятно, остановлюсь на корпусе банка деревьев.

Изучая по ходу дела, я обнаружил, что тегеры POS классификатора являются наиболее точными. Классификатор Maximum Entity должен быть наиболее точным, но я считаю, что он использует так много памяти (и времени обработки), что мне приходится значительно сокращать обучающий набор данных, поэтому конечный результат будет менее точным, чем использование классификатора Naive Bayes по умолчанию.

Мне предложили использовать MEGAM. NLTK имеет некоторую поддержку MEGAM, но все примеры, которые я нашел, предназначены для общих классификаторов (например. текстовый классификатор, который использует вектор словесных характеристик), а не более конкретный теггер POS. Как я могу использовать классификатор MEGAM MaxEnt без необходимости воссоздавать свой собственный экстрактор и компилятор POS-функций (т.е. я предпочитаю использовать тот, который уже есть в NLTK)? Т.е. как я могу добавить его в существующий код MaxEnt, который выглядит примерно так:

maxent_tagger = ClassifierBasedPOSTagger(train=training_sentences,
                                        classifier_builder=MaxentClassifier.train )
5
задан winwaed 17 December 2010 в 02:29
поделиться