nltk токенизация и сокращения

Я размечаю текст с помощью nltk, просто предложения загружаются в токенизатор wordpunct _. Это разделяет сокращения (, т.е. 'не' на 'дон' +" ' "+'т' ), но я хочу сохранить их как одно слово. Я совершенствую свои методы для более взвешенной и точной токенизации текста, поэтому мне нужно глубже изучить модуль токенизации nltk, помимо простой токенизации.

Я предполагаю, что это распространено, и я хотел бы получить отзывы от других, которым, возможно, приходилось сталкиваться с конкретной проблемой раньше.

редактировать:

Да, это общий вопрос, который я знаю

Кроме того, как новичок в НЛП, нужно ли мне вообще беспокоиться о схватках?

РЕДАКТИРОВАТЬ:

SExprTokenizer или TreeBankWordTokenizer, кажется, делают то, что я сейчас ищу.

12
задан blueblank 31 August 2012 в 11:15
поделиться