Я размечаю текст с помощью nltk, просто предложения загружаются в токенизатор wordpunct _. Это разделяет сокращения (, т.е. 'не' на 'дон' +" ' "+'т' ), но я хочу сохранить их как одно слово. Я совершенствую свои методы для более взвешенной и точной токенизации текста, поэтому мне нужно глубже изучить модуль токенизации nltk, помимо простой токенизации.
Я предполагаю, что это распространено, и я хотел бы получить отзывы от других, которым, возможно, приходилось сталкиваться с конкретной проблемой раньше.
редактировать:
Да, это общий вопрос, который я знаю
Кроме того, как новичок в НЛП, нужно ли мне вообще беспокоиться о схватках?
РЕДАКТИРОВАТЬ:
SExprTokenizer или TreeBankWordTokenizer, кажется, делают то, что я сейчас ищу.