Я пытаюсь разбить строки на списки «тегов» в python. При разделении следует обрабатывать такие строки, как «HappyBirthday», и удалять большую часть знаков препинания, но сохранять дефисы и апострофы. Моя отправная точка:
tags = re.findall("([A-Z]{2,}(?=[A-Z]|$)|[A-Z][a-z]*)|\w+-\w+|[\w']+"
Я бы хотел превратить эти образцы данных:
Jeff's dog is un-American SomeTimes! BUT NOTAlways
в:
['Jeff's', 'dog', 'is', 'un-American', 'Some', 'Times', 'BUT', 'NOT', 'Always']
P.S. Мне очень жаль, что мое описание не очень хорошее. Я не уверен, как это объяснить, и в основном безуспешно работал с Google. Я надеюсь, что пример это правильно иллюстрирует.
Изменить: я думаю, что мне нужно было уточнить, поэтому также,