В зависимости от того, что вы планируете делать с вашим предложением как список, вы можете посмотреть Natural Language Took Kit . Он в значительной степени занимается обработкой и оценкой текста. Вы также можете использовать его для решения своей проблемы:
import nltk
words = nltk.word_tokenize(raw_sentence)
Это имеет дополнительное преимущество в разделении пунктуации.
Пример:
>>> import nltk
>>> s = "The fox's foot grazed the sleeping dog, waking it."
>>> words = nltk.word_tokenize(s)
>>> words
['The', 'fox', "'s", 'foot', 'grazed', 'the', 'sleeping', 'dog', ',',
'waking', 'it', '.']
Это позволяет отфильтровать любую пунктуацию, которую вы не хотите, и использовать только слова.
Обратите внимание, что другие решения, использующие string.split()
, лучше, если вы не планируете делать какие-либо сложные манипуляции с рассылкой.