Я пытаюсь разобрать строки utf-8 на сегменты "размера укуса". Например, я хотел бы разбить текст на «предложения».
Существует ли полный набор символов (или регулярных выражений), соответствующих концу предложений во всех языках? Я ищу что-то, что зафиксировало бы латинскую точку, восклицательный и вопросительный знаки, китайскую и японскую точку и т. д.
Что-то вроде приведенного выше, но для эквивалента запятой тоже было бы здорово.