Регулярное выражение для токенизации английского текста

Какое регулярное выражение было бы лучшим для токенизации английского текста?

Под английским токеном , Я имею в виду атом, состоящий из максимального количества символов, которые могут быть осмысленно использованы для целей НЛП. Аналогия - это «токен» в любом языке программирования (например, в C, '{', '[', 'hello', '&' и т. Д. Могут быть токенами). Есть одно ограничение: хотя английские знаки препинания могут быть «значащими», давайте для простоты проигнорируем их, если они не появляются в середине \ w +. Итак, «Привет, мир». дает "привет" и "мир"; аналогично: «Вы красивы». может дать либо [вы, есть, красивая], либо [вы, хорошая, красивая].

8
задан Costique 4 May 2012 в 17:54
поделиться