Разделение строки, содержащей буквы и цифры, не разделенные каким-либо конкретным разделителем в PHP

В настоящее время я разрабатываю веб-приложение для получения потока Twitter и пытаюсь создать обработку естественного языка самостоятельно.

Поскольку мои данные взяты из Twitter (ограничены 140 символами )многие слова сокращены, или в данном случае пропущен пробел .

Например,:

"Hi, my name is Bob. I m 19yo and 170cm tall"

следует заменить на :

- hi
- my
- name
- bob
- i
- 19
- yo
- 170
- cm
- tall

. Обратите внимание, что между 19и yoв 19yoнет пробела . Я использую его в основном для извлечения чисел с их единицами измерения.

Просто мне нужен способ «взорвать» каждую лексему, в которой есть число, на фрагмент цифр или букв без разделителя .

'123abc'будет['123', 'abc']

'abc123'будет['abc', '123']

'abc123xyz'будет['abc', '123', 'xyz']

и так далее.

Как лучше всего реализовать это в PHP?


Я нашел что-то близкое к этому, но это C #и специально для разделения дня/месяца. Как разбить строку в C #на основе букв и цифр

5
задан Community 23 May 2017 в 12:30
поделиться