В настоящее время я разрабатываю веб-приложение для получения потока Twitter и пытаюсь создать обработку естественного языка самостоятельно.
Поскольку мои данные взяты из Twitter (ограничены 140 символами )многие слова сокращены, или в данном случае пропущен пробел .
Например,:
"Hi, my name is Bob. I m 19yo and 170cm tall"
следует заменить на :
- hi
- my
- name
- bob
- i
- 19
- yo
- 170
- cm
- tall
. Обратите внимание, что между 19
и yo
в 19yo
нет пробела . Я использую его в основном для извлечения чисел с их единицами измерения.
Просто мне нужен способ «взорвать» каждую лексему, в которой есть число, на фрагмент цифр или букв без разделителя .
'123abc'
будет['123', 'abc']
'abc123'
будет['abc', '123']
'abc123xyz'
будет['abc', '123', 'xyz']
и так далее.
Как лучше всего реализовать это в PHP?
Я нашел что-то близкое к этому, но это C #и специально для разделения дня/месяца. Как разбить строку в C #на основе букв и цифр