Я пытаюсь извлечь все вхождения помеченных слов из строки с использованием регулярного выражения в Python 2.7.2. Или просто, я хочу извлечь каждый фрагмент текста внутри тегов [p] [/ p]
.
Вот моя попытка:
regex = ur"[\u005B1P\u005D.+?\u005B\u002FP\u005D]+?"
line = "President [P] Barack Obama [/P] met Microsoft founder [P] Bill Gates [/P], yesterday."
person = re.findall(pattern, line)
Печать person
производит ['Президент [P]', '[/ P]', '[P] Билл Гейтс [/ P]']
Какое правильное регулярное выражение нужно получить: ['[P] Barack Обама [/ P] ',' [P] Билл Гейтс [/ p] ']
или [«Барак Обама», «Билл Гейтс»]
.
Спасибо. :)