Python: найти текст с тегами с регулярным выражением [duplicate]

задан zhangxaochen 7 March 2014 в 12:51

3 ответа

Вы можете использовать BeautifulSoup для этого синтаксического анализа html.

input = """"<person>John</person>went to<location>London</london>"""
soup = BeautifulSoup(input)
print soup.findAll("person")[0].renderContents()
print soup.findAll("location")[0].renderContents()

Кроме того, не рекомендуется использовать str в качестве имени переменной в python, поскольку str() означает другую вещь в python .

Кстати, регулярное выражение может быть:

import re
print re.findall("<person>(.*?)</person>", input)
print re.findall("<location>(.*?)</location>", input)
ответ дан Sabuj Hassan 18 August 2018 в 15:21
  • 1
    Почему renderContents? Кроме того, я бы обновил до bs4. – Blender 7 March 2014 в 12:56
  • 2
    @Blender Я не знаю, как устранить теги. Вы можете мне помочь? – Sabuj Hassan 7 March 2014 в 13:06
  • 3
    .string - это все, что вам нужно. Кроме того, .find('person') эквивалентен .findAll('person')[0]. – Blender 7 March 2014 в 14:21
  • 4
    Это не найдет текст между любым тегом (конечно, вопрос неясно об этом) – dorvak 7 March 2014 в 14:53
import re

pattern = r"<person>(.*?)</person>"
re.findall(pattern, str, flags=0) #you may need to add flags= re.DOTALL if your str is multiline

Надеюсь, что это поможет

ответ дан abrunet 18 August 2018 в 15:21
probably you are looking for **XML tree and elements**
XML is an inherently hierarchical data format, and the most natural way to represent it is with a tree. ET has two classes for this purpose - ElementTree represents the whole XML document as a tree, and Element represents a single node in this tree. Interactions with the whole document (reading and writing to/from files) are usually done on the ElementTree level. Interactions with a single XML element and its sub-elements are done on the Element level. Parsing XML
We’ll be using the following XML document as the sample data for this section:

<?xml version="1.0"?>
    <country name="Liechtenstein">
        <neighbor name="Austria" direction="E"/>
        <neighbor name="Switzerland" direction="W"/>
    <country name="Singapore">
        <neighbor name="Malaysia" direction="N"/>
    <country name="Panama">
        <neighbor name="Costa Rica" direction="W"/>
        <neighbor name="Colombia" direction="E"/>

У нас есть несколько способов импорта данных. Чтение файла с диска:

import xml.etree.ElementTree as ET
tree = ET.parse('country_data.xml')
root = tree.getroot()

Чтение данных из строки:

root = ET.fromstring(country_data_as_string)

Другое python Xml & amp; Html parser

ответ дан Pavan Gupta 18 August 2018 в 15:21
