Python: найти текст с тегами с регулярным выражением [duplicate]

В Java все переменные, которые вы объявляете, на самом деле являются «ссылками» на объекты (или примитивы), а не самими объектами.

При попытке выполнить один метод объекта , ссылка просит живой объект выполнить этот метод. Но если ссылка ссылается на NULL (ничего, нуль, void, nada), то нет способа, которым метод будет выполнен. Тогда runtime сообщит вам об этом, выбросив исключение NullPointerException.

Ваша ссылка «указывает» на нуль, таким образом, «Null -> Pointer».

Объект живет в памяти виртуальной машины пространство и единственный способ доступа к нему - использовать ссылки this. Возьмем этот пример:

public class Some {
    private int id;
    public int getId(){
        return this.id;
    }
    public setId( int newId ) {
        this.id = newId;
    }
}

И в другом месте вашего кода:

Some reference = new Some();    // Point to a new object of type Some()
Some otherReference = null;     // Initiallly this points to NULL

reference.setId( 1 );           // Execute setId method, now private var id is 1

System.out.println( reference.getId() ); // Prints 1 to the console

otherReference = reference      // Now they both point to the only object.

reference = null;               // "reference" now point to null.

// But "otherReference" still point to the "real" object so this print 1 too...
System.out.println( otherReference.getId() );

// Guess what will happen
System.out.println( reference.getId() ); // :S Throws NullPointerException because "reference" is pointing to NULL remember...

Это важно знать - когда больше нет ссылок на объект (в пример выше, когда reference и otherReference оба указывают на null), тогда объект «недоступен». Мы не можем работать с ним, поэтому этот объект готов к сбору мусора, и в какой-то момент VM освободит память, используемую этим объектом, и выделит другую.

1
задан zhangxaochen 7 March 2014 в 12:51
поделиться

3 ответа

Вы можете использовать BeautifulSoup для этого синтаксического анализа html.

input = """"<person>John</person>went to<location>London</london>"""
soup = BeautifulSoup(input)
print soup.findAll("person")[0].renderContents()
print soup.findAll("location")[0].renderContents()

Кроме того, не рекомендуется использовать str в качестве имени переменной в python, поскольку str() означает другую вещь в python .

Кстати, регулярное выражение может быть:

import re
print re.findall("<person>(.*?)</person>", input)
print re.findall("<location>(.*?)</location>", input)
5
ответ дан Sabuj Hassan 18 August 2018 в 15:21
поделиться
  • 1
    Почему renderContents? Кроме того, я бы обновил до bs4. – Blender 7 March 2014 в 12:56
  • 2
    @Blender Я не знаю, как устранить теги. Вы можете мне помочь? – Sabuj Hassan 7 March 2014 в 13:06
  • 3
    .string - это все, что вам нужно. Кроме того, .find('person') эквивалентен .findAll('person')[0]. – Blender 7 March 2014 в 14:21
  • 4
    Это не найдет текст между любым тегом (конечно, вопрос неясно об этом) – dorvak 7 March 2014 в 14:53
import re

pattern = r"<person>(.*?)</person>"
re.findall(pattern, str, flags=0) #you may need to add flags= re.DOTALL if your str is multiline

Надеюсь, что это поможет

3
ответ дан abrunet 18 August 2018 в 15:21
поделиться
probably you are looking for **XML tree and elements**
XML is an inherently hierarchical data format, and the most natural way to represent it is with a tree. ET has two classes for this purpose - ElementTree represents the whole XML document as a tree, and Element represents a single node in this tree. Interactions with the whole document (reading and writing to/from files) are usually done on the ElementTree level. Interactions with a single XML element and its sub-elements are done on the Element level.

19.7.1.2. Parsing XML
We’ll be using the following XML document as the sample data for this section:

<?xml version="1.0"?>
<data>
    <country name="Liechtenstein">
        <rank>1</rank>
        <year>2008</year>
        <gdppc>141100</gdppc>
        <neighbor name="Austria" direction="E"/>
        <neighbor name="Switzerland" direction="W"/>
    </country>
    <country name="Singapore">
        <rank>4</rank>
        <year>2011</year>
        <gdppc>59900</gdppc>
        <neighbor name="Malaysia" direction="N"/>
    </country>
    <country name="Panama">
        <rank>68</rank>
        <year>2011</year>
        <gdppc>13600</gdppc>
        <neighbor name="Costa Rica" direction="W"/>
        <neighbor name="Colombia" direction="E"/>
    </country>
</data>

У нас есть несколько способов импорта данных. Чтение файла с диска:

import xml.etree.ElementTree as ET
tree = ET.parse('country_data.xml')
root = tree.getroot()

Чтение данных из строки:

root = ET.fromstring(country_data_as_string)

Другое python Xml & amp; Html parser

https://wiki.python.org/moin/PythonXml http://docs.python.org/2/library/htmlparser.html

1
ответ дан Pavan Gupta 18 August 2018 в 15:21
поделиться
Другие вопросы по тегам:

Похожие вопросы: