Хотя верно, что запрос регулярных выражений для синтаксического анализа произвольного HTML похож на прошение начинающему писать операционную систему, иногда бывает целесообразно проанализировать ограниченный , известный набор HTML.
Если у вас есть небольшой набор HTML-страниц, которые вы хотите очистить данные, а затем вложить в базу данных, регулярные выражения могут работать нормально. Например, недавно я хотел получить имена, партии и округа австралийских федеральных представителей, которые я сошел с веб-сайта парламента. Это была ограниченная одноразовая работа.
Regexes отлично справились со мной и были очень быстрыми, чтобы настроить.
Объект Python dict
не имеет внутреннего порядка, кроме как в самых последних версиях Python, поэтому вы не можете предполагать, что вы получите объекты в том же порядке, в котором вы их поместили.
Если вам нужна эта функциональность, есть объект OrderedDict
, который вы можете использовать.
import random
from collections import OrderedDict
# Normal dict behavior:
numbers = {}
random_nums = (random.random() for _ in range(1000))
for i in random_nums:
numbers[i] = random.random()
assert list(numbers.keys()) != list(random_nums)
# Ordered dict behavior:
numbers = OrderedDict()
for i in random_nums:
numbers[i] = random.random()
assert list(numbers.keys()) == list(random_nums)