Хотя верно, что запрос регулярных выражений для синтаксического анализа произвольного HTML похож на прошение начинающему писать операционную систему, иногда бывает целесообразно проанализировать ограниченный , известный набор HTML.
Если у вас есть небольшой набор HTML-страниц, которые вы хотите очистить данные, а затем вложить в базу данных, регулярные выражения могут работать нормально. Например, недавно я хотел получить имена, партии и округа австралийских федеральных представителей, которые я сошел с веб-сайта парламента. Это была ограниченная одноразовая работа.
Regexes отлично справились со мной и были очень быстрыми, чтобы настроить.
Вот конкретный пример:
sink("texy.txt")
iris[1:2, 1:5] %>%
kable(format = "latex") %>%
kable_styling(font_size = 14) %>%
column_spec(1, width = "6cm") %>%
capture.output() %>%
cat(sep = "\n")
sink()
Теперь у меня есть следующее в texy.txt
:
\begin{table}[H]
\centering\begingroup\fontsize{14}{16}\selectfont
\begin{tabular}{>{\raggedleft\arraybackslash}p{6cm}|r|r|r|l}
\hline
Sepal.Length & Sepal.Width & Petal.Length & Petal.Width & Species\\
\hline
5.1 & 3.5 & 1.4 & 0.2 & setosa\\
\hline
4.9 & 3.0 & 1.4 & 0.2 & setosa\\
\hline
\end{tabular}\endgroup{}
\end{table}