im scraping с помощью beautifulsoup4, и когда я схожу, напишу свой суп в файл, я просто хочу написать текст того, что я очистил. Im работает в проблему, что только последняя строка данных scraped ...
Что лучший метод должен очистить динамический веб-сайт, где большая часть содержания сгенерирована тем, что, кажется, запросы ajax? У меня есть предыдущий опыт с Механизированием, BeautifulSoup и Python...
Существует ли способ обойти следующее? httperror_seek_wrapper: Ошибка HTTP 403: запрос, запрещенный robots.txt, Является единственным путем вокруг этого для контакта с владельцем сайта (barnesandnoble.com).. я...
soup.find ("tagName", {"идентификатор": "articlebody"}), Почему это НЕ возвращает <идентификатор отделения = "articlebody">... </отделение> теги и наполняет промежуточный? Это ничего не возвращает. И я з
у меня есть суп, где я хочу найти следующее & lt; li>, но у меня нет идентификатора, поэтому я бы поискал по-автору: & lt; li id = "post-abcd45834hfds53" class = "message" data-author = "Master-Rudi" & gt; ...
Я использую BeautifulSoup для очистки веб-страниц и поиска элементов с конкретными текстами. Однако функции поиска супа и find_all возвращают только точные соответствия. Я бы хотел использовать fuzzywuzzy или soundex для просмотра ...
Я попытался использовать Bs4 в сочетании с регулярным выражением, чтобы найти определенный тег, но без успеха. Используя это: для url в title_detail.find_all ('a', href = re.compile ('/ search / title?')): Print (url) Ouput: & ...
Я хочу использовать python beautifulsoup для извлечения имени свойства класса в части содержимого html. Например, & lt; td & gt; & lt; div class = "na" & gt; & lt; / div & gt; & lt; / td & gt ;, "na" - это строка, которую я хочу получить, ...
Я пытаюсь получить источник изображения в теге, у меня есть фрагмент кода html ниже. & lt; img alt = «Магеллан на открытом воздухе Мужская лагуна Мадре с твердым коротким рукавом ...
У меня есть следующий код Python: для документа в курсоре: deal_url = document ['deal_link'] soup = helpers.get_page_soup (deal_url), если суп: image_link = soup.find ("meta" ...
Я анализирую сайт, где я сталкиваюсь с чем-то вроде: < div class = "class-name" data-fmid = "somenumber" > Используя красивый суп, как я могу извлечь somenumber? Я сейчас получаю ...
только недавно изучил веб-скребинг с использованием Python 3 и Beautifulsoup. У меня проблема с печатью единственной строки, которую я хочу. Ниже я предоставляю код, который я использую. product_sizes = view_product.find ('dl', id = 'dl_1') ...
В ответе на предыдущий вопрос несколько человек предложили, чтобы я использовал BeautifulSoup для своего проекта. Я боролся с их документацией, и я просто не могу проанализировать ее. Может кто-то указывать на меня на...
Я работаю над кодом для парсинга конфигурационного файла, записанного в XML, где XML-тэги являются смешанным случаем, и случай является значительным. Красивый Суп, кажется, преобразовывает XML-тэги в нижний регистр по умолчанию...
Мой локальный аэропорт позорно блокирует пользователей без IE и выглядит ужасным. Я хочу записать Python сценарии, которые получили бы содержание страниц Arrival и Departures каждые несколько минут и шоу...
У меня есть приложение для iPhone с несколькими пользовательски определенными цветами для моей темы. Так как эти цвета будут зафиксированы для моего UI, я хотел бы определить цвета в классе, который будет включен (Constants.h и...
Из того, что я могу разобрать, две основных библиотеки парсинга HTML в Python являются lxml и BeautifulSoup. Я выбрал BeautifulSoup для проекта, я продолжаю работать, но я выбрал его ни по какой конкретной причине...
Учитывая ссылку HTML как <href = "urltxt" класс = "someclass" близко = "верный"> texttxt </a>, как я могу изолировать URL и текст? Обновления я использую Красивый Суп и не могу фигурировать...
Кто-нибудь знает простой способ в Python преобразовать строку с кодами сущностей HTML (например, < & amp;) в обычную строку (например, <&)? cgi.escape () будет экранировать строки (плохо), но там ...
BeautifulSoup работает с Python 3? В противном случае, как скоро там будет порт? Будет порт вообще? Google ничего не поднимает ко мне (Возможно, это - потому что я ищу неправильную вещь?)
Итак, у меня есть извлеченный HTML-div с новостного сайта. Что это за фрагмент HTML: < div class = "cn-content" > < figure > < img src = "https://cimg.co/w/articles-attachments/1/5ca/71a090479e.jpg" ...
Я пытаюсь собрать некоторые данные с веб-сайта, и мне удается собрать важную информацию, но когда я печатаю ее в файл Excel, данные просто перетекают в один столбец. Есть ли ...
Я создал функцию, которая возвращает список URL с указанием названия конкретной компании. Я хочу узнать поиск по этому списку URL-адресов и найти информацию о том, принадлежит ли компания другому ...
Я пытаюсь очистить некоторые скрытые таблицы (15 таблиц на страницу), которые раскрываются после нажатия стрелки. (Я прилагаю картинки: нерасширенные таблицы, расширяемые таблицы) Я тоже прикрепляю HTML (...
Очень новый для Python здесь. Я пытаюсь захватить некоторые данные с этой страницы этой страницы. Я пытаюсь получить имя элемента и тип элемента в двух списках. Я могу понять, как объединить их в одну ...
Ниже находится веб-скребок, который использует красивый суп, чтобы очистить список команд с этого веб-сайта. Каждый столбец данных помещается в массив, где он затем перебирается в CSV-файл. Я бы хотел ...