Я пытаюсь очистить сайт https://www.livechart.me/winter-2019/tv, чтобы узнать количество эпизодов, которые в настоящее время транслировались для определенных шоу этого сезона. Я делаю это, извлекая "эпизод -...
У меня есть скрипт, который должен находить элементы через HTML, но когда он получает доступ к главной странице, эта страница появляется: https://gyazo.com/84d0e5b7a73c97db5b780f18d0ba3f89 У меня такие вопросы: Как я могу ...
Я очень плохо знаком с веб-скребком. Я пытаюсь получить данные продавцов флипкарт для продукта путем обратного инжиниринга запросов и очистки данных. URL, который я пробую: https: //www.flipkart.com / ...
Я работаю над проектом очистки, где я пытаюсь собрать информацию с 13 страниц. Структура страницы идентична, изменяются только URL-адреса. Я могу очистить каждый ...
У меня давно возникает проблема, которая никогда не решается, и я хочу спросить, как использовать prettify () и encode () вместе с удалением префикса b 'из кодировки. Когда я получаю эту ошибку Unicode, я ...
Должно ли объявление HashMap всегда включать тип, например, private HashMap test = new HashMap (); потому что я вижу много примеров в книгах, где <...
print address.nextSibling Это мой HTML-код:
С кодом ниже : soup = BeautifulSoup (page.read (), fromEncoding = "utf-8")
result = soup.find ('div', {'class': 'flagPageTitle'}) Я получаю следующий html:
Используя модуль Beautiful Soup, как я могу получить данные тега div, имя класса которого — feeditemcontent cxfeeditemcontent? Это :суп.класс['feeditemcontent cxfeeditemcontent'] или :суп.найти _все ('класс' )...
Я написал скрипт на Python в сочетании с BeautifulSoup для анализа содержимого с веб-страницы. На целевой странице есть две таблицы. Мне нужно использовать вкладку Результаты из первой таблицы ...
Я бы хотел бросить страницу с прокси. Я попадаю на страницу с cfscrapy, и я пропускаю Cloudflare (первый «вызов»), затем страница попросит меня reCAPTCHA узнать, являюсь ли я человеком. Это проблема, я ...
Я удалил данные таблицы с помощью BeautifulSoup с сайта. (Это ссылка для справки). Это данные, относящиеся к одной компании. Он очищается и получается в виде нескольких списков, поскольку ...
Я пытаюсь очистить имена всех компаний, перечисленных на этом сайте. Каждая страница (всего 14) показывает название 80 компаний. Каждый URL-адрес имеет начало = 241 & amp; count = 80 & amp; first = 2009 & amp; last = 2018 at ...
В настоящее время я попадаю в цикл for со всеми строками, которые мне нужны:
soup = BeautifulSoup (страница)
table = soup.find ("td", "bodyTd")
для строки в таблицах.findAll ('tr'): В этом ...
Я использую BeautifulSoup для очистки URL-адреса, и у меня был следующий код импорта urllib импортировать urllib2 from BeautifulSoup import BeautifulSoup url = "http://www.example.com/servlet/av/ResultTemplate=...
Я пытаюсь записать некоторые строки в файл (строки были переданы мне парсером HTML BeautifulSoup) . Я могу использовать "print" для их отображения, но когда я использую file.write (), я получаю следующее ...
Мне нужно перейти к элементу html определенного типа.
Однако на странице много таких элементов этого типа с множеством разных классов. Мне нужен тот, у которого нет никакого класса ...
Когда я хотел разобрать XML-документ в Python с помощью библиотеки BeautifulSoup, я столкнулся с некоторыми проблемами. XML-документ, который я хочу проанализировать: ...
Возможный дубликат: Beautiful Soup не может найти класс CSS, если у объекта есть другие классы, также я использую BeautifulSoup для поиска таблиц в HTML. Проблема, с которой я сейчас сталкиваюсь, заключается в ...
Я работаю над проектом, который мне нужно немного очистить. Проект находится в Google App Engine, и в настоящее время мы используем Python 2.5. В идеале мы бы использовали PyQuery, но из-за того, что он работает на App Engine...
Я искал способ оптимизировать свой код, когда услышал несколько хороших отзывов о потоках и urllib3. Очевидно, люди расходятся во мнениях, какое решение является лучшим. Проблема с моим сценарием ниже...
Раньше я использовал BeautifulSoup, но я столкнулся с чем-то новым; невероятно универсальная / минимальная разметка таблицы HTML ... Моя цель - захватить каждое значение и его метку (каждое там собственное td) и распечатать ...
Допустим, мы смотрим на первую таблицу на странице, поэтому: table = BeautifulSoup (...). table строки можно сканировать с помощью чистого цикла for: for row in table: f (row) Но для получения одного столбца ...
Проблема в том, что я пытаюсь разобрать таблицу HTML с интервалами строк, например, я пытаюсь разобрать расписание колледжа. Я сталкиваюсь с проблемой, где, если последняя строка содержит интервал строки, следующая строка ...
Это может быть один из тех вопросов, которые трудно решить ответ, но здесь: я не считаю себя программистом - но я бы хотел :-) Я выучил R, потому что мне надоел spss, ...
Я соскребаю контент с веб-сайта, используя Python. Сначала я использовал BeautifulSoup и Mechanize на Python, но увидел, что на веб-сайте есть кнопка для создания контента с помощью JavaScript, поэтому я решил использовать ...
Я хочу удалить конкретный div из объекта супа. Я использую Python 2.7 и BS4. Согласно документации мы можем использовать div.decompose (). Но это удалило бы все div. Как я могу удалить div ...
Есть ли у кого-нибудь опыт работы со скребками SEC 10-K и 10-Q? Я застрял при попытке очистить ежемесячные выкупленные акции от этих заявок. В частности, я хотел бы получить ...
Я получаю сообщение об ошибке Unicode :UnicodeEncodeError :кодек 'charmap' не может кодировать символ u'\xa9' в позиции 822 :сопоставление символов с Похоже, это стандартный символ авторского права,...
Привет всем ... Я хочу прочитать колонку «САМЫЕ ПОПУЛЯРНЫЕ» на http://www.nydailynews.com/. Коды в Chrome выглядят следующим образом: Я делаю так: url = "http://www.nydailynews.com/" page = urllib2.urlopen (url) ...