web-scraping - список вопросов по программированию web-scraping

2

ответа

Макрос Excel для поиска веб-сайта с данными Excel и извлечения конкретных результатов, а затем зацикливаться на следующем значении

Я надеюсь, что кто-то может помочь .... У меня есть 8000 значений в таблице Excel, которые мне нужно найти на веб-сайте, а затем записать определенную строку данных с веб-сайта для ввода обратно в ...

вопрос задан: 19 January 2019 05:36

2

ответа

Как отформатировать открытый текст в PHP Simple HTML DOM Parser?

Я пытаюсь извлечь содержимое веб-страницы в виде обычного текста - без тегов HTML. Вот пример кода: $ dom = \ Sunra \ PhpSimple \ HtmlDomParser :: file_get_html ($ url); $ result ['body'] = $ dom- > ...

php html web-scraping simple-html-dom

вопрос задан: 18 January 2019 18:59

2

ответа

BeautifulSoup4 найти все не вложенные совпадения

У меня проблемы с настройкой простого поиска всех внешних элементов, соответствующих моему запросу, в HTML-документе. Я спрашиваю здесь с надеждой, что есть простая функция bs4, которая делает это, но это ...

python python-3.x web-scraping recursive-datastructures

вопрос задан: 18 January 2019 17:49

2

ответа

BeautifulSoup, выберите текст для извлечения

Я хотел бы почистить некоторые цитаты и авторов, но не нашел способ отделить цитату от автора во время очистки. запросы на импорт из bs4 import BeautifulSoup #url = 'https: // www ....

python python-3.x web-scraping beautifulsoup

вопрос задан: 18 January 2019 16:14

2

ответа

IMDB Movie Scraping дает пустой CSV с использованием Scrapy

Я получаю пустой CSV, хотя он не показывает каких-либо ошибок в коде. Невозможно просканировать веб-страницу. Это код, который я написал со ссылкой на YouTube: - импортировать scrapy из Example.items ...

web-scraping export-to-csv python scrapy

вопрос задан: 17 January 2019 14:14

2

ответа

веб-соскоб vaadin python

Я пытаюсь очистить сайт, созданный с помощью vaadin, используя python. Это код, который я использую: запросы.get ('http://rnb.osim.ro/?pn=') .text, но это результат, который не содержит полезной информации: & ...

python web-scraping vaadin python-requests

вопрос задан: 16 January 2019 16:48

2

ответа

Реализация универсального веб-скребка с использованием Node.js

Я хотел бы реализовать базовый веб-скребок, используя Node.js, который является настолько универсальным, насколько это возможно. Я хочу, чтобы приложение могло анализировать и возвращать текст из любого HTML, игнорируя любую разметку / CSS / ...

node.js web-scraping html-parsing cheerio

вопрос задан: 15 January 2019 15:29

2

ответа

Очистите содержание веб-страницы

Я разрабатываю проект, для которого я хочу очистить содержание веб-сайта в фоновом режиме и получить некоторое ограниченное содержание от того очищенного веб-сайта. Например, на моей странице у меня есть "идентификатор пользователя" и "...

screen-scraping httprequest web-scraping curl php

вопрос задан: 22 September 2018 12:16

2

ответа

Извлечение определенной части ссылки с помощью красивого супа

Ниже представлен раздел моего веб-скребка, который сбрасывает список команд с этого сайта, помещает информацию игрока в массив и экспортирует массивы в столбцы в файле CSV. Мой скребок прекрасно работает, ...

python web-scraping beautifulsoup

вопрос задан: 14 July 2018 02:38

2

ответа

Как выбрать параметр в раскрывающемся списке Python Selenium, который является href?

Я пытаюсь создать простой скребок для загрузки адресов местоположения, которые находятся в трех разных областях (в пределах выпадающих значений), затем скопируйте все эти адреса в виде текста. Мне удалось использовать python ...

python selenium web-scraping

вопрос задан: 13 July 2018 07:56

2

ответа

Названия статьи Wikipedia (никакое содержание) [закрытый]

Я делаю проект, которого я должен знать все названия статьи Википедии (мне не нужно содержание). Есть ли место, где я могу загрузить эти данные.

web-scraping wikipedia

вопрос задан: 17 August 2017 13:58

2

ответа

Красивый суп findall с исключением groupon [duplicate]

Я отказываюсь от газеты, чтобы получить тело уведомлений, p> Я беру все теги «& lt; p>», но мне нужно исключить тег «& lt; p> & lt; div class =" L video ">, потому что ...

python regex web-scraping beautifulsoup data-science

вопрос задан: 28 February 2017 14:54

2

ответа

У кого-либо есть хорошее решение для очистки источника HTML страницы с содержанием (в этом случае, HTML-таблицы) сгенерированный с JavaScript? [закрытый]

У кого-либо есть хорошее решение для очистки источника HTML страницы с содержанием (в этом случае, HTML-таблицы) сгенерированный с JavaScript? Смущающе простой, хотя осуществимое решение с помощью Crowbar:...

java php dom web-scraping html-table

вопрос задан: 29 November 2016 22:55

2

ответа

Html Agility Pack, веб-скребок [дубликат]

Я пытался заставить этот кусок кода работать некоторое время. Обнаружены бесчисленные ресурсы, и я боюсь, что у меня не получается попробовать. Я несколько раз пересматривал этот код, и синтаксис выглядит ...

web-scraping html-agility-pack

вопрос задан: 10 June 2014 05:47

2

ответа

Как подключиться через HTTPS с помощью Jsoup?

Он отлично работает через HTTP, но когда я пытаюсь использовать источник HTTPS, возникает следующее исключение: 10-12 13: 22: 11.169: WARN / System.err (332) : javax.net.ssl.SSLHandshakeException: java.security ....

java android https web-scraping jsoup

вопрос задан: 18 July 2012 17:41

2

ответа

Как я могу получить полную историю изменений для статьи о Википедии?

Я хотел бы способ загрузить содержание каждой страницы в истории популярной статьи о Википедии. Другими словами, я хочу получить полный контент каждого редактирования для единственной статьи. Как был бы я...

scripting wikipedia web-scraping

вопрос задан: 26 July 2010 05:05

2

ответа

Войдите в JavaScript в PHP

Я создавал веб-скребок для внутреннего приложения с PHP, но одна из страниц имеет вход в систему JavaScript, там какой-либо способ автономного входа в систему очистить данные, как обычно? (Я...

php javascript curl screen-scraping web-scraping

вопрос задан: 23 July 2010 13:55

2

ответа

Как отобразить форматированный текст HTML в текстовой области JAVA-приложения?

Я фрагментирую данные из веб-сайта с помощью моего JAVA-приложения и хочу отобразить результат после парсинга кода страницы HTML в Текстовой области, сделанной в Swing. Текст как: привет <b> каждый </b> один...

java swing web-scraping

вопрос задан: 14 March 2010 08:17

1

ответ

How to find elements by class

I'm having trouble parsing HTML elements with "class" attribute using Beautifulsoup. The code looks like this soup = BeautifulSoup(sdata) mydivs = soup.findAll ('div') for div in mydivs: if (div["...

python html web-scraping beautifulsoup

вопрос задан: 29 May 2019 19:41

1

ответ

Получить данные из URL с помощью Excel VBA

Я хочу извлечь данные из URL. Я хочу данные в столбце Excel. Название Название (изображения 1 и 2) Улица Адрес АдресЛокальный почтовый индекс Адресрегиона Адрес страны Изображение 1 Изображение 2 Вот мой код ....

excel vba web-scraping

вопрос задан: 25 April 2019 05:57

1

ответ

Как автоматически увеличить DOWNLOAD_DELAY от scrapy при обнаружении кода 500 в статусе ответа

Я собираюсь написать сотни пауков для сканирования различных статических веб-страниц, поэтому я выбрал Scrapy, чтобы помочь мне закончить свою работу. Во время работы я нахожу большинство сайтов простыми и не ...

web-scraping delay scrapy web-crawler

вопрос задан: 31 March 2019 13:54

1

ответ

Невозможно получить все имена, распутывая некоторые точки на карте

Я написал скрипт на python для анализа содержимого каждого поля, заполняемого после нажатия на некоторые точки, доступные по всей карте. Я хотел бы только получить название различных свойств. mapLink ...

python json python-3.x web-scraping

вопрос задан: 29 March 2019 12:30

1

ответ

Выполните поиск Google по формуле Excel и поместите результат в ячейку

До После (добавлены адреса) У меня есть электронная таблица с названиями мест, и я хотел бы добавить адреса этих мест в следующую ячейку, используя формулу в Google Sheets. Я хотел бы сделать ...

html excel web-scraping google-sheets excel-formula

вопрос задан: 25 March 2019 16:58

1

ответ

Как я могу получить правильный ответ от скрапа?

Я пытаюсь очистить некоторые результаты поиска из этого регистра компании, но когда я пытаюсь очистить название компании, мои результаты, кажется, не возвращаются должным образом, как будто пункт названия компании разделен на 2 ...

python web-scraping scrapy

вопрос задан: 24 March 2019 20:44

1

ответ

Как почистить сайт, на котором трудно читать таблицу (панды и красивый суп)?

Я пытаюсь очистить данные с https://www.seethroughny.net/payrolls/110681345, но с таблицей трудно иметь дело. Я перепробовал много вещей. импорт панд как pd импорт ssl импорт csv ssl ....

python web-scraping html-table beautifulsoup

вопрос задан: 24 March 2019 19:16

1

ответ

Очистка и печать всех имен и тегов в сети на основе определенных тегов

у всех имен в моей ссылке HTML есть один признак хорошо? (я использую красивый суп) Я хочу вырезать и напечатать все имена с их тегами, если их теги == 'конкретная строка' хорошо? мои классы зовут div мои id имена = '...

python web-scraping beautifulsoup python-requests

вопрос задан: 21 March 2019 15:48

1

ответ

Как эта веб-страница блокирует меня, когда я прохожу цикл, а не когда получаю к нему доступ напрямую?

Я пытаюсь очистить набор веб-страниц. Когда я соскребаю с одной веб-страницы напрямую, я могу получить доступ к HTML. Однако, когда я перебираю фрейм данных pd, чтобы очистить набор веб-страниц, даже ...

python web-scraping

вопрос задан: 19 March 2019 20:11

1

ответ

Как использовать Mandrill для отправки отчета по электронной почте в Scrapy Spidermon

В настоящее время расширение Scrapy Spidermon показывает только пример отправки электронной почты с помощью Amazon Simple Email Service. Возможно ли использовать Mandrill вместо этого? И как?

python web-scraping scrapy mandrill

вопрос задан: 19 March 2019 14:05

1

ответ

Соскоб в Интернете - обработка несмертельных ошибок

Использование веб-скребков (bs4, selenium) и выяснение того, существует ли лучший способ обработки исключений, не являющихся фатальными (т.е. продолжайте работу после исключения) В моем коде много исключений try

python exception web-scraping beautifulsoup

вопрос задан: 18 March 2019 14:22

1

ответ

Группировать результаты из веб-разбивки на разделы

Пытаясь узнать, как использовать Python для поиска в Интернете, я получил меню ланча с этого http://bramatno8.kvartersmenyn.se/ Страница построена так: < div class = "menu" > < & сильный GT; ...

python web-scraping beautifulsoup

вопрос задан: 14 March 2019 07:21