0
ответов

Скрэпи. Как изменить настройки паука после начала сканирования?

Я не могу изменить настройки паука в методе синтаксического анализа. Но это определенно должен быть способ. Например: class SomeSpider(BaseSpider): name = 'mySpider' allow_domains = ['example.com'] ...
вопрос задан: 15 May 2012 01:55
0
ответов

Scrapy, похоже, не выполняет DFO

У меня есть веб-сайт, для которого мой поисковый робот должен следовать последовательности. Так, например, ему нужно пройти a1, b1, c1, прежде чем он начнет переходить на a2 и т. Д. Каждый из a, b и c обрабатывается разными функциями синтаксического анал
вопрос задан: 14 May 2012 23:47
0
ответов

UnicodeEncodeError :& #39; ascii& #39; кодек не может& #39;t кодировать символ u& #39;\xe7& #39; в позиции 17710 :порядковый номер не в диапазоне (128)

Я пытаюсь напечатать строку из архива веб-сканирования, но когда я это делаю, я получаю эту ошибку :print page['html'] UnicodeEncodeError :Кодек 'ascii' не может кодировать символ u'\xe7' в позиции 17710 :порядковый номер...
вопрос задан: 25 April 2012 19:27
0
ответов

Безголовый браузер для C # (.NET)? [закрыто]

Я (был) разработчик Python, который создает веб-приложение с графическим интерфейсом. Недавно я решил перейти на .NET Framework и написать то же приложение на C # (это решение не мое). В ...
вопрос задан: 15 April 2012 11:11
0
ответов

Как оптимизировать парсинг с помощью getURL()в R

Я пытаюсь парсить все законопроекты с двух страниц сайта нижней палаты парламента Франции. Страницы охватывают 2002-2012 год и представляют собой менее 1000 банкнот каждая. Для этого я соскребаю с...
вопрос задан: 9 April 2012 02:41
0
ответов

Очистка данных, сгенерированных javascript, с помощью Python

Я хочу очистить некоторые данные следующего URL-адреса с помощью Python. http://www.hankyung.com/stockplus/main.php?module=stock&mode=stock_analysis_infomation&itemcode=078340 Речь идет о кратком изложении...
вопрос задан: 7 April 2012 10:06
0
ответов

Как управлять «пулом» экземпляров PhantomJS

Я планирую веб-сервис для мое собственное внутреннее использование, которое принимает один аргумент, URL-адрес, и возвращает html, представляющий разрешенный DOM из этого URL-адреса. Под разрешенным я подразумеваю, что веб-сервис в первую очередь...
вопрос задан: 1 April 2012 01:41
0
ответов

Power Shell Web Scraping Проблема с SSL/TSL

Я хочу запустить сценарий веб-скрейпинга на сервере. Текущий скрипт собирает html на указанной странице. $url = "http://websms" [net.httpWebRequest] $request = [net.webRequest]::create($...
вопрос задан: 29 March 2012 01:12
0
ответов

Обратный поиск цифрового идентификатора объекта с учетом таблицы ссылок?

У меня есть таблица цитат, которая включает фамилию первого автора, название, журнал, год и номера страниц для каждой цитаты. Я разместил первые несколько строк таблицы в Google ...
вопрос задан: 22 March 2012 06:36
0
ответов

Веб-скрапинг в PHP

Я ищу способ сделать небольшой предварительный просмотр другой страницы с URL-адреса, указанного пользователем в PHP. Я хотел бы получить только заголовок страницы, изображение (например, логотип веб-сайта) и немного ...
вопрос задан: 21 March 2012 21:56
0
ответов

Очистите веб-страницу, которая требует, чтобы они сначала предоставили вам файл cookie сеанса.

Я пытаюсь очистить файл Excel из правительственной базы данных «список проверок». Однако URL-адрес, который мне нужен для доступа к этому файлу Excel: http://nrega.ap.gov.in/Nregs/FrontServlet?requestType=...
вопрос задан: 18 March 2012 21:15
0
ответов

Скрапинг данных из веб-страниц с помощью Python?

Я только начал изучать парсинг веб-страниц с помощью Python. Однако я уже столкнулся с некоторыми проблемами. Моя цель — извлечь из сети названия различных видов тунца с сайта fishbase.org (http://www.fishbase....
вопрос задан: 5 March 2012 07:23
0
ответов

Очистка инструментов подсказки ключевых слов Google с помощью CasperJS и PhantomJS

В настоящее время я пытаюсь очистить инструменты подсказки ключевых слов Google с помощью CasperJS и PhantomJS (оба отличные инструменты, спасибо n1k0 и Ariya), но я не могу заставить их работать. Вот мой текущий процесс: Войти с помощью моего ...
вопрос задан: 22 February 2012 09:14
0
ответов

Nodejs очищает веб-сайт после того, как javascript загрузил значения

Вероятно, вопрос новичка о nodejs/jsdom. Я пытаюсь очистить веб-сайт с помощью node.js. Я использую jsdom и jquery для получения html и анализа необходимых вещей. Но каким-то образом ценности я ...
вопрос задан: 21 February 2012 08:36
0
ответов

Серьезная утечка памяти при итеративном анализе файлов XML.

Контекст При итерации по набору файлов Rdata (каждый из которых содержит вектор символов HTML-кода), которые загружаются, анализируются (с помощью функций XML) и затем снова удаляются из памяти, У меня возникает ...
вопрос задан: 17 February 2012 19:52
0
ответов

Программа Java или Perl Script для копирования текст с веб-страницы

В частности, мне интересно, можно ли в java (предпочтительно) или perl ввести URL-адрес и скопировать текст с этой страницы? В частности, я хочу иметь возможность искать что-то в Google и просто копировать ...
вопрос задан: 12 February 2012 06:06
0
ответов

BeautifulSoup: Вычеркнуть указанные атрибуты, но сохранить тег и его содержимое

Я пытаюсь "дефронтпагифицировать" html сайта, созданного MS FrontPage, и пишу для этого скрипт BeautifulSoup. Однако я застрял на той части, где я пытаюсь отделить определенный ...
вопрос задан: 28 January 2012 09:03
0
ответов

readHTMLTable и кодировка UTF-8

У меня проблема с кодировкой с readHTMLTable и пакетом XML в целом. Я хотел бы загрузить несколько таблиц с польского сайта allegro.pl (аукционный сайт, похожий на ebay), но после этого есть кодировка ...
вопрос задан: 22 January 2012 23:10
0
ответов

Получение комментариев с веб-сайта с помощью disqus

Я хотел бы написать скрипт парсинга для получения комментариев из статей cnn. Например, эта статья: http://www.cnn.com/2012/01/19/politics/gop-debate/index.html?hpt=hp_t1 Я понимаю, что cnn ...
вопрос задан: 20 January 2012 14:06
0
ответов

Python следит за перенаправлениями, а затем загружает страницу?

У меня есть следующий скрипт Python, и он прекрасно работает. import urllib2 url = 'http://abc.com' # напишите здесь URL usock = urllib2.urlopen (url) data = usock.read () usock.close () напечатать данные ...
вопрос задан: 13 January 2012 16:49
0
ответов

Сохранение разрывов строк при синтаксическом анализе с помощью Scrapy в Python

Я написал паука Scrapy, который извлекает текст со страницы. Паук правильно разбирает и выводит данные на многих страницах, но на некоторых сбрасывается. Я пытаюсь сохранить разрывы строк и форматирование ...
вопрос задан: 5 January 2012 18:50
0
ответов

Получение n-го элемента с помощью BeautifulSoup

Из большой таблицы я хочу прочитать строки 5, 10, 15, 20 ... с помощью BeautifulSoup. Как мне это сделать? Можно ли использовать findNextSibling и увеличивающийся счетчик?
вопрос задан: 4 January 2012 09:09
0
ответов

Щелкните всплывающее окно javascript через веб-драйвер

Я очищаю веб-страницу с помощью веб-драйвера Selenium в Python Веб-страница, над которой я работаю, имеет форму. Я могу заполнить форму, а затем нажимаю кнопку «Отправить». Он генерирует всплывающее окно (...
вопрос задан: 25 December 2011 20:50
0
ответов

Почему этот regex занимает так много времени, чтобы найти адреса электронной почты в определенных файлах?

У меня есть регулярное выражение, которое ищет адреса электронной почты (это было взято из другого сообщения SO, которое я не могу найти, и было протестировано на всех видах конфигураций электронной почты... изменение этого не...
вопрос задан: 7 December 2011 01:18
0
ответов

BeautifulSoup и несколько абзацев

Я пытаюсь очистить речь с веб-сайта с помощью BeautifulSoup. Однако у меня возникают проблемы, так как речь разбита на много разных абзацев. Я новичок в программировании и ...
вопрос задан: 30 November 2011 21:18
0
ответов

Распечатать HTML-текст веб-элемента selenium в Python

Я использую веб-драйвер Selenium в Python для проекта веб-скрапинга.Как распечатать HTML-текст selenium.WebElement? Я намереваюсь использовать BeautifulSoup для синтаксического анализа HTML и извлечения данных о ...
вопрос задан: 29 November 2011 18:54
0
ответов

Вход на веб-сайт с помощью инструмента веб-очистки в Python

Я использую веб-драйвер Selenium в Python для проекта очистки веб-страниц. Я хочу войти в систему, введя данные для входа и нажав кнопку «Отправить». Я могу ввести имя пользователя и ...
вопрос задан: 29 November 2011 01:21
0
ответов

Передайте пользовательский агент через webdriver в Selenium

Я работаю над проектом парсинга веб-сайтов с использованием Selenium в Python. Когда я открываю домашнюю страницу через браузер, она открывается правильно. Но когда я пытаюсь открыть веб-страницу через webdriver () в Selenium, ...
вопрос задан: 28 November 2011 08:36
0
ответов

scrapy python, похоже, не получает данные со всех доступных URL-адресов

Я пытаюсь очистить thisssion.org, чтобы создать таблицу, сколько раз каждая мелодия была добавлен в сборники песен участника, так что я могу найти некоторые популярные пьесы для изучения. Я начал со скрапинга ...
вопрос задан: 27 November 2011 07:00
0
ответов

Эффективный синтаксический анализ метатегов с помощью lxml?

Я анализирую HTML-страницы с помощью lxml. Страницы имеют следующие метатеги: Как я могу использовать ...
вопрос задан: 15 November 2011 19:02