0
ответов

Очистить защищенный паролем сайт в R

Я пытаюсь собрать данные с защищенного паролем сайта в R. Читая, кажется, что пакеты httr и RCurl являются лучшими вариантами очистки с помощью аутентификации по паролю (я также ...
вопрос задан: 13 July 2014 14:16
0
ответов

Очистите содержимое сайта с помощью безопасного входа

Я пытаюсь очистить содержимое сайта с защищенным входом в систему, но не могу этого сделать. Логин сайта имеет три варианта: имя пользователя, пароль, код доступа. вот код, который я использую
вопрос задан: 29 April 2014 17:12
0
ответов

Использование браузера http-pipe

Я пытаюсь очистить данные с сайта с помощью HTTPS. Мне удалось успешно выполнить базовые запросы с помощью Network.HTTP.Conduit (отправить учетные данные и т. Д.), Но мне не удалось извлечь информацию о файлах cookie ...
вопрос задан: 23 January 2014 15:11
0
ответов

Как сохранить изображение локально с помощью Python, URL-адрес которого я уже знаю?

Я знаю URL-адрес изображения в Интернете. Например, http://www.digimouth.com/news/media/2011/09/google-logo.jpg, которое содержит логотип Google. Теперь, как я могу загрузить это изображение с помощью Python без ...
вопрос задан: 3 November 2013 21:21
0
ответов

В чем разница между сканированием веб-страниц и сканированием веб-страниц ? [дубликат]

Есть ли разница между сканированием и сканированием веб-страниц? Если есть разница, то какой метод лучше всего использовать для сбора некоторых веб-данных для предоставления базы данных для последующего использования в настраиваемых ...
вопрос задан: 6 September 2013 16:53
0
ответов

Как использовать CrawlSpider от пестрого для щелчка на ссылку с JavaScript onclick?

Я хочу пестрый проверить страницы, где продолжение к следующей ссылке похоже на это: <href = "#" onclick = "возвращают gotoPage ('2')";> Следующий </a> Будет пестрый мочь интерпретировать код JavaScript...
вопрос задан: 24 March 2013 00:21
0
ответов

Преобразование HTML в текст с помощью Python

Я пытаюсь преобразовать HTML-блок в текст, используя Python. Входные данные:

Lorem ipsum dolor ...

вопрос задан: 4 February 2013 19:57
0
ответов

Сохранение и рендеринг веб-страницы с помощью PhantomJS и node.js

Я ищу пример запроса веб-страницы в ожидании рендеринга JavaScript (JavaScript изменяет DOM ), а затем получить HTML-код страницы. Это должен быть простой пример с ...
вопрос задан: 26 December 2012 04:10
0
ответов

Отправить данные через веб-форму и извлечь результаты

Мои уровень python - новичок. Я никогда не писал парсера или краулера. Я написал код Python для подключения к API и извлечения нужных мне данных. Но для некоторых извлеченных данных я хочу ...
вопрос задан: 3 December 2012 20:43
0
ответов

Параллельная загрузка страниц с помощью PHP

Мне нужно сделать веб-сайт, где мне нужно получить несколько URL-адресов и затем обработать их один за другим. Текущий процесс выглядит примерно так. Я получаю базовый URL и получаю все вторичные URL из этого ...
вопрос задан: 21 September 2012 10:59
0
ответов

как очистить сайт с помощью php

Я получаю содержимое сайта с помощью следующей функции кода get_content ($ url) {$ content = @file_get_contents ($ url); if (empty ($ content)) {$ content = get_url_contents ($ url); ...
вопрос задан: 24 August 2012 05:16
0
ответов

Есть идеи, как определить основное содержание страницы?

, если вам нужно было идентифицировать основной текст страницы ( например, на странице блога, чтобы определить содержание сообщения) что бы вы сделали? Как вы думаете, как это сделать проще всего? Получите содержимое страницы с помощью cURL ...
вопрос задан: 5 August 2012 05:52
0
ответов

Как узнать, находится ли приложение Facebook на странице?

Изначально я использовал следующий подход: http_head('http://www.facebook.com/pages/Test/' . $input['fb_page_id'] . '?sk=app_' . $input[ 'fb_id']), 'HTTP/1.1 301 перемещен навсегда') Проблема с...
вопрос задан: 2 August 2012 07:42
0
ответов

R-программирование XML :извлечение определенного узла

Мне было интересно, как добраться до определенного узла с помощью XML-пакета R. Вот пример использования встроенного набора данных R, mtcars. имя_файла < -system.file ("exampleData", "mtcars.xml", package="XML" )...
вопрос задан: 29 July 2012 19:47
0
ответов

Как использовать очистку urlopen python после того, как страница загрузит все результаты поиска?

Я пытаюсь получить информацию об авиабилетах (, включая информацию о самолетах, информацию о ценах и т. д. )из http://flight.qunar.com/, используя python3 и BeautifulSoup. Ниже приведен код Python, который я использую. В этом коде я...
вопрос задан: 25 July 2012 08:38
0
ответов

Python Web Scraping -ошибка urlopen [Errno -2] Имя или служба неизвестны

Я пытаюсь извлечь данные из ссылки Civic Commons Apps для своего проекта. Я могу получить ссылки на нужную мне страницу. Но когда я пытаюсь открыть ссылки, я получаю "urlopen error [Errno -2] Имя или...
вопрос задан: 23 July 2012 05:49
0
ответов

python :Поисковый парсер Google с BeautifulSoup

Цель :Передать строку поиска для поиска в Google и очистить URL-адрес, заголовок и небольшое описание, которые будут опубликованы вместе с заголовком URL-адреса. У меня есть следующий код, и на данный момент мой код дает только...
вопрос задан: 17 July 2012 01:34
0
ответов

Можно ли использовать Text или ByteString в HXT в Haskell?

Я думаю, что HXT, библиотека обработки XML/HTML в Haskell, имеет действительно гибкие и мощные методы для обхода и управления деревьями DOM с помощью Arrows. http://adit.io/posts/2012-04-14-...
вопрос задан: 8 July 2012 09:51
0
ответов

injectJs с PhantomJs и CasperJs

Я пытаюсь использовать CasperJS для парсинга веб-сайта с динамическим контентом, и пока у меня ничего не получается. Веб-сайт использует несколько библиотек js (например, Prototype) для использования автозаполнения для создания контента. Я ...
вопрос задан: 27 June 2012 16:18
0
ответов

PHP: strip_tags — удалить только определенные теги (и их содержимое)?

Я использую функцию strip_tags(), но мне нужно удалить некоторые теги (и все их содержимое). например:

Тест A

Тест B <...
вопрос задан: 26 June 2012 23:36
0
ответов

Каков самый простой способ программно запустить сканер в Scrapy >= 0.14

Я хочу запустить сканер в Scrapy из модуля Python.Я хочу, по сути, имитировать сущность $ scrapy crawl my_crawler -a some_arg=value -L DEBUG У меня есть следующие вещи: a ...
вопрос задан: 26 June 2012 18:34
0
ответов

Извлечение данных о посетителях в режиме реального времени из Google Analytics

У меня есть много сайтов, и я хочу создать информационную панель, показывающую количество посетителей в реальном времени на каждом из них на одной странице. (захочет ли это кому-нибудь еще?) На данный момент единственный способ просмотреть это...
вопрос задан: 21 June 2012 23:12
0
ответов

Войдите на веб-страницу, используя phantomjs и Jquery

Я новичок в phantomjs, Java-скриптах и ​​WebScraping в целом. Я хочу сделать базовую HTTP-аутентификацию, а затем посетить другой URL-адрес, чтобы получить некоторую информацию. Вот что у меня есть до сих пор. Пожалуйста...
вопрос задан: 19 June 2012 18:43
0
ответов

Очистка веб-страниц в реальном времени с помощью Node.js

Что хорошо, так это очистка содержимого веб-сайтов с помощью Node.js. Я' Я бы хотел создать что-то очень, очень быстрое, что может выполнять поиск в стиле kayak.com, где один запрос отправляется нескольким ...
вопрос задан: 18 June 2012 17:00
0
ответов

Захват кодов статуса http с помощью программы scrapy

Я новичок в работе со scrapy. Я пишу паука, предназначенного для проверки длинного списка URL-адресов на наличие кодов состояния сервера и, при необходимости, на какие URL-адреса они перенаправляются. Главное, если есть цепочка...
вопрос задан: 13 June 2012 15:29
0
ответов

Скачивание файла с помощью Python mechanize

Я пытаюсь загрузить файл с веб-сайта с помощью Python и mechanize. Мой текущий код успешно входит на веб-сайт и открывает страницу, содержащую ссылку для загрузки. Ссылка для скачивания: ...
вопрос задан: 12 June 2012 17:47
0
ответов

Как прочитать всю веб-страницу в переменную

Я пытаюсь прочитать всю веб-страницу и присвоить ее переменной, но у меня не получается это сделать. Кажется, что переменная может содержать только первые 512 или около того строк исходного кода страницы. Я пытался...
вопрос задан: 6 June 2012 14:17
0
ответов

Получение окончательного HTML-кода с помощью Javascript, отображающего Java как строку

Я хочу получить данные со страницы HTML (очистить их). Но он содержит отзывы в javascript. При обычной выборке URL-адреса Java я получаю только HTML (фактический) без выполнения Javascript. Я хочу финал...
вопрос задан: 3 June 2012 17:25
0
ответов

Как очистить защищенные страницы в R (ссылки https) (используя readHTMLTable из пакета XML)?

На SO есть хорошие ответы о том, как использовать readHTMLTable из пакета XML, и я сделал это с обычными http-страницами, однако я не могу решить свою проблему с https-страницами. Я пытаюсь...
вопрос задан: 2 June 2012 18:26