0
ответов

scrapy python, похоже, не получает данные со всех доступных URL-адресов

Я пытаюсь очистить thisssion.org, чтобы создать таблицу, сколько раз каждая мелодия была добавлен в сборники песен участника, так что я могу найти некоторые популярные пьесы для изучения. Я начал со скрапинга ...
вопрос задан: 27 November 2011 07:00
0
ответов

Эффективный синтаксический анализ метатегов с помощью lxml?

Я анализирую HTML-страницы с помощью lxml. Страницы имеют следующие метатеги: Как я могу использовать ...
вопрос задан: 15 November 2011 19:02
0
ответов

Как выбрать радиокнопку с помощью Mechanize в Ruby?

Я создаю сканер и использую Mechanize. Я хочу установить переключатель. Как я могу это сделать ? Например, есть две радиокнопки: «А» и «В». Веб-сайт автоматически ...
вопрос задан: 11 November 2011 10:38
0
ответов

Сохранение всех файлов изображений с веб-сайта

Я создаю для себя небольшое приложение, в котором я запускаю сценарий Ruby и сохраняю все изображения из своего блога. Я не могу понять, как сохранить файлы изображений после того, как идентифицировал их. Любая помощь будет ...
вопрос задан: 30 October 2011 13:41
0
ответов

парсинг PDF с использованием R

Я успешно использовал пакет XML для извлечения таблиц HTML, но хочу расширить его до PDF-файлы. Из предыдущих вопросов не видно, что существует простое решение R, но мне интересно, если ...
вопрос задан: 27 October 2011 15:54
0
ответов

Могу ли я запустить все сценарии JavaScripts на странице при парсинге веб-страниц с помощью Node.js? (т.е. имитировать реальный браузер?)

Я пытаюсь выполнить парсинг веб-страниц с помощью node.js. Используя jsdom, легко загрузить DOM и внедрить в него JavaScript. Я хочу пойти еще дальше: запустить весь JavaScript, связанный с веб-страницей ...
вопрос задан: 20 October 2011 21:30
0
ответов

Как лучше всего очистить этот HTML-код для приложения для Android?

Как лучше всего очистить указанный ниже HTML-код из страница в Интернете? Я хочу вытащить Apple, Orange и Grape и поместить их в раскрывающееся меню в моем приложении для Android. Следует ли мне использовать для этого Jsoup, и если да, то ...
вопрос задан: 19 September 2011 19:18
0
ответов

Скаивание данных из PDF до CSV? Python vs php?

У меня есть куча сообщений, которые я вручаю каждый день, и он принимает навсегда, поэтому я думал о автоматизации всего процесса. Я буду соскорять данные из: (1) HTML, (2) CSV / XLS, (3) PDF. Я ...
вопрос задан: 9 September 2011 02:30
0
ответов

Проблемы с соскобом веб-сайта с использованием Zombie.js

Мне нужно сделать веб-соскоб. После игры с различными веб-структурами веб-тестирования, из которых большинство, где либо слишком медленно (селен), либо слишком багги для моих потребностей (env.js), я решил, что Zombie.js ...
вопрос задан: 7 September 2011 15:56
0
ответов

, Как получить содержание javascript/ajax - загруженное отделение на территории?

у меня есть Сценарий PHP, который загружает содержание страницы из другого веб-сайта при помощи ЗАВИТКА и simple_html_dom библиотеки PHP. Это работает отлично. Если я отзываюсь эхом, HTML возвратился, я вижу содержание отделения там....
вопрос задан: 3 September 2011 02:23
0
ответов

Какие бесплатные/платные поисковые API позволяют осуществлять программный запрос и кэшировать/хранить полученные данные?

Если вы провели серьезные исследования поисковых API, вы знаете, что большинство из них имеют огромное количество ограничений TOS/TOU, которые делают их практически невозможными для использования во всем, кроме самого глупого ...
вопрос задан: 31 August 2011 23:15
0
ответов

Как узнать, когда delayed_job выполнил свою работу?

В настоящее время у меня есть метод в моей модели для очистки сайта и вставки записей в базу данных. def self.scrape #scrape #insert в базу данных end Я установил метод контроллера для его вызова: def scrape ...
вопрос задан: 15 August 2011 13:03
0
ответов

Использование Nokogiri для разделения содержимого по тегам BR

У меня есть фрагмент кода, который я пытаюсь проанализировать с помощью nokogiri, который выглядит следующим образом: Link 1 (info1), Blah 1,
вопрос задан: 14 August 2011 18:50
0
ответов

Kenbe bonbon ant demann Mechanize

Mwen ap eseye sèvi ak vèsyon an Ruby nan Mechanize ekstrè tikè patwon mwen an nan yon sistèm jesyon tikè ke nou ap deplase lwen ki pa bay yon API. Pwoblèm lan se, li sanble ...
вопрос задан: 12 August 2011 21:31
0
ответов

Использование Ruby с Mechanize для входа на веб-сайт

I мне нужно очистить данные с сайта, но сначала требуется мой логин. Я использую hpricot для успешного очистки других сайтов, но я новичок в использовании механизации, и я действительно сбит с толку, как с этим работать ... .
вопрос задан: 8 July 2011 19:39
0
ответов

Watir Изменение настроек Mozilla Firefox

Я запускаю сценарий Ruby с помощью Watir для автоматизации некоторых вещей для меня. Я пытаюсь автоматически сохранить некоторые файлы в определенный каталог. Итак, в настройках Mozilla я установил загрузку по умолчанию ...
вопрос задан: 3 July 2011 17:29
0
ответов

Как заменить слова тегом span с помощью jsoup?

Предположим, у меня есть следующий html:
Я собираюсь к ...
вопрос задан: 30 June 2011 11:58
0
ответов

Использование Python и Mechanize для отправки формы данные и аутентификация

Я хочу отправить логин на сайт Reddit.com, перейти в определенную область страницы и отправить комментарий. Я не вижу, что не так с этим кодом, но он не работает, потому что никаких изменений ...
вопрос задан: 23 June 2011 20:20
0
ответов

Screen Scraping - Read Captcha

I am working on Screen Scraping, I was able to do it, but some of the websites have captcha and I'll need to enter captcha information to proceed further Is there anyway to read captcha information ...
вопрос задан: 15 June 2011 06:52
0
ответов

Вывод шаблонов из набора строк

Я индексирую набор веб-сайтов с очень большим количеством страниц (десятки миллионов), созданных из небольшого количество шаблонов. Я ищу алгоритм для изучения шаблонов ...
вопрос задан: 9 June 2011 19:18
0
ответов

PHP DOMNode: как извлекать не только текст, но и HTML-теги

Я пытаюсь создать сценарий, который просматривает веб-сайт для получения последних обновлений новостей. К сожалению, я столкнулся с небольшой проблемой, которую я не могу исправить, имея ограниченные знания DOM. Страница Я '...
вопрос задан: 7 June 2011 19:21
0
ответов

Очистите с помощью подстановочных знаков и php

Привет, ребята, мне сложно представить и представить, как очистить эту страницу: http://www.morewords.com/ends-with / aw для самих слов. Учитывая URL-адрес, я хотел бы получить содержимое, а затем ...
вопрос задан: 5 May 2011 23:29
0
ответов

Утечка памяти в парсере Node.js

Это простой парсер, написанный на JavaScript с помощью Node.js, для очистки Википедии от данных элементов периодической таблицы. Зависимости: jsdom для манипуляций с DOM и цепочка для очередей. Это ...
вопрос задан: 19 April 2011 14:54
0
ответов

Как очищать логотипы с веб-сайтов?

Во-первых, это не вопрос о том, как очищать веб-сайты. Я полностью осведомлен о доступных мне инструментах для очистки (css_parser, nokogiri и т. Д. Я использую Ruby для очистки). Это больше о ...
вопрос задан: 9 April 2011 20:34
0
ответов

Как установить значение скрытой формы в Mechanize / Python?

Я очищаю сайт, который использует скрытую форму как средство противодействия именно тому, что я пытаюсь сделать делать. Эта форма:
вопрос задан: 8 April 2011 07:50
0
ответов

Какой самый элегантный способ сделать очистку экрана в node.js?

Я нахожусь в процессе создания веб-приложения, которое использует обширную очистку экрана в node.js. Я чувствую, что борюсь с течением на каждом углу. Должен быть способ сделать это проще. ...
вопрос задан: 27 March 2011 00:13
0
ответов

Search engine that allows results to be scraped?

Since site scraping Google, Bing, etc. is against their terms of service I was wondering if there is any search engine that allows results to be scraped?
вопрос задан: 23 March 2011 09:42
0
ответов

как запустить сразу несколько потоков очистки экрана nokogiri

У меня есть веб-сайт, на котором для извлечения данных требуется использовать Nokogiri на многих разных веб-сайтах. Этот процесс запускается как фоновое задание с использованием гема delayed_job. Однако это занимает около 3-4 секунд на ...
вопрос задан: 21 March 2011 13:22
0
ответов

Способ обнаружения парсинга веб-страниц

Мне нужно обнаружить парсинг информации на моем веб-сайте. Я пробовал обнаружение на основе моделей поведения, и это кажется многообещающим, хотя и относительно тяжелым. База предназначена для сбора запроса ...
вопрос задан: 20 March 2011 23:54
0
ответов

Python - самый простой способ очистить текст из списка URL-адресов с помощью BeautifulSoup

Какой самый простой способ очистить только текст с нескольких веб-страниц (используя список URL-адресов) с помощью BeautifulSoup? Это вообще возможно? Лучший, Джорджина
вопрос задан: 16 March 2011 20:20