2
ответа

поисковый робот по сравнению со скребком

Может кто-то различать поисковый робот и скребок с точки зрения объема и функциональности.
вопрос задан: 18 October 2015 21:04
1
ответ

Ошибка API потока Facebook работает в браузере, но не на стороне сервера

Если я ввожу этот URL в браузер, он возвращает мне действительные данные XML, которые мне интересны. HTTP: //www.facebook.com/ajax/stream/profile.php __a = 1 & profile_id = 36343869811 & фильтр = 2 & ...
вопрос задан: 30 August 2010 16:47
0
ответов

preg_match (): Ошибка компиляции: недопустимый диапазон в классе символов по смещению 4 в F: \ xampp \ htdocs \ script7 \ simple_html_dom.php в строке 1365 [дубликат]

У нас есть программа php web scraper, которая может очищать данные в сети. Это работает на localhost. Но мы получаем ошибку "preg_match (): Сбой компиляции: недопустимый диапазон в классе символов в ...
вопрос задан: 1 March 2019 19:52
0
ответов

Scrapy только основной текст

Я пытаюсь очистить текст только от основного текста с помощью python Scrapy, но пока безуспешно. Хотелось бы, чтобы некоторые ученые могли помочь мне здесь, очистив весь текст из тега .
вопрос задан: 13 January 2018 08:47
0
ответов

XPath ::Получить следующего брата

У меня есть следующая структура HTML :. Я пытаюсь создать надежный метод для извлечения второго элемента дайджеста цвета, поскольку в DOM будет много таких тегов. <таблица> <тело> &...
вопрос задан: 23 October 2017 10:02
0
ответов

Сканирование LinkedIn во время аутентификации с помощью Scrapy

Итак, я прочитал Crawling с аутентификацией сеанса в Scrapy, и я завис, я на 99% уверен, что мой код синтаксического анализа верен, я просто не считаю, что вход в систему перенаправляется и является ...
вопрос задан: 23 May 2017 12:22
0
ответов

Метатеги Facebook, очищенные из-за локали, не работают

Мой веб-сайт многоязычный, и у меня есть кнопка «Нравится» в FB. Я бы хотел, чтобы похожие сообщения были на разных языках. Согласно документации Facebook, если я использую метатеги og: locale и og: locale: ...
вопрос задан: 21 March 2012 11:14
0
ответов

BeautifulSoup: Вычеркнуть указанные атрибуты, но сохранить тег и его содержимое

Я пытаюсь "дефронтпагифицировать" html сайта, созданного MS FrontPage, и пишу для этого скрипт BeautifulSoup. Однако я застрял на той части, где я пытаюсь отделить определенный ...
вопрос задан: 28 January 2012 09:03
0
ответов

Советы по использованию тега Honeypot IMG для обнаружения скребков / плохих ботов

Мы хотим настроить небольшое изображение Honeypot в наших HTML-телах для обнаружения скребков / плохих ботов. Кто-нибудь установил что-то вроде этого раньше? Мы думали, что лучший способ пойти на это было бы: a) ...
вопрос задан: 7 September 2011 20:24
0
ответов

проблема кодировки символов в механизированной форме отправки

Я пытаюсь очистить http://www.nscb.gov.ph/ggi/database.asp, особенно все таблицы, которые вы получаете при выборе муниципалитеты / провинции. Я использую python с lxml.html и механизирую. мой ...
вопрос задан: 14 July 2011 10:27
0
ответов

Не удается заставить работать конвейер Scrapy

У меня есть паук, который я написал, используя фреймворк Scrapy. У меня возникли проблемы с запуском конвейеров. У меня есть следующий код в моем pipelines.py: class FilePipeline(object): ...
вопрос задан: 4 November 2010 19:40