web-crawler - список вопросов по программированию web-crawler

ответов

Разработка веб-краулера

Я столкнулся с вопросом собеседования: «Если бы вы разрабатывали веб-сканер, как бы вы избежали бесконечных циклов?» и я пытаюсь на него ответить. Как все это начинается с ...

вопрос задан: 12 December 2013 01:25

ответов

В чем разница между сканированием веб-страниц и сканированием веб-страниц ? [дубликат]

Есть ли разница между сканированием и сканированием веб-страниц? Если есть разница, то какой метод лучше всего использовать для сбора некоторых веб-данных для предоставления базы данных для последующего использования в настраиваемых ...

search-engine web-scraping web-crawler

вопрос задан: 6 September 2013 16:53

ответов

Как сохранить исходный html-файл с помощью Apache Nutch

Я новичок в поисковых системах и поисковых роботах. Теперь я хочу сохранить все исходные страницы определенного веб-сайта в виде html-файлов, но с помощью Apache Nutch я могу получить только двоичные файлы базы данных. Как мне...

nutch search-engine web-crawler

вопрос задан: 8 April 2013 22:48

ответов

Отправить данные через веб-форму и извлечь результаты

Мои уровень python - новичок. Я никогда не писал парсера или краулера. Я написал код Python для подключения к API и извлечения нужных мне данных. Но для некоторых извлеченных данных я хочу ...

python web-crawler web-scraping

вопрос задан: 3 December 2012 20:43

ответов

юридические или этические ошибки для поискового робота? [закрыто]

Мне было поручено автоматизировать сравнение запасов клиента из нескольких не связанных между собой витрин. Эти витрины не предлагают API, поэтому я вынужден написать краулер на Python, который ...

web-crawler

вопрос задан: 23 November 2012 09:24

ответов

Игнорирует ли Google все, что находится после хэш-фрагмента (#) при сканировании нашего веб-сайта?

Мы используем информацию, которая находится после хеш-фрагмента, для отображения различных страниц с помощью JavaScript, чтобы не заставлять браузер снова загружать всю страницу. Например, прямая ссылка на ...

indexing web-crawler hyperlink sitemap

вопрос задан: 12 November 2012 08:02

ответов

Быстрый поисковый робот в Интернете

Я бы хотел выполнить крупномасштабный интеллектуальный анализ данных. Для этого мне нужен быстрый краулер. Все, что мне нужно, это что-то, чтобы загрузить веб-страницу, извлечь ссылки и рекурсивно переходить по ним, но без посещения ...

python multithreading web-crawler web-mining

вопрос задан: 14 October 2012 13:34

ответов

Действительно ли AJAX оптимизирован для SEO?

Сейчас с Web 2.0 трендом является AJAX, на рынке существует множество существующих фреймворков, продвигающих AJAX, но действительно ли AJAX дружественен к SEO?

ajax search-engine web-crawler seo

вопрос задан: 11 October 2012 03:37

ответов

Используют ли современные поисковые роботы событие click или переходят непосредственно к тегу href в тегах привязки?

Я создаю веб-сайт, который я хочу вести себя причудливо -как для пользователей, но хочу, чтобы поисковые роботы по-прежнему могли правильно перемещаться. У меня есть следующий тег привязки : html javascript seo web-crawler

вопрос задан: 19 August 2012 21:33

ответов

Какая база данных для краулера/парсера?

В настоящее время я изучаю, какую базу данных использовать для проекта, над которым я работаю. Надеюсь, вы, ребята, можете дать мне несколько советов. Проект представляет собой автоматизированный веб-краулер, который проверяет веб-сайты в соответствии с з

database nosql screen-scraping sql web-crawler

вопрос задан: 12 August 2012 07:45

ответов

Лучший способ выбрать изображение из HTML для использования в качестве эскиза/превью страницы

Предполагая, что нет источника og :изображения или ссылки rel img _, есть ли у кого-нибудь реальный -мировой опыт или совет по лучшим -чем -случайным методам выбора изображения, которое лучше всего представляет сеть? страница? Обновление :...

facebook-opengraph html thumbnails web-crawler

вопрос задан: 24 July 2012 10:38

ответов

определение языка веб-сайта python

Я пишу бота, который может просто проверить тысячи веб-сайтов, независимо от того, на английском они или нет. я использую Scrapy (python 2.7 framework )для сканирования первой страницы каждого веб-сайта, может ли кто-нибудь предложить мне...

python scrapy web-crawler language-detection

вопрос задан: 16 July 2012 15:22

ответов

Извлечение данных тега Span с помощью Jsoup

Я пытаюсь извлечь конкретное содержимое в HTML с помощью Jsoup. Ниже приведен образец содержимого HTML.

java web-crawler jsoup

вопрос задан: 11 July 2012 21:55

ответов

PHP -не может изменить максимальное _время выполнения _в xampp

Я пробовал все, чтобы изменить максимальное _время выполнения _скрипта сканера php, чтобы он мог работать бесконечное количество времени. Я изменил настройку файла php.ini максимальное _время выполнения _на 0 или...

php time web-crawler

вопрос задан: 11 July 2012 15:02

ответов

Сканирование с использованием Nutch… Показывает IOException [закрыто]

Я начал использовать Nutch, и все было хорошо, пока не столкнулся с исключением IOException, $ ./nutch crawl urls -dir myCrawl -depth 2 -topN 4 cygpath: невозможно преобразовать пустой путь solrUrl не задан, ...

ioexception java nutch open-source web-crawler

вопрос задан: 23 June 2012 21:20

ответов

можно ли написать поисковый робот на javascript?

Я хочу просканировать страницу и проверить наличие гиперссылок на соответствующей странице, а также перейти по этим гиперссылкам и получить данные со страницы

javascript web-crawler

вопрос задан: 18 June 2012 13:04

ответов

Законно ли сканирование Amazon? [закрыто]

Я хочу получить конкретную информацию от Amazon, такую как название и описание продукта! Законно ли сканировать amazon. или Амазонка предоставляет какой-либо API для платной или бесплатной оплаты своих данных

amazon web-crawler

вопрос задан: 18 June 2012 09:59

ответов

Запуск нескольких пауков в scrapy

Например, в scrapy, если у меня есть два URL-адреса, которые содержат разные HTML. Теперь я хочу написать двух отдельных пауков каждый за одного и хочу запустить обоих пауков одновременно. В scrapy можно запустить ...

python scrapy web-crawler

вопрос задан: 8 June 2012 05:58

ответов

Многопоточный сканер Python

Здравствуйте! Я пытаюсь написать веб-сканер с помощью python. Я хотел использовать многопоточность Python. Даже после прочтения ранее предложенных статей и руководств у меня все еще есть проблема. Мой код здесь (полный ...

multithreading python thread-safety web-crawler

вопрос задан: 29 May 2012 14:43

ответов

как разрешить известным поисковым роботам и блокировать спамеров и вредоносных роботов от сканирования веб-сайта asp.net

Как я могу настроить свой сайт, чтобы разрешить сканирование от известных роботов такие как google, bing, yahoo, alexa и т. д. и остановить других вредоносных спамеров, роботов, должен ли я блокировать определенный IP-адрес? пожалуйста, обсудите любые пл

asp.net block web-crawler

вопрос задан: 29 May 2012 06:10

ответов

Как разрешить поисковым роботам правильно индексировать страницы с бесконечной прокруткой?

У меня есть веб-сайт, на котором я реализую бесконечную прокрутку: когда пользователь достигает конца страницы, выполняется вызов AJAX, и новый контент прикрепляется к нижней части страницы. Это, однако, означает, что все...

web-crawler infinite-scroll

вопрос задан: 28 May 2012 11:39

ответов

Nutch: чтение данных и добавление метаданных

Недавно я начал искать apache nutch. Я мог настроить и сканировать интересующие меня веб-страницы с помощью nutch. Я не совсем понимаю, как читать эти данные. Я в принципе хочу связать...

nutch semantic-web solr web-crawler lucene

вопрос задан: 27 May 2012 06:09

ответов

Как правильно загрузить поддомен веб-сайта в Linux с помощью wget или других инструментов?

Я хочу скачать все отрывки с http://source.yeeyan.org. В нем много страниц. Например. http://source.yeeyan.org/?page=22202 Итак, как использовать wget или другие инструменты в Linux, чтобы загрузить их? ...

download web-crawler wget linux

вопрос задан: 25 May 2012 07:21

ответов

Получение статических HTML-файлов из XML-дампа Википедии

Я хотел бы иметь возможность получать относительно современные статические HTML-файлы из огромного (даже сжатого) XML-файл дампа Википедии enwiki-latest-pages-articles.xml.bz2 Я скачал...

screen-scraping web-crawler wikipedia xml-parsing mediawiki

вопрос задан: 23 May 2012 05:10

ответов

Простой веб-сканер на C#

Я создал простой веб-сканер, но я хочу добавить функцию рекурсии, чтобы каждая открываемая страница могла получать URL-адреса на этой странице., но я понятия не имею, как я могу это сделать, и я хочу также...

web-crawler c#

вопрос задан: 4 May 2012 16:32

ответов

Разница между поиском и фильтрацией в jquery

Я работаю над получением данных со страниц вики. Я использую комбинацию php и jquery для этого. Сначала я использую curl в php для извлечения содержимого страницы и повторения содержимого. Имя файла соответствует....

find web-crawler jquery

вопрос задан: 30 April 2012 08:32

ответов

Просканируйте веб-сайт, получите ссылки, просканируйте ссылки с помощью PHP и XPATH

Я хочу просканировать весь веб-сайт, я прочитал несколько тем, но не могу получить данные на 2-м уровне. То есть я могу вернуть ссылки со стартовой страницы, но тогда не могу найти способ...

hyperlink php web-crawler xpath

вопрос задан: 12 April 2012 12:12

ответов

неизвестная команда: ошибка сканирования

Я новичок в python. Я использую 32-битную версию python 2.7.3 на 64-битной ОС. (Я пробовал 64-битную версию, но это не сработало). Я следовал инструкциям и установил на свой компьютер scrapy. Я создал один...

python scrapy web-crawler

вопрос задан: 12 April 2012 12:00

ответов

Как запретить ботам сканировать мои URL-адреса на основе AJAX?

У меня есть несколько страниц на моем веб-сайте ASP.NET MVC 3 (не то, чтобы технология здесь имела значение), где я отображаю определенные URL-адреса в теге