Я столкнулся с вопросом собеседования: «Если бы вы разрабатывали веб-сканер, как бы вы избежали бесконечных циклов?» и я пытаюсь на него ответить. Как все это начинается с ...
Есть ли разница между сканированием и сканированием веб-страниц? Если есть разница, то какой метод лучше всего использовать для сбора некоторых веб-данных для предоставления базы данных для последующего использования в настраиваемых ...
Я новичок в поисковых системах и поисковых роботах. Теперь я хочу сохранить все исходные страницы определенного веб-сайта в виде html-файлов, но с помощью Apache Nutch я могу получить только двоичные файлы базы данных. Как мне...
Мои уровень python - новичок. Я никогда не писал парсера или краулера. Я написал код Python для подключения к API и извлечения нужных мне данных. Но для некоторых извлеченных данных я хочу ...
Мне было поручено автоматизировать сравнение запасов клиента из нескольких не связанных между собой витрин. Эти витрины не предлагают API, поэтому я вынужден написать краулер на Python, который ...
Мы используем информацию, которая находится после хеш-фрагмента, для отображения различных страниц с помощью JavaScript, чтобы не заставлять браузер снова загружать всю страницу. Например, прямая ссылка на ...
Я бы хотел выполнить крупномасштабный интеллектуальный анализ данных. Для этого мне нужен быстрый краулер. Все, что мне нужно, это что-то, чтобы загрузить веб-страницу, извлечь ссылки и рекурсивно переходить по ним, но без посещения ...
Сейчас с Web 2.0 трендом является AJAX, на рынке существует множество существующих фреймворков, продвигающих AJAX, но действительно ли AJAX дружественен к SEO?
Я создаю веб-сайт, который я хочу вести себя причудливо -как для пользователей, но хочу, чтобы поисковые роботы по-прежнему могли правильно перемещаться. У меня есть следующий тег привязки :htmljavascriptseoweb-crawler
В настоящее время я изучаю, какую базу данных использовать для проекта, над которым я работаю. Надеюсь, вы, ребята, можете дать мне несколько советов. Проект представляет собой автоматизированный веб-краулер, который проверяет веб-сайты в соответствии с з
Предполагая, что нет источника og :изображения или ссылки rel img _, есть ли у кого-нибудь реальный -мировой опыт или совет по лучшим -чем -случайным методам выбора изображения, которое лучше всего представляет сеть? страница? Обновление :...
Я пишу бота, который может просто проверить тысячи веб-сайтов, независимо от того, на английском они или нет. я использую Scrapy (python 2.7 framework )для сканирования первой страницы каждого веб-сайта, может ли кто-нибудь предложить мне...
Я пробовал все, чтобы изменить максимальное _время выполнения _скрипта сканера php, чтобы он мог работать бесконечное количество времени. Я изменил настройку файла php.ini максимальное _время выполнения _на 0 или...
Я начал использовать Nutch, и все было хорошо, пока не столкнулся с исключением IOException, $ ./nutch crawl urls -dir myCrawl -depth 2 -topN 4
cygpath: невозможно преобразовать пустой путь
solrUrl не задан, ...
Я хочу просканировать страницу и проверить наличие гиперссылок на соответствующей странице, а также перейти по этим гиперссылкам и получить данные со страницы
Я хочу получить конкретную информацию от Amazon, такую как название и описание продукта!
Законно ли сканировать amazon.
или Амазонка предоставляет какой-либо API для платной или бесплатной оплаты своих данных
Например, в scrapy, если у меня есть два URL-адреса, которые содержат разные HTML. Теперь я хочу написать двух отдельных пауков каждый за одного и хочу запустить обоих пауков одновременно. В scrapy можно запустить ...
Здравствуйте! Я пытаюсь написать веб-сканер с помощью python. Я хотел использовать многопоточность Python. Даже после прочтения ранее предложенных статей и руководств у меня все еще есть проблема. Мой код здесь (полный ...
Как я могу настроить свой сайт, чтобы разрешить сканирование от известных роботов
такие как google, bing, yahoo, alexa и т. д. и остановить других вредоносных спамеров, роботов, должен ли я блокировать определенный IP-адрес? пожалуйста, обсудите любые пл
У меня есть веб-сайт, на котором я реализую бесконечную прокрутку: когда пользователь достигает конца страницы, выполняется вызов AJAX, и новый контент прикрепляется к нижней части страницы. Это, однако, означает, что все...
Недавно я начал искать apache nutch. Я мог настроить и сканировать интересующие меня веб-страницы с помощью nutch. Я не совсем понимаю, как читать эти данные. Я в принципе хочу связать...
Я хочу скачать все отрывки с http://source.yeeyan.org.
В нем много страниц. Например. http://source.yeeyan.org/?page=22202
Итак, как использовать wget или другие инструменты в Linux, чтобы загрузить их?
...
Я хотел бы иметь возможность получать относительно современные статические HTML-файлы из огромного (даже сжатого) XML-файл дампа Википедии enwiki-latest-pages-articles.xml.bz2 Я скачал...
Я создал простой веб-сканер, но я хочу добавить функцию рекурсии, чтобы каждая открываемая страница могла получать URL-адреса на этой странице., но я понятия не имею, как я могу это сделать, и я хочу также...
Я работаю над получением данных со страниц вики. Я использую комбинацию php и jquery для этого. Сначала я использую curl в php для извлечения содержимого страницы и повторения содержимого. Имя файла соответствует....
Я хочу просканировать весь веб-сайт, я прочитал несколько тем, но не могу получить данные на 2-м уровне. То есть я могу вернуть ссылки со стартовой страницы, но тогда не могу найти способ...
Я новичок в python. Я использую 32-битную версию python 2.7.3 на 64-битной ОС. (Я пробовал 64-битную версию, но это не сработало). Я следовал инструкциям и установил на свой компьютер scrapy. Я создал один...
У меня есть несколько страниц на моем веб-сайте ASP.NET MVC 3 (не то, чтобы технология здесь имела значение), где я отображаю определенные URL-адреса в теге