0
ответов

Разработка веб-краулера

Я столкнулся с вопросом собеседования: «Если бы вы разрабатывали веб-сканер, как бы вы избежали бесконечных циклов?» и я пытаюсь на него ответить. Как все это начинается с ...
вопрос задан: 12 December 2013 01:25
0
ответов

В чем разница между сканированием веб-страниц и сканированием веб-страниц ? [дубликат]

Есть ли разница между сканированием и сканированием веб-страниц? Если есть разница, то какой метод лучше всего использовать для сбора некоторых веб-данных для предоставления базы данных для последующего использования в настраиваемых ...
вопрос задан: 6 September 2013 16:53
0
ответов

Как сохранить исходный html-файл с помощью Apache Nutch

Я новичок в поисковых системах и поисковых роботах. Теперь я хочу сохранить все исходные страницы определенного веб-сайта в виде html-файлов, но с помощью Apache Nutch я могу получить только двоичные файлы базы данных. Как мне...
вопрос задан: 8 April 2013 22:48
0
ответов

Отправить данные через веб-форму и извлечь результаты

Мои уровень python - новичок. Я никогда не писал парсера или краулера. Я написал код Python для подключения к API и извлечения нужных мне данных. Но для некоторых извлеченных данных я хочу ...
вопрос задан: 3 December 2012 20:43
0
ответов

юридические или этические ошибки для поискового робота? [закрыто]

Мне было поручено автоматизировать сравнение запасов клиента из нескольких не связанных между собой витрин. Эти витрины не предлагают API, поэтому я вынужден написать краулер на Python, который ...
вопрос задан: 23 November 2012 09:24
0
ответов

Игнорирует ли Google все, что находится после хэш-фрагмента (#) при сканировании нашего веб-сайта?

Мы используем информацию, которая находится после хеш-фрагмента, для отображения различных страниц с помощью JavaScript, чтобы не заставлять браузер снова загружать всю страницу. Например, прямая ссылка на ...
вопрос задан: 12 November 2012 08:02
0
ответов

Быстрый поисковый робот в Интернете

Я бы хотел выполнить крупномасштабный интеллектуальный анализ данных. Для этого мне нужен быстрый краулер. Все, что мне нужно, это что-то, чтобы загрузить веб-страницу, извлечь ссылки и рекурсивно переходить по ним, но без посещения ...
вопрос задан: 14 October 2012 13:34
0
ответов

Действительно ли AJAX оптимизирован для SEO?

Сейчас с Web 2.0 трендом является AJAX, на рынке существует множество существующих фреймворков, продвигающих AJAX, но действительно ли AJAX дружественен к SEO?
вопрос задан: 11 October 2012 03:37
0
ответов

Используют ли современные поисковые роботы событие click или переходят непосредственно к тегу href в тегах привязки?

Я создаю веб-сайт, который я хочу вести себя причудливо -как для пользователей, но хочу, чтобы поисковые роботы по-прежнему могли правильно перемещаться. У меня есть следующий тег привязки :
вопрос задан: 19 August 2012 21:33
0
ответов

Какая база данных для краулера/парсера?

В настоящее время я изучаю, какую базу данных использовать для проекта, над которым я работаю. Надеюсь, вы, ребята, можете дать мне несколько советов. Проект представляет собой автоматизированный веб-краулер, который проверяет веб-сайты в соответствии с з
вопрос задан: 12 August 2012 07:45
0
ответов

Лучший способ выбрать изображение из HTML для использования в качестве эскиза/превью страницы

Предполагая, что нет источника og :изображения или ссылки rel img _, есть ли у кого-нибудь реальный -мировой опыт или совет по лучшим -чем -случайным методам выбора изображения, которое лучше всего представляет сеть? страница? Обновление :...
вопрос задан: 24 July 2012 10:38
0
ответов

определение языка веб-сайта python

Я пишу бота, который может просто проверить тысячи веб-сайтов, независимо от того, на английском они или нет. я использую Scrapy (python 2.7 framework )для сканирования первой страницы каждого веб-сайта, может ли кто-нибудь предложить мне...
вопрос задан: 16 July 2012 15:22
0
ответов

Извлечение данных тега Span с помощью Jsoup

Я пытаюсь извлечь конкретное содержимое в HTML с помощью Jsoup. Ниже приведен образец содержимого HTML.
вопрос задан: 11 July 2012 21:55
0
ответов

PHP -не может изменить максимальное _время выполнения _в xampp

Я пробовал все, чтобы изменить максимальное _время выполнения _скрипта сканера php, чтобы он мог работать бесконечное количество времени. Я изменил настройку файла php.ini максимальное _время выполнения _на 0 или...
вопрос задан: 11 July 2012 15:02
0
ответов

Сканирование с использованием Nutch… Показывает IOException [закрыто]

Я начал использовать Nutch, и все было хорошо, пока не столкнулся с исключением IOException, $ ./nutch crawl urls -dir myCrawl -depth 2 -topN 4 cygpath: невозможно преобразовать пустой путь solrUrl не задан, ...
вопрос задан: 23 June 2012 21:20
0
ответов

можно ли написать поисковый робот на javascript?

Я хочу просканировать страницу и проверить наличие гиперссылок на соответствующей странице, а также перейти по этим гиперссылкам и получить данные со страницы
вопрос задан: 18 June 2012 13:04
0
ответов

Законно ли сканирование Amazon? [закрыто]

Я хочу получить конкретную информацию от Amazon, такую ​​как название и описание продукта! Законно ли сканировать amazon. или Амазонка предоставляет какой-либо API для платной или бесплатной оплаты своих данных
вопрос задан: 18 June 2012 09:59
0
ответов

Запуск нескольких пауков в scrapy

Например, в scrapy, если у меня есть два URL-адреса, которые содержат разные HTML. Теперь я хочу написать двух отдельных пауков каждый за одного и хочу запустить обоих пауков одновременно. В scrapy можно запустить ...
вопрос задан: 8 June 2012 05:58
0
ответов

Многопоточный сканер Python

Здравствуйте! Я пытаюсь написать веб-сканер с помощью python. Я хотел использовать многопоточность Python. Даже после прочтения ранее предложенных статей и руководств у меня все еще есть проблема. Мой код здесь (полный ...
вопрос задан: 29 May 2012 14:43
0
ответов

как разрешить известным поисковым роботам и блокировать спамеров и вредоносных роботов от сканирования веб-сайта asp.net

Как я могу настроить свой сайт, чтобы разрешить сканирование от известных роботов такие как google, bing, yahoo, alexa и т. д. и остановить других вредоносных спамеров, роботов, должен ли я блокировать определенный IP-адрес? пожалуйста, обсудите любые пл
вопрос задан: 29 May 2012 06:10
0
ответов

Как разрешить поисковым роботам правильно индексировать страницы с бесконечной прокруткой?

У меня есть веб-сайт, на котором я реализую бесконечную прокрутку: когда пользователь достигает конца страницы, выполняется вызов AJAX, и новый контент прикрепляется к нижней части страницы. Это, однако, означает, что все...
вопрос задан: 28 May 2012 11:39
0
ответов

Nutch: чтение данных и добавление метаданных

Недавно я начал искать apache nutch. Я мог настроить и сканировать интересующие меня веб-страницы с помощью nutch. Я не совсем понимаю, как читать эти данные. Я в принципе хочу связать...
вопрос задан: 27 May 2012 06:09
0
ответов

Как правильно загрузить поддомен веб-сайта в Linux с помощью wget или других инструментов?

Я хочу скачать все отрывки с http://source.yeeyan.org. В нем много страниц. Например. http://source.yeeyan.org/?page=22202 Итак, как использовать wget или другие инструменты в Linux, чтобы загрузить их? ...
вопрос задан: 25 May 2012 07:21
0
ответов

Получение статических HTML-файлов из XML-дампа Википедии

Я хотел бы иметь возможность получать относительно современные статические HTML-файлы из огромного (даже сжатого) XML-файл дампа Википедии enwiki-latest-pages-articles.xml.bz2 Я скачал...
вопрос задан: 23 May 2012 05:10
0
ответов

Простой веб-сканер на C#

Я создал простой веб-сканер, но я хочу добавить функцию рекурсии, чтобы каждая открываемая страница могла получать URL-адреса на этой странице., но я понятия не имею, как я могу это сделать, и я хочу также...
вопрос задан: 4 May 2012 16:32
0
ответов

Разница между поиском и фильтрацией в jquery

Я работаю над получением данных со страниц вики. Я использую комбинацию php и jquery для этого. Сначала я использую curl в php для извлечения содержимого страницы и повторения содержимого. Имя файла соответствует....
вопрос задан: 30 April 2012 08:32
0
ответов

Просканируйте веб-сайт, получите ссылки, просканируйте ссылки с помощью PHP и XPATH

Я хочу просканировать весь веб-сайт, я прочитал несколько тем, но не могу получить данные на 2-м уровне. То есть я могу вернуть ссылки со стартовой страницы, но тогда не могу найти способ...
вопрос задан: 12 April 2012 12:12
0
ответов

неизвестная команда: ошибка сканирования

Я новичок в python. Я использую 32-битную версию python 2.7.3 на 64-битной ОС. (Я пробовал 64-битную версию, но это не сработало). Я следовал инструкциям и установил на свой компьютер scrapy. Я создал один...
вопрос задан: 12 April 2012 12:00
0
ответов

Как запретить ботам сканировать мои URL-адреса на основе AJAX?

У меня есть несколько страниц на моем веб-сайте ASP.NET MVC 3 (не то, чтобы технология здесь имела значение), где я отображаю определенные URL-адреса в теге