0
ответов

Идеи BOT / Spider Trap

У меня есть клиент, домен которого, похоже, сильно пострадал от того, что выглядит как DDoS. В журналах это нормально выглядящие пользовательские агенты со случайными IP-адресами, но они слишком быстро листают страницы ...
вопрос задан: 29 September 2010 21:06
0
ответов

Как я могу обрабатывать Javascript в веб-сканере Perl?

Я хотел бы сканировать веб-сайт, проблема в том, что он полон Элементы JavaScript, такие как кнопки, и такие, что при нажатии они не меняют URL-адрес, но данные на странице ...
вопрос задан: 22 September 2010 13:33
0
ответов

Сканирование страницы с динамически генерируемым содержимым

Я использовал искатель java.net для специально созданного искателя. Проблема заключается в динамически генерируемом контенте, таком как, например, комментарии в блоге. Рассмотрим следующую страницу http: //www.avc ....
вопрос задан: 12 September 2010 21:56
0
ответов

Какой веб-язык можно использовать для интеллектуального анализа данных или веб-сканирования

если я хочу создать сложный веб-сайт, такой как новости Google, который собирает данные с других сайтов. как добыча данных, сканирование. На каком языке я должен создать сайт. В настоящее время я знаю только PHP. ...
вопрос задан: 12 September 2010 09:36
0
ответов

Robots.txt не работает [закрыт]

Я использовал robots.txt для ограничения одной из папок на моем сайте. В папке находятся сайты в стадии разработки. Google проиндексировал все сайты, которые находятся в стадии тестирования. Так что я использовал ...
вопрос задан: 8 September 2010 04:00
0
ответов

Сделать ссылку полностью невидимой?

Я почти уверен, что многие люди думали об этом, но по какой-то причине я не могу найти ее с помощью поиска Google и StackOverflow. Я хотел бы сделайте невидимую ссылку (занесенную в черный список robots.txt) на ...
вопрос задан: 5 September 2010 22:40
0
ответов

как сказать, прибывает ли веб-запрос из поискового робота Google?

С точки зрения сервера HTTP.
вопрос задан: 22 July 2010 12:06
0
ответов

Scrapy - следуйте по ссылкам RSS

Мне было интересно, пытался ли кто-нибудь когда-нибудь извлечь / перейти по ссылкам на RSS-элементы с помощью SgmlLinkExtractor / CrawlSpider. Я не могу заставить его работать ... Я использую следующее правило: rules = (Rule (...
вопрос задан: 31 May 2010 09:29
0
ответов

Злонамеренный блокировщик поискового робота для ASP.NET

Я только что наткнулся на Плохое Поведение - плагин для PHP, который обещает обнаружить спам и злонамеренные поисковые роботы, препятствуя тому, чтобы они получили доступ к сайту вообще. Делает что-то подобное, существуют для ASP....
вопрос задан: 21 April 2010 21:21