Обнаружение 'скрытых' поисковых роботов

Question

Обнаружение 'скрытых' поисковых роботов

107

web-crawler

задан 10 revs, 3 users 100% 6 November 2014 в 13:01

8 ответов

Другие вопросы по тегам:

web-crawler

Похожие вопросы:

score 15 · Answer 1

Некоторое время назад я работал с небольшой хостинговой компанией, чтобы помочь им реализовать решение этого. Система я разработал исследованные журналы веб-сервера для чрезмерного действия от любого данного IP-адреса и выпустил правила брандмауэра заблокировать преступников. Это включало белые списки адресов/диапазонов IP на основе http://www.iplists.com/ , которые были тогда обновлены автоматически по мере необходимости путем проверки требуемых строк агента пользователя и, если клиент утверждал, что был законным пауком, но не в белом списке, это выполнило поиски DNS/reverse-DNS, чтобы проверить, что исходный IP-адрес соответствует требуемому владельцу бота. Как отказоустойчивое, об этих действиях сообщили администратору по электронной почте, наряду со ссылками на черный / белым списком адрес в случае неправильной оценки.

я не говорил с тем клиентом приблизительно за 6 месяцев, но, в последний раз я слышал, система работала вполне эффективно.

точка Стороны: Если Вы думаете о выполнении подобной системы обнаружения на основе ограничения частоты успешных обращений, несомненно, будут использовать по крайней мере одну минуту (и предпочтительно по крайней мере, пятиминутный) общие количества. Я вижу много людей, говорящих об этих видах схем, кто хочет заблокировать любого, кто возглавляет 5-10 хитов за секунду, которая может генерировать ложные положительные стороны на тяжелых изображением страницах (если изображения не исключены из счета), и будет генерировать ложные положительные стороны, когда кто-то как я находит интересный сайт, из которого он хочет считать весь из, таким образом, он открывает все ссылки на вкладках для загрузки в фоновом режиме, в то время как он читает первый.

score 14 · Answer 2

См. Ловушка Проекта - они настраивают прерывания бота на крупном масштабе (и имейте DNSRBL с их дюйм/с).

Использование хитрые URL и HTML:

<a href="//example.com/"> = http://example.com/ on http pages.
<a href="page&amp;&#x23;hash"> = page& + #hash

В HTML можно использовать много приемов с комментариями, элементами CDATA, объектами, и т.д.:

<a href="foo<!--bar-->"> (comment should not be removed)
<script>var haha = '<a href="bot">'</script>
<script>// <!-- </script> <!--><a href="bot"> <!-->

score 9 · Answer 3

Легкое решение состоит в том, чтобы создать ссылку и сделать ее невидимой

<a href="iamabot.script" style="display:none;">Don't click me!</a>

, Конечно, необходимо ожидать, что некоторые люди, которые смотрят на исходный код, переходят по той ссылке только для наблюдения, куда она ведет. Но Вы могли подарить тем пользователям капчу...

Действительные поисковые роботы, конечно, также перешли бы по ссылке. Но Вы не должны реализовывать rel=nofollow, но искать знак действительного поискового робота. (как агент пользователя)

score 6 · Answer 4

Одна вещь, которую Вы не перечисляли, которые используются обычно для обнаружения плохих поисковых роботов.

скорость Хита, хорошие поисковые роботы разобьют свои хиты, таким образом, они не затопят сайт с запросами. Плохие сделают одну из трех вещей:

хит последовательные ссылки один за другим
хит последовательные ссылки в некоторой параллельной последовательности (2 или больше за один раз.)
хит, который последовательные ссылки в фиксированный интервал

кроме того, некоторые офлайновые программы просмотра будут хлебать выше на многие страницы, я не уверен, какой порог Вы хотели бы использовать, начать блокироваться IP-адресом.

Этот метод также поймает программы зеркального отражения как fmirror или wget.

, Если бот рандомизирует временной интервал, Вы могли бы проверить, чтобы видеть, пересечены ли ссылки последовательным или способом в глубину, или Вы видите, пересекает ли бот огромную сумму текста (как в словах для чтения) за также-короткий-период времени. Некоторые сайты ограничивают количество запросов в час, также.

На самом деле, я слышал идею где-нибудь, я не помню, где, что, если пользователь получает слишком много данных, с точки зрения килобайтов, им можно подарить капчу, прося, чтобы они доказали, что они не бот. Я никогда не видел реализованный все же.

Обновление при Сокрытии Ссылок

До сокрытия ссылок идет, можно подвергнуть отделение другому с CSS (помещающий его сначала в порядок ничьей) и возможно установка z-порядка. Бот не мог проигнорировать, что, не анализируя весь Ваш JavaScript, чтобы видеть, является ли это меню. В некоторой степени ссылки в невидимых элементах DIV также не могут быть проигнорированы без бота, анализирующего весь JavaScript.

Взятие, что идея завершению, невостребованный JavaScript, который мог потенциально показать скрытые элементы, возможно одурачит подмножество JavaScript, анализирующего ботов. И, это не большая работа для реализации.

score 2 · Answer 5

Не на самом деле настолько легко не отставать от хороших строк агента пользователя. Версии браузера приходят и уходят. Создание статистической величины о строках агента пользователя различными поведениями может показать интересные вещи.

я не знаю, как далеко это могло быть автоматизировано, но по крайней мере это - одна вещь дифференциации.

score 4 · Answer 6

Один простой метод обнаружения бота, о котором я услышал для форм, является скрытым входным методом. При попытке защитить форму, помещает вход в форму с идентификатором, который выглядит абсолютно законным. Затем используйте CSS во внешнем файле для сокрытия его. Или если Вы действительно параноики, устанавливаете что-то как jQuery для сокрытия поля ввода на загрузке страницы. Если бы Вы делаете это правильно, я предполагаю, что боту было бы очень трудно выяснить. Вы знаете, что те боты имеют его там природа для заполнения всего на странице особенно, если Вы даете Вашему скрытому входу идентификатор чего-то как идентификатор = "fname" и т.д.

score 3 · Answer 7

Не тестировалось, но вот хороший список пользовательских агентов, из которых вы могли бы составить регулярное выражение. Могу помочь вам в этом:

ADSARobot|ah-ha|almaden|aktuelles|Anarchie|amzn_assoc|ASPSeek|ASSORT|ATHENS|Atomz|attach|attache|autoemailspider|BackWeb|Bandit|BatchFTP|bdfetch|big.brother|BlackWidow|bmclient|Boston\ Project|BravoBrian\ SpiderEngine\ MarcoPolo|Bot\ mailto:craftbot@yahoo.com|Buddy|Bullseye|bumblebee|capture|CherryPicker|ChinaClaw|CICC|clipping|Collector|Copier|Crescent|Crescent\ Internet\ ToolPak|Custo|cyberalert|DA$|Deweb|diagem|Digger|Digimarc|DIIbot|DISCo|DISCo\ Pump|DISCoFinder|Download\ Demon|Download\ Wonder|Downloader|Drip|DSurf15a|DTS.Agent|EasyDL|eCatch|ecollector|efp@gmx\.net|Email\ Extractor|EirGrabber|email|EmailCollector|EmailSiphon|EmailWolf|Express\ WebPictures|ExtractorPro|EyeNetIE|FavOrg|fastlwspider|Favorites\ Sweeper|Fetch|FEZhead|FileHound|FlashGet\ WebWasher|FlickBot|fluffy|FrontPage|GalaxyBot|Generic|Getleft|GetRight|GetSmart|GetWeb!|GetWebPage|gigabaz|Girafabot|Go\!Zilla|Go!Zilla|Go-Ahead-Got-It|GornKer|gotit|Grabber|GrabNet|Grafula|Green\ Research|grub-client|Harvest|hhjhj@yahoo|hloader|HMView|HomePageSearch|http\ generic|HTTrack|httpdown|httrack|ia_archiver|IBM_Planetwide|Image\ Stripper|Image\ Sucker|imagefetch|IncyWincy|Indy*Library|Indy\ Library|informant|Ingelin|InterGET|Internet\ Ninja|InternetLinkagent|Internet\ Ninja|InternetSeer\.com|Iria|Irvine|JBH*agent|JetCar|JOC|JOC\ Web\ Spider|JustView|KWebGet|Lachesis|larbin|LeechFTP|LexiBot|lftp|libwww|likse|Link|Link*Sleuth|LINKS\ ARoMATIZED|LinkWalker|LWP|lwp-trivial|Mag-Net|Magnet|Mac\ Finder|Mag-Net|Mass\ Downloader|MCspider|Memo|Microsoft.URL|MIDown\ tool|Mirror|Missigua\ Locator|Mister\ PiX|MMMtoCrawl\/UrlDispatcherLLL|^Mozilla$|Mozilla.*Indy|Mozilla.*NEWT|Mozilla*MSIECrawler|MS\ FrontPage*|MSFrontPage|MSIECrawler|MSProxy|multithreaddb|nationaldirectory|Navroad|NearSite|NetAnts|NetCarta|NetMechanic|netprospector|NetResearchServer|NetSpider|Net\ Vampire|NetZIP|NetZip\ Downloader|NetZippy|NEWT|NICErsPRO|Ninja|NPBot|Octopus|Offline\ Explorer|Offline\ Navigator|OpaL|Openfind|OpenTextSiteCrawler|OrangeBot|PageGrabber|Papa\ Foto|PackRat|pavuk|pcBrowser|PersonaPilot|Ping|PingALink|Pockey|Proxy|psbot|PSurf|puf|Pump|PushSite|QRVA|RealDownload|Reaper|Recorder|ReGet|replacer|RepoMonkey|Robozilla|Rover|RPT-HTTPClient|Rsync|Scooter|SearchExpress|searchhippo|searchterms\.it|Second\ Street\ Research|Seeker|Shai|Siphon|sitecheck|sitecheck.internetseer.com|SiteSnagger|SlySearch|SmartDownload|snagger|Snake|SpaceBison|Spegla|SpiderBot|sproose|SqWorm|Stripper|Sucker|SuperBot|SuperHTTP|Surfbot|SurfWalker|Szukacz|tAkeOut|tarspider|Teleport\ Pro|Templeton|TrueRobot|TV33_Mercator|UIowaCrawler|UtilMind|URLSpiderPro|URL_Spider_Pro|Vacuum|vagabondo|vayala|visibilitygap|VoidEYE|vspider|Web\ Downloader|w3mir|Web\ Data\ Extractor|Web\ Image\ Collector|Web\ Sucker|Wweb|WebAuto|WebBandit|web\.by\.mail|Webclipping|webcollage|webcollector|WebCopier|webcraft@bea|webdevil|webdownloader|Webdup|WebEMailExtrac|WebFetch|WebGo\ IS|WebHook|Webinator|WebLeacher|WEBMASTERS|WebMiner|WebMirror|webmole|WebReaper|WebSauger|Website|Website\ eXtractor|Website\ Quester|WebSnake|Webster|WebStripper|websucker|webvac|webwalk|webweasel|WebWhacker|WebZIP|Wget|Whacker|whizbang|WhosTalking|Widow|WISEbot|WWWOFFLE|x-Tractor|^Xaldon\ WebSpider|WUMPUS|Xenu|XGET|Zeus.*Webster|Zeus [NC]

Взято из: http://perishablepress.com/press/2007/10/15/ultimate-htaccess-blacklist-2-compressed-version/

score 1 · Answer 8

В настоящее время я работаю в компании, которая сканирует веб-сайты с целью их классификации. Мы также проверяем сайты на наличие вредоносных программ.

По моему опыту, блокировщики номер один нашего поискового робота (который, конечно, использует IE или Firefox UA и не подчиняется robots.txt. Да) - это сайты, на которых намеренно размещено вредоносное ПО. Это неприятно, потому что сайт затем возвращается к человеку, который должен вручную загрузить сайт, классифицировать его и проверить на наличие вредоносных программ.

Я просто говорю: блокируя поисковые роботы, вы попадаете в плохую компанию.

Конечно, если они ужасно грубы и поглощают тонны вашей пропускной способности, это другое дело, потому что тогда у вас есть веская причина.