Сказать ботов кроме посетителей - людей к статистике?

Для измерения цикломатической сложности существует хороший инструмент, доступный в traceback.org . Страница также дает хороший обзор того, как интерпретировать результаты.

+1 для pylint. Это сильно в проверке соблюдения кодирования стандартов (быть им PEP8 или вариант Вашей собственной организации), который может в конце помогать уменьшить цикломатическую сложность.

56
задан Pekka supports GoFundMonica 16 December 2010 в 12:03
поделиться

7 ответов

=? Извините, неправильно понял. Вы можете попробовать другой вариант, который я установил на своем сайте: создать несвязанную веб-страницу с жестким / странным именем и регистрировать отдельные посещения этой страницы. Большинство, если не все посетители этой страницы будут ботами, таким образом, вы сможете динамически создавать свой список ботов.

Далее следует исходный ответ (получение отрицательных оценок!)

Единственный надежный способ сообщить ботам от людей - [CAPTCHAS] [1]. Вы можете используйте [reCAPTCHA] [2], если вам это подходит.

[1]: http://en.wikipedia.org/wiki/Captcha
[2]: http://recaptcha.net/

0
ответ дан 26 November 2019 в 17:11
поделиться

Разместите на своих страницах гифку размером 1x1, которую вы отслеживаете. Если загружен, то скорее всего это браузер. Если он не загружен, скорее всего, это сценарий.

0
ответ дан 26 November 2019 в 17:11
поделиться

Рассмотрим сценарий статистики PHP, который замаскирован под фоновое изображение CSS (укажите правильные заголовки ответа - по крайней мере, тип содержимого и управление кешем-, но запишите пустое изображение).

Некоторые боты разбирают JS, но, разумеется, никто не загружает изображения CSS. Одна из ловушек, как и в случае с JS-, заключается в том, что при этом вы исключите текстовые браузеры, но это менее 1% населения всемирной паутины. Кроме того, определенно меньше клиентов с отключенным CSS, чем клиентов с отключенным JS (мобильные устройства!).

Чтобы сделать его более надежным для (неисключительного) случая, когда более продвинутые боты (Google, Yahoo и т. Д.) Могут сканировать их в в будущем запретите путь к изображению CSS в robots.txt (который в любом случае будет уважаться лучшими ботами).

11
ответ дан 26 November 2019 в 17:11
поделиться

РЕДАКТИРОВАТЬ (10 лет спустя): Как сказал Лукас в поле для комментариев, почти все сканеры сегодня поддерживают javascript, поэтому я удалил абзац, в котором говорилось, что если бы сайт был основан на JS, боты будут автоматически удалены.

Вы можете подписаться на список ботов и добавить их пользовательских агентов в список фильтрации.

Взгляните на этот список ботов.

Этот список пользовательских агентов тоже неплохо. Просто удалите все B , и все готово.

РЕДАКТИРОВАТЬ: Удивительная работа, проделанная eSniff , приведенный выше список здесь " в форме, которую можно проще запрашивать и анализировать. Robotstxt.org/db/all.txt Каждый новый бот определяется идентификатором робота: XXX. Вы должны иметь возможность загружать его раз в неделю и анализировать во что-то ваш сценарий может использовать "

13
ответ дан 26 November 2019 в 17:11
поделиться

Самый простой способ - проверить, есть ли в их агенте пользователя «бот» или «паук». Большинство из них .

21
ответ дан 26 November 2019 в 17:11
поделиться

Вместо того, чтобы поддерживать невероятно длинный список пользовательских агентов-пауков, мы ищем вещи, которые предполагают человеческое поведение. Принцип состоит в том, что мы разделяем количество сеансов на две цифры: количество одностраничных сеансов и количество многостраничных сеансов. Мы удаляем файл cookie сеанса и используем его для определения многостраничных сеансов. Мы также удаляем постоянный файл cookie «Идентификатор компьютера»; возвращающийся пользователь (найден файл cookie с идентификатором компьютера) рассматривается как многостраничный сеанс, даже если он просматривает только одну страницу в этом сеансе. У вас могут быть другие характеристики, которые подразумевают "человека" посетителя - например, реферер - это Google (хотя я считаю, что маскарад бота MS Search в качестве стандартного агента UserAgent упоминается с реалистичным ключевым словом, чтобы убедиться, что сайт не показывает различный контент [ к тому, что дано их боту], и это поведение очень похоже на человеческое!)

Конечно, это не безошибочно, и в частности, если у вас есть много людей, которые приходят и "щелкают", это не будет хорошая статистика для вас, а также если у вас есть преобладание людей с отключенными cookie (в нашем случае они не смогут использовать наш сайт [корзина] без включенных сеансовых cookie).

Взяв данные одного из наших клиентов, мы обнаруживаем, что ежедневное подсчет одного сеанса повсюду - на порядок различается ото дня к дню; однако, если мы вычтем 1000 из многостраничного сеанса в день, мы получим чертовски почти линейную скорость: 4 многостраничных сеанса на размещенный заказ / два сеанса на корзину. Я понятия не имею, каковы остальные 1000 многостраничных сеансов в день!

3
ответ дан 26 November 2019 в 17:11
поделиться

Я удивлен, что никто не рекомендовал реализовать тест Тьюринга . Просто поговорите с человеком на другом конце.

Программного решения просто не подойдет: посмотрите, что произойдет, когда ПАРРИ встречает ДОКТОРА

Эти два «персонажа» - оба «болтающих» бота, которые были написаны в ходе исследований ИИ в 1970-х. : чтобы увидеть, как долго они могут обманывать реального человека, заставляя думать, что он тоже человек. Персонаж Пэрри был смоделирован как параноидальный шизофреник, а ДОКТОР - как стереотипный психотерапевт.

Вот еще фон

-1
ответ дан 26 November 2019 в 17:11
поделиться
Другие вопросы по тегам:

Похожие вопросы: