Я делаю пользовательски прокрученное отслеживание представления на своем веб-сайте, и я просто понимаю, что полностью забыл о поисковых ботах, поражающих страницы. Как я отфильтровываю тот трафик от своего отслеживания представления?
Посмотрите на пользовательские агенты. Может показаться логичным занести в черный список, то есть отфильтровать все строки, содержащие "Googlebot" или другие известные боты поисковых систем, но их так много, что проще всего занести в белый список: регистрировать посетителей с помощью известного браузера .
Другой подход - использовать некоторый JavaScript для фактического ведения журнала (как это делает Google Analytics). Боты не загружают JS и поэтому не учитываются в вашей статистике. Вы также можете сделать более подробный журнал таким образом, потому что вы можете точно видеть (с точностью до пикселя - если хотите), какие ссылки были нажаты.
Вы можете проверить пользовательский агент: здесь есть хороший список. Или вы можете перепроверить обращения к robots.txt, так как все пауки должны сначала прочитать это, а пользователи обычно не читают.