Можно попытаться обнаружить скрейперов:
Используйте куки и тайминг, это усложнит работу тех скрейперов, которые работают из коробки. Также проверьте наличие поддержки javascript, большинство скреперов ее не имеют. Проверьте данные мета-браузера, чтобы убедиться, что это действительно веб-браузер.
Вы также можете проверить количество запросов в минуту, пользователь, управляющий браузером, может делать только небольшое количество запросов в минуту, поэтому логика на сервере, обнаруживающая слишком большое количество запросов в минуту, может предположить, что происходит скрейпинг экрана, и запретить доступ с IP-адреса нарушителя на некоторый период времени. Если это начинает влиять на краулеры, запишите в журнал ip-адреса пользователей, которые заблокированы, и начните разрешать их IP-адреса по мере необходимости.
Вы можете использовать http://www.copyscape.com/ для проверки вашего контента, это по крайней мере покажет вам, кто повторно использует ваши данные.
См. также этот вопрос:
Также посмотрите:
Хороший документ о скрейпинге:
Как предотвратить скрейпинг:
http://mvark.blogspot.com/2007/02/how-to-prevent-screen-scraping.html
Я не думаю, что это возможно без аутентификации пользователей на ваш сайт.
Если ваш конкурент находится в той же стране, что и вы, разрешите использование политика и условия обслуживания четко размещены на вашем сайте. Упомяните тот факт, что вы не разрешаете никаких роботов, очистку экрана и т. Д. Если это продолжается, попросите адвоката отправить им дружеское письмо о прекращении и воздержании.
Я не думаю, что это возможно. Но что бы вы ни придумали, для поисковой оптимизации это будет так же плохо, как и для конкурентов. Это действительно желательно?
Как насчет того, чтобы каждый бит текста отображался как изображение? Как только это будет сделано, либо ваши конкуренты будут вынуждены инвестировать в технологии OCR, либо вы обнаружите, что у вас нет пользователей - так что вопрос будет спорный.
Отключите сетевой кабель от сервера.
перефразирование: если это увидит публика, то это можно будет соскрести.
update : второй взгляд кажется, что я не отвечаю на вопрос. Извините. Vecdid дал хороший ответ.
Но любой наполовину приличный кодировщик может обойти перечисленные меры. В этом контексте мой ответ можно считать верным.
В конце концов, вы не можете это остановить.
Вы можете усложнить задачу людям, настроив файл robots.txt и т. Д. Но вы должны выводить информацию на экраны законных пользователей, поэтому ее нужно как-то обслуживать, и если это ваши конкуренты может добраться до него.
Если вы заставляете пользователей входить в систему, вы можете постоянно останавливать роботов, но в любом случае ничто не может помешать конкурентам зарегистрироваться на вашем сайте. Это также может оттолкнуть потенциальных клиентов, если они не могут получить доступ к некоторой информации «бесплатно».