Препятствуйте тому, чтобы данные сайта были проверены и разорваны

Используйте ROW_NUMBER() и подзапрос:

SELECT TOP 10 c.*
FROM (SELECT COUNT(*) as [# of Complaints],      
             state_name, company
             ROW_NUMBER() OVER (PARTITION BY company ORDER BY COUNT(*) DESC) as seqnum
      FROM dbo.Consumer_Complaints
      GROUP BY company, state_name
     ) c
WHERE seqnum = 1
ORDER BY [# of Complaints] DESC;
17
задан nickf 7 October 2008 в 07:41
поделиться

12 ответов

Любой сайт, что это видимый человеческими глазами, в теории, потенциально rippable. Если Вы собираетесь даже попытаться быть доступными затем, это, по определению, должно иметь место (как еще будет говорящие браузеры мочь поставить Ваше содержание, если это не будет машиночитаемым).

Ваш лучший выбор состоит в том, чтобы изучить создание водяных знаков на Вашем содержании, так, чтобы, по крайней мере, если это действительно становится разорванным, можно было указать на водяные знаки и требовать владения.

17
ответ дан 30 November 2019 в 10:31
поделиться

Я раньше имел систему, которая заблокирует или позволит на основе заголовка Агента пользователя. Это полагается на поисковый робот, устанавливающий их Агент пользователя, но кажется, что большинство из них делает.

Это не будет работать, если они будут использовать поддельный заголовок для эмуляции популярного браузера, конечно.

0
ответ дан 30 November 2019 в 10:31
поделиться

Используйте, где когда-либо возможные человеческие блоки проверки допустимости, и попытайтесь использовать некоторую платформу (MVC). Программное обеспечение разрыва сайта иногда не может разорвать этот вид страницы. Также обнаружьте агент пользователя, по крайней мере, он сократит количество возможных превосходных людей

-1
ответ дан 30 November 2019 в 10:31
поделиться

Между этим:

, Что является мерами, которые я могу принять, чтобы препятствовать тому, чтобы злонамеренные поисковые роботы разорвались

и это:

я не хотел бы блокировать законные поисковые роботы все вместе.

Вы просите много. Факт, если Вы собираетесь попытаться заблокировать злонамеренные скребки, Вы собираетесь закончить тем, что блокировали все "хорошие" поисковые роботы также.

необходимо помнить, что, если люди хотят очистить содержание, они собираются вставить намного больше ручного усилия, чем бот поисковой системы будет... Поэтому разберитесь в своих приоритетах. У Вас есть два варианта:

  1. Позволяют крестьянам Интернета украсть Ваше содержание. Внимательно наблюдайте за ним (ищущий Google для некоторых Ваших более уникальных фраз) и отправляющие запросы демонтажа к ISPs. Этот выбор оказывает едва любое влияние на Ваш кроме времени.
  2. Ajax Использования и прокручивающееся шифрование для запроса всего содержания с сервера. Необходимо будет сохранить изменение метода, или даже случайный, таким образом, каждый pageload будет нести различную схему шифрования. Но даже это будет быть взломанным, если кто-то захочет взломать его. Вы также привезете поверхность поисковых систем и поэтому получите удар в трафике реальных пользователей.
12
ответ дан 30 November 2019 в 10:31
поделиться

Хорошие поисковые роботы будут следовать правилам, которые Вы указываете в своем robots.txt, злонамеренные не будут. Можно настроить "прерывание" для плохих роботов, как он объяснен здесь: http://www.fleiner.com/bots/ .
, Но с другой стороны, если Вы помещаете свое содержание в Интернете, я думаю, что для всех лучше, если это является максимально безболезненным для нахождения (на самом деле, Вы отправляете здесь а не на некотором хромом форуме, где эксперты обмениваются их мнения)

6
ответ дан 30 November 2019 в 10:31
поделиться

Реалистично Вы не можете остановить злонамеренные поисковые роботы - и любые меры, которые Вы помещаете на месте для предотвращения их, вероятно, будут вредить законным пользователям (кроме, возможно, добавляющих записей в robots.txt для разрешения обнаружения)

Поэтому, что необходимо сделать, должен запланировать украденное содержание - это - больше, чем, вероятно, чтобы произойти в одной форме или другом - и понять, как Вы будете иметь дело с несанкционированным копированием.

Предотвращение не возможно - и будет пустой тратой Вашего времени, пытаясь сделать его так.

единственный верный способ удостовериться, что содержание на веб-сайте не уязвимо для копирования, состоит в том, чтобы отключить сетевой кабель...

Для обнаружения его используют что-то как , http://www.copyscape.com/ может помочь.

6
ответ дан 30 November 2019 в 10:31
поделиться

Короче говоря: Вы не можете предотвратить разрыв. Злонамеренные боты обычно используют агенты пользователя IE и довольно интеллектуальны в наше время. Если Вы хотите иметь свой сайт, доступный для максимального количества (т.е. screenreaders, и т.д.) Вы не можете использовать JavaScript или один из популярных плагинов (флэш-память) просто, потому что они могут подавить доступ законного пользователя.

, Возможно, у Вас могло быть задание крона, которое выбирает случайный отрывок из Вашей базы данных и гуглит ее для проверки на соответствия. Вы могли затем попытаться овладеть незаконным сайтом и потребовать, чтобы они удалили содержание.

Вы могли также контролировать количество запросов от данного IP и заблокировать его, если оно передает порог, хотя Вам, вероятно, придется добавить законных ботов в белый список и были бы бесполезны против ботнета (но если Вы противостоите ботнету, возможно, разрыв не является Вашей самой большой проблемой).

2
ответ дан 30 November 2019 в 10:31
поделиться

Единственный способ остановить сайт, являющийся разорванной машиной, состоит в том, чтобы заставить пользователя доказать, что они являются человеческими.

Вы могли заставить пользователей выполнить задачу, которая легка для людей и трудна для машин, например: КАПЧА. Когда пользователь сначала добирается до Вашего сайта, представляют КАПЧУ и только позволяют им продолжаться, после того как он завершился. Если пользователь начинает перемещаться от страницы до страницы, слишком быстро повторно проверяют.

Это не на 100% эффективно, и хакеры всегда пытаются повредить их.

, Кроме того, Вы могли сделать медленные ответы. Вы не должны заставлять их проверить, но выбрать скорость, которая разумна для людей (это было бы очень медленно для машины). Это просто заставляет их занять больше времени для очистки сайта, но не невозможное.

хорошо. Из идей.

3
ответ дан 30 November 2019 в 10:31
поделиться

Даже не пытайтесь установить пределы на сеть!

Это действительно настолько просто.

Каждая потенциальная мера для воспрепятствования разрыва (кроме очень строгого robots.txt) будет вредить пользователям. Капчи являются большим количеством боли, чем усиление. Проверка агента пользователя закрывает неожиданные браузеры. То же верно для "умных" приемов с JavaScript.

сохраните сеть открытой. Если Вы не хотите, чтобы что-нибудь было взято с Вашего веб-сайта, то не публикуйте его там. Водяные знаки могут помочь Вам требовать владения, но который только помогает, когда Вы хотите предъявить иск после того, как вред причинен.

5
ответ дан 30 November 2019 в 10:31
поделиться

Если Вы делаете общедоступный сайт, то это очень трудно. Существуют методы, которые включают сценарии серверной стороны для генерации содержания или использования нетекста (Flash, и т.д.) для уменьшения вероятности разрыва.

, Но честно говоря, если Вы полагаете, что Ваше содержание так хорошо, просто пароль - защищает его и удаляет его из общедоступной арены.

Мое мнение - то, что смысл сети должен распространить полезное содержание как можно большему количеству людей.

2
ответ дан 30 November 2019 в 10:31
поделиться

Вы могли попытаться использовать Flash / Silverlight / Java для отображения всего содержания страницы. Это, вероятно, остановило бы большинство поисковых роботов в их дорожках.

0
ответ дан 30 November 2019 в 10:31
поделиться

Если содержание общедоступно и в свободном доступе, даже с регулировкой просмотра страницы или что бы то ни было, нет ничего, что можно сделать. Если Вы требуете, чтобы регистрация и/или оплата получили доступ к данным, Вы могли бы ограничить его немного, и по крайней мере Вы видите, кто читает то, что и идентифицируют пользователей, которые, кажется, очищают Вашу всю базу данных.

Однако я думаю, что необходимо скорее считаться с фактом, что это - то, как сеть работает, нет многих способов предотвратить машину для чтения то, что может человек. При выводе всего содержания, поскольку изображения, конечно, препятствовали бы больше всего, но затем сайт больше не доступен, уже не говоря о том, что даже неотключенные пользователи ничто не смогут к вставке копии - который может быть действительно раздражающим.

, В целом, это походит на системы защиты DRM/игры - pissing ад из Ваших законных пользователей только для предотвращения некоторого плохого поведения, которое Вы не можете действительно предотвратить так или иначе.

1
ответ дан 30 November 2019 в 10:31
поделиться
Другие вопросы по тегам:

Похожие вопросы: