Методы для сокращения сбора урожая данных от сервисов AJAX/JSON

Question

Методы для сокращения сбора урожая данных от сервисов AJAX/JSON

Связанный с расстоянием Levenstein: Вы могли бы хотеть нормализовать его путем деления результата с длиной более длинной строки, так, чтобы Вы всегда получили число между 0 и 1 и так, чтобы можно было сравнить расстояние пары строк значимым способом (выражение L (A, B)> L (A, C) - например - бессмысленно, если Вы не нормализуете расстояние).

11

ajax security web-services json

задан Ned Batchelder 17 July 2010 в 16:13

7 ответов

Первое, что нужно сделать, чтобы предотвратить кражу ваших данных ботами - это не технологично, а законно. Во-первых, убедитесь, что в Условиях использования вашего сайта написаны правильные формулировки: то, что вы пытаетесь предотвратить, на самом деле запрещено и оправдано с юридической точки зрения. Во-вторых, убедитесь, что вы разрабатываете свою техническую стратегию с учетом юридических вопросов. Например, в США, если вы помещаете данные за барьер аутентификации, и злоумышленник крадет их, это, вероятно, нарушение закона DMCA . В-третьих, найдите юриста, который проконсультирует вас по вопросам интеллектуальной собственности и Закона США "Об авторском праве в цифровую эпоху" ... хороших ребят из StackOverflow недостаточно. : -)

Теперь о технологии:

Разумным решением является требование аутентификации пользователей, прежде чем они смогут получить доступ к вашим конфиденциальным вызовам Ajax. Это позволяет вам просто отслеживать использование ваших вызовов Ajax для каждого пользователя и (вручную или автоматически) отменять учетную запись любого пользователя, который делает слишком много запросов в определенный период времени. (или слишком много общих запросов, если вы пытаетесь защититься от тонкого метода).

Этот подход, конечно, уязвим для сложных ботов, которые автоматически регистрируют новых «пользователей», но при достаточно хорошей реализации CAPTCHA он довольно сложно построить такого бота. (см. раздел «обход» на http://en.wikipedia.org/wiki/CAPTCHA )

Если вы пытаетесь защитить общедоступные данные (без аутентификации), тогда ваш варианты намного более ограничены. Как отмечали другие ответы, вы можете попробовать ограничения на основе IP-адресов (и столкнуться с проблемами крупных корпоративных прокси-пользователей), но опытные злоумышленники могут обойти это, распределяя нагрузку. Существует также довольно сложное программное обеспечение, которое отслеживает такие вещи, как время запроса, шаблоны запросов и т. Д., И пытается обнаружить ботов. Покерные сайты, например, тратят на это много времени. Но не ожидайте, что такие системы будут дешевыми. Одна простая вещь, которую вы можете сделать, - это проанализировать свои веб-журналы (например, с помощью Splunk ) и найти первые N IP-адресов, попадающих на ваш сайт, а затем выполнить обратный поиск по ним. Некоторые из них будут законными корпоративными прокси или прокси-серверами ISP. Но если вы узнаете доменное имя конкурента в списке, вы можете заблокировать его домен или связаться со своими юристами.

В дополнение к защите от кражи вы также можете подумать о вставке " t работают для сеансов без аутентификации - злоумышленник может просто загрузить javascript и запустить его, как это сделал бы обычный браузер. Мораль истории: общедоступные данные по сути незащищены. Если вы хотите защитить данные, поместите их за барьером аутентификации.

Это очевидно, но если ваши данные доступны для общего поиска поисковыми системами, вам обоим понадобится решение, отличное от AJAX (Google не будет прочтите свои данные ajax!), и вы захотите отметить эти страницы NOARCHIVE , чтобы ваши данные не отображались в кеше Google. Вам также, вероятно, понадобится белый список IP-адресов сканера поисковых систем, которые вы разрешите на своих страницах, которые будут сканироваться поисковой системой (вы можете работать с Google, Bing, Yahoo и т. Д., Чтобы получить их), иначе злонамеренные боты могут просто выдавать себя за Google и получите свои данные.

В заключение, Я хочу повторить @kdgregory выше: убедитесь, что угроза достаточно реальна и стоит затраченных усилий. Многие компании переоценивают интерес других людей (как законных клиентов, так и злодеев) к их бизнесу. Возможно, ваш случай представляет собой необычный случай, когда у вас есть особенно важные данные, которые особенно ценно получить, они должны быть общедоступными без аутентификации, и ваши юридические средства будут ограничены, если кто-то украдет ваши данные. Но все это вместе, по общему признанию, необычный случай.

PS - еще один способ подумать об этой проблеме, который может или не может применяться в вашем случае. Иногда легче изменить способ работы ваших данных, что не позволяет защитить их. Например, можете ли вы каким-либо образом связать свои данные со службой на вашем сайте, чтобы данные не были очень полезными, если только они s используется вместе с вашим кодом. Или вы можете встроить в него рекламу, чтобы там, где она показывалась, вам платили? И так далее. Я не знаю, применимо ли какое-либо из этих смягчений к вашему случаю, но многие компании нашли способы бесплатно раздавать вещи в Интернете (и поощрять, а не предотвращать широкое повторное распространение) и при этом зарабатывать деньги, поэтому гибридная бесплатная Стратегия / pay может (а может и не быть) возможна в вашем случае.

7