Защита от [закрытого] анализа экранных данных

30
задан Community 23 May 2017 в 11:45
поделиться

21 ответ

Так, один подход должен был бы запутать код (rot13, или что-то), и затем иметь некоторый JavaScript на странице, которые делают что-то как document.write (не запутайте (obfuscated_page)). Но это полностью сдувает поисковые системы (вероятно!).

, Конечно, этот doesn’t на самом деле останавливает кого-то, кто хочет украсть Ваши данные также, но это действительно мешает.

, После того как у клиента есть данные, которые это в значительной степени игра закончена, таким образом, необходимо посмотреть на что-то на стороне сервера.

, Учитывая, что поисковые системы являются в основном экранными вещами скребков, являются трудными. Необходимо посмотреть на то, каковы различие между хороший экранные скребки и плохой экранные скребки. И конечно, у Вас есть просто нормальные пользователи - люди также. Таким образом, это сводится к проблеме того, как может Вы на сервере эффективно классифицировать как запрос как прибывающий из человек , хороший экранный скребок, или плохой экранный скребок.

Так, место для запуска посмотрело бы файлы журнала и видело бы, существует ли некоторый шаблон, который позволяет Вам эффективно классифицировать запросы, и затем при определении шаблон видит, существует ли некоторый способ, которым плохой экранный скребок, после знания этой классификации, мог скрыть себя для появления как человек или хорошим экранный скребок.

Некоторые идеи:

  • Вы можете определять хороший экранные скребки IP-адресом (IP-адресами)..
  • Вы могли потенциально определить скребок по сравнению с человеком количеством параллельных соединений, общим количеством соединений в период времени, схему доступа, и т.д.

, Очевидно, они aren’t идеальный или надежный. Другая тактика должна определить то, что меры могут Вы брать, которые незаметны людям, но ( может быть ), раздражающий для скребков. Пример мог бы замедлять количество запросов. (Зависит от критичности времени запроса. Если бы они очищают в режиме реального времени, это произвело бы их конечных пользователей).

другой аспект состоит в том, чтобы посмотреть на обслуживание этих пользователей лучше. Очевидно они очищают, потому что они хотят данные. Если Вы предоставите им простой способ, которым непосредственно можно получить данные в полезном формате затем, то это будет легче для них сделать вместо анализа экранных данных. Если существует простой способ затем, доступ к данным может быть отрегулирован. Например: дайте запрашивающим сторонам уникальный ключ и затем ограничьте количество запросов на ключ для предотвращения перегрузки на сервере или заряда на 1 000 запросов, и т.д.

, Конечно, существуют все еще люди, которые захотят сорвать Вас, и затем существуют, вероятно, другие пути к disincentivise, bu они, вероятно, начинают быть нетехническими, и требуют, чтобы легальные проспекты были persued.

19
ответ дан 27 November 2019 в 22:57
поделиться

Я подозреваю, что нет никакого хорош способ сделать это.

я предполагаю, что Вы могли выполнить все свое содержание через механизм для преобразования текста в изображения, представленные с помощью шрифта стиля КАПЧИ и расположения, но это будет повреждать SEO и раздражать пользователей.

0
ответ дан 27 November 2019 в 22:57
поделиться

Вы могли поместить все во флэш-память, но в большинстве случаев который будет раздражать многих законных пользователей, самостоятельно включенных. Это может работать на некоторую информацию, такую как курсы акций или графики.

0
ответ дан 27 November 2019 в 22:57
поделиться

Я пытался "экранировать царапанье" некоторые файлы PDF однажды, только найти, что они на самом деле поместили символы в PDF в полупроизвольном порядке. Я предполагаю, что формат PDF позволяет Вам указывать местоположение для каждого блока текста, и они использовали очень маленькие блоки (меньший, чем слово). Я подозреваю, что рассматриваемые PDFs не пытались предотвратить анализ экранных данных так, поскольку они делали что-то странное со своим механизмом рендеринга.

интересно, могли ли Вы сделать что-то как этот.

0
ответ дан 27 November 2019 в 22:57
поделиться

Вы могли проверить агент пользователя клиентов, приезжающих в Ваш сайт. Некоторые сторонние программы анализа экранных данных имеют свой собственный агент пользователя, таким образом, Вы могли заблокировать это. Хорошие экранные скребки однако имитируют свой агент пользователя, таким образом, Вы не сможете обнаружить его. Будьте осторожны, если Вы действительно пытаетесь заблокировать кого-либо, потому что Вы не хотите блокировать законного пользователя :)

лучшее, на которое можно надеяться, должно заблокировать людей экранные скребки использования, которые не достаточно умны для изменения их агента пользователя.

0
ответ дан 27 November 2019 в 22:57
поделиться

Если не много информации Вы хотите защитить Вас, может преобразовать его в изображение на лету. Затем они должны использовать OCR, который помогает очистить другой сайт вместо Вашего..

1
ответ дан 27 November 2019 в 22:57
поделиться

Учитывая, что большинство сайтов хочет хороший рейтинг поисковой системы, и поисковые системы являются ботами скребка, нет очень, можно сделать, который не будет вредить SEO.

Вы могли сделать полностью ajax загруженный сайт или основанный на флэш-памяти сайт, который будет мешать ботам или скрывать все позади входа в систему, который мешал бы все еще, но любой из этих подходов собирается повредить Ваши поисковые рейтинги и возможно раздражать Ваших пользователей, и если кто-то действительно захочет его, то они найдут путь.

единственный гарантируемый способ наличия содержания, которое не может быть очищено, не состоит в том, чтобы опубликовать его в сети. Природа сети такова, что при помещении ее там это там.

1
ответ дан 27 November 2019 в 22:57
поделиться

Очень немногие я думаю, учитывая намерение любого сайта, должны опубликовать (т.е. обнародовать) информация.

  • можно скрыть данные позади логинов, конечно, но это - очень ситуационное решение.

  • я видел приложения, которые только подали бы содержание, где заголовки запроса указали на веб-браузер (а не скажите анонимный или "Джакарта"), но это легко имитировать, и Вы потеряете некоторых подлинных людей.

  • Затем существует возможность, что Вы принимаете некоторую утилизацию, но делаете жизнь непреодолимо трудной для них, не служа содержанию, если запросы прибывают из того же IP на слишком высоком уровне. Это страдает от того, чтобы не быть полным охватом, но что еще более важно существует "проблема AOL", что IP может покрыть многих многие уникальные пользователи - люди.

Оба из последних двух методов также зависят в большой степени от наличия транспортной технологии прерывания, которая является неизбежной производительностью и/или финансовыми издержками.

1
ответ дан 27 November 2019 в 22:57
поделиться

Один путь состоит в том, чтобы создать функцию, которая берет текст и положение, и затем Серверная сторона генерирует x, y на месте продажи для каждого символа в тексте, генерирует отделения в произвольном порядке, содержащем символы. Генерируйте JavaScript, которые затем располагают каждое отделение на правильное место на экране. Взгляды, хорошие на экране, но в коде позади, нет никакого реального порядка выбрать текст, если Вы не идете throuh проблема для очистки с помощью JavaScript (который может быть изменен динамично каждый запрос)

Слишком много работы, и имейте возможно много причуд, это зависит от того, сколько текста и как усложняют UI, который Вы имеете на сайте и других вещах.

2
ответ дан 27 November 2019 в 22:57
поделиться

Предотвращают? - невозможный, но можно мешать.

Disincentivise? - возможный, но Вам не понравится ответ: предоставьте объемный экспорт данных заинтересованным сторонам.

На длительном периоде, у всех Ваших конкурентов будут те же данные, если Вы опубликуете их, таким образом, Вы нуждаетесь в других средствах разностороннего развития Вашего веб-сайта (например, обновляете их более часто, сделайте их быстрее или легче использовать). В наше время даже Google использует очищенную информацию как отзывы пользователей, что Вы думаете, что можно делать с этим? Предъявите иск им, и будьте загружены от их индекса?

2
ответ дан 27 November 2019 в 22:57
поделиться

Поисковые системы ЯВЛЯЮТСЯ экранными скребками по определению. Так большинство вещей Вы делаете, чтобы мешать экранировать царапанье, будет также мешать индексировать Ваше содержание.

роботы Хорошего поведения будут соблюдать Ваш файл robots.txt. Вы могли также заблокировать IP известных преступников или добавить HTML-тэги запутывания в Ваше содержание, когда это не отправляется на известный хороший робот. Это - проигрывающее сражение все же. Я рекомендую маршрут тяжбы для известных преступников.

Вы могли также скрыть данные идентификации в содержании, чтобы помочь разыскать преступников. Энциклопедии были известны добавить Фиктивные записи , чтобы помочь обнаружить и преследовать по суду нарушителей авторского права.

4
ответ дан 27 November 2019 в 22:57
поделиться

Было бы очень трудно предотвратить. Проблема состоит в том, что Веб-страницы , означал быть проанализированным программой (Ваш браузер), таким образом, их исключительно легко очистить. Лучшее, которое можно сделать, быть бдительным, и если Вы находите, что Ваш сайт очищается, заблокируйте IP незаконной программы.

5
ответ дан 27 November 2019 в 22:57
поделиться

Довольно трудно предотвратить анализ экранных данных, но если Вы действительно, действительно требуемый Вам могли бы часто изменять свой HTML или часто менять имена HTML-тэга. Скребки экрана Most работают при помощи сравнений строк с именами тега или регулярных выражений, ищущих конкретные строки и т.д. при изменении базового HTML, он сделает их, должен изменить их программное обеспечение.

10
ответ дан 27 November 2019 в 22:57
поделиться

Вы can’t предотвращаете его.

62
ответ дан 27 November 2019 в 22:57
поделиться

Наилучшая окупаемость инвестиций, вероятно, заключается в добавлении случайных символов новой строки и нескольких пробелов, поскольку большинство скребков экрана работают с HTML как текстом, а не как XML (поскольку большинство страниц не обрабатываются как действительные XML).

Браузер игнорирует пробелы, поэтому ваш пользователь не замечает, что

  Price : 1
  Price :    2
  Price\n:\n3

отличаются. (это исходит из моего опыта очистки правительственных сайтов с помощью AWK.)

Следующим шагом будет добавление тегов вокруг случайных элементов, чтобы испортить DOM.

3
ответ дан 27 November 2019 в 22:57
поделиться

Well, before you push the content from the server to the client, remove all the \r\n, \n, \t and replace everything with nothing but a single space. Now you have 1 long line in your html page. Google does this. This will make it hard for others to read your html or JavaScript.
Then you can create empty tags and randomly insert them here and there. The will have no effect.
Then you can log all the IPs and how often they hit your site. If you see one that comes in on time everytime, you mark it as robot and block it.
Make sure you leave the search engines alone if you want them to come in.
Hope this helps

0
ответ дан 27 November 2019 в 22:57
поделиться

Не предотвращайте это, выявляйте это и мстите тем, кто пытается.

Например, оставьте свой сайт открытым для загрузки, но распространите некоторые ссылки, по которым ни один здравомыслящий пользователь не перейдет. Если кто-то переходит по этой ссылке, щелкает слишком быстро для человека или другого подозрительного поведения, немедленно отреагируйте, чтобы остановить попытку пользователя. Если есть система входа в систему, заблокируйте пользователя и свяжитесь с ним по поводу недопустимого поведения. Это должно гарантировать, что они не попытаются снова. Если нет системы входа в систему, вместо фактических страниц возвращайте большое предупреждение с поддельными ссылками на то же предупреждение.

Это действительно применимо для таких вещей, как Safari Bookshelf, где пользователь копирует фрагмент кода или главу для отправки по почте с коллегой все в порядке, а полная загрузка книги недопустима. Я совершенно уверен, что они обнаруживают, когда кто-то пытается скачать их книги, заблокировать учетную запись и показать виновному, что у него могут возникнуть РЕАЛЬНЫЕ неприятности, если он попытается это снова.

Если провести аналогию, не связанную с информационными технологиями, если бы служба безопасности аэропорта только затруднила доставку оружия на борт самолетов, террористы попробовали бы много способы проскользнуть мимо безопасности. Но тот факт, что простая попытка доставит вам серьезные неприятности, делает так, что никто не будет пытаться найти способы украсть что-нибудь. Слишком высок риск быть пойманными и наказанными. Просто сделай то же самое. Если возможно.

Слишком высок риск быть пойманными и наказанными. Просто сделай то же самое. Если возможно.

Слишком высок риск быть пойманными и наказанными. Просто сделай то же самое. Если возможно.

3
ответ дан 27 November 2019 в 22:57
поделиться

Я написал об этом сообщение в блоге здесь: http://blog.screen-scraper.com/2009/08/17/f Further-gotits-on-hindering- screen-scraping /

Перефразируя:

Если вы разместите информацию в Интернете, кто-то сможет ее получить, это просто вопрос того, сколько ресурсов они хотят вложить. Вот некоторые способы увеличения требуемых ресурсов:

Тесты Тьюринга

Наиболее распространенная реализация теста поворота - это старая CAPTCHA, которая пытается гарантировать, что человек прочитает текст на изображении и введет его в форму.

Мы обнаружили большое количество сайтов, на которых реализована очень слабая CAPTCHA, обход которой занимает всего несколько минут. С другой стороны, есть несколько очень хороших реализаций тестов Тьюринга, с которыми мы бы предпочли не заниматься, учитывая выбор, но сложное OCR иногда может их преодолеть, или у многих спамеров на досках объявлений есть несколько хитрых уловок, чтобы их обойти.

Данные как изображения

Иногда вы знаете, какие части ваших данных являются ценными. В этом случае целесообразно заменить такой текст изображением. Как и в случае с тестом Тьюринга, существует программное обеспечение OCR, которое может его прочитать, и нет причин, по которым мы не можем сохранить изображение и попросить кого-нибудь прочитать его позже.

Однако часто данные перечисляются в виде изображения без альтернативного текста. является нарушением Закона об американцах с ограниченными возможностями (ADA), и его можно решить с помощью пары телефонных звонков в юридический отдел компании.

Обфускация кода

Использование чего-то вроде функции JavaScript для отображения данных на странице, хотя его нет нигде в исходном HTML - это хороший трюк. Другие примеры включают размещение плодовитых, посторонние комментарии на странице или наличие интерактивной страницы, которая упорядочивает вещи непредсказуемым образом (и пример, который я думаю, с использованием CSS, чтобы сделать отображение одинаковым независимо от расположения кода).

CSS-спрайты

Недавно мы столкнулись с некоторыми случаями, когда на странице было одно изображение, содержащее цифры и буквы, и мы использовали CSS для отображения только нужных символов. По сути, это комбинация двух предыдущих методов. Сначала мы должны получить это эталонное изображение и прочитать, какие символы там есть, затем нам нужно будет прочитать CSS на сайте и определить, на какой символ указывает каждый тег.

Хотя это очень умно, я подозреваю, что это тоже будет противоречить ADA, хотя я это еще не тестировал.

Ограничение результатов поиска

Большая часть данных, которые мы хотим получить, находится за какой-то формой. Некоторые легкие, а отправка пустой формы даст все результаты. Некоторым нужно поставить в форму звездочку или процент. Самые сложные из них - те, которые дадут вам лишь определенное количество результатов на запрос. Иногда мы просто делаем цикл, который будет отправлять буквы алфавита в форму, но если это слишком общий характер, мы должны сделать цикл для отправки всех комбинаций из 2 или 3 букв - это 17 576 запросов страниц.

IP Filtering

Иногда прилежный веб-мастер замечает большое количество запросов страниц, поступающих с определенного IP-адреса, и блокирует запросы из этого домена. Однако существует ряд методов для передачи запросов через альтернативные домены, поэтому этот метод, как правило, не очень эффективен.

Работа с сайтом

Очистка всегда приводит к отключению определенных вещей в HTML. У некоторых сайтов есть ресурсы для постоянной настройки своего HTML, чтобы любые царапины постоянно устарели. Следовательно, становится неэффективным постоянно обновлять царапины для постоянно меняющихся условий.

19
ответ дан 27 November 2019 в 22:57
поделиться

Как насчет использования библиотеки ITExt для создания PDFS из вашей информации базы данных? Как и во вспышке, это не сделает невозможный соскоб, но может сделать его немного сложнее.

нетл

0
ответ дан 27 November 2019 в 22:57
поделиться

Старый вопрос, но добавление интерактивности значительно усложняет процесс скрейпинга. Если данные не содержатся в исходном ответе - скажем, вы сделали AJAX-запрос для заполнения div после загрузки страницы - большинство скреперов их не увидят.

Например, я использую библиотеку Mechanize для скраппинга. Mechanize не выполняет Javascript - это не современный браузер - он просто анализирует HTML, позволяет мне переходить по ссылкам, извлекать текст и т. д. Всякий раз, когда я натыкаюсь на страницу, где активно используется Javascript, я задыхаюсь - без полностью скриптового браузера (который поддерживает весь спектр Javascript) я застреваю.

Это та же проблема, которая делает автоматизированное тестирование высокоинтерактивных веб-приложений таким сложным.

0
ответ дан 27 November 2019 в 22:57
поделиться

Никогда бы не подумал, что предотвращение принтскрина станет возможным... ну что вы знаете, ознакомьтесь с новой технологией - sivizion.com. С их технологией видеобуфера невозможно сделать экран печати, круто, действительно круто, хотя и сложно в использовании ... Я думаю, что они также лицензируют эту технологию, проверьте ее. (Если я ошибаюсь, пожалуйста, напишите здесь, как его можно взломать.) Найдено здесь: Как предотвратить печать экрана

0
ответ дан 27 November 2019 в 22:57
поделиться
Другие вопросы по тегам:

Похожие вопросы: