Этика robots.txt [закрывается]

У меня есть серьезный вопрос. Это когда-либо этично для игнорирования присутствия файла robots.txt на веб-сайте? Это некоторые соображения, которые я получил в памяти:

  1. Если кто-то поднимет веб-сайт, то они ожидают некоторые посещения. Предоставленный, поисковые роботы используют пропускную способность, не нажимая на рекламу, которая может поддерживать сайт, но владелец сайта помещает их сайт на сеть, право, поэтому насколько разумный это, чтобы они ожидали, что их никогда не будет посещать бот?

  2. Некоторые сайты, по-видимому, используют robots.txt точно, чтобы помешать их сайту проверяться Google или некоторой другой утилитой, которая могла бы захватить цены и поэтому позволить людям делать сравнения цен легко. У них есть частные поисковые системы на сайте, таким образом, они, очевидно, хотят, чтобы люди смогли искать сайт; по-видимому, они просто не хотят, чтобы люди смогли легко сравнить свою информацию с другими поставщиками.

Как я сказал, я не пытаюсь быть спорным; я был бы точно так же, как, чтобы знать, придумывал ли кто-либо когда-либо случай, где этически допустимо проигнорировать присутствие файла robots.txt? Я не могу думать о случае, где допустимо проигнорировать robots.txt главным образом, потому что люди (или компании) платят деньги для подъема их веб-сайтов, таким образом, они должны смочь сказать Googles/Yahoos/Other SE мира, что они не хотят быть на их индексах.

Для помещения этого обсуждения в контекст я хотел бы создать веб-сайт сравнения цен, и у одного из крупных поставщиков есть robots.txt, который в основном препятствует тому, чтобы любой захватил их цены. Я хотел бы смочь получить их информацию, но, поскольку я сказал, я не могу выровнять по ширине просто игнорирование пожеланий владельца сайта.

Я видел некоторое очень резкое обсуждение здесь, и вот почему я хотел бы услышать мнения разработчиков, которые следуют за Переполнением стека.

Между прочим, существует некоторое обсуждение этой темы по вопросу о Hacker News, но они, кажется, главным образом фокусируются на легальных аспектах этого.

32
задан 4 revs, 3 users 72% 13 March 2015 в 14:02
поделиться

10 ответов

Аргументы:

  1. Файл robots.txt является подразумеваемой лицензией, тем более, что вам это известно. Таким образом, продолжение очистки их сайта может рассматриваться как несанкционированный доступ (т. Е. Взлом). Отстой, но подобные аргументы в последнее время приводились в других судебных делах (не связанных напрямую с robots.txt, но в отношении других «пассивных средств контроля»).
  2. Получение цен не нарушает закон об авторских правах, включая DMCA, поскольку авторское право нарушает не включать фактическую информацию, только креатив.
  3. С этической точки зрения вам не следует собирать цены, потому что продавец должен иметь возможность изменять цены, не беспокоясь о том, что люди, пришедшие с вашего сайта, обвинят его в приманке / подмене.
  4. У вас есть взял большую дорогу, объяснил им место и сказал, что вы Хотели бы вы включить их в свой список поставщиков? Может быть, им понравится эта идея, и они на самом деле представят данные таким образом, чтобы их было легко потреблять, а их производство было бы менее ресурсоемким.
  5. Нет никаких законов, написанных непосредственно о robots.txt, потому что обычно соблюдается сетевой этикет. Не будьте одним из «плохих парней».
  6. Некоторые люди фильтруют роботов, потому что они используют URL-ссылки для выполнения «действий», таких как добавление вещей в тележки, и роботы оставляют их с огромным количеством брошенных тележек для покупок в своей базе данных.
  7. Некоторые люди фильтруют роботов, потому что у них есть эксклюзивные цены, которые они не могут рекламировать открыто на основе соглашений со своими поставщиками. Вы могли бы поставить их в невыгодное положение, выставив эти цены на своем сайте.
  8. В этой экономике, если компания этого не делает. не хотят делать все возможное для рекламы себя, они сами виноваты, что вы их не включили.
45
ответ дан 27 November 2019 в 20:17
поделиться

Другой способ использования robots.txt - помочь защитить веб-пауков от самих себя. Веб-пауку относительно легко увязнуть в бесконечно глубоком лесу ссылок, и правильно построенный файл robots.txt сообщит ему, что «вам не нужно идти сюда».

28
ответ дан 27 November 2019 в 20:17
поделиться

«Нет» означает «нет».

2
ответ дан 27 November 2019 в 20:17
поделиться

Чтобы ответить на узкий вопрос, для веб-сайта сравнения цен вам, вероятно, лучше всего узнать цену в реальном времени, а не удалять заранее базу данных. Трудно представить себе, что это проблема.

1
ответ дан 27 November 2019 в 20:17
поделиться

Одна из причин, по которой мы позволяем роботам копаться в сети без жалоб, заключается в том, что у нас есть способ остановить их, если мы захотим. Защищает обе стороны.

Помните шум, когда роботов Куила обвинили в чрезмерных действиях, очевидно, в некоторых случаях действуя как DoS-атака и используя пропускную способность некоторых небольших сайтов?

Если слишком много людей нарушают правила? robots.txt мы можем получить что-то еще хуже.

1
ответ дан 27 November 2019 в 20:17
поделиться

Я показываю здесь некоторое невежество, но я всегда думал, что бот - это нечто, присланное только поисковой системой. Как Google или Yahoo.

Таким образом, если бы вы написали приложение для поиска контента в Интернете, я бы не стал рассматривать это как бот поисковой системы, который, насколько мне известно, robots.txt пытается заблокировать.

Но это может быть просто выборочное незнание, потому что я могу делать это, пока веб-мастер этого сайта не свяжется со мной и не попросит меня прекратить :)

-2
ответ дан 27 November 2019 в 20:17
поделиться

Интересная версия истории о Гарвардском Купе в жанре IRL: Coop вызывает полицейских на копировальных аппаратах ISBN . ​​

0
ответ дан 27 November 2019 в 20:17
поделиться

Если люди делают его общедоступным, они не должны пытаться ограничивать его. Добавление файла robots.txt на ваш сайт равносильно установке на лужайке таблички с надписью «Пожалуйста, не смотрите на меня».

-4
ответ дан 27 November 2019 в 20:17
поделиться

Краткий ответ: Нет.

По узкому вопросу: если продавец говорит, что его цены являются секретными, я думаю, вы должны это уважать. Я бы связался с ними и спросил, действительно ли они не хотят, чтобы системы сравнения цен, такие как ваша, включали их, или знак «вторжения запрещен» сделан по техническим причинам. Если последнее, возможно, они предоставят вам альтернативу. Если первое, то я бы сказал очень плохо, они не попадают в список, они теряют какой-то бизнес, и это их проблемы.

Тангенциальная напыщенная речь: Лично меня очень раздражают компании, которые заставляют меня прыгать через обруч, чтобы узнать цены на их продукцию, места, где я звоню и разговариваю с продавцом, чтобы он мог предложить мне жесткую презентацию, или, что еще хуже, заставить меня дать им свой номер телефона, чтобы их продавец мог позвонить мне и приставать ко мне. Я полагаю, что если они боятся назвать мне цену, это, вероятно, означает, что она слишком высока.

В целом: файл robots.txt похож на знак «Вход воспрещен». Владелец имеет право сказать, кому разрешено находиться в его собственности. Если вы думаете, что их причины глупые, вы можете вежливо предложить им снять табличку. Но вы не имеете права игнорировать их пожелания. Если кто-то повесит на своем дворе табличку «Запрещено проникновение», и я скажу: «Эй, я просто хочу срезать путь, что в этом такого?» - Может быть, я наступаю на его ценные болгарские фиалковые луковицы и разрушаю ценное вложение. Может быть, я пересекаю священное место захоронения его людей и оскорбляю их религиозные чувства. А может, он просто злобный придурок. Но это все еще его собственность и его право. Ой, и если я упаду в опасную воронку после того, как проигнорирую знак «Вход воспрещен», кто виноват? (В Америке я, вероятно, все еще мог бы подать на него в суд, несмотря на то, что он предупреждал меня, но правильно ли это?)

0
ответ дан 27 November 2019 в 20:17
поделиться

Многие люди пытались построить бизнес на основе «сравнения цен» поисковые системы, сканирующие основные сайты.

Как только вы начнете получать какой-либо трафик / доход, о котором можно говорить, вы получите прекращение и воздержитесь . Так было с десятками, если не сотнями проектов. Я даже работал над небольшим проектом, который получил C&D от Craigslist.

Знаете, как говорят: «Проще просить прощения, чем получить разрешение»? Это не относится к очистке страниц. Получите разрешение, или вы получите известие от их адвокатов.

Если вам повезет, это будет рано, когда вам нечего терять. Если будет поздно, вы можете потерять свой бизнес и всю работу в одночасье, написав всего одно письмо.

Получить разрешение не должно быть сложно. Если вы не делаете что-то подлое, вы, скорее всего, привлечете их дополнительный трафик. Черт, как только ваш продукт станет популярным, сайты могут упросить вас,

4
ответ дан 27 November 2019 в 20:17
поделиться
Другие вопросы по тегам:

Похожие вопросы: