У меня есть серьезный вопрос. Это когда-либо этично для игнорирования присутствия файла robots.txt на веб-сайте? Это некоторые соображения, которые я получил в памяти:
Если кто-то поднимет веб-сайт, то они ожидают некоторые посещения. Предоставленный, поисковые роботы используют пропускную способность, не нажимая на рекламу, которая может поддерживать сайт, но владелец сайта помещает их сайт на сеть, право, поэтому насколько разумный это, чтобы они ожидали, что их никогда не будет посещать бот?
Некоторые сайты, по-видимому, используют robots.txt точно, чтобы помешать их сайту проверяться Google или некоторой другой утилитой, которая могла бы захватить цены и поэтому позволить людям делать сравнения цен легко. У них есть частные поисковые системы на сайте, таким образом, они, очевидно, хотят, чтобы люди смогли искать сайт; по-видимому, они просто не хотят, чтобы люди смогли легко сравнить свою информацию с другими поставщиками.
Как я сказал, я не пытаюсь быть спорным; я был бы точно так же, как, чтобы знать, придумывал ли кто-либо когда-либо случай, где этически допустимо проигнорировать присутствие файла robots.txt? Я не могу думать о случае, где допустимо проигнорировать robots.txt главным образом, потому что люди (или компании) платят деньги для подъема их веб-сайтов, таким образом, они должны смочь сказать Googles/Yahoos/Other SE мира, что они не хотят быть на их индексах.
Для помещения этого обсуждения в контекст я хотел бы создать веб-сайт сравнения цен, и у одного из крупных поставщиков есть robots.txt, который в основном препятствует тому, чтобы любой захватил их цены. Я хотел бы смочь получить их информацию, но, поскольку я сказал, я не могу выровнять по ширине просто игнорирование пожеланий владельца сайта.
Я видел некоторое очень резкое обсуждение здесь, и вот почему я хотел бы услышать мнения разработчиков, которые следуют за Переполнением стека.
Между прочим, существует некоторое обсуждение этой темы по вопросу о Hacker News, но они, кажется, главным образом фокусируются на легальных аспектах этого.
Аргументы:
Другой способ использования robots.txt
- помочь защитить веб-пауков от самих себя. Веб-пауку относительно легко увязнуть в бесконечно глубоком лесу ссылок, и правильно построенный файл robots.txt
сообщит ему, что «вам не нужно идти сюда».
Чтобы ответить на узкий вопрос, для веб-сайта сравнения цен вам, вероятно, лучше всего узнать цену в реальном времени, а не удалять заранее базу данных. Трудно представить себе, что это проблема.
Одна из причин, по которой мы позволяем роботам копаться в сети без жалоб, заключается в том, что у нас есть способ остановить их, если мы захотим. Защищает обе стороны.
Помните шум, когда роботов Куила обвинили в чрезмерных действиях, очевидно, в некоторых случаях действуя как DoS-атака и используя пропускную способность некоторых небольших сайтов?
Если слишком много людей нарушают правила? robots.txt мы можем получить что-то еще хуже.
Я показываю здесь некоторое невежество, но я всегда думал, что бот - это нечто, присланное только поисковой системой. Как Google или Yahoo.
Таким образом, если бы вы написали приложение для поиска контента в Интернете, я бы не стал рассматривать это как бот поисковой системы, который, насколько мне известно, robots.txt пытается заблокировать.
Но это может быть просто выборочное незнание, потому что я могу делать это, пока веб-мастер этого сайта не свяжется со мной и не попросит меня прекратить :)
Интересная версия истории о Гарвардском Купе в жанре IRL: Coop вызывает полицейских на копировальных аппаратах ISBN .
Если люди делают его общедоступным, они не должны пытаться ограничивать его. Добавление файла robots.txt на ваш сайт равносильно установке на лужайке таблички с надписью «Пожалуйста, не смотрите на меня».
Краткий ответ: Нет.
По узкому вопросу: если продавец говорит, что его цены являются секретными, я думаю, вы должны это уважать. Я бы связался с ними и спросил, действительно ли они не хотят, чтобы системы сравнения цен, такие как ваша, включали их, или знак «вторжения запрещен» сделан по техническим причинам. Если последнее, возможно, они предоставят вам альтернативу. Если первое, то я бы сказал очень плохо, они не попадают в список, они теряют какой-то бизнес, и это их проблемы.
Тангенциальная напыщенная речь: Лично меня очень раздражают компании, которые заставляют меня прыгать через обруч, чтобы узнать цены на их продукцию, места, где я звоню и разговариваю с продавцом, чтобы он мог предложить мне жесткую презентацию, или, что еще хуже, заставить меня дать им свой номер телефона, чтобы их продавец мог позвонить мне и приставать ко мне. Я полагаю, что если они боятся назвать мне цену, это, вероятно, означает, что она слишком высока.
В целом: файл robots.txt похож на знак «Вход воспрещен». Владелец имеет право сказать, кому разрешено находиться в его собственности. Если вы думаете, что их причины глупые, вы можете вежливо предложить им снять табличку. Но вы не имеете права игнорировать их пожелания. Если кто-то повесит на своем дворе табличку «Запрещено проникновение», и я скажу: «Эй, я просто хочу срезать путь, что в этом такого?» - Может быть, я наступаю на его ценные болгарские фиалковые луковицы и разрушаю ценное вложение. Может быть, я пересекаю священное место захоронения его людей и оскорбляю их религиозные чувства. А может, он просто злобный придурок. Но это все еще его собственность и его право. Ой, и если я упаду в опасную воронку после того, как проигнорирую знак «Вход воспрещен», кто виноват? (В Америке я, вероятно, все еще мог бы подать на него в суд, несмотря на то, что он предупреждал меня, но правильно ли это?)
Многие люди пытались построить бизнес на основе «сравнения цен» поисковые системы, сканирующие основные сайты.
Как только вы начнете получать какой-либо трафик / доход, о котором можно говорить, вы получите прекращение и воздержитесь . Так было с десятками, если не сотнями проектов. Я даже работал над небольшим проектом, который получил C&D от Craigslist.
Знаете, как говорят: «Проще просить прощения, чем получить разрешение»? Это не относится к очистке страниц. Получите разрешение, или вы получите известие от их адвокатов.
Если вам повезет, это будет рано, когда вам нечего терять. Если будет поздно, вы можете потерять свой бизнес и всю работу в одночасье, написав всего одно письмо.
Получить разрешение не должно быть сложно. Если вы не делаете что-то подлое, вы, скорее всего, привлечете их дополнительный трафик. Черт, как только ваш продукт станет популярным, сайты могут упросить вас,