как запретить всем динамическим URL [закрытый] robots.txt

Я использую LogParser, чтобы генерировать графики и искать элементы в журналах IIS.

7
задан pmarreddy 29 September 2009 в 22:55
поделиться

2 ответа

Ответ на ваш вопрос - использовать

Disallow: /?q=

Лучший (в настоящее время доступный) источник файла robots.txt, который я смог найти, находится в Википедии . (Предположительно окончательный источник - http://www.robotstxt.org , но сайт в данный момент не работает.)

Согласно странице Википедии, стандарт определяет только два поля; UserAgent: и Disallow :. Поле Disallow: не допускает явных подстановочных знаков, но каждый «запрещенный» путь на самом деле является префиксом пути; то есть соответствие любому пути, который начинается с указанного значения.

Поле Allow: является нестандартным расширением, и любая поддержка явных подстановочных знаков в Disallow будет нестандартным расширением. Если вы их используете, вы не имеете права ожидать, что (законный) поисковый робот их поймет.

Дело не в том, что краулеры "

11
ответ дан 6 December 2019 в 19:39
поделиться

Как сказал Пол, многие интерпретаторы robots.txt не слишком умны и могут не интерпретировать подстановочные знаки в пути так, как вы собираетесь их использовать.

Тем не менее, некоторые сканеры пытаются пропускать динамические страницы самостоятельно, опасаясь, что они могут зациклиться на ссылках с разными URL-адресами. Я предполагаю, что вы задаете этот вопрос, потому что сталкиваетесь с отважным поисковым роботом, который изо всех сил пытается получить доступ к этим динамическим путям.

Если у вас есть проблемы с конкретными поисковыми роботами, вы можете попытаться выяснить, как работает этот поисковый робот, путем поиска его роботов. txt и указав для него специальный раздел robots.txt.

Если вы обычно просто хотите запретить такой доступ к своим динамическим страницам, вы можете пересмотреть дизайн robots.txt.

Чаще всего, динамический обработка параметров "страницы" находятся в определенном каталоге или в определенном наборе каталогов. Вот почему обычно очень просто просто Disallow: / cgi-bin или / app и покончить с этим.

В вашем случае вы, кажется, сопоставили корень с областью, которая обрабатывает параметры. Вы можете изменить логику файла robots.txt и сказать что-то вроде:

User-agent: * 
Allow: /index.html
Allow: /offices
Allow: /static 
Disallow: /

Таким образом, ваш список разрешений переопределит список запретов, добавив, в частности, какие поисковые роботы должны индексировать. Обратите внимание, что не все сканеры созданы равными, и вы можете позже уточнить этот robots.txt, добавив специальный раздел для любого поискового робота, который по-прежнему ведет себя неправильно.

Вы можете изменить логику файла robots.txt и сказать что-то вроде:

User-agent: * 
Allow: /index.html
Allow: /offices
Allow: /static 
Disallow: /

Таким образом, ваш список разрешений переопределит список запретов, добавив, в частности, какие поисковые роботы должны индексировать. Обратите внимание, что не все сканеры созданы равными, и вы можете позже уточнить этот robots.txt, добавив специальный раздел для любого поискового робота, который по-прежнему ведет себя неправильно.

Вы можете изменить логику файла robots.txt и сказать что-то вроде:

User-agent: * 
Allow: /index.html
Allow: /offices
Allow: /static 
Disallow: /

Таким образом, ваш список разрешений переопределит список запретов, добавив, в частности, какие поисковые роботы должны индексировать. Обратите внимание, что не все сканеры созданы равными, и вы можете позже уточнить этот robots.txt, добавив специальный раздел для любого поискового робота, который по-прежнему ведет себя неправильно.

2
ответ дан 6 December 2019 в 19:39
поделиться