Я использую LogParser, чтобы генерировать графики и искать элементы в журналах IIS.
Ответ на ваш вопрос - использовать
Disallow: /?q=
Лучший (в настоящее время доступный) источник файла robots.txt, который я смог найти, находится в Википедии . (Предположительно окончательный источник - http://www.robotstxt.org , но сайт в данный момент не работает.)
Согласно странице Википедии, стандарт определяет только два поля; UserAgent: и Disallow :. Поле Disallow: не допускает явных подстановочных знаков, но каждый «запрещенный» путь на самом деле является префиксом пути; то есть соответствие любому пути, который начинается с указанного значения.
Поле Allow: является нестандартным расширением, и любая поддержка явных подстановочных знаков в Disallow будет нестандартным расширением. Если вы их используете, вы не имеете права ожидать, что (законный) поисковый робот их поймет.
Дело не в том, что краулеры "
Как сказал Пол, многие интерпретаторы robots.txt не слишком умны и могут не интерпретировать подстановочные знаки в пути так, как вы собираетесь их использовать.
Тем не менее, некоторые сканеры пытаются пропускать динамические страницы самостоятельно, опасаясь, что они могут зациклиться на ссылках с разными URL-адресами. Я предполагаю, что вы задаете этот вопрос, потому что сталкиваетесь с отважным поисковым роботом, который изо всех сил пытается получить доступ к этим динамическим путям.
Если у вас есть проблемы с конкретными поисковыми роботами, вы можете попытаться выяснить, как работает этот поисковый робот, путем поиска его роботов. txt и указав для него специальный раздел robots.txt.
Если вы обычно просто хотите запретить такой доступ к своим динамическим страницам, вы можете пересмотреть дизайн robots.txt.
Чаще всего, динамический обработка параметров "страницы" находятся в определенном каталоге или в определенном наборе каталогов. Вот почему обычно очень просто просто Disallow: / cgi-bin или / app и покончить с этим.
В вашем случае вы, кажется, сопоставили корень с областью, которая обрабатывает параметры. Вы можете изменить логику файла robots.txt и сказать что-то вроде:
User-agent: *
Allow: /index.html
Allow: /offices
Allow: /static
Disallow: /
Таким образом, ваш список разрешений переопределит список запретов, добавив, в частности, какие поисковые роботы должны индексировать. Обратите внимание, что не все сканеры созданы равными, и вы можете позже уточнить этот robots.txt, добавив специальный раздел для любого поискового робота, который по-прежнему ведет себя неправильно.
Вы можете изменить логику файла robots.txt и сказать что-то вроде:User-agent: *
Allow: /index.html
Allow: /offices
Allow: /static
Disallow: /
Таким образом, ваш список разрешений переопределит список запретов, добавив, в частности, какие поисковые роботы должны индексировать. Обратите внимание, что не все сканеры созданы равными, и вы можете позже уточнить этот robots.txt, добавив специальный раздел для любого поискового робота, который по-прежнему ведет себя неправильно.
Вы можете изменить логику файла robots.txt и сказать что-то вроде:User-agent: *
Allow: /index.html
Allow: /offices
Allow: /static
Disallow: /
Таким образом, ваш список разрешений переопределит список запретов, добавив, в частности, какие поисковые роботы должны индексировать. Обратите внимание, что не все сканеры созданы равными, и вы можете позже уточнить этот robots.txt, добавив специальный раздел для любого поискового робота, который по-прежнему ведет себя неправильно.