Надеюсь, это поможет некоторым, как в вашем случае, я пострадал с той же проблемой, и просто использовал localstorage для обмена данными между родительским окном и iframe. Поэтому в родительском окне вы можете:
localStorage.setItem("url", myUrl);
И в коде, где источник iframe просто получает эти данные из localstorage:
localStorage.getItem('url');
Сэкономил мне много времени. Насколько я вижу, единственным условием является доступ к исходному коду страницы. Надеюсь, это поможет кому-то.
Robots.txt ИМХО.
Опция метатега говорит ботам не индексировать отдельные файлы, тогда как Robots.txt может использоваться для ограничения доступа ко всем каталогам.
Конечно, используйте метатег, если у вас есть нечетная страница в проиндексированных папках, которую вы хотите пропустить, но в целом я бы порекомендовал вам большую часть вашего неиндексированного контента в одной или нескольких папках и используйте robots.txt для пропуска много.
Нет, нет проблем в использовании обоих - если есть столкновение, в общих чертах, отрицание отменяет разрешение .
Существует огромная разница между meta robot и robots.txt.
В robots.txt мы спрашиваем сканеры, какую страницу вы должны сканировать, а какую - исключить, но мы не просим сканер не индексировать эти исключенные страницы из сканирования.
Но если мы используем мета-теги роботов, мы можем попросить сканеры поисковых систем не индексировать эту страницу. Для этого нужно использовать тег:
< #meta name = "имя робота", контент = "noindex"> (удалить #)
ИЛИ
< #meta name = "имя робота", content = "follow, noindex"> (удалить #)
Во втором метатеге я попросил робота следовать этому URL, но не индексировать в поисковой системе.
Есть одно существенное отличие. Согласно Google они по-прежнему будут индексировать страницу за robots.txt DENY, если страница связана с другим сайтом.
Однако, они не увидят метатег:
Хотя Google не будет сканировать или индексировать контент, заблокированный robots.txt, мы все равно можем найти и проиндексировать запрещенный URL из других мест в Интернете. В результате URL-адрес и, возможно, другая общедоступная информация, такая как якорный текст в ссылках на сайт, все еще могут появляться в результатах поиска Google. Вы можете полностью запретить отображение своего URL в результатах поиска Google с помощью других методов блокировки URL, таких как защита паролем файлов на вашем сервере или с помощью метатега noindex или заголовка ответа .
Оба поддерживаются всеми сканерами, которые уважают пожелания веб-мастеров. Не все делают, но против них ни техника не достаточна.
Вы можете использовать правила robots.txt для общих целей, например запретить целые разделы вашего сайта. Если вы говорите Disallow: /family
, то все ссылки, начинающиеся с /family
, не индексируются сканером.
Метатег можно использовать для запрета одной страницы. Страницы, запрещенные метатегами, не влияют на подстраницы в иерархии страниц. Если у вас есть мета-тег запрещения /work
, это не мешает сканеру получить доступ к /work/my-publications
, если на разрешенной странице есть ссылка на него.
Я бы, вероятно, использовал robots.txt
поверх тега meta
. Robots.txt существует дольше и может быть более широко поддержан (но я не уверен на 100% в этом).
Что касается второй части, я думаю, что большинство пауков примут любой наиболее ограничивающий параметр для страницы - если есть несоответствие между robots.txt и метатегом.
<meta name="robots" content="index, follow">
<meta name="robots" CONTENT="all">
<meta name="robots" content="noindex, follow">
<meta name="robots" content="noindex, nofollow">
<meta name="robots" content="index, nofollow" />
<meta name="robots" content="noindex, nofollow" />
Разрешить сканерам сканировать все веб-сайты
user-agent: *
Allow:
Disallow:
Запретить сканерам сканировать все веб-сайты
user-agent: *
Allow:
Disallow:/
Robots.txt подходит для страниц, которые потребляют много вашего бюджета сканирования, таких как внутренний поиск или фильтры с бесконечной комбинацией. Если вы разрешите Google индексировать yoursite.com/search=lalalala
, это приведет к напрасной трате бюджета.
мета превосходят.
Чтобы исключить отдельные страницы из индексов поисковых систем, метатег noindex фактически превосходит robots.txt.
Вы хотите использовать «noindex, follow» в метатеге роботов , а не robots.txt
, потому что это позволит пропускать сок ссылок. Это лучше с точки зрения SEO.
У вас может быть любой, но если на вашем веб-сайте много веб-страниц, robots.txt прост и уменьшает временную сложность