Как форумы проверки ботов поисковой системы?

Это сработало для вашего примера:

library(sparklyr)
library(tidyverse)

sc <- spark_connect(master = "local")

df<-tibble(ID=c(1,2,3,4), String=c("a",NaN,"b",NaN))

tbl_df<-sdf_copy_to(sc,df,"tbl_df",overwrite = TRUE)

tbl_df<-tbl_df%>%mutate(String=ifelse(String=="NaN",lag(String,order = ID),String))

> glimpse(tbl_df)
Observations: ??
Variables: 2
$ ID     <dbl> 1, 2, 3, 4
$ String <chr> "a", "a", "b", "b"
6
задан Waleed Eissa 18 August 2010 в 20:17
поделиться

3 ответа

Основываться на том, какой сказанный chakrit, некоторые поисковые системы (Google в особенности) будет только индексные страницы, которые имеют только один или два параметра. После этого страница обычно игнорируется, вероятно, потому что она замечена как являющийся слишком динамичным и поэтому ненадежный URL.

Лучше создавать SEO дружественные URL, которые лишены параметров, но вместо этого скрывают реализацию позади чего-то как mod_rewrite в Apache или маршруты в направляющих. (например, http://domain.com/forum/post/123 отображается на http://domain.com/forum/post.php?id=123).

Chakrit также упоминает Google Sitemaps. Они полезны в удостоверяющемся Google, сканирует каждую регистрацию и сохраняет его в их индексе постоянно. Jeff Atwood обсуждает это на Подкаст Stackoverflow 24, в котором он объясняет, что Google не оставался на всех постах Stackoverflow, пока они не помещают каждую внутреннюю часть карта сайта.

0
ответ дан 16 December 2019 в 21:47
поделиться

Сложный материал.

На основе моего опыта это зависит больше от того, какую схему URL делают Вы используете для соединения страниц вместе, которые определят, будет ли поисковый робот проверки который страницы.

  • Большая часть механизма проверяет весь веб-сайт, если он все правильно связывается гиперссылками с благоприятные для проверки URL, например, используйте перезапись URL вместо topicID=123 querystrings и что все страницы легко связываемы несколько щелчков от основной страницы.

  • Другой случай является подкачкой страниц, если у Вас есть подкачка страниц иногда проверка бота просто первая страница и остановки, когда это находит, что ссылка следующей страницы продолжает поражать тот же документ, например, один index.php для всего веб-сайта.

  • Вы не хотели бы, чтобы бот случайно поразил некоторую веб-страницу, которые выполняют определенные действия, например, "Удаляют тему" ссылка, которая связывается с "delete.php? topicID=123" так большинство поисковых роботов проверит на те случаи также.

  • Страница Tools в SEOmoz также предоставляет большую информацию и понимание о способе, которым работают некоторые поисковые роботы и какую информацию это будет извлекать и жевать и т.д. Вы могли использовать их, чтобы определить, могли ли бы страницы глубоко в Вашем форуме, например, сообщении года проверяться или нет.

  • И некоторые поисковые роботы позволяют Вам настроить свое поведение сканирования... что-то как Google Sitemaps. Вы могли сказать им-проверке и-проверке который страницы и на который порядок и т.д. Я помню, что существуют такие сервисы, доступные от MSN и Yahoo также, но никогда не пробовали его сам.

  • Можно отрегулировать бота сканирования, таким образом, он не сокрушает веб-сайт путем обеспечения файла robots.txt в корне веб-сайта.

В основном при разработке форума так, чтобы URL не выглядели враждебными к поисковым роботам, он будет весело проверять весь веб-сайт.

8
ответ дан 16 December 2019 в 21:47
поделиться

Боты сканирования не проверяют Ваш целый сайт сразу, но некоторые страницы с каждым посещением. Частота проверок и число страниц проверили каждый раз, когда варьируются значительно с каждым сайтом.

Каждая страница, индексированная Google, проверяется снова время от времени, чтобы удостовериться, что нет никаких изменений.

Используя карту сайта определенно полезно для проверки индекса поисковых систем как можно больше страниц.

0
ответ дан 16 December 2019 в 21:47
поделиться
Другие вопросы по тегам:

Похожие вопросы: