Как поисковые системы находят релевантное содержание?

Как Google находит релевантный контент при синтаксическом анализе Интернета?

Скажем, например, Google использует встроенную библиотеку DOM PHP для анализа содержимого. Какими методами он мог бы найти наиболее релевантный контент на веб-странице?

Я думаю, что он будет искать все абзацы, упорядочивая их по длине каждого абзаца, а затем из возможных строк поиска и параметров запроса. вне процента релевантности каждого абзаца.

Допустим, у нас есть этот URL:

http://domain.tld/posts/stackoverflow-dominates-the-world-wide-web.html

Теперь, исходя из этого URL-адреса, я могу определить, что имя файла HTML будет иметь высокую релевантность, поэтому я смогу увидеть, насколько близко эта строка сравнивается со всеми абзацами на странице!

Действительно хорошим примером этого может быть публикация в Facebook, когда вы делитесь страницей. Facebook быстро загружает ссылку и возвращает изображения, контент и т. Д. И т. Д.

Я подумал, что лучше всего будет какой-то метод расчета, чтобы определить% релевантности в зависимости от окружающих элементов и метаданных. m создание веб-сайта, на котором веб-мастера присылают нам ссылки, а затем мы перечисляем их страницы, но я хочу, чтобы веб-мастер отправил ссылку, а затем я прохожу и просматриваю эту страницу в поисках следующей информации.

  • Изображение (если применимо)
  • <255 абзацев из лучшего фрагмента текста
  • Ключевые слова, которые будут использоваться для нашей поисковой системы, (стиль переполнения стека)
  • Ключевые слова метаданных, описание, все изображения, журнал изменений (для модерации и администрирования)

Надеюсь, вы, ребята, понимаете, что это не для поисковой системы, а то, как поисковые системы занимаются обнаружением контента, находится в том же контексте, что и мне.

Я не прошу секретов производства, я ' Я спрашиваю, каков ваш личный подход к этому.

60
задан Anony-Mousse 2 July 2012 в 20:31
поделиться