Как Google находит релевантный контент при синтаксическом анализе Интернета?
Скажем, например, Google использует встроенную библиотеку DOM PHP для анализа содержимого. Какими методами он мог бы найти наиболее релевантный контент на веб-странице?
Я думаю, что он будет искать все абзацы, упорядочивая их по длине каждого абзаца, а затем из возможных строк поиска и параметров запроса. вне процента релевантности каждого абзаца.
Допустим, у нас есть этот URL:
http://domain.tld/posts/stackoverflow-dominates-the-world-wide-web.html
Теперь, исходя из этого URL-адреса, я могу определить, что имя файла HTML будет иметь высокую релевантность, поэтому я смогу увидеть, насколько близко эта строка сравнивается со всеми абзацами на странице!
Действительно хорошим примером этого может быть публикация в Facebook, когда вы делитесь страницей. Facebook быстро загружает ссылку и возвращает изображения, контент и т. Д. И т. Д.
Я подумал, что лучше всего будет какой-то метод расчета, чтобы определить% релевантности в зависимости от окружающих элементов и метаданных. m создание веб-сайта, на котором веб-мастера присылают нам ссылки, а затем мы перечисляем их страницы, но я хочу, чтобы веб-мастер отправил ссылку, а затем я прохожу и просматриваю эту страницу в поисках следующей информации.
Надеюсь, вы, ребята, понимаете, что это не для поисковой системы, а то, как поисковые системы занимаются обнаружением контента, находится в том же контексте, что и мне.
Я не прошу секретов производства, я ' Я спрашиваю, каков ваш личный подход к этому.