Как сканировать/индексировать часто обновляемые веб-страницы?

Я пытаюсь создать очень маленькую нишевую поисковую систему, используя Nutch для обхода определенных сайтов. Некоторые из сайтов являются сайтами новостей/блогов. Если я просканирую, скажем, techcrunch.com, сохраним и проиндексирую их главную страницу или любую из их главных страниц, то через несколько часов мой индекс этой страницы устареет.

Есть ли у крупной поисковой системы, такой как Google, алгоритм повторного -сканирования часто обновляемых страниц, даже ежечасно? Или он просто очень низко оценивает часто обновляемые страницы, поэтому они не возвращаются?

Как я могу справиться с этим в своем приложении?

17
задан Kara 14 April 2014 в 19:01
поделиться