Я пытаюсь создать очень маленькую нишевую поисковую систему, используя Nutch для обхода определенных сайтов. Некоторые из сайтов являются сайтами новостей/блогов. Если я просканирую, скажем, techcrunch.com, сохраним и проиндексирую их главную страницу или любую из их главных страниц, то через несколько часов мой индекс этой страницы устареет.
Есть ли у крупной поисковой системы, такой как Google, алгоритм повторного -сканирования часто обновляемых страниц, даже ежечасно? Или он просто очень низко оценивает часто обновляемые страницы, поэтому они не возвращаются?
Как я могу справиться с этим в своем приложении?