Установите пустую функцию для вызова в window.onunload:
window.onunload = function(){};
, например
Click Me!
Источник: http://www.firefoxanswer.com /firefox/672-firefoxanswer.html (архивная версия)
HTTrack - http://www.httrack.com/ - является очень хорошим копировальным устройством Веб-сайта. Довольно хорошие работы. Использовали его в течение долгого времени.
Nutch является поисковым роботом (поисковый робот является типом программы, которую Вы ищете) - http://lucene.apache.org/nutch/ - который использует утилиту поиска высшего качества lucene.
Я еще не использовал это, но это интересные взгляды. Автор записал это с нуля и отправил, как он сделал. Код для него доступен для скачивания также.
Sphider довольно хорош. Это - PHP, но это могло бы иметь некоторую справку.
Searcharoo.NET содержит паука, который проверяет и индексирует содержание и поисковую систему для использования его. Необходимо смочь найти, что путь вокруг кода Searcharoo.Indexer.EXE захватывает содержание, поскольку это загружается, и добавьте собственный код оттуда...
Это является очень простым (весь исходный код включен и объяснен в шести статьях CodeProject, новая из которых здесь Searcharoo v6): паук переходит по ссылкам, картам изображения, изображениям, повинуется директивам РОБОТОВ, анализирует некоторые нетипы файла HTML. Это предназначается для единственных веб-сайтов (не вся сеть).
Nutch/Lucene является почти наверняка более устойчивым решением / решением для товарного сорта - но я не посмотрел на их код. Не уверенный, что Вы желаете выполнить, но иметь Вас также замеченный Microsoft Search Server Express ?
Правовая оговорка: Я - автор Searcharoo; просто предложив его здесь как опцию.
Я использую программное обеспечение веб-скрапинга Mozenda . Вы можете легко заставить его сканировать все ссылки и получать всю необходимую информацию, и это отличный софт за деньги.