Что [закрывается] хороший инструмент Web Crawler

Установите пустую функцию для вызова в window.onunload:

window.onunload = function(){}; 

, например



Click Me!

Источник: http://www.firefoxanswer.com /firefox/672-firefoxanswer.html (архивная версия)

16
задан ysth 14 June 2009 в 23:14
поделиться

5 ответов

HTTrack - http://www.httrack.com/ - является очень хорошим копировальным устройством Веб-сайта. Довольно хорошие работы. Использовали его в течение долгого времени.

Nutch является поисковым роботом (поисковый робот является типом программы, которую Вы ищете) - http://lucene.apache.org/nutch/ - который использует утилиту поиска высшего качества lucene.

12
ответ дан 30 November 2019 в 22:18
поделиться

Я еще не использовал это, но это интересные взгляды. Автор записал это с нуля и отправил, как он сделал. Код для него доступен для скачивания также.

0
ответ дан 30 November 2019 в 22:18
поделиться

Sphider довольно хорош. Это - PHP, но это могло бы иметь некоторую справку.

1
ответ дан 30 November 2019 в 22:18
поделиться

Searcharoo.NET содержит паука, который проверяет и индексирует содержание и поисковую систему для использования его. Необходимо смочь найти, что путь вокруг кода Searcharoo.Indexer.EXE захватывает содержание, поскольку это загружается, и добавьте собственный код оттуда...

Это является очень простым (весь исходный код включен и объяснен в шести статьях CodeProject, новая из которых здесь Searcharoo v6): паук переходит по ссылкам, картам изображения, изображениям, повинуется директивам РОБОТОВ, анализирует некоторые нетипы файла HTML. Это предназначается для единственных веб-сайтов (не вся сеть).

Nutch/Lucene является почти наверняка более устойчивым решением / решением для товарного сорта - но я не посмотрел на их код. Не уверенный, что Вы желаете выполнить, но иметь Вас также замеченный Microsoft Search Server Express ?

Правовая оговорка: Я - автор Searcharoo; просто предложив его здесь как опцию.

2
ответ дан 30 November 2019 в 22:18
поделиться

Я использую программное обеспечение веб-скрапинга Mozenda . Вы можете легко заставить его сканировать все ссылки и получать всю необходимую информацию, и это отличный софт за деньги.

1
ответ дан 30 November 2019 в 22:18
поделиться
Другие вопросы по тегам:

Похожие вопросы: