Что [закрывается] хороший инструмент Web Crawler

Question

Что [закрывается] хороший инструмент Web Crawler

Установите пустую функцию для вызова в window.onunload:

window.onunload = function(){};

, например



Click Me!

Источник: http://www.firefoxanswer.com /firefox/672-firefoxanswer.html (архивная версия)

16

okhttp3

задан ysth 14 June 2009 в 23:14

5 ответов

Я еще не использовал это, но это интересные взгляды. Автор записал это с нуля и отправил, как он сделал. Код для него доступен для скачивания также.

0

ответ дан 30 November 2019 в 22:18

Sphider довольно хорош. Это - PHP, но это могло бы иметь некоторую справку.

1

ответ дан 30 November 2019 в 22:18

Searcharoo.NET содержит паука, который проверяет и индексирует содержание и поисковую систему для использования его. Необходимо смочь найти, что путь вокруг кода Searcharoo.Indexer.EXE захватывает содержание, поскольку это загружается, и добавьте собственный код оттуда...

Это является очень простым (весь исходный код включен и объяснен в шести статьях CodeProject, новая из которых здесь Searcharoo v6): паук переходит по ссылкам, картам изображения, изображениям, повинуется директивам РОБОТОВ, анализирует некоторые нетипы файла HTML. Это предназначается для единственных веб-сайтов (не вся сеть).

Nutch/Lucene является почти наверняка более устойчивым решением / решением для товарного сорта - но я не посмотрел на их код. Не уверенный, что Вы желаете выполнить, но иметь Вас также замеченный Microsoft Search Server Express ?

Правовая оговорка: Я - автор Searcharoo; просто предложив его здесь как опцию.

2

ответ дан 30 November 2019 в 22:18

Я использую программное обеспечение веб-скрапинга Mozenda . Вы можете легко заставить его сканировать все ссылки и получать всю необходимую информацию, и это отличный софт за деньги.

1

ответ дан 30 November 2019 в 22:18

Другие вопросы по тегам:

okhttp3

Что [закрывается] хороший инструмент Web Crawler

5 ответов

Похожие вопросы: