поисковый робот по сравнению со скребком

Может кто-то различать поисковый робот и скребок с точки зрения объема и функциональности.

53
задан m.s. 18 October 2015 в 21:04
поделиться

2 ответа

Краулер получает веб-страницы - то есть, задав начальный адрес (или набор начальных адресов) и некоторые условия (например, сколько ссылок вглубь, какие типы файлов игнорировать), он загружает все, на что есть ссылки из начальной точки (точек).

Скрепер берет загруженные страницы или, в более общем смысле, данные, отформатированные для отображения, и (пытается) извлечь данные с этих страниц, чтобы их можно было (например) сохранить в базе данных и манипулировать ими по своему усмотрению.

В зависимости от того, как вы используете результат, скраппинг вполне может нарушать права владельца информации и/или пользовательские соглашения об использовании веб-сайтов (в некоторых случаях скраппинг нарушает и последнее). Многие сайты содержат файл с именем robots.txt в своем корне (т.е. имеющий URL http://server/robots.txt), чтобы указать, как (и если) краулеры должны обращаться с этим сайтом - в частности, он может перечислять (частично) URL, которые краулер не должен пытаться посетить. При желании их можно указать отдельно для каждого краулера (user-agent).

83
ответ дан 7 November 2019 в 08:43
поделиться

Краулеры просматривают веб-страницы, переходя по ссылкам. Примером может служить робот Google, который получает страницы для индексации. Скраперы извлекают значения из форм, но не обязательно имеют отношение к Интернету.

3
ответ дан 7 November 2019 в 08:43
поделиться
Другие вопросы по тегам:

Похожие вопросы: