Может кто-то различать поисковый робот и скребок с точки зрения объема и функциональности.
Краулер получает веб-страницы - то есть, задав начальный адрес (или набор начальных адресов) и некоторые условия (например, сколько ссылок вглубь, какие типы файлов игнорировать), он загружает все, на что есть ссылки из начальной точки (точек).
Скрепер берет загруженные страницы или, в более общем смысле, данные, отформатированные для отображения, и (пытается) извлечь данные с этих страниц, чтобы их можно было (например) сохранить в базе данных и манипулировать ими по своему усмотрению.
В зависимости от того, как вы используете результат, скраппинг вполне может нарушать права владельца информации и/или пользовательские соглашения об использовании веб-сайтов (в некоторых случаях скраппинг нарушает и последнее). Многие сайты содержат файл с именем robots.txt в своем корне (т.е. имеющий URL http://server/robots.txt
), чтобы указать, как (и если) краулеры должны обращаться с этим сайтом - в частности, он может перечислять (частично) URL, которые краулер не должен пытаться посетить. При желании их можно указать отдельно для каждого краулера (user-agent).
Краулеры просматривают веб-страницы, переходя по ссылкам. Примером может служить робот Google, который получает страницы для индексации. Скраперы извлекают значения из форм, но не обязательно имеют отношение к Интернету.