Хранение URL, в то время как Глобальный поиск

Question

Хранение URL, в то время как Глобальный поиск

Я создал немного поискового робота в Python, который я использую для сбора URL. Я не интересуюсь содержанием. Прямо сейчас я сохраняю все посещаемые URL в наборе в памяти, потому что я не хочу, чтобы мой паук посетил URL дважды. Конечно, это - очень ограниченный способ выполнить это.

Таким образом, что лучший способ состоит в том, чтобы отслеживать мои посещаемые URL?

Я должен использовать базу данных?

какой? MySQL, SQLite, PostgreSQL?
как я должен сохранить URL? Как первичный ключ, пытающийся вставить каждый URL прежде, чем посетить его?

Или я должен записать им в файл?

один файл?
несколько файлов? как я должен разработать файловую структуру?

Я уверен, что существуют книги и много статей об этом или подобных темах. Можно ли дать мне некоторый совет, что я должен считать?

7

python database url storage web-crawler

задан the Tin Man 25 July 2015 в 06:30

6 ответов

Это зависит от масштаба паука, который вы собираетесь делать, и от типа машины, на которой вы это делаете. Предположим, что типичный URL-адрес представляет собой строку из 60 байтов или около того, набор в памяти будет занимать чуть больше 100 байтов на URL-адрес (наборы и dicts в Python никогда не могут превышать 60% по соображениям скорости). Если у вас есть 64-битная машина (и дистрибутив Python) с примерно 16 ГБ доступной оперативной памяти, вы наверняка могли бы выделить более 10 ГБ для рассматриваемого важного набора, что позволит вам легко найти около 100 миллионов URL-адресов или около того; но с другой стороны, если у вас 32-разрядная машина с 3 ГБ ОЗУ, вы явно не можете выделить больше, чем 1 ГБ для важного набора, что ограничивает вас примерно 10 миллионами URL-адресов. Sqlite мог бы помочь примерно в том же диапазоне размеров, где 32-битная машина не могла этого сделать, но щедро оснащенная 64-битная могла бы - скажем, 100 или 200 миллионов URL-адресов.

Помимо этого, я бы порекомендовал PostgreSQL, который также имеет преимущество в том, что он может работать на другом компьютере (в быстрой локальной сети) практически без проблем, что позволяет вам посвятить вашу основную машину работе с пауками. Думаю, MySQL & c тоже подойдет для этого, но мне нравится соответствие стандартам PostgreSQL и надежность ;-).Это позволило бы, скажем, без проблем создать несколько миллиардов URL-адресов (только быстрый диск или, что еще лучше, RAID-массив и, конечно, столько оперативной памяти, сколько вы можете себе позволить для ускорения работы).

Попытка сэкономить память / хранилище с помощью хэша фиксированной длины вместо URL-адресов, которые могут быть довольно длинными, - это нормально , если у вас все в порядке с случайными ложными срабатываниями, которые не позволят вам сканировать то, что фактически новый URL. Такие «коллизии» вовсе не должны быть вероятными: даже если вы используете только 8 байтов для хэша, у вас должен быть только существенный риск коллизии, когда вы просматриваете миллиарды URL-адресов («эвристика квадратного корня» для этого известная проблема).

С 8-байтовыми строками для представления URL-адресов архитектура набора в памяти должна легко поддерживать миллиард или более URL-адресов на хорошо оснащенной машине, как описано выше.

Итак, сколько примерно URL-адресов вы хотите сканировать и сколько оперативной памяти вы можете сэкономить? -)

4