Работа с большим объектом данных между рубиновыми процессами

Question

Работа с большим объектом данных между рубиновыми процессами

У меня есть хеш Ruby, который достигает приблизительно 10 мегабайтов, если записано в файл с помощью Marshal.dump. После gzip сжатие это - приблизительно 500 килобайтов.

Итерация через и изменение этого хеша очень быстры в рубине (части миллисекунды). Даже копирование его чрезвычайно быстро.

Проблема состоит в том, что я должен совместно использовать данные в этом хеше между процессами Ruby on Rails. Чтобы сделать это использование кэша направляющих (file_store или memcached), мне нужен к Marshal.dump файл сначала, однако это подвергается 1 000 задержек миллисекунды при сериализации файла и 400 задержек миллисекунды при сериализации его.

Идеально я хотел бы смочь сохранить и загрузить этот хеш из каждого процесса в под 100 миллисекундами.

Одна идея состоит в том, чтобы породить новый процесс Ruby для содержания этого хеша, который предоставляет API другим процессам, чтобы изменить или обработать данные в ней, но я не хочу делать это, если я не уверен, что нет никаких других способов совместно использовать этот объект быстро.

Существует ли способ, которым я могу более непосредственно совместно использовать этот хеш между процессами, не будучи должен сериализировать или десериализовать его?

Вот код, который я использую для генерации хеша, подобного тому, с которым я работаю:

@a = []
0.upto(500) do |r|
  @a[r] = []
  0.upto(10_000) do |c|
    if rand(10) == 0 
      @a[r][c] = 1 # 10% chance of being 1
    else
      @a[r][c] = 0
    end
  end
end

@c = Marshal.dump(@a) # 1000 milliseconds
Marshal.load(@c) # 400 milliseconds

Обновление:

Так как мой исходный вопрос не получил много ответов, я предполагаю, что нет никакого решения, столь же легкого, как я надеялся бы.

В настоящее время я рассматриваю две возможности:

Создайте приложение Sinatra для хранения этого хеша API для изменения/получения доступ его.
Создайте приложение C, чтобы сделать то же как № 1, но намного быстрее.

Объем моей проблемы увеличился таким образом, что хеш может быть больше, чем мой исходный пример. Таким образом, № 2 может быть необходимым. Но я понятия не имею, где запустить с точки зрения записи приложения C, которое выставляет соответствующий API.

Хорошая пошаговая демонстрация через, как лучше всего реализовать № 1 или № 2, может получить лучший кредит ответа.

Обновление 2

Я закончил тем, что реализовал это как отдельное приложение, записанное в Ruby 1.9, который имеет интерфейс DRb для общения с экземплярами приложения. Я использую драгоценный камень Демонов для порождения экземпляров DRb, когда веб-сервер запускает. На запуске загрузки приложения DRb в необходимых данных из базы данных, и затем это общается с клиентом, чтобы возвратить результаты и оставаться в курсе. Это работает вполне хорошо в производстве теперь. Спасибо за справку!

6

ruby-on-rails c ruby performance serialization

задан Gdeglin 30 June 2010 в 00:29

6 ответов

Если есть смысл заключить свой хэш-монстр в вызов метода, вы можете просто представить его с помощью DRb - запустите небольшой демон, который запускает сервер DRb с хешем в качестве переднего объекта - другие процессы могут запрашивать его, используя то, что составляет RPC.

Если говорить более конкретно, есть ли другой подход к вашей проблеме? Не зная, что вы пытаетесь сделать, трудно сказать наверняка - но, может быть, три или фильтр Блума подойдут? Или даже битовое поле с красивым интерфейсом, вероятно, сэкономит вам изрядное количество места.

0