Используется std::vector<>
, потому что std::vector<>
обычно выделяет больше памяти, чем objects
в vector<>
.
К сожалению, stackoverflow утверждает, что был XML, но на самом деле не. Hpricot однако может проанализировать этот суп тега в дерево элементов для Вас.
require 'hpricot'
require 'open-uri'
doc = Hpricot(open("http://stackoverflow.com/users/19990/armin-ronacher"))
reputation = (doc / "td.summaryinfo div.summarycount").text.gsub(/[^\d]+/, "").to_i
И т.д.
Я всегда действительно как то, что Ilya Grigorik пишет, и он , описал хорошее сообщение об использовании hpricot.
я также читаю это сообщение некоторое время назад, и похоже, что это было бы полезно для Вас.
не сделали ни одного самостоятельно, таким образом, YMMV, но они кажутся довольно полезными.
Что-то я столкнулся с попыткой сделать это прежде, - то, что немного веб-страниц являются правильно построенными XML-документами. Hpricot может быть в состоянии иметь дело с тем (я не использовал его), но когда я делал подобный проект в прошлом (использующий Python, и его библиотека создала в парсинге функций), он помог иметь препроцессор для чистки HTML. Я использовал привязку Python для HTML, Опрятный как это, и он сделал жизнь намного легче. Привязка Ruby здесь , но я не судил их.
Удачи!
попробуйте hpricot, его хорошо... потрясающий
, я несколько раз использовал его для анализа экранных данных.