Я использую инструменты на основе webkit для создания безголового браузера для сканирования веб-страниц (. Мне это нужно, потому что я хотел бы оценить javascript, найденный на страницах, и получить окончательную отображаемую страницу ). Но две разные системы, которые я реализовал до сих пор, демонстрируют очень низкую производительность. Я реализовал две разные системы, обе из которых используют webkit в качестве серверной части :
Моя цель — сканировать страницы как можно быстрее, и если страница не загружается в течение первых 10 секунд, объявить об ошибке и двигаться дальше. Я понимаю, что для загрузки каждой страницы требуется некоторое время, поэтому, чтобы увеличить количество страниц, которые я загружаю в секунду, я открываю много вкладок в Chrome или запускаю несколько параллельных процессов с использованием phantomjs. Ниже приведена производительность, которую я наблюдаю:
После опробования обеих систем, основанных на webkit, кажется, что узким местом в производительности является механизм рендеринга webkit, и поэтому я хотел бы узнать от других пользователей, сколько URL-адресов в секунду я могу сканировать. Моя аппаратная конфигурация:
Вопрос, который я пытаюсь задать этому списку рассылки, заключается в том, есть ли у кого-нибудь опыт использования webkit для сканирования веб-страниц для случайного набора URL-адресов (, например, выбор 10 000 URL-адресов из потока Twitter ), сколько URL-адресов я могу разумно ожидать? ползать в секунду?
Спасибо