Во-первых, это не вопрос о том, как очищать веб-сайты. Я полностью осведомлен о доступных мне инструментах для очистки (css_parser, nokogiri и т. Д. Я использую Ruby для очистки).
Это скорее общий вопрос о наилучшем возможном решении для очистки логотип веб-сайта, начинающийся только с адреса веб-сайта.
Я начал создавать следующие два решения:
Решение второе проблематично из-за множества идиосинкразий всех людей, которые пишут CSS для веб-сайтов. В имени файла используется заголовок вместо логотипа. Иногда имя файла случайное, ничего не говоря о логотипе. В других случаях это просто неправильный образ.
Я понимаю, что , возможно, смогу что-то сделать с помощью машинного обучения, но у меня почти наступил крайний срок для клиента, и мне скоро понадобится что-то достаточно эффективное.
Итак, с учетом всего сказанного, если у кого-то есть какие-то "нестандартные" мысли по этому поводу, я хотел бы это услышать. Если я смогу создать решение, которое будет работать достаточно хорошо, я планирую открыть исходный код библиотеки для любых других заинтересованных сторон :)
Спасибо!