Я пытаюсь создать что-то сродни функциональности "Доли" Facebook для моего веб-сайта.
Я перешел к сути дела, где я могу принять URL, очистить его для meta ключевых слов и соответственно получить заголовки/описания, но я немного застреваю относительно лучшего способа определить 'вероятные' фотографии, которыми пользователь может хотеть обменяться.
Я в настоящее время использую SimpleXMLElement, чтобы перевернуть страницу в проходимый DOM и найти все теги, превращая их в абсолютные URL. После этого я не уверен, как я могу пойти о нахождении подходящей миниатюры.
Я загружаю их всех и иду размером файла? Я использую своего рода эвристику как, "был встречен посреди страницы"?
У кого-либо еще есть какие-либо рекомендации, предложения или подсказки?
Некоторое время назад я написал нечто подобное, чтобы получить изображения из скопированных сообщений в блогах. Моими критериями выбора изображения было что-то вроде получения списка всех изображений на странице с последующим назначением «приоритетных точек»:
Затем выберите тот, у которого больше всего очков приоритета. Это, конечно, не было надежным или чрезмерно научным, но гораздо чаще приносило что-то полезное.
У меня нет прямого опыта этого, поэтому я не уверен, что есть какая-то конкретная передовая практика, но в целом я думаю, что эвристический подход, учитывающий несколько факторов, имеет смысл из-за вариативности, обнаруженной в реализациях веб-сайтов.
Я бы посмотрел на два набора элементов: свойства изображения и контекст того, где и как размещаются изображения.
Свойства изображения:
Контекст изображения:
Я бы назначил веса предыдущим элементам, а затем ранжировал бы найденные изображения в соответствии с тем, насколько хорошо каждое изображение удовлетворяет требованиям правила.
Также обратите внимание, что некоторые страницы могут использовать CSS (или Flash и т. Д.) Для отображения изображений. Это наши изображения вне вашей компетенции (в соответствии с заданным вами алгоритмом); Возможно, это не имеет большого значения, но есть что подумать.