Абсолютный URI эскизов веб-страниц Google

Как получить список кодировок абсолютного URI или base64 для URL-адресов страниц в Результаты поиска Google?

Цель:

Перебрать массив URL:

pages["pinelakedesign.com"];
pages["pinelakedesign.com/about"];
pages["pinelakedesign.com/contact"];

Вывод:

  • Значок Google 1
  • Значок Google 2
  • Значок Google N

Google использует строковую кодировку base64 для миниатюры изображений JPG для результатов визуального поиска. В 2011 году эта служба миниатюр изменилась по сравнению с предыдущей системой с увеличительным стеклом и построением абсолютного URI, описанными в этом вопросе: https://stackoverflow.com/questions/ 6881319 / google-web-эскизы

Я просто хочу выложить список страниц веб-сайта в виде эскизов Google, чтобы я сразу знал, какие страницы были проиндексированы и составлены миниатюрами и как все эти значки выглядят.

Google search results thumbnail preview

Редактировать 5 ноября 2011 г.

Я обнаружил, что вызов этого URL-адреса возвращает JSONP с кодировкой base64, заголовком результата поиска Google, описанием и URL-адресом.

https://clients1.google.com/webpagethumbnail?r=4&f=3&s=400:585&query=pine+lake+design&hl=en&gl=us&c=29&d=http%3A%2F%2Fwww.pinelakedesign.com%2F&b=1&j=google.nyc.c.j_pVK1Tu_gAbODsAKH0ZTuAw_3787232970_3&expi=17291,27615,28936,30049,30316,31215,32035,32271,32410,32940,33104,33194,33627,33788,33854,33907,33975,34103&a=2NT

Параметр query = - это то, что искали в Google. d = - это место назначения ссылки и, возможно, источник эскиза. s = 400: 585 - высота и ширина. Я не уверен, что делают r = 4 и f = 3. Изменение любой из этих переменных приводит к ошибке 404. Я догадываюсь, что expi = - это своего рода алгоритм истечения контрольной суммы, основанный на различных значениях параметров, но я не знаю.

Возвращенный JSONP:

google.nyc.c.j_pVK1Tu_gAbODsAKH0ZTuAw_3787232970_3({"s":"b","b":1,"quality":100,"shards":[{"heights":[300,131],"imgs":["data:image/jpeg;base64,/9j/4AAQSkZ ...THIS IS THE LONG BASE64 ENCONDING ...pa5r61f/9k="],"tbts":[{"box":{"h":15,"l":0,"t":39,"w":224},"txt":"Pine Lake specializes in small business website design, redesign and hosting. We have developed the Sungem content management system which allows our ...","txtBox":{"h":57,"l":0,"t":58,"w":400}}]}],"url":"http://www.pinelakedesign.com/"}
)

Обновление 8 ноября 2011 г.

Я ищу какое-нибудь решение, например превью , для просмотра эскизов Google.

Обновление от 9 февраля 2012 г.

Использование Phantom JS кажется хорошим способом получения удаленных снимков на стороне сервера, но не помогает определить, как получить доступ к изображениям Google.

Обновление от 26 марта 2012 г.

Я считаю, что поисковый паук Google - это версия Chrome для настольных компьютеров без головы с разрешением 1024 пикселей. Паук Chrome позволит ему выполнять Javascript, использовать @ font-face, селекторы CSS3, просматривать Flash (даже ожидая, пока предварительный загрузчик достигнет 100%) и делать точные снимки отображаемых страниц после загрузки всех ресурсов и манипуляций с DOM. Кто-нибудь из Google, пожалуйста, взвесится, чтобы подтвердить или опровергнуть что-либо?

14
задан Community 23 May 2017 в 10:32
поделиться