Я бы использовал SQL Server Full Text Indexing, который позволит вам выполнять поиск и возвращать вещи, которые не только содержат слово, но также могут иметь орфографическую ошибку.
Поскольку я уверен, что Вы знаете, фактический URL для того изображения
, Вы собираетесь быть трудно нажатыми, чтобы выяснить, как это сгенерировано, хотя и у них, кажется, нет общедоступного API.
Screenscraping является, вероятно, Вашим лучшим выбором.
изображение, кажется, обычно в отделении с class=photo и название , тег плакат .
само изображение только в тег.
Те изображения плаката, кажется, не имеют корреляции к титульному листу, таким образом, необходимо будет получить титульный лист сначала, и затем получать img элемент для страницы. Хорошие новости - то, что тег img обертывается в тег с именем = "плакат". Вы не сказали, какие инструменты Вы используете, но это в основном операция анализа экранных данных.
URL является случайной строкой насколько я могу сказать.
Это может все еще быть легко получено. Это - только img
внутренняя часть привязка, названная poster
.
Так, если Вы читаете источник, просто ищут <a name="poster"
, и это будет текст после первого src="
оттуда.
Однако необходимо будет держать код анализа экранных данных в курсе, потому что это, вероятно, изменится.
<час>необходимо также знать, что изображения защищены авторским правом, так стараться только использовать изображение под хорошим объяснением "добросовестного использования".
Имейте в виду, что условия обслуживания явно запрещают сканирование экрана. Вы можете загрузить базу данных IMDB как набор текстовых файлов , но, насколько я понимаю, в этих текстовых файлах нигде нет идентификатора фильма IMDB.