В iPhone iOS6 и Android ICS, HTML5 имеет следующий тег, который позволяет делать снимки с вашего устройства:
<input type="file" accept="image/*" capture="camera">
Capture
может принимать значения, такие как камера, видеокамера и аудио.
Я думаю, что этот тег определенно не работает в iOS5, не уверен в этом.
По умолчанию Nutch использует класс org.apache.nutch.crawl.MD5Signature
для вычисления дайджеста URL-адреса, этот класс вычисляет дайджест, используя функцию MD5Hash
необработанного двоичного содержимого страницы, если контент не найден, URL используется ,
DeduplicationJob
первые группы выбирают URL-адреса с помощью дайджеста (в вашем случае оба URL-адреса должны иметь одну и ту же подпись / дайджест) и маркируют все URL-адреса как дублированные, кроме тех, которые имеют самый высокий балл, если оба (или более) URL-адресов имеют одинаковый дайджест и одинаковый балл, тогда вместо него используется тот, который имеет самую последнюю временную метку.
В вашем конкретном случае я считаю, что пользовательская реализация org.apache.nutch.crawl.Signature
, которая учитывает оба параметра (URL-адрес и текст / исходный контент), должна решить вашу проблему. Это необходимо, потому что существующие реализации сигнатур MD5Signature
, TextMD5Signature
и TextProfileSignature
будут рассматривать URL только в том случае, если текстовый / необработанный контент не найден для заданного URL-адреса. Тем не менее реализация должна быть довольно простой.
Имейте в виду, что это могло бы генерировать больше дублированных URL-адресов в вашем индексе.