обработка псевдонимов доменов в Apache Nutch 2.3.1 [дубликат]

В iPhone iOS6 и Android ICS, HTML5 имеет следующий тег, который позволяет делать снимки с вашего устройства:

 <input type="file" accept="image/*" capture="camera">

Capture может принимать значения, такие как камера, видеокамера и аудио.

Я думаю, что этот тег определенно не работает в iOS5, не уверен в этом.

0
задан Rakesh Menaria 19 April 2016 в 15:11
поделиться

1 ответ

По умолчанию Nutch использует класс org.apache.nutch.crawl.MD5Signature для вычисления дайджеста URL-адреса, этот класс вычисляет дайджест, используя функцию MD5Hash необработанного двоичного содержимого страницы, если контент не найден, URL используется ,

DeduplicationJob первые группы выбирают URL-адреса с помощью дайджеста (в вашем случае оба URL-адреса должны иметь одну и ту же подпись / дайджест) и маркируют все URL-адреса как дублированные, кроме тех, которые имеют самый высокий балл, если оба (или более) URL-адресов имеют одинаковый дайджест и одинаковый балл, тогда вместо него используется тот, который имеет самую последнюю временную метку.

В вашем конкретном случае я считаю, что пользовательская реализация org.apache.nutch.crawl.Signature, которая учитывает оба параметра (URL-адрес и текст / исходный контент), должна решить вашу проблему. Это необходимо, потому что существующие реализации сигнатур MD5Signature, TextMD5Signature и TextProfileSignature будут рассматривать URL только в том случае, если текстовый / необработанный контент не найден для заданного URL-адреса. Тем не менее реализация должна быть довольно простой.

Имейте в виду, что это могло бы генерировать больше дублированных URL-адресов в вашем индексе.

1
ответ дан Jorge Luis 15 August 2018 в 22:42
поделиться
  • 1
    Спасибо тонну за ваше объяснение. Будем держать MD5Signature по умолчанию, так как в конце меня беспокоит только контент. – Rakesh Menaria 20 April 2016 в 10:14
Другие вопросы по тегам:

Похожие вопросы: