0
ответов

Какие алгоритмы хеширования лучше всего использовать для обеспечения целостности данных и дедупликации?

Я пытаюсь хешировать большое количество файлов с бинарными данными внутри них, чтобы: (1 )проверить наличие повреждений в будущем, и (2 )устранить дубликаты файлов (, которые могут иметь совершенно разные...
вопрос задан: 27 July 2012 11:20
0
ответов

Плохая производительность для дедупликации 2 миллионов записей с использованием mapreduce в Appengine

У меня около 2 миллионов записей, каждая из которых имеет около 4 строковых полей, которые необходимо проверить на наличие дубликатов. Чтобы быть более конкретным, у меня есть имя, телефон, адрес и имя отца в качестве полей, и я должен проверить ...
вопрос задан: 21 July 2011 02:55
0
ответов

bash scripting de-dupe

У меня есть оболочка сценарий. Задание cron запускает его раз в день. На данный момент он просто загружает файл из Интернета с помощью wget, добавляет метку времени к имени файла, а затем сжимает его. Основные вещи. Этот файл ...
вопрос задан: 12 June 2011 14:10
0
ответов

Java: очередь с задержкой по времени, которая устраняет дублирование

Всем привет, у меня есть система (источник), которая требует для асинхронного уведомления другой системы (цели) при изменении определенных объектов. Хитрость в том, что исходная система может видоизменять один ...
вопрос задан: 29 May 2011 06:08
0
ответов

Советы и инструменты, помогающие нормализовать базу данных

У меня есть 7 таблиц MySQL, которые содержат частично перекрывающиеся и избыточные данные примерно в 17000 строках. Во всех таблицах указаны названия и адреса школ. Иногда одна и та же школа дублируется в ...
вопрос задан: 21 April 2011 14:38
0
ответов

Дедубликат это дублирование кода Java

У меня есть около 10+ классов, и каждый имеет статическую константу LUMP_INDEX и SIZE. Мне нужен массив каждого из этих классов, где размер массива вычисляется с использованием этих двух констант. В ...
вопрос задан: 26 March 2011 19:21
0
ответов

Как сохранить двунаправленные отношения

Я пишу код для поиска повторяющихся сведений о клиентах в базе данных. Я буду использовать расстояние Левенштейна. Однако я не знаю, как хранить отношения. Я постоянно пользуюсь базами данных, но ...
вопрос задан: 17 September 2010 09:29