У меня около 2 миллионов записей, в каждом из которых есть около 4 строковых полей, которые необходимо проверить на дублирование. Чтобы быть более конкретным, у меня есть имя, телефон, адрес и имя отца в качестве полей, и я должен проверить дедупликацию, используя все эти поля с остальными данными. Полученные уникальные записи необходимо записать в базу данных.
Я смог реализовать mapreduce, итерацию всех записей. Скорость задачи установлена на 100 / с, а размер корзины - на 100. Биллинг включен.
В настоящее время все работает, но производительность очень низкая. Мне удалось выполнить обработку дедупликации только 1000 записей среди тестового набора данных из 10 000 записей за 6 часов.
Текущий дизайн в java:
Я готов увеличить любое количество ресурсов GAE, чтобы достичь этого в кратчайшие сроки.
Мои вопросы:
Приглашаем вас помочь в этом фрилансерам.
Спасибо за вашу помощь.