Алгоритм для обрабатывать агрегирование данных из нескольких источников, подверженных ошибкам

Я собираю списки концертов из нескольких разных источников, ни один из которых не является одновременно полным и точным. Некоторые данные поступают от пользователей (например, на last.fm) и могут быть неверными. Другие источники данных очень точны, но могут не содержать все события. Я могу использовать такие атрибуты, как дата события и город / штат, чтобы попытаться сопоставить списки из разных источников. Я' Я хочу быть достаточно уверенным, что события действительны. Похоже, что было бы хорошей стратегией использовать как можно больше различных источников для проверки списков источников, подверженных ошибкам.

Я не уверен, что это за технический термин, так как я хотел бы изучить его в дальнейшем. Это интеллектуальный анализ данных? Есть ли какие-нибудь существующие алгоритмы? Я понимаю, что решение никогда не будет полностью точным.

11
задан Matt Green 25 May 2011 в 03:14
поделиться