Это может или не может быть связано, но, незначительные орфографические ошибки могли бы быть обнаружены поиск Soundex , например, это позволит Вам рассматривать Britney Spears, Запчасти Britanny и Britny Spears как дубликаты.
сокращения Псевдонима, однако, трудно рассмотреть как дубликаты, и я сомневаюсь, мудро ли это. Там обязаны быть несколькими людьми по имени Bill Smith и William Smith, и необходимо было бы выполнить итерации этого с Charles-> Chuck, Robert-> Bob, и т.д.
кроме того, если Вы рассматриваете, скажем, мусульманских пользователей, проблемы становятся более трудными (существует слишком много мусульман, например, которые называют Mohammed/Mohammad).
Как вы сказали, последовательное чтение с диска происходит намного быстрее, чем шаблон чтения-пропуска-чтения-пропуска. Жесткие диски обладают высокой пропускной способностью при последовательном чтении, но время поиска (задержка) дорого.
Вместо того, чтобы сохранять копию файла на каждом диске, попробуйте сохранить блок i файла на диске i (мод 2). Таким образом вы можете последовательно читать с обоих дисков и повторно комбинировать результат в памяти.
Если вы уверены, что выполняете не более одного чтения на диск (в противном случае у вас будет много промахов диска), вы по-прежнему создаете конкуренцию другим частям компьютера - шине, рейдовому контроллеру (если он существует) и так далее.
Если вы хотите выполнить параллельное чтение, разбейте чтение на два последовательных чтения. Найдите середину и прочтите первую половину из первого файла и вторую половину из второго файла.