Поиск дубликатов в большом файле

Question

Поиск дубликатов в большом файле

У меня есть очень большой файл с примерно 15 миллионами записей. Каждая строка в файле содержит одну строку (назовем ее ключом).

Мне нужно найти дубликаты записей в файле с помощью java. Я пытался использовать хэшмап и обнаружить дубликаты. Очевидно, что такой подход вызывает у меня ошибку "java.lang.OutOfMemoryError: Java heap space".

Как я могу решить эту проблему?

Я думаю, что могу увеличить пространство кучи и попробовать это, но я хотел узнать, есть ли более эффективные решения без необходимости изменять пространство кучи.

12

algorithm data-structures

задан Eduard Wirch 23 April 2012 в 14:34

0 ответов

Другие вопросы по тегам:

algorithm data-structures

Поиск дубликатов в большом файле

0 ответов

Похожие вопросы: