Группировка миллионов строк с заменой

У меня есть большое количество (XXM-XXXM) строк, которые выглядят (небольшой образец):

Я понятия не имею ни о всех возможных строках ошибок, ни о их перестановки. Я хочу сгруппировать все похожие ошибки вместе и создать некоторую статистику, показывающую количество ошибок для каждой группы строк ошибок.

Итак, по сути, я хотел бы сгруппировать наиболее похожие строки вместе, и строки могут принадлежать нескольким группам.

Спасибо!

13
задан John Wu 3 June 2011 в 08:21
поделиться