Кластеризация ~ 100 000 коротких строк в Python

Я хочу сгруппировать ~ 100000 коротких строк чем-то вроде расстояния в q-граммах или простого "расстояния мешка" или, возможно, расстояния Левенштейна в Python. Я планировал заполнить вне матрицы расстояний (100 000 выберите 2 сравнения), а затем выполните иерархическую кластеризацию с помощью pyCluster . Но я сталкиваюсь с некоторыми проблемами с памятью, прежде чем даже начать работу. Например, матрица расстояний слишком велика для тупой.

aa = numpy.zeros((100000, 100000))
ValueError: array is too big.

Неужели это кажется разумным? Или я обречен на проблемы с памятью в этой задаче? Спасибо за вашу помощь.

14
задан jfs 22 November 2010 в 04:45
поделиться