k-средства, кластеризирующиеся в R на очень большой, разреженной матрице?

Я пытаюсь сделать некоторые k-средства, кластеризирующиеся на очень большой матрице.

Матрица является приблизительно 500 000 строк x 4 000 седел, все же очень редких (только несколько "1" значения на строку).

Все это не вписывается в память, таким образом, я преобразовал ее в редкий файл ARFF. Но R, очевидно, не может считать редкий формат файла ARFF. У меня также есть данные как простой файл CSV.

Действительно ли там какой-либо пакет доступен в R для загрузки таких разреженных матриц эффективно? Я затем использовал бы обычный алгоритм k-средств от кластерного пакета для продолжения.

Большое спасибо

9
задан movingabout 14 June 2010 в 18:03
поделиться

1 ответ

Пакет bigmemory (или теперь семейство пакетов - см. Их веб-сайт ) использовал k-means в качестве рабочего примера расширенной аналитики больших данных. . См., В частности, подпакет biganalytics , который содержит функцию k-средних.

13
ответ дан 4 December 2019 в 13:45
поделиться
Другие вопросы по тегам:

Похожие вопросы: