Я пытаюсь сделать некоторые k-средства, кластеризирующиеся на очень большой матрице.
Матрица является приблизительно 500 000 строк x 4 000 седел, все же очень редких (только несколько "1" значения на строку).
Все это не вписывается в память, таким образом, я преобразовал ее в редкий файл ARFF. Но R, очевидно, не может считать редкий формат файла ARFF. У меня также есть данные как простой файл CSV.
Действительно ли там какой-либо пакет доступен в R для загрузки таких разреженных матриц эффективно? Я затем использовал бы обычный алгоритм k-средств от кластерного пакета для продолжения.
Большое спасибо
Пакет bigmemory (или теперь семейство пакетов - см. Их веб-сайт ) использовал k-means в качестве рабочего примера расширенной аналитики больших данных. . См., В частности, подпакет biganalytics , который содержит функцию k-средних.