Задача машинного обучения: какой инструмент использовать?

В настоящее время я экспериментирую с задачей машинного обучения, которая включает контролируемое обучение модели классификации. На сегодняшний день у меня есть ~ 5 млн обучающих примеров и ~ 5 млн примеров для перекрестной проверки. В каждом примере на данный момент 46 функций, однако в ближайшем будущем я могу создать еще 10, поэтому любое решение должно оставлять место для улучшения.

Моя проблема заключается в следующем: какой инструмент я могу использовать для решения этой проблемы? Я бы хотел использовать случайные леса или SVM, но боюсь, что последнее может быть слишком медленным в моем случае. Я рассматривал Mahout, но отвернулся, поскольку он, похоже, требует определенной настройки в сочетании с вознями со сценариями командной строки. Я бы предпочел кодировать непосредственно с какой-нибудь (хорошо документированной!) Библиотекой или определять свою модель с помощью графического интерфейса.

Я также должен указать, что я ищу что-то, что будет работать в Windows (без таких вещей, как cygwin), и что решения, с которыми хорошо работают.NET очень ценятся.

Вы можете представить, что, когда придет время, код будет запущен на Cluster Compute Eight Extra Large Instance на Amazon EC 2 , так что что угодно который широко использует оперативную память и многоядерные процессоры, приветствуется.

И последнее, но не менее важное: я укажу, что мой набор данных является плотным (в том смысле, что нет пропущенного значения / все столбцы имеют значение для каждого вектора)

6
задан em70 24 December 2011 в 10:48
поделиться