Крупномасштабное машинное обучение — Python или Java? [закрыто]

Я в настоящее время приступаю к проекту, который будет включать сканирование и обработку огромных объемов данных (сотни гигабайт), а также их анализ для извлечения структурированных данных, распознавания именованных сущностей, дедупликации, классификации и т. д.

Я знаком с инструментами машинного обучения из как Java, так и мир Python: Lingpipe, Mahout, NLTK и т. д. Однако, когда дело доходит до выбора платформы для такой масштабной задачи, у меня недостаточно опыта, чтобы выбирать между Java или Python.

Я знаю, что это звучит как расплывчатый вопрос, но мне нужен общий совет по выбору Java или Python. JVM предлагает лучшую производительность (?) по сравнению с Python, но соответствуют ли библиотеки, такие как Lingpipe и т. д., экосистеме Python? Если бы я выбрал этот Python, насколько легко было бы масштабировать его и управлять им на нескольких машинах и т. д.

Какой из них мне выбрать и почему?

33
задан Yavar 15 March 2012 в 16:12
поделиться