Вы можете использовать spark.ml OneHotEncoder .
Сначала вы используете:
OneHotEncoder.categories(rdd, categoricalFields)
Где categoricalField
- последовательность индексов, на которой ваш RDD
содержит категориальные данные. categories
, учитывая набор данных и индекс столбцов, которые являются категориальными переменными, возвращает структуру, которая для каждого поля описывает значения, которые присутствуют в наборе данных. Эта карта предназначена для использования в качестве входных данных для метода кодирования:
OneHotEncoder.encode(rdd, categories)
Что возвращает ваш векторизованный RDD[Array[T]]
.
Я ошеломлен, что никто не упомянул свободный и превосходный продукт TeamCity от JetBrains. Это включает:
Для управления проектами / отслеживание ошибок / Мерзавец или репозиторий Подрывной деятельности я также использую Неопьянение ( свободный для маленьких персональных проектов!)
Я буду второй Trac + Подрывная деятельность. В то время как ничто не прекрасно, эта комбинация работает вполне хорошо на меня, и цена является правильной.
Даже для проектов я работаю соло над, хорошо иметь оба из них интегрированных.
Я имел большой успех с хорошей интеграцией между хранилищем SourceGear и FogBugz.
Сборка мс для автоматизации сборки удовлетворяет мои потребности.
Взял мой вне рассмотрения ответ и отправил его как один из ответов на StackOverflow FAQ.
Вот решение, которое я использую, и оно работает отлично:
Это кажется целенаправленным для Открытого исходного кода / проекты типа Сообщества, но это работает, просто находят как внутренняя интранет Разработчика. Это интегрирует Wiki, средство отслеживания Ошибки и Исходный браузер SVN в один хороший пакет, и очень легко настроить.
Комплект Sourcegear продуктов является очень хорошей альтернативой. Хранилище + Облава + Крепость хороша, однако если Вы не можете позволить себе всех тех, Хранилище +, FogBugz является довольно достойной альтернативой.
Я использую Крепость SourceGear на своем домашнем компьютере для персональной разработки. Его свободное для отдельного пользователя.
Я использую , Сервер VisualSVN для управления исходным кодом, Смешиваются для управления проектами и отслеживания ошибок, и Город Команды для непрерывной интеграции. Я все еще привыкаю к нему, но это работает отлично до сих пор. Это - хорошая бесплатная установка для малочисленных команд. Лицензирование Смешивается, и Город Команды будет стоить денег для более многочисленных команд.
CM Seapine - Кросс-платформенное административное управление проблемы и управление версиями
Для легкого & абсолютно бесплатная опция, можно использовать Springloops, интегрированный с Basecamp (+ клиент SVN).
Примечание: интеграция SpringLoops с Basecamp не доступна в их бесплатной установке.
Я разрабатываю на Linux также, который является одной причиной, я предложил решение, которое я имею. Я задавался вопросом, как опции SourceGear работают в этом отношении? Я использовал Хранилище прежде, которое, по моему опыту, не было слишком плохо, но я знаю, что это - базирующийся главным образом Windows. Я думаю, что считал однажды, что у них есть клиент, который может работать над Linux, но я никогда не использовал его. Я просто хочу открыть разговор немного больше, таким образом, люди, которые приходят к этому вопросу, могут, надо надеяться, найти, что лучший ответ для них, на основе их хочет.
, Если клиент Хранилища может работать на Linux и Mac и работать хорошо, то использование Хранилища и Крепости определенно будет принятым ответом как хорошей недорогой альтернативой Системе Команды.
SVN с дополнением TortoiseSVN делает для твердого и простого в использовании интерфейса. WinMerge является большим инструментом к добавленному то соединение также.