Один из вариантов - использовать MLeap для работы в Spark PipelineModel онлайн с без зависимостей от Spark / SparkContext . Не нужно использовать SparkContext, так как он потеряет время подсчета для одной записи от ~ 100 мс до однозначных микросекунд.
Чтобы использовать ее, вы должны:
MLeap хорошо интегрирован со всеми этапами Pipeline Stages, доступными в Spark MLlib (за исключением LDA на момент написания этой статьи ). Однако, если вы пользуетесь пользовательскими оценщиками / трансформерами, это может немного усложниться.
Взгляните на FAQ для MLeap для получения дополнительной информации о пользовательских трансформаторах / оценках, и интеграция.