Кажется, что вы хотите заниматься каким-то онлайн-обучением . Это то, что вы фактически обновляете модель при получении данных. Spark MLLib имеет ограниченные возможности для обучения потоковым машинам. Существует потоковая линейная регрессия и потоковое K-Means .
Многие проблемы с машинным обучением отлично справляются с пакетными решениями, возможно, переучивая модель каждые несколько часов или дней. Вероятно, есть стратегии для решения этого вопроса.
Один вариант может быть ансамблевой моделью, в которой вы комбинируете результаты своей ALS с другой моделью, которая помогает делать прогнозы о невидимых фильмах.
Если вы ожидайте увидеть много ранее невидимых фильмов, хотя совместная фильтрация, вероятно, не делает то, что вы хотите. Если эти новые фильмы вообще не находятся в модели, модель не может знать, что другие люди, которые смотрели на них, понравились.
Лучшим вариантом может быть другая стратегия и попробовать что-то вроде латентного семантического анализа фильмов и модельных представлений о том, что такое фильм (например, жанр, темы и т. д.), таким образом новые фильмы с различными свойствами и вписываются в существующую модель, а оценки влияют на то, насколько сильно эти свойства взаимодействуют друг с другом .