Все это время (особенно в конкурсе Netflix) я всегда сталкиваюсь с этим блогом (или форумом лидеров), где они упоминают, как применение простого шага SVD к данным помогло им уменьшить разреженность в данные или в целом улучшили производительность своего алгоритма. Я пытаюсь думать (давно), но не могу понять, почему это так. В общем, данные, которые я получаю, очень зашумлены (что также является забавной частью больших данных), а затем я знаю некоторые базовые функции масштабирования, такие как лог-преобразование, средняя нормализация. А как же помогает что-то вроде СВД. Итак, скажем, у меня есть огромная матрица фильмов с оценками пользователей... и затем в этой матрице я реализую некоторую версию системы рекомендаций (скажем, совместную фильтрацию):
1) Without SVD
2) With SVD
как это помогает Спасибо