Допустим, я хочу определить вероятность того, что я проголосую за вопрос по SO, основываясь только на том, какие теги присутствуют или отсутствуют.
Давайте также представьте, что у меня есть много данных о прошлых вопросах, за которые я голосовал или не голосовал.
Есть ли алгоритм машинного обучения, который мог бы брать эти исторические данные, обучаться на них, а затем предсказывать мою вероятность положительного ответа на будущие вопросы? Обратите внимание, что это должна быть вероятность , а не какая-то произвольная оценка.
Предположим, что с любым заданным вопросом будет связано до 7 тегов, взятых из расширенного набора из десятков тысяч .
Я надеюсь, что он сможет устанавливать довольно сложные связи между тегами, а не каждый тег просто вносит свой вклад в конечный результат «линейным» образом (во многом как слова в байесовском фильтре спама).
Так, например, слово «java» может увеличить вероятность моего положительного голоса, за исключением случаев, когда оно присутствует в «базе данных», однако «база данных»
О, и это должно быть разумно с вычислительной точки зрения (обучение в течение часа или двух по миллионам вопросов).
Какие подходы мне здесь следует исследовать?