Существует ли алгоритм контролируемого обучения, который принимает теги на входе и выдает вероятность на выходе?

Допустим, я хочу определить вероятность того, что я проголосую за вопрос по SO, основываясь только на том, какие теги присутствуют или отсутствуют.

Давайте также представьте, что у меня есть много данных о прошлых вопросах, за которые я голосовал или не голосовал.

Есть ли алгоритм машинного обучения, который мог бы брать эти исторические данные, обучаться на них, а затем предсказывать мою вероятность положительного ответа на будущие вопросы? Обратите внимание, что это должна быть вероятность , а не какая-то произвольная оценка.

Предположим, что с любым заданным вопросом будет связано до 7 тегов, взятых из расширенного набора из десятков тысяч .

Я надеюсь, что он сможет устанавливать довольно сложные связи между тегами, а не каждый тег просто вносит свой вклад в конечный результат «линейным» образом (во многом как слова в байесовском фильтре спама).

Так, например, слово «java» может увеличить вероятность моего положительного голоса, за исключением случаев, когда оно присутствует в «базе данных», однако «база данных»

О, и это должно быть разумно с вычислительной точки зрения (обучение в течение часа или двух по миллионам вопросов).

Какие подходы мне здесь следует исследовать?

5
задан sanity 28 April 2011 в 04:02
поделиться