Я написал систему, обобщающую длинный документ, содержащий тысячи слов. Существуют ли какие-либо нормы того, как следует оценивать такую систему в контексте опроса пользователей?
Короче говоря, существует ли метрика для оценки времени, в течение которого мой инструмент спас человека? В настоящее время я думаю об использовании (время, затраченное на чтение исходного документа/время, затраченное на чтение сводки) как способ определения сэкономленного времени, но есть ли лучшие показатели?
В настоящее время я задаю пользователю субъективные вопросы о точности резюме.