как разработать программу для уменьшения ошибок на человеческой записи рукописных обзоров

Я должен разработать заказное программное обеспечение, чтобы сделать обзоры. Вопросы могут иметь разнообразный выбор или произвольный текст в очень немногих случаях.

Меня попросили разработать подсистему, чтобы проверить, существует ли какая-либо ошибка в ручном вводе данных для части разнообразного выбора. Мы пытаемся ускорить пользовательский процесс ввода данных и минимизировать человеческие входные различия между цифровыми формами и исходными анкетами. Обзоры заполнены рукописными метками и текстом интервьюеров - людей, таким образом, возможно найти трудно для чтения меток, или также пользователь мог случайно выбрать другое значение в некотором вопросе, и мы хотели бы избежать этого.

Программное обеспечение должно включать некоторое автоматическое управление для обнаружения возможных различий во вводе. Каждый ответ вопросов с несколькими вариантами ответов имеет ту же вероятность того, чтобы быть выбранным.

Этот вопрос имеет две части:

  • GUI.

Самая простая вещь, которую я имею в виду, состоит в том, чтобы реализовать самый применимый дизайн дисплея вопросов: использование больших и читаемых шрифтов и пространства великодушно выбор. Есть ли что-то еще? Для более быстрого входа я хотел бы использовать выпадающие списки (способствующий клавиатуре по мыши). Учитывая вопросы сгруппированы в разделах, я хотел бы показать ответы, выбранные для вопросов того раздела, но это могло замедлить процесс. Какие-либо другие идеи?

  • Подсистема проверки ошибок.

Что еще я могу сделать, чтобы минимизировать или проверить человеческие опечатки в вопросы с несколькими вариантами ответов? Действительно ли это - разрешимая проблема? там некоторая статистическая методология к контрольным числам, которые вводились пользователями, то же от заполненных форм руки? Например, давайте предположим, что обзор имеет 5 вопросов, и у каждого есть 4 опции. Скажем, у меня есть формы обзора n, заполнил статью интервьюеров, и они готовы быть введенными в программное обеспечение, затем как минимизировать случайные различия, которые могут иметь ручную запись обзоров n, не имея необходимость проверять все дважды в 5 вопросах обзоров n?

Мое первое предложение - то, который в конце обработки всей руки заполнил формы, программное обеспечение могло выбрать некоторые формы случайным образом для создания двойной проверки из ответов в нескольких экземплярах, но на том, какие критерии я могу сделать этот выбор? Этой проверки было бы достаточно для покрытия всего значительным способом?

Фактический обзор является уровнем страны, и он имеет 56 страниц с более чем 200 вопросами всего, таким образом, это будет много рукописных страниц многими людьми, и намерение состоит в том, чтобы уменьшить вероятность ошибок и оптимизировать скорость в процессе ввода данных. Обзоры должны заполненный бумага сначала, учитывая сложности взятия ноутбуков или карманных компьютеров с интервьюерами.

10
задан Alex. S. 4 June 2010 в 05:29
поделиться

12 ответов

Зовите меня олдскулом, но я все же считаю, что наиболее прагматичный способ сделать это - использовать двойную запись. Два клерка по вводу данных вводят свои опросы, затем меняют стопки и вводят опросы другого клерка. Всякий раз, когда ваша система обнаруживает разницу между ними, она поднимает флажок - тогда два клерка сводят головы вместе и принимают решение о правильном ответе (или, может быть, ответ будет рассмотрен более старшим научным сотрудником и т. Д.). В сочетании с некоторыми другими предложениями здесь (мне очень нравятся предложения mdma для графического интерфейса пользователя), это сделает систему с низким уровнем ошибок.

Да, это удвоит ваше время ввода данных (возможно), но это очень просто и сократит количество ошибок. Идея OMR прекрасна, но мне не кажется, что этот проект (национальный 52-страничный опрос) - лучший случай для хакера-одиночки, который попробует реализовать это впервые. Какое программное обеспечение вам нужно? Какое оборудование доступно для этого? По-прежнему будет много человеческой работы, связанной с выявлением глупых вещей, когда интервьюер отмечает все четыре возможных ответа, а затем записывает записку сбоку - вы, вероятно, захотите случайным образом выбрать опросы, чтобы понять, что делает машина. -Читать коэффициент ошибок. Даже в этом случае у вас все еще есть оценка частоты ошибок, а не исправленные данные.

Попробуйте на этот раз более простой метод, чтобы дать вашему работодателю качественные результаты - затем используйте эти результаты в качестве предварительно проверенного набора данных для экспериментов с материалом OMR в течение следующего раза.

13
ответ дан 3 December 2019 в 13:36
поделиться

Мое первое предложение состоит в том, чтобы в конце обработки всех заполненных вручную форм программное обеспечение могло выбирать некоторые формы случайным образом, чтобы выполнить двойную проверку. ответов в нескольких случаях

Я не думаю, что это действительно даст значимый результат. Предположительно ошибки непреднамеренные и случайные. Случайная проверка обнаружит системные ошибки, но вы обнаружите только 10% случайных ошибок, если дважды проверите 10% форм (и 20% ошибок, если вы проверите 20% форм и т. Д.).

Как выглядят бумажные опросы? Если возможно, я бы предположил, что система OCR, которая сканирует рукописные тесты и сравнивает то, что OCR определяет ответ, с тем, что дал оператор ввода данных, была бы лучшим решением. Вы все равно можете вручную перепроверить изрядное количество опросов, но у вас будет некоторая уверенность в том, что перепроверенные опросы с большей вероятностью будут содержать ошибку, чем если бы вы просто выбрали их наугад.

Если вы также контролируете, как выглядят бумажные опросы, то это даже лучше: вы можете разработать их специально так, чтобы оптическое распознавание текста было максимально точным.

5
ответ дан 3 December 2019 в 13:36
поделиться

OCR / OMR, вероятно, лучший выбор, поскольку вы исключаете непредсказуемую человеческую ошибку и заменяете ее довольно предсказуемой машинной ошибкой. Возможно, даже удастся отфильтровать формы, с которыми OCR может бороться, и внести в них поправки для повышения точности сканирования.

Но, отвечая на исходный вопрос, напишите:

Проверка ошибок

  • имеет коррелированные вопросы, так что, по сути, одно и то же задают более одного раза или снова задают отрицательно. Если ответы на коррелированные вопросы также не коррелируют, это может указывать на ошибку ввода.
  • отклонения от нормы: если в типичных ответах есть закономерности, то отклонения от этих типичных ответов можно рассматривать как потенциальные ошибки ввода. Например. если вопросы 2 и 3 отвечают на A, то, скорее всего, будет задаваться вопрос C или D. Это обобщение приведенной выше корреляции. Корреляции могут быть вычислены динамически на основе уже введенных данных.

Графический интерфейс пользователя

  • имеет графический интерфейс, имитирующий бумажную форму, поэтому то, что клерки видят на бумаге, отражается на экране. В этом случае вероятность ввода бумажного ответа на неправильный вопрос в графическом интерфейсе пользователя меньше.
  • обеспечивают визуальную помощь клеркам по вводу данных, например с помощью ползунка, чтобы сохранить текущее местоположение вопроса на бумаге.
  • Пользовательское устройство ввода для ввода данных может быть проще в использовании, чем навигация с помощью клавиатуры и списки. Например, сенсорный дисплей со всеми вариантами, написанными A B C D. Клерку нужно только нажать на вариант, и он будет выбран и появится следующий вопрос - после короткой паузы. В случае, если клерк допустит ошибку, он может использовать кнопки «предыдущий / следующий» рядом с каждым вопросом.
  • обеспечивают звуковую обратную связь введенных данных, поэтому, когда клерк вводит «А», он слышит «А».

РЕДАКТИРОВАТЬ: Если вы рассматриваете возможность двойного ввода данных или внедрения улучшенного графического интерфейса пользователя, возможно, стоит провести пилотную схему для оценки эффективности различных подходов. Двойной ввод может быть дорогостоящим (удваивая стоимость задачи ввода данных), что может быть оправдано, а может и не быть оправдано повышением точности. Пилотная схема позволит вам быстро и относительно недорого оценить эффективность двойного входа. Это также даст вам представление об уровне ошибки от одного клерка по вводу данных без каких-либо изменений пользовательского интерфейса, что может помочь определить, необходимы ли изменения пользовательского интерфейса или другие стратегии уменьшения ошибок, и сколько затрат может быть оправдано при их реализации.

Ссылки по теме

6
ответ дан 3 December 2019 в 13:36
поделиться

Простите меня за то, что я полностью уклонился от вопроса, но вчера я зашел на eBay и заплатил 99 долларов США за 7-дюймовый планшетный ПК на базе Android o/s. Не самый быстрый в мире процессор, не с кучей оперативной памяти, но вполне достаточный для заполнения опросов пользователей в полевых условиях.

Я не могу поверить, что ваша организация не может позволить себе $99 на одного интервьюера, чтобы решить эту проблему.

Об этом стоит посоветовать хотя бы вашему боссу, не так ли?

.
4
ответ дан 3 December 2019 в 13:36
поделиться

После того, как вы реализовали наилучшее сочетание программных подходов к этой проблеме, вы также можете рассмотреть возможность запуска вывода через программу Amazon Mechanical turk и выполнить перекрестную проверку человеком. транскрипции к оригиналам. Другие проекты в этом направлении - это reCaptcha (хотя, насколько я могу судить, это только для распечатанного текста), и я только что наткнулся на Beextra , которая, похоже, занимается каталогизацией Смитсоновского института. СМИ.

3
ответ дан 3 December 2019 в 13:36
поделиться

Похоже, что здесь необходим комбинированный подход, фактические формы должны быть пригодны для автоматизированной обработки. Вы можете отсканировать документы и просто работать с электронной версией, если ввод множественного выбора может быть автоматически обработан, вы можете получить лучшее соотношение ошибок за счет того, что пользователь не участвует в процессе. В зависимости от пакета OCR я предполагаю, что вы получите значение, которое скажет вам, насколько система уверена в выборе, который она сделала, в зависимости от этого значения вы захотите, чтобы форма была проверена человеком. Обратите внимание, что я говорю об использовании ocr для оценок при множественном выборе, а не для записей в свободной форме, что, вероятно, является самостоятельной проблемой.

Параллельно вы, вероятно, захотите провести выборочные проверки, чтобы определить коэффициент ошибок системы ocr. Затем это значение можно использовать для определения доверительной вероятности для суммы вопроса с множественным выбором.

Я думаю, что аналогичный подход будет полезен, если вы просто будете использовать человеческий ввод, вы, вероятно, не избавитесь от всех ошибок, потому что люди будут делать ошибки, и они будут делать ошибки, исправляя ошибки, но с достаточно большим размером выборки вы, вероятно, сможете определить соотношение ошибок в человеческом вводе. Затем это число можно использовать для определения результатов опроса.

Что касается других идей пользовательского интерфейса, вы можете использовать отсканированные формы и наложить пользовательский интерфейс таким образом, чтобы флажок пользовательского интерфейса был близок к флажку письменного. Если у вас есть несколько известных линий под углами, выпрямление и масштабирование формы не должно быть слишком сложным. Если элемент ввода пользовательского интерфейса находится близко к карандашным отметкам, то, скорее всего, вы получите более высокие показатели правильной классификации.

Вы также можете использовать статистический анализ для отбора форм, которые кажутся не соответствующими линии, но тогда вы можете исказить результат за счет неравномерного отбора, что может быть хуже, чем равномерная случайная ошибка. В зависимости от дизайна бумажного опроса может быть полезно скопировать его в пользовательском интерфейсе, всем будет легче найти ошибки, если они будут выглядеть одинаково. Если вы не придерживаетесь этого, могут быть полезны некоторые ссылки по дизайну опросов (например, вот).

Похоже, это довольно крупная операция, я уверен, что в штате есть несколько статистиков, поговорите с ними о том, что им нужно и что вы можете сделать, чтобы помочь им и чего не следует делать, чтобы еще больше исказить результаты.

3
ответ дан 3 December 2019 в 13:36
поделиться

Двойная проверка человеком, вероятно, самый популярный способ снизить количество ошибок. . Если вы хотите ускорить процесс, один человек может подсчитать только общее количество полученных ответов и записать это число в нижней части опроса (своего рода «контрольная сумма»). Человек, который вводит данные в ваше приложение, также должен заполнить это число в специальном поле, после чего система сможет подсчитать количество полученных ответов и сравнить их с ожидаемым значением. Это может решить проблему правильного количества, но не правильности данных.

Вы также можете использовать некоторые методы из data-minig для обнаружения ошибок во вставленных данных. Пример: если вы запрашиваете возраст и диапазон заработной платы, вы можете создать правило, которое гласит: если возраст правилами ассоциации

GUI: он должен быть 1: 1 для представления бумажной формы. некоторые сочетания клавиш могут быть полезны для ускорения работы.

2
ответ дан 3 December 2019 в 13:36
поделиться

Как уже упоминалось, нажмите дважды. Да, это «двойная работа», но это приводит к пункту 2.

Сделайте опросы ЛЕГКИМИ КЛЮЧАМИ.

Они должны быть простыми для чтения манипуляторами. Раздел, посвященный их вниманию, хорошо выделен, чтобы выделяться из шума формы.

Ваш "GUI" не должен быть. Основным преимуществом графического интерфейса пользователя является «обнаруживаемость», эти люди не должны ничего «открывать». Навигация с клавиатуры должна быть «единственным» способом, когда они начнут вводить данные.Одна или две руки на клавиатуре, одна рука для смены страницы опроса == нет рук для мыши. Внимание к экрану (для мыши или чего-то еще) - это внимание, не связанное с опросом для ввода.

Операторы кеинга должны быть «опущены», и им вообще не нужно смотреть на экран. Если возможно, вы можете использовать звуковые подсказки, чтобы сообщить манипуляторам, где они переключили страницы, чтобы гарантировать, что то, что они вводят, и то, что набирает компьютер, в основном одно и то же. Если звуковые подсказки невозможны, просто попросите людей ввести страницу опроса, на которой они находятся. Компьютер уже «знает», что он находится на странице «2», и поэтому, когда манипуляторы вводят номер страницы, он может подтвердить, что они находятся на том же месте.

ОБЯЗАТЕЛЬНО используйте звуковые подсказки при вводе ошибок. Не позволяйте им вводить мусор, нажимайте «сохранить», а затем исправляйте ошибки. Если вы ЗНАЕТЕ, что данные неверны, ОСТАНОВИТЕ их и попросите их немедленно исправить. Ничто не привлекает их внимания, чем 5 или 6 «динь-динь-звон», потому что они уже вводят 3 поля позже, прежде чем поймут, что компьютер остановил их. Проверка длинного вопросника на предмет ошибок - пустая трата времени.

НЕ «прокручивайте» экраны данных. Страницы вперед и назад. Прокрутка - отстой. При прокрутке поля на экранах перемещаются. Когда вы этого не сделаете, они всегда находятся в одном и том же месте, поэтому, когда входящему ДЕЙСТВИТЕЛЬНО нужно смотреть на экран, он всегда может смотреть в одно и то же место.

Из-за этого выпадающие списки любой длины - отстой. В любом случае им не следует использовать раскрывающиеся списки, так как они все равно не должны смотреть на экран.Форма должна ИМ ТОЧНО СКАЗАТЬ, что им нужно ввести.

Будьте последовательны при вводе данных. Как можно чаще используйте ключ 10. Если у вас более 10 вариантов, а значения 0–9 не подходят для всей анкеты, тогда вам следует использовать 00–99. Не используйте A-Z для вариантов, так как люди не думают о ключах таким образом. Они не столько запоминают буквы на клавиатуре, сколько запоминают комбинации слов на клавиатуре. 01–26 намного быстрее вводить, чем A – Z, в любой день недели.

Кроме того, клавиша SHIFT НЕ вам друг. Но все будет в порядке, когда они будут в режиме «печатать по-английски».

Наконец, организуйте опрос так, чтобы все «вводить текст» и «заполнять пустые поля» находилось в одном разделе (в идеале в конце). Это позволяет им запечатлеть все остальное в огне, попасть в зону и не двигать руками вперед и назад. Многие люди будут вводить цифры «сверху» при вводе «english» (т. Е. Использовать верхнюю строку) и 10 цифр, когда нет.

1
ответ дан 3 December 2019 в 13:36
поделиться

Что касается вопросов с несколькими вариантами ответов, автоматическое сканирование кажется достаточно надежным.Если у вас есть возможность сканировать все документы до начала ввода данных, включите сканирование в пользовательский интерфейс с учетом компьютерных догадок.

Для вопроса с несколькими вариантами ответов держите форму для ввода данных с одной стороны, а отсканированный оригинал - с другой. Если компьютерное предположение превышает определенный порог, укажите этот вариант в области ввода данных. Если компьютерное предположение ниже определенного порога (несколько ответов или ответ не найден), не отмечайте первоначальный ответ и выделите этот вопрос как требующий внимания. Даже без предположений, отображение отсканированной бумаги на экране рядом с вводом данных кажется полезным.

Что касается рукописных ответов, у меня нет никаких реальных предложений, кроме отсканированного ввода рядом с областью ввода данных. Даже если изображение не так разборчиво, как исходный документ, оно поможет обеспечить ввод правильного текста для каждого вопроса. Довольно распространенная ошибка ввода - это погасить на единицу, когда правильный ответ вводится на неправильный вопрос. Наличие изображения на экране может немного уменьшить это и облегчить проверку другим людям.

Предполагается, что все формы идентичны по макету, поэтому вы можете написать код для отображения определенной части определенной страницы и ожидать, что это будет правая часть формы.

1
ответ дан 3 December 2019 в 13:36
поделиться

Разработайте замкнутую систему.

Вы должны время от времени вводить вдвойне слепые «справочные формы», которые будут вводить ваш штатный персонал, чтобы автоматически оценивать их работу и предоставлять обратную связь на основе степени успеха.

Это позволит контролировать мотивацию человеческого фактора и устранить основной источник ошибок ввода.

0
ответ дан 3 December 2019 в 13:36
поделиться

Я бы поддержал предложение Мэтта Паркера об использовании двойной записи для уменьшения количества ошибок. Я даже видел, как тройная запись используется для очень чувствительных к ошибкам задач ввода данных.

Двойная запись хороша тем, что позволяет получить приблизительную оценку общего коэффициента ошибок, сделав некоторые допущения (в основном, что коэффициент ошибок постоянен для всех элементов ввода и клерков) и используя частоту возникновения конфликтов при вводе данных.

Более сложные системы двойного ввода данных могут также измерять коэффициент ошибок отдельных частей задачи ввода данных и отдельных клерков, чтобы вы могли внести улучшения для снижения коэффициента ошибок.

4
ответ дан 3 December 2019 в 13:36
поделиться

Что касается обнаружения ошибок в расшифровке ответов на вопросы с множественными вариантами ответов, я предлагаю использовать несколько человек для ввода данных и статистическое профилирование.

Специалист по статистике может сравнить результаты, чтобы увидеть, выделяются ли какие-либо вопросы с заметно отличающимся распределением ответов, введенных одним пользователем ввода данных, от ответов других. Если это так, то эти вопросы можно пометить для повторного ввода из форм.

Предполагая, что формы случайным образом распределены между сотрудниками, осуществляющими ввод данных, введенные результаты должны иметь довольно схожее распределение ответов при достаточно большом количестве форм для каждого пользователя, осуществляющего ввод данных.

2
ответ дан 3 December 2019 в 13:36
поделиться
Другие вопросы по тегам:

Похожие вопросы: