Любая статистика там, как правило, ошибается keys?

Мне нужно найти список часто ошибочных клавиш на клавиатуре для проекта, над которым я работаю. По сути, мне нужно знать, какую клавишу пользователь пытается нажать и какую клавишу он нажимает, и сравнить, как часто это происходит.

Под «сравнительной мерой» я подразумеваю, что я бы хотел сказать, что зная пользователя, набрав неверную клавишу «с», что более вероятно, что они нажимают клавишу «x» против клавиши «v» (в основном столбец «общность» ниже).

Мой идеальный список будет примерно таким, как показано ниже, чтобы дать вам представление о том, что я ищем.

Target Key    Actual Key   Commonness...
----------    -----------  -------------
v             c            100
v             b            95
c             x            100
c             v            90

И так далее ...

Кто-нибудь встречал какие-либо авторитетные источники, которые имеют что-нибудь, что могло бы предоставить эту информацию? Мне пока не повезло ...

11
задан Robert Harvey 19 November 2012 в 17:05
поделиться

2 ответа

Пару лет назад мне пришлось столкнуться с похожей проблемой. Когда я начал проект, я понятия не имел, с чего начать, так что, надеюсь, я смогу сэкономить вам и всем остальным в той же ситуации некоторое время.

В итоге, вы можете воспользоваться большим количеством работы, проделанной в других областях. Наиболее важной из этих областей, как я обнаружил, является Регистрация доменных имен.

Например, на сайте DomainTools есть 'Domain Typo Generator', который работает путем создания списка опечаток доменных имен, основанных на родительском доменном имени, которое вы вводите.

Учитывая, что профессиональные владельцы доменных имен (они же сквоттеры) составляют большую часть бизнеса любого регистратора, легко понять, для кого предназначен этот инструмент (т.е. сквоттеры заинтересованы в приобретении распространенных опечаток в доменных именах с высоким трафиком - даже 2% ошибок для доменного имени с высоким трафиком - это большой трафик для опечаток.

Кроме того, я рекомендую замечательно полное исследование этого вопроса, проведенное Microsoft Research в 2005 году.

Наконец, в вычислительной лингвистике есть ключевая концепция, полученная из расстояния Левенштейна, называемая расстоянием Дамерау-Левенштейна, которая расширяет основную идею Левенштейна о расстоянии редактирования на конкретную проблему людей, печатающих на клавиатуре.

Главный вывод из его научной работы 1964 года состоял в том, что 80% всех опечаток могут быть описаны одной из четырех операций- вставкой, удалением, заменой одного символа или перестановкой двух символов.

Дамерау не только выделил эти четыре операции редактирования, но и заявил, что они соответствуют более чем 80% всех человеческих опечаток. (Единственная ссылка, которую я привел для D-L, это статья в Википедии; я сделал это потому, что считаю, что это отличное и краткое введение, плюс в ней содержится псевдокод для алгоритма D-L, и, наконец, статья содержит ссылки на основные онлайн-источники по D-L.

5
ответ дан 3 December 2019 в 11:20
поделиться

Я не знаю источника статистики, но, похоже, будет большая разница между (1) нажатием не той клавиши из-за неправильного позиционирования пальца, что большинство машинисток сразу бы вернули назад и исправлять на лету, поэтому статистику по событиям такого типа можно было собирать только в режиме реального времени, а не табулировать то, с чем сталкивается большинство корректоров орфографии, и (2) машинистка нажимает правильные клавиши, но в неправильном порядке (вместо этого "наэм" от «имени») из-за скорости / отвлечения / нейронных причин, и (3) машинистка нажимает не те клавиши, потому что не знает, как писать («обслуживание» вместо «обслуживание»).

Для случая № 1, если наиболее распространенными буквами в английском языке являются E, T, A ... тогда, вероятно, есть большая вероятность, что они также являются наиболее пропущенными клавишами в этом порядке, хотя это не сообщает вам, какой из соседей, таких как «w» и «r», вместо этого пострадал больше всего. Машинистка, пытающаяся ввести клавишу конца строки, такую ​​как «a», может на самом деле ошибочно нажимать CAPS LOCK так же часто, как и ошибочно нажимать «s».

Лично я обычно скучаю по не-альфа-кодам, особенно при поиске и клевании для / vs \, {vs [, 'vs », запятой и точки при вводе форматированных чисел и валюты, пропуска сдвига и получения 8 вместо * и т. д. и т. д., и поскольку не-альфа типизация настолько распространена при программировании, такие случаи, вероятно, гораздо чаще встречаются у программистов, чем у непрограммистов.

0
ответ дан 3 December 2019 в 11:20
поделиться
Другие вопросы по тегам:

Похожие вопросы: