Почему распознавание речи не совершенствуется? [закрытый]

JB ударил ногтем по голове. Единственное, что я могу добавить, - это то, что Java 8 не выполняет чисто параллельную обработку, а выполняет частичное . Да, я написал эту статью и уже тридцать лет занимаюсь F / J, поэтому понимаю проблему.

13
задан Yuval Adam 9 July 2009 в 09:54
поделиться

21 ответ

Потому что, если людям трудно понять других людей с сильным акцентом, почему, как вы думаете, компьютеры будут в этом лучше?

37
ответ дан 1 December 2019 в 17:10
поделиться

Если бы распознавание речи было возможно с существенно меньшим количеством MIPS, чем человеческий мозг, мы действительно могли бы разговаривать с животными.

Эволюция не тратила бы все эти калории на серое вещество, если бы они не были » t требуется для выполнения работы.

0
ответ дан 1 December 2019 в 17:10
поделиться

Разговорный язык зависит от контекста, неоднозначен. Компьютеры плохо справляются с неоднозначными командами.

0
ответ дан 1 December 2019 в 17:10
поделиться

Ну, у меня есть голосовой поиск Google на моем G1, и он отлично работает. Ответ: поле прогрессирует, но вы просто не заметили!

0
ответ дан 1 December 2019 в 17:10
поделиться

Компьютеры даже не очень хороши в обработке естественного языка для начала. Они отлично справляются с сопоставлением, но когда дело доходит до вывода, это становится непростым.

Затем, пытаясь вычислить одно и то же слово из сотен разных акцентов / интонаций, это внезапно не кажется таким простым.

0
ответ дан 1 December 2019 в 17:10
поделиться

Однажды я задал похожий вопрос своему преподавателю; Я спросил его что-то вроде того, какие проблемы существуют при создании преобразователя речи в текст. Среди ответов, которые он дал, он попросил меня произнести «п» и «б». Потом он сказал, что вначале они очень немного отличаются, а потом звучат похоже. Я считаю, что даже трудно распознать, какой звук издается, распознать голос было бы еще сложнее. Также обратите внимание, что когда вы записываете голоса людей, вы сохраняете только числа. Представьте, что вы пытаетесь найти такие показатели, как акцент, частота и другие параметры, полезные для идентификации голоса из ничего, кроме ввода, например, матрицы чисел. Компьютеры хороши в числовой обработке и т. Д., Но голос - это не совсем числа.

1
ответ дан 1 December 2019 в 17:10
поделиться

Это не моя область, но я верю, что она развивается, но очень медленно.

И я считаю, что ответ Саймона в некотором роде верен: отчасти проблема в том, что нет двух людей, которые говорят одинаково в терминах шаблонов, которые компьютер запрограммирован распознавать. Таким образом, трудно анализировать речь.

0
ответ дан 1 December 2019 в 17:10
поделиться

Основная проблема в том, что человеческий язык неоднозначен. Следовательно, чтобы понимать речь, компьютеру (или человеку) необходимо понимать контекст того, что говорится. Этот контекст на самом деле является физическим миром, в котором обитают говорящий и слушающий. И ни одна программа AI еще не продемонстрировала глубокого понимания физического мира.

3
ответ дан 1 December 2019 в 17:10
поделиться

Синтез речи очень сложен сам по себе - многие параметры объединяются для формирования результирующей речи. Разбить его на части сложно даже людям - иногда вы не слышите одно слово за другим.

2
ответ дан 1 December 2019 в 17:10
поделиться

Вы сами сказали, разработчики алгоритмов работают над этим ... но язык и речь не являются алгоритмическими конструкциями. Они являются пиком развития очень сложной человеческой системы, включающей концепции, мета-концепции, синтаксис, исключения, грамматику, тональность, эмоции, нейронную, а также гормональную активность и т. Д. И т. Д.

Язык требует высокоэвристического подхода. и поэтому прогресс идет медленно, а перспективы, возможно, не слишком оптимистичны.

1
ответ дан 1 December 2019 в 17:10
поделиться

Большую часть времени мы, люди, понимаем, основываясь на контексте. Так что конкретное предложение гармонирует со всем разговором, к сожалению, компьютер в этом смысле имеет большой недостаток. Он просто пытается уловить слово, а не то, что между ним.

мы бы поняли иностранца с очень слабым английским акцентом, возможно, угадав, что он пытается сказать, вместо того, что он на самом деле говорит.

1
ответ дан 1 December 2019 в 17:10
поделиться

Потому что Lernout & Hauspie обанкротились :)

(извините, как бельгиец я не смог устоять)

3
ответ дан 1 December 2019 в 17:10
поделиться

Разнообразие языков было бы преобладающим фактором, усложняющим задачу. Диалекты и акценты усложнили бы задачу. Кроме того, context. Книгу прочитали. Книга была красной. Как определить разницу. Дополнительные усилия, необходимые для этого, в первую очередь упростили бы простой ввод данных.

Теперь, вероятно, на это было бы больше усилий, если бы это было более необходимо, но прогресс в других формах ввода данных произошел. продвигается так быстро, что это не считается необходимым.

Конечно, есть области, где это было бы здорово, даже чрезвычайно полезно или полезно. Ситуации, когда у вас заняты руки или вы не можете смотреть на экран для ввода. Помощь инвалидам и т. Д. Но большинство из них - нишевые рынки, у которых есть свои собственные решения. Возможно, некоторые из них больше работают в этом направлении, но большинство сред, в которых используются компьютеры, не подходят для распознавания речи. Я предпочитаю, чтобы моя рабочая среда была тихой. А бесконечная болтовня с компьютерами сделала бы перекрестные помехи реальной проблемой.

Вдобавок ко всему, если вы не диктуете прозу компьютеру, любой другой тип ввода проще и быстрее с помощью клавиатуры, мыши или касания. Однажды я пробовал кодировать с помощью голосового ввода. Все это было болезненно от начала до конца.

Однажды я пробовал кодировать с помощью голосового ввода. Все это было болезненно от начала до конца.

Однажды я пробовал кодировать с помощью голосового ввода. Все это было болезненно от начала до конца.

6
ответ дан 1 December 2019 в 17:10
поделиться

Проблема такого рода является более общей, чем только распознавание речи. Он также существует в обработке зрения, обработке естественного языка, искусственном интеллекте ...

На распознавание речи влияет семантический разрыв проблема:

Семантический разрыв характеризует разница между двумя описаниями объект разными лингвистическими представления, например языки или символы. В компьютере наука, понятие актуально всякий раз, когда обычная человеческая деятельность, наблюдения и задачи переведен в вычислительную представление

Между формой звуковой волны и текстовым словом разрыв большой,

Между словом и его значением он еще больше ...

9
ответ дан 1 December 2019 в 17:10
поделиться

beecos iyfe peepl обнаружил, что трудно понять, что такое uvver peepl wif e strang acsent wie doo yoo fink compootrs wyll bee ani bettre ayt it?

Бьюсь об заклад, у вас ушло полсекунды на тренировку. что, черт возьми, я набирал, и все, что делал Iw, это повторял ответ Саймонса с другим «акцентом». Вычислительной мощности пока нет, но она приближается.

6
ответ дан 1 December 2019 в 17:10
поделиться

Я помню, как читал, что у Microsoft была группа, работающая над распознаванием речи, и они назвали себя командой «Разрушить красивый пляж» (имя, данное им их собственным программным обеспечением).

Чтобы на самом деле превратить речь в слова, это не так просто, как сопоставление отдельных звуков, также необходимо понимание контекста. В программном обеспечении должен быть закодирован жизненный опыт человека.

18
ответ дан 1 December 2019 в 17:10
поделиться

Чтобы хорошо распознавать речь, вам нужно знать, что имеют в виду люди, а компьютеров еще нет.

1
ответ дан 1 December 2019 в 17:10
поделиться

Я ожидал бы некоторых успехов от Google в будущем благодаря их сбору голосовых данных через 1-800-GOOG411

1
ответ дан 1 December 2019 в 17:10
поделиться

Я не согласен с предположением в вопросе - я недавно познакомился с распознаванием речи Microsoft и впечатлен. Он может узнать мой голос через несколько минут и обычно правильно определяет общие слова. Это также позволяет добавлять новые слова. Его, безусловно, можно использовать для моих целей (понимание химии).

Различать между распознаванием (слов) токенов и пониманием их значения.

Я еще не знаю о других языках или операционных системах.

0
ответ дан 1 December 2019 в 17:10
поделиться

Проблема в том, что существует два типа механизмов распознавания речи. Те, кто обучен диктовке, такие как Dragon, хороши для диктовки. Они могут распознавать практически любой голосовой текст с достаточно хорошей точностью, но требуют (а) обучения пользователя и (б) хорошего микрофона.

Независимые от говорящего устройства записи речи чаще всего используются в телефонии. Они не требуют «обучения» со стороны пользователя, но должны заранее точно знать, какие слова ожидаются. Разработка приложений для создания этих грамматик (и устранения ошибок) огромна. Телефонная связь ограничена полосой пропускания 4 КГц из-за исторических ограничений в нашей телефонной сети общего пользования. Это ограниченное качество звука сильно ограничивает способность систем записи речи «слышать» то, что говорят люди. Такие цифры, как "шесть" или "семь" содержат звук сссс, который двигателям особенно трудно различить. Это означает, что распознавание цепочек цифр, одна из самых основных задач распознавания, проблематично. Добавьте региональные акценты, где «девять» в некоторых местах произносится как «нан», и точность действительно пострадает.

Лучшая надежда - это интерфейсы, сочетающие графику и речевую информацию. Подумайте о приложении для iPhone, которым вы можете управлять с помощью голоса.

0
ответ дан 1 December 2019 в 17:10
поделиться

Обработка слуха - очень сложная задача. Человеческая эволюция создала настолько хорошую систему, что мы не осознаем, насколько она хороша. Если с вами одновременно разговаривают три человека, вы сможете сфокусироваться на одном сигнале и отбросить другие, даже если они громче. Шум тоже очень хорошо отбрасывается. Фактически, если вы слышите человеческий голос, воспроизводимый в обратном направлении, первые ступени слуховой системы отправят этот сигнал в другую область обработки, чем если бы это был реальный речевой сигнал, потому что система будет рассматривать его как «безголосый». Это пример выдающихся способностей людей.

Распознавание речи быстро продвинулось с 70-х годов, потому что исследователи изучали производство голоса. Это более простая система: голосовые связки возбуждены или нет, резонанс голосового тракта ... это механическая система, которую легко понять. Основным продуктом этого подхода является кепстральный анализ . Это привело к достижению приемлемых результатов с помощью автоматического распознавания речи (ASR). Но это неоптимальный подход. Разделение шума довольно плохое, даже когда оно работает более или менее в чистой окружающей среде, оно не будет работать с громкой музыкой в ​​фоновом режиме, в отличие от людей.

Оптимальный подход зависит от понимания слуховой системы. Его первые стадии в улитке, нижнем холмике ... но также задействован мозг. И мы не так много знаем об этом. Это сложная смена парадигмы.

Профессор Хайнек Хермански в статье сравнил текущее состояние исследований с тем, когда люди хотели летать. Мы не сделали не знаю, в чем секрет - перья? хлопающие крылья? - пока мы не обнаружили силу Бернулли.

40
ответ дан 1 December 2019 в 17:10
поделиться
Другие вопросы по тегам:

Похожие вопросы: