Высококачественный, эмоциональный, плавный и гибкий механизм преобразования текста в речь?

Посмотрев на некоторые сервисы / инструменты, я пришел к выводу. Большинство инструментов преобразования текста в речь имеют слишком сложные, роботизированные - другими словами, голоса плохого качества.

И да, вдобавок ко всему, похоже, что они поставляются с «жестко запрограммированными» голосовыми шаблонами, поэтому сокращение разнообразие / индивидуальность. Некоторые инструменты позволяют вам установить скорость и высоту чтения », но этого недостаточно.

Я предполагаю, что проблема, лежащая в основе эмоционального аспекта - сложно судить об эмоциях по простому тексту, тем более, если это всего лишь одно или два предложения. Кроме того, старый добрый ПК - это машина - машины не обладают эмоциями, но это уже другая история.

Больше всего меня беспокоит качество. Например, существуют инструменты, которые срезают верхнюю часть слов, что приводит к появлению техничных голосов. Похоже, возникла проблема с построением предложения или что-то в этом роде. И да, пока люди работают над такими инструментами, мне интересно, что мешает им еще немного поработать над их улучшением ... отрезать верхушку, это немаловажное дело! Кроме того, нужно иметь в виду, что хорошее, качественное программное обеспечение для преобразования текста в речь стоит, ну ... МНОГО! В результате получается довольно прибыльный продукт.

О, за беглостью я скрываю вопросы, восклицания и так далее. (Возможно, это не относится к беглости речи, но я не являюсь родным английским, пожалуйста, извините меня, если это так.)

Список инструментов, которые я изучил:

Впечатляет, но все же есть место для улучшений (++)

- Локендо : не хватает разнообразия голоса, есть некоторые незначительные проблемы с апексом / беглостью (зависит от предложения), слишком много кашля и оправданий в примерах!
- Nuance Vocalizer : хотя по-прежнему не хватает разнообразия, некоторые из предоставленных голосов достойны.


Можно также сотрудничать, чтобы получить больше ресурсов, чем работать над разными, но почти одинаковыми продуктами (-)

- eSpeak : один из лучших роботов, отсюда и логотип программы (?!)
- Natural Reader (тупой автовоспроизведение !!) : хорошо, у него есть некоторая беглость, но все же возникает чувство техничности.
- iSpeech : добрый смех при установке японского голоса с английским текстом. Держу пари, японские парни не очень довольны этим.
- Cepstral + Enhanced Voices ... плюс улучшенные голоса дают старый добрый дерьмовый результат, так что, кроме ~ 5 голосов, ничего не улучшено.
- AT&T : неплохая беглость, но проблемы с окончанием предложений и слишком много робо!
- LumenVox TTS : выглядит как будто исходит из фона с множеством речевых инструментов, но все же приводит к роботизированным голосам.
- И еще ...


Если я пропустил что-то стоящее, поделитесь. Может быть бесплатным, коммерческим, сверхдорогим ... пока это работает, мне интересно!

И вопрос ( -s ) ..

  1. Что вы думаете являются основными проблемами качества, беглости и разнообразия этих голосов? Поскольку эмоциональный аспект сложно оценить, я не возражаю, если вы пропустите его, но если у вас есть пара идей, я бы не стал возражать, если вы поделились своими мыслями
  2. Как текст превращается в речь? Например, какие алгоритмы используются в этих инструментах? Может быть, вам пригодятся две свежие теории.
  3. Действительно ли это разные движки / драйверы или просто разные голосовые шаблоны для одного и того же драйвера / движка?
  4. Это только я, или качество между одним из ] first Инструменты Text2Speech не изменились сильно (или совсем) за эти годы? И должен признать, что этот старый инструмент Apple дает лучшие результаты, чем некоторые инструменты 2000+ года, по крайней мере, при сравнении видео с тем, что я изучил.)

12
задан Community 23 May 2017 в 12:10
поделиться