Главная Обратная связь

Дисциплины:

Архитектура (936)
Биология (6393)
География (744)
История (25)
Компьютеры (1497)
Кулинария (2184)
Культура (3938)
Литература (5778)
Математика (5918)
Медицина (9278)
Механика (2776)
Образование (13883)
Политика (26404)
Правоведение (321)
Психология (56518)
Религия (1833)
Социология (23400)
Спорт (2350)
Строительство (17942)
Технология (5741)
Транспорт (14634)
Физика (1043)
Философия (440)
Финансы (17336)
Химия (4931)
Экология (6055)
Экономика (9200)
Электроника (7621)






Оценка разборчивости синтезированной речи



Для оценки разборчивости синтезируемой речи решаются следующие задачи:

- Получить численную оценку слоговой разборчивости синтезированных речевых клонов;

- Оценить вклад элементов компиляции различного фонетического количества в степень разборчивости синтезируемой речи;

- Сравнить результаты слоговой разборчивости синтезированных речевых клонов с результатами разборчивости речи, синтезируемой с использованием наилучших известных синтезаторов русской речи.

В экспериментах по определению слоговой разборчивости речи вычисляется субъективная оценка. Методика проведения эксперимента основывается на ГОСТ Р 50840-2000 «Передача речи по трактам связи. Методы оценки качества, разборчивости, узнаваемости». Для проведения экспериментов используются речевые клоны, синтезированные на основе созданных БД элементов компиляции: БД мужского голоса – БД –М и БД женского голоса – БД – Ж. Содержимое БД, использованных для синтеза речи, приведено в таблице 3.1.

Речевым материалом для тестирования являются слоговые артикуляционные таблицы, которые были синтезированы на основании баз БД-М и БД-Ж с соблюдением постоянного ритма и постоянного уровня речи и сохранены на цифровые носители в формате WAVE PCM с частотой дискретизации 22050 Гц и разрядностью 16 бит. Длительность пауз между слогами была приведена к значению 3 секунды. Кроме того, слоговые артикуляционные таблицы были синтезированы с использованием русскоязычного синтезатора речи компании Nuance. Значения ритма речи, уровня речи, длительности межслоговых пауз, а также формат сохранения были аналогичным указанным выше.

 

Таблица 3.1 – Содержимое фонетико-акустических БД для тестирования слоговой разборчивости

Название БД Содержимое БД
БД-М БД диктора Д1 (мужской голос), содержащая аллофоны, диаллофоны, аллослоги в количестве 6818 едениц
БД-Ж БД диктора Д2 (женский голос), содержащая аллофоны, диаллофоны, аллослоги в количестве 7073 единиц

 

Результаты эксперимента по оценке слоговой разборчивости синтезированной речи: степень слоговой разборчивости выражается через среднее значение разборчивости S для каждого измерения, которое вычисляется в несколько этапов. Начальное значение S вычисляется по формуле:

где Si – результат единичного измерения, % (диктор – таблица - аудитор), N – число единичных измерений.

Затем вычисляется среднее квадратическое отклонение (СКО) σ по формуле:

Где N – число единичных измерений, k – число исключенных измерений.

Результаты вычислений значений S для каждого из типов синтезируемых голосов, а также соответствующие классы качества представлены в таблице 3.2.

 

Таблица 3.2 – Классы качества синтезируемых голосов

Название БД или системы синтеза Слоговая разборчивость, % Класс качества
БД-М Высший
БД-Ж 1-ый
Nuance 2-ой

 



Эта страница нарушает авторские права

allrefrs.ru - 2018 год. Все права принадлежат их авторам!