Введение 6 Глава I. Основные методы, модели и алгоритмы распознавания речи Классификация систем распознавания речи Этапы распознавания

Save this PDF as:
Размер: px
Начинать показ со страницы:

Download "Введение 6 Глава I. Основные методы, модели и алгоритмы распознавания речи Классификация систем распознавания речи Этапы распознавания"

Транскрипт

1

2 2 Введение 6 Глава I. Основные методы, модели и алгоритмы распознавания речи Классификация систем распознавания речи Этапы распознавания речи Членение речевого потока Вычисление акустических признаков Сравнение со звуковыми моделями Способы определения произнесения слов не из словаря системы Языковые модели Выбор структуры системы Выводы 55 Глава 2. Построение моделей звуков речи и подготовка речевых баз Модели звуков речи Классификация звуков речи Именование звуков речи Структура скрытых Марковских моделей звуков речи Оптимизация структур моделей звуков речи Результаты моделирования Аннотирование речевой базы Основные этапы формирования аннотации Подготовительный этап Формирование идеальных транскрипций Предварительное обучение системы распознавания Транскрипционное моделирование Циклический этап Коррекция границ звуков Завершающий этап Особенности предложекнного способа Экспериментальная проверка Выводы 97

3 3 Глава 3. Статистическая модель речи Альтернативы Сущность статистической модели Общие положения Общая структура статистической модели Реализация статистической модели речи Генерация последовательностей Статистика о составе населения и ТД Генерация выборки звуков Определение длительностей звуков Наложение интонационных контуров Звуковые базы Аллофонная звуковая база Базы слитной речи Особенности статистической модели Области применения Синтез речи Оценка качества речевых сигналов Исследование свойств речевых сигналов Выводы 141 Глава 4. Моделирование длительности звуков речи Основные причины вариативности длительности звуков Зависимость вероятности появления фонем от их длительности Учет длительностей в алгоритме распознавания Оптимизация процесса распознавания Результаты экспериментов Развитие модели Результаты экспериментов на расширенной модели Выводы 167 Глава 5. Психоакустическая модель 169

4 4 5.1 Свойства звуковых сигналов и особенности их восприятия Чувствительность слухового анализатора Амплитудное распределение Временные свойства слухового анализатора Эффекты маскировки и критические полосы слуха Временные характеристики речевого сигнала Реализация психоакустической модели Применение психоакустической модели в распознавании речи Выводы 203 Глава 6. Речевая аналитика Возможные подходы к построению системы Основные элементы разработанной системы поиска ключевых слов Минимизация фонетической сети Режимы работы системы Критерии оценки качества системы Результаты тестирования Выводы 222 Глава 7. Оценка качества передачи речевых сигналов Классификация методов оценки качества звука Обоснование необходимости разработки новых методов Метод AQuA Метод NIQA Метод RecQual Выводы 266 Заключение 267 Основные сокращения 273 Основные термины 275 Использованная литература 280

5 5 Приложения 298 Приложение 1. Дополнения к главе Способы вычисления признаков 298 Алгоритм обратного распространения ошибки 306 Оценивание параметров HMM 311 Алгоритмы определения произнесения слов не из словаря 317 Приложение 2. Дополнения к главе Примеры таблиц контекстов 322 Алгоритмы предварительной обработки 326 Алгоритмы изменения длительности и ЧОТ 335 Приложение 3. Дополнения к главе Восприятие речевых сигналов 348 Речевой сигнал 352 Процессы образования и восприятия речи 353 Эксперименты по восприятию 356 Критические полосы 358 Приложение 4. Дополнения к главе 6. Списки филлеров 362 Приложение 5. Акты о внедрении 372

6 Введение 6 Десятилетиями ученые и инженеры искали способы, которые позволили бы общаться человеку с компьютером на естественном языке. Но до 50-х годов XX века термин "диалог" относился только к разговору двух людей. В июне 2006 г. в Санкт-Петербурге прошла XI Международная конференция SPECOM'2006. На ее официальном открытии «профессор Лоуренс Рабинер отметил, что исследователи речевых технологий прошли долгий путь, но, несмотря на успехи, достигнутые в этой области, проблему автоматического распознавания речи еще нельзя считать решенной» [70]. В начале 1920-х стали появляться машины распознания. Первая машина для распознания речи, представлявшая собой игрушку, была разработана в 1920 г. По коммерческим соображениям она была названа «Радио-Король» [185]. Первые попытки серьезных исследований в области распознавания речи относятся к 40-м годам прошлого века. Связаны они с появлением спектральных анализаторов электрических устройств, способных анализировать спектральные характеристики звуков речи. В СССР было создано первое техническое устройство, позволявшее распознавать гласные русского языка на основе спектрального анализа [108, 109]. Распознавание ограниченного подмножества фонем продолжилось в 50-е годы. Одной из наиболее успешных работ была работа Форджи [174], создавшего установку для распознавания 10 английских гласных, произносимых различными голосами. Установка содержала 35-полосный спектральный анализатор, выполняла двухступенчатый формантный анализ и обеспечивала точность распознавания до 93%. Установка, разработанная Динессом [164], была способна распознавать подмножества нескольких гласных и согласных в словах, составленных из этих звуков. В установке использовался формантный анализ и учитывалась длительность звуков. При классификации (точность которой для конкретного

7 7 голоса составляла 72%) учитывались вероятности следования фонем друг за другом. К концу 50-х годов был накоплен большой исследовательский материал, свидетельствовавший о сложной природе соответствия между структурой речевого потока и последовательностью воспринимаемых звуков. Стало ясно, что в общем случае фонемы (аллофоны) не являются стационарными участками речи, а представляют собой последовательности более коротких, возможно неоднородных, участков. Основной вывод, сделанный на этом этапе исследований, заключался в том, что распознавание речи не может быть построено на основе небольшого набора эталонов, соответствующих отдельным фонемам данного языка. В 60-х годах стало ясно, что попытка моделирования естественной способности человека к восприятию и пониманию речевых сообщений представляет собой сложную задачу, решение которой требует новых знаний. В результате исследования в области распознавания речи разделились на два направления: распознавание ограниченного набора команд; распознавание слитной речи. Разработчики систем распознавания команд использовали две основных стратегии. В рамках первой стратегии слова распознавались как единый слуховой образ, во второй разделись на последовательность временных сегментов. В качестве примера реализации первой стратегии приведем установку Хирамацу [145], распознававшую названия цифр. В качестве признаков использовались: наличие смычки, средняя частота первой форманты первой гласной и ее производная, средняя частота второй форманты второй гласной и ее производная, количество слогов в слове и др. На основе статистической обработки множество векторов признаков было разбито на 10 групп, соответствующих командам. Средняя точность распознавания с голосов 100 дикторов составила более 98%.

8 8 Разработка систем, работающих на основе первой стратегии, не требует глубоких знаний о структуре речи. Основные проблемы это количество различаемых слов, выбор системы признаков и меры сходства распознаваемых слов с эталонами. При разделении слов на последовательность векторов параметров основную трудность представляет описание речи во временной области. Для сравнения слова с эталоном необходимо с помощью всевозможных растяжений/сжатий совместить его с эталоном. На начальном этапе наблюдалось большое разнообразие подходов к решению этой проблемы. Так в работе Девиса [125] классификация осуществлялась на основе оценки корреляции формантных траекторий на плоскости формантных частот, Дадли [129] использовал сравнение с эталонными векторами, а в работах Трунина-Донского [83] использовались комбинированные методы классификации. В конце 60-х годов для решения проблемы временной деформации был применен метод динамического программирования [30]. Применение динамического программирования оказалось весьма успешным. Оно избавило разработчиков от создания сложных логических правил классификации и позволило увеличить словарь командных систем распознавания до сотен слов. В результате анализа накопленного материала, исследователи распознавания слитной речи пришли к ряду важных выводов о необходимости: отказа от распознавания слов как целостных звуковых образов. Стало ясно, что необходимо распознавать звуковые единицы, меньше слов (например, фонем или слогов); учета фонетических, синтаксических и семантических ограничений, определяющих возможные структуры речевых сообщений; наличия соответствующего уровня развития компьютерной техники и математического обеспечения. Значительный вклад в исследования в области распознавания слитной речи были сделаны в гг. в результате выполнения государственной

9 9 программы США ARPA (Advanced Research Projects Agency), объявленной министерством обороны [5]. Перед исследователями ведущих научных центров США была поставлена задача разработки дикторонезависимой системы распознавания слитной речи на основе словаря не менее тысячи слов. Распознаваемые высказывания должны были принадлежать к ограниченному набору синтаксических конструкций, типичных для некоторых конкретных областей практической деятельности (например, при поиске документов в базах данных). Исследователи пошли по пути увеличения влияния лингвистической составляющей на процесс распознавания речи. В результате в 1976 г. на тестирование было представлено несколько прототипов систем. Лучшей из них была признана система HARPY, разработанная Университетом Карнеги- Меллона, правильно распознававшая 95% предложений произносимых пятью операторами, использовавшая словарь объемом 1011 слов и строго ограниченную грамматику. Прототипом для HARPY стала небезызвестная разработка компании Dragon Systems [92]. В HARPY была усовершенствована сетевая структура представления лингвистических знаний, использовавшаяся в предшественнице. Сеть слов, узлами которой являлись слова словаря, определяла все допустимые способы построения фраз. Узлы слова расширялись фонетическими транскрипциями и образовывали последовательности звуковых моделей, участвующих в распознавании. Система HARPY экспериментально подтвердила возможность использования лингвистических ограничений в распознавании слитной речи [153]. Также было отмечено, что низкий процент звукового распознавания не может в полной мере компенсироваться моделированием языковых структур. Другим значимым результатом программы стало создание больших речевых баз, успешно применяемых в последующих разработках. Исследования, активно проводившиеся в 70-е годы, заложили основы методов, применяемых в современных системах распознавания.

10 10 Одна из первых систем распознавания русской речи была разработана компанией IBM в 1996 году [148]. Лингвистическая модель системы основывалась на триграммах и фонетических подгруппах. В состав системы также входил фонетический транскриптор. Испытания системы прошли успешно, но дальнейшего развития система не получила из-за отсутствия в то время спроса на системы распознавание русской речи. В рамках совместного проекта Intel Corporation и ВНИИЭФ-СТЛ (Нижний Новгород) в 2001 году была разработана система распознавания слитной речи SDT (Speech Developer Toolkit) [25]. Система была ориентирована на работу с большим словарем и позволяла проводить адаптацию к диктору. На базе SDT были созданы системы распознавания английской, китайской и русской речи. Но и эта разработка оказалась невостребованной. В результате совместного проекта компаний Force-IT и CompTek на базе системы распознавания речи SpeechPearl компании Philips (теперь Nuance Communication) в июне 2004 был создан голосовой портал VPost.ru [3, 4]. Портал предоставлял информационные и развлекательные услуги в голосовом режиме. Данный сервис стал первой в России коммерческой системой массового обслуживания, в которой поддерживается функция распознавания речи. Вопросами общения человека с компьютером (или человека с человеком посредством компьютера) на естественном языке в звуковой форме занимается одно из направлений информационных технологий речевые технологии. Бурное развитие речевых технологий вызвано насущными потребностями современного общества в решении практических задач от создания голосовых интерфейсов к информационным системам до инструментов, используемых службами безопасности. Речевые технологии сегодня это целый комплекс направлений компьютерной обработки речи человека (синтез и распознавание речи, идентификация диктора по голосу, изменение тембра голоса и т.п.).

11 11 Практические задачи решаются на основе исследований и разработок программных (и аппаратных) систем синтеза, анализа и распознавания речи. Живая человеческая речь значительно отличается от всех технических звуковых сигналов. Для ее автоматической обработки недостаточно традиционных способов обработки сигналов необходимо учитывать свойства восприятия и образования речи человеком. На сегодняшний день российский рынок программных средств распознавания речи представлен единичными разработками. В России было создано лишь несколько коммерческих систем распознавания русской речи. В основном они обеспечивают распознавание небольшого словаря (до 200 слов) и рассчитаны на организацию речевых запросов к базам данных и для голосового управления оборудованием. В таблице приведены наиболее известные из этих систем [69]. Таблица Коммерческие системы распознавания русской речи Система Разработчик Страна Характеристика системы VoiceLock, Горыныч White Computers Россия VoiceCom ЦРТ Россия IstraSoft Voice ИстраСофт Commander Sakrament Engine ASR Сакрамент Россия SpeechPearl Nuance США NSC Natural ASR NSC Google Translate Google и Google Voice Белоруссия Израиль США Дикторонезависимое распознавание до слов, точность распознавания 70% Дикторозависимое распознавание команд (точность до 98%), дикторонезависимое распознавание команд Дикторозависимое распознавание 45 команд. На малом словаре точность 98% Дикторозависимый и дикторонезависимый режимы. В зависимости от словаря точность 95-98% Дикторозависимый и дикторонезависимый режимы. В дикторонезависимом режиме до 1.5 миллионов слов. Поиск слов по их фонемной записи. Дикторонезависимый поик ключевых слов. Данные о качестве работы продуктов NSC отсутствуют. Дикторонезависимое преобразование речи в текст. Составить объективную картину по существующим промышленным продуктам в области распознавания речи не представляется возможным. Коммерческие организации, как правило, либо не указывают параметры на-

12 12 дежности работы или же предоставляют данные, которые носят не объективный, а рекламный характер. Следует признать, что представленные на сегодняшний день на российском рынке системы распознавания русской речи либо не позволяют в полной мере решать все задачи организации интерактивных голосовых сервисов, либо не позволяют делать этого с должным качеством. Необходимо также отметить существование ряда некоммерческих проектов с открытым исходным, предоставляющих набор базовых инструментов для построения систем распознавания речи. К ним относятся: HTK - система, разработанная в Кембриджском университете (Англия); система Sphinx, созданная в университете Карнеги-Меллона (США); и система Kaldi, начатая в университете Джона Хопкинса (США) и продолженная в Технологическом университете Брно (Чехия). Однако все они не ориентированы на распознавание русской речи. Это объясняется отсутствием необходимой теоретической базы, позволяющей решать задачи организации интерактивных голосовых сервисов с должным качеством. На современном этапе развития информатизации страны в связи с отсутствием теоретических основ распознавания русской речи с учетом особенностей строения и восприятия речевого сигнала возникает сложная научная проблема разработки и обоснования обобщенного описания методов и моделей распознавания русской речи. Таким образом, тема исследования является актуальной. Теоретические и практические предпосылки к проведению данного исследования развиты в работах ученых И.А. Алдошиной, П.А. Скрелина, В.Н. Сорокина, А.Л. Ронжина, В.И. Галунова, А.В. Аграновского и других исследователей. Цель работы: Целью диссертационной работы является повышение качества распознавания русской речи в информационных системах путем

13 13 создания новых методов, моделей и алгоритмов, основанных на углубленных знаниях о свойствах русской речи. Для достижения цели в диссертационной работе поставлены и решены следующие задачи: 1. Разработка моделей звуков речи на основе структуры звуковой волны. 2. Разработка модели длительности звуков речи. 3. Создание звуковых баз данных. 4. Исследование вариативности произнесения слов русской речи. 5. Исследование особенностей восприятия звуковых сигналов человеком. 6. Разработка модели усредненной речи для распознавания. 7. Создание методов оценки качества передачи речи. 8. Экспериментальная проверка предложенных методов, моделей и алгоритмов их реализаций на комплексе программных средств распознавания речи. Объект исследования. Русская речь. Предмет исследования. Методы, алгоритмы и методики распознавания русской речи. Методы исследования. В диссертационной работе использованы методы: теории информации; теории множеств; теории вероятности, экспертного и статистического анализа; теории графов; распознавания образов; интеллектуального анализа данных, обработки текстовой информации; распознавания человеческой речи; цифровой обработки сигналов; психоакустики; объектноориентированного программирования. На защиту выносятся: 1. Модель длительности звуков речи; классификация и модели звуков русской речи, учитывающие структуру звуковой волны, их применение для распознавания речи. 2. Концепция статистической модели речи и метод транскрипционного моделирования вариативности произнесения слов русской речи; их применение для построения универсальных речевых баз.

14 14 3. Психоакустическая модель восприятия звуковых сигналов человеком и ее применение в распознавании речи и оценке качества передачи речи. 4. Модель усредненной речи и средства минимизации фонетической сети для поиска ключевых слов и распознавания речи. 5. Методы и программные средства оценки качества передачи речи. Научная новизна. В работе исследована новая предметная область: применение методов и моделей распознавания речи, основанных на знаниях свойств речевого сигнала и особенностей его восприятия. Наиболее важные результаты, составляющие научную новизну: 1. Разработана, экспериментально обоснована и исследована статистическая модель длительностей звуков русской речи, дающая дополнительные возможности повышения качества распознавания речи; а также разработаны модели звуков русской речи, учитывающие структуру звуковой волны и открывающие широкие возможности повышения точности описания звуков в системах распознавания речи; 2. Разработана концепция статистической модели речи, представляющей собой универсальную речевую базу данных и знаний современного состояния языка, позволяющая проводить фундаментальные исследования и решать прикладные задачи. 3. Предложен метод транскрипционного моделирования, основанный на комплексном использовании теоретических предпосылок и экспериментальных данных, позволяющий с высокой степенью достоверностью определять звуковой состав произносимых высказываний; 4. Разработаны метод и программные средства автоматизации аннотирования речевых баз данных, позволяющие существенно повысить эффективность процесса разработки; 5. Предложена психоакустическая модель, основанная на теории восприятия звука человеком, расширяющая возможности предварительной обработки звукового сигнала для исключения из него компонент, несущественных для восприятия;

15 15 6. Разработаны модель усредненной речи и методика ее построения, основанная на автоматизированном обучении по речевой базе, позволяющие унифицировать построение антимоделей в системах поиска ключевых слов и снизить количество ложных срабатываний; предложены средства минимизации фонетической сети, позволяющие повысить скорость работы систем распознавания и поиска ключевых слов; 7. Разработаны методы и программные средства оценки качества передачи речи, позволяющие контролировать качество речевого сигнала; 8. В результате экспериментальных исследований с применением разработанных программных средств доказана эффективность предложенных методов, моделей и алгоритмов. Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечивается за счет всестороннего анализа состояния исследований в данной области, подтверждается корректностью предложенных моделей, результатами тестов, апробацией основных теоретических положений диссертации в печатных трудах и докладах на международных научных конференциях, результатами опытной эксплуатации и внедрения разработанных программных средств. Практическая ценность работы. Разработанные и предложенные в данной работе методы и алгоритмы дают возможность: проводить анализ речевых данных; создавать системы распознавания речи и поиска ключевых слов с высокой точностью; повысить эффективность служб безопасности и аналитики бизнеса; повысить уровень автоматизации и качества обслуживания пользователей информационных систем; понизить нагрузку на операторов экстренных служб; автоматизировать классификацию звуковых архивов; ускорить работу операторов колл-центров; развивать смежные области, например, определение качества передачи

16 16 речи и определение языка диктора. Реализация результатов работы. Результаты работы были использованы при реализации проекта по созданию программного обеспечения голосовых ресурсов в ООО НПФ «Беркут» - на основе упрощенной статистической модели речи был создан компактный синтезатор речи по тексту, работающий в микроконтроллере. Разработанные программные средства внедрены: в ООО «Новавокс» в системе повышения качества обслуживания звонков Novavox Smartphone Speech Attendant, позволяющей вести диалог с абонентом, распознавая и синтезируя человеческую речь; в ООО «Сарапульские системы» при создании программного обеспечения «Словоискатель», выполняющего поиск ключевых слов, при создании модулей предварительной обработки, параметризации и распознавания звуковых данных; в программном обеспечении автоматизированной системы самообслуживания лаборатории 17 ИПУ РАН, представляющим собой электронного секретаря, направляющего входящий звонок на нужного сотрудника по его фамилии имени и отчеству. Исследования, отраженные в диссертации, реализованы при создании комплекса обработки мультимедийной информации «Буква-2» во ФГУП «НИИ «Квант». В компонентах системы, отвечающих за распознавание слитной речи, использованы модели звуков речи, учитывающие структуру звуковой волны, и модель длительности звуков речи. Результаты исследований внедрены в учебном процессе на кафедре информатики и компьютерного дизайна СПбГУТ. Имеющиеся акты о внедрении приведены в приложении 5. Апробация работы. Результаты работы докладывались на: 57 юбилейной НТК профессорско-преподавательского состава научных сотрудников и аспирантов ГУТ; на 11 международной конференции SPECOM'2006 в 2006; на 58 НТК профессорско-преподавательского состава научных сотрудников и аспирантов ГУТ в 2006; на 12 международной конференции SPECOM'2007 в 2007; на IV международном конгрессе "Нейробиотелеком-2010" в 2010 году;

17 17 на II Международной научно-технической и научно-методической конференции «Актуальные проблемы инфотелекоммуникаций в образовании и науке» в 2013; на 3-й Международной научно-практической конференции «Современное машиностроение» в 2013; на VIІI Международной научнопрактической конференции «Перспективные вопросы мировой науки 2013» в 2013; на X Международной научно-практической конференции «Наука и образование 2013/2014» в 2014; на III Международной научнотехнической и научно-методической конференции «Актуальные проблемы инфотелекоммуникаций в образовании и науке» в В 2006 году проекты «Разработка развивающей игры «говорящие кубики»» и «Разработка статистической модели русского языка» вышли в финал конкурса Русских Инноваций Публикации. По теме диссертации опубликовано 39 научных работ, из них: 2 монографии и 16 работ в изданиях, находящемся в перечне ВАК (4 патента на изобретения, 2 патента на полезные модели, 3 свидетельства о регистрации программы для ЭВМ и 7 статей). Структура и объем диссертации. Диссертация состоит из введения, семи глав, заключения, списка литературы, включающего 189 наименования и пяти приложений. Работа изложена на 297 страницах, содержит 118 рисунков, 54 таблицы, объем приложений составляет 80 страниц. В главе 1 «Основные методы, модели и алгоритмы распознавания речи» проведен анализ основных методов, моделей и алгоритмов распознавания, применяемых в наиболее распространенных системах распознавания, и выявлена необходимость их усовершенствования для повышения адекватности описания реального речевого сигнала. Предложена классификация систем распознавания речи, позволяющая упростить последующий выбор структуры создаваемого программного обеспечения. В главе 2 «Построение моделей звуков речи и подготовка речевых баз» рассматриваются вопросы классификации звуков речи, и предлагается их классификация по артикуляционным признакам и особенностям строения ре-

18 18 чевого сигнала. Для выделенных классов звуков разработаны структуры моделей. Предложен способ автоматизации аннотирования речевых баз данных, позволяющий учитывать вариативность произнесения слов дикторами. В главе 3 «Статистическая модель речи» предложена концепция универсальной речевой базы данных статистической модели речи, рассматривается реализация упрощенного варианта модели и возможные варианты ее практического применения. В главе 4 «Моделирование длительности звуков речи» исследованы основные причины вариативности длительности звуков речи, предложена модель длительностей звуков речи и алгоритм учета длительности звуков в процессе распознавания речи. Представлены результаты экспериментов, подтверждающие эффективность предложенной модели длительностей звуков речи и алгоритма учета длительности звуков в процессе распознавания речи. В главе 5 «Психоакустическая модель» исследованы свойства звуковых сигналов и особенности их восприятия человеком. Предложена психоакустическая модель, учитывающая особенности восприятия звуковых сигналов человеком. Приведены результаты экспериментов по распознаванию, подтверждающие эффективность психоакустической модели и разработанного психоакустического фильтра. В главе 6 «Поиск ключевых слов» изучены различные подходы к построению систем поиска, проанализированы их особенности, определены основные компоненты разработанной системы поиска ключевых слов. Создан общий алгоритм работы системы, предложены способы формирования, оптимизации внутренних структур данных. Введены основные критерии оценки качества системы поиска ключевых слов и приведены результаты тестирования системы. В главе 7 «Оценка качества передачи речевых сигналов» проведен анализ основных стандартных методов оценки качества передачи речевых сигналов. Предложены методы (AQuA, NIQA и RecQual), представляющие собой альтернативу стандартным методам оценки качества, зафиксирован-

19 19 ным в рекомендациях ITU-T P.861, P.862 и P.863. Приведены результаты экспериментов и сравнение предложенных методов со стандартными. Показана эффективность предложенных методов. В приложении 1 приведены сведения дополняющие главу 1. В приложении 2 приведены сведения дополняющие главу 3. В приложении 3 приведены сведения дополняющие главу 5. В приложении 4 приведены сведения дополняющие главу 6. В приложении 5 приведены копии полученных актов о внедрении. Заключение по результатам проведенных исследований и разработок В диссертации содержится постановка и решение крупной научной проблемы создание теоретических основ распознавания русской речи с учетом особенностей строения и восприятия речевого сигнала и на этой основе разработка методов и моделей распознавания русской речи в информационных системах, имеющей важное хозяйственное и культурное значение. Получены следующие основные результаты, обеспечивающие достижение цели диссертационного исследования: 1. Разработана, экспериментально обоснована и исследована статистическая модель длительностей звуков русской речи; разработаны классификация и модели звуков русской речи, учитывающие структуру звуковой волны, использованные в разработанных программных средствах распознавания речи и поиска ключевых слов. 2. Разработана концепция статистической модели речи, представляющей собой универсальную речевую базу данных и знаний современного состояния языка, позволяющая проводить фундаментальные исследования и решать прикладные задачи. 3. Предложен метод транскрипционного моделирования, позволяющий учитывать вариативность звукового состава произносимых высказываний в системах распознавания речи и при подготовке речевых баз данных.

20 20 4. Разработаны метод и программные средства автоматизации аннотирования речевых баз данных, сокращающие долю ручного труда по обработке и анализу исходных звуковых данных. 5. Предложена психоакустическая модель и программные средства предварительной обработки звукового сигнала, позволяющие исключить из его дальнейшего анализа компоненты, несущественные для восприятия. 6. Разработаны модель усредненной речи и методика ее построения, основанная на автоматизированном обучении по речевой базе, экспериментально подтверждена эффективность их применения для поиска ключевых слов. 7. Разработаны методы и программные средства оценки качества передачи речи, позволяющие контролировать качество речевого сигнала, в том числе и с использованием средств распознавания речи. 8. В результате экспериментальных исследований с применением разработанных программных средств подтверждена эффективность предложенных методов, моделей и алгоритмов распознавания, анализа и обработки речевых сигналов. Полученные результаты соответствуют паспорту специальности «Системный анализ, управление и обработка информации (связь и информатизация)».

21 Глава 1 Основные методы, модели и алгоритмы распознавания речи Классификация систем распознавания речи Обычно структуру системы распознавания речи выбирают исходя из сложности решаемой задачи. Выбор осложняется многообразием возможных технических решений на различных уровнях системы. Упростить задачу выбора структуры системы позволяет ее предварительная классификация по ряду признаков, наборам которых могут соответствовать «шаблонные» решения. В качестве признаков используют: тип речи, распознаваемый системой; зависимость системы от распознаваемых голосов дикторов; степень детализации эталонов; количество распознаваемых слов [19, 58]. В [19] вводится понятие полноты словаря, и задачи поиска ключевых слов интерпретируются, как распознавание с неполным словарем. А в [64] предлагаются иные классификационные признаки: назначение системы, ее потребительские свойства и механизмы функционирования. По типу речи различают системы распознавания команд и слитной речи. В первом случае требуется специальное (дискретное) произнесение слов (команд), при котором паузы между словами значительно превышают внутрисловные паузы. Обычно длительность такой разделительной паузы составляет полсекунды. При распознавании слитной речи пользователь может произносить слова фраз естественно, не делая специальных пауз между словами. Существует и третий вариант работы системы распознавания, при котором система должна обнаруживать произнесение заданных слов в звуковом потоке, независимо от того выделены они паузами или произнесены в окружении других слов. Такой режим распознавания называется режимом поиска ключевых слов.

22 22 По степени зависимости системы от распознаваемых голосов дикторов различают дикторозависимые и дикторонезависимые системы. Первые требуют предварительного обучения (адаптации) к голосу пользователя системы, вторые готовы к работе сразу после установки. Дикторозависимые системы обеспечивают более высокую точность распознавания с голоса основного пользователя системы, чем с любых других голосов. Третий тип систем системы, автоматически настраивающиеся на голос диктора по мере их использования. По степени детализации эталонов различают системы, использующие в качестве эталонов целые слова и части (монофоны, трифоны, слоги и т.д.) слов. Первые обеспечивают более высокие точность и скорость сравнения, но накладывают значительные ограничения на объем и открытость словаря. По количеству распознаваемых слов (или объему словаря) можно выделить две категории: системы с малыми (обычно, до 100 слов) и большими словарями. В системах с малым словарем есть возможность прямого обучения для каждого слова. В системах с большим словарем такой возможности нет. С точки зрения выбора структуры системы представляется целесообразным использование такого классификационного признака, как тип грамматики, определяющего структуру распознаваемых высказываний. По типу грамматики системы распознавания речи можно разделить на три класса: командные, с фиксированной грамматикой и системы диктовки. Командные системы ориентированы на распознавание отдельных слов и/или фраз, включаемых в словарь системы в качестве отдельных элементов. Командные системы не предусматривают возможность распознавания комбинаций элементов словаря. В системах с фиксированной грамматикой грамматика определяет допустимые комбинации элементов словаря. «Фиксированность» грамматики не означает, что система может работать только с одной, заданной грамматикой грамматика фиксируется в рамках одной сессии распознавания.

23 23 В системах диктовки грамматика, как таковая, отсутствует. Допустимые комбинации элементов словаря определяются не грамматикой, а правилами более общего характера, называемыми языковой моделью. Приведенную классификацию можно представить в виде таблицы 1.1: Таблица 1.1 Признаки классификации систем распознавания речи Степень Зависимость от Объем Признаки Тип речи детализации диктора словаря эталонов Классы систем Тип грамматики Команды Дикторозависимые Слова Малый Командная Слитная Элементы Дикторонезависимые Большой Фиксированная речь слов Ключевые Автоматическая настройка Диктовка слова Использование данной классификации упрощает разработку структуры системы распознавания, т.к. для каждого класса имеется набор стандартных решений. Определившись с классом можно определиться с базовым комплектом методов, моделей и алгоритмов. 1.2 Этапы распознавания речи В общем случае распознавание разделяется на пять основных этапов: членение речевого потока, вычисление акустических признаков, сравнение признаков со звуковыми моделями (распознавание слов), определение произнесения слов не из словаря системы, языковое моделирование. Для каждого этапа распознавание характерно применение определенного набора методов, моделей и алгоритмов обработки речевого потока. На рисунке 1.1 представлено соответствие между этапами распознавания и основными методами алгоритмами, применяемыми на них. Рассмотрим подробнее, перечисленные методы и алгоритмы.

24 24 Этапы распознавания Членение речевого потока Вычисление акустических признаков Сравнение со звуковыми моделями Определение произнесения слов не из словаря Языковое моделирование Методы и алгоритмы обработки Старт-стоповый метод Алгоритмы VAD Фильтрация выбросов VAD Спектральное описание Кепстральные коэффициенты PLP коэффициенты Автокорреляционная функция Коэффициенты линейного предсказания Нули интенсивности и кратковременная энергия Формантный анализ Эвристический подход Нейронные сети Марковское моделирование Оценки правдоподобия Простые характеристики Апостериорная вероятность Отношения правдоподобия Манипуляции со словарем и грамматикой Оптимизация словаря Модели заполнения N-граммы Деревья решений Формальные языки Рисунок 1.1 Соответствие этапов распознавания методам и алгоритмам обработки речи Членение речевого потока Одним из условий надежного распознавания речевых фрагментов является точное определение их границ. При высоких значениях соотношения сигнал/шум (30 дб и более) выделение не представляет технических трудностей и может выполняться пороговым старт-стоповым методом. Однако, в большинстве реальных задач соотношение сигнал/шум значительно ниже и требуется применение специальных методов определения речевой активности. Обычно используются известные алгоритмы определения речевой активности (VAD), подробно описанные в рекомендациях ITUT [98, 99] и их модификации. Дополнительно могут применяться алгоритмы фильтрации выбросов VAD [45]. Дальнейшее членение выделенных речевых фрагментов на аллофоны (слова, синтагмы или фразы) представляется весьма затруднительным и неоднозначным. Это объясняется отсутствием явных физических границ между элементами речевого потока. Детальная сегментация может быть выполнена при участии более высоких уровней системы распознавания речи Вычисление акустических признаков Под акустическими признаками понимают совокупность параметров, используемую при распознавании. Несмотря на многолетние исследования,

25 25 до сих не найдено набора акустических признаков, позволяющего выполнять последовательную классификацию неизвестных звуков. Обычно к системе признаков предъявляются следующие требования [23]: 1) Информативность, то есть набор признаков должен обеспечивать надежную различимость распознаваемых элементов речи; 2) Минимизация объема, то есть максимальное сжатие звукового сигнала и статистическая некоррелированность параметров; 3) Независимость от диктора, то есть максимально возможное удаление информации, связанной с индивидуальными особенностями диктора; 4) Однородность, то есть параметры должны в среднем иметь одинаковую дисперсию; 5) Возможность применения простых метрик для определения близости между наборами признаков, при этом близость участков звука на слух должна быть согласована с близостью в смысле этой метрики. Одновременное выполнение всех требований не всегда возможно, поскольку сами требования противоречивы: с одной стороны, параметрическое описание речевых элементов должно быть достаточно подробным для их надежного различения, с другой максимально компактным. В приложении 1 приводятся описания различных способов вычисления признаков Сравнение со звуковыми моделями После того как определены информативные признаки (признаки, позволяющие различать речевые фрагменты с высокой вероятностью), можно приступать к распознаванию речи. Для распознавания необходимо иметь образцы (модели) всех распознаваемых речевых фрагментов и уметь сопоставлять с ними входящий речевой поток. Существует несколько подходов к классификации и распознаванию.

26 26 При эвристическом подходе классификация осуществляется по максимальному сходству с моделью. Сходство определяется с помощью некой функции (метрики), служащей мерой близости параметров. Кроме выбора метрики возникает задача сравнения временных последовательностей секторов параметров, связанная с неустойчивостью временного масштаба речи. Второй подход заключается в моделировании процесса распознавания в биологических системах с использованием нейронных сетей. Нейронная сеть это математическая модель, воспроизводящая работу мозга с информационной точки зрения. Третий подход Марковское моделирование один из наиболее эффективных подходов к распознаванию речи, позволяющий устранять деформации темпа речи и оперировать моделями отдельных звуков речи. Эвристический подход Метрика это способ определения расстояния между параметрами входящего звукового потока и параметрами моделей звуков. Чем меньше расстояние, тем более похожими являются речевой сигнал и модель звука. От выбора метрики во многом зависит эффективность и точность распознавания. Наиболее общей мерой является метрика Минковского: = r N x i= 1 r 1 i x2i. (1.1) Положив в метрике Минковского r=2, получаем обычное евклидово расстояние или евклидову метрику: = N 2 ( x1 i x2i ). (1.2) i= 1

27 При r=1 метрика Минковского дает манхеттенское расстояние: 27 = N i= 1 x1 i x2i. (1.3) Устремив r к бесконечности, получаем метрику доминирования = max x1 i x2i, i = 1,2,..., N, (1.4) i совпадающую с супремум-нормой { x x }, i 1,2 N. (1.5) = sup 2 1 i i =,..., Для измерения тесноты связи между векторами признаков также могут использоваться коэффициент корреляционного отношения Фишера: = i= 1 N ( x x )( x x ) 1i 1 2i 2 i= 1 1 (1.6) N 2 N 2 ( x x ) ( x x ) 1i 1 i= 1 2i 2 и коэффициент корреляции Фехнера: C H = 1, где (1.7) C + H C количество совпадений знаков отклонений вариант от соответствующих средних, H общее количество несовпадающих знаков. Коэффициент корреляции Фишера целесообразно применять, если признаки имеют нормальное или приближенно нормальное распределение.

28 28 Нормализация темпа речи Одной из задач в распознавании речи является нейтрализация изменчивости темпа речи в процессе сравнения входящего речевого потока с моделями звуков. При сравнении необходимо совмещать соответствующие участки звуков, и только потом определять расстояния. В результате многочисленных экспериментов по нормализации темпа речи был сделан вывод о нелинейном характере деформаций темпа речи. В рамках эвристического подхода нормализация темпа речи осуществляется с использованием таких методов и алгоритмов, как динамическое программирование, градиентный спуск, нечеткое сопоставление образов, и т.д. Рассмотрим их подробнее. Динамическое программирование Идея метода динамического программирования состоит в разбиении задачи на подзадачи с последующим объединением их решений. Алгоритм, основанный на динамическом программировании, решает каждую подзадачу только один раз решение запоминается и используется далее без проведения повторных вычислений. Обычно динамическое программирование применяется к задачам оптимизации, которые могут иметь множество решений. Качество решения определяется значением целевого показателя. Требуется выбрать такое решение, при котором значение целевого показателя будет минимальным. В конце 60-х годов было предложено использовать динамическое программирование для измерения степени сходства между реализацией и моделью слова [30]. Впоследствии метод был распространен и на отдельные звуки речи. Алгоритмы динамического программирования основаны на использовании рекуррентных уравнений, учитывающих различные гипотезы о характере взаимных временных деформаций моделей звуков и распознаваемого

29 29 речевого потока. Наиболее часто используются рекуррентные уравнения, описывающие неограниченную деформацию: g g( i, j 1) + ( i, j) ( i, j) = min g( i 1, j 1) + 2 ( i, j) (1.8) g( i 1, j) + ( i, j) и двукратную деформацию: g g( i 1, j 2) + 2 ( i, j 1) + ( i, j) ( i, j) = min g( i 1, j 1) + 2 ( i, j), где (1.9) g( i 2, j 1) + 2 ( i 1, j) + ( i, j) g(i,j) целевая функция расстояния между распознаваемым речевым фрагментом и моделью; (i,j) расстояние между векторами признаков, вычисленное по выбранной метрике. В сравнении участвуют все фреймы модели и сигнала. Поиск пути может происходить только вправо и вверх в соответствии с рекуррентными уравнениями. Оценка расстояния по пути определяется как сумма расстояний по всем фреймам. Пояснить работу алгоритма динамического программирования можно с помощью рисунка 1.2. Обход начинается с точки (0, 0) и ведется снизу вверх по столбцам и заканчивается в точке (I, J) (с равным успехом возможен и обход по строкам). На каждом шаге наращивается индекс j, пока не будет достигнуто значение j = J. Далее наращивается индекс i. Для каждой точки (i, j) продолжается ближайший маршрут сравнения (в примере с неограниченной деформацией из точек (i-1, j-1), (i-1, j) или (i, j-1)). На каждом шаге вычисляется значение (i, j) и, в соответствии с рекуррентным уравнением, g(i, j). После всех итераций результирующая оценка будет сохранена в ячейке (I, J).

30 30 J J-1 j j i-1 i I-1 I Рисунок 1.2 Порядок решения рекуррентного уравнения, описывающего неограниченную деформацию Входящий речевой сигнал сравнивается со всеми моделями звуков. За результат принимается модель, ближайшая к входящему сигналу. Метод градиентного спуска Метод градиентного спуска это метод оптимизации функции многих переменных [54, 84]. Метод основан на том, что градиент функции в каждой точке направлен в сторону ее наискорейшего локального возрастания. Для поиска минимума функции необходимо спускаться в противоположном направлении. Таким образом, все последующие приближения функции получаются из предыдущих смещением в направлении, противоположенном градиенту. При сравнении модели и реализации звука оптимальную траекторию представляют последовательностью шагов, каждый из которых делается в направлении минимизации функционала. В качестве функционала используется метрика. При сравнении методом градиентного спуска может использоваться следующее уравнение

31 31 3 ( i + 2, j + 1) NG = arg min 2 ( i + 1, j + 1), (1.10) 3 ( i + 1, j + 2) соответствующее максимально возможному двукратному искажению времени. В уравнении (1.10) NG определяет пару приращений индексов i и j. Процесс построения траектории сходства показан на рисунке 1.3. Видно, что количество шагов не превышает длин модели и реализации. J j+2 j+1 j i i+1 i-2 I Рисунок 1.3 Определение расстояния между реализацией и моделью звука методом градиентного спуска Метод градиентного спуска требует меньшего (по сравнению с динамическим программированием) количества вычислительных ресурсов, однако он не гарантирует выявления оптимальной траектории. Кроме того, существует проблема конца траектории, т.к. в общем случае траектория заканчивается не в точке (I, J), а упирается либо в правую, либо в верхнюю границы. Это означает, что в результате применения алгоритма выполнено частичное сравнения модели и реализации. Для завершения сравнения может использоваться, например, метод штрафных функций при разрешении движения вдоль границ. Также за результат может приниматься взвешенное значение частичного сравнения.

32 32 Из-за своих недостатков метод градиентного спуска не получил широкого применения в системах распознавания речи. Основная область его применения встраиваемые системы реального времени. Кусочно-линейный метод Кусочно-линейный метод заключается в выявлении в сигнале некоторых опорных точек и совмещения с эталоном путем линейного растяжения и сжатия отрезков между опорными точками. В качестве опорных точек выбираются фрикативные звуки, глухие смычки и звуки с высокой громкостью. Метод находит применение в системах командного распознавания, т.к. для слитной речи весьма проблематично организовать выявление опорных сегментов и их совмещение с опорными сегментами в эталонах. В командных системах, для заранее определенного набора эталонов, положение опорных точек может быть определено с высокой вероятностью, что повышает точность распознавания. Нечеткое сопоставление образов В рамках метода нечеткого сопоставления эталонов в качестве единиц речи рассматриваются слова, произносимые изолированно. В основе метода лежит нечеткая функция принадлежности [51], формируемая на основе двоичных спектрально-временных образов слов (ДСВО). ДСВО получают из обычных спектрально-временных образов путем простановки единиц на месте локальных максимумов и нулей во всех остальных. Для каждого распознаваемого слова берется несколько вариантов реализаций. ДСВО подвергаются линейной временной нормализации и суммируются. Нечеткая функция принадлежности определяется как среднее арифметическое нормализованных ДСВО, относящихся к слову. Степень подобия S определяют с помощью выражения:

33 S j, y P 33 P ' j0 j0 =, где (1.11) ' Pjd Pj 0 Py Pj 0 = f t P m ( f, t), P y( f, t), (1.12) jd = j y = f t ' 0 m ( f, t) y( f t), P j0 m j ( f, t) * y( f, t), (1.13) P, j f t j = m j нечеткая функция принадлежности к слову j; y нормализованный к длительности слова j ДСВО распознаваемой команды; - обозначает произведение элементов m j и y; * - логическое произведение m j и y уровня α m j ( f, t) * y( f, t) 1, = 0 m m j f ( f, t) α & y( f, t) ( f, t) < α y( f, t) j t = 1 = 0. (1.14) За результат распознавания принимают слово, обладающее наибольшей степенью подобия. В результате исследований [27] было установлено, что метод нечеткого сопоставления обладает высоко устойчивостью к шуму, однако с временными деформациями не справляется. Нейронные сети Нейронная сеть это сеть с конечным числом слоев из однотипных элементов аналогов нейронов с различными типами связей между слоями [85]. Искусственные нейронные сети возникли на основе знаний о функционировании мозга живых существ. Они представляют собой попытку использования моделей биологических процессов в мозге для выработки новых технологических решений. Наиболее распространенной является модель нейрона МакКаллока- Питса (рисунок 1.4), предложенная в 1943г. [162]. Искусственный нейрон имитирует свойства биологического нейрона (рисунок 1.4). Он имеет группу синапсов однонаправленных входных связей, соединенных с выходами

34 34 других нейронов, а также аксон выходную связь, с которой сигнал поступает на синапсы следующих нейронов. Рисунок 1.4 Искусственный нейрон Сигналы синапсов умножаются на весовые коэффициенты, соответствующие синаптической силе. Все произведения суммируются, определяя уровень активации нейрона: s = n i= 1 x i w i. (1.15) Выход нейрона есть функция его состояния. Функция называется активационной. МакКаллок и Питтс [108, 162] предложили использовать пороговую активационную функцию, возвращающую 1, если уровень активации нейрона выше порога, и 0 в противном случае. Они доказали, что совокупность параллельно функционирующих нейронов способна выполнять универсальные вычисления, при правильно подобранных весах. На практике часто используется логическая (сигмоидальная) функция вида: f ( s), где (1.16) αs 1 = 1 + e α параметр, определяющий форму функции активации, задаваемый пользователем.

35 35 Нейронная сеть может рассматриваться как граф с взвешенными связями, в котором нейроны являются узлами. Но не всякое соединение нейронов работоспособно и целесообразно. Существует несколько работающих и реализованных программно архитектур нейронных сетей (рисунок 1.5). По архитектуре связей нейронные сети могут быть разделены на два класса: сети прямого распространения и рекуррентные сети. Графы сетей прямого распространения не содержат петель, соответственно, рекуррентные сети это сети с обратными связями. Нейронные сети Сети прямого распространения Рекуррентные сети Однослойный перцептрон Многослойный перцептрон Сеть радиальных базисных функций Соревновательные сети Сеть Кохонена Сеть Хопфилда Модели ART Рисунок 1.5 Наиболее распространенные архитектуры нейронных сетей Сети прямого распространения подразделяются на однослойные и многослойные персептроны, а также на сети радиальных базисных функций. Нейронная сеть состоит из входного слоя и выходного слоя. Дополнительно в сети могут присутствовать так называемые скрытые слои. Нейроны скрытых слоев не имеют непосредственных входов исходных данных, их выходы связаны только с входами нейронов выходного и скрытых слоев. Скрытые слои выполняют дополнительное преобразование информации, увеличивая нелинейность модели. В персептронах каждый нейрон использует пороговую или сигмоидальную функцию активации. Доказано, что многослойный персептрон может формировать сколь угодно сложные границы принятия решения и реализовывать произвольные булевы функции [163].

36 36 Сети, использующие радиальные базисные функции, являются частным случаем двухслойной сети прямого распространения. Каждый элемент скрытого слоя использует в качестве активационной функции радиальную базисную функцию типа гауссовой. Скрытые элементы формируют совокупность функций, которые образуют базисную систему для представления входных примеров в построенном на ней пространстве. Рекуррентные сети организованы так, что каждый нейрон может получать входную информацию от других нейронов, самого себя и окружающей среды. Такие сети позволяют моделировать нелинейные динамические системы. Среди рекуррентных сетей можно выделить сети Хопфилда, Кохонена и модели теории адаптивного резонанса. Сети Кохонена [100] обладают свойством сохранения топологии, воспроизводящим важный аспект карт признаков в коре головного мозга животных. Близкие входные данные возбуждают близкие выходные элементы. Сети Кохонена могут использоваться для проектирования многомерных данных, аппроксимации плотности и кластеризации. Они также успешно применялись для распознавания речи, обработки изображений, в робототехнике и в задачах управления [144]. Модели теории адаптивного резонанса это попытка разрешения противоречия между стабильностью и пластичностью сети. Карпентер и Гроссберг разработали модели теории адаптивного резонанса [117]. Сеть имеет достаточное число выходных элементов, но они не используются до тех пор, пока не возникнет в этом необходимость. Обучающий алгоритм корректирует имеющийся прототип категории, только если входной вектор в достаточной степени ему подобен. Когда входной вектор недостаточно подобен ни одному существующему прототипу сети, создается новая категория, и с ней связывается нераспределенный элемент с входным вектором в качестве начального значения прототипа. Если не находится нераспределенного элемента, то новый вектор не вызывает реакции сети.

37 37 Модель теории адаптивного резонанса может создавать новые категории и отбрасывать входные примеры, когда сеть исчерпала свою емкость. Однако число обнаруженных сетью категорий чувствительно к параметру сходства. В основе построения сетей Хопфилда лежит функция энергии [146]. Основное свойство энергетической функции состоит в том, что в процессе эволюции сети она убывает и достигает локального минимума. Основная область применения сетей Хопфилда ассоциативная память и комбинаторные задачи оптимизации, которые могут быть сформулированы как задачи оптимизации энергии. Нейронные сети нашли широкое применение в системах распознавания речи в качестве вспомогательных алгоритмов. Так, нейронные сети успешно используются при расчете локальных метрик [159]. Способность многослойных персептронов к аппроксимации апостериорной вероятности классов используется в гибридных подходах к распознаванию, основанному на скрытых Марковских моделях, в которых нейронные сети служат для вычисления правдоподобия состояний [26, 114, 166]. При использовании нейронных сетей для распознавания отдельных фонем, слогов, изолированных команд, не удается получить значительного повышения точности по сравнению с обычными классификаторами. Это объясняется чувствительностью нейронных сетей к нелинейным деформациям темпа речевого сигнала. Для борьбы с деформациями темпа речи разработаны специальные динамические нейросетевые классификаторы, содержащие линии задержки и узлы, выполняющие временное интегрирование. Считается, что такие классификаторы мало чувствительны к небольшим временным искажениям. Эксперименты показали эффективность применения динамических нейронных сетей при распознавании акустически схожих слов, согласных и гласных звуков [26]. Однако, это справедливо только для задач с малым словарем.

38 38 Динамическая нейронная сеть с временными задержками представляет собой многослойный персептрон с модифицированными узлами (рисунок 1.6). Nτ * W J,N Nτ * W J,1 * WJ,0 ƒ(s) Nτ * W1,N Nτ * W1,1 * W1,0 Рисунок 1.6 Узел динамической нейронной сети с временными задержками Каждый из J входов имеет линию задержки на N значений. Узел суммирует значения, поступающие с входов, и значения, содержащиеся в линиях задержек с учетом весовых коэффициентов, вычисляет порог и нелинейную активационную функцию. Архитектура трехслойной динамической нейронной сети с временными задержками представлена на рисунке 1.7. Показаны только связи для одного выходного узла. Выходной слой Интегрирование Второй скрытый слой Первый скрытый слой Входная последовательность Рисунок 1.7 Пример архитектуры динамической нейронной сети с временными задержками

39 39 В приведенном примере обработка сетью входной последовательности векторов признаков эквивалентна прохождению окон временных задержек над образами узлов нижнего уровня. Узлы скрытых слоев сети представляют собой движущиеся детекторы признаков, способные обнаруживать требуемые образы в любом месте входной последовательности. Равенство весов связей входных узлов со вторым слоем обеспечивает инвариантность сети к временным сдвигам обучающих и контрольных выборок. Несмотря на разнообразие структур нейронных сетей, самой известной и наиболее распространенной моделью является многослойный персептрон, структурная схема которого представлена на рисунке 1.8. Нейроны многослойного персептрона разделены на несколько слоев, и не взаимодействуют между собой внутри одного слоя. Каждый нейрон сети (кроме нейронов входного слоя), получает входной сигнал от каждого нейрона предыдущего слоя и выходной сигнал нейрона (кроме последнего слоя) поступает на вход нейронов последующего слоя. Многослойный персептрон является моделью со связями, обеспечивающими распространение сигнала только вперед от входа к выходу сети. Нейроны обычно функционируют в соответствии с моделью МакКаллока-Питса, в качестве функции активации выбирается сигмоидальная функция (1.16). Рисунок 1.8 Пример многослойного персептрона

40 40 Существует три способа обучения нейронных сетей: обучение «с учителем», обучение «без учителя» и смешанное обучение. Множество алгоритмов обучения делится на два класса: детерминистских и стохастических. В первых подстройка весов задается жесткой последовательностью действий, во вторых производится на основе случайных процессов. Основным алгоритмом обучения многослойного персептрона является алгоритм обратного распространения ошибки (Back Propagation Error, BPалгоритм, приложение 1) [177]. Скрытые Марковские модели Основные понятия Инструментарий для построения Скрытых Марковских Моделей (СММ Hidden Markov Model HMM) может использоваться для моделирования любого временного ряда. Одно из возможных его применений построение средств обработки речи, в частности, систем распознавания речи. Можно выделить две основных стадии обработки речи: оценка параметров множества HMM, с использованием обучающих образцов произнесения и соответствующих им транскрипций (приложение 1); определение транскрипций, соответствующих неизвестным образцам произнесения. Речевой сигнал это некоторое сообщение, кодируемое с помощью последовательности одного или нескольких символов. Для выполнения обратной процедуры по распознаванию последовательности символов речевой сигнал преобразуется в последовательность векторов дискретных параметров. Задача системы распознавания заключается в установлении соответствия между последовательностями векторов параметров и символов. Для простоты будем считать, что символами являются отдельные слова из фиксированного словаря.

41 41 Представим произнесенное слово последовательностью векторов признаков или наблюдений O, определенных как O o1, o2,... =, где (1.17) o t есть вектор признаков, наблюдаемый в момент времени t. o T Тогда задачу распознавания отдельных слов можно определить как вычисление w i - i-ое слово словаря. arg max{ P( w O) }, где (1.18) i i Вероятность вычисляется по правилу Байеса: P P ( ) ( O wi ) P( wi ) wi O =. (1.19) P( O) При заданной априорной вероятности P(w i ) наиболее вероятное произнесенное слово определяется правдоподобием P(O w i ). На практике прямое оценивание совместной условной вероятности P(o 1, o 2, w i ) не используется из-за высокой мерности последовательности наблюдений O. Но если предположить, что наблюдения порождены Марковской моделью, оценивание становится возможным за счет замены оценивания условных плотностей P(O w i ) на более простое оценивание параметров Марковской модели. Поэтому будем считать, что последовательность наблюдений, соответствующих слову, порождена Марковской моделью. Марковская модель представляет собой конечный автомат, изменяющий свое состояние один раз в единицу времени. В каждый момент времени t (модель находится в состоянии j), исходя из плотности вероятностей b j (o t ), генерируется наблюдение o t. Переход от состояния i к состоянию j является

42 42 вероятностным и совершается под управлением отдельной вероятности a ij. На рисунке 1.9 показан пример этого процесса, где модель, состоящая из шести состояний, проходит через последовательность состояний X=1,2,2,3,4,4,5,6, для того, чтобы сгенерировать последовательность от o 1 до o 6. a 22 a 33 a 44 a 55 a 12 a 23 a 34 a 45 a Марковская модель М a 24 a 35 b 2 (o 1 ) b 2 (o 2 ) b 3 (o 3 ) b 4 (o 4 ) b 4 (o 5 ) b 5 (o 6 ) О 1 О 2 О 3 О 4 О 5 О 6 Последовательность наблюдений О Рисунок 1.9 Марковская модель генерирования Совместная вероятность того, что O порождена моделью M, проходящей через последовательность состояний X, рассчитывается как произведение вероятностей переходов и вероятностей порождения. Для последовательности состояний X, представленной на рисунке 1.9: P ( O X M ) = a b ( o ) a b ( o ) a b ( )... (1.20), o3 При распознавании известна только последовательность наблюдений O, а породившая их последовательность состояний X скрыта. Поэтому модель называют Скрытой Марковской Моделью, в которой подобие вычисляется суммированием по всем возможным последовательностям состояний X = x(1), x(2),,x(t): P ( O M ) = ax( 0) x( 1) bx( t )( ot ) ax( t ) x( t+ 1), где (1.21) X x(0) - модель начального состояния, а x(t+1) - модель конечного состояния. T t= 1 Приближенно подобие может быть вычислено, как наиболее вероятная последовательность состояний:

43 43 ˆ T ( O M ) max a ( ) ( ) b ( )( o ) a ( ) ( ). (1.22) P = x 0 x 1 X t= 1 x t t x t x t+ 1 Существуют простые рекурсивные процедуры, позволяющие эффективно рассчитать соотношения (1.21) и (1.22). Если соотношение (1.18) вычислено, то проблема распознавания решена. Для заданного множества моделей M i, соответствующих словам w i, соотношение (1.18) решается с использованием (1.19) и в предположении, что: ( O w ) = P( O ). (1.23) P i M i Также предполагается, что параметры {a ij } и {b j (o t )} известны для каждой модели M i. Если не известны, то их можно получить с помощью известных рекуррентных процедур (например, алгоритм Баума-Уэлша (Baum- Welch), описываемый ниже, или градиентные методы [156]), применяемых к соответствующим обучающим выборкам. В результате для каждого слова может быть построена HMM, неявно моделирующая все множество причин изменчивости, свойственной реальной речи. На рисунке 1.10 демонстрируется использование HMM для распознавания изолированных слов. Сначала для каждого слова обучают HMM, используя множество его возможных реализаций. В данном примере, словарь состоит из трех слов: "один", "два" и "три". Затем, при распознавании неизвестной последовательности наблюдений вычисляется подобие каждой модели, порождающей слово, а искомое слово определяется как наиболее вероятная модель.

44 44 Обучение Обучающие выборки один два три Обученные модели М 1 М 2 М 3 Распознавание Неизвестное О = Р(О М 1 ) Р(О М 2 ) Р(О М 3 ) Выбор максимума Рисунок 1.10 Применение НММ для распознавания изолированных слов Алгоритм Витерби В 1967 году Витерби (Viterbi) разработал алгоритм поиска наилучшей последовательности, основанный на принципах динамического программирования [172]. В алгоритме уменьшается вычислительная нагрузка за счет учета особенностей структуры конкретной матрицы. Преимущество алгоритма Витерби по сравнению с методом полного перебора заключается в том, что его вычислительная сложность не является функцией размерности матрицы. Алгоритм включает в себя вычисление меры подобия для всех состояний в каждый момент времени и исключение из рассмотрения путей с низким правдоподобием. Предварительный отказ от маловероятных путей упрощает процесс декодирования. Итак, распознавание осуществляется путем максимизации правдоподобия последовательности состояний. Правдоподобие вычисляется по алгоритму, подобному процедуре расчета прямой вероятности. Отличие заключается в том, что суммирование заменяется поиском максимума. Пусть φ j (t) для данной модели M является максимальным правдоподобием наблюдения последовательности векторов параметров o 1 o t, и пребывания в состоянии j в момент времени t. Тогда φ j (t) может быть получено с использованием следующего рекуррентного соотношения:

45 45 ( ) = 1; ( 1) = a b ( o ), 1< j N 1 1 φ j 1 j j 1 < φ. { } ( ) φ ( t) = max φ ( t 1) a b o, где (1.24) j i i ij j t Максимальное правдоподобие P(O M) имеет вид: φ N ( T ) = max{ φ ( T ) a }. (1.25) i i in Прямое вычисление правдоподобия ведет к потере значащих разрядов, поэтому вместо этого вычисляют логарифм правдоподобия ψ j (t): j ( t) = max { ψ ( t 1) + log( a )} + log( b ( o )) ψ. (1.26) i i Рекуррентное соотношение (1.26) является основой алгоритма Витерби. Как показано на рисунке 1.11, алгоритм представляет собой поиск лучшего пути через матрицу, где вертикальное измерение представляет состояния HMM, а горизонтальное измерение вектора параметров. Логарифм вероятности пути вычисляется путем суммирования логарифмов вероятностей переходов и логарифмов выходных вероятностей. Пути идут слева направо, снизу вверх. В момент времени t, каждый частичный путь ψ i (t-1) известен для всех состояний i, поэтому (1.26) можно использоваться для вычислений ψ i (t), как удлинение частичного пути на один шаг по времени. ij j t Состояния Наблюдения Рисунок 1.11 Схема работы Алгоритма Витерби

46 46 На практике алгоритм Витерби редко используется в чистом виде. Распространение получила альтернативная формулировка, названная «моделью пересылки маркера» (Token Passing Model) [187]. Модель пересылки маркера делает явным понятие пути состояний. Пусть каждое состояние j цепочки HMM в момент t владеет передвигаемым маркером. Маркер содержит различные данные, в том числе частичный логарифм вероятности ψ i (t). Он представляет частичное соответствие между последовательностью наблюдений o 1 o t и моделью, при условии, что модель находится в состоянии j в момент времени t. Алгоритм продолжения пути (1.26) заменяется эквивалентным алгоритмом пересылки маркера, выполняемом на каждом шаге по времени. Выполняется следующая последовательность действий: 1. Копия маркера состояния i пересылается всем, связанным с ним состояниям j с увеличением логарифма вероятности копии на ( a ) log b ( o ) ij ( ) log + ; i t 2. Проверяются маркеры всех состояний и удаляются все маркеры, кроме наиболее вероятных. Описанная модификация алгоритма Витерби позволяет легко получать списки лучших результатов распознавания. Особенности скрытых Марковских моделей В начале 90х годов прошлого века велись активные попытки создания гибридных моделей, совмещающих в себе нейронные сети и HMM [ , 134, 136, 141, 155, 161, 165, 167, 175, 176]. Основная идея исследований заключалась в том, чтобы HMM отвечала за моделирование временной структуры речевого сигнала, а нейронная сеть обеспечивала вычисление оценок вероятностей.

47 47 Основная сложность, связанная с применением гибридных моделей, заключается в организации обучения. В процессе обучения требуется одновременно оценивать и параметры Марковской цепи, и весовые коэффициенты нейронной сети. На сегодняшний день автору неизвестно ни одного алгоритма, позволяющего выполнять одновременную оценку параметров HMM и нейронной сети. Другая сложность обучения заключается в том, что для обучения гибридной модели требуется большой объем данных, размеченных вручную. HMM являются мощным инструментом распознавания речевых сигналов и на сегодняшний день представляются оптимальной базой для создания систем распознавания. Большинство известных систем, используемых на практике, основано на НММ. Скрытые Марковские модели предоставляют возможность описания временной структуры звукового сигнала нужно только построить соответствующие модели звуков. Использование таких моделей должно повысить адекватность описания речевого сигнала и привести к увеличению точности распознавания. Для повышения адекватности речевого сигнала также представляется целесообразным дополнение скрытых Марковских моделей средствами моделирования длительности звуков речи, что также приведет к увеличению точности распознавания Способы определения произнесения слов не из словаря системы Звуковой сигнал, поступающий на вход системы распознавания речи, зачастую содержит различного рода помехи: шумы, неречевые звуки (смех, кашель, дыхание), речь посторонних лиц, различные нарушения речевого потока (оговорки, «эканья»), а также слова, которые не входят в словарь системы. Влияние этих факторов приводит к ошибкам распознавания. Одной из

48 48 ключевых задач системы распознавания речи является определение и отсеивание перечисленных помех. Существует два основных подхода к решению названной задачи: вычисление оценок правдоподобия (или просто подобия) и манипуляции со словарем и грамматикой системы. Метод вычисления оценок подобия заключается в расчете для каждого распознанного слова числовой характеристики, соответствующей уровню уверенности его корректного распознавания. Полученная характеристика сравнивается с порогом и, если значение характеристики выше порога, принимается решение о правильном распознавании. В противном случае слово считается распознанным неверно. Оценки подобия можно разделить на три группы [66]: простые характеристики, апостериорная вероятность и отношения правдоподобия. Манипуляции со словарем и грамматикой заключаются в добавлении в словарь и грамматику системы специальных акустических моделей, отождествляемых с помехами. Соответственно, если распознается специальная модель, принимается решение об ошибочном распознавании и наоборот. Особенность подхода состоит в том, что определение СНИС выполняется непосредственно в процессе распознавания и не требует применения дополнительных вычислительных алгоритмов. Два основных направления манипуляций: оптимизация словаря и модели заполнения. Для оптимизации словарь необходимо дополнить "словами" двух типов: модели-шумы и слова-антимодели. Первые отсеивают ошибочно выделенные детектором речевой активности звуки, вторые «вытесняют» малопохожие на звук слова из списка результатов распознавания. Модели-шумы весьма эффективны в отсеивании различных щелчков, стуков, скрипов, жужжаний и даже дыхания. Однако, для борьбы с более сложными шумами они оказываются малопригодными. Модели-шумы хорошо отсеивают "артефакты", возникающие из-за ложных срабатываний детектора речевой активности, поэтому с увеличением

49 49 точности алгоритмов VAD их актуальность сокращается. Кроме того, ресурсоемкость Моделей-шумов на порядок выше ресурсоемкости VAD. Слова-антимодели могут формироваться по двум основным принципам. В первом случае для каждого СИС строится слово-антимодель, во втором строится несколько слов-антимоделей на весь словарь. Первый вариант требует значительных вычислительных ресурсов, т.к. рабочий словарь системы фактически удваивается. Эксперименты показали, что использование небольшого статического набора слов-антимоделей не дает желаемого результата, а увеличение их количества приводит к падению производительности системы. За счет оптимизации словаря обычно не удается достичь удовлетворительного процента отсеивания СНИС при допустимом падении процента распознавания СИС и производительности. Подробнее перечисленные алгоритмы описаны в приложении Языковые модели Предложения на естественном языке принципиально отличаются от случайных комбинаций слов и от предложений формально построенных языков. Модели естественного языка математики разрабатывают начиная с конца XIX века. Понятие Марковской цепи было введено Марковым А.А. (старший) в процессе статистического исследования русского языка [60, 61]. Существенный вклад в исследование естественных языков внесли работы Н.Хомского, основателя нового направления в структурной лингвистике порождающей лингвистики [120]. Для распознавания речи требуется создавать языковые модели (ЯМ), позволяющие для каждого нового поступившего на вход слова определять вероятность принадлежности получившейся цепочки слов к языку. Для многих языков разработаны ЯМ, принципиально улучшающие распознавание слитной речи.

50 Рассмотрим подробнее некоторые способы построения языковых моделей. 50 N-граммы В основе N-граммных ЯМ лежит предположение о том, что вероятность появления очередного слова в предложении зависит только от предыдущих N 1 слов. Практическое применение находят модели со значениями N от 1 до 4. Для английского языка оптимальной считается модель с N = 3 триграммная модель. Большинство коммерческих систем распознавания слитной речи используют N-граммные модели в той или иной форме. Основным достоинством N-граммных ЯМ является высокая скорость работы и простота расчета вероятностей (вероятность предложения вычисляется как произведение вероятностей входящих в него N-грамм). Основной недостаток заведомо неверное предположение о независимости вероятности слова от всей предыстории, что не позволяет моделировать глубокие языковые связи. Кроме того, для качественного обучения N-грамм требуются огромные объёмы обучающих данных (по оценкам [23] требуется порядка 1 терабайта текстов для обучения биграмм) и использование специальных техник сглаживания [93]. Для сокращения объема модели также используют кластеризацию словаря. Модели, основанные на деревьях решений Основанные на деревьях решений ЯМ используют всю предысторию слова при оценке его вероятности. Каждой листовой вершине дерева приписывается распределение вероятностей на словаре, а остальным вершинам приписываются предикаты, определённые на множестве предысторий. В процессе работы модели строится путь от корня дерева до одной из листовых вершин, вероятность которой и принимается за вероятность высказывания.

51 51 Деревья решений для определения вероятностей следования слов в коммерческих системах распознавания речи практически не применяются, хотя и способны показать существенное улучшение по сравнению с N- граммными моделями. Это связано с громоздкостью структур данных, сложностью обучения и необходимостью использовать для обучения значительный объем данных. Модели, основанные на теории формальных языков Этот класс моделей строится на основе представления лингвистической информации средствами аппарата теории формальных языков. Проще говоря, естественный язык описывается при помощи систем правил. Примерами таких моделей могут служить сетевые грамматики Вудса [31, 57] и грамматики зависимостей [180]. Достоинство ЯМ, основанных на теории формальных языков, заключается в большей точности описания языка (по сравнению с N-граммами) [23, 180]. К недостаткам следует отнести высокую сложность построения таких моделей (правила формулируются экспертом «вручную») и «жесткость» (неспособность обрабатывать предложения, непредусмотренные моделью). В [154] предлагается использовать вероятностные формальные грамматики, сочетающие в себе достоинства формальных и N-грамных грамматик. Такой подход позволяет описывать более глубокие связи, существующие в естественном языке, и обеспечивает «универсальность» языковой модели, свойственной N-граммному подходу. Показатель качества статистических языковых моделей В большинстве случаев основой для построения ЯМ является аппарат статистических методов. Качество статистических ЯМ оценивается с помощью коэффициента неопределенности (perplexity coefficient), введенного в [109]. Коэффициент неопределенности может быть интерпретирован как

52 52 (геометрическое) среднее ветвление в данной модели [93]. Для N-граммной модели коэффициент неопределенности рассчитывается по формуле: perplexity =, где (1.27) ( w w w ) N P... ik ik 1 ik n+ 1 1 w i1, w i2,,w in естественный язык, заданный некоторым корпусом текстов. Коэффициент неопределенности является функцией от построенной языковой модели и естественно языка (текстового корпуса). При фиксированном языке он позволяет сравнивать различные языковые модели, а при фиксированном типе модели оценивать сложность самих естественных языков. Модификации N-граммных моделей для русского языка В ряде работ [23, 149] показано, что в чистом виде N-граммные ЯМ не применимы для русского языка. Проверка двуграммной языковой модели показывает, что число пар слов, встретившихся в корпусе из 100 млн. слов по одному разу, составляет более 92%, а коэффициент неопределенности (1.27) превышает 500. Для три- и более граммных моделей ситуация оказывается еще хуже. Это объясняется обилием словоформ в русском языке, и тем, что связи между словами определяются не порядком слов в предложении, а морфологическими характеристиками слов. Тестирование N-грамм со свободным порядком слов [23] показало, что такой подход не приводит к существенным улучшениям. Было установлено, что свободный порядок слов в предложении практически не проявляется при работе с научно-техническими и деловыми текстами. Сложности возникают при обработке спонтанной речи, которая, на сегодняшний день, практически не представлена в существующих текстовых корпусах. В [23] описывается еще один подход, нацеленный на решение проблемы большого количества словоформ. Подход основан на разложении общей

53 53 ЯМ на две составляющие: модель, основанную на морфологии, и модель, основанную на начальных формах слов. К каждой из этих моделей применялся подход на основе N-грамм. Модель, использующая только морфологию (категорная часть ЯМ), была построена для N = 3. В результате экспериментов с N-граммной моделью, основанной на начальных формах слов, было установлено, что ее коэффициент неопределенности примерно в 2-2,5 раза выше, чем в случае английского языка. К достоинствам такого подхода следует отнести возможность использования N-граммных моделей применительно к русскому языку и возможность увеличения различимости акустически близких словоформ одного и того же слова за счет выделения морфологической информации в независимую модель. 1.3 Выбор структуры системы Поскольку система разрабатывается для использования в качестве одного из компонент в составе телекоммуникационных сервисов, грамматика будет определяться логикой сервиса. Очевидно, что необходимо предусмотреть возможность работы системы с несколькими фиксированными грамматиками, сменяющими друг друга по мере развития диалога. В простейших диалогах при реализации голосового управления (голосовое меню), грамматика может вырождаться в список распознаваемых команд. Соответственно, система распознавания должна поддерживать возможность работы в командном режиме. Согласно приведенной выше классификации система распознавания речи должна работать с задаваемым (переменным) комплектом фиксированных грамматик. Списки отдельных команд легко могут быть оформлены в виде фиксированных грамматик. Распознавание по фиксированным грамматикам в общем случае предполагает работу со слитной речью. Для простоты будем считать, что ко-

54 54 манды являются частным случаем слитной речи, и в рамках разрабатываемой системы не требуют реализации специальных алгоритмов. Необходимо предусмотреть возможность работы системы с открытыми грамматиками, когда контекст распознаваемых высказываний затруднительно определить заранее. Примером сервиса с открытой грамматикой может являться «автосекретарь», переключающий входящие звонки на сотрудников компании по именам и фамилиям. В этом случае не представляется возможным предусмотреть в грамматике все возможные варианты обращения к системе. Основной задачей будет определение в произнесенной фразе фамилии и имени сотрудника. Режим работы с открытой грамматикой в терминах приведенной классификации соответствует поиску и распознаванию ключевых слов. Так как круг пользователей системы заранее неизвестен, требуется обеспечить дикторонезависимое распознавание. Более того, необходимо предусмотреть возможность моделирования различных акцентов и диалектов, поскольку эксплуатацию системы распознавания предполагается осуществлять на всей территории России и стран СНГ. Объем словаря системы определяется конкретным реализуемым сервисом и может составлять от нескольких десятков до нескольких тысяч слов. В общем случае объем словаря следует считать большим. Большой объем словаря системы и непостоянство его состава определяет единственно возможную степень детализации эталонов как «элементы слов». Физически невозможно предусмотреть и создать звуковые модели (эталоны) для всех возможных слов во всех возможных сервисах. Но можно создать строительный материал базу элементарных звуковых моделей, из которых по определенным правилам система сформирует эталоны распознаваемых слов. Итак, подводя результаты классификации, сформулируем, что разрабатывается дикторонезависимая система распознавания слитной речи и ключе-

55 55 вых слов с большим словарем, определяемым переменным комплектом фиксированных грамматик, использующая в качестве эталонов элементы слов. 1.4 Выводы Выделены основные элементы систем распознавания и проведен анализ методов, моделей и алгоритмов, используемых в распознавании речи. Установлено, что рассмотренные методы и модели не содержат средств, позволяющих учитывать длительность звуков речи в процессе распознавания. Создание модели длительности звуков речи может обеспечить повышение точности описания речевого сигнала. Выявлена необходимость построения структур моделей, учитывающих строение звуковой волны, всех звуков русской речи для повышения эффективности распознавания реального речевого сигнала. В настоящее время используется всего одна структура моделей для всех звуков русской речи. Выявлено, что одна из причин использования в настоящее время одной структуры моделей для всех звуков русской речи состоит в том, что одновременное использование моделей с различной структурой в алгоритме Витерби и его модификациях приводит к некорректному расчету подобия. Требуется усовершенствование алгоритма Витерби и его модификаций с учетом применения моделей звуков речи с различной структурой. Рассмотрены классификационные признаки систем распознавания речи и предложена классификация, позволившая упростить выбор архитектуры разрабатываемой системы распознавания речи.

56 Глава 2 Построение моделей звуков речи и подготовка речевых баз 56 Эффективность системы распознавания речи во многом зависит от адекватности представления фонетических явлений в языке с помощью математических структур. Первым шагом на пути повышения точности описания является создание специализированных структур моделей для звуков разных групп, учитывающих особенности строения звуковой волны, вторым обучение полученных моделей по корректно аннотированным звукозаписям. Для обучения звуковых моделей применяются большие звуковые базы данных, содержащие сотни часов записей речи множества дикторов, и фонетическую транскрипцию этих записей. Обычно транскрипция формируется автоматически по текстам, соответствующим звукозаписям, на основе канонических правил транскрибирования. Сложность заключается в том, что в реальной речи произношение далеко не всегда совпадает с идеальным, а значит и параметры моделей, полученные в результате обучения, не будут описывать речевой сигнал с высокой точностью. 2.1 Модели звуков речи Речевой сигнал имеет сложную тройственную природу [72]. Во-первых, речевой сигнал это обычный акустический сигнал, представляющий собой процесс распространения звуковых волн в упругой среде. Во-вторых, структура сигнала определяется смыслом передаваемого высказывания. В-третьих, речь несет в себе не только смысловую информацию, но и информацию об эмоциональном состоянии и индивидуальных особенностях диктора. Речевой сигнал существенно отличается от искусственных технических сигналов сложностью и неустойчивостью характеристик. Сравнивая осциллограммы и/или спектрограммы слова, произнесенного дважды одним и тем же диктором, легко заметить значительные различия в уровнях, длительностях фрагментов и спектральных картин. При сравнении сигналов слов, произнесенных разными людьми, эти различия будут еще заметнее.

57 57 Сегодня уже хорошо известны многие причины вариативности звуков речи, значительно усложняющие задачу разработчикам систем распознавания речи. Можно выделить четыре группы факторов, приводящих к вариативности: особенности артикуляции, связанные взаимным влиянием соседних звуков речи друг на друга, положением звуков в слове и слов во фразе, интонационным оформлением высказывания, типом речи и т.д.; постоянные индивидуальные особенности диктора, вызываемые различиями в анатомических параметрах речевого тракта, принадлежностью к диалектическим и социальным группам, индивидуальной культурой речи и т.д.; переменные индивидуальные особенности диктора, обуславливаемые различиями в физическом и эмоциональном состоянии; условия записи речевого сигнала: тип и характеристики звукозаписывающих устройств, наличие/отсутствие различного рода шумов и помех и т.п. Дополнительную сложность представляет одновременное воздействие всех перечисленных факторов Классификация звуков речи Речь, как средство передачи информации, должна состоять из конечного числа различимых элементов. Эти элементы (сложные по своей природе) называют фонемами, а различные их реализации аллофонами. По одним данным в русской речи насчитывается 43 фонемы, по другим 64, по третьим более сотни. Речевой аппарат человека приспособлен для создания звуковых последовательностей. Одна часть речевого тракта обеспечивает возникновение звуковых источников, другая резонансную систему. Различают три вида источников звука, участвующих в речеобразовании голосовой источник и два шумовых: турбулентный и импульсный.

58 58 Голосовой источник возникает в результате колебания голосовых связок. Его работа обеспечивается дыхательной системой и гортанью. При участии голосового источника происходит образование гласных, сонант и звонких шумных согласных звуков. Турбулентный источник возникает при сужении в каком-либо месте речевого тракта на пути прохождения воздушной струи. Сужение приводит к возникновению вихревых потоков, создающих специфический шум. Турбулентный источник принимает участие в образовании всех щелевых согласных. Импульсный источник образуется при резком раскрытии смычки артикуляционных органов. Во время смычки в полости рта создается избыточное давление, а при ее раскрытии происходит выравнивание давлений, происходит короткий щелчок. Все взрывные согласные образуются с участием импульсного источника. По участию голосового источника все звуки делятся на две большие группы: гласные и согласные. При произнесении гласных выдыхаемый воздух не встречает преград в речевом тракте, а при произнесении согласных в результате сближения или смыкания артикуляционных органов обязательно образуется преграда. Гласные различаются положением языка и губ. Положение языка описывается подъемом относительно твердого неба и рядом продвижением вперед или назад относительно границ ротовой полости [21]. Классификация основных гласных по ряду и подъему может быть представлена в виде таблицы 2.1. Таблица 2.1 Классификация русских гласных по ряду и подъему Ряд Подъем Передний Средний Задний Верхний I Y U Средний E O Нижний A

59 59 Относительно набора классификационных признаков согласных не существует единого мнения. Обычно выделяют следующий набор существенных признаков [28]: активный действующий орган; способ образования; активность голосовых источников; положение языка относительно твердого неба; положение мягкого неба; признак «шумности». По активному действующему органу различают губные, переднеязычные, среднеязычные и заднеязычные согласные. По способу образования смычные, щелевые и дрожащие. Положение языка управляет мягкостью и твердостью звуков. Классификация русских согласных по способу образования представлена в таблице 2.2. Таблица 2.2 Классификация согласных по способу образования Тип преграды, и звуковой источник Согласные Твердые Мягкие Фрикативные Звонкие V, Z, ZH V, Z Глухие F, S, SH, H F, S, H Звонкие B, D, G B, D, G Взрывные Смычные Глухие P, T, K P, T, K Носовые Звонкие M, N M, N Аффрикаты Глухие C, CH Аппроксиманты Звонкие L, R L, R, J Классификация русских согласных по месту образования преграды представлена в таблице 2.3. Задача определения по акустическим параметрам артикуляционных признаков на сегодняшний день не решена в полной мере [53]. В системах распознавания речи артикуляционные признаки используются крайне редко и только в исследовательских проектах, не предполагающих практического

60 60 применения в ближайшем времени. Подробно с классификацией на основе артикуляционных признаков можно ознакомиться в [67]. Таблица 2.3 Классификация русских согласных по месту образования преграды Место преграды Согласные Твердые Мягкие Губные Губно-губные P, B, M P, B, M Губно-зубные F, V F, V T, D, S, Z, T, D, S, Зубные Переднеязычные C, N, L Z, N, L Язычные Передненебные SH, ZH, R R Среднеязычные J Заднеязычные K, G, H K, G, H В контексте создания систем распознавания речи больший интерес представляет создание (использование) классификации, учитывающей структуру речевого сигнала. На рисунке 2.1 представлена предложенная смешанная классификация, в которой звуки объединены в группы не только по артикуляционным признакам, но и по особенностям структуры сигнала. Отличий от обычной классификации по артикуляционным признакам несколько: щелевые согласные разделены на две дополнительных группы по уровню энергии звуков: громкие и тихие; звук «T» отнесен к мягким аффрикатам, т.к. его структура к ним ближе, чем к глухим взрывным; по близости структуры «V» и «V» отнесены к назальным сонантам; к назальным сонантам также отнесены глайды «L», «L» и «J»; в отдельную категорию выделены дрожащие «R» и «R»; гласные разделяются на два класса не по критерию участия губ в звукообразовании, а по сложности спектральной картины; дополнительно для гласных введен признак твердости/мягкости по взаимодействию с предшествующим «J»; дополнительно введен «неопределенный» гласный (обозначается который не может быть однозначно идентифицирован.

61 61 Звуки речи Звонкие Глухие Шумные Щелевые Взрывные (смычные) Твердые B, D, G Мягкие B, D, G Щелевые (фрикативные) Твердые Z, ZH Мягкие Z Громкие Твердые S, SH, SC Мягкие S Тихие Твердые F, H Мягкие F, H Взрывные Твердые P, T, K Мягкие P, K Аффрикаты Твердые C, CH Мягкие T Нешумные Гласные Сонанты Сложные Неопределенный Простые Дрожащие Назальные Твердые Мягкие Твердые Мягкие Твердые R Твердые V, L, M, N Ударные A0, E0, O0 Ударные _A0, _O0 Ударные I0, Y0, U0 Ударные _U0 Мягкие R Мягкие V, J, L, M, N Безударные A1 Безударные _A1 Безударные I1, U1 Рисунок 2.1 Классификация звуков русского языка Безударные _U Именование звуков речи Выше отмечалось, что одно из причин вариативности структуры звуков является коартикуляция - влияние артикуляции соседних звуков друг на друга. Различают два вида «активной коартикуляции»: наложение артикуляционных процессов соседних звуков и «преодоление» артикуляции первого звука и переход во второй. Существует также и «пассивная коартикуляция», обусловленная инертностью артикуляционных органов. Изменения реализаций фонемы, вызванные коартикуляцией, называются комбинаторными, а сами реализации комбинаторными аллофонами фонемы. Именование аллофонов производится на основании самого звука и звуков, расположенных слева и справа от него (контекста). Каждый звук имеет

62 62 название 1, которое становится ядром имени трифона (комбинаторного аллофона). Соседние звуки дают имена контекстов, которые добавляются к ядру слева и справа соответственно. Особую группу аллофонов составляют позиционные аллофоны аллофоны, свойства которых зависят от фонетической позиции. Для гласных наиболее сильно влияющей является позиция относительно ударения. Наиболее устойчивыми являются реализации ударных гласных, по мере удаления от ударной позиции количество вариаций произнесения увеличивается. Для согласных наиболее значимой оказывается позиция абсолютного конца слова. Также для согласных разными являются аллофоны твердых и мягких звуков, дающие разные имена ядер (и контекстов). В общем виде имя трифона записывается следующим образом: <имя левого контекста> - <название ядра> + <имя правого контекста> Если для аллофона отсутствует (или не учитывается) информация о звуке, расположенном левее и/или правее, то имена контекстов либо отсутствуют, либо обозначаются символом паузы Структура скрытых Марковских моделей звуков речи Для потока речи характерна строгая временная направленность, поэтому используется определенная топологическая схема потока, направленного слева направо. Для описания структуры звуков речи идеально подходят скрытые Марковские цепи. Чаще всего в системах распознавания речи используется одна для всех звуков структура моделей. Пример такой структуры приведен на рисунке Звуки русского языка обозначаются с помощью латиницы, цифр и специальных символов (например, апостроф используется для обозначения мягкости звука).

63 63 a 22 a 33 a 44 1 a 12 2 a 23 3 a 34 4 a 45 5 a 55 a 56 6 a 24 a 35 Рисунок 2.2 Пример структуры моделей звуков Единая структура моделей не обеспечивает качественного результата распознавания, т.к. не учитывает характерные особенности строения звукового сигнала для различных звуков речи. Ниже предлагаются схемы моделей звуков разных типов [38, 41], определенные в соответствии со смешанной классификацией (рисунок 2.1). С акустической точки зрения гласные представляют собой периодические колебания, вызванные действием голосовых связок и осложненные резонансными частотами речевого тракта. На осциллограмме гласные отображаются как последовательность примерно одинаковых по рисунку участков, соответствующих периодам основного тона. Ударные гласные можно условно разделить на три основных участка (рисунок 2.3): начальный переходный процесс (2) 2, «стационарный участок» (3), конечный переходный процесс (4). Особенность ударных гласных состоит в том, что все три обозначенных участка практически всегда встречаются в звуке. Рисунок 2.3 Осциллограмма ударного гласного O0 На основе этой информации, для ударных гласных можно рекомендовать использование модели со структурой (рисунок 2.4). 2 Номера участков на осциллограммах соответствую номерам состояний в структурах моделей

64 64 a 22 a 33 a 44 1 a 12 2 a 23 3 a 34 4 a 45 5 a 55 a 56 6 Рисунок 2.4 Структура HMM для ударных гласных В структуре (рисунок 2.4) выделяются три обязательных состояния и вводится дополнительное, необязательное «неопределенное» состояние (5). К ударным гласным относятся аллофоны: A0, E0, O0, I0, Y0, U0, _A0, _O0, _U0 (аллофоны обозначены в соответствии с [75], с внесением некоторых изменений, связанных с используемой классификацией). Структура безударных гласных может изменяться в широких пределах. Безударные гласные могут состоять как из одного переходного состояния (рисунок 2.5), так и содержать все состояния, имеющиеся в ударных гласных (рисунок 2.6). a 46 Рисунок 2.5 Осциллограмма безударного гласного I1 Рисунок 2.6 Осциллограмма безударного гласного A1 Пример реализации безударного I1 (рисунок 2.5), включает только начальный (2) и конечный (4) переходные процессы. В приведенном примере осциллограммы безударного A1 (рисунок 2.6), реализованы все возможные части звука: начальный переходный процесс (2), «стационарный участок» (3), конечный переходный процесс (4) и неопределенное необязательное состояние (5). Модель, отражающая такую вариативность, имеет следующую структуру (рисунок 2.7):

65 65 a 22 a 33 a 44 1 a 2 a 12 3 a 23 4 a a 24 a 35 a 55 a 56 a 46 6 a 25 a 36 a 26 Рисунок 2.7 Структура HMM для безударных гласных К безударным гласным относятся: A1, I1, U1, _A1, - это модель «неопределенного» безударного гласного, к которой относятся все гласные звуки со степенью редукции выше первой, а также первые редукции E, O, Y. Осциллограммы сонант очень похожи на осциллограммы гласных, но амплитуда сонант обычно меньше амплитуды гласных. Для сонант характерно наличие слабого шума по всему спектру. Сонанты состоят из условно «стационарного» участка (2) и необязательного, неопределенного состояния (3) (рисунок 2.8). Структура HMM, используемая для описания сонант, представлена на рисунке 2.9. a 22 a 33 1 a 12 2 a 43 3 a 34 4 a 24 Рисунок 2.8 Осциллограмма сонанта N Рисунок 2.9 Структура HMM для сонант К сонантам относятся: L, L, M, M, N, N, V, V, J и R. Для твердого R предусмотрена отдельная модель, то есть он может содержать как один (рисунок 2.10), так и два удара (рисунок 2.11).

66 66 Рисунок 2.10 Осциллограмма одноударной реализации твердого R Рисунок 2.11 Осциллограмма двуударной реализации твердого R Структура HMM, отражающая особенности строения твердого R, представлена на рисунок a 22 a 33 a 44 1 a 12 2 a 23 3 a 34 4 a 45 5 a 24 a 35 a 25 Рисунок 2.12 Структура HMM для R Взрывные, как твердые, так и мягкие, как звонкие, так и глухие, состоят из смычки (2), взрыва (3), гласной вставки (4), и необязательного, неопределенного состояния (5). Звонкой смычке соответствуют периодические колебания, а ее раскрытию высокочастотные составляющие шумового источника (рисунок 2.13). Аналогичным образом глухой смычке соответствует пауза, а взрыву кратковременный высокочастотный шум (рисунок 2.14). Рисунок 2.13 Осциллограмма звонкого взрывного G Рисунок 2.14 Осциллограмма глухого взрывного K Смычка присутствует в обязательном порядке; взрыв может отсутствовать в случае имплозивной реализации; отсутствие взрыва означает, что отсутствует и гласная вставка; а наличие гласной вставки означает и наличие взрыва. В результате получаем следующую структуру модели, оптимальную для взрывных согласных (рисунок 2.15).

67 67 a 22 a 33 a 44 1 a 12 2 a 23 3 a 34 4 a 45 5 a 55 a 56 6 a 35 a 25 a 46 a 36 a26 Рисунок 2.15 Структура HMM для взрывных согласных К взрывным согласным относятся: B, B, G, G, D, D, P, P, K, K, T. Шумные согласные, как звонкие, так и глухие, как твердые, так и мягкие, состоят из условно «стационарного» участка (2), необязательной гласной вставки (3), и необязательного, неопределенного состояния (4). Звонкие щелевые образованы наложением высокочастотных составляющих на синусоиду основного тона (рисунок 2.16). В глухих щелевых основной тон отсутствует (рисунок 2.17). Рисунок 2.16 Осциллограмма звонкого шумного согласного Z Рисунок 2.17 Осциллограмма глухого шумного согласного S В общем случае такая структура звука соответствует модели, предложенной для твердого R, но соответствующие ей процессы звукообразования иные (рисунок 2.12). Для шумных согласных с успехом может применяться и более сложная структура модели, соответствующая ударным гласным (рисунок 2.4), однако эксперименты показали, что это не приводит к значительному улучшению

68 68 процента распознавания. К шумным согласным относятся: Z, Z, S, S, F, F, H, H, ZH, SH, SC. При образовании аффрикат происходит постепенный переход от полной смычки к образованию узкой щели, что соответствует постепенному подключению турбулентного источника (рисунок 2.18). Особенности строения аффрикат также учитываются специальной структурой модели (рисунок 2.19). a 22 a 33 a 44 1 a 12 2 a 23 3 a 34 4 a 45 5 a 55 a 56 6 Рисунок 2.18 Осциллограмма аффрикаты CH a 24 Рисунок 2.19 Структура HMM для аффрикат a 46 В общем случае аффрикаты состоят из смычки (2), необязательного переходного процесса (3), шумового участка (4), необязательной гласной вставки и неопределенного, необязательного состояния (5) 3. Смычка и шумовой участок присутствуют в обязательном порядке, а вот переходный процесс между ними не всегда выделим. К аффрикатам относятся: C, CH, T Оптимизация структур моделей звуков речи В результате моделирования для всех монофонов были получены матрицы переходов, используемые в дальнейшем для построения более детальных моделей звуков. Для улучшения восприятия из матриц переходов убран первый столбец, а также первая и последняя строки, имеющие одинаковые значения для всех моделей. Для ударных гласных были получены следующие матрицы вероятностей переходов: 3 В модели аффрикат гласная вставка и необязательное неопределенное состояние объединяются

69 69 = A ; = E = O ; = I = Y ; = U = _ A ; = _O = _U. Видно, что все возможные переходы, предусмотренные исходя из знаний о временном строении звуков, имеют не нулевые вероятности. Это подтверждает «устойчивость» структуры ударных гласных и хорошее соответствие между теорией и практикой. Матрицы вероятностей переходов безударных гласных имеют вид: = A ; = I ; = U ; = ;

70 _ A 1 = ; _U 1 = Видно, что не все теоретически возможные переходы характерны для всех звуков. Теории наилучшим образом соответствует структура наиболее обобщенного звука Эксперимент показал, что использование единой структуры моделей для всех безударных гласных нецелесообразно. Модели всех безударных звуков (исключая могут быть упрощены, путем исключения переходов с низкой вероятностью (например, ниже 0.10). Полученные для сонант матрицы переходов имеют вид: L = ; L ' = ; M = ; M ' = ; N = ; N ' = ; V = ; V ' = ; J = ; R ' = Видно, что не для всех сонант характерна структура, предположенная из общих соображений. Для звуков L, M, M и N неопределенное состояние оказывается обязательным. Упростить можно также модели для звуков L и N, для которых вероятность перехода в неопределенное состояние невелика. Моделирование подтверждает вариативность структуры звука R и дает следующую матрицу переходов: 0.54 R =

71 71 Матрицы переходов взрывных, полученные в соответствии с предложенной структурой, имеют вид: = B ; = ' B = P ; = ' P = G ; = ' G = K ; = ' K = D ; = ' D = T ; По полученным вероятностям переходов все модели можно разделить на три группы: B, B, G, P, P, K, K ; G, D, D ; T.

72 72 Структура моделей всех групп оказывается проще обобщенной теоретической структуры моделей взрывных. Дальнейшие эксперименты по моделированию показали целесообразность объединения состояний, соответствующих гласной вставке и неопределенному, необязательному состоянию. Упрощенная модель взрывных представлена на рисунке a 22 a 33 a 44 1 a 2 a 3 a a a 24 a 35 Рисунок 2.20 Структура упрощенной HMM для взрывных согласных Моделирование дает следующие матрицы переходов для упрощенной модели: a B = ; B ' 0.51 = P = ; P ' 0.45 = G = ; G ' 0.50 = K = ; K ' 0.55 = D = ; D ' 0.43 = T =

73 73 Для шумных согласных были получены следующие матрицы переходов: Z = ; ZH = ; S ' = ; F = ; SC = ; Z ' = ; S = ; SH = ; F ' = ; H = ; H ' = Из матриц следует, что вероятности теоретически возможных переходов через состояния либо нулевые, либо близки к нулю. Таким образом, схема упрощенной модели соответствует структуре на рисунке a 22 a 33 a 44 1 a 12 2 a 23 3 a 34 4 a 45 5 Рисунок 2.21 Структура упрощенной HMM для шумных согласных Матрицы переходов аффрикат, как и шумных согласных, показывают, что вероятности пропуска состояний относительно малы:

74 C = ; CH = ; T ' = Это означает, что общая модель аффрикат соответствует теории, но может быть упрощена за счет исключения переходов через состояние без существенного снижения качества распознавания. Структура упрощенной модели сводится к представленной на рисунке a 22 a 33 a 44 a 55 1 a 2 a 3 a a a 56 6 Рисунок 2.22 Структура упрощенной HMM для аффрикат Матрицы переходов принимают вид: C = ; CH = ; T ' = Результаты моделирования Итак, моделирование показало:

75 75 Для ударных гласных все возможные переходы, предусмотренные исходя из знаний о временном строении звуков, имеют не нулевые вероятности, что подтверждает «устойчивость» структуры ударных гласных и хорошее соответствие теории с практикой. Для безударных гласных не все теоретически возможные переходы характерны для всех звуков. Наилучшее соответствие теории показал наиболее обобщенный звук Эксперимент показал, что модели всех безударных звуков (исключая могут быть упрощены, путем исключения переходов с низкой вероятностью. Для большинства сонант вероятность перехода через неопределенное состояние невелика. Модели звуков L, L, M, M, N и N могут быть упрощены. Моделирование подтверждает структуру модели твердого звука R. Модели взрывных согласных могут быть разделены на три группы. Структура моделей в каждой группе оказывается проще структуры обобщенной теоретической модели взрывных. Для всех шумных согласных теоретически возможные переходы через состояние нехарактерны. Структура обобщенной модели шумных согласных может быть упрощена за счет исключения переходов через состояние. Для аффрикат вероятности пропуска состояний относительно малы. Общая модель аффрикат соответствует теории, но может быть упрощена путем исключения переходов через состояние. 2.2 Аннотирование речевой базы Одним из возможных путей получения точного фонетического описания речевого сигнала является привлечение высококвалифицированных специалистов для формирования экспертной транскрипции. Но это очень не быстрый, и довольно дорогой подход. Кроме того, при данном подходе имеется дополнительная сложность, связанная с возможным использованием разны-

76 76 ми экспертами различных фонетических систем, и просто человеческими ошибками. В работе предлагается использовать способ полуавтоматического аннотирования речевых баз данных, позволяющий значительно сократить долю ручного труда и влияние человеческого фактора Основные этапы формирования аннотации В основе предлагаемого способа лежит три основных компонента: система распознавания речи, текстовый процессор и система транскрипционного моделирования. Основная идея заключается в том, что нужно «научить» систему распознавания речи подготавливать обучающие данные. Общая схема процесса (рисунок 2.23) включает 7 этапов обработки [36]: первый ручной, последний автоматизирован частично, остальные полностью автоматизированы. Рассмотрим подробнее элементы представленного процесса обработки. Человек 1 Подготовительный этап Звуковые файлы и тексты звукозаписей Компьютер 2 Формирование идеальных транскрипций Компьютер 3 Предварительное обучение системы распознавания Компьютер Компьютер 4 Транскрипционное моделирование 5 Циклический этап Файлы реальных транскрипций Компьютер 6 Коррекция границ звуков Человек и компьютер 7 Завершающий этап Файлы меток звуковой разметки Рисунок 2.23 Общая схема процесса аннотирования речевого корпуса

77 2.2.2 Подготовительный этап 77 На подготовительном этапе звукозапись разделяется на фразы. Каждая фраза записывается в отдельный звуковой файл с уникальным именем. Также формируется текстовый файл, в котором устанавливается соответствие между именами звуковых файлов и текстами фраз (рисунок 2.24). Звукозаписи Тексты записанных фраз Оператор: - разделение звукозаписи на фразы; - создание файла соответствия звука и текста. Файлы записей фраз Файл соответствия текстов и записей Рисунок 2.24 Подготовительный «ручной» этап В отличие от полностью ручного процесса аннотирования, для выполнения задач первого этапа не требуется привлечения высококвалифицированного, высокооплачиваемого эксперта. Предварительную подготовку данных вполне можно поручить студентам-фонетистам. На подготовительном этапе не требуется применение никаких специальных программных средств: достаточно воспользоваться любыми текстовым редактором, и редактором звуковых файлов, поддерживающих wavформат Формирование идеальных транскрипций На втором этапе с помощью текстового процессора формируются идеальные транскрипции записанных фраз; транскрипция каждой фразы сохраняется в отдельном файле с названием, соответствующим названию звукового файла. Параллельно формируются предварительные модели звуков, используемые системой распознавания речи (рисунок 2.25).

78 78 Файл соответствия текстов и записей Текстовый процессор: - построение идеальных транскрипций записанных фраз. Файлы идеальных транскрипций Предварительные модели звуков Рисунок 2.25 Этап формирования идеальных транскрипций Основная работа выполняется лингвистическим процессором, реализующим многоуровневую обработку текста фраз, завершающуюся преобразованием текста в транскрипции [45]. Описание лингвистического процессора приводится ниже. Текстовый процессор обеспечивает пакетную обработку текстовых файлов, передавая тексты лингвистическому процессору и сохраняя полученные транскрипции. По идеальным транскрипциям определяется активный алфавит системы распознавания и проверяется полнота звукового состава речевой базы, после чего для каждого символа алфавита создаются предварительные модели звуков. Для удобства просмотра и возможности ручного редактирования модели сохраняются в текстовом формате. Лингвистический процессор Лингвистический процессор [8, 78] представляет сложный программный комплекс, со структурой, представленной на рисунке Словарь Модуль поиска словоформ Модуль акцентуации Контекстные правила Модуль контекстного анализа Модуль парсинга Файлы текстов записей Лингвистический процессор Модуль акцентно-интонационного транскриптора Файлы идеальных транскрипций Модуль формирования предварительных моделей звуков Рисунок 2.26 Структура текстового процессора Предварительные модели звуков

79 79 Лингвистический процессор включат в себя: словарь, модуль поиска словоформ, модуль парсинга, модуль акцентуации словоформ; модуль контекстного анализа; модуль акцентно-интонационного транскриптора. Словарь, модули поиска и акцентуации Словарь это лингвистическая база данных, позволяющая получить данные обо всех основных грамматических категориях словоформ. Для каждой словоформы определяется частеречная принадлежность, грамматические категории, а также положение ударения. Применяемый словарь включает более 600 тысяч словоформ. Модуль поиска словоформ обеспечивает поиск словоформ в словаре и является интерфейсным модулем между базой данных, и остальными модулями системы. Для ускорения поиска предусмотрена возможность хеширования словарных значений. Поиск словоупотреблений в словаре осуществляется по следующим правилам: словоупотребление ищется в исходном виде (то есть таким, как встретилось в тексте); словоупотребление, содержащее прописные буквы, или полностью состоящее из них, перекодируется в строчные и ищется в словаре; в словоупотреблениях, полностью состоящих из прописных букв (могут также встретиться дефис или апостроф), все буквы, кроме первой, перекодируются в строчные, после чего словоупотребление ищется в словаре; словоупотребления, содержащие дефис и не найденные в словаре, разделяются на две части (до и после дефиса), которые ищутся в словаре как отдельные словоупотребления. Если обе части найдены, они считаются отдельными словоупотреблениями, а дефис между ними - знаком препинания. Модуль акцентуации предназначен для расстановки ударений в словоупотреблениях. При этом словоупотребления подразделяются на три класса:

80 80 словоформы, для которых есть словарная статья или статьи. Акцентуация опознанных словоформ, выполняется по определенным правилам, описание которых выходит за рамки данной работы. неопознанные словоупотребления. Для неопознанных словоупотреблений применяется один из двух вариантов обработки: ударения выставляются на средний слог в словоупотреблении, или каждый слог считается ударным; исключения. Обработка исключений проводится согласно спискам исключений, и результат поиска по словарю для акцентуации не применяется. Модуль парсинга Модуль парсинга условное название, реальный функционал модуля не ограничивается парсингом. Парсер является ядром лингвистического процессора: он отвечает за выделение предложений из текста и их лингвистическую обработку, обращаясь к различным компонентам системы. На первом этапе работы парсера из текста выделяются предложения. Выделение предложения производится по пунктуационным признакам конца предложения (символ конца абзаца, многоточие, вопросительный знак с многоточием, восклицательный знак с многоточием, вопросительный знак, восклицательный знак и точка, кроме ситуаций, когда она служит частью сокращенного написания слов или инициала). Предполагается, что текст не содержит орфографических и пунктуационных ошибок. Выделенные предложения разбиваются на словоупотребления цепочки знаков расширенного алфавита 4, разделенные цепочками иных знаков. Выделяются следующие категории словоупотреблений: обычные словоупотребления; сокращения (с точкой, со слэшем и иными неалфавитными знаками); цифровые образования; 4 Расширенный алфавит включает в себя знаки кириллицы, апостроф и дефис (вместе обычные русские алфавитные знаки), слэш ("дробь"), латинские буквы, десятичные цифры, условные знаки основного и дополнительного ударения, точку как часть сокращения.

81 81 буквенно-цифровые образования; словоупотребления, полностью написанные латиницей; словоупотребления, в которых присутствуют как латинские, так и русские буквы; словоупотребления, в которых присутствует смесь кириллицы, латиницы и цифр. Для словоупотреблений, не являющихся обычными, вызываются специальные процедуры обработки, приводящие их к обычному виду. После чего все словоупотребления ищутся в словаре и проходят процедуру акцентуации. Затем парсер обращается к модулю контекстного анализа, выполняющему контекстный анализ текста для снятия контекстной омонимии (неоднозначности результатов поиска). В результате контекстного анализа во всех словоупотреблениях расставляются маркеры словесных ударений, и производится упрощение орфографии в сложных для транскрипции случаях. Далее определяются места расстановки пауз предложение разбивается на синтагмы, для каждой синтагмы определяется ее интонационный тип, а также места постановки фразового и логического ударения, и установка соответствующих маркеров, анализируемых модулем акцентно-интонационного транскриптора. Модуль контекстного анализа Работа модуля контекстного анализа основана на библиотеке контекстных правил. Контекстные правила записываются на специально разработанном, формальном языке, позволяющем записывать контекстные правила, опирающиеся на морфологические данные. Модуль контекстного анализа включает интерпретатор правил, что позволяет корректировать работу системы без внесения изменений в программный код. Используемый язык пред-

82 82 ставления контекстных правил разработан Кудрявцевой М.П. [54], а запись правил осуществляется в нотации «Бэкуса-Наура» 5 [1]. Обработка словоформ каждого предложения осуществляется в несколько проходов. Каждый проход также является правилом, объединяющим в себе список других, более простых правил. Соответственно направлению просмотра словоформ предложения различаются прямой (от начала к концу) и обратный (от конца к началу) проходы. После каждого прохода проверяется три условия, определяющие дальнейшую последовательность обработки: если в результате прохода предложения разрешены все случаи омонимии, дальнейшие проходы не должны выполняться; если в результате прохода не было применено ни одно правило, следует перейти к следующему проходу; если задан параметр, и в результате прохода предложения разрешен хотя бы один случай омонимии, то проход повторяется. Предусмотрено пять категорий правил: разрешения омонимии; обработки буквенно-цифровых написаний числительных; расстановки фразовых и логических ударений; паузации; определения интонационного типа. Правила позволяют задавать и проверять условия, определять и выполнять последовательности действий. Предусмотрена возможность использования констант, переменных, типов данных, функций и процедур 6, как определяемых пользователем, так и предопределенных в системе. Подробнее о контекстных правилах [56]. 5 Формой (или нотацией) Бэкуса-Наура называют особые обозначения для описания синтаксиса какого-либо формального языка. 6 Различие между функциями и процедурами состоит в том, что последние не возвращают значения

83 83 Модуль акцентно-интонационного транскриптора Каждая размеченная синтагма поступает на вход акцентноинтонационного транскриптора - компонента, переводящего текст из орфографической формы записи в фонетическую транскрипцию, а также формирующего ее просодический образ. Соответственно, модуль состоит из двух компонент: модуля транскриптора и модуль формирования просодики. Модуль транскриптора осуществляет транскрибирование входной строки-синтагмы русского текста, состоящей из строчных символов русских букв и специальных знаков (ударения, знаки в словах-исключениях, в местах микро пауз) и формирования входных данных для модуля просодики. Модуль формирования просодики рассчитывает физические характеристики аллофонов, составляющих синтагму, на основе информации об ударениях различных типов и интонационном типе синтагмы. Транскрибирование осуществляется по ряду правил, которые могут быть представлены в удобочитаемом виде в виде таблиц. Для примера приведем таблицу 24 правила транскрибирования для букы «а». Таблица 2.4 Правила транскрибирования буквы «а» Позиция в слове относительно ударения них знаков пция Позиция относительно сосед- Транскри- Пример после пробела а'рка -> [a0]рка под ударением после согласных, кроме ч, щ бра'т -> бр[a0]т А0 / a0 после гласных коа'ла -> ко[a0]ла после согласных ч, щ часто -> ч[a0]сто мать Антона - мать перед ударным слоготона - мяч [A1]нтона, мяч Ан- после пробела A1/a1 [A1]нтона после согласных, кроме ч, щ вагон-в[a1]гон 1-ый гласный перед по-армейски ударным слогом после гласных по[a1]рмейски - карандаш - после согласных, кроме ч, щ не 1-ый гласный перед ударным слогом по-американски - к[a2]рандаш A2/a2 после гласных по[a2]мерикански заударный слог после согласных марка-марк[a4] A4/a4 после гласных предударный слог после ч, щ I1/i1 часы - ч[i1]сы заударный слог после ч, щ не перед пробелом I4/i4 площадь - площ[i4]дь

84 84 Формирование просодических параметров для целей сегментации звуковой базы интереса не представляет, поэтому опустим его описание. Дополнительно в транскрипторе предусмотрен режим «микропауз», при котором каждое слово, входящее в синтагму, обрабатывается отдельно, как если бы оно было окружено паузами, и в транскрипцию включается дополнительный символ микропаузы. Режим «микропауз» позволяет расширить возможности транскрипционного моделирования Предварительное обучение системы распознавания На третьем этапе, на основе звуковых данных и идеальных транскрипций производится предварительное обучение системы распознавания речи (рисунок 2.27). Файлы записей фраз Тексты записанных фраз Предварительные модели звуков Система распознавания речи: - Обучение моделей звуков. Модели звуков Рисунок 2.27 Предварительное обучение системы распознавания речи Используются два модуля системы распознавания: первый вычисляет средние значения и ковариацию на всем множестве обучающих данных, и использует их для начальной инициализации параметров HMM; второй выполняет одиночное переобучение параметров моделей звуков. Предварительное обучение системы распознавания осуществляется за четыре шага. На первом шаге выполняется начальная инициализация моделей звуков, три последующих шага это три прохода обучения. Обучение моделей производится по файлам параметрического описания звука, подготавливаемым заранее.

85 85 Эксперименты показали, что практически без потери качества, начальную инициализацию параметров моделей можно производить константными значениями Транскрипционное моделирование На четвертом этапе к каждой идеальной транскрипции применяется метод транскрипционного моделирования [10], позволяющий сформировать множество «реально возможных» транскрипций, из которых далее будет осуществляться выбор варианта произнесения, наиболее близкого к реально реализованному диктором (рисунок 2.28). Идеальные транскрипции Правила транскрипционного моделирования Модуль транскрипционного моделирования Файлы реально-возможных транскрипций Рисунок 2.28 Транскрипционное моделирование Цель транскрипционного моделирования: сформировать максимально возможное количество вариантов произнесения, для последующего выбора наиболее близкого к реально реализованному диктором. Необходимость транскрипционного моделирования объясняется тем, что произнесение слов обладает значительной вариативностью одно и то же слово, сказанное одним и тем же человеком, может состоять из разных наборов звуков. Транскрипционное моделирование основано на применении правил моделирования, список которых формируется как на основании знаний, так и в результате наблюдений. Такой двойной подход к формулированию правил

86 86 позволяет строить транскрипции наиболее близкие к произношениям, встречающимся в действительности. Все применяемые правила делятся на две больших группы: правила пропуска звуков, и правила замен. Правила пропуска звуков описывают ситуации, когда звук, который должен присутствовать при нормативном произнесении высказывания, не произносится. Правила замены звуков описывают ситуации, когда вместо звука, который должен быть произнесен при нормативном произнесении высказывания, произносится какой-то другой звук. Дополнительно можно определить правила вставки звуков, описывающие ситуации, в которых при произнесении высказывания в нем появляются дополнительные звуки, отсутствующие в нормативной реализации высказывания. Для примера приведем несколько правил пропуска звуков (таблица 2.5) и правил замен (таблица 2.6). Таблица 2.5 Правила пропуска звуков Правило <sil><unv1><unv2><*> --> <sil><unv2><*> Если в начале синтагмы присутствует два глухих согласных, то первый из них может быть не произнесен. <*><expuv1><expuv2><expuv3><*> --> <*><expuv1><expuv3><*> В последовательности из трех глухих взрывных согласных, средний звук может теряться. <*><unv1><unv2><sil> --> <*><unv1><sil> Если синтагма заканчивается двумя глухими согласными, последний звук может быть не произнесен. <*><voc4><*> --> <*><*> Заударные гласные могут не произноситься Пример _ f s' A0 k' i4 j' --> _ s' A0 k' i4 j' (всякий) p r a1 s p' E0 k t p r a2 s v' i1 sc E0 n' i4 j' A4 --> p r a1 s p' E0 k p r a2 s v' i1 sc E0 n' i4 j' A4 (Проспект просвещения) m' E0 s' t' --> m' E0 s' (месть) k o0 l a4 k a4 l --> k o0 l a4 k l k o0 l a4 k a4 l --> k o0 l k a4 l k o0 l a4 k a4 l --> k o0 l k l

87 87 Таблица 2.6 Правила замен Правило <*><voc4><*> --> Заударные гласные могут заменяться неопределенным звуком «шва» <*><f><s><k><*> --> <*><v><s><k><*> Глухой «ф» в сочетании с «ф + с + к» может заменяться парным «в» <*><ch><i1><*> --> <*><ch><е1><*> После «ч» предударный «и» может звучать как «э» Пример k o0 l a4 k a4 l --> k o0 l k o0 l a4 k a4 l --> k o0 k a4 l k o0 l a4 k a4 l --> k o0 l a4 l (колокол) n' E0 f s k' i4 j' --> n' E0 v s k' i4 j' (Невский) ch i1 t y0 r' E4 --> ch e1 t y0 r' E4 (четыре) Если идеальные транскрипции были сформированы в режиме микропауз, то при транскрипционном моделировании есть возможность описать несколько вариантов паузации (способов расстановки пауз между словами в предложении). Однако, это требует также подготовки дополнительного комплекта правил, отрабатывающие изменения звуков на стыках слов. Правила моделирования задаются в виде текстового файла, который считывается в память и переводится во внутреннее представление. В общем случае каждое правило определяет звук, для которого оно применяется, а также последовательность звуков слева и справа от него. Также правило определяет новую последовательность звуков, смещение новой последовательности, относительно центрального звука, и признак "обязательности" правила. Последовательность применения правил задается либо специальным списком правил, либо порядком их объявления в файле правил (рисунок 2.29).

88 88 Файл правил транскрипционного моделирования Загрузка правил транскрипционного моделирования Список правил Идеальная транскрипция Формирование списка транскрипций Обход списка правил Рабочее правило Все правила применены Поиск и исключение повторных транскрипций из списка Список транскрипций Нет Обязательное правило? Да Перевод в текстовый формат Формирование копии списка транскрипций Список транскрипций Выход Применение правила к копии списка Применение правила к исходному списку Объединение списка транскрипций Рисунок 2.29 Алгоритм транскрипционного моделирования Далее на вход алгоритма транскрипционного моделирования подается идеальная транскрипция. Исходная транскрипция добавляется в список результирующих транскрипций, после чего к нему начинают по очереди применяться правила моделирования. Если правило моделирования обязательное, то оно применяется непосредственно к текущему списку транскрипций, если нет - то к его копии, после чего результирующий список транскрипций добавляется к основному списку, а копия списка транскрипций удаляется. По мере применения правил список транскрипций увеличивается, и каждое следующее правило работает с обновленным списком транскрипций. Применение правила к заданной транскрипции происходит согласно алгоритму, представленному на рисунке 2.30.

89 89 Транскрипция Список правил Построение карты модификаций и подсчет их количества Выход Нет Есть модификации? Да Правило обязательное? Нет Формирование рабочего списка транскрипций Да Обход карты и применение правила к текущей транскрипции Выход Выход Внесены все изменения Список транскрипций Обход карты модификаций и списка транскрипций Применение правила к транскрипциям списка Рисунок 2.30 Алгоритм применения правила к транскрипции 1. Строится карта применимости правила к транскрипции и подсчитывается количество возможных модификаций. Для этого, каждый символ (звук) транскрипции сравнивается с центральным звуком правила. Если они совпадают, то выполняется сравнение контекстов. Если и контексты совпадают, то в карте применимости делается соответствующая отметка, и увеличивается счетчик модификаций Если счетчик модификаций равен нулю, то правило возвращает пустой список модифицированных транскрипций. 3. Если правило модификации обязательно, применяем его ко всем точкам транскрипции, согласно карте применимости, и выходим. 4. Создаем рабочий список транскрипций, содержащий исходную транскрипцию, в количестве равном 2 в степени счетчик модификаций. 5. Просматриваем карту модификаций и изменяем транскрипции рабочего списка. 6. Возвращаем рабочий список транскрипций, с внесенными в него изменениями. 7 Карта применимости - это массив флагов. Длина массива равна длине транскрипции. Каждый флаг соответствует звуку из транскрипции. Если правило применимо к звуку в данной позиции флаг установлен, если нет - значит флаг не установлен.

90 90 После того, как применены все правила, из сформированного списка транскрипций исключаются все повторные транскрипции. Полученный список транскрипций и является результатом моделирования. Для удобства, он может быть преобразовании в текстовый вид и сохранен в текстовый файл Циклический этап Обычно, невозможно определить границы звуков с высокой точностью при первой попытке сегментации, поэтому организуется следующий циклический процесс (рисунок 2.31): 1. Выполняется распознавание каждого звукового файла в терминах реально возможных транскрипций. Формируются файлы меток, содержащие наиболее вероятные транскрипции; 2. Определяются границы отдельных звуков; 3. Модели звуков переобучаются на основе звуковых данных, и транскрипций, признанных наиболее вероятными в результате распознавания. Переобучение может идти двумя путями: с учетом полученных границ звуков, или без учета, на основании выбранной наиболее вероятной транскрипции. Эксперименты показали, что выбор способа переобучения не оказывает существенного влияния на точность сегментации; 4. Если это первый проход, то выполнение продолжается от пункта 1; 5. Полученная разметка на звуки сравнивается с разметкой, полученной на предыдущем проходе. Если разметка изменилась, то выполнение продолжается от пункта 1; если нет считается, что достигнуто оптимальное разделение на звуки. Для сравнения файлов меток используется ПО, позволяющее учитывать случайные дрожания границ звуков. Процедура сравнения не представляет особой алгоритмической сложности.

91 91 Файлы записей фраз Файлы реально-возможных транскрипций Модели звуков Система распознавания речи: - распознавание записей фраз в терминах реально-возможных транскрипций. Наиболее вероятные транскрипции Система распознавания речи: - звуковая разметка. Разметка Разметка на звуки на звуки Сравнение звуковых разметок Признак завершения разметки Система распознавания речи: - обучение моделей звуков. Модели звуков Рисунок 2.31 Циклический этап Обычно требуется от трех до пяти проходов для достижения оптимальной (с точки зрения алгоритма) разметки Коррекция границ звуков На шестом этапе выполняется коррекция границ звуков (рисунок 2.32), заключающаяся в переносе меток на начала периодов основного тона для вокализованных звуков, а также в уточнении границ между звонкими и глухими звуками. Данная коррекция необходима, так как система распознавания речи определяет границы с точностью до шага смещения окна анализа. Коррекция разметки требуется, если область применения аннотируемой базы не ограничивается обучением систем распознавания речи. Для качественного обучения системы распознавания достаточно надежного выбора реализованного варианта транскрипции.

92 92 Файлы записей фраз Разметка на звуки Модуль коррекции меток Разметка на звуки Рисунок 2.32 Этап коррекции разметки Границы звуков важны при использовании базы для синтеза речи по тексту, когда необходимо обеспечивать плавные переходы между речевыми фрагментами. Разметка корректируется следующим образом: - на вокализованных звуках метки проходили через начала периодов основного тона 8 ; - на границах глухих и вокализованных звуках через точку завершения (начала) вокализованного участка; - на границах глухих звуков метки должны устанавливаться по переходу через ноль, наилучшим образом разделяющим звуки. Все указанные корректировки разметки осуществляются с помощью корреляционной функции. Диапазон коррекции составляет плюс/минус удвоенное смещение системы распознавания от исходного положения метки. Алгоритм коррекции следующий: - на промежутке коррекции определяются нулевые точки и точки, соответствующие переходам через ноль (2.1): y < 0, y 0, где (2.1) x 1 x > y значение отсчета сигнала с координатой x. - дальше процесс разделяется в зависимости от типов соседних звуков. На границах вокализованных звуков: 8 Разные авторы определяют границы периодов ОТ различными способами. Мы принимаем за начало периода ОТ переход через ноль, предшествующий локальному максимуму амплитуды.

93 93 - для точек, расположенных правее координаты текущей метки рассчитываются значения функции корреляции вправо (2.2): corr n = ( t) ( s( x) s( t + x) ), s( x) y = 0, ( x), y( x) y( ) > 0 x= 0 x 0, где (2.2) t координата точки, для которой определяется корреляция; n количество точек, используемых для расчета корреляции; s(x) значения отсчетов сигнала в области положительных значений амплитуд. - для точек, расположенных левее координаты текущей метки рассчитываются значения функции корреляции влево (2.3): corr n = ( t) ( s( x) s( t x) ), s( x) y = 0, ( x), y( x) y( ) > 0 x= 0 x 0. (2.3) - за искомую точку принимается точка, с максимальным значением корреляции На границе звонкого и глухого звука для всех точек рассчитывается корреляция влево (2.3); - за искомую точку принимается точка с минимальным значением корреляции; На границе глухого и звонкого рассчитывается корреляция вправо (2.2); - за искомую точку принимается точка с максимальным значением корреляции; На границах глухих звуков для точек левее текущей координаты метки рассчитывается корреляция влево (2.3), а для точек расположенных правее корреляция вправо (2.2); - за искомую точку принимается точка с минимальным значением корреляции.

94 94 Следует отметить, что для границ глухой/звонкий и звонкий/глухой иногда оказывается полезным применять расчет корреляции в направлении противоположенном указанному, и при выборе координаты границы, заменять минимум на максимум и наоборот. Для каждого диктора такой подбор корректирующей схемы осуществляется экспериментальным путем. Экспериментально определяется и количество отсчетов, используемых для расчета корреляции. В общем случае можно рекомендовать принимать за n значение порядка трех периодов основного тона, при счете на звонких звуках, и порядка длины окна системы распознавания на глухих звуках Завершающий этап На последнем этапе формируется подробная аннотация звуковой базы, содержащая не только информацию о разбиении на звуки, но и информацию об интонационных контурах (рисунок 2.33). При необходимости может быть выполнена дополнительная внутризвуковая разметка на периоды основного тона, звонкие/глухие смычки и другие элементы структуры звуков в зависимости от конкретной решаемой задачи. Файлы записей фраз Разметка на звуки Файлы идеальных транскрипций Сверхзвуковая разметка; Формирование подробной аннотации. Подробная аннотация Проверка и коррекция автоматической разметки (оператор) Подробная аннотация Рисунок 2.33 Этап формирования подробной аннотации Под дополнительной разметкой понимается выделение внутренней структуры звуков. Обычно, такая дополнительная сегментация для базы слитной речи не требуется, поэтому отметим лишь ее основные принципы.

95 95 Вся дополнительная сегментация выполняется с учетом знаний об особенностях строения звуков разных типов. Вокализованные звуки размечаются на периоды основного тона с использованием корреляционной функции; глухие звуки сегментируются по уровню энергии. Уровень энергии также используется для выделения взрыва у звонких взрывных. Сведение файлов меток, файлов идеальных транскрипций и просодических данных (ИТ синтагм) выполняется с помощью программного обеспечения, разработанного авторами, и не представляет алгоритмической сложности. В результате получается набор файлов описаний в стандартном segформате, соответствующих одноименным звуковым файлам. Seg-формат выбран исключительно для удобства возможности последующей работы с аннотированной базой с использованием стандартных программ, таких, как EDSW [7], нашедших широкое применение в научной работе на кафедре фонетики СПбГУ. Дополнительно на последнем этапе может быть выполнена ручная проверка и коррекция автоматического разбиения на звуки (рисунок 2.33). Как и коррекция разметки, формирование подробной аннотации необходимо, когда предполагается использовать речевую базу не только в распознавании, но и в синтезе речи Особенности предложенного способа Предлагаемый способ автоматизации аннотирования больших речевых корпусов позволяет значительно снизить объем ручной работы, что в несколько раз сокращает временные и материальные затраты. Использование лингвистического процессора и модуля транскрипционного моделирования дает возможность автоматически определять реальный звуковой состав фраз, а знания о строении звуков, перенесенное в модели звуков, позволяют системе распознавания определять границы звуков с высокой точностью.

96 96 Алгоритмы коррекции границ звуков позволяют учесть особенности строения сигнала, и учесть неточности сегментации, получаемой на выходе системы распознавания, и скорректировать сегментацию таким образом, что ручной постобработки практически не потребуется, и автоматически сформированная аннотация может сразу применяться для формирования синтезированного речевого потока. Аннотация звуковой базы, полученная с применение алгоритмов коррекции границ звуков, оказывается более адекватной, и позволяет осуществлять синтез речи по тексту с высокими показателями разборчивости и естественности. Выбор реально реализованных транскрипций фраз, используемых при обучении системы распознавания речи, позволяет повысить точность обучения звуковых моделей, и соответственно, увеличить качество распознавания. Также удобство предлагаемого способа состоит в том, что он позволяет получить аннотацию практически любой записи речи, даже если она изначально не предназначалась для использования в качестве речевой базы данных. Необязательным является и наличие текстов звукозаписей они могут быть сформированы во время подготовительного этапа, однако, это потребует большего времени на его осуществление. 2.3 Экспериментальная проверка Проверка эффективности предложенных структур звуковых моделей и способа аннотирования речевых баз выполнялась на речевом корпусе, записанном компанией Вокатив, содержащем более 50 часов звукозаписей. Исходные данные представляют собой комплект звуковых файлов и файлов с текстом, соответствующим звуковому содержанию. В одном файле содержится речь только одного диктора. Длительность записи составляет от одной до нескольких фраз. В корпусе представлены записи 176 дикторов (87 мужчин и 89 женщин в возрасте от 18 до 76 лет).

97 97 Для обучения и распознавания использовалось ПО созданное на базе системы HTK [186]. Внутризвуковая разметка и подробная аннотация записей не создавались, ручная проверка и корректировка сегментации не выполнялись. Тестирование проводилось на звуковой базе, не участвовавшей в обучении и содержащей более высказываний (около 13 часов звука), относящихся к 5 грамматикам. В результате эксперимента были получены следующие проценты распознавания для стандартных моделей звуков и моделей звуков со структурой, учитывающей особенности их артикуляции (таблица 2.7). Таблица 2.7 Сравнительные точности системы распознавания Грамматика Кол-во Точность, % Уменьшение Слов Записей До После ошибки, % Названия фильмов ,05 98,27 41,36 Станции метро ,02 98,54 26,26 Даты ,67 98,10 18,45 Страны ,20 99,46 32,50 Города ,31 98,32 37,55 Из таблицы 2.7 видно, что на всех тестовых грамматиках имеет место прирост процента правильного распознавания при использовании моделей звуков, учитывающих процессы речеобразования и обученных на звуковой базе, аннотированной с помощью предложенного способа. Вероятность ошибочного распознавания сокращается на 18 41%. 2.4 Выводы Исследованы классификационные признаки звуков русской речи и предложена смешанная классификация, в которой звуки объединены в группы не только по артикуляционным признакам, но и по особенностям структуры сигнала: щелевые согласные разделены на две дополнительных группы по уровню энергии звуков: громкие и тихие;

98 98 звук «T» отнесен к мягким аффрикатам, т.к. его структура к ним ближе, чем к глухим взрывным; по близости структуры «V» и «V», а также отнесены глайды «L», «L» и «J» отнесены к назальным сонантам; в отдельную категорию выделены дрожащие «R» и «R»; гласные разделяются на два класса не по критерию участия губ в звукообразовании, а по сложности спектральной картины; дополнительно для гласных введен признак твердости/мягкости по взаимодействию с предшествующим «J»; дополнительно введен «неопределенный» гласный, который не может быть однозначно идентифицирован. Исследована структура звуковой волны, соответствующая различным типам звуков русской речи, и предложены модели, учитывающие эту структуру. Выполнена экспериментальная оптимизация предложенных структур моделей звуков. Предложен способ автоматизации аннотирования больших речевых баз, позволяющий минимизировать количество ручного труда. При аннотировании используются модели звуков речи, учитывающие структуру звуковой волны. Для учета вариативности произнесения фраз дикторами и повышения точности описания звукового состава высказываний разработан метод транскрипционного моделирования. Проведены эксперименты, показывающие уменьшение процента ошибочного распознавания на 18-41% при использовании предложенных структур моделей звуков русской речи, и обучении системы с использованием предложенного способа аннотирования обучающей базы.

99 99 Глава 3 Статистическая модель речи Язык представляет собой живую, постоянно изменяющуюся систему: изменяется словестный состав, нормы произношения, характер речи. Как невозможно объять необъятное, так невозможно охватить весь бесконечный по объему постоянно изменяющийся речевой материал. Обычно исследования ограничивается изучением лишь незначительного его фрагмента. Исходя из целей исследования принципы формирования речевого корпуса (речевой базы) могут быть различными, однако, остается обязательное условие представительности или корректного отражения закономерности функционирования системы данного языка. В качестве представительности может рассматриваться как представительность по звуковому составу, так и по типам голосов дикторов, начитывающих звуковой материал. В последние годы во многих странах мира ведется работа по организации звукового материала в виде компьютерных баз данных. Эта работа проводится в основном в двух направлениях: создание звуковых баз данных для организации и хранения ценных архивных материалов и создание автоматизированных корпусов речевых данных. Основная идея статистической модели речи заключается в создании отображения современного состояния русского языка, на основании которого через несколько сотен лет потомки смогут сказать, что и как говорили, какими голосами, с какими интонациями [39, 43]. Таким образом, будет снят вопрос об ограниченности по многим параметрам исследуемых речевых корпусов. Статистическая модель будет представительной по типам голосов, по наборам звуков, по интонационному оформлению и словарному запасу. Статистическая модель позволит моделировать речевой поток групп населения, различных по возрасту, полу, роду деятельности и социальному положению. Естественно, что создание такой модели требует значительных временных, интеллектуальных и материальных затрат.

100 100 Кроме «послания в будущее» статистическая модель имеет ряд практических приложений. Причем не обязательно ждать лет до завершения проекта в полном объеме. Уже сегодня построена упрощенная модель, способная стать основой для построения систем синтеза, генерирующих речь разными голосами с высокой естественностью и разборчивостью. Кроме того, упрощенная статистическая модель может быть использована для оценки качества звуковых сигналов без привлечения к тестированию людей, или для обучения систем распознавания речи. При этом упрощенная модель включает в себя все необходимые алгоритмы и основные структуры данных. По мере подготовки данных упрощенная статистическая модель будет расти и становиться полноценной моделью. 3.1 Альтернативы Какие же альтернативы существуют на сегодняшний день у статистической модели? Вопрос в том, насколько широко рассматривать статистическую модель. Если ее сузить до моделей речевого потока различных групп населения, то можно утверждать следующее: «В процессе подготовки заявки на получение патента РФ на полезную модель - статистическую модель речи, был проведен всесторонний патентный поиск по патентным и литературным источникам. Патентный поиск выявил отсутствие однозначного прототипа у статистической модели» [13]. Таким образом, с высокой долей вероятности, можно утверждать, что статистическая модель (русской) речи является пионерским проектом. В качестве ближайшего направления, по которому ведутся работы и есть доступная информация, можно рассматривать речевые базы данных [126, 137, 138]. Речевые базы создаются во многих странах мира, наполнение и назначение этих баз очень разнообразно. Интерес к таким базам обусловлен и тем, что для решения практически любой задачи из области речевых технологий (синтез, распознавание, идентификация или верификация), требуется запись соответствующей речевой базы.

101 101 В 1992 году в США был создан консорциум LDC (Linguistic Data Consortium), объединивший в себе более 100 компаний, университетов и разработчиков. LDC предлагает более 100 речевых баз, которыми пользуется более 600 компаний [101]. Одним из наиболее популярных продуктов, предлагаемых LDC, является корпус спонтанной речи TIMIT, включающий в себя записи 10 фонетически представительных фраз, начитанные 630 дикторами, носителями 8 основных диалектов американского английского. Все записи отсегментированы и затранскрибированы. Предусмотрена возможность доступа к звуковым данным по их описанию. В 1995 г. под эгидой Комиссии Европейского Сообщества была создана Европейская ассоциация лингвистических ресурсов ELRA (European Language Resources Association), ставящая свой целью взаимодействие ученых западноевропейских стран в области создания и распространения источников, необходимых для изучения языков и конструирования систем обработки данных на естественных языках. ELRA распространяет через Internet лингвистические ресурсы, создаваемые в рамках различных проектов и ассоциаций, например ELSNET (European Network in Language and Speech) и Copernicus RELATOR [91, 94, 95]. Компания Cognitive Technologies занимается речевыми технологиями с 1993 года. В 1997 году была записана речевая база ISABASE, содержащая более 5000 предложений, произнесенных 50 дикторами. База состояла из двух частей: фонетически сбалансированной и фонетически репрезентативной. Фрагменты речи сопровождались разметкой на лексические и фонетические единицы (слова и фонемы) [90]. В 2001 году по заказу Intel Corp. [96] компания Cognitive Technologies записала речевой корпус большого объема RuSpeech. Отрывки для речевого корпуса зачитывали 220 дикторов, каждый в среднем произнес около 250 предложений. В итоге, в RuSpeech вошло более 50 тыс. предложений (общий объем речевой базы 15 Гб), прослушивание которых занимает примерно 50

102 102 часов. В работе над RuSpeech принимали участие ведущие специалисты в области фонетики во главе с профессором филологического факультета МГУ Ольгой Кривновой. На кафедре фонетики СПбГУ была разработана акустическая звуковая база данных звуковой архив, предназначенная для организации архивных звукозаписей в компьютерной форме. Звуковой архив обеспечивает доступ пользователя не только к звуковому материалу и его атрибуции, но и текстовой расшифровке, транскрипциям и т.п. Звуковой архив использовался для организации архива В.М. Жирмунского из коллекции Фонограммархива Пушкинского дома, в котором собраны образцы фольклора немцев, проживавших в России в 20-х 30-х годах прошлого века [75]. Также можно говорить про все направления, относящиеся к речевым технологиям, т.к. статистическая модель призвана служить проведению исследований и разработок по каждому из них, однако, это будет очень длинный разговор. Мы остановимся лишь на синтезе речи (не на синтезе речи вообще, а лишь на обработке речевого сигнала), т.к. многие алгоритмы этого направления являются неотъемлемой частью статистической модели. На сегодняшний день известны два основных принципа построения систем синтеза речи это синтез «по правилам» и компилятивный синтез. Синтез «по правилам» основан на формировании физических характеристик звуков речи на основе их математических описаний и обладает низкой естественностью. Для статистической модели, содержащей большой объем звуковых данных, более естественным является компилятивный синтез, предполагающий вырезание сегментов из естественных речевых последовательностей, их последующую обработку и склейку. Цифровая обработка речевого сигнала позволяет решить задачи изменения частоты основного тона и длительности фрагмента сигнала. Однако, благодаря большому объему речевых данных, модификация звукового сигнала не требуется, либо требуются минимальные изменения исходного звука.

103 103 Изменение длительности фрагментов речевого сигнала решается достаточно простыми способами и зависит от типа звука. Изменение длительности паузы или смычки у глухих взрывных достигается добавлением участка с нулевой амплитудой для увеличения длительности, или удалением части смычки или паузы для сокращения. Изменение длительности щелевых согласных осуществляется удалением / копированием фрагментов шума нужной длительности. Длительности звонких согласных и гласных изменяются путем размножения / выбрасывания определенных периодов основного тона. Наиболее сложной задачей является изменение частоты основного тона (ЧОТ). В настоящее время для ее решения применяются различные методы. На первый взгляд, самыми естественными способами изменения ЧОТ представляются LPC-преобразование и преобразование Фурье. Однако, оба они вносят существенные искажения в сигнал, приводящие к потере естественности и искажению перцептивных характеристик, и требуют разработки специальных средств качественного восстановления модифицированного сигнала [75]. Наиболее простым способом изменения ЧОТ является добавление отсчетов с нулевой амплитудой (для понижения) и, соответственно, выбрасывание отсчетов в конце периода [74] (для понижения ЧОТ). Недостатком данного метода является низкие пределы изменения ЧОТ и высокие искажения звука. Наиболее распространенным алгоритмом изменения ЧОТ является TD- PSOLA (Time-Domain Pitch Synchronous-Overlap-and-Add), использующий оконную обработку сигнала и требующий точного выделения периодов основного тона [118, 119, 130, 131]. PSOLA обеспечивает высокое качество модифицированного сигнала, но существенно искажает тембр голоса, что снижает естественность синтезированной речи. Известны и модифицированные версии алгоритма PSOLA, использующие разделение сигнала на шумовой и голосовой компоненты для лучшего

104 104 сохранения индивидуальных характеристик голоса и приближения модифицированного сигнала к естественному [55]. 3.2 Сущность статистической модели Общие положения Речь состоит из звуков. Каждый человек генерирует уникальный набор звуков. Однако, можно выделить типовых дикторов (ТД), производящих усредненные типы звуков. Дикторы группируются по возрасту, полу, регионам, социальному положению, образованию, роду деятельности и т.д. Для ТД нужно определить частотности звуков и вероятности их следования друг за другом, интонационные контуры, словари, физические характеристики отдельных звуков. На основе этих данных можно моделировать естественный речевой поток. В систему также нужно включить статистическую информацию о составе населения, и с ее помощью генерировать речевые потоки с характеристиками, соответствующими населению, проживающему в каком-либо регионе или стране в целом. Грубо говоря, статистическая модель должна объединить в себе статистические данные о составе населения, речевые базы ТД, средства обработки речевого сигнала (алгоритмы синтеза), средства для определения параметров звуков речи, алгоритмы генерации распределений звуков и дикторов Общая структура статистической модели Общая структура статистической модели представлена на рисунке 3.1

105 105 1 Интерфейсный блок Запрос списка ТД 7 Список ТД 2 Команда Блок выбора диктора Запрос параметров Рапорт 3 Выборка ТД Индексы ТД Параметры ТД 4 Команда Рапорт Блок выбора звуков Индексы ТД Параметры ТД Блок описаний типовых дикторов Формат звука 5 Буфер 6 просодики Просодика Просодика Речевой поток Рапорт Блок формирования речевого потока Индексы ТД Параметры ТД Рисунок 3.1 Укрупненная структура статистической модели Интерфейсный блок (блок 1) обеспечивает взаимодействие с внешним миром (или Пользователем). Он также осуществляет синхронизацию работы остальных блоков статистической модели. Блок выбора диктора (блок 2) осуществляет генерацию выборки ТД (или последовательности индексов ТД). В зависимости от команды может быть сгенерирована либо представительная выборка ТД, либо выборка, состоящая из одного ТД. Выборка является представительной в том смысле, что распределение параметров речи в ней будет соответствовать распределению параметров речи населения, описываемого моделью. Сформированная последовательность идентификаторов ТД сохраняется для дальнейшего использования в блоке выборки ТД (блок 3). Блок выбора звуков (блок 4) формирует просодику (описания звуков). В зависимости от команды просодика формируется либо для представительной выборки звуков, либо для заданной последовательности звуков, либо для одного заданного звука. Просодика сохраняется в буфере просодики (блок 5) до дальнейшего использования. Блок формирования речевого потока (блок 6) преобразует описания звуков в отсчеты звукового сигнала. Блок описаний ТД (блок 7) хранит описания ТД и возвращает по запросу: необходимые части описаний, информацию об их количестве, список дикторов.

106 106 Статистическая модель речи не является вещью в себе, она предназначена для работы в составе различных систем, в которых требуется моделировать речевой поток, являющихся Пользователями модели. Итак, Пользователь может выполнять запросы следующих типов: - запрашивать список типовых дикторов (ТД), представленных в модели; - синтезировать отдельные звуки голосом любого ТД; - синтезировать цепочки звуков голосом любого ТД; - генерировать звуковой поток, характеризующий одного ТД; - генерировать звуковой поток, характеризующий население, описываемое моделью; - отменять генерацию звукового потока. Не будем рассматривать порядок взаимодействия блоков, образующих статистическую модель, которая представляется прозрачной. Рассмотрим подробнее структуру блоков. Блоки 3 и 5 представляют собой обыкновенные очереди FIFO для хранения промежуточных данных и не имеют сложной структуры, требующей дополнительного описания. Блок 7 представляет собой базу данных, содержащую описания ТД, и средства для доступа к ней. Блок 2 блок выбора дикторов При генерации представительной выборки блок выбора диктора (рисунок 3.2) получает статистические данные об описываемом моделью населении (модуль 2.2): регион, возрастно-половой состав, уровень образования, говор/диалект, и род деятельности. Часть описаний ТД (блок 7), используемая модулем, состоит из диапазонов значений статистических параметров, позволяющих определить процент населения, соответствующий каждому ТД, и включать ТД выборку в количестве, пропорциональном составу населения.

107 107 2 Из блока 1 команда на генерацию выборки или выбор диктора. В блок 1 рапорт о завершении выполнения команды. Блок выбора диктора 2.1 Генератор выборки ТД Индексы ТД для блока Статистика параметров населения В блок 7 запрос параметров ТД Из блока 7 параметры ТД Рисунок 3.2 Блок выбора дикторов Определив сколько каких типовых дикторов нужно включить в выборку, блок выбора диктора выдает в случайном порядке их индексы в блок 3 на хранение. После того, как все необходимые индексы сохранены, блок рапортует интерфейсному блоку о завершении выполнения команды. При выборе одного конкретного диктора, блок выбора диктора просто передает его индекс на хранение в блок 3 и рапортует о завершении работы. Блок 4 блок выбора звуков Из блока 3 индексы ТД Из блока 1 Из блока 1 4 Команда на генерацию Команда на синтез выборки звуков цепочки или звука 4.1 Формирование цепочек 4.2 Приписывание ИТ В блок Именование аллофонов Рапорт о завершении выполнения команды 4.4 Определение длительностей Блок выбора звуков 4.5 Наложение интонационных контуров 4.6 Правила следования звуков 4.7 Правила именования аллофонов В блок 7 идентификаторы ТД Из блока 7 параметры ТД Рисунок 3.3 Блок выбора звуков Просодика в блок 1 и/или в блок 5 Блок выбора звуков (БВЗ, рисунок 3.3) работает в одном из двух режимов: режиме генерации распределения и режиме синтезатора, когда звук/звуки и параметры выдаются интерфейсным блоком. Рассмотрим режимы подробнее.

108 108 В режиме генерации распределения для каждого ТД (индексы которых берутся из блока 3) формируются выборки звуков с параметрами (работает модуль 4.1), как и в речи ТД. Для этого из блока описаний ТД (блок 7) по индексу берется информация о частотности звуков, и, с учетом правил следования (модуль 4.6), подготавливаются цепочки звуков от паузы до паузы. Длины цепочек также определяются параметрами ТД. Если по какой-то причине в параметрах ТД отсутствует информация о частотности звуков или длинах цепочек, то используются статистические данные, полученные на большом объеме текстов. Средняя статистика является частью блока описаний ТД. Каждой цепочке приписывается интонационный контур (модуль 4.2). Параметры интонационных контуров и информация об их используемости в речи берутся из описаний ТД. Если параметры интонационных контуров или распределения длительностей звуков, или энергии отсутствуют в описании данного ТД, берутся среднестатистические значения, являющиеся частью блока описаний ТД. С учетом контекстов (звуков слева и справа) и правил именования аллофонов (модуль 4.7), названия звуков преобразуются в имена аллофонов в модуле 4.3. Всем звукам цепочки на основе информации о параметрах ТД приписываются длительности и энергии (модуль 4.4). После чего производится наложение интонационного контура. В результате применения интонационных контуров к цепочкам звуков (модуль 4.5) для каждого звука определяется основной тон. Таким образом, на выходе модуля 4.5 известны все необходимые просодические параметры: длительность, основной тон, энергия и идентификатор ТД. Сформированная просодика сохраняется в блоке 5. Распределение просодических параметров звуков в цепочках, совпадает с распределением в реальной речи.

109 109 В режиме синтезатора на вход блока выбора звуков поступают либо отдельные звуки, либо цепочки звуков от паузы до паузы. В случае выбора отдельного звука, все просодические параметры (длительность, ЧОТ, энергия) указываются блоком 1. Блок 4 лишь именует аллофон, используя контекст «пауза»-«звук»-«пауза», и передает описание на хранение в блок 5. В случае генерации последовательности звуков блок 4 сформирует просодику в соответствии с параметрами интонационного контура, определит названия аллофонов и передаст их на вход Блока 5. После чего рапортует об исполнении команды. Процедура определения длительностей звуков отличается от процедуры, используемой в режиме генерации выборки. Если при генерации выборки длительности звуков определяются статистическим распределением, то в режиме синтезатора используются строгие правила и центральные значения распределений. Правила определения длительностей выбираются в конкретной реализации модели. Блок 6 блок формирования речевого потока 6 Просодика из блока Формирование длительностей 6.2 Изменение ЧОТ Блок формирования речевого потока 6.3 Формирование огибающей Из блока 1 формат звукового потока 6.4 Обработка стыков 6.5 Приведение к формату В блок 1. Признак завершения В блок 1 речевой поток В блок 7 идентификаторы ТД Из блока 7 параметры ТД Рисисунок 3.4 Блок формирования речевого потока Блок формирования речевого потока (рисунок 3.4.), получив просодику (из блока 5) и формат звукового потока (из блока 1), извлекает из описания ТД (из блока 7) образцы звуков с разметкой. Каждый звук приводится к длительности, определенной параметрами просодики в модуле 6.1. Для звуков разных типов разработаны разные алгоритмы (стратегии) изменения

110 110 длительности, учитывающие особенности структуры и восприятия звуков, обеспечивающие минимальные искажения качества 9 звуков. После того как длительности аллофонов сформированы, они приводятся к заданным частотам основного тона в модуле 6.2, причем ЧОТ не остается постоянной на всем аллофоне, а изменяется в соответствии с движением, заданным в просодических параметрах. Чтобы минимизировать искажения звуков, модификация ЧОТ звуков разных типов проводиться с использованием различных алгоритмов, построенных на базе PSOLA. Далее, с учетом параметров энергии, заданных в просодике, формируется амплитудная огибающая звуков цепочки (модуль 6.3), и производится морф стыков звуков для минимизации шумов на стыках (модуль 6.4). Звуковой сигнал приводится к формату, указанному блоком 1, и передается ему для последующего использования. Преобразование формата звукового сигнала производится в модуле Реализация статистической модели речи Реализация статистической модели речи выполнена на персональном компьютере в соответствии с описанием модулей и схем взаимодействия, приведенных ранее. Ниже приводится конкретизация некоторых алгоритмов, использованных в нашей реализации Генерация последовательностей В основе генерации распределений лежит генератор случайных чисел. Под случайностью обычно понимается непредсказуемость события, например такого, как результат подбрасывания монеты. В действительности же нет непредсказуемых событий: «Ничто в природе не случайно Кажущаяся случайность событий есть лишь проявление неполноты нашего знания о них» 10. Так результат подбрасывания монеты зависит от ее начальной ориентации, силы броска, сопротивления воздуха и еще очень многих факторов. 9 Здесь «качество» используется в смысле идентифицируемости звука слуховым анализатором человека. 10 Спиноза, Этика, I.

111 111 Когда зависимость сложна, проще рассматривать результат как случайный, особенно если интересен средний результат, а не конкретный исход очередного испытания. Формально случайность определяется как отсутствие определенного образца в поведении. На практике же случайные числа (события) генерируются по некоторому алгоритму, поэтому их значения предопределены, и такие числа называются псевдослучайными. Удобство псевдослучайной последовательности в ее воспроизводимости последовательность всегда может быть повторена, а работа программы, на ее основе, проверена и отлажена. Довольно часто используется генератор равномерно распределенных чисел в интервале [0, 1]. Вероятность попадания числа в подынтервал 0 a < b 1 равна длине интервала b a. Ниже представлена формула простейшего алгоритма: ( R ) Int i 1 + & R i =, где (3.1) R i очередное значение генератора случайных чисел; Int операция взятия целой части. Удобство «равномерного» генератора заключается еще и в том, что на его основе можно формировать случайные числа, имеющие более сложные законы распределения. Так, для статистической модели, был реализован генератор случайных значений (3.2), имеющих треугольное распределение. Значения A и B задают границы интервала, а значение C (A < C < B) положение максиму. R tri ( R ) uni a + = B a + ( 1.0 a) c Runi ( 1.0 a) 1.0 ( 1.0 c) ( 1.0 R ) ( ) uni,, R R uni uni < c, где (3.2) c a = A / B, C a c = B 1.0 a, R uni случайное значение с равномерного генератора (3.1).

112 Статистика о составе населения и ТД В основу статистики о составе и характеристиках населения положены данные, полученные Госкомстатом России в результате Всероссийской переписи населения 2002 года. В упрощенной статистической модели используется только информация о возрастно-половом составе населения. Соответственно для связи ТД со статистикой населения используется два критерия: пол и возраст. Введено шесть, весьма условных, ТД (таблица 3.1). Таблица 3.1 Типовые дикторы у упрощенной статистической модели ТД Пол Возраст ТД Пол Возраст моложе трудоспособного моложе трудоспособного 1 м 4 ж возраста возраста 2 м в трудоспособном возрасте 5 ж в трудоспособном возрасте старше трудоспособного старше трудоспособного 3 м 6 ж возраста возраста Процедура формирования выборки ТД работает следующим образом 11 : 1. На основе статистики о возрастно-половом составе населения определяется процент населения, соответствующий каждому ТД; 2. Значения процентов приводятся к целым числам (путем домножения на 10); 3. Производится минимизация значений (ищется наименьший общий делитель (НОД) всех значений процентов, после чего они все на него делятся); 4. Подсчитывается сумма значений процентов (N ТД ) и заводится генератор случайных чисел с равномерным распределением. Сумма значений процентов равна длине выборки, поэтому нужно устанавливать разумные ограничения на точность приведения их к целым числам; 5. Строятся интервалы значений, соответствующие ТД ([0, N ТД1 [, [N ТД1, N ТД1 + N ТД2 [ ); 6. Рассчитываются N ТД значений генератора случайных чисел. Попадание значения генератора в интервал приводит к включению ТД в выборку. 11 Возможны и другие варианты.

113 3.3.3 Генерация выборки звуков 113 Распределения звуков генерируются на основе статистики о частотности звуков. Информация о частотности звуков является индивидуальной для каждого диктора, и является частью его описания. Однако, если по каким либо причинам данная статистика отсутствует, предусмотрена возможность подмены ее статистикой, полученной на основе обработки текстов. Естественно, общая статистика не позволяет в полной мере моделировать параметры ТД, зато появляется возможность работать с голосами, данные по которым подготовлены не полностью. Для генерации выборки звуков используется примерно тот же алгоритм, что и для генерации выборки ТД. 1. Значения частотностей умножаются на одну сотую длины генерируемой выборки 12 и округляется до ближайшего целого. (Длина выборки равна Nv); 2. Строятся интервалы значений, соответствующих каждому звуку; 3. Рассчитывается Nv значений генератора случайных чисел. Для каждого значения выполняются п.п Выборка считается сформированной и выполнение алгоритма завершается, после того, как отработаны все Nv значений; 4. Определяется звук, в интервал которого попадает значение генератора; 5. Звук добавляется в выборку; 6. Проверяется количество добавленных звуков до включения паузы. Если оно меньше минимального, то переходи к п. 4; если оно больше максимального, то переходим к п.8; иначе переходим к п.7; 7. Разыгрываем возможность возникновения паузы. Если выпала пауза, то переходим к п.8; если нет то к п.4; 8. Проверяем последовательность до паузы 13 на правила следования: оглушение/ озвончение, приписывание мягкости; 12 В общем случае длина выборки в звуках это параметр программы.

114 Последний ударный гласный маркируется признаком фразового ударения, необходимым, для формирования интонационного контура; 10. В выборку добавляется символ паузы Определение длительностей звуков В зависимости от режима работы БВЗ используются разные стратегии определения длительностей звуков. В режиме генерации выборки длительности звуков определяются случайным образом с помощью генераторов случайных чисел. На каждый звук заводится генератор случайных чисел, значения которого находятся в интервале от минимальной до максимальной длительности звука. Значения длительности звука приравниваются случайным числам. В режиме синтезатора длительности звуков определяются по следующему алгоритму: 1. Для каждой цепочки звуков от паузы до паузы выполнятся пункты 2 3; 2. Всем звукам цепочки приписываются центральные (средние) значения статистик; 3. Отрабатываются группы согласных. Заводится счетчик групп, начинающийся с нуля, и выполняются пункты 4 7, после чего переходим к п.8; 4. Проверяется наличие следующих друг за другом одинаковых согласных. Сдвоенные согласные заменяются одним звуком с увеличением его длительности 14 : для смычных увеличение в 1.7 раза; для щелевых в 1.4 раза; 5. Проверяется наличие следующих друг за другом щелевых и аффрикат. Длительности согласных в парах изменяются следующим образом: длительности щелевых в паре увеличиваются в полтора раза; 13 От паузы до паузы. Паузу также можно рассматривать и как символ с заданной частотностью. Кроме того, можно предусмотреть два типа пауз паузу, разделяющую слова и не дающую звука, и паузу, разделяющую синтагмы, соответствующую наличию тишины в речевом потоке. 14 На самом деле все коэффициенты это параметры. Здесь даны значения умолчания.

115 115 длительности звуков в паре щелевой аффрикат увеличивается в 1.6 раза; длительности звуков в паре аффрикат щелевой увеличивается в 1.6 раза; 6. Длительность согласных в группе уменьшается на 0.05, умноженное на номер группы; 7. Счетчик групп увеличивается; 8. Корректируются длительности аллофонов «iх» после аллофонов «j». Производится увеличение длительности в 1.2 раза; 9. Корректируются длительности звуков в сочетаниях гласный «j» - гласный. коэффициент на первый гласный 1.0; коэффициент на «j» 0.8; коэффициент на второй гласный 1.4; 10. Корректируются длительности всех гласных, в окружении сонант или шумных: коэффициент на длительность гласного в окружении сонант 0.9; коэффициент на длительность гласного в окружении шумных 0.65; 11. Корректируются длительности звуков левее первого ударного гласного (гласный с редукцией 0): коэффициент на длительность гласных 0.9; коэффициент на длительность согласных 0.95; 12. Корректируются длительности звуков между ударными гласными с отступом в три звука: коэффициент на длительность гласных 0.95; коэффициент на длительность согласных 0.95; 13. Корректируются длительности звуков правее последнего ударного гласного: коэффициент на длительность гласных 1.1;

116 116 коэффициент на длительность согласных 1.0; 14. Если длина цепочки превышает 5 звуков, то длительность всех звуков в цепочке, начиная с пятого, уменьшается по линейному закону, таким образом, чтобы коэффициент на последний звук был равен Наложение интонационных контуров Интонационный контур накладывается на последовательность звуков от паузы до паузы. Если БВЗ работает в режиме синтезатора, то идентификатор (номер) интонационного контура является для него параметром. В режиме генерации распределения БВЗ сам выбирает номера интонационных контуров, на основании информации, содержащейся в описании ТД, а при ее отсутствии из таблицы 3.2. В общем случае количество интонационных контуров для каждого диктора будет свое, причем всегда четное (одна половина для синтагм с охвостьем и другая без). Структура параметров у всех интонационных контуров одинаковая. В общей таблице предусмотрено 26 интонационных контуров ( ). Кроме характера движения основного тона, интонационный контур определяет и длительность паузы между цепочками. Выбор интонационного контура осуществляется по следующему алгоритму: Таблица 3.2 Общая таблица интонационных контуров частотность пауза частотность пауза частотность пауза 1 6, , , , , , , , , , , , , , , , , , , , , , , , , , Частотности всех интонационных контуров приводятся к целым числам путем умножения на 10;

117 Считаются частотности парных контуров (Nk2 = Nk/2, для i от 1 до Nk2 частотность(i) := частотность(i) + частотность(i + Nk2), где Nk количество интонационных контуров); 3. Строятся интервалы для первых Nk2 контуров ([0.. частотность(1)[, [частотность(1), частотность(1) + частотность(2)[, ); 4. Для каждой цепочки звуков, включенной в выборку, генерируются случайные числа в интервале от 0 до суммы частотностей Nk2 контуров; 5. Попадание значения генератора в интервал, приводит к приписыванию соответствующего интонационного типа; 6. Проверяется наличие охвостья у синтагмы (цепочки звуков от паузы до паузы). Если после последнего ударного гласного в цепочке есть гласный или сонант, считается, что охвостье есть, и номер выбранного интонационного контура увеличивается на Nk. Если нет, то номер выбранного интонационного контура не изменяется; 7. По номеру интонационного типа определяется длительность паузы в конце синтагмы. После того как определен интонационный тип (ИТ) для всех звонких звуков в цепочке, определяется частота основного тона с использованием следующего алгоритма: 1. На первом звуке в цепочке ЧОТ принимается равной 100%; 2. До первой ударной гласной происходит увеличение значения ЧОТ, до величины, указанной в параметрах ИТ. Причем, в параметрах каждого интонационного типа предусмотрены значения для длинных и коротких цепочек; 3. Ударная гласная разделяется на три участка, которым приписываются значения ЧОТ с учетом типа ударения, согласно параметрам контура; 4. Далее работа идет по участкам между ударными гласными. Пока до конца цепочки есть ударная гласная, выполняются п.п. 5, 6, после чего осуществляется переход к п. 7;

118 Начинает работать деклинация, приводящая к плавному понижению основного тона; 6. Ударная гласная разделяется на три участка и производится изменение ЧОТ в соответствии с параметрами; 7. В зависимости от типа ИТ, после последнего ударения предусмотрены три варианта изменения ЧОТ: ЧОТ сохраняется равной ЧОТ в конце гласной; ЧОТ плавно уменьшается, согласно параметрам деклинации; ЧОТ плавно увеличивается, обратно параметрам деклинации. Полученные значения основного тона (длины периодов) корректируются на величину T 0 j (3.4), что позволяет повысить естественность формируемого потока. В работах Клатта предлагается простое уравнение, описывающее случайные колебания частоты основного тона в речи: F0 F0 = (sin(12.7π t) + sin(7.1π t) + sin(4.7πt)) / 3 (3.3) 100 В работе A.В. Бабкина [24], рекомендуется модифицированная формула: T0 j T0 j = A (sin(12.7π Kn j ) + sin(7.1π Kn j ) + sin(4.7πkn j )) / 3, где (3.4) 100 A характеризует степень флуктуации периода и ее диапазон значений находится от 0 до 100; К степень случайности и "квазипериодичности". Значение флуктуации вычисляется для каждого периода основного тона и добавляется к значению, определенному ранее. Применение формулы, предложенной A.В. Бабкиным удобно, поскольку в упрощенной статистической модели есть возможность управлять длиной каждого периода. Добавление параметров позволяет усилить или ослабить воздействие этой формулы

119 119 на синтезируемую речь. При А=0 -флуктуация отсутствует. Тесты показывают, что наиболее "естественное" звучание получается при использовании: A = 4, K = 005 (3.5) эти значения устанавливаются как рекомендуемые параметры. При дальнейшем увеличении параметра А, при значении А = 40, наблюдается эффект "рыдания", объясняемый сильными колебаниями периода основного тона. Использование этой формулы повысило естественность синтетической речи, особенно в случаях сильного увеличения длительности аллофонов: у формируемого речевого потока пропадает характерный металлический оттенок. 3.4 Звуковые базы Звуковые базы, используемые статистической моделью речи, могут формироваться по двум основным принципам. В первом случае в базу включаются отдельные аллофоны, выделенные из речевого потока и размеченные соответствующим образом; во втором в базу включается фрагменты слитной речи, с необходимой разметкой и описанием. Аллофонная база компактна, однако она не позволяет формировать речевой поток с высоким качеством и естественностью, и требует использования специальных алгоритмов модификации свойств звуков [126, 138]. Аллофонная база используется в упрощенной статистической модели. База слитной речи требует значительных объемов памяти, и требует применения специальных алгоритмов поиска и выбора оптимальных цепочек звуков. При работе с базой слитной речи не используются алгоритмы модификации свойств отдельных звуков, что позволяет формировать речевой поток с высоким качеством и естественностью. Базы слитной речи используется в полной версии статистической модели. Рассмотрим подробнее принципы формирования звуковых баз и алгоритмы работы со звуковыми данными.

120 3.4.1 Аллофонная звуковая база 120 Звуковые данные В литературе имеются описания аллофонов, необходимых для реализации системы синтеза русской речи [75]. Полный набор аллофонов определяется на основе учета комбинаторных и позиционных влияний отдельно для гласных и согласных звуков. Артикуляционные и акустические характеристики звуков, являющихся реализациями одной и той же фонемы, очень разнообразны. Можно выделить несколько причин этого разнообразия. Речеобразование является непрерывным процессом, в котором неизбежно влияние соседних звуков друг на друга. Условия фонации также влияют на артикуляции и характеристики произносимых звуков. Влияние артикуляции соседних звуков друг на друга называют коартикуляцией. Различают два вида «активной коартикуляции»: наложение артикуляционных процессов соседних звуков и «преодоление» артикуляции первого звука и переход во второй. Существует также и «пассивная коартикуляция», обусловленная инертностью артикуляционных органов. Изменения реализаций фонемы, вызванные коартикуляцией, называются комбинаторными, а сами реализации комбинаторными аллофонами фонемы. Именование аллофонов производится на основании самого звука и звуков, расположенных слева и справа от него (контекста). Каждый звук имеет название 15, которое становится ядром имени комбинаторного аллофона. Соседние звуки дают имена контекстов, которые добавляются к ядру слева и справа соответственно. Особую группу аллофонов составляют позиционные аллофоны аллофоны, свойства которых зависят от фонетической позиции. Для гласных наиболее сильно влияющей является позиция относительно ударения. Наиболее 15 Звуки русского языка обозначаются с помощью латиницы, цифр и специальных символов (например, апостроф используется для обозначения мягкости звука).

121 121 устойчивыми являются реализации ударных гласных, по мере удаления от ударной позиции количество вариаций произнесения увеличивается. Для согласных наиболее значимой оказывается позиция абсолютного конца слова. Также для согласных разными являются аллофоны твердых и мягких звуков, дающие резные имена ядер (и контекстов). В общем виде имя комбинаторного аллофона записывается так: <имя левого контекста><название ядра><имя правого контекста>. Если для аллофона отсутствует (или не учитывается) информация о звуке, расположенном левее и правее, то они заменяются паузами, и имена контекстов отсутствуют, либо определяются исходя из предположения о соседстве с паузами. Результаты экспериментов, проведенных на кафедре фонетики СПбГУ П.А. Скрелиным [74, 75], показали, что по своему воздействию на последующий гласный все гласные и согласные могут быть сгруппированы в некоторое количество классов (таблица 3.3). Таблица 3.3 Левые контексты гласных Обозначение Состав 3_/3' Губные твердые / мягкие 1_/1' Переднеязычные твердые / мягкие 2_ Какуминальные 4_/4' Заднеязычные твердые / мягкие 0_ Абсолютное начало m_/ m' Согласный «m» твердый / мягкий n_/ n' Согласный «n» твердый / мягкий l_/ l' Согласный «l» твердый / мягкий r_ Согласный «r» j_ Согласный «j» a_ Гласный «a» o_ Гласный «o» u_ Гласный «u» e_ Гласный «e» i_ Гласный «i» y_ Гласный «y» По воздействию на предшествующий гласный звуки также можно разделить на ряд классов (таблица 3.4).

122 122 Таблица 3.4 Правые контексты гласных Обозначение Состав p Губные твердые t Переднеязычные твердые x Какуминальные h Заднеязычные ' Все мягкие согласные кроме «j» k Абсолютный конец l Согласный «l» j Согласный «j» a Гласный «a» o Гласный «o» u Гласный «u» e Гласный «e» i Гласный «i» y Гласный «i» r Согласный «r» Кроме того, поскольку акустические характеристики гласных зависят от расположения звука относительно ударения, для гласных были введены различные степени редукции (таблица 3.5). Не для всех гласных удается выделить все возможные редукции (таблица 3.6). Таблица 3.5 Редукции гласных Обозначение Состав 0 Ударные гласные 1 Первый предударный 2 Второй предударный 4 Заударные 16 Таблица 3.6 Редукции гласных A O U E I Y Согласно Скрелину П.А., выделяется 5 редукций гласных. Однако, по нашему мнению, использование редукции «5», обозначающая заударные неконечные «А», нецелесообразно, т.к. не оказывает заметного влияния на качество формируемого речевого потока.

123 123 Для согласных также были определены левые (таблица 3.7) и правые (таблица 3.8) контексты. Кроме того, для звука «R» были определены специфические правые контексты (таблица 3.9). Таблица 3.7 Левые контексты согласных Обозначение Состав 0 Абсолютное начало _ Позиция после гласного c Позиция после согласного Таблица 3.8 Правые контексты согласных Обозначение Состав a Перед неогубленным гласным o Перед огубленным гласным c Перед глухим согласным v Перед сонантом z Перед звонким согласным k Перед паузой Таблица 3.9 Правые контексты «R» Обозначение Состав _ Перед гласным _c Перед согласным _v Перед звонким _k Перед паузой На основе таблиц могут быть получены потенциально возможные правые и левые контексты гласных и согласных. Однако, не все из приведенных контекстов гласных реализуются у всех дикторов. Для примера, в приложении 2, приведены несколько заполненных таблиц контекстов. Из представленных таблиц видно, что количество существующих комбинаторных аллофонов зависит как от гласной, так и от ее редукции. С увеличением номера редукции количество реально существующих контекстов сокращается. В процессе исследования выяснилось, что для повышения качества синтеза целесообразно включить в базу дополнительные аллофоны, для некоторых сочетаний двух и более звуков (таблица 3.10).

124 124 Таблица 3.10 Аллофоны для расширения базы Аллофон Сочетание Пример слова Аллофон Сочетание Пример слова r: r-r суррогат z: z-z безземельный n: n-n ванна s: s-s касса n: n-n теннис s: s-s рассердиться l: l-l балласт d: d-d аддуктор l: l-l капилляр d: d-d поддержка m: m-m грамматика dn d-n одной m: m-m комментатор dn d-n задних b: b-b аббат t: t-t оттащить b: b-b баббит t: t-t аттестат bn b-n улыбнуться tn t-n абсолютный bn b-n гибнет tn t-n сотни p: p-p группа k: k-k аккуратно p: p-p аппетит k: k-k хоккей pn p-n крупное zx z-x езжу pn p-n лопнет sx s-x сжать v: v-v ввоз x: x-x жужжать v: v-v ввел w: w-w сшить f: f-f диффузный $: s-$, $-$ расщелина f: f-f дифференциал zq z-q навязчивый z: z-z беззаботный xq x-q мужчина sz s-z сзади В результате обработки системой синтеза речи по тексту большого объема различных текстов (новости, технические статьи, анекдоты, рассказы и почта), были получены параметры аллофонов. Приведем параметры для среднего мужского голоса. Параметры глухих согласных представлены в таблице Для глухих согласных в качестве оптимальной длительности можно рекомендовать использовать среднее значение. На взрывных k, k, p, p, t, t изменение длительности допустимо производить только за счет смычки. На аффрикатах c, ch, sc, напротив, изменение длительности за счет смычки нежелательно. При изменении длительности остальных согласных данной группы s, s, f, f, h, h, sh, могут быть использованы практически любые сегменты аллофонов. Для звонких взрывных и шумных согласных параметры представлены в таблице В представленной группе звуков особняком стоит r модификация его длительности крайне нежелательна. Можно лишь рекомендовать иметь в базе

125 125 несколько реализаций и использовать ближайшую. Частотная модификация возможна для большинства периодов. Таблица 3.11 Параметры глухих согласных Длительность, мс Название минимальная максимальная средняя k ,4 k p ,9 p ,7 s ,2 s ,6 t ,8 t ,2 f ,7 f h ,6 h c ,2 ch sh ,3 sc ,1 Таблица 3.12 Параметры звонких взрывных и шумных согласных Длительность, мс ЧОТ, % Название Повышенижение Пони- Мин. Макс. Среднее Мин. Макс. Среднее b , ,0 98,0 106,1 84,1 b , ,0 90,1 114,0 88,2 v , ,0 96,5 110,2 87,5 v , ,0 95,4 105,8 89,3 g , ,0 93,9 104,3 75,5 g ,0 85,3 103,2 86,9 d , ,0 97,8 112,1 88,4 d , ,0 98,6 109,1 85,4 zh , ,0 97,4 114,7 90,6 z , ,0 100,4 110,9 87,5 z , ,0 99,7 116,0 87,7 r , ,3 111,4 87,9 r , ,3 113,1 88,7 Изменение длительности звонких взрывных b, b, g, g, d, d следует производить за счет смычки. Выбрасывание или вставка сегментов, соответствующих взрыву, нежелательна. Частотная модификация также возможна только на смычке. Можно рекомендовать хранить в базе аллофоны с длительностями выше средних, т.к. уменьшение длительности не столь сильно

126 126 влияет на качество звуков. По возможности в базе стоит хранить несколько экземпляров аллофонов, соответствующих различным частотам основного тона. В качестве рекомендуемых значений следует брать среднее значение, а также среднее повышение и среднее понижении основного тона. У звонких шумных согласных v, v, zh, z, z, r для изменения длительности могут использоваться любые периоды. Изменение частоты основного тона также возможно на всех периодах. В базу рекомендуется включать аллофоны с длинами выше средней, и хранить реализации с тремя частотами основного тона. Аналогичные рекомендации можно дать и для сонант, параметры которых представлены в таблице В базу следует включать аллофоны гласных с максимальной длительностью и иметь для каждого аллофона реализации с тремя частотами основного тона (таблица 3.14). Таблица 3.13 Параметры сонант Длительность, мс ЧОТ, % Название Повышенижение Пони- Мин. Макс. Среднее Мин. Макс. Среднее l , ,2 111,6 87,9 l , ,9 109,9 87,8 m , ,4 112,1 89,5 m , ,6 108,5 88,6 n , ,2 109,7 88,8 n , ,8 108,5 89,7 j , ,7 107,7 88,8 Таблица 3.14 Параметры гласных Название Длительность, мс ЧОТ, % Мин. Макс. Среднее Мин. Макс. Среднее Мин. Макс. a , ,7 112,5 88,6 e , ,6 112,7 84,3 i , ,1 111,7 87,7 o , ,4 111,9 85,3 u , ,7 111,5 86,5 y , ,7 112,4 87,3 Проведенные исследования позволяют дать две общие рекомендации по подготовке аллофонных звуковых баз:

127 127 для аллофонов гласных и звонких согласных в базе рекомендуется хранить реализации с тремя частотами основного тона (средней, средним увеличением и средним уменьшением), что позволит сократить частотную модификацию и повысить качество и естественность синтезированного голоса; для всех аллофонов в базу следует включать аллофоны с длинами выше средней, т.к. уменьшение длительности аллофонов приводит к меньшему искажению звуков, чем увеличение. Разметка аллофонной базы Все аллофоны можно разделить на две большие группы. Аллофоны первой группы (pitched) имеют основной тон, а у аллофонов второй группы (unpitched) основной тон отсутствует. К первой группе относятся аллофоны гласных, звонких согласных и сонант, ко второй только глухие согласные. При разметке аллофонов первой группы выделяются периоды основного тона, и особо отмечаются периоды, не подлежащие модификации по каким либо причинам. На рисунке 3.5 представлен фрагмент сегментированного аллофона «A1», а на рисунке 3.6 аллофона «D-A». Рисунок 3.5 Сегментация аллофона A1 Рисунок 3.6 Сегментация аллофона D-A Видно, что у аллофона «A1» отмечены все периоды основного тона, а в аллофоне «D-A» присутствует сегмент из двух периодов основного тона, идущих подряд. Это связано с тем, что в аллофоне «A1» возможна модифи-

128 128 кация всех периодов основного тона, а аллофон «D-A» содержит «взрыв», который нельзя модифицировать, т.к. это исказит звук. Из рисунков также видно, что разметка периодов основного тона проводится по переходам через ноль. На рисунке 3.7 приведен пример сегментации сонанта, а на рисунке 3.8 звонкого согласного, которые также имеют основной тон, периоды которого обозначены линиями разметки. Рисунок 3.7 Сегментация аллофона M-N Рисунок 3.8 Сегментация аллофона Z-V При разметке шипящих аллофонов второй группы обычно выделяются небольшие немодифицируемые начальный и конечный сегменты, и центральный сегмент, доступный для модификации (рисунок 3.9). Рисунок 3.9 Сегментация аллофона S-O При разметке аффрикат (рисунок 3.10) выделяют глухую смычку и шумовой участок. На приведенном примере дополнительно обозначено переходное состояние между глухой смычкой и шумовым участком.

129 129 Рисунок 3.10 Сегментация аллофона C-A У аллофонов глухих взрывных выделяют глухую смычку и взрыв (рисунок 3.11). Рисунок 3.11 Сегментация аллофона P -V Видно, что разметка аллофонов отображает (обозначает) процессы артикуляции, характерные для каждого типа звуков. В дальнейшем разметка используется для приведения физических свойств звуков к заданным параметрам. В результате проведенных исследований было установлено, что для повышения качества формируемого речевого потока важно не только корректно записать и разметить все необходимые аллофоны, но и желательно выполнить специальную предобработку аллофонов, имеющих основной тон. Предобработка аллофонной звуковой базы Качество формируемого звукового потока во многом определяется качеством звуковой базы. При оцифровке речевого сигнала каждый период имеет некоторую начальную фазу, причем периоды, следующие один за другим, не обязательно имеют одинаковые начальные фазы, что создает проблемы при анализе и модификации, как отдельных периодов, так и звуков в целом. Для устранения искажений на стыках периодов и сокращения искажений, возникающих при их модификации, оказывается полезным приведение сигнала к нулевой фазе на частоте основного тона в начале каждого периода. Также снижению высокочастотных искажений служит сглаживание, выполняемое на стыках периодов ОТ. Описываемая в приложении 2 предобработка звуко-

130 130 вой базы позволяет сократить высокочастотные искажения, возникающие при модификации аллофонов [137, 138]. Предлагаемая процедура обработки прошла оппробирование в системе синтеза русской речи по тексту, и описана в патенте на изобретение «Способ анализа и синтеза речи». Алгоритмы модификации аллофонов В аллофонной звуковой базе хранится лишь небольшое количество (а то и вовсе - один) звуковых фрагментов, соответствующих каждому аллофону. Поэтому для формирования речевого потока с высоким уровнем разборчивости и естественности, требуется изменять физические характеристики речевых фрагментов, присутствующих в базе. Цифровая обработка речевого сигнала позволяет решать задачу точного изменения длительности, частоты основного тона и энергии (амплитуды) фрагмента. На вокализованных звуках происходит изменение ЧОТ, определяющее интонацию высказывания. Изменение ЧОТ должно производиться с учетом изменения длительности фрагментов так, чтобы общий интонационный контур высказывания сохранялся. Описания алгоритмов, применяющиеся для изменения длительностей и ЧОТ, приведены в приложении Базы слитной речи Сегодня аллофонные звуковые базы постепенно утрачивают свою актуальность. Причина проста: аппаратные ограничения на производительность и доступные объемы памяти сокращаются и на первое место выходит качество формируемого звукового сигнала. Проведенные эксперименты (в том числе и авторами) по субъективной оценке качества синтезированной речи показали, что несмотря на все присущие недостатки, корпус-бэйзд синтез обладает более высокими показателями естественности, и, соответственно, его качество выше.

131 131 Вопрос подготовки (аннотирования) звуковых баз подробно рассматривается в главе 2. В данном разделе остановимся подробнее на характеристиках речевых корпусов и формировании речевого потока с использованием звуковой базы слитной речи. Характеристики речевых корпусов Выбор конкретного набора параметров определяется предполагаемой областью применения создаваемого корпуса. Рассмотрим основные характеристики речевых корпусов безотносительно возможности использования в составе статистической модели речи, но применительно к обучению систем распознавания речи. Итак, основными характеристиками речевого корпуса являются (рисунок 3.12): Рисунок 3.12 Основные характеристики речевого корпуса фонетический состав; количество и пол дикторов; количество часов аудио данных; характеристики канала записи; условия записи; использование альтернативных источников данных; вид аннотации.

132 Характеристики канала записи 132 Перед тем как приступать непосредственно к записи речевого корпуса, необходимо продумать и организовать инфраструктуру канала записи. Это те параметры, которые определяются предполагаемым местом применения Системы. Например, если это будет поисковая интернет-система с возможностью голосового управления, то речевой корпус должен записываться через мобильные устройства или микрофоны, подключенные к стационарному или переносному компьютеру. Таким образом, записи аудиоданных сразу будут иметь необходимый формат кодирования и содержать в себе специфические влияния канала передачи данных. Условия записи аудио данных Также должны быть учтены такие условия записи данных, как окружение дикторов: условия с высокой и низкой шумовой обстановкой, офисные помещения, общественные места, личный транспорт и т.д. Количество, пол и социальные характеристики дикторов При записи речевого корпуса желательно составить и учитывать прогнозируемую статистику по использованию системы различными людьми. Поэтому при формировании речевого корпуса учитывают пол, возраст, страну и регион проживания дикторов. Если не представляется возможным выяснить такие данные, то стараются обеспечить средние показатели по возрасту, равное распределение по регионам, а также между дикторами мужского и женского пола. Количество часов аудио данных Общее количество аудио данных известно заранее и выбирается исходя из языка, на котором будет работать система, а также задачи, которую она будет решать. Требования к объему аудио данных будут варьироваться примерно от 30 часов, если это распознавание по небольшому списку слов, до нескольких тысяч часов, если это система распознавания слитной речи. Запи-

133 133 сываемые аудио данные необходимо согласовать с предполагаемой или основанной на реальных данных статистикой по распределению частотности использования системы в различных условиях записи и частотности применения различных каналов связи. Фонетический состав Следующим этапом после выбора и определения характеристик канала записи и объема записываемых аудио данных является процесс составления листов чтения для дикторов. Лексика и стиль речи определяются решаемой Системой задачей, поскольку область применения Системы позволяет локализовать тематику или стиль речи. Например, если это система речевой аналитики для финансового сектора, то стиль речи будет деловой, а листы чтения будут учитывать специфику терминологии данной области. При условии выбора подходящей лексики и достаточно большом объеме речевого корпуса, его фонетический состав будет соответствовать распределению, которое встречается в реальной жизни. Однако, для того чтобы акустическая модель получилась достаточно точной для всех звуков, нужно учесть нижнюю границу по количеству реализаций на каждую фонему речи. Поэтому при формировании листов чтения учитывают фонетическую сбалансированность и представительность речевого корпуса. Вид аннотации Для обучения качественной акустической модели не достаточно иметь просто набор аудио данных и соответствующих им листов чтения. Дело в том, что невозможно гарантировать идеальные условия записи и чтения дикторов. Поэтому в аудио данных будет достаточно много несоответствий между текстом и реально произнесенным в аудио записи. Не только из-за ошибок при чтении, но также из-за внешних обстоятельств, таких как проезжающий мимо транспорт, шум толпы, проходящих мимо людей и т.д. Для фиксации всех расхождений необходимо отслушать аудио файлы и создать файлы аннотаций. В самой простой реализации это будут файлы с орфографической

134 134 аннотацией и введенными дополнительными условными обозначениями различных неречевых участков аудио файлов. Допустимым считается, когда в речевом корпусе не более 2% ошибочных аннотационных файлов. Более трудоемкой задачей является создание файлов экспертных фонетических транскрипций. Еще более сложной работой является создание сегментированных фонетических транскрипций, где для каждого слова указана не только его фонетическая транскрипция, но и имеются метки начала и конца каждой фонемы в аудио файле. Создание файлов аннотаций является самым долгим, трудоемким и дорогим процессом в построении речевого корпуса, поэтому ранее был предложен способ автоматизации аннотирования звуковых баз. Альтернативные источники данных для обучения В дополнение к тщательно спланированному процессу подготовки базы (а иногда, и как полноценная альтернатива данному процессу) для обучения применяют записи, полученные в реальных условиях работы системы: звуковые файлы систем записи переговоров с колл-центром; записи выступлений на конференциях; голосовые запросы пользователей к приложению на смартфоне и т.п. Несомненное преимущество подобных данных в их максимальной приближенности к реальным условиям будущей работы. Однако такие данные требуют большого количества ручной работы: проверки на корректность; и создания соответствующей аннотации. Формирование речевого потока Основная особенность формирования речевого потока с использованием звуковой базы слитной речи состоит в минимизации изменений фрагментов сигнала, выбираемых из базы. В идеале, модификация не требуется вовсе, однако, на практике требуется обработка стыков фрагментов для обеспечения гладкости стыковки.

135 135 Простейшим алгоритмом, обеспечивающим такую гладкость, является «морф» стыков, заключающийся в построении плавного перехода от одного фрагмента к другому. Переходный участок строится как сумма отсчетов конца первого сигнала, убывающая по линейному закону, и начала отсчетов второго сигнала, возрастающих по обратному линейному закону. Морф стыков выполняется только при стыковке вокализованных фрагментов сигнала, а длина переходного участка равна средней длине периода основного тона. Следует отметить, что при работе с базой слитной речи, основная интеллектуальная нагрузка ложится на алгоритмы поиска и выбора из базы оптимальных фрагментов сигнала. При этом также используется транскрипционное моделирование. Рассмотрим подробнее, как и по каким критерием выполняется выбор звуковых фрагментов из базы. 1. К полученным на выходе лингвистического процессора, идеальным транскрипциям применяется алгоритм транскрипционного моделирования, в результате чего строится список реальных транскрипций. 2. Для каждой транскрипции определяется коэффициент похожести на идеальную транскрипцию. Чем больше отличий, тем похожесть ниже. 3. Для каждой транскрипции выполняется поиск по базе и определяется количество разрывов транскрипции и их качество. Качество разрывов определяется звуками, на которых происходит разрыв. Самое низкое качество у разрыва между гласными, самое высокое (единичное) на паузе и стыке глухих согласных. 4. Похожести транскрипций умножаются на качество разрывов. 5. Выбирается транскрипция с самой высокой степенью похожести, для которой и формируется результирующий звуковой сигнал. 6. Если в результате поиска оказывается, что похожести всех транскрипций равны нолю, то строится список транскрипций с минимальным количеством нулевых разрывов. 7. Выбирается транскрипция, наиболее похожая на идеальную транскрипцию по коэффициенту похожести, полученному на шаге 2.

136 136 При поиске по базе из просодических характеристик учитывается только ИТ. 1. Создается список всех элементов базы, имеющих искомый ИТ. 2. Для каждой транскрипции ищется максимальное вхождение звуков от начала цепочки во всех элементах списка от их начала. Если найдено полное вхождение транскрипции, то для нее поиск заканчивается. 3. Если транскрипция найдена частично, то фиксируется разрыв, и поиск продолжается от точки разрыва, но уже без привязки к началам элементов списка. 4. Пункт 3 повторяется до тех пор, пока не будут найдены все фрагменты транскрипции, или не окажется так, что какой-то фрагмент транскрипции не может быть найден в списке. 5. Если в транскрипции существует фрагмент, отсутствующий в базе, осуществляется пропуск звука, и фиксируется разрыв с нулевым качеством, после чего поиск продолжается с пункта 3. При поиске по базе дополнительно может задаваться ограничение на качество разрывов, однако, это может иногда приводить к тому, что ни для одной транскрипции не будет найдено ни одного вхождения. В этом случае следует повторить процедуру поиска с отмененными ограничениями на типы разрывов. Использование базы слитной речи позволяет формировать речевой поток с качеством, значительно превышающим качество речевого потока, формируемого на основе аллофонных баз. Но работа с базой слитной речи имеет один нюанс такая база позволяет моделировать заданные распределения физических параметров отдельных звуков: длительности, ЧОТ и энергии. Поэтому при использовании базы слитной речи в статистической модели приходится либо использовать внутризвуковую разметку (и работать с базой как с аллофонной), либо использовать специальные наборы текстов. Однако, отмеченный момент нельзя назвать существенным недостатком баз слитной речи.

137 Особенности статистической модели Рассматривая статистическую модель, как речевую базу данных, можно выявить следующие особенности: - больший объем исходного речевого корпуса; - использование большего количества классификационных признаков при сегментации и описании речевого корпуса; - включение в базу дополнительной статистической информации по каждому ТД; - наличие описаний интонационных контуров для каждого ТД; - возможность одновременной работы со структурными элементами разного размера и формата. Если говорить о статистической модели, как о системе синтеза речи, способной выполнять изменение хранимых звуковых данных, то следует отметить следующие моменты: - возможность выбирать из базы цепочки звуков (или отдельные звуки), требующие наименьшей модификации или вовсе в ней не нуждающиеся; - специально разработанные алгоритмы изменения длительности звуков разных типов, минимизирующие искажение перцептивных свойств звуков; - специально разработанные (или модифицированные) алгоритмы изменения ЧОТ звуков разных типов, минимизирующие искажение их перцептивных свойств; - разнообразие контекстных реализаций звуков позволит синтезировать речевой поток, обладающий высокой естественностью; - достижение высокой естественности за счет применения интонационных контуров, специально подобранных для каждого ТД. Особенность статистической модели заключается в том, что она представляет собой масштабируемое решение, как по набору представленных звуковых данных, так и алгоритмов обработки. Возможно относительно бы-

138 138 стро разработать упрощенную модель, обладающей всеми базовыми алгоритмами и перестающей быть «упрощенной» по мере наполнения ее данными и алгоритмами. Еще одна особенность статистической модели состоит в том, что она не зависит от языка. Язык, с которым будет работать модель, определяется лишь теми данными, которыми наполнена модель, а все алгоритмы и интерфейсы сохранятся. В будущем можно будет подумать о создании не «статистической модели русского языка», а «статистической языковой модели», охватывающей все живые языки мира. 3.6 Области применения Область применения статистической модели крайне широка. Статистическая модель может быть востребована во всех областях науки и техники, связанных с передачей, обработкой, сжатием и хранением, синтезом и распознаванием речевых сигналов [43]. Упрощенная статистическая модель речи использована в системе синтеза русской речи по тексту, разработанной при участии автора, и в системе тестовой оценки качества звуковых сигналов в качестве одного из возможных источников сигнала, описываемой ниже. Остановимся на некоторых возможных применениях статистической модели Синтез речи Статистическая модель может быть использована при построении системы высококачественного синтеза русской речи по тексту. Под высоким качеством подразумевается высокая естественность и разборчивость синтезируемой речи.

139 139 Текст Идентификатор ТД; Формат сигнала Лингвистический процессор Модуль управления синтезом Список ТД; Просодика; Звук. Динамик Файл Синтагмы с идентификаторами ИТ Статистическая модель Рисунок 3.13 Статистическая модель в системе синтеза речи Работа системы синтеза осуществляется по схеме, представленной на рисунке Модуль управления запрашивает у Статистической модели список ТД, затем выбирает одного ТД из списка и задает формат звукового сигнала. Затем модуль управления передает синтезируемый текст лингвистическому процессору (ЛП). ЛП разделяет текст на синтагмы, приписывает им ИТ, проставляет ударения и транскрибирует их, после чего передает синтагмы и их ИТ статистической модели. Статистическая модель, на основе заложенных в нее данных и алгоритмов, формирует просодику и звуковой поток. Звуковой поток и просодика передаются модулю управления и, либо сохраняются в файл, либо воспроизводятся. Синтезатор речи на основе статистической модели с успехом может применяться в обучающих и развивающих играх [12] Оценка качества речевых сигналов В системе оценки качества речевого потока статистическая модель используется в качестве источника тестового сигнала. Модуль оценки качества выдает Статистической модели команду на генерацию звукового потока с параметрами, характерными для описываемого моделью населения (рисунок 3.14). Тестовым сигналом необязательно должен быть звуковой поток, характеризующий все население. Может возникнуть необходимость проверить качество обработки отдельного звука или фразы. Статистическая модель предоставляет возможность это реализовать.

140 140 Модуль оценки качества Генерировать распределение Звуковой поток исходный и после обработки Обработка Файл Звуковой поток Статистическая модель Рисунок 3.14 Статистическая модель в системе оценки качества речевых сигналов Звуковой поток, сформированный моделью, сохраняется в файл, который подается на вокодер (или какую-либо другую обработку) и на модуль оценки качества. Звуковой сигнал, прошедший процедуру обработки, также подается на модуль оценки качества. Модуль оценки качества производит сравнение сигналов и выдает оценку Исследование свойств речевых сигналов Для решения целого ряда задач, таких, например, как сжатие и распознавание речи, очень нужно с высокой достоверностью отделять фрагменты речевой активности от шума и пауз. Известные алгоритмы VAD имеют как достоинства, так и недостатки (одним из которых является высокий процент ошибки), поэтому остается актуальной задача разработки алгоритма выделения фрагментов речевой активности в звуковом потоке. Модуль управления обучением Генерировать все звуки для всех ТД Звуковые файлы Результаты обучения Статистическая модель Рисунок 3.15 Статистическая модель в исследовании свойств речевых сигналов Как и при оценке качества речевых сигналов, Статистическая модель используется, в качестве источника исходных данных.

141 141 Модуль управления обучением (рисунок 3.15) выдает статистической модели команды на генерацию всех возможных звуков всех возможных ТД. Синтезированные звуки сохраняются в звуковые файлы, по которым модуль обучения собирает статистику и выделяет особенности, характерные для звуков речи. На данный момент в качестве признаков используются энергии на полосах. Анализируются соотношения энергий, и делается попытка определить характерные полосы и соотношения. При обучении систем распознавания речи схема применения статистической модели будет соответствовать представленной на рисунке Отличаться будут лишь результаты обучения. Роль Статистической модели - источника данных для обучения сохранится. 3.7 Выводы Предложена концепция статистической модели языка, представляющей собой отображение современного состояния русского языка, на основании которого через несколько сотен лет потомки смогут сказать, что и как говорили, какими голосами, с какими интонациями Предложены способы предварительной обработки звуковых сигналов и способы модификации физических характеристик звуков речи, сокращающие высокочастотные искажения и повышающие естественность звучания сформированного речевого сигнала. Предложена программная реализация упрощенного варианта статистической модели и рассмотрены возможные варианты ее применения для синтеза речи, исследования свойств и оценки качества передачи речевых сигналов.

142 142 Глава 4 Моделирование длительности звуков речи Параметры произносимых звуков речи обладают значительной вариативностью. Как одно и то же слово, произнесенное одним и тем же диктором, может состоять из разных наборов звуков, так и «одинаковые» звуки могут различаться между собой. Длительность звуков только один из изменяющихся параметров. К различиям в параметрах звуков могут приводить следующие факторы: коммуникативная ситуация и условия фонации, стиль речи, наличие акцентов и диалектов, социально-экономические факторы, эмоциональное состояние, анатомические особенности диктора. Кроме того, длительности звуков зависят от контекста, позиции в слове и фразе. 4.1 Основные причины вариативности длительности звуков Коммуникация всегда осуществляется в рамках каких-либо условий (ситуации общения), находящих отражение в структуре речи. Условия речевой коммуникации могут оказывать существенное влияние на параметры речевого сигнала. Структура и стиль речевого сообщения зависит от того, к какой образовательной, профессиональной, возрастной, половой группе принадлежат говорящие. Длительность высказывания является одним из параметров, зависящих от стиля речи. Так, согласно [14], длительность фразы в разговорном стиле в 1.5 раза меньше длительности фразы в полном стиле, при котором реализуется наиболее четкая артикуляция. В процессе коммуникации осуществляется обратная связь, способная оказать значительное воздействие на речевое поведение человека. Так, например, может измениться тема разговора или эмоциональное состояние говорящего. Наибольшей зависимости от ситуации подвержены диалоги. В зависимости от темы, степени знакомства с темой разговора, стандартности/нестандартности ситуации, обращении к одному или группе лиц, эмоционального состояния, темп речи претерпевает значительные изменения. Смена темпа речи приводит к изменению длительности звуков, причем для разных звуков изменения различны. Существует общая закономерность

143 143 [14, 135], согласно которой увеличение темпа речи приводит к большему сокращению длительности гласных звуков, чем согласных. Более сложные зависимости, обусловленные перенастройкой речевого аппарата, рассматриваются в [81]. Под акцентом можно понимать всевозможные отклонения от нормативного произношения. Это и просторечие, характеризующееся особенностями на всех уровнях языка, и патологические отклонения, вызванные дефектами центральной нервной системы или физическими повреждениями органов речи, и диалектная речь, находящаяся в противоречии с литературной речью. Согласно [63], под акцентом следует понимать систему отклонения иностранного языка, обусловленную интерферирующим воздействием родного языка. В результате экспериментов по изучению ритмической структуры русской речи иностранцами [63] было выявлено нетипичное распределение длительностей безударных слогов (таблица 4.1). Таблица 4.1 Относительные длительности акцентных гласных Диктор Предударный Заударный Русский Англичанин Француз Длительности заударных гласных оказались существенно завышенными. Кроме того, была выявлена тенденция обеспечения словесных ударений за счет изменения интонации, а не путем изменения соотношения длительностей гласных. Существенное влияние на параметры звуков оказывает здоровье диктора и его эмоциональное состояние [6, 128]. Сегодня не существует единой непротиворечивой теории эмоций, но известны результаты исследований, позволяющие успешно решать прикладные задачи, такие как определение эмоционального состояния оператора [88].

144 144 В результате анализа фраз, произносимых героями пьес, был составлен словарь эмоциональных состояний, и определена зависимость длительности слогов и слов от вида эмоции (таблица 4.2) [63]. Таблица 4.2 Зависимость длительности слогов и слов от вида эмоции Вид эмоции Длительность слога Длительность ударный, предударного заударного слова, мс мс к ударному к ударному Нейтральное произнесение Удовольствие Радость, восторг Неудовольствие Возмущение Гнев Злость, ненависть Раздражение Удивление Ирония Также было установлено, что длительность звуков связана с интонационным типом высказывания. В [168] предлагается формула для расчета длительности гласного, как функции от значений частот первой и второй формант: T =.95k F 0.01F 10.61, где (4.1) F 1 частота первой форманты; F 2 частота второй форманты; k коэффициент, зависящий от типа звука. Согласно акустической теории речеобразования, параметры звуков речи определяются свойствами их источников и резонаторов речевого аппарата человека [71, 86]. Речь рассматривается как процесс фильтрации, в котором речевой тракт выступает в качестве фильтра. Различия форм и размеров полостей речевого тракта, длины и упругости голосовых связок у разных дикторов обеспечивает наличие индивидуальных особенностей в параметрах звуков. Известно, что статистические размеры резонаторных полостей у

145 145 мужчин и женщин различаются на 17% [81]. Индивидуальность звуковых параметров определяется не только различиями в механических характеристиках артикуляторных органов, но и типом нервной системы и чувством времени человека [80]. В результате исследования зависимости длительности звуков от длины высказывания [80] было установлено, что с увеличением длительности высказывания средняя длительность звуков уменьшается. Также было установлено, что начальные сегменты оказываются короче конечных, причем длительность зависит от количества звуков, оставшихся до конца высказывания. В [80] также отмечается, что все исследованные факторы, вызывающие изменение длительности как гласных, так и согласных звуков, действуют независимо, и для предсказания длительности звука во фразе может использоваться принцип суперпозиции. 4.2 Зависимость вероятности появления фонем от их длительности В результате анализа 40 часов сегментированных записей речи, были построены гистограммы вероятностей появления фонем различной длительности. Звуки короче 36 мс и длиннее 720 мс считались невалидными, и при построении гистограмм не учитывались. Диапазон допустимых длительностей был разбит на 57 отрезков по 12 мс каждый. Выяснилось, что зависимости для разных фонем существенно различаются. Были выявлены три основных формы зависимостей вероятностей появления фонем от их длительности, получившие условные названия: «нормальное» (рисунок 4.1), «коса» (рисунок 4.2), и «шляпа» (рисунок 4.3). Наиболее часто встречается распределение вида «нормальное» (рисунок 4.1). Им описывается около 2/3 всех зависимостей.

146 146 0,18 0,16 0,14 0,12 0,10 0,08 0,06 0,04 0,02 0, Рисунок 4.1 Зависимость вида «нормальное» a 4.2). Еще около 1/3 фонем описываются зависимостью типа «коса» (рисунок 0,45 0,40 0,35 0,30 0,25 0,20 0,15 0,10 0,05 0, Рисунок 4.2 Зависимость вида «коса» И только для трех фонем характерна зависимость типа «шляпа» (рисунок 0,14 0,12 0,10 0,08 0,06 0,04 0,02 0, Рисунок 4.3 Зависимость вида «шляпа» h'

147 Форма зависимости «коса» очень напоминает закон распределения Пуассона: 147 f x λ λ (, λ = m = D. (4.2) x) = e x! Но, как показали эксперименты, лишь для нескольких фонем зависимость может быть описана с помощью (4.2) с высокой точностью. Зависимости вида «нормальное» и «шляпа» похожи на искаженный нормальный (Гауссовский) закон распределения: ( x) ( x m) 2 1 2D f = e 2πD. (4.3) Однако ошибка описания при применении (4.3) в явном виде слишком велика. В [20, 62] предлагается формула (распределение Грамма-Шарлье), позволяющая внести «исправления» в нормальное распределение. В результате исправлений конструируется модель закона распределения близкая к нормальной, но учитывающая ненулевые значения асимметрии (as) и эксцесса (es): f as 6 es 24 ( 3 ( ) ( ) ) ( 4 x = ϕ x ϕ ( x) + ϕ ) ( x), где (4.4) ϕ ( x) - плотность нормального закона; ( 3 ) ( 4 ϕ ( x) и ϕ ) ( x) - ее третья и четвертая производные соответственно.

148 148 Зависимости, полученные согласно (4.4), визуально похожи на экспериментальные (рисунок 4.4), но ошибка описания по-прежнему оказывается велика. 0,18 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0-0, Эксперимент Модель Рисунок 4.4 Зависимости для фонемы «е» Кроме того, полученные теоретические зависимости оказываются неприменимыми на практике из-за того, что они могут принимать отрицательные значения. В результате экспериментов было решено использовать для моделирования зависимости вероятности появления фона от его длительности модифицированную формулу закона нормального распределения. Для этого в исходную формулу (4.3) были введены 3 параметра: f ( x) = 2π ( D a ) 2 ( x m+ a1 ) 2( D ) 1 a e 3 2. (4.5) На рисунках показано влияние параметров а 1 -а 3 на форму закона распределения (4.5). Изменение параметра а 1 приводит к сдвигу кривой. При увеличении значения а 1 кривая сдвигается влево, при уменьшении в право (рисунок 4.5).

149 149 0,20 0,18 0,16 0,14 0,12 0,10 0,08 0,06 0,04 0,02 0, исходно увеличение уменьшение Рисунок 4.5 Влияние параметра а 1 на форму закона распределения Параметр а 2 регулирует вертикальное растяжение/сжатие. Увеличение значения параметра а 2 растягивает кривую, уменьшение сжимает (рисунок 4.6). 0,30 0,25 0,20 0,15 0,10 0,05 0, исходно увеличение уменьшение Рисунок 4.6 Влияние параметра а 2 на форму закона распределения Параметр а 3 управляет горизонтальным растяжением/сжатием. Увеличение значения параметра а 3 сжимает кривую, уменьшение растягивает (рисунок 4.7).

150 150 0,20 0,18 0,16 0,14 0,12 0,10 0,08 0,06 0,04 0,02 0, исходно увеличение уменьшение Рисунок 4.7 Влияние параметра а 3 на форму закона распределения Для подбора параметров законов распределений фонем была разработана программа, реализующая метод градиентного спуска с переменным шагом. В качестве минимизируемой целевой функции используется квадратичная ошибка: 24 ( j j ) 2 E ( a, a, a ) = fe f ( a, a a ), где (4.6) i 1 2 3, j= 3 fe j экспериментальное значение вероятности появления фонемы в отрезке j; f j ( a, a a ) моделируемое по (4.5) значение вероятности появления фонемы 1 2, 3 в отрезке j. Возникает вопрос: почему нет нормирования на fe j. Причин выбора вида целевой функции две: нам важнее добиться высокой точности описания для больших значений функции распределения, чем для меньших; в некоторых отрезках j значение реализаций данного фона мало. fe j может равняться нулю из-за того, что количество Таблица 4.3 Параметры законов распределения Фонема m D a1 a2 a3 4, , , , , , a 7, , , , , , h' 9, , , , , ,000741

151 151 В таблице 4.3 представлены параметры законов распределений, использованных в качестве примера форм зависимостей (рисунки ). 0,18 0,16 0,14 0,12 0,10 0,08 0,06 0,04 0,02 0, эксперимент модель Рисунок 4.8 Экспериментальная зависимость и ее модель для фонемы «а» (вид «нормальное») 0,45 0,40 0,35 0,30 0,25 0,20 0,15 0,10 0,05 0, эксперимент модель Рисунок 4.9 Экспериментальная зависимость и ее модель для фонемы (вид «коса») их модели. На рисунках приведены экспериментальные зависимости и

152 152 0,14 0,12 0,10 0,08 0,06 0,04 0,02 0, эксперимент модель Рисунок 4.10 Экспериментальная зависимость и ее модель для фонемы «h» (вид «шляпа») Из рисунков и таблицы 4.3 видно, что предложенная общая формула закона распределения (4.5) позволяет с высокой точностью моделировать зависимость вероятности появления фона от его длительности. Дополнительно следует заметить, что при моделировании длительность бралась не в мс, а в интервалах Учет длительностей в алгоритме распознавания Базовый алгоритм распознавания Процесс распознавания в разработанной системе условно разделяется на два уровня: сетевой и узловой. Сетевой уровень отвечает за распространение процесса распознавания по ФС и формирование списка активных узлов, узловой за продвижение по моделям отдельных звуков и определение значений подобия. Для удобства реализации процесса распознавания используется двойная структура данных: с одной стороны это ФС с другой список активных узлов. Активными узлами считаются узлы ФС, которые на данном шаге участвуют в процессе распознавания. Базовый алгоритм распознавания включает следующую последовательность действий:

153 Инициализация. Состояния всех узлов ФС сбрасываются. Выходное состояние начального узла инициализируется константным значением, соответствующим началу процесса распознавания. Начальный узел включается в список активных узлов. 2. Организуется основной цикл распознавания по всем фреймам входящего речевого сигнала (пункты 3-27). 3. Организуется обход списка активных узлов и реализация сетевого уровня распознавания (пункты 4-13). 4. Проверяется выходное состояние узла. Если узловой процесс распознавания еще не достиг выходного состояния, выполняется переход к следующему узлу списка активных узлов. 5. Просматривается список связей текущего активного узла. Для всех связей выполняются пункты Создается копия выходного состояния узла. 7. К текущему значению уровня доверия копии состояния добавляется значение доверия данной связи. Если связи равновероятны, то их уровень доверия равен нулю, если нет логарифмической вероятности перехода. 8. Если уровень доверия больше порогового значения, то копия состояния пересылается узлу, следующему по связи, и для него выполняются пункты Если нет продолжается просмотр списка связей. 9. Проверяется активность узла. Если узел не активен, он активизируется, инициализируется и добавляется в список активных узлов. 10. Сравниваются уровни доверия входного состояния и принятого состояния. Если уровень доверия входного состояния выше, выполняется возврат к просмотру списка связей (пункт 6). 11. Входное состояние заполняется данными принятого состояния. 12. Если узел является словом, меткой, концентратором или конечным узлом, то для него вызывается узловой уровень распознавания. 13. Выполняется возврат к просмотру списка связей (пункт 6.)

154 Организуется цикл обхода активных узлов и реализация узлового уровня распознавания (пункты 15-27). 15. Проверяется тип узла. Если узел является словом, меткой или концентратором, выполнение продолжается от пункта 16. Для конечного узла выполнение продолжается от пункта 19, для узлов-моделей звуков выполнение продолжается от пункта Сравниваются уровни доверия входного и выходного состояний узла. Если уровень доверия входного состояния ниже, выполнение продолжается от пункта Если узел имеет символьное имя (обычно, это узлы слов и меток), выполняется наращивание пути распознавания в выходном состоянии узла: в список меток пути добавляется новая метка, содержащая имя узла, значение уровня доверия, номер текущего фрейма и другую информацию. 18. Выполнение продолжается от пункта Просматривается список сохраненных вариантов распознавания и сравнение их с входящим состоянием узла. Если уровень доверия входного состояния выше уровня доверия одного из элементов списка, или в списке имеются свободные места, то входящее состояние сохраняется в списке результатов распознавания. 20. Выполнение продолжается от пункта Создается копия текущих состояний модели звука. При копировании осуществляется сдвиг таким образом, чтобы копия входного состояния узла соответствовала первому состоянию модели звука и т.д. 22. К копии каждого состояния прибавляется логарифмическая вероятность перехода в данное состояние. 23. Для копий состояний, правдоподобие которых превышает пороговое значение, рассчитывается уровень доверия принадлежности к текущему фрейму распознаваемого сигнала. 24. Полученные уровни доверия складываются с текущими уровнями доверия копий состояний.

155 Если уровень доверия копии состояния превышает уровень доверия состояния, то выполняется обратное копирование в рабочий набор состояний модели. 26. Заполняется выходное состояние узла. Для этого создается копия последнего состояния звуковой модели. К уровню доверия копии добавляется логарифмическая вероятность перехода из последнего состояния. Если текущий уровень доверия выходного состояния уза ниже уровня доверия копии, за выходное состояние узла принимается копия. 27. Выполнение продолжается от пункта Список лучших результатов распознавания хранится в конечном узле сети. Возможны различные способы учета длительностей фонем в алгоритме распознавания. Остановимся на двух из них, наиболее опробованных в разработанной системе распознавания речи: способе «тающего максимума» и способе контроля за пересылкой маркера. Какой бы из способов учета длительности не был избран, в базовом алгоритме необходимо предусмотреть средства, позволяющие определять длительность фонем. Для этого в структуру описания состояния добавляется новое поле данных длительность. Значение длительности во входном состоянии узла принимается равным нулю, значение длительности в выходном состоянии соответствует текущей длительности фонемы. Значения длительностей увеличиваются после обновления данных в рабочих состояниях модели звука (п.25). Способ «тающего максимума» В базовой версии алгоритма распознавания в рабочих состояниях сохраняется информация о состояниях с максимальными значениями правдо-

156 156 подобия. Способ тающего максимума заставляет значения правдоподобия изменяться пропорционально текущей длительности фонемы. Правдоподобие состояния изменяется сразу после обновления текущей длительности состояния (п.25 базового алгоритма). Для этого к текущему правдоподобию состояния прибавляется производная логарифмической вероятности появления фонемы с заданной длительностью. Логарифмическая вероятность (4.7) определяется, как натуральный логарифм от модифицированного закона нормального распределения (4.5): f ln ( x) = 2 ( x m + a ) 1 1 ln ( ) ( ). (4.7) 2 D a3 2π D a2 Соответственно, производная логарифмической вероятности равна: f ' ln ( x) x m + a = D a 3 1 ln 2π 1 ( ). (4.8) D a2 Кроме того, длительность учитывается при вычислении уровня доверия копий состояний (пп базового алгоритма). Для этого к значениям правдоподобия прибавляется значение логарифмической вероятности (4.7), если длительность состояния равна нулю; или производная логарифмической вероятности (4.8), если длительность состояния отлична от нуля. Способ контроля за пересылкой маркера В данном случае учет длительностей происходит непосредственно перед переносом информации из копий состояний в рабочий набор данных о состояниях (п.25 базового алгоритма). Для этого вычисляются два дополнительных уровня доверия: дополнение к копии состояния и дополнение к рабочим данным. Дополнения определяются как значения логарифмической вероятности (4.7) от соответствующих значений длительности.

157 157 Далее выполняется сравнение не самих уровней доверия копии состояния и рабочего набора данных, а их сумм с дополнениями. Остальные действия в базовом алгоритме остаются без изменений. Таким образом, при способе контроля за пересылкой маркера, учет длительностей влияет на распространение процесса распознавания по фонетической сети, но не оказывает непосредственного влияния на вычисление значений уровня доверия. 4.4 Оптимизация процесса распознавания С включением длительностей фонем в процесс распознавания появляются дополнительные возможности его (процесса) оптимизации. Информация о длительности звуков дает возможность исключать из процесса распознавания как отдельные фоны, так и цепочки фонов, если их длительность превышает допустимые значения. При оптимизации на уровне отдельных фонов выполняется простая проверка: длительность фона сравнивается с максимально допустимым значением длительности для данного фона. Если текущая длительность фона превышает пороговое значение, то он исключается из списка активных узлов. Работа с цепочками оказывается более сложной и требует расширения структуры данных ФС. В исходном варианте в узлах ФС сохраняется только информация о последующих узлах. Для организации обратной трассировки структуру данных узлов необходимо расширить списком предшествующих узлов. Кроме того, необходим массив флагов, соответствующих «отбившимся» последующим узлам. Обратная трассировка начинается от узла, для которого превышена предельно допустимая длительность. После выполнения трассировки, узел исключается из списка узлов. Обратная трассировка различается для узла, с которого она начинается и для всех остальных узлов цепочки. У узла, с которого все начинается, просматривается список предшествующих узлов. Для каждого предшествующего узла вызывается процедура

158 158 обратной трассировки, получающая в качестве параметра номер текущего узла. Для всех остальных узлов проверяется принятый номер. Если он меньше номера текущего узла, процедура завершается (для исключения циклов). Затем по принятому номеру устанавливаются флаги, отмечающие последующие «отбившиеся» узлы. Если все последующие узлы «отбились», то просматривается список предшествующих узлов, и для них вызывается процедура обратной трассировки. После просмотра списка, узел исключается из списка активных узлов. Деактивация, как отдельных узлов, так и их цепочек по значению предельно-допустимой длительности, сокращает пространство поиска и количество вычислений уровней доверия, соответственно, скорость распознавания увеличивается. Но это не единственный положительный эффект ограничения длительности. Исключение из пространства поиска ложных вариантов распознавания позволяет увеличить количество правильно распознаваемых слов. Сложность заключается в правильной настройке пороговых длительностей. Если выбрать пороговые значения: слишком большими, то эффективность процедуры может оказаться низкой или даже отрицательной пространство поиска сокращается незначительно, а накладные расходы (на учет длительностей) остаются прежними; слишком маленькими, то из пространства поиска станут исключаться корректные варианты распознавания, и возрастет количество ошибочно распознаваемых слов. На данный момент не удалось установить какой-либо зависимости между параметрами законов распределений и пороговыми длительностями. Последние определяются путем перебора, как максимизирующие количество правильно распознанных слов на тестовом наборе данных.

159 Результаты экспериментов После внесения всех необходимых доработок в систему распознавания выяснилось, что более эффективным является учет длительностей по способу «тающего максимума» [40]. Все приводимые результаты экспериментов получены с его использованием. В таблице 4.4 приведены результаты тестирования системы распознавания на пяти грамматиках. В тестировании использовалось более 15 тысяч файлов с записями команд (от 2 до 4 тысяч команд на грамматику). Таблица 4.4 Результаты тестирования процента распознавания с учетом моделей длительности фонем Результаты Количество слов Время счета, с Грамматика распознавания, % без учета с учетом без учета с учетом Список сотрудников ,6 93,4 0,977 0,879 Список сотрудников ,2 92,7 0,840 0,733 «Да/нет» 9 96,8 98,2 0,047 0,041 Станции метро 75 93,3 94,1 0,773 0,662 Пинкоды 10 80,5 77,3 0,628 0,549 Видно, что на четырех грамматиках происходит увеличение процента правильно распознанных команд при подключении моделей длительностей фонем, и на всех грамматиках среднее время вычислений сокращается на 10-15%. Падение процента на грамматике «пинкоды» объясняется недостаточной точностью моделирования. Становится очевидной необходимость учета зависимости длительности фонем от контекстов и положения в высказывании. 4.6 Развитие модели В результате исследования зависимости длительности звуков от длины высказывания [80] было установлено, что с увеличением длительности высказывания средняя длительность звуков уменьшается. Также было установлено, что начальные сегменты оказываются короче конечных, причем длительность зависит от количества звуков, оставшихся до конца высказывания.

160 160 В [80] также отмечается, что все исследованные факторы, вызывающие изменение длительности как гласных, так и согласных звуков, действуют независимо, и для предсказания длительности звука фразы может использоваться принцип суперпозиции. Полученные выводы подтверждаются порождающими моделями длительности звуков речи, с успехом используемыми в системах синтеза речи по тексту. Модель, описывающая длительности гласных звуков на основе принципа «несжимаемости», имеет вид (4.9). Предполагается, что в ударной позиции длительность i-го гласного не может быть меньше величины T imin, а влияние контекста учитывается коэффициентом k: i (0) ( Ti Ti min ) Ti min T k + =, где (4.9) (0) T i собственная длительность гласного в ударной позиции. Предлагается также модификация модели (4.9), учитывающая сокращение длительности гласных звуков в зависимости от их числа и положения в высказывании (4.10): (0) ( Ti Ti min ) Ti min a b T i = β + α и β - коэффициенты укорочения, a количество слогов после данного звука, b количество слогов перед данным звуком. α, где (4.10) Модели (4.9) и (4.10) предназначены исключительно для гласных звуков. В качестве общей модели длительности звуков в высказывании, короче 15 звуков, предлагается следующее уравнение: T j = N j T [ T k ( N j) ] ( k ) + 1 ( 0) 1 1, где (4.11) j n T N N

161 161 k n коэффициент сжатия, требуемого по условиям экономии оперативной памяти; k T коэффициент темпа речи; N количество звуков в высказывании; T длительность высказывания. Исходя из приведенных выше результатов, было решено учесть в модели длительности зависимость от положения звука во фразе [46]. Для различных звуков речи были построены экспериментальные законы распределения вероятности появления звука заданной длительности в заданной позиции высказывания (рисунки 4.11 и 4.12). 0,25 0,2 0,15 0,1 0, Рисунок 4.11 Зависимости вероятностей появления фонем от их длительности для фонемы «a1» 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0, Рисунок 4.12 Зависимости вероятностей появления фонем от их длительности для фонемы

162 162 Эксперименты показали, что за исключением одной (для рисунок 4.12) или двух (для «a1», рисунок 4.11) кривых, распределения практически совпадают. Выделяющиеся зависимости соответствуют начальным и конечным звукам (на выделяется только одна зависимость, т.к. начальных не существует). Полученные семейства распределений позволяют сделать вывод о том, что: зависимость длительности звука от положения в высказывании не так велика, как принято считать; законы распределения длительностей для начальных и конечных фонем высказываний существенно отличаются от законов распределений звуков, расположенных внутри высказываний. Порождающие модели длительностей звуков речи ( ) также предполагают зависимость длительности звуков речи от количества звуков в высказывании. Для проверки этой гипотезы были определены средние значения длительностей звуков в высказываниях, содержащих от 2 до 78 звуков (рисунки ). Как для ударных, так и для безударных гласных (рисунок 4.13) характерно падение средней длительности с увеличением количества звуков в высказывании. Основное падение происходит на высказываниях, содержащих до 16 (30) звуков. При дальнейшем увеличении длины высказываний длительность звуков продолжает медленно убывать. Также видно, что длительности безударных гласных меньше длительностей ударных.

163 ударные безударные среднее Рисунок 4.13 Зависимости длительности звуков от количества звуков в высказывании для ударных и безударных гласных Для мягких и твердых сонант (рисунок 4.14) характерно сокращение длительности с увеличением количества звуков в высказывании. Основное падение происходит на высказываниях, содержащих от 22 до 30 звуков. При дальнейшем увеличении длины высказываний длительность сонант продолжает медленно убывать. Также видно, что твердость и мягкость практически не влияют на длительности сонант твердые мягкие среднее Рисунок 4.14 Зависимости длительности звуков от количества звуков в высказывании для твердых и мягких сонант Для твердых и мягких сонант (рисунок 4.15) характерно сокращение длительности с увеличением количества звуков в высказывании. Основное падение происходит на высказываниях, содержащих до 22 звуков. На выска-

164 164 зываниях в звуков происходит некоторое повышение длительности взрывных, после чего продолжает медленно убывать твердые мягкие среднее Рисунок 4.15 Зависимости длительности звуков от количества звуков в высказывании для твердых и мягких взрывных (без разделения на звонкие и глухие) Для шипящих и аффрикат (рисунок 4.16) не наблюдается столь гладкой картины, как для других типов звуков. (Возможно, причина кроется в их меньшей частотности.) Однако графики позволяют проследить общую тенденцию уменьшения длительности звуков с увеличением их количества в высказывании шипящие африкаты среднее Рисунок 4.16 Зависимости длительности звуков от количества звуков в высказывании для шипящих и аффрикат (без разделения на звонкие и глухие)

165 165 Зависимости, представленные на рисунках , подтверждают: наличие связи между количеством звуков во фразе и их длительностью; существование общей тенденции убывания длительности звуков с увеличением их числа в высказывании; уникальность вида зависимости для звуков разных типов. Сказанное выше свидетельствует о целесообразности учета длительности высказываний (выраженной в количестве звуков речи) в модели длительности звуков. В качестве примера приведем экспериментальные зависимости вероятностей появления фонемы «a1» заданной длительности в словах с различным количеством звуков (рисунок 4.17). 0,3 0,25 0,2 0,15 0,1 0, Рисунок 4.17 Экспериментальные зависимости вероятностей появления фонемы «a1» В (4.9) с помощью коэффициента k, учитывается влияние контекста на длительность звука. В [80] приводятся правила для коррекции длительности звуков в зависимости от контекста, используемые в системах синтеза речи по тексту. Приведем некоторые из них: следующий за ударным звуком согласный звук укорачивается на 25 мс; звук, следующий за укорачиваемым согласным, также укорачивается на 25 мс; гласный, предшествующий звонкому согласному, удлиняется на 20 мс; предшествующий щелевому согласному гласный удлиняется на 15 мс; и т.д.

166 166 С учетом того, что модель описывает зависимость длительности от количества звуков в высказывании и общего количества всех возможных контекстов, построение распределений для всех возможных контекстов не представляется возможным. В большинстве случаев для построения распределений просто не хватает данных. В результате исследования встречаемости звуков в различных контекстах было решено выделить четыре контекстных группы (таблица 4.5): Таблица 4.5 Контекстные группы и их состав Название Состав sil Тишина (sil, ClearSil, null) Vow Гласные (a, e, o, u, i, y, a1, i1, _a, _o, _u, _a1, _u1) Voi Звонкие согласные (v, l, m, n, j, v, l, m, n, r, r, z, z, x, b, g, d, b, g, d ) Uvo Глухие согласные(k, p, t, k, p, t, f, f, h, h, w, s, s, $, c, ch) На рисунке 4.18 представлены зависимости вероятностей появления фонемы «а1» в трехзвучных словах от их длительности в различных контекстах. 0,6 0,5 0,4 0,3 0,2 0, Рисунок 4.18 Зависимости вероятностей появления фонемы «a1» в трехзвучных словах Видно, что контекст определяет форму зависимости. Следовательно, включение контекстов в создаваемые модели длительностей звуков, представляется целесообразным.

167 Результаты экспериментов на расширенной модели В систему распознавания было внесено моделирование всех, признанных полезными зависимостей длительности. На использовавшемся ранее множестве команд было выполнено измерение процента правильного распознавания. Полученные результаты представлены в таблице 4.6. Таблица 4.6 Результаты тестирования процента распознавания с учетом моделей длительности фонем Результаты распознавания, % Время счета, с Грамматика Без с без с развитие развитие учета учетом учета учетом Список сотрудников 1 89,6 93,4 95,2 0,977 0,879 1,011 Список сотрудников 2 91,2 92,7 94,5 0,840 0,733 0,976 «Да/нет» 96,8 98,2 98,2 0,047 0,041 0,050 Станции метро 93,3 94,1 97,9 0,773 0,662 0,876 Пинкоды 80,5 77,3 84,3 0,628 0,549 0,605 Проведенные эксперименты показали увеличение точности распознавания на всех грамматиках, и, следовательно, дополнительные учитываемые зависимости были выбраны верно. Из таблицы 4.6 видно, что на всех грамматиках время вычисления возросло. Это связано с тем, что возросшая сложность модели длительности не компенсируется в результате оптимизации максимальных длин цепочек звуков [46]. 4.8 Выводы Исследованы причины вариативности звуков речи: стиль речи, эмоциональное состояние диктора, наличие акцента. Также исследованы зависимости длительностей звуков от длины высказывания, положения звука во фразе и звукового контекста. Построены гистограммы вероятностей появления фонем различной длительности и установлено их существенное различие. Выявлены основные формы зависимости вероятности появления фонем от их длительности.

168 168 Для моделирования зависимостей предложена модифицированная формула закона нормального распределения и разработано программное обеспечение подбора параметров законов распределения методом градиентного спуска. Для всех фонем определены параметры законов распределений. На основе алгоритма пересылки маркера разработаны способы учета длительности фонем в алгоритмах распознавания: способ тающего максимума и способ контроля за пересылкой маркера. Экспериментально подтверждена эффективность предложенной расширенной модели длительности звуков русской речи: увеличение процента правильного распознавания было устойчивым и составило от 1,4 до 5,6%.

169 169 Глава 5 Психоакустическая модель Слух это часть нашего мировосприятия. Мир наполнен самыми разными звуками: тиканье часов и шум транспорта, шелест листьев и завывание ветра, пение птиц и голоса людей, биенье сердец. На бытовом уровне звук это то, что мы слышим. Но что же мы слышим? «Ухо приучается слышать сквозь определенную призму; его можно растревожить, привести в замешательство или даже повредить, предлагая ему объекты, среди которых оно не способно ориентироваться по привычным координатам. Действительно, переходя от анализа аккорда, сыгранного на фортепиано, к анализу мультифонического звука, сыгранного на духовом инструменте, или воспроизведенного каким-либо ударным инструментом, вы испытываете трудности адаптации из-за самой природы предлагаемых вам объектов» (Пьер Булез). Поэтому очень важно понять что и как слышит человек, что учитывается человеком при восприятия звука, а что нет; нужно выделить в звуковом сигнале важное и на этой основе пытаться распознавать сигнал. 5.1 Свойства звуковых сигналов и особенности их восприятия В отдельном звуке восприятие выделяет пять основных свойств: громкость, тембр, высота, продолжительность и пространственная локализация. При этом громкость можно соотнести с амплитудой колебаний, тембр с формой волны, высоту с частотой колебаний. Слуховая система человека чрезвычайно тонкий аппарат, имеющий ограничения в восприятии частотного диапазона, разрешающей способности, обладающий нелинейными свойствами. Наука, исследующая способность слуховой системы воспринимать и преобразовывать в слуховые ощущения основные объективные параметры звукового сигнала, называется психоакустикой. Основные задачи психоакустики понять, как слуховая система расшифровывает звуковой образ, установить основные соответствия между физическими параметрами и слуховыми ощущениями и выявить, какие

170 170 именно параметры звукового сигнала являются наиболее значимыми для передачи семантической и эстетической информации Чувствительность слухового анализатора Порогом слышимости характеризуется чувствительность уха к интенсивности звуковой энергии. Порогом слышимости называют минимальное звуковое давление, при котором еще существует слуховое ощущение. Величина порога зависит от характера звуковых колебаний и условий измерений. Существует ряд стандартов, задающих порог слышимости на различных частотах: например ISO/R-226 или ANSI-89. Порог слышимости называют абсолютным, если он измеряется на тональных сигналах в полной тишине. Измерения проводятся для людей в возрасте от 18 до 30 лет [22, 52]. Источник сигнала размещается перед аудитором, а длительность воздействия превышает 250 мс (ISO/R-226, таблица 5.1). Графики зависимости порогов от частоты представлены на рисунке 5.1. Таблица 5.1 Пороги слышимости, согласно международному стандарту ISO/R-226 Частота, Гц Уровень, дб 25,1 13,8 7,2 4,4 4,2 1,0-3,6-1,1 15,3 11,6 Рисунок 5.1 Области слышимости звука Из рисунка 5.1 видно, что порог слышимости в зависимости от частоты меняется в очень широких пределах [21, 22, 52]. Наибольшей чувствительно-

171 171 стью ухо обладает в области частот от 2 до 5 кгц, где порог слышимости имеет наименьшую величину. В области максимальной чувствительности слух воспринимает давление около Па 17. Пороги слышимости для левого и правого уха различны, поэтому различаются результаты измерений, проводимых с громкоговорителями и наушниками. Так, при использовании наушников, порог слышимости выше на 5 10 дб. Кроме того, абсолютные пороги слышимости существенно различаются от аудитора к аудитору в зависимости от возраста 18, состояния слуховой системы и наличия заболеваний. Для их оценки измеряются индивидуальные слуховые пороги и строится аудиограмма (график зависимости слуховой чувствительности от частоты). Она может быть построена как относительно абсолютных порогов, так и относительно нулевого уровня, за который приняты значения порогов из таблицы 5.2. Таблица 5.2 Нулевые уровни для построения аудиограмм Частота, Гц Уровень, дб 45 25,5 11,5 7,0 9,0 9,5 13,0 Со стороны громких звуков также существует ограничение восприятия. Порогу неприятного ощущения соответствует звуковое давление порядка 10 Па или 100 дб. При давлении в Па возникает ощущение давления на уши достигается порог осязания. Давление в Па причиняет боль и называется болевым порогом (рисунок 5.1). Если экстраполировать кривые порога слышимости и болевого порога в области инфразвуковых частот (менее 30 Гц) и ультразвуковых частот (выше 20 кгц), то они пересекутся. Это означает, что в данных областях звуковое давление высокой интенсивности достигает болевого порога, не вызывая слуховых ощущений. 17 Любопытно отметить, что звуковое давление, возникающее вследствие флюктуаций плотности воздуха, имеет при температуре 25 С величину Па. Если бы ухо обладало вдвое большей чувствительностью, то оно слышало бы непрерывный шум флюктуаций молекул воздуха и тока крови. Таким образом, чувствительность слуха находится на пределе биологической целесообразности. 18 С возрастом слух притупляется. Так на частоте 10 кгц у 60-и летнего человека чувствительность уха ниже на 20 дб, чем у 20-и летнего.

172 172 Кривые порога слышимости и болевого порога ограничивают область слухового ощущения, называемую также областью слышимости. Все воспринимаемые слухом звуки лежат внутри этой области. Динамический диапазон слуховой системы составляет дб, однако «рабочий» уровень интенсивности не превышает 75 дб. Воздействие звука с уровнем давления выше 90 дб приводит к изменению порогов слышимости и даже к глухоте. Степень поражения слуховой системы оказывается пропорциональна времени воздействия. Наибольшие изменения происходят в восприятии высоких частот. Потеря слуха, возникающая в результате воздействия громких звуков, не поддается лечению. Поэтому установлены международные нормы на время пребывания в помещениях с высоким уровнем шума (таблица 5.3). Таблица 5.3 Допустимое время пребывания в звуковой среде с высоким уровнем звукового давления SPL, дб T, часов в день 8,0 6,0 4,0 3,0 2,0 1,2 1,0 0,5 0,25 Кроме болевого порога и порога слышимости на рисунке 5.1 представлены области слышимости музыки и речи. Музыкальные и речевые сигналы занимают только часть слышимой области как по частоте, так и по амплитуде. Так частотный диапазон речи составляет от 100 Гц до 7-8 кгц, а диапазон давлений от 40 до 80 дб. Музыкальный частотный диапазон составляет 30 Гц 15 кгц, а диапазон уровня давлений дб. Человеческий слух способен воспринимать как сигналы с очень низкой интенсивностью, так и с очень высокой. Напомним, что громкость это субъективное ощущение, позволяющее слуховой системе классифицировать звуки по интенсивности. Интуитивно ясно, что чем выше интенсивность, тем громче звук. Однако, еще в процессе изучения порогов восприятия можно было понять, что не все так просто. Так, например, можно создавать звуковые сигналы с очень высокой интенсивностью, но не вызывающие слуховых ощущений. Это происходит из-за того, что громкость является не только

173 173 функцией интенсивности, но зависит также от частотного состава сигнала и целого ряда других характеристик. На сегодняшний день оценки ощущения громкости при изменении различных параметров звукового сигнала получаются методом экспертной оценки. Возможны несколько способов проведения экспертизы, однако все они представляют собой длительный и трудоемкий процесс. Определение шкалы громкости звуков и установление влияния на него основных параметров сигнала было выполнено для тональных сигналов различной интенсивности, частоты и длительности, что послужило основой для оценки громкости сложных музыкальных, речевых и шумовых сигналов. Поскольку техника оценки абсолютной громкости и ее связей с интенсивностью, частотой и длительностью звуковых сигналов достаточно сложна, то широкое распространение получили методы относительной оценки уровней громкости. Рисунок 5.2 Кривые равной громкости Уровни громкости определяются в результате проведения серии следующих экспериментов. Выставляется уровень интенсивности эталонного звука на частоте 1000 Гц, затем аудитор прослушивает сигналы на других частотах и подбирает их уровень таким образом, чтобы они казались равно-

174 174 громкими эталонному. Затем изменяется уровень эталонного сигнала и процедура подбора повторяется. В результате эксперимента строится семейство кривых равной громкости, называемых изофонами (рисунок 5.2). Полученные таким способом изофоны сильно зависят от индивидуальных свойств аудитора, поэтому измерения производятся для группы аудиторов, после чего производится статистическая обработка результатов измерений. Так как при получении каждой изофоны уровень эталонного звука остается постоянным и является параметром кривой, в пределах каждой кривой уровень воспринимаемой громкости имеет одну и ту же величину, равную уровню интенсивности на частоте 1000 Гц, т.е. уровень громкости в фонах равен интенсивности в децибелах. Описанная процедура построения изофон называется способом уравнивания. Кривые могут быть получены и другими методами, например, методом балансного регулирования. На рисунке 5.2 представлены изофоны, зафиксированные в стандарте ISO 226, полученные в 1956 году. Первые же изофоны были получены Флетчером и Мэнсоном в результате обработки данных большого числа экспериментов, проведенных ими среди посетителей Всемирной выставки 1931 года в Нью-Йорке. Анализ кривых равной громкости показывает, что при малых уровнях звукового давления оценка уровня громкости очень сильно зависит от частоты слух менее чувствителен к низким и высоким частотам. С увеличением уровня эталонного сигнала изофоны выравниваются, подъем на низких частотах становится менее крутым, происходит более быстрое нарастание громкости звуков низкой частоты, чем средних и высоких. Громкость сигналов с высокой интенсивностью воспринимается более равномерно, чем громкость сигналов с низкой интенсивностью. Интенсивность речевого сигнала величина переменная во времени, однако для достаточного большого промежутка времени можно получить некоторую интегральную картину. На рисунке 5.3 представлен усредненный

175 175 для мужских и женских голосов спектр русской речи, соответствующий суммарному уровню сигнала 97,5 дб. Интересен тот факт, что при повышении громкости сигнала за счет напряжения речевого аппарата (т.н. «форсированная речь»), структура интегрального спектра изменяется за счет перераспределения энергий между частотными полосами [68]. Спектры «форсированной речи» представлены на рисунке 5.4, где цифрой ноль обозначен интегральный спектр речи с нормальным уровнем интенсивности. Рисунок 5.3 Интегральный спектр русской речи Рисунок 5.4 Перераспределение спектральной энергии при увеличении громкости речи Это свойство слуха крайне важно для обработки звуковых сигналов, т.к. относительная громкость отдельных звуков разной частоты изменяется при изменении общего уровня сигнала. Для сохранения баланса громкости отдельных звуков требуется сохранять общий уровень результирующего сигнала равным общему уровню исходного сигнала. Сохранение естественности звучания возможно лишь при сохранении естественного уровня сигнала. На-

176 176 рушение баланса громкости приводит, например, к возникновению эффекта «бубнения», наблюдающегося при воспроизведении речи с высоким уровнем громкости. Слушатель воспринимает в них низкие частоты значительно более громкими, чем при прослушивании естественного источника на более «тихих» уровнях. Формантами называются усиленные частотные области спектра данного звука [68]. Согласно одной из теорий, форманты и их положение позволяют различать звуки при их слуховом восприятии. Звуки различаются количеством формант и их расположением в частотной области. Рисунок 5.5 Формантный спектр русской речи Спектром формант называют зависимость наиболее вероятного спектрального уровня формант от частоты (рисунок 5.5) [68]. Формантный спектр нельзя получить непосредственным измерением уровня интенсивности формант из-за невозможности разделения формантной и неформантной составляющей. Спектр формант, представленный на рисунке 5.5, получен в результате артикуляционных измерений в различных частотных полосах для уже известного спектра речи [16, 68]. Распределение формант это частотность встречаемости формант в различных участках спектра. На рисунках 5.6 и 5.7 приведены распределения формант русской речи в интегральной и в дифференциальной формах. Интегральное распределение определяет вероятность попадания формант в частотный диапазон от 0 Гц до заданной частоты. Дифференциальное относительное число формант, содержащихся в полосе шириной 100 Гц, отслеженное по средней полосе этой частоты.

177 177 На основе распределения формант определяются границы равноартикуляционных полос, т.е. полос, в которые форманты попадают с равной вероятностью [15, 17, 68]. Рисунок 5.6 Интегральное распределение формант Рисунок 5.7 Частотная зависимость относительного числа формант в полосах шириной 100 Гц Из наблюдений известно, что широкополосные сигналы кажутся громче, чем узкополосные сигналы с таким же уровнем звукового давления. На рисунке 5.8 представлен график зависимости уровня громкости шумового сигнала с центральной частотой 1 кгц от ширины полосы. Полоса шума, в пределах которой громкость сигнала остается постоянной, называется критической полосой. Различие механизмов обработки сигнала внутри и вне критических полос имеет принципиальное значение для определения громкости сложных звуков.

178 178 По одной из теорий, работа слухового анализатора подобна работе линейки полосовых фильтров. От части это находит подтверждение в ширине критических полос, которая примерно соответствует ширине полосы пропускания слуховых фильтров и меняется в зависимости от частоты, в соответствии с кривой на рисунке 5.9. Для сравнения приведено изменение ширины полосы, соответствующей третьоктавной полосе и целому музыкальному тону [21, 22]. Рисунок 5.8 Зависимость уровня громкости от ширины полосы сигнала В области до 500 Гц ширина критических полос почти не зависит от средней частоты шума и составляет порядка 100 Гц. В области выше 500 Гц она увеличивается пропорционально средней частоте, при этом соблюдается относительное постоянство ширины полосы. При воздействии широкополосного шума слух реагирует не на общую мощность шума, а на мощность шума в критических полосах, что позволяет рассматривать сплошной спектр как дискретный, состоящий из конечного числа критических полос [52]. Если совместить критические полосы в один ряд, то в слышимом диапазоне их оказывается 24.

179 179 Рисунок 5.9. Изменение ширины критических полос как функции частоты После того, как установлена зависимость громкости от уровня звукового давления для тона с частотой 1000 Гц, легко можно измерить громкость любого звука. Для этого достаточно посредством сравнения измерить его уровень громкости, что значительно проще, чем прямое измерение громкости. Если уровень громкости измеряемого сложного звука известен, то его громкость равна громкости с частотой 1000 Гц с данным уровнем звукового давления. Громкость сложного звукового сигнала зависит от его спектрального состава. Эта зависимость изучена достаточно хорошо, и разработаны различные методы расчета громкости акустического сигнала по его спектру. Однако, вопросы теоретического обоснования этих методов до сих пор продолжают обсуждаться. В основе большинства предложенных методов лежит понятие критической полосы частот.

180 5.1.2 Амплитудное распределение 180 Амплитудное распределение строится как относительное число случаев (Z), в которых превышается заданный уровень сигнала (B). На рисунке 5.10 за 0 Дб принят уровень, соответствующий среднему уровню речи. Исследования показали, что средние уровни имеют наибольшую частотность, высокие и низкие уровни появляются тем реже, чем сильнее они отклоняются от среднего уровня; распределение уровней подчиняется закону, близкому к нормальному, и что амплитудное распределение практически не зависит от рассматриваемой полосы частот [29, 68]. Рисунок 5.10 Амплитудная характеристика русской речи По амплитудному распределению определяют еще два параметра: пикфактор и динамический диапазон. Динамический диапазон определяется как разность между максимальным и минимальным уровнем, а разность между максимальным и средним уровнем называют пик-фактором. Из рисунка 5.10 видно, что средний уровень, обозначенный нулем, достигается в 19% случаев (или моментов времени) и превышается на 12 дб в 1% случаев. Если за минимальный уровень принять уровень сигнала, превышаемый в 99 % случаев, а за максимальный в 1% случаев, то динамический диапазон составит 45 Дб, а пик-фактор 12 Дб [29].

181 Временные свойства слухового анализатора Представление о слуховом анализаторе человека, как о частотном анализаторе, не описывает исчерпывающим образом все свойства слуха. Установлено, что он обладает механизмом, реагирующим на временные соотношения в звуковом процессе [68]. Еще в 1874 году Майером была предложена гипотеза последействия, суть которой заключается в том, что слуховое восприятие является непрерывным и сглаженным во времени процессом. Согласно гипотезе, каждый «залп» нервных импульсов, воздействующий на слуховой анализатор, оставляет после себя длительный, постепенно затухающий, процесс возбуждения, который суммируется с остатками предыдущих возбуждений и с процессами, вызванными последующими «залпами» импульсов. В 1955 году Страудом была предложена «гипотеза дискретного восприятия», заключающаяся в том, что звукоощущение не является непрерывной во времени функцией, а представляет собой последовательность квантов восприятия. Каждый квант восприятия создается путем анализа отрезка звукового процесса длительностью мсек. Опыты показали, что при одновременном включении двух тоновых сигналов слуховой анализатор воспринимает их как один сложный звук. Если запаздывание второго сигнала составляет 200 и более миллисекунд, то второй сигнал воспринимается как отдельный сигнал на фоне первого. Было установлено, что это свойство слуха действует и в случае более сложных сигналов. Итак, слуховой анализатор человека инерционен (обладает эффектом памяти) при исчезновении звука слуховое ощущение исчезает не сразу, а постепенно уменьшается до нуля. Время уменьшения ощущаемого уровня громкости на 9 10 фон называют постоянной времени слуха. Постоянная времени слуха зависит от различных условий и обычно не превышает 50 мс. Инерционность слуха приводит к некоторым эффектам восприятия эха. При сложении основного и запаздывающего сигналов происходит прираще-

182 182 ние уровня громкости, при этом оно происходит по-разному в зависимости от общего уровня сигнала. Если сигнал слабый (до 55 фон), то при величине задержки отраженного сигнала до 40 мс происходит увеличение уровня громкости на 3 фона, при дальнейшем увеличении времени задержки прирост уровня громкости снижается, т.к. сигналы начинают восприниматься раздельно. При уровнях громкости больше 55 фон увеличение общего уровня громкости происходит иначе оно достигает 5 фон при задержке 50 мс, и затем также начинает снижаться. Инерционность слуха проявляется также в явлении маскировки, заключающемся в том, что под воздействием звука чувствительность слуха со временем уменьшается, и после прекращения действия звука или уменьшения его интенсивности, слух не сразу адаптируется к изменившейся громкости, что приводит к маскировке звуков, следующих за звуком большей громкости. Восстановление чувствительности слухового анализатора может занимать несколько сотен миллисекунд, и в результате маскировки может быть потерян целый слог речи. Маскировка разделяется на предмаскировку и послемаскировку. Предмаскировка проявляется на коротких (до 10 мс) временных интервалах, эффект послемаскировки сохраняется 100 и даже 200 мс после окончания маскирующего звука. Считается, что параметры временной маскировки сильно зависят от конкретного аудитора, и по этой причине исследованы слабо. Причины же эффекта предмаскировки остаются вовсе неясными нам лишь известно о наличии такого явления. Выделяют следующие особенности временной маскировки [52]: - послемаскировка более эффективна, чем предмаскировка; - более высокий уровень маскировки наблюдается при поступлении маскирующего звука через короткий интервал вслед за маскируемым звуком; - маскировка выражена сильнее, когда маскирующий и маскируемый звуки поступают в одно ухо;

183 183 - уровень маскировки обычно резко падает при увеличении временного интервала свыше 15 мс; - увеличение уровня интенсивности маскирующего сигнала на 10 дб вызывает сдвиг порога маскировки на 3 дб; - длительность маскирующего звука влияет на степень предмаскировки, но не на послемаскировку; - временная маскировка зависит от частотного соотношения маскирующего и маскируемого звуков, маскировка проявляется сильнее, когда частоты звуков близки. Адаптивность слуха проявляется и под воздействием длительных громких звуков, под их воздействием ощущаемая громкость звука постепенно уменьшается слух адаптируется. Это явление изучено гораздо полнее, чем временная маскировка. Воспринимаемая громкость зависит от длительности сигнала: если на слуховой канал поступают два сигнала одинаковой интенсивности, то более короткий сигнал, воспринимается как менее громкий. Увеличение длительности сигнала приводит к постепенному нарастанию воспринимаемой громкости. Увеличение громкости происходит до достижения сигналом длительности в мс, при этом возрастание уровня громкости происходит почти линейно (рисунок 5.11). При воздействии на слуховой анализатор достаточно длительного звука большой интенсивности воспринимаемая громкость постепенно уменьшается, т.е. чувствительность уха падает. После прекращения действия звука чувствительность слуха постепенно восстанавливается. В качестве примера рассмотрим результаты изменения уровня звукового давления и ощущаемого уровня громкости, полученные Бекеши (рисунок 5.12).

184 184 Рисунок 5.11 Возрастание уровня громкости при увеличении длительности сигнала Рисунок 5.12 Адаптация слуха при увеличении звукового давления При воздействии звука с уровнем 94 дб в течение двух минут, уровень громкости постепенно уменьшается на величину 9 фон. Скорость падения уровня громкости в первые 40 секунд остается высокой, после чего наблюдается замедление падения громкости. При резком увеличении уровня сигнала с 94 до 100 дб, уровень громкости увеличивается до 94,5 фон, т.е. в меньшей

185 185 степени, чем это должно было бы соответствовать значению уровня сигнала в 100 дб. Затем уровень громкости снижается до 88 фон, причем с большей скоростью, т.е. степень адаптации тем больше, чем громче звуковой сигнал. При этом происходит снижение чувствительности слуха и повышение слуховых порогов. Изменение уровня громкости проявляется и при внезапном уменьшении уровня воздействующего сигнала. Как показано на рисунке 5.13, при воздействии сигнала с уровнем 94 дб происходит постепенное понижение уровня воспринимаемой громкости на 9 фон, затем при скачкообразном уменьшении уровня сигнала на 6 дб, уровень ощущаемой громкости резко падает на 19 фон, а затем постепенно увеличивается, т.е. происходит адаптация к тихим звукам, и постепенно чувствительность восстанавливается. Рисунок 5.13 Адаптация слуха при уменьшении звукового давления Адаптация проявляется в виде потери чувствительности слуха при длительном воздействии громкого звука и восстановлении ее при снятии звука. Защитная способность слуха ограничена и обладает инерцией акустический рефлекс начинает срабатывать только через мс после начала звука, и полная защита еще не достигается даже за 150 мс. Поэтому для слуха оказы-

186 186 вается опасным как воздействие длительных, так и воздействие коротких громких звуков. Воспринимаемая громкость сложным нелинейным образом зависит от интенсивности воздействующего сигнала, его длительности, спектрального состава и временной структуры. Нелинейность слуха проявляется и в том, что при воздействии на барабанную перепонку достаточно громкого гармонического сигнала с частотой F, в слуховом анализаторе возникают гармоники этого сигнала с частотами 2F, 3F и т.д. Поскольку в исходном сигнале этих гармоник нет, их называют субъективными гармониками. Обнаружить субъективные гармоники можно методом звукового зонда, заключающегося в том, что если к звуку, под действием которого возникают субъективные гармоники, добавить второй звук небольшой интенсивности, частоту и уровень которого можно плавно изменять, то при неточном совпадении его частоты с частотой субъективной гармоники аудитор воспринимает биения, являющиеся результатом взаимодействия зондирующего звука с субъективной гармоникой Эффекты маскировки и критические полосы слуха Нелинейность слуха также приводит к возникновению маскировки (не путать с временной маскировкой!), возникающей при прослушивании полезных (несущих определенную информацию) звуков, на фоне мешающих (или маскирующих) звуков. В результате маскировки происходит потеря части полезной информации. Маскирующее действие звуков определяют как величину порога слышимости эталонных гармонических и узкополосных шумовых сигналов в присутствии маскирующего звука определенной интенсивности. Изменяя частоту эталонного звука и фиксируя уровень, который начинает восприниматься, строят кривые порогов слышимости при маскировке.

187 187 Анализ кривых маскировки показывает, что маскировка частот выше маскирующей проявляется сильнее, чем в области частот ниже маскирующей. Это подтверждает гипотезу о маскирующем эффекте субъективных гармоник, возбуждающих базилярную мембрану и мешающих восприятию эталонных сигналов, частоты которых близки к частотам субъективных гармоник. Кроме того, это подтверждается формой кривой маскировки и различием форм кривых маскировки, получаемых для гармонического и шумового мешающего сигналов. На рисунке 5.14 показаны примеры зависимостей степени маскировки от частоты и уровня маскирующего сигнала для четырех маскируемых сигналов [52]. Рисунок 5.14 Примеры кривых маскировки для тональных маскеров Видно, что уровень маскирования сильно зависит от частоты и уровня маскирующего сигнала. Практический интерес также представляют кривые порога слышимости, определенные при маскировании широкополосными шумами. На рисунке 5.15 представлены кривые порогов слышимости гармонического сигнала при маскировании белым шумом. Уровни интенсивности белого шума проставлены над кривыми.

188 188 Рисунок 5.15 Кривые порога слышимости при маскировке белым шумом Из рисунка 5.15 видно, что на низких частотах кривые маскировки ответвляются от порога слышимости в тишине и идут горизонтально до частоты 500 Гц, после чего величина порога слышимости возрастает. Также можно наблюдать, что скорость возрастания у всех кривых разная. В результате исследования маскировки гармонических сигналов узкополосным шумом Э. Цвикер сделал вывод о том, что слуховой анализатор разделяет весь частотный диапазон на отдельные частотные группы [87]. Частотные группы были определены из предположения о том, что в частотной области до 500 Гц слух воспринимает звук полосами постоянной абсолютной интенсивности, а на участках выше 500 Гц полосами постоянной относительной ширины 19. До этого Флетчер определил частотные интервалы и назвал их критическими полосами слуха [132]. Отличие критических полос по Флетчеру и по Цвикеру связано с тем, что первый исходил из маскирующего действия шума, а второй из соотношений громкости. Также критические полосы речи были определены Сапожковым М.А исходя из свойств речевого сигнала [71]. Критические полосы были определены и другими исследователями. Покровский Н. Б. [68] определил критические полосы на основе свойств речевого сигнала как полосы, обеспечиваю- 19 Таблицы критических полос приведены в приложении 3.

189 189 щие равную вероятность попадания в них формант, а Сорокин В. Н. [80] на основе свойств резонаторов речевого тракта определил резонаторные полосы, характерные для различных звуков речи. Критические полосы слуха не совпадают в точности с частотными областями, выделяемыми при исследовании речеобразования. Есть все основания считать, что применение критических полос (независимо от того, как они были определены) при оценке качества речи даст лучшие результаты, чем применение каких-либо других частотных полос. Кроме того, одновременное применение критических полос, определенных разными авторами, позволит учесть различные аспекты слуха и речеобразования [42, 182] Временные характеристики речевого сигнала В речевом сигнале значительная часть информации представлена просодическими параметрами. Основными функциями интонационных средств являются интегрирующая и сегментирующая. Просодика совместно с другими синтаксическими средствами обеспечивает: - структурное единство дискурса и - его последовательное членение на функционально значимые сегменты: реплики, фразы и синтагмы 20. Интонационные средства служат для передачи эмоциональнопсихологического настроя, разделения фраз и синтагм по их коммуникативно-смысловому содержанию. Минимальные интонационно-смысловые единицы речи (интонемы) определяются: - мелодической составляющей, зависящей от положения синтагмы в дискурсе, интонационного типа, места информационного фокуса и поведения предударных и послеударных слогов; 20 Синтагмы минимальные речевые интонационно-смысловые единицы. Иногда синтагма определяется, как фрагмент речевого сигнала от паузы до паузы.

190 190 - динамической составляющей, которая стремиться к падению в конце синтагмы или фразы, и в своей конкретной форме зависит от типа интонационного контура и места главноударного слова; - временной составляющей, которая зависит от среднего темпа речи говорящего индивида, служит выделению информационно более значимых звеньев высказывания путем ускорения темпа речи на этих участках и замедления темпа на других участках; - паузами различной длительности, обеспечивающими членение на синтагмы и объединение синтагм между собой. Физическими коррелятами этих составляющих являются: - изменения частоты колебаний голосовых связок, воспринимаемые как изменения высоты голоса; - изменения интенсивности колебаний голосовых связок, воспринимаемые как изменения громкости; - изменения относительной скорости произнесения звуков, воспринимаемые как изменения темпа речи; - перерывы в фонации или замещающие их изменения в мелодике, интенсивности и темпе речи, воспринимаемые как паузы (физиологические и психологические). В совокупности и взаимодействии друг с другом они формируют интонационные контуры. Мелодика позволяет различать значения завершенности и незавершенности сообщения, повествования и вопроса, определенной эмоциональной окраски. Ударение обеспечивает структурную целостность фраз и синтагм, объединяет фразу, опираясь на одно из синтагматических ударений, выделяет информационно-смысловой фокус фразы. Практика применения синтезаторов речи показывает необходимость соблюдения просодических характеристик сигнала для обеспечения его естественности и разборчивости. Так в [116] было показано, что несоблюдение временных параметров приводит к снижению не только естественности, но и разборчивости.

191 191 Информация о положении звука в слове, слова во фразе, и значение фонетического контекста содержится, в том числе, и во временных параметрах речевого сигнала. Временные параметры характеризуют индивидуальные характеристики диктора, его эмоциональное и физическое состояние. Противопоставление длительности ударных и безударных гласных является ярким примером информативности временных параметров сигнала. Скорость артикуляции изменяется в зависимости от условий и темы разговора, а также от диктора к диктору. Длительности различных звуков и их контекстная вариация является важным источником информации при распознавании речи. Исследования временной структуры речи показали, что имеются существенные различия не только между речью дикторов, но и между разными языками. В большинстве работ рассматриваются один два фактора, определяющих длительность звуков речи, причем дается либо качественное описание зависимостей, либо табличные значения длительностей. Поскольку имеется более десяти факторов, влияющих на длительности звуков [151], табличное и качественное описания зависимостей является недостаточными, т.к. первое не охватывает все возможные значения, а второе не позволяет получать конкретные числовые значения параметров. Исключением из общей массы работ являются работы [152, 171], где приводятся алгоритмы определения длительностей комбинаторных аллофонов, и работы [122, 158], в которых описываются алгоритмы управления длительностью звуков в речевом потоке. Согласно Покровскому Н.Б. [68], можно выделить следующие временные характеристики: - средние длительности звуков различны и изменяются от 20 до 260 мс; - гласные звуки имеют большую длительность, чем согласные. Максимальную длительность имеет звук «а», минимальную «п»;

192 192 - ударение создается в том числе и за счет увеличения длительности ударного гласного. Длительность ударных гласных больше длительности безударных; - длительность гласных звуков во фразах меньше, чем длительность в отдельных словах; - длительность пауз в речевом потоке составляет примерно 16% от суммарной длительности сигнала. 5.2 Реализация психоакустической модели Пердлагаемая психоакустическая модель включает в себя три уровня: - пси-фильтрацию; - нормализацию уровней; - перевод в различимые градации. Основу психоакустической модели составляют различные полученные экспериментально зависимости, оформленные в виде таблиц значений. Пси-фильтрация Пси-фильтрация [35] наиболее сложный уровень обработки. На рисунке 5.16 представлена укрупненная схема пси-фильтра. Поступающий фрейм данных сохраняется в блоке текущего фрейма, и передается на вход пси-маскера. На основе поступивших данных формируется пре-маска. Премаска накладывается на предыдущий фрейм данных, и результат маскирования принимается за выходное значение фильтра. Кроме того, маскером формируется текущая маска, являющаяся объединением внутренней- и пост- масок. Текущая маска накладывается на текущий фрейм данных, и результат маскирования сохраняется в блоке предыдущего фрейма.

193 193 Предыдущий фрейм + Текущий фрейм премаска текущаямаска + Пси-маскер Результирующий фрейм Рисунок 5.16 Укрупненная схема пси-фильтра Процесс маскирования описывается формулой (5.1): x i xi, = 0, xi > mi, где (5.1) x m i i x i компонента спектра с номером i; m i компонента маски с номером i. Процедура построения масок включает следующую последовательность действий: 1. загрузка спектра; 2. обработка порога слышимости; 3. маскирование флюидных уровней; 4. разделение спектра на тоны и шумы; 5. построение масок от тональных компонент; 6. построение масок от шумовых компонент; 7. объединение масок от тональных и шумовых компонент; 8. объединение текущей маски с пост-маской; 9. формирование пост-маски для следующего фрейма; 10. формирование маски для предыдущего фрейма; 11. перевод маски в пользовательский диапазон значений. Загрузка спектра Загрузка спектра предназначена для перевода спектра из исходного пользовательского формата во внутренний диапазон значений маскера. Про-

194 194 цедура загрузки спектра позволяет использовать единый комплект таблиц описания зависимостей для всех способов внешнего представления спектра. Предусмотренные внешние форматы спектров и формулы для их декодирования представлены в таблице 5.4. Таблица 5.4 Формулы перевода из предусмотренных форматов представления спектров Название формата Формула декодирования x = 10 lg Линейная энергия ( ) Десятичный логарифм энергии i x i x = 10 x 10 логарифмов энергии (громкость) x i = xi x = 10 lg Спектр от сигнала, нормированного к 1.0 ( ) Спектр от сигнала, нормированного на коэффициент Обработка порога слышимости x i i i x i xi 10 lg Coeff i = 2 Порог слышимости характеризует чувствительность уха к интенсивности звуковой энергии. Один из возможных вариантов определения порога слышимости (используемый в реализованной модели) зафиксирован в стандарте ISO/R-226 (таблица 5.1). Обработка порога слышимости заключается в построении соответствующей маски. Для всех компонент массива масок mt i вызывается функция, интерполирующая значение порога слышимости (5.2): ( Freq THFreq )( HThresh HThresh ) i k 1 k k-1 mt i = HThreshk-1 +, где (5.2) THFreqk THFreqk 1 Freq i частота, соответствующая компоненте маски с индексом i; (k-1, k) индексы ячеек таблицы порога слышимости; THFreq k-1 и THFreq k значения частот в ячейках k-1 и k таблицы порога слышимости; HThresh k-1 и HThresh k значения интенсивностей в ячейках k-1 и k таблицы порога слышимости. Частота, соответствующая индексу определяется как (5.3):

195 Freq i 195 ( i 0.5) 2.0 ( SpecSize -1.0) SampleRate =, где (5.3) SampleRate частота дискретизации сигнала; SpecSize размер спектра. Маскирование флюидных уровней Цель маскировки флюидных уровней избежать случайных ошибок вычислений, связанных с эффектом растекания спектра. Значения флюидных уровней рассчитываются относительно максимальной компоненты спектра. Пересчет компонент маски выполняется по формуле (5.4): mt i = mti, SpecSize 0.01 max ( x ) max. (5.4) l = 1 l Разделение спектра на тоны и шумы Разделение спектра на тональные и шумовые компоненты связано с различиями в процессе построения масок. Кроме различия в процессе формирования масок требуется учитывать и то, что маски, построенные от тональных компонент спектра, распространяются только на шумовые компоненты, и наоборот. При разделении спектра используется простейший алгоритм, выделяющий пики: - ищутся локальные максимумы, уровень которых превышает некоторое пороговое значение; - слева и справа от локальных максимумов ищутся локальные минимумы; - компоненты спектра, между найденными парами локальных минимумов считаются тональными; - оставшиеся компоненты спектра шумовыми.

196 196 Построение масок от тональных компонент Одним из самых важных свойств слуховой системы является эффект слуховой маскировки. Считается, что процессы маскировки происходят в высших отделах головного мозга и связаны со взаимодействием сигналов, приводящем к изменению слуховой чувствительности к маскируемому- в присутствии маскирующего- сигнала. Степень маскировки определяется как разность в децибелах между уровнем порога слышимости маскируемого тона в присутствии маскирующего тона и уровнем порога слышимости маскируемого тона в тишине. Общее описание всех возможных кривых маскировки представляется весьма затруднительным, поэтому в рамках решаемой задачи было решено использовать упрощенную модель маскировки, близкую к используемой в стандарте MPEG (рисунок 5.17). При переводе значения частоты из Герц (F) в Барки (z) используется эмпирическая зависимость (5.5): z = 13 arctg( 76 F ) arctg. (5.5) 7500 F 2 M, дб дб 80 дб 60 дб 40 дб 20 дб dz, Барк Рисунок 5.17 Семейство кривых маскировки для различных уровней маскирующего сигнала

197 197 Для каждой выделенной тональной компоненты строятся маски путем интерполяции промежуточных кривых маскировки в зависимости от ее уровня энергии. Результирующая маска (ms i ) определяется как набор максимумов из значений с совпадающими индексами. Построение масок от шумовых компонент Эффекты маскировки тоном и шумом имеют существенные различия. На рисунке 5.15 представлены результаты исследований маскировки широкополосным белым шумом. Видно, что уровень маскировки пропорционален уровню шума. Кроме того, эффективность маскирования шумом различных частот различна. На частотах ниже 500 Гц зависимость степени маскирования от частоты низкая, на более высоких частотах при каждом удвоении частоты степень маскировки повышается примерно на 3 дб. Флетчером было показано, что только определенная критическая ширина полосы белого шума участвует в маскировке тона, равного центральной частоте этой полосы. Поэтому при построении маски от шумовых компонент (mn i ) для каждой тональной компоненты определяется ее собственная критическая полоса и в пределах этой критической полосы определяется уровень маскирующего шума. Далее степень маскирования определяется согласно кривым маскировки, представленным на рисунке Предусмотрены два варианта определения уровня шума в полосе. В первом случае уровень шума определяется как среднее по всем шумовым компонентам спектра в полосе. Во втором как среднее между минимальной и максимальной шумовыми компонентами в полосе. Собственные критические полосы интерполируются исходя из таблиц критических полос, определенных разными авторами [22, 71, 132]. Объединение масок На вход процедуры объединения поступают пять комплектов масок: маска порога слышимости и флюидных уровней (mt i ), маски тональных (ms i )

198 198 и шумовых (mn i ) компонент текущего фрейма, пост- маски тональных (_ms i ) и шумовых (_mn i ) компонент от предыдущего фрейма. Первой формируется текущая маска (5.6): ( mti, msi ), ( mt, mn ), max si = 1 m i=, где (5.6) max i i si = 0 s i признак является ли i-тая компонента спектра тональной или шумовой. Затем, выполняется объединение текущей маски с пост- масками (5.7): ( mi, _ msi ), ( m, _ mn ), max si = 1 m i=. (5.8) max i i si = 0 Комплект пост- масок, для использования на следующем шаге, получается из текущих пороговых-, тональных- и шумовых- масок по формулам (5.8): _ ms = _ mn = TSift шаг окна обработки по сигналу. i i [ max( mt, ms ) 45] i TShift 20 [ max( mt, mn ) 45] e i i i e TShift 20, где (5.8) Формирование маски для предыдущего фрейма Пре- маска формируется исходя из текущих пороговых-, тональных- и шумовых- масок, а также величины шага обработки и признаков разделения на тон/шум предыдущего спектра (5.9): 5 max( mti, msi ) e, _ si = 1 mp i =, где (5.9) TShift 5 max( mt, mn ) e, _ s = 0 _s i признак разделения на тон/шум на предыдущем шаге. i i TShift i

199 199 Перевод маски в пользовательский диапазон значений Перевод маски в пользовательский диапазон значений операция, обратная загрузке спектра. Она предназначена для перевода спектра обратно в пользовательский формат. Формулы для преобразования в предусмотренные внешние форматы представлены в таблице 5.5. Таблица 5.5 Формулы перевода в предусмотренные форматы представления спектров Название формата Формула перевода Линейная энергия 10 x = 10 i Десятичный логарифм энергии x x i i = логарифмов энергии (громкость) x i = xi i x Спектр от сигнала, нормированного к 1.0 Спектр от сигнала, нормированного на коэффициент x i = xi x i = Coeff 2 x i Нормализация уровней Воспринимаемый уровень громкости звука имеет сложную зависимость от интенсивности и частоты. Для измерения уровня воспринимаемой громкости звука была введена единица измерения фон. Уровень громкости в фонах равен интенсивности звука в децибелах на частоте 1 кгц. Второй уровень психоакустической модели осуществляет перевод интенсивностей компонент спектра в соответствующие значения уровня воспринимаемой громкости. Для пересчета используется семейство кривых равной громкости, представленное на рисунке 5.2. По значению частоты и интенсивности компоненты спектра определяется пара кривых равной громкости, между которыми находится нормализуемое значение. Затем с помощью линейной интерполяции определяется соответствующее значение громкости в фонах.

200 Перевод в различимые градации 200 В рамках реализованной психоакустической модели под различимой градацией понимается минимально заметное на слух изменение амплитуды сигнала. Частотная разрешающая способность слуха не учитывается. Известно, что в зависимости от уровня громкости и частоты сигнала разрешающая способность слуха варьируется от 2 до 40%. Кривые амплитудной разрешающей способности представлены на рисунке % Рисунок 5.18 Кривые амплитудной разрешающей способности слуха Общая громкость сигнала определяется как сумма максимальной громкости по всем компонентам спектра и 0.3 средней громкости по всем остальным компонентам спектра. Т.к. при расчете градаций используются воспринимаемые уровни громкости, вызов третьего уровня психоакустической модели возможен только после применения второго уровня. Для рассчитанного уровня громкости интерполируется кривая амплитудной разрешающей способности. Для каждой компоненты спектра определяется минимально-различимое изменение громкости и текущий уровень громкости компоненты спектра делится на найденное значение Гц

201 Применение психоакустической модели в распознавании речи Возможно несколько областей применения предложенной психоакустической модели. Это и оценка качества передачи звуковых сигналов, и повышение качества звукозаписей, и построение кодеков. Остановимся подробнее на применении модели в системе распознавания речи. Психоакустическая модель встраивается в блок вычисления параметров сигнала и используется в качестве пре- фильтра. Сигнал, поступающий на вход системы, переводится в спектральное описание и передается на модель. Модель модифицирует спектр сигнала соответствующим образом и дальнейшая обработка продолжается без изменений, только уже со спектром, с учтенными особенностями восприятия звука человеком. Для проверки эффективности модели была проведена серия тестов, с последовательным подключением различных элементов модели. Для обучения моделей звуков использовался сокращенный речевой корпус, включающий около 10 часов звуковых данных. Использование сокращенного корпуса позволило сократить время проведения одного эксперимента с недели до суток. Распознавание проводилось на тех же звуковых данных, что и при проверке моделей звуков речи. Полученные результаты представлены в таблицах Из таблицы 5.6 видно, что отработка порога слышимости и флюидных уровней приводит к увеличению точности распознавания, отработка болевого порога практически не влияет на результат. Это можно объяснить тем, что учет порога слышимости и флюидных уровней убирает из спектра сигнала низкоуровневый шум, мешающий распознаванию значимых компонент спектра.

202 202 Таблица 5.6 Тестирование психоакустической модели. Пороги Грамматика Изменение процента Базовый Порог Флюидные процент слышимости болевой уровни Список сотрудников 1 71,4 1,2 1,2 3,5 Список сотрудников 2 66,7 2,4 2,5 2,9 «Да/нет» 78,6 1,2 1,3 4,8 Станции метро 70,3 2,7 2,8 5,0 Пинкоды 59,1 1,7 1,7 4,6 Учет болевого порога не влияет на результат из-за того, что в тестовой базе отсутствуют записи с высокой громкостью, и порог срабатывает только в случае кратковременных помех. Таблица 5.7 Тестирование психоакустической модели. Внутренние маски Грамматика Изменение процента Базовый Маски процент тональная шумовая обе Список сотрудников 1 71,4 1,1 2,2 4,3 Список сотрудников 2 66,7 2,1 1,8 2,9 «Да/нет» 78,6 3,2 3,3 6,6 Станции метро 70,3 4,3 4,0 5,6 Пинкоды 59,1 2,4 3,1 4,6 Таблица 5.7 показала, что попытка учета масок от тональных и шумовых компонент сигнала независимо друг от друга, приводит к снижению качества распознавания. Совместный же учет улучшает результаты работы системы. Полученный результат свидетельствует о том, что некорректно отдавать предпочтение одной из составляющих сигнала. Нужно учитывать все компоненты спектра и их взаимное влияние. Таблица 5.8 Тестирование психоакустической модели. Временные маски Грамматика Базовый процент Пост-маска Пре-маска Обе Изменение процента Список сотрудников 1 71,4 3,5 4,0 1,6 Список сотрудников 2 66,7 1,8 2,6 2,8 «Да/нет» 78,6 6,2 6,3 3,2 Станции метро 70,3 5,3 5,5 5,0 пинкоды 59,1 3,6 3,9 1,6 Тестирование показало (таблица 5.8), что применение и пре- и пост- масок (как по-отдельности, так и совместно) ухудшает качество распознавания. Полученные результаты показывают необходимость дальнейших иссле-

203 203 дований эффектов пре- и пост-маскировки и совершенствования соответствующих элементов психоакустической модели. Таблица 5.9 Тестирование психоакустической модели. Постпроцессор Изменение процента Базовый Грамматика процент Нормализация уровней Перевод в различимые градации Список сотрудников 1 71,4 5,4 6,9 Список сотрудников 2 66,7 2,8 4,4 «Да/нет» 78,6 7,1 5,3 Станции метро 70,3 5,3 3,9 пинкоды 59,1 5,5 5,2 Эксперимент показал (таблица 5.9), что на некоторых грамматиках нормализация уровней громкости приводит к незначительному снижению точности распознавания, но в большинстве случаев точность повышается; средняя точность системы распознавания увеличивается. В результате эксперимента выяснилось, что перевод сигнала в различимые градации воспринимаемой громкости не дает однозначного результата. На одних грамматиках происходит значительное увеличение точности распознавания, на других снижение. Общая точность системы снизилась незначительно, но на текущем этапе развития использование данного элемент модели нецелесообразно требуется дополнительное исследование. Проведенные эксперименты показали общую эффективность психоакустической модели. Также были выявлены «узкие места» требующие дальнейшего исследования свойств восприятия звуковых сигналов. 5.4 Выводы Исследованы процессы образования и восприятия речи, а также свойства звуковых сигналов и особенности восприятия звука человеком. На их основе предложена психоакустическая модель, позволяющая выделять компоненты звукового сигнала, существенные для восприятия человеком. Проведены эксперименты по распознаванию речи с использованием предложенной психоакустической модели. Выявлены элементы модели, позволяющие повысить процент правильного распознавания, а также элементы

204 204 модели, требующие дальнейшего исследования свойств восприятия звуковых сигналов: временная маскировка, различимые градации громкости и нормализация уровней громкости. Установлено, что моделирование порогов слышимости, флюидных уровней, тонального и шумового маскирования, повышает процент правильного распознавания на 2,9-6,6%.

205 Глава 6 Речевая аналитика 205 Речь это идеальное, доступное средство передачи информации, первичный языковой навык и неотъемлемый инструмент общения. В спонтанной речи подноготная человека проявится обязательно, будь то эмоциональный разговор с коллегой, перетирание косточек начальству или срочная весточка внешнему злоумышленнику. Для человека говорить так же естественно, как есть или спать [77]. Чтобы лучше понимать, что происходит в компании, службе безопасности полезно знать, о чем говорят сотрудники, клиенты и контрагенты! Отслушка переговоров давно входит в набор средств обеспечения безопасности. Обычно ведется точечный контроль сотрудников из «группы риска». Регулярная работа создает эффективную среду противодействия рискам, но у данного подхода есть ряд недостатков: 1) неполнота охвата и недостаточная эффективность: невозможно накрыть «колпаком» все, т.к. иначе к каждому человеку нужно будет приставить по охраннику; 2) вероятность что-то пропустить высока. Даже эксперт с многолетним стажем может ошибиться и пропустить подозрительный разговор; 3) строго говоря, отслушка записей переговоров не совсем законна, т.к. требуется соответствующее решение суда. Автоматизация отслушки позволяет сделать охват полным и во много раз повысить оперативность получения данных. Кроме того, решается вопрос с законностью, т.к. на отслушке работает не человек, а машина. 6.1 Возможные подходы к построению системы Поиск ключевых слов работает очень просто: на вход системы подаются записи переговоров и список искомых ключевых слов и фраз (КС), на выходе получается список подозрительных разговоров (рисунок 6.1).

206 206 Рисунок 6.1 Схема работы системы За кажущейся простотой работы системы скрывается реализация сложных математических и лингвистических алгоритмов. Возможны различные подходы к решению задачи поиска КС, обладающие достоинствами и недостатками [37]: KWS 21 на основе динамического программирования; KWS на фоновой сети; на монофонной сети; на трифонной сети; KWS на основе ASR по словным латтисам; по фоновым латтисам; KWS на моделях ключевых слов (КС). При создании системы KWS на основе принципов динамического программирования КС произносится несколько раз несколькими дикторами, по произнесенным словам строится шаблон слова, этот шаблон и ищется в потоке речи. Это неудобно, т.к. для каждого искомого слова требуется создавать свой шаблон. Создание нового шаблона и смена списка искомых КС оказывается трудоемкой и финансово затратной операцией. Часто для поиска КС используются те же модели, что и для распознавания слитной речи. Сначала обучаются модели отдельных звуков. Затем по моделям звуков строятся фоновые (или фонетические) сети, или модели КС. 21 От английского key-word spotting поиск ключевых слов

207 207 На рисунке 6.2 представлен пример структуры данных, используемой в KWS системе, основанной на фоновой сети. К Л У Ч И В О Й И Ключевое fn f1 In С Л О В А С Л О Слово Start Filler End Рисунок 6.2 Пример структуры фоновой сети В зависимости от используемых моделей звуков фоновые сети разделяются на монофонные и трифонные. В первом случае используются звуковые модели, не учитывающие звуковой контекст и дающие менее точное описание речевого сигнала. Во втором случае точность описания КС значительно повышается, но с увеличением точности описания снижается скорость обработки звука, т.к. увеличивается количество задействованных звуковых моделей. Конечно, возможно применение методов оптимизации фонетической сети, но возможности ускорения упираются в количество и структуру искомых КС. Во втором используемом нами варианте, из моделей звуков собираются модели КС. Кроме моделей КС строятся модели заполнения, описывающие шумы и неречевые сигналы. Также создаются модели речевого мусора или модели усредненного речевого потока, которые описывают все остальные слова, не являющиеся искомыми. Для каждого КС строятся свои модели заполнения и усредненного речевого потока, что позволяет оптимизировать их структуру и увеличить качество поиска. Пример структуры данных, используемой в KWS системе на основе моделей КС, приведен на рисунке 6.3.

208 208 fn f1 In С Л О В А С Л О Модель КС Слово fm f1 Start Start Fillers Филлерная модель f1.n fm.nm Бэкграунд модель End Fillers Филлерная модель End f1.1 fm.1 In Filler Filler Out Рисунок 6.3 Пример структуры данных в KWS системе на моделях КС Еще один подход к поиску КС основан на распознавании речи в чистом виде. В результате работы системы распознавания речи формируется латтис - направленный связный граф некоторая сеть слов, содержащая слова кандидаты на распознавание, связи между ними и вероятности переходов. Наилучший вариант пути в графе (имеющий наибольшую вероятность) присутствует в графе, однако графом описывается некоторое количество конкурирующих гипотез. Латтис в узлах которого находятся слова, называется словным латтисом. На основании словных латтисов, формируемых системой распознавания с большим словарем, выполняется индексация звукового массива. Далее поиск КС и фраз выполняется по полученным словным латтисам. Достоинством такой системы является высокая скорость поиска КС в индексированных звуковых данных. Проблема такой системы в принципиальной невозможности нахождения слова, отсутствующего в словаре системы распознавания. Кроме того, такие системы поиска КС оказываются сильно завязанными на качество работы систем распознавания. Альтернативой словному латтису является фонемный латтис, в узлах которого находятся не слова, а отдельные звуки речи. Система распознавания аналогично словному латтису строит фонемный латтис, по которому и выполняется поиск КС. Преимуществом фонемного латтиса является возможность поиска любых КС, т.к. в системе распознавания не используется словарь и отсутствует

209 209 привязка к словам. Сложность такой системы заключается в том, что фонемный латтис оказывается широким, качество фонемного распознавания низким, а пространство поиска велико. 6.2 Основные элементы разработанной системы поиска ключевых слов В результате анализа достоинств и недостатков различных принципов построения KWS систем, было решено создавать систему на основе моделей КС. Основу разрабатываемой системы поиска ключевых слов составляют следующие модули: база HMM-моделей звуков речи; автоматический транскриптор ключевых слов; звуковой препроцессор, выполняющий предварительную обработку звукозаписей и преобразование звука в параметры; формирователь альтернативных моделей (моделей усредненного речевого потока и моделей заполнения); декодер параметризированного звука. Система работает по следующему алгоритму: Транскриптор формирует возможные варианты произнесения искомых ключевых слов и фраз; Для всех ключевых слов формируются альтернативные модели; Полученные структуры данных объединяются в фонетическую сеть (ФС) рабочую структуру системы распознавания; Выполняется оптимизация фонетической сети; Звуковой поток обрабатывается препроцессором и переводится в пространство признаков;

210 210 Звуковой поток разделяется на окна. Каждое окно подается на вход декодера. Длины окон и параметры перекрытия (тайминг) определяются исходя из звукового состава искомых слов; Декодер анализирует параметризированный речевой поток и принимает решение о наличии или отсутствии ключевых слов. Декодирование выполняется с помощью модифицированного алгоритма пересылки маркера [187]; Получаемые результаты распознавания привязываются к звуковому потоку и сохраняются в специальном индексном файле. 6.3 Минимизация фонетической сети Увеличение производительности системы распознавания речи является одной из задач. Работа системы может быть ускорена в том числе и за счет упрощения фонетической сети [48]. С уменьшением количества узлов в ФС, сокращается время обхода и увеличивается скорость получения результата распознавания. Рассмотрим алгоритм минимизации ФС на примере простой языковой модели, описывающей единичное, изолированное произнесение одного из четырех слов: «поиск», «поток», «схема» и «тема». Соответствующая исходная ФС представлена на рисунке 6.4. p o i s k поиск p o t o k поток Начальный Накопитель Накопитель Конечный s h' e m a схема t' e m a поиск Рисунок 6.4 Исходная фонетическая сеть Из рисунка 6.4 видно, что часть узлов ФС, соответствующих моделям звуков речи, может быть объединена (объединяемые узлы обведены пунк-

211 211 тирными линиями). Алгоритм минимизации фонетической сети работает в два прохода. На первом проходе ведется минимизация сети «слева направо», на втором «справа налево». 1. Просматриваются узлы сети. За текущий узел принимается начальный узел ФС. 2. Проверяется количество выходов у текущего узла и выполняется переход к соответствующему пункту (0 п.3, 1 п.4, 2 и более п.5). 3. У узла нет выходов. Если ФС за время просмотра не была изменена минимизация «слева направо» завершена. Если структура сети изменилась, то выполняется повторный обход сети переход к п Узел имеет только один выход. Следующий узел делается текущим, и работа алгоритма продолжается от п Существует несколько выходов из узла. Выполняется просмотр списка последующих узлов от первого до предпоследнего (пп.6-7), и осуществляется переход к п Имя звуковой модели рассматриваемого последующего узла сравнивается с именами звуковых моделей последующих узлов с большими номерами (п.7.). Когда список просмотрен полностью, исполнение продолжается от п Если имена моделей совпадают, то выходы узла с большим номером передаются рассматриваемому последующему узлу, список последующих узлов текущего узла корректируется, а последующий узел с большим номером удаляется из сети. 8. Следующий узел делается текущим, и работа алгоритма продолжается от п.2. После выполнения минимизации «слева направо» ФС примет вид, как показано на рисунок 6.5. Легко подсчитать, что в сети стало меньше на два узла, соответствующих моделям звуков.

212 212 p o i s k поиск t o k поток Начальный Накопитель Накопитель Конечный s h' e m a схема t' e m a Рисунок 6.5 Фонетическая сеть после минимизации «слева направо» поиск 1. Просматриваются узлы сети. За текущий узел принимается конечный узел ФС. 2. Проверяется количество входов в текущий узел и выполняется переход к соответствующему пункту (0 п.3, 1 п.4, 2 и более п.5). 3. У узла нет входов. Если ФС за время просмотра не была изменена минимизация «справа налево» завершена. Если структура сети изменилась, то выполняется повторный обход сети переход к п Узел имеет только один вход. Следующий узел делается текущим, и работа алгоритма продолжается от п Существует несколько входов в узел. Выполняется просмотр списка предшествующих узлов от первого до предпоследнего (пп.6-14), и осуществляется переход к п Имя модели рассматриваемого предшествующего узла сравнивается с именами моделей предшествующих узлов с большими номерами (п.7-8.). Когда список предшествующих узлов просмотрен полностью, исполнение продолжается от п Если предшествующий узел соответствует слову, то в качестве имени модели берется имя звуковой модели входящего в него узла, если нет используется имя самого узла. 8. Если имена моделей совпадают, то узлы добавляются в список объединяемых узлов. 9. Если список объединяемых узлов пуст, то выполнение продолжается от п.5.

213 В список объединяемых узлов добавляется рассматриваемый предшествующий узел. 11. Если объединяемые узлы не являются узлами метки и за ними следует узел накопитель, то между ними и узлом накопителем в ФС включается узел метки. 12. Узлы слов меняются входами и выходами с предшествующими им узлами звуковых моделей, которые заменяют их в списке объединяемых узлов. 13. Узлы, оставшиеся в списке, объединяются, и соответствующим образом корректируются все связи в сети. 14. Выполнение продолжается от п Следующий узел делается текущим, и работа алгоритма продолжается от п.2. После минимизации «справа налево» ФС примет вид, как показано на рисунке 6.6. Видно, что из сети было исключено еще 4 узла, соответствующих звуковым моделям. i s поиск p o k Начальный Накопитель t o поток метка Накопитель Конечный s h' схема e m a t' поиск Рисунок 6.6 Фонетическая сеть после минимизации «справа налево» Дополнительно из сети могут быть убраны узлы накопители, связанные с начальным или конечным узлами, если они имеют по одному входу и выходу соответственно (рисунок 6.7).

214 214 i s поиск p o k Начальный t o поток метка Конечный s h' схема e m a t' поиск Рисунок 6.7 Фонетическая сеть после исключения узлов накопителей В результате получается ФС, состоящая из 20 узлов (в исходной сети было 27 узлов). В таблице 6.1 приведены результаты минимизации для нескольких грамматик, используемых на практике. Таблица 6.1 Результаты минимизации Название Кол-во Слева на право Справа не лево Итого узлы итемы проходы узлы проходы узлы узлы относ. Улицы Москвы ,58 Города России ,22 Да/нет ,20 Фамилии/ имена сотрудников ,55 Станции метро ,26 Фамилии ,42 Видно, что с увеличением объема грамматики, количество удаленных узлов увеличивается. Но нужно отметить, что включение процесса минимизации не гарантирует того, что ФС будет минимизирована. Все зависит от конкретного набора распознаваемых высказываний, который может быть подобран так, что в нем не будет совпадающих последовательностей фонем. Кроме того, нужно помнить, что нет однозначной зависимости между количеством сокращенных узлов и увеличением скорости работы системы распознавания. Справедлива лишь общая тенденция увеличения скорости распознавания с увеличением коэффициента минимизации ФС. Может показаться, что с учетом общего количества звуковых моделей, используемых в моделях заполнения и усредненного речевого потока, получаемая минимизация не велика. На самом деле, она позволяет сократить от 5 до 20 процентов всех звуковых моделей. Все зависит от сложности общей структуры и вариативности произношения искомого КС, его длины и звуко-

215 215 вого состава. Чем длиннее КС и чем выше возможная вариативность произнесений, тем больше минимизация. 6.4 Режимы работы системы В системе предусмотрены четыре основных варианта работы, отличающиеся способом построения моделей заполнения и усредненной речи и определением параметров тайминга: «Тюнингованные», «Стандарт», «Короткий» и «Смарт-авто». Рассмотрим подробнее перечисленные режимы. Режим «Тюнингованные» В данном режиме параметры поиска и альтернативные модели подбираются вручную для каждого КС на множестве обучающих звуковых данных. Для проведения настройки КС записывается обучающая база, содержащая 100 фраз с реализациями слова в различных контекстах. Фразы прочитываются десятью дикторами (пять мужчин и пять женщин). Каждый звуковой файл сопровождается индексным файлом, содержащим метки границ КС. Записанная база разделяется на две части: 80% данных используются для настройки параметров поиска (обучающая выборка); 20% данных для определения конечного качества настройки (тестовая выборка). Такое разделение базы на обучающую и тестовою выборки позволяет определить объективное качество обучения параметров поиска, т.к. тестовые данные не участвуют в обучении. Настройка параметров выполняется по специальному алгоритму перебора с постоянным контролем параметров качества поиска по обучающим данным. В процессе обучения определяются оптимальные значения таких параметров как: длина окна обработки;

216 216 сдвиг окна обработки; список начальных филлеров; список конечных филлеров; список филлеров, используемых в модели усредненной речи. Для каждого филлера определяется значение веса. Кроме того, дополнительно могут определяться параметры разделения звукового потока на речь / не речь. Для запуска обучения требуется заказать диапазон и шаг варьирования по каждому параметру, а также определить допустимые показатели качества работы системы и их допустимые изменения от шага к шагу. Дополнительно для сокращения количества ложных срабатываний, предусмотрена возможность обучения персональной нейронной сети. Однако, это требует записи дополнительной обучающей базы, т.к. необходимо иметь количество правильных реализаций слов около Режим работы «Тюнингованные» обеспечивает максимальную точность поиска, однако требует значительных временных и материальных затрат на подготовку обучающей базы и настройку параметров поиска. Режимы «Стандарт» и «Короткий» Режимы «Стандарт» и «Короткий» используют фиксированные списки филлеров при построении моделей заполнения и усредненной речи. Друг от друга режимы отличаются списками (в режиме «Короткий» используется меньший список). Состав списков представлен в таблице 6.2. Таблица 6.2 Состав списков филлеров Имя списка Состав списков \ Режим «Короткий» «Стандарт» Start Fillers catch_all, sil, NoiseSil, clearsil catch_all, sil, PLOSUNVOC, FRICUNVOC, NoiseSil, clearsil End Fillers catch_all, sil catch_all, sil Filler t', _o, _a, _u, _a1, catch_all, sil, VOWUNSTRESS, PLOSUNVOC a, i, e, _o, _u, j, b, v, g, p, t, s', z, r, sil, PLOSUNVOC, FRICUNVOC, NoiseSil, clearsil, catch_all

217 217 Пример формируемой структуры сети представлен на рисунке 6.3. Длина окна обработки и величина сдвига определяется по следующему алгоритму: 1. Вычисляются длительности всех возможных транскрипций КС. Длительность транскрипции LT(TR i ) определяется как сумма длительностей фонов, ее составляющих LP(Ph j ): LT N ( Tr ) ( ) ( ) = i = LP Phj, LP Phj 12.0 AvgL( Phj ) j = 0 DispL DispL + 2 DispL 3 ( Ph ) ( ) j, DispL Phj < 10 ( Ph ), где (6.1) j, 10 DispL( Ph ) < 20 j ( Ph ), ( ) 20 j DispL Ph AvgL и DispL среднее значение и дисперсия длительностей звука. j Среднее значение и дисперсия определяются по таблице 6.3, построенной по данным, использованным для настройки поиска КС (при построении модели длительностей звуков использовалась другая база). 2. Полученные длительности транскрипций корректируются в зависимости от количества звуков в транскрипции: если в транскрипции менее 10 звуков, то длительность остается прежней; если в транскрипции от 10 до 19 звуков, то длительность умножается на 0.8; если в транскрипции более 19 звуков, то длительность умножается на Среди полученных значений выбирается максимальное. 4. Найденное значение увеличивается на 25% и принимается за длину окна обработки. 5. Сдвиг определяется как четверть окна обработки. Таблица 6.3 Средние и дисперсии длительностей фонов

218 218 Фон AvgL DispL Фон AvgL DispL Фон AvgL DispL $ a b c d e f g h i j k l m n o p r s t u v w x y z b' d' f' g' h' k' l' m' n' p' r' s' t' v' z' _a ch _o _u f _a _u Режимы «Стандарт» и «Короткий» обеспечивают высокую точность детектирования, но количество ложных срабатываний оказывается слишком высоким для их практического применения. Режим «Смарт-авто» В режиме «Смарт-авто» списки филлеров формируются исходя из фонетического состава КС. Окно обработки и величина сдвига определяются по алгоритму, описанному в разделе 6.4.2, только в данном режиме поиск ведется отдельно по каждой транскрипции, и полученные результаты поиска объединяются. Изначально в режиме «Смарт-авто» списки филлеров определялись по следующим правилам: списки начальных и конечных филлеров состояли из полного списка звуков, за исключением звуков, входящих в состав слова; список филлеров для первого звука транскрипции определялся как полный список звуков, за исключением самого звука и звука справа от него; список филлеров для последнего звука транскрипции определялся как полный список звуков, за исключением самого звука и звука слева от него;

219 219 для остальных звуков списки филлеров определялись как полный список звуков, за исключением самого звука и звуков слева и справа от него. Однако, при таком варианте работы точность детектирования оказалась низкой при высоком количестве ложных срабатываний. Поэтому для всех звуков были обучены списки филлеров, обеспечивающие максимальную точность детектирования при минимальном количестве ложных срабатываний (таблица п.4.1). Аналогичным образом были обучены списки начальных (таблица п.4.2) и конечных филлеров (таблица п.4.3) для различных начальных и конечных звуков. К сожалению, не для всех звуков удалось собрать достаточно обучающих данных. Для них были обучены общие списки филлеров: начальный, конечный и базовый (таблица 6.4). Таблица 6.4 Общие списки филлеров Название N Список филлеров Начальный 19 f_sil, h_sil, PLOSVOCH, PLOSVOCS, FRICVOCH, VOWSTRESS, SONH, Btn, BlwN, i, r, s, e, t', d, c, ch, l, u1 Конечный 29 f_sil, h_sil, s_sil, fi_sil, hi_sil, si_sil, catch_all_0003, catch_all_0005, catch_all_0011, catch_all_0050, catch_all_0100, catch_all_0500, catch_all_1500, PLOSUNVOCH, PLOSVOCS, FRICUNVOCH, Btn, _a r', l $, y h', _o k', _o v', s, k, c, z, x, p', h' Базовый 6 bigcatch_all, PLOSUNVOCS, FRICVOC, SONS, n', k' Бип 8 bigcatch_all, Btn, BcgN, KnkN, RblN, BlwN, OcrN, NoiseSil Дополнительно было решено включить в ФС параллельную ветку, отсекающую шумы и помехи, а в последствие и тональные сигналы, и музыку (при появлении соответствующих моделей звуков). Список филлеров, использующихся в дополнительной ветке, получил название «Бип» (таблица 6.4). В новом варианте режим «Смарт-авто» обеспечивает приемлемые для практического применения качество детектирования и уровень ложных срабатываний. Кроме того, он не требует дополнительных длительных меро-

220 220 приятий по созданию моделей, при появлении у пользователя необходимости искать новые слова. 6.5 Критерии оценки качества системы Одной из важнейших характеристик системы поиска ключевых слов является точность. Под точностью понимается пара значений: DR (Detection Rate) и FA (False Alarm). Значение DR определяет процент правильно обнаруженных слов, и рассчитывается по формуле (6.2): DR N found = 100, где (6.2) N all N found количество правильно найденных реализаций КС в тестовых данных; N all общее количество реализаций КС в тестовых данных. Правильно найденной считается реализация, если пересечение между найденными границами слова и реальными составляет не менее 85%. Величина пересечения M RF определяется по формуле (6.3): M RF = 0 0 1, ( RL > FL) & ( RR < FR) FR FL 100, ( RL < FL) & ( RR > FR), где (6.3) RR RL RR FL RR RL FR RL RR RL, RL > FR,,, RR < FL RL реальная левая граница слова; RR реальная правая граница слова; FL найденная левая граница слова; FR найденная правая граница слова. ( RL < FL) & ( RR > FL) ( RL < FR) & ( RR > FR)

221 221 Значение FA определяет количество ложных срабатываний в час и рассчитывается по формуле (6.4): FA A N all found =, где (6.4) H rs A all общее количество всех найденных слов (как правильно, так и не правильно) в тестовых данных; H rs длительность звучания тестовых данных в часах. 6.6 Результаты тестирования Тестирование системы проводилось на звуковых файлах общей длительностью звучания чуть больше часа (1 час 2 минуты и 37 секунд). Звонки были выполнены с городских телефонных аппаратов. В тестировании приняло участие 10 дикторов (6 мужчин и 4 женщины). В результате тестирования различных режимов построения моделей заполнения и моделей усредненной речи были получены следующие значения точности работы системы, представленные в таблице 6.5. Таблица 6.5 Показатели качества работы системы Ключевое слово Тюнингованные Смарт-авто Стандарт Короткий DR FA2 DR FA2 DR FA2 DR FA2 Кодовое слово 100,00 38,49 100,00 14,94 100,00 400,97 96, ,48 Кредит 96,00 170,00 87,00 11,05 93,00 362,00 96, ,27 Задолженность 100,00 48,11 91,00 5,14 100,00 131,52 83, ,14 Номер карты 83,00 38,49 93,00 10,32 96,00 109,06 76, ,63 Конфиденциально 95,00 79,57 85,00 9,56 88,00 230,67 74,00 982,59 Ваканси 95,00 84,04 89,00 3,73 91,00 167,00 84, ,15 94,83 76,45 90,83 9,12 94,67 233,54 84, ,38 Модели усредненной речи с фиксированной структурой (графы «Стандарт» и «Короткий») обеспечивают высокую точность детектирования, но количество ложных срабатываний «зашкаливает», что делает невозможным практическое применение универсальных моделей.

222 222 Наилучшие показатели точности работы системы (на данном этапе) обеспечиваются настройкой модели усредненной речи по обучающим данным (графа «Тюнингованные»). Основной недостаток такого режима состоит в том, что пока не выполнена настройка моделей по обучающим данным, поиск невозможен. А это значит, что список искомых КС не может изменяться оперативно по мере необходимости. В результате, практическая ценность такой системы значительно снижается. Остается работа системы в режиме автоматического формирования моделей усредненной речи исходя из фонетического состава КС (графа «Смартавто»). Режим обеспечивает приемлемое (для практического применения) качество обнаружения КС и хорошие показатели по ложным срабатываниям. 6.7 Выводы Изучены возможные подходы к созданию систем поиска ключевых слов и фраз, определены основные компоненты разрабатываемой системы поиска. Предложен алгоритм оптимизации фонетической сети, позволяющий ускорить работу компонент системы, отвечающих за распознавание речи. Приведены данные по сокращению количества узлов сети при применении предложенного алгоритма, подтверждающие его эффективность. Среднее сокращение узлов сети составляет 37%. Предложены различные способы построения моделей усредненной речи и выбора параметров поиска, реализуемые различными режимами работы разработанных программных средств. Введены критерии оценки точности работы системы поиска ключевых слов. Проведено тестирование работы системы в различных режимах. На основе результатов тестирования по введенным критериям оценки выполнен сравнительный анализ предложенных моделей усредненной речи, и выбрана

223 223 оптимальная модель, получившая название «Смарт-авто» с показателями качества DR/FA = 90,83/9,12.

224 224 Глава 7 Оценка качества передачи речевых сигналов Качество передачи и приема речи один из основных показателей качества телекоммуникационных систем. При определении качества связи необходимо учитывать не только изменения сигнала, вызванные передачей по сетям связи, но и свойства речи диктора, свойства слуха аудитора и изменение этих свойств со временем. Исторически первым критерием, по которому оценивалось качество передачи речи, была громкость. Именно громкость была положена в основу метода определения эквивалента затухания, рекомендованного Международным Консультационным Комитетом по Телефонии (МККФ) в 1928 году. Наиболее распространенные методы оценки качества систем передачи речи были разработаны сектором по стандартизации телекоммуникаций Международного союза электросвязи (МСЭ-T) в середине 90-х годов. Результаты представлены в документе Рекомендация P.800 (P.830) [102, 107]: "Методы субъективной оценки качества речевой связи". В нем рассмотрены условия проведения тестовых испытаний, содержание тестовых звуковых сигналов, системы оценок и методы анализа полученных результатов. Чаще всего "Методы субъективной оценки качества речевой связи" используют для получения средней субъективной оценки качества речи пятибалльную шкалу (Mean Opinion Score - MOS). К сожалению, тесты рекомендации P.800 могут приводить к получению неоднозначных результатов. Авторы рекомендации сами предупреждают о некорректности сравнения оценок MOS, полученных в разных условиях. Кроме того, тестирование в соответствии с рекомендацией P.800 занимает много времени и требует участия в тестировании большого количества аудиторов. Для того чтобы перейти от субъективных оценок (MOS) к объективным и автоматизировать измерительный процесс, МСЭ-Т разработал рекомендацию P.861 [103], основанную на низкоуровневых количественных измерениях. Рекомендация P.861 представляет собой развитие метода PSQM

225 225 (Perceptual Speech Quality Measurement), разработанного компанией KPN Research и предназначенного для объективного анализа работы речевых кодеков, характеризуемых малыми искажениями. Однако использование алгоритма PSQM для оценки работы реальной системы связи невозможно, т.к. в нем не учтены некоторые важные факторы, оказывающие негативное влияние на восприятие речи. К ним относятся: задержки, их флуктуации (джиттер), потеря пакетов, а также клиппирование сигнала по уровню. В феврале 2001 года вышла новая рекомендация ITU-T P.862 [105], описывающая более совершенный алгоритм тестирования PESQ (Perceptual Evaluation of Speech Quality). Алгоритм PESQ включает в себя такие операции как: выравнивание уровней, временное выравнивание, моделирование восприятия человеком и когнитивное моделирование. В результате этих дополнительных операций в алгоритме учитываются: усиление/затухание сигнала в системе связи, временные задержки и джиттер, наиболее значимые для восприятия человеком области спектра. Кроме того, по результатам когнитивного моделирования объективная оценка переводится в субъективное значение MOS. Недостатком PESQ и других подобных алгоритмов является то, что они основываются на сравнении двух сигналов: исходного и прошедшего через систему связи. Такой подход к тестированию создает целый ряд сложностей, связанных с его организацией и проведением. Требуется организовать запись сигнала на обеих сторонах системы связи и передачу записей на систему тестирования. Кроме того, мониторинг качества связи в режиме реального времени становится весьма затруднительным. Для решения этой проблемы была разработана новая рекомендация. В мае 2004 года ITU-T утвердил рекомендацию P.563 [106], определяющую алгоритм мониторинга для оценки качества речевой связи путем прослушивания сеансов связи. Он учитывает односторонние искажения, параметры речевого тракта, естественность и уровень шума в речи. Разработчики P.563 об-

226 226 ращают внимание пользователей на то, что алгоритм P.563 не обеспечивает всестороннюю оценку качества передачи речи. Искажения, вызванные потерей громкости, задержками, эхом и всем связанным с двухсторонним взаимодействием, не могу быть учтены алгоритмом. Существует целый ряд компаний, занимающихся разработкой систем оценки качества звука. Основная масса этих разработок приходится на телефонию, как обычную, так и IP телефонию. Так, журнал «Сети» [50] «выделяет» несколько «игроков» в сегменте рынка объективной оценки качества голоса в сетях VoIP. Среди них компания Agilent Technologies, предлагающая несколько продуктов для тестирования качества голоса в сетях VoIP, в которых реализованы различные методики тестирования. Также отмечается разработка израильской фирмы RADCOM система интерактивной диагностики QPro, позволяющая не только оценить качество голоса в сетях VoIP, но и измерить такие параметры как задержки передачи, коэффициенты искажений, точность функционирования средств распознавания и заполнения пауз. Различные тестеры, измеряющие качество голоса, сегодня выпускают американские компании Empirix, GL Communications, Microtronix Systems, Telchemy и английская Malden. Но не только зарубежные компании занимаются решением задачи оценки качества речевых сигналов. Отметим разработку компании «Опатов» [2] анализатор качественных показателей передачи речи DSLA II (Digital Speech Level Analyser). Однако наибольших успехов достигла немецкая компания OPTICOM [104], выпустившая программный пакет OPERA Voice/Audio Quality Analyzer, поддерживающий методики PSQM, PSQM+ и ряд других, в которых, по утверждению представителей OPTICOM, сняты некоторые ограничения, присущие стандартным методам.

227 Классификация методов оценки качества звука Существует два принципа разделения методов оценки качества на субъективные и объективные [68]. При первом подходе субъективные методы определяются как методы, допускающие возможность субъективных отклонений в оценке при проведении испытаний аудиторами. При этом качество измеряется не в абсолютных числовых единицах, а оценивается условным баллом. К объективным относят методы, основанные на получении в результате испытаний определенной числовой величины, не зависящей от того, кем и где проводились испытания. Исключение влияния случайных особенностей аудиторов достигается за счет усреднения достаточно большого числа субъективных оценок и выявления объективно существующих зависимостей. В данной работе используется другой подход к классификации (рисунок 7.1), в котором объективность определяется участием слухового анализатора человека в процессе оценки [42, 181]. Методы являются субъективными, если слух человека является составляющей частью измерительной аппаратуры. Соответственно, объективные методы методы, в которых слух человека не участвует в процессе получения оценки. Методы оценки качества звуковых сигналов Субъективные методы Объективные методы Интегральные Оценка по пятибальной шкале (MOS), Метод Quality Rating, Метод сравнения по громкости, Оценка сложности восприятия, Метод переспросов, Метод мнений Дифференциальные Артикуляционный метод, Оценка естественности МПФ индекс передачи речи, быстрый индекс передачи речи, коэффициент четкости Параметрические ICPIF (Calculated Planning Impairment Factor) Аддитивные Сигнальные индекс артикуляции, метод формантной разборчивости Акцепторные индекс разборчивости речи, метод PSQM Комбинированные Рисунок 7.1 Классификация методов оценки качества звука

228 228 Субъективные методы оценки качества звука делятся на интегральные и дифференциальные методы. Первыми оценивают общее качество звучания, вторыми отдельные составляющие. Для оценки разборчивости требуется высокий уровень отношения полезного сигнала к уровню шума, малое время реверберации, отсутствие интенсивного дальнего эха. Существующие методы объективной оценки в той или иной степени связаны с перечисленными выше акустическими характеристиками. Объективные методы оценки разборчивости можно разделить на три группы: аддитивные, МПФ и параметрические методы. Первая группа. Аддитивные методы основаны на предположении, что результирующее качество звучания определяется суммой вкладов в отдельных частотных полосах, а величина вклада зависит от отношения сигнал/шум в каждой полосе. По способу определения частотных полос аддитивные методы разделяются на сигнальные и акцепторные. В сигнальных методах частотные полосы определяются исходя из свойств сигнала, а в акцепторных из свойств приемника сигнала (человеческого уха). Дополнительно можно выделить комбинированные методы, в которых одновременно используются различные наборы частотных полос. Вторая группа. Методы второй группы основаны на оценке модуляционной передаточной функции (МПФ) системы. Третья группа. Параметрические методы, позволяющие оценить качество звука на основе характеристик аппаратуры. 7.2 Обоснование необходимости разработки новых методов Занимаясь обработкой речевых сигналов передачей, сжатием, синтезом и распознаванием постоянно приходится сталкиваться с необходимостью давать различные оценки ее качества [42, 181]. Экспертные (субъективные) оценки, конечно, хороши, но они крайне трудоемки и дороги, что делает

229 229 их практически непригодными для целей оптимизации параметров системы, когда требуется сравнивать результаты для десятков, а то и сотен наборов параметров. Применение субъективных методов оценки на этапе разработки оказывается нецелесообразным и используется для оценки качества завершенной системы. Наиболее точно качество передачи речи, по ее основному критерию разборчивости, характеризуется методом артикуляции, что и обуславливает его частое применение на практике. Однако, метод артикуляции не является универсальным, т.к. не позволяет учитывать все факторы, влияющие на оценку качества аппаратуры. Естественность речи, воспроизводимой аппаратурой, является одним из таких факторов. Трудность задачи измерения естественности заключается во внутреннем противоречии: с одной стороны мера естественности должна отражать наиболее общие свойства аппаратуры и аудиторов, с другой необходимо измерять сохранение индивидуальных характеристик голоса диктора. Еще одна проблема субъективных методов заключается в различии подходов к оценке производителя и потребителя аппаратуры. Производители оборудования, стремятся тестировать свои системы в идеальных лабораторных условиях, обеспечивающих наивысшие показатели качества. Но реальные условия работы зачастую мало похожи на лабораторные, и оценки качества потребителя оказываются много ниже. Существующие объективные методы не позволяют провести оценку качества системы в целом, так как большей частью они направлены на измерение разборчивости, как меры качества. Разборчивость, конечно, важный параметр качества, но не единственный (и не всегда основной). Известные объективные методы не учитывают (или учитывают не в полной мере) некоторые важные факторы, которые могут иметь критически важное влияние на восприятие речи. К ним относятся потери блоков звуковых данных, потеря начальных и конечных звуков. Применяемые методы об-

230 230 наружения звуковой активности либо несовершенны, либо не применяются вовсе. Большинство объективных методов ориентировано на свойства речевых сигналов и не могут дать реальных оценок произвольных звуковых сигналов. Следовательно, есть актуальная задача разработки объективных методов оценки качества речевых сигналов. Необходимость разработки новых методов и улучшения существующих вызвана желанием повысить близости объективных и субъективных оценок качества, необходимостью наиболее полно учесть свойства слуха и речеобразования, оценивать качество не только речевых, но и произвольных звуковых сигналов. Далее в работе предлагаются три метода оценки качества передачи звуковых сигналов: Метод AQuA (Audio Quality Analyzer) представляет собой альтернативу стандартным методам оценки качества, зафиксированным в рекомендациях ITU-T P.861и P.862. Методы NIQA (Non-Intrusive Quality Analyzer) и RecQual (Recognition + Quality) разработаны как альтернатива рекомендации P.563 [106]. Методы AQuA и NIQA нашли широкое практическое применение и зафиксированы в патентах РФ ( [9] и [11]). RecQual находится в стадии апробации и проработки деталей. 7.3 Метод AQuA Метод AQuA (Audio Quality Analyzer) представляет собой альтернативу стандартным методам оценки качества, зафиксированным в рекомендациях ITU-T P.861и P.862. Идея заключается в том, что на вход системы оценки качества [33] подаются два звуковых сигнала: исходный и тестируемый. Тестируемый сигнал получен из исходного в результате какой-либо обработки (сжатие/восстановление, передача по каналам связи, фильтрация). Качество исходного сигнала принимается равным 100%. Воспринимаемые на слух раз-

231 231 личия исходного и тестируемого сигнала снижают его качество: чем больше различий, тем ниже качество тестируемого сигнала [42, 181]. Тип сигнала, используемого в качестве исходного, произвольного или специализированного, зависит от цели оценки (определение разборчивости речи; качества воспроизведения звука; оценки качества речи, получаемой по трактам переговорных устройств, и т.п.), что позволяет повысить ее объективность. На рисунке 7.2 представлена общая схема системы оценки качества звуковых сигналов. Блок сигналов Генератор тестовых сигналов Банк сигналов Блок оценки Тестируемое устройство Синхронизатор Аналитический модуль результат Рисунок 7.2 Общая схема системы оценки качества звуковых сигналов Генератор тестовых сигналов позволяет формировать звуковой сигнал в соответствии с одной из моделей звукового потока. Это может быть либо специализированный набор шумовых сигналов, либо сигнал, полученный на выходе статистической модели речи [39], описанной в главе 3. Сигнал генератора может либо сохраняться в банке сигналов для последующего использования, либо подвергаться обработке и оценке. Банк сигналов хранит звуковые данные, полученные в результате работы генератора сигналов или из каких-либо внешних источников. В качестве предзаписанных сигналов используются записи фонетически представительных и фонетически сбалансированных текстов, музыкальные произведения, различные шумы и т.д. Соответственно, на вход блока оценки поступает сигнал либо непосредственно с генератора, либо из банка сигналов. Тестовый сигнал поступает на синхронизатор и тестируемое устройство, в качестве которого может использоваться, например, вокодер или канал связи. Выходной сигнал тестируемого устройства также поступает на вход синхронизатора.

232 232 Синхронизатор совмещает во времени исходный сигнал и сигнал, прошедший обработку. Синхронизированные сигналы порциями выдаются на аналитический модуль, определяющий степень похожести сигналов и выдающий оценку качества, как меру подобия исходного и обработанного сигналов. Рассмотрим подробнее работу модулей системы. Генератор тестовых сигналов Генератор тестовых сигналов состоит из генератора шумовых сигналов и упрощенной статистической модели речи. Оба генератора моделируют процесс «говорения», однако, подходы к моделированию речеобразования разные. Статистическая модель формирует звуковой поток на основании образцов речи людей, а генератор шумовых сигналов исходя из знаний о звуковосприятии и речеобразовании. Статистическая модель речи представляет собой сложную систему, описанную в главе 3. В данной главе рассматривается только генератор шумовых тестовых сигналов. Генератор шумовых сигналов Генератор шумовых сигналов работает на модели речевого потока, аналогичной той, что используется в методе STI. Идея заключается в том, что речевой сигнал можно приближенно рассматривать как широкополосный сигнал, модулированный низкочастотным сигналом. Частота модуляции определяется скоростью артикуляции и находится в диапазоне от 0.63 до Гц, а длительность модулированного сигнала определяется количеством периодов модулирующей частоты (таблица 7.1). В качестве модулируемого сигнала используется шумовой сигнал, получаемый из белого шума путем вырезания из его спектра частотных полос, соответствующих критическим полосам слуха и речеобразования. В первом случае формируется сигнал, позволяющий оценивать передачу звуковых сигналов в общем, а во втором речевых. Подробнее критические полосы рассматриваются в описании аналитического модуля.

233 233 Таблица 7.1 Частоты модуляции и длительности модулированных сигналов Частота, Гц Длительность, сек. Частота, Гц Длительность, сек. 1 0,63 5,00 8 3,36 2,50 2 0,84 5,00 9 4,20 2,50 3 1,05 5, ,04 2,50 4 1,26 5, ,72 1,25 5 1,68 5, ,40 1,25 6 2,10 2, ,08 1,25 7 2,52 2, ,44 1,25 Определение голосовой активности Практически любой звуковой сигнал можно разделить на активную и неактивную фазы. Первая соответствует активным звуковым процессам, вторая низкоуровневому фоновому шуму. Для определения наличия звуковой активности в сигнале могут использоваться классификаторы входного сигнала, на базе которых создаются кодеки речи с переменной скоростью. Классификатор определяет степень информативности сигнала и задает метод кодирования передачи звуковых (речевых) данных. Одним из таких классификаторов речевого сигнала является Voice Activity Detector (VAD), выделяющий во входном речевом сигнале активную речь и паузы. При этом фрагменты сигнала, классифицируемые как активная речь, кодируются каким-либо из известных алгоритмов с низкой степенью сжатия, а фрагменты, классифицированные как паузы, кодируются с высокой степенью сжатия. Однако, использование сложных алгоритмов не всегда оправдано (так, например, VAD настроен на работу с речевыми сигналами). Ниже предлагается простой алгоритм определения звуковой активности в сигнале, на основе его уровня энергии.

234 234 Отсчеты сигнала Smpl[] Остаток задержки > 0 Уменьшение остатка задержки Признак паузы 0 Вычисление e < 0 Время замера базового уровня > 0 Уменьшить время замера; запомнить уровень сигнала Признак паузы = 0 Уменьшить время замера Расчет базового и рабочего порогов Признак паузы e 0 > 0 Вычисление E Пересчет базового и рабочего порогов Нет E > рабочего порога Да Признак паузы Признак активности Рисунок 7.3 Алгоритм определения звуковой активности Работу алгоритма можно условно разделить на три этапа (рисунок 7.3): задержка, расчет базовых порогов и этап детектирования звуковой активности. Начальная задержка позволяет исключить из обработки случайные переходные процессы, которые могут иметь место, например, при включении звукового оборудования или при обработке звуковых файлов без учета наличия заголовков. Расчет базовых порогов позволяет отказаться от использования фиксированных значений и использовать свои значения для каждого входящего сигнала. Однако за использование расчетных порогов приходится платить невозможностью полноценного анализа нескольких первых фреймов сигнала.

235 сигнала e: 235 Для каждого фрейма входящего сигнала определяется уровень энергии N 1 N = smpli X, X = smpli N 0 N 0 e, (7.1) 2 где X позволяет исключить влияние постоянной составляющей. Однако, введение такой «поправки» к значению энергии приводит к тому, что величина e в ряде случаев оказывается отрицательной. Для фреймов, относящихся ко времени накопления, рассчитывается среднее значение энергии и по нему определяется средняя громкость E паузы: e = 10lg E. (7.2) Исходя из значения E, определяются значения порогов (рисунок 7.4) с использованием ряда констант (таблица 7.2), определенных экспериментально: Громкость паузы E Базовый порог := E * коэффициент базы Базовый порог < нижняя граница Рабочий порог := нижняя граница > верхняя граница Рабочий порог := базовый порог Значения порогов все остальные значения Рабочий порог := (базовый порог + верхняя граница) / 2 Рисунок 7.4 Определение значений порогов

236 236 На этапе детектирования звуковой активности (в рабочем режиме) пороги пересчитываются на каждом шаге. Для пересчета порогов используется текущее значение уровня громкости E (7.2). Алгоритм расчетов представлен на рисунке 7.5. Энергия звука на фрейме e E = 0 Нет e > 0 Да Вычисление E Базовый порог := E * коэффициент базы Рабочий порог := Рабочий порог * коэффициент памяти + Базовый порог * (1 коэффициент памяти) Рабочий порог < минимум Рабочий порог := минимальное допустимое значение > максимум Рабочий порог := максимальное допустимое значение все остальные значения E = E рабочий порог Нет E > 0 Да Признак паузы Признак активности Рисунок 7.5 Пересчет порогов в процессе детектирования Если энергия (e) сигнала меньше нуля, то значения порога сохраняются. Кроме того, осуществляется проверка на попадание рабочего порога в разумный диапазон значений, и, если этого не происходит, то производится корректировка рабочего порога. В таблице 7.2 представлены рабочие значения граничных значений и коэффициентов. Как и прочие известные алгоритмы VAD, предлагаемый простой алгоритм обладает некоторой нестабильностью детектирования и требует использования специального постпроцессора, называемого алгоритмом фильтрации выбросов VAD.

237 237 Таблица 7.2 Константы детектора активности сигнала по энергии Константа Значение Время начальной задержки 4 Время изменения базового уровня 20 Коэффициент базы 1.65 Нижняя граница базового порога 26 Верхняя граница базового порога 40 Коэффициент памяти 0.99 Минимальное допустимое значение рабочего порога 22 Максимальное допустимое значение рабочего порога 80 В системе оценки качества для разделения сигнала на активную и неактивную фазы предусмотрена возможность использования различных алгоритмов VAD. Это и представленный выше алгоритм детектирования по уровню сигнала, и известные алгоритмы VAD, зафиксированные в рекомендациях G.723 и G.729 (в качестве элементов одноименных вокодеров). Синхронизатор сигналов Синхронизатор совмещает во времени исходный сигнал и сигнал, прошедший обработку. Общая схема работы синхронизатора представлена на рисунке 7.6. На вход синхронизатора сигналов поступают отрезки сигнала (pdata), равные по длительности фрейму VAD, для которых определяются признаки активности VAD на отрезках pdata. Перед синхронизацией проводится фильтрация выбросов признаков активности VAD, заключающаяся в том, что признак активности на коротких участках (с длительностью менее пороговой) приравнивается к признакам активности окружающего сигнала. Алгоритм фильтрации представлен ниже. После фильтра признаки состояний и фреймы сигнала поступают на синхронизаторные блоки, совмещающие фрагменты активного сигнала и паузы. Модули используют общие данные: буфер активного эталонного сигнала (EBuffer1), буфер активного тестируемого сигнала (TBuffer1), буфер паузы эталонного сигнала (EBuffer0), буфер паузы тестируемого сигнала (TBuffer0), признак готовности буферов активного сигнала и пауз

238 238 (dready[0..1]). Предусмотрен также счетчик ошибок синхронизации (derror- Counter). 1 Исходный сигнал: dvad, pdata 2 Оцениваемый сигнал: dvad, pdata 3 4 Фильтр выбросов VAD Фильтр выбросов VAD 5 Исходный сигнал: dvad, pdata 6 Оцениваемый сигнал: dvad, pdata 7 7.a 7.б Синхронизаторный блок 0 7.в EBuffer0, EBuffer1 TBuffer0, TBuffer1 dready[0..1] derrorcounter Синхронизаторный блок 1 8 EBuffer0 TBuffer0 9 EBuffer1 TBuffer1 Синхронизированные звуковые данные Рисунок 7.6 Общий алгоритм синхронизации сигналов На выходе синхронизатора получается пара буферов с активным сигналом или пара буферов с паузами. Оба синхронизаторных блока могут инициировать появление пары синхронизированных буферов. Синхронизированные буфера и признак активности поступают на вход аналитического модуля. На рисунке 7.7 представлен алгоритм фильтрации выбросов VAD. В качестве исходных данных выступают отрезки сигнала pdata и признаки активности VAD dvad.

239 239 * 1 Пока не конец сигнала выход 2 i от 0 до min(dndlframes, ddlsize-1) выход 3 Признак окончания сигнала 4 5 Отдать: DelayLine[i].pDATA DelayLine[i].dVAD да dstate == dvad? нет 6 dstate := dvad да 7 dstate == -1 нет 8 dndlframes++ dslen++ 9 dstate := dvad dslen := 0 да 10 dslen > dbound[dstate] нет 11 i от 1 до dslen выход 12 DelayLine[dDLSize-1]. dvad = dvad 13 dndlframes? ddlsize да 14 Отдать: DelayLine[0].pDATA DelayLine[0].dVAD нет выход 15 i от 0 до ddlsize-2 16 DelayLine[i] := DelayLine[i+1] 17 DelayLine[dDLSize-1].pDATA := pdata DelayLine[dDLSize-1].dVAD := dvad * Рисунок 7.7 Алгоритм фильтрации выбросов VAD В таблице 7.3 приведены названия переменных, их назначение и начальные значения. Кроме переменных в алгоритме использованы три константы: порог выправления пауз в активное состояние (dbound[0] = 6), порог выправления активного состояния в паузу (dbound[1] = 4) и длина линии задержки (ddlsize = max(dbound[])+1). Используемые значения констант определены экспериментально (для случая оценки качества сигналов, прошедших процедуру сжа-

240 240 тия/восстановления) и могут изменяться при реализации для лучшей синхронизации конкретных сигналов. Работа алгоритма завершается после получения признака окончания сигнала. При этом на вход синхронизаторного блока отдается весь накопленный сигнал, если, конечно, таковой имеется, и только потом признак окончания сигнала. Алгоритм проверяет признак активности текущего блока сигнала. Если признак активности совпадает с текущим принимаемым состоянием, то пришедший фрейм просто добавляется в линию задержки, а первый элемент линии задержки выдается на вход синхронизаторного блока. Таблица 7.3 Переменные фильтра выбросов VAD Переменная Назначение н/з 22 dvad Значение признака активности, поступающее на вход алгоритма - pdata Массив отсчетов сигнала с длиной, равный фрейму VAD - dstate Признак активности участка (предшествующее значение признака -1 активности) dslen Количество последовательных фреймов с одинаковым признаком 0 активности dndlframes Общее количество фреймов, поступивших на вход алгоритма 0 DelayLine[] Линия задержки. Сохраняет признаки активности и массивы отсчетов - Если признак активности не совпадает с текущим принимаемым состоянием, то осуществляется проверка на приход первого фрейма сигнала. Первый фрейм просто помещается в линию задержки, а его признак активности принимается за текущее состояние. Если происходит смена активности принимаемого сигнала в процессе фильтрации, то проверяется количество фреймов сигнала, принятых в предыдущем состоянии. Если количество фреймов меньше установленного порога, то производится смена их признака активности на противоположный, если нет, то просто изменяется текущее состояние и сбрасывается счетчик фреймов, принятых в текущем состоянии. После всех операций по смене состояния фрейм помещается в линию задержки. 22 н/з начальное значение

241 241 Для синхронизации сигналов используется пара синхронизаторных блоков, работающих с несколькими общими переменными, описанными выше. Алгоритм работы синхронизаторного блока представлен на рисунках Выход фильтра выбросов VAD 1 2 Пока не конец сигнала выход dvad Добавить в данные XBuffer0 Добавить в данные XBuffer1 3 > dmaxsize 6 XBuffer0. Size() 7 XBuffer1. Size() > dmaxsize 4 1 да 8 dvad == dstate нет 9 dstate := dvad да 10 dstate == -1 нет 11 dready[dstate]++ 12 нет dready[dstate] == 2 да 5 Рисунок 7.8 Алгоритм синхронизаторного блока (начало) Синхронизаторный блок 0 обрабатывает эталонный сигнал, а блок 1 тестируемый. Алгоритмы блоков идентичны, блоки используют перекрест-

242 242 ные ссылки на буфера. Т.е. в блоке 0 XBuffer0 - это буфер пауз эталонного сигнала, а X Buffer0 - тестируемого, и наоборот: в блоке 1 XBuffer0 - буфер пауз тестируемого сигнала, а X Buffer0 - эталонного. 5 да 1 XBuffer0.Size!= 0 XBuffer0.Size!= dstate 1 3 XBuffer1.Size!= 0 XBuffer1.Size!= 0 да 4 Отдать: XBuffer0 XBuffer0 нет 5 derrorcounter++ XBuffer0.Reset() XBuffer0.Reset() нет 6 Отдать: XBuffer1 XBuffer1 7 dready[dstate] := 0 dstate := dvad Рисунок 7.9 Алгоритм синхронизаторного блока (продолжение) 1 Аналогично, в блоке 0 XBuffer1- это буфер активного эталонного сигнала, а X Buffer1 - тестируемого, и наоборот: в блоке 1 XBuffer1- буфер активного тестируемого сигнала, а X Buffer1 - эталонного. По получению признака конца сигнала алгоритм завершает свою работу. Ветка останова представлена на рисунке В зависимости от признака активности VAD, сигнал помещается либо в буфер пауз, либо в буфер активного сигнала. Если размер буфера превышает пороговое значение, то производится выдача синхронизированных буферов на модуль сравнения. Ветки, выдающие синхронизацию по размеру буфера, представлены на рисунке После помещения сигнала в буфер проверяется текущее состояние активности сигнала. Если оно прежнее, то выполняется возврат к началу и ожидание новых данных. При изменении состояния проверяется, не была ли это первая порция данных? Если «да», то принимается ее состояние и выполняется переход на начало. Если «нет», то увеличивается признак готовности сигнала в данном состоянии, после чего проверяется, не готовы ли оба сигнала, т.е. участки активного сигнала или паузы синхронизированы. Если есть

243 243 синхронизированные фрагменты сигнала, выполняется переход к ветке, представленной на рисунке 7.9. Если нет, то изменяется состояние и выполняется переход на начало алгоритма нет _ XBuffer0.Size = 0 нет _ XBuffer1.Size = 0 да да 2 Отдать: XBuffer0 XBuffer0 3 derrorcounter++ XBuffer0.Reset() XBuffer0.Reset() 2 3 Отдать: XBuffer1 XBuffer1 derrorcounter++ XBuffer1.Reset() XBuffer1.Reset() 4 4 dready[0] := 0 dready[1] := Рисунок 7.10 Алгоритм синхронизаторного блока (продолжение) 2 1 XBuffer0.Size!= 0 XBuffer0.Size!= 0 да 2 Отдать: XBuffer0 XBuffer0 нет 3 4 XBuffer1.Size!= 0 да XBuffer1.Size!= 0 нет Отдать: XBuffer1 XBuffer1 5 Признак окончания сигнала Рисунок 7.11 Алгоритм синхронизаторного блока (окончание) По текущему состоянию определяется, была ли найдена синхронизация для пауз или для активного сигнала. Проверяется результат синхронизации на ошибку путем сравнения с нулем размеров буферов (своего и буфера из параллельного блока) сигнала. Если хоть один из них равен нулю, то произошла ошибка синхронизации. Если все в порядке, на вход модуля сравнения выдаются синхронизированные буфера. Если нет то увеличивается счетчик ошибок, сбрасываются

244 244 буфера, изменяется состояние активности и выполняется возврат к ожиданию новой порции данных. Прежде чем отдать буфера по превышению размера сегмента, производится проверка размера параллельного буфера. Если буфер параллельного блока пуст, сбрасываются буфера и увеличивается счетчик ошибок синхронизации. Если данные присутствуют в обоих буферах, синхронизированные данные передаются модулю сравнения сигналов. Перед окончанием работы проверяется: есть ли данные в буферах пауз и буферах активного сигнала. Если есть, то соответствующие синхронизированные пары (или пара) сигналов передаются модулю сравнения. После чего модулю сравнения передается признак окончания сигнала. Аналитический модуль Аналитический модуль (рисунок 7.12) осуществляет раздельное сравнение совмещенных пар фрагментов активной и неактивной фазы сигнала, что позволяет повысить точность получаемой оценки. Для каждого фрагмента определяется интегральный спектр 23 c использованием дискретного косинус- преобразования (ДКП). Интегрирование спектра проводится по формуле (7.3): ( Sp Sp ) i, j i 1, j i 1, j + Sp 0, j Sp0 j, где (7.3) Sp i, j = Sp, =, i j = 0..N/2-1 индексы значения спектральной энергии; i номер шага интегрирования; N количество отсчетов сигнала, используемых при расчете спектра; Sp, - получаемое усредненное значение спектра; i j Sp, Sp, i 1 j i j - усредненное значение спектра на прошлом шаге; - значение спектра, полученное с помощью ДКП. 23 Интегральным, называется спектр, усредненный на некотором отрезке времени.

245 245 При расчете интегрального спектра перекрытие окон составляет N/2 отсчетов, на каждое окно накладывается известная оконная функция Хэмминга (Hamming) или Блэкмана-Харриса (Blackmann-Harris). 1 Эталон 2 Тест Голос Пауза Голос Пауза 4 3 Обработка пауз Обработка голоса 5 ДКП 6 ДКП 7 Таблицы полос 8 Энергии на полосах 9 Энергии на полосах 10 Сравнение таблиц 11 Усреднение 12 Интегрирование оценки для пауз и участков голосовой активности 13 Оценка качества Рисунок 7.12 Схема работы аналитического модуля Для всех выбранных наборов полос определяются уровни спектральной энергии на полосах. Известны группы критических полос, определенные разными авторами, исходя из различных моделей восприятия звука и речеобразования. О критических полосах подробно рассказывалось выше. Значения полос приведены в приложении 3. Учет того, что полосы, определенные Покровским и Сапожковым, лучше подходят для речевых сигналов, а не для звуковых сигналов вообще, позволяет повысить точность оценки в зависимости от ее цели. Дополнительно предлагается использовать логарифмические полосы (приложение 3), или полосы равной громкости. Идея проста: громкость про-

246 246 порциональна 10 логарифмам энергии. Для определения границ логарифмических полос используется запись фонетически представительного текста (известный текст, разработанный на кафедре фонетики СПбГУ), начитанного дикторами разного пола и возраста. Резонаторные полосы 24, характерные для различных звуков речи, были определены Сорокиным В.Н. (приложение 3). Учет резонаторных полос полезен при определении качества речевых звуковых (особенно речевых) сигналов. Резонаторные полосы могут быть использованы для определения качества воспроизведения отдельных звуков. Дополнительно могут определяться «коэффициенты важности» полос, исходя из предположения о том, что чем меньше интегральная энергия на полосе, тем выше важность полосы для восприятия речи (приложение 3). Соответственно, для оценки качества звуковых сигналов вообще целесообразно считать полосы равно важными, а при оценке качества речевых сигналов, передаваемых по трактам переговорных устройств, учитывать коэффициенты важности. Границы полос (начальный и конечный индексы) определяются по следующим формулам: j _ lo n j _ hi n = 1+ = 1+ ( nspeclen 2) ( nspeclen 2) Fc Ln n 2 SampleRate L Fc n n + 2 SampleRate nspeclen количество точек в спектре (N/2); SampleRate частота дискретизации сигнала; n номер полосы., где (7.4) Энергии на полосах определяются как 24 Резонаторные полосы, это частотные полосы, в которых на тех или иных звуках речи происходит усиление энергии сигнала.

247 247 j= j _ hin E n = Sp last j= j _ lon Sp last, j - значения интегрального спектра ( last j последнем окне фрагмента)., j, где (7.5) Sp, равно i j, полученному на Sp, 1 dquality = Для всех полос 7 dquality 3 src E n > 0,001 4 tmp = E src n E test n E src n 100 Vc n 5 ( tmp, ) tmp = min 100 Vc n 6 dquality -= tmp Рисунок 7.13 Алгоритм сравнения по полосам Алгоритм сравнения по полосам (для одного набора) представлен на рисунке Исходная оценка качества полагается равной 100%. Далее она уменьшается пропорционально различию энергий на полосах. Определяются оценки качества по каждому набору полос. Оценка качества по всем наборам полос определяется как среднее значение отдельных оценок (7.6): dq Nk dq Nk количество используемых таблиц полос; k номер текущей таблицы; dqk - оценка, полученная для k-той таблицы полос; k k =, где (7.6) Nk dq - интегральная оценка по всем таблицам.

248 248 Оценка качества для каждой фазы определяется как среднее по всем парам фрагментов: dq ( dq t dq t 1 ) t = dq t 1 +, dq1 = dq1, где (7.7) t dq t - получаемое интегральное значение коэффициента потери качества; dq t 1 - интегральное значение коэффициента качества на предыдущем шаге; dq t - значение коэффициента качества на паре фрагментов с номером t; dq1- значение коэффициента качества на первой паре фрагментов; t номер пары фрагментов. Результирующая оценка качества по всему сигналу ( dqglobal ) определяется как сумма взвешенных оценок качества активной ( dq t ( Active) ) и неактивной ( dq t ( Pause) ) фаз: 0,9 dq ( Active) + 0, dq ( Pause) (7.8) dqglobal = 1 t t Для определения звуковой (D) и словесной разборчивости (W) можно использовать следующие формулы: D( S) = S, где (7.9) S = 0,8 D 2 +0,2 D 4 - известная формула Покровского Н. Б. [68]: e 6.15 S W S) = 1+ S (. (7.10) Для перехода от коэффициента потери качества к величине звуковой разборчивости используется таблица 7.4.

249 249 Таблица 7.4 Зависимость звуковой разборчивости от оценки качества dq S dq S DQ S 1 0, , , , , , , , , , , , , , , , , , ,65 83 При определении значений в промежуточных точках используется интерполяция (например, интерполяционный полином Лагранжа). График зависимости (S(dQ)) представлен на рисунке ,2 1 0,8 dq 0,6 0,4 0, S Рисунок 7.14 Зависимость слоговой разборчивости от значения оценки качества Аналогичным образом оценки качества могут быть пересчитаны в значения оценок MOS. Реализация Описанные алгоритмы реализованы в виде программы для оценки качества вокодеров и сравнения внешних исходных и тестируемых сигналов. В качестве внешних сигналов могут использоваться произвольные сигналы, записанные с частотой дискретизации 8 кгц и разрядностью отсчетов 16 бит. Предполагается, что тестируемый сигнал получен из исходного сигнала в результате каких-либо преобразований (например, сжа-

250 250 тие/восстановление, передача по каналам связи, фильтрация). Дополнительно в качестве исходного внешнего сигнала может использоваться запись фонетически представительного текста, начитанного несколькими дикторами разного пола и возраста. В качестве внутренних исходных сигналов (сигналов, к которым пользователь программы не имеет доступа) используются сигналы, генерируемые в соответствии с шумовой моделью (описание генератора приведено выше) и сигналы, генерируемые на основе статистической модели. Внутренние сигналы подаются на вход реализации системы сжатия / восстановления звуковых данных, реализуемой в виде DLL с оговоренным интерфейсом. Сигнал, прошедший обработку методами содержащимися в DLL, считается тестируемым и подвергается процедуре оценки качества, описанной выше. Предлагаемый способ оценки звуковых сигналов имеет ряд преимуществ перед известными методами измерения качества, а именно: - обладает универсальностью, т. к. позволяет судить о качестве сигналов, имеющих различное происхождение, прошедших различные процедуры обработки; - процесс оценки качества может быть оптимизирован в зависимости от целей получения оценки: - по скорости (например, возможно быстро получить грубую оценку); - по типу сигнала (использование различных полос для речевых сигналов и звуковых сигналов вообще); - полученная оценка хорошо коррелирует с оценками МОS; - оценки качества, полученные для речевых сигналов, могут быть пересчитаны в значения различных видов разборчивости. Для сравнения метода AQUA с рекомендацией ITU-T P.562 [105] была использована речевая база данных ITU-T для тестов кодеков [97]. В таблице 7.5 приводятся суммы ошибок (модуль разности экспертного и вычисленного

251 251 значения MOS) полученные в результате работы стандартного ПО и предложенного метода. Таблица 7.5 Сравнение алгоритмов ITU-T P.562 и AQUA Язык Сумма ошибок PESQ-MOS MOS-LQO MOS-WB-LQO AQUA Японский 105,75 92,40 59,31 103,63 Французский 66,32 59,20 80,03 74,12 Английский 51,02 50,74 135,92 75,58 Видно, что предложенный метод дает лучшую точность оценок лишь в нескольких случаях. В данный момент ведутся работы по совершенствованию метода. Известны результаты исследования [115], показывающего, что точность оценок алгоритмов PESQ и AQUA для GSM сетей связи совпадает, а в случае CDMA сетей точность оценок AQUA оказывается выше. 7.4 Метод NIQA Метод NIQA (Non-Intrusive Quality Analyzer) разработан как альтернатива рекомендации P.563 [106]. Считается, что алгоритм P.563 обеспечивает высокий уровень корреляции автоматических оценок с экспертными. Однако простейшие тесты на речевой базе данных ITU-T для тестов кодеков [97] заставляют сомневаться в состоятельности распространяемой вместе с описанием реализации алгоритма (таблица 7.6). Таблица 7.6 Сравнение результатов алгоритма P.563 с экспертными оценками Средняя оценка Диапазон MOS Средняя ошибка по MOS по P ,25 2,45 1, ,42 1,70 1, ,56 1,71 0, ,68 1,49 0,55

252 252 Проблема с работой распространяемой реализации алгоритма P.563 вскрыла необходимость создания альтернативного решения. Общая структура NIQA NIQA [34] работает на основе базы обучаемых эталонов, названных ассоциациями. Каждая ассоциация соответствует группе файлов, имеющих близкие значения экспертных оценок и общий набор причин снижения качества звука. Для каждой ассоциации вычисляется и сохраняется в базе некоторый набор распределений значений параметров. Работа NIQA на получение оценки качества звучания представлена на следующей схеме (рисунок 7.15). Загрузка звуковых данных. Исключение низкоуровневых пауз. Нормализация общей энергии звукового сигнала. Определение порогового уровня энергии сигнала. Инициализация алгоритма VAD. Разделение сигнала на активную/неактивную составляющие. Вычисление параметров сигнала во временной области. Вычисление спектра сигнала. Определение DTMF Пси-фильтр. Первый уровень психоакустической модели. Разделение спектра на тональные/шумовые составляющие. Нормализация уровней. Второй уровень психоакустической модели Параметры сигнала Перевод уровней в количества различимых градаций громкости. Третий уровень психоакустической модели Вычисление спектральных параметров сигнала. База ассоциаций Поиск и выбор из базы рабочих ассоциаций. Вычисление оценки. Вывод оценки и списка «сработавших» ассоциаций. Рисунок 7.15 Общая схема работы NIQA в режиме определения оценки качества

253 253 При загрузке звукового сигнала из него исключаются фрагменты с очень низким уровнем энергии (по пороговому значению). Исключаемые фрагменты соответствуют «абсолютной» тишине и считаются не влияющими на значение оценки качества звучания. Далее сигнал разбивается на фреймы, используемые в алгоритме определения речевой активности (VAD). Для каждого фрейма вычисляются значения энергий, используемые для увеличения точности настройки параметров VAD. С помощь алгоритма VAD сигнал разделяется на активную/неактивную составляющие, обрабатываемые отдельно. Для активной и пассивной составляющих сигнала строятся гистограммы уровней. С помощью дискретного косинус- преобразования (ДКП) формируется спектр сигнала. Для фреймов активной составляющей выполняется проверка на наличие тонального набора. Фреймы, похожие на тональный набор, исключаются из обработки. К спектру применяется первый уровень психоакустической модели, отвечающей за различные виды маскировки (включая пре- и постмаскирование), после чего сигнал разделяется на тональную и шумовую составляющие по явным пикам спектральной энергии. Второй уровень психоакустической модели выполняет нормализацию энергий сигнала уровни энергий переводятся в значения в фонах. Третий уровень психоакустической модели переводит уровни громкости в количества различимых градаций громкости, что позволяет игнорировать незаметные на слух изменения. Подробное описание психоакустической модели приведено в главе 5. Далее выполняется разбиение спектра сигнала на критические полосы слуха и вычисление значений параметров как на полосах, так и вне полос. По полученным наборам параметров сигнала из базы выбираются ассоциации, наиболее похожие на оцениваемый сигнал выполняется ассоциирование. Для выбранных ассоциаций определяются степени их влияния на результирующую оценку и сами значения оценок. Результирующая оценка определя-

254 254 ется как комбинация оценок для выбранных ассоциаций с соответствующими весами. Рассмотрим подробнее элементы системы NIQA. Расчет пороговых энергий для VAD Исходный сигнал обрабатывается окном в 240 отсчетов, шаг обработки составляет 80 отсчетов. Для каждого фрейма рассчитывается значение энергии по формуле (7.11): e 10 lg ( y hw ), где (7.11) k = 240 i= 1 e k энергия для фрейма с номером k; y i отсчет с номером во фрейме; hw i весовой коэффициент оконной функции. i i Все вычисленные значения энергий e k сохраняются в массиве, и сортируются. Центральный элемент массива является значением медианы. Теперь пороговое значение энергии E может быть определено по формуле (7.12): N 1 1 E = e N k = 1 N количество фреймов в сигнале; e n/2 значение медианы. N e k, где (7.12) Параметры сигнала во временной области Параметры сигнала во временной области определяются в несколько приемов. Так на этапе настройки порогового значения энергии для VAD, определяются: - среднее значение и медиана энергии исходного сигнала; - средние значения первой и второй производных по энергии.

255 255 В процессе обработки сигнала алгоритмом VAD определяются следующие параметры: - количество смен состояний признака активности VAD; - количество смен состояний признака активности VAD, без учета одинарных и двойных выбросов; - количество одинарных выбросов VAD в плюс и в минус; - количество двойных выбросов VAD в плюс и в минус. Для различных длительностей окон (12мс, 15мс, 20мс и 30мс) обработки определяются: - средние значения и дисперсии энергий; - количество одинарных и двойных переходов через среднее значение в плюс и в минус. После разделения сигнала на активную/пассивную составляющие для каждой из них и для всего исходного сигнала формируются гистограммы уровней. При построении гистограммы вычисляются три вида признаков: - обычная гистограмма уровней, считающая частотности попадания отсчетов в диапазоны значений; - первая и вторая производные по гистограмме уровней. Определение тонального набора В спектре сигнала выделяются и маркируются максимумы. Если максимумов менее двух, то фрейм признается не содержащим DTMF-набор. Иначе анализ продолжается. Вычисляется средняя энергия максимумов. Из списка максимумов исключаются максимуму с уровнем ниже среднего. Если после проверки на энергию в списке осталось не два максимума, принимается решение о прекращении проверки.

256 256 Индексы максимумов пересчитываются в значения частот и проверяются на принадлежность к частотам, образующим DTMF-набор. Нижняя частота сравнивается со значениями: 697 Гц, 770 Гц, 852 Гц и 941 Гц; верхняя 1209 Гц, 1336 Гц, 1477 Гц и 1633 Гц. Точность сравнения определяется размерностью спектра. Если оба максимума совпали, проверяется соотношение энергий максимумов. Если оно попадает в допустимый диапазон значений, то фрейм считается относящимся к DTMF-набору. Следующие подряд и отнесенные к DTMF-набору фреймы исключаются из обработки. Спектральные параметры сигнала Значения спектральных параметров рассчитываются внутри критических полос. Формируются две группы параметров: энергетические и соотношения сигнал-шум. К энергетическим параметрам относятся следующие: - среднее на полосе; - средняя производная в полосе; - средняя вторая производная в полосе; - средний хаос энергии в полосе; - средний хаос производной в полосе; - средний хаос второй производной в полосе. Под «хаосом» понимается дисперсия значений в полосе. Все шесть энергетических параметров рассчитываются по трем массивам спектров: тональных компонент, шумовых компонент и без разделения. Полный комплект энергетических параметров рассчитывается и для активной, и для пассивной составляющих сигнала. Соотношения сигнал-шум вычисляются на основании средних значений энергий активной и пассивной составляющих сигнала. Всего определяется семь значений:

257 257 - разность между средними уровнями тональных и шумовых компонент в активной части сигнала; - разность между средними уровнями тональных и шумовых компонент в пассивной части сигнала; - разность между средними уровнями тональных компонент активной и пассивной частей сигнала; - разность между средними уровнями тональных компонент активной и шумовых компонент пассивной частей сигнала; - разность между средними уровнями шумовых компонент активной и тональных компонент пассивной частей сигнала; - разность между средними уровнями шумовых компонент активной и пассивной частей сигнала; - разность между средними уровнями активной и пассивной частей сигнала. Обучение параметров и расчет подобий В базе ассоциаций для каждого параметра хранится три значения: среднее значение, дисперсия и количество переобучений. Поскольку количество обучающих данных заранее неизвестно, и предусматривается возможность дообучения системы, для вычисления среднего и дисперсии используются следующие рекуррентные формулы (7.13): Avg Disp k k = Avg = Disp k 1 k 1 k номер шага обучения; Cur текущее значение параметра; Avg среднее значение параметра; Disp дисперсия значений параметра. Cur Avgi 1 + k 2 Cur Dispi + k 1, где (7.13)

258 258 Для того чтобы значение дисперсии параметра можно было использовать для вычисления подобий и оценок качества, необходимо выполнить «финализацию» вычисления дисперсии (7.14): Disp 2 = Disp Avg ; (7.14) чтобы начать дообучение параметра, необходимо соответствующим образом модифицировать значение дисперсии (7.15): Disp Disp + 2 = Avg. (7.15) Для определения степени подобия текущего значения параметра обученному распределению значений (Like) используется выражение (7.16): 2 ( Avg - Cur) Like = -. (7.16) Disp Для определения значения подобия на соотношениях сигнал-шум выражение (7.16) непригодно, т.к. оно работает только на «убывание» с увеличением отклонения текущего значения параметра от среднего значения распределения. Однако увеличение соотношения сигнал-шум должно увеличивать подобие между двумя сигналами, поэтому вместо выражения (7.16) используется условное выражение (7.17): Like = ( Avg Cur) Disp ( Avg Cur) Disp 2 2,, Cur < Avg Cur Avg. (7.17) Значения подобия по всем признакам суммируются с учетом весов. Дополнительно веса навешиваются на группы признаков: параметры во вре-

259 259 менной области, спектральные энергетические параметры и соотношения сигнал-шум. Значения подобия рассчитываются для всех ассоциаций базы, после чего по значениям подобия выбираются N лучших ассоциаций. Значения подобия приводятся к одному порядку и определяют вклад ассоциации в результирующую оценку качества. Для выбранных N ассоциаций рассчитываются оценки качества. При этом используются полученные значения подобий ( ), но суммирование по признакам осуществляется с другим набором весов. Значение оценки качества для ассоциации определяется как (7.18): Qual l = MinQ + l 0.5 wlike l ( BaseQ MinQ ) e, где (7.18) l l l индекс ассоциации, для которой вычисляется оценка; wlike l взвешенное среднее подобий по всем признакам для ассоциации l; MinQ l минимальное значение оценки качества при соотнесении с ассоциацией l; BaseQ l базовая (максимально возможная) для ассоциации l оценка качества; Qual l значение оценки качества для ассоциации l. Результирующая оценка качества определяется как сумма взвешенных оценок качества по N лучшим ассоциациям. Тестирование NIQA Для испытания NIQA была использована та же речевая база ITU-T, что использовалась для испытания реализации алгоритма P.563. Для тестирования были использованы записи фраз на английском языке (всего 376 файлов). Все записи были разделены на 4 группы в зависимости от полученных экспертных оценок MOS. По всем группам записей были определены средние

260 260 экспертные оценки и средние оценки и ошибки NIQA (таблица 7.7). Для сравнения в таблице 7.7 также приведены средние значения ошибок, полученные при испытании алгоритма P.563. Таблица 7.7 Сравнение результатов алгоритма NIQA с экспертными оценками Средняя оценка Средняя ошибка Диапазон по по по по MOS MOS NIQA NIQA P ,25 3,44 0,83 1, ,42 3,06 0,51 1, ,56 2,61 0,43 0, ,68 2,36 0,68 0,55 Из таблицы видно, что алгоритм NIQA позволяет получить значительно большую точность совпадения вычисляемых оценок с экспертными, чем алгоритм рекомендации P.563. Точность алгоритма NIQA уступает точности алгоритма P.563 только на записях с очень низкими значениями экспертных оценок (в диапазоне от 1 до 2). Во всех остальных случаях точность оценок NIQA оказывается в 2 3 раза выше. 7.5 Метод RecQual Метод RecQual (Recognition + Quality), также как и NIQA, предложен в качестве решения альтернативного рекомендации P.563. Кроме того, предлагаемый метод является примером применения системы распознавания речи для решения практических задач. Общая схема метода Метод RecQual позволяет решить задачу оценки качества передачи речи имея лишь сигнал на выходе системы. Более того, в некоторых случаях с его помощью можно определить причины ухудшения качества связи. Предлагаемая схема обработки представлена на рисунке 7.16.

261 261 Система передачи речи Речевой поток Звуковое распознавание (распознавание звуков речи) Последовательность распознанных фонем Статистический анализатор (определение относительных частотностей) Вектор частотностей Анализатор причин снижения качества Вектор частотностей Классификатор по качеству Значение оценки качества передачи речи Значение оценки качества передачи речи Отчет о возможных причинах снижения качества речи Рисунок 7.16 Схема обработки по методу RecQual Звуковой поток с выхода оцениваемой системы передачи речи поступает на вход системы оценки качества передачи, выполняющей следующие действия: 1) Распознавание входящего речевого потока в терминах произвольной звуковой последовательности, доступной в языке. В качестве базовых алгоритмов распознавания целесообразно использовать хорошо разработанный инструментарий скрытых Марковских цепей. Модели звуков речи обучаются по телефонным записям с высоким качеством. Для «обучения» грамматики используются транскрипции большого количества диалогов. 2) Статистический анализ потока распознанных фонем: определяются относительные частотности фонем. Полученная статистическая информация оформляется в вектор признаков и передается классификатору по качеству. 3) Определяется степень соответствия полученного вектора статистических параметров набору классов качества сигнала. 4) Выполняется анализ возможных причин ухудшения качества передачи речи на основе экспертных правил и классификаторов, учитывающих характер искажений отдельных звуков и их групп. Основу предлагаемого метода составляет гипотеза о зависимости распознаваемости отдельных звуков речи от качества передачи речевого сигнала.

262 262 Для проверки состоятельности предлагаемого метода был проведен пилотный эксперимент. Пилотный эксперимент Для обучения классов качества сигнала использовалась выборка из речевой базы данных ITU-T для тестов кодеков [97]. Все файлы были разделены на обучающую и тестовую выборку. В тестовую выборку было включено 20 файлов (с различными оценками качества), остальные составили обучающую выборку. Файлы обучающей выборки были разделены на 4 класса (таблица 7.8). Таблица 7.8 Обучаемые классы качества сигнала Номер класса Диапазон оценок Кол-во файлов 1 1,0 2, ,0 3, ,0 4, ,0 4,5 45 Далее все обучающие файлы были распознаны в терминах звуков речи и специальных звуков. Для проведения эксперимента было использовано инженерное ПО, разработанное в компании ООО "Вокатив", позволяющее распознавать звуковые последовательности в терминах звуков речи. При распознавании использовалась простейшая грамматика, описывающая произвольную последовательность звуков (без ограничений на порядок следования и количество реализаций). При распознавании использовались акустические модели на основе HMM. Декодирование выполнялось по модифицированному алгоритму Витерби [36, 40, 41, 48]. Описание декодера и моделей выходит за рамки данной работы. Для каждого звука было вычислено среднее значение (Avg) и дисперсия (Disp) количества вхождений. Результаты по классам приведены в таблице 7.9.

263 Класс 263 Таблица 7.9 Статистические параметры классов звуков Звук Avg Disp Avg Disp Avg Disp Avg Disp i1 3, , , , , , , , u1 56, , , , , , , , a1 35, , , , , , , , l 2, , , , , , , , h' 1, , , , , , , , f' 3, , , , , , , , g' 6, , , , , , , , b' 0, , , , , , , , z' 0, , , , , , , , $ 0, , , , , , , , p' 4, , , , , , , , k' 2, , , , , , , , w 2, , , , , , , , x 0, , , , , , , , h 26, , , , , , , , m' 1, , , , , , , , v' 0, , , , , , , , g 7, , , , , , , , b 2, , , , , , , , f 6, , , , , , , , d' 0, , , , , , , , ch 1, , , , , , , , z 0, , , , , , , , c 0, , , , , , , , y 2, , , , , , , , s' 0, , , , , , , , j 10, , , , , , , , r' 3, , , , , , , , d 1, , , , , , , , t' 0, , , , , , , , m 32, , , , , , , , n' 0, , , , , , , , l' 0, , , , , , , , p 9, , , , , , , , k 27, , , , , , , , e 1, , , , , , , , v 7, , , , , , , , o 7, , , , , , , , u 2, , , , , , , , , , , , , , , s 0, , , , , , , , a 8, , , , , , , , r 3, , , , , , , , t 7, , , , , , , , n 2, , , , , , , , i 7, , , , , , , ,766667

264 264 Для расчета средних и дисперсий использовались рекурентные формулы Далее были распознаны тестовые файлы и для них определены количества звуков (в пилотном эксперименте использованы абсолютные значения, т.к. звуковые файлы имеют одинаковую длительность). По полученным значениям были вычислены коэффициенты подобия тестируемых файлов классам качества звука. Для определения коэффициента подобия для одного звука используется выражение (7.16). Таблица 7.10 Результаты эксперимента Файл MOS RQ Ошибка P.563 Ошибка OE1F6412 3,75 4,04-0,29 1, ,45 OE1F6E22 2, ,30 0,53 1, ,08 OE1F7C36 2, ,88 0,16 1, ,04 OE1F8F11 3, ,97 0,74 1, ,19 OE1F9214 3, ,97 0,07 1, ,64 OE1M0D13 3, ,32 0,77 1, ,08 OE1M1622 2, ,88 0,33 1, ,21 OE1M2335 1, ,88-0,17 1, ,71 OE1M2739 3, ,32 0,89 1, ,89 OE1M3509 4, ,60 0,56 2, ,04 OE1FA735 1, ,88-0,51 1, ,19 OE3F6905 2, ,11 0,77 1, ,92 OE3F7D25 1, ,11-0,15 1, ,71 OE3F9246 4, ,32 2,06 2, ,63 OE3F9701 3, ,95 0,80 1, ,18 OE3M2840 2, ,60-0,94 1, ,81 OE3M2C44 4, ,04 0,13 2, ,71 OE3M4115 1, ,88-0,17 3, ,33 OE3M4519 2, ,97-0,47 2, ,22 OE3M5434 3, ,11 1,44 1, ,13 Среднее 0,60 1,41 Значение подобия по файлу определяется как сумма значений подобий по всем звукам. Для каждого тестового файла определяются два класса имеющих максимальные подобия C1 и C2. Оценка качества для тестового файла RQ определяется как (7.19): RQ = 0,75 AvgMOS( C1) + 0,25 AvgMOS( C2), где (7.19)

265 265 AvgMOS(Х) средняя оценка MOS для группы X. В таблице 7.10 представлены оценки, полученные для выбранных тестовых файлов. Результаты сравнения со стандартом P.563 Сравнение метода RecQual со стандартом измерения P.563 по таблице 7.11 показывает, что среднее отличие RQ оценки от экспертной в два раза меньше, чем у принятой рекомендации P.563, которая обеспечивает высокий уровень корреляции автоматических оценок с экспертными. Следовательно основная гипотеза метода верна, а предложенный метод адекватен и применим. Однако требуются дополнительные исследования и учет дополнительных параметров сигнала для повышения точности и осмысленности оценок. Таблица 7.11 Сравнение результатов алгоритмов RecQual и P.563 с экспертными оценками Диапазон Средняя оценка Средняя ошибка MOS MOS RQ RQ P ,24 3,32 0,92 1, ,44 2,81 0,71 2, ,52 2,56 0,53 0, ,69 1,94 0,25 0,74 В качестве дополнительных параметров могут использоваться распределения длительностей и энергий отдельных звуков, а также встречаемость звукосочетаний. Дополнительно необходимо сформировать набор экспертных правил, позволяющих определять причины искажений и выдавать более информативные отчеты по оценке качества звукового сигнала. В базовой модификации метод RecQual рассчитан на работу с речевыми данными, однако возможно его расширение и на весь спектр звуковых сигналов, и это еще одно возможное направление дальнейших исследований.

266 Выводы Проведен анализ основных особенностей стандартных методов оценки качества передачи речевых сигналов, предложена классификация методов. Обоснована необходимость разработки новых методов оценки качества, позволяющих получать оценки с большей точностью. Предложен метод оценки качества AQuA (Audio Quality Analyzer) представляющий собой альтернативу стандартным методам оценки качества, зафиксированным в рекомендациях ITU-T P.861и P.862. Метод AQuA можно рекомендовать для оценки качества связи в CDMA сетях, т.к. согласно исследованию [115] в этом случае точность оценок AQUA превосходит точность оценок PESQ. Предложен метод NIQA (Non-Intrusive Quality Analyzer) в качестве альтернативы стандарту P.563. Проведенные эксперименты показали, что точность метода NIQA уступает точности алгоритма P.563 только на записях с очень низкими значениями экспертных оценок (в диапазоне от 1 до 2). Во всех остальных случаях точность оценок NIQA оказывается в 2 3 раза выше. Предложен метод оценки качества RecQual (Recognition + Quality). Сравнение результатов работы предложенного метода со стандартом измерения P.563 показывает, что среднее отличие RQ оценки от экспертной в два раза меньше, чем у принятой рекомендации P.563, которая обеспечивает высокий уровень корреляции автоматических оценок с экспертными. Следовательно, основная гипотеза метода верна, а предложенный метод адекватен и применим. Однако требуются дополнительные исследования и учет дополнительных параметров сигнала для повышения точности и осмысленности оценок.

267 Заключение 267 Анализ существующих разработок показал, что на сегодняшний день российский рынок программных средств распознавания речи представлен единичными разработками. В России было создано лишь несколько коммерческих систем распознавания русской речи. В основном они обеспечивают распознавание небольшого словаря (до 200 слов) и рассчитаны на организацию речевых запросов к базам данных и для голосового управления оборудованием. В таблице приведены наиболее известные из этих систем. Составить объективную картину по существующим промышленным продуктам в области распознавания речи не представляется возможным. Коммерческие организации, как правило, либо не указывают параметры надежности работы или же предоставляют данные, которые носят не объективный, а рекламный характер. Следует признать, что представленные на сегодняшний день на российском рынке системы распознавания русской речи либо не позволяют в полной мере решать все задачи организации интерактивных голосовых сервисов, либо не позволяют делать этого с должным качеством. Необходимо также отметить существование ряда некоммерческих проектов с открытым исходным, предоставляющих набор базовых инструментов для построения систем распознавания речи. К ним относятся: HTK - система, разработанная в Кембриджском университете (Англия); система Sphinx, созданная в университете Карнеги-Меллона (США); и система Kaldi, начатая в университете Джона Хопкинса (США) и продолженная в Технологическом университете Брно (Чехия). Однако все они не ориентированы на распознавание русской речи. Это объясняется отсутствием необходимой теоретической базы, позволяющей решать задачи организации интерактивных голосовых сервисов с должным качеством. В связи с этим отсутствие теоретических основ распознавания русской речи с учетом особенностей строения и восприятия речевого сигнала являет-

268 268 ся насущной проблемой на современном этапе развития информатизации страны. Это делает актуальным решение сложной научной проблемы разработки и обоснования обобщенного описания методов и моделей распознавания русской речи. В результате изучения существующих систем распознавания были выявлены классификационные признаки и предложена классификация систем распознавания речи (глава 1). На основе предложенной классификации была выполнена классификация разработанной системы распознавания и выбрана ее структура. Была поставлена задача разработки дикторонезависимой системы распознавания слитной речи и ключевых слов с большим словарем, определяемым переменным комплектом фиксированных грамматик, использующая в качестве эталонов элементы слов, которая и была решена в процессе выполнения работы. В процессе исследования были предложены модели звуков речи, учитывающие структуру звуковой волны, и выполнена оптимизация предложенных моделей. Проведенные эксперименты показали прирост процента точности распознавания при использовании предложенных моделей. В будущем возможно расширение списка фонем (или их комбинаций), используемых при распознавании. Потребуется создать модели, учитывающих структуру звуковой волны, соответствующую нововведенным фонемам. Для устранения одного из недостатков HMM была предложена модель длительности звуков речи и алгоритмы учета длительности в системе распознавания. В процессе выполнения работы модель была расширена и позволила получить устойчивое увеличение точности распознавания.

269 269 Развитие модели возможно за счет совершенствования способов учета длительности звуков речи в алгоритмах распознавания, повышение точности описания зависимости вероятности появления звуков от различных факторов. Исследование факторы, влияющих на длительность звуков, и их учет в модели, также являются направлением дальнейшего развития. Обучение звуковых моделей проводится на больших звуковых базах данных, содержащих сотни часов записей речи множества дикторов, и фонетическую транскрипцию этих записей. В работе предложен способ автоматизации аннотирования речевых баз, позволяющий сократить долю ручного трута и увеличить скорость подготовки обучающих данных. Использование транскрипционного моделирования в процессе аннотирования речевых баз позволяет сформировать различные возможные варианты произношения текста записи и выбрать в процессе обучения вариант, наиболее близкий к реально реализованному. Применение предложенных способов увеличивает точность обучения моделей и качество распознавания, что подтверждается проведенными экспериментами. Дальнейшее пополнение списка правил транскрипционного моделирования позволит повысить как точность автоматизированного аннотирования, так и точность распознавания. Слуховая система человека чрезвычайно тонкий аппарат, имеющий ограничения в восприятии частотного диапазона, разрешающей способности, обладающий нелинейными свойствами. Для учета особенностей восприятия звукового сигнала человеком в работе предложена психоакустическая модель. Проведенные эксперименты показали общую эффективность предложенной психоакустической модели, а также выявили ее «узкие места»

270 270 и необходимость дальнейшего исследования свойств восприятия звуковых сигналов. Предложена статистическая модель речи, основная идея которой заключается в создании «слепка» современного состояния русского языка, на основании которого через несколько сотен лет потомки смогут сказать, что и как говорили, какими голосами, с какими интонациями. На основе сформулированных идей реализована упрощенная статистическая модель, нашедшая применение в системе синтеза речи по тексту и в качестве одного из источников звукового сигнала в системе оценки качества передачи речи. Реализация полной статистической модели одно из возможных направлений дальнейшего развития работы. Речевая аналитика позволяет сократить количество ручной работы, при анализе звукозаписей. Так, например, записи могут быть предварительно сгруппированы по наличию в них определенных наборов ключевых слов. В процессе создания системы поиска ключевых слов была предложена модель усредненной речи. Проведенные эксперименты доказывают эффективность предложенной модели усредненной речи. Совершенствование модели усредненной речи и способов определения параметров поиска ключевых слов может стать направлением развития работы. Занимаясь обработкой речевых сигналов передачей, сжатием, синтезом и распознаванием постоянно приходится сталкиваться с необходимостью давать различные оценки ее качества. В работе предложены 3 способа оценки качества передачи речи: AQuA, NIQA и RecQual. Способы AQuA и NIQA нашли широкое практическое применение и зафиксированы в патентах РФ ( и ). Способ RecQual

271 271 является результатом поиска новых областей применения систем распознавания речи. Проведенные эксперименты показали эффективность предложенных способов оценки качества передачи речи. Однако уже сейчас ведутся работы по развитие предложенных методов, направленные на повышение точности оценок за счет разделения акустических моделей по полу диктора и языку речи. В диссертации содержится постановка и решение крупной научной проблемы создание теоретических основ распознавания русской речи с учетом особенностей строения и восприятия речевого сигнала и на этой основе разработка методов и моделей распознавания русской речи в информационных системах, имеющей важное хозяйственное и культурное значение. Получены следующие основные результаты, обеспечивающие достижение цели диссертационного исследования: 1. Разработана, экспериментально обоснована и исследована статистическая модель длительностей звуков русской речи; разработаны классификация и модели звуков русской речи, учитывающие структуру звуковой волны, использованные в разработанных программных средствах распознавания речи и поиска ключевых слов. 2. Разработана концепция статистической модели речи, представляющей собой универсальную речевую базу данных и знаний современного состояния языка, позволяющая проводить фундаментальные исследования и решать прикладные задачи. 3. Предложен метод транскрипционного моделирования, позволяющий учитывать вариативность звукового состава произносимых высказываний в системах распознавания речи и при подготовке речевых баз данных.

272 Разработаны метод и программные средства автоматизации аннотирования речевых баз данных, сокращающие долю ручного труда по обработке и анализу исходных звуковых данных. 5. Предложена психоакустическая модель и программные средства предварительной обработки звукового сигнала, позволяющие исключить из его дальнейшего анализа компоненты, несущественные для восприятия. 6. Разработаны модель усредненной речи и методика ее построения, основанная на автоматизированном обучении по речевой базе, экспериментально подтверждена эффективность их применения для поиска ключевых слов. 7. Разработаны методы и программные средства оценки качества передачи речи, позволяющие контролировать качество речевого сигнала, в том числе и с использованием средств распознавания речи. 8. В результате экспериментальных исследований с применением разработанных программных средств подтверждена эффективность предложенных методов, моделей и алгоритмов распознавания, анализа и обработки речевых сигналов. Полученные результаты соответствуют паспорту специальности «Системный анализ, управление и обработка информации (связь и информатизация)».

273 Основные сокращения HTK Hidden Markov Model Toolkit - Speech Recognition toolkit. KWS Keyword Spotting. LDC Linguistic Data Consortium. LPC коэффициенты линейного предсказания. MFCC Мел-частотные кепстральные коэффициенты. MOS Mean Opinion Score. NIQA Non-Intrusive Quality Analyzer. PESQ Perceptual Evaluation of Speech Quality. PLP Perceptual Linear Prediction. PSOLA Pitch Synchronous-Overlap-and-Add. PSQM Perceptual Speech Quality Measurement. RecQual Recognition + Quality. SDT Speech Developer Toolkit. TD-PSOLA Time-Domain Pitch Synchronous-Overlap-and-Add. VAD Voice Activity Detector определения речевой активности. VoiceXML Voice Extensible Markup Language. БВЗ Блок выбора звуков. БПФ быстрое преобразование Фурье. ДКП Дискретное косинус- преобразование. ДПФ дискретное преобразование Фурье. ДСВО двоичный спектрально-временной образ. ИТ Интонационный тип. КЛП коэффициенты линейного предсказания. КС Ключевое слово или фраза. ЛП Лингвистический процессор. МККФ Международным Консультационным Комитетом по Телефонии. МПФ Модуляционная передаточная функция. МСЭ Международного союза электросвязи. НОД Наименьший общий делитель. 273

274 ОТ Основной тон. ПО Программное обеспечение. СИС Слова из словаря системы. СНИС Слова не из словаря системы. ТД Типовой диктор. ФС Фонетическая сеть. ЦРТ Центр речевых технологий. ЧОТ Частота основного тона. ЯМ Языковая модель. 274

275 Основные термины 275 SLF-структура Формат описания связей в фонетической сети, включает описание узлов и дуг переходов между узлами. VXML Формат описания грамматик. Акустические признаки Совокупность параметров, используемую при распознавании речи. Акустические характеристики звука Частота, амплитуда и число колебаний, составляющих данный звук. Акустическое моделирование Процесс создания статистического описания звуков речи. Акцентуация Простановка словесного ударения (определение местоположения ударного гласного в слове). Алгоритм быстрого преобразования Фурье (БПФ) Оптимизированный по скорости способ вычисления ДПФ. Алгоритм Витерби Один из первых алгоритмов, успешно примененный для распознавания речи, обеспечивает поиск наиболее вероятного пути в Фонетической сети. Аналого-цифровой преобразователь (АЦП) Устройство, которое служит для преобразования аналогового звукового сигнала в дискретную последовательность мгновенных значений амплитуды, называемых отсчетами. Барк Психофизическая единица высоты звука, предложенная Э. Цвикером в 1961 году. Шкала барков связана с критическими полосами слуха, увеличивающимися с возрастанием частоты звуковых колебаний. Верификатор Модуль, отвечающий за определение шумов и слов не из словаря. Гауссовская (или Гауссова) смесь Совокупность многомерных функций плотности вероятности нормальных распределений с заданными дисперсиями и математическими ожиданиями.

276 276 Грамматика содержит в себе последовательности слов, допустимые к произнесению: список слов, правила, фиксирующие допустимые сочетания слов, или языковая модель. Децибелл, Белл Уровень громкости звука. Пропорционален логарифму интенсивности, отнесенной к порогу слухового восприятия: E=a*lg(I/I0) Для оценки величины слухового ощущения используется величина, называемая «бел» (a=1). Эта величина соответствует десятикратному отношению интенсивностей, поэтому была введена более мелкая единица измерений децибел. Слуховое ощущение в децибелах определяется как: L=10*lg(I/I0). Дискретизация Процедура взятия мгновенных значений аналогового сигнала, называемых отсчетами, с интервалом времени, равным периоду дискретизации. Дискретное преобразование Фурье (ДПФ) Способ получения спектрального описания сигнала. Закон восприятия громкости человеком Основной психофизиологический закон Вебера-Фехнера. Согласно ему субъективные ощущения человека пропорциональны логарифму давления или интенсивности. Звук Упругие колебания, распространяющиеся в газовой, жидкой или твердой среде, при воздействии которых на слуховой анализатор, возникают слуховые ощущения. Изофоны Кривые равной громкости. Индексный файл Файл особого формата, содержащий информацию онайденных в звуковых данных ключевых словах. Квантование Преобразование аналогового сигнала в ступенчатый сигнал с двоичным отсчетом уровней в квантах. При квантовании производится округление входного сигнала квантователя к принятой двоичной шкале. Кластеризация Совокупность методов, обеспечивающих объединение нескольких статистических моделей в единый кластер.

277 277 Контекстный анализ Лингвистически мотивированный алгоритм, позволяющий определять морфологическую принадлежность слова в зависимости от контекста и тем самым разрешить Омонимию. Конфиденс, или уровень уверенности Величина, характеризующая степень достоверности результата распознавания. Маскировка Ухудшение слышимости одних звуков под влиянием других Мел Единица воспринимаемой высоты звука. Связь воспринимаемой высоты звука с частотой устанавливается экспериментально. Метрика Способ определения расстояния между параметрами входящего звукового потока и параметрами моделей звуков. Микрофон Устройство для преобразования акустических колебаний воздушной среды в электрические сигналы. Модели речевого мусора Описывают все слова, не являющиеся искомыми Модель пересылки маркера Один из современных алгоритмов, применяемых для распознавания речи, обеспечивает поиск оптимального пути в Фонетической сети с возможностью хранения нескольких результатов распознавания. Монофон Единица акустического моделирования, не привязанная к контексту. Наблюдение или вектор признаков Набор коэффициентов (MFC, PLP и т.д.), вычисленных для одного окна (как правило 25мс) аудиофайла. Нейронная сеть Разновидность верификатора, один из наиболее эффективных способов верификации. Обучение процесс оценки параметров HMM при Акустическом моделировании. Окно Фрагмент звукового сигнала определенной длительности. Омонимия Явление в языке, когда два разных слова пишутся одинаково. Например, замок и замок, пяток и пяток. Оценка правдоподобия Функция, оценивающая, насколько вероятен выбранный параметр для текущего события.

278 278 Параметры HMM Параметры гауссовских смесей и вероятности переходов состояний HMM. Производительность Системы Оценка Системы, характеризующая соотношение длительности обработанного аудио сигнала ко времени его обработки Распознавание речи Технология, позволяющая переводить речевые данные в текстовый вид. Распознавание слитной речи Перевод слитной речи в текст, например, распознавание новостных каналов или система диктовки. Речевой корпус Совокупность аудио данных и аннотаций к ним, используемая в качестве обучающей выборки для оценки параметров HMM. Решающее правило Порог отсечения результатов по уровню уверенности. Система записи Программно-аппаратный комплекс, осуществляющий запись речи в телефонном или IP-канале связи. Скрытые Марковские Модели Математический конструкт, являющийся базовым механизмом для Акустического моделирования. Словарь Лингвистическая база данных, позволяющая получить данные обо всех основных грамматических категориях слов. Словарь транскрипций Генерируемая Транскриптором структура, элементы которой описывают Транскрипции, соответствующие Словоформе. Словоизменительная парадигма Структура, однозначным образом определяющая правла генерации всех форм определенного слова. Включает указание основы слова, окончаний для всех его форм и место ударения в каждой из этих форм. Словоформа Слово в определенной грамматической форме (падеж, число и т.п.). Сон Единица шкалы громкости звука, выражающая непосредственную субъективную оценку сравнительной громкости чистого тона. Спектральное описание Один из способов параметрического представления сигнала, заключающийся в разложении сигнала по системе тригонометрических функций.

279 279 Транскрибирование текстов Перевод текстов из последовательности букв, специальных символов и цифр в Транскрипции. Транскриптор Программный компонент, осуществляющий автоматическое Транскрибирование текстов на определенном языке путем применения заранее заданных правил к текстам. Транскрипция последовательность графических символов, обозначающих Фонемы. Трифон Единица акустического моделирования, содержащая информацию о предшествующем и последующем звуках. Филлеры Модели заполнения, описывающие шумы и неречевые сигналы. Фильтр нижних частот (ФНЧ) Фильтр, пропускающий составляющие сигналов с частотой ниже некоторого значения, называемого частотой останова, и задерживает составляющие с частотой выше этого значения. Фон Единица шкалы громкости, позволяющая определять громкость одних звуков, относительно других, используемых в качестве опорных. Фонема Минимальная единица речи, потенциально связанная со смыслом. Фонетическая сеть базовая структура для распознавания содержит информацию о взаимосвязях между единицами акустического моделирования для конкретной грамматики. Фонетический поиск Подход к поиску ключевых слов, предполагающий построение для звуковых данных бинарного латтиса из фонем и дальнейший поиск слов по этому латтису. Частота дискретизации Частота взятия отсчетов непрерывного во времени сигнала при его дискретизации (в частности, аналого-цифровым преобразователем).

280 Использованная литература Алгоритмический язык АЛГОЛ-60. М., Анализатор качественных показателей передачи речи, DSLA II - Digital Speech Level Analyser [Электронный ресурс] / УП "ОПАТОВ" // Режим доступа: 3. В России заработал первый развлекательный голосовой портал с распознаванием русской речи [Электронный ресурс] / июнь 2004 // Режим доступа: 4. Компания Forte-IT при поддержке CompTek запускает первый в России голосовой портал с распознаванием русской речи [Электронный ресурс] / июнь 2004 // Режим доступа: 5. Методы автоматического распознавания речи / Пер. с англ. под ред. У. Ли., Москва, "Мир", Методы автоматического распознавания речи / Пер. с англ. под ред. У. Ли., Москва, "Мир", Пакет Программ для анализа, редактирования и цифровой обработки сигналов EDSW версия [Электронный ресурс] / Режим доступа: 8. Пат Российская Федерация, МПК G 10 L 19 / 14 ( ). Способ анализа и синтеза речи, Гусев М. Н., Дегтярёв В.М., Ситников В.В.; заявитель и патентообладатель Гусев М.Н /09; заявл ; опубл , Бюл. 9 2с : ил. 9. Пат Российская Федерация, МПК G 10 L 19 / 02 ( ), G10L15/00 ( ). Способ осуществления машинной оценки качества звуковых сигналов, Гусев М. Н., Дегтярёв В.М., Жарков И.В.; заявитель и патентообладатель Гусев М.Н /09; заявл ; опубл , Бюл. 34(ч.2) 2с : ил. 10. Пат Российская Федерация, МПК G 10 L 13 / 08 ( ), G 06 F 17 / 21 ( ). Способ предварительной обработки текста, Гусев М. Н., Егорова О.Б., Смирнов В.А.; заявитель и патентообладатель Общество с Ог-

281 281 раниченной Ответственностью "ВОКАТИВ" /09; заявл ; опубл , Бюл. 10 2с : ил. 11. Пат Российская Федерация, МПК G 10 L 15 / 14 ( ). Способ машинной оценки качества передачи речи, Гусев М. Н.; заявитель и патентообладатель Гусев М. Н /08; заявл ; опубл , Бюл. 33 2с : ил. 12. Пат Российская Федерация, МПК G 09 B 19 / 22 ( ). Устройство развивающей аудиоигры (варианты), Жарков И.В., Гусев М. Н., Ситников В. В.; заявитель и патентообладатель Жарков И. В., Гусев М. Н., Ситников В. В /22; заявл ; опубл , Бюл. 3(ч.2) 2с : ил. 13. Пат Российская Федерация, МПК G 10 L 21 / 00 ( ). Статистическая модель речи, Гусев М. Н., Жарков И.В., Ситников В.В.; заявитель и патентообладатель Гусев М. Н /22; заявл ; опубл , Бюл. 7(ч.2) 2с : ил. 14. Речь. Артикуляция и восприятие / Ленинград, Наука, Труды ВКАС, Л., 1951, вып. 29, Труды ВКАС, Л., 1952, вып Труды ВКАС, Л., 1954, вып Аведьян Э.Д. Автономные алгоритмы настройки нейронных сетей / Аведьян Э.Д., Коваленко М.Л., Цитоловский Л.Е., Цыпкин Я.З. // Тр. Международной конференции «Математика, компьютер, управление и инвестиции», М., Гарант, 1993, стр Аграновский А.В. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов / Аграновский А.В., Леднов Д.А. // Москва, «Радио и связь», Айвазян С.А. Прикладная статистика. Основы моделирования и первичная обработка данных / Айвазян С.А., Енюков И.С., Мешалкин Л.Д. // Москва, Финансы и статистика, 1983

282 Алдошина И. А. Музыкальная акустика. Учебник для ВУЗ / Алдошина И. А., Приттс Р. // СПб, «Композитор», Алдошина И. А. Основы психоакустики [Электронный ресурс] / Алдошина И. А. // E65http:// 23. Бабин Д.Н. О перспективах создания системы автоматического распознавания слитной устной русской речи / Бабин Д.Н., Мазуренко И.Л., Холоденко А.Б. // Интеллектуальные системы, т.8, вып. 1-4, 2004, стр Бабкин A.В. Особенности применения технологии TD-PSOLA для модификации характеристик вокальных аллофонов / Бабкин A.В. // Диалог Прикладные проблемы 25. Баранников В.А. Пакет программ построения систем распознавания речи / Баранников В.А., Кибкало А.А. // Труды III Всероссийской конференции "Теория и практика речевых исследований" АРСО Москва, МГУ им. М.В. Ломоносова, сентябрь 2003, стр Бовбель Е.И. Нейронные сети в системах распознавания речи / Бовбель Е.И., Паршин В.В. 27. Бондаренко И.Ю. Метод нечёткого сопоставления образов для распознавания русскоязычных команд управления текстовым редактором / Бондаренко И.Ю., Федяев О.И. // Сб. трудов I междунар. студ. научно-техн. конференции «Информатика и компьютерные технологии 2005». - Донецк: ДонНТУ, с. 28. Бондарко Л.В. Фонетика современного русского языка: Учебное пособие / Бондарко Л.В. // СПб., изд-во С.-Петербург. ун-та, Вемян Г.В. Передача речи по сетямэлектросвязи / Вемян Г.В. // М., "Радио и связь", Винцюк Т.К. Распознавание слов устной речи методами динамического программирования / Винцюк Т.К. // Кибернетика, 1968, 1, стр Вудс В.А. Сетевые грамматики для анализа естественных языков. / Вудс В.А. // Кибернетический сборник. Новая серия. - М.:Мир, вып. 13. Стр

283 Гуннар Ф. Акустическая теория речеобразования / Гуннар Ф. // под ред. В.А. Григоровича / Москва, "Наука", Гусев М. Н. AQuA-SE / Свидетельство о государственной регистрации программы для ЭВМ от Гусев М. Н. NIQA-SE / Свидетельство о государственной регистрации программы для ЭВМ от Гусев М. Н. PsyFilter / Свидетельство о государственной регистрации программы для ЭВМ от Гусев М.Н. Автоматизация аннотирования звуковых баз слитной речи / Гусев М.Н., Дегтярев В.М., Семенов Н.Н. // Труды учебных заведений связи, СПбГУТ. СПб, 2008, С Гусев М.Н. Выделение ключевых слов / Гусев М.Н., Дегтярев В.М. // Речевые технологии, Издательский дом "Народное образование", М., С Гусев М.Н. Детализация моделей звуков русской речи, учитывающих особенности артикуляции / Гусев М.Н., Дегтярев В.М., Семенов Н.Н. // Труды учебных заведений связи, СПбГУТ. СПб, 2008, С Гусев М.Н. Компьютерная статистическая модель русского языка / Гусев М.Н., Смирнов В.А., Дегтярев В.М. // Труды учебных заведений связи, СПбГУТ. СПб, С Гусев М.Н. Моделирование длительности звуков в системе распознавания речи / Гусев М.Н., Дегтярев В.М. // Вопросы радиоэлектроники, серия Общетехническая, 2010, вып. 2, стр Гусев М.Н. Оптимизация системы распознавания речи с учетом особенностей артикуляции / Гусев М.Н., Дегтярев В.М., Семенов Н.Н. // Труды учебных заведений связи, СПбГУТ. СПб, 2007, С Гусев М.Н. Оценка качества восстановленной и синтетической речи / Гусев М.Н., Дегтярев В.М. // Труды учебных заведений связи СПбГУТ / СПб., 2005, 172, стр.64 72

284 Гусев М.Н. Практическое применение статистической модели русского языка / Гусев М.Н., Дегтярев В.М., Смирнов В.А., Жарков И.В. // 58 научнотехническая конференция профессорско-преподавательского состава научных сотрудников и аспирантов. Санкт-Петербург, 2006, стр Гусев М.Н. Психоакустическая модель в системе распознавания речи / Гусев М.Н. // Системы управления и информационные технологии, 1(55), 2014, стр Гусев М.Н. Расчет и измерение качества речевых сигналов / Гусев М.Н., Дегтярев В.М. // Геликон Плюс, СПб., 2008, 275с 46. Гусев М.Н. Расширенная модель длительности звуков для системы распознавания речи / Гусев М.Н. // Современное машиностроение. Наука и образование: Материалы 3-й Междунар. науч.-практ. Конференции, Под ред. М.М. Радкевича и А.Н. Евграфова. СПб.: Изд-во Политехн. ун-та, С Гусев М.Н. Система распознавания речи: Основные модели и алгоритмы / Гусев М.Н., Дегтярев В.М. // ООО «К-8», СПб., Гусев М.Н. Увеличение производительности системы распознавания речи / Гусев М.Н., Дегтярев В.М. // Вопросы радиоэлектроники", серия Общетехническая, 2010, вып. 2, стр Джеймс Л. Фланаган Анализ, синтез и восприятие речи / Джеймс Л. Фланаган // Перевод с английского под ред. А.А. Пирогова, М. Связь, Иванов П. Измеряемый голос [Электронный ресурс] / Иванов П. // "Сети", "Открытые системы", Режим доступа: Киедзи Асаи Распознавание речи / Киедзи Асаи, Дзюндзо Ватада, Сокуке Иваи и др. // Прикладные нечеткие системы. Под редакцией Т.Тэрано, К.Асаи, М.Сугено. - М.: «Мир», с Ковалгин Ю.А. Цифровое кодирование звуковых сигналов / Ковалгин Ю.А., Вологдин Э.И. // КОРОНА принт / СПб 2004

285 Косарев Ю.А. Естественная форма диалога с ЭВМ / Косарев Ю.А. // Ленинград, "Машиностроение", Косарев Ю.А. Экспериментальное исследование алгоритмов нормализации темпа речи / Косарев Ю.А., Виноградов С.В. // Автомат. Распознавание слуховых образов: Тез. Докл. на 14 Всесоюз. Семинаре АРСО-14, Каунас, 1986, Ч.1, стр Криштоп А.В. Методы выделения основного тона речевого сигнала и способы его модификации / Криштоп А.В. // Материалы XXVI межвузовской научно-методической конференции преподавателей и аспирантов, выпуск 5, СПб., Кудрявцева М.П. Язык представления контекстных правил для частеречной разметки / Кудрявцева М.П. // СПбГУ, Филологический факультет, Дипломная работа, СПб., Кулагина О.С. Исследования по машинному переводу / Кулагина О.С. // М.: Наука, Мазуренко И.Л. Компьютерные системы распознавания речи / Мазуренко И.Л. // Интеллектуальные системы, т.3, вып. 1-2, Москва, 1998, стр Маркел Дж. Д. Линейное предсказание речи / Маркел Дж. Д., Грей А. Х. // Перевод с англ. под ред. Ю.Н. Прохорова и В.А. Звездина // М., Связь, Марков А.А. Об одном применении статистического метода / Марков А.А. // Доклад в Академии Наук от 17 февраля 1916 года 61. Марков А.А. Пример статистического исследования над текстом «Евгения Онегина», иллюстрирующий связь испытаний в цепь / Марков А.А. // Известия Академии наук. СПб. VI. Т С Митропольский А.К. Элементы математической статистики / Митропольский А.К. // Ленинград, ЛТА, Михайлов В.Г. Измерение параметров речи / Михайлов В.Г., Златоустова Л.В. // под редакцией Сапожкова М.А., Москва, "Радио и связь", 1987

286 Морозов М.Н. Курс лекций по дисциплине "Системы искусственного интеллекта" [Электронный ресурс] / Морозов М.Н. // Режим доступа: Мясников Л.Л. Звуки речи и их объективное распознавание / Мясников Л.Л. // Вестник ЛГУ. 1946, Нгуен М. Т. Обнаружение новых слов и невербальных событий при распознавании речи / Нгуен М. Т. // Модели, методы, алгоритмы и архитектуры систем распознавания речи, ВЦ РАН им. А.А. Дородницына, М., 2006, стр Обжелян Н.К. Машины, которые говорят и слушают / Обжелян Н.К. Трунин-Донской В.Н. // под. Ред. Ю.И. Журавлева, Кишинев "Штиинца", Покровский Н. Б. Расчет и измерение разборчивости речи / Покровский Н. Б. // М. Связьизтат, Ронжин А.Л. Автоматическое распознавание русской речи / Ронжин А.Л., Ли И.В. // Вестник РАН, том 77, 2, 2007, стр Ронжин А.Л. Речь и компьютер: XI Международная конференция / Ронжин А.Л. // Вестник РАН, том 76, 11, 2006, стр Сапожков М.А. Речевой сигнал в кибернетике и связи / Сапожков М.А. // Москва, "Связьиздат", Секунов Н.Ю. Обработка звука на PC / Секунов Н.Ю. // СПб., БХВ- Петербург, Сергиенко А.Б. Цифровая обработка сигналов / Сергиенко А.Б. // СПб.:Питер, Скрелин П.А. Сегментация и транскрипция / Скрелин П.А. // СПб, Скрелин П.А. Фонетические аспекты речевых технологий: Автореф. дис. : доктор. филолог. наук / Скрелин П.А. // СПбГУ - СПб, Смирнов В. А. Функция модуля акустического моделирования в системе автоматического анализа неструктурированной речевой информации / Смирнов В. А., Гусев М. Н., Фархадов М. П. // Управление большими системами. Выпуск 45. М.: ИПУ РАН, С

287 Смирнов В. Технология распознавания речи на службе корпоративных интересов / Смирнов В., Ермилов С. // "Директор по безопасности", 2010, 11, стр Смирнов В.А. Функция лингвистического процессора в системе автоматического анализа неструктурированной речевой информации / Смирнов В.А., Гусев М.Н., Фархадов М.П. // Автоматизация и современные технологии С Солонина А.И. Курс лекций: Основы цифровой обработки сигналов 2-е издание / Солонина А.И. Улахович Д.А., Арбузов С.М., Соловьева Е.Б. // СПб. БХВ-Петербург, Сорокин В.Н. Синтез речи / Сорокин В.Н. // Москва, "Наука", Сорокин В.Н. Теория речеобразования / Сорокин В.Н. // Москва, "Радио и связь", Степанова Г.Н. Физика: Учебник для 9 класса общеобразовательных учреждений / Степанова Г.Н. // СПб.: ООО "Валери СПД", Трунин-Донской В.Н. Опознание набора слов с помощью цифровой вычислительной машины / Трунин-Донской В.Н. // Работы по технической кибернетике, М., ВЦ АН СССР, 1967, стр Туркин В.Н. Распознавание речевых образов с использованием метода градиентного спуска / Туркин В.Н. // Автомат. Распознавание слуховых образов: Тез. Докл. на 13 Всесоюз. Семинаре АРСО-13, Новосибирск, 1984, стр Уоссерман Ф. Нейрокомпьютерная техника: теория и практика / Уоссерман Ф. // М. Мир, Фант Г. Акустическая теория речеобразования / Фант Г. // Пер. с англ., Москва, "Наука", Фельдкеллер Р., Цвикер Э. Ухо как приемник информации / Фельдкеллер Р., Цвикер Э. // Перевод с немецкого В. И. Кули и Е. Г. Семенова под ред. А. Ю. Лева, М. Связь, 1965

288 Фролов М.В. Алгоритм распознавания эмоциональных состояний дикторов по реализациям главноударных гласных звуков / Фролов М.В., Таубкин В.Л., Лужбин Н.А. // Речь, эмоции и личность, Ленинград, "Наука", 1978, стр Шарий Т.В. О проблеме параметризации речевого сигнала в современных системах распознавания речи / Шарий Т.В. // Вiсник Донецького нацiонального унiверситету, Сер. А: Природничi науки, 2, Cognitive Technologies [Электронный ресурс] / Режим доступа: Copernicus RELATOR [Электронный ресурс] / Режим доступа: Dragon NaturallySpeaking Preferred [Электронный ресурс] / Режим доступа: EAGLES. «Handbook of Standards and Resources for Spoken Language Systems» / Ed. by Gibbon D., Moore R., Winski R. Berlin: Mouton de Gruyter, ELSNET Home Page [Электронный ресурс] / Режим доступа: European Language Resources Association [Электронный ресурс] / Режим доступа: INTEL [Электронный ресурс] / электронный источник ITU-T coded-speech database [Электронный ресурс] / Supplement 23 to ITU- T P-series Recommendations // Режим доступа: P.Sup I/en 98. ITU-T Rec. G Annex B: "A silence compression scheme for G.729 optimized for terminals conforming to Recommendation V.70", ITU-T Rec. G.723 "Dual Rate Speech Coder for Multimidia Communications Transmitting at 5.3 and 6.3 kbit/s ", Kohonen SelfOrganization and Associative Memory, Third Edition, Springer- Verlag, New York, 1989

289 LDC - Linguistic Data Consortium, Linguistic Resources [Электронный ресурс] / Режим доступа: Methods for subjective determination of transmission quality [Электронный ресурс] / ITU-T Recommendation P.800 // Режим доступа: Objective quality measurement of telephone-band ( Hz) speech codecs [Электронный ресурс] / ITU-T Recommendation P.861 // Режим доступа: OPERA Voice/Audio Quality Analyzer - The Objective Perceptual Signal Quality Analyzer setting the Standards [Электронный ресурс] / OPTICOM // Режим доступа: Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs / ITU-T Recommendation P.862 // Режим доступа: Single-ended method for objective speech quality assessment in narrow-band telephony applications [Электронный ресурс] / ITU-T Recommendation P.563 / электронный источник Subjective performance assessment of telephone-band and wideband digital codecs / ITU-T Recommendation P.830 // Режим доступа: Anil K. Jain Artificial Neural Networks: A Tutorial / Anil K. Jain, Jianchang Mao, K.M. Mohiuddin // Computer, Vol.29, No.3, March/1996, pp Bahl L.R. Perplexity A measure of the difficulty of speech recognition tasks / Bahl L.R., Baker J.K., Jelinek F., Mercer R.L. // J. Acoust. Soc. Amer. Vol. 62. P. S Suppl Bekesy G. Experiments in Hearing / Bekesy G. // New York : McGraw-Hill Book Co., Bekesy G. Shearing Microphonics Produced by Vibrations Near the Inner and Outer Hairs Cells / Bekesy G. // J. Acoust. Soc. Am. 25, pp , 1953

290 Bourlard H. Connectionist Speech Recognition. A Hybrid Approach / Bourlard H., Morgan N. // The Kluwer International Series in Engineering and Computer Science, Vol. 247, Kluwer Academic Publishers, Boston, Bourlard H. Continuous speech recognition by connectionist statistical methods / Bourlard H., Morgan N. // IEEE Transaction on Neural Networks Vol. 4. No. 6. pp Bourlard H. Links Between Markov Models and Multilayer Perceptrons / Bourlard H., Wellekens C. // IEEE Transactions on Pattern Analysis and Machine Intelligence Vol. 12. No. 12. pp Bruno Daniel M.L. Characterisation of noisy speech channels in 2G and 3G mobile networks // Master Thesis to obtain the degree of master at the Instituto Superior de Engenharia do Porto, 2013 / электронный источник Carlsson R. Some notes on the perception of temporal pattern in speech / Carlsson R., Grantstrom B., Klatt D. H. // Frontiers of speech communications research / New York, Academic Press, 1979, p Carpenter G.A. Pattern Recognition by SelfOrganizing Neural Networks / Carpenter G.A., Grossberg S. // MIT Press, Cambridge, Mass., Charpentier F. Diphone Synthesis Using an Overlap-Add Technique for Speech Waveforms Concatenation / Charpentier F., and Stella M.G. // Proceedings of the International Conference on Acoustics, Speech, and Signal Processing, Charpentier F. Pitch-synchronous waveform processing techniques for textto-speech synthesis using diphones / Charpentier F., Moulines E. // Eurospeech, Chomsky N. Syntactic Structures. / Chomsky N. // Den Haag: Mouton, (Русский перевод: Хомский Н. Синтаксические структуры, Новое в лингвистике. М., Вып. 2) 121. Cooley J.W. An algorithm for the machine computation of complex Fourier series / Cooley J.W., Tukey J.W. // Math. Comp., V.19, April 1965, pp

291 Cooper W. E. Syntactic control of speech timing / Cooper W. E. // Ph. D. Thesis, MIT, Davis H. A Mechano-electrical Theory of Cochlear Action / Davis H. // Ann. Otol. Rhinol and Laryngol, 67, pp , Davis H. Chapter 28 in Handbook of Experimental Psychology / Davis H. // ed. S.S. Stevens / New York, John Wiley and Sons, Davis K.H. Automatic recognition of spoken digits / Davis K.H., Bidulph R., Balachek S. // JASA, 1952, Vol.24, 6, pp Degtyarev V.M. Preparation of sound base for a text-to-speech synthesis system / Degtyarev V.M., Gusev M.N. // in Eighth International Workshop on Nondestructive Testing and Computer Simulation Science and Engineering, edited by Alexander I. Melker. Proceedings of SPIE Vol. 5831, (SPIE, Bellingham, WA, 2005) p Dempster A.P. Maximum likelihood from incomplete data via the EM algorithm / Dempster A.P., Laird N.M., and Rubin D.B. // J. Roy. Stat. Soc Vol. 39, No. 1. pp Dolanscy L. On Certain Irregularities of Voiced Speech Waveforms / Dolanscy L. // IEEE J., 1968, AU-16, 1, pp Dudley H. Automatic recognition of phonetic - patterns in speech / Dudley H., Balachek S. // JASA, 1958, Vol.30, 8, pp Dutoit T. On the Ability of Various Speech Models to Smooth Segment Discontinuities in the Context of Text-to-Speech Synthesis by Concatenation / Dutoit T. // Proceedings of Eusipco, Dutoit T. Аn Introduction to Text-to-Speech Synthesis / Dutoit T. // Dordrecht-Boston-London, Fletcher H. Speech and hearing in Communication / Fletcher H. // New-York, Van Nostrand Co., Fortuna L. Improving back-propagation learning using auxiliary neural networks / Fortuna L., Geaziani S., Presti M.L., Muscato G. // Int. J. Control, 1992, v.55, 4, pp

292 Franzini M.A. Connectionist Viterbi training: a new hybrid method for continuous speech recognition / Franzini M.A., Lee K.F., Waibel A. // IEEE ICASSP 1990, pp Gay T. Mechanisms in the control of speech rate / Gay T. // Phonetica, 1981, V38, 1, pp Gori M. BPS: a learning algorithm for capturing the dynamical nature of speech / Gori M., Bengio Y., R. De Mori // Proceedings of the International Joint Conference on Neural Networks, Washington, DC, IEEE, New York, 1989, pp Gusev M.N. About a method of preprocessing of sound base / Gusev M.N., Degtyarev V.M., Sitnikov V.V. // Proceedings of SPAS Vol.9 Ninth International Workshop on New Approaches to High-Tech: Nondestructive Testing and Computer Simulation in Science and Engineering, edited by Alexander I. Melker, 2005, pp Gusev M.N. On a method of preprocessing of sound base / Gusev M.N., Degtyarev V.M. // in Ninth International Workshop on Nondestructive Testing and Computer Simulation Science and Engineering, edited by Alexander I. Melker. Proceedings of SPIE Vol. 6253, (SPIE, Bellingham, WA, 2006) 62530Q 139. Gusev M.N. Physical properties modification of speech signals fragments / Gusev M.N. // New Approaches to High-Tech: Nondestructive Testing and Computer Simulations in Science and Engineering, Preprints and Program St.Peterburg, Russia, 2003 (p. F5-F7) 140. Gusev M.N. Physical properties modification of speech signals fragments / Gusev M.N. // New Approaches to High-Tech: Seven International Workshop on Nondestructive Testing and Computer Simulations in Science and Engineering, St.Peterburg, Russia, 2003 (p ) 141. Haffner P. Integrating time alignment and neural networks for high performance continuous speech recognition / Haffner P., Franzini M.A., Waibel A. // IEEE ICASSP pp

293 Hazen T.J. Recognition Confidence Scoring and It's Use in Speech Understanding Systems / Hazen T.J., Seneff S., Polifroni J. // Computer Speech and Language, Hermansky H. Linear Predictive (PLP) Analysis of Speech. / Hermansky H. // The Journal of the Acoustical Society of America, 1990, 87(4), pp Hertz J. Introduction to the Theory of Neural Computation / Hertz J., Krogh A., Palmer R.G. // Addison-Wesley, Reading, Mass., Hiramatsu K. A spoken digit recognition system / Hiramatsu K., Kotoh K. // VI International Congress on Acoustics, Tokio, D-3-4, Hopfield J.J. Neural Networks and Physical Systems with Emergent Collective Computational Abilities / Hopfield J.J. // in Proc. National Academy of Sciencies, USA 79, 1982, pp Huang X. Spoken Language Processing: A guide to theory, algorithm, and system development / X.Huang, A.Acero, H.Hon // Prentice Hall, Kanevsky D. Large Vocabulary Speaker-Independent Continuous Speech Recognition in Russian Language / Kanevsky D., Monkowski M., Sedivy J. // Proc. International Workshop SPECOM'96, St.-Petersburg, Russia, 1996, рр Kanevsky D. Large Vocabulary Speaker-Independent Continuous Speech Recognition in Russian Language / Kanevsky D., Monkowski M., Sedivy J. // Proc. International Workshop SPECOM'96, St.-Petersburg, Russia, 1996, рр Kemp T. Estimating confidence using word lattices / Kemp T., Schaaf T. // Eurospeech-97, Klatt D. H. A strategy for the perceptual interpretation of durational cues in English sentences / Klatt D. H. // Working Papers, MIT, Speech Communication Group, V.1, 1982, p Klatt D. H. Synthesis by rule of segmental durations in English sentences / Klatt D. H. // Frontiers of speech communications research / New York, Academic Press, 1979, p

294 Klatt D.H. Software for a cascade/parallel formant synthesizer / Klatt D.H. // JASA. 1980, V.67. P Lafferty J. D. Grammatical trigrams: A probabilistic model of link grammar / Lafferty J. D., Sleator D., Temperley D. // in Proc. AAAI Fall Symp. Probabilistic Approaches to Natural Language, Cambridge, MA, Oct Levin E. Word recognition using hidden control neural architecture / Levin E. // IEEE ICASSP Levinson S.E. An introduction to the application of the theory of probabilistic function of a Markov process to automatic speech recognition / Levinson S.E., Rabiner L.R., and Sondhi M.M. // Bell Syst. Tech. Journal, Apr Vol. 62, no.4, pp Liberman A. M. Studies in Speech, Hearing and Communications / Liberman A. M., Stevens K. N., Hayes J. R. M. // Final report, Contract W ac -14 / September 30, 1954, Acoustics Lab. Mass. Inst. of Tech. Cambridge, Mass Lindblom B. Durational patterns of Swedish phonology: do they reflect shortterm motor memory process? / Lindblom B., Lyberg B., Holmgren K. // Rep. Stockholm Univ, Lippman R.P. Review of neural networks for speech recognition / Lippman R.P. // Neural Computation, 1991, vol.1, 1, pp Mathan L. Rejection of Extraneous Input in Speech Recognition Applications, Using Multi-Layer Perceptrons and The Trace of HMMs / Mathan L., Miclet L. // Proc. of International Conference on Acoustics, Speech and Signal Processing, McCullagh P. Generalized Linear Models / McCullagh P., Nelder J. A. // London: Chapman and Hall, McCulloch W.S. A logical Calculus of Ideas Immanent in Nervous Activity / McCulloch W.S., Pitts W. // Bull. Mathematical Biophysics, Vol. 5, 1943, pp Mitnsky M. Perceptrons: An Introduction to Computational Geometry / Mitnsky M., Papert S. // MIT Press, Cambridge, Mass., 1969

295 Morgan N. Continuous speech recognition using multilayer perceptrons with hidden Markov models / Morgan N., Bourlard H. // ICCASP 1990, pp Morgan N. Continuous speech recognition using multilayer perceptrons with hidden Markov models / Morgan N., Bourlard H. // ICCASP 1990, pp Morgan N. Neural networks for statistical recognition of continuous speech / Morgan N., Bourlard H. // Proceedings of the IEEE. Concepts and Theory, May 1995, vol.83, pp Niles L.T. Combining hidden Markov models and neural networks classifiers / Niles L.T., Silverman H.F. // IEEE ICASSP pp Nishinuma J. Prediction of phoneme duration by a distinctive feature matrix / Nishinuma J. // J. Phonetics, 1984, 12, pp P.A. Luce Capacity demands in short-term memory for synthetic and natural word lists / P.A. Luce, T.C. Feustel, and D.B. Pisonu // Human Factors, V.25, 1983, p Pierce J. R. Information Rate of a Human Channel / Pierce J. R., David E. E., Karlin J. E. // Proc. I.R.E. 45, 368, Rabiner L. Fundamental of Speech Recognition / Rabiner L., Juang B.H. // PTR Prentice Hall Englewood Cliffs, New Jersey 07632, Rabiner L.R. A tutorial on hidden Markov models and selected application in speech recognition / Rabiner L.R. // Proceedings of the IEEE, 1989, Vol. 77, 2. pp (Русский перевод: Рабинер Л.Р. Скрытые Марковские модели и их применение в избранных приложениях при распознавании речи / Рабинер Л.Р. // Обзор. ТИИЭР Т , стр ) 173. Rahim M.R. Artificial Neural Networks for Speech Analysis/Synthesis / Rahim M.R. // Chapman&Hall, Reddy D.R. Segmentation of Speech Sounds / Reddy D.R. // J. Acoust. Soc. America, 40, pp , Richard M.D. Neural network classifiers estimate Bayesian a posteriori probabilities / Richard M.D., Lippmann R.P. // Neural Computation, No. 3. pp

296 Robinson T. The use of recurrent neural networks in continuous speech recognition / Robinson T., Hochberg M., Renals S. // In: C.H. Lee, F.K. Soong, K.K. Paliwal (Eds), Automatic Speech and Speaker Recognition: Advanced Topics, The Kluwer International Series in Engineering and Computer Science, Kluwer Academic Publishers, Boston, USA Rosenblatt F. Principles of Neurodynamics / Rosenblatt F. // Spartan Books, New York, (Русский перевод: Розетблатт Ф. Принципы нейродинамики (перцептрон и теория механизмов мозга) / Розетблатт Ф. // М.: Мир, с) 178. Sankar K. Pal Multilayer Perception, Fuzzy Sets, and Classification / Sankar K. Pal, Sushmita Mirta Multilayer // IEEE Transactions on Neural Networks, v3, 5, 1992, pp Shannon C. E. The mathematical Theory of Communication / Shannon C. E., Weaver W. // Urbana, University of Illinois, Sleator D. Parsing English with a link grammar / Sleator D., Temperley D. // Computer Science Dept., Carnegie-Mellon Univ., Pittsburgh, PA, Tech. Rep. CMU-CS , Oct Smirnov V. A. Objective method of speech signal quality estimation / Smirnov V.A., Gusev M.N. // Proceedings of the 11-th International Conference "Speech and Computer" SPECOM'2006.-St.Petersburg, Anatolya Publishers, 2006, pp Smirnov V.A. Objective method of speech signal quality estimation / Valentin A. Smirnov, Mikhail N. Gusev // Proceedings of the 11-th International Conference "Speech and Computer" SPECOM'2006.-St.Petersburg, Anatolya Publishers, 2006, pp Sukar R.A. frejection for Connected Digit Recognition Based on GPD Segmental Discrimination / Sukar R.A. // IEEE Proc. ICASSP, Vicens P. J. Aspects of Speech Recognition by Computer / Vicens P. J. // Ph.D. dissertation, Stanford University, Stanford, 1969

297 Windmann S. Approaches to Iterative Speech Feature Enhancement and Recognition / Stefan Windmann and Reinhold Haeb-Umbach //, IEEE Transactions On Audio, Speech, And Language Processing, Vol. 17, No. 5, July Young S. The HTK Book (for HTK Version 3.4) [Электронный ресурс] / Young S., Evermann G., etc. // Cambridge University Engineering Department, 2006 // Режим доступа: Young S.J. Token Passing: a Conceptual Model for Connected Speech Recognition Systems / Young S.J., Russell N.H., Thornton J.H.S. // CUED Technical Report F INFENG/TR38, Cambridge University, Zawislocki J. Some Impendance Measurements on Normal and Pathological Ears / Zawislocki J. // J. Acoust. Soc. Am. 29, pp , Zhang R. Word Level Confidence Annotation Using Combinations of Features / Zhang R., Rudnicky A. I. // Proc. of 7 European Conference on Speech Communication and Technology, 2001

298 298 Приложение 1. Дополнения к главе 1 Способы вычисления признаков Спектральное описание Одним из основных способов параметрического представления сигнала является спектральное описание. Идея заключается в разложении речевого сигнала по определенной системе тригонометрических функций. Для примера приведем спектральную форму представления сигнала в широко распространенном звуковом редакторе CoolEdit (рисунок п.1.1). Рисунок п.1.1 Пример спектрального представления сигнала Обычно разложение сигнала в спектр осуществляется с помощью полосовой фильтрации или дискретного преобразования Фурье (ДПФ) и его модификаций. ДПФ периодической последовательности x p (n) называется пара взаимно однозначных дискретных рядов Фурье для последовательностей во временной и частотной областях [79]: - прямое преобразование: X p N 1 = n= 0 2π j nk N ( k) x ( n) e, k = 0,1,..., N 1; (п.1.1) p - обратное преобразование x p 1 1 N N k= 0 ( n) = X ( k ) p e 2π j nk N, n = 0,1,..., N 1, где (п.1.2)

299 299 X p ( k), k = 0,1,..., N 1 дискретные коэффициенты Фурье один период спектра; x p ( n), n = 0,1,..., N 1 один период последовательности во временной области. Физический смысл ДПФ заключается в представлении дискретного сигнала в виде суммы гармоник. Параметры гармоник вычисляются прямым преобразованием, а сумма гармоник обратным. ДПФ требует значительных вычислительных ресурсов, поэтому применяют алгоритм быстрого преобразования Фурье (БПФ). БПФ - это оптимизированный по скорости способ вычисления ДПФ. Основная идея заключается: в многократном разбиении суммы из N слагаемых на две суммы по N/2 слагаемых, и вычислении их по отдельности. Разбиение производится до тех пор, пока количество слагаемых не будет равно двум; в повторном использовании уже вычисленных подсумм. Применяют либо «прореживание по времени» (когда в первую сумму попадают слагаемые с четными номерами, а во вторую с нечетными), либо "прореживание по частоте" (когда в первую сумму попадают первые N/2 слагаемых, а во вторую все остальные). Оба варианта равноценны. Видно, что быстрый алгоритм применим к последовательностям, с длинами, являющимися степенью двойки. Вычислительная сложность алгоритма БПФ составляет порядка Nlog 2 N, в то время как полный алгоритм ДПФ требует порядка N 2 вычислений. Алгоритм БПФ был впервые опубликован в 1965 году в статье Кули (Cooley) и Тьюки (Tukey) [121]. Исследуемый (используемый) частотный диапазон зависит от конкретного приложения. Так, например, в системах диктовки, ориентированных на работу с персональным компьютером, речевой сигнал анализируют в полосе частот от 50Гц до 12кГц. В телекоммуникационных приложениях частотный диапазон сужается до Гц.

300 300 Впервые попытка распознавания фонем спектральными методами была сделана Л.Л. Мясниковым [65]. В приборе Мясникова речевой сигнал подавался на гребенку из 18 полосовых фильтров. Сигналы сравнивались попарно в определенном порядке. В зависимости от соотношений признаки принимали значения +, - и 0. Полученная комбинация значений признаков приводила к срабатыванию реле, соответствующего звуку. Гласные и согласные классифицировались раздельно. Наилучшая точность на гласных составляла 80%, однако, общая точность распознавания была недостаточной для практического применения прибора. Кепстральные коэффициенты Часто в системах распознавания речи используется кепстральное преобразование сигнала. Мел-частотные кепстральные коэффициенты (MFCC) используются в качестве параметров речевого сигнала. MFCC получают путем последовательного применения к анализируемому отрезку сигнала следующих операций: 1. С помощью дискретного преобразования Фурье (п.1.1) получают спектр исходного сигнала; 2. Спектр сигнала переносят в мел-шкалу с использованием окон, равномерно расположенных по мел-оси. Оконная функция имеет вид: 0 k < f ( m 1) k f ( m 1) f ( m 1) k < f ( m) f ( m) f ( m 1) H m = f ( m + 1) k, где (п.1.3) f ( m) k f ( m + 1) f ( m + 1) f ( m) 0 k > f ( m + 1) f N F 1 ( m) = B B( f ) s l B + m ( fh ) B( fl ), (п.1.4) M + 1 B ( f ) и B 1 ( b), функции преобразования частоты в мел-шкалу и обратно. Для решения задач распознавания речи часто используют следующие приближенные формулы:

301 301 ( ) f B f = 1125ln 1 + (п.1.5) 700 b 1 B (п.1.6) ( b) = 700 e Вычисляют энергию сигнала в окнах: S N = k = 1 2 ( m) ln X p ( k) H m( k), 0 m < M. (п.1.7) 0 4. К полученным значениям энергии применяют дискретное косинус преобразование Фурье: c M = 1 m= 0 ( n) S( m) ( m 1 ) π n + cos M 2, 0 n < M. (п.1.8) В результате получают «спектр спектра» - значения MFCC. Кепстральные коэффициенты считаются более эффективными, чем коэффициенты БПФ, с точки зрения приведенных выше требований. Для одной и той же подробности описания их число значительно меньше числа коэффициентов спектра БПФ, дикторозависимые составляющие нивелированы в результате сглаживания спектра, а информация сжата за счет приведения спектра к логарифмической шкале частот. Для параметрического описания сигнала используют 13 и более первых коэффициентов MFCC. Обычно вместе с кепстральными коэффициентами в систему признаков включают их первую и вторую производные для учета изменения признаков во времени. PLP-коэффициенты Для учета свойств восприятия звука человеком используются специальные алгоритмы вычисления признаков. В результате работы одного из та-

302 302 ких алгоритмов получают так называемые PLP-коэффициенты (Perceptual Linear Prediction). Вычисление PLP коэффициентов создано для того, чтобы учитывать такие психоакустические явления, как критические полосы частот (перевод в шкалу барк), эффект маскировки, кривые равной громкости, а также психофизиологический закон восприятия громкости. Особенностью алгоритма PLP является то, что в нем перед вычислением параметров авторегрессионной модели сигнал проходит специальную предобработку [89, 143]. Алгоритм включает следующую последовательность действий: 1. Вычисляется спектр сигнала в текущем фрейме с помощью преобразования Фурье; 2. Спектр переводится в шкалу барк и выполняется операция свертки маскирующих кривых критических полос с полученным спектром для получения эффекта маскировки частоты; 3. Громкость звука пересчитывается по шкале равной громкости для аппроксимации уровня чувствительности человека; 4. Из спектральных коэффициентов извлекается кубический корень; 5. Вычисляются р коэффициентов { a } p k k = 1 авторегрессионной модели для каждого фрейма на основе модели: ) S ( z) = p 1 A k = 1 a k z k. (п.1.9) 6. Вычисляются кепстральные коэффициенты по рекурсивной функции:

303 303 c ( n) 0 log ( ) e A = n 1 an + k = 1 n 1 k c k = n p n k n c ( k) ( k) a a n k n k n < 0 n = 0 0 < n < n p p (п.1.10) Преимуществом метода PLP по сравнению с кепстральными коэффициентами линейного предсказания является то, что он позволяет подавить информацию, связанную с индивидуальными характеристиками диктора [89, 147]. Тем не менее, данный метод более чувствителен к частоте основного тона. Автокорреляционная функция Иногда параметры речевого сигнала определяют через автокорреляционную функцию, связанную со спектром сигнала. Вычисляя автокорреляцию на фреймах длительностью мс, пытаются получить описание сигнала, адекватное артикуляционным процессам. Для расчетов используют выражение вида: B ( ) i = N i t= 1 N i 1 x t x t x t значения отсчетов сигнала; N количество отсчетов в исследуемом фрейме. + i, где (п.1.11) Варьируя i, получают набор значений автокорреляционной функции, используемый в качестве акустических параметров сигнала. Коэффициенты линейного предсказания Метод наименьших квадратов был предложен Гауссом еще 1795 году; термин «линейное предсказание» был введен Винером в 1949 году; впервые

304 304 для обработки речевых сигналов этот метод был применен Итакурой и Саито. Основная идея линейного предсказания речи заключается в том, что последующие отсчеты сигнала определяют как линейную комбинацию предыдущих отсчетов. Пусть у нас есть последовательность отсчетов сигнала x(n) и некоторый трансверсальный фильтр порядка М, с импульсной характеристикой A(z), временные отсчеты которого обозначим как a i [59]. Тогда результат фильтрации может быть записан следующим образом: e M M = i i= 0 i= 1 ( n) a x( n i) = x( n) + a x( n i) = xˆ( n) x( n). (п.1.12) i Таким образом, xˆ ( n) является оценкой величины x (n), полученной по значениям предыдущих отсчетов, а e(i) - значением ошибки предсказания. Возникает задача минимизации ошибки, путем определения оптимальной комбинации коэффициентов a i. В качестве критерия оптимальности используется сумма квадратов величин ошибки на некотором интервале. Тогда значение оптимизируемой величины записывается в следующем виде: n α = e ( n) = a x( n i) = a x( n i) x( n j) a, где (п.1.13) n= n n M i 0 n= n0 i= 0 n= n0 i= 0 j = 0 n0 и n1- границы интервала анализа. 2 n M M i j Введя обозначение: n c = 1 x( n i) x( n j) (п.1.14) ij n= n 0 перепишем выражение среднеквадратической погрешности следующим образом:

305 305 M M ( ai cij a j ) α =. (п.1.15) i= 0 j = 0 Дифференцирование (п.1.15) по a k приводит к системе линейных уравнений, решение которой дает оптимальный набор коэффициентов фильтра. Учитывая, что a 0 = 1, получаем следующую систему уравнений: M ai cij = c0k i= 1, k = 1, 2, M. (п.1.16) Для решения системы уравнений (п.1.16) может быть использован либо ковариационный, либо автокорреляционный метод. Оба метода дают близкие результаты, но автокорреляционный метод применяется чаще, благодаря простоте математического аппарата. Найденные коэффициенты предсказания используют в качестве акустических параметров речевого сигнала. КЛП-модель речевого сигнала хороша тем, что согласуется с представлением речевого тракта в виде многополюсного резонатора. Формантный анализ Акустическая теория речеобразования [86] утверждает, что восприятие звуков определяется формантами, представляющими собой области максимальной концентрации энергии в спектре сигнала. В каждом звуке речи может быть выделено до 5 формант. Все форманты характеризуются частотой и амплитудой. Дальнейшая детализация характеристик формант различается в зависимости от типа звука (гласный, глухой/звонкий согласный). Диапазоны формантных частот представлены в таблице п.1.1:

306 306 Таблица п.1.1 Диапазоны формантных частот Тип звука Первая Вторая Третья (анти) форманта, Гц форманта, Гц форманта, Гц Гласный Звонкий согласный Глухой согласный Считается, что соотношения между формантными частотами оказываются постоянными для звуков речи, хотя сами частоты формат изменяются от диктора к диктору. Формантный анализ заключается в выявлении формат и построении их трасс. К сожалению, создание стабильного алгоритма представляет собой сложную задачу из-за высокой неопределенности фиксации частотных максимумов. По этой причине формантный анализ не получил широкого распространения в системах распознавания речи. Нули интенсивности и кратковременная энергия В ранних работах по распознаванию речи часто использовались нули интенсивности, определяемые как количество переходов интенсивности сигнала через ноль в заданном временном интервале [174, 184]: 1 1 N 2 k = 1 Z = sign( x ) sign( ), sign ( x) =. (п.1.17) k x k 1 1, 1 x 0 x < 0 Вместе с нулями интенсивности часто используется кратковременная энергия сигнала: E = 1 N N 2 x k k = 0. (п.1.18) Нули интенсивности и кратковременная энергия также используются для сегментации звукового потока на речь и паузы. Популярность признаков объясняется только простотой реализации.

307 307 Алгоритм обратного распространения ошибки BP-алгоритм это градиентный алгоритм оптимизации, минимизирующий функцию сходимости между желаемыми и получаемыми выходами сети. Цель обучения заключается в определении весов связей между нейронами, обеспечивающих желаемое соотношение входа и выхода. Обучение начинается с произвольного выбора начальных значений весовых коэффициентов. Далее на сеть итерационно подаются входной и целевой вектора. Сеть выполняет отображение входного вектора в выходной, после чего вычисляется ошибка отображения. Согласно методу наименьших квадратов, минимизируемую целевую функцию ошибки можно определить как (п.1.19): E 1 ( N ) ( w) = ( y jp d ) 2 j, p jp 2, где (п.1.19) ( N ) y jp реальное выходное состояние нейрона j, выходного слоя N при подаче на входы нейронной сети p-го образца; d jp целевое состояние нейрона j. Суммирование выполняется по всем нейронам выходного слоя на всей обучающей выборке. Минимизация выполняется методом градиентного спуска. Величина подстройки определяется соотношением: n E wij = η, где (п.1.20) w w ij весовой коэффициент связи i-го нейрона (n-1) слоя с j-тым нейроном слоя n; η коэффициент скорости обучения, выбираемый в интервале 0 < η < 1. ij Согласно [178] значение производной ошибки определяется как:

308 308 E w ij E = y j y s j j s j w ij, где (п.1.21) y j выход j-го нейрона; s j взвешенная сумма входных сигналов. Поскольку в выражении (п.1.21) присутствует производная активационной функции, сама активационная функция должна быть определена на всей оси абсцисс. Следовательно, функции единичного скачка и прочие функции с неоднородностями не могут использоваться в качестве активационных при данном подходе к обучению. Обычно используется классический сигмоид (1.16) или гиперболический тангенс. В случае последнего: y s = 1 s 2. (п.1.22) Третий множитель в (п.1.21) равен выходу нейрона предыдущего слоя n 1 y i, а первый раскладывается следующим образом [178]: E E yk sk E yk n+ = = w 1 jk. (п.1.23) y y s y y s j k k k j k k k Суммирование выполняется по нейронам слоя (n+1). Введя переменную: E y n j δ j =, (п.1.24) y j s j получаем рекурсивную формулу для расчетов n δ jпо значению на старшем n+ 1 слое δ : j

309 = 309 y n n+ n+ 1 j δ j δ 1 j wjk. (п.1.25) k s j N Для выходного слоя значение δ j определяется как: N ( y d ) y N j δ j = j j. (п.1.26) s j Теперь (п.1.20) можно переписать в виде рекуррентного соотношения: w n ij n = η δ y. (п.1.27) j n 1 i Использование градиентного метода для обучения нейронной сети гарантирует достижение только локального минимума на поверхности целевой функции. Вполне возможно, что глобальный минимум может оказаться довольно далеко от локального. Выход из окрестности локального минимума при использовании простого алгоритма наискорейшего спуска невозможен. Проблема решается за счет использования обучения с моментом [173], когда процесс модификации весов определяется не только информацией о градиенте функции ошибки, но и фактическим трендом изменений весов. В этом случае модифицированное соотношение для расчета весов может быть записано следующим образом: w µ коэффициент инертности; t номер текущей итерации. n ij [ ] n n n 1 ( t) = η µ w ( t 1) + ( 1 µ ) δ y, где (п.1.28) ij j i Теперь все необходимые соотношения определены и можно описать полный алгоритм обратного распространения [178].

310 На вход нейронной сети подается вектор из обучающего множества. Рассчитываются уровни активации нейронов: s n j = M 0 i= 0 M n 1 i= 0 1 xiwij, n = 1 n 1 n y w n = N i ij, 2... M 0 размерность вектора признаков; M n-1 число нейронов в слое n-1. n n, f ( s ) y =, где (п.1.29) n 2. По предложенным выше формулам, рассчитываются значения δ j и n w ij для всех слоев сети. 3. Корректируются веса связей нейронной сети: w n ij j j n n ( t) = w ( t 1 ) + w ( t). (п.1.30) ij 4. Вычисляется величина ошибки. Если она превышает заданный порог, то обучение продолжается от пункта 1. Если нет обучение завершается. От качества обучения сети зависит ее способность решать поставленные задачи в процессе эксплуатации. Необходимо отметить, что приведенный алгоритм обучения имеет два серьезных недостатка: 1. в процессе обучения возможна ситуация, когда активационная функция попадает в область насыщения, что приводит к остановке обучения; 2. метод градиентного спуска не гарантирует нахождения глобального минимума. В [133, 173] подробно описаны алгоритмы, модифицирующие процедуру обратного распространения ошибки, выбор оптимального шага и правила коррекции параметров сети. В [18] описаны «автономные алгоритмы», выполняющие настройку нейронной сети без использования процедуры обратного распространения ошибки. Описываемые алгоритмы являются структурно независимыми и имеют низкую вычислительную сложность, но обеспечиваемое качество обучения ниже, чем у алгоритма обратного распространения ошибки. ij

311 311 Оценивание параметров HMM Рассмотрим в упрощенном виде основную идею рекуррентной процедуры оценивания параметров HMM Баума-Уэлша, также именуемой ЕМметод (метод математического ожидания-модификации [127]). Для простоты предположим, что используются непрерывные плотности распределения. В большинстве систем распознавания речи, основанных на HMM, и работающих с непрерывными плотностями, распределения описываются гауссовскими смесями плотностей (Gaussian Mixture Densities). В некоторых системах [186] допускается разделение векторов параметров на несколько независимых потоков данных. В этом случае формула расчета b j (o t ) принимает вид: b j S M s ( ot ) = c jsmn( ost µ jsm, jsm ) s 1 m= 1 γ s ;, где (п.1.31) o t = {o 1t, o st } наблюдение в момент времени t; S количество независимых потоков данных; M s число смешиваемых компонентов в потоке S; c jsm вес m-того компонента в потоке; N(o;µ, ) многомерное Гауссовское распределение с вектором среднего значения µ и ковариационной матрицей : n размерность o; γ s вес потока. 1 ( o µ )( o µ ) 1 2 N( o; µ, ) = e, где (п.1.32) n ( 2π ) Вес потока используется для акцентирования потоков и задается вручную, т.к. нет надежных средств оценивания его значений. Множественные потоки данных используются для раздельного моделирования множественных информационных источников. Обычно обработка потоков выполняется одинаково.

312 312 Поскольку потоки данных являются статистически-независимыми, они не оказывают существенного влияния на процесс обучения. Более того, компоненты гауссовской смеси можно считать подсостояниями, в которых вероятности переходов являются весами смеси (рисунок п.1.2). Отдельные гауссианы M-компонентная гауссовская смесь a ijc i1 j 1 a ij j a ij c i2 j 2 a ij c im j M Рисунок п.1.2 Представление гауссовской смеси Одной из задач обучения является оценивание средних и дисперсий HMM, в которых каждое состояние представляется гауссовским компонентом: b j ( o ) t = 1 ( 2π ) n j e 1 2 ( o t µ )( o µ ) j j. (п.1.33) Если предположить, что в HMM всего одно состояние j, то оценить параметр не составляет большого труда. Оценки максимального правдоподобия величин µ j и j могут быть получены в результате усреднения: T 1 ˆµ = (п.1.34) j o t T t= 1 ˆ 1 = µ µ (п.1.35) j T ( ot j )( ot j ) T t= 1 На практике имеется несколько состояний и невозможно непосредственно привязать вектора наблюдений к отдельным состояниям. Простейший

313 313 алгоритм обучения представляется следующей последовательностью действий: 1. наблюдения равномерно распределяются по состояниям модели; 2. по формулам (п.1.34, п.1.35) вычисляются значения средних и дисперсий для всех состояний; 3. с помощью описываемого ниже алгоритма Витерби определяется наиболее вероятная (правдоподобная) последовательность состояний; 4. наблюдения заново распределяются по состояниям; 5. по формулам (п.1.34, п.1.35) вычисляются новые значения средних и дисперсий для всех состояний; 6. если новые оценки параметров состояний отличаются от текущих, они принимаются за текущие и обучение продолжается с п.3. Полное правдоподобие каждой последовательности наблюдений основывается на суммировании всех возможных последовательностей состояний. Каждый вектор наблюдения o t вносит свой вклад в расчет значений максимального правдоподобия для каждого состояния j. Вместо того, чтобы привязывать каждый вектор наблюдения к определенному состоянию, как это описано выше, все наблюдения можно связать со всеми состояниями. Связь должна быть пропорциональна вероятности состояния модели при соответствующем наблюдении. Обозначив L j (t) вероятность пребывания в состоянии j в момент времени t, приведенные выше уравнения (п.1.34) и (п.1.35) можно записать следующим образом: ˆ j = T t= 1 T t= 1 ( t) L j ot t= 1 ˆµ j = T, (п.1.36) L L j j ( t) ( t)( o µ )( o µ ) t T t= 1 L j j ( t) t j, (п.1.37)

314 314 где суммирование в знаменателях обеспечивает требуемую нормализацию. Процедура рекуррентного оценивания Баума-Уэлша для средних и дисперсий HMM описывается уравнениями (п.1.36) и (п.1.37). Аналогичная процедура может быть получена для вероятностей переходов. Для применения соотношений (п.1.36) и (п.1.37) необходимо рассчитать вероятность состояния L j (t). Искомая вероятность определяется с помощью алгоритма прямого-обратного хода (Forward-Backward algorithm) [172]. Прямая вероятность α j (t) для модели M с N состояниями определена в виде: ( t) = P( o,..., o, x( t) j M ) α. (п.1.38) j 1 t = α j (t) совместная вероятность первых t наблюдений для состояния j в момент времени t. α j (t) может быть рассчитана по следующей рекуррентной формуле: N j ( t) = 1 α αi ( t 1) aij ( t) b j ( ot ). (п.1.39) i= 2 Формула (п.1.39) получена исходя из того, что вероятность пребывания в состоянии j в момент t, при наблюдениях o t, равна сумме прямых вероятностей всех возможных предшествующих состояний, взвешенных вероятностями переходов a ij. Пределы суммирования определяются особенностью организации звуковых моделей в них первое и последнее состояния не являются порождающими. Начальные и конечные условия для (п.1.39) имеют вид: 1, j = 1 N ( ) ( ) ( ) ( ) 1 α j 1 =, α N T = αi T ain. (п.1.40) a1 jbj o1, 1 < j < N i= 2

315 Из определения α j (t) следует: 315 P ( O M ) = α ( T ). (п.1.41) N Следовательно, вычисление прямой вероятности позволяет получить полное правдоподобие P(O M). Обратная вероятность β j (t) определяется следующим образом: ( t) P( o 1,..., o x( t) j, M ) j = t+ T = β. (п.1.42) Обратная вероятность может быть вычислена с использованием следующего рекуррентного соотношения: j N 1 j= 2 ( t) = a b ( o ) β ( t ) β. (п.1.43) ij j t+ 1 j + 1 Начальное и конечное условия имеют вид: i N = j j 1 j 1 j= 2 ( T ) = a, 1 < i < N; β ( 1) a b ( o ) β ( ) β. (п.1.44) in Приведенная выше прямая вероятность есть совместная вероятность, а обратная вероятность есть условная вероятность. Такое асимметричное определение позволяет определить вероятность нахождения в состоянии как произведение этих двух вероятностей: ( t) β ( t) = P( O, x( t) = j M ) α. (п.1.45) j j Отсюда L j ( t) P( x( t) = j O, M ) (, x( t) = j M ) P( O M ) j ( t) β j ( t) ( O M ) P O α = = =. (п.1.46) P

316 316 Теперь все необходимые для реализации рекуррентного оценивания параметров HMM с помощью алгоритма Баум-Уэлша соотношения записаны. Сам алгоритм может быть представлен следующей последовательностью действий: 1. Для каждого оцениваемого параметра выделить память для организации суммирования согласно (п.1.36) и (п.1.37). Для этого могут использоваться накапливающие сумматоры; 2. Вычислить прямые и обратные вероятности для всех состояний j и моментов времени t; 3. Для всех состояний j и моментов времени t обновить содержимое накапливающих сумматоров, используя вероятность L j (t) и текущий вектор наблюдения o t ; 4. По конечным значениям накапливающих сумматоров пересчитываются параметры HMM; 5. Если значение P=P(O M) на данном шаге не превышает значения на предыдущем, то обучение завершается. В противном случае выполнение алгоритма продолжается от п.2. Согласно приведенному алгоритму параметры HMM рекуррентно оцениваются по единственной последовательности наблюдения, по одной реализации высказывания. На практике для получения оценок параметров необходимо использовать несколько реализаций. При использовании нескольких последовательностей наблюдений пункты 2 и 3 повторяются для каждой новой обучающей последовательности. Оценка прямых и обратных вероятностей связана с вычислением произведения большого количества вероятностей. Это может привести к тому, что значения оценок станут малы. Для избежания вычислительных проблем прямые-обратные вероятности могут рассчитываться в логарифмическом масштабе.

317 317 Алгоритмы определения произнесения слов не из словаря Простые характеристики Подход предполагает использование для оценки подобия распознанного слова различных числовых характеристик, получаемых в процессе распознавания (без приложения дополнительных усилий) [142, 150]. Природа используемых характеристик может быть и акустической и грамматической. Главное требование к используемым характеристикам: значительное различие функций распределения вероятности для правильно распознанных и неправильно распознанных слов. Вот некоторые возможные характеристики: - нормированная акустическая оценка C w распознанное слово; Y w сегмент сигнала, соответствующий слову; T w длительность сегмента сигнала; λ w акустическая модель слова. m 1 T ( w) = log( P( Y λ )), где (п.1.47) w w w - плотность гипотез Для каждого слова и фрейма определяется формула плотности: D ( w t) = { w : [ w, s, e] WG s t e},, где (п.1.48) WG словный граф, получаемый в процессе распознавания; s и e моменты начала и конца сигнала, соответствующего слову. Тогда плотность гипотез вычисляется как e 1 C m, e s + 1 ([ w s, e] ) = D( w t),. (п.1.49) t = s

318 318 Повышение точности оценки подобия достигается за счет использования комбинаций нескольких, обычно независимых, характеристик. Простое нелинейное комбинирование может быть представлено в виде следующей функции: C m ( w) ( α log( C ( w) ) log( C ( w) )) = exp 1 m1 αn mn, αn = 1 C m1 (w),, C mn (w) числовые характеристики слова; α 1,, α n весовые коэффициенты. α, где (п.1.50) Для получения комбинированной оценки подобия также используются методы дискриминантного анализа [183], метод опорных векторов [189] и нейронные сети [160]. Вычисление оценки подобия на основе простых характеристик не требует больших вычислительных ресурсов и легко реализуемо. Но такие оценки обычно недостаточно точны для коммерческого использования систем. Более перспективным представляется использование комбинированных оценок. Апостериорная вероятность При этом подходе вычисляется вероятность наблюдения последовательности векторов признаков с использованием правила Байеса: w P ( ( )) ( Y w) P( w) * = arg max P w Y = arg max w w P( Y ), где (п.1.51) P(w) вероятность по языковой модели; P(Y w) вероятность акустической модели; P(Y) вероятность наблюдения сигнала.

319 319 Если бы все три вероятности были известны, то апостериорная вероятность P(w Y) могла бы непосредственно использоваться как характеристика для определения корректности распознавания слова. Теоретически, вероятность наблюдения сигнала P(Y) имеет вид: = W P ( Y ) P( Y w). (п.1.52) На практике весьма затруднительно определить точное значение P(Y). Имеются несколько алгоритмов, которые аппроксимируют значения P(Y) с помощью списка лучших гипотез или словного графа («Word graph») [150]. При большом словаре построение словного графа или списка лучших гипотез приводит к значительному увеличению объема вычислений. Кроме того, основанные на апостериорной вероятности оценки также недостаточно точны для коммерческого использования систем. Отношение правдоподобия Подход основан на решении задачи с точки зрения проверки гипотез. Для распознанного слова рассматриваются две гипотезы: H 0 : распознанный фрагмент сигнала действительно является реализацией слова (корректное распознавание); H 1 : распознанный фрагмент сигнала не является реализацией слова (ошибка распознавания). Значение подобия определяется как: P ( ) ( Y H0) LR Y w w =. (п.1.53) P( Y H ) 1 Если значение подобия больше порога, то принимается гипотеза H 0, в противном случае гипотеза H 1.

320 320 В режиме проверки гипотез система распознавания обычно работает в несколько проходов. На первом проходе выполняется основное распознавание и определяется нулевая гипотеза, на последующих проходах формируется альтернативная модель и для нее выполняется распознавание. В качестве оценки подобия для проверки корректности распознавания слова может использоваться функция: C m ( w) 1 = T w P Y log P Y ( w) ( w ), где (п.1.54) alt P(Y w alt ) вероятность альтернативной акустической модели слова. На практике альтернативные модели отдельных слов строятся из составных частей (монофонов, трифонов и т.п.). В этом случае оценка подобия для слова вычисляется по формулам: C m 1 N N ( w) = C ( u ), C ( u) i= 1 m i m 1 = T u P Y log P Y ( ) u u ( ) u ualt, w u1... un u i составные части альтернативной модели слова; N количество составных частей в альтернативной модели. =, где (п.1.55) Проверка гипотез дает хорошие результаты, когда акустическая структура СНИС значительно отличается от СИС. Еще одна проблема заключается в выборе и обучении «удачных» альтернативных акустических моделей. Также проверка гипотез не может выполняться параллельно с основным распознаванием и требует от системы дополнительных проходов, что уменьшает скорость системы. Несмотря на все недостатки, проверка гипотез позволяет получать результаты, пригодные для коммерческого использования. Наиболее перспективным представляется комбинированное применение всех перечисленных подходов.

321 Модели заполнения 321 В словарь дополнительно включаются специальные последовательности звуков, не являющиеся словами, и грамматика модифицируется специальным образом. Если результатом распознавания оказывается такая специальная последовательность, то принимается решение о распознавании СНИС. Модели заполнения используются параллельно с моделями слов из словаря. Возможно два варианта применения моделей заполнения: когда СИС конкурирует с моделью заполнения и когда результат распознавания определяется как СИС в окружении моделей заполнения. При первом варианте использования модели заполнения отсеивают слишком много СИС и приводят к недопустимому падению процента распознавания. Второй вариант оказался весьма полезен при поиске ключевых слов в потоке речи, а также когда по логике диалога сервиса слово, по которому принимается решение, может быть произнесено в каком-либо контексте. Использование моделей заполнения не может рассматриваться в качестве основного варианта работы системы. Второй вариант использования моделей заполнения оказался удачным дополнением подходов, основанных на вычислении оценок подобия.

322 322 Приложение 2. Дополнения к главе 3 Примеры таблиц контекстов Таблица п.2.1 Контексты «A1» p t x h ' k l j a o u e i y r 3_ ' _ ' _ _ ' _ m_ m' n_ n' l_ l' r_ j' a_ o_ u_ e_ i_ y_

323 323 Таблица п.2.2 Контексты «Y1» p t x h ' k l j a o u e i y r 3_ ' _ ' _ _ ' _ m_ m' n_ n' l_ l' r_ j' a_ o_ u_ e_ i_ y_

324 324 Таблица п.2.3 Контексты «Y4» p t x h ' k l j a o u e i y r 3_ ' _ ' _ _ ' _ m_ m' n_ n' l_ l' r_ j' a_ o_ u_ e_ i_ y_

325 325 Таблица п.2.4 Контексты «O0» p t x h ' k l j a o u e i y r 3_ ' _ ' _ _ ' _ m_ m' n_ n' l_ l' r_ j' a_ o_ u_ e_ i_ y_

326 326 Алгоритмы предварительной обработки При оцифровке речевого сигнала первый отсчет каждого периода основного тона сигнала отличен от нуля, т.е. соответствует некоторой начальной фазе 25 (рисунок п.2.1). Рисунок п.2.1 Период аллофона A0 Последующие периоды ОТ также имеют некоторую начальную фазу, причем периоды, следующие один за другим, не обязательно имеют одинаковые начальные фазы. Можно выделить три основные причины возникновения начальных фаз: 1. Начало оцифровки сигнала не связано с началом звукового фрагмента, включаемого в базу; 2. Частота дискретизации не кратна длине периодов ОТ; 3. Периоды ОТ имеют различные длительности. Наличие начальных фаз создает проблемы при анализе и модификации, как отдельных периодов ОТ, так и звуков в целом. Обычно длина одного периода не позволяет провести его полноценный спектральный анализ по причине недостаточного количества данных. Сигнал, полученный в результате размножения исследуемого периода ОТ, содержит высокочастотный шум, обусловленный разностью фаз первого и последнего отсчетов периода. 25 Понятие начальной фазы используется по аналогии с гармоническим сигналом, что не совсем корректно, т.к. речевой сигнал имеет сложный спектральный состав.

327 327 Частотный анализ с использованием нескольких последовательных периодов приводит к усреднению их спектров и потере уникальных свойств каждого отдельного периода ОТ. Для языков, не содержащих мягких звуков, синтез на основе усреднения свойств соседних периодов не вносит серьезных искажений. При синтезе русской речи, содержащей большое количество мягких звуков, усреднение свойств соседних периодов ОТ недопустимо, т.к. оно приводит к потери мягкости. При модификации периодов ОТ во временной области (например, по модифицированным алгоритмам PSOLA) на стыках периодов также возникают «артефакты», связанные с отличием от нуля значений первого и последнего отсчетов. Искусственное притягивание крайних отсчетов к нулю (или добавление фиктивных нулевых отсчетов) также вносит нежелательные искажения в сигнал. Изменение длительности происходит за счет выбрасывания и размножения периодов ОТ, соответственно, на границах выброшенных/вставленных периодов также возникают искажения. Из сказанного ясно, что для устранения искажений на стыках периодов и сокращения искажений, возникающих при их модификации, требуется привести сигнал к нулевой фазе на частоте основного тона в начале каждого периода. Для этого необходимо совместить начальные отсчеты периодов с сигналом в нулевой фазе. Кроме того, последние отсчеты периодов ОТ должны быть получены исходя из того, что первый отсчет следующего периода также будет приведен к нулевой фазе сигнала, т.е. (в идеале) значения последних отсчетов во всех периодах должны совпадать. Процедура выравнивания фаз Сигнал приводится к нулевой фазе на каждом периоде основного тона. При приведении периода к нулевой фазе все его точки смещаются влево. Величина смещения определяется тем, насколько нужно перенести первую точку сигнала, чтобы она совпала с нулем (рисунок п.2.2).

328 328 Y 1 Y Y - 1 Y 1 Y 0 Рисунок п.2.2 Смещение отсчетов сигнала, при приведении к нулевой начальной фазе На рисунке п.2.2 показано, как происходит перенос точек. Форма сигнала сохраняется. Новая первая точка рассчитывается как точка пересечения огибающей с осью OX. Определяется величина смещения исходной и новой первой точки (обозначено стрелкой), как координата пересечения с нулем, отрезка, соединяющего последний отсчет предыдущего периода и первый отсчет текущего: y y y 1 x =. (п.2.1) 0 1 На рисунке п.2.3 представлен период сигнала, приведенный к нулевой начальной фазе. Видно, что сигнал построен с учетом того, что первый отсчет следующего периода совпадет с нулем. При построении сигнала, представленного на рисунке п.2.3, использовалась линейная интерполяция: y n ( x) = y + ( y +1 y ) x, для n = 0...(len-1), где (п.2.2) n n n len длина периода, x смещение отсчетов, необходимое для приведения первого отсчета к нулевому значению,

329 329 0 x 1. (п.2.3) Рисунок п.2.3 Приведенный период аллофона A0 Согласно правилам выделения и разметки звуковых фрагментов последний отсчет любого периода ОТ должен иметь отрицательное значение, а первый неотрицательное. Таким образом, гарантируется выполнение условия (п.2.3). Для первого периода каждого звукового фрагмента отсутствует информация о значении последнего отсчета предыдущего периода, поэтому делается предположение о равенстве его среднему значению последних отсчетов всех периодов фрагмента: 1 fp 1 N 1 = yin N i= 0 y, где (п.2.4) fp y 1 - последний отсчет последнего периода предыдущего звукового фрагмента; y in - последний отсчет периода i; N количество периодов в звуковом фрагменте. Аналогичным образом для последних периодов всех звуковых фрагментов отсутствует информация о значениях первого отсчета последующих

330 330 периодов. Они полагаются равными среднему значению первых отсчетов всех периодов фрагмента: 1 lp 1 N + 1 = N i= 0 y y, где (п.2.5) i0 lp y 1 - первый отсчет первого периода последующего звукового фрагмента; y i0 - первый отсчет периода i. При приведении периода ОТ к нулевой начальной фазе происходит сдвиг отсчетов влево, что может вызвать появление дополнительного отсчета в конце периода. Если есть возможность корректировать разметку звуковых фрагментов, в нее следует внести соответствующие изменения. Если возможность изменить длину периода отсутствует, необходимо передискретизировать сигнал, сохранив значения первого и последнего отсчетов. При передискретизации может использоваться (п.2.6): y y y ( x) = y0 ( x) = y( int )( i x) + y( int )( i x) + 1 y( int )( i x) ( x) = y 0 i n 1 n 1 ( ) i x ( int)( i x) ( ), где (п.2.6) (int) означает отброс дробной части, а значение смещения определяется как (п.2.7): N 1 = N 2 x. (п.2.7) (п.2.8): Значение последних отсчетов периода определяется из выражения

331 331 y fp N 1 = min y, где (п.2.8) i= 0 in fp y - новое значение последнего отсчета всех периодов ОТ фрагмента. Выражение (п.2.8) определено экспериментально, исходя из минимизации отклонения интегрального спектра приведенного сигнала и, возможно, в ходе дальнейших исследований будет заменено другим оптимальным значением. Сглаживание стыков периодов При формировании приведенного сигнала на границах периодов ОТ используется сглаживание. Для периодов с номерами от 1 до (N-1) проводится пересчет точек -3, -2, 1 и 2 (рисунок п.2.4), Рисунок п.2.4 Схема сглаживания границ внутренних периодов аллофонов для начального периода пересчитываются точки 1 и 2 (рисунок п.2.5),

332 332 Рисунок п.2.5 Схема сглаживания границ начальных периодов а для конечного -3 и -2 (рисунок п.2.6). Рисунок п.2.6 Схема сглаживания границ конечных периодов На рисунках п.2.4 п.2.6 крестиком обозначены точки, значения в которых пересчитываются, кружками точки, используемые при пересчете значений. При пересчете значений используется интерполяционный полином Лагранжа (п.2.9): l 1 ( x x k ) i k= 0, k j y ( x) = y, где (п.2.9) j= 0 j l 1 l 1 k= 0, k j ( x j x k ) y i - сглаженное значение отсчета; l - количество точек, участвующих в интерполяции.

333 333 Используются следующие параметры сглаживания: При сглаживании начальных периодов: используются четыре точки (l = 4); x 0 = 1, x1 = 0, x 2 = 3, x3 = 4 ; fp y 0 y, y1 = 0, y 2 = y3, y 3 = y4 = ; При сглаживании внутренних периодов: используются шесть точек l = 6; x0 = 5, x1 = 4, x 2 = 1, x3 = 0, x 4 = 3, x5 = 4 fp y 0 = y 5, y1 = y 4, y 2 = y, y 3 = 0, y 4 = y3, y 5 = y4 При сглаживании конечных периодов: используются четыре точки l = 4; x 0 = 5, x1 = 4, x 2 = 1, x3 = 0; y y y = y, y = y, y 0 fp 0 = 5, =. ; ; На рисунке п.2.7 представлен период аллофона A0 до и после всех преобразований До сдвига После сдвига Рисунок п.2.7 Приведенный и исходный периоды аллофона A0 На рисунках п.2.8 и п.2.9 представлены спектры размноженных исходных и приведенных периодов.

334 334 Рисунок п.2.8 Спектр исходного периода аллофона A0 Рисунок п.2.9 Спектр приведенного периода аллофона A0 Сравнивая спектры исходного и приведенного периодов можно видеть значительное ослабление высокочастотной составляющей. Лучше всего эффект проведенных преобразований сигнала заметен на частотах выше 4кГц. На рисунке п.2.10 приведен спектр размноженного периода исходного сигнала, а на рисунке п.2.11 периода приведенного сигнала. Из рисунков п.2.10 и п.2.11 также видно, что приведенные сигналы дают меньший уровень шума на частотах выше 4кГц. Рисунок п.2.10 Спектр исходного периода Рисунок п.2.11 Спектр после приведения периодов к нулевой начальной фазе

335 335 Алгоритмы изменения длительности и ЧОТ Изменение длительности аллофонов Для изменения длительности аллофонов используется несколько алгоритмов. Использование разных алгоритмов обусловлено необходимостью сокращения искажений, возникающих при модификации звуков. Применение алгоритмов, оптимизированных к типам звуков, позволяет сократить искажения. Различные стратегии изменения длительностей используются для гласных, сонант, фрикативных и аффрикат, взрывных. Звуки, не попавшие ни в один из типов, модифицируются как гласные по наиболее общему алгоритму. Изменение длительности гласных Гласные звуки имеют наиболее сложную структуру и наиболее сложный алгоритм модификации. Теоретически, алгоритм модификации гласных может быть использован для модификации звуков любого типа, но оптимальным является применение «своего» алгоритма для каждого типа звуков. Считается, что гласный состоит из стационарного участка, обрамленного переходными процессами, однако, это не всегда верно. Изменение длительности гласного желательно производить за счет стационарного участка (если, конечно, он обозначен), но допустимо захватить и участки переходных процессов. Ниже приводится описание изменения длительности гласных. Уменьшение длительности гласных 1. Определяется длительность формируемого звука в периодах. Запрошенная длительность делится на среднее значение длины периода исходного звука; 2. Периоды исходного звука добавляются к формируемому звуку парами, пока не будет добавлено необходимое количество периодов. Добавление

336 336 идет справа и слева. Добавляются периоды с номерами (1, N), (2, N-1) и т.д., что позволяет максимально включить переходные процессы; 3. Разметка сформированного аллофона корректируется. Увеличение длительности гласных 1. Определяется количество добавляемых периодов, как результат деления разности длительности текущего звука и запрошенной длительности, деленной на среднее значение длины периода ОТ; 2. Проверяется наличие (обозначенность) стационарного участка; 3. Если стационарный участок не обозначен, то осуществляется переход к п.6; 4. В результирующий звук добавляются все периоды исходного звука слева направо. Если период принадлежит стационарному участку и требуется добавление периодов, то он добавляется дважды, а количество добавляемых периодов уменьшается. 5. Если требуется еще добавить периоды, и нет ограничения на увеличение стационарного участка, то осуществляется переход к п.4, иначе к п.10; 6. Периоды исходного звука через один маркируются как доступные для копирования. При маркировке учитывается, что первый, последний и периоды, обозначенные специальным образом при разметке, не могут быть скопированы; 7. Определяется количество периодов, доступных для копирования; 8. Количество добавляемых периодов ограничивается количеством периодов, доступных для копирования 26 ; 9. В результирующий звук добавляются все периоды исходного звука слева направо. Если период помечен как доступный для копирования и требуется добавление периодов, то он добавляется дважды, а количество добавляемых периодов уменьшается; 10. Разметка полученного звука корректируется. 26 Дальнейшее увеличение длительности звука возможно, но оно приведет к серьезным изменениям его качества.

337 337 Изменение длительности сонант Сонанты не имеют постоянной части, как взрывные и фрикативные. Основная задача при изменении длительности сонант обеспечить минимальную разницу в параметрах соседних периодов. Ниже приведены алгоритмы, используемые при увеличении и уменьшении длительности сонант. Уменьшение длительности сонант 1. Определяется длительность звука в периодах. Для этого запрошенная длительность делится на среднюю длину периода ОТ; 2. Берется рассчитанное количество периодов, начиная от правой границы звука; 3. Корректируется разметка полученного звука. Увеличение длительности сонант 1. Определяется длительность звука в периодах. Для этого запрошенная длительность делится на среднюю длину периода ОТ; 2. Периоды исходного звука включаются в формируемый справа налево. Из исходного звука периоды берутся от N до 1 и от 2 до N-1 и т.д. 27, пока не будет добавлено необходимое количество периодов (где N номер последнего периода в исходном звуке); 3. Корректируется разметка полученного звука. Изменение длительности взрывных Взрывные, в свою очередь, разделяются на звонкие и глухие. Для звонких взрывных используются различные процедуры для сокращения и увеличения длительности, для глухих используется одна процедура. Алгоритм модификации длительности взрывных (как, впрочем, и звуков всех остальных типов) основан на особенности их строения. Условно, взрывной можно разделить на две части: взрыв и смычку. Смычка является переменной составляющей, а сам взрыв не может быть изменен без искажения звука. Для глухих взрывных смычка может быть заменена паузой без 27 При модификации длительности взрывных за счет звонкой смычки можно включать, а можно не включать два одинаковых периода на границе цикла. Для их качества это не критично, чего не скажешь о качестве сонант.

338 338 внесения искажений в звук, что позволяет устанавливать точное значения звука (если, конечно, длительность взрыва меньше запрошенной длительности). У звонких взрывных смычка имеет периодическую структуру, и модификация может быть выполнена с точностью до длительности периода смычки. Кроме того, сокращение и увеличение звонкой смычки происходит разными путями. Ниже приводятся алгоритмы, используемые при модификации взрывных. Глухие взрывные модифицируются следующим образом: 1. На основе разметки звука выделяется постоянная часть от правой границы звука до начала взрыва; 2. Определяется длительность взрыва; 3. Если длительность взрыва больше или равна запрошенной, то модификация завершается 28, если нет, то переходим к п.4; 4. Определяется остаток звука, т.е. разница между запрошенной длительностью и длительностью звука; 5. Слева звук дополняется необходимым количеством нулевых отсчетов; 6. Производится коррекция разметки с учетом добавленной глухой смычки. Уменьшение длительности звонких взрывных: 1. На основе разметки звука выделяется постоянная часть звука от правой границы до начала взрыва плюс один период смычки 29 ; 2. Определяется длительность постоянной части звука; 3. Если длительность постоянной части больше запрошенной, то модификация завершается, т.к. получен аллофон минимально возможной длительности. Если нет, то переходим к п.4; 4. Определяется остаток звука; 28 Модификация завершается, даже если длительность взрыва превосходит требуемую длительность звука, т.к. звук меньшей длительности не может быть получен. 29 Один период смычки обязательно включается в постоянный кусок, т.к. взрывной звук без смычки (пусть даже и очень короткой) не существует. Для глухих взрывных минимальная смычка приписывается разметкой взрыву.

339 К звуку справа на лево добавляются периоды смычки, пока длительность добавленных периодов не превысит (или станет равной) длительности остатка. Выполняя п.5 можно не опасаться, что оставшихся периодов будет недостаточно для получения звука запрошенной длины, т.к. происходит уменьшение длительности звука и звуковых данных не меньше, чем есть; 6. Производится коррекция разметки с учетом усечения смычки. Увеличение длительности звонких взрывных: 1. На основе разметки звука выделяется постоянная часть звука от правой границы до начала взрыва плюс один период смычки; 2. Определяется длительность постоянной части и длина остатка звука; 3. Рассчитывается количество периодов смычки, необходимое для достижения звуком заданной длительности, путем деления длины остатка на среднюю длину периода смычки; 4. Периоды добавляются к звуку справа налево от N-1 до 1 и затем от 1 до N- 1 (где N номер последнего периода переменной части) и т.д., пока добавленное количество периодов не будет равняться значению, полученному в п.3; 5. Производится коррекция разметки с учетом добавленных периодов. Изменение длительности фрикативных Фрикативные также имеют особенности структуры, которые можно и нужно учесть в процессе модификации. В общем случае фрикативные состоят из трех участков: глухой смычки, переходного процесса и шумового участка. Также фрикативные могут иметь слева и справа обязательную часть звука, имеющую специальное обозначение разметкой. Для сохранения звуком своего качества, постоянная часть звука не может быть удалена при сокращении звука. Увеличение длительности также не должно затрагивать постоянной части. Кроме того, требуется сохранять пропорции между всеми тремя участками звука для сохранения его качества. Ниже приведены алгоритмы, используемые при увеличении и уменьшении длительности фрикативных.

340 340 Уменьшение длительности фрикативных: 1. По разметке определяется наличие постоянной части справа и слева; Если постоянная часть отсутствует, далее выполняется пункт 4; 2. Выделяется постоянная часть и определяется ее длительность; 3. Если длительность постоянной части равна длительности аллофона, то модификация завершается, т.к. длительность звука не может быть изменена; 4. Определяется длина оставшейся части звука и количество отсчетов, которые необходимо включить в звук; 5. Отсчеты распределяются между частями звука, пропорционально их длительности в исходном звуке. Длительности постоянной части звука учитываются; 6. Вырезаются «случайные» группы отсчетов из модифицируемых участков аллофона; Увеличение длительности фрикативных 1. Проверяется признак допустимости увеличения длительности аллофона. Если он не установлен, то модификация длительности завершается 30 ; 2. По разметке определяется наличие постоянной части справа и слева; 3. Выделяется постоянная часть и определяется ее длительность; 4. Определяется длина остатка и количество отсчетов, которые необходимо включить в звук; 5. Отсчеты распределяются между частями звука, пропорционально их длительности в исходном звуке, с учетом длительности постоянной части звука; 6. Копируются «случайные» группы отсчетов в модифицируемых участках звука, пока не будет добавлено необходимое количество отсчетов во все части звука; 30 Дело в том, что целый ряд фрикативных оказываются очень критичными к увеличению длительности. Для разных дикторов разные звуки в разной степени.

341 341 Изменение ЧОТ Для изменения ЧОТ использована модификация известного алгоритма TD-PSOLA. Предпочтение отдано именно этому алгоритму, т.к. он обеспечивает достаточно высокое качество преобразованного голоса и не требует значительных вычислительных ресурсов. Алгоритм работает в три этапа. На первом этапе (рисунки п.2.12, п.2.13) отсчеты периода исходного сигнала умножаются на оконную функцию, начиная от начала периода: 1 0,8 0,6 0,4 0,2 0-0, ,4-0,6-0,8-1 Исходный период Оконная функция Рисунок п.2.12 Первый шаг увеличения длины периода 1 0,8 0,6 0,4 0,2 0-0,2-0,4-0,6-0, Исходный период Оконная функция Рисунок п.2.13 Первый шаг уменьшения длины периода На втором этапе отсчеты (рисунки п.2.14, п.2.15) периода исходного сигнала умножаются на весовую функцию, начиная от конца сигнала:

342 ,8 0,6 0,4 0,2 0-0,2-0,4-0,6-0, Исходный период Оконная функция Рисунок п.2.14 Второй шаг увеличения длины периода 1 0,8 0,6 0,4 0,2 0-0,2-0,4-0,6-0, Исходный период Оконная функция Рисунок п.2.15 Второй шаг уменьшения длины периода Значения отсчетов, полученные на первом и втором этапах (рисунки п.2.16, п.2.17), суммируются, образуя период результирующего сигнала (рисунки п.2.18, п.2.19). 1 0,8 0,6 0,4 0, ,2-0,4-0,6-0,8-1 Отсчеты от начала периода Отсчеты от конца периода Рисунок п.2.16 Третий шаг увеличения длины периода. Взвешенные значения отсчетов

343 343 Рисунок п.2.17 Третий шаг уменьшение длины периода. Взвешенные значения отсчетов 1 0,8 0,6 0,4 0,2 0-0,2-0,4-0,6-0, Прогиб Результирующий период Рисунок п.2.18 Третий шаг увеличения длины периода. Периоды результирующего сигнала Рисунок п.2.19 Третий шаг уменьшения длины периода. Периоды результирующего сигнала Алгоритм изменения ЧОТ может быть записан с помощью выражений (п.2.10) для увеличения длины периода основного тона:

344 s1 = wa s1 = 0, s2 s2 = wb = 0, s, s sr = s1 + s2, i i i j j i i j i j i, 344 i = 0... NNew 1 i = NNew... NSrc j = NNew 1... NSrc i = NSrc...0 i = 0... NNew 1 (п.2.10) и с помощью выражений (п.2.11) для уменьшения длины периода основного тона: s1 = wa i s2 = wb s, s sr = s1 + s2, i j i i j i j i, i = 0... NNew 1 j = NNew i = 0... NNew 1, где (п.2.11) s i s1 i - значения отсчетов исходного периода; - значения отсчетов исходного периода умноженные на весовую функцию от начала периода; s2 i - значения отсчетов исходного периода умноженные на весовую функцию от конца периода; sr i - значения отсчетов результирующего периода; wa i - значения оконной функции от начала периода; wb i - значения оконной функции от конца периода; NNew - количество отсчетов в результирующем периоде; NSrc - количество отсчетов в исходном периоде. В качестве оконных функций могут быть использованы различные функции, которые также используются в качестве оконных функций при преобразовании Фурье. В приведенном примере использована оконная функция Ханна (п.2.12):

345 345 π i wai = cos NSrc 1 π wbi = cos NSrc 1. (п.2.12) ( NSrc ( i + 1) ) При понижении частоты основного тона часто используется треугольная оконная функция (п.2.13): i wai = 1.0 NSrc 1 NSrc wbi = 1.0 NSrc 1. (п.2.13) ( i + 1) Одно из отличий применяемого алгоритма от стандартного заключается в том, что отсчеты сформированного периода нормируются к сумме соответствующих коэффициентов прямого и обратного окон, что позволяет устранить «провал» энергии, образующийся в центре периода (рисунки п.2.18, п.2.19). Кроме того, увеличение длины периода ОТ производится, обычно, не за один шаг, а за несколько. Ограничение на шаг модификации определяется экспериментально. Мы установили его значение как минимум от четверти длины исходного периода и 25 отсчетов 31. Ограничение наложено для того, чтобы в процессе изменения ЧОТ не происходило скачков изменения тембра голоса. Кроме того, все аллофоны разделены на четыре категории. Для каждой категории аллофонов используются адаптивные фильтры, позволяющие усиливать сигнал на частоте ОТ, первую и вторую гармоники. Соответствие между категориями и усиливаемыми областями следующее (таблица п.2.5): 31 Ограничение шага модификации зависит от целого ряда параметров (частота дискретизации сигнала, тип звука), и не является константой. Приведенные значения использовались на базе с сигналом 16 кгц, для среднего мужского голоса.

346 346 Таблица п.2.5 Категории выбора способов усиления Категория Усиление 0 Нет усиления 1 Усиление на частоте основного тона 2 Усиление на ЧОТ и в области первой форманты 3 Усиление на ЧОТ, а также в области первой и второй формант Ниже приводится таблица п.2.6 с соотнесением аллофонов по алгоритмам изменения длительностей и частот основного тона. В таблице у гласных нет разделения на редукции, а у согласных на твердые/мягкие реализации (исключая t/t ), т.к. эти признаки не влияют на выбор алгоритмов. Таблица п.2.6 Соответствия аллофонов способам усиления Звук Категория Тип Звук Категория Тип a 3 гласный o 3 гласный b 2 звонкий взрывной p 0 глухой взрывной v 2 сонор r 2 сонант g 2 звонкий взрывной s 0 фрикативный d 2 звонкий взрывной t 0 глухой взрывной e 3 гласный t 0 аффрикат zh 1 фрикативный u 3 гласный z 1 фрикативный f 0 фрикативный i 3 гласный h 0 фрикативный j 2 сонант c 0 аффрикат k 0 глухой взрывной ch 0 аффрикат l 2 сонант sh 0 фрикативный m 2 сонант sc 0 аффрикат n 2 сонант y 3 гласный _ 0 пауза Подробнее об использовании различных оконных функций можно прочитать, например в [73, 79, 139, 140]. На сегодняшний день эксперименты по применению различных оконных функций, а также алгоритмов модификации ЧОТ и длительности продолжаются, однако их значение не столь велико, как ранее, т.к. аллофонные звуковые базы постепенно утрачивают значение, уступая место базам слитной речи.

347 347 Приложение 3. Дополнения к главе 5 Восприятие речевых сигналов Исследованиями природы звука люди стали заниматься достаточно давно. Было замечено, что любой звук связан с вибрирующим источником (будь то голосовые связки, струны музыкальных инструментов или мембраны динамиков). Первые серьезные исследования природы звука начал проводить еще Пифагор в VI веке до н.э. Он заметил, что в зависимости от длины колеблющейся струны, получаются звуки с разной высотой тона, что длина струны напрямую связана с частотой. Им была создана математическая теория, объясняющая, почему комбинации одних частот созвучны (образуют консонанс), а других нет (образуют диссонанс). Окончательно гипотеза о волновой природе звука была подтверждена Томасом Юнгом в 1807 году в результате оригинального эксперимента. Юнг создал простейшее звукозаписывающее устройство, состоящее из бокала, розового шипа и закопченной пластинки. Шип крепился к бокалу, бокал улавливал и усиливал колебания, заставляя шип перемещаться на видимые расстояния. Опущенный на перемещаемую стеклянную пластинку шип вырисовывал извилистую линию, соответствующую форме звуковой волны. Все естественные звуки по их восприятию и значению для человека можно разделить на три группы: гармонические звуки, шумы и речь. Особенность гармонических звуков заключается в их периодичности во времени. Гармонические звуки создаются, например, такими музыкальными инструментами, как смычковые или духовые. При математическом анализе их длительность можно считать бесконечно большой. К шумам относятся крайне разнообразные сигналы. Представляется весьма затруднительным дать им четкое определение. Наиболее подходящим можно считать следующее: «шумовые сигналы это сигналы, не относящиеся к остальным двум категориям». Но и это определение не всегда является верным, т.к., например, существуют гармонические и речевые шумы.

348 348 А что такое речь? Речь это способность говорить, говорение. Прежде всего, речь это способ передачи информации, средство общения, необходимое для вовлечения субъекта в социальную среду; специфически человеческая форма деятельности, служащая общению между людьми посредством языка. Народная мудрость гласит: «Слово дано человеку, животным немота». Слово это единица речи, представляющая собой звуковое выражение понятия о предмете или явлении. Язык состоит из множества отдельных слов, каждое из которых употребляется в речи, как самостоятельное целое. Говоря словами К. Паустовского: «для всего, что существует в природе, в русском языке есть великое множество хороших слов и названий». Если слово является прежде всего элементом языка, то самостоятельными единицами живой речи являются фраза и предложение. Изолированно произносимые слова на самом деле являются однословными предложениями, вплетёнными в ситуацию действия. Для производства устной речи (артикуляции) необходимо корковое управление движениями речевых мышц через центробежные кортикобульбарные пути, а также восприятие и анализ мозгом афферентных двигательных импульсов, возникающих при сокращении мышц речевого аппарата в процессе речевой деятельности. Слуховой анализатор человека воспринимает речь и передает ее для анализа в мозг. На основе этого анализа происходит сличение выполняемого действия с первично заданной программой. При несоответствии действия программе центральная нервная система направляет дополнительные нервные импульсы ("поправки"), координирующие работу речедвигательного механизма [53]. Таким путем формируется речевой праксис целенаправленные автоматические речевые движения, составляющие основу моторной стороны речи (рисунок п.3.1).

349 349 Слуховой анализатор Мозг Речевой аппарат Речь Рисунок п.3.1 Обратная связь в процессе речеобразования Слух - функция, обеспечивающая восприятие человеком и животными звуковых сигналов (рисунок п.3.2). В разные времена выдвигались различные теории, объясняющие то, как ухо преобразует звуковые волны в сигналы, поступающие в мозг. Рисунок п.3.2 Диапазоны звуковых частот, воспринимаемых различными живыми существами [82] Первая теория слуха была разработана Германом Гельмгольцем выдающимся немецким ученым XIX века. Согласно теории Гельмгольца, в ухе имеется набор резонансных нитей, которые, подобно струнам музыкальных инструментов, колеблются в такт звуковым сигналам, принимаемым ухом. Это предположение известно как резонансная теория слуха. Важно подчеркнуть идею Гельмгольца о том, что ухо обрабатывает звук множеством полосовых фильтров, каждый из которых связан с акустическим преобразователем, посылающим сигналы в головной мозг. Современные представления о функционировании уха во многом основаны на знаниях, полученных в результате экспериментов фон Бекеши (G. von Bekesy), отмеченных Нобелевской премией в 1961 году по физиологии и медицине «за открытие физических механизмов восприятия раздражения улиткой». Исследуя нуждающиеся в усовершенствовании блоки телефонной сети Бекеши установил, что слабым звеном являются мембраны микрофонов те-

350 350 лефонных аппаратов, вносящие сильные искажения в звуковые колебания, в отличие от барабанной перепонки уха. Это подтолкнуло Бекеши к подробному изучению физических свойств органов слуха. Полученные результаты позволили исследовать колебания базилярной мембраны. Бекеши разработал модель мембраны из резины и показал, что колебания мембраны происходят по типу бегущей волны. Бегущая волна, возникающая в улитке, вызывает колебания всех участков мембраны, однако один из них вибрирует сильнее других из-за неоднородности натяжения мембраны. Расположение участка, колеблющегося сильнее, зависит от частоты звука: чем выше звук, тем ближе участок к среднему уху. Мозг получает информацию о максимально вибрирующем участке по волокнам слуховых нервов, отходящих от улитки, и на этом основании распознает звуки разной высоты. Бекеши также выяснил принцип работы механизма защиты уха от звуков высокой громкости. Изучив колебания слуховых косточек, Бекеши выяснил, что при звуках низкой и средней интенсивности стремечко совершает почти вращательное движение вокруг оси, проходящей через разомкнутое «кольцо» стремечка, а при звуках на уровне порога ощущения и выше движения стремечка принимают вращательный характер относительно оси, проходящей продольно через «арку» стремечка. Во втором случае эффективное смещение объема оказывается малым из-за того, что верхняя часть подножной пластинки стремечка продвигается вперед почти на столько же, на сколько нижняя часть пластинки отступает назад [49, 110]. При увеличении интенсивности звука сокращение мышц среднего уха увеличивается, что предотвращает разъединение слуховых косточек, способное вызвать чрезмерные искажения при высоких уровнях звукового давления. Сложность структуры среднего уха объясняется необходимостью такой защиты от искажений в диапазонах амплитуд от порога слышимости до болевого порога [110].

351 351 Бекеши также установил, что передаточная функция среднего уха имеет характеристики фильтра нижних частот. Кроме того, Бекеши проводил и электрофизиологические эксперименты, изучая чувствительность волосковых клеток органа Корти. Однако аналогичные исследования проводились и другими учеными [111, 122, 123, 188]. Речевой сигнал Речевой сигнал имеет сложную, как минимум тройственную, природу. С одной стороны, речевой сигнал это обычный акустический сигнал, который представляет собой процесс распространения звуковых волн в упругой среде. Как и любой другой звуковой сигнал он может быть представлен как распространение процессов сжатия и разрежения частиц среды, формы фронтов которых зависят от свойств источника и условий распространения. Речевой сигнал, как и прочие звуковые сигналы, характеризуется определенным набором объективных характеристик: временной структурой сигнала, длительностью звучания, спектральным составом, и т.д. С другой стороны, структура речевого сигнала определяется семантикой (смысловой нагрузкой) передаваемого высказывания. Это определяет особенности слухового восприятия речи, заключающиеся в необходимости расшифровки и распознавания семантического содержания сигнала. Процессы распознавания и понимания речи человеком изучены далеко не полностью, и являются одной из самых актуальных проблем современной науки. С третьей стороны, речь является одной из самых ярких характеристик человека. Она несет не только смысловую информацию, но и информацию об эмоциональном состоянии диктора, а также его индивидуальные параметры, позволяющие отличать одного диктора от другого. Процессы образования и восприятия речи Схема процессов образования и восприятия речевого сигнала представлена на рисунке п.3.3.

352 352 Рисунок п.3.3 Основные процессы образования и восприятия речи [171] Можно выделить следующие этапы процесса: - формулировка сообщения; - кодирование в языковые элементы; - нейромускульные действия; - движения элементов голосового тракта; - излучение акустического сигнала; - восприятие сигнала ухом; - выделение и передача акустических признаков по нейронным сетям; - распознавание языкового кода; - понимание смысла сообщения. Речевые механизмы, обеспечивающие порождения высказывания на каждом очередном этапе, являются психофизиологическими. Так, построение общей схемы высказывания выполняется в передней речевой зоне коры головного мозга, поиск смысловых, грамматических и фонологоартикуляционных элементов программы и их развёртывания в цепь, соотнесение темы и ремы высказывания осуществляется речевыми механизмами задней части коры мозга. Восприятие речи аудитором опирается на те же этапы, что и порождение речи, но начинается с распознавания звуков и слов. Для понимания ме-

353 353 ханизмов порождения и восприятия речи важны данные нейролингвистики, которая описывает понимание речи, как последовательность процессов в направлении от периферии нервной системы к ее центральным отделам, а порождение речи, как последовательность процессов в направлении от центра к периферии. При разговоре человек выступает в качестве оконечного оборудования переговорного тракта т.е. является источником и приемником информации, и, следовательно, интересен вопрос о скорости передачи и обработки информации, содержащейся в речевом сигнале. Грубую оценку можно получить, исходя из физических ограничений скорости артикуляции, позволяющих человеку произносить порядка 10 фонем в секунду. Если принять количество фонем равным 43, то для их двоичного кодирования потребуется 6 бит, соответственно, скорость передачи информации составит 60 бит в секунду. Однако, эта оценка учитывает лишь семантическую нагрузку, эмоции, индивидуальные особенности диктора, просодика и т.д. остаются «за кадром». С другой стороны, для непрерывного канала передачи существует формула, определяющая максимальную скорость передачи информации. Если BW полоса пропускаемых частот в герцах, а S/N соотношение сигналшум, то существует способ кодирования, при котором скорость передачи информации G составит: G = BW 1+ ( S ) log 2 бит в секунду 32, (п.3.1) N при сколь угодно малой величине ошибки [32, 179]. Если принять соотношение сигнал-шум равным 30 дб, то для телефонного канала получаем скорость передачи равную бит в секунду; для канала, позволяющего передавать весь речевой диапазон, получаем скорость передачи информации порядка бит в секунду. 32 Бит в секунду (анг. Bits Per Second или, сокращенно, bps)

354 354 В соответствие со схемой, представленной на рисунке п.3.3, Рабинер Л. [171] определяет скорости обработки (передачи) информации следующим образом (рисунок п.3.4). На этапе формулирования сообщения скорость определяется количеством символов и скоростью мышления она составляет порядка 60 бит в секунду. Преобразованное в речевой код, снабженное просодической информацией, сообщение требует скорость передачи в 250 бит в секунду, управление движениями речевого тракта потребует порядка двух с половиной тысяч бит в секунду, а скорость передачи информации звуковым сигналом мы выяснили чуть выше. Рисунок п.3.4 Скорости обработки информации в процессе речевой коммуникации При приеме и понимании звукового сигнала процесс происходит в обратном порядке. На входе уха, условно названного «спектральным анализатором», имеем скорость информации, равную скорости информации, передаваемой звуковым сигналом. После обработки сигнала и выделения из него значимых для восприятия признаков, скорость передачи информации падает до 2500 бит в секунду. Соответственно, на уровне выделения речевых единиц скорость информации составляет 250 бит в секунду, а скорость осмысленной информации 60 бит в секунду. Помимо семантической информации, соответствующей смыслу высказывания, в речевом сигнале закодировано множество других данных. Однако

355 355 непонятно как оценить количество не семантической информации. Можно утверждать, что скорости передачи/приема информации отражают скорее закономерности работы современных систем синтеза и распознавания речи, чем реальные процессы речеобразования и понимания речи. Эксперименты по восприятию Было проведено много экспериментов способности человека к восприятию информации, по определению скорости восприятия, выявлению факторов, влияющих на восприятие. Остановимся на некоторых из них. Так, например, был проведен эксперимент по определению скорости реакции [157]. От испытуемых требовалось как можно быстрее называть визуальные образы. Визуальные образы были представлены случайным набором букв, слов, десятичных и двоичных единиц. Максимальная скорость обработки информации составила порядка 30 бит в секунду. Если образы не назывались, а указывались рукой, скорость обработки информации падала до 15 бит в секунду. При одновременном использовании двух способов реакции скорость обработки примерно равнялась 45 битам в секунду, и, по мнению авторов эксперимента, составляла наибольшую скорость передачи информации через коммуникативный канал человека. В другом эксперименте [170] испытуемые читали вслух список простых односложных слов. Наивысшая скорость чтения составила бита в секунду. В эксперименте было установлено, что осмысленный текст можно читать быстрее набора случайных слов. Авторы сделали вывод, что скорость чтения ограничивается не скоростью артикуляции, а способностью человека осмысливать читаемое. В лаборатории экспериментальной фонетики ЛГУ был проведен ряд экспериментов по восприятию с целью определения лингвистических факторов, существенных для восприятия. Эксперименты заключались в опознавании различных речевых отрезков на фоне белого шума. В первом эксперименте аудиторам предъявлялись слоги типа согласный-гласный. Во втором

356 356 эксперименте аудиторы прослушали таблицы слов. В третьей группе экспериментов прослушивались таблицы фраз, а в четвертой тексты. В результате экспериментов выяснилось, что с ухудшением условий восприятия количество и важность лингвистических признаков изменяется. Чем лучше условия восприятия, тем большее число признаков оказывается существенным для восприятия. В худших условиях восприятия большую значимость имеет качество гласных и вероятностные механизмы. По мере улучшения условий начинают приобретать значение дифференциальные признаки согласных, и уменьшается важность частотности. В разных условиях приема аудиторы оперируют разным количеством и разными наборами значимых факторов, причем значимость факторов изменяется в зависимости от условий восприятия. В процессе восприятия сложные факторы функционируют как единое целое. Также известны эксперименты по влиянию загруженности кратковременной памяти при восприятии речевых сообщений [169]. В одном из таких экспериментов аудиторам предъявляли для запоминания два списка. Первый список состоял из цифр, отображаемых на экране, причем предъявлялось разное количество цифр, а в некоторых попытках визуальный список был пуст. После предъявления визуального списка, аудиторам давали прослушать по десять слов. При проведении эксперимента аудиторам предъявлялись как записи естественной, так и синтетической речи. Согласно инструкции, аудиторы должны были записать все визуально представленные цифры и слова, которые им удалось запомнить. Было выявлено, что по мере увеличения списка цифр запоминание слов ухудшается. Кроме того, было выявлено, что по мере увеличения списка цифр, уменьшается количество аудиторов, способных запоминать синтезированные слова. Т.е. был сделан вывод о том, что для восприятия речи худшего качества требуется больший объем памяти. Для подтверждения этого вывода был поставлен еще один эксперимент, заключающийся в запоминании списков слов, состоящих либо из син-

357 357 тетической, либо из естественной речи. Эксперимент подтвердил худшее запоминание синтетической речи. Также было установлено, что первые слова в синтезированных списках запоминаются много хуже естественных слов, а значит слова, прослушанные позже, мешают запоминанию слов, прослушанных раньше. Этот эксперимент подтвердил, что понимание речи худшего качества требует большего объема кратковременной памяти.

358 Критические полосы 358 Таблица п.3.1. Критические полосы, определенные разными авторами Цвикер Покровский Флетчер Сапожков Fc 33 L 34 Fc L Fc L Fc L Центральная частота полосы, Гц 34 Ширина полосы, Гц

359 359 Таблица п.3.2. Коэффициенты важности критических полос 35 Цвикер Покровский Флетчер Сапожков Vc log Vc line Vc log Vc line Vc log Vc line Vc log Vc line Коэффициенты важности определены для сигнала с частотой дискретизации 8кГц

360 360 Таблица п.3.3. Логарифмические полосы Fc L Vc line Fc L Vc line Fc L Vc line

361 361 Таблица п.3.4. Резонаторные полосы Звук 36 F p L p F 1 L 1 F 2 L 2 1 «А» 273,5 72,4 574,6 78,1 994,1 48,3 F 3 L 3 F 4 L 4 F 5 L 5 F 6 L ,8 77,7 2711,4 102,5 3796,5 145,6 4735,3 221,8 Звук F p L p F 1 L 1 F 2 L 2 2 «О» 287,6 72,4 497,1 100,9 914,2 47,1 F 3 L 3 F 4 L 4 F 5 L 5 F 6 L ,4 67,9 2635,1 87,6 4030,9 142,3 4728,3 189,5 Звук F p L p F 1 L 1 F 2 L 2 3 «У» 296,8 72,4 408,6 149,2 858,0 41,9 F 3 L 3 F 4 L 4 F 5 L 5 F 6 L ,8 54,2 2761,3 71,2 3612,3 92,4 4434,3 122,7 Звук F p L p F 1 L 1 F 2 L 2 4 «И» 287,7 72,4 393,5 54,9 2272,1 66,1 F 3 L 3 F 4 L 4 F 5 L 5 F 6 L ,6 77,6 4003,6 83,7 5047,3 117,0 6103,5 133,6 Звук F p L p F 1 L 1 F 2 L 2 5 «Ы» 302,6 72,4 485,7 85,5 1378,4 47,0 F 3 L 3 F 4 L 4 F 5 L 5 F 6 L ,7 46,3 2574,5 63,3 3732,5 97,7 4421,9 124,8 Звук F p L p F 1 L 1 F 2 L 2 6 «Э» 279,0 72,4 490,9 73,1 1353,0 41,4 F 3 L 3 F 4 L 4 F 5 L 5 F 6 L ,0 60,8 2775,0 78,5 3575,7 109,4 4226,4 141,3 Звук F p L p F 1 L 1 F 2 L 2 7 «С» 325,4 72,4 482,7 72,7 1619,4 45,7 F 3 L 3 F 4 L 4 F 5 L 5 F 6 L ,0 72,7 4029,8 106,3 4406,1 115,9 5290,6 153,9 Звук F p L p F 1 L 1 F 2 L 2 8 «Ш» 335,1 72,4 473,4 97,5 1439,9 53,7 F 3 L 3 F 4 L 4 F 5 L 5 F 6 L ,6 57,1 2528,8 62,8 3159,8 72,9 4516,78 117,3 Звук F p L p F 1 L 1 F 2 L 2 9 «Х» 349,9 72,4 543,8 91,9 1459,7 54,8 F 3 L 3 F 4 L 4 F 5 L 5 F 6 L ,0 53,5 2915,1 78,5 3699,1 93,5 4540,6 120,5 Звук F p L p F 1 L 1 F 2 L 2 10 «Ф» 274,9 72,4 338,9 83,2 1024,6 37,4 F 3 L 3 F 4 L 4 F 5 L 5 F 6 L ,2 43,2 2694,5 53,5 3872,9 78,0 4798,0 104б9 36 Индексы у центральных частот и ширины полос приведены по Сорокину. F x соответствует Fc, а L x L.

362 362 Приложение 4. Дополнение к главе 6. Списки филлеров Таблица П4.1 Обученные списки филлеров Фон N Список филлеров drop_all, f_sil, hi_sil, catch_all_0003, catch_all_0500, bigcatch_all, FRICVOC, l $, _o k', n, k', z', catch_all, s_sil, catch_all_0011, PLOSUNVOCS, ch x, n', h', si_sil, SONS, $, catch_all_1500, generic, _o v' i 23 catch_all, s_sil, si_sil, bigcatch_all, FRICUNVOCH, FRICVOC, KnkN, sil, s', z, k', NoiseSil, fi_sil, PLOSUNVOCS, SONS, e, f, f_sil, FRICUNVOCS, c, catch_all_0003, f', s n 13 catch_all, f_sil, h_sil, bigcatch_all, PLOSUNVOCS, FRICVOC, SONS, KnkN, i, n', k', z', h' t 13 f_sil, fi_sil, catch_all_0011, catch_all_0050, bigcatch_all, PLOSUNVOCS, FRICVOC, SONS, _a r', n', s', v', k' r 18 f_sil, fi_sil, hi_sil, catch_all_0003, catch_all_0011, bigcatch_all, PLOSUNVOCS, FRICUNVOCS, FRICVOC, SONS, i, s, e, n', j, v', k', z' a 14 h_sil, s_sil, hi_sil, catch_all_0003, catch_all_0011, catch_all_0050, catch_all_0100, bigcatch_all, PLOSUNVOCS, FRICVOC, SONS, o i, n', k' s 18 s_sil, hi_sil, catch_all_0001, bigcatch_all, PLOSUNVOCS, PLOSVOCH, FRICVOC, SONS, BlwN, r' b', l $, ch d', ch x, l', n', d', k', h' u 54 NoiseSil, catch_all, f_sil, s_sil, fi_sil, hi_sil, si_sil, catch_all_0001, catch_all_0003, catch_all_0005, catch_all_0011, catch_all_0050, catch_all_0100, catch_all_0500, catch_all_1500, bigcatch_all, PLOSUNVOCH, PLOSUNVOCS, PLOSVOCH, PLOSVOCS, FRICUNVOCS, FRICVOC, SONS, BcgN, OcrN, _a r', _a o, l $, p j, c p', v' z, v' g, ch d', f' _a1, f' p, _o v', n, t, a, s, sil, l', n', t', d, s', c, z, d', v', h, k', z', h' o 39 NoiseSil, f_sil, h_sil, s_sil, fi_sil, catch_all_0001, catch_all_0003, catch_all_0005, catch_all_0011, catch_all_0050, bigcatch_all, PLOSUNVOCS, PLOSVOCS, FRICUNVOCS, FRICVOC, SONS, Btn, r' b', _a r', _a o, v' g, o i, f' _a1, f' p, _o k', b' _a1, i, n, s, sil, e, l', n', d, r', s', ch, k', z' v 22 f_sil, h_sil, catch_all_0001, catch_all_0003, catch_all_0011, bigcatch_all, PLOSUNVOCH, PLOSUNVOCS, FRICVOC, SONS, r' b', l $, v' g, ch d', _o k', n, s, n', r', j, _a, _o e 13 h_sil, s_sil, fi_sil, catch_all_0050, bigcatch_all, PLOSUNVOCS, FRICVOC, SONS, _a o, l $, ch d', n', k' k 25 NoiseSil, f_sil, h_sil, catch_all_0001, catch_all_0005, catch_all_0011, catch_all_0050, bigcatch_all, PLOSUNVOCS, FRICUNVOCH, FRICUNVOCS, FRICVOC, SONS, KnkN, RblN, l $, c p', ch d', s, n', t', s', f, $, f' p 7 h_sil, bigcatch_all, PLOSUNVOCS, FRICVOC, SONS, BlwN, k' l' 21 catch_all, drop_all, generic, f_sil, s_sil, hi_sil, si_sil, catch_all_0001, catch_all_0100, bigcatch_all, PLOSUNVOCH, PLOSUNVOCS, FRICVOC, SONS, Btn, KnkN, f' p, t, s, c, k'

363 363 Таблица П4.1 Продолжение n' 12 h_sil, bigcatch_all, PLOSUNVOCH, PLOSUNVOCS, FRICVOC, SONS, ch d', s, n', t', k', h' m 29 catch_all, f_sil, h_sil, s_sil, fi_sil, hi_sil, si_sil, catch_all_0050, bigcatch_all, PLOSUNVOCS, FRICUNVOCH, FRICVOC, SONS, KnkN, _a r', l $, c p', f' p, _o k', t, s, n', s', ch, v', k', $, z', h' t' 19 f_sil, s_sil, fi_sil, hi_sil, si_sil, catch_all_0003, catch_all_0005, catch_all_0011, catch_all_0050, bigcatch_all, PLOSUNVOCS, FRICVOC, SONS, l $, ch d', s, n', s', k' d 18 f_sil, h_sil, catch_all_0001, catch_all_0003, bigcatch_all, PLOSUNVOCS, FRICUNVOCH, FRICUNVOCS, FRICVOC, SONS, i, a, s, k, l', n', s', f' r' 7 bigcatch_all, PLOSUNVOCS, FRICVOC, SONS, Btn, n', k' j 18 f_sil, h_sil, s_sil, fi_sil, hi_sil, si_sil, catch_all_0003, catch_all_0050, bigcatch_all, PLOSUNVOCS, FRICVOC, SONS, i, n', r', j, v', k' s' 20 f_sil, h_sil, fi_sil, hi_sil, catch_all_0001, bigcatch_all, PLOSUNVOCS, FRICVOC, SONS, Btn, BlwN, r' b', l $, ch d', ch x, s, n', s', d', k' y 32 NoiseSil, catch_all, f_sil, h_sil, s_sil, fi_sil, hi_sil, si_sil, catch_all_0003, catch_all_0050, bigcatch_all, PLOSUNVOCS, PLOSVOCH, FRICVOC, SONS, Btn, BcgN, _a o, l $, c p', ch d', f' c p, s, n', d, j, s', c, f, v', k', z' 23 f_sil, h_sil, s_sil, fi_sil, hi_sil, si_sil, catch_all_0003, catch_all_0011, bigcatch_all, PLOSUNVOCS, FRICVOC, SONS, _u1 i, _a r', l $, c p', ch d', ch x, l', n', r', k', h' z 31 NoiseSil, h_sil, catch_all_0005, catch_all_0011, bigcatch_all, PLOSUNVOCS, FRICUNVOCH, FRICUNVOCS, FRICVOC, SONS, _u1 i, _a o, v' z, v' g, o i, f' _a1, _o k', i, n, s, l', n', t', j, s', c, z, d', v', k', p' ch 17 f_sil, h_sil, s_sil, fi_sil, bigcatch_all, PLOSUNVOCS, PLOSVOCH, FRICVOC, SONS, _a r', l $, c p', o i, n', v', k', z' d' 15 catch_all, generic, f_sil, fi_sil, catch_all_0001, bigcatch_all, PLOSUNVOCS, FRICUNVOCS, FRICVOC, Btn, s, l', s', k', $ f 42 NoiseSil, f_sil, s_sil, fi_sil, hi_sil, si_sil, catch_all_0001, catch_all_0005, bigcatch_all, PLOSUNVOCS, FRICUNVOCH, FRICUNVOCS, FRICVOC, SONS, Btn, BcgN, BlwN, r' b', p j, v' z, v' g, o i, ch d', ch x, f' _a1, f' _u1, n, s, k, n', t', r', s', c, z, ch, k', p', $, z', b', h' b g 51 NoiseSil, catch_all, f_sil, h_sil, s_sil, fi_sil, hi_sil, catch_all_0001, catch_all_0003, catch_all_0005, catch_all_0011, catch_all_0050, catch_all_0100, catch_all_0500, bigcatch_all, PLOSUNVOCS, FRICUNVOCH, FRICUNVOCS, FRICVOC, VOWUNSTRESS, SONH, SONS, KnkN, r' b', _u1 i, _a r', p j, c p', v' z, o i, ch d', ch x, _o k', _o v', b' _a1, n, a, s, sil, n', t', r', s', c, z, v', h, k', z', f', h' 32 catch_all, f_sil, h_sil, s_sil, fi_sil, catch_all_0001, catch_all_0003, catch_all_0005, catch_all_0011, catch_all_0050, bigcatch_all, PLOSUNVOCS, FRICUNVOCH, FRICUNVOCS, FRICVOC, SONS, Btn, BlwN, l $, ch d', ch x, s, l', n', r', s', ch, h, w, k', z', _a

364 364 Таблица П4.1 Продолжение v' 42 f_sil, h_sil, s_sil, fi_sil, hi_sil, si_sil, catch_all_0001, catch_all_0005, bigcatch_all, PLOSUNVOCS, FRICUNVOCH, FRICUNVOCS, FRICVOC, VOWSTRESS, SONS, _a o, l $, p j, o i, ch d', ch x, _o k', _o v', t, s, l', n', t', r', j, s', c, z, ch, v', m', x, w, k', z', f', h' m' 42 NoiseSil, h_sil, fi_sil, catch_all_0001, catch_all_0005, catch_all_0011, bigcatch_all, PLOSUNVOCS, PLOSVOCH, FRICUNVOCS, FRICVOC, SONS, KnkN, BlwN, r' b', _u1 i, _a o, l $, p j, c p', v' z, o i, g y, ch d', ch x, _o k', b' _a1, i, sil, n', r', ch, d', b, v', h, k', p', $, z', f', h' h 38 f_sil, s_sil, fi_sil, catch_all_0001, catch_all_0005, bigcatch_all, PLOSUNVOCS, PLOSVOCH, FRICUNVOCH, FRICUNVOCS, FRICVOC, SONH, SONS, Btn, BlwN, _u1 i, _a o, v' _u, ch x, f' _a1, _o k', _o v', n, s, v, n', d, r', c, d', f, b, v', m', $, z', b', _a1 x 32 f_sil, h_sil, s_sil, fi_sil, hi_sil, si_sil, catch_all_0003, catch_all_0011, catch_all_0050, catch_all_0100, catch_all_0500, catch_all_1500, bigcatch_all, PLOSUNVOCS, FRICUNVOCH, FRICUNVOCS, FRICVOC, SONS, Btn, BcgN, l $, i, s, n', r', s', c, v', k', $, z', h' w 34 NoiseSil, f_sil, h_sil, s_sil, fi_sil, hi_sil, si_sil, catch_all_0001, catch_all_0003, bigcatch_all, PLOSUNVOCS, PLOSVOCH, FRICVOC, SONS, r' b', _u1 i, _a r', _a o, c p', v' z, v' g, o i, b' _a1, t, s, l', n', t', s', c, v', k', p', z' k' 57 catch_all, f_sil, h_sil, s_sil, fi_sil, hi_sil, si_sil, spm, catch_all_0001, catch_all_0003, catch_all_0011, catch_all_0500, catch_all_1500, bigcatch_all, PLOSUNVOCS, FRICUNVOCH, FRICUNVOCS, FRICVOCH, FRICVOC, SONH, SONS, Btn, BlwN, r' b', _u1 i, _a r', l $, p j, c p', v' z, o i, ch d', ch x, f' _a1, f' _u1, _o v', t, s, sil, o, l', n', t', r', j, s', c, z, f, v', m', k', z', f', h', l, u1 p' 38 NoiseSil, h_sil, s_sil, catch_all_0001, bigcatch_all, PLOSUNVOCS, FRICUNVOCH, FRICUNVOCS, FRICVOC, VOWUNSTRESS, VOWSTRESS, SONS, Btn, KnkN, r' b', _a r', _a o, l $, p j, ch d', ch x, f' _a1, f' _u1, i, n, t, l', n', t', d, r', j, s', c, z, f, m', k' $ 69 NoiseSil, catch_all, f_sil, h_sil, s_sil, fi_sil, hi_sil, si_sil, catch_all_0001, catch_all_0003, catch_all_0011, catch_all_0050, catch_all_0100, bigcatch_all, PLOSUNVOCS, PLOSVOCH, PLOSVOCS, FRICUNVOCH, FRICVOCH, FRICVOC, VOWUNSTRESS, SONH, SONS, Btn, KnkN, BlwN, r' b', _u1 i, _a o, l $, p j, c p', v' z, v' g, o i, g y, ch d', _o k', _o v', b' _a1, i, n, t, a, s, sil, o, v, l', n', t', d, r', j, c, z, f, v', m', k', p', z', b', g', l, _u1, _a, a1, u1 z' 66 NoiseSil, catch_all, drop_all, f_sil, h_sil, s_sil, fi_sil, hi_sil, si_sil, spm, catch_all_0001, catch_all_0003, catch_all_0011, catch_all_0050, catch_all_0100, catch_all_0500, catch_all_1500, bigcatch_all, PLOSUNVOCS, PLOSVOCS, FRICUNVOCH, FRICUNVOCS, FRICVOC, VOWSTRESS, SONS, Btn, KnkN, BlwN, r' b', l $, p j, c p', v' z, v' g, o i, g y, ch d', f' _a1, f' _u1, b' _a1, i, n, t, s, sil, l', n', t', d, j, s', c, z, f, g, v', h, k', p', z', g', f', h', l, _a1, _u

365 365 Таблица П4.1 Продолжение b' 76 NoiseSil, f_sil, h_sil, s_sil, fi_sil, hi_sil, si_sil, catch_all_0001, catch_all_0003, bigcatch_all, PLOSUNVOCS, PLOSVOCH, PLOSVOCS, FRICVOCH, FRICVOC, VOWUNSTRESS, VOWSTRESS, SONH, SONS, Btn, BcgN, KnkN, BlwN, r' b', _u1 i, _a r', _a o, l $, p j, c p', v' z, v' g, o i, ch d', ch x, f' _a1, f' _u1, _o k', _o v', b' _a1, n, t, a, s, o, v, k, l', n', t', d, r', j, s', y, c, z, ch, d', f, b, g, v', m', h, x, w, k', p', g', h', l, u1, catch_all g' 90 NoiseSil, f_sil, h_sil, s_sil, fi_sil, hi_sil, catch_all_0001, catch_all_0003, catch_all_0011, bigcatch_all, PLOSUNVOCS, PLOSVOCH, PLOSVOCS, FRICUNVOCH, FRICUNVOCS, FRICVOCH, FRICVOC, VOWUNSTRESS, VOWSTRESS, SONH, SONS, Btn, BcgN, KnkN, BlwN, r' b', _a r', _a o, l $, p j, c p', v' _u, v' z, v' g, o i, g y, ch d', ch x, f' _a1, f' _u1, _o k', _o v', b' _a1, i, n, t, a, s, o, v, k, l', n', t', d, j, s', y, c, z, ch, d', f, b, g, v', m', h, x, w, k', p', $, z', b', g', f', h', l, _a1, _u1, _a, _o, _u, a1, u1, i1, catch_all f' 95 NoiseSil, f_sil, h_sil, s_sil, fi_sil, hi_sil, si_sil, spm, catch_all_0001, catch_all_0003, catch_all_0011, catch_all_0050, catch_all_0100, catch_all_0500, catch_all_1500, bigcatch_all, PLOSUNVOCS, PLOSVOCH, PLOSVOCS, FRICUNVOCH, FRICUNVOCS, FRICVOCH, FRICVOC, VOWUNSTRESS, VOWSTRESS, SONH, SONS, Btn, BcgN, KnkN, BlwN, r' b', _u1 i, _a r', _a o, l $, p j, c p', v' _u, v' z, v' g, o i, g y, ch d', ch x, f' _a1, f' _u1, _o k', _o v', b' _a1, i, n, a, s, o, v, k, l', n', t', d, j, s', y, c, z, ch, d', f, b, g, v', m', h, x, w, k', p', $, z', b', g', f', h', l, _u1, _a, _o, _u, a1, u1, i1, catch_all h' 97 NoiseSil, catch_all, drop_all, generic, f_sil, h_sil, s_sil, fi_sil, hi_sil, si_sil, spm, catch_all_0001, catch_all_0003, catch_all_0011, catch_all_0050, catch_all_0100, catch_all_0500, catch_all_1500, bigcatch_all, PLOSUNVOCS, PLOSVOCH, PLOSVOCS, FRICUNVOCH, FRICUNVOCS, FRICVOCH, FRICVOC, VOWUNSTRESS, VOWSTRESS, SONH, SONS, Btn, BcgN, KnkN, BlwN, r' b', _u1 i, _a r', _a o, l $, p j, c p', v' _u, v' z, v' g, o i, g y, ch d', ch x, f' _a1, f' _u1, _o k', _o v', b' _a1, i, n, t, a, s, o, v, l', n', t', d, j, s', y, c, z, ch, d', f, b, g, v', m', h, x, w, k', p', $, z', b', g', f', h', l, _u1, _a, _o, _u, a1, u1, i1 l 34 NoiseSil, catch_all, h_sil, s_sil, fi_sil, catch_all_0003, catch_all_0011, catch_all_0050, bigcatch_all, PLOSUNVOCS, PLOSVOCH, FRICVOC, SONS, Btn, BlwN, r' b', p j, c p', v' z, v' g, o i, ch d', _o v', i, sil, l', n', ch, d', w, k', $, b', h' _a1 64 catch_all, drop_all, generic, f_sil, h_sil, s_sil, fi_sil, hi_sil, si_sil, spm, catch_all_0001, catch_all_0003, catch_all_0011, catch_all_0050, catch_all_0100, catch_all_0500, catch_all_1500, bigcatch_all, PLOSUNVOCS, PLOSVOCH, FRICUNVOCH, FRICUNVOCS, FRICVOCH, FRICVOC, SONH, SONS, Btn, r' b', _a r', _a o, l $, v' z, v' g, ch d', ch x, _o k', _o v', i, n, s, l', n', t', d, j, s', z, ch, d', b, v', h, x, k', p', $, z', b', g', f', h', l, _a, _u

366 366 Таблица П4.1 Окончание _u1 55 NoiseSil, f_sil, s_sil, fi_sil, hi_sil, si_sil, catch_all_0003, catch_all_0011, catch_all_0050, catch_all_0100, catch_all_0500, catch_all_1500, bigcatch_all, PLOSUNVOCS, PLOSVOCH, FRICUNVOCH, FRICUNVOCS, FRICVOC, SONS, Btn, BlwN, r' b', _u1 i, l $, p j, c p', v' z, v' g, o i, g y, ch d', f' _a1, _o k', b' _a1, i, t, a, sil, l', n', t', s', c, z, ch, d', f, v', x, w, k', p', z', b', h' _a 38 f_sil, h_sil, s_sil, fi_sil, hi_sil, si_sil, catch_all_0003, catch_all_0011, catch_all_0050, catch_all_0100, catch_all_0500, catch_all_1500, bigcatch_all, PLOSUNVOCS, PLOSVOCH, FRICUNVOCH, FRICUNVOCS, FRICVOC, SONS, Btn, r' b', _u1 i, l $, p j, c p', o i, ch d', s, sil, n', t', s', c, d', k', z', b', h' _o 79 catch_all, drop_all, generic, f_sil, h_sil, s_sil, fi_sil, hi_sil, si_sil, spm, catch_all_0001, catch_all_0003, catch_all_0011, catch_all_0050, catch_all_0100, catch_all_0500, catch_all_1500, bigcatch_all, PLOSUNVOCS, PLOSVOCH, PLOSVOCS, FRICUNVOCH, FRICUNVOCS, FRICVOCH, FRICVOC, VOWUNSTRESS, VOWSTRESS, SONH, SONS, Btn, BcgN, r' b', _u1 i, _a r', l $, p j, c p', v' z, v' g, ch d', ch x, _o k', i, n, t, o, v, l', n', t', j, s', y, c, z, ch, d', f, b, g, m', h, x, w, k', p', $, z', g', f', h', l, _u1, _a, a1, u1, i1 _u 67 NoiseSil, catch_all, drop_all, generic, f_sil, h_sil, s_sil, fi_sil, hi_sil, si_sil, spm, catch_all_0003, catch_all_0011, catch_all_0050, catch_all_0500, catch_all_1500, bigcatch_all, PLOSUNVOCS, PLOSVOCH, PLOSVOCS, FRICVOC, SONS, Btn, BcgN, r' b', _u1 i, _a r', l $, p j, c p', v' _u, v' z, v' g, o i, g y, ch d', f' _a1, f' _u1, i, n, t, s, sil, l', n', t', d, j, s', c, z, ch, d', f, b, v', m', h, k', p', z', b', g', f', _a, _u, i1 a1 6 fi_sil, bigcatch_all, PLOSUNVOCS, FRICVOC, SONS, n' u1 22 catch_all, f_sil, h_sil, catch_all_0011, catch_all_0050, bigcatch_all, PLOSUNVOCS, FRICUNVOCH, FRICUNVOCS, FRICVOC, SONS, i, a, v, l', n', s', ch, $, z', f', h' i1 6 bigcatch_all, PLOSUNVOCS, FRICVOC, SONS, n', k'

367 367 Таблица П4.2 Обученные списки начальных филлеров Фон N Список филлеров i 13 catch_all, s_sil, si_sil, bigcatch_all, FRICUNVOCH, FRICVOC, KnkN, sil, NoiseSil, fi_sil, PLOSUNVOCS, f_sil, FRICUNVOCS n 10 catch_all, f_sil, h_sil, bigcatch_all, PLOSUNVOCS, FRICVOC, KnkN, k', z', h' t 7 f_sil, fi_sil, catch_all, _a r', n', s', v' r 11 f_sil, fi_sil, hi_sil, catch_all, PLOSUNVOCS, FRICUNVOCS, FRICVOC, SONS, s, k', z' a 10 h_sil, s_sil, hi_sil, catch_all_0003, bigcatch_all, PLOSUNVOCS, FRICVOC, SONS, n', k' s 13 catch_all_0001, bigcatch_all, PLOSUNVOCS, PLOSVOCH, FRICVOC, SONS, r' b', l $, ch d', l', n', d', k' u 41 NoiseSil, catch_all, f_sil, s_sil, fi_sil, hi_sil, si_sil, catch_all_0001, bigcatch_all, PLOSUNVOCH, PLOSUNVOCS, PLOSVOCH, PLOSVOCS, FRICUNVOCS, FRICVOC, SONS, BcgN, OcrN, l $, p j, c p', v' z, v' g, ch d', f' p, t, s, sil, l', n', t', d, s', c, z, d', v', h, k', z', h' o 28 NoiseSil, f_sil, h_sil, s_sil, fi_sil, catch_all_0050, bigcatch_all, PLOSUNVOCS, PLOSVOCS, FRICUNVOCS, FRICVOC, Btn, r' b', v' g, f' _a1, f' p, b' _a1, n, s, sil, l', n', d, r', s', ch, k', z' v 17 catch_all_0001, catch_all_0003, catch_all_0011, bigcatch_all, PLOSUNVOCH, PLOSUNVOCS, r' b', l $, ch d', _o k', n, s, n', r', j, _a, _o e 9 h_sil, s_sil, fi_sil, catch_all_0050, PLOSUNVOCS, FRICVOC, l $, ch d', k' k 16 NoiseSil, catch_all_0001, catch_all_0005, catch_all_0011, catch_all_0050, bigcatch_all, FRICVOC, SONS, RblN, l $, c p', ch d', s, n', s', f p 9 h_sil, bigcatch_all, FRICVOC, SONS, BlwN, k', i, a, s l' 15 catch_all, drop_all, f_sil, s_sil, hi_sil, si_sil, catch_all_0001, bigcatch_all, PLOSUNVOCS, FRICVOC, Btn, KnkN, f' p, t, s n' 9 h_sil, PLOSUNVOCH, PLOSUNVOCS, FRICVOC, ch d', s, t', k', h' m t' 21 catch_all, f_sil, h_sil, s_sil, fi_sil, hi_sil, si_sil, catch_all_0050, bigcatch_all, PLOSUNVOCS, FRICUNVOCH, FRICVOC, KnkN, c p', f' p, t, s, s', ch, k', $ 15 s_sil, fi_sil, hi_sil, si_sil, catch_all_0011, catch_all_0050, bigcatch_all, PLOSUNVOCS, FRICVOC, SONS, l $, ch d', s, n', s' d 13 f_sil, catch_all_0001, catch_all_0003, bigcatch_all, FRICUNVOCH, FRICVOC, SONS, i, a, s, l', n', s' r' 10 bigcatch_all, PLOSUNVOCS, FRICVOC, SONS, Btn, n', k', s, s', d' j s' y c 12 f_sil, h_sil, s_sil, fi_sil, catch_all_0003, catch_all_0050, bigcatch_all, PLOSUNVOCS, FRICVOC, i, n', k' 15 fi_sil, hi_sil, catch_all_0001, bigcatch_all, FRICVOC, SONS, Btn, BlwN, r' b', l $, ch d', ch x, n', d', k' 25 catch_all, f_sil, h_sil, s_sil, fi_sil, hi_sil, si_sil, catch_all_0003, bigcatch_all, PLOSUNVOCS, PLOSVOCH, FRICVOC, Btn, l $, c p', ch d', f' p, s, n', d, s', c, f, v', k' 14 catch_all_0003, catch_all_0011, bigcatch_all, SONS, _u1 i, _a r', l $, ch d', ch x, l', n', r', k', h'

368 Таблица П4.2 Продолжение 368 v' z 19 NoiseSil, h_sil, catch_all_0005, bigcatch_all, PLOSUNVOCS, FRICVOC, SONS, _u1 i, _a o, o i, f' _a1, i, n, s, l', n', t', d', k' ch 8 bigcatch_all, PLOSUNVOCS, PLOSVOCH, SONS, c p', o i, n', k' d' 9 catch_all, bigcatch_all, FRICUNVOCS, FRICVOC, Btn, s, l', s', $ f 19 NoiseSil, catch_all_0001, catch_all_0005, bigcatch_all, FRICVOC, SONS, r' b', p j, v' z, v' g, o i, n, k, n', z, k', p', z', b' b 30 NoiseSil, catch_all, f_sil, h_sil, s_sil, catch_all_0001, catch_all_0003, catch_all_0500, bigcatch_all, VOWUNSTRESS, SONH, SONS, _u1 i, v' z, o i, ch x, _o v', n, a, s, sil, n', s', c, z, v', h, z', f', h' g 19 catch_all, f_sil, h_sil, s_sil, fi_sil, catch_all_0011, catch_all_0050, bigcatch_all, SONS, Btn, ch x, s, l', n', s', h, w, z', _a 28 f_sil, h_sil, s_sil, fi_sil, hi_sil, si_sil, PLOSUNVOCS, FRICUNVOCH, FRICUNVOCS, FRICVOC, VOWSTRESS, _a o, o i, ch d', ch x, _o k', t, s, t', s', c, z, ch, x, w, k', z', f' m' 26 catch_all_0001, catch_all_0005, catch_all_0011, bigcatch_all, PLOSVOCH, FRICUNVOCS, FRICVOC, _u1 i, _a o, c p', o i, g y, ch d', ch x, _o k', b' _a1, i, sil, r', ch, d', b, h, k', p', $ h 22 s_sil, catch_all_0001, catch_all_0005, bigcatch_all, SONH, SONS, Btn, BlwN, _u1 i, _a o, v' _u, _o v', n, v, n', d, r', d', b, v', m', z' x 18 fi_sil, hi_sil, si_sil, catch_all, catch_all_0100, catch_all_0500, catch_all_1500, PLOSUNVOCS, FRICUNVOCH, FRICUNVOCS, FRICVOC, SONS, Btn, BcgN, i, n', r', k', z' w k' p' 19 catch_all, catch_all_0003, PLOSVOCH, FRICVOC, SONS, r' b', _u1 i, _a r', _a o, c p', v' z, v' g, o i, b' _a1, t, l', n', t', c 33 catch_all, spm, catch_all_0001, catch_all_0003, catch_all_1500, bigcatch_all, FRICUNVOCH, FRICUNVOCS, FRICVOCH, FRICVOC, SONH, SONS, Btn, BlwN, _u1 i, _a r', l $, v' z, o i, ch x, _o v', sil, o, l', n', r', s', z, v', m', z', f', u1 24 NoiseSil, h_sil, s_sil, catch_all_0001, bigcatch_all, VOWUNSTRESS, VOWSTRESS, SONS, Btn, KnkN, r' b', _a r', _a o, l $, p j, ch d', ch x, i, n, l', n', c, z, m' $ 41 NoiseSil, catch_all, catch_all_0001, catch_all_0003, catch_all_0011, catch_all_0050, catch_all_0100, bigcatch_all, VOWUNSTRESS, SONH, SONS, Btn, KnkN, BlwN, r' b', _u1 i, _a o, o i, g y, _o k', _o v', b' _a1, i, n, a, sil, o, l', n', d, z, m', k', p', b', g', l, _u1, _a, a1, u1 z' 26 NoiseSil, catch_all, h_sil, hi_sil, spm, catch_all_0001, catch_all_0011, catch_all_1500, bigcatch_all, VOWSTRESS, SONS, Btn, KnkN, BlwN, o i, g y, b' _a1, i, n, l', n', d, g, l, _a1, _u b' 39 fi_sil, bigcatch_all, PLOSUNVOCS, FRICVOCH, FRICVOC, VOWUNSTRESS, VOWSTRESS, SONH, SONS, _u1 i, _a o, l $, v' z, o i, ch x, f' _a1, f' _u1, _o v', a, s, o, l', n', s', y, z, ch, f, m', h, x, w, h', l, u1, catch_all g' 48 NoiseSil, s_sil, hi_sil, catch_all_0001, catch_all_0011, bigcatch_all, VOWUNSTRESS, VOWSTRESS, SONH, SONS, _a r', _a o, v' _u, v' z, o i, ch x, f' _a1, f' _u1, _o v', i, n, t, a, o, l', n', y, c, f, m', h, x, w, $, f', h', l, _a1, _u1, _a, _o, _u, a1, u1, i1, catch_all

369 369 Таблица П4.2 Окончание f' 54 NoiseSil, s_sil, si_sil, catch_all_0001, catch_all_0003, catch_all_0011, catch_all_0050, bigcatch_all, PLOSVOCH, PLOSVOCS, FRICVOCH, FRICVOC, VOWUNSTRESS, VOWSTRESS, SONH, SONS, _u1 i, _a r', _a o, v' _u, o i, _o v', b' _a1, i, n, o, l', n', d, j, y, c, z, d', b, g, v', m', x, w, $, z', b', g', _u1, _a, _o, _u, a1, u1, i1, catch_all l 18 NoiseSil, catch_all, h_sil, s_sil, fi_sil, bigcatch_all, PLOSUNVOCS, PLOSVOCH, FRICVOC, c p', ch d', sil, ch, d', w, k', $, b', h' a1 9 bigcatch_all, PLOSUNVOCS, FRICVOC, SONS, n', w, k', $, h' u1 11 f_sil, h_sil, PLOSUNVOCS, FRICUNVOCH, FRICUNVOCS, l', s', ch, $, f', h' i1 11 bigcatch_all, PLOSUNVOCS, FRICVOC, SONS, n', k', s', ch, $, f', h'

370 370 Таблица П4.3 Обученные списки конечных филлеров Фон N Список филлеров i 23 catch_all, sil, s', z, k', NoiseSil, f, c, f', s n 13 catch_all, k', z', h' t 13 bigcatch_all, _a, r', n', s', v' r 18 bigcatch_all, i, s, e, n', v', k' a 14 bigcatch_all, o, i, n', k' s 18 bigcatch_all, r', b', l, $, ch, d', x, l', n', d', k', h' u 54 catch_all, n, t, a, s, sil, l', t', d, s', c, z, d', h, k', z', h' o 39 bigcatch_all, i, n, s, sil, l', n', d, r', s', ch, k' e 13 bigcatch_all, _a, o, l, $, ch, d', n', k' k 25 bigcatch_all, l, $, c, p', ch, d', s, n', t', s', f, $ p 7 bigcatch_all, k', i, n l' 21 catch_all, f', p, t, s, c, k' n' 12 bigcatch_all, s, n', t', k', _a, o m 29 catch_all, bigcatch_all, _a, r', l, $, c, p', f', p, _o, k', t, s, n', s', ch, $, h' t' 19 bigcatch_all, s, n', s' r' 7 bigcatch_all, n', k' j 18 bigcatch_all, i, n', r', j, v', k', s' s' 20 bigcatch_all, s, n', s', d', k', i, n c 23 bigcatch_all, _u1, i, _a, r', ch, x, l', n', r' ch 17 bigcatch_all, _a, r', l, c, p', o, i, n', z' f 42 bigcatch_all, n, s, k, n', t', r', s', c, z, ch, k', p', $, z', b', h' m' 42 bigcatch_all, i, sil, n', r', ch, d', b, h, k', p', $ h' h 38 bigcatch_all, n, s, v, n', d, r', c, d', f, b, v', m', $, z', b', _a1 w 34 bigcatch_all, _a1, t, s, l', n', t', s', c, k', p' p' 38 bigcatch_all f', _u1, i, n, t, l', n', t', d, r', j, s', c, z, f, m', k' $ 69 catch_all, i, n, t, a, s, sil, o, v, l', n', t', d, r', c, z, m', z', b', g', l, _u1, _a, a1, u1 f' 95 bigcatch_all, i, n, a, s, o, v, k, l', n', d, j, s', y, c, z, ch, d', b, g, v', m', x, w, $, b', g', l, _u1, _a, _o, a1, i1 l 34 catch_all, i, sil, l', n', ch, d', w, k', $, b' _a1 64 catch_all, i, n, s, l', n', t', d, j, s', z, ch, d', b, v', h, k', p', $, z', b', g', l, _u _u1 55 bigcatch_all, b' _a1, i, t, a, sil, l', n', t', s', c, z, ch, d', f, x, w, k', p', h' _a 38 bigcatch_all, s, sil, n', t', s', c, k', z', h' _o 79 catch_all, i, n, t, o, v, l', n', t', j, s', c, z, ch, d', f, m', h, x, w, k', p', $, z', g', f', h', a1, u1, i1 _u 67 catch_all, i, n, t, s, sil, t', d, j, s', c, z, ch, d', f, b, h, k', p', g', f', i1

371 Приложение 5. Акты о внедрении 371

372 372

373 373

374 374

375 375

376 376

377 377


Система голосового управления технологическими комплексами

Система голосового управления технологическими комплексами Система голосового управления технологическими комплексами Рассказова С.И. Цель работы: Разработка системы голосового управления технологическими комплексами. Задачи: Провести анализ речевых сигналов и

Подробнее

Система голосового управления технологическими комплексами

Система голосового управления технологическими комплексами Система голосового управления технологическими комплексами Рассказова С.И. Цель работы: Разработка системы голосового управления технологическими комплексами. Задачи: Провести анализ речевых сигналов и

Подробнее

старший преподаватель кафедры компьютерных технологий РАСПОЗНАВАНИЕ РЕЧИ

старший преподаватель кафедры компьютерных технологий РАСПОЗНАВАНИЕ РЕЧИ УДК 004.522 Мытников А.Н., старший преподаватель кафедры компьютерных технологий Мытникова Е.А., старший преподаватель кафедры компьютерных технологий Кузнецова Л.Н., старший преподаватель кафедры компьютерных

Подробнее

Проектирование человеко-машинных интерфейсов. Лекция 10. Распознавание речи

Проектирование человеко-машинных интерфейсов. Лекция 10. Распознавание речи Проектирование человеко-машинных интерфейсов Лекция 10. Распознавание речи Что такое распознавание речи? Система преобразования речевых сигналов в текст либо в набор управляющих команд Основное назначение

Подробнее

ОТЗЫВ Содержание работы Во введении

ОТЗЫВ Содержание работы Во введении ОТЗЫВ официального оппонента на диссертационную работу Гергет Ольги Михайловны «Модель и инструментальные средства анализа информационных процессов биологической системы Мать-плод», представленную на соискание

Подробнее

Постановка и возможные пути решения задачи обучения нейронных сетей

Постановка и возможные пути решения задачи обучения нейронных сетей Лекция 5 Постановка и возможные пути решения задачи обучения нейронных сетей Частичная задача обучения Пусть у нас есть некоторая нейросеть N. В процессе функционирования эта нейронная сеть формирует выходной

Подробнее

Реализация алгоритма построения статистической модели объекта по методу Брандона. Постановка задачи

Реализация алгоритма построения статистической модели объекта по методу Брандона. Постановка задачи Голубев ВО Литвинова ТЕ Реализация алгоритма построения статистической модели объекта по методу Брандона Постановка задачи Статистические модели создают на основании имеющихся экспериментальных данных

Подробнее

Алгоритмы пофонемного распознавания казахской речи в амплитудно-временнóм пространстве

Алгоритмы пофонемного распознавания казахской речи в амплитудно-временнóм пространстве Знания-Онтологии-Теории (ЗОНТ-09) Алгоритмы пофонемного распознавания казахской речи в амплитудно-временнóм пространстве Карабалаева М.Х., Шарипбаев А.А. Евразийский университет им.л.н.гумилева, ул. Мунайтпасова,

Подробнее

ОБУЧЕНИЕ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ МЕТОДОМ ОБРАТНОГО РАСПРОСТРАНЕНИЯ ОШИБКИ

ОБУЧЕНИЕ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ МЕТОДОМ ОБРАТНОГО РАСПРОСТРАНЕНИЯ ОШИБКИ УДК 004.85 ОБУЧЕНИЕ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ МЕТОДОМ ОБРАТНОГО РАСПРОСТРАНЕНИЯ ОШИБКИ Попова Ю.Б., Яцынович С.В. БНТУ, г. Минск, Беларусь, julia_popova@mail.ru БНТУ, г. Минск, Беларусь, hawkrai@yandex.ru

Подробнее

АНАЛИЗ АКУСТИЧЕСКИХ СИГНАЛОВ НА ОСНОВЕ МЕТОДА ФИЛЬТРАЦИИ КАЛМАНА И.П. Гуров, П.Г. Жиганов, А.М. Озерский

АНАЛИЗ АКУСТИЧЕСКИХ СИГНАЛОВ НА ОСНОВЕ МЕТОДА ФИЛЬТРАЦИИ КАЛМАНА И.П. Гуров, П.Г. Жиганов, А.М. Озерский АНАЛИЗ АКУСТИЧЕСКИХ СИГНАЛОВ НА ОСНОВЕ МЕТОДА ФИЛЬТРАЦИИ КАЛМАНА И.П. Гуров, П.Г. Жиганов, А.М. Озерский Рассматриваются особенности динамической обработки стохастических сигналов с использованием дискретных

Подробнее

ФОНД ОЦЕНОЧНЫХ СРЕДСТВ ДЛЯ ПРОВЕДЕНИЯ ПРОМЕЖУТОЧНОЙ АТТЕСТАЦИИ ОБУЧАЮЩИХСЯ ПО ДИСЦИПЛИНЕ (МОДУЛЮ)

ФОНД ОЦЕНОЧНЫХ СРЕДСТВ ДЛЯ ПРОВЕДЕНИЯ ПРОМЕЖУТОЧНОЙ АТТЕСТАЦИИ ОБУЧАЮЩИХСЯ ПО ДИСЦИПЛИНЕ (МОДУЛЮ) ФОНД ОЦЕНОЧНЫХ СРЕДСТВ ДЛЯ ПРОВЕДЕНИЯ ПРОМЕЖУТОЧНОЙ АТТЕСТАЦИИ ОБУЧАЮЩИХСЯ ПО ДИСЦИПЛИНЕ (МОДУЛЮ) Общие сведения 1. Кафедра 2. Направление подготовки 3. Дисциплина (модуль) Информатики, вычислительной

Подробнее

Распознавание голосовых команд с помощью самоорганизующейся нейронной сети Кохонена

Распознавание голосовых команд с помощью самоорганизующейся нейронной сети Кохонена Распознавание голосовых команд с помощью самоорганизующейся нейронной сети Кохонена Кладов Станислав Александрович, ИУ7-83. МГТУ им. Н.Э. Баумана stas@kladov.ru Широкое развитие роботов-манипуляторов и

Подробнее

SCIENCE TIME. Нейронные сети в системах распознавания речи. Гапочкин Артём Владимирович, Северо-Кавказский федеральный университет, г.

SCIENCE TIME. Нейронные сети в системах распознавания речи. Гапочкин Артём Владимирович, Северо-Кавказский федеральный университет, г. Нейронные сети в системах распознавания речи Гапочкин Артём Владимирович, Северо-Кавказский федеральный университет, г. Ставрополь E-mail: warrior_555@rambler.ru Аннотация. Данная статья посвящена вопросам

Подробнее

Оценка вокализованных участков речевого сигнала

Оценка вокализованных участков речевого сигнала А.А. Конев, * Р.В. Мещеряков ** Оценка вокализованных участков речевого сигнала Томский государственный университет систем управления и радиоэлектроники, г. Томск, Россия, * kaa1@keva.tusur.ru, ** mrv@keva.tusur.ru

Подробнее

Индуктивный алгоритм отыскания модели оптимальной структуры состоит из следующих основных шагов.

Индуктивный алгоритм отыскания модели оптимальной структуры состоит из следующих основных шагов. МЕТОД ГРУППОВОГО УЧЕТА АРГУМЕНТОВ Метод группового учета аргументов, МГУА (Group Method of Data Handling, GMDH) метод порождения и выбора регрессионных моделей оптимальной сложности. Под сложностью модели

Подробнее

ИССЛЕДОВАНИЕ ОСНОВНЫХ ФАКТОРОВ, ВЛИЯЮЩИХ НА РАСПОЗНАВАНИЕ РЕЧИ В ИНФОРМАЦИОННО-СЕРВИСНЫХ СИСТЕМАХ

ИССЛЕДОВАНИЕ ОСНОВНЫХ ФАКТОРОВ, ВЛИЯЮЩИХ НА РАСПОЗНАВАНИЕ РЕЧИ В ИНФОРМАЦИОННО-СЕРВИСНЫХ СИСТЕМАХ 7517 УДК 519.51-74: 004.52 ИССЛЕДОВАНИЕ ОСНОВНЫХ ФАКТОРОВ, ВЛИЯЮЩИХ НА РАСПОЗНАВАНИЕ РЕЧИ В ИНФОРМАЦИОННО-СЕРВИСНЫХ СИСТЕМАХ М.П. Фархадов З.П. Мясоедова А.Н. Абраменков С.В. Васьковский Ключевые слова:

Подробнее

Выработка компетенций происходит в процессе решения задач категорий «знать», «уметь», «владеть». Задачи категорий «знать»:

Выработка компетенций происходит в процессе решения задач категорий «знать», «уметь», «владеть». Задачи категорий «знать»: 1. ЦЕЛЬ И ЗАДАЧИ НАУЧНО-ИССЛЕДОВАТЕЛЬСКОЙ ДЕЯТЕЛЬНОСТИ Целью научно-исследовательской деятельности программы аспирантуры является формирование компетенций, обеспечивающих развитие навыков научноисследовательской

Подробнее

Библиотека БГУИР УДК 004.[932.75'1+89] Бурый Ярослав, Анатольевич

Библиотека БГУИР УДК 004.[932.75'1+89] Бурый Ярослав, Анатольевич Министерство образования Республики Беларусь Учреждение образования Белорусский государственный университет информатики и радиоэлектроники УДК 004.[932.75'1+89] Бурый Ярослав, Анатольевич Модель распознавания

Подробнее

Лекция 15 Использование аппарата нейронных сетей для определения качества восприятия в системах IPTV. План

Лекция 15 Использование аппарата нейронных сетей для определения качества восприятия в системах IPTV. План Лекция 15 Использование аппарата нейронных сетей для определения качества восприятия в системах IPTV План 1. Общие понятия о нейронных сетях (определение нейронной сети, шкала MOS) 2. Классификация нейронных

Подробнее

Применение речевой биометрии в системах ограничения доступа

Применение речевой биометрии в системах ограничения доступа Применение речевой биометрии в системах ограничения доступа Biometric voice verification is an efficient solution for the access control systems Хитрова Юлия Наримановна ООО «Центр речевых технологий»

Подробнее

ОБ ЭВОЛЮЦИОННОМ АЛГОРИТМЕ ФОРМИРОВАНИЯ НЕЙРОСЕТЕВОЙ СИСТЕМЫ ПОДАВЛЕНИЯ

ОБ ЭВОЛЮЦИОННОМ АЛГОРИТМЕ ФОРМИРОВАНИЯ НЕЙРОСЕТЕВОЙ СИСТЕМЫ ПОДАВЛЕНИЯ УДК 004.8;004.032.26 ОБ ЭВОЛЮЦИОННОМ АЛГОРИТМЕ ФОРМИРОВАНИЯ НЕЙРОСЕТЕВОЙ СИСТЕМЫ ПОДАВЛЕНИЯ И.С. Лыткин (lytkinis@yandex.ru) Сибирский государственный аэрокосмический университет имени академика М.Ф. Решетнёва,

Подробнее

ОТЗЫВ ОФИЦИАЛЬНОГО ОППОНЕНТА

ОТЗЫВ ОФИЦИАЛЬНОГО ОППОНЕНТА ОТЗЫВ ОФИЦИАЛЬНОГО ОППОНЕНТА на диссертацию Мозгового Алексея Александровича «Алгоритмизация распознавания сканированного рукописного текста на основе интеграции марковского моделирования и процедур обработки

Подробнее

Методы построения конечных автоматов на основе эволюционных алгоритмов

Методы построения конечных автоматов на основе эволюционных алгоритмов Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики Методы построения конечных автоматов на основе эволюционных алгоритмов Царев Федор Николаевич

Подробнее

Лекция 6. Нейросетевые методы, перцептрон Розенблатта, многослойный перцептрон. Лектор Сенько Олег Валентинович

Лекция 6. Нейросетевые методы, перцептрон Розенблатта, многослойный перцептрон. Лектор Сенько Олег Валентинович Лекция 6 Нейросетевые методы, перцептрон Розенблатта, многослойный перцептрон Лектор Сенько Олег Валентинович Курс «Математические основы теории прогнозирования» 4-й курс, III поток Сенько Олег Валентинович

Подробнее

Искусственный нейрон [M.161]

Искусственный нейрон [M.161] M.6 Искусственный нейрон Искусственный нейрон [M.6] Ключевую роль в понимании принципов функционирования нейронных сетей играет знание того, как работает искусственный нейрон. В основе его действия лежат

Подробнее

Аннотация проекта (ПНИЭР), выполняемого в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научнотехнологического

Аннотация проекта (ПНИЭР), выполняемого в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научнотехнологического Аннотация проекта (ПНИЭР), выполняемого в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научнотехнологического комплекса России на 2014 2020 годы» Номер соглашения о предоставлении

Подробнее

Ведущая организация: Санкт-Петербургский государственный университет аэрокосмического приборостроения, г. Санкт-Петербург

Ведущая организация: Санкт-Петербургский государственный университет аэрокосмического приборостроения, г. Санкт-Петербург Работа выполнена в Федеральном государственном образовательном бюджетном учреждении высшего профессионального образования «Санкт- Петербургский государственный университет телекоммуникаций им. проф. М.А.

Подробнее

А.В. Лапко, Н.B. Соснин, Г.О. Аникина НЕПАРАМЕТРИЧЕСКИЙ АЛГОРИТМ КЛАССИФИКАЦИИ ЛИНГВИСТИЧЕСКИХ ПЕРЕМЕННЫХ

А.В. Лапко, Н.B. Соснин, Г.О. Аникина НЕПАРАМЕТРИЧЕСКИЙ АЛГОРИТМ КЛАССИФИКАЦИИ ЛИНГВИСТИЧЕСКИХ ПЕРЕМЕННЫХ УДК 68.53 А.В. Лапко Н.B. Соснин Г.О. Аникина НЕПАРАМЕТРИЧЕСКИЙ АЛГОРИТМ КЛАССИФИКАЦИИ ЛИНГВИСТИЧЕСКИХ ПЕРЕМЕННЫХ Проведен анализ существующих алгоритмов распознавания образов в пространстве лингвистических

Подробнее

Y = ( )

Y = ( ) А.В. Чижков ОБУЧЕНИЕ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ Технологический институт Южного федерального университета в г. Таганроге e-mail: 4ijkov@rambler.ru Главным свойством искусственных нейронных сетей является

Подробнее

Нейронные сети. Краткий курс

Нейронные сети. Краткий курс Нейронные сети. Краткий курс Лекция 2 Алгоритм обратного распространения ошибок Многослойные персептроны применяются для решения разнообразного круга задач. Обучение такой нейронной сети часто выполняется

Подробнее

ДЕПАРТАМЕНТ ОБРАЗОВАНИЯ ГОРОДА МОСКВЫ Государственное бюджетное общеобразовательное учреждение города Москвы «Курчатовская школа» Рабочая программа

ДЕПАРТАМЕНТ ОБРАЗОВАНИЯ ГОРОДА МОСКВЫ Государственное бюджетное общеобразовательное учреждение города Москвы «Курчатовская школа» Рабочая программа ДЕПАРТАМЕНТ ОБРАЗОВАНИЯ ГОРОДА МОСКВЫ Государственное бюджетное общеобразовательное учреждение города Москвы «Курчатовская школа» 123060, Москва, улица Маршала Конева, дом 1 О ИНН 7734687492/КЛП 773401001

Подробнее

ВВЕДЕНИЕ На сегодняшний день конечно-элементные (КЭ) методы являются неотъемлемой частью инженерного анализа и разработок. КЭ пакеты используются

ВВЕДЕНИЕ На сегодняшний день конечно-элементные (КЭ) методы являются неотъемлемой частью инженерного анализа и разработок. КЭ пакеты используются ВВЕДЕНИЕ На сегодняшний день конечно-элементные (КЭ) методы являются неотъемлемой частью инженерного анализа и разработок. КЭ пакеты используются практически во всех сферах науки, касающихся анализа строительных

Подробнее

КЛАССИФИКАЦИЯ И СПОСОБЫ ОБУЧЕНИЯ НЕЙРОННЫХ СЕТЕЙ

КЛАССИФИКАЦИЯ И СПОСОБЫ ОБУЧЕНИЯ НЕЙРОННЫХ СЕТЕЙ УДК 004.8 Пальмов С.В., к.т.н., доцент кафедры ИСТ ПГУТИ Ланцов В.А., студент 4 курса ПГУТИ Российская Федерация, г. Самара КЛАССИФИКАЦИЯ И СПОСОБЫ ОБУЧЕНИЯ НЕЙРОННЫХ СЕТЕЙ Аннотация: В статье рассматриваются

Подробнее

ОТЗЫВ официального оппонента

ОТЗЫВ официального оппонента ОТЗЫВ официального оппонента доктора технических наук, профессора Соснина Петра Ивановича на диссертационную работу Касимова Дениса Рашидовича на тему «Разработка и исследование моделей и методики графического

Подробнее

О РАСПОЗНАВАНИИ СВЕРХБОЛЬШИХ СЛОВАРЕЙ РУССКИХ СЛОВОФОРМ НА ОСНОВЕ РАСПОЗНАВАНИЯ КВАЗИОСНОВ А.В. Ниценко. Институт проблем искусственного интеллекта

О РАСПОЗНАВАНИИ СВЕРХБОЛЬШИХ СЛОВАРЕЙ РУССКИХ СЛОВОФОРМ НА ОСНОВЕ РАСПОЗНАВАНИЯ КВАЗИОСНОВ А.В. Ниценко. Институт проблем искусственного интеллекта УДК 004.934 О РАСПОЗНАВАНИИ СВЕРХБОЛЬШИХ СЛОВАРЕЙ РУССКИХ СЛОВОФОРМ НА ОСНОВЕ РАСПОЗНАВАНИЯ КВАЗИОСНОВ А.В. Ниценко Институт проблем искусственного интеллекта Статья посвящена описанию способа распознавания

Подробнее

Электронный научно-практический журнал «МОЛОДЕЖНЫЙ НАУЧНЫЙ ВЕСТНИК» ИЮЛЬ 2016 ТЕХНИЧЕСКИЕ НАУКИ

Электронный научно-практический журнал «МОЛОДЕЖНЫЙ НАУЧНЫЙ ВЕСТНИК» ИЮЛЬ 2016 ТЕХНИЧЕСКИЕ НАУКИ УДК 004.021 ОБЗОР СИСТЕМ РАСПОЗНАВАНИЯ ГОЛОСА Галимов Р.З. МГТУ им. Н. Э. Баумана, кафедра «Системы обработки информации и управления» E-mail: delfin1995@rambler.ru В работе приводится история систем распознавания

Подробнее

Системы обработки информации и взаимодействие групп мобильных роботов на основе миварного информационного пространства

Системы обработки информации и взаимодействие групп мобильных роботов на основе миварного информационного пространства УДК 004.82, 007.04 О.О. Варламов Московская академия рынка труда и информационных технологий, Россия ovar@yandex.ru Системы обработки информации и взаимодействие групп мобильных роботов на основе миварного

Подробнее

Единый государственный экзамен по ИНФОРМАТИКЕ И ИКТ. Кодификатор

Единый государственный экзамен по ИНФОРМАТИКЕ И ИКТ. Кодификатор Единый государственный экзамен по ИНФОРМАТИКЕ И ИКТ Кодификатор элементов содержания и требований к уровню подготовки выпускников общеобразовательных учреждений для единого государственного экзамена 2010

Подробнее

А.Т.Трофимов, А.Г.Горячев АДАПТИВНЫЙ КООРДИНАТНЫЙ БАЗИС ДЛЯ ОБРАБОТКИ РЕЧЕВЫХ СИГНАЛОВ

А.Т.Трофимов, А.Г.Горячев АДАПТИВНЫЙ КООРДИНАТНЫЙ БАЗИС ДЛЯ ОБРАБОТКИ РЕЧЕВЫХ СИГНАЛОВ УДК 62.396.98 А.Т.Трофимов, А.Г.Горячев АДАПТИВНЫЙ КООРДИНАТНЫЙ БАЗИС ДЛЯ ОБРАБОТКИ РЕЧЕВЫХ СИГНАЛОВ There are adduced results of computer analysis of speech signals for which the model based on poly-

Подробнее

Анализ содержания диссертации Во введении обоснована актуальность темы диссертационной работы, приведены методы и информационная база исследования,

Анализ содержания диссертации Во введении обоснована актуальность темы диссертационной работы, приведены методы и информационная база исследования, Анализ содержания диссертации Во введении обоснована актуальность темы диссертационной работы, приведены методы и информационная база исследования, сведения об апробации работы, поставлена цель и определены

Подробнее

ВЫБОР МИНИМАЛЬНОЙ КОНФИГУРАЦИИ НЕЙРОННЫХ СЕТЕЙ

ВЫБОР МИНИМАЛЬНОЙ КОНФИГУРАЦИИ НЕЙРОННЫХ СЕТЕЙ Вычислительные технологии Том 6, 1, 2001 ВЫБОР МИНИМАЛЬНОЙ КОНФИГУРАЦИИ НЕЙРОННЫХ СЕТЕЙ Н.А. Игнатьев Национальный университет Узбекистана, Ташкент e-mail: tin000@tashsu.silk.org A method for the selection

Подробнее

Об одном методе распознавания изображений

Об одном методе распознавания изображений Модел. и анализ информ. систем. Т.14, 4 (2007) 7 12 УДК 519.68:[681.5137+612.8.001.57+007.51/52] Об одном методе распознавания изображений Михайлов И. А. Ярославский государственный университет 150 000,

Подробнее

к.т.н. доцент Запорожец О. В., аспирант Овчарова Т. А. Харьковский национальный университет радиоэлектроники E-al: oleg_zaporozhets@rabler.ru ИССЛЕДОВАНИЕ ПОГРЕШНОСТЕЙ НЕЙРОСЕТЕВОЙ МОДЕЛИ НЕЛИНЕЙНОГО ИЗМЕРИТЕЛЬНОГО

Подробнее

ОБРАБОТКА ДАННЫХ: ПОИСК КОМПРОМИССА МЕЖДУ ТОЧНОСТЬЮ ИЗМЕРЕНИЙ И СЛОЖНОСТЬЮ МОДЕЛИ

ОБРАБОТКА ДАННЫХ: ПОИСК КОМПРОМИССА МЕЖДУ ТОЧНОСТЬЮ ИЗМЕРЕНИЙ И СЛОЖНОСТЬЮ МОДЕЛИ ОБРАБОТКА ДАННЫХ: ПОИСК КОМПРОМИССА МЕЖДУ ТОЧНОСТЬЮ ИЗМЕРЕНИЙ И СЛОЖНОСТЬЮ МОДЕЛИ Соколов А.В. Институт проблем передачи информации им. А.А.Харкевича РАН, г.москва Институт геохимии и аналитической химии

Подробнее

Современные требования ВАК к кандидатским диссертациям по техническим наукам. Принципы научных исследований.

Современные требования ВАК к кандидатским диссертациям по техническим наукам. Принципы научных исследований. Занятие 1: Современные требования ВАК к кандидатским диссертациям по техническим наукам. Принципы научных исследований. Цель лекции: 1. Раскрыть сущность, основные принципы и базовые понятия диссертационного

Подробнее

Содержание программы

Содержание программы Пояснительная записка В Омской гуманитарной академии вступительный экзамен по информатике и информационно-коммуникационным технологиям проводится по материалам и в форме, соответствующим требованиям и

Подробнее

СТАТИСТИЧЕСКИЕ ЗАДАЧИ ПЛАНИРОВАНИЯ ПРОГОНА ИМИТАЦИОННОЙ МОДЕЛИ

СТАТИСТИЧЕСКИЕ ЗАДАЧИ ПЛАНИРОВАНИЯ ПРОГОНА ИМИТАЦИОННОЙ МОДЕЛИ СТАТИСТИЧЕСКИЕ ЗАДАЧИ ПЛАНИРОВАНИЯ ПРОГОНА ИМИТАЦИОННОЙ МОДЕЛИ. Введение В. Д. Левчук (Гомель, Беларусь) Общепризнано, что при использовании имитационного моделирования планированию имитационных экспериментов

Подробнее

Отзыв. специальности: Автоматизация и управление технологическими процессами и производствами (в промышленности)

Отзыв. специальности: Автоматизация и управление технологическими процессами и производствами (в промышленности) Отзыв официального оппонента, доктора технических наук Шпрехера Дмитрия Марковича на диссертационную работу Нийонсаба Теренс, выполненную на тему: «Методы и алгоритмы управления технологическими процессами

Подробнее

Обработка экспертных оценок и интерпретация результатов. 1.Введение

Обработка экспертных оценок и интерпретация результатов. 1.Введение Обработка экспертных оценок и интерпретация результатов. 1.Введение Целью обработки оценок является получение обобщенного мнения на основании множественных суждений экспертов. Совместной обработке обычно

Подробнее

Актуальность избранной темы диссертации

Актуальность избранной темы диссертации ОТЗЫВ официального оппонента д.т.н. проф. Вента Д. П. на диссертацию НийонсабаТеренс на тему: «Методы и алгоритмы управления технологическими процессами с неизвестными зависимостями параметров», представленную

Подробнее

ИСПОЛЬЗОВАНИЕ АППАРАТА НЕЙРОННЫХ СЕТЕЙ ДЛЯ РЕШЕНИЯ ЗАДАЧИ ВОССТАНОВЛЕНИЯ ГРАФИЧЕСКИХ ИЗОБРАЖЕНИЙ

ИСПОЛЬЗОВАНИЕ АППАРАТА НЕЙРОННЫХ СЕТЕЙ ДЛЯ РЕШЕНИЯ ЗАДАЧИ ВОССТАНОВЛЕНИЯ ГРАФИЧЕСКИХ ИЗОБРАЖЕНИЙ УДК 004.032.26(063) ИСПОЛЬЗОВАНИЕ АППАРАТА НЕЙРОННЫХ СЕТЕЙ ДЛЯ РЕШЕНИЯ ЗАДАЧИ ВОССТАНОВЛЕНИЯ ГРАФИЧЕСКИХ ИЗОБРАЖЕНИЙ Е. М. Будкина Рассматривается применение функции сигмоидного типа в качестве функции

Подробнее

Вопросы для вступительного экзамена в докторантуру по дисциплинам «Автоматизация технических систем»

Вопросы для вступительного экзамена в докторантуру по дисциплинам «Автоматизация технических систем» Вопросы для вступительного экзамена в докторантуру по дисциплинам «Автоматизация технических систем» 1 Основные задачи в области автоматизации технических систем и их связь с требованиями производства.

Подробнее

2.4.Нейросетевой подход в распознавании образов

2.4.Нейросетевой подход в распознавании образов .4.Нейросетевой подход в распознавании образов Идея: моделирование процессов, происходящих в нервной системе живых организмов при обработке поступающей информации. мозг гораздо быстрее и точнее компьютера

Подробнее

Представляемая работа посвящена взаимосвязанным проблемам (плакат 2) полноты выделения знаний из множества (корпуса) тематических текстов анализом

Представляемая работа посвящена взаимосвязанным проблемам (плакат 2) полноты выделения знаний из множества (корпуса) тематических текстов анализом Представляемая работа посвящена взаимосвязанным проблемам (плакат 2) полноты выделения знаний из множества (корпуса) тематических текстов анализом релевантности исходной фразе и поиска наиболее рационального

Подробнее

Идентификация человека по голосу с использованием нейронных сетей

Идентификация человека по голосу с использованием нейронных сетей Министерство образования и науки Российской Федерации ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «САРАТОВСКИЙ НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

Подробнее

Секция 1 Теоретические основы и методология имитационного и комплексного моделирования

Секция 1 Теоретические основы и методология имитационного и комплексного моделирования Секция Теоретические основы и методология ИСПОЛЬЗОВАНИЕ АДАПТИВНЫХ ПРИБЛИЖЕНИЙ В АЛГОРИТМАХ ПАРАМЕТРИЧЕСКОЙ ОПТИМИЗАЦИИ СЕТЕЙ С ОЧЕРЕДЯМИ В. Н. Задорожный, Е. С. Ершов, О. Н. Канева (Омск) Известно, что

Подробнее

Лабораторная работа 1

Лабораторная работа 1 Лабораторная работа Кодирование речевых сигналов на основе линейного предсказания Основной принцип метода линейного предсказания состоит в том, что текущий отсчет речевого сигнала можно аппроксимировать

Подробнее

На самостоятельное изучение выносятся следующие разделы: 2 Процесс построения математической модели. 3 Суть компьютерного моделирования.

На самостоятельное изучение выносятся следующие разделы: 2 Процесс построения математической модели. 3 Суть компьютерного моделирования. Методические указания по самостоятельному изучению разделов дисциплины «Методы математического моделирования». На самостоятельное изучение выносятся следующие разделы: 1 Форма и принципы представления

Подробнее

Аспирант. И.В. Бугаев. Научный руководитель, д.ф-м.н., проф. каф. Информатики

Аспирант. И.В. Бугаев. Научный руководитель, д.ф-м.н., проф. каф. Информатики Министерство образования и науки Российской Федерации федеральное государственное бюджетное образовательное учреждение высшего образования «САНКТ-ПЕТЕРБУРГСКИЙ ГОРНЫЙ УНИВЕРСИТЕТ» кафедра Информационной

Подробнее

МАТЕМАТИЧЕСКИЕ ОСНОВЫ ТЕОРИИ ПРОГНОЗИРОВАНИЯ. Лектор Сенько Олег Валентинович Лекция 5

МАТЕМАТИЧЕСКИЕ ОСНОВЫ ТЕОРИИ ПРОГНОЗИРОВАНИЯ. Лектор Сенько Олег Валентинович Лекция 5 МАТЕМАТИЧЕСКИЕ ОСНОВЫ ТЕОРИИ ПРОГНОЗИРОВАНИЯ Лектор Сенько Олег Валентинович Лекция 5 Принцип частичной прецедентности Существует ряд методов распознавания, основанных на Принципе частичной прецедентности.

Подробнее

Л. А. Николенко ( г Красноярск Сибирский федеральный университет)

Л. А. Николенко ( г Красноярск Сибирский федеральный университет) ФОРМИРОВАНИЕ ПРИЗНАКОВ ДЛЯ ДИКТОРОНЕЗАВИСИМОГО РАСПОЗНАВАНИЯ ФОНЕМ РУССКОГО ЯЗЫКА Л. А. Николенко ( г Красноярск Сибирский федеральный университет) В статье содержится аналитический обзор методов цифровой

Подробнее

Возжаева И.В. Вычислительный Центр ДВО РАН (Хабаровск)

Возжаева И.В. Вычислительный Центр ДВО РАН (Хабаровск) Модели-классификаторы в медицине Возжаева ИВ Вычислительный Центр ДВО РАН (Хабаровск) В наше время математическое моделирование компонент, активно участвующий почти во всех отраслях науки, в том числе

Подробнее

Алгоритм и методы распознавания речи

Алгоритм и методы распознавания речи # 06, июнь 2016 УДК 681.531.2 Введение Алгоритм и методы распознавания речи Алборова Ж.В., студент Россия, 105005, г. Москва, МГТУ им. Н.Э. Баумана, кафедра «Робототехнические системы и мехатроника» Научный

Подробнее

Лекция 5. Проблемы практического использования нейросетей

Лекция 5. Проблемы практического использования нейросетей «Интеллектуальные компьютерные технологии обработки социологической информации» Лекция 5. Проблемы практического использования нейросетей Учебные вопросы: 1. Основы функционирования биологических нейронных

Подробнее

Глава 4 МЕТОДЫ ПОЛУЧЕНИЯ ГРУППОВЫХ ЭКСПЕРТНЫХ ОЦЕНОК СЦЕНАРИЕВ

Глава 4 МЕТОДЫ ПОЛУЧЕНИЯ ГРУППОВЫХ ЭКСПЕРТНЫХ ОЦЕНОК СЦЕНАРИЕВ Глава МЕТОДЫ ПОЛУЧЕНИЯ ГРУППОВЫХ ЭКСПЕРТНЫХ ОЦЕНОК СЦЕНАРИЕВ Методы получения усредненных оценок Анализ экспертных оценок может выполняться с использованием разнообразных статистических методов однако

Подробнее

Основные результаты работы, полученные автором, заключаются в следующем: предложен новый тип электропривода, позволяющий заменить пневматические

Основные результаты работы, полученные автором, заключаются в следующем: предложен новый тип электропривода, позволяющий заменить пневматические ОТЗЫВ официального оппонента на диссертацию Богданова Анатолия Олеговича «Разработка и исследование орбитального электропривода муфты включения кривошипного пресса», представленную на соискание ученой

Подробнее

ПРИНЦИП РАБОТЫ МОДУЛЯ НЕЧЕТКО-НЕЙРОННОГО УПРАВЛЕНИЯ НА ОСНОВЕ АЛГОРИТМА ОБРАТНОГО РАСПРОСТРАНЕНИЯ ОШИБКИ

ПРИНЦИП РАБОТЫ МОДУЛЯ НЕЧЕТКО-НЕЙРОННОГО УПРАВЛЕНИЯ НА ОСНОВЕ АЛГОРИТМА ОБРАТНОГО РАСПРОСТРАНЕНИЯ ОШИБКИ УДК 004.8.03.6 ПРИНЦИП РАБОТЫ МОДУЛЯ НЕЧЕТКО-НЕЙРОННОГО УПРАВЛЕНИЯ НА ОСНОВЕ АЛГОРИТМА ОБРАТНОГО РАСПРОСТРАНЕНИЯ ОШИБКИ Жантасова Б.Т., otasha_zhan@al.ru Костанайский государственный университет им. А.Байтурсынова,

Подробнее