Our support team works from 10.00 till 19.00 (Mon-Fri)
Saturdays and Sundays are days off.
Phone: (499) 390-0138
e-mail: support@istrasoft.com
Эммануил Григорьевич Кнеллер
Генеральный директор ЗАО «ИстраСофт», www.istrasoft.ru, This e-mail address is being protected from spambots. You need JavaScript enabled to view it
Вице-президент некоммерческого партнерства «Консорциум Российские Речевые Технологии»
Речь в физическом понимании - это акустический сигнал, генерируемый артикуляционными органами человека, передающийся через физическую среду, воспринимаемый ухом человека. При естественной или искусственной генерации речи в акустическом сигнале изменяются физические параметры. Эти изменения воздействуют на мембрану уха, создают траектории звуковых образов, понимаемых человеком как соответствующие звуки данного языка.
Математическую модель генерации звука можно представить в виде возбуждающих генераторов тонового и белого шума, группы резонаторов, модуляторов и ключей (рот, нос, язык, губы) (Рис. 1), обеспечивающих формирование ощущения определенного звука. Звуки, в зависимости от физики их получения, определяются нами как:
Рис. 1. Обобщенная математическая модель генерации звука.
Системы распознавания речи - это системы, анализирующие акустический сигнал алгоритмами, основанными на разнообразных теориях, предполагающих, какие характеристики речевого сигнала создают ощущения звуков данного языка, и математических методах, с той или иной точностью выделяющих значащие параметры акустического сигнала и преобразующие его в различной полноте в необходимую форму.
Наиболее легко выделяемой характеристикой речевого сигнала является основной тон. (Рис. 2) Тон представляет собой частотно-модулированный сигнал, характеризующийся изменением частоты во времени при произнесении тонового звука, слова или фразы. Относительное изменение частоты может достигать 80%, что в европейских языках передает эмоциональную составляющую речи, а в некоторых восточных - смысловую.
Рис 2. Измененения тона во фраза «У меня болит живот.»
Так в русском языке различные траектории тона вызывают ощущение до 28 типов эмоций. Установлено, что частота основного тона разных людей (мужчин, женщин, детей) находится в диапазоне 60-400 Гц.
Имеется несколько теорий, основанных на модели генерации звуков. Одна из них - формантная теория, предполагающая, что звуки определяются частотами резонансных фильтров, которые создаются артикуляционными органами человека. Наши исследования показали что форманты - это только один из способов генерации для получения соответствующих физических характеристик сигнала, создающих ощущение звука. (Рис. 3) Так, например, звук «А» у различных людей может состоять как из одной, так и двух формант. Положение формант на частотной оси у различных людей - мужчин и женщин - также прямо не коррелирует с соответствующими звуками. Кроме того, некоторые форманты являются присущими индивидууму и создают ощущение его индивидуальности (узнаваемости).
Рис. 3. Расположение формант во фраза «У меня болит живот.»
Другие теории, распространенные в настоящее время, предварительно не определяют и не выделяют конкретные физические параметры, а должны выделить и/или накопить их в процессе тренировки. Такие системы для выделения параметров определения звуков из акустического сигнала используют, как правило, Фурье-преобразование акустического сигнала в спектр с последующим анализом этого спектра с использованием алгоритмов, основанных на скрытых Марковских моделях (HMM), нейро алгоритмах и динамическом программировании. В полученной таким образом спектральной информации параметры, создающие ощущения звуков речи, теряют динамическую составляющую и ассоциируются со многими параметрами, не относящимися к речевой составляющей акустического сигнала, которые зашумляют сигнал и влияют на точность распознавания. Такой подход при обработке речевой информации обеспечивает минимально приемлемую надежность распознавания свободной речи (около 85%) только в строго фиксированных условиях и отличается неустойчивостью к влиянию внешней среды и каналов связи, что недостаточно для разработки коммерческих систем. Этот подход был разработан более 40 лет назад и применяется сейчас практически во всех существующих системах распознавания, но он не позволил за это время создать массовые коммерческие системы в области распознавания речи.
Под коммерческим массовым продуктом понимается продукт, который для конечного потребителя является комфортным, не вызывает отторжения многочисленными ошибками основного функционала, интерфейсом и требованиями, ограничивающими естественное взаимодействие с ним пользователя.
Всё это напоминает поиски «под фонарем», где все уже осмотрено и найти новое невозможно, хотя надо бы осветить и поискать в других местах.
Проводимые нами исследования показали, что определяющими характеристиками, создающими ощущения звуков речи, вне зависимости от типа возбуждающего сигнала - шумового, тонового или их комбинации, являются параметры, в том числе динамические, речевого сигнала в значащих зонах в течение значимых отрезков времени (5-20 mS, 30-50 mS, 50-100 mS). (Рис. 4) Такими характеристиками являются:
Рис.4. Характеристики речевого сигнала, создающие ощущения звуков речи.
Характеристики, описывающие изменения физических параметров во времени в значащих зонах, определяются нами как:
Под статическими нами понимаются характеристики, параметры которых незначительно изменяются в течение 30-100 mS и более.
Под динамическими понимаются характеристики, параметры которых изменяются по определенным траекториям в течение 30-100 mS.
Под взрывными понимаются характеристики, параметры которых изменяются по определенным траекториям в течение 10-20 mS.
Ощущение звуков создается в одной или двух значащих зонах.
Акустический сигнал мы можем ощутить как звук речи, если длительность характеристик сигнала не менее 30-50 mS. При меньшей длительности мы не сможем определить звук.
На основе полученных в результате исследований теоретических представлений о значащих характеристиках речевого сигнала, создающих ощущения звуков речи, разработана методика и алгоритмы определения этих параметров. Критерием определения соответствия характеристики тому или иному звуку и правильности определения границ параметров служила оценка экспертами звука, генерируемого на основе параметров выделенной характеристики. Были определенны параметры в значащих зонах для звуков русского, немецкого и английского языков. Эти параметры гласных звуков русского языка преведены в таблице.
Для первичной обработки сигнала разработаны алгоритмы на основе математической модели улитки уха как первичного анализатора акусто-фонетической информации, позволяющие выделить и количественно измерить, независимо от говорящего, физические параметры сигнала, отвечающие за ощущение того или иного звука речи соответствующего языка. Математическая модель спектрального преобразования основана на выделении спектра гребенкой рекурсивных фильтров. Параметры фильтров соответствуют характеристикам чувствительности улитки уха по частоте, линейности преобразования, энергетике в зонах воздействия, времени воздействия, ее динамике и времени восстановления чувствительности после воздействия.
Предложенный подход позволяет разработать новые алгоритмы для преобразования речевого потока в полно аннотируемое текстовое представление (звуки +метаданные), то есть создать системы полного транскрибирования непрерывной речи. Что может лечь в основу коммерческих систем в различных сферах (например, «речь в текст»).
В существующих сегодня на рынке наших коммерческих массовых обучающих языковых программах серии Профессор Хиггинс и демо-программах, где внедрены алгоритмы определения звуков (фонем), используется механизм сравнения траекторий изменения характеристик, создающих ощущения звуков, с базой записанных эталонов. (Рис. 5)
Рис.5. На рисунке представлен скриншот с экрана программы Профессор Хиггинс «Русский без акцента!», показывающий на слове «абзац» применение алгоритмов сравнения траекторий характеристик, создающих ощущения звуков, с базой записанных эталонов, для визуализации системы распознавания фонем и оценки правильности произношения звуков.
На следующих рисунках в 2D- и 3D-форматах представлена визуализация значащих зон на примерах произнесения русских гласных звуков. Примеры показывают, насколько выделяемые нами признаки, определяющие ощущения звуков, информативны, значимы и помогают пользователю освоить правильное произношение.
На основе нашего опыта использования разработанных алгоритмов в массовых коммерческих программах для существенного улучшения характеристик определения звуков, получения новых полезных функций и разработки новых продуктов необходимо проведение исследований по развитию технологии до полной фонетической транскрибации речевого сигнала. Технология полной фонетической транскрибации позволит существенно развить и дополнить новыми функциями существующие продукты обучения языкам и развить демо-продукты по распознаванию слов и фраз в полноценные коммерческие продукты. Развитие технологии полного фонетического транскрибирования позволит создать фонетическую базу, которая может стать, например, первым нижним уровнем для существующих систем распознавания текстов (OCR) и позволит создать реальный коммерческий продукт типа «речь в текст» для русской речи.
Рынок речевых технологий имеет огромный потенциал для бизнеса и ждет новых эффективных алгоритмов обработки речевого сигнала. При их появлении в последующие несколько лет в нашу повседневную жизнь будут интенсивно входить устройства и компьютерные технологии, основанные на речевом общении. Обширный ассортимент приложений для голосовых технологий делает точный прогноз затрудненным по сравнению с другими новыми технологиями. Возможны следующие приложения:
Распознавание и синтез речи:
Первая стадия - распознавание отдельных голосовых команд и синтез голосовых сообщений. Основные потребители - производители всевозможных устройств домашнего применения, таких как телевизоры, видеомагнитофоны, микроволновые печи, стиральные машины и т.д. Суммарное мировое производство телевизоров оценивается в 100 миллионов штук. При цене 5 $ за функцию (модуль) управления голосом ежегодный рынок, только в этом сегменте, даст общий объем в 500 миллионов USD.
Речевые технологии, позволяющие распознавать команды в условиях шумов, позволят дополнить управление в автомобилях таким функциями как свет, радио, замки и т.д. Объем рынка в этом сегменте может достигнуть в 2020 7.5 миллиардов USD.
Наиболее значительное применение голосовых технологий - это электронная коммерция. Рынок голосовой навигации в Web сайтах, осуществляющих электронную торговлю услугами по продаже авиа- и железнодорожных билетов, продуктов, другими услугами и сервисами, как по телефону, так и через Интернет, по оценкам экспертов, может достигнуть 500 миллионов USD в течение года от начала применения.
Сжатие (компрессия) звука:
Уменьшает объем данных и, соответственно, стоимость передачи речи по каналам связи и хранения данных речевой информации. Позволяет использовать речь, подписанную цифровым образом, в качестве документа. Целевые пользователи этой технологии - компании, осуществляющие телекоммуникации, и провайдеры VoIP и голосовых писем
Распознавание диктора:
Это определение индивидуального голоса для защитных устройств (доступ к программам, к базам данных, в помещения и т.д.). Основные потенциальные пользователи этой технологии е-коммерция, м-коммерция и особенно банки, где голос может быть решающим ключом для безопасности. Сейчас не представляется возможным определить потенциал рынка ввиду его закрытости.
Системы обучения языкам:
Технология выделения и измерения фонем речи открывает новые возможности для обучения языкам. Она вводит в процесс обучения языку, кроме звуковой, визуальную обратную связь, позволяет увидеть свою и эталонную речь, сравнить их визуально, увидеть ошибки произношения и получить оценку произнесения фонемы, слова и фразы. Введение в процесс обучения языкам визуальной обратной связи позволяет визуализировать неправильно произнесенные звуки и дать рекомендации по их исправлению. Так как 80% информации человек получает через зрение и поэтому визуальный анализ у большинства людей развит намного лучше, чем звуковой, визуализация речи дает возможность намного быстрей ее освоить. Кроме того, визуализация процесса произношения с выделением фонем и показом положения артикуляционных органов по анализу произношения, позволяет создать уникальные системы для обучения произношению для людей с ограниченными возможностями: слабослышаших и глухих.
Рынок программ обучения, основанных на речевых технологиях - выделения, визуализации и распознавания фонем, позволяющих эффективно осваивать речь, (говорить и слышать) по оценке экспертов индийской фирмы Edaxis только для Английского языка может достигнуть в Индии 500 млн. USD в год.
Основные проблемы, связанные с продолжением исследований и их коммерциализацией, - это недостаточная капитальная база, не дающая возможность интенсивно проводить исследования и разрабатывать новые инновационные алгоритмы в речевых технологиях, вынуждающая отвлекать высококвалифицированных специалистов компаний на различные аутсорсинговые работы, необходимые для финансовой поддержки компаний. Научный, исследовательский и программистский потенциал в России еще достаточно высок и позволяет успешно выполнять заказы западных партнеров по разработке систем распознавания речи, но, к сожалению, эти системы создаются не для русского языка и разработанные технологии и программы не принадлежат российским фирмам.