Содержание: |
---|
Разработки фирмы "ИстраСофт" в области звуковых технологий |
Теоретические основы |
IstraSoft Voice Commander |
Sound Squeezer и SF6 Player |
Проводимые нами исследования в области компьютерных звуковых технологий позволили разработать алгоритмическую базу, основанную на качественном измерении параметров звуковых сигналов.
Разработки в области компьютерных звуковых технологий включают в себя следующие основные направления:
В настоящее время эти задачи решаются взаимоисключающими методами и алгоритмами, т.е. алгоритмы сжатия неприменимы в распознавании, алгоритмы распознавания в сжатии и в синтезе и т.д.
Целью наших исследований была разработка единой алгоритмической базы, основанной на качественном измерении параметров звуковых сигналов, для решения всех указанных задач. Исследования позволили нам понять, какая часть речевого сигнала представляет фонему речи. Был разработан алгоритм выделения фонем из слитной речи в реальном времени. Алгоритм производит адаптивный анализ параметров звуковой информации и отделение параметров голосовой щели от параметров артикуляционного фильтра, выделяет параметры сигнала, которые воспринимаются как определенный звук (фонема), включая интонацию, описывает все измеренные параметры математически кратко. Этот алгоритм используется, как при сжатии, с учетом особенностей человеческого слуха, так и при синтезе и распознавании речи, что дает возможность разрабатывать речевые системы принципиально по-новому.
В соответствии с этим, например, решение задач речевых технологий теперь можно представить в виде схемы:
На основе разработанных алгоритмов в настоящее время выполнены следующие работы.
1.Разработаны демонстрационные программы сжатия речевых файлов, которые позволяют сжимать WAV или непосредственно звуковые файлы любых форматов от 8 кГц 8 бит, до 128 кГц 16 бит от 20 до 200 раз с последующим синтезом с высоким качеством.
Файлы телефонного формата 8 бит 8 кгц в демо программах сжимаются до потока 3 кбит/сек., что лучше телефонных форматов GSM, L&H и др. А формат 16 бит 22050 - до потока 8 кбит/сек. с последующим синтезом с высоким качеством, что лучше известного формата РеалАуди , Mpeg3. И это не предел, нам понятно, как довести сжатие до потока 1 кбит/сек с тем же высоким качеством. Восстановление сжатых звуковых файлов это - синтез речи из фонемного описания, причем, степень компактности описания фонемы определяет степень сжатия.
Предлагаемая в данный момент на нашем сайте программа сжатия и декомпрессии настроена на работу с файлами WAV PCM формата 22050/16 бит или выше
2. Разработана многопотоковая программа сжатия речи (кодек), основанная на выделении и распознавании фонем, Кодек выполнен в виде DLL модуля, позволяет получить сжатый речевой поток 8 кбит/с и синтезировать из этого потока речь с качеством CD, а также получить поток 1.5 кбит/с воспроизведением хорошего телефонного качества. В настоящее время кодек работает в среде Windows в реальном времени на PC с процессором Pentium с тактовой частотой не ниже 80 МГц. Программа предназначена для встраивания в программные системы передачи речи по Интернету и Интранету, для локальной сети предприятия и цифровой телефонии, для любой системы цифровой передачи данных.
3. Разработан модуль диктофона, выполненный как DLL-программа. Модуль позволяет сжать звуковое письмо, произнесенное в формате 22050 Гц , 16 бит в 60-100раз с отличным качеством воспроизведения речи и до 200 раз - с хорошим. Программа дает возможность записать три часа речи на 3-х дюймовой дискете. Модуль предназначен для встраивания в почтовые программы для записи и воспроизведения звуковых писем и передачи их по Интернету и любым другим каналам передачи цифровых данных.
4. Проведены исследования применения алгоритма в голосонезависимом распознавании речи. Разработана демонстрационная программа голосонезависимого командного распознавания - Istrasoft Voice Commander.
5. Разработан инструментарий для создания компрессированных звуковых баз данных.
Проблемы синтеза речи по тексту будут решаться на следующем этапе разработок, так как для каждого языка необходимо набрать библиотеку описаний фонем и базы данных соответствия транскрипции и буквенного описания.
Реализация алгоритма сжатия и восстановления звуковых файлов в микросхеме позволит существенно улучшить потребительские качества многих существующих речевых устройств: цифровых телефонов, модемов интернет-телефонии, и систем хранения и передачи речевой информации, кроме того, микросхема будет основой систем распознавания и синтеза речи.
Разработан новый кодек сжатия звука, Sound Squeezer, который позволяет сжимать как музыкальную, так и речевую информацию, представленную в различных форматах.