Распознавание речи

Общее название широкой области речевых технологий, за которым кроется целый ряд достаточно обособленных направлений, каждое из которых ориентировано на решение конкретных прикладных задач и требует отдельной проработки.

Автоматическое распознавание речи — это процесс преобразования речевого сигнала в текст.

Способы распознавания речи

Выделяют несколько основных способов распознавания речи:

Распознавание отдельных команд.

Суть технологии: раздельное произнесение и последующее распознавание слова или словосочетания из небольшого заранее заданного словаря.

Техническая реализация: точность распознавания ограничена объемом заданного словаря. При соблюдении этого условия данная технология позволяет достичь самой высокой достоверности распознавания.

Применение: в настоящее время наиболее ярким примером использования технологии распознавания отдельных команд в коммерческих приложениях является голосовая навигация по сайтам.

Распознавание по грамматике

Суть технологии: распознавание фраз, соответствующих определенным заданным правилам (грамматике).

Техническая реализация: для задания грамматик используются стандартные XML-языки (VoiceXML), обмен данными между системой распознавания и приложением, как правило, осуществляется по протоколу MRCP.

Применение: технология распознавания по грамматике широко применяется в системах голосового самообслуживания (СГС).

Поиск ключевых слов в потоке слитной речи.

Суть технологии: распознавание отдельных участков речи.

Техническая реализация: в этом случае речь может быть как спонтанной, так и соответствующей определённым правилам. Произнесенная речь не полностью преобразуется в текст - в ней автоматически находятся лишь те участки, которые содержат заданные слова или словосочетания.

Применение: данная технология распознавания часто применяется в поисковых системах, в системах мониторинга речи.

Распознавание слитной речи на большом словаре (LVCSR — large vocabulary continuous speech recognition).

Суть технологии: эта технология наиболее близка к мечте человека о взаимодействии человека и машины – все, что сказано, дословно преобразуется в текст. Поэтому иногда эта технология так и называется STT – speech to text.

Техническая реализация: задача полноценного распознавания слитной речи не решена нигде в мире, однако, достоверность распознавания уже достаточно высока для использования технологии на практике.

Применение: потенциальная сфера применения технологии в коммерческих целях довольно широка.

 

Технологии распознавания речи

В зависимости от способов распознавания применяются различные технологии.

Наиболее сложной является технология распознавания слитной речи на большом словаре.

Этапы распознавания.

1. Обработка речи начинается с оценки качества речевого сигнала. На этом этапе определяется уровень помех и искажений.

2. Результат оценки поступает в модуль акустической адаптации, который управляет модулем расчета параметров речи, необходимых для распознавания.

3. В сигнале выделяются участки, содержащие речь, и происходит оценка параметров речи.

4. Далее параметры речи поступают в основной блок системы распознавания – декодер. Это компонент, который сопоставляет входной речевой поток с информацией, хранящейся в акустических и языковых моделях, и определяет наиболее вероятную последовательность слов, которая и является конечным результатом распознавания.

А) Акустические модели. При сравнительно небольшом рабочем словаре высокой достоверности распознавания можно достигнуть, лишь сопоставляя входной поток речи с шаблонами отдельных звуков – акустическими моделями. Современная тенденция технологии описания звуковых образов подразумевает комбинирование различных подходов. Так, в «Центре речевых технологий» для описания акустических моделей используют комбинацию классической теории цифровой обработки сигналов и технологии искусственных нейронных сетей. Такие модели наиболее устойчивы к междикторской вариативности, а также к помехам и искажениям, вносимым окружением или каналом передачи.

Б) Языковые модели. С ростом словаря увеличивается количество слов, схожих или даже одинаковых по звучанию. При слитном произнесении акустическая схожесть отдельных фрагментов речи проявляется настолько, что часто и человек, прослушивая запись вне контекста, не может в точности распознать то, что было произнесено. Поэтому значительную роль в распознавании речи играют так называемые языковые модели. Они позволяют определить наиболее вероятные словные последовательности. Сложность построения языковой модели во многом зависит от конкретного языка. Так, для английского языка, достаточно использовать статистические модели (так называемые N-граммы). Для высокофлективных языков (языков, в которых существует много форм одного и того же слова), к которым относится и русский, языковые модели, построенные только с использованием статистики, уже не дают такого эффекта – слишком много нужно данных, чтобы достоверно оценить статистические связи между словами. Задача осложняется тем, что в русском языке допустим произвольный порядок слов («мама мыла раму» - «раму мыла мама»). Поэтому в «Центре речевых технологий» используются гибридные языковые модели, использующие правила русского языка, информацию о части речи и форме слова и классическую статистическую модель.

В) При распознавании на большом словаре также используется модуль определения темы разговора. Это позволяет в зависимости от тематики речи автоматически менять словарь и языковые модели. Модуль определения темы разговора разработан с использованием теории data mining. По сути этот компонент – зачатки системы искусственного интеллекта, которая в будущем все чаще будет использоваться совместно с модулем распознавания, делая процесс преобразования речи в текст более осмысленным.

Обеспечение высокого качества распознавания

Качество распознавания зависит от двух факторов – структуры каркаса системы распознавания речи (набора программных модулей и алгоритмов, использующихся при распознавании) и качества моделей – акустических, языковых, тематических.

Все модели обучаются с использованием большого объема материала. Так, для акустических моделей используются сотни часов записей речи тысяч дикторов. Для повышения устойчивости распознавания к помехам и искажениям, при обучении используются записи в различных каналах и различных условиях. Для обучения языковых моделей и моделей тематик используются текстовые корпуса объемом от сотен миллионов словоформ до нескольких миллиардов. Подготовка такого объема обучающего материала – это сложная и кропотливая работа. «Центр речевых технологий» в течение нескольких десятилетий накапливал обучающий материал и на данный момент обладает уникальный по своим объемам, разнообразию и качеству набором записей и текстов, способных обеспечить высочайшее качество распознавания речи.

Использование в продукции

  • Распознавание и синтез речи
  • Поддержка ведущих IVR платформ
  • Совместимость с open source IP PBX
  • приём и обработка 100% поступающих звонков
  • работа со всеми типами телефонов
  • срок окупаемости системы: 6-10 месяцев
  • Прием и обработка до 100 000 вызовов в сутки
  • Средний уровень автоматизации - 95%

Система мониторинга и оценки качества работы операторов контакт-центра

  • Запись телефонных переговоров операторов
  • Автоматический анализ переговоров с использованием инструментов речевой аналитики
  • Оценка качества работы операторов
  • Определение эмоционального состояния дикторов
  • распознавание и синтез русской речи
  • обработка входящих звонков в компанию и внутренних звонков сотрудников
  • совместимость с любыми IP PBX
  • управление с помощью WEB -интерфейса
  • статистика звонков

Естественный интуитивно понятный способ навигации.

  • поддержка современных CMS платформ
  • совместим со всеми интернет-браузерами
  • идеален для создания интерактивных Web-проектов

Локальное программное обеспечение для поиска ключевых слов в архивах аудиофонограмм.

Система с распределенной клиент-серверной архитектурой для быстрой обработки больших объемов аудиоинформации.

Автоматическая система информирования клиентов.

  • голосовое оповещение по цифровым каналам связи
  • рассылка SMS-сообщений и электронной почты
  • интеграция с CRM-системами
  • формирование персональных сообщений