Биографии Характеристики Анализ

Как распознать речь. Два сервиса распознавания речи и перевода в текст онлайн

  • Tutorial

В этой статье я хочу рассмотреть основы такой интереснейшей области разработки ПО как Распознавание Речи. Экспертом в данной теме я, естественно, не являюсь, поэтому мой рассказ будет изобиловать неточностями, ошибками и разочарованиями. Тем не менее, главной целью моего «труда», как можно понять из названия, является не профессиональный разбор проблемы, а описание базовых понятий, проблем и их решений. В общем, прошу всех заинтересовавшихся пожаловать под кат!

Пролог

Начнём с того, что наша речь - это последовательность звуков. Звук в свою очередь - это суперпозиция (наложение) звуковых колебаний (волн) различных частот. Волна же, как нам известно из физики, характеризуются двумя атрибутами - амплитудой и частотой.

Таким вот образом механические колебания превращаются в набор чисел, пригодный для обработки на современных ЭВМ.

Отсюда следует, что задача распознавания речи сводится к «сопоставлению» множества численных значений (цифрового сигнала) и слов из некоторого словаря (русского языка, например).

Давайте разберемся, как, собственно, это самое «сопоставление» может быть реализовано.

Входные данные

Допустим у нас есть некоторый файл/поток с аудиоданными. Прежде всего нам нужно понять, как он устроен и как его прочесть. Давайте рассмотрим самый простой вариант - WAV файл.

Формат подразумевает наличие в файле двух блоков. Первый блок - это заголовка с информацией об аудиопотоке: битрейте, частоте, количестве каналов, длине файла и т.д. Второй блок состоит из «сырых» данных - того самого цифрового сигнала, набора значений амплитуд.

Логика чтения данных в этом случае довольно проста. Считываем заголовок, проверяем некоторые ограничения (отсутствие сжатия, например), сохраняем данные в специально выделенный массив.

Распознавание

Чисто теоретически, теперь мы можем сравнить (поэлементно) имеющийся у нас образец с каким-нибудь другим, текст которого нам уже известен. То есть попробовать «распознать» речь… Но лучше этого не делать:)

Наш подход должен быть устойчив (ну хотя бы чуть-чуть) к изменению тембра голоса (человека, произносящего слово), громкости и скорости произношения. Поэлементным сравнением двух аудиосигналов этого, естественно, добиться нельзя.

Поэтому мы пойдем несколько иным путём.

Фреймы

Первым делом разобьём наши данные по небольшим временным промежуткам - фреймам. Причём фреймы должны идти не строго друг за другом, а “внахлёст”. Т.е. конец одного фрейма должен пересекаться с началом другого.

Фреймы являются более подходящей единицей анализа данных, чем конкретные значения сигнала, так как анализировать волны намного удобней на некотором промежутке, чем в конкретных точках. Расположение же фреймов “внахлёст” позволяет сгладить результаты анализа фреймов, превращая идею фреймов в некоторое “окно”, движущееся вдоль исходной функции (значений сигнала).

Опытным путём установлено, что оптимальная длина фрейма должна соответствовать промежутку в 10мс, «нахлёст» - 50%. С учётом того, что средняя длина слова (по крайней мере в моих экспериментах) составляет 500мс - такой шаг даст нам примерно 500 / (10 * 0.5) = 100 фреймов на слово.

Разбиение слов

Первой задачей, которую приходится решать при распознавании речи, является разбиение этой самой речи на отдельные слова. Для простоты предположим, что в нашем случае речь содержит в себе некоторые паузы (промежутки тишины), которые можно считать “разделителями” слов.

В таком случае нам нужно найти некоторое значение, порог - значения выше которого являются словом, ниже - тишиной. Вариантов тут может быть несколько:

  • задать константой (сработает, если исходный сигнал всегда генерируется при одних и тех же условиях, одним и тем же способом);
  • кластеризовать значения сигнала, явно выделив множество значений соответствующих тишине (сработает только если тишина занимает значительную часть исходного сигнала);
  • проанализировать энтропию;

Как вы уже догадались, речь сейчас пойдёт о последнем пункте:) Начнём с того, что энтропия - это мера беспорядка, “мера неопределённости какого-либо опыта” (с). В нашем случае энтропия означает то, как сильно “колеблется” наш сигнал в рамках заданного фрейма.

  • предположим, что наш сигнал пронормирован и все его значения лежат в диапазоне [-1;1];
  • построим гистограмму (плотность распределения) значений сигнала фрейма:
рассчитаем энтропию, как ;

И так, мы получили значение энтропии. Но это всего лишь ещё одна характеристика фрейма, и для того, что бы отделить звук от тишины, нам по прежнему нужно её с чем-то сравнивать. В некоторых статьях рекомендуют брать порог энтропии равным среднему между её максимальным и минимальным значениями (среди всех фреймов). Однако, в моём случае такой подход не дал сколь либо хороших результатов.
К счастью, энтропия (в отличие от того же среднего квадрата значений) - величина относительно самостоятельная. Что позволило мне подобрать значение её порога в виде константы (0.1).

Тем не менее проблемы на этом не заканчиваются:(Энтропия может проседать по середине слова (на гласных), а может внезапно вскакивать из-за небольшого шума. Для того, что бы бороться с первой проблемой, приходится вводить понятие “минимально расстояния между словами” и “склеивать” близ лежачие наборы фреймов, разделённые из-за проседания. Вторая проблема решается использованием “минимальной длины слова” и отсечением всех кандидатов, не прошедших отбор (и не использованных в первом пункте).

Если же речь в принципе не является “членораздельной”, можно попробовать разбить исходный набор фреймов на определённым образом подготовленные подпоследовательности, каждая из которых будет подвергнута процедуре распознавания. Но это уже совсем другая история:)

И так, мы у нас есть набор фреймов, соответствующих определённому слову. Мы можем пойти по пути наименьшего сопротивления и в качестве численной характеристики фрейма использовать средний квадрат всех его значений (Root Mean Square). Однако, такая метрика несёт в себе крайне мало пригодной для дальнейшего анализа информации.

Вот тут в игру и вступают Мел-частотные кепстральные коэффициенты (Mel-frequency cepstral coefficients). Согласно Википедии (которая, как известно, не врёт) MFCC - это своеобразное представление энергии спектра сигнала. Плюсы его использования заключаются в следующем:

  • Используется спектр сигнала (то есть разложение по базису ортогональных [ко]синусоидальных функций), что позволяет учитывать волновую “природу” сигнала при дальнейшем анализе;
  • Спектр проецируется на специальную mel-шкалу , позволяя выделить наиболее значимые для восприятия человеком частоты;
  • Количество вычисляемых коэффициентов может быть ограничено любым значением (например, 12), что позволяет “сжать” фрейм и, как следствие, количество обрабатываемой информации;

Давайте рассмотрим процесс вычисления MFCC коэффициентов для некоторого фрейма.

Представим наш фрейм в виде вектора , где N - размер фрейма.

Разложение в ряд Фурье

Первым делом рассчитываем спектр сигнала с помощью дискретного преобразования Фурье (желательно его “быстрой” FFT реализацией).

То есть результатом будет вектор следующего вида:

Важно понимать, что после этого преобразования по оси Х мы имеем частоту (hz) сигнала, а по оси Y - магнитуду (как способ уйти от комплексных значений):

Расчёт mel-фильтров

Начнём с того, что такое mel. Опять же согласно Википедии, mel - это “психофизическая единица высоты звука”, основанная на субъективном восприятии среднестатистическими людьми. Зависит в первую очередь от частоты звука (а так же от громкости и тембра). Другими словами, эта величина, показывающая, на сколько звук определённой частоты “значим” для нас.

Преобразовать частоту в мел можно по следующей формуле (запомним её как «формула-1»):

Обратное преобразование выглядит так (запомним её как «формула-2»):

График зависимости mel / частота:

Но вернёмся к нашей задаче. Допустим у нас есть фрейм размером 256 элементов. Мы знаем (из данных об аудиоформате), что частота звука в данной фрейме 16000hz. Предположим, что человеческая речь лежит в диапазоне от hz. Количество искомых мел-коэффициентов положим M = 10 (рекомендуемое значение).

Для того, что бы разложить полученный выше спектр по mel-шкале, нам потребуется создать “гребёнку” фильтров. По сути, каждый mel-фильтр это треугольная оконная функция , которая позволяет просуммировать количество энергии на определённом диапазоне частот и тем самым получить mel-коэффициент. Зная количество мел-коэффициентов и анализируемый диапазон частот мы можем построить набор таких вот фильтров:

Обратите внимание, что чем больше порядковый номер мел-коэффициента, тем шире основание фильтра. Это связано с тем, что разбиение интересующего нас диапазона частот на обрабатываемые фильтрами диапазоны происходит на шкале мелов.

Но мы опять отвлеклись. И так для нашего случая диапазон интересующих нас частот равен . Согласно формуле-1 в на мел-шкале этот диапазон превращается в .

m[i] =

Обратите внимание, что на мел-шкале точки расположены равномерно. Переведём шкалу обратно в герцы с помощью формулы-2:

h[i] =

Как видите теперь шкала стала постепенно растягиваться, выравнивая тем самым динамику роста “значимости” на низких и высоких частотах.

Теперь нам нужно наложить полученную шкалу на спектр нашего фрейма. Как мы помним, по оси Х у нас находится частота. Длина спектра 256 - элементов, при этом в него умещается 16000hz. Решив нехитрую пропорцию можно получить следующую формулу:

f(i) = floor((frameSize+1) * h(i) / sampleRate)

Что в нашем случае эквивалентно

f(i) = 4, 8, 12, 17, 23, 31, 40, 52, 66, 82, 103, 128

Вот и всё! Зная опорные точки на оси Х нашего спектра, легко построить необходимые нам фильтры по следующей формуле:

Применение фильтров, логарифмирование энергии спектра

Применение фильтра заключается в попарном перемножении его значений со значениями спектра. Результатом этой операции является mel-коэффициент. Поскольку фильтров у нас M, коэффициентов будет столько же.

Однако, нам нужно применить mel-фильтры не к значениям спектра, а к его энергии. После чего прологарифмировать полученные результаты. Считается, что таким образом понижается чувствительность коэффициентов к шумам.

Косинусное преобразование

Дискретное косинусное преобразование (DCT) используется для того, что бы получить те самые “кепстральные” коэффициенты. Смысл его в том, что бы “сжать” полученные результаты, повысив значимость первых коэффициентов и уменьшив значимость последних.

В данном случае используется DCTII без каких-либо домножений на (scale factor).

Теперь для каждого фрейма мы имеем набор из M mfcc-коэффициентов, которые могут быть использованы для дальнейшего анализа.

Примеры код для вышележащих методов можно найти .

Алгоритм распознавания

Вот тут, дорогой читатель, тебя и ждёт главное разочарование. В интернетах мне довелось увидеть множество высокоинтеллектуальных (и не очень) споров о том, какой же способ распознавания лучше. Кто-то ратует за Скрытые Марковские Модели, кто-то - за нейронные сети, чьи-то мысли в принципе невозможно понять:)

В любом случае немало предпочтений отдаётся именно СММ , и именно их реализацию я собираюсь добавить в свой код… в будущем:)

На данный момент, предлагаю остановится на гораздо менее эффективном, но в разы более простом способе.

И так, вспомним, что наша задача заключается в распознавании слова из некоторого словаря. Для простоты, будем распознавать называния первых десять цифр: “один“, “два“, “три“, “четыре“, “пять“, “шесть“, “семь“, “восемь“, “девять“, “десять“.

Теперь возьмем в руки айфон/андроид и пройдёмся по L коллегам с просьбой продиктовать эти слова под запись. Далее поставим в соответствие (в какой-нибудь локальной БД или простом файле) каждому слову L наборов mfcc-коэффициентов соответствующих записей.

Это соответствие мы назовём “Модель”, а сам процесс - Machine Learning! На самом деле простое добавление новых образцов в базу имеет крайне слабую связь с машинным обучением… Но уж больно термин модный:)

Теперь наша задача сводится к подбору наиболее “близкой” модели для некоторого набора mfcc-коэффициентов (распознаваемого слова). На первый взгляд задачу можно решить довольно просто:

  • для каждой модели находим среднее (евклидово) расстояние между идентифицируемым mfcc-вектором и векторами модели;
  • выбираем в качестве верной ту модель, среднее расстояние до которой будет наименьшим;

Однако, одно и тоже слово может произносится как Андреем Малаховым, так и каким-нибудь его эстонским коллегой. Другими словами размер mfcc-вектора для одного и того же слова может быть разный.

К счастью, задача сравнения последовательностей разной длины уже решена в виде Dynamic Time Warping алгоритма. Этот алгоритм динамическо программирования прекрасно расписан как в буржуйской Wiki , так и на православном .

Единственное изменение, которое в него стоит внести - это способ нахождения дистанции. Мы должны помнить, что mfcc-вектор модели - на самом деле последовательность mfcc-“подвекторов” размерности M, полученных из фреймов. Так вот, DTW алгоритм должен находить дистанцию между последовательностями эти самых “подвекторов” размерности M. То есть в качестве значений матрицы расстояний должны использовать расстояния (евклидовы) между mfcc-“подвекторами” фреймов.

Эксперименты

У меня не было возможности проверить работу данного подхода на большой “обучающей” выборке. Результаты же тестов на выборке из 3х экземпляров для каждого слова в несинтетических условиях показали мягко говоря нелучший результат - 65% верных распознаваний.

Тем не менее моей задачей было создание максимального простого приложения для распознавания речи. Так сказать “proof of concept” :) Добавить метки

Данной проблемой учёные занимаются около 70 лет, первая промышленная система была создана в Японии второй половине 80-х, её называли системой надиктовки текста в ПК (диктографами), данная система имела узкую специализацию.

Под распознавание речи ПК понимают такое распознавание, которое подробно восприятию речи человеком, в любых условиях и при общении с любым человеком.

Решению проблемы мешает:

1) Отсутствие чётких теоретических представления, которые описывали бы весь комплекс преобразований, осуществляемых нервной системой при переработке речевых сигналов;

2) Обладание слитно произнесённой речью:

3) Размытой границы слов:

4) Влияния соседних звуков друг на друга;

5) Нечётким выговором и даже исчезновением функциональных слов;

7) Большое значение в процессе речевого общения паралингвистических средств коммуникации:

а) Кинесика (мимика, жесты);

в) Проксемика (расстояние между людьми).

Поэтому сегодня АРР может осуществляться только при определённых ограничениях:

1) Распознавание изолированно произнесённых слов;

3) Распознавание с опорой на небольшой, заранее определённый словарь.

IBM – лидер в продуктах такого рода с системой ViaVoice (140 слов в минуту). Популярной системой надиктовки является DragonSystem.

Алгоритм распознавания:

1. Ввод устной речи, обработка данных (убор шумов);

2. Деление звукового потока на сегменты;

3. Выделение в каждом сегменте минимальной акустической единицы – слова;

4. Сравнение выделенных единиц с эталонами.

Промышленные системы распознавания речи условно делятся на 4 группы:

1. Средства речевого управления (ПК, телефон);

2. Средства надиктовки текста;

3. Информационно-справочные системы в диалоговом режиме в качестве автоответчика;



4. Средства идентификации человека по образцу речи.


Вопрос 27.

Системы автоматического синтеза речи

Методы:

1) Кодирование (запись в двоичной системе речевых сигналов с их последующим восстановлением)

а) По существу ПК здесь служит устройством для записи речи, слова и фразы записываются в ПК заранее и в нужный момент воспроизводятся по командам);

б) Недостаток:

Сказать фразу, не введённую в память, нельзя;

Для хранения речевых сигналов в непосредственной форме нужен большой объём памяти;

в) Преимущества:

Естественное звучание речи;

По качеству речь приближается к человеческой;

2) Фонетический синтез речи (акустическое моделирование голосового тракта человека)

а) Синтезатор по этому методу принципиально отличается от синтезатора по первому методу – имеет неестественное звучание, говорит голосом робота;

б) Обычно осуществляется по орфографическому тексту, написанному человеком, ПК в нём умеет преобразовывать буквы в фонемы, фонемы в аллофоны и синтезировать непрерывный речевой сигнал с использованием аллофонов диктора, выбираемых и базы данных;

в) Наиболее перспективен, так как речь генерируется действительно самим ПК.

а) Словарь в синтезаторе этого вида, как и в первом методе, создаётся с участием человека, но здесь в память записываются не слова и фразы, а производится выделение числовых характеристик звуков речи и интонации фраз, что позволяет уменьшить объём требуемой памяти.

б) Речь естественна, для её генерации числовые характеристики по специальным командам преобразуются в звуковые сигналы.

Сейчас ведутся разработки над тем, чтобы синтезированная речь была звучала живо, эмоционально, естественно. Решение этой проблемы позволит создавать системы синхронного перевода, активнее использовать ПК при обучении языку, а также людям с нарушениями зрения.


Вопрос 28.

Базы данных (БД) и лингвистические информационные ресурсы (ЛИР)

БД – совокупность определенным образом упорядоченных сведений о некоторых объектах.

Объекты - это сведения, факты, события, процессы. Объект может быть материальным (студент, товар, машина) и нематериальным (событие - поход в цирк, процесс - перевод текста, факт - поступление в университет). В жизни каждый объект обладает определенными свойствами или атрибутами (вес, скорость, цвет), которым приписываются определенные значения: батон весит 400 гр., скорость машины 90 км./ч.

В БД атрибуты представляются элементами данных или просто данными, а их значения – значения данных.

Таким образом, данное – это некоторый показатель, который характеризует заданный объект и принимает для конкретного элемента объекта некоторое значение. Группа данных, которая образует одну строку, называется записью. Если несколько записей имеют одно и тоже множество данных с однотипной информацией то говорят, что эти записи имеют один формат. Множество записей с одним форматом называют файлом. А множество файлов образуют базу данных.

Основные функции БД

1) Поиск информации в БД

а) добавление;

б) удаление

в) редактирование

Системы управления базами данных (СУБД)

СУБД – совокупность программных средств, позволяющих осуществлять создание и ведение базы данных..

Типы СУБД:

1. Настольные СУБД по степени сложности подразделяются:

а) СУБД для обработки небольших объемов информации (MS OUTLOOK)

б) СУБД, ориентированные на пользователя, не умеющего программировать (EXCEL, LOTUS)

в) Сложные СУБД, ориентированные на разработку приложений (Fox Base, MS Access)

2. Серверные СУБД – используют архитектуру “клиент-сервер”, т.е. осуществляют централизованное хранение и обработку данных (Informix, MS SQL Server).

Основные функции СУБД

1) Обеспечить создание структуры БД (определить, какая информация будет храниться, какие атрибуты, типы данных)

2) Модификация информации, находящейся в БД:

а) добавление;

б) удаление

в) редактирование

3) Поиск информации


Вопрос 29.

ЛИР -

Активные формы

В самом общем виде ЛИР

Пассивные лингвистические информационные ресурсы включают:

1) Письменный лексикон представлен одноязычными и многоязычными лексиконами. В общем смысле словарь - это справочная книга, которая содержит слова (морфемы, словосочетания, идиомы и т.п.), расположенные в определенном порядке (различном в разных типах словарей). В нем может содержаться толкование значения описываемых единиц, а также различная информацию о них. Любой словарь может быть представлен в виде реляционной БД

а) частотно-алфавитный словарь словоформ какого-либо текста – простейшая лингвистическая БД;

б) словоуказатель более сложная БД. В ней, кроме абсолютной частоты употребления словоформы в тексте, указываются номера страниц и строк на странице, где встретилась данная словоформа.

в) конкордансы ещё более сложный тип БД. В них каждая словоформа текста характеризуется не только численными показателями (частотой, номером страницы, номером строки и т.д.), но и некоторым контекстом, в котором она употреблена. Как правило, этот контекст состоит из 3-х предложений: предложения, в котором встретилась словоформа, предложения, стоящего перед основным предложением, и предложения, стоящего после него

г) энциклопедии словари, содержащие характеристики не слова как такового, а обозначенного им предмета, факта или явления. Существует достаточно большое число различных энциклопедий на машинных носителях информации. Наиболее известна среди них энциклопедия "Britannica". Она включает 82000 статей и 700 дополнительных материалов, опубликованных с 1768 года. Не менее известны французские энциклопедии "Tons les savoire du Monde", "Le monde sur CD-ROM", "Versailles" и др. На русском языке издана "Большая Энциклопедия Кирилла и Мефодия

д) тезаурус - принципиально иной тип словарей. В нем в явном виде указаны семантические связи между определенной частью его лексических единиц. Как правило, такие словари строятся для текстов достаточно узкой проблемной области: вычислительной техники, музыки, кораблестроения, сельского хозяйства и т.д.

е) терминологическим словарь (ТС) – словарь, основной единицей которого является термин.
Термин - это слово или подчинительное словосочетание, имеющее специальное значение, выражающее и формирующее профессиональное понятие и применяемое процессе познания и освоения научных и профессионально-технических объектов и отношений между ними.


Вопрос 30.

ЛИР - совокупность данных хранящихся на ПК.

Лингвистические информационные ресурсы – одна из составляющих информационных ресурсов.Под информационным ресурсом понимают некоторый интеллектуальный ресурс, результат коллективного творчества

К пассивным формам информационных ресурсов относят книги, журналы, газеты, словари, энциклопедии, патенты, базы и банки данных и т.п.

Активные формы включают алгоритмы, модели, программы, базы знаний

В самом общем виде ЛИР – это своеобразная лингвистические БД, которые можно обновлять и в которых можно искать ту или иную информацию. Лингвистические ресурсы необходимы как пользователям ПК, так и различным компьютерным системам, связанным с обработкой текста речи: реферирования, аннотирования и перевода текстов, автоматического анализа текста, синтеза речи и текста.

2) Письменный текстовый массив (корпус тексто в, т.е. совокупность текстов, являющаяся достаточной для обеспечения надежных научных выводов о некотором языке, диалекте или ином другом подмножестве языка).

а) Могут быть использованы:

В лексикографии и лексикологии (для составления различных словарей, определения значений многозначных слов, выявления ассоциативных связей слов в тексте, выделения терминов и терминологических словосочетаний и т.п.).

В грамматике (для определения частоты употребления грамматических морфем в текстах различного типа, выявления наиболее употребляемых типов словосочетаний и предложений, определения значений синонимичных морфологических единиц, частоты употребления классов слов и т.д.).

В лингвистике текста (для дифференциации типов текста, создания конкордансов, выявления связи между предложениями в абзацах и между абзацами «т.д.).

При автоматическом переводе текстов (для поиска контекстов слов, имеющих несколько переводных эквивалентов, поиска переводных эквивалентов терминологических и фразеологических словосочетаний в параллельных текстах и т.д.).

В учебных целях (для выбора цитат, отдельных фрагментов произведений, примеров, используемых в процессе создания учебников и учебных пособий.

б) таггированные корпусы текстов (от англ, tag - "индекс, помета"). Все слова такого корпуса получают некоторые буквенные или цифровые индексы, которые обозначают их грамматические, лексические, семантические или структурные признаки. Таких индексов может быть несколько.

3) Фонетические лингвистические ресурсы
В настоящее время общепринято, что для создания машиночитаемых фонетических корпусов используется транскрипция на основе орфографического представления звуковречи с дополнительными знаками, передающими (при необходимости) просодические, паралингвистические и другие особенности произношения.

а) Фонетические корпусы текстов широко используются для решения следующих задач:

Сопоставительного изучения устной и письменной форм языка;

Изучения грамматических и лексических особенностей устной речи;

Исследования фонетических особенностей диалектов;

Построения частотных списков фонем и их сочетаний;

Изучения акустических свойств речевых единиц и их использования в психолингвистических и лингвистических экспериментах;

Создания компьютерных систем, распознавания и синтеза устной речи.

В представленной работе преимущественно разбирались по частям компании с Северной Америки и Европы. Рынок Азии представлен в исследовании слабо. Но все эти детали пожалуй оставим пока у себя. Однако очень интересно описаны тренды и текущая характеристика отрасли, что само по себе очень интересно - тем более ее можно изложить в различных вариациях не теряя общей сути. Не будем томить - пожалуй начнем описывать самые интересные моменты, куда движется все-таки отрасль распознавания речи и что нас ждет в ближайшем будущем (2012 - 2016 гг.) - как уверяют исследователи.

Введение

Системы распознавания голоса – это вычислительные системы, которые могут определять речь говорящего из общего потока. Эта технология связана с технологией распознавания речи, которая преобразует произнесенные слова в цифровые текстовые сигналы, путем проведения процесса распознавания речи машинами. Обе эти технологии используются параллельно: с одной стороны для идентификации голоса конкретного пользователя с другой стороны для идентификация голосовых команд посредством распознавания речи. Распознавание голоса используется в биометрических целях безопасности, чтобы определить голос конкретного человека. Эта технология стала очень популярной в мобильном банкинге, который требует идентификации подлинности пользователей, а также для других голосовых команд, чтобы помочь им совершать сделки.

Мировой рынок распознавания речи является одним из самых быстрорастущих рынков в голосовой индустрии. Большая часть роста на рынке приходит из Америки, а затем из Европы, Ближнего Востока и Африки (EMEA) и Азиатско-Тихоокеанского региона (АТР). Большая часть роста на рынке происходит от здравоохранения, финансовых услуг, и государственного сектора. Однако в других сегментах, таких как телекоммуникации и транспорт ожидается значительное увеличение роста в ближайшие несколько лет. Прогноз рынка, дальнейшее увеличение со среднегодовым темпом роста в 22,07 процента в период 2012-2016 гг. (показатели динамики роста текущих компаний).

Драйверы роста рынка

Рост мирового рынка распознавания голоса зависит от множества факторов. Одним из основных факторов является увеличение спроса на услуги голосовой биометрии. С увеличением сложности и частоты нарушений безопасности, безопасность продолжает оставаться одним из основных требований для предприятий, а также государственных организаций. Высокий спрос голосовой биометрии, которая является уникальной для любого человека, имеет решающее значение в установлении личности человека. Другим ключевым фактором для рынка является более широкое использование идентификации диктора для судебно-медицинских целей.

Некоторые из основных факторов мирового рынка распознавания речи:
Увеличение спроса на услуги голосовой биометрии
Более широкое использование идентификации диктора для судебно-медицинских целей
Спрос на распознавания речи в военных целях
Высокий спрос для распознавания голоса в сфере здравоохранения

Изначально, слово «биометрия» встречалось только в медицинской теории. Тем не менее, стали возрастать потребности в безопасности с использованием биометрических технологий среди предприятий и государственных учреждений. Использование биометрических технологий – один из ключевых факторов на мировом рынке распознавания речи. Распознавание голоса используется проверки подлинности человека, так как голос каждого человека индивидуален. Это обеспечит высокий уровень точности и безопасности. Распознавание голоса имеет большое значение в финансовых институтах, таких как банк, а так же на предприятиях в сфере здравоохранения. В настоящее время сегмент распознавания речи составляет 3,5% от доли технологий биометрии на мировом рынке, но это доля имеет постоянный рост. Также низкая стоимость биометрических устройств увеличивает спрос со стороны малого и среднего бизнеса.

Более широкое использование идентификации диктора для судебно-медицинских целей

Использование технологии идентификации диктора для судебно-медицинских целей является одной из главных движущих сил на мировом рынке распознавания голоса. Происходит сложный процесс определения, соответствует ли голос лица, подозреваемого в совершении преступления, голосу из судебно-медицинских образцов. Данная технология позволяет правоохранительным органам выявлять преступников по одной из самых уникальных характеристик человека, его голосу, тем самым предлагая относительно высокий уровень точности. Судебно-медицинские эксперты проводят анализ соответствия голоса подозреваемого образцам до тех пор, пока не будет найден преступник. В последнее время эта технология используется, чтобы помочь решать некоторые уголовные дела.

Спрос на распознавание речи в военных целях

Военные ведомства в большинстве стран используют крайне ограниченные зоны для того, чтобы предотвратить проникновение злоумышленников. Для обеспечения секретности и безопасности в этой зоне, военные используют системы распознавания голоса. Эти системы помогают военным учреждениям выявлять наличие несанкционированных проникновений в защищенную зону. Система содержит базу данных голосов военнослужащих и государственных чиновников, которые имеют допуск к защищенной территории. Эти люди идентифицируются системой распознавания голоса, тем самым предотвращается допуск людей, чьих голосов нет в базе данных системы. В дополнение можно сказать, что ВВС США используют голосовые команды для управления самолетом. Кроме того, военные ведомства используют распознавание речи и систему Voice-to-text для коммуникации с гражданами в других странах. Например, американские военные активно используют системы распознавания речи в их операциях в Ираке и Афганистане. Таким образом, существует высокий спрос на распознавание речи и голоса для военных целей.

Биометрические технологии, такие как сосудистое распознавание, распознавание голоса и сканирование сетчатки глаза широко внедряются в сферу здравоохранения. Распознавание голоса, как ожидается, станет одним из основных режимов идентификации в медицинских учреждениях. Многие компании здравоохранения в США, обращаясь к стандартам Health Insurance Portability and Accountability Act (HIPAA), также применяют биометрические технологии, такие как распознавание голоса, распознавание отпечатков пальцев для более безопасной и эффективной регистрации пациента, накопления информации пациента, защиты медицинских записей пациента. Также учреждения клинических испытаний внедряют распознавания голоса для выявления лиц, набранных для клинических испытаний. Таким образом, голосовая биометрия является одним из основных режимов для идентификации клиента в сфере здравоохранения в Азиатско-Тихоокеанском регионе.

Требования рынка



Влияние основных четырёх трендов и проблем на мировой рынок распознавания показано на рисунке

Ключ
Влияние проблем и трендов оценивается на основе интенсивности и длительности их воздействия на текущий рынок. Классификация величины воздействия:
Низкий – незначительное или нулевое влияние на рынок
Средний – средний уровень влияния на рынок
Умеренно высокий– значительное влияние на рынок
Высокий – очень сильное воздействие с радикальным влиянием на рост рынка

Несмотря на рост трендов мировой рынок распознавания голоса продолжает сталкиваться с некоторыми серьезными тормозами роста. Одна из важных проблем – трудность подавления окружающего шума. Хотя рынок распознавания речи стал свидетелем нескольких технологических достижений, неспособность подавлять окружающий шум все еще остается препятствием на пути к признанию приложений распознавания голоса. Еще одной проблемой для этого рынка является высокая стоимость приложений распознавания голоса.

Некоторые из основных задач, стоящих перед мировым рынком распознавания голоса:
Невозможность подавления внешних шумов
Высокая стоимость приложения распознавание голоса
Проблемы с точностью распознавания
Низкий уровень безопасности в верификации диктора

Невозможность подавления внешних шумов

Несмотря на технический прогресс в сфере распознавания голоса, шумы продолжает оставаться одной из основных проблем на мировом рынке распознавания голоса. Кроме того, голосовая биометрия отличается особенной чувствительностью по сравнению с другими видами биометрии. Приложения распознавания голоса, голосовой биометрии и распознавания речи оказываются очень чувствительными к шуму окружающей среды. В результате, любое шумовое нарушение препятствует точности распознавания. Также нарушается автоматизированный ответ на голосовую команду. Неспособность подавить окружающий шум является единственным фактором, который не дает системам распознавания голоса достичь высоких результатов и занять высокий процент доли на мировом рынке биометрических технологий.

Высокая стоимость приложений распознавания голоса

Одной из основных проблем, препятствующих развитию технологий распознавания речи, является потребность в больших инвестиционных вложениях, требуемых для разработки и реализации. Крупномасштабное развертывание технологии распознавания голоса на предприятии является трудоемким процессом и требует огромных инвестиций. Экономия на бюджете приводит к ограничению тестирования технологии, следовательно, любой сбой может привести к большим потерям на предприятии. Поэтому альтернативные распознаванию голоса варианты, такие как swipe card и keypad по-прежнему активно используются во многих компаниях, особенно среди малого и среднего бизнеса, в силу их экономической эффективности. Таким образом, приложения распознавания голоса требуют больших материальных вложений, включая стоимость интеграционной системы, дополнительного оборудования и другие затраты.

Проблемы с точностью распознавания

На мировом рынке распознавания голоса единой проблемой является невысокие показатели точности распознавания, не смотря на то, что в настоящее время системы распознавания голоса способны распознавать различные языки и определять подлинность голоса. Так как система включает в себя сложный процесс согласования баз данных с произносимыми командами и интегрированной технологией распознавания речи и голосовой верификации, даже незначительная ошибка в любой часть процесса может привести к неверному результату. Погрешность в распознавании речи является одним из основных ограничений в приложениях распознавания голоса. Однако некоторые производители начали разработку систем с очень низким уровнем погрешности в распознавании голоса. Они разработали системы с менее чем 4% неточных результатов (например, измерения голосовой биометрии неверно идентифицируют и отвергают голос человека, у которого есть доступ).

Низкий уровень безопасности в верификации диктора

Высокий уровень неточности в верификации диктора приводит к низкому уровню безопасности. В настоящее время системы распознавания голоса имеют высокий процент неточного результата. Чем выше скорость принятия неправильных решений, тем выше вероятность того, что, например, разрешение на въезд получит посторонний человек. Поскольку системы распознавания голоса очень чувствительны, они улавливают все, включая проблемы с горлом, кашель, простуду, изменение голоса в связи с болезнью, то существует высокая вероятность того, что посторонний человек сможет получить доступ к закрытой территории, причиной этому является низкий уровень безопасности в распознавании человека на основе голоса.

Тенденции рынка

Эффект от проблем стоящих перед рынком, как ожидается, должен свести на нет наличие различных тенденций, которые появляются на рынке. Одной из таких тенденция является увеличение спроса на распознавание речи на мобильных устройствах. Осознавая огромный потенциал мобильных устройств, производители на мировом рынке распознавания голоса развивают инновационные приложения, специфичные для работы на мобильных устройствах. Это один из будущих движущих факторов. Возрастающий спрос на голосовую аутентификацию мобильного банкинга является еще одной позитивной тенденцией на рынке распознавания голоса.

Некоторые из основных тенденций на мировом рынке распознавания голоса:
Увеличение спроса на распознавание речи на мобильных устройствах
Рост спроса на услуги голосовой аутентификации для мобильного банкинга
Интеграция голосовой верификации и распознавания речи
Увеличение слияний и поглощений

Увеличение спроса на распознавание речи на мобильных устройствах

Растущее число правил дорожного движения, запрещающих использование мобильных устройств во время вождения автомобиля, увеличило спрос на приложения распознавания речи. Страны, в которых были наложены строгие ограничения: Австралия, Филиппины, США, Великобритания, Индия и Чили. В США более чем в 13 штатах, не смотря на введение Положение об использовании мобильных устройств, разрешено использовать громкую связь во время вождения. Следовательно, покупатели все чаще выбирают мобильные устройства, оснащенные приложениями распознавания речи, которые смогут помочь им получить доступ к устройству без необходимости отвлекаться на само устройство. В целях удовлетворения растущего спроса на приложения распознавания речи в мобильных устройствах, производители увеличили количество научно-исследовательских и опытно-конструкторских работ для того, чтобы развить речевые команды опций для мобильного устройства. В результате, большое количество приложений распознавания речи были включены в мобильное устройство, например, управление музыкальным плей листом, считывание адреса, считывание имени абонента, голосовые СМС сообщения и т.д.

Необходимость в усилении проверки приводит к всеобщей интеграции голосовой аутентификации в мобильном банкинге. В таких регионах, как Северная Америка и Западная Европа, большое количество банковских клиентов используют средства банковского обслуживания по телефону. Большое количество таких финансовых институтов принимают голосовые решения аутентификации от пользователя о принятии или отклонении мобильных транзакций. Кроме того, включение голосовой аутентификации в мобильных устройствах является экономически эффективным и в то же время обеспечивает более высокий уровень безопасности. Таким образом, тенденция к интеграции голосовой аутентификации для мобильного банкинга будет расти дальше на протяжении многих лет. Действительно, банковские учреждения использующие телефоны сотрудничают с поставщиками решений голосовой аутентификации и инкорпорациями голосовой биометрии, что является ключевым конкурентным преимуществом.

Некоторые производители работают в направлении интеграции голосовой верификации и технологии распознавания речи. Вместо того, чтобы предлагать голосовую верификацию в виде отдельного продукта, производители предлагают интегрировать функционал верификации голоса и распознавания речи. Голосовая верификация помогает определить, кто говорит, и одновременно, который человек говорит. Большинство производителей начали или в процессе запуска приложений распознавания речи, которые связаны с интеграцией описанных выше двух технологий.

Увеличение слияний и поглощений

На мировом рынке распознавания голоса наблюдаются серьезные тенденции слияния и поглощения. Доминирующий лидер рынка Nuance Communications Inc ., который держит более чем 50% доли на рынке, приобрел большое количество маленьких компаний на рынке распознавания речи. Из этого следует, что приобретение – это новый подход к росту компании, в результате чего у Nuance шесть приобретений в 2007 году. Эта тенденция, как ожидается, сохранится и в ближайшие несколько лет в связи с наличием многочисленных мелких игроков, которые могут быть приобретены более крупными компаниями как Nuance . Поскольку рынок является технологически ориентированным, то небольшие компании разрабатывают инновационные решения. Но из-за нехватки ресурсов эти компании не в состоянии увеличить масштабы своего бизнеса. Таким образом, крупные компании, такие как Nuance , используют процесс поглощения в качестве основной стратегии для выхода на новые рынки и отрасли. Например, Nuance приобрела Loquendo Inc . Для того, чтобы войти в регион EMEA.

Заключение

Есть 2 ветки развития систем распознавания речи (объем рынка с $1.09 по $2.42 миллиарда с 2012 по 2016 гг., темп роста +22.07%)
Преобразование речи в текст (объем рынка с $860млн. (2012г.) до $1727млн. (2016г.) - общая доля 79%-71% с 2012 по 2016 гг.)
Верификация и идентификация голоса человека (объем рынка с $229млн. (2012г.) до $697млн. - общая доля 21%-28,8% с 2012 по 2016 гг.)

В конкурентной борьбе будут более активно развиваться компании, которые существуют на грани эти двух направлений - с одной стороны улучшая точность программ распознавания речи и перевода его в текста, с другой стороны решая эту задачу посредставом идентификации диктора и верификации его речи, используя дополнительный канал (например видео) в качестве источника информации.

Согласно исследованию Technavio - основная проблема существующих программ распознавания речи - это их подверженность в подавлении окружающего шума;
- Основная тенденция - распространение речевых технологий за счет увеличения количества и качества мобильных устройств и развития решений мобильного банкинга;
- Большую погоду в развитии технологий распознавания речи на данный момент играет государственные организации, военная сфера, медицина и финансовый сектор. Однако наметился большой спрос на такого рода технологии в виде мобильных приложений и задач голосовой навигации, а также биометрии;
- Основной рынок систем распознавания речи находится в США, однако самая быстрая и платежеспособная аудитория проживает в странах юго-восточной Азии, особенно в Японии (за счет полной голосовой автоматизации работы call-центров). Предполагается, что именно в данном регионе должен появиться сильный игрок, который станет серьезным подспорьем для мирового могущества Nuance Communications (текущая доля общемирового рынка - 70%);
- Наиболее распространенная политика на рынке систем распознавания речи - это слияния и поглощения (M&A) - компании -лидеры рынка часто скупают небольшие технологические лаборатории или фирмы по всему миру, чтобы сохранить гегемонию.
- Стоимость приложений стремительно падает, точность растет, фильтрация посторонних шумов улучшается, безопасность возрастает - предполагаемая дата реализации сверхточной технологии распознавания речи - 2014 гг.

Таким образом, по прогнозам Technavio в период 2012-2016 гг. ожидается увеличение рынка систем распознавания речи более чем в 2,5 раза. Большую долю на одном из самых динамичных и быстрых рынков IT технологии получат игроки, которые смогут в своем продукте решить 2 задачи одновременно: научиться качественно распознавать речь и переводить ее в текст, а также хорошо уметь идентифицировать голос диктора, верифицировать его из общего потока. Большим преимуществом в конкурентной борьбе можно назвать демпинг (искусственное снижение стоимости подобных технологий), создание программ с дружелюбным интерфейсом и быстрым процессом адаптации - при высоком качестве работы. Предполагается, что в течение ближайших 5 лет - появятся новые игроки на рынке, которые могут поставить под сомнение менее поворотливых крупных корпораций типа Nuance Communications распознавание речи

  • исследование рынка
  • прогноз развития
  • nuance
  • Добавить метки 15 июля 2009 в 22:16

    Распознавание речи. Часть 1. Классификация систем распознавания речи

    • Искусственный интеллект
    Эпиграф
    В России, направление систем распознавания речи действительно развито довольно слабо. Google давно анонсировала систему записи и распознавания телефонных разговоров… Про системы похожего масштаба и качества распознавания на русском языке, к сожалению, я пока не слышал.

    Но не нужно думать, что за рубежом все уже все давно открыли и нам их никогда не догнать. Когда я искал материал для этой серии, пришлось перерыть тучу зарубежной литературы и диссертаций. Причем статьи и диссертации эти были замечательных американских ученых Huang Xuedong; Hisayoshi Kojima; DongSuk Yuk и др. Понятно, на ком эта отрасль американской науки держится? ;0)

    В России я знаю только одну толковую компанию, которой удалось вывести отечественные системы распознавания речи на коммерческий уровень: Центр речевых технологий . Но, возможно, после этой серии статей кому-нибудь придет в голову, что заняться разработкой таких систем можно и нужно. Тем более, что в плане алгоритмов и мат. аппарата мы практически не отстали.

    Классификация систем распознавания речи

    На сегодняшний день, под понятием “распознавание речи” скрывается целая сфера научной и инженерной деятельности. В общем, каждая задача распознавания речи сводится к тому, чтобы выделить, классифицировать и соответствующим образом отреагировать на человеческую речь из входного звукового потока. Это может быть и выполнение определенного действия на команду человека, и выделение определенного слова-маркера из большого массива телефонных переговоров, и системы для голосового ввода текста.

    Признаки классификации систем распознавания речи
    Каждая такая система имеет некоторые задачи, которые она призвана решать и комплекс подходов, которые применяются для решения поставленных задач. Рассмотрим основные признаки, по которым можно классифицировать системы распознавания человеческой речи и то, как этот признак может влиять на работу системы.
    • Размер словаря. Очевидно, что чем больше размер словаря, который заложен в систему распознавания, тем больше частота ошибок при распознавании слов системой. Например, словарь из 10 цифр может быть распознан практически безошибочно, тогда как частота ошибок при распознавании словаря в 100000 слов может достигать 45%. С другой стороны, даже распознавание небольшого словаря может давать большое количество ошибок распознавания, если слова в этом словаре очень похожи друг на друга.
    • Дикторозависимость или дикторонезависимость системы. По определению, дикторозависимая система предназначена для использования одним пользователем, в то время как дикторонезависимая система предназначена для работы с любым диктором. Дикторонезависимость – труднодостижимая цель, так как при обучении системы, она настраивается на параметры того диктора, на примере которого обучается. Частота ошибок распознавания таких систем обычно в 3-5 раз больше, чем частота ошибок дикторозависимых систем.
    • Раздельная или слитная речь. Если в речи каждое слово разделяется от другого участком тишины, то говорят, что эта речь – раздельная. Слитная речь – это естественно произнесенные предложения. Распознавание слитной речи намного труднее в связи с тем, что границы отдельных слов не четко определены и их произношение сильно искажено смазыванием произносимых звуков.
    • Назначение. Назначение системы определяет требуемый уровень абстракции, на котором будет происходить распознавание произнесенной речи. В командной системе (например, голосовой набор в сотовом телефоне) скорее всего, распознавание слова или фразы будет происходить как распознавание единого речевого элемента. А система диктовки текста потребует большей точности распознавания и, скорее всего, при интерпретации произнесенной фразы будет полагаться не только на то, что было произнесено в текущий момент, но и на то, как оно соотносится с тем, что было произнесено до этого. Также, в системе должен быть встроен набор грамматических правил, которым должен удовлетворять произносимый и распознаваемый текст. Чем строже эти правила, тем проще реализовать систему распознавания и тем ограниченней будет набор предложений, которые она сможет распознать.
    Различия методов распознавания речи
    При создании системы распознавания речи требуется выбрать, какой уровень абстракции адекватен поставленной задаче, какие параметры звуковой волны будут использоваться для распознавания и методы распознавания этих параметров. Рассмотрим основные различия в структуре и процессе работы различных систем распознавания речи.
    • По типу структурной единицы. При анализе речи, в качестве базовой единицы могут быть выбраны отдельные слова или части произнесенных слов, такие как фонемы, ди- или трифоны, аллофоны. В зависимости от того, какая структурная часть выбрана, изменяется структура, универсальность и сложность словаря распознаваемых элементов.
    • По выделению признаков. Сама последовательность отсчетов давления звуковой волны – чрезмерно избыточна для систем распознавания звуков и содержит много лишней информации, которая при распознавании не нужна, либо даже вредна. Таким образом, для представления речевого сигнала из него требуется выделить какие-либо параметры, адекватно представляющие этот сигнал для распознавания.
    • По механизму функционирования. В современных системах широко используются различные подходы к механизму функционирования распознающих систем. Вероятностно-сетевой подход состоит в том, что речевой сигнал разбивается на определенные части (кадры, либо по фонетическому признаку), после чего происходит вероятностная оценка того, к какому именно элементу распознаваемого словаря имеет отношение данная часть и (или) весь входной сигнал. Подход, основанный на решении обратной задачи синтеза звука, состоит в том, что по входному сигналу определяется характер движения артикуляторов речевого тракта и, по специальному словарю происходит определение произнесенных фонем.

    UPD: Перенес в «Искуственный интеллект». Если будет интерес, дальше публиковать буду в нем.

    Коммерческие программы по распознаванию речи появились в начале девяностых годов. Обычно их используют люди, которые из-за травмы руки не в состоянии набирать большое количество текста. Эти программы (например, Dragon NaturallySpeaking, VoiceNavigator) переводят голос пользователя в текст, таким образом, разгружая его руки. Надёжность перевода у таких программ не очень высока, но с годами она постепенно улучшается.

    Увеличение вычислительных мощностей мобильных устройств позволило и для них создать программы с функцией распознавания речи. Среди таких программ стоит отметить приложение Microsoft Voice Command, которое позволяет работать со многими приложениями при помощи голоса. Например, можно включить воспроизведение музыки в плеере или создать новый документ.

    Интеллектуальные речевые решения, позволяющие автоматически синтезировать и распознавать человеческую речь, являются следующей ступенью развития интерактивных голосовых систем (IVR). Использование интерактивного телефонного приложения в настоящее время не веяние моды, а жизненная необходимость. Снижение нагрузки на операторов контакт-центров и секретарей, сокращение расходов на оплату труда и повышение производительности систем обслуживания - вот только некоторые преимущества, доказывающие целесообразность подобных решений.

    Прогресс, однако, не стоит на месте и в последнее время в телефонных интерактивных приложениях все чаще стали использоваться системы автоматического распознавания и синтеза речи. В этом случае общение с голосовым порталом становится более естественным, так как выбор в нем может быть осуществлен не только с помощью тонового набора, но и с помощью голосовых команд. При этом системы распознавания являются независимыми от дикторов, то есть распознают голос любого человека.

    Следующим шагом технологий распознавания речи можно считать развитие так называемых Silent Speech Interfaces (SSI) (Интерфейсов Безмолвного Доступа). Эти системы обработки речи базируются на получении и обработке речевых сигналов на ранней стадии артикулирования. Данный этап развития распознавания речи вызван двумя существенными недостатками современных систем распознавания: чрезмерная чувствительность к шумам, а также необходимость четкой и ясной речи при обращении к системе распознавания. Подход, основанный на SSI, заключается в том, чтобы использовать новые сенсоры, не подверженные влиянию шумов в качестве дополнения к обработанным акустическим сигналам.

    На сегодняшний день можно выделить пять основных направлений использования систем распознавания речи:

    Голосовое управление - способ взаимодействия и управления работой устройства при помощи голосовых команд. Системы голосового управления малоэффективны для ввода текста, зато удобны для ввода команл, таких как:

    Виды систем

    На сегодняшний день существует два типа систем распознавания речи - работающие «на клиенте» (client-based) и по принципу «клиент-сервер» (client-server). При использовании клиент-серверной технологии речевая команда вводится на устройстве пользователя и через Интернет передается на удаленный сервер, где обрабатывается и возвращается на устройство в виде команды (Google Voice, Vlingo, пр.); ввиду большого количества пользователей сервера система распознавания получает большую базу для обучения. Первый вариант работает на иных математических алгоритмах и встречается редко (Speereo Software) - в этом случае команда вводится на устройстве пользователя и обрабатывается в нем же. Плюс обработки «на клиенте» в мобильности, независимости от наличия связи и работы удаленного оборудования. Так, система, работающая «на клиенте» кажется надежнее, но ограничивается, порой, мощностью устройства на стороне пользователя.