Биографии Характеристики Анализ

Как да разпознаем речта. Две онлайн услуги за разпознаване на реч и превод на текст

  • урок

В тази статия искам да прегледам основите на такава интересна област на разработка на софтуер като разпознаване на реч. Естествено, аз не съм специалист по тази тема, така че моята история ще бъде пълна с неточности, грешки и разочарования. Въпреки това, основната цел на моята "работа", както подсказва името, не е професионален анализ на проблема, а описание на основните понятия, проблеми и техните решения. Като цяло моля всички, които се интересуват, да заповядат под разфасовката!

Пролог

Нека започнем с факта, че нашата реч е последователност от звуци. Звукът от своя страна е наслагване (наслагване) на звукови вибрации (вълни) с различни честоти. Вълната, както знаем от физиката, се характеризира с два признака - амплитуда и честота.

По този начин механичните вибрации се преобразуват в набор от числа, подходящи за обработка на съвременни компютри.

От това следва, че задачата за разпознаване на реч се свежда до "съпоставяне" на набор от числови стойности (цифров сигнал) и думи от някакъв речник (например руски език).

Нека да видим как всъщност може да се осъществи точно това „картографиране“.

Входни данни

Да кажем, че имаме файл/поток с аудио данни. Преди всичко трябва да разберем как работи и как да го четем. Нека да разгледаме най-простия вариант - WAV файл.

Форматът предполага наличието на два блока във файла. Първият блок е заглавка с информация за аудио потока: битрейт, честота, брой канали, дължина на файла и т.н. Вторият блок се състои от "сурови" данни - същия цифров сигнал, набор от амплитудни стойности.

Логиката за четене на данни в този случай е доста проста. Четем заглавката, проверяваме някои ограничения (липса на компресия, например), запазваме данните в специално разпределен масив.

Признание

Чисто теоретично вече можем да сравним (елемент по елемент) извадката, която имаме, с някоя друга, чийто текст вече знаем. Тоест опитайте се да "разпознаете" речта ... Но е по-добре да не правите това :)

Нашият подход трябва да бъде стабилен (добре, поне малко) към промените в тембъра на гласа (човекът, който произнася думата), силата на звука и скоростта на произношението. Естествено, това не може да се постигне чрез поелементно сравнение на два аудио сигнала.

Затова ще тръгнем по малко по-различен начин.

Рамки

Първо, нека разделим нашите данни на малки времеви интервали - рамки. Освен това кадрите не трябва да вървят строго един след друг, а да се „припокриват“. Тези. краят на един кадър трябва да се пресича с началото на друг.

Рамките са по-подходяща единица за анализ на данни, отколкото специфични стойности на сигнала, тъй като е много по-удобно да се анализират вълни на определен интервал, отколкото на конкретни точки. Подреждането на кадрите „припокриване“ позволява да се изгладят резултатите от анализа на кадрите, превръщайки идеята за кадри в един вид „прозорец“, движещ се по оригиналната функция (стойности на сигнала).

Емпирично е установено, че оптималната дължина на кадъра трябва да съответства на интервал от 10ms, "припокриване" - 50%. Като се има предвид, че средната дължина на думата (поне в моите експерименти) е 500 ms, такава стъпка ще ни даде приблизително 500 / (10 * 0,5) = 100 кадъра на дума.

разбиване на думи

Първата задача, която трябва да бъде решена при разпознаването на реч, е разделянето на тази реч на отделни думи. За простота, нека приемем, че в нашия случай речта съдържа някои паузи (интервали на мълчание), които могат да се считат за „разделители“ на думите.

В този случай трябва да намерим някаква стойност, праг - стойности, над които са дума, под които е мълчание. Тук може да има няколко опции:

  • зададено на константа (работи, ако оригиналният сигнал винаги се генерира при едни и същи условия, по същия начин);
  • клъстерни стойности на сигнала чрез изрично подчертаване на набор от стойности, съответстващи на мълчание (ще работи само ако мълчанието заема значителна част от оригиналния сигнал);
  • анализира ентропията;

Както може би се досещате, сега ще говорим за последната точка :) Да започнем с факта, че ентропията е мярка за безпорядък, „мярка за несигурността на всяко преживяване“ (c). В нашия случай ентропията означава колко нашият сигнал „флуктуира“ в даден кадър.

  • да предположим, че нашият сигнал е нормализиран и всичките му стойности са в диапазона [-1;1];
  • изградете хистограма (плътност на разпределение) на стойностите на кадровия сигнал:
изчислете ентропията като ;

И така, получихме стойността на ентропията. Но това е просто друга характеристика на рамката и за да отделим звука от тишината, все пак трябва да го сравним с нещо. В някои статии се препоръчва да се вземе прагът на ентропия, равен на средната стойност между неговите максимални и минимални стойности (сред всички рамки). В моя случай обаче този подход не даде добри резултати.
За щастие ентропията (за разлика от средния квадрат на стойностите) е относително независима величина. Това ми позволи да взема стойността на неговия праг под формата на константа (0,1).

Въпреки това проблемите не свършват дотук: (Ентропията може да спадне в средата на думата (на гласни) или може внезапно да скочи поради малък шум. За да се справим с първия проблем, трябва да въведем концепция за „минимално разстояние между думите“ и „залепване“ на близки лежащи комплекти рамки, разделени поради слягане. Вторият проблем се решава чрез използване на „минимална дължина на думата“ и отрязване на всички кандидати, които не са преминали селекцията (и не са били използвани в първия параграф).

Ако по принцип речта не е „артикулирана“, може да се опита да се разбие първоначалният набор от кадри на подпоследователности, подготвени по определен начин, всяка от които ще бъде подложена на процедура за разпознаване. Но това е съвсем друга история :)

И така, имаме набор от рамки, съответстващи на определена дума. Можем да поемем по пътя на най-малкото съпротивление и да използваме средния квадрат на всички негови стойности (среден квадрат) като числена характеристика на рамката. Въпреки това, такъв показател носи много малко информация, подходяща за по-нататъшен анализ.

Тук влизат в действие кепстралните коефициенти на Mel-честотата. Според Wikipedia (което, както знаете, не лъже), MFCC е вид представяне на енергията на спектъра на сигнала. Предимствата от използването му са следните:

  • Използва се спектърът на сигнала (т.е. разширението по отношение на основата на ортогоналните [ко]синусоидални функции), което прави възможно да се вземе предвид вълновата „природа“ на сигнала при по-нататъшен анализ;
  • Спектърът се проектира върху специална мел-скала, което ви позволява да подчертаете най-значимите честоти за човешкото възприятие;
  • Броят на изчислените коефициенти може да бъде ограничен до всяка стойност (например 12), което ви позволява да „компресирате“ рамката и в резултат на това количеството информация, която се обработва;

Нека да разгледаме процеса на изчисляване на MFCC коефициентите за определен кадър.

Нека представим нашата рамка като вектор, където N е размерът на рамката.

Разширение на Фурие

На първо място, ние изчисляваме спектъра на сигнала, използвайки дискретното преобразуване на Фурие (за предпочитане неговата „бърза“ FFT реализация).

Тоест резултатът ще бъде вектор със следната форма:

Важно е да се разбере, че след тази трансформация на оста x имаме честотата (hz) на сигнала, а на оста y имаме величината (като начин да се измъкнем от комплексните стойности):

Изчисляване на мел филтри

Да започнем с това какво е мел. Отново според Wikipedia, мел е „психофизическа единица за височина“, базирана на субективно възприятие от обикновените хора. Зависи преди всичко от честотата на звука (както и от силата и тембъра). С други думи, тази стойност, показваща доколко звукът на определена честота е „значим“ за нас.

Можете да конвертирате честотата в тебешир, като използвате следната формула (запомнете я като "формула-1"):

Обратната трансформация изглежда така (запомнете я като "формула-2"):

Начертайте мел/честота:

Но да се върнем към нашата задача. Да кажем, че имаме рамка с размер 256 елемента. Знаем (от данните за аудио формата), че аудио честотата в даден кадър е 16000 Hz. Да приемем, че човешката реч се намира в диапазона от hz. Нека зададем броя на търсените мел-коефициенти M = 10 (препоръчителна стойност).

За да разложим спектъра, получен по-горе, в мел-скала, трябва да създадем „гребен“ от филтри. Всъщност всеки мел филтър е функция с триъгълен прозорец, която ви позволява да сумирате количеството енергия в определен честотен диапазон и по този начин да получите мел коефициента. Познавайки броя на мел коефициентите и анализирания честотен диапазон, можем да изградим набор от такива филтри:

Имайте предвид, че колкото по-висок е коефициентът на мел, толкова по-широка е основата на филтъра. Това се дължи на факта, че разделянето на честотния диапазон, който ни интересува, в обхватите, обработвани от филтрите, се извършва по скалата на тебешира.

Но пак се отклонихме. И така за нашия случай диапазонът от честоти, които ни интересуват, е . Според формула-1 на тебеширната скала този диапазон се превръща в.

m[i] =

Моля, имайте предвид, че точките са равномерно разположени върху тебеширената скала. Нека преобразуваме скалата обратно в херцове, използвайки формула-2:

h[i] =

Както можете да видите, сега скалата започна постепенно да се разтяга, като по този начин изравнява динамиката на растежа на „значимостта“ при ниски и високи честоти.

Сега трябва да наслагваме получената скала върху спектъра на нашата рамка. Както си спомняме, по оста Х имаме честотата. Дължината на спектъра е 256 елемента, като се побира в 16000hz. Чрез решаване на проста пропорция можете да получите следната формула:

f(i) = floor((frameSize+1) * h(i) / sampleRate)

Което в нашия случай е еквивалентно на

f(i) = 4, 8, 12, 17, 23, 31, 40, 52, 66, 82, 103, 128

Това е всичко! Познавайки референтните точки на оста X на нашия спектър, е лесно да конструираме филтрите, от които се нуждаем, като използваме следната формула:

Прилагане на филтри, логаритъм на енергията на спектъра

Прилагането на филтъра се състои в умножаване по двойки на неговите стойности със стойностите на спектъра. Резултатът от тази операция е коефициентът на мел. Тъй като имаме M филтри, ще има същия брой коефициенти.

Трябва обаче да приложим мел филтри не към стойностите на спектъра, а към неговата енергия. След това вземете логаритъма на резултатите. Смята се, че това намалява чувствителността на коефициентите към шума.

косинусово преобразуване

Дискретното косинусово преобразуване (DCT) се използва за получаване на тези "кепстрални" коефициенти. Неговият смисъл е да „компресира“ резултатите, получени чрез увеличаване на значимостта на първите коефициенти и намаляване на значимостта на последните.

В този случай DCTII се използва без никакво умножение по (коефициент на мащабиране).

Сега за всеки кадър имаме набор от M mfcc коефициенти, които могат да се използват за по-нататъшен анализ.

Могат да бъдат намерени примери за код за основните методи.

Алгоритъм за разпознаване

Тук, драги читателю, ви очаква основното разочарование. В интернет случайно видях много високо интелигентни (и не толкова) спорове за това кой метод за разпознаване е по-добър. Някой се застъпва за скрити модели на Марков, някой за невронни мрежи, нечии мисли са по принцип невъзможни за разбиране :)

Във всеки случай много предпочитания се отдават на HMM и именно тяхната реализация ще добавя към моя код ... в бъдеще :)

В момента предлагам да се спрем на много по-малко ефективен, но многократно по-прост метод.

И така, не забравяйте, че нашата задача е да разпознаем дума от някакъв речник. За по-лесно ще разпознаем имената на първите десет цифри: „едно“, „две“, „три“, „четири“, „пет“, „шест“, „седем“, „осем“, „девет“, „десет“.

Сега нека вземем iPhone / Android и да преминем през L колеги с молба да продиктуваме тези думи за протокола. След това нека присвоим (в някаква локална база данни или обикновен файл) на всяка дума L от набори от mfcc-коефициенти на съответните записи.

Ще наречем тази кореспонденция „Модел“, а самия процес – Машинно обучение! Всъщност простото добавяне на нови проби към базата данни има изключително слаба връзка с машинното обучение ... Но терминът е твърде модерен :)

Сега нашата задача се свежда до избора на „най-близкия“ модел за някакъв набор от mfcc-коефициенти (разпознаваема дума). На пръв поглед проблемът може да бъде решен съвсем просто:

  • за всеки модел намираме средното (евклидово) разстояние между идентифицирания mfcc-вектор и векторите на модела;
  • избираме като правилен модела, средното разстояние до което ще бъде най-малко;

Същата дума обаче може да бъде произнесена както от Андрей Малахов, така и от някои негови естонски колеги. С други думи, размерът на mfcc вектора за една и съща дума може да бъде различен.

За щастие, проблемът със сравняването на последователности с различни дължини вече е решен под формата на алгоритъма за динамично изкривяване на времето. Този алгоритъм за динамично програмиране е прекрасно описан както в буржоазната Wiki, така и в православната.

Единствената промяна, която трябва да се направи в него, е начинът, по който се намира разстоянието. Трябва да помним, че mfcc векторът на модела всъщност е последователност от mfcc "подвектори" с измерение M, получени от рамки. И така, алгоритъмът DTW трябва да намери разстоянието между последователностите на същите тези „подвектори“ с измерение M. Това означава, че разстоянията (евклидови) между mfcc „подвекторите“ на кадрите трябва да се използват като стойности на матрицата на разстоянието.

Експерименти

Нямах възможност да тествам работата на този подход върху голяма „обучителна“ извадка. Резултатите от тестовете върху извадка от 3 екземпляра за всяка дума в несинтетични условия показаха, меко казано, не най-добрия резултат - 65% от правилните разпознавания.

Моята цел обаче беше да създам най-простото приложение за разпознаване на реч. Така да се каже „доказателство за концепцията“ :) Добавете тагове

Учените се занимават с този проблем от около 70 години, първата индустриална система е създадена в Япония през втората половина на 80-те години, тя се нарича компютърна система за диктовка на текст (диктографи), тази система има тясна специализация.

Под компютърно разпознаване на реч се разбира такова разпознаване, което е детайлизирано за възприемане на реч от човек, при всякакви условия и при общуване с всеки човек.

Решението на проблема е:

1) Липсата на ясни теоретични идеи, които биха описали целия комплекс от трансформации, извършвани от нервната система по време на обработката на речеви сигнали;

2) Притежаване на гладко произнесена реч:

3) Размити граници на думите:

4) Влиянието на съседните звуци един върху друг;

5) Размито произношение и дори изчезване на функционални думи;

7) Голямо значение в процеса на вербална комуникация на паралингвистичните средства за комуникация:

а) Кинезика (мимики, жестове);

в) Проксемика (дистанция между хората).

Следователно днес RDA може да се извършва само при определени ограничения:

1) Разпознаване на изолирани изговорени думи;

3) Разпознаване въз основа на малък, предварително определен речник.

IBM е лидер в този вид продукти с ViaVoice (140 wpm). Популярна система за диктовка е DragonSystem.

Алгоритъм за разпознаване:

1. Въвеждане на устна реч, обработка на данни (премахване на шум);

2. Разделяне на аудиопотока на сегменти;

3. Разпределение във всеки сегмент на минималната акустична единица - думи;

4. Сравнение на избрани единици със стандарти.

Индустриалните системи за разпознаване на реч са условно разделени на 4 групи:

1. Инструменти за гласов контрол (PC, телефон);

2. Инструменти за диктовка на текст;

3. Информационно-справочни системи в интерактивен режим като телефонен секретар;



4. Средства за идентифициране на човек по модела на речта.


Въпрос 27.

Автоматични системи за синтез на реч

Методи:

1) Кодиране (запис в двоичната система на речеви сигнали с последващото им възстановяване)

а) По същество компютърът тук служи като устройство за запис на реч, думите и фразите се записват в компютъра предварително и се възпроизвеждат в точното време чрез команди);

б) Недостатък:

Невъзможно е да се каже фраза, която не е била въведена в паметта;

Съхраняването на речеви сигнали в директна форма изисква голямо количество памет;

в) Ползи:

Естествено звучаща реч;

Качеството на речта е близко до човешкото;

2) Фонетичен синтез на речта (акустично моделиране на човешкия гласов тракт)

а) Синтезаторът по този метод е коренно различен от синтезатора по първия метод - има неестествен звук, говори с гласа на робот;

b) Обикновено се извършва според правописния текст, написан от човек, компютърът в него е в състояние да преобразува букви във фонеми, фонеми в алофони и да синтезира непрекъснат речеви сигнал, използвайки алофоните на избрания говорещ и базата данни;

в) Най-обещаващият, тъй като речта всъщност се генерира от самия компютър.

а) Речникът в синтезатора от този тип, както и в първия метод, се създава с участието на човек, но тук не се съхраняват думи и фрази в паметта, а извличането на числени характеристики на звуците на речта и интонацията на фрази се изпълнява, което намалява необходимото количество памет.

б) Речта е естествена, за генерирането й цифровите характеристики се преобразуват в звукови сигнали чрез специални команди.

Сега са в ход разработки, за да се гарантира, че синтезираната реч звучи живо, емоционално, естествено. Решаването на този проблем ще позволи създаването на системи за симултанен превод, по-активно използване на компютър при преподаване на език, както и хора със зрителни увреждания.


Въпрос 28.

Бази данни (DB) и езикови информационни ресурси (LIR)

DB- набор от информация за определени обекти, подредени по определен начин.

Обекти- това е информация, факти, събития, процеси. Един обект може да бъде материален (студент, стока, кола) и нематериален (събитие - ходене на цирк, процес - превод на текста, факт - прием в университет). В живота всеки обект има определени свойства или атрибути (тегло, скорост, цвят), на които се приписват определени стойности: хлябът тежи 400 грама, скоростта на автомобила е 90 км/ч.

В база данни атрибутите са представени като елементи на данни или просто данни, а техните стойности са стойности на данни.

По този начин, дадено- това е някакъв показател, който характеризира даден обект и приема някаква стойност за конкретен елемент от обекта. Група от данни, които образуват един ред, се нарича запис. Ако няколко записа имат един и същ набор от данни със същия тип информация, тогава се казва, че тези записи имат един и същ формат. Набор от записи с еднакъв формат се нарича файл. И много файлове образуват база данни.

Основни функции на базата данни

1) Търсене на информация в базата данни

а) добавяне;

б) отстраняване

в) редактиране

Системи за управление на бази данни (СУБД)

СУБД- набор от софтуерни инструменти, които ви позволяват да създавате и поддържате база данни.

Типове СУБД:

1. Настолните СУБД се подразделят според степента на сложност:

а) СУБД за обработка на малки количества информация (MS OUTLOOK)

б) СУБД, фокусирана върху потребител, който не знае как да програмира (EXCEL, LOTUS)

в) Комплексна СУБД, фокусирана върху разработването на приложения (Fox Base, MS Access)

2. Сървърна СУБД - използвайте архитектурата "клиент-сървър", т.е. извършват централизирано съхранение и обработка на данни (Informix, MS SQL Server).

Основни функции на СУБД

1) Осигурете създаването на структурата на базата данни (определете каква информация ще се съхранява, какви атрибути, типове данни)

2) Промяна на информацията в базата данни:

а) добавяне;

б) отстраняване

в) редактиране

3) Търсене на информация


Въпрос 29.

LIR -

Активен форми

В най-общ план LIR

Пасивните лингвистични информационни ресурси включват:

1) Писмената лексика е представена от едноезични и многоезични лексики. В общия му смисъл речник - това е справочник, който съдържа думи (морфеми, изрази, идиоми и др.), подредени в определен ред (различен в различните видове речници). Може да съдържа тълкуване на значението на описаните единици, както и различна информация Отях. Всеки речник може да бъде представен като релационна база данни

а) честотно-азбучен речник на словоформитепроизволен текст - най-простата лингвистична база данни;

б) индекс на думитепо-сложна база данни. В него, освен абсолютната честота на използване на словоформата в текста, се посочват и номерата на страниците и редовете на страницата, където се среща дадената словоформа.

V) конкордансиоще по-сложен тип база данни . В тях всяка словоформа на текста се характеризира не само с числови показатели (честота, номер на страница, номер на ред и др.), но и с някакъв контекст , в който се използва. По правило този контекст се състои от 3 изречения: изречението, в което се среща думата, изречението преди главното изречение и изречението след него.

G) енциклопедииречници, съдържащи характеристики не на думата като такава, а на обекта, факта или явлението, обозначени с нея. Има доста голям брой различни енциклопедии на машинен носител. Най-известната сред тях е енциклопедията Британика. Включва 82 000 статии и 700 допълнителни материала, публикувани от 1768 г. насам. Не по-малко известни са френските енциклопедии "Tons les savoire du Monde", "Le monde sur CD-ROM", "Versailles" и др. Голямата енциклопедия на Кирил и Методий е издадена на руски език

д) тезаурус- коренно различен тип речници. Той изрично посочва семантичните връзки между определена част от неговите лексикални единици. По правило такива речници се изграждат за текстове от доста тясна проблемна област: компютърни технологии, музика, корабостроене, селско стопанство и др.

д) терминологичен речник(TS) - речник, чиято основна единица е терминът .
Срок - това е дума или подчинена фраза, която има специално значение, изразява и формира професионално понятие и се използва в процеса на опознаване и развитие на научни и професионални обекти и връзката между тях.


Въпрос 30.

LIR -колекция от данни, съхранявани на компютър.

Езикови информационни ресурси- един от компонентите на информационните ресурси.Информационният ресурс се разбира като някакъв интелектуален ресурс, резултат от колективно творчество

Пасивните форми на информационни ресурси включват книги, списания, вестници, речници, енциклопедии, патенти, бази данни и банки с данни и др.

Активен формивключват алгоритми, модели, програми, бази от знания

В най-общ план LIR- това е вид езикова база данни, която може да се актуализира и в която можете да търсите тази или онази информация. Езиковите ресурси са необходими както за потребителите на персонални компютри, така и за различни компютърни системи, свързани с обработката на говорен текст: обобщаване, анотиране и превод на текстове, автоматичен анализ на текст, синтез на реч и текст.

2) Написан текстов масив ( корпусен текст в, т.е. набор от текстове, достатъчен да предостави надеждни научни заключения за определен език, диалект или друга подгрупа от език).

а) Може да се използва:

В лексикографията и лексикологията (за съставяне на различни речници, определяне на значенията на полисемантични думи, идентифициране на асоциативни връзки на думи в текста, подчертаване на термини и терминологични фрази и др.).

В граматиката (за определяне на честотата на използване на граматични морфеми в текстове от различни типове, за идентифициране на най-често използваните видове фрази и изречения, за определяне на значенията на синонимни морфологични единици, честотата на използване на класове думи и др.) .

В лингвистиката на текста (за разграничаване на текстови типове, създаване на конкорданси, идентифициране на връзки между изречения в абзаци и между абзаци "и т.н.")

При автоматичен превод на текстове (за търсене на контексти на думи, които имат няколко преводни еквивалента, търсене на преводни еквиваленти на терминологични и фразеологични фрази в паралелни текстове и др.).

За образователни цели (за избор на цитати, отделни фрагменти от произведения, примери, използвани в процеса на създаване на учебници и учебни помагала.

б) тагирани текстови корпуси(от английски, таг-"индекс, котило"). Всички думи от такъв корпус получават някои азбучни или цифрови индекси, които показват техните граматични, лексикални, семантични или структурни характеристики. Може да има няколко такива индекса.

3) Фонетични езикови ресурси
Понастоящем е общоприето, че за създаване на машинночетими фонетични корпуси се използва транскрипция въз основа на ортографското представяне на звукова реч с допълнителни знаци, които предават (ако е необходимо) прозодични, паралингвистични и други характеристики на произношението.

а) Фонетичните корпуси от текстове се използват широко за решаване на следните проблеми:

Сравнително изследване на устната и писмената форма на езика;

Изучаване на граматичните и лексикалните особености на устната реч;

Проучване на фонетичните особености на диалектите;

Изграждане на честотни списъци на фонеми и техните комбинации;

Изучаване на акустичните свойства на речеви единици и използването им в психолингвистични и лингвистични експерименти;

Създаване на компютърни системи, разпознаване и синтез на устна реч.

В представената работа компании от Северна Америка и Европа бяха разглобени основно част по част. Азиатският пазар е слабо представен в проучването. Но нека оставим всички тези подробности засега. Тенденциите и съвременните характеристики на индустрията обаче са описани по много интересен начин, което само по себе си е много интересно - още повече, че може да се представи в различни варианти, без да се губи общата същност. Няма да изнемогваме - може би ще започнем да описваме най-интересните моменти, в които се движи индустрията за разпознаване на реч и какво ни очаква в близко бъдеще (2012 - 2016 г.) - както уверяват изследователите.

Въведение

Системите за гласово разпознаване са изчислителни системи, които могат да определят речта на говорещия от общ поток. Тази технология е свързана с технологията за разпознаване на реч, която преобразува изговорените думи в цифрови текстови сигнали чрез стартиране на процес на разпознаване на реч на машини. И двете технологии се използват паралелно: от една страна, за идентифициране на гласа на конкретен потребител, от друга страна, за идентифициране на гласови команди чрез разпознаване на реч. Гласовото разпознаване се използва за целите на биометричната сигурност за идентифициране на гласа на конкретно лице. Тази технология стана много популярна в мобилното банкиране, което изисква удостоверяване на потребителя, както и други гласови команди, за да им помогне да завършат транзакции.

Глобалният пазар за разпознаване на реч е един от най-бързо развиващите се пазари в гласовата индустрия. По-голямата част от растежа на пазара идва от Америка, следван от Европа, Близкия изток и Африка (EMEA) и Азиатско-тихоокеанския регион (APR). Голяма част от растежа на пазара идва от здравеопазването, финансовите услуги и публичния сектор. Въпреки това, други сегменти, като телекомуникации и транспорт, се очаква да отбележат значителни увеличения в растежа през следващите няколко години. Пазарна прогноза, допълнително увеличение с CAGR от 22,07 процента за периода 2012-2016 г. (показатели за динамиката на растеж на настоящите компании).

Двигатели за растеж на пазара

Растежът на глобалния пазар за разпознаване на глас зависи от много фактори. Един от основните фактори е увеличаването на търсенето на гласови биометрични услуги. С нарастващата сложност и честота на пробиви в сигурността, сигурността продължава да бъде основно изискване за бизнеса, както и за правителствените организации. Голямото търсене на гласова биометрия, която е уникална за всеки индивид, е от решаващо значение за установяване на самоличността на дадено лице. Друг ключов двигател за пазара е увеличеното използване на идентификация на говорещия за съдебни цели.

Някои от основните двигатели на глобалния пазар за разпознаване на реч са:
Нараства търсенето на гласови биометрични услуги
По-широко използване на идентификация на говорещия за криминалистични цели
Търсене на разпознаване на реч за военни цели
Голямо търсене на гласово разпознаване в здравеопазването

Първоначално думата "биометрия" се среща само в медицинската теория. Въпреки това има нарастваща нужда от сигурност с използването на биометрични технологии сред бизнеса и държавните агенции. Използването на биометрични технологии е един от ключовите фактори на световния пазар за разпознаване на реч. Гласовото разпознаване се използва за удостоверяване на човек, тъй като гласът на всеки човек е различен. Това ще гарантира високо ниво на точност и безопасност. Гласовото разпознаване е от голямо значение във финансови институции като банки, както и в здравни предприятия. В момента сегментът за разпознаване на реч представлява 3,5% от дела на биометричните технологии на световния пазар, но този дял непрекъснато нараства. Освен това ниската цена на биометричните устройства увеличава търсенето от страна на малкия и среден бизнес.

По-широко използване на идентификация на говорещия за криминалистични цели

Използването на технология за идентификация на говорещи за съдебни цели е една от основните движещи сили на глобалния пазар за разпознаване на глас. Има сложен процес за определяне дали гласът на лице, заподозряно в престъпление, съвпада с гласа от съдебномедицинските проби. Тази технология позволява на правоприлагащите органи да идентифицират престъпниците по една от най-уникалните характеристики на човек, техния глас, като по този начин предлага относително високо ниво на точност. Криминалисти анализират съответствието на гласа на заподозрения с пробите до откриване на извършителя. Напоследък тази технология се използва за подпомагане на разрешаването на някои криминални случаи.

Търсене на разпознаване на реч за военни цели

Военните отдели в повечето страни използват изключително ограничени зони, за да предотвратят влизането на нарушители. За да гарантират поверителност и сигурност в тази област, военните използват системи за гласово разпознаване. Тези системи помагат на военните учреждения да открият наличието на неразрешени прониквания в защитена зона. Системата съдържа база данни с гласове на военнослужещи и държавни служители, които имат достъп до защитената зона. Тези хора се идентифицират от системата за гласово разпознаване, като по този начин се предотвратява допускането на хора, чиито гласове не са в базата данни на системата. Освен това можем да кажем, че ВВС на САЩ използват гласови команди за управление на самолета. Освен това военните отдели използват разпознаване на реч и системата Voice-to-text за комуникация с граждани в други страни. Например, американската армия активно използва системи за разпознаване на реч в своите операции в Ирак и Афганистан. Следователно има голямо търсене на разпознаване на реч и глас за военни цели.

Биометрични технологии като съдово разпознаване, разпознаване на глас и сканиране на ретината се прилагат широко в здравната индустрия. Очаква се гласовото разпознаване да стане един от основните начини за идентификация в медицинските заведения. Много здравни компании в Съединените щати, като се съобразяват със стандартите на Закона за преносимост и отчетност на здравното осигуряване (HIPAA), също използват биометрични технологии като гласово разпознаване, разпознаване на пръстови отпечатъци за по-сигурна и ефективна регистрация на пациенти, натрупване на информация за пациенти и защита медицински досиета на пациента. Институциите за клинични изпитвания също прилагат гласово разпознаване за идентифициране на лица, наети за клинични изпитвания. По този начин гласовата биометрия е един от основните начини за идентификация на клиенти в здравната индустрия в Азиатско-тихоокеанския регион.

Изисквания на пазара



Влиянието на основните четири тенденции и проблеми върху глобалния пазар на разпознаване е показано на фигурата.

Ключ
Въздействието на проблемите и тенденциите се оценява въз основа на интензивността и продължителността на тяхното въздействие върху текущия пазар. Класификация на силата на удара:
Ниско - малко или никакво въздействие върху пазара
Средно – средно ниво на въздействие върху пазара
Умерено високо – значително влияние върху пазара
Високо - много силно въздействие с драстично влияние върху растежа на пазара

Въпреки възходящите тенденции, глобалният пазар на гласово разпознаване продължава да се сблъсква с някои сериозни спирачки на растежа. Един от важните проблеми е трудността при потискане на околния шум. Въпреки че пазарът на разпознаване на реч е свидетел на няколко технологични постижения, невъзможността за потискане на околния шум все още остава пречка за приемането на приложения за разпознаване на глас. Друго предизвикателство за този пазар е високата цена на приложенията за гласово разпознаване.

Някои от основните предизвикателства пред глобалния пазар за разпознаване на глас са:
Невъзможност за потискане на външния шум
Висока цена на приложението за гласово разпознаване
Проблеми с точността на разпознаване
Ниска сигурност при проверката на високоговорителя

Невъзможност за потискане на външния шум

Въпреки технологичния прогрес в областта на гласовото разпознаване, шумът продължава да бъде един от основните проблеми на глобалния пазар на гласово разпознаване. В допълнение, гласовата биометрия е особено чувствителна в сравнение с други видове биометрия. Приложенията за гласово разпознаване, гласова биометрия и разпознаване на реч се оказват много чувствителни към шума в околната среда. В резултат на това всяко шумово смущение пречи на точността на разпознаването. Автоматичният отговор на гласова команда също е нарушен. Невъзможността за потискане на околния шум е единственият фактор, който пречи на системите за гласово разпознаване да постигнат високи резултати и да заемат висок процент от дела на световния пазар на биометрични технологии.

Високата цена на приложенията за гласово разпознаване

Един от основните проблеми, възпрепятстващи развитието на технологиите за разпознаване на реч, е необходимостта от големи инвестиции, необходими за разработване и внедряване. Мащабното внедряване на технология за гласово разпознаване в едно предприятие е процес, който отнема много време и изисква огромни инвестиции. Бюджетните спестявания водят до ограничено тестване на технологиите, следователно всеки неуспех може да доведе до големи загуби в предприятието. Следователно алтернативи на гласовото разпознаване, като плъзгане на карта и клавиатура, все още се използват активно в много компании, особено сред малките и средни предприятия, поради тяхната рентабилност. По този начин приложенията за гласово разпознаване изискват големи материални инвестиции, включително цената на интеграционна система, допълнително оборудване и други разходи.

Проблеми с точността на разпознаване

На глобалния пазар за гласово разпознаване често срещан проблем е ниската точност на разпознаването, въпреки факта, че в момента системите за гласово разпознаване могат да разпознават различни езици и да определят автентичността на гласа. Тъй като системата включва сложен процес на съпоставяне на база данни с изговорени команди и интегрирана технология за разпознаване на реч и гласова проверка, дори незначителна грешка във всяка част от процеса може да доведе до неправилен резултат. Грешката при разпознаване на реч е едно от основните ограничения в приложенията за разпознаване на глас. Въпреки това, някои производители са започнали да разработват системи с много ниски нива на грешка при гласовото разпознаване. Те са разработили системи с по-малко от 4% неточни резултати (например гласовите биометрични измервания идентифицират погрешно и отхвърлят гласа на човек, който има достъп).

Ниска сигурност при проверката на високоговорителя

Високото ниво на неточност при проверката на високоговорителя води до ниско ниво на сигурност. В момента системите за гласово разпознаване имат висок процент неточни резултати. Колкото по-висок е процентът на вземане на грешни решения, толкова по-голяма е вероятността, например, разрешение за влизане да бъде получено от външен човек. Тъй като системите за гласово разпознаване са много чувствителни, те улавят всичко, включително проблеми с гърлото, кашлица, настинки, промени в гласа поради заболяване, има голяма вероятност неупълномощено лице да има достъп до затворена зона, причината за това е ниско ниво на сигурност при гласовото разпознаване на човек.

Пазарни тенденции

Ефектът от предизвикателствата пред пазара се очаква да неутрализира различните тенденции, които се появяват на пазара. Една такава тенденция е нарастващото търсене на разпознаване на реч на мобилни устройства. Осъзнавайки огромния потенциал на мобилните устройства, производителите на глобалния пазар за разпознаване на глас разработват иновативни приложения, специфични за мобилни устройства. Това е един от бъдещите движещи фактори. Нарастващото търсене на гласово удостоверяване при мобилно банкиране е друга положителна тенденция на пазара за гласово разпознаване.

Някои от основните тенденции на световния пазар за разпознаване на глас са:
Нараства търсенето на разпознаване на реч на мобилни устройства
Нарастващо търсене на услуги за гласово удостоверяване за мобилно банкиране
Интегриране на гласова проверка и разпознаване на реч
Увеличаване на сливанията и придобиванията

Нараства търсенето на разпознаване на реч на мобилни устройства

Нарастващият брой правила за движение, забраняващи използването на мобилни устройства по време на шофиране, увеличи търсенето на приложения за разпознаване на реч. Държави със строги ограничения: Австралия, Филипините, САЩ, Великобритания, Индия и Чили. В Съединените щати повече от 13 щата, въпреки въвеждането на регламента за използване на мобилни устройства, имат право да използват високоговорител по време на шофиране. Следователно, потребителите все повече избират мобилни устройства, оборудвани с приложения за разпознаване на реч, които могат да им помогнат да получат достъп до устройството, без да се налага да се разсейват от самото устройство. За да отговорят на нарастващото търсене на приложения за разпознаване на реч в мобилни устройства, производителите са увеличили обема на научноизследователската и развойната работа, за да разработят опции за командване на реч за мобилното устройство. В резултат на това в мобилното устройство са включени голям брой приложения за разпознаване на реч, като например управление на музикални плейлисти, четене на адреси, четене на име на обаждащия се, гласови SMS съобщения и т.н.

Необходимостта от по-строга проверка води до универсалното интегриране на гласово удостоверяване в мобилното банкиране. В региони като Северна Америка и Западна Европа голям брой банкови клиенти използват съоръжения за телефонно банкиране. Голям брой такива финансови институции приемат решения за гласово удостоверяване от потребителя за приемане или отхвърляне на мобилни транзакции. В допълнение, активирането на гласово удостоверяване на мобилни устройства е рентабилно и в същото време осигурява по-високо ниво на сигурност. По този начин тенденцията към интегриране на гласово удостоверяване за мобилно банкиране ще нараства още повече през годините. Наистина базираните на телефон банкови институции си партнират с доставчици на решения за гласово удостоверяване и гласови биометрични инкорпорации, което е ключово конкурентно предимство.

Някои доставчици работят за интегриране на гласова проверка и технология за разпознаване на реч. Вместо да предлагат гласова проверка като отделен продукт, производителите предлагат интегриране на функционалността за гласова проверка и разпознаване на реч. Гласовата проверка помага да се определи кой говори и в същото време кой човек говори. Повечето производители са започнали или са в процес на стартиране на приложения за разпознаване на реч, които включват интегриране на двете технологии, описани по-горе.

Увеличаване на сливанията и придобиванията

Глобалният пазар за разпознаване на глас вижда големи тенденции в сливанията и придобиванията. Доминиращият пазарен лидер, Nuance Communications Inc., който държи над 50% пазарен дял, придоби голям брой малки компании на пазара за разпознаване на реч. От това следва, че придобиването е нов подход към растежа на компанията, което води до шестте придобивания на Nuance през 2007 г. Очаква се тази тенденция да продължи през следващите няколко години поради наличието на множество малки играчи, които могат да бъдат придобити от по-големи компании като Nuance. Тъй като пазарът се движи от технологиите, малките компании разработват иновативни решения. Но поради липса на ресурси, тези компании не могат да разширят бизнеса си. По този начин големи компании като Nuance използват процеса на придобиване като своя основна стратегия за навлизане на нови пазари и индустрии. Например Nuance придоби Loquendo Inc. За влизане в региона EMEA.

Заключение

Има 2 клона на развитие на системи за разпознаване на реч (размер на пазара от $1,09 до $2,42 милиарда от 2012 до 2016 г., темп на растеж + 22,07%)
Реч към текст (пазарен размер от $860 млн. (2012 г.) до $1727 млн. (2016 г.) - общ дял 79%-71% от 2012 г. до 2016 г.)
Проверка и идентификация с човешки глас (размер на пазара от $229 милиона (2012) до $697 милиона - общ дял от 21%-28,8% от 2012 до 2016 г.)

В конкурентната борба компаниите, които съществуват на ръба на тези две посоки, ще се развиват по-активно - от една страна, подобряване на точността на програмите за разпознаване на реч и превеждането й в текст, от друга страна, решаване на този проблем чрез идентифициране на говорещия и проверка на речта му с помощта на допълнителен канал (например видео) като източник на информация.

Според проучване на Technavio, основният проблем със съществуващите програми за разпознаване на реч е тяхната чувствителност към потискане на околния шум;
- Основната тенденция е разпространението на речеви технологии чрез увеличаване на броя и качеството на мобилните устройства и развитието на решенията за мобилно банкиране;
- Държавните организации, военните, медицината и финансовият сектор в момента играят голяма роля в развитието на технологиите за разпознаване на реч. Има обаче голямо търсене на такива технологии под формата на мобилни приложения и задачи за гласова навигация, както и биометрични данни;
- Основният пазар за системи за разпознаване на реч е в САЩ, но най-бързата и платежоспособна аудитория живее в Югоизточна Азия, особено в Япония (поради пълната гласова автоматизация на кол центровете). Предполага се, че именно в този регион трябва да се появи силен играч, който ще бъде сериозна помощ за глобалната мощ на Nuance Communications (текущият глобален пазарен дял е 70%);
- Най-честата политика на пазара за разпознаване на реч е сливанията и придобиванията (M&A) - лидерите на пазара често купуват малки технологични лаборатории или фирми по света, за да запазят хегемонията.
- Разходите за приложения бързо падат, точността се увеличава, филтрирането на фоновия шум се подобрява, сигурността се увеличава - очакваната дата за внедряване на ултра-точна технология за разпознаване на реч е 2014 г.

Така според прогнозите на Технавио в периода 2012-2016г. пазарът на системи за разпознаване на реч се очаква да се увеличи с повече от 2,5 пъти. Голям дял в един от най-динамичните и най-бързи пазари на ИТ технологии ще получат играчи, които могат да решават 2 задачи в своя продукт едновременно: да научат как качествено да разпознават речта и да я превеждат в текст, а също така да могат да идентифицират добре гласът на говорещия, проверете го от общия поток. Дъмпингът (изкуственото намаляване на цената на такива технологии), създаването на програми с приятелски интерфейс и бърз процес на адаптиране, с високо качество на работа, може да се нарече голямо конкурентно предимство. Очаква се, че през следващите 5 години - ще има нови играчи на пазара, които могат да предизвикат по-малко гъвкави големи корпорации като разпознаването на реч на Nuance Communications

  • проучване на пазара
  • прогноза за развитие
  • нюанс
  • Добавяне на етикети 15 юли 2009 г. в 22:16 ч

    Гласово разпознаване. Част 1. Класификация на системите за разпознаване на реч

    • Изкуствен интелект
    Епиграф
    В Русия посоката на системите за разпознаване на реч наистина е доста слабо развита. Google обяви система за записване и разпознаване на телефонни разговори отдавна ... За съжаление все още не съм чувал за системи с подобен мащаб и качество на разпознаване на руски език.

    Но няма нужда да мислите, че всичко в чужбина е открито отдавна и ние никога няма да ги настигнем. Когато търсех материал за тази поредица, трябваше да търся в облак от чужда литература и дисертации. Още повече, че тези статии и дисертации бяха на забележителни американски учени Хуанг Сюедонг; Хисайоши Коджима; ДонгСук Юки др.. Ясно ли е на кого се опира този клон на американската наука? ;0)

    В Русия познавам само една интелигентна компания, която успя да изведе домашните системи за разпознаване на реч на търговско ниво: Център за речеви технологии. Но може би след тази поредица от статии някой ще се сети, че е възможно и необходимо да се разработят такива системи. Освен това по отношение на алгоритми и мат. На практика не сме изостанали от устройството.

    Класификация на системите за разпознаване на реч

    Днес под понятието "разпознаване на реч" се крие цяла област от научна и инженерна дейност. Като цяло, всяка задача за разпознаване на реч се свежда до изолиране, класифициране и подходящо реагиране на човешка реч от входния аудио поток. Това може да бъде и извършване на определено действие по команда на човек, и избор на определена маркерна дума от голям набор от телефонни разговори, и система за гласово въвеждане на текст.

    Признаци за класификация на системи за разпознаване на реч
    Всяка такава система има някои задачи, които е предназначена да решава, и набор от подходи, които се използват за решаване на задачите. Обмислете основните характеристики, по които могат да бъдат класифицирани системите за разпознаване на човешка реч и как тази характеристика може да повлияе на работата на системата.
    • Размер на речника.Очевидно е, че колкото по-голям е размерът на речника, който е вграден в системата за разпознаване, толкова по-голяма е честотата на грешките при разпознаването на думи от системата. Например, речник от 10 цифри може да бъде разпознат почти без грешки, докато процентът на грешки при разпознаване на речник от 100 000 думи може да достигне до 45%. От друга страна, дори разпознаването на малък речник може да доведе до голям брой грешки при разпознаване, ако думите в този речник са много сходни една с друга.
    • Зависимост от високоговорителя или независимост от високоговорителя на системата.По дефиниция системата, зависима от високоговорителя, е проектирана да се използва от един потребител, докато независимата от високоговорителя система е проектирана да работи с всеки високоговорител. Независимостта на говорещия е трудно постижима цел, тъй като когато системата се обучава, тя се настройва към параметрите на говорещия, на примера на който се обучава. Степента на грешка при разпознаване на такива системи обикновено е 3-5 пъти по-висока от честотата на грешка на системите, зависими от говорител.
    • Разделна или слята реч.Ако в една реч всяка дума е отделена от друга с част от мълчание, тогава те казват, че тази реч е отделна. Непрекъснатата реч е естествено произнесени изречения. Разпознаването на продължителна реч е много по-трудно поради факта, че границите на отделните думи не са ясно дефинирани и произношението им е силно изкривено чрез замъгляване на изговорените звуци.
    • Назначаване.Целта на системата определя необходимото ниво на абстракция, при което ще се осъществи разпознаването на устна реч. В командна система (например гласово набиране в мобилен телефон) най-вероятно разпознаването на дума или фраза ще се случи като разпознаване на един елемент на речта. И системата за диктовка на текст ще изисква по-голяма точност на разпознаване и най-вероятно, когато интерпретира изречена фраза, ще разчита не само на това, което е казано в текущия момент, но и на това как тя корелира с казаното преди. Освен това системата трябва да има вграден набор от граматически правила, на които изговореният и разпознаваем текст трябва да отговаря. Колкото по-строги са тези правила, толкова по-лесно е да се приложи система за разпознаване и толкова по-ограничен ще бъде наборът от изречения, които тя може да разпознае.
    Разлики в методите за разпознаване на реч
    При създаването на система за разпознаване на реч е необходимо да се избере какво ниво на абстракция е подходящо за задачата, какви параметри на звуковата вълна ще се използват за разпознаване и методи за разпознаване на тези параметри. Помислете за основните разлики в структурата и работата на различните системи за разпознаване на реч.
    • По вид структурна единица.При анализ на речта като основна единица могат да бъдат избрани отделни думи или части от изговорени думи, като фонеми, ди- или трифони, алофони. В зависимост от това коя структурна част е избрана, структурата, универсалността и сложността на речника на разпознаваемите елементи се променят.
    • Чрез идентифициране на знаци.Самата последователност от показания на налягането на звуковата вълна е прекалено излишна за системите за разпознаване на звук и съдържа много ненужна информация, която не е необходима по време на разпознаването или дори е вредна. По този начин, за да се представи говорен сигнал, е необходимо да се извлекат от него някои параметри, които адекватно представят този сигнал за разпознаване.
    • Според механизма на действие.В съвременните системи широко се използват различни подходи към механизма на функциониране на системите за разпознаване. Вероятностно-мрежовият подход се състои в това, че речевият сигнал се разделя на определени части (кадри или според фонетичен признак), след което се прави вероятностна оценка кой конкретен елемент от разпознатия речник е свързан с тази част и (или ) целия входен сигнал. Подходът, основан на решаването на обратната задача на звуковия синтез, се състои в това, че естеството на движението на артикулаторите на гласовия тракт се определя от входния сигнал и според специален речник се определят произнесените фонеми.

    UPD:Преместен в „Изкуствен интелект“. При интерес ще продължа да публикувам в него.

    Комерсиалните програми за разпознаване на реч се появяват в началото на деветдесетте години. Обикновено те се използват от хора, които поради нараняване на ръката не могат да напишат голямо количество текст. Тези програми (например Dragon NaturallySpeaking, VoiceNavigator) превеждат гласа на потребителя в текст, като по този начин разтоварват ръцете му. Надеждността на превода на такива програми не е много висока, но постепенно се подобрява с годините.

    Увеличаването на изчислителната мощност на мобилните устройства направи възможно създаването на програми за тях с функция за разпознаване на реч. Сред такива програми си струва да се отбележи приложението Microsoft Voice Command, което ви позволява да работите с много приложения, използвайки гласа си. Например, можете да активирате възпроизвеждане на музика в плейъра или да създадете нов документ.

    Интелигентните речеви решения, които автоматично синтезират и разпознават човешката реч, са следващата стъпка в развитието на интерактивни гласови системи (IVR). Използването на интерактивно приложение за телефон в момента не е модна тенденция, а жизненоважна необходимост. Намаляването на тежестта върху агентите и секретарите в кол център, намаляването на разходите за труд и подобряването на производителността на системите за обслужване са само част от предимствата, които правят тези решения полезни.

    Напредъкът обаче не стои неподвижен и напоследък системите за автоматично разпознаване и синтез на реч се използват все по-често в телефонни интерактивни приложения. В този случай комуникацията с гласовия портал става по-естествена, тъй като изборът в него може да се направи не само с помощта на тонално набиране, но и с помощта на гласови команди. В същото време системите за разпознаване са независими от високоговорителите, тоест разпознават гласа на всеки човек.

    Следващата стъпка в технологиите за разпознаване на реч може да се счита за разработването на така наречените Silent Speech Interfaces (SSI) (Silent Access Interfaces). Тези системи за обработка на реч се основават на получаване и обработка на речеви сигнали в ранен етап на артикулация. Този етап от развитието на разпознаването на реч се дължи на два съществени недостатъка на съвременните системи за разпознаване: прекомерната чувствителност към шума, както и необходимостта от ясна и отчетлива реч при достъп до системата за разпознаване. Базираният на SSI подход е да се използват нови сензори без шум, които да допълват обработените акустични сигнали.

    Към днешна дата има пет основни области на използване на системите за разпознаване на реч:

    Гласов контрол - начин за взаимодействие и контрол на работата на устройството с помощта на гласови команди. Системите за гласово управление са неефективни за въвеждане на текст, но са удобни за въвеждане на команди, като например:

    Видове системи

    Към днешна дата има два вида системи за разпознаване на реч - работещи "на клиента" (client-based) и на принципа "клиент-сървър" (client-server). Когато се използва технологията клиент-сървър, говорната команда се въвежда на устройството на потребителя и се предава през интернет на отдалечен сървър, където се обработва и връща на устройството под формата на команда (Google Voice, Vlingo и др.) ; поради големия брой потребители на сървъра, системата за разпознаване получава голяма база за обучение. Първата опция работи на други математически алгоритми и е рядка (Speereo Software) - в този случай командата се въвежда на устройството на потребителя и се обработва в него. Плюс обработка "на клиента" в мобилност, независимост от наличието на комуникация и работата на отдалечено оборудване. Така че система, която работи "на клиента", изглежда по-надеждна, но понякога е ограничена от мощността на устройството от страна на потребителя.