Wasifu Sifa Uchambuzi

Jinsi ya kutambua hotuba. Huduma mbili za utambuzi wa usemi mtandaoni na utafsiri wa maandishi

  • Mafunzo

Katika nakala hii nataka kuangalia misingi ya eneo la kupendeza la ukuzaji wa programu kama Utambuzi wa Hotuba. Kwa kawaida, mimi si mtaalam juu ya mada hii, hivyo hadithi yangu itakuwa imejaa usahihi, makosa na tamaa. Walakini, lengo kuu la "kazi" yangu, kama inavyoweza kueleweka kutoka kwa kichwa, sio uchambuzi wa kitaalam wa shida, lakini maelezo ya dhana za kimsingi, shida na suluhisho zao. Kwa ujumla, ninauliza kila mtu ambaye ana nia ya kuja kwa paka!

Dibaji

Hebu tuanze na ukweli kwamba hotuba yetu ni mlolongo wa sauti. Sauti, kwa upande wake, ni nafasi ya juu (uwepo) wa mitetemo ya sauti (mawimbi) ya masafa tofauti. Wimbi, kama tunavyojua kutoka kwa fizikia, lina sifa ya sifa mbili - amplitude na frequency.

Kwa njia hii, vibrations vya mitambo hubadilishwa kuwa seti ya nambari zinazofaa kwa usindikaji kwenye kompyuta za kisasa.

Inafuata kwamba kazi ya utambuzi wa hotuba inakuja "kulinganisha" seti ya maadili ya nambari (ishara ya dijiti) na maneno kutoka kwa kamusi fulani (Kirusi, kwa mfano).

Wacha tuone jinsi, kwa kweli, "kulinganisha" hiki kunaweza kutekelezwa.

Data ya kuingiza

Wacha tuseme tuna faili/mikondo iliyo na data ya sauti. Kwanza kabisa, tunahitaji kuelewa jinsi inavyofanya kazi na jinsi ya kuisoma. Hebu tuangalie chaguo rahisi zaidi - faili ya WAV.

Muundo unamaanisha kuwepo kwa vizuizi viwili kwenye faili. Kizuizi cha kwanza ni kichwa na habari kuhusu mkondo wa sauti: bitrate, frequency, idadi ya chaneli, urefu wa faili, nk. Kizuizi cha pili kina data "mbichi" - ishara hiyo hiyo ya dijiti, seti ya maadili ya amplitude.

Mantiki ya kusoma data katika kesi hii ni rahisi sana. Tunasoma kichwa, angalia vikwazo fulani (hakuna compression, kwa mfano), kuokoa data katika safu maalum zilizotengwa.

Utambuzi

Kinadharia kabisa, sasa tunaweza kulinganisha (kipengele kwa kipengele) sampuli tuliyo nayo na nyingine, ambayo maandishi yake tayari yanajulikana kwetu. Hiyo ni, jaribu "kutambua" hotuba ... Lakini ni bora si kufanya hivi :)

Njia yetu lazima iwe sugu (vizuri, angalau kidogo) kwa mabadiliko ya sauti ya sauti (ya mtu anayetamka neno), sauti na kasi ya matamshi. Kwa kawaida, hii haiwezi kupatikana kwa kulinganisha kipengele kwa kipengele cha ishara mbili za sauti.

Kwa hivyo, tutachukua njia tofauti kidogo.

Fremu

Kwanza kabisa, hebu tugawanye data yetu katika vipindi vidogo vya muda - fremu. Kwa kuongezea, muafaka haupaswi kwenda moja baada ya nyingine, lakini "huingiliana". Wale. mwisho wa sura moja lazima kuingiliana na mwanzo wa nyingine.

Fremu ni kitengo kinachofaa zaidi cha uchanganuzi wa data kuliko maadili mahususi ya mawimbi, kwani ni rahisi zaidi kuchanganua mawimbi kwa muda fulani kuliko katika sehemu mahususi. Mpangilio wa "kuingiliana" wa fremu hukuruhusu kulainisha matokeo ya uchanganuzi wa fremu, kugeuza wazo la fremu kuwa "dirisha" linalosogea kando ya kazi ya asili (maadili ya ishara).

Imeanzishwa kwa majaribio kuwa urefu bora wa sura unapaswa kuendana na pengo la 10ms, na "kuingiliana" kwa 50%. Kwa kuzingatia kwamba urefu wa wastani wa neno (angalau katika majaribio yangu) ni 500ms, hatua hii itatupa takriban 500 / (10 * 0.5) = fremu 100 kwa kila neno.

Kugawanya maneno

Kazi ya kwanza ambayo inapaswa kutatuliwa wakati wa kutambua hotuba ni kugawa hotuba hii kwa maneno ya mtu binafsi. Kwa unyenyekevu, hebu tuchukue kwamba katika kesi yetu hotuba ina baadhi ya pause (vipindi vya ukimya), ambayo inaweza kuchukuliwa kuwa "watenganishaji" wa maneno.

Katika kesi hii, tunahitaji kupata thamani fulani, kizingiti - maadili ambayo ni neno, chini ambayo ni kimya. Kunaweza kuwa na chaguzi kadhaa hapa:

  • kuweka kama mara kwa mara (inafanya kazi ikiwa ishara ya asili inazalishwa kila wakati chini ya hali sawa, kwa njia ile ile);
  • maadili ya ishara ya nguzo kwa kuchagua kwa uwazi seti ya maadili yanayolingana na ukimya (hii itafanya kazi tu ikiwa ukimya unachukua sehemu kubwa ya ishara ya asili);
  • kuchambua entropy;

Kama unavyoweza kukisia, sasa tutazungumza juu ya hatua ya mwisho :) Wacha tuanze na ukweli kwamba entropy ni kipimo cha shida, "kipimo cha kutokuwa na hakika kwa uzoefu wowote" (c). Kwa upande wetu, entropy inamaanisha ni kiasi gani ishara yetu "inabadilika" ndani ya fremu fulani.

  • Wacha tufikirie kuwa ishara yetu imerekebishwa na maadili yake yote yako katika safu [-1;1];
  • Wacha tujenge histogram (wiani wa usambazaji) wa maadili ya ishara ya sura:
hebu tuhesabu entropy kama ;

Na kwa hivyo, tulipata thamani ya entropy. Lakini hii ni tabia nyingine ya sura, na ili kutenganisha sauti kutoka kwa ukimya, bado tunahitaji kuilinganisha na kitu. Baadhi ya vifungu vinapendekeza kuchukua kizingiti cha entropy sawa na wastani kati ya maadili yake ya juu na ya chini (kati ya fremu zote). Hata hivyo, katika kesi yangu mbinu hii haikutoa matokeo yoyote mazuri.
Kwa bahati nzuri, entropy (kinyume na mraba wa wastani wa maadili) ni wingi unaojitegemea. Ambayo iliniruhusu kuchagua thamani ya kizingiti chake kwa namna ya mara kwa mara (0.1).

Hata hivyo, matatizo hayaishii hapo: (Entropy inaweza kuzama katikati ya neno (kwenye vokali), au inaweza kuruka ghafla kwa sababu ya kelele kidogo. Ili kukabiliana na tatizo la kwanza, inabidi kuanzisha dhana ya "umbali wa chini kabisa kati ya maneno" na "gundi pamoja" seti za karibu za viunzi vilivyotenganishwa kwa sababu ya ufinyu. Tatizo la pili hutatuliwa kwa kutumia "urefu wa chini wa maneno" na kukata watahiniwa wote ambao hawakufaulu uteuzi (na hawakufaulu. kutumika katika hatua ya kwanza).

Ikiwa hotuba sio "ya kuelezea" kwa kanuni, unaweza kujaribu kuvunja seti ya awali ya muafaka katika ufuatiliaji ulioandaliwa kwa njia fulani, ambayo kila mmoja itafanywa kwa utaratibu wa utambuzi. Lakini hiyo ni hadithi tofauti kabisa :)

Na hivyo, tuna seti ya muafaka sambamba na neno fulani. Tunaweza kufuata njia ya upinzani mdogo na kutumia mraba wa wastani wa thamani zake zote (Root Mean Square) kama sifa ya nambari ya fremu. Walakini, kipimo kama hicho hubeba habari ndogo sana inayofaa kwa uchanganuzi zaidi.

Hapa ndipo mgawo wa sepstral wa Mel-frequency unapotumika. Kulingana na Wikipedia (ambayo, kama unavyojua, haisemi uwongo), MFCC ni aina ya uwakilishi wa wigo wa nishati ya ishara. Faida za kuitumia ni kama ifuatavyo.

  • Wigo wa ishara hutumiwa (yaani, upanuzi wa msingi wa kazi za orthogonal [co]sine), ambayo inafanya uwezekano wa kuzingatia "asili" ya wimbi la ishara katika uchambuzi zaidi;
  • Wigo unakadiriwa kwenye kiwango maalum cha mel, hukuruhusu kuangazia masafa muhimu zaidi kwa mtazamo wa mwanadamu;
  • Idadi ya coefficients iliyohesabiwa inaweza kuwa mdogo kwa thamani yoyote (kwa mfano, 12), ambayo inakuwezesha "kubana" sura na, kwa sababu hiyo, kiasi cha habari iliyosindika;

Hebu tuangalie mchakato wa kuhesabu mgawo wa MFCC kwa sura fulani.

Wacha tufikirie sura yetu kama vekta, ambapo N ni saizi ya fremu.

Upanuzi wa mfululizo wa Fourier

Awali ya yote, tunahesabu wigo wa ishara kwa kutumia mabadiliko ya Fourier (ikiwezekana utekelezaji wake wa "haraka" wa FFT).

Hiyo ni, matokeo yatakuwa vector ya fomu ifuatayo:

Ni muhimu kuelewa kwamba baada ya mabadiliko haya kwenye mhimili wa X tunayo mzunguko (hz) wa ishara, na kando ya mhimili wa Y tuna ukubwa (kama njia ya kuondokana na maadili magumu):

Uhesabuji wa vichungi vya mel

Wacha tuanze na mel ni nini. Tena kulingana na Wikipedia, mel ni "sehemu ya sauti ya kisaikolojia" kulingana na mtazamo wa kibinafsi wa watu wa wastani. Inategemea hasa mzunguko wa sauti (pamoja na kiasi na timbre). Kwa maneno mengine, thamani hii inaonyesha ni kiasi gani sauti ya mzunguko fulani ni "maana" kwetu.

Unaweza kubadilisha mzunguko kuwa chaki kwa kutumia fomula ifuatayo (ikumbuke kama "formula-1"):

Mabadiliko ya kinyume yanaonekana kama hii (kumbuka kama "formula-2"):

grafu ya mel/frequency:

Lakini turudi kwenye kazi yetu. Wacha tuseme tunayo sura ya vitu 256. Tunajua (kutoka kwa data ya umbizo la sauti) kwamba masafa ya sauti katika fremu hii ni 16000hz. Wacha tuchukulie kuwa hotuba ya mwanadamu iko katika safu kutoka hz. Hebu tuweke idadi ya coefficients ndogo zinazohitajika kwa M = 10 (thamani iliyopendekezwa).

Ili kuoza wigo uliopatikana hapo juu pamoja na kiwango cha mel, tutahitaji kuunda "comb" ya vichungi. Kimsingi, kila kichujio cha mel ni kitendakazi cha dirisha cha pembe tatu ambacho hukuruhusu kujumlisha kiasi cha nishati katika masafa fulani ya masafa na hivyo kupata mgawo wa mel. Kwa kujua idadi ya hesabu ndogo na safu ya masafa iliyochambuliwa, tunaweza kuunda seti ya vichungi kama hii:

Tafadhali kumbuka kuwa kadiri nambari ya ordinal ya mgawo wa chaki inavyoongezeka, ndivyo msingi wa kichungi unavyoongezeka. Hii ni kutokana na ukweli kwamba mgawanyiko wa masafa ya riba kwetu katika safu zinazosindika na vichungi hutokea kwa kiwango cha chaki.

Lakini tulikengeushwa tena. Na kwa hivyo kwa upande wetu, anuwai ya masafa ambayo yanatuvutia ni sawa na . Kulingana na fomula-1, kwa kiwango cha chaki safu hii inabadilika kuwa .

m[i] =

Tafadhali kumbuka kuwa dots kwenye mizani ya chaki zimepangwa kwa usawa. Wacha tubadilishe kiwango kuwa hertz kwa kutumia formula-2:

h[i] =

Kama unavyoona, kiwango sasa kimeanza kunyoosha polepole, na hivyo kusawazisha mienendo ya ukuaji wa "muhimu" kwa masafa ya chini na ya juu.

Sasa tunahitaji kuweka kiwango kikubwa kwenye wigo wa fremu yetu. Tunapokumbuka, kando ya mhimili wa X tuna mzunguko. Urefu wa wigo ni vipengele 256, wakati 16000hz inafaa ndani yake. Baada ya kusuluhisha sehemu rahisi, unaweza kupata formula ifuatayo:

f(i) = sakafu((Ukubwa wa sura+1) * h(i) /Kiwango cha sampuli)

Ambayo kwa upande wetu ni sawa

f(i) = 4, 8, 12, 17, 23, 31, 40, 52, 66, 82, 103, 128

Ni hayo tu! Kujua alama za kumbukumbu kwenye mhimili wa X wa wigo wetu, ni rahisi kuunda vichungi tunavyohitaji kwa kutumia fomula ifuatayo:

Utumiaji wa vichungi, logarithm ya nishati ya wigo

Utumiaji wa kichungi unajumuisha kuzidisha kwa jozi kwa maadili yake na maadili ya wigo. Matokeo ya operesheni hii ni mgawo wa mel. Kwa kuwa tuna vichujio vya M, kutakuwa na idadi sawa ya coefficients.

Walakini, tunahitaji kutumia vichungi vya mel sio kwa maadili ya wigo, lakini kwa nishati yake. Kisha kuchukua logarithm ya matokeo. Inaaminika kuwa hii inapunguza unyeti wa coefficients kwa kelele.

Kubadilisha Cosine

Kigeuzi cha kosini cha pekee (DCT) kinatumika kupata mgawo huo wa "cepstral". Maana yake ni "compress" matokeo yaliyopatikana, kuongeza umuhimu wa coefficients ya kwanza na kupunguza umuhimu wa mwisho.

Katika kesi hii, DCTII inatumika bila kuzidisha kwa (sababu ya mizani).

Sasa kwa kila fremu tuna seti ya mgawo wa M mfcc ambayo inaweza kutumika kwa uchanganuzi zaidi.

Nambari ya mfano ya njia zilizo hapo juu zinaweza kupatikana.

Algorithm ya utambuzi

Hapa, msomaji mpendwa, ndipo tamaa kuu inakungojea. Kwenye mtandao nimeona mijadala mingi yenye akili sana (na sio yenye akili sana) kuhusu mbinu ipi ya utambuzi ni bora zaidi. Baadhi ya watu hutetea Miundo Siri ya Markov, wengine hutetea mitandao ya neva, na mawazo ya baadhi ya watu kimsingi hayawezekani kuelewa :)

Kwa hali yoyote, upendeleo mwingi hupewa SMM, na ni utekelezaji wao ambao nitaongeza kwenye nambari yangu ... katika siku zijazo :)

Kwa sasa, napendekeza kuzingatia njia isiyo na ufanisi zaidi, lakini rahisi zaidi.

Na kwa hivyo, tukumbuke kuwa kazi yetu ni kutambua neno kutoka kwa kamusi fulani. Kwa unyenyekevu, tutatambua majina ya nambari kumi za kwanza: "moja", "mbili", "tatu", "nne", "tano", "sita", "saba", "nane", "tisa", "tisa", "kumi".

Sasa hebu tuchukue iPhone/Android na kupitia L wenzetu na ombi la kuamuru maneno haya kwa kurekodi. Kisha, wacha tuhusishe (katika hifadhidata ya ndani au faili rahisi) na kila neno L seti za mgawo wa mfcc wa rekodi zinazolingana.

Tutaita mawasiliano haya "Mfano", na mchakato yenyewe - Kujifunza kwa Mashine! Kwa kweli, kuongeza tu sampuli mpya kwenye hifadhidata kuna muunganisho dhaifu sana na ujifunzaji wa mashine... Lakini neno ni la mtindo sana :)

Sasa kazi yetu inakuja kwa kuchagua mfano wa "karibu" kwa seti fulani ya mfcc coefficients (neno kutambuliwa). Kwa mtazamo wa kwanza, shida inaweza kutatuliwa kwa urahisi kabisa:

  • kwa kila mfano tunapata umbali wa wastani (Euclidean) kati ya vekta ya mfcc iliyotambuliwa na vekta za mfano;
  • tunachagua kama kielelezo sahihi umbali wa wastani ambao ni mdogo zaidi;

Walakini, neno moja linaweza kutamkwa na Andrei Malakhov na na wenzake wengine wa Kiestonia. Kwa maneno mengine, saizi ya vekta ya mfcc kwa neno moja inaweza kuwa tofauti.

Kwa bahati nzuri, tatizo la kulinganisha mlolongo wa urefu tofauti tayari limetatuliwa kwa namna ya algorithm ya Dynamic Time Warping. Algorithm hii ya programu yenye nguvu inaelezewa kikamilifu katika Wiki ya ubepari na katika ile ya Orthodox.

Mabadiliko pekee ambayo yanahitajika kufanywa kwake ni jinsi umbali unavyopatikana. Lazima tukumbuke kwamba vekta ya mfcc ya modeli kwa kweli ni mlolongo wa "subveekta" za mfcc za mwelekeo M zilizopatikana kutoka kwa fremu. Kwa hivyo, algorithm ya DTW lazima ipate umbali kati ya mlolongo wa "subveekta" sawa za mwelekeo M. Hiyo ni, umbali (Euclidean) kati ya "subveeta" za fremu lazima zitumike kama maadili ya matrix ya umbali.

Majaribio

Sikuwa na fursa ya kupima utendaji wa mbinu hii kwenye sampuli kubwa ya "mafunzo". Matokeo ya vipimo kwenye sampuli ya nakala 3 kwa kila neno katika hali zisizo za syntetisk ilionyesha, ili kuiweka kwa upole, sio matokeo bora - 65% ya utambuzi sahihi.

Walakini, lengo langu lilikuwa kuunda programu rahisi ya utambuzi wa usemi iwezekanavyo. Kwa hivyo kusema "ushahidi wa dhana" :) Ongeza vitambulisho

Wanasayansi wamekuwa wakisoma shida hii kwa karibu miaka 70, mfumo wa kwanza wa viwanda uliundwa huko Japani katika nusu ya pili ya miaka ya 80, uliitwa mfumo wa kuamuru maandishi kwenye PC (dictographs), mfumo huu ulikuwa na utaalam mwembamba.

Kwa utambuzi wa hotuba, Kompyuta inamaanisha utambuzi unaoelezea mtazamo wa usemi wa mtu, katika hali yoyote na wakati wa kuwasiliana na mtu yeyote.

Utatuzi wa shida unazuiwa na:

1) Ukosefu wa dhana wazi za kinadharia ambazo zinaweza kuelezea ugumu mzima wa mabadiliko yanayofanywa na mfumo wa neva wakati wa kusindika ishara za hotuba;

2) Kuwa na hotuba fasaha:

3) Mipaka ya maneno yenye ukungu:

4) Ushawishi wa sauti za jirani kwa kila mmoja;

5) Matamshi yasiyo wazi na hata kutoweka kwa maneno ya kazi;

7) Njia za mawasiliano ya lugha ni muhimu sana katika mchakato wa mawasiliano ya hotuba:

a) Kinesics (maneno ya uso, ishara);

c) Proxemics (umbali kati ya watu).

Kwa hivyo, leo ARR inaweza kufanywa tu chini ya vizuizi fulani:

1) Utambuzi wa maneno yaliyosemwa kwa kutengwa;

3) Utambuzi kulingana na kamusi ndogo, iliyofafanuliwa awali.

IBM ndiyo inayoongoza katika aina hii ya bidhaa na ViaVoice (maneno 140 kwa dakika). Mfumo maarufu wa imla ni DragonSystem.

Algorithm ya utambuzi:

1. Uingizaji wa hotuba iliyotamkwa, usindikaji wa data (kuondoa kelele);

2. Kugawanya mkondo wa sauti katika sehemu;

3. Kutengwa katika kila sehemu ya kitengo cha chini cha akustisk - neno;

4. Ulinganisho wa vitengo vilivyochaguliwa na viwango.

Mifumo ya utambuzi wa hotuba ya viwandani imegawanywa katika vikundi 4:

1. Vyombo vya kudhibiti sauti (PC, simu);

2. Zana za kuandikia maandishi;

3. Mifumo ya habari na kumbukumbu katika hali ya mwingiliano kama mashine ya kujibu;



4. Njia za kumtambua mtu kulingana na sampuli ya hotuba.


Swali la 27.

Mifumo otomatiki ya usanisi wa hotuba

Mbinu:

1) Usimbaji (kurekodi ishara za hotuba katika mfumo wa jozi na urejeshaji wao uliofuata)

a) Kimsingi, Kompyuta hapa hutumika kama kifaa cha kurekodi maneno na misemo hurekodiwa kwenye Kompyuta mapema na kutolewa tena kwa wakati unaofaa kwa kutumia amri;

b) Ubaya:

Haiwezekani kusema maneno ambayo hayajaingizwa kwenye kumbukumbu;

Kuhifadhi ishara za hotuba kwa fomu ya moja kwa moja inahitaji kiasi kikubwa cha kumbukumbu;

c) Faida:

Sauti ya asili ya hotuba;

Ubora wa hotuba unakaribia hotuba ya mwanadamu;

2) Usanisi wa hotuba ya fonetiki (mfano wa akustisk wa njia ya sauti ya binadamu)

a) Synthesizer inayotumia njia hii kimsingi ni tofauti na synthesizer kwa kutumia njia ya kwanza - ina sauti isiyo ya asili, inazungumza na sauti ya roboti;

b) Kawaida hufanywa kwa kutumia maandishi ya maandishi yaliyoandikwa na mtu, PC ndani yake ina uwezo wa kubadilisha herufi kuwa fonimu, fonimu kuwa alofoni na kuunganisha ishara ya hotuba inayoendelea kwa kutumia alofoni za mzungumzaji, zile zinazoweza kuchaguliwa na hifadhidata;

c) Ya kuahidi zaidi, kwani hotuba inatolewa na PC yenyewe.

a) Kamusi katika aina hii ya synthesizer, kama katika njia ya kwanza, imeundwa na ushiriki wa mtu, lakini hapa sio maneno na misemo ambayo imeandikwa kwenye kumbukumbu, lakini sifa za nambari za sauti za hotuba na sauti ya sauti. misemo imetengwa, ambayo inafanya uwezekano wa kupunguza kiasi cha kumbukumbu kinachohitajika.

b) Hotuba ni ya asili kuizalisha, sifa za nambari hubadilishwa kuwa ishara za sauti kwa kutumia amri maalum.

Hivi sasa, maendeleo yanafanywa ili kufanya hotuba iliyosanisiwa isikike hai, ya kihisia, na ya asili. Kutatua tatizo hili kutafanya iwezekanavyo kuunda mifumo ya kutafsiri kwa wakati mmoja, kufanya matumizi ya kazi zaidi ya PC katika kujifunza lugha, na pia kwa watu wenye uharibifu wa kuona.


Swali la 28.

Hifadhidata (DB) na rasilimali za habari za lugha (LIR)

DB- seti ya habari kuhusu vitu fulani vilivyopangwa kwa njia fulani.

Vitu- hii ni habari, ukweli, matukio, michakato. Kitu kinaweza kuwa nyenzo (mwanafunzi, bidhaa, gari) au isiyoonekana (tukio - safari ya circus, mchakato - tafsiri ya maandishi, ukweli - kuingia chuo kikuu). Katika maisha, kila kitu kina mali fulani au sifa (uzito, kasi, rangi), ambayo maadili fulani hupewa: mkate una uzito wa gramu 400, kasi ya gari ni 90 km / h.

Katika hifadhidata, sifa zinawakilishwa na vipengee vya data au data tu, na maadili yao ni maadili ya data.

Hivyo, kupewa- hii ni kiashiria fulani kinachoonyesha kitu fulani na kuchukua thamani fulani kwa kipengele maalum cha kitu. Kundi la data linalounda safu mlalo moja linaitwa rekodi. Ikiwa rekodi kadhaa zina seti sawa ya data na aina moja ya habari, basi rekodi hizi zinasemekana kuwa na muundo sawa. Rekodi nyingi zilizo na muundo sawa huitwa faili. Na faili nyingi huunda hifadhidata.

Kazi za msingi za hifadhidata

1) Kutafuta habari katika hifadhidata

a) nyongeza;

b) kuondolewa

c) uhariri

Mifumo ya usimamizi wa hifadhidata (DBMS)

DBMS- seti ya zana za programu zinazoruhusu uundaji na matengenezo ya hifadhidata.

Aina za DBMS:

1. DBMS za Eneo-kazi zimegawanywa kulingana na kiwango cha utata:

a) DBMS kwa usindikaji wa kiasi kidogo cha habari (MS OUTLOOK)

b) DBMS inayolenga watumiaji ambao hawajui jinsi ya kupanga (EXCEL, LOTUS)

c) DBMS ngumu zinazozingatia ukuzaji wa programu (Fox Base, MS Access)

2. DBMS ya seva - tumia usanifu wa "mteja-server", i.e. kutekeleza uhifadhi wa kati na usindikaji wa data (Informix, MS SQL Server).

Kazi kuu za DBMS

1) Hakikisha uundaji wa muundo wa hifadhidata (amua ni habari gani itahifadhiwa, ni sifa gani, aina za data)

2) Marekebisho ya habari iliyo kwenye hifadhidata:

a) nyongeza;

b) kuondolewa

c) uhariri

3) Tafuta habari


Swali la 29.

LIR -

Inayotumika fomu

Kwa maneno ya jumla zaidi LIR

Nyenzo za habari za lugha zisizo na maana ni pamoja na:

1) Leksimu iliyoandikwa inawakilishwa na leksimu za lugha moja na lugha nyingi. Kwa maana yake ya jumla kamusi - hiki ni kitabu cha marejeleo ambacho kina maneno (mofimu, misemo, nahau, n.k.) yaliyopangwa kwa mpangilio fulani (tofauti katika aina mbalimbali za kamusi). Inaweza kuwa na tafsiri ya maana ya vitengo vilivyoelezwa, pamoja na taarifa mbalimbali O yao. Kamusi yoyote inaweza kuwakilishwa kama hifadhidata ya uhusiano

A) Kamusi ya frequency-alfabeti ya maumbo ya maneno maandishi yoyote - hifadhidata rahisi zaidi ya lugha;

b) neno index database ngumu zaidi. Ndani yake, pamoja na mzunguko kamili wa matumizi ya fomu ya neno katika maandishi, nambari za kurasa na mistari kwenye ukurasa ambapo fomu hii ya neno ilipatikana imeonyeshwa.

V) konkodansi aina ngumu zaidi ya hifadhidata . Ndani yao, kila aina ya neno la maandishi inaonyeshwa sio tu na viashiria vya nambari (frequency, nambari ya ukurasa, nambari ya mstari, nk), lakini pia na muktadha fulani. , ambayo inatumika. Kama sheria, muktadha huu una sentensi 3: sentensi ambayo fomu ya neno hufanyika, sentensi kabla ya sentensi kuu, na sentensi baada yake.

G) ensaiklopidia kamusi zenye sifa si za neno kama hilo, bali za kitu, ukweli au jambo lililotajwa nalo. Kuna idadi kubwa kabisa ya ensaiklopidia tofauti kwenye vyombo vya habari vya uhifadhi wa kompyuta. Maarufu zaidi kati yao ni ensaiklopidia "Britannica". Inajumuisha nakala 82,000 na nyenzo 700 za ziada zilizochapishwa tangu 1768. Ensaiklopidia za Kifaransa "Tons les savoire du Monde", "Le monde sur CD-ROM", "Versailles", n.k. "The Great Encyclopedia of Cyril na Methodius" imechapishwa katika Kirusi.

d) thesauri- aina tofauti kimsingi ya kamusi. Inaonyesha kwa uwazi miunganisho ya kisemantiki kati ya sehemu fulani ya vipashio vyake vya kileksika. Kama sheria, kamusi kama hizo hujengwa kwa maandishi katika eneo la shida nyembamba: teknolojia ya kompyuta, muziki, ujenzi wa meli, kilimo, nk.

e) kamusi ya istilahi(TS) - kamusi, kitengo kikuu ambacho ni neno .
Muda ni neno au kishazi cha chini chenye maana maalum, hueleza na kuunda dhana ya kitaalamu na hutumika katika mchakato wa utambuzi na umilisi wa vitu vya kisayansi na kitaalamu-kiufundi na mahusiano kati yao.


Swali la 30.

LIR - mkusanyiko wa data iliyohifadhiwa kwenye PC.

Rasilimali za habari za kiisimu- moja ya vipengele vya rasilimali ya habari inaeleweka kama rasilimali ya kiakili, matokeo ya ubunifu wa pamoja

Aina zisizo na maana za rasilimali za habari ni pamoja na vitabu, majarida, magazeti, kamusi, ensaiklopidia, hataza, hifadhidata na hifadhi za data, n.k.

Inayotumika fomu ni pamoja na algorithms, mifano, programu, misingi ya maarifa

Kwa maneno ya jumla zaidi LIR- hii ni aina ya hifadhidata ya lugha ambayo inaweza kusasishwa na ambayo unaweza kutafuta hii au habari hiyo. Rasilimali za lugha ni muhimu kwa watumiaji wa Kompyuta na kwa mifumo mbali mbali ya kompyuta inayohusiana na usindikaji wa maandishi ya hotuba: muhtasari, ufafanuzi na tafsiri ya maandishi, uchanganuzi wa maandishi otomatiki, usanisi wa hotuba na maandishi.

2) safu ya maandishi ( maandishi ya mwili katika, i.e. kundi la matini zinazotosha kutoa makisio ya kisayansi yanayotegemeka kuhusu lugha, lahaja, au sehemu nyingine ndogo ya lugha).

a) Inaweza kutumika:

Katika leksikografia na leksikografia (kwa kuunda kamusi anuwai, kuamua maana za maneno ya polisemantiki, kutambua miunganisho ya ushirika ya maneno katika maandishi, kuangazia istilahi na misemo ya istilahi, n.k.).

Katika sarufi (kuamua mzunguko wa matumizi ya mofimu za kisarufi katika maandishi ya aina mbalimbali, kutambua aina zinazotumiwa zaidi za misemo na sentensi, kuamua maana ya vitengo vya morphological sawa, mzunguko wa matumizi ya madarasa ya neno, nk).

Katika isimu ya maandishi (kutofautisha aina za maandishi, kuunda kontena, kutambua uhusiano kati ya sentensi katika aya na kati ya aya, nk).

Wakati wa kutafsiri maandishi kiotomatiki (kutafuta muktadha wa maneno ambayo yana visawa kadhaa vya tafsiri, kutafuta tafsiri zinazolingana na misemo ya istilahi na misemo katika matini sambamba, n.k.).

Kwa madhumuni ya kielimu (kwa kuchagua nukuu, vipande vya mtu binafsi vya kazi, mifano inayotumika katika mchakato wa kuunda vitabu vya kiada na vifaa vya kufundishia.

b) tagged text corpora(kutoka Kiingereza, tagi -"index, takataka"). Maneno yote katika koposi kama hii hupokea baadhi ya herufi au fahirisi za nambari zinazoonyesha sifa zao za kisarufi, kileksia, kisemantiki au kimuundo. Kunaweza kuwa na faharisi kadhaa kama hizo.

3) Nyenzo za isimu fonetiki
Sasa inakubalika kwa ujumla kuwa ili kuunda korasi ya kifonetiki inayoweza kusomeka kwa mashine, unukuzi hutumiwa kulingana na uwakilishi wa orthografia wa usemi wa sauti wenye vibambo vya ziada vinavyowasilisha (ikihitajika) prosodi, paralinguistic na vipengele vingine vya matamshi.

a) Mkusanyiko wa fonetiki wa maandishi hutumiwa sana kutatua shida zifuatazo:

Utafiti wa kulinganisha wa aina za lugha ya mdomo na maandishi;

Kusoma sifa za kisarufi na lexical za hotuba ya mdomo;

Utafiti wa sifa za kifonetiki za lahaja;

Kuunda orodha za masafa ya fonimu na michanganyiko yake;

Kusoma mali ya akustisk ya vitengo vya hotuba na matumizi yao katika majaribio ya saikolojia na lugha;

Uundaji wa mifumo ya kompyuta, utambuzi na usanisi wa hotuba ya mdomo.

Kazi iliyowasilishwa iliangalia hasa makampuni kutoka Amerika ya Kaskazini na Ulaya. Soko la Asia halijawakilishwa vibaya katika utafiti. Lakini labda tutaacha maelezo haya yote kwetu kwa sasa. Hata hivyo, mwenendo na sifa za sasa za sekta hiyo zinaelezwa kwa kuvutia sana, ambayo yenyewe ni ya kuvutia sana - hasa kwa vile inaweza kuwasilishwa kwa tofauti mbalimbali bila kupoteza kiini cha jumla. Hebu tusikuchoshe - labda tutaanza kuelezea matukio ya kuvutia zaidi, ambapo tasnia ya utambuzi wa usemi inaelekea na nini kinatungoja katika siku za usoni (2012 - 2016) - kama watafiti wanavyohakikishia.

Utangulizi

Mifumo ya utambuzi wa sauti ni mifumo ya kompyuta ambayo inaweza kubainisha hotuba ya mzungumzaji kutoka kwa mtiririko wa jumla. Teknolojia hii inahusiana na teknolojia ya utambuzi wa usemi, ambayo hubadilisha maneno yanayotamkwa kuwa ishara za maandishi ya dijiti kwa kutekeleza mchakato wa utambuzi wa usemi kwenye mashine. Teknolojia hizi zote mbili hutumiwa kwa sambamba: kwa upande mmoja, kutambua sauti ya mtumiaji maalum, kwa upande mwingine, kutambua amri za sauti kwa njia ya utambuzi wa hotuba. Utambuzi wa sauti hutumiwa kwa madhumuni ya usalama ya kibayometriki ili kutambua sauti ya mtu mahususi. Teknolojia hii imekuwa maarufu sana katika benki ya simu, ambayo inahitaji uthibitishaji wa watumiaji, pamoja na amri nyingine za sauti ili kuwasaidia kukamilisha shughuli.

Soko la kimataifa la utambuzi wa usemi ni moja wapo ya soko linalokua kwa kasi katika tasnia ya sauti. Ukuaji mwingi katika soko hutoka Amerika, ikifuatiwa na Uropa, Mashariki ya Kati na Afrika (EMEA) na Asia Pacific (APAC). Ukuaji mwingi katika soko unatokana na huduma za afya, huduma za kifedha, na sekta ya umma. Walakini, sehemu zingine kama vile mawasiliano ya simu na usafirishaji zinatarajiwa kuona ongezeko kubwa la ukuaji katika miaka michache ijayo. Utabiri wa soko kuongezeka zaidi katika CAGR ya asilimia 22.07 wakati wa 2012-2016. (viashiria vya mienendo ya ukuaji wa makampuni ya sasa).

Waendeshaji wa ukuaji wa soko

Ukuaji wa soko la utambuzi wa sauti ulimwenguni inategemea mambo mengi. Moja ya sababu kuu ni ongezeko la mahitaji ya huduma za bayometriki za sauti. Pamoja na kuongezeka kwa utata na mzunguko wa ukiukaji wa usalama, usalama unaendelea kuwa hitaji kuu kwa biashara na mashirika ya serikali. Mahitaji makubwa ya bayometriki za sauti, ambayo ni ya kipekee kwa mtu yeyote, ni muhimu katika kubainisha utambulisho wa mtu. Kichocheo kingine muhimu cha soko ni kuongezeka kwa matumizi ya kitambulisho cha spika kwa madhumuni ya uchunguzi.

Baadhi ya vichochezi kuu vya soko la utambuzi wa usemi ulimwenguni ni:
Kuongezeka kwa mahitaji ya huduma za bayometriki za sauti
Kuongezeka kwa matumizi ya kitambulisho cha mzungumzaji kwa madhumuni ya uchunguzi
Mahitaji ya utambuzi wa matamshi kwa madhumuni ya kijeshi
Mahitaji makubwa ya utambuzi wa sauti katika huduma ya afya

Hapo awali, neno "biometriska" lilipatikana tu katika nadharia ya matibabu. Hata hivyo, hitaji la usalama kwa kutumia teknolojia ya kibayometriki miongoni mwa wafanyabiashara na mashirika ya serikali imeanza kuongezeka. Matumizi ya teknolojia ya kibayometriki ni moja wapo ya mambo muhimu katika soko la kimataifa la utambuzi wa usemi. Utambuzi wa sauti hutumiwa kuthibitisha uhalisi wa mtu, kwa kuwa sauti ya kila mtu ni ya kipekee. Hii itahakikisha kiwango cha juu cha usahihi na usalama. Utambuzi wa sauti ni muhimu sana katika taasisi za fedha kama vile benki, na pia katika biashara za afya. Hivi sasa, sehemu ya utambuzi wa hotuba inachukua 3.5% ya sehemu ya teknolojia ya biometriska katika soko la kimataifa, lakini sehemu hii inakua kila wakati. Pia, gharama ya chini ya vifaa vya biometriska huongeza mahitaji kutoka kwa biashara ndogo na za kati.

Kuongezeka kwa matumizi ya kitambulisho cha mzungumzaji kwa madhumuni ya uchunguzi

Utumiaji wa teknolojia ya kitambulisho cha msemaji kwa madhumuni ya uchunguzi ni moja wapo ya nguvu kuu katika soko la utambuzi wa sauti ulimwenguni. Mchakato changamano hutokea ili kubaini ikiwa sauti ya mtu anayeshukiwa kufanya uhalifu inalingana na sauti kutoka kwa sampuli za uchunguzi. Teknolojia hii inaruhusu mashirika ya kutekeleza sheria kutambua wahalifu kulingana na moja ya sifa za kipekee za mtu, sauti yake, na hivyo kutoa kiwango cha juu cha usahihi. Wataalamu wa makosa ya jinai hujaribu kama sauti ya mshukiwa inalingana na sampuli hadi mhalifu apatikane. Hivi karibuni, teknolojia hii imetumika kusaidia kutatua baadhi ya kesi za uhalifu.

Mahitaji ya utambuzi wa matamshi kwa madhumuni ya kijeshi

Idara za kijeshi katika nchi nyingi hutumia maeneo yaliyowekewa vikwazo sana kuzuia wavamizi kuingia. Ili kuhakikisha faragha na usalama katika eneo hili, wanajeshi hutumia mifumo ya utambuzi wa sauti. Mifumo hii husaidia mashirika ya kijeshi kugundua uwepo wa uvamizi usioidhinishwa kwenye eneo lililohifadhiwa. Mfumo huo una hifadhidata ya kura za wanajeshi na maafisa wa serikali ambao wanaweza kufikia maeneo yaliyohifadhiwa. Watu hawa wanatambuliwa na mfumo wa utambuzi wa sauti, na hivyo kuzuia uandikishaji wa watu ambao sauti zao haziko kwenye hifadhidata ya mfumo. Kwa kuongezea, inaweza kusemwa kuwa Jeshi la Anga la Merika hutumia amri za sauti kudhibiti ndege. Kwa kuongezea, idara za jeshi hutumia utambuzi wa usemi na Sauti-kwa-maandishi kuwasiliana na raia katika nchi zingine. Kwa mfano, jeshi la Marekani linatumia kikamilifu mifumo ya utambuzi wa usemi katika operesheni zake nchini Iraq na Afghanistan. Kwa hivyo, kuna mahitaji makubwa ya utambuzi wa hotuba na sauti kwa madhumuni ya kijeshi.

Teknolojia za kibayometriki kama vile utambuzi wa mishipa, utambuzi wa sauti na skanning ya retina zinapitishwa sana katika sekta ya afya. Utambuzi wa sauti unatarajiwa kuwa mojawapo ya njia kuu za utambuzi katika mipangilio ya afya. Kampuni nyingi za afya nchini Marekani, zinazoshughulikia viwango vya Sheria ya Bima ya Afya ya Kubebeka na Uwajibikaji (HIPAA), pia hutumia teknolojia za kibayometriki kama vile utambuzi wa sauti, utambuzi wa alama za vidole kwa ajili ya usajili wa wagonjwa kwa usalama na ufanisi zaidi, mkusanyiko wa taarifa za mgonjwa, na ulinzi wa matibabu ya mgonjwa. kumbukumbu. Taasisi za majaribio ya kimatibabu pia zinatekeleza utambuzi wa sauti ili kutambua watu walioajiriwa kwa majaribio ya kimatibabu. Kwa hivyo, bayometriki za sauti ni mojawapo ya njia kuu za utambuzi wa wateja katika sekta ya afya katika eneo la Asia-Pasifiki.

Mahitaji ya soko



Athari za mwelekeo kuu nne na shida kwenye soko la utambuzi wa kimataifa huonyeshwa kwenye takwimu

Ufunguo
Athari za masuala na mwelekeo hutathminiwa kulingana na ukubwa na muda wa athari zao kwenye soko la sasa. Uainishaji wa ukubwa wa athari:
Athari ya chini - kidogo au hakuna kabisa kwenye soko
Kiwango cha kati - cha kati cha ushawishi kwenye soko
Kiwango cha juu - athari kubwa kwenye soko
Athari ya juu - ya juu sana yenye athari kubwa katika ukuaji wa soko

Licha ya hali inayoongezeka, soko la utambuzi wa sauti ulimwenguni linaendelea kukabiliwa na vikwazo vikubwa vya ukuaji. Tatizo moja muhimu ni ugumu wa kukandamiza kelele iliyoko. Ingawa soko la utambuzi wa matamshi limeshuhudia maendeleo kadhaa ya kiteknolojia, kutokuwa na uwezo wa kukandamiza kelele iliyoko bado kunasalia kuwa kizuizi kwa kukubalika kwa maombi ya utambuzi wa sauti. Changamoto nyingine kwa soko hili ni gharama kubwa ya maombi ya utambuzi wa sauti.

Baadhi ya changamoto kuu zinazokabili soko la utambuzi wa sauti duniani ni:
Kutokuwa na uwezo wa kukandamiza kelele ya nje
Gharama ya juu ya maombi ya utambuzi wa sauti
Matatizo na usahihi wa utambuzi
Kiwango cha chini cha usalama katika uthibitishaji wa spika

Kutokuwa na uwezo wa kukandamiza kelele ya nje

Licha ya maendeleo ya kiteknolojia katika utambuzi wa sauti, kelele inaendelea kuwa moja ya changamoto kuu katika soko la utambuzi wa sauti ulimwenguni. Kwa kuongeza, bayometriki za sauti ni nyeti hasa ikilinganishwa na aina nyingine za bayometriki. Utambuzi wa sauti, bayometriki za sauti, na programu za utambuzi wa usemi zinaonekana kuwa nyeti sana kwa kelele za mazingira. Matokeo yake, usumbufu wowote wa kelele huingilia usahihi wa utambuzi. Majibu ya kiotomatiki kwa amri za sauti pia yametatizwa. Kutoweza kukandamiza kelele iliyoko ndio sababu pekee inayozuia mifumo ya utambuzi wa sauti kupata matokeo bora na kupata asilimia kubwa ya soko la kimataifa la teknolojia ya biometriska.

Gharama ya juu ya maombi ya utambuzi wa sauti

Mojawapo ya shida kuu zinazozuia ukuzaji wa teknolojia ya utambuzi wa usemi ni hitaji la uwekezaji mkubwa unaohitajika kwa maendeleo na utekelezaji. Usambazaji kwa kiasi kikubwa wa teknolojia ya utambuzi wa sauti katika biashara ni kazi kubwa na inahitaji uwekezaji mkubwa. Kuokoa kwenye bajeti husababisha upimaji mdogo wa teknolojia, kwa hiyo, kushindwa yoyote kunaweza kusababisha hasara kubwa katika biashara. Kwa hivyo, njia mbadala za utambuzi wa sauti kama vile kadi ya kutelezesha kidole na vitufe bado zinatumika kikamilifu katika kampuni nyingi, haswa kati ya biashara ndogo na za kati, kwa sababu ya ufaafu wao wa gharama. Kwa hivyo, maombi ya kutambua sauti yanahitaji uwekezaji mkubwa wa kifedha, ikiwa ni pamoja na gharama ya mfumo wa ushirikiano, vifaa vya ziada na gharama nyingine.

Matatizo na usahihi wa utambuzi

Katika soko la kimataifa la utambuzi wa sauti, tatizo la kawaida ni viwango vya chini vya usahihi wa utambuzi, licha ya ukweli kwamba mifumo ya utambuzi wa sauti kwa sasa ina uwezo wa kutambua lugha tofauti na kuamua uhalisi wa sauti. Kwa sababu mfumo unahusisha mchakato mgumu wa kulinganisha hifadhidata na amri zinazozungumzwa na utambuzi wa usemi jumuishi na teknolojia ya uthibitishaji wa sauti, hata hitilafu ndogo katika sehemu yoyote ya mchakato inaweza kusababisha matokeo yasiyo sahihi. Hitilafu ya utambuzi wa usemi ni mojawapo ya vikwazo kuu katika programu za utambuzi wa sauti. Hata hivyo, baadhi ya wazalishaji wameanza kuendeleza mifumo yenye viwango vya chini sana vya makosa katika utambuzi wa sauti. Wametengeneza mifumo iliyo na chini ya 4% ya matokeo yasiyo sahihi (kwa mfano, vipimo vya bayometriki za sauti hutambua vibaya na kukataa sauti ya mtu anayeweza kufikia).

Kiwango cha chini cha usalama katika uthibitishaji wa spika

Kiwango cha juu cha usahihi katika uthibitishaji wa spika husababisha kiwango cha chini cha usalama. Hivi sasa, mifumo ya utambuzi wa sauti ina asilimia kubwa ya matokeo yasiyo sahihi. Kiwango cha juu cha kufanya maamuzi yasiyo sahihi, ndivyo uwezekano mkubwa kwamba, kwa mfano, mtu ambaye hajaidhinishwa atapata kibali cha kuingia. Kwa kuwa mifumo ya utambuzi wa sauti ni nyeti sana, huchukua kila kitu ikiwa ni pamoja na matatizo ya koo, kikohozi, baridi, mabadiliko ya sauti kutokana na ugonjwa, basi kuna uwezekano mkubwa kwamba mtu ambaye hajaidhinishwa ataweza kupata eneo lililofungwa, sababu. kwani hiki ni kiwango cha chini cha usalama katika utambuzi wa kibinadamu unaotegemea sauti.

Mitindo ya Soko

Athari za changamoto zinazolikabili soko hilo zinatarajiwa kufidia uwepo wa mitindo mbalimbali inayojitokeza sokoni. Mojawapo ya mwelekeo kama huo ni kuongezeka kwa mahitaji ya utambuzi wa usemi kwenye vifaa vya rununu. Kwa kutambua uwezo mkubwa wa vifaa vya rununu, watengenezaji katika soko la kimataifa la utambuzi wa sauti wanatengeneza programu za kibunifu maalum za kufanya kazi kwenye vifaa vya rununu. Hii ni moja ya mambo ya baadaye ya kuendesha gari. Kuongezeka kwa mahitaji ya uthibitishaji wa sauti katika benki ya simu ni mwelekeo mwingine mzuri katika soko la utambuzi wa sauti.

Baadhi ya mitindo kuu katika soko la utambuzi wa sauti ulimwenguni ni:
Kuongezeka kwa mahitaji ya utambuzi wa usemi kwenye vifaa vya rununu
Kuongezeka kwa mahitaji ya huduma za uthibitishaji wa sauti kwa benki ya simu
Ujumuishaji wa uthibitishaji wa sauti na utambuzi wa usemi
Kuongezeka kwa muunganisho na upataji

Kuongezeka kwa mahitaji ya utambuzi wa usemi kwenye vifaa vya rununu

Kuongezeka kwa idadi ya kanuni za trafiki zinazokataza matumizi ya vifaa vya mkononi unapoendesha gari kumeongeza mahitaji ya programu za utambuzi wa usemi. Nchi ambazo zimeweka vikwazo vikali: Australia, Ufilipino, Marekani, Uingereza, India na Chile. Nchini Marekani, zaidi ya majimbo 13 huruhusu matumizi bila kugusa unapoendesha gari licha ya kuanzishwa kwa Kanuni za Kifaa cha Mkononi. Kwa hivyo, watumiaji wanazidi kuchagua vifaa vya rununu vilivyo na programu za utambuzi wa usemi ambazo zinaweza kuwasaidia kufikia kifaa bila kukengeushwa na kifaa chenyewe. Ili kukidhi mahitaji yanayoongezeka ya maombi ya utambuzi wa usemi katika vifaa vya rununu, watengenezaji wameongeza idadi ya shughuli za utafiti na ukuzaji ili kuunda chaguzi za amri za usemi kwa kifaa cha rununu. Kwa hivyo, idadi kubwa ya programu za utambuzi wa matamshi zimejumuishwa kwenye kifaa cha rununu, kama vile usimamizi wa orodha ya kucheza ya muziki, usomaji wa anwani, usomaji wa jina la mteja, jumbe za SMS za sauti, n.k.

Haja ya kuongezeka kwa uthibitishaji inasukuma ujumuishaji wa jumla wa uthibitishaji wa sauti katika huduma ya benki ya simu. Katika maeneo kama vile Amerika Kaskazini na Ulaya Magharibi, idadi kubwa ya wateja wa benki hutumia huduma za benki za simu. Idadi kubwa ya taasisi hizo za kifedha zinakubali maamuzi ya uthibitishaji wa sauti kutoka kwa mtumiaji ili kukubali au kukataa miamala ya simu. Zaidi ya hayo, kuwezesha uthibitishaji wa sauti kwenye vifaa vya simu ni gharama nafuu na wakati huo huo hutoa kiwango cha juu cha usalama. Kwa hivyo, mwelekeo wa kuunganisha uthibitishaji wa sauti kwa benki ya simu utaendelea kukua kwa miaka mingi ijayo. Hakika, taasisi za benki za simu hushirikiana na watoa huduma za uthibitishaji wa sauti na ushirikiano wa biometriska za sauti, ambayo ni faida kuu ya ushindani.

Baadhi ya watengenezaji wanajitahidi kuunganisha teknolojia ya uthibitishaji wa sauti na utambuzi wa matamshi. Badala ya kutoa uthibitishaji wa sauti kama bidhaa tofauti, watengenezaji wanapendekeza kujumuisha uthibitishaji wa sauti na utendakazi wa utambuzi wa matamshi. Uthibitishaji wa sauti husaidia kuamua ni nani anayezungumza na wakati huo huo ni mtu gani anayezungumza. Watengenezaji wengi wameanza au wako katika mchakato wa kuzindua programu za utambuzi wa usemi zinazohusisha ujumuishaji wa teknolojia mbili zilizoelezwa hapo juu.

Kuongezeka kwa muunganisho na upataji

Soko la kimataifa la utambuzi wa sauti linashuhudia miunganisho muhimu na mitindo ya upataji. Kiongozi mkuu wa soko Nuance Communications Inc., ambayo inamiliki zaidi ya 50% ya hisa ya soko, imepata idadi kubwa ya makampuni madogo katika soko la utambuzi wa hotuba. Inafuata kwamba ununuaji ni mbinu mpya ya ukuaji wa kampuni, na kusababisha Nuance kuwa na ununuzi sita katika 2007. Hali hii inatarajiwa kuendelea katika miaka michache ijayo kutokana na kuwepo kwa wachezaji wengi wadogo ambao wanaweza kununuliwa na makampuni makubwa kama Nuance. Kwa kuwa soko lina mwelekeo wa teknolojia, makampuni madogo yanatengeneza ufumbuzi wa ubunifu. Lakini kwa sababu ya ukosefu wa rasilimali, kampuni hizi haziwezi kuongeza biashara zao. Kwa hivyo, kampuni kubwa kama vile Nuance hutumia mchakato wa upataji kama mkakati wa msingi wa kuingia katika masoko na viwanda vipya. Kwa mfano, Nuance ilipata Loquendo Inc. Ili kuingia eneo la EMEA.

Hitimisho

Kuna matawi 2 ya maendeleo ya mifumo ya utambuzi wa usemi (kiasi cha soko kutoka $ 1.09 hadi $ 2.42 bilioni kutoka 2012 hadi 2016, kiwango cha ukuaji +22.07%)
Ubadilishaji wa hotuba hadi maandishi (ukubwa wa soko kutoka $860 milioni (2012) hadi $1727 milioni (2016) - jumla ya ushiriki 79%-71% kutoka 2012 hadi 2016)
Uthibitishaji na utambulisho wa sauti ya binadamu (kiasi cha soko kutoka $229 milioni (2012) hadi $697 milioni - jumla ya hisa 21% -28.8% kutoka 2012 hadi 2016)

Katika shindano hilo, kampuni ambazo zipo karibu na mwelekeo huu mbili zitakua kwa bidii zaidi - kwa upande mmoja, kuboresha usahihi wa programu za utambuzi wa hotuba na kutafsiri kwa maandishi, kwa upande mwingine, kutatua shida hii kwa kutambua mzungumzaji na mzungumzaji. kuthibitisha hotuba yake, kwa kutumia chaneli ya ziada (kwa mfano video) kama chanzo cha habari.

Kulingana na utafiti wa Technavio, tatizo kuu la programu zilizopo za utambuzi wa usemi ni uwezekano wao wa kukandamiza kelele iliyoko;
- Mwelekeo kuu ni kuenea kwa teknolojia za hotuba kutokana na ongezeko la idadi na ubora wa vifaa vya simu na maendeleo ya ufumbuzi wa benki ya simu;
- Mashirika ya serikali, sekta ya kijeshi, dawa na sekta ya fedha kwa sasa yana jukumu kubwa katika maendeleo ya teknolojia ya utambuzi wa hotuba. Hata hivyo, kumekuwa na mahitaji makubwa ya aina hii ya teknolojia katika mfumo wa maombi ya simu na kazi za urambazaji wa sauti, pamoja na bayometriki;
- Soko kuu la mifumo ya utambuzi wa usemi iko nchini Marekani, lakini hadhira ya haraka na yenye kutengenezea zaidi huishi katika nchi za Kusini-mashariki mwa Asia, hasa nchini Japani (kutokana na otomatiki kamili ya sauti ya vituo vya simu). Inachukuliwa kuwa ni katika eneo hili kwamba mchezaji mwenye nguvu anapaswa kuonekana, ambayo itakuwa msaada mkubwa kwa nguvu ya kimataifa ya Mawasiliano ya Nuance (sehemu ya sasa ya soko la kimataifa ni 70%);
- Sera ya kawaida katika soko la mifumo ya utambuzi wa matamshi ni uunganishaji na ununuzi (M&A) - kampuni zinazoongoza sokoni mara nyingi hununua maabara ndogo za teknolojia au kampuni kote ulimwenguni ili kudumisha nguvu.
- Gharama ya maombi inashuka kwa kasi, usahihi unaongezeka, uchujaji wa kelele za nje unaboreshwa, usalama unaongezeka - tarehe inayotarajiwa ya utekelezaji wa teknolojia ya utambuzi wa usemi kwa usahihi zaidi ni 2014.

Kwa hivyo, kulingana na utabiri wa Technavio, katika kipindi cha 2012-2016. Soko la mifumo ya utambuzi wa usemi inatarajiwa kuongezeka kwa zaidi ya mara 2.5. Sehemu kubwa katika mojawapo ya masoko ya teknolojia ya IT yenye nguvu na ya haraka zaidi itatolewa kwa wachezaji ambao wataweza kutatua matatizo 2 wakati huo huo katika bidhaa zao: kujifunza kutambua kwa usahihi hotuba na kuitafsiri kwa maandishi, na pia kuwa na uwezo wa kutambua sauti ya mzungumzaji vizuri na uithibitishe kutoka kwa mtiririko wa jumla. Faida kubwa katika ushindani inaweza kuitwa kutupa (kupunguza kwa bandia gharama ya teknolojia hizo), kuunda programu na interface ya kirafiki na mchakato wa kukabiliana haraka - na ubora wa juu wa kazi. Inatarajiwa kwamba katika kipindi cha miaka 5 ijayo, wachezaji wapya wataonekana sokoni, jambo ambalo linaweza kutoa changamoto kwa mashirika makubwa madogo kama vile utambuzi wa hotuba ya Nuance Communications.

  • utafiti wa soko
  • utabiri wa maendeleo
  • nuance
  • Ongeza lebo tarehe 15 Julai 2009 saa 10:16 jioni

    Utambuzi wa usemi. Sehemu ya 1. Uainishaji wa mifumo ya utambuzi wa usemi

    • Akili ya bandia
    Epigraph
    Huko Urusi, eneo la mifumo ya utambuzi wa hotuba kwa kweli halijatengenezwa vizuri. Google imetangaza kwa muda mrefu mfumo wa kurekodi na kutambua mazungumzo ya simu ... Kwa bahati mbaya, bado sijasikia kuhusu mifumo ya kiwango sawa na ubora wa kutambuliwa kwa Kirusi.

    Lakini hupaswi kufikiri kwamba kila mtu nje ya nchi tayari amegundua kila kitu muda mrefu uliopita na hatutawahi kuwapata. Nilipokuwa nikitafuta nyenzo za mfululizo huu, ilibidi nichimbue wingu la fasihi na tasnifu za kigeni. Zaidi ya hayo, makala na tasnifu hizi zilitoka kwa wanasayansi wa ajabu wa Marekani Huang Xuedong; Hisyoshi Kojima; DongSuk Yuk nk. Ni wazi ni nani anayeunga mkono tawi hili la sayansi ya Amerika? ;0)

    Nchini Urusi, najua kampuni moja tu mahiri ambayo imeweza kuleta mifumo ya utambuzi wa usemi katika ngazi ya kibiashara: Kituo cha Teknolojia ya Kuzungumza. Lakini labda baada ya mfululizo huu wa makala itatokea kwa mtu kwamba inawezekana na ni muhimu kuanza kuendeleza mifumo hiyo. Aidha, kwa upande wa algorithms na mkeka. Kwa kweli hatukubaki nyuma ya kifaa.

    Uainishaji wa mifumo ya utambuzi wa hotuba

    Leo, wazo la "utambuzi wa hotuba" linaficha eneo lote la shughuli za kisayansi na uhandisi. Kwa ujumla, kila kazi ya utambuzi wa usemi inategemea kutoa, kuainisha, na kujibu ipasavyo matamshi ya binadamu kutoka kwa mtiririko wa sauti ya ingizo. Hii inaweza kuwa utekelezaji wa kitendo fulani kwa amri ya mtu, au uteuzi wa neno fulani la alama kutoka kwa safu kubwa ya mazungumzo ya simu, au mfumo wa kuingiza maandishi ya sauti.

    Ishara za uainishaji wa mifumo ya utambuzi wa hotuba
    Kila mfumo kama huo una kazi fulani ambazo zimeundwa kutatua na seti ya njia ambazo hutumiwa kutatua shida. Hebu tuchunguze sifa kuu ambazo mifumo ya utambuzi wa hotuba ya binadamu inaweza kuainishwa na jinsi kipengele hiki kinaweza kuathiri uendeshaji wa mfumo.
    • Ukubwa wa kamusi. Ni wazi, ukubwa wa kamusi ambayo imejengwa katika mfumo wa utambuzi, ndivyo kiwango cha makosa kinapoongezeka wakati wa kutambua maneno na mfumo. Kwa mfano, kamusi ya tarakimu 10 inaweza kutambuliwa karibu bila makosa, wakati kiwango cha makosa wakati wa kutambua kamusi ya maneno 100,000 inaweza kufikia 45%. Kwa upande mwingine, hata kutambua kamusi ndogo kunaweza kutoa idadi kubwa ya makosa ya utambuzi ikiwa maneno katika kamusi hii yanafanana sana.
    • Utegemezi wa Spika au uhuru wa spika wa mfumo. Kwa ufafanuzi, mfumo unaotegemea spika umeundwa kutumiwa na mtumiaji mmoja, wakati mfumo unaojitegemea wa spika umeundwa kufanya kazi na spika yoyote. Uhuru wa Spika ni lengo gumu kufikiwa, kwani wakati wa kufundisha mfumo, hurekebishwa kulingana na vigezo vya mzungumzaji ambaye anafunzwa kwa mfano wake. Kiwango cha makosa ya utambuzi wa mifumo kama hii kawaida huwa juu mara 3-5 kuliko kiwango cha makosa ya mifumo inayotegemea spika.
    • Hotuba tofauti au inayoendelea. Ikiwa katika hotuba kila neno limetenganishwa na lingine na sehemu ya ukimya, basi wanasema kwamba hotuba hii ni tofauti. Hotuba endelevu ni sentensi za kawaida zinazosemwa. Utambuzi wa hotuba inayoendelea ni ngumu zaidi kwa sababu ya ukweli kwamba mipaka ya maneno ya mtu binafsi haijafafanuliwa wazi na matamshi yao yanapotoshwa sana na ukungu wa sauti zinazosemwa.
    • Kusudi. Madhumuni ya mfumo huamua kiwango kinachohitajika cha uondoaji ambapo utambuzi wa usemi utatokea. Katika mfumo wa amri (kwa mfano, upigaji simu kwa sauti kwenye simu ya rununu), utambuzi wa neno au kifungu cha maneno unaweza kutokea kama utambuzi wa kipengele kimoja cha usemi. Mfumo wa uandishi wa maandishi utahitaji usahihi mkubwa wa utambuzi na, uwezekano mkubwa, hautategemea tu kile kinachosemwa kwa sasa, lakini pia jinsi inavyohusiana na kile kilichosemwa hapo awali wakati wa kutafsiri kifungu cha maneno. Pia, mfumo lazima uwe na seti iliyojengewa ndani ya kanuni za kisarufi ambazo maandishi yanayotamkwa na yanayotambulika lazima yakidhi. Kadiri sheria hizi zinavyokuwa kali, ndivyo inavyokuwa rahisi zaidi kutekeleza mfumo wa utambuzi na ndivyo seti ya sentensi inayoweza kutambua itakuwa ndogo zaidi.
    Tofauti kati ya njia za utambuzi wa usemi
    Wakati wa kuunda mfumo wa utambuzi wa hotuba, unahitaji kuchagua ni kiwango gani cha kujiondoa kinatosha kwa kazi hiyo, ni vigezo gani vya wimbi la sauti vitatumika kwa utambuzi na njia za kutambua vigezo hivi. Hebu fikiria tofauti kuu katika muundo na mchakato wa uendeshaji wa mifumo mbalimbali ya utambuzi wa hotuba.
    • Kwa aina ya kitengo cha muundo. Wakati wa kuchanganua usemi, maneno mahususi au sehemu za maneno yanayozungumzwa, kama vile fonimu, di- au triphones, na alofoni, zinaweza kuchaguliwa kama kitengo cha msingi. Kulingana na sehemu gani ya kimuundo iliyochaguliwa, muundo, utofauti na ugumu wa kamusi ya vitu vinavyotambuliwa hubadilika.
    • Kwa kutambua sifa. Mlolongo wa usomaji wa shinikizo la mawimbi yenyewe hauhitajiki kupita kiasi kwa mifumo ya utambuzi wa sauti na ina habari nyingi zisizo za lazima ambazo hazihitajiki kutambuliwa, au hata kudhuru. Kwa hivyo, ili kuwakilisha ishara ya hotuba, ni muhimu kuchagua kutoka kwake baadhi ya vigezo vinavyowakilisha ishara hii kwa kutambuliwa.
    • Kulingana na utaratibu wa utendaji. Mifumo ya kisasa hutumia sana mbinu mbalimbali za utaratibu wa utendaji wa mifumo ya utambuzi. Mbinu ya mtandao inayowezekana ina ukweli kwamba ishara ya hotuba imegawanywa katika sehemu fulani (muundo, au kulingana na sifa za fonetiki), baada ya hapo kuna tathmini ya uwezekano wa ni kipengele gani cha kamusi inayotambuliwa sehemu hii na (au) ingizo zima. ishara inahusiana na. Njia ya msingi ya kutatua shida ya inverse ya usanisi wa sauti ni kwamba asili ya harakati ya vitoa sauti vya njia ya sauti imedhamiriwa kutoka kwa ishara ya pembejeo na, kwa kutumia kamusi maalum, fonimu zilizotamkwa huamuliwa.

    UPD: Imehamishwa hadi "Akili Bandia". Ikiwa kuna nia, nitaendelea kuchapisha huko.

    Programu za utambuzi wa hotuba za kibiashara zilionekana mapema miaka ya tisini. Kawaida hutumiwa na watu ambao, kutokana na jeraha la mkono, hawawezi kuandika kiasi kikubwa cha maandishi. Programu hizi (kwa mfano, Dragon NaturallySpeaking, VoiceNavigator) hutafsiri sauti ya mtumiaji katika maandishi, na hivyo kupunguza mikono yake. Kuegemea kwa tafsiri ya programu kama hizo sio juu sana, lakini kwa miaka mingi imeboresha hatua kwa hatua.

    Kuongezeka kwa nguvu za kompyuta za vifaa vya rununu kumefanya iwezekane kuunda programu kwao na kazi za utambuzi wa usemi. Miongoni mwa programu kama hizo, inafaa kuzingatia programu ya Amri ya Sauti ya Microsoft, ambayo hukuruhusu kufanya kazi na programu nyingi kwa kutumia sauti yako. Kwa mfano, unaweza kucheza muziki kwenye kichezaji chako au kuunda hati mpya.

    Masuluhisho ya usemi mahiri ambayo husanisi kiotomatiki na kutambua matamshi ya binadamu ni hatua inayofuata katika uundaji wa mifumo shirikishi ya sauti (IVR). Utumiaji wa programu ingiliani ya simu kwa sasa sio mtindo, lakini ni hitaji muhimu. Kupunguza mzigo wa kazi wa waendeshaji wa vituo vya mawasiliano na makatibu, kupunguza gharama za kazi na kuongeza tija ya mifumo ya huduma ni baadhi tu ya faida zinazothibitisha uwezekano wa ufumbuzi huo.

    Maendeleo, hata hivyo, hayajasimama, na hivi majuzi mifumo otomatiki ya utambuzi wa usemi na usanisi imeanza kutumika katika utumizi mwingiliano wa simu. Katika kesi hii, mawasiliano na portal ya sauti inakuwa ya asili zaidi, kwani uteuzi ndani yake unaweza kufanywa sio tu kwa kutumia upigaji sauti wa sauti, lakini pia kwa kutumia amri za sauti. Wakati huo huo, mifumo ya utambuzi ni huru ya wasemaji, yaani, wanatambua sauti ya mtu yeyote.

    Hatua inayofuata katika teknolojia ya utambuzi wa usemi inaweza kuzingatiwa ukuzaji wa kinachojulikana kama Violesura vya Kuzungumza Kimya (SSI). Mifumo hii ya kuchakata matamshi inategemea kupokea na kuchakata mawimbi ya matamshi katika hatua ya awali ya kutamka. Hatua hii ya maendeleo ya utambuzi wa hotuba husababishwa na vikwazo viwili muhimu vya mifumo ya kisasa ya utambuzi: unyeti mwingi kwa kelele, pamoja na haja ya hotuba ya wazi na tofauti wakati wa kupata mfumo wa utambuzi. Mbinu ya SSI ni kutumia vihisi vipya ambavyo haviathiriwi na kelele kama kiambatisho cha mawimbi ya sauti yaliyochakatwa.

    Leo, kuna maeneo makuu matano ya matumizi ya mifumo ya utambuzi wa usemi:

    Udhibiti wa sauti ni njia ya kuingiliana na kudhibiti uendeshaji wa kifaa kwa kutumia amri za sauti. Mifumo ya udhibiti wa sauti haifai kwa kuingiza maandishi, lakini ni rahisi kwa kuingiza amri, kama vile:

    Aina za mifumo

    Leo, kuna aina mbili za mifumo ya utambuzi wa hotuba - zile zinazofanya kazi "msingi wa mteja" na zile zinazofanya kazi kwa kanuni ya "mteja-seva". Wakati wa kutumia teknolojia ya seva ya mteja, amri ya hotuba huingizwa kwenye kifaa cha mtumiaji na kupitishwa kupitia Mtandao hadi kwa seva ya mbali, ambako inachakatwa na kurudishwa kwenye kifaa kwa namna ya amri (Google Voice, Vlingo, nk.) ; Kwa sababu ya idadi kubwa ya watumiaji wa seva, mfumo wa utambuzi hupokea msingi mkubwa wa mafunzo. Chaguo la kwanza hufanya kazi kwenye algorithms zingine za hesabu na ni nadra (Programu ya Speereo) - katika kesi hii, amri imeingizwa kwenye kifaa cha mtumiaji na kusindika hapo. Faida ya usindikaji "kwenye mteja" ni uhamaji, uhuru kutoka kwa upatikanaji wa mawasiliano na uendeshaji wa vifaa vya mbali. Kwa hivyo, mfumo unaoendesha "kwenye mteja" unaonekana kuwa wa kuaminika zaidi, lakini wakati mwingine hupunguzwa na nguvu ya kifaa upande wa mtumiaji.