Biografi Ciri-ciri Analisis

Pengecaman corak. Peranan dan tempat pengecaman corak dalam automasi pengurusan sistem yang kompleks

Semakan kaedah sedia ada pengecaman corak

L.P. Popova , DAN TENTANG. Datiev

Keupayaan untuk "mengiktiraf" dianggap sebagai harta utama manusia, seperti, sememangnya, organisma hidup yang lain. Pengecaman corak ialah bahagian sibernetik yang membangunkan prinsip dan kaedah untuk mengelas dan mengenal pasti objek, fenomena, proses, isyarat, situasi - semua objek yang boleh diterangkan oleh set terhingga beberapa ciri atau sifat yang mencirikan objek.

Imej ialah perihalan objek. Imej mempunyai sifat ciri, yang menunjukkan dirinya dalam fakta bahawa membiasakan diri dengan nombor terhingga fenomena dari set yang sama memungkinkan untuk mengenali sewenang-wenangnya nombor besar wakilnya.

Terdapat dua arah utama dalam teori pengecaman corak:

    kajian tentang kuasa pengiktirafan yang dimiliki oleh manusia dan organisma hidup lain;

    pembangunan teori dan kaedah untuk membina peranti yang direka untuk menyelesaikan masalah individu pengecaman corak dalam kawasan aplikasi tertentu.

Selanjutnya, artikel tersebut menerangkan masalah, prinsip dan kaedah untuk melaksanakan sistem pengecaman corak yang berkaitan dengan pembangunan arah kedua. Bahagian kedua artikel membincangkan kaedah rangkaian saraf pengecaman corak, yang boleh dikaitkan dengan arah pertama teori pengecaman corak.

Masalah membina sistem pengecaman imej

Tugas-tugas yang timbul dalam pembinaan sistem pengecaman corak automatik biasanya boleh dikelaskan kepada beberapa bidang utama. Yang pertama adalah berkaitan dengan pembentangan data awal yang diperolehi sebagai hasil pengukuran untuk objek yang ingin dikenali. masalah sensitiviti. Setiap nilai yang diukur ialah beberapa "ciri imej atau objek. Katakan, sebagai contoh, imej itu ialah aksara abjad angka. Dalam kes ini, retina pengukur, serupa dengan yang ditunjukkan dalam Rajah 1(a), boleh digunakan dengan jayanya dalam sensor. Jika retina terdiri daripada unsur-n, maka hasil pengukuran boleh diwakili sebagai vektor ukuran atau vektor imej ,

di mana setiap elemen xi mengambil, sebagai contoh, nilai 1 jika melalui sel ke-i retina melalui imej watak, dan nilainya ialah 0 sebaliknya.

Pertimbangkan Rajah. 2(b). Dalam kes ini, imej adalah fungsi berterusan (daripada jenis isyarat bunyi) pembolehubah t. Jika nilai fungsi diukur pada titik diskret t1,t2, ..., tn, maka vektor imej boleh dibentuk dengan mengambil x1= f(t1),x2=f(t2),... , xn = f(tn).

Rajah 1. Mengukur retina

Masalah kedua pengecaman corak adalah berkaitan dengan pemilihan ciri ciri atau sifat daripada data awal yang diperoleh dan mengurangkan dimensi vektor imej. Masalah ini sering ditakrifkan sebagai masalah prapemprosesan dan pemilihan ciri.

Ciri-ciri kelas imej ialah sifat ciri, biasa kepada semua imej kelas ini. Ciri-ciri yang mencirikan perbezaan antara kelas individu boleh ditafsirkan sebagai ciri antara kelas. Ciri-ciri intrakelas yang biasa kepada semua kelas yang sedang dipertimbangkan tidak dibawa informasi berguna dari segi pengiktirafan dan mungkin tidak diambil kira. Pemilihan ciri dianggap sebagai salah satu tugas penting yang berkaitan dengan pembinaan sistem pengecaman. Jika keputusan pengukuran memungkinkan untuk mendapatkan set lengkap ciri pembezaan untuk semua kelas, pengecaman dan pengelasan corak sebenar tidak akan menyebabkan sebarang kesulitan tertentu. Pengecaman automatik kemudiannya akan dikurangkan kepada proses pemadanan yang mudah atau prosedur seperti carian jadual. Dalam kebanyakan masalah pengecaman praktikal, bagaimanapun, definisi set lengkap ciri membezakan ternyata sangat sukar, jika tidak mustahil sama sekali. Daripada data asal, biasanya mungkin untuk mengekstrak beberapa ciri yang membezakan dan menggunakannya untuk memudahkan proses pengecaman corak automatik. Khususnya, dimensi vektor pengukuran boleh dikurangkan menggunakan transformasi yang meminimumkan kehilangan maklumat.

Masalah ketiga yang berkaitan dengan pembinaan sistem pengecaman corak adalah untuk mencari prosedur keputusan optimum yang diperlukan untuk pengenalpastian dan pengelasan. Selepas data yang dikumpul tentang corak yang akan dikenal pasti diwakili oleh titik atau vektor ukuran dalam ruang corak, biarkan mesin mengetahui kelas corak mana yang sepadan dengan data ini. Biarkan mesin direka bentuk untuk membezakan antara kelas M, dilambangkan dengan w1, w2, ... ..., wm. Dalam kes ini, ruang imej boleh dianggap terdiri daripada kawasan M, setiap satunya mengandungi titik yang sepadan dengan imej dari kelas yang sama. Dalam kes ini, masalah pengecaman boleh dianggap sebagai membina sempadan wilayah keputusan yang memisahkan kelas M berdasarkan vektor ukuran berdaftar. Biarkan sempadan ini ditakrifkan, sebagai contoh, oleh fungsi keputusan d1(х),d2(x),..., dm(х). Fungsi ini, juga dipanggil fungsi diskriminasi, ialah fungsi skalar dan nilai tunggal bagi imej x. Jika di (x) > dj (x), maka imej x tergolong dalam kelas w1. Dengan kata lain, jika ke-i penentu fungsi di(x) mempunyai nilai tertinggi, maka ilustrasi yang bermakna bagi skim pengelasan automatik sedemikian berdasarkan pelaksanaan proses membuat keputusan ditunjukkan dalam Rajah. 2 (dalam rajah "GR" - penjana fungsi penentu).

Rajah 2. Skim pengelasan automatik.

Fungsi keputusan boleh diperolehi dalam beberapa cara. Dalam kes-kes di mana maklumat apriori lengkap tersedia tentang corak yang boleh dikenali, fungsi keputusan boleh ditentukan dengan tepat berdasarkan maklumat ini. Jika hanya maklumat kualitatif yang tersedia mengenai corak, andaian munasabah boleh dibuat tentang bentuk fungsi keputusan. B kes terakhir, sempadan wilayah keputusan boleh menyimpang dengan ketara daripada yang sebenar, dan oleh itu adalah perlu untuk mewujudkan sistem yang mampu mencapai hasil yang memuaskan melalui satu siri pelarasan berturut-turut.

Objek (imej) yang ingin dikenali dan dikelaskan menggunakan sistem pengecaman corak automatik mesti mempunyai satu set ciri yang boleh diukur. Apabila untuk keseluruhan kumpulan imej hasil ukuran yang sepadan adalah serupa, ia dianggap objek ini tergolong dalam kelas yang sama. Tujuan sistem pengecaman corak adalah untuk menentukan, berdasarkan maklumat yang dikumpul, kelas objek dengan ciri yang serupa dengan yang diukur untuk objek yang boleh dikenali. Ketepatan pengecaman bergantung pada jumlah maklumat membezakan yang terkandung dalam ciri yang diukur, dan kecekapan menggunakan maklumat ini.

      Kaedah Asas untuk Melaksanakan Sistem Pengecaman Corak

Pengecaman corak ialah tugas untuk membina dan menggunakan operasi formal pada perwakilan berangka atau simbolik objek dunia sebenar atau ideal, hasilnya, penyelesaiannya mencerminkan hubungan kesetaraan antara objek ini. Hubungan kesetaraan menyatakan kepunyaan objek yang dinilai kepada beberapa kelas, dianggap sebagai unit semantik bebas.

Apabila membina algoritma pengecaman, kelas kesetaraan boleh ditetapkan oleh penyelidik yang menggunakan perwakilan bermaknanya sendiri atau menggunakan Maklumat tambahan tentang persamaan dan perbezaan objek dalam konteks masalah yang diselesaikan. Kemudian seseorang bercakap tentang "arif dengan guru." Jika tidak, i.e. bila sistem automatik menyelesaikan masalah pengelasan tanpa melibatkan maklumat latihan luaran, seseorang bercakap tentang pengelasan automatik atau "pengiktirafan tanpa pengawasan". Kebanyakan algoritma pengecaman corak memerlukan penglibatan kuasa pengkomputeran yang sangat ketara, yang hanya boleh disediakan oleh teknologi komputer berprestasi tinggi.

Pelbagai pengarang (Yu.L. Barabash, V.I. Vasiliev, A.L. Gorelik, V.A. Skripkin, R. Duda, P. Hart, L.T. Kuzin, F.I. Peregudov, F.P. Tarasenko, Temnikov F.E., Afonin V.A., Dmitriev V., R. Gonzalez, P. Winston, K. Fu, Ya.Z. Tsypkin dan lain-lain) memberikan tipologi kaedah pengecaman corak yang berbeza. Sesetengah pengarang membezakan antara parametrik, bukan parametrik dan kaedah heuristik, yang lain - membezakan kumpulan kaedah berdasarkan sekolah dan trend yang ditubuhkan secara sejarah dalam bidang ini.

Pada masa yang sama, tipologi yang terkenal tidak mengambil kira satu ciri yang sangat penting, yang mencerminkan spesifik cara penyampaian pengetahuan tentang bidang subjek menggunakan beberapa algoritma pengecaman corak formal. D.A. Pospelov mengenal pasti dua cara utama untuk mewakili pengetahuan:

    Perwakilan Intensional - dalam bentuk gambar rajah hubungan antara atribut (ciri).

    Perwakilan lanjutan - menggunakan fakta khusus(objek, contoh).

Perlu diingatkan bahawa kewujudan dua kumpulan kaedah pengecaman ini: yang beroperasi dengan ciri dan yang beroperasi dengan objek, adalah sangat semula jadi. Dari sudut pandangan ini, tiada satu pun daripada kaedah ini, diambil secara berasingan daripada yang lain, memungkinkan untuk membentuk refleksi yang mencukupi bagi kawasan subjek. Di antara kaedah-kaedah ini terdapat hubungan saling melengkapi dalam pengertian N. Bohr, oleh itu, sistem pengiktirafan yang menjanjikan harus menyediakan pelaksanaan kedua-dua kaedah ini, dan bukan hanya salah satu daripadanya.

Oleh itu, klasifikasi kaedah pengiktirafan yang dicadangkan oleh D.A. Pospelov adalah berdasarkan undang-undang asas yang mendasari cara kognisi manusia secara umum, yang meletakkannya dalam kedudukan yang sangat istimewa (terutama) berbanding dengan klasifikasi lain, yang, terhadap latar belakang ini, kelihatan. lebih ringan dan tiruan.

Kaedah Intensional

Ciri tersendiri kaedah intensi ialah ia digunakan sebagai elemen operasi dalam pembinaan dan aplikasi algoritma pengecaman corak pelbagai ciri ciri dan hubungannya. Elemen sedemikian boleh nilai individu atau selang nilai ciri, nilai min dan varians, matriks hubungan ciri, dsb., yang mana tindakan dilakukan, dinyatakan dalam bentuk analitikal atau membina. Pada masa yang sama, objek dalam kaedah ini tidak dianggap sebagai unit maklumat penting, tetapi bertindak sebagai penunjuk untuk menilai interaksi dan tingkah laku atribut mereka.

Kumpulan kaedah pengecaman corak intensional adalah luas, dan pembahagiannya kepada subkelas agak sewenang-wenangnya:

– kaedah berdasarkan anggaran ketumpatan taburan nilai ciri

– kaedah berdasarkan andaian tentang kelas fungsi keputusan

– kaedah logik

– kaedah linguistik (struktural).

Kaedah berdasarkan anggaran kepadatan taburan nilai ciri. Kaedah pengecaman corak ini dipinjam daripada teori klasik keputusan statistik, di mana objek kajian dianggap sebagai realisasi multidimensi pembolehubah rawak diedarkan dalam ruang ciri mengikut beberapa undang-undang. Ia adalah berdasarkan skim membuat keputusan Bayesian yang menarik kepada kebarangkalian priori objek kepunyaan kelas tertentu yang boleh dikenali dan ketumpatan pengedaran bersyarat bagi nilai vektor ciri. Kaedah ini dikurangkan untuk menentukan nisbah kemungkinan dalam pelbagai bidang ruang ciri pelbagai dimensi.

Kumpulan kaedah berdasarkan anggaran ketumpatan taburan nilai ciri secara langsung berkaitan dengan kaedah analisis diskriminasi. Pendekatan Bayesian untuk membuat keputusan adalah salah satu yang paling maju dalam statistik moden, yang dipanggil kaedah parametrik, yang mana ungkapan analitik undang-undang pengedaran dianggap diketahui (dalam kes ini hukum biasa) dan hanya sebilangan kecil parameter perlu dianggarkan (min vektor dan matriks kovarian).

Kumpulan ini juga termasuk kaedah untuk mengira nisbah kemungkinan untuk ciri bebas. Kaedah ini, dengan pengecualian andaian kebebasan ciri (yang pada hakikatnya hampir tidak pernah dipenuhi), tidak memerlukan pengetahuan tentang bentuk fungsi undang-undang pengedaran. Ia boleh dikaitkan dengan kaedah bukan parametrik.

Kaedah bukan parametrik lain, digunakan apabila bentuk lengkung ketumpatan taburan tidak diketahui dan tiada andaian boleh dibuat tentang sifatnya sama sekali, menduduki kedudukan istimewa. Ini termasuk kaedah histogram berbilang dimensi yang terkenal, kaedah "jiran terhampir k", kaedah jarak Euclidean, kaedah fungsi berpotensi, dsb., yang generalisasinya ialah kaedah yang dipanggil "anggaran Parzen". Kaedah ini secara rasmi beroperasi dengan objek sebagai struktur kamiran, tetapi bergantung pada jenis tugas pengecaman, mereka boleh bertindak dalam hipostasis intensif dan lanjutan.

Kaedah bukan parametrik menganalisis bilangan relatif objek yang jatuh ke dalam isipadu multidimensi yang diberikan dan menggunakan pelbagai fungsi jarak antara objek sampel latihan dan objek yang dikenali. Untuk sifat kuantitatif, apabila bilangannya jauh lebih kecil daripada saiz sampel, operasi dengan objek memainkan peranan perantaraan dalam menganggarkan kepadatan taburan tempatan kebarangkalian bersyarat dan objek tidak membawa beban semantik unit maklumat bebas. Pada masa yang sama, apabila bilangan ciri adalah sepadan atau lebih besar daripada bilangan objek yang dikaji, dan ciri tersebut bersifat kualitatif atau dikotomi, maka tidak boleh diperkatakan tentang sebarang anggaran tempatan ketumpatan taburan kebarangkalian. Dalam kes ini, objek dalam kaedah bukan parametrik ini dianggap sebagai unit maklumat bebas (fakta empirikal holistik) dan kaedah ini memperoleh makna penilaian persamaan dan perbezaan objek yang dikaji.

Oleh itu, operasi teknologi yang sama bagi kaedah bukan parametrik, bergantung pada keadaan masalah, masuk akal sama ada anggaran tempatan ketumpatan taburan kebarangkalian nilai ciri, atau anggaran persamaan dan perbezaan objek.

Dalam konteks perwakilan intensif pengetahuan, bahagian pertama kaedah bukan parametrik dipertimbangkan di sini, sebagai anggaran kepadatan taburan kebarangkalian. Ramai pengarang ambil perhatian bahawa kaedah bukan parametrik seperti anggaran Parzen berfungsi dengan baik dalam amalan. Kesukaran utama dalam menggunakan kaedah ini dianggap sebagai keperluan untuk mengingati keseluruhan sampel latihan untuk mengira anggaran kepadatan taburan kebarangkalian tempatan dan sensitiviti yang tinggi kepada ketakwakilan sampel latihan.

Kaedah berdasarkan andaian tentang kelas fungsi keputusan. Dalam kumpulan kaedah ini, bentuk umum fungsi keputusan dianggap diketahui dan fungsi kualitinya diberikan. Berdasarkan fungsi ini, anggaran terbaik bagi fungsi keputusan dicari untuk urutan latihan. Yang paling biasa ialah perwakilan fungsi keputusan dalam bentuk polinomial tak linear linear dan umum. Fungsi kualiti peraturan keputusan biasanya dikaitkan dengan ralat pengelasan.

Kelebihan utama kaedah berdasarkan andaian tentang kelas fungsi keputusan ialah kejelasan rumusan matematik masalah pengecaman sebagai masalah mencari ekstrem. Penyelesaian kepada masalah ini sering dicapai menggunakan beberapa jenis algoritma kecerunan. Kepelbagaian kaedah kumpulan ini dijelaskan oleh pelbagai fungsi kualiti peraturan keputusan yang digunakan dan algoritma carian melampau. Generalisasi bagi algoritma yang dipertimbangkan, yang termasuk, khususnya, algoritma Newton, algoritma jenis perceptron, dsb., ialah kaedah penghampiran stokastik. Tidak seperti kaedah pengecaman parametrik, kejayaan kumpulan kaedah ini tidak banyak bergantung pada ketidakpadanan idea teori tentang hukum pengedaran objek dalam ruang ciri dengan realiti empirikal. Semua operasi tertakluk kepada satu matlamat utama- mencari keterlaluan fungsi kualiti peraturan keputusan. Pada masa yang sama, keputusan parametrik dan kaedah yang dipertimbangkan mungkin serupa. Seperti yang ditunjukkan di atas, kaedah parametrik untuk kes itu taburan normal objek dalam kelas yang berbeza dengan matriks kovarians yang sama membawa kepada fungsi keputusan linear. Kami juga ambil perhatian bahawa algoritma untuk memilih ciri bermaklumat dalam model diagnostik linear boleh ditafsirkan sebagai varian tertentu algoritma kecerunan untuk mencari ekstrem.

Kemungkinan algoritma kecerunan untuk carian ekstrem, terutamanya dalam kumpulan linear peraturan keputusan, telah dikaji dengan agak baik. Konvergensi algoritma ini telah dibuktikan hanya untuk kes apabila kelas objek yang boleh dikenali dipaparkan dalam ruang ciri oleh struktur geometri padat. Walau bagaimanapun, keinginan untuk mencapai kualiti peraturan keputusan yang mencukupi selalunya boleh dipenuhi dengan bantuan algoritma yang tidak mempunyai peraturan yang ketat. pembuktian matematik penumpuan penyelesaian kepada ekstrem global .

Algoritma sedemikian termasuk sekumpulan besar prosedur pengaturcaraan heuristik yang mewakili arah pemodelan evolusi. Pemodelan evolusi ialah kaedah bionik yang dipinjam daripada alam semula jadi. Ia berdasarkan penggunaan mekanisme evolusi yang diketahui untuk menggantikan proses pemodelan bermakna objek kompleks dengan pemodelan fenomenologi evolusinya.

Wakil terkenal pemodelan evolusi dalam pengecaman corak ialah kaedah perakaunan kumpulan hujah (MGUA). GMDH adalah berdasarkan prinsip penyusunan diri, dan algoritma GMDH menghasilkan semula skema pemilihan jisim. Dalam algoritma GMDH, ahli polinomial umum disintesis dan dipilih dengan cara yang istimewa, yang sering dipanggil polinomial Kolmogorov-Gabor. Sintesis dan pemilihan ini dijalankan dengan kerumitan yang semakin meningkat, dan adalah mustahil untuk meramalkan terlebih dahulu bentuk akhir polinomial umum. Pertama, kombinasi mudah berpasangan ciri awal biasanya dipertimbangkan, dari mana persamaan fungsi penentu disusun, sebagai peraturan, tidak lebih tinggi daripada susunan kedua. Setiap persamaan dianalisis sebagai fungsi keputusan bebas, dan nilai parameter persamaan yang digubah didapati dalam satu cara atau yang lain dari sampel latihan. Kemudian, daripada set fungsi keputusan yang terhasil, sebahagian daripada yang terbaik dari segi tertentu dipilih. Kualiti fungsi keputusan individu disemak pada sampel kawalan (ujian), yang kadangkala dipanggil prinsip penambahan luaran. Fungsi keputusan separa yang dipilih dianggap di bawah sebagai pembolehubah perantaraan yang berfungsi sebagai hujah awal untuk sintesis serupa bagi fungsi keputusan baharu, dsb. Proses sintesis hierarki sedemikian berterusan sehingga keterlaluan kriteria kualiti fungsi keputusan dicapai, yang dalam amalan menampakkan dirinya dalam kemerosotan kualiti ini apabila cuba meningkatkan lagi susunan ahli polinomial berbanding ciri asal.

Prinsip organisasi diri yang mendasari GMDH dipanggil organisasi kendiri heuristik, kerana keseluruhan proses adalah berdasarkan pengenalan tambahan luaran yang dipilih secara heuristik. Hasil keputusan boleh sangat bergantung pada heuristik ini. Model diagnostik yang terhasil bergantung pada cara objek dibahagikan kepada sampel latihan dan ujian, cara kriteria kualiti pengecaman ditentukan, bilangan pembolehubah yang dilangkau dalam baris pemilihan seterusnya, dsb.

Ciri-ciri algoritma GMDH ini juga merupakan ciri pendekatan lain untuk pemodelan evolusi. Tetapi kami perhatikan di sini satu lagi aspek kaedah yang sedang dipertimbangkan. Ini adalah intipati kandungan mereka. Menggunakan kaedah berdasarkan andaian tentang kelas fungsi keputusan (evolusi dan kecerunan), seseorang boleh membina model diagnostik kerumitan yang tinggi dan dapatkan keputusan yang boleh diterima secara praktikal. Pada masa yang sama, pencapaian matlamat praktikal dalam kes ini tidak disertai dengan pengekstrakan pengetahuan baru tentang sifat objek yang boleh dikenali. Kemungkinan untuk mengekstrak pengetahuan ini, khususnya pengetahuan tentang mekanisme interaksi atribut (ciri), pada asasnya terhad di sini oleh struktur interaksi yang diberikan, ditetapkan dalam bentuk fungsi penentu yang dipilih. Oleh itu, maksimum yang boleh dikatakan selepas membina model diagnostik tertentu ialah menyenaraikan gabungan ciri dan ciri itu sendiri yang disertakan dalam model yang dihasilkan. Tetapi makna gabungan yang mencerminkan sifat dan struktur taburan objek yang dikaji selalunya masih belum ditemui dalam kerangka pendekatan ini.

Kaedah Boolean. Kaedah logik pengecaman corak adalah berdasarkan radas algebra logik dan membolehkan untuk beroperasi dengan maklumat yang terkandung bukan sahaja dalam ciri individu, tetapi juga dalam gabungan nilai ciri. Dalam kaedah ini, nilai mana-mana atribut dianggap sebagai peristiwa asas.

Dalam sangat Pandangan umum kaedah logik boleh dicirikan sebagai sejenis pencarian pola logik dalam sampel latihan dan pembentukan sistem peraturan keputusan logik tertentu (contohnya, dalam bentuk kata hubung peristiwa asas), setiap satunya mempunyai beratnya sendiri. Kumpulan kaedah logik adalah pelbagai dan termasuk kaedah kerumitan dan kedalaman analisis yang berbeza-beza. Untuk ciri dikotomi (boolean), apa yang dipanggil pengelas seperti pokok, kaedah ujian buntu, algoritma Kora dan lain-lain adalah popular. Kaedah yang lebih kompleks adalah berdasarkan pemformalan kaedah induktif D.S. Kilang. Pemformalan dijalankan dengan membina teori kuasi-aksiomatik dan berdasarkan logik berbilang nilai pelbagai dengan pengkuantiti ke atas tupel panjang berubah-ubah.

Algoritma Kora, seperti kaedah logik pengecaman corak yang lain, agak susah payah, kerana penghitungan lengkap diperlukan semasa memilih kata hubung. Oleh itu, apabila menggunakan kaedah logik, keperluan tinggi diletakkan pada organisasi proses pengiraan yang cekap, dan kaedah ini berfungsi dengan baik dengan dimensi ruang ciri yang agak kecil dan hanya pada komputer berkuasa.

Kaedah linguistik (sintaktik atau struktur). Kaedah linguistik pengecaman corak adalah berdasarkan penggunaan tatabahasa khas yang menjana bahasa, dengan bantuan satu set sifat objek yang boleh dikenali dapat diterangkan. Tatabahasa merujuk kepada peraturan untuk membina objek daripada unsur bukan terbitan ini.

Sekiranya penerangan imej dibuat dengan bantuan unsur bukan terbitan (sub-imej) dan hubungannya, maka pendekatan linguistik atau sintaksis digunakan untuk membina sistem pengecaman automatik menggunakan prinsip kesamaan sifat. Imej boleh diterangkan menggunakan struktur hierarki subimej yang serupa dengan struktur sintaksis sesuatu bahasa. Keadaan ini memungkinkan untuk mengaplikasikan teori bahasa formal. Diandaikan bahawa tatabahasa imej mengandungi set terhingga unsur yang dipanggil pembolehubah, unsur bukan terbitan dan peraturan penggantian. Sifat peraturan penggantian menentukan jenis tatabahasa. Antara tatabahasa yang paling banyak dikaji ialah tatabahasa tetap, bebas konteks dan tatabahasa juzuk langsung. Perkara utama pendekatan ini ialah pilihan unsur bukan terbitan imej, penyatuan unsur-unsur ini dan hubungan yang menghubungkannya ke dalam tatabahasa imej, dan, akhirnya, pelaksanaan proses analisis dan pengecaman dalam yang sepadan. bahasa. Pendekatan ini amat berguna apabila bekerja dengan imej yang sama ada tidak boleh diterangkan dengan ukuran berangka, atau terlalu kompleks sehingga ciri setempatnya tidak dapat dikenal pasti dan seseorang itu perlu merujuk kepada sifat global objek.

Contohnya, E.A. Butakov, V.I. Ostrovsky, I.L. tawaran Fadeev struktur berikut sistem untuk pemprosesan imej (Rajah 3), menggunakan pendekatan linguistik, di mana setiap blok berfungsi adalah kompleks perisian (perisian tegar) (modul) yang melaksanakan fungsi yang sepadan.

Rajah 3 Skim struktur peranti pengecaman

Percubaan untuk menggunakan kaedah linguistik matematik kepada masalah analisis imej membawa kepada keperluan untuk menyelesaikan beberapa masalah yang berkaitan dengan pemetaan struktur imej dua dimensi ke dalam rantai satu dimensi bahasa formal.

Kaedah Lanjutan

Dalam kaedah kumpulan ini, berbeza dengan arah intensional, setiap objek yang dikaji diberi nilai diagnostik bebas ke tahap yang lebih besar atau lebih kecil. Pada dasarnya, kaedah ini hampir dengan pendekatan klinikal, yang menganggap orang bukan sebagai rantaian objek yang disusun mengikut satu atau penunjuk lain, tetapi sebagai sistem yang lengkap, setiap satunya adalah individu dan mempunyai nilai diagnostik khas. Sikap berhati-hati terhadap objek kajian tidak membenarkan seseorang untuk mengecualikan atau kehilangan maklumat tentang setiap objek individu, yang berlaku apabila menggunakan kaedah arah yang disengajakan, menggunakan objek hanya untuk mengesan dan membetulkan corak tingkah laku sifat mereka.

Operasi utama dalam pengecaman corak menggunakan kaedah yang dibincangkan ialah operasi menentukan persamaan dan perbezaan objek. Objek dalam kumpulan kaedah yang ditentukan memainkan peranan sebagai preseden diagnostik. Pada masa yang sama, bergantung pada syarat tugas tertentu, peranan preseden individu boleh berbeza-beza dalam had yang paling luas: daripada penyertaan utama dan penentu kepada penyertaan tidak langsung dalam proses pengiktirafan. Sebaliknya, keadaan masalah mungkin memerlukan penyelesaian yang berjaya penyertaan bilangan kes diagnostik yang berbeza: daripada satu dalam setiap kelas yang diiktiraf kepada keseluruhan saiz sampel, dan juga cara yang berbeza pengiraan ukuran persamaan dan perbezaan objek. Keperluan ini menerangkan pembahagian kaedah lanjutan ke dalam subkelas:

    kaedah perbandingan prototaip;

    kaedah k-jiran terdekat;

    kumpulan peraturan keputusan.

Kaedah perbandingan prototaip. Ini ialah kaedah pengecaman lanjutan yang paling mudah. Ia digunakan, sebagai contoh, apabila kelas yang diiktiraf dipaparkan dalam ruang ciri dalam kumpulan geometri padat. Dalam kes ini, pusat kumpulan geometri kelas (atau objek yang paling hampir dengan pusat) biasanya dipilih sebagai titik prototaip.

Untuk mengklasifikasikan objek yang tidak diketahui, prototaip yang paling hampir dengannya ditemui, dan objek itu tergolong dalam kelas yang sama dengan prototaip ini. Jelas sekali, tiada imej kelas umum terbentuk dalam kaedah ini.

Pelbagai jenis jarak boleh digunakan sebagai ukuran kedekatan. Selalunya untuk ciri dikotomi, jarak Hamming digunakan, yang dalam kes ini adalah sama dengan kuasa dua jarak Euclidean. Dalam kes ini, peraturan keputusan untuk mengelaskan objek adalah bersamaan dengan fungsi keputusan linear.

Fakta ini perlu diberi perhatian khusus. Ia jelas menunjukkan hubungan antara prototaip dan perwakilan indikatif maklumat tentang struktur data. Menggunakan perwakilan di atas, sebagai contoh, sebarang skala pengukur tradisional, yang merupakan fungsi linear bagi nilai ciri dikotomi, boleh dianggap sebagai prototaip diagnostik hipotesis. Sebaliknya, jika analisis struktur spatial kelas yang diiktiraf membolehkan kita membuat kesimpulan bahawa ia adalah padat secara geometri, maka sudah cukup untuk menggantikan setiap kelas ini dengan satu prototaip, yang sebenarnya bersamaan dengan model diagnostik linear.

Dalam amalan, sudah tentu, keadaan sering berbeza daripada contoh ideal yang diterangkan. Seorang penyelidik yang berhasrat untuk menggunakan kaedah pengecaman berdasarkan perbandingan dengan prototaip kelas diagnostik menghadapi masalah yang sukar. Ini adalah, pertama sekali, pilihan ukuran kedekatan (metrik), yang boleh mengubah konfigurasi spatial pengedaran objek dengan ketara. Dan, kedua, masalah bebas ialah analisis struktur multidimensi data eksperimen. Kedua-dua masalah ini amat akut bagi penyelidik di bawah keadaan ruang ciri berdimensi tinggi, yang tipikal untuk masalah sebenar.

Kaedah k-jiran terdekat. Kaedah jiran terhampir k untuk menyelesaikan masalah analisis diskriminasi pertama kali dicadangkan pada tahun 1952. Ia adalah seperti berikut.

Apabila mengelaskan objek yang tidak diketahui, nombor tertentu (k) objek lain yang paling hampir secara geometri dengannya dalam ruang ciri (jiran terdekat) yang sudah diketahui tergolong dalam kelas yang boleh dikenali ditemui. Keputusan untuk menetapkan objek yang tidak diketahui kepada kelas diagnostik tertentu dibuat dengan menganalisis maklumat tentang keahlian diketahui jiran terdekatnya, contohnya, menggunakan kiraan undian yang mudah.

Pada mulanya, kaedah jiran terhampir k dianggap sebagai kaedah bukan parametrik untuk menganggar nisbah kemungkinan. Untuk kaedah ini, anggaran teori keberkesanannya diperolehi berbanding dengan pengelas Bayesian yang optimum. Dibuktikan bahawa kebarangkalian ralat asimptotik untuk kaedah jiran terhampir k melebihi ralat peraturan Bayes tidak lebih daripada dua kali.

Seperti yang dinyatakan di atas, dalam tugasan sebenar selalunya ia perlu untuk beroperasi dengan objek yang diterangkan oleh sebilangan besar ciri kualitatif (dikotomi). Pada masa yang sama, dimensi ruang ciri adalah sepadan dengan atau melebihi volum sampel yang dikaji. Di bawah keadaan sedemikian, adalah mudah untuk mentafsir setiap objek sampel latihan sebagai pengelas linear yang berasingan. Kemudian satu atau yang lain kelas diagnostik diwakili bukan oleh satu prototaip, tetapi oleh satu set pengelas linear. Interaksi gabungan pengelas linear menghasilkan permukaan linear sekeping yang memisahkan kelas yang boleh dikenali dalam ruang ciri. Jenis permukaan pembahagi, yang terdiri daripada kepingan hyperplanes, boleh diubah dan bergantung kepada kedudukan relatif koleksi terperingkat.

Satu lagi tafsiran mekanisme klasifikasi jiran k-terdekat juga boleh digunakan. Ia berdasarkan idea kewujudan beberapa pembolehubah terpendam, abstrak atau berkaitan dengan beberapa transformasi dengan ruang ciri asal. Jika dalam ruang pembolehubah pendam jarak berpasangan antara objek adalah sama seperti dalam ruang ciri awal, dan bilangan pembolehubah ini adalah ketara kurang daripada bilangan objek, maka tafsiran kaedah jiran k-terdekat boleh dipertimbangkan dari sudut perbandingan anggaran bukan parametrik ketumpatan taburan kebarangkalian bersyarat. Konsep pembolehubah terpendam yang dibentangkan di sini adalah dekat dengan konsep dimensi sebenar dan perwakilan lain yang digunakan dalam pelbagai kaedah pengurangan dimensi.

Apabila menggunakan kaedah k-nerest neighbors untuk pengecaman corak, penyelidik perlu menyelesaikan masalah sukar memilih metrik untuk menentukan kedekatan objek yang didiagnosis. Masalah ini dalam keadaan dimensi tinggi ruang ciri adalah sangat teruk disebabkan oleh intensiti buruh yang mencukupi. kaedah ini, yang menjadi penting walaupun untuk komputer berprestasi tinggi. Oleh itu, di sini, serta dalam kaedah perbandingan dengan prototaip, adalah perlu untuk membuat keputusan tugas kreatif analisis struktur multidimensi data eksperimen untuk meminimumkan bilangan objek yang mewakili kelas diagnostik.

Algoritma untuk mengira gred (mengundi). Prinsip operasi algoritma penilaian (ABO) adalah untuk mengira keutamaan (skor persamaan) yang mencirikan "kehampiran" objek yang diiktiraf dan rujukan mengikut sistem ensembel ciri, yang merupakan sistem subset bagi set tertentu. daripada ciri.

Tidak seperti semua kaedah yang dipertimbangkan sebelum ini, algoritma untuk mengira anggaran beroperasi dengan penerangan objek dengan cara yang asasnya baharu. Untuk algoritma ini, objek wujud serentak dalam subruang yang sangat berbeza bagi ruang ciri. Kelas ABO membawa idea menggunakan ciri kepada kesimpulan logiknya: kerana tidak selalu diketahui gabungan ciri mana yang paling bermaklumat, dalam ABO tahap persamaan objek dikira dengan membandingkan semua gabungan ciri yang mungkin atau tertentu. termasuk dalam huraian objek.

Pasukan peraturan keputusan. Peraturan keputusan menggunakan skim pengecaman dua peringkat. Pada peringkat pertama, algoritma pengecaman peribadi berfungsi, hasilnya digabungkan pada tahap kedua dalam blok sintesis. Kaedah yang paling biasa bagi gabungan sedemikian adalah berdasarkan peruntukan bidang kecekapan algoritma tertentu. Cara paling mudah untuk mencari bidang kecekapan adalah dengan membahagikan ruang ciri secara priori berdasarkan pertimbangan profesional sains tertentu (contohnya, stratifikasi sampel mengikut beberapa ciri). Kemudian, untuk setiap kawasan yang dipilih, algoritma pengecamannya sendiri dibina. Kaedah lain adalah berdasarkan penggunaan analisis formal untuk menentukan kawasan tempatan ruang ciri sebagai kejiranan objek yang boleh dikenali yang mana kejayaan algoritma pengecaman tertentu telah terbukti.

Pendekatan paling umum untuk membina blok sintesis menganggap penunjuk algoritma separa yang terhasil sebagai ciri awal untuk membina peraturan keputusan umum yang baharu. Dalam kes ini, semua kaedah arah intensional dan lanjutan di atas dalam pengecaman corak boleh digunakan. Berkesan untuk menyelesaikan masalah mencipta satu set peraturan keputusan adalah algoritma logik jenis "Kora" dan algoritma untuk mengira anggaran (ABO), yang merupakan asas kepada pendekatan algebra yang dipanggil, yang menyediakan penyelidikan dan penerangan yang membina algoritma pengecaman, di mana semua jenis algoritma sedia ada sesuai.

Kaedah rangkaian saraf

Kaedah rangkaian saraf adalah kaedah berdasarkan aplikasi pelbagai jenis rangkaian saraf (NN). Bidang utama penggunaan pelbagai NN untuk pengecaman corak dan imej:

    aplikasi untuk mengekstrak ciri atau ciri utama imej yang diberikan,

    klasifikasi imej itu sendiri atau ciri yang telah diekstrak daripadanya (dalam kes pertama, pengekstrakan ciri utama berlaku secara tersirat dalam rangkaian),

    penyelesaian masalah pengoptimuman.

Berbilang lapisan rangkaian saraf. Seni bina rangkaian saraf berbilang lapisan (MNN) terdiri daripada lapisan yang disambung secara berurutan, di mana neuron setiap lapisan disambungkan dengan semua neuron lapisan sebelumnya dengan inputnya, dan output yang seterusnya.

Aplikasi paling mudah bagi NN satu lapisan (dipanggil memori auto-asosiatif) adalah untuk melatih rangkaian untuk membina semula imej suapan. Dengan memberi imej ujian kepada input dan mengira kualiti imej yang dibina semula, seseorang boleh menganggarkan sejauh mana rangkaian mengenali imej input. Sifat positif kaedah ini ialah rangkaian boleh memulihkan imej yang herot dan bising, tetapi ia tidak sesuai untuk tujuan yang lebih serius.

MNN juga digunakan untuk pengelasan langsung imej - input sama ada imej itu sendiri dalam beberapa bentuk, atau satu set ciri utama imej yang diekstrak sebelum ini, pada output, neuron dengan aktiviti maksimum menunjukkan kepunyaan kelas yang diiktiraf (Rajah . 4). Jika aktiviti ini berada di bawah ambang tertentu, maka ia dianggap bahawa imej yang diserahkan bukan milik mana-mana kelas yang diketahui. Proses pembelajaran menetapkan kesesuaian imej input dengan kepunyaan kelas tertentu. Ini dipanggil pembelajaran terselia. Pendekatan ini bagus untuk tugas kawalan akses untuk sekumpulan kecil orang. Pendekatan ini memberikan perbandingan langsung imej itu sendiri oleh rangkaian, tetapi dengan peningkatan dalam bilangan kelas, masa latihan dan operasi rangkaian meningkat secara eksponen. Oleh itu, untuk tugas seperti mencari orang yang serupa dalam pangkalan data yang besar, ia memerlukan mengekstrak set ciri utama yang padat untuk mencari.

Pendekatan pengelasan menggunakan ciri frekuensi keseluruhan imej diterangkan dalam . NS satu lapisan berdasarkan neuron berbilang nilai telah digunakan.

B menunjukkan penggunaan NN untuk pengelasan imej, apabila input rangkaian menerima hasil penguraian imej melalui kaedah komponen utama.

Dalam MNS klasik, sambungan saraf interlayer disambungkan sepenuhnya, dan imej diwakili sebagai vektor satu dimensi, walaupun ia adalah dua dimensi. Seni bina rangkaian neural convolutional bertujuan untuk mengatasi kelemahan ini. Ia menggunakan medan reseptor tempatan (menyediakan sambungan dua dimensi tempatan neuron), pemberat am (menyediakan pengesanan beberapa ciri di mana-mana dalam imej), dan organisasi hierarki dengan subsampel ruang (subsampel ruang). Convolutional NN (CNN) memberikan rintangan separa terhadap perubahan skala, anjakan, putaran, herotan.

MNS juga digunakan untuk mengesan objek dari jenis tertentu. Selain fakta bahawa mana-mana MNS terlatih boleh sedikit sebanyak menentukan kepunyaan imej kepada kelas "sendiri", ia boleh dilatih khas untuk mengesan kelas tertentu dengan pasti. Dalam kes ini, kelas output akan menjadi kelas yang tergolong dan bukan milik jenis imej yang diberikan. Pengesan rangkaian saraf digunakan untuk mengesan imej muka dalam imej input. Imej telah diimbas dengan tetingkap 20x20 piksel, yang disalurkan kepada input rangkaian, yang menentukan sama ada kawasan yang diberikan tergolong dalam kelas muka. Latihan telah dijalankan dengan menggunakan contoh positif ( pelbagai imej muka) dan negatif (imej yang bukan muka). Untuk meningkatkan kebolehpercayaan pengesanan, sekumpulan NN yang dilatih dengan pemberat awal yang berbeza telah digunakan, akibatnya NN membuat kesilapan dalam cara yang berbeza, dan keputusan terakhir diterima pakai oleh undi seluruh pasukan.

Rajah 5. Komponen utama (eigenfaces) dan penguraian imej kepada komponen utama

NN juga digunakan untuk mengekstrak ciri utama imej, yang kemudiannya digunakan untuk pengelasan seterusnya. Dalam , kaedah untuk pelaksanaan rangkaian saraf kaedah analisis komponen utama ditunjukkan. Intipati kaedah analisis komponen utama adalah untuk mendapatkan pekali hiasan maksimum yang mencirikan corak input. Pekali ini dipanggil komponen utama dan digunakan untuk pemampatan imej statistik, di mana sebilangan kecil pekali digunakan untuk mewakili keseluruhan imej. NN dengan satu lapisan tersembunyi yang mengandungi neuron N (yang jauh lebih kecil daripada dimensi imej), dilatih dengan kaedah perambatan balik ralat untuk memulihkan imej input pada output, menjana pekali komponen utama N pertama pada output neuron tersembunyi, yang digunakan untuk perbandingan. Biasanya, 10 hingga 200 komponen utama digunakan. Apabila nombor komponen bertambah, keterwakilannya berkurangan dengan banyak, dan tidak masuk akal untuk menggunakan komponen dengan bilangan yang besar. Apabila menggunakan fungsi pengaktifan tak linear unsur saraf, penguraian tak linear kepada komponen utama adalah mungkin. Ketaklinieran membolehkan anda menggambarkan variasi dalam data input dengan lebih tepat. Menggunakan analisis komponen utama pada penguraian imej muka, kami memperoleh komponen utama, dipanggil muka wajar, yang juga mempunyai harta yang berguna- terdapat komponen yang mencerminkan ciri-ciri penting seseorang seperti jantina, bangsa, emosi. Apabila dipulihkan, komponen kelihatan seperti muka, dengan bekas paling mencerminkan bentuk umum muka, yang terakhir - pelbagai perbezaan kecil antara muka (Rajah 5). Kaedah ini sesuai digunakan untuk mencari imej wajah yang serupa dalam pangkalan data yang besar. Kemungkinan pengurangan selanjutnya dimensi komponen utama dengan bantuan NS juga ditunjukkan. Dengan menilai kualiti pembinaan semula imej input, seseorang boleh menentukan dengan tepat sama ada ia tergolong dalam kelas muka.

Rangkaian saraf perintah tinggi. Rangkaian saraf tertib tinggi (HNN) berbeza daripada MNN kerana ia hanya mempunyai satu lapisan, tetapi input neuron juga menerima istilah tertib tinggi, yang merupakan hasil darab dua atau lebih komponen vektor input . Rangkaian sedemikian juga boleh membentuk permukaan pemisah yang kompleks.

Rangkaian saraf Hopfield. Hopfield NN (HSH) adalah satu lapisan dan bersambung sepenuhnya (tiada sambungan neuron kepada diri mereka sendiri), outputnya disambungkan dengan input. Tidak seperti MNS, NSH bersifat santai, i.e. ditetapkan kepada keadaan awal, ia berfungsi sehingga ia mencapai keadaan stabil, yang akan menjadi nilai outputnya. Untuk mencari minimum global berhubung dengan masalah pengoptimuman gunakan pengubahsuaian stokastik NSH.

Penggunaan NSH sebagai ingatan bersekutu membolehkan anda memulihkan imej yang rangkaian dilatih dengan tepat apabila imej herot disalurkan ke input. Dalam kes ini, rangkaian akan "mengingat" yang paling dekat (dalam erti kata minimum tempatan tenaga) imej, dan dengan itu mengenalinya. Fungsi sedemikian juga boleh dianggap sebagai aplikasi berurutan bagi memori auto-asosiatif yang diterangkan di atas. Tidak seperti memori auto-asosiatif, NSH akan memulihkan imej dengan sempurna dengan tepat. Untuk mengelakkan gangguan minima dan meningkatkan kapasiti rangkaian, pelbagai kaedah digunakan.

Rangkaian saraf penganjur sendiri Kohonen. Rangkaian saraf penganjur sendiri Kohonen (SNNC) menyediakan susunan topologi ruang imej input. Mereka membenarkan pemetaan topologi berterusan input ruang n-dimensi kepada output m-dimensi, m<

Cognitron. Kognitron dalam seni binanya adalah serupa dengan struktur korteks visual, ia mempunyai organisasi berbilang lapisan hierarki, di mana neuron antara lapisan disambungkan hanya secara tempatan. Dilatih dengan pembelajaran kompetitif (tanpa guru). Setiap lapisan otak melaksanakan tahap generalisasi yang berbeza; lapisan input sensitif kepada corak mudah, seperti garisan, dan orientasinya di kawasan tertentu kawasan visual, manakala tindak balas lapisan lain adalah lebih kompleks, abstrak dan bebas daripada kedudukan corak. Fungsi serupa dilaksanakan dalam kognitron dengan memodelkan organisasi korteks visual.

Neocognitron ialah perkembangan selanjutnya idea kognitron dan lebih tepat menggambarkan struktur sistem visual, membolehkan anda mengenali imej tanpa mengira perubahan, putaran, herotan dan perubahan skalanya.

Cognitron ialah alat pengecaman imej yang berkuasa, namun, ia memerlukan kos pengiraan yang tinggi, yang pada masa ini tidak dapat dicapai.

Kaedah rangkaian saraf yang dipertimbangkan memberikan pengecaman imej yang pantas dan boleh dipercayai, tetapi apabila menggunakan kaedah ini, masalah timbul dalam pengecaman objek tiga dimensi. Walau bagaimanapun, pendekatan ini mempunyai banyak kelebihan.

      Kesimpulan

Pada masa ini, terdapat sejumlah besar sistem pengecaman corak automatik untuk pelbagai masalah yang digunakan.

Pengecaman corak melalui kaedah formal sebagai hala tuju saintifik asas tidak habis-habis.

Kaedah matematik pemprosesan imej mempunyai pelbagai aplikasi: sains, teknologi, perubatan, sfera sosial. Pada masa hadapan, peranan pengecaman pola dalam kehidupan manusia akan semakin meningkat.

Kaedah rangkaian saraf menyediakan pengecaman imej yang pantas dan boleh dipercayai. Pendekatan ini mempunyai banyak kelebihan dan merupakan salah satu yang paling menjanjikan.

kesusasteraan

    D.V. Brilyuk, V.V. Starovoitov. Kaedah rangkaian saraf pengecaman imej // /

    Kuzin L.T. Asas Sibernetik: Asas Model Sibernetik. T.2. - M.: Tenaga, 1979. - 584 hlm.

    Peregudov F.I., Tarasenko F.P. Pengenalan kepada Analisis Sistem: Buku Teks. - M .: Sekolah Tinggi, 1997. - 389s.

    Temnikov F.E., Afonin V.A., Dmitriev V.I. Asas teori teknologi maklumat. - M.: Tenaga, 1979. - 511s.

    Tu J., Gonzalez R. Prinsip Pengecaman Corak. / Per. dari bahasa Inggeris. - M.: Mir, 1978. - 410s.

    Winston P. Kecerdasan buatan. / Per. dari bahasa Inggeris. - M.: Mir, 1980. - 520an.

    Fu K. Kaedah struktur dalam pengecaman corak: Diterjemah daripada bahasa Inggeris. - M.: Mir, 1977. - 320-an.

    Tsypkin Ya.Z. Asas Teori Maklumat Pengenalan. - M.: Nauka, 1984. - 520-an.

    Pospelov G.S. Kepintaran buatan adalah asas teknologi maklumat baharu. - M.: Nauka, 1988. - 280-an.

    Yu. Lifshits, Kaedah statistik pengecaman corak ///modern/07modernnote.pdf

    Bohr N. Fizik atom dan pengetahuan manusia. / Terjemahan daripada bahasa Inggeris. - M.: Mir, 1961. - 151s.

    Butakov E.A., Ostrovsky V.I., Fadeev I.L. Pemprosesan imej pada komputer.1987.-236s.

    Duda R., Hart P. Pengecaman corak dan analisis pemandangan. / Terjemahan daripada bahasa Inggeris. - M.: Mir, 1978. - 510s.

    Duke V.A. Psikodiagnostik komputer. - St Petersburg: Brotherhood, 1994. - 365 p.

    Aizenberg I. N., Aizenberg N. N. dan Krivosheev G. A. Neuron Perduaan Berbilang nilai dan Universal: Algoritma Pembelajaran, Aplikasi untuk Pemprosesan dan Pengiktirafan Imej. Nota Kuliah dalam Kepintaran Buatan - Pembelajaran Mesin dan Perlombongan Data dalam Pengecaman Corak, 1999, hlm. 21-35.

    Ranganath S. dan Arun K. Pengecaman muka menggunakan ciri transformasi dan rangkaian saraf. Pengecaman Corak 1997, Jld. 30, hlm. 1615-1622.

    Golovko V.A. Neurointelligence: Teori dan Aplikasi. Buku 1. Organisasi dan latihan rangkaian saraf dengan langsung dan maklum balas - Brest: BPI, 1999, - 260-an.

    Vetter T. dan Poggio T. Kelas Objek Linear dan Sintesis Imej Daripada Imej Contoh Tunggal. IEEE Transactions on Pattern Analysis and Machine Intelligence 1997, Vol. 19, hlm. 733-742.

    Golovko V.A. Neurointelligence: Teori dan Aplikasi. Buku 2. Organisasi diri, toleransi kesalahan dan penggunaan rangkaian saraf - Brest: BPI, 1999, - 228s.

    Lawrence S., Giles C. L., Tsoi A. C. dan Belakang A. D. Pengecaman Muka: Pendekatan Rangkaian Neural Konvolusi. Transaksi IEEE pada Rangkaian Neural, Isu Khas mengenai Rangkaian Neural dan Pengecaman Corak, ms. 1-24.

    Wasserman F. Teknologi Neurokomputer: Teori dan amalan, 1992 - 184p.

    Rowley H. A., Baluja S. dan Kanade T. Pengesanan Muka Berasaskan Rangkaian Neural. Transaksi IEEE pada Analisis Corak dan Perisikan Mesin 1998, Vol. 20, hlm. 23-37.

    Valentin D., Abdi H., O "Toole A. J. dan Cottrell G. W. Model penyambung pemprosesan muka: tinjauan. DALAM: Pengecaman Pola 1994, Jilid 27, ms 1209-1230.

    Dokumen

    Mereka membuat algoritma pengiktirafanimej. Kaedahpengiktirafanimej Seperti yang dinyatakan di atas ... realiti tidak wujud"ekosistem secara umum" dan wujud hanya beberapa ... kesimpulan daripada ini terperinci semakankaedahpengiktirafan kami sampaikan dalam...

  1. Gambaran keseluruhan kaedah untuk mengenal pasti orang berdasarkan imej muka, dengan mengambil kira ciri pengecaman visual

    Semakan

    ... pengiktirafan oleh seseorang objek kontras rendah, termasuk. orang. Dibawa semakan biasa kaedah ... wujud keseluruhan baris kaedah ... cara, hasil kajian, platform untuk pembangunan kaedahpengiktirafan ...

  2. Imeni Glazkova Valentina Vladimirovna PENYELIDIKAN DAN PEMBANGUNAN KAEDAH UNTUK PEMBINAAN ALAT PERISIAN UNTUK KLASIFIKASI DOKUMEN HIPERTEKS PELBAGAI TOPIK Keistimewaan 05

    Abstrak disertasi

    dokumen hiperteks. Bab tersebut mengandungi semakansedia adakaedah penyelesaian masalah yang sedang dipertimbangkan, penerangan ... dengan memotong kelas yang paling kurang relevan // Matematik kaedahpengiktirafanimej: Persidangan Seluruh Rusia ke-13. wilayah Leningrad...

  3. Slaid 0 Gambaran keseluruhan tugas-tugas bioinformatik yang berkaitan dengan analisis dan pemprosesan teks genetik

    Syarahan

    Urutan DNA dan protein. Semakan tugas bioinformatik sebagai tugas ... isyarat memerlukan penggunaan moden kaedahpengiktirafanimej, pendekatan statistik dan ... dengan ketumpatan gen yang rendah. sedia ada program ramalan gen tidak...

Robot moden yang dilengkapi dengan sistem penglihatan mampu melihat dengan baik untuk bekerja dengan dunia sebenar. Mereka boleh membuat kesimpulan jenis objek apa yang ada, dalam hubungan apa mereka antara satu sama lain, kumpulan apa yang mereka bentuk.

Intipati masalah pengecaman adalah untuk menentukan sama ada objek yang dikaji mempunyai set ciri terhingga tetap yang membolehkan mereka dikaitkan dengan kelas tertentu.

Matlamat sains pengecaman corak:

Menggantikan pakar manusia atau sistem pakar yang kompleks dengan sistem yang lebih ringkas (automasi aktiviti manusia atau penyederhanaan sistem yang kompleks);

Membina sistem pembelajaran yang mampu membuat keputusan tanpa menyatakan peraturan yang jelas, iaitu sistem yang mampu mensintesis peraturan membuat keputusan sendiri berdasarkan beberapa contoh terhingga keputusan yang betul "ditunjukkan" kepada sistem.

Tugas pengiktirafan boleh dicirikan seperti berikut.

1. Ini adalah tugas bermaklumat, yang terdiri daripada dua peringkat utama: membawa data sumber kepada bentuk yang mudah untuk pengecaman dan pengiktirafan itu sendiri.

2. Dalam masalah ini, seseorang boleh memperkenalkan konsep analogi dan persamaan objek dan merumuskan konsep kedekatan objek sebagai asas untuk menetapkan objek kepada kelas tertentu.

3. Dalam tugas-tugas ini, adalah mungkin untuk beroperasi dengan satu set contoh, klasifikasi yang diketahui dan yang, dalam bentuk penerangan rasmi, boleh dibentangkan kepada algoritma pengecaman untuk pelarasan kepada tugas dalam proses pembelajaran.

4. Bagi masalah ini sukar untuk membina teori formal dan menggunakan kaedah matematik klasik.

5. Dalam tugasan ini, maklumat "buruk" adalah mungkin.

Jenis tugas pengiktirafan:

Menetapkan objek yang dibentangkan kepada salah satu kelas (latihan dengan guru);

Pengelasan automatik - membahagikan satu set objek (situasi) mengikut penerangannya ke dalam sistem kelas tidak bertindih;

Pemilihan set ciri maklumat untuk pengiktirafan;

Membawa data sumber ke bentuk yang mudah untuk pengecaman;

Pengiktirafan dinamik dan klasifikasi dinamik;

Tugasan ramalan.

Definisi asas

Imej ialah penerangan berstruktur bagi objek atau fenomena, diwakili oleh vektor ciri, setiap elemen mewakili nilai berangka salah satu ciri yang mencirikan objek yang diberikan. Dalam erti kata lain: imej ialah sebarang objek yang satu set ciri berangka tertentu boleh diukur. Contoh imej: surat, imej, kardiogram, dsb.

Tanda angka(atau sekadar tanda). ialah formula atau penerangan lain tentang kaedah untuk memadankan objek dengan ciri berangka tertentu, yang beroperasi dalam rangka masalah pengecaman corak tertentu. Untuk setiap objek, beberapa ciri berbeza, iaitu beberapa ciri berangka, boleh ditakrifkan.

ruang ciri.Ruang dimensi N ditakrifkan untuk tugas pengecaman yang diberikan, dengan N ialah bilangan tetap ciri terukur untuk sebarang objek. Vektor dari ruang ciri yang sepadan dengan objek masalah pengecaman ialah vektor N-dimensi dengan komponen (x1, x2, ..., xN), yang merupakan nilai ciri objek ini.

OBJEK->Nciri->Vektor ciri M-dimensi

Kelas- idea tidak formal (sebagai peraturan) tentang kemungkinan memberikan objek sewenang-wenangnya dari set objek tugas pengecaman kepada kumpulan objek tertentu. Untuk objek kelas yang sama, kehadiran "kesamaan" diandaikan. Untuk masalah pengecaman corak, bilangan kelas sewenang-wenangnya boleh ditakrifkan, lebih besar daripada 1. Bilangan kelas dilambangkan dengan nombor S.

Secara umumnya, masalah pengecaman pola terdiri daripada dua bahagian: pengecaman dan pembelajaran.

Pengecaman corak ialah pengelasan kumpulan objek tertentu berdasarkan keperluan tertentu. Objek yang tergolong dalam kelas imej yang sama mempunyai sifat sepunya. Keperluan yang mentakrifkan klasifikasi mungkin berbeza, kerana situasi yang berbeza memerlukan jenis klasifikasi yang berbeza.

Sebagai contoh, apabila mengenali huruf Inggeris, 26 kelas imej terbentuk. Walau bagaimanapun, untuk membezakan huruf Inggeris daripada aksara Cina semasa pengecaman, hanya dua kelas imej diperlukan.

Pendekatan paling mudah untuk pengecaman corak ialah padanan corak. Dalam kes ini, satu set imej, satu daripada setiap kelas imej, disimpan dalam memori mesin. Imej input (boleh dikenali) (kelas yang tidak diketahui) dibandingkan dengan standard setiap kelas. Pengelasan adalah berdasarkan padanan atau kriteria persamaan yang telah dipilih. Dalam erti kata lain, jika imej input sepadan dengan corak kelas ke-i corak lebih baik daripada mana-mana corak lain, maka corak input diklasifikasikan sebagai milik kelas ke-i corak.

Kelemahan pendekatan ini, iaitu padanan dengan piawaian, adalah dalam sesetengah kes sukar untuk memilih piawai yang sesuai daripada setiap kelas imej dan mewujudkan kriteria padanan yang diperlukan.

Pendekatan yang lebih maju ialah pengelasan adalah berdasarkan beberapa set ukuran terpilih yang dibuat pada imej input. Pengukuran yang dipilih ini, dipanggil "ciri", diandaikan sebagai invarian atau tidak sensitif kepada perubahan dan herotan yang biasa dihadapi dan mempunyai sedikit redundansi.

Satu kes khas pendekatan "pengukuran ciri" kedua, di mana piawaian disimpan dalam bentuk ciri yang diukur dan kriteria pengelasan khas (perbandingan) digunakan dalam pengelas.

Ciri ditakrifkan oleh pembangun dan mestilah tidak berubah kepada variasi orientasi, saiz dan bentuk objek.

Dsb. objek yang dicirikan oleh set terhingga sifat dan ciri tertentu. Tugas sedemikian sering diselesaikan, contohnya, apabila menyeberang atau memandu jalan di lampu isyarat. Mengenali warna lampu isyarat yang menyala dan mengetahui peraturan jalan raya membolehkan anda membuat keputusan yang tepat sama ada hendak menyeberang jalan atau tidak.

Keperluan untuk pengiktirafan sedemikian timbul dalam pelbagai bidang - daripada hal ehwal ketenteraan dan sistem keselamatan kepada pendigitalan isyarat analog.

Masalah pengecaman imej telah memperoleh kepentingan yang luar biasa dalam keadaan beban maklumat, apabila seseorang tidak dapat mengatasi pemahaman berurutan linear tentang mesej yang masuk kepadanya, akibatnya otaknya beralih ke mod persepsi dan pemikiran serentak. , yang merupakan ciri pengiktirafan sedemikian.

Oleh itu, bukan kebetulan bahawa masalah pengecaman imej ternyata berada dalam bidang penyelidikan antara disiplin, termasuk berkaitan dengan kerja penciptaan kecerdasan buatan, dan penciptaan sistem teknikal. pengecaman corak semakin menarik perhatian.

YouTube ensiklopedia

    1 / 4

    Pengenalan kepada Pengecaman Corak

    R.V. Shamin. Kuliah No. 6 rangkaian Hopfield dan Hamming dalam masalah pengecaman corak

    [DDSH-2016]: Rangkaian saraf dan penglihatan komputer moden

    Kuliah 9. Pelicinan eksponen. Pengecaman Corak: kth kaedah jiran terdekat

    Sari kata

Arah dalam pengecaman corak

Terdapat dua arah utama:

  • Kajian tentang kebolehan pengiktirafan yang dimiliki oleh makhluk hidup, menerangkan dan memodelkan mereka;
  • Pembangunan teori dan kaedah untuk membina peranti yang direka untuk menyelesaikan masalah individu untuk tujuan yang digunakan.

Pernyataan rasmi masalah

Pengecaman corak ialah penugasan data awal kepada kelas tertentu dengan menyerlahkan ciri penting yang mencirikan data ini daripada jumlah jisim data tidak penting.

Apabila menetapkan masalah pengecaman, mereka cuba menggunakan bahasa matematik, cuba - berbeza dengan teori rangkaian saraf tiruan, di mana asasnya adalah untuk mendapatkan keputusan melalui eksperimen - untuk menggantikan eksperimen dengan penaakulan logik dan bukti matematik.

Pernyataan klasik tentang masalah pengecaman corak: Diberi satu set objek. Mereka perlu diklasifikasikan. Satu set diwakili oleh subset, yang dipanggil kelas. Diberi: maklumat tentang kelas, penerangan keseluruhan set, dan penerangan maklumat tentang objek yang kepunyaan kelas tertentu tidak diketahui. Ia diperlukan, mengikut maklumat yang tersedia tentang kelas dan perihalan objek, untuk menentukan kelas mana objek ini dimiliki.

Selalunya, imej monokrom dipertimbangkan dalam masalah pengecaman corak, yang memungkinkan untuk menganggap imej sebagai fungsi pada satah. Jika kita menganggap set titik pada satah T (\gaya paparan T), di mana fungsi menyatakan pada setiap titik imej cirinya - kecerahan, ketelusan, ketumpatan optik, maka fungsi sedemikian adalah rekod rasmi imej.

Set semua fungsi yang mungkin f (x , y) (\displaystyle f(x, y)) di permukaan T (\gaya paparan T)- terdapat model set semua imej X (\displaystyle X). Memperkenalkan konsep persamaan antara imej, anda boleh menetapkan tugas pengecaman. Bentuk khusus penetapan sedemikian sangat bergantung pada peringkat berikutnya dalam pengiktirafan mengikut satu atau pendekatan lain.

Beberapa kaedah pengecaman imej grafik

Untuk pengecaman imej optikal, anda boleh menggunakan kaedah lelaran pada penampilan objek pada sudut, skala, offset, dsb. Untuk huruf, anda perlu mengulang fon, sifat fon, dsb.

Pendekatan kedua ialah mencari kontur objek dan memeriksa sifatnya (ketersambungan, kehadiran sudut, dll.)

Pendekatan lain ialah menggunakan rangkaian neural tiruan. Kaedah ini memerlukan sama ada sebilangan besar contoh tugas pengecaman (dengan jawapan yang betul), atau struktur rangkaian neural khas yang mengambil kira spesifik tugas ini.

Perceptron sebagai kaedah pengecaman corak

F. Rosenblatt, memperkenalkan konsep model otak, yang tugasnya adalah untuk menunjukkan bagaimana fenomena psikologi boleh timbul dalam beberapa sistem fizikal, struktur dan sifat fungsi yang diketahui, menerangkan eksperimen paling mudah mengenai diskriminasi. Eksperimen ini berkaitan sepenuhnya dengan kaedah pengecaman corak, tetapi berbeza kerana algoritma penyelesaian tidak bersifat deterministik.

Eksperimen yang paling mudah, berdasarkan yang mungkin untuk mendapatkan maklumat yang signifikan secara psikologi tentang sistem tertentu, bermuara pada fakta bahawa model itu dibentangkan dengan dua rangsangan yang berbeza dan diperlukan untuk bertindak balas kepada mereka dengan cara yang berbeza. Tujuan eksperimen sedemikian mungkin adalah untuk mengkaji kemungkinan diskriminasi spontan mereka oleh sistem jika tiada campur tangan daripada penguji, atau, sebaliknya, untuk mengkaji diskriminasi paksa, di mana penguji berusaha untuk mengajar sistem untuk melaksanakan klasifikasi yang diperlukan.

Dalam eksperimen pembelajaran, perceptron biasanya dipersembahkan dengan urutan imej tertentu, yang merangkumi wakil setiap kelas untuk dibezakan. Mengikut beberapa peraturan pengubahsuaian memori, pilihan tindak balas yang betul diperkukuh. Kemudian rangsangan kawalan dibentangkan kepada perceptron dan kebarangkalian untuk mendapatkan gerak balas yang betul untuk rangsangan kelas ini ditentukan. Bergantung pada sama ada rangsangan kawalan yang dipilih sepadan atau tidak sepadan dengan salah satu imej yang digunakan dalam urutan latihan, keputusan yang berbeza diperoleh:

  1. Jika rangsangan kawalan tidak bertepatan dengan mana-mana rangsangan pembelajaran, maka eksperimen itu dikaitkan bukan sahaja dengan diskriminasi tulen, tetapi juga termasuk elemen generalisasi.
  2. Jika rangsangan kawalan merangsang satu set elemen deria tertentu yang berbeza sama sekali daripada unsur-unsur yang diaktifkan di bawah pengaruh rangsangan yang dibentangkan sebelum ini daripada kelas yang sama, maka eksperimen adalah penyiasatan. generalisasi tulen.

Perceptron tidak mempunyai kapasiti untuk generalisasi tulen, tetapi ia berfungsi dengan cukup memuaskan dalam eksperimen diskriminasi, terutamanya jika rangsangan kawalan bertepatan cukup rapat dengan salah satu corak yang perceptron telah mengumpul beberapa pengalaman.

Contoh masalah pengecaman corak

  • Pengecaman kod bar
  • Pengiktirafan plat lesen
  • Pengecaman imej
  • Pengiktirafan kawasan tempatan kerak bumi di mana deposit berada
Dalam artikel ini, saya ingin menyerlahkan beberapa hasil asas teori pembelajaran mesin dengan cara yang menjadikan konsep itu boleh difahami oleh pembaca yang agak biasa dengan masalah klasifikasi dan regresi. Idea untuk menulis artikel seperti itu semakin jelas terpancar dalam fikiran saya dengan setiap buku yang saya baca, di mana idea-idea mengajar mesin pengiktirafan diberitahu seolah-olah dari tengah dan tidak jelas sama sekali apa pengarang ini atau kaedah itu bergantung pada semasa membangunkannya. Sebaliknya, terdapat beberapa buku yang dikhaskan untuk konsep asas dalam pembelajaran mesin, tetapi pembentangan bahan di dalamnya mungkin kelihatan terlalu rumit untuk bacaan pertama.

Motivasi

Mari kita pertimbangkan tugas sedemikian. Kami mempunyai dua kelas epal - sedap dan tidak sedap, 1 dan 0. Epal mempunyai ciri - warna dan saiz. Warna akan berubah secara berterusan dari 0 hingga 1, i.e. 0 - epal hijau sepenuhnya, 1 - merah sepenuhnya. Saiz boleh berubah sama, 0 - epal kecil, 1 - besar. Kami ingin membangunkan algoritma yang akan mengambil warna dan saiz sebagai input, dan mengembalikan kelas epal sebagai output - sama ada ia sedap atau tidak. Adalah sangat diingini bahawa bilangan ralat dalam kes ini adalah lebih kecil lebih baik. Pada masa yang sama, kami mempunyai senarai akhir yang mengandungi data sejarah tentang warna, saiz dan kelas epal. Bagaimana kita boleh menyelesaikan masalah sedemikian?

pendekatan logik

Menyelesaikan masalah kami, kaedah pertama yang mungkin terlintas di fikiran mungkin ini: mari kita karang peraturan if-else secara manual dan, bergantung pada nilai warna dan saiz, kami akan menetapkan kelas tertentu kepada epal. Itu. kami mempunyai prasyarat - ini adalah warna dan saiz, dan ada akibatnya - rasa sebiji epal. Ia agak munasabah apabila terdapat sedikit tanda dan anda boleh menganggarkan ambang untuk perbandingan dengan mata. Tetapi ia mungkin berlaku bahawa ia tidak mungkin untuk menghasilkan keadaan yang jelas, dan ia tidak jelas daripada data yang ambang untuk diambil, dan bilangan ciri mungkin meningkat pada masa hadapan. Tetapi bagaimana jika dalam senarai kami dengan data sejarah, kami menemui dua epal dengan warna dan saiz yang sama, tetapi satu ditandakan sebagai lazat, dan yang lain tidak? Oleh itu, kaedah pertama kami tidak fleksibel dan berskala seperti yang kami mahukan.

Notasi

Mari kita perkenalkan notasi berikut. Kami akan menandakan epal ke sebagai . Sebaliknya, setiap satu terdiri daripada dua nombor - warna dan saiz. Kami akan menandakan fakta ini dengan sepasang nombor: . Kami menandakan kelas setiap -th epal sebagai . Senarai dengan data sejarah akan dilambangkan dengan huruf , panjang senarai ini adalah sama dengan . Elemen ke dalam senarai ini ialah nilai atribut bagi epal dan kelasnya. Itu. . Kami juga akan memanggilnya sebagai sampel. Dalam huruf besar dan kami menandakan pembolehubah yang boleh mengambil nilai ciri dan kelas tertentu. Kami memperkenalkan konsep baharu - peraturan keputusan ialah fungsi yang mengambil warna dan nilai saiz sebagai input dan mengembalikan label kelas sebagai output:

Pendekatan kebarangkalian

Membangunkan idea kaedah logik dengan premis dan akibat, mari kita tanya diri kita sendiri - apakah kebarangkalian bahawa epal -th, yang bukan milik sampel kami, akan menjadi lazat, memandangkan nilai yang diukur warna dan saiz? Dalam tatatanda teori kebarangkalian, soalan ini boleh ditulis seperti berikut:

Dalam ungkapan ini, ia boleh ditafsirkan sebagai premis, sebagai akibat, tetapi peralihan dari premis kepada akibat akan mematuhi undang-undang kebarangkalian, bukan yang logik. Itu. bukannya jadual kebenaran dengan nilai boolean 0 dan 1 untuk kelas, akan ada nilai kebarangkalian yang mengambil nilai dari 0 hingga 1. Gunakan formula Bayes dan dapatkan ungkapan berikut:

Mari kita pertimbangkan bahagian kanan ungkapan ini dengan lebih terperinci. Pengganda dipanggil kebarangkalian terdahulu dan bermaksud kebarangkalian untuk mencari epal yang enak di antara semua epal yang mungkin. Kebarangkalian a priori untuk bertemu dengan epal yang tidak enak ialah . Kebarangkalian ini mungkin mencerminkan pengetahuan peribadi kita tentang cara epal yang baik dan buruk diedarkan secara semula jadi. Sebagai contoh, kita tahu dari pengalaman lepas kita bahawa 80% daripada semua epal adalah lazat. Atau kita boleh menganggarkan nilai ini hanya dengan mengira bahagian epal yang lazat dalam senarai kami dengan data sejarah S. Pengganda seterusnya menunjukkan kemungkinan besar untuk mendapatkan warna dan nilai saiz tertentu untuk epal kelas 1. Ungkapan ini juga dipanggil fungsi kemungkinan dan boleh dalam bentuk beberapa taburan tertentu, sebagai contoh, normal. Kami menggunakan penyebut sebagai pemalar normalisasi supaya kebarangkalian yang diingini berbeza dari 0 hingga 1. Matlamat utama kami bukan untuk mencari kebarangkalian, tetapi untuk mencari peraturan keputusan yang akan memberi kami kelas dengan serta-merta. Bentuk akhir peraturan keputusan bergantung pada nilai dan parameter yang kita ketahui. Sebagai contoh, kita hanya boleh mengetahui nilai kebarangkalian terdahulu, dan nilai selebihnya tidak boleh dianggarkan. Kemudian peraturan penentu adalah seperti berikut - untuk memberikan kepada semua epal nilai kelas yang kebarangkalian a priori adalah paling besar. Itu. jika kita tahu bahawa 80% epal di alam semulajadi adalah lazat, maka kita meletakkan kelas 1 untuk setiap epal. Maka ralat kita akan menjadi 20%. Jika kita juga boleh menganggarkan nilai fungsi kemungkinan $p(X=x_m | Y=1)$, maka kita juga boleh mencari nilai kebarangkalian yang diperlukan menggunakan formula Bayes, seperti yang ditulis di atas. Peraturan keputusan di sini adalah seperti berikut: letakkan label kelas yang kebarangkaliannya adalah maksimum:

Kami akan memanggil peraturan ini pengelas Bayesian. Oleh kerana kita berurusan dengan kebarangkalian, walaupun nilai kebarangkalian yang besar tidak menjamin bahawa epal itu tidak tergolong dalam kelas 0. Mari kita anggarkan kebarangkalian ralat pada epal seperti berikut: jika peraturan keputusan mengembalikan nilai kelas sama dengan 1, maka kebarangkalian ralat adalah dan sebaliknya:

Kami berminat dengan kebarangkalian ralat pengelas bukan sahaja dalam contoh khusus ini, tetapi secara umum untuk semua epal yang mungkin:

Ungkapan ini adalah jangkaan matematik ralat. Jadi, menyelesaikan masalah asal, kami datang ke pengelas Bayesian, tetapi apakah kelemahannya? Masalah utama adalah untuk menganggarkan kebarangkalian bersyarat daripada data. Dalam kes kami, kami mewakili objek sebagai sepasang nombor - warna dan saiz, tetapi dalam tugas yang lebih kompleks, dimensi ciri boleh menjadi berkali ganda lebih tinggi, dan bilangan pemerhatian daripada senarai kami dengan data sejarah mungkin tidak mencukupi untuk menganggarkan kebarangkalian pembolehubah rawak berbilang dimensi. Seterusnya, kami akan cuba menyamaratakan konsep ralat pengelas kami, dan juga melihat sama ada mungkin untuk memilih mana-mana pengelas lain untuk menyelesaikan masalah.

Kerugian akibat ralat pengelas

Katakan kita sudah mempunyai semacam peraturan keputusan. Kemudian ia boleh membuat dua jenis ralat - yang pertama adalah untuk menetapkan objek kepada kelas 0, yang mempunyai kelas sebenar 1, dan sebaliknya, untuk menetapkan objek kepada kelas 1, yang mempunyai kelas sebenar 0. Dalam beberapa masalah, adalah penting untuk membezakan antara kes-kes ini. Sebagai contoh, kita lebih menderita daripada fakta bahawa epal yang dilabel sebagai sedap ternyata tawar dan begitu juga sebaliknya. Kami memformalkan tahap ketidakselesaan kami daripada jangkaan yang tertipu dalam konsep. Secara umumnya, kami mempunyai fungsi kehilangan yang mengembalikan nombor untuk setiap ralat pengelas. Biar menjadi label kelas sebenar. Fungsi kerugian kemudian mengembalikan nilai kerugian untuk label kelas sebenar dan nilai peraturan keputusan kami. Contoh menggunakan fungsi ini adalah untuk mengambil daripada epal dengan kelas yang diketahui, menghantar epal kepada input peraturan keputusan kami, dapatkan anggaran kelas daripada peraturan keputusan, jika nilai dan sepadan, maka kami menganggap bahawa pengelas tidak tersilap dan tidak ada kerugian, jika nilai tidak sepadan, maka jumlah kerugian fungsi kita akan katakan

Risiko bersyarat dan Bayesian

Sekarang bahawa kita mempunyai fungsi kerugian dan mengetahui berapa banyak yang kita hilang daripada salah klasifikasi objek, adalah baik untuk memahami berapa banyak kita kehilangan secara purata, berbanding banyak objek. Jika kita mengetahui nilai - kebarangkalian bahawa epal -th akan menjadi lazat, memandangkan nilai ukuran warna dan saiz, serta nilai sebenar kelas (contohnya, ambil sebiji epal daripada sampel S, lihat pada permulaan artikel), maka kita boleh memperkenalkan konsep risiko bersyarat . Risiko bersyarat ialah nilai purata kerugian di kemudahan untuk peraturan keputusan:

Dalam kes klasifikasi binari kami, apabila ternyata:

Di atas, kami menerangkan peraturan keputusan yang memperuntukkan objek kepada kelas yang mempunyai nilai kebarangkalian tertinggi. Peraturan sedemikian memberikan minimum kepada kerugian purata kami (risiko Bayesian), jadi pengelas Bayesian adalah optimum dari segi fungsi risiko yang kami perkenalkan. . Ini bermakna pengelas Bayesian mempunyai ralat pengelasan terkecil yang mungkin.

Beberapa fungsi kehilangan biasa

Salah satu fungsi kehilangan yang paling biasa ialah fungsi simetri, apabila kerugian daripada jenis ralat pertama dan kedua adalah setara. Sebagai contoh, fungsi kerugian 1-0 (kerugian sifar satu) ditakrifkan seperti berikut:

Kemudian risiko bersyarat untuk a(x) = 1 hanya akan menjadi nilai kebarangkalian untuk mendapatkan kelas 0 pada objek :

Begitu juga untuk a(x) = 0:

Fungsi kerugian 1-0 mengambil nilai 1 jika pengelas membuat ralat pada objek dan 0 jika tidak. Sekarang mari kita buat supaya nilai pada ralat bukan 1, tetapi satu lagi fungsi Q, bergantung pada peraturan keputusan dan label kelas sebenar:

Kemudian risiko bersyarat boleh ditulis seperti berikut:

Nota mengenai notasi

Teks sebelumnya ditulis mengikut notasi yang diterima pakai dalam buku oleh Duda dan Hart. Dalam buku asal oleh V.N. Vapnik menganggap proses sedemikian: alam semula jadi memilih objek mengikut taburan $p(x)$, dan kemudian memberikan label kelas kepadanya mengikut taburan bersyarat $p(y|x)$. Kemudian risiko (jangkaan kerugian) ditakrifkan sebagai

Di manakah fungsi yang kita cuba untuk menganggarkan pergantungan yang tidak diketahui, ialah fungsi kehilangan untuk nilai sebenar dan nilai fungsi kita. Notasi ini lebih bersifat deskriptif untuk memperkenalkan konsep seterusnya - risiko empirikal.

Risiko empirikal

Pada peringkat ini, kami telah mengetahui bahawa kaedah logik tidak sesuai untuk kami, kerana ia tidak cukup fleksibel, dan kami tidak boleh menggunakan pengelas Bayesian apabila terdapat banyak ciri, dan terdapat bilangan data yang terhad untuk latihan, dan kami tidak akan dapat memulihkan kebarangkalian. Kami juga tahu bahawa pengelas Bayesian mempunyai ralat pengelasan terkecil yang mungkin. Oleh kerana kita tidak boleh menggunakan pengelas Bayesian, mari kita ambil sesuatu yang lebih mudah. Mari betulkan beberapa keluarga parametrik fungsi H dan pilih pengelas daripada keluarga ini.

Contoh: biarkan set semua fungsi borang

Semua fungsi set ini akan berbeza antara satu sama lain hanya dengan pekali. Apabila kami memilih keluarga sedemikian, kami mengandaikan bahawa dalam koordinat saiz warna antara titik kelas 1 dan titik kelas 0 adalah mungkin untuk melukis garis lurus dengan pekali sedemikian rupa sehingga titik dengan kelas yang berbeza terletak di sepanjang sisi bertentangan garis lurus. Adalah diketahui bahawa untuk garis lurus jenis ini, vektor pekali adalah normal kepada garis lurus. Sekarang kita lakukan ini - kita ambil epal kita, ukur warna dan saiznya dan plot titik dengan koordinat yang diperolehi pada graf dalam paksi saiz warna. Seterusnya, kita mengukur sudut antara titik ini dan vektor $w$. Kami perhatikan bahawa titik kami boleh terletak sama ada di satu sisi atau di sisi lain garisan. Kemudian sudut antara dan titik akan sama ada akut atau tumpul, dan hasil kali skalar adalah sama ada positif atau negatif. Di sinilah peraturan keputusan masuk:

Selepas kami menetapkan kelas fungsi $H$, persoalan timbul - bagaimana untuk memilih fungsi daripadanya dengan pekali yang diperlukan? Jawapannya ialah - mari pilih fungsi yang memberikan minimum kepada risiko Bayesian kami $R()$. Sekali lagi, masalahnya ialah untuk mengira nilai risiko Bayesian, anda perlu mengetahui pengedaran $p(x,y)$, tetapi ia tidak diberikan kepada kami, dan tidak selalu mungkin untuk memulihkan ia. Idea lain adalah untuk meminimumkan risiko bukan pada semua objek yang mungkin, tetapi hanya pada sampel. Itu. meminimumkan fungsi:

Fungsi ini dipanggil risiko empirikal. Soalan seterusnya ialah mengapa kami memutuskan bahawa dengan meminimumkan risiko empirikal, kami juga meminimumkan risiko Bayesian? Biar saya ingatkan anda bahawa tugas praktikal kami adalah untuk membuat sesedikit mungkin ralat pengelasan. Semakin sedikit ralat, semakin rendah risiko Bayesian. Rasional untuk penumpuan risiko empirikal kepada Bayesian dengan peningkatan jumlah data diperoleh pada tahun 70-an oleh dua saintis - V. N. Vapnik dan A. Ya. Chervonenkis.

Jaminan Konvergensi. Kes paling mudah

Jadi, kami telah membuat kesimpulan bahawa pengelas Bayesian memberikan ralat terkecil yang mungkin, tetapi dalam kebanyakan kes kami tidak boleh melatihnya, dan kami tidak boleh mengira ralat (risiko) sama ada. Walau bagaimanapun, kita boleh mengira anggaran risiko Bayesian, yang dipanggil risiko empirikal, dan mengetahui risiko empirikal, pilih fungsi anggaran yang akan meminimumkan risiko empirikal. Mari kita pertimbangkan situasi paling mudah di mana pengurangan risiko empirikal menghasilkan pengelas yang juga meminimumkan risiko Bayesian. Untuk kes yang paling mudah, kita perlu membuat andaian yang jarang dipenuhi dalam amalan, tetapi yang boleh dilemahkan kemudian. Kami menetapkan kelas fungsi terhingga yang mana kami akan memilih pengelas kami dan menganggap bahawa fungsi sebenar yang digunakan oleh alam semula jadi untuk menandakan epal kami untuk rasa adalah dalam set hipotesis terhingga ini: . Kami juga mempunyai sampel yang diperoleh daripada pengedaran ke atas objek. Semua objek sampel dianggap taburan bebas yang sama (iid). Maka yang berikut akan menjadi benar

Teorem

Dengan memilih fungsi daripada kelas menggunakan pengecilan risiko empirikal, kami dijamin untuk mendapati ia mempunyai nilai risiko Bayesian yang kecil jika sampel yang kami minimumkan mempunyai saiz yang mencukupi.

Untuk maksud "nilai kecil" dan "saiz yang mencukupi", lihat literatur di bawah.

Idea bukti

Dengan keadaan teorem, kita memperoleh sampel daripada taburan, i.e. proses memilih objek daripada alam adalah secara rawak. Setiap kali kami mengumpul sampel, ia akan daripada pengedaran yang sama, tetapi objek itu sendiri di dalamnya mungkin berbeza. Idea utama buktinya ialah kita boleh mendapatkan sampel yang malang sehingga algoritma yang kita pilih dengan meminimumkan risiko empirikal pada sampel tertentu akan menjadi buruk dalam meminimumkan risiko Bayesian, tetapi pada masa yang sama ia akan menjadi baik. untuk meminimumkan risiko empirikal, tetapi kebarangkalian untuk mendapatkan sampel sedemikian adalah kecil dan meningkatkan saiz sampel, kebarangkalian ini berkurangan. Teorem serupa wujud untuk andaian yang lebih realistik, tetapi kami tidak akan mempertimbangkannya di sini.

Hasil praktikal

Mempunyai bukti bahawa fungsi yang ditemui dengan meminimumkan risiko empirikal tidak akan mempunyai ralat besar pada data yang tidak diperhatikan sebelum ini dengan saiz sampel latihan yang mencukupi, kami boleh menggunakan prinsip ini dalam amalan, sebagai contoh, seperti berikut - kami mengambil ungkapan:

Dan kami menggantikan fungsi kerugian yang berbeza, bergantung pada masalah yang diselesaikan. Untuk regresi linear:

Untuk regresi logistik:

Walaupun mesin vektor sokongan terutamanya didorong oleh geometri, ia juga boleh dianggap sebagai masalah pengurangan risiko empirikal.

Kesimpulan

Banyak kaedah pengajaran yang diselia boleh dipertimbangkan, antara lain, sebagai kes-kes khas teori yang dibangunkan oleh V. N. Vapnik dan A. Ya. Chervonenkis. Teori ini memberikan jaminan mengenai ralat pada set ujian, memandangkan saiz set latihan yang mencukupi dan beberapa keperluan untuk ruang hipotesis di mana kami sedang mencari algoritma kami.

Buku Terpakai

  • Sifat Teori Pembelajaran Statistik, Vladimir N. Vapnik
  • Klasifikasi Corak, Edisi Ke-2, Richard O. Duda, Peter E. Hart, David G. Stork
  • Memahami Pembelajaran Mesin: Dari Teori kepada Algoritma, Shai Shalev-Shwartz, Shai Ben-David
P.S. Sila tulis secara peribadi tentang semua ketidaktepatan dan kesilapan menaip

Tag: Tambah tag

Sistem hidup, termasuk manusia, sentiasa berhadapan dengan tugas pengecaman corak sejak penubuhannya. Khususnya, maklumat yang datang dari organ deria diproses oleh otak, yang seterusnya menyusun maklumat, memastikan membuat keputusan, dan kemudian, menggunakan impuls elektrokimia, menghantar isyarat yang diperlukan lebih jauh, contohnya, ke organ pergerakan, yang melaksanakan tindakan yang perlu. Kemudian berlaku perubahan dalam persekitaran, dan fenomena di atas berlaku lagi. Dan jika anda melihat, maka setiap peringkat disertai dengan pengiktirafan.

Dengan perkembangan teknologi komputer, menjadi mungkin untuk menyelesaikan beberapa masalah yang timbul dalam proses kehidupan, untuk memudahkan, mempercepat, meningkatkan kualiti hasilnya. Sebagai contoh, pengendalian pelbagai sistem sokongan hayat, interaksi manusia-komputer, kemunculan sistem robotik, dll. Walau bagaimanapun, kami perhatikan bahawa pada masa ini tidak mungkin untuk memberikan hasil yang memuaskan dalam beberapa tugas (pengiktirafan objek serupa yang bergerak pantas , teks tulisan tangan).

Tujuan kerja: untuk mengkaji sejarah sistem pengecaman corak.

Menunjukkan perubahan kualitatif yang telah berlaku dalam bidang pengecaman pola, sama ada secara teori dan teknikal, menunjukkan sebab;

Bincangkan kaedah dan prinsip yang digunakan dalam pengkomputeran;

Berikan contoh prospek yang dijangkakan dalam masa terdekat.

1. Apakah pengecaman corak?

Penyelidikan pertama dengan teknologi komputer pada asasnya mengikuti skema klasik pemodelan matematik - model matematik, algoritma dan pengiraan. Ini adalah tugas memodelkan proses yang berlaku semasa letupan bom atom, mengira trajektori balistik, ekonomi dan aplikasi lain. Walau bagaimanapun, sebagai tambahan kepada idea klasik siri ini, terdapat juga kaedah berdasarkan sifat yang sama sekali berbeza, dan seperti yang ditunjukkan oleh amalan menyelesaikan beberapa masalah, mereka sering memberikan hasil yang lebih baik daripada penyelesaian berdasarkan model matematik yang terlalu rumit. Idea mereka adalah untuk meninggalkan keinginan untuk mencipta model matematik yang lengkap bagi objek yang dikaji (selain itu, selalunya mustahil untuk membina model yang mencukupi), dan sebaliknya berpuas hati dengan jawapan hanya kepada soalan khusus yang menarik minat kita, dan jawapan ini harus dicari daripada pertimbangan biasa kepada kelas masalah yang luas. Penyelidikan jenis ini termasuk pengiktirafan imej visual, hasil ramalan, paras sungai, masalah membezakan antara galas minyak dan akuifer menggunakan data geofizik tidak langsung, dsb. Jawapan khusus dalam tugasan ini diperlukan dalam bentuk yang agak mudah, seperti, contohnya, sama ada objek tergolong dalam salah satu kelas pratetap. Dan data awal tugas-tugas ini, sebagai peraturan, diberikan dalam bentuk maklumat serpihan tentang objek yang dikaji, contohnya, dalam bentuk satu set objek yang telah dikelaskan. Dari sudut pandangan matematik, ini bermakna pengecaman corak (dan kelas masalah ini dinamakan di negara kita) adalah generalisasi yang meluas tentang idea ekstrapolasi fungsi.

Kepentingan formulasi sedemikian untuk sains teknikal adalah tidak diragui, dan ini dengan sendirinya membenarkan banyak kajian dalam bidang ini. Walau bagaimanapun, masalah pengecaman corak juga mempunyai aspek yang lebih luas untuk sains semula jadi (namun, ia akan menjadi pelik jika sesuatu yang begitu penting untuk sistem sibernetik buatan tidak penting untuk yang semula jadi). Konteks sains ini secara organik termasuk soalan yang dikemukakan oleh ahli falsafah kuno tentang sifat pengetahuan kita, keupayaan kita untuk mengenali imej, corak, situasi dunia sekeliling. Sebenarnya, hampir tidak ada keraguan bahawa mekanisme untuk mengenali imej paling mudah, seperti imej pemangsa berbahaya atau makanan yang menghampiri, telah terbentuk lebih awal daripada bahasa asas dan peralatan logik formal timbul. Dan tidak ada keraguan bahawa mekanisme sedemikian juga cukup dikembangkan pada haiwan yang lebih tinggi, yang, dalam aktiviti penting mereka, juga memerlukan keupayaan untuk membezakan sistem tanda alam yang agak kompleks. Oleh itu, secara semula jadi, kita melihat bahawa fenomena pemikiran dan kesedaran jelas berdasarkan keupayaan untuk mengenali corak, dan kemajuan selanjutnya sains kecerdasan secara langsung berkaitan dengan kedalaman pemahaman undang-undang asas pengiktirafan. Memahami hakikat bahawa soalan di atas jauh melangkaui takrif standard pengecaman corak (istilah pembelajaran diselia lebih biasa dalam kesusasteraan bahasa Inggeris), ia juga perlu untuk memahami bahawa mereka mempunyai hubungan yang mendalam dengan ini yang agak sempit (tetapi masih jauh dari habis) arah.

Malah sekarang, pengecaman corak telah memasuki kehidupan seharian dan merupakan salah satu pengetahuan yang paling penting bagi seorang jurutera moden. Dalam bidang perubatan, pengecaman corak membantu doktor membuat diagnosis yang lebih tepat; di kilang, ia digunakan untuk meramalkan kecacatan dalam kelompok barangan. Sistem pengenalan peribadi biometrik sebagai teras algoritma mereka juga berdasarkan keputusan disiplin ini. Perkembangan selanjutnya kecerdasan buatan, khususnya reka bentuk komputer generasi kelima yang mampu berkomunikasi secara lebih langsung dengan seseorang dalam bahasa semula jadi untuk orang ramai dan melalui pertuturan, tidak dapat difikirkan tanpa pengiktirafan. Di sini, robotik, sistem kawalan buatan yang mengandungi sistem pengecaman sebagai subsistem penting, mudah dicapai.

Itulah sebabnya banyak perhatian diberikan kepada pembangunan pengecaman corak sejak awal lagi oleh pakar pelbagai profil - sibernetik, ahli neurofisiologi, ahli psikologi, ahli matematik, ahli ekonomi, dll. Sebahagian besarnya atas sebab ini, pengecaman corak moden itu sendiri memakan idea-idea disiplin ini. Tanpa mendakwa lengkap (dan mustahil untuk menuntutnya dalam esei pendek), kami akan menerangkan sejarah pengecaman corak, idea utama.

Definisi

Sebelum meneruskan ke kaedah utama pengecaman corak, kami memberikan beberapa definisi yang diperlukan.

Pengecaman imej (objek, isyarat, situasi, fenomena atau proses) ialah tugas mengenal pasti objek atau menentukan mana-mana sifatnya melalui imejnya (pengiktirafan optik) atau rakaman audio (pengiktirafan akustik) dan ciri-ciri lain.

Salah satu yang asas ialah konsep set yang tidak mempunyai rumusan khusus. Dalam komputer, satu set diwakili oleh satu set elemen tidak berulang daripada jenis yang sama. Perkataan "tidak berulang" bermaksud bahawa beberapa elemen dalam set sama ada ada atau tidak ada. Set universal merangkumi semua elemen yang mungkin untuk masalah yang diselesaikan, set kosong tidak mengandungi apa-apa.

Imej ialah kumpulan pengelasan dalam sistem pengelasan yang menyatukan (single out) kumpulan objek tertentu mengikut beberapa atribut. Imej mempunyai sifat ciri, yang menunjukkan dirinya dalam fakta bahawa kenalan dengan bilangan fenomena terhingga dari set yang sama memungkinkan untuk mengenali sejumlah besar wakilnya secara sewenang-wenangnya. Imej mempunyai ciri objektif ciri dalam erti kata bahawa orang yang berbeza yang belajar daripada bahan pemerhatian yang berbeza, untuk sebahagian besar, mengklasifikasikan objek yang sama dengan cara yang sama dan secara bebas antara satu sama lain. Dalam rumusan klasik masalah pengecaman, set universal dibahagikan kepada bahagian-imej. Setiap pemetaan mana-mana objek kepada organ-organ persepsi sistem pengecam, tanpa mengira kedudukannya berbanding dengan organ-organ ini, biasanya dipanggil imej objek, dan set imej sedemikian, disatukan oleh beberapa sifat biasa, adalah imej.

Kaedah memberikan elemen kepada mana-mana imej dipanggil peraturan keputusan. Satu lagi konsep penting ialah metrik, satu cara untuk menentukan jarak antara elemen set universal. Semakin kecil jarak ini, semakin serupa objek (simbol, bunyi, dll.) yang kita kenali. Biasanya, elemen ditentukan sebagai satu set nombor, dan metrik ditentukan sebagai fungsi. Kecekapan program bergantung pada pilihan perwakilan imej dan pelaksanaan metrik, satu algoritma pengecaman dengan metrik yang berbeza akan membuat kesilapan dengan frekuensi yang berbeza.

Pembelajaran biasanya dipanggil proses membangunkan dalam beberapa sistem tindak balas tertentu kepada kumpulan isyarat luaran yang serupa dengan berulang kali mempengaruhi sistem pembetulan luaran. Pelarasan luaran sedemikian dalam latihan biasanya dipanggil "dorongan" dan "hukuman". Mekanisme untuk menghasilkan pelarasan ini hampir sepenuhnya menentukan algoritma pembelajaran. Pembelajaran kendiri berbeza daripada pembelajaran kerana di sini maklumat tambahan tentang ketepatan tindak balas kepada sistem tidak dilaporkan.

Penyesuaian ialah proses menukar parameter dan struktur sistem, dan mungkin juga mengawal tindakan, berdasarkan maklumat semasa untuk mencapai keadaan tertentu sistem dengan ketidakpastian awal dan keadaan operasi yang berubah.

Pembelajaran adalah satu proses, akibatnya sistem secara beransur-ansur memperoleh keupayaan untuk bertindak balas dengan tindak balas yang diperlukan kepada set pengaruh luar tertentu, dan penyesuaian adalah pelarasan parameter dan struktur sistem untuk mencapai kualiti yang diperlukan. kawalan dalam keadaan perubahan berterusan dalam keadaan luaran.

Contoh tugas pengecaman corak: - Pengecaman huruf;