Biografije Karakteristike Analiza

Algoritmi za grupiranje podataka. Algoritmi temeljeni na teoriji grafova

Klaster analiza je

Dobar dan. Ovdje poštujem ljude koji su ljubitelji svog rada.

Maxim, moj prijatelj, pripada ovoj kategoriji. Konstantno radi s brojkama, analizira ih, pravi relevantna izvješća.

Jučer smo zajedno ručali, pa mi je skoro pola sata pričao o klaster analizi – što je to i u kojim slučajevima je razumna i svrsishodna njezina primjena. Pa, što je sa mnom?

Imam dobro pamćenje, pa ću vam, inače, dostaviti sve ove podatke za koje sam već znao u izvornom i najinformativnijem obliku.

Klaster analiza osmišljena je za podjelu skupa objekata u homogene skupine (klastere ili klase). Ovo je zadatak multivarijantne klasifikacije podataka.

Postoji oko 100 različitih algoritama klasteriranja, međutim, najčešće se koriste hijerarhijska analiza klastera i k-means klasteriranje.

Gdje se koristi klaster analiza? U marketingu je to segmentacija konkurenata i potrošača.

U menadžmentu: podjela osoblja u skupine različitih razina motivacije, klasifikacija dobavljača, identifikacija sličnih proizvodnih situacija u kojima dolazi do braka.

U medicini, klasifikacija simptoma, bolesnika, lijekova. U sociologiji je podjela ispitanika na homogene skupine. Zapravo, klaster analiza se dokazala u svim sferama ljudskog života.

Ljepota ove metode je u tome što djeluje čak i kada ima malo podataka i kada nisu ispunjeni zahtjevi za normalnost distribucija slučajnih varijabli i drugi zahtjevi klasičnih metoda statističke analize.

Objasnimo bit klaster analize bez pribjegavanja strogoj terminologiji:
Recimo da ste proveli anketu među zaposlenicima i želite utvrditi kako možete najučinkovitije upravljati svojim osobljem.

Odnosno, želite podijeliti zaposlenike u grupe i odabrati najučinkovitije upravljačke poluge za svaku od njih. Pritom bi razlike među skupinama trebale biti očite, a unutar grupe ispitanici bi trebali biti što sličniji.

Za rješavanje problema predlaže se korištenje hijerarhijske analize klastera.

Kao rezultat, dobit ćemo stablo, gledajući u koje moramo odlučiti na koliko klasa (klastera) želimo podijeliti osoblje.

Pretpostavimo da odlučimo podijeliti osoblje u tri grupe, a zatim da proučimo ispitanike koji su upali u svaki klaster, dobijemo tablet sljedećeg sadržaja:


Objasnimo kako se formira gornja tablica. Prvi stupac sadrži broj klastera — grupe čiji se podaci odražavaju u retku.

Na primjer, prva skupina je 80% muškaraca. 90% prvog klastera spada u dobnu skupinu od 30 do 50 godina, a 12% ispitanika smatra da su beneficije vrlo važne. I tako dalje.

Pokušajmo napraviti portrete ispitanika svakog klastera:

  1. Prva skupina su uglavnom muškarci zrele dobi, koji zauzimaju vodeće pozicije. Socijalni paket (MED, LGOTI, VRIJEME-slobodno vrijeme) ih ne zanima. Radije primaju dobru plaću, nego pomoć od poslodavca.
  2. Grupa dva, naprotiv, preferira socijalni paket. Uglavnom se sastoji od "starih" ljudi koji zauzimaju niske položaje. Plaća im je svakako bitna, ali tu su i drugi prioriteti.
  3. Treća skupina je „najmlađa“. Za razliku od prethodna dva, očito je zanimanje za učenje i mogućnosti profesionalnog razvoja. Ova kategorija zaposlenika ima dobre šanse uskoro popuniti prvu skupinu.

Dakle, pri planiranju kampanje za uvođenje učinkovitih metoda upravljanja osobljem, očito je da je u našoj situaciji moguće povećati socijalni paket za drugu skupinu na štetu, primjerice, plaća.

Ako govorimo o tome koje stručnjake treba poslati na obuku, onda svakako možemo preporučiti da obratite pozornost na treću skupinu.

Izvor: http://www.nickart.spb.ru/analysis/cluster.php

Značajke klaster analize

Klaster je cijena imovine u određenom vremenskom razdoblju tijekom kojeg su izvršene transakcije. Rezultirajući volumen kupnje i prodaje označen je brojem unutar klastera.

Traka bilo kojeg TF-a u pravilu sadrži nekoliko klastera. To vam omogućuje da detaljno vidite količine kupnje, prodaje i njihov saldo u svakoj pojedinoj traci, za svaku razinu cijene.


Promjena cijene jedne imovine neminovno povlači lanac kretanja cijena i na drugim instrumentima.

Pažnja!

U većini slučajeva, razumijevanje kretanja trenda događa se već u trenutku kada se brzo razvija, a ulazak na tržište uz trend prepun je pada u korektivni val.

Za uspješnu trgovinu potrebno je razumjeti trenutnu situaciju i biti u stanju predvidjeti buduća kretanja cijena. To se može naučiti analizom grafa klastera.

Uz pomoć klaster analize možete vidjeti aktivnost sudionika na tržištu i unutar najmanje cjenovne trake. Ovo je najtočnija i detaljnija analiza, jer pokazuje točku distribucije volumena transakcija za svaku razinu cijene imovine.

Na tržištu postoji stalna konfrontacija između interesa prodavača i kupaca. A svako najmanje kretanje cijene (kvačica) je pomak na kompromis – razinu cijene – koji u ovom trenutku odgovara objema stranama.

Ali tržište je dinamično, broj prodavača i kupaca se stalno mijenja. Ako su u jednom trenutku tržištem dominirali prodavači, onda će u sljedećem trenutku, najvjerojatnije, biti kupaca.

Broj izvršenih transakcija na susjednim razinama cijena također nije isti. Pa ipak, prvo se tržišna situacija odražava na ukupni volumen transakcija, a tek onda na cijenu.

Ako vidite radnje dominantnih sudionika na tržištu (prodavača ili kupaca), tada možete predvidjeti samo kretanje cijene.

Da biste uspješno primijenili analizu klastera, prvo morate razumjeti što su klaster i delta.


Klaster se naziva kretanje cijena, koje je podijeljeno na razine na kojima su transakcije izvršene s poznatim količinama. Delta pokazuje razliku između kupnje i prodaje koja se događa u svakom klasteru.

Svaki klaster, ili grupa delta, omogućuje vam da shvatite da li kupci ili prodavači dominiraju tržištem u određenom trenutku.

Dovoljno je samo izračunati ukupnu deltu zbrajanjem prodaje i kupnje. Ako je delta negativna, onda je tržište preprodano, postoje suvišne transakcije prodaje. Kada je delta pozitivna, tržištem očito dominiraju kupci.

Sama delta može poprimiti normalnu ili kritičnu vrijednost. Vrijednost delta volumena iznad normalne vrijednosti u klasteru označena je crvenom bojom.

Ako je delta umjerena, onda to karakterizira ravno stanje na tržištu. Kod normalne delta vrijednosti, na tržištu se opaža kretanje trenda, ali kritična vrijednost je uvijek predznak preokreta cijene.

Forex trgovanje s CA

Da biste dobili maksimalnu dobit, morate biti u mogućnosti odrediti prijelaz delte s umjerene razine na normalnu. Doista, u ovom slučaju možete primijetiti sam početak prijelaza s ravnog na trend kretanja i moći ćete dobiti najveću dobit.

Grafikon klastera je vizualniji, na njemu možete vidjeti značajne razine akumulacije i distribucije volumena, razine podrške i otpora izgradnje. To omogućuje trgovcu da pronađe točan ulaz u trgovinu.

Koristeći deltu, može se suditi o prevlasti prodaje ili kupnje na tržištu. Analiza klastera omogućuje vam da promatrate transakcije i pratite njihov volumen unutar trake bilo kojeg TF-a.

To je posebno važno kada se približavate značajnim razinama podrške ili otpora. Klasterske prosudbe ključ su za razumijevanje tržišta.

Izvor: http://orderflowtrading.ru/analitika-rynka/obemy/klasternyy-analiz/

Područja i značajke primjene klaster analize

Pojam klaster analize (prvi je uveo Tryon, 1939.) zapravo uključuje skup različitih klasifikacijskih algoritama.

Uobičajeno pitanje koje postavljaju istraživači u mnogim područjima je kako organizirati promatrane podatke u vizualne strukture, t.j. proširiti taksonomije.

Prema suvremenom sustavu prihvaćenom u biologiji, čovjek pripada primatima, sisavcima, amniotima, kralježnjacima i životinjama.

Imajte na umu da u ovoj klasifikaciji, što je viša razina agregacije, to je manje sličnosti između članova odgovarajuće klase.

Čovjek ima više sličnosti s drugim primatima (tj. majmunima) nego s "udaljenim" članovima obitelji sisavaca (tj. psima) i tako dalje.

Imajte na umu da se prethodna rasprava odnosi na algoritme grupiranja, ali ne spominje ništa o testiranju statističke značajnosti.

Zapravo, analiza klastera nije toliko obična statistička metoda koliko "skup" različitih algoritama za "distribuciju objekata u klastere".

Postoji stajalište da se, za razliku od mnogih drugih statističkih postupaka, metode klaster analize koriste u većini slučajeva kada nemate nikakve apriorne hipoteze o klasama, ali ste još u deskriptivnoj fazi istraživanja.

Pažnja!

Treba razumjeti da klaster analiza određuje "najvažniju odluku".

Stoga testiranje statističke značajnosti ovdje nije stvarno primjenjivo, čak ni u slučajevima kada su p-razine poznate (kao, na primjer, u metodi K-srednjih vrijednosti).

Tehnika grupiranja koristi se u raznim područjima. Hartigan (1975) dao je izvrstan pregled mnogih objavljenih studija koje sadrže rezultate dobivene metodama klaster analize.

Na primjer, u području medicine, grupiranje bolesti, liječenje bolesti ili simptoma bolesti dovodi do široko korištenih taksonomija.

U području psihijatrije, ispravna dijagnoza klastera simptoma kao što su paranoja, shizofrenija itd. ključna je za uspješnu terapiju. U arheologiji, koristeći klaster analizu, istraživači pokušavaju uspostaviti taksonomije kamenog oruđa, pogrebnih predmeta itd.

Postoji široka primjena klaster analize u marketinškim istraživanjima. Općenito, kad god je potrebno "brdo" informacija razvrstati u skupine pogodne za daljnju obradu, klaster analiza se pokazuje vrlo korisnom i učinkovitom.

Grupiranje stabala

Primjer u odjeljku Primarna svrha objašnjava svrhu algoritma spajanja (klastera stabla).

Svrha ovog algoritma je kombinirati objekte (na primjer, životinje) u dovoljno velike skupine koristeći neku mjeru sličnosti ili udaljenosti između objekata. Tipičan rezultat takvog grupiranja je hijerarhijsko stablo.

Razmotrite horizontalni dijagram stabla. Dijagram počinje sa svakim objektom u klasi (na lijevoj strani dijagrama).

Sada zamislite da postupno (u vrlo malim koracima) "slabite" svoj kriterij za to koji su objekti jedinstveni, a koji nisu.

Drugim riječima, snižavate prag povezan s odlukom da se dva ili više objekata kombiniraju u jedan klaster.

Kao rezultat, povezujete sve više i više objekata zajedno i agregirate (kombinirate) sve više i više skupina sve različitih elemenata.

Konačno, u posljednjem koraku, svi objekti se spajaju. U ovim grafikonima, vodoravne osi predstavljaju udaljenost spajanja (u vertikalnim dendrogramima, okomite osi predstavljaju udaljenost spajanja).

Dakle, za svaki čvor u grafu (gdje se formira novi klaster), možete vidjeti količinu udaljenosti za koju su odgovarajući elementi povezani u novi pojedinačni klaster.

Kada podaci imaju jasnu "strukturu" u smislu klastera objekata koji su međusobno slični, tada će se ta struktura vjerojatno odražavati u hijerarhijskom stablu kroz različite grane.

Kao rezultat uspješne analize metodom spajanja, postaje moguće detektirati klastere (grane) i interpretirati ih.

Unija ili metoda grupiranja stabala koristi se u formiranju klastera različitosti ili udaljenosti između objekata. Te se udaljenosti mogu definirati u jednodimenzionalnom ili višedimenzionalnom prostoru.

Na primjer, ako morate grupirati vrste hrane u kafiću, možete uzeti u obzir broj kalorija sadržanih u njemu, cijenu, subjektivnu procjenu okusa itd.

Najizravniji način izračunavanja udaljenosti između objekata u višedimenzionalnom prostoru je izračunavanje euklidskih udaljenosti.

Ako imate 2D ili 3D prostor, tada je ova mjera stvarna geometrijska udaljenost između objekata u prostoru (kao da su udaljenosti između objekata mjerene mjernom trakom).

Međutim, algoritam za udruživanje ne "briga" o tome jesu li udaljenosti "predviđene" za to stvarne ili neke druge izvedene mjere udaljenosti, što je istraživaču značajnije; a izazov za istraživače je odabrati pravu metodu za specifične primjene.

Euklidska udaljenost.Čini se da je ovo najčešća vrsta udaljenosti. To je jednostavno geometrijska udaljenost u višedimenzionalnom prostoru i izračunava se na sljedeći način:

Imajte na umu da se Euklidska udaljenost (i njezin kvadrat) izračunava iz izvornih podataka, a ne iz standardiziranih podataka.

Ovo je uobičajen način izračunavanja, koji ima određene prednosti (npr. udaljenost između dva objekta se ne mijenja kada se u analizu uvede novi objekt, koji se može pokazati kao izvanredan).

Pažnja!

Međutim, na udaljenosti mogu uvelike utjecati razlike između osi iz kojih se izračunavaju udaljenosti. Na primjer, ako se jedna od osi mjeri u centimetrima, a zatim je pretvorite u milimetre (množenjem vrijednosti s 10), tada će konačna euklidska udaljenost (ili kvadrat euklidske udaljenosti) izračunata iz koordinata dramatično se mijenjaju i, kao rezultat, rezultati klaster analize mogu biti vrlo različiti od prethodnih.

Kvadrat euklidske udaljenosti. Ponekad ćete možda htjeti kvadrature standardne euklidske udaljenosti da biste dali veću težinu udaljenijim objektima.

Ova se udaljenost izračunava na sljedeći način:

Udaljenost gradskog bloka (udaljenost Manhattana). Ova udaljenost je jednostavno prosjek razlika u koordinatama.

U većini slučajeva ova mjera udaljenosti dovodi do istih rezultata kao i za uobičajenu Euklidovu udaljenost.

Međutim, imajte na umu da se za ovu mjeru smanjuje utjecaj pojedinačnih velikih razlika (outliers) (jer nisu na kvadrat). Udaljenost Manhattana izračunava se pomoću formule:

Čebiševljeva udaljenost. Ova udaljenost može biti korisna kada se dva objekta žele definirati kao "različita" ako se razlikuju u bilo kojoj koordinati (bilo kojoj jednoj dimenziji). Čebiševljeva udaljenost izračunava se po formuli:

Udaljenost snage. Ponekad se želi progresivno povećavati ili smanjivati ​​težinu povezanu s dimenzijom za koju su odgovarajući objekti vrlo različiti.

To se može postići korištenjem udaljenosti po stepenu. Udaljenost snage izračunava se po formuli:

gdje su r i p korisnički definirani parametri. Nekoliko primjera izračuna može pokazati kako ova mjera "radi".

Parametar p odgovoran je za postupno ponderiranje razlika u pojedinačnim koordinatama, parametar r odgovoran je za progresivno ponderiranje velikih udaljenosti između objekata. Ako su oba parametra - r i p, jednaka dva, tada se ta udaljenost podudara s euklidskom udaljenosti.

Postotak neslaganja. Ova mjera se koristi kada su podaci kategorični. Ova se udaljenost izračunava po formuli:

Pravila udruge ili udruge

U prvom koraku, kada je svaki objekt zaseban klaster, udaljenosti između tih objekata određuju se odabranom mjerom.

Međutim, kada je više objekata međusobno povezano, postavlja se pitanje kako odrediti udaljenosti između nakupina?

Drugim riječima, potrebno vam je pravilo spajanja ili povezivanja za dva klastera. Ovdje postoje različite mogućnosti: na primjer, možete povezati dva klastera zajedno kada su bilo koja dva objekta u dva klastera bliža jedan drugom od odgovarajuće udaljenosti veze.

Drugim riječima, koristite "pravilo najbližeg susjeda" za određivanje udaljenosti između klastera; ova metoda se naziva metoda jedne veze.

Ovo pravilo gradi "vlaknaste" klastere, t.j. klasteri "povezani zajedno" samo pojedinačnim elementima koji su međusobno bliži od ostalih.

Alternativno, možete koristiti susjede u klasterima koji su najudaljeniji jedan od drugog od svih ostalih parova značajki. Ova metoda se naziva metoda pune veze.

Postoje i mnoge druge metode za spajanje klastera, slične onima o kojima smo raspravljali.

Jedna veza (metoda najbližeg susjeda). Kao što je gore opisano, u ovoj metodi, udaljenost između dva klastera određena je udaljenosti između dva najbliža objekta (najbližih susjeda) u različitim skupinama.

Ovo pravilo mora, u određenom smislu, nizati objekte zajedno kako bi se formirale klastere, a rezultirajući klasteri imaju tendenciju da budu predstavljeni dugim "nizovima".

Potpuna veza (metoda najudaljenijih susjeda). U ovoj metodi udaljenosti između klastera definiraju se kao najveća udaljenost između bilo koja dva objekta u različitim klasterima (tj. "najudaljeniji susjedi").

Neponderirana srednja vrijednost u paru. U ovoj metodi, udaljenost između dva različita klastera izračunava se kao prosječna udaljenost između svih parova objekata u njima.

Metoda je učinkovita kada objekti zapravo tvore različite "šume", ali jednako dobro radi u slučajevima proširenih ("lanac" tipa) klastera.

Imajte na umu da u svojoj knjizi Sneath i Sokal (1973.) uvode kraticu UPGMA kako bi ovu metodu označili kao metodu neponderirane grupe u paru koja koristi aritmetičke prosjeke.

Ponderirana srednja vrijednost u paru. Metoda je identična metodi neponderiranog prosjeka u paru, osim što se veličina odgovarajućih klastera (tj. broj objekata koje sadrže) koristi kao težinski faktor u izračunima.

Stoga predloženu metodu treba koristiti (a ne prethodnu) kada se pretpostavljaju nejednake veličine klastera.

Sneath i Sokal (1973) uvode kraticu WPGMA kako bi ovu metodu označili kao metodu ponderirane grupe u paru koja koristi aritmetičke prosjeke.

Neponderirana metoda centroida. U ovoj metodi, udaljenost između dva klastera definirana je kao udaljenost između njihovih centara gravitacije.

Pažnja!

Sneath i Sokal (1973) koriste akronim UPGMC kako bi ovu metodu označili kao metodu neponderirane grupe u paru koja koristi prosjek središta.

Metoda ponderiranog centroida (medijan). Ova metoda je identična prethodnoj, osim što se u izračunima koriste ponderi kako bi se uzela u obzir razlika između veličina klastera (tj. broj objekata u njima).

Stoga, ako postoje (ili se sumnja) značajne razlike u veličinama klastera, ova metoda je poželjnija od prethodne.

Sneath i Sokal (1973) koristili su kraticu WPGMC kako bi je nazvali metodom ponderirane grupe u paru koristeći prosjek centroida.

Ward metoda. Ova metoda se razlikuje od svih ostalih metoda jer koristi ANOVA metode za procjenu udaljenosti između klastera.

Metoda minimizira zbroj kvadrata (SS) za bilo koja dva (hipotetička) klastera koja se mogu formirati u svakom koraku.

Pojedinosti se mogu naći u Ward (1963). Općenito se čini da je metoda vrlo učinkovita, ali ima tendenciju stvaranja malih skupina.

Ranije se o ovoj metodi raspravljalo u smislu "objekata" koji bi trebali biti grupirani. U svim drugim vrstama analiza, pitanje koje zanima istraživača obično se izražava u vidu opažanja ili varijabli.

Pokazalo se da grupiranje, kako promatranjem tako i varijablama, može dovesti do vrlo zanimljivih rezultata.

Na primjer, zamislite da medicinski istraživač prikuplja podatke o različitim karakteristikama (varijable) stanja (promatranja) pacijenata sa srčanim bolestima.

Istražitelj može htjeti grupirati opažanja (pacijenata) kako bi identificirao skupine pacijenata sa sličnim simptomima.

Istodobno, istraživač može htjeti grupirati varijable kako bi identificirao skupine varijabli koje su povezane sa sličnim fizičkim stanjem.e

Nakon ove rasprave o tome treba li grupirati opažanja ili varijable, moglo bi se zapitati, zašto ne grupirati u oba smjera?

Modul Cluster Analysis sadrži učinkovitu dvosmjernu proceduru spajanja za to.

Međutim, dvosmjerno združivanje koristi se (relativno rijetko) u okolnostima u kojima se očekuje da i opažanja i varijable istovremeno pridonose otkrivanju smislenih klastera.

Dakle, vraćajući se na prethodni primjer, možemo pretpostaviti da medicinski istraživač treba identificirati klastere pacijenata koji su slični u odnosu na određene skupine karakteristika fizičkog stanja.

Poteškoće u tumačenju dobivenih rezultata proizlaze iz činjenice da sličnosti između različitih klastera mogu proizaći iz (ili biti uzrok) neke razlike u podskupovima varijabli.

Stoga su rezultirajući klasteri inherentno heterogeni. Možda se u početku čini pomalo maglovitim; doista, u usporedbi s drugim opisanim metodama klaster analize, dvosmjerno združivanje je vjerojatno najmanje korištena metoda.

Međutim, neki istraživači vjeruju da nudi moćan alat za istraživačku analizu podataka (za više informacija pogledajte Hartiganov opis ove metode (Hartigan, 1975.)).

K znači metoda

Ova metoda grupiranja značajno se razlikuje od aglomerativnih metoda kao što su Unija (klasterizacija stabala) i Dvosmjerna unija. Pretpostavimo da već imate hipoteze o broju klastera (prema promatranju ili prema varijabli).

Možete reći sustavu da formira točno tri klastera kako bi bili što je moguće drugačiji.

Upravo je to tip problema koji rješava K-Means algoritam. Općenito, K-means metoda gradi točno K različitih klastera razmaknutih što je više moguće.

U primjeru fizičkog stanja, medicinski istraživač može imati "slučaj" iz svog kliničkog iskustva da njegovi pacijenti općenito spadaju u tri različite kategorije.

Pažnja!

Ako je tako, onda bi sredstva različitih mjera fizičkih parametara za svaki klaster pružila kvantitativni način predstavljanja hipoteza istraživača (npr. pacijenti u klasteru 1 imaju visoki parametar 1, niži parametar 2, itd.).

S računske točke gledišta, ovu metodu možete zamisliti kao analizu varijance "obrnuto". Program počinje s K nasumično odabranih klastera, a zatim im mijenja pripadnost objekata kako bi:

  1. minimizirati varijabilnost unutar klastera,
  2. maksimizirati varijabilnost između klastera.

Ova je metoda slična obrnutoj analizi varijance (ANOVA) po tome što test značajnosti u ANOVA-i uspoređuje varijabilnost između grupa i unutar grupe u testiranju hipoteze da se srednje vrijednosti grupe razlikuju jedna od druge.

U grupiranju K-sredstava, program premješta objekte (tj. opažanja) iz jedne grupe (klastera) u drugu kako bi se dobio najznačajniji rezultat pri provođenju analize varijance (ANOVA).

Obično, nakon što se dobiju rezultati analize klastera K-srednje vrijednosti, može se izračunati srednje vrijednosti za svaki klaster za svaku dimenziju kako bi se procijenilo kako se klasteri međusobno razlikuju.

U idealnom slučaju, trebali biste dobiti vrlo različita sredstva za većinu, ako ne i za sva mjerenja korištena u analizi.

Izvor: http://www.biometrica.tomsk.ru/textbook/modules/stcluan.html

Klasifikacija objekata prema njihovim karakteristikama

Klasterska analiza (klaster analiza) - skup višedimenzionalnih statističkih metoda za razvrstavanje objekata prema njihovim karakteristikama, dijeljenje ukupnosti objekata u homogene skupine koje su bliske po kriteriju definiranja, odabir objekata određene skupine.

Klaster je skupina objekata identificiranih kao rezultat analize klastera na temelju dane mjere sličnosti ili razlike između objekata.

Objekt su specifični predmeti studija koje je potrebno klasificirati. Objekti u klasifikaciji su u pravilu opažanja. Na primjer, potrošači proizvoda, zemalja ili regija, proizvoda itd.

Iako je moguće provesti klaster analizu po varijablama. Klasifikacija objekata u multidimenzionalnoj klaster analizi odvija se prema nekoliko kriterija istovremeno.

To mogu biti i kvantitativne i kategoričke varijable, ovisno o metodi klaster analize. Dakle, glavni cilj klaster analize je pronaći skupine sličnih objekata u uzorku.

Skup multivarijatnih statističkih metoda klasterske analize može se podijeliti na hijerarhijske metode (aglomerativne i razdjelne) i nehijerarhijske (metoda k-srednjih vrijednosti, dvostupanjska klasterska analiza).

Međutim, ne postoji općeprihvaćena klasifikacija metoda, a ponekad metode klaster analize uključuju i metode za izgradnju stabala odluka, neuronske mreže, diskriminantnu analizu i logističku regresiju.

Opseg klaster analize, zbog svoje svestranosti, vrlo je širok. Klaster analiza se koristi u ekonomiji, marketingu, arheologiji, medicini, psihologiji, kemiji, biologiji, javnoj upravi, filologiji, antropologiji, sociologiji i drugim područjima.

Evo nekoliko primjera primjene klaster analize:

  • medicina - klasifikacija bolesti, njihovi simptomi, metode liječenja, klasifikacija skupina pacijenata;
  • marketing - zadaci optimizacije proizvodne linije tvrtke, segmentiranje tržišta po grupama roba ili potrošača, identificiranje potencijalnog potrošača;
  • sociologija - podjela ispitanika u homogene skupine;
  • psihijatrija - točna dijagnoza skupina simptoma ključna je za uspješnu terapiju;
  • biologija - klasifikacija organizama po skupinama;
  • gospodarstvo - klasifikacija subjekata Ruske Federacije prema investicijskoj privlačnosti.

Izvor: http://www.statmethods.ru/konsalting/statistics-methody/121-klasternyj-analyz.html

Opće informacije o klaster analizi

Klaster analiza uključuje skup različitih klasifikacijskih algoritama. Uobičajeno pitanje koje postavljaju istraživači u mnogim područjima je kako organizirati promatrane podatke u vizualne strukture.

Na primjer, biolozima je cilj razbiti životinje na različite vrste kako bi smisleno opisali razlike među njima.

Zadatak klaster analize je podijeliti početni skup objekata u skupine sličnih, bliskih objekata. Te se grupe nazivaju klasterima.

Drugim riječima, klaster analiza je jedan od načina klasifikacije objekata prema njihovim značajkama. Poželjno je da rezultati klasifikacije imaju smislenu interpretaciju.

Rezultati dobiveni metodama klaster analize koriste se u raznim područjima. U marketingu je to segmentacija konkurenata i potrošača.

U psihijatriji je za uspješnu terapiju ključna točna dijagnoza simptoma kao što su paranoja, shizofrenija itd.

U menadžmentu je važna klasifikacija dobavljača, prepoznavanje sličnih proizvodnih situacija u kojima dolazi do braka. U sociologiji je podjela ispitanika na homogene skupine. U portfeljskom ulaganju važno je grupirati vrijednosne papire prema njihovoj sličnosti u trendu prinosa kako bi se na temelju dobivenih informacija o burzi sastavio optimalan investicijski portfelj koji omogućuje maksimiziranje povrata na ulaganja za određeni stupanj rizika. .

Općenito, kad god je potrebno klasificirati veliku količinu informacija ove vrste i prikazati je u obliku prikladnom za daljnju obradu, klaster analiza se pokazuje vrlo korisnom i učinkovitom.

Klaster analiza omogućuje razmatranje prilično velike količine informacija i uvelike komprimiranje velikih nizova socio-ekonomskih informacija, čineći ih kompaktnim i vizualnim.

Pažnja!

Klaster analiza je od velike važnosti u odnosu na skupove vremenskih serija koje karakteriziraju gospodarski razvoj (na primjer, opći gospodarski i robni uvjeti).

Ovdje je moguće izdvojiti razdoblja kada su vrijednosti odgovarajućih pokazatelja bile prilično bliske, kao i odrediti grupe vremenskih serija čija je dinamika najsličnija.

U problemima socio-ekonomskog predviđanja vrlo je obećavajuće kombiniranje klaster analize s drugim kvantitativnim metodama (na primjer, s regresijskom analizom).

Prednosti i nedostatci

Klaster analiza omogućuje objektivnu klasifikaciju svih objekata koji su obilježeni brojnim značajkama. Iz ovoga se može izvući niz prednosti:

  1. Rezultirajući klasteri mogu se interpretirati, odnosno opisati kakve skupine zapravo postoje.
  2. Pojedinačni klasteri se mogu odbaciti. To je korisno u slučajevima kada su tijekom skupa podataka napravljene određene pogreške, zbog čega vrijednosti indikatora za pojedinačne objekte naglo odstupaju. Kod primjene klaster analize takvi objekti spadaju u zaseban klaster.
  3. Za daljnju analizu mogu se odabrati samo oni klasteri koji imaju karakteristike od interesa.

Kao i svaka druga metoda, klaster analiza ima određene nedostatke i ograničenja. Konkretno, sastav i broj klastera ovisi o odabranim kriterijima podjele.

Kada se početno polje podataka svede na kompaktniji oblik, mogu se pojaviti određena izobličenja, a mogu se izgubiti i pojedinačne značajke pojedinačnih objekata zbog njihove zamjene karakteristikama generaliziranih vrijednosti parametara klastera.

Metode

Trenutno je poznato više od stotinu različitih algoritama grupiranja. Njihova se raznolikost objašnjava ne samo različitim računskim metodama, već i različitim konceptima koji su u osnovi klasteriranja.

Paket Statistica implementira sljedeće metode grupiranja.

  • Hijerarhijski algoritmi - grupiranje stabala. Hijerarhijski algoritmi temelje se na ideji sekvencijalnog grupiranja. U početnom koraku svaki objekt se smatra zasebnim klasterom. U sljedećem koraku, neki od klastera koji su međusobno najbliži spojit će se u zaseban klaster.
  • Metoda K-sredstava. Ova metoda je najčešće korištena. Spada u skupinu tzv. referentnih metoda klaster analize. Broj klastera K postavlja korisnik.
  • Dvosmjerna asocijacija. Pri korištenju ove metode, grupiranje se provodi istovremeno i po varijablama (stupci) i prema rezultatima promatranja (redci).

Dvosmjerni postupak spajanja provodi se kada se može očekivati ​​da će istovremeno grupiranje na varijablama i opažanjima dati značajne rezultate.

Rezultati postupka su deskriptivna statistika o varijablama i opažanjima, kao i dvodimenzionalni dijagram boja na kojem su vrijednosti podataka označene bojom.

Raspodjelom boja možete dobiti ideju o homogenim skupinama.

Normalizacija varijabli

Podjela početnog skupa objekata u klastere povezana je s proračunom udaljenosti između objekata i izborom objekata, među kojima je udaljenost najmanja od svih mogućih.

Najčešće korištena je svima nama poznata euklidska (geometrijska) udaljenost. Ova metrika odgovara intuitivnim idejama o blizini objekata u prostoru (kao da su udaljenosti između objekata mjerene mjernom trakom).

Ali za danu metriku, na udaljenost između objekata mogu snažno utjecati promjene mjerila (mjernih jedinica). Na primjer, ako se jedna od značajki izmjeri u milimetrima, a zatim se njezina vrijednost pretvori u centimetre, euklidska udaljenost između objekata dramatično će se promijeniti. To će dovesti do činjenice da se rezultati klaster analize mogu značajno razlikovati od prethodnih.

Ako se varijable mjere u različitim mjernim jedinicama, tada je potrebna njihova preliminarna normalizacija, odnosno transformacija početnih podataka, čime se pretvaraju u bezdimenzijske veličine.

Normalizacija snažno iskrivljuje geometriju izvornog prostora, što može promijeniti rezultate grupiranja

U paketu Statistica svaka varijabla x je normalizirana prema formuli:

Da biste to učinili, desnom tipkom miša kliknite naziv varijable i odaberite slijed naredbi iz izbornika koji se otvori: Ispuni/ Standardiziraj blok/ Standardiziraj stupce. Vrijednosti normalizirane varijable postat će jednake nuli, a varijance će postati jednake jedan.

K-means metoda u Statistici

Metoda K-means dijeli skup objekata na zadani broj K različitih klastera koji se nalaze na najvećoj mogućoj udaljenosti jedan od drugog.

Obično, nakon što se dobiju rezultati analize klastera K-srednje vrijednosti, može se izračunati prosjek za svaki klaster za svaku dimenziju kako bi se procijenilo kako se klasteri međusobno razlikuju.

U idealnom slučaju, trebali biste dobiti vrlo različita sredstva za većinu mjerenja korištenih u analizi.

Vrijednosti F-statistike dobivene za svaku dimenziju još su jedan pokazatelj koliko dobro odgovarajuća dimenzija razlikuje klastere.

Kao primjer, razmotrite rezultate ankete 17 zaposlenika poduzeća o zadovoljstvu pokazateljima kvalitete karijere. Tablica sadrži odgovore na upitna pitanja na ljestvici od deset stupnjeva (1 je minimalna ocjena, 10 maksimalna).

Nazivi varijabli odgovaraju odgovorima na sljedeća pitanja:

  1. SLT - kombinacija osobnih ciljeva i ciljeva organizacije;
  2. OSO - osjećaj pravičnosti u plaćama;
  3. TBD - teritorijalna blizina kuće;
  4. PEW - osjećaj ekonomske dobrobiti;
  5. CR - rast u karijeri;
  6. ZhSR - želja za promjenom posla;
  7. OSB je osjećaj društvene dobrobiti.

Koristeći te podatke, potrebno je zaposlenike podijeliti u grupe i za svaku od njih odabrati najučinkovitije upravljačke poluge.

Pritom bi razlike među skupinama trebale biti očite, a unutar grupe ispitanici bi trebali biti što sličniji.

Do danas većina socioloških istraživanja daje samo postotak glasova: uzima se u obzir glavni broj pozitivnih odgovora, odnosno postotak onih koji su nezadovoljni, ali se to pitanje ne razmatra sustavno.

Najčešće anketa ne pokazuje trendove situacije. U nekim slučajevima potrebno je brojati ne broj ljudi koji su “za” ili “protiv”, već udaljenost, odnosno mjeru sličnosti, odnosno odrediti grupe ljudi koji misle o istome.

Postupci klaster analize mogu se koristiti za identificiranje, na temelju podataka ankete, nekih stvarno postojećih odnosa značajki i generiranje njihove tipologije na temelju toga.

Pažnja!

Prisutnost bilo koje apriorne hipoteze sociologa pri radu s postupcima klaster analize nije nužan uvjet.

U programu Statistica klaster analiza se izvodi na sljedeći način.

Prilikom odabira broja klastera vodite se sljedećim: broj klastera, ako je moguće, ne smije biti prevelik.

Udaljenost na kojoj su spojeni objekti danog klastera trebala bi, ako je moguće, biti mnogo manja od udaljenosti na kojoj se nešto drugo pridruži ovom klasteru.

Prilikom odabira broja klastera najčešće postoji nekoliko točnih rješenja u isto vrijeme.

Zanima nas, primjerice, kako su odgovori na pitanja upitnika povezani s običnim zaposlenicima i menadžmentom poduzeća. Stoga biramo K=2. Za daljnju segmentaciju možete povećati broj klastera.

  1. odaberite opažanja s maksimalnom udaljenosti između središta klastera;
  2. sortiranje udaljenosti i odabir opažanja u redovitim intervalima (zadana postavka);
  3. uzmite prve centre za promatranje i na njih pričvrstite ostale objekte.

Opcija 1 je prikladna za naše potrebe.

Mnogi algoritmi za grupiranje često "nametnu" strukturu koja nije svojstvena podacima i dezorijentira istraživača. Stoga je iznimno potrebno primijeniti nekoliko algoritama klaster analize i donijeti zaključke na temelju opće procjene rezultata algoritama.

Rezultate analize možete vidjeti u dijaloškom okviru koji se pojavi:

Ako odaberete karticu Graf srednjih vrijednosti, iscrtat će se grafikon koordinata centara klastera:


Svaka isprekidana linija na ovom grafikonu odgovara jednom od klastera. Svaka podjela vodoravne osi grafa odgovara jednoj od varijabli uključenih u analizu.

Vertikalna os odgovara prosječnim vrijednostima varijabli za objekte uključene u svaki od klastera.

Može se primijetiti da postoje značajne razlike u stavu dviju skupina ljudi prema uslužnoj karijeri po gotovo svim pitanjima. Samo u jednom pitanju postoji potpuna jednoglasnost – u smislu društvenog blagostanja (OSB), odnosno njegovog nedostatka (2,5 bodova od 10).

Može se pretpostaviti da klaster 1 predstavlja radnike, a klaster 2 menadžment. Menadžeri su zadovoljniji razvojem karijere (CR), kombinacijom osobnih i organizacijskih ciljeva (SOL).

Imaju viši osjećaj ekonomske dobrobiti (SEW) i osjećaj pravednosti plaća (SWA).

Manje su zabrinuti zbog blizine kući od radnika, vjerojatno zbog manje problema s prijevozom. Također, menadžeri imaju manje želje za promjenom posla (JSR).

Unatoč činjenici da su radnici podijeljeni u dvije kategorije, na većinu pitanja daju relativno iste odgovore. Drugim riječima, ako nešto ne odgovara općoj skupini zaposlenika, isto ne odgovara višem menadžmentu i obrnuto.

Usklađivanje grafova omogućuje nam da zaključimo da se dobrobit jedne skupine odražava u dobrobiti druge.

Klaster 1 nije zadovoljan teritorijalnom blizinom kuće. Ova grupa je glavni dio radnika koji uglavnom dolaze u poduzeće iz različitih dijelova grada.

Stoga je moguće ponuditi najvišem rukovodstvu da dio dobiti izdvoji za izgradnju stambenog prostora za zaposlenike poduzeća.

Uočene su značajne razlike u stavu dviju skupina ljudi prema uslužnoj karijeri. Oni zaposlenici koji su zadovoljni razvojem karijere, koji imaju visoku podudarnost osobnih ciljeva i ciljeva organizacije, nemaju želju za promjenom posla i osjećaju zadovoljstvo rezultatima svog rada.

Nasuprot tome, zaposlenici koji žele promijeniti posao i koji su nezadovoljni rezultatima svog rada nisu zadovoljni navedenim pokazateljima. Više rukovodstvo treba obratiti posebnu pozornost na trenutnu situaciju.

Pritiskom na tipku Analiza varijance prikazuju se rezultati analize varijance za svaki atribut.

Prikazuju se zbroji kvadrata odstupanja objekata od centara klastera (SS Within) i zbroja kvadrata odstupanja između centara klastera (SS Between), vrijednosti F-statistike i p razina značajnosti.

Pažnja!

Za naš primjer, razine značajnosti za dvije varijable su prilično velike, što se objašnjava malim brojem opažanja. U punoj verziji studije, koja se može pronaći u radu, hipoteze o jednakosti sredstava za centre klastera odbacuju se na razinama značajnosti manjim od 0,01.

Gumb Spremi klasifikacije i udaljenosti prikazuje brojeve objekata uključenih u svaki klaster i udaljenosti objekata do središta svakog klastera.

Tablica prikazuje brojeve slučajeva (CASE_NO) koji čine klastere s brojevima KLUSTER i udaljenosti od središta svakog klastera (DISTANCE).

Informacije o objektima koji pripadaju klasterima mogu se zapisati u datoteku i koristiti u daljnjoj analizi. U ovom primjeru, usporedba rezultata dobivenih s upitnicima pokazala je da se klaster 1 sastoji uglavnom od običnih radnika, a klaster 2 - od menadžera.

Dakle, može se vidjeti da se pri obradi rezultata ankete klaster analiza pokazala kao moćna metoda koja omogućuje izvlačenje zaključaka do kojih se ne može doći izgradnjom histograma prosjeka ili izračunom postotka onih koji su zadovoljni različitim pokazateljima kvalitetu radnog života.

Grupiranje stabala primjer je hijerarhijskog algoritma čiji je princip da se u klaster uzastopno grupiraju najprije najbliži, a zatim sve udaljeniji elementi.

Većina ovih algoritama polazi od matrice sličnosti (udaljenosti), a svaki pojedinačni element se u početku smatra zasebnim klasterom.

Nakon učitavanja modula analize klastera i odabira Pridruživanje (klasteriranje stabala), možete promijeniti sljedeće parametre u prozoru za unos parametara klastera:

  • Početni podaci (Input). Mogu biti u obliku matrice proučavanih podataka (Raw data) i u obliku matrice udaljenosti (Distance matrix).
  • Grupiranje (Cluster) opažanja (Slučajevi (sirovo)) ili varijabli (Varijabla (stupci)), koja opisuju stanje objekta.
  • Mjere udaljenosti. Ovdje možete odabrati sljedeće mjere: Euklidske udaljenosti, Euklidske udaljenosti na kvadrat, udaljenost gradskog bloka (Manhattan), metriku udaljenosti Čebičeva, Snaga ...), postotak neslaganja (Percent disagreement).
  • Metoda grupiranja (pravilo spajanja (povezivanja)). Ovdje su moguće sljedeće opcije: Pojedinačna veza (Pojedinačna veza), Potpuna veza (Metoda najudaljenijih susjeda) (Potpuna veza), Neponderirani prosjek skupine parova, Ponderirani prosjek grupe parova, Neponderirani centar skupine para, Ponderirani par -centroid grupe (medijan), Wardova metoda.

Kao rezultat grupiranja gradi se horizontalni ili vertikalni dendrogram – graf na kojemu se uzastopno kombiniraju udaljenosti između objekata i klastera.

Struktura stabla grafa omogućuje definiranje klastera ovisno o odabranom pragu - zadanoj udaljenosti između klastera.

Osim toga, prikazuje se matrica udaljenosti između originalnih objekata (Matrica udaljenosti); srednje i standardne devijacije za svaki izvorni objekt (Distiptive statistics).

Za razmatrani primjer provest ćemo klaster analizu varijabli sa zadanim postavkama. Rezultirajući dendrogram prikazan je na slici.


Okomita os dendrograma prikazuje udaljenosti između objekata te između objekata i klastera. Dakle, udaljenost između varijabli SEB i OSD jednaka je pet. Ove se varijable u prvom koraku kombiniraju u jedan klaster.

Vodoravni segmenti dendrograma nacrtani su na razinama koje odgovaraju graničnim udaljenostima odabranim za dani korak grupiranja.

Iz grafikona je vidljivo da pitanje “želja za promjenom posla” (JSR) čini zaseban klaster. Općenito, želja za odlaganjem bilo gdje posjećuje sve podjednako. Nadalje, zasebna skupina je pitanje teritorijalne blizine domu (LHB).

Po važnosti je na drugom mjestu, što potvrđuje zaključak o potrebi stambene izgradnje, donesen prema rezultatima istraživanja metodom K-sredstava.

Kombinirani su osjećaji ekonomske dobrobiti (PEW) i pravednosti plaća (PWA) - ovo je blok ekonomskih pitanja. Također se kombiniraju napredovanje u karijeri (CR) i kombinacija osobnih i organizacijskih ciljeva (COL).

Druge metode grupiranja, kao i izbor drugih vrsta udaljenosti, ne dovode do značajnije promjene dendrograma.

Rezultati:

  1. Klaster analiza je moćan alat za istraživačku analizu podataka i statistička istraživanja u bilo kojem predmetnom području.
  2. Program Statistica implementira i hijerarhijske i strukturne metode klaster analize. Prednosti ovog statističkog paketa su njegove grafičke mogućnosti. Dani su dvodimenzionalni i trodimenzionalni grafički prikazi dobivenih klastera u prostoru proučavanih varijabli, kao i rezultati hijerarhijskog postupka grupiranja objekata.
  3. Potrebno je primijeniti nekoliko algoritama klaster analize i donijeti zaključke na temelju opće procjene rezultata algoritama.
  4. Klaster analiza se može smatrati uspješnom ako se provodi na različite načine, uspoređuje se rezultati i pronađu zajednički obrasci, te se pronađu stabilni klasteri bez obzira na metodu grupiranja.
  5. Klaster analiza vam omogućuje da identificirate problematične situacije i ocrtate načine za njihovo rješavanje. Stoga se ova metoda neparametarske statistike može smatrati sastavnim dijelom analize sustava.

Vrste unosa

  • Indikativni opis objekata. Svaki objekt je opisan skupom njegovih karakteristika, tzv znakovi. Značajke mogu biti numeričke ili nenumeričke.
  • Matrica udaljenosti između objekata. Svaki objekt je opisan udaljenostima do svih ostalih objekata u uzorku za obuku.

Ciljevi grupiranja

  • Razumijevanje podataka identificiranjem strukture klastera. Podjela uzorka u skupine sličnih objekata omogućuje pojednostavljenje daljnje obrade podataka i donošenja odluka primjenom vlastite metode analize na svaki klaster (strategija “podijeli pa vladaj”).
  • Kompresija podataka. Ako je početni uzorak pretjerano velik, onda se može smanjiti, ostavljajući jednog od najtipičnijih predstavnika iz svakog klastera.
  • otkrivanje novosti. otkrivanje novosti). Odabiru se netipični objekti koji se ne mogu pričvrstiti ni na jedan od klastera.

U prvom slučaju pokušavaju smanjiti broj klastera. U drugom slučaju, važnije je osigurati visok stupanj sličnosti objekata unutar svakog klastera, a klastera može postojati bilo koji broj. U trećem slučaju od najvećeg su interesa pojedinačni objekti koji se ne uklapaju ni u jedan od klastera.

U svim tim slučajevima može se primijeniti hijerarhijsko grupiranje, kada se veliki klasteri dijele na manje, koji se, pak, dijele na još manje, itd. Takvi zadaci se nazivaju taksonomijski zadaci.

Rezultat taksonomije je hijerarhijska struktura nalik stablu. Osim toga, svaki objekt karakterizira nabrajanje svih klastera kojima pripada, obično od velikih do malih.

Klasičan primjer taksonomije koja se temelji na sličnosti je binomna nomenklatura živih bića koju je predložio Carl Linnaeus sredinom 18. stoljeća. Slične se sistematizacije grade u mnogim područjima znanja kako bi se organizirale informacije o velikom broju objekata.

Metode grupiranja

Formalna izjava o problemu grupiranja

Neka je skup objekata, biti skup brojeva (imena, oznaka) klastera. Zadana je funkcija udaljenosti između objekata. Postoji konačan skup objekata za obuku. Uzorak je potrebno podijeliti na podskupove koji se ne preklapaju tzv grozdovima, tako da se svaki klaster sastoji od objekata bliskih metrički, a objekti različitih klastera značajno se razlikuju. U ovom slučaju, svakom objektu je dodijeljen broj klastera.

Algoritam grupiranja je funkcija koja povezuje bilo koji objekt s brojem klastera. Skup je u nekim slučajevima poznat unaprijed, ali češće je zadatak odrediti optimalan broj klastera, s gledišta jednog ili drugog kriteriji kvalitete grupiranje.

Književnost

  1. Aivazyan S. A., Buchstaber V. M., Enyukov I. S., Meshalkin L. D. Primijenjena statistika: klasifikacija i redukcija dimenzija. - M.: Financije i statistika, 1989.
  2. Žuravljev Yu. I., Ryazanov V. V., Senko O. V."Priznanje". Matematičke metode. Softverski sustav. Praktične aplikacije. - M.: Fazis, 2006. ISBN 5-7036-0108-8.
  3. Zagoruiko N. G. Primijenjene metode analize podataka i znanja. - Novosibirsk: IM SO RAN, 1999. ISBN 5-86134-060-9.
  4. Mandel I. D. klaster analiza. - M.: Financije i statistika, 1988. ISBN 5-279-00050-7.
  5. Shlesinger M., Glavach V. Deset predavanja o statističkom i strukturnom prepoznavanju. - Kijev: Naukova dumka, 2004. ISBN 966-00-0341-2.
  6. Hastie T., Tibshirani R., Friedman J. Elementi statističkog učenja. - Springer, 2001. ISBN 0-387-95284-5.
  7. Jain Murty Flynn Grupiranje podataka: pregled . // ACM Račun. Surv. 31 (3) , 1999

vanjske poveznice

Na ruskom

  • www.MachineLearning.ru - profesionalni wiki resurs posvećen strojnom učenju i rudarenju podataka
  • S. Nikolenko. Slajdovi predavanja o algoritmima grupiranja

Na engleskom

  • COMPACT - Usporedni paket za ocjenu grupiranja. Besplatni Matlab paket, 2006.
  • P. Berkhin, Pregled tehnika klasteriranja podataka rudarenja, Accue Software, 2002.
  • Jain, Murty i Flynn: Grupiranje podataka: pregled, ACM Comp. Surv., 1999.
  • za još jedan prikaz hijerarhijskih, k-srednjih i neizrazitih c-sredina pogledajte ovaj uvod u grupiranje. Također ima objašnjenje o mješavini Gaussovih.
  • David Dowe, Stranica Modeliranje mješavine- ostale veze modela klasteriranja i mješavine.
  • tutorial o grupiranju
  • On-line udžbenik: Teorija informacija, zaključivanje i algoritmi učenja, autora Davida J.C. MacKay uključuje poglavlja o grupiranju k-srednjih vrijednosti, grupiranju mekih k-srednjih vrijednosti i derivacijama uključujući E-M algoritam i varijacijski pogled na E-M algoritam.
  • "Samoorganizirani gen", vodič koji objašnjava grupiranje kroz natjecateljsko učenje i samoorganizirajuće karte.
  • kernlab - R paket za strojno učenje bazirano na kernelu (uključuje implementaciju spektralnog klasteriranja)
  • Vodič - Vodič s uvođenjem algoritama grupiranja (k-means, fuzzy-c-means, hijerarhijski, mješavina gaussovih) + neke interaktivne demonstracije (java apleti)
  • Softver za rudarenje podataka - softver za rudarenje podataka često koristi tehnike grupiranja podataka.
  • Java Competitive Learning Application Paket nenadziranih neuronskih mreža za grupiranje. Napisano na Javi. Kompletan sa svim izvornim kodom.

klaster analiza

Većina istraživača sklona je vjerovati da je po prvi put pojam "klaster analiza" (eng. Klastera- hrpa, ugrušak, hrpa) predložio je matematičar R. Trion. Nakon toga su se pojavili brojni pojmovi koji se danas smatraju sinonimima za pojam "klaster analiza": automatska klasifikacija; botriologije.

Klaster analiza je viševarijatni statistički postupak koji prikuplja podatke koji sadrže podatke o uzorku objekata, a zatim razvrstava objekte u relativno homogene skupine (klastere) (Q-clustering, ili Q-tehnika, pravilna analiza klastera). Klaster - skupina elemenata karakteriziranih zajedničkim svojstvom, glavni cilj klaster analize je pronaći skupine sličnih objekata u uzorku. Raspon primjene klaster analize je vrlo širok: koristi se u arheologiji, medicini, psihologiji, kemiji, biologiji, javnoj upravi, filologiji, antropologiji, marketingu, sociologiji i drugim disciplinama. Međutim, univerzalnost primjene dovela je do pojave velikog broja nespojivih pojmova, metoda i pristupa koji otežavaju jednoznačno korištenje i dosljedno tumačenje klaster analize. Orlov A. I. predlaže razlikovanje na sljedeći način:

Zadaci i uvjeti

Klaster analiza izvodi sljedeće glavni ciljevi:

  • Izrada tipologije ili klasifikacije.
  • Istraživanje korisnih konceptualnih shema za grupiranje objekata.
  • Generiranje hipoteza na temelju istraživanja podataka.
  • Testiranje hipoteza ili istraživanje kako bi se utvrdilo jesu li na ovaj ili onaj način identificirane vrste (skupine) stvarno prisutne u dostupnim podacima.

Bez obzira na predmet proučavanja, korištenje klaster analize uključuje Sljedeći koraci:

  • Uzorkovanje za grupiranje. Podrazumijeva se da ima smisla grupirati samo kvantitativne podatke.
  • Definicija skupa varijabli pomoću kojih će se evaluirati objekti u uzorku, odnosno prostor značajki.
  • Izračunavanje vrijednosti jedne ili druge mjere sličnosti (ili razlike) između objekata.
  • Primjena metode klaster analize za stvaranje grupa sličnih objekata.
  • Validacija rezultata klastera rješenja.

Klaster analiza predstavlja sljedeće zahtjevi za podacima:

  1. pokazatelji ne bi trebali međusobno korelirati;
  2. pokazatelji ne bi trebali biti u suprotnosti s teorijom mjerenja;
  3. raspodjela pokazatelja trebala bi biti blizu normalne;
  4. indikatori moraju ispunjavati zahtjev "stabilnosti", što znači odsutnost utjecaja slučajnih čimbenika na njihove vrijednosti;
  5. uzorak treba biti homogen, ne sadržavati "izuzetne vrijednosti".

Možete pronaći opis dvaju temeljnih zahtjeva za podatke - ujednačenosti i potpunosti:

Homogenost zahtijeva da svi entiteti predstavljeni u tablici budu iste prirode. Uvjet za potpunost je da skupovi ja i J predstavio potpuni opis manifestacija razmatrane pojave. Ako uzmemo u obzir tablicu u kojoj ja je zbirka, i J- skup varijabli koje opisuju ovu populaciju, onda to treba biti reprezentativan uzorak iz proučavane populacije, te sustav karakteristika J treba dati zadovoljavajuću vektorsku reprezentaciju pojedinaca i sa stajališta istraživača.

Ako klaster analizi prethodi faktorska analiza, tada uzorak nije potrebno “popravljati” – navedeni zahtjevi se izvršavaju automatski samim postupkom faktorskog modeliranja (postoji još jedna prednost - z-standardizacija bez negativnih posljedica za uzorak; ako se provodi izravno za klaster analizu, može dovesti do smanjenja jasnoće razdvajanja skupina). U suprotnom, uzorak se mora prilagoditi.

Tipologija problema klasteriranja

Vrste unosa

U suvremenoj znanosti koristi se nekoliko algoritama za obradu ulaznih podataka. Analiza usporedbom objekata na temelju obilježja (najčešća u biološkim znanostima) naziva se P- vrsta analize, au slučaju usporedbe obilježja, na temelju objekata - R- vrsta analize. Postoje pokušaji korištenja hibridnih vrsta analize (npr. RQ analiza), ali ova metodologija još nije pravilno razvijena.

Ciljevi grupiranja

  • Razumijevanje podataka identificiranjem strukture klastera. Podjela uzorka u skupine sličnih objekata omogućuje pojednostavljenje daljnje obrade podataka i donošenja odluka primjenom vlastite metode analize na svaki klaster (strategija “podijeli pa vladaj”).
  • Kompresija podataka. Ako je početni uzorak pretjerano velik, onda se može smanjiti, ostavljajući jednog od najtipičnijih predstavnika iz svakog klastera.
  • otkrivanje novosti. otkrivanje novosti). Odabiru se netipični objekti koji se ne mogu pričvrstiti ni na jedan od klastera.

U prvom slučaju pokušavaju smanjiti broj klastera. U drugom slučaju, važnije je osigurati visok stupanj sličnosti objekata unutar svakog klastera, a klastera može postojati bilo koji broj. U trećem slučaju od najvećeg su interesa pojedinačni objekti koji se ne uklapaju ni u jedan od klastera.

U svim tim slučajevima može se primijeniti hijerarhijsko grupiranje, kada se veliki klasteri dijele na manje, koji se, pak, dijele na još manje, itd. Takvi zadaci se nazivaju taksonomijski zadaci. Rezultat taksonomije je hijerarhijska struktura nalik stablu. Osim toga, svaki objekt karakterizira nabrajanje svih klastera kojima pripada, obično od velikih do malih.

Metode grupiranja

Ne postoji općeprihvaćena klasifikacija metoda grupiranja, ali se može primijetiti solidan pokušaj V. S. Berikova i G. S. Lbova. Ako generaliziramo različite klasifikacije metoda klasteriranja, možemo razlikovati brojne skupine (neke metode mogu se pripisati nekoliko grupa odjednom, pa se stoga predlaže da se ova tipizacija smatra nekom aproksimacijom stvarnoj klasifikaciji metoda klasteriranja):

  1. Vjerojatni pristup. Pretpostavlja se da svaki predmet koji se razmatra pripada jednoj od k klasa. Neki autori (npr. A. I. Orlov) smatraju da ova skupina uopće ne pripada grupiranju i protive joj se pod nazivom "diskriminacija", odnosno izbor dodjele objekata nekoj od poznatih skupina (uzorci za obuku).
  2. Pristupi temeljeni na sustavima umjetne inteligencije. Vrlo uvjetna skupina, budući da postoji mnogo AI metoda i metodički su vrlo različite.
  3. logičan pristup. Konstrukcija dendrograma provodi se pomoću stabla odlučivanja.
  4. Teorijski pristup grafovima.
    • Algoritmi za grupiranje grafova
  5. Hijerarhijski pristup. Pretpostavlja se prisutnost ugniježđenih grupa (klastera različitog reda). Algoritmi se pak dijele na aglomerativne (ujedinjujuće) i razdjelne (razdvajajuće). Prema broju obilježja ponekad se razlikuju monotetička i politetička metoda klasifikacije.
    • Hijerarhijsko divizijsko grupiranje ili taksonomija. Problemi klasteriranja razmatraju se u kvantitativnoj taksonomiji.
  6. Ostale metode. Nije uključeno u prethodne grupe.
    • Statistički algoritmi grupiranja
    • Ansambl klastera
    • Algoritmi obitelji KRAB
    • Algoritam temeljen na metodi prosijavanja
    • DBSCAN itd.

Pristupi 4 i 5 ponekad se kombiniraju pod nazivom strukturni ili geometrijski pristup, koji ima formaliziraniji koncept blizine. Unatoč značajnim razlikama između navedenih metoda, sve se oslanjaju na izvornu " hipoteza o kompaktnosti»: u prostoru objekata svi bliski objekti moraju pripadati istom klasteru, a svi različiti objekti, odnosno, moraju biti u različitim skupinama.

Formalna izjava o problemu grupiranja

Neka je skup objekata, biti skup brojeva (imena, oznaka) klastera. Zadana je funkcija udaljenosti između objekata. Postoji konačan skup objekata za obuku. Uzorak je potrebno podijeliti na podskupove koji se ne preklapaju tzv grozdovima, tako da se svaki klaster sastoji od objekata bliskih metrički, a objekti različitih klastera značajno se razlikuju. U ovom slučaju, svakom objektu je dodijeljen broj klastera.

Algoritam grupiranja je funkcija koja povezuje bilo koji objekt s brojem klastera. Skup je u nekim slučajevima poznat unaprijed, ali češće je zadatak odrediti optimalan broj klastera, s gledišta jednog ili drugog kriteriji kvalitete grupiranje.

Grupiranje (učenje bez nadzora) razlikuje se od klasifikacije (učenje pod nadzorom) po tome što oznake izvornih objekata nisu inicijalno postavljene, a sam skup može čak biti nepoznat.

Rješenje problema klasteriranja u osnovi je dvosmisleno, a za to postoji nekoliko razloga (prema brojnim autorima):

  • ne postoji jedinstveno najbolji kriterij za kvalitetu grupiranja. Poznat je niz heurističkih kriterija, kao i niz algoritama koji nemaju jasno definiran kriterij, ali provode prilično razumno grupiranje “po konstrukciji”. Svi oni mogu dati različite rezultate. Stoga je za utvrđivanje kvalitete klasteriranja potreban stručnjak za predmetno područje koji bi mogao procijeniti smislenost odabira klastera.
  • broj klastera obično je unaprijed nepoznat i postavlja se prema nekom subjektivnom kriteriju. To vrijedi samo za metode diskriminacije, budući da se u metodama grupiranja klasteri odabiru pomoću formaliziranog pristupa koji se temelji na mjerama blizine.
  • rezultat klasteriranja značajno ovisi o metrici čiji je izbor u pravilu također subjektivan i određuje ga stručnjak. No, vrijedno je napomenuti da postoji niz preporuka za odabir mjera blizine za različite zadatke.

Primjena

U biologiji

U biologiji, grupiranje ima mnoge primjene u raznim područjima. Na primjer, u bioinformatici se koristi za analizu složenih mreža gena koji međusobno djeluju, ponekad se sastoje od stotina ili čak tisuća elemenata. Klaster analiza omogućuje vam da identificirate podmreže, uska grla, čvorišta i druga skrivena svojstva sustava koji se proučava, što vam u konačnici omogućuje da saznate doprinos svakog gena formiranju fenomena koji se proučava.

U području ekologije široko se koristi za identifikaciju prostorno homogenih skupina organizama, zajednica itd. Rjeđe se koriste metode klaster analize za proučavanje zajednica tijekom vremena. Heterogenost strukture zajednica dovodi do pojave netrivijalnih metoda klaster analize (na primjer, metoda Czekanowskog).

Općenito, vrijedno je napomenuti da se povijesno gledano, mjere sličnosti češće koriste kao mjere blizine u biologiji, a ne mjere razlike (udaljenosti).

U sociologiji

Prilikom analize rezultata socioloških istraživanja preporuča se provesti analizu korištenjem metoda hijerarhijske aglomerativne obitelji, odnosno Wardove metode, u kojoj se optimizira minimalna disperzija unutar klastera, kao rezultat toga, grozdovi približno jednakih veličina stvaraju se. Wardova metoda je najuspješnija za analizu socioloških podataka. Kao mjera razlike, kvadratna euklidska udaljenost je bolja, što doprinosi povećanju kontrasta klastera. Glavni rezultat hijerarhijske analize klastera je dendrogram ili „dijagram ledenica“. Prilikom njezine interpretacije istraživači se susreću s problemom iste vrste kao i interpretacija rezultata faktorske analize – nepostojanje nedvosmislenih kriterija za identifikaciju klastera. Preporuča se koristiti dvije metode kao glavne - vizualnu analizu dendrograma i usporedbu rezultata grupiranja provedenog različitim metodama.

Vizualna analiza dendrograma uključuje "rezanje" stabla na optimalnoj razini sličnosti elemenata uzorka. “Granu vinove loze” (terminologija Oldenderfera M.S. i Blashfielda R.K.) treba “odsjeći” na oko 5 na ljestvici klastera reskalirane udaljenosti, čime se postiže razina sličnosti od 80%. Ako je teško odabrati klastere prema ovoj oznaci (nekoliko malih klastera spaja se u jedan veliki), tada možete odabrati drugu oznaku. Ovu tehniku ​​predlažu Oldenderfer i Blashfield.

Sada se postavlja pitanje stabilnosti usvojenog klaster rješenja. Zapravo, provjera stabilnosti klasteriranja svodi se na provjeru njegove pouzdanosti. Ovdje postoji pravilo - stabilna tipologija se čuva kada se metode grupiranja mijenjaju. Rezultati hijerarhijske analize klastera mogu se provjeriti iterativnom k-means klaster analizom. Ako uspoređene klasifikacije skupina ispitanika imaju udio podudarnosti veći od 70% (više od 2/3 podudarnosti), onda se donosi klaster odluka.

Nemoguće je provjeriti primjerenost rješenja bez pribjegavanja drugoj vrsti analize. Barem teoretski, ovaj problem nije riješen. Oldenderferova i Blashfieldova klasična analiza klastera razrađuje i u konačnici odbacuje pet dodatnih metoda ispitivanja robusnosti:

U informatici

  • Grupiranje rezultata pretraživanja - koristi se za "inteligentno" grupiranje rezultata prilikom pretraživanja datoteka, web stranica, drugih objekata, omogućavajući korisniku brzu navigaciju, odabir podskupa koji je očito relevantniji i isključuje očito manje relevantan - što može povećati upotrebljivost sučelja u usporedbi s izlazom u obliku jednostavnog sortiranog prema relevantnosti popisa.
    • Clusty - Vivísimova tražilica za grupiranje
    • Nigma - ruska tražilica s automatskim grupiranjem rezultata
    • Quintura - vizualno grupiranje u obliku oblaka ključnih riječi
  • Segmentacija slike segmentacija slike) - Grupiranje se može koristiti za razbijanje digitalne slike u različite regije u svrhu detekcije rubova. detekcija rubova) ili prepoznavanje objekata.
  • Data mining rudarenje podataka)- Grupiranje u Data Miningu postaje dragocjeno kada djeluje kao jedna od faza analize podataka, izgrađujući cjelovito analitičko rješenje. Analitičaru je često lakše identificirati grupe sličnih objekata, proučiti njihove značajke i izgraditi zasebni model za svaku grupu nego stvoriti jedan opći model za sve podatke. Ova tehnika se stalno koristi u marketingu, naglašavajući grupe kupaca, kupaca, robe i razvijajući zasebnu strategiju za svaku od njih.

vidi također

Bilješke

Linkovi

Na ruskom
  • www.MachineLearning.ru - profesionalni wiki resurs posvećen strojnom učenju i rudarenju podataka
Na engleskom
  • COMPACT - Usporedni paket za ocjenu grupiranja. Besplatni Matlab paket, 2006.
  • P. Berkhin, Pregled tehnika klasteriranja podataka rudarenja, Accue Software, 2002.
  • Jain, Murty i Flynn: Grupiranje podataka: pregled, ACM Comp. Surv., 1999.
  • za još jedan prikaz hijerarhijskih, k-srednjih i neizrazitih c-sredina pogledajte ovaj uvod u grupiranje. Također ima objašnjenje o mješavini Gaussovih.
  • David Dowe, Stranica Modeliranje mješavine- ostale veze modela klasteriranja i mješavine.
  • tutorial o grupiranju
  • On-line udžbenik: Teorija informacija, zaključivanje i algoritmi učenja, autora Davida J.C. MacKay uključuje poglavlja o grupiranju k-srednjih vrijednosti, grupiranju mekih k-srednjih vrijednosti i derivacijama uključujući E-M algoritam i varijacijski pogled na E-M algoritam.
  • "The Self-Organized Gene", vodič koji objašnjava grupiranje kroz natjecateljsko učenje i samoorganizirajuće karte.
  • kernlab - R paket za strojno učenje bazirano na kernelu (uključuje implementaciju spektralnog klasteriranja)
  • Vodič - Vodič s uvođenjem algoritama grupiranja (k-means, fuzzy-c-means, hijerarhijski, mješavina gaussovih) + neke interaktivne demonstracije (java apleti)
  • Softver za rudarenje podataka - softver za rudarenje podataka često koristi tehnike grupiranja podataka.
  • Java Competitive Learning Application Paket nenadziranih neuronskih mreža za grupiranje. Napisano na Javi. Kompletan sa svim izvornim kodom.
  • Softver za strojno učenje - također sadrži mnogo softvera za klasteriranje.

Znamo da je Zemlja jedan od 8 planeta koji se okreću oko Sunca. Sunce je samo zvijezda među oko 200 milijardi zvijezda u galaksiji Mliječni put. Vrlo je teško razumjeti ovaj broj. Znajući to, može se napraviti pretpostavka o broju zvijezda u svemiru - otprilike 4X10^22. Na nebu možemo vidjeti oko milijun zvijezda, iako je to samo mali dio stvarnog broja zvijezda. Dakle, imamo dva pitanja:

  1. Što je galaksija?
  2. I kakva je veza između galaksija i teme članka (analiza klastera)


Galaksija je skup zvijezda, plina, prašine, planeta i međuzvjezdanih oblaka. Obično galaksije podsjećaju na spiralni ili edeptički lik. U svemiru su galaksije odvojene jedna od druge. Ogromne crne rupe najčešće su središta većine galaksija.

Kao što ćemo raspravljati u sljedećem odjeljku, postoji mnogo sličnosti između galaksija i analize klastera. Galaksije postoje u trodimenzionalnom prostoru, analiza klastera je višedimenzionalna analiza koja se provodi u n-dimenzionalnom prostoru.

Napomena: Crna rupa je središte galaksije. Sličnu ideju koristit ćemo za centroide za analizu klastera.

klaster analiza

Recimo da ste voditelj marketinga i odnosa s kupcima u telekomunikacijskoj tvrtki. Shvaćate da su svi kupci različiti i da su vam potrebne različite strategije kako biste dosegli različite kupce. Cijenit ćete snagu takvog alata kao što je segmentacija kupaca za optimizaciju troškova. Da biste nadopunili svoje znanje o analizi klastera, razmotrite sljedeći primjer, koji ilustrira 8 kupaca i njihovo prosječno trajanje razgovora (lokalnog i međunarodnog). Ispod su podaci:

Radi bolje percepcije, nacrtajmo graf gdje će os x biti prosječno trajanje međunarodnih poziva, a os y - prosječno trajanje lokalnih poziva. Ispod je grafikon:

Napomena: Ovo je slično analizi položaja zvijezda na noćnom nebu (ovdje zvijezde zamjenjuju potrošači). Osim toga, umjesto 3D prostora, imamo 2D prostor, definiran trajanjem lokalnih i međunarodnih poziva, kao x i y osi.
Sada, govoreći u terminima galaksija, problem je formuliran na sljedeći način – pronaći položaj crnih rupa; u klaster analizi nazivaju se centroidi. Da bismo otkrili težišta, počet ćemo uzimajući proizvoljne točke kao položaj težišta.

Euklidska udaljenost za pronalaženje središta za nakupine

U našem slučaju ćemo nasumično postaviti dva težišta (C1 i C2) u točke s koordinatama (1, 1) i (3, 4). Zašto smo odabrali ova dva centroida? Vizualni prikaz točaka na grafu pokazuje nam da postoje dva klastera koje ćemo analizirati. Međutim, kasnije ćemo vidjeti da odgovor na ovo pitanje neće biti tako jednostavan za veliki skup podataka.
Zatim ćemo izmjeriti udaljenost između središta (C1 i C2) i svih točaka na grafu koristeći Euklidovu formulu kako bismo pronašli udaljenost između dvije točke.

Napomena: Udaljenost se također može izračunati pomoću drugih formula, na primjer,

  1. kvadrat euklidske udaljenosti – dati težinu objektima koji su međusobno udaljeniji
  2. Udaljenost od Manhattana - za smanjenje utjecaja emisija
  3. power distance - za povećanje / smanjenje utjecaja na određene koordinate
  4. postotak neslaganja - za kategoričke podatke
  5. i tako dalje.
Stupaci 3 i 4 (Udaljenost od C1 i C2) je udaljenost izračunata pomoću ove formule. Na primjer, za prvog korisnika

Pripadnost težištima (zadnji stupac) izračunava se prema principu blizine centroidima (C1 i C2). Prvi potrošač je bliži centroidu #1 (1,41 u usporedbi s 2,24) stoga pripada skupini sa središtem C1.

Ispod je grafikon koji ilustrira središnjice C1 i C2 (prikazano kao plavi i narančasti dijamant). Potrošači su prikazani u boji odgovarajućeg težišta kojem su dodijeljeni.

Budući da smo proizvoljno odabrali težišta, drugi korak je da ovaj izbor učinimo iterativnim. Novi položaj centara se bira kao prosjek za točke odgovarajućeg klastera. Tako, na primjer, za prvi centar (to su potrošači 1, 2 i 3). Stoga je nova x-koordinata za središte C1 prosjek x-koordinata ovih potrošača (2+1+1)/3 = 1,33. Dobit ćemo nove koordinate za C1 (1.33, 2.33) i C2 (4.4, 4.2).Novi grafikon je ispod:

Konačno, središte ćemo postaviti u središte odgovarajućeg klastera. Dijagram niže:

Položaji naših crnih rupa (centra klastera) u našem primjeru su C1 (1,75, 2,25) i C2 (4,75, 4,75). Dva gornja jata su poput dvije galaksije odvojene u svemiru jedna od druge.

Dakle, pogledajmo dalje primjere. Suočimo se sa zadatkom segmentiranja potrošača prema dva parametra: dobi i prihodu. Pretpostavimo da imamo 2 potrošača u dobi od 37 i 44 godine s prihodima od 90.000 dolara i 62.000 dolara. Ako želimo izmjeriti euklidsku udaljenost između točaka (37, 90000) i (44, 62000), vidjet ćemo da u ovom slučaju varijabla dohotka “dominira” varijablu dobi i njezina promjena snažno utječe na udaljenost. Potrebna nam je neka vrsta strategije za rješavanje ovog problema, inače će naša analiza dati netočan rezultat. Rješenje ovog problema je dovođenje naših vrijednosti na usporedive razmjere. Normalizacija je rješenje za naš problem.

Normalizacija podataka

Postoji mnogo pristupa za normalizaciju podataka. Na primjer, minimalna-maksimalna normalizacija. Za ovu normalizaciju koristi se sljedeća formula

u ovom slučaju, X* je normalizirana vrijednost, min i max su minimalne i maksimalne koordinate za cijeli skup X
(Napomena, ova formula postavlja sve koordinate na segment)
Razmotrimo naš primjer, neka maksimalni prihod bude 130.000 dolara, a minimalni 45.000 dolara. Normalizirana vrijednost dohotka za potrošača A je

Ovu vježbu ćemo raditi za sve točke za svaku varijablu (koordinatu). Prihod za drugog potrošača (62000) nakon postupka normalizacije postat će 0,2. Uz to, neka minimalna i maksimalna dob budu 23, odnosno 58 godina. Nakon normalizacije, dob naša dva potrošača bit će 0,4 i 0,6 godina.

Lako je vidjeti da su sada svi naši podaci između 0 i 1. Stoga sada imamo normalizirane skupove podataka na usporedivim ljestvicama.

Zapamtite, prije postupka klaster analize potrebno je izvršiti normalizaciju.

Vrste unosa

  • Indikativni opis objekata. Svaki objekt je opisan skupom njegovih karakteristika, tzv znakovi. Značajke mogu biti numeričke ili nenumeričke.
  • Matrica udaljenosti između objekata. Svaki objekt je opisan udaljenostima do svih ostalih objekata u uzorku za obuku.

Matrica udaljenosti može se izračunati iz matrice opisa obilježja objekata na beskonačan broj načina, ovisno o tome kako uvesti funkciju udaljenosti (metriku) između opisa obilježja. Euklidska metrika se često koristi, ali ovaj je izbor u većini slučajeva heuristički i samo zbog pogodnosti.

Inverzni problem - obnavljanje opisa obilježja matricom parnih udaljenosti između objekata - u općem slučaju nema rješenja, a približno rješenje nije jedinstveno i može imati značajnu pogrešku. Ovaj problem se rješava metodama višedimenzionalnog skaliranja.

Dakle, formulacija problema grupiranja po matrica udaljenosti je općenitije. S druge strane, uz prisutnost opisa značajki, često je moguće izgraditi učinkovitije metode klasteriranja.

Ciljevi grupiranja

  • Razumijevanje podataka identificiranjem strukture klastera. Podjela uzorka u skupine sličnih objekata omogućuje pojednostavljenje daljnje obrade podataka i donošenja odluka primjenom vlastite metode analize na svaki klaster (strategija “podijeli pa vladaj”).
  • Kompresija podataka. Ako je početni uzorak pretjerano velik, onda se može smanjiti, ostavljajući jednog od najtipičnijih predstavnika iz svakog klastera.
  • Otkrivanje novosti. Odabiru se netipični objekti koji se ne mogu pričvrstiti ni na jedan od klastera.

U prvom slučaju pokušavaju smanjiti broj klastera. U drugom slučaju, važnije je osigurati visok (ili fiksni) stupanj sličnosti objekata unutar svakog klastera, a klastera može postojati bilo koji broj. U trećem slučaju od najvećeg su interesa pojedinačni objekti koji se ne uklapaju ni u jedan od klastera.

U svim tim slučajevima može se primijeniti hijerarhijsko grupiranje, kada se veliki klasteri dijele na manje, koji se, pak, dijele na još manje, itd. Takvi zadaci se nazivaju taksonomijski zadaci.

Rezultat taksonomije je hijerarhijska struktura nalik stablu. Osim toga, svaki objekt karakterizira nabrajanje svih klastera kojima pripada, obično od velikih do malih. Vizualno, taksonomija je predstavljena kao graf koji se naziva dendrogram.

Klasičan primjer taksonomije koja se temelji na sličnosti je binomna nomenklatura živih bića koju je predložio Carl Linnaeus sredinom 18. stoljeća. Slične se sistematizacije grade u mnogim područjima znanja kako bi se organizirale informacije o velikom broju objekata.

Funkcije udaljenosti

Metode grupiranja

  • Statistički algoritmi grupiranja
  • Hijerarhijsko grupiranje ili taksonomija

Formalna izjava o problemu grupiranja

Neka je skup objekata, biti skup brojeva (imena, oznaka) klastera. Zadana je funkcija udaljenosti između objekata. Postoji konačan skup objekata za obuku. Uzorak je potrebno podijeliti na podskupove koji se ne preklapaju tzv grozdovima, tako da se svaki klaster sastoji od objekata bliskih metrički, a objekti različitih klastera značajno se razlikuju. U ovom slučaju, svakom objektu je dodijeljen broj klastera.

Algoritam grupiranja je funkcija koja povezuje bilo koji objekt s brojem klastera. Skup je u nekim slučajevima poznat unaprijed, ali češće je zadatak odrediti optimalan broj klastera, s gledišta jednog ili drugog kriteriji kvalitete grupiranje.

Grupiranje (učenje bez nadzora) razlikuje se od klasifikacije (učenje pod nadzorom) po tome što oznake izvornih objekata nisu inicijalno postavljene, a sam skup može čak biti nepoznat.

Rješenje problema klasteriranja u osnovi je dvosmisleno, a za to postoji nekoliko razloga:

  • Ne postoji jedinstveno najbolji kriterij za kvalitetu grupiranja. Poznat je niz heurističkih kriterija, kao i niz algoritama koji nemaju jasno definiran kriterij, ali provode prilično razumno grupiranje “po konstrukciji”. Svi oni mogu dati različite rezultate.
  • Broj klastera obično je unaprijed nepoznat i postavlja se prema nekom subjektivnom kriteriju.
  • Rezultat grupiranja značajno ovisi o metrici čiji je izbor u pravilu također subjektivan i određuje ga stručnjak.

Linkovi

  • Vorontsov K.V. Metode nastave matematike prema prethodnicima. Moskovski institut za fiziku i tehnologiju (2004), VMiK MGU (2007).
  • Sergej Nikolenko. Slajdovi predavanja "Algoritmi grupiranja 1" i "Algoritmi klasteriranja 2". Tečaj "Sustavi za samoučenje".

Književnost

  1. Aivazyan S. A., Buchstaber V. M., Enyukov I. S., Meshalkin L. D. Primijenjena statistika: klasifikacija i redukcija dimenzija. - M.: Financije i statistika, 1989.
  2. Žuravljev Yu. I., Ryazanov V. V., Senko O. V."Priznanje". Matematičke metode. Softverski sustav. Praktične aplikacije. - M.: Fazis, 2006. .
  3. Zagoruiko N. G. Primijenjene metode analize podataka i znanja. - Novosibirsk: IM SO RAN, 1999. .
  4. Mandel I. D. klaster analiza. - M.: Financije i statistika, 1988. .
  5. Shlesinger M., Glavach V. Deset predavanja o statističkom i strukturnom prepoznavanju. - Kijev: Naukova dumka, 2004. .
  6. Hastie T., Tibshirani R., Friedman J. Elementi statističkog učenja. - Springer, 2001. .