Biografije Karakteristike Analiza

Algoritmi grupiranja podataka. Algoritmi temeljeni na teoriji grafova

Klaster analiza je

Dobar dan. Ovdje imam poštovanje prema ljudima koji su ljubitelji njihovog rada.

Maxim, moj prijatelj, pripada ovoj kategoriji. Konstantno radi s brojkama, analizira ih, izrađuje relevantna izvješća.

Jučer smo zajedno ručali, pa mi je skoro pola sata pričao o klaster analizi - što je to i u kojim slučajevima je razumna i svrsishodna njena primjena. Pa, što je sa mnom?

Imam dobro pamćenje, pa ću vam uzgred dati sve ove podatke koje sam već znao u izvornom i najinformativnijem obliku.

Klaster analiza je dizajnirana da podijeli skup objekata u homogene grupe (klastere ili klase). Ovo je zadatak multivarijantne klasifikacije podataka.

Postoji oko 100 različitih algoritama klasteriranja, međutim, najčešće korišteni su hijerarhijska klaster analiza i k-means klasteriranje.

Gdje se koristi klaster analiza? U marketingu je to segmentacija konkurenata i potrošača.

U menadžmentu: podjela osoblja u grupe različitih razina motivacije, klasifikacija dobavljača, identifikacija sličnih proizvodnih situacija u kojima dolazi do braka.

U medicini, klasifikacija simptoma, bolesnika, lijekova. U sociologiji, podjela ispitanika na homogene skupine. Zapravo, klaster analiza se dobro pokazala u svim sferama ljudskog života.

Ljepota ove metode je u tome što funkcionira čak i kada ima malo podataka i nisu ispunjeni zahtjevi za normalnošću distribucija slučajnih varijabli i ostali zahtjevi klasičnih metoda statističke analize.

Objasnimo bit klaster analize bez pribjegavanja strogoj terminologiji:
Recimo da ste proveli anketu među zaposlenicima i želite utvrditi kako možete najučinkovitije upravljati svojim osobljem.

Odnosno, želite podijeliti zaposlenike u grupe i odabrati najučinkovitije upravljačke poluge za svaku od njih. Pritom razlike između skupina trebaju biti očite, a unutar skupine ispitanici trebaju biti što sličniji.

Za rješavanje problema predlaže se korištenje hijerarhijske klaster analize.

Kao rezultat toga, dobit ćemo stablo, gledajući u koje moramo odlučiti na koliko klasa (klastera) želimo podijeliti osoblje.

Pretpostavimo da odlučimo podijeliti osoblje u tri skupine, a zatim za proučavanje ispitanika koji su pali u svaki klaster dobivamo tablet sa sljedećim sadržajem:


Objasnimo kako nastaje gornja tablica. Prvi stupac sadrži broj klastera — grupe čiji se podaci odražavaju u retku.

Na primjer, prvi klaster je 80% muški. 90% prvog klastera spada u dobnu skupinu od 30 do 50 godina, a 12% ispitanika smatra da su beneficije vrlo važne. I tako dalje.

Pokušajmo napraviti portrete ispitanika svakog klastera:

  1. Prva skupina su uglavnom muškarci zrele dobi, koji zauzimaju vodeće položaje. Socijalni paket (MED, LGOTI, TIME-free time) ih ne zanima. Radije primaju dobru plaću nego pomoć poslodavca.
  2. Grupa dva, naprotiv, preferira socijalni paket. Sastoji se uglavnom od "starijih" ljudi koji zauzimaju niske položaje. Plaća im je svakako bitna, ali postoje drugi prioriteti.
  3. Treća skupina je "najmlađa". Za razliku od prethodna dva, očit je interes za učenjem i mogućnostima profesionalnog razvoja. Ova kategorija zaposlenika ima dobre šanse uskoro nadopuniti prvu skupinu.

Dakle, kada se planira kampanja za uvođenje učinkovitih metoda upravljanja osobljem, očito je da je u našoj situaciji moguće povećati socijalni paket za drugu skupinu na štetu, primjerice, plaća.

Ako govorimo o tome koje stručnjake treba poslati na obuku, onda svakako možemo preporučiti da obratite pozornost na treću skupinu.

Izvor: http://www.nickart.spb.ru/analysis/cluster.php

Značajke klaster analize

Klaster je cijena imovine u određenom vremenskom razdoblju tijekom kojeg su obavljene transakcije. Rezultirajući obujam kupnje i prodaje označen je brojem unutar klastera.

Traka bilo kojeg TF-a u pravilu sadrži nekoliko klastera. To vam omogućuje detaljan pregled obujma kupnje, prodaje i njihovog stanja u svakoj pojedinačnoj traci, za svaku razinu cijena.


Promjena cijene jedne imovine neizbježno povlači za sobom lanac kretanja cijena i drugih instrumenata.

Pažnja!

U većini slučajeva, razumijevanje kretanja trenda događa se već u trenutku kada se brzo razvija, a ulazak na tržište uz trend prepun je pada u korektivni val.

Za uspješno trgovanje potrebno je razumjeti trenutnu situaciju i moći predvidjeti buduća kretanja cijena. To se može naučiti analizom klaster grafa.

Uz pomoć klaster analize možete vidjeti aktivnost tržišnih sudionika i unutar najmanje cjenovne trake. Ovo je najpreciznija i najdetaljnija analiza, jer pokazuje raspodjelu točaka obujma transakcija za svaku razinu cijene imovine.

Na tržištu postoji stalna konfrontacija između interesa prodavača i kupaca. I svaki najmanji pomak cijene (tick) je pomak na kompromis - razinu cijene - koja u ovom trenutku odgovara objema stranama.

Ali tržište je dinamično, broj prodavača i kupaca se stalno mijenja. Ako su u jednom trenutku tržištem dominirali prodavači, onda će u sljedećem trenutku najvjerojatnije biti kupaca.

Broj obavljenih transakcija na susjednim cjenovnim razinama također nije isti. Pa ipak, prvo se stanje na tržištu odražava na ukupni volumen transakcija, a tek onda na cijenu.

Ako vidite radnje dominantnih sudionika na tržištu (prodavača ili kupaca), tada možete predvidjeti samo kretanje cijene.

Da biste uspješno primijenili klaster analizu, prvo morate razumjeti što su klaster i delta.


Klaster se naziva kretanje cijena, koje je podijeljeno na razine na kojima su napravljene transakcije s poznatim količinama. Delta pokazuje razliku između kupnje i prodaje koja se događa u svakom klasteru.

Svaki klaster, ili grupa delta, omogućuje vam da shvatite dominiraju li kupci ili prodavači tržištem u određenom trenutku.

Dovoljno je samo izračunati ukupnu deltu zbrajanjem prodaje i kupnje. Ako je delta negativna, tada je tržište preprodano, postoje suvišne prodajne transakcije. Kada je delta pozitivna, tržištem jasno dominiraju kupci.

Sama delta može poprimiti normalnu ili kritičnu vrijednost. Vrijednost delta volumena iznad normalne vrijednosti u klasteru označena je crvenom bojom.

Ako je delta umjerena, tada to karakterizira ravno stanje na tržištu. Uz normalnu delta vrijednost, uočava se kretanje trenda na tržištu, ali kritična vrijednost uvijek je preteča preokreta cijene.

Forex trgovanje s CA

Da biste dobili maksimalnu dobit, morate biti u mogućnosti odrediti prijelaz delte s umjerene razine na normalnu. Doista, u ovom slučaju možete primijetiti sam početak prijelaza iz ravnog u trend kretanja i moći dobiti najveću dobit.

Grafikon klastera je vizualniji, na njemu možete vidjeti značajne razine akumulacije i distribucije volumena, izgraditi razine podrške i otpora. To omogućuje trgovcu da pronađe točan ulaz u trgovinu.

Pomoću delte može se procijeniti prevladavanje prodaje ili kupnje na tržištu. Analiza klastera omogućuje vam promatranje transakcija i praćenje njihovih količina unutar trake bilo kojeg TF-a.

Ovo je posebno važno kada se približavate značajnim razinama podrške ili otpora. Prosudbe klastera ključ su za razumijevanje tržišta.

Izvor: http://orderflowtrading.ru/analitika-rynka/obemy/klasternyy-analiz/

Područja i značajke primjene klaster analize

Pojam klaster analiza (prvi ga je uveo Tryon, 1939.) zapravo uključuje skup različitih algoritama klasifikacije.

Uobičajeno pitanje koje postavljaju istraživači u mnogim područjima je kako organizirati promatrane podatke u vizualne strukture, tj. proširiti taksonomije.

Prema suvremenom sustavu prihvaćenom u biologiji, čovjek spada u primate, sisavce, amniote, kralješnjake i životinje.

Imajte na umu da u ovoj klasifikaciji, što je viša razina agregacije, to je manje sličnosti između članova u odgovarajućoj klasi.

Čovjek ima više sličnosti s drugim primatima (tj. majmunima) nego s "dalekim" članovima obitelji sisavaca (tj. psima), i tako dalje.

Imajte na umu da se prethodna rasprava odnosi na algoritme klasteriranja, ali ne spominje ništa o testiranju statističke značajnosti.

Zapravo, analiza klastera nije toliko obična statistička metoda koliko "skup" različitih algoritama za "distribuciju objekata u klastere".

Postoji stajalište da se, za razliku od mnogih drugih statističkih postupaka, metode klaster analize koriste u većini slučajeva kada nemate nikakvih apriornih hipoteza o klasama, već su još uvijek u deskriptivnoj fazi istraživanja.

Pažnja!

Treba razumjeti da klaster analiza određuje "najmoguće smislenu odluku".

Stoga testiranje statističke značajnosti ovdje nije stvarno primjenjivo, čak ni u slučajevima kada su p-razine poznate (kao, na primjer, u metodi K-srednjih vrijednosti).

Tehnika grupiranja koristi se u raznim područjima. Hartigan (1975) je dao izvrstan pregled mnogih objavljenih studija koje sadrže rezultate dobivene metodama klaster analize.

Na primjer, u području medicine, grupiranje bolesti, liječenje bolesti ili simptoma bolesti dovodi do naširoko korištenih taksonomija.

U području psihijatrije, ispravna dijagnoza skupova simptoma kao što su paranoja, shizofrenija itd. ključna je za uspješnu terapiju. U arheologiji, korištenjem klaster analize, istraživači pokušavaju uspostaviti taksonomije kamenog oruđa, pogrebnih predmeta itd.

Postoji široka primjena analize klastera u marketinškim istraživanjima. Općenito, kad god je potrebno razvrstati "planine" informacija u skupine pogodne za daljnju obradu, klaster analiza pokazuje se vrlo korisnom i učinkovitom.

Grupiranje stabala

Primjer u odjeljku Primarne namjene objašnjava svrhu algoritma spajanja (grupiranje stabla).

Svrha ovog algoritma je kombinirati objekte (na primjer, životinje) u dovoljno velike skupine koristeći neku mjeru sličnosti ili udaljenosti između objekata. Tipičan rezultat takvog klasteriranja je hijerarhijsko stablo.

Razmotrimo horizontalni dijagram stabla. Dijagram počinje svakim objektom u klasi (na lijevoj strani dijagrama).

Sada zamislite da postupno (u vrlo malim koracima) "slabite" svoj kriterij za to koji su predmeti jedinstveni, a koji nisu.

Drugim riječima, snižavate prag koji se odnosi na odluku o kombiniranju dva ili više objekata u jedan klaster.

Kao rezultat toga, povezujete sve više i više objekata zajedno i agregirate (kombinirate) sve više i više klastera sve više različitih elemenata.

Konačno, u zadnjem koraku, svi objekti se spajaju. U ovim grafikonima vodoravne osi predstavljaju udaljenost udruživanja (u okomitim dendrogramima, okomite osi predstavljaju udaljenost udruživanja).

Dakle, za svaki čvor na grafikonu (gdje se formira novi klaster), možete vidjeti količinu udaljenosti za koju su odgovarajući elementi povezani u novi pojedinačni klaster.

Kada podaci imaju jasnu "strukturu" u smislu klastera objekata koji su slični jedni drugima, tada će se ta struktura vjerojatno odražavati u hijerarhijskom stablu različitim granama.

Kao rezultat uspješne analize metodom spajanja, postaje moguće detektirati klastere (grane) i interpretirati ih.

Metoda spajanja ili stabla klasteriranja koristi se u formiranju klastera različitosti ili udaljenosti između objekata. Te se udaljenosti mogu definirati u jednodimenzionalnom ili višedimenzionalnom prostoru.

Na primjer, ako morate grupirati vrste hrane u kafiću, možete uzeti u obzir broj kalorija sadržanih u njoj, cijenu, subjektivnu procjenu okusa itd.

Najizravniji način za izračunavanje udaljenosti između objekata u višedimenzionalnom prostoru je izračunavanje euklidskih udaljenosti.

Ako imate 2D ili 3D prostor, tada je ova mjera stvarna geometrijska udaljenost između objekata u prostoru (kao da su udaljenosti između objekata izmjerene metarskom trakom).

Međutim, algoritam za udruživanje ne "brine" o tome jesu li udaljenosti "predviđene" za to stvarne ili neke druge izvedene mjere udaljenosti, što je značajnije za istraživača; a izazov za istraživače je odabrati pravu metodu za specifične primjene.

Euklidska udaljenost.Čini se da je ovo najčešći tip udaljenosti. To je jednostavno geometrijska udaljenost u višedimenzionalnom prostoru i izračunava se na sljedeći način:

Imajte na umu da se euklidska udaljenost (i njezin kvadrat) izračunava iz izvornih podataka, a ne iz standardiziranih podataka.

Ovo je uobičajeni način izračuna koji ima određene prednosti (na primjer, udaljenost između dva objekta se ne mijenja kada se u analizu uvede novi objekt, što se može pokazati kao outlier).

Pažnja!

Međutim, na udaljenosti mogu uvelike utjecati razlike između osi s kojih se udaljenosti izračunavaju. Na primjer, ako se jedna od osi mjeri u centimetrima, a zatim je pretvorite u milimetre (množenjem vrijednosti s 10), tada će konačna euklidska udaljenost (ili kvadrat euklidske udaljenosti) izračunata iz koordinata dramatično se mijenjaju, a kao rezultat toga rezultati klaster analize mogu biti vrlo različiti od prethodnih.

Kvadrat euklidske udaljenosti. Ponekad ćete možda htjeti kvadrirati standardnu ​​euklidsku udaljenost kako biste dali veću težinu udaljenijim objektima.

Ova se udaljenost izračunava na sljedeći način:

Udaljenost gradskih blokova (udaljenost Manhattana). Ova udaljenost je jednostavno prosjek razlika u koordinatama.

U većini slučajeva ova mjera udaljenosti dovodi do istih rezultata kao i za uobičajenu Euklidovu udaljenost.

Međutim, imajte na umu da se za ovu mjeru utjecaj velikih pojedinačnih razlika (outliers) smanjuje (jer nisu kvadrirani). Udaljenost Manhattana izračunava se pomoću formule:

Čebiševljeva udaljenost. Ova udaljenost može biti korisna kada se dva objekta žele definirati kao "različita" ako se razlikuju u bilo kojoj koordinati (bilo kojoj dimenziji). Čebiševljeva udaljenost izračunava se po formuli:

Udaljenost snage. Ponekad je poželjno progresivno povećati ili smanjiti težinu koja se odnosi na dimenziju za koju su odgovarajući objekti vrlo različiti.

To se može postići korištenjem udaljenosti prema zakonu snage. Udaljenost snage izračunava se po formuli:

gdje su r i p korisnički definirani parametri. Nekoliko primjera izračuna može pokazati kako ova mjera "radi".

Parametar p odgovoran je za postupno ponderiranje razlika u pojedinačnim koordinatama, parametar r odgovoran je za postupno ponderiranje velikih udaljenosti između objekata. Ako su oba parametra - r i p, jednaka dva, tada se ta udaljenost poklapa s euklidskom udaljenošću.

Postotak neslaganja. Ova mjera se koristi kada su podaci kategorički. Ta se udaljenost izračunava po formuli:

Udruga ili pravila udruge

U prvom koraku, kada je svaki objekt zaseban klaster, udaljenosti između tih objekata određuju se odabranom mjerom.

Međutim, kada je više objekata povezano zajedno, postavlja se pitanje kako odrediti udaljenosti između klastera?

Drugim riječima, potrebno vam je pravilo spajanja ili povezivanja za dva klastera. Ovdje postoje razne mogućnosti: na primjer, možete povezati dva klastera zajedno kada su bilo koja dva objekta u dva klastera bliže jedan drugome od odgovarajuće udaljenosti veze.

Drugim riječima, koristite "pravilo najbližeg susjeda" za određivanje udaljenosti između klastera; ova metoda se naziva metoda jedne veze.

Ovo pravilo gradi "vlaknaste" nakupine, t.j. grozdovi "međusobno povezani" samo pojedinačnim elementima koji su slučajno bliži jedan drugome od ostalih.

Alternativno, možete koristiti susjede u klasterima koji su najudaljeniji jedan od drugog od svih ostalih parova značajki. Ova metoda se naziva metoda pune veze.

Postoje i mnoge druge metode za spajanje klastera, slične onima o kojima smo raspravljali.

Jednostruka veza (metoda najbližeg susjeda). Kao što je gore opisano, u ovoj metodi udaljenost između dva klastera određena je udaljenošću između dva najbliža objekta (najbližih susjeda) u različitim klasterima.

Ovo pravilo mora, u određenom smislu, nizati objekte zajedno kako bi formirali klastere, a rezultirajući klasteri teže biti predstavljeni dugim "nizovima".

Puni priključak (metoda najudaljenijih susjeda). U ovoj metodi, udaljenosti između klastera definirane su kao najveća udaljenost između bilo koja dva objekta u različitim klasterima (tj. "najudaljeniji susjedi").

Neponderirana srednja vrijednost po paru. U ovoj se metodi udaljenost između dva različita klastera izračunava kao prosječna udaljenost između svih parova objekata u njima.

Metoda je učinkovita kada objekti zapravo tvore različite "šumice", ali jednako dobro radi u slučajevima proširenih ("lančanog" tipa) klastera.

Imajte na umu da u svojoj knjizi Sneath i Sokal (1973.) uvode kraticu UPGMA kako bi ovu metodu označili kao metodu neponderirane grupe parova koja koristi aritmetičke prosjeke.

Ponderirana srednja vrijednost po paru. Metoda je identična metodi neponderiranog prosjeka po paru, osim što se veličina odgovarajućih klastera (tj. broj objekata koje sadrže) koristi kao faktor težine u izračunima.

Stoga bi se predložena metoda trebala koristiti (a ne prethodna) kada se pretpostavljaju nejednake veličine klastera.

Sneath i Sokal (1973.) uvode kraticu WPGMA kako bi ovu metodu označili kao metodu ponderirane grupe parova koja koristi aritmetičke prosjeke.

Metoda neponderiranog centroida. U ovoj metodi, udaljenost između dva klastera definirana je kao udaljenost između njihovih težišta.

Pažnja!

Sneath i Sokal (1973.) koriste akronim UPGMC kako bi ovu metodu označili kao metodu neponderirane grupe parova koja koristi prosjek središta.

Metoda ponderiranog težišta (medijan). Ova je metoda identična prethodnoj, osim što se u izračunima koriste težine koje uzimaju u obzir razliku između veličina klastera (tj. broja objekata u njima).

Stoga, ako postoje (ili se sumnja) značajne razlike u veličinama klastera, ova je metoda poželjnija od prethodne.

Sneath i Sokal (1973.) upotrijebili su kraticu WPGMC da bi je označili kao metodu ponderirane grupe parova koristeći prosjek središta.

Wardova metoda. Ova se metoda razlikuje od svih ostalih jer koristi ANOVA metode za procjenu udaljenosti između klastera.

Metoda minimizira zbroj kvadrata (SS) za bilo koja dva (hipotetska) klastera koja se mogu formirati u svakom koraku.

Pojedinosti se mogu naći u Ward (1963). Općenito, metoda se čini vrlo učinkovitom, ali teži stvaranju malih klastera.

Ranije se o ovoj metodi raspravljalo u smislu "objekata" koje treba grupirati. U svim drugim vrstama analiza, pitanje od interesa za istraživača obično se izražava u terminima opažanja ili varijabli.

Ispostavilo se da grupiranje, kako prema opažanjima tako i prema varijablama, može dovesti do vrlo zanimljivih rezultata.

Na primjer, zamislite da medicinski istraživač prikuplja podatke o različitim karakteristikama (varijablama) stanja pacijenata (opažanja) sa srčanim bolestima.

Istraživač može htjeti grupirati opažanja (pacijenata) kako bi identificirao skupine pacijenata sa sličnim simptomima.

U isto vrijeme, istraživač može htjeti klasterirati varijable kako bi identificirao klastere varijabli koje su povezane sa sličnim fizičkim stanjem.e

Nakon ove rasprave o tome treba li grupirati opažanja ili varijable, netko bi se mogao zapitati zašto ne grupirati u oba smjera?

Modul Cluster Analysis sadrži učinkovit dvosmjerni postupak spajanja za upravo to.

Međutim, dvosmjerno udruživanje koristi se (relativno rijetko) u okolnostima u kojima se očekuje da će i opažanja i varijable istovremeno pridonijeti otkrivanju smislenih klastera.

Dakle, vraćajući se na prethodni primjer, možemo pretpostaviti da medicinski istraživač treba identificirati klastere pacijenata koji su slični u odnosu na određene klastere karakteristika fizičkog stanja.

Poteškoće u tumačenju dobivenih rezultata proizlaze iz činjenice da sličnosti između različitih klastera mogu proizaći iz (ili biti uzrok) nekih razlika u podskupovima varijabli.

Stoga su dobiveni klasteri inherentno heterogeni. Možda se isprva čini pomalo maglovitim; doista, u usporedbi s drugim opisanim metodama analize klastera, dvosmjerno udruživanje je vjerojatno metoda koja se rjeđe koristi.

Međutim, neki istraživači vjeruju da nudi moćan alat za istraživačku analizu podataka (za više informacija, vidi Hartiganov opis ove metode (Hartigan, 1975.)).

K znači metoda

Ova metoda klasteriranja značajno se razlikuje od aglomerativnih metoda kao što su Union (stablo klasteriranja) i Two-Way Union. Pretpostavimo da već imate hipoteze o broju klastera (po promatranju ili po varijabli).

Možete reći sustavu da formira točno tri klastera tako da budu što različitiji.

Upravo tu vrstu problema rješava algoritam K-Means. Općenito, metoda K-srednjih vrijednosti gradi točno K različitih klastera razmaknutih što je moguće dalje.

U primjeru fizičkog stanja, medicinski istraživač može imati "predosjećaj" iz svog kliničkog iskustva da njegovi pacijenti općenito spadaju u tri različite kategorije.

Pažnja!

Ako je tako, tada bi sredstva različitih mjera fizičkih parametara za svaki klaster omogućila kvantitativni način predstavljanja hipoteza istraživača (npr. pacijenti u klasteru 1 imaju visok parametar 1, niži parametar 2, itd.).

S računalne točke gledišta, ovu metodu možete zamisliti kao analizu varijance "obrnuto". Program počinje s K nasumično odabranih klastera, a zatim mijenja pripadnost objekata njima kako bi:

  1. minimizirati varijabilnost unutar klastera,
  2. maksimizirati varijabilnost između klastera.

Ova je metoda slična obrnutoj analizi varijance (ANOVA) po tome što test značajnosti u ANOVA-i uspoređuje varijabilnost između grupa s varijabilnošću unutar grupe u testiranju hipoteze da se srednje vrijednosti grupe razlikuju jedna od druge.

U klasteriranju K-srednjih vrijednosti, program premješta objekte (tj. opažanja) iz jedne grupe (klastera) u drugu kako bi se dobio najznačajniji rezultat prilikom izvođenja analize varijance (ANOVA).

Tipično, kada se dobiju rezultati analize klastera K-srednjih vrijednosti, može se izračunati srednja vrijednost za svaki klaster za svaku dimenziju kako bi se procijenilo kako se klasteri razlikuju jedan od drugog.

U idealnom slučaju, trebali biste dobiti vrlo različite srednje vrijednosti za većinu, ako ne i sva, mjerenja korištena u analizi.

Izvor: http://www.biometrica.tomsk.ru/textbook/modules/stcluan.html

Klasifikacija objekata prema njihovim karakteristikama

Klaster analiza (klaster analiza) - skup višedimenzionalnih statističkih metoda za klasificiranje objekata prema njihovim karakteristikama, dijeljenje skupa objekata u homogene skupine koje su bliske u smislu definiranja kriterija, odabir objekata određene skupine.

Klaster je skupina objekata identificiranih kao rezultat analize klastera na temelju dane mjere sličnosti ili razlike između objekata.

Objekt su specifični predmeti proučavanja koje treba klasificirati. Objekti u klasifikaciji su u pravilu opažanja. Na primjer, potrošači proizvoda, zemlje ili regije, proizvodi itd.

Iako je moguće provesti klaster analizu po varijablama. Klasifikacija objekata u višedimenzionalnoj klaster analizi odvija se prema nekoliko kriterija istovremeno.

To mogu biti i kvantitativne i kategoričke varijable, ovisno o metodi klaster analize. Dakle, glavni cilj klaster analize je pronaći grupe sličnih objekata u uzorku.

Skup višedimenzionalnih statističkih metoda klaster analize može se podijeliti na hijerarhijske (aglomerativne i divizijske) i nehijerarhijske (k-means metoda, dvostupanjska klaster analiza).

Međutim, ne postoji općeprihvaćena klasifikacija metoda, a ponekad metode klaster analize uključuju i metode za konstrukciju stabala odlučivanja, neuronske mreže, diskriminantnu analizu i logističku regresiju.

Opseg klaster analize je, zbog svoje svestranosti, vrlo širok. Klaster analiza se koristi u ekonomiji, marketingu, arheologiji, medicini, psihologiji, kemiji, biologiji, javnoj upravi, filologiji, antropologiji, sociologiji i drugim područjima.

Evo nekoliko primjera primjene klaster analize:

  • medicina - klasifikacija bolesti, njihovi simptomi, metode liječenja, klasifikacija skupina bolesnika;
  • marketing - zadaci optimizacije linije proizvoda tvrtke, segmentiranje tržišta prema grupama roba ili potrošača, identificiranje potencijalnog potrošača;
  • sociologija - podjela ispitanika na homogene skupine;
  • psihijatrija - pravilna dijagnoza simptomatskih skupina ključna je za uspješnu terapiju;
  • biologija - klasifikacija organizama po skupinama;
  • gospodarstvo - klasifikacija subjekata Ruske Federacije po atraktivnosti ulaganja.

Izvor: http://www.statmethods.ru/konsalting/statistics-methody/121-klasternyj-analyz.html

Opće informacije o klaster analizi

Klaster analiza uključuje skup različitih algoritama klasifikacije. Uobičajeno pitanje koje postavljaju istraživači u mnogim područjima je kako organizirati promatrane podatke u vizualne strukture.

Na primjer, biolozi žele rastaviti životinje na različite vrste kako bi smisleno opisali razlike među njima.

Zadatak klaster analize je podijeliti početni skup objekata u grupe sličnih, bliskih objekata. Te se skupine nazivaju klasteri.

Drugim riječima, klaster analiza je jedan od načina klasifikacije objekata prema njihovim karakteristikama. Poželjno je da rezultati klasifikacije imaju smislenu interpretaciju.

Rezultati dobiveni metodama klaster analize koriste se u raznim područjima. U marketingu je to segmentacija konkurenata i potrošača.

U psihijatriji je za uspješnu terapiju ključna ispravna dijagnoza simptoma kao što su paranoja, shizofrenija i sl.

U menadžmentu je važna klasifikacija dobavljača, prepoznavanje sličnih proizvodnih situacija u kojima dolazi do braka. U sociologiji, podjela ispitanika na homogene skupine. U portfeljnom ulaganju važno je grupirati vrijednosne papire prema njihovoj sličnosti u trendu prinosa kako bi se na temelju informacija dobivenih o tržištu dionica sastavio optimalan investicijski portfelj koji omogućuje maksimiziranje povrata od ulaganja za određeni stupanj rizika .

Općenito, kad god je potrebno klasificirati veliku količinu informacija ove vrste i prikazati ih u obliku pogodnom za daljnju obradu, klaster analiza se pokazuje vrlo korisnom i učinkovitom.

Klasterska analiza omogućuje razmatranje prilično velike količine informacija i veliku kompresiju velikih nizova socio-ekonomskih informacija, čineći ih kompaktnima i vizualnima.

Pažnja!

Klaster analiza je od velike važnosti u odnosu na skupove vremenskih serija koje karakteriziraju ekonomski razvoj (na primjer, opći ekonomski i robni uvjeti).

Ovdje je moguće izdvojiti razdoblja u kojima su vrijednosti odgovarajućih pokazatelja bile prilično bliske, kao i odrediti skupine vremenskih serija čija je dinamika najsličnija.

U problemima socio-ekonomskog predviđanja vrlo je perspektivno kombinirati klaster analizu s drugim kvantitativnim metodama (na primjer, s regresijskom analizom).

Prednosti i nedostatci

Klaster analiza omogućuje objektivnu klasifikaciju bilo kojih objekata koji se odlikuju nizom značajki. Iz ovoga se mogu izvući brojne koristi:

  1. Nastali klasteri mogu se interpretirati, odnosno opisati kakve grupe zapravo postoje.
  2. Pojedinačni klasteri se mogu odbiti. Ovo je korisno u slučajevima kada su u skupu podataka napravljene određene pogreške, zbog čega vrijednosti pokazatelja za pojedine objekte naglo odstupaju. Primjenom klaster analize takvi objekti spadaju u zaseban klaster.
  3. Za daljnju analizu mogu se odabrati samo oni klasteri koji imaju karakteristike od interesa.

Kao i svaka druga metoda, klaster analiza ima određene nedostatke i ograničenja. Konkretno, sastav i broj klastera ovisi o odabranim kriterijima dijeljenja.

Prilikom smanjivanja početnog niza podataka u kompaktniji oblik, mogu se pojaviti određena izobličenja, a pojedinačne značajke pojedinačnih objekata također se mogu izgubiti zbog njihove zamjene karakteristikama generaliziranih vrijednosti parametara klastera.

Metode

Trenutno je poznato više od stotinu različitih algoritama klasteriranja. Njihova se raznolikost objašnjava ne samo različitim računalnim metodama, već i različitim konceptima na kojima se temelji klasteriranje.

Paket Statistica implementira sljedeće metode klasteriranja.

  • Hijerarhijski algoritmi - grupiranje stabala. Hijerarhijski algoritmi temelje se na ideji sekvencijalnog grupiranja. U početnom koraku svaki objekt se smatra zasebnim klasterom. U sljedećem koraku, neki od klastera koji su najbliži jedan drugome spojit će se u zaseban klaster.
  • Metoda K-značenja. Ova metoda je najčešće korištena. Spada u skupinu tzv. referentnih metoda klaster analize. Broj klastera K postavlja korisnik.
  • Dvosmjerna asocijacija. Pri korištenju ove metode klasteriranje se provodi istovremeno i po varijablama (stupci) i po rezultatima promatranja (retci).

Postupak dvosmjernog spajanja provodi se kada se može očekivati ​​da će istovremeno grupiranje varijabli i opažanja dati značajne rezultate.

Rezultati postupka su deskriptivna statistika o varijablama i slučajevima, kao i dvodimenzionalni grafikon boja na kojem su vrijednosti podataka označene bojama.

Po raspodjeli boja možete dobiti ideju o homogenim skupinama.

Normalizacija varijabli

Podjela početnog skupa objekata u klastere povezana je s izračunavanjem udaljenosti između objekata i izborom objekata čija je udaljenost najmanja od svih mogućih.

Najčešće korištena je euklidska (geometrijska) udaljenost svima nama poznata. Ova metrika odgovara intuitivnim idejama o blizini objekata u prostoru (kao da se udaljenosti između objekata mjere metrom).

Ali za danu metriku, na udaljenost između objekata mogu snažno utjecati promjene u mjerilima (mjerne jedinice). Na primjer, ako se jedna od značajki mjeri u milimetrima, a zatim se njezina vrijednost pretvori u centimetre, euklidska udaljenost između objekata dramatično će se promijeniti. To će dovesti do činjenice da se rezultati klaster analize mogu značajno razlikovati od prethodnih.

Ako se varijable mjere u različitim mjernim jedinicama, tada je potrebna njihova prethodna normalizacija, odnosno transformacija početnih podataka, koja ih pretvara u bezdimenzionalne veličine.

Normalizacija snažno iskrivljuje geometriju izvornog prostora, što može promijeniti rezultate klasteriranja

U paketu Statistica svaka varijabla x normalizirana je prema formuli:

Da biste to učinili, kliknite desnom tipkom miša na naziv varijable i odaberite niz naredbi iz izbornika koji se otvori: Ispuni/ Standardiziraj blok/ Standardiziraj stupce. Vrijednosti normalizirane varijable postat će jednake nuli, a varijance će postati jednake jedinici.

Metoda K-srednjih vrijednosti u Statistici

Metoda K-means dijeli skup objekata u zadani broj K različitih klastera koji se nalaze na najvećoj mogućoj udaljenosti jedan od drugog.

Tipično, nakon što se dobiju rezultati analize klastera K-srednjih vrijednosti, može se izračunati prosjek za svaki klaster za svaku dimenziju kako bi se procijenilo kako se klasteri razlikuju jedan od drugog.

U idealnom slučaju, trebali biste dobiti vrlo različite srednje vrijednosti za većinu mjerenja korištenih u analizi.

Vrijednosti F-statistike dobivene za svaku dimenziju još su jedan pokazatelj koliko dobro odgovarajuća dimenzija razlikuje klastere.

Kao primjer, razmotrite rezultate ankete 17 zaposlenika poduzeća o zadovoljstvu pokazateljima kvalitete karijere. Tablica sadrži odgovore na pitanja upitnika na skali od deset stupnjeva (1 je minimalna ocjena, 10 je maksimalna).

Nazivi varijabli odgovaraju odgovorima na sljedeća pitanja:

  1. SLT - kombinacija osobnih ciljeva i ciljeva organizacije;
  2. OSO - osjećaj pravednosti u plaćama;
  3. TBD - teritorijalna blizina kuće;
  4. PEW - osjećaj ekonomskog blagostanja;
  5. CR - rast karijere;
  6. ZhSR - želja za promjenom posla;
  7. OSB je osjećaj društvenog blagostanja.

Koristeći te podatke, potrebno je podijeliti zaposlenike u skupine i za svaku od njih odabrati najučinkovitije upravljačke poluge.

Pritom razlike između skupina trebaju biti očite, a unutar skupine ispitanici trebaju biti što sličniji.

Do danas većina socioloških istraživanja daje samo postotak glasova: uzima se u obzir glavni broj pozitivnih odgovora ili postotak onih koji su nezadovoljni, ali to se pitanje ne razmatra sustavno.

Najčešće anketa ne pokazuje trendove stanja. U nekim slučajevima potrebno je ne računati broj ljudi koji su “za” ili “protiv”, već distancu, odnosno mjeru sličnosti, odnosno odrediti skupine ljudi koji misle isto.

Postupci klaster analize mogu se koristiti za identifikaciju, na temelju anketnih podataka, nekih stvarno postojećih odnosa značajki i generiranje njihove tipologije na temelju toga.

Pažnja!

Prisutnost bilo kakvih apriornih hipoteza sociologa pri radu s postupcima klaster analize nije nužan uvjet.

U programu Statistica analiza klastera se izvodi na sljedeći način.

Prilikom odabira broja klastera vodite se sljedećim: broj klastera, ako je moguće, ne smije biti prevelik.

Udaljenost na kojoj su spojeni objekti danog klastera trebala bi, ako je moguće, biti mnogo manja od udaljenosti na kojoj se nešto drugo pridružuje ovom klasteru.

Kod odabira broja klastera najčešće postoji nekoliko točnih rješenja u isto vrijeme.

Zanima nas, primjerice, u kakvoj su korelaciji odgovori na pitanja upitnika s običnim zaposlenicima i upravom poduzeća. Stoga biramo K=2. Za daljnju segmentaciju možete povećati broj klastera.

  1. odaberite opažanja s maksimalnom udaljenošću između središta klastera;
  2. sortiranje udaljenosti i odabir opažanja u pravilnim intervalima (zadana postavka);
  3. uzmite prve promatračke centre i na njih pričvrstite ostale objekte.

Opcija 1 je prikladna za naše potrebe.

Mnogi algoritmi klasteriranja često "nameću" strukturu koja nije svojstvena podacima i dezorijentiraju istraživača. Stoga je iznimno potrebno primijeniti nekoliko algoritama klaster analize i donijeti zaključke na temelju opće ocjene rezultata algoritama.

Rezultati analize mogu se vidjeti u dijaloškom okviru koji se pojavi:

Ako odaberete karticu Grafikon srednjih vrijednosti, iscrtat će se grafikon koordinata središta klastera:


Svaka isprekidana linija na ovom grafikonu odgovara jednom od klastera. Svaka podjela horizontalne osi grafikona odgovara jednoj od varijabli uključenih u analizu.

Okomita os odgovara prosječnim vrijednostima varijabli za objekte uključene u svaki od klastera.

Može se primijetiti da postoje značajne razlike u stavu dviju skupina ljudi prema službenoj karijeri po gotovo svim pitanjima. Samo u jednom pitanju postoji potpuno jednoglasje - u smislu društvenog blagostanja (OSB), odnosno nedostatka istog (2,5 bodova od 10).

Može se pretpostaviti da klaster 1 predstavlja radnike, a klaster 2 menadžment. Menadžeri su zadovoljniji razvojem karijere (CR), kombinacijom osobnih ciljeva i organizacijskih ciljeva (SOL).

Imaju viši osjećaj ekonomskog blagostanja (SEW) i osjećaj pravednosti plaća (SWA).

Manje su zabrinuti zbog blizine doma od radnika, vjerojatno zbog manje problema s prijevozom. Također, menadžeri imaju manju želju za promjenom posla (JSR).

Unatoč tome što su radnici podijeljeni u dvije kategorije, na većinu pitanja daju relativno iste odgovore. Drugim riječima, ako nešto ne odgovara općoj skupini zaposlenika, isto ne odgovara višem menadžmentu i obrnuto.

Usklađenost grafikona omogućuje nam da zaključimo da se dobrobit jedne skupine odražava na dobrobit druge.

Klaster 1 nije zadovoljan teritorijalnom blizinom kuće. Ova skupina je glavni dio radnika koji uglavnom dolaze u poduzeće iz različitih dijelova grada.

Stoga je moguće ponuditi najvišem menadžmentu da dio dobiti dodijeli izgradnji stanova za zaposlenike poduzeća.

Vidljive su značajne razlike u odnosu dviju skupina ljudi prema službenoj karijeri. Oni zaposlenici koji su zadovoljni razvojem karijere, koji imaju visoku podudarnost osobnih ciljeva i ciljeva organizacije, nemaju želju za promjenom posla i osjećaju zadovoljstvo rezultatima svog rada.

Nasuprot tome, zaposlenici koji žele promijeniti posao, a nezadovoljni su rezultatima svog rada, nisu zadovoljni navedenim pokazateljima. Više rukovodstvo treba posvetiti posebnu pozornost trenutnoj situaciji.

Rezultati analize varijance za svaki atribut prikazuju se pritiskom na gumb Analiza varijance.

Prikazuju se zbrojevi kvadrata odstupanja objekata od centara klastera (SS Within) i zbrojevi kvadrata odstupanja između centara klastera (SS Between), vrijednosti F-statistike i p razine značajnosti.

Pažnja!

Za naš primjer, razine značajnosti za dvije varijable su prilično velike, što se objašnjava malim brojem opažanja. U punoj verziji studije, koja se nalazi u radu, hipoteze o jednakosti sredina za centre klastera su odbačene na razinama značajnosti manjim od 0,01.

Gumb Spremi klasifikacije i udaljenosti prikazuje broj objekata uključenih u svaki klaster i udaljenosti objekata do središta svakog klastera.

Tablica prikazuje brojeve slučajeva (CASE_NO) koji čine klastere s brojevima CLUSTER i udaljenosti od središta svakog klastera (DISTANCE).

Informacije o objektima koji pripadaju klasterima mogu se zapisati u datoteku i koristiti u daljnjoj analizi. U ovom primjeru, usporedba rezultata dobivenih s upitnicima pokazala je da se klaster 1 sastoji uglavnom od običnih radnika, a klaster 2 - od menadžera.

Dakle, vidljivo je da se pri obradi rezultata ankete klaster analiza pokazala snažnom metodom koja omogućuje izvođenje zaključaka do kojih se ne može doći konstruiranjem histograma prosjeka ili izračunavanjem postotka onih koji su zadovoljni različitim pokazateljima kvalitetu radnog života.

Klasteriranje u stablo je primjer hijerarhijskog algoritma, čiji je princip sekvencijalno grupiranje prvo najbližih, a potom sve udaljenijih elemenata u klaster.

Većina ovih algoritama polazi od matrice sličnosti (udaljenosti), a svaki pojedini element u početku se smatra zasebnim klasterom.

Nakon učitavanja modula za analizu klastera i odabira Spajanje (klasteriranje stabla), možete promijeniti sljedeće parametre u prozoru za unos parametara klasteriranja:

  • Početni podaci (Ulaz). Mogu biti u obliku matrice proučavanih podataka (Raw data) i u obliku matrice udaljenosti (Distance matrix).
  • Grupiranje (Cluster) promatranja (Cases (raw)) ili varijabli (Variable (columns)), koje opisuju stanje objekta.
  • Mjere udaljenosti. Ovdje možete odabrati sljedeće mjere: Euklidske udaljenosti, Kvadratne euklidske udaljenosti, City-block (Manhattan) distance, Chebychev distance metric, Power ...), postotak neslaganja (Percent disagreement).
  • Metoda klasteriranja (pravilo amalgamacije (povezivanje)). Ovdje su moguće sljedeće opcije: Pojedinačno povezivanje, Potpuno povezivanje, Neponderirani prosjek par-grupa, Ponderirani prosjek par-grupa), Neponderirani centroid para-grupa, Ponderirani centroid para-grupa (medijan), Wardova metoda.

Kao rezultat klasteriranja gradi se vodoravni ili okomiti dendrogram - grafikon na kojem se utvrđuju udaljenosti između objekata i klastera kada se sekvencijalno kombiniraju.

Struktura stabla grafikona omogućuje vam definiranje klastera ovisno o odabranom pragu - danoj udaljenosti između klastera.

Osim toga, prikazuje se matrica udaljenosti između originalnih objekata (Distance matrix); srednje i standardne devijacije za svaki izvorni objekt (distiptivna statistika).

Za razmatrani primjer provest ćemo klaster analizu varijabli sa zadanim postavkama. Dobiveni dendrogram prikazan je na slici.


Okomita os dendrograma iscrtava udaljenosti između objekata i između objekata i klastera. Dakle, udaljenost između varijabli SEB i OSD jednaka je pet. Ove se varijable u prvom koraku spajaju u jedan klaster.

Horizontalni segmenti dendrograma nacrtani su na razinama koje odgovaraju graničnim udaljenostima odabranim za određeni korak klasteriranja.

Iz grafikona je vidljivo da pitanje „želja za promjenom posla“ (JSR) čini poseban klaster. Općenito, želja za deponiranjem bilo gdje posjećuje sve podjednako. Nadalje, poseban klaster je pitanje teritorijalne blizine doma (LHB).

Po važnosti je na drugom mjestu, što potvrđuje zaključak o potrebi stambene izgradnje donesen prema rezultatima istraživanja metodom K-means.

Kombiniraju se osjećaji ekonomskog blagostanja (PEW) i jednakosti plaća (PWA) - ovo je blok ekonomskih pitanja. Također se kombinira napredovanje u karijeri (CR) i kombinacija osobnih ciljeva i ciljeva organizacije (COL).

Ostale metode grupiranja, kao i izbor drugih vrsta udaljenosti, ne dovode do značajne promjene u dendrogramu.

Rezultati:

  1. Klaster analiza moćan je alat za istraživačku analizu podataka i statističko istraživanje u bilo kojem predmetnom području.
  2. Program Statistica implementira i hijerarhijske i strukturne metode klaster analize. Prednosti ovog statističkog paketa su zbog njihovih grafičkih mogućnosti. Prikazani su dvodimenzionalni i trodimenzionalni grafički prikazi dobivenih klastera u prostoru proučavanih varijabli, kao i rezultati hijerarhijskog postupka grupiranja objekata.
  3. Potrebno je primijeniti nekoliko algoritama klaster analize i donijeti zaključke na temelju opće ocjene rezultata algoritama.
  4. Analiza klastera može se smatrati uspješnom ako se provodi na različite načine, rezultati se uspoređuju i pronalaze zajednički obrasci te se pronalaze stabilni klasteri bez obzira na metodu klasteriranja.
  5. Klaster analiza vam omogućuje da identificirate problematične situacije i ocrtate načine za njihovo rješavanje. Stoga se ova metoda neparametarske statistike može smatrati sastavnim dijelom analize sustava.

Vrste unosa

  • Indikativni opis objekata. Svaki je objekt opisan skupom svojih karakteristika, tzv znakovi. Značajke mogu biti numeričke ili nenumeričke.
  • Matrica udaljenosti između objekata. Svaki objekt je opisan udaljenostima do svih ostalih objekata u uzorku za obuku.

Ciljevi klasteriranja

  • Razumijevanje podataka identificiranjem strukture klastera. Podjelom uzorka u grupe sličnih objekata moguće je pojednostaviti daljnju obradu podataka i donošenje odluka primjenom vlastite metode analize za svaki klaster (strategija “podijeli pa vladaj”).
  • Kompresija podataka. Ako je početni uzorak pretjerano velik, tada se može smanjiti, ostavljajući po jednog od najtipičnijih predstavnika iz svakog klastera.
  • otkrivanje novosti. otkrivanje novosti). Odabiru se netipični objekti koji se ne mogu pripojiti niti jednom klasteru.

U prvom slučaju nastoje smanjiti broj klastera. U drugom slučaju važnije je osigurati visok stupanj sličnosti objekata unutar svakog klastera, a klastera može biti bilo koji broj. U trećem su slučaju najveći interes pojedinačni objekti koji se ne uklapaju ni u jedan od klastera.

U svim tim slučajevima može se primijeniti hijerarhijsko klasteriranje, kada se veliki klasteri dijele na manje, koji se pak dijele na još manje, itd. Takvi zadaci nazivaju se taksonomijski zadaci.

Rezultat taksonomije je hijerarhijska struktura u obliku stabla. Osim toga, svaki objekt karakterizira nabrajanje svih klastera kojima pripada, obično od većeg prema manjem.

Klasičan primjer taksonomije koja se temelji na sličnosti je binomna nomenklatura živih bića koju je predložio Carl Linnaeus sredinom 18. stoljeća. Slične sistematizacije izgrađene su u mnogim područjima znanja kako bi se organizirale informacije o velikom broju objekata.

Metode klasteriranja

Formalna izjava o problemu klasteriranja

Neka je skup objekata, neka je skup brojeva (imena, oznaka) klastera. Zadana je funkcija udaljenosti između objekata. Postoji konačan skup objekata za obuku. Potrebno je podijeliti uzorak u podskupove koji se ne preklapaju, tzv klasteri, tako da se svaki klaster sastoji od objekata bliskih metrici, a objekti različitih klastera značajno se razlikuju. U ovom slučaju, svakom objektu se dodjeljuje broj klastera.

Algoritam klasteriranja je funkcija koja povezuje bilo koji objekt s brojem klastera. Skup je u nekim slučajevima unaprijed poznat, ali češće je zadatak odrediti optimalan broj klastera, s gledišta jednog ili drugog kriteriji kvalitete grupiranje.

Književnost

  1. Aivazyan S. A., Buchstaber V. M., Enyukov I. S., Meshalkin L. D. Primijenjena statistika: Klasifikacija i redukcija dimenzija. - M.: Financije i statistika, 1989.
  2. Žuravljev Ju. I., Rjazanov V. V., Senko O. V."Priznanje". Matematičke metode. Programski sustav. Praktične aplikacije. - M.: Fazis, 2006. ISBN 5-7036-0108-8.
  3. Zagoruiko N. G. Primijenjene metode analize podataka i znanja. - Novosibirsk: IM SO RAN, 1999. ISBN 5-86134-060-9.
  4. Mandel I. D. analiza klastera. - M.: Financije i statistika, 1988. ISBN 5-279-00050-7.
  5. Shlesinger M., Glavach V. Deset predavanja o statističkom i strukturnom prepoznavanju. - Kijev: Naukova Dumka, 2004. ISBN 966-00-0341-2.
  6. Hastie T., Tibshirani R., Friedman J. Elementi statističkog učenja. - Springer, 2001. ISBN 0-387-95284-5.
  7. Jain Murty Flynn Grupiranje podataka: pregled . // ACM Comput. Surv. 31 (3) , 1999

vanjske poveznice

Na ruskom

  • www.MachineLearning.ru - profesionalni wiki resurs posvećen strojnom učenju i rudarenju podataka
  • S. Nikolenko. Slajdovi predavanja o algoritmima klasteriranja

Na engleskom

  • COMPACT - Usporedni paket za procjenu klasteriranja. Besplatni Matlab paket, 2006.
  • P. Berkhin, Pregled tehnika rudarenja podataka u klasterima, Accrue Software, 2002.
  • Jain, Murty i Flynn: Grupiranje podataka: pregled, ACM Comp. Surv., 1999. (monografija).
  • za drugu prezentaciju hijerarhijskih, k-srednjih i neizrazitih c-srednjih vrijednosti pogledajte ovaj uvod u klasteriranje. Također ima objašnjenje mješavine Gaussovih.
  • David Dowe, Stranica za modeliranje smjesa- druge poveznice modela klasteriranja i miješanja.
  • poduka o klasteriranju
  • On-line udžbenik: Teorija informacija, zaključivanje i algoritmi učenja, David J.C. MacKay uključuje poglavlja o klasteriranju k-srednjih vrijednosti, mekom klasteriranju k-srednjih vrijednosti i derivacijama uključujući E-M algoritam i varijacijski pogled na E-M algoritam.
  • "Samoorganizirani gen", vodič koji objašnjava grupiranje putem kompetitivnog učenja i samoorganizirajućih mapa.
  • kernlab - R paket za strojno učenje temeljeno na jezgri (uključuje implementaciju spektralnog klasteriranja)
  • Vodič - Vodič s uvodom u algoritme klasteriranja (k-means, fuzzy-c-means, hijerarhijski, mješavina gaussovih) + neke interaktivne demonstracije (java appleti)
  • Softver za rudarenje podataka - softver za rudarenje podataka često koristi tehnike klasteriranja.
  • Java Competitve Learning Application Paket nenadziranih neuronskih mreža za klasteriranje. Napisano u Javi. Kompletan sa svim izvornim kodom.

analiza klastera

Većina istraživača je sklona vjerovati da je po prvi put termin "klaster analiza" (eng. Klastera- grozd, ugrušak, hrpa) predložio je matematičar R. Trion. Nakon toga se pojavio niz pojmova koji se danas smatraju sinonimima za izraz "klaster analiza": automatska klasifikacija; botriologija.

Klasterska analiza je višedimenzionalni statistički postupak koji prikuplja podatke koji sadrže informacije o uzorku objekata, a zatim raspoređuje objekte u relativno homogene skupine (klastere) (Q-klasteriranje, ili Q-tehnika, vlastita klaster analiza). Klaster - skupina elemenata karakteriziranih zajedničkim svojstvom, glavni cilj klaster analize je pronaći grupe sličnih objekata u uzorku. Raspon primjene klaster analize vrlo je širok: koristi se u arheologiji, medicini, psihologiji, kemiji, biologiji, javnoj upravi, filologiji, antropologiji, marketingu, sociologiji i drugim disciplinama. Međutim, univerzalnost primjene dovela je do pojave velikog broja nekompatibilnih pojmova, metoda i pristupa koji otežavaju jednoznačno korištenje i dosljedno tumačenje klaster analize. Orlov A. I. predlaže razlikovanje na sljedeći način:

Zadaci i uvjeti

Klaster analiza provodi sljedeće glavni ciljevi:

  • Razvoj tipologije ili klasifikacije.
  • Istraživanje korisnih konceptualnih shema za grupiranje objekata.
  • Generiranje hipoteza na temelju istraživanja podataka.
  • Testiranje hipoteza ili istraživanje kako bi se utvrdilo jesu li tipovi (skupine) identificirani na ovaj ili onaj način stvarno prisutni u dostupnim podacima.

Bez obzira na predmet proučavanja, korištenje klaster analize uključuje Sljedeći koraci:

  • Uzorkovanje za grupiranje. Razumije se da ima smisla grupirati samo kvantitativne podatke.
  • Definicija skupa varijabli kojima će se vrednovati objekti u uzorku, odnosno prostor obilježja.
  • Izračunavanje vrijednosti jedne ili druge mjere sličnosti (ili razlike) između objekata.
  • Primjena metode klaster analize za stvaranje grupa sličnih objekata.
  • Validacija rezultata rješenja klastera.

Klaster analiza predstavlja sljedeće zahtjevi za podacima:

  1. pokazatelji ne bi trebali međusobno korelirati;
  2. pokazatelji ne bi trebali biti u suprotnosti s teorijom mjerenja;
  3. distribucija pokazatelja trebala bi biti blizu normale;
  4. pokazatelji moraju ispunjavati zahtjev "stabilnosti", što znači odsutnost utjecaja na njihove vrijednosti slučajnim čimbenicima;
  5. uzorak treba biti homogen, ne sadržavati "outliere".

Možete pronaći opis dva temeljna zahtjeva za podatke - ujednačenost i potpunost:

Homogenost zahtijeva da svi entiteti predstavljeni u tablici budu iste prirode. Uvjet za potpunost je da skupovi ja i J predstavio potpuni opis manifestacija fenomena koji se razmatra. Ako uzmemo u obzir tablicu u kojoj ja je zbirka, i J- skup varijabli koje opisuju ovu populaciju, dakle to bi trebao biti reprezentativni uzorak iz proučavane populacije, te sustav karakteristika J treba dati zadovoljavajuću vektorsku reprezentaciju pojedinaca ja sa stanovišta istraživača.

Ako klaster analizi prethodi faktorska analiza, tada uzorak nije potrebno “popravljati” - navedeni zahtjevi se automatski izvršavaju samim postupkom faktorskog modeliranja (tu je još jedna prednost - z-standardizacija bez negativnih posljedica za uzorak; ako ako se provodi izravno za analizu klastera, može dovesti do smanjenja jasnoće razdvajanja grupa). U suprotnom, uzorak se mora prilagoditi.

Tipologija problema klasteriranja

Vrste unosa

U suvremenoj znanosti koristi se nekoliko algoritama za obradu ulaznih podataka. Analiza usporedbom objekata na temelju obilježja (najčešća u biološkim znanostima) naziva se Q- vrsta analize, au slučaju usporedbe obilježja na temelju objekata - R- vrsta analize. Postoje pokušaji korištenja hibridnih vrsta analiza (npr. RQ analiza), ali ova metodologija još nije dovoljno razvijena.

Ciljevi klasteriranja

  • Razumijevanje podataka identificiranjem strukture klastera. Podjelom uzorka u grupe sličnih objekata moguće je pojednostaviti daljnju obradu podataka i donošenje odluka primjenom vlastite metode analize za svaki klaster (strategija “podijeli pa vladaj”).
  • Kompresija podataka. Ako je početni uzorak pretjerano velik, tada se može smanjiti, ostavljajući po jednog od najtipičnijih predstavnika iz svakog klastera.
  • otkrivanje novosti. otkrivanje novosti). Odabiru se netipični objekti koji se ne mogu pripojiti niti jednom klasteru.

U prvom slučaju nastoje smanjiti broj klastera. U drugom slučaju važnije je osigurati visok stupanj sličnosti objekata unutar svakog klastera, a klastera može biti bilo koji broj. U trećem su slučaju najveći interes pojedinačni objekti koji se ne uklapaju ni u jedan od klastera.

U svim tim slučajevima može se primijeniti hijerarhijsko klasteriranje, kada se veliki klasteri dijele na manje, koji se pak dijele na još manje, itd. Takvi zadaci nazivaju se taksonomijski zadaci. Rezultat taksonomije je hijerarhijska struktura u obliku stabla. Osim toga, svaki objekt karakterizira nabrajanje svih klastera kojima pripada, obično od većeg prema manjem.

Metode klasteriranja

Ne postoji općeprihvaćena klasifikacija metoda klasteriranja, ali se može primijetiti solidan pokušaj V. S. Berikova i G. S. Lbova. Ako generaliziramo različite klasifikacije metoda klasteriranja, možemo razlikovati niz skupina (neke metode mogu se pripisati nekoliko skupina odjednom, pa se stoga predlaže da se ova tipizacija smatra nekom aproksimacijom stvarnoj klasifikaciji metoda klasteriranja):

  1. Probabilistički pristup. Pretpostavlja se da svaki predmet koji se razmatra pripada jednoj od k klasa. Neki autori (primjerice A. I. Orlov) smatraju da ova skupina uopće ne pripada grupiranju i suprotstavljaju joj se pod nazivom "diskriminacija", odnosno izbor pripisivanja objekata jednoj od poznatih skupina (uzorci za obuku).
  2. Pristupi temeljeni na sustavima umjetne inteligencije. Vrlo uvjetna skupina, budući da postoji mnogo AI metoda i metodički su vrlo različite.
  3. logičan pristup. Konstrukcija dendrograma provodi se pomoću stabla odlučivanja.
  4. Teorijski pristup grafova.
    • Algoritmi grupiranja grafova
  5. Hijerarhijski pristup. Pretpostavlja se prisutnost ugniježđenih skupina (klastera različitih redoslijeda). Algoritmi se pak dijele na aglomerativne (ujedinjujuće) i razdjelne (razdvajajuće). Prema broju obilježja ponekad se razlikuju monotetička i politetička metoda klasifikacije.
    • Hijerarhijsko divizijsko grupiranje ili taksonomija. Problemi klasteriranja razmatraju se u kvantitativnoj taksonomiji.
  6. Druge metode. Nije uključeno u prethodne grupe.
    • Statistički algoritmi klasteriranja
    • Ansambl klastera
    • Algoritmi obitelji KRAB
    • Algoritam temeljen na metodi prosijavanja
    • DBSCAN itd.

Pristupi 4 i 5 ponekad se spajaju pod nazivom strukturalni ili geometrijski pristup, koji ima formaliziraniji koncept blizine. Unatoč značajnim razlikama između navedenih metoda, sve se oslanjaju na izvorne " hipoteza kompaktnosti»: u objektnom prostoru svi bliski objekti moraju pripadati istom klasteru, a svi različiti objekti moraju biti u različitim klasterima.

Formalna izjava o problemu klasteriranja

Neka je skup objekata, neka je skup brojeva (imena, oznaka) klastera. Zadana je funkcija udaljenosti između objekata. Postoji konačan skup objekata za obuku. Potrebno je podijeliti uzorak u podskupove koji se ne preklapaju, tzv klasteri, tako da se svaki klaster sastoji od objekata bliskih metrici, a objekti različitih klastera značajno se razlikuju. U ovom slučaju, svakom objektu se dodjeljuje broj klastera.

Algoritam klasteriranja je funkcija koja povezuje bilo koji objekt s brojem klastera. Skup je u nekim slučajevima unaprijed poznat, ali češće je zadatak odrediti optimalan broj klastera, s gledišta jednog ili drugog kriteriji kvalitete grupiranje.

Grupiranje (učenje bez nadzora) razlikuje se od klasifikacije (učenje pod nadzorom) po tome što oznake izvornih objekata nisu inicijalno postavljene, a sam skup može biti čak i nepoznat.

Rješenje problema klasteriranja u osnovi je dvosmisleno, a za to postoji nekoliko razloga (prema nizu autora):

  • ne postoji jedinstveno najbolji kriterij za kvalitetu klasteriranja. Poznat je niz heurističkih kriterija, kao i niz algoritama koji nemaju jasno definiran kriterij, ali provode prilično razumno klasteriranje “po konstrukciji”. Svi oni mogu dati različite rezultate. Stoga je za utvrđivanje kvalitete klasteriranja potreban stručnjak predmetnog područja koji bi mogao procijeniti smislenost odabira klastera.
  • broj klastera obično je unaprijed nepoznat i postavlja se prema nekom subjektivnom kriteriju. Ovo vrijedi samo za metode diskriminacije, budući da se u metodama klasteriranja klasteri odabiru korištenjem formaliziranog pristupa temeljenog na mjerama blizine.
  • rezultat klasteriranja bitno ovisi o metrici, čiji je izbor u pravilu također subjektivan i određuje ga stručnjak. Ali vrijedi napomenuti da postoji niz preporuka za odabir mjera blizine za različite zadatke.

Primjena

U biologiji

U biologiji klasteriranje ima mnogo primjena u velikom broju područja. Na primjer, u bioinformatici se koristi za analizu složenih mreža međusobno povezanih gena, koji se ponekad sastoje od stotina ili čak tisuća elemenata. Analiza klastera omogućuje vam da identificirate podmreže, uska grla, čvorišta i druga skrivena svojstva sustava koji se proučava, što vam u konačnici omogućuje da saznate doprinos svakog gena formiranju fenomena koji se proučava.

U području ekologije naširoko se koristi za identificiranje prostorno homogenih skupina organizama, zajednica itd. Rjeđe se metode klaster analize koriste za proučavanje zajednica tijekom vremena. Heterogenost strukture zajednica dovodi do pojave netrivijalnih metoda analize klastera (na primjer, metoda Czekanowskog).

Općenito, vrijedi napomenuti da se povijesno mjere sličnosti češće koriste kao mjere blizine u biologiji, a ne mjere razlike (udaljenosti).

U sociologiji

Pri analizi rezultata socioloških istraživanja preporuča se analiza provoditi metodama hijerarhijske aglomerativne obitelji, točnije Wardovom metodom, u kojoj se optimizira minimalna disperzija unutar klastera, što rezultira klasterima približno jednakih veličina. stvaraju se. Za analizu socioloških podataka najuspješnija je Wardova metoda. Kao mjera razlike bolja je kvadratna euklidska udaljenost, što doprinosi povećanju kontrasta klastera. Glavni rezultat hijerarhijske klaster analize je dendrogram ili "ledeni dijagram". Istraživači se pri njezinoj interpretaciji suočavaju s problemom iste vrste kao i interpretacija rezultata faktorske analize - nedostatkom jednoznačnih kriterija za identificiranje klastera. Preporuča se koristiti dvije metode kao glavne - vizualnu analizu dendrograma i usporedbu rezultata klasteriranja izvedenog različitim metodama.

Vizualna analiza dendrograma uključuje "rezanje" stabla na optimalnoj razini sličnosti elemenata uzorka. "Grana vinove loze" (terminologija Oldenderfer M.S. i Blashfield R.K.) trebala bi biti "odsječena" na oko 5 na ljestvici Rescaled Distance Cluster Combine, čime se postiže razina sličnosti od 80%. Ako je izbor klastera po ovoj oznaci težak (nekoliko malih klastera se spajaju u jednu veliku na njoj), tada možete odabrati drugu oznaku. Ovu tehniku ​​predlažu Oldenderfer i Blashfield.

Sada se postavlja pitanje stabilnosti usvojenog rješenja klastera. Zapravo, provjera stabilnosti klasteriranja svodi se na provjeru njegove pouzdanosti. Ovdje postoji pravilo - stabilna tipologija se čuva kada se mijenjaju metode klasteriranja. Rezultati hijerarhijske klaster analize mogu se verificirati iterativnom k-means klaster analizom. Ako uspoređene klasifikacije grupa ispitanika imaju udio podudarnosti veći od 70% (više od 2/3 podudarnosti), tada se donosi odluka o klasteru.

Nemoguće je provjeriti primjerenost rješenja bez pribjegavanja drugoj vrsti analize. Barem teoretski, ovaj problem nije riješen. Klasična analiza klastera Oldenderfera i Blashfielda razrađuje i u konačnici odbacuje pet dodatnih metoda testiranja robusnosti:

U informatici

  • Grupiranje rezultata pretraživanja - koristi se za "inteligentno" grupiranje rezultata prilikom traženja datoteka, web stranica, drugih objekata, omogućujući korisniku brzu navigaciju, odabir podskupa koji je očito relevantniji i isključuje poznati manje relevantan - što može povećati upotrebljivost sučelja u usporedbi s izlazom u obliku jednostavnog sortiranog po popisu relevantnosti.
    • Clusty - Vivísimova tražilica klasteriranja
    • Nigma - ruska tražilica s automatskim klasteriranjem rezultata
    • Quintura - vizualno grupiranje u obliku oblaka ključnih riječi
  • Segmentacija slike segmentacija slike) - Grupiranje se može koristiti za razbijanje digitalne slike u različite regije u svrhu otkrivanja rubova. otkrivanje rubova) ili prepoznavanje predmeta.
  • Rudarenje podataka rudarenje podataka)- Klasteriranje u Data Miningu postaje vrijedno kada djeluje kao jedna od faza analize podataka, gradeći cjelovito analitičko rješenje. Analitičaru je često lakše identificirati skupine sličnih objekata, proučiti njihove značajke i izgraditi zaseban model za svaku skupinu nego stvoriti jedan opći model za sve podatke. Ova tehnika se stalno koristi u marketingu, ističući skupine kupaca, kupaca, robe i razvijajući zasebnu strategiju za svaku od njih.

vidi također

Bilješke

Linkovi

Na ruskom
  • www.MachineLearning.ru - profesionalni wiki resurs posvećen strojnom učenju i rudarenju podataka
Na engleskom
  • COMPACT - Usporedni paket za procjenu klasteriranja. Besplatni Matlab paket, 2006.
  • P. Berkhin, Pregled tehnika rudarenja podataka u klasterima, Accrue Software, 2002.
  • Jain, Murty i Flynn: Grupiranje podataka: pregled, ACM Comp. Surv., 1999. (monografija).
  • za drugu prezentaciju hijerarhijskih, k-srednjih i neizrazitih c-srednjih vrijednosti pogledajte ovaj uvod u klasteriranje. Također ima objašnjenje mješavine Gaussovih.
  • David Dowe, Stranica za modeliranje smjesa- druge poveznice modela klasteriranja i miješanja.
  • poduka o klasteriranju
  • On-line udžbenik: Teorija informacija, zaključivanje i algoritmi učenja, David J.C. MacKay uključuje poglavlja o klasteriranju k-srednjih vrijednosti, mekom klasteriranju k-srednjih vrijednosti i derivacijama uključujući E-M algoritam i varijacijski pogled na E-M algoritam.
  • "Samoorganizirani gen", vodič koji objašnjava klasteriranje putem kompetitivnog učenja i samoorganizirajućih mapa.
  • kernlab - R paket za strojno učenje temeljeno na jezgri (uključuje implementaciju spektralnog klasteriranja)
  • Vodič - Vodič s uvodom u algoritme klasteriranja (k-means, fuzzy-c-means, hijerarhijski, mješavina gaussovih) + neke interaktivne demonstracije (java appleti)
  • Softver za rudarenje podataka - softver za rudarenje podataka često koristi tehnike klasteriranja.
  • Java Competitve Learning Application Paket nenadziranih neuronskih mreža za klasteriranje. Napisano u Javi. Kompletan sa svim izvornim kodom.
  • Softver za strojno učenje - također sadrži mnogo softvera za klasteriranje.

Znamo da je Zemlja jedan od 8 planeta koji kruže oko Sunca. Sunce je samo zvijezda među oko 200 milijardi zvijezda u galaksiji Mliječni put. Vrlo je teško razumjeti ovaj broj. Znajući to, može se napraviti pretpostavka o broju zvijezda u svemiru - otprilike 4X10^22. Na nebu možemo vidjeti oko milijun zvijezda, iako je to samo mali dio stvarnog broja zvijezda. Dakle, imamo dva pitanja:

  1. Što je galaksija?
  2. A kakva je veza između galaksija i teme članka (analiza klastera)


Galaksija je skup zvijezda, plina, prašine, planeta i međuzvjezdanih oblaka. Obično galaksije nalikuju spiralnoj ili edeptičkoj figuri. U svemiru su galaksije odvojene jedna od druge. Ogromne crne rupe najčešće su središta većine galaksija.

Kao što ćemo raspravljati u sljedećem odjeljku, postoje mnoge sličnosti između galaksija i analize jata. Galaksije postoje u trodimenzionalnom prostoru, analiza klastera je višedimenzionalna analiza koja se provodi u n-dimenzionalnom prostoru.

Napomena: Crna rupa je središte galaksije. Koristit ćemo sličnu ideju za centroide za analizu klastera.

analiza klastera

Recimo da ste voditelj marketinga i odnosa s korisnicima u telekomunikacijskoj tvrtki. Shvaćate da su svi kupci različiti i da su vam potrebne različite strategije kako biste dosegnuli različite kupce. Cijenit ćete moć takvog alata kao što je segmentacija kupaca za optimizaciju troškova. Da obnovite svoje znanje o analizi klastera, razmotrite sljedeći primjer koji ilustrira 8 kupaca i njihovo prosječno trajanje razgovora (lokalni i međunarodni). Ispod su podaci:

Za bolju percepciju, nacrtajmo graf gdje će x-os biti prosječno trajanje međunarodnih poziva, a y-os - prosječno trajanje lokalnih poziva. Ispod je grafikon:

Napomena: To je slično analizi položaja zvijezda na noćnom nebu (ovdje su zvijezde zamijenjene potrošačima). Osim toga, umjesto 3D prostora imamo 2D, definiran trajanjem lokalnih i međunarodnih poziva, kao x i y osi.
Sada, govoreći o galaksijama, problem je formuliran na sljedeći način - pronaći položaj crnih rupa; u klaster analizi nazivaju se centroidi. Da bismo otkrili težišnice, počet ćemo uzimajući proizvoljne točke kao položaj težišta.

Euklidska udaljenost za pronalaženje centroida za klastere

U našem slučaju, nasumično ćemo postaviti dva težišta (C1 i C2) u točke s koordinatama (1, 1) i (3, 4). Zašto smo odabrali ova dva težišta? Vizualni prikaz točaka na grafu nam pokazuje da postoje dva klastera koja ćemo analizirati. Međutim, kasnije ćemo vidjeti da odgovor na ovo pitanje neće biti tako jednostavan za veliki skup podataka.
Zatim ćemo izmjeriti udaljenost između težišta (C1 i C2) i svih točaka na grafu pomoću Euklidove formule kako bismo pronašli udaljenost između dvije točke.

Napomena: Udaljenost se također može izračunati pomoću drugih formula, na primjer,

  1. kvadrat euklidske udaljenosti – dati težinu objektima koji su međusobno udaljeniji
  2. Manhattanska udaljenost - za smanjenje utjecaja emisija
  3. udaljenost snage - za povećanje / smanjenje utjecaja na određene koordinate
  4. postotak neslaganja - za kategoričke podatke
  5. i tako dalje.
Stupaci 3 i 4 (Udaljenost od C1 i C2) udaljenost je izračunata pomoću ove formule. Na primjer, za prvog korisnika

Pripadnost centroidima (posljednji stupac) računa se po principu blizine centroidima (C1 i C2). Prvi potrošač je bliži težištu #1 (1,41 u usporedbi s 2,24) stoga pripada klasteru s težištem C1.

Ispod je grafikon koji prikazuje C1 i C2 težišne točke (prikazane kao plavi i narančasti dijamant). Potrošači su prikazani bojom odgovarajućeg centroida kojem su pridruženi.

Budući da smo proizvoljno odabrali centroide, drugi korak je učiniti ovaj izbor iterativnim. Novi položaj težišta odabire se kao prosjek za točke odgovarajućeg klastera. Tako npr. za prvo težište (to su potrošači 1, 2 i 3). Stoga je nova x-koordinata za težište C1 prosjek x-koordinata ovih potrošača (2+1+1)/3 = 1,33. Dobit ćemo nove koordinate za C1 (1.33, 2.33) i C2 (4.4, 4.2). Novi dijagram je ispod:

Na kraju, postavit ćemo centroide u središte odgovarajućeg klastera. Dijagram niže:

Položaji naših crnih rupa (centra klastera) u našem primjeru su C1 (1,75, 2,25) i C2 (4,75, 4,75). Dva gornja jata su kao dvije galaksije odvojene u svemiru jedna od druge.

Dakle, pogledajmo dalje primjere. Suočimo se sa zadatkom segmentiranja potrošača prema dva parametra: dobi i prihodima. Pretpostavimo da imamo 2 potrošača u dobi od 37 i 44 godine s prihodom od 90 000 USD odnosno 62 000 USD. Ako želimo izmjeriti euklidsku udaljenost između točaka (37, 90000) i (44, 62000), vidjet ćemo da u ovom slučaju varijabla dohotka „dominira“ nad varijablom starosti i njezina promjena snažno utječe na udaljenost. Trebamo neku vrstu strategije za rješavanje ovog problema, inače će naša analiza dati netočan rezultat. Rješenje ovog problema je dovođenje naših vrijednosti na usporedive ljestvice. Normalizacija je rješenje našeg problema.

Normalizacija podataka

Postoje mnogi pristupi normalizaciji podataka. Na primjer, minimalno-maksimalna normalizacija. Za ovu normalizaciju koristi se sljedeća formula

u ovom slučaju, X* je normalizirana vrijednost, min i max su minimalne i maksimalne koordinate u cijelom skupu X
(Napomena, ova formula postavlja sve koordinate na segment )
Razmotrite naš primjer, neka maksimalni prihod bude 130.000 USD, a najmanji 45.000 USD. Normalizirana vrijednost dohotka za potrošača A je

Ovu vježbu ćemo raditi za sve točke za svaku varijablu (koordinatu). Prihod za drugog potrošača (62000) postat će 0,2 nakon postupka normalizacije. Nadalje, neka minimalna i maksimalna dob budu 23 odnosno 58 godina. Nakon normalizacije, starost naša dva potrošača bit će 0,4 i 0,6.

Lako je vidjeti da su sada svi naši podaci između 0 i 1. Stoga sada imamo normalizirane skupove podataka na usporedivim skalama.

Zapamtite, prije postupka klaster analize potrebno je izvršiti normalizaciju.

Vrste unosa

  • Indikativni opis objekata. Svaki je objekt opisan skupom svojih karakteristika, tzv znakovi. Značajke mogu biti numeričke ili nenumeričke.
  • Matrica udaljenosti između objekata. Svaki objekt je opisan udaljenostima do svih ostalih objekata u uzorku za obuku.

Matrica udaljenosti može se izračunati iz matrice opisa značajki objekata na beskonačan broj načina, ovisno o tome kako uvesti funkciju udaljenosti (metriku) između opisa značajki. Često se koristi euklidska metrika, ali ovaj je izbor u većini slučajeva heuristički i radi se samo o pogodnostima.

Inverzni problem - obnavljanje opisa značajki matricom parnih udaljenosti između objekata - u općem slučaju nema rješenja, a približno rješenje nije jedinstveno i može imati značajnu pogrešku. Ovaj problem se rješava metodama višedimenzionalnog skaliranja.

Dakle, formulacija problema klasteriranja po matrica udaljenosti je općenitiji. S druge strane, u prisustvu opisa značajki, često je moguće izgraditi učinkovitije metode klasteriranja.

Ciljevi klasteriranja

  • Razumijevanje podataka identificiranjem strukture klastera. Podjelom uzorka u grupe sličnih objekata moguće je pojednostaviti daljnju obradu podataka i donošenje odluka primjenom vlastite metode analize za svaki klaster (strategija “podijeli pa vladaj”).
  • Kompresija podataka. Ako je početni uzorak pretjerano velik, tada se može smanjiti, ostavljajući po jednog od najtipičnijih predstavnika iz svakog klastera.
  • Otkrivanje novosti. Odabiru se netipični objekti koji se ne mogu pripojiti niti jednom klasteru.

U prvom slučaju nastoje smanjiti broj klastera. U drugom slučaju, važnije je osigurati visok (ili fiksni) stupanj sličnosti objekata unutar svakog klastera, a klastera može biti bilo koji broj. U trećem su slučaju najveći interes pojedinačni objekti koji se ne uklapaju ni u jedan od klastera.

U svim tim slučajevima može se primijeniti hijerarhijsko klasteriranje, kada se veliki klasteri dijele na manje, koji se pak dijele na još manje, itd. Takvi zadaci nazivaju se taksonomijski zadaci.

Rezultat taksonomije je hijerarhijska struktura u obliku stabla. Osim toga, svaki objekt karakterizira nabrajanje svih klastera kojima pripada, obično od većeg prema manjem. Vizualno, taksonomija je predstavljena kao grafikon koji se naziva dendrogram.

Klasičan primjer taksonomije temeljene na sličnosti je binomna nomenklatura živih bića predložio Carl Linnaeus sredinom 18. stoljeća. Slične sistematizacije izgrađene su u mnogim područjima znanja kako bi se organizirale informacije o velikom broju objekata.

Funkcije udaljenosti

Metode klasteriranja

  • Statistički algoritmi klasteriranja
  • Hijerarhijsko grupiranje ili taksonomija

Formalna izjava o problemu klasteriranja

Neka je skup objekata, neka je skup brojeva (imena, oznaka) klastera. Zadana je funkcija udaljenosti između objekata. Postoji konačan skup objekata za obuku. Potrebno je podijeliti uzorak u podskupove koji se ne preklapaju, tzv klasteri, tako da se svaki klaster sastoji od objekata bliskih metrici, a objekti različitih klastera značajno se razlikuju. U ovom slučaju, svakom objektu se dodjeljuje broj klastera.

Algoritam klasteriranja je funkcija koja povezuje bilo koji objekt s brojem klastera. Skup je u nekim slučajevima unaprijed poznat, ali češće je zadatak odrediti optimalan broj klastera, s gledišta jednog ili drugog kriteriji kvalitete grupiranje.

Grupiranje (učenje bez nadzora) razlikuje se od klasifikacije (učenje pod nadzorom) po tome što oznake izvornih objekata nisu inicijalno postavljene, a sam skup može biti čak i nepoznat.

Rješenje problema klasteriranja u osnovi je dvosmisleno, a za to postoji nekoliko razloga:

  • Ne postoji jedinstveno najbolji kriterij za kvalitetu klasteriranja. Poznat je niz heurističkih kriterija, kao i niz algoritama koji nemaju jasno definiran kriterij, ali provode prilično razumno klasteriranje “po konstrukciji”. Svi oni mogu dati različite rezultate.
  • Broj klastera obično je unaprijed nepoznat i postavlja se prema nekom subjektivnom kriteriju.
  • Rezultat klasteriranja bitno ovisi o metrici čiji je izbor u pravilu također subjektivan i određuje ga stručnjak.

Linkovi

  • Vorontsov K.V. Metodika nastave matematike po presedanima. Moskovski institut za fiziku i tehnologiju (2004), VMiK MGU (2007).
  • Sergej Nikolenko. Slajdovi predavanja "Algoritmi klasteriranja 1" i "Algoritmi klasteriranja 2". Kolegij "Samoučeći sustavi".

Književnost

  1. Aivazyan S. A., Buchstaber V. M., Enyukov I. S., Meshalkin L. D. Primijenjena statistika: Klasifikacija i redukcija dimenzija. - M.: Financije i statistika, 1989.
  2. Žuravljev Ju. I., Rjazanov V. V., Senko O. V."Priznanje". Matematičke metode. Programski sustav. Praktične aplikacije. - M.: Fazis, 2006.
  3. Zagoruiko N. G. Primijenjene metode analize podataka i znanja. - Novosibirsk: IM SO RAN, 1999. .
  4. Mandel I. D. analiza klastera. - M.: Financije i statistika, 1988.
  5. Shlesinger M., Glavach V. Deset predavanja o statističkom i strukturnom prepoznavanju. - Kijev: Naukova Dumka, 2004. .
  6. Hastie T., Tibshirani R., Friedman J. Elementi statističkog učenja. - Springer, 2001. .