biografieën Kenmerken Analyse

Algoritmen voor gegevensclustering. Algoritmen gebaseerd op grafentheorie

Clusteranalyse is:

Goede dag. Hier heb ik respect voor mensen die fan zijn van hun werk.

Maxim, mijn vriend, behoort tot deze categorie. Werkt continu met cijfers, analyseert deze, maakt relevante rapportages.

Gisteren hebben we samen geluncht, dus bijna een half uur lang vertelde hij me over clusteranalyse - wat het is en in welke gevallen de toepassing ervan redelijk en opportuun is. Nou, hoe zit het met mij?

Ik heb een goed geheugen, dus ik zal u trouwens al deze gegevens verstrekken, die ik al kende in de originele en meest informatieve vorm.

Clusteranalyse is bedoeld om een ​​verzameling objecten in homogene groepen (clusters of klassen) te verdelen. Dit is een taak van multivariate dataclassificatie.

Er zijn ongeveer 100 verschillende clusteringalgoritmen, maar de meest gebruikte zijn hiërarchische clusteranalyse en k-means clustering.

Waar wordt clusteranalyse toegepast? In marketing is dit de segmentatie van concurrenten en consumenten.

In het management: de indeling van personeel in groepen met verschillende motivatieniveaus, de classificatie van leveranciers, de identificatie van vergelijkbare productiesituaties waarin huwelijken plaatsvinden.

In de geneeskunde, de classificatie van symptomen, patiënten, medicijnen. In de sociologie de verdeling van respondenten in homogene groepen. In feite heeft clusteranalyse zich goed bewezen op alle gebieden van het menselijk leven.

Het mooie van deze methode is dat deze werkt, zelfs als er weinig gegevens zijn en niet wordt voldaan aan de vereisten voor de normaliteit van verdelingen van willekeurige variabelen en andere vereisten van klassieke methoden voor statistische analyse.

Laten we de essentie van clusteranalyse uitleggen zonder toevlucht te nemen tot strikte terminologie:
Stel dat u een enquête onder werknemers hebt gehouden en wilt bepalen hoe u uw personeel het meest effectief kunt beheren.

Dat wil zeggen, u wilt werknemers in groepen verdelen en voor elk van hen de meest effectieve bedieningshendels selecteren. Tegelijkertijd moeten de verschillen tussen groepen duidelijk zijn en binnen de groep moeten de respondenten zoveel mogelijk op elkaar lijken.

Om het probleem op te lossen, wordt voorgesteld om hiërarchische clusteranalyse te gebruiken.

Als resultaat krijgen we een boom, kijkend naar welke we moeten beslissen in hoeveel klassen (clusters) we het personeel willen opsplitsen.

Stel dat we besluiten het personeel in drie groepen te verdelen, dan krijgen we een tablet met de volgende inhoud om de respondenten te bestuderen die in elk cluster zijn gevallen:


Laten we uitleggen hoe de bovenstaande tabel is gevormd. De eerste kolom bevat het nummer van het cluster: de groep waarvan de gegevens in de rij worden weergegeven.

Het eerste cluster is bijvoorbeeld 80% mannelijk. 90% van het eerste cluster valt in de leeftijdsgroep van 30 tot 50 jaar en 12% van de respondenten vindt voordelen erg belangrijk. Enzovoort.

Laten we proberen portretten te maken van respondenten van elk cluster:

  1. De eerste groep bestaat voornamelijk uit mannen van volwassen leeftijd, die leidinggevende posities bekleden. Het sociale pakket (MED, LGOTI, TIME-free time) interesseert hen niet. Zij krijgen liever een goed salaris dan hulp van de werkgever.
  2. Groep twee daarentegen geeft de voorkeur aan het sociale pakket. Het bestaat voornamelijk uit "oudere" mensen die lage posities bekleden. Salaris is zeker belangrijk voor hen, maar er zijn andere prioriteiten.
  3. De derde groep is de "jongste". In tegenstelling tot de vorige twee, is er een duidelijke interesse in leer- en professionele groeimogelijkheden. Deze categorie medewerkers heeft een goede kans om de eerste groep binnenkort weer aan te vullen.

Dus bij het plannen van een campagne om effectieve methoden voor personeelsbeheer in te voeren, is het duidelijk dat het in onze situatie mogelijk is om het sociale pakket voor de tweede groep te verhogen ten koste van bijvoorbeeld de lonen.

Als we het hebben over welke specialisten gestuurd moeten worden voor training, dan kunnen we zeker aanraden om aandacht te besteden aan de derde groep.

Bron: http://www.nickart.spb.ru/analysis/cluster.php

Kenmerken van clusteranalyse

Een cluster is de prijs van een activum in een bepaalde periode waarin transacties zijn gedaan. Het resulterende volume aan in- en verkopen wordt aangegeven met een cijfer binnen het cluster.

De balk van een TF bevat in de regel meerdere clusters. Hierdoor kunt u de volumes van aankopen, verkopen en hun saldo in elke afzonderlijke balk voor elk prijsniveau in detail zien.


Een verandering in de prijs van een actief brengt onvermijdelijk ook een reeks prijsbewegingen op andere instrumenten met zich mee.

Aandacht!

In de meeste gevallen vindt het begrip van de trendbeweging al plaats op het moment dat deze zich snel ontwikkelt, en het betreden van de markt langs de trend is beladen met vallen in een corrigerende golf.

Voor succesvolle transacties is het noodzakelijk om de huidige situatie te begrijpen en te kunnen anticiperen op toekomstige prijsbewegingen. Dit kan worden geleerd door de clustergrafiek te analyseren.

Met behulp van clusteranalyse kunt u de activiteit van marktdeelnemers zelfs in de kleinste prijsbalk zien. Dit is de meest nauwkeurige en gedetailleerde analyse, omdat het de puntverdeling van transactievolumes voor elk prijsniveau van activa laat zien.

In de markt is er een constante confrontatie tussen de belangen van verkopers en kopers. En elke kleinste prijsbeweging (tick) is de stap naar een compromis - het prijsniveau - dat op dit moment voor beide partijen geschikt is.

Maar de markt is dynamisch, het aantal verkopers en kopers verandert voortdurend. Als de markt op een bepaald moment werd gedomineerd door verkopers, dan zullen er het volgende moment hoogstwaarschijnlijk kopers zijn.

Het aantal afgeronde transacties op aangrenzende prijsniveaus is ook niet hetzelfde. En toch wordt de marktsituatie eerst weerspiegeld in het totale aantal transacties, en dan pas in de prijs.

Als u de acties van de dominante marktdeelnemers (verkopers of kopers) ziet, kunt u de prijsbeweging zelf voorspellen.

Om clusteranalyse succesvol toe te passen, moet u eerst begrijpen wat een cluster en een delta zijn.


Een cluster wordt een prijsbeweging genoemd, die is onderverdeeld in niveaus waarop transacties zijn gedaan met bekende volumes. De delta toont het verschil tussen kopen en verkopen in elk cluster.

Elke cluster, of groep delta's, stelt u in staat om erachter te komen of kopers of verkopers de markt op een bepaald moment domineren.

Het is voldoende om de totale delta te berekenen door de verkopen en aankopen bij elkaar op te tellen. Als de delta negatief is, is de markt oververkocht, zijn er overbodige verkooptransacties. Als de delta positief is, wordt de markt duidelijk gedomineerd door kopers.

De delta zelf kan een normale of kritische waarde aannemen. De waarde van het deltavolume boven de normale waarde in het cluster is rood gemarkeerd.

Als de delta matig is, kenmerkt dit een vlakke toestand in de markt. Bij een normale deltawaarde wordt een trendbeweging in de markt waargenomen, maar een kritische waarde is altijd een voorbode van een prijsomkering.

Forex handelen met CA

Om de maximale winst te behalen, moet u de overgang van de delta van een gemiddeld niveau naar een normaal niveau kunnen bepalen. In dit geval kunt u inderdaad het allereerste begin van de overgang van een vlakke naar een trendbeweging opmerken en de meeste winst behalen.

De clustergrafiek is meer visueel, u kunt er aanzienlijke niveaus van accumulatie en distributie van volumes zien, ondersteunings- en weerstandsniveaus opbouwen. Hierdoor kan de handelaar de exacte toegang tot de transactie vinden.

Met behulp van de delta kan men het overwicht van verkopen of aankopen in de markt beoordelen. Met clusteranalyse kunt u transacties observeren en hun volumes volgen in de balk van elke TF.

Dit is vooral belangrijk bij het naderen van aanzienlijke ondersteunings- of weerstandsniveaus. Clusteroordelen zijn de sleutel tot inzicht in de markt.

Bron: http://orderflowtrading.ru/analitika-rynka/obemy/klasternyy-analiz/

Toepassingsgebieden en kenmerken van clusteranalyse

De term clusteranalyse (voor het eerst geïntroduceerd door Tryon, 1939) omvat eigenlijk een reeks verschillende classificatie-algoritmen.

Een veel voorkomende vraag die door onderzoekers op veel gebieden wordt gesteld, is hoe geobserveerde gegevens in visuele structuren kunnen worden georganiseerd, d.w.z. taxonomieën uitbreiden.

Volgens het in de biologie aanvaarde moderne systeem behoort de mens tot primaten, zoogdieren, amniotes, gewervelde dieren en dieren.

Merk op dat in deze classificatie, hoe hoger het aggregatieniveau, hoe minder overeenkomst tussen leden in de overeenkomstige klasse.

De mens heeft meer overeenkomsten met andere primaten (d.w.z. apen) dan met "verre" leden van de zoogdierfamilie (d.w.z. honden), enzovoort.

Merk op dat de vorige discussie verwijst naar clusteringalgoritmen, maar niets vermeldt over het testen op statistische significantie.

In feite is clusteranalyse niet zozeer een gewone statistische methode als wel een "set" van verschillende algoritmen voor "het verdelen van objecten in clusters".

Er is een standpunt dat, in tegenstelling tot veel andere statistische procedures, clusteranalysemethoden in de meeste gevallen worden gebruikt wanneer u geen a priori hypothesen over de klassen hebt, maar zich nog in de beschrijvende fase van het onderzoek bevindt.

Aandacht!

Het moet duidelijk zijn dat clusteranalyse de "meest mogelijk zinvolle beslissing" bepaalt.

Daarom is het testen op statistische significantie hier niet echt van toepassing, zelfs niet in gevallen waar p-niveaus bekend zijn (zoals bijvoorbeeld in de K-means-methode).

De clustering techniek wordt gebruikt in een breed scala van gebieden. Hartigan (1975) heeft een uitstekend overzicht gegeven van de vele gepubliceerde onderzoeken met resultaten die zijn verkregen met clusteranalysemethoden.

Op het gebied van geneeskunde leidt bijvoorbeeld de clustering van ziekten, de behandeling van ziekten of symptomen van ziekten tot veelgebruikte taxonomieën.

Op het gebied van de psychiatrie is de juiste diagnose van symptoomclusters zoals paranoia, schizofrenie, enz. van cruciaal belang voor een succesvolle therapie. In de archeologie proberen onderzoekers met behulp van clusteranalyse taxonomieën vast te stellen van stenen werktuigen, begrafenisvoorwerpen, enz.

Er zijn brede toepassingen van clusteranalyse in marktonderzoek. Over het algemeen blijkt clusteranalyse, wanneer het nodig is om "bergen" aan informatie te classificeren in groepen die geschikt zijn voor verdere verwerking, zeer nuttig en effectief.

Boomclustering

In het voorbeeld in de sectie Primair doel wordt het doel van het join-algoritme (boomclustering) uitgelegd.

Het doel van dit algoritme is om objecten (bijvoorbeeld dieren) te combineren tot voldoende grote clusters met een zekere mate van overeenkomst of afstand tussen objecten. Een typisch resultaat van zo'n clustering is een hiërarchische boom.

Overweeg een horizontaal boomdiagram. Het diagram begint met elk object in de klasse (aan de linkerkant van het diagram).

Stel je nu voor dat je geleidelijk (in hele kleine stapjes) je criterium "verzwakt" voor welke objecten uniek zijn en wat niet.

Met andere woorden, u verlaagt de drempel die samenhangt met de beslissing om twee of meer objecten te combineren in één cluster.

Je koppelt daardoor steeds meer objecten aan elkaar en aggregeert (combineert) steeds meer clusters van steeds verschillende elementen.

Ten slotte worden in de laatste stap alle objecten samengevoegd. In deze grafieken vertegenwoordigen de horizontale assen de pooling-afstand (in verticale dendrogrammen vertegenwoordigen de verticale assen de pooling-afstand).

Dus voor elk knooppunt in de grafiek (waar een nieuw cluster wordt gevormd), kun je de afstand zien waarover de corresponderende elementen zijn gekoppeld tot een nieuw enkel cluster.

Wanneer de gegevens een duidelijke "structuur" hebben in termen van clusters van objecten die op elkaar lijken, dan zal deze structuur waarschijnlijk door verschillende takken in de hiërarchische boom worden weerspiegeld.

Door succesvolle analyse door de join-methode wordt het mogelijk om clusters (takken) te detecteren en te interpreteren.

De unie of boomclustermethode wordt gebruikt bij de vorming van clusters van ongelijkheid of afstand tussen objecten. Deze afstanden kunnen worden gedefinieerd in een eendimensionale of multidimensionale ruimte.

Als u bijvoorbeeld de soorten voedsel in een café moet clusteren, kunt u rekening houden met het aantal calorieën dat erin zit, de prijs, de subjectieve beoordeling van smaak, enz.

De meest directe manier om afstanden tussen objecten in een multidimensionale ruimte te berekenen, is door Euclidische afstanden te berekenen.

Als je een 2D- of 3D-ruimte hebt, dan is deze maat de werkelijke geometrische afstand tussen objecten in de ruimte (alsof de afstanden tussen objecten zijn gemeten met een meetlint).

Het pooling-algoritme "geeft er echter niets om" of de daarvoor "voorziene" afstanden echt zijn of andere afgeleide afstandsmaten, wat meer betekenis heeft voor de onderzoeker; en de uitdaging voor onderzoekers is om de juiste methode te selecteren voor specifieke toepassingen.

Euclidische afstand. Dit lijkt het meest voorkomende type afstand te zijn. Het is gewoon een geometrische afstand in een multidimensionale ruimte en wordt als volgt berekend:

Merk op dat de Euclidische afstand (en het kwadraat ervan) wordt berekend op basis van de oorspronkelijke gegevens, niet op basis van de gestandaardiseerde gegevens.

Dit is de gebruikelijke manier om het te berekenen, wat bepaalde voordelen heeft (de afstand tussen twee objecten verandert bijvoorbeeld niet wanneer een nieuw object in de analyse wordt geïntroduceerd, wat een uitbijter kan blijken te zijn).

Aandacht!

Afstanden kunnen echter sterk worden beïnvloed door verschillen tussen de assen van waaruit de afstanden worden berekend. Als een van de assen bijvoorbeeld wordt gemeten in centimeters en u converteert deze naar millimeters (door de waarden met 10 te vermenigvuldigen), dan zal de uiteindelijke Euclidische afstand (of het kwadraat van de Euclidische afstand) berekend op basis van de coördinaten drastisch veranderen, en als gevolg daarvan kunnen de resultaten van de clusteranalyse heel anders zijn dan de vorige.

Het kwadraat van de Euclidische afstand. Soms wil je misschien de standaard Euclidische afstand kwadrateren om meer gewicht te geven aan verder weg gelegen objecten.

Deze afstand wordt als volgt berekend:

Stadsblok afstand (Manhattan afstand). Deze afstand is gewoon het gemiddelde van de verschillen over de coördinaten.

In de meeste gevallen leidt deze afstandsmaat tot dezelfde resultaten als voor de gebruikelijke Euclides-afstand.

Merk echter op dat voor deze maat de invloed van individuele grote verschillen (uitbijters) afneemt (omdat ze niet gekwadrateerd zijn). Manhattan-afstand wordt berekend met behulp van de formule:

Chebyshev afstand. Deze afstand kan handig zijn wanneer men twee objecten als "verschillend" wil definiëren als ze verschillen in een coördinaat (elke dimensie). De Chebyshev-afstand wordt berekend met de formule:

Machtsafstand. Soms is het gewenst om het gewicht geleidelijk te verhogen of te verlagen met betrekking tot een dimensie waarvoor de corresponderende objecten zeer verschillend zijn.

Dit kan worden bereikt met behulp van een machtswetafstand. De vermogensafstand wordt berekend met de formule:

waarbij r en p door de gebruiker gedefinieerde parameters zijn. Een paar rekenvoorbeelden kunnen laten zien hoe deze maatregel "werkt".

De parameter p is verantwoordelijk voor de geleidelijke weging van verschillen in individuele coördinaten, de parameter r is verantwoordelijk voor de geleidelijke weging van grote afstanden tussen objecten. Als beide parameters - r en p, gelijk zijn aan twee, dan valt deze afstand samen met de Euclidische afstand.

Het percentage onenigheid. Deze maat wordt gebruikt wanneer de gegevens categorisch zijn. Deze afstand wordt berekend met de formule:

Vereniging of verenigingsregels

Bij de eerste stap, wanneer elk object een afzonderlijk cluster is, worden de afstanden tussen deze objecten bepaald door de gekozen maat.

Wanneer echter meerdere objecten aan elkaar worden gekoppeld, rijst de vraag, hoe moeten de afstanden tussen clusters worden bepaald?

Met andere woorden, je hebt een join- of link-regel nodig voor twee clusters. Hier zijn verschillende mogelijkheden: u kunt bijvoorbeeld twee clusters aan elkaar koppelen wanneer twee objecten in de twee clusters dichter bij elkaar liggen dan de bijbehorende verbindingsafstand.

Met andere woorden, u gebruikt de "nearest-buurregel" om de afstand tussen clusters te bepalen; deze methode wordt de single link-methode genoemd.

Deze regel bouwt "vezelachtige" clusters, d.w.z. clusters die alleen "aan elkaar zijn gekoppeld" door individuele elementen die toevallig dichter bij elkaar liggen dan de andere.

Als alternatief kunt u buren gebruiken in clusters die het verst van elkaar verwijderd zijn van alle andere functieparen. Deze methode wordt de volledige link-methode genoemd.

Er zijn ook veel andere methoden om clusters samen te voegen, vergelijkbaar met de methoden die zijn besproken.

Enkele verbinding (nearest-buurmethode). Zoals hierboven beschreven, wordt bij deze methode de afstand tussen twee clusters bepaald door de afstand tussen de twee dichtstbijzijnde objecten (dichtstbijzijnde buren) in verschillende clusters.

Deze regel moet in zekere zin objecten aan elkaar rijgen om clusters te vormen, en de resulterende clusters worden meestal weergegeven door lange "strings".

Volledige verbinding (methode van de meest verre buren). Bij deze methode worden de afstanden tussen clusters gedefinieerd als de grootste afstand tussen twee objecten in verschillende clusters (d.w.z. "meest verre buren").

Ongewogen paarsgewijze gemiddelde. Bij deze methode wordt de afstand tussen twee verschillende clusters berekend als de gemiddelde afstand tussen alle paren objecten erin.

De methode is effectief wanneer objecten daadwerkelijk verschillende "bosjes" vormen, maar het werkt even goed in het geval van uitgebreide ("keten"-type) clusters.

Merk op dat in hun boek Sneath en Sokal (1973) de afkorting UPGMA introduceren om naar deze methode te verwijzen als de ongewogen paargroepmethode die rekenkundige gemiddelden gebruikt.

Gewogen paarsgewijs gemiddelde. De methode is identiek aan de ongewogen paarsgewijs gemiddelde methode, behalve dat de grootte van de respectievelijke clusters (dwz het aantal objecten dat ze bevatten) als weegfactor wordt gebruikt in de berekeningen.

Daarom moet de voorgestelde methode worden gebruikt (in plaats van de vorige) wanneer wordt uitgegaan van ongelijke clustergroottes.

Sneath en Sokal (1973) introduceren de afkorting WPGMA om naar deze methode te verwijzen als de gewogen paar-groepmethode die rekenkundige gemiddelden gebruikt.

Ongewogen zwaartepunt methode. Bij deze methode wordt de afstand tussen twee clusters gedefinieerd als de afstand tussen hun zwaartepunten.

Aandacht!

Sneath en Sokal (1973) gebruiken het acroniem UPGMC om naar deze methode te verwijzen als de ongewogen paargroepmethode met gebruikmaking van het zwaartepuntgemiddelde.

Gewogen zwaartepuntmethode (mediaan). Deze methode is identiek aan de vorige, behalve dat er in de berekeningen gewichten worden gebruikt om rekening te houden met het verschil tussen clustergroottes (d.w.z. het aantal objecten erin).

Daarom, als er significante verschillen zijn (of worden vermoed) in clustergroottes, heeft deze methode de voorkeur boven de vorige.

Sneath en Sokal (1973) gebruikten de afkorting WPGMC om ernaar te verwijzen als de gewogen paargroepmethode met behulp van het zwaartepuntgemiddelde.

Wijk methode. Deze methode verschilt van alle andere methoden omdat deze ANOVA-methoden gebruikt om afstanden tussen clusters te schatten.

De methode minimaliseert de kwadratensom (SS) voor twee (hypothetische) clusters die bij elke stap kunnen worden gevormd.

Details zijn te vinden in Ward (1963). Over het algemeen lijkt de methode erg efficiënt, maar ze heeft de neiging om kleine clusters te creëren.

Eerder werd deze methode besproken in termen van "objecten" die geclusterd zouden moeten worden. Bij alle andere soorten analyses wordt de vraag die voor de onderzoeker van belang is meestal uitgedrukt in termen van observaties of variabelen.

Het blijkt dat clustering, zowel door observaties als door variabelen, tot heel interessante resultaten kan leiden.

Stel je bijvoorbeeld voor dat een medisch onderzoeker gegevens verzamelt over verschillende kenmerken (variabelen) van aandoeningen (observaties) van patiënten met hartaandoeningen.

De onderzoeker kan observaties (van patiënten) clusteren om clusters van patiënten met vergelijkbare symptomen te identificeren.

Tegelijkertijd kan de onderzoeker variabelen clusteren om clusters van variabelen te identificeren die verband houden met een vergelijkbare fysieke toestand.e

Na deze discussie over het al dan niet clusteren van waarnemingen of variabelen, kan men zich afvragen, waarom niet in beide richtingen clusteren?

De module Clusteranalyse bevat een efficiënte tom precies dat te doen.

Tweerichtingspooling wordt echter (relatief zelden) gebruikt in omstandigheden waarin wordt verwacht dat zowel waarnemingen als variabelen gelijktijdig bijdragen aan de ontdekking van zinvolle clusters.

Dus, terugkomend op het vorige voorbeeld, kunnen we aannemen dat een medisch onderzoeker clusters van patiënten moet identificeren die vergelijkbaar zijn met betrekking tot bepaalde clusters van fysieke conditiekenmerken.

De moeilijkheid bij het interpreteren van de verkregen resultaten komt voort uit het feit dat de overeenkomsten tussen verschillende clusters kunnen voortkomen uit (of de oorzaak zijn van) een verschil in de subsets van variabelen.

Daarom zijn de resulterende clusters inherent heterogeen. Misschien lijkt het in het begin een beetje wazig; inderdaad, in vergelijking met andere beschreven clusteranalysemethoden, is tweerichtingspooling waarschijnlijk de minst gebruikte methode.

Sommige onderzoekers zijn echter van mening dat het een krachtig hulpmiddel is voor verkennende gegevensanalyse (zie voor meer informatie Hartigans beschrijving van deze methode (Hartigan, 1975)).

K betekent methode

Deze clusteringmethode verschilt aanzienlijk van agglomeratieve methoden zoals Union (boomclustering) en Two-Way Union. Stel dat je al hypothesen hebt over het aantal clusters (per waarneming of per variabele).

Je kunt het systeem vertellen om precies drie clusters te vormen, zodat ze zo verschillend mogelijk zijn.

Dit is precies het soort probleem dat het K-Means-algoritme oplost. In het algemeen bouwt de K-means-methode precies K verschillende clusters die zo ver mogelijk uit elkaar zijn geplaatst.

In het voorbeeld van de fysieke conditie kan een medisch onderzoeker uit zijn klinische ervaring het "gevoel" hebben dat zijn patiënten over het algemeen in drie verschillende categorieën vallen.

Aandacht!

Als dat zo is, dan zou het gemiddelde van de verschillende metingen van fysieke parameters voor elk cluster een kwantitatieve manier zijn om de hypothesen van de onderzoeker weer te geven (bv. patiënten in cluster 1 hebben een hoge parameter van 1, een lagere parameter van 2, enz.).

Vanuit een computationeel oogpunt kun je deze methode zien als een variantieanalyse "in omgekeerde richting". Het programma begint met K willekeurig geselecteerde clusters, en verandert vervolgens de toebehoren van objecten aan hen om:

  1. minimaliseer variabiliteit binnen clusters,
  2. maximale variabiliteit tussen clusters.

Deze methode is vergelijkbaar met omgekeerde variantieanalyse (ANOVA) doordat de significantietest in ANOVA de variabiliteit tussen groepen en binnen groepen vergelijkt bij het testen van de hypothese dat groepsgemiddelden van elkaar verschillen.

Bij K-means clustering verplaatst het programma objecten (d.w.z. waarnemingen) van de ene groep (cluster) naar de andere om het meest significante resultaat te verkrijgen bij het uitvoeren van variantieanalyse (ANOVA).

Als de resultaten van een K-means-clusteranalyse eenmaal zijn verkregen, kan men doorgaans de gemiddelden voor elke cluster voor elke dimensie berekenen om te beoordelen hoe de clusters van elkaar verschillen.

In het ideale geval zou u voor de meeste, zo niet alle metingen die in de analyse worden gebruikt, heel verschillende middelen moeten krijgen.

Bron: http://www.biometrica.tomsk.ru/textbook/modules/stcluan.html

Classificatie van objecten op basis van hun kenmerken

Clusteranalyse (clusteranalyse) - een reeks multidimensionale statistische methoden voor het classificeren van objecten op basis van hun kenmerken, het verdelen van de totaliteit van objecten in homogene groepen die dicht bij elkaar liggen wat betreft het definiëren van criteria, het selecteren van objecten van een bepaalde groep.

Een cluster is een groep objecten die is geïdentificeerd als resultaat van clusteranalyse op basis van een bepaalde mate van overeenkomst of verschil tussen objecten.

Het object is de specifieke onderwerpen van studie die moeten worden geclassificeerd. De objecten in de classificatie zijn in de regel waarnemingen. Bijvoorbeeld consumenten van producten, landen of regio's, producten, etc.

Hoewel het mogelijk is om clusteranalyse op variabelen uit te voeren. Classificatie van objecten in multidimensionale clusteranalyse vindt gelijktijdig plaats volgens meerdere criteria.

Dit kunnen zowel kwantitatieve als categorische variabelen zijn, afhankelijk van de methode van clusteranalyse. Het belangrijkste doel van clusteranalyse is dus om groepen van vergelijkbare objecten in het monster te vinden.

De set van multivariate statistische methoden van clusteranalyse kan worden onderverdeeld in hiërarchische methoden (agglomeratief en verdeeldheid) en niet-hiërarchische (k-means-methode, tweetraps clusteranalyse).

Er is echter geen algemeen aanvaarde classificatie van methoden, en soms omvatten clusteranalysemethoden ook methoden voor het construeren van beslissingsbomen, neurale netwerken, discriminantanalyse en logistische regressie.

De reikwijdte van clusteranalyse is, vanwege zijn veelzijdigheid, zeer breed. Clusteranalyse wordt gebruikt in economie, marketing, archeologie, geneeskunde, psychologie, scheikunde, biologie, openbaar bestuur, filologie, antropologie, sociologie en andere gebieden.

Hier zijn enkele voorbeelden van het toepassen van clusteranalyse:

  • geneeskunde - classificatie van ziekten, hun symptomen, behandelingsmethoden, classificatie van patiëntengroepen;
  • marketing - de taken van het optimaliseren van de productlijn van het bedrijf, het segmenteren van de markt op groepen goederen of consumenten, het identificeren van een potentiële consument;
  • sociologie - verdeling van respondenten in homogene groepen;
  • psychiatrie - correcte diagnose van symptoomgroepen is cruciaal voor succesvolle therapie;
  • biologie - classificatie van organismen per groep;
  • economie - classificatie van onderwerpen van de Russische Federatie door aantrekkelijkheid van investeringen.

Bron: http://www.statmethods.ru/konsalting/statistics-methody/121-klasternyj-analyz.html

Algemene informatie over clusteranalyse

Clusteranalyse omvat een reeks verschillende classificatiealgoritmen. Een veel voorkomende vraag die onderzoekers op veel gebieden stellen, is hoe geobserveerde gegevens in visuele structuren kunnen worden ingedeeld.

Biologen streven er bijvoorbeeld naar om dieren in verschillende soorten op te splitsen om de verschillen tussen hen zinvol te beschrijven.

De taak van clusteranalyse is om de eerste set objecten te verdelen in groepen van vergelijkbare, dicht bij elkaar liggende objecten. Deze groepen worden clusters genoemd.

Met andere woorden, clusteranalyse is een van de manieren om objecten te classificeren op basis van hun kenmerken. Het is wenselijk dat de classificatieresultaten een zinvolle interpretatie hebben.

De resultaten die met clusteranalysemethoden worden verkregen, worden op verschillende gebieden gebruikt. In marketing is het de segmentatie van concurrenten en consumenten.

In de psychiatrie is de juiste diagnose van symptomen zoals paranoia, schizofrenie, enz. cruciaal voor een succesvolle therapie.

In het management is de classificatie van leveranciers belangrijk, het identificeren van vergelijkbare productiesituaties waarin huwelijken plaatsvinden. In de sociologie de verdeling van respondenten in homogene groepen. Bij beleggingen in portefeuille is het belangrijk om effecten te groeperen op basis van hun overeenkomst in de trend van het rendement om, op basis van de verkregen informatie over de aandelenmarkt, een optimale beleggingsportefeuille samen te stellen die een maximaal rendement op beleggingen mogelijk maakt voor een bepaalde mate van risico .

Over het algemeen blijkt clusteranalyse zeer nuttig en effectief wanneer het nodig is om een ​​grote hoeveelheid van dit soort informatie te classificeren en te presenteren in een vorm die geschikt is voor verdere verwerking.

Clusteranalyse maakt het mogelijk een vrij grote hoeveelheid informatie in overweging te nemen en grote reeksen sociaaleconomische informatie sterk te comprimeren, waardoor ze compact en visueel worden.

Aandacht!

Clusteranalyse is van groot belang met betrekking tot reeksen tijdreeksen die de economische ontwikkeling kenmerken (bijvoorbeeld algemene economische en goederenomstandigheden).

Hier is het mogelijk om de perioden te onderscheiden waarin de waarden van de overeenkomstige indicatoren vrij dicht bij elkaar lagen, en om de groepen tijdreeksen te bepalen, waarvan de dynamiek het meest op elkaar lijkt.

Bij de problematiek van sociaaleconomische prognoses is het veelbelovend om clusteranalyse te combineren met andere kwantitatieve methoden (bijvoorbeeld met regressieanalyse).

Voor-en nadelen

Clusteranalyse maakt een objectieve classificatie mogelijk van objecten die worden gekenmerkt door een aantal kenmerken. Hieruit zijn een aantal voordelen te halen:

  1. De resulterende clusters kunnen worden geïnterpreteerd, dat wil zeggen, om te beschrijven wat voor soort groepen er werkelijk bestaan.
  2. Individuele clusters kunnen worden geruimd. Dit is handig in gevallen waarin bepaalde fouten zijn gemaakt tijdens de dataset, waardoor de waarden van indicatoren voor individuele objecten sterk afwijken. Bij het toepassen van clusteranalyse vallen dergelijke objecten in een apart cluster.
  3. Voor verdere analyse kunnen alleen die clusters worden geselecteerd die de kenmerken van belang hebben.

Net als elke andere methode heeft clusteranalyse bepaalde nadelen en beperkingen. Met name de samenstelling en het aantal clusters is afhankelijk van de gekozen indelingscriteria.

Wanneer de initiële gegevensarray wordt teruggebracht tot een compactere vorm, kunnen bepaalde vervormingen optreden en kunnen de individuele kenmerken van individuele objecten ook verloren gaan door hun vervanging door de kenmerken van de gegeneraliseerde waarden van de clusterparameters.

Methoden:

Momenteel zijn er meer dan honderd verschillende clusteringalgoritmen bekend. Hun diversiteit wordt niet alleen verklaard door verschillende rekenmethoden, maar ook door verschillende concepten die ten grondslag liggen aan clustering.

Het Statistica-pakket implementeert de volgende clusteringmethoden.

  • Hiërarchische algoritmen - boomclustering. Hiërarchische algoritmen zijn gebaseerd op het idee van sequentiële clustering. In de eerste stap wordt elk object als een afzonderlijk cluster beschouwd. In de volgende stap worden enkele van de clusters die het dichtst bij elkaar liggen, samengevoegd tot een afzonderlijk cluster.
  • K-betekent methode. Deze methode wordt het meest gebruikt. Het behoort tot de groep van zogenaamde referentiemethoden van clusteranalyse. Het aantal clusters K wordt door de gebruiker ingesteld.
  • Tweezijdige associatie. Bij gebruik van deze methode wordt clustering gelijktijdig uitgevoerd door zowel variabelen (kolommen) als waarnemingsresultaten (rijen).

De twordt uitgevoerd wanneer kan worden verwacht dat gelijktijdige clustering van variabelen en waarnemingen zinvolle resultaten zal opleveren.

De resultaten van de procedure zijn beschrijvende statistieken over variabelen en waarnemingen, evenals een tweedimensionale kleurenkaart waarop gegevenswaarden met kleur zijn gemarkeerd.

Door de kleurverdeling kunt u een idee krijgen van homogene groepen.

Normalisatie van variabelen

De verdeling van de initiële verzameling objecten in clusters hangt samen met de berekening van afstanden tussen objecten en de keuze van objecten, waarvan de afstand de kleinst mogelijke is.

De meest gebruikte is de Euclidische (geometrische) afstand die ons allemaal bekend is. Deze statistiek komt overeen met intuïtieve ideeën over de nabijheid van objecten in de ruimte (alsof de afstanden tussen objecten werden gemeten met een meetlint).

Maar voor een bepaalde metriek kan de afstand tussen objecten sterk worden beïnvloed door veranderingen in schalen (meeteenheden). Als een van de kenmerken bijvoorbeeld wordt gemeten in millimeters en de waarde ervan wordt omgezet in centimeters, zal de Euclidische afstand tussen objecten drastisch veranderen. Dit zal ertoe leiden dat de resultaten van clusteranalyse aanzienlijk kunnen verschillen van de vorige.

Als de variabelen in verschillende meeteenheden worden gemeten, is hun voorlopige normalisatie vereist, dat wil zeggen de transformatie van de initiële gegevens, die ze omzet in dimensieloze grootheden.

Normalisatie vervormt de geometrie van de oorspronkelijke ruimte sterk, wat de resultaten van clustering kan veranderen

In het Statistica-pakket wordt elke variabele x genormaliseerd volgens de formule:

Om dit te doen, klikt u met de rechtermuisknop op de naam van de variabele en selecteert u de reeks opdrachten in het menu dat wordt geopend: Vul/ Standaardiseer blok/ Standaardiseer kolommen. De waarden van de genormaliseerde variabele worden gelijk aan nul en de varianties worden gelijk aan één.

K-betekent methode in Statistica

De K-means-methode splitst een reeks objecten in een bepaald aantal K van verschillende clusters die zich op een zo groot mogelijke afstand van elkaar bevinden.

Als de resultaten van een K-means-clusteranalyse eenmaal zijn verkregen, kan men doorgaans de gemiddelden voor elk cluster voor elke dimensie berekenen om te beoordelen hoe de clusters van elkaar verschillen.

In het ideale geval zou u voor de meeste metingen die in de analyse worden gebruikt, heel verschillende middelen moeten krijgen.

De F-statistische waarden die voor elke dimensie zijn verkregen, zijn een andere indicator van hoe goed de overeenkomstige dimensie onderscheid maakt tussen clusters.

Neem als voorbeeld de resultaten van een onderzoek onder 17 werknemers van een onderneming naar de tevredenheid over indicatoren voor loopbaankwaliteit. De tabel bevat antwoorden op de vragenlijstvragen op een tienpuntsschaal (1 is de minimumscore, 10 is de maximumscore).

De namen van de variabelen corresponderen met de antwoorden op de volgende vragen:

  1. SLT - een combinatie van persoonlijke doelen en de doelen van de organisatie;
  2. OSO - een gevoel van eerlijkheid in lonen;
  3. Nader te bepalen - territoriale nabijheid van het huis;
  4. PEW - een gevoel van economisch welzijn;
  5. CR - loopbaangroei;
  6. ZhSR - de wens om van baan te veranderen;
  7. OSB is een gevoel van sociaal welzijn.

Met behulp van deze gegevens is het noodzakelijk om de werknemers in groepen te verdelen en voor elk van hen de meest effectieve bedieningshendels te selecteren.

Tegelijkertijd moeten de verschillen tussen groepen duidelijk zijn en binnen de groep moeten de respondenten zoveel mogelijk op elkaar lijken.

Tot op heden geven de meeste sociologische onderzoeken slechts een percentage van de stemmen: het grootste aantal positieve antwoorden wordt beschouwd, of het percentage ontevredenen, maar deze kwestie wordt niet systematisch overwogen.

Meestal laat het onderzoek geen trends in de situatie zien. In sommige gevallen is het nodig om niet het aantal mensen te tellen dat 'voor' of 'tegen' is, maar de afstand, of de mate van overeenkomst, dat wil zeggen om groepen mensen te bepalen die hetzelfde denken.

Clusteranalyseprocedures kunnen worden gebruikt om op basis van onderzoeksgegevens enkele werkelijk bestaande relaties van kenmerken te identificeren en op basis daarvan hun typologie te genereren.

Aandacht!

De aanwezigheid van a priori hypothesen van een socioloog bij het werken met clusteranalyseprocedures is geen noodzakelijke voorwaarde.

In het Statistica-programma wordt de clusteranalyse als volgt uitgevoerd.

Let bij het kiezen van het aantal clusters op het volgende: het aantal clusters mag, indien mogelijk, niet te groot zijn.

De afstand waarop de objecten van een bepaalde cluster zijn samengevoegd, moet, indien mogelijk, veel kleiner zijn dan de afstand waarop iets anders zich bij deze cluster voegt.

Bij het kiezen van het aantal clusters zijn er meestal meerdere juiste oplossingen tegelijk.

We zijn bijvoorbeeld geïnteresseerd in hoe de antwoorden op de vragen van de vragenlijst zich verhouden tot gewone werknemers en het management van de onderneming. Daarom kiezen we K=2. Voor verdere segmentatie kunt u het aantal clusters vergroten.

  1. selecteer waarnemingen met de maximale afstand tussen clustercentra;
  2. sorteer afstanden en selecteer waarnemingen met regelmatige tussenpozen (standaardinstelling);
  3. neem de eerste observatiecentra en bevestig de rest van de objecten eraan.

Optie 1 is geschikt voor onze doeleinden.

Veel clusteringalgoritmen "leggen" vaak een structuur op die niet inherent is aan de gegevens en desoriënteren de onderzoeker. Daarom is het uiterst noodzakelijk om verschillende algoritmen voor clusteranalyse toe te passen en conclusies te trekken op basis van een algemene beoordeling van de resultaten van de algoritmen.

De resultaten van de analyse kunnen worden bekeken in het dialoogvenster dat verschijnt:

Als u het tabblad Middelengrafiek selecteert, wordt een grafiek van de coördinaten van de clustercentra uitgezet:


Elke onderbroken lijn in deze grafiek komt overeen met een van de clusters. Elke verdeling van de horizontale as van de grafiek komt overeen met een van de variabelen die in de analyse zijn opgenomen.

De verticale as komt overeen met de gemiddelde waarden van de variabelen voor de objecten die in elk van de clusters zijn opgenomen.

Opgemerkt kan worden dat er op bijna alle punten significante verschillen zijn in de houding van de twee groepen mensen ten opzichte van een dienstverlenende loopbaan. Slechts in één kwestie is er volledige eensgezindheid - in de zin van sociaal welzijn (OSB), of liever, het gebrek daaraan (2,5 punt op 10).

Aangenomen kan worden dat cluster 1 werknemers vertegenwoordigt en cluster 2 management. Managers zijn meer tevreden over loopbaanontwikkeling (CR), een combinatie van persoonlijke doelen en organisatiedoelen (SOL's).

Ze hebben een hoger gevoel van economisch welzijn (SEW) en een gevoel van loongelijkheid (SWA).

Ze maken zich minder zorgen over de nabijheid van huis dan werknemers, waarschijnlijk vanwege minder vervoersproblemen. Ook hebben managers minder behoefte om van baan te veranderen (JSR).

Ondanks het feit dat werknemers in twee categorieën worden verdeeld, geven ze op de meeste vragen relatief dezelfde antwoorden. Met andere woorden, als iets niet past bij de algemene groep medewerkers, past hetzelfde niet bij het senior management en vice versa.

Door de harmonisatie van de grafieken kunnen we concluderen dat het welzijn van de ene groep wordt weerspiegeld in het welzijn van een andere.

Cluster 1 is niet tevreden over de territoriale nabijheid van de woning. Deze groep vormt het grootste deel van de arbeiders die voornamelijk uit verschillende delen van de stad naar de onderneming komen.

Daarom is het mogelijk om het topmanagement aan te bieden om een ​​deel van de winst te besteden aan de bouw van woningen voor de werknemers van de onderneming.

Er zijn significante verschillen te zien in de houding van de twee groepen mensen ten opzichte van een dienstverlenende loopbaan. Die werknemers die tevreden zijn met loopbaangroei, die een hoge mate van overeenstemming hebben tussen persoonlijke doelen en de doelen van de organisatie, hebben geen behoefte om van baan te veranderen en voelen zich tevreden met de resultaten van hun werk.

Omgekeerd zijn werknemers die van baan willen veranderen en ontevreden zijn over de resultaten van hun werk niet tevreden met bovenstaande indicatoren. Het senior management moet speciale aandacht besteden aan de huidige situatie.

De resultaten van de variantieanalyse voor elk attribuut worden weergegeven door op de knop Variantieanalyse te drukken.

De som van kwadraten van afwijkingen van objecten uit clustercentra (SS Within) en de som van kwadraten van afwijkingen tussen clustercentra (SS Between), F-statistiekenwaarden en p significantieniveaus worden weergegeven.

Aandacht!

Voor ons voorbeeld zijn de significantieniveaus voor de twee variabelen vrij groot, wat wordt verklaard door het kleine aantal waarnemingen. In de volledige versie van de studie, die in het werk te vinden is, worden de hypothesen over de gelijkheid van de middelen voor de clustercentra verworpen bij significantieniveaus kleiner dan 0,01.

De knop Classificaties en afstanden opslaan toont het aantal objecten in elk cluster en de afstanden van objecten tot het midden van elk cluster.

De tabel toont de zaaknummers (CASE_NO) waaruit de clusters met CLUSTER-nummers bestaan ​​en de afstanden vanaf het midden van elk cluster (DISTANCE).

Informatie over objecten die tot clusters behoren, kan naar een bestand worden geschreven en voor verdere analyse worden gebruikt. In dit voorbeeld bleek uit een vergelijking van de resultaten verkregen met de vragenlijsten dat cluster 1 voornamelijk bestaat uit gewone werknemers en cluster 2 uit managers.

Zo kan worden gezien dat clusteranalyse bij het verwerken van de resultaten van de enquête een krachtige methode bleek te zijn waarmee conclusies kunnen worden getrokken die niet kunnen worden bereikt door een histogram van gemiddelden te construeren of door het percentage te berekenen van degenen die tevreden zijn met verschillende indicatoren van de kwaliteit van het arbeidsleven.

Boomclustering is een voorbeeld van een hiërarchisch algoritme, waarvan het principe is om eerst de dichtstbijzijnde, en vervolgens steeds verder verwijderde elementen van elkaar in een cluster te clusteren.

De meeste van deze algoritmen gaan uit van een matrix van gelijkenis (afstanden), en elk afzonderlijk element wordt in eerste instantie als een afzonderlijk cluster beschouwd.

Na het laden van de clusteranalysemodule en het selecteren van Joining (boomclustering), kunt u de volgende parameters wijzigen in het invoervenster voor clusteringparameters:

  • Initiële gegevens (invoer). Ze kunnen de vorm hebben van een matrix van de bestudeerde gegevens (Ruwe gegevens) en in de vorm van een matrix van afstanden (Afstandsmatrix).
  • Clustering (Cluster) observaties (Cases (onbewerkt)) of variabelen (Variabele (kolommen)), die de toestand van het object beschrijven.
  • Afstand maatregelen. Hier kunt u de volgende maten selecteren: Euclidische afstanden, Kwadraat Euclidische afstanden, Stadsblok (Manhattan) afstand, Chebychev afstandsmetriek, Vermogen ...), het percentage van onenigheid (Percentage onenigheid).
  • Clusteringmethode (Samenvoegings(koppel)regel). De volgende opties zijn hier mogelijk: Single Linkage, Complete Linkage, Ongewogen paargroepgemiddelde, Gewogen paargroepgemiddelde), Ongewogen paargroepzwaartepunt, Gewogen paargroepzwaartepunt (mediaan), Ward's methode.

Als resultaat van clustering wordt een horizontaal of verticaal dendrogram gebouwd - een grafiek waarop de afstanden tussen objecten en clusters worden bepaald wanneer ze sequentieel worden gecombineerd.

De boomstructuur van de grafiek stelt u in staat clusters te definiëren, afhankelijk van de geselecteerde drempel - een bepaalde afstand tussen clusters.

Daarnaast wordt de matrix van afstanden tussen de originele objecten (Afstandsmatrix) weergegeven; gemiddelde en standaarddeviaties voor elk bronobject (Distiptive-statistieken).

Voor het beschouwde voorbeeld zullen we een clusteranalyse uitvoeren van variabelen met standaardinstellingen. Het resulterende dendrogram wordt getoond in de figuur.


De verticale as van het dendrogram geeft de afstanden tussen objecten en tussen objecten en clusters weer. De afstand tussen de variabelen SEB en OSD is dus gelijk aan vijf. Deze variabelen worden bij de eerste stap gecombineerd in één cluster.

De horizontale segmenten van het dendrogram worden getekend op niveaus die overeenkomen met de drempelafstanden die zijn geselecteerd voor een bepaalde clusteringstap.

Uit de grafiek blijkt dat de vraag “verlangen om van baan te veranderen” (JSR) een apart cluster vormt. Over het algemeen komt de wens om ergens te dumpen bij iedereen in gelijke mate terecht. Een apart cluster is verder de kwestie van de territoriale nabijheid tot huis (LHB).

In termen van belangrijkheid komt het op de tweede plaats, wat de conclusie bevestigt over de noodzaak van woningbouw, gemaakt volgens de resultaten van het onderzoek met behulp van de K-means-methode.

Gevoelens van economisch welzijn (PEW) en loongelijkheid (PWA) worden gecombineerd - dit is een blok van economische problemen. Loopbaanontwikkeling (CR) en de combinatie van persoonlijke doelen en organisatiedoelen (COL) worden ook gecombineerd.

Andere clusteringmethoden, evenals de keuze van andere soorten afstanden, leiden niet tot een significante verandering in het dendrogram.

Resultaten:

  1. Clusteranalyse is een krachtig hulpmiddel voor verkennende gegevensanalyse en statistisch onderzoek op elk vakgebied.
  2. Het Statistica-programma implementeert zowel hiërarchische als structurele methoden van clusteranalyse. De voordelen van dit statistische pakket zijn te danken aan hun grafische mogelijkheden. Er worden tweedimensionale en driedimensionale grafische weergaven van de verkregen clusters in de ruimte van de bestudeerde variabelen gegeven, evenals de resultaten van de hiërarchische procedure voor het groeperen van objecten.
  3. Het is noodzakelijk om verschillende clusteranalyse-algoritmen toe te passen en conclusies te trekken op basis van een algemene beoordeling van de resultaten van de algoritmen.
  4. Clusteranalyse kan als succesvol worden beschouwd als deze op verschillende manieren wordt uitgevoerd, de resultaten worden vergeleken en gemeenschappelijke patronen worden gevonden, en stabiele clusters worden gevonden, ongeacht de clusteringmethode.
  5. Met clusteranalyse kunt u probleemsituaties identificeren en manieren schetsen om deze op te lossen. Daarom kan deze methode van niet-parametrische statistiek worden beschouwd als een integraal onderdeel van systeemanalyse.

Invoertypen

  • Indicatieve beschrijving van objecten. Elk object wordt beschreven door een reeks kenmerken, genaamd tekens. Functies kunnen numeriek of niet-numeriek zijn.
  • Afstandsmatrix tussen objecten. Elk object wordt beschreven door afstanden tot alle andere objecten in de trainingsset.

Doelen van clustering

  • Gegevens begrijpen door clusterstructuur te identificeren. Door de steekproef op te delen in groepen van vergelijkbare objecten, is het mogelijk om verdere gegevensverwerking en besluitvorming te vereenvoudigen door op elk cluster een eigen analysemethode toe te passen (de "verdeel en heers"-strategie).
  • Data compressie. Als het initiële monster te groot is, kan het worden verkleind, waardoor een van de meest typische vertegenwoordigers van elk cluster overblijft.
  • detectie van nieuwigheden. nieuwheidsdetectie). Er worden atypische objecten geselecteerd die niet aan een van de clusters kunnen worden gekoppeld.

In het eerste geval proberen ze het aantal clusters kleiner te maken. In het tweede geval is het belangrijker om te zorgen voor een hoge mate van gelijkenis van objecten binnen elk cluster, en er kan een willekeurig aantal clusters zijn. In het derde geval zijn individuele objecten die niet in een van de clusters passen van het grootste belang.

In al deze gevallen kan hiërarchische clustering worden toegepast, wanneer grote clusters worden opgesplitst in kleinere, die op hun beurt nog kleiner worden opgesplitst, enz. Dergelijke taken worden taxonomietaken genoemd.

Het resultaat van taxonomie is een boomachtige hiërarchische structuur. Daarnaast wordt elk object gekenmerkt door een opsomming van alle clusters waartoe het behoort, meestal van groot tot klein.

Een klassiek voorbeeld van taxonomie op basis van gelijkenis is de binominale nomenclatuur van levende wezens voorgesteld door Carl Linnaeus in het midden van de 18e eeuw. Soortgelijke systematiseringen zijn in veel kennisgebieden ingebouwd om informatie over een groot aantal objecten te ordenen.

Clustermethoden

Formele verklaring van het clusterprobleem

Laat een reeks objecten zijn, een reeks getallen (namen, labels) van clusters. De afstandsfunctie tussen objecten wordt gegeven. Er is een eindige trainingsset van objecten. Het is vereist om de steekproef te splitsen in niet-overlappende subsets, genaamd clusters, zodat elk cluster bestaat uit objecten die dicht in de buurt van metrisch zijn en objecten van verschillende clusters aanzienlijk verschillen. In dit geval krijgt elk object een clusternummer toegewezen.

clustering algoritme is een functie die elk object associeert met een clusternummer. De set is in sommige gevallen vooraf bekend, maar vaker is het de taak om het optimale aantal clusters te bepalen, vanuit het oogpunt van een of ander kwaliteitscriteria clusteren.

Literatuur

  1. Aivazyan S.A., Buchstaber V.M., Enyukov I.S., Meshalkin L.D. Toegepaste statistiek: classificatie en dimensiereductie. - M.: Financiën en statistiek, 1989.
  2. Zhuravlev Yu. I., Ryazanov V. V., Senko O. V."Herkenning". Wiskundige methoden. Software systeem. Praktische toepassingen. - M.: Fazis, 2006. ISBN 5-7036-0108-8.
  3. Zagoruiko N.G. Toegepaste methoden van data- en kennisanalyse. - Novosibirsk: IM SO RAN, 1999. ISBN 5-86134-060-9.
  4. Mandel I.D. clusteranalyse. - M.: Financiën en statistiek, 1988. ISBN 5-279-00050-7.
  5. Shlesinger M., Glavach V. Tien colleges over statistische en structurele herkenning. - Kiev: Naukova Dumka, 2004. ISBN 966-00-0341-2.
  6. Hastie T., Tibshirani R., Friedman J. De elementen van statistisch leren. - Springer, 2001. ISBN 0-387-95284-5.
  7. Jain Murty Flynn Gegevensclustering: een overzicht . // ACM-computer. Overleven 31 (3) , 1999

Externe links

In het Russisch

  • www.MachineLearning.ru - professionele wiki-bron gewijd aan machine learning en datamining
  • S. Nikolajenko. College slides over clustering algoritmen

In Engels

  • COMPACT - Vergelijkend pakket voor clusterbeoordeling. Een gratis Matlab-pakket, 2006.
  • P. Berkhin, Overzicht van technieken voor het clusteren van datamining, Accrue-software, 2002.
  • Jain, Murty en Flynn: Gegevensclustering: een overzicht, ACM Comp. Overleven, 1999.
  • voor een andere presentatie van hiërarchische, k-means en fuzzy c-means, zie deze inleiding tot clustering . Heeft ook een uitleg over het mengsel van Gaussianen.
  • David Dowe, Pagina voor mengselmodellering- andere koppelingen tussen clustering- en mengselmodellen.
  • een tutorial over clustering
  • Het online leerboek: Informatietheorie, gevolgtrekkingen en leeralgoritmen, door David J.C. MacKay bevat hoofdstukken over k-means-clustering, zachte k-means-clustering en afleidingen, waaronder het E-M-algoritme en de variatieweergave van het E-M-algoritme.
  • "The Self-Organized Gene", tutorial waarin clustering wordt uitgelegd door middel van competitief leren en zelforganiserende kaarten.
  • kernlab - R-pakket voor op kernel gebaseerde machine learning (inclusief implementatie van spectrale clustering)
  • Tutorial - Tutorial met introductie van Clustering Algorithms (k-means, fuzzy-c-means, hiërarchisch, mix van gaussians) + enkele interactieve demo's (java-applets)
  • Dataminingsoftware - Dataminingsoftware maakt vaak gebruik van clustertechnieken.
  • Java Competitve Learning-applicatie Een suite van niet-gecontroleerde neurale netwerken voor clustering. Op Java geschreven. Compleet met alle broncode.

clusteranalyse

De meeste onderzoekers zijn geneigd te geloven dat voor het eerst de term "clusteranalyse" (eng. TROS- bos, klonter, bos) werd voorgesteld door de wiskundige R. Trion. Vervolgens ontstonden een aantal termen die nu als synoniem worden beschouwd met de term "clusteranalyse": automatische classificatie; botryologie.

Clusteranalyse is een multivariate statistische procedure die gegevens verzamelt die informatie bevatten over een steekproef van objecten, en vervolgens objecten rangschikt in relatief homogene groepen (clusters) (Q-clustering of Q-techniek, goede clusteranalyse). Cluster - een groep elementen die wordt gekenmerkt door een gemeenschappelijke eigenschap, het belangrijkste doel van clusteranalyse is om groepen vergelijkbare objecten in het monster te vinden. Het toepassingsgebied van clusteranalyse is zeer breed: het wordt gebruikt in de archeologie, geneeskunde, psychologie, scheikunde, biologie, openbaar bestuur, filologie, antropologie, marketing, sociologie en andere disciplines. De universaliteit van de toepassing heeft echter geleid tot de opkomst van een groot aantal onverenigbare termen, methoden en benaderingen die het moeilijk maken om clusteranalyse eenduidig ​​te gebruiken en consistent te interpreteren. Orlov A.I. stelt voor om het volgende te onderscheiden:

Taken en voorwaarden

Clusteranalyse voert het volgende uit: belangrijkste doelen:

  • Ontwikkeling van een typologie of classificatie.
  • Verkennen van bruikbare conceptuele schema's voor het groeperen van objecten.
  • Generatie van hypothesen op basis van gegevensverkenning.
  • Hypothesetoetsing of onderzoek om vast te stellen of op de een of andere manier geïdentificeerde typen (groepen) daadwerkelijk aanwezig zijn in de beschikbare data.

Ongeacht het onderwerp van studie, het gebruik van clusteranalyse omvat: volgende stappen:

  • Steekproeven voor clustering. Het is duidelijk dat het zinvol is om alleen kwantitatieve gegevens te clusteren.
  • Definitie van een reeks variabelen waarmee objecten in de steekproef zullen worden geëvalueerd, dat wil zeggen een functieruimte.
  • Berekening van de waarden van een of andere mate van overeenkomst (of verschil) tussen objecten.
  • Toepassing van de clusteranalysemethode om groepen van vergelijkbare objecten te maken.
  • Validatie van de resultaten van de clusteroplossing.

Clusteranalyse levert het volgende op: data benodigdheden:

  1. indicatoren mogen niet met elkaar correleren;
  2. indicatoren mogen de meettheorie niet tegenspreken;
  3. de verdeling van indicatoren moet bijna normaal zijn;
  4. indicatoren moeten voldoen aan de eis van "stabiliteit", wat betekent dat er geen invloed is op hun waarden door willekeurige factoren;
  5. het monster moet homogeen zijn en geen "uitbijters" bevatten.

U kunt een beschrijving vinden van twee fundamentele vereisten voor gegevens - uniformiteit en volledigheid:

Homogeniteit vereist dat alle entiteiten die in een tabel worden weergegeven, van dezelfde aard zijn. De eis voor volledigheid is dat de sets l en J presenteerde een volledige beschrijving van de manifestaties van het fenomeen in kwestie. Als we een tabel beschouwen waarin: l is een verzameling, en J- de reeks variabelen die deze populatie beschrijven, dan moet het een representatieve steekproef zijn uit de bestudeerde populatie, en het systeem van kenmerken J moet een bevredigende vectorrepresentatie van individuen geven i vanuit het oogpunt van een onderzoeker.

Als clusteranalyse wordt voorafgegaan door factoranalyse, hoeft het monster niet te worden "gerepareerd" - de genoemde vereisten worden automatisch uitgevoerd door de factormodelleringsprocedure zelf (er is nog een voordeel - z-standaardisatie zonder negatieve gevolgen voor het monster; als het direct voor clusteranalyse wordt uitgevoerd, kan dit leiden tot een afname van de duidelijkheid van de scheiding van groepen). Anders moet het monster worden aangepast.

Typologie van clusterproblemen

Invoertypen

In de moderne wetenschap worden verschillende algoritmen gebruikt voor het verwerken van invoergegevens. Analyse door objecten te vergelijken op basis van kenmerken (meest gebruikelijk in de biologische wetenschappen) wordt genoemd Q- type analyse, en in het geval van kenmerkvergelijking, op basis van objecten - R- soort analyse. Er zijn pogingen om hybride soorten analyse te gebruiken (bijvoorbeeld RQ analyse), maar deze methodologie is nog niet goed ontwikkeld.

Doelen van clustering

  • Gegevens begrijpen door clusterstructuur te identificeren. Door de steekproef op te delen in groepen van vergelijkbare objecten, is het mogelijk om verdere gegevensverwerking en besluitvorming te vereenvoudigen door op elk cluster een eigen analysemethode toe te passen (de "verdeel en heers"-strategie).
  • Data compressie. Als het initiële monster te groot is, kan het worden verkleind, waardoor een van de meest typische vertegenwoordigers van elk cluster overblijft.
  • detectie van nieuwigheden. nieuwheidsdetectie). Er worden atypische objecten geselecteerd die niet aan een van de clusters kunnen worden gekoppeld.

In het eerste geval proberen ze het aantal clusters kleiner te maken. In het tweede geval is het belangrijker om te zorgen voor een hoge mate van gelijkenis van objecten binnen elk cluster, en er kan een willekeurig aantal clusters zijn. In het derde geval zijn individuele objecten die niet in een van de clusters passen van het grootste belang.

In al deze gevallen kan hiërarchische clustering worden toegepast, wanneer grote clusters worden opgesplitst in kleinere, die op hun beurt nog kleiner worden gesplitst, enz. Dergelijke taken worden taxonomietaken genoemd. Het resultaat van taxonomie is een boomachtige hiërarchische structuur. Daarnaast wordt elk object gekenmerkt door een opsomming van alle clusters waartoe het behoort, meestal van groot tot klein.

Clustermethoden

Er is geen algemeen aanvaarde classificatie van clusteringmethoden, maar een solide poging van V.S. Berikov en G.S. Lbov kan worden opgemerkt. Als we de verschillende classificaties van clusteringmethoden generaliseren, kunnen we een aantal groepen onderscheiden (sommige methoden kunnen aan meerdere groepen tegelijk worden toegeschreven, en daarom wordt voorgesteld om deze typering te beschouwen als een benadering van de echte classificatie van clusteringmethoden):

  1. probabilistische benadering. Aangenomen wordt dat elk object in kwestie behoort tot een van de k-klassen. Sommige auteurs (bijvoorbeeld A.I. Orlov) zijn van mening dat deze groep helemaal niet tot clustering behoort en verzetten zich ertegen onder de naam "discriminatie", dat wil zeggen de keuze om objecten toe te wijzen aan een van de bekende groepen (trainingsvoorbeelden).
  2. Benaderingen op basis van kunstmatige-intelligentiesystemen. Een zeer voorwaardelijke groep, aangezien er veel AI-methoden zijn en methodisch heel verschillend zijn.
  3. logische benadering. De constructie van een dendrogram wordt uitgevoerd met behulp van een beslisboom.
  4. Grafiektheoretische benadering.
    • Grafiekclusteringsalgoritmen
  5. Hiërarchische benadering. De aanwezigheid van geneste groepen (clusters van verschillende orden) wordt verondersteld. Algoritmen zijn op hun beurt onderverdeeld in agglomeratief (verenigend) en verdelend (scheidend). Afhankelijk van het aantal kenmerken worden soms monothetische en polythetische classificatiemethoden onderscheiden.
    • Hiërarchische divisieclustering of taxonomie. In de kwantitatieve taxonomie wordt rekening gehouden met clusteringsproblemen.
  6. Andere methodes. Niet opgenomen in de vorige groepen.
    • Statistische clusteringalgoritmen
    • Ensemble van clusterers
    • Algoritmen van de KRAB-familie
    • Algoritme gebaseerd op de zeefmethode
    • DBSCAN enz.

Benaderingen 4 en 5 worden soms gecombineerd onder de naam van de structurele of geometrische benadering, die een meer geformaliseerd concept van nabijheid heeft. Ondanks aanzienlijke verschillen tussen de vermelde methoden, vertrouwen ze allemaal op het origineel " compactheid hypothese»: in de objectruimte moeten alle nabije objecten tot hetzelfde cluster behoren en moeten alle verschillende objecten zich respectievelijk in verschillende clusters bevinden.

Formele verklaring van het clusterprobleem

Laat een reeks objecten zijn, een reeks getallen (namen, labels) van clusters. De afstandsfunctie tussen objecten wordt gegeven. Er is een eindige trainingsset van objecten. Het is vereist om de steekproef te splitsen in niet-overlappende subsets, genaamd clusters, zodat elk cluster bestaat uit objecten die dicht in de buurt van metrisch zijn en objecten van verschillende clusters aanzienlijk verschillen. In dit geval krijgt elk object een clusternummer toegewezen.

clustering algoritme is een functie die elk object associeert met een clusternummer. De set is in sommige gevallen vooraf bekend, maar vaker is het de taak om het optimale aantal clusters te bepalen, vanuit het oogpunt van een of ander kwaliteitscriteria clusteren.

Clustering (niet-gesuperviseerd leren) verschilt van classificatie (gesuperviseerd leren) doordat de labels van de originele objecten aanvankelijk niet zijn ingesteld, en de set zelf kan zelfs onbekend zijn.

De oplossing van het clusteringprobleem is principieel dubbelzinnig en daar zijn (volgens een aantal auteurs) meerdere redenen voor:

  • er is geen uniek beste criterium voor de kwaliteit van clustering. Er zijn een aantal heuristische criteria bekend, evenals een aantal algoritmen die geen duidelijk omschreven criterium hebben, maar een redelijk redelijke clustering “by construction” uitvoeren. Ze kunnen allemaal verschillende resultaten geven. Om de kwaliteit van clustering te bepalen, is daarom een ​​expert op het vakgebied nodig, die de zinvolheid van de selectie van clusters kan beoordelen.
  • het aantal clusters is meestal vooraf niet bekend en wordt bepaald op basis van een subjectief criterium. Dit geldt alleen voor discriminatiemethoden, aangezien bij clusteringmethoden clusters worden geselecteerd met behulp van een geformaliseerde benadering op basis van nabijheidsmaatregelen.
  • het clusterresultaat is sterk afhankelijk van de metriek, waarvan de keuze in de regel ook subjectief is en wordt bepaald door een deskundige. Maar het is vermeldenswaard dat er een aantal aanbevelingen zijn voor het kiezen van nabijheidsmaatregelen voor verschillende taken.

Sollicitatie

in de biologie

In de biologie heeft clustering veel toepassingen op een groot aantal verschillende gebieden. In de bio-informatica wordt het bijvoorbeeld gebruikt om complexe netwerken van op elkaar inwerkende genen te analyseren, soms bestaande uit honderden of zelfs duizenden elementen. Met clusteranalyse kunt u subnetten, knelpunten, hubs en andere verborgen eigenschappen van het bestudeerde systeem identificeren, waardoor u uiteindelijk de bijdrage van elk gen aan de vorming van het bestudeerde fenomeen kunt achterhalen.

Op het gebied van ecologie wordt het veel gebruikt om ruimtelijk homogene groepen organismen, gemeenschappen, enz. te identificeren. Minder vaak worden clusteranalysemethoden gebruikt om gemeenschappen in de loop van de tijd te bestuderen. De heterogeniteit van de structuur van gemeenschappen leidt tot de opkomst van niet-triviale methoden voor clusteranalyse (bijvoorbeeld de Czekanowski-methode).

In het algemeen is het vermeldenswaard dat historisch gezien gelijkenismaten vaker worden gebruikt als nabijheidsmaten in de biologie dan als verschil(afstands)maten.

in de sociologie

Bij het analyseren van de resultaten van sociologisch onderzoek verdient het de aanbeveling om de analyse uit te voeren met behulp van de methoden van een hiërarchische agglomeratieve familie, namelijk de Ward-methode, waarbij de minimale spreiding binnen de clusters wordt geoptimaliseerd, met als resultaat clusters van ongeveer gelijke grootte zijn gemaakt. De methode van Ward is het meest succesvol voor de analyse van sociologische gegevens. Als maat voor het verschil is de kwadratische Euclidische afstand beter, wat bijdraagt ​​aan een toename van het contrast van clusters. Het belangrijkste resultaat van hiërarchische clusteranalyse is een dendrogram of "ijspegeldiagram". Bij de interpretatie ervan lopen onderzoekers tegen een probleem aan dat vergelijkbaar is met de interpretatie van de resultaten van factoranalyse: het ontbreken van eenduidige criteria voor het identificeren van clusters. Het wordt aanbevolen om twee methoden als belangrijkste te gebruiken: visuele analyse van het dendrogram en vergelijking van de resultaten van clustering uitgevoerd met verschillende methoden.

Visuele analyse van het dendrogram omvat het "knippen" van de boom op het optimale niveau van gelijkenis van de monsterelementen. De "wijnstoktak" (terminologie van Oldenderfer M.S. en Blashfield R.K.) moet worden "afgesneden" op ongeveer 5 op de schaal van de geschaalde afstandsclustercombinatie, waardoor een overeenkomst van 80% wordt bereikt. Als het selecteren van clusters op dit label moeilijk is (meerdere kleine clusters versmelten tot één grote erop), dan kunt u een ander label kiezen. Deze techniek wordt voorgesteld door Oldenderfer en Blashfield.

Nu rijst de vraag naar de stabiliteit van de aangenomen clusteroplossing. In feite komt het controleren van de stabiliteit van clustering neer op het controleren van de betrouwbaarheid ervan. Er is hier een vuistregel: een stabiele typologie blijft behouden wanneer clusteringmethoden veranderen. De resultaten van hiërarchische clusteranalyse kunnen worden geverifieerd door iteratieve k-means clusteranalyse. Als de vergeleken classificaties van groepen respondenten een aandeel toevalligheden hebben van meer dan 70% (meer dan 2/3 van de toevalligheden), wordt een clusterbeslissing genomen.

Het is onmogelijk om de geschiktheid van de oplossing te controleren zonder toevlucht te nemen tot een ander type analyse. Dit probleem is in ieder geval theoretisch niet opgelost. De klassieke clusteranalyse van Oldenderfer en Blashfield gaat dieper in op en verwerpt uiteindelijk vijf aanvullende robuustheidstestmethoden:

In de informatica

  • Clustering van zoekresultaten - gebruikt voor "intelligente" groepering van resultaten bij het zoeken naar bestanden, websites en andere objecten, waardoor de gebruiker snel kan navigeren, een subset kan selecteren die duidelijk relevanter is en een duidelijk minder relevante uitsluit - wat de bruikbaarheid van de interface vergeleken met output in de vorm van een eenvoudig gesorteerd op relevantie lijst.
    • Clusty - Vivísimo's clusterzoekmachine
    • Nigma - Russische zoekmachine met automatische resultatenclustering
    • Quintura - visuele clustering in de vorm van een wolk van trefwoorden
  • Beeldsegmentatie beeldsegmentatie) - Clustering kan worden gebruikt om een ​​digitaal beeld op te splitsen in afzonderlijke regio's met het oog op randdetectie. rand detectie) of objectherkenning.
  • Datamining datamining)- Clustering in datamining wordt waardevol wanneer het fungeert als een van de fasen van data-analyse en een complete analytische oplossing vormt. Het is vaak gemakkelijker voor een analist om groepen van vergelijkbare objecten te identificeren, hun kenmerken te bestuderen en voor elke groep een apart model te bouwen dan om één algemeen model voor alle gegevens te maken. Deze techniek wordt voortdurend gebruikt in marketing, waarbij groepen klanten, kopers, goederen worden gemarkeerd en voor elk van hen een afzonderlijke strategie wordt ontwikkeld.

zie ook

Opmerkingen:

Links

In het Russisch
  • www.MachineLearning.ru - professionele wiki-bron gewijd aan machine learning en datamining
In Engels
  • COMPACT - Vergelijkend pakket voor clusterbeoordeling. Een gratis Matlab-pakket, 2006.
  • P. Berkhin, Overzicht van technieken voor het clusteren van datamining, Accrue-software, 2002.
  • Jain, Murty en Flynn: Gegevensclustering: een overzicht, ACM Comp. Overleven, 1999.
  • voor een andere presentatie van hiërarchische, k-means en fuzzy c-means, zie deze inleiding tot clustering . Heeft ook een uitleg over het mengsel van Gaussianen.
  • David Dowe, Pagina voor mengselmodellering- andere koppelingen tussen clustering- en mengselmodellen.
  • een tutorial over clustering
  • Het online leerboek: Informatietheorie, gevolgtrekkingen en leeralgoritmen, door David J.C. MacKay bevat hoofdstukken over k-means-clustering, zachte k-means-clustering en afleidingen, waaronder het E-M-algoritme en de variatieweergave van het E-M-algoritme.
  • "The Self-Organized Gene", tutorial waarin clustering wordt uitgelegd door middel van competitief leren en zelforganiserende kaarten.
  • kernlab - R-pakket voor op kernel gebaseerde machine learning (inclusief implementatie van spectrale clustering)
  • Tutorial - Tutorial met introductie van Clustering Algorithms (k-means, fuzzy-c-means, hiërarchisch, mix van gaussians) + enkele interactieve demo's (java-applets)
  • Dataminingsoftware - Dataminingsoftware maakt vaak gebruik van clustertechnieken.
  • Java Competitve Learning-applicatie Een suite van niet-gecontroleerde neurale netwerken voor clustering. Op Java geschreven. Compleet met alle broncode.
  • Machine Learning Software - Bevat ook veel clustersoftware.

We weten dat de aarde een van de 8 planeten is die om de zon draaien. De zon is slechts een ster tussen ongeveer 200 miljard sterren in het Melkwegstelsel. Het is erg moeilijk om dit nummer te begrijpen. Dit wetende, kan men een veronderstelling maken over het aantal sterren in het universum - ongeveer 4X10^22. We kunnen ongeveer een miljoen sterren aan de hemel zien, hoewel dit slechts een klein deel is van het werkelijke aantal sterren. We hebben dus twee vragen:

  1. Wat is een melkweg?
  2. En wat is het verband tussen sterrenstelsels en het onderwerp van het artikel (clusteranalyse)


Een melkwegstelsel is een verzameling sterren, gas, stof, planeten en interstellaire wolken. Meestal lijken sterrenstelsels op een spiraal of oedeptisch figuur. In de ruimte zijn sterrenstelsels van elkaar gescheiden. Enorme zwarte gaten zijn meestal de centra van de meeste sterrenstelsels.

Zoals we in de volgende sectie zullen bespreken, zijn er veel overeenkomsten tussen sterrenstelsels en clusteranalyse. Sterrenstelsels bestaan ​​in de driedimensionale ruimte, clusteranalyse is een multidimensionale analyse die wordt uitgevoerd in de n-dimensionale ruimte.

De notitie: Een zwart gat is het centrum van een melkwegstelsel. We zullen een soortgelijk idee gebruiken voor zwaartepunten voor clusteranalyse.

clusteranalyse

Stel dat u het hoofd marketing en klantrelaties bent bij een telecommunicatiebedrijf. Je begrijpt dat alle klanten anders zijn en dat je verschillende strategieën nodig hebt om verschillende klanten te bereiken. U zult de kracht waarderen van een tool als klantsegmentatie om de kosten te optimaliseren. Om uw kennis van clusteranalyse bij te spijkeren, kunt u het volgende voorbeeld bekijken, waarin 8 klanten en hun gemiddelde gespreksduur (lokaal en internationaal) worden geïllustreerd. Hieronder de gegevens:

Laten we voor een betere waarneming een grafiek tekenen waarin de x-as de gemiddelde duur van internationale gesprekken is, en de y-as de gemiddelde duur van lokale gesprekken. Hieronder is de grafiek:

De notitie: Dit is vergelijkbaar met het analyseren van de positie van de sterren aan de nachtelijke hemel (hier worden de sterren vervangen door consumenten). Bovendien hebben we in plaats van een 3D-ruimte een 2D-ruimte, gedefinieerd door de duur van lokale en internationale gesprekken, als de x- en y-assen.
Nu, in termen van sterrenstelsels, is het probleem als volgt geformuleerd - om de positie van zwarte gaten te vinden; in clusteranalyse worden ze zwaartepunten genoemd. Om zwaartepunten te detecteren, beginnen we met het nemen van willekeurige punten als de positie van de zwaartepunten.

Euclidische afstand voor het vinden van zwaartepunten voor clusters

In ons geval zullen we willekeurig twee zwaartepunten (C1 en C2) plaatsen op de punten met coördinaten (1, 1) en (3, 4). Waarom hebben we deze twee zwaartepunten gekozen? Visuele weergave van punten op de grafiek laat ons zien dat er twee clusters zijn die we zullen analyseren. We zullen later echter zien dat het antwoord op deze vraag niet zo eenvoudig zal zijn voor een grote dataset.
Vervolgens meten we de afstand tussen de zwaartepunten (C1 en C2) en alle punten op de grafiek met behulp van de formule van Euclides om de afstand tussen twee punten te vinden.

Opmerking: de afstand kan ook worden berekend met andere formules, bijvoorbeeld

  1. het kwadraat van de Euclidische afstand - om gewicht te geven aan objecten die verder van elkaar verwijderd zijn
  2. Manhattan-afstand - om de impact van emissies te verminderen
  3. machtsafstand - om de invloed op specifieke coördinaten te vergroten / verkleinen
  4. procent onenigheid - voor categorische gegevens
  5. en etc.
Kolom 3 en 4 (Afstand van C1 en C2) is de afstand berekend met deze formule. Bijvoorbeeld voor de eerste gebruiker

Het behoren tot de zwaartepunten (laatste kolom) wordt berekend volgens het principe van de nabijheid van de zwaartepunten (C1 en C2). De eerste consument is dichter bij zwaartepunt #1 (1,41 vergeleken met 2,24) en behoort daarom tot het cluster met zwaartepunt C1.

Hieronder ziet u een grafiek die de zwaartepunten C1 en C2 illustreert (afgebeeld als een blauwe en oranje diamant). Consumenten worden weergegeven in de kleur van het overeenkomstige zwaartepunt waaraan ze zijn toegewezen.

Omdat we willekeurig zwaartepunten hebben gekozen, is de tweede stap om deze keuze iteratief te maken. De nieuwe positie van de zwaartepunten wordt gekozen als het gemiddelde voor de punten van de overeenkomstige cluster. Dus bijvoorbeeld voor het eerste zwaartepunt (dit zijn consumenten 1, 2 en 3). Daarom is de nieuwe x-coördinaat voor het zwaartepunt C1 het gemiddelde van de x-coördinaten van deze verbruikers (2+1+1)/3 = 1,33. We krijgen nieuwe coördinaten voor C1 (1.33, 2.33) en C2 (4.4, 4.2) De nieuwe plot staat hieronder:

Ten slotte zullen we de zwaartepunten in het midden van het betreffende cluster plaatsen. Onderstaande tabel:

De posities van onze zwarte gaten (clustercentra) in ons voorbeeld zijn C1 (1,75, 2,25) en C2 (4,75, 4,75). De twee bovenstaande clusters zijn als twee sterrenstelsels die in de ruimte van elkaar zijn gescheiden.

Laten we de voorbeelden dus verder bekijken. Laten we ons voor de taak stellen consumenten te segmenteren op basis van twee parameters: leeftijd en inkomen. Stel we hebben 2 consumenten van 37 en 44 jaar met een inkomen van respectievelijk $90.000 en $62.000. Als we de Euclidische afstand tussen de punten (37, 90000) en (44, 62000) willen meten, zullen we zien dat in dit geval de variabele inkomen de variabele leeftijd "domineert" en dat de verandering ervan de afstand sterk beïnvloedt. We hebben een soort strategie nodig om dit probleem op te lossen, anders geeft onze analyse een onjuist resultaat. De oplossing voor dit probleem is om onze waarden op vergelijkbare schaal te brengen. Normalisatie is de oplossing voor ons probleem.

Gegevens normalisatie

Er zijn veel manieren om gegevens te normaliseren. Bijvoorbeeld minimaal-maximaal normalisatie. Voor deze normalisatie wordt de volgende formule gebruikt:

in dit geval is X* een genormaliseerde waarde, min en max zijn de minimum- en maximumcoördinaten over de hele set X
(Let op, deze formule plaatst alle coördinaten op het segment )
Overweeg ons voorbeeld, laat het maximale inkomen $ 130.000 zijn en het minimum $ 45.000. De genormaliseerde waarde van het inkomen voor consument A is

We doen deze oefening voor alle punten voor elke variabele (coördinaat). Het inkomen voor de tweede consument (62000) wordt na de normalisatieprocedure 0,2. Laat daarnaast de minimum- en maximumleeftijd respectievelijk 23 en 58 jaar zijn. Na normalisatie zullen de leeftijden van onze twee consumenten 0,4 en 0,6 zijn.

Het is gemakkelijk te zien dat al onze gegevens nu tussen 0 en 1 liggen. Daarom hebben we nu genormaliseerde gegevenssets op vergelijkbare schalen.

Onthoud dat het vóór de clusteranalyseprocedure noodzakelijk is om normalisatie uit te voeren.

Invoertypen

  • Indicatieve beschrijving van objecten. Elk object wordt beschreven door een reeks kenmerken, genaamd tekens. Functies kunnen numeriek of niet-numeriek zijn.
  • Afstandsmatrix tussen objecten. Elk object wordt beschreven door afstanden tot alle andere objecten in de trainingsset.

Afstandsmatrix kan op een oneindig aantal manieren worden berekend uit de matrix van kenmerkbeschrijvingen van objecten, afhankelijk van hoe de afstandsfunctie (metrisch) tussen kenmerkbeschrijvingen moet worden geïntroduceerd. De Euclidische metriek wordt vaak gebruikt, maar deze keuze is in de meeste gevallen een heuristiek en is alleen te wijten aan gemaksoverwegingen.

Het inverse probleem - het herstel van kenmerkbeschrijvingen door de matrix van paarsgewijze afstanden tussen objecten - heeft in het algemeen geen oplossing, en de benaderde oplossing is niet uniek en kan een significante fout bevatten. Dit probleem wordt opgelost door multidimensionale schaalmethoden.

Dus de formulering van het probleem van clustering door afstandsmatrix is algemener. Aan de andere kant is het bij aanwezigheid van featurebeschrijvingen vaak mogelijk om efficiëntere clusteringmethoden te bouwen.

Doelen van clustering

  • Gegevens begrijpen door clusterstructuur te identificeren. Door de steekproef op te delen in groepen van vergelijkbare objecten, is het mogelijk om verdere gegevensverwerking en besluitvorming te vereenvoudigen door op elk cluster een eigen analysemethode toe te passen (de "verdeel en heers"-strategie).
  • Data compressie. Als het initiële monster te groot is, kan het worden verkleind, waardoor een van de meest typische vertegenwoordigers van elk cluster overblijft.
  • Detectie van nieuwigheden. Er worden atypische objecten geselecteerd die niet aan een van de clusters kunnen worden gekoppeld.

In het eerste geval proberen ze het aantal clusters kleiner te maken. In het tweede geval is het belangrijker om te zorgen voor een hoge (of vaste) mate van overeenkomst van objecten binnen elk cluster, en er kan een willekeurig aantal clusters zijn. In het derde geval zijn individuele objecten die niet in een van de clusters passen van het grootste belang.

In al deze gevallen kan hiërarchische clustering worden toegepast, wanneer grote clusters worden opgesplitst in kleinere, die op hun beurt nog kleiner worden gesplitst, enz. Dergelijke taken worden taxonomietaken genoemd.

Het resultaat van taxonomie is een boomachtige hiërarchische structuur. Daarnaast wordt elk object gekenmerkt door een opsomming van alle clusters waartoe het behoort, meestal van groot tot klein. Visueel wordt taxonomie weergegeven als een grafiek die een dendrogram wordt genoemd.

Een klassiek voorbeeld van taxonomie op basis van gelijkenis is: binominale nomenclatuur van levende wezens voorgesteld door Carl Linnaeus in het midden van de 18e eeuw. Soortgelijke systematiseringen zijn in veel kennisgebieden ingebouwd om informatie over een groot aantal objecten te ordenen.

Afstandsfuncties

Clustermethoden

  • Statistische clusteringalgoritmen
  • Hiërarchische clustering of taxonomie

Formele verklaring van het clusterprobleem

Laat een reeks objecten zijn, een reeks getallen (namen, labels) van clusters. De afstandsfunctie tussen objecten wordt gegeven. Er is een eindige trainingsset van objecten. Het is vereist om de steekproef te splitsen in niet-overlappende subsets, genaamd clusters, zodat elk cluster bestaat uit objecten die dicht in de buurt van metrisch zijn en objecten van verschillende clusters aanzienlijk verschillen. In dit geval krijgt elk object een clusternummer toegewezen.

clustering algoritme is een functie die elk object associeert met een clusternummer. De set is in sommige gevallen vooraf bekend, maar vaker is het de taak om het optimale aantal clusters te bepalen, vanuit het oogpunt van een of ander kwaliteitscriteria clusteren.

Clustering (niet-gesuperviseerd leren) verschilt van classificatie (gesuperviseerd leren) doordat de labels van de originele objecten aanvankelijk niet zijn ingesteld, en de set zelf kan zelfs onbekend zijn.

De oplossing van het clusteringprobleem is fundamenteel dubbelzinnig en daar zijn verschillende redenen voor:

  • Er is geen uniek beste criterium voor de kwaliteit van clustering. Er zijn een aantal heuristische criteria bekend, evenals een aantal algoritmen die geen duidelijk omschreven criterium hebben, maar een redelijk redelijke clustering “by construction” uitvoeren. Ze kunnen allemaal verschillende resultaten geven.
  • Het aantal clusters is meestal vooraf niet bekend en wordt bepaald op basis van een subjectief criterium.
  • Het resultaat van clustering is sterk afhankelijk van de metriek, waarvan de keuze in de regel ook subjectief is en wordt bepaald door een deskundige.

Links

  • Vorontsov K.V. Wiskundige lesmethoden door precedenten. Moskou Instituut voor Natuurkunde en Technologie (2004), VMiK MGU (2007).
  • Sergej Nikolajenko. Collegedia's "Clustering Algorithms 1" en "Clustering Algorithms 2". Cursus "Zelflerende systemen".

Literatuur

  1. Aivazyan S.A., Buchstaber V.M., Enyukov I.S., Meshalkin L.D. Toegepaste statistiek: classificatie en dimensiereductie. - M.: Financiën en statistiek, 1989.
  2. Zhuravlev Yu. I., Ryazanov V. V., Senko O. V."Herkenning". Wiskundige methoden. Software systeem. Praktische toepassingen. - M.: Fazis, 2006. .
  3. Zagoruiko N.G. Toegepaste methoden van data- en kennisanalyse. - Novosibirsk: IM SO RAN, 1999. .
  4. Mandel I.D. clusteranalyse. - M.: Financiën en statistiek, 1988. .
  5. Shlesinger M., Glavach V. Tien colleges over statistische en structurele herkenning. - Kiev: Naukova Dumka, 2004. .
  6. Hastie T., Tibshirani R., Friedman J. De elementen van statistisch leren. -Springer, 2001. .