Biografier Kjennetegn Analyse

Fordeler med en visuell form for å presentere informasjon. Metoder for visuell presentasjon av data

2.1. Fordeler visuell form innsending av informasjon

Verbalspråk og verbale kategorier inneholder ekstremt primitive virkemidler for å konstruere rom, tolke det eller gjøre noe med det. Dette målet er tjent med språket til bilder og systemet med perseptuelle handlinger, ved hjelp av hvilken en person bygger et bilde av den omkringliggende virkeligheten og orienterer seg i den. Dette systemet kalles persepsjon. Persepsjon er definert som et helhetlig bilde som gjenspeiler enheten i strukturen og egenskapene til et objekt. Objektene for visuell persepsjon er objekter, prosesser og fenomener i omverdenen, som kan deles inn og beskrives i kategoriene rom, bevegelse, form, tekstur, farge, lysstyrke, etc. Når man oppfatter objekter, blir bildet mer eller mindre fullstendig gjenspeiler objektet eller situasjonen der det er en person.

Bilder skapt på grunnlag av visuell persepsjon har større assosiasjonskraft enn ord. Kanskje det er derfor de er perfekt lagret i minnet. Selv etter å ha sett flere tusen malerier én gang, er observatører i stand til å identifisere omtrent 90% av dem riktig. Det visuelle bildet er veldig plastisk. Denne egenskapen manifesteres i det faktum at når det gjelder bildet en rask overgang fra en generalisert vurdering av situasjonen til detaljert analyse dens elementer. Ulike typer bevegelser av objekter som reflekteres i bildet, deres forskyvninger, rotasjoner, samt forstørrelse, reduksjon, perspektivforvrengning og normalisering er mulig. Denne særegne manipulasjonsevnen visuelt system lar deg forestille deg situasjonen både i direkte og omvendt perspektiv. Manipulering av bilder og deres fullføring er det viktigste middelet for produktiv persepsjon og visuell tenkning.

Mange studier indikerer at det visuelle systemet har mekanismer som sikrer fødselen av et nytt bilde. Takket være dem er en person i stand til å se verden ikke bare slik den virkelig eksisterer, men også slik den kan (eller burde) være. Dette betyr at visuelle bilder er en nødvendig betingelse, enda mer enn det - et verktøy mental aktivitet. De er knyttet mer direkte enn symboler og tale, med rundt en person objektiv virkelighet. Et bilde er ikke bare og ikke så mye kontemplasjon som det er en rekonstruksjon av virkeligheten. Den, denne virkeligheten, kan gjenskapes i den formen (eller nær den) der objektet virkelig eksisterer. Men ødeleggelse av et objekt eller en situasjon og rekonstruksjon av dens nye versjon eller varianter er også mulig. På grunnlag av dette bildet, endret i forhold til virkeligheten, vender en person igjen til objektiv virkelighet og gjenoppbygger den i sin egen praktiske aktiviteter. Det er umulig å forberede en kreativt tenkende spesialist uten å utvikle hans fantasifulle representasjon, fantasi og tenkning. Det universelle apparatet for projeksjonsskjema gir en konkret fordel i denne saken. En av viktige verktøy projeksjonsmodellering, som tjener til å danne romlige representasjoner, er en geometrisk tolkning. Gjenstandene for tolkning er grafiske modeller i form av en kombinasjon av tegninger, diagrammer, tekst, diagrammer osv. Grafiske modeller innebærer å vise informasjon i form av et sett med verktøy grafisk representasjon informasjon: linjer, symboler, mnemoniske tegn brukt i samsvar med reglene for konstruksjon av grafiske modeller. Når man oppfatter informasjon i denne formen, er tilgang til et høyere dimensjonalt operasjonsrom nødvendig enn når man oppfatter tekst. Graden av nøyaktighet når man sammenligner et informasjonsobjekt med dets modell avhenger av fullstendigheten av informasjonen om projeksjonsapparatet som fant sted under modelleringen. Figur 2.1 viser en av de mulige klassifiseringene av grafiske modeller. Piktografisk modell– en grafisk modell kompilert ved bruk av betinget grafiske bilder(piktogrammer) som indikerer objekter, handlinger eller hendelser. Ideografisk modell– en grafisk modell satt sammen ved hjelp av ideogrammer – konvensjonelle skriftlige tegn som angir konsepter.

Spørsmålet om effektiviteten av informasjonsoverføring og assimilering er en av de viktigste gjennomgående siste tiårene. Det viktigste kommunikasjonsmiddelet i verden ved begynnelsen av det 21. århundre er visualisering (en visuell form for overføring) av informasjon. Det største antallet informasjon (omtrent 80–90 %) en person oppfatter visuelt. "Den dominerende betydningen av det visuelle systemet for mennesker forklares av det faktum at det er den kraftigste kilden til informasjon om den ytre verden, har den største avstandsmåling og stereoskopiske sensoriske funksjoner."

Effektivitet, fordel grafisk metode overføring av informasjon, i sammenligning med motor eller lyd (Figur 2.2), er det visuell oppfatning informasjonen som overføres av en person og skapelsen av et mentalt bilde av ham skjer så raskt at en person oppfatter denne prosessen som "øyeblikkelig". Dette forklarer effekten av samtidighet, eller samtidighet, basert på egenskapen til menneskelig oppfatning av informasjon: skapt mentale bilder når man oppfatter informasjon og de overførte grafiske modellene er svært like i form.

Med en økning i mengden akkumulert data, selv når du bruker uansett hvor kraftige og allsidige Data Mining-algoritmer, blir det stadig vanskeligere å "fordøye" og tolke de oppnådde resultatene. Og, som du vet, er en av bestemmelsene i DM å søke praktisk nyttige mønstre. Et mønster kan bare bli praktisk nyttig hvis det kan konseptualiseres og forstås.

Metoder for visuell eller grafisk presentasjon av data inkluderer grafer, diagrammer, tabeller, rapporter, lister, blokkskjemaer, kart osv.

Visualisering har tradisjonelt blitt sett på som bistand når man analyserer data, men nå viser flere og flere studier dens uavhengige rolle.

Tradisjonelle metoder visualiseringer kan finne følgende applikasjoner:

gi informasjon til brukeren visuell form;

kompakt beskrive mønstrene som er iboende i det originale datasettet;

redusere dimensjonalitet eller komprimere informasjon;

gjenopprette hull i datasettet;

finne støy og avvik i datasettet.

Bildemetoder

Bildemetoder, avhengig av antall målinger som brukes, aksepteres

klassifisert i to grupper:

presentasjon av data i én, to og tre dimensjoner;

representasjon av data i fire eller flere dimensjoner.

Representerer data i 4+ dimensjoner

Representasjoner av informasjon i fire eller flere dimensjoner er utilgjengelige for menneskelig oppfatning. Imidlertid utviklet spesielle metoder for å gjøre det mulig for en person å vise og oppfatte slik informasjon.

Mest kjente metoder flerdimensjonal presentasjon av informasjon:

parallelle koordinater;

"Tsjernovs ansikter";

radardiagrammer.

Representasjon av romlige egenskaper

Et eget område for visualisering er visuell representasjon

romlige egenskaper til objekter. I de fleste tilfeller tildeles slike midler på kortet enkelte regioner og angi dem i forskjellige farger avhengig av verdien av den analyserte indikatoren.



Kartet presenteres i form av et grafisk grensesnitt som viser data i form av et tredimensjonalt landskap av vilkårlig definerte og posisjonerte former (stolpediagram, hver med individuell høyde og farge). Denne metoden lar deg tydelig vise de kvantitative og relasjonelle egenskapene til romlig orientert

data og raskt identifisere trender i dem.

Data mining prosess. Analyse fagområde. Formulering av problemet. Dataforberedelse.

Data mining prosess. Innledende stadier

DM-prosessen er en slags utforskning. Som all forskning, består denne prosessen av visse stadier, inkludert elementer av sammenligning, typifisering, klassifisering, generalisering, abstraksjon og repetisjon.

DM-prosessen er uløselig knyttet til beslutningsprosessen.

DM-prosessen bygger en modell, og beslutningsprosessen opererer på den modellen.

Tenk på den tradisjonelle DM-prosessen. Den inkluderer følgende trinn:

analyse av fagområdet;

uttalelse av problemet;

dataforberedelse;

bygge modeller;

testing og evaluering av modeller;

valg av modell;

anvendelse av modellen;

korrigering og oppdatering av modellen.

I dette foredraget skal vi se nærmere på de tre første stadiene av Data Mining-prosessen,

de resterende stadiene vil bli diskutert i neste forelesning.

Trinn 1. Domeneanalyse

Studere- dette er prosessen med erkjennelse av et bestemt emneområde, objekt eller fenomen med et bestemt formål.

Forskningsprosessen består i å observere egenskapene til objekter for å identifisere og vurdere viktige, fra subjekt-forskerens synspunkt, naturlige sammenhenger mellom indikatorer på disse egenskapene.

Løser ethvert utviklingsproblem programvare bør begynne med å studere fagområdet.

Fagområde- er et mentalt begrenset område av virkeligheten som er gjenstand for beskrivelse eller modellering og forskning.

Fagområdet består av objekter kjennetegnet ved egenskaper og plassert i visse relasjoner med hverandre eller interagerer på en eller annen måte.

Fagområde- dette er en del virkelige verden, den er uendelig og inneholder begge deler

betydelige og ikke-signifikante data fra synspunktet til forskningen som utføres.

Forskeren må kunne identifisere en betydelig del av dem. For eksempel når jeg løser problemet "Bør jeg utstede et lån?" alle data om personvern klient, ned til om ektefellen har jobb, om klienten har mindreårige barn, hvilket utdanningsnivå han har mv. For å løse et annet bankproblem vil disse dataene være helt uviktige. Dataenes vesentlighet avhenger dermed av valg av fagområde.

Mentale kartleggingsteknikker og visuell representasjon danner ofte grunnlaget for en navigasjonsstrategi ved tolkning av et kart. For noen er dette lett, for andre er det vanskeligere, men med erfaring blir ferdighetene bedre. Beskrivelse av maleriet i form av skriftlig tekst knyttet til en bestemt type sport, brukes ofte for å hjelpe deltakerne med å skape et levende bilde. Dette lar dem bygge hensiktsmessige mestringsstrategier for potensielt vanskelige situasjoner miljø. Terrengbeskrivelse brukes ofte i orientering som en del av teknisk opplæring. En trener eller en annen person ber for eksempel orienteringsløperen om å presentere og deretter verbalt beskrive plasseringen av et kontrollpunkt eller de viktigste landemerkene til en liten del av kartet. Plasseringen av sjekkpunktet er på toppen av en knaus som har små sumper mot nordøst og sørvest. En lang utløper strekker seg mot vest, og mindre åser ligger mot nordøst, øst og sørvest. På hvilken bakke står kommandoplassen? På samme måte kan orienteringsløperen lytte til en beskrivelse av et lite utsnitt av kartet eller plasseringen av et sjekkpunkt, og deretter prøve å gjengi den verbale beskrivelsen: Den pølseformede bakken har to topper, en i hver ende av en smal fjellrygg , som ligger i øst-vestlig retning. fjellkjede har to hauger som skaper en sal på lik avstand fra toppene. Nordvest for salen går dalen bratt nedover. Den østlige toppen er høyere enn den vestlige og har en bratt skråning i øst, en stor bred utløper mot nord og en slak skråning i sør. Den vestlige toppen har en slak skråning mot nord og vest og en lang tynn utløper som ligger mot sør. Begge disse metodene bidrar til å utvikle visuell bevissthet. Visuelle ferdigheter er grunnleggende for veisøking. Evnen til å visualisere plasseringen av et kontrollpunkt eller et spesifikt område av kartet bør forbedres med erfaring. Øvelse bør imidlertid ikke begrenses til trening eller konkurranse. Det er andre muligheter for å øve, både innendørs og utendørs. For eksempel, gradvis å lære kart over kjente og ukjente områder og deretter visualisere plasseringen av et kontrollpunkt basert på kartinformasjon kan gå før man faktisk besøker området. Svært ofte, når du diskuterer plasseringen av et sjekkpunkt eller et kartutsnitt, kan du høre fra orienteringsløperen "det var ikke det jeg forventet." En annen metode som brukes av noen orienteringsløpere er å øve i kjent terreng, jobbe med et kart over et annet område og prøve å forestille seg det mens du går. karaktertrekk ukjent landskap. Dette kan virke ganske bisarrt, men det er veldig god trening til konsentrasjon.

"De sier at et bilde er verdt tusen ord, og dette er sant, så lenge bildet er bra." Bowman

Med en økning i mengden akkumulert data, selv når du bruker uansett hvor kraftige og allsidige Data Mining-algoritmer, blir det stadig vanskeligere å "fordøye" og tolke de oppnådde resultatene. Og, som du vet, er en av bestemmelsene i Data Mining søket etter praktisk nyttige mønstre. Et mønster kan bare bli praktisk nyttig hvis det kan konseptualiseres og forstås.

I 1987, på initiativ av ACM SIGGRAPH IEEE Computer Society Technical Committee of Computer Graphics, på grunn av behovet for å bruke nye metoder, verktøy og datateknologier, ble de tilsvarende oppgavene innen visualisering formulert.

Metoder for visuell eller grafisk presentasjon av data inkluderer grafer, diagrammer, tabeller, rapporter, lister, blokkdiagrammer, kart, etc.

Visualisering har tradisjonelt blitt sett på som et hjelpemiddel til dataanalyse, men nå tyder mer og mer forskning på dens uavhengige rolle.

Tradisjonelle bildeteknikker kan ha følgende bruksområder:

presentere informasjon til brukeren i en visuell form;

kompakt beskrive mønstrene som er iboende i det originale datasettet;

redusere dimensjonalitet eller komprimere informasjon;

reparere hull i datasettet;

finne støy og uteliggere i et datasett.

Visualisering av Data Mining-verktøy

Hver av Data Mining-algoritmene bruker en spesifikk visualiseringstilnærming. I tidligere forelesninger har vi sett på en rekke Data Mining-metoder. I løpet av bruken av hver av metodene, eller rettere sagt, programvareimplementeringen, mottok vi visse visualisatorer, ved hjelp av hvilke vi var i stand til å tolke resultatene oppnådd som et resultat av arbeidet med de tilsvarende metodene og algoritmene.

For beslutningstrær er dette en visualisering av beslutningstre, en liste over regler og en beredskapstabell.

Til nevrale nettverk avhengig av verktøyet, kan dette være en nettverkstopologi, en graf over feilstørrelsen, som viser læringsprosessen.

For Kohonen-kort: kort med innganger, utganger, andre spesifikke kort.

Til lineær regresjon Regresjonslinjen fungerer som en visualisator.

For gruppering: dendrogrammer, spredningsdiagrammer.

Spredningsplott og diagrammer brukes ofte til å evaluere ytelsen til en metode.

Alle disse måtene å visuelt presentere eller vise data kan tjene en av følgende funksjoner:

er en illustrasjon av konstruksjonen av en modell (for eksempel en representasjon av strukturen (grafen) til et nevralt nettverk);

hjelpe til med å tolke resultatene som er oppnådd;

er et middel for å vurdere kvaliteten på den konstruerte modellen;

kombinere funksjonene ovenfor (beslutningstre, dendrogram).

Visualisering av Data Mining-modeller

Den første funksjonen (illustrasjon av modellkonstruksjon) er i hovedsak en visualisering av Data Mining-modellen. Det er mange forskjellige måter å presentere modeller på, men grafiske representasjoner gir mest «verdi» for brukeren. Brukeren er i de fleste tilfeller ikke en modelleringsspesialist; oftest er han en ekspert på sitt fagområde. Derfor bør Data Mining-modellen presenteres på det mest naturlige språket for den, eller i det minste inneholde minimal mengde ulike matematiske og tekniske elementer.

Dermed er tilgjengelighet en av hovedkarakteristikkene til Data Mining-modellen. Til tross for dette er det også en så vanlig og enkleste måte å representere en modell på som en "svart boks". I dette tilfellet forstår ikke brukeren oppførselen til modellen han bruker. Men til tross for misforståelsen, får han resultatet - identifiserte mønstre. Klassisk eksempel En slik modell er en nevrale nettverksmodell.

En annen måte å representere en modell på er å representere den på en intuitiv, i klar form. I dette tilfellet kan brukeren faktisk forstå hva som skjer "inne" i modellen. På denne måten er det mulig å sikre hans direkte deltakelse i prosessen.

Slike modeller gir brukeren mulighet til å diskutere eller forklare sin logikk med kolleger, klienter og andre brukere.

Å forstå modellen fører til forståelse av innholdet. Som et resultat av forståelse øker tilliten til modellen. Et klassisk eksempel er et beslutningstre. Det konstruerte beslutningstreet forbedrer virkelig forståelsen av modellen, dvs. Data Mining-verktøyet som brukes.

I tillegg til forståelse, gir slike modeller brukeren mulighet til å samhandle med modellen, stille den spørsmål og motta svar. Et eksempel på slik interaksjon er hva-hvis-verktøyet. Ved å bruke "systembruker"-dialogen kan brukeren få en forståelse av modellen.

La oss nå gå videre til funksjonene som hjelper til med å tolke og evaluere resultatene av å bygge Data Mining-modeller. Dette er alle slags grafer, diagrammer, tabeller, lister osv.

Eksempler på visualiseringsverktøy som kan brukes til å evaluere kvaliteten på en modell er et spredningsdiagram, en beredskapstabell og en graf over endringer i feilens størrelse.

Spredningsplott er en graf over avviket til verdiene spådd av modellen fra de faktiske. Disse diagrammene brukes til kontinuerlige mengder. Visuell vurdering av kvaliteten på den konstruerte modellen er bare mulig på slutten av modellkonstruksjonsprosessen.

Beredskapstabell brukes til å evaluere klassifiseringsresultater. Slike tabeller brukes til ulike metoder klassifiseringer. Vi har allerede brukt dem i tidligere forelesninger. Vurdering av kvaliteten på den konstruerte modellen er bare mulig på slutten av modellkonstruksjonsprosessen.

Graf over endring i feilverdi. Grafen viser endringen i størrelsen på feilen under driften av modellen. For eksempel, under driften av nevrale nettverk, kan brukeren observere endringen i feil på trenings- og testsettene og stoppe treningen for å forhindre "overtrening" av nettverket. Her kan kvaliteten på modellen og dens endringer vurderes direkte under prosessen med å bygge modellen.

Eksempler på visualiseringsverktøy som hjelper til med å tolke resultatet er: trendlinje i lineær regresjon, Kohonen-kart, scatterplot i klyngeanalyse.

Visualiseringsmetoder

Visualiseringsmetoder, avhengig av antall målinger som brukes, er vanligvis klassifisert i to grupper:

presentasjon av data i én, to og tre dimensjoner;

representasjon av data i fire eller flere dimensjoner.

Representasjon av data i én, to og tre dimensjoner

Denne gruppen av metoder inkluderer velkjente metoder for å vise informasjon som er tilgjengelig for persepsjon. menneskelig fantasi. Nesten hvilken som helst moderne instrument Data Mining inkluderer visuelle representasjonsmetoder fra denne gruppen.

Avhengig av antall dimensjoner av representasjonen, kan disse være på følgende måter:

univariat måling, eller 1-D;

bivariat måling, eller 2-D;

tredimensjonal eller projeksjonsmåling, eller 3-D.

Det skal bemerkes at det menneskelige øyet mest naturlig oppfatter todimensjonale representasjoner av informasjon.

Ved bruk av to- og tredimensjonal representasjon av informasjon har brukeren mulighet til å se mønstrene til datasettet:

dens klyngestruktur og distribusjon av objekter i klasser (for eksempel i et spredningsdiagram);

topologiske trekk;

tilstedeværelse av trender;

informasjon om relativ posisjon data;

eksistensen av andre avhengigheter som er iboende i datasettet som studeres.

Hvis datasettet har mer enn tre dimensjoner, er følgende alternativer mulige:

bruk multivariate metoder presentasjon av informasjon (disse diskuteres nedenfor);

dimensjonsreduksjon til en-, to- eller tredimensjonal representasjon. Eksistere ulike måter dimensjonalitetsreduksjon, en av dem er faktor analyse- ble diskutert i en av de tidligere forelesningene. Selvorganiserende Kohonen-kart brukes til å redusere dimensjonalitet og samtidig visuelt representere informasjon på et todimensjonalt kart.

Representerer data i 4+ dimensjoner

Representasjoner av informasjon i fire eller flere dimensjoner er utilgjengelige for menneskelig oppfatning. Det er imidlertid utviklet spesielle metoder for å gjøre en person i stand til å vise og oppfatte slik informasjon.

De mest kjente metodene for flerdimensjonal representasjon av informasjon:

parallelle koordinater;

∙ "Tsjernovs ansikter";

radarkart.

Parallelle koordinater

I parallelle koordinater er variabler kodet horisontalt, den vertikale linjen definerer verdien av variabelen. Eksempel på datasett presentert i Kartesiske koordinater og parallelle koordinater, gitt i fig. 16.1. Denne metoden for å representere flerdimensjonale data ble oppfunnet av Alfred Inselberg i 1985.