Korrelasjonskoeffisient i excel. Hvordan gjøres korrelasjon i Excel? Matrise av parvise korrelasjonskoeffisienter i Excel

Kvantitativ karakteristikk sammenhenger kan oppnås ved å beregne korrelasjonskoeffisienten.

Korrelasjonsanalyse i Excel

Funksjonen i seg selv har generell form CORREL(matrise1; matrise2). I feltet "Array1" skriver du inn koordinatene til celleområdet til en av verdiene, hvis avhengighet skal bestemmes. Som du kan se, vises korrelasjonskoeffisienten i form av et tall i cellen vi tidligere har valgt. Et vindu med korrelasjonsanalyseparametere åpnes. I motsetning til den forrige metoden, i "Input interval"-feltet, legger vi inn intervallet ikke for hver kolonne separat, men for alle kolonner som deltar i analysen. Som du kan se, tilbyr Excel-applikasjonen to metoder for korrelasjonsanalyse samtidig.

korrelasjonsdiagram i excel

6) Det første elementet i den endelige tabellen vil vises i cellen øverst til venstre i det valgte området. Derfor forkastes H0-hypotesen, det vil si at regresjonsparametrene og korrelasjonskoeffisienten ikke er tilfeldig forskjellige fra null, men er statistisk signifikante. 7. De oppnådde estimatene av regresjonsligningen lar oss bruke den til prognoser.

Hvordan beregne korrelasjonskoeffisient i Excel

Hvis koeffisienten er 0, indikerer dette at det ikke er noen sammenheng mellom verdiene. For å finne forholdet mellom variablene og y, bruk den innebygde funksjonen til Microsoft Excel "CORREL". For eksempel, for "Array1" velg y-verdiene, og for "Array2" velg x-verdiene. Som et resultat vil du få korrelasjonskoeffisienten beregnet av programmet. Deretter må du beregne forskjellen mellom hver x og xav, og yav. Skriv i de valgte cellene formler x-x, y-. Ikke glem å feste celler med gjennomsnittsverdier. Resultatet som oppnås vil være den ønskede korrelasjonskoeffisienten.

Formelen ovenfor for å beregne Pearson-koeffisienten viser hvor arbeidskrevende denne prosessen er hvis den gjøres manuelt. For det andre, vennligst anbefal hva slags korrelasjonsanalyse som kan brukes for forskjellige prøver med stor dataspredning? Hvordan kan jeg statistisk bevise forskjellen mellom gruppen over 60 og alle andre?

Gjør det selv: Beregne valutakorrelasjoner ved hjelp av Excel

Vi bruker for eksempel Microsoft Excel, men alle andre programmer som kan bruke korrelasjonsformelen vil gjøre det. 7. Etter det velger du cellene med data på EUR/USD. 9. Trykk Enter for å beregne korrelasjonskoeffisienten for EUR/USD og USD/JPY. Det er ikke verdt å oppdatere tallene hver dag (vel, med mindre du er besatt av valutakorrelasjoner).

Du har allerede støtt på behovet for å beregne graden av sammenheng mellom to statistikk og bestemme formelen som de korrelerer med? For å gjøre dette brukte jeg CORREL-funksjonen (CORREL) - det er litt informasjon om det her. Den returnerer graden av korrelasjon mellom to dataområder. Teoretisk kan korrelasjonsfunksjonen foredles ved å konvertere den fra lineær til eksponentiell eller logaritmisk. Analyse av data og korrelasjonsgrafer kan forbedre påliteligheten betydelig.

Anta at celle B2 inneholder selve korrelasjonskoeffisienten, celle B3 inneholder antall fullstendige observasjoner. Har du et russisktalende kontor Jeg fant forresten også en feil - betydningen er ikke beregnet for negative korrelasjoner. Hvis begge variablene er metriske og har normal distribusjon, da er valget riktig. Og er det mulig å karakterisere kriteriet for likhet til kurver ved å bruke bare en QC?Du har ikke likheten til "kurver", men likheten til to serier, som i prinsippet kan beskrives med en kurve.

Har du allerede støtt på behovet for å beregne graden av sammenheng mellom to statistiske størrelser og bestemme formelen som de korrelerer med? Normal person man kan spørre hvorfor dette i det hele tatt kan være nødvendig. Merkelig nok er dette virkelig nødvendig. Å kjenne pålitelige korrelasjoner kan hjelpe deg å tjene en formue hvis du for eksempel er en aksjehandler. Problemet er at av en eller annen grunn er det ingen som avslører disse korrelasjonene (overraskende, er det ikke?).

La oss telle dem selv! For eksempel bestemte jeg meg for å prøve å beregne korrelasjonen mellom rubelen mot dollaren gjennom euroen. La oss se hvordan dette gjøres i detalj.

Denne artikkelen er utviklet for et avansert nivå av kunnskap om Microsoft Excel. Hvis du ikke har tid til å lese hele artikkelen, kan du laste ned filen og håndtere den selv.

Hvis du ofte opplever at du trenger å gjøre noe slikt Jeg anbefaler på det sterkeste at du vurderer å kjøpe boken. Statistiske beregninger i Excel.

Hva er viktig å vite om sammenhenger

For å beregne en pålitelig korrelasjon er det nødvendig å ha et pålitelig utvalg, jo større det er, jo mer pålitelig vil resultatet være. For dette eksempelet har jeg tatt et daglig utvalg av valutakurser over 10 år. Dataene er fritt tilgjengelige, jeg tok dem fra nettstedet http://oanda.com.

Hva gjorde jeg egentlig

(1) Da jeg hadde mine originale data startet jeg med å sjekke graden av korrelasjon mellom de to datasettene. For å gjøre dette brukte jeg CORREL-funksjonen (CORREL) - det er lite informasjon om det. Den returnerer graden av korrelasjon mellom to dataområder. Resultatet var ærlig talt ikke spesielt imponerende (bare rundt 70%). Generelt anses graden av korrelasjon mellom to verdier å være kvadratet av denne verdien, det vil si at korrelasjonen viste seg å være pålitelig med omtrent 49%. Dette er veldig lite!

(2) Det virket veldig rart for meg. Hvilke feil kan ha sneket seg inn i mine beregninger? Så jeg bestemte meg for å lage en graf og se hva som kunne skje. Diagrammet ble holdt enkelt med vilje, brutt ned etter år, slik at du visuelt kan se hvor korrelasjonen bryter. Diagrammet ser slik ut

(3) Fra diagrammet er det åpenbart at i området rundt 35 rubler per euro, begynner korrelasjonen å bryte i to deler. På grunn av dette viste hun seg å være upålitelig. Det var nødvendig å fastslå i forbindelse med hva dette skjer.

(4) Farge viser at disse dataene refererer til 2007, 2008, 2009. Selvfølgelig! Perioder med økonomiske topper og lavkonjunkturer er vanligvis ikke statistisk pålitelige, noe som skjedde i denne saken. Derfor prøvde jeg å ekskludere disse periodene fra dataene (vel, for verifisering sjekket jeg graden av korrelasjon av dataene i denne perioden). Korrelasjonsgraden for kun disse dataene er 0,01%, det vil si at de er fraværende i prinsippet. Men uten dem korrelerer dataene med omtrent 81 %. Dette er allerede en ganske pålitelig korrelasjon. Her er en graf med en funksjon.

Neste skritt

Teoretisk kan korrelasjonsfunksjonen foredles ved å konvertere den fra lineær til eksponentiell eller logaritmisk. Hvori statistisk gyldighet korrelasjonen vokser med omtrent én prosent, men kompleksiteten ved å bruke formelen øker enormt. Derfor, for meg selv, stiller jeg spørsmålet: er det virkelig nødvendig? Du bestemmer - for hvert enkelt tilfelle.

Legge merke til! Løsningen på ditt spesifikke problem vil se lik ut dette eksemplet, inkludert alle tabeller og forklarende tekster nedenfor, men med tanke på dine første data ...

En oppgave:
Det er et relatert utvalg av 26 par med verdier (x k , y k ):

k	1	2	3	4	5	6	7	8	9	10
*x k*	25.20000	26.40000	26.00000	25.80000	24.90000	25.70000	25.70000	25.70000	26.10000	25.80000
*y k*	30.80000	29.40000	30.20000	30.50000	31.40000	30.30000	30.40000	30.50000	29.90000	30.40000

k	11	12	13	14	15	16	17	18	19	20
*x k*	25.90000	26.20000	25.60000	25.40000	26.60000	26.20000	26.00000	22.10000	25.90000	25.80000
*y k*	30.30000	30.50000	30.60000	31.00000	29.60000	30.40000	30.70000	31.60000	30.50000	30.60000

k	21	22	23	24	25	26
*x k*	25.90000	26.30000	26.10000	26.00000	26.40000	25.80000
*y k*	30.70000	30.10000	30.60000	30.50000	30.70000	30.80000

Det kreves for å beregne/bygge:
- korrelasjonskoeffisient;
- test hypotesen om avhengigheten av tilfeldige variabler X og Y, på et signifikansnivå α = 0,05;
- ligningskoeffisienter lineær regresjon;
- spredningsdiagram (korrelasjonsfelt) og regresjonslinjegraf;

LØSNING:

1. Regn ut korrelasjonskoeffisienten.

Korrelasjonskoeffisienten er en indikator på den gjensidige sannsynlige påvirkningen av to tilfeldige variabler. Korrelasjonskoeffisient R kan ta verdier fra -1 før +1 . Hvis den absolutte verdien er nærmere 1 , så er dette bevis sterk tilknytning mellom verdier, og hvis nærmere 0 - da indikerer dette en svak forbindelse eller fravær. Hvis den absolutte verdien R lik en, så kan vi snakke om en funksjonell sammenheng mellom mengder, det vil si at en størrelse kan uttrykkes i form av en annen ved hjelp av en matematisk funksjon.

Du kan beregne korrelasjonskoeffisienten ved å bruke følgende formler:

k = 1

(x k -M x) 2, y 2 =

k = 1

x k,

M y

eller i henhold til formelen

Rx,y

M xy - M x M y

SxSy

(1.4), hvor:

k = 1

x k,

M y

k = 1

y k,

Mxy

k = 1

x k y k (1,5)

S x 2

k = 1

x k 2 - M x 2,

S y 2

k = 1

y k 2 - M y 2 (1,6)

I praksis brukes formel (1.4) oftere for å beregne korrelasjonskoeffisienten, siden det krever mindre beregning. Imidlertid, hvis kovariansen tidligere ble beregnet cov(X,Y), da er det mer fordelaktig å bruke formel (1.1), fordi i tillegg til den faktiske verdien av kovariansen, kan du også bruke resultatene av mellomberegninger.

1.1 Beregn korrelasjonskoeffisienten ved å bruke formelen (1.4), for dette beregner vi verdiene x k 2 , y k 2 og x k y k og legger dem inn i tabell 1.

Tabell 1

k	*x k*	*y k*	x k 2	y k 2	*x ky k*
1	2	3	4	5	6
1	25.2	30.8	635.04000	948.64000	776.16000
2	26.4	29.4	696.96000	864.36000	776.16000
3	26.0	30.2	676.00000	912.04000	785.20000
4	25.8	30.5	665.64000	930.25000	786.90000
5	24.9	31.4	620.01000	985.96000	781.86000
6	25.7	30.3	660.49000	918.09000	778.71000
7	25.7	30.4	660.49000	924.16000	781.28000
8	25.7	30.5	660.49000	930.25000	783.85000
9	26.1	29.9	681.21000	894.01000	780.39000
10	25.8	30.4	665.64000	924.16000	784.32000
11	25.9	30.3	670.81000	918.09000	784.77000
12	26.2	30.5	686.44000	930.25000	799.10000
13	25.6	30.6	655.36000	936.36000	783.36000
14	25.4	31	645.16000	961.00000	787.40000
15	26.6	29.6	707.56000	876.16000	787.36000
16	26.2	30.4	686.44000	924.16000	796.48000
17	26	30.7	676.00000	942.49000	798.20000
18	22.1	31.6	488.41000	998.56000	698.36000
19	25.9	30.5	670.81000	930.25000	789.95000
20	25.8	30.6	665.64000	936.36000	789.48000
21	25.9	30.7	670.81000	942.49000	795.13000
22	26.3	30.1	691.69000	906.01000	791.63000
23	26.1	30.6	681.21000	936.36000	798.66000
24	26	30.5	676.00000	930.25000	793.00000
25	26.4	30.7	696.96000	942.49000	810.48000
26	25.8	30.8	665.64000	948.64000	794.64000

1.2. Vi beregner M x med formel (1.5).

1.2.1. x k

x 1 + x 2 + ... + x 26 = 25,20000 + 26,40000 + ... + 25,80000 = 669,500000

1.2.2.

669.50000 / 26 = 25.75000

M x = 25,750000

1.3. På samme måte beregner vi M y.

1.3.1. La oss legge til alle elementene i rekkefølge y k

y 1 + y 2 + … + y 26 = 30,80000 + 29,40000 + ... + 30,80000 = 793,000000

1.3.2. Del den resulterende summen med antall prøveelementer

793.00000 / 26 = 30.50000

M y = 30,500000

1.4. På samme måte beregner vi M xy.

1.4.1. Vi legger til sekvensielt alle elementene i den sjette kolonnen i tabell 1

776.16000 + 776.16000 + ... + 794.64000 = 20412.830000

1.4.2. Del den resulterende summen med antall elementer

20412.83000 / 26 = 785.10885

M xy = 785,108846

1.5. Beregn verdien av S x 2 ved å bruke formelen (1.6.).

1.5.1. Vi legger til sekvensielt alle elementene i den fjerde kolonnen i tabell 1

635.04000 + 696.96000 + ... + 665.64000 = 17256.910000

1.5.2. Del den resulterende summen med antall elementer

17256.91000 / 26 = 663.72731

1.5.3. Trekk fra det siste tallet kvadratet av verdien M x vi får verdien for S x 2

S x 2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481

1.6. Beregn verdien av S y 2 med formelen (1.6.).

1.6.1. Vi legger til sekvensielt alle elementene i den femte kolonnen i tabell 1

948.64000 + 864.36000 + ... + 948.64000 = 24191.840000

1.6.2. Del den resulterende summen med antall elementer

24191.84000 / 26 = 930.45538

1.6.3. Trekk fra det siste tallet kvadratet av M y , vi får verdien for S y 2

S y 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538

1.7. La oss beregne produktet av S x 2 og S y 2.

S x 2 S y 2 = 0,66481 0,20538 = 0,136541

1.8. Trekk ut det siste tallet Kvadratrot, får vi verdien S x S y.

S x S y = 0,36951

1.9. Beregn verdien av korrelasjonskoeffisienten i henhold til formelen (1.4.).

R = (785,10885 - 25,75000 30,50000) / 0,36951 = (785,10885 - 785,37500) / 0,36951 = -0,72028

SVAR: Rx,y = -0,720279

2. Vi sjekker betydningen av korrelasjonskoeffisienten (vi sjekker avhengighetshypotesen).

Siden estimatet av korrelasjonskoeffisienten beregnes på et begrenset utvalg, og derfor kan avvike fra dens generelle verdi, er det nødvendig å kontrollere betydningen av korrelasjonskoeffisienten. Kontrollen gjøres ved å bruke t-kriteriet:

t =

Rx,y


√	n - 2


√	1 - R 2 x,y

(2.1)

Tilfeldig verdi t følger Elevens t-fordeling og i henhold til tabellen over t-fordeling er det nødvendig å finne den kritiske verdien av kriteriet (t cr.α) på et gitt signifikansnivå α . Hvis modulo t beregnet ved formel (2.1) viser seg å være mindre enn t cr.α , så vil avhengighetene mellom tilfeldige variabler X og Y er det ikke. Ellers motsier ikke de eksperimentelle dataene hypotesen om avhengigheten av tilfeldige variabler.

2.1. Beregn verdien av t-kriteriet i henhold til formelen (2.1) vi får:

t =

-0.72028


√	26 - 2


√	1 - (-0.72028) 2

= -5.08680

2.2. La oss bestemme den kritiske verdien av parameteren t cr.α fra tabellen for t-fordeling

Ønskeverdien t kr.α er plassert i skjæringspunktet mellom raden som tilsvarer antall frihetsgrader og kolonnen som tilsvarer et gitt signifikansnivå α .
I vårt tilfelle er antall frihetsgrader n - 2 = 26 - 2 = 24 og α = 0.05 , som tilsvarer den kritiske verdien av kriteriet t cr.α = 2.064 (se tabell 2)

tabell 2 t-fordeling

Antall frihetsgrader (n - 2)	α = 0,1	a = 0,05	a = 0,02	a = 0,01	a = 0,002	α = 0,001
1	6.314	12.706	31.821	63.657	318.31	636.62
2	2.920	4.303	6.965	9.925	22.327	31.598
3	2.353	3.182	4.541	5.841	10.214	12.924
4	2.132	2.776	3.747	4.604	7.173	8.610
5	2.015	2.571	3.365	4.032	5.893	6.869
6	1.943	2.447	3.143	3.707	5.208	5.959
7	1.895	2.365	2.998	3.499	4.785	5.408
8	1.860	2.306	2.896	3.355	4.501	5.041
9	1.833	2.262	2.821	3.250	4.297	4.781
10	1.812	2.228	2.764	3.169	4.144	4.587
11	1.796	2.201	2.718	3.106	4.025	4.437
12	1.782	2.179	2.681	3.055	3.930	4.318
13	1.771	2.160	2.650	3.012	3.852	4.221
14	1.761	2.145	2.624	2.977	3.787	4.140
15	1.753	2.131	2.602	2.947	3.733	4.073
16	1.746	2.120	2.583	2.921	3.686	4.015
17	1.740	2.110	2.567	2.898	3.646	3.965
18	1.734	2.101	2.552	2.878	3.610	3.922
19	1.729	2.093	2.539	2.861	3.579	3.883
20	1.725	2.086	2.528	2.845	3.552	3.850
21	1.721	2.080	2.518	2.831	3.527	3.819
22	1.717	2.074	2.508	2.819	3.505	3.792
23	1.714	2.069	2.500	2.807	3.485	3.767
24	1.711	2.064	2.492	2.797	3.467	3.745
25	1.708	2.060	2.485	2.787	3.450	3.725
26	1.706	2.056	2.479	2.779	3.435	3.707
27	1.703	2.052	2.473	2.771	3.421	3.690
28	1.701	2.048	2.467	2.763	3.408	3.674
29	1.699	2.045	2.462	2.756	3.396	3.659
30	1.697	2.042	2.457	2.750	3.385	3.646
40	1.684	2.021	2.423	2.704	3.307	3.551
60	1.671	2.000	2.390	2.660	3.232	3.460
120	1.658	1.980	2.358	2.617	3.160	3.373
∞	1.645	1.960	2.326	2.576	3.090	3.291

2.2. La oss sammenligne den absolutte verdien av t-kriteriet og t cr.α

Absolutt verdi t-kriteriet er ikke mindre enn kritisk t = 5,08680, tcr.α = 2,064, derfor eksperimentelle data, med en sannsynlighet på 0,95(1 - α ), ikke motsi hypotesen på avhengigheten av tilfeldige variabler X og Y.

3. Vi beregner koeffisientene til den lineære regresjonsligningen.

Den lineære regresjonsligningen er en likning av en rett linje som tilnærmer (beskriver omtrent) forholdet mellom stokastiske variable X og Y. Hvis vi antar at X er fri og Y er avhengig av X, vil regresjonsligningen skrives som følger

Y = a + b X (3.1), hvor:

Rx,y

σ x

Rx,y

S x

(3.2),

a = M y - b M x (3,3)

Koeffisienten beregnet ved formel (3.2) b kalles den lineære regresjonskoeffisienten. I noen kilder en kalt konstant koeffisient regresjon og b i henhold til variablene.

Prediksjonsfeil Y for en gitt verdi X beregnes ved hjelp av formlene:

Verdien σ y/x (formel 3.4) kalles også gjenværende standardavvik, karakteriserer det avviket til Y fra regresjonslinjen beskrevet av ligning (3.1) ved en fast (gitt) verdi av X.

S y 2 / S x 2 = 0,20538 / 0,66481 = 0,30894. Vi trekker ut kvadratroten fra det siste tallet - vi får:
S y / S x = 0,55582

3.3 Regn ut koeffisienten b etter formel (3.2)

b = -0.72028 0.55582 = -0.40035

3.4 Regn ut koeffisienten a etter formel (3.3)

en = 30.50000 - (-0.40035 25.75000) = 40.80894

3.5 Estimer feilene i regresjonsligningen.

3.5.1 Vi trekker ut kvadratroten fra S y 2 og får:

= 0.31437
3.5.4 Beregn relativ feil etter formel (3.5)

δy/x = (0,31437 / 30,50000)100 % = 1,03073 %

4. Vi bygger et spredningsplott (korrelasjonsfelt) og en graf over regresjonslinjen.

Spredningsdiagrammet er grafisk bilde tilsvarende par (x k , y k ) i form av punkter i planet, i rektangulære koordinater med aksene X og Y. Korrelasjonsfeltet er ett av grafiske representasjoner koblet (paret) prøve. I samme koordinatsystem er også grafen til regresjonslinjen plottet. Skalaene og startpunktene på aksene bør velges med omhu slik at diagrammet er så tydelig som mulig.

4.1. Vi finner at minimums- og maksimumselementet i prøven X er henholdsvis 18. og 15. element, x min = 22,10000 og x max = 26,60000.

4.2. Vi finner at minimums- og maksimumselementet i prøven Y er henholdsvis 2. og 18. element, y min = 29,40000 og y max = 31,60000.

4.3. På abscisseaksen velger vi startpunktet like til venstre for punktet x 18 = 22.10000, og en slik skala at punktet x 15 = 26.60000 passer på aksen og de andre punktene er tydelig atskilt.

4.4. På y-aksen velger vi startpunktet like til venstre for punktet y 2 = 29,40000, og en slik skala at punktet y 18 = 31,60000 passer på aksen og de andre punktene er tydelig atskilt.

4.5. På abscisseaksen plasserer vi verdiene x k , og på ordinataksen plasserer vi verdiene y k .

4.6. Vi setter poeng (x 1, y 1), (x 2, y 2), ..., (x 26, y 26 ) på koordinatplan. Vi får et spredningsdiagram (korrelasjonsfelt), vist i figuren under.

4.7. La oss tegne en regresjonslinje.

For å gjøre dette finner vi to ulike punkter med koordinater (x r1 , y r1) og (x r2 , y r2) som tilfredsstiller ligning (3.6), setter vi dem på koordinatplanet og tegner en linje gjennom dem. La oss ta x min = 22.10000 som abscissen til det første punktet. Vi erstatter verdien av x min i ligning (3.6), vi får ordinaten til det første punktet. Dermed har vi et punkt med koordinater (22.10000, 31.96127). På samme måte får vi koordinatene til det andre punktet, og setter verdien x max = 26,60000 som abscissen. Det andre punktet vil være: (26.60000, 30.15970).

Regresjonslinjen er vist i figuren under i rødt

Vær oppmerksom på at regresjonslinjen alltid går gjennom punktet for gjennomsnittsverdiene til X og Y, dvs. med koordinater (M x , M y).

LABORATORIEARBEID

KORELLASJONSANALYSE IUTMERKE

1.1 Korrelasjonsanalyse i MS Excel

Korrelasjonsanalyse består i å bestemme graden av sammenheng mellom to stokastiske variabler X og Y. Korrelasjonskoeffisienten brukes som mål på en slik sammenheng. Korrelasjonskoeffisienten er estimert fra et utvalg av volumet n av relaterte observasjonspar (xi, y i) fra den felles generelle befolkningen X og Y. For å vurdere graden av sammenheng mellom X og Y målt i kvantitative skalaer, bruker vi lineær korrelasjonskoeffisient(Pearsons koeffisient), forutsatt at prøvene X og Y er fordelt i henhold til normalloven.

Korrelasjonskoeffisienten varierer fra -1 (strengt inverst lineært forhold) til 1 (strengt direkte proporsjonalt forhold). Ved en verdi på 0 er det ingen lineær sammenheng mellom de to prøvene.

Generell klassifisering av korrelasjoner (ifølge Ivanter E.V., Korosov A.V., 1992):

Det finnes flere typer korrelasjonskoeffisienter, avhengig av X- og Y-variablene, som kan måles på forskjellige skalaer. Det er dette faktum som bestemmer valget av passende korrelasjonskoeffisient (se tabell 13):

I MS Excel brukes en spesiell funksjon for å beregne sammenkoblede lineære korrelasjonskoeffisienter CORREL(matrise1; matrise2),

№ forsøkspersoner

hvor array1 er en referanse til celleområdet for det første utvalget (X);

Eksempel 1: 10 skoleelever fikk tester for visuelt-figurativ og verbal tenkning. Gjennomsnittlig tid for å løse testoppgaver ble målt i sekunder. Forskeren er interessert i spørsmålet: er det en sammenheng mellom tidspunktet for å løse disse problemene? Variabelen X angir gjennomsnittlig tid for å løse visuell-figurative tester, og variabelen Y angir gjennomsnittlig tid for å løse verbale oppgaver av tester.

R Løsning: For å identifisere graden av forhold, er det først og fremst nødvendig å legge inn data i MS Excel-tabellen (se tabell, fig. 1). Deretter beregnes verdien av korrelasjonskoeffisienten. For å gjøre dette, plasser markøren i celle C1. På verktøylinjen klikker du på Sett inn funksjon (fx).

Velg en kategori i funksjonsveiviser-dialogen som vises Statistisk og funksjon CORREL, og klikk deretter OK. Bruk musepekeren til å angi eksempeldataområdet X i array1-feltet (A1:A10). I array2-feltet skriver du inn eksempeldataområdet Y (B1:B10). Klikk OK. I celle C1 vil verdien av korrelasjonskoeffisienten vises - 0,54119. Deretter må du se på det absolutte tallet på korrelasjonskoeffisienten og bestemme typen forhold (nær, svak, middels, etc.)

Ris. 1. Resultater av beregning av korrelasjonskoeffisienten

Dermed er sammenhengen mellom tidspunktet for å løse visuelt-figurative og verbale oppgaver i testen ikke bevist.

Øvelse 1. Data er tilgjengelig for 20 jordbruksbedrifter. Finne korrelasjonskoeffisient mellom avlingene av kornavlinger og kvaliteten på landet og vurdere betydningen. Dataene er gitt i tabellen.

Tabell 2. Avhengighet av kornavling av jordkvalitet

husnummer	Landkvalitet, poengsum	Produktivitet, c/ha

Oppgave 2. Bestem om det er et forhold mellom driftstiden til en treningsmaskin (tusen timer) og kostnadene for reparasjonen (tusen rubler):

Simulatordriftstid (tusen timer)	Reparasjonskostnader (tusen rubler)

1.2 Multippelkorrelasjon i MS Excel

På store tall observasjoner, når korrelasjonskoeffisientene må beregnes sekvensielt for flere prøver, for enkelhets skyld oppsummeres de resulterende koeffisientene i tabeller kalt korrelasjonsmatriser.

Korrelasjonsmatrise er en kvadratisk tabell der i skjæringspunktet mellom de tilsvarende radene og kolonnene er korrelasjonskoeffisienten mellom de tilsvarende parameterne.

I MS Excel brukes prosedyren for å beregne korrelasjonsmatriser sammenheng fra pakken Dataanalyse. Prosedyren gjør det mulig å oppnå en korrelasjonsmatrise som inneholder korrelasjonskoeffisienter mellom ulike parametere.

For å implementere prosedyren må du:

1. kjør kommando Service - Analyse data;

2. i listen som vises Analyseverktøy velg linje Sammenheng og trykk på knappen OK;

3. Angi i dialogboksen som vises inndataintervall, det vil si, angi en lenke til cellene som inneholder de analyserte dataene. Inndataintervallet må inneholde minst to kolonner.

4. seksjon gruppering still bryteren i henhold til de angitte dataene (etter kolonner eller rader);

5. angi fridag intervall, det vil si, angi en referanse til cellen, fra hvilken analyseresultatene vil vises. Størrelsen på utdataområdet vil bli bestemt automatisk, og en melding vil vises på skjermen hvis utdataområdet kan overlappe med kildedataene. Trykknapp OK.

En korrelasjonsmatrise vil vises i utgangsområdet, der det i skjæringspunktet mellom hver rad og kolonne er en korrelasjonskoeffisient mellom de tilsvarende parameterne. Celler i utdataområdet som har samme rad- og kolonnekoordinater inneholder verdien 1 fordi hver kolonne i inndataområdet er fullstendig korrelert med seg selv

Eksempel 2 Månedlige data er tilgjengelige for observasjoner av værforhold og besøk på museer og parker (se tabell 3). Det er nødvendig å avgjøre om det er en sammenheng mellom værtilstanden og besøket til museer og parker.

Tabell 3. Resultater av observasjoner

Antall klare dager	Antall museumsbesøkende	Antall besøkende i parken

Løsning. For å utføre en korrelasjonsanalyse, skriv inn de første dataene i området A1:G3 (fig. 2). Så på menyen Service Velg en Analyse data og legg deretter til linjen Sammenheng. Skriv inn i dialogboksen som vises inndataintervall(A2:C7). Spesifiser at dataene vurderes av kolonner. Spesifiser utgangsområdet (E1) og trykk på knappen OK.

På fig. 33 kan man se at korrelasjonen mellom værforhold og museumsbesøk er -0,92, og mellom værforhold og parkbesøk - 0,97, mellom park- og museumsbesøk - 0,92.

Som et resultat av analysen ble det således avdekket avhengigheter: en sterk omvendt lineær sammenheng mellom museumsbesøk og antall soldager og en nesten lineær (veldig sterk direkte) sammenheng mellom parkoppmøte og værforhold. Det er et sterkt omvendt forhold mellom museum og parkoppmøte.

Ris. 2. Resultater av beregning av korrelasjonsmatrisen fra eksempel 2

Oppgave 3. 10 ledere ble evaluert i henhold til metodikken for ekspertvurderinger av de psykologiske egenskapene til lederens personlighet. 15 eksperter vurderte hver psykologisk egenskap i henhold til et fempunktssystem (se tabell 4). Psykologen er interessert i spørsmålet om hvilket forhold disse egenskapene til lederen er til hverandre.

Tabell 4. Resultater av studien

Emner p / s	takt	nøyaktighet	kritikalitet

Med en sammenheng samme verdi av ett attributt tilsvarer forskjellige verdier av det andre. For eksempel: det er en sammenheng mellom høyde og vekt, mellom forekomsten av ondartede neoplasmer og alder osv.

Det er 2 metoder for å beregne korrelasjonskoeffisienten: metoden for kvadrater (Pearson), metoden for rangeringer (Spearman).

Den mest nøyaktige er metoden med kvadrater (Pearson), der korrelasjonskoeffisienten bestemmes av formelen: , hvor

r xy er korrelasjonskoeffisienten mellom statistiske serier X og Y.

d x er avviket til hvert av tallene i den statistiske serien X fra dens aritmetiske gjennomsnitt.

d y er avviket til hvert av tallene i den statistiske serien Y fra dens aritmetiske gjennomsnitt.

Avhengig av styrken på forbindelsen og dens retning, kan korrelasjonskoeffisienten variere fra 0 til 1 (-1). En korrelasjonskoeffisient på 0 indikerer fullstendig mangel på forbindelse. Jo nærmere nivået av korrelasjonskoeffisienten er 1 eller (-1), jo større henholdsvis, jo nærmere direkte eller tilbakemelding målt av den. Med en korrelasjonskoeffisient lik 1 eller (-1), er forbindelsen komplett, funksjonell.

Skjema for å estimere styrken til korrelasjonen ved korrelasjonskoeffisienten

Styrke av forbindelse	Verdien av korrelasjonskoeffisienten, hvis tilgjengelig
Styrke av forbindelse	direkte tilkobling (+)	tilbakemelding (-)
Ingen forbindelse
Kommunikasjonen er liten (svak)	fra 0 til +0,29	0 til -0,29
Kommunikasjonsgjennomsnitt (moderat)	+0,3 til +0,69	-0,3 til -0,69
Kommunikasjon stor (sterk)	+0,7 til +0,99	-0,7 til -0,99
Kommunikasjonen er fullført (funksjonell)

For å beregne korrelasjonskoeffisienten ved å bruke kvadratmetoden, er det satt sammen en tabell med 7 kolonner. La oss analysere beregningsprosessen ved å bruke et eksempel:

BESTEM STYRKEN OG ARTEN AV FORHOLDET MELLOM

Det er på tide- ness struma (V y )	d x= V x –M x	d y= V y –M y	d x d y	d x 2	d y 2







			Σ -1345 ,0	Σ 13996 ,0	Σ 313 , 47

1. Bestem gjennomsnittlig innhold av jod i vann (i mg / l).

mg/l

2. Bestem gjennomsnittlig forekomst av struma i %.

3. Bestem avviket til hver V x fra M x, dvs. d x.

201–138=63; 178–138=40 osv.

4. Tilsvarende bestemmer vi avviket til hver V y fra M y, dvs. d

0,2–3,8=-3,6; 0,6–38=-3,2 osv.

5. Vi bestemmer produktene av avvik. Det resulterende produktet summeres og oppnås.

6. Vi kvadrat d x og oppsummerer resultatene, vi får.

7. På samme måte kvadrerer vi d y, oppsummerer resultatene, vi får

8. Til slutt erstatter vi alle mottatte beløp i formelen:

For å løse problemet med påliteligheten til korrelasjonskoeffisienten, bestemmes det gjennomsnittlig feil i henhold til formelen:

(Hvis antall observasjoner er mindre enn 30, så er nevneren n-1).

I vårt eksempel

Verdien av korrelasjonskoeffisienten anses som pålitelig hvis den er minst 3 ganger høyere enn gjennomsnittsfeilen.

I vårt eksempel

Korrelasjonskoeffisienten er dermed ikke pålitelig, noe som gjør det nødvendig å øke antall observasjoner.

Korrelasjonskoeffisienten kan bestemmes på en noe mindre nøyaktig, men mye enklere måte, rangeringsmetoden (Spearman).

Spearman-metoden: P=1-(6∑d 2 /n-(n 2 -1))

lag to rader med sammenliknede funksjoner, og angir henholdsvis første og andre rad, x og y. Presenter samtidig den første raden av attributtet i synkende eller stigende rekkefølge, og plasser de numeriske verdiene i den andre raden overfor verdiene i den første raden som de tilsvarer

verdien av funksjonen i hver av de sammenlignede radene bør erstattes av et serienummer (rangering). Rangeringer, eller tall, indikerer stedene for indikatorer (verdier) for den første og andre raden. Hvori numeriske verdier av det andre attributtet, må rangeringene tildeles i samme rekkefølge som ble vedtatt da de ble distribuert til verdiene til det første attributtet. Med de samme verdiene for attributtet i serien, bør rangeringene bestemmes som gjennomsnittstall fra summen av ordenstallene til disse verdiene

bestem forskjellen i rangeringer mellom x og y (d): d = x - y

kvadrat den resulterende rangeringsforskjellen (d 2)

få summen av kvadrater av forskjellen (Σ d 2) og bytt inn de oppnådde verdiene i formelen:

Eksempel: ved å bruke rangeringsmetoden for å fastslå retningen og styrken til forholdet mellom tjenestetiden i år og skadefrekvensen, hvis følgende data er innhentet:

Begrunnelse for valg av metode: for å løse problemet er det kun metoden som kan velges rangkorrelasjon, fordi den første raden i attributtet "arbeidserfaring i år" har åpne alternativer (yrkeserfaring opptil 1 år og 7 eller flere år), som ikke tillater bruk av en mer nøyaktig metode - metoden med kvadrater - for å etablere et forhold mellom sammenlignet egenskaper.

Løsning. Rekkefølgen av beregninger er beskrevet i teksten, resultatene er presentert i tabell. 2.

tabell 2

Arbeidserfaring i årevis	Antall skader	Ordningstall (ranger)	Rangeringsforskjell	rangeringsforskjell i annen
Arbeidserfaring i årevis	Antall skader		d(x-y)	d 2

Hver av radene med sammenkoblede tegn er merket med "x" og med "y" (kolonne 1-2).

Verdien av hvert av tegnene erstattes av et rangeringsnummer (serienummer). Rekkefølgen for fordeling av rangeringer i "x"-serien er som følger: minimumsverdien av attributtet (erfaring opptil 1 år) tildeles serienummeret "1", henholdsvis de påfølgende variantene av samme serie av attributtet , i økende rekkefølge etter 2., 3., 4. og 5. serienummer - rekker (se kolonne 3). En lignende rekkefølge observeres når rangeringer fordeles til den andre funksjonen "y" (kolonne 4). I de tilfellene hvor det er flere varianter av samme størrelse (for eksempel i standardoppgaven er dette 12 og 12 skader per 100 arbeidere med erfaring på 3-4 år og 5-6 år), er serienummeret angitt ved gjennomsnittlig antall fra summen av deres serienumre Disse dataene om antall skader (12 skader) i rangeringen bør ta 2. og 3. plass, så gjennomsnittlig antall av dem er (2 + 3) / 2 = 2,5. ) skal fordele de samme rangeringsnumrene - "2.5" (kolonne 4).

Bestem forskjellen i rangeringer d = (x - y) - (kolonne 5)

Kvadrere forskjellen i ranger (d 2) og få summen av kvadrater av forskjellen i ranger Σ d 2 (kolonne 6).

Beregn rangkorrelasjonskoeffisienten ved å bruke formelen:

der n er antall matchede par med alternativer i rad "x" og rad "y"