Biografije Karakteristike Analiza

Koeficijent korelacije u Excelu. Kako se vrši korelacija u Excelu? Matrica koeficijenata korelacije parova u Excelu

Kvantitativne karakteristike odnosi se mogu dobiti izračunavanjem koeficijenta korelacije.

Korelacijska analiza u Excelu

Sama funkcija ima opći oblik CORREL(niz1, niz2). U polje "Array1" unesite koordinate raspona ćelija jedne od vrijednosti čiju ovisnost treba odrediti. Kao što vidite, koeficijent korelacije u obliku broja pojavljuje se u ćeliji koju smo prethodno odabrali. Otvara se prozor s parametrima korelacijske analize. Za razliku od prethodne metode, u polje “Interval unosa” upisujemo interval ne svakog stupca posebno, već svih stupaca koji sudjeluju u analizi. Kao što vidite, aplikacija Excel nudi dvije metode korelacijske analize odjednom.

Korelacijski grafikon u excelu

6) Prvi element konačne tablice pojavit će se u gornjoj lijevoj ćeliji odabranog područja. Stoga se hipoteza H0 odbacuje, odnosno regresijski parametri i koeficijent korelacije nisu slučajno različiti od nule, već su statistički značajni. 7. Dobivene procjene regresijske jednadžbe omogućuju njezino korištenje za prognoziranje.

Kako izračunati koeficijent korelacije u Excelu

Ako je koeficijent 0, to znači da ne postoji odnos između vrijednosti. Da biste pronašli odnos između varijabli i y, koristite ugrađenu Microsoft Excel funkciju "CORREL". Na primjer, za "Array1" odaberite vrijednosti y, a za "Array2" odaberite x vrijednosti. Kao rezultat toga, dobit ćete koeficijent korelacije koji je izračunao program. Zatim trebate izračunati razliku između svakog x i xav i yav. U odabrane ćelije upišite formule x-x, y-. Ne zaboravite zakvačiti ćelije s prosjecima. Dobiveni rezultat bit će željeni koeficijent korelacije.

Gornja formula za izračun Pearsonovog koeficijenta pokazuje koliko je ovaj proces zahtjevan ako se izvodi ručno. Drugo, preporučite koja se vrsta korelacijske analize može koristiti za različite uzorke s velikim rasponom podataka? Kako mogu statistički dokazati da postoji značajna razlika između skupine starijih od 60 godina i svih ostalih?

Uradi sam: Izračunavanje korelacija valuta pomoću programa Excel

Na primjer, mi koristimo Microsoft Excel, ali bilo koji drugi program u kojem možete koristiti korelacijsku formulu će poslužiti. 7. Nakon toga odaberite ćelije s EUR/USD podacima. 9.Pritisnite Enter za izračun koeficijenta korelacije za EUR/USD i USD/JPY. Ne isplati se ažurirati brojke svaki dan (dobro, osim ako niste opsjednuti valutnim korelacijama).

Već ste se susreli s potrebom izračunavanja stupnja povezanosti između dvoje statističke veličine i odrediti formulu kojom koreliraju? Da bih to učinio, koristio sam funkciju CORREL - ovdje ima nekih informacija o njoj. Vraća stupanj korelacije između dva raspona podataka. Teoretski, korelacijska funkcija može se poboljšati pretvaranjem iz linearne u eksponencijalnu ili logaritamsku. Analiza podataka i korelacijski grafovi mogu značajno poboljšati njegovu pouzdanost.

Pretpostavimo da ćelija B2 sadrži sam koeficijent korelacije, a ćelija B3 sadrži broj potpunih opažanja. Imate li ured koji govori ruski, također sam pronašao grešku - značajnost se ne izračunava za negativne korelacije? Ako su obje varijable metričke i imaju normalna distribucija, onda je izbor napravljen ispravno. I je li moguće okarakterizirati kriterij sličnosti krivulja koristeći samo jednu CC. Nemate sličnost "krivulja", već sličnost dviju serija, koje se u principu mogu opisati krivuljom.

Jeste li se već susreli s potrebom da izračunate stupanj povezanosti dviju statističkih veličina i odredite formulu kojom one koreliraju? Normalna osoba može pitati zašto je to uopće potrebno. Začudo, ovo je zapravo neophodno. Poznavanje pouzdanih korelacija može vam pomoći da zaradite ludi novac ako ste, recimo, trgovac dionicama. Problem je što iz nekog razloga nitko ne otkriva te korelacije (iznenađujuće, zar ne?).

Prebrojimo ih sami! Na primjer, odlučio sam pokušati izračunati korelaciju rublje prema dolaru kroz euro. Pogledajmo detaljno kako se to radi.

Ovaj je članak namijenjen naprednim razinama znanja Microsoft Excela. Ako nemate vremena pročitati cijeli članak, možete preuzeti datoteku i sami shvatiti.

Ako se često nađete u potrebi da učinite ovako nešto Toplo preporučam da razmislite o kupnji knjige. Statistički izračuni u Excelu.

Što je važno znati o korelacijama

Da biste izračunali pouzdanu korelaciju, morate imati pouzdan uzorak; što je veći, rezultat će biti pouzdaniji. Za potrebe ovog primjera uzeo sam dnevni uzorak deviznih tečajeva tijekom 10 godina. Podaci su slobodno dostupni, preuzeo sam ih sa stranice http://oanda.com.

Što sam zapravo napravio

(1) Nakon što sam dobio neobrađene podatke, počeo sam provjeravajući stupanj korelacije između dva skupa podataka. Da bih to učinio, koristio sam funkciju CORREL - postoji malo informacija o njoj. Vraća stupanj korelacije između dva raspona podataka. Rezultat, iskreno govoreći, nije bio osobito impresivan (samo oko 70%). Općenito govoreći, stupanj korelacije između dviju veličina obično se smatra kvadratom te veličine, odnosno korelacija se pokazala pouzdanom za približno 49%. Ovo je jako malo!

(2) Ovo mi se činilo vrlo čudnim. Koje su se pogreške mogle uvući u moje izračune? Pa sam odlučio napraviti grafikon i vidjeti što bi se moglo dogoditi. Grafikon je posebno raščlanjen po godinama kako bi se vizualno vidjelo gdje se korelacija lomi. Raspored je ispao ovako

(3) Iz grafikona je očito da se u rasponu od oko 35 rubalja za euro korelacija počinje lomiti na dva dijela. Zbog toga se pokazalo nepouzdanim. Trebalo je utvrditi zašto se to događa.

(4) Boja pokazuje da se ovi podaci odnose na 2007., 2008., 2009. godinu. Sigurno! Razdoblja gospodarskih vrhunaca i recesija obično su statistički nepouzdana, što se i dogodilo u u ovom slučaju. Stoga sam pokušao isključiti ta razdoblja iz podataka (i da provjerim, provjerio sam stupanj korelacije podataka u tom razdoblju). Stupanj korelacije samo ovih podataka je 0,01%, odnosno potpuno je odsutan. Ali bez njih, podaci koreliraju s otprilike 81%. Ovo je već prilično pouzdana korelacija. Ovdje je graf s funkcijom.

Sljedeći koraci

Teoretski, korelacijska funkcija može se poboljšati pretvaranjem iz linearne u eksponencijalnu ili logaritamsku. pri čemu statistička značajnost korelacija se povećava za otprilike jedan posto, ali se nevjerojatno povećava složenost primjene formule. Stoga si postavljam pitanje je li to doista potrebno? Na vama je da odlučite - za svaki konkretan slučaj.

Obavijest! Rješenje vašeg specifičnog problema izgledat će slično ovaj primjer, uključujući sve tablice i tekstove objašnjenja prikazane u nastavku, ali uzimajući u obzir vaše početne podatke...

Zadatak:
Postoji srodni uzorak od 26 parova vrijednosti (x k,y k):

k 1 2 3 4 5 6 7 8 9 10
x k 25.20000 26.40000 26.00000 25.80000 24.90000 25.70000 25.70000 25.70000 26.10000 25.80000
y k 30.80000 29.40000 30.20000 30.50000 31.40000 30.30000 30.40000 30.50000 29.90000 30.40000

k 11 12 13 14 15 16 17 18 19 20
x k 25.90000 26.20000 25.60000 25.40000 26.60000 26.20000 26.00000 22.10000 25.90000 25.80000
y k 30.30000 30.50000 30.60000 31.00000 29.60000 30.40000 30.70000 31.60000 30.50000 30.60000

k 21 22 23 24 25 26
x k 25.90000 26.30000 26.10000 26.00000 26.40000 25.80000
y k 30.70000 30.10000 30.60000 30.50000 30.70000 30.80000

Potrebno za izračunavanje/iscrtavanje:
- koeficijent korelacije;
- testirati hipotezu o ovisnosti slučajnih varijabli X i Y, na razini značajnosti α = 0,05;
- koeficijenti jednadžbe Linearna regresija;
- dijagram raspršenja (korelacijsko polje) i regresijski linijski grafikon;

RIJEŠENJE:

1. Izračunajte koeficijent korelacije.

Koeficijent korelacije je pokazatelj međusobnog probabilističkog utjecaja dviju slučajnih varijabli. Koeficijent korelacije R može uzeti vrijednosti iz -1 prije +1 . Ako je apsolutna vrijednost bliža 1 , onda je ovo dokaz jaka veza između vrijednosti, a ako je bliže 0 - onda to ukazuje na slabu vezu ili njenu odsutnost. Ako je apsolutna vrijednost R jednaka jedan, tada možemo govoriti o funkcionalnoj povezanosti veličina, odnosno da se jedna veličina može izraziti preko druge pomoću matematičke funkcije.


Koeficijent korelacije može se izračunati pomoću sljedećih formula:
n
Σ
k = 1
(x k -M x) 2, σ y 2 =
Mx =
1
n
n
Σ
k = 1
xk, moj =

ili po formuli

Rx,y =
M xy - M x M y
S x S y
(1.4), gdje je:
Mx =
1
n
n
Σ
k = 1
xk, moj =
1
n
n
Σ
k = 1
y k , Mxy =
1
n
n
Σ
k = 1
x k y k (1,5)
S x 2 =
1
n
n
Σ
k = 1
x k 2 - M x 2, S y 2 =
1
n
n
Σ
k = 1
y k 2 - M y 2 (1,6)

U praksi se za izračunavanje koeficijenta korelacije češće koristi formula (1.4) jer zahtijeva manje računanja. Međutim, ako je kovarijanca prethodno izračunata cov(X,Y), tada je isplativije koristiti formulu (1.1), jer Osim same vrijednosti kovarijance, možete koristiti i rezultate međuizračunavanja.

1.1 Izračunajmo koeficijent korelacije pomoću formule (1.4), da bismo to učinili, izračunavamo vrijednosti x k 2, y k 2 i x k y k i unosimo ih u tablicu 1.

stol 1


k
x k y k x k 2 y k 2 x ky k
1 2 3 4 5 6
1 25.2 30.8 635.04000 948.64000 776.16000
2 26.4 29.4 696.96000 864.36000 776.16000
3 26.0 30.2 676.00000 912.04000 785.20000
4 25.8 30.5 665.64000 930.25000 786.90000
5 24.9 31.4 620.01000 985.96000 781.86000
6 25.7 30.3 660.49000 918.09000 778.71000
7 25.7 30.4 660.49000 924.16000 781.28000
8 25.7 30.5 660.49000 930.25000 783.85000
9 26.1 29.9 681.21000 894.01000 780.39000
10 25.8 30.4 665.64000 924.16000 784.32000
11 25.9 30.3 670.81000 918.09000 784.77000
12 26.2 30.5 686.44000 930.25000 799.10000
13 25.6 30.6 655.36000 936.36000 783.36000
14 25.4 31 645.16000 961.00000 787.40000
15 26.6 29.6 707.56000 876.16000 787.36000
16 26.2 30.4 686.44000 924.16000 796.48000
17 26 30.7 676.00000 942.49000 798.20000
18 22.1 31.6 488.41000 998.56000 698.36000
19 25.9 30.5 670.81000 930.25000 789.95000
20 25.8 30.6 665.64000 936.36000 789.48000
21 25.9 30.7 670.81000 942.49000 795.13000
22 26.3 30.1 691.69000 906.01000 791.63000
23 26.1 30.6 681.21000 936.36000 798.66000
24 26 30.5 676.00000 930.25000 793.00000
25 26.4 30.7 696.96000 942.49000 810.48000
26 25.8 30.8 665.64000 948.64000 794.64000


1.2. Izračunajmo M x pomoću formule (1.5).

1.2.1. x k

x 1 + x 2 + … + x 26 = 25,20000 + 26,40000 + ... + 25,80000 = 669,500000

1.2.2.

669.50000 / 26 = 25.75000

M x = 25,750000

1.3. Izračunajmo M y na sličan način.

1.3.1. Dodajmo sve elemente redom y k

y 1 + y 2 + … + y 26 = 30,80000 + 29,40000 + ... + 30,80000 = 793,000000

1.3.2. Podijelite dobiveni zbroj s brojem elemenata uzorka

793.00000 / 26 = 30.50000

M y = 30,500000

1.4. Na sličan način izračunavamo M xy.

1.4.1. Dodajmo redom sve elemente 6. stupca tablice 1

776.16000 + 776.16000 + ... + 794.64000 = 20412.830000

1.4.2. Dobiveni zbroj podijelite s brojem elemenata

20412.83000 / 26 = 785.10885

M xy = 785,108846

1.5. Izračunajmo vrijednost S x 2 pomoću formule (1.6.).

1.5.1. Dodajmo redom sve elemente 4. stupca tablice 1

635.04000 + 696.96000 + ... + 665.64000 = 17256.910000

1.5.2. Dobiveni zbroj podijelite s brojem elemenata

17256.91000 / 26 = 663.72731

1.5.3. Oduzmite kvadrat M x od posljednjeg broja da biste dobili vrijednost za S x 2

S x 2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481

1.6. Izračunajmo vrijednost S y 2 pomoću formule (1.6.).

1.6.1. Dodajmo redom sve elemente 5. stupca tablice 1

948.64000 + 864.36000 + ... + 948.64000 = 24191.840000

1.6.2. Dobiveni zbroj podijelite s brojem elemenata

24191.84000 / 26 = 930.45538

1.6.3. Oduzmite kvadrat M y od zadnjeg broja kako biste dobili vrijednost za S y 2

S y 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538

1.7. Izračunajmo umnožak veličina S x 2 i S y 2.

S x 2 S y 2 = 0,66481 0,20538 = 0,136541

1.8. Izdvojimo posljednji broj Korijen, dobivamo vrijednost S x S y.

S x S y = 0,36951

1.9. Izračunajmo vrijednost koeficijenta korelacije pomoću formule (1.4.).

R = (785,10885 - 25,75000 30,50000) / 0,36951 = (785,10885 - 785,37500) / 0,36951 = -0,72028

ODGOVOR: R x,y = -0,720279

2. Provjeravamo značajnost koeficijenta korelacije (provjeravamo hipotezu ovisnosti).

Budući da se procjena koeficijenta korelacije izračunava na konačnom uzorku i stoga može odstupati od njegove populacijske vrijednosti, potrebno je testirati značajnost koeficijenta korelacije. Provjera se vrši t-testom:

t =
Rx,y
n - 2
1 - R 2 x,y
(2.1)

Slučajna vrijednost t slijedi Studentovu t-distribuciju i pomoću tablice t-distribucije potrebno je pronaći kritičnu vrijednost kriterija (t cr.α) na zadanoj razini značajnosti α. Ako se t izračunat formulom (2.1) u apsolutnoj vrijednosti pokaže manjim od t cr.α, tada se ovisnosti između slučajne varijable X i Y nisu. Inače, eksperimentalni podaci nisu u suprotnosti s hipotezom o ovisnosti slučajnih varijabli.


2.1. Izračunajmo vrijednost t-kriterija pomoću formule (2.1) i dobijemo:
t =
-0.72028
26 - 2
1 - (-0.72028) 2
= -5.08680

2.2. Pomoću tablice t-distribucije određujemo kritičnu vrijednost parametra t cr.α

Željena vrijednost tcr.α nalazi se na sjecištu retka koji odgovara broju stupnjeva slobode i stupca koji odgovara zadanoj razini značajnosti α.
U našem slučaju broj stupnjeva slobode je n - 2 = 26 - 2 = 24 i α = 0.05 , što odgovara kritičnoj vrijednosti kriterija t cr.α = 2.064 (vidi tablicu 2)

tablica 2 t-distribucija

Broj stupnjeva slobode
(n - 2)
α = 0,1 α = 0,05 α = 0,02 α = 0,01 α = 0,002 α = 0,001
1 6.314 12.706 31.821 63.657 318.31 636.62
2 2.920 4.303 6.965 9.925 22.327 31.598
3 2.353 3.182 4.541 5.841 10.214 12.924
4 2.132 2.776 3.747 4.604 7.173 8.610
5 2.015 2.571 3.365 4.032 5.893 6.869
6 1.943 2.447 3.143 3.707 5.208 5.959
7 1.895 2.365 2.998 3.499 4.785 5.408
8 1.860 2.306 2.896 3.355 4.501 5.041
9 1.833 2.262 2.821 3.250 4.297 4.781
10 1.812 2.228 2.764 3.169 4.144 4.587
11 1.796 2.201 2.718 3.106 4.025 4.437
12 1.782 2.179 2.681 3.055 3.930 4.318
13 1.771 2.160 2.650 3.012 3.852 4.221
14 1.761 2.145 2.624 2.977 3.787 4.140
15 1.753 2.131 2.602 2.947 3.733 4.073
16 1.746 2.120 2.583 2.921 3.686 4.015
17 1.740 2.110 2.567 2.898 3.646 3.965
18 1.734 2.101 2.552 2.878 3.610 3.922
19 1.729 2.093 2.539 2.861 3.579 3.883
20 1.725 2.086 2.528 2.845 3.552 3.850
21 1.721 2.080 2.518 2.831 3.527 3.819
22 1.717 2.074 2.508 2.819 3.505 3.792
23 1.714 2.069 2.500 2.807 3.485 3.767
24 1.711 2.064 2.492 2.797 3.467 3.745
25 1.708 2.060 2.485 2.787 3.450 3.725
26 1.706 2.056 2.479 2.779 3.435 3.707
27 1.703 2.052 2.473 2.771 3.421 3.690
28 1.701 2.048 2.467 2.763 3.408 3.674
29 1.699 2.045 2.462 2.756 3.396 3.659
30 1.697 2.042 2.457 2.750 3.385 3.646
40 1.684 2.021 2.423 2.704 3.307 3.551
60 1.671 2.000 2.390 2.660 3.232 3.460
120 1.658 1.980 2.358 2.617 3.160 3.373
1.645 1.960 2.326 2.576 3.090 3.291


2.2. Usporedimo apsolutnu vrijednost t-kriterija i t cr.α

Apsolutna vrijednost t-kriterij nije manji od kritičnog t = 5,08680, t cr.α = 2,064, dakle eksperimentalni podaci, s vjerojatnošću 0,95(1 - α), ne proturječe hipotezi o ovisnosti slučajnih varijabli X i Y.

3. Izračunajte koeficijente jednadžbe linearne regresije.

Linearna regresijska jednadžba je jednadžba ravne linije koja aproksimira (približno opisuje) odnos između slučajnih varijabli X i Y. Ako pretpostavimo da je vrijednost X slobodna, a Y ovisan o X, tada će se regresijska jednadžba napisati kao slijedi


Y = a + b X (3.1), gdje je:

b =Rx,y
σy
σx
= Rx,y
S y
Sx
(3.2),
a = M y - b M x (3.3)

Koeficijent izračunat pomoću formule (3.2) b koji se naziva koeficijent linearne regresije. U nekim izvorima a nazvao konstantni koeficijent regresija i b prema varijablama.

Pogreške u predviđanju Y za danu vrijednost X izračunavaju se pomoću formula:

Naziva se i veličina σ y/x (formula 3.4). rezidualna standardna devijacija, karakterizira odstupanje vrijednosti Y od regresijske linije opisane jednadžbom (3.1) za fiksnu (zadanu) vrijednost X.

.
S y 2 / S x 2 = 0,20538 / 0,66481 = 0,30894. Uzmimo kvadratni korijen posljednjeg broja i dobijemo:
S y / S x = 0,55582

3.3 Izračunajmo koeficijent b prema formuli (3.2)

b = -0.72028 0.55582 = -0.40035

3.4 Izračunajmo koeficijent a prema formuli (3.3)

a = 30.50000 - (-0.40035 25.75000) = 40.80894

3.5 Procijenimo pogreške regresijske jednadžbe.

3.5.1 Vađenjem kvadratnog korijena od S y 2 dobivamo:

= 0.31437
3.5.4 Izračunajmo relativna pogreška prema formuli (3.5)

δ y/x = (0,31437 / 30,50000) 100% = 1,03073%

4. Gradimo dijagram raspršenja (korelacijsko polje) i regresijski linijski grafikon.

Dijagram raspršenosti je grafička slika odgovarajući parovi (x k, y k) u obliku točaka ravnine, in pravokutne koordinate s osi X i Y Korelacijsko polje je jedno od grafički prikazi povezani (upareni) uzorak. U istom koordinatnom sustavu iscrtava se i regresijski linijski grafikon. Ljestvice i početne točke na osi treba pažljivo odabrati kako bi dijagram bio što jasniji.

4.1. Odredite minimalni i maksimalni element uzorka X je 18. odnosno 15. element, x min = 22,10000 i x max = 26,60000.

4.2. Nalazimo da su minimalni i maksimalni element uzorka Y 2. odnosno 18. element, y min = 29,40000 i y max = 31,60000.

4.3. Na x-osi odaberite početnu točku malo lijevo od točke x 18 = 22,10000, i to u takvom mjerilu da točka x 15 = 26,60000 stane na os, a preostale točke budu jasno vidljive.

4.4. Na osi ordinata odaberite početnu točku malo ulijevo od točke y 2 = 29,40000 i to u takvom mjerilu da točka y 18 = 31,60000 stane na os, a da se ostale točke jasno razlikuju.

4.5. Postavljamo x k vrijednosti na apscisnu os, a y k vrijednosti na ordinatnu os.

4.6. Nacrtamo točke (x 1, y 1), (x 2, y 2),…, (x 26, y 26) na koordinatna ravnina. Dobivamo dijagram raspršenosti (korelacijsko polje) prikazan na slici ispod.

4.7. Povucimo regresijsku liniju.

Da bismo to učinili, pronaći ćemo dva razne točke s koordinatama (x r1, y r1) i (x r2, y r2) koje zadovoljavaju jednadžbu (3.6), nacrtajte ih na koordinatnu ravninu i kroz njih povucite ravnu liniju. Kao apscisu prve točke uzimamo vrijednost x min = 22,10000. Zamjenom vrijednosti x min u jednadžbu (3.6) dobivamo ordinatu prve točke. Dakle, imamo točku s koordinatama (22.10000, 31.96127). Na sličan način dobivamo koordinate druge točke, stavljajući vrijednost x max = 26,60000 kao apscisu. Druga točka će biti: (26.60000, 30.15970).

Regresijska linija prikazana je na donjoj slici crvenom bojom

Imajte na umu da regresijska linija uvijek prolazi kroz točku prosječnih vrijednosti X i Y, tj. s koordinatama (M x , M y).

LABORATORIJSKI RAD

KORELACIJSKA ANALIZA UEXCEL

1.1 Korelacijska analiza u MS Excelu

Korelacijska analiza sastoji se od utvrđivanja stupnja povezanosti između dviju slučajnih varijabli X i Y. Koeficijent korelacije se koristi kao mjera takve povezanosti. Koeficijent korelacije procjenjuje se iz uzorka od n povezanih parova opažanja (x i, y i) iz zajedničke populacije X i Y. Da bi se procijenio stupanj povezanosti između vrijednosti X i Y, mjerenih u kvantitativnim ljestvicama, potrebno je koristi se koeficijent linearne korelacije(Pearsonov koeficijent), koji pretpostavlja da su uzorci X i Y normalno raspoređeni.

Koeficijent korelacije varira od -1 (strogi inverzni linearni odnos) do 1 (strogi izravni proporcionalni odnos). Kada je postavljeno na 0, ne postoji linearni odnos između dva uzorka.

Opća klasifikacija korelacija (prema Ivanter E.V., Korosov A.V., 1992.):

Postoji nekoliko vrsta korelacijskih koeficijenata, ovisno o varijablama X i Y, koji se mogu mjeriti na različitim skalama. Upravo ta činjenica određuje izbor odgovarajućeg koeficijenta korelacije (vidi tablicu 13):

U MS Excel-u se posebnom funkcijom izračunavaju parni koeficijenti linearne korelacije CORREL (niz1; niz2),

predmeta

gdje je niz1 referenca na raspon ćelija prvog odabira (X);

Primjer 1: 10 školaraca je prošlo testove vizualno-figurativnog i verbalnog mišljenja. Prosječno vrijeme rješavanja testnih zadataka mjereno je u sekundama. Istraživača zanima pitanje: postoji li veza između vremena potrebnog za rješavanje ovih problema? Varijabla X označava prosječno vrijeme rješavanja vizualno-figurativnih testova, a varijabla Y prosječno vrijeme rješavanja verbalnih testnih zadataka.

R riješenje: Za prepoznavanje stupnja povezanosti, prije svega, potrebno je unijeti podatke u MS Excel tablicu (vidi tablicu, sl. 1). Zatim se izračunava vrijednost koeficijenta korelacije. Da biste to učinili, postavite kursor u ćeliju C1. Na alatnoj traci kliknite gumb Umetni funkciju (fx).

U dijaloškom okviru Čarobnjak za značajke koji se pojavi odaberite kategoriju Statistički i funkcija CORREL, a zatim kliknite U redu. Pomoću pokazivača miša unesite raspon podataka uzorka X u polje array1 (A1:A10). U polje array2 unesite uzorak podataka raspona Y (B1:B10). Pritisnite OK. U ćeliji C1 pojavit će se vrijednost koeficijenta korelacije - 0,54119. Zatim morate pogledati apsolutni broj koeficijenta korelacije i odrediti vrstu veze (bliska, slaba, srednja itd.)

Riža. 1. Rezultati izračuna koeficijenta korelacije

Dakle, nije dokazana povezanost vremena rješavanja vizualno-figurativnih i verbalnih ispitnih zadataka.

Vježba 1. Podaci su dostupni za 20 poljoprivrednih gospodarstava. Pronaći koeficijent korelacije između prinosa žitarica i kakvoće zemljišta te ocijeniti njezino značenje. Podaci su prikazani u tablici.

Tablica 2. Ovisnost prinosa zrna o kvaliteti zemljišta

Broj farme

Kvaliteta zemljišta, ocjena

Produktivnost, c/ha


Zadatak 2. Utvrdite postoji li veza između radnog vremena sportske fitness opreme (tisuće sati) i troškova njezinog popravka (tisuća rubalja):

Vrijeme rada simulatora (tisuću sati)

Trošak popravka (tisuća rubalja)

1.2 Višestruka korelacija u MS Excelu

Na veliki broj promatranja, kada korelacijske koeficijente treba uzastopno izračunati za nekoliko uzoraka, radi praktičnosti, dobiveni koeficijenti su sažeti u tablicama tzv. korelacijske matrice.

Korelacijska matrica je kvadratna tablica u kojoj se na sjecištu odgovarajućih redaka i stupaca nalazi koeficijent korelacije između odgovarajućih parametara.

U MS Excel-u postupak se koristi za izračunavanje korelacijskih matrica Poveznica iz paketa Analiza podataka. Postupak nam omogućuje dobivanje korelacijske matrice koja sadrži korelacijske koeficijente između različitih parametara.

Za provedbu postupka potrebno je:

1. izvršiti naredbu Servis - Analiza podaci;

2. na popisu koji se pojavi Alati za analizu odaberite liniju Poveznica i pritisnite tipku u redu;

3. u dijaloškom okviru koji se pojavi navedite Interval unosa, odnosno unesite poveznicu na ćelije u kojima se nalaze analizirani podaci. Interval unosa mora sadržavati najmanje dva stupca.

4. u odjeljku Grupiranje postaviti prekidač prema unesenim podacima (po stupcima ili po redovima);

5. naznačiti slobodan dan interval, odnosno unesite poveznicu na ćeliju iz koje će biti prikazani rezultati analize. Veličina izlaznog raspona bit će određena automatski i prikazat će se poruka ako se izlazni raspon možda preklapa s izvornim podacima. pritisni gumb u redu.

Korelacijska matrica bit će izlazna u izlazni raspon, u kojem se na sjecištu svakog retka i stupca nalazi koeficijent korelacije između odgovarajućih parametara. Ćelije u izlaznom rasponu koje imaju odgovarajuće koordinate retka i stupca sadrže vrijednost 1 jer je svaki stupac u ulaznom rasponu u savršenoj korelaciji sam sa sobom

Primjer 2. Postoje mjesečni podaci motrenja o vremenskim uvjetima i posjećenosti muzeja i parkova (vidi tablicu 3). Potrebno je utvrditi postoji li veza između vremenskih prilika i posjećenosti muzeja i parkova.

Tablica 3. Rezultati promatranja

Broj vedrih dana

Broj posjetitelja muzeja

Broj posjetitelja parka

Riješenje. Za izvođenje korelacijske analize unesite izvorne podatke u raspon A1:G3 (slika 2). Zatim u izborniku Servis odaberite stavku Analiza podaci a zatim unesite liniju Poveznica. U dijaloškom okviru koji se pojavi navedite Interval unosa(A2:C7). Navedite da se podaci prikazuju u stupcima. Odredite izlazni raspon (E1) i pritisnite gumb u redu.

Na sl. 33 pokazuje da je korelacija između vremenskih uvjeta i posjećenosti muzeja -0,92, a između vremenskih uvjeta i posjećenosti parka 0,97, a između parka i muzeja 0,92.

Tako su kao rezultat analize otkrivene ovisnosti: jak stupanj inverzne linearne veze između posjećenosti muzeja i broja sunčanih dana i gotovo linearna (vrlo jaka direktna) veza između posjećenosti parka i vremenskih uvjeta. Postoji snažan obrnuti odnos između posjeta muzeju i parku.

Riža. 2. Rezultati izračuna korelacijske matrice iz primjera 2

Zadatak 3. Procijenjeno je 10 menadžera metodom ekspertnih procjena psiholoških karakteristika ličnosti menadžera. 15 stručnjaka procijenilo je svaku psihološku karakteristiku sustavom od pet točaka (vidi tablicu 4). Psihologa zanima pitanje odnosa između ovih osobina vođe.

Tablica 4. Rezultati istraživanja

Predmeti

takt

zahtjevnost

kritično

S korelacijskom vezom ista vrijednost jedne karakteristike odgovara različitim vrijednostima druge. Na primjer: postoji korelacija između visine i težine, između učestalosti zloćudnih novotvorina i dobi itd.

Postoje 2 metode za izračunavanje koeficijenta korelacije: metoda kvadrata (Pearson), metoda rangova (Spearman).

Najtočnija je metoda kvadrata (Pearson), u kojoj se koeficijent korelacije određuje formulom: , gdje je

r xy je koeficijent korelacije između statističkih serija X i Y.

d x je odstupanje svakog od brojeva statističke serije X od njegove aritmetičke sredine.

d y je odstupanje svakog od brojeva statističke serije Y od njegove aritmetičke sredine.

Ovisno o jačini veze i njenom smjeru, koeficijent korelacije može biti u rasponu od 0 do 1 (-1). Koeficijent korelacije 0 označava potpuni nedostatak veze. Što je razina korelacijskog koeficijenta bliža 1 ili (-1), to je odgovarajuća izravna ili povratna veza koju mjeri veća i točnije. Kada je koeficijent korelacije jednak 1 ili (-1), veza je potpuna i funkcionalna.

Shema za ocjenu jakosti korelacije pomoću koeficijenta korelacije

Snaga veze

Vrijednost korelacijskog koeficijenta ako je dostupan

izravna veza (+)

Povratne informacije (-)

Nema veze

Veza je mala (slaba)

od 0 do +0,29

od 0 do –0,29

Prosječna veza (umjerena)

od +0,3 do +0,69

od –0,3 do –0,69

Veza je velika (jaka)

od +0,7 do +0,99

od –0,7 do –0,99

Puna komunikacija

(funkcionalno)

Za izračun koeficijenta korelacije kvadratnom metodom sastavlja se tablica od 7 stupaca. Pogledajmo postupak izračuna na primjeru:

ODREDITE SNAGU I PRIRODU VEZE IZMEĐU

Vrijeme je-

nost

gušavost

(V g )

d x = V xM x

d y= V gM g

d x d g

d x 2

d g 2

Σ -1345 ,0

Σ 13996 ,0

Σ 313 , 47

1. Odredite prosječni sadržaj joda u vodi (u mg/l).

mg/l

2. Odrediti prosječnu učestalost guše u %.

3. Odredite odstupanje svakog V x od M x, tj. dx.

201–138=63; 178–138=40 itd.

4. Slično, određujemo odstupanje svakog V y od M y, t.j. d g.

0,2–3,8=-3,6; 0,6–38=-3,2, itd.

5. Odredite umnoške odstupanja. Zbrojimo dobiveni proizvod i dobijemo.

6. Kvadriramo d x i zbrojimo rezultate, dobivamo.

7. Slično, kvadriramo d y, zbrajamo rezultate, dobivamo

8. Na kraju, sve primljene iznose zamijenimo formulom:

Da biste riješili pitanje pouzdanosti koeficijenta korelacije, odredite ga prosječna greška prema formuli:

(Ako je broj opažanja manji od 30, tada je nazivnik n–1).

U našem primjeru

Vrijednost koeficijenta korelacije smatra se pouzdanom ako je najmanje 3 puta veća od svoje prosječne pogreške.

U našem primjeru

Dakle, koeficijent korelacije nije pouzdan, što zahtijeva povećanje broja opažanja.

Koeficijent korelacije može se odrediti na nešto manje točan, ali mnogo lakši način - metodom rangova (Spearman).

Spearmanova metoda: P=1-(6∑d 2 /n-(n 2 -1))

napravite dva reda uparenih usporedivih značajki, označavajući prvi i drugi red x odnosno y. U ovom slučaju, predstavite prvi red karakteristike u silaznom ili rastućem redoslijedu, a brojčane vrijednosti drugog retka postavite nasuprot vrijednostima prvog retka kojima odgovaraju

vrijednost obilježja u svakoj od uspoređivanih serija zamijeniti rednim brojem (rangom). Rangovi, odnosno brojevi, označavaju mjesta pokazatelja (vrijednosti) prvog i drugog reda. pri čemu brojčane vrijednosti druge karakteristike, rangovi se moraju dodijeliti istim redoslijedom koji je usvojen prilikom dodjele vrijednostima prve karakteristike. S identičnim vrijednostima obilježja u nizu, rangove treba odrediti kao prosječni broj iz zbroja rednih brojeva tih vrijednosti

odredite razliku u rangu između x i y (d): d = x - y

kvadrirajte dobivenu rang razliku (d 2)

dobiti zbroj kvadrata razlike (Σ d 2) i zamijeniti dobivene vrijednosti u formulu:

Primjer: Metodom rangiranja utvrditi smjer i snagu veze između godina radnog iskustva i učestalosti ozljeda ako se dobiju sljedeći podaci:

Obrazloženje odabira metode: Za rješavanje problema može se odabrati samo metoda korelacija ranga, jer Prvi redak atributa “radno iskustvo u godinama” ima otvorene opcije (radno iskustvo do 1 godine i 7 i više godina), što ne dopušta korištenje točnije metode – metode kvadrata – za uspostavu veze između uspoređivanih karakteristika.

Riješenje. Redoslijed izračuna prikazan je u tekstu, rezultati su prikazani u tablici. 2.

tablica 2

Radno iskustvo u godinama

Broj ozljeda

Redni brojevi (činovi)

Razlika u rangu

Kvadratna razlika rangova

d(x-y)

d 2

Svaki od redova uparenih karakteristika označen je s "x" i "y" (stupci 1-2).

Vrijednost svakog obilježja zamjenjuje se rang (rednim) brojem. Redoslijed raspodjele rangova u retku "x" je sljedeći: minimalnoj vrijednosti atributa (iskustvo do 1 godine) dodjeljuje se redni broj "1", sljedeće varijante istog retka atributa, redom, u rastući redoslijed, 2., 3., 4. i 5. redni broj - redovi (vidi stupac 3). Sličan redoslijed slijedi kada se raspodjeljuju rangovi drugom atributu "y" (stupac 4). U slučajevima kada postoji nekoliko opcija jednake veličine (na primjer, u standardnom problemu to su 12 i 12 ozljeda na 100 radnika sa iskustvom od 3-4 godine i 5-6 godina, serijski broj je označen prosječnim brojem od zbroja njihovih rednih brojeva. Pri rangiranju podaci o broju ozljeda (12 ozljeda) trebaju zauzeti 2 i 3 mjesta, pa je njihov prosječni broj (2 + 3)/2 = 2,5 ozljeda je “12” (atribut) trebaju biti raspoređeni isti brojevi ranga - “2,5” (stupac 4).

Odredite razliku ranga d = (x - y) - (stupac 5)

Kvadrirajte razliku rangova (d 2) i dobijete zbroj kvadrata razlike rangova Σ d 2 (stupac 6).

Izračunajte koeficijent korelacije ranga pomoću formule:

gdje je n broj parova opcija koje se uspoređuju u retku "x" i retku "y"