Koeficijent korelacije u Excelu. Kako se vrši korelacija u Excelu? Matrica koeficijenata korelacije parova u Excelu
Kvantitativne karakteristike odnosi se mogu dobiti izračunavanjem koeficijenta korelacije.
Korelacijska analiza u Excelu
Sama funkcija ima opći oblik CORREL(niz1, niz2). U polje "Array1" unesite koordinate raspona ćelija jedne od vrijednosti čiju ovisnost treba odrediti. Kao što vidite, koeficijent korelacije u obliku broja pojavljuje se u ćeliji koju smo prethodno odabrali. Otvara se prozor s parametrima korelacijske analize. Za razliku od prethodne metode, u polje “Interval unosa” upisujemo interval ne svakog stupca posebno, već svih stupaca koji sudjeluju u analizi. Kao što vidite, aplikacija Excel nudi dvije metode korelacijske analize odjednom.
Korelacijski grafikon u excelu
6) Prvi element konačne tablice pojavit će se u gornjoj lijevoj ćeliji odabranog područja. Stoga se hipoteza H0 odbacuje, odnosno regresijski parametri i koeficijent korelacije nisu slučajno različiti od nule, već su statistički značajni. 7. Dobivene procjene regresijske jednadžbe omogućuju njezino korištenje za prognoziranje.
Kako izračunati koeficijent korelacije u Excelu
Ako je koeficijent 0, to znači da ne postoji odnos između vrijednosti. Da biste pronašli odnos između varijabli i y, koristite ugrađenu Microsoft Excel funkciju "CORREL". Na primjer, za "Array1" odaberite vrijednosti y, a za "Array2" odaberite x vrijednosti. Kao rezultat toga, dobit ćete koeficijent korelacije koji je izračunao program. Zatim trebate izračunati razliku između svakog x i xav i yav. U odabrane ćelije upišite formule x-x, y-. Ne zaboravite zakvačiti ćelije s prosjecima. Dobiveni rezultat bit će željeni koeficijent korelacije.
Gornja formula za izračun Pearsonovog koeficijenta pokazuje koliko je ovaj proces zahtjevan ako se izvodi ručno. Drugo, preporučite koja se vrsta korelacijske analize može koristiti za različite uzorke s velikim rasponom podataka? Kako mogu statistički dokazati da postoji značajna razlika između skupine starijih od 60 godina i svih ostalih?
Uradi sam: Izračunavanje korelacija valuta pomoću programa Excel
Na primjer, mi koristimo Microsoft Excel, ali bilo koji drugi program u kojem možete koristiti korelacijsku formulu će poslužiti. 7. Nakon toga odaberite ćelije s EUR/USD podacima. 9.Pritisnite Enter za izračun koeficijenta korelacije za EUR/USD i USD/JPY. Ne isplati se ažurirati brojke svaki dan (dobro, osim ako niste opsjednuti valutnim korelacijama).
Već ste se susreli s potrebom izračunavanja stupnja povezanosti između dvoje statističke veličine i odrediti formulu kojom koreliraju? Da bih to učinio, koristio sam funkciju CORREL - ovdje ima nekih informacija o njoj. Vraća stupanj korelacije između dva raspona podataka. Teoretski, korelacijska funkcija može se poboljšati pretvaranjem iz linearne u eksponencijalnu ili logaritamsku. Analiza podataka i korelacijski grafovi mogu značajno poboljšati njegovu pouzdanost.
Pretpostavimo da ćelija B2 sadrži sam koeficijent korelacije, a ćelija B3 sadrži broj potpunih opažanja. Imate li ured koji govori ruski, također sam pronašao grešku - značajnost se ne izračunava za negativne korelacije? Ako su obje varijable metričke i imaju normalna distribucija, onda je izbor napravljen ispravno. I je li moguće okarakterizirati kriterij sličnosti krivulja koristeći samo jednu CC. Nemate sličnost "krivulja", već sličnost dviju serija, koje se u principu mogu opisati krivuljom.
Jeste li se već susreli s potrebom da izračunate stupanj povezanosti dviju statističkih veličina i odredite formulu kojom one koreliraju? Normalna osoba može pitati zašto je to uopće potrebno. Začudo, ovo je zapravo neophodno. Poznavanje pouzdanih korelacija može vam pomoći da zaradite ludi novac ako ste, recimo, trgovac dionicama. Problem je što iz nekog razloga nitko ne otkriva te korelacije (iznenađujuće, zar ne?).
Prebrojimo ih sami! Na primjer, odlučio sam pokušati izračunati korelaciju rublje prema dolaru kroz euro. Pogledajmo detaljno kako se to radi.
Ovaj je članak namijenjen naprednim razinama znanja Microsoft Excela. Ako nemate vremena pročitati cijeli članak, možete preuzeti datoteku i sami shvatiti.
Ako se često nađete u potrebi da učinite ovako nešto Toplo preporučam da razmislite o kupnji knjige. Statistički izračuni u Excelu.
Što je važno znati o korelacijama
Da biste izračunali pouzdanu korelaciju, morate imati pouzdan uzorak; što je veći, rezultat će biti pouzdaniji. Za potrebe ovog primjera uzeo sam dnevni uzorak deviznih tečajeva tijekom 10 godina. Podaci su slobodno dostupni, preuzeo sam ih sa stranice http://oanda.com.
Što sam zapravo napravio
(1) Nakon što sam dobio neobrađene podatke, počeo sam provjeravajući stupanj korelacije između dva skupa podataka. Da bih to učinio, koristio sam funkciju CORREL - postoji malo informacija o njoj. Vraća stupanj korelacije između dva raspona podataka. Rezultat, iskreno govoreći, nije bio osobito impresivan (samo oko 70%). Općenito govoreći, stupanj korelacije između dviju veličina obično se smatra kvadratom te veličine, odnosno korelacija se pokazala pouzdanom za približno 49%. Ovo je jako malo!
(2) Ovo mi se činilo vrlo čudnim. Koje su se pogreške mogle uvući u moje izračune? Pa sam odlučio napraviti grafikon i vidjeti što bi se moglo dogoditi. Grafikon je posebno raščlanjen po godinama kako bi se vizualno vidjelo gdje se korelacija lomi. Raspored je ispao ovako
(3) Iz grafikona je očito da se u rasponu od oko 35 rubalja za euro korelacija počinje lomiti na dva dijela. Zbog toga se pokazalo nepouzdanim. Trebalo je utvrditi zašto se to događa.
(4) Boja pokazuje da se ovi podaci odnose na 2007., 2008., 2009. godinu. Sigurno! Razdoblja gospodarskih vrhunaca i recesija obično su statistički nepouzdana, što se i dogodilo u u ovom slučaju. Stoga sam pokušao isključiti ta razdoblja iz podataka (i da provjerim, provjerio sam stupanj korelacije podataka u tom razdoblju). Stupanj korelacije samo ovih podataka je 0,01%, odnosno potpuno je odsutan. Ali bez njih, podaci koreliraju s otprilike 81%. Ovo je već prilično pouzdana korelacija. Ovdje je graf s funkcijom.
Sljedeći koraci
Teoretski, korelacijska funkcija može se poboljšati pretvaranjem iz linearne u eksponencijalnu ili logaritamsku. pri čemu statistička značajnost korelacija se povećava za otprilike jedan posto, ali se nevjerojatno povećava složenost primjene formule. Stoga si postavljam pitanje je li to doista potrebno? Na vama je da odlučite - za svaki konkretan slučaj.
Obavijest! Rješenje vašeg specifičnog problema izgledat će slično ovaj primjer, uključujući sve tablice i tekstove objašnjenja prikazane u nastavku, ali uzimajući u obzir vaše početne podatke...Zadatak:
Postoji srodni uzorak od 26 parova vrijednosti (x k,y k):
k | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
x k | 25.20000 | 26.40000 | 26.00000 | 25.80000 | 24.90000 | 25.70000 | 25.70000 | 25.70000 | 26.10000 | 25.80000 |
y k | 30.80000 | 29.40000 | 30.20000 | 30.50000 | 31.40000 | 30.30000 | 30.40000 | 30.50000 | 29.90000 | 30.40000 |
k | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 |
x k | 25.90000 | 26.20000 | 25.60000 | 25.40000 | 26.60000 | 26.20000 | 26.00000 | 22.10000 | 25.90000 | 25.80000 |
y k | 30.30000 | 30.50000 | 30.60000 | 31.00000 | 29.60000 | 30.40000 | 30.70000 | 31.60000 | 30.50000 | 30.60000 |
k | 21 | 22 | 23 | 24 | 25 | 26 |
x k | 25.90000 | 26.30000 | 26.10000 | 26.00000 | 26.40000 | 25.80000 |
y k | 30.70000 | 30.10000 | 30.60000 | 30.50000 | 30.70000 | 30.80000 |
Potrebno za izračunavanje/iscrtavanje:
- koeficijent korelacije;
- testirati hipotezu o ovisnosti slučajnih varijabli X i Y, na razini značajnosti α = 0,05;
- koeficijenti jednadžbe Linearna regresija;
- dijagram raspršenja (korelacijsko polje) i regresijski linijski grafikon;
RIJEŠENJE:
1. Izračunajte koeficijent korelacije.
Koeficijent korelacije je pokazatelj međusobnog probabilističkog utjecaja dviju slučajnih varijabli. Koeficijent korelacije R može uzeti vrijednosti iz -1 prije +1 . Ako je apsolutna vrijednost bliža 1 , onda je ovo dokaz jaka veza između vrijednosti, a ako je bliže 0 - onda to ukazuje na slabu vezu ili njenu odsutnost. Ako je apsolutna vrijednost R jednaka jedan, tada možemo govoriti o funkcionalnoj povezanosti veličina, odnosno da se jedna veličina može izraziti preko druge pomoću matematičke funkcije.
Koeficijent korelacije može se izračunati pomoću sljedećih formula:
n |
Σ |
k = 1 |
Mx | = |
|
| xk, | moj | = | ili po formuli
U praksi se za izračunavanje koeficijenta korelacije češće koristi formula (1.4) jer zahtijeva manje računanja. Međutim, ako je kovarijanca prethodno izračunata cov(X,Y), tada je isplativije koristiti formulu (1.1), jer Osim same vrijednosti kovarijance, možete koristiti i rezultate međuizračunavanja. 1.1 Izračunajmo koeficijent korelacije pomoću formule (1.4), da bismo to učinili, izračunavamo vrijednosti x k 2, y k 2 i x k y k i unosimo ih u tablicu 1. stol 1
1.2. Izračunajmo M x pomoću formule (1.5). 1.2.1. x k x 1 + x 2 + … + x 26 = 25,20000 + 26,40000 + ... + 25,80000 = 669,500000 1.2.2. 669.50000 / 26 = 25.75000 M x = 25,750000 1.3. Izračunajmo M y na sličan način. 1.3.1. Dodajmo sve elemente redom y k y 1 + y 2 + … + y 26 = 30,80000 + 29,40000 + ... + 30,80000 = 793,000000 1.3.2. Podijelite dobiveni zbroj s brojem elemenata uzorka 793.00000 / 26 = 30.50000 M y = 30,500000 1.4. Na sličan način izračunavamo M xy. 1.4.1. Dodajmo redom sve elemente 6. stupca tablice 1 776.16000 + 776.16000 + ... + 794.64000 = 20412.830000 1.4.2. Dobiveni zbroj podijelite s brojem elemenata 20412.83000 / 26 = 785.10885 M xy = 785,108846 1.5. Izračunajmo vrijednost S x 2 pomoću formule (1.6.). 1.5.1. Dodajmo redom sve elemente 4. stupca tablice 1 635.04000 + 696.96000 + ... + 665.64000 = 17256.910000 1.5.2. Dobiveni zbroj podijelite s brojem elemenata 17256.91000 / 26 = 663.72731 1.5.3. Oduzmite kvadrat M x od posljednjeg broja da biste dobili vrijednost za S x 2 S x 2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481 1.6. Izračunajmo vrijednost S y 2 pomoću formule (1.6.). 1.6.1. Dodajmo redom sve elemente 5. stupca tablice 1 948.64000 + 864.36000 + ... + 948.64000 = 24191.840000 1.6.2. Dobiveni zbroj podijelite s brojem elemenata 24191.84000 / 26 = 930.45538 1.6.3. Oduzmite kvadrat M y od zadnjeg broja kako biste dobili vrijednost za S y 2 S y 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538 1.7. Izračunajmo umnožak veličina S x 2 i S y 2. S x 2 S y 2 = 0,66481 0,20538 = 0,136541 1.8. Izdvojimo posljednji broj Korijen, dobivamo vrijednost S x S y. S x S y = 0,36951 1.9. Izračunajmo vrijednost koeficijenta korelacije pomoću formule (1.4.). R = (785,10885 - 25,75000 30,50000) / 0,36951 = (785,10885 - 785,37500) / 0,36951 = -0,72028 ODGOVOR: R x,y = -0,720279 2. Provjeravamo značajnost koeficijenta korelacije (provjeravamo hipotezu ovisnosti).Budući da se procjena koeficijenta korelacije izračunava na konačnom uzorku i stoga može odstupati od njegove populacijske vrijednosti, potrebno je testirati značajnost koeficijenta korelacije. Provjera se vrši t-testom:
Slučajna vrijednost t slijedi Studentovu t-distribuciju i pomoću tablice t-distribucije potrebno je pronaći kritičnu vrijednost kriterija (t cr.α) na zadanoj razini značajnosti α. Ako se t izračunat formulom (2.1) u apsolutnoj vrijednosti pokaže manjim od t cr.α, tada se ovisnosti između slučajne varijable X i Y nisu. Inače, eksperimentalni podaci nisu u suprotnosti s hipotezom o ovisnosti slučajnih varijabli. 2.1. Izračunajmo vrijednost t-kriterija pomoću formule (2.1) i dobijemo:
2.2. Pomoću tablice t-distribucije određujemo kritičnu vrijednost parametra t cr.α Željena vrijednost tcr.α nalazi se na sjecištu retka koji odgovara broju stupnjeva slobode i stupca koji odgovara zadanoj razini značajnosti α. tablica 2 t-distribucija
2.2. Usporedimo apsolutnu vrijednost t-kriterija i t cr.α Apsolutna vrijednost t-kriterij nije manji od kritičnog t = 5,08680, t cr.α = 2,064, dakle eksperimentalni podaci, s vjerojatnošću 0,95(1 - α), ne proturječe hipotezi o ovisnosti slučajnih varijabli X i Y. 3. Izračunajte koeficijente jednadžbe linearne regresije.Linearna regresijska jednadžba je jednadžba ravne linije koja aproksimira (približno opisuje) odnos između slučajnih varijabli X i Y. Ako pretpostavimo da je vrijednost X slobodna, a Y ovisan o X, tada će se regresijska jednadžba napisati kao slijedi Y = a + b X (3.1), gdje je:
Koeficijent izračunat pomoću formule (3.2) b koji se naziva koeficijent linearne regresije. U nekim izvorima a nazvao konstantni koeficijent regresija i b prema varijablama. Pogreške u predviđanju Y za danu vrijednost X izračunavaju se pomoću formula: Naziva se i veličina σ y/x (formula 3.4). rezidualna standardna devijacija, karakterizira odstupanje vrijednosti Y od regresijske linije opisane jednadžbom (3.1) za fiksnu (zadanu) vrijednost X. | . |
S y / S x = 0,55582
3.3 Izračunajmo koeficijent b prema formuli (3.2)
b = -0.72028 0.55582 = -0.40035
3.4 Izračunajmo koeficijent a prema formuli (3.3)
a = 30.50000 - (-0.40035 25.75000) = 40.80894
3.5 Procijenimo pogreške regresijske jednadžbe.
3.5.1 Vađenjem kvadratnog korijena od S y 2 dobivamo:
3.5.4 Izračunajmo relativna pogreška prema formuli (3.5)
δ y/x = (0,31437 / 30,50000) 100% = 1,03073%
4. Gradimo dijagram raspršenja (korelacijsko polje) i regresijski linijski grafikon.
Dijagram raspršenosti je grafička slika odgovarajući parovi (x k, y k) u obliku točaka ravnine, in pravokutne koordinate s osi X i Y Korelacijsko polje je jedno od grafički prikazi povezani (upareni) uzorak. U istom koordinatnom sustavu iscrtava se i regresijski linijski grafikon. Ljestvice i početne točke na osi treba pažljivo odabrati kako bi dijagram bio što jasniji.4.1. Odredite minimalni i maksimalni element uzorka X je 18. odnosno 15. element, x min = 22,10000 i x max = 26,60000.
4.2. Nalazimo da su minimalni i maksimalni element uzorka Y 2. odnosno 18. element, y min = 29,40000 i y max = 31,60000.
4.3. Na x-osi odaberite početnu točku malo lijevo od točke x 18 = 22,10000, i to u takvom mjerilu da točka x 15 = 26,60000 stane na os, a preostale točke budu jasno vidljive.
4.4. Na osi ordinata odaberite početnu točku malo ulijevo od točke y 2 = 29,40000 i to u takvom mjerilu da točka y 18 = 31,60000 stane na os, a da se ostale točke jasno razlikuju.
4.5. Postavljamo x k vrijednosti na apscisnu os, a y k vrijednosti na ordinatnu os.
4.6. Nacrtamo točke (x 1, y 1), (x 2, y 2),…, (x 26, y 26) na koordinatna ravnina. Dobivamo dijagram raspršenosti (korelacijsko polje) prikazan na slici ispod.
4.7. Povucimo regresijsku liniju.
Da bismo to učinili, pronaći ćemo dva razne točke s koordinatama (x r1, y r1) i (x r2, y r2) koje zadovoljavaju jednadžbu (3.6), nacrtajte ih na koordinatnu ravninu i kroz njih povucite ravnu liniju. Kao apscisu prve točke uzimamo vrijednost x min = 22,10000. Zamjenom vrijednosti x min u jednadžbu (3.6) dobivamo ordinatu prve točke. Dakle, imamo točku s koordinatama (22.10000, 31.96127). Na sličan način dobivamo koordinate druge točke, stavljajući vrijednost x max = 26,60000 kao apscisu. Druga točka će biti: (26.60000, 30.15970).
Regresijska linija prikazana je na donjoj slici crvenom bojom
Imajte na umu da regresijska linija uvijek prolazi kroz točku prosječnih vrijednosti X i Y, tj. s koordinatama (M x , M y).
LABORATORIJSKI RAD
KORELACIJSKA ANALIZA UEXCEL
1.1 Korelacijska analiza u MS Excelu
Korelacijska analiza sastoji se od utvrđivanja stupnja povezanosti između dviju slučajnih varijabli X i Y. Koeficijent korelacije se koristi kao mjera takve povezanosti. Koeficijent korelacije procjenjuje se iz uzorka od n povezanih parova opažanja (x i, y i) iz zajedničke populacije X i Y. Da bi se procijenio stupanj povezanosti između vrijednosti X i Y, mjerenih u kvantitativnim ljestvicama, potrebno je koristi se koeficijent linearne korelacije(Pearsonov koeficijent), koji pretpostavlja da su uzorci X i Y normalno raspoređeni.
Koeficijent korelacije varira od -1 (strogi inverzni linearni odnos) do 1 (strogi izravni proporcionalni odnos). Kada je postavljeno na 0, ne postoji linearni odnos između dva uzorka.
Opća klasifikacija korelacija (prema Ivanter E.V., Korosov A.V., 1992.):
Postoji nekoliko vrsta korelacijskih koeficijenata, ovisno o varijablama X i Y, koji se mogu mjeriti na različitim skalama. Upravo ta činjenica određuje izbor odgovarajućeg koeficijenta korelacije (vidi tablicu 13):
U MS Excel-u se posebnom funkcijom izračunavaju parni koeficijenti linearne korelacije CORREL (niz1; niz2),
№ predmeta | ||
Primjer 1: 10 školaraca je prošlo testove vizualno-figurativnog i verbalnog mišljenja. Prosječno vrijeme rješavanja testnih zadataka mjereno je u sekundama. Istraživača zanima pitanje: postoji li veza između vremena potrebnog za rješavanje ovih problema? Varijabla X označava prosječno vrijeme rješavanja vizualno-figurativnih testova, a varijabla Y prosječno vrijeme rješavanja verbalnih testnih zadataka.
R riješenje: Za prepoznavanje stupnja povezanosti, prije svega, potrebno je unijeti podatke u MS Excel tablicu (vidi tablicu, sl. 1). Zatim se izračunava vrijednost koeficijenta korelacije. Da biste to učinili, postavite kursor u ćeliju C1. Na alatnoj traci kliknite gumb Umetni funkciju (fx).
U dijaloškom okviru Čarobnjak za značajke koji se pojavi odaberite kategoriju Statistički i funkcija CORREL, a zatim kliknite U redu. Pomoću pokazivača miša unesite raspon podataka uzorka X u polje array1 (A1:A10). U polje array2 unesite uzorak podataka raspona Y (B1:B10). Pritisnite OK. U ćeliji C1 pojavit će se vrijednost koeficijenta korelacije - 0,54119. Zatim morate pogledati apsolutni broj koeficijenta korelacije i odrediti vrstu veze (bliska, slaba, srednja itd.)
Riža. 1. Rezultati izračuna koeficijenta korelacije
Dakle, nije dokazana povezanost vremena rješavanja vizualno-figurativnih i verbalnih ispitnih zadataka.
Vježba 1. Podaci su dostupni za 20 poljoprivrednih gospodarstava. Pronaći koeficijent korelacije između prinosa žitarica i kakvoće zemljišta te ocijeniti njezino značenje. Podaci su prikazani u tablici.
Tablica 2. Ovisnost prinosa zrna o kvaliteti zemljišta
Broj farme |
Kvaliteta zemljišta, ocjena |
Produktivnost, c/ha |
Zadatak 2. Utvrdite postoji li veza između radnog vremena sportske fitness opreme (tisuće sati) i troškova njezinog popravka (tisuća rubalja):
Vrijeme rada simulatora (tisuću sati) |
Trošak popravka (tisuća rubalja) |
1.2 Višestruka korelacija u MS Excelu
Na veliki broj promatranja, kada korelacijske koeficijente treba uzastopno izračunati za nekoliko uzoraka, radi praktičnosti, dobiveni koeficijenti su sažeti u tablicama tzv. korelacijske matrice.
Korelacijska matrica je kvadratna tablica u kojoj se na sjecištu odgovarajućih redaka i stupaca nalazi koeficijent korelacije između odgovarajućih parametara.
U MS Excel-u postupak se koristi za izračunavanje korelacijskih matrica Poveznica iz paketa Analiza podataka. Postupak nam omogućuje dobivanje korelacijske matrice koja sadrži korelacijske koeficijente između različitih parametara.
Za provedbu postupka potrebno je:
1. izvršiti naredbu Servis - Analiza podaci;
2. na popisu koji se pojavi Alati za analizu odaberite liniju Poveznica i pritisnite tipku u redu;
3. u dijaloškom okviru koji se pojavi navedite Interval unosa, odnosno unesite poveznicu na ćelije u kojima se nalaze analizirani podaci. Interval unosa mora sadržavati najmanje dva stupca.
4. u odjeljku Grupiranje postaviti prekidač prema unesenim podacima (po stupcima ili po redovima);
5. naznačiti slobodan dan interval, odnosno unesite poveznicu na ćeliju iz koje će biti prikazani rezultati analize. Veličina izlaznog raspona bit će određena automatski i prikazat će se poruka ako se izlazni raspon možda preklapa s izvornim podacima. pritisni gumb u redu.
Korelacijska matrica bit će izlazna u izlazni raspon, u kojem se na sjecištu svakog retka i stupca nalazi koeficijent korelacije između odgovarajućih parametara. Ćelije u izlaznom rasponu koje imaju odgovarajuće koordinate retka i stupca sadrže vrijednost 1 jer je svaki stupac u ulaznom rasponu u savršenoj korelaciji sam sa sobom
Primjer 2. Postoje mjesečni podaci motrenja o vremenskim uvjetima i posjećenosti muzeja i parkova (vidi tablicu 3). Potrebno je utvrditi postoji li veza između vremenskih prilika i posjećenosti muzeja i parkova.
Tablica 3. Rezultati promatranja
Broj vedrih dana |
Broj posjetitelja muzeja |
Broj posjetitelja parka |
Riješenje. Za izvođenje korelacijske analize unesite izvorne podatke u raspon A1:G3 (slika 2). Zatim u izborniku Servis odaberite stavku Analiza podaci a zatim unesite liniju Poveznica. U dijaloškom okviru koji se pojavi navedite Interval unosa(A2:C7). Navedite da se podaci prikazuju u stupcima. Odredite izlazni raspon (E1) i pritisnite gumb u redu.
Na sl. 33 pokazuje da je korelacija između vremenskih uvjeta i posjećenosti muzeja -0,92, a između vremenskih uvjeta i posjećenosti parka 0,97, a između parka i muzeja 0,92.
Tako su kao rezultat analize otkrivene ovisnosti: jak stupanj inverzne linearne veze između posjećenosti muzeja i broja sunčanih dana i gotovo linearna (vrlo jaka direktna) veza između posjećenosti parka i vremenskih uvjeta. Postoji snažan obrnuti odnos između posjeta muzeju i parku.
Riža. 2. Rezultati izračuna korelacijske matrice iz primjera 2
Zadatak 3. Procijenjeno je 10 menadžera metodom ekspertnih procjena psiholoških karakteristika ličnosti menadžera. 15 stručnjaka procijenilo je svaku psihološku karakteristiku sustavom od pet točaka (vidi tablicu 4). Psihologa zanima pitanje odnosa između ovih osobina vođe.
Tablica 4. Rezultati istraživanja
Predmeti |
takt |
zahtjevnost |
kritično |
S korelacijskom vezom ista vrijednost jedne karakteristike odgovara različitim vrijednostima druge. Na primjer: postoji korelacija između visine i težine, između učestalosti zloćudnih novotvorina i dobi itd.
Postoje 2 metode za izračunavanje koeficijenta korelacije: metoda kvadrata (Pearson), metoda rangova (Spearman).
Najtočnija je metoda kvadrata (Pearson), u kojoj se koeficijent korelacije određuje formulom: , gdje je
r xy je koeficijent korelacije između statističkih serija X i Y.
d x je odstupanje svakog od brojeva statističke serije X od njegove aritmetičke sredine.
d y je odstupanje svakog od brojeva statističke serije Y od njegove aritmetičke sredine.
Ovisno o jačini veze i njenom smjeru, koeficijent korelacije može biti u rasponu od 0 do 1 (-1). Koeficijent korelacije 0 označava potpuni nedostatak veze. Što je razina korelacijskog koeficijenta bliža 1 ili (-1), to je odgovarajuća izravna ili povratna veza koju mjeri veća i točnije. Kada je koeficijent korelacije jednak 1 ili (-1), veza je potpuna i funkcionalna.
Shema za ocjenu jakosti korelacije pomoću koeficijenta korelacije
Snaga veze |
Vrijednost korelacijskog koeficijenta ako je dostupan |
|
izravna veza (+) | ||
Nema veze | ||
Veza je mala (slaba) |
od 0 do +0,29 |
od 0 do –0,29 |
Prosječna veza (umjerena) |
od +0,3 do +0,69 |
od –0,3 do –0,69 |
Veza je velika (jaka) |
od +0,7 do +0,99 |
od –0,7 do –0,99 |
Puna komunikacija (funkcionalno) |
Za izračun koeficijenta korelacije kvadratnom metodom sastavlja se tablica od 7 stupaca. Pogledajmo postupak izračuna na primjeru:
ODREDITE SNAGU I PRIRODU VEZE IZMEĐU
Vrijeme je- nost gušavost (V g ) |
d x = V x –M x |
d y= V g –M g |
d x d g |
d x 2 |
d g 2 |
|
Σ -1345 ,0 |
Σ 13996 ,0 |
Σ 313 , 47 |
1. Odredite prosječni sadržaj joda u vodi (u mg/l).
mg/l
2. Odrediti prosječnu učestalost guše u %.
3. Odredite odstupanje svakog V x od M x, tj. dx.
201–138=63; 178–138=40 itd.
4. Slično, određujemo odstupanje svakog V y od M y, t.j. d g.
0,2–3,8=-3,6; 0,6–38=-3,2, itd.
5. Odredite umnoške odstupanja. Zbrojimo dobiveni proizvod i dobijemo.
6. Kvadriramo d x i zbrojimo rezultate, dobivamo.
7. Slično, kvadriramo d y, zbrajamo rezultate, dobivamo
8. Na kraju, sve primljene iznose zamijenimo formulom:
Da biste riješili pitanje pouzdanosti koeficijenta korelacije, odredite ga prosječna greška prema formuli:
(Ako je broj opažanja manji od 30, tada je nazivnik n–1).
U našem primjeru
Vrijednost koeficijenta korelacije smatra se pouzdanom ako je najmanje 3 puta veća od svoje prosječne pogreške.
U našem primjeru
Dakle, koeficijent korelacije nije pouzdan, što zahtijeva povećanje broja opažanja.
Koeficijent korelacije može se odrediti na nešto manje točan, ali mnogo lakši način - metodom rangova (Spearman).
Spearmanova metoda: P=1-(6∑d 2 /n-(n 2 -1))
napravite dva reda uparenih usporedivih značajki, označavajući prvi i drugi red x odnosno y. U ovom slučaju, predstavite prvi red karakteristike u silaznom ili rastućem redoslijedu, a brojčane vrijednosti drugog retka postavite nasuprot vrijednostima prvog retka kojima odgovaraju
vrijednost obilježja u svakoj od uspoređivanih serija zamijeniti rednim brojem (rangom). Rangovi, odnosno brojevi, označavaju mjesta pokazatelja (vrijednosti) prvog i drugog reda. pri čemu brojčane vrijednosti druge karakteristike, rangovi se moraju dodijeliti istim redoslijedom koji je usvojen prilikom dodjele vrijednostima prve karakteristike. S identičnim vrijednostima obilježja u nizu, rangove treba odrediti kao prosječni broj iz zbroja rednih brojeva tih vrijednosti
odredite razliku u rangu između x i y (d): d = x - y
kvadrirajte dobivenu rang razliku (d 2)
dobiti zbroj kvadrata razlike (Σ d 2) i zamijeniti dobivene vrijednosti u formulu:
Primjer: Metodom rangiranja utvrditi smjer i snagu veze između godina radnog iskustva i učestalosti ozljeda ako se dobiju sljedeći podaci:
Obrazloženje odabira metode: Za rješavanje problema može se odabrati samo metoda korelacija ranga, jer Prvi redak atributa “radno iskustvo u godinama” ima otvorene opcije (radno iskustvo do 1 godine i 7 i više godina), što ne dopušta korištenje točnije metode – metode kvadrata – za uspostavu veze između uspoređivanih karakteristika.
Riješenje. Redoslijed izračuna prikazan je u tekstu, rezultati su prikazani u tablici. 2.
tablica 2
Radno iskustvo u godinama |
Broj ozljeda |
Redni brojevi (činovi) |
Razlika u rangu |
Kvadratna razlika rangova |
|
d(x-y) |
d 2 |
||||
Svaki od redova uparenih karakteristika označen je s "x" i "y" (stupci 1-2).
Vrijednost svakog obilježja zamjenjuje se rang (rednim) brojem. Redoslijed raspodjele rangova u retku "x" je sljedeći: minimalnoj vrijednosti atributa (iskustvo do 1 godine) dodjeljuje se redni broj "1", sljedeće varijante istog retka atributa, redom, u rastući redoslijed, 2., 3., 4. i 5. redni broj - redovi (vidi stupac 3). Sličan redoslijed slijedi kada se raspodjeljuju rangovi drugom atributu "y" (stupac 4). U slučajevima kada postoji nekoliko opcija jednake veličine (na primjer, u standardnom problemu to su 12 i 12 ozljeda na 100 radnika sa iskustvom od 3-4 godine i 5-6 godina, serijski broj je označen prosječnim brojem od zbroja njihovih rednih brojeva. Pri rangiranju podaci o broju ozljeda (12 ozljeda) trebaju zauzeti 2 i 3 mjesta, pa je njihov prosječni broj (2 + 3)/2 = 2,5 ozljeda je “12” (atribut) trebaju biti raspoređeni isti brojevi ranga - “2,5” (stupac 4).
Odredite razliku ranga d = (x - y) - (stupac 5)
Kvadrirajte razliku rangova (d 2) i dobijete zbroj kvadrata razlike rangova Σ d 2 (stupac 6).
Izračunajte koeficijent korelacije ranga pomoću formule:
gdje je n broj parova opcija koje se uspoređuju u retku "x" i retku "y"