Биографии Характеристики Анализ

Коефициент на корелация в excel. Как се прави корелацията в Excel? Матрица на коефициенти на двойна корелация в Excel

Количествена характеристикавръзките могат да бъдат получени чрез изчисляване на коефициента на корелация.

Корелационен анализ в Excel

Самата функция има обща форма CORREL(масив1, масив2). В полето "Array1" въведете координатите на диапазона от клетки на една от стойностите, чиято зависимост трябва да се определи. Както можете да видите, коефициентът на корелация под формата на число се появява в клетката, която избрахме по-рано. Отваря се прозорец с параметри за корелационен анализ. За разлика от предишния метод, в полето "Input interval" ние въвеждаме интервала не за всяка колона поотделно, а за всички колони, които участват в анализа. Както можете да видите, приложението Excel предлага два метода за анализ на корелация наведнъж.

диаграма на корелация в excel

6) Първият елемент от финалната таблица ще се появи в горната лява клетка на избраната област. Следователно хипотезата H0 се отхвърля, тоест параметрите на регресията и коефициентът на корелация не са произволно различни от нула, а са статистически значими. 7. Получените оценки на регресионното уравнение ни позволяват да го използваме за прогнозиране.

Как да изчислим коефициента на корелация в Excel

Ако коефициентът е 0, това показва, че няма връзка между стойностите. За да намерите връзката между променливите и y, използвайте вградената функция на Microsoft Excel "CORREL". Например, за "Array1" изберете y стойностите, а за "Array2" изберете x стойностите. В резултат на това ще получите изчисления от програмата коефициент на корелация. След това трябва да изчислите разликата между всеки x и xav и yav. В избраните клетки пишете формули x-x, y-. Не забравяйте да фиксирате клетки със средни стойности. Полученият резултат ще бъде желаният коефициент на корелация.

Горната формула за изчисляване на коефициента на Пиърсън показва колко трудоемък е този процес, ако се извършва ръчно. Второ, моля, препоръчайте какъв вид корелационен анализ може да се използва за различни проби с голямо разсейване на данните? Как мога да докажа статистически разликата между групата над 60 и всички останали?

Направи си сам: Изчисляване на валутни корелации с помощта на Excel

Ние например използваме Microsoft Excel, но всяка друга програма, която може да използва формулата за корелация, ще свърши работа. 7. След това изберете клетките с данни за EUR/USD. 9. Натиснете Enter, за да изчислите коефициента на корелация за EUR/USD и USD/JPY. Не си струва да актуализирате числата всеки ден (е, освен ако не сте обсебени от валутните корелации).

Вече сте се сблъсквали с необходимостта да изчислите степента на връзката между две статистикаи да се определи формулата, по която те корелират? За да направя това, използвах функцията CORREL (CORREL) - тук има малко информация за нея. Той връща степента на корелация между два диапазона данни. Теоретично корелационната функция може да бъде прецизирана чрез преобразуването й от линейна в експоненциална или логаритмична. Анализът на данните и корелационните графики може да подобри значително неговата надеждност.

Да предположим, че клетка B2 съдържа самия коефициент на корелация, клетка B3 съдържа броя на пълните наблюдения. Имате ли рускоезичен офис?Между другото открих и грешка - значимостта не се изчислява за отрицателни корелации. Ако и двете променливи са метрични и имат нормална дистрибуция, значи изборът е правилен. И, възможно ли е да се характеризира критерият за сходство на кривите, използвайки само един QC? Нямате приликата на "кривите", а сходството на две серии, които по принцип могат да бъдат описани с крива.

Срещали ли сте вече необходимостта да изчислите степента на връзката между две статистически величини и да определите формулата, по която те корелират? Нормален човекможе да се запита защо това изобщо може да е необходимо. Колкото и да е странно, това наистина е необходимо. Познаването на надеждни корелации може да ви помогне да направите състояние, ако сте, да речем, борсов търговец. Проблемът е, че по някаква причина никой не разкрива тези корелации (изненадващо, нали?).

Да ги преброим сами! Например реших да се опитам да изчисля корелацията на рублата спрямо долара през еврото. Нека да видим как се прави това в детайли.

Тази статия е предназначена за напреднало ниво на познания по Microsoft Excel. Ако нямате време да прочетете цялата статия, можете да изтеглите файла и да се справите сами.

Ако често се налага да правите нещо подобноСилно препоръчвам да помислите за закупуването на книгата. Статистически изчисления в Excel.

Какво е важно да знаем за корелациите

За да се изчисли надеждна корелация, е необходимо да има надеждна извадка, колкото по-голяма е тя, толкова по-надежден ще бъде резултатът. За целите на този пример взех ежедневна извадка от обменни курсове за 10 години. Данните са свободно достъпни, взех ги от сайта http://oanda.com.

Какво всъщност направих

(1) Когато имах оригиналните си данни, започнах с проверка на степента на корелация между двата набора от данни. За да направя това, използвах функцията CORREL (CORREL) - има малко информация за нея. Той връща степента на корелация между два диапазона данни. Резултатът, честно казано, не беше особено впечатляващ (само около 70%). Като цяло степента на корелация между две стойности се счита за квадрат на тази стойност, тоест корелацията се оказа надеждна с приблизително 49%. Това е много малко!

(2) Стори ми се много странно. Какви грешки биха могли да се вмъкнат в изчисленията ми? Затова реших да построя графика и да видя какво може да се случи. Диаграмата беше поддържана проста нарочно, разбита по години, за да можете визуално да видите къде се прекъсва корелацията. Графиката изглежда така

(3) От графиката е очевидно, че в диапазона от около 35 рубли за евро, корелацията започва да се разпада на две части. Поради това тя се оказа ненадеждна. Трябваше да се определи във връзка с това, което се случва.

(4) Цветът показва, че тези данни се отнасят за 2007, 2008, 2009 г. Разбира се! Периодите на икономически пикове и рецесии обикновено не са статистически надеждни, което се е случило през този случай. Затова се опитах да изключа тези периоди от данните (е, за проверка проверих степента на корелация на данните в този период). Степента на корелация само на тези данни е 0,01%, тоест отсъства по принцип. Но без тях данните корелират с приблизително 81%. Това вече е доста надеждна корелация. Ето графика с функция.

Следващи стъпки

Теоретично корелационната функция може да бъде прецизирана чрез преобразуването й от линейна в експоненциална или логаритмична. При което статистическа валидносткорелацията нараства с около един процент, но сложността на прилагането на формулата се увеличава неимоверно. Затова за себе си задавам въпроса: наистина ли е необходимо? Вие решавате - за всеки конкретен случай.

Забележете!Решението на вашия конкретен проблем ще изглежда подобно този пример, включително всички таблици и обяснителни текстове по-долу, но като се вземат предвид вашите първоначални данни ...

задача:
Има свързана извадка от 26 двойки стойности (x k,y k):

к 1 2 3 4 5 6 7 8 9 10
x k 25.20000 26.40000 26.00000 25.80000 24.90000 25.70000 25.70000 25.70000 26.10000 25.80000
y k 30.80000 29.40000 30.20000 30.50000 31.40000 30.30000 30.40000 30.50000 29.90000 30.40000

к 11 12 13 14 15 16 17 18 19 20
x k 25.90000 26.20000 25.60000 25.40000 26.60000 26.20000 26.00000 22.10000 25.90000 25.80000
y k 30.30000 30.50000 30.60000 31.00000 29.60000 30.40000 30.70000 31.60000 30.50000 30.60000

к 21 22 23 24 25 26
x k 25.90000 26.30000 26.10000 26.00000 26.40000 25.80000
y k 30.70000 30.10000 30.60000 30.50000 30.70000 30.80000

Необходимо е да се изчисли/построи:
- коефициент на корелация;
- тестване на хипотезата за зависимостта на случайните променливи X и Y, при ниво на значимост α = 0,05;
- коефициенти на уравнение линейна регресия;
- диаграма на разсейване (корелационно поле) и регресионна линейна графика;

РЕШЕНИЕ:

1. Изчислете коефициента на корелация.

Коефициентът на корелация е индикатор за взаимното вероятностно влияние на две случайни величини. Коефициент на корелация Рможе да приема стойности от -1 преди +1 . Ако абсолютната стойност е по-близка до 1 , то това е доказателство силна връзкамежду стойности и ако е по-близо до 0 - тогава това показва слаба връзка или нейно отсъствие. Ако абсолютната стойност Рравно на единица, тогава можем да говорим за функционална връзка между величините, тоест една величина може да бъде изразена чрез друга с помощта на математическа функция.


Можете да изчислите коефициента на корелация, като използвате следните формули:
н
Σ
k = 1
(x k -M x) 2 , y 2 =
М х =
1
н
н
Σ
k = 1
x k , М г =

или по формулата

Rx,y =
M xy - M x M y
SxSy
(1.4), където:
М х =
1
н
н
Σ
k = 1
x k , М г =
1
н
н
Σ
k = 1
y k , Mxy =
1
н
н
Σ
k = 1
x k y k (1,5)
S x 2 =
1
н
н
Σ
k = 1
x k 2 - M x 2, S y 2 =
1
н
н
Σ
k = 1
y k 2 - M y 2 (1.6)

На практика формула (1.4) се използва по-често за изчисляване на коефициента на корелация, тъй като изисква по-малко изчисления. Въпреки това, ако ковариацията е била предварително изчислена cov(X,Y), тогава е по-изгодно да се използва формула (1.1), тъй като в допълнение към действителната стойност на ковариацията, можете да използвате и резултатите от междинните изчисления.

1.1 Изчислете коефициента на корелация по формулата (1.4), за това изчисляваме стойностите x k 2 , y k 2 и x k y k и ги въвеждаме в таблица 1.

маса 1


к
x k y k x k 2 y k 2 x ky k
1 2 3 4 5 6
1 25.2 30.8 635.04000 948.64000 776.16000
2 26.4 29.4 696.96000 864.36000 776.16000
3 26.0 30.2 676.00000 912.04000 785.20000
4 25.8 30.5 665.64000 930.25000 786.90000
5 24.9 31.4 620.01000 985.96000 781.86000
6 25.7 30.3 660.49000 918.09000 778.71000
7 25.7 30.4 660.49000 924.16000 781.28000
8 25.7 30.5 660.49000 930.25000 783.85000
9 26.1 29.9 681.21000 894.01000 780.39000
10 25.8 30.4 665.64000 924.16000 784.32000
11 25.9 30.3 670.81000 918.09000 784.77000
12 26.2 30.5 686.44000 930.25000 799.10000
13 25.6 30.6 655.36000 936.36000 783.36000
14 25.4 31 645.16000 961.00000 787.40000
15 26.6 29.6 707.56000 876.16000 787.36000
16 26.2 30.4 686.44000 924.16000 796.48000
17 26 30.7 676.00000 942.49000 798.20000
18 22.1 31.6 488.41000 998.56000 698.36000
19 25.9 30.5 670.81000 930.25000 789.95000
20 25.8 30.6 665.64000 936.36000 789.48000
21 25.9 30.7 670.81000 942.49000 795.13000
22 26.3 30.1 691.69000 906.01000 791.63000
23 26.1 30.6 681.21000 936.36000 798.66000
24 26 30.5 676.00000 930.25000 793.00000
25 26.4 30.7 696.96000 942.49000 810.48000
26 25.8 30.8 665.64000 948.64000 794.64000


1.2. Изчисляваме M x по формула (1.5).

1.2.1. x k

x 1 + x 2 + ... + x 26 = 25,20000 + 26,40000 + ... + 25,80000 = 669,500000

1.2.2.

669.50000 / 26 = 25.75000

M x = 25,750000

1.3. По същия начин изчисляваме M y.

1.3.1. Нека добавим всички елементи последователно y k

y 1 + y 2 + … + y 26 = 30,80000 + 29,40000 + ... + 30,80000 = 793,000000

1.3.2. Разделете получената сума на броя на пробните елементи

793.00000 / 26 = 30.50000

M y = 30,500000

1.4. По същия начин изчисляваме M xy.

1.4.1. Добавяме последователно всички елементи от 6-та колона на таблица 1

776.16000 + 776.16000 + ... + 794.64000 = 20412.830000

1.4.2. Разделете получената сума на броя на елементите

20412.83000 / 26 = 785.10885

M xy = 785,108846

1.5. Изчислете стойността на S x 2 по формулата (1.6.).

1.5.1. Добавяме последователно всички елементи от 4-та колона на таблица 1

635.04000 + 696.96000 + ... + 665.64000 = 17256.910000

1.5.2. Разделете получената сума на броя на елементите

17256.91000 / 26 = 663.72731

1.5.3. Извадете от последното число квадрата на стойността M x, получаваме стойността за S x 2

S x 2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481

1.6. Изчислете стойността на S y 2 по формулата (1.6.).

1.6.1. Добавяме последователно всички елементи от 5-та колона на таблица 1

948.64000 + 864.36000 + ... + 948.64000 = 24191.840000

1.6.2. Разделете получената сума на броя на елементите

24191.84000 / 26 = 930.45538

1.6.3. Извадете от последното число квадрата на M y , получаваме стойността за S y 2

S y 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538

1.7. Нека изчислим произведението на S x 2 и S y 2.

S x 2 S y 2 = 0,66481 0,20538 = 0,136541

1.8. Извлечете последното число Корен квадратен, получаваме стойността S x S y.

S x S y = 0,36951

1.9. Изчислете стойността на коефициента на корелация по формулата (1.4.).

R = (785.10885 - 25.75000 30.50000) / 0.36951 = (785.10885 - 785.37500) / 0.36951 = -0.72028

ОТГОВОР: Rx,y = -0,720279

2. Проверяваме значимостта на коефициента на корелация (проверяваме хипотезата на зависимостта).

Тъй като оценката на коефициента на корелация се изчислява върху крайна извадка и следователно може да се отклонява от общата й стойност, е необходимо да се провери значимостта на коефициента на корелация. Проверката се извършва по t-критерия:

t =
Rx,y
n - 2
1 - R 2 x,y
(2.1)

Случайна стойност тследва t-разпределението на Стюдент и според таблицата на t-разпределението е необходимо да се намери критичната стойност на критерия (t cr.α) при дадено ниво на значимост α . Ако модулът t, изчислен по формула (2.1), се окаже по-малък от t cr.α , тогава зависимостите между случайни променливи X и Y не са. В противен случай експерименталните данни не противоречат на хипотезата за зависимостта на случайните величини.


2.1. Изчисляваме стойността на t-критерия по формулата (2.1) получаваме:
t =
-0.72028
26 - 2
1 - (-0.72028) 2
= -5.08680

2.2. Да определим критичната стойност на параметъра t cr.α от таблицата на t-разпределението

Желаната стойност t kr.α се намира в пресечната точка на реда, съответстващ на броя на степените на свобода, и колоната, съответстваща на дадено ниво на значимост α .
В нашия случай броят на степените на свобода е n - 2 = 26 - 2 = 24 и α = 0.05 , което съответства на критичната стойност на критерия t cr.α = 2.064 (виж таблица 2)

таблица 2 t-разпределение

Брой степени на свобода
(n - 2)
α = 0,1 α = 0,05 α = 0,02 α = 0,01 α = 0,002 α = 0,001
1 6.314 12.706 31.821 63.657 318.31 636.62
2 2.920 4.303 6.965 9.925 22.327 31.598
3 2.353 3.182 4.541 5.841 10.214 12.924
4 2.132 2.776 3.747 4.604 7.173 8.610
5 2.015 2.571 3.365 4.032 5.893 6.869
6 1.943 2.447 3.143 3.707 5.208 5.959
7 1.895 2.365 2.998 3.499 4.785 5.408
8 1.860 2.306 2.896 3.355 4.501 5.041
9 1.833 2.262 2.821 3.250 4.297 4.781
10 1.812 2.228 2.764 3.169 4.144 4.587
11 1.796 2.201 2.718 3.106 4.025 4.437
12 1.782 2.179 2.681 3.055 3.930 4.318
13 1.771 2.160 2.650 3.012 3.852 4.221
14 1.761 2.145 2.624 2.977 3.787 4.140
15 1.753 2.131 2.602 2.947 3.733 4.073
16 1.746 2.120 2.583 2.921 3.686 4.015
17 1.740 2.110 2.567 2.898 3.646 3.965
18 1.734 2.101 2.552 2.878 3.610 3.922
19 1.729 2.093 2.539 2.861 3.579 3.883
20 1.725 2.086 2.528 2.845 3.552 3.850
21 1.721 2.080 2.518 2.831 3.527 3.819
22 1.717 2.074 2.508 2.819 3.505 3.792
23 1.714 2.069 2.500 2.807 3.485 3.767
24 1.711 2.064 2.492 2.797 3.467 3.745
25 1.708 2.060 2.485 2.787 3.450 3.725
26 1.706 2.056 2.479 2.779 3.435 3.707
27 1.703 2.052 2.473 2.771 3.421 3.690
28 1.701 2.048 2.467 2.763 3.408 3.674
29 1.699 2.045 2.462 2.756 3.396 3.659
30 1.697 2.042 2.457 2.750 3.385 3.646
40 1.684 2.021 2.423 2.704 3.307 3.551
60 1.671 2.000 2.390 2.660 3.232 3.460
120 1.658 1.980 2.358 2.617 3.160 3.373
1.645 1.960 2.326 2.576 3.090 3.291


2.2. Нека сравним абсолютната стойност на t-критерия и t cr.α

Абсолютна стойност t-критерият не е по-малък от критичния t = 5,08680, tcr.α = 2,064, следователно експериментални данни, с вероятност 0,95(1 - α ), не противоречат на хипотезатана зависимостта на случайните променливи X и Y.

3. Изчисляваме коефициентите на уравнението на линейната регресия.

Уравнението за линейна регресия е уравнение на права линия, което апроксимира (приблизително описва) връзката между произволни променливи X и Y. Ако приемем, че X е свободен и Y е зависим от X, тогава уравнението на регресията ще бъде записано, както следва


Y = a + b X (3.1), където:

b=Rx,y
г
σ x
= Rx,y
Sy
S x
(3.2),
a = M y - b M x (3.3)

Коефициентът, изчислен по формула (3.2) бсе нарича коефициент на линейна регресия. В някои източници аНаречен постоянен коефициентрегресия и бспоред променливите.

Грешките при прогнозиране Y за дадена стойност X се изчисляват по формулите:

Стойността σ y/x (формула 3.4) също се нарича остатъчно стандартно отклонение, той характеризира отклонението на Y от линията на регресия, описана с уравнение (3.1) при фиксирана (дадена) стойност на X.

.
S y 2 / S x 2 = 0,20538 / 0,66481 = 0,30894. Извличаме квадратния корен от последното число - получаваме:
S y / S x = 0,55582

3.3 Изчислете коефициента bпо формула (3.2)

б = -0.72028 0.55582 = -0.40035

3.4 Изчислете коефициента aпо формула (3.3)

а = 30.50000 - (-0.40035 25.75000) = 40.80894

3.5 Оценете грешките на регресионното уравнение.

3.5.1 Извличаме квадратния корен от S y 2 и получаваме:

= 0.31437
3.5.4 Изчислете относителна грешкапо формула (3.5)

δy/x = (0,31437 / 30,50000)100% = 1,03073%

4. Изграждаме диаграма на разсейване (корелационно поле) и графика на линията на регресия.

Диаграмата на разсейване е графично изображениесъответни двойки (x k , y k ) под формата на точки от равнината, в правоъгълни координатис оси X и Y. Корелационното поле е едно от графични изображениясвързана (сдвоена) проба. В същата координатна система се нанася и графиката на регресионната линия. Мащабите и изходните точки по осите трябва да бъдат избрани внимателно, така че диаграмата да е възможно най-ясна.

4.1. Откриваме, че минималният и максималният елемент на извадката X е съответно 18-ти и 15-ти елемент, x min = 22,10000 и x max = 26,60000.

4.2. Откриваме, че минималният и максималният елемент на извадката Y е съответно 2-ри и 18-ти елемент, y min = 29.40000 и y max = 31.60000.

4.3. По оста на абсцисата избираме началната точка точно вляво от точката x 18 = 22,10000 и такъв мащаб, че точката x 15 = 26,60000 да пасне на оста и другите точки да са ясно разграничени.

4.4. На оста y избираме началната точка точно вляво от точката y 2 = 29,40000 и такъв мащаб, че точката y 18 = 31,60000 да пасне на оста и другите точки да са ясно разграничени.

4.5. По оста на абсцисата поставяме стойностите x k , а по оста на ординатата поставяме стойностите y k .

4.6. Поставяме точки (x 1, y 1), (x 2, y 2), ..., (x 26, y 26 ) върху координатна равнина. Получаваме диаграма на разсейване (поле на корелация), показана на фигурата по-долу.

4.7. Нека начертаем регресионна линия.

За да направим това, намираме две различни точкис координати (x r1 , y r1) и (x r2 , y r2), удовлетворяващи уравнение (3.6), ги поставяме в координатната равнина и начертаваме линия през тях. Да вземем x min = 22,10000 като абсцисата на първата точка. Заместваме стойността на x min в уравнение (3.6), получаваме ординатата на първата точка. По този начин имаме точка с координати (22.10000, 31.96127). По същия начин получаваме координатите на втората точка, като задаваме стойността x max = 26.60000 като абсцисата. Втората точка ще бъде: (26.60000, 30.15970).

Линията на регресия е показана на фигурата по-долу в червено

Моля, имайте предвид, че линията на регресия винаги минава през точката на средните стойности на X и Y, т.е. с координати (M x , M y).

ЛАБОРАТОРНА РАБОТА

КОРЕЛАЦИОНЕН АНАЛИЗ ВEXCEL

1.1 Корелационен анализв MS Excel

Корелационният анализ се състои в определяне на степента на свързаност между две случайни променливи X и Y. Като мярка за такава връзка се използва коефициентът на корелация. Коефициентът на корелация се изчислява от извадка от обема n от свързани двойки наблюдения (x i , y i) от общата генерална съвкупност X и Y. За да се оцени степента на връзката между X и Y, измерена в количествени скали, ние използваме коефициент на линейна корелация(коефициент на Пиърсън), като се приеме, че извадките X и Y са разпределени по нормалния закон.

Коефициентът на корелация варира от -1 (строга обратна линейна връзка) до 1 (строга пряко пропорционална връзка). При стойност 0 няма линейна връзка между двете проби.

Обща класификация на корелациите (според Ивантер Е.В., Коросов А.В., 1992 г.):

Има няколко вида коефициенти на корелация, в зависимост от променливите X и Y, които могат да бъдат измерени в различни скали. Именно този факт определя избора на подходящия коефициент на корелация (виж Таблица 13):

В MS Excel се използва специална функция за изчисляване на сдвоени коефициенти на линейна корелация CORREL(масив1; масив2),

тестови субекти

където масив1 е препратка към диапазона от клетки от първата селекция (X);

Пример 1:На 10 ученици бяха поставени тестове за нагледно-образно и словесно мислене. Средното време за решаване на тестови задачи се измерва в секунди. Изследователят се интересува от въпроса: има ли връзка между времето на решаване на тези проблеми? Променливата X означава средното време за решаване на визуално-фигуративни тестове, а променливата Y означава средното време за решаване на вербални задачи от тестове.

Р Решение:За да се определи степента на връзка, на първо място е необходимо да се въведат данни в таблицата на MS Excel (виж Таблица, Фиг. 1). След това се изчислява стойността на коефициента на корелация. За да направите това, поставете курсора в клетка C1. В лентата с инструменти щракнете върху бутона Вмъкване на функция (fx).

В диалоговия прозорец Function Wizard, който се показва, изберете категория Статистическии функция CORREL, след което щракнете върху OK. Използвайте показалеца на мишката, за да въведете примерния диапазон от данни X в полето array1 (A1:A10). В полето array2 въведете примерния диапазон от данни Y (B1:B10). Щракнете върху OK. В клетка C1 ще се появи стойността на коефициента на корелация - 0,54119. След това трябва да разгледате абсолютния брой на коефициента на корелация и да определите вида на връзката (близка, слаба, средна и т.н.)

Ориз. 1. Резултати от изчисляване на коефициента на корелация

Така не е доказана връзката между времето на решаване на визуално-образни и словесни задачи на теста.

Упражнение 1.Налични са данни за 20 земеделски стопанства. Да намеря коефициент на корелациямежду добивите на зърнените култури и качеството на земята и да оцени нейното значение. Данните са дадени в таблицата.

Таблица 2. Зависимост на добива на зърнени култури от качеството на земята

номера на къщата

Качество на земята, оценка

Производителност, c/ha


Задача 2.Определете дали има връзка между времето за работа на спортната фитнес машина (хиляда часа) и цената на нейния ремонт (хиляда рубли):

Време за работа на симулатора (хиляда часа)

Цена на ремонт (хиляда рубли)

1.2 Множествена корелация в MS Excel

В големи числанаблюдения, когато коефициентите на корелация трябва да бъдат изчислени последователно за няколко проби, за удобство, получените коефициенти се обобщават в таблици, наречени корелационни матрици.

Корелационна матрицае квадратна таблица, в която в пресечната точка на съответните редове и колони са коефициентите на корелация между съответните параметри.

В MS Excel процедурата се използва за изчисляване на корелационни матрици корелацияот опаковката Анализ на данни.Процедурата дава възможност да се получи корелационна матрица, съдържаща коефициенти на корелация между различни параметри.

За да приложите процедурата, трябва:

1. команда за изпълнение Обслужване - Анализ данни;

2. в списъка, който се показва Инструменти за анализизберете ред Корелацияи натиснете бутона Добре;

3. В диалоговия прозорец, който се показва, посочете интервал на въвеждане, тоест въведете връзка към клетките, съдържащи анализираните данни. Интервалът за въвеждане трябва да съдържа поне две колони.

4. раздел групиранезадайте превключвателя според въведените данни (по колони или по редове);

5. посочват почивен ден интервал, тоест въведете препратка към клетката, от която ще се покажат резултатите от анализа. Размерът на изходния диапазон ще бъде определен автоматично и на екрана ще се покаже съобщение, ако изходният диапазон може да се припокрива с изходните данни. Натисни бутона Добре.

В изходния диапазон ще се покаже корелационна матрица, в която в пресечната точка на всеки ред и колона има коефициент на корелация между съответните параметри. Клетките в изходния диапазон, които имат едни и същи координати на редове и колони, съдържат стойност 1, тъй като всяка колона във входния диапазон е напълно корелирана със себе си

Пример 2Налични са месечни данни за наблюдения на метеорологичните условия и посещения на музеи и паркове (виж Таблица 3). Необходимо е да се установи дали има връзка между състоянието на времето и посещаемостта на музеи и паркове.

Таблица 3. Резултати от наблюденията

Брой ясни дни

Брой посетители на музея

Брой посетители на парка

Решение. За да извършите корелационен анализ, въведете изходните данни в диапазона A1:G3 (фиг. 2). След това в менюто ОбслужванеИзбери предмет Анализ даннии след това добавете реда Корелация. В диалоговия прозорец, който се показва, въведете интервал на въвеждане(A2:C7). Посочете данните да се разглеждат по колони. Задайте изходния диапазон (E1) и натиснете бутона Добре.

На фиг. 33 се вижда, че корелацията между метеорологичните условия и посещаемостта на музея е -0,92, а между метеорологичните условия и парковата посещаемост - 0,97, между парковата и музейната посещаемост - 0,92.

Така в резултат на анализа бяха разкрити зависимости: силна обратна линейна връзка между посещаемостта на музея и броя на слънчевите дни и почти линейна (много силна пряка) връзка между посещаемостта на парка и метеорологичните условия. Съществува силна обратна връзка между посещаемостта на музея и парка.

Ориз. 2. Резултати от изчисляване на корелационната матрица от пример 2

Задача 3. 10 мениджъри бяха оценени по методика на експертни оценки на психологическите характеристики на личността на лидера. 15 експерти оценяват всяка психологическа характеристика по петобална система (виж Таблица 4). Психологът се интересува от въпроса в каква връзка са тези характеристики на лидера помежду си.

Таблица 4. Резултати от изследването

Субекти p / p

такт

взискателност

критично

С корелацияедна и съща стойност на единия атрибут съответства на различни стойности на другия. Например: има връзка между ръст и тегло, между честота на злокачествени новообразувания и възраст и т.н.

Има 2 метода за изчисляване на коефициента на корелация: методът на квадратите (Pearson), методът на ранговете (Spearman).

Най-точен е методът на квадратите (Pearson), при който коефициентът на корелация се определя по формулата: , където

r xy е коефициентът на корелация между статистическите серии X и Y.

d x е отклонението на всяко от числата на статистическия ред X от неговото средноаритметично.

d y е отклонението на всяко от числата на статистическия ред Y от неговото средно аритметично.

В зависимост от силата на връзката и нейната посока, коефициентът на корелация може да варира от 0 до 1 (-1). Коефициент на корелация 0 показва пълна липса на връзка. Колкото по-близо е нивото на коефициента на корелация до 1 или (-1), толкова по-голямо е съответно, толкова по-близо е директната или обратната връзка, измерена от него. С коефициент на корелация, равен на 1 или (-1), връзката е пълна, функционална.

Схема за оценка на силата на корелацията по коефициента на корелация

Сила на връзката

Стойността на коефициента на корелация, ако е наличен

директна връзка (+)

обратна връзка (-)

Няма връзка

Комуникацията е малка (слаба)

от 0 до +0,29

0 до -0,29

Комуникация средна (умерена)

+0,3 до +0,69

-0,3 до -0,69

Комуникация голяма (силна)

+0,7 до +0,99

-0,7 до -0,99

Комуникацията е завършена

(функционален)

За изчисляване на коефициента на корелация по метода на квадратите се съставя таблица от 7 колони. Нека анализираме процеса на изчисление с помощта на пример:

ОПРЕДЕЛЕТЕ СИЛАТА И ПРИРОДА НА ВРЪЗКАТА МЕЖДУ

Време е-

ност

гуша

(V г )

д x= V хМ х

д y= V гМ г

д х д г

д х 2

д г 2

Σ -1345 ,0

Σ 13996 ,0

Σ 313 , 47

1. Определете средното съдържание на йод във вода (в mg / l).

mg/l

2. Определете средната честота на гуша в%.

3. Определете отклонението на всяко V x от M x, т.е. d x .

201–138=63; 178–138=40 и т.н.

4. По същия начин определяме отклонението на всеки V y от M y, т.е. д

0,2–3,8=-3,6; 0,6–38=-3,2 и т.н.

5. Определяме продуктите на отклоненията. Полученият продукт се сумира и се получава.

6. Извеждаме на квадрат d x и обобщаваме резултатите, получаваме.

7. По същия начин квадратираме d y, обобщаваме резултатите, получаваме

8. Накрая заместваме всички получени суми във формулата:

За решаване на въпроса за надеждността на коефициента на корелация се определя той средна грешкапо формулата:

(Ако броят на наблюденията е по-малък от 30, тогава знаменателят е n-1).

В нашия пример

Стойността на коефициента на корелация се счита за надеждна, ако е поне 3 пъти по-висока от средната му грешка.

В нашия пример

Следователно коефициентът на корелация не е надежден, което налага увеличаване на броя на наблюденията.

Коефициентът на корелация може да бъде определен по малко по-малко точен, но много по-лесен начин, методът на ранга (Spearman).

Метод на Спирман: P=1-(6∑d 2 /n-(n 2 -1))

направете два реда сдвоени сравнени характеристики, обозначавайки първия и втория ред, съответно, x и y. В същото време представете първия ред на атрибута в низходящ или възходящ ред и поставете числовите стойности на втория ред срещу тези стойности на първия ред, на които отговарят

стойността на характеристиката във всеки от сравняваните редове трябва да бъде заменена със сериен номер (ранг). Ранговете или числата показват местата на индикаторите (стойностите) на първия и втория ред. При което числови стойностина втория атрибут, ранговете трябва да бъдат присвоени в същия ред, който е приет при разпределянето им към стойностите на първия атрибут. При едни и същи стойности на атрибута в серията, ранговете трябва да се определят като средно число от сбора на редовите номера на тези стойности

определете разликата в ранговете между x и y (d): d = x - y

квадрат на получената разлика в ранга (d 2)

вземете сумата от квадратите на разликата (Σ d 2) и заменете получените стойности във формулата:

пример:използвайки метода на ранга за установяване на посоката и силата на връзката между стажа в години и честотата на нараняванията, ако се получат следните данни:

Обосновка за избора на метод:за решаване на проблема може да се избере само методът рангова корелация, защото първият ред на атрибута "трудов стаж в години" има отворени опции (трудов стаж до 1 година и 7 или повече години), което не позволява използването на по-точен метод - метода на квадратите - за установяване на връзка между сравнени характеристики.

Решение. Последователността на изчисленията е описана в текста, резултатите са представени в табл. 2.

таблица 2

Трудов стаж в години

Брой наранявания

Редни числа (рангове)

Разлика в ранга

разлика в ранга на квадрат

d(x-y)

д 2

Всеки от редовете сдвоени знаци се обозначава с "x" и с "y" (колони 1-2).

Стойността на всеки от знаците се заменя с ранг (пореден) номер. Редът на разпределение на ранговете в серията "x" е както следва: минималната стойност на атрибута (опит до 1 година) се присвоява пореден номер "1", последващите варианти на същата серия на атрибута, респ. , в нарастващ ред на 2-ри, 3-ти, 4-ти и 5-ти поредни номера - рангове (виж колона 3). Подобен ред се наблюдава и при разпределяне на ранговете към втория признак "y" (колона 4). В случаите, когато има няколко варианта с еднакъв размер (например в стандартната задача това са 12 и 12 наранявания на 100 работници с опит 3-4 години и 5-6 години), серийният номер се обозначава с средния брой от сбора на поредните им номера. Тези данни за броя на нараняванията (12 наранявания) в класацията трябва да заемат 2 и 3 места, така че средният брой от тях е (2 + 3) / 2 = 2,5. ) трябва да разпределят едни и същи числа в класирането - "2,5" (колона 4).

Определете разликата в ранговете d = (x - y) - (колона 5)

Квадратура на разликата в ранговете (d 2) и получаване на сбора от квадратите на разликата в ранговете Σ d 2 (колона 6).

Изчислете коефициента на корелация на ранга, като използвате формулата:

където n е броят на съвпадащите двойки опции в ред "x" и ред "y"