Біографії Характеристики Аналіз

Коефіцієнт кореляції ексель. Як кореляція в Excel? Матриця парних коефіцієнтів кореляції в Excel

Кількісна характеристикавзаємозв'язку можна отримати при обчисленні коефіцієнта кореляції.

Кореляційний аналіз у Excel

Сама функція має загальний виглядКорел (масив1; масив2). У полі «Масив1» вводимо координати діапазону осередків одного із значень, залежність якого слід визначити. Як бачимо, коефіцієнт кореляції у вигляді числа з'являється в заздалегідь вибраному комірці. Відкривається вікно із параметрами кореляційного аналізу. На відміну від попереднього способу, у полі "Вхідний інтервал" ми вводимо інтервал не кожного стовпця окремо, а всіх стовпців, які беруть участь у аналізі. Як бачимо, програма Ексель пропонує відразу два способи кореляційного аналізу.

Графік кореляції в excel

6) У лівому верхньому осередку виділеної області з'явиться перший елемент підсумкової таблиці. Тому гіпотеза Н0 відхиляється, тобто параметри регресії та коефіцієнт кореляції не випадково відрізняються від нуля, а статистично значущі. 7. Отримані оцінки рівняння регресії дають змогу використовувати його для прогнозу.

Як розрахувати коефіцієнт кореляції в Excel

Якщо коефіцієнт дорівнює 0, це свідчить, що взаємозв'язок між значеннями відсутня. Щоб знайти взаємозв'язок між змінними та у, скористайтеся вбудованою функцією Microsoft Excel «КОРРЕЛ». Наприклад, для "Масив1" виділіть значення у, а для "Масив2" виділіть значення х. У результаті ви отримаєте розрахований програмою коефіцієнт кореляції. Далі необхідно обчислити різницю між кожним x і xср, y yср. У вибраних осередках напишіть формули x-x, y-. Не забудьте закріпити комірки із середніми значеннями. Отриманий результат і буде шуканим коефіцієнтом кореляції.

Наведена вище формула розрахунку коефіцієнта Пірсона, показує наскільки трудомісткий цей процес, якщо виконувати його вручну. Друге, порекомендуйте, будь ласка, який вид кореляційного аналізу можна використовувати для різних вибірок із великим розкидом даних? Як мені статистично довести достовірність відмінностей між групою старше 60 років та рештою?

Зроби сам: обчислення кореляцій валют із використанням Excel

Ми, наприклад, використовуємо Microsoft Excel, але підійде будь-яка інша програма, в якій можна використовувати кореляційну формулу. 7.Після цього виділіть комірки з даними по EUR/USD. 9. Натисніть Enter для того, щоб вирахувати коефіцієнт кореляції для EUR/USD та USD/JPY. Оновлювати цифри щодня не варто (ну, хіба ви одержимі кореляціями валюти).

Ви вже стикалися з необхідністю розрахувати ступінь зв'язку двох статистичних величинта визначити формулу, за якою вони корелюють? Для цього я скористався функцією CORREL (КОРРЕЛ) – про неї є небагато інформації тут. Вона повертає рівень кореляції двох діапазонів даних. Теоретично, функцію кореляції можна уточнити, якщо перевести її з лінійної до експоненційної або логарифмічної. Аналіз даних та графіків кореляції дозволяє покращити її достовірність дуже суттєво.

Припустимо, в комірці В2 знаходиться сам коефіцієнт кореляції, в комірці В3 кількість повних спостережень. У Вас російськомовний офіс? До речі, знайшов і помилку – значимість не обчислюється для негативних кореляцій. Якщо обидві змінні метричні та мають нормальний розподіл, то вибір зроблено правильно. І, чи можна, характеризувати критерій схожості кривих лише по одному КК? У Вас не схожість «кривих», а схожість двох рядів, яка в принципі може описуватися кривою.

Ви вже стикалися з необхідністю розрахувати рівень зв'язку двох статистичних величин і визначити формулу, за якою вони корелюють? Нормальна людинаможе запитати, навіщо це взагалі може бути потрібне. Як не дивно, це дійсно потрібно. Знання достовірних кореляцій може допомогти вам заробляти шалені гроші, якщо ви, скажімо, біржовий трейдер. Проблема в тому, що чомусь ці кореляції ніхто не розкриває (дивно, чи не так?).

Давайте порахуємо їх самі! Наприклад, я вирішив спробувати порахувати кореляцію рубля до долара через євро. Давайте розберемо, як це робиться докладно.

Ця стаття розрахована на сучасний рівень володіння Microsoft Excel. Якщо у вас немає часу, щоб читати всю статтю, ви можете завантажити файл і розібратися з ним самостійно.

Якщо ви часто стикаєтеся з необхідністю зробити щось подібне, настійно рекомендую подумати про покупку книги Статистичні обчислення в середовищі Excel.

Що важливо знати про кореляції

Щоб розрахувати достовірну кореляцію, необхідно мати достовірну вибірку, що більше вона буде, то достовірнішим буде результат. Для цілей цього прикладу я взяв щоденну вибірку курсів валют за 10 років. Дані є у вільному доступі, я їх брав із сайту http://oanda.com.

Що я, власне, зробив

(1) Коли я мав вихідні дані, я почав з того, що перевірив ступінь кореляції цих двох наборів даних. Для цього я скористався функцією CORREL (КОРРЕЛ) - про неї є небагато інформації. Вона повертає рівень кореляції двох діапазонів даних. Результат, прямо скажемо, вийшов не дуже вражаючим (всього близько 70%). А взагалі, ступінь співвідношення двох величин прийнято вважати, як квадрат цієї величини, тобто кореляція вийшла достовірною приблизно на 49%. Це дуже мало!

(2) Мені це здалося дуже дивним. Які помилки могли закрастись у мої розрахунки? Тому я вирішив побудувати графік та подивитися, що могло статися. Графік був простоєний спеціально з розбивкою за роками, щоб можна було візуально побачити, де рве кореляцію. Графік вийшов ось таким

(3) З графіка очевидно, що у діапазоні близько 35 рублів за євро кореляцію починає рвати дві частини. Через це вона і вийшла недостовірною. Необхідно було визначити у зв'язку із чим це відбувається.

(4) За кольором видно, що ці дані відносяться до 2007, 2008, 2009 років. Звісно! Періоди економічних піків та спадів зазвичай недостовірні статистично, що й сталося у даному випадку. Тому я спробував виключити з даних ці періоди (і для перевірки, я перевірив ступінь кореляції даних у цьому періоді). Ступінь кореляції цих даних становить 0.01%, тобто вона відсутня в принципі. Проте без них дані корелюють приблизно на 81%. Це вже достовірна кореляція. Ось графік із функцією.

Подальші кроки

Теоретично, функцію кореляції можна уточнити, якщо перевести її з лінійної до експоненційної або логарифмічної. При цьому статистична достовірністькореляції зростає приблизно один відсоток, але складність застосування формули підвищується неймовірно. Тому для себе я ставлю питання: а чи це потрібно насправді? Вирішувати вам – для кожного конкретного випадку.

Зауважте!Рішення вашого конкретного завдання буде виглядати аналогічно даному прикладу, включаючи всі таблиці та пояснюючі тексти, представлені нижче, але з урахуванням ваших вихідних даних.

Завдання:
Є пов'язана вибірка з 26 пар значень (х k, y k):

k 1 2 3 4 5 6 7 8 9 10
x k 25.20000 26.40000 26.00000 25.80000 24.90000 25.70000 25.70000 25.70000 26.10000 25.80000
y k 30.80000 29.40000 30.20000 30.50000 31.40000 30.30000 30.40000 30.50000 29.90000 30.40000

k 11 12 13 14 15 16 17 18 19 20
x k 25.90000 26.20000 25.60000 25.40000 26.60000 26.20000 26.00000 22.10000 25.90000 25.80000
y k 30.30000 30.50000 30.60000 31.00000 29.60000 30.40000 30.70000 31.60000 30.50000 30.60000

k 21 22 23 24 25 26
x k 25.90000 26.30000 26.10000 26.00000 26.40000 25.80000
y k 30.70000 30.10000 30.60000 30.50000 30.70000 30.80000

Потрібно обчислити/побудувати:
- Коефіцієнт кореляції;
- перевірити гіпотезу залежності випадкових величин X і Y, при рівні значущості α = 0.05;
- Коефіцієнти рівняння лінійної регресії;
- діаграму розсіювання (кореляційне поле) та графік лінії регресії;

РІШЕННЯ:

1. Обчислюємо коефіцієнт кореляції.

Коефіцієнт кореляції – це показник взаємного імовірнісного впливу двох випадкових величин. Коефіцієнт кореляції Rможе приймати значення від -1 до +1 . Якщо абсолютне значення знаходиться ближче до 1 , то це свідчення сильного зв'язкуміж величинами, а якщо ближче до 0 - те, це говорить про слабкий зв'язок або його відсутність. Якщо абсолютне значення Rі одиниці, то можна говорити про функціональний зв'язок між величинами, тобто одну величину можна виразити через іншу за допомогою математичної функції.


Обчислити коефіцієнт кореляції можна за такими формулами:
n
Σ
k = 1
(x k -M x) 2 , σ y 2 =
M x =
1
n
n
Σ
k = 1
x k , M y =

або за формулою

R x,y =
M xy - M x M y
S x S y
(1.4), де:
M x =
1
n
n
Σ
k = 1
x k , M y =
1
n
n
Σ
k = 1
y k , M xy =
1
n
n
Σ
k = 1
x k y k (1.5)
S x 2 =
1
n
n
Σ
k = 1
x k 2 - M x 2 S y 2 =
1
n
n
Σ
k = 1
y k 2 - M y 2 (1.6)

Насправді, для обчислення коефіцієнта кореляції частіше використовується формула (1.4) т.к. вона потребує менше обчислень. Однак якщо попередньо було вираховано коваріацію cov(X,Y), то вигідніше використати формулу (1.1), т.к. Крім власне значення коваріації можна скористатися і результатами проміжних обчислень.

1.1 Обчислимо коефіцієнт кореляції за формулою (1.4)для цього обчислимо значення x k 2 , y k 2 і x k y k і занесемо їх до таблиці 1.

Таблиця 1


k
x k y k х k 2 y k 2 х ky k
1 2 3 4 5 6
1 25.2 30.8 635.04000 948.64000 776.16000
2 26.4 29.4 696.96000 864.36000 776.16000
3 26.0 30.2 676.00000 912.04000 785.20000
4 25.8 30.5 665.64000 930.25000 786.90000
5 24.9 31.4 620.01000 985.96000 781.86000
6 25.7 30.3 660.49000 918.09000 778.71000
7 25.7 30.4 660.49000 924.16000 781.28000
8 25.7 30.5 660.49000 930.25000 783.85000
9 26.1 29.9 681.21000 894.01000 780.39000
10 25.8 30.4 665.64000 924.16000 784.32000
11 25.9 30.3 670.81000 918.09000 784.77000
12 26.2 30.5 686.44000 930.25000 799.10000
13 25.6 30.6 655.36000 936.36000 783.36000
14 25.4 31 645.16000 961.00000 787.40000
15 26.6 29.6 707.56000 876.16000 787.36000
16 26.2 30.4 686.44000 924.16000 796.48000
17 26 30.7 676.00000 942.49000 798.20000
18 22.1 31.6 488.41000 998.56000 698.36000
19 25.9 30.5 670.81000 930.25000 789.95000
20 25.8 30.6 665.64000 936.36000 789.48000
21 25.9 30.7 670.81000 942.49000 795.13000
22 26.3 30.1 691.69000 906.01000 791.63000
23 26.1 30.6 681.21000 936.36000 798.66000
24 26 30.5 676.00000 930.25000 793.00000
25 26.4 30.7 696.96000 942.49000 810.48000
26 25.8 30.8 665.64000 948.64000 794.64000


1.2. Обчислимо M x за формулою (1.5).

1.2.1. x k

x 1 + x 2 + … + x 26 = 25.20000 + 26.40000 + ... + 25.80000 = 669.500000

1.2.2.

669.50000 / 26 = 25.75000

M x = 25.750000

1.3. Аналогічним чином обчислимо M y.

1.3.1. Складемо послідовно всі елементи y k

y 1 + y 2 + … + y 26 = 30.80000 + 29.40000 + ... + 30.80000 = 793.000000

1.3.2. Розділимо отриману суму на кількість елементів вибірки

793.00000 / 26 = 30.50000

M y = 30.500000

1.4. Аналогічно обчислимо M xy.

1.4.1. Складемо послідовно всі елементи 6-го стовпця таблиці 1

776.16000 + 776.16000 + ... + 794.64000 = 20412.830000

1.4.2. Розділимо отриману суму на кількість елементів

20412.83000 / 26 = 785.10885

M xy = 785.108846

1.5. Обчислимо значення S x 2 за формулою (1.6).

1.5.1. Складемо послідовно всі елементи 4-го стовпця таблиці 1

635.04000 + 696.96000 + ... + 665.64000 = 17256.910000

1.5.2. Розділимо отриману суму на кількість елементів

17256.91000 / 26 = 663.72731

1.5.3. Віднімемо з останнього числа квадрат величини M x отримаємо значення для S x 2

S x 2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481

1.6. Обчислимо значення S y 2 за формулою (1.6).

1.6.1. Складемо послідовно всі елементи 5-го стовпця таблиці 1

948.64000 + 864.36000 + ... + 948.64000 = 24191.840000

1.6.2. Розділимо отриману суму на кількість елементів

24191.84000 / 26 = 930.45538

1.6.3. Віднімемо з останнього числа квадрат величини M y отримаємо значення для S y 2

S y 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538

1.7. Обчислимо добуток величин S x 2 і S y 2.

S x 2 S y 2 = 0.66481 0.20538 = 0.136541

1.8. Витягнемо і останнього числа квадратний корінь, Отримаємо значення S x S y.

S x S y = 0.36951

1.9. Обчислимо значення коефіцієнта кореляції за формулою (1.4).

R = (785.10885 - 25.75000 30.50000) / 0.36951 = (785.10885 - 785.37500) / 0.36951 = -0.72028

ВІДПОВІДЬ: R x, y = -0.720279

2. Перевіряємо значущість коефіцієнта кореляції (перевіряємо гіпотезу залежності).

Оскільки оцінка коефіцієнта кореляції обчислена кінцевої вибірці, і тому може відхилятися від свого генерального значення, необхідно перевірити значущість коефіцієнта кореляції. Перевірка проводиться за допомогою t-критерію:

t =
R x,y
n - 2
1 - R 2 x,y
(2.1)

Випадкова величина tслід t-розподілу Стьюдента і по таблиці t-розподілу необхідно знайти критичне значення критерію (t кр. α) за заданого рівня значущості α. Якщо обчислене за формулою (2.1) t за модулем виявиться менше ніж t кр.α, то залежності між випадковими величинами X та Y немає. В іншому випадку експериментальні дані не суперечать гіпотезі про залежність випадкових величин.


2.1. Обчислимо значення t-критерію за формулою (2.1) отримаємо:
t =
-0.72028
26 - 2
1 - (-0.72028) 2
= -5.08680

2.2. Визначимо за таблицею t-розподілу критичне значення параметра t кр.

Шукане значення t кр.α розташовується на перетині рядка, що відповідає числу ступенів свободи і стовпця, що відповідає заданому рівню значимості α.
У нашому випадку число ступенів свободи є n - 2 = 26 - 2 = 24 та α = 0.05 , Що відповідає критичному значенню критерію t кр. 2.064 (Див. табл. 2)

Таблиця 2 t-розподіл

Число ступенів свободи
(n - 2)
α = 0.1 α = 0.05 α = 0.02 α = 0.01 α = 0.002 α = 0.001
1 6.314 12.706 31.821 63.657 318.31 636.62
2 2.920 4.303 6.965 9.925 22.327 31.598
3 2.353 3.182 4.541 5.841 10.214 12.924
4 2.132 2.776 3.747 4.604 7.173 8.610
5 2.015 2.571 3.365 4.032 5.893 6.869
6 1.943 2.447 3.143 3.707 5.208 5.959
7 1.895 2.365 2.998 3.499 4.785 5.408
8 1.860 2.306 2.896 3.355 4.501 5.041
9 1.833 2.262 2.821 3.250 4.297 4.781
10 1.812 2.228 2.764 3.169 4.144 4.587
11 1.796 2.201 2.718 3.106 4.025 4.437
12 1.782 2.179 2.681 3.055 3.930 4.318
13 1.771 2.160 2.650 3.012 3.852 4.221
14 1.761 2.145 2.624 2.977 3.787 4.140
15 1.753 2.131 2.602 2.947 3.733 4.073
16 1.746 2.120 2.583 2.921 3.686 4.015
17 1.740 2.110 2.567 2.898 3.646 3.965
18 1.734 2.101 2.552 2.878 3.610 3.922
19 1.729 2.093 2.539 2.861 3.579 3.883
20 1.725 2.086 2.528 2.845 3.552 3.850
21 1.721 2.080 2.518 2.831 3.527 3.819
22 1.717 2.074 2.508 2.819 3.505 3.792
23 1.714 2.069 2.500 2.807 3.485 3.767
24 1.711 2.064 2.492 2.797 3.467 3.745
25 1.708 2.060 2.485 2.787 3.450 3.725
26 1.706 2.056 2.479 2.779 3.435 3.707
27 1.703 2.052 2.473 2.771 3.421 3.690
28 1.701 2.048 2.467 2.763 3.408 3.674
29 1.699 2.045 2.462 2.756 3.396 3.659
30 1.697 2.042 2.457 2.750 3.385 3.646
40 1.684 2.021 2.423 2.704 3.307 3.551
60 1.671 2.000 2.390 2.660 3.232 3.460
120 1.658 1.980 2.358 2.617 3.160 3.373
1.645 1.960 2.326 2.576 3.090 3.291


2.2. Порівняємо абсолютне значення t-критерію і t кр.

Абсолютне значення t-критерію не менше критичного t = 5.08680, t кр.α = 2.064, отже експериментальні дані, із ймовірністю 0.95(1 - α), не суперечать гіпотезіпро залежність випадкових величин X та Y.

3. Обчислюємо коефіцієнти рівняння лінійної регресії.

Рівняння лінійної регресії є рівнянням прямої, апроксимуючої (приблизно описує) залежність між випадковими величинами X і Y. Якщо вважати, що величина X вільна, а Y залежна від Х, то рівняння регресії запишеться наступним чином


Y = a + b X (3.1), де:

b =R x,y
σ y
σ x
= R x,y
S y
S x
(3.2),
a = M y - b M x (3.3)

Розрахований за формулою (3.2) коефіцієнт bназивають коефіцієнтом лінійної регресії. У деяких джерелах aназивають постійним коефіцієнтомрегресії та bвідповідно змінним.

Похибки передбачення Y за заданим значенням X обчислюються за формулами:

Величину σ y/x (формула 3.4) ще називають залишковим середнім квадратичним відхиленням, Воно характеризує відхід величини Y від лінії регресії, що описується рівнянням (3.1), при фіксованому (заданому) значенні X.

.
S y 2 / S x 2 = 0.20538/0.66481 = 0.30894. Витягнемо з останнього числа квадратний корінь - отримаємо:
S y / S x = 0.55582

3.3 Обчислимо коефіцієнт bза формулою (3.2)

b = -0.72028 0.55582 = -0.40035

3.4 Обчислимо коефіцієнт aза формулою (3.3)

a = 30.50000 - (-0.40035 25.75000) = 40.80894

3.5 Оцінимо похибки рівняння регресії.

3.5.1 Виймемо із S y 2 квадратний корінь отримаємо:

= 0.31437
3.5.4 Обчислимо відносну похибкуза формулою (3.5)

δ y/x = (0.31437 / 30.50000) 100% = 1.03073%

4. Будуємо діаграму розсіювання (кореляційне поле) та графік лінії регресії.

Діаграма розсіювання – це графічне зображеннявідповідних пар (x k , y k ) у вигляді точок площини, прямокутних координатахз осями X і Y. Кореляційне поле є одним з графічних уявленьпов'язаної (парної) вибірки. У тій системі координат будується і графік лінії регресії. Слід ретельно вибрати масштаби та початкові точки на осях, щоб діаграма була максимально наочною.

4.1. Знаходимо мінімальний та максимальний елемент вибірки X це 18-й та 15-й елементи відповідно, x min = 22.10000 та x max = 26.60000.

4.2. Знаходимо мінімальний та максимальний елемент вибірки Y це 2-й та 18-й елементи відповідно, y min = 29.40000 та y max = 31.60000.

4.3. На осі абсцис вибираємо початкову точку трохи лівіше від точки x 18 = 22.10000, і такий масштаб, щоб на осі помістилася точка x 15 = 26.60000 і чітко розрізнялися інші точки.

4.4. На осі ординат вибираємо початкову точку трохи лівіше від точки y 2 = 29.40000, і такий масштаб, щоб на осі помістилася точка y 18 = 31.60000 і чітко розрізнялися інші точки.

4.5. На осі абсцис розміщуємо значення x k , але в осі ординат значення y k .

4.6. Наносимо крапки (x 1 , y 1 ), (x 2 , y 2 ),…,(x 26 , y 26 ) координатну площину. Отримуємо діаграму розсіювання (кореляційне поле), зображене нижче.

4.7. Накреслимо лінію регресії.

Для цього знайдемо дві різні точкиз координатами (x r1 , y r1) і (x r2 , y r2), що задовольняють рівняння (3.6), нанесемо їх на координатну площину і проведемо через них пряму. Як абсцис першої точки візьмемо значення x min = 22.10000. Підставимо значення x min у рівняння (3.6), отримаємо ординату першої точки. Таким чином маємо точку з координатами (22.10000, 31.96127). Аналогічним чином отримаємо координати другої точки, поклавши як абсцис значення x max = 26.60000. Друга точка буде: (26.60000, 30.15970).

Лінія регресії показана на малюнку нижче червоним кольором

Зверніть увагу, що лінія регресії проходить через точку середніх значень величин Х і Y, тобто. з координатами (M x , M y).

ЛАБОРАТОРНА РОБОТА

КОРЕЛЯЦІЙНИЙ АНАЛІЗ ВEXCEL

1.1 Кореляційний аналізу MS Excel

Кореляційний аналіз полягає у визначенні ступеня зв'язку між двома випадковими величинами X і Y. Як захід такого зв'язку використовується коефіцієнт кореляції. Коефіцієнт кореляції оцінюється за вибіркою обсягу п пов'язаних пар спостережень (x i , y i) із спільної генеральної сукупності X та Y. Для оцінки ступеня взаємозв'язку величин X та Y, виміряних у кількісних шкалах, використовується коефіцієнт лінійної кореляції(Коефіцієнт Пірсона), що передбачає, що вибірки X і Y розподілені за нормальним законом.

Коефіцієнт кореляції змінюється від -1 (сувора зворотна лінійна залежність) до 1 (сувора пряма пропорційна залежність). За значення 0 лінійної залежності між двома вибірками немає.

Загальна класифікація кореляційних зв'язків (за Івантером Е.В., Коросову А.В., 1992):

Існує кілька типів коефіцієнтів кореляції, що залежить від змінних Х і Y, які можуть бути виміряні у різних шкалах. Саме цей факт і визначає вибір відповідного коефіцієнта кореляції (див. табл. 13):

У MS Excel для обчислення парних коефіцієнтів лінійної кореляції використовується спеціальна функція Корел (масив1; масив2),

випробуваних

де масив1 – посилання діапазон осередків першої вибірки (X);

Приклад 1: 10 школярам було дано тести на наочно-образне та вербальне мислення. Вимірювалося середній час вирішення завдань тесту в секундах. Дослідника цікавить питання: чи існує взаємозв'язок між часом вирішення цих завдань? Змінна X - позначає середній час розв'язання наочно-подібних, а змінна Y - середній час розв'язання вербальних завдань тестів.

Р рішення:Для виявлення ступеня взаємозв'язку насамперед необхідно ввести дані в таблицю MS Excel (див. табл., рис. 1). Потім обчислюється значення коефіцієнта кореляції. Для цього курсор встановіть у комірку C1. На панелі інструментів натисніть кнопку Вставка функції (fx).

У діалоговому вікні Майстер функцій виберіть категорію Статистичніта функцію Корел, після чого натисніть кнопку ОК. Вказівником миші введіть діапазон даних вибірки Х у полі масив1 (А1: А10). У полі масив2 введіть діапазон даних вибірки (В1:В10). Натисніть кнопку ОК. У комірці С1 з'явиться значення коефіцієнта кореляції – 0,54119. Далі необхідно подивитися на абсолютну кількість коефіцієнта кореляції та визначити тип зв'язку (тісний, слабкий, середній і т.д.)

Рис. 1. Результати обчислення коефіцієнта кореляції

Таким чином, зв'язок між часом вирішення наочно-образних та вербальних завдань тесту не доведений.

Завдання 1.Є дані щодо 20 сільськогосподарських господарств. Знайти коефіцієнт кореляціїміж величинами врожайності зернових культур та якістю землі та оцінити його значимість. Дані наведені у таблиці.

Таблиця 2. Залежність урожайності зернових культур від якості землі

Номер господарства

Якість землі, бал

Врожайність, ц/га


Завдання 2.Визначте, чи є зв'язок між часом роботи спортивного тренажера для фітнесу (тис. годин) та вартість його ремонту (тис. руб.):

Час роботи тренажера (тис. годин)

Вартість ремонту (тис. руб.)

1.2 Множинна кореляція в MS Excel

При великому числіспостережень, коли коефіцієнти кореляції необхідно послідовно обчислювати для кількох вибірок, для зручності одержувані коефіцієнти зводять таблиці, звані кореляційними матрицями.

Кореляційна матриця- це квадратна таблиця, у якій перетині відповідних рядків і стовпців перебувають коефіцієнт кореляції між відповідними параметрами.

У MS Excel для обчислення кореляційних матриць використовується процедура Кореляціяз пакета Аналіз даних.Процедура дозволяє отримати кореляційну матрицю, яка містить коефіцієнти кореляції між різними параметрами.

Для реалізації процедури необхідно:

1. виконати команду Сервіс - Аналіз даних;

2. у списку Інструменти аналізувибрати рядок Кореляціята натиснути кнопку ОК;

3. у діалоговому вікні, що з'явилося. Вхідний інтервалтобто ввести посилання на комірки, що містять аналізовані дані. Вхідний інтервал повинен містити не менше двох стовпців.

4. у розділі Угрупованняперемикач встановити відповідно до введених даних (по стовпцям або рядкам);

5. вказати вихідний інтервалтобто ввести посилання на комірку, починаючи з якої будуть показані результати аналізу. Розмір вихідного діапазону буде визначено автоматично, і на екрані буде виведено повідомлення у разі можливого накладання вихідного діапазону на вихідні дані. Натиснути кнопку ОК.

У вихідний діапазон буде виведено кореляційну матрицю, в якій на перетині кожних рядки та стовпця знаходиться коефіцієнт кореляції між відповідними параметрами. Осередки вихідного діапазону, що мають збігаються координати рядків і стовпців, містять значення 1, оскільки кожен стовпець у вхідному діапазоні повністю корелює сам із собою

приклад 2.Є щомісячні дані спостережень за станом погоди та відвідуваністю музеїв та парків (див. табл. 3). Необхідно визначити, чи існує взаємозв'язок між станом погоди та відвідуваністю музеїв та парків.

Таблиця 3. Результати спостережень

Число ясних днів

Кількість відвідувачів музею

Кількість відвідувачів парку

Рішення. Для кореляційного аналізу введіть у діапазон A1:G3 вихідні дані (рис. 2). Потім у меню Сервісвиберіть пункт Аналіз данихі далі вкажіть рядок Кореляція. У діалоговому вікні вкажіть Вхідний інтервал(А2: С7). Вкажіть, що дані розглядаються стовпцями. Вкажіть вихідний діапазон (Е1) та натисніть кнопку ОК.

На рис. 33 видно, що кореляція між станом погоди та відвідуваністю музею дорівнює -0,92, а між станом погоди та відвідуваністю парку – 0,97, між відвідуваністю парку та музею – 0,92.

Таким чином, в результаті аналізу виявлено залежності: сильний ступінь зворотного лінійного взаємозв'язку між відвідуваністю музею та кількістю сонячних днів та практично лінійний (дуже сильний прямий) зв'язок між відвідуваністю парку та станом погоди. Між відвідуваністю музею та парку є сильний зворотний зв'язок.

Рис. 2. Результати обчислення кореляційної матриці прикладу 2

Завдання 3. 10 менеджерів оцінювалися за методикою експертних оцінок психологічних характеристик особистості керівника. 15 експертів проводили оцінку кожної психологічної характеристики за п'ятибальною системою (див. табл. 4). Психолога цікавить питання, у якому взаємозв'язку перебувають ці характеристики керівника між собою.

Таблиця 4. Результати дослідження

Піддослідні п/п

тактовність

вимогливість

критичність

При кореляційному зв'язкуоднієї й тієї величині однієї ознаки відповідають різні величини іншого. Наприклад: між зростанням і вагою є кореляційний зв'язок, між захворюваністю на злоякісні новоутворення віком і т.д.

Існує 2 методи обчислення коефіцієнта кореляції: метод квадратів (Пірсона), метод рангів (Спірмена).

Найбільш точним є метод квадратів (Пірсона), при якому коефіцієнт кореляції визначається за формулою: , де

r ху - коефіцієнт кореляції між статистичним рядом X і Y.

d х - відхилення кожного з чисел статистичного ряду X від своєї середньої арифметичної.

d у ― відхилення кожного з чисел статистичного ряду Y від своєї середньої арифметичної.

Залежно від сили зв'язку та її спрямування коефіцієнт кореляції може перебувати в межах від 0 до 1 (-1). Коефіцієнт кореляції, що дорівнює 0, говорить про повну відсутність зв'язку. Чим ближче рівень коефіцієнта кореляції до 1 або (-1), тим більше, тісніше вимірювана їм пряма чи зворотний зв'язок. При коефіцієнті кореляції рівному 1 або (-1) зв'язок повний, функціональний.

Схема оцінки сили кореляційного зв'язку за коефіцієнтом кореляції

Сила зв'язку

Величина коефіцієнта кореляції за наявності

прямого зв'язку (+)

зворотнього зв'язку (-)

Зв'язок відсутній

Зв'язок малий (слабкий)

від 0 до +0,29

від 0 до -0,29

Зв'язок середній (помірний)

від +0,3 до +0,69

від -0,3 до -0,69

Зв'язок великий (сильний)

від +0,7 до +0,99

від -0,7 до -0,99

Зв'язок повний

(функціональна)

Для обчислення коефіцієнта кореляції методом квадратів складається таблиця з 7 колонок. Розберемо процес обчислення з прикладу:

ВИЗНАЧИТИ СИЛУ І ХАРАКТЕР ЗВ'ЯЗКУ МІЖ

Час-

ність

зобом

(V y )

d x = V xM x

d y = V yM y

d x d y

d x 2

d y 2

Σ -1345 ,0

Σ 13996 ,0

Σ 313 , 47

1. Визначаємо середній вміст йоду у воді (мг/л).

мг/л

2.Визначаємо середню ураженість зобом у %.

3. Визначаємо відхилення кожного V x від М x, тобто. d x.

201-138 = 63; 178-138 = 40 і т.д.

4. Аналогічно визначаємо відхилення кожного V від M у, тобто. d у.

0,2-3,8 = -3,6; 0,6-38 = -3,2 і т.д.

5. Визначаємо твори відхилень. Отриманий твір підсумовуємо та отримуємо.

6. d х зводимо у квадрат і результати підсумовуємо, отримуємо.

7. Аналогічно зводимо у квадрат d у, результати підсумовуємо, отримаємо

8. Нарешті всі отримані суми підставляємо у формулу:

Для вирішення питання щодо достовірності коефіцієнта кореляції визначають його середню помилкуза формулою:

(Якщо число спостережень менше 30, тоді у знаменнику n-1).

У нашому прикладі

Величина коефіцієнта кореляції вважається достовірною, якщо не менше ніж у 3 рази перевищує свою середню помилку.

У нашому прикладі

Таким чином, коефіцієнт кореляції не є достовірним, що викликає необхідність збільшення числа спостережень.

Коефіцієнт кореляції можна визначити дещо менш точним, але набагато легшим способом методом рангів (Спірмена).

Метод Спірмена: P=1-(6∑d 2 /n-(n 2 -1))

скласти два ряди з парних зіставних ознак, позначивши перший і другий ряд відповідно х і у. У цьому уявити перший ряд ознаки у спадному чи зростаючому порядку, а числові значення другого ряду розташувати навпроти тих значень першого ряду, яким вони відповідають

величину ознаки у кожному з порівнюваних рядів замінити порядковим номером (рангом). Рангами, чи номерами, позначають місця показників (значення) першого і другого рядів. При цьому числовим значеннямдругий ознаки ранги повинні присвоюватися в тому ж порядку, який був прийнятий при роздачі їх величин першої ознаки. При однакових величинах ознаки ряду ранги слід визначати як середнє число із суми порядкових номерів цих величин

визначити різницю рангів між х та у (d): d = х - у

звести отриману різницю рангів у квадрат (d 2)

отримати суму квадратів різниці (Σ d 2) та підставити отримані значення у формулу:

Приклад:методом рангів встановити напрямок і силу зв'язку між стажем роботи у роках та частотою травм, якщо отримані такі дані:

Обґрунтування вибору методу:для вирішення задачі може бути обраний лише метод рангової кореляції, т.к. Перший ряд ознаки "стаж роботи у роках" має відкриті варіанти (стаж роботи до 1 року та 7 і більше років), що не дозволяє використовувати для встановлення зв'язку між зіставлюваними ознаками більш точний метод - метод квадратів.

Рішення. Послідовність розрахунків викладено у тексті, результати представлені у табл. 2.

Таблиця 2

Стаж роботи у роках

Число травм

Порядкові номери (ранги)

Різниця рангів

Квадрат різниці рангів

d(х-у)

d 2

Кожен із рядів парних ознак позначити через "х" і через "у" (графи 1-2).

Величину кожної з ознак замінити ранговим (порядковим) номером. Порядок роздачі рангів у ряді "x" наступний: мінімальному значенню ознаки (стаж до 1 року) присвоєно порядковий номер "1", наступним варіантам цього ж ряду ознаки відповідно до порядку збільшення 2-ї, 3-ї, 4-ї та 5-ї й порядкові номери – ранги (див. графу 3). Аналогічний порядок дотримується при роздачі рангів другий ознакою "у" (графа 4). У тих випадках, коли зустрічаються кілька однакових за величиною варіант (наприклад, у задачі-еталоні це 12 і 12 травм на 100 працюючих при стажі 3-4 роки та 5-6 років, порядковий номер позначити середнім числом із суми їх порядкових номерів. Ці дані про кількість травм (12 травм) при ранжируванні повинні займати 2 і 3 місця, таким чином середня кількість з них дорівнює (2 + 3) / 2 = 2,5. ) слід роздати рангові номери однакові – "2,5" (графа 4).

Визначити різницю рангів d = (х - у) - (графа 5)

Різницю рангів звести в квадрат (d 2) і отримати суму квадратів різниці рангів d 2 (графа 6).

Здійснити розрахунок коефіцієнта рангової кореляції за формулою:

де n - число зіставлюваних пар варіант у ряду "x" і в ряду "у"