Біографії Характеристики Аналіз

Перевірка гіпотез про рівність середніх значень. Гіпотеза про рівність двох середніх значень

3. ПЕРЕВІРКА ГІПОТЕЗИ ПРО РІВНІСТЬ СЕРЕДНІХ

Використовується для перевірки пропозиції про те, що середнє значення двох показників, представлених вибірками, значно різняться. Існує три різновиди критерію: один – для пов'язаних вибірок, і два для незв'язних вибірок (з однаковими та різними дисперсіями). Якщо вибірки не зв'язкові, попередньо потрібно перевірити гіпотезу про рівність дисперсій, щоб визначити, який із критеріїв використовувати. Так само як і у разі порівняння дисперсій є 2 способи розв'язання задачі, які розглянемо на прикладі.

ПРИКЛАД 3. є дані про кількість продажів товару у двох містах. Перевірити лише на рівні значимості 0,01 статистичну гіпотезу у тому, що середня кількість продажів товару містах по-різному.

23 25 23 22 23 24 28 16 18 23 29 26 31 19
22 28 26 26 35 20 27 28 28 26 22 29

Використовуємо пакет "Аналіз даних". Залежно від типу критерію вибирається один із трьох: "Парний двовибірковий t-тест для середніх" - для зв'язкових вибірок, і "Двовибіркових t-тест з однаковими дисперсіями" або "Двовибіркових t-тест з різними дисперсіями" - для незв'язних вибірок. Викличте тест з однаковими дисперсіями, у вікні, що відкрилося в полях «Інтервал змінної 1» і «Інтервал змінної 2» вводять посилання на дані (А1-N1 і А2-L2, відповідно), якщо є підписи даних, то ставлять прапорець у напису «Мітки »(у нас їх немає, тому прапорець не ставиться). Далі вводять рівень значущості у полі "Альфа" - 0,01. Поле «Гіпотетична середня різницю» залишають порожніми. У розділі «Параметри виводу» ставлять мітку біля «Вихідний інтервал» і помістивши курсор у полі навпроти напису, клацають лівою кнопкою в комірці В7. висновок результату буде здійснюватися починаючи з цього осередку. Натиснувши на "ОК", з'являється таблиця результату. Посуньте межу між стовпцями В і С, С і D, D і Е збільшивши ширину стовпців В, С і D так, щоб уміщалися всі написи. Процедура виводить основні характеристики вибірки, t-статистику, критичні значення цих статистик та критичні рівнізначимості «Р(Т<=t) одностороннее» и «Р(Т<=t) двухстороннее». Если по модулю t-статистика меньше критического, то средние показатели с заданной вероятностью равны. В нашем случае│-1,784242592│ < 2,492159469, следовательно, среднее число продаж значимо не отличается. Следует отметить, что если взять уровень значимости α=0,05, то результаты исследования будут совсем иными.



Двовибірковий t-тест з однаковими дисперсіями

Середнє 23,57142857 26,41666667
Дисперсія 17,34065934 15,35606061
Спостереження 14 12
Об'єднана дисперсія 16,43105159
Гіпотетична різниця середніх 0
df 24
t-статистика -1,784242592
P(T<=t) одностороннее 0,043516846
t критичне одностороннє 2,492159469
P(T<=t) двухстороннее 0,087033692
t критичне двостороннє 2,796939498

Лабораторна робота №3

ПАРНА ЛІНІЙНА РЕГРЕСІЯ

Мета: Освоїти методи побудови лінійного рівняння парної регресії за допомогою ЕОМ, навчитися отримувати та аналізувати основні характеристики регресійного рівняння.

Розглянемо методику побудови регресійного рівняння з прикладу.

ПРИКЛАД. Дано вибірки факторів х i і у i . За цими вибірками знайти рівняння лінійної регресії ỹ = ах + b. Знайти коефіцієнт парної кореляції. Перевірити лише на рівні значимості а = 0,05 регресійну модель адекватність.

Х 0 1 2 3 4 5 6 7 8 9
Y 6,7 6,3 4,4 9,5 5,2 4,3 7,7 7,1 7,1 7,9

Для знаходження коефіцієнтів a і b рівняння регресії служать функції НАКЛОН і ВІДРІЗОК категорії «Статистичні». Вводимо в А5 підпис «а=» а в сусідній осередок В5 вводимо функцію НАКЛОН, ставимо курсор у поле «Изв_знач_у» задаємо посилання на осередки В2-K2, обводячи їх мишею. Результат 0,14303. Знайдемо тепер коефіцієнт b. Вводимо в А6 підпис «b=», а В6 функцію ВІДРІЗОК з тими ж параметрами, що і функції НАКЛОН. Результат 5,976364. отже, рівняння лінійної регресії є у=0,14303х+5,976364.

Побудуємо графік рівняння регресії. Для цього в третій рядок таблиці введемо значення функції у заданих точках Х (перший рядок) - у (х 1). Для отримання цих значень використовують функцію ТЕНДЕНЦІЯ категорії «Статистичні». Вводимо А3 підпис «Y(X) і, помістивши курсор в В3, викликаємо функцію ТЕНДЕНЦІЯ. У полях «Ізв_знач_у» та «Ізв_знач_х» даємо посилання на В2-K2 і В1-K1. у полі «Нов_знач_х» також вводимо посилання на В1-K1. у полі «Константа» вводять 1, якщо рівняння регресії має вигляд y=ax+b, і 0, якщо у=ах. У разі вводимо одиницю. Функція ТЕНДЕНЦІЯ є масивом, тому виведення всіх її значень виділяємо область В3-K3 і натискаємо F2 і Ctrl+Shift+Enter. Результат – значення рівняння регресії у заданих точках. Будуємо графік. Ставимо курсор у будь-яку вільну клітинку, викликаємо майстер діаграм, вибираємо категорію «Точена», вид графіка – лінія без крапок (у нижньому правому кутку), натискаємо «Далі», у полі «Діагноз» вводимо посилання на В3-K3. переходимо на закладку "Ряд" і в полі "Значення Х" вводимо посилання на В1-K1, натискаємо "Готово". Результат – пряма лінія регресії. Подивимося, як розрізняються графіки дослідних даних та рівняння регресії. Для цього ставимо курсор у будь-яке вільне вічко, викликаємо майстер діаграм, категорія «Графік», вид графіка – ламана лінія з точками (друга зверху ліва), натискаємо «Далі», в поле «Діапазон» вводимо посилання на другий і третій рядки В2- K3. переходимо на закладку "Ряд" і в полі "Підписи осі Х" вводимо посилання на В1-K1, натискаємо "Готово". Результат – дві лінії (Синя – вихідні, червона – рівняння регресії). Видно, що лінії мало різняться між собою.

а= 0,14303
b= 5,976364

Для обчислення коефіцієнта кореляції r xy служить функція ПІРСОН. Розміщуємо графік так, щоб вони розташовувалися вище 25 рядка, і в А25 робимо підпис «Кореляція», В25 викликаємо функцію ПІРСОН, в полях якої «Масив 2» вводимо посилання на вихідні дані В1-K1 і В2-K2. результат 0,993821. коефіцієнт детермінації R xy – це квадрат коефіцієнта кореляції r xy. У А26 робимо підпис «Детермінація», а У26 – формулу «=В25*В25». Результат 0,265207.

Однак, у Excel існує одна функція, яка розраховує всі основні характеристики лінійної регресії. Це функція Лінейн. Ставимо курсор у В28 і викликаємо функцію Лінейн, категорії «Статистичні». У полях «Ізв_знач_у» та «Ізв_знач_х» даємо посилання на В2-K2 і В1-K1. поле «Константа» має той самий сенс, що й функції ТЕНДЕНЦІЯ, у нас вона дорівнює 1. поле «Стат» має містити 1, якщо потрібно вивести повну статистику про регресію. У нашому випадку ставимо туди одиницю. Функція повертає масив розмірів 2 стовпці та 5 рядків. Після введення виділяємо мишею комірку В28-С32 і натискаємо F2 та Ctrl+Shift+Enter. Результат - таблиця значень, числа в якій мають такий зміст:



Коефіцієнт а

Коефіцієнт b

Стандартна помилка m o

Стандартна помилка m h

Коефіцієнт детермінації R xy

Середньоквадратичне відхилення у

F – статистика

Ступені свободи n-2

Регресійна сума квадратів S n 2

Залишкова сума квадратів S n 2

0,14303 5,976364
0,183849 0,981484
0,070335 1,669889
0,60525 8
1,687758 22,30824

Аналіз результату: у першому рядку – коефіцієнти рівняння регресії, порівняйте їх із розрахованими функціями НАКЛОН і ВІДРІЗОК. Другий рядок – стандартні помилки коефіцієнтів. Якщо одна з них за модулем більше, ніж сам коефіцієнт, то коефіцієнт вважається нульовим. p align="justify"> Коефіцієнт детермінації характеризує якість зв'язку між факторами. Отримане значення 0,070335 говорить про дуже добрий зв'язок факторів, F – статистика перевіряє гіпотезу про адекватність регресійної моделі. Дане число потрібно порівняти з критичним значенням, для його отримання вводимо в Е33 підпис "F-критичне", а в F33 функцію FРАСПОБР, аргументами якої вводимо відповідно "0,05" (рівень значущості), "1" (кількість факторів Х) і «8» (ступеня свободи).

F-критичне 5,317655

Видно, що F-статистика менша, ніж F-критичне, отже, регресійна модель не адекватна. В останньому рядку наведено регресійну суму квадратів та залишкові суми квадратів . Важливо, щоб регресійна сума (пояснена регресією) була набагато більшою від залишкової (не пояснена регресією, викликана випадковими факторами). У нашому випадку ця умова не виконується, що говорить про погану регресію.

Висновок: У ході роботи я освоїв методи побудови лінійного рівняння парної регресії за допомогою ЕОМ, навчився отримувати та аналізувати основні характеристики регресійного рівняння.


Лабораторна робота №4

НЕЛІНІЙНА РЕГРЕСІЯ

Мета: освоїти методи побудови основних видів нелінійних рівнянь парної регресії за допомогою за допомогою ЕОМ (внутрішньо лінійні моделі), навчитися отримувати та аналізувати показники якості регресійних рівнянь.

Розглянемо випадок, коли нелінійні моделі за допомогою перетворення даних можна звести до лінійних (внутрішньо лінійних моделей).

ПРИКЛАД. Побудувати рівняння регресії у = f(х) для вибірки х п у п (f = 1,2, ..., 10). Як f(х) розглянути чотири типи функцій – лінійна, статечна, показова та гіперболу:

у = Ах + В; у = Ах; у = Ае Вх; у = А/г + Ст.

Необхідно знайти їх коефіцієнти А і В і порівнявши показники якості, вибрати функцію, яка найкраще описує залежність.

Прибуток Y 0,3 1,2 2,8 5,2 8,1 11,0 16,8 16,9 24,7 29,4
Прибуток X 0,25 0,50 0,75 1,00 1,25 1,50 1,75 2,00 2,25 2,50

Введемо дані у таблицю разом із підписами (комірки A1-K2). Залишимо вільними три рядки нижче за таблицю для введення перетворених даних, виділимо перші п'ять рядків, провівши по лівій сірій межі за числами від 1 до 5 і вибрати будь-який колір (світлий - жовтий або рожевий) розфарбувати фон осередків. Далі, починаючи з A6, виводимо параметри лінійної регресії. Для цього в осередок A6 робимо підпис «Лінійний» і в сусідній осередок B6 вводимо функцію Лінейн. У полях «Изв_знач_x» даємо посилання на B2-K2 і B1-K1, наступні два поля набувають значення одиниці. Далі обводимо область нижче 5 рядків і лівіше 2 рядки і натискаємо F2 і Ctrl+Shift+Enter. Результат - таблиця з параметрами регресії, у тому числі найбільший інтерес представляє коефіцієнт детермінації у першому стовпці третій зверху. У разі він дорівнює R 1 = 0,951262. Значення F-критерію, що дозволяє перевірити адекватність моделі F 1 = 156,1439

(четвертий рядок, перший стовпець). Рівняння регресії дорівнює

y = 12,96 x +6,18 (коефіцієнти a та b наведені в осередках B6 та C6).

Лінійна 12,96 -6,18
1,037152 1,60884
0,951262 2,355101
156,1439 8
866,052 44,372

Визначимо аналогічні характеристики інших регресій і в результаті порівняння коефіцієнтів детермінації знайдемо кращу регресійну модель. Розглянемо гіперболічну регресію. Для її отримання конвертуємо дані. У третьому рядку в комірку A3 введемо підпис «1/x», а в комірку B3 введемо формулу «=1/B2». Розтягнемо автозаповненням цей осередок на область B3-K3. Отримаємо характеристики регресійної моделі. У осередок А12 введемо підпис «Гіперболу», а в сусідню функцію Лінейн. У полях «Ізв_знач_y» та «Ізв_знач_x2 даємо посилання на B1-K1 і перетворені дані аргументу x – B3-K3, наступні два поля набувають значення одиниці. Далі обводимо область нижче 5 рядків і ліворуч у 2 рядки і натискаємо F2 та Ctrl+Shift+Enter. Отримуємо таблицю параметрів регресії. Коефіцієнт детермінації у разі дорівнює R 2 = 0,475661, що набагато гірше, ніж у разі лінійної регресії. F-статистика дорівнює F2 = 7,257293. Рівняння регресії дорівнює y = -6,25453 x 18,96772.

Гіперболу -6,25453 18,96772
2,321705 3,655951
0,475661 7,724727
7,257293 8
433,0528 477,3712

Розглянемо експоненційну регресію. Для її лінеаризації отримуємо рівняння , де = ln y, = b, = ln a. Видно, що потрібно зробити перетворення даних – y замінити на ln y. Ставимо курсор у комірку А4 і робимо заголовок «ln y». Ставимо курсор у В4 та вводимо формулу LN (категорія «Математичні»). Як аргумент робимо посилання на В1. Автозаповненням розповсюджуємо формулу на четвертий рядок на комірки В4-K4. Далі в осередку F6 задаємо підпис «Екпонента» і в сусідній G6 вводимо функцію ЛІНІЙН, аргументами якої будуть перетворені дані В4-K4 (в поле «Изв_знач_ y»), а решта поля такі ж як і для випадку лінійної регресії (B2-K2, 1, 1). Далі обводимо осередки G6-H10 і натискаємо F2 та Ctrl+Shift+Enter. Результат R 3 = 0,89079, F 3 = 65,25304, що говорить про дуже хорошу регресію. Для знаходження коефіцієнтів рівняння регресії b = ã; ставимо курсор в J6 і робимо заголовок «а=», а сусідній К6 формулу «=ЕХР(Н6)», в J7 даємо заголовок «b=», а К7 формулу «=G6». Рівняння регресії є y = 0,511707 e 6,197909 x .

експонента 1,824212 -0,67 a= 0,511707
0,225827 0,350304 b= 6,197909
0,89079 0,512793
65,25304 8
17,15871 2,103652

Розглянемо статечну регресію. Для її лінеаризації отримуємо рівняння ỹ = ã, де ỹ = ln y, = ln x, ã = b, = ln a. Видно, що треба зробити перетворення даних - y замінити на ln y x замінити на ln x. Рядок з ln y у нас вже є. Перетворимо змінні х. У комірку А5 даємо підпис «ln x», а В5 і вводимо формулу LN (категорія «Математичні»). Як аргумент робимо посилання В2. Автозаповнення розповсюджуємо формулу на п'ятий рядок на осередки B5-K5. Далі в осередку F12 задаємо підпис «Степеневий» і в сусідньому G12 вводимо функцію ЛІНІЙН, аргументами якої будуть перетворені дані B4-K4 (в поле «Ізв_знач_у»), і B5-K5 (в поле «Ізв_знач_х»), решта поля – одиниці. Далі звільнимо комірки G12-H16 і натискаємо F2 і Ctrl+Shift+Enter. Результат R 4 = 0,997716, F 4 = 3494,117, що говорить про хорошу регресію. Для знаходження коефіцієнтів рівняння регресії b = ã; ставимо курсор у J12 і робимо заголовок «а=», а сусідній К12 формулу «=ЕХР(Н12)», в J13 даємо заголовок «b=», а К13 формулу «=G12». Рівняння регресії є у ​​= 4,90767/х + 7,341268.

Ступінь 1,993512 1,590799 a= 4,90767
0,033725 0,023823 b= 7,341268
0,997716 0,074163
3494,117 8
19,21836 0,044002

Перевіримо, чи всі рівняння правильно описують дані. Для цього потрібно порівняти F-статистики кожного критерію із критичним значенням. Для його отримання вводимо в А21 підпис «F-критичне», а В21 функцію FРАСПОБР, аргументами якої вводимо відповідно «0,05» (рівень значущості), «1» (кількість факторів Х у рядку «Рівень значимості 1») і « 8» (ступінь свободи 2 = n – 2). Результат 5,317655. F – критичне більше F – статистики означає модель адекватна. Також адекватні та інші регресії. Для того, щоб визначити, яка модель якнайкраще описує дані, порівняємо індекси детермінації для кожної моделі R 1 , R 2 , R 3 , R 4 . Найбільшим є R4 = 0,997716. Отже, досвідчені дані краще описувати у = 4,90767/х+ 7,341268.

Висновок: У ході роботи я освоїв методи побудови основних видів нелінійних рівнянь парної регресії за допомогою за допомогою ЕОМ (внутрішньо лінійні моделі), навчився отримувати та аналізувати показники якості регресійних рівнянь.

Y 0,3 1,2 2,8 5,2 8,1 11 16,8 16,9 24,7 29,4
X 0,25 0,5 0,75 1 1,25 1,5 1,75 2 2,25 2,5
1/x 4 2 1,333333 1 0,8 0,666667 0,571429 0,5 0,444444 0,4
ln y -1,20397 0,182322 1,029619 1,648659 2,0918641 2,397895 2,821379 2,827314 3,206803 3,380995
ln x -1,38629 -0,69315 -0,28768 0 0,2231436 0,405465 0,559616 0,693147 0,81093 0,916291
Лінійна 12,96 -6,18 експонента 1,824212 -0,67 a= 0,511707
1,037152 1,60884 0,225827 0,350304 b= 6,197909
0,951262 2,355101 0,89079 0,512793
156,1439 8 65,25304 8
866,052 44,372 17,15871 2,103652
Гіперболу -6,25453 18,96772 Ступінь 1,993512 1,590799 a= 4,90767
2,321705 3,655951 0,033725 0,023823 b= 7,341268
0,475661 7,724727 0,997716 0,074163
7,257293 8 3494,117 8
433,0528 477,3712 19,21836 0,044002
F - критичне 5,317655

Лабораторна робота №5

ПОЛІНОМИНАЛЬНА РЕГРЕСІЯ

Ціль: За досвідченими даними побудувати рівняння регресії виду у = ах 2 + bх + с.

ХІД РОБОТИ:

Розглядається залежність урожайності деякої культури у i від кількості внесених у ґрунт мінеральних добрив х i . Передбачається, що ця квадратична залежність. Необхідно знайти рівняння регресії виду = ах 2 + bx + c.

x 0 1 2 3 4 5 6 7 8 9
y 29,8 58,8 72,2 101,5 141 135,1 156,6 181,7 216,6 208,2

Введемо ці дані в електронну таблицю разом із підписами до осередків А1-K2. Побудуємо графік. Для цього обведемо дані Y (комірки В2-K2), викликаємо майстер діаграм, вибираємо тип діаграми "Графік", вид діаграми - графік з точками (другий зверху лівий), натискаємо "Далі", переходимо на закладку "Ряд" і в полі " Підписи осі Х» робимо посилання на В2-K2, натискаємо «Готово». Графік можна наблизити до полінома 2 ступеня у = ах 2 + bх + с. Для знаходження коефіцієнтів a, b, c необхідно вирішити систему рівнянь:

Розрахуємо суми. Для цього в комірку А3 вводимо підпис «Х^2», а в В3 вводимо формулу = В1 * В1 і Автозаповнення переносимо її на весь рядок В3-K3. У комірку А4 вводимо підпис «Х^3», а В4 формулу «=В1*В3» і Автозаповнення переносимо її на весь рядок В4-K4. У комірку А5 вводимо «Х^4», а В5 формулу «=В4*В1», автозаповнюємо рядок. У комірку А6 вводимо «Х*Y», а В8 формулу «=В2*В1», автозаповнюємо рядок. У комірку А7 вводимо «Х^2*Y», а В9 формулу «=В3*В2», автозаповнюємо рядок. Тепер рахуємо суми. Виділяємо іншим кольором стовпець L, клацнувши по заголовку та вибравши колір. У комірку L1 поміщаємо курсор і клацнувши по кнопці автосуми зі значком ∑, обчислюємо суму першого рядка. Автозаповнення переносимо формулу на комірки L1-710.

Вирішуємо тепер систему рівнянь. Для цього вводимо основну матрицю системи. У комірку А13 вводимо підпис «А=», а в комірки матриці В13-D15 вводимо посилання, відображені в таблиці

B C D
13 =L5 =L4 =L3
14 =L3 =L2 =L1
15 =L2 =L1 =9

Вводимо також праві частини системи рівнянь. У G13 вводимо підпис «В=», а Н13-Н15 вводимо, відповідно посилання на комірки «=L7», «=L6», «=L2». Вирішуємо систему матричним способом. З вищої математики відомо, що рішення дорівнює А -1 В. Знаходимо зворотну матрицю. Для цього в осередок J13 вводимо підпис "А обр." і, поставивши курсор K13 задаємо формулу МОБР (категорія «Математичні»). Як аргумент «Масив» даємо посилання на комірки В13: D15. Результатом також має бути матриця розміром 4×4. Для її отримання обводимо осередки K13-М15 мишею, виділяючи їх та натискаємо F2 та Ctrl+Shift+Enter. Результат - матриця А-1. Знайдемо тепер добуток цієї матриці на стовпець В (осередки Н13-Н15). Вводимо в комірку А18 підпис «Коефіцієнти» і В18 задаємо функцію МУМНОЖ (категорія «Математичні»). Аргументами функції "Масив 1" служить посилання на матрицю А -1 (комірки K13-М15), а в полі "Масив 2" даємо посилання на стовпець В (комірки Н13-Н16). Далі виділяємо В18-В20 і натискаємо F2 та Ctrl+Shift+Enter. Масив, що вийшов - коефіцієнти рівняння регресії a, b, c. В результаті отримуємо рівняння регресії виду: у = 1,201082х2 - 5,619177х + 78,48095.

Побудуємо графіки вихідних даних та отриманих на основі рівняння регресії. Для цього в комірку А8 вводимо підпис «Регресія» і в В8 вводимо формулу = $ $ 18 * В3 + $ $ 19 * В1 + $ $ 20». Автозаповнення переносимо формулу в комірки В8-K8. Для побудови графіка виділяємо комірки В8-K8 і, утримуючи клавішу Ctrl, виділяємо також комірки В2-М2. Викликаємо майстри діаграм, вибираємо тип діаграми «Графік», вид діаграми – графік з точками (другий зверху лівий), натискаємо «Далі», переходимо на закладку «Ряд» і в полі «Підписи осі Х» робимо посилання на В2-М2, натискаємо "Готово". Видно, що криві майже збігаються.

ВИСНОВОК: у процесі роботи я за досвідченими даними навчився будувати рівняння регресії виду у = ах 2 + bх + с.





Емпіричної щільності розподілу випадкової аналізованої величини та розрахунок її показників Визначаємо розмах наявних даних, тобто. різниці між найбільшим та найменшим вибірковим значеннями (R = Xmax – Xmin): Вибір числа інтервалів угруповання k при числі спостережень n<100 – ориентировочное значение интервалов можно рассчитать с использованием формулы Хайнхольда и Гаеде: ...

Даних можна достовірно судити про статистичні зв'язки, що існують між змінними величинами, які досліджують у даному експерименті. Усі методи математико-статистичного аналізу умовно поділяються на первинні та вторинні. Первинними називають методи, за допомогою яких можна отримати показники, що безпосередньо відображають результати вимірів, що виробляються в експерименті. Відповідно під...

Процесори загального призначення (наприклад, в Еxcеl, Lotus 1-2-3 і т.д.), а також деякі бази даних. Західні статистичні пакети (SРSS, SAS, BMDР тощо) мають такі можливості: Дозволяють обробляти гігантські обсяги даних. Включають засоби опису завдань вбудованою мовою. Дають можливість побудови на їх основі систем обробки інформації для підприємств. Дозволяють...



Курс масажу і протягом 1-2 місяців після нього. 1.2 Форми лікувального масажу Форма впливу лікувального масажу поділяється на загальну та приватну. Ці форми характерні для всіх видів та методів масажу. Як приватний, і загальний масаж може виконуватися масажистом як взаємного масажу, парного чи самомасажа . 1.2.1 Загальний масаж Загальним називається такий сеанс масажу (незалежно від...

x 0 1 2 3 4 5 6 7 8 9
y 29,8 58,8 72,2 101,5 141 135,1 156,6 181,7 216,6 208,2
X^2 0 1 4 9 16 25 36 49 64 81
X^3 0 1 8 27 64 125 216 343 512 729
X^4 0 1 16 81 256 625 1296 2401 4096 6561
X*Y 0 58,8 144,4 304,5 564 675,5 939,6 1271,9 1732,8 1873,8
X^2*Y 0 58,8 288,8 913,5 2256 3377,5 5637,6 8903,3 13862,4 16864,2
Регрес. 78,48095 85,30121 94,52364 106,1482 120,175 136,6039 155,435 176,6682 200,3036 226,3412
A= 15333 2025 285 B= 52162,1 A Зр. 0,003247 -0,03247 0,059524
2025 285 45 7565,3 -0,03247 0,341342 -0,67857
285 45 9 1301,5 0,059524 -0,67857 1,619048
Коефіц. 1,201082 a
5,619177

Перевірка статистичних гіпотез: гіпотеза про рівність середніх для двох вибірки

Робота має допоміжний характер, повинна бути фрагментом інших лабораторних робіт.

Жодне грамотне соціологічне дослідження неспроможна уникнути висунення гіпотез. За великим рахунком можна взагалі сказати, що головна його мета - це спростування чи підтвердження будь-якого припущення дослідника про соціальну реальність з урахуванням зібраних ним емпіричних даних. Ми висуваємо гіпотезу, збираємо дані та робимо на основі статистичного матеріалу висновок. Але саме цей ланцюжок гіпотеза-дані-висновок і містить у собі масу питань, з якими стикається практично будь-який дослідник-початківець. Основне з таких питань полягає в наступному: як перекласти висунуту нами гіпотезу на математичну мову для того, щоб її потім можна було співвіднести зі статистичним масивом і, обробивши за допомогою методів математичної статистики, спростувати чи підтвердити? Тут ми постараємося відповісти це питання з прикладу перевірки гіпотез про рівність середніх.

Перевірка статистичних гіпотез про рівність середніх

Під статистичною гіпотезою розуміються різного роду припущення щодо характеру чи параметрів розподілу випадкової змінної, які можна перевірити, спираючись на результати випадкової вибірки.

Слід пам'ятати, що перевірка статистичної гіпотези має імовірнісний характер. Також як ми ніколи не можемо на 100% бути впевнені в тому, що будь-який вибірковий параметр збігається з параметром генеральної сукупності, ми ніколи не можемо абсолютно точно сказати, чи вірна чи хибна висунута нами гіпотеза.

Для того, щоб перевірити статистичну гіпотезу, необхідно наступне:

1. Перетворити змістовну гіпотезу на статистичну: сформулювати нульову та альтернативну статистичні гіпотези.

2. Визначити залежні чи незалежні у нас вибірки.

3. Визначити обсяг вибірок.

4. Вибрати критерій.

5. Вибрати рівень значущості, який контролює допустиму ймовірність помилки першого роду, та визначити область допустимих значень.

7. Відкинути чи прийняти нульову гіпотезу.

Тепер розглянемо кожен із шести пунктів докладніше.

Формулювання гіпотези

У статистичних завданнях часто буває потрібно порівняти середні двох різних вибірок . Наприклад, нас може цікавити різниця середніх зарплат чоловіків і жінок, середнього віку деяких груп<А>і<В>і т.д. Або, сформувавши дві незалежні експериментальні групи, ми можемо порівнювати їх середні з метою перевірити, наскільки різниться, скажімо, вплив двох різних ліків на кров'яний тиск або наскільки розмір групи впливає на позначки студентів. Іноді буває так, що ми розбиваємо сукупність на дві групи попарно, тобто, маємо справу з близнюками, подружніми парами або однією людиною до і після якого-небудь експерименту і т.д. Щоб стало зрозуміліше, розглянемо характерні приклади, де застосовуються різні критерії рівності середніх.

Приклад №1.Фірма розробила два різні препарати, що знижують тиск (назвемо їх препарати Хі Y) і хоче дізнатися відрізняється чи ні вплив даних ліків на хворих, які страждають на гіпертонію. З 50 чоловік із відповідним захворюванням випадково вибираються 20 і випадково ці 20 діляться на дві групи по 10 осіб. Перша група протягом тижня користується препаратом Х, друга - препаратом Y. Потім у всіх хворих вимірюється тиск. Висувна змістовна гіпотеза: препарати Х та Y по-різному впливають на кров'яний тиск хворих.

Приклад №2.Дослідник хоче дізнатися, як впливає тривалість лекції на успішність студентів. Припустимо, він обрав наступний шлях: із 200 студентів випадково обрав 50 осіб і протягом місяця спостерігав за їх успішністю. Далі він збільшив тривалість лекцій на 10 хвилин і протягом наступного місяця дивився на успішність тих самих 50 студентів. Потім він порівняв результати кожного студента до та після збільшення тривалості лекції. Висувна змістовна гіпотеза: тривалість лекції впливає на успішність студента.

Приклад №3.Зі 200 студентів випадково було обрано 80 осіб, і ці 80 осіб розділили на дві групи по 40. Однією групі ставили питання без встановлення:<Сколько вы готовы заплатить за натуральный йогурт?>, а другій групі ставили питання із встановленням:<Сколько вы готовы заплатить за натуральный йогурт, если известно, что люди, потребляющие йогуртовые культуры, страдают на 10-15% меньше от заболеваний желудка?>Дослідник припускав, що позитивна інформація про продукт, що міститься в другому питанні, вплине на респондента, і люди, які відповідають на запитання з установкою, будуть готові заплатити за йогурт більше, ніж ті, яким було запропоновано без встановлення. Висувна змістовна гіпотеза: постановка питання впливає на відповідь респондента.

Перед нами три приклади, кожен із яких демонструє формулювання змістовної гіпотези. Тепер перетворимо наші змістовні гіпотези на статистичні, але для початку трохи скажемо про статистичні гіпотези в цілому.

Найчастіший підхід до формулювання статистичних гіпотез – це висунення двох двосторонніх гіпотез:

Як видно з формули, нульова гіпотеза говорить про те, що будь-який параметр вибірки або, скажімо, різниця між параметрами двох вибірок дорівнює певному числу а. Альтернативна гіпотеза стверджує протилежне: параметр, який нас цікавить, не дорівнює а. Таким чином, ці дві гіпотези містять у собі всі можливі варіанти результатів.

Також можливе формулювання односторонніх гіпотез:

Іноді такі гіпотези виявляються осмисленішими. Зазвичай вони мають місце у тому випадку, коли ймовірність того, що наш параметр може виявитися більшим (або меншим) адорівнює нулю, тобто таке неможливе.

Тепер сформулюємо нульову та альтернативну статистичні гіпотези для наших трьох прикладів.

Таблиця №1.

Приклад №1

Приклад №2

Приклад №3

Препарати Х та Y по-різному впливають на кров'яний тиск хворих

Тривалість лекції впливає на успішність студентів

Постановка питання впливає на відповідь респондента

Завдання дослідника

4. Знайти середнє арифметичне різниць для всіх студентів, що позначається

Нульова гіпотеза

Сенс нульової гіпотези

і середні генеральні сукупності, з яких взяті вибірки з середніми. Нульова гіпотеза говорить про те, що вплив обох ліків на тиск в середньому незначний, і якщо навіть вибіркові середні не рівні, то це пояснюється лише похибкою вибірки або іншими причинами, що не залежать від нас.

Середня різниця для студентів у генеральній сукупності. Нульова гіпотеза говорить про те, що насправді немає різниці між середнім балом студента до і після збільшення тривалості лекції, і якщо навіть вибіркове середнє різниці відмінно від нуля, то це пояснюється лише похибкою вибірки або іншими не залежать від нас причинами

Оскільки збігається з прикладом №1, то пояснення можна знайти в першій колонці (див. приклад 1)

Альтернативна гіпотеза

Висновок щодо змістовної гіпотези

Якщо ми приймаємо нульову гіпотезу - препарати мають однаковий вплив (різниці між середніми немає), то ми відкидаємо змістовну гіпотезу, інакше - ми приймаємо змістовну гіпотезу

Якщо ми приймаємо нульову гіпотезу - тривалість лекції не впливає на успішність, ми відкидаємо змістовну гіпотезу і навпаки

Якщо ми приймаємо нульову гіпотезу - питання не впливає на вибір респондента, ми відкидаємо змістовну гіпотезу і навпаки.

Перевірка рівності середнього певного значення.

Вибірки вилучені із сукупності, що має нормальний розподіл, дані є незалежними.

Критеріальне значення обчислюється за такою формулою:

де N – розмір вибірки;

S 2 - емпірична дисперсія вибірки;

А - передбачувана величина середнього значення;

X-середнє значення.

Число ступенів свободи для t-критерію V = n-1.

Нулі ня гіпотеза

Н 0: X = А проти Н А: X ≠А. Нульова гіпотеза про рівність середніх відкидається, якщо по абсолютній величині критеріальне значення більше за верхню α/2 % точки t-розподілу взятого з V ступенями свободи, тобто при │t│> t vα/2 .

Н 0: Х< А против Н А: X >А. Нульова гіпотеза відкидається, якщо критеріальне значення більше за верхню α% точку t-розподілу взятого з V ступенями свободи, тобто при │t│> t vα .

Н 0: Х>А проти H А: X< А. Нулевая гипотеза отвергается, если критериальное значение меньше нижней α% точки t-распределения, взятого с V степенями свободы.

Критерій стійкий за малих відхилень від нормального розподілу.

приклад

Розглянемо приклад, поданий на рис. 5.10. Припустимо, нам необхідно перевірити гіпотезу про рівність середнього для вибірки (комірки 123:130) величині 0,012.

Спочатку знаходимо середнє вибірки (=СРЗНАЧ(123:130) в I31) і дисперсію (=ДІСП(I23:I30) в I32). Після цього розраховуємо критеріальне (=(131-0,012)*КОРІНЬ(133)/132) і критичне (=СТЬЮДРАСПОБР(0,025;133-1)) значення. Оскільки критеріальне значення (24,64) більше критичного (2,84), то гіпотеза про рівність середнього 0,012 відкидається.

Рисунок 5.10 Порівняння середнього значення з константою

1. перевірити гіпотези про середні та дисперсії за допомогою параметричних критеріїв Фішера та Кохрена (таблиця 5.4);

2. перевірити гіпотезу про рівність середніх при нерівних дисперсіях вибірок (для цього в одній із вибірок свого варіанта прибрати 1 або 2 значення) (таблиця 5.4);

3. перевірити гіпотезу про рівність середнього заданого значення А (таблиця 5.5) та дані з 1-го стовпця за варіантом.

Таблиця 5.4

Варіанти завдань

Дані експерименту
варіант
2,3 2,6 2,2 2,1 2,5 2,6
1,20 1,42 17,3 23,5 2,37 2,85 35,2 26,1 2,1 2,6
5,63 5,62 26,1 27,0 5,67 2,67 35,9 25,8 5,1 5,63
2,34 2,37 23,9 23,3 2,35 2,34 33,6 23,8 2,34 2,38
7,71 7,90 28,0 25,2 2,59 2,58 35,7 26,0 7,63 7,6,1
1,2 1,6 1,7 2,6 1,9 2,8
1,13 1,15 21,6 21,2 2,13 2,16 31,7 1,12 1,12
1,45 1,47 24,7 24,8 2,45 2,47 34,8 24,5 1,49 1,45
3,57 3,59 25,9 25,7 2,55 2,59 36,0 25,7 3,58 3,58
3,3 3,6 2,5 2,4 3,4 3,5
Дані експерименту
варіант
7,3 7,6 12,2 12,1 3,5 4,6
6,20 6,42 217,3 230,5 12,37 12,85 75,2 86,1 3,1 4,6
7,63 5,62 264,1 278,0 15,67 14,67 75,9 75,8 5,1 5,63
6,34 5,37 233,9 236,3 12,35 12,34 73,6 73,8 3,34 4,38
7,71 7,90 281,0 255,2 12,59 12,58 85,7 86,0 3,63 4,6,1
6,2 6,6 11,7 12,6 3,9 4,8
4,13 4,15 251,6 261,2 12,13 12,16 71,7 5,12 4,12
5,45 6,47 244,7 247,8 12,45 12,47 74,8 84,5 3,49 4,45
5,57 5,59 250,9 255,7 12,55 12,59 86,0 85,7 3,58 3,58
5,3 5,6 12,5 12,4 3,4 3,5

Таблиця 5.5

Значення А

Варіанти
2,2 2,2 2,2 6,5 12,2 3,5

Як вихідні дані в завданні можете використовувати свої експериментальні дані.

Звіт має містити розрахунки статистичних показників.

Контрольні питання:

1. Які статистичні завдання вирішуються щодо технологічних процесів виробництва харчової промисловості?

2. Як порівнюються статистичні характеристики випадкових величин?

3. Рівень значущості та довірча ймовірність при достовірності оцінки експериментальних даних.

4. Як здійснюється перевірка статистичних гіпотез за допомогою критеріїв згоди?

5. Від чого залежить потужність критерію згоди на аналіз експериментальних вибірок?

6. Яким чином здійснюється підбір критерію для вирішення завдань аналізу технологічних процесів виробництва харчових продуктів?

7. Як здійснюється класифікація критеріїв згоди для аналізу вибірок результатів досліджень технологічних процесів виробництва харчових продуктів?

8. Які вимоги пред'являються до вибірок результатів досліджень технологічних процесів виробництва харчових продуктів?

Приклад. Доходи аптек одного з мікрорайонів міста за певний період становили 128; 192; 223; 398; 205; 266; 219; 260; 264; 98 (умовних одиниць). У сусідньому мікрорайоні за той же час вони дорівнювали 286; 240; 263; 266; 484; 223; 335.
Для обох вибірок обчисліть середнє, виправлену дисперсію та середнє відхилення. Знайдіть розмах варіювання, середнє абсолютне (лінійне) відхилення, коефіцієнт варіації, лінійний коефіцієнтваріації, коефіцієнт осциляції.
Припускаючи, що ця випадкова величина має нормальний розподіл, визначте довірчий інтервал для генеральної середньої (в обох випадках).
За критерієм Фішера перевірте гіпотезу про рівність генеральних дисперсій. За критерієм Стьюдента перевірте гіпотезу про рівність генеральних середніх (альтернативна гіпотеза – про їхню нерівність).
У всіх розрахунках рівень значущості = 0,05.

Рішення проводимо за допомогою калькулятора Перевірка гіпотези про рівність дисперсій.
1. Знаходимо показники варіації для першої вибірки.

x| x - x порівн |(x - x ср) 2
98 127.3 16205.29
128 97.3 9467.29
192 33.3 1108.89
205 20.3 412.09
219 6.3 39.69
223 2.3 5.29
260 34.7 1204.09
264 38.7 1497.69
266 40.7 1656.49
398 172.7 29825.29
2253 573.6 61422.1


.



Показники варіації.
.

R = X max - X min
R = 398 - 98 = 300
Середнє лінійне відхилення


Кожне значення ряду відрізняється від іншого в середньому на 57.36
Дисперсія


Незміщена оцінка дисперсії


.

Кожне значення ряду відрізняється від середнього значення 225.3 у середньому на 78.37
.

.

Коефіцієнт варіації

Оскільки v>30%, але v або

Коефіцієнт осциляції

.
.


За таблицею Стьюдента знаходимо:
T табл (n-1; α/2) = T табл (9; 0.025) = 2.262

(225.3 - 59.09;225.3 + 59.09) = (166.21;284.39)

2. Знаходимо показники варіації для другої вибірки.
Проранжуємо ряд. Для цього сортуємо його значення за зростанням.
Таблиця до розрахунку показників.

x| x - x порівн |(x - x ср) 2
223 76.57 5863.18
240 59.57 3548.76
263 36.57 1337.47
266 33.57 1127.04
286 13.57 184.18
335 35.43 1255.18
484 184.43 34013.9
2097 439.71 47329.71

Для оцінки низки розподілів знайдемо такі показники:
Показники центру розподілу.
Проста середня арифметична


Показники варіації.
Абсолютні показники варіації.
Розмах варіації - різниця між максимальним і мінімальними значеннямиознаки первинного ряду.
R = X max - X min
R = 484 - 223 = 261
Середнє лінійне відхилення- обчислюють у тому, щоб врахувати відмінності всіх одиниць досліджуваної сукупності.


Кожне значення ряду відрізняється від іншого в середньому на 62.82
Дисперсія- характеризує міру розкиду біля її середнього значення (заходи розсіювання, тобто відхилення від середнього).


Незміщена оцінка дисперсії- Заможна оцінка дисперсії (виправлена ​​дисперсія).


Середнє квадратичне відхилення.

Кожне значення ряду відрізняється від середнього значення 299.57 у середньому на 82.23
Оцінка середньоквадратичного відхилення.

Відносні показники варіації.
До відносним показникамваріації відносять: коефіцієнт осциляції, лінійний коефіцієнт варіації, відносне лінійне відхилення.
Коефіцієнт варіації- міра відносного розкиду значень сукупності: показує, яку частку середнього значення цієї величини становить її середній розкид.

Оскільки v ≤ 30%, то сукупність однорідна, а варіація слабка. Отриманим результатам можна довіряти.
Лінійний коефіцієнт варіаціїабо Відносне лінійне відхилення- характеризує частку усередненого значення ознаки абсолютних відхилень від середньої величини.

Коефіцієнт осциляції- відбиває відносну коливання крайніх значеньознаки довкола середньої.

Інтервальне оцінювання центру генеральної сукупності.
Довірчий інтервал для генерального середнього.

Визначаємо значення t kp за таблицею розподілу Стьюдента
За таблицею Стьюдента знаходимо:
T табл (n-1; α/2) = T табл (6; 0.025) = 2.447

(299.57 - 82.14;299.57 + 82.14) = (217.43;381.71)
Імовірно 0.95 можна стверджувати, що середнє значення при вибірці більшого обсягу не вийде за межі знайденого інтервалу.
Проводимо перевірку гіпотези про рівність дисперсій:
H 0: D x = D y;
H 1: D x Знайдемо значення критерію Фішера:

Оскільки s y 2 > s x 2 , то s б 2 = s y 2 s м 2 = s x 2
Числа ступенів свободи:
f 1 = n у - 1 = 7 - 1 = 6
f 2 = n x - 1 = 10 - 1 = 9
За таблицею критичних точокрозподілу Фішера-Снедекору при рівні значимості α = 0.05 і даним числам ступенів свободи знаходимо F кр (6; 9) = 3.37
Т.к. F набл Проводимо перевірку гіпотези про рівність генеральних середніх:


Знайдемо експериментальне значення критерію Стьюдента:


Число ступенів свободи f = n х + n у - 2 = 10 + 7 - 2 = 15
Визначаємо значення t kp за таблицею розподілу Стьюдента
За таблицею Стьюдента знаходимо:
T табл (f;α/2) = T табл (15; 0.025) = 2.131
По таблиці критичних точок розподілу Стьюдента за рівня значимості α = 0.05 і даному числуступенів свободи знаходимо t кр = 2.131
Т.к. t набл

Розглянемо дві незалежні вибірки x 1 , x 2 , …. та дисперсія σ 2 невідомі. Потрібно перевірити основну гіпотезу Н 0: μ x = μ y при конкуруючій Н 1: μ x μ y .

Як відомо, вибіркові середні і будуть мати властивості: ~N(μ x , σ 2 /n), ~ N(μ y , σ 2 /m).

Їхня різниця - нормальна величина із середнім і дисперсією, так що

~ (23).

Припустимо, що основна гіпотеза Н 0 вірна: μ x –μ y =0. Тоді і, поділяючи величину на неї стандартне відхилення, Отримаємо стандартну нормальну сл. Величину ~N(0,1).

Раніше наголошувалося, що сл. величина розподілена згідно із законом з (n-1)-им ступенем свободи, a - згідно із законом з (m-1) ступенем свободи. З урахуванням незалежності цих двох сум, отримуємо, що їх Загальна сума розподілена згідно із законом з n+m-2 ступенями свободи.

Згадуючи п.7, бачимо, що дріб підпорядковується t-розподілу (Стьюдента) з ν=m+n-2 ступенями свободи: Z=t. Цей факт має місце лише тоді, коли істинна гіпотеза Н0.

Замінюючи ξ і Q їх виразами, отримаємо розгорнуту форнулу Z:

(24)

Величина Z, звана статистикою критерію, дозволяє прийняти рішення за такої послідовності дій:

1. Встановлюється область D=[-t β,ν , +t β,ν ], що містить β=1–α площі під кривою t ν –розподілу (табл.10).

2. Обчислюється за формулою (24) дослідне значення Z on статистики Z, для чого замість X 1 та Y 1 підставляються значення x 1 та y 1 конкретних вибірок, а також їх вибіркові середні та .

3. Якщо Z on D, то гіпотеза Н 0 вважається такою, що не суперечить досвідченим даним і приймається.

Якщо Z on D, приймається гіпотеза Н 1 .

Якщо гіпотеза Н 0 вірна, то Z підпорядковується відомому t ν -розподілу з нульовим середнім і з високою ймовірністю β=1-α потрапляє в D-область прийняття гіпотези Н 0 . Коли спостерігається, досвідчене значення Z on потрапляє до D. Ми розглядаємо це свідчення на користь гіпотези Н 0 .

Коли ж Z 0 n лежить за межами D (як кажуть, лежить у критичній ділянці К), що природно, якщо вірна гіпотеза Н 1 , але малоймовірно, якщо вірна Н 0 , то залишається відхилити гіпотезу Н 0 , прийнявши H 1 .

Приклад 31.

Порівнюються дві марки бензину: А і В. На 11 автомашинах однакової потужності по кільцевому шасі випробуваний по разу Бензин марки А і В. Одна машина в дорозі вийшла з ладу для неї дані по бензину відсутні.

Витрата бензину в перерахунку на 100 км колії

Таблиця 12

i
X i 10,51 11,86 10,5 9,1 9,21 10,74 10,75 10,3 11,3 11,8 10,9 n=11
У i 13,22 13,0 11,5 10,4 11,8 11,6 10,64 12,3 11,1 11,6 - m=10

Дисперсія витрати бензину марок А та В невідома і передбачається однаковою. Чи можна при рівні значущості α=0,05 прийняти гіпотезу про те, що справжні середні витрати μА та μВ цих видів бензину однакові?

Рішення. Перевірку гіпотези Н 0: μ А - μ В = 0 при конкуруючій. Н 1:μ 1 μ 2 робимо за пунктами:

1. Знаходимо вибіркові середні та суму квадратів відхилень Q.

;

;

2. Обчислюємо дослідне значення статистики Z

3. Знаходимо з таблиці 10 t-розподілу межу t β,ν для числа ступенів свободи ν=m+n–2=19 та β=1–α=0.95. У таблиці 10 є t 0.95.20 = 2,09 та t 0.95.15 = 2,13, але немає t 0.95.19 . Знаходимо інтерполяцією t 0.95.19 = 2,09 + = 2,10.

4. Перевіряємо, у якій із двох областей D чи К лежить число Z on . Zon=-2,7 D=[-2,10; -2,10].

Оскільки спостережене значення Z on лежить у критичній ділянці, К=RD, то відкидаємо. Н 0 і досліджуємо гіпотезу Н 1 . У цьому випадку і говорять, що їх різниця значуща. Якби за всіх умов цього прикладу змінилося лише Q, скажімо, Q вдвічі зросло, то змінився б і наш висновок. Збільшення Q вдвічі призвело до зменшення в рази величини Z on і тоді число Zon потрапило б у допустиму область D, так що гіпотеза H 0 витримала б перевірку та була прийнята. У цьому випадку розбіжність між і пояснювалося б природним розкидом даних, а не тим, що μ А μ В.

Теорія перевірки гіпотез дуже велика, гіпотези може бути про вигляді закону розподілу, про однорідність вибірок, про незалежність сл.величини тощо.

КРИТЕРІЙ з 2 (ПІРСОНА)

Найпоширеніший практично критерій перевірки простий гіпотези. Застосовується, коли закон розподілу невідомий. Розглянемо випадкову величину X, над якою проведено n незалежних випробувань. Отримано реалізацію x 1 , x 2 ,...,x n . Необхідно перевірити гіпотезу про закон розподілу цієї випадкової величини.

Розглянемо випадок простий гіпотези. Проста гіпотеза перевіряє узгодження вибірки з генеральною сукупністю, Що має нормальний розподіл (відоме). За вибірками будуємо варіаційний ряд x (1), x (2), ..., x (n). Інтервал розбиваємо на підінтервали. Нехай цих інтервалів r. Тоді знайдемо ймовірність попадання X в результаті випробування в інтервал Di, i = 1, ..., r у разі істинності гіпотези, що перевіряється.

Критерій перевіряє не істинність ймовірності, а істинність чисел

З кожним інтервалом Di зв'яжемо випадкова подія A i - попадання в цей інтервал (потрапляння в результаті випробування над X її результату реалізації Di). Введемо випадкові величини. m i - кількість випробувань з проведених n, в яких сталася подія A i . m i розподілені за біноміальним законом і у разі істинності гіпотези

Dm i =np i (1-p i)

Критерій з 2 має вигляд

p 1 +p 2 +...+p r =1

m 1 +m 2 +...+m r =n

Якщо гіпотеза, що перевіряється, вірна, то m i представляє частоту появи події, що має в кожному з n проведених випробувань ймовірність p i , отже, ми можемо розглядати m i як випадкову величину, що підпорядковується биномиальному закону з центром в точці np i . Коли n велике, можна вважати, що частота розподілена асимптотично нормально з тими самими параметрами. За правильності гіпотези слід очікувати, що будуть асимптотично нормально розподілені

пов'язані між собою співвідношенням

Як міру розбіжності даних вибірки m 1 +m 2 +...+m r з теоретичними np 1 +np 2 +...+np r розглянемо величину

c 2 - сума квадратів асимптотично нормальних величинпов'язаних лінійною залежністю. Ми раніше зустрічалися вже з аналогічним випадком та знаємо, що наявність лінійного зв'язкупризвело до зменшення одиницю числа ступенів свободи.

Якщо гіпотеза вірна, то критерій c 2 має розподіл, що прагне при n®¥ до розподілу c 2 з r-1 ступенями свободи.

Припустимо, що гіпотеза неправильна. Тоді існує тенденція до збільшення доданків у сумі, тобто. якщо гіпотеза неправильна, то ця сума потраплятиме в якусь область великих значеньз 2 . Як критична область візьмемо область позитивних значенькритерію


У разі невідомих параметрів розподілу кожен параметр зменшує на одиницю кількість ступенів свободи для критерію Пірсона