Біографії Характеристики Аналіз

Перевірка гіпотези про рівність середнього певного значення. Перевірка гіпотези про рівність середнього заданого значення

8.1. Поняття залежних та незалежних вибірок.

Вибір критерію для перевірки гіпотези

насамперед визначається тим, чи розглядаються вибірки залежними чи незалежними. Введемо відповідні визначення.

Опр.Вибірки називаються незалежнимиякщо процедура відбору одиниць у першу вибірку ніяк не пов'язана з процедурою відбору одиниць у другу вибірку.

Прикладом двох незалежних вибірок можуть бути обговорювані вище вибірки чоловіків і жінок, які працюють на одному підприємстві (в одній галузі і т.д.).

Зауважимо, що незалежність двох вибірок зовсім на означає відсутність вимоги певного роду подібності цих вибірок (їх однорідності). Так, вивчаючи рівень доходу чоловіків і жінок, ми навряд чи припустимо таку ситуацію, коли чоловіки відбираються з-поміж московських бізнесменів, а жінки – з аборигенів Австралії. Жінки теж мають бути москвичками і, більше того – «бізнесвуменшами». Але тут ми говоримо не про залежність вибірок, а про вимогу однорідності сукупності об'єктів, що вивчається, яка повинна задовольнятися і при зборі, і при аналізі соціологічних даних.

Опр.Вибірки називаються залежними, або парними,якщо кожна одиниця однієї вибірки прив'язується до певної одиниці другої вибірки.

Останнє визначення, ймовірно, стане більш зрозумілим, якщо ми наведемо приклад залежних вибірок.

Припустимо, що ми хочемо з'ясувати, чи соціальний статус батька в середньому нижче соціального статусусина (думаємо, що ми можемо виміряти цю складну і неоднозначно розуміється соціальну характеристикулюдини). Зрозуміло, що в такій ситуації доцільно відбрати пари респондентів (батько, син) і вважати, що кожен елемент першої вибірки (один з батьків) «прив'язаний» до певного елементу другої вибірки (свого сина). Ці дві вибірки і називатимуться залежними.

8.2. Перевірка гіпотези для незалежних вибірок

Для незалежнихвибірок вибір критерію залежить від того, чи знаємо ми генеральні дисперсії s 1 2 і s 2 2 аналізованої ознаки для досліджуваних вибірок. Вважатимемо цю проблему вирішеною, вважаючи, що вибіркові дисперсіїзбігаються з генеральними. У такому разі як критерій виступає величина:

Перш ніж переходити до обговорення тієї ситуації, коли генеральні дисперсії (чи хоча б одна з них) нам невідомі, зауважимо таке.

Логіка використання критерію (8.1) схожа на ту, що була описана нами при розгляді критерію “Хі-квадрат” (7.2). Є лише одна важлива відмінність. Говорячи про зміст критерію (7.2), ми розглядали нескінченну кількість вибірок обсягу n, що «черпаються» з нашої генеральної сукупності. Тут же, аналізуючи зміст критерію (8.1), ми переходимо до розгляду нескінченної кількості парвибірок обсягом n1 і n2. Для кожної пари та розраховується статистика виду (8.1). Сукупності одержуваних значень таких статистик, відповідно до наших позначень, відповідає нормальний розподіл(Як ми домовилися, буква z використовується для позначення такого критерію, якому відповідає саме нормальний розподіл).

Отже, якщо генеральні дисперсії нам невідомі, то ми змушені замість них користуватися їх вибірковими оцінками s 1 2 та s 2 2 . Однак при цьому нормальний розподіл має замінитися на розподіл Стьюдента – z має замінитися на t (як це мало місце в аналогічній ситуації під час побудови довірчого інтервалудля математичного очікування. Проте за досить великих обсягах вибірок (n 1 , n 2 ³ 30) , як ми знаємо, розподіл Стьюдента практично збігається з нормальним. Іншими словами, при великих вибірках ми можемо продовжувати користуватися критерієм:

Складніша ситуація з такою ситуацією, коли і дисперсії невідомі, і обсяг хоча б однієї вибірки малий. Тоді набирає чинності ще один фактор. Вигляд критерію залежить від цього, чи можемо вважати невідомі нам дисперсії аналізованого ознаки у двох аналізованих вибірках рівними. Для з'ясування цього необхідно перевірити гіпотезу:

H 0: s 1 2 = s 2 2 . (8.3)

Для перевірки цієї гіпотези використовується критерій

Про специфіку використання цього критерію піде мованижче, а зараз продовжимо обговорювати алгоритм вибору критерію, який використовує для перевірки гіпотез про рівність математичних очікувань.

Якщо гіпотеза (8.3) відкидається, то цікавий для нас критерій набуває вигляду:

(8.5)

(Тобто відрізняється від критерію (8.2), що використовувався при великих вибірках, тим, що відповідна статистика має не нормальний розподіл, а розподіл Стьюдента). Якщо гіпотез (8.3) приймається, то вигляд критерію змінюється:

(8.6)

Підіб'ємо підсумок того, як вибирається критерій для перевірки гіпотези про рівність генеральних математичних очікувань на основі аналізу двох незалежних вибірок.

відомі

невідомі

розмір вибірок великий

H 0: s 1 = s 2 відкидається

Приймається

8.3. Перевірка гіпотези для залежних вибірок

Перейдемо до розгляду залежних вибірок. Нехай послідовності чисел

X 1, X 2, …, X n;

Y 1 , Y 2 , … , Y n –

це значення аналізованої випадкової елементів двох залежних вибірок. Введемо позначення:

D i = X i - Y i, i = 1, ..., n.

Для залежнихвибірок критерій, що дозволяє перевіряти гіпотезу

виглядає наступним чином:

Зауважимо, що щойно наведене вираз для s D є нічим іншим, як нове вираз для відомої формули, що виражає середнє квадратичне відхилення У даному випадку мова йдепро середнє квадратичне відхилення величин D i . Подібна формулачасто використовується практично як більш простий (порівняно з «лобовим» підрахунком суми квадратів відхилень значень аналізованої величини від відповідного середнього арифметичного) спосіб розрахунку дисперсії.

Якщо порівняти наведені формули з тими, які ми використовували під час обговорення принципів побудови довірчого інтервалу, неважко помітити, що перевірка гіпотези про рівність середніх для випадку залежних вибірок по суті є перевіркою рівності нулю математичного очікування величин D i . Величина

є середнє квадратичне відхилення для D i. Тому значення щойно описаного критерію t n -1 по суті дорівнює величині D i вираженої в частках середнього квадратичного відхилення. Як ми говорили вище (при обговоренні способів побудови довірчих інтервалів), за таким показником можна судити про ймовірність значення D i . Відмінність полягає в тому, що вище йшлося про просте середнє арифметичне, розподілене нормально, а тут – про середні різниці, такі середні мають розподіл Стьюдента. Але міркування про взаємозв'язок ймовірності відхилення вибіркового середнього арифметичного від нуля (при математичному очікуванні, що дорівнює нулю) з тим, скільки одиниць s це відхилення становить, залишаються в силі.

Порівняння середніх двох сукупностей має важливе значення практичне значення. На практиці часто трапляються випадки, коли середній результатоднієї серії експериментів відрізняється від середнього результату іншої серії. При цьому виникає питання, чи можна пояснювати виявлену розбіжність середніх неминучими. випадковими помилкамиексперименту чи воно викликано деякими закономірностями. У промисловості завдання порівняння середніх часто виникає при вибірковому контролі якості виробів, виготовлених на різних установках або за різних технологічних режимах, у фінансовому аналізі - при зіставленні рівня прибутковості різних активів і т.д.

Сформулюємо завдання. Нехай є дві сукупності, що характеризуються генеральними середніми та відомими дисперсіямив. Потрібно перевірити гіпотезу про рівність генеральних середніх, тобто. : =. Для перевірки гіпотези з цих сукупностей взято дві незалежні вибірки обсягів і, за якими знайдено середні арифметичні та вибіркові дисперсії. закон розподілу з математичним очікуванням та дисперсією.

Тому під час виконання гіпотези статистика

має стандартний нормальний розподіл N (0; 1).

Перевірка гіпотез про числових значенняхпараметрів

Гіпотези про числові значення зустрічаються в різних завданнях. Нехай - значення деякого параметра виробів, що виробляються верстатом автоматичної лінії, і нехай - номінальне значення цього параметра. кожне окреме значенняможе, звісно, ​​якось відхилятися від заданого номіналу. Очевидно, щоб перевірити правильність налаштування цього верстата, треба переконатися, що середнє значення параметра у вироблених у ньому виробів відповідатиме номіналу, тобто. перевірити гіпотезу проти альтернативної, або, або

При довільному налаштуванні верстата може виникнути необхідність перевірки гіпотези про те, що точність виготовлення виробів за даним параметром, що задається дисперсією, дорівнює заданій величині, тобто. або, наприклад, те, що частка бракованих виробів, вироблених верстатом, дорівнює заданій величині р 0 тобто. і т.д.

Аналогічні завдання можу виникнути, наприклад, у фінансовому аналізі, коли за даними вибірки треба встановити, чи можна вважати прибутковість активу певного видуабо портфеля цінних паперів, або його ризик дорівнює заданому числу; або за результатами вибіркової аудиторської перевірки однотипних документів потрібно переконатися, чи можна вважати відсоток допущених помилок рівним номіналу тощо.

У загальному випадкугіпотези подібного типумають вигляд, де - деякий параметр досліджуваного розподілу, а - область його конкретних значень, що складається окремо з одного значення.

5 листопада 2012 р. 5 листопада 2012 р. 5 листопада 2012 р. 5 листопада 2012 р. Лекція 6. Порівняння двох вибірок 6-1. Гіпотеза про рівність середніх. Парні вибірки 6-2.Довірчий інтервал для різниці середніх. Парні вибірки 6-3. Гіпотеза про рівність дисперсії 6-4. Гіпотеза про рівність часток 6-5. Довірчий інтервал для різниці часток


2 Іванов О.В., 2005 У цій лекції... У попередній лекції ми перевіряли гіпотезу про рівність середніх двох генеральних сукупностей і побудували довірчий інтервал для різниці середніх для незалежних вибірок. Тепер ми розглянемо критерій перевірки гіпотези про рівність середніх та побудуємо довірчий інтервал для різниці середніх у разі парних (залежних) вибірок. Потім у секції 6-3 перевірятиметься гіпотеза про рівність дисперсій, у секції 6-4 – гіпотеза про рівність часток. На закінчення ми побудуємо довірчий інтервал для різниці часток.


5 листопада 2012 р.5 листопада 2012 р.5 листопада 2012 р.5 листопада 2012 р. Гіпотеза про рівність середніх. Парні вибірки Постановка проблеми Гіпотези та статистика Послідовність дій


4 Іванов О.В., 2005 Парні вибірки. Опис проблеми Що ми маємо 1. Дві прості випадкові вибіркиотримані з двох генеральних сукупностей. Вибірки є парними (залежними). 2. Обидві вибірки мають обсяг n 30. Якщо ні, то обидві вибірки взято з нормально розподілених генеральних сукупностей. Що ми хочемо Перевірити гіпотезу про різницю середніх двох генеральних сукупностей:


5 Іванов О.В., 2005 Статистика для парних вибірок Для перевірки гіпотези використовується статистика: де - різницю між двома значеннями в одній парі - генеральне середнє для парних різниць - вибіркове середнє для парних різниць - стандартне відхиленнярізниць для вибірки - кількість пар


6 Іванов О.В., 2005 Приклад. Тренінг студентів Група з 15 студентів пройшла тест до тренінгу та після. Результати тесту у таблиці. Перевіримо гіпотезу для парних вибірок відсутність впливу тренінгу підготовку студентів лише на рівні значимості 0,05. Рішення. Підрахуємо різниці та їх квадрати. СтудентДопісля Σ= 21 Σ= 145


7 Іванов О.В., 2005 Рішення Крок 1. Основна та альтернативна гіпотези: Крок 2. Задано рівень значущості = 0,05. Крок 3. За таблицею для df = 15 - 1 = 14 знаходимо критичне значення t = 2,145 та записуємо критичну область: t > 2,145. 2,145."> 2,145."> 2,145." title="(!LANG:7 Іванов О.В., 2005 Рішення Крок 1. Основна та альтернативна гіпотези: Крок 2. Задано рівень значущості =0,05. Крок 3. По таблиці для df = 15 - 1 = 14 знаходимо критичне значення t = 2,145 і записуємо критичну область: t> 2,145."> title="7 Іванов О.В., 2005 Рішення Крок 1. Основна та альтернативна гіпотези: Крок 2. Задано рівень значущості = 0,05. Крок 3. За таблицею для df = 15 - 1 = 14 знаходимо критичне значення t = 2,145 та записуємо критичну область: t > 2,145."> !}




9 Іванов О.В., 2005 Рішення Статистика набуває значення: Крок 5. Порівняємо отримане значення з критичною областю. 1,889


5 листопада 2012 р.5 листопада 2012 р.5 листопада 2012 р.5 листопада 2012 р Довірчий інтервал для різниці середніх. Парні вибірки Постановка задачі Метод побудови довірчого інтервалу Приклад


11 Іванов О.В., 2005 Опис проблеми Що ми маємо Маємо дві випадкові парні (залежні) вибірки обсягу n із двох генеральних сукупностей. Генеральні сукупності мають нормальний закон розподілу з параметрами 1, 1 і 2, 2 чи обсяги обох вибірок 30. Що хочемо Оцінити середнє значення парних різниць для двох генеральних сукупностей. Для цього побудувати довірчий інтервал для середнього у вигляді:






5 листопада 2012 р.5 листопада 2012 р.5 листопада 2012 р.5 листопада 2012 р Гіпотеза про рівність дисперсій Постановка проблеми Гіпотези та статистика Послідовність дій Приклад


15 Іванов О.В., 2005 У ході дослідження ... Досліднику може знадобитися перевірити припущення, про рівність дисперсій двох генеральних сукупностей, що вивчаються. У разі, коли ці генеральні сукупності мають нормальний розподіл, для цього існує F-критерій, який також називається критерієм Фішера. На відміну від Стьюдента Фішер не працював на пивному заводі.


16 Іванов О.В., 2005 Опис проблеми Що ми маємо 1. Дві прості випадкові вибірки, отримані із двох нормально розподілених генеральних сукупностей. 2. Вибірки є незалежними. Це означає, що між суб'єктами вибірок немає зв'язку. Що ми хочемо Перевірити гіпотезу про рівність дисперсій генеральних сукупностей:














23 Іванов О.В., 2005 Приклад Дослідник-медик хоче перевірити, чи є різниця між частотою биття серця пацієнтів, що палять і не палять (кількість ударів за хвилину). Результати двох випадково відібраних груп наведено нижче. Використовуючи α = 0,05, з'ясуйте, чи правий медик. КурціНе палять


24 Іванов О.В., 2005 Рішення Крок 1. Основна та альтернативна гіпотези: Крок 2. Задано рівень значущості = 0,05. Крок 3. За таблицею для кількості ступенів свободи чисельника 25 та знаменника 17 знаходимо критичне значення f = 2,19 та критичну область: f > 2,19. Крок 4. За вибіркою обчислюємо значення статистики: 2,19. Крок 4. За вибіркою обчислюємо значення статистики: ">




5 листопада 2012 р.5 листопада 2012 р.5 листопада 2012 р.5 листопада 2012 р Гіпотеза про рівність часток Постановлення проблеми Гіпотези та статистика Послідовність дій


27 Іванов О.В., 2005 Питання Зі 100 випадково відібраних студентів соціологічного факультету 43 відвідують спецкурси. Зі 200 випадково відібраних студентів-економістів 90 відвідують спецкурси. Чи вирізняється частка студентів, які відвідують спецкурси, на соціологічному та економічному факультетах? Схоже, що суттєво не відрізняється. Як це перевірити? Частка відвідувачів спецкурсів – частка ознаки. 43 – кількість «успіхів». 43/100 – частка успіхів. Термінологія така сама, як у схемі Бернуллі.


28 Іванов О.В., 2005 Опис проблеми Що ми маємо 1. Дві прості випадкові вибірки, отримані із двох нормально розподілених генеральних сукупностей. Вибірки є незалежними. 2. Для вибірок виконано np 5 і nq 5. Це означає, що принаймні 5 елементів вибірки мають значення ознаки, що вивчається, і, принаймні, 5 не мають. Що ми хочемо Перевірити гіпотезу про рівність часток ознаки у двох генеральних сукупностях:






31 Іванов О.В., 2005 Приклад. Спецкурси двох факультетів Зі 100 випадково відібраних студентів соціологічного факультету 43 відвідують спецкурси. Зі 200 студентів-економістів 90 осіб відвідують спецкурси. На рівні значущості = 0,05, перевірте гіпотезу про те, що немає різниці між часткою відвідувачів спецкурсів на двох цих факультетах. 33 Іванов О.В., 2005 Рішення Крок 1. Основна та альтернативна гіпотези: Крок 2. Задано рівень значущості = 0,05. Крок 3. За таблицею нормального розподілу знаходимо критичні значення z = - 1,96 та z = 1,96 будуємо критичну область: z 1,96. Крок 4. За вибіркою обчислюємо значення статистики.


34 Іванов О.В., 2005 Рішення Крок 5. Порівняємо набуте значення з критичною областю. Отримане значення статистики не потрапило до критичної області. Крок 6. Формулюємо висновок. Немає підстав відкинути основну гіпотезу. Частка відвідувачів спецкурсів не відрізняється статистично значущою.


5 листопада 2012 р.5 листопада 2012 р.5 листопада 2012 р.5 листопада 2012 р Довірчий інтервал для різниці часток Постановка задачі Метод побудови довірчого інтервалу Приклад





Перевірка однорідності двох вибірок здійснюється за допомогою критерію Стьюдента (або t- Критерію). Розглянемо постановку завдання перевірки однорідності двох вибірок. Нехай зроблено дві вибірки обсягом та . Необхідно перевірити нульову гіпотезуу тому, що генеральні середні двох вибірок рівні. Тобто і . n 1

Перш ніж розглядати методику розв'язання задачі розглянемо деякі теоретичні положення, що використовуються для вирішення задачі. Відомий математик У.С. Держсет (ряд своїх робіт публікував під псевдонімом Стьюдент) довів, що статистика t(6.4) підпорядковується певному закону розподілу, який був названий законом розподілу Стьюдента (друга назва закону – ” t– розподіл”).

Середнє значення випадкової величини X;

Математичне очікуваннявипадкової величини X;

Середньоквадратичного відхилення середньої вибірки обсягу n.

Оцінка середньоквадратичного відхиленнясереднього розраховується за формулою (6.5):

Середньоквадратичного відхилення випадкової величини X.

Розподіл Стьюдента має один параметр – кількість ступенів свободи.

Тепер повернемося до вихідної постановки завдання з двома вибірками та розглянемо випадкову величинурівну різниці середніх двох вибірок (6.6):

(6.6)

За умови виконання гіпотези про рівність генеральних середніх справедливо (6.7):

(6.7)

Перепишемо співвідношення (6.4) стосовно нашої нагоди:

Оцінка середньоквадратичного відхилення може бути виражена через оцінку середньоквадратичного відхилення об'єднаної сукупності (6.9):

(6.9)

Оцінка дисперсії об'єднаної сукупності може бути виражена через оцінки дисперсії, розраховані за двома вибірками та :

(6.10)

З урахуванням формули (6.10) співвідношення (6.9) можна переписати як (6.11). Співвідношення (6.9) є основним розрахунковою формулоюзавдання порівняння середніх:

При підстановці значення формулу (6.8) матимемо вибіркове значення t-Критерія. За таблицями розподілу Стьюдента за кількістю ступенів свободи і заданому рівні значущості можна визначити. Тепер, якщо , то гіпотеза про рівність двох середніх відкидається.

Розглянемо приклад виконання розрахунків для перевірки гіпотези рівності двох середніх EXCEL. Сформуємо таблицю даних (рис. 6.22). Дані згенеруємо за допомогою програми генерації випадкових чиселпакету ”Аналіз даних”:

X1 вибірка із нормального розподілу з параметрами обсягом;

X2 вибірка з нормального розподілу з параметрами об'ємом;

X3 вибірка із нормального розподілу з параметрами обсягом;

X4 - вибірка з нормального розподілу з параметрами обсягом.


Перевіримо гіпотезу рівності двох середніх (X1-X2), (X1-X3), (X1-X4). Спочатку розрахуємо параметри вибірок ознак X1-X4 (рис. 6.23). Потім розрахуємо значення t- Критерію. Розрахунки виконає за допомогою формул (6.6) – (6.9) EXCEL. Результати розрахунків зведемо до таблиці (рис. 6.24).

Рис. 6.22. Таблиця даних

Рис. 6.23. Параметри вибірок ознак X1-X4

Рис. 6.24. Зведена таблиця розрахунку значень t– критерії для пар ознак (X1-X2), (X1-X3), (X1-X4)

За результатами, наведеними у таблиці на рис. 6.24 можна зробити висновок, що для пари ознак (X1-X2) гіпотеза рівності двох середніх ознак відкидається, а для пар ознак (X1-X3), (X1-X4) гіпотезу можна вважати справедливою.

Такі ж результати можна отримати за допомогою програми “Двовибірковий t-Тест з однаковими дисперсіями” пакета Аналіз даних. Інтерфейс програми наведено на рис. 6.25.

Рис. 6.25. Параметри програми “Двовибірковий t- тест із однаковими дисперсіями”

Результати розрахунків перевірки гіпотез рівності двох середніх пар ознак (X1-X2), (X1-X3), (X1-X4), отримані за допомогою програми, наведені на рис. 6.26-6.28.

Рис. 6.26. Розрахунок значення t– критерії для пари ознак (X1-X2)

Рис. 6.27. Розрахунок значення t– критерії для пари ознак (X1-X3)

Рис. 6.28. Розрахунок значення t– критерії для пари ознак (X1-X4)

Двовибірковий t-тест з однаковими дисперсіями інакше називається t-тестом із незалежними вибірками. Велике поширеннятак само отримав t-тестом із залежними вибірками. Ситуація, коли необхідно застосовувати цей критерій виникає тоді, коли та сама випадкова величина піддається виміру двічі. Кількість спостережень обох випадках однакова. Введемо позначення для двох послідовних вимірювань деякої властивості одних і тих же об'єктів, а різницю двох послідовних вимірювань позначимо:

У цьому випадку формула для вибіркового значення критерію набуває вигляду:

, (6.13)

(6.15)

У цьому випадку кількість ступенів свободи. Перевірку гіпотези можна виконати за допомогою програми “Парний двовибірковий t-Тест” пакету аналізу даних (рис. 6.29).

Рис. 6.29. Параметри програми “Парний двовибірковий t-тест”

6.5. Дисперсійний аналіз - класифікація за однією ознакою (F - критерій)

У дисперсійному аналізі перевіряється гіпотеза, яка є узагальненням гіпотези рівності двох середніх у разі, коли перевіряється гіпотеза рівності одночасно кількох середніх. У дисперсійному аналізі досліджується ступінь впливу однієї чи кількох факторних ознак на результативну ознаку. Ідея дисперсійного аналізуналежить Р. Фішеру. Він використав його для обробки результатів агрономічних дослідів. Дисперсійний аналіз застосовується для встановлення суттєвості впливу якісних факторівна досліджувану величину. Англійська скорочена назва дисперсійного аналізу – ANOVA (analysis variation).

Загальна формаподання даних із класифікацією за однією ознакою подана у таблиці 6.1.

Таблиця 6.1. Форма подання даних із класифікацією за однією ознакою

Розглянемо дві незалежні вибірки x 1 , x 2 , …. та дисперсія σ 2 невідомі. Потрібно перевірити основну гіпотезу Н 0: μ x = μ y при конкуруючій Н 1: μ x μ y .

Як відомо, вибіркові середні і будуть мати властивості: ~N(μ x , σ 2 /n), ~ N(μ y , σ 2 /m).

Їхня різниця - нормальна величина із середнім і дисперсією, так що

~ (23).

Припустимо, що основна гіпотеза Н 0 вірна: μ x –μ y =0. Тоді і, ділячи величину її стандартне відхилення, отримаємо стандартну нормальну сл. Величину ~N(0,1).

Раніше наголошувалося, що сл. величина розподілена згідно із законом з (n-1)-им ступенем свободи, a - згідно із законом з (m-1) ступенем свободи. З урахуванням незалежності цих двох сум, отримуємо, що їх Загальна сума розподілена згідно із законом з n+m-2 ступенями свободи.

Згадуючи п.7, бачимо, що дріб підпорядковується t-розподілу (Стьюдента) з ν=m+n-2 ступенями свободи: Z=t. Цей факт має місце лише тоді, коли істинна гіпотеза Н0.

Замінюючи ξ і Q їх виразами, отримаємо розгорнуту форнулу Z:

(24)

Величина Z, звана статистикою критерію, дозволяє прийняти рішення за такої послідовності дій:

1. Встановлюється область D=[-t β,ν , +t β,ν ], що містить β=1–α площі під кривою t ν –розподілу (табл.10).

2. Обчислюється за формулою (24) дослідне значення Z on статистики Z, для чого замість X 1 та Y 1 підставляються значення x 1 та y 1 конкретних вибірок, а також їх вибіркові середні та .

3. Якщо Z on D, то гіпотеза Н 0 вважається такою, що не суперечить досвідченим даним і приймається.

Якщо Z on D, приймається гіпотеза Н 1 .

Якщо гіпотеза Н 0 вірна, то Z підпорядковується відомому t ν -розподілу з нульовим середнім і з високою ймовірністю β=1-α потрапляє в D-область прийняття гіпотези Н 0 . Коли спостерігається, досвідчене значення Z on потрапляє до D. Ми розглядаємо це свідчення на користь гіпотези Н 0 .

Коли ж Z 0 n лежить за межами D (як кажуть, лежить у критичній ділянці К), що природно, якщо вірна гіпотеза Н 1 , але малоймовірно, якщо вірна Н 0 , то залишається відхилити гіпотезу Н 0 , прийнявши H 1 .

Приклад 31.

Порівнюються дві марки бензину: А і В. На 11 автомашинах однакової потужності по кільцевому шасі випробуваний по разу Бензин марки А і В. Одна машина в дорозі вийшла з ладу для неї дані по бензину відсутні.

Витрата бензину в перерахунку на 100 км колії

Таблиця 12

i
X i 10,51 11,86 10,5 9,1 9,21 10,74 10,75 10,3 11,3 11,8 10,9 n=11
У i 13,22 13,0 11,5 10,4 11,8 11,6 10,64 12,3 11,1 11,6 - m=10

Дисперсія витрати бензину марок А та В невідома і передбачається однаковою. Чи можна при рівні значущості α=0,05 прийняти гіпотезу про те, що справжні середні витрати μА та μВ цих видів бензину однакові?

Рішення. Перевірку гіпотези Н 0: μ А - μ В = 0 при конкуруючій. Н 1:μ 1 μ 2 робимо за пунктами:

1. Знаходимо вибіркові середні та суму квадратів відхилень Q.

;

;

2. Обчислюємо дослідне значення статистики Z

3. Знаходимо з таблиці 10 t-розподілу межу t β,ν для числа ступенів свободи ν=m+n–2=19 та β=1–α=0.95. У таблиці 10 є t 0.95.20 = 2,09 та t 0.95.15 = 2,13, але немає t 0.95.19 . Знаходимо інтерполяцією t 0.95.19 = 2,09 + = 2,10.

4. Перевіряємо, у якій із двох областей D чи К лежить число Z on . Zon=-2,7 D=[-2,10; -2,10].

Оскільки спостережене значення Z on лежить у критичній ділянці, К=RD, то відкидаємо. Н 0 і досліджуємо гіпотезу Н 1 . У цьому випадку і говорять, що їх різниця значуща. Якби за всіх умов цього прикладу змінилося лише Q, скажімо, Q вдвічі зросло, то змінився б і наш висновок. Збільшення Q вдвічі призвело до зменшення в рази величини Z on і тоді число Zon потрапило б у допустиму область D, так що гіпотеза H 0 витримала б перевірку та була прийнята. У цьому випадку розбіжність між і пояснювалося б природним розкидом даних, а не тим, що μ А μ В.

Теорія перевірки гіпотез дуже велика, гіпотези може бути про вигляді закону розподілу, про однорідність вибірок, про незалежність сл.величини тощо.

КРИТЕРІЙ з 2 (ПІРСОНА)

Найпоширеніший практично критерій перевірки простий гіпотези. Застосовується, коли закон розподілу невідомий. Розглянемо випадкову величину X, над якою проведено n незалежних випробувань. Отримано реалізацію x 1 , x 2 ,...,x n . Необхідно перевірити гіпотезу про закон розподілу цієї випадкової величини.

Розглянемо випадок простий гіпотези. Проста гіпотеза перевіряє узгодження вибірки з генеральною сукупністю, Що має нормальний розподіл (відоме). За вибірками будуємо варіаційний ряд x (1), x (2), ..., x (n). Інтервал розбиваємо на підінтервали. Нехай цих інтервалів r. Тоді знайдемо ймовірність попадання X в результаті випробування в інтервал Di, i = 1, ..., r у разі істинності гіпотези, що перевіряється.

Критерій перевіряє не істинність ймовірності, а істинність чисел

З кожним інтервалом Di зв'яжемо випадкова подія A i - попадання в цей інтервал (потрапляння в результаті випробування над X її результату реалізації Di). Введемо випадкові величини. m i - кількість випробувань з проведених n, в яких сталася подія A i . m i розподілені за біноміальним законом і у разі істинності гіпотези

Dm i =np i (1-p i)

Критерій з 2 має вигляд

p 1 +p 2 +...+p r =1

m 1 +m 2 +...+m r =n

Якщо гіпотеза, що перевіряється, вірна, то m i представляє частоту появи події, що має в кожному з n проведених випробувань ймовірність p i , отже, ми можемо розглядати m i як випадкову величину, що підпорядковується биномиальному закону з центром в точці np i . Коли n велике, можна вважати, що частота розподілена асимптотично нормально з тими самими параметрами. За правильності гіпотези слід очікувати, що будуть асимптотично нормально розподілені

пов'язані між собою співвідношенням

Як міру розбіжності даних вибірки m 1 +m 2 +...+m r з теоретичними np 1 +np 2 +...+np r розглянемо величину

c 2 - сума квадратів асимптотично нормальних величинпов'язаних лінійною залежністю. Ми раніше зустрічалися вже з аналогічним випадком та знаємо, що наявність лінійного зв'язкупризвело до зменшення одиницю числа ступенів свободи.

Якщо гіпотеза вірна, то критерій c 2 має розподіл, що прагне при n®¥ до розподілу c 2 з r-1 ступенями свободи.

Припустимо, що гіпотеза неправильна. Тоді існує тенденція до збільшення доданків у сумі, тобто. якщо гіпотеза невірна, то ця сума потраплятиме в якусь область великих значеньз 2 . Як критична область візьмемо область позитивних значенькритерію


У разі невідомих параметрів розподілу кожен параметр зменшує на одиницю кількість ступенів свободи для критерію Пірсона