Биографии Характеристики Анализ

Проверка на хипотезата, че средната стойност е равна на определена стойност. Проверка на хипотезата, че средната стойност е равна на дадена стойност a

8.1. Концепцията за зависими и независими проби.

Избор на критерий за проверка на хипотеза

се определя основно от това дали разглежданите проби са зависими или независими. Нека въведем съответните определения.

Деф.Пробите се наричат независима, ако процедурата за избор на единици в първата извадка по никакъв начин не е свързана с процедурата за избор на единици във втората извадка.

Пример за две независими извадки са разгледаните по-горе извадки от мъже и жени, работещи в едно и също предприятие (в една и съща индустрия и т.н.).

Обърнете внимание, че независимостта на две проби не означава, че няма изискване за определен вид сходство на тези проби (тяхната хомогенност). По този начин, изучавайки нивото на доходите на мъжете и жените, е малко вероятно да допуснем такава ситуация, когато мъжете са избрани от средата на московските бизнесмени, а жените от аборигените на Австралия. Жените също трябва да бъдат московчани и освен това „бизнес дами“. Но тук не говорим за зависимостта на извадките, а за изискването за хомогенност на изследваното множество от обекти, което трябва да бъде изпълнено както при събирането, така и при анализа на социологически данни.

Деф.Пробите се наричат зависими или сдвоени,ако всяка единица от една извадка е "обвързана" с конкретна единица от втората извадка.

Последното определение вероятно ще стане по-ясно, ако дадем пример за зависими проби.

Да предположим, че искаме да разберем дали социалният статус на бащата е средно по-нисък от социален статуссин (вярваме, че можем да измерим това сложно и двусмислено социална характеристикалице). Изглежда очевидно, че в такава ситуация е целесъобразно да се подберат двойки респонденти (баща, син) и да се приеме, че всеки елемент от първата извадка (един от бащите) е „свързан” с определен елемент от втората извадка (неговият син). Тези две проби ще се наричат ​​зависими.

8.2. Проверка на хипотези за независими извадки

За независимаизборът на критерии зависи от това дали знаем общи отклонения s 1 2 и s 2 2 на разглеждания признак за изследваните проби. Считаме този проблем за разрешен, ако приемем, че примерни отклонениясъответстват на общите. В този случай критерият е стойността:

Преди да преминем към обсъждане на ситуацията, когато общите отклонения (или поне една от тях) са ни неизвестни, отбелязваме следното.

Логиката на използване на критерия (8.1) е подобна на тази, която беше описана от нас при разглеждането на критерия "хи-квадрат" (7.2). Има само една фундаментална разлика. Говорейки за значението на критерия (7.2), ние разгледахме безкраен брой извадки с размер n, „извадени“ от нашата обща популация. Тук, анализирайки значението на критерия (8.1), преминаваме към разглеждането на безкраен брой парапроби с размер n 1 и n 2 . За всяка двойка и се изчислява статистика от формата (8.1). Съвкупността от получените стойности на такава статистика, в съответствие с нашата нотация, съответства на нормална дистрибуция(както се съгласихме, буквата z се използва за обозначаване на такъв критерий, който съответства на нормалното разпределение).

Така че, ако общите вариации са неизвестни за нас, тогава сме принудени да ги използваме вместо тях. примерни оценки s 1 2 и s 2 2 . В този случай обаче нормалното разпределение трябва да бъде заменено с разпределението на Стюдънт - z трябва да бъде заменено с t (както беше в подобна ситуация при конструирането доверителен интервалза математическо очакване). Но при достатъчно големи размери на извадката (n 1 , n 2 ³ 30), както вече знаем, разпределението на Стюдънт практически съвпада с нормалното. С други думи, с големи проби можем да продължим да използваме критерия:

Ситуацията е по-сложна, когато и двете дисперсии са неизвестни и размерът на поне една извадка е малък. Тогава друг фактор влиза в действие. Видът на критерия зависи от това дали можем да считаме неизвестните вариации на разглеждания признак в двете анализирани извадки за равни. За да разберем, трябва да проверим хипотезата:

H 0: s 1 2 = s 2 2 . (8.3)

За проверка на тази хипотеза се използва критерият

Относно спецификата на използването на този критерий ще бъдат обсъденипо-долу, а сега ще продължим да обсъждаме алгоритъма за избор на критерий, който се използва за тестване на хипотези за равенството на математическите очаквания.

Ако хипотезата (8.3) бъде отхвърлена, тогава критерият, който ни интересува, приема формата:

(8.5)

(т.е. той се различава от теста (8.2), използван за големи извадки по това, че съответната статистика няма нормално разпределение, а разпределение на Стюдънт). Ако се приеме хипотезата (8.3), тогава видът на използвания критерий се променя:

(8.6)

Нека обобщим как е избран критерият за проверка на хипотезата за равенство на общите математически очаквания въз основа на анализа на две независими извадки.

известен

неизвестен

размерът на извадката е голям

H 0: s 1 = s 2 се отхвърля

приет

8.3. Проверка на хипотези за зависими извадки

Нека да преминем към разглеждане на зависими проби. Нека поредици от числа

X 1 , X 2 , … , X n ;

Y 1, Y 2, …, Y n –

това са стойностите на разглежданите произволни за елементите на две зависими проби. Нека въведем обозначението:

D i = X i - Y i , i = 1, ... , n.

За зависимкритерий за вземане на проби, който ви позволява да тествате хипотеза

както следва:

Обърнете внимание, че току-що даденият израз за s D не е нищо друго освен нов израз за известна формулаизразяваща стандартното отклонение. AT този случай говорим сиотносно стандартното отклонение на стойностите D i . Подобна формулачесто се използва в практиката като по-прост (в сравнение с изчислението "напред" на сумата от квадратните отклонения на стойностите на разглежданото количество от съответното средно аритметично) метод за изчисляване на дисперсията.

Ако сравним горните формули с тези, които използвахме, когато обсъждахме принципите за конструиране на доверителен интервал, лесно е да видим, че тестването на хипотезата за равенството на средните за случая на зависими извадки е по същество тест за равенство на нула на математическото очакване на стойностите D i . Стойност

е стандартното отклонение за D i . Следователно стойността на току-що описания критерий t n -1 е по същество равна на стойността на D i, изразена в части от средната стандартно отклонение. Както казахме по-горе (когато обсъждаме методите за конструиране на доверителни интервали), този индикатор може да се използва за преценка на вероятността на разглежданата стойност D i . Разликата е, че по-горе говорихме за проста средна аритметична, нормално разпределена, а тук говорим за средни разлики, такива средни имат разпределение на Стюдънт. Но аргументите относно връзката между вероятността за отклонение на средната аритметична извадка от нула (с математическо очакване равно на нула) и колко единици s е това отклонение остават валидни.

Сравняването на средните стойности на две популации е важно практическа стойност. На практика често има случаи, когато среден резултатедна серия от експерименти се различава от средния резултат от друга серия. Това повдига въпроса дали е възможно да се обясни наблюдаваното несъответствие между средните стойности с неизбежното случайни грешкиексперимент или е причинено от някакви модели. В промишлеността задачата за сравняване на средни стойности често възниква при вземане на проби от качеството на продуктите, произведени на различни инсталации или при различни технологични режими, във финансовия анализ - при сравняване на нивото на рентабилност на различни активи и др.

Да формулираме задачата. Нека има две популации, характеризиращи се с общи средства и и известни отклоненияи. Необходимо е да се провери хипотезата за равенството на генералните средни, т.е. :=. За да се тества хипотезата, от тези популации бяха взети две независими извадки от обеми и , за които бяха намерени средните аритметични и и дисперсии на извадката и. При достатъчно големи размери на извадката средните извадки и имат съответно приблизително нормален закон на разпределение и , Ако хипотезата е вярна, разликата - има нормален закон на разпределение с математическо очакване и дисперсия.

Следователно, когато хипотезата е изпълнена, статистиката

има стандартно нормално разпределение N(0; 1).

Проверка на хипотези за числови стойностипараметри

Хипотези за числови стойности се срещат в различни проблеми. Нека са стойностите на някой параметър на продуктите, произведени от автоматичната машина, и нека е дадената номинална стойност на този параметър. всеки отделна стойностможе, разбира се, по някакъв начин да се отклони от дадената номинална стойност. Очевидно, за да проверите правилните настройки на тази машина, трябва да се уверите, че средната стойност на параметъра за продуктите, произведени на нея, ще съответства на номиналната стойност, т.е. тествайте хипотеза срещу алтернатива, или, или

При произволна настройка на машината може да се наложи да се провери хипотезата, че точността на производството на продукти за даден параметър, даден от дисперсията, е равна на дадена стойност, т.е. или, например, фактът, че делът на дефектните продукти, произведени от машината, е равен на дадената стойност p 0, т.е. и т.н.

Подобни проблеми могат да възникнат например във финансовия анализ, когато според примерните данни е необходимо да се установи дали е възможно да се изчисли възвръщаемостта на даден актив определен видили портфейл от ценни книжа, или неговия риск, равен на дадено число; или, въз основа на резултатите от селективен одит на подобни документи, трябва да се уверите дали процентът на направените грешки може да се счита за равен на номиналната стойност и т.н.

AT общ случайхипотези този видимат формата, където е определен параметър на изследваното разпределение и е областта на неговите специфични стойности, състояща се в конкретен случай от една стойност.

5 ноември 2012 г. 5 ноември 2012 г. 5 ноември 2012 г. 5 ноември 2012 г. Лекция 6. Сравнение на две проби 6-1. Хипотеза за равенството на средствата. Сдвоени проби 6-2 Доверителен интервал за средна разлика. Сдвоени проби 6-3. Хипотезата за еднаква вариация 6-4. Хипотезата за равенството на дяловете 6-5. Доверителен интервал за разликата в дяловете


2 Иванов О.В., 2005 В тази лекция... В предишната лекция тествахме хипотезата за равенството на средните на две генерални съвкупности и изградихме доверителен интервал за разликата на средните за случая на независими извадки. Сега разглеждаме критерия за тестване на хипотезата за равенство на средните стойности и конструираме доверителен интервал за разликата в средните стойности в случай на сдвоени (зависими) проби. След това, в раздел 6-3, ще бъде тествана хипотезата за равенство на вариациите, в раздел 6-4, хипотезата за равенство на дяловете. Накрая конструираме доверителен интервал за разликата в дяловете.


5 ноември 2012 г. 5 ноември 2012 г. 5 ноември 2012 г. 5 ноември 2012 г. Хипотеза за равенство на средствата. Сдвоени проби Постановка на проблема Хипотези и статистика Последователност от действия Пример


4 Иванов О.В., 2005 Сдвоени проби. Описание на проблема Какво имаме 1. Две прости произволни пробиполучени от две популации. Пробите са сдвоени (зависими). 2. И двете проби имат размер n 30. Ако не, тогава и двете проби са взети от нормално разпределени популации. Какво искаме да тестваме хипотезата за разликата между средните стойности на две популации:


5 Иванов О.В., 2005 Статистика за сдвоени извадки За тестване на хипотеза се използват статистики: където - разликата между две стойности в една двойка - общата средна стойност за сдвоените разлики - средната извадка за сдвоените разлики - стандартно отклонениеразлики за извадката - брой двойки


6 Иванов О.В., 2005 Пример. Обучение на студенти Група от 15 студенти взеха тест преди и след обучението. Резултатите от теста в таблицата. Нека проверим хипотезата за сдвоени извадки за липсата на влияние на обучението върху подготовката на учениците при ниво на значимост 0,05. Решение. Нека изчислим разликите и техните квадрати. Студент ПредиСлед Σ= 21 Σ= 145


7 Иванов О.В., 2005 Решение Стъпка 1. Основни и алтернативни хипотези: Стъпка 2. Задава се ниво на значимост =0,05. Стъпка 3. Според таблицата за df = 15 - 1=14 намираме критичната стойност t = 2.145 и записваме критичната област: t > 2.145. 2.145."> 2.145."> 2.145." title="(!LANG:7 Ivanov O.V., 2005 Решение Стъпка 1. Основни и алтернативни хипотези: Стъпка 2. Задава се ниво на значимост = 0.05. Стъпка 3. Чрез В таблицата за df = 15 - 1=14 намираме критичната стойност t = 2,145 и записваме критичната област: t > 2,145."> title="7 Иванов О.В., 2005 Решение Стъпка 1. Основни и алтернативни хипотези: Стъпка 2. Задава се ниво на значимост =0,05. Стъпка 3. Според таблицата за df = 15 - 1=14 намираме критичната стойност t = 2.145 и записваме критичната област: t > 2.145."> !}




9 Иванов О.В., 2005 Статистика на решението приема стойността: Стъпка 5. Нека сравним получената стойност с критичната област. 1,889


5 ноември 2012 г. 5 ноември 2012 г. 5 ноември 2012 г. 5 ноември 2012 г. Доверителен интервал за средната разлика. Сдвоени проби Постановка на проблема Метод за конструиране на доверителен интервал Пример


11 Иванов О.В., 2005 Описание на проблема Какво имаме Имаме две произволни сдвоени (зависими) извадки с размер n от две генерални съвкупности. Популациите имат нормално разпределение с параметри 1, 1 и 2, 2 или и двата размера на извадката са 30. Това, което искаме да оценим средната стойност на разликите по двойки за две популации. За да направите това, изградете доверителен интервал за средната стойност във формата:






5 ноември 2012 г. 5 ноември 2012 г. 5 ноември 2012 г. 5 ноември 2012 г. Хипотеза за равна вариация Постановка на проблема Хипотези и статистика Последователност от действия Пример


15 Иванов О.В., 2005 В хода на изследването... Изследователят може да се наложи да провери предположението, че дисперсиите на двете изследвани популации са равни. В случай, че тези генерални съвкупности имат нормално разпределение, има F-тест за това, наричан още тест на Фишер. За разлика от Студент, Фишер не е работил в пивоварна.


16 Иванов О.В., 2005 Описание на проблема Какво имаме 1. Две прости произволни извадки, получени от две нормално разпределени популации. 2. Пробите са независими. Това означава, че няма връзка между субектите на пробите. Какво искаме да тестваме хипотезата за равенство на вариациите на съвкупността:














23 Иванов О. В., 2005 г. Пример Медицински изследовател иска да провери дали има разлика между сърдечната честота на пушачи и непушачи (брой удари в минута). Резултатите от две произволно избрани групи са показани по-долу. Използвайки α = 0,05, разберете дали лекарят е прав. Пушачи Непушачи


24 Иванов О.В., 2005 Решение Стъпка 1. Основни и алтернативни хипотези: Стъпка 2. Задава се ниво на значимост =0,05. Стъпка 3. Според таблицата за броя на степените на свобода на числителя 25 и знаменателя 17 намираме критичната стойност f = 2,19 и критичната област: f > 2,19. Стъпка 4. Въз основа на извадката изчисляваме стойността на статистиката: 2.19. Стъпка 4. Въз основа на извадката изчисляваме стойността на статистиката: ">




5 ноември 2012 г. 5 ноември 2012 г. 5 ноември 2012 г. 5 ноември 2012 г. Хипотеза за равенство на дяловете Постановка на проблема Хипотези и статистика Последователност от действия Пример


27 Иванов О. В., 2005 г. Въпрос От 100 произволно избрани студенти на Социологическия факултет 43 посещават специални курсове. От 200 произволно избрани студенти по икономика 90 посещават специални курсове. Различава ли се делът на студентите, посещаващи специални курсове, в отделите по социология и икономика? Не изглежда да се различава значително. Как да го проверя? Делът на посещаващите специални курсове е делът на функцията. 43 - броят на "успехите". 43/100 - дял от успеха. Терминологията е същата като в схемата на Бернули.


28 Иванов О. В., 2005 Описание на проблема Какво имаме 1. Две прости произволни извадки, получени от две нормално разпределени популации. Пробите са независими. 2. За проби са изпълнени np 5 и nq 5. Това означава, че поне 5 елемента от извадката имат изследваната стойност на характеристиката и поне 5 не. Какво искаме да тестваме хипотезата за равенството на дяловете на признака в две общи популации:






31 Иванов О.В., 2005 Пример. Специални курсове на два факултета От 100 случайно избрани студенти на Факултета по социология 43 посещават специални курсове. От 200 студенти по икономика 90 посещават специални курсове. При ниво на значимост = 0,05, проверете хипотезата, че няма разлика между дела на посещаването на специални курсове в тези два факултета. 33 Иванов О.В., 2005 Решение Стъпка 1. Основни и алтернативни хипотези: Стъпка 2. Задава се ниво на значимост =0,05. Стъпка 3. Според таблицата с нормално разпределение намираме критичните стойности z = – 1.96 и z = 1.96 и изграждаме критичната област: z 1.96. Стъпка 4. Въз основа на извадката изчисляваме стойността на статистиката.


34 Иванов О.В., 2005 Решение Стъпка 5. Нека сравним получената стойност с критичната област. Получената статистическа стойност не попада в критичната област. Стъпка 6. Ние формулираме заключението. Няма причина да отхвърлим основната хипотеза. Делът на посещаващите специални курсове не се различава статистически значимо.


5 ноември 2012 г. 5 ноември 2012 г. 5 ноември 2012 г. 5 ноември 2012 г.





Проверката на хомогенността на две проби се извършва с помощта на t-теста на Student (или T- критерии). Помислете за постановката на проблема за проверка на хомогенността на две проби. Нека има две проби с размер и . Трябва да се провери нулева хипотезаче общите средни стойности на двете извадки са равни. Тоест и . n 1

Преди да разгледате методологията за решаване на проблема, разгледайте някои теоретични положенияизползвани за решаване на проблема. Известният математик W.S. Госет (който публикува редица свои произведения под псевдонима Студент) доказа тази статистика T(6.4) се подчинява на определен закон за разпределение, който по-късно е наречен закон за разпределение на Стюдент (второто име на закона е ” T– разпространение”).

Средна стойност на случайна променлива х;

Очаквана стойностслучайна величина х;

Стандартно отклонение на средния обем на пробата н.

Степен стандартно отклонениесредната стойност се изчислява по формулата (6.5):

Стандартното отклонение на случайна променлива х.

Разпределението на Стюдънт има един параметър - броят на степените на свобода.

Нека сега се върнем към първоначалната формулировка на проблема с две извадки и да разгледаме случайна величинаравна на разликата между средните стойности на две проби (6.6):

(6.6)

При условие, че е изпълнена хипотезата за равенство на генералните средни, (6.7) е вярно:

(6.7)

Нека пренапишем връзката (6.4) за нашия случай:

Оценката на стандартното отклонение може да бъде изразена чрез оценка на комбинираното стандартно отклонение на популацията (6.9):

(6.9)

Оценката на дисперсията на обединената съвкупност може да бъде изразена по отношение на оценките на дисперсията, изчислена от две извадки и:

(6.10)

Като се има предвид формула (6.10), връзката (6.9) може да бъде пренаписана във формата (6.11). Съотношението (6.9) е основното формула за изчислениепроблеми със средното сравнение:

При заместване на стойността във формула (6.8) ще имаме примерна стойност T- критерии. По таблиците за разпределение на Стюдънт с броя на степените на свобода и може да се определи дадено ниво на значимост. Сега, ако , тогава хипотезата за равенството на двете средства се отхвърля.

Помислете за пример за извършване на изчисления за проверка на хипотезата за равенство на две средни стойности в EXCEL. Да формираме таблица с данни (фиг. 6.22). Ние ще генерираме данни с помощта на програмата за генериране произволни числапакет „Анализ на данни”:

X1 извадка от нормално разпределение с параметри сила на звука ;

X2 е извадка от нормално разпределение с обемни параметри;

X3 извадка от нормално разпределение с параметри сила на звука ;

X4 извадка от нормално разпределение с параметри сила на звука.


Нека проверим хипотезата за равенство на две средни (X1-X2), (X1-X3), (X1-X4). В началото изчисляваме параметрите на образци на характеристики X1-X4 (фиг. 6.23). След това изчисляваме стойността T- критерии. Изчисленията се извършват по формули (6.6) - (6.9) в EXCEL. Резултатите от изчисленията обобщаваме в таблица (фиг. 6.24).

Ориз. 6.22. таблица с данни

Ориз. 6.23. Параметри за избор на характеристики X1-X4

Ориз. 6.24. Обобщена таблица за изчисляване на стойности T– критерии за двойки функции (X1-X2), (X1-X3), (X1-X4)

Според резултатите, дадени в таблицата на фиг. 6.24 можем да заключим, че за двойка характеристики (X1-X2) хипотезата за равенство на средните стойности на две характеристики се отхвърля, а за двойки характеристики (X1-X3), (X1-X4) хипотезата може да се считат за справедливи.

Същите резултати могат да се получат с помощта на програмата „Двупробни T-тест със същите вариации” на пакета Data Analysis. Интерфейсът на програмата е показан на фиг. 6.25.

Ориз. 6.25. Параметрите на програмата “Две проби T- тест с еднакви дисперсии”

Резултатите от изчисленията за проверка на хипотезите за равенство на две средни двойки характеристики (X1-X2), (X1-X3), (X1-X4), получени с помощта на програмата, са показани на фиг. 6.26-6.28.

Ориз. 6.26. Изчисляване на стойността T– критерий за двойка функции (X1-X2)

Ориз. 6.27. Изчисляване на стойността T– критерий за двойка функции (X1-X3)

Ориз. 6.28. Изчисляване на стойността T– критерий за двойка характеристики (X1-X4)

двупробен Tтест с равни дисперсии също се нарича T- тест с независими проби. Страхотно разпространениесъщо получи T-тест със зависими проби. Ситуацията, когато е необходимо да се приложи този критерий, възниква, когато една и съща случайна променлива се измерва два пъти. Броят на наблюденията и в двата случая е еднакъв. Нека въведем нотацията за две последователни измервания на някакво свойство на едни и същи обекти и , , и да обозначим разликата от две последователни измервания като:

В този случай формулата за извадкова стойност на критерия приема формата:

, (6.13)

(6.15)

В този случай броят на степените на свобода е . Проверката на хипотезата може да се извърши с помощта на програмата „Сдвоена двойна извадка T-test” на пакета за анализ на данни (фиг. 6.29).

Ориз. 6.29. Параметри на програмата „Сдвоена двупробна T-тест"

6.5. Дисперсионен анализ - класификация по един признак (F - критерий)

При дисперсионния анализ се тества хипотеза, която е обобщение на хипотезата за равенство на две средни за случая, когато се тества хипотезата за равенство на няколко средни едновременно. При дисперсионния анализ се изследва степента на влияние на един или повече факторни признаци върху ефективния признак. Идея дисперсионен анализпринадлежи на Р. Фишер. Той го използва за обработка на резултатите от агрономически опити. Анализът на дисперсията се използва за определяне на значимостта на въздействието качествени факторикъм изследваната стойност. Английското съкращение за дисперсионен анализ е ANOVA (analysis variation).

Обща формапредставяне на данни с класификация по един признак е представено в таблица 6.1.

Таблица 6.1. Форма на представяне на данни с класификация по един критерий

Разгледайте две независими извадки x 1, x 2, ….., x n и y 1, y 2, …, y n, извлечени от нормални общи съвкупности със същите вариации, като размерите на извадката са съответно n и m, а средните стойности μ x , μ y и дисперсията σ 2 са неизвестни. Изисква се проверка на основната хипотеза Н 0: μ x =μ y с конкурентната Н 1: μ x μ y .

Както е известно, извадката означава и ще има следните свойства: ~N(μ x , σ 2 /n), ~N(μ y , σ 2 /m).

Разликата им е нормална стойност със средна стойност и дисперсия, така че

~ (23).

Нека приемем за известно време, че основната хипотеза H 0 е вярна: μ x –μ y =0. Тогава и като разделим стойността на нейното стандартно отклонение, получаваме стандартната нормална sl. стойността ~N(0,1).

По-рано беше отбелязано, че величина разпределени по закон с (n-1)-та степен на свобода, а - по закон с (m-1) степен на свобода. Като вземем предвид независимостта на тези две суми, получаваме, че техните обща сума разпределени по закон с n+m-2 степени на свобода.

Припомняйки си точка 7, виждаме, че дробта се подчинява на t-разпределението (Стюдънт) с ν=m+n-2 степени на свобода: Z=t. Този факт е налице само когато хипотезата H 0 е вярна.

Заменяйки ξ и Q с техните изрази, получаваме разширената формула за Z:

(24)

Следващата стойност Z, наречена статистика на критерия, ви позволява да вземете решение със следната последователност от действия:

1. Установява се площта D=[-t β,ν , +t β,ν ], съдържаща β=1–α площи под кривата t ν -разпределение (Таблица 10).

2. Експерименталната стойност Z върху статистиката Z се изчислява по формула (24), за която вместо X 1 и Y 1 се заместват стойностите x 1 и y 1 на конкретни проби, както и техните извадкови средни стойности и .

3. Ако Z върху D, тогава се счита, че хипотезата H 0 не противоречи на експерименталните данни и се приема.

Ако Z върху D, тогава хипотезата H 1 се приема.

Ако хипотезата H 0 е вярна, тогава Z се подчинява на известното t ν -разпределение с нулева средна стойност и с голяма вероятност β=1–α попада в D-областта на приемане на хипотезата H 0 . Когато наблюдаваната, експерименталната стойност Z on попада в D. Ние считаме това за доказателство в полза на хипотезата H 0 .

Когато Z 0 n лежи извън D (както се казва, лежи в критичната област K), което е естествено, ако хипотезата H 1 е вярна, но малко вероятно, ако H 0 е вярна, тогава трябва да отхвърлим хипотезата H 0 чрез приемане на H 1 .

Пример 31.

Сравняват се две марки бензин: А и Б. На околовръстната магистрала веднъж е тестван 11 автомобила с еднаква мощност на бензин клас А и Б. Една кола се повреди по пътя и за нея няма данни за бензин Б .

Разход на бензин на 100 километра

Таблица 12

аз
X i 10,51 11,86 10,5 9,1 9,21 10,74 10,75 10,3 11,3 11,8 10,9 n=11
аз 13,22 13,0 11,5 10,4 11,8 11,6 10,64 12,3 11,1 11,6 - m=10

Дисперсията на потреблението на класове A и B е неизвестна и се приема, че е една и съща. Възможно ли е при ниво на значимост α=0,05 да се приеме хипотезата, че истинските средни разходи μ A и μ B на тези видове бензин са еднакви?

Решение. Тестване на хипотезата H 0: μ A -μ B \u003d 0 с конкурентна. H 1: μ 1 μ 2 направете следните точки:

1. Намерете примерните средни стойности и сумата от квадратите на отклоненията Q.

;

;

2. Изчислете експерименталната стойност на Z статистиката

3. Намерете границата t β,ν от таблица 10 на t-разпределението, за броя на степените на свобода ν=m+n–2=19 и β=1–α=0,95. Таблица 10 има t 0.95.20 =2.09 и t 0.95.15 =2.13, но не и t 0.95.19. Намираме чрез интерполация t 0,95,19 =2,09+ =2,10.

4. Проверете коя от двете области D или K съдържа числото Z на . Zon=-2.7 D=[-2.10; -2,10].

Тъй като наблюдаваната стойност на Z on лежи в критичната област, K=R\D, ние я отхвърляме. H 0 и приемете хипотезата H 1 . В този случай се казва, че pro и имат значителна разлика. Ако при всички условия на този пример само Q се промени, да речем, Q се удвои, тогава нашето заключение също ще се промени. Удвояването на Q би довело до намаляване на стойността на Z с пъти и тогава числото Zon би попаднало в допустима площ D, така че хипотезата H 0 да премине теста и да бъде приета. В този случай несъответствието между и ще се обясни с естественото разсейване на данните, а не с факта, че μ A μ B.

Теорията за проверка на хипотези е много обширна, хипотезите могат да бъдат за формата на закона за разпределение, за хомогенността на извадките, за независимостта на случайна стойност и т.н.

КРИТЕРИЙ c 2 (PEARSON)

Най-често срещаният критерий за проверка на проста хипотеза на практика. Прилага се, когато законът за разпределение е неизвестен. Да разгледаме случайна променлива X, върху която n независими тестове. Получава се реализация x 1 , x 2 ,...,x n. Необходимо е да се провери хипотезата за закона за разпределение на тази случайна величина.

Разгледайте случая на проста хипотеза. Една проста хипотеза тества съответствието на извадката с общо население, което има нормално разпределение (известно). По мостри изграждаме вариационна серия x(1) , x(2) , ..., x(n) . Интервалът е разделен на подинтервали. Нека тези интервали са r. След това намираме вероятността X да попадне в интервала Di, i=1 ,..., r в резултат на теста, ако тестваната хипотеза е вярна.

Критерият проверява не истинността на плътността на вероятността, а истинността на числата

С всеки интервал Di свързваме случайно събитие A i - попадение в този интервал (попадение в резултат на тестване над X на резултата от изпълнението му в Di). Въвеждаме случайни променливи. m i - броят на опитите от n проведени, в които е настъпило събитието A i. m i се разпределят по биномния закон и в случай на истинност на хипотезата

Dm i =np i (1-p i)

Критерият c 2 има формата

p 1 +p 2 +...+p r =1

m 1 +m 2 +...+m r =n

Ако тестваната хипотеза е вярна, тогава m i представлява честотата на поява на събитие, което има вероятност p i във всеки от n проведени теста, следователно можем да разглеждаме m i като случайна променлива, подчиняваща се на биномиалния закон с център в точката np i . Когато n е голямо, тогава можем да приемем, че честотата е асимптотично нормално разпределена със същите параметри. Ако хипотезата е вярна, трябва да очакваме, че ще има асимптотично нормално разпределение

свързани помежду си

Нека разгледаме стойността

c 2 - сума от квадрати асимптотично нормални стойностисвързани линейна зависимост. Преди сме се срещали с подобен случай и знаем, че присъствието линейна връзкадоведе до намаляване с една на броя на степените на свобода.

Ако тестваната хипотеза е вярна, тогава критерият c 2 има разпределение, клонящо при n®¥ към разпределението c 2 с r-1 степени на свобода.

Да кажем, че хипотезата е грешна. Тогава има тенденция към увеличаване на членовете в сумата, т.е. ако хипотезата е невярна, тогава тази сума ще попадне в определена област големи стойности c 2 . Като критичен регион ние приемаме региона положителни стойностикритерии


В случай на неизвестни параметри на разпределение, всеки параметър намалява с една броя на степените на свобода за критерия на Pearson