Биографии Характеристики Анализ

Тестване на хипотези за параметрите на разпределението. Проверка на хипотези за параметрите на нормалното разпределение

Нека сега се спрем на примери за статистически тестове, докато важни критерии, свързани с корелационно-регресионния анализ, ще бъдат обсъдени в съответните раздели. Тук описваме няколко примера за статистически тестове, предназначени да тестват прости статистически хипотези относно числените параметри на анализираните закони за разпределение на вероятностите.

Обща схема статистическа проверкахипотези :

  1. Основното з 1 и алтернатива з 1 хипотеза.
  2. Избрано е подходящото ниво на значимост a.
  3. Определя се размерът на извадката н.
  4. За тестване е избран критерий K з 0 .
  5. Конструират се критична зона и област на приемане на хипотеза (според избраната алтернативна хипотеза).
  6. Изчислява се наблюдаваната стойност на критерия К наб(по образец).
  7. приет статистическо решение(ако К набпопада в зоната на вземане на решение, то няма основание да се отхвърли основната хипотеза, т.е. приема се, ако К набпопада в критичната област, тогава основната хипотеза се отхвърля).

Критерии за проверка на хипотези за числови стойностипараметри нормална дистрибуцияса показани в таблица 3.

Таблица 3.7

з 0 Предположения Критериална статистика з 1 Област за вземане на решения
а=а 0 s 2 известни а¹ а 0
а>а 0
а<а 0
s 2 неизвестен а¹ а 0
а>а 0
а<а 0
анеизвестен

Тестването на статистически хипотези с помощта на тестове за значимост може да се извърши въз основа на доверителни интервали. За всички параметрични хипотези За всички параметрични хипотези област на приемане на хипотезата H 0: q=q 0 при ниво на значимост a съвпада с доверителен интервалза параметър q при ниво на достоверност 1–a. В този случай едностранен тест за значимост съответства на едностранен доверителен интервал, а двустранен тест за значимост съответства на двустранен доверителен интервал. Хипотеза з 0 се приема, ако стойността на q 0 е покрита от съответния доверителен интервал; иначе хипотезата з 0 се отхвърля.



Ако хипотезата се тества з 0:q = q 0 , тогава се разглежда доверителният интервал за разликата q 1 –q 2. Хипотезата се приема, ако доверителният интервал за разликата между параметрите q 1 –q 2 покрива нулеви стойности. За да проверите хипотезата, че две вариации са равни з 0: Начертава се доверителен интервал за съотношението на дисперсии. В този случай хипотезата з 0 се приема, ако доверителният интервал покрива стойност, равна на единица.

Пример 3.11.Посочено е, че топките, произведени от автоматичната машина, имат среден диаметър д 0 =10 мм. В извадка от н=16 топки средният диаметър се оказа равен мм. Проверете нулева хипотеза з 0: , като приемем, че дисперсията е известна и равна на s 2 =1 мм 2. Изчислете нивото на значимост a=0,05.

Решение.Нека се запознаем статистически критерий:

което при валидността на нулевата хипотеза з 0, има стандартно нормално разпределение н(0;1). Нека бъде алтернативната хипотеза з 1: , тогава критичната област ще има двустранна форма: (–¥;– Z крит)È( Z крит;+¥), където Z критопределен от условието

,

Тъй като

не попада в критичната област, тогава няма причина да се отхвърли нулевата хипотеза, т.е. че топките, направени от автоматична машина, имат среден диаметър 10 мм.

Този проблем може да бъде решен и с помощта на доверителни интервали. Вече обсъдихме, че доверителният интервал за нормална случайна променлива с известно s има формата

.

Тъй като T 0,95 \u003d 1,96, тогава

защото д 0 =10н(9,84; 10,76), тогава хипотезата з 0 се приема. а

Пример 3.12.Анализиран доход хфирми в индустрия с нормално разпределение. Предполага се, че средният доход в тази индустрия е поне 1 милион долара. Въз основа на извадка от 49 фирми бяха получени следните данни: $ милиона и s = $ 0,15 милиона. Противоречат ли тези резултати на изложената хипотеза при ниво на значимост a=0,01?

Решение.Ние формулираме основните и алтернативни хипотези:

За проверка на хипотеза з 0 изграждане на критерий

.

Критичният регион ще бъде ляв, така че

.

Тъй като T obs=–4,67<–2,404=Т крит, тогава з 0 следва да се отхвърли в полза з 1, което дава основание да се смята, че средният доход в бранша е под 1 милион долара. а

Пример 3.13.Точността на автоматичната машина, която пълни опаковките с прах, се определя от съвпадението на теглото на опаковките. Дисперсията на теглото не трябва да надвишава 25 Ж 2. Въз основа на извадка от 20 опаковки беше определено отклонението с 2 =30 Ж 2. Определете дали е необходима спешна настройка на машината при ниво на значимост a=0,05.

Решение.

Изчислете наблюдаваната стойност на критерия

.

Намерете критичната стойност на критерия

.

защото , тогава няма причина да отхвърлим основната хипотеза з 0, т.е. наличните данни не дават основание да се смята, че машината се нуждае от спешна настройка. а

3.5.3. Тестване на хипотези за сравнение на параметри
население

Когато се анализират много икономически показатели, трябва да се сравнят две общи съвкупности. Например, може да се сравни стандартът на живот в две страни по отношение на дохода на глава от населението; можете да сравните два инвестиционни варианта по отношение на средни дивиденти; качеството на знанията на студентите от два университета - според средната оценка на комплексен тестов изпит. В тези случаи е логично да се направи сравнение по схемата за анализ на равенството на математическите очаквания на две генерални съвкупности хи Y.

Помислете за две случайни променливи х~н(а 1, s 1) и Y~ н(а 2, s 2), всеки от които се подчинява на нормалния закон за разпределение. Нека има две независими проби с обеми н 1 и н 2 от популациите хи Y. Трябва да се тества нулевата хипотеза з 0:M[ х]=M[ Y]. Нулевата хипотеза в горната формулировка е сложна, тъй като е валидна за всяко а=M[ х]=M[ Y] обаче може да се сведе до проста, ако вземем предвид разликата между средствата, т.е. з 0:M[ х]–М[ Y]=0.

По отношение на параметрите и могат да се разграничат четири варианта на допускания:

а) двете дисперсии са известни и равни една на друга;

б) и двете дисперсии са известни, но не са равни;

в) двете дисперсии са неизвестни, но се приема, че са равни една на друга;

г) И двете дисперсии са неизвестни и не се приемат за равни.

Критериите за проверка на хипотези за числените стойности на параметрите на нормалното разпределение са дадени в таблица 3.8. Обърнете внимание, че в таблица 3.8 опция а) се третира като специален случай на опция б). В случай на неизвестни дисперсии, които не се приемат за равни, се използва аналог на статистиката от вариант б), като неизвестните дисперсии се заменят с техните оценки

При това положение е трудно да се уточни точното разпределение на въведените статистики. Известно е обаче, че това разпределение е близко до разпределението на Стюдънт с брой степени на свобода, равен на

. (3.30)

Критерият за проверка е подреден по същия начин, както при вариант в).

По този начин, за да се избере подходяща тестова статистика, когато общите отклонения са неизвестни, е необходимо да се знае какво предположение се прави. На първо място е необходимо да се реши дали неизвестните общи дисперсии могат да се считат за равни или не. За използване при вземане на решения Е- Критерий на Фишер (виж по-долу).

Таблица 3.9

з 0 Предположения Критериална статистика з 1 Област за вземане на решения
а 1 =а 2 , известен аа 2
а 1 >а 2
а 1 <а 2
, неизвестни, но равни , където аа 2
а 1 >а 2
а 1 <а 2

Често при сравняване на два икономически показателя анализът на разсейването на стойностите на разглежданите случайни променливи излиза на преден план. Например, когато решавате дали да инвестирате в една от двете индустрии, проблемът с инвестиционния риск стои остро. При сравняване на стандарта на живот в двете страни доходите на глава от населението може да се окажат приблизително еднакви. Сравнявайки разпространението на доходите, получаваме по-точна картина за тях. Трябва да се извърши анализ, подобен на описания по-горе, чрез сравняване на дисперсиите на изследваните случайни променливи.

Позволявам х~н(а 1, s 1) и Y~ н(а 2,s 2), и техните стандартни отклонения s 1 и s 2 са неизвестни. Изложена е хипотеза за равенството на дисперсиите. Тази хипотеза в горната формулировка обаче е сложна, поради което вместо тази хипотеза се разглежда друга, проста хипотеза за съотношението на дисперсиите, т.е. .

Като критерий за проверка на хипотезата з 0 вземе произволна стойност

определен от съотношението на по-голямата коригирана дисперсия на извадката към по-малката (). Ако нулевата хипотеза з 0 е вярно, тогава тази статистика има Е-Разпределение на Фишер с n 1 = н 1 –1 и n 2 = н 2–1 степен на свобода. Различни употреби на този критерий на Фишер са показани в таблица 3.8.

Таблица 3.8

з 0 Предположения Критериална статистика з 1 Област за вземане на решения
а 1 , а 2 неизвестен , ()

Пример 3.14.Фирмата за гранулирана захар разполага с производствени линии за пълнене на торби с кристална захар по 1 килограма. Използвайки данни, събрани за дълъг период от време, мениджърът оценява общото стандартно отклонение на масата на торбите, доставени от линията НОна 0,02 килограма(s 1) и от линията бна 0,04 килограма(s 2). Извън линия Авзета е случайна проба н 1 = 10 торби и намери средното тегло на съдържанието в торбите. Такъв размер на извадката н 2 =12 торбички бяха взети от линията би намери средната маса. Има ли причина да се смята, че двете производствени линии претеглят гранулирана захар в чували с различно средно тегло?

Решение.Нека формулираме основните и алтернативни хипотези, съответстващи на условието на проблема:

, .

Тъй като общите дисперсии ( и ) са известни, ще проверим значимостта на разликата между извадковите средни стойности, като използваме нормалното разпределение при ниво на значимост a=0,01. Изчислете наблюдаваната стойност на критерия

Тъй като критичната област има двустранна форма, критичната стойност на критерия ще бъде определена от условието

,

В резултат на това получаваме, че | Z обс|Крит, т.е. няма причина да се отхвърли нулевата хипотеза. Следователно може да се приеме, че торбите, пълни със захар на двете производствени линии, имат еднакво средно тегло. а

Пример 3.15.За изследване на качеството на маслото са направени проби от 10 броя от всяка последователна серия ( н 1 и н 2) и се определя процентното съдържание на вода хвъв всяка проба. В първата серия средният процент беше с коригираното стандартно отклонение. За втората серия средният процент вода беше със стандартно отклонение от . Има ли някаква причина да приемем при ниво на значимост от 5%, че двете серии масла имат различни масови фракции вода?

Решение.Нека формулираме основните и алтернативни хипотези, съответстващи на условието на проблема:

, .

Тъй като генералните дисперсии ( и ) са неизвестни, първо трябва да се провери равенството на генералните дисперсии, т.е. тествайте нулевата хипотеза със съответната алтернативна хипотеза:

наблюдаваната стойност на критерия на Фишер:

.

Тук се научава, че. Тъй като в съответствие с избраната алтернативна хипотеза критичната област ще бъде двустранна, тя определя критичната стойност на критерия на Фишер:

В резултат на това получаваме това Ф облКрит, т.е. няма причина да се отхвърли нулевата хипотеза. Следователно може да се приеме, че двете общи дисперсии се нараняват взаимно.

Нека сега продължим да проверяваме хипотезите за равенството на двете общи средни. За да направим това, изчисляваме наблюдаваната стойност на съответния t-тест на Student:

.

Тъй като критичната област също ще бъде двустранна, съответната критична стойност на критерия на Стюдънт ще бъде равна на:

.

В резултат на това получаваме това T obs>Т крит, т.е. нулевата хипотеза се отхвърля. Следователно може да се приеме, че двете серии проби имат различно водно съдържание (тегловно). а

Допълнение 1.
МЕТОД НА МОМЕНТИТЕ

По-горе разгледахме методите за оценка числови характеристикиобщата съвкупност, без да се обвързва с каквато и да е разпределителна функция. Въпреки това, за да опишете напълно генералната съвкупност, трябва да знаете нейната функция на разпределение. Ако формата на функцията на разпределение е известна, тогава остава да се оценят само нейните параметри. Използват се различни методи за определяне. Един от тях - метод на моментите, което е както следва. Моментите на извадката се определят (например математическо очакване, дисперсия) в количество, равно на броя на оценените параметри, и се приравняват към съответните теоретични моменти на разпределение, които са функции на неизвестни параметри.

Пример 3.16.Намерете по метода на моментите на оценка на параметъра аи s от нормалното разпределение:

.

Решение.За да се намерят два параметъра, е необходимо да има две уравнения за тези параметри. Следвайки метода на моментите, приравняваме например началния теоретичен момент от 1-ви ред (математическо очакване): към емпиричния момент от 1-ви ред (средна стойност): , както и централния теоретичен момент
2-ри ред (дисперсия): централен момент от 2-ри ред (коригирана дисперсия на извадката): . В резултат на това получаваме две уравнения:

от които намираме необходимите оценки. а

Пример 3.17.Намерете оценка на параметъра l на разпределението на Поасон по метода на моментите:

,

където , l>0.

Решение.Ще решим проблема по два начина.

а) Да сравним началните моменти от 1-ви ред, т.е. математически очаквания: Тъй като за разпределението на Поасон получаваме

б) Да сравним началните моменти от 2-ри ред. За разпределението на Поасон , тогава . Тогава

.

Оценките са различни. По смисъла на параметъра на разпределението на Поасон е по-добре да се предпочете първата оценка.

Както виждаме, несигурността в избора на начални моменти води до получаване на различни оценки за един и същи параметър. Въпреки това, методът на моментите, като правило, води до последователни оценки. Това означава, че при достатъчно големи извадки разликата между различните оценки ще бъде незначителна. Недостатъкът на метода на моментите е, че неговите оценки (с редки изключения) са неефективни. Следователно методът на моментите се използва в практиката само като първо приближение, въз основа на което могат да се получат по-ефективни оценки. Популярността на метода на моментите се дължи на факта, че уравненията на метода на моментите в много случаи са доста прости и тяхното решение не е свързано с големи математически трудности. а

Допълнение 2.
МЕТОД ЗА МАКСИМАЛНА ВЕРОЯТНОСТ

Както видяхме, различни методи за оценка на едни и същи параметри на разпределение могат да дадат различни резултати. Когато има няколко пътя към една и съща цел, естествено е да искате да изберете най-добрия. При определени ограничения този метод е методът на максималната вероятност, базиран на оптималното използване на информацията за наличните в извадката параметри на разпределението.

Позволявам х 1 , х 2 , …, X nвъзможни резултати от независими наблюдения на случайна променлива х. Означава, че х 1 , х 2 , …, X nса независими случайни променливи и законът за разпределение на всяка от тях съвпада със закона за разпределение на количеството х. Да приемем, че типът на разпределение на количеството хе дадено, но параметърът q, който определя този закон, е неизвестен. Представяме ви функцията

където в случая на първоначалното непрекъснато разпределение се интерпретира като плътност на разпределение на случайната променлива X i, а в дискретния случай като вероятността, че произволна стойност X iще придобие смисъла x i. функция от случайни променливи X i, разглеждана като функция на параметъра q, се нарича функция на вероятността.

Оценка на максималната вероятност (оценка на MLM)параметър q се нарича такава стойност , при което функцията на вероятността достига най-високата възможна стойност:

Известно е, че максималната точка няма да се промени, ако вместо Л(q) използвайте ln Л(q). Тогава, в съответствие с необходимото условие за екстремума на функцията, получаваме следното уравнения на вероятността:

, (3.14)

да се намери оценка за параметъра q.

Пример 3.18.Намерете чрез метода на максимална вероятност за оценка на параметъра аи s от нормалното разпределение.

Решение.Съгласно формула (3.13), функцията на вероятността за нормално разпределение ще има формата

Като го логаритмираме, получаваме

Намерете частични производни по отношение на аи s:

, .

Приравнявайки частичните производни на нула, получаваме система от уравнения:

От тези уравнения намираме:

и .

Установено е, че оценката е последователна, безпристрастна и ефективна оценка на параметъра аи оценката е последователна, пристрастна и асимптотично ефективна оценка на параметъра s 2 . а

Пример 3.19.Намерете оценката на максималната вероятност за параметъра l на разпределението на Поасон.

Решение.Функцията за логаритмична вероятност в този случай, изградена върху извадката х 1 ,х 2 ,…,x n, ще изглежда така

Следователно, след диференциране по отношение на l, получаваме уравнението на максималната вероятност

.

.

Установено е, че тази оценка е последователна, безпристрастна и ефективна оценка на параметъра l. а

Показано е, че оценките на MMP са богат, асимптотично безпристрастен, асимптотично нормалнои асимптотично ефективна. Всичко това направи метода на максималната вероятност много популярен. Установено е, че за много проблеми от най-разнообразно статистическо естество MMP дава добри резултати. Единствената трудност е сложността на решаването на уравненията на вероятността (3.14). Следователно много дълго време МВФ се използваше само за теоретични изчисления. Понастоящем обаче модерните статистически софтуерни пакети за компютри започват да включват ISM методи, което значително опростява практическото използване на ISM.

Не трябва да се предполага, че оценителите на MMP ще бъдат най-добрите във всички ситуации. Първо, техните добри свойства често се проявяват само за много големи размери на извадката (т.е. те са асимптотични), така че за малки ндруги методи могат да се конкурират с тях (и дори да ги надминат). Второи това е може би основното "тясно място" на този подход за конструиране на MLM оценители и осигуряване на техните добри свойства точно познаване на вида на анализирания закон на разпределение f(х;q), което в повечето случаи се оказва практически нереалистично. Често се случва при известни, макар и малки, отклонения на реалното разпределение от приетото разпределение f(х;q), оценките могат внезапно да загубят своите „добри“ свойства. В тази връзка през последните години т.нар. здрав, или устойчиви, методи за оценка, които позволяват да се намерят оценки, въпреки че те не са най-добрите в рамките на приетия закон за разпределение, но имат достатъчно стабилни свойства, когато реалният закон се отклонява от приетия. И, трети, оценки на MMP може дори да не е богат, ако броят на параметрите, оценени от извадката, е голям (има същия ред като размера на извадката) и расте с броя на наблюденията.

Допълнение 3.
КРИТЕРИИ ЗА СЪГЛАСИЕ

Често функцията на разпределение на случайна променлива не е известна предварително и става необходимо да се определи от емпирични данни. В много случаи, от някои допълнителни съображения, могат да се направят предположения относно формата на разпределителната функция Е(х). В иконометрията често се използва нормалното разпределение, но в някои случаи може да възникне въпросът за законността на използването на нормалното разпределение в конкретен случай. В такива случаи е необходимо да се използват статистически критерии, които оправдават един или друг избор на разпределение.

Всяко предположение за вида на разпределението се нарича статистическа хипотеза и се изразява математически чрез връзката ( Е(хз 0), където з 0 е набор от функции на разпределение. Ако наборът з 0 се състои от един елемент, тогава хипотезата се нарича проста. При статистическа проверка на основната хипотеза з 0 също формулирайте алтернативна хипотеза ( Е(хз 1), където з 1 е набор от функции на разпределение, който не се пресича с набора з 0 . Ако з 1 е набор от всички Е(х) не са включени в з 0 , тогава този набор обикновено изобщо не се споменава. Комплекти з 0 и з 1 във всяка задача се определят от логическите, физическите и други условия на задачата.

Разгледайте случая на проста хипотеза ( Е(х)=F теор(х)). Позволявам х 1 , х 2 , …, X nе случайна извадка от случайна променлива хи нека е емпиричната функция на разпределение. Определяме някаква неотрицателна мярка дотклонения на емпиричната функция на разпределение от приетата теоретична функция на разпределение F теор(х). стойността D=D{Е(х),F теор(х)) може да се дефинира по много начини, според които се получават различни критерии за тестване на интересуващата ни хипотеза: Хи-квадрат тест на Пиърсън, Колмогоров, Омега квадрат на Мизес, Смирноваи други.

Най-често срещаният е критерият, въведен от К. Пиърсън, водещ до разпределението c 2 ( c 2 - Критерий на Pearson ). Помислете за този критерий. За да направим това, разделяме набора от стойности на случайната променлива хна rинтервали С 1 , С 2 , … ,S rняма допирни точки. Позволявам пие вероятността стойността хпринадлежи на интервала Si; n iе броят на стойностите от наблюдаваните х 2 , …, X nпринадлежащ на интервала Si. За мярка дотклонения на емпиричната функция на разпределение от теоретичната F теор(х) вземете стойността

. (3.32)

Стойността c 2 е случайна и ние се интересуваме от нейното разпределение при предположението, че приетата хипотеза е вярна, т.е. Е(х)=F теор(х). Отговорът на този въпрос е Теорема на Пиърсън:

Теорема. Каквато и да е функцията на разпределение F теория (x) на случайната променлива X, за n®¥ разпределението на c 2 клони към c 2 -разпределение с (r–1) степени на свобода.

Напълно дефинирано хипотетично теоретично разпределение е доста рядко на практика. Много по-често теоретичното разпределение F теор(x;q 1 ,…,q k) съдържа някои неизвестни параметри q 1 ,…,q k, чиято стойност трябва да се оцени от извадката. В резултат на това критерият на Пиърсън ще има формата

. (3.33)

Въпреки това, вече не е възможно да се използва теоремата на Пиърсън в този случай, тъй като стойностите q 1 ,…,q kнеизвестен. Ако в дадения израз количествата q 1 ,…,q kзаменете ги с примерни оценки, след това с количествата пи(q 1 ,…,q k) вече ще бъдат случайни променливи, така че теоремата на Pearson не може да се приложи и в този случай.

Забележи, че за n®¥, разпределението на стойността c 2 , ако параметрите q 1 ,…,q k са оценени чрез метода на максималното правдоподобие, е разпределението c 2 с (r–1-k) степени на свобода(Теорема на Фишер). По този начин наличието на параметри, оценени от извадката (ако оценката е направена чрез метода на максималната вероятност) не променя природата на ограничаващото разпределение на c 2, а само намалява броя на степените на свобода на това ограничаващо разпределение с колкото е броят на оценените параметри. Това е едно от предимствата на критерия на Pearson.

Имайте предвид, че критерият на Pearson се прилага само за достатъчно големи проби ( н t50) и достатъчно високи честоти ( n i³5). Ако последното условие не е изпълнено за някой интервал от вариационната серия, тогава той се комбинира със съседния интервал, съответно намалявайки общия брой интервали.

Схема за прилагане на теста за съответствие на Pearsonтестване на хипотезата за предполагаемия закон на неизвестното разпределение:

1) Изчислени са параметрите на предложения закон за разпределение.

2) Изчисляват се теоретичните честоти.

3) Изчислете стойността .

4) Според изчисления брой степени на свобода n= r–1–к, където rе броят на интервалите на вземане на проби, к– броя на параметрите на разпределението и според избраното ниво на значимост a според таблиците на разпределението c 2 , намерете .

5) Ако , тогава няма причина да се отхвърли нулевата хипотеза, ако - нулевата хипотеза се отхвърля.

Пример 3.20.Съгласно разпределението, дадено от таблицата (Таблица 3.9), използвайте теста на Pearson, за да разберете дали е възможно да се приеме, че при ниво на значимост a=0,05 общата съвкупност има нормално разпределение.

Решение.Ако приемем, че има нормално разпределение, тогава можем да оценим неговите два параметъра

, .

ПРОВЕРКА НА СТАТИСТИЧЕСКИ ХИПОТЕЗИ

Формулиране на проблема

В обикновената реч думата "хипотеза" означава предположение. В статистиката това е предположение за формата на закона за разпределение („тази генерална съвкупност е нормално разпределена“), за стойностите на нейните параметри („общата средна стойност е нула“), за хомогенността на данните ( „тези две проби са взети от една и съща обща популация“). Проверката на статистическата хипотеза се състои в установяване дали резултатите от наблюденията (извадкови данни) са в съответствие с нашето предположение.

Резултатът от такава проверка може да бъде отрицателен отговор: данните от извадката противоречат на изложената хипотеза, така че тя трябва да бъде изоставена. В противен случай получаваме неотрицателен отговор: примерните данни не противоречат на хипотезата, така че тя може да бъде приета като едно от валидните решения (но не и единственото правилно).

Статистическата хипотеза, която се тества, се нарича основен (нула) и се обозначава Хипотезата, която е противоположна на основната, се нарича алтернативна (конкурираща се) и се обозначава с Цел на статистическото тестване на хипотези: въз основа на извадкови данни вземете решение относно валидността на основната хипотеза или я отхвърлете в в полза на алтернативата.

Тъй като тестът се извършва на базата на извадка, а не на цялата съвкупност, съществува вероятност, може би много малка, за погрешно заключение.

По този начин нулевата хипотеза може да бъде отхвърлена, докато в действителност тя е вярна в общата популация. Такава грешка се нарича въведете една грешка , а вероятността му е ниво на значимост и обозначават Възможно е нулевата хипотеза да бъде приета, докато алтернативната хипотеза е вярна в общата популация. Такава грешка се нарича грешка от втори род и нейната вероятност се обозначава (Таблица 6.1).

Таблица 6.1

Резултати от проверка на статистически хипотези

Проверката на статистическите хипотези се извършва с с помощта на статистически тест . Статистически тест Ке правило (функция на резултатите от наблюденията), което определя степента на несъответствие между резултатите от наблюденията и нулевата хипотеза. Вероятността се нарича мощност критерии.

При тестване на статистически хипотези е обичайно нивото на значимост да се задава предварително (стандартни стойности: 0,1, 0,05, 0,01, 0,001). След това от два критерия, характеризиращи се с еднаква вероятност, изберете този, който съответства на по-малката грешка от 2-ри вид, т.е. велика сила. Възможно е да се намалят вероятностите за двете грешки и в същото време чрез увеличаване на размера на извадката.

Критерии стойности Кразделена на две части: област позволени стойности (област на приемане на хипотезата) и критична зона (област на приемане на хипотезата). Критичният регион се състои от същите стойности на критериите Да се, които са малко вероятни при валидността на хипотезата . Ако стойността на критерия К, изчислено от извадковите данни, попада в критичната област, тогава хипотезата се отхвърля в полза на алтернативата, в противен случай ние твърдим, че няма основания за отхвърляне на хипотезата.

Пример.За да се подготви за теста, учителят формулира 100 въпроса (обща съвкупност) и смята, че ученикът може да получи „пас“, ако знае 60% от въпросите (критерий). Учителят задава на ученика 5 въпроса (избор от общата съвкупност) и поставя „пас“, ако има поне три верни отговора. Хипотеза: „ученикът е усвоил курса“, а наборът е областта на приемане на тази хипотеза. Критичната област е наборът - има по-малко от три верни отговора, в този случай основната хипотеза се отхвърля в полза на алтернативата "студентът не е усвоил курса, знае по-малко от 60% от въпросите".

Студент НОнаучи 70 въпроса от 100, но отговори правилно само на два от пет, предложени от учителя - тестът не беше издържан. В този случай учителят прави грешка тип I.

Студент бнаучи 50 въпроса от 100, но имаше късмет и отговори правилно на 3 въпроса - тестът беше преминат, но беше допусната грешка от втори вид.

Учителят може да намали вероятността от тези грешки, като увеличи броя на задаваните въпроси в теста.

За да изградите критичен регион, трябва да знаете закона за разпределение на статистиката Кпри условие, че хипотезата е вярна. Нивото на значимост (вероятността наблюдавана стойност да попадне в критичната област) определя "размера" на критичната област, а конкуриращата се хипотеза определя "формата" на критичната област. Например, ако хипотезата се тества и като алтернатива, тогава критичната област ще бъде дясна (фиг. 6.1, а). При алтернатива критичната област е отляво (фиг. 6.1, b). При алтернатива критичната област е двустранна (фиг. 6.1, в). Във всички тези случаи, при дадено ниво на значимост, защрихованата област е % от общата площ под кривата на плътност на разпределението на статистиката К.

Алгоритъмът за проверка на статистически хипотези е както следва:

1) формулирайте основните и алтернативни хипотези;

2) изберете нивото на значимост;

3) в съответствие с вида на хипотезата изберете статистически критерий за нейното тестване, т.е. случайна величина К, чието разпространение е известно;

4) според таблиците за разпределение на случайна променлива Кнамиране на границата на критичната област (определяне на вида на критичната област по вида на алтернативната хипотеза);

5) използвайки примерни данни, изчислете наблюдаваната стойност на критерия

6) вземете статистическо решение: ако попадне в критичната област, отхвърлете хипотезата в полза на алтернативна; ако попада в обхвата на приемливите стойности, тогава няма причина да се отхвърли основната хипотеза.

Тестване на хипотези за параметрите на разпределението

Обща схема за проверка на хипотези

Концепцията и класификацията на статистическите хипотези

Статистическата хипотеза е предположение за формата на неизвестно разпределение или параметри на известни разпределения на наблюдавана случайна променлива.

По-рано, в 5.2, бяха разгледани примери 1, 2, където бяха изчислени характеристиките на извадката, беше изграден полигон или хистограма. Може да се приеме, че тази случайна променлива се разпределя по един от известните закони. Следващата стъпка: трябва да проверите дали експерименталните данни отговарят на изложената хипотеза и да я приемете. Тази стъпка се нарича проверка на статистическа хипотеза. Алгоритъмът за проверка на хипотези се нарича правило за решаване. Тъй като хипотезата е представена въз основа на примерни данни, хипотезата ще бъде вероятностна по природа.

Основните задачи на математическата статистика включват:

  1. Статистическа проверка на хипотези за параметрите на разпределението. В този случай се приема, че законът за разпределение на случайната променлива е установен. Нека населението се разпредели по нормалния закон. Изложена е хипотеза за математическото очакване в очаквания диапазон.
  2. Статистическа проверка на хипотези за закона за разпределение на случайна величина. Хипотези за вида на разпределението се изказват в условията на недостатъчна информация за извадката.

На практика експерименталните данни с голяма извадка се доближават до нормалния закон. След като се изложи такава хипотеза, тогава е необходимо да се намерят доверителните интервали за параметрите на това разпределение. Тестваната хипотеза се нарича нулева (основна), най-правдоподобната по някаква причина и се обозначава H0. Наред с основната хипотеза се разглежда алтернативна (конкурентна) хипотеза H1, което противоречи на осн. Предложената нулева хипотеза се нуждае от допълнително тестване.

В този случай могат да се допуснат два вида грешки:

  1. Грешка от първи вид – отхвърля се правилната хипотеза;
  2. Грешка от втори род – приема се грешна хипотеза.

За проверка на нулевата хипотеза се използва специално подбрана случайна променлива, чието точно или приблизително разпределение е известно, означава се със Z, ако е нормално разпределена, T - според закона на Стюдънт, c 2 - според закона хи-квадрат. . Тази специално избрана случайна променлива се нарича статистически тест или тест за значимост, който по-долу ще бъде означен с Z. Статистически тест се използва за тестване на нулевата хипотеза.

Например, ако се тества хипотеза за равенството на дисперсиите на две нормални генерални съвкупности, тогава съотношението на коригираните дисперсии на извадката се приема като критерий. За да се тества хипотезата, според примерните данни се изчисляват частичните стойности на стойностите, включени в критерия, и се получава наблюдаваната стойност на критерия. Наблюдаваната стойност на критерия Z obs е стойността на критерия, изчислена от пробите. Например, ако две проби открият дисперсии на извадката d 1 =27; d 2 =9, тогава наблюдаваната стойност на критерия е равна на отношението на по-голямата коригирана дисперсия към по-малката: Проблемът за проверка на хипотезата може да се формулира по следния начин.



1. Изисква се да се намери случайна променлива Z, която също се нарича тестова статистика, която да отговаря на две основни изисквания:

б) Разпределението на критерия е известно при допускането, че нулевата хипотеза е вярна.

2. След търсене или избор на статистика се намира критичната област. На цифровата ос е подчертана област, в която е малко вероятно да попадне произволна променлива. Малката вероятност се дава, както при доверителните интервали, с малко число - a, което се нарича ниво на значимост. Вероятността за допускане на грешка от тип I (вероятност за отхвърляне на правилната хипотеза) е равна на a, нивото на значимост.

Критична зонанарича набор от стойности на критерия Z, при който нулевата хипотеза се отхвърля. Областта на приемане на хипотези е наборът от стойности на критерия Z, в който се приема нулевата хипотеза.

критични точки(граници) – z kp са точките, разделящи критичната зона от зоната на приемане на хипотезата.

Има три вида критични региони:

  • дясностранно, определено от неравенството Z > z kp > 0;
  • ляво, определено от неравенството Z< z kp < 0;
  • двустранно, определено от неравенството Z< -z кр; Z >z кр.

По-специално, ако критичните точки са симетрични по отношение на нулата, тогава двустранната критична област се определя от неравенството Z ще приеме стойности, лежащи в критичната област, е равно на приетото ниво на значимост. Резултатът е:

  • за дясната критична област:
P (Z > z kp) = a; (7.1)
  • за лявата критична област P (Z< z kp) = a;
  • за двустранна симетрична област P (Z > z kp) = a/2 .

Основният принцип на проверката на статистическата хипотеза е следният:

  • Ако наблюдаваната стойност на критерия Z obs, изчислена от извадковите данни, принадлежи към критичната област, тогава хипотезата се отхвърля.
  • Ако наблюдаваната стойност не принадлежи към критичната област, тогава няма причина да се отхвърли хипотезата.

За всеки критерий има съответни таблици, които позволяват да се намерят критичните точки z kp от a, които отговарят на изискването (7.1).

Лабораторна работа 2.

ПРОВЕРКА НА ХИПОТЕЗИ ЗА ПАРАМЕТРИТЕ НА НОРМАЛНО РАЗПРЕДЕЛЕНА ГЕНЕРАЛНА ПОПУЛАЦИЯ

1. Кратки теоретични положения

1.1. Основни понятия.

Хипотеза - всяко твърдение, направено относно неизвестен закон на разпределение на генералната съвкупност или числените характеристики на този закон на разпределение.

Предложената хипотеза се нарича нула . Алтернативна хипотезае обратната хипотеза.

Тъй като хипотезите се проверяват с помощта на статистически методи, тогава хипотезите са статистически.

Статистическа хипотеза е законът за разпределение на някаква случайна променлива. AT истинския животтези хипотези могат да бъдат:

Хипотези за ефективността на определени лекарства;

Хипотези за нарастване на доходите на населението;

Хипотези за определяне на разходи или разходи и др.

Основните типове хипотези, които се проверяват със статистически методи са следните:

1. Хипотези за вида на закона за разпределение на случайна величина.

Позволявам - вземане на проби от стойности на случайна променлива. Въз основа на извадката може да се приеме, че функцията на разпределение на случайна променлива има специфично разпределение. Трябва да проверим дали нашето предположение не противоречи на експерименталните данни.

2. Хипотези за хомогенността на две или повече общи съвкупности или числени характеристики.

Например, въз основа на проби от стойности на две случайни променливи и е възможно да се изложи хипотеза за същите закони на разпределение на тези проби или за същите стойности на средни стойности, дисперсии.

Например, можете да проверите еднаква ефективност на два вида лекарства или едно и също качество на продукти от два различни производителя.

3. Хипотези за числените стойности на параметрите на изследваната генерална съвкупност.

Да предположим например, че очакваната стойност на определена случайна променлива е конкретно число.

Например, можете да предположите, че вероятността за полагане на изпит от определен студент е 3/4.

1.2. Обща схема на статистическия тест.

Правилото за проверка на хипотези се нарича статистически критерий.

Всички критерии са изградени по следната схема:

1. Излагат се нулева хипотеза и алтернативна хипотеза.

2. Нивото на значимост е предварително избрано. Тъй като хипотезата се тества въз основа на определен брой експериментални данни, решението е придружено от известна вероятност за погрешно заключение, т.е. хипотезата може да бъде отхвърлена с вероятност, въпреки че всъщност е вярна, или, обратно, хипотезата може да бъде приета с вероятност, въпреки че всъщност е невярна. Вероятностите за грешка трябва да са малки и се избират предварително.

Вероятността за погрешно отхвърляне на хипотеза се нарича нивото на значимост на статистическия тест.

Има и други стандартни стойности.

Например, това означава, че в 5 от 100 случая ще отхвърлим правилната хипотеза, но 5 грешки от 100 случая не са много.

3. Някаква функция е изградена от резултатите от наблюденията което се нарича статистика. Самата статистика е случайна величина и при определена хипотеза има определен закон на разпределение.

4. От таблиците за разпределение на статистиката намерете критичните стойности за хипотезата, т.е. две числа и , които разделят цялата цифрова ос на 3 части:

част 1 се нарича зона с неприемливо малки стойности.

3 част - невалиден регион големи стойности.

Интервалът се нарича диапазон от вероятни стойности.

Изисква се вероятностите за недопустимо малки и големи стойности да са малки. Обикновено те се приемат равни, т.е.

и .

Постановка на проблема за проверка на статистическа хипотеза

Статистическа хипотеза - всяко предположение за формата на закона за разпределение на изследваната променлива или параметрите на известно разпределение.

Така например можем да предположим (изложим хипотеза), че изследваната променлива X е разпределена според нормалния закон. В тази хипотеза говорим сиотносно формата на предложения закон за разпределение. Следната ситуация е доста типична: законът за разпределение на изследваната променлива е известен, но параметрите на това разпределение са неизвестни. Тогава е естествено да се изложи хипотеза, че неизвестният параметър принадлежи например към даден интервал.

Така статистическите хипотези се разделят на две групи:

· хипотези за формата на закона за разпределение;

· хипотези за параметрите на известния закон на разпределение (параметрични хипотези).

Предложената хипотеза се нарича нулева (основна) и се означава с . Наред с изложената хипотеза се разглежда и хипотеза, която й противоречи. Хипотеза, която противоречи на нулевата, се нарича конкурентна (алтернативна) и се означава с ( = ).

Изложената хипотеза, както всяко предположение, в действителност може да бъде вярна или невярна; така че трябва да се провери.

Примерни данни (извадка) служат като изходен материал за проверка на предложената хипотеза.

Задачата за описателно тестване на хипотеза е следната: при дадено ниво на значимост се изисква да се установи дали предложената хипотеза е в съответствие с извадковите данни или им противоречи.

Ниво на значимост - вероятността да направите грешка от първи вид ("степен на риск"), т.е. вероятността за погрешно отхвърляне на правилна хипотеза. Нивото на значимост се определя от изследователя; най-често се приемат равни на 0,05 (5%) или 0,01 (1%), което съответства на почти незначителен риск и по този начин осигуряват висока надеждност правилно решениезадачи.

Основни принципи и необходими стъпки за проверка на статистическа хипотеза

За проверка на изложената хипотеза се използва статистически критерий (разрешаващо правило), според който въз основа на данните от извадката се взема решение за поддържане или отхвърляне на нулевата хипотеза.

Критерият се основава на неговата статистика Z-случайна променлива, специално избрана за предложената хипотеза, чийто закон на разпределение е добре проучен (има таблица с квантили на това разпределение).

Означаваме с набор от всички възможни стойности на статистиката З. Този набор е разделен на две непресичащи се подмножества и:

, ,

където е обхватът на приемливите стойности на Z статистиката;


е критичната област на Z статистиката.

Точките, които се разделят от се наричат ​​критични точки на статистиката З. Тук няма да разглеждаме въпроса за изграждането на критичен регион; само отбелязваме това .

Според извадковите данни (извадка) се изчислява наблюдаваната стойност на статистиката: .

Критерият (разрешаващото правило) за тестване на предложената хипотеза е следният:

1. Ако , тогава хипотезата се отхвърля.

2. Ако , тогава хипотезата се запазва (т.е. тя е в съответствие с примерните данни).

Обърнете внимание, че хипотезата е по-категорично отхвърлена, отколкото приета. Приемете хипотезата много внимателно. Факт е, че в случая изложената хипотеза все още не е доказана (според една ограничена извадка). На практика, за по-голяма увереност в приемането на хипотезата, експериментът се повтаря, увеличавайки размера на извадката и хипотезата се тества отново (може и по други начини).

И така, необходимите стъпки за тестване на статистическа хипотеза са:

формиране на извадка;

· хипотези и ;

· определяне на ниво на значимост;

избор на подходяща статистика Зза проверка;

· изчисляване на наблюдаваната стойност на статистиката от извадката;

определение според таблицата критични точкистатистика Зи изграждане на критичния регион;

· вземане на решение по критерия за проверка на хипотезата .

Проверка на хипотезата за нормалното разпределение на генералната съвкупност. Критерий на Колмогоров

За изследваната променлива C, статистическа хипотеза: C има нормално разпределение. Примерни данни (проба) са изходният материал за проверка. При дадено ниво на значимост се изисква да се установи дали предложената хипотеза е в съответствие с данните от извадката или им противоречи.

Тестването на хипотезата за нормалност по критерия на Колмогоров се основава на сравняване на емпиричната функция на разпределение, получена от данните на обемната извадка, и хипотетичната (теоретична) функция на разпределение нормален закон. Близостта между тях се оценява от статистиката на Колмогоров.