Биографии Характеристики Анализ

Тест за добро качество на Пиърсън χ2 (Хи-квадрат). Тестове за добро качество, използвани за тестване на статистически хипотези

статистически хипотези. Критерии за съгласие.

Нула(основен)наричаме изложената хипотеза за формата на неизвестното разпределение или за параметрите на известните разпределения. състезаващи се (алтернатива)наречена хипотеза, която противоречи на нулата.

Например, ако нулевата хипотеза е да приемем, че случайната променлива хсе разпределя според закона , то конкуриращата хипотеза може да се състои в допускането , че случайната променлива хразпределени по различен закон.

Статистически критерий(или просто критерий) се нарича някаква случайна променлива Да се, който служи за проверка на нулевата хипотеза.

След избор на определен критерий, например критерий, наборът от всички негови възможни стойности се разделя на две неприпокриващи се подмножества: едното от тях съдържа стойностите на критерия, при които нулевата хипотеза се отхвърля, а другият - под което е прието.

Критична зонае наборът от тестови стойности, за които нулевата хипотеза се отхвърля. Зона на приемане на хипотезата наречен набор от стойности на критерия, при който се приема хипотезата. критични точки точките, разделящи критичната област от зоната на приемане на нулевата хипотеза се наричат.

За нашия пример, със стойност от , стойността, изчислена от извадката, съответства на областта на приемане на хипотезата: произволната променлива се разпределя според закона. Ако изчислената стойност , тогава тя попада в критичната област, тоест хипотезата за разпределението на произволна променлива според закона се отхвърля.

В случай на разпределение критичната област се определя от неравенството, зоната на приемане на нулевата хипотеза се определя от неравенството.

2.6.3. Критерии за доброта Пиърсън.

Една от задачите на зоотехниката и ветеринарната генетика е отглеждането на нови породи и видове с необходимите характеристики. Например, повишен имунитет, устойчивост на болести или промяна в цвета на козината.

На практика, когато се анализират резултатите, често се оказва, че действителните резултати повече или по-малко отговарят на някакъв теоретичен закон на разпределението. Необходимо е да се оцени степента на съответствие между действителните (емпирични) данни и теоретичните (хипотетични). За да направите това, изложете нулева хипотеза: получената популация се разпределя съгласно закона "А". Проверката на хипотезата за предложения закон за разпределение се извършва с помощта на специално избрана случайна величина - критерия за добро съответствие.

Критерий за съответствиенаречен критерий за проверка на хипотезата на предполагаемия закон за неизвестното разпределение.

Има няколко критерия за доброта: Пиърсън, Колмогоров, Смирнов и др. Тестът на Pearson за доброта е най-често използваният.

Разгледайте прилагането на критерия на Пиърсън на примера за тестване на хипотезата за нормалния закон за разпределение на общата съвкупност. За тази цел ще сравним емпиричната и теоретичната (изчислена в продължение на нормалното разпределение) честоти.

Обикновено има известна разлика между теоретичните и емпиричните честоти. Например:

Емпирични честоти 7 15 41 93 113 84 25 13 5

Теоретични честоти 5 13 36 89 114 91 29 14 6

Помислете за два случая:

Разминаването между теоретичните и емпиричните честоти е случайно (незначително), т.е. възможно е да се направи предложение за разпределение на емпиричните честоти според нормалния закон;

Разминаването между теоретичните и емпиричните честоти не е случайно (значително), т.е. теоретичните честоти се изчисляват въз основа на грешна хипотеза за нормалното разпределение на общата популация.

С помощта на критерия за добрата годност на Пиърсън е възможно да се определи случайно или не несъответствието между теоретичните и емпиричните честоти, т.е. с дадена достоверна вероятност, за да се определи дали общата съвкупност е разпределена съгласно нормалния закон или не.

И така, нека се получи емпиричното разпределение за извадка с размер n:

Настроики……

Емпирични честоти....

Да приемем, че при допускане за нормално разпределение се изчисляват теоретичните честоти. На ниво значимост е необходимо да се тества нулевата хипотеза: популацията е нормално разпределена.

Като критерий за проверка на нулевата хипотеза вземаме произволна променлива

(*)

Тази стойност е произволна, тъй като в различните експерименти приема различни, неизвестни досега стойности. Ясно е, че колкото по-малко се различават емпиричните и теоретичните честоти, толкова по-малка е стойността на критерия и следователно той характеризира до известна степен близостта на емпиричните и теоретичните разпределения.

Доказано е, че при , законът на разпределението на случайната величина (*), независимо на кой закон на разпределението е подчинена генералната съвкупност, клони към закона за разпределение със степени на свобода. Следователно случайната променлива (*) се обозначава с , а самият критерий се нарича „хи-квадрат“ тест за доброта на прилягането.

Нека означим стойността на критерия, изчислена от данните от наблюдението, като . Табличните критични стойности на критерия за дадено ниво на значимост и броя на степените на свобода означават . В този случай броят на степените на свобода се определя от равенството , където броят на групите (частични интервали) на извадката или класовете; - броят на параметрите на предложеното разпределение. Нормалното разпределение има два параметъра - математическото очакване и стандартното отклонение. Следователно, броят на степените на свобода за нормално разпределение се намира от равенството

Ако изчислената стойност и стойността на таблицата удовлетворяват неравенството , се приема нулевата хипотеза за нормалното разпределение на генералната съвкупност. Ако , нулевата хипотеза се отхвърля и се приема алтернативната на нея хипотеза (генералната съвкупност не се разпределя по нормалния закон).

Коментирайте.Когато използвате теста за доброта на прилягане на Пиърсън, размерът на извадката трябва да бъде най-малко 30. Всяка група трябва да съдържа най-малко 5 опции. Ако в групите има по-малко от 5 честоти, те се комбинират със съседни групи.

Като цяло, броят на степените на свобода за хи-квадрат разпределение се дефинира като общия брой стойности, по които се изчисляват съответните мерки, минус броя на тези условия, които свързват тези стойности, т.е. намаляване на възможността за вариации между тях. В най-простите случаи при изчисляване броят на степените на свобода ще бъде равен на броя на класовете, намален с едно. Така например при дихибридно разделяне се получават 4 класа, но само първият клас се получава несвързано, следващите вече са свързани с предишните. Следователно, за дихибридно разделяне, броят на степените на свобода е .



Пример 1Определете степента на съответствие между действителното разпределение на групите по отношение на броя на кравите с туберкулоза и теоретично очакваното, което е изчислено при разглеждане на нормалното разпределение. Първоначалните данни са обобщени в таблицата:

Решение.

По нивото на значимост и броя на степените на свобода от таблицата на критичните точки на разпределение (вж. Приложение 4) намираме стойността . Дотолкова доколкото , можем да заключим, че разликата между теоретичните и реалните честоти е случайна. По този начин реалното разпределение на групите според броя на кравите с туберкулоза отговаря на теоретично очакваното.

Пример 2Теоретичното разпределение по фенотип на индивиди, получено във второ поколение чрез дихибридно кръстосване на зайци според закона на Мендел, е 9: 3: 3: 1. Необходимо е да се изчисли съответствието на емпиричното разпределение на зайците от кръстосване на черни индивиди с нормална коса с пухени животни - албиноси. При кръстосване във второ поколение са получени 120 потомства, включително 45 черни с къса коса, 30 черни пухени, 25 бели с къс косъм, 20 бели пухени зайчета.

Решение.Теоретично очакваната сегрегация в потомството трябва да съответства на съотношение от четири фенотипа (9:3:3:1). Изчислете теоретичните честоти (брой цели) за всеки клас:

9+3+3+1=16, така че можем да очакваме да бъдат черни късокосмести ; черен пух - ; бяла късокосместа ; бял пух -.

Емпиричното (действително) фенотипно разпределение е както следва 45; тридесет; 25; 20.

Нека обобщим всички тези данни в следната таблица:

Използвайки теста за доброта на Пиърсън, ние изчисляваме стойността на:

Броят на степените на свобода в дихибридно кръстосване. За ниво на значимост намерете стойност . Дотолкова доколкото , можем да заключим, че разликата между теоретичните и реалните честоти не е случайна. Следователно, получената група зайци се отклонява по отношение на разпределението на фенотипа от закона на Мендел по време на дихибридно кръстосване и отразява влиянието на определени фактори, които променят вида на разделяне на фенотипа във второто поколение хибриди.

Тестът на хи-квадрат за добро прилягане на Пиърсън може да се използва и за сравняване на две хомогенни емпирични разпределения помежду си, т.е. тези, които имат едни и същи граници на класа. Нулевата хипотеза е хипотезата, че две неизвестни функции на разпределение са равни. Тестът хи-квадрат в такива случаи се определя по формулата

(**)

където и са обемите на сравняваните разпределения; и са честотите на съответните класове.

Помислете за сравнение на две емпирични разпределения, като използвате следния пример.

Пример 3 Дължината на кукувичките яйца е измерена в две териториални зони. В първата зона беше изследвана проба от 76 яйца (), а във втората от 54 (). Получават се следните резултати:

Дължина (мм)
Честоти
Честоти - - -

На ниво значимост е необходимо да се тества нулевата хипотеза, че и двете проби от яйца принадлежат към една и съща популация от кукувица.

МИНИСТЕРСТВО НА ОБРАЗОВАНИЕТО И НАУКАТА НА УКРАЙНА

АЗОВСКИЙ РЕГИОНАЛЕН ИНСТИТУТ ПО УПРАВЛЕНИЕ

ЗАПОРИЧЕСКИ НАЦИОНАЛЕН ТЕХНИЧЕСКИ УНИВЕРСИТЕТ

Катедра по математика

КУРСОВА РАБОТА

H дисциплина "СТАТИСТИКА"

На тема: "КРИТЕРИИ ЗА СЪГЛАСИЕ"

Студенти от 2-ра година

Група 207 Факултет по мениджмънт

Батура Татяна Олеговна

научен съветник

Доцент Косенков O.I.

Бердянск - 2009г


ВЪВЕДЕНИЕ

1.2 Добротата на годност на Пиърсън χ 2 за проста хипотеза

1.3 Доброта на годност за сложна хипотеза

1.4 χ 2 тестове на Фишер за добро качество за сложна хипотеза

1.5 Други критерии за съгласие. Съответствие за разпределението на Поасон

РАЗДЕЛ II. ПРАКТИЧЕСКИ ПРИЛОЖЕНИЯ НА КРИТЕРИЙ СЪГЛАСИЕ

ПРИЛОЖЕНИЯ

СПИСЪК НА ИЗПОЛЗВАНАТА ЛИТЕРАТУРА


ВЪВЕДЕНИЕ

Тази курсова работа описва най-често срещаните критерии за доброта на прилягане - омега-квадрат, хи-квадрат, Колмогоров и Колмогоров-Смирнов. Особено внимание се обръща на случая, когато е необходимо да се провери дали разпределението на данните принадлежи към някакво параметрично семейство, например нормално. Поради своята сложност тази много често срещана в практиката ситуация не е напълно проучена и не е напълно отразена в учебната и справочната литература.

Критериите за добро съответствие се наричат ​​статистически тестове, предназначени да тестват съответствието между експерименталните данни и теоретичния модел. Този въпрос е най-добре замислен, ако наблюденията представляват произволна извадка. Теоретичният модел в този случай описва закона за разпределението.

Теоретичното разпределение е разпределението на вероятностите, което управлява произволния подбор. Не само теорията може да даде идеи за това. Традицията, минал опит и предишни наблюдения могат да бъдат източници на знание тук. Трябва само да подчертаем, че това разпределение трябва да бъде избрано независимо от данните, върху които ще го проверяваме. С други думи, неприемливо е първо да се „вмести“ определен закон за разпределение върху извадка и след това да се опитате да проверите съгласието с получения закон за същата извадка.

Прости и сложни хипотези. Говорейки за теоретичния закон на разпределението, който елементите на дадена извадка трябва да следват хипотетично, трябва да правим разлика между прости и сложни хипотези за този закон:

· проста хипотеза директно показва специфичен закон на вероятностите (разпределение на вероятностите), според който са възникнали извадковите стойности;

Сложната хипотеза показва едно разпределение и някои от тях (например параметрично семейство).

Критериите за доброта на годността се основават на използването на различни мерки за разстояние между анализираното емпирично разпределение и функцията на разпределение на даден признак в общата съвкупност.

Широко се използват непараметрични тестове за съгласие Колмогоров, Смирнов, омега квадрат. Те обаче са свързани и с широко разпространени грешки при прилагането на статистически методи.

Факт е, че изброените критерии са разработени за тестване на споразумението с напълно известно теоретично разпределение. Широко се използват формули за изчисление, таблици на разпределения и критични стойности. Основната идея на критериите на Колмогоров, омега квадрат и подобни е да се измери разстоянието между емпиричната функция на разпределение и теоретичната функция на разпределение. Тези критерии се различават под формата на разстояния в пространството на функциите на разпределение.

Започвайки тази курсова работа, си поставих за цел да разбера какви критерии за съгласие съществуват, да разбера защо са необходими. За да постигнете тази цел, трябва да изпълните следните задачи:

1. Да се ​​разкрие същността на понятието „критерии за съгласие”;

2. Определете какви критерии за съгласие съществуват, проучете ги отделно;

3. Направете изводи за извършената работа.


РАЗДЕЛ I. ТЕОРЕТИЧНА ОБОСНОВАВАНЕ НА КРИТЕРИЯ ЗА СЪГЛАСИЕ

1.1 Критерии за добро качество на Колмогоров и омега-квадрат в случай на проста хипотеза

Проста хипотеза. Помислете за ситуация, при която измерените данни са числа, с други думи, едномерни случайни променливи. Разпределението на едномерните случайни променливи може да бъде напълно описано чрез определяне на техните функции на разпределение. И много тестове за добро съответствие се основават на проверка на близостта на теоретичните и емпиричните (извадкови) функции на разпределение.

Да предположим, че имаме извадка от n. Да означим истинската функция на разпределение, на която са обект на наблюденията, G(x), емпиричната (извадкова) функция на разпределение - F n (x), и хипотетичната функция на разпределение - F(x). Тогава хипотезата H, че истинската функция на разпределение е F(x), се записва като H: G(·) = F(·).

Как да тестваме хипотеза H? Ако H е вярно, тогава F n и F трябва да показват известно сходство и разликата между тях трябва да намалява с увеличаване на n. Поради теоремата на Бернули, F n (x) → F(x) при n → ∞. Използват се различни методи за количествено определяне на сходството на функциите F n и F.

За изразяване на сходството на функциите може да се използва едно или друго разстояние между тези функции. Например, може да се сравни F n и F в единната метрика, т.е. помислете за стойността:

(1.1)

Статистиката D n се нарича статистика на Колмогоров.

Очевидно D n е произволна променлива, тъй като стойността й зависи от произволния обект F n . Ако хипотезата H 0 е вярна и n → ∞, тогава F n (x) → F(x) за всяко x. Следователно е естествено при тези условия D n → 0. Ако хипотезата H 0 е невярна, тогава F n → G и G ≠ F и следователно sup -∞

Както винаги, когато тестваме хипотеза, ние разсъждаваме така, сякаш хипотезата е вярна. Ясно е, че H 0 трябва да се отхвърли, ако стойността на получената в експеримента статистика D n изглежда неправдоподобно голяма. Но за това трябва да знаете как се разпределят статистиките D n при хипотезата H: F= G за дадени n и G.

Забележително свойство на D n е, че ако G = F, т.е. ако хипотетичното разпределение е определено правилно, тогава законът за разпределение на статистиката D n се оказва еднакъв за всички непрекъснати функции G. Зависи само от размера на извадката n.

Доказателството на този факт се основава на факта, че статистиката не променя стойността си при монотонни трансформации на оста x. Чрез такава трансформация всяко непрекъснато разпределение G може да се превърне в равномерно разпределение на интервала . В този случай F n (x) ще премине във функцията на разпределение на извадката от това равномерно разпределение.

За малко n за статистиката D n при хипотезата H 0 се съставят таблици с процентни пунктове. За голямо n разпределението D n (при хипотезата H 0) се посочва от пределната теорема, открита през 1933 г. от А. Н. Колмогоров. Тя говори за статистика

(тъй като самата стойност D n → 0 при H 0 , е необходимо тя да се умножи по безкрайно нарастваща стойност, за да се стабилизира разпределението). Теоремата на Колмогоров гласи, че ако H 0 е вярно и ако G е непрекъснат:
(1.2)

Тази сума се изчислява много лесно в Maple. За да се тества проста хипотеза H 0: G = F, е необходимо да се изчисли стойността на статистиката D n от първоначалната извадка. Една проста формула работи за това.

Определение 51.Критерии, които позволяват да се прецени дали стойностите са съгласни х 1 , х 2 ,…, x nслучайна величина хс хипотеза за неговата функция на разпределение, се наричат критерии за съгласие.

Идеята за използване на критерии за добро качество

Нека въз основа на този статистически материал е необходимо да се тества хипотезата Х, което се състои в това, че SW хсе подчинява на определен закон за разпределението. Този закон може да бъде даден или като функция на разпределение Ф(х), или под формата на плътност на разпределение е(х), или под формата на набор от вероятности пи. Тъй като от всички тези форми, функцията на разпределение Ф(х) е най-общата (съществува както за DSW, така и за NSW) и определя всяка друга, ние ще формулираме хипотезата Х, като се състои в това, че количеството хима разпределителна функция Ф(х).

Да приеме или отхвърли хипотеза Х, вземете предвид някакво количество Ухарактеризираща степента на несъответствие (отклонение) на теоретичните и статистическите разпределения. СтойностУ могат да бъдат избрани по различни начини: 1) сума от квадратите на отклоненията на теоретичните вероятности пиот съответните честоти, 2) сумата от същите квадрати с някои коефициенти (тегла), 3) максималното отклонение на статистическата (емпирична) функция на разпределение от теоретичната Ф(х).

Нека стойността Уизбрани по един или друг начин. Очевидно това е някаква случайна променлива. закон за разпределението Узависи от закона на разпределението на случайната величина х, върху които са проведени експерименти и върху броя на експериментите н. Ако хипотезата Хе вярно, тогава законът за разпределение на количеството Уопределена от закона за разпределението на количеството х(функция Ф(х)) и номер н.

Да приемем, че този закон на разпределението е известен. В резултат на тази серия от експерименти беше установено, че избраната мярка за несъответствие Упридоби някаква стойност u. Въпрос: може ли това да се обясни със случайни причини или това несъответствие също е е голяма и показва значителна разлика между теоретичното и статистическото (емпирично) разпределение и следователно неподходящостта на хипотезата Х? За да отговорим на този въпрос, да предположим, че хипотезата Хе правилно и при това предположение изчисляваме вероятността, поради случайни причини, свързани с недостатъчно количество експериментален материал, мярката за несъответствие Уще бъде не по-малко от експериментално наблюдаваната стойност u, тоест изчисляваме вероятността за събитието: .

Ако тази вероятност е малка, тогава хипотезата Хтрябва да бъдат отхвърлени като едва ли правдоподобни, но ако тази вероятност е значителна, тогава заключаваме, че експерименталните данни не противоречат на хипотезата Х.

Възниква въпросът: как трябва да се избере мярката за несъответствие (отклонение)? У? Оказва се, че за някои начини за избора му, законът за разпределение на количеството Уима много прости свойства и за достатъчно големи нпрактически независимо от функцията Ф(х). Именно такива мерки за несъответствие се използват в математическата статистика като критерии за съгласие.

Определение 51 / .Критерият за добро съответствие е критерият за проверка на хипотезата за предполагаемия закон на неизвестното разпределение.

За количествени данни с разпределения, близки до нормалното, използвайте параметриченметоди, базирани на показатели като математическо очакване и стандартно отклонение. По-специално, за да се определи достоверността на разликата между средните стойности за две проби, се използва методът (критерият) на Студент, а за да се преценят разликите между три или повече проби, тестът Ф, или анализ на дисперсията. Ако имаме работа с неколичествени данни или извадките са твърде малки, за да сме сигурни, че популациите, от които са взети, следват нормално разпределение, тогава използвайте непараметриченметоди - критерий х 2(хи-квадрат) или Pearson за качествени данни и критерии за знаци, рангове, Mann-Whitney, Wilcoxon и т.н. за редови данни.

Освен това изборът на статистически метод зависи от това дали са извадките, чиито средни стойности се сравняват независими(т.е., например, взети от две различни групи субекти) или зависим(т.е. отразяващи резултатите от една и съща група субекти преди и след експозиция или след две различни експозиции).

стр. 1. Тест на Пиърсън (- хи-квадрат)

Нека произведени ннезависими експерименти, при всеки от които случайната променлива X е взела определена стойност, тоест се дава извадка от наблюдения на произволна променлива х(общо население) обем н. Помислете за проблема за проверка на близостта на теоретичните и емпиричните функции на разпределение за дискретно разпределение, тоест е необходимо да се провери дали експерименталните данни са в съответствие с хипотезата Х 0, заявявайки, че случайната променлива хима закон за разпределението Ф(х) на ниво значимост α . Нека наречем този закон "теоретичен".

При получаване на критерий за добро качество за проверка на хипотеза се определя мярка дотклонения на емпиричната функция на разпределение на дадена извадка от приетата (теоретичната) функция на разпределение Ф(х).

Най-често използваната е мярката, въведена от Pearson. Нека да разгледаме тази мярка. Разделяме набора от стойности на произволната променлива хна rнабори - групи С 1 , С 2 ,…, S r, без общи точки. На практика такъв дял се извършва с помощта на ( r- 1) числа ° С 1 < ° С 2 < … < r-един. В този случай краят на всеки интервал се изключва от съответния набор, а левият се включва.

С 1 С 2 С 3 …. S r -1 S r

° С 1 ° С 2 ° С 3 r -1

Нека бъде пи, , - вероятността SW хпринадлежи към комплекта Si(очевидно). Нека бъде n i, , - броят на стойностите (вариант) от броя на наблюдаемите, принадлежащи към набора Si(емпирични честоти). Тогава относителната честота на SW удари хмного Siв ннаблюдения. Очевидно е, че ,.

За разделянето по-горе, пиима увеличение Ф(х) на снимачната площадка Si, а увеличението е на същия набор. Привеждаме резултатите от експериментите в таблица под формата на групирана статистическа серия.

Групови граници Относителна честота
С 1:х 1 – х 2
С 2: х 2 – х 3
S r: x rx r +1

Познавайки теоретичния закон за разпределение, можете да намерите теоретичните вероятности за случайна променлива, попадаща във всяка група: Р 1 , Р 2 , …, p r. Проверявайки последователността на теоретичните и емпиричните (статистически) разпределения, ще изхождаме от несъответствията между теоретичните вероятности пии наблюдавани честоти.

За мярка днесъответствията (отклоненията) на емпиричната функция на разпределение от теоретичната приемат сумата от квадратите отклонения на теоретичните вероятности пиот съответните честоти, взети с някакви "тежести" c i: .

Коефициенти c iсе въвеждат, тъй като в общия случай отклоненията, свързани с различни групи, не могат да се считат за равни по значимост: отклонението на една и съща абсолютна стойност може да бъде от малко значение, ако самата вероятност пие голям и много забележим, ако е малък. Следователно, естествено "тежести" c iе обратно пропорционална на вероятностите. Как да изберем това съотношение?

К. Пиърсън показа, че ако поставим , тогава за големи нзакон за разпределението на количествата Уима много прости свойства: на практика е независима от функцията на разпределение Ф(х) и за броя на експериментите н, но зависи само от броя на групите r, а именно този закон с нарастване нсе доближава до така нареченото разпределение хи-квадрат .

Ако имате нужда от допълнителен материал по тази тема или не сте намерили това, което търсите, препоръчваме да използвате търсенето в нашата база данни с произведения:

Какво ще правим с получения материал:

Ако този материал се оказа полезен за вас, можете да го запишете на страницата си в социалните мрежи:

За проверка на хипотезата за съответствието на емпиричното разпределение с теоретичния закон на разпределението се използват специални статистически показатели - критерии за доброта (или критерии за съответствие). Те включват критериите на Пиърсън, Колмогоров, Романовски, Ястремски и др. Повечето от критериите за доброта на годност се основават на използването на отклонения на емпиричните честоти от теоретичните. Очевидно, колкото по-малки са тези отклонения, толкова по-добре теоретичното разпределение съвпада (или описва) с емпиричното.

Критерии за съгласие- това са критериите за проверка на хипотези за съответствието на емпиричното разпределение с теоретичното разпределение на вероятностите. Такива критерии са разделени на два класа: общи и специални. Общият критерий за добро съответствие се прилага за най-общата формулировка на хипотезата, а именно, за хипотезата, че наблюдаваните резултати са в съответствие с всяко априорно прието разпределение на вероятностите. Специалните тестове за добро съответствие предполагат специални нулеви хипотези, които формулират съгласие с определена форма на разпределение на вероятностите.

Критериите за споразумение, базирани на установения закон за разпределението, позволяват да се установи кога несъответствията между теоретичните и емпиричните честоти трябва да бъдат признати за незначителни (случайни) и кога - за значителни (неслучайни). От това следва, че критериите за доброто съответствие позволяват да се отхвърли или потвърди правилността на хипотезата, изложена при изравняване на поредицата за естеството на разпределението в емпиричния ред и да се отговори дали е възможно да се приеме модел, изразен чрез някакъв теоретичен закон на разпределението за дадено емпирично разпределение.

Тест за добро прилягане на Пиърсън c 2 (хи-квадрат) е един от основните критерии за доброта. Предложено от английския математик Карл Пиърсън (1857-1936) за оценка на случайността (значимостта) на несъответствията между честотите на емпиричните и теоретичните разпределения:

Схемата за прилагане на критерия c 2 за оценка на съгласуваността на теоретичните и емпиричните разпределения е както следва:

1. Определя се изчислената мярка за несъответствие.

2. Определя се броят на степените на свобода.

3. Броят на степените на свобода n се определя с помощта на специална таблица.

4. Ако , то за дадено ниво на значимост α и брой степени на свобода n, хипотезата за незначимост (случайност) на несъответствията се отхвърля. В противен случай може да се приеме, че хипотезата не противоречи на получените експериментални данни и с вероятност (1 – α) да се твърди, че несъответствията между теоретичната и емпиричната честоти са случайни.

Ниво на значимосте вероятността за погрешно отхвърляне на изложената хипотеза, т.е. вероятността правилната хипотеза да бъде отхвърлена. В статистическите изследвания, в зависимост от важността и отговорността на решаваните задачи, се използват следните три нива на значимост:

1) а = 0,1, тогава Р = 0,9;

2) а = 0,05, тогава Р = 0,95;

3) а = 0,01, тогава Р = 0,99.

При използване на критерия за добро съответствие c 2 трябва да се спазват следните условия:

1. Обемът на изследваната популация трябва да бъде достатъчно голям ( н≥ 50), докато честотата или размерът на групата трябва да бъде най-малко 5. Ако това условие е нарушено, е необходимо първо да се обединят малки честоти (по-малко от 5).

2. Емпиричното разпределение трябва да се състои от данни, получени в резултат на случаен подбор, т.е. те трябва да са независими.

Недостатъкът на критерия за добро съответствие на Пиърсън е загубата на част от първоначалната информация, свързана с необходимостта от групиране на резултатите от наблюдението в интервали и комбиниране на отделни интервали с малък брой наблюдения. В тази връзка се препоръчва проверката на съответствието на разпределенията по критерия да се допълни с още 2 критерия. Това е особено необходимо, когато размерът на извадката е сравнително малък ( н ≈ 100).

В статистиката Тестът за доброта на Колмогоров(известен също като тест за доброта на прилягането на Колмогоров-Смирнов) се използва, за да се определи дали две емпирични разпределения се подчиняват на един и същ закон или за да се определи дали полученото разпределение се подчинява на предложения модел. Критерият на Колмогоров се основава на определяне на максималната разлика между натрупаните честоти или честотите на емпирични или теоретични разпределения. Критерият на Колмогоров се изчислява по следните формули:

където ди д- съответно максималната разлика между натрупаните честоти ( ее¢) и между натрупаните честоти ( стрстр¢) емпирични и теоретични серии от разпределения; н- броят на единиците в съвкупността.

След като се изчисли стойността на λ, специална таблица определя вероятността, с която може да се твърди, че отклоненията на емпиричните честоти от теоретичните са случайни. Ако знакът приема стойности до 0,3, това означава, че има пълно съвпадение на честотите. С голям брой наблюдения тестът на Колмогоров е в състояние да открие всяко отклонение от хипотезата. Това означава, че всяка разлика между извадковото разпределение и теоретичното ще бъде открита с негова помощ, ако има много наблюдения. Практическото значение на това свойство не е значително, тъй като в повечето случаи е трудно да се разчита на получаване на голям брой наблюдения при постоянни условия, теоретичната идея за закона за разпределението, на който трябва да се подчинява извадката, винаги е приблизителна и точността на статистическите проверки не трябва да надвишава точността на избрания модел.

Критерий за доброта на Романовскивъз основа на използването на критерия на Пиърсън, т.е. вече намерени стойности c 2 и броя на степените на свобода:

където n е броят на степените на свобода на вариация.

Критерият на Романовски е удобен при липса на таблици за . Ако< 3, то расхождения распределений случайны, если же >3, то те не са случайни и теоретичното разпределение не може да служи като модел за изследваното емпирично разпределение.

B. S. Yastremsky използва в критерия на споразумението не броя на степените на свобода, а броя на групите ( к), специална стойност q в зависимост от броя на групите и стойност хи-квадрат. Критерий за съгласие на Ястремскиима същото значение като критерия Романовски и се изразява с формулата

където c 2 - критерий за съгласие на Пиърсън; - брой групи; q - коефициент, за броя на групите, по-малък от 20, равен на 0,6.

Ако Лфакт > 3, несъответствията между теоретичното и емпиричното разпределение не са случайни, т.е. емпиричното разпределение не отговаря на изискванията за нормално разпределение. Ако Лфакт< 3, расхождения между эмпирическим и теоретическим распределениями считаются случайными.

Тестваната хипотеза обикновено се нарича нулева хипотеза. H0, правилото, по което дадена хипотеза се приема или отхвърля, се нарича статистически критерий.Статистическите критерии, които служат за проверка на хипотези относно формата на законите за разпределение, се наричат ​​критерии за доброта на съответствието. Тези. критериите за съгласие установяват кога действителните несъответствия между предполагаемите теоретични и експериментални разпределения са: незначителни - случайни и кога значителни - неслучайни.

Помислете за произволна променлива, която характеризира вида или функцията на несъответствието между предполагаемото теоретично и експериментално разпределение на чертата, след което, според съществуващото експериментално разпределение, можете да определите стойността а, което произволната променлива е взела, ако е известен нейният закон за разпределение, тогава не е трудно да се намери вероятността случайната променлива да приеме стойност не по-малка от а. Ако стойността аполучени в резултат на наблюдение на случайна променлива х, т.е. при разпределяне на разглеждания атрибут, съгласно предложения теоретичен закон, тогава вероятността не трябва да е малка. Ако вероятността се окаже малка, това се дължи на факта, че действително получената стойност не е случайна променлива х, и някой друг с различен закон на разпределението, т.е. изследваната черта не се разпределя по очаквания закон. Така в случай, когато несъответствието между емпиричното и теоретичното разпределение не е малко, то следва да се признае за незначително - случайно, а експерименталното и теоретичното разпределение не са противоречиви, т.е. съгласувани един с друг.

Ако вероятността е ниска, тогава несъответствията между експерименталното и теоретичното разпределение са значителни, не могат да бъдат обяснени случайно и хипотезата за разпределението на чертата според предполагаемия теоретичен закон трябва да се счита за непотвърдена, не е съгласна с експерименталните данни. Необходимо е, след внимателно проучване на експерименталните данни, да се опитаме да намерим нов закон за качеството на предложената характеристика, който да отразява по-добре, по-пълно характеристиките на експерименталното разпределение, такива вероятности се считат за малки и не се вземат над 0,1.

Добротата на Пиърсън за подходящи критерии или критерииc 2 .

Нека анализът на експерименталните данни доведе до избора на определен закон за разпределение като предполагаем за разглежданата характеристика и според експерименталните данни в резултат на n-наблюдения се намират параметрите (ако не са били известни по-рано ). Означете с n i- емпирични честоти на произволна величина х.

n×P i-теоретични честоти, представляващи произведението на броя на наблюденията нна вероятността Пи- изчислено според приетото теоретично разпределение. Критерии за съгласие в 2като мярка за несъответствието между теоретичния и емпиричния честотен ред вземете стойността


;

в 2- количество, което се нарича в 2дистрибуция или разпределение на Пиърсън. То е равно на 0 само когато всички емпирични и теоретични честоти съвпадат, в други случаи е различно от 0 и колкото по-голямо, толкова по-голямо е несъответствието между посочените честоти. Доказано е, че избраната характеристика в 2или статистиката за n®¥ има разпределението на Пиърсън със степени на свобода

k=m-s- 1.

където м- броят на интервалите на емпиричното разпределение на вариационния ред или броя на групите.

с- броят на теоретичните параметри на разпределение, определени от експериментални данни (например, в случай на нормално разпределение, броят на параметрите, оценени от извадката, е 2).

Схемата за прилагане на критерия е следната:

1. Съгласно експерименталните данни за очакван се избира законът на разпределението на атрибута и се намират неговите параметри.

2. С помощта на полученото разпределение се определят теоретичните честоти, съответстващи на експерименталните честоти.

3. Няколко експериментални честоти, ако има такива, се комбинират със съседни, тогава стойността се определя по формулата в 2 .

4. Определете броя на степените на свобода к .

5. От таблиците на приложението за избраното ниво на значимост анамерете критичната стойност, когато броят на степените на свобода е равен на к .

6. Формулираме извода, ръководейки се от общия принцип за прилагане на критериите за доброта на годността, а именно, ако вероятността е >0,01, тогава съществуващите несъответствия между теоретичната и експерименталната честоти се считат за незначителни.

Ако действително наблюдаваната стойност е по-голяма от критичната стойност, тогава H0се отхвърля, ако хипотезата не противоречи на експерименталните данни. Критерий в 2дава задоволителни резултати, ако има достатъчен брой наблюдения във всеки интервал на групиране n i .

Забележка: Ако в някакъв интервал броят на наблюденията<5, то имеет смысл объединить соседние интервалы с тем, чтобы в объединенных интервалах n iбеше не по-малко от 5. В този случай при изчисляване на броя на степените на свобода ккато м- взема се съответно намален брой интервали.

За продукцията през отчетната година е получено следното разпределение на 100 цехови работници

(в % спрямо предходната година).