Биографии Характеристики Анализ

Примери за разпределение на Пиърсън. Проверка на хипотезата за нормалното разпределение на генералната съвкупност по критерия на Пиърсън

Разгледайте приложението вГОСПОЖИЦАEXCELХи-квадрат тест на Пиърсън за тестване на прости хипотези.

След получаване на експериментални данни (т.е. когато има такива проба) обикновено се избира закон за разпределение, който най-добре описва случайната променлива, представена от даденото вземане на проби. Проверката доколко експерименталните данни са описани от избрания теоретичен закон за разпределение се извършва с помощта на критерии за съгласие. нулева хипотеза, обикновено хипотезата за равенство на разпределението случайна величинанякои теоретичен закон.

Нека първо да разгледаме приложението Тест за съответствие на Pearson X 2 (хи-квадрат)по отношение на прости хипотези (параметрите на теоретичното разпределение се приемат за известни). След това - , когато е зададена само формата на разпределение и параметрите на това разпределение и стойността статистика X 2 се оценяват/изчисляват въз основа на същите проби.

Забележка: В англоезичната литература процедурата за кандидатстване Тест за съответствие на Пиърсън X 2 има име Тест за съответствие на хи-квадрат.

Припомнете си процедурата за проверка на хипотези:

  • въз основа пробистойността се изчислява статистика, което съответства на вида на тестваната хипотеза. Например да използвате T-статистика(ако не е известно);
  • подчинени на истината нулева хипотеза, разпространението на това статистикаизвестни и могат да се използват за изчисляване на вероятностите (например за T- статистикатова е );
  • изчислено въз основа на пробизначение статистикав сравнение с критичната стойност за дадената стойност ();
  • нулева хипотезаотхвърлено, ако стойността статистикапо-голяма от критичната (или ако вероятността да получите тази стойност статистика() по-малко ниво на значимост, което е еквивалентният подход).

Да похарчим тестване на хипотезиза различни разпределения.

Дискретен случай

Да предположим, че двама души играят на зарове. Всеки играч има свой собствен комплект зарове. Играчите се редуват да хвърлят 3 зара наведнъж. Всеки кръг се печели от този, който хвърли повече шестици наведнъж. Резултатите се записват. Един от играчите, след 100 рунда, имаше подозрение, че костите на опонента му не са симетрични, т.к. той често печели (често хвърля шестици). Той реши да анализира доколко е вероятен такъв брой изходи на противника.

Забележка: Защото 3 зара, след което можете да хвърлите 0 наведнъж; един; 2 или 3 шестици, т.е. случайната променлива може да приеме 4 стойности.

От теорията на вероятностите знаем, че ако кубчетата са симетрични, тогава вероятността шестиците да изпаднат се подчинява. Следователно, след 100 кръга, честотите на шестиците могат да бъдат изчислени с помощта на формулата
=BINOM.DIST(A7;3;1/6;FALSE)*100

Формулата предполага, че клетката A7 съдържа съответния брой паднали шестици в един кръг.

Забележка: Изчисленията са дадени в примерен файл на лист Discrete.

За сравнение наблюдаваното(Наблюдавано) и теоретични честоти(Очаквано) удобен за използване.

При значително отклонение на наблюдаваните честоти от теоретичното разпределение, нулева хипотеза относно разпределението на случайна променлива според теоретичен закон, трябва да се отхвърли. Тоест, ако заровепротивникът е асиметричен, тогава наблюдаваните честоти ще бъдат „значително различни“ от биномно разпределение.

В нашия случай на пръв поглед честотите са доста близки и е трудно да се направи еднозначно заключение без изчисления. Приложимо Тест за съответствие на Пиърсън X 2, така че вместо субективното твърдение „съществено различни“, което може да се направи на базата на сравнение хистограми, използвайте математически правилно твърдение.

Нека използваме факта, че закон големи числа наблюдавана честота (Наблюдавано) с увеличаване на обема проби n клони към вероятността, съответстваща на теоретичния закон (в нашия случай, биномен закон). В нашия случай размерът на извадката n е 100.

Нека се запознаем тест статистика, което означаваме с X 2:

където O l е наблюдаваната честота на събитията, които случайната променлива е приела за определени позволени стойности, El е съответната теоретична честота (очаквана). L е броят на стойностите, които една случайна променлива може да приеме (в нашия случай тя е равна на 4).

Както се вижда от формулата, това статистикае мярка за близостта на наблюдаваните честоти до теоретичните, т.е. може да се използва за оценка на "разстоянията" между тези честоти. Ако сумата от тези "разстояния" е "твърде голяма", тогава тези честоти са "съществено различни". Ясно е, че ако нашият куб е симетричен (т.е. приложим биномен закон), тогава вероятността сумата от "разстояния" да бъде "твърде голяма" ще бъде малка. За да изчислим тази вероятност, трябва да знаем разпределението статистика X 2 ( статистика X 2, изчислено въз основа на случаен принцип проби, така че е случайна променлива и следователно има своя собствена разпределение на вероятностите).

От многоизмерен аналог интегрална теоремаМоавр-Лапласизвестно е, че за n->∞ нашата случайна променлива X 2 е асимптотично с L - 1 степени на свобода.

Така че, ако изчислената стойност статистика X 2 (сумата от „разстоянията“ между честотите) ще бъде повече от определена гранична стойност, тогава ще имаме причина да отхвърлим нулева хипотеза. Като при проверка параметрични хипотези, граничната стойност се задава чрез ниво на значимост. Ако вероятността статистиката X 2 да приеме стойност, по-малка или равна на изчислената ( стр-смисъл) ще бъде по-малко ниво на значимост, тогава нулева хипотезамогат да бъдат отхвърлени.

В нашия случай статистическата стойност е 22,757. Вероятността статистиката X 2 да приеме стойност, по-голяма или равна на 22,757, е много малка (0,000045) и може да се изчисли с помощта на формулите
=XI2.DIST.PX(22 757;4-1)или
=XI2.TEST(Наблюдаван; Очакван)

Забележка: Функцията CH2.TEST() е специално проектирана да тества връзката между две категорични променливи (вижте ).

Вероятността от 0,000045 е значително по-малка от обикновено ниво на значимост 0,05. Така че играчът има всички основания да подозира опонента си в нечестност ( нулева хипотезаза неговата честност се отрича).

При прилагане критерий X 2трябва да се внимава да се гарантира, че обемът проби n е достатъчно голямо, в противен случай приближението на разпределението би било невалидно статистика X 2. Обикновено се счита, че за това е достатъчно наблюдаваните честоти (наблюдавани) да са по-големи от 5. Ако това не е така, тогава ниските честоти се комбинират в една или се присъединяват към други честоти и на комбинираната стойност се присвоява общата вероятността и съответно броят на степените на свобода намалява X 2 -разпределение.

За да се подобри качеството на приложението критерий X 2(), е необходимо да се намалят интервалите на разделяне (увеличете L и съответно увеличете броя степени на свобода), обаче, това се предотвратява от ограничение на броя наблюдения, които попадат във всеки интервал (db>5).

непрекъснат случай

Тест за съответствие на Pearson X 2 може да се приложи по същия начин в случай на .

Помислете за някои вземане на проби, състоящ се от 200 стойности. Нулева хипотезагласи че пробанаправена от .

Забележка: Случайни променливи в примерен файл на лист Непрекъснатогенерирани с помощта на формулата =NORM.ST.INV(RAND()). Следователно нови ценности пробисе генерират при всяко преизчисляване на листа.

Може да се оцени визуално дали наличният набор от данни е подходящ.

Както можете да видите от диаграмата, примерните стойности пасват доста добре по правата линия. Въпреки това, както във за тестване на хипотезиприложимо Тест за съответствие на Пиърсън X 2 .

За да направим това, разделяме диапазона на вариация на случайна променлива на интервали със стъпка 0,5. Нека изчислим наблюдаваните и теоретичните честоти. Изчисляваме наблюдаваните честоти с помощта на функцията FREQUENCY(), а теоретичните - с помощта на функцията NORM.ST.DIST().

Забележка: Що се отнася до дискретен случай, необходимо е да се гарантира, че пробабеше доста голям и повече от 5 стойности попаднаха в интервала.

Изчислете статистиката X 2 и я сравнете с критичната стойност за дадена ниво на значимост(0,05). защото разделихме обхвата на вариация на случайна променлива на 10 интервала, тогава броят на степените на свобода е 9. Критичната стойност може да се изчисли по формулата
\u003d XI2.INV.RH (0,05; 9) или
\u003d XI2.OBR (1-0,05; 9)

Графиката по-горе показва, че статистическата стойност е 8,19, което е значително по-високо критиченнулева хипотезане се отхвърля.

По-долу е на който пробаприема малко вероятна стойност и въз основа на критерии Съгласието на Pearson X 2нулевата хипотеза беше отхвърлена (въпреки факта, че произволни стойностибяха генерирани с помощта на формулата =NORM.ST.INV(RAND())осигуряване вземане на пробиот стандартно нормално разпределение).

Нулева хипотезаотхвърлени, въпреки че визуално данните са доста близки до права линия.

Като пример, нека също да вземем вземане на пробиот U(-3; 3). В случая дори от графиката става ясно, че нулева хипотезатрябва да бъдат отхвърлени.

Критерий Съгласието на Pearson X 2също потвърждава това нулева хипотезатрябва да бъдат отхвърлени.

ОПРКритерият за проверка на хипотезата за предложения закон на неизвестното разпределение се нарича критерий за добро съответствие.

Има няколко критерия за добро съответствие: $\chi ^2$ (хи-квадрат) от К. Пиърсън, Колмогоров, Смирнов и др.

Обикновено теоретичните и емпиричните честоти се различават. Случаят на несъответствие може да не е случаен, което означава, че се обяснява с факта, че хипотезата не е правилно избрана. Критерият на Pearson отговаря на въпроса, но, както всеки критерий, той не доказва нищо, а само установява съгласието или несъгласието си с данните от наблюденията на приетото ниво на значимост.

ОПРДостатъчно малка вероятност, при която дадено събитие може да се счита за почти невъзможно, се нарича ниво на значимост.

На практика е обичайно да се вземат нива на значимост между 0,01 и 0,05, като $\alpha =0,05$ е $5 (\% ) $ ниво на значимост.

Като критерий за проверка на хипотезата приемаме стойността \begin(equation) \label ( eq1 ) \chi ^2=\sum ( \frac ( (( n_i -n_i" ))^2 ) ( n_i" ) ) \ qquad (1) \ край (уравнение)

тук $n_i -$ емпирични честоти, получени от пробата, $n_i" -$ теоретични честоти, намерени теоретично.

Доказано е, че за $n\to \infty $ законът за разпределение на случайната променлива ( 1 ) независимо от закона за разпределение население, клони към закона $\chi ^2$ ( хи-квадрат ) с $k$ степени на свобода.

ОПРБроят на степените на свобода се намира от уравнението $k=S-1-r$, където $S-$ е броят на интервалните групи, $r-$ е броят на параметрите.

1) равномерно разпределение: $r=2, k=S-3 $

2) нормална дистрибуция: $r=2, k=S-3$

3) експоненциално разпределение: $r=1, k=S-2$.

правило . Проверка на хипотезата по критерия на Пиърсън.

  1. За да тествате хипотезата, изчислете теоретичните честоти и намерете $\chi _ ( obs ) ^2 =\sum ( \frac ( (( n_i -n_i" ))^2 ) ( n_i" ) ) $
  2. Според таблицата критични точкиНамират се $\chi ^2$ разпределения по даденото ниво на значимост $\alpha $ и броя на степените на свобода $k$ $\chi _ ( kr ) ^2 (( \alpha ,k ))$.
  3. Ако $\chi _ ( obs ) ^2<\chi _ { кр } ^2 $ то нет оснований отвергать гипотезу, если не выполняется данное условие - то отвергают.

КоментирайтеЗа да контролирате изчисленията, използвайте формулата за $\chi ^2$ във формата $\chi _ ( obs ) ^2 =\sum ( \frac ( n_i^2 ) ( n_i" ) -n ) $

Тестване на хипотезата за равномерното разпределение

Функцията на плътност на равномерното разпределение на $X$ има формата $f(x)=\frac ( 1 ) ( b-a ) x\in \left[ ( a,b )\right]$.

За да се тества хипотезата, че непрекъсната случайна променлива е равномерно разпределена при ниво на значимост $\alpha $, се изисква:

1) Намерете примерната средна $\overline ( x_b ) $ и $\sigma _b =\sqrt ( D_b ) $ от даденото емпирично разпределение. Вземете като оценка на параметрите $a$ и $b$ количествата

$a = \overline x _b -\sqrt 3 \sigma _b $, $b = \overline x _b +\sqrt 3 \sigma _b $

2) Намерете вероятността случайна променлива $X$ да попадне в частични интервали $(( x_i ,x_ ( i+1 ) ))$ с помощта на формулата $ P_i =P(( x_i

3) Намерете теоретичните (изравняващи) честоти, като използвате формулата $n_i" =np_i $.

4) Приемайки броя на степените на свобода $k=S-3$ и нивото на значимост $\alpha =0.05$ от таблиците $\chi ^2$, намираме $\chi _ ( cr ) ^2 $ от дадени $\alpha $ и $k$, $\chi _ ( cr ) ^2 (( \alpha ,k ))$.

5) Използвайки формулата $\chi _ ( obs ) ^2 =\sum ( \frac ( (( n_i -n_i" ))^2 ) ( n_i" ) ) $ където $n_i са $ емпирични честоти, намираме наблюдаваните стойност $\ chi _ ( obs ) ^2 $.

6) Ако $\chi _ ( obs ) ^2<\chi _ { кр } ^2 -$ нет оснований, отвергать гипотезу.

Нека проверим хипотезата на нашия пример.

1) $\overline x _b =13.00\,\,\sigma _b =\sqrt ( D_b ) = 6.51$

2) $a=13,00-\sqrt 3 \cdot 6,51=13,00-1,732\cdot 6,51=1,72468$

$b=13,00+1,732\cdot 6,51=24,27532$

$b-a=24,27532-1,72468=22,55064$

3) $P_i =P((x_i

$P_2 =((3

$P_3 =((7

$P_4 =((11

$P_5 =((15

$P_6 =((19

При равномерно разпределение, ако дължината на интервала е една и съща, тогава $P_i -$ са еднакви.

4) Намерете $n_i" =np_i $.

5) Намерете $\sum ( \frac ( (( n_i -n_i" ))^2 ) ( n_i" )) $ и намерете $\chi _ ( obs ) ^2 $.

Нека поставим всички получени стойности в таблицата

\begin(масив) ( |l|l|l|l|l|l|l| ) \hline i& n_i & n_i" =np_i & n_i -n_i" & (( n_i -n_i"))^2& \frac ( (( n_i -n_i")^2 ) ( n_i" ) & Control~ \frac ( n_i^2 ) ( n_i") \\ \hline 1& 1& 4.43438& -3.43438& 11.7950& 2.659898& 0.22551 \\ \hline 2& 6& 4.43438& 1.56562& 2.45117& 0.552765& 8.11838 \\ \hline 3& 3& 4.43438& -1.43438& 2.05744& 0.471463& 2.0296 \\ \hline 4& 3& 4 .43438& -1.43438& 2.05744& 0.471463& 2.0296 \\ \hline 5& 6& 4.43438& 1.56562& 2.45117& 0.552765& 8.11838 \\ \hline 6& 6& 4.43438& 1.562 45117& 0.552765& 8.11838 \\ \hline & & & & & \sum = \chi _ ( obs ) ^2 =3.261119& \chi _ ( 2 =\сума (\frac (n_i^2) (n_i") -n) =3,63985 \\ \hline \end(масив)

$\chi _ ( cr ) ^2 (( 0,05,3 ))=7,8$

$\chi _ ( obs ) ^2<\chi _ { кр } ^2 =3,26<7,8$

Заключениеняма причина да се отхвърли хипотезата.

Предназначение на критерия χ 2 - Критерият на Пиърсън Критерият χ 2 се използва за две цели: 1) да се сравни емпиричното разпределение на признак с теоретичното - равномерно, нормално или друго; 2) за сравняване на две, три или повече емпирични разпределения на една и съща характеристика. Описание на критерия Критерият χ 2 отговаря на въпроса дали различни стойности на характеристика се срещат с еднаква честота в емпиричните и теоретичните разпределения или в две или повече емпирични разпределения. Предимството на метода е, че позволява сравняване на разпределенията на характеристиките, представени във всяка скала, като се започне от скалата на имената. В най-простия случай на алтернативното разпределение "да - не", "разрешен брак - не разрешен брак", "решил проблема - не решил проблем" и т.н., вече можем да приложим критерия χ 2 . Колкото по-голямо е несъответствието между две сравними разпределения, толкова по-голяма е емпиричната стойност на χ 2 . Автоматично изчисляване на χ 2 - критерия на Пиърсън За автоматично изчисляване на χ 2 - критерия на Пиърсън е необходимо да се извършат две стъпки: Етап 1. Посочете броя на емпиричните разпределения (от 1 до 10); Стъпка 2. Въведете емпиричните честоти в таблицата; Стъпка 3. Получете отговор.

Предимството на критерия на Пиърсън е неговата универсалност: той може да се използва за тестване на хипотези за различни закони на разпределение.

1. Проверка на хипотезата за нормално разпределение.

Нека се получи проба с достатъчно голям размер Пс много различни стойности на варианти. За удобство на обработката му разделяме интервала от най-малката до най-голямата от стойностите на варианта на сравни части и ще приемем, че стойностите на опциите, които попадат във всеки интервал, са приблизително равни на числото, което определя средата на интервала. След като преброим броя на опциите, попаднали във всеки интервал, ще направим така наречената групирана извадка:

настроики……….. х 1 х 2 … x s

честоти…………. П 1 П 2 … n s ,

където x iса стойностите на средните точки на интервалите и n iе броят на опциите, включени в азти интервал (емпирични честоти).



Въз основа на получените данни е възможно да се изчисли средната стойност на извадката и стандартното отклонение на извадката σ Б. Нека проверим предположението, че генералната съвкупност е разпределена по нормалния закон с параметри М(х) = , д(х) = . След това можете да намерите броя на числата от обемната извадка П, които трябва да бъдат във всеки интервал при това предположение (т.е. теоретични честоти). За да направите това, използвайки таблицата със стойности на функцията на Лаплас, намираме вероятността за удряне аз-ти интервал:

,

където a iи b i- граници аз-ти интервал. Умножавайки получените вероятности по размера на извадката n, намираме теоретичните честоти: p i =n p i.Нашата цел е да сравним емпиричните и теоретичните честоти, които, разбира се, се различават една от друга, и да разберем дали тези разлики са незначителни, не опровергават хипотезата за нормалното разпределение на изследваната случайна променлива или са така големи, че те противоречат на тази хипотеза. За целта се използва критерий под формата на случайна променлива

. (20.1)

Смисълът му е очевиден: сумират се частите, които са квадратите на отклоненията на емпиричните честоти от теоретичните от съответните теоретични честоти. Може да се докаже, че независимо от реалния закон за разпределение на генералната съвкупност, законът за разпределение на случайната променлива (20.1) при клони към закона за разпределение (виж лекция 12) с броя на степените на свобода k = s - 1 – r, където rе броят на параметрите на оцененото разпределение, оценено от извадковите данни. Нормалното разпределение се характеризира с два параметъра, т.н k = s - 3. За избрания критерий се построява дясна критична област, определена от условието

(20.2)

където α - ниво на значимост. Следователно критичната област е дадена от неравенството и областта на приемане на хипотезата е.

И така, за да тестваме нулевата хипотеза з 0: популацията е нормално разпределена - трябва да изчислите наблюдаваната стойност на критерия от извадката:

, (20.1`)

и според таблицата на критичните точки на разпределението χ 2 намерете критичната точка, като използвате известните стойности на α и k = s - 3. Ако - нулевата хипотеза се приема, ако се отхвърля.

2. Проверка на хипотезата за равномерно разпределение.

Когато използвате теста на Pearson за тестване на хипотезата за равномерно разпределение на генералната съвкупност с предполагаема плътност на вероятността

необходимо е, като се изчисли стойността от наличната извадка, да се оценят параметрите аи bпо формулите:

където а*и б*- оценки аи b. Всъщност за равномерно разпределение М(х) = , , откъдето можете да получите система за определяне а*и b*: , чието решение е израз (20.3).

Тогава, ако приемем, че , можете да намерите теоретичните честоти, като използвате формулите

Тук се броят на интервалите, на които е разделена пробата.

Наблюдаваната стойност на критерия на Pearson се изчислява по формулата (20.1`), а критичната стойност се изчислява от таблицата, като се вземе предвид фактът, че броят на степените на свобода k = s - 3. След това се определят границите на критичната област по същия начин, както при проверка на хипотезата за нормално разпределение.

3. Проверка на хипотезата за експоненциалното разпределение.

В този случай, разделяйки съществуващата извадка на интервали с еднаква дължина, ние разглеждаме последователност от опции, еднакво отдалечени една от друга (ние приемаме, че всички опции, които попадат в аз-ти интервал, вземете стойност, съвпадаща със средата му), и съответните им честоти n i(брой примерни опции, включени в аз– ти интервал). Ние изчисляваме от тези данни и приемаме като оценка на параметъра λ стойност . След това теоретичните честоти се изчисляват по формулата

След това се сравняват наблюдаваните и критичните стойности на критерия на Пиърсън, като се има предвид, че броят на степените на свобода k = s - 2.

Тест за съответствие на Pearson:

Пример 1. Използвайки теста на Pearson, при ниво на значимост 0,05, проверете дали хипотезата за нормалното разпределение на генералната съвкупност X е в съответствие с емпиричното разпределение на размера на извадката n = 200.

Решениенамери с калкулатор.

x iКоличество, фиx i * f iКумулативна честота, S(x - x sr) * f(x - x sr) 2 * f(x - x sr) 3 * fЧестота, f i /n
5 15 75 15 114.45 873.25 -6662.92 0.075
7 26 182 41 146.38 824.12 -4639.79 0.13
9 25 225 66 90.75 329.42 -1195.8 0.13
11 30 330 96 48.9 79.71 -129.92 0.15
13 26 338 122 9.62 3.56 1.32 0.13
15 21 315 143 49.77 117.95 279.55 0.11
17 24 408 167 104.88 458.33 2002.88 0.12
19 20 380 187 127.4 811.54 5169.5 0.1
21 13 273 200 108.81 910.74 7622.89 0.065
200 2526 800.96 4408.62 2447.7 1

.
среднопретеглена стойност


Вариационни индикатори.
.

R = X max - X min
R=21 - 5=16
дисперсия


Безпристрастен оценител на дисперсията


Стандартно отклонение .

Всяка стойност от серията се различава от средната стойност от 12,63 с не повече от 4,7
.

.
нормален закон




n = 200, h = 2 (ширина на интервала), σ = 4.7, xav = 12.63

азx iu iφ in* i
1 5 -1.63 0,1057 9.01
2 7 -1.2 0,1942 16.55
3 9 -0.77 0,2943 25.07
4 11 -0.35 0,3752 31.97
5 13 0.0788 0,3977 33.88
6 15 0.5 0,3503 29.84
7 17 0.93 0,2565 21.85
8 19 1.36 0,1582 13.48
9 21 1.78 0,0804 6.85
азn in* in i -n* i(n i -n* i) 2(n i -n* i) 2 /n* i
1 15 9.01 -5.99 35.94 3.99
2 26 16.55 -9.45 89.39 5.4
3 25 25.07 0.0734 0.00539 0.000215
4 30 31.97 1.97 3.86 0.12
5 26 33.88 7.88 62.14 1.83
6 21 29.84 8.84 78.22 2.62
7 24 21.85 -2.15 4.61 0.21
8 20 13.48 -6.52 42.53 3.16
9 13 6.85 -6.15 37.82 5.52
200 200 22.86



Неговата граница K kp = χ 2 (k-r-1; α) се намира от таблиците за разпределение хи-квадрат и дадените стойности σ, k = 9, r=2 (параметрите x cp и σ се оценяват от извадката ).
Kkp(0,05;6) = 12,59159; Kobs = 22,86
Наблюдаваната стойност на статистиката на Pearson попада в критичната област: Knable > Kkp, така че има причина да се отхвърли основната хипотеза. Примерните данни се разпространяват не според обичайния закон. С други думи, емпиричните и теоретичните честоти се различават значително.

Пример 2. Използвайки теста на Pearson, при ниво на значимост 0,05, проверете дали хипотезата за нормалното разпределение на генералната съвкупност X е в съответствие с емпиричното разпределение на размера на извадката n = 200.
Решение.
Таблица за изчисляване на показатели.

x iКоличество, фиx i * f iКумулативна честота, S(x - x sr) * f(x - x sr) 2 * f(x - x sr) 3 * fЧестота, f i /n
0.3 6 1.8 6 5.77 5.55 -5.34 0.03
0.5 9 4.5 15 6.86 5.23 -3.98 0.045
0.7 26 18.2 41 14.61 8.21 -4.62 0.13
0.9 25 22.5 66 9.05 3.28 -1.19 0.13
1.1 30 33 96 4.86 0.79 -0.13 0.15
1.3 26 33.8 122 0.99 0.0375 0.00143 0.13
1.5 21 31.5 143 5 1.19 0.28 0.11
1.7 24 40.8 167 10.51 4.6 2.02 0.12
1.9 20 38 187 12.76 8.14 5.19 0.1
2.1 8 16.8 195 6.7 5.62 4.71 0.04
2.3 5 11.5 200 5.19 5.39 5.59 0.025
200 252.4 82.3 48.03 2.54 1

Метрики на центъра за разпространение.
среднопретеглена стойност


Вариационни индикатори.
Абсолютни нива на вариация.
Диапазонът на вариация е разликата между максималните и минималните стойности на атрибута на първичната серия.
R = X max - X min
R = 2,3 - 0,3 = 2
дисперсия- характеризира мярката за разпространение около нейната средна стойност (мярка за дисперсия, т.е. отклонение от средната стойност).


Безпристрастен оценител на дисперсиятае последователна оценка на дисперсията.


Стандартно отклонение.

Всяка стойност от серията се различава от средната стойност от 1,26 с не повече от 0,49
Оценяване на стандартното отклонение.

Тестване на хипотези за вида на разпределението.
1. Нека проверим хипотезата, че X е разпределено върху нормален законизползвайки теста за съответствие на Pearson.

където n * i - теоретични честоти:

Ние изчисляваме теоретичните честоти, като се има предвид, че:
n = 200, h = 0,2 (ширина на интервала), σ = 0,49, xav = 1,26

азx iu iφ in* i
1 0.3 -1.96 0,0573 4.68
2 0.5 -1.55 0,1182 9.65
3 0.7 -1.15 0,2059 16.81
4 0.9 -0.74 0,3034 24.76
5 1.1 -0.33 0,3765 30.73
6 1.3 0.0775 0,3977 32.46
7 1.5 0.49 0,3538 28.88
8 1.7 0.89 0,2661 21.72
9 1.9 1.3 0,1691 13.8
10 2.1 1.71 0,0909 7.42
11 2.3 2.12 0,0422 3.44

Нека сравним емпиричните и теоретичните честоти. Нека направим изчислителна таблица, от която ще намерим наблюдаваната стойност на критерия:

21.72 -2.28 5.2 0.24 9 20 13.8 -6.2 38.41 2.78 10 8 7.42 -0.58 0.34 0.0454 11 5 3.44 -1.56 2.42 0.7 ∑ 200 200 12.67

Нека да определим границата на критичната област. Тъй като статистиката на Pearson измерва разликата между емпиричните и теоретичните разпределения, колкото по-голяма е наблюдаваната стойност на K obs, толкова по-силен е аргументът срещу основната хипотеза.
Следователно критичната област за тази статистика винаги е дясната :)