Примери за разпределение на Пиърсън. Проверка на хипотезата за нормалното разпределение на генералната съвкупност по критерия на Пиърсън
Разгледайте приложението вГОСПОЖИЦАEXCELХи-квадрат тест на Пиърсън за тестване на прости хипотези.
След получаване на експериментални данни (т.е. когато има такива проба) обикновено се избира закон за разпределение, който най-добре описва случайната променлива, представена от даденото вземане на проби. Проверката доколко експерименталните данни са описани от избрания теоретичен закон за разпределение се извършва с помощта на критерии за съгласие. нулева хипотеза, обикновено хипотезата за равенство на разпределението случайна величинанякои теоретичен закон.
Нека първо да разгледаме приложението Тест за съответствие на Pearson X 2 (хи-квадрат)по отношение на прости хипотези (параметрите на теоретичното разпределение се приемат за известни). След това - , когато е зададена само формата на разпределение и параметрите на това разпределение и стойността статистика X 2 се оценяват/изчисляват въз основа на същите проби.
Забележка: В англоезичната литература процедурата за кандидатстване Тест за съответствие на Пиърсън X 2 има име Тест за съответствие на хи-квадрат.
Припомнете си процедурата за проверка на хипотези:
- въз основа пробистойността се изчислява статистика, което съответства на вида на тестваната хипотеза. Например да използвате T-статистика(ако не е известно);
- подчинени на истината нулева хипотеза, разпространението на това статистикаизвестни и могат да се използват за изчисляване на вероятностите (например за T- статистикатова е );
- изчислено въз основа на пробизначение статистикав сравнение с критичната стойност за дадената стойност ();
- нулева хипотезаотхвърлено, ако стойността статистикапо-голяма от критичната (или ако вероятността да получите тази стойност статистика() по-малко ниво на значимост, което е еквивалентният подход).
Да похарчим тестване на хипотезиза различни разпределения.
Дискретен случай
Да предположим, че двама души играят на зарове. Всеки играч има свой собствен комплект зарове. Играчите се редуват да хвърлят 3 зара наведнъж. Всеки кръг се печели от този, който хвърли повече шестици наведнъж. Резултатите се записват. Един от играчите, след 100 рунда, имаше подозрение, че костите на опонента му не са симетрични, т.к. той често печели (често хвърля шестици). Той реши да анализира доколко е вероятен такъв брой изходи на противника.
Забележка: Защото 3 зара, след което можете да хвърлите 0 наведнъж; един; 2 или 3 шестици, т.е. случайната променлива може да приеме 4 стойности.
От теорията на вероятностите знаем, че ако кубчетата са симетрични, тогава вероятността шестиците да изпаднат се подчинява. Следователно, след 100 кръга, честотите на шестиците могат да бъдат изчислени с помощта на формулата
=BINOM.DIST(A7;3;1/6;FALSE)*100
Формулата предполага, че клетката A7 съдържа съответния брой паднали шестици в един кръг.
Забележка: Изчисленията са дадени в примерен файл на лист Discrete.
За сравнение наблюдаваното(Наблюдавано) и теоретични честоти(Очаквано) удобен за използване.
При значително отклонение на наблюдаваните честоти от теоретичното разпределение, нулева хипотеза относно разпределението на случайна променлива според теоретичен закон, трябва да се отхвърли. Тоест, ако заровепротивникът е асиметричен, тогава наблюдаваните честоти ще бъдат „значително различни“ от биномно разпределение.
В нашия случай на пръв поглед честотите са доста близки и е трудно да се направи еднозначно заключение без изчисления. Приложимо Тест за съответствие на Пиърсън X 2, така че вместо субективното твърдение „съществено различни“, което може да се направи на базата на сравнение хистограми, използвайте математически правилно твърдение.
Нека използваме факта, че закон големи числа наблюдавана честота (Наблюдавано) с увеличаване на обема проби n клони към вероятността, съответстваща на теоретичния закон (в нашия случай, биномен закон). В нашия случай размерът на извадката n е 100.
Нека се запознаем тест статистика, което означаваме с X 2:
където O l е наблюдаваната честота на събитията, които случайната променлива е приела за определени позволени стойности, El е съответната теоретична честота (очаквана). L е броят на стойностите, които една случайна променлива може да приеме (в нашия случай тя е равна на 4).
Както се вижда от формулата, това статистикае мярка за близостта на наблюдаваните честоти до теоретичните, т.е. може да се използва за оценка на "разстоянията" между тези честоти. Ако сумата от тези "разстояния" е "твърде голяма", тогава тези честоти са "съществено различни". Ясно е, че ако нашият куб е симетричен (т.е. приложим биномен закон), тогава вероятността сумата от "разстояния" да бъде "твърде голяма" ще бъде малка. За да изчислим тази вероятност, трябва да знаем разпределението статистика X 2 ( статистика X 2, изчислено въз основа на случаен принцип проби, така че е случайна променлива и следователно има своя собствена разпределение на вероятностите).
От многоизмерен аналог интегрална теоремаМоавр-Лапласизвестно е, че за n->∞ нашата случайна променлива X 2 е асимптотично с L - 1 степени на свобода.
Така че, ако изчислената стойност статистика X 2 (сумата от „разстоянията“ между честотите) ще бъде повече от определена гранична стойност, тогава ще имаме причина да отхвърлим нулева хипотеза. Като при проверка параметрични хипотези, граничната стойност се задава чрез ниво на значимост. Ако вероятността статистиката X 2 да приеме стойност, по-малка или равна на изчислената ( стр-смисъл) ще бъде по-малко ниво на значимост, тогава нулева хипотезамогат да бъдат отхвърлени.
В нашия случай статистическата стойност е 22,757. Вероятността статистиката X 2 да приеме стойност, по-голяма или равна на 22,757, е много малка (0,000045) и може да се изчисли с помощта на формулите
=XI2.DIST.PX(22 757;4-1)или
=XI2.TEST(Наблюдаван; Очакван)
Забележка: Функцията CH2.TEST() е специално проектирана да тества връзката между две категорични променливи (вижте ).
Вероятността от 0,000045 е значително по-малка от обикновено ниво на значимост 0,05. Така че играчът има всички основания да подозира опонента си в нечестност ( нулева хипотезаза неговата честност се отрича).
При прилагане критерий X 2трябва да се внимава да се гарантира, че обемът проби n е достатъчно голямо, в противен случай приближението на разпределението би било невалидно статистика X 2. Обикновено се счита, че за това е достатъчно наблюдаваните честоти (наблюдавани) да са по-големи от 5. Ако това не е така, тогава ниските честоти се комбинират в една или се присъединяват към други честоти и на комбинираната стойност се присвоява общата вероятността и съответно броят на степените на свобода намалява X 2 -разпределение.
За да се подобри качеството на приложението критерий X 2(), е необходимо да се намалят интервалите на разделяне (увеличете L и съответно увеличете броя степени на свобода), обаче, това се предотвратява от ограничение на броя наблюдения, които попадат във всеки интервал (db>5).
непрекъснат случай
Тест за съответствие на Pearson X 2 може да се приложи по същия начин в случай на .
Помислете за някои вземане на проби, състоящ се от 200 стойности. Нулева хипотезагласи че пробанаправена от .
Забележка: Случайни променливи в примерен файл на лист Непрекъснатогенерирани с помощта на формулата =NORM.ST.INV(RAND()). Следователно нови ценности пробисе генерират при всяко преизчисляване на листа.
Може да се оцени визуално дали наличният набор от данни е подходящ.
Както можете да видите от диаграмата, примерните стойности пасват доста добре по правата линия. Въпреки това, както във за тестване на хипотезиприложимо Тест за съответствие на Пиърсън X 2 .
За да направим това, разделяме диапазона на вариация на случайна променлива на интервали със стъпка 0,5. Нека изчислим наблюдаваните и теоретичните честоти. Изчисляваме наблюдаваните честоти с помощта на функцията FREQUENCY(), а теоретичните - с помощта на функцията NORM.ST.DIST().
Забележка: Що се отнася до дискретен случай, необходимо е да се гарантира, че пробабеше доста голям и повече от 5 стойности попаднаха в интервала.
Изчислете статистиката X 2 и я сравнете с критичната стойност за дадена ниво на значимост(0,05). защото разделихме обхвата на вариация на случайна променлива на 10 интервала, тогава броят на степените на свобода е 9. Критичната стойност може да се изчисли по формулата
\u003d XI2.INV.RH (0,05; 9) или
\u003d XI2.OBR (1-0,05; 9)
Графиката по-горе показва, че статистическата стойност е 8,19, което е значително по-високо критичен – нулева хипотезане се отхвърля.
По-долу е на който пробаприема малко вероятна стойност и въз основа на критерии Съгласието на Pearson X 2нулевата хипотеза беше отхвърлена (въпреки факта, че произволни стойностибяха генерирани с помощта на формулата =NORM.ST.INV(RAND())осигуряване вземане на пробиот стандартно нормално разпределение).
Нулева хипотезаотхвърлени, въпреки че визуално данните са доста близки до права линия.
Като пример, нека също да вземем вземане на пробиот U(-3; 3). В случая дори от графиката става ясно, че нулева хипотезатрябва да бъдат отхвърлени.
Критерий Съгласието на Pearson X 2също потвърждава това нулева хипотезатрябва да бъдат отхвърлени.
ОПРКритерият за проверка на хипотезата за предложения закон на неизвестното разпределение се нарича критерий за добро съответствие.
Има няколко критерия за добро съответствие: $\chi ^2$ (хи-квадрат) от К. Пиърсън, Колмогоров, Смирнов и др.
Обикновено теоретичните и емпиричните честоти се различават. Случаят на несъответствие може да не е случаен, което означава, че се обяснява с факта, че хипотезата не е правилно избрана. Критерият на Pearson отговаря на въпроса, но, както всеки критерий, той не доказва нищо, а само установява съгласието или несъгласието си с данните от наблюденията на приетото ниво на значимост.
ОПРДостатъчно малка вероятност, при която дадено събитие може да се счита за почти невъзможно, се нарича ниво на значимост.
На практика е обичайно да се вземат нива на значимост между 0,01 и 0,05, като $\alpha =0,05$ е $5 (\% ) $ ниво на значимост.
Като критерий за проверка на хипотезата приемаме стойността \begin(equation) \label ( eq1 ) \chi ^2=\sum ( \frac ( (( n_i -n_i" ))^2 ) ( n_i" ) ) \ qquad (1) \ край (уравнение)
тук $n_i -$ емпирични честоти, получени от пробата, $n_i" -$ теоретични честоти, намерени теоретично.
Доказано е, че за $n\to \infty $ законът за разпределение на случайната променлива ( 1 ) независимо от закона за разпределение население, клони към закона $\chi ^2$ ( хи-квадрат ) с $k$ степени на свобода.
ОПРБроят на степените на свобода се намира от уравнението $k=S-1-r$, където $S-$ е броят на интервалните групи, $r-$ е броят на параметрите.
1) равномерно разпределение: $r=2, k=S-3 $
2) нормална дистрибуция: $r=2, k=S-3$
3) експоненциално разпределение: $r=1, k=S-2$.
правило . Проверка на хипотезата по критерия на Пиърсън.
- За да тествате хипотезата, изчислете теоретичните честоти и намерете $\chi _ ( obs ) ^2 =\sum ( \frac ( (( n_i -n_i" ))^2 ) ( n_i" ) ) $
- Според таблицата критични точкиНамират се $\chi ^2$ разпределения по даденото ниво на значимост $\alpha $ и броя на степените на свобода $k$ $\chi _ ( kr ) ^2 (( \alpha ,k ))$.
- Ако $\chi _ ( obs ) ^2<\chi _ { кр } ^2 $ то нет оснований отвергать гипотезу, если не выполняется данное условие - то отвергают.
КоментирайтеЗа да контролирате изчисленията, използвайте формулата за $\chi ^2$ във формата $\chi _ ( obs ) ^2 =\sum ( \frac ( n_i^2 ) ( n_i" ) -n ) $
Тестване на хипотезата за равномерното разпределение
Функцията на плътност на равномерното разпределение на $X$ има формата $f(x)=\frac ( 1 ) ( b-a ) x\in \left[ ( a,b )\right]$.
За да се тества хипотезата, че непрекъсната случайна променлива е равномерно разпределена при ниво на значимост $\alpha $, се изисква:
1) Намерете примерната средна $\overline ( x_b ) $ и $\sigma _b =\sqrt ( D_b ) $ от даденото емпирично разпределение. Вземете като оценка на параметрите $a$ и $b$ количествата
$a = \overline x _b -\sqrt 3 \sigma _b $, $b = \overline x _b +\sqrt 3 \sigma _b $
2) Намерете вероятността случайна променлива $X$ да попадне в частични интервали $(( x_i ,x_ ( i+1 ) ))$ с помощта на формулата $ P_i =P(( x_i 3) Намерете теоретичните (изравняващи) честоти, като използвате формулата $n_i" =np_i $. 4) Приемайки броя на степените на свобода $k=S-3$ и нивото на значимост $\alpha =0.05$ от таблиците $\chi ^2$, намираме $\chi _ ( cr ) ^2 $ от дадени $\alpha $ и $k$, $\chi _ ( cr ) ^2 (( \alpha ,k ))$. 5) Използвайки формулата $\chi _ ( obs ) ^2 =\sum ( \frac ( (( n_i -n_i" ))^2 ) ( n_i" ) ) $ където $n_i са $ емпирични честоти, намираме наблюдаваните стойност $\ chi _ ( obs ) ^2 $. 6) Ако $\chi _ ( obs ) ^2<\chi _ { кр } ^2 -$ нет оснований, отвергать гипотезу. Нека проверим хипотезата на нашия пример. 1) $\overline x _b =13.00\,\,\sigma _b =\sqrt ( D_b ) = 6.51$ 2) $a=13,00-\sqrt 3 \cdot 6,51=13,00-1,732\cdot 6,51=1,72468$ $b=13,00+1,732\cdot 6,51=24,27532$ $b-a=24,27532-1,72468=22,55064$ 3) $P_i =P((x_i $P_2 =((3 $P_3 =((7 $P_4 =((11 $P_5 =((15 $P_6 =((19 При равномерно разпределение, ако дължината на интервала е една и съща, тогава $P_i -$ са еднакви. 4) Намерете $n_i" =np_i $. 5) Намерете $\sum ( \frac ( (( n_i -n_i" ))^2 ) ( n_i" )) $ и намерете $\chi _ ( obs ) ^2 $. Нека поставим всички получени стойности в таблицата \begin(масив) ( |l|l|l|l|l|l|l| ) \hline i& n_i & n_i" =np_i & n_i -n_i" & (( n_i -n_i"))^2& \frac ( (( n_i -n_i")^2 ) ( n_i" ) & Control~ \frac ( n_i^2 ) ( n_i") \\ \hline 1& 1& 4.43438& -3.43438& 11.7950& 2.659898& 0.22551 \\ \hline 2& 6& 4.43438& 1.56562& 2.45117& 0.552765& 8.11838 \\ \hline 3& 3& 4.43438& -1.43438& 2.05744& 0.471463& 2.0296 \\ \hline 4& 3& 4 .43438& -1.43438& 2.05744& 0.471463& 2.0296 \\ \hline 5& 6& 4.43438& 1.56562& 2.45117& 0.552765& 8.11838 \\ \hline 6& 6& 4.43438& 1.562 45117& 0.552765& 8.11838 \\ \hline & & & & & \sum = \chi _ ( obs ) ^2 =3.261119& \chi _ ( 2 =\сума (\frac (n_i^2) (n_i") -n) =3,63985 \\ \hline \end(масив) $\chi _ ( cr ) ^2 (( 0,05,3 ))=7,8$ $\chi _ ( obs ) ^2<\chi _ { кр } ^2 =3,26<7,8$ Заключениеняма причина да се отхвърли хипотезата. Предимството на критерия на Пиърсън е неговата универсалност: той може да се използва за тестване на хипотези за различни закони на разпределение. 1. Проверка на хипотезата за нормално разпределение. Нека се получи проба с достатъчно голям размер Пс много различни стойности на варианти. За удобство на обработката му разделяме интервала от най-малката до най-голямата от стойностите на варианта на сравни части и ще приемем, че стойностите на опциите, които попадат във всеки интервал, са приблизително равни на числото, което определя средата на интервала. След като преброим броя на опциите, попаднали във всеки интервал, ще направим така наречената групирана извадка: настроики……….. х 1 х 2 … x s честоти…………. П 1 П 2 … n s , където x iса стойностите на средните точки на интервалите и n iе броят на опциите, включени в азти интервал (емпирични честоти). Въз основа на получените данни е възможно да се изчисли средната стойност на извадката и стандартното отклонение на извадката σ Б. Нека проверим предположението, че генералната съвкупност е разпределена по нормалния закон с параметри М(х) = , д(х) = . След това можете да намерите броя на числата от обемната извадка П, които трябва да бъдат във всеки интервал при това предположение (т.е. теоретични честоти). За да направите това, използвайки таблицата със стойности на функцията на Лаплас, намираме вероятността за удряне аз-ти интервал: където a iи b i- граници аз-ти интервал. Умножавайки получените вероятности по размера на извадката n, намираме теоретичните честоти: p i =n p i.Нашата цел е да сравним емпиричните и теоретичните честоти, които, разбира се, се различават една от друга, и да разберем дали тези разлики са незначителни, не опровергават хипотезата за нормалното разпределение на изследваната случайна променлива или са така големи, че те противоречат на тази хипотеза. За целта се използва критерий под формата на случайна променлива Смисълът му е очевиден: сумират се частите, които са квадратите на отклоненията на емпиричните честоти от теоретичните от съответните теоретични честоти. Може да се докаже, че независимо от реалния закон за разпределение на генералната съвкупност, законът за разпределение на случайната променлива (20.1) при клони към закона за разпределение (виж лекция 12) с броя на степените на свобода k = s - 1 – r, където rе броят на параметрите на оцененото разпределение, оценено от извадковите данни. Нормалното разпределение се характеризира с два параметъра, т.н k = s - 3. За избрания критерий се построява дясна критична област, определена от условието където α
- ниво на значимост. Следователно критичната област е дадена от неравенството И така, за да тестваме нулевата хипотеза з 0: популацията е нормално разпределена - трябва да изчислите наблюдаваната стойност на критерия от извадката: и според таблицата на критичните точки на разпределението χ 2 намерете критичната точка, като използвате известните стойности на α и k = s - 3. Ако - нулевата хипотеза се приема, ако се отхвърля. 2. Проверка на хипотезата за равномерно разпределение. Когато използвате теста на Pearson за тестване на хипотезата за равномерно разпределение на генералната съвкупност с предполагаема плътност на вероятността необходимо е, като се изчисли стойността от наличната извадка, да се оценят параметрите аи bпо формулите: където а*и б*- оценки аи b. Всъщност за равномерно разпределение М(х) = , Тогава, ако приемем, че Тук се броят на интервалите, на които е разделена пробата. Наблюдаваната стойност на критерия на Pearson се изчислява по формулата (20.1`), а критичната стойност се изчислява от таблицата, като се вземе предвид фактът, че броят на степените на свобода k = s - 3. След това се определят границите на критичната област по същия начин, както при проверка на хипотезата за нормално разпределение. 3. Проверка на хипотезата за експоненциалното разпределение. В този случай, разделяйки съществуващата извадка на интервали с еднаква дължина, ние разглеждаме последователност от опции, еднакво отдалечени една от друга (ние приемаме, че всички опции, които попадат в аз-ти интервал, вземете стойност, съвпадаща със средата му), и съответните им честоти n i(брой примерни опции, включени в аз– ти интервал). Ние изчисляваме от тези данни и приемаме като оценка на параметъра λ
стойност . След това теоретичните честоти се изчисляват по формулата След това се сравняват наблюдаваните и критичните стойности на критерия на Пиърсън, като се има предвид, че броят на степените на свобода k = s - 2. Пример 1. Използвайки теста на Pearson, при ниво на значимост 0,05, проверете дали хипотезата за нормалното разпределение на генералната съвкупност X е в съответствие с емпиричното разпределение на размера на извадката n = 200. Решениенамери с калкулатор. . Пример 2. Използвайки теста на Pearson, при ниво на значимост 0,05, проверете дали хипотезата за нормалното разпределение на генералната съвкупност X е в съответствие с емпиричното разпределение на размера на извадката n = 200. Метрики на центъра за разпространение. Нека сравним емпиричните и теоретичните честоти. Нека направим изчислителна таблица, от която ще намерим наблюдаваната стойност на критерия: Нека да определим границата на критичната област. Тъй като статистиката на Pearson измерва разликата между емпиричните и теоретичните разпределения, колкото по-голяма е наблюдаваната стойност на K obs, толкова по-силен е аргументът срещу основната хипотеза.
Предназначение на критерия χ 2 - Критерият на Пиърсън Критерият χ 2 се използва за две цели: 1) да се сравни емпиричното разпределение на признак с теоретичното - равномерно, нормално или друго; 2) за сравняване на две, три или повече емпирични разпределения на една и съща характеристика. Описание на критерия Критерият χ 2 отговаря на въпроса дали различни стойности на характеристика се срещат с еднаква честота в емпиричните и теоретичните разпределения или в две или повече емпирични разпределения. Предимството на метода е, че позволява сравняване на разпределенията на характеристиките, представени във всяка скала, като се започне от скалата на имената. В най-простия случай на алтернативното разпределение "да - не", "разрешен брак - не разрешен брак", "решил проблема - не решил проблем" и т.н., вече можем да приложим критерия χ 2 . Колкото по-голямо е несъответствието между две сравними разпределения, толкова по-голяма е емпиричната стойност на χ 2 . Автоматично изчисляване на χ 2 - критерия на Пиърсън За автоматично изчисляване на χ 2 - критерия на Пиърсън е необходимо да се извършат две стъпки: Етап 1. Посочете броя на емпиричните разпределения (от 1 до 10); Стъпка 2. Въведете емпиричните честоти в таблицата; Стъпка 3. Получете отговор.
,
. (20.1)
(20.2)
и областта на приемане на хипотезата е.
, (20.1`)
, откъдето можете да получите система за определяне а*и b*: , чието решение е израз (20.3).
, можете да намерите теоретичните честоти, като използвате формулите
x i Количество, фи x i * f i Кумулативна честота, S (x - x sr) * f (x - x sr) 2 * f (x - x sr) 3 * f Честота, f i /n
5
15
75
15
114.45
873.25
-6662.92
0.075
7
26
182
41
146.38
824.12
-4639.79
0.13
9
25
225
66
90.75
329.42
-1195.8
0.13
11
30
330
96
48.9
79.71
-129.92
0.15
13
26
338
122
9.62
3.56
1.32
0.13
15
21
315
143
49.77
117.95
279.55
0.11
17
24
408
167
104.88
458.33
2002.88
0.12
19
20
380
187
127.4
811.54
5169.5
0.1
21
13
273
200
108.81
910.74
7622.89
0.065
200
2526
800.96
4408.62
2447.7
1
среднопретеглена стойност
Вариационни индикатори.
.
R = X max - X min
R=21 - 5=16
дисперсия
Безпристрастен оценител на дисперсията
Стандартно отклонение .
Всяка стойност от серията се различава от средната стойност от 12,63 с не повече от 4,7
.
.
нормален закон
n = 200, h = 2 (ширина на интервала), σ = 4.7, xav = 12.63 аз x i u i φ i n* i
1
5
-1.63
0,1057
9.01
2
7
-1.2
0,1942
16.55
3
9
-0.77
0,2943
25.07
4
11
-0.35
0,3752
31.97
5
13
0.0788
0,3977
33.88
6
15
0.5
0,3503
29.84
7
17
0.93
0,2565
21.85
8
19
1.36
0,1582
13.48
9
21
1.78
0,0804
6.85
аз n i n* i n i -n* i (n i -n* i) 2 (n i -n* i) 2 /n* i
1
15
9.01
-5.99
35.94
3.99
2
26
16.55
-9.45
89.39
5.4
3
25
25.07
0.0734
0.00539
0.000215
4
30
31.97
1.97
3.86
0.12
5
26
33.88
7.88
62.14
1.83
6
21
29.84
8.84
78.22
2.62
7
24
21.85
-2.15
4.61
0.21
8
20
13.48
-6.52
42.53
3.16
9
13
6.85
-6.15
37.82
5.52
∑
200
200
22.86
Неговата граница K kp = χ 2 (k-r-1; α) се намира от таблиците за разпределение хи-квадрат и дадените стойности σ, k = 9, r=2 (параметрите x cp и σ се оценяват от извадката ).
Kkp(0,05;6) = 12,59159; Kobs = 22,86
Наблюдаваната стойност на статистиката на Pearson попада в критичната област: Knable > Kkp, така че има причина да се отхвърли основната хипотеза. Примерните данни се разпространяват не според обичайния закон. С други думи, емпиричните и теоретичните честоти се различават значително.
Решение.
Таблица за изчисляване на показатели.x i Количество, фи x i * f i Кумулативна честота, S (x - x sr) * f (x - x sr) 2 * f (x - x sr) 3 * f Честота, f i /n
0.3
6
1.8
6
5.77
5.55
-5.34
0.03
0.5
9
4.5
15
6.86
5.23
-3.98
0.045
0.7
26
18.2
41
14.61
8.21
-4.62
0.13
0.9
25
22.5
66
9.05
3.28
-1.19
0.13
1.1
30
33
96
4.86
0.79
-0.13
0.15
1.3
26
33.8
122
0.99
0.0375
0.00143
0.13
1.5
21
31.5
143
5
1.19
0.28
0.11
1.7
24
40.8
167
10.51
4.6
2.02
0.12
1.9
20
38
187
12.76
8.14
5.19
0.1
2.1
8
16.8
195
6.7
5.62
4.71
0.04
2.3
5
11.5
200
5.19
5.39
5.59
0.025
200
252.4
82.3
48.03
2.54
1
среднопретеглена стойност
Вариационни индикатори.
Абсолютни нива на вариация.
Диапазонът на вариация е разликата между максималните и минималните стойности на атрибута на първичната серия.
R = X max - X min
R = 2,3 - 0,3 = 2
дисперсия- характеризира мярката за разпространение около нейната средна стойност (мярка за дисперсия, т.е. отклонение от средната стойност).
Безпристрастен оценител на дисперсиятае последователна оценка на дисперсията.
Стандартно отклонение.
Всяка стойност от серията се различава от средната стойност от 1,26 с не повече от 0,49
Оценяване на стандартното отклонение.
Тестване на хипотези за вида на разпределението.
1. Нека проверим хипотезата, че X е разпределено върху нормален законизползвайки теста за съответствие на Pearson.
където n * i - теоретични честоти:
Ние изчисляваме теоретичните честоти, като се има предвид, че:
n = 200, h = 0,2 (ширина на интервала), σ = 0,49, xav = 1,26 аз x i u i φ i n* i
1
0.3
-1.96
0,0573
4.68
2
0.5
-1.55
0,1182
9.65
3
0.7
-1.15
0,2059
16.81
4
0.9
-0.74
0,3034
24.76
5
1.1
-0.33
0,3765
30.73
6
1.3
0.0775
0,3977
32.46
7
1.5
0.49
0,3538
28.88
8
1.7
0.89
0,2661
21.72
9
1.9
1.3
0,1691
13.8
10
2.1
1.71
0,0909
7.42
11
2.3
2.12
0,0422
3.44
21.72
-2.28
5.2
0.24
9
20
13.8
-6.2
38.41
2.78
10
8
7.42
-0.58
0.34
0.0454
11
5
3.44
-1.56
2.42
0.7
∑
200
200
12.67
Следователно критичната област за тази статистика винаги е дясната :)