Биографии Характеристики Анализ

Тестване на хипотези за равенство на средствата. Хипотеза за равенството на две средни

3. ПРОВЕРКА НА ХИПОТЕЗАТА ЗА РАВЕНСТВО НА СРЕДНИТЕ СРЕДНОСТИ

Използва се за тестване на твърдението, че средната стойност на двата показателя, представени от извадките, е значително различна. Има три вида тестове: един за свързани проби и два за несвързани проби (с еднакви и различни вариации). Ако извадките не са свързани, тогава първо трябва да се тества хипотезата за равенство на дисперсиите, за да се определи кой от критериите да се използва. Както в случая на сравняване на дисперсии, има 2 начина за решаване на проблема, които ще разгледаме с пример.

ПРИМЕР 3. има данни за броя на продажбите на стоки в два града. Тествайте при ниво на значимост 0,01 статистическата хипотеза, че средният брой продажби на продукт в градовете е различен.

23 25 23 22 23 24 28 16 18 23 29 26 31 19
22 28 26 26 35 20 27 28 28 26 22 29

Използваме пакета Data Analysis. В зависимост от вида на теста се избира един от трите: „Сдвоен двуизвадков t-тест за средни стойности“ – за свързани извадки и „Двуизвадков t-тест с еднакви дисперсии“ ​​или „Двуизвадков t-тест с различни отклонения" - за несвързани проби. Извикайте теста със същите вариации, в прозореца, който се отваря, в полетата "Интервал на променлива 1" и "Интервал на променлива 2" въведете връзки към данни (съответно A1-N1 и A2-L2), ако има етикети с данни, след което поставете отметка в квадратчето до надписа „Етикети ” (ние ги нямаме, така че квадратчето не е отметнато). След това въведете нивото на значимост в полето "Алфа" - 0,01. Оставете полето Хипотетична средна разлика празно. В секцията „Опции за изход“ поставете отметка до „Интервал на изхода“ и като поставите курсора в полето срещу надписа, щракнете с левия бутон върху клетка B7. извеждането на резултата ще се извърши, започвайки от тази клетка. С щракване върху "OK" се появява таблица с резултати. Преместете границата между колони B и C, C и D, D и E, като увеличите ширината на колони B, C и D, така че всички етикети да паснат. Процедурата извежда основните характеристики на извадката, t-статистиката, критичните стойности на тези статистики и критични нивазначение "P(T<=t) одностороннее» и «Р(Т<=t) двухстороннее». Если по модулю t-статистика меньше критического, то средние показатели с заданной вероятностью равны. В нашем случае│-1,784242592│ < 2,492159469, следовательно, среднее число продаж значимо не отличается. Следует отметить, что если взять уровень значимости α=0,05, то результаты исследования будут совсем иными.



Двуизвадков t-тест с равни дисперсии

Средно аритметично 23,57142857 26,41666667
дисперсия 17,34065934 15,35606061
Наблюдения 14 12
Обединена дисперсия 16,43105159
Хипотетична средна разлика 0
df 24
t-статистика -1,784242592
P(T<=t) одностороннее 0,043516846
t критично едностранно 2,492159469
P(T<=t) двухстороннее 0,087033692
t критично двустранно 2,796939498

Лаборатория #3

ДВОЙНА ЛИНЕЙНА РЕГРЕСИЯ

Цел: Да овладеят методите за конструиране на регресионно уравнение на линейна двойка с помощта на компютър, да научат как да получават и анализират основните характеристики на регресионното уравнение.

Обмислете техниката за конструиране на регресионно уравнение, като използвате пример.

ПРИМЕР. Дадени са примерни фактори x i и y i. Въз основа на тези проби намерете уравнението на линейната регресия ỹ = ax + b. Намерете коефициента на корелация на двойката. Проверете при ниво на значимост a = 0,05 регресионния модел за адекватност.

х 0 1 2 3 4 5 6 7 8 9
Y 6,7 6,3 4,4 9,5 5,2 4,3 7,7 7,1 7,1 7,9

За да намерите коефициентите a и b на регресионното уравнение, използвайте функциите SLOPE и INTERCEPT, категория "Статистически". Въвеждаме подписа „a =“ в A5, а в съседната клетка B5 въвеждаме функцията SLOPE, поставяме курсора в полето „Izv_value_u“, задаваме връзката към клетки B2-K2, като ги обикаляме с мишката. Резултатът е 0,14303. Нека сега намерим коефициента b. Въвеждаме в A6 сигнатурата “b =”, а в B6 функцията INTERCEPT със същите параметри като функцията SLOPE. Резултатът е 5.976364. следователно уравнението на линейната регресия е y=0,14303x+5,976364.

Нека начертаем регресионното уравнение. За да направите това, в третия ред на таблицата въвеждаме стойностите на функцията в дадените точки X (първи ред) - y (x 1). За да получите тези стойности, използвайте функцията TREND на статистическата категория. Въвеждаме в A3 подписа "Y (X)" и като поставим курсора в B3, извикваме функцията TREND. В полетата "From_value_y" и "From_value_x" даваме връзка към B2-K2 и B1-K1. в полето "New_value_x" въвеждаме и връзка към B1-K1. в полето "Константа" въведете 1, ако регресионното уравнение има формата y=ax+b, и 0, ако y=ax. В нашия случай влизаме в единицата. Функцията TREND е масив, така че за да покажете всички нейни стойности, изберете областта B3-K3 и натиснете F2 и Ctrl+Shift+Enter. Резултатът е стойностите на регресионното уравнение в дадените точки. Изграждаме диаграма. Поставяме курсора във всяка свободна клетка, извикваме съветника за диаграма, избираме категорията "Обърнати", типът на графиката е линия без точки (в долния десен ъгъл), щракнете върху "Напред", в полето "Диагноза" въведете връзка към B3-K3. отидете в раздела „Ред“ и в полето „Стойности X“ въведете връзка към B1-K1, щракнете върху „Край“. Резултатът е права регресионна линия. Нека видим как се различават графиките на експерименталните данни и регресионните уравнения. За да направите това, поставете курсора във всяка свободна клетка, извикайте съветника за диаграма, категорията „Графика“, типът на графиката е прекъсната линия с точки (втора от горния ляв ъгъл), щракнете върху „Напред“ в „Диапазон“ поле въведете връзка към втория и третия ред B2- K3. отидете в раздела „Ред“ и в полето „Етикети на ос X“ въведете връзка към B1-K1, щракнете върху „Край“. Резултатът е два реда (син - начално, червен - регресионно уравнение). Вижда се, че линиите се различават малко една от друга.

а= 0,14303
b= 5,976364

Функцията PEARSON се използва за изчисляване на коефициента на корелация r xy. Поставяме диаграмата така, че да са разположени над ред 25, а в A25 правим подписа „Корелация“, в B25 извикваме функцията PEARSON, в полетата на която „Масив 2“ въвеждаме връзка към първоначалните данни B1 -K1 и B2-K2. резултатът е 0.993821. коефициентът на детерминация R xy е квадрат на корелационния коефициент r xy . В A26 правим подписа "Определяне", а в B26 - формулата "=B25*B25". Резултатът е 0,265207.

Има обаче една функция в Excel, която изчислява всички основни характеристики на линейната регресия. Това е функцията LINEST. Поставяме курсора в B28 и извикваме функцията LINEST, категория "Статистически". В полетата "From_value_y" и "From_value_x" даваме връзка към B2-K2 и B1-K1. полето "Константа" има същото значение като функцията TREND, имаме го равно на 1. Полето "Статистика" трябва да съдържа 1, ако искате да покажете пълна статистика за регресията. В нашия случай поставяме единица там. Функцията връща масив с размер 2 колони и 5 реда. След като въведете, изберете клетка B28-C32 с мишката и натиснете F2 и Ctrl + Shift + Enter. Резултатът е таблица със стойности, числата в която имат следното значение:



Коефициент а

коефициент b

Стандартна грешка m o

Стандартна грешка m h

Коефициент на определяне R xy

Стандартно отклонение y

F - статистика

Степени на свобода n-2

Регресионна сума на квадратите S n 2

Остатъчна сума на квадратите S n 2

0,14303 5,976364
0,183849 0,981484
0,070335 1,669889
0,60525 8
1,687758 22,30824

Анализ на резултата: в първия ред - коефициентите на регресионното уравнение, сравнете ги с изчислените функции SLOPE и INTERCEPT. Вторият ред е стандартните грешки на коефициентите. Ако един от тях е по-голям по абсолютна стойност от самия коефициент, тогава коефициентът се счита за нула. Коефициентът на детерминация характеризира качеството на връзката между факторите. Получената стойност от 0,070335 показва много добра връзка на факторите, F - статистиката проверява хипотезата за адекватността на регресионния модел. Това число трябва да се сравни с критичната стойност, за да го получим, въвеждаме подписа „F-критичен“ в E33, а във F33 функцията FDISP, чиито аргументи въвеждаме съответно „0,05“ (ниво на значимост), “1” (брой фактори X) и “8” (степени на свобода).

F-критичен 5,317655

Може да се види, че F-статистиката е по-малка от F-критичната, което означава, че регресионният модел не е адекватен. Последният ред показва регресионната сума на квадратите и остатъчни суми на квадрати . Важно е регресионната сума (обяснена от регресията) да бъде много по-голяма от остатъка (не се обяснява от регресията, причинена от случайни фактори). В нашия случай това условие не е изпълнено, което показва лоша регресия.

Заключение: В хода на работата усвоих методите за конструиране на регресионно уравнение на линейна двойка с помощта на компютър, научих се как да получа и анализирам основните характеристики на регресионното уравнение.


Лаборатория #4

НЕЛИНЕЙНА РЕГРЕСИЯ

Цел: да овладеят методите за конструиране на основните типове нелинейни двойни регресионни уравнения с помощта на компютър (вътрешно линейни модели), да се научат как да получават и анализират показателите за качество на регресионните уравнения.

Нека разгледаме случая, когато нелинейните модели могат да бъдат редуцирани до линейни с помощта на трансформация на данни (вътрешно линейни модели).

ПРИМЕР. Конструирайте регресионно уравнение y = f(x) за извадката x n y n (f = 1,2,…,10). Като f (x), разгледайте четири вида функции - линейни, степенни, експоненциални и хипербола:

y = Ax + B; y = Ax B; y \u003d Ae Bx; y \u003d A / x + B.

Необходимо е да се намерят техните коефициенти A и B и сравнявайки показателите за качество, изберете функцията, която най-добре описва зависимостта.

Печалба Y 0,3 1,2 2,8 5,2 8,1 11,0 16,8 16,9 24,7 29,4
Печалба X 0,25 0,50 0,75 1,00 1,25 1,50 1,75 2,00 2,25 2,50

Нека въведем данни в таблицата заедно с подписи (клетки A1-K2). Нека оставим свободни три реда под таблицата за въвеждане на конвертираните данни, изберете първите пет реда, като плъзнете по лявата сива граница на числата от 1 до 5 и изберете произволен цвят (светло - жълт или розов), за да оцветите фона на клетките . Освен това, започвайки от A6, извличаме параметрите на линейната регресия. За да направите това, в клетка A6 правим подписа "Линеен" и в съседната клетка B6 въвеждаме функцията LINEST. В полетата "From_value_x" даваме връзка към B2-K2 и B1-K1, следващите две полета приемат стойности по едно. След това начертайте зоната отдолу на 5 реда и отляво на 2 реда и натиснете F2 и Ctrl + Shift + Enter. Резултатът е таблица с регресионни параметри, на която коефициентът на детерминация в първата колона е третият отгоре. В нашия случай тя е равна на R 1 = 0,951262. Стойността на F-критерия, който ви позволява да проверите адекватността на модела F 1 = 156.1439

(четвърти ред, първа колона). Регресионното уравнение е

y = 12,96 x +6,18 (коефициентите a и b са дадени в клетки B6 и C6).

Линеен 12,96 -6,18
1,037152 1,60884
0,951262 2,355101
156,1439 8
866,052 44,372

Нека определим подобни характеристики за други регресии и в резултат на сравняване на коефициентите на определяне ще намерим най-добрия регресионен модел. Помислете за хиперболична регресия. За да го получим, трансформираме данните. В третия ред в клетка A3 въведете надписа "1/x", а в клетка B3 въведете формулата "=1/B2". Нека разтегнем тази клетка чрез автоматично попълване до областта B3-K3. Нека да получим характеристиките на регресионния модел. В клетка A12 въвеждаме сигнатурата "Хипербола", а в съседната функция LINEST. В полетата "From_value_y" и "From_value_x2" даваме връзка към B1-K1 и преобразуваните данни на аргумента x - B3-K3, следващите две полета приемат стойности по една. След това ограждаме зоната под 5 реда и отляво на 2 реда и натискаме F2 и Ctrl + Shift + Enter. Получаваме таблица с регресионни параметри. Коефициентът на детерминация в този случай е R 2 = 0,475661, което е много по-лошо, отколкото в случая на линейна регресия. F-статистиката е F 2 = 7,257293. Регресионното уравнение е y = -6,25453x 18,96772.

Хипербола -6,25453 18,96772
2,321705 3,655951
0,475661 7,724727
7,257293 8
433,0528 477,3712

Помислете за експоненциална регресия. За да го линеаризираме, получаваме уравнението , където ỹ = ln y, ã = b, = ln a. Вижда се, че трябва да се направи трансформация на данните - заменете y с ln y. Поставяме курсора в клетка A4 и правим заглавието "ln y". Поставяме курсора в B4 и въвеждаме формулата LN (категория "Математически"). Като аргумент правим препратка към B1. Автоматичното довършване разширява формулата на четвъртия ред до клетки B4-K4. След това в клетка F6 задаваме етикета „Exponent“ и в съседната G6 въвеждаме функцията LINEST, чиито аргументи ще бъдат преобразуваните данни B4-K4 (в полето „Iv_value_y“), а останалите полета са същото като в случая на линейна регресия (B2-K2, единадесет). След това оградете клетки G6-H10 и натиснете F2 и Ctrl+Shift+Enter. Резултатът е R 3 = 0,89079, F 3 = 65,25304, което показва много добра регресия. За намиране на коефициентите на регресионното уравнение b = ã; поставете курсора в J6 и направете заглавието „a=“, а в съседния K6 формулата „=EXP(H6)“, в J7 даваме заглавието „b=“, а в K7 формулата „=G6“. Регресионното уравнение е y = 0,511707 e 6,197909 x .

Изложител 1,824212 -0,67 а= 0,511707
0,225827 0,350304 b= 6,197909
0,89079 0,512793
65,25304 8
17,15871 2,103652

Помислете за регресия на мощността. За да го линеаризираме, получаваме уравнението ỹ = ã, където ỹ = ln y, = ln x, ã = b, = ln a. Вижда се, че е необходимо да се направи трансформация на данните - да се замени y с ln y и да се замени x с ln x. Вече имаме ред с ln y. Нека променим променливите x. В клетка A5 даваме сигнатурата "ln x", а в B5 въвеждаме формулата LN (категория "Mathematical"). Като аргумент правим препратка към B2. Автоматичното довършване разширява формулата до петия ред в клетки B5-K5. След това в клетка F12 задаваме етикета „Power“ и в съседния G12 въвеждаме функцията LINEST, чиито аргументи ще бъдат преобразуваните данни B4-K4 (в полето „Measured_value_y“) и B5-K5 (в полето „Measured_value_x“), останалите полета са единици. След това освободете клетки G12-H16 и натиснете F2 и Ctrl+Shift+Enter. Резултатът R 4 = 0.997716, F 4 = 3494.117, което показва добра регресия. За намиране на коефициентите на регресионното уравнение b = ã; поставете курсора в J12 и направете заглавието „a=“, а в съседния K12 формулата „=EXP(H12)“, в J13 даваме заглавието „b=“, а в K13 формулата „=G12“. Регресионното уравнение е y = 4,90767/x + 7,341268.

Мощност 1,993512 1,590799 а= 4,90767
0,033725 0,023823 b= 7,341268
0,997716 0,074163
3494,117 8
19,21836 0,044002

Нека проверим дали всички уравнения описват адекватно данните. За да направите това, трябва да сравните F-статистиката на всеки критерий с критична стойност. За да го получим, въвеждаме в A21 подписа „F-критичен“, а в B21 функцията FDISP, чиито аргументи въвеждаме съответно „0,05“ (ниво на значимост), „1“ (броя на факторите X в реда „Ниво на значимост 1“) и „8“ (степен на свобода 2 = n - 2). Резултатът е 5.317655. F - критично повече от F - статистика означава, че моделът е адекватен. Останалите регресии също са адекватни. За да определим кой модел най-добре описва данните, сравняваме индексите на определяне за всеки модел R 1 , R 2 , R 3 , R 4 . Най-голямото е R 4 = 0,997716. Това означава, че е по-добре да се опишат експерименталните данни като y = 4,90767/x + 7,341268.

Заключение: В хода на работата си усвоих методите за конструиране на основните видове нелинейни двойни регресионни уравнения с помощта на компютър (вътрешно линейни модели), научих се как да получавам и анализирам показателите за качество на регресионните уравнения.

Y 0,3 1,2 2,8 5,2 8,1 11 16,8 16,9 24,7 29,4
х 0,25 0,5 0,75 1 1,25 1,5 1,75 2 2,25 2,5
1/x 4 2 1,333333 1 0,8 0,666667 0,571429 0,5 0,444444 0,4
в y -1,20397 0,182322 1,029619 1,648659 2,0918641 2,397895 2,821379 2,827314 3,206803 3,380995
в х -1,38629 -0,69315 -0,28768 0 0,2231436 0,405465 0,559616 0,693147 0,81093 0,916291
Линеен 12,96 -6,18 Изложител 1,824212 -0,67 а= 0,511707
1,037152 1,60884 0,225827 0,350304 b= 6,197909
0,951262 2,355101 0,89079 0,512793
156,1439 8 65,25304 8
866,052 44,372 17,15871 2,103652
Хипербола -6,25453 18,96772 Мощност 1,993512 1,590799 а= 4,90767
2,321705 3,655951 0,033725 0,023823 b= 7,341268
0,475661 7,724727 0,997716 0,074163
7,257293 8 3494,117 8
433,0528 477,3712 19,21836 0,044002
F - критично 5,317655

Лаборатория #5

ПОЛИНОМИЛНА РЕГРЕСИЯ

Цел: Въз основа на експериментални данни изградете регресионно уравнение под формата y \u003d ax 2 + bx + c.

НАПРЕДЪК:

Разглежда се зависимостта на добива на определена култура y i от количеството минерални торове х i, въведени в почвата. Приема се, че тази зависимост е квадратична. Необходимо е да се намери регресионно уравнение под формата ỹ = ax 2 + bx + c.

х 0 1 2 3 4 5 6 7 8 9
г 29,8 58,8 72,2 101,5 141 135,1 156,6 181,7 216,6 208,2

Нека въведем тези данни в електронна таблица заедно с подписи в клетки A1-K2. Нека изградим графика. За да направите това, кръгнете данните Y (клетки B2-K2), извикайте съветника за диаграма, изберете типа диаграма „Графика“, типът диаграма е графика с точки (втора от горния ляв ъгъл), щракнете върху „Напред“, отидете към раздела „Серия“ и в „ Етикети по ос X" направете връзка към B2-K2, щракнете върху „Край". Графиката може да бъде апроксимирана чрез полином от 2-ра степен y \u003d ax 2 + bx + c. За да намерите коефициентите a, b, c, трябва да решите системата от уравнения:

Да изчислим сумите. За да направите това, в клетка A3 въведете подписа "X ^ 2", а в B3 въведете формулата "= B1 * B1" и Autocomplete я прехвърлете на целия ред B3-K3. В клетка A4 въведете подписа "X ^ 3", а в B4 формулата "= B1 * B3" и Autocomplete я прехвърля на целия ред B4-K4. В клетка A5 въведете "X ^ 4", а в B5 формулата "= B4 * B1", автоматично попълване на реда. В клетка A6 въведете "X * Y", а в B8 формулата "= B2 * B1", автоматично попълване на реда. В клетка A7 въведете „X ^ 2 * Y“, а в B9 формулата „= B3 * B2“, автоматично попълване на реда. Сега броим сумите. Маркирайте колона L с различен цвят, като щракнете върху заглавието и изберете цвят. Поставяме курсора в клетка L1 и като щракнем върху бутона за автоматична сума с иконата ∑, изчисляваме сумата на първия ред. Автоматичното довършване прехвърля формулата в клетки L1-710.

Сега решаваме системата от уравнения. За целта въвеждаме основната матрица на системата. В клетка A13 въвеждаме подписа "A =", а в клетките на матрицата B13-D15 въвеждаме връзките, отразени в таблицата

Б ° С д
13 =L5 =L4 =L3
14 =L3 =L2 =L1
15 =L2 =L1 =9

Въвеждаме и правилните части на системата от уравнения. В G13 въвеждаме подписа "B =", а в H13-H15 въвеждаме съответно връзки към клетките "=L7", "=L6", "=L2". Решаваме системата по матричния метод. От висшата математика е известно, че решението е равно на A -1 B. Намираме обратната матрица. За да направите това, в клетка J13 въведете подписа "A arr." и като поставим курсора в K13, задаваме формулата MIND (категория "Mathematical"). Като аргумент "Масив" даваме препратка към клетки B13: D15. Резултатът също трябва да бъде матрица 4x4. За да го получите, кръгнете клетките K13-M15 с мишката, изберете ги и натиснете F2 и Ctrl + Shift + Enter. Резултатът е матрица A -1. Нека сега намерим произведението на тази матрица и колона B (клетки H13-H15). Въвеждаме надписа “Коефициенти” в клетка A18 и в B18 задаваме функцията MULTIPLE (категория “Mathematical”). Аргументите на функцията "Масив 1" са препратка към матрицата A -1 (клетки K13-M15), а в полето "Масив 2" даваме връзка към колона B (клетки H13-H16). След това изберете B18-B20 и натиснете F2 и Ctrl+Shift+Enter. Полученият масив е коефициентите на регресионното уравнение a, b, c. В резултат на това получаваме регресионно уравнение под формата: y \u003d 1.201082x 2 - 5.619177x + 78.48095.

Да начертаем графиките на изходните данни и получените въз основа на регресионното уравнение. За да направите това, в клетка A8 въвеждаме подписа "Регресия" и в B8 въвеждаме формулата "=$B$18*B3+$B$19*B1+$B$20". Автоматичното довършване прехвърля формулата в клетки B8-K8. За да изградите графика, изберете клетки B8-K8 и като задържите натиснат клавиша Ctrl, изберете клетки B2-M2. Извикваме съветника за диаграма, избираме типа диаграма „Диаграма“, типът диаграма е диаграма с точки (втора от горния ляв ъгъл), щракнете върху „Напред“, отидете в раздела „Серии“ и в „Етикети на X-ос ” направете връзка към B2-M2, щракнете върху „Готово”. Вижда се, че кривите почти съвпадат.

ЗАКЛЮЧЕНИЕ: в процеса на работа се научих от експериментални данни да съставя регресионно уравнение под формата y \u003d ax 2 + bx + c.





Емпирична плътност на разпределение на случайна анализирана променлива и изчисляване на характеристиките й. Определяме обхвата на наличните данни, т.е. разлика между най-голямата и най-малката стойност на извадката (R = Xmax – Xmin): Избор на броя на интервалите на групиране k с броя на наблюденията n<100 – ориентировочное значение интервалов можно рассчитать с использованием формулы Хайнхольда и Гаеде: ...

данни, може надеждно да се прецени статистическите връзки, които съществуват между променливите, които се изследват в този експеримент. Всички методи за математически и статистически анализ са условно разделени на първични и вторични. Методите се наричат ​​първични, с помощта на които е възможно да се получат показатели, които пряко отразяват резултатите от измерванията, направени в експеримента. Съответно под...

Процесори с общо предназначение (например в Excel, Lotus 1-2-3 и др.), както и в някои бази данни. Западните статистически пакети (SPSS, SAS, BMDP и др.) имат следните характеристики: Те позволяват обработка на огромни количества данни. Включва инструменти за описание на задачи на вградения език. Те позволяват да се изградят на тяхна база системи за обработка на информация за цели предприятия. Позволява...



Курс на масаж и в рамките на 1-2 месеца след него. 1.2 Форми на лечебен масаж Формата на въздействие на терапевтичния масаж се разделя на общ и частен. Тези форми са характерни за всички видове и методи на масаж. Както частният, така и общият масаж може да се извършва от масажиста под формата на взаимен масаж, двойки или самомасаж. 1.2.1 Общ масаж Общият масаж е такава масажна сесия (независимо от ...

х 0 1 2 3 4 5 6 7 8 9
г 29,8 58,8 72,2 101,5 141 135,1 156,6 181,7 216,6 208,2
X^2 0 1 4 9 16 25 36 49 64 81
X^3 0 1 8 27 64 125 216 343 512 729
X^4 0 1 16 81 256 625 1296 2401 4096 6561
X*Y 0 58,8 144,4 304,5 564 675,5 939,6 1271,9 1732,8 1873,8
X^2*Y 0 58,8 288,8 913,5 2256 3377,5 5637,6 8903,3 13862,4 16864,2
Регресия. 78,48095 85,30121 94,52364 106,1482 120,175 136,6039 155,435 176,6682 200,3036 226,3412
А= 15333 2025 285 B= 52162,1 A Rev. 0,003247 -0,03247 0,059524
2025 285 45 7565,3 -0,03247 0,341342 -0,67857
285 45 9 1301,5 0,059524 -0,67857 1,619048
Коефициент 1,201082 а
5,619177

Преглед статистически хипотези: хипотеза за равенство на средните за две проби

Работата има спомагателен характер, трябва да служи като фрагмент от друга лабораторна работа.

Нито едно компетентно социологическо изследване не може да мине без да излага хипотези. Като цяло може да се каже, че основната му цел е да опровергае или потвърди всяко предположение на изследователя за социалната реалност въз основа на събраните от него емпирични данни. Излагаме хипотеза, събираме данни и правим заключение въз основа на статистически материали. Но именно тази верига хипотеза-данни-заключение съдържа много въпроси, пред които се изправя почти всеки начинаещ изследовател. Основният от тези въпроси е следният: как да преведем предложената от нас хипотеза на математически език, така че да може след това да бъде съпоставена със статистически масив и след обработка с помощта на методите на математическата статистика да бъде опровергана или потвърдена? Тук ще се опитаме да отговорим на този въпрос, като използваме примера за тестване на хипотези за равенството на средствата.

Тестване на статистически хипотези за равенство на средствата

Статистическата хипотеза се отнася до различни видове предположения относно природата или параметрите на разпределението на случайна променлива, които могат да бъдат тествани въз основа на резултатите в произволна извадка.

Трябва да се има предвид, че тестването на статистическа хипотеза е вероятностно по природа. Точно както никога не можем да бъдем 100% сигурни, че който и да е параметър на извадката съвпада с параметъра на популацията, никога не можем абсолютно да кажем дали хипотезата, която предлагаме, е вярна или невярна.

За да тествате статистическа хипотеза, имате нужда от следното:

1. Преобразувайте смислената хипотеза в статистическа: формулирайте нулевата и алтернативната статистическа хипотеза.

2. Дефинирайте зависимостите или нашите независими проби.

3. Определете обема на пробите.

4. Изберете критерий.

5. Изберете ниво на значимост, което контролира приемливата вероятност за грешка от тип I и определете диапазона от приемливи стойности.

7. Отхвърлете или приемете нулевата хипотеза.

Сега нека разгледаме по-подробно всяка от шестте точки.

Постановка на хипотезата

При статистически проблеми често е необходимо да се сравняват средните стойности на две различни извадки. . Например, може да се интересуваме от разликата в средните заплати на мъжете и жените, средната възраст на определени групи<А>и<В>и т.н. Или, като сформираме две независими експериментални групи, можем да сравним техните средства, за да видим колко различни са, да кажем, ефектите на две различни лекарства върху кръвното налягане или колко големината на групата влияе върху оценките на учениците. Понякога се случва да разделим населението на две групи по двойки, тоест имаме работа с близнаци, семейни двойки или едно и също лице преди и след някакъв експеримент и т.н. За да стане по-ясно, нека разгледаме типични примери, при които се прилагат различни критерии за равенство на средствата.

Пример #1.Компанията е разработила две различни лекарства, които понижават кръвното налягане (да ги наречем лекарства хи Y) и иска да знае дали ефектите на тези лекарства са различни при пациенти с хипертония. От 50 души със съответното заболяване на случаен принцип се избират 20 и тези 20 се разделят на случаен принцип в две групи от по 10 души. Първата група използва лекарството за една седмица х, второто - лекарство Y. След това се измерва кръвното налягане на всички пациенти. Изложена хипотеза по същество: лекарствата X и Y имат различни ефекти върху кръвното налягане на пациентите.

Пример #2.Изследователят иска да знае как продължителността на лекцията влияе върху представянето на студентите. Да предположим, че е избрал следния път: от 200 студенти той е избрал произволно 50 души и е наблюдавал техния напредък в продължение на един месец. След това той удължи лекциите с 10 минути и през следващия месец погледна напредъка на същите 50 студента. След това сравнява резултатите на всеки студент преди и след увеличаване на продължителността на лекцията. Изложена хипотеза по същество: Продължителността на лекцията влияе върху представянето на студентите.

Пример #3.От 200 студенти 80 души бяха избрани на случаен принцип и тези 80 души бяха разделени на две групи от по 40. На една група беше зададен въпрос без настройка:<Сколько вы готовы заплатить за натуральный йогурт?>, а на втората група беше зададен въпрос относно инсталацията:<Сколько вы готовы заплатить за натуральный йогурт, если известно, что люди, потребляющие йогуртовые культуры, страдают на 10-15% меньше от заболеваний желудка?>Изследователят допуска, че положителната информация за продукта, съдържаща се във втория въпрос, ще повлияе на респондента и хората, отговарящи на въпроса с инсталацията, биха били готови да платят повече за кисело мляко от тези, на които е зададен въпросът без инсталацията. Изложена хипотеза по същество: поставянето на въпроса влияе върху отговора на респондента.

Пред нас са три примера, всеки от които демонстрира формулирането на смислена хипотеза. Сега нека трансформираме нашите значими хипотези в статистически, но първо, нека кажем малко за статистическите хипотези като цяло.

Най-често срещаният подход за формулиране на статистически хипотези е да се изложат две двустранни хипотези:

Както може да се види от формулата, нулевата хипотеза казва, че някакъв параметър на извадката или, да речем, разликата между параметрите на две извадки е равна на определено число а. Алтернативната хипотеза твърди обратното: параметърът, който ни интересува, не е равен на а. По този начин тези две хипотези съдържат всички възможни резултати.

Възможно е и формулиране едностранчиви хипотези:

Понякога подобни хипотези се оказват по-смислени. Те обикновено се появяват, когато вероятността нашият параметър да е по-голяма (или по-малка) ае нула, което означава, че е невъзможно.

Сега формулираме нулевата и алтернативната статистическа хипотеза за нашите три примера.

Таблица номер 1.

Пример #1

Пример #2

Пример #3

Лекарствата X и Y имат различни ефекти върху кръвното налягане при пациентите

Продължителността на лекцията влияе върху представянето на студентите

Задаването на въпрос влияе върху отговора на респондента

Задача на изследователя

4. Намерете средноаритметичното на разликите за всички ученици, означ

Нулева хипотеза

Значението на нулевата хипотеза

и средните стойности на генералните популации, от които са взети извадките със средните стойности. Нулевата хипотеза казва, че ефектът на двете лекарства върху налягането е средно незначителен и дори ако средните стойности на извадката не са равни, това се дължи само на грешка в извадката или други причини извън нашия контрол.

Средна стойност на разликите за учениците в общата популация. Нулевата хипотеза казва, че всъщност няма разлика между средния резултат на студент преди и след увеличаване на продължителността на лекцията и дори ако средната стойност на разликите е различна от нула, това се дължи само на вземане на проби грешка или други причини извън нашия контрол.

Тъй като е същото като в пример № 1, обясненията могат да бъдат намерени в първата колона (вижте пример 1)

Алтернативна хипотеза

Заключение относно съдържателната хипотеза

Ако приемем нулевата хипотеза, че лекарствата имат същия ефект (няма разлика между средствата), тогава отхвърляме хипотезата за съдържанието, в противен случай приемаме хипотезата за съдържанието

Ако приемем нулевата хипотеза, че продължителността на лекцията не влияе на представянето, тогава отхвърляме хипотезата за съдържанието и обратно

Ако приемем нулевата хипотеза – въпросът не влияе върху избора на респондента, то отхвърляме съдържателната хипотеза и обратното.

Проверка дали средната е равна на определена стойност.

Пробите са взети от популация с нормална дистрибуция, данните са независими.

Стойността на критериите се изчислява по формулата:

където N е размерът на извадката;

S 2 - дисперсия на емпиричната извадка;

A - прогнозната стойност на средната стойност;

X е средната стойност.

Броят на степените на свобода за t-теста V = n-1.

Нула нова хипотеза

H 0: X \u003d A срещу H A: X≠A. Нулевата хипотеза за равенството на средните се отхвърля, ако абсолютната стойност на стойността на критерия е по-голяма от горната α/2% от точката на t-разпределението, взета с V степени на свобода, т.е. когато │t│ > t vα/2.

H 0: X< А против Н А: X >A. Нулевата хипотеза се отхвърля, ако стойността на критерия е по-голяма от горната α% точка на t-разпределението, взето с V степени на свобода, т.е. когато │t│> t vα .

H 0: X>A срещу H A: X< А. Нулевая гипотеза отвергается, если критериальное значение меньше нижней α% точки t-распределения, взятого с V степенями свободы.

Критерият е стабилен при малки отклонения от нормалното разпределение.

Пример

Разгледайте примера, показан на фиг. 5.10. Да кажем, че трябва да проверим хипотезата, че средната стойност на извадката (клетки 123:130) е равна на 0,012.

Първо намираме средната стойност на извадката (=AVERAGE(123:130) в I31) и дисперсията (=VAR(I23:I30) в I32). След това изчисляваме критериалните (=(131-0,012)*ROOT(133)/132) и критичните (=STEUDRASP(0,025;133-1)) стойности. Тъй като стойността на критерия (24,64) е по-голяма от критичната стойност (2,84), хипотезата за равенството на средната стойност 0,012 се отхвърля.

Фигура 5.10 Сравняване на средна стойност с константа

1. тествайте хипотези за средни стойности и дисперсии, като използвате параметричните тестове на Fisher и Cochran (таблица 5.4);

2. тествайте хипотезата за равенството на средните с неравни вариации на пробите (за да направите това, премахнете 1 или 2 стойности в една от пробите на вашата версия) (таблица 5.4);

3. проверете хипотезата, че средната е равна на дадената стойност А (таблица 5.5) и данните от 1-ва колона за варианта.

Таблица 5.4

Варианти на задачите

Данни от експеримента
опция
2,3 2,6 2,2 2,1 2,5 2,6
1,20 1,42 17,3 23,5 2,37 2,85 35,2 26,1 2,1 2,6
5,63 5,62 26,1 27,0 5,67 2,67 35,9 25,8 5,1 5,63
2,34 2,37 23,9 23,3 2,35 2,34 33,6 23,8 2,34 2,38
7,71 7,90 28,0 25,2 2,59 2,58 35,7 26,0 7,63 7,6,1
1,2 1,6 1,7 2,6 1,9 2,8
1,13 1,15 21,6 21,2 2,13 2,16 31,7 1,12 1,12
1,45 1,47 24,7 24,8 2,45 2,47 34,8 24,5 1,49 1,45
3,57 3,59 25,9 25,7 2,55 2,59 36,0 25,7 3,58 3,58
3,3 3,6 2,5 2,4 3,4 3,5
Данни от експеримента
опция
7,3 7,6 12,2 12,1 3,5 4,6
6,20 6,42 217,3 230,5 12,37 12,85 75,2 86,1 3,1 4,6
7,63 5,62 264,1 278,0 15,67 14,67 75,9 75,8 5,1 5,63
6,34 5,37 233,9 236,3 12,35 12,34 73,6 73,8 3,34 4,38
7,71 7,90 281,0 255,2 12,59 12,58 85,7 86,0 3,63 4,6,1
6,2 6,6 11,7 12,6 3,9 4,8
4,13 4,15 251,6 261,2 12,13 12,16 71,7 5,12 4,12
5,45 6,47 244,7 247,8 12,45 12,47 74,8 84,5 3,49 4,45
5,57 5,59 250,9 255,7 12,55 12,59 86,0 85,7 3,58 3,58
5,3 5,6 12,5 12,4 3,4 3,5

Таблица 5.5

Стойност

Настроики
2,2 2,2 2,2 6,5 12,2 3,5

Можете да използвате вашите експериментални данни като изходни данни в задачата.

Докладът трябва да съдържа изчисления на статистически характеристики.

Тестови въпроси:

1. Какви статистически задачи се решават при изследване на технологичните процеси в хранително-вкусовата промишленост?

2. Как се сравняват статистическите характеристики на случайните променливи?

3. Ниво на значимост и ниво на достоверност с надеждността на оценката на експерименталните данни.

4. Как се тестват статистическите хипотези с помощта на тестове за съответствие?

5. Какво определя силата на критерия за добро съответствие за анализа на експериментални проби?

6. Как се извършва изборът на критерий за решаване на проблемите на анализа на технологичните процеси за производство на храни?

7. Как се извършва класификацията на критериите за споразумение за анализ на проби от резултатите от изследванията на технологичните процеси за производство на храни?

8. Какви са изискванията за вземане на проби от резултатите от изследванията на технологични процеси за производство на храни?

Пример. Приходите на дрогериите на един от микрорайоните на града за известен период са 128; 192; 223; 398; 205; 266; 219; 260; 264; 98 (условни единици). В съседния микрорайон за същото време те са били 286; 240; 263; 266; 484; 223; 335.
За двете проби изчислете средната стойност, коригираната дисперсия и стандартното отклонение. Намерете обхвата на вариация, средно абсолютно (линейно) отклонение, коефициент на вариация, линеен коефициентвариация, коефициент на трептене.
Ако приемем, че дадената случайна променлива има нормално разпределение, определете доверителния интервал за средната популация (и в двата случая).
Използвайки критерия на Фишер, проверете хипотезата за равенство на общите дисперсии. С помощта на критерия на Стюдънт проверете хипотезата за равенството на общите средни (алтернативна хипотеза е за тяхната неравенство).
При всички изчисления нивото на значимост α = 0,05.

Решението се извършва с помощта на калкулатора Тестване на хипотезата за равенство на дисперсиите.
1. Намерете индикаторите за вариация за първата проба.

х|x - x cf |(x - x sr) 2
98 127.3 16205.29
128 97.3 9467.29
192 33.3 1108.89
205 20.3 412.09
219 6.3 39.69
223 2.3 5.29
260 34.7 1204.09
264 38.7 1497.69
266 40.7 1656.49
398 172.7 29825.29
2253 573.6 61422.1


.



Вариационни индикатори.
.

R = X max - X min
R = 398 - 98 = 300
Средно линейно отклонение


Всяка стойност от серията се различава от другата средно с 57,36
дисперсия


Безпристрастен оценител на дисперсията


.

Всяка стойност от серията се различава от средната стойност от 225,3 със средно 78,37
.

.

Коефициентът на вариация

Защото v>30%, но v или

Коефициент на трептене

.
.


Според таблицата на Студент намираме:
T таблица (n-1; α / 2) \u003d T таблица (9; 0,025) \u003d 2,262

(225.3 - 59.09;225.3 + 59.09) = (166.21;284.39)

2. Намерете индикаторите за вариация за втората проба.
Да преместим реда. За да направите това, сортирайте стойностите му във възходящ ред.
Таблица за изчисляване на показатели.

х|x - x cf |(x - x sr) 2
223 76.57 5863.18
240 59.57 3548.76
263 36.57 1337.47
266 33.57 1127.04
286 13.57 184.18
335 35.43 1255.18
484 184.43 34013.9
2097 439.71 47329.71

За да оценим серията на разпространение, намираме следните показатели:
Метрики на центъра за разпространение.
просто аритметично средно


Вариационни индикатори.
Абсолютни нива на вариация.
Диапазонът на вариация е разликата между максимума и минимални стойностизнак на първичния ред.
R = X max - X min
R = 484 - 223 = 261
Средно линейно отклонение- изчислени, за да се вземат предвид разликите на всички единици от изследваната съвкупност.


Всяка стойност от серията се различава от другата средно с 62,82
дисперсия- характеризира мярката за разпространение около нейната средна стойност (мярка за дисперсия, т.е. отклонение от средната стойност).


Безпристрастен оценител на дисперсията- последователна оценка на дисперсията (коригирана дисперсия).


Стандартно отклонение.

Всяка стойност от серията се различава от средната стойност от 299,57 със средно 82,23
Оценяване на стандартното отклонение.

Относителни мерки на вариация.
Да се относителна производителноствариациите включват: коефициент на трептене, линеен коефициент на вариация, относително линейно отклонение.
Коефициентът на вариация- мярка за относителното разпространение на стойностите на съвкупността: показва каква част от средната стойност на това количество е нейното средно разпространение.

Тъй като v ≤ 30%, популацията е хомогенна и вариацията е слаба. На получените резултати може да се вярва.
Линеен коефициент на вариацияили Относително линейно отклонение- характеризира съотношението на средната стойност на знака на абсолютните отклонения от средната стойност.

Коефициент на трептене- отразява относителната волатилност екстремни стойностихарактеристика около средната стойност.

Интервална оценка на населения център.
Доверителен интервал за общата средна стойност.

Определете стойността на t kp според таблицата за разпределение на Стюдънт
Според таблицата на Студент намираме:
T таблица (n-1; α / 2) \u003d T таблица (6; 0,025) \u003d 2,447

(299.57 - 82.14;299.57 + 82.14) = (217.43;381.71)
С вероятност от 0,95 може да се твърди, че средната стойност за по-голяма извадка няма да излезе извън границите на намерения интервал.
Тестваме хипотезата за равенство на дисперсиите:
H 0: D x = D y ;
H 1: D x Намерете наблюдаваната стойност на критерия на Фишер:

Тъй като s y 2 > s x 2, тогава s b 2 = s y 2, s m 2 = s x 2
Брой степени на свобода:
f 1 \u003d n y - 1 \u003d 7 - 1 \u003d 6
f 2 \u003d n x - 1 \u003d 10 - 1 \u003d 9
Според таблицата критични точкиразпределението на Fisher–Snedekor при ниво на значимост α = 0,05 и даден брой степени на свобода, намираме Fcr (6;9) = 3,37
защото F obl Тестваме хипотезата за равенството на общите средни:


Нека намерим експерименталната стойност на критерия на Стюдънт:


Брой степени на свобода f \u003d n x + n y - 2 \u003d 10 + 7 - 2 \u003d 15
Определете стойността на t kp според таблицата за разпределение на Стюдънт
Според таблицата на Студент намираме:
T таблица (f; α / 2) \u003d T таблица (15; 0,025) \u003d 2,131
Според таблицата на критичните точки на разпределението на Стюдънт при ниво на значимост α = 0,05 и дадено числостепени на свобода намираме t cr = 2,131
защото t наб

Разгледайте две независими извадки x 1, x 2, ….., x n и y 1, y 2, …, y n, извлечени от нормални общи съвкупности със същите вариации, като размерите на извадката са съответно n и m, а средните стойности μ x , μ y и дисперсията σ 2 са неизвестни. Изисква се проверка на основната хипотеза Н 0: μ x =μ y с конкурентната Н 1: μ x μ y .

Както е известно, извадката означава и ще има следните свойства: ~N(μ x , σ 2 /n), ~N(μ y , σ 2 /m).

Разликата им е нормална стойност със средна стойност и дисперсия, така че

~ (23).

Нека приемем за известно време, че основната хипотеза H 0 е вярна: μ x –μ y =0. Тогава и разделяне на стойността на нейната стандартно отклонение, получаваме стандартния нормален sl. стойността ~N(0,1).

По-рано беше отбелязано, че величина разпределени по закон с (n-1)-та степен на свобода, а - по закон с (m-1) степен на свобода. Като вземем предвид независимостта на тези две суми, получаваме, че техните обща сума разпределени по закон с n+m-2 степени на свобода.

Припомняйки си точка 7, виждаме, че дробта се подчинява на t-разпределението (Стюдънт) с ν=m+n-2 степени на свобода: Z=t. Този факт е налице само когато хипотезата H 0 е вярна.

Заменяйки ξ и Q с техните изрази, получаваме разширената формула за Z:

(24)

Следващата стойност Z, наречена статистика на критерия, ви позволява да вземете решение със следната последователност от действия:

1. Установява се площта D=[-t β,ν , +t β,ν ], съдържаща β=1–α площи под кривата t ν -разпределение (Таблица 10).

2. Експерименталната стойност Z върху статистиката Z се изчислява по формула (24), за която вместо X 1 и Y 1 се заместват стойностите x 1 и y 1 на конкретни проби, както и техните извадкови средни стойности и .

3. Ако Z върху D, тогава се счита, че хипотезата H 0 не противоречи на експерименталните данни и се приема.

Ако Z върху D, тогава хипотезата H 1 се приема.

Ако хипотезата H 0 е вярна, тогава Z се подчинява на известното t ν -разпределение с нулева средна стойност и с голяма вероятност β=1–α попада в D-областта на приемане на хипотезата H 0 . Когато наблюдаваната, експерименталната стойност Z on попада в D. Ние считаме това за доказателство в полза на хипотезата H 0 .

Когато Z 0 n лежи извън D (както се казва, лежи в критичната област K), което е естествено, ако хипотезата H 1 е вярна, но малко вероятно, ако H 0 е вярна, тогава трябва да отхвърлим хипотезата H 0 чрез приемане на H 1 .

Пример 31.

Сравняват се две марки бензин: А и Б. На околовръстната магистрала веднъж е тестван 11 автомобила с еднаква мощност на бензин клас А и Б. Една кола се повреди по пътя и за нея няма данни за бензин Б .

Разход на бензин на 100 километра

Таблица 12

аз
X i 10,51 11,86 10,5 9,1 9,21 10,74 10,75 10,3 11,3 11,8 10,9 n=11
аз 13,22 13,0 11,5 10,4 11,8 11,6 10,64 12,3 11,1 11,6 - m=10

Дисперсията на потреблението на класове A и B е неизвестна и се приема, че е една и съща. Възможно ли е при ниво на значимост α=0,05 да се приеме хипотезата, че истинските средни разходи μ A и μ B на тези видове бензин са еднакви?

Решение. Тестване на хипотезата H 0: μ A -μ B \u003d 0 с конкурентна. H 1: μ 1 μ 2 направете следните точки:

1. Намерете примерните средни стойности и сумата от квадратите на отклоненията Q.

;

;

2. Изчислете експерименталната стойност на Z статистиката

3. Намерете границата t β,ν от таблица 10 на t-разпределението, за броя на степените на свобода ν=m+n–2=19 и β=1–α=0,95. Таблица 10 има t 0.95.20 =2.09 и t 0.95.15 =2.13, но не и t 0.95.19. Намираме чрез интерполация t 0,95,19 =2,09+ =2,10.

4. Проверете коя от двете области D или K съдържа числото Z на . Zon=-2.7 D=[-2.10; -2,10].

Тъй като наблюдаваната стойност на Z on лежи в критичната област, K=R\D, ние я отхвърляме. H 0 и приемете хипотезата H 1 . В този случай се казва, че pro и имат значителна разлика. Ако при всички условия на този пример само Q се промени, да речем, Q се удвои, тогава нашето заключение също ще се промени. Удвояването на Q би довело до намаляване на стойността на Z с пъти и тогава числото Zon би попаднало в допустима площ D, така че хипотезата H 0 да премине теста и да бъде приета. В този случай несъответствието между и ще се обясни с естественото разсейване на данните, а не с факта, че μ A μ B.

Теорията за проверка на хипотези е много обширна, хипотезите могат да бъдат за формата на закона за разпределение, за хомогенността на извадките, за независимостта на случайна стойност и т.н.

КРИТЕРИЙ c 2 (PEARSON)

Най-често срещаният критерий за проверка на проста хипотеза на практика. Прилага се, когато законът за разпределение е неизвестен. Обмисли случайна величина X над което n независими тестове. Получава се реализация x 1 , x 2 ,...,x n. Необходимо е да се провери хипотезата за закона за разпределение на тази случайна величина.

Разгледайте случая на проста хипотеза. Една проста хипотеза тества съответствието на извадката с общо население, което има нормално разпределение (известно). По мостри изграждаме вариационна серия x(1) , x(2) , ..., x(n) . Интервалът е разделен на подинтервали. Нека тези интервали са r. След това намираме вероятността X да попадне в интервала Di, i=1 ,..., r в резултат на теста, ако тестваната хипотеза е вярна.

Критерият проверява не истинността на плътността на вероятността, а истинността на числата

С всеки интервал Di свързваме случайно събитие A i - попадение в този интервал (попадение в резултат на тестване над X на резултата от изпълнението му в Di). Въвеждаме случайни променливи. m i - броят на опитите от n проведени, в които е настъпило събитието A i. m i се разпределят по биномния закон и в случай на истинност на хипотезата

Dm i =np i (1-p i)

Критерият c 2 има формата

p 1 +p 2 +...+p r =1

m 1 +m 2 +...+m r =n

Ако тестваната хипотеза е вярна, тогава m i представлява честотата на поява на събитие, което има вероятност p i във всеки от n проведени теста, следователно можем да разглеждаме m i като случайна променлива, подчиняваща се на биномиалния закон с център в точката np i . Когато n е голямо, тогава можем да приемем, че честотата е асимптотично нормално разпределена със същите параметри. Ако хипотезата е вярна, трябва да очакваме, че ще има асимптотично нормално разпределение

свързани помежду си

Нека разгледаме стойността

c 2 - сума от квадрати асимптотично нормални стойностисвързани линейна зависимост. Преди сме се срещали с подобен случай и знаем, че присъствието линейна връзкадоведе до намаляване с една на броя на степените на свобода.

Ако тестваната хипотеза е вярна, тогава критерият c 2 има разпределение, клонящо при n®¥ към разпределението c 2 с r-1 степени на свобода.

Да кажем, че хипотезата е грешна. Тогава има тенденция към увеличаване на членовете в сумата, т.е. ако хипотезата е невярна, тогава тази сума ще попадне в определена област големи стойности c 2 . Като критичен регион ние приемаме региона положителни стойностикритерии


В случай на неизвестни параметри на разпределение, всеки параметър намалява с една броя на степените на свобода за критерия на Pearson