Биографии Характеристики Анализ

Автоматично изчисляване на студентите. Изисквания към данните

Таблица за разпределение на учениците

Интегралните таблици на вероятността се използват за големи извадки от безкрайно големи население. Но вече в (n)< 100 получается Несоответствие между

таблични данни и гранична вероятност; при (n)< 30 погрешность становится значительной. Несоответствие вызывается главным образом характером распределения единиц генеральной совокупности. При большом объеме выборки особенность распределения в гене-

генералната съвкупност няма значение, тъй като разпределението на отклоненията на извадковия показател от общата характеристика, когато голяма пробавинаги се оказва нормално

наз. В малки проби (n)< 30 характер распределения генеральной совокупности сказывается на распределении ошибок выборки. Поэтому для расчета ошибки выборки при небольшом объеме наблюдения (уже менее 100 единиц) отбор должен проводиться из со-

население, което има нормална дистрибуция. Теорията за малките извадки е разработена от английския статистик У. Госет (писал под псевдонима Студент) в началото на 20 век. IN

1908 г. той конструира специално разпределение, което позволява, дори и с малки извадки, да се корелира (t) и вероятност за доверие F(t). За (n) > 100 таблиците за разпределение на Стюдънт дават същите резултати като вероятностните интегрални таблици на Лаплас за 30< (n ) <

100 разлики са нищожни. Следователно практически малките проби включват проби с обем по-малък от 30 единици (разбира се, проба с обем над 100 единици се счита за голяма).

Използването на малки извадки в някои случаи се дължи на естеството на изследваното население. По този начин, в развъдната работа, „чистият“ опит е по-лесен за постигане с малък брой

парцели. Производствено-икономическият експеримент, свързан с икономическите разходи, също се провежда върху малък брой опити. Както вече беше отбелязано, в случай на малка извадка, както вероятностите за доверие, така и границите на доверие на общата средна стойност могат да бъдат изчислени само за нормално разпределена популация.

Плътността на вероятността на разпределението на Стюдънт се описва от функцията.

1 + t2

f (t ,n) := Bn

n − 1

t - текуща променлива n - размер на извадката;

B е количество, което зависи само от (n).

Разпределението на Стюдънт има само един параметър: (d.f.) - броят на степените на свобода (понякога се означава с (k)). Това разпределение, подобно на нормалното, е симетрично спрямо точката (t) = 0, но е по-плоско. С увеличаване на размера на извадката и, следователно, броя на степените на свобода, разпределението на Стюдънт бързо се доближава до нормалното. Броят на степените на свобода е равен на броя на онези отделни стойности на характеристиките, които трябва да бъдат разпределени

предполагаме, че определяме желаната характеристика. Следователно, за да се изчисли дисперсията, трябва да се знае средната стойност. Следователно, когато изчислявате дисперсията, използвайте (d.f.) = n - 1.

Таблиците за разпределение на учениците са публикувани в две версии:

1. подобно на таблиците с интегрални вероятности, стойностите ( t ) и съответните

текущи вероятности F(t) за различен брой степени на свобода;

2. стойностите (t) са дадени за най-често използваните доверителни вероятности

0,70; 0,75; 0,80; 0,85; 0,90; 0,95 и 0,99 или за 1 - 0,70 = 0,3; 1 - 0,80 = 0,2; …… 1 - 0,99 = 0,01.

3. при различен брой степени на свобода. Този вид таблица е дадена в приложението

(Таблица 1 - 20), както и стойността (t) - тест на Стюдънт при ниво на значимост 0,7

​ t-тест на Стюдънт е общо наименование на клас методи за статистическо тестване на хипотези (статистически тестове), базирани на разпределението на Стюдънт. Най-честите употреби на t-теста включват тестване на равенството на средните стойности в две проби.

1. История на развитието на t-теста

Този критерий беше разработен Уилям Госетза оценка на качеството на бирата в компанията Гинес. Поради задължения към компанията относно неразкриването на търговски тайни, статията на Госет е публикувана през 1908 г. в списание Biometrics под псевдонима „Студент“.

2. За какво се използва t-тестът на Стюдънт?

t тестът на Стюдънт се използва за определяне на статистическата значимост на разликите в средните стойности. Може да се използва както в случаите на сравнение на независими проби ( например групи от диабетици и здрави групи), и при сравняване на свързани популации ( например средна сърдечна честота при едни и същи пациенти преди и след приема на антиаритмично лекарство).

3. В какви случаи може да се използва t-тестът на Student?

За да се приложи t-теста на Стюдънт, е необходимо оригиналните данни да са налице нормална дистрибуция. В случай на прилагане на критерий за две проби за независими проби е необходимо също така да се изпълни условието равенство (хомоскедастичност) на вариациите.

Ако тези условия не са изпълнени, трябва да се използват подобни методи при сравняване на средните стойности на извадката. непараметрична статистика, сред които най-известните са U тест на Ман-Уитни(като тест с две проби за независими проби), и критерий за знакИ Тест на Wilcoxon(използва се в случаи на зависими проби).

4. Как се изчислява t-теста на Стюдънт?

За да се сравнят средните стойности, t-тестът на Student се изчислява по следната формула:

Където М 1- средно аритметично на първата сравнена популация (група), М 2- средно аритметично на втората сравнявана популация (група), m 1- средна грешка на първата средна аритметична стойност, м 2- средна грешка на второто средно аритметично.

5. Как да интерпретираме стойността на t-теста на Student?

Получената стойност на t-теста на Student трябва да се интерпретира правилно. За да направим това, трябва да знаем броя на субектите във всяка група (n 1 и n 2). Намиране на броя на степените на свобода fпо следната формула:

f = (n 1 + n 2) - 2

След това определяме критичната стойност на t-теста на Student за необходимото ниво на значимост (например p = 0,05) и за даден брой степени на свобода fспоред таблицата ( виж отдолу).

Сравняваме критичните и изчислените стойности на критерия:

  • Ако изчислената стойност на t-теста на Student равен или по-голямкритични, установени от таблицата, заключаваме, че разликите между сравняваните стойности са статистически значими.
  • Ако стойността на изчисления t-тест на Student по-малкотаблични, което означава, че разликите между сравняваните стойности не са статистически значими.

6. Пример за изчисляване на t-критерия на Стюдънт

За изследване на ефективността на нов препарат с желязо бяха избрани две групи пациенти с анемия. В първата група пациентите са получавали ново лекарство в продължение на две седмици, а във втората група са получавали плацебо. След това се измерват нивата на хемоглобина в периферната кръв. В първата група средното ниво на хемоглобина е 115,4±1,2 g/l, а във втората група - 103,7±2,3 g/l (данните са представени във формат M±m), сравняваните популации имат нормално разпределение. Броят на първата група е 34, а на втората - 40 пациенти. Необходимо е да се направи заключение за статистическата значимост на получените разлики и ефективността на новия железен препарат.

Решение:За да оценим значимостта на разликите, използваме t-теста на Student, изчислен като разликата в средните стойности, разделена на сумата от квадратите на грешките:

След извършване на изчисленията стойността на t-теста се оказа 4,51. Намираме броя на степените на свобода като (34 + 40) - 2 = 72. Сравняваме получената стойност на t-теста на Student от 4,51 с критичната стойност при p = 0,05, посочена в таблицата: 1,993. Тъй като изчислената стойност на критерия е по-голяма от критичната стойност, ние заключаваме, че наблюдаваните разлики са статистически значими (ниво на значимост p<0,05).

В какви случаи може да се използва t-тестът на Стюдънт?

За да се приложи t-теста на Стюдънт, е необходимо оригиналните данни да са налице нормална дистрибуция. В случай на прилагане на критерий за две проби за независими проби е необходимо също така да се изпълни условието равенство (хомоскедастичност) на вариациите.

Ако тези условия не са изпълнени, трябва да се използват подобни методи при сравняване на средните стойности на извадката. непараметрична статистика, сред които най-известните са U тест на Ман-Уитни(като тест с две проби за независими проби), и критерий за знакИ Тест на Wilcoxon(използва се в случаи на зависими проби).

За да се сравнят средните стойности, t-тестът на Student се изчислява по следната формула:

Където М 1- средно аритметично на първата сравнена популация (група), М 2- средно аритметично на втората сравнявана популация (група), m 1- средна грешка на първата средна аритметична стойност, м 2- средна грешка на второто средно аритметично.

Как да интерпретираме стойността на t-теста на Стюдънт?

Получената стойност на t-теста на Student трябва да се интерпретира правилно. За да направим това, трябва да знаем броя на субектите във всяка група (n 1 и n 2). Намиране на броя на степените на свобода fпо следната формула:

f = (n 1 + n 2) - 2

След това определяме критичната стойност на t-теста на Student за необходимото ниво на значимост (например p = 0,05) и за даден брой степени на свобода fспоред таблицата ( виж отдолу).

Сравняваме критичните и изчислените стойности на критерия:

· Ако изчислената стойност на t-критерия на Стюдънт равен или по-голямкритични, установени от таблицата, заключаваме, че разликите между сравняваните стойности са статистически значими.

· Ако стойността на изчисления t-тест на Стюдънт по-малкотаблични, което означава, че разликите между сравняваните стойности не са статистически значими.

Пример за изчисляване на t-теста на Стюдънт

За изследване на ефективността на нов препарат с желязо бяха избрани две групи пациенти с анемия. В първата група пациентите са получавали ново лекарство в продължение на две седмици, а във втората група са получавали плацебо. След това се измерват нивата на хемоглобина в периферната кръв. В първата група средното ниво на хемоглобина е 115,4±1,2 g/l, а във втората група - 103,7±2,3 g/l (данните са представени във формат M±m), сравняваните популации имат нормално разпределение. Броят на първата група е 34, а на втората - 40 пациенти. Необходимо е да се направи заключение за статистическата значимост на получените разлики и ефективността на новия железен препарат.

Решение:За да оценим значимостта на разликите, използваме t-теста на Student, изчислен като разликата в средните стойности, разделена на сумата от квадратите на грешките:

След извършване на изчисленията стойността на t-теста се оказа 4,51. Намираме броя на степените на свобода като (34 + 40) - 2 = 72. Сравняваме получената стойност на t-теста на Student от 4,51 с критичната стойност при p = 0,05, посочена в таблицата: 1,993. Тъй като изчислената стойност на критерия е по-голяма от критичната стойност, ние заключаваме, че наблюдаваните разлики са статистически значими (ниво на значимост p<0,05).

Разпределението на Фишер е разпределението на случайна променлива

къде са случайните променливи X 1И X 2са независими и имат хи-квадрат разпределение с броя на степените на свобода к 1И к 2съответно. В същото време двойката (k 1, k 2)– двойка „степени на свобода“ от разпределението на Фишер, а именно, к 1е броят на степените на свобода на числителя, и к 2– брой степени на свобода на знаменателя. Разпределение на случайна величина Екръстен на великия английски статистик Р. Фишер (1890-1962), който активно го използва в трудовете си.

Разпределението на Фишер се използва при тестване на хипотези за адекватността на модела при регресионен анализ, равенство на дисперсиите и други проблеми на приложната статистика.

Таблица на критичните стойности на Student.

Начало на формата

Брой степени на свобода, f Стойност на t-теста на Student при p=0,05
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
2.040
2.037
2.035
2.032
2.030
2.028
2.026
2.024
40-41 2.021
42-43 2.018
44-45 2.015
46-47 2.013
48-49 2.011
50-51 2.009
52-53 2.007
54-55 2.005
56-57 2.003
58-59 2.002
60-61 2.000
62-63 1.999
64-65 1.998
66-67 1.997
68-69 1.995
70-71 1.994
72-73 1.993
74-75 1.993
76-77 1.992
78-79 1.991
80-89 1.990
90-99 1.987
100-119 1.984
120-139 1.980
140-159 1.977
160-179 1.975
180-199 1.973
1.972
1.960

Един от най-известните статистически инструменти е тестът на Стюдънт. Използва се за измерване на статистическата значимост на различни величини по двойки. Microsoft Excel има специална функция за изчисляване на този показател. Нека научим как да изчисляваме t-теста на Стюдънт в Excel.

Но първо, нека разберем какво представлява t-тестът на Student като цяло. Този индикатор се използва за проверка на равенството на средните стойности на две проби. Това означава, че определя значимостта на разликите между две групи данни. В същото време се използва цял набор от методи за определяне на този критерий. Индикаторът може да се изчисли, като се вземе предвид едностранното или двустранното разпределение.

Изчисляване на индикатор в Excel

Сега нека преминем директно към въпроса как да изчислим този индикатор в Excel. Това може да стане чрез функцията СТУДЕНТСКИ ТЕСТ. През 2007 г. и по-ранните версии на Excel се наричаше TTEST. Той обаче беше оставен в по-късните версии за целите на съвместимостта, но в тях все още се препоръчва да се използва по-модерен - СТУДЕНТСКИ ТЕСТ. Тази функция може да се използва по три начина, които ще бъдат разгледани подробно по-долу.

Метод 1: Съветник за функции

Най-лесният начин за изчисляване на този индикатор е чрез съветника за функции.


Изчислението се извършва и резултатът се показва на екрана в предварително избрана клетка.

Метод 2: Работа с раздела Формули

функция СТУДЕНТСКИ ТЕСТможе да се извика и като отидете в раздела "Формули"с помощта на специален бутон на лентата.


Метод 3: Ръчно въвеждане

Формула СТУДЕНТСКИ ТЕСТможе да се въведе и ръчно във всяка клетка на работния лист или във функционалния ред. Синтактичната му форма изглежда така:

СТУДЕНТСКИ ТЕСТ(Масив1,Масив2,Опашки,Тип)

Какво означава всеки от аргументите, беше взето предвид при анализа на първия метод. Тези стойности трябва да бъдат заменени в тази функция.

След въвеждане на данните натиснете бутона Въведетеза да изведете резултата на екрана.

Както можете да видите, изчисляването на теста на ученика в Excel е много лесно и бързо. Основното е, че потребителят, който извършва изчисленията, трябва да разбере какво е той и какви входни данни отговарят за какво. Програмата сама извършва директното изчисление.

В целия пример ще използваме фиктивна информация, за да може читателят сам да направи необходимите трансформации.

Така че, да кажем, в хода на изследването, ние проучихме ефекта на лекарството А върху съдържанието на вещество B (в mmol/g) в тъкан C и концентрацията на вещество D в кръвта (в mmol/l) при пациенти разделени по някакъв критерий Е на 3 групи с еднакъв обем (n = 10). Резултатите от такова фиктивно изследване са показани в таблицата:

Съдържание на вещество Б, mmol/g

Вещество D, mmol/l

повишаване на концентрацията


Бихме искали да ви предупредим, че разглеждаме извадки с размер 10 за по-лесно представяне на данни и изчисления; на практика такъв размер на извадката обикновено не е достатъчен за формиране на статистическо заключение.

Като пример разгледайте данните в първата колона на таблицата.

Описателна статистика

Примерна средна стойност

Средната аритметична стойност, често наричана просто „средна“, се получава чрез добавяне на всички стойности и разделяне на тази сума на броя на стойностите в набора. Това може да се покаже с помощта на алгебрична формула. Набор от n наблюдения на променлива x може да бъде представен като x 1 , x 2 , x 3 , ..., x n

Формулата за определяне на средната аритметична стойност на наблюденията (произнася се „X с линия“):

= (X 1 + X 2 + ... + X n) / n

= (12 + 13 + 14 + 15 + 14 + 13 + 13 + 10 + 11 + 16) / 10 = 13,1;

Дисперсия на извадката

Един от начините за измерване на дисперсията на данните е да се определи степента, до която всяко наблюдение се отклонява от средната аритметична стойност. Очевидно, колкото по-голямо е отклонението, толкова по-голяма е променливостта, променливостта на наблюденията. Не можем обаче да използваме средната стойност на тези отклонения като мярка за дисперсия, тъй като положителните отклонения компенсират отрицателните отклонения (сумата им е нула). За да разрешим този проблем, ние повдигаме на квадрат всяко отклонение и намираме средната стойност на квадратите на отклоненията; това количество се нарича вариация или дисперсия. Нека направим n наблюдения x 1, x 2, x 3, ..., x n, средно което е равно на. Изчисляване на дисперсията това, обикновено наричаноs2,тези наблюдения:

Дисперсията на извадката на този показател е s 2 = 3,2.

Стандартно отклонение

Стандартното (средно квадратно) отклонение е положителният квадратен корен от дисперсията. Използвайки n наблюдения като пример, това изглежда така:

Можем да мислим за стандартното отклонение като вид средно отклонение на наблюденията от средната стойност. Изчислява се в същите единици (измерения) като оригиналните данни.

s = sqrt (s 2) = sqrt (3,2) = 1,79.

Коефициентът на вариация

Ако разделите стандартното отклонение на средното аритметично и изразите резултата като процент, получавате коефициента на вариация.

CV = (1,79 / 13,1) * 100% = 13,7

Примерна средна грешка

1,79/sqrt(10) = 0,57;

t-коефициент на Стюдънт (t-тест за една извадка)

Използва се за проверка на хипотезата за разликата между средната стойност и известна стойност m

Броят на степените на свобода се изчислява като f=n-1.

В този случай доверителният интервал за средната стойност е между границите от 11,87 и 14,39.

За 95% ниво на сигурност m=11,87 или m=14,39, това е= |13,1-11,82| = |13.1-14.38| = 1,28

Съответно, в този случай, за броя на степените на свобода f = 10 - 1 = 9 и 95% ниво на доверие t = 2,26.

Диалог Основни статистики и таблици

В модула Основни статистики и таблицида изберем Описателна статистика.

Ще се отвори диалогов прозорец Описателна статистика.

В полето Променливида изберем Група 1.

Натискане Добре, получаваме таблици с резултати с описателна статистика на избраните променливи.

Ще се отвори диалогов прозорец t-тест за една проба.

Да предположим, че знаем, че средното съдържание на вещество B в тъкан C е 11.

Таблицата с резултати с описателна статистика и t-тест на Student е следната:

Трябваше да отхвърлим хипотезата, че средното съдържание на вещество B в тъкан C е 11.

Тъй като изчислената стойност на критерия е по-голяма от табличната стойност (2.26), нулевата хипотеза се отхвърля при избраното ниво на значимост и разликите между извадката и известната стойност се считат за статистически значими. По този начин заключението за съществуването на разлики, направено с помощта на теста на Стюдънт, се потвърждава с помощта на този метод.