Биографии Характеристики Анализ

Намиране на доверителния интервал за математическото очакване. Примерни задачи за намиране на доверителен интервал

И др.. Всички те са оценки на техните теоретични двойници, които биха могли да бъдат получени, ако имаше не извадка, а генералната съвкупност. Но уви, общото население е много скъпо и често недостъпно.

Концепцията за интервална оценка

Всяка примерна оценка има известно разсейване, защото е случайна променлива в зависимост от стойностите в конкретна проба. Следователно, за по-надеждни статистически заключения, трябва да се знае не само точкова оценка, но и интервал, който с голяма вероятност γ (гама) обхваща прогнозния показател θ (тета).

Формално това са две такива стойности (статистика) T1(X)и T2(X), Какво T1< T 2 , за които при дадено ниво на вероятност γ условието е изпълнено:

Накратко, вероятно е γ или повече истинската стойност е между точките T1(X)и T2(X), които се наричат ​​долна и горна граница доверителен интервал.

Едно от условията за конструиране на доверителни интервали е неговата максимална стеснимост, т.е. трябва да е възможно най-кратък. Желанието е съвсем естествено, т.к. изследователят се опитва да локализира по-точно находката на желания параметър.

От това следва, че доверителният интервал трябва да покрива максималните вероятности на разпределението. и самата партитура да е в центъра.

Тоест вероятността за отклонение (на истинския показател от оценката) нагоре е равна на вероятността за отклонение надолу. Трябва също да се отбележи, че за изкривените разпределения интервалът отдясно не е такъв равен на интерваланаляво.

Фигурата по-горе ясно показва, че колкото по-високо е нивото на доверие, толкова по-широк е интервалът - пряка връзка.

Това беше малко въведение в теорията интервална оценканеизвестни параметри. Нека да преминем към намирането на граници на доверие за математическо очакване.

Доверителен интервал за математическо очакване

Ако оригиналните данни са разпределени върху , тогава средната стойност ще бъде нормална стойност. Това следва от правилото, че линейна комбинация от нормални стойности също има нормално разпределение. Следователно, за да изчислим вероятностите, можем да използваме математически апаратнормален закон за разпределение.

Това обаче ще изисква познаването на два параметъра - очакваната стойност и дисперсията, които обикновено не са известни. Можете, разбира се, да използвате оценки вместо параметри (средно аритметично и ), но тогава разпределението на средната стойност няма да е съвсем нормално, то ще бъде леко изравнено. Гражданинът Уилям Госет от Ирландия умело отбеляза този факт, когато публикува откритието си в броя на Biometrica от март 1908 г. За целите на секретността Госет подписа със Студент. Така се появи t-разпределението на Стюдънт.

Но нормалното разпределение на данните, използвано от К. Гаус при анализа на грешките астрономически наблюдения, се среща изключително рядко в земния живот и е доста трудно да се установи това (за висока прецизностнеобходими са около 2000 наблюдения). Следователно най-добре е да се откажете от предположението за нормалност и да използвате методи, които не зависят от разпределението на оригиналните данни.

Възниква въпросът: какво е разпределението на средноаритметичното, ако се изчислява от данните на неизвестно разпределение? Отговорът дава добре познатата в теорията на вероятностите Централна гранична теорема (CPT). В математиката има няколко нейни версии (формулировките са усъвършенствани през годините), но всички те, грубо казано, се свеждат до твърдението, че сумата Голям бройнезависимите случайни променливи се подчиняват на нормалния закон за разпределение.

При изчисляване на средноаритметичното се използва сумата от случайни променливи. От това се оказва, че средноаритметичното има нормално разпределение, при което очакваната стойност е очакваната стойност на изходните данни, а дисперсията е .

Умни хоразнаем как да докажем CLT, но ние ще проверим това с помощта на експеримент, проведен в Excel. Нека симулираме извадка от 50 равномерно разпределени случайни променливи (използвайки Функции на ExcelСЛУЧАЙНО МЕЖДУ). След това ще направим 1000 такива проби и ще изчислим средноаритметичната стойност за всяка. Нека разгледаме тяхното разпространение.

Вижда се, че разпределението на средната е близко до нормалния закон. Ако обемът на пробите и техният брой се увеличат още повече, тогава сходството ще бъде още по-добро.

Сега, след като се убедихме сами във валидността на CLT, можем, използвайки , да изчислим доверителните интервали за средната аритметична стойност, които покриват истинската средна стойност или математическото очакване с дадена вероятност.

За да зададете горната и долната граница, трябва да знаете параметрите нормална дистрибуция. По правило те не са, следователно се използват оценки: средноаритметичнои дисперсия на извадката . Отново този метод дава добро приближение само за големи проби. Когато извадките са малки, често се препоръчва да се използва разпределението на Student. Не вярвайте! Разпределението на Стюдънт за средната стойност възниква само когато оригиналните данни имат нормално разпределение, тоест почти никога. Ето защо е по-добре незабавно да зададете минималната лента за количеството необходими данни и да използвате асимптотично правилни методи. Казват, че 30 наблюдения са достатъчни. Вземете 50 - няма да сбъркате.

T 1.2са долната и горната граница на доверителния интервал

– средноаритметично извадково

s0– извадково стандартно отклонение (безпристрастно)

н – размер на извадката

γ – ниво на достоверност (обикновено равно на 0,9, 0,95 или 0,99)

c γ =Φ -1 ((1+γ)/2)обратен смисълстандартни нормални функции на разпределение. С прости думи, това е броят на стандартните грешки от средната аритметична стойност до долната или горната граница (посочените три вероятности съответстват на стойностите от 1,64, 1,96 и 2,58).

Същността на формулата е, че се взема средноаритметичното и след това от него се отделя определена сума ( с γ) стандартни грешки ( s 0 /√n). Всичко се знае, вземете и пребройте.

Преди масовото използване на компютри, за получаване на стойностите на функцията на нормалното разпределение и нейната обратна функция, те използваха . Те все още се използват, но е по-ефективно да се обърнете към готовите Формули на Excel. Всички елементи от горната формула ( , и ) могат лесно да бъдат изчислени в Excel. Но има и готова формула за изчисляване на доверителния интервал - НОРМА ЗА ДОВЕРИЕ. Синтаксисът му е следният.

CONFIDENCE NORM(alpha, standard_dev, size)

алфа– ниво на значимост или ниво на увереност, което в горната нотация е равно на 1- γ, т.е. вероятността математическитеочакването ще бъде извън доверителния интервал. При ниво на достоверност от 0,95, алфа е 0,05 и т.н.

standard_offе стандартното отклонение на данните от извадката. Не е необходимо да изчислявате стандартната грешка, Excel ще раздели на корен от n.

размерът– размер на извадката (n).

Резултатът от функцията CONFIDENCE.NORM е вторият член от формулата за изчисляване на доверителния интервал, т.е. полуинтервал. Съответно долната и горната точка са средната ± получената стойност.

По този начин е възможно да се изгради универсален алгоритъм за изчисляване на доверителните интервали за средноаритметичното, което не зависи от разпределението на изходните данни. Цената за универсалността е нейната асимптотична природа, т.е. необходимостта от използване на относително големи проби. Въпреки това през века модерни технологиисъбирам точно количестводанните обикновено не са трудни.

Тестване на статистически хипотези с помощта на доверителен интервал

(модул 111)

Един от основните проблеми, решавани в статистиката, е. Накратко същността му е следната. Хипотезата е например, че очакването населениее равно на някаква стойност. След това се конструира разпределението на извадковите средни, които могат да се наблюдават с дадено очакване. След това разглеждаме къде в това условно разпределение се намира реалната средна стойност. Ако надхвърли допустимите граници, тогава появата на такава средна е много малко вероятна, а при еднократно повторение на експеримента е почти невъзможна, което противоречи на изложената хипотеза, която е успешно отхвърлена. Ако средната стойност не надхвърля критично ниво, тогава хипотезата не е отхвърлена (но не и доказана!).

И така, с помощта на доверителни интервали, в нашия случай за очакванията, можете също да тествате някои хипотези. Много лесно се прави. Да предположим, че средноаритметичната стойност за определена извадка е 100. Тества се хипотезата, че очакването е, да речем, 90. Тоест, ако поставим въпроса примитивно, тогава той звучи така: може ли да бъде, че когато истински смисълсредно равно на 90, наблюдаваното средно е равно на 100?

За да отговорите на този въпрос, допълнителна информация средно стандартно отклонениеи размер на извадката. Да речем стандартно отклонениее 30, а броят на наблюденията е 64 (за лесно извличане на корена). Тогава стандартната грешка на средната стойност е 30/8 или 3,75. За да се изчисли 95% доверителен интервал, ще е необходимо да се отложи от двете страни на средната стойност с две стандартни грешки(по-точно с 1,96). Доверителният интервал ще бъде приблизително 100 ± 7,5 или от 92,5 до 107,5.

По-нататъшното разсъждение е следното. Ако тестваната стойност попада в доверителния интервал, това не противоречи на хипотезата, тъй като се вписва в границите на случайни флуктуации (с вероятност от 95%). Ако тестваната точка е извън доверителния интервал, тогава вероятността за такова събитие е много малка, във всеки случай под приемливото ниво. Следователно хипотезата се отхвърля като противоречаща на наблюдаваните данни. В нашия случай хипотезата за очакване е извън доверителния интервал (тестваната стойност от 90 не е включена в интервала от 100±7,5), така че трябва да бъде отхвърлена. Отговаряйки на примитивния въпрос по-горе, човек трябва да каже: не, не може, във всеки случай това се случва изключително рядко. Често това показва конкретна вероятност за погрешно отхвърляне на хипотезата (p-ниво), а не дадено ниво, според което е изграден доверителният интервал, но повече за това друг път.

Както можете да видите, не е трудно да се изгради доверителен интервал за средната стойност (или математическото очакване). Основното нещо е да хванете същността и тогава нещата ще тръгнат. На практика повечето използват 95% доверителен интервал, който е с ширина около две стандартни грешки от двете страни на средната стойност.

Това е всичко за сега. Всичко най-хубаво!

Доверителен интервал– гранични стойности статистика, която с дадена доверителна вероятност γ ще бъде в този интервал с по-голям размер на извадката. Означава се като P(θ - ε . На практика изберете ниво на увереностγ от стойностите γ = 0,9, γ = 0,95, γ = 0,99, достатъчно близки до единица.

Сервизно задание. Тази услуга определя:

  • доверителен интервал за общата средна стойност, доверителен интервал за дисперсията;
  • доверителен интервал за стандартното отклонение, доверителен интервал за общата фракция;
Полученото решение се записва във файл на Word (вижте примера). По-долу има видео инструкция за попълване на първоначалните данни.

Пример #1. В колективна ферма от общо стадо от 1000 овце 100 овце са подложени на селективно контролно стригане. В резултат на това е установен среден настриг на вълна от 4,2 кг на овца. Определете с вероятност от 0,99 стандартната грешка на пробата при определяне на средното срязване на вълна на овца и границите, в които се намира стойността на срязване, ако дисперсията е 2,5. Пробата не се повтаря.
Пример #2. От партидата внесени продукти на поста на Московската северна митница е взета в произволен ред повторно вземане на проби 20 проби от продукт "А". В резултат на проверката е установено средно съдържание на влага на продукт "А" в пробата, което се оказва 6% при ср. стандартно отклонение 1 %.
Определете с вероятност от 0,683 границите на средното съдържание на влага в продукта в цялата партида внесени продукти.
Пример #3. Анкета сред 36 ученици показа, че средният брой учебници, в които четат академична година, се оказа равно на 6. Ако приемем, че броят учебници, прочетени от един студент за семестър, е нормален законразпределения със стандартно отклонение равно на 6, намерете: A) с надеждност 0,99 интервална оценказа математическото очакване на това случайна величина; Б) с каква вероятност може да се твърди, че средният брой учебници, прочетени от студент за семестър, изчислен за тази извадка, ще се отклонява от математическото очакване с абсолютна стойностне повече от 2.

Класификация на доверителните интервали

По вида на параметъра, който се оценява:

По тип проба:

  1. Доверителен интервал за безкрайно вземане на проби;
  2. Доверителен интервал за крайната проба;
Вземането на проби се нарича повторно вземане на проби, ако избраният обект се върне към общата популация, преди да се избере следващият. Пробата се нарича неповтаряща се.ако избраният обект не бъде върнат в общата съвкупност. На практика обикновено се работи с неповтарящи се проби.

Изчисляване на средната извадкова грешка за случаен подбор

Несъответствието между стойностите на показателите, получени от извадката, и съответните параметри на генералната съвкупност се нарича грешка в представителността.
Обозначения на основните параметри на генералната и извадковата съвкупност.
Примерни формули за средна грешка
преизбираненеповтаряща се селекция
за средатаза споделянеза средатаза споделяне
Съотношението между границата на извадкова грешка (Δ), гарантирана с известна вероятност P(t),и средна грешкапробата има формата: или Δ = t μ, където T– коефициент на доверителност, определен в зависимост от степента на вероятност P(t) съгласно таблицата на интегралната функция на Лаплас.

Формули за изчисляване на размера на извадката с подходящ метод на случаен подбор

Нека се направи извадка от обща съвкупност, подчинена на закона нормалноразпространение хN( м; ). Това основно допускане на математическата статистика се основава на централната гранична теорема. Нека общото стандартно отклонение е известно , но математическото очакване на теоретичното разпределение е неизвестно м(означава ).

В този случай средната стойност на извадката , получена по време на експеримента (раздел 3.4.2), също ще бъде случайна променлива м;
). След това "нормализираното" отклонение
N(0;1) е стандартна нормална случайна променлива.

Проблемът е да се намери интервална оценка за м. Нека конструираме двустранен доверителен интервал за м така че истинското математическо очакване да му принадлежи с дадена вероятност (надеждност) .

Задайте такъв интервал за стойността
означава да се намери максималната стойност на това количество
и минимум
, които са границите на критичната област:
.

защото тази вероятност е
, тогава коренът на това уравнение
може да се намери с помощта на таблиците на функцията на Лаплас (Таблица 3, Приложение 1).

Тогава с вероятност може да се твърди, че случайната величина
, тоест желаната обща средна принадлежи на интервала
. (3.13)

стойността
(3.14)

Наречен прецизностоценки.

Номер
квантилнормално разпределение - може да се намери като аргумент на функцията на Лаплас (Таблица 3, Приложение 1), като се има предвид отношението 2Ф( u)=, т.е. F( u)=
.

назад, от зададена стойностотклонения възможно е да се намери с каква вероятност неизвестната обща средна принадлежи на интервала
. За да направите това, трябва да изчислите

. (3.15)

Нека бъде взета произволна извадка от генералната съвкупност по метода на повторната селекция. От уравнението
може да се намери минимумобем на повторно вземане на проби ннеобходими, за да се гарантира, че доверителният интервал с дадена надеждност не надвишава предварително зададената стойност . Необходимият размер на извадката се изчислява по формулата:

. (3.16)

Изследване точност на оценката
:

1) С увеличаване на размера на извадката нвеличина намалява, а оттам и точността на оценката се увеличава.

2) В нарастванадеждност на оценките стойността на аргумента се увеличава u(защото Е(u) нараства монотонно) и следователно се увеличава . В този случай увеличаването на надеждността намаляваточността на неговата оценка .

Оценка
(3.17)

Наречен класически(където Tе параметър, който зависи от и н), защото той характеризира най-често срещаните закони на разпределение.

3.5.3 Доверителни интервали за оценка на очакването на нормално разпределение с неизвестно стандартно отклонение 

Нека се знае, че генералната съвкупност е подчинена на закона за нормалното разпределение хN( м;), където стойността корен квадратенотклонения неизвестен.

За да се изгради доверителен интервал за оценка на общата средна стойност, в този случай се използва статистика
, който има разпределение на Student с к= н–1 степен на свобода. Това следва от факта, че N(0;1) (виж т. 3.5.2), и
(вижте точка 3.5.3) и от дефиницията на разпределението на Стюдънт (част 1. точка 2.11.2).

Нека намерим точността на класическата оценка на разпределението на Стюдънт: т.е. намирам Tот формула (3.17). Нека вероятността за изпълнение на неравенството
дадено от надеждност :

. (3.18)

Тъй като TSt( н-1), очевидно е, че Tзависи от и н, така че обикновено пишем
.

(3.19)

където
е функцията на разпределение на Student с н-1 степен на свобода.

Решаване на това уравнение за м, получаваме интервала
който с надеждност  покрива неизвестния параметър м.

Стойност T , н-1 , използван за определяне на доверителния интервал на случайна променлива T(н-1), разпространен от Студент с н-1 степен на свобода се нарича Студентски коефициент. Трябва да се намери по дадени стойности ни  от таблиците " Критични точкиСтудентски разпределения. (Таблица 6, Приложение 1), които са решенията на уравнение (3.19).

В резултат на това получаваме следния израз точност доверителен интервал за оценка на математическото очакване (общо средно), ако дисперсията е неизвестна:

(3.20)

По този начин има обща формула за конструиране на доверителни интервали за математическото очакване на общата съвкупност:

където е точността на доверителния интервал в зависимост от известната или неизвестната дисперсия се намира по формулите съответно 3.16. и 3.20.

Задача 10.Бяха проведени някои тестове, резултатите от които са посочени в таблицата:

х аз

Известно е, че те се подчиняват на нормалния закон за разпределение с
. Намерете оценка м* за математическо очакване м, изградете 90% доверителен интервал за него.

Решение:

Така, м(2.53;5.47).

Задача 11.Дълбочината на морето се измерва с инструмент, чиято системна грешка е 0, а случайните грешки се разпределят по нормалния закон със стандартно отклонение =15м. Колко независими измервания трябва да се направят, за да се определи дълбочината с грешки не повече от 5 m с ниво на сигурност 90%?

Решение:

Според условието на проблема имаме хN( м; ), където =15 м, =5m, =0,9. Нека намерим обема н.

1) При дадена надеждност = 0,9 намираме от таблици 3 (Приложение 1) аргумента на функцията на Лаплас u = 1.65.

2) Познаване на дадената точност на оценката =u=5, намери
. Ние имаме

. Следователно броят на опитите н25.

Задача 12.Температурно вземане на проби Tза първите 6 дни на януари е представен в таблицата:

Намерете интервал на доверие за очакване мобща популация с доверителна вероятност
и оценете общото стандартно отклонение с.

Решение:


и
.

2) Безпристрастна оценка намерете по формула
:

=-175

=234.84

;
;

=-192

=116


.

3) Тъй като общата дисперсия е неизвестна, но нейната оценка е известна, тогава да се оцени математическото очакване мизползваме разпределение на Стюдънт (Таблица 6, Приложение 1) и формула (3.20).

защото н 1 =н 2 =6, тогава,
, с 1 =6,85 имаме:
, следователно -29.2-4.1<м 1 < -29.2+4.1.

Следователно -33,3<м 1 <-25.1.

По същия начин имаме
, с 2 = 4,8, така че

–34.9< м 2 < -29.1. Тогда доверительные интервалы примут вид: м 1 (-33,3;-25,1) и м 2 (-34.9;-29.1).

В приложните науки, например в строителните дисциплини, за оценка на точността на обектите се използват таблици с доверителни интервали, които са дадени в съответната справочна литература.

Можете да използвате тази форма за търсене, за да намерите правилната задача. Въведете дума, фраза от задачата или номера й, ако я знаете.


<въведен тип="submit" value="" name="searchbutton" class="button">

Търсете само в този раздел


Доверителни интервали: Списък с решения на проблеми

Доверителни интервали: теория и проблеми

Разбиране на доверителните интервали

Нека накратко представим концепцията за доверителен интервал, който
1) оценява някакъв параметър на числена извадка директно от данните на самата извадка,
2) покрива стойността на този параметър с вероятност γ.

Доверителен интервалза параметър х(с вероятност γ) се нарича интервал от формата , така че и стойностите се изчисляват по някакъв начин от извадката.

Обикновено при приложни проблеми вероятността за доверие се приема равна на γ ​​= 0,9; 0,95; 0,99.

Да разгледаме някаква извадка с размер n, направена от генералната съвкупност, разпределена вероятно според нормалния закон за разпределение. Нека покажем по какви формули се намират доверителни интервали за параметрите на разпределението- математическо очакване и дисперсия (стандартно отклонение).

Доверителен интервал за математическо очакване

Случай 1Дисперсията на разпределението е известна и равна на . След това доверителният интервал за параметъра аизглежда като:
Tсе определя от таблицата за разпределение на Лаплас чрез отношението

Случай 2Дисперсията на разпределението е неизвестна; точкова оценка на дисперсията е изчислена от извадката. След това доверителният интервал за параметъра аизглежда като:
, където е средната стойност на извадката, изчислена от параметъра на извадката Tопределена от таблицата за разпределение на Student

Пример.Въз основа на данните от 7 измервания на определена стойност, средната стойност на резултатите от измерването е равна на 30, а дисперсията на извадката е равна на 36. Намерете границите, в които се съдържа истинската стойност на измерената стойност с надеждност 0,99 .

Решение.Да намерим . Тогава доверителните граници за интервала, съдържащ истинската стойност на измерената стойност, могат да бъдат намерени по формулата:
, където е средната стойност на извадката, е дисперсията на извадката. Вмъквайки всички стойности, получаваме:

Доверителен интервал за дисперсия

Ние вярваме, че най-общо казано, математическото очакване е неизвестно и е известна само точкова безпристрастна оценка на дисперсията. Тогава доверителният интервал изглежда така:
, където - квантили на разпределение, определени от таблици.

Пример.Въз основа на данните от 7 опита е установена стойността на оценката за стандартното отклонение s=12. Намерете с вероятност от 0,9 ширината на доверителния интервал, изграден за оценка на дисперсията.

Решение.Доверителният интервал за дисперсията на неизвестната популация може да се намери с помощта на формулата:

Заменете и вземете:


Тогава ширината на доверителния интервал е 465.589-71.708=393.881.

Доверителен интервал за вероятност (процент)

Случай 1Нека размерът на извадката и фракцията на извадката (относителна честота) са известни в проблема. Тогава доверителният интервал за общата фракция (истинска вероятност) е:
, където параметърът Tсе определя от таблицата за разпределение на Лаплас чрез съотношението .

Случай 2Ако проблемът освен това знае общия размер на популацията, от която е взета пробата, доверителният интервал за общата фракция (истинска вероятност) може да бъде намерен с помощта на коригираната формула:
.

Пример.Известно е, че Намерете границите, в които с вероятност се сключва общият дял.

Решение.Използваме формулата:

Нека намерим параметъра от условието , получаваме заместител във формулата:


Можете да намерите други примери за задачи по математическа статистика на страницата

Нека случайната променлива X на генералната съвкупност е нормално разпределена, като се има предвид, че дисперсията и стандартното отклонение s на това разпределение са известни. Изисква се да се оцени неизвестното математическо очакване от средната стойност на извадката. В този случай задачата се свежда до намиране на доверителен интервал за математическото очакване с надеждност b. Ако зададем стойността на доверителната вероятност (надеждност) b, тогава можем да намерим вероятността да попаднем в интервала за неизвестното математическо очакване, използвайки формула (6.9a):

където Ф(t) е функцията на Лаплас (5.17а).

В резултат на това можем да формулираме алгоритъм за намиране на границите на доверителния интервал за математическото очакване, ако дисперсията D = s 2 е известна:

  1. Задайте стойността на надеждност на b.
  2. От (6.14) изразете Ф(t) = 0,5 × b. Изберете стойността t от таблицата за функцията на Лаплас по стойността Ф(t) (вижте Приложение 1).
  3. Изчислете отклонението e, като използвате формула (6.10).
  4. Напишете доверителния интервал съгласно формула (6.12), така че с вероятност b да е вярно следното неравенство:

.

Пример 5.

Случайната променлива X има нормално разпределение. Намерете доверителни интервали за оценка с надеждност b = 0,96 от неизвестната средна стойност a, ако е дадено:

1) общо стандартно отклонение s = 5;

2) извадкова средна стойност;

3) размер на извадката n = 49.

Във формула (6.15) на интервалната оценка на математическото очакване а с надеждност b, всички величини с изключение на t са известни. Стойността на t може да се намери с помощта на (6.14): b = 2Ф(t) = 0,96. Ф(t) = 0,48.

Съгласно таблицата от Приложение 1 за функцията на Лаплас Ф(t) = 0,48, намерете съответната стойност t = 2,06. Следователно, . Замествайки изчислената стойност на e във формула (6.12), можем да получим доверителен интервал: 30-1,47< a < 30+1,47.

Желаният доверителен интервал за оценка с надеждност b = 0,96 на неизвестното математическо очакване е: 28,53< a < 31,47.