Относителни грешки на извадката. Примерни формули за средна грешка

Формула ниво на увереностпри оценката на общия ноа част от знака. Средната квадратична грешка на повтарящи се и без повторно вземане на проби и изграждане на доверителен интервал за общия дял на признака.

Доверителна формула за оценка на общата средна стойност. Средната квадратична грешка на повторни и неповторени проби и конструкция доверителен интервалза общата авария.

Конструиране на доверителен интервал за обща средна и обща фракция за големи проби . За конструиране на доверителни интервали за параметрите на популациите, м.б. Приложени са 2 подхода, базирани на познаване на точното (за даден размер на извадката n) или асимптотичното (при n → ∞) разпределение на характеристиките на извадката (или някои техни функции). Първият подход се прилага допълнително при конструиране на интервални оценки на параметрите за малки извадки. В този раздел разглеждаме втория подход, приложим за големи проби (от порядъка на стотици наблюдения).

Теорема . Убеждението, че отклонението на извадковата средна стойност (или дял) от общата средна стойност (или дял) няма да надвишава числото Δ > 0 (по абсолютна стойност), е равно на:

Където

Където
.

Ф(t) - функция (интеграл от вероятности) на Лаплас.

Формулите са наименувани Формули на Confidence Vert за средна стойност и дял .

Стандартно отклонение на средната стойност на извадката и примерен дял всъщност- произволна извадкаНаречен средна квадратична (стандартна) грешка проби (за неповтарящо се вземане на проби, ние означаваме, съответно, и ).

Следствие 1 . За дадено ниво на достоверност γ пределната грешка на извадката е равна на t-кратната стойност на средната квадратична грешка, където Ф(t) = γ, т.е.

Следствие 2 . Интервалните оценки (доверителните интервали) за общата средна стойност и общите дялове могат да бъдат намерени с помощта на формулите:

Определяне на необходимия обем повторни и неповторни проби при оценка на общата авария и пропорция.

За селективно наблюдениемного е важно правилно да се зададе размерът на извадката n, който до голяма степен определя необходимото време, труд и разходи за определяне на n, необходимо е да се зададе надеждността (нивото на достоверност) на оценката γ и точността (пределна грешка на извадката) Δ.

Ако бъде намерен размерът на повторната дискретизация n, тогава размерът на съответната повторна дискретизация n" може да се определи по формулата:

защото
, тогава за същата точност и надеждност на оценките размерът на неповторената извадка n" винаги е по-малък от размера на повторната извадка n.

Статистическа хипотеза и статистически тест. Грешки от 1-ви и 2-ри вид. Ниво на значимост и сила на теста. Принципът на практическата сигурност.

Определение . Статистическа хипотеза Всяко предположение за формата или параметрите на неизвестен закон за разпределение се нарича.

Правете разлика между прости и сложни статистически хипотези. проста хипотеза , за разлика от комплексната, напълно определя теоретичната функция на разпределение на SW.

Обикновено се нарича хипотезата, която трябва да се провери нула (или основен ) и обозначават H 0 . Заедно с нулева хипотезаобмисли алтернатива , или състезаващ се , хипотезата H 1 , която е логическото отрицание на H 0 . Нулевата и алтернативната хипотеза са 2 избора, направени при проблеми с тестване на статистически хипотези.

Същността на проверката на статистическа хипотеза е, че се използва специално съставена извадкова характеристика (статистика).
, получени от пробата
, чието точно или приблизително разпределение е известно.

След това според това извадково разпределение се определя критичната стойност - така че ако хипотезата H 0 е вярна, тогава
малък; така че в съответствие с принципа на практическата сигурност в условията на това изследване събитието
може (с известен риск) да се счита за практически невъзможно. Следователно, ако в конкретния случай се установи отклонение
, тогава хипотезата H 0 се отхвърля, докато появата на стойността
, се счита за съвместима с хипотезата H 0 , която след това се приема (по-точно не се отхвърля). Нарича се правилото, по което се отхвърля или приема хипотезата H 0 статистически критерий или статистически тест .

Принципът на практическата сигурност:

Ако вероятността за събитие А в даден тест е много малка, тогава с еднократно изпълнение на теста можете да сте сигурни, че събитие А няма да се случи и на практика да се държите така, сякаш събитие А изобщо е невъзможно.

По този начин наборът от възможни стойности на статистиката - критерий (критична статистика) е разделен на 2 подмножества, които не се припокриват: критична зона(област на отхвърляне на хипотезата) Уи диапазон на толерантност(област на приемане на хипотезата) . Ако действителната наблюдавана стойност на критерия статистика попада в критичната област W, тогава хипотезата H 0 се отхвърля. Има четири възможни случая:

Определение . Вероятността α да допусне грешка от l-ти вид, т.е. да се отхвърли хипотезата H 0, когато е вярна се нарича ниво на значимост , или критерий размер .

Вероятността да направите грешка от тип 2, т.е. приемат хипотезата H 0, когато е невярна, обикновено се обозначава с β.

Определение . Вероятност (1-β) да не се направи грешка от тип 2, т.е. за отхвърляне на хипотезата H 0, когато тя е невярна се нарича мощност (или степенна функция ) критерии .

Необходимо е да се предпочете критичната област, в която силата на критерия ще бъде най-голяма.

Както вече знаем, представителността е свойство рамка за вземане на пробипредставят описание на общ. Ако няма съвпадение, се говори за грешка в представителността - степента на отклонение на статистическата структура на извадката от структурата на съответния население. Да предположим, че средният месечен семеен доход на пенсионерите в общото население е 2 хиляди рубли, а в извадката - 6 хиляди рубли. Това означава, че социологът е интервюирал само заможната част от пенсионерите и в изследването му се е прокраднала грешка в представителността. С други думи, грешката в представителността е несъответствието между две множества - общото, към което е насочен теоретичният интерес на социолога и представата за свойствата, които той иска да получи в крайна сметка, и селективното , към който е насочен практическият интерес на социолога, който действа едновременно като обект на изследване и средство за получаване на информация за общата съвкупност.

Заедно с термина "грешка в представителността" в местната литература можете да намерите друга - "грешка на извадката". Понякога те се използват взаимозаменяемо, а понякога „грешка на извадката“ се използва вместо „грешка в представителността“ като количествено по-точна концепция.

Грешка на извадката е отклонението на средните характеристики на извадката от съвкупността от средните характеристики на генералната съвкупност.

На практика грешката на извадката се определя чрез сравняване на известните характеристики на съвкупността с извадковите средни стойности. В социологията проучванията на възрастното население най-често използват данни от преброявания на населението, текущи статистически записи и резултати от предишни проучвания. Социално-демографските характеристики обикновено се използват като контролни параметри. Сравнението на средните стойности на генералната и извадковата популации, въз основа на което определянето на грешката на извадката и нейното намаляване се нарича контрол на представителността. Тъй като в края на изследването може да се направи сравнение на собствените и чуждите данни, този метод на контрол се нарича апостериори, т.е. извършва се след опит.

В социологическите проучвания на Gallup представителността се контролира от наличните данни в националните преброявания относно разпределението на населението по пол, възраст, образование, доход, професия, раса, място на пребиваване, размер местност. Всеруски изследователски център обществено мнение(VTsIOM) използва за такива цели такива показатели като пол, възраст, образование, тип населено място, семейно положение, сфера на заетост, официален статус на респондента, които са заимствани от Държавния комитет по статистика на Руската федерация. И в двата случая населението е известно. Грешката на извадката не може да бъде установена, ако стойностите на променливата в извадката и популацията са неизвестни.

По време на анализа на данните специалистите на VTsIOM осигуряват цялостен ремонт на пробата, за да се сведат до минимум отклоненията, възникнали по време на работа на терен. Особено силни размествания се наблюдават по пол и възраст. Това се обяснява с факта, че жените и хората с висше образованиепрекарвайте повече време у дома и по-лесно установявайте контакт с интервюиращия; са леснодостъпна група в сравнение с мъжете и хората, които са „необразовани”35.

Грешката на извадката се дължи на два фактора: метода на извадката и размера на извадката.

Извадковите грешки се делят на два вида - случайни и систематични. Случайна грешка е вероятността, че средната стойност на извадката ще (или няма) да попадне извън даден интервал. Случайните грешки включват статистически грешки, присъщи на самия метод на извадка. Те намаляват с увеличаване на размера на извадката.

Вторият вид извадкова грешка е систематични грешки. Ако социолог реши да разбере мнението на всички жители на града за продължаващото местни властиавторитети в социалната политика и са интервюирани само тези, които имат телефон, то има умишлено пристрастие в извадката в полза на богатите слоеве, т.е. систематична грешка.

Така систематичните грешки са резултат от дейността на самия изследовател. Те са най-опасните, защото водят до доста значителни отклонения в резултатите от изследването. Систематичните грешки се считат за по-лоши от случайните и защото не могат да бъдат контролирани и измерени.

Те възникват, когато например: 1) извадката не отговаря на целите на изследването (социологът решава да изследва само работещи пенсионери, но интервюира всички подред); 2) има непознаване на природата на общото население (социологът смяташе, че 70% от всички пенсионери не работят, но се оказа, че само 10% не работят); 3) избрани са само „печеливши“ елементи от общото население (например само богати пенсионери).

внимание! За разлика от случайните грешки, систематичните грешки не намаляват с увеличаване на размера на извадката.

Обобщавайки всички случаи на системни грешки, методистите изготвиха регистър за тях. Те вярват, че източникът на неконтролирани отклонения в разпределението на примерните наблюдения може да бъде следните фактори:
♦ методически и методически правила за провеждане социологически изследвания;
♦ избрани са неадекватни методи за вземане на проби, събиране на данни и методи за изчисляване;
♦ извършена е замяна на необходимите единици за наблюдение с други, по-достъпни;
♦ Беше отбелязано непълно покритие на извадковата съвкупност (липса на въпросници, непълно попълване на въпросници, недостъпност на единиците за наблюдение).

Социолозите рядко правят умишлени грешки. Най-често грешките възникват, защото социологът не е добре запознат със структурата на общата съвкупност: разпределението на хората по възраст, професия, доход и т.н.

Систематичните грешки са по-лесни за предотвратяване (в сравнение със случайните), но са много трудни за отстраняване. Най-добре е да се предотвратят системните грешки, като се предвидят точно техните източници предварително – още в самото начало на изследването.

Ето няколко начина за избягване на грешки при извадката:
♦ всяка единица от генералната съвкупност трябва да има еднаква вероятност да бъде включена в извадката;
♦ желателно е да се подбират от хомогенни популации;
♦ необходимост от познаване на характеристиките на общата популация;
♦ Случайните и систематичните грешки трябва да се вземат предвид при съставянето на извадката.

Ако извадката (или само извадката) е съставена правилно, тогава социологът получава надеждни резултати, които характеризират цялото население. Ако е съставен неправилно, тогава грешката, възникнала на етапа на извадката, се умножава на всеки следващ етап от социологическото изследване и в крайна сметка достига стойност, която надвишава стойността на изследването. Говори се, че подобни изследвания носят повече вреда, отколкото полза.

Такива грешки могат да възникнат само с извадкова популация. За да избегнете или намалите вероятността от грешка, най-лесният начин е да увеличите размера на извадката (в идеалния случай до размера на популацията: когато и двете популации съвпадат, грешката на извадката ще изчезне напълно). Икономически този метод е невъзможен. Има и друг начин - да се подобри математически методивземане на проби. Те се прилагат в практиката. Това е първият канал за проникване в социологията на математиката. Втори канал - математическа обработкаданни.

Особено важен въпросгрешки стават при маркетингови проучвания, където се използват не много големи извадки. Обикновено те съставляват няколкостотин, по-рядко - хиляда респонденти. Тук началната точка за изчисляване на извадката е въпросът за определяне на размера на извадката. Размерът на извадката зависи от два фактора: 1) разходите за събиране на информация и 2) стремежа към определена степен статистическа валиднострезултати, които изследователят се надява да получи. Разбира се, дори хора, които нямат опит в статистиката и социологията, интуитивно разбират, че колкото по-голям е размерът на извадката, т.е. колкото по-близки са те до размера на генералната съвкупност като цяло, толкова по-достоверни и надеждни са получените данни. Въпреки това, ние вече говорихме по-горе за практическата невъзможност за пълни проучвания в случаите, когато те се извършват на обекти, чийто брой надхвърля десетки, стотици хиляди и дори милиони. Ясно е, че разходите за събиране на информация (включително заплащане за репликация на инструменти, труд на въпросници, полеви мениджъри и компютърни оператори) зависят от сумата, която клиентът е готов да отдели, и зависят малко от изследователите. Що се отнася до втория фактор, на него ще се спрем малко по-подробно.

Така че колкото по-голям е размерът на извадката, толкова по-малка е възможната грешка. Въпреки че трябва да се отбележи, че ако искате да удвоите точността, ще трябва да увеличите пробата не два, а четири пъти. Например да направи два пъти повече точна оценкаданни, получени чрез интервюиране на 400 души, трябва да интервюирате не 800, а 1600 души. Малко вероятно е обаче маркетинговото проучване да се нуждае от 100% точност. Ако пивоварът трябва да разбере каква част от потребителите на бира предпочитат неговата марка, а не сорта на неговия конкурент - 60% или 40%, тогава разликата между 57%, 60 или 63% няма да повлияе на плановете му.

Грешката на извадката може да зависи не само от нейния размер, но и от степента на разликите между отделните единици в генералната съвкупност, която изучаваме. Например, ако искаме да знаем колко бира се консумира, тогава откриваме, че сред нашето население нивата на потребление за различни хорасе различават значително (хетерогенна обща популация). В друг случай ще изследваме консумацията на хляб и ще установим това различни хоратя се различава много по-малко значително (хомогенна популация). Колкото по-голяма е разликата (или хетерогенността) в общата популация, толкова по-голяма е стойността възможна грешкапроби. Тази закономерност само потвърждава това, което простото здрав разум. Така, както правилно отбелязва В. Ядов, „размерът (обемът) на извадката зависи от нивото на хомогенност или разнородност на изследваните обекти. Колкото по-хомогенни са те, толкова по-малък брой може да осигури статистически надеждни заключения.

Определянето на размера на извадката зависи и от нивото на доверителния интервал на допустимата статистическа грешка. Тук имаме предвид така наречените случайни грешки, които са свързани с естеството на всяка статистическа грешка. В И. Паниото дава следните изчисления представителна извадкас допускане на грешка от 5%:
Това означава, че ако вие, интервюирайки, да речем, 400 души в областен град, където пълнолетното платежоспособно население е 100 хил. души, установите, че 33% от анкетираните купувачи предпочитат продуктите на местен месопреработвателен завод, то с 95 % вероятност можете да кажете, че 33+5% (т.е. от 28 до 38%) от жителите на този град са редовни купувачи на тези продукти.

Можете също да използвате изчисленията на Gallup, за да оцените съотношението между размерите на извадката и грешката на извадката.

Селективно наблюдение

Концепцията за селективно наблюдение

Метод на вземане на пробисе използва, когато използването на непрекъснато наблюдение е физически невъзможно поради огромното количество данни или не е икономически осъществимо. Физическата невъзможност възниква например при изследване на пътникопотоци, пазарни цени, семейни бюджети. Икономическата нецелесъобразност възниква при оценката на качеството на стоките, свързана с тяхното унищожаване. Например дегустация, тестване на тухли за здравина и др. Селективното наблюдение се използва и за тестване на резултатите от непрекъснато.

Избраните за наблюдение статистически единици са селективенагрегат или проба,и целият масив - общкомплект (GS). Броят на единиците в извадката е означен П,в целия ХС Н.Поведение n/nнаречен относителен размер или примерен дял.

Качеството на резултатите от пробите зависи от представителностпроби, т.е. доколко е представителен в ХС. За да се осигури представителност на извадката, е необходимо да се спазва принципът на случаен подбор на единици, който предполага, че включването на ХС единица в извадката не може да бъде повлияно от друг фактор, освен случайност.

Методи за вземане на проби

1. Всъщност произволноселекция: всички единици на ХС са номерирани и изтеглените числа съответстват на единиците в извадката, като броят на числата е равен на планирания размер на извадката. На практика вместо теглене на жребий се използват генератори произволни числа. Този методизборът може да бъде повтаря се(когато всяка единица, избрана в извадката, се връща в ХС след наблюдение и може да бъде изследвана повторно) и неповторимо(когато изследваните единици в ХС не се връщат и не могат да бъдат прегледани повторно). При повторна селекция вероятността да попадне в извадката за всяка единица от HS остава непроменена, а при неповторна селекция тя се променя (увеличава), но за тези, които остават в HS след като няколко единици са избрани от нея, вероятността на влизане в пробата е същото.

2. Механичниизбор: единиците от съвкупността се избират с постоянна стъпка N/A. Така че, ако съдържа обща съвкупност от 100 хиляди единици и се изисква да се изберат 1 хиляди единици, тогава всяка стотна единица ще попадне в извадката.

3. стратифицирани(стратифицирана) селекция се извършва от разнородна генерална популация, когато тя е предварително разделена на еднородни групи, след което подборът на единици от всяка група в извадковата съвкупност се извършва произволно или механично пропорционално на броя им в генералната съвкупност.

4. Сериен(вложен) избор: произволно или механично се избират не отделни единици, а определени серии (гнезда), в рамките на които се извършва непрекъснато наблюдение.

Средна извадкова грешка

След приключване на подбора на необходимия брой единици в извадката и регистриране на характеристиките на тези единици, предвидени в програмата за наблюдение, те преминават към изчисляване на обобщаващи показатели. Те включват средна стойностна изследваната характеристика и дела на единиците, които имат някаква стойност на тази характеристика. Въпреки това, ако HS прави няколко проби, докато определя техните обобщаващи характеристики, тогава може да се установи, че техните стойности ще бъдат различни, освен това те ще се различават от реалната им стойност в HS, ако това се определя чрез непрекъснато наблюдение . С други думи, обобщаващите характеристики, изчислени от извадковите данни, ще се различават от техните реални стойности в HS, затова въвеждаме следните символи (Таблица 8).

Таблица 8 Конвенции

Разликата между стойността на обобщаващите характеристики на извадката и генералната съвкупност се нарича грешка при вземане на проби,която се подразделя на грешка Регистрацияи грешка представителност. Първият възниква поради невярна или неточна информация поради неразбиране на същността на въпроса, невнимание на регистратора при попълване на въпросници, формуляри и др. Сравнително лесно се открива и коригира. Второто произтича от неспазване на принципа на случаен подбор на единици в извадката. Той е по-труден за откриване и елиминиране, той е много по-голям от първия и затова измерването му е основната задача на селективното наблюдение.

За измерване на грешката на извадката нейната средна грешка се определя по формула (39) за повторна селекцияи по формула (40) - за неповтаряне:

= ;(39) = . (40)

От формули (39) и (40) се вижда, че средната грешка е по-малка при неповтаряща се извадка, което обуславя по-широкото й приложение.

Концепцията и изчисляването на грешката на извадката.

Задачата на селективното наблюдение е да даде правилни представи за обобщените показатели на цялата съвкупност въз основа на част от тях, подложени на наблюдение. Нарича се възможното отклонение на извадковия дял и извадковата средна стойност от дела и средната стойност в генералната съвкупност грешка при вземане на проби или грешка в представителността. Колкото по-голяма е стойността на тази грешка, толкова повече показателите на извадковото наблюдение се различават от тези на генералната съвкупност.

Различават:

Грешки при вземане на проби;

Грешки при регистрацията.

Грешки при регистрациятавъзникват, когато даден факт е неправилно установен в процеса на наблюдение. Те са характерни както за непрекъснатото наблюдение, така и за избирателното наблюдение, но са по-малко при избирателното наблюдение.

Естеството на грешката е:

Тенденциозно – преднамерено, т.е. бяха избрани или най-добрите, или най-лошите единици от популацията. В този случай наблюденията губят смисъл;

Случаен - основният организационен принцип на селективното наблюдение е да се предотврати преднамерен подбор, т.е. гарантира стриктно спазване на принципа на случаен подбор.

Общо правилослучаен изборе: отделните единици от генералната съвкупност трябва да имат абсолютно еднакви условия и възможности да попаднат в броя на единиците, включени в извадката. Това характеризира независимостта на резултата от пробата от волята на наблюдателя. Волята на наблюдателя поражда тенденциозни грешки. Грешката на извадката при произволен избор е случаен характер. Той характеризира големината на отклоненията на общите характеристики от извадковите.

Поради факта, че характеристиките в изследваната съвкупност варират, съставът на единиците в извадката може да не съвпада със състава на единиците на цялата съвкупност. Означава, че Ри не съвпадат с Уи . Възможното несъответствие между тези характеристики се определя от грешката на извадката, която се определя по формулата:

където - обща дисперсия.

където е дисперсията на извадката.

Това показва откъде се различава общата дисперсия дисперсия на извадкатана време.

Има повторна и неповтаряща се селекция. Същността на повторната селекция е, че всяка единица в извадката след наблюдение се връща в генералната съвкупност и може да бъде повторно изследвана. При повторна проба се изчислява средната грешка на извадката:

За показателя за дела на алтернативен признак дисперсията на извадката се определя по формулата:

На практика преизборът се използва рядко. При неповтаряща се селекция, размерът на генералната съвкупност ннамалява по време на вземането на проби, формулата средна грешкамостри за количествен признакизглежда като:

, тогава

Една от възможните стойности, в които може да бъде делът на изследваната черта, е равна на:

където е грешката на извадката на алтернативната характеристика.

Пример.

По време на извадково изследване на 10% от продуктите на партида готови продукти по метода без повторна селекция са получени следните данни за съдържанието на влага в пробите.

Определете средна влажност %, дисперсия, средна стойност стандартно отклонение, с вероятност от 0,954 възможни граници, в който очакваме вж. % влажност на всички готови продукти, с вероятност от 0,987 възможни граници специфично теглостандартни продукти, при условие че нестандартната партида включва продукти с влажност до 13 и над 19%.

Само с известна вероятност може да се твърди, че общият дял на дела на извадката и общата средна стойност на средната стойност на извадката се отклоняват в Tведнъж.

В статистиката тези отклонения се наричат пределни грешки на извадката и са маркирани.

Вероятността от присъди може да бъде увеличена или намалена Tведнъж. С вероятност 0,683, с 0,954, с 0,987, тогава показателите на генералната съвкупност се определят от показателите на извадката.

Средната извадкова грешка показва колко средно параметърът на извадката се отклонява от съответния параметър на генералната съвкупност. Ако изчислим средната стойност на грешките на всички възможни проби определен виддаден обем ( н), извлечени от същата генерална съвкупност, тогава получаваме тяхната обобщаваща характеристика - средна извадкова грешка ().

В теорията на избирателното наблюдение формулите за определяне , които са индивидуални за различни начиниселекция (повторна и неповторна), видове използвани извадки и видове оценени статистически показатели.

Например, ако се използва повторна произволна извадка, тогава тя се определя като:

При оценка на средната стойност на признак;

Ако знакът е алтернативен, и делът е оценен.

В случай на неповтарящ се случаен избор, формулите се променят (1 - n/N):

- за средната стойност на признака;

- за дял.

Вероятността да се получи точно такава стойност на грешка винаги е равна на 0,683. На практика е за предпочитане да се получават данни с по-висока вероятност, но това води до увеличаване на размера на извадковата грешка.

пределна грешкавземане на проби () е равно на t, умножено по броя на средните грешки при вземане на проби (в теорията на вземането на проби е обичайно коефициентът t да се нарича коефициент на доверие):

Ако грешката на извадката се удвои (t = 2), тогава получаваме много по-голяма вероятност тя да не надхвърли определена граница (в нашия случай удвояване на средната грешка) - 0,954. Ако вземем t \u003d 3, тогава нивото на доверие ще бъде 0,997 - практически сигурност.

Нивото на пределната извадкова грешка зависи от следните фактори:

степента на вариация на единиците от генералната съвкупност;
размер на извадката;
избрани схеми за избор (неповтарящият се избор дава по-малка стойност на грешката);
ниво на увереност.

Ако размерът на извадката е по-голям от 30, тогава стойността на t се определя от таблицата нормална дистрибуция, ако е по-малко - по таблицата за разпределение на ученика.

Ето някои стойности на коефициента на доверие от таблицата за нормално разпределение.

Доверителният интервал за средната стойност на атрибута и за съотношението в общата съвкупност се задава, както следва:

И така, определянето на границите на общата авария и дял се състои от следните стъпки:

Грешки при вземане на проби при различни видовеселекция

Всъщност произволно и механично вземане на проби. Средната грешка на действителното произволно и механично вземане на проби се намират с помощта на формулите, представени в табл. 11.3.

Пример 11.2. За изследване на нивото на възвръщаемост на активите е проведено извадково проучване на 90 предприятия от 225 по метода на случайната повторна извадка, в резултат на което са получени данните, представени в таблицата.

В този пример имаме 40% извадка (90: 225 = 0,4 или 40%). Нека определим неговата пределна грешка и границите за средната стойност на признака в генералната съвкупност по стъпките на алгоритъма:

Въз основа на резултатите от извадковото проучване ние изчисляваме средната стойност и дисперсията в извадковата популация:

Таблица 11.5.

Резултати от наблюдение			Прогнозни стойности
възвращаемост на активите, rub., x i	брой предприятия, f i	средата на интервала, x i \xb4	x i \xb4 f i	x i \xb4 2 f i
До 1.4	13	1,3	16,9	21,97
1,4-1,6	15	1,5	22,5	33,75
1,6-1,8	17	1,7	28,9	49,13
1,8-2,0	15	1,9	28,5	54,15
2,0-2,2	16	2,1	33,6	70,56
2.2 и по-горе	14	2,3	32,2	74,06
Обща сума	90	-	162,6	303,62

Примерна средна стойност

Примерна вариация на изследваната характеристика

За нашите данни ние определяме пределната грешка на извадката, например, с вероятност от 0,954. Според таблицата на вероятностните стойности на функцията на нормалното разпределение (вижте извлечение от нея, дадено в Приложение 1), намираме стойността на коефициента на доверие t, съответстващ на вероятността от 0,954. С вероятност от 0,954, коефициентът t е 2.

Така в 954 случая от 1000 средната възвръщаемост на активите няма да надвишава 1,88 рубли. и не по-малко от 1,74 рубли.

По-горе беше използвана схема за повторен произволен избор. Нека да видим дали резултатите от проучването се променят, ако приемем, че подборът е извършен по схемата за безповтарящ се подбор. В този случай средната грешка се изчислява по формулата

Тогава, с вероятност равна на 0,954, пределната извадкова грешка ще бъде:

Доверителните граници за средната стойност на характеристиката в случай на неповтарящ се случаен избор ще имат следните стойности:

Сравнявайки резултатите от двете схеми за подбор, можем да заключим, че използването на неповтаряща се случайна извадка дава повече точни резултатив сравнение с прилагането на повторна селекция при същото ниво на достоверност. В същото време, колкото по-голям е размерът на извадката, толкова по-значително се стесняват границите на средните стойности при преминаване от една схема за подбор към друга.

Според примера определяме границите на дела на предприятията с възвръщаемост на активите, която не надвишава стойността от 2,0 рубли в общата съвкупност:

Нека изчислим честотата на извадката.

Броят на предприятията в извадката с възвръщаемост на активите не повече от 2,0 рубли е 60 единици. Тогава

m = 60, n = 90, w = m/n = 60: 90 = 0,667;

изчислете дисперсията на дела в извадката

средна грешка при вземане на проби при използване повторна схемаселекция ще бъде

Ако приемем, че е използвана схема за неповтаряща се селекция, тогава средната грешка на извадката, като се вземе предвид корекцията за крайност на популацията, ще бъде

задаваме доверителната вероятност и определяме пределната извадкова грешка.

При стойност на вероятността P = 0,997, съгласно таблицата за нормално разпределение, получаваме стойността на коефициента на доверие t = 3 (вижте извлечение от него, дадено в Приложение 1):

По този начин, с вероятност от 0,997, може да се твърди, че в общата съвкупност делът на предприятията с възвръщаемост на активите не надвишава 2,0 рубли е не по-малко от 54,7% и не повече от 78,7%.

Типична проба. След това с типична извадка генералната съвкупност от обекти се разделя на k групи

N 1 + N 2 + ... + N i + ... + N k = N.

Обемът на единиците, извлечени от всяка типична група, зависи от възприетия метод на подбор; тях обща сумаформира необходимия размер на извадката

n 1 + n 2 + … + n i + … + n k = n.

Има два начина за организиране на селекцията в типична група: пропорционално на обема на типичните групи и пропорционално на степента на колебание на стойностите на атрибута в единици за наблюдение в групи. Помислете за първия от тях като най-често използван.

Изборът, пропорционален на размера на типичните групи, предполага, че във всяка от тях ще бъде избран следващото числопопулационни единици:

n = n i N i /N

където n i е броят на екстрахируемите единици за проба от i-та типична група;

n е общият размер на извадката;

N i - броят на единиците от генералната съвкупност, съставляващи i-та типична група;

N е общият брой единици в генералната съвкупност.

Изборът на единици в рамките на групи се извършва под формата на произволна или механична извадка.

Формулите за оценка на средната извадкова грешка за средната и дела са представени в табл. 11.6.

Ето средната стойност на групови отклонениятипични групи.

Пример 11.3. В един от московските университети беше проведено извадково проучване на студенти, за да се определи показателят за средна посещаемост на университетската библиотека от един студент на семестър. За това е използвана 5% неповторена типична извадка, чиито типични групи съответстват на номера на курса. При подбора, пропорционално на обема на типичните групи, бяха получени следните данни:

Таблица 11.7.

Номер на курса	Общо студенти, хора, N i	Изследвани в резултат на селективно наблюдение хора, n i	Среден брой посещения на библиотеката на студент за семестър, x i	Дисперсия на вътрешногруповата проба,
1	650	33	11	6
2	610	31	8	15
3	580	29	5	18
4	360	18	6	24
5	350	17	10	12
Обща сума	2 550	128	8	-

Броят на студентите, които ще бъдат изпитани във всеки курс, се изчислява, както следва:

подобни за други групи:

Разпределението на извадковите средни стойности винаги има нормален законразпределение (или се доближава до него) за n > 100, независимо от естеството на разпределението на популацията. Но в случай на малки извадки се прилага различен закон на разпределение - разпределението на Стюдънт. В този случай коефициентът на доверие се намира съгласно таблицата на t-разпределението на Стюдънт, в зависимост от стойността на доверителната вероятност P и размера на извадката п. Приложение 1 предоставя фрагмент от таблицата на t-разпределението на Стюдънт, представена като зависимост на доверителната вероятност за размера на извадката и коефициента на доверителност t.

Пример 11.4. Да предположим, че извадково проучване на осем студенти от академията показа, че в подготовка за контролна работаспоред статистиката те са прекарали следния брой часове: 8,5; 8,0; 7,8; 9,0; 7.2; 6.2; 8,4; 6.6.

Пример 11.5. Нека изчислим колко от 507 индустриални предприятияданъчната служба трябва да бъде проверена за определяне на дела на предприятията с данъчни нарушения с вероятност 0,997. Според предишното подобно изследване стойността на стандартното отклонение е 0,15; размерът на извадковата грешка се очаква да бъде не по-висок от 0,05.

Когато използвате повторен произволен избор, проверете

При неповтарящ се случаен избор ще е необходима проверка

Както можете да видите, използването на неповтаряща се извадка ви позволява да провеждате много проучвания по-малкообекти.

Пример 11.6. Предвидено е проучване заплатив предприятията от индустрията по метода на случаен неповтарящ се подбор. Какъв трябва да бъде размерът на извадката, ако към момента на изследването заетите в индустрията са 100 000 души? Граничната грешка на извадката не трябва да надвишава 100 рубли. с вероятност 0,954. Въз основа на резултатите от предишни проучвания на заплатите в индустрията е известно, че стандартното отклонение е 500 рубли.

Следователно, за да се реши проблемът, е необходимо в извадката да бъдат включени поне 100 души.

Относителни грешки на извадката. Примерни формули за средна грешка

Определяне на необходимия обем повторни и неповторни проби при оценка на общата авария и пропорция.

Статистическа хипотеза и статистически тест. Грешки от 1-ви и 2-ри вид. Ниво на значимост и сила на теста. Принципът на практическата сигурност.