Как да изчислим грешката на средната стойност на извадката. Средно повторно вземане на проби и грешки при неповторен опит

То представлява такова несъответствие между средните стойности на извадката и генералната съвкупност, което не превишава ± b (делта).

Въз основа Теореми на П. Л. Чебишев средна стойност на грешкатапри произволен повторен избор се изчислява по формулата (за ср количествен признак):

където числителят е дисперсията на характеристиката x в извадката;
n е размерът на извадката.

За алтернативен признак, формулата за средната извадкова грешка за пропорцията според теоремата на Й. Бернулиизчислено по формулата:

където p(1 - p) е дисперсията на дела на характеристиката в население;
n - размер на извадката.

Поради факта, че дисперсията на признака в генералната съвкупност не е точно известна, на практика се използва стойността на дисперсията, която се изчислява за извадката от съвкупността въз основа на закон големи числа . Според този закон рамка за вземане на пробис голям размер на извадката, той точно възпроизвежда характеристиките на генералната съвкупност.

Ето защо формули за изчисление средна грешка при случайно повторно вземане на проби ще изглежда така:

1. За среден количествен признак:

където S^2 е дисперсията на характеристиката x в извадката;
n - размер на извадката.

където w (1 - w) е дисперсията на съотношението на изследваната характеристика в извадката от популацията.

В теорията на вероятностите беше показано, че тя се изразява чрез извадката по формулата:

В случаите малка извадка, когато обемът му е по-малък от 30, е необходимо да се вземе предвид коефициентът n/(n-1). Тогава средната грешка на малка извадка се изчислява по формулата:

Тъй като броят на единиците от генералната съвкупност се намалява в процеса на неповтарящо се вземане на проби, в горните формули за изчисляване на средните грешки на извадката, коренният израз трябва да се умножи по 1- (n / N).

Формулите за изчисление за този тип проба ще изглеждат така:

1. За средния количествен признак:

където N е обемът на генералната съвкупност; n - размер на извадката.

2. За споделяне (алтернативна функция):

където 1- (n/N) е делът на единиците в общата съвкупност, които не са включени в извадката.

Тъй като n винаги е по-малко от N, допълнителният фактор 1 - (n/N) винаги ще бъде по-малък от едно. Означава, че средна грешкас неповтаряща се селекция винаги ще бъде по-малко, отколкото с повторна селекция. Когато делът на единиците от генералната съвкупност, които не са включени в извадката, е значителен, тогава стойността на 1 - (n / N) е близка до единица и тогава средната грешка се изчислява съгласно общата формула.

Средната грешка зависи от следните фактори:

1. Когато е изпълнен принципът на случаен подбор, средната грешка на извадката се определя, първо, от размера на извадката: повече сила, толкова по-малка е стойността средна извадкова грешка. Генералната съвкупност се характеризира по-точно, когато повече единици от тази съвкупност обхващат извадковото наблюдение

2. Средната грешка също зависи от степента на вариация на характеристиките. Степента на вариация се характеризира с. Колкото по-малка е вариацията на характеристиките (дисперсия), толкова по-малка е средната грешка на извадката. При нулева вариация (атрибутът не се променя), средната грешка на извадката е нула, така че всяка единица от генералната съвкупност ще характеризира цялата съвкупност според този атрибут.

При селективно наблюдениетрябва да се предоставят злополукаизбор на единица. Всяка единица трябва да има равни възможности да бъде избрана с останалите. На това се основава произволната извадка.

Да се подходяща произволна извадка се отнася до подбора на единици от цялата генерална съвкупност (без предварителното й разделяне на групи) чрез теглене на жребий (основно) или друг подобен метод, например с помощта на таблица произволни числа. Случаен изборТози избор не е случаен. Принципът на случайността предполага, че включването или изключването на обект от извадката не може да бъде повлияно от друг фактор освен случайността. Пример всъщност произволноселекцията може да служи като циркулация на печалбите: от общия брой издадени билети определена част от числата, които отчитат печалбите, се избират на случаен принцип. Освен това всички числа имат еднаква възможност да попаднат в извадката. В този случай броят на избраните единици в набора от извадки обикновено се определя въз основа на приетата част от извадката.

Примерен дял е съотношението на броя на единиците от извадката от съвкупността към броя на единиците от генералната съвкупност:

Така че, с 5% проба от партида части в 1000 единици. размер на извадката Пе 50 бр., а при 10% проба - 100 бр. и т.н. С дясната научна организацияизвадките за грешка на представителността могат да бъдат намалени до минимални стойности, в резултат на което селективното наблюдение става достатъчно точно.

Правилен произволен избор чиста формаТой рядко се използва в практиката на селективното наблюдение, но е начален сред всички останали видове селекция, съдържа и реализира основните принципи на селективното наблюдение.

Нека разгледаме някои въпроси от теорията на метода на вземане на проби и формулата за грешка за проста произволна извадка.

При прилагането на извадковия метод в статистиката обикновено се използват два основни вида обобщаващи показатели: средна стойностколичествен признаки относителна стойносталтернативна функция(сподели или специфично теглоединици в статистическата съвкупност, които се различават от всички други единици на тази съвкупност само по наличието на изследваната характеристика).

Примерен дял (w),или честота, се определя от съотношението на броя на единиците, които имат изследваната характеристика T,към общия брой на пробните единици П:

Например, ако от 100 примерни подробности ( н=100), 95 части се оказаха стандартни (T=95), след това фракцията на пробата

w=95/100=0,95 .

За характеризиране на надеждността на примерните показатели има средатаи пределна извадкова грешка.

Грешка при вземане на проби ? или, с други думи, грешката в представителността е разликата между съответната извадка и общите характеристики:

Грешката на извадката е характерна само за селективни наблюдения. как повече стойносттази грешка, толкова повече извадковите показатели се различават от съответните общи показатели.

Извадковата средна стойност и извадковият дял са присъщи случайни променливи, които могат да приемат различни стойности в зависимост от това кои единици от съвкупността са включени в извадката. Следователно грешките при вземане на проби също са случайни променливи и могат да се увеличават различни значения. Следователно, определете средната стойност на възможните грешки - средната грешка на извадката.

От какво зависи средна грешка при вземане на проби?При спазване на принципа на случаен подбор се определя основно средната грешка на извадката размер на извадката:толкова по-голям е броят с други равни условия, толкова по-малка е средната извадкова грешка. Покриване на всички проби голямо количествоединици от генералната съвкупност, все по-точно характеризират цялата съвкупност.

Средната извадкова грешка също зависи от степен на вариацияизучавана черта. Степента на вариация, както знаете, се характеризира с дисперсия? 2 или w(1-w)-- за алтернативна функция. Колкото по-малка е вариацията на характеристиката, а оттам и дисперсията, толкова по-малка е средната извадкова грешка и обратно. При нулева дисперсия (атрибутът не се променя), средната извадкова грешка е нула, т.е. всяка единица от генералната съвкупност ще характеризира точно цялата съвкупност според този атрибут.

Зависимостта на средната извадкова грешка от нейния обем и степента на вариация на атрибута се отразява във формулите, които могат да се използват за изчисляване на средната извадкова грешка при условия на извадково наблюдение, когато общите характеристики ( x,p)са неизвестни и следователно не е възможно да се намери истинската извадкова грешка директно от формулите (форм. 1), (форм. 2).

У С случаен избор средни грешкитеоретично изчислено по следните формули:

* за средния количествен признак

* за дял (алтернативна характеристика)

Тъй като на практика вариацията на атрибута в генералната съвкупност? 2 не е точно известна, на практика те използват стойността на дисперсията S 2, изчислена за извадковата популация на базата на закона за големите числа, според който извадковата популация с достатъчно голям размер на извадката точно възпроизвежда характеристиките на общо население.

По този начин, формули за изчисление средата грешки при вземане на проби произволното повторно вземане на проби ще бъде както следва:

* за средния количествен признак

* за дял (алтернативна характеристика)

Дисперсията на извадковата съвкупност обаче не е равна на дисперсията на генералната съвкупност и следователно средните извадкови грешки, изчислени по формулите (формуляр 5) и (формуляр 6), ще бъдат приблизителни. Но в теорията на вероятностите е доказано, че обща дисперсиясе изразява чрез избираемата чрез следната връзка:

защото П/(н-1) за достатъчно големи П --стойност, близка до единица, може да се приеме, че и следователно при практически изчисления на средните грешки на извадката могат да се използват формули (форм. 5) и (форм. 6). И само в случаите на малка извадка (когато размерът на извадката не надвишава 30) е необходимо да се вземе предвид коеф. П/(н-1) и изчислете средна грешка на малка извадкапо формулата:

W X С произволен неповтарящ се избор в горните формули за изчисляване на средните грешки при вземане на проби е необходимо коренният израз да се умножи по 1-(n / N), тъй като броят на единиците в генералната съвкупност се намалява в процеса на неповтарящо се вземане на проби. Следователно, за неповтаряща се селекция формули за изчисление средна извадкова грешка ще приеме следната форма:

* за средния количествен признак

* за дял (алтернативна характеристика)

. (форм. 10)

защото Пвинаги по-малко н, тогава допълнителният фактор 1-( n/N) винаги ще бъде по-малко от едно. От това следва, че средната грешка при неповтаряща се селекция винаги ще бъде по-малка, отколкото при повторна селекция. В същото време при относително малък процент от извадката този коефициент е близък до единица (например при 5% проба е 0,95; при 2% извадка е 0,98 и т.н.). Поради това понякога в практиката се използват формули (формуляри 5) и (формуляри 6) за определяне на средната извадкова грешка без посочения множител, въпреки че извадката е организирана като неповторна. Това се случва, когато броят на единиците от генералната съвкупност N е неизвестен или неограничен, или когато Пмного малко в сравнение с н, и по същество въвеждането на допълнителен фактор, близък по стойност до единица, практически няма да повлияе на стойността на средната извадкова грешка.

Механично вземане на проби се състои в това, че изборът на единици в извадката от генерала, разделен според неутралния критерий на равни интервали(групи) се прави по такъв начин, че от всяка такава група в извадката се избира само една единица. За да се избегне систематична грешка, трябва да се избере единицата, която е в средата на всяка група.

Когато се организира механичен подбор, единиците от съвкупността са предварително подредени (обикновено в списък) в определен ред (например по азбучен ред, по местоположение, във възходящ или низходящ ред на стойностите на всеки индикатор, който не е свързан с изследваното имущество и др.) и т.н.), след което механично, през определен интервал, се избира даден брой единици. В този случай размерът на интервала в генералната съвкупност е равен на обратна стойностпримерни акции. Така че, с 2% проба, всяка 50-та единица (1: 0,02) се избира и проверява, с 5% проба, всяка 20-та единица (1: 0,05), например, низходящ детайл от машината.

Когато достатъчно голямо населениемеханичният подбор по отношение на точността на резултатите е близък до правилния случаен. Следователно, за да се определи средната грешка на механична проба, се използват формулите за самослучайно неповтарящо се вземане на проби (форм. 9), (форм. 10).

За подбор на единици от разнородна съвкупност, т.нар типична проба , който се използва в случаите, когато всички единици от генералната съвкупност могат да бъдат разделени на няколко качествено хомогенни, сходни групи според характеристиките, които влияят върху изследваните показатели.

При изследването на предприятията такива групи могат да бъдат например отрасъл и подотрасъл, форми на собственост. След това от всяка типична група се прави индивидуален подбор на единици в извадката чрез произволна или механична извадка.

Типична извадка обикновено се използва при изследване на сложни статистически съвкупности. Например, при извадково изследване на семейните бюджети на работниците и служителите в определени сектори на икономиката, производителността на труда на работниците в предприятие, представена от отделни групипо квалификация.

Типичната проба дава повече точни резултатив сравнение с други методи за подбор на единици в извадката. Типизацията на генералната съвкупност осигурява представителността на такава извадка, представянето на всяка типологична група в нея, което позволява да се изключи влиянието на междугруповата дисперсия върху средната грешка на извадката.

При определяне средна грешка на типична пробакато индикатор за вариация е средата навън навътре групови отклонения.

Средната грешка на извадката се намират по формулите:

* за средния количествен признак

(преизбор); (форм. 11)

(необратима селекция); (форм. 12)

* за дял (алтернативна характеристика)

(преизбор); (форм.13)

(неповтаряща се селекция), (форм. 14)

където е средната стойност на вътрешногруповите дисперсии за извадката от съвкупността;

Средната стойност на вътрешногруповите дисперсии на дела (алтернативен признак) в извадката от съвкупността.

серийно вземане на проби включва случаен подбор от общата съвкупност не на отделни единици, а на техните равни групи (гнезда, серии), за да бъдат подложени на наблюдение всички единици без изключение в такива групи.

Приложение серийно вземане на пробипоради факта, че много стоки за тяхното транспортиране, съхранение и продажба са опаковани в пакети, кашони и др. Следователно, когато контролирате качеството на опакованите стоки, е по-рационално да проверите няколко пакета (серии), отколкото да изберете от всички пакети необходимо количествостоки.

Тъй като в рамките на групи (серии) се изследват всички единици без изключение, средната грешка на извадката (при избиране на равни серии) зависи само от междугруповата (междусерийната) дисперсия.

У Средната извадкова грешка за средния резултат по време на сериен избор те се намират по формулите:

(преизбор); (форм.15)

(неповтаряща се селекция), (форм. 16)

където р-брой избрани серии; Р-общ бройсерия.

Междугруповата дисперсия на серийната проба се изчислява, както следва:

къде е средното аз- та серия; - общата средна стойност за цялата извадка.

У Средна извадкова грешка за дял (алтернативна функция) в сериен избор:

(преизбор); (форм. 17)

(неповтаряща се селекция). (форм. 18)

Интергрупа(между серии) дисперсия на дела на серийната пробаопределя се по формулата:

, (форм. 19)

къде е делът на функцията в азта серия; - общият дял на признака в цялата извадка.

В практиката на статистическите изследвания, в допълнение към разгледаните по-горе методи за подбор, се използва тяхната комбинация (комбинирана селекция).

Както вече знаем, представителността е свойството на извадкова съвкупност да представя характеристика на генералната съвкупност. Ако няма съвпадение, те говорят за грешка на представителността - мярката за отклонение на статистическата структура на извадката от структурата на съответната генерална съвкупност. Да предположим, че средният месечен семеен доход на пенсионерите в общото население е 2 хиляди рубли, а в извадката - 6 хиляди рубли. Това означава, че социологът е интервюирал само заможната част от пенсионерите и в изследването му се е прокраднала грешка в представителността. С други думи, грешката в представителността е несъответствието между две множества - общото, към което е насочен теоретичният интерес на социолога и представата за свойствата, които той иска да получи в крайна сметка, и селективното , към който е насочен практическият интерес на социолога, който действа едновременно като обект на изследване и средство за получаване на информация за общата съвкупност.

Заедно с термина "грешка в представителността" в местната литература можете да намерите друга - "грешка на извадката". Понякога те се използват взаимозаменяемо, а понякога „грешка на извадката“ се използва вместо „грешка в представителността“ като количествено по-точна концепция.

Грешка на извадката е отклонението на средните характеристики на извадката от съвкупността от средните характеристики на генералната съвкупност.

На практика грешката на извадката се определя чрез сравняване на известните характеристики на съвкупността с извадковите средни стойности. В социологията проучванията на възрастното население най-често използват данни от преброявания на населението, текущи статистически записи и резултати от предишни проучвания. Социално-демографските характеристики обикновено се използват като контролни параметри. Сравнението на средните стойности на генералната и извадковата популации, въз основа на което определянето на грешката на извадката и нейното намаляване се нарича контрол на представителността. Тъй като в края на изследването може да се направи сравнение на собствените и чуждите данни, този метод на контрол се нарича апостериори, т.е. извършва се след опит.

В социологическите проучвания на Gallup представителността се контролира от наличните данни в националните преброявания относно разпределението на населението по пол, възраст, образование, доход, професия, раса, място на пребиваване, размер местност. Всеруски изследователски център обществено мнение(VTsIOM) използва за такива цели такива показатели като пол, възраст, образование, тип населено място, семейно положение, сфера на заетост, официален статус на респондента, които са заимствани от Държавния комитет по статистика на Руската федерация. И в двата случая населението е известно. Грешката на извадката не може да бъде установена, ако стойностите на променливата в извадката и популацията са неизвестни.

По време на анализа на данните специалистите на VTsIOM осигуряват цялостен ремонт на пробата, за да се сведат до минимум отклоненията, възникнали по време на работа на терен. Особено силни размествания се наблюдават по пол и възраст. Това се обяснява с факта, че жените и хората с висше образованиепрекарвайте повече време у дома и по-лесно установявайте контакт с интервюиращия; са леснодостъпна група в сравнение с мъжете и хората, които са „необразовани”35.

Грешката на извадката се дължи на два фактора: метода на извадката и размера на извадката.

Извадковите грешки се делят на два вида - случайни и систематични. Случайната грешка е вероятността, че средната стойност на извадката ще (или няма) да надхвърли определен интервал. Случайните грешки включват статистически грешки, присъщи на самия метод на извадка. Те намаляват с увеличаване на размера на извадката.

Вторият вид извадкова грешка е систематичната грешка. Ако социолог реши да разбере мнението на всички жители на града за продължаващото местни властиавторитети в социалната политика и са интервюирани само тези, които имат телефон, то има умишлено пристрастие в извадката в полза на богатите слоеве, т.е. систематична грешка.

Така систематичните грешки са резултат от дейността на самия изследовател. Те са най-опасните, защото водят до доста значителни отклонения в резултатите от изследването. Систематичните грешки се считат за по-лоши от случайните и защото не могат да бъдат контролирани и измерени.

Те възникват, когато например: 1) извадката не отговаря на целите на изследването (социологът решава да изследва само работещите пенсионери, но интервюира всички подред); 2) има непознаване на природата на общото население (социологът смяташе, че 70% от всички пенсионери не работят, но се оказа, че само 10% не работят); 3) избрани са само „печеливши“ елементи от общото население (например само богати пенсионери).

внимание! За разлика от случайните грешки, систематичните грешки не намаляват с увеличаване на размера на извадката.

Обобщавайки всички случаи на системни грешки, методистите изготвиха регистър за тях. Те вярват, че източникът на неконтролирани отклонения в разпределението на примерните наблюдения може да бъде следните фактори:
♦ методически и методически правила за провеждане социологически изследвания;
♦ избрани са неадекватни методи за вземане на проби, събиране на данни и методи за изчисляване;
♦ извършена е замяна на необходимите единици за наблюдение с други, по-достъпни;
♦ Беше отбелязано непълно покритие на извадковата популация (липса на въпросници, непълно попълване на въпросници, недостъпност на единиците за наблюдение).

Социолозите рядко правят умишлени грешки. Най-често грешките възникват, защото социологът не е добре запознат със структурата на общата съвкупност: разпределението на хората по възраст, професия, доход и т.н.

Систематичните грешки са по-лесни за предотвратяване (в сравнение със случайните), но са много трудни за отстраняване. Най-добре е да се предотвратят системните грешки, като се предвидят точно техните източници предварително – още в самото начало на изследването.

Ето няколко начина за избягване на грешки при извадката:
♦ всяка единица от генералната съвкупност трябва да има еднаква вероятност да бъде включена в извадката;
♦ желателно е да се подбират от хомогенни популации;
♦ необходимост от познаване на характеристиките на общата популация;
♦ Случайните и систематичните грешки трябва да се вземат предвид при съставянето на извадката.

Ако извадката (или само извадката) е съставена правилно, тогава социологът получава надеждни резултати, които характеризират цялото население. Ако е съставен неправилно, тогава грешката, възникнала на етапа на извадката, се умножава на всеки следващ етап от социологическото изследване и в крайна сметка достига стойност, която надвишава стойността на изследването. Говори се, че подобни изследвания носят повече вреда, отколкото полза.

Такива грешки могат да възникнат само с извадкова популация. За да избегнете или намалите вероятността от грешка, най-лесният начин е да увеличите размера на извадката (в идеалния случай до размера на популацията: когато и двете популации съвпадат, грешката на извадката ще изчезне напълно). Икономически този метод е невъзможен. Има и друг начин - да се подобри математически методивземане на проби. Те се прилагат в практиката. Това е първият канал за проникване в социологията на математиката. Втори канал - математическа обработкаданни.

Особено важен въпросгрешки стават при маркетингови проучвания, където се използват не много големи извадки. Обикновено те съставляват няколкостотин, по-рядко - хиляда респонденти. Тук началната точка за изчисляване на извадката е въпросът за определяне на размера на извадката. Размерът на извадката зависи от два фактора: 1) разходите за събиране на информация и 2) стремежа към определена степен статистическа валиднострезултати, които изследователят се надява да получи. Разбира се, дори хора, които нямат опит в статистиката и социологията, интуитивно разбират, че колкото по-голям е размерът на извадката, т.е. колкото по-близки са те до размера на генералната съвкупност като цяло, толкова по-достоверни и надеждни са получените данни. Въпреки това, ние вече говорихме по-горе за практическата невъзможност за пълни проучвания в случаите, когато те се извършват на обекти, чийто брой надхвърля десетки, стотици хиляди и дори милиони. Ясно е, че разходите за събиране на информация (включително заплащане за репликация на инструменти, труд на въпросници, полеви мениджъри и компютърни оператори) зависят от сумата, която клиентът е готов да отдели, и зависят малко от изследователите. Що се отнася до втория фактор, на него ще се спрем малко по-подробно.

Така че колкото по-голям е размерът на извадката, толкова по-малка е възможната грешка. Въпреки че трябва да се отбележи, че ако искате да удвоите точността, ще трябва да увеличите пробата не два, а четири пъти. Например да направи два пъти повече точна оценкаданни, получени чрез интервюиране на 400 души, трябва да интервюирате не 800, а 1600 души. Малко вероятно е обаче маркетинговото проучване да се нуждае от 100% точност. Ако пивоварът трябва да разбере каква част от потребителите на бира предпочитат неговата марка, а не сорта на неговия конкурент - 60% или 40%, тогава разликата между 57%, 60 или 63% няма да повлияе на плановете му.

Грешката на извадката може да зависи не само от нейния размер, но и от степента на разликите между отделните единици в генералната съвкупност, която изучаваме. Например, ако искаме да знаем колко бира се консумира, тогава откриваме, че сред нашето население нивата на потребление за различни хорасе различават значително (хетерогенна обща популация). В друг случай ще изследваме консумацията на хляб и ще установим това различни хоратя се различава много по-малко значително (хомогенна популация). Колкото по-голяма е разликата (или хетерогенността) в популацията, толкова по-голям е размерът на възможната грешка при вземане на проби. Тази закономерност само потвърждава това, което простото здрав разум. Така, както правилно отбелязва В. Ядов, „размерът (обемът) на извадката зависи от нивото на хомогенност или разнородност на изследваните обекти. Колкото по-хомогенни са те, толкова по-малък брой може да осигури статистически надеждни заключения.

Определянето на размера на извадката също зависи от нивото доверителен интервалдопустима статистическа грешка. Тук имаме предвид така наречените случайни грешки, които са свързани с естеството на всяка статистическа грешка. В И. Паниото дава следните изчисления представителна извадкас допускане на грешка от 5%:
Това означава, че ако вие, интервюирайки, да речем, 400 души в областен град, където пълнолетното платежоспособно население е 100 хил. души, установите, че 33% от анкетираните купувачи предпочитат продуктите на местен месопреработвателен завод, то с 95 % вероятност можете да кажете, че 33+5% (т.е. от 28 до 38%) от жителите на този град са редовни купувачи на тези продукти.

Можете също да използвате изчисленията на Gallup, за да оцените съотношението между размерите на извадката и грешката на извадката.

Средната извадкова грешка показва колко средно параметърът на извадката се отклонява от съответния параметър на генералната съвкупност. Ако изчислим средната стойност на грешките на всички възможни проби определен виддаден обем ( н), извлечени от същата генерална съвкупност, тогава получаваме тяхната обобщаваща характеристика - средна извадкова грешка ().

В теорията на избирателното наблюдение формулите за определяне , които са индивидуални за различни начиниселекция (повторна и неповторна), видове използвани извадки и видове оценени статистически показатели.

Например, ако се използва повторна произволна извадка, тогава тя се определя като:

При оценка на средната стойност на признак;

Ако знакът е алтернативен, и делът е оценен.

В случай на неповтарящ се случаен избор, формулите се променят (1 - n/N):

- за средната стойност на признака;

- за дял.

Вероятността да се получи точно такава стойност на грешка винаги е равна на 0,683. На практика е за предпочитане да се получават данни с по-висока вероятност, но това води до увеличаване на размера на извадковата грешка.

Пределната извадкова грешка () е равна на t пъти броя на средните извадкови грешки (в теорията на извадката е обичайно коефициентът t да се нарича коефициент на доверие):

Ако грешката на извадката се удвои (t = 2), тогава получаваме много по-голяма вероятност тя да не надхвърли определена граница (в нашия случай удвояване на средната грешка) - 0,954. Ако вземем t \u003d 3, тогава нивото на доверие ще бъде 0,997 - практически сигурност.

Нивото на пределната извадкова грешка зависи от следните фактори:

степента на вариация на единиците от генералната съвкупност;
размер на извадката;
избрани схеми за избор (неповтарящият се избор дава по-малка стойност на грешката);
ниво на увереност.

Ако размерът на извадката е повече от 30, тогава стойността на t се определя от таблицата за нормално разпределение, ако е по-малка - от таблицата за разпределение на Стюдънт.

Ето някои стойности на коефициента на доверие от таблицата за нормално разпределение.

Доверителният интервал за средната стойност на атрибута и за съотношението в общата съвкупност се задава, както следва:

И така, определянето на границите на общата авария и дял се състои от следните стъпки:

Грешки при вземане на проби при различни видовеселекция

Всъщност произволно и механично вземане на проби. Средната грешка на действителното произволно и механично вземане на проби се намират с помощта на формулите, представени в табл. 11.3.

Пример 11.2. За да се изследва нивото на капиталовата производителност, беше проведено извадково проучване 90 предприятия от 225 чрез повторна случайна извадка, което доведе до данните, представени в таблицата.

В този пример имаме 40% извадка (90: 225 = 0,4 или 40%). Нека определим неговата пределна грешка и границите за средната стойност на признака в генералната съвкупност по стъпките на алгоритъма:

Въз основа на резултатите от извадковото проучване ние изчисляваме средната стойност и дисперсията в извадковата популация:

Таблица 11.5.

Резултати от наблюдение			Прогнозни стойности
възвращаемост на активите, rub., x i	брой предприятия, f i	средата на интервала, x i \xb4	x i \xb4 f i	x i \xb4 2 f i
До 1.4	13	1,3	16,9	21,97
1,4-1,6	15	1,5	22,5	33,75
1,6-1,8	17	1,7	28,9	49,13
1,8-2,0	15	1,9	28,5	54,15
2,0-2,2	16	2,1	33,6	70,56
2.2 и нагоре	14	2,3	32,2	74,06
Обща сума	90	-	162,6	303,62

Примерна средна стойност

Примерна вариация на изследваната характеристика

За нашите данни ние определяме пределната грешка на извадката, например, с вероятност от 0,954. Според таблицата на вероятностните стойности на функцията на нормалното разпределение (вижте извлечение от нея, дадено в Приложение 1), намираме стойността на коефициента на доверие t, съответстващ на вероятността от 0,954. С вероятност от 0,954, коефициентът t е 2.

Така в 954 случая от 1000 средната възвръщаемост на активите няма да надвишава 1,88 рубли. и не по-малко от 1,74 рубли.

По-горе беше използвана схема за повторен произволен избор. Да видим дали резултатите от проучването се променят, ако приемем, че подборът е извършен по схемата повторна селекция. В този случай средната грешка се изчислява по формулата

Тогава, с вероятност равна на 0,954, пределната извадкова грешка ще бъде:

Доверителни граници за средната стойност на характеристиката в случай на неповтарящ се случаен избор ще има следните стойности:

Сравнявайки резултатите от двете схеми за подбор, можем да заключим, че използването на неповтаряща се случайна извадка дава по-точни резултати в сравнение с използването на повторна селекция със същото ниво на достоверност. В същото време, колкото по-голям е размерът на извадката, толкова по-значително се стесняват границите на средните стойности при преминаване от една схема за подбор към друга.

Според примера определяме границите на дела на предприятията с възвръщаемост на активите, която не надвишава стойността от 2,0 рубли в общата съвкупност:

Нека изчислим честотата на извадката.

Броят на предприятията в извадката с възвръщаемост на активите не повече от 2,0 рубли е 60 единици. Тогава

m = 60, n = 90, w = m/n = 60: 90 = 0,667;

изчислете дисперсията на дела в извадката

средна грешка при вземане на проби при използване повторна схемаселекция ще бъде

Ако приемем, че е използвана схема за неповтаряща се селекция, тогава средната грешка на извадката, като се вземе предвид корекцията за крайност на популацията, ще бъде

задаваме доверителната вероятност и определяме пределната извадкова грешка.

При стойност на вероятността P = 0,997, съгласно таблицата за нормално разпределение, получаваме стойността на коефициента на доверие t = 3 (вижте извлечение от него, дадено в Приложение 1):

По този начин, с вероятност от 0,997, може да се твърди, че в общата съвкупност делът на предприятията с възвръщаемост на активите не надвишава 2,0 рубли е не по-малко от 54,7% и не повече от 78,7%.

Типична проба. След това с типична извадка генералната съвкупност от обекти се разделя на k групи

N 1 + N 2 + ... + N i + ... + N k = N.

Обемът на единиците, извлечени от всяка типична група, зависи от възприетия метод на подбор; тях обща сумаформира необходимия размер на извадката

n 1 + n 2 + … + n i + … + n k = n.

Има два начина за организиране на селекцията в типична група: пропорционално на обема на типичните групи и пропорционално на степента на колебание на стойностите на атрибута в единици за наблюдение в групи. Помислете за първия от тях като най-често използван.

Изборът, пропорционален на размера на типичните групи, предполага, че във всяка от тях ще бъде избран следващото числопопулационни единици:

n = n i N i /N

където n i е броят на екстрахируемите единици за проба от i-та типична група;

n е общият размер на извадката;

N i - броят на единиците от генералната съвкупност, съставляващи i-та типична група;

N е общият брой единици в генералната съвкупност.

Изборът на единици в рамките на групи се извършва под формата на произволна или механична извадка.

Формулите за оценка на средната извадкова грешка за средната и дела са представени в табл. 11.6.

Тук е средната стойност на груповите дисперсии на типичните групи.

Пример 11.3. В един от московските университети беше проведено извадково проучване на студенти, за да се определи показателят за средна посещаемост на университетската библиотека от един студент на семестър. За това е използвана 5% неповторена типична извадка, чиито типични групи съответстват на номера на курса. При подбора, пропорционално на обема на типичните групи, бяха получени следните данни:

Таблица 11.7.

Номер на курса	Общо студенти, хора, N i	Изследвани в резултат на селективно наблюдение хора, n i	Среден брой посещения на библиотеката на студент за семестър, x i	Дисперсия на вътрешногруповата проба,
1	650	33	11	6
2	610	31	8	15
3	580	29	5	18
4	360	18	6	24
5	350	17	10	12
Обща сума	2 550	128	8	-

Броят на студентите, които ще бъдат изпитани във всеки курс, се изчислява, както следва:

подобни за други групи:

Разпределението на извадковите средни стойности винаги има нормален законразпределение (или се доближава до него) за n > 100, независимо от естеството на разпределението на популацията. Но в случай на малки извадки се прилага различен закон на разпределение - разпределението на Стюдънт. В този случай коефициентът на доверие се намира съгласно таблицата на t-разпределението на Стюдънт, в зависимост от стойността на доверителната вероятност P и размера на извадката п. Приложение 1 предоставя фрагмент от таблицата на t-разпределението на Стюдънт, представена като зависимост на доверителната вероятност за размера на извадката и коефициента на доверителност t.

Пример 11.4. Да предположим, че извадково проучване на осем студенти от академията показа, че в подготовка за контролна работаспоред статистиката те са прекарали следния брой часове: 8,5; 8,0; 7,8; 9,0; 7.2; 6.2; 8,4; 6.6.

Пример 11.5. Нека изчислим колко от 507 индустриални предприятияданъчната служба трябва да бъде проверена за определяне на дела на предприятията с данъчни нарушения с вероятност 0,997. Според предишното подобно изследване стойността на стандартното отклонение е 0,15; размерът на извадковата грешка се очаква да бъде не по-висок от 0,05.

Когато използвате повторен произволен избор, проверете

При неповтарящ се случаен избор ще е необходима проверка

Както можете да видите, използването на неповтаряща се извадка ви позволява да провеждате много проучвания по-малкообекти.

Пример 11.6. Предвидено е проучване заплатив предприятията от индустрията по метода на случаен неповтарящ се подбор. Какъв трябва да бъде размерът на извадката, ако към момента на изследването заетите в индустрията са 100 000 души? Граничната грешка на извадката не трябва да надвишава 100 рубли. с вероятност 0,954. От предишни проучвания на заплатите в бранша се знае, че средната стандартно отклонениее 500 рубли.

Следователно, за да се реши проблемът, е необходимо в извадката да бъдат включени поне 100 души.

Средни и пределни извадкови грешки

Основното предимство на селективното наблюдение, наред с други, е способността за изчисляване случайна грешкапроби.

Грешките в извадката са систематични или случайни.

Систематичен- в случай, че е нарушен основният принцип на извадката - случайността. Случаен- обикновено възникват поради факта, че структурата на извадката винаги се различава от структурата на генералната съвкупност, независимо колко правилно е направен подборът, т.е. въпреки принципа на случаен подбор на единици от популацията, все още има несъответствия между характеристиките на извадката и генералната съвкупност. Изследването и измерването на случайни грешки на представителност е основната задача на извадковия метод.

По правило най-често се изчислява грешката на средната стойност и грешката на пропорцията. При изчисленията се използват следните конвенции:

Средна стойност, изчислена в общата съвкупност;

Средната стойност, изчислена в рамките на извадката;

Р- делът на тази група в общото население;

w- делът на тази група в извадката.

Използвайки конвенции, извадковите грешки за средната стойност и за пропорцията могат да бъдат записани, както следва:

Средната стойност на извадката и извадковият дял са случайни променливи, които могат да приемат всякакви стойности в зависимост от това кои единици от популацията са включени в извадката. Следователно грешките на извадката също са случайни променливи и могат да приемат различни стойности. Следователно се определя средната стойност възможни грешки μ .

За разлика от систематичната грешка, случайната грешка може да бъде определена предварително, преди вземане на проби, в съответствие с гранични теоремиразглеждани в математическата статистика.

Средната грешка се определя с вероятност 0,683. При различна вероятност се говори за пределна грешка.

Средната извадкова грешка за средната стойност и за частта се определя, както следва:

В тези формули дисперсията на признак е характеристика на генералната съвкупност, която е неизвестна по време на селективното наблюдение. На практика те се заменят с подобни характеристики на извадката от съвкупността въз основа на закона за големите числа, според който извадката от голям обем точно възпроизвежда характеристиките на генералната съвкупност.

Формули за определяне на средната грешка за различен начинселекция:

Метод на избор	Повтаря се	неповтарящ се
средна грешка	грешка при споделяне	средна грешка	грешка при споделяне
Самослучайни и механични
Типично
Сериен

μ - средна грешка;

∆ - пределна грешка;

П -размер на извадката;

Н-размера на генералната съвкупност;

Обща дисперсия;

т-дял на тази категория в обща силапроби:

Средно на вътрешногрупова дисперсия;

Δ 2 - междугрупова дисперсия;

р-брой серии в извадката;

Ре общият брой епизоди.

пределна грешказа всички методи за подбор е свързано със средната грешка на извадката, както следва:

където T- коефициент на доверие, функционално свързан с вероятността, с която се предоставя стойността на пределната грешка. В зависимост от вероятността коефициентът на доверие t приема следните стойности:

T	П
	0,683
1,5	0,866
2,0	0,954
2,5	0,988
3,0	0,997
4,0	0,9999

Например вероятността за грешка е 0,683. Това означава, че общата средна стойност се различава от средната стойност на извадката по отношение на абсолютна стойностне повече от сумата μ с вероятност от 0,683, тогава ако е средната стойност на извадката, тогава е общата средна стойност свероятност 0,683.

Ако искаме да осигурим по-висока вероятност за извод, ние по този начин увеличаваме границите на случайната грешка.

По този начин стойността на пределната грешка зависи от следните величини:

Флуктуацията на знака (директна връзка), която се характеризира с големината на дисперсията;

Примерни размери ( Обратна връзка);

Вероятност за доверие(директна връзка);

метод на подбор.

Пример за изчисляване на грешката на средната стойност и грешката на дела.

За да се определи средният брой деца в едно семейство, 100 семейства бяха избрани от 1000 семейства чрез случайна неповтаряща се извадка.Резултатите са показани в таблицата:

Определете:.

- с вероятност 0,997 пределната извадкова грешка и границите, в които се намира средният брой деца в едно семейство;

- с вероятност 0,954, границите, в които се намира делът на семействата с две деца.

1. Определете пределната грешка на средната стойност с вероятност 0,977. За да опростим изчисленията, използваме метода на моментите:

стр = 0,997 T= 3

средна грешка на средната стойност, 0,116 - пределна грешка

2,12 – 0,116 ≤ ≤ 2,12+ 0,116

2,004 ≤ ≤ 2,236

Следователно, с вероятност от 0,997, средният брой деца в едно семейство в общата съвкупност, тоест сред 1000 семейства, е в диапазона 2,004 - 2,236.