За да изчислите пределната грешка на извадката, трябва да коригирате. Формула за доверие при оценка на общата средна стойност

Грешка при вземане на проби- това е обективно възникнало несъответствие между характеристиките на извадката и генералната съвкупност. Зависи от редица фактори: степента на вариация на изследваната характеристика, размера на извадката, метода на подбор на единици в извадката, приетото ниво на надеждност на резултата от изследването.

За представителността на извадката е важно да се гарантира случайността на подбора, така че всички обекти в генералната съвкупност да имат еднаква вероятност да бъдат включени в извадката. За да се осигури представителност на извадката, се използват следните методи за подбор:

· правилен случаен(обикновена случайна) извадка (първият случаен обект се избира последователно);

· механичен(систематично) вземане на проби;

· типичен(стратифицирана, стратифицирана) извадка (обектите се избират пропорционално на представителството на различните видове обекти в генералната съвкупност);

· сериен(вложена) проба.

Изборът на единици в набора за вземане на проби може да се повтаря или да не се повтаря. При повторна селекциявзетата проба единица се подлага на изследване, т.е. регистрирайки стойностите на неговите характеристики, се връща в общата популация и заедно с други единици участва в по-нататъшната процедура за подбор. При без преизбираневключената в извадката единица подлежи на проверка и не участва в по-нататъшната процедура за подбор

Избирателното наблюдение винаги е свързано с грешка, тъй като броят на избраните единици не е равен на първоначалната (генерална) съвкупност. Случайните извадкови грешки се дължат на действието на случайни фактори, които не съдържат никакви елементи на последователност в посоката на въздействие върху изчислените характеристики на извадката. Дори при стриктно спазване на всички принципи за формиране на извадкова популация, извадката и общите характеристики ще се различават донякъде. Следователно произтичащите случайни грешки трябва да бъдат статистически оценени и взети предвид при разширяване на резултатите от извадковото наблюдение към цялата популация. Оценяването на такива грешки е основният проблем, решен в теорията на селективното наблюдение. Обратната задача е да се определи такъв минимално необходим брой извадкова съвкупност, при който грешката да не надвишава дадена стойност. Материалът на този раздел е насочен към развиване на умения за решаване на тези проблеми.

Самослучайно вземане на проби. Същността му се състои в подбора на единици от генералната съвкупност като цяло, без да се разделя на групи, подгрупи или поредица от отделни единици. В този случай единиците се избират в произволен ред, който не зависи нито от последователността на единиците в съвкупността, нито от стойностите на техните характеристики.

След подбор с помощта на един от алгоритмите, които прилагат принципа на случайността или въз основа на таблица със случайни числа, се определят границите на общите характеристики. За тази цел се изчисляват средната и пределната грешка на извадката.

Средна грешка при повторна произволна извадкасе определя по формулата

където σ е стандартното отклонение на изследваната характеристика;

n е обемът (броят единици) на извадката от съвкупността.

Пределна извадкова грешкасвързани с дадено ниво на вероятност. При решаване на задачите, представени по-долу, изискваната вероятност е 0,954 (t = 2) или 0,997 (t = 3). Като се вземе предвид избраното ниво на вероятност и стойността на t, съответстваща на него, пределната грешка на извадката ще бъде:

Тогава може да се твърди, че за дадена вероятност общата средна стойност ще бъде в следните граници:

При определяне на граници общ дялпри изчисляване на средната извадкова грешка се използва дисперсията на алтернативния атрибут, която се изчислява по следната формула:

където w е делът на извадката, т.е. делът на единиците, които имат определен вариант или варианти на изследваната черта.

При решаване на отделни проблеми трябва да се има предвид, че при неизвестна дисперсия на алтернативна характеристика можете да използвате максималната му възможна стойност, равна на 0,25.

Пример. В резултат на извадково проучване на безработното население, търсещо работа, проведено на осн самостоятелно произволно повторно вземане на пробиполучи данните, показани в табл. 1.14.

Таблица 1.14

Резултати от извадково изследване на безработното население

С вероятност от 0,954 определете границите:

а) средната възраст на безработното население;

б) дела (съотношението) на лицата под 25-годишна възраст в общия брой на безработните.

Решение.За да се определи средната грешка на извадката, е необходимо преди всичко да се определи средната извадка и дисперсията на изследваната характеристика. За да направите това, с ръчен метод на изчисление е препоръчително да изградите таблица 1.15.

Таблица 1.15

Изчисляване на средната възраст на безработното население и дисперсия

Въз основа на данните в таблицата се изчисляват необходимите показатели:

примерна средна стойност:

;

дисперсия:

стандартно отклонение:

Средната грешка на извадката ще бъде:

на годината.

Ние определяме с вероятност от 0,954 ( т= 2) пределна извадкова грешка:

на годината.

Задайте границите на общата авария: (41,2 - 1,6) (41,2 + 1,6) или:

Така на базата на проведеното извадково изследване с вероятност 0,954 можем да заключим, че средната възраст на безработното население, което търси работа, е в диапазона от 40 до 43 години.

За да отговорим на въпроса, зададен в параграф "b" от този пример, използвайки извадкови данни, ние определяме дела на хората под 25-годишна възраст и изчисляваме дисперсията на дела:

Изчислете средната грешка на извадката:

Пределната извадкова грешка с дадена вероятност е:

Нека да определим границите на общия дял:

Следователно с вероятност от 0,954 може да се твърди, че делът на лицата под 25-годишна възраст в общия брой на безработното население е в диапазона от 3,9 до 1,9%.

При изчисляване на средната грешка всъщност произволни неповтарящи севземане на проби, е необходимо да се вземе предвид корекцията за неповтаряне на селекцията:

където N е обемът (броят единици) на генералната съвкупност /

Изисквано количество самослучайно повторно вземане на пробисе определя по формулата:

Ако изборът не се повтаря, тогава формулата приема следната форма:

Резултатът, получен с помощта на тези формули, винаги се закръгля до най-близкото цяло число.

Пример.Необходимо е да се определи колко ученици в първите класове на училищата в областта трябва да бъдат избрани по реда на произволна неповторна извадка, за да се определят границите на средния ръст на първокласниците с пределна грешка от 2 см. с вероятност 0,997, според резултатите от подобно проучване в друга област е 24.

Решение.Необходим размер на извадката при ниво на вероятност от 0,997 ( т= 3) ще бъде:

Така, за да се получат данни за средния ръст на първокласниците със зададена точност, е необходимо да се изследват 52 ученици.

Механично вземане на проби. Тази извадка се състои в подбор на единици от общия списък на единици от генералната съвкупност на редовни интервали в съответствие с установения процент на подбор. При решаване на задачи за определяне на средната грешка на механична проба, както и необходимия й брой, трябва да се използват горните формули, използвани при самослучаен неповтарящ се избор.

И така, при 2% проба се избира всяка 50-та единица (1:0,02), при 5% проба, всяка 20-та единица (1:0,05) и т.н.

По този начин, в съответствие с приетата пропорция на подбор, генералната популация е като че ли механично разделена на равни групи. От всяка група в извадката се избира само една единица.

Важна характеристика на механичното вземане на проби е, че формирането на извадкова популация може да се извърши без да се прибягва до изброяване. На практика често се използва редът, в който единиците на съвкупността са действително поставени. Например последователността на извеждане на готови продукти от конвейер или производствена линия, редът, в който се поставят единици от партида стоки по време на съхранение, транспортиране, продажба и др.

Типична проба.Тази извадка се използва, когато единиците от генералната съвкупност се комбинират в няколко големи типични групи. Изборът на единици в извадката се извършва в рамките на тези групи пропорционално на техния размер въз основа на използването на подходящо произволно или механично вземане на проби (ако е налична необходимата информация, подборът може да бъде направен и пропорционално на вариацията на признака изучавани в групите).

Типичната извадка обикновено се използва при изследване на сложни статистически съвкупности. Например при извадково изследване на производителността на труда на търговските работници, обособено в отделни групи по квалификация.

Важна характеристика на типичната извадка е, че дава по-точни резултати в сравнение с други методи за подбор на единици в извадкова популация.

Средната грешка на типична проба се определя по формулите:

(преизбор);

(неповтаряща се селекция),

където е средната стойност на вътрешногруповите дисперсии.

Пример. За изследване на доходите на населението в три области на областта е формирана 2% извадка, пропорционална на населението на тези области. Получените резултати са представени в табл. шестнадесет.

Таблица 16

Резултати от извадково изследване на доходите на домакинствата

Необходимо е да се определят границите на средния доход на глава от населението в региона като цяло при ниво на вероятност 0,997.

Решение.Изчислете средната стойност на вътрешногруповите дисперсии:

където N i- сила на звука аз-и групи;

n, - размер на извадката от /-група.

серийно вземане на проби. Тази извадка се използва, когато единиците от изследваната съвкупност са групирани в малки еднакви по големина групи или серии. Единицата за избор в този случай е серията. Сериите се избират чрез подходящо произволно или механично вземане на проби и в рамките на избраната серия се изследват всички единици без изключение.

Изчисляването на средната грешка на серийна проба се основава на междугруповата дисперсия:

(преизбор);

(неповтаряща се селекция),

където x i- брой избрани аз- серия;

Ре общият брой епизоди.

Междугруповата дисперсия за равни групи се изчислява, както следва:

където x i- средна i-серия;

хе общата средна стойност за цялата извадка.

Пример. За да се контролира качеството на компонентите от партида продукти, опаковани в 50 кутии по 20 продукта във всяка, беше направена 10% серийна проба. За кутиите, включени в извадката, средното отклонение на параметрите на продукта от нормата е съответно 9 mm, 11, 12, 8 и 14 mm. С вероятност от 0,954 определете средното отклонение на параметрите за цялата партида като цяло.

Решение.Примерна средна стойност:

мм.

Стойността на междугруповата дисперсия:

Предвид установената вероятност Р = 0,954 (т= 2) пределната извадкова грешка ще бъде:

мм.

Направените изчисления ни позволяват да заключим, че средното отклонение на параметрите на всички продукти от нормата е в следните граници:

Следните формули се използват за определяне на необходимия обем на серийна проба за дадена пределна грешка:

(преизбор);

(неповтаряща се селекция).

Концепцията и изчисляването на грешката на извадката.

Задачата на селективното наблюдение е да даде правилни представи за обобщените показатели на цялата съвкупност въз основа на част от тях, подложени на наблюдение. Нарича се възможното отклонение на извадковия дял и извадковата средна стойност от дела и средната стойност в генералната съвкупност грешка при вземане на проби или грешка в представителността. Колкото по-голяма е стойността на тази грешка, толкова повече показателите на извадковото наблюдение се различават от тези на генералната съвкупност.

Различават:

Грешки при вземане на проби;

Грешки при регистрацията.

Грешки при регистрациятавъзникват, когато даден факт е неправилно установен в процеса на наблюдение. Те са характерни както за непрекъснатото наблюдение, така и за избирателното наблюдение, но са по-малко при избирателното наблюдение.

Естеството на грешката е:

Тенденциозно – преднамерено, т.е. бяха избрани или най-добрите, или най-лошите единици от популацията. В този случай наблюденията губят смисъл;

Случаен - основният организационен принцип на селективното наблюдение е да се предотврати преднамерен подбор, т.е. гарантира стриктно спазване на принципа на случаен подбор.

Общо правило за случаен изборе: отделните единици от генералната съвкупност трябва да имат абсолютно еднакви условия и възможности да попаднат в броя на единиците, включени в извадката. Това характеризира независимостта на резултата от пробата от волята на наблюдателя. Волята на наблюдателя поражда тенденциозни грешки. Грешката на извадката при случайния избор е случайна. Той характеризира големината на отклоненията на общите характеристики от извадковите.

Поради факта, че характеристиките в изследваната съвкупност варират, съставът на единиците в извадката може да не съвпада със състава на единиците на цялата съвкупност. Означава, че Ри не съвпадат с Уи . Възможното несъответствие между тези характеристики се определя от грешката на извадката, която се определя по формулата:

където е общата дисперсия.

където е дисперсията на извадката.

Това показва къде общата дисперсия се различава от дисперсията на извадката в пъти.

Има повторна и неповтаряща се селекция. Същността на повторната селекция е, че всяка единица в извадката след наблюдение се връща в генералната съвкупност и може да бъде повторно изследвана. При повторна проба се изчислява средната грешка на извадката:

За показателя за дела на алтернативен признак дисперсията на извадката се определя по формулата:

На практика преизборът се използва рядко. При неповтаряща се селекция, размерът на генералната съвкупност ннамалява по време на вземането на проби, формулата за средната грешка на вземане на проби за количествен атрибут е:

, тогава

Една от възможните стойности, в които може да бъде делът на изследваната черта, е равна на:

където е грешката на извадката на алтернативната характеристика.

Пример.

По време на извадково изследване на 10% от продуктите на партида готови продукти по метода без повторна селекция са получени следните данни за съдържанието на влага в пробите.

Определете средната влажност %, дисперсия, стандартно отклонение, с вероятност от 0,954, възможните граници, в които се очаква средната стойност. % влажност на всички готови продукти, с вероятност 0,987, възможни граници на специфичното тегло на стандартните продукти, при условие че продуктите със съдържание на влага до 13 и над 19% принадлежат към нестандартна партида.

Само с известна вероятност може да се твърди, че общият дял на дела на извадката и общата средна стойност на средната стойност на извадката се отклоняват в тведнъж.

В статистиката тези отклонения се наричат пределни грешки на извадката и са маркирани.

Вероятността от присъди може да бъде увеличена или намалена тведнъж. С вероятност 0,683, с 0,954, с 0,987, тогава показателите на генералната съвкупност се определят от показателите на извадката.

Селективно наблюдение

Концепцията за селективно наблюдение

Методът на вземане на проби се използва, когато използването на непрекъснато наблюдение е физически невъзможно поради огромно количество данни или не е икономически осъществимо. Физическата невъзможност възниква например при изследване на пътникопотоци, пазарни цени, семейни бюджети. Икономическата нецелесъобразност възниква при оценката на качеството на стоките, свързана с тяхното унищожаване. Например дегустация, тестване на тухли за здравина и др. Селективното наблюдение се използва и за тестване на резултатите от непрекъснато.

Избраните за наблюдение статистически единици са селективенагрегат или проба,и целият масив - общкомплект (GS). Броят на единиците в извадката е означен П,в целия ХС Н.Поведение n/nнаречен относителен размер или примерен дял.

Качеството на резултатите от пробите зависи от представителностпроби, т.е. доколко е представителен в ХС. За да се осигури представителност на извадката, е необходимо да се спазва принципът на случаен подбор на единици, който предполага, че включването на ХС единица в извадката не може да бъде повлияно от друг фактор, освен случайност.

Методи за вземане на проби

1. Всъщност произволноселекция: всички единици на ХС са номерирани и изтеглените числа съответстват на единиците в извадката, като броят на числата е равен на планирания размер на извадката. На практика вместо теглене на жребий се използват генератори на случайни числа. Този метод на избор може да бъде повтаря се(когато всяка единица, избрана в извадката, се връща в ХС след наблюдение и може да бъде изследвана повторно) и неповторимо(когато изследваните единици в ХС не се връщат и не могат да бъдат прегледани повторно). При повторна селекция вероятността да попадне в извадката за всяка единица от HS остава непроменена, а при неповторна селекция тя се променя (увеличава), но за тези, които остават в HS след като няколко единици са избрани от нея, вероятността на влизане в пробата е същото.

2. Механичниизбор: единиците от съвкупността се избират с постоянна стъпка N/A. Така че, ако съдържа обща съвкупност от 100 хиляди единици и се изисква да се изберат 1 хиляди единици, тогава всяка стотна единица ще попадне в извадката.

3. стратифицирани(стратифициран) подбор се извършва от хетерогенна генерална съвкупност, когато тя първо се разделя на хомогенни групи, след което единици се избират от всяка група в извадката на съвкупност произволно или механично пропорционално на техния брой в генералната съвкупност.

4. Сериен(вложен) избор: произволно или механично се избират не отделни единици, а определени серии (гнезда), в рамките на които се извършва непрекъснато наблюдение.

Средна извадкова грешка

След приключване на подбора на необходимия брой единици в извадката и регистриране на характеристиките на тези единици, предвидени в програмата за наблюдение, те преминават към изчисляване на обобщаващи показатели. Те включват средната стойност на изследваната характеристика и дела на единиците, които имат някаква стойност на тази характеристика. Въпреки това, ако HS прави няколко проби, докато определя техните обобщаващи характеристики, тогава може да се установи, че техните стойности ще бъдат различни, освен това те ще се различават от реалната им стойност в HS, ако това се определя чрез непрекъснато наблюдение . С други думи, обобщаващите характеристики, изчислени от извадковите данни, ще се различават от техните реални стойности в HS, затова въвеждаме следните символи (Таблица 8).

Таблица 8. Условности

Разликата между стойността на обобщаващите характеристики на извадката и генералната съвкупност се нарича грешка при вземане на проби,която се подразделя на грешка Регистрацияи грешка представителност. Първият възниква поради невярна или неточна информация поради неразбиране на същността на въпроса, невнимание на регистратора при попълване на въпросници, формуляри и др. Сравнително лесно се открива и коригира. Второто произтича от неспазване на принципа на случаен подбор на единици в извадката. Той е по-труден за откриване и елиминиране, той е много по-голям от първия и затова измерването му е основната задача на селективното наблюдение.

За измерване на грешката на извадката нейната средна грешка се определя по формула (39) за повторен подбор и по формула (40) за неповтарящо се извадка:

= ;(39) = . (40)

От формули (39) и (40) се вижда, че средната грешка е по-малка при неповтаряща се извадка, което обуславя по-широкото й приложение.

Между показателите на извадковата съвкупност и желаните показатели (параметри) на генералната съвкупност, като правило, има някои несъгласия, които се наричат грешки при вземане на проби.Общата грешка на извадката се състои от грешки от два вида: грешки при регистрацията и грешки в представителността.

Грешките в регистрацията са присъщи на всяко статистическо наблюдение и тяхната поява може да бъде причинена от невнимание на регистратора, неточни изчисления, несъвършенство на измервателните уреди и др.

Грешките в представителността са присъщи само на извадковото наблюдение и се дължат на самото му естество, тъй като колкото и внимателно и правилно да се извършва подборът на единици, средните и относителните показатели на извадковата съвкупност винаги ще се различават до известна степен от съответните показатели на общото население.

Правете разлика между систематични и случайни грешки на представителността. Систематичните грешки в представителността са неточности, които възникват в резултат на неспазване на условията за избор на единици в извадката, като не се осигурява еднаква възможност за всяка единица от генералната съвкупност да попадне в извадката. Случайните грешки на представителността са грешки, които възникват поради факта, че извадката не възпроизвежда точно характеристиките на генералната съвкупност (средна стойност, пропорция, дисперсия и т.н.) поради прекъснатия характер на изследването.

При спазване на принципа на случаен подбор, размерът на грешката на извадката зависи основно от размера на извадката. Колкото по-голям е размерът на извадката, при равни други условия, толкова по-малка е грешката на извадката. При голям размер на извадката по-ясно се проявява действието на закона за големите числа, според който: с вероятност, произволно близка до единица, може да се твърди, че с достатъчно голям размер на извадката и ограничена вариация, характеристиките на извадката ( среден дял) ще се различава произволно малко от съответните общи характеристики.

Размерът на извадковата грешка също е пряко свързан със степента на вариация на изследваната характеристика, а степента на вариация, както беше отбелязано по-горе, в статистиката се характеризира с размера на дисперсията (разсейването): колкото по-малка е дисперсията, колкото по-малка е грешката на извадката, толкова по-надеждни са статистическите заключения. Следователно на практика дисперсията се идентифицира с извадкова грешка.

Тъй като параметърът на генералната съвкупност е желаната стойност и не е известен, е необходимо да се фокусираме не върху конкретна грешка, а върху средната стойност на всички възможни извадки.

Ако няколко комплекта за вземане на проби са избрани от общата съвкупност, тогава всяка от получените проби ще даде различна стойност на определена грешка.

RMS /иизчислено от всички възможни стойности на конкретни грешки (;) ще бъде:

където * и - примерни средства; x - обща средна;)] - броят на пробите по отношение на є1 \u003d ~ si - x.

Стандартното отклонение на средните стойности на извадката от общата средна стойност се нарича средна грешка на извадката.

Зависимостта на размера на извадковата грешка от нейния брой и от степента на изменчивост на признака се изразява във формулата за средна извадкова грешка /u.

Квадратът на средната грешка (дисперсията на средните стойности на извадката) е право пропорционална на дисперсиятаСто и обратно пропорционално на размера на извадката n:

където е дисперсията на характеристиката в общата съвкупност.

Следователно средната грешка обикновено се определя по формулата:

Така че, след като определихме стандартното отклонение от извадката, можем да зададем стойността на средната грешка на извадката, чиято стойност, както следва от формулата, е толкова по-голяма, колкото по-голяма е вариацията на случайната променлива и колкото по-малка е по-голям размер на извадката.

Следователно, с увеличаване на размера на извадката, размерът на средната грешка намалява. Ако, например, е необходимо да се намали средната грешка на извадката наполовина, тогава размерът на извадката трябва да се увеличи четири пъти; ако е необходимо да се намали грешката на извадката с коефициент три, тогава размерът на извадката трябва да се увеличи с девет пъти и т.н.

При практически изчисления се използват две формули за средната извадкова грешка за средната стойност и за дела.

При селективно изследване на средни стойности формулата за средната грешка е:

При изучаване на относителни показатели (особени признаци) формулата за средната грешка има формата:

къдетоЖ - делът на признака в общата популация.

Прилагането на горните формули за средна грешка предполага, че общата дисперсия и общата пропорция са известни. В действителност обаче тези показатели са неизвестни и е невъзможно да бъдат изчислени поради липсата на данни за общата съвкупност. Следователно е необходимо общата дисперсия и общият дял да бъдат заменени с други стойности, близки до тях.

В математическата статистика е доказано, че такива стойности могат да бъдат дисперсията на извадката (st) и фракцията на извадката (co).

Като се има предвид това, формулите за средна грешка могат да бъдат записани, както следва:

Тези формули дават възможност да се определи средната грешка при повторно вземане на проби. Прилагането на просто произволно повторно вземане на проби в практиката е ограничено. Първо, непрактично и понякога невъзможно е да се изследват повторно същите единици. Използването на неповтаряща се селекция вместо повторна селекция също е продиктувано от изискването за повишаване на степента на точност и надеждност на извадката. Ето защо в практиката по-често се използва методът на неповтарящия се случаен подбор. Съгласно този метод на подбор единицата от популацията, избрана в извадката, не участва в по-нататъшен подбор. Единиците се избират от популацията, намалена с броя на предварително избраните единици. Следователно, във връзка с промяната в размера на генералната съвкупност след всяка селекция и вероятността за селекция за оставащите единици, във формулите за средната грешка на извадката се въвежда корекционен коефициент

където N е размерът на генералната съвкупност; П- размер на извадката. За достатъчно голяма стойност на N човек може да бъде пренебрегнат в знаменателя. Тогава

Следователно формулите за средната извадкова грешка за неповтаряща се селекция съответно за средната стойност и за дела са:

Тъй като Пвинаги е по-малко от M, тогава допълнителният фактор винаги е по-малък от едно. Следователно абсолютната стойност на грешката на извадката при неповтаряща се селекция винаги ще бъде по-малка, отколкото при повторна селекция.

Ако размерът на извадката е достатъчно голям, тогава стойността на 1 ^ е близка до единица и следователно може да бъде пренебрегната. Тогава средната грешка на случаен неповтарящ се избор се определя по формулата на самослучайно повторно вземане на проби.

За нашия пример изчисляваме средната грешка за добива и дела на парцелите с добив от 25 центнера на хектар или повече.

Средна извадкова грешка

а) средният добив на ечемик

Среден добив на ечемик в общата популация х -G^\u003d 25,1 ± 0,12 c / ha, тоест е в диапазона от 24,98 до 25,22 c / ha.

Делът на парцелите с добив 25 ц/ха и повече в общата съвкупност Стр

T-^T = 0,80 ± 0,07, т.е. е в диапазона от 73 до 87%.

Средната извадкова грешка показва възможните отклонения на характеристиките на извадката от съвкупността от характеристиките на генералната съвкупност. В същото време, когато провеждат извадка, изследователите често са изправени пред задачата да изчислят не само средната грешка, но и да определят максималната възможна грешка на извадката. Познавайки средната грешка, е възможно да се определят границите, отвъд които стойността на грешката на извадката няма да премине. Въпреки това е възможно да се твърди, че тези отклонения няма да превишат дадена стойност, не с абсолютна сигурност, а само с известна степен на вероятност. Нивото на вероятност, което се приема при определяне на възможните граници, които съдържат стойностите на параметрите на генералната съвкупност, се нарича ниво на доверие на вероятност.

Вероятност за доверие- това е доста висока и такава, че практически се счита за извършена във всеки конкретен случай, вероятност, която гарантира надеждни статистически заключения. Нека го обозначим с Жи вероятността за превишаване на това ниво е а. Така,а =1 - Р Вероятноста наречено ниво на значимост(значимост), която характеризира относителния брой грешни заключения в общия брой заключения и се определя като разликата между единица и нивото на доверие, което се приема.

Нивото на доверие се определя от изследователя въз основа на степента на отговорност и характера на задачите, които се решават. В статистическите изследвания в икономиката най-често използваното ниво на доверие Ж = 0,95; P = 0,99 (съответно нивото на значимоста = 0,05; а = 0,01) по-рядкоЖ = 0,999. Например, нивото на увереност G = 0,99 означава, че грешката на оценката в 99 случая от 100 няма да надвиши установената стойност и само в един случай от 100 може да достигне изчислената стойност или да я надхвърли.

Грешката на извадката, изчислена с дадена степен на надеждна вероятност, се наричапределна извадкова грешка Ер

Нека разгледаме как се установява стойността на възможната пределна извадкова грешка. Стойностеп е свързано с нормализираното отклонение u, което се определя като съотношението на пределната извадкова грешкаеп до средната грешкаи:

За удобство на изчисленията отклонението на случайна променлива от нейната средна стойност обикновено се изразява в единици стандартно отклонение. Изразяване

Нареченстандартно отклонение. в В статистическата литератураи Нареченфактор на доверие, или множествеността на средната извадкова грешка.

И така, нормализираното отклонение на средната стойност на извадката може да се определи по формулата:

и _є_r_

От изразяване 1 може да се намери възможната пределна грешка на извадката

ep = i/l.

Заместване вместог. в неговата стойност представяме формулите за пределните извадкови грешки за средната стойност и за пропорцията за неповторен случаен избор:

Следователно пределната извадкова грешка зависи от стойността на средната грешка и нормализираното отклонение и е равна на ± кратно на броя на средните извадкови грешки.

Средните и пределните грешки на извадката се наричат величини и се изразяват в същите единици като средната аритметична стойност и стандартното отклонение.

Нормализираното отклонение е функционално свързано с вероятността. За намиране на ценностии са съставени специални таблици (доп. 2), по които можете да намерите стойносттаипри дадено ниво на доверителна вероятност и стойността на вероятността при известни и.

Представяме ценноститеи и съответните им вероятности за проби с размераn> 30, който най-често се използва в практически изчисления:

Следователно прии = 1 вероятността за отклонение на характеристиките на извадката от общите със стойност на единична средна извадкова грешка е 0,6827. Това означава, че средно от всеки 1000 проби 683 ще дадат обобщени характеристики, които ще се различават от общите обобщени характеристики с не повече от една средна грешка. За u = 2 вероятността е 0,9545. в Това означава, че от всяка 1000 проби 954 ще дадат обобщени характеристики, които ще се различават от общите обобщени характеристики с не повече от два пъти средната грешка на извадката и т.н.

Въпреки това, поради факта, че по правило се взема само една проба, казваме, че например с вероятност от 0,9545 може да се гарантира, че размерът на пределната грешка няма да надвишава два пъти средната проба грешка.

Математически доказано е, че съотношението на извадковата грешка към средната грешка по правило не надвишава± 3d за достатъчно голям брой n, въпреки факта, че грешката на извадката може да придобие всякакви стойности. С други думи, можем да кажем, че с достатъчно висока вероятност за преценка (P = 0,9973), пределната грешка на извадката, като правило, не надвишава три средни грешки на извадката. Следователно стойността Ep = 3d може да се приеме като граница на възможната грешка на извадката.

За нашия пример, нека определим пределната грешка при вземане на проби за средния добив и дела на парцелите с добив от 25 q/ha или повече. Нивото на доверителност на вероятността приемаме равно на Р = 0,9545. в Според таблицата (прил..2) намерете стойностите и = 2. Средните грешки при вземане на проби за добива и дела на парцелите с добив от 25 c/ha и повече бяха открити по-рано и съответно бяха: C~= ±0,12 q/ha; MR = ± 0,07.

Пределна грешка на средния добив на ечемик:

Така че разликата между средния добив на пробата и общия среден добив няма да надвишава 0,24 c/ha. Границите на средния добив в общата популация: x = x ± да ~ = 25,1 + 0,24, т.е. от 24,86 до 25,34 q/ha.

Пределна грешка на дела на парцелите с добив от 25 центнера на хектар или повече:

Следователно пределната грешка при определяне на дела на парцелите с добив от 25 c/ha вече не надвишава 14%, т.е. делът на парцелите с посочения добив в общата съвкупност е в рамките на: Ж= a> ± ep = 0,80 ± 0,14, т.е. от 66 до 94%.

Несъответствията между стойността на който и да е показател, установен чрез статистическо наблюдение, и неговия действителен размер се наричат грешки при наблюдение . В зависимост от причините за възникването се разграничават грешки при регистрацията и грешки в представителността.

Грешки при регистрацията възникват в резултат на неправилно установяване на фактите или погрешно записване в процеса на наблюдение или интервю. Те са случайни или систематични. Случайни грешки при регистрацията могат да бъдат допуснати както от интервюираните в техните отговори, така и от регистраторите. Системните грешки могат да бъдат както умишлени, така и неумишлени. Умишлено - съзнателно, тенденциозно изкривяване на действителното състояние на нещата. Неумишлените са причинени от различни случайни причини (небрежност, невнимание).

Грешки в представителността (представителност) възникват в резултат на непълно проучване и ако съвкупността от изследването не възпроизвежда напълно генералната съвкупност. Те могат да бъдат произволни или систематични. Случайните грешки в представителността са отклонения, които възникват по време на непродължително наблюдение поради факта, че наборът от избрани единици за наблюдение (извадка) не възпроизвежда напълно цялата популация като цяло. Отклоненията в представителността са отклонения, произтичащи от нарушения на принципите на случаен подбор на единици. Грешките в представителността са органично присъщи на наблюдението на извадката и възникват поради факта, че съвкупността от извадката не възпроизвежда напълно генералната съвкупност. Невъзможно е да се избегнат грешки в представителността, но с помощта на методите на теорията на вероятностите, базирани на използването на гранични теореми на закона за големите числа, тези грешки могат да бъдат намалени до минимални стойности, чиито граници са определени с достатъчно висока точност.

Грешки при вземане на проби - разликата между характеристиките на извадката и генералната съвкупност. За средната стойност грешката ще се определи по формулата

където

Стойност
Наречен пределна грешка проби.

Пределната извадкова грешка е произволна стойност. Граничните теореми на закона за големите числа са посветени на изследването на модели на случайни грешки на извадката. Тези модели са най-пълно разкрити в теоремите на П. Л. Чебишев и А. М. Ляпунов.

Теорема на П. Л. Чебишев по отношение на разглеждания метод може да се формулира по следния начин: при достатъчно голям брой независими наблюдения е възможно да се твърди с вероятност, близка до единица (т.е. почти със сигурност), че отклонението на извадката от общата ще бъде произволно малка. Теоремата на П. Л. Чебишев доказва, че стойността на грешката не трябва да надвишава . От своя страна стойността , изразяващо стандартното отклонение на средната стойност на извадката от общата средна стойност, зависи от флуктуацията на признака в общата популация и броя на избраните единици н. Тази зависимост се изразява с формулата

, (7.2)

където също зависи от метода на вземане на проби.

стойността =Наречен средната грешка на извадката. В този израз е общата дисперсия, не размерът на извадката.

Нека разгледаме как броят на избраните единици влияе върху стойността на средната грешка н. Логически е лесно да се провери, че когато са избрани голям брой единици, несъответствията между средните ще бъдат по-малки, т.е. съществува обратна връзка между средната грешка на извадката и броя на избраните единици. В този случай тук се формира не просто обратна математическа зависимост, а такава зависимост, която показва, че квадратът на несъответствието между средните е обратно пропорционален на броя на избраните единици.

Увеличаването на променливостта на знака води до увеличаване на стандартното отклонение и, следователно, грешки. Ако приемем, че всички единици ще имат една и съща стойност на характеристиката, тогава стандартното отклонение ще стане нула и грешката на извадката също ще изчезне. Тогава няма нужда да се прилага вземане на проби. Трябва обаче да се има предвид, че величината на изменчивостта на признака в генералната съвкупност е неизвестна, тъй като не са известни размерите на единиците в нея. Възможно е да се изчисли само променливостта на признака в извадката. Съотношението между дисперсиите на генералната и извадковата съвкупност се изразява с формулата

Тъй като стойността за достатъчно големи не близо до единица, можем приблизително да приемем, че дисперсията на извадката е равна на общата дисперсия, т.е.

Следователно средната извадкова грешка показва какви са възможните отклонения на характеристиките на извадката от съвкупността от съответните характеристики на генералната съвкупност. Въпреки това, размерът на тази грешка може да се прецени с известна вероятност. Множителят показва стойността на вероятността

Теорема на А. М. Ляпунов . А. М. Ляпунов доказа, че разпределението на извадковите средни стойности (следователно техните отклонения от общата средна) с достатъчно голям брой независими наблюдения е приблизително нормално, при условие че генералната съвкупност има крайна средна и ограничена дисперсия.

Математически Теорема на Ляпуновможе да се напише така:

(7.3)

където
, (7.4)

където
е математическа константа;

–пределна извадкова грешка , което дава възможност да се разбере в какви граници се намира стойността на общата авария.

Стойностите на този интеграл за различни стойности на коефициента на доверие тизчислени и са дадени в специални математически таблици. По-специално, когато:

Тъй като тпоказва вероятността от несъответствие
, т.е. от вероятността колко общата средна стойност ще се различава от средната за извадката, тогава това може да се прочете по следния начин: с вероятност от 0,683 може да се твърди, че разликата между извадката и общата средна стойност не надвишава единица стойност на средната извадкова грешка. С други думи, в 68,3% от случаите грешката в представителността няма да надхвърли
С вероятност от 0,954 може да се твърди, че грешката на представителност не надвишава
(т.е. в 95% от случаите). С вероятност от 0,997, т.е. доста близка до единица, може да се очаква, че разликата между извадката и общата средна стойност няма да надвишава три пъти средната грешка на извадката и т.н.

Логично, връзката тук изглежда доста ясна: колкото по-големи са границите, в които се допуска възможна грешка, толкова по-вероятно е да се прецени нейната величина.

Познаване на примерната средна стойност на характеристиката
и пределна извадкова грешка
, е възможно да се определят границите (лимитите), които съдържат общата авария

1 . Самослучайно вземане на проби - този метод е насочен към вземане на извадки от генералната съвкупност без разделяне на части или групи. В същото време, за да се спази основният принцип на извадката - еднаква възможност за избор на всички единици от генералната съвкупност - се използва схема за случайно извличане на единици чрез теглене на жребий (лотария) или таблица със случайни числа. . Възможен е многократен и еднократен избор на единици

Средната грешка на правилна произволна извадка е стандартното отклонение на възможните стойности на средната стойност на извадката от общата средна стойност. Средните извадкови грешки при метода на случаен подбор са представени в табл. 7.2.

Таблица 7.2

Средна грешка на извадката μ	При избора
Средна грешка на извадката μ	повтаря се	неповтарящ се
За средно

В таблицата се използват следните обозначения:

е дисперсията на извадката;

– размер на извадката;

- размерът на генералната съвкупност;

е делът на извадката от единици, които имат изследваната характеристика;

- броя на единиците, които имат изследвания признак;

– размер на извадката.

За повишаване на точността вместо множител вземете множителя
, но с голям брой нразликата между тези изрази няма практическо значение.

Пределна грешка при правилна случайна извадка
изчислено по формулата

, (7.6)

където т – коефициентът на доверие зависи от стойността на вероятността.

Пример.При изследване на сто проби от продукти, избрани на случаен принцип от партида, 20 се оказаха нестандартни. С вероятност от 0,954 определете границите, в които е делът на нестандартните продукти в партидата.

Решение. Изчислете общия дял ( Р):
.

Дял на нестандартните продукти:
.

Пределната грешка на фракцията на пробата с вероятност 0,954 се изчислява по формула (7.6), като се използва формулата в табл. 7.2 за споделяне:

С вероятност от 0,954 може да се твърди, че делът на нестандартните продукти в партида стоки е в рамките на 12% ≤ П≤ 28 %.

В практиката на проектиране на извадково наблюдение е необходимо да се определи размерът на извадката, което е необходимо, за да се осигури определена точност при изчисляването на общите средни стойности. В този случай са дадени пределната извадкова грешка и нейната вероятност. От формулата
и формули за средни извадкови грешки, необходимият размер на извадката се установява. Формули за определяне на размера на извадката ( н) зависи от метода на избор. Изчисляването на размера на извадката за действителната случайна извадка е дадено в табл. 7.3.

Таблица 7.3

Предвидена селекция
Предвидена селекция	за средата
Повтаря се
неповтарящ се

2 . Механично вземане на проби - с този метод те изхождат от отчитане на някои характеристики на местоположението на обектите в общата съвкупност, тяхното подреждане (според списък, номер, азбука). Механичното вземане на проби се извършва чрез избиране на отделни обекти от генералната съвкупност на определен интервал (всеки 10-ти или 20-ти). Интервалът се изчислява спрямо , където н– размер на извадката, н- размерът на генералната съвкупност. Така че, ако от популация от 500 000 единици трябва да се получи 2% извадка, т.е. да се изберат 10 000 единици, тогава пропорцията на селекцията ще бъде
Изборът на единици се извършва в съответствие с установеното съотношение на равни интервали. Ако местоположението на обектите в генералната съвкупност е случайно, тогава механичното вземане на проби е подобно по съдържание на случайния подбор. При механичен подбор се използва само неповтарящо се вземане на проби.

Средната грешка и размерът на извадката при механичен подбор се изчисляват по формулите за правилна случайна извадка (виж таблици 7.2 и 7.3).

3 . Типична проба , при което генералната съвкупност се разделя по някои съществени признаци на типични групи; изборът на единици се извършва от типични групи. При този метод на подбор генералната съвкупност се разделя на групи, които са хомогенни в някои отношения, които имат свои собствени характеристики и въпросът се свежда до определяне на размера на извадките от всяка група. Може би еднакво вземане на проби - при този метод се избират еднакъв брой единици от всяка типична група
Такъв подход е оправдан само ако размерите на първоначалните типови групи са еднакви. При типична селекция, непропорционална на размера на групите, общият брой избрани единици се разделя на броя на типичните групи, получената стойност дава броя на селекцията от всяка типична група.

По-усъвършенствана форма на селекция е пропорционално вземане на проби . Пропорционална е такава схема за формиране на извадкова съвкупност, когато броят на пробите, взети от всяка типична група в генералната съвкупност, е пропорционален на числата, дисперсиите (или комбинирани и числата, и дисперсиите). Условно определяме размера на извадката от 100 единици и избираме единици от групите:

– пропорционално на размера на общото им население (Таблица 7.4). Таблицата показва:

н азе размерът на типична група;

д й- дял ( наз / н);

н- размерът на генералната съвкупност;

н аз– размерът на извадката от типична група се изчислява:

, (7.7)

не размерът на извадката от генералната съвкупност.

Таблица 7.4

н аз	д й	н аз

– пропорционално на стандартното отклонение (Таблица 7.5).

тук  аз– стандартно отклонение на типичните групи;

н аз – размерът на извадката от типична група се изчислява по формулата

(7.8)

Таблица 7.5

н аз			н аз

– комбинирани (Таблица 7.6).

Размерът на извадката се изчислява по формулата

. (7.9)

Таблица 7.6

		 аз н аз

При провеждане на типична извадка директният подбор от всяка група се извършва чрез случаен подбор.

Средните грешки на извадката се изчисляват с помощта на формулите в табл. 7.7 в зависимост от начина на подбор от типичните групи.

Таблица 7.7

Метод на избор	Повтаря се		неповтарящ се
Метод на избор	за средата	за споделяне	за средата	за споделяне
Непропорционално на размера на групата
Пропорционално на размера на групата
Пропорционална флуктуация в групите (е най-полезната)

тук
е средната стойност на вътрешногруповите дисперсии на типичните групи;

е делът на единиците, които имат изследваната характеристика;

е средната стойност на вътрешногруповите дисперсии за дела;

е стандартното отклонение в извадка от аз-та типична група;

е размерът на извадката от типична група;

е общият размер на извадката;

е обемът на типична група;

- обемът на генералната съвкупност.

Размерът на извадката от всяка типична група трябва да бъде пропорционален на стандартното отклонение в тази група.
.Изчисляване на числа
произведени по формулите, дадени в табл. 7.8.

Таблица 7.8

4 . серийно вземане на проби - полезно в случаите, когато единиците от съвкупността са групирани в малки групи или серии. При серийна извадка съвкупността се разделя на групи с еднакъв размер - серии. Сериите са избрани в примерния набор. Същността на серийната извадка се състои в случайния или механичен подбор на серии, в рамките на които се извършва непрекъснато изследване на единици. Средната грешка на серийна проба с равни серии зависи само от стойността на междугруповата дисперсия. Средните грешки са обобщени в табл. 7.9.

Таблица 7.9

Метод за избор на серия
Метод за избор на серия	за средата	за споделяне
Повтаря се
неповтарящ се

Тук Ре броят на сериите в генералната съвкупност;

r– брой избрани серии;

– междусерийна (междугрупова) дисперсия на средните;

– междусерийна (междугрупова) вариация на дела.

При сериен избор необходимият брой избрани серии се определя по същия начин, както при правилния метод на произволен избор.

Изчисляването на броя на серийните проби се извършва по формулите, дадени в табл. 7.10.

Таблица 7.10

Пример.В машинния цех на завода работят 100 работници в десет екипа. За изследване на квалификацията на работниците е направена 20% серийна неповторна извадка, която включва два екипа. Получено е следното разпределение на анкетираните работници по категории:

	Ранговете на работниците в бригада 1	Чинове на работниците в бригадата 2		Ранговете на работниците в бригада 1	Чинове на работниците в бригадата 2

Необходимо е да се определят с вероятност от 0,997 границите, в които се намира средната категория работници на машинния цех.

Решение.Ние определяме извадковите средни стойности за отборите и общата средна стойност като среднопретеглената средна стойност на груповите средни стойности:

Нека определим междусерийната дисперсия по формулите (5.25):

Ние изчисляваме средната грешка на извадката, като използваме формулата в табл. 7.9:

Нека изчислим пределната извадкова грешка с вероятност от 0,997:

С вероятност от 0,997 може да се твърди, че средният ранг на работниците в машинен цех е в рамките на