Биографии Характеристики Анализ

Средната квадратична грешка на извадката е по-голяма от. Обяснение за стандартна грешка на средна квадратна извадка

Средната грешка на извадката показва колко средно се отклонява параметърът рамка за вземане на пробиот съответния общ параметър. Ако изчислим средната стойност на грешките на всички възможни проби определен виддаден обем ( н), извлечени от същата генерална съвкупност, тогава получаваме тяхната обобщаваща характеристика - средна извадкова грешка ().

В теорията на избирателното наблюдение формулите за определяне , които са индивидуални за различни начиниселекция (повторна и неповторна), видове използвани извадки и видове оценени статистически показатели.

Например, ако се използва повторна произволна извадка, тогава тя се определя като:

При оценка на средната стойност на признак;

Ако знакът е алтернативен, и делът е оценен.

В случай на неповтарящ се случаен избор, формулите се променят (1 - n/N):

- за средната стойност на признака;

- за дял.

Вероятността да се получи точно такава стойност на грешка винаги е равна на 0,683. На практика е за предпочитане да се получават данни с по-висока вероятност, но това води до увеличаване на размера на извадковата грешка.

Пределната извадкова грешка () е равна на t пъти броя на средните извадкови грешки (в теорията на извадката е обичайно коефициентът t да се нарича коефициент на доверие):

Ако грешката на извадката се удвои (t = 2), тогава получаваме много по-голяма вероятност тя да не надхвърли определена граница (в нашия случай двойно средна грешка) - 0,954. Ако приемем t = 3, тогава ниво на увереностще бъде 0,997 - практически сигурност.

Ниво пределна грешкавземането на проби зависи от следните фактори:

  • степента на вариация на единиците от генералната съвкупност;
  • размер на извадката;
  • избрани схеми за избор (неповтарящият се избор дава по-малка стойност на грешката);
  • ниво на увереност.

Ако размерът на извадката е повече от 30, тогава стойността на t се определя от таблицата за нормално разпределение, ако е по-малка - от таблицата за разпределение на Стюдънт.

Ето някои стойности на коефициента на доверие от таблицата за нормално разпределение.

Доверителният интервал за средната стойност на атрибута и за съотношението в общата съвкупност се задава, както следва:

И така, определянето на границите на общата авария и дял се състои от следните стъпки:

Грешки при вземане на проби при различни видовеселекция

  1. Всъщност произволно и механично вземане на проби. Средната грешка на действителното произволно и механично вземане на проби се намират с помощта на формулите, представени в табл. 11.3.

Пример 11.2. За да се проучи нивото на възвръщаемост на активите, беше проведено извадково проучване на 90 предприятия от 225 с помощта на случаен принцип. повторно вземане на проби, което доведе до данните, представени в таблицата.

В този пример имаме 40% извадка (90: 225 = 0,4 или 40%). Нека определим неговата пределна грешка и границите за средната стойност на признака в генералната съвкупност по стъпките на алгоритъма:

  1. Въз основа на резултатите от извадковото проучване ние изчисляваме средната стойност и дисперсията в извадковата популация:
Таблица 11.5.
Резултати от наблюдение Прогнозни стойности
възвращаемост на активите, rub., x i брой предприятия, f i средата на интервала, x i \xb4 x i \xb4 f i x i \xb4 2 f i
До 1.4 13 1,3 16,9 21,97
1,4-1,6 15 1,5 22,5 33,75
1,6-1,8 17 1,7 28,9 49,13
1,8-2,0 15 1,9 28,5 54,15
2,0-2,2 16 2,1 33,6 70,56
2.2 и по-горе 14 2,3 32,2 74,06
Обща сума 90 - 162,6 303,62

Примерна средна стойност

Примерна вариация на изследваната характеристика

За нашите данни ние определяме пределната грешка на извадката, например, с вероятност от 0,954. Според таблицата на вероятностните стойности на функцията на нормалното разпределение (вижте извлечение от нея, дадено в Приложение 1), намираме стойността на коефициента на доверие t, съответстващ на вероятността от 0,954. С вероятност от 0,954, коефициентът t е 2.

Така в 954 случая от 1000 средната възвръщаемост на активите няма да надвишава 1,88 рубли. и не по-малко от 1,74 рубли.

По-горе беше използвана схема за повторен произволен избор. Нека да видим дали резултатите от проучването се променят, ако приемем, че подборът е извършен по схемата за безповтарящ се подбор. В този случай средната грешка се изчислява по формулата

Тогава, с вероятност равна на 0,954, пределната извадкова грешка ще бъде:

Доверителните граници за средната стойност на характеристиката в случай на неповтарящ се случаен избор ще имат следните стойности:

Сравнявайки резултатите от двете схеми за подбор, можем да заключим, че използването на неповтаряща се случайна извадка дава по-точни резултати в сравнение с използването на повторна селекция със същото ниво на достоверност. В същото време, колкото по-голям е размерът на извадката, толкова по-значително се стесняват границите на средните стойности при преминаване от една схема за подбор към друга.

Според примера определяме границите на дела на предприятията с възвръщаемост на активите, която не надвишава стойността от 2,0 рубли в общата съвкупност:

  1. Нека изчислим честотата на извадката.

Броят на предприятията в извадката с възвръщаемост на активите не повече от 2,0 рубли е 60 единици. Тогава

m = 60, n = 90, w = m/n = 60: 90 = 0,667;

  1. изчислете дисперсията на дела в извадката
  1. средна грешка при вземане на проби при използване повторна схемаселекция ще бъде

Ако приемем, че е използвана схема за неповтаряща се селекция, тогава средната грешка на извадката, като се вземе предвид корекцията за крайност на популацията, ще бъде

  1. задаваме доверителната вероятност и определяме пределната извадкова грешка.

При стойност на вероятността P = 0,997, съгласно таблицата за нормално разпределение, получаваме стойността на коефициента на доверие t = 3 (вижте извлечение от него, дадено в Приложение 1):

По този начин, с вероятност от 0,997, може да се твърди, че в общата съвкупност делът на предприятията с възвръщаемост на активите не надвишава 2,0 рубли е не по-малко от 54,7% и не повече от 78,7%.

  1. Типична проба. С типова проба населениеобектите се разделят на k групи, тогава

N 1 + N 2 + ... + N i + ... + N k = N.

Обемът на единиците, извлечени от всяка типична група, зависи от възприетия метод на подбор; тях обща сумаформира необходимия размер на извадката

n 1 + n 2 + … + n i + … + n k = n.

Има два начина за организиране на селекцията в типична група: пропорционално на обема на типичните групи и пропорционално на степента на колебание на стойностите на атрибута в единици за наблюдение в групи. Помислете за първия от тях като най-често използван.

Изборът, пропорционален на размера на типичните групи, предполага, че във всяка от тях ще бъде избран следващото числопопулационни единици:

n = n i N i /N

където n i е броят на екстрахируемите единици за проба от i-та типична група;

n е общият размер на извадката;

N i - броят на единиците от генералната съвкупност, съставляващи i-та типична група;

N е общият брой единици в генералната съвкупност.

Изборът на единици в рамките на групи се извършва под формата на произволна или механична извадка.

Формулите за оценка на средната извадкова грешка за средната и дела са представени в табл. 11.6.

Тук е средната стойност на груповите дисперсии на типичните групи.

Пример 11.3. В един от московските университети беше проведено извадково проучване на студенти, за да се определи показателят за средна посещаемост на университетската библиотека от един студент на семестър. За това е използвана 5% неповторена типична извадка, чиито типични групи съответстват на номера на курса. При подбора, пропорционално на обема на типичните групи, бяха получени следните данни:

Таблица 11.7.
Номер на курса Общо студенти, лица, N i Изследвани в резултат на селективно наблюдение хора, n i Среден брой посещения на библиотеката на студент за семестър, x i Дисперсия на вътрешногруповата проба,
1 650 33 11 6
2 610 31 8 15
3 580 29 5 18
4 360 18 6 24
5 350 17 10 12
Обща сума 2 550 128 8 -

Броят на студентите, които ще бъдат изпитани във всеки курс, се изчислява, както следва:

подобни за други групи:

Разпределението на стойностите на средните извадки винаги има нормален закон на разпределение (или се доближава до него) за n> 100, независимо от естеството на разпределението на генералната съвкупност. Но в случай на малки извадки се прилага различен закон на разпределение - разпределението на Стюдънт. В този случай коефициентът на доверие се намира съгласно таблицата на t-разпределението на Стюдънт, в зависимост от стойността на доверителната вероятност P и размера на извадката п. Приложение 1 предоставя фрагмент от таблицата на t-разпределението на Стюдънт, представена като зависимост на доверителната вероятност за размера на извадката и коефициента на доверителност t.

Пример 11.4. Да предположим, че извадково проучване на осем студенти от академията показа, че в подготовка за контролна работаспоред статистиката те са прекарали следния брой часове: 8,5; 8,0; 7,8; 9,0; 7.2; 6.2; 8,4; 6.6.

Пример 11.5. Нека изчислим колко от 507 индустриални предприятияданъчната служба трябва да бъде проверена за определяне на дела на предприятията с данъчни нарушения с вероятност 0,997. Според предишното подобно изследване стойността на стандартното отклонение е 0,15; размерът на извадковата грешка се очаква да бъде не по-висок от 0,05.

Когато използвате повторен произволен избор, проверете

При неповтарящ се случаен избор ще е необходима проверка

Както можете да видите, използването на неповтаряща се извадка ви позволява да провеждате много проучвания по-малкообекти.

Пример 11.6. Предвидено е проучване заплатив предприятията от индустрията по метода на случаен неповтарящ се подбор. Какъв трябва да бъде размерът на извадката, ако към момента на изследването заетите в индустрията са 100 000 души? Граничната грешка на извадката не трябва да надвишава 100 рубли. с вероятност 0,954. От предишни проучвания на заплатите в бранша се знае, че средната стандартно отклонениее 500 рубли.

Следователно, за да се реши проблемът, е необходимо в извадката да бъдат включени поне 100 души.

Несъответствието между стойностите на показателите, получени от извадката, и съответните параметри на генералната съвкупност се нарича грешка в представителността. Правете разлика между систематични и случайни грешкипроби.

Случайни грешки не е достатъчно обяснено единно представителствов набор от извадки от различни категории единици от генералната съвкупност.

Системни грешки може да бъде свързано с нарушение на правилата за подбор или на условията за изпълнение на извадката.

По този начин, когато се изследват бюджетите на домакинствата, рамката за извадка е изградена повече от 40 години на базата на принципа на териториално-секторния подбор, което се дължи на основната цел на бюджетното изследване - да характеризира стандарта на живот на работниците, служителите и колхозници. Извадката е разпределена между регионите и секторите на икономиката на RSFSR пропорционално на обща силазаети; за създаване на индустриална извадка е използвана типична извадка с механичен подбор на единици в рамките на групи.

Основният критерий за подбор е средната месечна заплата. Принципът на подбор осигури пропорционално представителство в извадката от работници с различни нива на заплащане.

С появата на нови социални групи(предприемачи, фермери, безработни), представителността на извадката е нарушена не само поради разлики със структурата на генералната съвкупност, но и поради системна грешка, възникнала поради несъответствие между извадковата единица (служител) и единица за наблюдение (домакинство). Домакинство с повече от един работещ член на семейството също е по-вероятно да бъде избрано от домакинство с един работник. Незаетите семейства в изследваните сектори изпадат от обхвата на избраните единици (пенсионерски домакинства, самостоятелно заети домакинства и др.). Беше трудно да се оцени точността на получените резултати (граници на доверителни интервали, грешки при вземане на проби), тъй като при конструирането на извадката не бяха използвани вероятностни модели.

През 1996–1997г беше въведена фундаментално нов подходкъм извадката на домакинствата. За основа на провеждането му са използвани данните от микропреброяването на населението от 1994 г. Генералната съвкупност в селекцията е съставена от всички видове домакинства, с изключение на колективните домакинства. И наборът от проби започна да се организира, като се вземе предвид представителността на състава и видовете домакинства във всеки субект на Руската федерация.

Измерването на грешките в представителността на извадковите показатели се основава на предположението за случайния характер на тяхното разпределение в безкрайност големи числапроби.

Количественото определяне на надеждността на примерен индикатор се използва, за да се получи представа за общата характеристика. Това се извършва или на базата на примерен индикатор, като се вземе предвид неговата случайна грешка, или на базата на определена хипотеза (за стойността средна дисперсия, характер на разпространение, връзка) по отношение на свойствата на генералната съвкупност.

За да се тества хипотезата, се оценява съответствието на емпиричните данни с хипотетичните данни.

Големината на грешката на случайната представителност зависи от:

  • 1) върху размера на извадката;
  • 2) степента на вариация на изследвания признак в генералната популация;
  • 3) приетия метод за формиране на извадкова съвкупност.

Има средни (стандартни) и пределни извадкови грешки.

Средна грешка характеризира мярката за отклонения на извадковите показатели от подобни показатели на генералната съвкупност.

пределна грешка обичайно е да се разглежда максимално възможното несъответствие между извадката и общите характеристики, т.е. максимална грешка за дадена вероятност за нейното възникване.

Според извадковата съвкупност е възможно да се оценят различни показатели (параметри) на генералната съвкупност. Най-често използваните резултати са:

Основният принцип на прилагане на извадковия метод е да се осигури еднаква възможност за всички единици от генералната съвкупност да бъдат избрани в извадковата съвкупност. При този подход се спазва изискването за случаен, обективен подбор и следователно грешката на извадката се определя основно от нейния размер ( П ). С увеличаването на последната стойността на средната грешка намалява, характеристиките на извадката се доближават до характеристиките на генералната съвкупност.

Със същия брой комплекти за вземане на проби и др равни условиягрешката на извадката ще бъде по-малка в goy от тях, която е избрана от общата съвкупност с по-малко вариации в изследвания признак. Намаляването на вариацията на даден признак означава намаляване на стойността на дисперсията (за количествен признак или за алтернативен признак).

Зависимостта на размера на извадковата грешка от методите за формиране на извадковата съвкупност се определя от формулите за средната извадкова грешка (Таблица 5.2).

Нека допълним показателите от табл. 5.2 със следните обяснения.

Дисперсията на извадката е малко по-малка от общата дисперсия. математическа статистикадоказа това

Таблица 5.2

Формули за изчисляване на средната грешка на пробата при ядрено-магнитен резонанс различни начиниселекция

Примерен тип

повтаря се за

неповторимо за

Всъщност

случаен

(просто)

Сериен

(с равни

Типично (пропорционално на размера на групите)

Ако извадката е голяма (т.е. П достатъчно голям), тогава отношението се доближава до единица и дисперсията на извадката практически съвпада с общата.

Извадката се счита за безусловно голяма, когато n> 100 и безусловно малък при П < 30. При оценке результатов малой выборки указанное соотношение выборочной и генеральной дисперсии следует принимать во внимание.

Те могат да се изчислят по следните формули:

къде е средното аз та серия; е общата средна стойност за цялата извадка;

където е делът на единиците от определена категория в аз та серия; - делът на единиците от тази категория в цялата извадка; р- брой избрани епизоди.

4. За да се определи средната грешка на типична извадка в случай на избор на единици пропорционално на размера на всяка група, средната стойност на вътрешногрупови отклонения(– за количествена характеристика, за алтернативна характеристика). Съгласно правилото за добавяне на дисперсии стойността на средната от вътрешногруповите дисперсии е по-малка от стойността обща дисперсия. Средна стойност възможна грешкатипичното вземане на проби е по-малко от грешката на обикновено правилно вземане на произволни проби.

Често се използва комбинирана селекция: индивидуалната селекция на единици се комбинира с групова селекция, типичната селекция се комбинира с селекция в серия. При всеки метод за подбор, с определена вероятност, може да се твърди, че отклонението на извадковата средна стойност (или дял) от общата средна стойност (или дял) няма да надвишава определена стойност, която се нарича пределна грешка проби.

Съотношението между границата на грешката на извадката (∆), гарантирана с известна вероятност F(t), и средната извадкова грешка има формата: или , където T – коефициент на доверие, определен в зависимост от степента на вероятност F(t).

Функционални стойности F(t) и T се определят на базата на специално съставени математически таблици. Ето някои от най-често използваните:

T

По този начин пределната грешка на извадката отговаря на въпроса за точността на извадката с определена вероятност, чиято стойност зависи от стойността на коефициента на доверие T. Да, при T = 1 вероятност F(t ) отклонението на извадковите характеристики от общите със стойност на единична средна грешка е 0,683. Следователно средно от всеки 1000 проби 683 ще дадат обобщени показатели (средно, дял), които ще се различават от общите с не повече от една средна грешка. При t = 2 вероятност F(t) е равно на 0,954, което означава, че от всеки 1000 проби 954 ще дадат общи показатели, които ще се различават от общите с не повече от два пъти средната грешка на извадката и т.н.

Заедно с абсолютна стойностпределната извадкова грешка се изчислява и относителна грешка, който се определя като процентпределна извадкова грешка спрямо съответната характеристика на извадковата популация:

На практика е обичайно да се задава стойността на ∆, като правило, в рамките на 10% от очакваното средно ниво на атрибута.

Изчисляването на средните и пределните грешки на извадката ви позволява да определите границите, в които ще бъдат характеристиките на генералната съвкупност:

Границите, в които с дадена степен на вероятност ще се съдържа неизвестна стойност на изследвания показател в генералната съвкупност, се наричат доверителен интервал, и вероятността F(t) вероятност за доверие. Колкото по-висока е стойността на ∆, толкова по-голяма е стойността доверителен интервали следователно по-ниска точност на оценката.

Помислете за следния пример. За определяне на средния размер на депозита в банка са избрани 200 валутни сметки на вложители по метода на повторната случайна извадка. В резултат на това се установи, че средният размердепозит - 60 хиляди рубли, дисперсията беше 32. В същото време 40 сметки се оказаха при поискване. Необходимо е с вероятност 0,954 да се определят границите, в които се намират средният размер на депозита по валутните сметки в банката и делът на сметките до поискване.

Изчислете средната грешка на средната стойност на извадката, като използвате формулата за повторен избор

Пределната грешка на средната стойност на извадката с вероятност от 0,954 ще бъде

Следователно средният депозит в банкови сметки в чуждестранна валута е в рамките на хиляда рубли:

С вероятност от 0,954 може да се твърди, че средният депозит в банкови сметки в чуждестранна валута варира от 59 200 до 60 800 рубли.

Нека определим дела на безсрочните депозити в извадката:

Средна грешка на примерния дял

Пределната грешка на акцията с вероятност от 0,954 ще бъде

По този начин делът на сметките до поискване в общата съвкупност е в рамките w :

С вероятност 0,954 може да се твърди, че делът на сметките на поискване в общия брой валутни сметки в банката варира от 14,4 до 25,6%.

При казусиважно е да се установи оптималното съотношение между мярката за надеждност на получените резултати и размера на допустимата грешка на извадката. В тази връзка при организиране на извадково наблюдение възниква въпросът, свързан с определяне на размера на извадката, необходим за получаване на необходимата точност на резултатите с дадена вероятност. Изчисляването на необходимия размер на извадката се извършва въз основа на формулите за пределната извадкова грешка в съответствие с вида и метода на подбор (Таблица 5.3).

Таблица 5.3

Формули за изчисляване на размера на извадката с подходящ метод на случаен подбор

Нека продължим примера, който представя резултатите от извадково проучване на личните сметки на вложителите в банката.

Необходимо е да се определи колко сметки трябва да бъдат проверени, така че с вероятност от 0,977 грешката при определяне на средната сума на депозита да не надвишава 1,5 хиляди рубли. Нека изразим от формулата за пределната извадкова грешка при повторен подбор показателя за размера на извадката:

При определяне на необходимия размер на извадката с помощта на горните формули става трудно да се намерят стойностите на σ2 и да, тъй като тези стойности могат да бъдат получени само след извадково проучване. В тази връзка, вместо действителните стойности на тези показатели, се заместват приблизителни, които могат да бъдат определени на базата на всеки опит примерни наблюденияили от предишни аналитични проучвания.

В случаите, когато статистикът знае средната стойност на изследваните характеристики (например от инструкции, законодателни актове и др.) или границите, в които тази характеристика варира, може да се приложи следното изчисление, като се използват приблизителни формули:

и произведението w(1 – w) трябва да бъде заменено със стойността 0,25 (w = 0,5).

За да получите повече точен резултат, вземете максималната възможна стойност на тези показатели. Ако разпределението на даден признак в генералната съвкупност се подчинява нормален закон, тогава диапазонът на вариация е приблизително равен на 6σ ( екстремни стойностиотделени в двете посоки от средното на разстояние 3σ). Следователно , но ако разпределението е очевидно асиметрично, тогава .

При всеки тип проба нейният обем започва да се изчислява съгласно формулата за повторно вземане на проби

Ако в резултат на изчислението делът на селекцията ( н ) надвишава 5%, тогава изчислението се извършва по формулата за неповтаряща се селекция.

За типична извадка е необходимо общият обем на извадката да се раздели между избраните типове единици. Изчисляването на броя на наблюденията от всяка група зависи от посочените по-рано организационни формитипична проба.

При типичния избор на единици, непропорционални на броя на групите, общият брой на избраните единици се разделя на броя на групите, получената стойност дава броя на селекцията от всяка типична група:

където к е броят на идентифицираните типични групи.

При избора на единици пропорционално на броя на типичните групи, броят на наблюденията за всяка група се определя по формулата

откъде е размерът на извадката аз -та група; - сила на звука аз -та група.

При избора, като се вземе предвид вариацията на признака, процентът на извадката от всяка група трябва да бъде пропорционален на стандартното отклонение в тази група (). Изчисляването на числото () се извършва по формулите

При сериен избор необходимият брой избрани серии се определя по същия начин, както при правилен произволен избор:

Повторна селекция

Неповтаряща се селекция

В този случай дисперсиите и грешките на извадката могат да бъдат изчислени за средната стойност или пропорцията на признака.

Когато се използва селективно наблюдение, характеристиките на неговите резултати са възможни въз основа на сравнение на получените граници на грешка на селективни показатели със стойността на допустимата грешка.

В тази връзка възниква проблемът с определянето на вероятността грешката на извадката да не надвишава допустимата грешка. Решението на този проблем се свежда до изчисление въз основа на формулата за пределната извадкова грешка на количеството T.

Продължавайки разглеждането на пример за примерно проучване на лични сметки на клиенти на банката, ще открием вероятността, с която може да се твърди, че грешката при определяне на средния размер на депозита няма да надвишава 785 рубли:

съответното ниво на достоверност е 0,95.

Понастоящем практиките за вземане на проби включват статистически наблюденияизвършено:

  • - органи на Росстат;
  • – други министерства и ведомства (например мониторинг на предприятия в системата на Банката на Русия).

Известно обобщение на опита в организирането на извадкови изследвания на малки предприятия, население и домакинства е представено в Методическите разпоредби по статистика. Дават повече широко понятиепримерно наблюдение от обсъденото по-горе (Таблица 5.4).

В статистическата практика се използват и четирите вида извадки, представени в табл. 5.4. Въпреки това, предпочитание обикновено се дава на описаните по-горе вероятностни (случайни) проби, които са най-обективни, тъй като могат да се използват за оценка на точността на резултатите, получени от данните на самата извадка.

Таблица 5.4

Примерни типове

В мостри квазислучаен тип вероятностният подбор се приема въз основа на това, че експертът, който разглежда извадката, я счита за приемлива. Пример за използването на квазислучайна извадка в статистическата практика е „Извадковото изследване на малките предприятия за изследване социални процесив малкия бизнес", проведено през 1996 г. в някои региони на Русия. Единиците за наблюдение (малки предприятия) бяха избрани експертно, като се отчита представителството на икономическите сектори от вече формираната извадка от изследването на финансовата и икономическата дейност на малките предприятия (формулярът "Информация за основните показатели за финансово-икономическата дейност малко предприятие") При обобщаване на извадковите данни се приема, че извадката е формирана по метода на обикновен случаен подбор.

директен използване на експертна преценка То е най общ методумишлено включване на единици в извадката. Пример за такъв метод за избор е монографичен метод, което включва получаване на информация само от една единица на наблюдение, което е характерно, според организатора на проучването - експерт.

Проби, базирани на избор на посока, се изпълняват чрез обективна процедура, но без използване на вероятностен механизъм. Широко известен е методът на основния масив, при който извадката включва най-големите (съществени) единици за наблюдение, които осигуряват основния принос към индикатора, напр. обща стойностфункция, представяща основната цел на проучването.

В статистическата практика се използва често комбиниран метод на статистическо наблюдение. Комбинацията от непрекъснати и селективни методи за наблюдение има два аспекта:

  • редуване във времето;
  • едновременното им използване (част от популацията се наблюдава непрекъснато, а част - селективно).

редуване необходимо е периодично вземане на проби с относително редки непрекъснати проучвания или преброявания, за да се изясни съставът на изследваната популация. След това тази информация се използва като статистическа основаселективно наблюдение. Примери за това са преброяванията на населението и извадковите проучвания на домакинствата между тях.

AT този случайса необходими следните задачи:

  • – определяне на състава от признаци на непрекъснато наблюдение, които осигуряват организацията на извадката;
  • – обосновка на периоди на редуване, т.е. когато непрекъснатите данни вече не са подходящи и са необходими разходи за актуализирането им.

Едновременна употреба в рамките на едно изследване на непрекъснати и извадкови наблюдения се дължи на разнородността на съвкупностите, срещани в статистическата практика. Това важи особено за изследванията на икономическата дейност на набор от предприятия, които се характеризират с изкривено разпределение на изследваните характеристики, когато определен брой единици имат характеристики, които се различават значително от по-голямата част от стойностите. В този случай такива единици се наблюдават непрекъснато, а другата част от съвкупността се наблюдава селективно.

При тази организация на наблюденията основните задачи са:

  • – установяване на оптималното им съотношение;
  • – разработване на методи за оценка на точността на резултатите.

Типичен пример, илюстриращ този аспект на приложението комбиниран метод, е общ принциппровеждане на проучвания на съвкупността от предприятия, според които изследванията на съвкупността от големи и средни предприятия се извършват предимно по непрекъснат метод, а малките предприятия - по извадков метод.

По-нататъшното развитие на методологията за вземане на проби се извършва както в комбинация с организирането на непрекъснато наблюдение, така и чрез организирането на специални изследвания, провеждането на които е продиктувано от необходимостта да се получат Допълнителна информацияза решаване на конкретни проблеми. По този начин организирането на проучвания в областта на условията и жизнения стандарт на населението се предвижда в два аспекта:

Задължителни компоненти могат да бъдат годишните изследвания на доходите, разходите и потреблението (подобно на изследванията на домакинските бюджети), които включват и основни показатели за условията на живот на населението. Всяка година по специален план задължителните компоненти трябва да се допълват с еднократни изследвания (модули) на условията на живот на населението, насочени към задълбочено проучваневсеки избран социална темаот тях общ брой(напр. домакински активи, здраве, хранене, образование, условия на труд, жилище, свободно време, социална мобилност, безопасност и др.) с различна честота, обусловена от необходимостта от показатели и ресурсни възможности.

Концепцията и изчисляването на грешката на извадката.

Задачата на селективното наблюдение е да даде правилни представи за обобщените показатели на цялата съвкупност въз основа на част от тях, подложени на наблюдение. Нарича се възможното отклонение на извадковия дял и извадковата средна стойност от дела и средната стойност в генералната съвкупност грешка при вземане на проби или грешка в представителността. Колкото по-голяма е стойността на тази грешка, толкова повече показателите на извадковото наблюдение се различават от тези на генералната съвкупност.

Различават:

Грешки при вземане на проби;

Грешки при регистрацията.

Грешки при регистрациятавъзникват, когато даден факт е неправилно установен в процеса на наблюдение. Те са характерни както за непрекъснатото наблюдение, така и за избирателното наблюдение, но са по-малко при избирателното наблюдение.

Естеството на грешката е:

Тенденциозно – преднамерено, т.е. бяха избрани или най-добрите, или най-лошите единици от популацията. В този случай наблюденията губят смисъл;

Случаен - основният организационен принцип на селективното наблюдение е да се предотврати преднамерен подбор, т.е. гарантира стриктно спазване на принципа на случаен подбор.

Общо правилослучаен изборе: отделните единици от генералната съвкупност трябва да имат абсолютно еднакви условия и възможности да попаднат в броя на единиците, включени в извадката. Това характеризира независимостта на резултата от пробата от волята на наблюдателя. Волята на наблюдателя поражда тенденциозни грешки. Грешката на извадката при произволен избор е случаен характер. Той характеризира големината на отклоненията на общите характеристики от извадковите.

Поради факта, че характеристиките в изследваната съвкупност варират, съставът на единиците в извадката може да не съвпада със състава на единиците на цялата съвкупност. Означава, че Ри не съвпадат с Уи . Възможното несъответствие между тези характеристики се определя от грешката на извадката, която се определя по формулата:

където - обща дисперсия.

където е дисперсията на извадката.

Това показва откъде се различава общата дисперсия дисперсия на извадкатана време.

Има повторна и неповтаряща се селекция. Същността на повторната селекция е, че всяка единица в извадката след наблюдение се връща в генералната съвкупност и може да бъде повторно изследвана. При повторна проба се изчислява средната грешка на извадката:

За показателя за дела на алтернативен признак дисперсията на извадката се определя по формулата:

На практика преизборът се използва рядко. При без преизбиране, размер на населението ннамалява по време на вземането на проби, формулата за средната грешка на вземане на проби за количествен атрибут е:



, тогава

Една от възможните стойности, в които може да бъде делът на изследваната черта, е равна на:

където е грешката на извадката на алтернативната характеристика.

Пример.

При извадково проучване 10% от продуктите от партидата готови продукти по метода без повторна селекция получиха следните данни за съдържанието на влага в пробите.

Определете средната влажност %, дисперсия, стандартно отклонение, с вероятност от 0,954 възможни граници, в който очакваме вж. % влажност на всички готови продукти, с вероятност от 0,987 възможни граници специфично теглостандартни продукти, при условие че нестандартната партида включва продукти с влажност до 13 и над 19%.

Само с известна вероятност може да се твърди, че общият дял на дела на извадката и общата средна стойност на средната стойност на извадката се отклоняват в Tведнъж.

В статистиката тези отклонения се наричат пределни грешки на извадката и са маркирани.

Вероятността от присъди може да бъде увеличена или намалена Tведнъж. С вероятност 0,683, с 0,954, с 0,987, тогава показателите на генералната съвкупност се определят от показателите на извадката.

Както вече знаем, представителността е свойството на извадкова съвкупност да представя характеристика на генералната съвкупност. Ако няма съвпадение, те говорят за грешка на представителността - мярката за отклонение на статистическата структура на извадката от структурата на съответната генерална съвкупност. Да предположим, че средният месечен семеен доход на пенсионерите в общото население е 2 хиляди рубли, а в извадката - 6 хиляди рубли. Това означава, че социологът е интервюирал само заможната част от пенсионерите и в изследването му се е прокраднала грешка в представителността. С други думи, грешката в представителността е несъответствието между две множества - общото, към което е насочен теоретичният интерес на социолога и представата за свойствата, които той иска да получи в крайна сметка, и селективното , към който е насочен практическият интерес на социолога, който действа едновременно като обект на изследване и средство за получаване на информация за общата съвкупност.

Заедно с термина "грешка в представителността" в местната литература можете да намерите друга - "грешка на извадката". Понякога те се използват взаимозаменяемо, а понякога „грешка на извадката“ се използва вместо „грешка в представителността“ като количествено по-точна концепция.

Грешка на извадката е отклонението на средните характеристики на извадката от съвкупността от средните характеристики на генералната съвкупност.

На практика грешката на извадката се определя чрез сравняване на известните характеристики на съвкупността с извадковите средни стойности. В социологията проучванията на възрастното население най-често използват данни от преброявания на населението, текущи статистически записи и резултати от предишни проучвания. Социално-демографските характеристики обикновено се използват като контролни параметри. Сравнението на средните стойности на генералната и извадковата популации, въз основа на което определянето на грешката на извадката и нейното намаляване се нарича контрол на представителността. Тъй като в края на изследването може да се направи сравнение на собствените и чуждите данни, този метод на контрол се нарича апостериори, т.е. извършва се след опит.

В социологическите проучвания на Gallup представителността се контролира от наличните данни в националните преброявания относно разпределението на населението по пол, възраст, образование, доход, професия, раса, място на пребиваване, размер местност. Всеруски изследователски център обществено мнение(VTsIOM) използва за такива цели такива показатели като пол, възраст, образование, тип населено място, семейно положение, сфера на заетост, официален статус на респондента, които са заимствани от Държавния комитет по статистика на Руската федерация. И в двата случая населението е известно. Грешката на извадката не може да бъде установена, ако стойностите на променливата в извадката и популацията са неизвестни.

По време на анализа на данните специалистите на VTsIOM осигуряват цялостен ремонт на пробата, за да се сведат до минимум отклоненията, възникнали по време на работа на терен. Особено силни размествания се наблюдават по пол и възраст. Това се обяснява с факта, че жените и хората с висше образованиепрекарвайте повече време у дома и по-лесно установявайте контакт с интервюиращия; са леснодостъпна група в сравнение с мъжете и хората, които са „необразовани”35.

Грешката на извадката се дължи на два фактора: метода на извадката и размера на извадката.

Извадковите грешки се делят на два вида - случайни и систематични. Случайната грешка е вероятността, че средната стойност на извадката ще (или няма) да надхвърли определен интервал. Случайните грешки включват статистически грешки, присъщи на самия метод на извадка. Те намаляват с увеличаване на размера на извадката.

Вторият вид извадкова грешка е систематичната грешка. Ако социолог реши да разбере мнението на всички жители на града за продължаващото местни властиавторитети в социалната политика и са интервюирани само тези, които имат телефон, то има умишлено пристрастие в извадката в полза на богатите слоеве, т.е. систематична грешка.

Така систематичните грешки са резултат от дейността на самия изследовател. Те са най-опасните, защото водят до доста значителни отклонения в резултатите от изследването. Систематичните грешки се считат за по-лоши от случайните и защото не могат да бъдат контролирани и измерени.

Те възникват, когато например: 1) извадката не отговаря на целите на изследването (социологът решава да изследва само работещите пенсионери, но интервюира всички подред); 2) има непознаване на природата на общото население (социологът смяташе, че 70% от всички пенсионери не работят, но се оказа, че само 10% не работят); 3) избрани са само „печеливши“ елементи от общото население (например само богати пенсионери).

внимание! За разлика от случайните грешки, систематичните грешки не намаляват с увеличаване на размера на извадката.

Обобщавайки всички случаи на системни грешки, методистите изготвиха регистър за тях. Те вярват, че източникът на неконтролирани отклонения в разпределението на примерните наблюдения може да бъде следните фактори:
♦ методически и методически правила за провеждане социологически изследвания;
♦ избрани са неадекватни методи за вземане на проби, събиране на данни и методи за изчисляване;
♦ извършена е замяна на необходимите единици за наблюдение с други, по-достъпни;
♦ Беше отбелязано непълно покритие на извадковата популация (липса на въпросници, непълно попълване на въпросници, недостъпност на единиците за наблюдение).

Социолозите рядко правят умишлени грешки. Най-често грешките възникват, защото социологът не е добре запознат със структурата на общата съвкупност: разпределението на хората по възраст, професия, доход и т.н.

Систематичните грешки са по-лесни за предотвратяване (в сравнение със случайните), но са много трудни за отстраняване. Най-добре е да се предотвратят системните грешки, като се предвидят точно техните източници предварително – още в самото начало на изследването.

Ето няколко начина за избягване на грешки при извадката:
♦ всяка единица от генералната съвкупност трябва да има еднаква вероятност да бъде включена в извадката;
♦ желателно е да се подбират от хомогенни популации;
♦ необходимост от познаване на характеристиките на общата популация;
♦ Случайните и систематичните грешки трябва да се вземат предвид при съставянето на извадката.

Ако извадката (или само извадката) е съставена правилно, тогава социологът получава надеждни резултати, които характеризират цялото население. Ако е съставен неправилно, тогава грешката, възникнала на етапа на извадката, се умножава на всеки следващ етап от социологическото изследване и в крайна сметка достига стойност, която надвишава стойността на изследването. Говори се, че подобни изследвания носят повече вреда, отколкото полза.

Такива грешки могат да възникнат само с извадкова популация. За да избегнете или намалите вероятността от грешка, най-лесният начин е да увеличите размера на извадката (в идеалния случай до размера на популацията: когато и двете популации съвпадат, грешката на извадката ще изчезне напълно). Икономически този метод е невъзможен. Има и друг начин - да се подобри математически методивземане на проби. Те се прилагат в практиката. Това е първият канал за проникване в социологията на математиката. Втори канал - математическа обработкаданни.

Особено важен въпросгрешки стават при маркетингови проучвания, където се използват не много големи извадки. Обикновено те съставляват няколкостотин, по-рядко - хиляда респонденти. Тук началната точка за изчисляване на извадката е въпросът за определяне на размера на извадката. Размерът на извадката зависи от два фактора: 1) разходите за събиране на информация и 2) стремежа към определена степен статистическа валиднострезултати, които изследователят се надява да получи. Разбира се, дори хора, които нямат опит в статистиката и социологията, интуитивно разбират, че колкото по-голям е размерът на извадката, т.е. колкото по-близки са те до размера на генералната съвкупност като цяло, толкова по-достоверни и надеждни са получените данни. Въпреки това, ние вече говорихме по-горе за практическата невъзможност за пълни проучвания в случаите, когато те се извършват на обекти, чийто брой надхвърля десетки, стотици хиляди и дори милиони. Ясно е, че разходите за събиране на информация (включително заплащане за репликация на инструменти, труд на въпросници, полеви мениджъри и компютърни оператори) зависят от сумата, която клиентът е готов да отдели, и зависят малко от изследователите. Що се отнася до втория фактор, на него ще се спрем малко по-подробно.

Така че колкото по-голям е размерът на извадката, толкова по-малка е възможната грешка. Въпреки че трябва да се отбележи, че ако искате да удвоите точността, ще трябва да увеличите пробата не два, а четири пъти. Например да направи два пъти повече точна оценкаданни, получени чрез интервюиране на 400 души, трябва да интервюирате не 800, а 1600 души. Малко вероятно е обаче маркетинговото проучване да се нуждае от 100% точност. Ако пивоварът трябва да разбере каква част от потребителите на бира предпочитат неговата марка, а не сорта на неговия конкурент - 60% или 40%, тогава разликата между 57%, 60 или 63% няма да повлияе на плановете му.

Грешката на извадката може да зависи не само от нейния размер, но и от степента на разликите между отделните единици в генералната съвкупност, която изучаваме. Например, ако искаме да знаем колко бира се консумира, тогава откриваме, че сред нашето население нивата на потребление за различни хорасе различават значително (хетерогенна обща популация). В друг случай ще изследваме консумацията на хляб и ще установим това различни хоратя се различава много по-малко значително (хомогенна популация). Колкото по-голяма е разликата (или хетерогенността) в популацията, толкова по-голям е размерът на възможната грешка при вземане на проби. Тази закономерност само потвърждава това, което простото здрав разум. Така, както правилно отбелязва В. Ядов, „размерът (обемът) на извадката зависи от нивото на хомогенност или разнородност на изследваните обекти. Колкото по-хомогенни са те, толкова по-малък брой може да осигури статистически надеждни заключения.

Определянето на размера на извадката зависи и от нивото на доверителния интервал на допустимата статистическа грешка. Тук имаме предвид така наречените случайни грешки, които са свързани с естеството на всяка статистическа грешка. В И. Паниото дава следните изчисления представителна извадкас допускане на грешка от 5%:
Това означава, че ако вие, интервюирайки, да речем, 400 души в областен град, където пълнолетното платежоспособно население е 100 хил. души, установите, че 33% от анкетираните купувачи предпочитат продуктите на местен месопреработвателен завод, то с 95 % вероятност можете да кажете, че 33+5% (т.е. от 28 до 38%) от жителите на този град са редовни купувачи на тези продукти.

Можете също да използвате изчисленията на Gallup, за да оцените съотношението между размерите на извадката и грешката на извадката.