Биографии Характеристики Анализ

Как да изчислим пробата за изследването. Обща съвкупност и извадков метод

Формулата по-долу за изчисляване размер на извадкатасе използва в случаите, когато на респондентите (респондентите) е зададен само един въпрос, на който има само два възможни отговора. Например „Да“ и „Не“; „Използвам“ и „Не използвам“. Разбира се, тази формуламоже да се използва само за прости изследвания. Ако трябва да определите размера на извадката за повече от широкомащабни изследвания, например въпросници, тогава трябва да се използват други формули.

Проста формула за изчисляване на размера на извадката

където: н– размер на извадката;

zе нормализирано отклонение, определено въз основа на избраното ниво на достоверност. Този показател характеризира възможността, вероятността за получаване на отговори в специален доверителен интервал. На практика нивото на доверие често се приема като 95% или 99%. Тогава стойностите на z ще бъдат съответно 1,96 и 2,58;

стр– вариация за извадката, в дялове. По същество p е вероятността респондентите да изберат един или друг вариант на отговор. Да предположим, че ако смятаме, че една четвърт от респондентите ще изберат отговора "Да", тогава p ще бъде равно на 25%, т.е. p = 0,25;

р= (1 – p);

д– допустима грешка, в дроби.

Пример за изчисляване на размера на извадката

Компанията планира да социологически изследванияза да се установи делът на пушачите от населението на града. За да направят това, служителите на компанията ще задават на минувачите един въпрос: „Пушите ли? Възможни опцииСледователно има само два отговора: „Да“ и „Не“.

Размерът на извадката в този случай се изчислява по следния начин. Нивото на доверителност се приема като 95%, след което е нормализирано отклонение z = 1,96. Приемаме вариацията като 50%, тоест условно смятаме, че половината от анкетираните могат да отговорят на въпроса дали пушат - „Да“. Тогава р=0,5. От тук намираме q = 1 – p = 1 – 0,5 = 0,5 . Допустимата грешка на извадката се приема като 10%, т.е е = 0,1.

Заместваме тези данни във формулата и изчисляваме:

Получаване на размера на извадката n = 96 души.

Обхват на тази формула

При провеждане прости изследваниякогато трябва да получите отговор само на един прост въпрос. В този случай скалата на отговорите като правило има дихотомичен характер. Тоест предлагат се (или се подразбират) отговори от типа "Да" - "Не", "Черно" - "Бяло" и т.н.

Характеристики на тази формула за изчисляване на размера на извадката

Галяутдинов Р.Р.


© Копирането на материал е разрешено само ако посочите директна хипервръзка към

Размерът на извадката трябва да се определи преди започване на повечето количествени изследвания. Не се изисква определяне на размера на извадката качествени изследвания(Имайте предвид, че това се отнася до формално количествени методи като анализ на съдържание; простите описателни проекти са количествени.) Изчисляването на размера на извадката може да не се извърши преди провеждането на предварителни пилотни проучвания (въпреки това, такива проучвания обикновено се извършват преди действителното планиране научно изследване). Ако се съмнявате, не забравяйте да се свържете с институцията, която финансира проучването или го включва в своя изследователски план - липсата на данни за размера на извадката е една от най- общи причиниотказ за одобрение на темата

Защо размерът на извадката е важен за един изследовател?

Когато се провеждат проучвания, които определят разпространението на характеристика в популация (например разпространението на астма при деца), изчисленията на размера на извадката са необходими, за да се гарантира, че получените оценки имат желаната степен на точност. Например, разпространение на заболяването от 10%, получено от размер на извадка от 20, би имало 95% доверителен интервал от 1% до 31%, което не е нито точно, нито информативно. От друга страна, разпространение на заболяването от 10%, получено от извадка от 400 души, би имало 95% доверителен интервал от 7% до 13%, което може да се счита за доста точен резултат. оценяването на размера на извадката избягва първата от тези две опции.

В проучвания, предназначени да открият ефект (напр. разлика в ефикасността между две лечения, относителен риск от заболяване с или без рисков фактор), оценката на размера на пробата е важна, за да се гарантира, че ако клинично или биологично важен ефектсъществува, тогава то висока степенвероятността ще бъде открита, с други думи, анализът ще даде статистически значими резултати. Ако размерът на извадката е малък, дори ако значителни разликимежду групите, ще бъде невъзможно да се докаже, че те са резултат от нещо различно от променливост на извадката.

Информация, необходима за изчисляване на размера на извадката

Методите за оценка на размера на извадката са описани в редица учебници по статистика, включително Altman, 1991; Бланд, 2000; Armitage, Berry and Matthews, 2002. Две книги са специализирани в описание на методи за оценка на размера на извадката в различни ситуации. За качествени параметри трябва да се направи справка с работата на Manchin et al. (1998), за качество - Lemeshow et al. (1996). И двете книги предоставят таблици, които да помогнат при изчисляването на размера на извадката. В случай на серийни опити трябва да се направи препратка към Whitehead (1997 г.) Действителните изчисления на размера на извадката могат да бъдат извършени с помощта на една от многото компютърни програми. Например, програмата Stata ви позволява да анализирате размера на извадката, необходим за сравнение на средни стойности и пропорции, както и анализ на разпространението. Много голямо количествоопциите предлагат специализирани пакети като nQuery Advisor или UnifyPow.

Изчисляването на размера на извадката зависи от следните фактори, които ще трябва да бъдат докладвани на статистик-консултант:

  • Променливи, изследвани в проучването, включително техните видове
  • Необходима изследователска мощност
  • Изисквано ниво статистическа значимост
  • Размер на ефекта, който е клинично значим
  • Стандартно отклонение за мащабни променливи
  • Дали ще се използва едностранен или двустранен тест за значимост
  • Дизайнът на изследването, с други думи, е проучването:
    • рандомизирано контролирано проучване
    • Клъстерно рандомизирано изпитване
    • Изследване на еквивалентност
    • Нерандомизирано интервенционно проучване
    • наблюдателно изследване
    • проучване на разпространението
    • Изследване на чувствителността и специфичността на теста

Това ще изисква отговор на редица допълнителни въпроси:

  • Включени ли са сдвоени данни в изследването?
  • Проучването ще измерва ли едни и същи променливи многократно при едно и също лице?
  • Групите, включени в изследването, еднакви ли са по размер?
  • Йерархични ли са данните?

Трябва да се има предвид, че нерандомизираните изследвания на разликите или връзките обикновено изискват значително по-голям размер на извадката, за да се вземе предвид влиянието на трети променливи в анализа. В същото време изследователят се интересува от абсолютния размер на извадката, а не от процента, който тя съставлява от съвкупността като цяло.

Какви статистически термини се използват за описание на процеса на планиране на размера на извадката

Нулеви и алтернативни хипотези

много видове Статистически анализнасочени към сравняване на две видове лечение, процедури или групи пациенти. Числената стойност, която обобщава разликите, представляващи интерес за изследователя, се нарича ефект. В други проучвания ефектът може да бъде коефициент на корелация, коефициент на шансове или относителен риск. След това изложихме нулевата и алтернативната хипотеза. Обикновено нулевата хипотеза гласи, че няма ефект (разликите между групите са нулеви, относителен риск равно на едно, коефициентът на корелация е нула), алтернативната хипотеза предполага, че има ефект.

Вероятност за доверие (p-стойност)

P-стойността е вероятността да се наблюдава същият или по-голям ефект в изследване, като се има предвид валидността на нулевата хипотеза. Обикновено се изразява като пропорция (напр. p=0,03)

Ниво на значимост

Нивото на значимост е праговата стойност за p-резултат, под който нулевата хипотеза трябва да бъде отхвърлена и се прави заключението, че има доказателство за ефект. Обикновено нивото на значимост е зададено на стойност от 5% (Нивото на значимост, въпреки пряката връзка с p-резултата, се изразява като процент: ниво на значимост от 5% е еквивалентно на p=0,05). Ако наблюдаваната стойност е по-малка от 5%, тогава има малък шанс изследването да получи такива резултати, ако нямаше истински ефект. Следователно се приема хипотезата за наличие на ефекта.

Ниво на значимост от 5% също означава, че има почти 5% шанс да се стигне до заключението, че има ефект, когато всъщност няма такъв. Понякога е по-подходящо да се използва ниво на значимост от 1%, особено ако е много важно да се избегне заключението, че даден ефект съществува, когато всъщност не е така.

Мощност

Силата е вероятността, че нулева хипотезаще бъдат адекватно отхвърлени, с други думи, когато наистина има доказателства за реални различия или взаимоотношения. Може да се мисли като "100 процента минус шанса да пропуснете истинския ефект". следователно, колкото по-висока е мощността, толкова по-малко вероятно е истинският ефект да бъде пропуснат. Мощността обикновено е фиксирана на 80%, 90% или 95%. Мощността не трябва да бъде по-малка от 80%. Ако е критично изследването да не пропусне съществуващ ефект, трябва да се стремите към мощност от 90% или повече.

Клинично важен размер на ефекта

Това са най-малките разлики между груповите средни стойности или процентите на събитията в тях (коефициенти на шансове, най-близки до единния риск), които все още могат да се считат за биологично или клинично значими. Размерът на извадката трябва да бъде такъв, че ако съществуват такива разлики, тогава изследването ще доведе до статистически значими резултати.

Едностранен или двустранен тест за значимост

При двустранен тест нулевата хипотеза е, че няма разлика, а алтернативната хипотеза е, че разликите между групите могат да вървят в двете посоки. При едностранен тест алтернативната хипотеза определя предвидената посока на разликата, като например, че лечението е по-добро от плацебо, а нулевата хипотеза включва ситуации, при които ефектът на лекарството и плацебото е еднакъв и където резултатите от лекарството с по-лош резултат от плацебо.

Ако не сериозни причиниза да не се прави това, трябва да се използва двустранна хипотеза. Очакването, че различията ще вървят в една или друга посока, не е достатъчна причина да се използва едностранен тест. Медицинските изследователи често са изненадани, ако резултатът не е това, което се очакваше, много често такова откритие има други последствия, освен липса на разлика, и следователно трябва да бъде адекватно описано. Едностранният тест не позволява това. За примери на ситуации, в които едностранен тест може да бъде приемлив, вижте Bland и Altman (1994).

Какви променливи трябва да се вземат предвид при изчисляване на размера на извадката

Изчисляването на размера на извадката трябва да се основава на анализа на основната променлива на резултата в това проучване.

Ако в изследването са включени допълнителни променливи, които също се считат за важни научна значимост, тогава размерът на извадката трябва да бъде такъв, че да позволява адекватен анализ на тези променливи. За всички важни научнотрябва да се извършат променливи и да се представи изчислението на размера на извадката.

Процент на отчитане на загубата при отговор и наблюдение

Приблизителният размер на извадката показва броя на пациентите в крайната група, анализирана в края на изследването. Следователно броят на лицата, които трябва да бъдат включени в проучването, трябва да бъде увеличен според очаквания отговор, загуба на проследяване, неспазване на протокола и други възможни причини за загуба на експериментални субекти. Връзката между очаквания брой участници и размера на извадката, която трябва да се формира, трябва да бъде ясно описана.

Съответствие с целите на изследването и методите за статистически анализ

Адекватността на размера на извадката също трябва да бъде оценена според целта на изследването. Например, ако целта на едно проучване е да се докаже, че ново лекарство е по-добро от съществуващо, е необходимо да се гарантира, че размерът на извадката позволява откриване на клинично значими разлики между двете лечения. Понякога обаче се изисква да се докаже, че две лекарства са клинично еквивалентни. Този тип изследване често се нарича тест за еквивалентност или „отрицателен“. Проблемите с размера на извадката за тези проучвания са описани подробно в Pocock (1983). Размерът на извадката в проучванията, насочени към доказване на еквивалентността на лекарствата, е по-голям, отколкото в проучванията, които имат за цел да идентифицират разликите в ефикасността. Наложително е да се гарантира, че изчисленията на размера на извадката са свързани с целите и задачите на изследването и се основават на данни за основната променлива на резултата.

Размерите на извадката също трябва да са подходящи за методите за анализ, използвани в изследването, тъй като както размерът на извадката, така и анализът зависят от избрания дизайн на изследването. От съществено значение е да се гарантира, че предвидените методи за анализ и изчисленията на размера на извадката са съвместими помежду си.

Примери за изчисляване на размера на извадката.

Ако планираното изследване изисква една оценка на честотата, сравнение на две средни стойности или сравнение на две честоти, изчисленията на размера на извадката (обикновено) са относително прости и затова са представени по-долу. Препоръчваме обаче винаги да се консултирате със статистик относно изчисленията на размера на извадката.

Оценка на една единствена честота

Забележка: Формулата по-долу е базирана на т.нар. "приблизително нормална дистрибуция" и, освен ако не е планирано да се създаде много голяма извадка, не се препоръчва да се оценяват честоти, близки до 0 или 1 (0: или 100%. В такива случаи трябва да се използват "точни" методи. Подобна ситуацияможе да се наблюдава при изследване на чувствителността и специфичността на нов диагностичен метод, където се очаква наличието на честоти близки до 1 (100%). AT този случайтрябва да се направи консултация със статистик или поне да се използват специализирани компютърни програми.

Сценарий: Използвайте въпросник по пощата, за да оцените разпространението на респираторни проблеми при пациенти с бронхиална астма под медицинско наблюдение. Генерална репетиция(Томас и др., 2001 г.)

Задължителна информация:

  • Първична изходна променлива = наличие или липса на дихателна недостатъчност
  • Прогнозна честота на нарушенията = 30% (0,3)
  • Изисква се 95% ширина на доверителния интервал = 10% (т.е. +/-5% или 25% до 35%)

Формулата за оценка на размера на извадката на една честота е:

n=15,4*p*(1-p)/W2

където n е необходимият размер на извадката, p е очакваната честота на резултата (в този случай 0,3) и W е ширината на доверителния интервал (в този случай 0,1)

Замествайки стойностите във формулата, получаваме:

n=15,4*0,3*(1-0,3)/0,1 2 =324

„За да се получи +/-5% доверителен интервал около оценка на разпространението от 30%, ще е необходима извадка от 324 души. Като се има предвид 70% отговор на предложението за участие в проучването, ще бъдат раздадени 480 въпросника“

Сравнение на две честоти

Сценарий: Планирано е рандомизирано, плацебо-контролирано проучване за ефикасността на фактора, стимулиращ колониите, за намаляване на риска от сепсис при недоносени бебета. Предишно проучване показа, че честотата на сепсис при тези деца е 50% в рамките на 2 седмици след раждането и изследователите смятат, че намаляването на тази честота до 34% би било клинично значимо.

Задължителна информация:

  • Първична променлива на резултата = наличие или липса на сепсис при новородени 14 дни след раждането (лечение, приложено до максимум 72 часа след раждането). Това е качествена променлива, представена от честоти.
  • Значителна разлика = 16% или 0,16 (т.е. 50%-34%)
  • Ниво на значимост=5%
  • Мощност=80%
  • Тест=двустранен

Формулата за изчисляване на размера на извадката при сравняване на две честоти е:

n= 2 *[(p 1 *(1-p 1)+(p 2 *(1-p 2)))]/ 2

където n = размер на извадката за всяка група ( общ размердва пъти повече проби)

p 1 = първа честота - в този случай 0,50

p 2 = втора честота - в този случай 0,34

p 1 -p 2 = клинично значима разлика, в този случай 0,16

Таблица със стойности за A и B

Ниво на значимост

Мощност

Замествайки стойностите във формулата, получаваме:

n= 2 *[(0,5*0,5+(0,34*0,66)]/ 2 =146

Така получаваме необходимия брой наблюдения, за да бъдат включени във всяка от групите. Общо населениеизвадката ще бъде двойно по-голяма, т.е. 292 деца

Описание на резултатите от изчисляването на размера на извадката може да изглежда така:

„Проба от 292 новородени (146 в групата на лечение и групата на плацебо) би била достатъчна за откриване на разлика в честотата на сепсис от 16% с 80% мощност при ниво на достоверност от 5%. 16% разлика се равнява на разликата между 50% сепсис честота на 14-ия ден в групата на плацебо и 34% в групата на лечение."

Сравнение на две средни стойности

Забележка: Изчисленията по-долу са валидни само когато двете групи са с еднакъв размер.

Сценарий: Планирано е рандомизирано контролирано проучване, сравняващо краткосрочно психологическо лечение спрямо конвенционално лечение за борба със суицидните тенденции при пациенти, хоспитализирани след опит за самоубийство. Суицидните тенденции се измерват с помощта на скалата на Бек. Стандартното отклонение за резултатите по тази скала е 7,7 (данни от предишни проучвания), а разликите от 5 точки по скалата на Beck се считат за клинично значими. Очаква се до една трета от пациентите да отпаднат от групата за лечение (Guthrie et al., 2001)

Необходима информация:

  • Променлива на първичния резултат = скала за суицидност на Beck. Непрекъсната променлива, описана със средства
  • Стандартно отклонение=7,7 точки
  • Размер на клинично значим ефект = 5 точки
  • Ниво на значимост=5%
  • Мощност=80%
  • Тест=двустранен

Формулата за изчисляване на размера на извадката при сравняване на две средни е следната:

n= 2 *2*SD 2 /DIFF 2

където n = размер на извадката за всяка група (общият размер на извадката е два пъти по-голям)

SD = стандартно отклонение за променливата на първичния резултат, в този случай 7.7

DIFF=клинично важен ефект, в този случай 5,0

A - зависи от нивото на значимост (виж таблицата) - в този случай 1,96

B - зависи от мощността (виж таблицата) - в този случай 0,84

Таблица със стойности за A и B

Ниво на значимост

Мощност

Заместване необходими стойностивъв формулата, която получаваме:

n= 2 *2*7,7 2 /5,0 2 =38

Така получаваме необходимия брой наблюдения, за да бъдат включени във всяка от групите. Общият размер на извадката ще бъде два пъти по-голям, т.е. 76 души.

Адекватно описание на оценката на размера на извадката би било както следва:

„За да се открие разлика от 5 точки по скалата на Бек за суицидна склонност при 5% ниво на значимост с 80% мощност, приемайки стандартно отклонение от 7,7 точки, ще са необходими 38 души в интервенционната и контролната група. Този брой беше увеличен до 60 в групата ( обща суманаблюдения 120), за да се компенсира загубата на наблюдение, което обикновено е около една трета от субектите "

Примери за неадекватни описания на очакваните необходими размери на извадката

Пример 1

„Предишното проучване в тази област използва извадка от 150 души и получи много надеждни резултати (p = 0,014), така че подобен брой пациенти е включен в това проучване“

Предишни проучвания може да са били просто „късметлии“ в смисъл, че значителните резултати, които са открили, се дължат на произволни вариации в средните стойности на извадката. Необходимо е да се изчисли размерът на извадката това учение- включително подробности като сила на изследването, ниво на значимост, основна изследвана променлива, клинично значим размер на ефекта, стандартно отклонение (за количествени променливи) и размер на всяка група, ако има няколко групи в изследването

Пример 2

„Размерът на извадката не беше изчислен, защото нямаше предварителна информация за оценката му“

Литературата трябва да бъде внимателно прегледана, за да се намери необходимата информация за изчисляване на размера на извадката. Ако тази информация не е налична, може да се организира малко предварително проучване за събиране на тази информация.

Ако няма информация за стойността стандартно отклонение, изчисленията за размера на извадката могат да бъдат дадени в повече общ изглед, например, разликите, които са клинично ефективни, може да не бъдат описани в абсолютни стойности, но в единици стандартно отклонение.

Въпреки това, ако се изготвя предложение за безвъзмездни средства за финансиране на пилотно проучване за събиране на информация, необходима за изчисляване на размера на извадката от последващо голямо проучване, тогава изчисляването на размера на извадката не се извършва в такова предложение.

"Клиниката приема 50 пациенти с това заболяване през годината. Около 10% от тях могат да откажат да участват в проучването. Следователно в рамките на две години ще бъде възможно да се набере извадка от 90 души"

Въпреки че повечето проучвания трябва да балансират своя дизайн с мощност, размерът на извадката не трябва да се определя единствено въз основа на броя пациенти, налични за изследването.

В ситуации, в които броят на пациентите е ограничаващ фактор за размера на извадката, все пак трябва да се направят изчисления, за да се установи а) силата на изследването с даден брой пациенти спрямо клинично важни разлики или б) размерът на ефекта които могат да бъдат намерени в изследване с даден размер (като се има предвид неговата мощност).

В случаите, когато наличният брой пациенти е твърде малък, за да се открият клинично значими разлики, може да се обмисли удължаване на продължителността на проучването или провеждане на съвместно многоцентрово изпитване с множество изследователи.

Литература

  1. Алтман Д.Г. (1991) Практическа статистика за медицински изследвания. Чапман и Хол, Лондон.
  2. Армитидж П, Бери Г, Матюс JNS. (2002) Статистически методи в медицинските изследвания, 4-то издание. Блекуел, Оксфорд.
  3. Bland JM и Altman DG. (1994). Едно и двустранни тестове на значимост. British Medical Journal 309 248.
  4. Bland M. (2000) Въведение в медицинската статистика, 3rd. изд. Oxford University Press, Оксфорд.
  5. Elashoff JD. (2000) nQuery Advisor Версия 4.0 Ръководство на потребителя Лос Анджелис, Калифорния.
  6. Guthrie E, Kapur N, Mackway-Jones K, Chew-Graham C, Moorey J, Mendel E, Marino-Francis F, Sanderson S, Turpin C, Boddy G, Tomenson B. (2001) Рандомизирано контролирано проучване на кратка психологическа интервенция след умишлено самоотравяне. British Medical Journal 323, 135-138.
  7. Lemeshow S, Hosmer DW, Klar J & Lwanga SK. (1996) Адекватност на размера на извадката в здравните изследвания. John Wiley & Sons, Чичестър.
  8. Machin D, Campbell MJ, Fayers P, Pinol, A. (1998) Статистически таблици за проектиране на клинични проучвания, второ издание Blackwell, Oxford.
  9. Pocock SJ. (1983) Клинични изпитвания: Практически подход. Джон Уайли и синове, Чичестър.
  10. Thomas M, McKinley RK, Freeman E, Foy C. (2001) Разпространение на дисфункционално дишане при пациенти, лекувани за астма в първичната медицинска помощ: проучване на напречното сечение. British Medical Journal 322, 1098-1100.
  11. Whitehead, J. (1997) Дизайнът и анализът на последователни клинични изпитвания, ревизиран 2-ри. изд. Чичестър, Уайли.
КАЛКУЛАТОРИ

Население

Общият брой на обектите на наблюдение (хора, домакинства, предприятия, селищаи др.), които имат определен набор от признаци (пол, възраст, доход, брой, оборот и др.), ограничени в пространството и времето. Примери за население: - Всички жители на Москва (10,6 милиона души според преброяването от 2002 г.) - Мъже московчани (4,9 милиона души според преброяването от 2002 г.) - Юридически лицаРусия (2,2 милиона в началото на 2005 г.) - Търговски обекти за продажба на хранителни продукти (20 хиляди в началото на 2008 г.) и др.

Извадка (извадкова популация)

Част от обектите от популацията, избрани за изследване, за да се направи заключение за цялата популация. За да може заключението, получено чрез изследване на извадката, да се разпространи върху цялата популация, извадката трябва да има свойството да бъде представителна.

Представителност на извадката

Свойството на извадката да отразява правилно генералната съвкупност. Една и съща извадка може или не може да бъде представителна за различни популации Пример: - Извадка, състояща се изцяло от московчани, които притежават кола, не представлява цялото население на Москва. - Извадка от руски предприятия до 100 души не представлява всички предприятия в Русия - Извадка от московчани, които правят покупки на пазара, не представя покупателното поведение на всички московчани В същото време тези извадки (предмет на други условия) могат перфектно да представят московчани - съответно собственици на автомобили, малки и средни руски предприятия и купувачи, пазаруващи на пазарите. Важно е да се разбере, че представителността на извадката и грешката на извадката са различни явления. Представителността, за разлика от грешката, по никакъв начин не зависи от размера на извадката Пример: Колкото и да увеличим броя на интервюираните московчани-собственици на автомобили, няма да можем да представим всички московчани с тази извадка.

Грешка на извадката (доверителен интервал)

Отхвърляне на резултатите, получени с помощта на селективно наблюдениеот верните данни на генералната съвкупност.Съществуват два вида извадкови грешки – статистическа и систематична. Статистическата грешка зависи от размера на извадката. Колкото по-голям е размерът на извадката, толкова по-малък е. Пример: За проста произволна извадкапри размер от 400 единици максималната статистическа грешка (с 95% доверителна вероятност) е 5%, за извадка от 600 единици - 4%, за извадка от 1100 единици - 3% от различни факторикоито оказват постоянно влияние върху изследването и отклоняват резултатите от изследването в определена посока. активно изображениеживот. Това се дължи на факта, че е много по-трудно да се намерят такива хора на определено място (например у дома).80%) В някои случаи, когато са известни истинските разпределения, систематична грешкаможе да бъде изравнено чрез въвеждане на квоти или повторно претегляне на данните, но в повечето реални проучвания дори оценяването му може да бъде доста проблематично.

Примерни типове

Пробите са разделени на два вида:
- вероятностен
- невероятност

1. Вероятностни проби
1.1 Случайна извадка (прост произволен избор)
Такава извадка предполага хомогенността на генералната съвкупност, същата вероятност за наличие на всички елементи, присъствие пълен списъквсички елементи. При избора на елементи по правило се използва таблица с произволни числа.
1.2 Механично (систематично) вземане на проби
Един вид произволна извадка, сортирана по някакъв признак (азбучен ред, телефонен номер, дата на раждане и др.). Първият елемент се избира произволно, след което всеки „k'-ти елемент се избира на стъпки от „n“. Размерът на генералната съвкупност, докато - N=n*k
1.3 Стратифицирани (зонирани)
Използва се в случай на хетерогенност на генералната съвкупност. Населениеразделени на групи (страти). Във всяка страта селекцията се извършва на случаен принцип или механично.
1.4 Серийно (вложено или клъстерно) вземане на проби
При серийно вземане на пробиединиците за подбор не са самите обекти, а групи (клъстери или гнезда). Групите се избират на случаен принцип. Обектите в групите се изследват навсякъде.

2. Невероятни мостри
Подборът в такава извадка се извършва не по принципите на случайността, а по субективни критерии - достъпност, типичност, равно представителство и др.
2.1. Квотна извадка
Първоначално се разпределят определен брой групи обекти (например мъже на възраст 20-30 години, 31-45 години и 46-60 години; лица с доход до 30 хиляди рубли, с доход от 30 до 60 рубли). хиляди рубли и с доход над 60 хиляди рубли ) За всяка група е посочен броят на обектите, които ще бъдат изследвани. Броят на обектите, които трябва да попаднат във всяка от групите, се определя най-често или пропорционално на предварително известния дял на групата в генералната съвкупност, или еднакъв за всяка група. В рамките на групите обектите се избират на случаен принцип. Квотните проби се използват доста често в маркетинговите проучвания.
2.2. Метод на снежна топка
Пробата е конструирана по следния начин. Всеки респондент, като се започне от първия, е помолен да се свърже със своите приятели, колеги, познати, които отговарят на условията за подбор и биха могли да участват в проучването. Така, с изключение на първата стъпка, извадката се формира с участието на самите обекти на изследване. Методът често се използва, когато е необходимо да се намерят и интервюират труднодостъпни групи от респонденти (например респонденти с високи доходи, респонденти, принадлежащи към същата професионална група, респонденти, които имат сходни хобита / страсти и др. )
2.3 Спонтанно вземане на проби
Анкетират се най-достъпните респонденти. Типични примериспонтанни извадки - анкети във вестници/списания, въпросници, дадени на респондентите за самостоятелно попълване, повечето интернет анкети. Размерът и съставът на спонтанните извадки не е предварително известен и се определя само от един параметър – активността на респондентите.
2.4 Примерни типични случаи
Избират се единици от генералната съвкупност, които имат средна (типична) стойност на признака. Това повдига проблема с избора на характеристика и определянето на нейната типична стойност.

Калкулатор за грешка и размер на извадката

(за проста произволна извадка)

Обяснения за полетата:

Вероятност за доверие
Вероятността доверителният интервал да покрива неизвестното истинска стойностпараметър, оценен от примерни данни. В изследователската практика най-често се използва нивото на достоверност от 95%.

Грешка на извадката (доверителен интервал)
Интервал, изчислен от извадкови данни, който с дадена вероятност (достоверност) покрива неизвестната истинска стойност на изчисления параметър на разпределението.

Споделяне на функции

Очакваният дял на характеристиката, за която се изчислява грешката. Ако няма данни за дела на характеристиката, е необходимо да се използва стойност, равна на 50, при която се постига максимална грешка.

Един от основните компоненти на добре проектираното изследване е дефиницията на извадката и какво е представителна извадка. Това е като примера с тортата. В крайна сметка не е необходимо да изядете целия десерт, за да разберете вкуса му? Малка част е достатъчна.

И така, тортата е население (т.е. всички респонденти, които отговарят на условията за проучването). Може да се изрази териториално, например само жители на Московска област. Пол - само жени. Или има възрастови ограничения - руснаците са над 65 години.

Трудно е да се изчисли населението: трябва да имате данни от преброяване на населението или предварителни проучвания за оценка. Следователно обикновено генералната съвкупност се „оценява“ и от полученото число се изчислява рамка за вземане на проби или вземане на проби.

Какво е представителна извадка?

пробае точно определен брой респонденти. Неговата структура трябва да съвпада възможно най-много със структурата на генералната съвкупност по отношение на основните характеристики на селекцията.

Например, ако потенциалните респонденти са цялото население на Русия, където 54% ​​са жени и 46% са мъже, тогава извадката трябва да съдържа точно същото процент. Ако параметрите съвпадат, тогава извадката може да се нарече представителна. Това означава, че неточностите и грешките в изследването са сведени до минимум.

Размерът на извадката се определя, като се вземат предвид изискванията за точност и икономичност. Тези изисквания са обратно пропорционални едно на друго: колкото по-голям е размерът на извадката, толкова по-точно резултата. Освен това, колкото по-висока е точността, толкова повече разходи са необходими за изследването. И обратното, колкото по-малка е извадката, толкова по-малко струва, толкова по-малко точно и по-случайно се възпроизвеждат свойствата на генералната съвкупност.

Ето защо, за да изчислят размера на избора, социолозите измислиха формула и създадоха специален калкулатор:

Вероятност за довериеи грешка на доверието

Какво означават условията " ниво на увереност" и " грешка на доверието"? Нивото на достоверност е мярка за точността на измерванията. И грешката на доверието е възможна грешкарезултати от изследвания. Например, с обща съвкупност от повече от 500 00 души (например живеещи в Новокузнецк), извадката ще бъде 384 души с ниво на увереност 95% и грешки 5% ИЛИ (със доверителен интервал 95±5%).

Какво следва от това? При провеждане на 100 проучвания с такава извадка (384 души), в 95 процента от случаите, получените отговори, според законите на статистиката, ще бъдат в рамките на ± 5% от оригинала. И ще получим представителна извадкас минимална вероятност за статистическа грешка.

След като изчислението на размера на извадката е направено, можете да видите дали има достатъчно респонденти в демо версията на панела с въпросници. Можете да научите повече за това как да проведете панелно проучване.

Когато зададете въпроса „Колко респонденти са ми необходими за проучване?“, вие наистина питате „Колко голяма трябва да бъде моята извадка, за да оценя точно моето население?“ Като се има предвид сложността на тези концепции, ние разделихме процеса на 5 стъпки, което ви улеснява да изчислите идеалния размер на извадката и гарантирате точността на резултатите от вашето проучване.

5 стъпки, за да се уверите, че извадката ви оценява точно населението:

Етап 1

Какво е общото ви население?

Под термина "генерална съвкупност" имаме предвид цялата група от хора, чието мнение ще попитате (извадката ще се състои от членове на тази съвкупност, които действително ще участват в проучването).

Например, ако искате да разберете как да намерите пазар за паста за зъби във Франция, вашето население ще бъде хората на Франция. И ако се опитвате да определите колко ваканционни дни биха искали да имат хората, които работят за компания за паста за зъби, тогава вашето население са служителите на тази компания.

Независимо дали става въпрос за държава или компания, установяването на популация е важна първа стъпка. След като сте решили за населението, задайте (приблизително) неговия размер. Например Франция има около 65 милиона души, но една компания за паста за зъби вероятно има много по-малко служители.

Получихте ли правилния номер? Добре, тогава да продължим...

Стъпка 2

Каква е необходимата точност?

Тази стъпка е вид оценка на това колко риск сте готови да поемете по отношение на възможността от неточни отговори на проучването поради факта, че не изследвате цялата популация. Следователно трябва да отговорите на два въпроса:

  1. Колко уверени трябва да сте, че отговорите, които получавате, отразяват мненията на общото население?
    Това е вашата граница на грешка. Да кажем, че 90% от извадката харесват дъвки с вкус на грозде. Допустима грешка от 5% добавя 5% от всяка страна на това число, което означава, че всъщност 85-95% от пробата харесва дъвка с вкус на грозде. 5% е най-често използваната граница на грешка, но можете да я зададете между 1% и 10% в зависимост от проучването. Не се препоръчва тази цифра да се повишава над 10%.
  2. Колко уверени трябва да сте, че извадката точно представя съвкупността?

    Това е вашето ниво на доверие. Нивото на доверие е вероятността извадката да е значима за получените резултати. Изчислението обикновено се прави по следния начин. Ако сте избрали произволно още 30 проби от тази популация, колко често вашият резултат за една проба ще се различава значително от резултатите за останалите 30 проби? Ниво на доверие от 95% означава, че в 95% от случаите резултатите ще съвпадат. 95% е най-често използваната стойност, но можете да я зададете на 90% или 99% в зависимост от анкетата. Намаляването на стойността на нивото на доверие под 90% не се препоръчва.

Стъпка 3

Какъв размер на извадката ми трябва?

В таблицата по-долу изберете приблизителен размер на целевата популация и граница на грешка за определяне на необходимия брой завършени интервюта.

Сега, след като имате вашите стойности за стъпка 1 и стъпка 2, използвайте удобната таблица по-долу, за да определите размера на необходимата проба...

Население Граница на грешка Ниво на доверие
10% 5% 1% 90% 95% 99%
100 50 80 99 74 80 88
500 81 218 476 176 218 286
1000 88 278 906 215 278 400
10 000 96 370 4900 264 370 623
100 000 96 383 8763 270 383 660
1 000 000+ 97 384 9513 271 384 664

Забележка. Данните са предоставени само като насока. Също така, за популации над 1 милион цифрите могат да бъдат закръглени до най-близките сто.

Стъпка 4

Колко отзивчиви ще бъдат хората?

За съжаление, не всеки, на когото изпратите анкета, ще получи отговор.

Процентът на хората, които попълват формуляра за проучване, който получават, се нарича "процент на отговори". Определянето на процента на респондентите във вашето проучване ще ви помогне да определите общ бройкопия на анкетата, които трябва да бъдат изпратени, за да получите необходимия брой отговори.

Процентът на отговорите зависи пряко от редица фактори, като например връзки с целева аудитория, дължина и сложност на проучването, предлагани стимули и тема на проучването. За онлайн анкети, при които преди това не е установена връзка с получателите, процентнивата на отговор от 20-30% се считат за много високи. По-консервативна и вероятна стойност е 10-14%, ако преди това не сте провеждали проучване в тази популация.

Стъпка 5

И така, на колко души трябва да изпратите анкетата?

Това е лесна стъпка!

Просто разделете числото, което сте получили в стъпка 3, на числото, което сте получили в стъпка 4. Това е вашето магическо число.

Например, ако искате 100 жени, които използват шампоан, да попълнят анкета и смятате, че 10% от жените, на които изпратите анкетата, ще я попълнят, трябва да изпратите анкетата на 1000 жени (100/10%)!