Біографії Характеристики Аналіз

Як порахувати вибірку на дослідження. Генеральна сукупність та вибірковий метод

Наведена нижче формула для розрахунку обсягу вибіркивикористовується в тих випадках, коли опитуваним (респондентам) задається лише одне питання, на яке існує лише два варіанти відповіді. Наприклад, «Так» та «Ні»; "Користуюсь" і "Не користуюся". Звісно, цю формулуможна застосовувати лише під час проведення найпростіших досліджень. Якщо Вам потрібно визначити обсяг вибірки під час проведення більш масштабних досліджень, наприклад анкетування, слід використовувати інші формули.

Проста формула для розрахунку обсягу вибірки

де: n- Обсяг вибірки;

z– нормоване відхилення, що визначається виходячи з обраного рівня довірливості. Цей показник характеризує можливість, можливість попадання відповідей у ​​спеціальний - довірчий інтервал. Насправді рівень довірливості часто приймають за 95% чи 99%. Тоді значення z будуть відповідно 1,96 та 2,58;

p- Варіація для вибірки, у частках. По суті, p – це ймовірність того, що респонденти оберуть той чи інший варіант відповіді. Припустимо, якщо ми вважаємо, що чверть опитуваних виберуть відповідь «Так», то p дорівнюватиме 25%, тобто p = 0,25;

q= (1 - p);

e- Допустима помилка, в частках.

Приклад розрахунку обсягу вибірки

Компанія планує провести соціологічне дослідженняз метою виявити частку курців у населенні міста. Для цього співробітники компанії будуть задавати перехожим одне запитання: «Ви курите?». Можливих варіантіввідповіді, таким чином, лише дві: «Так» та «Ні».

Обсяг вибірки у разі розраховується так. Рівень довірливості приймається за 95%, тоді нормоване відхилення z = 1,96. Варіацію приймаємо за 50%, тобто умовно вважаємо, що половина респондентів може відповісти на питання про те, чи курять вони – «Так». Тоді p = 0,5. Звідси знаходимо q = 1 - p = 1 - 0,5 = 0,5 . Допустиму помилку вибірки приймаємо за 10%, тобто e = 0,1.

Підставляємо ці дані у формулу та вважаємо:

Отримуємо обсяг вибірки n = 96 осіб.

Область застосування цієї формули

При проведенні простих дослідженьколи потрібно отримати відповідь всього на одне просте запитання. У цьому шкала відповідей, зазвичай, дихотомічного характеру. Тобто пропонуються (або маються на увазі) варіанти відповідей на кшталт «Так» – «Ні», «Чорне» – «Біле», тощо.

Особливості даної формули розрахунку обсягу вибірки

Галяутдінов Р.Р.


© Копіювання матеріалу допустиме лише при вказівці прямого гіперпосилання на

Розмір вибірки потрібно визначити перед початком більшості кількісних досліджень. Визначення розміру вибірки не потрібно для якісних досліджень(Зверніть увагу, що тут розуміються формально кількісні методи, такі як контент-аналіз; прості описові проекти відносяться до кількісних). Розрахунок розміру вибірки може виконувати перед попередніх, пілотних досліджень (проте такі дослідження зазвичай виконуються перед реальним плануванням наукового дослідження). У разі сумнівів, обов'язково зверніться до тієї установи, яка фінансує дослідження або включає його в свій план досліджень - відсутність даних про розмір вибірки одна з найбільш частих причинвідмови у затвердженні теми

Чому розмір вибірки важливий для дослідника?

При проведенні досліджень, які визначають поширеність певної характеристики популяції (наприклад, поширеність астми в дітей віком), розрахунок розміру вибірки необхідний у тому, щоб отримані оцінки мали бажану ступінь точності. Наприклад, поширеність захворювання в 10%, отримана на вибірці розміром 20 осіб, матиме 95% довірчий інтервал від 1% до 31%, що ніяк не можна визнати ні точно, ні інформативною оцінкою. З іншого боку, поширеність захворювання на 10%, отримана на вибірці розміром 400 людина матиме 95% довірчий інтервал від 7% до 13%, що можна розглядати, як досить точний результат. оцінка розмірів вибірки дозволяє уникнути першого із цих двох варіантів.

У дослідженнях, спрямованих на виявлення ефекту (наприклад, різниця ефективності двох методів лікування, відносний ризик захворювання за наявності або відсутності фактора ризику) оцінка розміру вибірки важлива для того, щоб упевнитися в тому, що якщо клінічно чи біологічно важливий ефектіснує, то він з високим ступенемймовірності буде виявлено, тобто аналіз дасть статистично значущі результати. Якщо розмір вибірки невеликий то навіть у випадку значних відмінностейміж групами буде неможливо довести, що вони є наслідком чогось іншого, крім вибіркової варіабельності.

Інформація необхідна для розрахунку розміру вибірки

Методи оцінки розміру вибірки описані у низці підручників зі статистики, включаючи Altman, 1991; Bland, 2000; Armitage, Berry і Matthews, 2002. Дві книги спеціалізуються на описі методів оцінки розмірів вибірки в різних ситуаціях. Для якісних параметрів слід проконсультуватися з роботою Manchin та співавт. (1998), для якісних - Lemeshow та співавт. (1996). В обох книгах наведено таблиці, що полегшують розрахунок розмірів вибірки. У разі послідовних випробувань необхідно звернутися до роботи Whitehead (1997). Власне розрахунки розміру вибірки можуть бути виконані з використанням однієї з численних комп'ютерних програм. Так, програма Stata дозволяє аналізувати розмір вибірки, необхідний порівняння середніх і пропорцій, і навіть аналізу поширеності. Значно більша кількістьОпції пропонують спеціалізовані пакети, такі як nQuery Advisor або UnifyPow.

Розрахунок розміру вибірки залежить від наступних факторів, які треба буде повідомити статистику-консультанту:

  • Змінні, що вивчаються в дослідженні, включаючи їх типи
  • Необхідна потужність дослідження
  • Необхідний рівень статистичної значимості
  • Розмір ефекту, що має клінічну значимість
  • Стандартне відхилення для кількісних змінних
  • Чи використовуватиметься одно- або двосторонній тест значущості
  • Дизайн дослідження, тобто є дослідження:
    • Рандомізованим контрольованим випробуванням
    • Кластерним рандомізованим дослідженням
    • Дослідженням еквівалентності
    • Нерандомізованим висіданням втручання
    • Обсерваційним дослідженням
    • Дослідженням поширеності
    • Вивченням чутливості та специфічності тесту

При цьому потрібно буде відповісти на ряд додаткових питань:

  • Чи включаються до дослідження парні дані?
  • Чи будуть у дослідженні виміряні повторно одні й ті самі змінні в однієї людини?
  • Чи рівні включаються до дослідження групи чисельності?
  • Чи є дані ієрархічними?

Слід взяти до уваги, що нерандомізовані дослідження відмінностей або взаємозв'язків зазвичай вимагають значно більшого розміру вибірки для того, щоб взяти до уваги під час аналізу вплив третіх змінних. У цьому дослідника цікавить абсолютний обсяг вибірки, а чи не відсоток, що вона становить від населення загалом.

Які статистичні терміни використовуються при описі процесу планування розміру вибірки

Нульова та альтернативна гіпотези

Багато типів статистичного аналізуспрямовані на порівняння двох видів лікування, процедури або групи пацієнтів. Чисельне значення, яке підсумовує розбіжності дослідника відмінності називається ефектом. В інших дослідженнях ефект може бути коефіцієнт кореляції, відношення шансів або відносний ризик. Потім ми висуваємо нульову та альтернативну гіпотези. Зазвичай нульова гіпотеза свідчить, що ефекту немає (відмінності між групами дорівнюють нулю, відносний ризик дорівнює одиниці, кореляційний коефіцієнт дорівнює нулю), альтернативна гіпотеза передбачає, що ефект є.

Довірча ймовірність (р-оцінка)

р-оцінка це ймовірність спостереження у дослідженні такого ж чи сильнішого ефекту за умови справедливості нульової гіпотези. Зазвичай виражається як пропорція (наприклад р=0.03)

Рівень значущості

Рівень значущості - це граничне значення для р-оцінки, нижче якого нульова гіпотеза має бути відкинута і зроблено висновок у тому, що є докази ефекту. Зазвичай рівень значущості встановлюється на значенні 5% (Рівень значущості, незважаючи на прямий зв'язок з р-оцінкою виражається у відсотках: 5% рівень значущості еквівалентний р = 0.05). Якщо значення, що спостерігається менше 5%, то є незначна ймовірність, що в дослідженні були б отримані такі результати, якби справжнього ефекту не було. Тому приймається гіпотеза про наявність ефекту

Рівень значущості 5% також означає, що є майже 5% можливість дійти висновку про наявність ефекту, хоча насправді його немає. Іноді більш адекватним є використання 1% рівня значущості, особливо якщо дуже важливо уникнути висновку, що ефект існує тоді, коли насправді його немає.

Потужність

Потужність – це ймовірність того, що нульова гіпотезабуде адекватно відкинута, інакше кажучи тоді, коли справді існують докази реальних відмінностей чи взаємозв'язків. Її можна розглядати як "100 відсотків мінус ймовірність пропуску справжнього ефекту". тому що вище потужність, то менше ймовірність пропуску істинного ефекту. Потужність зазвичай фіксується лише на рівні 80%, 90% чи 95%. Потужність не повинна бути меншою за 80%. Якщо дуже важливо, щоб дослідження не пропустило існуючого ефекту, треба прагнути досягти потужності 90% або більше.

Клінічно важливий розмір ефекту

Це найменші відмінності між середніми групами або відсотками подій у них (для відносин шансів найближчий до одиниці ризик), які ще можна розглядати як біологічно чи клінічно значущі. Повинна бути сформована вибірка такого розміру, щоб подібні відмінності існують, то в дослідженні були б отримані статистично значущі результати.

Односторонній або двосторонній тест значущості

При двосторонньому тесті нульова гіпотеза полягає у відсутності відмінностей, а альтернативна гіпотеза передбачає, що різницю між групами можуть у будь-якому напрямі. При односторонньому тесті альтернативна гіпотеза визначає передбачуваний напрямок відмінностей, наприклад, терапія краще, ніж плацебо, а нульова гіпотеза включає ситуації, коли ефект препарату і плацебо однаковий і коли препарат призводить до гіршого, порівняно з плацебо, результату.

Якщо ні серйозних причиндля того, щоб це не робити, слід скористатися двосторонньою гіпотезою. Очікування того, що відмінності підуть у тому чи іншому напрямку, недостатня підстава для того, щоб користуватися одностороннім тестом. Дослідники-медики часто виявляються здивовані, якщо отриманий результат йде в розріз з тим, що очікувалося, дуже часто подібна знахідка має інші наслідки, порівняно з відсутністю відмінностей і тому вона має бути адекватно описана. Односторонній тест не дозволяє це зробити. Приклади ситуацій, у яких односторонній тест може бути прийнятні наведені у книзі Bland та Altman (1994).

Які змінні повинні враховуватися під час розрахунку розміру вибірки

Розрахунок розміру вибірки повинен базуватися на аналізі основної змінної результату у цьому дослідженні.

Якщо дослідження будуть включені додаткові змінні, які також розглядаються, як мають важливе наукове значення, то розмір вибірки повинен таким, щоб дозволити адекватний аналіз цих змінних. Для всіх важливих у науковому планізмінних має бути проведено та представлено розрахунок розміру вибірки.

Облік відсотка відгуку та втрат під час спостереження

Розрахунковий розмір вибірки вказує кількість пацієнтів у фінальній, аналізованій наприкінці дослідження групі. Тому кількість осіб, які мають бути залучені до дослідження, повинна бути збільшена відповідно до очікуваного відгуку, втрат при спостереженні, відмові від слідування протоколу та інших можливих причин втрати експериментальних суб'єктів. Необхідно чітко описати взаємозв'язок між очікуваною кількістю учасників та обсягом формованої вибірки.

Відповідність цілям дослідження та методам статистичного аналізу

Адекватність розміру вибірки має бути оцінена відповідно до метою дослідження. Наприклад, якщо метою дослідження є демонстрація того, що нові ліки кращі за існуюче, необхідно домогтися того, щоб розмір вибірки дозволяв виявити клінічно значущі відмінності між двома методами лікування. Однак іноді потрібно продемонструвати, що два лікарські засоби клінічно еквівалентні. Цей тип досліджень часто називають випробуванням еквівалентності чи "негативним" випробуванням. Питання визначення розміру вибірки цих досліджень детально описані у роботі Pocock (1983). Розмір вибірки у дослідженнях, спрямованих на демонстрацію еквівалентності ліків більше, ніж у дослідженнях, спрямованих на виявлення відмінностей у ефективності. Обов'язково слід переконатися, що розрахунки розмірів вибірки пов'язані з цілями і завданнями дослідження та базуються на даних про основну змінну результату.

Розміри вибірки також повинні бути адекватні методам аналізу, що використовуються в дослідженні, оскільки як розмір вибірки, так і аналіз залежать від обраного дизайну дослідження. Обов'язково слід переконатися, що передбачувані методи аналізу та розрахунки розміру вибірки сумісні друг з одним.

Приклади розрахунку розміру вибірки.

Якщо заплановане дослідження потребує оцінки однієї єдиної частоти, порівняння двох середніх чи порівняння двох частот, розрахунки розміру вибірки (зазвичай) залишково прості і тому представлені нижче. Проте ми рекомендуємо у будь-якому разі проконсультуватися зі статистиком щодо розрахунків розміру вибірки.

Оцінка однієї частоти

Примітка: наведена нижче формула виходить з т.зв. "методу зразкового нормального розподілуі якщо тільки не планується створювати дуже велику вибірку, не рекомендується для оцінки частот близьких до 0 або 1 (0: або 100%. У подібних випадках слід користуватися "точними" методами." Подібна ситуаціяможе спостерігатися щодо чутливості і специфічності нового методу діагностики, де передбачається наявність частот, близьких до 1 (100%). У даному випадкуслід проконсультуватися зі статистиком або як мінімум скористатися спеціалізованими комп'ютерними програмами.

Сценарій: Використовуючи поштовий опитувальник оцінити поширеність порушень дихання у пацієнтів із бронхіальною астмою, які перебувають під наглядом лікаря. загальної практики(Thomas та співавт., 2001)

Потрібна інформація:

  • Основна змінна результату = наявність або відсутність порушень дихання
  • Ймовірна частота порушень = 30% (0.3)
  • Необхідна ширина 95% довірчого інтервалу = 10% (тобто +/-5% або від 25% до 35%)

Формула для оцінки розміру вибірки однієї частоти:

n=15.4*p*(1-p)/W 2

де n - необхідний розмір вибірки, р - очікувана частота результату (у разі 0,3) і W - ширина довірчого інтервалу (у разі 0.1)

Підставляючи формулу значення, отримуємо:

n=15.4*0.3*(1-0.3)/0.1 2 =324

"Для отримання довірчого інтервалу в +/-5% навколо оцінки поширеності в 30% буде потрібна вибірка з 324 осіб. Враховуючи 70% частоту відгуку на пропозицію брати участь у дослідженні, буде поширено 480 опитувальників"

Порівняння двох частот

Сценарій: Планується провести рандомізоване плацебо-контрольоване випробування ефективності колонії-стимулюючого фактора для зниження ризику сепсису у недоношених дітей. Раніше проведене дослідження продемонструвало, що частота розвитку сепсису у таких дітей становить 50% протягом 2 тижнів після народження і дослідники вважають, що зниження цієї частоти до 34% буде клінічно значущим.

Потрібна інформація:

  • Основна змінна результату = наявність або відсутність сепсису у новонароджених через 14 днів після народження (терапія проводиться протягом максимум 72 годин після народження). Це якісна змінна, представлена ​​частотами.
  • Розмір значних відмінностей = 16% чи 0.16 (тобто. 50%-34%)
  • Рівень значимості = 5%
  • Потужність = 80%
  • Тест = двосторонній

Формула для розрахунку розміру вибірки при порівнянні двох частот така:

n= 2 *[(p 1 *(1-p 1)+(p 2 *(1-p 2)))]/ 2

де n = розмір вибірки для кожної групи ( загальний розмірвибірки вдвічі більше)

р 1 = перша частота - у разі 0.50

р 2 = друга частота - у разі 0.34

р 1 -р 2 = клінічно значущі відмінності, у разі 0.16

Таблиця значень А і В

Рівень значущості

Потужність

Підставляючи значення формулу отримаємо:

n = 2 * [(0.5 * 0.5 + (0.34 * 0.66)] / 2 = 146

Таким чином, ми отримуємо кількість спостережень, необхідну для включення до кожної групи. Загальна чисельністьвибірки буде удвічі більше, тобто. 292 дитини

Опис результатів розрахунку розміру вибірки може виглядати так:

"Вибірка у 292 новонароджених (146 у групі лікування та плацебо) буде достатнім для того, щоб виявити відмінності в частоті сепсису 16% з 80% потужністю на 5% рівні достовірності. 16% відмінності рівні різниці між 50% частотою сепсису до 14 дню у групі плацебо та 34% частотою у групі лікування."

Порівняння двох середніх

Примітка: описані нижче розрахунки справедливі тільки для випадку, коли дві групи мають один і той самий розмір.

Сценарій: планується рандомізоване контрольоване випробування порівняно з короткостроковим психологічним лікуванням у порівнянні зі звичайним лікуванням для боротьби з суїцидальними тенденціями у пацієнтів, госпіталізованих після суїцидальної спроби отруєння. Суїцидальні тенденції вимірюються за допомогою шкали Бека. Стандартне відхилення для оцінок за цією шкалою становить 7.7 (дані попередніх досліджень) і клінічно значущими вважаються розбіжності в 5 балів за шкалою Бека. Передбачається, що з групи лікування вийдуть до третини пацієнтів (Guthrie та співавт., 2001)

Необхідна інформація:

  • Основна змінна результату = шкала суїцидальних тенденцій Бека. Безперервна змінна, що описується середніми значеннями
  • Стандартне відхилення = 7.7 балів
  • Розмір клінічно значущого ефекту = 5 балів
  • Рівень значимості = 5%
  • Потужність = 80%
  • Тест = двосторонній

Формула для розрахунку розміру вибірки при порівнянні двох середніх наступна:

n= 2 *2*SD 2 /DIFF 2

де n=розмір вибірки для кожної групи (загальний розмір вибірки вдвічі більше)

SD= стандартне відхилення для основної змінної результату, у разі 7.7

DIFF = клінічно важливий ефект, в даному випадку 5.0

А - залежить від рівня значущості (див. таблицю) - у разі 1.96

В - залежить від потужності (див. таблицю) - у разі 0.84

Таблиця значень А і В

Рівень значущості

Потужність

Підставляючи необхідні значенняу формулу отримуємо:

n = 2 * 2 * 7.7 2 / 5.0 2 = 38

Таким чином, ми отримуємо кількість спостережень, необхідну для включення до кожної групи. Загальна чисельність вибірки буде удвічі більше, тобто. 76 людей.

Адекватний опис оцінки розмірів вибірки буде виглядати так:

"Для виявлення відмінностей у 5 балів за шкалою суїцидальних тенденцій Бека на 5% рівні значимості з 80% потужністю, приймаючи стандартне відхилення рівним 7.7 балам, потрібно 38 осіб у групу втручання та контролю. Це число було збільшено до 60 у групі ( Загальна кількістьспостережень 120), для того, щоб компенсувати втрати при спостереженні, що становлять зазвичай близько третини обстежуваних"

Приклади неадекватних описів оцінок розміру необхідної вибірки

Приклад 1

"Попереднє дослідження в даній галузі використовувало вибірку в 150 осіб і отримало високо достовірні результати (р = 0.014), тому в дослідження включається аналогічна кількість пацієнтів"

Попередні дослідження могли виявитися просто "везучими" у тому сенсі, що знайдені ними значущі результати є наслідком випадкового варіювання середніх вибіркових. Необхідно розраховувати розмір вибірки для даного дослідження- включаючи такі деталі, як потужність дослідження, рівень значущості, основна змінна, що вивчається, розмір клінічно значущого ефекту, стандартне відхилення (для кількісних змінних) і розмір кожної групи, якщо в дослідженні буде кілька груп

приклад 2.

"Розрахунок розміру вибірки не проводився, оскільки попередньої інформації для її оцінки не було"

Необхідно ретельно проаналізувати літературу, щоб знайти інформацію, необхідну розрахунку розміру вибірки. Якщо такої інформації немає, можна організувати невелике попереднє дослідження збору цієї інформації.

Якщо відсутні дані про значення стандартного відхилення, Розрахунки розміру вибірки можуть бути надані в більш загальному вигляді, наприклад відмінності, що є клінічно ефективними можуть бути описані не в абсолютних значеннях, а одиницях стандартного відхилення.

Разом з тим, якщо пишеться заявка на грант, спрямований на фінансування пілотного дослідження для збору інформації, необхідної для розрахунку розміру вибірки подальшого дослідження, то в такій заявці розрахунок розміру вибірки не проводиться.

"До клініки протягом року надходить 50 пацієнтів із цим захворюванням. Близько 10% з них можуть відмовитися від участі у дослідженні. Тому протягом двох років можна буде набрати вибірку розміром у 90 осіб"

Хоча більшість досліджень повинні врівноважувати можливості їх організації з потужністю, розмір вибірки не повинен визначатися на підставі кількості доступних для дослідження пацієнтів.

У ситуаціях, коли кількість пацієнтів є фактором, що обмежує розмір вибірки, розрахунки все одно повинні проводитися для того, щоб встановити а) потужність дослідження з даною кількістю пацієнтів по відношенню до клінічно важливих відмінностей або б) розмір ефекту, який може бути виявлений у дослідженні даного розміру (з огляду на його потужність).

У тих випадках, коли доступна кількість пацієнтів замала для того, щоб виявити клінічно значущі відмінності, можна подумати про збільшення тривалості дослідження або проведення спільного з кількома дослідниками багатоцентрового випробування.

Література

  1. Altman DG. (1991) Practical Statistics for Medical Research. Chapman and Hall, London.
  2. Armitage P, Berry G, Matthews JNS. (2002) Statistical Methods in Medical Research, 4th ed. Blackwell, Oxford.
  3. Bland JM та Altman DG. (1994). Один і два sided tests of significance. British Medical Journal 309 248.
  4. Bland M. (2000) An Introduction to Medical Statistics, 3rd. ed. Oxford University Press, Oxford.
  5. Elashoff JD. (2000) nQuery Advisor Version 4.0 User's Guide. Los Angeles, CA.
  6. Guthrie E, Kapur N, Макway-Jones K, Chew-Graham C, Moorey J, Mendel E, Marino-Francis F, Sanderson S, Turpin C, Boddy G, Tomenson B. (2001) Randomised controlled trial of brief psychological intervention after deliberate self poisoning. British Medical Journal 323, 135-138.
  7. Lemeshow S, Hosmer DW, Klar J & Lwanga SK. (1996) Adequacy of sample size in health studies. John Wiley & Sons, Chichester.
  8. Machin D, Campbell MJ, Fayers P, Pinol, A. (1998) Statistical Tables for Design of Clinical Studies, Second Edition Blackwell, Oxford.
  9. Pocock SJ. (1983) Clinical Trials: A Practical Approach. John Wiley та Sons, Chichester.
  10. Thomas M, McKinley RK, Freeman E, Foy C. (2001) Prevalence dysfunctional breathing у пацієнтів потрактований для asthma в першу чергу: cross sectional survey. British Medical Journal 322, 1098-1100.
  11. Whitehead, J. (1997) Design and Analysis of Sequential Clinical Trials, revised 2nd. ed. Чичестер, Wiley.
КАЛЬКУЛЯТОРИ

Генеральна сукупність

Сумарна чисельність об'єктів спостереження (люди, домогосподарства, підприємства, населені пунктиі т.д.), що володіють певним набором ознак (стаття, вік, дохід, чисельність, оборот і т.д.), обмежена у просторі та часі. Приклади генеральних сукупностей: - Усі жителі Москви (10,6 млн. осіб за даними перепису 2002 року); - Чоловіки-Москвичі (4,9 млн. осіб за даними перепису 2002 року); Юридичні особиРосії (2,2 млн. початку 2005 року)- Роздрібні торгові точки, здійснюють продаж продуктів харчування (20 тисяч початку 2008 року) тощо.

Вибірка (Вибіркова сукупність)

Частина об'єктів з генеральної сукупності, відібраних для вивчення, для того, щоб зробити висновок про всю генеральну сукупність. Для того щоб висновок, отриманий шляхом вивчення вибірки, можна було поширити на всю генеральну сукупність, вибірка повинна мати властивість репрезентативності.

Репрезентативність вибірки

Властивість вибірки коректно відбивати генеральну сукупність. Одна і та ж вибірка може бути репрезентативною і нерепрезентативною для різних генеральних сукупностей. - Вибірка з російських підприємств чисельністю до 100 осіб не репрезентує всі підприємства Росії. - Вибірка з москвичів, що здійснюють покупки на ринку, не репрезентує купівельну поведінку всіх москвичів. Важливо розуміти, що репрезентативність вибірки і помилка вибірки - різні явища. Як би ми не збільшували кількість опитаних москвичів-автовласників, ми не зможемо репрезентувати цією вибіркою всіх москвичів.

Помилка вибірки (довірчий інтервал)

Відхилення результатів, отриманих за допомогою вибіркового спостереженнявід справжніх даних генеральної сукупності. Помилка вибірки буває двох видів – статистична та систематична. Статистична помилка залежить від розміру вибірки. Чим більший розмір вибірки, тим вона нижче. Приклад: Для простої випадкової вибіркирозміром 400 одиниць максимальна статистична помилка (з 95% довірчою ймовірністю) становить 5%, для вибірки 600 одиниць - 4%, для вибірки 1100 одиниць - 3% Зазвичай, коли говорять про помилку вибірки, мають на увазі саме статистичну помилку. від різних факторів, що надають постійний вплив на дослідження і зміщують результати дослідження у певний бік. активний образжиття. Відбувається це через те, що таких людей набагато складніше застати в якомусь певному місці (наприклад, вдома). - Проблема респондентів, які відмовляються відповідати на запитання анкети (частка «відмовників» у Москві, для різних опитувань, коливається від 50% до 80%) У деяких випадках, коли відомі справжні розподіли, систематичну помилкуможна нівелювати запровадженням квот чи перезважуванням даних, але у більшості реальних досліджень навіть оцінити її буває досить проблематично.

Типи вибірок

Вибірки поділяються на два типи:
- імовірнісні
- неймовірні

1. Імовірнісні вибірки
1.1 Випадкова вибірка (простий випадковий вибір)
Така вибірка передбачає однорідність генеральної сукупності, однакову можливість доступності всіх елементів, наявність повного спискувсіх елементів. При відборі елементів зазвичай використовується таблиця випадкових чисел.
1.2 Механічна (систематична) вибірка
Різновид випадкової вибірки, впорядкований за якоюсь ознакою (алфавітний порядок, номер телефону, дата народження тощо). Перший елемент відбирається випадково, потім з кроком 'n' відбирається кожен 'k'-ий елемент. Розмір генеральної сукупності, у своїй - N=n*k
1.3 Стратифікована (районована)
Застосовується у разі неоднорідності генеральної сукупності. Генеральна сукупністьрозбивається на групи (страти). У кожній страті відбір здійснюється випадковим чи механічним чином.
1.4 Серійна (гніздова чи кластерна) вибірка
При серійної вибіркиодиницями відбору виступають самі об'єкти, а групи (кластери чи гнізда). Групи відбираються випадковим чином. Об'єкти всередині груп обстежуються суцільником.

2.Неймовірні вибірки
Відбір у такій вибірці здійснюється за принципами випадковості, а, по суб'єктивним критеріям - доступності, типовості, рівного представництва тощо.
2.1. Квотна вибірка
Спочатку виділяється деяка кількість груп об'єктів (наприклад, чоловіки віком 20-30 років, 31-45 років і 46-60 років; особи з доходом до 30 тисяч рублів, з доходом від 30 до 60 тисяч рублів та з доходом понад 60 тисяч рублів ) Для кожної групи задається кількість об'єктів, які мають бути обстежені. Кількість об'єктів, які повинні потрапити до кожної групи, задається, найчастіше, або пропорційно заздалегідь відомої частки групи в генеральній сукупності, або однаковою для кожної групи. Усередині груп об'єкти відбираються довільно. Квотні вибірки використовують у маркетингових дослідженнях досить часто.
2.2. Метод снігової грудки
Вибірка будується в такий спосіб. У кожного респондента, починаючи з першого, просяться контакти його друзів, колег, знайомих, які б підходили під умови відбору і могли б взяти участь у дослідженні. Отже, крім першого кроку, вибірка формується з участю самих об'єктів дослідження. Метод часто застосовується, коли необхідно знайти та опитати важкодоступні групи респондентів (наприклад, респондентів, які мають високий дохід, респондентів, що належать до однієї професійної групи, респондентів, які мають схожі хобі/захоплення тощо)
2.3 Стихійна вибірка
Опитуються найдоступніші респонденти. Типові прикладистихійних вибірок – опитування в газетах/журналах, анкети, віддані респондентам на самозаповнення, більшість інтернет-опитувань. Розмір та склад стихійних вибірок заздалегідь не відомий, і визначається лише одним параметром – активністю респондентів.
2.4 Вибір типових випадків
Відбираються одиниці генеральної сукупності, які мають середнім (типовим) значенням ознаки. При цьому виникає проблема вибору ознаки та визначення її типового значення.

Калькулятор розрахунку помилки та розміру вибірки

(Для простої випадкової вибірки)

Пояснення до полів:

Довірча ймовірність
Імовірність того, що довірчий інтервал накриє невідоме справжнє значенняпараметра, що оцінюється за вибірковими даними. У практиці досліджень найчастіше використовують 95% довірчу ймовірність

Помилка вибірки (довірчий інтервал)
Інтервал, обчислений за вибірковими даними, який із заданою ймовірністю (довірчою) накриває невідоме дійсне значення параметра розподілу, що оцінюється.

Частка ознаки

Очікувана частка ознаки, котрій розраховується помилка. У випадку, якщо дані про частку ознаки відсутні, необхідно використовувати значення 50, при якому досягається максимальна помилка.

Один із головних компонентів ретельно продуманого дослідження – визначення вибірки та що таке репрезентативна вибірка. Це як у прикладі з тортом. Не обов'язково ж з'їдати весь десерт, щоб зрозуміти його смак? Досить невеликої частини.

Так ось, торт – це Генеральна сукупність (Тобто всі респонденти, які підходять для опитування). Вона може бути виражена територіально, наприклад, лише жителі Московської області. Гендерно – лише жінки. Або мати обмеження за віком – росіяни віком від 65 років.

Вирахувати генеральну сукупність складно: потрібно мати дані перепису населення чи попередніх оціночних опитувань. Тому зазвичай генеральну сукупність «прикидають», та якщо з отриманого числа вираховують вибіркову сукупність або вибірку.

Що таке репрезентативна вибірка?

Вибірка- Це чітко визначена кількість респондентів. Її структура має максимально збігатися зі структурою генеральної сукупності за основними характеристиками відбору.

Наприклад, якщо потенційні респонденти - все населення Росії, де 54% - це жінки, а 46% - чоловіки, то вибірка повинна містити таке саме процентне співвідношення. Якщо збіг параметрів відбувається, вибірку можна назвати репрезентативною. Це означає, що неточності та помилки у дослідженні зводяться до мінімуму.

Обсяг вибірки визначається з урахуванням вимог точності та економічності. Ці вимоги обернено пропорційні одна одній: чим більший обсяг вибірки, тим точніше результат. У цьому що вища точність, тим більше витрат необхідно проведення дослідження. І навпаки, що менше вибірка, то менше на неї витрат, тим менш точно і більш випадково відтворюються властивості генеральної сукупності.

Тому для обчислення обсягу вибору соціологами було винайдено формулу та створено спеціальний калькулятор:

Довірча ймовірністьі довірча похибка

Що означають терміни « довірча ймовірність» та « довірча похибка»? Довірча ймовірність – це показник точності вимірів. А довірча похибка – це можлива помилкарезультатів дослідження. Наприклад, при генеральній сукупності понад 500 00 осіб (припустимо, що проживають у Новокузнецьку) вибірка дорівнюватиме 384 особи при довірчої ймовірності 95% та похибки 5% АБО (при довірчому інтервалі 95±5%).

Що з цього випливає? При проведенні 100 досліджень з такою вибіркою (384 особи) у 95 відсотків випадків відповіді, що одержуються, за законами статистики будуть знаходитися в межах ±5% від вихідного. І ми отримаємо репрезентативну вибіркуз мінімальною ймовірністю статистичної помилки.

Після того, як підрахунок обсягу вибірки виконано, можна подивитися чи є достатня кількість респондентів у демо-версії Панелі Анкетолога. А як провести панельний опитування можна докладніше дізнатися.

Коли Ви ставите питання «Скільки мені потрібно респондентів для опитування?», Ви насправді запитуєте: «Наскільки великою має бути моя вибірка, щоб точно оцінити мою сукупність?» Зважаючи на складність цих понять, ми розбили процес на 5 кроків, даючи Вам можливість легко розрахувати ідеальний обсяг вибірки та забезпечити точність результатів опитування.

5 кроків, за допомогою яких Ви переконаєтесь, що Ваша вибірка точно оцінює генеральну сукупність:

Крок 1

Що таке Ваша генеральна сукупність?

Під терміном «генеральна сукупність» ми розуміємо цілу групу людей, думку якої Ви збираєтеся з'ясувати (вибірка складатиметься із членів цієї сукупності, які фактично візьмуть участь у опитуванні).

Наприклад, якщо ви хочете зрозуміти, як знайти ринок збуту для зубної пасти у Франції, вашою сукупністю будуть жителі Франції. А якщо Ви намагаєтеся визначити, скільки днів відпустки воліли б мати люди, які працюють на компанію з виробництва зубної пасти, Ваша генеральна сукупність - співробітники цієї компанії.

Незалежно від того, країна це чи компанія, встановлення генеральної сукупності – це важливий перший крок. Після того, як Ви визначилися з генеральною сукупністю, встановіть (приблизно) її чисельність. Наприклад, у Франції живе близько 65 мільйонів людей, а в компанії-виробнику зубної пасти працює, швидше за все, набагато менше співробітників.

Чи отримали потрібну цифру? Добре, тоді йдемо далі…

Крок 2

Яка потрібна точність?

Цей крок є своєрідною оцінкою того, на який ризик Ви готові піти щодо можливої ​​неточності відповідей на опитування у зв'язку з тим, що Ви не опитуєте всю генеральну сукупність. Тому Вам слід відповісти на два запитання:

  1. Наскільки ви впевнені, що отримані відповіді відображають думки генеральної сукупності?
    Це Ваша межа похибки. Отже, припустимо, 90% членів вибірки люблять жувальну гумку зі смаком винограду. Межа похибки в 5% додає по 5% з кожного боку цього числа, що означає, що фактично 85-95% учасників вибірки люблять жувальну гумку зі смаком винограду. 5% - найчастіше використовується межа похибки, але Ви можете встановлювати значення від 1% до 10% залежно від опитування. Не рекомендується піднімати цей показник вище 10%.
  2. Наскільки впевненими Ви повинні бути в тому, що вибірка точно представляє генеральну сукупність?

    Це ваш рівень довіри. Рівень довіри - це ймовірність того, що вибірка є значущою для отриманих результатів. Розрахунок, зазвичай, проводиться так. Якби Ви у випадковому порядку визначили ще 30 вибірок із даної сукупності, то як часто отриманий Вами результат для однієї вибірки суттєво відрізнявся б від результатів для інших 30 вибірок? Рівень довіри у 95% означає, що у 95% випадків результати збігалися б. 95% - найбільш часто використовується значення, але Ви можете встановити його на рівні 90% або 99% залежно від опитування. Опускати значення рівня довіри нижче 90% не рекомендується.

Крок 3

Якого розміру вибірка мені потрібна?

У таблиці, наведеній нижче, виберіть приблизний розмір цільової сукупності та межу похибки для визначення кількості необхідних завершених опитувань.

Тепер, коли у Вас є значення кроку 1 та кроку 2, за зручною таблицею нижче визначте розмір необхідної вибірки.

Генеральна сукупність Межа похибки Рівень довіри
10% 5% 1% 90% 95% 99%
100 50 80 99 74 80 88
500 81 218 476 176 218 286
1000 88 278 906 215 278 400
10 000 96 370 4900 264 370 623
100 000 96 383 8763 270 383 660
1 000 000+ 97 384 9513 271 384 664

Примітка. Дані наведені лише як орієнтовні інструкції. Крім того, для генеральної сукупності понад 1 млн. цифр можна округлювати до сотень.

Крок 4

Наскільки чуйними виявляться люди?

На жаль, не всі, кому Ви надішлете опитування, дадуть на нього відповідь.

Відсоток людей, які заповнили бланк отриманого опитування, називають «відсотком відповіли». Визначення відсоткової частки тих, хто відповів на Ваше опитування, допоможе встановити загальне числоекземплярів опитування, яке необхідно розіслати для отримання необхідної кількості відповідей.

Відсоткова частка відповіли прямим чином залежить від ряду факторів, таких як відносини з цільовою аудиторією, тривалість та складність опитування, пропоновані заохочення та тема опитування. Для онлайн-опитування, у яких з одержувачами попередньо не були встановлені відносини, відсоткова часткатих, хто відповів у 20-30%, вважається дуже високою. Більш консервативним і можливим є значення 10-14%, якщо до цього не проводили опитування у цій сукупності.

Крок 5

Тож скільки ж людям відсилати опитування?

Це найлегший етап!

Просто розділіть число, отримане на кроці 3, на число, отримане на кроці 4. Це і є ваше чарівне число.

Наприклад, якщо Вам потрібно, щоб опитування заповнили 100 жінок, які користуються шампунем, і Ви вважаєте, що 10% жінок, яким Ви відправили опитування, його заповнять, потрібно надіслати опитування 1000 жінок (100/10%)!