Біографії Характеристики Аналіз

Вибірки та способи їх отримання. Що таке репрезентативна вибірка? Необхідний обсяг вибірки

Емпіричні вважаються одним з основних засобів вивчення суспільних відносин та процесів. Вони забезпечують отримання надійної, повної та репрезентативної інформації.

Специфіка прийомів

Емпіричні забезпечують здобуття фактофіксуючого знання. Вони сприяють встановленню та узагальненню обставин за рахунок опосередкованої чи прямої реєстрації подій, властивих досліджуваним відносинам, об'єктам, явищам. Емпіричні прийоми відрізняються від теоретичних тим, що предметом аналізу виступають:

  1. Поведінка індивідів та його груп.
  2. Продукти діяльності.
  3. Вербальні дії індивідів, їх судження, погляди, поняття.

Вибіркові дослідження

Емпіричне вивчення завжди орієнтоване отримання об'єктивних і точних відомостей, кількісних даних. У зв'язку з цим при його виконанні необхідно забезпечити репрезентативність інформації. Відповідно, особливе значення має правильна вибіркова сукупність. Цеозначає, що відбір необхідно здійснювати те щоб отримані дані вузької групи відбивали тенденції, які у загальної масі респондентів. Наприклад, під час опитування 200-300 осіб отримані дані можна екстраполювати на все міське населення. Показники вибіркової сукупності дозволяють по-іншому підійти до вивчення суспільно-економічних процесів у регіоні, у країні загалом.

Термінологія

Для кращого розуміння питань щодо вибіркових досліджень необхідно роз'яснити деякі визначення. Одиницею спостереження називають безпосереднє джерело інформації. Їм може бути окремий індивід, група, документ, організація тощо. Генеральна сукупність – цекомплекс одиниць спостереження. Вони всі повинні мати відношення до проблеми, що вивчається. Безпосередньому аналізу підлягає. Вивчення здійснюється відповідно до розроблених прийомів збору відомостей. Для визначення цієї частки всього масиву респондентів використовують поняття "вибіркова сукупність". Її властивість відбивати ключові параметри загальної маси людей називається репрезентативністю. У ряді випадків збіги відсутні. Тоді говорять про помилку репрезентативності.

Забезпечення репрезентативності

Детально питання, пов'язані з ним, розглядаються у рамках статистики. Проблеми відрізняються складністю, оскільки, з одного боку, йдеться про забезпечення кількісної репрезентації, яку дає Генеральна сукупність. Цеозначає, зокрема, що групи опитаних мають бути представлені в оптимальному числі. Кількість має бути достатньою для нормального представництва. З іншого боку, мають на увазі і якісна репрезентація. Вона передбачає певний суб'єктний склад, яким формується вибіркова сукупність. Цеозначає, що, наприклад, про репрезентативність не може йтися, якщо опитуються виключно чоловіки або жінки, люди похилого віку або молодь. Вивчення має здійснюватися у межах всіх представлених груп.

Характеристика вибірки

Цей термін у двох аспектах. Насамперед вона визначається як комплекс елементів від загального масиву людей, думка яких вивчається, - це вибіркова сукупність. Цетакож процес створення певної категорії респондентів за необхідного забезпечення репрезентативності. На практиці виділяється кілька типів та видів відбору. Розглянемо їх.

Типи

Їх існує три:

  1. Стихійна вибіркова сукупність. Ценабір респондентів, які відібрані за принципом добровільності. Разом з цим забезпечується доступність входження одиниць від загальної маси людей до конкретної групи вивчення. Стихійний відбір практично застосовується досить часто. Наприклад, при опитуваннях у пресі, поштою. Однак цей прийом має значний недолік. У ньому неможливо якісно уявити весь обсяг генеральної вибірки. Цей прийом застосовується з урахуванням економічності. У деяких опитуваннях цей варіант є єдиним можливим.
  2. Стихійна вибіркова сукупність. Цеодин з основних прийомів, що застосовуються щодо. Як ключовий принцип такого відбору виступає забезпечення можливості кожної одиниці спостереження потрапити із загальної маси індивідів у вузьку групу. І тому використовуються різні прийоми. Наприклад, може бути лотерейний, механічний відбір, таблиця випадкових чисел.
  3. Стратифікована (квотна) вибірка. У її основі лежить формування якісної моделі загальної маси респондентів. Після цього здійснюється відбір одиниць у вибіркову сукупність. Наприклад, він виконується за віковою чи статевою ознакою, за верствами населення тощо.

Види

Існують такі вибірки:

Додатково

Вибірки можуть бути також залежними та незалежними. У першому випадку процедура експерименту та результати, які будуть під час нього отримані для однієї групи респондентів, мають певний вплив на іншу. Відповідно, незалежні вибірки не передбачають наявність такого впливу. Тут слід звернути увагу на один важливий момент. Одна група піддослідних, щодо якої психологічне обстеження проводилося двічі (навіть якщо вона була спрямована на вивчення різних якостей, особливостей, ознак), за умовчанням вважатиметься залежною.

Імовірнісні відбори

Розглянемо деякі типи вибірок:

  1. Випадкова. Вона передбачає однорідність загальної сукупності, одну можливість доступності всіх компонентів, і навіть наявність повного переліку елементів. Як правило, у процесі відбору використовується таблиця з довільними числами.
  2. Механічна. Цей різновид випадкової вибірки передбачає впорядкування за певною ознакою. Наприклад, за номером телефону, в алфавітному порядку, за датою народження тощо. Перший компонент вибирається у випадковому порядку. Далі здійснюється відбір кожного елемента з кроком n. Розмір загальної сукупності буде N=k*n.
  3. Стратифікована. Ця вибірка використовується за неоднорідності загальної сукупності. Остання розбивається на страти (групи). У кожному їх відбір проводиться механічним чи випадковим методом.
  4. Серійне. Відбір груп здійснюється випадково. Усередині них об'єкти вивчаються суцільником.

Неймовірні відбори

Вони передбачають вибірку за принципом випадковості, а, по суб'єктивним ознаками: типовості, доступності, рівного представництва тощо. До цієї категорії відносять відбори:

Нюанс

Для забезпечення репрезентативності необхідний точний та повний перелік одиниць сукупності. Об'єктами спостереження, зазвичай, виступає одна людина. Відбір із переліку краще здійснювати, нумеруючи одиниці та застосовуючи таблицю з випадковими числами. Але досить часто використовується і квазівипадковий метод. Він передбачає відбір із переліку кожного n елемента.

фактори, що впливають

Обсягом сукупності називають кількість її одиниць. На думку фахівців, він не обов'язково має бути більшим. Безсумнівно, що більше число респондентів, то точніше результат. Однак разом із цим великий обсяг не завжди гарантує успіх. Наприклад, це трапляється, коли загальний масив респондентів неоднорідний. Однорідною вважатиметься така сукупність, де контрольований параметр, наприклад, рівень грамотності, розподіляється рівномірно, тобто, порожнечі чи згущення відсутні. У такому випадку достатньо опитати кілька людей. За результатами обстеження можна зробити висновок, що більшість людей має нормальний рівень грамотності. З цього випливає, що на репрезентативність інформації впливають не кількісні ознаки, а якісні характеристики сукупності – рівень її однорідності, зокрема.

Помилки

Вони є відхилення середніх параметрів вибіркової сукупності від значень загальної маси респондентів. Насправді помилки визначаються з допомогою зіставлення. При обстеженні дорослих зазвичай застосовуються відомості переписів, статистичного обліку, і навіть результати минулих опитувань. Контрольними параметрами зазвичай виступають зіставлення середніх значень сукупностей (загальної та вибіркової), визначення відповідно до цього помилки і зменшення цього відхилення називається контролюванням репрезентативності.

Висновки

Вибіркове дослідження - спосіб збору даних про встановлення та поведінку людей через опитування спеціально підібраних груп респондентів. Цей прийом вважається надійним та економічним, хоча й потребує певної техніки. Як основа виступає вибіркова сукупність. Вона постає як певна частка загальної маси людей. Відбір провадиться з використанням спеціальних прийомів і спрямований на отримання інформації про всю сукупність. Остання, у свою чергу, представлена ​​всіма можливими громадськими об'єктами або їхньою групою, яка вивчатиметься. Найчастіше генеральна сукупність настільки велика, що проведення опитування кожного її представника буде досить дорогим та обтяжливим процесом. Тому використовується зменшена її модель. У вибіркову сукупність включаються всі, хто отримує анкети, хто називається респондентами, хто, власне, виступає як об'єкт вивчення. Простіше кажучи, її складає безліч людей, яких опитують.

Висновок

Цілі обстеження визначаються за конкретними категоріями, що входять до генеральної сукупності. Що ж до конкретної частки від загальної маси людей, її становлять суб'єкти, включені до групи з допомогою математичних розрахунків. Для відбору одиниць потрібний опис об'єкта вихідної сукупності. Після визначення кількості піддослідних визначається прийом чи спосіб формування груп. Результати обстеження дозволять описати ознаку щодо всіх представників загальної маси людей. Як показує практика, переважно проводяться вибіркові, а не суцільні дослідження.

Теоретично вибіркового методу розроблені різні способи відбору та види вибірки, що забезпечують репрезентативність. Під способом відборурозуміють порядок відбору одиниць із генеральної сукупності. Розрізняють два способи відбору: повторний та безповторний. При повторномуВідборі кожна відібрана у випадковому порядку одиниця після її обстеження повертається в генеральну сукупність і при подальшому відборі може знову потрапити до вибірки. Цей спосіб відбору побудований за схемою «повернутої кулі»: ймовірність потрапити у вибірку для кожної одиниці генеральної сукупності не змінюється незалежно від кількості одиниць, що відбираються. При безповторномуДоборі кожна одиниця, відібрана у випадковому порядку, після її обстеження в генеральну сукупність не повертається. Цей спосіб відбору побудований за схемою «неповернутої кулі»: ймовірність потрапити у вибірку кожної одиниці генеральної сукупності збільшується у міру виробництва відбору.

Залежно від методики формування вибіркової сукупності розрізняють такі основні види вибірки:

власне випадкову;

механічну;

типичну (стратифіковану, районовану);

серійну (гніздову);

комбіновану;

багатоступінчасту;

багатофазну;

взаємопроникну.

Власне випадкове виборюванняформується у суворій відповідності до наукових принципів та правил випадкового відбору. Для отримання власне випадкової вибірки генеральна сукупність суворо поділяється на одиниці відбору, а потім у випадковому повторному чи безповторному порядку відбирається достатньо одиниць.

Випадковий порядок подібний до жеребкування. Насправді він найчастіше застосовується під час використання спеціальних таблиць випадкових чисел. Якщо, наприклад, із сукупності, що містить 1587 одиниць, слід відібрати 40 одиниць, то з таблиці відбирають 40 чотиризначних чисел, які менші за 1587.

У тому випадку, коли власне випадкова вибірка організується як повторна, розрахунок стандартної помилки провадиться відповідно до формули (6.1). При безповторному способі відбору формула для розрахунку стандартної помилки буде:


де 1 – n/ N- Частка одиниць генеральної сукупності, що не потрапили у вибірку. Так як ця частка завжди менше одиниці, то помилка при безповторному відборі за інших рівних умов завжди менше, ніж при повторному. Безповторний відбір організувати легше, ніж повторний, і він застосовується набагато частіше. Однак величину стандартної помилки при безповторному відборі можна визначати за більш простою формулою (5.1). Така заміна можлива, якщо частка одиниць генеральної сукупності, які не потрапили у вибірку, велика і, отже, величина близька до одиниці.

Формувати вибірку в суворій відповідності до правил випадкового відбору практично дуже складно, а іноді неможливо, тому що при використанні таблиць випадкових чисел необхідно пронумерувати всі одиниці генеральної сукупності. Досить часто генеральна сукупність така велика, що провести подібну попередню роботу надзвичайно складно та недоцільно, тому на практиці застосовують інші види вибірок, кожна з яких не є випадковою. Проте організуються вони те щоб було забезпечене максимальне наближення до умов випадкового добору.

При чисто механічної вибіркився генеральна сукупність одиниць має бути насамперед представлена ​​у вигляді списку одиниць відбору, складеного в якомусь нейтральному стосовно досліджуваної ознаки порядку, наприклад, за алфавітом. Потім список одиниць відбору розбивається стільки рівних частин, скільки необхідно відібрати одиниць. Далі за заздалегідь встановленим правилом, не пов'язаним з варіацією досліджуваної ознаки, з кожної частини списку відбирається одна одиниця. Цей вид вибірки не може забезпечити випадковий характер відбору, і отримана вибірка може бути зміщеною. Пояснюється це тим, що, по-перше, упорядкування одиниць генеральної сукупності може мати елемент невипадкового характеру. По-друге, відбір із кожної частини генеральної сукупності при неправильному встановленні початку відліку може призвести до помилки усунення. Проте практично легше організувати механічну вибірку, ніж власне випадкову, і під час проведення вибіркових обстежень найчастіше користуються цим видом вибірки. Стандартну помилку при механічній вибірці визначають за формулою, власне, випадкової безповторної вибірки (6.2).

Типова (районована, стратифікована) вибіркамає дві мети:

забезпечити представництво у вибірці відповідних типових груп генеральної сукупності за ознаками, що цікавлять дослідника;

збільшити точність результатів вибіркового обстеження.

При типової вибірці на початок її формування генеральна сукупність одиниць розбивається на типові групи. При цьому дуже важливим моментом є правильний вибір ознаки групування. Виділені типові групи можуть містити однакову чи різну кількість одиниць відбору. У першому випадку вибіркова сукупність формується з однаковою часткою відбору з кожної групи, у другому – з часткою, пропорційною її частці у генеральній сукупності. Якщо вибірка формується з рівною часткою відбору, сутнісно вона дорівнює ряду власне випадкових вибірок з менших генеральних сукупностей, кожна з яких є типова група. Відбір кожної групи здійснюється у випадковому (повторному чи безповторному) чи механічному порядку. При типової вибірці, як із рівною, і нерівною часткою відбору, вдається усунути вплив міжгрупової варіації досліджуваного ознаки на точність її результатів, оскільки забезпечується обов'язкове представництво у вибірковій сукупності кожної з типових груп. Стандартна помилка вибірки залежатиме не від величини загальної дисперсії? 2, а від величини середньої з групових дисперсій? 2 . Оскільки середня з групових дисперсій завжди менше загальної дисперсії, остільки за інших рівних умов стандартна помилка типової вибірки буде меншою за стандартну помилку власне випадкової вибірки.

При визначенні стандартних помилок типової вибірки застосовуються такі формули:

При повторному способі відбору

При безповторному способі відбору:

- Середня з групових дисперсій у вибірковій сукупності.

Серійна (гніздова) вибірка– це такий вид формування вибіркової сукупності, як у випадковому порядку відбираються не одиниці, які підлягають обстеженню, а групи одиниць (серії, гнізда). Всередині відібраних серій (гнізд) піддаються обстеженню всі одиниці. Серійну вибірку практично організувати та провести легше, ніж відбір окремих одиниць. Однак при цьому виді вибірки, по-перше, не забезпечується представництво кожної із серій і, по-друге, не усувається вплив міжсерійної варіації ознаки, що вивчається, на результати обстеження. У тому випадку, коли ця варіація є значною, вона призведе до збільшення випадкової помилки репрезентативності. При виборі виду вибірки досліднику необхідно враховувати цю обставину. Стандартна помилка серійної вибірки визначається за формулами:

При повторному способі відбору -


де? - міжсерійна дисперсія вибіркової сукупності; r- Число відібраних серій;

При безповторному способі відбору -


де R- Число серій в генеральній сукупності.

У практиці ті чи інші способи та види вибірок застосовуються залежно від мети та завдань вибіркових обстежень, а також можливостей їх організації та проведення. Найчастіше застосовується комбінування способів відбору та видів вибірки. Такі вибірки отримали назву комбіновані.Комбінування можливе в різних поєднаннях: механічної та серійної вибірки, типової та механічної, серійної та власне випадкової і т. д. До комбінованої вибірки вдаються для забезпечення найбільшої репрезентативності з найменшими трудовими та грошовими витратами на організацію та проведення обстеження.

При комбінованій вибірці величина стандартної помилки вибірки складається з помилок на кожному її ступені і може бути визначена як квадратний корінь із суми квадратів помилок відповідних вибірок. Так, якщо при комбінованій вибірці у поєднанні використовувалися механічна та типова вибірки, то стандартну помилку можна визначити за формулою


де?1 і? 2 – стандартні помилки відповідно до механічної та типової вибірок.

Особливість багатоступінчастої виборкиу тому, що вибіркова сукупність формується поступово, щаблями відбору. На першому ступені за допомогою заздалегідь визначеного способу та виду відбору відбираються одиниці першого ступеня. На другому ступені з кожної одиниці першого ступеня, що потрапила у вибірку, відбираються одиниці другого ступеня і т. д. Число щаблів може бути і більше двох. На останньому рівні формується вибіркова сукупність, одиниці якої підлягають обстеженню. Так, наприклад, для вибіркового обстеження бюджетів домашніх господарств на першому ступені відбираються територіальні суб'єкти країни, на другому – райони у відібраних регіонах, на третій – у кожній муніципальній освіті відбираються підприємства чи організації та, нарешті, на четвертому ступені – у відібраних підприємствах відбираються сім'ї .

Таким чином, вибіркова сукупність формується на останньому ступені. Багатоступінчаста вибірка гнучкіша, ніж інші види, хоча загалом вона дає менш точні результати, ніж вибірка того ж обсягу, але сформована в один щабель. Однак при цьому вона має одну важливу перевагу, яка полягає в тому, що основу вибірки при багатоступінчастому відборі потрібно будувати на кожному з ступенів тільки для одиниць, які потрапили у вибірку, а це дуже важливо, так як нерідко готової основи вибірки немає.

Стандартну помилку вибірки при багатоступінчастому відборі при групах різних обсягів визначають за формулою


де ?1, ?2, ?3 , ... – стандартні помилки на різних щаблях;

n1, n2, n3 , .. . – чисельність вибірок на відповідних щаблях відбору.

У тому випадку, якщо групи неоднакові за обсягом, теоретично цією формулою користуватися не можна. Але якщо загальна частка відбору на всіх щаблях стала, то практично розрахунок за цією формулою не призведе до спотворення величини помилки.

Сутність багатофазної вигборкиполягає в тому, що на основі спочатку сформованої вибіркової сукупності утворюють підвибірку, з цієї підвиборки - наступну підвибірку і т. д. Початкова вибіркова сукупність є першою фазою, підвибірка з неї - другу і т. д. Багатофазну вибірку доцільно застосовувати у випадках, якщо:

вивчення різних ознак потрібно неоднаковий обсяг вибірки;

коливання досліджуваних ознак неоднакова і необхідна точність різна;

щодо всіх одиниць початкової вибіркової сукупності (перша фаза) необхідно зібрати менш докладні відомості, а щодо одиниць кожної наступної фази – докладніші.

Однією з безперечних переваг багатофазної вибірки є те, що відомостями, отриманими на першій фазі, можна користуватися як додатковою інформацією на наступних фазах, інформацією другої фази – як додатковою інформацією на наступних фазах і т. д. Таке використання відомостей підвищує точність результатів вибіркового обстеження .

При організації багатофазної вибірки можна застосовувати поєднання різних способів та видів відбору (типову вибірку з механічною тощо). Багатофазний відбір можна поєднувати із багатоступінчастим. На кожному щаблі вибірка може бути багатофазною.

Стандартна помилка при багатофазній вибірці розраховується на кожній фазі окремо відповідно до формул того способу відбору і виду вибірки, за допомогою яких формувалася її вибіркова сукупність.

Взаємопроникні виборки– це дві або більше незалежні вибірки з однієї і тієї ж генеральної сукупності, утворені одним і тим самим способом та видом. До взаємопроникних вибірок доцільно вдаватися, якщо потрібно за короткий термін отримати попередні підсумки вибіркових обстежень. Взаємопроникні вибірки ефективні з метою оцінки результатів обстеження. Якщо у незалежних вибірках результати однакові, це свідчить про надійності даних вибіркового обстеження. Взаємопроникні вибірки можна застосовувати для перевірки роботи різних дослідників, доручивши кожному з них провести обстеження різних вибірок.

Стандартна помилка при взаємопроникних вибірках визначається за тією самою формулою, як і типова пропорційна вибірка (5.3). Взаємопроникні вибірки в порівнянні з іншими видами вимагають великих трудових витрат та грошових витрат, тому дослідник повинен враховувати цю обставину під час проектування вибіркового обстеження.

Граничні помилки при різних способах відбору та видах вибірки визначаються за формулою? = t?, де? - Відповідна стандартна помилка.

Один із головних компонентів ретельно продуманого дослідження – визначення вибірки та що таке репрезентативна вибірка. Це як у прикладі з тортом. Не обов'язково ж з'їдати весь десерт, щоб зрозуміти його смак? Досить невеликої частини.

Так ось, торт – це Генеральна сукупність (Тобто всі респонденти, які підходять для опитування). Вона може бути виражена територіально, наприклад, лише жителі Московської області. Гендерно – лише жінки. Або мати обмеження за віком – росіяни віком від 65 років.

Вирахувати генеральну сукупність складно: потрібно мати дані перепису населення чи попередніх оціночних опитувань. Тому зазвичай генеральну сукупність «прикидають», та якщо з отриманого числа вираховують вибіркову сукупністьабо вибірку.

Що таке репрезентативна вибірка?

Вибірка- Це чітко визначена кількість респондентів. Її структура має максимально збігатися зі структурою генеральної сукупності за основними характеристиками відбору.

Наприклад, якщо потенційні респонденти – все населення Росії, де 54% — це жінки, а 46% — чоловіки, то вибірка повинна містити таке саме відсоткове співвідношення. Якщо збіг параметрів відбувається, вибірку можна назвати репрезентативною. Це означає, що неточності та помилки у дослідженні зводяться до мінімуму.

Обсяг вибірки визначається з урахуванням вимог точності та економічності. Ці вимоги обернено пропорційні одна одній: що більше обсяг вибірки, то точніше результат. У цьому що вища точність, тим більше витрат необхідно проведення дослідження. І навпаки, що менше вибірка, то менше на неї витрат, тим менш точно і більш випадково відтворюються властивості генеральної сукупності.

Тому для обчислення обсягу вибору соціологами було винайдено формулу та створено спеціальний калькулятор:

Довірча ймовірністьі довірча похибка

Що означають терміни « довірча ймовірність» та « довірча похибка»? Довірча ймовірність – це показник точності вимірів. А довірча похибка – можлива помилка результатів дослідження. Наприклад, при генеральній сукупності понад 500 00 осіб (припустимо, що проживають у Новокузнецьку) вибірка дорівнюватиме 384 особи за довірчої ймовірності 95% і похибки 5% АБО (при довірчому інтервалі 95±5%).

Що з цього випливає? При проведенні 100 досліджень з такою вибіркою (384 особи) у 95 відсотків випадків відповіді, що одержуються, за законами статистики будуть знаходитися в межах ±5% від вихідного. І ми отримаємо репрезентативну вибірку із мінімальною ймовірністю статистичної помилки.

Після того, як підрахунок обсягу вибірки виконано, можна подивитися чи є достатня кількість респондентів у демо-версії Панелі Анкетолога. А як провести панельний опитування можна докладніше дізнатися.

План:

1. Завдання математичної статистики.

2. Види вибірок.

3. Методи відбору.

4. Статистичне розподілення вибірки.

5. Емпірична функція розподілу.

6. Полігон та гістограма.

7. Числові характеристики варіаційного ряду.

8. Статистичні оцінки параметрів розподілу.

9. Інтервальні оцінки параметрів розподілу.

1. Завдання та методи математичної статистики

Математична статистика - це розділ математики, присвячений методам збору, аналізу та обробки результатів статистичних даних спостережень для наукових та практичних цілей.

Нехай потрібно вивчити сукупність однорідних об'єктів щодо деякої якісної чи кількісної ознаки, що характеризує ці об'єкти. Наприклад, якщо є партія деталей, то якісною ознакою може бути стандартність деталі, а кількісним- контрольований розмір деталі.

Іноді проводять суцільне дослідження, тобто. обстежують кожен об'єкт щодо необхідної ознаки. Насправді суцільне обстеження застосовується рідко. Наприклад, якщо сукупність містить дуже багато об'єктів, то провести суцільне обстеження фізично неможливо. Якщо обстеження об'єкта пов'язані з його знищенням чи потребують великих матеріальних витрат, проводити суцільне обстеження немає сенсу. У таких випадках випадково відбирають із усієї сукупності обмежену кількість об'єктів (вибіркову сукупність) і піддають їх вивченню.

Основне завдання математичної статистики полягає у дослідженні всієї сукупності за вибірковими даними залежно від поставленої мети, тобто. вивчення імовірнісних властивостей сукупності: закону розподілу, числових характеристик тощо. для ухвалення управлінських рішень в умовах невизначеності.

2. Види вибірок

Генеральна сукупність - Це сукупність об'єктів, з якої проводиться вибірка.

Вибіркова сукупність (вибірка) - Це сукупність випадково відібраних об'єктів.

Обсяг сукупності - Це кількість об'єктів цієї сукупності. Обсяг генеральної сукупності позначається N, вибірковою - n.

Приклад:

Якщо з 1000 деталей відібрано для обстеження 100 деталей, обсяг генеральної сукупності N = 1000, а обсяг вибірки n = 100.

При складанні вибірки можна надійти двома способами: після того, як об'єкт відібраний і над ним зроблено спостереження, він може бути повернутий або не повернутий у генеральну сукупність. Т.о. вибірки поділяються на повторні та безповторні.

Повторнийназивають вибірку, коли відібраний об'єкт (перед відбором наступного) повертається у генеральну сукупність.

Безповторнийназивають вибірку, коли відібраний об'єкт у генеральну сукупність не повертається.

Насправді зазвичай користуються безповторним випадковим добором.

Для того, щоб за даними вибірки можна було досить впевнено судити про ознаку генеральної сукупності, що цікавить, необхідно, щоб об'єкти вибірки правильно його представляли. Вибірка має правильно представляти пропорції генеральної сукупності. Вибірка має бути репрезентативної (представницької).

Через закон великих чисел можна стверджувати, що вибірка буде репрезентативною, якщо її здійснювати випадково.

Якщо обсяг генеральної сукупності досить великий, а вибірка становить лише незначну частину цієї сукупності, то різницю між повторної і безповторної вибірками стирається; в граничному випадку, коли розглядається нескінченна генеральна сукупність, а вибірка має кінцевий обсяг, ця різниця зникає.

Приклад:

В американському журналі «Літературний огляд» за допомогою статистичних методів було проведено дослідження прогнозів щодо результату майбутніх виборів президента США у 1936 році. Претендентами цей пост були Ф.Д. Рузвельт та А. М. Ландон. Як джерело для генеральної сукупності досліджуваних американців було взято довідники телефонних абонентів. З них випадково було обрано 4 мільйони адрес., за якими редакція журналу розіслала листівки з проханням висловити своє ставлення до кандидатів на пост президента. Опрацювавши результати опитування, журнал опублікував соціологічний прогноз про те, що на майбутніх виборах із великою перевагою переможе Ландон. І… помилився: перемогу здобув Рузвельт.
Цей приклад можна як приклад нерепрезентативної вибірки. Річ у тім, що у першій половині ХХ століття телефони мала лише заможна частина населення, які підтримували погляди Ландона.

3. Способи відбору

На практиці застосовуються різні способи відбору, які можна поділити на 2 види:

1. Відбір не вимагає розчленування генеральної сукупності на частини (а) простий випадковий безповторний; б) простий випадковий повторний).

2. Відбір, у якому генеральна сукупність розбивається на частини. (а) типовий відбір; б) механічний відбір; в) серійний відбір).

Простим випадковим називають такою відбір, при якому об'єкти витягуються по одному з усієї генеральної сукупності (випадково).

Типовимназивають відбір, у якому об'єкти відбираються не з усієї генеральної сукупності, та якщо з її «типової» частини. Наприклад, якщо деталь виготовляють на кількох верстатах, то відбір виробляють не з усієї сукупності деталей, вироблених усіма верстатами, а з продукції кожного верстата окремо. Таким добором користуються тоді, коли обстежуваний ознака помітно коливається у різних «типових» частинах генеральної сукупності.

Механічнимназивають відбір, у якому генеральну сукупність «механічно» ділять стільки груп, скільки об'єктів має увійти вибірку, та якщо з кожної групи відбирають один об'єкт. Наприклад, якщо потрібно відібрати 20 % виготовлених верстатом деталей, то відбирають кожну 5 деталь; якщо потрібно відібрати 5% деталей-кожну 20-ту і т.д. Іноді такий відбір може не забезпечувати репрезентативність вибірки (якщо відбирають кожен 20-й валик, що обточується, причому відразу ж після відбору проводиться заміна різця, то відібраними виявляться всі валики, обточені затупленими різцями).

Серійнимназивають відбір, при якому об'єкти відбирають із генеральної сукупності не по одному, а «серіями», які піддають суцільному обстеженню. Наприклад, якщо вироби виготовляються великою групою верстатів-автоматів, піддають суцільному обстеженню продукцію лише кількох верстатів.

Насправді часто застосовують комбінований відбір, у якому поєднуються зазначені вище способи.

4. Статистичне розподілення вибірки

Нехай із генеральної сукупності вилучено вибірку, причому значення x 1-Спостерігалося раз, x 2 -n 2 раз, ... x k - N k разів. n = n 1 +n 2 +...+n k – обсяг вибірки. Значення, що спостерігаютьсяназиваються варіантами, А послідовність варіант, записаних у зростаючому порядку- варіаційним рядом. Числа спостереженьназиваються частотами (абсолютними частотами), а їхнє ставлення до обсягу вибірки- відносними частотамиабо статистичними ймовірностями.

Якщо кількість варіант велике чи вибірка виробляється з безперервної генеральної сукупності, то варіаційний ряд складається за окремими точковими значеннями, а, по інтервалам значень генеральної сукупності. Такий варіаційний ряд називається інтервальним.Довжини інтервалів при цьому мають бути рівними.

Статистичним розподілом вибірки називається перелік варіантів і відповідних їм частот або відносних частот.

Статистичне розподіл можна задати також як послідовності інтервалів і відповідних їм частот (суми частот, які у цей інтервал значень)

Точковий варіаційний ряд частот може бути представлений таблицею:

x i
x 1
x 2

x k
n i
n 1
n 2

n k

Аналогічно можна уявити точковий варіаційний ряд відносних частот.

Причому:

Приклад:

Число літер у деякому тексті Х виявилося рівним 1000. Першою зустрілася буква «я», другою-літера «і», третьою-літера «а», четвертою-«ю». Потім йшли літери "о", "е", "у", "е", "и".

Випишемо місця, які вони займають в алфавіті, відповідно маємо: 33, 10, 1, 32, 16, 6, 21, 31, 29.

Після впорядкування цих чисел за зростанням отримуємо варіаційний ряд: 1, 6, 10, 16, 21, 29, 31, 32, 33.

Частоти появи букв у тексті: "а" - 75, "е" -87, "і" - 75, "о" - 110, "у" - 25, "и" - 8, "е" - 3, "ю" »- 7, «я»-22.

Складемо точковий варіаційний ряд частот:

Приклад:

Задано розподіл частот вибірки обсягу n = 20.

Складіть точковий варіаційний ряд відносних частот.

x i

2

6

12

n i

3

10

7

Рішення:

Знайдемо відносні частоти:


x i

2

6

12

w i

0,15

0,5

0,35

При побудові інтервального розподілу існують правила вибору числа інтервалів чи величини кожного інтервалу. Критерієм тут служить оптимальне співвідношення: зі збільшенням кількості інтервалів поліпшується репрезентативність, але збільшується обсяг даних, і час їх обробку. Різниця x max - x min між найбільшим та найменшим значеннями варіант називають розмахомвибірки.

Для підрахунку кількості інтервалів k зазвичай застосовують емпіричну формулу Стреджесса (маючи на увазі округлення до найближчого зручного цілого): k = 1 + 3.322 lg n.

Відповідно, величину кожного інтервалу h можна обчислити за формулою:

5. Емпірична функція розподілу

Розглянемо деяку вибірку із генеральної сукупності. Нехай відомий статистичний розподіл частот кількісної ознаки Х. Введемо позначення: n x- Число спостережень, при яких спостерігалося значення ознаки, менше х; n – загальна кількість спостережень (обсяг вибірки). Відносна частота події Х<х равна n x /n. Якщо змінюється, то змінюється і відносна частота, тобто. відносна частотаn x /n- Є функція від х. Т.к. вона знаходиться емпіричним шляхом, вона називається емпіричною.

Емпіричною функцією розподілу (функцією розподілу вибірки) називають функцію, Що визначає для кожного х відносну частоту події Х<х.


де число варіант, менших х,

n – обсяг вибірки.

На відміну від емпіричної функції розподілу вибірки, функцію розподілу F (x ) генеральної сукупності називають теоретичною функцією розподілу.

Відмінність між емпіричною та теоретичною функціями розподілу полягає в тому, що теоретична функція F (x ) визначає ймовірність події Х F*(x)прагне ймовірності до ймовірності F (x ) цієї події. Тобто при великому n F*(x)і F (x) мало відрізняються один від одного.

Т.о. доцільно використовувати емпіричну функцію розподілу вибірки для наближеного уявлення теоретичної (інтегральної) функції розподілу генеральної сукупності.

F*(x)має всі властивості F(x).

1. Значення F*(x)належать інтервалу.

2. F * (x) - Незменшується функція.

3. Якщо - найменша варіанта, то F * (x) = 0, при х < x 1; якщо x k - Найбільша варіанта, то F * (x) = 1, при х > x k .

Тобто. F*(x)служить для оцінки F(x).

Якщо вибірка задана варіаційним рядом, то емпірична функція має вигляд:

Графік емпіричної функції називається кумулятою.

Приклад:

Побудуйте емпіричну функцію даного розподілу вибірки.


Рішення:

Обсяг вибірки n = 12 + 18 +30 = 60. Найменша варіанта 2, тобто. при х < 2. Подія X<6, (x 1 = 2) наблюдалось 12 раз, т.е. F * (x) = 12/60 = 0,2при 2 < x < 6. Подія Х<10, (x 1 =2, x 2 = 6) наблюдалось 12 + 18 = 30 раз, т.е.F*(x)=30/60=0,5 при 6 < x < 10. Т.к. х = 10 найбільша варіанта, то F * (x) = 1при х>10. Шукана емпірична функція має вигляд:

Кумулята:


Кумулята дає можливість розуміти графічно подану інформацію, наприклад, відповісти на запитання: «Визначте число спостережень, при яких значення ознаки було менше 6 або не менше 6. F*(6) =0,2 » Тоді число спостережень, при яких значення ознаки, що спостерігається, було менше 6 дорівнює 0,2 * n = 0,2 * 60 = 12. Число спостережень, при яких значення спостерігається ознаки було не менше 6 дорівнює (1-0,2) * n = 0,8 * 60 = 48.

Якщо заданий інтервальний варіаційний ряд, то складання емпіричної функції розподілу знаходять середини інтервалів і з них отримують емпіричну функцію розподілу аналогічно точковому варіаційному ряду.

6. Полігон та гістограма

Для наочності будують різні графіки статистичного розподілу: поліном та гістограми

Полігон частот-це ламана, відрізки якої з'єднують точки ( x 1 ; n 1 ), ( x 2 ; n 2 ), ..., ( x k ; n k ), де - варіанти, - відповідні їм частоти.

Полігон відносних частот-це ламана, відрізки якої з'єднують точки (x1; w1), (x2; w2), ..., (xk; wk), де x i -варіанти, w i - відповідні їм відносні частоти.

Приклад:

Побудуйте поліном відносних частот за цим розподілом вибірки:

Рішення:

У разі безперервної ознаки доцільно будувати гістограму, для чого інтервал, в якому укладені всі значення ознаки, що спостерігаються, розбивають на кілька часткових інтервалів довжиною h і знаходять для кожного часткового інтервалу n i – суму частот варіант, що потрапили в i-ий інтервал. (Наприклад, при вимірі зростання людини або ваги ми маємо справу з безперервною ознакою).

Гістограма частот-це ступінчаста фігура, що складається з прямокутників, основами яких служать часткові інтервали довжиною h, а висоти дорівнюють відношенню (щільність частот).

Площа i -го часткового прямокутника дорівнює- сумі частот варіант i - го інтервалу, тобто. площа гістограми частот дорівнює сумі всіх частот, тобто. обсягу вибірки.

Приклад:

Дано результати зміни напруги (у вольтах) в електромережі. Складіть варіаційний ряд, побудуйте полігон і гістограму частот, якщо значення напруги такі: 227, 215, 230, 232, 223, 220, 228, 222, 221, 226, 226, 215, 218, 222, 22 , 217, 220.

Рішення:

Складемо варіаційний ряд. Маємо n = 20, x min = 212, x max = 232.

Застосуємо формулу Стреджесу для підрахунку числа інтервалів.

Інтервальний варіаційний ряд частот має вигляд:


Щільність частот

212-21 6

0,75

21 6-22 0

0,75

220-224

1,75

224-228

228-232

0,75

Побудуємо гістограму частот:

Побудуємо полігон частот, знайшовши попередньо середини інтервалів:


Гістограмою відносних частотназивають ступінчасту фігуру, що складається з прямокутників, основами яких є часткові інтервали довжиною h, а висоти рівні відношенню w i/h (Щільність відносної частоти).

Площа i-го часткового прямокутника дорівнює-відносній частоті варіант, що потрапили в i-ий інтервал. Тобто. площа гістограми відносних частот дорівнює сумі відносних частот, тобто. одиниці.

7. Числові характеристики варіаційного ряду

Розглянемо основні характеристики генеральної та вибіркової сукупностей.

Генеральним середнімназивається середнє арифметичне значень ознаки генеральної сукупності.

Для різних значень x 1 x 2 x 3 … x n . ознаки генеральної сукупності обсягу N маємо:

Якщо значення ознаки мають відповідні частоти N 1 +N 2 +…+N k =N ,


Вибірковим середнімназивається середнє арифметичне значень ознаки вибіркової сукупності.

Якщо значення ознаки мають відповідні частоти n 1 +n 2 +…+n k = n, то


Приклад:

Обчисліть середнє вибіркове для вибірки: x 1 = 51,12; x 2 = 51,07; x 3 = 52,95; x 4 = 52,93; x 5 = 51,1; x 6 = 52,98; x7 = 52,29; x 8 = 51,23; x9 = 51,07; x 10 = 51,04.

Рішення:

Генеральною дисперсієюназивається середнє арифметичне квадратів відхилень значень ознаки Х генеральної сукупності від генерального середнього.

Для різних значень x 1 x 2 x 3 … x N ознаки генеральної сукупності обсягу N маємо:

Якщо значення ознаки мають відповідні частоти N 1 +N 2 +…+N k =N ,

Генеральним середньоквадратичним відхиленням (стандартом)називають квадратний корінь із генеральної дисперсії

Вибірковою дисперсієюназивається середнє арифметичне квадратів відхилень значень ознаки від середнього значення.

Для різних значень x 1 x 2 x 3 … x n ознаки вибіркової сукупності обсягу n маємо:


Якщо значення ознаки мають відповідні частоти n 1 +n 2 +…+n k = n, то


Вибірковим середньоквадратичним відхиленням (стандартом)називається квадратний корінь із вибіркової дисперсії.


Приклад:

Вибіркова сукупність задана таблицею розподілу. Знайдіть вибіркову дисперсію.


Рішення:

Теорема: Дисперсія дорівнює різниці середнього квадратів значень ознаки та квадрата загального середнього.

Приклад:

Знайдіть дисперсію за цим розподілом.



Рішення:

8. Статистичні оцінки параметрів розподілу

Нехай генеральна сукупність досліджується певною вибіркою. При цьому можна отримати лише наближене значення невідомого параметра Q, який є його оцінкою. Очевидно, що оцінки можуть змінюватися від однієї вибірки до іншої.

Статистичною оцінкоюQ *невідомого параметра теоретичного розподілу називається функція f, яка залежить від значень вибірки, що спостерігаються. Завданням статистичного оцінювання невідомих параметрів за вибіркою полягає у побудові такої функції від наявних даних статистичних спостережень, яка давала б найточніші наближені значення реальних, не відомих досліднику значень цих параметрів.

Статистичні оцінки поділяються на точкові та інтервальні, залежно від способу їх надання (числом чи інтервалом).

Точковою називають статистичну оцінкупараметра Q теоретичного розподілу, що визначається одним значенням параметра Q *=f (x 1 , x 2 , ..., x n), деx 1 , x 2 , ..., x n- Результати емпіричних спостережень над кількісною ознакою Х деякої вибірки.

Такі оцінки параметрів, отримані за різними вибірками, найчастіше відрізняються одна від одної. Абсолютна різницю /Q *-Q / називають помилкою вибірки (оцінювання).

Для того, щоб статистичні оцінки давали достовірні результати про оцінювані параметри, необхідно, щоб вони були незміщеними, ефективними та заможними.

Точкова оцінка, математичне очікування якої дорівнює (не дорівнює) оцінюваному параметру, називається незміщеною (зміщеною). М(Q *) = Q.

Різниця М( Q *)-Q називають зміщенням чи систематичною помилкою. Для незміщених оцінок систематична помилка дорівнює 0.

Ефективною оцінку Q *, яка при заданому обсязі вибірки n має найменшу можливу дисперсію: D min (n = const). Ефективна оцінка має найменший розкид у порівнянні з іншими незміщеними та заможними оцінками.

Заможноюназивають таку статистичну оцінку Q*, яка при nпрагне ймовірності до оцінюваного параметра Q , тобто. зі збільшенням обсягу вибірки n оцінка прагне ймовірності до справжнього значення параметра Q.

Вимога спроможності узгоджується із законом великих числа: що більше вихідної інформації про досліджуваному об'єкті, то точніше результат. Якщо обсяг вибірки малий, то точкова оцінка параметра може призвести до серйозних помилок.

Будь-яку вибірку (обсягуn)можна розглядати як упорядкований набірx 1 , x 2 , ..., x nнезалежних однаково розподілених випадкових величин.

Вибіркові середні для різних вибірок обсягу n з однієї й тієї самої генеральної сукупності будуть різні. Т. е. вибіркове середнє можна розглядати як випадкову величину, а значить, можна говорити про розподіл вибіркового середнього та його числові характеристики.

Вибіркове середнє задовольняє всім накладеним до статистичних оцінок вимог, тобто. дає незміщену, ефективну та заможну оцінку генерального середнього.

Можна довести, що. Таким чином, вибіркова дисперсія є зміщеною оцінкою генеральної дисперсії, даючи занижене значення. Т. е. при невеликому обсязі вибірки вона даватиме систематичну помилку. Для незміщеної, заможної оцінки достатньо взяти величину, яку називають виправленою дисперсією Т. е.

На практиці для оцінки генеральної дисперсії застосовують виправлену дисперсію при n < 30. В інших випадках ( n >30) відхилення від малопомітно. Тому при великих значеннях n помилкою усунення можна знехтувати.

Можна також довести, що відносна частотаn i / n є незміщеною та заможною оцінкою ймовірності P (X = x i ). Емпірична функція розподілу F * (x ) є незміщеною та заможною оцінкою теоретичної функції розподілу F (x) = P (X< x ).

Приклад:

Знайдіть незміщені оцінки математичного очікування та дисперсії за таблицею вибірки.

x i
n i

Рішення:

Об'єм вибірки n =20.

Незміщеною оцінкою математичного очікування є середнє вибіркове.


Для обчислення незміщеної оцінки дисперсії спочатку знайдемо вибіркову дисперсію:

Тепер знайдемо незміщену оцінку:

9. Інтервальні оцінки параметрів розподілу

Інтервальної називається статистична оцінка, яка визначається двома числовими значеннями-кінцями досліджуваного інтервалу.

Число> 0, у якому | Q - Q * |< , характеризує точність інтервальної оцінки

Довірчимназивається інтервал , який із заданою ймовірністюпокриває невідоме значення параметра Q . Доповнення довірчого інтервалу до багатьох можливих значень параметра Q називається критичною областю. Якщо критична область розташована лише з одного боку від довірчого інтервалу, то довірчий інтервал називається одностороннім: лівостороннімякщо критична область існує тільки зліва, і правостороннім-якщо лише справа. В іншому випадку, довірчий інтервал називається двостороннім.

Надійністю, чи довірчою ймовірністю, оцінки Q (за допомогою Q *) називають ймовірність, з якою виконується така нерівність: | Q - Q * |< .

Найчастіше довірчу ймовірність задають заздалегідь (0,95; 0,99; 0,999) і неї накладають вимога бути близькою до одиниці.

Ймовірністьназивають ймовірністю помилки, чи рівнем значимості.

Нехай | Q - Q * |< тоді. Це означає, що з ймовірністюможна стверджувати, що дійсне значення параметра Q належить інтервалу. Чим менша величина відхилення, Тим точніше оцінка.

Межі (кінці) довірчого інтервалу називають довірчими кордонами, чи критичними кордонами.

Значення меж довірчого інтервалу залежить від закону розподілу параметра Q*.

Величину відхиленнярівну половині ширини довірчого інтервалу, називають точністю оцінки.

Методи побудови довірчих інтервалів уперше розроблено американським статистом Ю. Нейманом. Точність оцінки, довірча ймовірність та обсяг вибірки n зв'язані між собою. Тому, знаючи конкретні значення двох величин, можна обчислити третю.

Знаходження довірчого інтервалу з метою оцінки математичного очікування нормального розподілу, якщо відомо середньоквадратичне відхилення.

Нехай зроблено вибірку з генеральної сукупності, підпорядкованої закону нормального розподілу. Нехай відоме генеральне середньоквадратичне відхилення, але невідомо математичне очікування теоретичного розподілу a ().

Справедлива наступна формула:

Тобто. за заданим значенням відхиленняможна знайти, з якою ймовірністю невідоме генеральне середнє належить інтервалу. І навпаки. З формули видно, що при зростанні обсягу вибірки та фіксованій величині довірчої ймовірності величина- Зменшується, тобто. точність оцінки зростає. Зі збільшенням надійності (довірчої ймовірності), величина-Збільшується, тобто. точність оцінки зменшується.

Приклад:

В результаті випробувань були отримані такі значення -25, 34, -20, 10, 21. Відомо, що вони підпорядковуються закону нормального розподілу із середньоквадратичним відхиленням 2. Знайдіть оцінку а* для математичного очікування а. Побудуйте для нього 90% довірчий інтервал.

Рішення:

Знайдемо незміщену оцінку

Тоді


Довірчий інтервал для має вигляд: 4 – 1,47< a< 4+ 1,47 или 2,53 < a < 5, 47

Знаходження довірчого інтервалу з метою оцінки математичного очікування нормального розподілу, якщо невідомо середньоквадратичне відхилення.

Нехай відомо, що генеральна сукупність підпорядкована закону нормального розподілу, де невідомі а і. Точність довірчого інтервалу, що покриває з надійністюсправжнє значення параметра а, у разі обчислюється по формуле:

, де n - обсяг вибірки, , - Коефіцієнт Стьюдента (його слід знаходити за заданими значеннями n та з таблиці "Критичні точки розподілу Стьюдента").

Приклад:

В результаті випробувань були отримані наступні значення -35 -32 -26 -35 -30 -17. Відомо, що вони підпорядковуються закону нормального розподілу. Знайдіть довірчий інтервал для математичного очікування, а генеральної сукупності з довірчою ймовірністю 0,9.

Рішення:

Знайдемо незміщену оцінку.

Знайдемо.

Тоді

Довірчий інтервал набуде вигляду(-29,2 - 5,62; -29,2 + 5,62) або (-34,82; -23,58).

Знаходження довірчого інтерлу для дисперсії та середньоквадратичного відхилення нормального розподілу

Нехай із деякої генеральної сукупності значень, розподіленої за нормальним законом, взято випадкову вибірку обсягуn < 30, для якої обчислені вибіркові дисперсії: зміщената виправлена ​​s 2. Тоді для знаходження інтервальних оцінок із заданою надійністюдля генеральної дисперсіїDгенерального середньоквадратичного відхиленнявикористовуються такі формули.


або,

Значення- Знаходять за допомогою таблиці значень критичних точокрозподілу Пірсона.

Довірчий інтервал дисперсії перебуває з цих нерівностей шляхом зведення всіх частин нерівності в квадрат.

Приклад:

Було перевірено якість 15 болтів. Припускаючи, що помилка під час їх виготовлення підпорядкована нормальному закону розподілу, причому вибіркове середньоквадратичне відхиленнярівно 5 мм, визначити з надійністюдовірчий інтервал для невідомого параметра

Межі інтервалу представимо у вигляді подвійної нерівності:

Кінці двостороннього довірчого інтервалу для дисперсії можна визначити і без виконання арифметичних дій за заданим рівнем довіри та обсягом вибірки за допомогою відповідної таблиці (Кордони довірчих інтервалів для дисперсії в залежності від кількості ступенів свободи та надійності). Для цього отримані з таблиці кінці інтервалу множать виправлену дисперсію s 2.

Приклад:

Вирішимо попереднє завдання іншим способом.

Рішення:

Знайдемо виправлену дисперсію:

За таблицею «Кордони довірчих інтервалів для дисперсії в залежності від числа ступенів свободи та надійності» знайдемо межі довірчого інтервалу для дисперсії приk=14 і: нижня межа 0,513 та верхня 2,354.

Помножимо отримані межі наs 2 і витягнемо корінь (бо нам потрібен довірчий інтервал не для дисперсії, а для середньоквадратичного відхилення).

Як видно з прикладів, величина довірчого інтервалу залежить від способу його побудови та дає близькі між собою, але неоднакові результати.

При вибірках досить великого обсягу (n>30) межі довірчого інтервалу для генерального середньоквадратичного відхилення можна визначити за такою формулою: - деяке число, яке табульоване та наводиться у відповідній довідковій таблиці.

Якщо 1- q<1, то формула имеет вид:

Приклад:

Розв'яжемо попереднє завдання третім способом.

Рішення:

Раніше було знайденоs= 5,17. q(0,95; 15) = 0,46 – знаходимо за таблицею.

Тоді:

Вибіркове спостереженнязастосовується, коли застосування суцільного спостереження фізично неможливочерез великий масив даних або економічно недоцільно. Фізична неможливість має місце, наприклад, щодо пасажиропотоків, ринкових цін, сімейних бюджетів. Економічна недоцільність має місце в оцінці якості товарів, що з їх знищенням, наприклад, дегустація, випробування цегли на міцність тощо.

Статистичні одиниці, відібрані для спостереження, становлять вибіркову сукупністьабо вибірку, а весь їх масив - генеральну сукупність(ДС). При цьому кількість одиниць у вибірціпозначають n, а у всій ГС - N. Ставлення n/Nназивається відносний розмірабо частка вибірки.

Якість результатів вибіркового спостереження залежить від репрезентативності вибіркитобто від того, наскільки вона представницька в ГС. Для забезпечення репрезентативності вибірки необхідно дотримуватись принцип випадковості відбору одиниць, який передбачає, що у включення одиниці ГС у вибірку неспроможна вплинути якийсь інший чинник крім випадку.

Існує 4 способи випадкового відборуу вибірку:

  1. Власне випадковийвідбір або «метод лото», коли статистичним величинам присвоюються порядкові номери, що заносяться на певні предмети (наприклад, барила), які потім перемішуються в деякій ємності (наприклад, в мішку) і вибираються навмання. Насправді цей спосіб здійснюють за допомогою генератора випадкових чисел або математичних таблиць випадкових чисел.
  2. Механічнийвідбір, за яким відбирається кожна ( N/n)-я величина генеральної сукупності. Наприклад, якщо вона містить 100 000 величин, а потрібно вибрати 1 000, то вибірку потрапить кожна 100 000 / 1000 = 100-а величина. Причому якщо вони не ранжовані, то перша вибирається навмання з першої сотні, а номери інших будуть на сотню більше. Наприклад, якщо першою виявилася одиниця № 19, то наступною має бути № 119, потім № 219, потім № 319 тощо. Якщо одиниці генеральної сукупності ранжовані, то першою вибирається № 50, потім № 150, потім № 250 і таке інше.
  3. Відбір величин із неоднорідного масиву даних ведеться стратифікованим(Розшарованим) способом, коли генеральна сукупність попередньо розбивається на однорідні групи, до яких застосовується випадковий або механічний відбір.
  4. Особливий спосіб складання вибірки є серійнийвідбір, у якому випадково чи механічно вибирають окремі величини, які серії (послідовності з якогось номера за якийсь поспіль), всередині яких ведуть суцільне спостереження.

Якість вибіркових спостережень залежить і від типу вибірки: повторнаабо безповторна.
При повторному відборістатистичні величини, що потрапили у вибірку, або їх серії після використання повертаються в генеральну сукупність, маючи шанс потрапити в нову вибірку. При цьому у всіх величин генеральної сукупності однакова можливість включення у вибірку.
Неповторний відбірозначає, що статистичні величини, що потрапили у вибірку, або їх серії після використання не повертаються в генеральну сукупність, а тому для інших величин останньої підвищується ймовірність потрапляння в наступну вибірку.

Безповторний відбір дає точніші результати, тому застосовується частіше. Але є ситуації, коли його не можна застосувати (вивчення пасажиропотоків, споживчого попиту тощо) і тоді ведеться повторний відбір.

Помилки вибірки

Вибіркову сукупність можна сформувати за кількісною ознакою статистичних величин, а також альтернативною або атрибутивною. У першому випадку узагальнюючою характеристикою вибірки є величина, що позначається, а в другому - вибіркова часткавеличин, що позначається w. У генеральній сукупності відповідно: генеральна середняі генеральна частка р.

Різниці - і Wрназиваються помилкою вибірки, Що ділиться на помилку реєстраціїі помилку репрезентативності. Перша частина помилки вибірки виникає через неправильні або неточні відомості з причин нерозуміння суті питання, неуважності реєстратора при заповненні анкет, формулярів і т.п. Вона досить легко виявляється та усувається. Друга частина помилки виникає через постійне або спонтанне недотримання принципу випадковості відбору. Її важко виявити і усунути, вона набагато більша за першу і тому їй приділяється основна увага.

Величина помилки вибірки може бути різною для різних вибірок з однієї генеральної сукупності, тому у статистиці визначається середня помилка повторної та безповторної вибіркиза формулами:

Повторне;

- безповторна;

Де Дв - вибіркова дисперсія.

Наприклад, на заводі з чисельністю працівників 1000 осіб. проведено 5% випадкову безповторну вибірку з метою визначення середнього стажу працівників. Результати вибіркового спостереження наведено у перших двох стовпцях наступної таблиці:

X , років
(стаж роботи)

f , Чол.
(кількість працівників у вибірці)

X і

X і f

У 3-му стовпці визначені середини інтервалів X (як напівсума нижньої та верхньої меж інтервалу), а в 4-му стовпці - твори X І f для знаходження вибіркової середньої за формулою середньої арифметичної зваженої :

143,0/50 = 2,86 (року).

Розрахуємо вибіркову дисперсію зважену:
= 105,520/50 = 2,110.

Тепер знайдемо середню помилку безповторної вибірки:
= 0,200 (років).

З формул середніх помилок вибірки видно, що помилка менша при безповторній вибірці, і, як доведено в теорії ймовірностей, вона виникає з ймовірністю 0,683 (тобто якщо провести 1000 вибірок з однієї генеральної сукупності, то в 683 з них помилка не перевищить середню помилку вибірки ). Така ймовірність (0,683) є невисокою, тому вона мало придатна для практичних розрахунків, де потрібна більша ймовірність. Щоб визначити помилку вибірки з вищою, ніж 0,683 імовірністю, розраховують граничну помилку вибірки:

Де t- Коефіцієнт довіри, що залежить від ймовірності, з якої визначається гранична помилка вибірки.

Значення коефіцієнта довіри tрозраховані для різних ймовірностей і є у спеціальних таблицях (інтеграл Лапласа), з яких у статистиці широко застосовуються такі поєднання:

Ймовірність 0,683 0,866 0,950 0,954 0,988 0,990 0,997 0,999
t 1 1,5 1,96 2 2,5 2,58 3 3,5

Задавшись конкретним рівнем ймовірності, вибирають із таблиці відповідну їй величину tта визначають граничну помилку вибірки за формулою.
При цьому найчастіше застосовують = 0,95 та t= 1,96, тобто вважають, що з ймовірністю 95% гранична помилка вибірки в 1,96 рази більша за середню. Така ймовірність (0,95) вважається стандартноюта застосовується за умовчанням у розрахунках.

У нашому , визначимо граничну помилку вибірки при стандартній 95% ймовірності (з беремо t= 1,96 для 95% ймовірності): = 1,96 * 0,200 = 0,392 (року).

Після розрахунку граничної помилки знаходять довірчий інтервал узагальнюючої характеристики генеральної сукупності. Такий інтервал для генеральної середньої величини має вигляд
Тобто середній стаж працівників на всьому заводі лежить в інтервалі від 2,468 до 3,252 року.

Визначення чисельності вибірки

Розробляючи програму вибіркового спостереження, іноді ставляться конкретним значенням граничної помилки з рівнем ймовірності. Невідомою залишається мінімальна кількість вибірки, що забезпечує задану точність. Її можна отримати з формул середньої та граничної помилок залежно від типу вибірки. Так, підставляючи і, вирішуючи її щодо чисельності вибірки, отримаємо такі формулы:
для повторної вибірки n =
для безповторної вибірки n = .

Крім того, за статистичних величин з кількісними ознаками треба знати і вибіркову дисперсію, але до початку розрахунків і вона не відома. Тому вона приймається приблизноодним з наступних способів(У пріоритетному порядку):

При вивченні не чисельних ознак, навіть якщо немає приблизних відомостей про вибіркову частку, приймається w= 0,5, що за формулою дисперсії частки відповідає вибірковій дисперсії у максимальному розмірі Дв = 0,5*(1-0,5) = 0,25.