Біографії Характеристики Аналіз

Відносні помилки вибірки. Формули середньої помилки вибірки

    Формула довірчої ймовірностіпри оцінці генераль ної частки ознаки. Середня квадратична помилка повторної та безповторної вибірок та побудова довірчого інтервалу для генеральної частки ознаки.

  1. Формула довірчої ймовірності в оцінці генеральної середньої. Середня квадратична помилка повторної та безповторної вибірок та побудова довірчого інтервалудля генеральної середньої.

Побудова довірчого інтервалу для генеральної середньої та генеральної частки за великими вибірками . Для побудови довірчих інтервалів параметрів генеральних сукупностей м.б. реалізовано 2 підходи, що ґрунтуються на знанні точного (при даному обсязі вибірки n) або асимптотичного (при n → ∞) розподілу вибіркових характеристик (або деяких функцій від них). Перший підхід реалізований далі під час побудови інтервальних оцінок параметрів для малих вибірок. У цьому параграфі розглядається другий підхід, застосовний для великих вибірок (близько сотень спостережень).

Теорема . Вер-ть те, що відхилення вибіркової середньої (або частки) від генеральної середньої (або частки) не перевищить число Δ > 0 (за абсолютною величиною), дорівнює:

Де

,

Де
.

Ф(t) – функція (інтеграл ймовірностей) Лапласа.

Формули отримали назву формул довірчої вер-ти для середньої та частки .

Середнє квадратичне відхилення вибіркової середньої та вибіркової частки власне- випадкової вибіркиназивається середньою квадратичною (стандартною) помилкою вибірки (для безповторної вибірки позначаємо відповідно і ).

Наслідок 1 . При заданій довірчій верти γ гранична помилка вибірки дорівнює t-кратній величині середньої квадратичної помилкиде Ф(t) = γ, тобто.

,

.

Наслідок 2 . Інтервальні оцінки (довірчі інтервали) для генеральної середньої та генеральної частки можуть бути знайдені за формулами:

,

.

  1. Визначення необхідного обсягу повторної та безповторної вибірок при оцінці генеральної середньої та частки.

Для проведення вибіркового спостереженняДуже важливо правильно встановити обсяг вибірки n, який значною мірою визначає необхідні при цьому тимчасові, трудові і вартісні витрати для визначення n необхідно задати надійність (довірчу вер-ть) оцінки γ і точність (граничну помилку вибірки) Δ.

Якщо знайдено обсяг повторної вибірки n, обсяг відповідної безповторної вибірки n" можна визначити за формулою:

.

Т.к.
, то при тих самих точності і надійності оцінок обсяг безповторної вибірки n" завжди менше обсягу повторної вибірки n.

  1. Статистична гіпотеза та статистичний критерій. Помилки 1-го та 2-го роду. Рівень значущості та потужність критерію. Принцип практичної впевненості.

Визначення . Статистичною гіпотезою називається будь-яке припущення про вид або параметри невідомого закону розподілу.

Розрізняють просту та складну статистичні гіпотези. Проста гіпотеза , На відміну від складної, повністю визначає теоретичну функцію розподілу СВ.

Перевірювану гіпотезу зазвичай називають нульовий (або Основний ) та позначають Н 0 . Поряд з нульовою гіпотезоюрозглядають альтернативну , або конкуруючу гіпотезу H 1 , що є логічним запереченням Н 0 . Нульова та альтернативна гіпотези являють собою 2 можливості вибору, що здійснюється у завданнях перевірки статистичних гіпотез.

Суть перевірки статистичної гіпотези у тому, що використовується спеціально складена вибіркова характеристика (статистика)
, отримана за вибіркою
, Точний або наближений розподіл якої відомий.

Потім за цим вибірковим розподілом визначається критичне значення - таке, що й гіпотеза Н 0 вірна, то вер-ть
мала; так що відповідно до принципу практичної впевненості в умовах даного дослідження подія
можна (з деяким ризиком) вважати практично неможливим. Тому, якщо в даному конкретному випадку виявляється відхилення
, то гіпотеза Н 0 відкидається, тоді як поява значення
, Вважається сумісним з гіпотезою Н 0, яка тоді приймається (точніше, не відкидається). Правило, яким гіпотеза Н 0 відкидається чи приймається, називається статистичним критерієм або статистичним тестом .

Принцип практичної впевненості:

Якщо вер-ть події А цьому випробуванні дуже мала, то за одноразовому виконанні випробування можна бути впевненим у цьому, що подія А станеться, й у практичної д-ти поводитися так, ніби подія А взагалі неможливо.

Т.ч., безліч можливих значень статистики - критерію (критичної статистики) розбивається на 2 непересічні підмножини: критичну область(область відхилення гіпотези) Wі область допустимих значень(область прийняття гіпотези) . Якщо фактично спостерігається значення статистики критерію потрапляє в критичну область W, гіпотезу Н 0 відкидають. При цьому можливі чотири випадки:

Визначення . Імовірність α припуститися помилки l-го роду, тобто. відкинути гіпотезу Н 0 , коли вона вірна, називається рівнем значимості , або розміром критерію .

Імовірність припуститися помилки 2-го роду, тобто. прийняти гіпотезу Н 0 коли вона невірна, зазвичай позначають β.

Визначення . Можливість (1-β) недопустити помилку 2-го роду, тобто. відкинути гіпотезу Н 0 , коли вона невірна, називається потужністю (або функцією потужності ) критерію .

Слід віддати перевагу тій критичній області, при якій потужність критерію буде найбільшою.

Як ми вже знаємо, репрезентативність – властивість вибіркової сукупностіпредставляти характеристику генеральної. Якщо збігу немає, говорять про помилку репрезентативності – міру відхилення статистичної структури вибірки від структури відповідної генеральної сукупності. Припустимо, що середній щомісячний сімейний дохід пенсіонерів у генеральній сукупності становить 2 тис. крб., а вибіркової - 6 тис. крб. Це означає, що соціолог опитував лише заможну частину пенсіонерів, а його дослідження вкралася помилка репрезентативності. Іншими словами, помилкою репрезентативності називається розбіжність між двома сукупностями - генеральною, на яку спрямований теоретичний інтерес соціолога та уявлення про властивості якої він хоче отримати зрештою, та вибірковою, на яку спрямований практичний інтерес соціолога, яка виступає одночасно як об'єкт обстеження та засіб отримання інформації про генеральну сукупність.

Поряд із терміном «помилка репрезентативності» у вітчизняній літературі можна зустріти інший – «помилка вибірки». Іноді вони використовують як синоніми, інколи ж «помилка вибірки» використовується замість «помилки репрезентативності» як кількісно точніше поняття.

Помилка вибірки - відхилення середніх показників вибіркової сукупності від середніх показників генеральної сукупності.

Насправді помилка вибірки визначається шляхом порівняння відомих характеристик генеральної сукупності з вибірковими середніми. У соціології під час обстеження дорослого населення найчастіше використовують дані переписів населення, поточного статистичного обліку, результати попередніх опитувань. Як контрольні параметри зазвичай застосовуються соціально-демографічні ознаки. Порівняння середніх генеральної та вибіркової сукупностей, на основі цього визначення помилки вибірки та її зменшення називається контролюванням репрезентативності. Оскільки порівняння своїх та чужих даних можна зробити після завершення дослідження, такий спосіб контролю називається апостеріорним, тобто. здійснюваним після досвіду.

В опитуваннях Інституту Дж. Геллапа репрезентативність контролюється за наявними в національних переписах даними про розподіл населення за статтю, віком, освітою, доходом, професією, расовою приналежністю, місцем проживання, величиною населеного пункту. Всеросійський центр вивчення громадської думки(ВЦВГД) використовує для подібних цілей такі показники, як стать, вік, освіта, тип поселення, сімейний стан, сфера зайнятості, посадовий статус респондента, які запозичуються у Державному комітеті зі статистики РФ. У тому іншому випадку генеральна сукупність відома. Помилки вибірки неможливо встановити, якщо невідомі значення змінної у вибірковій та генеральній сукупності.

Фахівці ВЦВГД забезпечують при аналізі даних ретельний ремонт вибірки, щоб мінімізувати відхилення, що виникли на етапі польових робіт. Особливо сильні усунення спостерігаються за параметрами статі та віку. Пояснюється це тим, що жінки та люди з вищою освітоюбільше часу проводять вдома і легше йдуть контакт із інтерв'юером, тобто. є легко досяжною групою порівняно з чоловіками та людьми «неосвіченими»35.

Помилка вибірки обумовлюється двома факторами: методом формування вибірки та розміром вибірки.

Помилки вибірки поділяються на два типи - випадкові та систематичні. Випадкова помилка - це ймовірність того, що середня вибіркова вийде (або не вийде) за межі заданого інтервалу. До випадкових помилок відносять статистичні похибки, властиві самому вибірковому методу. Вони зменшуються у разі зростання обсягу вибіркової сукупності.

Другий тип помилок вибірки - систематичні помилки. Якщо соціолог вирішив дізнатися думку всіх жителів міста про проведену місцевими органамивлади соціальної політики, а опитав лише тих, хто має телефон, виникає навмисне зміщення вибірки на користь заможних верств, тобто. систематична помилка.

Таким чином, систематичні помилки – результат діяльності самого дослідника. Вони найнебезпечніші, оскільки призводять до досить значних зсувів результатів дослідження. Систематичні помилки вважаються страшнішими за випадкові ще й тому, що вони не піддаються контролю та виміру.

Вони виникають, коли, наприклад: 1) вибірка відповідає завданням дослідження (соціолог вирішив вивчити лише працюючих пенсіонерів, а опитав всіх поспіль); 2) у наявності незнання характеру генеральної сукупності (соціолог думав, що 70% всіх пенсіонерів не працює, а виявилося, що не працює лише 10%); 3) відбираються лише «виграшні» елементи генеральної сукупності (наприклад, лише забезпечені пенсіонери).

Увага! На відміну від випадкових помилок, систематичні помилки при зростанні обсягу вибірки не зменшуються.

Узагальнивши всі випадки, коли відбуваються систематичні помилки, методисти склали їхній реєстр. Вони вважають, що джерелом неконтрольованих перекосів у розподілі вибіркових спостережень можуть бути наступні фактори:
♦ порушено методичні та методологічні правила проведення соціологічного дослідження;
♦ обрано неадекватні способи формування вибіркової сукупності, методи збору та розрахунку даних;
♦ відбулася заміна необхідних одиниць спостереження іншими, доступнішими;
♦ відзначено неповне охоплення вибіркової сукупності (недоотримання анкет, неповне їх заповнення, важкодоступність одиниць спостереження).

Навмисні помилки соціолог припускає рідко. Найчастіше помилки виникають через те, що соціологу погано відома структура генеральної сукупності: розподіл людей за віком, професією, доходами тощо.

Систематичні помилки легше попередити (проти випадковими), але їх дуже важко усунути. Запобігати систематичним помилкам, точно передбачаючи їх джерела, найкраще заздалегідь - на самому початку дослідження.

Ось деякі способи уникнути помилок вибірки:
♦ кожна одиниця генеральної сукупності повинна мати рівну ймовірність потрапити у вибірку;
♦ відбір бажано проводити із однорідних сукупностей;
♦ треба знати характеристики генеральної сукупності;
♦ при складанні вибіркової сукупності треба враховувати випадкові та систематичні помилки.

Якщо вибіркову сукупність (або просто вибірку) складено правильно, то соціолог отримує надійні результати, що характеризують всю генеральну сукупність. Якщо вона складена неправильно, то помилка, що виникла етапі складання вибірки, кожному наступному етапі проведення соціологічного дослідження примножується і досягає зрештою такий величини, яка переважує цінність проведеного дослідження. Кажуть, що від такого дослідження більше шкоди, ніж користі.

Подібні помилки можуть статися тільки з вибірковою сукупністю. Щоб уникнути чи зменшити ймовірність помилки, найпростіший спосіб – збільшувати розміри вибірки (в ідеалі до обсягу генеральної: коли обидві сукупності збігатимуться, помилка вибірки взагалі зникне). Економічно такий метод неможливий. Залишається інший шлях – удосконалювати математичні методискладання вибірки. Вони і застосовуються практично. Такий перший канал проникнення до соціології математики. Другий канал - математична обробкаданих.

Особливо важлива проблемапомилок стає у маркетингових дослідженнях, де використовуються невеликі вибірки. Зазвичай вони становлять кілька сотень, рідше – тисячу респондентів. Тут вихідним пунктом розрахунку вибірки виступає питання визначення розмірів вибіркової сукупності. Чисельність вибіркової сукупності залежить від двох факторів: 1) вартості збору інформації та 2) прагнення до певного ступеня статистичної достовірностірезультатів, які сподівається отримати дослідник. Звісно, ​​навіть досвідчені в статистиці і соціології люди інтуїтивно розуміють, що більше розміри вибірки, тобто. що ближче вони до розмірів генеральної сукупності загалом, то надійніші і достовірні отримані дані. Однак ми вже говорили про практичну неможливість суцільних опитувань у тих випадках, коли вони проводяться на об'єктах, чисельність яких перевищує десятки, сотні тисяч і навіть мільйони. Зрозуміло, що вартість збору інформації (що включає оплату тиражування інструментарію, праці анкетерів, польових менеджерів та операторів з комп'ютерного введення) залежить від суми, яку готовий виділити замовник, і слабо залежить від дослідників. Що ж до другого фактора, то ми зупинимося на ньому трохи докладніше.

Отже, що більше величина вибірки, то менше можлива помилка. Хоча необхідно відзначити, що за бажання збільшити точність удвічі вам доведеться збільшити вибірку не вдвічі, а вчетверо. Наприклад, щоб зробити вдвічі більше точну оцінкуданих, отриманих шляхом опитування 400 людина, вам потрібно опитати не 800, а 1600 людина. Втім, навряд чи маркетингове дослідження потребує стовідсоткової точності. Якщо пивовару необхідно дізнатися, яка частина споживачів пива віддає перевагу саме його марці, а не сорту його конкурента, - 60% або 40%, то на його плани ніяк не вплине різниця між 57%, 60 або 63%.

Помилка вибірки може залежати як від її величини, а й від ступеня відмінностей між окремими одиницями всередині генеральної сукупності, що її досліджуємо. Наприклад, якщо нам потрібно дізнатися, яка кількість пива споживається, то ми виявимо, що всередині нашої генеральної сукупності норми споживання різних людейзначно різняться (гетерогенна генеральна сукупність). В іншому випадку ми вивчатимемо споживання хліба і встановимо, що у різних людейвоно відрізняється значно менш значно (гомогенная генеральна сукупність). Чим більша різниця (або гетерогенність) всередині генеральної сукупності, тим більша величина можливої ​​помилкивибірки. Зазначена закономірність лише підтверджує те, що нам підказує простий здоровий глузд. Таким чином, як справедливо стверджує В. Ядов, «чисельність (обсяг) вибірки залежить від рівня однорідності або різнорідності об'єктів, що вивчаються. Що більше вони однорідні, то менша чисельність може забезпечити статистично достовірні висновки».

Визначення обсягу вибірки залежить від рівня довірчого інтервалу припустимої статистичної помилки. Тут маються на увазі так звані випадкові помилки, пов'язані з природою будь-яких статистичних похибок. В.І. Паніотто наводить такі розрахунки репрезентативної вибіркиз припущенням 5% помилки:
Це означає, що якщо ви, опитавши, припустимо, 400 осіб у районному місті, де чисельність дорослого платоспроможного населення становить 100 тис. осіб, виявили, що 33% опитаних покупців віддають перевагу продукції місцевого м'ясокомбінату, то з 95%-ною ймовірністю можете стверджувати, що постійними покупцями цієї продукції є 33+5% (тобто від 28 до 38%) мешканців цього міста.

Можна також скористатися розрахунками інституту Геллапа для оцінки співвідношення розмірів вибірки та помилки вибірки.

Вибіркове спостереження

Поняття вибіркового спостереження

Вибірковий методвикористовується, коли застосування суцільного спостереження фізично неможливе через величезний масив даних або економічно недоцільно. Фізична неможливість має місце, наприклад, щодо пасажиропотоків, ринкових цін, сімейних бюджетів. Економічна недоцільність має місце в оцінці якості товарів, що з їх знищенням. Наприклад, дегустація, випробування цегли на міцність тощо. Вибіркове спостереження використовується для перевірки результатів суцільного.

Статистичні одиниці, відібрані для спостереження, становлять вибірковусукупність або вибірку,а всіх масив - генеральнусукупність (ГС). При цьому кількість одиниць у вибірці позначають п,у всій ГС – N.Ставлення n/Nназивається відносний розмір або частка вибірки.

Якість результатів вибіркового спостереження залежить від репрезентативностівибірки, тобто. від того, наскільки вона представницька у ГС. Для забезпечення репрезентативності вибірки необхідно дотримуватися принципу випадковості відбору одиниць, який передбачає, що на включення одиниці ГС у вибірку не може вплинути якийсь інший фактор крім випадку.

Способи формування вибірки

1. Власне випадковийвідбір: всі одиниці ГС нумеруються, а номери, що випали в результаті жеребкування, відповідають одиницям, що потрапили у вибірку, причому число номерів дорівнює запланованому обсягу вибірки. На практиці замість жеребкування використовують генератори. випадкових чисел. Цей спосібвідбору може бути повторним(Коли кожна одиниця, відібрана у вибірку, після проведення спостереження повертається в ГС і може бути знову обстежена) і безповторним(коли обстежені одиниці ГС не повертаються і можуть бути обстежені повторно). При повторному відборі ймовірність попадання у вибірку для кожної одиниці ГС залишається незмінною, а при безповторному відборі вона змінюється (збільшується), але для тих, що залишилися в ГС після відбору з неї кількох одиниць, ймовірність попадання у вибірку однакова.



2. Механічнийвідбір: відбираються одиниці генеральної сукупності із постійним кроком N/п. Тож якщо вона генеральна сукупність містить 100 тис.од., а потрібно вибрати 1 тис.од., то вибірку потрапить кожна сота одиниця.

3. Стратифікований(Розшарований) відбір здійснюється з неоднорідної генеральної сукупності, коли її попередньо розбивають на однорідні групи, Після чого проводять відбір одиниць з кожної групи у вибіркову сукупність випадковий або механічним способом пропорційно їх чисельності в генеральній сукупності.

4. Серійний(Гніздовий) відбір: випадковим або механічним способом вибирають не окремі одиниці, а певні серії (гнізда), усередині яких відбувається суцільне спостереження.

Середня помилка вибірки

Після завершення відбору необхідного числа одиниць у вибірку та реєстрації передбачених програмою спостереження ознак цих одиниць, що вивчаються, переходять до розрахунку узагальнюючих показників. До них відносять середню величинуознаки, що вивчається, і частку одиниць, які мають будь-яке значення цієї ознаки. Однак, якщо ГС зробити кілька вибірок, визначивши при цьому їх узагальнюючі характеристики, то можна встановити, що їх значення будуть різними, крім того, вони відрізнятимуться і від реального значення в ГС, якщо таке визначити за допомогою суцільного спостереження. Іншими словами, узагальнюючі характеристики, розраховані за даними вибірки, відрізнятимуться від їх реальних значень у ГС, тому введемо такі умовні позначення (табл. 8).

Таблиця 8 Умовні позначення

Різниця між значенням узагальнюючих характеристик вибіркової та генеральної сукупностей називається помилкою вибірки,яка поділяється на помилку реєстраціїта помилку репрезентативності. Перша виникає через неправильні або неточні відомості з причин нерозуміння суті питання, неуважності реєстратора при заповненні анкет, формулярів і т.п. Вона досить легко виявляється та усувається. Друга виникає через недотримання принципу випадковості відбору одиниць вибірку. Її складніше виявити і усунути, вона набагато більша за першу і тому її вимір є основним завданням вибіркового спостереження.

Для вимірювання помилки вибірки визначається її середня помилка за формулою (39) повторного відборута за формулою (40) – для безповторного:

= ;(39) = . (40)

З формул (39) і (40) видно, що середня помилка менша у безповторної вибірки, що і зумовлює її ширше застосування.

Поняття та розрахунок помилки вибірки.

Завданням вибіркового спостереження є дача вірних уявлень про зведені показники всієї сукупності з урахуванням певної частини, підданої спостереженню. Можливе відхилення вибіркової частки та вибіркової середньої від частки та середньої в генеральній сукупності називається помилкою вибірки або помилкою репрезентативності. Чим більший розмір цієї помилки, тим більше показники вибіркового спостереження відрізняються від показників генеральної сукупності.

Розрізняються:

Помилки вибірки;

Помилки реєстрації.

Помилки реєстраціївиникають при неправильному встановленні факту у процесі спостереження. Вони властиві як суцільному спостереженню, і вибірковому, але у вибірковому їх менше.

За природою помилки бувають:

Тенденційні – навмисні, тобто. були відібрані або найкращі або гірші одиниці сукупності. У цьому спостереження втрачають сенс;

Випадкові – основний організаційний принцип вибіркового спостереження у тому, ніж запобігти навмисного відбору, тобто. забезпечити суворе дотримання принципу випадкового відбору.

Загальним правиломвипадкового відборує: в окремих одиниць генеральної сукупності повинні бути абсолютно однакові умови і можливості впасти до одиниць, що входять у вибірку. Це характеризує незалежність результату вибірки від волі спостерігача. Воля ж спостерігача породжує тенденційні помилки. Помилка вибірки при випадковому відборі випадковий характер. Вона характеризує розміри відхилень генеральних показників від вибіркових.

У зв'язку з тим, що ознаки в досліджуваній сукупності варіюють, то склад одиниць, що потрапили у вибірку, може не збігатися зі складом одиниць усієї сукупності. Це означає, що Рі не збігаються з Wта . Можлива розбіжність між цими характеристиками визначається помилкою вибірки, що визначається за такою формулою:

де - генеральна дисперсія.

де – вибіркова дисперсія.

Звідси видно, де генеральна дисперсія відрізняється від вибіркової дисперсіїв раз.

Існує повторний та безповторний відбір. Сутність повторного відбору у тому, кожна, яка потрапила у вибірку одиниця, після спостереження повертається у генеральну сукупність і може бути досліджена повторно. При повторному відборі середня помилка вибірки розраховується:

Для показника частки альтернативної ознаки дисперсія вибірки визначається за такою формулою:

Насправді повторний відбір застосовується рідко. При безповторному доборі чисельність генеральної сукупності Nу ході вибірки скорочується, формула середньої помилкивибірки для кількісної ознакимає вигляд:



тоді

Одне з можливих значень, в яких може бути частка ознаки, що вивчається, дорівнює:

де – помилка вибірки альтернативної ознаки.

приклад.

При вибірковому обстеженні 10% виробів партії готової продукції методом без повторного відбору отримані такі дані про вміст вологи у зразках.

Визначити середній % вологості, дисперсію, середнє квадратичне відхилення, з ймовірністю 0,954 можливі межі, у яких очікується порівн. % вологості всієї готової продукції, ймовірність 0,987 можливі межі питомої вагистандартної продукції за умови, що до нестандартної партії належать вироби з вологістю до 13% і вище 19%.

Лише з певною ймовірністю можна стверджувати, що генеральна частка від вибіркової частки і генеральна середня від вибіркової середньої відхиляються в tразів.

У статистиці ці відхилення називаються граничними помилками вибірки і позначаються.

Імовірність суджень можна підвищити або знизити в tразів. За ймовірності 0,683, при 0,954, при 0,987, тоді показники генеральної сукупності за показниками вибірки визначаються.

Середня помилка вибірки показує, наскільки в середньому відхиляється параметр вибіркової сукупності від відповідного параметра генеральної. Якщо розрахувати середню помилку всіх можливих вибірок певного видузаданого обсягу ( n), витягнутих з однієї і тієї ж генеральної сукупності, то отримаємо їх узагальнюючу характеристику - середню помилку вибірки ().

Теоретично вибіркового спостереження виведені формули для визначення , які індивідуальні для різних способіввідбору (повторного та безповторного), типів використовуваних вибірок та видів оцінюваних статистичних показників.

Наприклад, якщо застосовується повторна власне випадкова вибірка, визначається як:

При оцінюванні середнього значення ознаки;

Якщо ознака альтернативна, і оцінюється частка.

При власному випадковому відборі до формули вноситься поправка (1 - n/N):

- для середнього значення ознаки;

- Для частки.

Імовірність отримання саме такої величини помилки завжди дорівнює 0,683. Насправді ж вважають за краще отримувати дані з більшою ймовірністю, але це призводить до зростання величини помилки вибірки.

Гранична помилкавибірки () дорівнює t-кратному числу середніх помилок вибірки (теоретично вибірки прийнято коефіцієнт t називати коефіцієнтом довіри):

Якщо помилку вибірки збільшити вдвічі (t = 2), то отримаємо набагато більшу ймовірність того, що вона не перевищить певної межі (у нашому випадку – подвійної середньої помилки) – 0,954. Якщо взяти t = 3, то довірча ймовірність складе 0,997 – практично достовірність.

Рівень граничної помилки вибірки залежить від наступних факторів:

  • ступеня варіації одиниць генеральної сукупності;
  • обсягу вибірки;
  • вибраних схем відбору (безповторний відбір дає меншу величину помилки);
  • рівня довірчої ймовірності.

Якщо обсяг вибірки більше 30, то значення t визначається за таблицею нормального розподілуякщо менше - за таблицею розподілу Стьюдента.

Наведемо деякі значення коефіцієнта довіри із таблиці нормального розподілу.

Довірчий інтервал для середнього значення ознаки та для частки в генеральній сукупності встановлюється таким чином:

Отже, визначення меж генеральної середньої та частки складається з наступних етапів:

Помилки вибірки при різних видахвідбору

  1. Власне випадкова та механічна вибірка. Середня помилка власне випадкової та механічної вибірки знаходяться за формулами, наведеними в табл. 11.3.

Приклад 11.2. Для вивчення рівня фондовіддачі було проведено вибіркове обстеження 90 підприємств із 225 методом випадкової повторної вибірки, в результаті якого отримано дані, подані в таблиці.

У цьому прикладі маємо 40%-ную вибірку (90: 225 = 0,4, або 40%). Визначимо її граничну помилку та межі для середнього значення ознаки в генеральній сукупності за кроками алгоритму:

  1. За результатами вибіркового обстеження розрахуємо середнє значення та дисперсію у вибірковій сукупності:
Таблиця 11.5.
Результати спостереження Розрахункові значення
рівень фондовіддачі, руб., X i кількість підприємств, f i середина інтервалу, x i \xb4 x i \xb4 f i x i \xb4 2 f i
До 1,4 13 1,3 16,9 21,97
1,4-1,6 15 1,5 22,5 33,75
1,6-1,8 17 1,7 28,9 49,13
1,8-2,0 15 1,9 28,5 54,15
2,0-2,2 16 2,1 33,6 70,56
2,2 і вище 14 2,3 32,2 74,06
Разом 90 - 162,6 303,62

Вибіркова середня

Вибіркова дисперсія досліджуваної ознаки

Для наших даних визначимо граничну помилку вибірки, наприклад, із ймовірністю 0,954. За таблицею значень ймовірності функції нормального розподілу (див. Витримку з неї, наведену в Додатку 1) знаходимо величину коефіцієнта довіри t, що відповідає ймовірності 0,954. За ймовірності 0,954 коефіцієнт t дорівнює 2.

Таким чином, у 954 випадках із 1000 середнє значення фондовіддачі буде не вище 1,88 руб. і не нижче 1,74 руб.

Вище було використано повторну схему випадкового відбору. Подивимося, чи зміняться результати обстеження, якщо припустити, що відбір здійснювався за схемою відбору. У цьому випадку розрахунок середньої помилки проводиться за формулою

Тоді при ймовірності, що дорівнює 0,954 величина граничної помилки вибірки складе:

Довірчі межі для середнього значення ознаки при неповторному випадковому відборі матимуть такі значення:

Порівнявши результати двох схем відбору, можна дійти невтішного висновку у тому, що застосування безповторної випадкової вибірки дає більше точні результатипорівняно із застосуванням повторного відбору при одній і тій же вірогідності. При цьому, що більший обсяг вибірки, то суттєвіше звужуються межі значень середньої при переході від однієї схеми відбору до іншої.

За даними прикладу визначимо, у яких межах перебуває частка підприємств із рівнем фондовіддачі, що не перевищує значення 2,0 руб., у генеральній сукупності:

  1. розрахуємо вибіркову частку.

Кількість підприємств у вибірці з рівнем фондовіддачі, що не перевищує значення 2,0 руб., Складає 60 одиниць. Тоді

m = 60, n = 90, w = m/n = 60: 90 = 0,667;

  1. розрахуємо дисперсію частки у вибірковій сукупності
  1. середня помилка вибірки під час використання повторної схемивідбору складе

Якщо припустити, що було використано безповторна схема відбору, то середня помилка вибірки з урахуванням поправки на кінцівку сукупності становитиме

  1. Задамо довірчу ймовірність і визначимо граничну помилку вибірки.

При значенні ймовірності Р = 0,997 за таблицею нормального розподілу отримуємо значення коефіцієнта довіри t = 3 (див. витримку з неї, наведену в Додатку 1):

Таким чином, з ймовірністю 0,997 можна стверджувати, що в генеральній сукупності частка підприємств з рівнем фондовіддачі, що не перевищує значення 2,0 руб., Не менше, ніж 54,7%, і не більше 78,7%.

  1. Типова вибірка. При типової вибірці генеральна сукупність об'єктів розбита на k груп, тоді

N 1 + N 2 + … + N i + … + N k = N.

Обсяг вилучених із кожної типової групи одиниць залежить від прийнятого способу відбору; їх Загальна кількістьутворює необхідний обсяг вибірки

n 1 + n 2 + … + n i + … + n k = n.

Існують такі два способи організації відбору всередині типової групи: пропорційної обсягу типових груп і пропорційного ступеня коливання значень ознаки у одиниць спостереження в групах. Розглянемо перший із них, як найчастіше використовуваний.

Відбір, пропорційний обсягу типових груп, передбачає, що у кожній з них буде відібрано наступне числоодиниць сукупності:

n = n i · N i / N

де n i - кількість видобутих одиниць для вибірки з i-ї типової групи;

n – загальний обсяг вибірки;

N i - кількість одиниць генеральної сукупності, що склали i-ю типову групу;

N – загальна кількість одиниць генеральної сукупності.

Відбір одиниць усередині груп відбувається як випадкової чи механічної вибірки.

Формули для оцінювання середньої помилки вибірки для середнього та частки представлені у табл. 11.6.

Тут - середня з групових дисперсійТипові групи.

Приклад 11.3. В одному з московських вузів проведено вибіркове обстеження студентів з метою визначення показника середньої відвідуваності вузівської бібліотеки одним студентом за семестр. Для цього було використано 5%-ву безповторну типову вибірку, типові групи якої відповідають номеру курсу. При відборі, пропорційному обсягу типових груп, отримані такі дані:

Таблиця 11.7.
Номер курсу Усього студентів, чол., N i Обстежено внаслідок вибіркового спостереження, чол., n i Середня кількість відвідувань бібліотеки одним студентом за семестр, x i Внутрішньогрупова вибіркова дисперсія,
1 650 33 11 6
2 610 31 8 15
3 580 29 5 18
4 360 18 6 24
5 350 17 10 12
Разом 2 550 128 8 -

Число студентів, яке необхідно обстежити на кожному курсі, розрахуємо так:

аналогічно для інших груп:

Розподіл значень вибіркових середніх завжди має нормальний законрозподілу (або наближається до нього) за п > 100, незалежно від характеру розподілу генеральної сукупності. Однак у разі малих вибірок діє інший закон розподілу – розподіл Стьюдента. У цьому випадку коефіцієнт довіри знаходиться за таблицею t-розподілу Стьюдента в залежності від величини довірчої ймовірності Р та обсягу вибірки п. У Додатку 1 наводиться фрагмент таблиці t-розподілу Стьюдента, представленої у вигляді залежності довірчої ймовірності від обсягу вибірки та коефіцієнта довіри t.

Приклад 11.4. Припустимо, що вибіркове обстеження восьми студентів академії показало, що на підготовку до контрольної роботиза статистикою вони витратили таку кількість годин: 8,5; 8,0; 7,8; 9,0; 7,2; 6,2; 8,4; 6,6.

Приклад 11.5. Розрахуємо, скільки з 507 промислових підприємствслід перевірити податкову інспекцію, щоб із ймовірністю 0,997 визначити частку підприємств із порушеннями у сплаті податків. За даними минулого аналогічного обстеження величина середнього квадратичного відхилення становила 0,15; розмір помилки вибірки передбачається отримати вище, ніж 0,05.

У разі використання повторного випадкового відбору слід перевірити

При неповторному випадковому відборі потрібно перевірити

Як бачимо, використання безповторного відбору дозволяє проводити обстеження набагато меншого числаоб'єктів.

Приклад 11.6. Планується провести обстеження заробітної платина підприємствах галузі шляхом випадкового безповторного відбору. Якою має бути чисельність вибіркової сукупності, якщо на час обстеження галузі число зайнятих становило 100 000 чол.? Гранична помилка вибірки має перевищувати 100 крб. із ймовірністю 0,954. За результатами попередніх обстежень заробітної плати галузі відомо, що середнє квадратичне відхилення становить 500 крб.

Отже, для вирішення поставленого завдання необхідно включити у вибірку щонайменше 100 осіб.