Біографії Характеристики Аналіз

Як вважати помилку вибірковою середньою. Середні помилки повторної та безповторної вибірки

Уявляє собою таку розбіжність між середніми вибірковою і генеральною сукупностями, яка не перевищує ± б (дельта).

На підставі теореми Чебишева П. Л. величина середньої помилкипри випадковому повторному відборі розраховується за формулою (для середнього кількісної ознаки):

де чисельник - дисперсія ознаки х у вибірковій сукупності;
n – чисельність вибіркової сукупності.

Для альтернативної ознаки формула середньої помилки вибірки для частки за теоремою Я. Бернуллірозраховується за формулою:

де р(1-р) - дисперсія частки ознаки генеральної сукупності;
n – обсяг вибірки.

Внаслідок того, що дисперсія ознаки в генеральній сукупності точно не відома, на практиці використовують значення дисперсії, яке розраховане для вибіркової сукупності на підставі закону великих чисел . Згідно цим законом вибіркова сукупністьпри великому обсязі вибірки досить точно відтворює характеристики генеральної сукупності.

Тому розрахункові формули середньої помилки при випадковому повторному відборі виглядатимуть таким чином:

1. Для середньої кількісної ознаки:

де S^2 - дисперсія ознаки х вибіркової сукупності;
n – обсяг вибірки.

де w (1 - w) - дисперсія частки досліджуваної ознаки у вибірковій сукупності.

Теоретично ймовірностей було показано, що виражається через вибіркову згідно з формулою:

У випадках малої вибіркиколи її обсяг менше 30, необхідно враховувати коефіцієнт n/(n-1). Тоді середню помилку малої вибірки розраховують за такою формулою:

Оскільки у процесі безповторної вибірки скорочується чисельність одиниць генеральної сукупності, то представлених вище формулах розрахунку середніх помилок вибірки необхідно підкорене вираз помножити на 1- (n/N).

Розрахункові формули для такого виду вибірки виглядатимуть так:

1. Для середньої кількісної ознаки:

де N – обсяг генеральної сукупності; n – обсяг вибірки.

2. Для частки (альтернативної ознаки):

де 1-(n/N) - частка одиниць генеральної сукупності, що не потрапили у вибірку.

Оскільки n завжди менше N, то додатковий множник 1 - (n/N) завжди буде менше одиниці. Це означає, що середня помилкапри відборі завжди буде менше, ніж при повторному. Коли частка одиниць генеральної сукупності, які не потрапили у вибірку, суттєва, то величина 1 - (n/N) близька до одиниці і тоді розрахунок середньої помилки провадиться за загальною формулою.

Середня помилка залежить від наступних факторів:

1. За виконання принципу випадкового відбору середня помилка вибірки визначається по-перше обсягом вибірки: чим більше чисельність, тим менше величини середньої помилки вибірки. Генеральна сукупність характеризується точніше тоді, коли більше одиниць даної сукупності охоплює вибіркове спостереження

2. Середня помилка також залежить від ступеня варіювання ознаки. Ступінь варіювання характеризується. Чим менша варіація ознаки (дисперсія), тим менша середня помилка вибірки. При нульовій дисперсії (ознака не варіюється) середня помилка вибірки дорівнює нулю, таким чином, будь-яка одиниця генеральної сукупності характеризуватиме всю сукупність за цією ознакою.

При вибірковому спостереженнімає бути забезпечена слу-чайністьвідбору одиниць. Кожна одиниця повинна мати однакову можливість бути відібраною. Саме на цьому ґрунтується власне-випадкова вибірка.

До власне-випадковій вибірці відноситься відбір одиниць з усієї генеральної сукупності (без попереднього розчленування її на будь-які групи) за допомогою жеребкування (переважно) або будь-якого іншого подібного способу, наприклад, за допомогою таблиці випадкових чисел. Випадковий відбір- Це відбір не безладний. Принцип випадковості передбачає, що на включення або виключення об'єкта з вибірки не може вплинути який-небудь фактор, крім випадку. прикладом власне-випадковоговідбору можуть служити тиражі виграшів: із загальної кількості випущених квитків навмання відбирається певна частина номерів, на які припадають виграші. Причому всім номерам забезпечується можливість попадання у вибірку. При цьому кількість відібраних у вибіркову сукупність одиниць зазвичай визначається, виходячи з прийнятої частки вибірки.

Частка вибірки є відношення числа одиниць вибіркової сукупності до одиниць генеральної сукупності:

Так, при 5%-ній вибірці з партії деталей у 1000 од. об'єм вибірки пскладає 50 од., а при 10% вибірці - 100 од. і т.д. При правильній наукової організаціївибірки помилки репрезентативності можна звести до мінімальним значенням, в результаті - вибіркове спостереження стає досить точним.

Власно-випадковий відбір чистому вигляді» застосовується в практиці вибіркового спостереження рідко, але він є вихідним серед усіх інших видів відбору, в ньому полягають і реалізуються основні принципи вибіркового спостереження.

Розглянемо деякі питання теорії вибіркового методу та формули помилок для простої випадкової вибірки.

Застосовуючи вибірковий метод у статистиці, зазвичай використовують два основні види узагальнюючих показників: середню величинукількісної ознакиі відносну величинуальтернативної ознаки(частку або питома вагаодиниць у статистичній сукупності, які відрізняються від усіх інших одиниць цієї сукупності тільки наявністю досліджуваної ознаки).

Вибіркова частка (w),або частота, визначається ставленням числа одиниць, що володіють ознакою, що вивчається т,до загального числа одиниць вибіркової сукупності п:

Наприклад, якщо зі 100 деталей вибірки ( n=100), 95 деталей виявилися стандартними =95), то вибіркова частка

w=95/100=0,95 .

Для характеристики надійності вибіркових показників розрізняють середнюі граничну помилку вибірки.

Помилка вибірки ? або, інакше кажучи, помилка репрезентативності являє собою різницю відповідних вибіркових і генеральних характеристик:

*

*

Помилка вибірки властива лише вибірковим спостереженням. Чим більше значенняцієї помилки, тим більшою мірою вибіркові показники відрізняються від відповідних генеральних показників.

Вибіркова середня і вибіркова частка за своєю сутністю є випадковими величинами, які можуть приймати різні значення залежно від того, які одиниці сукупності потрапили у вибірку. Отже, помилки вибірки також є випадковими величинами та можуть приймати різні значення. Тому визначають середню з можливих помилок - середню помилку вибірки.

Від чого залежить середня помилка вибірки?При дотриманні принципу випадкового відбору середня помилка вибірки визначається перш за все обсягом вибірки:чим більша чисельність за інших рівних умовах, тим менше величина середньої помилки вибірки. Охоплюючи вибірковим обстеженням усі більша кількістьодиниць генеральної сукупності, дедалі точніше характеризуємо всю генеральну сукупність.

Середня помилка вибірки також залежить від ступеня варіюванняознаки, що вивчається. Ступінь варіювання, як відомо, характеризується дисперсією? 2 або w(1-w)-- для альтернативної ознаки. Чим менша варіація ознаки, а отже, і дисперсія, тим менша середня помилка виборки, і навпаки. При нульовій дисперсії (ознака не варіює) середня помилка вибірки дорівнює нулю, тобто будь-яка одиниця генеральної сукупності буде абсолютно точно характеризувати всю сукупність за цією ознакою.

Залежність середньої помилки вибірки від її обсягу і ступеня варіювання ознаки відображена у формулах, за допомогою яких можна розрахувати середню помилку вибірки в умовах вибіркового спостереження, коли генеральні характеристики ( х, p)невідомі, і отже, не представляється можливим перебування реальної помилки вибірки безпосередньо за формулами (форм. 1), (форм. 2).

Ш При випадковому повторному доборі середні помилкитеоретично розраховують за такими формулами:

* для середньої кількісної ознаки

* для частки (альтернативної ознаки)

Оскільки практично дисперсія ознаки у генеральній сукупності? 2 точно невідома, на практиці користуються значенням дисперсії S 2 , розрахованим для вибіркової сукупності на підставі закону великих чисел, згідно з яким вибіркова сукупність при досить великому обсязі вибірки досить точно відтворює характеристики генеральної сукупності.

Таким чином, розрахункові формули середньої помилки вибірки при випадковому повторному відборі будуть наступні:

* для середньої кількісної ознаки

* для частки (альтернативної ознаки)

Однак дисперсія вибіркової сукупності не дорівнює дисперсії генеральної сукупності, і отже, середні помилки вибірки, розраховані за формулами (форм. 5) і (форм. 6), будуть наближеними. Але теоретично ймовірностей доведено, що генеральна дисперсіявиражається через виборну наступним співвідношенням:

Так як п/(n-1) при досить великих п -величина, близька до одиниці, можна прийняти, що, отже, в практичних розрахунках середніх помилок вибірки можна використовувати формули (форм. 5) і (форм. 6). І тільки у випадках малої вибірки (коли обсяг вибірки не перевищує 30) необхідно враховувати коефіцієнт п/(n-1) та обчислювати середню помилку малої вибіркиза формулою:

Ш X При випадковому безповторному відборі у наведені вище формули розрахунку середніх помилок вибірки необхідно підкорене вираз помножити на 1-(n/N), оскільки в процесі безповторної вибірки скорочується чисельність одиниць генеральної сукупності. Отже, для безповторної вибірки розрахункові формули середньої помилки вибірки набудуть такого вигляду:

* для середньої кількісної ознаки

* для частки (альтернативної ознаки)

. (Форм. 10)

Так як пзавжди менше N, то додатковий множник 1-( n/N) завжди буде менше одиниці. Звідси випливає, що середня помилка при безповторному відборі завжди буде менше, ніж при повторному. У той же час при порівняно невеликому відсотку вибірки цей множник близький до одиниці (наприклад, при 5% вибірці він дорівнює 0,95; при 2% - 0,98 і т.д.). Тому іноді практично користуються визначення середньої помилки вибірки формулами (форм. 5) і (форм. 6) без зазначеного множника, хоча вибірку і організують як безповторну. Це має місце в тих випадках, коли число одиниць генеральної сукупності N невідоме або безмежне, або коли пдуже мало в порівнянні з N, і за суттю, запровадження додаткового множника, близького за значенням до одиниці, мало вплине значення середньої помилки вибірки.

Механічна вибірка полягає в тому, що відбір одиниць у вибіркову сукупність з генеральної, розбитої за нейтральною ознакою на рівні інтервали(групи), виробляється таким чином, що з кожної такої групи у вибірку відбирається лише одна одиниця. Щоб уникнути систематичної помилки, відбиратися повинна одиниця, яка знаходиться в середині кожної групи.

При організації механічного відбору одиниці сукупності попередньо розташовують (зазвичай у списку) в певному порядку (наприклад, за алфавітом, місцезнаходженням, у порядку зростання або зменшення значень якого-небудь показника, не пов'язаного з досліджуваною властивістю, і т.д. д.), після чого відбирають задане число одиниць механічно, через певний інтервал. При цьому розмір інтервалу в генеральній сукупності дорівнює зворотного значеннячастки вибірки. Так, при 2%-ній вибірці відбирається і перевіряється кожна 50-а одиниця (1: 0,02), при 5%-ній вибірці - кожна 20-а одиниця (1: 0,05), наприклад, що сходить з верстата деталь.

При достатньо великої сукупностімеханічний відбір за точністю результатів близький до власно-випадкового. Тому для визначення середньої помилки механічної вибірки використовують формули власне-випадкової безповторної вибірки (форм. 9), (форм. 10).

Для відбору одиниць з неоднорідної сукупності застосовується так звана типова вибірка , яка використовується в тих випадках, коли всі одиниці генеральної сукупності можна розбити на кілька якісно однорідних, однотипних груп за ознаками, що впливають на показники, що вивчаються.

При обстеженні підприємств такими групами можуть бути, наприклад, галузь та підгалузь, форми власності. Потім із кожної типової групи власне-випадковою або механічною вибіркою проводиться індивідуальний відбір одиниць у вибіркову сукупність.

Типова вибірка зазвичай застосовується щодо складних статистичних сукупностей. Наприклад, при вибірковому обстеженні сімейних бюджетів робітників і службовців в окремих галузях економіки, продуктивності праці робітників підприємства, представлених окремими групамиз кваліфікації.

Типова вибірка дає більше точні результатив порівнянні з іншими способами відбору одиниць у вибіркову сукупність. Типізація генеральної сукупності забезпечує репрезентативність такої вибірки, представництво в ній кожної типологічної групи, що дозволяє виключити вплив міжгрупової дисперсії на середню помилку вибірки.

При визначенні середньої помилки типової вибіркияк показник варіації виступає середня з усередині групових дисперсій.

Середню помилку вибірки знаходять за формулами:

* для середньої кількісної ознаки

(Повторний відбір); (Форм. 11)

(безповоротний відбір); (Форм. 12)

* для частки (альтернативної ознаки)

(Повторний відбір); (Форм.13)

(Безповторний відбір), (форм. 14)

де - середня з внутрішньогрупових дисперсій за вибірковою сукупністю;

Середня із внутрішньогрупових дисперсій частки (альтернативної ознаки) за вибірковою сукупністю.

Серійна вибірка передбачає випадковий відбір з генераль-ной сукупності окремих окремих одиниць, які рівновеликих груп (гнізд, серій) про те, щоб у таких групах піддавати спостереженню все без винятку одиниці.

Застосування серійної вибіркиобумовлено тим, що багато товарів для їх транспортування, зберігання та продажу упаковуються в пачки, ящики тощо. Тому при контролі якості упакованого товару раціональніше перевірити кілька упаковок (серій), ніж з усіх упаковок відбирати необхідна кількістьтовару.

Оскільки всередині груп (серій) обстежуються всі без винятку одиниці, середня помилка вибірки (при відборі рівновеликих серій) залежить тільки від міжгрупової (міжсерійної) дисперсії.

Ш Середню помилку вибірки для середньої кількісної ознаки при серійному відборі знаходять за формулами:

(Повторний відбір); (Форм.15)

(Неповторний відбір), (форм. 16)

де r -кількість відібраних серій; R -загальне числосерій.

Міжгрупову дисперсію серійної вибірки обчислюють таким чином:

де – середня i- й серії; - загальна середня по всій вибірковій сукупності.

Ш Середня помилка вибірки для частки (альтернативного ознаки) при серійному відборі:

(Повторний відбір); (Форм. 17)

(Неповторний відбір). (Форм. 18)

Міжгрупову(міжсерійну) дисперсію частки серійної вибіркивизначають за формулою:

, (Форм. 19)

де - частка ознаки в i-ї серії; - загальна частка ознаки у всій вибірковій сукупності.

У практиці статистичних обстежень крім розглянутих раніше способів відбору застосовується їх комбінація (Комбінований відбір).

Як ми знаємо, репрезентативність - властивість вибіркової сукупності представляти характеристику генеральної. Якщо збігу немає, говорять про помилку репрезентативності – міру відхилення статистичної структури вибірки від структури відповідної генеральної сукупності. Припустимо, що середній щомісячний сімейний дохід пенсіонерів у генеральній сукупності становить 2 тис. крб., а вибіркової - 6 тис. крб. Це означає, що соціолог опитував лише заможну частину пенсіонерів, а його дослідження вкралася помилка репрезентативності. Іншими словами, помилкою репрезентативності називається розбіжність між двома сукупностями - генеральною, на яку спрямований теоретичний інтерес соціолога та уявлення про властивості якої він хоче отримати зрештою, та вибірковою, на яку спрямований практичний інтерес соціолога, яка виступає одночасно як об'єкт обстеження та засіб отримання інформації про генеральну сукупність.

Поряд із терміном «помилка репрезентативності» у вітчизняній літературі можна зустріти інший – «помилка вибірки». Іноді вони використовують як синоніми, інколи ж «помилка вибірки» використовується замість «помилки репрезентативності» як кількісно точніше поняття.

Помилка вибірки - відхилення середніх показників вибіркової сукупності від середніх показників генеральної сукупності.

Насправді помилка вибірки визначається шляхом порівняння відомих характеристик генеральної сукупності з вибірковими середніми. У соціології під час обстеження дорослого населення найчастіше використовують дані переписів населення, поточного статистичного обліку, результати попередніх опитувань. Як контрольні параметри зазвичай застосовуються соціально-демографічні ознаки. Порівняння середніх генеральної та вибіркової сукупностей, на основі цього визначення помилки вибірки та її зменшення називається контролюванням репрезентативності. Оскільки порівняння своїх та чужих даних можна зробити після завершення дослідження, такий спосіб контролю називається апостеріорним, тобто. здійснюваним після досвіду.

В опитуваннях Інституту Дж. Геллапа репрезентативність контролюється за наявними в національних переписах даними про розподіл населення за статтю, віком, освітою, доходом, професією, расовою приналежністю, місцем проживання, величиною населеного пункту. Всеросійський центр вивчення громадської думки(ВЦВГД) використовує для подібних цілей такі показники, як стать, вік, освіта, тип поселення, сімейний стан, сфера зайнятості, посадовий статус респондента, які запозичуються у Державному комітеті зі статистики РФ. У тому іншому випадку генеральна сукупність відома. Помилки вибірки неможливо встановити, якщо невідомі значення змінної у вибірковій та генеральній сукупності.

Фахівці ВЦВГД забезпечують при аналізі даних ретельний ремонт вибірки, щоб мінімізувати відхилення, що виникли на етапі польових робіт. Особливо сильні усунення спостерігаються за параметрами статі та віку. Пояснюється це тим, що жінки та люди з вищою освітоюбільше часу проводять вдома і легше йдуть контакт із інтерв'юером, тобто. є легко досяжною групою порівняно з чоловіками та людьми «неосвіченими»35.

Помилка вибірки обумовлюється двома факторами: методом формування вибірки та розміром вибірки.

Помилки вибірки поділяються на два типи - випадкові та систематичні. Випадкова помилка – це ймовірність того, що вибіркова середня вийде (або не вийде) за межі заданого інтервалу. До випадкових помилок відносять статистичні похибки, властиві самому вибірковому методу. Вони зменшуються у разі зростання обсягу вибіркової сукупності.

Другий тип помилок вибірки – систематичні помилки. Якщо соціолог вирішив дізнатися думку всіх жителів міста про проведену місцевими органамивлади соціальної політики, а опитав лише тих, хто має телефон, виникає навмисне зміщення вибірки на користь заможних верств, тобто. систематична помилка.

Таким чином, систематичні помилки – результат діяльності самого дослідника. Вони найнебезпечніші, оскільки призводять до досить значних зсувів результатів дослідження. Систематичні помилки вважаються страшнішими за випадкові ще й тому, що вони не піддаються контролю та виміру.

Вони виникають, коли, наприклад: 1) вибірка відповідає завданням дослідження (соціолог вирішив вивчити лише працюючих пенсіонерів, а опитав всіх поспіль); 2) у наявності незнання характеру генеральної сукупності (соціолог думав, що 70% всіх пенсіонерів не працює, а виявилося, що не працює лише 10%); 3) відбираються лише «виграшні» елементи генеральної сукупності (наприклад, лише забезпечені пенсіонери).

Увага! На відміну від випадкових помилок, систематичні помилки при зростанні обсягу вибірки не зменшуються.

Узагальнивши всі випадки, коли відбуваються систематичні помилки, методисти склали їхній реєстр. Вони вважають, що джерелом неконтрольованих перекосів у розподілі вибіркових спостережень можуть бути наступні фактори:
♦ порушено методичні та методологічні правила проведення соціологічного дослідження;
♦ обрано неадекватні способи формування вибіркової сукупності, методи збору та розрахунку даних;
♦ відбулася заміна необхідних одиниць спостереження іншими, доступнішими;
♦ відзначено неповне охоплення вибіркової сукупності (недоотримання анкет, неповне їх заповнення, важкодоступність одиниць спостереження).

Навмисні помилки соціолог припускає рідко. Найчастіше помилки виникають через те, що соціологу погано відома структура генеральної сукупності: розподіл людей за віком, професією, доходами тощо.

Систематичні помилки легше попередити (проти випадковими), але їх дуже важко усунути. Запобігати систематичним помилкам, точно передбачаючи їх джерела, найкраще заздалегідь - на самому початку дослідження.

Ось деякі способи уникнути помилок вибірки:
♦ кожна одиниця генеральної сукупності повинна мати рівну ймовірність потрапити у вибірку;
♦ відбір бажано проводити із однорідних сукупностей;
♦ треба знати характеристики генеральної сукупності;
♦ при складанні вибіркової сукупності треба враховувати випадкові та систематичні помилки.

Якщо вибіркову сукупність (або просто вибірку) складено правильно, то соціолог отримує надійні результати, що характеризують всю генеральну сукупність. Якщо вона складена неправильно, то помилка, що виникла етапі складання вибірки, кожному наступному етапі проведення соціологічного дослідження примножується і досягає зрештою такий величини, яка переважує цінність проведеного дослідження. Кажуть, що від такого дослідження більше шкоди, ніж користі.

Подібні помилки можуть статися тільки з вибірковою сукупністю. Щоб уникнути чи зменшити ймовірність помилки, найпростіший спосіб – збільшувати розміри вибірки (в ідеалі до обсягу генеральної: коли обидві сукупності збігатимуться, помилка вибірки взагалі зникне). Економічно такий метод неможливий. Залишається інший шлях – удосконалювати математичні методискладання вибірки. Вони і застосовуються практично. Такий перший канал проникнення до соціології математики. Другий канал - математична обробкаданих.

Особливо важлива проблемапомилок стає у маркетингових дослідженнях, де використовуються невеликі вибірки. Зазвичай вони становлять кілька сотень, рідше – тисячу респондентів. Тут вихідним пунктом розрахунку вибірки виступає питання визначення розмірів вибіркової сукупності. Чисельність вибіркової сукупності залежить від двох факторів: 1) вартості збору інформації та 2) прагнення до певного ступеня статистичної достовірностірезультатів, які сподівається отримати дослідник. Звісно, ​​навіть досвідчені в статистиці і соціології люди інтуїтивно розуміють, що більше розміри вибірки, тобто. що ближче вони до розмірів генеральної сукупності загалом, то надійніші і достовірні отримані дані. Однак ми вже говорили про практичну неможливість суцільних опитувань у тих випадках, коли вони проводяться на об'єктах, чисельність яких перевищує десятки, сотні тисяч і навіть мільйони. Зрозуміло, що вартість збору інформації (що включає оплату тиражування інструментарію, праці анкетерів, польових менеджерів та операторів з комп'ютерного введення) залежить від суми, яку готовий виділити замовник, і слабо залежить від дослідників. Що ж до другого фактора, то ми зупинимося на ньому трохи докладніше.

Отже, що більше величина вибірки, то менше можлива помилка. Хоча необхідно відзначити, що за бажання збільшити точність удвічі вам доведеться збільшити вибірку не вдвічі, а вчетверо. Наприклад, щоб зробити вдвічі більше точну оцінкуданих, отриманих шляхом опитування 400 людина, вам потрібно опитати не 800, а 1600 людина. Втім, навряд чи маркетингове дослідження потребує стовідсоткової точності. Якщо пивовару необхідно дізнатися, яка частина споживачів пива віддає перевагу саме його марці, а не сорту його конкурента, - 60% або 40%, то на його плани ніяк не вплине різниця між 57%, 60 або 63%.

Помилка вибірки може залежати як від її величини, а й від ступеня відмінностей між окремими одиницями всередині генеральної сукупності, що її досліджуємо. Наприклад, якщо нам потрібно дізнатися, яка кількість пива споживається, то ми виявимо, що всередині нашої генеральної сукупності норми споживання різних людейзначно різняться (гетерогенна генеральна сукупність). В іншому випадку ми вивчатимемо споживання хліба і встановимо, що у різних людейвоно відрізняється значно менш значно (гомогенная генеральна сукупність). Чим більша різниця (або гетерогенність) всередині генеральної сукупності, тим більша величина можливої ​​помилки вибірки. Зазначена закономірність лише підтверджує те, що нам підказує простий здоровий глузд. Таким чином, як справедливо стверджує В. Ядов, «чисельність (обсяг) вибірки залежить від рівня однорідності або різнорідності об'єктів, що вивчаються. Що більше вони однорідні, то менша чисельність може забезпечити статистично достовірні висновки».

Визначення обсягу вибірки залежить також від рівня довірчого інтервалудопустимої статистичної помилки. Тут маються на увазі так звані випадкові помилки, пов'язані з природою будь-яких статистичних похибок. В.І. Паніотто наводить такі розрахунки репрезентативної вибіркиз припущенням 5% помилки:
Це означає, що якщо ви, опитавши, припустимо, 400 осіб у районному місті, де чисельність дорослого платоспроможного населення становить 100 тис. осіб, виявили, що 33% опитаних покупців віддають перевагу продукції місцевого м'ясокомбінату, то з 95%-ною ймовірністю можете стверджувати, що постійними покупцями цієї продукції є 33+5% (тобто від 28 до 38%) мешканців цього міста.

Можна також скористатися розрахунками інституту Геллапа для оцінки співвідношення розмірів вибірки та помилки вибірки.

Середня помилка вибірки показує, наскільки в середньому відхиляється параметр вибіркової сукупності від відповідного параметра генеральної. Якщо розрахувати середню помилку всіх можливих вибірок певного видузаданого обсягу ( n), витягнутих з однієї і тієї ж генеральної сукупності, то отримаємо їх узагальнюючу характеристику - середню помилку вибірки ().

Теоретично вибіркового спостереження виведені формули для визначення , які індивідуальні для різних способіввідбору (повторного та безповторного), типів використовуваних вибірок та видів оцінюваних статистичних показників.

Наприклад, якщо застосовується повторна власне випадкова вибірка, визначається як:

При оцінюванні середнього значення ознаки;

Якщо ознака альтернативна, і оцінюється частка.

При власному випадковому відборі до формули вноситься поправка (1 - n/N):

- для середнього значення ознаки;

- Для частки.

Імовірність отримання саме такої величини помилки завжди дорівнює 0,683. Насправді ж вважають за краще отримувати дані з більшою ймовірністю, але це призводить до зростання величини помилки вибірки.

Гранична помилка вибірки () дорівнює t-кратному числу середніх помилок вибірки (теоретично вибірки прийнято коефіцієнт t називати коефіцієнтом довіри):

Якщо помилку вибірки збільшити вдвічі (t = 2), то отримаємо набагато більшу ймовірність того, що вона не перевищить певної межі (у нашому випадку – подвійної середньої помилки) – 0,954. Якщо взяти t = 3, то довірча ймовірність складе 0,997 – практично достовірність.

Рівень граничної помилки вибірки залежить від наступних факторів:

  • ступеня варіації одиниць генеральної сукупності;
  • обсягу вибірки;
  • вибраних схем відбору (безповторний відбір дає меншу величину помилки);
  • рівня довірчої ймовірності.

Якщо обсяг вибірки більше 30, то значення t визначається за таблицею нормального розподілу, якщо менше – за таблицею розподілу Стьюдента.

Наведемо деякі значення коефіцієнта довіри із таблиці нормального розподілу.

Довірчий інтервал для середнього значення ознаки та для частки в генеральній сукупності встановлюється таким чином:

Отже, визначення меж генеральної середньої та частки складається з наступних етапів:

Помилки вибірки при різних видахвідбору

  1. Власне випадкова та механічна вибірка. Середня помилка власне випадкової та механічної вибірки знаходяться за формулами, наведеними в табл. 11.3.

Приклад 11.2. Для вивчення рівня фондовіддачі було проведено вибіркове обстеження 90 підприємств із 225 методом випадкової повторної вибірки, в результаті якого отримані дані, подані в таблиці.

У цьому прикладі маємо 40%-ную вибірку (90: 225 = 0,4, або 40%). Визначимо її граничну помилку та межі для середнього значення ознаки в генеральній сукупності за кроками алгоритму:

  1. За результатами вибіркового обстеження розрахуємо середнє значення та дисперсію у вибірковій сукупності:
Таблиця 11.5.
Результати спостереження Розрахункові значення
рівень фондовіддачі, руб., X i кількість підприємств, f i середина інтервалу, x i \xb4 x i \xb4 f i x i \xb4 2 f i
До 1,4 13 1,3 16,9 21,97
1,4-1,6 15 1,5 22,5 33,75
1,6-1,8 17 1,7 28,9 49,13
1,8-2,0 15 1,9 28,5 54,15
2,0-2,2 16 2,1 33,6 70,56
2,2 і вище 14 2,3 32,2 74,06
Разом 90 - 162,6 303,62

Вибіркова середня

Вибіркова дисперсія досліджуваної ознаки

Для наших даних визначимо граничну помилку вибірки, наприклад, із ймовірністю 0,954. За таблицею значень ймовірності функції нормального розподілу (див. Витримку з неї, наведену в Додатку 1) знаходимо величину коефіцієнта довіри t, що відповідає ймовірності 0,954. За ймовірності 0,954 коефіцієнт t дорівнює 2.

Таким чином, у 954 випадках із 1000 середнє значення фондовіддачі буде не вище 1,88 руб. і не нижче 1,74 руб.

Вище було використано повторну схему випадкового відбору. Подивимося, чи зміняться результати обстеження, якщо припустити, що відбір здійснювався за схемою демонів повторного відбору. У цьому випадку розрахунок середньої помилки проводиться за формулою

Тоді при ймовірності, що дорівнює 0,954 величина граничної помилки вибірки складе:

Довірчі межі для середнього значення ознаки при неповторному випадковому відборі матимуть наступні значення:

Порівнявши результати двох схем відбору, можна дійти невтішного висновку у тому, що застосування безповторної випадкової вибірки дає більш точні результати проти застосуванням повторного відбору за однієї й тієї ж довірчої ймовірності. При цьому, що більший обсяг вибірки, то суттєвіше звужуються межі значень середньої при переході від однієї схеми відбору до іншої.

За даними прикладу визначимо, у яких межах перебуває частка підприємств із рівнем фондовіддачі, що не перевищує значення 2,0 руб., у генеральній сукупності:

  1. розрахуємо вибіркову частку.

Кількість підприємств у вибірці з рівнем фондовіддачі, що не перевищує значення 2,0 руб., Складає 60 одиниць. Тоді

m = 60, n = 90, w = m/n = 60: 90 = 0,667;

  1. розрахуємо дисперсію частки у вибірковій сукупності
  1. середня помилка вибірки під час використання повторної схемивідбору складе

Якщо припустити, що було використано безповторна схема відбору, то середня помилка вибірки з урахуванням поправки на кінцівку сукупності становитиме

  1. Задамо довірчу ймовірність і визначимо граничну помилку вибірки.

При значенні ймовірності Р = 0,997 за таблицею нормального розподілу отримуємо значення коефіцієнта довіри t = 3 (див. витримку з неї, наведену в Додатку 1):

Таким чином, з ймовірністю 0,997 можна стверджувати, що в генеральній сукупності частка підприємств з рівнем фондовіддачі, що не перевищує значення 2,0 руб., Не менше, ніж 54,7%, і не більше 78,7%.

  1. Типова вибірка. При типової вибірці генеральна сукупність об'єктів розбита на k груп, тоді

N 1 + N 2 + … + N i + … + N k = N.

Обсяг вилучених із кожної типової групи одиниць залежить від прийнятого способу відбору; їх Загальна кількістьутворює необхідний обсяг вибірки

n 1 + n 2 + … + n i + … + n k = n.

Існують такі два способи організації відбору всередині типової групи: пропорційної обсягу типових груп і пропорційного ступеня коливання значень ознаки у одиниць спостереження в групах. Розглянемо перший із них, як найчастіше використовуваний.

Відбір, пропорційний обсягу типових груп, передбачає, що у кожній з них буде відібрано наступне числоодиниць сукупності:

n = n i · N i / N

де n i - кількість видобутих одиниць для вибірки з i-ї типової групи;

n – загальний обсяг вибірки;

N i - кількість одиниць генеральної сукупності, що склали i-ю типову групу;

N – загальна кількість одиниць генеральної сукупності.

Відбір одиниць усередині груп відбувається як випадкової чи механічної вибірки.

Формули для оцінювання середньої помилки вибірки для середнього та частки представлені у табл. 11.6.

Тут – середня з групових дисперсій типових груп.

Приклад 11.3. В одному з московських вузів проведено вибіркове обстеження студентів з метою визначення показника середньої відвідуваності вузівської бібліотеки одним студентом за семестр. Для цього було використано 5%-ву безповторну типову вибірку, типові групи якої відповідають номеру курсу. При відборі, пропорційному обсягу типових груп, отримані такі дані:

Таблиця 11.7.
Номер курсу Усього студентів, чол., N i Обстежено внаслідок вибіркового спостереження, чол., n i Середня кількість відвідувань бібліотеки одним студентом за семестр, x i Внутрішньогрупова вибіркова дисперсія,
1 650 33 11 6
2 610 31 8 15
3 580 29 5 18
4 360 18 6 24
5 350 17 10 12
Разом 2 550 128 8 -

Число студентів, яке необхідно обстежити на кожному курсі, розрахуємо так:

аналогічно для інших груп:

Розподіл значень вибіркових середніх завжди має нормальний законрозподілу (або наближається до нього) за п > 100, незалежно від характеру розподілу генеральної сукупності. Однак у разі малих вибірок діє інший закон розподілу – розподіл Стьюдента. У цьому випадку коефіцієнт довіри знаходиться за таблицею t-розподілу Стьюдента в залежності від величини довірчої ймовірності Р та обсягу вибірки п. У Додатку 1 наводиться фрагмент таблиці t-розподілу Стьюдента, представленої у вигляді залежності довірчої ймовірності від обсягу вибірки та коефіцієнта довіри t.

Приклад 11.4. Припустимо, що вибіркове обстеження восьми студентів академії показало, що на підготовку до контрольної роботиза статистикою вони витратили таку кількість годин: 8,5; 8,0; 7,8; 9,0; 7,2; 6,2; 8,4; 6,6.

Приклад 11.5. Розрахуємо, скільки з 507 промислових підприємствслід перевірити податкову інспекцію, щоб із ймовірністю 0,997 визначити частку підприємств із порушеннями у сплаті податків. За даними минулого аналогічного обстеження величина середнього квадратичного відхилення становила 0,15; розмір помилки вибірки передбачається отримати вище, ніж 0,05.

У разі використання повторного випадкового відбору слід перевірити

При неповторному випадковому відборі потрібно перевірити

Як бачимо, використання безповторного відбору дозволяє проводити обстеження набагато меншого числаоб'єктів.

Приклад 11.6. Планується провести обстеження заробітної платина підприємствах галузі шляхом випадкового безповторного відбору. Якою має бути чисельність вибіркової сукупності, якщо на час обстеження галузі число зайнятих становило 100 000 чол.? Гранична помилка вибірки має перевищувати 100 крб. із ймовірністю 0,954. За результатами попередніх обстежень заробітної плати у галузі відомо, що середнє квадратичне відхиленняскладає 500 руб.

Отже, для вирішення поставленого завдання необхідно включити у вибірку щонайменше 100 осіб.

Середня та гранична помилки вибірки

Основна перевага вибіркового спостереження серед інших - можливість розрахувати випадкову помилкувибірки.

Помилки вибірки бувають систематичні та випадкові.

Систематичні- у разі, коли порушено основний принцип вибірки - випадковості. Випадкові- виникають зазвичай з огляду на те, що структура вибіркової сукупності завжди відрізняється від структури генеральної сукупності, як би правильно не був проведений відбір, тобто, незважаючи на принцип випадковості відбору одиниць сукупності, все ж таки є розбіжності між характеристиками вибіркової та генеральної сукупності. Вивчення та вимірювання випадкових помилок репрезентативності та є основним завданням вибіркового методу.

Як правило, найчастіше розраховують помилку середньої та помилку частки. При розрахунках використовуються такі умовні позначення:

Середня, розрахована у межах генеральної сукупності;

Середня, розрахована у межах вибіркової сукупності;

р- частка цієї групи у генеральній сукупності;

w- частка цієї групи у вибірковій сукупності.

Використовуючи умовні позначення, помилки вибірки для середньої та для частки можна записати наступним чином:

Вибіркова середня та вибіркова частка є випадковими величинами, які можуть набувати будь-яких значень залежно від того, які одиниці сукупності потрапили у вибірку. Отже, помилки вибірки є випадковими величинами і можуть приймати різні значення. Тому визначають середню з можливих помилок μ .

На відміну від систематичної, випадкову помилку можна визначити заздалегідь, до проведення вибірки, згідно граничних теорем, що розглядаються в математичній статистиці

Середня помилка визначається із ймовірністю 0,683. У разі іншої ймовірності говорять про граничну помилку.

Середня помилка вибірки для середньої та для частки визначається наступним чином:


У цих формулах дисперсія ознаки є характеристикою генеральної сукупності, які під час вибіркового спостереження невідомі. Насправді їх замінюють аналогічними характеристиками вибіркової сукупності виходячи з закону великих чисел, яким вибіркова сукупність великому обсязі точно відтворює характеристики генеральної сукупності.

Формули визначення середньої помилки для різних спосібвідбору:

Спосіб відбору Повторний Неповторний
помилка середньої помилка частки помилка середньої помилка частки
Власно-випадковий та механічний
Типовий
Серійний

μ - середня помилка;

∆ - гранична помилка;

п -чисельність вибірки;

N -чисельність генеральної сукупності;

Загальна дисперсія;

w -частка цієї категорії в загальної чисельностівибірки:

Середнє з внутрішньогрупові дисперсії;

Δ 2 - міжгрупова дисперсія;

r -число серій у вибірці;

R- загальна кількість серій.


Гранична помилкадля всіх способів відбору пов'язана із середньою помилкою вибірки наступним чином:

де t- Коефіцієнт довіри, функціонально пов'язаний з ймовірністю, з якою забезпечується величина граничної помилки. Залежно від ймовірності коефіцієнт довіри t набуває наступних значень:

t P
0,683
1,5 0,866
2,0 0,954
2,5 0,988
3,0 0,997
4,0 0,9999

Наприклад, ймовірність помилки дорівнює 0,683. Це означає, що генеральна середня відрізняється від вибіркової середньої абсолютної величинине більше ніж на величину μ з ймовірністю 0,683, якщо - вибіркова середня, - генеральна середня, то зймовірністю 0,683.

Якщо ми хочемо забезпечити більшу ймовірність висновків, то ми збільшуємо межі випадкової помилки.

Таким чином, величина граничної помилки залежить від наступних величин:

Коливання ознаки (прямий зв'язок), яку характеризує величина дисперсії;

Чисельності вибірки ( Зворотній зв'язок);

Довірчої ймовірності(прямий зв'язок);

Метод відбору.

Приклад розрахунку помилки середньої та помилки частки.

Для визначення середньої кількості дітей у сім'ї методом випадкової безповторної вибірки з 1000 сімей відібрано 100. Результати наведені в таблиці:

Визначте:.

- з ймовірністю 0,997 граничну помилку вибірки та кордону, в яких перебуває середня кількість дітей у сім'ї;

- з ймовірністю 0,954 кордону, в яких знаходиться питома вага сімей із двома дітьми.

1. Визначимо граничну помилку середньої з ймовірністю 0,977. Для спрощення розрахунків скористаємося способом моментів:

p = 0,997 t= 3

середня помилка середньої, 0,116 - гранична помилка

2,12 – 0,116 ≤ ≤ 2,12+ 0,116

2,004 ≤ ≤ 2,236

Отже, з ймовірністю 0,997 середня кількість дітей у сім'ї у генеральній сукупності, тобто серед 1000 сімей, перебуває у інтервалі 2,004 - 2,236.