Біографії Характеристики Аналіз

Як зазначається середня помилка вибірки. Визначення чисельності вибірки

Поняття про вибіркове спостереження.

При статистичному методі спостереження можливе застосування двох методів спостереження: суцільного, що охоплює всі одиниці сукупності, і вибіркового (несуцільного).

Під вибірковим розуміється метод дослідження, пов'язані з встановленням узагальнюючих показників сукупності з деякою її частини з урахуванням методу випадкового добору.

При вибірковому спостереженні обстеженню піддається невелика частина всієї сукупності (5-10%).

Вся сукупність, що підлягає обстеженню, називається генеральною сукупністю.

Відібрана з генеральної сукупності частина одиниць, що піддається обстеженню, називається вибірковою сукупністюабо вибіркою.

Показники, що характеризують генеральну та вибіркову сукупність:

1) Частка альтернативної ознаки;

У генеральної сукупностічастка одиниць, які мають будь-яку альтернативну ознаку, позначається буквою «Р».

У вибіркової сукупностічастка одиниць, які мають будь-який альтернативний ознакою, позначається буквою «w».

2) Середній розмір ознаки;

У генеральної сукупностісередній розмір ознаки позначається літерою (генеральна середня).

У вибіркової сукупностісередній розмір ознаки позначається буквою (вибіркова середня).

Визначення помилки вибірки.

Вибіркове спостереження ґрунтується на принципі рівної можливості попадання одиниць генеральної сукупності у вибіркову. Це дозволяє уникнути систематичних помилок спостереження. Однак, у зв'язку з тим, що досліджувана сукупність складається з одиниць з ознаками, що варіюють, склад вибірки може відрізнятися від складу генеральної сукупності, викликаючи розбіжності між генеральними і вибірковими характеристиками.

Такі розбіжності називаються помилками репрезентативності чи помилками вибірки.

Визначення помилки вибірки - основне завдання, яке вирішується при вибірковому спостереженні.

У математичній статистиці доводиться, що середня помилка вибірки визначається за такою формулою:

Де m – помилка вибірки;

s 2 0 - Дисперсія генеральної сукупності;

n – кількість одиниць вибіркової сукупності.

Насправді визначення середньої помилки вибірки використовується дисперсія вибіркової сукупності s 2 .

Між генеральною та вибірковою дисперсіями існує рівність:

(2).

З формули (2) видно, що генеральна дисперсія більша за вибіркову на величину (). Однак за досить великої величини вибірки це співвідношення близько до одиниці, тому можна записати, що

Проте така формула визначення середньої помилки вибірки застосовується лише за повторному відборі.

Насправді зазвичай застосовується безповторний відбірі середня помилка вибірки розраховується інакше, оскільки чисельність вибірки під час дослідження скорочується:

(4)

де n – чисельність вибіркової сукупності;

N – чисельність генеральної сукупності;

s 2 - вибіркова дисперсія.

Для частки альтернативної ознаки середня помилка вибірки при безповторному відборівизначається за формулою:

(5), де

w (1-w) - середня помилка вибіркової частки альтернативної ознаки;

w – частка альтернативної ознаки вибіркової сукупності.

При повторному відборісередня помилка частки альтернативної ознаки визначається за спрощеною формулою:

(6)

Якщо чисельність вибірки не перевищує 5%,середня помилка вибіркової частки та вибіркової середньої визначається за спрощеними формулами (3) та (6).

Визначення середньої помилки вибіркової середньої та вибіркової частки необхідне встановлення можливих значень генеральної середньої (х) і генеральної частки (Р) з урахуванням вибіркової середньої (х) і вибіркової частки (w).

Одне з можливих значень, в межах якого знаходиться генеральна середня, визначається за такою формулою:

Для генеральної частки цей інтервал можна записати як :

(8)

Отримані таким чином характеристики частки і середньої генеральної сукупності відрізняються від величини вибіркової частки і вибіркової середньої на величину m.Однак гарантувати це можна не з повною впевненістю, а лише з певним ступенем ймовірності.

У математичній статистиці доводиться, що межі значень характеристик генеральної та вибіркової середньої відрізняються на величину mлише з ймовірністю 0,683. Отже, тільки в 683 випадках з 1000 генеральна середня знаходиться в межах х = х m х,в інших випадках вона вийде за ці межі.

Імовірність суджень можна підвищити, якщо розширити межі відхилень, прийнявши як міру середню помилку вибірки, збільшену в t разів.

Множник t називають коефіцієнтом довіри. Він визначається залежно від цього, з якою довірчою ймовірністю треба гарантувати результати дослідження.

Математик А.М.Ляпушев розрахував різні значення t, які зазвичай наводяться у готових таблицях.

Основна перевага вибіркового спостереження серед інших - можливість розрахувати випадкову помилку вибірки.

Помилки вибірки бувають систематичні та випадкові.

Систематичні- у разі, коли порушено основний принцип вибірки - випадковості. Випадкові- виникають зазвичай з огляду на те, що структура вибіркової сукупності завжди відрізняється від структури генеральної сукупності, як би правильно не був проведений відбір, тобто, незважаючи на принцип випадковості відбору одиниць сукупності, все ж таки є розбіжності між характеристиками вибіркової та генеральної сукупності. Вивчення та вимірювання випадкових помилок репрезентативності та є основним завданням вибіркового методу.

Як правило, найчастіше розраховують помилку середньої та помилку частки. При розрахунках використовуються такі умовні позначення:

Середня, розрахована у межах генеральної сукупності;

Середня, розрахована у межах вибіркової сукупності;

р- частка цієї групи у генеральній сукупності;

w- частка цієї групи у вибірковій сукупності.

Використовуючи умовні позначення, помилки вибірки для середньої та частки можна записати так:

Вибіркова середня та вибіркова частка є випадковими величинами, які можуть набувати будь-яких значень залежно від того, які одиниці сукупності потрапили у вибірку. Отже, помилки вибірки є випадковими величинами і можуть приймати різні значення. Тому визначають середню з можливих помилок .

На відміну від систематичної, випадкову помилку можна визначити заздалегідь, до проведення вибірки, відповідно до граничних теорем, що розглядаються в математичній статистиці.

Середня помилка визначається із ймовірністю 0,683. У разі іншої ймовірності говорять про граничну помилку.

Середня помилка вибірки для середньої та для частки визначається наступним чином:


У цих формулах дисперсія ознаки є характеристикою генеральної сукупності, які під час вибіркового спостереження невідомі. Насправді їх замінюють аналогічними характеристиками вибіркової сукупності виходячи з закону великих чисел, яким вибіркова сукупність великому обсязі точно відтворює характеристики генеральної сукупності.

Формули визначення середньої помилки для різних способів відбору:

Спосіб відбору Повторний Неповторний
помилка середньої помилка частки помилка середньої помилка частки
Власно-випадковий та механічний
Типовий
Серійний

μ - середня помилка;

∆ - гранична помилка;

п -чисельність вибірки;

N -чисельність генеральної сукупності;

Загальна дисперсія;

w -частка цієї категорії у загальній чисельності вибірки:

Середня з внутрішньогрупових дисперсій;

Δ 2 - міжгрупова дисперсія;

r -число серій у вибірці;

R- загальна кількість серій.


Гранична помилкадля всіх способів відбору пов'язана із середньою помилкою вибірки наступним чином:

де t- Коефіцієнт довіри, функціонально пов'язаний з ймовірністю, з якою забезпечується величина граничної помилки. Залежно від ймовірності коефіцієнт довіри t набуває наступних значень:

t P
0,683
1,5 0,866
2,0 0,954
2,5 0,988
3,0 0,997
4,0 0,9999

Наприклад, ймовірність помилки дорівнює 0,683. Це означає, що генеральна середня відрізняється від вибіркової середньої за абсолютною величиною не більше ніж на величину μ з ймовірністю 0,683, якщо - вибіркова середня, - генеральна середня, то зймовірністю 0,683.

Якщо ми хочемо забезпечити більшу ймовірність висновків, то ми збільшуємо межі випадкової помилки.

Таким чином, величина граничної помилки залежить від наступних величин:

Коливання ознаки (прямий зв'язок), яку характеризує величина дисперсії;

Чисельності вибірки (зворотній зв'язок);

Довірчої ймовірності (прямий зв'язок);

Метод відбору.

Приклад розрахунку помилки середньої та помилки частки.

Для визначення середньої кількості дітей у сім'ї методом випадкової безповторної вибірки з 1000 сімей відібрано 100. Результати наведені в таблиці:

Визначте:.

- з ймовірністю 0,997 граничну помилку вибірки та кордону, в яких перебуває середня кількість дітей у сім'ї;

- з ймовірністю 0,954 кордону, в яких знаходиться питома вага сімей із двома дітьми.

1. Визначимо граничну помилку середньої з ймовірністю 0,977. Для спрощення розрахунків скористаємося способом моментів:

p = 0,997 t= 3

середня помилка середньої, 0,116 - гранична помилка

2,12 – 0,116 ≤ ≤ 2,12+ 0,116

2,004 ≤ ≤ 2,236

Отже, з ймовірністю 0,997 середня кількість дітей у сім'ї у генеральній сукупності, тобто серед 1000 сімей, перебуває у інтервалі 2,004 - 2,236.

Гранична помилка— максимально можливе розбіжність середніх чи максимум помилок за заданої ймовірності її появи.

1. Граничну помилку вибірки для середньої при повторному відборі розраховують за формулою:

де t – нормоване відхилення – «коефіцієнт довіри», який залежить від ймовірності, що гарантує граничну помилку вибірки;

мю х – середня помилка вибірки.

2. Гранична помилка вибірки для часткипри повторному відборі визначається за такою формулою:

3. Гранична помилка вибірки для середньої при неповторному відборі:

Граничну відносну помилкувибірки визначають як відсоткове співвідношення граничної помилки вибірки до відповідної характеристики вибіркової сукупності. Вона визначається таким чином:

Мала вибірка

Теорія малих вибірок була розроблена англійським статистиком Стьюдентомна початку 20 століття. У 1908 р. він виявив спеціальний розподіл, який дозволяє і за малих вибірок співвідносити t і довірчу ймовірність F(t). При n більше 100 дають такі ж результати, як і таблиці інтеграла ймовірностей Лапласа, при 30< n < 100 различия получаются незначительные. Поэтому на практике к малым выборкам относятся выборки объемом менее 30 единиц.

Гранична помилка вибіркидорівнює t-кратному числу середніх помилок вибірки:

μ - середня помилка вибірки, розрахована з урахуванням поправки, на яку здійснюється коригування у разі безповторного відбору;

t - коефіцієнт довіри, який знаходять при заданому рівні ймовірності. Так, для Р=0,997 по таблиці значень інтегральної функції Лапласа t=3

Величина граничної помилки вибіркиможе бути встановлена ​​з певною ймовірністю. Імовірність появи такої помилки, що дорівнює або більше потрійної середньої помилки вибірки, вкрай мала і дорівнює 0,003 (1-0,997). Такі малоймовірні події вважаються практично неможливими, а томуймовірність того, що ця різниця перевищить триразову величину середньої помилки, визначає рівень помилкиі становить не більше 0,3% .

Визначення граничної помилки вибірки длячастки

Умова:

З готової продукції, у порядку власне-випадкового безповторного відбору, було відібрано 200 ц, у тому числі 8 ц виявилося зіпсовано. Чи можна вважати з ймовірністю 0,954, що втрати продукції не перевищать 5%, якщо вибірка становить 1:20 частину її розміру?

Дано:

  • n = 200ц - обсяг вибірки (вибіркова сукупність)
  • m =8ц - у зіпсованої продукції
  • n:N = 1:20 - пропорція відбору, де N-обсяг сукупності (генеральна сукупність)
  • Р = 0,954 - ймовірність

Визначити: ∆ ω < 5% (согласуется ли то, что потери продукции не превысят 5%)

Рішення:

1. Визначимо вибіркову частку-таку частку складає зіпсована продукція у вибірковій сукупності:

2. Визначимо обсяг генеральної сукупності:

N=n*20=200*20=4000(ц)– кількість усієї продукції.

3. Визначимо граничну помилку вибірки частки продукції, що має відповідним ознакою, тобто. для частки зіпсованої продукції: Δ = t*μ, де µ — середня помилка частки, що має альтернативну ознаку, з урахуванням поправки, на яку здійснюється коригування у разі безповторного відбору; t - коефіцієнт довіри, який знаходять при заданому рівні ймовірності Р = 0,954 за таблицею значень інтегральної функції Лапласа: t = 2

4. Визначимо г ранки довірчого інтервалудля частки альтернативної ознакиу генеральній сукупності, тобто. яку частку зіпсована продукція становитиме у загальному обсязі: оскільки частка зіпсованої продукції у вибірковому обсязі становить ω = 0,04, то з урахуванням граничної помилки ∆ ω = 0,027 генеральна частка альтернативної ознаки(p) прийме значення:

ω-∆ ω < p < ω+∆ ω

0.04-0.027< p < 0.04+0.027

0.013 < p < 0.067

Висновок:з ймовірністю Р=0,954 можна стверджувати , що частка зіпсованої продукціїпри вибірці більшого обсягу не вийде межі знайденого інтервалу (щонайменше 1,3% і трохи більше 6,7%). Але залишається ймовірність того, що частка зіпсованої продукції може перевищити 5% у межах до 6,7%, що, у свою чергу, не узгоджується із затвердженням ∆ω< 5%.

*******

Умова:

Менеджер магазину з досвіду знає, що 25% покупців, що входять до магазину, здійснюють покупки. Припустимо, що до магазину увійшло 200 покупців.

Визначити:

  1. частку покупців, які здійснили покупки
  2. дисперсію вибіркової частки
  3. середнє квадратичне відхилення вибіркової частки
  4. ймовірність того, що вибіркова частка буде в межах між 0,25 та 0,30

Рішення:

В якості генеральної частки (p) приймаємо вибіркову частку (ω ) та визначаємо верхню межу довірчого інтервалу.
Знаючи критичну точку (за умовою: вибіркова частка в межах 0,25-0,30), будуємо односторонню критичну область (правосторонню).
За таблицею значень інтегральної функції Лапласа знаходимо Z
Цей варіант можна розглядати і як повторний відбірза умови, якщо той самий покупець, не купивши вперше, повертається і робить покупку.

Якщо вибірку розглядати як безповторнунеобхідно середню помилку скоригувати на поправочний коефіцієнт. Тоді, підставивши скориговані значення граничної помилки для вибіркової частки, щодо критичної області, зміняться Z і P

Визначення граничної помилки вибірки для середньої

За даними 17 співробітників фірми, де працює 260 осіб, середньомісячна заробітна плата становила 360 у.о. при S=76 у.о. Яка мінімальна сума має бути покладена на рахунок фірми, щоб із ймовірністю 0,98 гарантувати видачу заробітної плати всім працівникам?

Дано:

  • n=17 - обсяг вибірки (вибіркова сукупність)
  • N=260 - обсяг сукупності (генеральна сукупність)
  • Х пор. =360 - вибіркова середня
  • S=76 - вибіркове середньоквадратичне відхилення
  • Р = 0,98 - довірча ймовірність

Визначити:мінімально допустиме значення генеральної середньої (нижню межу довірчого інтервалу).

Для характеристики надійності вибіркових показників розрізняють середню та граничну помилки вибірки, які властиві лише вибірковим спостереженням. Дані показники відображають різницю між вибірковими та відповідними генеральними показниками.

Середня помилка збіркивизначається насамперед обсягом вибірки та залежить від структури та ступеня варіювання досліджуваної ознаки.

Сенс середньої помилки вибірки ось у чому. Розраховані значення вибіркової частки (w) та вибіркової середньої () за своєю природою випадкові величини. Вони можуть набувати різних значень залежно від того, які конкретні одиниці генеральної сукупності потраплять у вибірку. Наприклад, якщо при визначенні середнього віку працівників підприємства в одну вибірку включити більше молоді, а в іншу – працівників старшого віку, то середні вибіркові та помилки вибірки будуть різними. Середня помилка вибіркивизначається за формулою:

(27) або – повторна вибірка. (28)

Де: μ – середня помилка вибірки;

σ – середнє квадратичне відхилення ознаки у генеральній сукупності;

n – обсяг вибірки.

Величина помилки μ показує, наскільки середнє значення ознаки, встановлене на вибірці, відрізняється від справжнього значення ознаки в генеральній сукупності.

З формули випливає, що помилка вибірки прямо пропорційна середньому квадратичному відхилення і обернено пропорційна кореню квадратному з одиниць, що потрапили у вибірку. Це означає, наприклад, що більше розкид значень ознаки у генеральній сукупності, тобто чим більше дисперсія, то більше має бути обсяг вибірки, якщо ми хочемо довіряти результатам вибіркового обстеження. І, навпаки, за малої дисперсії можна обмежитися невеликим числом вибіркової сукупності. Помилка вибірки буде перебувати в прийнятних межах.

Оскільки при безповторному відборі чисельність генеральної сукупності N під час вибірки скорочується, то формулу для розрахунку середньої помилки вибірки включають додатковий множник

(1-). Формула середньої помилки вибірки набуває наступного вигляду:

Середня помилка менша у безповторної вибірки, як і зумовлює її ширше застосування.

Для практичних висновків потрібна характеристика генеральної сукупності з урахуванням вибіркових результатів. Вибіркові середні та частки поширюються на генеральну сукупність з урахуванням межі їх можливої ​​помилки, причому з рівнем ймовірності, що її гарантує. Задавшись конкретним рівнем ймовірності, вибирають величину нормованого відхилення та визначають граничну помилку вибірки.

Надійністю (довірчою ймовірністю) оцінки Х за Х*називають ймовірність γ , з якою здійснюється нерівність


׀Х-Х*׀< δ, (30)

де - гранична помилка вибірки, що характеризує ширину інтервалу, в якому з ймовірністю γ знаходиться значення досліджуваного параметра генеральної сукупності.

Довірчимназивають інтервал (Х * - δ; Х * + δ), який покриває досліджуваний параметр Х (тобто значення параметра Х знаходиться всередині цього інтервалу) із заданою надійністю γ.

Зазвичай надійність оцінки задається наперед, причому як беруть число, близьке до одиниці: 0,95; 0,99 чи 0,999.

Гранична помилка δ пов'язана із середньою помилкою μ наступним співвідношенням: , (31)

де: t - Коефіцієнт довіри, що залежить від ймовірності P, з якої можна стверджувати, що гранична помилка δ не перевищить t-кратну середню помилку μ (його ще називають критичними точками або квантилами розподілу Стьюдента).

Як випливає із співвідношення , гранична помилка прямо пропорційна середній помилці вибірки та коефіцієнту довіри, що залежить від заданого рівня надійності оцінки.

З формули середньої помилки вибірки та співвідношення граничної та середньої помилок отримуємо:

З урахуванням довірчої ймовірності ця формула набуде вигляду.