Біографії Характеристики Аналіз

Гранична помилка вибірки дорівнює. Вибіркове спостереження: поняття, види, помилки вибірки, оцінка результатів

Розбіжності між величиною будь-якого показника, знайденого за допомогою статистичного спостереження, та дійсними його розмірами називаються помилками спостереження . Залежно від причин виникнення розрізняють помилки реєстрації та помилки репрезентативності.

Помилки реєстрації виникають у результаті неправильного встановлення фактів чи помилкового запису у процесі спостереження чи опитування. Вони бувають випадковими чи систематичними. Випадкові помилки реєстрації можуть бути допущені як опитуваними у відповідях, і реєстраторами. Систематичні помилки можуть і навмисними, і ненавмисними. Умисні – свідомі, тенденційні спотворення дійсного стану справи. Ненавмисні викликаються різними випадковими причинами (недбалість, неуважність).

Помилки репрезентативності (представницькості) виникають у результаті неповного обстеження та у разі, якщо обстежувана сукупність недостатньо повно відтворює генеральну сукупність. Вони можуть бути випадковими та систематичними. Випадкові помилки репрезентативності – це відхилення, що виникають при несуцільному спостереженні через те, що сукупність відібраних одиниць спостереження (вибірка) неповно відтворює всю сукупність загалом. Систематичні помилки репрезентативності – це відхилення, що виникають внаслідок порушення принципів випадкового відбору одиниць. Помилки репрезентативності органічно властиві вибірковому спостереженню і виникають через те, що вибіркова сукупність в повному обсязі відтворює генеральну. Уникнути помилок репрезентативності не можна, проте, користуючись методами теорії ймовірностей, заснованими на використанні граничних теорем закону великих чисел, ці помилки можна звести до мінімальних значень, межі яких встановлюються досить великою точністю.

Помилки вибірки різниця між характеристиками вибіркової та генеральної сукупності. Для середнього значення помилка визначатиметься за формулою

де

Величина
називається граничною помилкою вибірки.

Гранична помилка вибірки – величина випадкова. Дослідженню закономірностей випадкових помилок вибірки присвячені граничні теореми закону великих чисел. Найбільш повно ці закономірності розкрито в теоремах П. Л. Чебишева та А. М. Ляпунова.

Теорему П. Л. Чебишева Стосовно аналізованого методу можна сформулювати наступним чином: при досить великому числі незалежних спостережень можна з ймовірністю, близькою до одиниці (тобто майже з достовірністю), стверджувати, що відхилення вибіркової середньої від генеральної буде скільки завгодно малим. У теоремі П. Л. Чебишева доведено, що величина помилки має перевищувати . У свою чергу величина , що виражає середнє квадратичне відхилення вибіркової середньої від генеральної середньої, залежить від коливання ознаки в генеральній сукупності та числа відібраних одиниць n. Ця залежність виражається формулою

, (7.2)

де залежить також від способу виробництва вибірки.

Величину =називають середньою помилкою вибірки. У цьому виразі - Генеральна дисперсія, n- Обсяг вибіркової сукупності.

Розглянемо, як впливає на величину середньої помилки кількість одиниць, що відбираються. n. Логічно неважко переконатися, що при відборі великої кількості одиниць розбіжності між середніми будуть меншими, тобто існує зворотний зв'язок між середньою помилкою вибірки та числом відібраних одиниць. При цьому тут утворюється не просто зворотна математична залежність, а така залежність, яка показує, що квадрат розходження між середніми обернено пропорційний числу відібраних одиниць.

Збільшення коливання ознаки тягне у себе збільшення середнього квадратичного відхилення, отже, і помилки. Якщо припустити, що це одиниці матимуть однакову величину ознаки, то середнє квадратичне відхилення дорівнюватиме нулю і помилка вибірки також зникне. Тоді немає потреби застосовувати вибірку. Проте слід пам'ятати, що величина коливання ознаки у генеральній сукупності невідома, оскільки невідомі розміри одиниць у ній. Можна розрахувати лише коливання ознаки у вибірковій сукупності. Співвідношення між дисперсіями генеральної та вибіркової сукупності виражається формулою

Оскільки величина за досить великих nблизька до одиниці, можна приблизно вважати, що вибіркова дисперсія дорівнює генеральної дисперсії, тобто.

Отже, середня помилка вибірки показує, які можливі відхилення показників вибіркової сукупності від відповідних показників генеральної сукупності. Однак про величину цієї помилки можна судити з певною ймовірністю. На величину ймовірності вказує множник

Теорема А. М. Ляпунова . А. М. Ляпунов довів, що розподіл вибіркових середніх (отже, та їх відхилень від генеральної середньої) за досить великої кількості незалежних спостережень наближено нормально за умови, що генеральна сукупність має кінцеву середню та обмежену дисперсію.

Математично теорему Ляпуноваможна записати так:

(7.3)

де
, (7.4)

де
- Математична постійна;

гранична помилка вибірки , яка дозволяє з'ясувати, у яких перебуває величина генеральної середньої.

Значення цього інтеграла для різних значень коефіцієнта довіри tобчислені та наводяться у спеціальних математичних таблицях. Зокрема, за:

Оскільки tвказує на ймовірність розбіжності
, Т. е. на ймовірність того, на яку величину генеральна середня буде відрізнятися від вибіркової середньої, то це може бути прочитано так: з ймовірністю 0,683 можна стверджувати, що різниця між вибірковою та генеральною середніми не перевищує однієї величини середньої помилки вибірки. Іншими словами, у 68,3% випадків помилка репрезентативності не вийде за межі
Імовірно 0,954 можна стверджувати, що помилка репрезентативності не перевищує
(Тобто в 95% випадків). З ймовірністю 0,997, тобто досить близькою до одиниці, можна очікувати, що різниця між вибірковою та генеральною середньою не перевершить триразової середньої помилки вибірки і т.д.

Логічно зв'язок тут виглядає досить ясно: що більше межі, у яких допускається можлива помилка, то з більшою ймовірністю судять про її величину.

Знаючи вибіркову середню величину ознаки
та граничну помилку вибірки
, можна визначити межі (межі), в яких укладено генеральну середню

1 . Власно-випадкова вибірка – цей спосіб орієнтований вибірку одиниць з генеральної сукупності без будь-якого розчленування частини чи групи. При цьому для дотримання основного принципу вибірки – рівної можливості всім одиницям генеральної сукупності бути відібраним – використовуються схема випадкового отримання одиниць шляхом жеребкування (лотереї) або таблиці випадкових чисел. Можливий повторний та безповторний відбір одиниць

Середня помилка власне-випадкової вибірки є середньоквадратичним відхиленням можливих значень вибіркової середньої від генеральної середньої. Середні помилки вибірки при власневипадковому методі відбору представлені в табл. 7.2.

Таблиця 7.2

Середня помилка вибірки μ

При відборі

повторному

безповторному

Для середньої

У таблиці використані такі позначення:

- Дисперсія вибіркової сукупності;

- Чисельність вибірки;

- Чисельність генеральної сукупності;

- вибіркова частка одиниць, що володіють ознакою, що вивчається;

- Число одиниць, що володіють ознакою, що вивчається;

- Чисельність вибірки.

Для збільшення точності замість множника слід брати множник
, але за великої чисельності Nрізницю між цими висловлюваннями практичного значення немає.

Гранична помилка власно-випадкової вибірки
розраховується за формулою

, (7.6)

де t - Коефіцієнт довіри залежить від значення ймовірності.

приклад.Під час обстеження ста зразків виробів, відібраних із партії у випадковому порядку, 20 виявилося нестандартними. Із ймовірністю 0,954 визначте межі, де знаходиться частка нестандартної продукції партії.

Рішення. Обчислимо генеральну частку ( Р):
.

Частка нестандартної продукції:
.

Гранична помилка вибіркової частки із ймовірністю 0,954 розраховується за формулою (7.6) із застосуванням формули табл. 7.2 для частки:

Імовірно 0,954 можна стверджувати, що частка нестандартної продукції в партії товару знаходиться в межах 12 % ≤ P≤ 28 %.

У практиці проектування вибіркового спостереження виникає потреба визначення чисельності вибірки, яка необхідна забезпечення певної точності розрахунку генеральних середніх. Гранична помилка вибірки та її ймовірність у своїй є заданими. З формули
та формул середніх помилок вибірки встановлюється необхідна чисельність вибірки. Формули визначення чисельності вибірки ( n) Залежать від способу відбору. Розрахунок чисельності вибірки для власне-випадкової вибірки наведено у табл. 7.3.

Таблиця 7.3

Передбачуваний відбір

для середньої

Повторний

Неповторний

2 . Механічна вибірка – при цьому методі виходять з обліку деяких особливостей розташування об'єктів у генеральній сукупності, їх упорядкованості (за списком, номером, алфавітом). Механічна вибірка здійснюється шляхом відбору окремих об'єктів генеральної сукупності через певний інтервал (кожен 10-й чи 20-й). Інтервал розраховується щодо , де n- Чисельність вибірки, N- Чисельність генеральної сукупності. Так, якщо з сукупності в 500 000 одиниць передбачається отримати 2% вибірку, тобто відібрати 10 000 одиниць, то пропорція відбору складе
Відбір одиниць здійснюється відповідно до встановленої пропорції через рівні інтервали. Якщо розташування об'єктів у генеральній сукупності має випадковий характер, то механічна вибірка за змістом аналогічна до випадкового відбору. При механічному відборі застосовується лише неповторна вибірка.

Середня помилка та чисельність вибірки під час механічного відбору підраховується за формулами власне-випадкової вибірки (див. табл. 7.2 та 7.3).

3 . Типова вибірка , за якої генеральна сукупність ділиться за деякими суттєвими ознаками на типові групи; відбір одиниць провадиться з типових груп. У цьому способі відбору генеральна сукупність розчленовується на однорідні у певному відношенні групи, які мають характеристики, і питання зводиться до визначення обсягу вибірок з кожної групи. Може бути рівномірна вибірка – при цьому способі з кожної типової групи відбирається однакове число одиниць
Такий підхід виправданий лише за рівності чисельності вихідних типових груп. При типовому відборі, непропорційному обсягу груп, загальна кількість одиниць, що відбираються, ділиться на число типових груп, отримана величина дає чисельність відбору з кожної типової групи.

Більш досконалою формою відбору є пропорційна вибірка . Пропорційною називається така схема формування вибіркової сукупності, коли чисельність вибірок, взятих із кожної типової групи в генеральній сукупності, пропорційна чисельностям, дисперсіям (або комбіновано і чисельностям, і дисперсіям). Умовно визначаємо чисельність вибірки в 100 одиниць та відбираємо одиниці з груп:

пропорційно до чисельності їх генеральної сукупності (Табл. 7.4). У таблиці зазначено:

N i- Чисельність типової групи;

d j- Частка ( N i/ N);

N- Чисельність генеральної сукупності;

n i- Чисельність вибірки з типової групи обчислюється:

, (7.7)

n- Чисельність вибірки з генеральної сукупності.

Таблиця 7.4

N i

d j

n i

пропорційно середньому квадратичному відхилення (Табл. 7.5).

тут  i- Середнє квадратичне відхилення типових груп;

n i - Чисельність вибірки з типової групи обчислюється за формулою

(7.8)

Таблиця 7.5

N i

n i

комбіновано (Табл. 7.6).

Чисельність вибірки обчислюється за такою формулою

. (7.9)

Таблиця 7.6

i N i

Під час проведення типової вибірки безпосередній відбір із кожної групи проводиться шляхом випадкового відбору.

Середні помилки вибірки розраховуються за формулами таблиці. 7.7 залежно від способу відбору типових груп.

Таблиця 7.7

Спосіб відбору

Повторний

Неповторний

для середньої

для частки

для середньої

для частки

Непропорційний обсягу груп

Пропорційний обсягу груп

Пропорційний коливання в групах (є найвигіднішим)

тут
- Середня з внутрішньогрупових дисперсій типових груп;

– частка одиниць, які мають досліджуваний ознакою;

– середня із внутрішньогрупових дисперсій для частки;

- Середнє квадратичне відхилення у вибірці з i-ї типової групи;

- Обсяг вибірки з типової групи;

- загальний обсяг вибірки;

- Обсяг типової групи;

- Обсяг генеральної сукупності.

Чисельність вибірки з кожної типової групи має бути пропорційна середньому квадратичному відхиленню цієї групи
.Розрахунок чисельності
провадиться за формулами, наведеними в табл. 7.8.

Таблиця 7.8

4 . Серійна вибірка – зручна у випадках, коли одиниці сукупності об'єднані в невеликі групи чи серії. При серійної вибірці генеральну сукупність поділяють однакові за обсягом групи – серії. У вибіркову сукупність відбираються серії. Сутність серійної вибірки полягає у випадковому чи механічному відборі серій, усередині яких проводиться суцільне обстеження одиниць. Середня помилка серійної вибірки з рівновеликими серіями залежить від величини міжгрупової дисперсії. Середні помилки зведені у табл. 7.9.

Таблиця 7.9

Спосіб відбору серії

для середньої

для частки

Повторний

Неповторний

Тут R- Число серій в генеральній сукупності;

r- Число відібраних серій;

- міжсерійна (міжгрупова) дисперсія середніх;

- міжсерійна (міжгрупова) дисперсія частки.

При серійному відборі необхідну чисельність серій, що відбираються визначають так само, як і при власне-випадковому методі відбору.

Розрахунок чисельності серійної вибірки проводиться у разі формулам, наведеним у табл. 7.10.

Таблиця 7.10

приклад.У механічному цеху заводу у десяти бригадах працює 100 робітників. З метою вивчення кваліфікації робітників була зроблена 20%-на серійна безповторна вибірка, до якої увійшли дві бригади. Отримано такий розподіл обстежених робітників за розрядами:

Розряди робітників у бригаді 1

Розряди робітників у бригаді 2

Розряди робітників у бригаді 1

Розряди робітників у бригаді 2

Необхідно визначити з ймовірністю 0,997 межі, у яких перебуває середній розряд робітників механічного цеху.

Рішення.Визначимо вибіркові середні за бригадами та загальну середню як середню зважену з групових середніх:

Визначимо міжсерійну дисперсію за формулами (5.25):

Розрахуємо середню помилку вибірки за такою формулою табл. 7.9:

Обчислимо граничну помилку вибірки з ймовірністю 0,997:

З ймовірністю 0,997 можна стверджувати, що середній розряд робітників механічного цеху знаходиться в межах

Середня помилка вибірки показує, наскільки в середньому відхиляється параметр вибіркової сукупності від відповідного параметра генеральної. Якщо розрахувати середню помилку всіх можливих вибірок певного виду заданого обсягу ( n), витягнутих з однієї і тієї ж генеральної сукупності, то отримаємо їх узагальнюючу характеристику - середню помилку вибірки ().

Теоретично вибіркового спостереження виведені формули визначення , які індивідуальні щодо різних способів відбору (повторного і безповторного), типів використовуваних вибірок і видів оцінюваних статистичних показників.

Наприклад, якщо застосовується повторна власне випадкова вибірка, визначається як:

При оцінюванні середнього значення ознаки;

Якщо ознака альтернативна, і оцінюється частка.

При власному випадковому відборі до формули вноситься поправка (1 - n/N):

- для середнього значення ознаки;

- Для частки.

Імовірність отримання саме такої величини помилки завжди дорівнює 0,683. Насправді ж вважають за краще отримувати дані з більшою ймовірністю, але це призводить до зростання величини помилки вибірки.

Гранична помилка вибірки () дорівнює t-кратному числу середніх помилок вибірки (теоретично вибірки прийнято коефіцієнт t називати коефіцієнтом довіри):

Якщо помилку вибірки збільшити вдвічі (t = 2), то отримаємо набагато більшу ймовірність того, що вона не перевищить певної межі (у нашому випадку – подвійної середньої помилки) – 0,954. Якщо взяти t = 3, то довірча ймовірність складе 0,997 – практично достовірність.

Рівень граничної помилки вибірки залежить від наступних факторів:

  • ступеня варіації одиниць генеральної сукупності;
  • обсягу вибірки;
  • вибраних схем відбору (безповторний відбір дає меншу величину помилки);
  • рівня довірчої ймовірності.

Якщо обсяг вибірки більше 30, то значення t визначається за таблицею нормального розподілу, якщо менше – за таблицею розподілу Стьюдента.

Наведемо деякі значення коефіцієнта довіри із таблиці нормального розподілу.

Довірчий інтервал для середнього значення ознаки та для частки в генеральній сукупності встановлюється таким чином:

Отже, визначення меж генеральної середньої та частки складається з наступних етапів:

Помилки вибірки за різних видів відбору

  1. Власне випадкова та механічна вибірка. Середня помилка власне випадкової та механічної вибірки знаходяться за формулами, наведеними в табл. 11.3.

Приклад 11.2. Для вивчення рівня фондовіддачі було проведено вибіркове обстеження 90 підприємств із 225 методом випадкової повторної вибірки, в результаті якого отримано дані, подані в таблиці.

У цьому прикладі маємо 40%-ную вибірку (90: 225 = 0,4, або 40%). Визначимо її граничну помилку та межі для середнього значення ознаки в генеральній сукупності за кроками алгоритму:

  1. За результатами вибіркового обстеження розрахуємо середнє значення та дисперсію у вибірковій сукупності:
Таблиця 11.5.
Результати спостереження Розрахункові значення
рівень фондовіддачі, руб., X i кількість підприємств, f i середина інтервалу, x i \xb4 x i \xb4 f i x i \xb4 2 f i
До 1,4 13 1,3 16,9 21,97
1,4-1,6 15 1,5 22,5 33,75
1,6-1,8 17 1,7 28,9 49,13
1,8-2,0 15 1,9 28,5 54,15
2,0-2,2 16 2,1 33,6 70,56
2,2 і вище 14 2,3 32,2 74,06
Разом 90 - 162,6 303,62

Вибіркова середня

Вибіркова дисперсія досліджуваної ознаки

Для наших даних визначимо граничну помилку вибірки, наприклад, із ймовірністю 0,954. За таблицею значень ймовірності функції нормального розподілу (див. Витримку з неї, наведену в Додатку 1) знаходимо величину коефіцієнта довіри t, що відповідає ймовірності 0,954. За ймовірності 0,954 коефіцієнт t дорівнює 2.

Таким чином, у 954 випадках із 1000 середнє значення фондовіддачі буде не вище 1,88 руб. і не нижче 1,74 руб.

Вище було використано повторну схему випадкового відбору. Подивимося, чи зміняться результати обстеження, якщо припустити, що відбір здійснювався за схемою відбору. У цьому випадку розрахунок середньої помилки проводиться за формулою

Тоді при ймовірності, що дорівнює 0,954 величина граничної помилки вибірки складе:

Довірчі межі для середнього значення ознаки при неповторному випадковому відборі матимуть такі значення:

Порівнявши результати двох схем відбору, можна дійти невтішного висновку у тому, що застосування безповторної випадкової вибірки дає більш точні результати проти застосуванням повторного відбору за однієї й тієї ж довірчої ймовірності. При цьому, що більший обсяг вибірки, то суттєвіше звужуються межі значень середньої при переході від однієї схеми відбору до іншої.

За даними прикладу визначимо, у яких межах перебуває частка підприємств із рівнем фондовіддачі, що не перевищує значення 2,0 руб., у генеральній сукупності:

  1. розрахуємо вибіркову частку.

Кількість підприємств у вибірці з рівнем фондовіддачі, що не перевищує значення 2,0 руб., Складає 60 одиниць. Тоді

m = 60, n = 90, w = m/n = 60: 90 = 0,667;

  1. розрахуємо дисперсію частки у вибірковій сукупності
  1. середня помилка вибірки при використанні повторної схеми відбору становитиме

Якщо припустити, що було використано безповторна схема відбору, то середня помилка вибірки з урахуванням поправки на кінцівку сукупності становитиме

  1. Задамо довірчу ймовірність і визначимо граничну помилку вибірки.

При значенні ймовірності Р = 0,997 за таблицею нормального розподілу отримуємо значення коефіцієнта довіри t = 3 (див. витримку з неї, наведену в Додатку 1):

Таким чином, з ймовірністю 0,997 можна стверджувати, що в генеральній сукупності частка підприємств з рівнем фондовіддачі, що не перевищує значення 2,0 руб., Не менше, ніж 54,7%, і не більше 78,7%.

  1. Типова вибірка. При типової вибірці генеральна сукупність об'єктів розбита на k груп, тоді

N 1 + N 2 + … + N i + … + N k = N.

Обсяг вилучених із кожної типової групи одиниць залежить від прийнятого способу відбору; їх загальна кількість утворює необхідний обсяг вибірки

n 1 + n 2 + … + n i + … + n k = n.

Існують такі два способи організації відбору всередині типової групи: пропорційної обсягу типових груп і пропорційного ступеня коливання значень ознаки у одиниць спостереження в групах. Розглянемо перший із них, як найчастіше використовуваний.

Відбір, пропорційний обсягу типових груп, передбачає, що з кожної буде відібрано таку кількість одиниць сукупності:

n = n i · N i / N

де n i - кількість видобутих одиниць для вибірки з i-ї типової групи;

n – загальний обсяг вибірки;

N i - кількість одиниць генеральної сукупності, що склали i-ю типову групу;

N – загальна кількість одиниць генеральної сукупності.

Відбір одиниць усередині груп відбувається як випадкової чи механічної вибірки.

Формули для оцінювання середньої помилки вибірки для середнього та частки представлені у табл. 11.6.

Тут – середня з групових дисперсій типових груп.

Приклад 11.3. В одному з московських вузів проведено вибіркове обстеження студентів з метою визначення показника середньої відвідуваності вузівської бібліотеки одним студентом за семестр. Для цього було використано 5%-ву безповторну типову вибірку, типові групи якої відповідають номеру курсу. При відборі, пропорційному обсягу типових груп, отримані такі дані:

Таблиця 11.7.
Номер курсу Усього студентів, чол., N i Обстежено внаслідок вибіркового спостереження, чол., n i Середня кількість відвідувань бібліотеки одним студентом за семестр, x i Внутрішньогрупова вибіркова дисперсія,
1 650 33 11 6
2 610 31 8 15
3 580 29 5 18
4 360 18 6 24
5 350 17 10 12
Разом 2 550 128 8 -

Число студентів, яке необхідно обстежити на кожному курсі, розрахуємо так:

аналогічно для інших груп:

n 2 = 31 (чол.);

n 3 = 29 (чол.);

Розподіл значень вибіркових середніх має нормальний закон розподілу (чи наближається щодо нього) при п > 100, незалежно від характеру розподілу генеральної сукупності. Однак у разі малих вибірок діє інший закон розподілу – розподіл Стьюдента. У цьому випадку коефіцієнт довіри знаходиться за таблицею t-розподілу Стьюдента в залежності від величини довірчої ймовірності Р та обсягу вибірки п. У Додатку 1 наводиться фрагмент таблиці t-розподілу Стьюдента, представленої у вигляді залежності довірчої ймовірності від обсягу вибірки та коефіцієнта довіри t.

Приклад 11.4. Припустимо, що вибіркове обстеження восьми студентів академії показало, що на підготовку до контрольної роботи зі статистики вони витратили таку кількість годин: 8,5; 8,0; 7,8; 9,0; 7,2; 6,2; 8,4; 6,6.

Оцінимо вибіркові середні витрати часу і побудуємо довірчий інтервал для середнього значення ознаки в генеральній сукупності, прийнявши довірчу ймовірність 0,95.

Тобто із ймовірністю 0,95 можна стверджувати, що витрати часу студента на підготовку до контрольної роботи перебувають у межах від 6,9 до 8,5 год.

11.2.2. Визначення чисельності вибіркової сукупності

Перед безпосереднім проведенням вибіркового спостереження завжди вирішується питання, скільки одиниць досліджуваної сукупності необхідно відібрати обстеження. Формули для визначення чисельності вибірки виводять із формул граничних помилок вибірки відповідно до наступних вихідних положень (табл. 11.7):

  1. вид передбачуваної вибірки;
  2. спосіб відбору (повторний чи безповторний);
  3. вибір параметра, що оцінюється (середнього значення ознаки або частки).

Крім того, слід заздалегідь визначитися зі значенням довірчої ймовірності, що влаштовує споживача інформації, та розміром припустимої граничної помилки вибірки.

Примітка: при використанні наведених у таблиці формул рекомендується одержувану чисельність вибірки округляти у велику сторону для забезпечення певного запасу точності.

Приклад 11.5. Розрахуємо, скільки з 507 промислових підприємств слід перевірити податковій інспекції, щоб із ймовірністю 0,997 визначити частку підприємств із порушеннями у сплаті податків. За даними минулого аналогічного обстеження величина середнього квадратичного відхилення становила 0,15; розмір помилки вибірки передбачається отримати вище, ніж 0,05.

У разі використання повторного випадкового відбору слід перевірити

При неповторному випадковому відборі потрібно перевірити

Як бачимо, використання безповторного відбору дозволяє проводити обстеження значно меншої кількості об'єктів.

Приклад 11.6. Планується провести обстеження заробітної плати на підприємствах галузі шляхом випадкового безповторного відбору. Якою має бути чисельність вибіркової сукупності, якщо на час обстеження галузі число зайнятих становило 100 000 чол.? Гранична помилка вибірки має перевищувати 100 крб. із ймовірністю 0,954. За результатами попередніх обстежень заробітної плати галузі відомо, що середнє квадратичне відхилення становить 500 крб.

Отже, для вирішення поставленого завдання необхідно включити у вибірку щонайменше 100 осіб.

Статистична сукупність- безліч одиниць, що мають масовість, типовість, якісну однорідність і наявність варіації.

Статистична сукупність складається з матеріально існуючих об'єктів (працівники, підприємства, країни, регіони), є об'єктом .

Одиниця сукупності- Кожна конкретна одиниця статистичної сукупності.

Одна і та ж статистична сукупність може бути однорідною за однією ознакою і неоднорідною за іншою.

Якісна однорідність- подібність всіх одиниць сукупності за якоюсь ознакою і несхожість по всіх інших.

У статистичній сукупності відмінності однієї одиниці сукупності з іншого частіше мають кількісну природу. Кількісні зміни значень ознаки різних одиниць сукупності називаються варіацією.

Варіація ознаки- Кількісне зміна ознаки (для кількісної ознаки) при переході від однієї одиниці сукупності до іншої.

Ознака- це властивість, характерна риса або інша особливість одиниць, об'єктів та явищ, яка може бути спостерігається або виміряна. Ознаки поділяються на кількісні та якісні. Різноманітність та мінливість величини ознаки в окремих одиниць сукупності називається варіацією.

Атрибутивні (якісні) ознаки не піддаються числовому виразу (склад населення за статтю). Кількісні ознаки мають числове вираження (склад населення віком).

Показник- це узагальнююча кількісно якісна характеристика будь-якої властивості одиниць або сукупності загалом у конкретних умовах часу та місця.

Система показників- Це сукупність показників всебічно відображають явище, що вивчається.

Наприклад, вивчається зарплата:
  • Ознака - оплата праці
  • Статистична сукупність – усі працівники
  • Одиниця сукупності – кожен працівник
  • Якісна однорідність - нарахована зарплата
  • Варіація ознаки – ряд цифр

Генеральна сукупність та вибірка з неї

Основу становить безліч даних, отриманих у результаті виміру однієї чи кількох ознак. Реально спостерігається сукупність об'єктів, статистично представлена ​​рядом спостережень випадкової величини вибіркою, А гіпотетично існуюча (що домислюється) - генеральною сукупністю. Генеральна сукупність може бути кінцевою (кількість спостережень N = const) або нескінченною ( N = ∞), а вибірка з генеральної сукупності - це завжди результат обмеженого ряду спостережень. Число спостережень, що утворюють вибірку, називається обсягом вибірки. Якщо обсяг вибірки досить великий ( n → ∞) вибірка вважається великий, інакше вона називається вибіркою обмеженого обсягу. Вибірка вважається малоїякщо при вимірюванні одновимірної випадкової величини обсяг вибірки не перевищує 30 ( n<= 30 ), а при вимірі одночасно декількох ( k) ознак у багатовимірному просторі відношення nдо kне перевищує 10 (n/k< 10) . Вибірка утворює варіаційний ряд, якщо її члени є порядковими статистиками, Т. е. вибіркові значення випадкової величини Хупорядковані за зростанням (ранжовані), значення ж ознаки називаються варіантами.

приклад. Практично одна й та сама випадково відібрана сукупність об'єктів - комерційних банків одного адміністративного округу Москви, може розглядатися як вибірка з генеральної сукупності всіх комерційних банків цього округу, і як вибірка з генеральної сукупності всіх комерційних банків Москви, а також як вибірка з комерційних банків країни та і т.д.

Основні способи організації вибірки

Достовірність статистичних висновків та змістовна інтерпретація результатів залежить від репрезентативностівибірки, тобто. повноти та адекватності уявлення властивостей генеральної сукупності, стосовно якої цю вибірку вважатимуться представницької. Вивчення статистичних властивостей сукупності можна організувати двома способами: за допомогою суцільногоі несплошного. Суцільне спостереженняпередбачає обстеження всіх одиницьвивчається сукупності, а несуцільне (вибіркове) спостереження- Тільки його частини.

Існують п'ять основних способів організації вибіркового спостереження:

1. простий випадковий відбір, при якому об'єкти випадково вилучаються з генеральної сукупності об'єктів (наприклад, за допомогою таблиці або датчика випадкових чисел), причому кожна з можливих вибірок мають рівну ймовірність. Такі вибірки називаються власне-випадковими;

2. простий відбір за допомогою регулярної процедуриздійснюється за допомогою механічної складової (наприклад, дати, дня тижня, номера квартири, літери алфавіту та ін.) та отримані таким способом вибірки називаються механічними;

3. стратифікованийВідбір полягає в тому, що генеральна сукупність обсягу підрозділяється на підсукупність або шари (страти) обсягу так що . Страти є однорідними об'єктами з погляду статистичних характеристик (наприклад, населення ділиться на страти по віковим групам чи соціальної власності; підприємства — по галузях). У цьому випадку вибірки називаються стратифікованим(інакше, розшарованими, типовими, районованими);

4. методи серійноговідбору використовуються для формування серійнихабо гніздових вибірок. Вони зручні у разі, якщо необхідно обстежити відразу " блок " чи серію об'єктів (наприклад, партію товару, продукцію певної серії чи населення при територіально-адміністративному розподілі країни). Відбір серій можна здійснити власно-випадковим чи механічним способом. При цьому проводиться суцільне обстеження певної партії товару або цілої територіальної одиниці (житлового будинку чи кварталу);

5. комбінований(ступінчастий) відбір може поєднувати в собі відразу кілька способів відбору (наприклад, стратифікований та випадковий або випадковий та механічний); така вибірка називається комбінованої.

Види відбору

за видурозрізняються індивідуальний, груповий та комбінований відбір. При індивідуальному відборіу вибіркову сукупність відбираються окремі одиниці генеральної сукупності, груповий відбір- якісно однорідні групи (серії) одиниць, а комбінований відбірпередбачає поєднання першого та другого видів.

за методомвідбору розрізняють повторну та безповторнувибірку.

Безповторнимназивається відбір, у якому що потрапила вибірку одиниця не повертається у вихідну сукупність й у подальшому виборі бере участь; при цьому чисельність одиниць генеральної сукупності Nскорочується у процесі відбору. При повторномувідборі потрапилау вибірку одиниця після реєстрації повертається в генеральну сукупність і таким чином зберігає рівну можливість поряд з іншими одиницями використовуватися в подальшій процедурі відбору; при цьому чисельність одиниць генеральної сукупності Nзалишається незмінною (метод у соціально-економічних дослідженнях застосовується рідко). Однак, за великого N (N → ∞)формули для безповторноговідбору наближаються до аналогічних для повторноговідбору та практично частіше використовуються останні ( N = const).

Основні характеристики параметрів генеральної та вибіркової сукупності

В основі статистичних висновків проведеного дослідження лежить розподіл випадкової величини (х 1, х 2, …, х n)називаються реалізаціями випадкової величини Х(n - Обсяг вибірки). Розподіл випадкової величини в генеральній сукупності має теоретичний, ідеальний характер, а її вибірковий аналог є емпіричнимрозподілом. Деякі теоретичні розподіли задані аналітично, тобто. їх параметривизначають значення функції розподілу у кожній точці простору можливих значень випадкової величини. Для вибірки функцію розподілу визначити важко, а іноді неможливо, тому параметриоцінюють за емпіричними даними, а потім їх підставляють в аналітичний вираз, що описує теоретичний розподіл. При цьому припущення (або гіпотеза) Про вид розподілу може бути як статистично вірним, так і хибним. Але в будь-якому випадку відновлений за вибіркою емпіричний розподіл лише грубо характеризує справжнє. Найважливішими параметрами розподілу є математичне очікуваннята дисперсія.

За своєю природою розподілу бувають безперервнимиі дискретними. Найбільш відомим безперервним розподілом є нормальне. Вибірковими аналогами параметрів і для нього є: середнє значення та емпірична дисперсія. Серед дискретних у соціально-економічних дослідженнях найчастіше застосовується альтернативне (дихотомічне)Розподіл. Параметр математичного очікування цього розподілу виражає відносну величину (чи частку) одиниць сукупності, які мають досліджувану ознаку (вона позначена буквою ); частка сукупності, що не має цієї ознаки, позначається буквою q (q = 1 - p). Дисперсія альтернативного розподілу також має емпіричний аналог .

Залежно від виду розподілу та від способу відбору одиниць сукупності по-різному обчислюються характеристики параметрів розподілу. Основні з них для теоретичного та емпіричного розподілів наведені у табл. 1.

Часткою вибірки k nназивається відношення числа одиниць вибіркової сукупності до одиниць генеральної сукупності:

k n = n/N.

Вибіркова частка w- Це відношення одиниць, що володіють ознакою, що вивчається xдо обсягу вибірки n:

w = n n /n.

приклад.У партії товару, що містить 1000 од., при 5% вибірці частка вибірки k nв абсолютній величині складає 50 од. (n = N * 0,05); якщо ж у цій вибірці виявлено 2 браковані вироби, то вибіркова частка шлюбу wстановитиме 0,04 (w = 2/50 = 0,04 або 4%).

Так як вибіркова сукупність відмінна від генеральної, то виникають помилки вибірки.

Таблиця 1. Основні параметри генеральної та вибіркової сукупностей

Помилки вибірки

При будь-якому (суцільному та вибірковому) можуть зустрітися помилки двох видів: реєстрації та репрезентативності. Помилки реєстраціїможуть мати випадковийі систематичнийхарактер. Випадковіпомилки складаються з безлічі різних неконтрольованих причин, носять ненавмисний характер і зазвичай за сукупністю врівноважують один одного (наприклад, зміни показників приладу при температурних коливаннях у приміщенні).

Систематичніпомилки тенденційні, тому що порушують правила відбору об'єктів у вибірку (наприклад, відхилення у вимірах при зміні налаштування вимірювального приладу).

приклад.Для оцінки соціального становища населення місті передбачено обстежити 25% сімей. Якщо при цьому вибір кожної четвертої квартири ґрунтується на її номері, то існує небезпека відібрати всі квартири лише одного типу (наприклад, однокімнатні), що забезпечить систематичну помилку та спотворить результати; вибір же номера квартири за жеребом кращий, оскільки помилка буде випадковою.

Помилки репрезентативностіпритаманні лише вибірковому спостереженню, їх неможливо уникнути і вони виникають внаслідок того, що вибіркова сукупність в повному обсязі відтворює генеральну. Значення показників, одержуваних за вибіркою, відрізняються від показників цих самих величин у генеральній сукупності (або одержуваних при суцільному спостереженні).

Помилка вибіркового спостереженняє різниця між значенням параметра в генеральній сукупності та її вибірковим значенням. Для середнього значення кількісної ознаки вона дорівнює: , а частки (альтернативного ознаки) — .

Помилки вибірки властиві лише вибірковим спостереженням. Чим більше ці помилки, тим більше емпіричний розподіл відрізняється від теоретичного. Параметри емпіричного розподілу і є випадковими величинами, отже, помилки вибірки також є випадковими величинами, можуть приймати різні вибірки різні значення і тому прийнято обчислювати середню помилку.

Середня помилка вибіркиє величина, що виражає середнє квадратичне відхилення вибіркової середньої від математичного очікування. Ця величина за дотримання принципу випадкового відбору залежить передусім від обсягу вибірки і зажадав від ступеня варіювання ознаки: що більше і менше варіація ознаки (отже, і значення ), тим менше величина середньої помилки вибірки . Співвідношення між дисперсіями генеральної та вибіркової сукупностей виражається формулою:

тобто. при досить великих вважатимуться, що . Середня помилка вибірки показує можливі відхилення параметра вибіркової сукупності від генерального параметра. У табл. 2 наведено вирази для обчислення середньої помилки вибірки за різних методів організації спостереження.

Таблиця 2. Середня помилка (m) вибіркових середньої та частки для різних видів вибірки

Де - середня із внутрішньогрупових вибіркових дисперсій для безперервної ознаки;

Середня із внутрішньогрупових дисперсій частки;

- Кількість відібраних серій, - Загальна кількість серій;

,

де - Середня серії;

- загальна середня по всій вибірковій сукупності для безперервної ознаки;

,

де - частка ознаки в серії;

- Загальна частка ознаки по всій вибірковій сукупності.

Однак про величину середньої помилки можна судити лише з певною ймовірністю Р (Р ≤ 1). Ляпунов О.М. довів, що розподіл вибіркових середніх , а отже, та його відхилень від генеральної середньої, за досить великому числі приблизно підпорядковується нормальному закону розподілу за умови, що генеральна сукупність має кінцевої середньої та обмеженої дисперсією.

Математично це твердження для середньої виражається у вигляді:

а для частки вираз (1) набуде вигляду:

де - є гранична помилка вибіркияка кратна величині середньої помилки вибірки , а коефіцієнт кратності - є критерій Стьюдента ("коефіцієнт довіри"), запропонований У.С. Держсетом (псевдонім "Student"); значення для різного обсягу вибірки зберігаються у спеціальній таблиці.

Значення функції Ф(t) при деяких значеннях t дорівнюють:

Отже, вираз (3) може бути прочитаний так: з ймовірністю Р = 0,683 (68,3%)можна стверджувати, що різниця між вибірковою та генеральною середньою не перевищить однієї величини середньої помилки m (t = 1)з ймовірністю Р = 0,954 (95,4%)що вона не перевищить величини двох середніх помилок m (t = 2) ,з ймовірністю Р = 0,997 (99,7%)- не перевищить трьох значень m (t = 3).Таким чином, ймовірність того, що ця різниця перевищить триразову величину середньої помилки, визначає рівень помилкиі становить не більше 0,3% .

У табл. 3 наведено формули для обчислення граничної помилки вибірки.

Таблиця 3. Гранична помилка (D) вибірки для середньої та частки (р) для різних видів вибіркового спостереження

Поширення вибіркових результатів на генеральну сукупність

Кінцевою метою вибіркового спостереження є характеристика генеральної сукупності. При малих обсягах вибірки емпіричні оцінки параметрів (і) можуть суттєво відхилятися від їх справжніх значень (і). Тому виникає необхідність встановити межі, у яких для вибіркових значень параметрів ( і ) лежать справжні значення ( і ).

Довірчим інтерваломбудь-якого параметра θгенеральної сукупності називається випадкова область значень цього параметра, яка з ймовірністю близькою до 1 ( надійністю) містить справжнє значення цього параметра.

Гранична помилкавибірки Δ дозволяє визначити граничні значення характеристик генеральної сукупності та їх довірчі інтервали, які рівні:

Нижня границя довірчого інтервалуотримана шляхом віднімання граничної помилкиз вибіркового середнього (частки), а верхня – шляхом її додавання.

Довірчий інтервалдля середньої використовує граничну помилку вибірки та для заданого рівня достовірності визначається за формулою:

Це означає, що із заданою ймовірністю Ряка називається довірчим рівнем і однозначно визначається значенням t, можна стверджувати, що справжнє значення середньої лежить у межах від а справжнє значення частки - в межах від

Під час розрахунку довірчого інтервалу для трьох стандартних довірчих рівнів Р = 95%, Р = 99% та Р = 99,9%значення вибирається за . Програми в залежності від числа ступенів свободи. Якщо обсяг вибірки досить великий, то відповідні цим імовірностям значення tрівні: 1,96, 2,58 і 3,29 . Таким чином, гранична помилка вибірки дозволяє визначити граничні значення характеристик генеральної сукупності та їх довірчі інтервали:

Поширення результатів вибіркового спостереження на генеральну сукупність у соціально-економічних дослідженнях має свої особливості, оскільки потребує повноти представництва всіх її типів та груп. Основою для можливості такого розповсюдження є розрахунок відносної помилки:

де Δ % - відносна гранична помилка вибірки; , .

Існують два основні методи поширення вибіркового спостереження на генеральну сукупність: прямий перерахунок та спосіб коефіцієнтів.

Сутність прямого перерахункуполягає у множенні вибіркового середнього значення!! \ overline (x) на обсяг генеральної сукупності .

приклад. Нехай середня кількість дітей ясельного віку в місті оцінена вибірковим методом і склала людину. Якщо місті 1000 молодих сімей, кількість необхідних місць у муніципальних дитячих яслах отримують множенням цієї середньої чисельність генеральної сукупності N = 1000, тобто. становитиме 1200 місць.

Спосіб коефіцієнтівдоцільно використовувати у разі, коли вибіркове спостереження проводиться з метою уточнення даних суцільного спостереження.

При цьому використовують формулу:

де всі змінні - це чисельність сукупності:

Необхідний обсяг вибірки

Таблиця 4. Необхідний обсяг (n) вибірки для різних видів організації вибіркового спостереження

При плануванні вибіркового спостереження із заздалегідь заданим значенням припустимої помилки вибірки необхідно правильно оцінити необхідний обсяг вибірки. Цей обсяг може бути визначений на основі припустимої помилки при вибірковому спостереженні, виходячи із заданої ймовірності, що гарантує допустиму величину рівня помилки (з урахуванням способу організації спостереження). Формули визначення необхідної чисельності вибірки n легко отримати безпосередньо з формул граничної помилки вибірки. Так, з висловлювання для граничної помилки:

безпосередньо визначається обсяг вибірки n:

Ця формула показує, що зі зменшенням граничної помилки вибірки Δ істотно збільшується необхідний обсяг вибірки, який пропорційний дисперсії та квадрату критерію Стьюдента.

Для конкретного способу організації спостереження необхідний обсяг вибірки обчислюється згідно з формулами, наведеними в таблиці. 9.4.

Практичні приклади розрахунку

Приклад 1. Обчислення середнього значення та довірчого інтервалу для безперервної кількісної ознаки.

Для оцінки швидкості розрахунку з кредиторами у банку проведено випадкову вибірку 10 платіжних документів. Їх значення виявилися рівними (у днях): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.

Необхідно з ймовірністю Р = 0,954визначити граничну помилку Δ вибіркової середньої та довірчі межі середнього часу розрахунків.

Рішення.Середнє значення обчислюється за такою формулою з табл. 9.1 для вибіркової сукупності

Дисперсія обчислюється за такою формулою з табл. 9.1.

Середня квадратична похибка дня.

Помилка середньої обчислюється за такою формулою:

тобто. середнє значення дорівнює x ± m = 12,0 ± 2,3 дні.

Достовірність середнього склала

Граничну помилку обчислимо за такою формулою з табл. 9.3 для повторного відбору, оскільки чисельність генеральної сукупності невідома, та Р = 0,954рівня достовірності.

Таким чином, середнє значення дорівнює x ± D = x ± 2m = 12,0 ± 4,6, тобто. його справжнє значення лежить у межах від 7,4 до 16,6 днів.

Використання таблиці Стьюдента. Додатки дозволяє зробити висновок, що з n = 10 — 1 = 9 ступенів свободи отримане значення достовірно з рівнем значимості a £ 0,001, тобто. отримане значення середнього вірогідно відрізняється від 0.

Приклад 2. Оцінка ймовірності (генеральної частки) нар.

При механічному вибірковому способі обстеження соціального стану 1000 сімей виявлено, що частка малозабезпечених сімей склала w = 0,3 (30%)(вибірка була 2% , тобто. n/N = 0,02). Необхідно з рівнем достовірності р = 0,997визначити показник рмалозабезпечених сімей у всьому регіоні.

Рішення.За представленими значеннями функції Ф(t)знайдемо для заданого рівня достовірності Р = 0,997значення t = 3(Див. формулу 3). Граничну помилку частки wвизначимо за формулою із табл. 9.3 для безповторного відбору (механічна вибірка завжди є безповторною):

Гранична відносна помилка вибірки в % складе:

Імовірність (генеральна частка) малозабезпечених сімей у регіоні становитиме р=w±Δw, а довірчі межі р обчислюються виходячи з подвійної нерівності:

w - Δ w ≤ p ≤ w - Δ w, тобто. справжнє значення р лежить у межах:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Таким чином, із ймовірністю 0,997 можна стверджувати, що частка малозабезпечених сімей серед усіх сімей регіону становить від 28,6% до 31,4%.

приклад 3.Обчислення середнього значення та довірчого інтервалу для дискретної ознаки, заданої інтервальним рядом.

У табл. 5. задано розподіл заявок виготовлення замовлень за термінами їх виконання предприятием.

Таблиця 5. Розподіл спостережень щодо термінів появи

Рішення. Середній термін виконання заявок обчислюється за такою формулою:

Середній термін складе:

= (3 * 20 + 9 * 80 + 24 * 60 + 48 * 20 + 72 * 20) / 200 = 23,1 міс.

Та ж відповідь отримаємо, якщо використовуємо дані про р i з передостанньої колонки табл. 9.5, використовуючи формулу:

Зауважимо, що середина інтервалу для останньої градації знаходиться шляхом її штучного доповнення шириною інтервалу попередньої градації, що дорівнює 60 - 36 = 24 міс.

Дисперсія обчислюється за формулою

де х i- Середина інтервального ряду.

Отже!!\sigma = \frac (20 2 + 14 2 + 1 + 25 2 + 49 2) (4), а середня квадратична похибка .

Помилка середньої обчислюється за такою формулою міс., тобто. середнє значення дорівнює!! \ overline (x) ± m = 23,1 ± 13,4.

Граничну помилку обчислимо за такою формулою з табл. 9.3 для повторного відбору, оскільки чисельність генеральної сукупності невідома, для 0,954 рівня достовірності:

Таким чином, середнє значення дорівнює:

тобто. його справжнє значення лежить у межах від 0 до 50 місяців.

приклад 4.Для визначення швидкості розрахунків із кредиторами N = 500 підприємств корпорації у комерційному банку необхідно провести вибіркове дослідження методом випадкового безповторного відбору. Визначити необхідний обсяг вибірки n, щоб із ймовірністю Р = 0,954 помилка середнього значення вибірки не перевищувала 3-х днів, якщо пробні оцінки показали, що середнє відхилення квадратне s склало 10 днів.

Рішення. Для визначення кількості необхідних досліджень n скористаємося формулою для відбору безповторного з табл. 9.4:

У ній значення t визначається з рівня достовірності Р = 0,954. Воно дорівнює 2. Середнє квадратичне значення s = 10, обсяг генеральної сукупності N = 500, а гранична помилка середнього значення Δ x = 3. Підставляючи ці значення формулу, отримаємо:

тобто. вибірку достатньо скласти із 41 підприємства, щоб оцінити необхідний параметр — швидкість розрахунків із кредиторами.

Для характеристики надійності вибіркових показників розрізняють середню та граничну помилки вибірки, які властиві лише вибірковим спостереженням. Дані показники відображають різницю між вибірковими та відповідними генеральними показниками.

Середня помилка збіркивизначається насамперед обсягом вибірки та залежить від структури та ступеня варіювання досліджуваної ознаки.

Сенс середньої помилки вибірки ось у чому. Розраховані значення вибіркової частки (w) та вибіркової середньої () за своєю природою випадкові величини. Вони можуть набувати різних значень залежно від того, які конкретні одиниці генеральної сукупності потраплять у вибірку. Наприклад, якщо при визначенні середнього віку працівників підприємства в одну вибірку включити більше молоді, а в іншу - працівників старшого віку, то середні вибіркові та помилки вибірки будуть різними. Середня помилка вибіркивизначається за формулою:

(27) або – повторна вибірка. (28)

Де: μ – середня помилка вибірки;

σ – середнє квадратичне відхилення ознаки у генеральній сукупності;

n – обсяг вибірки.

Величина помилки μ показує, наскільки середнє значення ознаки, встановлене на вибірці, відрізняється від справжнього значення ознаки в генеральній сукупності.

З формули випливає, що помилка вибірки прямо пропорційна середньому квадратичному відхилення і обернено пропорційна кореню квадратному з одиниць, що потрапили у вибірку. Це означає, наприклад, що більше розкид значень ознаки у генеральній сукупності, тобто чим більше дисперсія, то більше має бути обсяг вибірки, якщо ми хочемо довіряти результатам вибіркового обстеження. І, навпаки, за малої дисперсії можна обмежитися невеликим числом вибіркової сукупності. Помилка вибірки буде перебувати в прийнятних межах.

Оскільки при безповторному відборі чисельність генеральної сукупності N під час вибірки скорочується, то формулу для розрахунку середньої помилки вибірки включають додатковий множник

(1-). Формула середньої помилки вибірки набуває наступного вигляду:

Середня помилка менша у безповторної вибірки, як і зумовлює її ширше застосування.

Для практичних висновків потрібна характеристика генеральної сукупності з урахуванням вибіркових результатів. Вибіркові середні та частки поширюються на генеральну сукупність з урахуванням межі їх можливої ​​помилки, причому з рівнем ймовірності, що її гарантує. Задавшись конкретним рівнем ймовірності, вибирають величину нормованого відхилення та визначають граничну помилку вибірки.

Надійністю (довірчою ймовірністю) оцінки Х за Х*називають ймовірність γ , з якою здійснюється нерівність


׀Х-Х*׀< δ, (30)

де - гранична помилка вибірки, що характеризує ширину інтервалу, в якому з ймовірністю γ знаходиться значення досліджуваного параметра генеральної сукупності.

Довірчимназивають інтервал (Х * - δ; Х * + δ), який покриває досліджуваний параметр Х (тобто значення параметра Х знаходиться всередині цього інтервалу) із заданою надійністю γ.

Зазвичай надійність оцінки задається наперед, причому як беруть число, близьке до одиниці: 0,95; 0,99 чи 0,999.

Гранична помилка пов'язана із середньою помилкою μ наступним співвідношенням: , (31)

де: t - Коефіцієнт довіри, що залежить від ймовірності P, з якої можна стверджувати, що гранична помилка δ не перевищить t-кратну середню помилку μ (його ще називають критичними точками або квантилами розподілу Стьюдента).

Як випливає із співвідношення , гранична помилка прямо пропорційна середній помилці вибірки та коефіцієнту довіри, що залежить від заданого рівня надійності оцінки.

З формули середньої помилки вибірки та співвідношення граничної та середньої помилок отримуємо:

З урахуванням довірчої ймовірності ця формула набуде вигляду.

Помилки систематичні та випадкові

Модульна одиниця 2 Помилки вибірки

Оскільки вибірка охоплює, зазвичай, дуже незначну частину генеральної сукупності, слід припускати, що матимуть місце різницю між оцінкою і характеристикою генеральної сукупності, яку ця оцінка відображає. Ці відмінності одержали назву помилок відображення або помилок репрезентативності. Помилки репрезентативності поділяються на два типи: систематичні та випадкові.

Систематичні помилки- це постійне завищення чи заниження значення оцінки проти характеристикою генеральної сукупності. Причиною появи систематичної помилки є недотримання принципу рівноймовірності попадання кожної одиниці генеральної сукупності у вибірку, тобто вибірка формується з переважно «найгірших» (чи «найкращих») представників генеральної сукупності. Дотримання принципу рівноможливості влучення кожної одиниці у вибірку дозволяє повністю виключити цей тип помилок.

Випадкові помилки –це мінливі від вибірки до вибірці за знаком і величиною різницю між оцінкою і оцінюваної характеристикою генеральної сукупності. Причина виникнення випадкових помилок-гра випадку при формуванні вибірки, що становить лише частину генеральної сукупності. Цей тип помилок органічно притаманний вибірковому методу. Виключити їх повністю не можна, завдання полягає в тому, щоб передбачити їхню можливу величину і звести їх до мінімуму. Порядок пов'язаних з цим дій випливає з розгляду трьох видів випадкових помилок: конкретної, середньої та граничної.

2.2.1 Конкретнапомилка – це помилка однієї проведеної вибірки. Якщо середня за цією вибіркою () є оцінкою для генеральної середньої (0) і якщо припустити, що ця генеральна середня нам відома, то різниця = -0 і буде конкретною помилкою цієї вибірки. Якщо з цієї генеральної сукупності вибірку повторимо багаторазово, то щоразу отримаємо нову величину конкретної помилки: …, і таке інше. Щодо цих конкретних помилок можна сказати таке: деякі з них збігатимуться між собою за величиною та знаком, тобто має місце розподіл помилок, частина з них дорівнюватиме 0, спостерігається збіг оцінки та параметра генеральної сукупності;

2.2.2 Середня помилка– це середня квадратична з усіх можливих волею випадку конкретних помилок оцінки: , де - величина мінливих конкретних помилок; частота (ймовірність) народження тієї чи іншої конкретної помилки. Середня помилка вибірки показує, наскільки в середньому можна помилитися, якщо на основі оцінки робиться судження про параметр генеральної сукупності. Наведена формула розкриває зміст середньої помилки, але не може бути використана для практичних розрахунків, хоча б тому, що передбачає знання параметра генеральної сукупності, що саме виключає необхідність вибірки.



Практичні розрахунки середньої помилки оцінки ґрунтуються на тій передумові, що вона (середня помилка) насправді є середнім квадратичним відхиленням всіх можливих значень оцінки. Ця передумова дозволяє отримати алгоритми розрахунку середньої помилки, що спираються на дані єдиної вибірки. Зокрема середня помилка вибіркової середньої може бути встановлена ​​на основі таких міркувань. Є вибірка (,… ) що складається з одиниць. За вибіркою як оцінка генеральної середньої визначено вибіркову середню . Кожне значення(,… ) , що стоїть під знаком суми, слід як незалежну випадкову величину, оскільки за нескінченному повторенні вибірки перша, друга тощо. одиниці можуть набувати будь-яких значень із присутніх у генеральній сукупності. Отже, оскільки, як відомо, дисперсія суми незалежних випадкових величин дорівнює сумі дисперсій, то . Звідси випливає, що середня помилка для вибіркової середньої буде рівна і перебуває вона у зворотній залежності від чисельності вибірки (через корінь квадратний з неї) і прямо від середнього квадратичного відхилення ознаки в генеральній сукупності. Це логічно, оскільки вибіркова середня є заможною оцінкою для генеральної середньої і в міру збільшення чисельності вибірки наближається за своїм значенням до параметра генеральної сукупності, що оцінюється. Пряма залежність середньої помилки від коливання ознаки обумовлена ​​тим, що чим більша мінливість ознаки в генеральній сукупності, тим складніше на основі вибірки побудувати адекватну модель генеральної сукупності. На практиці середнє квадратичне відхилення ознаки по генеральній сукупності замінюється його оцінкою за вибіркою, і тоді формула для розрахунку середньої помилки вибіркової середньої набуває вигляду:, при цьому враховуючи зміщення вибіркової дисперсії , вибіркове середнє квадратичне відхилення розраховується за формулою = . Оскільки символом n позначено чисельність вибірки. в знаменнику при розрахунку середнього квадратичного відхилення повинна використовуватися не чисельність вибірки (n), а так зване число ступенів свободи (n-1). Під числом ступенів свободи розуміється кількість одиниць у сукупності, які можуть вільно варіювати (змінюватися), якщо за сукупністю визначено будь-яку характеристику. У нашому випадку, оскільки за вибіркою визначено її середню, вільно варіювати можуть одиниці.

У таблиці 2.2 наведено формули до розрахунку середніх помилок різних вибіркових оцінок. Як видно з цієї таблиці, величина середньої помилки за всіма оцінками перебуває у зворотному зв'язку з чисельністю вибірки та у прямій з коливанням. Це можна сказати і щодо середньої помилки вибіркової частки (частини). Під коренем стоїть дисперсія альтернативної ознаки, встановлена ​​на вибірці ()

Наведені в таблиці 2.2 формули відносяться до так званого випадкового повторного відбору одиниць у вибірку. За інших способів відбору, про які йтиметься нижче, формули дещо змінюватимуться.

Таблиця 2.2

Формули для розрахунку середніх помилок вибіркових оцінок

2.2.3 Гранична помилка вибіркиЗнання оцінки та її середньої помилки часом цілком недостатньо. Наприклад, при використанні гормонів при годівлі тварин знати тільки середній розмір шкідливих залишків, що не розклалися, і середню помилку, значить наражати споживачів продукції на серйозну небезпеку. Тут настійно напрошується необхідність визначення максимальної ( граничної помилки). При використанні вибіркового методу гранична помилка встановлюється не у вигляді конкретної величини, а у вигляді рівних меж

(інтервалів) у той та інший бік від значення оцінки.

Визначення меж граничної помилки ґрунтується на особливостях розподілу конкретних помилок. Для про великих вибірок, чисельність яких понад 30 одиниць () , конкретні помилки розподіляються відповідно до нормальним законом розподілу; при малих вибірках () конкретні помилки розподіляються відповідно до закону розподілу Держсету

(Стьюдента). Що стосується конкретних помилок вибіркової середньої функція нормального розподілу має вигляд: , де - щільність ймовірності появи тих чи інших значень, за умови, що , де вибіркові середні; - генеральна середня, - середня помилка для вибіркової середньої. Оскільки середня помилка () є величиною постійною, то відповідно до нормального закону розподіляються конкретні помилки, виражені в частках середньої помилки, або так званих нормованих відхилень.

Взявши інтеграл функції нормального розподілу, можна встановити ймовірність того, що помилка буде укладена в деякому інтервалі зміни t і ймовірність того, що помилка вийде за межі цього інтервалу (зворотна подія). Наприклад, ймовірність того, що помилка не перевищить половину середньої помилки (у той і інший бік від генеральної середньої) становить 0,3829, що помилка буде укладена в межах однієї середньої помилки - 0,6827, 2-х середніх помилок -0,9545 і так далі.

Взаємозв'язок між рівнем ймовірності та інтервалом зміни t (а в кінцевому рахунку інтервалом зміни помилки) дозволяє підійти до визначення інтервалу (або меж) граничної помилки, ув'язавши його величину з ймовірністю здійснення. інтервалі. Імовірність здійснення буде «довірчою» у тому випадку, якщо протилежна подія (помилка буде поза інтервалом) має таку ймовірність появи, якої можна знехтувати. Тому довірчий рівень ймовірності встановлюють, як правило, не нижче 0,90 (імовірність протилежної події дорівнює 0,10). Чим більше негативних наслідків має поява помилок поза встановленим інтервалом, тим вище має бути довірчий рівень ймовірності (0,95; 0,99; 0,999 і так далі).

Вибравши довірчий рівень ймовірності за таблицею інтеграла ймовірності нормального розподілу, слід знайти відповідне значення t, а потім використовуючи вираз = визначити інтервал граничної помилки . Сенс отриманої величини в наступному - з прийнятим довірчим рівнем ймовірності гранична помилка вибіркової середньої не перевищить величину.

Для встановлення меж граничної помилки на основі великих вибірок для інших оцінок (дисперсії, середнього квадратичного відхилення, частки і так далі) використовується вище розглянутий підхід з урахуванням того, що для визначення середньої помилки кожної оцінки використовується свій алгоритм.

Що ж до малих вибірок () те, як говорилося, розподіл помилок оцінок відповідає у разі розподілу t - Стьюдента. Особливість цього розподілу полягає в тому, що в якості параметра в ньому, поряд з помилкою, присутня чисельність вибірки, вірніше не чисельність вибірки, а число ступенів свободи. Зіставляючи значення величини t-Стьюдента і t - нормального розподілу при одній і тій же довірчій ймовірності можна сказати, що величина t-Стьюдента завжди більша за t - нормального розподілу, причому, відмінності зростають зі зменшенням чисельності вибірки та підвищенням довірчого рівня ймовірності. Отже, при використанні малих вибірок мають місце порівняно з вибірками більшими, ширші межі граничної помилки, причому ці межі розширюються зі зменшенням чисельності вибірки та підвищенням довірчого рівня ймовірності.