Биографии Характеристики Анализ

Как обозначается средняя ошибка выборки. Определение численности выборки

Понятие о выборочном наблюдении.

При статистическом методе наблюдения возможно применение двух методов наблюдения: сплошного, охватывающего все единицы совокупности, и выборочного (несплошного).

Под выборочным понимается метод исследования, связанный с установлением обобщающих показателей совокупности по некоторой ее части на основе метода случайного отбора.

При выборочном наблюдении обследованию подвергается сравнительно небольшая часть всей совокупности (5-10%).

Вся совокупность, подлежащая обследованию, называется генеральной совокупностью .

Отобранная из генеральной совокупности часть единиц, подвергающаяся обследованию, называется выборочной совокупностью или выборкой.

Показатели, характеризующие генеральную и выборочную совокупность:

1) Доля альтернативного признака;

В генеральной совокупности доля единиц, обладающих каким-либо альтернативным признаком, обозначается буквой «Р».

В выборочной совокупности доля единиц, обладающих каким-либо альтернативным признаком, обозначается буквой «w».

2) Средний размер признака;

В генеральной совокупности средний размер признака обозначается буквой (генеральная средняя).

В выборочной совокупности средний размер признака обозначается буквой (выборочная средняя).

Определение ошибки выборки.

Выборочное наблюдение основано на принципе равной возможности попадания единиц генеральной совокупности в выборочную. Это позволяет избежать систематических ошибок наблюдения. Однако, в связи с тем, что исследуемая совокупность состоит из единиц с варьирующими признаками, состав выборки может отличаться от состава генеральной совокупности, вызывая расхождения между генеральными и выборочными характеристиками.

Такие расхождения называются ошибками репрезентативности или ошибками выборки.

Определение ошибки выборки – основная задача, решаемая при выборочном наблюдении.

В математической статистике доказывается, что средняя ошибка выборки определяется по формуле:

Где m - ошибка выборки;

s 2 0 – дисперсия генеральной совокупности;

n – количество единиц выборочной совокупности.

На практике для определения средней ошибки выборки используется дисперсия выборочной совокупности s 2 .

Между генеральной и выборочной дисперсиями существует равенство:

(2).

Из формулы (2) видно, что генеральная дисперсия больше выборочной на величину (). Однако при достаточно большой величине выборки это соотношение близко к единице, поэтому можно записать, что

Однако такая формула для определения средней ошибки выборки применяется только при повторном отборе.

На практике обычно применяется бесповторный отбор и средняя ошибка выборки рассчитывается несколько иначе, так как численность выборки в ходе исследования сокращается:

(4)

где n – численность выборочной совокупности;

N – численность генеральной совокупности;

s 2 - выборочная дисперсия.

Для доли альтернативного признака средняя ошибка выборки при бесповторном отборе определяется по формуле:

(5), где

w (1-w) - средняя ошибка выборочной доли альтернативного признака;

w – доля альтернативного признака выборочной совокупности.

При повторном отборе средняя ошибка доли альтернативного признака определяется по упрощенной формуле:

(6)

Если численность выборки не превышает 5%, средняя ошибка выборочной доли и выборочной средней определяется по упрощенным формулам (3) и (6).

Определение средней ошибки выборочной средней и выборочной доли необходимо для установления возможных значений генеральной средней (х) и генеральной доли (Р) на основе выборочной средней (х) и выборочной доли (w).

Одно из возможных значений, в пределах которого находится генеральная средняя, определяется по формуле:

Для генеральной доли этот интервал можно записать в виде:

(8)

Полученные таким образом характеристики доли и средней в генеральной совокупности отличаются от величины выборочной доли и выборочной средней на величину m. Однако гарантировать это можно не с полной уверенностью, а лишь с определенной степенью вероятности.

В математической статистике доказывается, что пределы значений характеристик генеральной и выборочной средней отличаются на величину m лишь с вероятностью 0,683. Следовательно, только в 683 случаях из 1000 генеральная средняя находится в пределах х= х m х, в остальных случаях она выйдет за эти пределы.

Вероятность суждений можно повысить, если расширить пределы отклонений, приняв в качестве меры среднюю ошибку выборки, увеличенную в t раз.

Множитель t называют коэффициентом доверия. Он определяется в зависимости от того, с какой доверительной вероятностью надо гарантировать результаты исследования.

Математик А.М.Ляпушев рассчитал различные значения t , которые обычно приводятся в готовых таблицах.

Основное преимущество выборочного наблюдения среди прочих других - возможность рассчитать случайную ошибку выборки.

Ошибки выборки бывают систематические и случайные.

Систематические - в том случае, когда нарушен основной принцип выборки - случайности. Случайные - возникают обычно ввиду того, что структура выборочной совокупности все­гда отличается от структуры генеральной совокупности, как бы правильно ни был произведен отбор, то есть, несмотря на принцип случайности отбора единиц совокупности, все же имеются расхо­ждения между характеристиками выборочной и генеральной сово­купности. Изучение и измерение случайных ошибок репрезента­тивности и является основной задачей выборочного метода.

Как правило, чаще всего рассчитывают ошибку средней и ошиб­ку доли. При расчетах используются следующие условные обо­значения:

Средняя, рассчитанная в пределах генеральной совокупности;

Средняя, рассчитанная в пределах выборочной совокупно­сти;

р - доля данной группы в генеральной совокупности;

w - доля данной группы в выборочной совокупности.

Используя условные обозначения, ошибки выборки для средней и для доли можно записать следующим образом:

Выборочная средняя и выборочная доля являются случайными величинами, которые могут принимать любые значения в зависимости от того, какие единицы совокупности попали в выборку. Следовательно, ошибки выборки также являются случайными величинами и могут принимать различные значения. Поэтому определяют среднюю из возможных ошибок μ.

В отличие от систематической, случайную ошибку можно опре­делить заранее, до проведения выборки, согласно предельных теорем, рассматриваемых в математической статистике.

Средняя ошибка определяется с вероятностью 0,683. В случае другой вероятности говорят о предельной ошибке.

Средняя ошибка выборки для средней и для доли определяется следующим образом:


В этих формулах дисперсия признака является характеристикой генеральной совокупности, которые при выборочном наблюдении неизвестны. На практике их заменяют аналогичными xapaктеристиками выборочной совокупности на основании закона больших чисел, по которому выборочная совокупность большом объеме точно воспроизводит характеристики генеральной совокупности.

Формулы определения средней ошибки для различных способ отбора:

Способ отбора Повторный Бесповторный
ошибка средней ошибка доли ошибка средней ошибка доли
Собственно-случайный и механиче­ский
Типический
Серийный

μ - средняя ошибка;

∆ - предельная ошибка;

п - численность выборки;

N - численность генеральной совокупности;

Общая дисперсия;

w - доля данной категории в общей численности выборки:

Средняя из внутригрупповых дисперсии;

Δ 2 - межгрупповая дисперсия;

r - число серий в выборке;

R - общее число серий.


Предельная ошибка для всех способов отбора связана со сред­ней ошибкой выборки следующим образом:

где t - коэффициент доверия, функционально связанный с веро­ятностью, с которой обеспечивается величина предельной ошиб­ки. В зависимости от вероятности коэффициент доверия t принимает следующие значения:

t P
0,683
1,5 0,866
2,0 0,954
2,5 0,988
3,0 0,997
4,0 0,9999

Например, вероятность ошибки равна 0,683. Это значит, что генеральная средняя отличается от выборочной средней по абсолютной величине не более чем на величину μ с вероятностью 0,683, то если - выборочная средняя, - генеральная средняя, то с вероятностью 0,683.

Если мы хотим обеспечить большую вероятность выводов, тем самым мы увеличиваем границы случайной ошибки.

Таким образом, величина предельной ошибки зависит от сле­дующих величин:

Колеблемости признака (прямая связь), которую характеризует величина дисперсии;

Численности выборки (обратная связь);

Доверительной вероятности (прямая связь);

Метода отбора.

Пример расчета ошибки средней и ошибки доли.

Для определения среднего числа детей в семье методом случайной бесповторной выборки из 1000 семей отобраны 100. Результаты приведены в таблице:

Определите: .

- с вероятностью 0,997 предельную ошибку выборки и границы, в которых находится средне число детей в семье;

- с вероятностью 0,954 границы, в которых находится удельный вес семей с двумя детьми.

1. Определим предельную ошибку средней с вероятностью 0,977. Для упрощения расчетов воспользуемся способом моментов:

p = 0,997 t = 3

средняя ошибка средней, 0,116 - предельная ошибка

2,12 – 0,116 ≤ ≤ 2,12+ 0,116

2,004 ≤ ≤ 2,236

Следовательно, с вероятностью 0,997 среднее число детей в семье в генеральной совокупности, то есть среди 1000 семей, находится в интервале 2,004 - 2,236.

Предельная ошибка — максимально возможное расхождение средних или максимум ошибок при заданной вероятности ее появления.

1. Предельную ошибку выборки для средней при повторном отборе в рассчитывают по формуле:

где t - нормированное отклонение - «коэффициент доверия», который зависит от вероятности, гарантирующей предельную ошибку выборки;

мю х - средняя ошибка выборки.

2. Предельная ошибка выборки для доли при повторном отборе определяется по формуле:

3. Предельная ошибка выборки для средней при бесповторном отборе:

Предельную относительную ошибку выборки определяют как процентное соотношение предельной ошибки выборки к соответствующей характеристике выборочной совокупности. Она определяется таким образом:

Малая выборка

Теория малых выборок была разработана английским статистиком Стьюдентом в начале 20 века. В 1908 г. он выявил специальное распределение, которое позволяет и при малых выборках соотносить t и доверительную вероятность F(t). При n больше 100 дают такие же результаты, что и таблицы интеграла вероятностей Лапласа, при 30 < n < 100 различия получаются незначительные. Поэтому на практике к малым выборкам относятся выборки объемом менее 30 единиц.

Предельная ошибка выборки равна t-кратному числу средних ошибок выборки:

μ – средняя ошибка выборки, рассчитанная с учетом поправки, на которую производится корректировка в случае бесповторного отбора ;

t – коэффициент доверия, который находят при заданном уровне вероятности. Так для Р=0,997 по таблице значений интегральной функции Лапласа t=3

Величина предельной ошибки выборки может быть установлена с определенной вероятностью . Вероятность появления такой ошибки, равной или больше утроенной средней ошибки выборки, крайне мала и равна 0,003 (1–0,997). Такие маловероятные события считаются практически невозможными, а потому вероятность того, что эта разность превысит трехкратную величину средней ошибки, определяет уровень ошибки и составляет не более 0,3% .

Определение предельной ошибки выборки для доли

Условие:

Из готовой продукции, в порядке собственно-случайного бесповторного отбора , было отобрано 200 ц, из которых 8 ц оказалось испорчено. Можно ли полагать с вероятностью 0,954, что потери продукции не превысят 5%, если выборка составляет 1:20 часть ее размера?

Дано :

  • n =200ц – объем выборки (выборочная совокупность)
  • m =8ц - кол-во испорченной продукции
  • n:N = 1:20 – пропорция отбора, где N- объем совокупности (генеральная совокупность)
  • Р = 0,954 – вероятность

Определить : ∆ ω < 5% (согласуется ли то, что потери продукции не превысят 5%)

Решение:

1. Определим выборочную долю-такую долю составляет испорченная продукция в выборочной совокупности:

2. Определим объем генеральной совокупности:

N=n*20=200*20=4000(ц) – количество всей продукции.

3. Определим предельную ошибку выборки для доли продукции, обладающей соответствующим признаком, т.е. для доли испорченной продукции: Δ = t*μ , где µ — средняя ошибка доли, обладающей альтернативным признаком, с учетом поправки, на которую производится корректировка в случае бесповторного отбора; t – коэффициент доверия, который находят при заданном уровне вероятности Р=0,954 по таблице значений интегральной функции Лапласа : t=2

4. Определим границы доверительного интервала для доли альтернативного признака в генеральной совокупности, т.е. какую долю испорченная продукция составит в общем объеме: поскольку доля испорченной продукции в выборочном объеме составляет ω = 0,04, то с учетом предельной ошибки ∆ ω = 0,027 генеральная доля альтернативного признака (p) примет значения:

ω-∆ ω < p < ω+∆ ω

0.04-0.027< p < 0.04+0.027

0.013 < p < 0.067

Вывод: с вероятностью Р=0,954 можно утверждать, что доля испорченной продукции при выборке большего объема не выйдет за пределы найденного интервала (не менее 1,3% и не более 6,7%). Но остается вероятность того, что доля испорченной продукции может превысить 5% в пределах до 6,7%, что, в свою очередь, не согласуется с утверждением ∆ ω < 5%.

*******

Условие:

Менеджер магазина по опыту знает, что 25% входящих в магазин покупателей, совершают покупки. Предположим, что в магазин вошло 200 покупателей.

Определить:

  1. долю покупателей, совершивших покупки
  2. дисперсию выборочной доли
  3. среднее квадратическое отклонение выборочной доли
  4. вероятность того, что выборочная доля будет в пределах между 0,25 и 0,30

Решение:

В качестве генеральной доли (p ) принимаем выборочную долю (ω ) и определяем верхнюю границу доверительного интервала.
Зная критическую точку (по условию: выборочная доля будет в пределах 0,25-0,30), строим одностороннюю критическую область (правостороннюю).
По таблице значений интегральной функции Лапласа находим Z
Этот же вариант можно рассматривать и как повторный отбор при условии, если один и тот же покупатель, не купив в 1-й раз, возвращается и совершает покупку.

В случае, если выборку рассматривать как бесповторную , необходимо среднюю ошибку скорректировать на поправочный коэффициент. Тогда, подставив скоррекированные значения предельной ошибки для выборочной доли, при определении критической области, изменятся Z и P

Определение предельной ошибки выборки для средней

По данным 17 сотрудников фирмы, где работает 260 человек, среднемесячная заработная плата составила 360 у.е., при s=76 у.е. Какая минимальная сумма должна быть положена на счет фирмы, чтобы с вероятностью 0,98 гарантировать выдачу заработной платы всем сотрудникам?

Дано :

  • n=17 - объем выборки (выборочная совокупность)
  • N=260 - объем совокупности (генеральная совокупность)
  • Х ср. =360 - выборочная средняя
  • S=76 - выборочное среднеквадратическое отклонение
  • Р = 0,98 – доверительная вероятность

Определить: минимально допустимое значение генеральной средней (нижнюю границу доверительного интервала).

Для характеристики надежности выборочных показателей различают среднюю и предельную ошибки выборки, которые свойственны только выборочным наблюдениям. Данные показа­тели отражают разность между выборочными и соответствую­щими генеральными показателями.

Средняя ошибкавыборки определяется прежде всего объе­мом выборки и зависит от структуры и степени варьирования изучаемого признака.

Смысл средней ошибки выборки заключается в следующем. Рассчитанные значения выборочной доли (w) и выборочной средней ()по своей природе случайные величины. Они могут принимать различные значения в зависимости от того, какие кон­кретные единицы генеральной совокупности попадут в выборку. Например, если при определении среднего возраста работников предприятия в одну выборку включить больше молодежи, а в другую - работников старшего возраста, то выборочные средние и ошибки выборки будут разными. Средняя ошибка выборки определяется по формуле:

(27) или - повторная выборка. (28)

Где: μ – средняя ошибка выборки;

σ – среднее квадратическое отклонение признака в генеральной совокупности;

n – объем выборки.

Величина ошибки μ показывает, насколько среднее значение признака, установленное по выборке, отличается от истинного значения признака в генеральной совокупности.

Из формулы следует, что ошибка выборки прямо пропорциональна среднему квадратическому отклонению и обратно пропорциональна корню квадратному из числа единиц, попавших в выборку. Это означает, например, что чем больше разброс значений признака в генеральной совокупности, то есть чем больше дисперсия, тем больше должен быть объем выборки, если мы хотим доверять результатам выборочного обследования. И, наоборот, при малой дисперсии можно ограничиться небольшим числом выборочной совокупности. Ошибка выборки при этом будет находиться в приемлемых пределах.

Поскольку при бесповторном отборе численность генеральной совокупности N в ходе выборки сокращается, то в формулу для расчета средней ошибки выборки включают дополнительный множитель

(1- ). Формула средней ошибки выборки принимает следующий вид:

Средняя ошибка меньше у бесповторной выборки, что и обусловливает ее более широкое применение.

Для практических выводов нужна характеристика генеральной совокупности на основе выборочных результатов. Выборочные средние и доли распространяются на генеральную совокупность с учетом предела их возможной ошибки, причем с гарантирующим ее уровнем вероятности. Задавшись конкретным уровнем вероятности, выбирают величину нормированного отклонения и определяют предельную ошибку выборки.

Надежностью (доверительной вероятностью) оценки Х по Х* называют вероятность γ , с которой осуществляется неравенство


׀Х-Х*׀< δ, (30)

где δ – предельная ошибка выборки, характеризующая ширину интервала, в котором с вероятностью γ находится значение исследуемого параметра генеральной совокупности.

Доверительным называют интервал (Х* - δ; Х* + δ), который покрывает исследуемый параметр Х (то есть значение параметра Х находится внутри этого интервала) с заданной надежностью γ.

Обычно надежность оценки задается наперед, причем в качестве γ берут число, близкое к единице: 0,95; 0,99 или 0,999.

Предельная ошибка δ связана со средней ошибкой μ следующим соотношением: , (31)

где: t – коэффициент доверия, зависящий от вероятности P, с которой можно утверждать, что предельная ошибка δ не превысит t-кратную среднюю ошибку μ (его еще называют критическими точками или квантилями распределения Стьюдента).

Как следует из соотношения , предельная ошибка прямо пропорциональна средней ошибке выборки и коэффициенту доверия, зависящему от заданного уровня надежности оценки.

Из формулы средней ошибки выборки и соотношения предельной и средней ошибок получаем:

С учетом доверительной вероятности эта формула примет вид.