Биографии Характеристики Анализ

Как рассчитывается дисперсия в статистике. Показатели вариации: понятие, виды, формулы для вычислений

.

Обратно, если - неотрицательная п.в. функция, такая что , то существует абсолютно непрерывная вероятностная мера на такая, что является её плотностью.

    Замена меры в интеграле Лебега:

,

где любая борелевская функция, интегрируемая относительно вероятностной меры .

Дисперсия, виды и свойства дисперсии Понятие дисперсии

Дисперсия в статистике находится как среднее квадратическое отклонение индивидуальных значений признака в квадрате от средней арифметической. В зависимости от исходных данных она определяется по формулам простой и взвешенной дисперсий:

1. Простая дисперсия (для несгруппированных данных) вычисляется по формуле:

2. Взвешенная дисперсия (для вариационного ряда):

где n - частота (повторяемость фактора Х)

Пример нахождения дисперсии

На данной странице описан стандартный пример нахождения дисперсии, также Вы можете посмотреть другие задачи на её нахождение

Пример 1. Определение групповой, средней из групповой, межгрупповой и общей дисперсии

Пример 2. Нахождение дисперсии и коэффициента вариации в группировочной таблице

Пример 3. Нахождение дисперсии в дискретном ряду

Пример 4. Имеются следующие данные по группе из 20 студентов заочного отделения. Нужно построить интервальный ряд распределения признака, рассчитать среднее значение признака и изучить его дисперсию

Построим интервальную группировку. Определим размах интервала по формуле:

где X max– максимальное значение группировочного признака; X min–минимальное значение группировочного признака; n – количество интервалов:

Принимаем n=5. Шаг равен: h = (192 - 159)/ 5 = 6,6

Составим интервальную группировку

Для дальнейших расчетов построим вспомогательную таблицу:

X"i– середина интервала. (например середина интервала 159 – 165,6 = 162,3)

Среднюю величину роста студентов определим по формуле средней арифметической взвешенной:

Определим дисперсию по формуле:

Формулу можно преобразовать так:

Из этой формулы следует, что дисперсия равна разности средней из квадратов вариантов и квадрата и средней.

Дисперсия в вариационных рядах с равными интервалами по способу моментов может быть рассчитана следующим способом при использовании второго свойства дисперсии (разделив все варианты на величину интервала). Определении дисперсии , вычисленной по способу моментов, по следующей формуле менее трудоемок:

где i - величина интервала; А - условный ноль, в качестве которого удобно использовать середину интервала, обладающего наибольшей частотой; m1 - квадрат момента первого порядка; m2 - момент второго порядка

Дисперсия альтернативного признака (если в статистической совокупности признак изменяется так, что имеются только два взаимно исключающих друг друга варианта, то такая изменчивость называется альтернативной) может быть вычислена по формуле:

Подставляя в данную формулу дисперсии q =1- р, получаем:

Виды дисперсии

Общая дисперсия измеряет вариацию признака по всей совокупности в целом под влиянием всех факторов, обуславливающих эту вариацию. Она равняется среднему квадрату отклонений отдельных значений признака х от общего среднего значения х и может быть определена как простая дисперсия или взвешенная дисперсия.

Внутригрупповая дисперсия характеризует случайную вариацию, т.е. часть вариации, которая обусловлена влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основание группировки. Такая дисперсия равна среднему квадрату отклонений отдельных значений признака внутри группы X от средней арифметической группы и может быть вычислена как простая дисперсия или как взвешенная дисперсия.

Таким образом, внутригрупповая дисперсия измеряет вариацию признака внутри группы и определяется по формуле:

где хi - групповая средняя; ni - число единиц в группе.

Например, внутригрупповые дисперсии, которые надо определить в задаче изучения влияния квалификации рабочих на уровень производительности труда в цехе показывают вариации выработки в каждой группе, вызванные всеми возможными факторами (техническое состояние оборудования, обеспеченность инструментами и материалами, возраст рабочих, интенсивность труда и т.д.), кроме отличий в квалификационном разряде (внутри группы все рабочие имеют одну и ту же квалификацию).

Средняя из внутри групповых дисперсий отражает случайную вариацию, т. е. ту часть вариации, которая происходила под влиянием всех прочих факторов, за исключением фактора группировки. Она рассчитывается по формуле:

Межгрупповая дисперсия характеризует систематическую вариацию результативного признака, которая обусловлена влиянием признака-фактора, положенного в основание группировки. Она равняется среднему квадрату отклонений групповых средних от общей средней. Межгрупповая дисперсия рассчитывается по формуле:

Решение.

В качестве меры рассеивания значений случайной величины используется дисперсия

Дисперсия (слово дисперсия означает "рассеяние") есть мера рассеивания значений случайной величины относительно ее математического ожидания. Дисперсией называется математическое ожидание квадрата отклонения случайной величины от ее математического ожидания

Если случайная величина - дискретная с бесконечным, но счетным множеством значений, то

если ряд в правой части равенства сходится.

Свойства дисперсии.

  • 1. Дисперсия постоянной величины равна нулю
  • 2. Дисперсия суммы случайных величин равна сумме дисперсий
  • 3. Постоянный множитель можно выносить за знак дисперсии в квадрате

Дисперсия разности случайных величин равна сумме дисперсий

Это свойство является следствием второго и третьего свойств. Дисперсии могут только складываться.

Дисперсию удобно вычислять по формуле, которую легко получить, используя свойства дисперсии

Дисперсия всегда величина положительная .

Дисперсия имеет размерность квадрата размерности самой случайной величины, что не всегда удобно. Поэтому в качестве показателя рассеяния используют также величину

Средним квадратическим отклонением (стандартным отклонением или стандартом) случайной величиныназывается арифметическое значение корня квадратного из её дисперсии

Бросают две монеты достоинством 2 и 5 рублей. Если монета выпадает гербом, то начисляют ноль очков, а если цифрой, то число очков, равное достоинству монеты. Найти математическое ожидание и дисперсию числа очков.

Решение. Найдем вначале распределение случайной величины Х - числа очков. Все комбинации - (2;5),(2;0),(0;5),(0;0) - равновероятны и закон распределения:

Математическое ожидание:

Дисперсию найдем по формуле

для чего вычислим

Пример 2.

Найти неизвестную вероятность р , математическое ожидание и дисперсию дискретной случайной величины, заданной таблицей распределения вероятностей

Находим математическое ожидание и дисперсию:

M (X ) = 00,0081 + 10,0756 + 20,2646 + 3 0,4116 + +40,2401=2,8

Для вычисления дисперсии воспользуемся формулой (19.4)

D (X ) = 020 ,0081 + 120,0756 + 220,2646 + 320,4116 + 420,2401 - 2,82 = 8,68 -

Пример 3. Два равносильных спортсмена проводят турнир, который длится или до первой победы одного из них, или до тех пор, пока не будет сыграно пять партий. Вероятность победы в одной партии для каждого из спортсменов равна 0,3, а вероятность ничейного исхода партии 0,4. Найти закон распределения, математическое ожидание и дисперсию числа сыгранных партий.

Решение. Случайная величина Х - количество сыгранных партий, принимает значения от 1 до 5, т. е.

Определим вероятности окончания матча. Матч закончится на первой партии, если кто-то их спортсменов выиграл. Вероятность выигрыша равна

Р (1) = 0,3+0,3 =0,6.

Если же была ничья (вероятность ничьей равна 1 - 0,6 = 0,4), то матч продолжается. Матч закончится на второй партии, если в первой была ничья, а во второй кто-то выиграл. Вероятность

Р (2) = 0,4 0,6=0,24.

Аналогично, матч закончится на третьей партии, если было подряд две ничьи и опять кто-то выиграл

Р (3) = 0,4 0,4 0,6 = 0,096. Р (4)= 0,4 0,4 0,4 0,6=0,0384.

Пятая партия в любом варианте последняя.

Р (5)= 1 - (Р (1)+Р (2)+Р (3)+Р (4)) = 0,0256.

Сведем все в таблицу. Закон распределения случайной величины "число выигранных партий" имеет вид

Математическое ожидание

Дисперсию вычисляем по формуле (19.4)

Стандартные дискретные распределения.

Биномиальное распределение. Пусть реализуется схема опытов Бернулли: проводится n одинаковых независимых опытов, в каждом из которых событие A может появиться с постоянной вероятностью p и не появится с вероятностью

(см. лекцию 18).

Число появлений события A в этих n опытах есть дискретная случайная величина X , возможные значения которой:

0; 1; 2; ... ; m ; ... ; n.

Вероятность появления m событий A в конкретной серии из n опытов с и закон распределения такой случайной величины задается формулой Бернулли (см. лекцию 18)

Числовые характеристики случайной величины X распределенной по биномиальному закону:

Если n велико (), то, при, формула (19.6) переходит в формулу

а табулированная функция Гаусса (таблица значений функции Гаусса приведена в конце 18 лекции).

На практике часто важна не сама вероятность появления m событий A в конкретной серии из n опытов, а вероятность того, что событие А появится не менее

раз и не более раз, т. е. вероятность того, что Х принимает значения

Для этого надо просуммировать вероятности

Если n велико (), то, при, формула (19.9) переходит в приближенную формулу

табулированная функция. Таблицы приведены в конце лекции 18.

При использовании таблиц надо учесть, что

Пример 1 . Автомобиль, подъезжая к перекрестку, может продолжить движение по любой из трех дорог: A, B или C с одинаковой вероятностью. К перекрестку подъезжают пять автомобилей. Найти среднее число автомашин, которое поедет по дороге A и вероятность того, что по дороге B поедет три автомобиля.

Решение. Число автомашин проезжающих по каждой из дорог является случайной величиной. Если предположить, что все подъезжающие к перекрестку автомобили совершают поездку независимо друг от друга, то эта случайная величина распределена по биномиальному закону с

n = 5 и p = .

Следовательно, среднее число автомашин, которое проследует по дороге A, есть по формуле (19.7)

а искомая вероятность при

Пример 2. Вероятность отказа прибора при каждом испытании 0,1. Производится 60 испытаний прибора. Какова вероятность того, что отказ прибора произойдёт: а) 15 раз; б) не более 15 раз?

а. Так как число испытаний 60, то используем формулу (19.8)

По таблице 1 приложения к лекции 18 находим

б . Используем формулу (19.10).

По таблице 2 приложения к лекции 18

  • - 0,495
  • 0,49995

Распределение Пуассона) закон редких явлений). Если n велико, а р мало (), при этом произведение пр сохраняет постоянное значение, которое обозначим л,

то формула (19.6) переходит в формулу Пуассона

Закон распределения Пуассона имеет вид:

Очевидно, что определение закона Пуассона корректно, т.к. основное свойство ряда распределения

выполнено, т.к. сумма ряда

В скобках записано разложение в ряд функции при

Теорема. Математическое ожидание и дисперсия случайной величины, распределенной по закону Пуассона, совпадают и равны параметру этого закона, т.е.

Доказательство.

Пример. Для продвижения своей продукции на рынок фирма раскладывает по почтовым ящикам рекламные листки. Прежний опыт работы показывает, что примерно в одном случае из 2 000 следует заказ. Найти вероятность того, что при размещении 10 000 рекламных листков поступит хотя бы один заказ, среднее число поступивших заказов и дисперсию числа поступивших заказов.

Решение . Здесь

Вероятность того, что поступит хотя бы один заказ, найдем через вероятность противоположного события, т.е.

Случайный поток событий. Потоком событий называется последовательность событий, происходящие в случайные моменты времени. Типичными примерами потоков являются сбои в компьютерных сетях, вызовы на телефонных станциях, поток заявок на ремонт оборудования и т. д.

Поток событий называется стационарным , если вероятность попадания того или иного числа событий на временной интервал длины зависит только от длины интервала и не зависит не зависит от расположения временного интервала на оси времени.

Условию стационарности удовлетворяет поток заявок, вероятностные характеристики которого не зависят от времени. В частности, для стационарного потока характерна постоянная плотность (среднее число заявок в единицу времени). На практике часто встречаются потоки заявок, которые (по крайней мере, на ограниченном отрезке времени) могут рассматриваться как стационарные. Например, поток вызовов на городской телефонной станции на участке времени от 12 до 13 часов может считаться стационарным. Тот же поток в течение целых суток уже не может считаться стационарным (ночью плотность вызовов значительно меньше, чем днем).

Поток событий называется потоком с отсутствием последействия , если для любых неперекрывающихся участков времени число событий, попадающих на один из них, не зависит от числа событий, попадающих на другие.

Условие отсутствия последействия - наиболее существенное для простейшего потока - означает, что заявки поступают в систему независимо друг от друга. Например, поток пассажиров, входящие на станцию метро, можно считать потоком без последействия потому, что причины, обусловившие приход отдельного пассажира именно в тот, а не другой момент, как правило, не связаны с аналогичными причинами для других пассажиров. Однако условие отсутствия последействия может быть легко нарушено за счет появления такой зависимости. Например, поток пассажиров, покидающих станцию метро, уже не может считаться потоком без последействия, так как моменты выхода пассажиров, прибывших одним и тем же поездом, зависимы между собой.

Поток событий называется ординарным , если вероятность попадания на малый интервал времени t двух или более событий пренебрежимо мала по сравнению с вероятностью попадания одного события (в этой связи закон Пуассона называют законом редких событий).

Условие ординарности означает, что заявки приходят поодиночке, а не парами, тройками и т. д. дисперсия отклонение распределение бернулли

Например, поток клиентов, входящих в парикмахерскую, может считаться практически ординарным. Если в неординарном потоке заявки поступают только парами, только тройками и т. д., то неординарный поток легко свести к ординарному; для этого достаточно вместо потока отдельных заявок рассмотреть поток пар, троек и т. д. Сложнее будет, если каждая заявка случайным образом может оказаться двойной, тройной и т. д. Тогда уже приходится иметь дело с потоком не однородных, а разнородных событий.

Если поток событий обладает всеми тремя свойствами (т. е. стационарен, ординарен и не имеет последействия), то он называется простейшим (или стационарным пуассоновским) потоком. Название "пуассоновский" связано с тем, что при соблюдении перечисленных условий число событий, попадающих на любой фиксированный интервал времени, будет распределено по закону Пуассона

Здесь - среднее число событий A , появляющихся за единицу времени.

Этот закон однопараметрический, т.е. для его задания требуется знать только один параметр. Можно показать, что математическое ожидание и дисперсия в законе Пуассона численно равны:

Пример . Пусть в середине рабочего дня среднее число запросов равняется 2 в секунду. Какова вероятность того, что 1) за секунду не поступит ни одной заявки, 2) за две секунды поступит 10 заявок?

Решение. Поскольку правомерность применения закона Пуассона не вызывает сомнения и его параметр задан (= 2), то решение задачи сводится к применении формулы Пуассона (19.11)

1) t = 1, m = 0:

2) t = 2, m = 10:

Закон больших чисел. Математическим основанием того факта, что значения случайной величины группируются около некоторых постоянных величин, является закон больших чисел.

Исторически первой формулировкой закона больших чисел стала теорема Бернулли:

"При неограниченном увеличении числа одинаковых и независимых опытов n частота появления события A сходится по вероятности к его вероятности", т.е.

где частота появления события A в n опытах,

Содержательно выражение (19.10) означает, что при большом числе опытов частота появления события A может заменять неизвестную вероятность этого события и чем больше число проведенных опытов, тем ближе р* к р. Интересен исторический факт. К. Пирсон бросал монету 12000 раз и герб у него выпал 6019 раз (частота 0.5016). При бросании этой же монеты 24000 раз он получил 12012 выпадений герба, т.е. частоту 0.5005.

Наиболее важной формой закона больших чисел является теорема Чебышева: при неограниченном возрастании числа независимых, имеющих конечную дисперсию и проводимых в одинаковых условиях опытов среднее арифметическое наблюденных значений случайной величины сходится по вероятности к ее математическому ожиданию . В аналитической форме эта теорема может быть записана так:

Теорема Чебышева кроме фундаментального теоретического значения имеет и важное практическое применение, например, в теории измерений. Проведя n измерений некоторой величины х , получают различные несовпадающие значения х 1, х 2, ..., хn . За приближенное значение измеряемой величины х принимают среднее арифметическое наблюденных значений

При этом, чем больше будет проведено опытов, тем точнее будет полученный результат. Дело в том, что дисперсия величины убывает с возрастанием числа проведенных опытов, т.к.

D (x 1) = D (x 2)=…= D (xn ) D (x ) , то

Соотношение (19.13) показывает, что и при высокой неточности приборов измерения (большая величина) за счет увеличения количества измерений можно получать результат со сколь угодно высокой точностью.

Используя формулу (19.10) можно найти вероятность того, что статистическая частота отклоняется от вероятности не более, чем на

Пример. Вероятность события в каждом испытании равна 0,4. Сколько нужно провести испытаний, чтобы с вероятностью, не меньшей, чем 0,8 ожидать, что относительная частота события будет отклоняться от вероятности по модулю менее, чем на 0,01?

Решение. По формуле (19.14)

следовательно, по таблице два приложения

следовательно, n 3932.

На данной странице описан стандартный пример нахождения дисперсии, также Вы можете посмотреть другие задачи на её нахождение

Пример 1. Определение групповой, средней из групповой, межгрупповой и общей дисперсии

Пример 2. Нахождение дисперсии и коэффициента вариации в группировочной таблице

Пример 3. Нахождение дисперсии в дискретном ряду

Пример 4. Имеются следующие данные по группе из 20 студентов заочного отделения. Нужно построить интервальный ряд распределения признака, рассчитать среднее значение признака и изучить его дисперсию

Построим интервальную группировку. Определим размах интервала по формуле:

где X max– максимальное значение группировочного признака;
X min–минимальное значение группировочного признака;
n – количество интервалов:

Принимаем n=5. Шаг равен: h = (192 - 159)/ 5 = 6,6

Составим интервальную группировку

Для дальнейших расчетов построим вспомогательную таблицу:

X"i– середина интервала. (например середина интервала 159 – 165,6 = 162,3)

Среднюю величину роста студентов определим по формуле средней арифметической взвешенной:

Определим дисперсию по формуле:

Формулу можно преобразовать так:

Из этой формулы следует, что дисперсия равна разности средней из квадратов вариантов и квадрата и средней.

Дисперсия в вариационных рядах с равными интервалами по способу моментов может быть рассчитана следующим способом при использовании второго свойства дисперсии (разделив все варианты на величину интервала). Определении дисперсии , вычисленной по способу моментов, по следующей формуле менее трудоемок:

где i - величина интервала;
А - условный ноль, в качестве которого удобно использовать середину интервала, обладающего наибольшей частотой;
m1 - квадрат момента первого порядка;
m2 - момент второго порядка

Дисперсия альтернативного признака (если в статистической совокупности признак изменяется так, что имеются только два взаимно исключающих друг друга варианта, то такая изменчивость называется альтернативной) может быть вычислена по формуле:

Подставляя в данную формулу дисперсии q =1- р, получаем:

Виды дисперсии

Общая дисперсия измеряет вариацию признака по всей совокупности в целом под влиянием всех факторов, обуславливающих эту вариацию. Она равняется среднему квадрату отклонений отдельных значений признака х от общего среднего значения х и может быть определена как простая дисперсия или взвешенная дисперсия.

Внутригрупповая дисперсия характеризует случайную вариацию, т.е. часть вариации, которая обусловлена влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основание группировки. Такая дисперсия равна среднему квадрату отклонений отдельных значений признака внутри группы X от средней арифметической группы и может быть вычислена как простая дисперсия или как взвешенная дисперсия.



Таким образом, внутригрупповая дисперсия измеряет вариацию признака внутри группы и определяется по формуле:

где хi - групповая средняя;
ni - число единиц в группе.

Например, внутригрупповые дисперсии, которые надо определить в задаче изучения влияния квалификации рабочих на уровень производительности труда в цехе показывают вариации выработки в каждой группе, вызванные всеми возможными факторами (техническое состояние оборудования, обеспеченность инструментами и материалами, возраст рабочих, интенсивность труда и т.д.), кроме отличий в квалификационном разряде (внутри группы все рабочие имеют одну и ту же квалификацию).

Вариационный размах (или размах вариации) - это разница между максимальным и минимальным значениями признака:

В нашем примере размах вариации сменной выработки рабочих составляет: в первой бригаде R=105-95=10 дет., во второй бригаде R=125-75=50 дет. (в 5 раз больше). Это говорит о том, что выработка 1-й бригады более «устойчива», но резервов роста выработки больше у второй бригады, т.к. в случае достижения всеми рабочими максимальной для этой бригады выработки, ею может быть изготовлено 3*125=375 деталей, а в 1-й бригаде только 105*3=315 деталей.
Если крайние значения признака не типичны для совокупности, то используют квартильный или децильный размахи. Квартильный размах RQ= Q3-Q1 охватывает 50% объема совокупности, децильный размах первый RD1 = D9-D1охватывает 80% данных, второй децильный размах RD2= D8-D2 – 60 %.
Недостатком показателя вариационного размаха является, но что его величина не отражает все колебания признака.
Простейшим обобщающим показателем, отражающим все колебания признака, является среднее линейное отклонение , представляющее собой среднюю арифметическую абсолютных отклонений отдельных вариант от их средней величины:

,
для сгруппированных данных
,
где хi – значение признака в дискретном ряду или середина интервала в интервальном распределении.
В вышеприведенных формулах разности в числителе взяты по модулю, иначе, согласно свойству средней арифметической, числитель всегда будет равен нулю. Поэтому среднее линейное отклонение в статистической практике применяют редко, только в тех случаях, когда суммирование показателей без учета знака имеет экономический смысл. С его помощью, например, анализируется состав работающих, рентабельность производства, оборот внешней торговли.
Дисперсия признака – это средний квадрат отклонений вариант от их средней величины:
простая дисперсия
,
взвешенная дисперсия
.
Формулу для расчета дисперсии можно упростить:

Таким образом, дисперсия равна разности средней из квадратов вариант и квадрата средней из вариант совокупности:
.
Однако, вследствие суммирования квадратов отклонений дисперсия дает искаженное представление об отклонениях, поэтому ее на основе рассчитывают среднее квадратическое отклонение , которое показывает, на сколько в среднем отклоняются конкретные варианты признака от их среднего значения. Вычисляется путем извлечения квадратного корня из дисперсии:
для несгруппированных данных
,
для вариационного ряда

Чем меньше значение дисперсии и среднего квадратического отклонения, тем однороднее совокупность, тем более надежной (типичной) будет средняя величина.
Среднее линейное и среднее квадратичное отклонение - именованные числа, т. е. выражаются в единицах измерения признака, идентичны по содержанию и близки по значению.
Рассчитывать абсолютные показатели вариации рекомендуется с помощью таблиц.
Таблица 3 – Расчет характеристик вариации (на примере срока данных о сменной выработке рабочих бригады)


Число рабочих,

Середина интервала,

Расчетные значения

Итого:

Среднесменная выработка рабочих:

Среднее линейное отклонение:

Дисперсия выработки:

Среднее квадратическое отклонение выработки отдельных рабочих от средней выработки:
.

1 Расчет дисперсии способом моментов

Вычисление дисперсий связано с громоздкими расчетами (особенно если средняя величина выражена большим числом с несколькими десятичными знаками). Расчеты можно упростить, если использовать упрощенную формулу и свойства дисперсии.
Дисперсия обладает следующими свойствами:

  1. если все значения признака уменьшить или увеличить на одну и ту же величину А, то дисперсия от этого не уменьшится:

,

, то или
Используя свойства дисперсии и сначала уменьшив все варианты совокупности на величину А, а затем разделив на величину интервала h, получим формулу вычисления дисперсии в вариационных рядах с равными интервалами способом моментов:
,
где – дисперсия, исчисленная по способу моментов;
h – величина интервала вариационного ряда;
– новые (преобразованные) значения вариант;
А– постоянная величина, в качестве которой используют середину интервала, обладающего наибольшей частотой; либо вариант, имеющий наибольшую частоту;
– квадрат момента первого порядка;
– момент второго порядка.
Выполним расчет дисперсии способом моментов на основе данных о сменной выработке рабочих бригады.
Таблица 4 – Расчет дисперсии по способу моментов


Группы рабочих по выработке, шт.

Число рабочих,

Середина интервала,

Расчетные значения

Порядок расчета:


  1. рассчитываем дисперсию:

2 Расчет дисперсии альтернативного признака

Среди признаков, изучаемых статистикой, есть и такие, которым свойственны лишь два взаимно исключающих значения. Это альтернативные признаки. Им придается соответственно два количественных значения: варианты 1 и 0. Частостью варианты 1, которая обозначается p, является доля единиц, обладающих данным признаком. Разность 1-р=q является частостью варианты 0. Таким образом,


хi

Средняя арифметическая альтернативного признака
, т. к. p+q=1.

Дисперсия альтернативного признака
, т.к. 1-р=q
Таким образом, дисперсия альтернативного признака равна произведению доли единиц, обладающих данным признаком, и доли единиц, не обладающих этим признаком.
Если значения 1 и 0 встречаются одинаково часто, т. е. p=q, дисперсия достигает своего максимума pq=0,25.
Дисперсия альтернативного признака используется в выборочных обследованиях, например, качества продукции.

3 Межгрупповая дисперсия. Правило сложения дисперсий

Дисперсия, в отличие от других характеристик вариации, является аддитивной величиной. То есть в совокупности, которая разделена на группы по факторному признаку х, дисперсия результативного признака y может быть разложена на дисперсию в каждой группе (внутригрупповую) и дисперсию между группами (межгрупповую). Тогда, наряду с изучением вариации признака по всей совокупности в целом, становится возможным изучение вариации в каждой группе, а также между этими группами.

Общая дисперсия измеряет вариацию признака у по всей совокупности под влиянием всех факторов, вызвавших эту вариацию (отклонения). Она равна среднему квадрату отклонений отдельных значений признака у от общей средней и может быть вычислена как простая или взвешенная дисперсия.
Межгрупповая дисперсия характеризует вариацию результативного признака у , вызванную влиянием признака-фактора х , положенного в основу группировки. Она характеризует вариацию групповых средних и равна среднему квадрату отклонений групповых средних от общей средней :
,
где – средняя арифметическая i-той группы;
– численность единиц в i-той группе (частота i-той группы);
– общая средняя совокупности.
Внутригрупповая дисперсия отражает случайную вариацию, т. е. ту часть вариации, которая вызвана влиянием неучтенных факторов и не зависит от признака-фактора, положенного в основу группировки. Она характеризует вариацию индивидуальных значений относительно групповых средних, равна среднему квадрату отклонений отдельных значений признака у внутри группы от средней арифметической этой группы (групповой средней) и вычисляется как простая или взвешенная дисперсия для каждой группы:
или ,
где – число единиц в группе.
На основании внутригрупповых дисперсий по каждой группе можно определить общую среднюю из внутригрупповых дисперсий :
.
Взаимосвязь между тремя дисперсиями получила название правила сложения дисперсий , согласно которому общая дисперсия равна сумме межгрупповой дисперсии и средней из внутригрупповых дисперсий:

Пример . При изучении влияния тарифного разряда (квалификации) рабочих на уровень производительности их труда получены следующие данные.
Таблица 5 – Распределение рабочих по среднечасовой выработке.



п/п

Рабочие 4-го разряда

Рабочие 5-го разряда

Выработка
рабочего, шт.,

Выработка
рабочего, шт.,

1
2
3
4
5
6

7
9
9
10
12
13

7-10=-3
9-10=-1
-1
0
2
3

9
1
1
0
4
9

1
2
3
4

14
14
15
17

14-15=-1
-1
0
2

1
1
0
4

В данном примере рабочие разделены на две группы по факторному признаку х – квалификации, которая характеризуется их разрядом. Результативный признак – выработка – варьируется как под его влиянием (межгрупповая вариация), так и за счет других случайных факторов (внутригрупповая вариация). Задача заключается в измерении этих вариаций с помощью трех дисперсий: общей, межгрупповой и внутригрупповой. Эмпирический коэффициент детерминации показывает долю вариации результативного признака у под влиянием факторного признака х . Остальная часть общей вариации у вызвана изменением прочих факторов.
В примере эмпирический коэффициент детерминации равен:
или 66,7 %,
Это означает, что на 66,7% вариация производительности труда рабочих обусловлена различиями в квалификации, а на 33,3% – влиянием прочих факторов.
Эмпирическое корреляционное отношение показывает тесноту связи между группировочным и результативными признаками. Рассчитывается как корень квадратный из эмпирического коэффициента детерминации:

Эмпирическое корреляционное отношение , как и , может принимать значения от 0 до 1.
Если связь отсутствует, то =0. В этом случае =0, то есть групповые средние равны между собой и межгрупповой вариации нет. Значит группировочный признак – фактор не влияет на образование общей вариации.
Если связь функциональная, то =1. В этом случае дисперсия групповых средних равна общей дисперсии (), то есть внутригрупповой вариации нет. Это означает, что группировочный признак полностью определяет вариацию изучаемого результативного признака.
Чем ближе значение корреляционного отношения к единице, тем теснее, ближе к функциональной зависимости связь между признаками.
Для качественной оценки тесноты связи между признаками пользуются соотношениями Чэддока.

В примере , что свидетельствует о тесной связи между производительностью труда рабочих и их квалификацией.

Часто в статистике при анализе какого-либо явления или процесса необходимо учитывать не только информацию о средних уровнях исследуемых показателей, но и разброс или вариацию значений отдельных единиц , которая является важной характеристикой изучаемой совокупности.

В наибольшей степени вариации подвержены курсы акций, объемы спроса и предложения, процентные ставки в разные периоды времени и в разных местах.

Основными показателями, характеризующими вариацию , являются размах, дисперсия, среднее квадратическое отклонение и коэффициент вариации.

Размах вариации представляет собой разность максимального и минимального значений признака: R = Xmax – Xmin . Недостатком данного показателя является то, что он оценивает только границы варьирования признака и не отражает его колеблемость внутри этих границ.

Дисперсия лишена этого недостатка. Она рассчитывается как средний квадрат отклонений значений признака от их средней величины:

Упрощенный способ расчета дисперсии осуществляется с помощью следующих формул (простой и взвешенной):

Примеры применения данных формул представлены в задачах 1 и 2.

Широко распространенным на практике показателем является среднее квадратическое отклонение :

Среднее квадратическое отклонение определяется как квадратный корень из дисперсии и имеет ту же размеренность, что и изучаемый признак.

Рассмотренные показатели позволяют получить абсолютное значение вариации, т.е. оценивают ее в единицах измерения исследуемого признака. В отличие от них, коэффициент вариации измеряет колеблемость в относительном выражении - относительно среднего уровня, что во многих случаях является предпочтительнее.

Формула для расчета коэффициента вариации.

Примеры решения задач по теме «Показатели вариации в статистике»

Задача 1 . При изучении влияния рекламы на размер среднемесячного вклада в банках района обследовано 2 банка. Получены следующие результаты:

Определить:
1) для каждого банка: а) средний размер вклада за месяц; б) дисперсию вклада;
2) средний размер вклада за месяц для двух банков вместе;
3) Дисперсию вклада для 2-х банков, зависящую от рекламы;
4) Дисперсию вклада для 2-х банков, зависящую от всех факторов, кроме рекламы;
5) Общую дисперсию используя правило сложения;
6) Коэффициент детерминации;
7) Корреляционное отношение.

Решение

1) Составим расчетную таблицу для банка с рекламой . Для определения среднего размера вклада за месяц найдем середины интервалов. При этом величина открытого интервала (первого) условно приравнивается к величине интервала, примыкающего к нему (второго).

Средний размер вклада найдем по формуле средней арифметической взвешенной:

29 000/50 = 580 руб.

Дисперсию вклада найдем по формуле:

23 400/50 = 468

Аналогичные действия произведем для банка без рекламы :

2) Найдем средний размер вклада для двух банков вместе. Хср =(580×50+542,8×50)/100 = 561,4 руб.

3) Дисперсию вклада, для двух банков, зависящую от рекламы найдем по формуле: σ 2 =pq (формула дисперсии альтернативного признака). Здесь р=0,5 – доля факторов, зависящих от рекламы; q=1-0,5, тогда σ 2 =0,5*0,5=0,25.

4) Поскольку доля остальных факторов равна 0,5, то дисперсия вклада для двух банков, зависящая от всех факторов кроме рекламы тоже 0,25.

5) Определим общую дисперсию, используя правило сложения.

= (468*50+636,16*50)/100=552,08

= [(580-561,4)250+(542,8-561,4)250] / 100= 34 596/ 100=345,96

σ 2 = σ 2 факт + σ 2 ост = 552,08+345,96 = 898,04

6) Коэффициент детерминации η 2 = σ 2 факт / σ 2 = 345,96/898,04 = 0,39 = 39% - размер вклада на 39% зависит от рекламы.

7) Эмпирическое корреляционное отношение η = √η 2 = √0,39 = 0,62 – связь достаточно тесная.

Задача 2 . Имеется группировка предприятий по величине товарной продукции:

Определить: 1) дисперсию величины товарной продукции; 2) среднее квадратическое отклонение; 3) коэффициент вариации.

Решение

1) По условию представлен интервальный ряд распределения. Его необходимо выразить дискретно, то есть найти середину интервала (х"). В группах закрытых интервалов середину найдем по простой средней арифметической. В группах с верхней границей - как разность между этой верхней границей и половиной размера следующего за ним интервала (200-(400-200):2=100).

В группах с нижней границей – суммой этой нижней границы и половины размера предыдущего интервала (800+(800-600):2=900).

Расчет средней величины товарной продукции делаем по формуле:

Хср = k×((Σ((х"-a):k)×f):Σf)+a. Здесь а=500 - размер варианта при наибольшей частоте, k=600-400=200 - размер интервала при наибольшей частоте. Результат поместим в таблицу:

Итак, средняя величина товарной продукции за изучаемый период в целом равна Хср = (-5:37)×200+500=472,97 тыс. руб.

2) Дисперсию найдем по следующей формуле:

σ 2 = (33/37)*2002-(472,97-500)2 = 35 675,67-730,62 = 34 945,05

3) среднее квадратическое отклонение: σ = ±√σ 2 = ±√34 945,05 ≈ ±186,94 тыс. руб.

4) коэффициент вариации: V = (σ /Хср)*100 = (186,94 / 472,97)*100 = 39,52%