Биографии Характеристики Анализ

Вариацията се нарича в статистиката. Вариация и вариационна серия, диапазон на вариация

Понятието вариация и нейното значение

Вариациятова е разликата в стойностите на всеки атрибут в различни единици от дадена съвкупност в същия период или момент от време.

Например служителите на една фирма се различават по доходи, време, прекарано на работа, височина, тегло и т.н.

Вариацията възниква в резултат на това, че отделните стойности на атрибута се формират под комбинирано влияние на различни фактори (условия), които се комбинират по различен начин във всеки отделен случай. Следователно стойността на всяка опция е обективна.

Изследването на вариациите в статистиката има голямо значение, защото помага да се разбере същността на изследваното явление. Измерването на вариацията, откриването на нейната причина, идентифицирането на влиянието на отделните фактори дава важна информация(например за продължителността на живота на хората, доходите и разходите на населението, финансовото състояние на предприятието и др.) за вземане на научно обосновани управленски решения.

Средната стойност дава обобщаваща характеристика на признака на изследваната популация, но не разкрива структурата на популацията, което е много важно за нейното познаване. Средната не показва как вариантите на осреднения признак са разположени в близост до нея, дали са концентрирани близо до средната или се отклоняват значително от нея. Следователно, за да се характеризира колебанието на даден знак, се използват индикатори за вариация.

Индикатори за вариация и тяхното значение в статистиката

За измерване на вариацията на даден признак в популациите се използват следните обобщаващи показатели на вариация: диапазон на вариация, средно линейно отклонение, дисперсия и средна стойност стандартно отклонение .

1. Най-често срещаният абсолютен показател е диапазон на вариация(), дефинирана като разликата между най-голямата () и най-малката () стойности на опциите.

. (5.1)

Този показател е лесен за изчисляване, което доведе до него. широко използване. Той обаче улавя само екстремни отклонения и не отразява отклоненията на всички варианти в серията.

2. За обобщаваща характеристика на разпределението на отклоненията изчисляваме средно линейно отклонение , дефинирана като средноаритметична стойност на отклоненията индивидуални ценностиот средната стойност, без да се взема предвид знакът на тези отклонения:

Непретеглено средно линейно отклонение:

, (5.2)

Претеглено средно линейно отклонение:

. (5.3)

В тези формули разликите в числителя се вземат по модул, в противен случай числителят винаги ще бъде нула. Следователно средното линейно отклонение като мярка за вариацията на признак рядко се използва в статистическата практика, само в случаите, когато сумирането на показателите без отчитане на знаците има икономически смисъл. С негова помощ се анализират например съставът на работниците, ритъмът на производството, оборотът на външната търговия.

3. Мярката за вариация се отразява по-обективно от индикатора дисперсия ( - среден квадратотклонения), определени като средната стойност на квадратните отклонения:

Непретеглено:

, (5.4)

Претеглено:

. (5.5)

Дисперсията е от голямо значение при икономически анализ. AT математическа статистика важна роляза характеризиране на качеството на статистическите оценки, тяхната дисперсия играе.

4. Корен квадратен от дисперсията на "средните квадратни отклонения" е стандартно отклонение:

Стандартното отклонение е обобщаваща характеристика на размера на вариацията на характеристика в съвкупността. Той показва как средно определени опции се отклоняват от средната си стойност; е абсолютна мяркафлуктуация на атрибута и се изразява в същите единици като вариантите, следователно е икономически добре интерпретиран.

как по-малка стойностдисперсия и стандартно отклонение, толкова по-хомогенна (количествено) популацията и по-типична ще бъде средната стойност.

В статистическата практика често се налага да се сравняват вариациите на различни характеристики (например сравняване на вариациите във възрастта на работниците и тяхната квалификация, трудов стаж и размер заплати).

За да направите тези сравнения, използвайте следното относителна производителност:

Коефициент на трептене- отразяващи относителната флуктуация екстремни стойностифункция около средната стойност:

. (5.7)

Относително линейно отклонениехарактеризира дела на средната стойност на абсолютните отклонения от средната стойност:

. (5.8)

Коефициентът на вариацияе най-честата мярка за променливост, използвана за оценка на типичността на средна стойност:

. (5.9)

Ако , тогава това показва голяма флуктуация на признака в изследваната популация.

5.3 Дисперсия: свойства и методи за изчисляване

Дисперсията има редица свойства, които позволяват да се опростят нейните изчисления.

1) Ако от всички стойности опцията е отнета някои постоянно число, тогава средните квадратни отклонения от това няма да се променят:

. (5.10)

2) Ако всички стойности на опцията са разделени на някакво постоянно число, тогава средният квадрат на отклоненията ще намалее от това с фактор, а стандартното отклонение с фактор.

. (5.11)

3) Ако изчислите средния квадрат на отклоненията от всяка стойност, която до известна степен се различава от средната аритметична стойност, тогава тя винаги ще бъде по-голяма от средната квадратна стойност на отклоненията, изчислена от средната аритметична стойност:

А именно средният квадрат на отклоненията ще бъде по-голям с квадрата на разликата между средната и тази условно взета стойност, т.е. на :

Дисперсията от средната стойност има свойство на минималност, т.е. то винаги е по-малко от дисперсиите, изчислени от всякакви други количества. В този случай, когато се приравни на нула, формулата става:

. (5.14)

Използвайки второто свойство на дисперсията, разделяйки всички опции на стойността на интервала, получаваме следната формула за изчисляване на дисперсията във вариационни серии с на равни интервалиспоред метода на моментите:

, (5.15)

където е дисперсията, изчислена по метода на моментите;

5.3. Вариационни индикатори

цел статистически изследванияе разкриващо основни свойстваи модели на изследваната статистическа съвкупност. В процес на обработка на консолидирани данни статистическо наблюдениестроят разпределителни линии.Различават се два вида редове на разпределение - атрибутивни и вариационни, в зависимост от това дали признакът, който е в основата на групирането, е качествен или количествен.

вариационеннаречена серия на разпределение, изградена на количествена основа. Стойности количествени признациза отделните единици агрегатите не са постоянни, те се различават повече или по-малко една от друга. Тази разлика в стойността на една черта се нарича вариации.Отделно числови стойностибелези, които се срещат в изследваната популация, се наричат опции за стойност.Наличието на вариация в отделните единици на популацията се дължи на влиянието на голям брой фактори върху формирането на нивото на признака. Проучването на естеството и степента на вариация на признаците в отделните единици от популацията е критичен проблемвсяко статистическо изследване. Индикаторите за вариация се използват за описание на мярката за вариабилност на признака.

Друг важна задачастатистическото изследване е да се определи ролята на отделни фактори или техните групи в изменението на определени признаци на съвкупността. За да разрешите този проблем в статистиката, специални методиизследвания на вариации, базирани на използването на карта с показатели, която измерва вариациите. На практика изследователят се сблъсква с достатъчно голямо количествоопции за стойностите на атрибута, което не дава представа за разпределението на единиците по стойност на атрибута в съвкупността. За да направите това, всички варианти на стойностите на атрибута са подредени във възходящ или низходящ ред. Този процес се нарича ред класиране.Класираната серия веднага дава Главна идеяза стойностите, които функцията приема в агрегата.

Недостатъчността на средната стойност за изчерпателна характеристика на популацията налага допълването на средните стойности с показатели, които позволяват да се оцени типичността на тези средни стойности чрез измерване на флуктуацията (вариацията) на изследваната черта. Използването на тези индикатори за вариация прави възможно да се направи Статистически анализпо-пълно и осмислено, а с това и по-задълбочено разбиране на същността на изучаваните обществени явления.

от най-много прости знацивариациите са минимуми максимум -е най-малкият и най-висока стойностчерта в съвкупността. Извиква се броят на повторенията на отделните варианти на стойностите на характеристиките честота на повторение.Нека обозначим честотата на повторение на стойността на признака фи,сумата от честотите, равна на обема на изследваната популация, ще бъде:

където к– брой варианти на стойностите на атрибута. Удобно е да замените честотите с честоти - w.i. Честота- индикатор за относителна честота - може да се изрази в части от единица или процент и ви позволява да сравнявате вариационни серии с различен номернаблюдения. Формално имаме:

За измерване на вариацията на даден признак се използват различни абсолютни и относителни показатели. Абсолютните показатели за вариация включват средно линейно отклонение, диапазон на вариация, дисперсия, стандартно отклонение.

Вариация на обхвата(R) е разликата между максималните и минималните стойности на признака в изследваната популация: Р= Xmax – Xmin. Този индикатор дава само най-общата представа за колебанията на изследваната черта, тъй като показва разликата само между граничните стойности на опциите. Той е напълно несвързан с честотите във вариационните серии, т.е. с характера на разпределението и неговата зависимост може да го направи нестабилен, случаен характерсамо от екстремните стойности на атрибута. Диапазонът на вариация не дава информация за особеностите на изследваните популации и не ни позволява да оценим степента на типичност на получените средни стойности. Обхватът на този показател е ограничен до сравнително хомогенни популации, по-точно, той характеризира вариацията на черта, индикатор, основан на отчитане на променливостта на всички стойности на чертата.

За да се характеризира вариацията на черта, е необходимо да се обобщят отклоненията на всички стойности от всяка стойност, типична за изследваната популация. Такива показатели

вариациите, като средното линейно отклонение, дисперсията и стандартното отклонение, се основават на отчитането на отклоненията на стойностите на атрибута на отделните единици от съвкупността от средната аритметична стойност.

Средно линейно отклонениее средноаритметичната стойност на абсолютните стойности на отклоненията на отделните опции от тяхната средна аритметична стойност:


абсолютна стойност(модул) отклонение на варианта от средноаритметичното; е–честота.

Първата формула се прилага, ако всяка от опциите се среща съвкупно само веднъж, а втората - в серии с неравномерни честоти.

Има и друг начин за осредняване на отклоненията на опциите от средната аритметична стойност. Този метод, който е много разпространен в статистиката, се свежда до изчисляване на квадратните отклонения на опциите от средната стойност и след това тяхното осредняване. В този случай получаваме нов индикатор за вариация - дисперсията.

дисперсия(?2) - средната стойност на квадратните отклонения на вариантите на стойностите на чертата от средната им стойност:

Втората формула се използва, ако вариантите имат собствени тегла (или честоти на вариационните серии).

В икономическия и статистически анализ е обичайно да се оценява вариацията на даден атрибут най-често с помощта на стандартното отклонение. Стандартно отклонение(?) е корен квадратен от дисперсията:

Средните линейни и средни квадратни отклонения показват доколко стойността на атрибута варира средно за единиците от изследваната популация и се изразяват в същите единици като вариантите.

В статистическата практика често се налага да се сравняват вариациите на различни характеристики. Например, голям интереспредставя сравнение на вариациите във възрастта на персонала и неговата квалификация, трудов стаж и заплати и др. такива сравненияпоказателите за абсолютната променливост на знаците - средното линейно и стандартното отклонение - не са подходящи. Всъщност е невъзможно да се сравни колебанието на трудовия стаж, изразено в години, с колебанието на заплатите, изразено в рубли и копейки.

Когато се сравнява променливостта на различни признаци в съвкупността, е удобно да се използват относителни показатели за вариация. Тези показатели се изчисляват като съотношение на абсолютните показатели към средноаритметичното (или медианата). Като се използва като абсолютен индикатор за вариация обхвата на вариация, средното линейно отклонение, стандартното отклонение, се получават относителните показатели на флуктуацията:


- най-често използваният показател за относителна волатилност, характеризиращ хомогенността на съвкупността. Наборът се счита за хомогенен, ако коефициентът на вариация не надвишава 33% за разпределения, близки до нормалните.

Вариация- това е промяна (флуктуация) на стойностите на атрибута в изследваната популация по време на прехода от един обект (група обекти) или от един случай към друг. Абсолютните и относителните показатели за вариация, характеризиращи колебанията на стойностите на променлив атрибут, позволяват по-специално да се измери степента на връзка и взаимозависимост между характеристиките, да се определи степента на хомогенност на съвкупността, типичността и стабилност на средната стойност, определяне на големината на извадковата грешка, статистическа оценка на закона за разпределение на съвкупността и др.

В тази тема е необходимо да се разбере същността (смисълът), целта и методите за изчисляване на всеки показател за вариация, разглеждан в хода на теорията на статистиката: диапазон на вариация, средно линейно отклонение, среден квадрат на отклонения ( дисперсия), стандартното отклонение, относителните коефициенти на вариация (коефициент на колебание, коефициент на средно линейно отклонение, коефициент на вариация).

Диапазон на вариация (Р) е разликата между максималните (x max) и минималните (x min) стойности на признака в съвкупността (в серията на разпределение):

R = x max - x min. (5.1)

Мярката за други показатели за вариация е разликата не между екстремните стойности на признака, а средната разлика между всяка стойност на признака и средно аритметичнотези знаци. Разликата между стойността на една характеристика и средната се нарича отклонение.

Средно линейно отклонениеизчислено по следните формули:

по индивидуални (негрупирани) данни

; (5.2)

по вариационни серии (групирани данни)

. (5.3)

Тъй като алгебричната сума на отклоненията на отделните стойности на характеристика от средната (според нулевото свойство) винаги е равна на нула, аритметичната сума на отклоненията, взета по модул, се използва при изчисляване на средното линейно отклонение, т.е.
.

Средното линейно отклонение има същото измерение като атрибута, за който се изчислява.

Дисперсия и стандартно отклонение.Средното линейно отклонение сравнително рядко се използва за оценка на вариацията на черта. Следователно обикновено се изчисляват дисперсията ( 2) и стандартното отклонение (). Тези показатели се използват не само за оценка на вариацията на даден признак, но и за измерване на връзката между тях, за оценка на големината на извадковата грешка и за други цели.

Дисперсия на характеристикитеизчислява се по формулите:

по първични данни

; (5.4)

по вариационни серии

. (5.5)

Стандартно отклонениее корен квадратен от дисперсията:

по първични данни

; (5.6)

по вариационни серии

. (5.7)

Стандартното отклонение, както и средното линейно отклонение, имат същото измерение като самата оригинална характеристика.

Дисперсията може да се определи и като разликата между средния квадрат на опциите и квадрата на тяхната средна стойност, т.е.
. (5.8)

В този случай, според първичните данни, дисперсията е:

(5.9)

По отношение на групираните данни изчисляването на дисперсията по този метод в разширена форма може да бъде представено, както следва:

. (5.10)

За редове на разпределение с равни интервали стойността на дисперсията може да се изчисли по метода на условните моменти, т.е.

, (5.11)

където
- първият условен момент; (5.12)

- вторият условен момент. (5.13)

Стандартното отклонение по метода на условните моменти се определя по формулата:

(5.14)

Трансформирайки израза за изчисляване на дисперсията по метода на условните моменти, получаваме формула от вида:
(5.15)

Въз основа на същите първоначални данни получаваме същата стойност на дисперсия.

Показателите за относителна вариация се изчисляват като съотношение на редица абсолютни показатели за вариация към тяхната средна аритметична стойност и се изразяват като процент:

коефициент на трептене -
; (5.16)

коефициент на относително линейно отклонение -
; (5.17)

коефициентът на вариация -
. (5.18)

Задача 1. Обмислете методите за изчисляване на индикаторите за вариация въз основа на данните в табл. 5.1.

Таблица 5.1.Изходни данни за изчисляване на показателите за вариация

Разходи за време за производство на части мин

Брой части, бр. е)

Средна точка на интервал (x)

; k = 2

Дадената серия на разпределение е класирана, така че тук е лесно да се намери минималната стойност на характеристиката, тя е равна на 8 минути. (10 - 2), а максималната, равна на 18 мин. (16 + 2). Това означава, че обхватът на вариацията на функцията в тази серия ще бъде 10 минути, т.е.

R \u003d x max - x min \u003d 18 - 8 \u003d 10 min.

Нека изчислим средното линейно отклонение. На първо място, трябва да изчислите средната стойност . Всички изчисления ще бъдат извършени в таблична форма (Таблица 5.1.), като за всяка изчислителна операция се отделя колона в таблицата.

Тъй като първоначалните данни са представени от поредица от разпределения, тогава

мин.

мин.

Нека покажем как да изчислим дисперсията:

а) по обичайния начин (по дефиниция):

;

б) като разликата между средния квадрат и квадрата на средната стойност:

За да се определи стойността на дисперсията с помощта на тази формула, е необходимо да се изчисли средният квадрат на опциите за черта, като се използва формулата:

;

 2 \u003d 178,6 - (13,2) 2 \u003d 4,36;

в) според метода на условните моменти:

;

;

г) въз основа на трансформацията на формулата за изчисляване на дисперсията по метода на условните моменти имаме:

Дисперсията е абстрактно число, което няма мерни единици.

Изчисляваме стандартното отклонение, като вземаме корен квадратен от дисперсията:

мин.

Според метода на условните моменти стойността на стандартното отклонение се определя, както следва:

Нека изчислим относителните показатели на вариация:

%;

%;

%.

Основният относителен показател на вариация е коефициентът на вариация (V). Използва се за сравнителна оценка на мярката за колебание на знаците, изразена в различни мерни единици.

Наред с изменението на количествените признаци може да се наблюдава и изменение на качествените признаци (по-специално алтернативна променливост на качествените признаци). В този случай всяка единица от изследваната популация или има някакво имущество, или не (например всеки възрастен човек или работи, или не). Наличието на признак в единици от съвкупността се означава с 1, а отсъствието с -0; делът на единиците от съвкупността, които притежават изследвания признак, се означава с p, а тези, които го нямат - q. Дисперсията на алтернативен атрибут се определя по формулата:

; (5.19)

p + q = 1 (5.20)

Ако например делът на постъпилите в университета е 30%, а на непостъпилите е 70%, то дисперсията е 0,21(0,3 0,7). максималната стойност на произведението pq е 0,25 (при условие, че половината от единиците имат тази характеристика, а другата половина не: (0,5 0,5 = 0,25).

Методът на разлагане на общата дисперсия.За да оценим влиянието на различни фактори, които определят колебанията на индивидуалните стойности на черта, ще използваме разлагането на общата дисперсия на компоненти: така наречената групова дисперсия и средната стойност на вътрешногруповите дисперсии:

, (5.21)

където
обща дисперсия, който характеризира вариацията на даден признак в резултат на влиянието на всички фактори, които определят индивидуалните различия в единиците от съвкупността.

Вариацията на атрибута, дължаща се на влиянието на фактора, лежащ в основата на групирането, се характеризира с междугруповата дисперсия  2, която е мярка за колебанията на частните средни за групите
около общата средна стойност и се изчислява по формулата:

, (5.22)

където n j е броят на единиците от съвкупността във всяка група;

j- сериен номергрупи.

Промяната на знака, дължаща се на влиянието на всички други фактори, с изключение на групирането (факториал), се характеризира във всяка група с вътрешногруповата дисперсия:

, (5.23)

където i е поредният номер на x и f във всяка група.

За популацията като цяло средната стойност на вътрешногруповите дисперсии се определя по формулата:

(5.24)

Съотношението на междугруповата дисперсия  2 към общата
ще даде коефициента на определяне:

(5.25)

който характеризира съотношението на вариацията на резултантния признак, дължаща се на вариацията на факторния признак, който е в основата на групирането.

Показателят, получен като квадратен корен от коефициента на определяне, се нарича емпиричен корелационен коефициент, т.е.:

(5.26)

Характеризира плътността на връзката между резултантните и факторните (които са в основата на групирането) характеристики. Числената стойност на емпиричния коефициент на корелация има два знака: . Когато се решава с кой знак да се вземе, трябва да се има предвид: ако изменението на фактора и резултантните знаци върви синхронно в една и съща посока (увеличава се или намалява), тогава корелационната връзка се приема със знак плюс; ако промяната на тези знаци върви в противоположни посоки, тогава се приема със знак минус.

За изчисляване на груповите и междугруповите дисперсии може да се използва всеки от описаните по-горе методи за изчисляване на средните квадратични отклонения.

Задача 2.Нека изчислим всички именувани дисперсии според изходните данни на табл. 5.2.

Таблица 5.2.Разпределение на посевната площ на зимната пшеница по добив

Партиден номер

Производителност, c/ha

посевна площ, ха

Изчислете средния добив на зимна пшеница за всички парцели (общо средно):

ц/ха.

Намираме общата дисперсия по формулата:

В гр. 6 табл. 5.2. изчислете стойностите за изчисляване на средния квадрат на опциите на характеристиките:

.

Намиране на общата дисперсия:

Добивът зависи от много фактори (качество на почвата, количество органични и минерални торове, качество на семената, време на сеитба, грижи за посева и др.). този случайизмерва променливостта на добива поради всички фактори.

Задача 3.Да разделим съвкупността от парцели на две групи: I група - посевни площи, върху които не са внесени органични торове; II - площите, върху които са въведени. Първата група ще включва раздели 1-4, а втората - 4-8. Въз основа на данните от тези групи, ние изчисляваме останалите дисперсии, от които се нуждаем, като използваме вече получените в табл. 5.2. изчисления.

Таблица 5.3. Приблизителни данни за изчисляване на междугрупови и групови дисперсии

Партиден номер

Производителност, центнер/ха (x)

Посетна площ, ha (f)

Партиден номер

Производителност, центнер/ха (x)

Посетна площ, ha (f)

Ние определяме:

за I група:

за II група:

а) средна група

а) средна група

q/ha;

q/ha;

б) среден квадрат на опциите на характеристиките

;

;

в) групова дисперсия

в) групова дисперсия

Определяме средната стойност на груповите дисперсии:

.

Намиране на междугруповата дисперсия:

Средната стойност на груповите дисперсии измерва флуктуацията на признака поради всички други фактори, с изключение на групирането, което е основа (разграничаване на групи), и междугруповото - поради този конкретен фактор. Сумата от тези вариации трябва да даде общата вариация, а именно:

Съотношението на междугруповата дисперсия към общата в нашия пример ще даде следната стойност на коефициента на определяне:

, или 71,8%,

т.е. изменението на добива на зимна пшеница с 71,8% зависи от изменението на размера на прилагането на органични торове. Останалите 28,2% от изменението на добива зависи от влиянието на всички останали фактори, с изключение на количеството на внесения органичен тор.

Емпиричният коефициент на корелация ще бъде:

.

Това предполага, че прилагането на органични торове има много значително влияние върху добивите.

Как да се докаже, че моделът, получен чрез изследване на експерименталните данни, не е резултат от съвпадение или грешка на експериментатора, че е надежден? Начинаещите изследователи са изправени пред такъв въпрос.Описателната статистика предоставя инструменти за решаване на тези проблеми. Има два големи раздела - описание на данните и съпоставянето им по групи или в ред помежду си.

Описателни статистически показатели

Има няколко индикатора, които описателната статистика използва.

И така, представете си, че сме изправени пред задачата да опишем височината на всички ученици в група от десет души. Въоръжени с линийка и измервания, получаваме малка серия от десет числа (височина в сантиметри):

168, 171, 175, 177, 179, 187, 174, 176, 179, 169.

Ако погледнете внимателнов тази линейна серия можете да намерите няколко модела:

  • Ширината на интервала, в който попада височината на всички ученици, е 18 cm.
  • В разпределението растежът е най-близо до средата на този интервал.
  • Има и изключения, които са най-близо до горната или долната граница на интервала.

Съвсем очевидно е, че за да се изпълни задачата за описване на растежа на учениците в група, не е необходимо да се дават всички стойности, които ще бъдат измерени. За тази цел е достатъчно да се дадат само два, които в статистиката се наричат ​​параметри на разпределение. Това е средноаритметично и стандартно отклонениеот средното аритметично. Ако се обърнем към растежа на учениците, тогава формулата ще изглежда така:

Средно аритметично на ръстовете на учениците = (Сума от всички ръстове на учениците) / (Брой ученици, участвали в измерването)

Ако сведем всичко до строги математически термини, тогава дефиницията на средната аритметична стойност (означена с гръцката буква - μ ("mu")) ще звучи така:

Средната аритметична стойност е съотношението на сумата от всички стойности на един атрибут за всички членове на популацията (X) към броя на всички членове на популацията (N).

Ако приложим тази формула към нашите измервания, получаваме, че μ за височината на учениците в групата е 175,5 cm.

Ако погледнете внимателно растежа на учениците, който измерихме в предишния пример, става ясно, че растежът на всеки с няколко различна от изчислената средна стойност(175,5 см). За да завършите описанието, е необходимо да разберете каква е разликата между средната височина на всеки ученик и средната стойност.

На първия етап изчисляваме параметъра на дисперсията. Дисперсията в статистиката (означена като σ 2 (сигма на квадрат)) е съотношението на сумата от квадратите на разликата между средното аритметично (μ) и стойността на член от серията (X) към броя на всички членове на население (N). Под формата на формула това се изчислява по-ясно:

Стойностите, които получаваме в резултат на изчисления с помощта на тази формула, ще представим като квадрат на стойността (в нашия случай квадратни сантиметри). Да характеризираш растежа в сантиметри по квадратни сантиметри, разбирате ли, е смешно. Следователно можем да коригираме, по-точно, да опростим този израз и да получим средната стойност стандартно отклонениеформула и изчисление, пример:

Така получаваме стойността на стандартното отклонение (или средно квадратно отклонение) - Корен квадратенот дисперсия. И с мерните единици вече всичко е наред, можем да изчислим стандартното отклонение за групата:

Оказва се, че нашата група ученици е изчислена по ръст по следния начин: 175,50 ± 5,25 cm.

Стандартното отклонение работи добре със серии, в които разпространението на стойностите не е много голямо (това ясно се вижда в примера за растеж, където интервалът е само 18 cm). Ако диапазонът ни от измервания беше по-голям и вариацията във височината беше по-голяма, тогава стандартното отклонение щеше да стане индикативно и ще ни е необходим критерий, който може да отразява разпространението в относителни единици (т.е. в проценти спрямо средната стойност).

За тези цели са предоставени абсолютни и относителни показатели за вариация в статистиката, характеризиращи скалите на вариация:

  • Диапазон на вариация.

Квадратът на коефициента на вариация (означен като Vσ) е съотношението на стандартното отклонение към средното аритметично, изразено като процент.

За нашия пример със студенти определянето на Vσ не е трудно - то ще бъде равно на 3,18%. Основният модел е, че колкото повече се променя стойността на коефициента, толкова по-голямо е разпространението около средната стойност и толкова по-малко хомогенна е извадката.

Предимството на коефициента на вариация е, че той показва хомогенността на стойностите (неправилност) в серия от нашите измервания, освен това не се влияе от мащаба и мерните единици. Тези фактори правят коефициента на вариация особено популярен в биомедицинските изследвания. ще бъдат разгледаниче ексцесът на стойността Vσ =33% разделя хомогенните проби от хетерогенните.

Ако намерим максималните и минималните стойности в поредицата от стойности на растеж (първият пример), тогава получаваме диапазона на вариация (означен като R, понякога наричан също волатилност). В нашия пример тази стойност ще бъде равна на 18 см. Тази характеристика се използва за изчисляване на коефициента на трептене:

Коефициент на трептене - показва как диапазонът на вариация ще се отнесе към средната стойност аритметична серияв процентно отношение.

Изчисления в Microsoft Excel 2016

* - таблицата показва диапазона A1:A10 например, когато изчислявате, трябва да посочите необходимия диапазон.

Така че нека обобщим:

  1. Средната аритметична стойност е стойност, която ви позволява да намерите средната стойност на индикатор в серия от данни.
  2. Дисперсията е средната стойност на отклоненията на квадрат.
  3. Стандартно отклонение ( стандартно отклонение) е корен квадратен от дисперсията, за да се приведат мерните единици в едно и също със средното аритметично.
  4. Коефициент на вариация - стойността на отклоненията от средната стойност, изразена в относителни стойности (%).

Отделно трябва да се отбележи, че всички показатели, дадени в статията, като правило нямат собствено значение и се използват за съставяне на по-сложна схема за анализ на данни. Изключение от това правило е коефициентът на вариация, който е мярка за хомогенност на данните.

Вариационни индикатори

Средната стойност не позволява да се прецени какви колебания (вариации), на които е подложена изследваната черта в тази популация. Средните стойности сами по себе си не са достатъчни за анализ. Напълно различни в разпространението си около средната стойност на съвкупността могат да имат една и съща средна аритметична стойност. За да се намерят стойностите на вариацията в статистиката, се използват специални индикатори, които се наричат ​​индикатори на вариация. Изследването на вариациите в статистиката е от голямо значение, тъй като помага да се разбере същността на изследваното явление.

Изброяваме основните показатели на вариация и даваме формули за тяхното изчисляване.

За да характеризират размера на вариацията в статистиката, те използват абсолютни показателивариации: диапазон на вариация, средно линейно отклонение, стандартно отклонение, дисперсия.

Диапазонът на вариация е разликата между максимума и минимални стойностичерта в изследваната популация, т.е.

Диапазонът на вариация се намира лесно от ранговете на класираните серии на разпределение.

Вариацията се характеризира по-точно със средното линейно отклонение, което се намира като средна аритметична стойност на отклоненията на отделните стойности от средната, без да се взема предвид знакът на тези отклонения, т.е.

Ако първоначалните данни са групирани, тогава можем да намерим среднопретегленото линейно отклонение и както честотата (p), така и относителната честота (/) могат да се използват като тегло.

По-обективно на практика мярката за вариация отразява дисперсията (средни квадратни отклонения). Беше обсъдено в глава 2. В този случай, говорим сиотносно оценката на дисперсията, тъй като вероятностите не са известни.

Ако имаме негрупирана серия на разпределение, тогава дисперсията се дава от

Имайте предвид, че оценката на дисперсията, получена по формула (6.28), е предубедена. Използвайки го, ще направим някои систематична грешкакъм по-малката страна. Безпристрастната оценка за дисперсията се намира по формулата

По правило формула (6.30) се използва в случаите, когато изследваната популация е малка, не повече от 40 единици. В случаите, когато n> 40 използвайте формула (6.29).

Когато първоначалните данни са групирани, изчислете претеглените оценки на дисперсията

Извличайки аритметичния квадратен корен от дисперсията, получаваме още една характеристика (тя също беше обсъдена в глава 2) - стандартното отклонение или стандарта (по-точно неговата оценка).

Ако изследваната популация е достатъчно голяма, тогава тя обикновено се разделя на групи според някакъв критерий. Следователно, наред с изучаването на вариациите на даден признак в цялата популация като цяло, е възможно да се изследват вариациите за всяка от съставните й групи, както и между самите групи. Ако популацията е разделена според всеки един фактор, тогава изследването на вариациите се постига чрез намиране и анализ на три вида дисперсии: обща, междугрупова, вътрешногрупова.

Общата вариация (D x) определя вариацията в цялата съвкупност под влиянието на всички фактори, предизвикали тази вариация. То е равно на средното квадратно отклонение индивидуални ценностизнак х (x ar)и се изчислява по формули (6.29), (6.31), (6.32).

Междугрупова дисперсия F Hmg)характеризира систематичното изменение на резултантния ред, което се дължи на влиянието на признака, лежащ в основата на групирането. Тя е равна на средния квадрат на отклоненията на груповите средни стойности x аргрот общото средно аритметично x ar,т.е.

където, да се- брой групи;

° С. - честота (брой единици) в група r;

/. - относителна честота на групата Ж.

Вътрешногрупова дисперсия D Xezотразява случайна вариация (част от вариацията) поради влиянието на неотчетени фактори и независимо от атрибута, лежащ в основата на групирането. Тя е равна на средния квадрат на отклоненията на индивидуалните стойности на признака в групата Х.от средното аритметично на тази група x аргри се намира по формулите:

ако групата съдържа не повече от 40 наблюдения;

ако групата съдържа повече от 40 наблюдения (T- броя на единиците в определена група).

Прилагат се и формулите за претеглената дисперсия:

След като намерихме вътрешногруповите дисперсии за всяка група, можем да изчислим средната стойност на вътрешногрупови отклоненияпо формулите:

или използвайки отношение (6.13).

Съгласно правилото за добавяне на дисперсии общата дисперсия трябва да е равна на сумата от междугруповите и средната от вътрешногруповите дисперсии, т.е.

Вариацията на качествена (алтернативна) характеристика (характеристика, която всяка единица от популацията може или не може да притежава) се намира с помощта на дисперсията:

където С- делът на единиците от съвкупността, които имат качествен признак;

v- делът на единиците от съвкупността, които нямат качествен атрибут.

забележи това С + v = 1.

Стандартно отклонение качествена чертасе намира по формулата

Например, ако на 10 000 жители на областен център се падат 3500 бр висше образование, но 6500 нямат, значи

Дисперсията на качествен признак е равна на

Максималната стойност на дисперсията на качествен признак се получава, ако С = v= 0,5. То ще бъде равно на 0,25.

За да се характеризира мярката на разсейване на изследваната черта, индикаторите за вариация се намират в относителни единици. Ще ви представим някои от тях.

Коефициентът на трептене отразява относителното разпространение на екстремните стойности около средноаритметичната стойност

Относителното линейно отклонение характеризира дела на средната стойност на абсолютните отклонения от средноаритметичното, т.е.

Коефициентът на вариация, който е относителното стандартно отклонение, т.е.

По стойността на коефициента на вариация може да се съди за интензивността на вариацията на признака и следователно за хомогенността на състава на изследваната популация. Колкото по-голяма е стойността на коефициента на вариация, толкова по-голямо е разпространението на стойностите на чертата около средноаритметичната стойност и съответно толкова по-голяма е хетерогенността на популацията. Има скала за определяне на степента на хомогенност на популацията в зависимост от стойността на коефициента на вариация:

  • - ако Vx
  • - ако 30%
  • - ако V x > 60%, тогава популацията се счита за хетерогенна.

Имайте предвид, че дадената скала е доста условна.

Основните характеристики на формата на разпределение са изкривяване и ексцес. Те бяха обсъдени достатъчно подробно в Глава 2. Тук ще говоримотносно техните оценки, тъй като броят на измерванията е краен и вероятностите са неизвестни. Ще обозначим изкривяването (скосяването) и ексцеса със същите букви като в Глава 2, но ще добавим тилда (~) в горната част.

За да се оцени степента на асиметрия на разпределението, обикновено се използва моментният коефициент на асиметрия, който се намира по формулата

където Dz е оценката на третия централен момент, което може да се определи по формулите:

Степента на значимост на коефициента на асиметрия се оценява с помощта на средната квадратична грешка на коефициента на асиметрия, която зависи от обема на изследваната популация (n) и се намира по следната формула:

Ако съотношението е , тогава асиметрията се счита за значителна, а ако , тогава асиметрията може да се счита за незначителна, причинена от влиянието на случайни причини.

Основният недостатък на моментния коефициент на асиметрия A x е, че неговата стойност зависи от наличието на рязко разграничени варианти в съвкупността. За такива популации този коефициент е малко полезен, тъй като неговата голяма (абсолютна) стойност се обяснява с преобладаващия принос на нетипични стойности към оценката на третия централен момент, а не с асиметрията на разпределението на основната част на варианта.

Коефициентите на структурна асиметрия характеризират асиметрията само в централната част на разпределението, т.е. по-голямата част от варианта и, за разлика от коефициента на моментна асиметрия, не зависят от екстремните стойности на признака.

Като правило се използва коефициентът на структурна асиметрия, предложен от К. Пиърсън:

Друга характеристика на формата на разпределение е ексцесът. Оценката му в статистиката може да се получи по формулата

където D 4 - оценка на четвъртия централен момент, който може да се намери по формулите

За да оцените значимостта на ексцеса на разпределението, намерете средната стойност квадратична грешкаексцес:

Ако има отклонение, значи отклонение от нормалното

разпределението се счита за значително, в противен случай се признава за незначително и се обяснява със случайни причини.

Сега нека дадем конкретен пример за изчисление, в който дефинираме редица характеристики, дадени по-горе, и също така засягаме въпроси, които не са обсъдени в тази глава. В този случай, заедно с изчисленията, разглеждаме накратко някои необходими теоретични въпроси.

Имайте предвид, че даденият пример е чисто образователен, данните за него са взети, както се казва, „от тавана“. Освен това поредицата от разглеждани наблюдения съдържа само 20 наблюдения за по-лесно изчисление, тъй като много ученици имат затруднения дори при изчисляване на средни стойности. В момента има голям бройсофтуерни пакети за определяне статистически характеристики, така че вече никой не брои на ръка. Трябва да се помни, че качеството на първоначалните данни е от голямо значение: ако те са с лошо качество, тогава резултатът ще бъде същият, статистиката и математиката няма да помогнат в този случай.

Пример 6.2

Да приемем, че сме получили статистически материалза броя на регистрираните ПТП в областен център Н. Тя е представена под формата на таблица (Таблица 6.3), като данните в нея са дадени за датите на текущата година.

Таблица 6.3

Брой произшествия (x,)

Брой произшествия (x.)

В този случай броят на произшествията е случайна величина X, а резултатите от наблюденията, дадени в табл. 6.3 - набор от стойности, взети от тази случайна променлива, т.е. X \u003d (Xj, x 2 ..., x 20). Данните, дадени в табл. 6.3, е необходимо да се рационализира, например, местоположението съживете ги във възходящ ред на стойностите на изследваната характеристика x. (r = 1,20). Ако една и съща стойност се повтаря няколко пъти, повторете я. В резултат на това получаваме статистически серииразпределения (виж таблица 6.4).

Въз основа на класираните серии (вижте таблица 6.4), можете да конструирате, например, статистическата функция на разпределение F (x), която разгледахме в глава 2.

F(x) е прекъсната стъпкова функция, непрекъсната отляво и имаща n скока (n е броят на наблюденията) и стойността на всеки скок е 1 /P.Тъй като някои наблюдения съвпадат, скоковете се сливат и техният брой ще бъде равен на броя на наблюдаваните стойности случайна величина X. В нашия случай F(x)ще има 15 скока, от което следва, че е нерационално да се изгражда според класирана серия, но трябва да се направи според групирана серия, която ще бъде разгледана малко по-късно.

Таблица 6.4

Според класираните серии (Таблица 6.4) е възможно да се определят оценки на числовите характеристики на наблюдаваната случайна променлива X (броя на произшествията), например средно аритметично, дисперсия, стандартно отклонение, диапазон на вариация и т.н. .

Нека изчислим, например, диапазона на вариация и средноаритметичното:

всичко числови характеристикище определим до цели числа, тъй като няма десети и стотни от инцидент. Можете да изчислите други числени характеристики според табл. 6.4, но ще направим това чрез групиран ред.

Въз основа на серията на статистическото разпределение, ние изграждаме групирана серия, която беше обсъдена в Глава 4. Имайте предвид, че дължините на интервалите в нея не трябва да са еднакви, но всеки от тях трябва да съдържа наблюдения, т.е. не трябва да има да са празни интервали. В случай, че стойността на случайната променлива X попада на границата между цифрите, ще я разделим поравно между съседни цифри, тоест ще добавим 1/2 към стойността на всяка от тях.

Намерете приблизително оптималния брой групи (цифри) с равни интервали, като използвате формулата на Стърджис:

където да се- брой цифри;

П- броят на наблюденията.

Но дадена формулае приложимо, ако разпределението на изследваната случайна променлива X се доближава до нормалното, но ние не знаем това. Затова няма да използваме формулата на Стърджис (в нашия случай тя дава следния резултат да се"5.3" 5).

Получената групирана серия е показана в табл. 6.5. В допълнение към разрядите, честотите, относителните честоти, той съдържа честотни плътности и теоретични вероятности, които ще са необходими в бъдеще.

Таблица 6.5

забележи това

където е*- относителна плътност на честотата, т.е. отношението на относителната честота към дължината на интервала (в пер

В нашия случай е еднакъв за всички цифри).

Имайки групирана серия (вижте таблица 6.5), можем приблизително да изградим статистическа функция на разпределение F (x) Като стойности на X, за които се определя F (x), ние вземаме границите на изхвърлянията. Статистическата функция на разпределение за нашия пример е показана на фиг. 6.1.


Сега, използвайки групираните серии (вижте таблица 6.5), ние конструираме хистограма, нанасяйки разрядите по абсцисната ос и съответните относителни честотни плътности по ординатната ос fvВ резултат на това получаваме набор от правоъгълници, площта на всеки от които е равна на съответната относителна честота (фиг. 6.2.).

Имайте предвид, че хистограмата може да бъде изградена с помощта на честотите на ..

Сега, използвайки групирана статистическа серия, получаваме желаните числени характеристики на изследваната случайна променлива X (броя на злополуките), т.е. средноаритметичната стойност и някои индикатори за вариация. Ще използваме относителната честота / (честота) като тегло (можете да използвате, както вече казахме, относителната честота (a.) като тегло).

Изчислете средноаритметичното тегло:

Като Х.вземете средата на съответния интервал. забележи това x arсе оказа същото като в класираната серия.

Намиране на дисперсията:

Ние определяме стандартното отклонение:

Стандартното отклонение се закръгля до десети.

Намираме средното линейно отклонение:

Изчисляваме коефициента на вариация: т.е. нашата съвкупност може да се счита за хомогенна.

Определете коефициента на трептене:

Използвайки формули (6.21) и (6.23), изчисляваме модата и медианата. При изчисляване на тези характеристики използваме честотата..

Намираме моментния коефициент на асиметрия:

За да направим това, първо определяме оценката на третия централен момент:

Ето защо, A x~ -0,031, т.е. имаме много малка отрицателна асиметрия.

Степента на значимост на асиметрията може да се оцени с помощта на средната квадратична грешка на коефициента на асиметрия по формулата

защото , тогава асиметрията е незначителна и се дължи на влиянието на случайни фактори.

Сега изчисляваме ексцеса по формулата За него

Първо намираме оценка за четвъртия централен момент:

Така че ексцесът е равен. д. нашата дистрибуция

леко притиснат към абсцисната ос.

За да определим дали ексцесът на разпределение е значителен, ние изчисляваме неговата средна квадратична грешка, като използваме формула (6.55). Вземете

Тъй като отношението по-малко от 3, тогава отклонението от

Обърнете внимание, че стандартното отклонение в величината винаги е по-голямо от средното линейно отклонение. В нашия случай

Съотношението зависи от наличието на резки отклонения в агрегата и може да бъде индикатор за неговото „замърсяване“ с нетипични единици, които се открояват от масата. За нормално разпределение отношението

За нашия пример имаме

Заменяйки числените характеристики на случайна променлива с техните оценки, ние допускаме някаква грешка. Желателно е да се оцени тази грешка и да се намери вероятността (надеждността), че тя не надвишава някои малки положителни s (точност).

В нашия пример сме заменили M[X]на os ar,а D[X]на D x .Нека да оценим точността и надеждността на тези оценки въз основа на резултатите от нашия пример.

За да се оцени точността и надеждността на оценката, трябва да се знае нейният закон за разпределение. В много случаи този закон се оказва близък до нормалния. Тъй като средната статистическа значимостслучайна променлива X е сумата от достатъчно голям брой независими случайни променливи, тогава според централната гранична теоремаразпределенията са близки до нормалните с математическо очакване

и дисперсия и следователно със стандарта

За да се определят параметрите на нормалното разпределение, за което се намира оценката x ar,заместваме във формули (6.57) - (6.59) истинските параметри M[X], D и a(x) чрез техните оценки x ap, D x, d xи получаваме

Ако приемем, че случайната променлива x arима нормално разпределение с параметри M[x ar]и Д,намерете приблизително вероятността оценката x arсе отклонява от неговия математическо очакванепо-малко от s.

където Ф 0 (x) е нормализираната функция на Лаплас, която вече беше разгледана в Глава 2. За нея са съставени таблици (виж Приложение 5).

Ние използваме данните от примера, който разглеждаме, и оценяваме точността и надеждността x ar.За нашия пример имаме: x ar = 90; D x = 57,5; d x = 7.6. Нека намерим вероятността, че, ако приемем M[X] * x ar,няма да правим повече от e - 3 грешки.

Съгласно формули (6.60) - (6.62) получаваме:

Според таблицата в Приложение 5 намираме F o (1,765) = 0,46164, т.е. вероятността грешките от замяната на M[X] с x arне надвишава 3 е приблизително равно на 0,92 (92%). Тази вероятност може да се счита за достатъчна.

Доказано е, че когато n> 20 точки D xнезависимо от разпределението на случайната променлива X е приблизително разпределена върху нормален законс параметри:

Замествайки във формули (6.64)-(6.66) D[X] своя статистическа оценка D xполучаваме:

Използвайки данните от примера, съгласно формули (6.67) и (6.69) получаваме:

Сега, използвайки формула (6.63), намираме вероятността оценката D xотклоняват се от неговия истинска стойност D[X] е по-малко от e = 3.


Според таблицата в Приложение 5 намираме ФД0Д6) = 0,06356, т.е. вероятността оценката от заместването на D[X] с D xще бъде по-малко от 3 равно на 0,13 (13%), което очевидно не е достатъчно. Имаме само 20 наблюдения и формули (6.64)-(6.66) работят за n > 20.

Вече казахме, че нашият пример е образователен. AT реални задачиима много повече данни, така че вероятността, получена по формула (6.63), ще бъде много по-висока.

Хистограмата, която получихме (виж Фиг. 6.2.) е графично изображениенашата дистрибуция. Но с помощта на хистограма допълнителни изследваниянеудобно. Следователно въпросът е как да изберем аналитична зависимост (формула) за това конкретно разпределение, която да изразява само съществените характеристики на нашето разпределение. Тази задачанаречени, подравнете статистическите разпределения. Обикновено хистограмите се изравняват, т.е. те се заменят с някаква теоретична крива, която има определен аналитичен израз. И тогава този израз се приема като плътност на разпределение f(x).

В разглеждания пример ние подравняваме конструираната от нас хистограма според нормалния закон с параметри x ar= 90; a x \u003d 7,6, т.е. в израза за плътността на нормалното разпределение

Заменяме M[X] и a[X] с техните оценки и получаваме

Като ценности хвземаме границите на интервалите в нашата групирана серия, заместваме ги във формулата (6.70) и получаваме:

Получените данни се нанасят на фигура 6.2 и получаваме гладка крива.

Сега нека проверим хипотезата Н за нормалния закон на разпределение с плътност f(x).Хипотезата H o се противопоставя на алтернативната хипотеза H 1, която казва, че случайната променлива X не се подчинява на нормалния закон с параметри x ar= 90; и х = 7,6.

За да се заключи дали данните от наблюдението са в съответствие с изложената от нас хипотеза, се използва тест за съответствие. Критерият за съответствие е критерий за проверка на хипотезата за закона за разпределение. Използва се за проверка на съответствието на предложения тип закон за разпределение с експериментални данни.

Има различни критерии за съгласие: Pearson, Fisher, Kolmogorov и др.

При тестване на хипотези могат да се допуснат два вида грешки. Грешка от първия вид е, че правилната нулева хипотеза H o се отхвърля; грешка от втори вид – че се отхвърля правилната алтернативна хипотеза

Вероятността за грешка от първи вид (а) се нарича ниво на значимост на критерия. Колкото по-малък е a, толкова по-малка е вероятността за отхвърляне на правилната хипотеза H относно допустимото a обикновено се задава предварително. Като правило се използват стандартни стойности на \u003d 0,01; 0,05; 0,1.

Вероятността за грешка от втори вид е означена с p. Стойността (1 - p) - вероятността да се избегне грешка от втори вид (да се приеме правилната хипотеза и да се отхвърли неправилната хипотеза H 0) - се нарича мощност на критерия.

Първо използваме, за да проверим хипотезата за нормална дистрибуцияКритерий на Pearson (x 2) - Даваме кратко теоретична информация. Да предположим, че са проведени n експеримента, във всеки от които е взета случайната променлива X определена стойност, т.е. х 1 х 2 ....., x k (да се- брой възможни стойности

случайна променлива X). В резултат на това получаваме статистическа серия на разпределение (Таблица 6.6).

Таблица 6.6

където са съответните вероятности.

Смятаме, че отклонения / от Римат случайни причини. За да се провери правдоподобността на изложената хипотеза, е необходимо да се избере някаква мярка за несъответствието между статистическите и теоретичните разпределения.

Когато се използва критерият на Pearson, сумата от квадратните отклонения (/. - Р.),взети с някакви тежести ОТ ( ,т.е.

Теглата на С. са въведени, тъй като отклоненията, свързани с различни стойностиР., не могат да се считат за еднакви по важност.

Пиърсън доказа, че ако вземем

след това при големи числаексперименти Пзакон за разпределение на количеството Раима следните свойства: практически не зависи от закона за разпределение на случайната променлива X, зависи малко от броя на експериментите n, зависи само от броя на стойностите на случайната променлива X(k)и при n -> oo се доближава до разпределението x 2 Следователно мярката на несъответствие в този случай е означена % 2 , т.е.

Въведете n под знака за сума, имайки предвид това и след това

трансформации, които получаваме

Разпределението на x 2 зависи от параметър, наречен брой степени на свобода (r s), който се определя, както следва:

където Se-- количество независими условия, които се наслагват върху относителните честоти. За нашия пример Se= 3. Ние поискахме да бъдат изпълнени следните условия:

За разпространение % 2 бяха съставени таблици (виж Приложение 6). За нашия пример, нека тестваме хипотезата за нормално разпределение с помощта на теста на Пиърсън.

Да се ​​върнем на масата. 6.5, където има една празна колона (R.) - това са теоретичните вероятности за попадане в интервала на случайна променлива X, която има нормално разпределение с параметри x ar = 90; и х = 7,6.

За да ги намерим, използваме формула (2.44). Получаваме:

където F o (x) е нормализираната функция на Лаплас, за която, както вече казахме, са съставени таблици (виж Приложение 5).

Получените стойности на вероятностите ще бъдат въведени в табл. 6.5. Освен това, съгласно формула (6.74), получаваме:

Броят на степените на свобода в нашия случай е r = 6 - 3 = 3. Нивото на значимост се приема равно на 0,1, т.е. a = 0,1. Според таблицата за разпределение x 2 (виж Приложение 6), според нивото на значимост a = 0,1 и според броя на степените на свобода r = 3, намираме %m = 6,25.

защото Xm > X R,тогава хипотезата за нормално разпределение не противоречи на данните от наблюденията и може да бъде приета с ниво на значимост 0,1. Ако няма под ръка таблица за разпределение x 2, за да се оцени случайността на несъответствието /. от Р.можете да използвате критерия Романовски

Ако връзката (6.76) е по-малка от три, тогава несъответствието между действителното и теоретичното разпределение е случайно, в противен случай те са значителни.

За примерните данни имаме , така че може да се приеме и хипотезата за нормално разпределение.

Сега нека приложим теста за съответствие на Колмогоров, за да проверим хипотезата за нормално разпределение.

Критерият на Колмогоров се основава на намирането на максималното несъответствие между натрупаните честоти или относителните честоти на експерименталното разпределение и вероятностите на теоретичното разпределение. Определя се по формулите:

ако използваме натрупаните относителни честоти;

ако използваме натрупаните честоти, къде г М- максималната стойност на несъответствията между натрупаните относителни честоти и вероятности;

Д М- максимална разлика между реални и теоретични честоти.

Ще използваме формула (6.77) и ще поставим необходимите данни в табл. 6.8.

От табл. 6.8 следва, че следователно според формулата

(6.75) получаваме

Таблица 6.8

Натрупана fи Р

След това според таблиците R()(вижте Приложение 8) намираме P(X k)= 1. Следователно можем да приемем, че несъответствията между относителните честоти и теоретичните вероятности са от случаен характер и следователно хипотезата за нормално разпределение не противоречи на данните от наблюденията.

В заключение още веднъж повтаряме, че нашият пример има образователен характер. Трябва да се има предвид, че когато се използва критерият на Pearson, броят на наблюденията трябва да бъде най-малко няколко десетки, всяка цифра трябва да съдържа най-малко пет наблюдения, а броят на цифрите трябва да бъде приблизително 10-15.

Въпроси за самопроверка

  • 1. Какви видове средни стойности се използват в статистиката?
  • 2. Как се определят хармоничната проста и претеглена средна стойност?
  • 3. Как се определя геометричната проста и претеглена средна?
  • 4. Как се определя простата и среднопретеглената аритметична стойност?
  • 5. Как се изчисляват RMS и RMS?
  • 6. Какви показатели за вариация познавате?
  • 7. Какъв е обхватът на вариацията и средното линейно отклонение? Какви формули се използват за изчисляването им?
  • 8. Какво е дисперсия и стандартно отклонение? Какви формули се използват за изчисляването им?
  • 9. Каква е формулата за дисперсията на качествен признак?
  • 10. Какъв е коефициентът на вариация? Какво е значението му за икономическия анализ?
  • 11. Какво е правилото за добавяне на дисперсии?
  • 12. Какво представляват асиметрията и ексцесът и какви формули се използват за намирането им?