Биографии Характеристики Анализ

Определете параметрите на уравнението на двойната линейна регресия. Примерно отклонение за

Сдвоена линейна регресия

РАБОТИЛНИЦА

Сдвоена линейна регресия: семинар. -

Изучаването на иконометрия включва студентите да придобият опит в изграждането на иконометрични модели, вземане на решения относно спецификацията и идентифицирането на модел, избор на метод за оценка на параметрите на модела, оценка на неговото качество, тълкуване на резултатите, получаване на прогнозни оценки и др. Семинарът ще помогне на студентите придобиват практически умения по тези въпроси.

Одобрено от редакционно-издателския съвет

Съставител: М.Б. Перова, доктор по икономика, професор

Общи положения

Иконометричните изследвания започват с теория, която установява връзки между явленията. От целия набор от фактори, влияещи върху ефективния признак, се разграничават най-значимите фактори. След като се установи наличието на връзка между изследваните характеристики, чрез регресионен анализ се определя точната форма на тази връзка.

Регресионен анализе да се определи аналитичен израз (в дефиницията на функция), в който промяната на една стойност (ефективен признак) се дължи на влиянието независима стойност(знак за фактор). Тази връзка може да бъде количествено определена чрез конструиране на регресионно уравнение или регресионна функция.

Основният регресионен модел е сдвоен (еднофакторен) регресионен модел. Регресия по двойки– уравнението на връзката на две променливи прии х:

където - зависима променлива (резултатен знак);

– независима, обяснителна променлива (факториален атрибут).

В зависимост от характера на промяната прис промяна хправи разлика между линейни и нелинейни регресии.

Линейна регресия

Тази регресионна функция се нарича полином от първа степен и се използва за описание на процеси, развиващи се равномерно във времето.

Наличие на случаен член (регресионни грешки) е свързано с въздействието върху зависимата променлива на други фактори, които не са взети предвид в уравнението, с възможната нелинейност на модела, грешки в измерването, следователно външния вид уравнение на случайна грешкарегресията може да се дължи на следната цел причини:

1) непредставителност на извадката. Сдвоеният регресионен модел включва фактор, който не е в състояние да обясни напълно вариацията в променливата на резултата, която може да бъде повлияна от много други фактори (липсващи променливи) в много по-голяма степен. Заетостта, заплатите могат да зависят освен от квалификацията и от нивото на образование, трудов стаж, пол и др.;

2) има възможност променливите, включени в модела, да бъдат измерени погрешно. Например данните за семейните разходи за храна се събират от записите на участниците в проучването, от които се очаква внимателно да записват ежедневните си разходи. Разбира се, това може да доведе до грешки.

Въз основа на наблюдението на извадката се оценява регресионното уравнение на извадката ( регресионна линия):

,

където
– оценки на параметрите на регресионното уравнение (
).

Аналитична форма на зависимостмежду изследваната двойка характеристики (регресионна функция) се определя, като се използва следното методи:

    Въз основа на теоретичен и логически анализприродата на изучаваните явления, тяхната социално-икономическа същност. Например, ако се изследва връзката между доходите на населението и размера на депозитите на населението в банките, тогава е очевидно, че връзката е пряка.

    Графичен методкогато естеството на връзката се оценява визуално.

Тази зависимост може да се види ясно, ако изградите графика, като нанесете стойността на атрибута върху оста x х, а по оста y - стойностите на характеристиката при. Поставяне на графиката на точките, съответстващи на стойностите хи при, получаваме корелационно поле:

а) ако точките са произволно разпръснати в полето, това показва липсата на връзка между тези характеристики;

б) ако точките са концентрирани около ос, простираща се от долния ляв ъгъл до горния десен, тогава има пряка връзка между характеристиките;

в) ако точките са концентрирани около ос, минаваща от горния ляв ъгъл към долния десен, тогава връзката между характеристиките е обратна.

Ако в корелационното поле свържем точките с отсечки, тогава получаваме прекъсната линияс известна възходяща тенденция. Това ще бъде емпирична връзка или емпирична регресионна линия. По външния му вид може да се прецени не само наличието, но и формата на връзката между изследваните характеристики.

Изграждане на двойно регресионно уравнение

Конструкцията на регресионното уравнение се свежда до оценка на неговите параметри. Тези оценки на параметрите могат да бъдат намерени по различни начини. Един от тях е методът най-малки квадрати(MNK). Същността на метода е следната. Всяка стойност съответства на емпиричната (наблюдаваната) стойност . Чрез конструиране на регресионно уравнение, например уравнение на права линия, всяка стойност ще съответства на теоретичната (изчислената) стойност . Наблюдавани стойности не лежат точно на линията на регресия, т.е. не съвпадат с . Разликата между действителните и изчислените стойности на зависимата променлива се нарича остатък:

LSM ви позволява да получите такива оценки на параметрите, в които сумата от квадратните отклонения на действителните стойности на ефективната характеристика приот теоретично , т.е. сума от квадратите на остатъците, минимум:

За линейни уравнения и нелинейни уравнения, сводими до линейни, следната система се решава по отношение на аи b:

където н– размер на извадката.

Решавайки системата от уравнения, получаваме стойностите аи b, което ни позволява да пишем регресионно уравнение(регресионно уравнение):

където е обяснителната (независима) променлива;

–обяснена (зависима) променлива;

Регресионната линия минава през точката ( ,) и равенствата са изпълнени:

Можете да използвате готови формули, които следват от тази система от уравнения:

където - средната стойност на зависимия признак;

е средната стойност на независим признак;

е средноаритметичното на произведението на зависимите и независимите признаци;

е дисперсията на независим признак;

е ковариацията между зависимите и независимите характеристики.

Примерна ковариациядве променливи х, приНаречен средна стойностпроизведението на отклоненията на тези променливи от техните средни стойности

Параметър bпри хима страхотен практическа стойности се нарича коефициент на регресия. Коефициент на регресияпоказва колко единици се променя средно стойността при х 1 мерна единица.

Знак за параметър bв уравнението на двойната регресия показва посоката на връзката:

ако
, то връзката между изследваните показатели е пряка, т.е. с нарастване на факторния знак хрезултантният знак нараства при, и обратно;

ако
, то връзката между изследваните показатели е обратна, т.е. с нарастване на факторния знак хефективен знак принамалява и обратно.

Стойност на параметъра ав уравнението на двойната регресия в някои случаи може да се интерпретира като начална стойност на ефективния признак при. Тази интерпретация на параметъра авъзможно само ако стойността
има значението.

След построяване на регресионното уравнение наблюдаваните стойности гможе да си представим като:

останки , както и грешки , са случайни променливи, но те, за разлика от грешките , наблюдавано. Остатъкът е тази част от зависимата променлива г, което не може да се обясни с регресионното уравнение.

Въз основа на регресионното уравнение може да се изчисли теоретични стойности хза всякакви стойности х.

В икономическия анализ често се използва понятието еластичност на функция. Функционална еластичност
изчислено като относителна промяна гдо относителна промяна х. Еластичността показва колко се променя функцията
когато независимата променлива се промени с 1%.

Поради еластичността линейна функция
не е постоянна стойност, но зависи от х, тогава коефициентът на еластичност обикновено се изчислява като среден индекс на еластичност.

Коефициент на еластичностпоказва с колко процента стойността на ефективния атрибут ще се промени средно в съвкупността припри смяна на знака на фактора х 1% от средната му стойност:

където
– средни стойности на променливите хи прив пробата.

Оценка на качеството на изградения регресионен модел

Качество на регресионния модел– адекватност на изградения модел спрямо изходните (наблюдавани) данни.

За измерване на плътността на връзката, т.е. за да измерите колко близо е до функционалното, трябва да определите дисперсията, която измерва отклоненията приот при хи характеризиране на остатъчната вариация, дължаща се на други фактори. Те са в основата на показателите, характеризиращи качеството на регресионния модел.

Качеството на двойната регресия се определя с помощта на характеризиращи коефициенти

1) плътността на връзката - индексът на корелация, сдвоеният коефициент на линейна корелация;

2) апроксимационна грешка;

3) качеството на регресионното уравнение и неговите отделни параметри - средните квадратични грешки на регресионното уравнение като цяло и неговите отделни параметри.

За регресионни уравнения от всякакъв вид се дефинират корелационен индекс, което характеризира само стегнатостта на корелационната зависимост, т.е. степента на неговото доближаване до функционална връзка:

,

където – факторна (теоретична) дисперсия;

е общата дисперсия.

Индексът на корелация приема стойности
, при което,

ако

ако
е връзката между характеристиките хи прие функционален, толкова по-близо до 1, толкова по-тясна е връзката между изследваните признаци. Ако
, тогава връзката може да се счита за близка

Изчисляват се отклоненията, необходими за изчисляване на показателите за плътност на връзката:

Обща дисперсия, измерване обща вариацияпоради действието на всички фактори:

Факторна (теоретична) дисперсия,измерване на вариацията на получената черта припоради действието на факторен знак х:

Остатъчна дисперсия, което характеризира вариацията на признака припоради всички фактори с изключение на х(т.е. с изключените х):

След това, съгласно правилото за добавяне на отклонения:

Качество на парната баня линеенрегресията може да се дефинира и с помощта на сдвоен линеен коефициент на корелация:

,

където
– ковариация на променливите хи при;

– стандартно отклонение на независим признак;

е стандартното отклонение на зависимия признак.

Коефициентът на линейна корелация характеризира плътността и посоката на връзката между изследваните признаци. Измерва се в рамките на [-1; +1]:

ако
- тогава връзката между знаците е пряка;

ако
- тогава връзката между знаците е обратна;

ако
– тогава няма връзка между знаците;

ако
или
- тогава връзката между признаците е функционална, т.е. характеризиращ се с перфектно съвпадение между хи при. Колкото по-близо до 1, толкова по-тясна е връзката между изследваните признаци.

Ако индексът на корелация (сдвоен линеен коефициенткорелации) на квадрат, получаваме коефициента на детерминация.

Коефициент на определяне- представлява дела на факторната вариация в общата сума и показва колко процента е вариацията на резултантния атрибут приобяснява се с вариацията на факторния признак х:

Не обхваща всички вариации. приот факторна черта х, а само тази част от него, която съответства на уравнението на линейната регресия, т.е. показва специфично тегловариация на резултантния признак, линейно свързана с вариацията на факторния признак.

Стойност
- пропорцията на вариацията на резултантния атрибут, която регресионният модел не може да вземе предвид.

Разсейването на точките в корелационното поле може да бъде много голямо и изчисленото регресионно уравнение може да даде голяма грешка при оценката на анализирания показател.

Средна апроксимационна грешкапоказва средното отклонение на изчислените стойности от действителните:

Максимално допустимата стойност е 12–15%.

Стандартната грешка се използва като мярка за разпространението на зависимата променлива около регресионната линия.За целия набор от наблюдавани стойности, стандарт (rms) грешка на регресионното уравнение, което е стандартното отклонение на действителните стойности приспрямо теоретичните стойности, изчислени чрез регресионното уравнение при х .

,

където
е броят на степените на свобода;

ме броят на параметрите на регресионното уравнение (за уравнението на правата линия м=2).

Стойността на средната квадратична грешка може да бъде оценена чрез нейното сравняване

а) със средната стойност на ефективния признак при;

б) със стандартното отклонение на характеристиката при:

ако
, тогава използването на това регресионно уравнение е подходящо.

Оценява се отделно стандартен (rms) грешки на параметрите на уравнението и индекса на корелация:

;
;
.

х- стандартно отклонение х.

Проверка на значимостта на регресионното уравнение и показателите за плътността на връзката

За да може конструираният модел да се използва за по-нататъшни икономически изчисления, не е достатъчно да се провери качеството на конструирания модел. Необходимо е също така да се провери значимостта (важността) на оценките на регресионното уравнение и показателя за близост на връзката, получени чрез метода на най-малките квадрати, т.е. е необходимо да ги проверите за съответствие с истинските параметри на връзката.

Това се дължи на факта, че показателите, изчислени за ограничена популация, запазват елемента на случайност, присъщ на индивидуалните стойности на атрибута. Следователно те са само оценки на определена статистическа закономерност. Необходимо е да се оцени степента на точност и значимост (надеждност, същественост) на регресионните параметри. Под важностразбиране на вероятността стойността на проверявания параметър да не е равна на нула не включва стойности с противоположни знаци.

Тест за значимост– проверка на предположението, че параметрите са различни от нула.

Оценяване на значимостта на сдвоеното регресионно уравнениесе свежда до проверка на хипотези за значимостта на регресионното уравнение като цяло и неговите отделни параметри ( а, b), двоен коефициент на детерминация или индекс на корелация.

В този случай може да се посочи следното основни хипотезиз 0 :

1)
– коефициентите на регресия са незначими и уравнението на регресията също е незначимо;

2)
– двойният коефициент на детерминация е незначим и уравнението на регресията също е незначимо.

Алтернативни (или обратни) са следните хипотези:

1)
– регресионните коефициенти са значително различни от нула, а построеното регресионно уравнение е значимо;

2)
– двойният коефициент на детерминация е значително различен от нула и построеното регресионно уравнение е значимо.

Тестване на хипотезата за значимостта на сдвоеното регресионно уравнение

За да проверим хипотезата за статистическа незначимост на уравнението на регресията като цяло и коефициента на детерминация, използваме Е-критерий(Критерий на Фишер):

или

където к 1 = м–1 ; к 2 = нм е броят на степените на свобода;

не броят на единиците съвкупност;

ме броят на параметрите на регресионното уравнение;

– факторна дисперсия;

е остатъчната дисперсия.

Хипотезата се тества, както следва:

1) ако действителната (наблюдаваната) стойност Е-критерият е по-голям от критичната (таблична) стойност на този критерий
, тогава с вероятност
основната хипотеза за незначимостта на регресионното уравнение или двойния коефициент на детерминация се отхвърля и регресионното уравнение се признава за значимо;

2) ако действителната (наблюдаваната) стойност на F-критерия е по-малка от критичната стойност на този критерий
, тогава с вероятност (
) приема се основната хипотеза за незначимостта на регресионното уравнение или двойния коефициент на детерминация и изграденото регресионно уравнение се признава за незначително.

критична стойност Е- критерият се намира по съответните таблици в зависимост от нивото на значимост и брой степени на свобода
.

Брой степени на свобода– показател, който се определя като разлика между размера на извадката ( н) и броя на оценените параметри за тази извадка ( м). За сдвоен регресионен модел броят на степените на свобода се изчислява като
, тъй като два параметъра се оценяват от извадката (
).

Ниво на значимост - определената стойност
,

където е доверителната вероятност, че оцененият параметър попада в доверителния интервал. Обикновено се взема 0,95. По този начин е вероятността оцененият параметър да не попадне в доверителния интервал, равен на 0,05 (5%).

След това, в случай на оценка на значимостта на сдвоеното регресионно уравнение, критичната стойност на F-критерия се изчислява като
:

.

Тестване на хипотезата за значимостта на параметрите на уравнението на двойната регресия и индекса на корелация

При проверка на значимостта на параметрите на уравнението (предположението, че параметрите са различни от нула), се излага основната хипотеза за незначимостта на получените оценки (
. Като алтернативна (обратна) хипотеза се излага за значимостта на параметрите на уравнението (
).

За да проверим предложените хипотези, използваме T -критерий (T-статистика) Студент. Наблюдавана стойност T-критерият се сравнява със стойността T-критерий, определен от таблицата за разпределение на Стюдънт (критична стойност). критична стойност T- критерии
зависи от два параметъра: ниво на значимост и брой степени на свобода
.

Предложените хипотези се тестват, както следва:

1) ако модулът на наблюдаваната стойност T-критерият е по-голям от критичната стойност T-критерии, т.е.
, тогава с вероятност
отхвърля се основната хипотеза за незначимостта на регресионните параметри, т.е. регресионните параметри не са равни на 0;

2) ако модулът на наблюдаваната стойност T- критерият е по-малък или равен на критичната стойност T-критерии, т.е.
, тогава с вероятност
се приема основната хипотеза за незначимостта на регресионните параметри, т.е. регресионните параметри почти не се различават от 0 или са равни на 0.

Оценката на значимостта на регресионните коефициенти с помощта на теста на Стюдънт се извършва чрез сравняване на техните оценки със стойността на стандартната грешка:

;

За оценка на статистическата значимост на индекса (линейния коефициент) на корелацията се използва и T-Критерий на ученика.

Сдвоената регресия характеризира връзката между две характеристики: резултатна и факторна. Важна и нетривиална стъпка в изграждането на регресионен модел е изборът на регресионно уравнение. Този избор се основава на теоретични данни за изследваното явление и предварителен анализ на наличните статистически данни.

Уравнение на парната баня линейна регресияизглежда като:

където са теоретичните стойности на ефективната характеристика, получени от регресионното уравнение; - коефициенти (параметри) на регресионното уравнение.

Регресионният модел е изграден на базата на статистически данни и може да се използва като индивидуални ценностифункции и групирани данни. За да се идентифицира връзката между характеристиките, е достатъчно Голям бройнаблюдения, статистическите данни се групират предварително по двата критерия и се изгражда корелационна таблица. С помощ корелационна таблицапоказва се само корелацията по двойки, т.е. връзка на ефективна характеристика с един фактор. Оценката на параметрите на регресионното уравнение се извършва по метода на най-малките квадрати, който се основава на предположението за независимост на наблюденията на изследваната съвкупност и изискването сумата от квадратите на отклоненията на емпиричните данни от подравнените стойности на ефективния фактор са минимални:

.

За линейно уравнениерегресия имаме:

За да намерим минимума на тази функция, приравняваме нейните частни производни на нула и получаваме система от две линейни уравнения, която се нарича система нормални уравнения:

където е обемът на изследваната популация (брой единици на наблюдение).

Решаването на система от нормални уравнения ви позволява да намерите параметрите на регресионното уравнение.

Коефициентът на двойна линейна регресия е средната стойност в точката, така че икономическото му тълкуване е трудно. Значението на този коефициент може да се тълкува като средното влияние върху ефективния атрибут на неотчетени (неразпределени за изследване) фактори. Коефициентът показва колко средно се променя стойността на ефективния атрибут, когато факторният атрибут се промени с единица.

След получаване на регресионното уравнение е необходимо да се провери неговата адекватност, т.е. съответствие с действителните статистически данни. За целта се проверява значимостта на регресионните коефициенти: установява се до каква степен тези показатели са характерни за цялата населениедали са резултат от случайно стечение на обстоятелствата.

За да се тества значимостта на коефициентите на проста линейна регресия с размер на популацията по-малък от 30 единици, се използва t-тестът на Student. Сравнявайки стойността на параметъра с неговата средна грешка, се определя стойността на критерия:


където е средната грешка на параметъра.

Средната грешка на параметрите и се изчислява по следните формули:

; ,

– размер на извадката;

Стандартното отклонение на получената характеристика от подравнените стойности;

Стандартното отклонение на знака на фактора от общата средна стойност:

или

Тогава изчислените (действителни) стойности на критерия са съответно равни на:

- за параметъра ;

- за параметъра.

Изчислените стойности на критерия се сравняват с критичните стойности, които се определят от таблицата на Student, като се вземат предвид приетото ниво на значимост и броя на степените на свобода, където е размерът на извадката, -1 ( е броят на факторните знаци). В социално-икономическите изследвания нивото на значимост обикновено се приема като 0,05 или 0,01. Параметърът се признава за значим, ако (отхвърля се хипотезата, че параметърът се е оказал равен на получената стойност само поради случайни обстоятелства, но в действителност е равен на нула).

Адекватността на регресионния модел може да се оцени с помощта на теста на Фишер. Изчислената стойност на критерия се определя по формулата ,

където е броят на параметрите на модела;

Размер на извадката.

Таблицата определя критичната стойност на критерия на Фишер за приетото ниво на значимост и броя на степените на свобода , . Ако , тогава регресионният модел се признава за адекватен според този критерий (хипотезата за несъответствието между връзките, присъщи на уравнението, и реално съществуващите връзки се отхвърля).

Втората задача на корелационно-регресионния анализ е да се измери плътността на зависимостта на резултантния и факторния знак.

За всички видове връзки проблемът с измерването на близостта на зависимостта може да бъде решен чрез изчисляване на теоретичното съотношение на корелация:

,

където - дисперсия в серията от подравнени стойности на ефективния признак, дължаща се на факторния признак;

- дисперсия в поредица от действителни стойности. Това е общата дисперсия, която е сумата от дисперсията, дължаща се на фактора (т.е. факторна дисперсия) и дисперсията на остатъка (отклонение емпирични стойностихарактеристика от подравнени теоретични).

Въз основа на правилото за добавяне на отклонения теоретичното съотношение на корелация може да бъде изразено като остатъчна дисперсия:

.

Тъй като дисперсията отразява изменението в реда само поради изменението на фактора, а дисперсията отразява изменението поради всички фактори, тяхното съотношение, наречено теоретичен коефициент на детерминация, показва каква е пропорцията в обща дисперсиясерия е заета от дисперсията, причинена от промяната на фактора. Корен квадратенот съотношението на тези дисперсии дава теоретичното съотношение на корелация. При нелинейни зависимости теоретичното съотношение на корелация се нарича корелационен индекс и се обозначава с .

Ако , това означава, че ролята на други фактори във вариацията отсъства, остатъчна дисперсияе нула и отношението означава пълна зависимоствариации от. Ако , това означава, че вариацията не влияе на вариацията по никакъв начин и в този случай . Следователно съотношението на корелация приема стойности от 0 до 1. Колкото по-близо е съотношението на корелация до 1, толкова по-тясна връзкамежду знаци.

В допълнение, с линейна форма на уравнението на връзката се използва друг показател за плътността на връзката - линейният коефициент на корелация:

.

Коефициентът на линейна корелация приема стойности от –1 до 1. Отрицателни стойноститочка към обратна зависимост, положително - директно. Колкото по-близо до единица е модулът на коефициента на корелация, толкова по-тясна е връзката между признаците.

Приемат се следните гранични оценки на коефициента на линейна корелация:

Няма връзка;

Комуникацията е слаба;

Комуникацията е посредствена;

Връзката е силна;

Връзката е много силна.

Квадратът на линейния коефициент на корелация се нарича линеен коефициент на детерминация.

Фактът на съвпадение или несъвпадение на теоретичното съотношение на корелация и коефициента на линейна корелация се използва за оценка на формата на зависимостта. Техните стойности са еднакви само ако линейна връзка. Несъответствието между тези стойности показва нелинейността на връзката между характеристиките. Предполага се, че ако , тогава хипотезата за линейността на връзката може да се счита за потвърдена.

Индикаторите за близостта на връзката, особено тези, изчислени от данните на относително малка статистическа популация, могат да бъдат изкривени от действието на случайни причини. Това налага да се провери тяхната достоверност (значимост), което дава възможност да се разширят изводите, получени от извадкови данни, към генералната съвкупност.

За това се изчислява средната грешка на коефициента на корелация:

Къде е броят на степените на свобода с линейна зависимост.

След това се намира съотношението на коефициента на корелация към неговата средна грешка, т.е. което се сравнява с табличната стойност на t-теста на Student.

Ако действителната (изчислената) стойност е по-голяма от табличната (критична, прагова), тогава коефициентът на линейна корелация се счита за значим, а връзката между и се счита за реална.

След проверка на адекватността на изградения модел (регресионно уравнение), той трябва да бъде анализиран. За удобство на тълкуването на параметъра се използва коефициентът на еластичност. Той показва средните промени в резултатния атрибут, когато факторният атрибут се промени с 1% и се изчислява по формулата:

Точността на получения модел може да бъде оценена въз основа на стойността средна грешкаприближения:

Освен това в някои случаи данните за остатъците, характеризиращи отклонението на x наблюденията от изчислените стойности, са информативни. От особен икономически интерес са стойностите, чиито остатъци имат най-големи положителни или отрицателни отклоненияот очакваното ниво на анализирания показател.

Линейната двойна регресия се използва широко в иконометрията под формата на ясна икономическа интерпретация на нейните параметри. Линейната регресия се свежда до намиране на уравнение на формата

или . (3.6)

Типово уравнение позволява зададени стойности на фактора химат теоретични стойности на ефективната характеристика, замествайки действителните стойности на фактора в нея х.

Конструкцията на сдвоена линейна регресия се свежда до оценка на нейните параметри и . Оценките на параметрите на линейната регресия могат да бъдат намерени по различни методи. Например методът на най-малките квадрати (LSM).

Според метода на най-малките квадрати за оценка на параметрите и са избрани по такъв начин, че сумата от квадратните отклонения на действителните стойности на резултантната характеристика (y)от изчисленото (теоретично, моделно) е минимално.С други думи, от целия набор от линии регресионната линия на графиката е избрана така, че сумата от квадратите на вертикалните разстояния между точките и тази линия да бъде минимална (фиг. 3.2):

, (3.7)

Ориз. 3.2. Регресионна права с минимална сума от квадратите на вертикалните разстояния между точките и тази права

За по-нататъшни заключения в израз (3.7) заместваме стойността на модела, т.е. и получаваме:

За да се намери минимумът на функцията (3.8), е необходимо да се изчислят частните производни по всеки от параметрите и и ги приравняваме към нула:

Трансформирайки тази система, получаваме следната система от нормални уравнения за оценка на параметрите и :

. (3.9)

Матричната форма на тази система има формата:

. (3.10)

Решавайки системата от нормални уравнения (3.10) в матрична форма, получаваме:

Алгебричната форма на решението на система (3.11) може да бъде записана по следния начин:

След прости трансформации формула (3.12) може да се напише в удобна форма:

Трябва да се отбележи, че оценките на параметрите на регресионното уравнение могат да бъдат получени и с помощта на други формули, например:

(3.14)

Ето примерния коефициент на линейна корелация по двойки.

След като изчислим регресионните параметри, можем да напишем уравнението на математическия модел регресия:

Трябва да се отбележи, че параметърът показва средната промяна в резултата с промяна на коефициента с една единица. Така че, ако във функцията на разходите (на -разходи (хиляди рубли), х- броя на единиците продукция). Следователно, с увеличаване на обема на производството (Х)за 1 бр производствените разходи се увеличават средно с 2 хиляди рубли, т.е. допълнително увеличение на производството с 1 единица. ще изисква увеличение на разходите средно с 2 хиляди рубли.

Възможността за ясна икономическа интерпретация на регресионния коефициент направи уравнението на линейната регресия доста често срещано в иконометричните изследвания.

Формално - значение припри х= 0. Ако знаковият фактор няма и не може да има нулева стойност, тогава горната интерпретация на свободния член няма смисъл. Параметър може да няма икономическо съдържание. Опит за икономична интерпретация на параметъра може да доведе до абсурд, особено когато < 0.

Пример 3.2. Да предположим, че за група предприятия, произвеждащи един и същи вид продукт, функцията на разходите се разглежда: . Информация, необходима за изчисляване на оценките на параметрите и , представени в табл. 3.1.

Таблица 3.1

Приблизителномаса

фирмен номер

Изход, хиляди единици ()

Производствени разходи, милиони рубли ()

Системата от нормални уравнения ще изглежда така:

.

Решението на тази система по формула (4.13) дава резултата:

Нека напишем модела на регресионното уравнение (4.16):

Заместване на стойностите в уравнението х, намираме теоретичните (моделни) стойности y,(вижте последната колона на таблица 3.1).

В този случай стойността на параметъра няма икономически смисъл.

В този пример имаме:

Регресионното уравнение винаги се допълва с индикатор за плътността на връзката. Когато се използва линейна регресия, коефициентът на линейна корелация действа като такъв индикатор. Съществуват различни модификации на формулата за коефициента на линейна корелация. Някои от тях са изброени по-долу:

Както знаете, коефициентът на линейна корелация е в границите: .

Ако коефициентът на регресия , тогава и обратно, при, .

Според табл. 4.1, стойността на коефициента на линейна корелация е 0,993, което е доста близо до 1 и означава, че има много тясна зависимост на производствените разходи от обема на продукцията.

Трябва да се има предвид, че стойността на коефициента на линейна корелация оценява близостта на връзката на разглежданите признаци в неговата линейна форма. Следователно близостта на абсолютната стойност на коефициента на линейна корелация до нула не означава, че няма връзка между характеристиките. При различна спецификация на модела връзката между характеристиките може да е доста близка.

За оценка на качеството на избора на линейна функция се изчислява квадратът на линейния корелационен коефициент, т.нар. коефициент на детерминация.Коефициентът на детерминация характеризира съотношението на дисперсията на ефективния признак y,обяснимо чрез регресия, в общата дисперсия на получената характеристика.

Съответно, стойността характеризира дела на дисперсията, причинена от влиянието на други фактори, които не са взети предвид в модела.

В нашия пример. Следователно уравнението на регресията обяснява 98,6% от дисперсията на получения атрибут и само 1,4% от неговата дисперсия (т.е. остатъчната дисперсия) се пада на дела на други фактори. Стойността на коефициента на детерминация служи като един от критериите за оценка на качеството на линеен модел. Колкото по-голям е делът на обяснената вариация, толкова по-малка е ролята на другите фактори и, следователно, линеен моделдобре приближава оригиналните данни и може да се използва за прогнозиране на стойностите на получената характеристика. Така че, ако приемем, че обемът на производството на предприятието може да бъде 6 хил . единици, прогнозната стойност на производствените разходи ще бъде 221,01 хиляди рубли.

Най-простата от гледна точка на разбиране, интерпретация и изчислителна техника е линейната форма на регресия.

Регресионно уравнение на линейна двойка , където

a 0 , a 1 - параметри на модела, ε i - случайна величина (остатъчна стойност).

Параметри на модела и тяхното съдържание:


Регресионното уравнение се допълва с индикатор за плътността на връзката. Такъв показател е коефициентът на линейна корелация, който се изчислява по формулата:

или .

За оценка на качеството на избора на линейна функция се изчислява квадратът на линейния корелационен коефициент, т.нар. коефициент на детерминация. Коефициентът на определяне характеризира съотношението на дисперсията на резултантния атрибут, обяснена чрез регресия, в общата дисперсия на резултантния атрибут:

,

където

.

Съответно, стойността характеризира дела на дисперсията, причинена от влиянието на други фактори, които не са взети предвид в модела.

След изграждането на регресионното уравнение се проверява неговата адекватност и точност.Тези свойства на модела се изследват въз основа на анализа на редица остатъци ε i (отклонения на изчислените стойности от действителните).

Ниво на реда на остатъка

Корелативни и регресионен анализизвършва се за ограничено население. В тази връзка показателите за регресия, корелация и детерминация могат да бъдат изкривени от действието на случайни фактори. За да се провери доколко тези показатели са характерни за цялата популация, дали са резултат от комбинация от случайни обстоятелства, е необходимо да се провери адекватността на изградения модел.

Проверката на адекватността на модела се състои в определяне на значимостта на модела и установяване наличието или липсата на системна грешка.

Стойности 1релевантни данни х i на теоретични стойности а 0и а 1,случаен. Стойностите на изчислените от тях коефициенти също ще бъдат произволни. а 0и a 1 .

Проверката на значимостта на индивидуалните регресионни коефициенти се извършва съгласно t-тест на Стюдънтчрез тестване на хипотезата, че всеки регресионен коефициент е равен на нула. В същото време се установява колко характерни са изчислените параметри за показване на набор от условия: дали получените стойности на параметрите са резултат от действието случайни променливи. Използват се подходящи формули за съответните регресионни коефициенти.

Формули за определяне на t-критерия на Стюдънт

където

S a 0 ,S a 1 - стандартни отклонения на свободния член и регресионния коефициент. Формули

където

S ε - стандартно отклонениемоделни остатъци (стандартна грешка на оценката), която се определя по формулата

Изчислените стойности на t-критерия се сравняват с табличната стойност на критерия Tαγ , което се определя за (n - к— 1) степени на свобода и съответното ниво на значимост α. Ако изчислената стойност на t-критерия надвишава табличната му стойност Tαγ , тогава параметърът се признава за значим. В този случай е почти невероятно, че намерените стойности на параметрите се дължат само на случайни съвпадения.

Оценката на значимостта на регресионното уравнение като цяло се прави на базата на - критерия на Фишер, който се предхожда от дисперсионен анализ.

Общата сума на квадратите на отклоненията на променливата от средната стойност се разлага на две части - "обяснимо" и "необяснимо":

Обща сума на квадратите на отклоненията;

Сума от квадратни отклонения, обяснени чрез регресия (или факторна сума от квадратни отклонения);


- остатъчна сума на квадратите на отклоненията, която характеризира влиянието на фактори, които не са взети предвид в модела.

Схема дисперсионен анализима формата, представена в таблица 35 ( - брой наблюдения, - брой параметри с променлива ).

Таблица 35 - Схема на дисперсионен анализ

Дисперсионни компоненти Сбор на квадрати Брой степени на свобода Дисперсия по степен на свобода
Общ
факториел
Остатъчен

Определянето на дисперсията за една степен на свобода води дисперсиите до сравнима форма. Сравнявайки факторните и остатъчните дисперсии за една степен на свобода, получаваме стойността на критерия на Фишер:

За да проверите значимостта на регресионното уравнение като цяло, използвайте F-тест на Fisher. В случай на сдвоена линейна регресия, значимостта на регресионния модел се определя по следната формула: .

Ако при дадено ниво на значимост изчислената стойност на F-критерия с γ 1 =k, γ 2 =( п-к- 1) степените на свобода са по-големи от табличните, тогава моделът се счита за значим, отхвърля се хипотезата за случайния характер на оценените характеристики и се признава тяхната статистическа значимост и надеждност. Проверката за наличието или липсата на системна грешка (изпълнение на предпоставките на метода на най-малките квадрати - LSM) се извършва въз основа на анализа на редица остатъци. Изчисляване случайни грешкипараметрите на линейната регресия и коефициентът на корелация се получават от формулите

,

За да тествате свойството за случайност на поредица от остатъци, можете да използвате критерия за повратни точки (върхове). Една точка се счита за повратна, ако следните условия: ε i -1< ε i >ε i +1 или ε i -1 > ε i< ε i +1

След това се изчислява броят на повратните точки p. Тест за произволност с 5% ниво на значимост, т.е. с ниво на увереност 95% е изпълнението на неравенството:

Квадратните скоби означават, че е взето цяла частномер, ограден в скоби. Ако неравенството е изпълнено, тогава моделът се счита за адекватен.

За тест за равенство математическо очакванеостатъчна последователност нула, средната стойност на поредица от остатъци се изчислява:

Ако = 0, тогава се счита, че моделът не съдържа постоянна систематична грешка и е адекватен според критерия за нулева средна стойност.

Ако ≠ 0, тогава се тества нулевата хипотеза, че математическото очакване е равно на нула. За да направите това, изчислете t-теста на Student по формулата:

където S ε е стандартното отклонение на остатъците на модела (стандартна грешка).

Стойността на t-критерия се сравнява с таблицата t αγ. Ако неравенството t > t αγ е изпълнено, тогава моделът е неадекватен според този критерий

Дисперсията на нивата на поредица от остатъци трябва да бъде еднаква за всички стойности х(Имот хомоскедастизъм).Ако това условие не е изпълнено, тогава хетероскедастичност .

За да се оцени хетероскедастичността с малък размер на извадката, може да се използва Метод на Голдфелд-Квант, чиято същност е, че е необходимо:

Намерете променливи стойности хвъв възходящ ред;

Разделете набора от подредени наблюдения на две групи;

За всяка група наблюдения съставете регресионни уравнения;

Определете остатъчните суми на квадратите за първа и втора група по формулите: ; , където

n 1 - броят на наблюденията в първата група;

n 2 - броят на наблюденията във втората група.

Изчислете критерия или (числителят трябва да съдържа голям сбор от квадрати). Докато правите нулева хипотезаотносно хомоскедастичността, критерият F calc ще удовлетвори F-критерия със степени на свобода γ 1 =n 1 -m, γ 2 =n - n 1 - m) за всеки остатъчна сумаквадрати (където m броя на оценените параметри в регресионното уравнение). Колкото повече стойността на Fcalc превишава табличната стойност на F-критерия, толкова повече се нарушава предпоставката за равенството на дисперсиите на остатъците.

Проверката на независимостта на последователността на остатъците (липса на автокорелация) се извършва с помощта на d-тест на Durbin-Watson. Определя се по формулата:

Изчислената стойност на критерия се сравнява с долните d 1 и горните d 2 критични стойности на статистиката на Дърбин-Уотсън. Възможни са следните случаи:

1) ако d< d 1 , то гипотеза о независимости остатков отвергается и модель признается неадекватной по критерию независимости остатков;

2) ако d 1 < д < d 2 (включително самите тези стойности), се счита, че няма достатъчно основания за извеждане на едно или друго заключение. Необходими за използване допълнителен критерий, например първият автокорелационен коефициент:

Ако изчислената стойност на коефициента по модул е ​​по-малка от табличната стойност r 1kr, тогава се приема хипотезата за липса на автокорелация; в противен случай тази хипотеза се отхвърля;

3) ако d 2 < д < 2, тогава се приема хипотезата за независимостта на остатъците и моделът се признава за адекватен по този критерий;

4) ако d> 2, тогава това показва отрицателна автокорелацияостатъци. В този случай изчислената стойност на критерия трябва да се преобразува по формулата d′= 4 - d и да се сравни с критичната стойност d′ , не d.

Проверка на съответствието на разпределението на остатъчната последователност нормален законразпределенията могат да се извършват с помощта на критерия R / S, който се определя по формулата:

където S ε е стандартното отклонение на остатъците на модела (стандартна грешка). Сравнява се изчислената стойност на R/S - критерии таблични стойности(долни и горни граници дадена връзка), и ако стойността не попада в интервала между критичните граници, тогава с дадено ниво на значимост хипотезата за нормално разпределение се отхвърля; в противен случай хипотезата се приема

За да оцените качеството на регресионните модели, също е препоръчително да използвате корелационен индекс(коефициент на множествена корелация).

Формула за определяне на индекса на корелация

където

Общата сума на квадратите на отклоненията на зависимата променлива от нейната средна стойност. Определя се по формулата:

Сума на квадратите на отклоненията, обяснени с регресия. Определя се по формулата:

Остатъчна сума на квадратите на отклоненията. Изчислява се по формулата:

Уравнението може да се представи по следния начин:

Индексът на корелация приема стойност от 0 до 1. Колкото по-висока е стойността на индекса, толкова по-близки са изчислените стойности на получената характеристика до действителните. Индексът на корелация се използва за всяка форма на асоцииране на променливи; със сдвоена линейна регресия е равно на двойка коефициенткорелации.

Характеристиките на точността се използват като мярка за точността на модела: За да се определи мярката за точност на модела, се изчислява следното:

- максимална грешка- съответства на отклонението на изчисленото отклонение на изчислените стойности от действителните

- средно аритметично абсолютна грешка - грешката показва колко реалните стойности се отклоняват средно от модела

- дисперсия на поредица от остатъци(остатъчно отклонение)

където е средната стойност на серия от остатъци. Определя се по формулата

- средно аритметично квадратична грешка . Това е корен квадратен от дисперсията: , как по-малка стойностгрешки, толкова по-точен е моделът

- средно аритметично относителна грешкаприближения.

Средната грешка на приближението не трябва да надвишава 8-10%.

Ако регресионният модел се признае за адекватен и параметрите на модела са значителни, тогава се пристъпва към изграждане на прогноза .

прогнозирана стойностпроменлива присе получава чрез заместване на очакваната стойност на независимата променлива в регресионното уравнение хпрогноза

Тази прогноза се нарича точка.Вероятността за прилагане на точкова прогноза е почти нулева, така че доверителният интервал на прогнозата се изчислява с висока надеждност.

Доверителни интервалипрогнозата зависи от стандартната грешка, отстраняване хбягай от средната си стойност , брой наблюдения ни нивото на значимост на прогнозата α. Доверителните интервали на прогнозата се изчисляват по формулата: или

където

Tтаблица - определя се от таблицата на разпределението на Стюдънт за нивото на значимост α и броя на степените на свобода γ=n-k-1.

Пример13.

Според проучване на осем групи семейства са известни данни за връзката между разходите на населението за храна и нивото на семейния доход (Таблица 36).

Таблица 36 - Връзки между разходите на домакинствата за храна и доходите на семейството

Разходи за храна, хил. рубли. 0,9 1,2 1,8 2,2 2,6 2,9 3,3 3,8
Семеен доход, хиляди рубли 1,2 3,1 5,3 7,4 9,6 11,8 14,5 18,7

Да приемем, че връзката между семейния доход и разходите за храна е линейна. За да потвърдим нашето предположение, ние конструираме корелационно поле (Фигура 8).

Графиката показва, че точките се подреждат в някаква права линия.

За удобство на по-нататъшни изчисления ще съставим таблица 37.

Изчислете параметрите на регресионното уравнение на линейната двойка . За целта използваме формулите:

Фигура 8 - Корелационно поле.

Получихме уравнението:

Тези. с увеличение на семейния доход с 1000 рубли. разходите за храна се увеличават със 168 рубли.

Изчисляване на коефициента на линейна корелация.

100 rбонус за първа поръчка

Изберете вида работа Дипломна работа Курсова работаРеферат Магистърска теза Доклад от практика Статия Доклад Рецензия ТестМонография Решаване на проблеми Бизнес план Отговори на въпроси творческа работаЕсе Рисуване Съчинения Превод Презентации Набиране Друго Повишаване уникалността на текста Кандидатска теза Лабораторна работаПомощ онлайн

Попитайте за цена

Двойната регресия е уравнението на връзката на две променливи

y и x Видове г= f(х),

където y - зависима променлива (резултатен знак);

x е независима, обяснителна променлива (коефициент на знак).

Има линейни и нелинейни регресии.

Метод на най-малките квадрати

За оценка на регресионните параметри, които са линейни в тези параметри, се използва методът на най-малките квадрати (LSM). . LSM дава възможност да се получат такива оценки на параметрите, при които сумата от квадратните отклонения на действителните стойности на резултантната характеристика y от теоретичните стойности ŷ хс еднакви стойности на фактора хминимален, т.е.

5. Оценка на статистическата значимост на корелационни показатели, параметри на уравнението на сдвоената линейна регресия, уравнението на регресията като цяло.

6. Оценка на степента на близост на връзката между количествените променливи. Ковариационен коефициент. Мерки за корелация: коефициент на линейна корелация, индекс на корелация (= теоретично съотношение на корелация).

ковариационен коефициент

Mch (y) - т.е. получаваме корелационна зависимост.

Наличието на корелационна зависимост не може да отговори на въпроса за причината за връзката. Корелацията установява само мярката на тази връзка, т.е. мярка за последователна вариация.

Мярка за връзката между променливите mu 2 може да се намери с помощта на ковариация.

, ,

Стойността на показателя на ковариацията зависи от измерваните единици в променливата γ. Следователно, за да се оцени степента на последователна вариация, се използва коефициентът на корелация - безразмерна характеристика с определени граници на вариация.

7. Коефициент на детерминация. Стандартна грешка на регресионното уравнение.

Коефициент на определяне (rxy2) - характеризира съотношението на дисперсията на резултантната характеристика y, обяснена от дисперсията, в общата дисперсия на резултантната характеристика. Колкото по-близо е rxy2 до 1, толкова по-добре регресионен модел, тоест оригиналният модел се доближава добре до оригиналните данни.

8. Оценка на статистическата значимост на коригиращите показатели, параметрите на сдвоеното уравнение на линейната регресия, уравнението на регресията като цяло: T-Критерий на ученика, Е- Критерий на Фишер.

9. Нелинейни моделирегресии и тяхната линеаризация.

Нелинейните регресии се разделят на два класа : регресии, които са нелинейни по отношение на обяснителните променливи, изключени от анализа, но линейни по отношение на оценените параметри, и регресии, които са нелинейни по отношение на оценените параметри.

примери за регресия, нелинейни в обяснителните променливи, но линейни в очакваните параметри:


Нелинейни регресионни модели и тяхната линеаризация

С нелинейна зависимост на признаците, сведена до линейна форма, настроики множествена регресиясъщо се определят от MNC с единствената разлика, че не се използват за обща информация, но към трансформираните данни. И така, като се има предвид степенната функция

,

преобразуваме го в линейна форма:

където променливите са изразени в логаритми.

Освен това обработката на LSM е същата: изгражда се система от нормални уравнения и се определят неизвестни параметри. Чрез потенциране на стойността намираме параметъра аи съответно обща формауравнения на степенна функция.

Най-общо казано, нелинейната регресия върху включените променливи не съдържа никакви трудности при оценката на нейните параметри. Тази оценка се определя, както при линейната регресия, чрез най-малките квадрати. И така, в уравнението на двуфакторната нелинейна регресия

линеаризацията може да се извърши чрез въвеждане на нови променливи в него . Резултатът е уравнение на линейна регресия с четири фактора

10.Мултиколинеарност. Методи за премахване на мултиколинеарността.

Най-големите трудности при използването на апарата за множествена регресия възникват при наличието на мултиколинеарност на факторите, когато са свързани повече от два фактора линейна зависимост . Наличието на факторна мултиколинеарност може да означава, че някои фактори винаги ще действат в унисон. В резултат на това вариацията в първоначалните данни вече не е напълно независима и е невъзможно да се оцени въздействието на всеки фактор поотделно.

Колкото по-силна е мултиколинеарността на факторите, толкова по-малко надеждна е оценката на разпределението на сумата от обяснената вариация върху отделните фактори, използвайки метода на най-малките квадрати (LSM).

Включването на мултиколинеарни фактори в модела е нежелателно поради следните причини:

ü трудни за интерпретиране параметрите на множествената регресия; параметрите на линейната регресия губят икономически смисъл;

ü оценките на параметрите са ненадеждни, показват големи стандартни грешки и се променят с обема на наблюденията, което прави модела неподходящ за анализ и прогнозиране

Методи за премахване на мултиколинеарността

- изключване на променливата(ите) от модела;

Въпреки това е необходимо известно внимание при кандидатстване този метод. В тази ситуация са възможни грешки в спецификацията.

- получаване на допълнителни данни или конструиране на нова извадка;

Понякога, за да се намали мултиколинеарността, е достатъчно да се увеличи размерът на извадката. Например, ако използвате годишни данни, можете да промените на тримесечни данни. Увеличаването на количеството данни намалява дисперсиите на регресионните коефициенти и по този начин ги увеличава. статистическа значимост. Получаването на нова проба или разширяването на старата обаче не винаги е възможно или е свързано със значителни разходи. Освен това този подход може да се увеличи

автокорелация.

- промяна на спецификацията на модела;

В някои случаи проблемът с мултиколинеарността може да бъде решен чрез промяна на спецификацията на модела: или формата на модела се променя, или се добавят нови обяснителни променливи, които не се вземат предвид в модела.

- използване на предварителна информация за някои параметри;

11. Класически линеен модел на множествена регресия (CLMMR). Определяне на параметрите на ур-I на множествената регресия по метода на квадратите.