Биографии Характеристики Анализ

Намерете матрицата на примерните коефициенти на корелация по двойки. Определяне на коефициент на множествена корелация в MS Excel

З 1 (T)

З 2 (T)

T

y(t)

З 1 (T)

З 2 (T)

T

y(t)

Основната задача, пред която е изправен изборът на фактори, включени в корелационния модел, е да се въведат в анализа всички основни фактори, влияещи върху нивото на изследваното явление. Въвеждането на голям брой фактори в модела обаче е непрактично, по-правилно е да се изберат само относително малък брой основни фактори, които вероятно са в корелация с избрания функционален индикатор.

Това може да стане с помощта на така наречената двустепенна селекция. В съответствие с него в модела се включват всички предварително избрани фактори. След това сред тях, на базата на специална количествена оценка и допълнителен качествен анализ, се идентифицират незначително влияещи фактори, които постепенно се отхвърлят, докато останат тези, за които може да се твърди, че наличният статистически материал е в съответствие с хипотезата за тяхната съвместна връзка. значително влияние върху зависимата променлива с избраната форма на връзка.

Двустепенният подбор получи своя най-пълен израз в техниката на така наречения многоетапен регресионен анализ, при който елиминирането на маловажни фактори се извършва въз основа на показатели за тяхната значимост, по-специално въз основа на стойността на t f - изчислената стойност на теста на Студент.

Нека изчислим t f, като използваме откритите коефициенти на корелация на двойки и ги сравним с t критично за 5% ниво на значимост (двустранно) и 18 степени на свобода (ν = n-2).

където r е стойността на коефициента на корелация на двойката;

n – брой наблюдения (n=20)

Когато сравнявате t f за всеки коефициент с T кр = 2,101 установяваме, че намерените коефициенти се считат за значими, т.к t f > t кр.

t f за r yx 1 = 2, 5599 ;

t f за r yx 2 = 7,064206 ;

t f за r yx 3 = 2,40218 ;

t f за r x1 x 2 = 4,338906 ;

t f за r x1 x 3 = 15,35065;

t f за r x2 x 3 = 4,749981

При избора на фактори, които да бъдат включени в анализа, към тях се налагат специфични изисквания. На първо място, показателите, изразяващи тези фактори, трябва да бъдат количествено измерими.

Факторите, включени в модела, не трябва да са във функционална или тясна връзка помежду си. Наличието на такива връзки се характеризира с мултиколинеарност.

Мултиколинеарността показва, че някои фактори характеризират един и същи аспект на изследваното явление. Поради това едновременното им включване в модела е нецелесъобразно, тъй като те се дублират до известна степен. Ако няма специални предположения от говорещите в полза на един от тези фактори, трябва да се даде предпочитание на този, който се характеризира с голям двоен (или частичен) коефициент на корелация.

Смята се, че максималната стойност на коефициента на корелация между два фактора е 0,8.

Мултиколинеарността обикновено води до израждане на матрицата на променливите и следователно до факта, че основната детерминанта намалява стойността си и в границата става близо до нула. Оценките на коефициентите на регресионното уравнение стават силно зависими от точността на намиране на изходните данни и рязко променят стойностите си, когато броят на наблюденията се промени.

Задача 2

1. Постройте матрица от двойни корелационни коефициенти. Проверете за мултиколинеарност. Обосновете избора на фактори в модела.

2. Съставете уравнение множествена регресияв линейна форма с избрани фактори.

3. Оценете статистическа значимострегресионно уравнение и неговите параметри с помощта на тестове на Fisher и Student.

4. Съставете регресионно уравнение със статистически значими фактори. Оценете качеството на регресионното уравнение, като използвате коефициента на определяне R2. Оценете точността на изградения модел.

5. Оценете прогнозата за обема на производството, ако прогнозните стойности на факторите са 75% от техните максимални стойности.

Проблемни условия (Вариант 21)

Според данните, представени в таблица 1 (n = 17), ние изучаваме зависимостта на обема на производството Y (милиона рубли) от следните фактори(променливи):

X 1 – брой на промишлено производствения персонал, души.

X 2 - средна годишна цена на дълготрайните активи, милиона рубли.

Х 3 – амортизация на ДМА, %

X 4 – захранване, kWh.

X 5 - техническо оборудване на един работник, милиони рубли.

X 6 - производство на продаваема продукция на работник, руб.

Таблица 1. Данни за пускане на продукта

Y X 1 X 2 X 3 X 4 X 5 X 6
39,5 4,9 3,2
46,4 60,5 20,4
43,7 24,9 9,5
35,7 50,4 34,7
41,8 5,1 17,9
49,8 35,9 12,1
44,1 48,1 18,9
48,1 69,5 12,2
47,6 31,9 8,1
58,6 139,4 29,7
70,4 16,9 5,3
37,5 17,8 5,6
62,0 27,6 12,3
34,4 13,9 3,2
35,4 37,3 19,0
40,8 55,3 19,3
48,1 35,1 12,4


Конструирайте матрица от двойни коефициенти на корелация. Проверете за мултиколинеарност. Обосновете избора на фактори в модела

Таблица 2 показва матрица на коефициента на корелация на двойки за всички променливи, включени в разглеждането. Матрицата е получена с помощта на инструмента Корелацияот опаковката Анализ на данни V Excel.

Таблица 2. Матрица на корелационните коефициенти на двойки

Y X1 X2 X3 X4 X5 X6
Y
X1 0,995634
X2 0,996949 0,994947
X3 -0,25446 -0,27074 -0,26264
X4 0,12291 0,07251 0,107572 0,248622
X5 0,222946 0,166919 0,219914 -0,07573 0,671386
X6 0,067685 -0,00273 0,041955 -0,28755 0,366382 0,600899

Визуалният анализ на матрицата ви позволява да установите:

1) Uима доста високи двойни корелации с променливи X1, X2 (>0,5) и ниско с променливи X3,X4,X5,X6 (<0,5);

2) Анализните променливи X1, X2 демонстрират доста високи двойни корелации, което налага проверка на факторите за наличие на мултиколинеарност между тях. Освен това едно от условията на класическия регресионен модел е допускането за независимост на обяснителните променливи.

За да идентифицираме мултиколинеарността на факторите, ние изпълняваме Тест на Фарар-Глоубер по фактори X1, X2, X3,X4,X5,X6.

Проверката на теста на Farrar-Glouber за мултиколинеарност на факторите включва няколко етапа.

1) Проверка за мултиколинеарност на целия масив от променливи .

Едно от условията на класическия регресионен модел е допускането за независимост на обяснителните променливи. За да се идентифицира мултиколинеарността между факторите, матрицата на междуфакторните корелации R се изчислява с помощта на пакета за анализ на данни (Таблица 3).

Таблица 3. Матрица на междуфакторните корелации R

X1 X2 X3 X4 X5 X6
X1 0,994947 -0,27074 0,07251 0,166919 -0,00273
X2 0,994947 -0,26264 0,107572 0,219914 0,041955
X3 -0,27074 -0,26264 0,248622 -0,07573 -0,28755
X4 0,07251 0,107572 0,248622 0,671386 0,366382
X5 0,166919 0,219914 -0,07573 0,671386 0,600899
X6 -0,00273 0,041955 -0,28755 0,366382 0,600899

Съществува силна зависимост (>0,5) между факторите X1 и X2, X5 и X4, X6 и X5.

Детерминантата det (R) = 0,001488 се изчислява с помощта на функцията MOPRED. Детерминантата на матрицата R клони към нула, което ни позволява да направим предположение за общата мултиколинеарност на факторите.

2) Проверка за мултиколинеарност на всяка променлива с други променливи:

· Нека изчислим обратната матрица R -1 с помощта на функцията на Excel MOBR (Таблица 4):

Таблица 4. обратна матрица R-1

X1 X2 X3 X4 X5 X6
X1 150,1209 -149,95 3,415228 -1,70527 6,775768 4,236465
X2 -149,95 150,9583 -3,00988 1,591549 -7,10952 -3,91954
X3 3,415228 -3,00988 1,541199 -0,76909 0,325241 0,665121
X4 -1,70527 1,591549 -0,76909 2,218969 -1,4854 -0,213
X5 6,775768 -7,10952 0,325241 -1,4854 2,943718 -0,81434
X6 4,236465 -3,91954 0,665121 -0,213 -0,81434 1,934647

· Изчисляване на F-критерии, където са диагоналните елементи на матрицата, n=17, k = 6 (Таблица 5).

Таблица 5. Стойности на F-тест

F1 (X1) F2 (X2) F3 (X3) F4 (X4) F5 (X5) F6 (X6)
89,29396 89,79536 0,324071 0,729921 1,163903 0,559669

· Действителните стойности на F-теста се сравняват с таблична стойност F таблица = 3,21(FDIST(0.05;6;10)) с n1= 6 и n2 = n - k – 1=17-6-1=10 степени на свобода и ниво на значимост α=0.05, където k е броят на факторите.

· Стойностите на F-критериите за факторите X1 и X2 са по-големи от табличните стойности, което показва наличието на мултиколинеарност между тези фактори. Фактор X3 има най-малък ефект върху общата мултиколинеарност на факторите.

3) Проверка за мултиколинеарност на всяка двойка променливи

· Нека изчислим коефициентите на частична корелация по формулата , където са елементите на матрицата (Таблица 6)

Таблица 6. Матрица на частичните коефициенти на корелация

X1 X2 X3 X4 X5 X6
X1
X2 0,996086
X3 -0,22453 0,197329
X4 0,093432 -0,08696 0,415882
X5 -0,32232 0,337259 -0,1527 0,581191
X6 -0,24859 0,229354 -0,38519 0,102801 0,341239

· Изчисляване T-критерии по формулата (Таблица 7)

n - брой данни = 17

K - брой фактори = 6

Таблица 7.t-тестове за частични коефициенти на корелация

X1 X2 X3 X4 X5 X6
X1
X2 35,6355
X3 -0,72862 0,636526
X4 0,296756 -0,27604 1,446126
X5 -1,07674 1,13288 -0,4886 2,258495
X6 -0,81158 0,745143 -1,31991 0,326817 1,147999

t таблица = STUDARSOBR(0.05;10) = 2.23

Действителните стойности на t-тестовете се сравняват с табличната стойност със степени на свобода n-k-1 = 17-6-1=10 и ниво на значимост α=0,05;

t21 > tтаблица

t54 > ttable

От таблици 6 и 7 става ясно, че две двойки фактори X1 и X2, X4 и X5 имат висока статистически значима частична корелация, т.е. те са мултиколинеарни. За да се отървете от мултиколинеарността, можете да изключите една от променливите на колинеарната двойка. В двойката X1 и X2 оставяме X2, в двойката X4 и X5 оставяме X5.

По този начин, в резултат на проверката на теста на Farrar-Glouber, остават следните фактори: X2, X3, X5, X6.

Завършване на процедурите корелационен анализ, препоръчително е да се разгледат частичните корелации на избраните фактори с резултата Y.

Нека изградим матрица от сдвоени коефициенти на корелация въз основа на данните в таблица 8.

Таблица 8. Изходни данни за продукта с избрани фактори X2, X3, X5, X6.

Наблюдение № Y X 2 X 3 X 5 X 6
39,5 3,2
46,4 20,4
43,7 9,5
35,7 34,7
41,8 17,9
49,8 12,1
44,1 18,9
48,1 12,2
47,6 8,1
58,6 29,7
70,4 5,3
37,5 5,6
12,3
34,4 3,2
35,4
40,8 19,3
48,1 12,4

Последната колона на таблица 9 представя стойностите на t-теста за колоната Y.

Таблица 9. Матрица на частичните коефициенти на корелация с резултата Y

Y X2 X3 X5 X6 t критерий (t таблица (0,05;11)= 2,200985
Y 0,996949 -0,25446 0,222946 0,067685
X2 0,996949 -0,26264 0,219914 0,041955 44,31676
X3 -0,25446 -0,26264 -0,07573 -0,28755 0,916144
X5 0,222946 0,219914 -0,07573 0,600899 -0,88721
X6 0,067685 0,041955 -0,28755 0,600899 1,645749

От таблица 9 става ясно, че променливата Yима висока и в същото време статистически значима частична корелация с фактор X2.

1. ИЗГРАЖДАЙТЕ МАТРИЦА ОТ СВЪРЗАНИ КОРЕЛАЦИОННИ КОЕФИЦИЕНТИ.

За да направим това, изчисляваме коефициентите на корелация на двойката, като използваме формулата:

Необходимите изчисления са представени в таблица 9.

-

връзката между приходите на предприятието Y и размера на капиталовите инвестиции X 1 е слаба и пряка;

-

практически няма връзка между приходите на предприятието Y и дълготрайните производствени активи X 2;

-

връзката между обема на капиталните вложения Х 1 и ДМА Х 2 е тясна и пряка;

Таблица 9

Помощна таблица за изчисляване на коефициентите на корелация по двойки

T Y X1 X2

(y-ysr)*
(x1-x1sr)

(y-ysr)*
(x2-x2sr)

(x1-x1sr)*
(x2-x2sr)

1998 3,0 1,1 0,4 0,0196 0,0484 0,0841 0,0308 0,0406 0,0638
1999 2,9 1,1 0,4 0,0576 0,0484 0,0841 0,0528 0,0696 0,0638
2000 3,0 1,2 0,7 0,0196 0,0144 1E-04 0,0168 -0,0014 -0,0012
2001 3,1 1,4 0,9 0,0016 0,0064 0,0441 -0,0032 -0,0084 0,0168
2002 3,2 1,4 0,9 0,0036 0,0064 0,0441 0,0048 0,0126 0,0168
2003 2,8 1,4 0,8 0,1156 0,0064 0,0121 -0,0272 -0,0374 0,0088
2004 2,9 1,3 0,8 0,0576 0,0004 0,0121 0,0048 -0,0264 -0,0022
2005 3,4 1,6 1,1 0,0676 0,0784 0,1681 0,0728 0,1066 0,1148
2006 3,5 1,3 0,4 0,1296 0,0004 0,0841 -0,0072 -0,1044 0,0058
2007 3,6 1,4 0,5 0,2116 0,0064 0,0361 0,0368 -0,0874 -0,0152
Σ 31,4 13,2 6,9 0,684 0,216 0,569 0,182 -0,036 0,272
ср. 3,14 1,32 0,69

Също така матрицата на коефициентите на корелация по двойки може да бъде намерена в Excel с помощта на добавката DATA ANALYSIS, инструмента CORRELATION.

Матрицата на двойните коефициенти на корелация има формата:

Y X1 X2
Y 1
X1 0,4735 1
X2 -0,0577 0,7759 1

Матрицата на сдвоените корелационни коефициенти показва, че ефективният атрибут y (приход) има слаба връзкас обема на капиталните вложения х 1, но с размера на общия фонд практически няма връзка. Връзката между факторите в модела се оценява като тясна, което показва тяхната линейна зависимост, мултиколинеарност.

2. ИЗГРАДЕТЕ ЛИНЕЕН МНОЖЕСТВЕН РЕГРЕСИОНЕН МОДЕЛ

Ще намерим параметрите на модела с помощта на най-малките квадрати. За да направите това, нека създадем система нормални уравнения.

Изчисленията са представени в таблица 10.

Нека решим системата от уравнения по метода на Крамер:

Таблица 10

Спомагателни изчисления за намиране на параметри на линеен модел на множествена регресия

г
3,0 1,1 0,4 1,21 0,44 0,16 3,3 1,2
2,9 1,1 0,4 1,21 0,44 0,16 3,19 1,16
3,0 1,2 0,7 1,44 0,84 0,49 3,6 2,1
3,1 1,4 0,9 1,96 1,26 0,81 4,34 2,79
3,2 1,4 0,9 1,96 1,26 0,81 4,48 2,88
2,8 1,4 0,8 1,96 1,12 0,64 3,92 2,24
2,9 1,3 0,8 1,69 1,04 0,64 3,77 2,32
3,4 1,6 1,1 2,56 1,76 1,21 5,44 3,74
3,5 1,3 0,4 1,69 0,52 0,16 4,55 1,4
3,6 1,4 0,5 1,96 0,7 0,25 5,04 1,8
31,4 13,2 6,9 17,64 9,38 5,33 41,63 21,63

Моделът на линейната множествена регресия има формата:

Ако обемът на капиталовите инвестиции се увеличи с 1 милион рубли, приходите на компанията ще се увеличат средно с 2,317 милиона рубли. с постоянни размери на основните производствени фондове.

Ако дълготрайните производствени активи се увеличат с 1 милион рубли, тогава приходите на предприятието ще намалеят средно с 1,171 милиона рубли. с постоянен размер на капиталовложенията.

3. НИЕ ИЗЧИСЛЯВАМЕ:

коефициент на детерминация:

67,82% от изменението на приходите на предприятието се дължи на промени в обема на капиталните инвестиции и дълготрайните производствени активи, а 32,18% се дължи на влиянието на фактори, които не са включени в модела.

F – критерий на Фишер

Нека проверим значението на уравнението

Таблични стойности на F теста при ниво на значимост α = 0,05 и броя на степените на свобода d.f. 1 = k = 2 (брой фактори), брой степени на свобода d.f. 2 = (n – k – 1) = (10 – 2 – 1) = 7 ще бъде 4,74.

Тъй като F изчислено = 7,375 > раздел F. = 4,74, тогава регресионното уравнение като цяло може да се счита за статистически значимо.

Изчислените показатели могат да бъдат намерени в средата на Excel с помощта на добавката DATA ANALYSIS, инструмента REGRESSION.


Таблица 11

Спомагателни изчисления за намиране на средната относителна грешка на приближението

г А
3,0 1,1 0,4 2,97 0,03 0,010
2,9 1,1 0,4 2,97 -0,07 0,024
3,0 1,2 0,7 2,85 0,15 0,050
3,1 1,4 0,9 3,08 0,02 0,007
3,2 1,4 0,9 3,08 0,12 0,038
2,8 1,4 0,8 3,20 -0,40 0,142
2,9 1,3 0,8 2,96 -0,06 0,022
3,4 1,6 1,1 3,31 0,09 0,027
3,5 1,3 0,4 3,43 0,07 0,019
3,6 1,4 0,5 3,55 0,05 0,014
0,353

средна относителна апроксимационна грешка

Средно изчислените стойности се различават от реалните с 3,53%. Грешката е малка, моделът може да се счита за точен.

4. Конструирайте степенен модел на множествена регресия

За да изградим този модел, нека вземем логаритми от двете страни на равенството

log y = log a + β 1 ∙ log x 1 + β 2 ∙ log x 2 .

Нека направим замяната Y = log y, A = log a, X 1 = log x 1, X 2 = log x 2.

Тогава Y = A + β 1 ∙ X 1 + β 2 ∙ X 2 – линеен двуфакторен регресионен модел. Можете да използвате OLS.

Изчисленията са представени в таблица 12.

Таблица 12

Спомагателни изчисления за намиране на параметрите на степенен модел на множествена регресия

г lg y
3,0 1,1 0,4 0,041 -0,398 0,477 0,002 -0,016 0,020 0,158 -0,190
2,9 1,1 0,4 0,041 -0,398 0,462 0,002 -0,016 0,019 0,158 -0,184
3,0 1,2 0,7 0,079 -0,155 0,477 0,006 -0,012 0,038 0,024 -0,074
3,1 1,4 0,9 0,146 -0,046 0,491 0,021 -0,007 0,072 0,002 -0,022
3,2 1,4 0,9 0,146 -0,046 0,505 0,021 -0,007 0,074 0,002 -0,023
2,8 1,4 0,8 0,146 -0,097 0,447 0,021 -0,014 0,065 0,009 -0,043
2,9 1,3 0,8 0,114 -0,097 0,462 0,013 -0,011 0,053 0,009 -0,045
3,4 1,6 1,1 0,204 0,041 0,531 0,042 0,008 0,108 0,002 0,022
3,5 1,3 0,4 0,114 -0,398 0,544 0,013 -0,045 0,062 0,158 -0,217
3,6 1,4 0,5 0,146 -0,301 0,556 0,021 -0,044 0,081 0,091 -0,167
31,4 13,2 6,9 1,178 -1,894 4,955 0,163 -0,165 0,592 0,614 -0,943

Решаваме системата от уравнения по метода на Крамер.

Моделът на степенна множествена регресия има формата:

IN степенна функциякоефициентите на факторите са коефициенти на еластичност. Коефициентът на еластичност показва с какъв процент ще се промени средната стойност на ефективната характеристика y, ако един от факторите се увеличи с 1%, докато стойностите на други фактори остават непроменени.

Ако обемът на капиталовите инвестиции се увеличи с 1%, тогава приходите на предприятието ще се увеличат средно с 0,897% при същия размер на дълготрайните активи.

Ако дълготрайните производствени активи се увеличат с 1%, тогава приходите на компанията ще намалеят с 0,226% при постоянни капиталови инвестиции.

5. НИЕ ИЗЧИСЛЯВАМЕ:

коефициент на множествена корелация:

Връзката между приходите на предприятието и обема на капиталовите вложения и дълготрайните производствени активи е тясна.

Таблица 13

Спомагателни изчисления за намиране на коефициента на множествена корелация, коефициента на детерминация, средната относителна грешка на апроксимацията на степенния модел на множествена регресия

Y

(Y-Y изчислен.) 2

А
3,0 1,1 0,4 2,978 0,000 0,020 0,007
2,9 1,1 0,4 2,978 0,006 0,058 0,027
3,0 1,2 0,7 2,838 0,026 0,020 0,054
3,1 1,4 0,9 3,079 0,000 0,002 0,007
3,2 1,4 0,9 3,079 0,015 0,004 0,038
2,8 1,4 0,8 3,162 0,131 0,116 0,129
2,9 1,3 0,8 2,959 0,003 0,058 0,020
3,4 1,6 1,1 3,317 0,007 0,068 0,024
3,5 1,3 0,4 3,460 0,002 0,130 0,012
3,6 1,4 0,5 3,516 0,007 0,212 0,023
31,4 13,2 6,9 0,198 0,684 0,342

коефициент на детерминация:

71,06% от промяната в приходите на предприятието в енергийния модел се дължи на промени в обема на капиталовите инвестиции и дълготрайните производствени активи, а 28,94% се дължи на влиянието на фактори, които не са включени в модела.

F – критерий на Фишер

Нека проверим значението на уравнението

Таблични стойности на F теста при ниво на значимост α = 0,05 и броя на степените на свобода d.f. 1 = k = 2, брой степени на свобода d.f. 2 = (n – k – 1) = (10 – 2 – 1) = 7 ще бъде 4,74.

Тъй като F изчислено = 8,592 > раздел F. = 4,74, тогава уравнението за степенна регресия като цяло може да се счита за статистически значимо.

Кацането е невъзможно, в кой от възможните случаи разходът на гориво е по-малък. Вземете програмата оптимален контрол, когато до определен момент t1 няма управление u*=0, а започвайки от t=t1, управлението е равно на максималната му стойност u*=umax, която съответства на минималния разход на гориво. 6.) Решете каноничната система от уравнения, като я разгледате за случаите, когато управлението...

Към съставянето на математически модели. Ако математическият модел е диагноза на заболяване, то алгоритъмът е метод за лечение. Могат да се разграничат следните основни етапи на оперативното изследване: наблюдение на явлението и събиране на изходни данни; формулиране на проблема; строителство математически модел; изчисляване на модела; тестване на модела и анализиране на изходните данни. Ако получените резултати не са задоволителни...

Математически конструкциипо аналогия с разкрива в равнинно приближение надлъжно-скаларния електромагнитна вълнас електрически - (28) и магнитни (29) синфазни компоненти. Математическият модел на безвъртежната електродинамика се характеризира със скаларно-векторната структура на неговите уравнения. Основните уравнения на иротационната електродинамика са обобщени в таблица 1. Таблица 1, ...

ВАРИАНТ 5

Изследвана е зависимостта на средната продължителност на живота от няколко фактора по данни за 1995 г., представени в табл. 5.

Таблица 5

Мозамбик

……………………………………………………………………………………..

Швейцария

Обозначения, използвани в таблицата:

· Y-- средна продължителност на живота при раждане, години;

· х 1 -- БВП по паритети на покупателната способност;

· х 2 -- верига темпо нарастване на населението, %;

· х 3 -- верига темп на нарастване на работната сила, %;

· х 4 -- коефициент на детска смъртност, % .

Задължително:

1. Съставете матрица от сдвоени коефициенти на корелация между всички изследвани променливи и идентифицирайте колинеарни фактори.

2. Конструирайте регресионно уравнение, което не съдържа колинеарни фактори. Проверете статистическата значимост на уравнението и неговите коефициенти.

3. Съставете регресионно уравнение, съдържащо само статистически значими и информативни фактори. Проверете статистическата значимост на уравнението и неговите коефициенти.

Точки 4 - 6 се отнасят до регресионното уравнение, съставено при изпълнение на точка 3.

4. Оценете качеството и точността на регресионното уравнение.

5. Дайте икономическа интерпретация на коефициентите на регресионното уравнение и сравнителна оценка на силата на влияние на факторите върху променливата на резултата Y.

6. Изчислете прогнозираната стойност на променливата на резултата Y, ако предвидените стойности на факторите са 75% от техните максимални стойности. Конструирайте доверителен интервал за прогнозата на действителната стойност Yс 80% надеждност.

Решение.За решаване на проблема се използва табличен процесор EXCEL.

1. С помощта на добавката „Анализ на данни… Корелация“ изграждаме матрица от сдвоени коефициенти на корелация между всички изследвани променливи (меню „Инструменти“ „Анализ на данни…“ „Корелация“). На фиг. Фигура 1 показва панела за корелационен анализ с попълнени полета. За да копирате моментна снимка на прозорец в клипборда с данни на WINDOWS, използвайте клавишната комбинация Alt+Print Screen (на някои клавиатури - Alt+PrtSc). в приложението. 2 и прехвърлени на табл. 1.

ориз. 1. Панел за корелационен анализ

маса 1

Матрица от двойни коефициенти на корелация

Анализ интерфакториален корелационните коефициенти показва, че стойността от 0,8 надвишава в абсолютна стойносткоефициент на корелация между двойка фактори х 2 -х 3 (подчертано с удебелен). Фактори х 2 -х 3 се разпознават като колинеарни.

2. Както беше показано в параграф 1, факторите X2-X3 са колинеарни, което означава, че те всъщност се дублират един друг и едновременното им включване в модела ще доведе до неправилна интерпретация на съответните регресионни коефициенти. Може да се види, че фактор X2 има по-голям коефициент на корелация с резултат Y, отколкото фактор X3: ry,x2=0,72516; ry,x3=0,53397; |ry,x2|>|ry,x3| (виж таблица 1). Това показва повече силно влияниефактор X2 за промяна на Y. По този начин фактор X3 се изключва от разглеждане.

За да се състави регресионно уравнение, стойностите на използваните променливи ( Y,х 1 , х 2 , х 4) копирайте го в празен работен лист ( прил. 3). Изграждаме регресионното уравнение с помощта на добавката „ Анализ на данни...Регресия" (меню " Обслужване" « Анализ на данни…» « Регресия"). Панелът за регресионен анализ с попълнени полета е показан в ориз. 2.

Резултатите от регресионния анализ са дадени в прил. 4и се премести в маса 2. Регресионното уравнение има формата (вижте „ Коефициенти" V маса 2):

y = 75,44 + 0,0447? х 1 - 0,0453? х 2 - 0,24 ? х 4

Регресионното уравнение се счита за статистически значимо, тъй като вероятността за случайното му формиране във формата, в която е получено, е 1.04571?10 -45 (вж. "Значение F" V маса 2), което е значително по-ниско от приетото ниво на значимост =0,05.

Вероятност за случайно образуване на коефициенти за фактор х 1 под приетото ниво на значимост =0,05 (вижте „ P-стойност" V маса 2), което показва статистическата значимост на коефициентите и значителното влияние на тези фактори върху промяната в годишната печалба Y.

Вероятност за случайно образуване на коефициенти за фактори х 2 и х 4 надвишава приетото ниво на значимост =0,05 (вижте „ P-стойност" V маса 2), и тези коефициенти не се считат за статистически значими.

ориз. 2. Панел за регресионен анализ на модела Y(х 1 ,х 2 ,х 4 )

таблица 2

Y(х 1 , х 2 , х 4 )

Дисперсионен анализ

Значение F

Регресия

Регресионно уравнение

Коефициенти

Стандартна грешка

t-статистика

P-стойност

Долни 95%

Топ 95%

Най-ниски 95,0%

Топ 95,0%

Y-пресечка

3. Въз основа на резултатите от проверката на статистическата значимост на коефициентите на регресионното уравнение, извършена в предходния параграф, ние изграждаме нов регресионен модел, съдържащ само информативни фактори, които включват:

· фактори, чиито коефициенти са статистически значими;

· фактори, чиито коеф T _statistics надвишава единица по абсолютна стойност (с други думи, абсолютна стойносткоефициентът е по-голям от него стандартна грешка).

Първата група включва фактора х 1 към 2 е фактор х 4 . Фактор х 2 се изключва от разглеждане като неинформативен и накрая регресионен моделще съдържа фактори х 1 , х 4 .

За да съставите регресионно уравнение, копирайте стойностите на използваните променливи в празен работен лист ( прил. 5)и извършване на регресионен анализ ( ориз. 3). Резултатите от него са дадени в прил. 6и се премести в маса 3. Регресионното уравнение е:

y = 75,38278 + 0,044918? х 1 - 0,24031? х 4

(см. " Коефициенти" V таблица 3).

ориз. 3. Панел за регресионен анализ на модела Y(х 1 , х 4 )

Таблица 3

Резултати от регресионен анализ на модела Y(х 1 , х 4 )

Регресионна статистика

множествено число Р

R-квадрат

Нормализирано R-квадрат

Стандартна грешка

Наблюдения

Дисперсионен анализ

Значение F

Регресия

Регресионно уравнение

Коефициенти

Стандартна грешка

t-статистика

P-стойност

Y-пресечка

Регресионното уравнение е статистически значимо: вероятността за неговото случайно формиране е под приемливото ниво на значимост = 0,05 (вижте „ Значение F" V таблица 3).

Коефициентът за фактора също се счита за статистически значим х 1 вероятността за неговото произволно формиране е под приемливото ниво на значимост = 0,05 (вижте „ P-стойност" V маса 3). Това показва значително влияние на БВП по паритетите на покупателната способност х 1 за промяна в годишната печалба Y.

Коефициент на фактор х 4 (годишна детска смъртност) не е статистически значима. Въпреки това, този фактор все още може да се счита за информативен, тъй като T _статистиката на неговия коефициент надвишава по модулединица, въпреки че допълнителни заключения относно фактора х 4 трябва да се третира с известна предпазливост.

4. Нека оценим качеството и точността на последното регресионно уравнение, използвайки някои статистически характеристикиполучени по време на регресионен анализ (вижте „ Регресионна статистика» в табл. 3):

множествен коефициент на детерминация

R 2 = _ i=1 ____________ =0.946576

Р 2 = показва, че регресионният модел обяснява 94,7% от вариацията в средната продължителност на живота при раждане Yи тази вариация се дължи на промени във факторите, включени в регресионния модел х 1 , х 4 ;

стандартна грешка на регресия

показва, че стойностите на средната продължителност на живота при раждане, предвидени от регресионното уравнение Yсе различават от действителните стойности средно с 2,252208 години.

Средно аритметично относителна грешкаприближението се определя по приблизителната формула:

Erel?0,8 ? -- ? 100%=0,8? 2,252208/66,9 ? 100%? 2.7

където хиляди търкайте. -- средна продължителност на живота (определена с помощта на вградената функция " СРЕДНО АРИТМЕТИЧНО»; прил. 1).

д rel показва, че стойностите на годишната печалба, предвидени от регресионното уравнение Yсе различават от действителните стойности средно с 2,7%. Моделът има висока точност(при - точността на модела е висока, при - добра, при - задоволителна, при - незадоволителна).

5. За икономическото тълкуване на коефициентите на уравнението на регресията, ние таблично представяме средните стойности и стандартни отклоненияпроменливи в изходните данни (Таблица 4). Средните стойности бяха определени с помощта на вградената функция "СРЕДНО", стандартните отклонения - с помощта на вградената функция "СТАНДАРТНО ОТКЛОНЕНИЕ" (вижте Приложение 1).

Според териториите на Юг федерален окръгРуската федерация предоставя данни за 2011 г

Територии на федералния окръг

Брутен регионален продукт, милиарди рубли, Y

Инвестиции в дълготрайни активи, милиарди рубли, X1

1. Представител Адигея

2. Представител Дагестан

3. Представител Ингушетия

4. Кабардино-Балкарска република

5. Представител Калмикия

6. Карачаево-Черкеска република

7. Представител Северна Осетия Алания

8. Краснодарски край)

9. Ставрополски край

10. Астраханска област.

11. Волгоградска област.

12. Ростовска област.

  • 1. Изчислете матрицата на двойните корелационни коефициенти; оценете статистическата значимост на корелационните коефициенти.
  • 2. Конструирайте корелационно поле между ефективния атрибут и най-тясно свързания с него фактор.
  • 3. Изчислете параметрите на регресията на линейната двойка за всеки фактор X.
  • 4. Оценете качеството на всеки модел чрез коефициента на детерминация, средната грешка на приближението и F теста на Фишер. Изберете най-добрия модел.

ще бъде 80% от него максимална стойност. Представете графично: действителни и моделни стойности, прогнозни точки.

  • 6. Използвайки поетапна множествена регресия (метод на изключване или метод на включване), изградете модел на формиране на цената на апартамента поради значими фактори. Дайте икономическа интерпретация на коефициентите на регресионния модел.
  • 7. Оценете качеството на изградения модел. Подобри ли се качеството на модела в сравнение с еднофакторния модел? Оценете влиянието на значимите фактори върху резултата, като използвате коефициентите на еластичност, в - и -? коефициенти

При решаването на този проблем ще се извършват изчисления и изграждане на графики и диаграми с помощта на настройката Анализ на Excelданни.

1. Изчислете матрицата на коефициентите на корелация на двойки и оценете статистическата значимост на коефициентите на корелация

В диалоговия прозорец Корелация, в полето Интервал на въвеждане въведете диапазона от клетки, съдържащи изходните данни. Тъй като сме избрали и заглавията на колоните, поставяме отметка в квадратчето Етикети на първия ред.

Получихме следните резултати:

Таблица 1.1 Матрица на корелационните коефициенти на двойки

Анализът на матрицата на коефициентите на двойна корелация показва, че зависимата променлива Y, т.е. брутният регионален продукт, има по-тясна връзка с X1 (инвестиции в основен капитал). Коефициентът на корелация е 0,936. Това означава, че 93,6% от зависимата променлива Y (брутен регионален продукт) зависи от показателя X1 (инвестиции в основен капитал).

Статистическата значимост на корелационните коефициенти ще бъде определена с помощта на t-теста на Student. Сравняваме табличната стойност с изчислените стойности.

Нека изчислим стойността на таблицата с помощта на функцията STUDISCOVER.

t маса = 0,129 at вероятност за довериеравна на 0,9 и степени на свобода (n-2).

Фактор X1 е статистически значим.

2. Нека изградим поле на корелация между ефективния атрибут (брутен регионален продукт) и фактора, който е най-тясно свързан с него (инвестиция в основен капитал)

За да направим това, ще използваме инструмента за точкова диаграма на Excel.

В резултат на това получаваме корелационно поле за цената на брутния регионален продукт, милиарди рубли. и инвестиции в дълготрайни активи, милиарди рубли. (Фигура 1.1.).

Фигура 1.1

3. Изчислете параметрите на линейната двойка регресия за всеки фактор X

За да изчислим параметрите на линейната регресия по двойки, ще използваме инструмента за регресия, включен в настройката за анализ на данни.

В диалоговия прозорец Регресия в полето Интервал на въвеждане Y въведете адреса на диапазона от клетки, които зависимата променлива представлява. В полето

Въведете интервал X, въвеждаме адреса на диапазона, който съдържа стойностите на независимите променливи. Нека изчислим параметрите на сдвоената регресия за фактор X.

За X1 получихме следните данни, представени в таблица 1.2:

Таблица 1.2

Регресионното уравнение за зависимостта на цената на брутния регионален продукт от инвестициите в основен капитал има формата:

4. Нека оценим качеството на всеки модел чрез коефициента на детерминация, средната грешка на приближението и F-теста на Фишер. Нека да определим кой модел е най-добрият.

Получихме коефициента на определяне, средната грешка на приближаване, в резултат на изчисленията, извършени в параграф 3. Получените данни са представени в следните таблици:

X1 данни:

Таблица 1.3а

Таблица 1.4b

А) Коефициентът на детерминация определя каква част от вариацията в признака Y се взема предвид в модела и се дължи на влиянието на фактор X върху него повече стойносткоефициент на детерминация, на по-тясна връзкамежду признаците в изградения математически модел.

IN програма Excelозначен с R-квадрат.

Въз основа на този критерий най-адекватният модел е регресионното уравнение на зависимостта на цената на брутния регионален продукт от инвестициите в основен капитал (Х1).

Б) Изчисляваме средната грешка на приближението по формулата:

където числителят е сумата от квадратите на отклонението на изчислените стойности от действителните. В таблиците се намира в колоната SS, оставащият ред.

Изчисляваме средната цена на апартамент в Excel с помощта на функцията AVERAGE. = 24,18182 милиарда рубли.

При извършване на икономически изчисления моделът се счита за достатъчно точен, ако средна грешкаприближението е по-малко от 5%, моделът се счита за приемлив, ако средната грешка на приближението е по-малка от 15%.

По този критерий най-адекватен е математическият модел за регресионното уравнение на зависимостта на цената на брутния регионален продукт от инвестициите в основен капитал (Х1).

C) F-тестът се използва за тестване на значимостта на регресионния модел. За да направите това, се прави сравнение и на критичните (таблични) стойности на F-теста на Fisher.

Изчислените стойности са дадени в таблици 1.4b (обозначени с буквата F).

Ще изчислим табличната стойност на F теста на Fisher в Excel с помощта на функцията FDIST. Нека вземем вероятността равна на 0,05. Получено: = 4.75

Изчислените стойности на F теста на Fisher за всеки фактор са сравними със стойността на таблицата:

71.02 > = 4.75 моделът е адекватен по този критерий.

След като анализираме данните и по трите критерия, можем да заключим, че най-добрият математически модел е изграден за фактора брутен регионален продукт, който се описва с линейното уравнение

5. За избрания модел на зависимост на цената от брутния регионален продукт

Ще прогнозираме средната стойност на индикатора на ниво на значимост, ако прогнозираната стойност на фактора е 80% от максималната му стойност. Нека го представим графично: реални и моделни стойности, прогнозни точки.

Нека изчислим прогнозираната стойност на X според условието, тя ще бъде 80% от максималната стойност;

Нека изчислим X max в Excel с помощта на функцията MAX.

0,8 *52,8 = 42,24

За да получим прогнозни оценки на зависимата променлива, заместваме получената стойност на независимата променлива в линейното уравнение:

5,07+2,14*42,24 = 304,55 милиарда рубли.

Нека определим доверителния интервал на прогнозата, който ще има следните граници:

Да изчисля доверителен интервалза прогнозираната стойност изчисляваме отклонението от регресионната линия.

За сдвоен регресионен модел стойността на отклонението се изчислява:

тези. стойност на стандартната грешка от таблица 1.5a.

(Тъй като броят на степените на свобода е равен на едно, знаменателят ще бъде равен на n-2). корелационна двойка регресионна прогноза

За изчисляване на коефициента ще използваме Функция на Excel STUDISPOSIB, нека вземем вероятността равна на 0,1, броят на степените на свобода е 38.

Ще изчислим стойността с използвайки Excel, получаваме 12294.


Да определим горната и долната граница на интервала.

  • 304,55+27,472= 332,022
  • 304,55-27,472= 277,078

Така прогнозната стойност = 304,55 хиляди долара ще бъде между долната граница, равна на 277,078 хиляди долара. и горна граница, равна на 332,022 милиарда. Разтрийте.

Действителните и моделните стойности, прогнозните точки са представени графично на Фигура 1.2.


Фигура 1.2

6. Използвайки поетапна множествена регресия (метод на елиминиране), ще изградим модел за формиране на цената на брутния регионален продукт поради значими фактори

За да изградим множествена регресия, ще използваме функцията за регресия на Excel, включително всички фактори. В резултат на това получаваме таблиците с резултати, от които се нуждаем от t-теста на Student.

Таблица 1.8а

Таблица 1.8б

Таблица 1.8c.

Получаваме модел като:

Тъй като< (4,75 < 71,024), уравнение регрессии следует признать адекватным.

Нека изберем най-малката абсолютна стойност на t-теста на Стюдънт, тя е равна на 8,427, сравним я с табличната стойност, която изчисляваме в Excel, вземем нивото на значимост равно на 0,10, броят на степените на свобода n-m-1= 12-4=8: =1,8595

Тъй като 8.427>1.8595 моделът трябва да се счита за адекватен.

7. За да оценим значимия фактор на получения математически модел, изчисляваме коефициентите на еластичност и - коефициентите

Коефициентът на еластичност показва с какъв процент ще се промени ефективният атрибут, когато факторният атрибут се промени с 1%:

E X4 = 2,137 * (10,69/24,182) = 0,94%

Тоест, при увеличение на инвестициите в основен капитал от 1%, себестойността се увеличава средно с 0,94%.

Коефициентът показва с каква част от стандартното отклонение се променя средната стойност на зависимата променлива с промяна на независимата променлива с едно стандартно отклонение.

2,137* (14.736/33,632) = 0,936.

Средни данни квадратни отклонениявзети от таблици, получени с помощта на инструменти Описателна статистика.

Таблица 1.11 Описателна статистика (Y)

Таблица 1.12 Описателни статистики (X4)

Коефициентът определя дела на влиянието на фактора в общото влияние на всички фактори:

За да изчислим коефициентите на корелация на двойки, ние изчисляваме матрицата на коефициентите на корелация на двойки в Excel с помощта на инструмента за корелация в настройките за анализ на данни.

Таблица 1.14

(0,93633*0,93626) / 0,87 = 1,00.

Заключение: От получените изчисления можем да заключим, че ефективният атрибут Y (брутен регионален продукт) има голяма зависимост от фактор X1 (инвестиции в основен капитал) (със 100%).

Библиография

  • 1. Магнус Ю.Р., Катишев П.К., Пересецки А.А. Иконометрия. Курс за начинаещи. Урок. 2-ро изд. - М.: Дело, 1998. - с. 69 - 74.
  • 2. Семинар по иконометрия: Учебник / I.I. Елисеева, С.В. Куришева, Н.М. Гордеенко и др., 2002 г. - с. 49 - 105.
  • 3. Дохърти К. Въведение в иконометрията: Прев. от английски - М.: ИНФРА-М, 1999. - XIV, с. 262 - 285.
  • 4. Айвизян С.А., Михтирян В.С. Приложна математикаи основите на иконометрията. -1998., стр. 115-147.
  • 5. Кремер Н.Ш., Путко Б.А. Иконометрия. -2007. от 175-251.