Параметър a в уравнението на сдвоената линейна регресия. Доверителни интервали за зависимата променлива

Изпратете добрата си работа в базата знания е лесно. Използвайте формата по-долу

Студенти, докторанти, млади учени, които използват базата от знания в обучението и работата си, ще ви бъдат много благодарни.

публикувано на http:// www. всичко най-добро. en/

Министерство на образованието и науката на Руската федерация

федерален държавен бюджет образователна институциявисше образование

Държавен технически университет "Комсомолск на Амур"

Факултет по икономика и управление

Катедра Икономика, финанси и счетоводство

ИЗЧИСЛИТЕЛНО-ГРАФИЧНА ЗАДАЧА

по дисциплина "Иконометрия"

група ученик

А.Ю. Зайченко

Учител

И.И. Антонова

маса 1

Номер на региона	Среден жизнен минимум на глава от населението на ден за едно трудоспособно лице, rub.,	Средна дневна заплата, rub.,

Задължително:

1. Изградете регресионно уравнение на линейна двойка от.

3. Оценете статистическата значимост на параметрите на регресията и корелацията, като използвате t-теста на Fisher и t-теста на Student.

4. Изпълнете прогноза заплатипри прогнозната стойност на средния жизнен минимум на човек от населението, който е 107% от средното равнище.

5. Оценете точността на прогнозата чрез изчисляване на грешката на прогнозата и нейния доверителен интервал.

6. Начертайте изходните данни и теоретичната линия на една графика.

1. Да се изчислят параметрите на уравнението линейна регресияизградете изчислителна таблица 2. линейна корелация апроксимация регресия

таблица 2















Означава

Получено регресионно уравнение:

С увеличаване на жизнения минимум на глава от населението с 1 rub. средната дневна заплата се увеличава средно с 0,89 рубли.

2. Стегнатостта на линейната зависимост ще бъде оценена чрез коефициента на корелация:

Това означава, че 51% от вариацията в заплатите () се обяснява с вариацията на фактора - среден жизнен минимум на глава от населението.

Качеството на модела се определя от средната апроксимационна грешка:

Качеството на изработения модел се оценява като добро, тъй като не надвишава 8-10%.

3. Ще оценим значимостта на регресионното уравнение като цяло, използвайки -критерия на Фишер. Действителна стойност - критерии:

Табличната стойност на критерия при пет процента ниво на значимост и степени на свобода е. Тъй като регресионното уравнение се счита за статистически значимо.

Ще оценим статистическата значимост на регресионните параметри с помощта на t-статистиката на Student и чрез изчисляване на доверителния интервал за всеки от показателите.

Табличната стойност на критерия за броя на степените на свобода и ще бъде.

Нека дефинираме случайните грешки:

Действителните стойности на -statistics надвишават стойността на таблицата:

следователно параметрите и не са произволно различни от нула, а са статистически значими. Нека изчислим доверителните интервали за регресионните параметри и. За това определяме пределна грешказа всеки индикатор:

Доверителни интервали:

Анализът на горната и долната граница на доверителните интервали води до заключението, че с вероятност параметрите и, намирайки се в посочените граници, не приемат нулеви стойности, т.е. не са статистически значими и са значително различни от нула.

4. Получените оценки на регресионното уравнение ни позволяват да го използваме за прогнозиране. Ако прогнозната стойност на екзистенц минимума е:

Тогава прогнозната стойност на заплатите ще бъде:

Грешката в прогнозата ще бъде:

Пределната прогнозна грешка, която в случаите няма да бъде превишена, ще бъде:

Доверителен интервал на прогнозата:

Изпълнената прогноза за средната месечна заплата е надеждна () и е в диапазона от 131,66 рубли. до 190,62 рубли. В заключение ще начертаем първоначалните данни и теоретичната права линия на една и съща графика (Фигура 1)

Снимка 1

Хоствано на Allbest.ru

Подобни документи

Сграда линейно уравнениерегресия по двойки, изчисление линеен коефициентдвойна корелация и средна грешкаприближения. Определяне на коефициенти на корелация и еластичност, индекс на корелация, същност на приложението на критерия на Фишер в иконометрията.

тест, добавен на 05/05/2010

Изчисляване на параметри на сдвоена линейна регресия. Оценка на статистическата значимост на регресионното уравнение и неговите параметри с помощта на тестовете на Fisher и Student. Построяване на матрица от сдвоени коефициенти на корелация. Статистически анализизползвайки PPP MS EXCEL.

тест, добавен на 14.05.2008 г

Изчисляване на линейния коефициент на двойна и частична корелация. Статистическа значимост на регресионните и корелационни параметри. Анализ на корелационното поле с данни. Точност на прогнозата, изчисление на грешки и доверителен интервал. Множествен коефициент на детерминация.

контролна работа, добавена на 11.12.2010 г

Икономическа интерпретация на регресионния коефициент. Намиране на остатъчната сума на квадратите и оценка на дисперсията на остатъците. Проверка на значимостта на параметрите на регресионното уравнение с помощта на t-критерия на Стюдънт. Изчисляване на средната относителна апроксимационна грешка.

тест, добавен на 23.03.2010 г

Изграждане на доверителен интервал за регресионния коефициент. Определяне на апроксимационна грешка, корелационен индекс и F-тест на Фишер. Оценка на еластичността на промените в материалоемкостта на продуктите. Построяване на линейно уравнение множествена регресия.

тест, добавен на 04/11/2015

Изчисляване на параметрите на уравнението на линейната регресия, оценка на плътността на връзката с помощта на показателите за корелация и детерминация. Определяне на средната апроксимационна грешка. Статистическа надеждност на моделирането с помощта на F-тест на Фишер и t-тест на Стюдънт.

тест, добавен на 17.10.2009 г

Определяне на количествената зависимост на масата на животно с кожа от възрастта му. Построяване на сдвоено регресионно уравнение, изчисляване на неговите параметри и проверка на адекватността. Оценка на статистическата значимост на регресионните параметри, изчисляване на техния доверителен интервал.

лабораторна работа, добавена на 02.06.2014 г

Изграждане на хипотеза за формата на връзката между паричните доходи на глава от населението и потребителските разходи в Уралския и Западносибирския регион на Руската федерация. Изчисляване на параметрите на двойните регресионни уравнения, оценка на тяхното качество с помощта на средната апроксимационна грешка.

тест, добавен на 05.11.2014 г

Метод Анализ най-малки квадратиза регресия по двойки като метод за оценка на параметрите на линейна регресия. Разглеждане на линейното уравнение на двойната регресия. Изследване на множествена линейна регресия. Изследване на грешките на регресионните коефициенти.

тест, добавен на 28.03.2018 г

Изграждане на корелационното поле. Изчисляване на параметри на сдвоени регресионни уравнения. Зависимостта на средната продължителност на живота от някои фактори. Изследването на "критерия на Фишер". Оценка на плътността на връзката с помощта на индикатори за корелация и детерминация.

100 rбонус за първа поръчка

Изберете вида работа Дипломна работа Курсова работаРеферат Магистърска теза Доклад от практика Статия Доклад Рецензия ТестМонография Решаване на проблеми Бизнес план Отговори на въпроси творческа работаЕсе Рисуване Съчинения Превод Презентации Набиране Друго Повишаване уникалността на текста Кандидатска теза Лабораторна работаПомощ онлайн

Попитайте за цена

Двойната регресия е уравнението на връзката на две променливи

y и x Видове г= f(х),

където y - зависима променлива (резултатен знак);

x е независима, обяснителна променлива (коефициент на знак).

Има линейни и нелинейни регресии.

Метод на най-малките квадрати

За оценка на регресионните параметри, които са линейни в тези параметри, се използва методът на най-малките квадрати (LSM). . LSM дава възможност да се получат такива оценки на параметрите, при които сумата от квадратните отклонения на действителните стойности на резултантната характеристика y от теоретичните стойности ŷ хс еднакви стойности на фактора хминимален, т.е.

5. Оценка на статистическата значимост на корелационни показатели, параметри на уравнението на сдвоената линейна регресия, уравнението на регресията като цяло.

6. Оценка на степента на близост на връзката между количествените променливи. Ковариационен коефициент. Мерки за корелация: коефициент на линейна корелация, индекс на корелация (= теоретично съотношение на корелация).

ковариационен коефициент

Mch (y) - т.е. получаваме корелационна зависимост.

Наличието на корелационна зависимост не може да отговори на въпроса за причината за връзката. Корелацията установява само мярката на тази връзка, т.е. мярка за последователна вариация.

Мярка за връзката между променливите mu 2 може да се намери с помощта на ковариация.

, ,

Стойността на показателя на ковариацията зависи от измерваните единици в променливата γ. Следователно, за да се оцени степента на последователна вариация, се използва коефициентът на корелация - безразмерна характеристика с определени граници на вариация.

7. Коефициент на детерминация. Стандартна грешка на регресионното уравнение.

Коефициент на определяне (rxy2) - характеризира пропорцията на дисперсията на резултантната характеристика y, обяснена с дисперсията, в обща дисперсияефективен знак. Колкото по-близо е rxy2 до 1, толкова по-добър е регресионният модел, т.е. оригиналният модел приближава добре оригиналните данни.

8. Оценка на статистическата значимост на коригиращите показатели, параметрите на сдвоеното уравнение на линейната регресия, уравнението на регресията като цяло: T-Критерий на ученика, Е- Критерий на Фишер.

9. Нелинейни регресионни модели и тяхната линеаризация.

Нелинейните регресии се разделят на два класа : регресии, които са нелинейни по отношение на обяснителните променливи, изключени от анализа, но линейни по отношение на оценените параметри, и регресии, които са нелинейни по отношение на оценените параметри.

примери за регресия, нелинейни в обяснителните променливи, но линейни в очакваните параметри:

Нелинейни регресионни модели и тяхната линеаризация

С нелинейна зависимост на признаците, сведена до линейна форма, параметрите на множествената регресия също се определят чрез най-малките квадрати с единствената разлика, че не се използва за обща информация, но към трансформираните данни. И така, като се има предвид степенната функция

преобразуваме го в линейна форма:

където променливите са изразени в логаритми.

По-нататъшната обработка на най-малките квадрати е същата: изгражда се система нормални уравненияи се определят неизвестни параметри. Чрез потенциране на стойността намираме параметъра аи съответно общата форма на уравнението на степенната функция.

Най-общо казано, нелинейна регресиявърху включените променливи не крие трудности при оценката на неговите параметри. Тази оценка се определя, както при линейната регресия, чрез най-малките квадрати. И така, в уравнението на двуфакторната нелинейна регресия

линеаризацията може да се извърши чрез въвеждане на нови променливи в него . Резултатът е уравнение на линейна регресия с четири фактора

10.Мултиколинеарност. Методи за премахване на мултиколинеарността.

Най-големите трудности при използването на апарата за множествена регресия възникват при наличието на мултиколинеарност на факторите, когато са свързани повече от два фактора линейна зависимост . Наличието на факторна мултиколинеарност може да означава, че някои фактори винаги ще действат в унисон. В резултат на това вариацията в първоначалните данни вече не е напълно независима и е невъзможно да се оцени въздействието на всеки фактор поотделно.

Колкото по-силна е мултиколинеарността на факторите, толкова по-малко надеждна е оценката на разпределението на сумата от обяснената вариация върху отделните фактори, използвайки метода на най-малките квадрати (LSM).

Включването на мултиколинеарни фактори в модела е нежелателно поради следните причини:

ü трудни за интерпретиране параметрите на множествената регресия; параметрите на линейната регресия губят икономически смисъл;

ü оценките на параметрите са ненадеждни, показват големи стандартни грешки и се променят с обема на наблюденията, което прави модела неподходящ за анализ и прогнозиране

Методи за премахване на мултиколинеарността

- изключване на променливата(ите) от модела;

Въпреки това е необходимо известно внимание при кандидатстване този метод. В тази ситуация са възможни грешки в спецификацията.

- получаване на допълнителни данни или конструиране на нова извадка;

Понякога, за да се намали мултиколинеарността, е достатъчно да се увеличи размерът на извадката. Например, ако използвате годишни данни, можете да промените на тримесечни данни. Увеличаването на количеството данни намалява дисперсиите на регресионните коефициенти и по този начин повишава тяхната статистическа значимост. Получаването на нова проба или разширяването на старата обаче не винаги е възможно или е свързано със значителни разходи. Освен това този подход може да се увеличи

автокорелация.

- промяна на спецификацията на модела;

В някои случаи проблемът с мултиколинеарността може да бъде решен чрез промяна на спецификацията на модела: или формата на модела се променя, или се добавят нови обяснителни променливи, които не се вземат предвид в модела.

- използване на предварителна информация за някои параметри;

11.Класически линеен моделмножествена regr-ii (KLMMR). Определяне на параметрите на ур-I на множествената регресия по метода на квадратите.

Сервизно задание. С помощта на услугата онлайн режимможе да се намери:

параметри на уравнението на линейната регресия y=a+bx , линеен корелационен коефициент с тест за неговата значимост;
плътност на връзката с помощта на индикатори за корелация и определяне, оценка на най-малките квадрати, статична надеждност на регресионното моделиране с помощта на F-тест на Fisher и t-тест на Student, доверителен интервал на прогнозата за ниво на значимост α

Уравнението на двойната регресия се отнася до регресионно уравнение от първи ред. Ако един иконометричен модел съдържа само една обяснителна променлива, тогава той се нарича регресия по двойки. Регресионно уравнение от втори реди регресионно уравнение от трети редсе отнасят до нелинейни регресионни уравнения.

Пример. Изберете зависимата (обяснена) и обяснителна променлива, за да изградите сдвоен регресионен модел. дайте . Определяне на теоретично уравнениедвойна регресия. Оценете адекватността на изградения модел (интерпретирайте R-квадрат, t-статистика, F-статистика).
Решениеще се базира на процес на иконометрично моделиране.
Етап 1 (постановка) - определяне на крайните цели на моделирането, набор от фактори и показатели, участващи в модела, и тяхната роля.
Спецификация на модела - дефиниране на целта на изследването и избор на икономически променливи на модела.
Ситуационна (практическа) задача. За 10 предприятия от региона зависимостта на продукцията на работник y (хиляда рубли) от специфично теглоработници високо квалифициранв обща силаработници x (в %).
Етап 2 (априори) - предмоделен анализ икономическа същностна изследваното явление, формирането и формализирането на априорна информация и първоначални предположения, по-специално свързани с естеството и генезиса на първоначалните статистически данни и случайни остатъчни компоненти под формата на редица хипотези.
Още на този етап можем да говорим за ясна зависимост между нивото на квалификация на работника и неговата продукция, тъй като колкото по-опитен е работникът, толкова по-висока е неговата производителност. Но как да оценим тази зависимост?
Регресия по двойкие регресия между две променливи - y и x, т.е. модел от вида:

Където y е зависимата променлива (резултатен знак); x е независима или обяснителна променлива (фактор на знак). Знакът "^" означава, че няма строга функционална зависимост между променливите x и y, следователно в почти всеки отделен случайстойността на y се състои от два члена:

Където y е действителната стойност на ефективната характеристика; y x е теоретичната стойност на ефективния признак, намерена на базата на регресионното уравнение; ε е случайна променлива, която характеризира отклоненията на реалната стойност на резултантната характеристика от теоретичната стойност, получена от регресионното уравнение.
Ще покажем графично регресионната зависимост между продукцията на работник и дела на висококвалифицираните работници.

3-ти етап (параметризация) - същинско моделиране, т.е. избор общ изгледмодел, включително състава и формата на връзките между включените в него променливи. Изборът на типа функционална зависимост в регресионното уравнение се нарича параметризация на модела. Избирам двойка регресионно уравнение, т.е. само един фактор ще повлияе на крайния резултат y.
4-ти етап (информационен) - събиране на необходимите статистическа информация, т.е. регистриране на стойностите на факторите и показателите, участващи в модела. Извадката се състои от 10 предприятия от индустрията.
Етап 5 (идентификация на модела) – оценка на неизвестни параметри на модела с помощта на наличните статистически данни.
За да определим параметрите на модела, използваме LSM - метод на най-малките квадрати. Системата от нормални уравнения ще изглежда така:
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
За да изчислим регресионните параметри, ще изградим изчислителна таблица (Таблица 1).

х	г	x2	y2	x y
10	6	100	36	60
12	6	144	36	72
15	7	225	49	105
17	7	289	49	119
18	7	324	49	126
19	8	361	64	152
19	8	361	64	152
20	9	400	81	180
20	9	400	81	180
21	10	441	100	210
171	77	3045	609	1356

Вземаме данните от таблица 1 (последния ред), в резултат на което имаме:
10a + 171b = 77
171 a + 3045 b = 1356
Тази SLAE се решава по метода на Крамер или метода на обратната матрица.
Получаваме емпирични регресионни коефициенти: b = 0,3251, a = 2,1414
Уравнението на емпиричната регресия има формата:
y = 0,3251 x + 2,1414
Етап 6 (проверка на модела) - сравнение на реални и моделни данни, проверка на адекватността на модела, оценка на точността на моделните данни.
Анализът се извършва с помощта на

1. Основни определения и формули

Регресия по двойки- регресия (връзка) между две променливи и др. преглед на модела:

където е зависимата променлива (резултатен знак);

- независима обяснителна променлива (знаков фактор);

Смущение или стохастична променлива, включително влиянието на фактори, които не са взети предвид в модела.

В почти всеки отделен случай стойността се състои от два термина:

където е действителната стойност на ефективния признак;

Теоретичната стойност на получената характеристика, намерена на базата на регресионното уравнение. Знакът "^" означава, че няма строга функционална връзка между променливите и.

Разграничете линеени нелинейнирегресия.

Линейна регресиясе описва с уравнението на права линия

Нелинейни регресииса разделени на два класа:

1) регресия, нелинейни по отношение на обяснителните променливи, но линейни по отношение на оценените параметри, например:

Полиноми от различни степени

Равностранна хипербола

2) регресии, нелинейни в оценените параметри, например:

Мощност

Демонстрация

Експоненциален

За изграждане на сдвоена линейна регресия се изчисляват спомагателни величини ( - брой наблюдения).

Примерни средства: и

Примерна ковариациямежду и

или

ковариация- това е числена характеристикасъвместно разпределение на двама случайни променливи.

Примерно отклонение за

или

Примерно отклонение за

или

Дисперсия на извадкатахарактеризира степента на разпространение на стойностите на случайна променлива около средната стойност (променливост, променливост).

Тясността на връзката между изследваните явления се оценява от извадков коефициент на корелациямежду и

Коефициентът на корелация варира от -1 до +1. Колкото по-близък модул е до 1, толкова по-близо статистическа зависимостмежду и към линеен функционал.

Ако =0, тогава линейна връзкамежду и липсващи;<0,3 - связь слабая; 0,3<0,7 - связь умеренная; 0,7<0,9 - связь сильная; 0,9<0,99 - связь весьма сильная.

Положителна стойност на коефициента показва, че връзката между знаците е пряка (стойността се увеличава с растеж), отрицателна стойност показва обратна връзка (стойността намалява с растеж).

Изграждане на линейна регресиясе свежда до оценяване на неговите параметри и Класическият подход за оценяване на параметрите на линейната регресия се основава на най-малки квадрати(MNK). LSM позволява да се получат такива оценки на параметрите, при които сумата от квадратните отклонения на действителните стойности на получената характеристика от теоретичните е минимална, т.е.

За линейна регресия параметрите и се намират от системата от нормални уравнения:

Решавайки системата, намираме вна

и параметър

Коефициентс факторна променлива показва колко ще се промени средно стойността, когато факторът се промени за единица измерване.

Параметърът, когато If не може да бъде равен на 0, тогава няма икономически смисъл. Възможно е да се тълкува само знакът на ако, ако тогава относителната промяна в резултата е по-бавна от промяната на фактора, т.е. дисперсията на резултата е по-малка от дисперсията на фактора и обратно.

За да оцените качеството на изградения регресионен модел, можете да използвате коефициент на детерминацияили средна апроксимационна грешка.

Да секоефициент на детерминация

Или

показва дела на дисперсията, обяснена от регресията, в общата дисперсия на резултантния атрибут.Съответно стойността характеризира дела на дисперсията на индикатора, причинена от влиянието на фактори, които не са взети предвид в модела и други причини.

Колкото по-близо до 1, толкова по-добър е регресионният модел, т.е. изграденият модел добре апроксимира първоначалните данни.

Средна апроксимационна грешкае средното относително отклонение на теоретичните стойности от действителните, т.е.

Построеното регресионно уравнение се счита за задоволително, ако стойността не надвишава 10-12%.

За линейна регресия среден коефициент на еластичностсе намира по формулата:

Среден коефициент на еластичностпоказва колко процента средно в популацията ще се промени резултатът от стойността си, когато факторът се промени с 1% от стойността си.

Степен hnachimostирегресионни уравненияобикновено се дава с помощта на теста на Фишер, който се състои в тестване на хипотезата за статистическа незначимост на регресионното уравнение . За това се прави сравнение действителенднебеи критичен(таблица) стойности - Критерий на Фишер .

се определя от съотношението на стойностите на фактора и остатъчните дисперсии, изчислени за една степен на свобода, т.е.

- максималната възможна стойност на критерия под въздействието на случайни фактори със степени на свобода =1, =-2 и нивото на значимост се намира от таблицата на критериите на Фишер (таблица 1 от приложението).

Ниво на значимост- е вероятността да се отхвърли правилна хипотеза, при положение, че е вярна.

Ако тогава хипотезата за липсата на връзка между изследвания показател и фактора се отхвърля и се прави заключение за значимостта на тази връзка с нивото на значимост (т.е. уравнението на регресията е значимо).

Ако тогава хипотезата се приема и се признава статистическата незначимост и ненадеждност на регресионното уравнение.

За линейна регресия значимострегресионни коефициентиоценени с - Критерий на Стюдънт, според който се излага хипотеза за случайния характер на показателите, т.е. за тяхната незначителна разлика от нула. След това се изчисляват действителните стойности на критерия за всеки от оценените регресионни коефициенти, т.е.

къде и - стандартни грешкипараметрите на линейната регресия се определят по формулите:

- максималната възможна стойност на критерия на Стюдънт под въздействието на случайни фактори за дадена степен на свобода = -2 и нивото на значимост се намира от таблицата на критерия на Стюдънт (Таблица 2 от Приложението).

Ако тогава хипотезата за незначимостта на регресионния коефициент се отхвърля с нивото на значимост, т.е. коефициентът ( или ) не случайно се различава от нула и се формира под въздействието на систематично действащ фактор

Ако тогава хипотезата не се отхвърля и се признава случайният характер на формирането на параметъра.

Значение на коефициента на линейна корелациясъщо проверено с - Критерий на ученика, т.е.

Хипотезата за незначимостта на корелационния коефициент се отхвърля с нивото на значимост, ако

Коментирайте.За линейна регресия по двойки, тестването на хипотези за значимостта на коефициента и коефициента на корелация е еквивалентно на тестване на хипотезата за значимостта на регресионното уравнение като цяло, т.е.

За да изчислите доверителния интервал, определете пределна грешказа всеки показател, т.е.

Доверителни интервализа коефициенти на линейна регресия:

Ако нулата попада в границите на доверителния интервал, т.е. долната граница е отрицателна, а горната граница е положителна, тогава оцененият параметър се приема за нула, тъй като не може да приема както положителни, така и отрицателни стойности едновременно.

Прогнозна стойностсе определя чрез заместване на съответната прогнозна стойност в регресионното уравнение. След това се изчислява средна стандартна грешка на прогнозата

където

и се строи прогнозен доверителен интервал

Интервалът може да бъде доста широк поради малкия обем на наблюденията.

регресии, нелинейни във включените променливи , се редуцират до линейна форма чрез проста промяна на променливи, а по-нататъшното оценяване на параметрите се извършва с помощта на метода на най-малките квадрати.

Жхиперболична регресия:

Р егресии , нелинейни д според прогнозните параметри се делят на два вида: вътрешно нелинейнии т.н. (не се редуцира до линейна форма) и вътрешно линеен(намалена до линейна форма с помощта на подходящите трансформации), например:

Експоненциална регресия:

Линеаризираща трансформация:

Регресия на мощността:

Линеаризираща трансформация:

Индексная регресия:

Линеаризираща трансформация:

логаритмичента регресия:

Линеаризираща трансформация:

2. Решение на типични проблеми

Пример9 .1 . За 15 селскостопански предприятия (Таблица 9.1) са известни: - броят на техниката на единица посевна площ (ед./ха) и - обемът на произведената продукция (хил. ден. единици). Необходимо:

1) определяне на зависимостта от

2) начертайте корелационните полета и начертайте уравнението на линейната регресия

3) направете заключение за качеството на модела и изчислете прогнозираната стойност с прогнозирана стойност от 112% от средното ниво.

Таблица 9.1

Решение:

1) В Excel ще съставим спомагателна таблица 9.2.

Таблица 9.2

Ориз.9 .един. Таблица за изчисляване на междинни стойности

Изчислете броя на измерванията За да направите това, в клетка B19сложи = БРОЙ(A2:A16 ) .

Използване на функцията ∑ (Автосумиране) на лентата с инструменти Стандартен T ная намерете сумата от всички (клетка B17) и (клетка C17).

Ориз. 9.2. Изчисляване на сумата от стойности и средни стойности

За да изчислим средните стойности, използваме вградената функция MS Excel AVERAGE(), диапазонът от стойности за определяне на средната стойност е посочен в скоби. Така средният обем на отгледаната продукция за 15 ферми е 210,833 хил.ден. ед., а средният брой превозни средства е 6 248 бр./ха.

За попълване на колони д, д, Евъведете формулата за изчисляване на продукта: в клетката д2 сложи = B2*C2, след което натиснете ENTER на клавиатурата. Кликнете с левия бутон върху клетката д2 и като хванете долния десен ъгъл на тази клетка (черен плюс), дръпнете надолу към клетката д16 . Диапазонът ще се попълни автоматично. д3 - д16 .

За изчисление в селективено ковариациямежду и използвайте формулата, т.е. в клетка б21 сложи = д18- б18* ° С18 и вземете 418.055 (фиг. 9.3).

Ориз.9 .3. изчисление

СелективенЕхадисперсияЮза намиране по формулата за това в клетка б22 сложи = E18-B18^2 (^- знак, показващ степенуване ) и вземете 11.337. По същия начин определяме \u003d 16745.05556 (фиг. 9.4)

Ориз.9 .четири. изчислениевар(х) ивар (г)

Освен това, използвайки стандартната функция на MS Excel „CORREL“, изчисляваме стойността на коефициента на линейна корелация за нашата задача, функцията ще изглежда като „=CORREL(B2:B16;C2:C16)“, а стойността rxy=0,96 . Получената стойност на корелационния коефициент показва пряка и силна връзка между наличието на оборудване и обема на отглежданата продукция.

Намираме визвадков коефициент на линейна регресия =36,87; параметър = -17.78. И така, уравнението на сдвоената линейна регресия изглежда като = -17,78 + 36,87

Коефициентът показва, че с увеличаване на броя на оборудването с 1 единица / ха, обемът на отглежданите продукти ще се увеличи средно с 36,875 хиляди den. единици (фиг. 9.5)

Ориз.9 .5. Изчисляване на параметрите на регресионното уравнение.

Така регресионното уравнение ще изглежда така: .

Ние заместваме действителните стойности в полученото уравнение х(брой оборудване) намираме теоретичните стойности на обема на отглежданите продукти (фиг. 9.6).

Ориз.9 .6. Изчисляване на теоретичните стойности на обемите на отглежданите продукти

Използвайки Съветник за диаграмиизграждаме корелационни полета (избирайки колони със стойности и ) и уравнение на линейна регресия (избирайки колони със стойности и ). Изберете типа диаграма - T спектакъл В получената диаграма попълнете необходимите параметри (заглавие, надписи за осите, легенда и др.). В резултат на това получаваме графиката, показана на фиг. 9.7.

Ориз.9 .7. Графика на зависимостта на обема на отглежданите продукти от броя на оборудването

За да оценим качеството на изградения регресионен модел, изчисляваме:

. да секоефициент на детерминация\u003d 0,92, което показва, че промяната в производствените разходи е 92% поради промяната в обема на производството, а 8% се падат на дела на факторите, които не са взети предвид в модела, което показва качеството на изградената регресия модел;

. счервеноююгрешкаприприближения. За да направите това, в колоната зизчислете разликата между действителните и теоретичните стойности a в колоната аз- израз . Моля, обърнете внимание, че стандартната функция на MS Excel "ABS" се използва за изчисляване на модулната стойност. При умножаване на средната стойност (клетка аз18 ) при 100% получаваме 18,2%. Следователно, средно теоретичните стойности се отклоняват от действителните с 18,2% (фиг. 1.8).

Използвайки критерия на Фишер, ние оценяваме чnachimostbуравнениярегрестези като цяло: 150,74.

При ниво на значимост 0,05 = 4,67, ние определяме с помощта на вградената статистическа функция F РАЗПРОСТРАНЕНИЕ(фиг. 1.9). В същото време трябва да се помни, че "Степени_на_свобода1" е знаменателят, а "Степени_на_свобода2" е числителят, където е броят на параметрите в регресионното уравнение (имаме 2), н- броят на първоначалните двойки стойности (имаме 15).

защото тогава регресионното уравнение е значимо при =0,05.

Ориз.9 .8. Определяне на коефициента на детерминация исредна апроксимационна грешка

Ориз. 9 . 9 . Диалогов прозорецфункцииF РАЗПРОСТРАНЕНИЕ

След това дефинираме ссреден коефициент на еластичностспоред формулата. Установеното показва, че при увеличаване на обема на произведените продукти с 1%, разходите за производство на тези продукти ще се увеличат общо с 1,093% средно.

Изчисли прогнозна стойностчрез заместване на предвидената стойност на фактора =1,12=6,248*1,12=6,9978 в регресионното уравнение =-19,559+36,8746. Получаваме =238,48. Следователно, с броя на оборудването в размер на 6,9978 единици / хектар, обемът на продукцията ще бъде 238,48 хиляди den. единици

Намерете остатъчната дисперсия, за това изчисляваме сумата от квадратите на разликата между действителните и теоретичните стойности. =39,166, като поставите следната формула = ROOT(J17/(B19-2))в клетка з2 1 (фиг. 9.10).

Ориз.9 .десет. Определяне на остатъчна дисперсия

ОТчервеноу астандартента грешкапрогноза:

При ниво на значимост =0,05 с помощта на вградената статистическа функция STEUDRESPOBRдефинираме =2.1604 и изчисляваме пределната прогнозна грешка, която в 95% от случаите няма да надвишава .

дпрогнозен доверителен интервал:

Или .

Прогнозата за производствените разходи се оказа надеждна (1-0,05=0,95), но неточна, тъй като обхватът на горната и долната граница на доверителния интервал е пъти. Това се случи поради малкия обем на наблюденията.

Трябва да се отмени, че MS Excel има вградени статистически функции, които могат значително да намалят броя на междинните изчисления, например (фиг. 9.11.):

Да изчисля вселективенхсредно аритметичнохизползвайте функцията AVERAGE(число1:числон) от категория Статистически .

Примерна ковариациямежду и се намира с помощта на функцията COVAR(масивх;масивY) от категория Статистически .

Селективенсдисперсияиопределя се от статистическата функция VARP(число1:числон) .

Ориз.9 .единадесет. Изчисляване nиндексира вградени функцииГОСПОЖИЦАпревъзходен

Ппараметърслинейна регресияв Excel може да се дефинира по няколко начина.

1 начин) С вградена функция LINEST. Процедурата е следната:

1. Изберете област от празни клетки 5x2 (5 реда, 2 колони), за да покажете резултатите от регресионната статистика или област 1x2 - за да получите само коефициенти на регресия.

2. Използване Помощници за функциимежду статистически изберете функция LINESTи попълнете неговите аргументи (фиг. 9.12):

Ориз. 9 . 12 . Диалогов прозорец за въвеждане на аргумент на функцияLINEST

Известни_стойности_г

Известни_стойности_х

Конст- логическа стойност (1 или 0), която показва наличието или липсата на свободен член в уравнението; сложи 1;

Статистика- булева стойност (1 или 0), която показва дали да се покаже допълнителна информация за регресионния анализ или не; сложи 1.

3. Първото число от таблицата ще се появи в горната лява клетка на избраната област. Натиснете бутона, за да отворите цялата маса. < Е2> , а след това - върху клавишната комбинация < CTRL> + < SHIFT> + < ENTER> .

Допълнителна регресионна статистика ще бъде показана във формуляра (Таблица 9.3):

Таблица 9.3

Стойност на коефициента	Стойност на коефициента
RMS отклонение	RMS отклонение
Коефициент определения	RMS отклонение
Статистика	Брой степени на свобода
Регресионна сума на квадратите	Остатъчен сбор от квадрати

В резултат на прилагане на функцията LINESTполучаваме:

( 2 начин) Използване на инструмент за анализ на данни Регресия можете да получите резултатите от регресионна статистика, дисперсионен анализ, доверителни интервали, остатъци, регресионни графики, остатъчни графики и нормална вероятност. Процедурата е следната:

1. Трябва да проверите достъпа до Пакет за анализ. За да направите това, в главното меню (чрез бутона Microsoft Officeдостъп до опциите на MS Excel) в диалоговия прозорец Опции. ГОСПОЖИЦАпревъзходен» изберете командата "Добавки" и изберете добавката вдясно Анализ на пакета а след това щракнете върху бутона "Отиди" (фиг. 9.13). В диалоговия прозорец, който се отваря, поставете отметка в квадратчето до „Пакет за анализ“ и щракнете върху „OK“ (фиг. 9.14).

В раздела „Данни“ в групата „Анализ“ ще имате достъп до инсталираната добавка. (фиг. 9.15).

Ориз.9 .13. Активиране на добавки вГОСПОЖИЦАпревъзходен

Ориз.9 .четиринадесет. Диалогов прозорец за добавки

Ориз.9 .15. Добавка за анализ на данни на лентатаГОСПОЖИЦАпревъзходен 2007 .

2. Изберете "Данни" в групата "Анализ", изберете командата Анализ да н nyh в диалоговия прозорец, който се отваря, изберете инструмента за анализ "Регресия" и щракнете върху "OK" (фиг. 9.16):

Ориз.9 .16. Диалогов прозорец за анализ на данни

В диалоговия прозорец, който се появява (фиг. 9.17), попълнете полетата:

интервал на въвежданеY- диапазонът, съдържащ данните на ефективния атрибут Y;

интервал на въвежданех- диапазонът, съдържащ данните на обяснителния атрибут X;

Етикети- флаг, който показва дали първият ред съдържа имената на колоните или не;

Констмравка нула- флаг, показващ наличието или липсата на свободен член в уравнението;

изходен интервал- достатъчно е да посочите горната лява клетка на бъдещия диапазон;

Нов работен лист- можете да зададете произволно име за новия лист, на който ще се показват резултатите.

Ориз.9 .17. Диалогов прозорец за регресия

За Остатъчна информация, Остатъчни графики, Напасване и Нормална вероятност поставете отметка в съответните квадратчета в диалоговия прозорец.

Ориз. 9 . 18 . Резултати от прилагането на инструментаРегресия

AT ГОСПОЖИЦАпревъзходен тренд линияможе да се добави към стълбовидна диаграма или линейна диаграма. За това:

1. Необходимо е да изберете областта за изграждане на диаграмата и да изберете "Оформление" в лентата и да изберете командата "Линия на тренда" в групата за анализ (фиг. 9.19.). В елемента от падащото меню изберете „Разширени опции за трендови линии“.

Ориз. 1.19.Панделка

2. В диалоговия прозорец, който се показва, изберете действителните стойности, след което ще се отвори диалоговият прозорец "Формат на линията на тренда" (фиг. 9.20.), в който се избира типът на линията на тренда и се задават съответните параметри.

Ориз. 9 . 20 . Диалогов прозорец„Формат на линията на тенденция“

За полиномна тенденция трябва да посочите степента на апроксимиращия полином, за линейно филтриране- брой осредняващи точки.

Избирам Линеенза изграждане на уравнение на линейна регресия.

Като Допълнителна информациямога покажи уравнение на diаграми поставете стойност на диаграмата(фиг.9.21).

Ориз. 9 . 21 . Линеен тренд

Нелинейни регресионни модели са илюстрирани при изчисляване на параметрите на уравнението с помощта на статистическата функция, избрана в Excel ЛGRFPRIBL. Процедурата за изчисление е подобна на използването на функцията LINEST.

Най-простата от гледна точка на разбиране, интерпретация и изчислителна техника е линейната форма на регресия.

Регресионно уравнение на линейна двойка , където

a 0 , a 1 - параметри на модела, ε i - случайна величина (остатъчна стойност).

Параметри на модела и тяхното съдържание:

Регресионното уравнение се допълва с индикатор за тясността на връзката. Такъв показател е коефициентът на линейна корелация, който се изчислява по формулата:

или .

За оценка на качеството на селекцията линейна функцияизчислява се квадратът на коефициента на линейна корелация, т.нар коефициент на детерминация. Коефициентът на определяне характеризира съотношението на дисперсията на резултантния атрибут, обяснена чрез регресия, в общата дисперсия на резултантния атрибут:

където

Съответно, стойността характеризира дела на дисперсията, причинена от влиянието на други фактори, които не са взети предвид в модела.

След изграждането на регресионното уравнение се проверява неговата адекватност и точност.Тези свойства на модела се изследват въз основа на анализа на редица остатъци ε i (отклонения на изчислените стойности от действителните).

Ниво на реда на остатъка

Корелативни и регресионен анализизвършва се за ограничено население. В тази връзка показателите за регресия, корелация и детерминация могат да бъдат изкривени от действието на случайни фактори. За да се провери доколко тези показатели са характерни за цялата популация, дали са резултат от комбинация от случайни обстоятелства, е необходимо да се провери адекватността на изградения модел.

Проверката на адекватността на модела се състои в определяне на значимостта на модела и установяване наличието или липсата на систематична грешка.

Стойности 1релевантни данни х i на теоретични стойности а 0и а 1,случаен. Стойностите на изчислените от тях коефициенти също ще бъдат произволни. а 0и a 1 .

Проверката на значимостта на индивидуалните регресионни коефициенти се извършва съгласно t-тест на Стюдънтчрез тестване на хипотезата, че всеки регресионен коефициент е равен на нула. В същото време се установява колко характерни са изчислените параметри за показване на набор от условия: дали получените стойности на параметрите са резултат от действието на случайни променливи. Използват се подходящи формули за съответните регресионни коефициенти.

Формули за определяне на t-критерия на Стюдънт

където

S a 0 ,S a 1 - стандартни отклонения на свободния член и регресионния коефициент. Формули

където

S ε - стандартно отклонениемоделни остатъци (стандартна грешка на оценката), която се определя по формулата

Изчислените стойности на t-критерия се сравняват с табличната стойност на критерия Tαγ , което се определя за (n - к— 1) степени на свобода и съответното ниво на значимост α. Ако изчислената стойност на t-критерия надвишава табличната му стойност Tαγ , тогава параметърът се признава за значим. В този случай е почти невероятно, че намерените стойности на параметрите се дължат само на случайни съвпадения.

Оценката на значимостта на регресионното уравнение като цяло се прави на базата на - критерия на Фишер, който се предшества от дисперсионен анализ.

Общата сума на квадратите на отклоненията на променливата от средната стойност се разлага на две части - "обяснимо" и "необяснимо":

Обща сума на квадратите на отклоненията;

Сума от квадратни отклонения, обяснени чрез регресия (или факторна сума от квадратни отклонения);

- остатъчна сума на квадратите на отклоненията, която характеризира влиянието на фактори, които не са взети предвид в модела.

Схемата за дисперсионен анализ има вида, представен в таблица 35 ( - брой наблюдения, - брой параметри с променлива ).

Таблица 35 - Схема на дисперсионен анализ

Дисперсионни компоненти	Сбор на квадрати	Брой степени на свобода	Дисперсия по степен на свобода
Общ
факториел
Остатъчен

Определянето на дисперсията за една степен на свобода води дисперсиите до сравнима форма. Сравнявайки факторните и остатъчните дисперсии за една степен на свобода, получаваме стойността на критерия на Фишер:

За да проверите значимостта на регресионното уравнение като цяло, използвайте F-тест на Fisher. В случай на сдвоена линейна регресия, значимостта на регресионния модел се определя по следната формула: .

Ако при дадено ниво на значимост изчислената стойност на F-критерия с γ 1 =k, γ 2 =( п-к- 1) степените на свобода са по-големи от табличните, тогава моделът се счита за значим, хипотезата за случайния характер на оценените характеристики се отхвърля и се признава за тяхна статистическа значимости надеждност. Проверката за наличието или отсъствието на системна грешка (изпълнение на предпоставките на метода на най-малките квадрати - LSM) се извършва въз основа на анализа на редица остатъци. Изчисляването на случайните грешки на параметрите на линейната регресия и коефициента на корелация се извършва по формулите

За да тествате свойството за случайност на поредица от остатъци, можете да използвате критерия за повратни точки (върхове). Една точка се счита за повратна, ако следните условия: ε i -1< ε i >ε i +1 или ε i -1 > ε i< ε i +1

След това се изчислява броят на повратните точки p. Тест за произволност с 5% ниво на значимост, т.е. с ниво на увереност 95% е изпълнението на неравенството:

Квадратните скоби означават, че е взето цяла частномер, ограден в скоби. Ако неравенството е изпълнено, тогава моделът се счита за адекватен.

За тест за равенство математическо очакванеостатъчна последователност нула, средната стойност на поредица от остатъци се изчислява:

Ако = 0, тогава се счита, че моделът не съдържа постоянна систематична грешка и е адекватен според критерия за нулева средна стойност.

Ако ≠ 0, тогава се тества нулевата хипотеза, че математическото очакване е равно на нула. За да направите това, изчислете t-теста на Student по формулата:

където S ε е стандартното отклонение на остатъците на модела (стандартна грешка).

Стойността на t-критерия се сравнява с таблицата t αγ. Ако неравенството t > t αγ е изпълнено, тогава моделът е неадекватен според този критерий

Дисперсията на нивата на поредица от остатъци трябва да бъде еднаква за всички стойности х(Имот хомоскедастизъм).Ако това условие не е изпълнено, тогава хетероскедастичност .

За да се оцени хетероскедастичността с малък размер на извадката, може да се използва Метод на Голдфелд-Квант, чиято същност е, че е необходимо:

Намерете променливи стойности хвъв възходящ ред;

Разделете набора от подредени наблюдения на две групи;

За всяка група наблюдения съставете регресионни уравнения;

Определете остатъчните суми на квадратите за първа и втора група по формулите: ; , където

n 1 - броят на наблюденията в първата група;

n 2 - броят на наблюденията във втората група.

Изчислете критерия или (числителят трябва да съдържа голям сбор от квадрати). Докато правите нулева хипотезаотносно хомоскедастичността, критерият F calc ще удовлетвори F-критерия със степени на свобода γ 1 =n 1 -m, γ 2 =n - n 1 - m) за всеки остатъчна сумаквадрати (където m — броя на оценените параметри в регресионното уравнение). Колкото повече стойността на Fcalc превишава табличната стойност на F-критерия, толкова повече се нарушава предпоставката за равенството на дисперсиите на остатъците.

Проверката на независимостта на последователността на остатъците (липса на автокорелация) се извършва с помощта на d-тест на Durbin-Watson. Определя се по формулата:

Изчислената стойност на критерия се сравнява с долните d 1 и горните d 2 критични стойности на статистиката на Дърбин-Уотсън. Възможни са следните случаи:

1) ако d< d 1 , то гипотеза о независимости остатков отвергается и модель признается неадекватной по критерию независимости остатков;

2) ако d 1 < д < d 2 (включително самите тези стойности), се счита, че няма достатъчно основания за извеждане на едно или друго заключение. Необходими за използване допълнителен критерий, например първият автокорелационен коефициент:

Ако изчислената стойност на коефициента по модул е по-малка от табличната стойност r 1kr, тогава се приема хипотезата за липса на автокорелация; в противен случай тази хипотеза се отхвърля;

3) ако d 2 < д < 2, тогава се приема хипотезата за независимостта на остатъците и моделът се признава за адекватен по този критерий;

4) ако d> 2, тогава това показва отрицателна автокорелацияостатъци. В този случай изчислената стойност на критерия трябва да се преобразува по формулата d′= 4 - d и да се сравни с критичната стойност d′ , не d.

Проверката на съответствието на разпределението на остатъчната последователност с нормалния закон за разпределение може да се извърши с помощта на критерия R / S, който се определя по формулата:

където S ε е стандартното отклонение на остатъците на модела (стандартна грешка). Сравнява се изчислената стойност на R/S - критерии таблични стойности(долни и горни граници дадена връзка), и ако стойността не попада в интервала между критичните граници, тогава с дадено ниво на значимост хипотезата за нормално разпределение се отхвърля; в противен случай хипотезата се приема

За оценка на качеството регресионни моделисъщо е препоръчително да се използва корелационен индекс(коефициент на множествена корелация).

Формула за определяне на индекса на корелация

където

Общата сума на квадратите на отклоненията на зависимата променлива от нейната средна стойност. Определя се по формулата:

Сума на квадратите на отклоненията, обяснени с регресия. Определя се по формулата:

Остатъчна сума на квадратите на отклоненията. Изчислява се по формулата:

Уравнението може да се представи по следния начин:

Индексът на корелация приема стойност от 0 до 1. Колкото по-висока е стойността на индекса, толкова по-близки са изчислените стойности на получената характеристика до действителните. Индексът на корелация се използва за всяка форма на асоцииране на променливи; със сдвоена линейна регресия е равно на двойка коефициенткорелации.

Характеристиките на точността се използват като мярка за точността на модела: За да се определи мярката за точност на модела, се изчислява следното:

- максимална грешка- съответства на отклонението на изчисленото отклонение на изчислените стойности от действителните

- средно аритметично абсолютна грешка - грешката показва колко реалните стойности се отклоняват средно от модела

- дисперсия на поредица от остатъци (остатъчна дисперсия)

където е средната стойност на серия от остатъци. Определя се по формулата

- средна квадратична грешка. Това е корен квадратен от дисперсията: , как по-малка стойностгрешки, толкова по-точен е моделът

- средно аритметично относителна грешкаприближения.

Средната грешка на приближението не трябва да надвишава 8-10%.

Ако регресионният модел се признае за адекватен и параметрите на модела са значителни, тогава се пристъпва към изграждане на прогноза .

прогнозирана стойностпроменлива присе получава чрез заместване на очакваната стойност на независимата променлива в регресионното уравнение хпрогноза

Тази прогноза се нарича точка.Вероятността за прилагане на точкова прогноза е почти нулева, така че доверителният интервал на прогнозата се изчислява с висока надеждност.

Прогнозните доверителни интервали зависят от стандартна грешка, Изтрий хбягай от средната си стойност , брой наблюдения ни нивото на значимост на прогнозата α. Доверителните интервали на прогнозата се изчисляват по формулата: или

където

Tтаблица - определя се от таблицата на разпределението на Стюдънт за нивото на значимост α и броя на степените на свобода γ=n-k-1.

Пример13.

Според проучване на осем групи семейства са известни данни за връзката между разходите на населението за храна и нивото на семейния доход (Таблица 36).

Таблица 36 - Връзки между разходите на домакинствата за храна и доходите на семейството

Разходи за храна, хил. рубли.	0,9	1,2	1,8	2,2	2,6	2,9	3,3	3,8
Семеен доход, хиляди рубли	1,2	3,1	5,3	7,4	9,6	11,8	14,5	18,7

Да приемем, че връзката между семейния доход и разходите за храна е линейна. За да потвърдим нашето предположение, ние конструираме корелационно поле (Фигура 8).

Графиката показва, че точките се подреждат в някаква права линия.

За удобство на по-нататъшни изчисления ще съставим таблица 37.

Изчислете параметрите на регресионното уравнение на линейната двойка . За целта използваме формулите:

Фигура 8 - Корелационно поле.

Получихме уравнението:

Тези. с увеличение на семейния доход с 1000 рубли. разходите за храна се увеличават със 168 рубли.

Изчисляване на коефициента на линейна корелация.