Биографии Характеристики Анализ

Как работи експоненциалното изглаждане. Метод на експоненциално изглаждане

Задачите за прогнозиране се основават на промяната в някои данни във времето (продажби, търсене, предлагане, БВП, въглеродни емисии, население ...) и проектирането на тези промени в бъдещето. За съжаление, идентифицирани на исторически данни, тенденциите могат да бъдат нарушени от много непредвидени обстоятелства. Така че данните в бъдеще може да се различават значително от случилото се в миналото. Това е проблемът с прогнозирането.

Съществуват обаче техники (наречени експоненциално изглаждане), които позволяват не само да се опитаме да предскажем бъдещето, но и да изразим числено несигурността на всичко, свързано с прогнозата. Численото изразяване на несигурността чрез създаване на прогнозни интервали е наистина безценно, но често се пренебрегва в света на прогнозите.

Изтеглете бележка в или формат, примери във формат

Изходни данни

Да приемем, че сте фен на Властелинът на пръстените и правите и продавате мечове от три години (Фигура 1). Нека изведем продажбите графично (фиг. 2). Търсенето се удвои за три години - може би това е тенденция? Ще се върнем към тази идея малко по-късно. Има няколко пика и спадове на графиката, което може да е знак за сезонност. По-специално, пиковете са през месеци 12, 24 и 36, които се оказват през декември. Но може би това е просто съвпадение? Нека разберем.

Просто експоненциално изглаждане

Методи експоненциално изглажданесе основават на предсказване на бъдещето от данни от миналото, където по-новите наблюдения имат повече тежест от по-старите. Такова претегляне е възможно благодарение на изглаждащите константи. Първият метод за експоненциално изглаждане, който ще опитаме, се нарича просто експоненциално изглаждане (PES). експоненциално изглаждане, SES). Той използва само една изглаждаща константа.

Простото експоненциално изглаждане предполага, че вашите времеви серии от данни имат два компонента: ниво (или средна стойност) и някаква грешка около тази стойност. Няма тенденция или сезонни колебания - има само ниво, около което търсенето се колебае, заобиколено от малки грешки тук и там. Като дава предпочитание на по-нови наблюдения, TEC може да предизвика промени в това ниво. На езика на формулите,

Търсене в момент t = ниво + случайна грешкаблизо до нивото в момент t

И така, как намирате приблизителната стойност на нивото? Ако приемем, че всички времеви стойности имат една и съща стойност, тогава трябва просто да изчислим тяхната средна стойност. Това обаче е лоша идея. Трябва да се отдаде по-голяма тежест на последните наблюдения.

Нека създадем няколко нива. Изчислете базовата линия за първата година:

ниво 0 = средно търсене за първата година (месеци 1-12)

За търсенето на мечове то е 163. Използваме ниво 0 (163) като прогноза за търсенето за месец 1. Търсенето през месец 1 е 165, което е 2 меча над ниво 0. Струва си да актуализирате базовата апроксимация. Просто експоненциално изглаждащо уравнение:

ниво 1 = ниво 0 + няколко процента × (търсене 1 - ниво 0)

ниво 2 = ниво 1 + няколко процента × (търсене 2 - ниво 1)

и т.н. „Няколко процента“ се нарича изглаждаща константа и се обозначава с алфа. Може да бъде всяко число от 0 до 100% (0 до 1). По-късно ще научите как да изберете алфа стойност. AT общ случайстойност за различни точки във времето:

Ниво текущ период = ниво предишен период +
алфа × (текущ период на търсене - ниво предишен период)

Бъдещото търсене е равно на последно изчисленото ниво (фиг. 3). Тъй като не знаете какво е алфа, задайте клетка C2 на 0,5 като начало. След като моделът е изграден, намерете алфа, така че сумата от квадратите на грешката да е E2 (или стандартно отклонение– F2) бяха минимални. За да направите това, стартирайте опцията Намиране на решение. За да направите това, преминете през менюто ДАННИ –> Намиране на решение, и поставете в прозореца Опции за търсене на решениенеобходимите стойности (фиг. 4). За да покажете резултатите от прогнозата на диаграмата, първо изберете диапазона A6:B41 и изградете проста линейна диаграма. След това щракнете с десния бутон върху диаграмата, изберете опцията Изберете данни.В прозореца, който се отваря, създайте втори ред и вмъкнете в него прогнози от диапазона A42:B53 (фиг. 5).

Може би имате тенденция

За да проверите това предположение, е достатъчно да се побере линейна регресияпод данните за търсенето и извършете t-тест за нарастването на тази тренд линия (както в ). Ако наклонът на линията е различен от нула и е статистически значим (в теста на Стюдънт, стойността Рпо-малко от 0,05), данните имат тенденция (фиг. 6).

Използвахме функцията LINEST, която връща 10 Описателна статистика(ако не сте използвали тази функция преди, препоръчвам я) и функцията INDEX, която ви позволява да "извадите" само трите необходими статистики, а не целия набор. Оказа се, че наклонът е 2,54 и той е значителен, тъй като тестът на Стюдънт показа, че 0,000000012 е значително по-малко от 0,05. Така че тенденция има и остава да я включим в прогнозата.

Експоненциално изглаждане на Holt с корекция на тренда

Често се нарича двойно експоненциално изглаждане, защото има два изглаждащи параметъра, алфа, а не един. Ако времевата последователност има линеен тренд, тогава:

търсене във времето t = ниво + t × тенденция + случайно отклонениениво в момент t

Експоненциалното изглаждане на Holt с корекция на тренда има две нови уравнения, едното за нивото, докато се движи напред във времето, а другото за тренда. Уравнението на нивото съдържа изглаждащия параметър алфа, а уравнението на тенденцията съдържа гама. Ето как изглежда новото уравнение на ниво:

ниво 1 = ниво 0 + тенденция 0 + алфа × (търсене 1 - (ниво 0 + тенденция 0))

забележи, че ниво 0 + тенденция 0е само прогноза в една стъпка от първоначалните стойности до месец 1, така че търсене 1 – (ниво 0 + тенденция 0)е едностепенно отклонение. По този начин уравнението за приближение на основно ниво ще бъде както следва:

ниво на текущ период = ниво на предходен период + тенденция на предходен период + алфа × (търсене на текущия период - (ниво на предходен период) + тенденция на предходен период))

Уравнение за актуализиране на тенденцията:

текущ период на тенденция = предходен период на тенденция + гама × алфа × (текущ период на търсене – (ниво предишен период) + предишен период на тенденция))

Изглаждането на Холт в Excel е подобно на обикновеното изглаждане (фиг. 7) и, както по-горе, целта е да се намерят два коефициента, като същевременно се минимизира сумата от квадратните грешки (фиг. 8). За да получите първоначалното ниво и стойности на тенденция (в клетки C5 и D5 на фигура 7), изградете диаграма за първите 18 месеца на продажбите и добавете линия на тенденция с уравнение към нея. Въведете първоначалната стойност на тренда от 0,8369 и първоначалното ниво от 155,88 в клетки C5 и D5. Прогнозните данни могат да бъдат представени графично (фиг. 9).

Ориз. 7. Експоненциално изглаждане на Holt с корекция на тренда; За да увеличите изображение, щракнете с десния бутон върху него и изберете Отворете изображението в нов раздел

Намиране на модели в данните

Има начин да се тества предсказуемият модел за сила - да се сравнят грешките със себе си, изместени с една стъпка (или няколко стъпки). Ако отклоненията са случайни, тогава моделът не може да бъде подобрен. Възможно е обаче да има сезонен фактор в данните за търсенето. Концепцията за грешка, която корелира със собствената си версия за различен период, се нарича автокорелация (за повече информация относно автокорелацията вижте ). За да изчислите автокорелацията, започнете с данни за грешки в прогнозата за всеки период (прехвърлете колона F на фигура 7 в колона B на фигура 10). Следваща дефиниция средна грешкапрогноза (Фигура 10, клетка B39; формула в клетка: =СРЕДНО(B3:B38)). В колона C се изчислява отклонението на прогнозната грешка от средната стойност; формула в клетка C3: =B3-B$39. След това последователно преместете колона C с колона надясно и ред надолу. Формули в клетки D39: =SUMPRODUCT($C3:$C38,D3:D38), D41: =D39/$C39, D42: =2/SQRT(36), D43: =-2/SQRT(36).

Какво може да означава „синхронно движение“ с колона C за една от колоните D: O. Например, ако колони C и D са синхронни, тогава число, което е отрицателно в една от тях, трябва да бъде отрицателно в другата, положително в една , положителен в приятел. Това означава, че сборът от произведенията на двете колони ще бъде значителен (разликите се натрупват). Или, което е същото, колкото по-близо до нула е стойността в диапазона D41:O41, толкова по-ниска е корелацията на колоната (съответно от D до O) с колона C (фиг. 11).

Една автокорелация е над критичната стойност. Изместената година грешка корелира сама със себе си. Това означава 12-месечен сезонен цикъл. И това не е изненадващо. Ако погледнете графиката на търсенето (Фигура 2), се оказва, че има пикове в търсенето всяка Коледа и спадове през април-май. Помислете за техника за прогнозиране, която отчита сезонността.

Мултипликативно експоненциално изглаждане на Холт-Уинтърс

Методът се нарича мултипликативен (от multiplicate - умножавам), защото използва умножение за отчитане на сезонността:

Търсене към момент t = (ниво + t × тенденция) × сезонна корекция към момент t × всички оставащи нередовни корекции, които не можем да отчетем

Изглаждането на Holt-Winters се нарича още тройно експоненциално изглаждане, защото има три изглаждащи параметъра (алфа, гама и делта сезонен фактор). Например, ако има 12-месечен сезонен цикъл:

Месечна прогноза 39 = (ниво 36 + 3 × тенденция 36) x сезонност 27

При анализ на данните е необходимо да се установи каква е тенденцията в серията данни и каква е сезонността. За да извършите изчисления по метода на Holt-Winters, трябва:

  • Гладки исторически данни с помощта на метода на пълзящата средна.
  • Сравнете изгладената версия на времевия ред с оригинала, за да получите груба оценка на сезонността.
  • Вземете нови данни без сезонен компонент.
  • Намерете приближения за ниво и тенденция въз основа на тези нови данни.

Започнете с оригиналните данни (колони A и B на Фигура 12) и добавете колона C с изгладени стойности въз основа на подвижната средна. Тъй като сезонността има 12-месечни цикли, има смисъл да се използва 12-месечна средна стойност. Има малък проблем с тази средна стойност. 12 е четно число. Ако изгладите търсенето за месец 7, трябва ли да се счита за средното търсене от месеци 1 до 12 или от 2 до 13? За да се справим с тази трудност, трябва да изгладим търсенето с помощта на „пълзяща средна 2x12“. Тоест, вземете половината от двете средни стойности от месеци 1 до 12 и от 2 до 13. Формулата в клетка C8 е: =(СРЕДНО(B3:B14)+СРЕДНО(B2:B13))/2.

Изгладени данни за месеци 1–6 и 31–36 не могат да бъдат получени, тъй като няма достатъчно предишни и следващи периоди. За по-голяма яснота оригиналните и изгладени данни могат да бъдат показани на диаграма (фиг. 13).

Сега, в колона D, разделете първоначалната стойност на изгладената стойност, за да получите оценка на сезонната корекция (колона D на фигура 12). Формула в клетка D8: =B8/C8. Обърнете внимание на пикове от 20% над нормалното търсене през месеци 12 и 24 (декември), докато през пролетта има спадове. Тази техника за изглаждане ви дава две точкови оценкиза всеки месец (общо 24 месеца). Колона E е средната стойност на тези два фактора. Формулата в клетка E1 е: =СРЕДНО(D14,D26). За по-голяма яснота нивото на сезонните колебания може да бъде представено графично (фиг. 14).

Сега можете да получите коригирани данни за сезонни колебания. Формула в клетка G1: =B2/E2. Изградете графика въз основа на данните в колона G, допълнете я с линия на тенденция, покажете уравнението на тенденцията на диаграмата (фиг. 15) и използвайте коефициентите в следващите изчисления.

форма нов лист, както е показано на фиг. 16. Заменете стойностите в диапазона E5:E16 от фиг. 12 области E2:E13. Вземете стойностите на C16 и D16 от уравнението на тренд линията на фиг. 15. Задайте стойностите на изглаждащите константи да започват от около 0,5. Разширете стойностите в ред 17 в диапазона от месеци 1 до 36. Стартирайте Намиране на решениеза оптимизиране на коефициентите на изглаждане (фиг. 18). Формула в клетка B53: =(C$52+(A53-A$52)*D$52)*E41.

Сега в направената прогноза трябва да проверите автокорелациите (фиг. 18). Тъй като всички стойности са разположени между горната и долната граница, разбирате, че моделът е свършил добра работа за разбиране на структурата на стойностите на търсенето.

Изграждане на доверителен интервал за прогнозата

Така че имаме доста работеща прогноза. Как задавате горни и долни граници, които могат да се използват за правене на реалистични предположения? Симулацията Монте Карло, с която вече се запознахте (вижте също), ще ви помогне за това. Въпросът е да се генерират бъдещи сценарии на поведение на търсенето и да се определи групата, в която попадат 95% от тях.

Премахване от листа Excel прогнозаот клетки B53:B64 (виж Фиг. 17). Там ще напишете търсене въз основа на симулацията. Последният може да се генерира с помощта на функцията NORMINV. За следващите месеци просто трябва да му предоставите средната стойност (0), стандартното разпределение (10,37 от клетка $H$2) и произволно числоот 0 до 1. Функцията ще върне отклонението с вероятност, съответстваща на камбанообразната крива. Поставете симулация на грешка в една стъпка в клетка G53: =NORMINV(RAND();0;H$2). Разтягането на тази формула до G64 ви дава симулации на грешката на прогнозата за 12-месечна прогноза с една стъпка (Фигура 19). Вашите симулационни стойности ще се различават от тези, показани на фигурата (ето защо това е симулация!).

С Forecast Error имате всичко необходимо, за да актуализирате нивото, тенденцията и сезонния фактор. Затова изберете клетки C52:F52 и ги разтегнете до ред 64. В резултат на това имате симулирана грешка в прогнозата и самата прогноза. Отивайки от обратното, е възможно да се предвидят стойностите на търсенето. Вмъкнете формулата в клетка B53: =F53+G53 и я разтегнете до B64 (фиг. 20, диапазон B53:F64). Сега можете да натиснете бутона F9, като всеки път актуализирате прогнозата. Поставете резултатите от 1000 симулации в клетки A71:L1070, като всеки път транспонирате стойности от диапазона B53:B64 към диапазона A71:L71, A72:L72, ... A1070:L1070. Ако ви притеснява, напишете VBA кода.

Сега имате 1000 сценария за всеки месец и можете да използвате функцията PERCENTILE, за да получите горната и долната граница в средата на 95% доверителен интервал. В клетка A66 формулата е: = ПРОЦЕНТИЛ (A71: A1070, 0,975) и в клетка A67: = ПРОЦЕНТИЛ (A71: A1070, 0,025).

Както обикновено, за яснота данните могат да бъдат представени в графична форма(фиг. 21).

Има две интересни точки на графиката:

  • Маржът на грешка се увеличава с времето. Има смисъл. Несигурността се натрупва всеки месец.
  • По същия начин грешката се увеличава в частите, попадащи в периоди на сезонно увеличение на търсенето. С последващото си падане грешката се свива.

По материал от книга на Джон Форман. – М.: Издател Алпина, 2016. – С. 329–381

Пълзящата средна ви позволява да изгладите перфектно данните. Но основният му недостатък е, че всяка стойност в изходните данни има еднакво тегло за нея. Например, за подвижна средна стойност, използваща период от шест седмици, на всяка стойност за всяка седмица се дава 1/6 от теглото. За някои събрани статистически данни на по-новите стойности се придава по-голяма тежест. Следователно се използва експоненциално изглаждане, за да се придаде по-голяма тежест на най-новите данни. Така този статистически проблем е решен.

Формула за изчисляване на метода на експоненциалното изглаждане в Excel

Фигурата по-долу показва отчет за търсенето на конкретен продукт за 26 седмици. Колоната Търсене съдържа информация за количеството продадени стоки. В колоната "Прогноза" - формулата:

Колоната „Пълзяща средна“ дефинира прогнозираното търсене, изчислено чрез обичайното изчисление на подвижната средна с период от 6 седмици:

В последната колона "Прогноза", с формулата, описана по-горе, се прилага методът на експоненциално изглаждане на данните, при който стойностите от последните седмици имат по-голяма тежест от предходните.

Коефициентът "Alpha:" се въвежда в клетка G1, означава теглото на присвояването на най-новите данни. AT този примерима стойност от 30%. Останалите 70% от теглото се разпределят към останалите данни. Тоест втората стойност по уместност (отдясно наляво) има тежест, равна на 30% от останалите 70% от тежестта - това е 21%, третата стойност има тежест, равна на 30% от останалите от 70% от теглото - 14,7% и т.н.



Диаграма на експоненциално изглаждане

Фигурата по-долу показва графиката на търсенето, подвижната средна и експоненциалната изглаждаща прогноза, която е изградена на базата на първоначалните стойности:


Обърнете внимание, че прогнозата за експоненциално изглаждане реагира по-добре на промените в търсенето, отколкото линията на подвижната средна.

Данните за последователни предходни седмици се умножават по алфа фактора и резултатът се добавя към останалата част от тегловния процент, умножен по предишната прогнозирана стойност.

9 5. Метод на експоненциално изглаждане. Избор на изглаждаща константа

При използване на метода най-малки квадратиза да се определи прогнозната тенденция (тенденция), предварително се приема, че всички ретроспективни данни (наблюдения) имат еднакво информационно съдържание. Очевидно би било по-логично да се вземе предвид процесът на дисконтиране обща информация, тоест несъответствието на тези данни за разработването на прогноза. Това се постига при метода на експоненциално изглаждане чрез даване на последните наблюдения на времевия ред (т.е. стойностите, непосредствено предшестващи прогнозния период) на по-значими „тегла“ в сравнение с първоначалните наблюдения. Предимствата на метода на експоненциално изглаждане трябва също да включват простотата на изчислителните операции и гъвкавостта при описване на различни динамики на процеса. Методът е намерил най-голямо приложение за изпълнение на средносрочни прогнози.

5.1. Същността на метода на експоненциалното изглаждане

Същността на метода е в това динамичен сериалсе изглажда с претеглена „пълзяща средна“, в която теглата следват експоненциален закон. С други думи, колкото по-далече от края на времевия ред е точката, за която се изчислява претеглената плъзгаща се средна, толкова по-малко „участие взема“ в разработването на прогнозата.

Нека оригиналната динамична серия се състои от нива (компоненти на серията) y t , t = 1 , 2 ,...,n . За всеки m последователни нива от тази серия

динамична серия със стъпка равна на единица. Ако m е нечетно число и е за предпочитане да се вземе нечетен брой нива, тъй като в този случай изчислената стойност на нивото ще бъде в центъра на интервала на изглаждане и е лесно да се замени действителната стойност с нея, тогава може да се напише следната формула за определяне на подвижната средна:

t+ ξ

t+ ξ

∑ y i

∑ y i

i= t−ξ

i= t−ξ

2ξ + 1

където y t е стойността на пълзящата средна за момент t (t = 1 , 2 ,...,n ); y i е действителната стойност на нивото в момент i ;

i е поредният номер на нивото в интервала на изглаждане.

Стойността на ξ се определя от продължителността на интервала на изглаждане.

Тъй като

m =2 ξ +1

за нечетно m, тогава

ξ = m 2 − 1 .

Изчисляването на пълзящата средна за голям брой нива може да бъде опростено чрез дефиниране на последователни стойности на пълзящата средна рекурсивно:

y t= y t− 1 +

yt + ξ

− y t − (ξ + 1 )

2ξ + 1

Но предвид факта, че на последните наблюдения трябва да се придаде по-голяма „тежест“, пълзящата средна трябва да се тълкува по различен начин. Той се състои в това, че стойността, получена чрез осредняване, замества не централния член на интервала на осредняване, а последния му член. Съответно, последният израз може да бъде пренаписан като

Mi = Mi + 1

y i− y i− m

Тук подвижната средна, свързана с края на интервала, се обозначава с новия символ M i . По същество M i е равно на y t, изместен ξ стъпки надясно, тоест M i = y t + ξ , където i = t + ξ .

Като се има предвид, че M i − 1 е оценка на y i − m, израз (5.1)

могат да бъдат пренаписани във формата

y i+ 1

M i − 1,

M i определено от израз (5.1).

където M i е оценката

Ако изчисленията (5.2) се повтарят при постъпване на нова информация

и пренапишете в различна форма, тогава получаваме изгладена функция за наблюдение:

Q i= α y i+ (1 − α ) Q i− 1 ,

или в еквивалентна форма

Q t= α y t+ (1 − α ) Q t− 1

Изчисленията, извършвани по израз (5.3) с всяко ново наблюдение, се наричат ​​експоненциално изглаждане. В последния израз, за ​​да се разграничи експоненциалното изглаждане от пълзящата средна, се въвежда обозначението Q вместо M . Стойността α, която е

аналог на m 1 се нарича изглаждаща константа. Стойностите на α лежат в

интервал [ 0 , 1 ] . Ако α е представено като серия

α + α(1 − α) + α(1 − α) 2 + α(1 − α) 3 + ... + α(1 − α) n ,

лесно се вижда, че "теглата" намаляват експоненциално във времето. Например за α = 0 , 2 получаваме

0,2 + 0,16 + 0,128 + 0,102 + 0,082 + …

Сборът на редицата клони към единица, а членовете на сбора намаляват с времето.

Стойността на Q t в израз (5.3) е експоненциалната средна стойност от първи ред, т.е. средната стойност, получена директно от

изглаждане на данните от наблюдението (първично изглаждане). Понякога при разработването на статистически модели е полезно да се прибегне до изчисляването на експоненциални средни стойности от по-високи порядки, тоест средни стойности, получени чрез многократно експоненциално изглаждане.

Общата нотация в рекурсивна форма на експоненциалната средна от ред k е

Q t (k)= α Q t (k− 1 )+ (1 − α ) Q t (− k1 ).

Стойността на k варира в рамките на 1, 2, …, p ,p+1 , където p е редът на прогнозния полином (линеен, квадратичен и т.н.).

Въз основа на тази формула, за експоненциалното средно от първи, втори и трети ред, изразите

Q t (1 )= α y t + (1 − α ) Q t (− 1 1 );

Q t (2 )= α Q t (1 )+ (1 − α ) Q t (− 2 1 ); Q t (3 )= α Q t (2 )+ (1 − α ) Q t (− 3 1 ).

5.2. Определяне на параметрите на прогнозния модел чрез метода на експоненциалното изглаждане

Очевидно е, че за да се разработят прогнозни стойности въз основа на динамичните серии, използвайки метода на експоненциално изглаждане, е необходимо да се изчислят коефициентите на уравнението на тенденцията чрез експоненциални средни стойности. Оценките на коефициентите се определят от фундаменталната теорема на Браун-Майер, която свързва коефициентите на предсказуемия полином с експоненциалните средни стойности на съответните редове:

(− 1 )

aˆp

α (1 − α )∞

−α )

j (p − 1 + j) !

∑j

р=0

п! (k− 1 ) !j = 0

където aˆ p са оценки на коефициентите на полинома от степен p .

Коефициентите се намират чрез решаване на системата (p + 1 ) от уравнения сp + 1

неизвестен.

И така, за линеен модел

aˆ 0 = 2 Q t (1 ) − Q t (2 ) ; aˆ 1 = 1 − α α (Q t (1 )− Q t (2 )) ;

за квадратичен модел

aˆ 0 = 3 (Q t (1 )− Q t (2 )) + Q t (3 );

aˆ 1 =1 − α α [ (6 −5 α ) Q t (1 ) −2 (5 −4 α ) Q t (2 ) +(4 −3 α ) Q t (3 ) ] ;

aˆ 2 = (1 − α α ) 2 [ Q t (1 )− 2 Q t (2 )+ Q t (3 )] .

Прогнозата се изпълнява според избрания полином, съответно за линейния модел

ˆyt + τ = aˆ0 + aˆ1 τ ;

за квадратичен модел

ˆyt + τ = aˆ0 + aˆ1 τ + aˆ 2 2 τ 2 ,

където τ е стъпката на прогнозиране.

Трябва да се отбележи, че експоненциалните средни стойности Q t (k ) могат да бъдат изчислени само с известен (избран) параметър, знаейки началните условия Q 0 (k ) .

Оценки на началните условия, по-специално, за линеен модел

Q(1)=a

1 − α

Q(2 ) = a − 2 (1 − α ) a

за квадратичен модел

Q(1)=a

1 − α

+ (1 − α )(2 − α ) a

2(1−α )

(1− α )(3− 2α )

Q 0(2 ) = a 0−

2α 2

Q(3)=a

3(1−α )

(1 − α )(4 − 3 α ) a

където коефициентите a 0 и a 1 се изчисляват по метода на най-малките квадрати.

Стойността на изглаждащия параметър α се изчислява приблизително по формулата

α ≈ m 2 + 1,

където m е броят на наблюденията (стойности) в интервала на изглаждане. Последователността на изчисляване на прогнозните стойности е показана в

Изчисляване на коефициенти на редица по метода на най-малките квадрати

Определяне на интервала на изглаждане

Изчисляване на изглаждащата константа

Изчисляване на началните условия

Изчисляване на експоненциални средни стойности

Изчисляване на оценки a 0 , a 1 и т.н.

Изчисляване на прогнозни стойности на серия

Ориз. 5.1. Последователността на изчисляване на прогнозните стойности

Като пример, разгледайте процедурата за получаване на прогнозната стойност на времето за работа на продукта, изразено чрез времето между отказите.

Изходните данни са обобщени в табл. 5.1.

Избираме линеен модел за прогнозиране във формата y t = a 0 + a 1 τ

Решението е осъществимо със следните начални стойности:

a 0 , 0 = 64, 2; a 1, 0 = 31,5; α = 0,305.

Таблица 5.1. Изходни данни

Номер на наблюдение, t

Дължина на стъпката, прогнозиране, τ

MTBF, y (час)

За тези стойности изчислените "изгладени" коефициенти за

y 2 стойности ще бъдат равни

= α Q (1 )− Q (2 )= 97 , 9 ;

[ Q (1) − Q (2)

31, 9 ,

1−α

при начални условия

1 − α

A 0 , 0 −

а 1, 0

= −7 , 6

1 − α

= −79 , 4

и експоненциални средни стойности

Q (1 )= α y + (1 − α ) Q (1 )

25, 2;

В (2)

= α Q (1 )

+ (1 −α ) Q (2 ) = −47 , 5 .

След това „изгладената“ стойност y 2 се изчислява по формулата

Q i (1)

Q i (2)

a 0 ,i

a 1, i

ˆyt

Така (Таблица 5.2), линейният прогнозен модел има формата

ˆy t + τ = 224,5+ 32τ .

Нека изчислим прогнозираните стойности за периоди на олово от 2 години (τ = 1), 4 години (τ = 2) и така нататък, времето между отказите на продукта (Таблица 5.3).

Таблица 5.3. Прогнозни стойностиˆy t

Уравнението

t+2

t+4

t+6

t+8

t+20

регресия

(τ = 1)

(τ=2)

(τ = 3)

(τ=5)

τ =

ˆy t = 224,5+ 32τ

Трябва да се отбележи, че общото "тегло" на последните m стойности на времевия ред може да се изчисли по формулата

c = 1 − (m (− 1 ) m ) . m+ 1

Така за последните две наблюдения от серията (m = 2 ) стойността c = 1 − (2 2 − + 1 1 ) 2 = 0. 667 .

5.3. Избор на начални условия и определяне на изглаждащата константа

Както следва от израза

Q t= α y t+ (1 − α ) Q t− 1 ,

при извършване на експоненциално изглаждане е необходимо да се знае началната (предишната) стойност на изглажданата функция. В някои случаи първото наблюдение може да се приеме като начална стойност; по-често началните условия се определят съгласно изрази (5.4) и (5.5). В този случай стойностите a 0 , 0 , a 1 , 0

и a 2 , 0 се определят по метода на най-малките квадрати.

Ако наистина не вярваме на избраната първоначална стойност, тогава като вземем голяма стойност на изглаждащата константа α чрез k наблюдения, ще донесем

"тегло" на първоначалната стойност до стойността (1 − α ) k<< α , и оно будет практически забыто. Наоборот, если мы уверены в правильности выбранного начального значения и неизменности модели в течение определенного отрезка времени в будущем,α может быть выбрано малым (близким к 0).

По този начин изборът на изглаждащата константа (или броя на наблюденията в подвижната средна) включва компромис. Обикновено, както показва практиката, стойността на изглаждащата константа е в диапазона от 0,01 до 0,3.

Известни са няколко прехода, които позволяват да се намери приблизителна оценка на α. Първото следва от условието, че подвижната средна и експоненциалната средна са равни

α \u003d m 2 + 1,

където m е броят на наблюденията в интервала на изглаждане. Други подходи са свързани с точността на прогнозата.

Така че е възможно да се определи α въз основа на връзката на Майер:

α ≈ S y ,

където S y е стандартната грешка на модела;

S 1 е средната квадратична грешка на оригиналната серия.

Въпреки това, използването на последното съотношение се усложнява от факта, че е много трудно да се определят надеждно S y и S 1 от първоначалната информация.

Често изглаждащият параметър и в същото време коефициентите a 0 , 0 и a 0 , 1

се избират като оптимални в зависимост от критерия

S 2 = α ∑ ∞ (1 − α ) j [ yij − ˆyij ] 2 → min

j=0

чрез решаване на алгебричната система от уравнения, която се получава чрез приравняване на производните на нула

∂S2

∂S2

∂S2

∂a0, 0

∂ a 1, 0

∂a2, 0

И така, за линеен модел за прогнозиране началният критерий е равен на

S 2 = α ∑ ∞ (1 − α ) j [ yij − a0 , 0 − a1 , 0 τ ] 2 → min.

j=0

Решението на тази система с помощта на компютър не представлява никакви затруднения.

За разумен избор на α можете също да използвате обобщената процедура на изглаждане, която ви позволява да получите следните отношения, свързващи дисперсията на прогнозата и параметъра на изглаждане за линеен модел:

S p 2 ≈[ 1 + α β ] 2 [ 1 +4 β +5 β 2 +2 α (1 +3 β ) τ +2 α 2 τ 3 ] S y 2

за квадратичен модел

S p 2≈ [ 2 α + 3 α 3+ 3 α 2τ ] S y 2,

където β = 1 α ;Сг– RMS апроксимация на началната динамична серия.

Тема 3. Изглаждане и прогнозиране на времеви редове на база тренд модели

целизучаването на тази тема е създаването на основна основа за обучение на мениджъри по специалността 080507 в областта на изграждането на модели на различни задачи в областта на икономиката, формирането на систематичен подход към поставянето и решаването на проблеми с прогнозирането сред студентите . Предложеният курс ще позволи на специалистите бързо да се адаптират към практическата работа, да се ориентират по-добре в научната и техническа информация и литература по своята специалност и да вземат по-уверени решения, които възникват в работата им.

Основен задачиизучаването на темата са: студентите придобиват задълбочени теоретични знания за прилагането на прогнозни модели, придобиват стабилни умения за извършване на изследователска работа, способността за решаване на сложни научни проблеми, свързани с изграждането на модели, включително многомерни, способността за логически анализ на получените резултати и определяне на начини за намиране на приемливи решения.

Доста прост метод за идентифициране на тенденциите на развитие е изглаждането на времевия ред, т.е. замяната на действителните нива с изчислени, които имат по-малки вариации от оригиналните данни. Съответната трансформация се нарича филтриране. Нека разгледаме няколко метода за изглаждане.

3.1. прости средни стойности

Целта на изглаждането е да се изгради прогнозен модел за бъдещи периоди въз основа на минали наблюдения. При метода на простите средни стойностите на променливата се приемат като първоначални данни Yв точки от времето T, а прогнозната стойност се определя като проста средна стойност за следващия период от време. Формулата за изчисление има формата

където нброй наблюдения.

В случай, че стане налично ново наблюдение, новополучената прогноза също трябва да се вземе предвид за прогнозиране за следващия период. Когато се използва този метод, прогнозата се извършва чрез осредняване на всички предишни данни, но недостатъкът на такова прогнозиране е трудността при използването му в модели на тенденции.

3.2. Метод на подвижната средна

Този метод се основава на представяне на серията като сума от сравнително плавен тренд и случаен компонент. Методът се основава на идеята за изчисляване на теоретичната стойност въз основа на локално приближение. За да изградите оценка на тенденцията в точка Tпо стойностите на серията от времевия интервал изчислете теоретичната стойност на серията. Най-широко разпространен в практиката на изглаждащите серии е случаят, когато всички тегла за елементите на интервала са равни помежду си. Поради тази причина този метод се нарича метод на пълзяща средна,тъй като при изпълнение на процедурата се появява прозорец с ширина от (2 м + 1)в целия ред. Ширината на прозореца обикновено се приема нечетна, тъй като теоретичната стойност се изчислява за централната стойност: броя на термините k = 2m + 1с еднакъв брой нива отляво и отдясно на момента T.

Формулата за изчисляване на подвижната средна в този случай приема формата:

Дисперсията на подвижната средна се определя като σ 2 /k,къде през σ2обозначава дисперсията на оригиналните условия на серията, и кинтервал на изглаждане, така че колкото по-голям е интервалът на изглаждане, толкова по-силно е осредняването на данните и толкова по-малко променлива е тенденцията. Най-често изглаждането се извършва върху три, пет и седем члена на оригиналната серия. В този случай трябва да се вземат предвид следните характеристики на плъзгащата се средна: ако разглеждаме серия с периодични колебания с постоянна дължина, тогава при изглаждане на базата на пълзяща средна с интервал на изглаждане, равен или кратен на периода , колебанията ще бъдат напълно елиминирани. Често изглаждането на базата на подвижна средна трансформира серията толкова силно, че идентифицираната тенденция на развитие се появява само в най-общи черти, докато по-малките, но важни за анализа детайли (вълни, завои и т.н.) изчезват; след изглаждане, малките вълни понякога могат да променят посоката си към противоположните „ями“ да се появят на мястото на „върхове“ и обратно. Всичко това изисква предпазливост при използването на проста подвижна средна и принуждава да се търсят по-фини методи за описание.

Методът на пълзящата средна не дава стойности на тренда за първата и последната мчленове на ред. Този недостатък е особено забележим в случаите, когато дължината на реда е малка.

3.3. Експоненциално изглаждане

Експоненциално средно y tе пример за асиметрична претеглена подвижна средна, която отчита степента на стареене на данните: „по-стара“ информация с по-малко тегло влиза във формулата за изчисляване на изгладената стойност на нивото на серията

Тук — експоненциална средна, заместваща наблюдаваната стойност на серията y t(изглаждането включва всички данни, получени до текущия момент T), α изглаждащ параметър, характеризиращ тежестта на текущото (най-новото) наблюдение; 0< α <1.

Методът се използва за прогнозиране на нестационарни времеви редове със случайни промени в нивото и наклона. Докато се отдалечаваме от текущия момент от времето в миналото, теглото на съответния член от серията бързо (експоненциално) намалява и практически престава да оказва влияние върху стойността на .

Лесно е да се види, че последната връзка ни позволява да дадем следната интерпретация на експоненциалната средна: ако — прогнозиране на серийната стойност y t, тогава разликата е грешката на прогнозата. Така че прогнозата за следващия момент във времето t+1взема предвид станалото известно в момента Tгрешка в прогнозата.

Опция за изглаждане α е тегловен фактор. Ако α близо до единица, тогава прогнозата значително отчита големината на грешката на последната прогноза. За малки стойности α прогнозираната стойност е близка до предишната прогноза. Изборът на параметър за изглаждане е доста сложен проблем. Общите съображения са следните: методът е добър за прогнозиране на достатъчно гладки серии. В този случай човек може да избере изглаждаща константа чрез минимизиране на грешката при прогнозиране с една стъпка напред, оценена от последната трета от серията. Някои експерти не препоръчват използването на големи стойности на параметъра за изглаждане. На фиг. 3.1 показва пример на изгладена серия, използваща метода на експоненциално изглаждане за α= 0,1.

Ориз. 3.1. Резултатът от експоненциалното изглаждане при α =0,1
(1 оригинална серия; 2 изгладени серии; 3 остатъци)

3.4. Експоненциално изглаждане
базиран на тенденции (метод на Холт)

Този метод отчита местната линейна тенденция, която съществува във времевия ред. Ако има възходяща тенденция във времевия ред, тогава наред с оценката на текущото ниво е необходима и оценка на наклона. В техниката на Holt стойностите на нивото и наклона се изглаждат директно чрез използване на различни константи за всеки от параметрите. Изглаждащите константи ви позволяват да оцените текущото ниво и наклон, като ги прецизирате всеки път, когато се правят нови наблюдения.

Методът на Holt използва три формули за изчисление:

  1. Експоненциално изгладени серии (оценка на текущото ниво)

(3.2)

  1. Оценка на тенденцията

(3.3)

  1. Прогноза за Рпериоди напред

(3.4)

където α, β изглаждащи константи от интервала .

Уравнение (3.2) е подобно на уравнение (3.1) за просто експоненциално изглаждане, с изключение на трендовия член. Константа β необходими за изглаждане на оценката на тенденцията. В прогнозното уравнение (3.3) прогнозната тенденция се умножава по броя на периодите Р, на който се основава прогнозата, след което този продукт се добавя към текущото ниво на изгладени данни.

Постоянно α и β се избират субективно или чрез минимизиране на грешката при прогнозиране. Колкото по-големи са стойностите на теглата, толкова по-бързо ще се реагира на текущите промени и данните ще бъдат по-изгладени. По-малките тегла правят структурата на изгладените стойности по-малко плоска.

На фиг. 3.2 показва пример за изглаждане на серия с помощта на метода на Холт за стойности α и β равно на 0,1.

Ориз. 3.2. Резултат от изглаждане на Холт
при α = 0,1 и β = 0,1

3.5. Експоненциално изглаждане с тенденция и сезонни вариации (метод на Winters)

Ако има сезонни колебания в структурата на данните, трипараметърният експоненциален изглаждащ модел, предложен от Winters, се използва за намаляване на грешките в прогнозата. Този подход е разширение на предишния модел на Holt. За да се отчетат сезонните вариации, тук се използва допълнително уравнение и този метод е напълно описан от четири уравнения:

  1. Експоненциално изгладени серии

(3.5)

  1. Оценка на тенденцията

(3.6)

  1. Оценка на сезонността

.

(3.7)

  1. Прогноза за Рпериоди напред

(3.8)

където α, β, γ постоянно изглаждане за ниво, тенденция и сезонност, съответно; с- продължителността на периода на сезонни колебания.

Уравнение (3.5) коригира изгладената серия. В това уравнение терминът взема предвид сезонността в оригиналните данни. След като сезонността и тенденцията са взети предвид в уравнения (3.6), (3.7), оценките се изглаждат и се прави прогноза в уравнение (3.8).

Точно както в предишния метод, тежестите α, β, γ могат да бъдат избрани субективно или чрез минимизиране на грешката при прогнозиране. Преди да приложите уравнение (3.5), е необходимо да определите началните стойности за изгладената серия L t, тенденция T t, коефициенти на сезонност S t. Обикновено първоначалната стойност на изгладената серия се приема равна на първото наблюдение, тогава тенденцията е нула, а сезонните коефициенти се определят равни на единица.

На фиг. 3.3 показва пример за изглаждане на серия с помощта на метода Winters.

Ориз. 3.3. Резултат от изглаждане по метода Winters
при α = 0,1 = 0,1; γ = 0,1(1- оригинален ред; 2 изгладен ред; 3 остатъци)

3.6. Прогнозиране на база трендови модели

Доста често времевите редове имат линеен тренд (тренд). Приемайки линеен тренд, трябва да изградите права линия, която най-точно да отразява промяната в динамиката през разглеждания период. Има няколко метода за конструиране на права линия, но най-обективната от формална гледна точка ще бъде конструкция, основана на минимизиране на сумата от отрицателни и положителни отклонения на първоначалните стойности на серията от права линия.

Права линия в двукоординатна система (x, y)може да се определи като пресечна точка на една от координатите прии ъгъла на наклон спрямо оста Х.Уравнението за такава права линия ще изглежда така където а-пресечна точка; bъгъл на наклон.

За да може правата линия да отразява хода на динамиката, е необходимо да се сведе до минимум сумата от вертикални отклонения. Когато се използва като критерий за оценка на минимизирането на проста сума от отклонения, резултатът няма да бъде много добър, тъй като отрицателните и положителните отклонения взаимно се компенсират. Минимизирането на сумата от абсолютни стойности също не води до задоволителни резултати, тъй като оценките на параметрите в този случай са нестабилни, има и изчислителни трудности при прилагането на такава процедура за оценка. Следователно най-често използваната процедура е да се минимизира сумата на квадратните отклонения, или метод на най-малките квадрати(MNK).

Тъй като серията от начални стойности има колебания, моделът на серията ще съдържа грешки, чиито квадрати трябва да бъдат сведени до минимум

където y i наблюдавана стойност; y i * теоретични стойности на модела; номер на наблюдение.

Когато моделираме тренда на оригиналния времеви ред с помощта на линеен тренд, ще приемем, че

Разделяйки първото уравнение на н, стигаме до следващия

Заместване на получения израз във второто уравнение на системата (3.10), за коефициента б*получаваме:

3.7. Проверка на годността на модела

Като пример, на фиг. 3.4 показва графика на линейна регресия между мощността на автомобила хи цената му при.

Ориз. 3.4. График на линейна регресия

Уравнението за този случай е: при=1455,3 + 13,4 х. Визуалният анализ на тази фигура показва, че за редица наблюдения има значителни отклонения от теоретичната крива. Остатъчната графика е показана на фиг. 3.5.

Ориз. 3.5. Таблица на остатъците

Анализът на остатъците от регресионната линия може да осигури полезна мярка за това колко добре изчислената регресия отразява реалните данни. Добрата регресия е тази, която обяснява значително количество дисперсия и, обратно, лошата регресия не проследява голямо количество колебания в оригиналните данни. Интуитивно е ясно, че всяка допълнителна информация ще подобри модела, т.е. ще намали необяснимата част от вариацията на променливата при. За да анализираме регресията, ще разложим дисперсията на компоненти. Очевидно е, че

Последният член ще бъде равен на нула, тъй като е сбор от остатъците, така че стигаме до следния резултат

където SS0, SS1, SS2определяне на общата, регресионната и остатъчната сума на квадратите, съответно.

Регресионната сума на квадратите измерва частта от дисперсията, обяснена с линейна връзка; остатъчна част от дисперсията, необяснена с линейна зависимост.

Всяка от тези суми се характеризира със съответния брой степени на свобода (HR), което определя броя на единиците данни, които са независими една от друга. С други думи, сърдечната честота е свързана с броя на наблюденията ни броя на параметрите, изчислен от съвкупността от тези параметри. В разглеждания случай да се изчисли SS0 се определя само една константа (средна стойност), следователно сърдечната честота за SS0 ще бъде 1), пулс за SS 2 - (n - 2)и сърдечната честота за SS 1ще бъде n - (n - 1)=1, тъй като има n - 1 постоянни точки в регресионното уравнение. Точно като сумата на квадратите, сърдечната честота е свързана с

Сумите на квадратите, свързани с разлагането на дисперсията, заедно със съответните сърдечни честоти, могат да бъдат поставени в така наречената таблица за анализ на дисперсията (ANOVA ANalysis Of VAriance table) (Таблица 3.1).

Таблица 3.1

ANOVA таблица

Източник

Сбор на квадрати

Среден квадрат

Регресия

SS2/ (n-2)

Използвайки въведеното съкращение за суми от квадрати, определяме коефициент на детерминациякато съотношението на регресионната сума на квадратите към общата сума на квадратите като

(3.13)

Коефициентът на детерминация измерва дела на променливостта в дадена променлива Y, което може да се обясни с помощта на информация за променливостта на независимата променлива х.Коефициентът на определяне се променя от нула, когато хне влияе Y,до един, когато промяната Yнапълно обяснено от промяната х.

3.8. Регресионен прогнозен модел

Най-добрата прогноза е тази с най-малка дисперсия. В нашия случай конвенционалните най-малки квадрати дават най-добрата прогноза от всички методи, които дават безпристрастни оценки, базирани на линейни уравнения. Прогнозната грешка, свързана с процедурата за прогнозиране, може да дойде от четири източника.

Първо, случайният характер на адитивните грешки, обработвани от линейна регресия, гарантира, че прогнозата ще се отклонява от истинските стойности, дори ако моделът е правилно зададен и неговите параметри са точно известни.

Второ, самият процес на оценка въвежда грешка в оценката на параметрите, тъй като те рядко могат да бъдат равни на истинските стойности, въпреки че средно са равни на тях.

Трето, в случай на условна прогноза (в случай на неизвестни точни стойности на независимите променливи), грешката се въвежда с прогнозата на обяснителните променливи.

Четвърто, грешката може да се появи, защото спецификацията на модела е неточна.

В резултат на това източниците на грешки могат да бъдат класифицирани, както следва:

  1. естеството на променливата;
  2. естеството на модела;
  3. грешката, въведена от прогнозата на независими случайни променливи;
  4. грешка в спецификацията.

Ще разгледаме безусловна прогноза, когато независимите променливи се прогнозират лесно и точно. Започваме разглеждането на проблема с качеството на прогнозата с двойното регресионно уравнение.

Постановката на проблема в този случай може да се формулира по следния начин: каква ще бъде най-добрата прогноза y T+1, при условие че в модела y = a + bxнастроики аи bпреценено точно и стойността xT+1известен.

Тогава прогнозираната стойност може да се определи като

Тогава грешката в прогнозата ще бъде

.

Грешката на прогнозата има две свойства:

Получената дисперсия е минимална сред всички възможни оценки, базирани на линейни уравнения.

Макар че аи b са известни, грешката в прогнозата се появява поради факта, че при Т+1може да не лежи на линията на регресия поради грешка ε T+1, подчинявайки се на нормално разпределение с нулева средна стойност и дисперсия σ2. За да проверим качеството на прогнозата, въвеждаме нормализирана стойност

След това 95% доверителен интервал може да се дефинира, както следва:

където β 0,05квантили на нормалното разпределение.

Границите на интервала от 95% могат да бъдат определени като

Имайте предвид, че в този случай ширината доверителен интервалне зависи от размера Х,а границите на интервала са прави линии, успоредни на регресионните линии.

По-често, когато се конструира регресионна линия и се проверява качеството на прогнозата, е необходимо да се оценят не само регресионните параметри, но и дисперсията на прогнозната грешка. Може да се покаже, че в този случай дисперсията на грешката зависи от стойността (), където е средната стойност на независимата променлива. Освен това, колкото по-дълъг е сериалът, толкова по-точна е прогнозата. Грешката на прогнозата намалява, ако стойността на X T+1 е близо до средната стойност на независимата променлива и, обратно, когато се отдалечава от средната стойност, прогнозата става по-малко точна. На фиг. 3.6 показва резултатите от прогнозата, използвайки уравнението на линейната регресия за 6 интервала от време напред, заедно с доверителните интервали.

Ориз. 3.6. Прогноза с линейна регресия

Както се вижда от фиг. 3.6, тази линия на регресия не описва добре оригиналните данни: има голяма вариация спрямо линията на напасване. За качеството на модела може да се съди и по остатъците, които при задоволителен модел трябва да се разпределят приблизително по нормалния закон. На фиг. 3.7 показва графика на остатъците, изградена с помощта на вероятностна скала.

Фиг.3.7. Таблица на остатъците

Когато се използва такава скала, данните, които се подчиняват на нормалния закон, трябва да лежат на права линия. Както следва от фигурата, точките в началото и края на периода на наблюдение се отклоняват донякъде от правата линия, което показва недостатъчно високо качество на избрания модел под формата на уравнение на линейна регресия.

В табл. Таблица 3.2 показва прогнозните резултати (втора колона) заедно с 95% доверителни интервали (съответно долна трета и горна четвърта колона).

Таблица 3.2

Прогнозни резултати

3.9. Многовариантен регресионен модел

При многовариантна регресия данните за всеки случай включват стойностите на зависимата променлива и всяка независима променлива. Зависима променлива ге случайна променлива, свързана с независимите променливи чрез следната връзка:

където трябва да се определят коефициентите на регресия; ε компонент на грешката, съответстващ на отклонението на стойностите на зависимата променлива от истинското съотношение (приема се, че грешките са независими и имат нормално разпределение с нулева средна стойност и неизвестна дисперсия σ ).

За даден набор от данни оценките на регресионните коефициенти могат да бъдат намерени чрез метода на най-малките квадрати. Ако оценките на OLS са означени с , тогава съответната регресионна функция ще изглежда така:

Остатъците са оценки на компонента на грешката и са подобни на остатъците в случай на проста линейна регресия.

Статистическият анализ на многовариантен регресионен модел се извършва подобно на анализа на проста линейна регресия. Стандартните пакети от статистически програми позволяват да се получат оценки чрез най-малки квадрати за параметрите на модела, оценки на техните стандартни грешки. Освен това можете да получите стойността T-статистика за проверка на значимостта на отделните членове на регресионния модел и стойността Е-статистика за проверка на значимостта на регресионната зависимост.

Формата на разделяне на сумите на квадратите в случай на многовариантна регресия е подобна на израза (3.13), но съотношението за сърдечната честота ще бъде както следва

Отново подчертаваме, че не обемът на наблюденията и кброй променливи в модела. Общата вариация на зависимата променлива се състои от два компонента: вариацията, обяснена от независимите променливи чрез регресионната функция, и необяснимата вариация.

Таблица ANOVA за случая на многовариантна регресия ще има формата, показана в табл. 3.3.

Таблица 3.3

ANOVA таблица

Източник

Сбор на квадрати

Среден квадрат

Регресия

SS2/ (n-k-1)

Като пример за многовариантна регресия ще използваме данни от пакета Statistica (файл с данни Бедност.Sta)Представените данни са базирани на съпоставка на резултатите от преброяванията от 1960 г. и 1970 г. за произволна извадка от 30 страни. Имената на държавите са въведени като имена на низове и имената на всички променливи в този файл са изброени по-долу:

POP_CHNG изменение на населението за 1960-1970 г.;

N_EMPLD броят на заетите в селското стопанство;

PT_POOR процент на семействата, живеещи под прага на бедността;

TAX_RATE данъчна ставка;

PT_PHONE процент апартаменти с телефон;

PT_RURAL процент от селското население;

ВЪЗРАСТ средна възраст.

Като зависима променлива избираме функцията Pt_Poor, а като независими - всички останали. Изчислените коефициенти на регресия между избраните променливи са дадени в табл. 3.4

Таблица 3.4

Коефициенти на регресия

Тази таблица показва регресионните коефициенти ( AT) и стандартизирани регресионни коефициенти ( бета). С помощта на коеф ATзадава се формата на регресионното уравнение, което в този случай има формата:

Включването в дясната страна само на тези променливи се дължи на факта, че само тези характеристики имат вероятностна стойност Рпо-малко от 0,05 (вижте четвъртата колона на таблица 3.4).

Библиография

  1. Басовски Л. Е.Прогнозиране и планиране в пазарни условия. - М .: Инфра - М, 2003.
  2. Бокс Дж., Дженкинс Г.Анализ на времеви редове. Брой 1. Прогноза и управление. – М.: Мир, 1974.
  3. Боровиков В. П., Ивченко Г. И.Прогнозиране в системата Statistica в Windows среда. - М.: Финанси и статистика, 1999.
  4. херцог У.Обработка на данни на компютър в примери. - Санкт Петербург: Питър, 1997.
  5. Ивченко Б. П., Мартищенко Л. А., Иванцов И. Б.Информационна микроикономика. Част 1. Методи за анализ и прогнозиране. - Санкт Петербург: Нордмед-Издат, 1997.
  6. Кричевски М. Л.Въведение в изкуствените невронни мрежи: Proc. надбавка. - Санкт Петербург: Санкт Петербург. състояние морска техника. ун-т, 1999г.
  7. Сошникова Л. А., Тамашевич В. Н., Уебе Г. и др.Многомерен статистически анализ в икономиката. – М.: Единство-Дана, 1999.

1. Основни методически положения.

Простият метод на експоненциално изглаждане използва претеглена (експоненциална) пълзяща средна на всички предишни наблюдения. Този модел най-често се прилага за данни, в които е необходимо да се оцени наличието на връзка между анализираните показатели (тенденция) или зависимостта на анализираните данни. Целта на експоненциалното изглаждане е да се оцени текущото състояние, резултатите от което ще определят всички бъдещи прогнози.

Експоненциалното изглаждане осигурявапостоянно актуализиране на модела поради най-новите данни. Този метод се основава на осредняване (изглаждане) на времевата поредица от минали наблюдения в низходяща (експоненциална) посока. Тоест на по-късните събития се придава по-голяма тежест. Теглото се задава, както следва: за последното наблюдение теглото ще бъде стойността α, за предпоследното - (1-α), за това, което е било преди него - (1-α) 2 и т.н.

В изгладена форма новата прогноза (за времеви период t + 1) може да бъде представена като среднопретеглена стойност на последното наблюдение на количество в момент t и предишната му прогноза за същия период t. Освен това теглото α се присвоява на наблюдаваната стойност, а теглото (1- α) се присвоява на прогнозата; се приема, че 0< α<1. Это правило в общем виде можно записать следующим образом.

Нова прогноза = [α*(последно наблюдение)]+[(1- α)*последна прогноза]

къде е прогнозната стойност за следващия период;

α е изглаждащата константа;

Y t е наблюдението на стойността за текущия период t;

Предишната изгладена прогноза на тази стойност за периода t.

Експоненциалното изглаждане е процедура за непрекъснато преразглеждане на прогнозните резултати в светлината на най-новите развития.

Изглаждащата константа α е претеглен фактор. Реалната му стойност се определя от степента, в която текущото наблюдение трябва да повлияе на прогнозираната стойност. Ако α е близо до 1, тогава прогнозата взема предвид стойността на грешката на последната прогноза. Обратно, за малки стойности на α, прогнозираната стойност е най-близка до предишната прогноза. Може да се разглежда като претеглена средна стойност на всички минали наблюдения с тегла, намаляващи експоненциално с „възрастта“ на данните.



Таблица 2.1

Сравнение на влиянието на различни стойности на изглаждащите константи

Константата α е ключът към анализа на данните. Ако се изисква прогнозираните стойности да са стабилни и случайните отклонения да са изгладени, е необходимо да изберете малка стойност на α. Голяма стойност на константата α има смисъл, ако имате нужда от бърз отговор на промени в спектъра на наблюдение.

2. Практически пример за експоненциално изглаждане.

Представени са данните на компанията по отношение на обема на продажбите (хиляди единици) за седем години, като изглаждащата константа е приета равна на 0,1 и 0,6. Данните за 7 години съставляват тестовата част; върху тях е необходимо да се оцени ефективността на всеки един от моделите. За експоненциално изглаждане на серията първоначалната стойност се приема равна на 500 (първата стойност на действителните данни или средната стойност за 3-5 периода се записва в изгладената стойност за 2-ро тримесечие).

Таблица 2.2

Изходни данни

време Действителна стойност (действителна) Изгладена стойност Грешка в прогнозата
година четвърт 0,1 0,1
превъзходен според формулата
#N/A 0,00
500,00 -150,00
485,00 485,00 -235,00
461,50 461,50 -61,50
455,35 455,35 -5,35
454,82 454,82 -104,82
444,33 444,33 -244,33
419,90 419,90 -119,90
407,91 407,91 -57,91
402,12 402,12 -202,12
381,91 381,91 -231,91
358,72 358,72 41,28
362,84 362,84 187,16
381,56 381,56 -31,56
378,40 378,40 -128,40
365,56 365,56 184,44
384,01 384,01 165,99
400,61 400,61 -0,61
400,55 400,55 -50,55
395,49 395,49 204,51
415,94 415,94 334,06
449,35 449,35 50,65
454,41 454,41 -54,41
448,97 448,97 201,03
469,07 469,07 380,93

На фиг. 2.1 показва прогноза, базирана на експоненциално изглаждане с изглаждаща константа от 0,1.



Ориз. 2.1. Експоненциално изглаждане

Решение в Excel.

1. Изберете менюто "Инструменти" - "Анализ на данни". От списъка с инструменти за анализ изберете Експоненциално изглаждане. Ако в менюто "Инструменти" няма анализ на данни, тогава трябва да инсталирате "Пакет за анализ". За да направите това, намерете елемента "Настройки" в "Параметри" и в диалоговия прозорец, който се показва, поставете отметка в квадратчето за "Пакет за анализ", щракнете върху OK.

2. Диалоговият прозорец, показан на фиг. 2.2.

3. В полето "интервал на въвеждане" въведете стойностите на първоначалните данни (плюс една свободна клетка).

4. Поставете отметка в квадратчето „етикети“ (ако въведеният диапазон съдържа имена на колони).

5. Въведете стойност (1-α) в полето за коефициент на затихване.

6. В полето "интервал за въвеждане" въведете стойността на клетката, в която искате да видите получените стойности.

7. Поставете отметка в квадратчето "Опции" - "Извеждане на графика", за да го изградите автоматично.

Ориз. 2.2. Диалогов прозорец за експоненциално изглаждане

3. Задачата на лабораторната работа.

Има първоначални данни за обемите на производство на маслодобивно предприятие за 2 години, представени в таблица 2.3:

Таблица 2.3

Изходни данни

Извършете експоненциално изглаждане на серията. Вземете експоненциалния коефициент на изглаждане равен на 0,1; 0,2; 0,3. Коментирайте резултатите. Можете да използвате статистическите данни, представени в Приложение 1.