Метод експоненційної середньої. Моделі експоненційного згладжування та прогнозування часових рядів

Завдання прогнозування побудовано зміні деяких даних у часі (продажів, попиту, поставок, ВВП, викидів вуглецю, чисельності населення…) і проектуванні цих змін у майбутнє. На жаль, виявлені на історичних даних, тренди можуть порушуватися безліччю непередбачених обставин. Так що дані в майбутньому можуть суттєво відрізнятися від того, що сталося в минулому. У цьому полягає проблема прогнозування.

Однак, існують методики (під назвою експоненційне згладжування), що дозволяють не тільки спробувати передбачити майбутнє, але й чисельно висловити невизначеність всього, що пов'язано з прогнозом. Чисельне вираження невизначеності за допомогою створення інтервалів прогнозування воістину неоціненним, але часто ігнорується в прогностичному світі.

Завантажити нотатку у форматі або , приклади у форматі

Початкові дані

Припустимо, ви фанат «Володар Перстнів», і ось уже три роки виготовляєте та торгуєте мечами (рис. 1). Відобразимо продаж графічно (рис. 2). За три роки попит подвоївся – можливо, це тренд? Ми повернемося до цієї думки трохи згодом. На графіці є кілька піків та спадів, що може бути ознакою сезонності. Зокрема, вершини припадають на місяці з номерами 12, 24 та 36, які виявляються груднями. Але чи можливо це лише випадковість? Давайте з'ясуємо.

Просте експоненційне згладжування

Методи експоненційного згладжуванняґрунтуються на прогнозуванні майбутнього за даними з минулого, де нові спостереження важать більше, ніж старі. Таке зважування можливе завдяки константам згладжування. Перший метод експоненційного згладжування, який ми випробуваємо, називається простим експоненційним згладжуванням (ПЕМ, simple exponential smoothing, SES). Він використовує лише одну константу згладжування.

При простому експонентному згладжуванні передбачається, що ваш тимчасовий ряд даних складається з двох компонентів: рівня (або середнього) і якоїсь похибки навколо цього значення. Немає ніякого тренду чи сезонних коливань – є просто рівень, навколо якого коливається попит, тут і там оточений невеликими похибками. Віддаючи перевагу більш новим спостереженням, ПЕМ може стати причиною зрушень цього рівня. Говорячи мовою формул,

Попит на момент часу t = рівень + випадкова похибка біля рівня на момент часу t

То як знайти приблизне значення рівня? Якщо прийняти всі часові значення як мають однакову цінність, слід просто обчислити їхнє середнє значення. Однак це погана ідея. Слід дати більшу вагу недавнім спостереженням.

Створимо кілька рівнів. Розрахуємо вихідний рівень першого року:

рівень 0 = середнє значення попиту перший рік (місяці 1-12)

Для попиту на мечі він дорівнює 163. Ми використовуємо рівень 0 (163) як прогноз попиту на місяць 1. Попит на місяць 1 дорівнює 165, тобто він на 2 меча вище за рівень 0 . Варто оновити наближення вихідного рівня. Рівняння простого експонентного згладжування:

рівень 1 = рівень 0 + кілька відсотків × (попит 1 – рівень 0)

рівень 2 = рівень 1 + кілька відсотків × (попит 2 – рівень 1)

І т.д. "Кілька відсотків" - називається константою згладжування, і позначається альфою. Це може бути будь-яка кількість від 0 до 100% (від 0 до 1). Вибирати значення альфи ви навчитеся пізніше. У загальному випадкузначення для різних моментів часу:

Рівень поточного періоду = рівень попереднього періоду +
альфа × (попит на поточний період – рівень попередній період)

Майбутній попит дорівнює останньому обчисленому рівню (рис. 3). Оскільки ви не знаєте, до чого дорівнює альфа, встановіть для початку в комірці С2 значення 0,5. Після того, як модель буде побудована, знайдіть таку альфа, щоб сума квадратів помилки – Е2 (або стандартне відхилення- F2) були мінімальні. Для цього запустіть опцію Пошук рішення. Для цього пройдіть по меню ДАНІ –> Пошук рішення, і встановіть у вікні Параметри пошуку рішеннянеобхідні значення (рис. 4). Щоб відобразити результати прогнозу на діаграмі, спочатку виберіть діапазон А6:В41, і побудуйте просту лінійну діаграму. Далі клацніть на діаграмі правою кнопкою миші, виберіть опцію Вибрати дані.У вікні створіть другий ряд і вставте в нього передбачення з діапазону А42: В53 (рис. 5).

Можливо, у вас є тренд

Щоб перевірити це припущення, достатньо підігнати лінійну регресіюпід дані попиту та виконати тест на відповідність критерію Стьюдента на підйомі цієї лінії тренда (як у ). Якщо ухил лінії ненульовий і статистично значущий (перевірка за критерієм Стьюдента величина рменше 0,05), дані мають тренд (рис. 6).

Ми скористалися функцією Лінейн, яка повертає 10 описових статистик(якщо ви раніше не користувалися цією функцією, рекомендую) і функцією ІНДЕКС, яка дозволяє «витягнути» лише три необхідні статистики, а не весь набір. Вийшло, що нахил дорівнює 2,54, і він значущий, оскільки тест Стьюдента показав, 0,000000012 значно менше 0,05. Отже, тренд є і залишилося включити його в прогноз.

Експонентне згладжування Холта з коригуванням тренду

Часто воно називається подвійним експонентним згладжуванням, тому що має не один параметр згладжування - альфа, а два. Якщо тимчасова послідовність має лінійний тренд, то:

попит за час t = рівень + t × тренд + випадкове відхиленнярівня в момент часу t

Експонентне згладжування Холта з коригуванням тренда має два нових рівняння, одне - для рівня в міру його просування в часі, а інше - тренд. Рівняння рівня містить параметр альфа, що згладжує, а рівняння тренду – гама. Ось як виглядає нове рівняння рівня:

рівень 1 = рівень 0 + тренд 0 + альфа × (попит 1 – (рівень 0 + тренд 0))

Зверніть увагу, що рівень 0 + тренд 0- це просто однокроковий прогноз від вихідних значень до місяця 1, тому попит 1 - (рівень 0 + тренд 0)- це однокрокове відхилення. Таким чином, основне рівняння наближення рівня буде таким:

рівень поточний період = рівень попередній період + тренд попередній період + альфа × (попит на поточний період – (рівень попередній період) + тренд попередній період))

Рівняння оновлення тренду:

тренд поточний період = тренд попередній період + гамма × альфа × (попит на поточний період – (рівень попередній період) + тренд попередній період))

Холтівське згладжування в Excel аналогічне простому згладжуванню (рис. 7), і, як і вище, мета знайти два коефіцієнти, мінімізуючи суму квадратів помилок (рис. 8). Щоб отримати вихідні значення рівня та тренду (у комірках С5 та D5 на рис. 7), побудуйте графік за перші 18 місяців продажу та додайте до нього лінію тренда з рівнянням. Вихідне значення тренда 0,8369 і вихідний рівень 155,88 занесіть у комірки С5 та D5. Прогнозні дані можна подати графічно (рис. 9).

Рис. 7. Експонентне згладжування Холта з коригуванням тренда; щоб збільшити зображення клацніть на ньому правою кнопкою миші та виберіть Відкрити картинку в новій вкладці

Виявлення закономірностей у даних

Є спосіб випробувати прогностичну модель на міцність – порівняти похибки самі із собою, зрушеними на крок (або кілька кроків). Якщо відхилення випадкові, поліпшити модель не можна. Однак, можливо, у даних про попит є сезонний фактор. Концепція похибки, що корелює зі своєю версією за інший період, називається автокореляцією (докладніше про автокореляцію див.). Щоб розрахувати автокореляцію, почніть з даних про помилку прогнозу за кожен період (стовпець F на рис. 7 переносимо в стовпець на рис. 10). Далі визначте середню помилкупрогнозу (рис. 10, осередок В39; формула в осередку: = СРЗНАЧ(B3:B38)). У стовпці З розрахуйте відхилення помилки прогнозу від середнього; формула в осередку С3: = B3-B $ 39. Далі послідовно зрушайте стовпець С на стовпець праворуч і рядок вниз. Формули в осередках D39: = СУМПРОВИЗВ ($ C3: $ C38; D3: D38), D41: = D39 / $ C39, D42: = 2 / КОРІНЬ (36), D43: = -2 / КОРІНЬ (36).

Що може означати для одного зі стовпців D:O «синхронний рух» зі стовпцем С. Наприклад, якщо стовпці С і D синхронні, то число, негативне в одному з них, має бути негативним і в іншому, позитивне в одному, позитивне - в другом. Це означає, що сума творів двох стовпців буде значною (відмінності накопичуються). Або, що те саме, чим ближче значення в діапазоні D41:О41 до нуля, тим нижче кореляція стовпця (відповідно від D до О) зі стовпцем С (рис. 11).

Одна автокореляція вища за критичне значення. Похибка, зрушена на рік, корелює сама із собою. Це означає 12-місячний сезонний цикл. І це не дивно. Якщо ви подивіться на графік попиту (рис. 2), то виявиться, що є піки попиту на кожне Різдво та провали у квітні-травні. Розглянемо техніку прогнозування, яка враховує сезонність.

Мультиплікативне експонентне згладжування Холта-Вінтерса

Метод називається мультиплікативним (від multiplicate - множити), оскільки використовує множення для врахування сезонності:

Попит у момент t = (рівень + t × тренд) × сезонна поправка для моменту t × всі нерегулярні поправки, що залишилися, які ми не можемо врахувати

Згладжування Холта-Вінтерса також називають потрійним експоненційним згладжуванням, тому що у нього три параметри, що згладжують (альфа, гама і сезонний фактор – дельта). Наприклад, якщо є 12-місячний сезонний цикл:

Прогноз на місяць 39 = (рівень 36 + 3 × тренд 36) х сезонність 27

Аналізуючи дані, необхідно з'ясувати, що у серії даних є трендом, а що – сезонністю. Щоб виконати обчислення за методом Холта-Вінтерса, необхідно:

Згладити історичні дані методом ковзного середнього.
Порівняти згладжену версію часового ряду даних із оригіналом, щоб отримати приблизну оцінку сезонності.
Отримати нові дані без сезонного компонента.
Знайти наближення рівня та тренду на основі цих нових даних.

Почніть із вихідних даних (стовпці А і В на рис. 12) і додайте стовпець З зі згладженими значеннями на основі ковзного середнього. Так як сезонність має 12-місячні цикли, є сенс використовувати середнє за 12 місяців. Із цим середнім є невелика проблема. 12 – парне число. Якщо ви згладжуєте попит за місяць 7, чи варто вважати його середнім попитом з 1-го по 12-й місяць або з 2-го по 13-й? Щоб упоратися з цією скрутою, потрібно згладити попит за допомогою «ковзного середнього 2×12». Тобто взяти половину від двох середніх з 1 по 12-й місяць і з 2 по 13. Формула в комірці С8: =(СРЗНАЧ(B3:B14)+СРЗНАЧ(B2:B13))/2.

Згладжені дані для місяців 1–6 та 31–36 отримати не можна, оскільки не вистачає попередніх та наступних періодів. Для наочності вихідні та згладжені дані можна відобразити на діаграмі (рис. 13).

Тепер у стовпці D розділіть оригінальну величину на згладжену та отримайте приблизне значення сезонної поправки (стовпець D на рис. 12). Формула в комірці D8 = B8/C8. Зверніть увагу на сплески в 20% вище за нормальний попит у місяцях 12 і 24 (грудень), у той час як навесні спостерігаються провали. Ця техніка згладжування дала вам дві точкові оцінкидля кожного місяця (всього 24 місяці). У стовпці Е знайдено середнє цих двох чинників. Формула в комірці Е1: = СРЗНАЧ(D14; D26). Для наочності рівень сезонних коливань можна уявити графічно (рис. 14).

Тепер можна отримати дані, скориговані сезонні коливання. Формула в комірці G1 = B2/E2. Побудуйте графік на основі даних стовпця G, доповніть його лінією тренда, виведіть рівняння тренда на діаграму (рис. 15), та використовуйте коефіцієнти у наступних розрахунках.

Сформуйте новий лист, Як показано на рис. 16. Значення в діапазоні Е5:Е16 підставте з рис. 12 області Е2: Е13. Значення С16 та D16 візьміть із рівняння лінії тренду на рис. 15. Значення констант згладжування встановіть для початку на позначці 0,5. Розтягніть значення у рядку 17 на діапазон місяців з 1 до 36. Запустіть Пошук рішеннядля оптимізації коефіцієнтів згладжування (рис. 18). Формула в комірці В53: = (C $ 52 + (A53-A $ 52) * D $ 52) * E41.

Тепер у зробленому прогнозі слід перевірити автокореляції (рис. 18). Так як всі значення розташувалися між верхньою та нижньою межами, ви розумієте, що модель непогано попрацювала над розумінням структури значень попиту.

Побудова довірчого інтервалу прогнозу

Отже, ми маємо цілком робочий прогноз. Як встановити верхні та нижні межі, які можна використовувати для побудови реалістичних припущень? У цьому вам допоможе симуляція Монте-Карло, з якою ви вже зустрічалися (див. також ). Сенс полягає в тому, щоб згенерувати майбутні сценарії поведінки попиту та визначити групу, до якої потрапляють 95% із них.

Видаліть з аркуша Excel прогнозз осередків В53: В64 (див. рис. 17). Ви запишете попит на основі симуляції. Останню можна згенерувати за допомогою функції НОРМОБР. Для майбутніх місяців вам достатньо забезпечити її середнім (0), стандартним розподілом (10,37 з комірки $Н$2) та випадковим числомвід 0 до 1. Функція поверне відхилення з ймовірністю, що відповідає дзвоноподібної кривої. Помістіть симуляцію однокрокової похибки в клітинку G53: =НОРМОБР(СЛЧИС();0;H$2). Розтягнувши цю формулу вниз до G64, ви отримаєте симуляції помилки прогнозу для 12 місяців однокрокового прогнозу (рис. 19). Ваші значення симуляцій відрізнятимуться від наведених малюнку (на те вона і симуляція!).

З похибкою прогнозу у вас є все, що потрібно для оновлення рівня, тренду та сезонного коефіцієнта. Так що виділіть комірки C52:F52 і розтягніть їх до рядка 64. В результаті у вас є симульована помилка прогнозу і прогноз. Йдучи від зворотного, можна спрогнозувати значення попиту. Вставте в комірку В53 формулу: =F53+G53 і розтягніть її до В64 (рис. 20, діапазон В53:F64). Тепер ви можете натискати кнопку F9, кожен раз оновлюючи прогноз. Розмістіть результати 1000 симуляцій у осередках А71:L1070, щоразу транспонуючи значення з діапазону В53:В64 в діапазон А71:L71, A72:L72, … A1070:L1070. Якщо вас це напружує, напишіть код VBA.

Тепер у вас є по 1000 сценаріїв на кожен місяць, і ви можете використовувати функцію ПЕРСЕНТИЛЬ, щоб отримати верхні та нижні межі в середині 95% довірчого інтервалу. У комірці А66 формула: = ПЕРСЕНТИЛЬ (A71: A1070; 0,975), а в комірці А67: = ПЕРСЕНТИЛЬ (A71: A1070; 0,025).

Як завжди, для наочності дані можна подати в графічному вигляді(Рис. 21).

На графіку є два цікаві моменти:

Похибка згодом стає ширшою. В цьому є сенс. Невпевненість накопичується з кожним місяцем.
Так само похибка зростає і в частинах, що припадають на періоди сезонного підвищення попиту. З подальшим його падінням похибка стискається.

Написано за матеріалами книги Джона Формана. - М.: Альпіна Паблішер, 2016. - С. 329-381

Тема 3. Згладжування та прогнозування часових рядів на основі трендових моделей

Метоювивчення даної теми є створення базової основи підготовки менеджерів зі спеціальності 080507 у галузі побудови моделей різних завдань у сфері економіки, формування у студентів систематизованого підходу до постановки та вирішення завдань прогнозування. Пропонований курс дозволить фахівцям швидше адаптуватися до практичної роботикраще орієнтуватися в науково-технічній інформації та літературі за спеціальністю, впевненіше приймати рішення, що виникають у роботі.

Основними завданнямививчення теми є: отримання студентами поглиблених теоретичних знаньщодо застосування моделей прогнозу, набуття ними стійких навичок виконання науково-дослідних робіт, уміння вирішувати складні наукові проблеми, пов'язані з побудовою моделей, включаючи і багатовимірні, здібності до логічного аналізу отриманих результатів та визначення шляхів пошуку прийнятних рішень.

Достатньо простим методомВиявлення тенденції розвитку є згладжування часового ряду, тобто заміна фактичних рівнів розрахунковими, що мають менші варіації, ніж вихідні дані. Відповідне перетворення називається фільтруванням. Розглянемо кілька способів згладжування.

3.1. Прості середні

Метою згладжування є побудова моделі прогнозування для наступних періодів, з попередніх спостережень. У методі простих середніх початкові дані приймаються значення змінної Yу моменти часу t, А прогнозне значення визначається як просте середнє на наступний часовий період. Розрахункова формуламає вигляд

де nкількість спостережень.

У разі, коли стає доступним нове спостереження, для прогнозування наступного періоду слід врахувати і отриманий прогноз. При використанні цього методу прогноз здійснюється шляхом усереднення всіх попередніх даних, проте недоліком такого прогнозування є складність його використання у трендових моделях.

3.2. Метод ковзних середніх

Даний метод заснований на поданні ряду у вигляді суми досить гладкого тренду та випадкового компонента. У основі методу лежить ідея розрахунку теоретичного значення з урахуванням локального наближення. Для побудови оцінки тренда у точці tза значеннями ряду з часового інтервалу розраховують теоретичне значення низки. Найбільшого поширенняу практиці згладжування рядів отримав випадок, коли всі ваги для елементів інтервалу рівні між собою. З цієї причини цей метод називають методом ковзних середніх,так як при виконанні процедури відбувається ковзання вікном завширшки (2 m + 1)по всьому ряду. Ширину вікна зазвичай беруть непарною, тому що теоретичне значення розраховується для центрального значення: кількість доданків k = 2m + 1з однаковим числомрівнів зліва та праворуч від моменту t.

Формула для розрахунку ковзної середньої в цьому випадку набуває вигляду:

Дисперсія ковзної середньої визначається як σ 2 /k,де через σ 2позначено дисперсію вихідних членів ряду, а kінтервал згладжування, тому чим більше інтервал згладжування, тим сильніше усереднення даних і менш мінлива тенденція, що виділяється. Найчастіше згладжування виробляють по трьох, п'яти та семи членах вихідного ряду. При цьому слід враховувати наступні особливостіковзної середньої: якщо розглянути ряд з періодичними коливаннямипостійної довжини, то при згладжуванні на основі ковзної середньої з інтервалом згладжування, рівним або кратним періоду, коливання повністю усунуться. Нерідко згладжування на основі ковзної середньої настільки сильно перетворює ряд, що виділена тенденція розвитку проявляється лише в самих загальних рисах, а дрібніші, але важливі для аналізу деталі (хвилі, вигини і т. д.) зникають; після згладжування дрібні хвилі можуть іноді поміняти напрямок на протилежний на місці «піків» з'являються «ями», і навпаки. Все це вимагає обережності у застосуванні простої ковзної середньої та змушує шукати більш тонкі методи опису.

Метод ковзних середніх не дає значень тренду для перших та останніх mчленів низки. Цей недолік особливо помітно позначається у разі, коли довжина низки невелика.

3.3. Експонентне згладжування

Експонентна середня y tє прикладом асиметричної виваженої ковзної середньої, в якій враховується ступінь старіння даних: більш «стара» інформація з меншою вагою входить до формули для розрахунку згладженого значення рівня ряду

Тут експоненційна середня, що замінює значення ряду, що спостерігається y t(у згладжуванні беруть участь усі дані, отримані до поточному моменту t), α параметр згладжування, що характеризує вагу поточного (найновішого) спостереження; 0< α <1.

Метод застосовується для прогнозування нестаціонарних часових рядів, що мають випадкові зміни рівня та кута нахилу. У міру віддалення від поточного моменту часу в минуле вага відповідного члена ряду швидко (експоненційно) зменшується і практично перестає впливати на значення .

Легко отримати, що останнє співвідношення дозволяє дати наступну інтерпретацію експоненційної середньої: якщо прогноз значення ряду y t, то різницю є похибка прогнозу. Таким чином, прогноз для наступного моменту часу t + 1враховує відомою в момент tпомилку прогнозу.

Параметр згладжування α є фактором, що зважує. У разі якщо α близько до одиниці, то прогнозі істотно враховується величина помилки останнього прогнозування. При малих значеннях α прогнозована величина близька до попереднього прогнозу. Вибір параметра згладжування є досить складною проблемою. Загальні міркування такі: метод хороший для прогнозування досить гладких рядів. У цьому випадку можна вибрати константу, що згладжує шляхом мінімізації помилки прогнозу на один крок вперед, оціненої по останній третині ряду. Деякі фахівці не рекомендують використовувати велике значення параметра згладжування. На рис. 3.1 показаний приклад згладженого ряду методом експоненційного згладжування при α= 0,1.

Рис. 3.1. Результат експоненційного згладжування при α =0,1
(1 | вихідний ряд; 2 | згладжений ряд; 3 | залишки)

3.4. Експонентне згладжування
з урахуванням тренду (метод Хольта)

У цьому вся методі враховується локальний лінійний тренд, наявний у часових рядах. Якщо у часових рядах є тенденція до зростання, то разом з оцінкою поточного рівня необхідна оцінка нахилу. У методиці Хольта значення рівня та нахилу згладжуються безпосередньо шляхом використання різних постійних для кожного з параметрів. Постійні згладжування дозволяють оцінити поточний рівень і нахил, уточнюючи їх щоразу з появою нових спостережень.

У методі Хольта використовуються три розрахункові формули:

Експонентно згладжений ряд (оцінка поточного рівня)

(3.2)

Оцінка тренду

(3.3)

Прогноз на рперіодів уперед

(3.4)

де α, β Постійні згладжування з інтервалу.

Рівняння (3.2) схоже на рівняння (3.1) для простого експонентного згладжування за винятком члена, що враховує тренд. Постійна β потрібна для згладжування оцінки тренду. У рівнянні прогнозу (3.3) оцінка тренда множиться на число періодів р, який будується прогноз, та був цей твір складається з поточним рівнем згладжених даних.

Постійні α і β вибираються суб'єктивно чи шляхом мінімізації помилки прогнозування. Чим більші значення ваг будуть взяті, тим швидший відгук на зміни, що відбуваються, буде мати місце і більшому згладжуванню піддаються дані. Найменші ваги роблять структуру згладжених значень менш рівною.

На рис. 3.2 наведено приклад згладжування ряду методом Хольта при значеннях α і β , рівних 0,1.

Рис. 3.2. Результат згладжування методом Хольта
при α = 0,1 і β = 0,1

3.5. Експонентне згладжування з урахуванням тренду та сезонних варіацій (метод Вінтерса)

За наявності у структурі даних сезонних коливань зменшення помилок прогнозування використовується трипараметрична модель експоненційного згладжування, запропонована Вінтерсом. Цей підхід є розширення попередньої моделі Хольта. Для врахування сезонних варіацій тут застосовується додаткове рівняння, і цей метод описується чотирма рівняннями:

Експоненційно згладжений ряд

(3.5)

Оцінка тренду

(3.6)

Оцінка сезонності

(3.7)

Прогноз на рперіодів уперед

(3.8)

де α, β, γ постійні згладжування для рівня, тренду та сезонності, відповідно; s- Тривалість періоду сезонного коливання.

Рівняння (3.5) коригує згладжені ряди. У цьому рівнянні член враховує сезонність у вихідних даних. Після врахування сезонності та тренду в рівняннях (3.6), (3.7) оцінки згладжуються, а в рівнянні (3.8) робиться прогноз.

Так само, як і в попередньому способі, ваги α, β, γ можуть вибиратися суб'єктивно чи шляхом мінімізації помилки прогнозування. Перед застосуванням рівняння (3.5) необхідно визначити початкові значення для згладженого ряду L t, тренда T t, коефіцієнтів сезонності S t. Зазвичай початкове значення згладженого ряду приймається рівним першому спостереженню, тоді тренд дорівнює нулю, а коефіцієнти сезонності встановлюються рівними одиниці.

На рис. 3.3 показаний приклад згладжування ряду методом Вінтерса.

Рис. 3.3. Результат згладжування за методом Вінтерса
при α = 0,1 ;β = 0,1; γ = 0,1(1- вихідний ряд; 2 - згладжений ряд; 3 - залишки)

3.6. Прогнозування на основі трендових моделей

Часто тимчасові ряди мають лінійну тенденцію (тренд). При припущенні лінійної тенденції потрібно побудувати пряму лінію, яка найточніше відображала зміна динаміки за аналізований період. Є кілька методів побудови прямої лінії, але найбільш об'єктивною з формальної точки зору буде побудова, заснована на мінімізації суми негативних та позитивних відхилень вихідних значень ряду від прямої лінії.

Пряму лінію у системі двох координат (х,у)можна визначити точкою перетину однієї з координат ута кутом нахилу до осі х.Рівняння такої прямої виглядатиме як де a -точка перетину; bкут нахилу.

Щоб пряма відображала хід динаміки, необхідно мінімізувати суму вертикальних відхилень. При використанні як критерій оцінки мінімізації простої суми відхилень вийде не дуже хороший результат, оскільки негативні та позитивні відхилення взаємно компенсують один одного. Мінімізація суми абсолютних значень також не призводить до задовільних результатів, оскільки оцінки параметрів у цьому випадку нестійкі, є обчислювальні труднощі при реалізації такої процедури оцінювання. Тому найбільш часто використовуваною процедурою є мінімізація суми квадратів відхилень або метод найменших квадратів(МНК).

Оскільки ряд вихідних значень має коливання, модель ряду міститиме помилки, квадрати яких треба мінімізувати

де y i | спостерігається значення; y i * теоретичні значення моделі; номер спостереження.

При моделюванні тенденції вихідного часового ряду за допомогою лінійного тренду приймемо, що

Поділивши перше рівняння на n, приходимо до наступного

Підставивши отриманий вираз у друге рівняння системи (3.10) для коефіцієнта b *отримаємо:

3.7. Перевірка відповідності моделі

Як приклад на рис. 3.4 наведено графік лінійної регресії між потужністю автомобіля хта його вартістю у.

Рис. 3.4. Графік лінійної регресії

Рівняння для цього випадку має вигляд: у=1455,3 + 13,4 х. Візуальний аналіз цього малюнка показує, що з низки спостережень є значні відхилення від теоретичної кривої. Графік залишків показано на рис. 3.5.

Рис. 3.5. Графік залишків

Аналіз залишків лінії регресії може бути корисною мірою того, наскільки оцінена регресія відображає реальні дані. Добра регресія та, яка пояснює значну частку дисперсії і, навпаки, погана регресія не відслідковує велику величину коливань вихідних даних. Інтуїтивно ясно, що будь-яка додаткова інформація дозволить покращити модель, тобто зменшити незрозумілу частку змінної варіації. у. Для аналізу регресійної проведемо розкладання дисперсії на складові. Очевидно, що

Останнє доданок дорівнюватиме нулю, тому що являє собою суму залишків, тому приходимо до наступного результату

де SS 0, SS 1, SS 2визначають відповідно загальну, регресійну та залишкову суми квадратів.

Регресійна сума квадратів вимірює частину дисперсії, що пояснюється лінійною залежністю; залишкова частина дисперсії, не пояснювану лінійною залежністю.

Кожна з цих сум характеризується відповідним числом ступенів свободи (ЧСС), що визначає кількість одиниць даних, незалежних один від одного. Інакше висловлюючись, ЧСС пов'язані з кількістю спостережень nі числом даних параметрів, що обчислюються за сукупністю. У цьому випадку для розрахунку SS 0 визначається лише одна постійна (середнє значення), отже ЧСС для SS 0 складе (n– 1), ЧСС для SS 2 – (n – 2)та ЧСС для SS 1складе n - (n - 1) = 1, Оскільки у рівнянні регресії є n – 1 постійних точок. Як і суми квадратів, ЧСС пов'язані співвідношенням

Суми квадратів, пов'язані з розкладанням дисперсії, разом із відповідними ЧСС можуть бути розміщені в так званій таблиці аналізу дисперсій (таблиця ANOVA ANalysis Of VAriance) (табл. 3.1).

Таблиця 3.1

Таблиця ANOVA

Джерело	Сума квадратів		Середній квадрат
Регресія			SS 2/(n-2)

За допомогою введеної абревіатури для сум квадратів визначимо коефіцієнт детермінаціїяк відношення суми квадратів регресії до загальної суми квадратів у вигляді

(3.13)

Коефіцієнт детермінації вимірює частку мінливості змінної Y, яку можна пояснити за допомогою інформації про мінливість незалежної змінної X.Коефіцієнт детермінації змінюється від нуля, коли Хне впливає на Y,до одиниці, коли зміна Yповністю пояснюється зміною X.

3.8. Регресійна модель прогнозу

Найкращим вважається прогноз, що має мінімальну дисперсію. У разі звичайний МНК виробляє найкращий прогноз із усіх методів, дають несмещенные оцінки з урахуванням лінійних рівнянь. Помилка прогнозу, пов'язана з процедурою прогнозування, може йти від чотирьох джерел.

По-перше, випадкова природа адитивних помилок, що обробляються лінійною регресією, гарантує, що прогноз відхилятиметься від справжніх величин навіть якщо модель правильно специфікована та її параметри точно відомі.

По-друге, сам процес оцінки вносить помилку в оцінку параметрів - вони рідко можуть дорівнювати істинним значенням, хоча рівні їм в середньому.

По-третє, у разі умовного прогнозу (у разі невідомих точно значень незалежних змінних) помилка вноситься з прогнозом змінних, що пояснюють.

По-четверте, помилка може виникнути через те, що специфікація моделі неточна.

У результаті джерела помилки можна класифікувати наступним чином:

природа змінної;
природа моделі;
помилка, яка вноситься прогнозом незалежних випадкових величин;
помилка специфікації.

Розглядатимемо безумовний прогноз, коли незалежні змінні легко і точно прогнозуються. Розпочнемо розгляд проблеми якості прогнозу з рівняння парної регресії.

Постановку завдання у разі можна сформулювати так: яким буде найкращий прогноз y T+1 за умови, що у моделі y = a + bxпараметри аі bоцінені точно, а значення x T+1¦ відомо.

Тоді прогнозне значення можна визначити як

Помилка прогнозу при цьому становитиме

Помилка прогнозу має дві властивості:

Отримана дисперсія мінімальна серед усіх можливих оцінок, що ґрунтуються на лінійних рівняннях.

Хоча ата b відомі, помилка прогнозу з'являється за рахунок того, що у T+1може не лежати на лінії регресії через помилку ε T+1, що підпорядковується нормальному розподілу з нульовим середнім та дисперсією σ 2. Для перевірки якості прогнозу введемо нормалізовану величину

Тоді можна визначити 95% довірчий інтервал у наступному вигляді:

де β 0,05квантили нормального розподілу.

Межі 95% інтервалу можна визначити як

Зазначимо, що у цьому випадку ширина довірчого інтервалуне залежить від величини х,і межі інтервалу є прямі лінії, паралельні лінії регресії.

Найчастіше при побудові лінії регресії та перевірці якості прогнозу треба оцінювати як параметри регресії, а й дисперсію помилки прогнозу. Можна показати, що в цьому випадку дисперсія помилки залежить від величини (), де середнє значення незалежної змінної. Крім того, що більша довжина ряду, то точніше прогноз. Помилка прогнозу зменшується, якщо значення X T+1 близьке до середньої величини незалежної змінної, і навпаки, при віддаленні від середнього значення прогноз стає менш точним. На рис. 3.6 показані результати прогнозу за допомогою рівняння лінійної регресії на 6 інтервалів часу вперед разом із довірчими інтервалами.

Рис. 3.6. Прогноз щодо рівняння лінійної регресії

Як видно із рис. 3.6, ця лінія регресії недостатньо добре описує вихідні дані: спостерігається велика варіація щодо підгонки прямий. Про якість моделі можна судити також щодо залишків, які за задовільної моделі мають бути розподілені приблизно за нормальним законом. На рис. 3.7 наведено графік залишків, побудований за допомогою ймовірнісної шкали.

Рис.3.7. Графік залишків

При використанні такої шкали дані, що підпорядковуються нормальному закону, мають лежати прямої лінії. Як випливає з наведеного малюнка, точки на початку і в кінці періоду спостережень дещо відхиляються від прямої лінії, що свідчить про недостатньо високу якість обраної моделі у вигляді рівняння лінійної регресії.

У табл. 3.2 наведено результати прогнозу (друга колонка) разом з довірчими 95%-ними інтервалами (нижнім третя і верхнім четверта колонки відповідно).

Таблиця 3.2

Результати прогнозу

3.9. Багатомірна регресійна модель

При багатовимірній регресії дані кожного випадку включають значення залежної змінної і кожної незалежної змінної. Залежна змінна yЦе випадкова величина, пов'язана з незалежними змінними наступним співвідношенням:

де коефіцієнти регресії, що підлягають визначенню; ε компонент помилки, що відповідає відхиленню значень залежної змінної від істинного співвідношення (передбачається, що помилки незалежні і мають нормальний розподіл з нульовим математичним очікуванням та невідомою дисперсією σ ).

Для заданого набору даних оцінки коефіцієнтів регресії можна знайти з допомогою МНК. Якщо оцінки МНК позначити через , то відповідна функція регресії матиме вигляд:

Залишки є оцінками компонента помилки і подібні до залишків у разі простої лінійної регресії.

Статистичний аналіз моделі багатовимірної регресії проводиться аналогічно до аналізу простої лінійної регресії. Стандартні пакети статистичних програм дозволяють отримати оцінки МНК для параметрів моделі, оцінки їх стандартних помилок. Крім того, можна отримати значення t-статистики для перевірки значимості окремих доданків регресійної моделі та величину F-Статистики для перевірки значущості регресійної залежності.

Форма розбиття сум квадратів у разі багатовимірної регресії аналогічна виразу (3.13), але співвідношення для ЧСС буде наступним

Наголосимо ще раз, що nявляє собою обсяг спостережень, а kчисло змінних у моделі. Загальна варіація залежної змінної і двох складових: варіації, поясненої незалежними змінними через функцію регресії, і непоясненої варіації.

Таблиця ANOVA для випадку багатовимірної регресії матиме вигляд, показаний у табл. 3.3.

Таблиця 3.3

Таблиця ANOVA

Джерело	Сума квадратів		Середній квадрат
Регресія			SS 2/(n-k-1)

Як приклад багатовимірної регресії скористаємося даними з пакета Statistica (файл даних Poverty.Sta)Наведені дані засновані на порівнянні результатів перепису 1960 та 1970 рр. для випадкової вибірки із 30 країн. Назви країн були введені як назви рядків, а назви всіх змінних цього файлу наведені нижче:

POP_CHNG зміна населення за 1960-1970 рр.;

N_EMPLD кількість людей, зайнятих у сільському господарстві;

PT_POOR - відсоток сімей, які живуть нижче рівня бідності;

TAX_RATE ставка податку;

PT_PHONE - відсоток квартир з телефоном;

PT_RURAL - відсоток сільського населення;

AGE - середній вік.

Як залежна змінна виберемо ознаку Pt_Poor, а як незалежні - всі інші. Розраховані коефіцієнти регресії між виділеними змінними наведено у табл. 3.4

Таблиця 3.4

Регресійні коефіцієнти

Ця таблиця показує регресійні коефіцієнти ( У) та стандартизовані регресійні коефіцієнти ( Beta). За допомогою коефіцієнтів Увстановлюється вид рівняння регресії, що у даному випадкумає вигляд:

Включення до правої частини цих змінних обумовлено тим, що ці ознаки мають значення ймовірності рменше, ніж 0,05 (див. четвертий стовпець табл. 3.4).

Бібліографія

Басовський Л. Є.Прогнозування та планування в умовах ринку. - М.: Інфра - М, 2003.
Бокс Дж., Дженкінс Р.Аналіз часових рядів. Вип.1. Прогноз та управління. - М.: Світ, 1974.
Боровіков В. П., Івченко Г. І.Прогнозування в системі Statistica у середовищі Windows. - М.: Фінанси та статистика, 1999.
Дюк Ст.Обробка даних на ПК у прикладах. - СПб.: Пітер, 1997.
Івченко Б. П., Мартищенко Л. А., Іванцов І. Б.Інформаційна мікроекономіка. Частина 1. Методи аналізу та прогнозування. - СПб.: Нордмед-Іздат, 1997.
Кричевський М. Л.Введення в штучні нейронні мережі: Навч. допомога. - СПб.: СПб. держ. морський техн. ун-т, 1999.
Сошникова Л. А., Тамашевіч Ст Н., Уебе Г. та ін.Багатомірний статистичний аналіз економіки. - М.: Юніті-Дана, 1999.

Ковзна середня дозволяє чудово згладжувати дані. Але її головний недолік полягає в тому, що кожне значення вихідних даних для неї має однакову вагу. Наприклад, для середньої ковзної використовує період шести тижнів кожному значенню для кожного тижня приділяється 1/6 ваги. У деяких зібраних статистичних даних більш актуальним значенням надається більша вага. Тому експоненційне згладжування застосовується для того, щоб надати найактуальнішим даним більшої ваги. У такий спосіб вирішується дана статистична проблема.

Формула розрахунку методу експонентного згладжування в Excel

Нижче на малюнку зображено звіт попиту певний продукт за 26 тижнів. Стовпець «Попит» містить інформацію про кількість проданого товару. У стовпці «Прогноз» – формула:

У стовпці «Ковзна середня» визначається прогнозований попит, розрахований за допомогою звичайного обчислення ковзної середньої з періодом 6 тижнів:

В останньому стовпці «Прогноз», з описаною вище формулою, застосовується метод експоненційного згладжування даних, в яких значення останніх тижнів має більшу вагу, ніж попередніх.

Коефіцієнт "Альфа:" вводиться в осередку G1, він означає вагу присвоєння найбільш актуальним даним. У цьому прикладі він має значення 30%. Інші 70% ваги розподіляється на інші дані. Тобто друге значення з точки зору актуальності (з право на ліво) має вагу рівну 30% від решти 70% ваги – це 21%, третє значення має вагу дорівнює 30% від решти 70% ваги – 14,7% і так далі .

Графік експоненційного згладжування

Нижче на малюнку зображено графік попиту, середнє ковзне та прогноз методом експоненційного згладжування, який побудований на основі вихідних значень:

Зверніть увагу, що прогноз з експоненційним згладжуванням більш активно реагує на зміни попиту, ніж ковзна середня лінія.

Дані для чергових попередніх тижнів множаться на коефіцієнт альфа, а результат додається до частини відсотків ваги, що залишилася, помножений на попереднє прогнозоване значення.

Проста і логічно ясна модель часового ряду має такий вигляд:

Y t = b + e t

у, = Ь + г„ (11.5)

де b – константа, e – випадкова помилка. Константа b відносно стабільна на кожному інтервалі часу, але може також повільно змінюватися з часом. Один з інтуїтивно ясних способів виділення значення b з даних полягає в тому, щоб використовувати згладжування ковзним середнім, в якому останнім спостереженням приписуються більші ваги, ніж передостаннім, передостаннім більші ваги, ніж передостаннім, і т.д. Просте експоненційне згладжування саме так і збудовано. Тут більш старим спостереженням приписуються експоненційно спадні ваги, при цьому, на відміну від ковзного середнього, враховуються всі попередні спостереження низки, а не тільки ті, які потрапили до певного вікна. Точна формула простого експоненційного згладжування має вигляд:

S t = a y t + (1 - a) S t -1

Коли ця формула застосовується рекурсивно, кожне нове згладжене значення (яке є також прогнозом) обчислюється як зважене середнє поточного спостереження та згладженого ряду. Очевидно, що результат згладжування залежить від параметра a . Якщо a дорівнює 1, попередні спостереження повністю ігноруються. Якщо дорівнює 0, то ігноруються поточні спостереження. Значення між 0 і 1 дають проміжні результати. Емпіричні дослідження показали, що просте експоненційне згладжування часто дає досить точний прогноз.

Насправді зазвичай рекомендується брати a менше 0,30. Однак вибір a більше 0,30 іноді дає більш точний прогноз. Це означає, що краще все ж таки оцінювати оптимальне значення a за реальними даними, ніж використовувати загальні рекомендації.

Насправді оптимальний параметр згладжування часто шукається з допомогою процедури пошуку на сітці. Можливий діапазон значень параметра розбивається сіткою із певним кроком. Наприклад, розглядається сітка значень від a = 0,1 до a = 0,9 з кроком 0,1. Потім вибирається таке значення a, для якого сума квадратів (або середніх квадратів) залишків (спостерігаються мінус прогнози на крок вперед) є мінімальною.

Microsoft Excel має функцію Exponential Smoothing (Експоненційне згладжування), яка зазвичай використовується для згладжування рівнів емпіричної часового ряду на основі методу простого експоненційного згладжування. Для виклику цієї функції необхідно на панелі меню вибрати команду Tools Data Analysis. На екрані з'явиться вікно Data Analysis, в якому слід вибрати значення Exponential Smoothing (Експоненційне згладжування). Внаслідок цього з'явиться діалогове вікно Exponential Smoothing.

У діалоговому вікні Exponential Smoothing задаються практично ті ж параметри, що й у розглянутому діалоговому вікні Moving Average.

1. Input Range (Вхідні дані) – у це поле вводиться діапазон осередків, що містять значення досліджуваного параметра.

2. Labels (Мітки) - цей прапорець опції встановлюється в тому випадку, якщо
перший рядок (стовпець) у вхідному діапазоні містить заголовок. Якщо заголовок немає, прапорець слід скинути. У цьому випадку для даних вихідного діапазону будуть автоматично створені стандартні назви.

3. Damping factor (Фактор згасання) – у це поле вводиться значення обраного коефіцієнта експоненційного згладжування а. За промовчанням приймаєте значення а = 0,3.

4. Output options (Параметри виведення) - у цій групі, крім вказівки діапазону осередків для вихідних даних у полі Output Range (Вихідний діапазон), можна також вимагати автоматично побудувати графік, для чого необхідно встановити прапорець опції Chart Output (Висновок графіка), та розрахувати стандартні похибки, навіщо потрібно встановити прапорець опції Standart Erroг (Стандартні похибки).

Завдання 2.За допомогою програми Microsoft Excel, використовуючи функцію Експонентного згладжування (Exponential Smoothing), на підставі даних про обсяг випуску Завдання 1 розрахувати згладжені рівні випуску та стандартні похибки. Потім подати фактичні та прогнозовані дані за допомогою діаграми. Підказка: повинна вийти таблиця і графік, аналогічний виконаному завдання 1, але з іншими згладженими рівнями і стандартними похибками.

Метод аналітичного вирівнювання

де - теоретичні значення часового ряду, обчислені за відповідним аналітичним рівнянням на момент часу t.

Визначення теоретичних (розрахункових) значень проводиться на основі так званої адекватної математичної моделі, яка найкращим чиномвідображає основну тенденцію розвитку часового ряду.

Найпростішими моделями (формулами), що виражають тенденцію розвитку, є:

Лінійна функція, графік якої є прямою лінією:

Показова функція:

Y t = a 0 * a 1 t

Ступінна функція другого порядку, графік якої є параболою:

Y t = a 0 + a 1 * t + a 2 * t 2

Логарифмічна функція:

Y t = a 0 + a 1 * ln t

Розрахунок параметрів функції зазвичай проводиться методом найменших квадратів, у якому як рішення приймається точка мінімуму суми квадратів відхилень між теоретичним та емпіричним рівнями:

де – вирівняні (розрахункові) рівні, а Yt – фактичні рівні.

Параметри рівняння a i, що задовольняють цій умові, можуть бути знайдені рішенням системи нормальних рівнянь. На основі знайденого рівняння тренду обчислюються вирівняні рівні.

Вирівнювання по прямійвикористовується у випадках, коли абсолютні прирости практично постійні, тобто. коли рівні змінюються в арифметичній прогресії (або близько до неї).

Вирівнювання за показовою функцієюзастосовується, коли ряд відбиває розвиток у геометричній професії, тобто. ланцюгові коефіцієнти зростання практично постійні.

Вирівнювання за статечною функцією(Параболі другого порядку) використовується, коли ряди динаміки змінюються з постійними ланцюговими темпами приросту.

Вирівнювання за логарифмічною функцієюзастосовується, коли ряд відбиває розвиток із уповільненням зростання кінці періоду, тобто. коли приріст у кінцевих рівнях часового ряду прагне нуля.

По обчисленим параметрам виконується синтез трендової моделі функції, тобто. отримання значень a 0 , a 1 , a ,2 та їх підстановка шукане рівняння.

Правильність розрахунків аналітичних рівнів можна перевірити за такою умовою: сума значень емпіричного ряду має співпадати із сумою обчислених рівнів вирівняного ряду. При цьому може виникнути невелика похибка в розрахунках через округлення величин, що обчислюються:

Для оцінки точності трендової моделі використовується коефіцієнт детермінації:

де - дисперсія теоретичних даних, отриманих за трендовою моделлю, а - дисперсія емпіричних даних.

Трендова модель адекватна досліджуваному процесу і відбиває тенденцію його розвитку при значеннях R 2 близьких до 1.

Після вибору найбільш адекватної моделі можна зробити прогноз будь-якої з періодів. При складанні прогнозів оперують не точковою, а інтервальної оцінкою, визначаючи звані довірчі інтервали прогнозу. Розмір довірчого інтервалу визначається загальному вигляді так:

де середнє відхилення від тренду; t a -табличне значення t-критерію Стьюдента при рівні значущості a, що залежить від рівня значимості a(%) та числа ступенів свободи до = п- т.Величина - визначається за такою формулою:

де і - фактичні та розрахункові значення рівнів динамічного ряду; п -число рівнів низки; т- кількість параметрів у рівнянні тренду (для рівняння прямої т - 2, для рівняння параболи 2-го порядку т = 3).

Після необхідних розрахунків визначається інтервал, у якому з певною ймовірністю перебуватиме прогнозована величина.

За допомогою Microsoft Excel будувати трендові моделі досить просто. Спочатку емпіричний часовий ряд слід подати у вигляді діаграми одного з таких типів: гістограма, лінійна діаграма, графік, точкова діаграма, діаграма з областями, а потім клацнути на діаграмі правою кнопкою миші на одному з маркерів даних. У результаті діаграмі буде виділено сам тимчасовий ряд, але в екрані розкриється контекстне меню. У цьому меню слід вибрати команду Add Trendline (Додати лінію тренду). На екрані буде виведено діалогове вікно Add Trendline.

На вкладці Туре (Тип) цього діалогового вікна вибирається необхідний тип тренду:

1. лінійний (Linear);

2. логарифмічний (Logarithmic);

3. поліноміальний, від 2-го до 6-го ступеня включно (Polinomial);

4. статечної (Power);

5. експонентний (Exponential);

6. ковзне середнє, із зазначенням періоду згладжування від 2 до 15 (Moving Average).

На вкладці Options (Параметри) цього діалогового вікна задаються додаткові параметри тренда.

1. Trendline Name (Назва згладженої кривої) – у цій групі вибирається назва, яка буде виведена на діаграму для позначення функції, використаної для згладжування часового ряду. Можливі такі варіанти:

♦ Automatic (Автоматичне) - під час встановлення перемикача в це положення Microsoft Excel автоматично формує назву функції згладжування тренда, ґрунтуючись на вибраному типі тренда, наприклад Linear (Лінійна функція).

♦ Custom (Інше) - під час встановлення перемикача в дане положення в полі праворуч можна ввести власну назву для функції тренда, довжиною до 256 символів.

2. Forecast (Прогноз) - у цій групі можна вказати, на скільки періодів уперед (поле Forward) потрібно спроектувати лінію тренда в майбутнє і на скільки періодів тому (поле Backward) слід спроектувати лінію тренда в минуле (ці поля недоступні в режимі ковзного середнього ).

3. Set intercept (Перетин кривої з віссю Y у точці) - цей прапорець опції та розташоване праворуч поле введення дозволяють безпосередньо вказати точку, в якій лінія тренду повинна перетинати вісь Y (ці поля доступні не для всіх режимів).

4. Display equation on chart (Показувати рівняння на діаграмі) - при встановленні цього прапорця опції на діаграму буде виведено рівняння, що описує лінію тренда, що згладжує.

5. Display R-squared value on chart (Помістити на діаграму величину достовірності апроксимації R 2) -під час встановлення даного прапорця опції на діаграмі буде показано значення коефіцієнта детермінації.

Разом з лінією тренда на графіку часового ряду можуть бути зображені планки похибок. Для вставки планок похибок необхідно виділити ряд даних, клацнути на ньому правою кнопкою миші і вибрати в контекстному меню команду Format Data Series. На екрані відкриється діалогове вікно Format Data Series (Формат ряду даних), у якому слід перейти на вкладку Y Error Bars (Y-похибки).

На цій вкладці за допомогою перемикача Error amount (Величина похибки) вибирається тип планок та варіант їхнього розрахунку залежно від виду похибки.

1. Fixed value (Фіксоване значення) - при встановленні перемикача в це положення за допустиму величину помилки приймається задане в полі лічильника праворуч постійне значення;

2. Percentage (Відносне значення) - при встановленні перемикача в дане положення для кожної точки даних обчислюється допустиме відхилення, виходячи із заданого в полі лічильника праворуч значення відсотка;

3. Standard deviation(s) (Стандартне відхилення) - при встановленні перемикача в дане положення для кожної точки даних обчислюється стандартне відхилення, яке потім множиться на задане в полі лічильника праворуч (коефіцієнт кратності);

4. Standard error (Стандартна похибка) – при встановленні перемикача в дане положення приймається стандартна величина помилки, постійна для всіх елементів даних;

5. Custom (Користувацька) - під час встановлення перемикача в це положення вводиться довільний масив значень відхилень у позитивну та/або негативну сторону (можна ввести посилання на діапазон комірок).

Планки похибок також можна форматувати. Для цього їх слід виділити клацанням правої кнопки миші і вибрати в контекстному меню команду Format Error Bars (Формат планок похибок).

Завдання 3.За допомогою програми Microsoft Excel на підставі даних про обсяг випуску Завдання 1 необхідно:

Подати часовий ряд у вигляді графіка, побудованого за допомогою майстра діаграм. Потім додати лінію тренда, підбираючи найбільш підходящий варіант рівняння.

Подати отримані результати у вигляді таблиці «Підбір рівняння тренду»:

Таблиця «Підбір рівняння тренду»

Подати обране рівняння графічно, винісши в графік дані про найменування отриманої функції та величину достовірності апроксимації (R 2).

Завдання 4. Дайте відповідь на наступні питання:

1. При аналізі тренда для деякого набору даних коефіцієнт детермінації для лінійної моделі дорівнював 0,95, для логарифмічної - 0,8, а для полінома третього ступеня - 0,9636. Яка трендова модель найбільш адекватна досліджуваному процесу:

а) лінійна;

б) логарифмічна;

в) поліном 3-го ступеня.

2. За даними, поданими в завданні 1, спрогнозуйте обсяг випуску продукції у 2003 році. Яка загальна тенденція поведінки досліджуваної величини випливає із результатів вашого прогнозу:

а) спостерігається спад виробництва;

б) виробництво залишається на колишньому рівні;

в) спостерігається зростання виробництва.

У даному матеріалі були розглянуті основні характеристики тимчасового ряду, моделі декомпозиції тимчасового ряду, а також основні методи згладжування ряду - метод ковзного середнього експоненційного згладжування і аналітичного вирівнювання. Для вирішення цих завдань Microsoft Excel пропонуються такі інструменти, як Moving Average (Ковзне середнє) та Exponential Smoothing (Експоненційне згладжування), які дозволяють згладжувати рівні емпіричного часового ряду, а також команда Add Trendiine (Додати лінію тренду), яка дозволяє будувати моделі тренду робити прогноз з урахуванням наявних значень тимчасового ряду.

P.S. Щоб увімкнути пакет аналізу даних, виберіть команду Tools →Data Analysis (Сервіс → Аналіз даних).

Якщо Data Analysis відсутня, необхідно виконати такі дії:

1. Вибрати команду Tools → Add-ins (Надбудови).

2. Вибрати в запропонованому списку параметрів значення Analysis ToolPak (Пакет аналізу), а потім клацнути ОК. Після цього буде виконано завантаження та підключення до Excel пакета налаштування "Аналіз даних". Відповідна команда з'явиться у меню Tools.

©2015-2019 сайт
Усі права належати їх авторам. Цей сайт не претендує на авторства, а надає безкоштовне використання.
Дата створення сторінки: 2016-04-27

Очевидно, що в методі зваженого ковзного середнього існує безліч способів задавати значення ваги так, щоб їх сума була рівною 1. Один з таких способів називається експоненційним згладжуванням. У цій схемі методу зваженого середнього для будь-якого t > 1 прогнозоване значення в момент часу t+1 є зваженою сумою фактичного обсягу продажів , за період часу t і прогнозованого обсягу продажів , за період часу t Іншими словами,

Експонентне згладжування має обчислювальні переваги перед ковзним середнім. Тут, щоб обчислити , необхідно знати тільки значення і , (разом зі значенням α). Наприклад, якщо компанії потрібно спрогнозувати попит для 5000 найменувань виробів у кожний період часу, то в цьому випадку необхідно зберігати 10001 значень даних (5000 значень 5000 значень і значення α), у той час як для виконання прогнозу на основі ковзного середнього по 8 вузлам потрібно 40000 значень даних. Залежно від поведінки даних, можливо, потрібно зберігати різні значення α для кожного виробу, але навіть у цьому випадку кількість інформації, що зберігається значно менше, ніж при використанні ковзного середнього. Позитивна особливість експоненційного згладжування полягає в тому, що, зберігаючи і останній прогноз, всі попередні прогнози також неявно зберігаються.

Розглянемо деякі властивості моделі експонентного згладжування. Спочатку зауважимо, що t > 2, то формулі (1) t можна замінити на t–1, тобто. Підставивши цей вираз у початкову формулу (1), отримаємо

Виконуючи послідовно аналогічні підстановки, отримаємо наступний вираздля

Оскільки з нерівності 0< α < 1 следует, что 0 < 1 – α < 1, то Другими словами, наблюдение , имеет больший вес, чем наблюдение , которое, в свою очередь, имеет больший вес, чем . Это иллюстрирует основное свойство модели экспоненциального сглаживания - коэффициенты при убывают при уменьшении номера k. Также можно показать, что сумма всех коэффициентов (включая коэффициент при ), равна 1.

З формули (2) видно, що значенням є виважена сума всіх попередніх спостережень (включаючи останнє спостереження). Остання складова суми (2) є не статистичним спостереженням, А «припущенням» (можна припустити, наприклад, що). Очевидно, що зі зростанням t вплив на прогноз зменшується, і в певний момент їм можна буде знехтувати. Навіть якщо значення α досить мале (таке, що (1 – α) приблизно дорівнює 1), значення швидко зменшуватиметься.

Значення параметра α сильно впливає на функціонування моделі прогнозування, оскільки α є вагою останнього спостереження . Це означає, що слід призначати більше значенняα у тому випадку, коли у моделі найбільш прогностичним є саме останнє спостереження. Якщо ж близько 0, це означає практично повну довіру до минулого прогнозу та ігнорування останнього спостереження.

Перед Віктором постала проблема: як найкраще підібрати значення α. Знову, у цьому допоможе засіб пошуку рішення. Щоб знайти оптимальне значення α (тобто таке, при якому прогнозна крива найменше відхилятиметься від кривої значень часового ряду), виконайте такі дії.

Виберіть команду Сервіс -> Пошук рішення.
У діалоговому вікні Пошук рішення встановіть цільовий осередок G16 (див. лист «Експо») і вкажіть, що його значення має бути мінімальним.
Вкажіть, що змінним осередком є осередок В1.
Введіть обмеження B1 > 0 та B1< 1
Натиснувши кнопку Виконати, отримайте результат, показаний на рис. 8.

Знову, як і методі виваженого ковзного середнього, найкращий прогноз буде отримано, якщо призначити всю вагу останньому спостереженню. Отже, оптимальне значення дорівнює 1, при цьому середнє абсолютних відхилень дорівнює 6,82 (осередок G16). Віктор здобув прогноз, який уже бачив раніше.

Метод експоненційного згладжування добре працює в ситуаціях, коли цікава для нас змінна поводиться стаціонарно, а її відхилення від постійного значення викликані випадковими факторами і не носять регулярного характеру. Але: незалежно від значення параметра α методом експоненційного згладжування не вдасться спрогнозувати монотонно зростаючі або монотонно спадні дані (прогнозовані значення будуть завжди менше або більше спостерігаються відповідно). Також можна показати, що моделі з сезонними змінами отримати задовільні прогнози цим методом не вдасться.

Якщо статистичні дані монотонно змінюються або схильні до сезонних змін, необхідні спеціальні методипрогнозування, які будуть розглянуті нижче.

Метод Хольта (експоненційне згладжування з урахуванням тренду)

Метод Хольта дозволяє прогнозувати k періодів часу вперед. Метод, як видно, використовує два параметри і β. Значення цих параметрів знаходяться в межах від 0 до 1. Змінна L вказує на довгостроковий рівень значень або базове значення даних часового ряду. Змінна Т вказує на можливе зростання чи спадання значень за період.

Розглянемо роботу цього на новому прикладі. Світлана працює аналітиком у великій брокерській фірмі. На основі наявних у неї квартальних звітів компанії Startup Airlines вона хоче спрогнозувати дохід цієї компанії у наступному кварталі. Наявні дані та діаграма, побудована на їх основі, знаходяться у робочій книзі Startup.xls (рис. 9). Видно, дані мають явний тренд (майже монотонно зростають). Світлана хоче застосувати метод Хольта, щоб спрогнозувати значення прибутку на одну акцію на тринадцятий квартал. Для цього необхідно задати початкові значення для L і Т. Є кілька варіантів вибору: 1) L дорівнює значенню прибутку на одну акцію за перший квартал і T = 0; 2) L дорівнює середньому значенню прибутку на одну акцію за 12 кварталів і T дорівнює середній зміні за всі 12 кварталів. Існують інші варіанти початкових значеньдля L та Т, але Світлана обрала перший варіант.

Вона вирішила скористатися засобом Пошук рішення, щоб знайти оптимальне значення параметрів α і β, за яких значення середнього абсолютних помилоку відсотках було б мінімально. Для цього необхідно виконати такі дії.

Вибрати команду Сервіс -> Пошук рішення.

У діалоговому вікні Пошук рішення задати комірку F18 цільової і вказати, що її значення слід мінімізувати.

У полі Змінюючи осередки ввести діапазон осередків В1: В2. Додати обмеження В1:В2 > 0 та В1:В2< 1.

Клацніть на кнопці Виконати.

Отриманий прогноз показано на рис. 10.

Як видно, оптимальними виявилися значення α = 0,59 і β = 0,42, при цьому середня абсолютна помилка у відсотках дорівнює 38%.

Облік сезонних змін

При прогнозуванні на основі даних часового ряду слід враховувати сезонні зміни. Сезонні зміни - це коливання вгору та вниз із постійним періодом у значеннях змінної.

Наприклад, якщо подивитися на обсяги продажу морозива по місяцях, то можна побачити теплі місяці(з червня по серпень у північній півкулі) більше високий рівеньпродажів, ніж узимку, і так щороку. Тут сезонні коливання мають період 12 місяців. Якщо використовуються дані, зібрані по тижнях, то структура сезонних коливань повторюватиметься через кожні 52 тижні. велике числоклієнтів очікується в ночі на вівторок, середу та четвер, найменше клієнтів буде в ночі на суботу та неділю, і середня кількість постояльців очікується в ночі на п'ятницю та понеділок. Така структура даних, що відображає кількість клієнтів у різні днітижня, повторюватиметься через кожні сім днів.

Процедура, яка дозволяє зробити прогноз з урахуванням сезонних змін, складається з чотирьох етапів.

1) На основі вихідних даних визначається структура сезонних коливань та період цих коливань.

3) На основі даних, з яких виключено сезонну складову, робиться найкращий можливий прогноз.

4) До отриманого прогнозу додається сезонна складова.

Проілюструємо цей підхід на даних про обсяги збуту вугілля (вимірюваного в тисячах тонн) у США протягом дев'яти років Френк працює менеджером у компанії Gillette Coal Mine, йому необхідно спрогнозувати попит на вугілля на найближчі два квартали. Він ввів дані по всій вугільній галузі до робочої книги Уголь.xls і побудував за цими даними графік (рис. 11). На графіку видно, що обсяги продажів вищі за середній рівень у першому та четвертому кварталах ( зимовий часроку) та нижче середнього у другому та третьому кварталах (весняно-літні місяці).

Виняток сезонної складової

Спочатку необхідно обчислити середнє значення всіх відхилень за період сезонних змін. Щоб виключити сезонну складову в межах одного року, використовуються дані за чотири періоди (кварталу). А щоб виключити сезонну складову з усього часового ряду, обчислюється послідовність ковзних середніх по T вузлах, де T - тривалість сезонних коливань Для виконання необхідних обчислень Френк використовував стовпці З і D, як показано на рис. нижче. Стовпець містить значення ковзного середнього по 4 вузлам на основі даних, які знаходяться в стовпці В.

Тепер треба призначити отримані значення ковзного середнього середнім точкам послідовності даних, на основі яких ці значення були обчислені. Ця операція називається центруваннямзначень. Якщо T непарне, то перше значення ковзного середнього (середнє значень від першої до T-ї точки) треба присвоїти (T + 1)/2 точці (наприклад, якщо T = 7, то перше ковзне середнє буде призначено четвертій точці). Аналогічно середнє значень від другої до (T + 1) точки центрується в (T + 3) / 2 точці і т. д. Центр n-го інтервалу знаходиться в точці (T + (2n-1)) / 2.

Якщо T парне, як у даному випадку, то завдання дещо ускладнюється, оскільки тут центральні (середні) точки розташовані між точками, за якими обчислювалося значення ковзного середнього. Тому центроване значення для третьої точки обчислюється як середнє першого та другого значень ковзного середнього. Наприклад, перше число в стовпці D центрованих середніх на рис. 12, зліва дорівнює (1613 + 1594) / 2 = 1603. На рис. 13 показані графіки вихідних даних та відцентрованих середніх.

Далі знаходимо відношення значень точок даних до відповідних значень центрованих середніх. Оскільки точок на початку та наприкінці послідовності даних немає відповідних відцентрованих середніх (див. перші та останні значенняу стовпці D), така дія на ці точки не поширюється. Ці відносини показують ступінь відхилення значень даних щодо типового рівня, що визначається відцентрованими середніми. Зауважимо, що значення відносин для третіх кварталів менше 1, а для четвертих – більше 1.

Ці відносини є основою створення сезонних індексів. Для їхнього обчислення групуються обчислені відносини по кварталах, як показано на рис. 15 у стовпцях G-О.

Потім перебувають середні значення відносин за кожним кварталом (стовпець Е на рис. 15). Наприклад, середнє всіх відносин для першого кварталу дорівнює 1,108. Це значення є сезонним індексом першого кварталу, основі якого можна дійти невтішного висновку, що обсяг збуту вугілля перший квартал становить середньому близько 110,8% відносного середнього річного обсягу збуту.

Сезонний індекс- це середнє ставлення даних, які стосуються одного сезону (у разі сезоном є квартал), всім даних. Якщо сезонний індексбільше 1, отже, показники цього сезону вищі за середні показники за рік, аналогічно, якщо сезонний індекс нижчий за 1, то показники сезону нижчі від середніх показників за рік.

Зрештою, щоб виключити з вихідних даних сезонну складову, слід поділити значення вихідних даних на відповідний сезонний індекс. Результати цієї операції наведені у стовпцях F та G (рис. 16). Графік даних, які не містять сезонної складової, представлений на рис. 17.

Прогнозування

На основі даних, з яких виключено сезонну складову, будується прогноз. Для цього використовується відповідний метод, який враховує характер поведінки даних (наприклад дані мають тренд або відносно постійні). У цьому прикладі прогноз будується за допомогою простого експонентного згладжування. Оптимальне значення параметра α знаходиться за допомогою інструмента Пошук рішення. Графік прогнозу та реальних даних з виключеною сезонною складовою наведено на рис. 18.

Облік сезонної структури

Тепер потрібно врахувати в отриманому прогнозі (1726,5) сезонну складову. Для цього слід помножити 1726 на сезонний індекс першого кварталу 1,108, в результаті чого отримаємо значення 1912 р. Аналогічна операція (множення 1726 на сезонний індекс 0,784) дасть прогноз на другий квартал, рівний 1353. Результат додавання сезонної структури до отриманого прогнозу показаний на рис. 19.

Варіанти завдань:

Завдання 1

Даний тимчасовий ряд

t
x

1. Побудуйте графік залежності x = x(t).

Використовуючи просте ковзне середнє по 4 вузлах, спрогнозуйте попит в 11 момент часу.
Чи підходить такий метод прогнозування цих даних чи ні? Чому?
Підберіть лінійну функціюнаближення даних шляхом найменших квадратів.

Завдання 2

Використовуючи модель прогнозів доходів компанії Startup Airlines (Startup.xls) виконайте:

Завдання 3

Для тимчасового ряду

t
x

виконайте:

Використовуючи зважене ковзне середнє по 4 вузлах, і призначивши ваги 4/10, 3/10, 2/10, 1/10, спрогнозуйте попит у 11 момент часу. Більшу вагу слід призначати пізнішим спостереженням.
Чи є це наближення більш кращим по відношенню до простого ковзного середнього по 4 вузлах? Чому?
Знайдіть середнє абсолютних відхилень.
За допомогою засобу Пошук рішення знайдіть оптимальні ваги вузлів. Наскільки поменшала помилка наближення?
Скористайтеся для прогнозу методом експонентного згладжування. Який їх використаний метод дає кращий результат?

Завдання 4

Проаналізуйте тимчасовий ряд

Час

Попит

Скористайтеся методом виваженого ковзного середнього по 4 вузлам, призначивши ваги 4/10, 3/10, 2/10, 1/10, щоб отримати прогноз у моменти часу 5-13. Більшу вагу слід призначати пізнішим спостереженням.
Знайдіть середнє абсолютних відхилень.
Чи вважаєте ви, що це наближення краще в порівнянні з моделлю простого ковзного середнього по 4 вузлах? Чому?
За допомогою засобу Пошук рішення знайдіть оптимальні ваги вузлів. Наскільки вдалося зменшити значення помилки?
Скористайтеся для прогнозу методом експонентного згладжування. Який їх використаних методів дає найкращий результат?

Завдання 5

Даний тимчасовий ряд

Завдання 7

Менеджер з маркетингу невеликої компанії, що розвиває мережу продовольчих магазинів, має інформацію про обсяги продажів за весь час існування найприбутковішого магазину (див. табл.).

Використовуючи просте ковзне середнє по 3 вузлах, спрогнозуйте значення у вузлах з 4 до 11.

Використовуючи зважене середнє ковзне по 3 вузлах, спрогнозуйте значення у вузлах з 4 до 11. Для визначення оптимальних ваг скористайтеся засобом Пошук рішення.

Методом експонентного згладжування спрогнозуйте значення у вузлах 2-11. Визначте оптимальне значення параметра α за допомогою інструмента Пошук рішення.

Який із отриманих прогнозів найточніший і чому?

Завдання 8

Даний тимчасовий ряд

Побудуйте графік цього часового ряду. З'єднайте точки відрізками прямих.
Використовуючи просте ковзне середнє по 4 вузлах, спрогнозуйте попит для вузлів 5-13.
Знайдіть середнє абсолютних відхилень.
Чи доцільно використовувати даний методпрогнозування для поданих даних?
Чи є це наближення більш кращим по відношенню до простого ковзного середнього по 3 вузлах? Чому?
Побудуйте за даними лінійний та квадратичний тренд.
Скористайтеся для прогнозу методом експонентного згладжування. Який їх використаний метод дає кращий результат?

Завдання 10

У робочій книзі Business_Week.xls наведено дані з журналу Business Week щодо щомісячних обсягів продажу автомобілів за 43 місяці.

Виключіть із цих даних сезонну складову.
Визначте найкращий методпрогнозування для даних.
Чому дорівнює прогноз для 44-го періоду?

Завдання 11

Проста схемапрогнозування, коли значення минулого тижня приймається за прогноз наступного тижня.
Метод ковзного середнього (з кількістю вузлів на ваш розсуд). Спробуйте використати декілька різних значеньвузлів.

Завдання 12

У робочій книзі Банк.xls наведено показники роботи банку. Розгляньте наступні методипрогнозування значень цього часового ряду.

Як прогноз використовується середнє значення показника за всі попередні тижні.

Метод зваженого ковзного середнього (з числом вузлів на ваш розсуд). Спробуйте використати декілька різних значень вузлів. Для визначення оптимальних ваг скористайтеся засобом пошуку рішення.

Метод експонентного згладжування. Виберіть оптимальне значення параметра α за допомогою інструмента Пошук рішення.

Який із запропонованих вище методів прогнозування ви порекомендували б для прогнозу значень даного часового ряду?

Література

Подібна інформація.

Метод експоненційної середньої. Моделі експоненційного згладжування та прогнозування часових рядів

Початкові дані

Просте експоненційне згладжування

Можливо, у вас є тренд

Експонентне згладжування Холта з коригуванням тренду

Виявлення закономірностей у даних

Мультиплікативне експонентне згладжування Холта-Вінтерса

Побудова довірчого інтервалу прогнозу

Тема 3. Згладжування та прогнозування часових рядів на основі трендових моделей

3.1. Прості середні

3.2. Метод ковзних середніх

3.3. Експонентне згладжування

3.4. Експонентне згладжування з урахуванням тренду (метод Хольта)

3.5. Експонентне згладжування з урахуванням тренду та сезонних варіацій (метод Вінтерса)

3.6. Прогнозування на основі трендових моделей

3.7. Перевірка відповідності моделі

3.8. Регресійна модель прогнозу

3.9. Багатомірна регресійна модель

Бібліографія

Формула розрахунку методу експонентного згладжування в Excel

Графік експоненційного згладжування

3.4. Експонентне згладжування
з урахуванням тренду (метод Хольта)