Біографії Характеристики Аналіз

Метод експонентного згладжування формула. Метод експоненційного згладжування ковзної середньої в Excel

Завдання прогнозування побудовано зміні деяких даних у часі (продажів, попиту, поставок, ВВП, викидів вуглецю, чисельності населення…) і проектуванні цих змін у майбутнє. На жаль, виявлені на історичних даних, тренди можуть порушуватися безліччю непередбачених обставин. Так що дані в майбутньому можуть суттєво відрізнятися від того, що сталося в минулому. У цьому полягає проблема прогнозування.

Однак, існують методики (під назвою експоненційне згладжування), що дозволяють не тільки спробувати передбачити майбутнє, але й чисельно висловити невизначеність всього, що пов'язано з прогнозом. Чисельне вираження невизначеності за допомогою створення інтервалів прогнозування воістину неоціненним, але часто ігнорується в прогностичному світі.

Завантажити нотатку у форматі або , приклади у форматі

Початкові дані

Припустимо, ви фанат «Володар Перстнів», і ось уже три роки виготовляєте та торгуєте мечами (рис. 1). Відобразимо продаж графічно (рис. 2). За три роки попит подвоївся – можливо, це тренд? Ми повернемося до цієї думки трохи згодом. На графіці є кілька піків та спадів, що може бути ознакою сезонності. Зокрема, вершини припадають на місяці з номерами 12, 24 та 36, які виявляються груднями. Але чи можливо це лише випадковість? Давайте з'ясуємо.

Просте експоненційне згладжування

Методи експоненційного згладжування ґрунтуються на прогнозуванні майбутнього за даними з минулого, де нові спостереження важать більше, ніж старі. Таке зважування можливе завдяки константам згладжування. Перший метод експоненційного згладжування, який ми опробуємо, називається простим. експоненційним згладжуванням(ПЕМ, simple exponential smoothing, SES). Він використовує лише одну константу згладжування.

При простому експонентному згладжуванні передбачається, що ваш тимчасовий ряд даних складається з двох компонентів: рівня (або середнього) і якоїсь похибки навколо цього значення. Немає ніякого тренду чи сезонних коливань – є просто рівень, навколо якого коливається попит, тут і там оточений невеликими похибками. Віддаючи перевагу більш новим спостереженням, ПЕМ може стати причиною зрушень цього рівня. Говорячи мовою формул,

Попит на момент часу t = рівень + випадкова похибкабіля рівня в момент часу t

То як знайти приблизне значення рівня? Якщо прийняти всі часові значення як мають однакову цінність, слід просто обчислити їхнє середнє значення. Однак це погана ідея. Слід дати більшу вагу недавнім спостереженням.

Створимо кілька рівнів. Розрахуємо вихідний рівень першого року:

рівень 0 = середнє значення попиту перший рік (місяці 1-12)

Для попиту на мечі він дорівнює 163. Ми використовуємо рівень 0 (163) як прогноз попиту на місяць 1. Попит на місяць 1 дорівнює 165, тобто він на 2 меча вище за рівень 0 . Варто оновити наближення вихідного рівня. Рівняння простого експонентного згладжування:

рівень 1 = рівень 0 + кілька відсотків × (попит 1 – рівень 0)

рівень 2 = рівень 1 + кілька відсотків × (попит 2 – рівень 1)

І т.д. "Кілька відсотків" - називається константою згладжування, і позначається альфою. Це може бути будь-яка кількість від 0 до 100% (від 0 до 1). Вибирати значення альфи ви навчитеся пізніше. У загальному випадкузначення для різних моментів часу:

Рівень поточного періоду = рівень попереднього періоду +
альфа × (попит на поточний період – рівень попередній період)

Майбутній попит дорівнює останньому обчисленому рівню (рис. 3). Оскільки ви не знаєте, до чого дорівнює альфа, встановіть для початку в комірці С2 значення 0,5. Після того, як модель буде побудована, знайдіть таку альфа, щоб сума квадратів помилки – Е2 (або стандартне відхилення- F2) були мінімальні. Для цього запустіть опцію Пошук рішення. Для цього пройдіть по меню ДАНІ –> Пошук рішення, і встановіть у вікні Параметри пошуку рішеннянеобхідні значення (рис. 4). Щоб відобразити результати прогнозу на діаграмі, спочатку виберіть діапазон А6:В41, і побудуйте просту лінійну діаграму. Далі клацніть на діаграмі правою кнопкою миші, виберіть опцію Вибрати дані.У вікні створіть другий ряд і вставте в нього передбачення з діапазону А42: В53 (рис. 5).

Можливо, у вас є тренд

Щоб перевірити це припущення, достатньо підігнати лінійну регресіюпід дані попиту та виконати тест на відповідність критерію Стьюдента на підйомі цієї лінії тренда (як у ). Якщо ухил лінії ненульовий і статистично значущий (перевірка за критерієм Стьюдента величина рменше 0,05), дані мають тренд (рис. 6).

Ми скористалися функцією Лінейн, яка повертає 10 описових статистик(якщо ви раніше не користувалися цією функцією, рекомендую) і функцією ІНДЕКС, яка дозволяє «витягнути» лише три необхідні статистики, а не весь набір. Вийшло, що нахил дорівнює 2,54, і він значущий, оскільки тест Стьюдента показав, 0,000000012 значно менше 0,05. Отже, тренд є і залишилося включити його в прогноз.

Експонентне згладжування Холта з коригуванням тренду

Часто воно називається подвійним експонентним згладжуванням, тому що має не один параметр згладжування - альфа, а два. Якщо тимчасова послідовність має лінійний тренд, то:

попит за час t = рівень + t × тренд + випадкове відхиленнярівня в момент часу t

Експонентне згладжування Холта з коригуванням тренда має два нових рівняння, одне - для рівня в міру його просування в часі, а інше - тренд. Рівняння рівня містить параметр альфа, що згладжує, а рівняння тренду – гама. Ось як виглядає нове рівняння рівня:

рівень 1 = рівень 0 + тренд 0 + альфа × (попит 1 – (рівень 0 + тренд 0))

Зверніть увагу, що рівень 0 + тренд 0- це просто однокроковий прогноз від вихідних значень до місяця 1, тому попит 1 - (рівень 0 + тренд 0)- це однокрокове відхилення. Таким чином, основне рівняння наближення рівня буде таким:

рівень поточний період = рівень попередній період + тренд попередній період + альфа × (попит на поточний період – (рівень попередній період) + тренд попередній період))

Рівняння оновлення тренду:

тренд поточний період = тренд попередній період + гамма × альфа × (попит на поточний період – (рівень попередній період) + тренд попередній період))

Холтівське згладжування в Excel аналогічне простому згладжуванню (рис. 7), і, як і вище, мета знайти два коефіцієнти, мінімізуючи суму квадратів помилок (рис. 8). Щоб отримати вихідні значення рівня та тренду (у комірках С5 та D5 на рис. 7), побудуйте графік за перші 18 місяців продажу та додайте до нього лінію тренда з рівнянням. Вихідне значення тренда 0,8369 і вихідний рівень 155,88 занесіть у комірки С5 та D5. Прогнозні дані можна подати графічно (рис. 9).

Рис. 7. Експонентне згладжування Холта з коригуванням тренда; щоб збільшити зображення клацніть на ньому правою кнопкою миші та виберіть Відкрити картинку в новій вкладці

Виявлення закономірностей у даних

Є спосіб випробувати прогностичну модель на міцність – порівняти похибки самі із собою, зрушеними на крок (або кілька кроків). Якщо відхилення випадкові, поліпшити модель не можна. Однак, можливо, у даних про попит є сезонний фактор. Концепція похибки, що корелює зі своєю версією за інший період, називається автокореляцією (докладніше про автокореляцію див.). Щоб розрахувати автокореляцію, почніть з даних про помилку прогнозу за кожен період (стовпець F на рис. 7 переносимо в стовпець на рис. 10). Далі визначте середню помилкупрогнозу (рис. 10, осередок В39; формула в осередку: = СРЗНАЧ(B3:B38)). У стовпці З розрахуйте відхилення помилки прогнозу від середнього; формула в осередку С3: = B3-B $ 39. Далі послідовно зрушайте стовпець С на стовпець праворуч і рядок вниз. Формули в осередках D39: = СУМПРОВИЗВ ($ C3: $ C38; D3: D38), D41: = D39 / $ C39, D42: = 2 / КОРІНЬ (36), D43: = -2 / КОРІНЬ (36).

Що може означати для одного зі стовпців D:O «синхронний рух» зі стовпцем С. Наприклад, якщо стовпці С і D синхронні, то число, негативне в одному з них, має бути негативним і в іншому, позитивне в одному, позитивне - в другом. Це означає, що сума творів двох стовпців буде значною (відмінності накопичуються). Або, що те саме, чим ближче значення в діапазоні D41:О41 до нуля, тим нижче кореляція стовпця (відповідно від D до О) зі стовпцем С (рис. 11).

Одна автокореляція вища за критичне значення. Похибка, зрушена на рік, корелює сама із собою. Це означає 12-місячний сезонний цикл. І це не дивно. Якщо ви подивіться на графік попиту (рис. 2), то виявиться, що є піки попиту на кожне Різдво та провали у квітні-травні. Розглянемо техніку прогнозування, яка враховує сезонність.

Мультиплікативне експонентне згладжування Холта-Вінтерса

Метод називається мультиплікативним (від multiplicate - множити), оскільки використовує множення для врахування сезонності:

Попит у момент t = (рівень + t × тренд) × сезонна поправка для моменту t × всі нерегулярні поправки, що залишилися, які ми не можемо врахувати

Згладжування Холта-Вінтерса також називають потрійним експоненційним згладжуванням, тому що у нього три параметри, що згладжують (альфа, гама і сезонний фактор – дельта). Наприклад, якщо є 12-місячний сезонний цикл:

Прогноз на місяць 39 = (рівень 36 + 3 × тренд 36) х сезонність 27

Аналізуючи дані, необхідно з'ясувати, що у серії даних є трендом, а що – сезонністю. Щоб виконати обчислення за методом Холта-Вінтерса, необхідно:

  • Згладити історичні дані методом ковзного середнього.
  • Порівняти згладжену версію часового ряду даних із оригіналом, щоб отримати приблизну оцінку сезонності.
  • Отримати нові дані без сезонного компонента.
  • Знайти наближення рівня та тренду на основі цих нових даних.

Почніть із вихідних даних (стовпці А і В на рис. 12) і додайте стовпець З зі згладженими значеннями на основі ковзного середнього. Так як сезонність має 12-місячні цикли, є сенс використовувати середнє за 12 місяців. Із цим середнім є невелика проблема. 12 – парне число. Якщо ви згладжуєте попит за місяць 7, чи варто вважати його середнім попитом з 1-го по 12-й місяць або з 2-го по 13-й? Щоб упоратися з цією скрутою, потрібно згладити попит за допомогою «ковзного середнього 2×12». Тобто взяти половину від двох середніх з 1 по 12-й місяць і з 2 по 13. Формула в комірці С8: =(СРЗНАЧ(B3:B14)+СРЗНАЧ(B2:B13))/2.

Згладжені дані для місяців 1–6 та 31–36 отримати не можна, оскільки не вистачає попередніх та наступних періодів. Для наочності вихідні та згладжені дані можна відобразити на діаграмі (рис. 13).

Тепер у стовпці D розділіть оригінальну величину на згладжену та отримайте приблизне значення сезонної поправки (стовпець D на рис. 12). Формула в комірці D8 = B8/C8. Зверніть увагу на сплески в 20% вище за нормальний попит у місяцях 12 і 24 (грудень), у той час як навесні спостерігаються провали. Ця техніка згладжування дала вам дві точкові оцінкидля кожного місяця (всього 24 місяці). У стовпці Е знайдено середнє цих двох чинників. Формула в комірці Е1: = СРЗНАЧ(D14; D26). Для наочності рівень сезонних коливань можна уявити графічно (рис. 14).

Тепер можна отримати дані, скориговані на сезонні коливання. Формула в комірці G1 = B2/E2. Побудуйте графік на основі даних стовпця G, доповніть його лінією тренда, виведіть рівняння тренда на діаграму (рис. 15), та використовуйте коефіцієнти у наступних розрахунках.

Сформуйте новий лист, Як показано на рис. 16. Значення в діапазоні Е5:Е16 підставте з рис. 12 області Е2: Е13. Значення С16 та D16 візьміть із рівняння лінії тренду на рис. 15. Значення констант згладжування встановіть для початку на позначці 0,5. Розтягніть значення у рядку 17 на діапазон місяців з 1 до 36. Запустіть Пошук рішеннядля оптимізації коефіцієнтів згладжування (рис. 18). Формула в комірці В53: = (C $ 52 + (A53-A $ 52) * D $ 52) * E41.

Тепер у зробленому прогнозі слід перевірити автокореляції (рис. 18). Так як всі значення розташувалися між верхньою та нижньою межами, ви розумієте, що модель непогано попрацювала над розумінням структури значень попиту.

Побудова довірчого інтервалу прогнозу

Отже, ми маємо цілком робочий прогноз. Як встановити верхні та нижні межі, які можна використовувати для побудови реалістичних припущень? У цьому вам допоможе симуляція Монте-Карло, з якою ви вже зустрічалися (див. також ). Сенс полягає в тому, щоб згенерувати майбутні сценарії поведінки попиту та визначити групу, до якої потрапляють 95% із них.

Видаліть з аркуша Excel прогнозз осередків В53: В64 (див. рис. 17). Ви запишете попит на основі симуляції. Останню можна згенерувати за допомогою функції НОРМОБР. Для майбутніх місяців вам достатньо забезпечити її середнім (0), стандартним розподілом (10,37 з комірки $Н$2) та випадковим числомвід 0 до 1. Функція поверне відхилення з ймовірністю, що відповідає дзвоноподібної кривої. Помістіть симуляцію однокрокової похибки в клітинку G53: =НОРМОБР(СЛЧИС();0;H$2). Розтягнувши цю формулу вниз до G64, ви отримаєте симуляції помилки прогнозу для 12 місяців однокрокового прогнозу (рис. 19). Ваші значення симуляцій відрізнятимуться від наведених малюнку (на те вона і симуляція!).

З похибкою прогнозу у вас є все, що потрібно для оновлення рівня, тренду та сезонного коефіцієнта. Так що виділіть комірки C52:F52 і розтягніть їх до рядка 64. В результаті у вас є симульована помилка прогнозу і прогноз. Йдучи від зворотного, можна спрогнозувати значення попиту. Вставте в комірку В53 формулу: =F53+G53 і розтягніть її до В64 (рис. 20, діапазон В53:F64). Тепер ви можете натискати кнопку F9, кожен раз оновлюючи прогноз. Розмістіть результати 1000 симуляцій у осередках А71:L1070, щоразу транспонуючи значення з діапазону В53:В64 в діапазон А71:L71, A72:L72, … A1070:L1070. Якщо вас це напружує, напишіть код VBA.

Тепер у вас є по 1000 сценаріїв на кожен місяць, і ви можете використовувати функцію ПЕРСЕНТИЛЬ, щоб отримати верхні та нижні межі в середині 95% довірчого інтервалу. У комірці А66 формула: = ПЕРСЕНТИЛЬ (A71: A1070; 0,975), а в комірці А67: = ПЕРСЕНТИЛЬ (A71: A1070; 0,025).

Як завжди, для наочності дані можна подати в графічному вигляді(Рис. 21).

На графіку є два цікаві моменти:

  • Похибка згодом стає ширшою. В цьому є сенс. Невпевненість накопичується з кожним місяцем.
  • Так само похибка зростає і в частинах, що припадають на періоди сезонного підвищення попиту. З подальшим його падінням похибка стискається.

Написано за матеріалами книги Джона Формана. - М.: Альпіна Паблішер, 2016. - С. 329-381

Експонентне згладжування – більше складний методвиваженого середнього. Кожен новий прогноз ґрунтується на попередньому прогнозі плюс відсоток різниці між цим прогнозом та фактичним значенням ряду в цій точці.

F t = F t -1 + (A t -1 - F t -1) (2)

Де: F t – прогноз для періоду t

F t -1– прогноз для періоду t-1

- Константа, що згладжує

A t - 1 – фактичний попит чи продаж для періоду t-1

Константа згладжування є відсотком від помилки прогнозу. Кожен новий прогноз дорівнює попередньому прогнозу плюс відсоток попередньої помилки.

Чутливість коригування прогнозу до помилки визначена константою згладжування , що ближче її значення до 0 , то повільніше прогноз буде пристосовуватися до помилок прогнозу (тобто. більше ступіньзгладжування). Навпаки, що ближче значення до 1,0 , то вище чутливість і менше згладжування.

Вибір константи згладжування – переважно питання вільного вибору чи методу спроб і помилок. Ціль полягає в тому, щоб вибрати таку константу згладжування, щоб, з одного боку, прогноз залишився досить чутливим до реальних змінданих тимчасового ряду, з другого – добре згладжував стрибки, викликані випадковими чинниками. Значення, що зазвичай використовуються, знаходяться в діапазоні від 0,05 до 0,50.

Експоненційне згладжування – один з найбільш широко використовуваних методів прогнозування, частково через мінімальні вимоги щодо зберігання даних та легкості обчислення, а частково через ту легкість, з якою система коефіцієнтів значущості може бути змінена простою зміноюзначення.

Таблиця 3. Експонентне згладжування

Період Фактичний попит α= 0,1 α = 0,4
прогноз помилка прогноз помилка
10 000 - - - -
11 200 10 000 11 200-10 000=1 200 10 000 11 200-10 000=1 200
11 500 10 000+0,1(11 200-10 000)=10 120 11 500-10 120=1 380 10 000+0,4(11 200-10 000)=10 480 11 500-10 480=1 020
13 200 10 120+0,1(11 500-10 120)=10 258 13 200-10 258=2 942 10 480+0,4(11 500-10 480)=10 888 13 200-10 888=2 312
14 500 10 258+0,1(13 200-10 258)=10 552 14 500-10 552=3 948 10 888+0,4(13 200-10 888)=11 813 14 500-11 813=2 687
- 10 552+0,1(14 500-10 552)=10 947 - 11 813+0,4(14 500-11 813)=12 888 -



Методи тенденції

Існує два важливих методів, які можна використовувати для розробки прогнозів, коли є тенденція. Один із них передбачає використання рівняння тенденції; інший - Розширення експоненційного згладжування.

Рівняння тенденції:

Лінійне рівняннятенденції має наступний вигляд:

Y t = a + δ∙ t (3)

Де: t - Певна кількість періодів часу від t= 0;

Y t– прогноз періоду t;

α – значення Y tпри t=0

δ - Нахил лінії.

Коефіцієнти прямої α і δ , можуть бути обчислені зі статистичних даних за певний період, з використанням наступних двох рівнянь:

δ= , (4)

α = , (5)

Де: n - Число періодів,

y– значення часового ряду

Таблиця 3. Рівень тенденції.

Період (t) Рік Рівень продажу (y) t∙y t 2
10 000 10 000
11 200 22 400
11 500 34 500
13 200 52 800
14 500 72 500
Разом: - 60 400 192 200

Обчислимо коефіцієнти лінії тенденції:

δ=

Таким чином, лінія тенденції Y t = α + δ ∙ t

У нашому випадку, Y t = 43 900+1 100 ∙t,

Де t = 0для періоду 0.

Складемо рівняння для періоду 6 (2015 рік) та 7 (2016 рік):

– прогноз на 2015 рік.

Y 7 = 43 900 +1 100 * 7 = 51 600

Побудуємо графік:

Експонентне згладжування тенденцій

Різновид простого експоненційного згладжування може використовуватися, коли тимчасовий ряд виявляє тенденцію. Цей різновид називається експоненціальним згладжуванням, що враховує тенденцію або, іноді, подвійним згладжуванням. Воно відрізняється від простого експоненційного згладжування, яке використовується тільки тоді, коли дані змінюються навколо деякого середнього значення або мають стрибкоподібні або поступові зміни.

Якщо ряд виявляє тенденцію і у своїй використовується просте експоненційне згладжування, всі прогнози запізнюватимуться стосовно тенденції. Наприклад, якщо дані збільшуються, кожен прогноз буде занижений. Навпаки, зменшення даних дає підвищений прогноз. Графічне відображення даних може показати, коли подвійне згладжування буде кращим, ніж просте.

Скоригований тенденцією прогноз (TAF) складається з двох елементів: згладженої помилки та фактора тенденції.

TAF t +1 = S t + T t , (6)

Де: S t - Згладжений прогноз;

T t - Оцінка поточної тенденції

І S t = TAF t + α 1 (A t - TAF t) , (7)

T t = T t-1 + α 2 (TAF t-TAF t-1 - T t-1) (8)

Де α 1 , α 2- Константи, що згладжують.

Щоб використовувати цей метод, потрібно вибрати значення α1, α2 (звичайним шляхом підбору) і зробити початковий прогноз та оцінку тенденцій.

Таблиця 4. Експонентне згладжування тенденції.

Ковзна середня дозволяє чудово згладжувати дані. Але її головний недолік полягає в тому, що кожне значення вихідних даних для неї має однакову вагу. Наприклад, для середньої ковзної використовує період шести тижнів кожному значенню для кожного тижня приділяється 1/6 ваги. У деяких зібраних статистичних даних більш актуальним значенням надається більша вага. Тому експоненційне згладжування застосовується для того, щоб надати найактуальнішим даним більшої ваги. У такий спосіб вирішується дана статистична проблема.

Формула розрахунку методу експонентного згладжування в Excel

Нижче на малюнку зображено звіт попиту певний продукт за 26 тижнів. Стовпець «Попит» містить інформацію про кількість проданого товару. У стовпці «Прогноз» – формула:

У стовпці «Ковзна середня» визначається прогнозований попит, розрахований за допомогою звичайного обчислення ковзної середньої з періодом 6 тижнів:

В останньому стовпці «Прогноз», з описаною вище формулою, застосовується метод експоненційного згладжування даних, в яких значення останніх тижнів має більшу вагу, ніж попередніх.

Коефіцієнт "Альфа:" вводиться в осередку G1, він означає вагу присвоєння найбільш актуальним даним. У даному прикладівін має значення 30%. Інші 70% ваги розподіляється на інші дані. Тобто друге значення з точки зору актуальності (з право на ліво) має вагу рівну 30% від решти 70% ваги – це 21%, третє значення має вагу дорівнює 30% від решти 70% ваги – 14,7% і так далі .



Графік експоненційного згладжування

Нижче на малюнку зображено графік попиту, середнє ковзне та прогноз методом експоненційного згладжування, який побудований на основі вихідних значень:


Зверніть увагу, що прогноз з експоненційним згладжуванням більш активно реагує на зміни попиту, ніж ковзна середня лінія.

Дані для чергових попередніх тижнів множаться на коефіцієнт альфа, а результат додається до частини відсотків ваги, що залишилася, помножений на попереднє прогнозоване значення.

Тема 3. Згладжування та прогнозування часових рядів на основі трендових моделей

Метоювивчення даної теми є створення базової основи підготовки менеджерів зі спеціальності 080507 у галузі побудови моделей різних завдань у сфері економіки, формування у студентів систематизованого підходу до постановки та вирішення завдань прогнозування. Пропонований курс дозволить фахівцям швидше адаптуватися до практичної роботикраще орієнтуватися в науково-технічній інформації та літературі за спеціальністю, впевненіше приймати рішення, що виникають у роботі.

Основними завданнямививчення теми є: отримання студентами поглиблених теоретичних знаньщодо застосування моделей прогнозу, набуття ними стійких навичок виконання науково-дослідних робіт, уміння вирішувати складні наукові проблеми, пов'язані з побудовою моделей, включаючи і багатовимірні, здібності до логічного аналізу отриманих результатів та визначення шляхів пошуку прийнятних рішень.

Достатньо простим методомВиявлення тенденції розвитку є згладжування часового ряду, тобто заміна фактичних рівнів розрахунковими, що мають менші варіації, ніж вихідні дані. Відповідне перетворення називається фільтруванням. Розглянемо кілька способів згладжування.

3.1. Прості середні

Метою згладжування є побудова моделі прогнозування для наступних періодів, з попередніх спостережень. У методі простих середніх початкові дані приймаються значення змінної Yу моменти часу t, А прогнозне значення визначається як просте середнє на наступний часовий період. Розрахункова формуламає вигляд

де nкількість спостережень.

У разі, коли стає доступним нове спостереження, для прогнозування наступного періоду слід врахувати і отриманий прогноз. При використанні цього методу прогноз здійснюється шляхом усереднення всіх попередніх даних, проте недоліком такого прогнозування є складність його використання у трендових моделях.

3.2. Метод ковзних середніх

Даний метод заснований на поданні ряду у вигляді суми досить гладкого тренду та випадкового компонента. У основі методу лежить ідея розрахунку теоретичного значення з урахуванням локального наближення. Для побудови оцінки тренда у точці tза значеннями ряду з часового інтервалу розраховують теоретичне значення низки. Найбільшого поширенняу практиці згладжування рядів отримав випадок, коли всі ваги для елементів інтервалу рівні між собою. З цієї причини цей метод називають методом ковзних середніх,так як при виконанні процедури відбувається ковзання вікном завширшки (2 m + 1)по всьому ряду. Ширину вікна зазвичай беруть непарною, тому що теоретичне значення розраховується для центрального значення: кількість доданків k = 2m + 1з однаковим числомрівнів зліва та праворуч від моменту t.

Формула для розрахунку ковзної середньої в цьому випадку набуває вигляду:

Дисперсія ковзної середньої визначається як σ 2 /k,де через σ 2позначено дисперсію вихідних членів ряду, а kінтервал згладжування, тому чим більше інтервал згладжування, тим сильніше усереднення даних і менш мінлива тенденція, що виділяється. Найчастіше згладжування виробляють по трьох, п'яти та семи членах вихідного ряду. При цьому слід враховувати наступні особливостіковзної середньої: якщо розглянути ряд з періодичними коливаннямипостійної довжини, то при згладжуванні на основі ковзної середньої з інтервалом згладжування, рівним або кратним періоду, коливання повністю усунуться. Нерідко згладжування на основі ковзної середньої настільки сильно перетворює ряд, що виділена тенденція розвитку проявляється лише в самих загальних рисах, а дрібніші, але важливі для аналізу деталі (хвилі, вигини і т. д.) зникають; після згладжування дрібні хвилі можуть іноді поміняти напрямок на протилежний на місці «піків» з'являються «ями», і навпаки. Все це вимагає обережності у застосуванні простої ковзної середньої та змушує шукати більш тонкі методи опису.

Метод ковзних середніх не дає значень тренду для перших та останніх mчленів низки. Цей недолік особливо помітно позначається у разі, коли довжина низки невелика.

3.3. Експонентне згладжування

Експонентна середня y tє прикладом асиметричної виваженої ковзної середньої, в якій враховується ступінь старіння даних: більш «стара» інформація з меншою вагою входить до формули для розрахунку згладженого значення рівня ряду

Тут — експоненційна середня, що замінює значення ряду, що спостерігається y t(у згладжуванні беруть участь усі дані, отримані до поточному моменту t), α параметр згладжування, що характеризує вагу поточного (найновішого) спостереження; 0< α <1.

Метод застосовується для прогнозування нестаціонарних часових рядів, що мають випадкові зміни рівня та кута нахилу. У міру віддалення від поточного моменту часу в минуле вага відповідного члена ряду швидко (експоненційно) зменшується і практично перестає впливати на значення .

Легко отримати, що останнє співвідношення дозволяє дати наступну інтерпретацію експоненційної середньої: якщо — прогноз значення ряду y t, то різницю є похибка прогнозу. Таким чином, прогноз для наступного моменту часу t + 1враховує відомою в момент tпомилку прогнозу.

Параметр згладжування α є фактором, що зважує. У разі якщо α близько до одиниці, то прогнозі істотно враховується величина помилки останнього прогнозування. При малих значеннях α прогнозована величина близька до попереднього прогнозу. Вибір параметра згладжування є досить складною проблемою. Загальні міркування такі: метод хороший для прогнозування досить гладких рядів. У цьому випадку можна вибрати константу, що згладжує шляхом мінімізації помилки прогнозу на один крок вперед, оціненої по останній третині ряду. Деякі фахівці не рекомендують використовувати велике значення параметра згладжування. На рис. 3.1 показаний приклад згладженого ряду методом експоненційного згладжування при α= 0,1.

Рис. 3.1. Результат експоненційного згладжування при α =0,1
(1 | вихідний ряд; 2 | згладжений ряд; 3 | залишки)

3.4. Експонентне згладжування
з урахуванням тренду (метод Хольта)

У цьому вся методі враховується локальний лінійний тренд, наявний у часових рядах. Якщо у часових рядах є тенденція до зростання, то разом з оцінкою поточного рівня необхідна оцінка нахилу. У методиці Хольта значення рівня та нахилу згладжуються безпосередньо шляхом використання різних постійних для кожного з параметрів. Постійні згладжування дозволяють оцінити поточний рівень і нахил, уточнюючи їх щоразу з появою нових спостережень.

У методі Хольта використовуються три розрахункові формули:

  1. Експонентно згладжений ряд (оцінка поточного рівня)

(3.2)

  1. Оцінка тренду

(3.3)

  1. Прогноз на рперіодів уперед

(3.4)

де α, β Постійні згладжування з інтервалу.

Рівняння (3.2) схоже на рівняння (3.1) для простого експонентного згладжування за винятком члена, що враховує тренд. Постійна β потрібна для згладжування оцінки тренду. У рівнянні прогнозу (3.3) оцінка тренда множиться на число періодів р, який будується прогноз, та був цей твір складається з поточним рівнем згладжених даних.

Постійні α і β вибираються суб'єктивно чи шляхом мінімізації помилки прогнозування. Чим більші значення ваг будуть взяті, тим швидший відгук на зміни, що відбуваються, буде мати місце і більшому згладжуванню піддаються дані. Найменші ваги роблять структуру згладжених значень менш рівною.

На рис. 3.2 наведено приклад згладжування ряду методом Хольта при значеннях α і β , рівних 0,1.

Рис. 3.2. Результат згладжування методом Хольта
при α = 0,1 і β = 0,1

3.5. Експонентне згладжування з урахуванням тренду та сезонних варіацій (метод Вінтерса)

За наявності у структурі даних сезонних коливань зменшення помилок прогнозування використовується трипараметрична модель експоненційного згладжування, запропонована Вінтерсом. Цей підхід є розширення попередньої моделі Хольта. Для врахування сезонних варіацій тут застосовується додаткове рівняння, і цей метод описується чотирма рівняннями:

  1. Експоненційно згладжений ряд

(3.5)

  1. Оцінка тренду

(3.6)

  1. Оцінка сезонності

.

(3.7)

  1. Прогноз на рперіодів уперед

(3.8)

де α, β, γ постійні згладжування для рівня, тренду та сезонності, відповідно; s- Тривалість періоду сезонного коливання.

Рівняння (3.5) коригує згладжені ряди. У цьому рівнянні член враховує сезонність у вихідних даних. Після врахування сезонності та тренду в рівняннях (3.6), (3.7) оцінки згладжуються, а в рівнянні (3.8) робиться прогноз.

Так само, як і в попередньому способі, ваги α, β, γ можуть вибиратися суб'єктивно чи шляхом мінімізації помилки прогнозування. Перед застосуванням рівняння (3.5) необхідно визначити початкові значення для згладженого ряду L t, тренда T t, коефіцієнтів сезонності S t. Зазвичай початкове значення згладженого ряду приймається рівним першому спостереженню, тоді тренд дорівнює нулю, а коефіцієнти сезонності встановлюються рівними одиниці.

На рис. 3.3 показаний приклад згладжування ряду методом Вінтерса.

Рис. 3.3. Результат згладжування за методом Вінтерса
при α = 0,1 = 0,1; γ = 0,1(1- вихідний ряд; 2 - згладжений ряд; 3 - залишки)

3.6. Прогнозування на основі трендових моделей

Часто тимчасові ряди мають лінійну тенденцію (тренд). При припущенні лінійної тенденції потрібно побудувати пряму лінію, яка найточніше відображала зміна динаміки за аналізований період. Є кілька методів побудови прямої лінії, але найбільш об'єктивною з формальної точки зору буде побудова, заснована на мінімізації суми негативних та позитивних відхилень вихідних значень ряду від прямої лінії.

Пряму лінію у системі двох координат (х,у)можна визначити точкою перетину однієї з координат ута кутом нахилу до осі х.Рівняння такої прямої виглядатиме як де a -точка перетину; bкут нахилу.

Щоб пряма відображала хід динаміки, необхідно мінімізувати суму вертикальних відхилень. При використанні як критерій оцінки мінімізації простої суми відхилень вийде не дуже хороший результат, оскільки негативні та позитивні відхилення взаємно компенсують один одного. Мінімізація суми абсолютних значень також не призводить до задовільних результатів, оскільки оцінки параметрів у цьому випадку нестійкі, є обчислювальні труднощі при реалізації такої процедури оцінювання. Тому найбільш часто використовуваною процедурою є мінімізація суми квадратів відхилень або метод найменших квадратів(МНК).

Оскільки ряд вихідних значень має коливання, модель ряду міститиме помилки, квадрати яких треба мінімізувати

де y i | спостерігається значення; y i * теоретичні значення моделі; номер спостереження.

При моделюванні тенденції вихідного часового ряду за допомогою лінійного тренду приймемо, що

Поділивши перше рівняння на n, приходимо до наступного

Підставивши отриманий вираз у друге рівняння системи (3.10) для коефіцієнта b *отримаємо:

3.7. Перевірка відповідності моделі

Як приклад на рис. 3.4 наведено графік лінійної регресії між потужністю автомобіля хта його вартістю у.

Рис. 3.4. Графік лінійної регресії

Рівняння для цього випадку має вигляд: у=1455,3 + 13,4 х. Візуальний аналіз цього малюнка показує, що з низки спостережень є значні відхилення від теоретичної кривої. Графік залишків показано на рис. 3.5.

Рис. 3.5. Графік залишків

Аналіз залишків лінії регресії може бути корисною мірою того, наскільки оцінена регресія відображає реальні дані. Добра регресія та, яка пояснює значну частку дисперсії і, навпаки, погана регресія не відслідковує велику величину коливань вихідних даних. Інтуїтивно ясно, що будь-яка додаткова інформація дозволить покращити модель, тобто зменшити незрозумілу частку змінної варіації. у. Для аналізу регресійної проведемо розкладання дисперсії на складові. Очевидно, що

Останнє доданок дорівнюватиме нулю, тому що являє собою суму залишків, тому приходимо до наступного результату

де SS 0, SS 1, SS 2визначають відповідно загальну, регресійну та залишкову суми квадратів.

Регресійна сума квадратів вимірює частину дисперсії, що пояснюється лінійною залежністю; залишкова частина дисперсії, не пояснювану лінійною залежністю.

Кожна з цих сум характеризується відповідним числом ступенів свободи (ЧСС), що визначає кількість одиниць даних, незалежних один від одного. Інакше висловлюючись, ЧСС пов'язані з кількістю спостережень nі числом даних параметрів, що обчислюються за сукупністю. У цьому випадку для розрахунку SS 0 визначається лише одна постійна (середнє значення), отже ЧСС для SS 0 складе (n1), ЧСС для SS 2 – (n – 2)та ЧСС для SS 1складе n - (n - 1) = 1, Оскільки у рівнянні регресії є n – 1 постійних точок. Як і суми квадратів, ЧСС пов'язані співвідношенням

Суми квадратів, пов'язані з розкладанням дисперсії, разом із відповідними ЧСС можуть бути розміщені в так званій таблиці аналізу дисперсій (таблиця ANOVA ANalysis Of VAriance) (табл. 3.1).

Таблиця 3.1

Таблиця ANOVA

Джерело

Сума квадратів

Середній квадрат

Регресія

SS 2/(n-2)

За допомогою введеної абревіатури для сум квадратів визначимо коефіцієнт детермінаціїяк відношення суми квадратів регресії до загальної суми квадратів у вигляді

(3.13)

Коефіцієнт детермінації вимірює частку мінливості змінної Y, яку можна пояснити за допомогою інформації про мінливість незалежної змінної X.Коефіцієнт детермінації змінюється від нуля, коли Хне впливає на Y,до одиниці, коли зміна Yповністю пояснюється зміною X.

3.8. Регресійна модель прогнозу

Найкращим вважається прогноз, що має мінімальну дисперсію. У разі звичайний МНК виробляє найкращий прогноз із усіх методів, дають несмещенные оцінки з урахуванням лінійних рівнянь. Помилка прогнозу, пов'язана з процедурою прогнозування, може йти від чотирьох джерел.

По-перше, випадкова природа адитивних помилок, що обробляються лінійною регресією, гарантує, що прогноз відхилятиметься від справжніх величин навіть якщо модель правильно специфікована та її параметри точно відомі.

По-друге, сам процес оцінки вносить помилку в оцінку параметрів - вони рідко можуть дорівнювати істинним значенням, хоча рівні їм в середньому.

По-третє, у разі умовного прогнозу (у разі невідомих точно значень незалежних змінних) помилка вноситься з прогнозом змінних, що пояснюють.

По-четверте, помилка може виникнути через те, що специфікація моделі неточна.

У результаті джерела помилки можна класифікувати наступним чином:

  1. природа змінної;
  2. природа моделі;
  3. помилка, яка вноситься прогнозом незалежних випадкових величин;
  4. помилка специфікації.

Розглядатимемо безумовний прогноз, коли незалежні змінні легко і точно прогнозуються. Розпочнемо розгляд проблеми якості прогнозу з рівняння парної регресії.

Постановку завдання у разі можна сформулювати так: яким буде найкращий прогноз y T+1 за умови, що у моделі y = a + bxпараметри аі bоцінені точно, а значення x T+1¦ відомо.

Тоді прогнозне значення можна визначити як

Помилка прогнозу при цьому становитиме

.

Помилка прогнозу має дві властивості:

Отримана дисперсія мінімальна серед усіх можливих оцінок, що ґрунтуються на лінійних рівняннях.

Хоча ата b відомі, помилка прогнозу з'являється за рахунок того, що у T+1може не лежати на лінії регресії через помилку ε T+1, що підпорядковується нормальному розподілу з нульовим середнім та дисперсією σ 2. Для перевірки якості прогнозу введемо нормалізовану величину

Тоді можна визначити 95% довірчий інтервал у наступному вигляді:

де β 0,05квантили нормального розподілу.

Межі 95% інтервалу можна визначити як

Зазначимо, що у цьому випадку ширина довірчого інтервалуне залежить від величини х,і межі інтервалу є прямі лінії, паралельні лінії регресії.

Найчастіше при побудові лінії регресії та перевірці якості прогнозу треба оцінювати як параметри регресії, а й дисперсію помилки прогнозу. Можна показати, що в цьому випадку дисперсія помилки залежить від величини (), де середнє значення незалежної змінної. Крім того, що більша довжина ряду, то точніше прогноз. Помилка прогнозу зменшується, якщо значення X T+1 близьке до середньої величини незалежної змінної, і навпаки, при віддаленні від середнього значення прогноз стає менш точним. На рис. 3.6 показані результати прогнозу за допомогою рівняння лінійної регресії на 6 інтервалів часу вперед разом із довірчими інтервалами.

Рис. 3.6. Прогноз щодо рівняння лінійної регресії

Як видно із рис. 3.6, ця лінія регресії недостатньо добре описує вихідні дані: спостерігається велика варіація щодо підгонки прямий. Про якість моделі можна судити також щодо залишків, які за задовільної моделі мають бути розподілені приблизно за нормальним законом. На рис. 3.7 наведено графік залишків, побудований за допомогою ймовірнісної шкали.

Рис.3.7. Графік залишків

При використанні такої шкали дані, що підпорядковуються нормальному закону, мають лежати прямої лінії. Як випливає з наведеного малюнка, точки на початку і в кінці періоду спостережень дещо відхиляються від прямої лінії, що свідчить про недостатньо високу якість обраної моделі у вигляді рівняння лінійної регресії.

У табл. 3.2 наведено результати прогнозу (друга колонка) разом з довірчими 95%-ними інтервалами (нижнім третя і верхнім четверта колонки відповідно).

Таблиця 3.2

Результати прогнозу

3.9. Багатомірна регресійна модель

При багатовимірній регресії дані кожного випадку включають значення залежної змінної і кожної незалежної змінної. Залежна змінна yЦе випадкова величина, пов'язана з незалежними змінними наступним співвідношенням:

де коефіцієнти регресії, що підлягають визначенню; ε компонент помилки, що відповідає відхиленню значень залежної змінної від істинного співвідношення (передбачається, що помилки незалежні і мають нормальний розподіл з нульовим математичним очікуванням та невідомою дисперсією σ ).

Для заданого набору даних оцінки коефіцієнтів регресії можна знайти з допомогою МНК. Якщо оцінки МНК позначити через , то відповідна функція регресії матиме вигляд:

Залишки є оцінками компонента помилки і подібні до залишків у разі простої лінійної регресії.

Статистичний аналіз моделі багатовимірної регресії проводиться аналогічно до аналізу простої лінійної регресії. Стандартні пакети статистичних програм дозволяють отримати оцінки МНК для параметрів моделі, оцінки їх стандартних помилок. Крім того, можна отримати значення t-статистики для перевірки значимості окремих доданків регресійної моделі та величину F-Статистики для перевірки значущості регресійної залежності.

Форма розбиття сум квадратів у разі багатовимірної регресії аналогічна виразу (3.13), але співвідношення для ЧСС буде наступним

Наголосимо ще раз, що nявляє собою обсяг спостережень, а kчисло змінних у моделі. Загальна варіація залежної змінної і двох складових: варіації, поясненої незалежними змінними через функцію регресії, і непоясненої варіації.

Таблиця ANOVA для випадку багатовимірної регресії матиме вигляд, показаний у табл. 3.3.

Таблиця 3.3

Таблиця ANOVA

Джерело

Сума квадратів

Середній квадрат

Регресія

SS 2/(n-k-1)

Як приклад багатовимірної регресії скористаємося даними з пакета Statistica (файл даних Poverty.Sta)Наведені дані засновані на порівнянні результатів перепису 1960 та 1970 рр. для випадкової вибірки із 30 країн. Назви країн були введені як назви рядків, а назви всіх змінних цього файлу наведені нижче:

POP_CHNG зміна населення за 1960-1970 рр.;

N_EMPLD кількість людей, зайнятих у сільському господарстві;

PT_POOR - відсоток сімей, які живуть нижче рівня бідності;

TAX_RATE ставка податку;

PT_PHONE - відсоток квартир з телефоном;

PT_RURAL - відсоток сільського населення;

AGE - середній вік.

Як залежна змінна виберемо ознаку Pt_Poor, а як незалежні - всі інші. Розраховані коефіцієнти регресії між виділеними змінними наведено у табл. 3.4

Таблиця 3.4

Регресійні коефіцієнти

Ця таблиця показує регресійні коефіцієнти ( У) та стандартизовані регресійні коефіцієнти ( Beta). За допомогою коефіцієнтів Увстановлюється вид рівняння регресії, яке в даному випадку має вигляд:

Включення до правої частини цих змінних обумовлено тим, що ці ознаки мають значення ймовірності рменше, ніж 0,05 (див. четвертий стовпець табл. 3.4).

Бібліографія

  1. Басовський Л. Є.Прогнозування та планування в умовах ринку. - М.: Інфра - М, 2003.
  2. Бокс Дж., Дженкінс Р.Аналіз часових рядів. Вип.1. Прогноз та управління. - М.: Світ, 1974.
  3. Боровіков В. П., Івченко Г. І.Прогнозування в системі Statistica у середовищі Windows. - М.: Фінанси та статистика, 1999.
  4. Дюк Ст.Обробка даних на ПК у прикладах. - СПб.: Пітер, 1997.
  5. Івченко Б. П., Мартищенко Л. А., Іванцов І. Б.Інформаційна мікроекономіка. Частина 1. Методи аналізу та прогнозування. - СПб.: Нордмед-Іздат, 1997.
  6. Кричевський М. Л.Введення в штучні нейронні мережі: Навч. допомога. - СПб.: СПб. держ. морський техн. ун-т, 1999.
  7. Сошникова Л. А., Тамашевіч Ст Н., Уебе Г. та ін.Багатомірний статистичний аналіз економіки. - М.: Юніті-Дана, 1999.

Виявлення та аналіз тенденції часового ряду часто проводиться за допомогою його вирівнювання чи згладжування. Експоненційне згладжування - один із найпростіших і найпоширеніших прийомів вирівнювання ряду. Експонентне згладжування можна представити як фільтр, на вхід якого послідовно надходять члени вихідного ряду, а на виході формуються поточні значення експоненційної середньої.

Нехай – тимчасовий ряд.

Експоненційне згладжування ряду здійснюється за рекурентною формулою: , .

Чим менше α, тим більше фільтруються, пригнічуються коливання вихідного ряду і шуму.

Якщо послідовно використовувати рекурентне це співвідношення, то експоненційну середню можна виразити через значення часового ряду X.

Якщо на момент початку згладжування існують більш ранні дані, то як початкове значення можна використовувати арифметичну середню всіх наявних даних або якоїсь їх частини.

Після появи робіт Р. Брауна експоненційне згладжування часто використовується на вирішення завдання короткострокового прогнозування часових рядів.

Постановка задачі

Нехай заданий часовий ряд: .

Необхідно вирішити завдання прогнозування часової низки, тобто. знайти

Горизонт прогнозування, необхідно, щоб

Для того, щоб враховувати старіння даних, введемо незростаючу послідовність ваг

Модель Брауна

Припустимо, що D - невеликий (короткостроковий прогноз), то для вирішення такого завдання використовують модель Брауна.

Якщо розглядати прогноз на 1 крок уперед, то – похибка цього прогнозу, а новий прогноз виходить у результаті коригування попереднього прогнозу з урахуванням його помилки – суть адаптації.

При короткостроковому прогнозуванні бажано якнайшвидше відобразити нові зміни і водночас якнайкраще «очистити» ряд від випадкових коливань. Т.о. слід збільшувати вагу свіжіших спостережень: .

З іншого боку, для згладжування випадкових відхилень, потрібно зменшити: .

Т.о. ці дві вимоги перебувають у протиріччі. Пошук компромісного значення становить завдання оптимізації моделі. Зазвичай α беруть з інтервалу (0,1/3).

Приклади

Робота експоненційного згладжування при α=0.2 на даних щомісячних звітів з продажу іноземної автомобільної марки в Росії за період з січня 2007 по жовтень 2008 р. Відзначимо різкі падіння в січні та лютому, коли продажі традиційно знижуються і підвищення на початку літа.

Проблеми

Модель працює лише за невеликого горизонту прогнозування. Не враховуються тренд та сезонні зміни. Щоб врахувати їх вплив, пропонується використовувати моделі: Хольта (враховується лінійний тренд) Хольта-Уінтерса (мультиплікативні експоненційний тренд та сезонність), Тейла-Вейджа (віддітивні лінійний тренд та сезонність).