Біографії Характеристики Аналіз

Як працює експонентний метод згладжування. Метод експоненційного згладжування

Завдання прогнозування побудовано зміні деяких даних у часі (продажів, попиту, поставок, ВВП, викидів вуглецю, чисельності населення…) і проектуванні цих змін у майбутнє. На жаль, виявлені на історичних даних, тренди можуть порушуватися безліччю непередбачених обставин. Так що дані в майбутньому можуть суттєво відрізнятися від того, що сталося в минулому. У цьому полягає проблема прогнозування.

Однак, існують методики (під назвою експоненційне згладжування), що дозволяють не тільки спробувати передбачити майбутнє, але й чисельно висловити невизначеність всього, що пов'язано з прогнозом. Чисельне вираження невизначеності за допомогою створення інтервалів прогнозування воістину неоціненним, але часто ігнорується в прогностичному світі.

Завантажити нотатку у форматі або , приклади у форматі

Вихідні дані

Припустимо, ви фанат «Володар Перстнів», і ось уже три роки виготовляєте та торгуєте мечами (рис. 1). Відобразимо продаж графічно (рис. 2). За три роки попит подвоївся – можливо, це тренд? Ми повернемося до цієї думки трохи згодом. На графіці є кілька піків та спадів, що може бути ознакою сезонності. Зокрема, вершини припадають на місяці з номерами 12, 24 та 36, які виявляються груднями. Але чи можливо це лише випадковість? Давайте з'ясуємо.

Просте експоненційне згладжування

Методи експоненційного згладжуванняґрунтуються на прогнозуванні майбутнього за даними з минулого, де нові спостереження важать більше, ніж старі. Таке зважування можливе завдяки константам згладжування. Перший метод експоненційного згладжування, який ми опробуємо, називається простим експоненційним згладжуванням (ПЕМ, simple exponential smoothing, SES). Він використовує лише одну константу згладжування.

При простому експонентному згладжуванні передбачається, що ваш тимчасовий ряд даних складається з двох компонентів: рівня (або середнього) і якоїсь похибки навколо цього значення. Немає ніякого тренду чи сезонних коливань – є просто рівень, навколо якого коливається попит, тут і там оточений невеликими похибками. Віддаючи перевагу більш новим спостереженням, ПЕМ може стати причиною зрушень цього рівня. Говорячи мовою формул,

Попит на момент часу t = рівень + випадкова похибкабіля рівня в момент часу t

То як знайти приблизне значення рівня? Якщо прийняти всі часові значення як мають однакову цінність, слід просто обчислити їхнє середнє значення. Однак це погана ідея. Слід дати більшу вагу недавнім спостереженням.

Створимо кілька рівнів. Розрахуємо вихідний рівень першого року:

рівень 0 = середнє значення попиту перший рік (місяці 1-12)

Для попиту на мечі він дорівнює 163. Ми використовуємо рівень 0 (163) як прогноз попиту на місяць 1. Попит на місяць 1 дорівнює 165, тобто він на 2 меча вище за рівень 0 . Варто оновити наближення вихідного рівня. Рівняння простого експонентного згладжування:

рівень 1 = рівень 0 + кілька відсотків × (попит 1 – рівень 0)

рівень 2 = рівень 1 + кілька відсотків × (попит 2 – рівень 1)

І т.д. "Кілька відсотків" - називається константою згладжування, і позначається альфою. Це може бути будь-яка кількість від 0 до 100% (від 0 до 1). Вибирати значення альфи ви навчитеся пізніше. У загальному випадкузначення для різних моментів часу:

Рівень поточного періоду = рівень попереднього періоду +
альфа × (попит на поточний період – рівень попередній період)

Майбутній попит дорівнює останньому обчисленому рівню (рис. 3). Оскільки ви не знаєте, до чого дорівнює альфа, встановіть для початку в комірці С2 значення 0,5. Після того, як модель буде побудована, знайдіть таку альфа, щоб сума квадратів помилки – Е2 (або стандартне відхилення- F2) були мінімальні. Для цього запустіть опцію Пошук рішення. Для цього пройдіть по меню ДАНІ –> Пошук рішення, і встановіть у вікні Параметри пошуку рішеннянеобхідні значення (рис. 4). Щоб відобразити результати прогнозу на діаграмі, спочатку виберіть діапазон А6:В41, і побудуйте просту лінійну діаграму. Далі клацніть на діаграмі правою кнопкою миші, виберіть опцію Вибрати дані.У вікні створіть другий ряд і вставте в нього передбачення з діапазону А42: В53 (рис. 5).

Можливо, у вас є тренд

Щоб перевірити це припущення, достатньо підігнати лінійну регресіюпід дані попиту та виконати тест на відповідність критерію Стьюдента на підйомі цієї лінії тренда (як у ). Якщо ухил лінії ненульовий і статистично значущий (перевірка за критерієм Стьюдента величина рменше 0,05), дані мають тренд (рис. 6).

Ми скористалися функцією Лінейн, яка повертає 10 описових статистик(якщо ви раніше не користувалися цією функцією, рекомендую) і функцією ІНДЕКС, яка дозволяє «витягнути» лише три необхідні статистики, а не весь набір. Вийшло, що нахил дорівнює 2,54, і він значущий, оскільки тест Стьюдента показав, 0,000000012 значно менше 0,05. Отже, тренд є і залишилося включити його в прогноз.

Експонентне згладжування Холта з коригуванням тренду

Часто воно називається подвійним експонентним згладжуванням, тому що має не один параметр згладжування - альфа, а два. Якщо тимчасова послідовність має лінійний тренд, то:

попит за час t = рівень + t × тренд + випадкове відхиленнярівня в момент часу t

Експонентне згладжування Холта з коригуванням тренда має два нових рівняння, одне - для рівня в міру його просування в часі, а інше - тренд. Рівняння рівня містить параметр альфа, що згладжує, а рівняння тренду – гама. Ось як виглядає нове рівняння рівня:

рівень 1 = рівень 0 + тренд 0 + альфа × (попит 1 – (рівень 0 + тренд 0))

Зверніть увагу, що рівень 0 + тренд 0- це просто однокроковий прогноз від вихідних значень до місяця 1, тому попит 1 - (рівень 0 + тренд 0)- це однокрокове відхилення. Таким чином, основне рівняння наближення рівня буде таким:

рівень поточний період = рівень попередній період + тренд попередній період + альфа × (попит на поточний період – (рівень попередній період) + тренд попередній період))

Рівняння оновлення тренду:

тренд поточний період = тренд попередній період + гамма × альфа × (попит на поточний період – (рівень попередній період) + тренд попередній період))

Холтівське згладжування в Excel аналогічне простому згладжуванню (рис. 7), і, як і вище, мета знайти два коефіцієнти, мінімізуючи суму квадратів помилок (рис. 8). Щоб отримати вихідні значення рівня та тренду (у комірках С5 та D5 на рис. 7), побудуйте графік за перші 18 місяців продажу та додайте до нього лінію тренда з рівнянням. Вихідне значення тренда 0,8369 і вихідний рівень 155,88 занесіть у комірки С5 та D5. Прогнозні дані можна подати графічно (рис. 9).

Мал. 7. Експонентне згладжування Холта з коригуванням тренда; щоб збільшити зображення клацніть на ньому правою кнопкою миші та виберіть Відкрити картинку в новій вкладці

Виявлення закономірностей у даних

Є спосіб випробувати прогностичну модель на міцність – порівняти похибки самі із собою, зрушеними на крок (або кілька кроків). Якщо відхилення випадкові, поліпшити модель не можна. Однак, можливо, у даних про попит є сезонний фактор. Концепція похибки, що корелює зі своєю версією за інший період, називається автокореляцією (докладніше про автокореляцію див.). Щоб розрахувати автокореляцію, почніть з даних про помилку прогнозу за кожен період (стовпець F на рис. 7 переносимо в стовпець на рис. 10). Далі визначте середню помилкупрогнозу (рис. 10, осередок В39; формула в осередку: = СРЗНАЧ(B3:B38)). У стовпці З розрахуйте відхилення помилки прогнозу від середнього; формула в осередку С3: = B3-B $ 39. Далі послідовно зрушайте стовпець С на стовпець праворуч і рядок вниз. Формули в осередках D39: = СУМПРОВИЗВ ($ C3: $ C38; D3: D38), D41: = D39 / $ C39, D42: = 2 / КОРІНЬ (36), D43: = -2 / КОРІНЬ (36).

Що може означати для одного зі стовпців D:O «синхронний рух» зі стовпцем С. Наприклад, якщо стовпці С і D синхронні, то число, негативне в одному з них, має бути негативним і в іншому, позитивне в одному, позитивне - в другом. Це означає, що сума творів двох стовпців буде значною (відмінності накопичуються). Або, що те саме, чим ближче значення в діапазоні D41:О41 до нуля, тим нижче кореляція стовпця (відповідно від D до О) зі стовпцем С (рис. 11).

Одна автокореляція вища за критичне значення. Похибка, зрушена на рік, корелює сама із собою. Це означає 12-місячний сезонний цикл. І це не дивно. Якщо ви подивіться на графік попиту (рис. 2), то виявиться, що є піки попиту на кожне Різдво та провали у квітні-травні. Розглянемо техніку прогнозування, яка враховує сезонність.

Мультиплікативне експонентне згладжування Холта-Вінтерса

Метод називається мультиплікативним (від multiplicate - множити), оскільки використовує множення для врахування сезонності:

Попит у момент t = (рівень + t × тренд) × сезонна поправка для моменту t × всі нерегулярні поправки, що залишилися, які ми не можемо врахувати

Згладжування Холта-Вінтерса також називають потрійним експоненційним згладжуванням, тому що у нього три параметри, що згладжують (альфа, гама і сезонний фактор – дельта). Наприклад, якщо є 12-місячний сезонний цикл:

Прогноз на місяць 39 = (рівень 36 + 3 × тренд 36) х сезонність 27

Аналізуючи дані, необхідно з'ясувати, що у серії даних є трендом, а що – сезонністю. Щоб виконати обчислення за методом Холта-Вінтерса, необхідно:

  • Згладити історичні дані методом ковзного середнього.
  • Порівняти згладжену версію часового ряду даних із оригіналом, щоб отримати приблизну оцінку сезонності.
  • Отримати нові дані без сезонного компонента.
  • Знайти наближення рівня та тренду на основі цих нових даних.

Почніть із вихідних даних (стовпці А і В на рис. 12) і додайте стовпець З зі згладженими значеннями на основі ковзного середнього. Так як сезонність має 12-місячні цикли, є сенс використовувати середнє за 12 місяців. Із цим середнім є невелика проблема. 12 – парне число. Якщо ви згладжуєте попит за місяць 7, чи варто вважати його середнім попитом з 1-го по 12-й місяць або з 2-го по 13-й? Щоб упоратися з цією скрутою, потрібно згладити попит за допомогою «ковзного середнього 2×12». Тобто взяти половину від двох середніх з 1 по 12-й місяць і з 2 по 13. Формула в комірці С8: =(СРЗНАЧ(B3:B14)+СРЗНАЧ(B2:B13))/2.

Згладжені дані для місяців 1–6 та 31–36 отримати не можна, оскільки не вистачає попередніх та наступних періодів. Для наочності вихідні та згладжені дані можна відобразити на діаграмі (рис. 13).

Тепер у стовпці D розділіть оригінальну величину на згладжену та отримайте приблизне значення сезонної поправки (стовпець D на рис. 12). Формула в комірці D8 = B8/C8. Зверніть увагу на сплески в 20% вище за нормальний попит у місяцях 12 і 24 (грудень), у той час як навесні спостерігаються провали. Ця техніка згладжування дала вам дві точкові оцінкидля кожного місяця (всього 24 місяці). У стовпці Е знайдено середнє цих двох чинників. Формула в комірці Е1: = СРЗНАЧ(D14; D26). Для наочності рівень сезонних коливань можна уявити графічно (рис. 14).

Тепер можна отримати дані, скориговані на сезонні коливання. Формула в комірці G1 = B2/E2. Побудуйте графік на основі даних стовпця G, доповніть його лінією тренда, виведіть рівняння тренда на діаграму (рис. 15), та використовуйте коефіцієнти у наступних розрахунках.

Сформуйте новий лист, Як показано на рис. 16. Значення в діапазоні Е5:Е16 підставте з рис. 12 області Е2: Е13. Значення С16 та D16 візьміть із рівняння лінії тренду на рис. 15. Значення констант згладжування встановіть для початку на позначці 0,5. Розтягніть значення у рядку 17 на діапазон місяців з 1 до 36. Запустіть Пошук рішеннядля оптимізації коефіцієнтів згладжування (рис. 18). Формула в комірці В53: = (C $ 52 + (A53-A $ 52) * D $ 52) * E41.

Тепер у зробленому прогнозі слід перевірити автокореляції (рис. 18). Так як всі значення розташувалися між верхньою та нижньою межами, ви розумієте, що модель непогано попрацювала над розумінням структури значень попиту.

Побудова довірчого інтервалу прогнозу

Отже, ми маємо цілком робочий прогноз. Як встановити верхні та нижні межі, які можна використовувати для побудови реалістичних припущень? У цьому вам допоможе симуляція Монте-Карло, з якою ви вже зустрічалися (див. також ). Сенс полягає в тому, щоб згенерувати майбутні сценарії поведінки попиту та визначити групу, до якої потрапляють 95% із них.

Видаліть з аркуша Excel прогнозз осередків В53: В64 (див. рис. 17). Ви запишете попит на основі симуляції. Останню можна згенерувати за допомогою функції НОРМОБР. Для майбутніх місяців вам достатньо забезпечити її середнім (0), стандартним розподілом (10,37 з комірки $Н$2) та випадковим числомвід 0 до 1. Функція поверне відхилення з ймовірністю, що відповідає дзвоноподібної кривої. Помістіть симуляцію однокрокової похибки в клітинку G53: =НОРМОБР(СЛЧИС();0;H$2). Розтягнувши цю формулу вниз до G64, ви отримаєте симуляції помилки прогнозу для 12 місяців однокрокового прогнозу (рис. 19). Ваші значення симуляцій відрізнятимуться від наведених малюнку (на те вона і симуляція!).

З похибкою прогнозу у вас є все, що потрібно для оновлення рівня, тренду та сезонного коефіцієнта. Так що виділіть комірки C52:F52 і розтягніть їх до рядка 64. В результаті у вас є симульована помилка прогнозу і прогноз. Йдучи від зворотного, можна спрогнозувати значення попиту. Вставте в комірку В53 формулу: =F53+G53 і розтягніть її до В64 (рис. 20, діапазон В53:F64). Тепер ви можете натискати кнопку F9, кожен раз оновлюючи прогноз. Розмістіть результати 1000 симуляцій у осередках А71:L1070, щоразу транспонуючи значення з діапазону В53:В64 в діапазон А71:L71, A72:L72, … A1070:L1070. Якщо вас це напружує, напишіть код VBA.

Тепер у вас є по 1000 сценаріїв на кожен місяць, і ви можете використовувати функцію ПЕРСЕНТИЛЬ, щоб отримати верхні та нижні межі в середині 95% довірчого інтервалу. У комірці А66 формула: = ПЕРСЕНТИЛЬ (A71: A1070; 0,975), а в комірці А67: = ПЕРСЕНТИЛЬ (A71: A1070; 0,025).

Як завжди, для наочності дані можна подати в графічному вигляді(Рис. 21).

На графіку є два цікаві моменти:

  • Похибка згодом стає ширшою. В цьому є сенс. Невпевненість накопичується з кожним місяцем.
  • Так само похибка зростає і в частинах, що припадають на періоди сезонного підвищення попиту. З подальшим його падінням похибка стискається.

Написано за матеріалами книги Джона Формана. - М.: Альпіна Паблішер, 2016. - С. 329-381

Ковзна середня дозволяє чудово згладжувати дані. Але її головний недолік полягає в тому, що кожне значення вихідних даних для неї має однакову вагу. Наприклад, для середньої ковзної використовує період шести тижнів кожному значенню для кожного тижня приділяється 1/6 ваги. У деяких зібраних статистичних даних більш актуальним значенням надається більша вага. Тому експоненційне згладжування застосовується для того, щоб надати найактуальнішим даним більшої ваги. У такий спосіб вирішується дана статистична проблема.

Формула розрахунку методу експонентного згладжування в Excel

Нижче на малюнку зображено звіт попиту певний продукт за 26 тижнів. Стовпець «Попит» містить інформацію про кількість проданого товару. У стовпці «Прогноз» – формула:

У стовпці «Ковзна середня» визначається прогнозований попит, розрахований за допомогою звичайного обчислення ковзної середньої з періодом 6 тижнів:

В останньому стовпці «Прогноз», з описаною вище формулою, застосовується метод експоненційного згладжування даних, в яких значення останніх тижнів має більшу вагу, ніж попередніх.

Коефіцієнт "Альфа:" вводиться в осередку G1, він означає вагу присвоєння найбільш актуальним даним. У даному прикладівін має значення 30%. Інші 70% ваги розподіляється на інші дані. Тобто друге значення з точки зору актуальності (з право на ліво) має вагу рівну 30% від решти 70% ваги – це 21%, третє значення має вагу дорівнює 30% від решти 70% ваги – 14,7% і так далі .



Графік експоненційного згладжування

Нижче на малюнку зображено графік попиту, середнє ковзне та прогноз методом експоненційного згладжування, який побудований на основі вихідних значень:


Зверніть увагу, що прогноз з експоненційним згладжуванням більш активно реагує на зміни попиту, ніж ковзна середня лінія.

Дані для чергових попередніх тижнів множаться на коефіцієнт альфа, а результат додається до частини відсотків ваги, що залишилася, помножений на попереднє прогнозоване значення.

9 5. Метод експоненційного згладжування. Вибір постійного згладжування

При використанні методу найменших квадратівдля визначення прогнозної тенденції (тренду) заздалегідь припускають, що всі ретроспективні дані (спостереження) мають однакову інформативність. Очевидно, логічніше було б врахувати процес дисконтування вихідної інформаціїтобто нерівноцінність цих даних для розробки прогнозу. Це досягається в методі експоненційного згладжування шляхом надання останнім спостереження динамічного ряду (тобто значенням, що безпосередньо передували періоду попередження прогнозу) більш значних «ваг» порівняно з початковими спостереженнями. До переваг методу експоненційного згладжування слід також віднести простоту обчислювальних операцій та гнучкість опису різних динаміків процесу. Найбільше застосування метод знайшов реалізації середньострокових прогнозів .

5.1. Сутність методу експоненційного згладжування

Сутність методу полягає в тому, що динамічний рядзгладжується за допомогою виваженої «ковзної середньої», в якій ваги підпорядковуються експоненційному закону. Іншими словами, чим далі від кінця часового ряду відстає точка, для якої обчислюється зважена середня ковзна, тим менше «участі вона бере» у розробці прогнозу.

Нехай вихідний динамічний ряд складається з рівнів (складових ряду) yt, t = 1, 2, ..., n. Для кожних послідовних рівнів цього ряду

(m

динамічному ряду з кроком, що дорівнює одиниці. Якщо m – непарне число, а переважно брати непарне число рівнів, оскільки в цьому випадку розрахункове значення рівня опиниться в центрі інтервалу згладжування і їм легко замінити фактичне значення, то для визначення ковзної середньої можна записати таку формулу:

t+ ξ

t+ ξ

∑ y i

∑ y i

i= t− ξ

i= t− ξ

2ξ + 1

де y t - значення ковзної середньої для моменту t (t = 1, 2, ..., n); y i - фактичне значення рівня в момент i;

i – порядковий номер рівня інтервалу згладжування.

Величина ξ визначається із тривалості інтервалу згладжування.

Оскільки

m =2 ξ +1

при непарному m , то

ξ = m 2 − 1 .

Розрахунок ковзної середньої при великій кількості рівнів можна спростити, визначаючи послідовні значення ковзної середньої рекурсивно:

y t= y t− 1 +

yt + ξ

− y t − (ξ + 1 )

2ξ + 1

Але виходячи з того, що останнім спостереженням необхідно надати більшу «вагу», ковзне середнє потребує іншого тлумачення. Воно у тому, що отримана з допомогою усереднення величина замінює не центральний член інтервалу усереднення, яке останній член. Відповідно до цього останній вираз можна переписати у вигляді

Mi = Mi + 1

y i− y i− m

Тут ковзна середня, що відноситься до кінця інтервалу, позначена новим символом M i . По суті, Mi рівноy t , зсунутому на кроків вправо, тобто Mi = y t + ξ , де i = t + ξ .

Враховуючи, що M i − 1 є оцінкою величини y i − m , вираз (5.1)

можна переписати у вигляді

y i+ 1

M i − 1 ,

M i , що визначається виразом (5.1).

де M i є оцінкою

Якщо обчислення (5.2) повторювати у міру надходження нової інформації

і переписати в іншому вигляді, то отримаємо згладжену функцію спостережень:

Q i = α y i+ (1 − α ) Q i− 1 ,

або в еквівалентній формі

Q t= α y t+ (1 − α ) Q t− 1

Обчислення, що проводяться за виразом (5.3) з кожним новим спостереженням, називають експоненційним згладжуванням. В останньому виразі для відмінності експоненційного згладжування від ковзного середнього введено позначення Q замість M. Величинаα

аналогом m 1 називається постійною згладжування. Значенняα лежать у

інтервалі [0, 1]. Якщо α уявити у вигляді ряду

α + α(1 − α) + α(1 − α) 2 + α(1 − α) 3 + ... + α(1 − α) n ,

то неважко помітити, що «ваги» зменшуються за експоненційним законом у часі. Наприклад, для α = 0 , 2 отримаємо

0,2 + 0,16 + 0,128 + 0,102 + 0,082 + …

Сума ряду прагне одиниці, а члени суми зменшуються з часом.

Величина Q t у виразі (5.3) являє собою експоненційну середню першого порядку, тобто середню, отриману безпосередньо при

згладжування даних спостереження (первинне згладжування). Іноді розробки статистичних моделей корисно вдатися до розрахунку експоненційних середніх вищих порядків, тобто середніх, одержуваних шляхом багаторазового експоненційного згладжування.

Загальний запис у рекурентній формі експоненційної середньої порядку k має вигляд

Q t (k) = α Q t (k - 1) + (1 - α) Q t (- k1).

Величина k змінюється в межах 1, 2, …, p, p +1, де – порядок прогнозного полінома (лінійного, квадратичного і так далі).

На основі цієї формули для експоненційної середньої першого, другого та третього порядків отримані вирази

Q t (1) = α y t + (1 - α) Q t (- 1 1);

Q t (2) = α Q t (1) + (1 − α) Q t (− 2 1); Q t (3) = α Q t (2) + (1 - α) Q t (-3 1).

5.2. Визначення параметрів прогнозної моделі методом експоненційного згладжування

Вочевидь, що з розробки прогнозних значень з урахуванням динамічного низки методом експоненційного згладжування необхідно обчислити коефіцієнти рівняння тренду через експоненційні середні. Оцінки коефіцієнтів визначаються за фундаментальною теоремою Брауна Меєра, яка зв'язує коефіцієнти прогнозуючого полінома з експоненційними середніми відповідних порядків:

(− 1 )

aˆ p

α (1 − α )∞

−α )

j (p − 1 + j)!

∑ j

p= 0

p! (k− 1) !j = 0

де a p p - оцінки коефіцієнтів полінома ступеняр .

Коефіцієнти знаходяться рішенням системи (p + 1) рівнянь сp + 1

невідомими.

Так, для лінійної моделі

aˆ 0 = 2 Q t (1) - Q t (2); aˆ 1 = 1 − α α (Q t (1 )− Q t (2 )) ;

для квадратичної моделі

aˆ 0 = 3 (Q t (1 )− Q t (2 )) + Q t (3 );

aˆ 1 =1 − α α [ (6 −5 α ) Q t (1 ) −2 (5 −4 α ) Q t (2 ) +(4 −3 α ) Q t (3 )];

aˆ 2 = (1 − α α ) 2 [ Q t (1 )− 2 Q t (2 )+ Q t (3 )] .

Прогноз реалізується за обраним багаточленом відповідно для лінійної моделі

ˆyt + τ = aˆ0 + aˆ1 τ;

для квадратичної моделі

ˆyt + τ = aˆ0 + aˆ1 τ + aˆ 2 2 τ 2 ,

де - крок прогнозування.

Необхідно відзначити, що експоненційні середні Q t (k) можна обчислити тільки за відомого (вибраного) параметра, знаючи початкові умови Q 0 (k).

Оцінки початкових умов, зокрема, для лінійної моделі

Q (1) = a

1 − α

Q(2 ) = a− 2 (1 − α ) a

для квадратичної моделі

Q (1) = a

1 − α

+ (1 − α )(2 − α ) a

2(1− α )

(1−α)(3−2α)

Q 0(2 ) = a 0−

2α 2

Q (3) = a

3(1− α )

(1 − α )(4 − 3 α ) a

де коефіцієнти a 0 і 1 обчислюються методом найменших квадратів.

Розмір параметра згладжування α приблизно обчислюється за формулою

α ≈ m 2 + 1 ,

де m - Число спостережень (значень) в інтервалі згладжування. Послідовність обчислення прогнозних значень представлена ​​на

Розрахунок коефіцієнтів низки методом найменших квадратів

Визначення інтервалу згладжування

Обчислення постійного згладжування

Обчислення початкових умов

Обчислення експоненційних середніх

Обчислення оцінок a 0 , a 1 і т.д.

Розрахунок прогнозних значень ряду

Мал. 5.1. Послідовність обчислення прогнозних значень

Як приклад розглянемо процедуру отримання прогнозного значення безвідмовної роботи виробу, що виражається напрацюванням на відмову.

Вихідні дані зведені у табл. 5.1.

Вибираємо лінійну модель прогнозування у вигляді y t = a 0 + a 1 τ

Рішення здійснимо з такими значеннями початкових величин:

a 0 0 = 64 2; a 1, 0 = 31, 5; α = 0,305.

Таблиця 5.1. Вихідні дані

Номер спостереження, t

Довжина кроку, прогнозування, τ

Напрацювання на відмову, y (година)

При цих значеннях обчислені «згладжені» коефіцієнти

величини y 2 дорівнюватимуть

= α Q (1) - Q (2) = 97, 9;

[ Q (1 )− Q (2 )

31, 9 ,

1− α

за початкових умов

1 − α

A 0 , 0 −

a 1, 0

= −7 , 6

1 − α

= −79 , 4

та експоненційних середніх

Q (1 )= α y + (1 − α ) Q (1 )

25, 2;

Q (2 )

= α Q (1 )

+ (1 −α) Q(2) = −47,5.

"Згладжена" величина y 2 при цьому обчислюється за формулою

Q i (1 )

Q i (2 )

a 0 ,i

a 1 ,i

ˆyt

Таким чином (табл. 5.2), лінійна прогнозна модель має вигляд

ˆy t + τ = 224, 5+ 32τ.

Обчислимо прогнозні значення для періодів попередження в 2 роки (? = 1), 4 роки (? = 2) і так далі напрацювання на відмову виробу (табл. 5.3).

Таблиця 5.3. Прогнозні значенняˆy t

Рівняння

t + 2

t + 4

t + 6

t + 8

t + 20

регресії

(τ = 1)

(τ = 2)

(τ = 3)

(τ = 5)

τ =

ˆy t = 224, 5+ 32τ

Слід зазначити, що сумарну «вагу» останніх m значень тимчасового ряду можна обчислити за формулою

c = 1−(m(−1)m). m+ 1

Так, для двох останніх спостережень ряду (m = 2) величина c = 1 - (2 2 - + 1 1) 2 = 0,667.

5.3. Вибір початкових умов та визначення постійного згладжування

Як випливає з виразу

Q t= α y t+ (1 − α ) Q t− 1 ,

при проведенні експоненційного згладжування необхідно знати початкове (попереднє) значення функції, що згладжується. У деяких випадках за початкове значення можна взяти перше спостереження, частіше початкові умови визначаються відповідно до виразів (5.4) та (5.5). У цьому величини a 0 , 0 ,a 1 , 0

і a 2 0 визначаються методом найменших квадратів.

Якщо ми не дуже довіряємо вибраному початковому значенню, то, взявши велике значення постійного згладжування через к спостережень, ми доведемо

«вага» початкового значення до величини (1 − α ) k<< α , и оно будет практически забыто. Наоборот, если мы уверены в правильности выбранного начального значения и неизменности модели в течение определенного отрезка времени в будущем,α может быть выбрано малым (близким к 0).

Таким чином, вибір постійного згладжування (або числа спостережень у середній, що рухається) передбачає прийняття компромісного рішення. Зазвичай, як показує практика, величина постійного згладжування лежить у межах від 0,01 до 0,3.

Відомо кілька переходів, що дозволяють знайти наближену оцінку α. Перший випливає з умови рівності ковзної та експоненційної середньої

α = m 2 + 1 ,

де m - Число спостережень в інтервалі згладжування. Інші підходи пов'язуються з точністю прогнозу.

Так, можливе визначення α виходячи із співвідношення Мейєра:

α ≈ S y ,

де S y - Середньоквадратична помилка моделі;

S 1 - Середньоквадратична помилка вихідного ряду.

Однак використання останнього співвідношення утруднено тим, що достовірно визначити S y і S 1 вихідної інформації дуже складно.

Часто параметр згладжування, а заразом і коефіцієнти a 0 0 і 0 1

підбирають оптимальними залежно від критерію

S 2 = α ∑ ∞ (1 − α ) j [ yij − ˆyij ] 2 → min

j = 0

шляхом розв'язання алгебраїчної системи рівнянь, яку одержують, прирівнюючи до нуля похідні

∂ S2

∂ S2

∂ S2

∂ a 0, 0

∂ a 1, 0

∂ a 2, 0

Так, для лінійної моделі прогнозування вихідний критерій дорівнює

S 2 = α ∑ ∞ (1 − α ) j [ yij − a0 , 0 − a1 , 0 τ ] 2 → min.

j = 0

Рішення цієї системи за допомогою ЕОМ не становить жодних складнощів.

Для обґрунтованого вибору α також можна використовувати процедуру узагальненого згладжування, яка дозволяє отримати наступні співвідношення, що пов'язують дисперсію прогнозу та параметр згладжування для лінійної моделі:

S п 2 ≈[ 1 + α β ] 2 [ 1 +4 β +5 β 2 +2 α (1 +3 β ) τ +2 α 2 τ 3 ] S y 2

для квадратичної моделі

S п 2≈ [ 2 α + 3 α 3+ 3 α 2τ ] S y 2,

де β = 1 α ;Sy- СКО апроксимації вихідного динамічного ряду.

Тема 3. Згладжування та прогнозування часових рядів на основі трендових моделей

Метоювивчення даної теми є створення базової основи підготовки менеджерів зі спеціальності 080507 у галузі побудови моделей різних завдань у сфері економіки, формування у студентів систематизованого підходу до постановки та вирішення завдань прогнозування. Пропонований курс дозволить фахівцям швидше адаптуватися до практичної роботи, краще орієнтуватися в науково-технічній інформації та літературі за фахом, впевненіше приймати рішення, що виникають у роботі.

Основними завданнямививчення теми є: отримання студентами поглиблених теоретичних знань щодо застосування моделей прогнозу, набуття ними стійких навичок виконання науково-дослідних робіт, вміння вирішувати складні наукові проблеми, пов'язані з побудовою моделей, включаючи і багатовимірні, здатності до логічного аналізу отриманих результатів та визначення шляхів пошуку прийнятних рішень.

Досить простим методом виявлення тенденції розвитку є згладжування часового ряду, тобто заміна фактичних рівнів розрахунковими, що мають менші варіації, ніж вихідні дані. Відповідне перетворення називається фільтруванням. Розглянемо кілька способів згладжування.

3.1. Прості середні

Метою згладжування є побудова моделі прогнозування для наступних періодів, з попередніх спостережень. У методі простих середніх початкові дані приймаються значення змінної Yу моменти часу t, А прогнозне значення визначається як просте середнє на наступний часовий період. Розрахункова формула має вигляд

де nкількість спостережень.

У разі, коли стає доступним нове спостереження, для прогнозування наступного періоду слід врахувати і отриманий прогноз. При використанні цього методу прогноз здійснюється шляхом усереднення всіх попередніх даних, проте недоліком такого прогнозування є складність його використання у трендових моделях.

3.2. Метод ковзних середніх

Даний метод заснований на поданні ряду у вигляді суми досить гладкого тренду та випадкового компонента. У основі методу лежить ідея розрахунку теоретичного значення з урахуванням локального наближення. Для побудови оцінки тренда у точці tза значеннями ряду з часового інтервалу розраховують теоретичне значення низки. Найбільшого поширення на практиці згладжування рядів отримав випадок, коли всі ваги для елементів інтервалу рівні між собою. З цієї причини цей метод називають методом ковзних середніх,так як при виконанні процедури відбувається ковзання вікном завширшки (2 m + 1)по всьому ряду. Ширину вікна зазвичай беруть непарною, тому що теоретичне значення розраховується для центрального значення: кількість доданків k = 2m + 1з однаковим числом рівнів зліва та праворуч від моменту t.

Формула для розрахунку ковзної середньої в цьому випадку набуває вигляду:

Дисперсія ковзної середньої визначається як σ 2 /k,де через σ 2позначено дисперсію вихідних членів ряду, а kінтервал згладжування, тому чим більше інтервал згладжування, тим сильніше усереднення даних і менш мінлива тенденція, що виділяється. Найчастіше згладжування виробляють по трьох, п'яти та семи членах вихідного ряду. При цьому слід враховувати такі особливості ковзної середньої: якщо розглянути ряд з періодичними коливаннями постійної довжини, то при згладжуванні на основі ковзної середньої з інтервалом згладжування, рівним або кратним періоду, коливання повністю усунуть. Нерідко згладжування на основі ковзної середньої настільки сильно перетворює ряд, що виділена тенденція розвитку проявляється лише в загальних рисах, а дрібніші, але важливі для аналізу деталі (хвилі, вигини і т. д.) зникають; після згладжування дрібні хвилі можуть іноді поміняти напрямок на протилежний на місці «піків» з'являються «ями», і навпаки. Все це вимагає обережності у застосуванні простої ковзної середньої та змушує шукати більш тонкі методи опису.

Метод ковзних середніх не дає значень тренду для перших та останніх mчленів низки. Цей недолік особливо помітно позначається у разі, коли довжина низки невелика.

3.3. Експонентне згладжування

Експонентна середня y tє прикладом асиметричної виваженої ковзної середньої, в якій враховується ступінь старіння даних: більш «стара» інформація з меншою вагою входить до формули для розрахунку згладженого значення рівня ряду

Тут — експоненційна середня, що замінює значення ряду, що спостерігається y t(у згладжуванні беруть участь усі дані, отримані до поточного моменту t), α параметр згладжування, що характеризує вагу поточного (найновішого) спостереження; 0< α <1.

Метод застосовується для прогнозування нестаціонарних часових рядів, що мають випадкові зміни рівня та кута нахилу. У міру віддалення від поточного моменту часу в минуле вага відповідного члена ряду швидко (експоненційно) зменшується і практично перестає впливати на значення .

Легко отримати, що останнє співвідношення дозволяє дати наступну інтерпретацію експоненційної середньої: якщо — прогноз значення ряду y t, то різницю є похибка прогнозу. Таким чином, прогноз для наступного моменту часу t + 1враховує відомою в момент tпомилку прогнозу.

Параметр згладжування α є фактором, що зважує. У разі якщо α близько до одиниці, то прогнозі істотно враховується величина помилки останнього прогнозування. При малих значеннях α прогнозована величина близька до попереднього прогнозу. Вибір параметра згладжування є досить складною проблемою. Загальні міркування такі: метод хороший для прогнозування досить гладких рядів. У цьому випадку можна вибрати константу, що згладжує шляхом мінімізації помилки прогнозу на один крок вперед, оціненої по останній третині ряду. Деякі фахівці не рекомендують використовувати велике значення параметра згладжування. На рис. 3.1 показаний приклад згладженого ряду методом експоненційного згладжування при α= 0,1.

Мал. 3.1. Результат експоненційного згладжування при α =0,1
(1 | вихідний ряд; 2 | згладжений ряд; 3 | залишки)

3.4. Експонентне згладжування
з урахуванням тренду (метод Хольта)

У цьому вся методі враховується локальний лінійний тренд, наявний у часових рядах. Якщо у часових рядах є тенденція до зростання, то разом з оцінкою поточного рівня необхідна оцінка нахилу. У методиці Хольта значення рівня та нахилу згладжуються безпосередньо шляхом використання різних постійних для кожного з параметрів. Постійні згладжування дозволяють оцінити поточний рівень і нахил, уточнюючи їх щоразу з появою нових спостережень.

У методі Хольта використовуються три розрахункові формули:

  1. Експонентно згладжений ряд (оцінка поточного рівня)

(3.2)

  1. Оцінка тренду

(3.3)

  1. Прогноз на рперіодів уперед

(3.4)

де α, β Постійні згладжування з інтервалу.

Рівняння (3.2) схоже на рівняння (3.1) для простого експонентного згладжування за винятком члена, що враховує тренд. Постійна β потрібна для згладжування оцінки тренду. У рівнянні прогнозу (3.3) оцінка тренда множиться на число періодів р, який будується прогноз, та був цей твір складається з поточним рівнем згладжених даних.

Постійні α і β вибираються суб'єктивно чи шляхом мінімізації помилки прогнозування. Чим більші значення ваг будуть взяті, тим швидший відгук на зміни, що відбуваються, буде мати місце і більшому згладжуванню піддаються дані. Найменші ваги роблять структуру згладжених значень менш рівною.

На рис. 3.2 наведено приклад згладжування ряду методом Хольта при значеннях α і β , рівних 0,1.

Мал. 3.2. Результат згладжування методом Хольта
при α = 0,1 і β = 0,1

3.5. Експонентне згладжування з урахуванням тренду та сезонних варіацій (метод Вінтерса)

За наявності у структурі даних сезонних коливань зменшення помилок прогнозування використовується трипараметрична модель експоненційного згладжування, запропонована Вінтерсом. Цей підхід є розширення попередньої моделі Хольта. Для врахування сезонних варіацій тут застосовується додаткове рівняння, і цей метод описується чотирма рівняннями:

  1. Експоненційно згладжений ряд

(3.5)

  1. Оцінка тренду

(3.6)

  1. Оцінка сезонності

.

(3.7)

  1. Прогноз на рперіодів уперед

(3.8)

де α, β, γ постійні згладжування для рівня, тренду та сезонності, відповідно; s- Тривалість періоду сезонного коливання.

Рівняння (3.5) коригує згладжені ряди. У цьому рівнянні член враховує сезонність у вихідних даних. Після врахування сезонності та тренду в рівняннях (3.6), (3.7) оцінки згладжуються, а в рівнянні (3.8) робиться прогноз.

Так само, як і в попередньому способі, ваги α, β, γ можуть вибиратися суб'єктивно чи шляхом мінімізації помилки прогнозування. Перед застосуванням рівняння (3.5) необхідно визначити початкові значення для згладженого ряду L t, тренда T t, коефіцієнтів сезонності S t. Зазвичай початкове значення згладженого ряду приймається рівним першому спостереженню, тоді тренд дорівнює нулю, а коефіцієнти сезонності встановлюються рівними одиниці.

На рис. 3.3 показаний приклад згладжування ряду методом Вінтерса.

Мал. 3.3. Результат згладжування за методом Вінтерса
при α = 0,1 = 0,1; γ = 0,1(1- вихідний ряд; 2 - згладжений ряд; 3 - залишки)

3.6. Прогнозування на основі трендових моделей

Часто тимчасові ряди мають лінійну тенденцію (тренд). При припущенні лінійної тенденції потрібно побудувати пряму лінію, яка найточніше відображала зміна динаміки за аналізований період. Є кілька методів побудови прямої лінії, але найбільш об'єктивною з формальної точки зору буде побудова, заснована на мінімізації суми негативних та позитивних відхилень вихідних значень ряду від прямої лінії.

Пряму лінію у системі двох координат (х,у)можна визначити точкою перетину однієї з координат ута кутом нахилу до осі х.Рівняння такої прямої виглядатиме як де a -точка перетину; bкут нахилу.

Щоб пряма відображала хід динаміки, необхідно мінімізувати суму вертикальних відхилень. При використанні як критерій оцінки мінімізації простої суми відхилень вийде не дуже хороший результат, оскільки негативні та позитивні відхилення взаємно компенсують один одного. Мінімізація суми абсолютних значень також не призводить до задовільних результатів, оскільки оцінки параметрів у цьому випадку нестійкі, є обчислювальні труднощі при реалізації такої процедури оцінювання. Тому найбільш часто використовуваною процедурою є мінімізація суми квадратів відхилень або метод найменших квадратів(МНК).

Оскільки ряд вихідних значень має коливання, модель ряду міститиме помилки, квадрати яких треба мінімізувати

де y i | спостерігається значення; y i * теоретичні значення моделі; номер спостереження.

При моделюванні тенденції вихідного часового ряду за допомогою лінійного тренду приймемо, що

Поділивши перше рівняння на n, приходимо до наступного

Підставивши отриманий вираз у друге рівняння системи (3.10) для коефіцієнта b *отримаємо:

3.7. Перевірка відповідності моделі

Як приклад на рис. 3.4 наведено графік лінійної регресії між потужністю автомобіля хта його вартістю у.

Мал. 3.4. Графік лінійної регресії

Рівняння для цього випадку має вигляд: у=1455,3 + 13,4 х. Візуальний аналіз цього малюнка показує, що з низки спостережень є значні відхилення від теоретичної кривої. Графік залишків показано на рис. 3.5.

Мал. 3.5. Графік залишків

Аналіз залишків лінії регресії може бути корисною мірою того, наскільки оцінена регресія відображає реальні дані. Добра регресія та, яка пояснює значну частку дисперсії і, навпаки, погана регресія не відслідковує велику величину коливань вихідних даних. Інтуїтивно ясно, що будь-яка додаткова інформація дозволить покращити модель, тобто зменшити незрозумілу частку змінної варіації. у. Для аналізу регресійної проведемо розкладання дисперсії на складові. Очевидно, що

Останнє доданок дорівнюватиме нулю, тому що являє собою суму залишків, тому приходимо до наступного результату

де SS 0, SS 1, SS 2визначають відповідно загальну, регресійну та залишкову суми квадратів.

Регресійна сума квадратів вимірює частину дисперсії, що пояснюється лінійною залежністю; залишкова частина дисперсії, не пояснювану лінійною залежністю.

Кожна з цих сум характеризується відповідним числом ступенів свободи (ЧСС), що визначає кількість одиниць даних, незалежних один від одного. Інакше висловлюючись, ЧСС пов'язані з кількістю спостережень nі числом даних параметрів, що обчислюються за сукупністю. У цьому випадку для розрахунку SS 0 визначається лише одна постійна (середнє значення), отже ЧСС для SS 0 складе (n1), ЧСС для SS 2 – (n – 2)та ЧСС для SS 1складе n - (n - 1) = 1, Оскільки у рівнянні регресії є n – 1 постійних точок. Як і суми квадратів, ЧСС пов'язані співвідношенням

Суми квадратів, пов'язані з розкладанням дисперсії, разом із відповідними ЧСС можуть бути розміщені в так званій таблиці аналізу дисперсій (таблиця ANOVA ANalysis Of VAriance) (табл. 3.1).

Таблиця 3.1

Таблиця ANOVA

Джерело

Сума квадратів

Середній квадрат

Регресія

SS 2/(n-2)

За допомогою введеної абревіатури для сум квадратів визначимо коефіцієнт детермінаціїяк відношення суми квадратів регресії до загальної суми квадратів у вигляді

(3.13)

Коефіцієнт детермінації вимірює частку мінливості змінної Y, яку можна пояснити за допомогою інформації про мінливість незалежної змінної X.Коефіцієнт детермінації змінюється від нуля, коли Хне впливає на Y,до одиниці, коли зміна Yповністю пояснюється зміною X.

3.8. Регресійна модель прогнозу

Найкращим вважається прогноз, що має мінімальну дисперсію. У разі звичайний МНК виробляє найкращий прогноз із усіх методів, дають несмещенные оцінки з урахуванням лінійних рівнянь. Помилка прогнозу, пов'язана з процедурою прогнозування, може йти від чотирьох джерел.

По-перше, випадкова природа адитивних помилок, що обробляються лінійною регресією, гарантує, що прогноз відхилятиметься від справжніх величин навіть якщо модель правильно специфікована та її параметри точно відомі.

По-друге, сам процес оцінки вносить помилку в оцінку параметрів - вони рідко можуть дорівнювати істинним значенням, хоча рівні їм в середньому.

По-третє, у разі умовного прогнозу (у разі невідомих точно значень незалежних змінних) помилка вноситься з прогнозом змінних, що пояснюють.

По-четверте, помилка може виникнути через те, що специфікація моделі неточна.

У результаті джерела помилки можна класифікувати наступним чином:

  1. природа змінної;
  2. природа моделі;
  3. помилка, яка вноситься прогнозом незалежних випадкових величин;
  4. помилка специфікації.

Розглядатимемо безумовний прогноз, коли незалежні змінні легко і точно прогнозуються. Розпочнемо розгляд проблеми якості прогнозу з рівняння парної регресії.

Постановку завдання у разі можна сформулювати так: яким буде найкращий прогноз y T+1 за умови, що у моделі y = a + bxпараметри аі bоцінені точно, а значення x T+1¦ відомо.

Тоді прогнозне значення можна визначити як

Помилка прогнозу при цьому становитиме

.

Помилка прогнозу має дві властивості:

Отримана дисперсія мінімальна серед усіх можливих оцінок, що ґрунтуються на лінійних рівняннях.

Хоча ата b відомі, помилка прогнозу з'являється за рахунок того, що у T+1може не лежати на лінії регресії через помилку ε T+1, що підпорядковується нормальному розподілу з нульовим середнім та дисперсією σ 2. Для перевірки якості прогнозу введемо нормалізовану величину

Тоді можна визначити 95% довірчий інтервал у наступному вигляді:

де β 0,05квантили нормального розподілу.

Межі 95% інтервалу можна визначити як

Зазначимо, що у цьому випадку ширина довірчого інтервалуне залежить від величини х,і межі інтервалу є прямі лінії, паралельні лінії регресії.

Найчастіше при побудові лінії регресії та перевірці якості прогнозу треба оцінювати як параметри регресії, а й дисперсію помилки прогнозу. Можна показати, що в цьому випадку дисперсія помилки залежить від величини (), де середнє значення незалежної змінної. Крім того, що більша довжина ряду, то точніше прогноз. Помилка прогнозу зменшується, якщо значення X T+1 близьке до середньої величини незалежної змінної, і навпаки, при віддаленні від середнього значення прогноз стає менш точним. На рис. 3.6 показані результати прогнозу за допомогою рівняння лінійної регресії на 6 інтервалів часу вперед разом із довірчими інтервалами.

Мал. 3.6. Прогноз щодо рівняння лінійної регресії

Як видно із рис. 3.6, ця лінія регресії недостатньо добре описує вихідні дані: спостерігається велика варіація щодо підгонки прямий. Про якість моделі можна судити також щодо залишків, які за задовільної моделі мають бути розподілені приблизно за нормальним законом. На рис. 3.7 наведено графік залишків, побудований за допомогою ймовірнісної шкали.

Рис.3.7. Графік залишків

При використанні такої шкали дані, що підпорядковуються нормальному закону, мають лежати прямої лінії. Як випливає з наведеного малюнка, точки на початку і в кінці періоду спостережень дещо відхиляються від прямої лінії, що свідчить про недостатньо високу якість обраної моделі у вигляді рівняння лінійної регресії.

У табл. 3.2 наведено результати прогнозу (друга колонка) разом з довірчими 95%-ними інтервалами (нижнім третя і верхнім четверта колонки відповідно).

Таблиця 3.2

Результати прогнозу

3.9. Багатомірна регресійна модель

При багатовимірній регресії дані кожного випадку включають значення залежної змінної і кожної незалежної змінної. Залежна змінна yЦе випадкова величина, пов'язана з незалежними змінними наступним співвідношенням:

де коефіцієнти регресії, що підлягають визначенню; ε компонент помилки, що відповідає відхиленню значень залежної змінної від істинного співвідношення (передбачається, що помилки незалежні і мають нормальний розподіл з нульовим математичним очікуванням та невідомою дисперсією σ ).

Для заданого набору даних оцінки коефіцієнтів регресії можна знайти з допомогою МНК. Якщо оцінки МНК позначити через , то відповідна функція регресії матиме вигляд:

Залишки є оцінками компонента помилки і подібні до залишків у разі простої лінійної регресії.

Статистичний аналіз моделі багатовимірної регресії проводиться аналогічно до аналізу простої лінійної регресії. Стандартні пакети статистичних програм дозволяють отримати оцінки МНК для параметрів моделі, оцінки їх стандартних помилок. Крім того, можна отримати значення t-статистики для перевірки значимості окремих доданків регресійної моделі та величину F-Статистики для перевірки значущості регресійної залежності.

Форма розбиття сум квадратів у разі багатовимірної регресії аналогічна виразу (3.13), але співвідношення для ЧСС буде наступним

Наголосимо ще раз, що nявляє собою обсяг спостережень, а kчисло змінних у моделі. Загальна варіація залежної змінної і двох складових: варіації, поясненої незалежними змінними через функцію регресії, і непоясненої варіації.

Таблиця ANOVA для випадку багатовимірної регресії матиме вигляд, показаний у табл. 3.3.

Таблиця 3.3

Таблиця ANOVA

Джерело

Сума квадратів

Середній квадрат

Регресія

SS 2/(n-k-1)

Як приклад багатовимірної регресії скористаємося даними з пакета Statistica (файл даних Poverty.Sta)Наведені дані засновані на порівнянні результатів перепису 1960 та 1970 рр. для випадкової вибірки із 30 країн. Назви країн були введені як назви рядків, а назви всіх змінних цього файлу наведені нижче:

POP_CHNG зміна населення за 1960-1970 рр.;

N_EMPLD кількість людей, зайнятих у сільському господарстві;

PT_POOR - відсоток сімей, які живуть нижче рівня бідності;

TAX_RATE ставка податку;

PT_PHONE - відсоток квартир з телефоном;

PT_RURAL - відсоток сільського населення;

AGE - середній вік.

Як залежна змінна виберемо ознаку Pt_Poor, а як незалежні - всі інші. Розраховані коефіцієнти регресії між виділеними змінними наведено у табл. 3.4

Таблиця 3.4

Регресійні коефіцієнти

Ця таблиця показує регресійні коефіцієнти ( У) та стандартизовані регресійні коефіцієнти ( Beta). За допомогою коефіцієнтів Увстановлюється вид рівняння регресії, яке в даному випадку має вигляд:

Включення до правої частини цих змінних обумовлено тим, що ці ознаки мають значення ймовірності рменше, ніж 0,05 (див. четвертий стовпець табл. 3.4).

Бібліографія

  1. Басовський Л. Є.Прогнозування та планування в умовах ринку. - М.: Інфра - М, 2003.
  2. Бокс Дж., Дженкінс Р.Аналіз часових рядів. Вип.1. Прогноз та управління. - М.: Світ, 1974.
  3. Боровіков В. П., Івченко Г. І.Прогнозування в системі Statistica у середовищі Windows. - М.: Фінанси та статистика, 1999.
  4. Дюк Ст.Обробка даних на ПК у прикладах. - СПб.: Пітер, 1997.
  5. Івченко Б. П., Мартищенко Л. А., Іванцов І. Б.Інформаційна мікроекономіка. Частина 1. Методи аналізу та прогнозування. - СПб.: Нордмед-Іздат, 1997.
  6. Кричевський М. Л.Введення в штучні нейронні мережі: Навч. допомога. - СПб.: СПб. держ. морський техн. ун-т, 1999.
  7. Сошникова Л. А., Тамашевіч Ст Н., Уебе Г. та ін.Багатомірний статистичний аналіз економіки. - М.: Юніті-Дана, 1999.

1. Основні методичні засади.

У методі простого експоненційного згладжування застосовується зважене (експоненційно) ковзне усереднення всіх даних попередніх спостережень. Ця модель найчастіше застосовується до даних, в яких необхідно оцінити наявність залежності між показниками, що аналізуються (тренда) або залежність аналізованих даних. Метою експоненційного згладжування є оцінка поточного стану, результати якого визначать усі наступні прогнози.

Експонентне згладжування передбачаєпостійне оновлення моделі за рахунок найсвіжіших даних. Цей метод ґрунтується на усередненні (згладжуванні) тимчасових рядів минулих спостережень у низхідному (експоненційному) напрямку. Тобто пізнішим подіям надається більша вага. Вага надається таким чином: для останнього спостереження вагою буде величина α, для передостаннього – (1-α), для того, що було перед ним, - (1-α) 2 і т.д.

У згладженому вигляді новий прогноз (для періоду часу t+1) можна подавати як зважене середнє останнього спостереження величини в момент часу t та її попереднього прогнозу на цей період t. Причому вага α присвоюється значенню, що спостерігається, а вага (1- α) - прогнозу; при цьому вважається, що 0< α<1. Это правило в общем виде можно записать следующим образом.

Новий прогноз = [α*(останнє спостереження)]+[(1-α)*останній прогноз]

де - прогнозоване значення наступного періоду;

α – постійне згладжування;

Y t - Спостереження величини за поточний період t;

Попередній згладжений прогноз цієї величини на період t.

Експонентне згладжування – це процедура для постійного перегляду результатів прогнозування у світлі останніх подій.

Постійне згладжування є зваженим фактором. Її реальне значення визначається тим, якою мірою поточне спостереження має впливати на прогнозовану величину. Якщо близько до 1, значить у прогнозі істотно враховується величина помилки останнього прогнозування. І навпаки, при малих значеннях прогнозована величина найбільш близька до попереднього прогнозу. Можна уявити як виважене середнє значення всіх минулих спостережень з ваговими коефіцієнтами, що експоненційно зменшуються з «віком» даних.



Таблиця 2.1

Порівняння впливу різних значень постійних згладжування

Постійна є ключем до аналізу даних. Якщо потрібно, щоб спрогнозовані величини були стабільними і випадковими відхиленнями згладжувалися, необхідно вибирати мале значення α. Велике значення постійної має сенс у тому випадку, якщо потрібна швидка реакція на зміни в спектрі спостережень.

2. Практичний приклад проведення експоненційного згладжування.

Подано дані компанії за обсягом продажів (тис. шт.) за сім років, постійне згладжування взято рівною 0,1 і 0,6. Дані за 7 років складають тестову частину; за ними необхідно оцінити ефективність кожної моделі. Для експонентного згладжування рядів початкове значення береться рівним 500 (перше значення фактичних даних або середнє значення за 3 -5 періодів записується в згладжене значення за 2 квартал).

Таблиця 2.2

Вихідні дані

Час Справжнє значення (фактичне) Згладжене значення Помилка прогнозу
рік квартал 0,1 0,1
Excel за формулою
#Н/Д 0,00
500,00 -150,00
485,00 485,00 -235,00
461,50 461,50 -61,50
455,35 455,35 -5,35
454,82 454,82 -104,82
444,33 444,33 -244,33
419,90 419,90 -119,90
407,91 407,91 -57,91
402,12 402,12 -202,12
381,91 381,91 -231,91
358,72 358,72 41,28
362,84 362,84 187,16
381,56 381,56 -31,56
378,40 378,40 -128,40
365,56 365,56 184,44
384,01 384,01 165,99
400,61 400,61 -0,61
400,55 400,55 -50,55
395,49 395,49 204,51
415,94 415,94 334,06
449,35 449,35 50,65
454,41 454,41 -54,41
448,97 448,97 201,03
469,07 469,07 380,93

На рис. 2.1 представлений прогноз на основі експоненційного згладжування з постійною згладжування, що дорівнює 0,1.



Мал. 2.1. Експонентне згладжування

Рішення в Excel.

1. Виберіть «Сервіс» – «Аналіз даних». У списку «Інструменти аналізу» виберіть «Екпонентне згладжування». Якщо в меню «Сервіс» немає аналізу даних, необхідно встановити «Пакет аналізу». Для цього знайти в «Параметрах» пункт «Налаштування» і в діалоговому вікні встановити прапорець на «Пакет аналізу», натиснути ОК.

2. На екрані відкриється діалогове вікно, представлене на рис. 2.2.

3. У полі «вхідний інтервал» введіть значення вихідних даних (плюс один вільний осередок).

4. Встановіть прапорець "мітки" (якщо в діапазоні введення вказані назви стовпців).

5. Введіть значення (1-α) у полі «фактор загасання».

6. У полі "вхідний інтервал" введіть значення комірки, в якій хотіли б побачити отримані значення.

7. Встановіть прапорець «Опції» - «Виведення графіка» для автоматичної його побудови.

Мал. 2.2. Діалогове вікно для експонентного згладжування

3. Завдання лабораторної роботи.

Є вихідні дані про обсяги видобутку нафтовидобувного підприємства за 2 роки, подані у таблиці 2.3:

Таблиця 2.3

Вихідні дані

Проведіть експонентне згладжування рядів. Коефіцієнт експонентного згладжування прийміть рівним 0,1; 0,2; 0,3. Отримані результати прокоментуйте. Можна використовувати статистичні дані, наведені в додатку 1.